CN113918895A

CN113918895A - 一种文本文档溯源追踪的方法

Info

Publication number: CN113918895A
Application number: CN202111241434.7A
Authority: CN
Inventors: 蔡后祥; 范渊; 吴永越; 郑学新; 刘韬
Original assignee: Chengdu DBAPPSecurity Co Ltd
Current assignee: Chengdu DBAPPSecurity Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-11
Anticipated expiration: 2041-10-25
Also published as: CN113918895B

Abstract

本发明涉及文本文档技术领域，公开了一种文本文档溯源追踪的方法，包括：用户从客户端获取原始文档；服务器以原始文档中的文档句子为坐标单位对原始文档进行分割；根据预设的生成同义水印规则对分割后的原始文档添加同义水印，生成同义水印文档，同义水印文档包括二维坐标数组数据A1；根据预设的提取同义水印规则对文档进行排查，获取文档内容变动的二维数组信息A2；预设相似度阈值，当排查到的文档的相似度大于或等于相似度阈值时，获取到添加同义水印的同义水印文档；从同义水印文档中获取用户注册信息，根据用户注册信息确认用户，并将其标记为泄露用户进行惩罚操作。本发明用于解决文本型文档添加水印进行文档泄露追踪溯源的问题。

Description

一种文本文档溯源追踪的方法

技术领域

本发明涉及文本文档技术领域，具体地说，是一种文本文档溯源追踪的方法，用于解决文本型文档添加水印进行文档泄露追踪溯源的问题。

背景技术

互联网的开始就是从静态文本文档的展示开始的，到了移动互联网时代，文本文档的网络内容依然是互联网不可或缺的一部分。对于部分企业来说，如小说网站、论文查重、新闻网站、文库网站，文本文档就是企业盈利的基础，往往会遇到非法的灰产从业者的盗取，进行非法盈利。以小说网站为例，灰产从业者通过注册账户使用爬虫的方式对付费小说进行爬取，然后再上传到盗版网站，以供其他用户进行免费阅读，并进行大量的广告投放盈利，严重损害了作者和小说阅读网站的利益。小说网站方只能对盗版网站进行举报进行封禁，但是盗版方可以非常方便的再次建站，从而起不到从根本上解决该问题的办法。

为了解决上述问题，亟需一种方法，能够为不同的用户生成不同的水印，这样当小说被爬虫爬取投放到盗版网站后，小说网站可以通过检测小说其中的水印痕迹，查处爬虫所用的账户和余额等信息，起到从源头处切断盗版的供应，显著的提高了盗版的成本。同时该种方法对于其他对文本文档有溯源要求的企业一样可以起到非常好的追踪溯源，保护企业利益的作用。

发明内容

本发明的目的在于提供一种文本文档溯源追踪的方法，解决文本型文档添加水印进行文档泄露追踪溯源的问题，具有较好的溯源效果和鲁棒性的效果。

本发明通过下述技术方案实现：一种文本文档溯源追踪的方法，包括以下步骤：

步骤S1.用户在客户端发送获取原始文档的请求信号，并获取该用户的用户注册信息对应的原始文档；

步骤S2.服务器接收到请求信号后以原始文档中的文档句子为坐标单位对原始文档进行分割；

步骤S3.根据预设的生成同义水印规则对分割后的原始文档添加同义水印，生成同义水印文档，同义水印文档包括二维坐标数组数据A1；

步骤S4.根据预设的提取同义水印规则对文档进行排查，获取文档内容变动的二维数组信息A2；

步骤S5.预设相似度阈值，当排查到的文档的相似度大于或等于相似度阈值时，获取到添加同义水印的同义水印文档；

步骤S6.从同义水印文档中获取用户注册信息，根据用户注册信息确认用户，并将其标记为泄露用户，对泄露用户进行惩罚操作。

在本技术方案中，用户通过请求获取原始待生成水印的文本文档内容，即原始文档，本技术方案主要从两个大方向进行文档的追溯，首先是生成水印技术方案，其次是提取水印技术方案，在生成水印中，以句子为单位分割文档,Y轴坐标为句子的序号，X轴坐标为单词在该句子中的位置，随机选取句子为待添加水印的序列，记录句子编号[y1,y2,y3,…,yn]，使用机器学习进行机器分析语义，对句子中的单词进行随机替换，记录替换单词的位置x坐标，再得出被修改点的二维数组信息进行存储，最后将被修改后的文档发送给用户。

提取水印部分以句子为单位分割文档,Y轴坐标为句子的序号，X轴坐标为单词在该句子中的位置，和原始文档进行对比，得出当前文档和原始文档不一致点的二维数组信息和存储的二维数组信息，进行计算相似度对比分析，获取对应的用户注册信息。找到恶意泄露的用户并对该用户进行封禁或其他惩罚操作，从而从源头处切断盗版的供应，显著的提高了盗版的成本。

为了更好地实现本发明，进一步地，步骤S1中的用户注册信息包括用户的ID号信息、用户的手机号信息和用户的用户名信息。

在本技术方案中，用户注册信息可以在之后和文档进行绑定，有助于我们寻找爬虫用户，也就是恶意泄露用户，这里的用户注册信息也不同于其他的文档溯源处理方法中的用户注册信息，因为本技术方案中的用户注册信息和文档绑定后，一份文档会根据不同的用户注册信息产生随机序列，会绑定不同的二维数组信息，其他的文档溯源处理方法中的用户注册信息并不会和文档中的二维数组信息绑定。

这样当每个用户注册信息请求文本文档的时候，会产生不一样的数据效果。

为了更好地实现本发明，进一步地，步骤S2包括：

预设文档句子坐标轴，以文档句子行数为Y轴坐标，以文档句子文字所在位置为X坐标；根据文档句子坐标轴将原始文档分割成文档行。

在本技术方案中，使用一种利用文字内容添加水印的方式，对文档内容中的语义进行机器学习分析，在使用机器学习的模型进行同义词进行替换之前，必须对模型进行训练学习。

为了更好地实现本发明，进一步地，步骤S3中的生成同义水印规则包括：

根据用户注册信息在分割后的原始文档中随机选取文档行生成随机替换位置；

根据机器学习对随机替换位置的文字进行文字同义词替换，并将文字同义词替换信息记录为同义水印；

预设文字数量替换率，根据文字数量替换率对随机替换位置进行替换，获取随机替换位置的二维坐标数组数据A1，并获取同义水印文档；

将二维坐标数组数据A1和对应用户进行关系绑定，将二维坐标数组数据A1、对应用户的注册信息和二者的绑定关系存储到服务器。

在本技术方案中，二维坐标数组数据A1作为文本文档的数字水印信息，有助于将排查的文档和服务器上的原始文档进行对比发现泄露后的文档，生成同义水印规则有助于进行提生成水印信息，以达到发现泄露账户的目的。本技术方案利用了图像水印的原理，可以将随机替换位置转化为文本文档中的数字水印，可以非常便利的溯源而且不影响用户对文本的阅读体验，提高了非法获取的成本，对于小说网站或者其他文本内容，不需要再投入封禁非法盗版网站的低效方式，而是直接对泄露的源头进行处理。

为了更好地实现本发明，进一步地，随机替换位置包括分割后的原始文档中将要被替换的文字内容位置和文字行数位置；

文字同义词替换信息包括被替换的文字位置信息和被替换文字信息。

本技术方案中的随机替换位置包括被替换的文字位置信息和被替换文字信息，通过随机筛选这些信息进行多组同义词库的补充和添加，保证后续添加同义水印的全面性和完整性。

为了更好地实现本发明，进一步地，据机器学习对随机替换位置的文字进行文字同义词替换包括：

根据统计模型和规则模型进行机器学习的预先训练。

在本技术方案中，在生成水印的过程中，对原始文档的内容进行相似语义的单词替换会和原始语义产生变化，导致用户阅读出现障碍，这种情况需要利用机器学习的方式，尽可能的贴近原始语义。

进行同义的内容的转换，在实际中主要由基于规则和基于统计两种方案。基于规则的模型，依靠的是语言学理论。基于统计的模型，例如贝叶斯深度学习模型,是通过大量的文本，抽取出“词”，“句”，以及“语义”的对应关系，其效果远远是好于基于规则的模型。利用贝叶斯深度学习模型对大量的中文文本数据进行统计分析，生成同义词组的模型，以供生成水印时使用。

为了更好地实现本发明，进一步地，步骤S4包括：步骤S4.1.获取待排查的文档；

步骤S4.2.以文档句子为坐标单位将待排查的文档分割成行；

步骤S4.3.将分割好的待排查文档和未分割的待排查文档进行比对，并获取文档内容变动的二维数组信息A2。

在本技术方案中，通过排查文档，将分割好的待排查文档和未分割的待排查文档进行比对比可以得到一个文档内容变动的二维数组信息A2，可以保证全面的排查文档，可以将二维数组信息A2看作一张图片，即将文档修改内容转化为图片数组，可以更好的理解文档内容变动的二维数组信息A2。

为了更好地实现本发明，进一步地，步骤S5包括：根据二维坐标数组数据A1、二维数组信息A2和相似度公式计算排查到的文档的相似度；

相似度公式包括欧氏距离公式、余弦距离公式、汉明距离公式和直方图公式。

在本技术方案中，使用相似度公式将二维坐标数组数据A1和二维数组信息A2进行相似度分析获取到文档的相似度，再通过文档的相似度进行用户分析。该方法可以保证一定程度上的抗干扰。即使泄露者对文档内容进行修改，也可以认为置信区间内的相似度文档匹配到用户。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明基于纯文本文档溯源追踪方法的架构，具有较好的鲁棒性，文本文档的格式不局限于TXT格式，也包括WORD等其他可编辑的文档格式；

（2）本发明基于文本文档的生成水印和验证水印的机制，主要是将文档修改内容转化为图片数组，然后进行相似度分析的机制，相似度分析不局限于直方图距离、欧式距离、汉明距离等计算相似度的方法；

（3）本发明提出了一种文本文档的水印添加方式，具有较好的溯源效果和鲁棒性；

（4）本发明提出了一种将文本文档内容影射为图片，复用了图片相似度分析的方法，溯源文档，对于小说网站、论文网站、或者其他保密文档的溯源具有一定的应用场景；

（5）本发明使用机器学习进行同义词替换，经过语义替换能达到较好的溯源效果的同时不影响到原文阅读的隐蔽性。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明所公开的一种文本文档溯源追踪的方法的流程图。

具体实施方式

实施例1：

本实施例的一种文本文档溯源追踪的方法，如图1所示，本实施例提出了一种针对文本型文档泄露溯源追踪的方法。对于图片我们通过添加可见数字水印或者隐形数字水印的方式对图片进行追踪，可以非常方便的查询到该图片是否为非法获取或者直接溯源到图片泄露人员。但是对于文本型文档如TXT、DOCX等格式则不能利用这种方式达成，除非转化成不可修改格式的PDF格式再添加水印。对于小说阅读网站深受爬虫账户的影响，内容被爬虫获取后上传到盗版网站，导致企业利益受损，而利用转换格式这种方式进行规避以达到保护文本内容不被泄露非常不方便。本发明主要解决了文本型文档添加水印进行文档泄露追踪溯源的问题。目前主流的对文本文档的追踪溯源，防盗版的方式是将文本文档转化成图片然后再进行添加图像的水印。这种方式是无法针对纯文本文档进行追踪的。

本实施例提出了一种以文本形式添加水印的方式，能够有效对文本修改编辑带来的影响，同时为了防止文本被修改后水印被破坏，利用多维水印进行防护，具有较强的抗修改的鲁棒性。其保护效果和图片水印强度类似，而且相比于图片水印，文档水印通过修改文档内容的方式去除文档的溯源水印，使用程序或人工去做都会影响到文档的可读性，增加了窃取者隐藏的成本。

本实施例中的用户通过请求获取原始待生成水印的文本文档内容，即原始文档，本实施例主要从两个大方向进行文档的追溯，首先是生成水印技术方法，其次是提取水印技术方法，在生成水印中，以句子为单位分割文档,Y轴坐标为句子的序号，X轴坐标为单词在该句子中的位置，随机选取句子为待添加水印的序列，记录句子编号[y1,y2,y3,…,yn]，使用机器学习进行机器分析语义，对句子中的单词进行随机替换，记录替换单词的位置x坐标，再得出被修改点的二维数组信息进行存储，最后将被修改后的文档发送给用户。提取水印部分句子为单位分割文档,Y轴坐标为句子的序号，X轴坐标为单词在该句子中的位置，和原始文档进行对比，得出当前文档和原始文档不一致点的二维数组信息和存储的二维数组信息，进行计算相似度对比分析，获取对应的用户注册信息。找到恶意泄露的用户并对该用户进行封禁或其他惩罚操作，从而从源头处切断盗版的供应，显著的提高了盗版的成本。

实施例2：

本实施例在实施例1的基础上做进一步优化，用户注册信息可以在之后和文档进行绑定，有助于我们寻找爬虫用户，也就是恶意泄露用户，这里的用户注册信息也不同于其他的文档溯源处理方法中的用户注册信息，因为本实施例中的用户注册信息和文档绑定后，一份文档会根据不同的用户注册信息产生随机序列，会绑定不同的二维数组信息，其他的文档溯源处理方法中的用户注册信息并不会和文档中的二维数组信息绑定。用基于图像的数字水印处理方法举例，基于图像的数字水印处理方法仅仅是文档和图片之间的转化，这里的用户信息可能会通过图像水印等方式进行展示，并不会和文档中的二维数组信息绑定，字符分割的处理方法也是如此，因此仅仅从用户注册信息的作用来看，本实施例和基于图像的数字水印处理方法以及基于字符分割的文字处理方法就是不同的，本实施例以文本形式添加水印的方式，能够有效对文本修改编辑带来的影响，同时为了防止文本被修改后水印被破坏，利用多维水印进行防护，具有较强的抗修改的鲁棒性。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在实施例1的基础上做进一步优化，使用一种利用文字内容添加水印的方式，对文档内容中的语义进行机器学习分析，在不影响阅读的情况下，使用坐标轴分割的方法，以句子、段落为单位，对字符进行替换、修改，隐蔽的添加文字水印，同时保留该替换信息，使用添加水印的文档和原始文档进行交叉对比分析，还原水印内容，起到溯源追踪的效果。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例4：

本实施例在实施例1的基础上做进一步优化，二维坐标数组数据A1作为文本文档的数字水印信息，有助于将排查的文档和服务器上的原始文档进行对比发现泄露后的文档，生成同义水印规则有助于进行提生成水印信息，以达到发现泄露账户的目的。本实施例利用了图像水印的原理，可以将随机替换位置转化为文本文档中的数字水印，可以非常便利的溯源而且不影响用户对文本的阅读体验，提高了非法获取的成本，对于小说网站或者其他文本内容，不需要再投入封禁非法盗版网站的低效方式，而是直接对泄露的源头进行处理。

本实施例中的预设文字替换率，是为了保证可读性的，因为文字替换的太多了以后，会影响用户阅读体现，比如设置一个最大值不超过10%，那么1500字的文章，最多替换150个字，用机器学习的方法虽然替换能够尽可能的贴近原始语义，但是太多还是会阅读起来不顺畅。

本实施例中添加水印时，会根据不可见如空格的添加，或者中英文标点的替换，可以完全对该文档不影响到阅读体验，同时，通过机器学习的方式替换相近同义词，则让阅读者几乎不产生阅读障碍。且本实施例在第一次的时候需要计算水印，后续再次请求该文档，可直接根据存储的水印信息生成添加过水印的文档。由于根据每个用户的信息产生的不同的随机序列，每个用户产生的水印信息完全不同。需要根据文档文字数量预设文字替换率，确保替换修改的内容比例，防止过高的修改率引起的文档阅读性减小的问题。

本实施例中的根据统计模型和规则模型进行机器学习的预先训练是指对于同义词的学习模型，由于文本文档不同的场景，如小说、政府文件、新闻等，那么我们进行同义词的替换的时候就需要对文本文档的内容进行判断，使用尽可能贴近的词汇进行替换，这里必须使用大量的数据训练。对于小说网站，可以直接采用自身的文档内容和网络上公开的文档内容作为自己的训练模型的数据集，同时对数据集进行预处理，处理小说分类标签、进行数据检查，识别拼写错误，对数据格式进行转换等操作，以保证数据集的质量。之后再使用预处理的数据进行模型的训练，训练过程中，需要对测试集进行分割，大部分（如80%）作为训练集，少部分作为测试集。利用训练集建立预测模型，训练完成后，将通过测试集验证模型的质量，并对模型进行测试。同时在训练过程中，同时需要人为的介入，以验证模型的效果。在不影响阅读的情况下，使用坐标轴分割的方法，以句子、段落为单位，对字符进行替换、修改，隐蔽的添加文字水印，同时保留该替换信息，使用添加水印的文档和原始文档进行交叉对比分析，还原水印内容，起到溯源追踪的效果。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例5：

本实施例在上述实施例4的基础上做进一步优化，本实施例中的随机替换位置包括被替换的文字位置信息和被替换文字信息，通过随机筛选这些信息进行多组同义词库的补充和添加，保证后续添加同义水印的全面性和完整性。

本实施例的其他部分与上述实施例4相同，故不再赘述。

实施例6：

本实施例在实施例1的基础上做进一步优化，在生成水印的过程中，对原始文档的内容进行相似语义的单词替换会和原始语义产生变化，导致用户阅读出现障碍，这种情况需要利用机器学习的方式，尽可能的贴近原始语义。

本实施例用机器学习进行同义词替换，辅助不可见符号，如空格和tab键，中英文符号，如逗号、句号、感叹号等，记录文字替换位置信息和被替换文字。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例7：

本实施例在实施例1的基础上做进一步优化，通过排查文档，将分割好的待排查文档和未分割的待排查文档进行比对比可以得到一个文档内容变动的二维数组信息A2，可以保证全面的排查文档，可以将二维数组信息A2看作一张图片，即将文档修改内容转化为图片数组，可以更好的理解文档内容变动的二维数组信息A2。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例8：

本实施例在实施例1的基础上做进一步优化，使用相似度公式将二维坐标数组数据A1和二维数组信息A2进行相似度分析获取到文档的相似度，再通过文档的相似度进行用户分析。该方法可以保证一定程度上的抗干扰。即使泄露者对文档内容进行修改，也可以认为置信区间内的相似度文档匹配到用户。

本实施例选取简单有效的直方图计算方式用作相似度公式计算的展示，相似度公式如下：

;

其中A1为同义水印文档中的二维坐标数组数据A1，A2为文档内容变动的二维数组信息A2，I为每个二维坐标轴点的数据，对每个点进行依次计算，如果完全没有被那些盗版网站进行篡改，则距离应该是0。

本实施例中的相似度阈值其实就是根据相似度公式计算的方差距离，用于衡量两个二维数组之间的差异的。

本实施例的其他部分与实施例1相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种文本文档溯源追踪的方法，其特征在于，包括以下步骤：步骤S1.用户在客户端发送获取原始文档的请求信号，并获取该用户的用户注册信息对应的原始文档；步骤S2.服务器接收到请求信号后以原始文档中的文档句子为坐标单位对原始文档进行分割；步骤S3.根据预设的生成同义水印规则对分割后的原始文档添加同义水印，生成同义水印文档，所述同义水印文档包括二维坐标数组数据A1；步骤S4.根据预设的提取同义水印规则对文档进行排查，获取文档内容变动的二维数组信息A2；步骤S5.预设相似度阈值，当排查到的文档的相似度大于或等于相似度阈值时，获取到添加同义水印的同义水印文档；步骤S6.从同义水印文档中获取用户注册信息，根据用户注册信息确认用户，并将其标记为泄露用户，对泄露用户进行惩罚操作。

2.根据权利要求1所述的一种文本文档溯源追踪的方法，其特征在于，所述步骤S1中的用户注册信息包括用户的ID号信息、用户的手机号信息和用户的用户名信息。

3.根据权利要求1所述的一种文本文档溯源追踪的方法，其特征在于，所述步骤S2包括：预设文档句子坐标轴，以文档句子行数为Y轴坐标，以文档句子文字所在位置为X坐标；根据文档句子坐标轴将原始文档分割成文档行。

4.根据权利要求3所述的一种文本文档溯源追踪的方法，其特征在于，所述步骤S3中的生成同义水印规则包括：根据用户注册信息在分割后的原始文档中随机选取所述文档行生成随机替换位置；根据机器学习对随机替换位置的文字进行文字同义词替换，并将文字同义词替换信息记录为同义水印；预设文字数量替换率，根据所述文字数量替换率对随机替换位置进行替换，获取随机替换位置的二维坐标数组数据A1，并获取同义水印文档；将二维坐标数组数据A1和对应用户进行关系绑定，将二维坐标数组数据A1、对应用户的注册信息和二者的绑定关系存储到服务器。

5.根据权利要求4所述的一种文本文档溯源追踪的方法，其特征在于，包括：

所述随机替换位置包括分割后的原始文档中将要被替换的文字内容位置和文字行数位置；所述文字同义词替换信息包括被替换的文字位置信息和被替换文字信息。

6.根据权利要求4所述的一种文本文档溯源追踪的方法，其特征在于，所述根据机器学习对随机替换位置的文字进行文字同义词替换包括：根据统计模型和规则模型进行机器学习的预先训练。

7.根据权利要求1所述的一种文本文档溯源追踪的方法，其特征在于，所述步骤S4包括：步骤S4.1.获取待排查的文档；步骤S4.2.以文档句子为坐标单位将待排查的文档分割成行；步骤S4.3.将分割好的待排查文档和未分割的待排查文档进行比对，并获取文档内容变动的二维数组信息A2。

8.根据权利要求1所述的一种文本文档溯源追踪的方法，其特征在于，所述步骤S5包括：根据二维坐标数组数据A1、二维数组信息A2和相似度公式计算排查到的文档的相似度；

所述相似度公式包括欧氏距离公式、余弦距离公式、汉明距离公式和直方图公式。