CN113901783A

CN113901783A - 面向领域的文档查重方法及系统

Info

Publication number: CN113901783A
Application number: CN202111369809.8A
Authority: CN
Inventors: 杜军威; 岳小龙; 李浩杰; 陈卓; 胡强; 于旭; 江峰
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-01-07
Anticipated expiration: 2041-11-18

Abstract

本发明公开了面向领域的文档查重方法及系统，基于已存在的领域文档建立查重对照库；对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的分布式向量表示；通过依存句法分析对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的Simhash签名；采用与查重对照库同样的方式，得到待查重文档的Simhash签名；通过比对待查重文档的Simhash签名与查重对照库的Simhash签名，给出文档查重结果。不但能够检测出完全相同的抄袭文本，还能检测修饰词改变、同义词替换条件下的抄袭现象。

Description

面向领域的文档查重方法及系统

技术领域

本发明涉及文档查重技术领域，特别是涉及面向领域的文档查重方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

项目负责人在项目管理中发现存在大量文档相互抄袭现象。由于抄袭的种类多样，变化形式多样，对项目文档监管增加了许多难度，依靠人工检测费时费力，效果也不好。对于常用的查重系统，比如知网，因为其面向的是学术文献、学位论文等，不能适应具体领域项目文档管理，同时领域应用往往是在线的，对查询效率要求较高，知网查询速度较慢，相关技术难以应用到具体领域。Simhash是一种快速文档查重方法，但其仅能识别完全相同的抄袭语句，对于稍作修饰词变化、同义词变化等抄袭修改则无法识别。为了从语义角度识别经过修改后的文本抄袭，出现了很多基于语义相似度的文本相似度算法，比如向量空间模型、基于深度学习的文本匹配模型等，但这些方法在处理大规模语料时就会变得速度很慢。

中国发明专利申请《一种基于同义关联词的文本对比方法》，申请公布号CN107908622A，申请公布日：2018.04.13，改进了Simhash算法中的TF-IDF算法，抽取与文章主题相关的同义词，及同义词的相关词进行权重的加权和调整，最后对比文章特征词Simhash值，从两者之间的汉明距离，判断两篇文章是否相似。该专利提出的方法是直接对整个文章进行相似度的检测。

中国发明专利申请《一种基于改进的simhash文本对比方法》，申请公布号CN108776654A，申请公布日：2018.11.09，改进了Simhash算法的加权算法，对文章分词后，根据词性对词语进行加权，设置规则为名词>动词，但是词性并不能完全说明词语在语句中的重要程度。

发明内容

为了解决现有技术的不足，本发明提供了面向领域的文档查重方法及系统；可以自动的对领域文档进行快速和准确的查重。

第一方面，本发明提供了面向领域的文档查重方法；

面向领域的文档查重方法，包括：

基于已存在的领域文档建立查重对照库；

对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的向量表示；通过依存分析法对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的Simhash签名；采用与查重对照库同样的方式，得到待查重文档的Simhash签名；

通过比对待查重文档的Simhash签名与查重对照库的Simhash签名，给出文档查重结果。

第二方面，本发明提供了面向领域的文档查重系统；

面向领域的文档查重系统，包括：

对照库建立模块，其被配置为：基于已存在的领域文档建立查重对照库；

签名生成模块，其被配置为：对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的向量表示；通过依存分析法对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的Simhash签名；采用与查重对照库同样的方式，得到待查重文档的Simhash签名；

查重比对模块，其被配置为：通过比对待查重文档的Simhash签名与查重对照库的Simhash签名，给出文档查重结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

基于已存在的领域文档建立查重对照库，利用改进的Simhash算法计算对照库文档和待查重文档的Simhash签名，借助搜索引擎和倒排索引技术进行高效的文档查重。

本发明中的改进Simhash算法可以实现对海量文本进行快速查重；

本发明不但能够检测出完全相同的抄袭文本，而且还能检测修饰词改变、同义词替换等条件下的抄袭现象；

本发明利用搜索引擎和倒排索引技术可以在大量对照库语料下进行快速查重对比。

本发明中提出的方法是语句级的文档相似度检测，在保证极快的查重效率同时可以进行更精确地文章重复度检测。

本发明中提出的根据依存句法分析对词语进行加权，不但考虑词语的词性，还考虑词语之间的上下文关系，综合比较出词语在语句中的重要性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一所提出的面向领域的高效文档查重方法的流程图；

图2是本发明实施例一中提出的基于对照库语料进行倒排索引查重；

图3是本发明实施例一中提出的利用依存句法分析进行词语加权。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了面向领域的文档查重方法；

如图1所示，面向领域的文档查重方法，包括：

S101：基于已存在的领域文档建立查重对照库；

S102：对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的向量表示；通过依存分析法对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的局部敏感哈希值Simhash签名；采用与查重对照库同样的方式，得到待查重文档的局部敏感哈希值Simhash签名；

S103：通过比对待查重文档的局部敏感哈希值Simhash签名与查重对照库的局部敏感哈希值Simhash签名，给出文档查重结果。

进一步地，所述S101：查重对照库，包括已存在的若干份化工领域文档。

示例性地，所述S101：建立领域文档查重对照库。收集该领域已经存在的文档，这些文档是新文档查重的参照对象，文档是以Word文档格式保存在领域文档对照库文件夹下。查重对照库是根据领域查重需求建立的，可以实时维护，比如删除对照库中的某个文档，或者一篇新的文档查重结束后，将其增加到对照库中等。

进一步地，所述S102：对查重对照库采用面向领域的方式进行分词处理；具体包括：

将查重对照库里面的每个文档，删除目录、表格和图片，得到预处理后文档；

对预处理后文档，根据标点符号进行分句，得到若干个句子；

对每一个句子，按照文档所属领域的词典进行分词，得到若干个词语。

示例性地，所述S102：对查重对照库采用面向领域的方式进行分词处理；具体包括：

将对照库的文档进行文本解析。Wⁱ是对照库中的第i个Word文档，删除Wⁱ中的目录、表格和图片，提取其中的文本信息得到wⁱ。把wⁱ中的内容进行切分，根据文档中的“。；！？\r”符号为切分标准进行分句，

为wⁱ的第j个句子。对

进行分词。根据领域文本特征选择合适的分词技术，比如化工领域文本会出现很多特殊的专业词汇，为了保证分词的准确性，加入领域词典进行分词。

进一步地，所述S102：通过训练后的模型生成每个分词后词语的分布式向量表示；其中，训练后的模型，训练步骤包括：

构建Word2vec模型，Word2vec模型用来产生词向量；Word2vec模型根据给定的语料库将一个词语表达成向量形式；

构建训练集；所述训练集为化工领域的语料库；

将训练集输入到Word2vec模型中，对Word2vec模型进行训练，当Word2vec模型的损失函数不再降低时，停止训练，得到训练后的模型。

示例性地，使用预训练模型对

中的每个词语生成向量表示，每个词语都用一个128维的向量进行表示，这样同义词的向量表示是相似的，即使一个语句中使用同义词替换原词语，语句里的向量表示也不会产生太大的偏差。

进一步地，所述S102：通过依存句法分析对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；具体包括：

依存句法分析解析出句子的语法结构，定义主谓关系和动宾关系是一个句子中主干部分，并列关系、介宾关系是修饰部分；根据关系认定句子中每个词语对于句子的重要程度，主谓关系和动宾关系所涉及的词语权重设为a，并列关系、介宾关系修饰部分的词语权重设为b，剩余的其他关系权重设为c。

示例性地，利用依存句法分析解析

的句法结构，根据得到的依存句法树找出句子中词语与词语之间的相互依存关系，以此为基础识别出句子的主要部分和修饰部分，给予不同的权重，此权重是对产生的向量对应加权。因此，一个语句中即使删除不重要的修饰部分，也会由于删除部分权重占比低，对语句的向量表示不会产生太大影响。其详细的结构，如图2所示。

进一步地，所述S102：按照所的权重对向量表示进行合并和降维处理，得到查重对照库的Simhash签名；具体包括：

对

中每个词语的向量表示进行合并，

就对应一个128维的向量表示。

对

的128维向量表示进行降维，产生

对应的128位二进制Simhash签名。

示例性地，所述采用与查重对照库同样的方式，得到待查重文档的Simhash签名；具体包括：

将待查重文档Mⁱ依次经过相同处理，文本解析得到mⁱ，按照同对照库的处理方式，将mⁱ进行分句处理得到

为mⁱ的第j个句子。再对

进行分词、预训练模型的向量表示、依存句法分析的加权、合并和降维得到待查重文档Mⁱ最终的Simhash签名。

进一步地，所述S103：通过比对待查重文档的局部敏感哈希值Simhash签名与查重对照库的局部敏感哈希值Simhash签名，给出文档查重结果；具体包括：

对查重对照库的Simhash签名，按块建立倒排索引表；

针对待查重文档的Simhash签名，通过搜索引擎elasticsearch在倒排索引表中进行查重搜索，输出查重结果。

示例性地，所述对查重对照库的Simhash签名，按块建立倒排索引表；具体包括：

对处理完的对照库文档建立倒排索引表。对于

的128Simhash签名，将其分为32块，每块对应由4位数字0或1组成的Simhash签名。

根据i和j的关系给文档里的每个句子唯一的数字编号。

在数据库中对所有句子的第1块建立倒排索引表1，表的第一列为4位数字0或1组成的Simhash签名，表的第二列为所有句子的第一块同为此Simhash签名语句的数字编号。接下来依次对剩下的31块做倒排索引表，并且存储到数据库中。利用倒排索引进行查重索引详细的结构如图3所示。

示例性地，所述针对待查重文档的Simhash签名，通过搜索引擎在倒排索引表中进行查重搜索，输出查重结果；具体包括：

利用搜索引擎进行查重搜索：同样

的128位Simhash签名也被分为32块，首先，借助搜索引擎找出倒排索引表1中和

的第一块的向量表示一样的所有数字编号，记录下来。然后依次对

的每一块在对应的倒排索引表中进行搜索并记录下来与之相同的数字编号。在

的32块Simhash签名中，当24块或者24块以上都搜索到了相同的数字编号，那么就认定该数字编号在对照库中对应的语句和查重语句相似，在文本查重时定义为抄袭语句。

依次对Mⁱ中的

在对照库的倒排索引表中进行查重搜索，对抄袭语句进行标记。

本发明能够基于已存在的领域文档建立查重对照库，利用改进的Simhash算法计算对照库文档和待查重文档的Simhash签名，借助搜索引擎和倒排索引技术进行高效的文档查重。

本发明设计一种改进的Simhash算法，原始的Simhash算法分为五个步骤：分词、hash、加权、合并、降维，本发明在分词、hash、加权三个关键步骤进行了改变：

(1)引入了面向领域的分词方法，提升了领域分词的准确性；

(2)通过预训练模型生成每个词语的分布式向量表示，代替Simhash算法在hash步骤随机产生的hash值；

(3)通过依存句法分析解析语句结构，找到语句的主干部分、修饰部分等，分别给予不同的权重，代替Simhash算法仅根据词频进行加权；

基于搜索引擎和倒排索引进行查重，将所有查重对照库文档全部保存为Simhash签名，按块建立倒排索引表，同样计算待查重文本的Simhash签名，通过搜索引擎按块在对照库文本的倒排索引表进行查重搜索。

Simhash算法能够快速进行文本查重，本发明在Simhash算法中加入了预训练模型和依存句法分析，使得改进后的Simhash算法不但能够快速识别完全相同的文本抄袭而且能够识别修饰词改变和同义词替换等复杂语义条件下的抄袭。在大规模领域语料中引入面向领域的分词技术和基于搜索引擎的倒排索引技术，使得该方法能够同时兼顾抄袭检测的准确率和检测的实时性。

实施例二

本实施例提供了面向领域的文档查重系统；

面向领域的文档查重系统，包括：

签名生成模块，其被配置为：对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的向量表示；通过依存分析法对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的局部敏感哈希值Simhash签名；采用与查重对照库同样的方式，得到待查重文档的局部敏感哈希值Simhash签名；

查重比对模块，其被配置为：通过比对待查重文档的局部敏感哈希值Simhash签名与查重对照库的局部敏感哈希值Simhash签名，给出文档查重结果。

此处需要说明的是，上述对照库建立模块、签名生成模块和查重比对模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向领域的文档查重方法，其特征是，包括：

基于已存在的领域文档建立查重对照库；

对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的向量表示；通过依存句法分析对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的局部敏感哈希值Simhash签名；采用与查重对照库同样的方式，得到待查重文档的局部敏感哈希值Simhash签名；

通过比对待查重文档的局部敏感哈希值Simhash签名与查重对照库的局部敏感哈希值Simhash签名，给出文档查重结果。

2.如权利要求1所述的面向领域的文档查重方法，其特征是，对查重对照库采用面向领域的方式进行分词处理；具体包括：

3.如权利要求1所述的面向领域的文档查重方法，其特征是，通过比对待查重文档的局部敏感哈希值Simhash签名与查重对照库的局部敏感哈希值Simhash签名，给出文档查重结果；具体包括：

对查重对照库的Simhash签名，按块建立倒排索引表；针对待查重文档的Simhash签名，通过搜索引擎在倒排索引表中进行查重搜索，输出查重结果。

4.如权利要求3所述的面向领域的文档查重方法，其特征是，所述对查重对照库的Simhash签名，按块建立倒排索引表；具体包括：

对处理完的对照库文档建立倒排索引表；对于

的128Simhash签名，将其分为32块，每块对应有4位数字0或1组成的Simhash签名；

根据i和j的关系给文档里的每个句子唯一的数字编号；

在数据库中对所有句子的第1块建立倒排索引表1，表的第一列为4位数字0或1组成的Simhash签名，表的第二列为所有句子的第一块同为此Simhash签名语句的数字编号；接下来依次对剩下的31块做倒排索引表，并且存储到数据库中。

5.如权利要求3所述的面向领域的文档查重方法，其特征是，所述针对待查重文档的Simhash签名，通过搜索引擎在倒排索引表中进行查重搜索，输出查重结果；具体包括：

利用搜索引擎进行查重搜索：同样

的第一块的向量表示一样的所有数字编号，记录下来；然后依次对

的每一块在对应的倒排索引表中进行搜索并记录下来与之相同的数字编号；在

的32块Simhash签名中，当24块或者24块以上都搜索到了相同的数字编号，那么就认定该数字编号在对照库中对应的语句和查重语句相似，在文本查重时定义为抄袭语句；

依次对Mⁱ中的

6.如权利要求1所述的面向领域的文档查重方法，其特征是，通过训练后的模型生成每个分词后词语的向量表示；其中，训练后的模型，训练步骤包括：

构建Word2vec模型，Word2vec模型用来产生词向量；Word2vec模型根据给定的语料库，通过优化后的Word2vec模型将一个词语表达成向量形式；

构建训练集；所述训练集为大量领域相关的语料库；

将训练集输入到Word2vec模型中，对模型进行训练，当模型的损失函数不再降低时，停止训练，得到训练后的模型。

7.如权利要求1所述的面向领域的文档查重方法，其特征是，通过依存句法分析对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；具体包括：

依存句法分析解析出句子的语法结构，定义主谓关系和动宾关系是一个句子中主干部分，并列关系、介宾关系是修饰部分；根据关系认定句子中每个词语对于句子的重要程度，主谓关系和动宾关系所涉及的词语权重设为a，并列关系、介宾关系修饰部分的词语权重设为b，剩余的其他关系权重设为c；

利用依存句法分析解析

的句法结构，根据得到的依存句法树找出句子中词语与词语之间的相互依存关系，以此为基础识别出句子的主要部分和修饰部分，给予不同的权重，所述权重是对产生的向量对应加权。

8.面向领域的文档查重系统，其特征是，包括：

签名生成模块，其被配置为：对查重对照库采用面向领域的方式进行分词处理；通过训练后的模型生成每个分词后词语的分布式向量表示；通过依存分析法对每个句子的结构进行解析，找到每个句子的主干部分和修饰部分，并给予两个部分不同的权重；按照所设置的权重对向量表示进行合并和降维处理，得到查重对照库的Simhash签名；采用与查重对照库同样的方式，得到待查重文档的Simhash签名；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。