CN111325015B

CN111325015B - 一种基于语义分析的文档查重方法及系统

Info

Publication number: CN111325015B
Application number: CN202010103483.3A
Authority: CN
Inventors: 刘文松; 林峰; 胡竹青; 张锦辉; 路小俊; 刘雪菁; 张志鹏; 朱泐; 杨燕吉; 邵瑞
Original assignee: NARI Group Corp
Current assignee: NARI Group Corp
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2024-01-30
Anticipated expiration: 2040-02-19
Also published as: CN111325015A

Abstract

本发明公开了一种基于语义分析的文档查重方法，包括对待查重文档进行切分，构建查询语句集合；遍历查询语句集合，根据查询语句与预设查重语句集合的关联度，选出各查询语句的若干候选查重语句，根据查询语句与相应候选查重语句的语义相似性，获得各查询语句的重复率；根据各查询语句的重复率，计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配，缩小重复率计算范围，基于义相似性获得查询语句的重复率，从而获得查重文档的重复率，可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。

Description

一种基于语义分析的文档查重方法及系统

技术领域

本发明涉及一种基于语义分析的文档查重方法及系统，属于文本分析技术领域。

背景技术

文档查重在文章发表、项目申报、奖励评审等方面有广泛应用，协助管理人员在初选阶段完成形式审查。形式审查针对直接复制、变换词语、变换句式、变换段落等重复方式进行分析，主要为了避免低水平的重复。在此基础上，再邀请同行专家进行深入的内容审查，评选出高质量的文章、项目或奖项。

文档查重属于文本相似性分析的技术范畴，包括单词相似性、单句相似性、文档相似性。就单词相似性，主要包括词形匹配(判断组成单词的字符一致性)、词义相似(判断单词涵义一致性，具体包括知网法、同义词林法、词向量法)。就单句相似性，主要包括形式相似(Jaccad/Dice、编辑距离法)、语义相似(词级语义相似、句向量法)。就文档相似性，这里文档指多个段落组成的文档全文，主要包括特征法(关键词或主题)、文本向量法。

面对海量文档库，特别是针对中文文档，需要查重方法具备一定程度的语义分析，用以对直接复制、词语变换(特别是同义词变换)、句式变换、段落变换等重复形式，可以给出较好的关联结果，但是现在还没有相应的方法。

发明内容

本发明提供了一种基于语义分析的文档查重方法及系统，解决了背景技术中披露的问题。

为了解决上述技术问题，本发明所采用的技术方案是：

一种基于语义分析的文档查重方法，包括，

对待查重文档进行切分，构建查询语句集合；

遍历查询语句集合，根据查询语句与预设查重语句集合的关联度，选出各查询语句的若干候选查重语句，根据查询语句与相应候选查重语句的语义相似性，获得各查询语句的重复率；

根据各查询语句的重复率，计算待查重文档的重复率。

选出查询语句若干候选查重语句的过程为，

采用BM25算法，计算查询语句与预设查重语句集合中各查重语句的关联度；

选择关联度大于阈值的查重语句为该查询语句的候选查重语句。

获得查询语句重复率的过程为，

采用语义Jaccard方法，计算查询语句与各相应候选查重语句的语义相似性，选语义相似性最大值作为查询语句的重复率。

采用语义Jaccard方法，计算查询语句与各相应候选查重语句语义相似性的过程为，

获取查询语句分词集合的词向量{w_i}和候选查重语句分词集合的词向量{ws_i}；

计算w_i对{ws_i}中各词向量的余弦相似度CSim_i，构建{w_i}对{ws_i}的相似度集合；

将相似度集合带入Jaccard公式，计算查询语句与候选查重语句的语义相似性。

计算待查重文档重复率的公式为，

其中，DSim为待查重文档的重复率，Sim_j为第j个查询语句的重复率，L_j为第j个查询语句的长度。

一种基于语义分析的文档查重系统，包括，

查重文档切分模块：对待查重文档进行切分，构建查询语句集合；

遍历计算模块：遍历查询语句集合，根据查询语句与预设查重语句集合的关联度，选出各查询语句的若干候选查重语句，根据查询语句与相应候选查重语句的语义相似性，获得各查询语句的重复率；

重复率计算模块：根据各查询语句的重复率，计算待查重文档的重复率。

遍历计算模块包括候选查重语句模块，候选查重语句模块包括，

关联度计算模块：采用BM25算法，计算查询语句与预设查重语句集合中各查重语句的关联度；

选择模块：选择关联度大于阈值的查重语句为该查询语句的候选查重语句。

遍历计算模块包括，

查询语句重复率模块：采用语义Jaccard方法，计算查询语句与各相应候选查重语句的语义相似性，选语义相似性最大值作为查询语句的重复率。

查询语句重复率模块包括语义相似性计算模块，语义相似性计算模块包括，

词向量获取模块：获取查询语句分词集合的词向量{w_i}和候选查重语句分词集合的词向量{ws_i}；

相似度集合构建模块：计算w_i对{ws_i}中各词向量的余弦相似度CSim_i，构建{w_i}对{ws_i}的相似度集合；

Jaccard模块：将相似度集合带入Jaccard公式，计算查询语句与候选查重语句的语义相似性。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行基于语义分析的文档查重方法。

本发明所达到的有益效果：1、本发明基于关联度进行查询语句和查重语句的匹配，缩小重复率计算范围，基于语义相似性获得查询语句的重复率，从而获得查重文档的重复率，可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果；2、本发明以颗粒度进行关联，避免语句调整、段落变换对查重的影响；3、本发明采用语义Jaccard方法，相较于传统的Jaccard方法对词语变换有更好的查重效果。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种基于语义分析的文档查重方法，包括以下步骤：

步骤1，对待查重文档d进行切分，构建查询语句集合{q_j}；

步骤2，遍历查询语句集合，根据查询语句与预设查重语句集合的关联度，选出各查询语句的若干候选查重语句，根据查询语句与相应候选查重语句的语义相似性，获得各查询语句的重复率。

遍历查询语句集合，获得每个q_j的重复率，具体过程如下：

21)对q_j去停用词。

22)对q_j进行分词，获得分词集合{t_i}。

23)采用BM25算法，计算q_j与预设查重语句集合{s_k}中各查重语句的关联度C_j；具体为q_j的分词集合{t_i}与查重语句集合{s_k}中各查重语句的关联度；其中，通过对查重文档库进行切分，预先构建查重语句集合{s_k}。

24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句；具体为根据关联度C_j降序对查重语句进行排序，选择前n个s_k作为候选查重语句。

25)采用语义Jaccard方法，计算查询语句q_j与各相应候选查重语句(即n个s_k)的语义相似性，选语义相似性最大值作为查询语句q_j的重复率。

采用语义Jaccard方法，计算语义相似性过程如下：

A1)获取查询语句q_j分词集合{t_i}的词向量{w_i}，获取候选查重语句分词集合{ts_j}的词向量{ws_i}；

词向量训练方法有很多，如可以参考谷歌公司BERT模型训练的相关文献。当没有词向量时，也可以改用其他语义相似性评价方法，如知识网络法、词林法等；

A2)计算w_i对{ws_i}中各词向量的余弦相似度CSim_i，构建{w_i}对{ws_i}的相似度集合，其中CSim_i最大时w_i与ws_i最相似；

A3)将相似度集合带入Jaccard公式，计算查询语句与候选查重语句的语义相似性；

Jaccard公式：

其中，|q_j∩s_k|为{w_i}对{ws_i}的相似度集合{CSim_i}。

传统Jaccard算法可以直接计算两组语句的词语重复率，对直接复制、变换句式两种重复形式有直接效果。但是对于变换同义词这种形式，则效果有限。传统Jaccard相当于根据词形匹配做硬判决，相同为1，不同为0；上述的语义Jaccard方法，基于词向量判断词的语义相似度，相当于做软判决，对词语变换有更好的查重效果。

步骤3，根据各查询语句的重复率，计算待查重文档d的重复率。

计算待查重文档重复率的公式为：

上述方法基于关联度进行查询语句和查重语句的匹配，缩小重复率计算范围，基于语义相似性获得查询语句的重复率，从而获得查重文档的重复率，可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果；同时上述方法以颗粒度进行关联，避免语句调整、段落变换对查重的影响。

一种基于语义分析的文档查重系统，包括，

查重文档切分模块：对待查重文档进行切分，构建查询语句集合。

遍历计算模块：遍历查询语句集合，根据查询语句与预设查重语句集合的关联度，选出各查询语句的若干候选查重语句，根据查询语句与相应候选查重语句的语义相似性，获得各查询语句的重复率。

遍历计算模块包括，

一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行基于语义分析的文档查重方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种基于语义分析的文档查重方法，其特征在于：包括，

对待查重文档进行切分，构建查询语句集合{q_j}；

遍历查询语句集合，获得每个q_j的重复率，具体过程如下：

21)对q_j去停用词；

22)对q_j进行分词，获得分词集合{t_i}；

23)采用BM25算法，计算q_j与预设查重语句集合{s_k}中各查重语句的关联度C_j；其中，通过对查重文档库进行切分，预先构建查重语句集合{s_k}；

24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句；

25)采用语义Jaccard方法，计算查询语句q_j与各相应候选查重语句的语义相似性，选语义相似性最大值作为查询语句q_j的重复率；

采用语义Jaccard方法，计算语义相似性过程如下：

Jaccard公式：

其中，|q_j∩s_k|为{w_i}对{ws_i}的相似度集合{CSim_i}；

根据各查询语句的重复率，计算待查重文档的重复率。

2.根据权利要求1所述的一种基于语义分析的文档查重方法，其特征在于：计算待查重文档重复率的公式为，

3.一种基于语义分析的文档查重系统，其特征在于：包括，

查重文档切分模块：对待查重文档进行切分，构建查询语句集合{q_j}；

遍历查询语句集合，获得每个q_j的重复率，具体过程如下：

21)对q_j去停用词；

22)对q_j进行分词，获得分词集合{t_i}；

采用语义Jaccard方法，计算语义相似性过程如下：

Jaccard公式：

其中，|q_j∩s_k|为{w_i}对{ws_i}的相似度集合{CSim_i}；

4.一种存储一个或多个程序的计算机可读存储介质，其特征在于：所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至2所述的方法中的任一方法。