CN111325015B - 一种基于语义分析的文档查重方法及系统 - Google Patents
一种基于语义分析的文档查重方法及系统 Download PDFInfo
- Publication number
- CN111325015B CN111325015B CN202010103483.3A CN202010103483A CN111325015B CN 111325015 B CN111325015 B CN 111325015B CN 202010103483 A CN202010103483 A CN 202010103483A CN 111325015 B CN111325015 B CN 111325015B
- Authority
- CN
- China
- Prior art keywords
- query statement
- repetition rate
- sentence
- document
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 abstract description 17
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012553 document review Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义分析的文档查重方法,包括对待查重文档进行切分,构建查询语句集合;遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;根据各查询语句的重复率,计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。
Description
技术领域
本发明涉及一种基于语义分析的文档查重方法及系统,属于文本分析技术领域。
背景技术
文档查重在文章发表、项目申报、奖励评审等方面有广泛应用,协助管理人员在初选阶段完成形式审查。形式审查针对直接复制、变换词语、变换句式、变换段落等重复方式进行分析,主要为了避免低水平的重复。在此基础上,再邀请同行专家进行深入的内容审查,评选出高质量的文章、项目或奖项。
文档查重属于文本相似性分析的技术范畴,包括单词相似性、单句相似性、文档相似性。就单词相似性,主要包括词形匹配(判断组成单词的字符一致性)、词义相似(判断单词涵义一致性,具体包括知网法、同义词林法、词向量法)。就单句相似性,主要包括形式相似(Jaccad/Dice、编辑距离法)、语义相似(词级语义相似、句向量法)。就文档相似性,这里文档指多个段落组成的文档全文,主要包括特征法(关键词或主题)、文本向量法。
面对海量文档库,特别是针对中文文档,需要查重方法具备一定程度的语义分析,用以对直接复制、词语变换(特别是同义词变换)、句式变换、段落变换等重复形式,可以给出较好的关联结果,但是现在还没有相应的方法。
发明内容
本发明提供了一种基于语义分析的文档查重方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于语义分析的文档查重方法,包括,
对待查重文档进行切分,构建查询语句集合;
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
根据各查询语句的重复率,计算待查重文档的重复率。
选出查询语句若干候选查重语句的过程为,
采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
获得查询语句重复率的过程为,
采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
采用语义Jaccard方法,计算查询语句与各相应候选查重语句语义相似性的过程为,
获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
计算待查重文档重复率的公式为,
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
一种基于语义分析的文档查重系统,包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合;
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
遍历计算模块包括候选查重语句模块,候选查重语句模块包括,
关联度计算模块:采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择模块:选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
遍历计算模块包括,
查询语句重复率模块:采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
查询语句重复率模块包括语义相似性计算模块,语义相似性计算模块包括,
词向量获取模块:获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
相似度集合构建模块:计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
Jaccard模块:将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于语义分析的文档查重方法。
本发明所达到的有益效果:1、本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于语义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果;2、本发明以颗粒度进行关联,避免语句调整、段落变换对查重的影响;3、本发明采用语义Jaccard方法,相较于传统的Jaccard方法对词语变换有更好的查重效果。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于语义分析的文档查重方法,包括以下步骤:
步骤1,对待查重文档d进行切分,构建查询语句集合{qj};
步骤2,遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率。
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词。
22)对qj进行分词,获得分词集合{ti}。
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;具体为qj的分词集合{ti}与查重语句集合{sk}中各查重语句的关联度;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk}。
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;具体为根据关联度Cj降序对查重语句进行排序,选择前n个sk作为候选查重语句。
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句(即n个sk)的语义相似性,选语义相似性最大值作为查询语句qj的重复率。
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
词向量训练方法有很多,如可以参考谷歌公司BERT模型训练的相关文献。当没有词向量时,也可以改用其他语义相似性评价方法,如知识网络法、词林法等;
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi}。
传统Jaccard算法可以直接计算两组语句的词语重复率,对直接复制、变换句式两种重复形式有直接效果。但是对于变换同义词这种形式,则效果有限。传统Jaccard相当于根据词形匹配做硬判决,相同为1,不同为0;上述的语义Jaccard方法,基于词向量判断词的语义相似度,相当于做软判决,对词语变换有更好的查重效果。
步骤3,根据各查询语句的重复率,计算待查重文档d的重复率。
计算待查重文档重复率的公式为:
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
上述方法基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于语义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果;同时上述方法以颗粒度进行关联,避免语句调整、段落变换对查重的影响。
一种基于语义分析的文档查重系统,包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合。
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率。
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
遍历计算模块包括候选查重语句模块,候选查重语句模块包括,
关联度计算模块:采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择模块:选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
遍历计算模块包括,
查询语句重复率模块:采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
查询语句重复率模块包括语义相似性计算模块,语义相似性计算模块包括,
词向量获取模块:获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
相似度集合构建模块:计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
Jaccard模块:将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于语义分析的文档查重方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于语义分析的文档查重方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (4)
1.一种基于语义分析的文档查重方法,其特征在于:包括,
对待查重文档进行切分,构建查询语句集合{qj};
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词;
22)对qj进行分词,获得分词集合{ti};
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk};
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句qj的重复率;
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi};
根据各查询语句的重复率,计算待查重文档的重复率。
2.根据权利要求1所述的一种基于语义分析的文档查重方法,其特征在于:计算待查重文档重复率的公式为,
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
3.一种基于语义分析的文档查重系统,其特征在于:包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合{qj};
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词;
22)对qj进行分词,获得分词集合{ti};
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk};
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句qj的重复率;
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi};
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
4.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至2所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103483.3A CN111325015B (zh) | 2020-02-19 | 2020-02-19 | 一种基于语义分析的文档查重方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103483.3A CN111325015B (zh) | 2020-02-19 | 2020-02-19 | 一种基于语义分析的文档查重方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325015A CN111325015A (zh) | 2020-06-23 |
CN111325015B true CN111325015B (zh) | 2024-01-30 |
Family
ID=71168788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103483.3A Active CN111325015B (zh) | 2020-02-19 | 2020-02-19 | 一种基于语义分析的文档查重方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325015B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814447B (zh) * | 2020-06-24 | 2022-05-27 | 平安科技(深圳)有限公司 | 基于分词文本的电子病例查重方法、装置、计算机设备 |
CN112948545A (zh) * | 2021-02-25 | 2021-06-11 | 平安国际智慧城市科技股份有限公司 | 查重方法、终端设备及计算机可读存储介质 |
CN113901783A (zh) * | 2021-11-18 | 2022-01-07 | 青岛科技大学 | 面向领域的文档查重方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503175A (zh) * | 2016-11-01 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 相似文本的查询、问题扩展方法、装置及机器人 |
CN109918670A (zh) * | 2019-03-12 | 2019-06-21 | 重庆誉存大数据科技有限公司 | 一种文章查重方法及系统 |
CN110019806A (zh) * | 2017-12-25 | 2019-07-16 | 中国移动通信集团公司 | 一种文档聚类方法及设备 |
CN110347782A (zh) * | 2019-07-18 | 2019-10-18 | 知者信息技术服务成都有限公司 | 文章查重方法、装置和电子设备 |
CN110472203A (zh) * | 2019-08-14 | 2019-11-19 | 上海智臻智能网络科技股份有限公司 | 一种文章的查重检测方法、装置、设备及存储介质 |
-
2020
- 2020-02-19 CN CN202010103483.3A patent/CN111325015B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503175A (zh) * | 2016-11-01 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 相似文本的查询、问题扩展方法、装置及机器人 |
CN110019806A (zh) * | 2017-12-25 | 2019-07-16 | 中国移动通信集团公司 | 一种文档聚类方法及设备 |
CN109918670A (zh) * | 2019-03-12 | 2019-06-21 | 重庆誉存大数据科技有限公司 | 一种文章查重方法及系统 |
CN110347782A (zh) * | 2019-07-18 | 2019-10-18 | 知者信息技术服务成都有限公司 | 文章查重方法、装置和电子设备 |
CN110472203A (zh) * | 2019-08-14 | 2019-11-19 | 上海智臻智能网络科技股份有限公司 | 一种文章的查重检测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
一种基于改进相似度计算的文本聚类方法;李征等;河南大学学报(自然科学版);第第48卷卷(第第4期期);第416-417页 * |
基于改进的Jaccard系数文档相似度计算方法;俞婷婷等;计算机系统应用;第第26卷卷(第第12期期);摘要,第139页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111325015A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
Sordoni et al. | A hierarchical recurrent encoder-decoder for generative context-aware query suggestion | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111325015B (zh) | 一种基于语义分析的文档查重方法及系统 | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN110705612A (zh) | 一种混合多特征的句子相似度计算方法、存储介质及系统 | |
EP3940582A1 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
He et al. | Question answering over linked data using first-order logic | |
Melamud et al. | A two level model for context sensitive inference rules | |
Foxcroft et al. | Name2vec: Personal names embeddings | |
CN111159381B (zh) | 数据搜索方法及装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
Shawky et al. | An approach for assessing similarity metrics used in metric-based clone detection techniques | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN113901783A (zh) | 面向领域的文档查重方法及系统 | |
Gao et al. | Text categorization based on improved Rocchio algorithm | |
Liang et al. | Short text similarity hybrid algorithm for a Chinese medical intelligent question answering system | |
CN110929501B (zh) | 文本分析方法和装置 | |
CN117688354B (zh) | 一种基于进化算法的文本特征选择方法及系统 | |
CN117435928B (zh) | 实体关系抽取模型的训练方法、实体关系抽取方法及设备 | |
Rei et al. | Parser lexicalisation through self-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |