CN111325015B - 一种基于语义分析的文档查重方法及系统 - Google Patents

一种基于语义分析的文档查重方法及系统 Download PDF

Info

Publication number
CN111325015B
CN111325015B CN202010103483.3A CN202010103483A CN111325015B CN 111325015 B CN111325015 B CN 111325015B CN 202010103483 A CN202010103483 A CN 202010103483A CN 111325015 B CN111325015 B CN 111325015B
Authority
CN
China
Prior art keywords
query statement
repetition rate
sentence
document
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010103483.3A
Other languages
English (en)
Other versions
CN111325015A (zh
Inventor
刘文松
林峰
胡竹青
张锦辉
路小俊
刘雪菁
张志鹏
朱泐
杨燕吉
邵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Original Assignee
NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp filed Critical NARI Group Corp
Priority to CN202010103483.3A priority Critical patent/CN111325015B/zh
Publication of CN111325015A publication Critical patent/CN111325015A/zh
Application granted granted Critical
Publication of CN111325015B publication Critical patent/CN111325015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义分析的文档查重方法,包括对待查重文档进行切分,构建查询语句集合;遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;根据各查询语句的重复率,计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。

Description

一种基于语义分析的文档查重方法及系统
技术领域
本发明涉及一种基于语义分析的文档查重方法及系统,属于文本分析技术领域。
背景技术
文档查重在文章发表、项目申报、奖励评审等方面有广泛应用,协助管理人员在初选阶段完成形式审查。形式审查针对直接复制、变换词语、变换句式、变换段落等重复方式进行分析,主要为了避免低水平的重复。在此基础上,再邀请同行专家进行深入的内容审查,评选出高质量的文章、项目或奖项。
文档查重属于文本相似性分析的技术范畴,包括单词相似性、单句相似性、文档相似性。就单词相似性,主要包括词形匹配(判断组成单词的字符一致性)、词义相似(判断单词涵义一致性,具体包括知网法、同义词林法、词向量法)。就单句相似性,主要包括形式相似(Jaccad/Dice、编辑距离法)、语义相似(词级语义相似、句向量法)。就文档相似性,这里文档指多个段落组成的文档全文,主要包括特征法(关键词或主题)、文本向量法。
面对海量文档库,特别是针对中文文档,需要查重方法具备一定程度的语义分析,用以对直接复制、词语变换(特别是同义词变换)、句式变换、段落变换等重复形式,可以给出较好的关联结果,但是现在还没有相应的方法。
发明内容
本发明提供了一种基于语义分析的文档查重方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于语义分析的文档查重方法,包括,
对待查重文档进行切分,构建查询语句集合;
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
根据各查询语句的重复率,计算待查重文档的重复率。
选出查询语句若干候选查重语句的过程为,
采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
获得查询语句重复率的过程为,
采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
采用语义Jaccard方法,计算查询语句与各相应候选查重语句语义相似性的过程为,
获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
计算待查重文档重复率的公式为,
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
一种基于语义分析的文档查重系统,包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合;
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
遍历计算模块包括候选查重语句模块,候选查重语句模块包括,
关联度计算模块:采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择模块:选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
遍历计算模块包括,
查询语句重复率模块:采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
查询语句重复率模块包括语义相似性计算模块,语义相似性计算模块包括,
词向量获取模块:获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
相似度集合构建模块:计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
Jaccard模块:将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于语义分析的文档查重方法。
本发明所达到的有益效果:1、本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于语义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果;2、本发明以颗粒度进行关联,避免语句调整、段落变换对查重的影响;3、本发明采用语义Jaccard方法,相较于传统的Jaccard方法对词语变换有更好的查重效果。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于语义分析的文档查重方法,包括以下步骤:
步骤1,对待查重文档d进行切分,构建查询语句集合{qj};
步骤2,遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率。
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词。
22)对qj进行分词,获得分词集合{ti}。
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;具体为qj的分词集合{ti}与查重语句集合{sk}中各查重语句的关联度;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk}。
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;具体为根据关联度Cj降序对查重语句进行排序,选择前n个sk作为候选查重语句。
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句(即n个sk)的语义相似性,选语义相似性最大值作为查询语句qj的重复率。
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
词向量训练方法有很多,如可以参考谷歌公司BERT模型训练的相关文献。当没有词向量时,也可以改用其他语义相似性评价方法,如知识网络法、词林法等;
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi}。
传统Jaccard算法可以直接计算两组语句的词语重复率,对直接复制、变换句式两种重复形式有直接效果。但是对于变换同义词这种形式,则效果有限。传统Jaccard相当于根据词形匹配做硬判决,相同为1,不同为0;上述的语义Jaccard方法,基于词向量判断词的语义相似度,相当于做软判决,对词语变换有更好的查重效果。
步骤3,根据各查询语句的重复率,计算待查重文档d的重复率。
计算待查重文档重复率的公式为:
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
上述方法基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于语义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果;同时上述方法以颗粒度进行关联,避免语句调整、段落变换对查重的影响。
一种基于语义分析的文档查重系统,包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合。
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率。
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
遍历计算模块包括候选查重语句模块,候选查重语句模块包括,
关联度计算模块:采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择模块:选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
遍历计算模块包括,
查询语句重复率模块:采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
查询语句重复率模块包括语义相似性计算模块,语义相似性计算模块包括,
词向量获取模块:获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
相似度集合构建模块:计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
Jaccard模块:将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于语义分析的文档查重方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于语义分析的文档查重方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (4)

1.一种基于语义分析的文档查重方法,其特征在于:包括,
对待查重文档进行切分,构建查询语句集合{qj};
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词;
22)对qj进行分词,获得分词集合{ti};
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk};
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句qj的重复率;
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi};
根据各查询语句的重复率,计算待查重文档的重复率。
2.根据权利要求1所述的一种基于语义分析的文档查重方法,其特征在于:计算待查重文档重复率的公式为,
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
3.一种基于语义分析的文档查重系统,其特征在于:包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合{qj};
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
遍历查询语句集合,获得每个qj的重复率,具体过程如下:
21)对qj去停用词;
22)对qj进行分词,获得分词集合{ti};
23)采用BM25算法,计算qj与预设查重语句集合{sk}中各查重语句的关联度Cj;其中,通过对查重文档库进行切分,预先构建查重语句集合{sk};
24)选择关联度大于阈值的查重语句为该查询语句的候选查重语句;
25)采用语义Jaccard方法,计算查询语句qj与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句qj的重复率;
采用语义Jaccard方法,计算语义相似性过程如下:
A1)获取查询语句qj分词集合{ti}的词向量{wi},获取候选查重语句分词集合{tsj}的词向量{wsi};
A2)计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合,其中CSimi最大时wi与wsi最相似;
A3)将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性;
Jaccard公式:
其中,|qj∩sk|为{wi}对{wsi}的相似度集合{CSimi};
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
4.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至2所述的方法中的任一方法。
CN202010103483.3A 2020-02-19 2020-02-19 一种基于语义分析的文档查重方法及系统 Active CN111325015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010103483.3A CN111325015B (zh) 2020-02-19 2020-02-19 一种基于语义分析的文档查重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103483.3A CN111325015B (zh) 2020-02-19 2020-02-19 一种基于语义分析的文档查重方法及系统

Publications (2)

Publication Number Publication Date
CN111325015A CN111325015A (zh) 2020-06-23
CN111325015B true CN111325015B (zh) 2024-01-30

Family

ID=71168788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103483.3A Active CN111325015B (zh) 2020-02-19 2020-02-19 一种基于语义分析的文档查重方法及系统

Country Status (1)

Country Link
CN (1) CN111325015B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814447B (zh) * 2020-06-24 2022-05-27 平安科技(深圳)有限公司 基于分词文本的电子病例查重方法、装置、计算机设备
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113901783A (zh) * 2021-11-18 2022-01-07 青岛科技大学 面向领域的文档查重方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及系统
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN110347782A (zh) * 2019-07-18 2019-10-18 知者信息技术服务成都有限公司 文章查重方法、装置和电子设备
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及系统
CN110347782A (zh) * 2019-07-18 2019-10-18 知者信息技术服务成都有限公司 文章查重方法、装置和电子设备
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于改进相似度计算的文本聚类方法;李征等;河南大学学报(自然科学版);第第48卷卷(第第4期期);第416-417页 *
基于改进的Jaccard系数文档相似度计算方法;俞婷婷等;计算机系统应用;第第26卷卷(第第12期期);摘要,第139页 *

Also Published As

Publication number Publication date
CN111325015A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111325015B (zh) 一种基于语义分析的文档查重方法及系统
US9230009B2 (en) Routing of questions to appropriately trained question and answer system pipelines using clustering
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及系统
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
He et al. Question answering over linked data using first-order logic
Melamud et al. A two level model for context sensitive inference rules
Foxcroft et al. Name2vec: Personal names embeddings
CN111159381B (zh) 数据搜索方法及装置
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
Shawky et al. An approach for assessing similarity metrics used in metric-based clone detection techniques
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN113901783A (zh) 面向领域的文档查重方法及系统
Gao et al. Text categorization based on improved Rocchio algorithm
Liang et al. Short text similarity hybrid algorithm for a Chinese medical intelligent question answering system
CN110929501B (zh) 文本分析方法和装置
CN117688354B (zh) 一种基于进化算法的文本特征选择方法及系统
CN117435928B (zh) 实体关系抽取模型的训练方法、实体关系抽取方法及设备
Rei et al. Parser lexicalisation through self-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant