CN108804418B - 一种基于语义分析的文档查重方法和装置 - Google Patents

一种基于语义分析的文档查重方法和装置 Download PDF

Info

Publication number
CN108804418B
CN108804418B CN201810488412.2A CN201810488412A CN108804418B CN 108804418 B CN108804418 B CN 108804418B CN 201810488412 A CN201810488412 A CN 201810488412A CN 108804418 B CN108804418 B CN 108804418B
Authority
CN
China
Prior art keywords
document
words
similarity
word
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810488412.2A
Other languages
English (en)
Other versions
CN108804418A (zh
Inventor
王乐
石园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201810488412.2A priority Critical patent/CN108804418B/zh
Publication of CN108804418A publication Critical patent/CN108804418A/zh
Application granted granted Critical
Publication of CN108804418B publication Critical patent/CN108804418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于语义分析的文档查重方法和装置,包括:确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;对经过格式转换的所述待查重文档、所述对比文档进行分词;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。本发明提供的方案能够提高查重的精确度。

Description

一种基于语义分析的文档查重方法和装置
技术领域
本发明涉及文档查重技术领域,特别涉及一种基于语义分析的文档查重方法和装置。
背景技术
现有技术中,一般根据标点符号分别将待查重文档和对比文档划分成不同的句子,然后通过句子间的对比确定待查重文档与对比文档的重复率。
但是,该方法仅能识别完全复制的句子,对于一些“换词不换意”的句子无法识别。因此,该方法的查重精确度较低。
发明内容
本发明实施例提供了一种基于语义分析的文档查重方法和装置,能够提高查重精确度。
第一方面,本发明实施例提供了一种基于语义分析的文档查重方法,包括:
确定待查重文档和对比文档;
根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;
对经过格式转换的所述待查重文档、所述对比文档进行分词;
根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;
根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;
根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。
优选地,
所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度,包括:
根据所述待查重文档的分词结果和所述对比文档的分词结果,确定同时存在于所述待查重文档、所述对比文档中的第一词的数量;
确定所述待查重文档中第二词的数量,其中,所述第二词在所述对比文档中存在同义词;
根据所述第一词的数量和所述第二词的数量,利用下述第一公式,计算所述第一相似度;
所述第一公式,包括:
Figure BDA0001667398760000021
其中,p用于表征所述第一相似度,x用于表征所述第一词的数量,y用于表征所述第二词的数量,z用于表征所述待查重文档中词的总数。
优选地,
所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度,包括:
根据所述待查重文档的分词结果,按照词频由高到低的顺序,在所述待查重文档中确定目标数量的第一高频词;
根据所述对比文档的分词结果,按照词频由高到低的顺序,在所述对比文档中确定所述目标数量的第二高频词;
确定所述待查重文档中包括所述第一高频词的至少一个第一语句;
确定所述对比文档中包括所述第二高频词的至少一个第二语句;
确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量;
确定所述至少一个第一语句中第四词的数量,其中,所述第四词在所述至少一个第二语句中存在同义词;
根据所述第三词的数量和所述第四词的数量,利用下述第二公式,计算所述第二相似度;
所述第二公式,包括:
Figure BDA0001667398760000031
其中,k用于表征所述第二相似度,m用于表征所述第三词的数量,n用于表征所述第四词的数量,h用于表征所述至少一个第一语句中词的总数。
优选地,
所述根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率,包括:
根据所述第一相似度和所述第二相似度,利用下述第三公式,计算所述待查重文档与所述对比文档的重复率;
所述第三公式,包括:
q=αp+βk
其中,q用于表征所述待查重文档与所述对比文档的重复率,α用于表征所述第一相似度的权重,p用于表征所述第一相似度,β用于表征所述第二相似度的权重,k用于表征所述第二相似度。
优选地,
进一步包括:
根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词,生成重叠图;
展示所述重叠图;
当接收到针对所述重叠图中任意一个所述第一词的点击操作时,突出显示所述待查重文档和所述对比文档中包含所述第一词的句子;或,当接收到针对所述重叠图中任意一个所述第二词的点击操作时,突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。
第二方面,本发明实施例提供了一种基于语义分析的文档查重装置,包括:
格式转换单元,用于确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;
分词单元,用于对所述格式转换单元经过格式转换的所述待查重文档、所述对比文档进行分词;
分析单元,用于根据所述分词单元所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;
确定单元,用于根据所述分析单元得到的所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。
优选地,
所述分析单元,用于根据所述待查重文档的分词结果和所述对比文档的分词结果,确定同时存在于所述待查重文档、所述对比文档中的第一词的数量;确定所述待查重文档中第二词的数量,其中,所述第二词在所述对比文档中存在同义词;根据所述第一词的数量和所述第二词的数量,利用下述第一公式,计算所述第一相似度;
所述第一公式,包括:
Figure BDA0001667398760000041
其中,p用于表征所述第一相似度,x用于表征所述第一词的数量,y用于表征所述第二词的数量,z用于表征所述待查重文档中词的总数。
优选地,
所述分析单元,用于根据所述待查重文档的分词结果,按照词频由高到低的顺序,在所述待查重文档中确定目标数量的第一高频词;根据所述对比文档的分词结果,按照词频由高到低的顺序,在所述对比文档中确定所述目标数量的第二高频词;确定所述待查重文档中包括所述第一高频词的至少一个第一语句;确定所述对比文档中包括所述第二高频词的至少一个第二语句;确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量;确定所述至少一个第一语句中第四词的数量,其中,所述第四词在所述至少一个第二语句中存在同义词;根据所述第三词的数量和所述第四词的数量,利用下述第二公式,计算所述第二相似度;
所述第二公式,包括:
Figure BDA0001667398760000051
其中,k用于表征所述第二相似度,m用于表征所述第三词的数量,n用于表征所述第四词的数量,h用于表征所述至少一个第一语句中词的总数。
优选地,
所述确定单元,用于根据所述第一相似度和所述第二相似度,利用下述第三公式,计算所述待查重文档与所述对比文档的重复率;
所述第三公式,包括:
q=αp+βk
其中,q用于表征所述待查重文档与所述对比文档的重复率,α用于表征所述第一相似度的权重,p用于表征所述第一相似度,β用于表征所述第二相似度的权重,k用于表征所述第二相似度。
优选地,
进一步包括:展示单元;
所述展示单元,用于根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词,生成重叠图;展示所述重叠图;当接收到针对所述重叠图中任意一个所述第一词的点击操作时,突出显示所述待查重文档和所述对比文档中包含所述第一词的句子;或,当接收到针对所述重叠图中任意一个所述第二词的点击操作时,突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。
本发明实施例提供了一种基于语义分析的文档查重方法和装置,其中,该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一,然后,分别对两个文档进行分词,根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果,确定两个文档的重复率。该方法通过语义分析对文档进行查重,与现有技术相比,能够提高查重的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种基于语义分析的文档查重方法的流程图;
图2是本发明另一个实施例提供的一种基于语义分析的文档查重方法的流程图;
图3是本发明一个实施例提供的一种基于语义分析的文档查重装置的结构示意图;
图4是本发明另一个实施例提供的一种基于语义分析的文档查重装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于语义分析的文档查重方法,包括:
步骤101:确定待查重文档和对比文档。
其中,对比文档可以是一个,也可以是多个。当对比文档是多个时,其处理方法与一个时相同。
步骤102:根据预设的格式标准,对待查重文档、对比文档进行格式转换。
将待查重文档、对比文档的格式进行统一,有助于对其进行统一处理。
步骤103:对经过格式转换的待查重文档、对比文档进行分词。
步骤104:根据待查重文档的分词结果和对比文档的分词结果,进行同义词归并,确定第一相似度。
步骤105:根据待查重文档的分词结果和对比文档的分词结果,进行聚类分析,确定第二相似度。
步骤106:根据第一相似度和第二相似度,确定待查重文档与对比文档的重复率。
该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一,然后,分别对两个文档进行分词,根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果,确定两个文档的重复率。该方法通过语义分析对文档进行查重,与现有技术相比,能够提高查重的精确度。
在本发明的一个实施例中,根据待查重文档的分词结果和对比文档的分词结果,进行同义词归并,确定第一相似度,包括:
根据待查重文档的分词结果和对比文档的分词结果,确定同时存在于待查重文档、对比文档中的第一词的数量;
确定待查重文档中第二词的数量,其中,第二词在对比文档中存在同义词;
根据第一词的数量和第二词的数量,利用下述第一公式,计算第一相似度;
第一公式,包括:
Figure BDA0001667398760000081
其中,p用于表征第一相似度,x用于表征第一词的数量,y用于表征第二词的数量,z用于表征待查重文档中词的总数。
在本发明实施例中,不仅考虑同时出现在两个文档中的第一次,还考虑语义相同的同义词,避免通过变更同义词而规避抄袭的情况。
通过统计两个文档中出现相同词、以及同义词的数量
在本发明的一个实施例中,根据待查重文档的分词结果和对比文档的分词结果,进行聚类分析,确定第二相似度,包括:
根据待查重文档的分词结果,按照词频由高到低的顺序,在待查重文档中确定目标数量的第一高频词;
根据对比文档的分词结果,按照词频由高到低的顺序,在对比文档中确定目标数量的第二高频词;
确定待查重文档中包括第一高频词的至少一个第一语句;
确定对比文档中包括第二高频词的至少一个第二语句;
确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量;
确定至少一个第一语句中第四词的数量,其中,第四词在至少一个第二语句中存在同义词;
根据第三词的数量和第四词的数量,利用下述第二公式,计算第二相似度;
第二公式,包括:
Figure BDA0001667398760000082
其中,k用于表征第二相似度,m用于表征第三词的数量,n用于表征第四词的数量,h用于表征至少一个第一语句中词的总数。
在本发明实施例中,聚类分析能够对文档进行内容层面的分析,根据文档中出现的高频词,确定文档的主题、所属的领域等。根据聚类分析结果,查重过程可以仅关注与文档主题相关性较高的内容,例如,包含高频词的句子,并以此作为查重的重点。针对重复词的数量较多,但是,各个重复词的词频较低的情况,鉴于重复词的内容与文档的主题相关性较低,应该避免过度关注,以造成查重的精确度下降。
在本发明的一个实施例中,根据第一相似度和第二相似度,确定待查重文档与对比文档的重复率,包括:
根据第一相似度和第二相似度,利用下述第三公式,计算待查重文档与对比文档的重复率;
第三公式,包括:
q=αp+βk
其中,q用于表征待查重文档与对比文档的重复率,α用于表征第一相似度的权重,p用于表征第一相似度,β用于表征第二相似度的权重,k用于表征第二相似度。
第一相似度主要体现两个文档在词语方面的相似性,而第二相似度着重考虑了与文档主旨相关性较大的内容的相似性,第一相似度的权重和第二相似度的权重相结合,从不同侧面反映两个文档的相似性,与现有技术相比,该方法更加全面,得到的重复率精确度更高。
在本发明的一个实施例中,为了更加直观性展示两个稳当的重复率,该方法还包括:
根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词,生成重叠图;
展示重叠图;
当接收到针对重叠图中任意一个第一词的点击操作时,突出显示待查重文档和对比文档中包含第一词的句子;或,当接收到针对重叠图中任意一个第二词的点击操作时,突出显示待查重文档中包含第二词的句子和对比文档中包含第二词的同义词的句子。
在实际应用场景中,还可以在重叠图中展示重复率、各个词的词频等参数。
如图2所示,本发明实施例将对一种基于语义分析的文档查重方法进行详细的说明,该方法包括:
步骤201:确定待查重文档和对比文档,根据预设的格式标准,对待查重文档、对比文档进行格式转换。
将待查重文档、对比文档的格式进行统一,有助于对其进行统一处理。
步骤202:对经过格式转换的待查重文档、对比文档进行分词。
通过预设的分词规则进行分词,例如,对“我明天回家”进行分词,分词结果为“我”、“明天”、“回家”。
步骤203:根据待查重文档的分词结果和对比文档的分词结果,确定同时存在于待查重文档、对比文档中的第一词的数量。
以“俺明天归家”和“我明天回家”为例,第一词的数量为1,即“明天”。
步骤204:确定待查重文档中第二词的数量,其中,第二词在对比文档中存在同义词。
“俺”、“我”是一对同义词,“归家”和“回家”是一对同义词,因此,第二词的数量为2。
步骤205:根据第一词的数量和第二词的数量,利用第一公式,计算第一相似度。
第一公式,包括:
Figure BDA0001667398760000101
其中,p用于表征第一相似度,x用于表征第一词的数量,y用于表征第二词的数量,z用于表征待查重文档中词的总数。
根据步骤204,利用第一公式,得到第一相似度为100%。
步骤206:根据待查重文档的分词结果,按照词频由高到低的顺序,在待查重文档中确定目标数量的第一高频词。
目标数量可以根据实际需求进行确定。例如,待查重文档中词频较高的两词为篮球(10次)、足球(5次)。
步骤207:根据对比文档的分词结果,按照词频由高到低的顺序,在对比文档中确定目标数量的第二高频词。
对比文档中词频较高的两词为学校(8)、足球(2)。
步骤208:确定待查重文档中包括第一高频词的至少一个第一语句,确定对比文档中包括第二高频词的至少一个第二语句。
需要说明的是,同一个高频词可以在一个语句中出现多次。
步骤209:确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量。
步骤209的处理过程参考步骤203,此处不再赘述。
步骤210:确定至少一个第一语句中第四词的数量,其中,第四词在至少一个第二语句中存在同义词。
步骤210的处理过程参考步骤204,此处不再赘述。
步骤211:根据第三词的数量和第四词的数量,利用第二公式,计算第二相似度。
第二公式,包括:
Figure BDA0001667398760000111
其中,k用于表征第二相似度,m用于表征第三词的数量,n用于表征第四词的数量,h用于表征至少一个第一语句中词的总数。
步骤212:根据第一相似度和第二相似度,利用第三公式,计算待查重文档与对比文档的重复率。
第三公式,包括:
q=αp+βk
其中,q用于表征待查重文档与对比文档的重复率,α用于表征第一相似度的权重,p用于表征第一相似度,β用于表征第二相似度的权重,k用于表征第二相似度。
步骤213:根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词,生成重叠图,并展示重叠图。
步骤214:当接收到针对重叠图中任意一个第一词的点击操作时,突出显示待查重文档和对比文档中包含第一词的句子。
如图3所示,本发明实施例提供了一种基于语义分析的文档查重装置,包括:
格式转换单元301,用于确定待查重文档和对比文档;根据预设的格式标准,对待查重文档、对比文档进行格式转换;
分词单元302,用于对格式转换单元301经过格式转换的待查重文档、对比文档进行分词;
分析单元303,用于根据分词单元302待查重文档的分词结果和对比文档的分词结果,进行同义词归并,确定第一相似度;根据待查重文档的分词结果和对比文档的分词结果,进行聚类分析,确定第二相似度;
确定单元304,用于根据分析单元303得到的第一相似度和第二相似度,确定待查重文档与对比文档的重复率。
在本发明的一个实施例中,分析单元303,用于根据待查重文档的分词结果和对比文档的分词结果,确定同时存在于待查重文档、对比文档中的第一词的数量;确定待查重文档中第二词的数量,其中,第二词在对比文档中存在同义词;根据第一词的数量和第二词的数量,利用下述第一公式,计算第一相似度;
第一公式,包括:
Figure BDA0001667398760000121
其中,p用于表征第一相似度,x用于表征第一词的数量,y用于表征第二词的数量,z用于表征待查重文档中词的总数。
在本发明的一个实施例中,分析单元303,用于根据待查重文档的分词结果,按照词频由高到低的顺序,在待查重文档中确定目标数量的第一高频词;根据对比文档的分词结果,按照词频由高到低的顺序,在对比文档中确定目标数量的第二高频词;确定待查重文档中包括第一高频词的至少一个第一语句;确定对比文档中包括第二高频词的至少一个第二语句;确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量;确定至少一个第一语句中第四词的数量,其中,第四词在至少一个第二语句中存在同义词;根据第三词的数量和第四词的数量,利用下述第二公式,计算第二相似度;
第二公式,包括:
Figure BDA0001667398760000131
其中,k用于表征第二相似度,m用于表征第三词的数量,n用于表征第四词的数量,h用于表征至少一个第一语句中词的总数。
在本发明的一个实施例中,确定单元304,用于根据第一相似度和第二相似度,利用下述第三公式,计算待查重文档与对比文档的重复率;
第三公式,包括:
q=αp+βk
其中,q用于表征待查重文档与对比文档的重复率,α用于表征第一相似度的权重,p用于表征第一相似度,β用于表征第二相似度的权重,k用于表征第二相似度。
在本发明的一个实施例中,如图4所示该装置还包括:展示单元305;
展示单元305,用于根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词,生成重叠图;展示重叠图;当接收到针对重叠图中任意一个第一词的点击操作时,突出显示待查重文档和对比文档中包含第一词的句子;或,当接收到针对重叠图中任意一个第二词的点击操作时,突出显示待查重文档中包含第二词的句子和对比文档中包含第二词的同义词的句子。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行执行指令时,存储控制器执行上述任一实施例的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
存储器用于存储执行指令,处理器与存储器通过总线连接,当存储控制器运行时,处理器执行存储器存储的执行指令,以使存储控制器执行上述任一实施例的方法。
综上,本发明各个实施例至少具有如下效果:
1、在本发明实施例中,该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一,然后,分别对两个文档进行分词,根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果,确定两个文档的重复率。该方法通过语义分析对文档进行查重,与现有技术相比,能够提高查重的精确度。
2、在本发明实施例中,该方法通过重叠图更加直观地展示两个文档的重复率,并通过突出显示强调同时出现在两个文档中的词。
3、在本发明实施例中,通过聚类分析确定与文档主旨相关性较大的文档内容,并通过这些文档内容计算第二相似度,以突出文档主旨对重复率的影响,提高查重放入精确度。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种基于语义分析的文档查重方法,其特征在于,包括:
确定待查重文档和对比文档;
根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;
对经过格式转换的所述待查重文档、所述对比文档进行分词;
根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;
根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;
根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率;
所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度,包括:
根据所述待查重文档的分词结果和所述对比文档的分词结果,确定同时存在于所述待查重文档、所述对比文档中的第一词的数量;
确定所述待查重文档中第二词的数量,其中,所述第二词在所述对比文档中存在同义词;
根据所述第一词的数量和所述第二词的数量,利用下述第一公式,计算所述第一相似度;
所述第一公式,包括:
Figure FDA0003307561620000011
其中,p用于表征所述第一相似度,x用于表征所述第一词的数量,y用于表征所述第二词的数量,z用于表征所述待查重文档中词的总数;
所述根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度,包括:
根据所述待查重文档的分词结果,按照词频由高到低的顺序,在所述待查重文档中确定目标数量的第一高频词;
根据所述对比文档的分词结果,按照词频由高到低的顺序,在所述对比文档中确定所述目标数量的第二高频词;
确定所述待查重文档中包括所述第一高频词的至少一个第一语句;
确定所述对比文档中包括所述第二高频词的至少一个第二语句;
确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量;
确定所述至少一个第一语句中第四词的数量,其中,所述第四词在所述至少一个第二语句中存在同义词;
根据所述第三词的数量和所述第四词的数量,利用下述第二公式,计算所述第二相似度;
所述第二公式,包括:
Figure FDA0003307561620000021
其中,k用于表征所述第二相似度,m用于表征所述第三词的数量,n用于表征所述第四词的数量,h用于表征所述至少一个第一语句中词的总数。
2.根据权利要求1所述的基于语义分析的文档查重方法,其特征在于,
所述根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率,包括:
根据所述第一相似度和所述第二相似度,利用下述第三公式,计算所述待查重文档与所述对比文档的重复率;
所述第三公式,包括:
q=αp+βk
其中,q用于表征所述待查重文档与所述对比文档的重复率,α用于表征所述第一相似度的权重,p用于表征所述第一相似度,β用于表征所述第二相似度的权重,k用于表征所述第二相似度。
3.根据权利要求2所述的基于语义分析的文档查重方法,其特征在于,进一步包括:
根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词,生成重叠图;
展示所述重叠图;
当接收到针对所述重叠图中任意一个所述第一词的点击操作时,突出显示所述待查重文档和所述对比文档中包含所述第一词的句子;或,当接收到针对所述重叠图中任意一个所述第二词的点击操作时,突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。
4.一种基于语义分析的文档查重装置,其特征在于,包括:
格式转换单元,用于确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;
分词单元,用于对所述格式转换单元经过格式转换的所述待查重文档、所述对比文档进行分词;
分析单元,用于根据所述分词单元所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;
确定单元,用于根据所述分析单元得到的所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率;
所述分析单元,用于根据所述待查重文档的分词结果和所述对比文档的分词结果,确定同时存在于所述待查重文档、所述对比文档中的第一词的数量;确定所述待查重文档中第二词的数量,其中,所述第二词在所述对比文档中存在同义词;根据所述第一词的数量和所述第二词的数量,利用下述第一公式,计算所述第一相似度;
所述第一公式,包括:
Figure FDA0003307561620000031
其中,p用于表征所述第一相似度,x用于表征所述第一词的数量,y用于表征所述第二词的数量,z用于表征所述待查重文档中词的总数;
所述分析单元,用于根据所述待查重文档的分词结果,按照词频由高到低的顺序,在所述待查重文档中确定目标数量的第一高频词;根据所述对比文档的分词结果,按照词频由高到低的顺序,在所述对比文档中确定所述目标数量的第二高频词;确定所述待查重文档中包括所述第一高频词的至少一个第一语句;确定所述对比文档中包括所述第二高频词的至少一个第二语句;确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量;确定所述至少一个第一语句中第四词的数量,其中,所述第四词在所述至少一个第二语句中存在同义词;根据所述第三词的数量和所述第四词的数量,利用下述第二公式,计算所述第二相似度;
所述第二公式,包括:
Figure FDA0003307561620000041
其中,k用于表征所述第二相似度,m用于表征所述第三词的数量,n用于表征所述第四词的数量,h用于表征所述至少一个第一语句中词的总数。
5.根据权利要求4所述的基于语义分析的文档查重装置,其特征在于,
所述确定单元,用于根据所述第一相似度和所述第二相似度,利用下述第三公式,计算所述待查重文档与所述对比文档的重复率;
所述第三公式,包括:
q=αp+βk
其中,q用于表征所述待查重文档与所述对比文档的重复率,α用于表征所述第一相似度的权重,p用于表征所述第一相似度,β用于表征所述第二相似度的权重,k用于表征所述第二相似度。
6.根据权利要求5所述的基于语义分析的文档查重装置,其特征在于,进一步包括:展示单元;
所述展示单元,用于根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词,生成重叠图;展示所述重叠图;当接收到针对所述重叠图中任意一个所述第一词的点击操作时,突出显示所述待查重文档和所述对比文档中包含所述第一词的句子;或,当接收到针对所述重叠图中任意一个所述第二词的点击操作时,突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。
CN201810488412.2A 2018-05-21 2018-05-21 一种基于语义分析的文档查重方法和装置 Active CN108804418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810488412.2A CN108804418B (zh) 2018-05-21 2018-05-21 一种基于语义分析的文档查重方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810488412.2A CN108804418B (zh) 2018-05-21 2018-05-21 一种基于语义分析的文档查重方法和装置

Publications (2)

Publication Number Publication Date
CN108804418A CN108804418A (zh) 2018-11-13
CN108804418B true CN108804418B (zh) 2022-03-08

Family

ID=64091186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810488412.2A Active CN108804418B (zh) 2018-05-21 2018-05-21 一种基于语义分析的文档查重方法和装置

Country Status (1)

Country Link
CN (1) CN108804418B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162752B (zh) * 2019-05-13 2023-06-27 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN110321558B (zh) * 2019-06-18 2023-10-27 重庆软江图灵人工智能科技有限公司 一种基于自然语义理解的反作弊方法及相关设备
CN110472203B (zh) * 2019-08-14 2024-03-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质
CN111079403B (zh) * 2019-12-10 2023-08-08 深圳市兴之佳科技有限公司 一种页面对比方法及装置
CN112529091A (zh) * 2020-12-18 2021-03-19 广州视源电子科技股份有限公司 课件相似度检测方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5592552B1 (ja) * 2013-10-25 2014-09-17 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈二静等.文本相似度计算方法研究综述.《数据分析与知识发现 》.2017,(第6期),1-11. *

Also Published As

Publication number Publication date
CN108804418A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804418B (zh) 一种基于语义分析的文档查重方法和装置
US10019515B2 (en) Attribute-based contexts for sentiment-topic pairs
US10025819B2 (en) Generating a query statement based on unstructured input
US9864741B2 (en) Automated collective term and phrase index
US8886648B1 (en) System and method for computation of document similarity
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
US20160299955A1 (en) Text mining system and tool
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
US9092511B2 (en) Solving problems in data processing systems based on text analysis of historical data
US20150193482A1 (en) Topic sentiment identification and analysis
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
TWI643076B (zh) 金融非結構化文本分析系統及其方法
US9613133B2 (en) Context based passage retrieval and scoring in a question answering system
US20110055228A1 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
US11074276B2 (en) Methods and systems for optimized visual summarization for sequences of temporal event data
JP2020113129A (ja) 文書評価装置、文書評価方法及びプログラム
JP2010271819A (ja) 語句関係抽出装置、語句関係抽出方法及びプログラム
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
CN113553491A (zh) 一种基于倒排索引的工业大数据搜索优化方法
Putri et al. Software feature extraction using infrequent feature extraction
US8756236B1 (en) System and method for indexing documents
US20220335070A1 (en) Method and apparatus for querying writing material, and storage medium
Wu et al. Development of a Chinese opinion-mining system for application to Internet online forums
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220210

Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province

Applicant after: INSPUR SOFTWARE Co.,Ltd.

Address before: 250100 Ji'nan hi tech Zone No. 2877, Shandong Province

Applicant before: INSPUR GROUP Co.,Ltd.

GR01 Patent grant
GR01 Patent grant