CN108804418B

CN108804418B - 一种基于语义分析的文档查重方法和装置

Info

Publication number: CN108804418B
Application number: CN201810488412.2A
Authority: CN
Inventors: 王乐; 石园
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2022-03-08
Anticipated expiration: 2038-05-21
Also published as: CN108804418A

Abstract

本发明提供了一种基于语义分析的文档查重方法和装置，包括：确定待查重文档和对比文档；根据预设的格式标准，对所述待查重文档、所述对比文档进行格式转换；对经过格式转换的所述待查重文档、所述对比文档进行分词；根据所述待查重文档的分词结果和所述对比文档的分词结果，进行同义词归并，确定第一相似度；根据所述待查重文档的分词结果和所述对比文档的分词结果，进行聚类分析，确定第二相似度；根据所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率。本发明提供的方案能够提高查重的精确度。

Description

一种基于语义分析的文档查重方法和装置

技术领域

本发明涉及文档查重技术领域，特别涉及一种基于语义分析的文档查重方法和装置。

背景技术

现有技术中，一般根据标点符号分别将待查重文档和对比文档划分成不同的句子，然后通过句子间的对比确定待查重文档与对比文档的重复率。

但是，该方法仅能识别完全复制的句子，对于一些“换词不换意”的句子无法识别。因此，该方法的查重精确度较低。

发明内容

本发明实施例提供了一种基于语义分析的文档查重方法和装置，能够提高查重精确度。

第一方面，本发明实施例提供了一种基于语义分析的文档查重方法，包括：

确定待查重文档和对比文档；

根据预设的格式标准，对所述待查重文档、所述对比文档进行格式转换；

对经过格式转换的所述待查重文档、所述对比文档进行分词；

根据所述待查重文档的分词结果和所述对比文档的分词结果，进行同义词归并，确定第一相似度；

根据所述待查重文档的分词结果和所述对比文档的分词结果，进行聚类分析，确定第二相似度；

根据所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率。

优选地，

所述根据所述待查重文档的分词结果和所述对比文档的分词结果，进行同义词归并，确定第一相似度，包括：

根据所述待查重文档的分词结果和所述对比文档的分词结果，确定同时存在于所述待查重文档、所述对比文档中的第一词的数量；

确定所述待查重文档中第二词的数量，其中，所述第二词在所述对比文档中存在同义词；

根据所述第一词的数量和所述第二词的数量，利用下述第一公式，计算所述第一相似度；

所述第一公式，包括：

其中，p用于表征所述第一相似度，x用于表征所述第一词的数量，y用于表征所述第二词的数量，z用于表征所述待查重文档中词的总数。

优选地，

所述根据所述待查重文档的分词结果和所述对比文档的分词结果，进行聚类分析，确定第二相似度，包括：

根据所述待查重文档的分词结果，按照词频由高到低的顺序，在所述待查重文档中确定目标数量的第一高频词；

根据所述对比文档的分词结果，按照词频由高到低的顺序，在所述对比文档中确定所述目标数量的第二高频词；

确定所述待查重文档中包括所述第一高频词的至少一个第一语句；

确定所述对比文档中包括所述第二高频词的至少一个第二语句；

确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量；

确定所述至少一个第一语句中第四词的数量，其中，所述第四词在所述至少一个第二语句中存在同义词；

根据所述第三词的数量和所述第四词的数量，利用下述第二公式，计算所述第二相似度；

所述第二公式，包括：

其中，k用于表征所述第二相似度，m用于表征所述第三词的数量，n用于表征所述第四词的数量，h用于表征所述至少一个第一语句中词的总数。

优选地，

所述根据所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率，包括：

根据所述第一相似度和所述第二相似度，利用下述第三公式，计算所述待查重文档与所述对比文档的重复率；

所述第三公式，包括：

q＝αp+βk

其中，q用于表征所述待查重文档与所述对比文档的重复率，α用于表征所述第一相似度的权重，p用于表征所述第一相似度，β用于表征所述第二相似度的权重，k用于表征所述第二相似度。

优选地，

进一步包括：

根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词，生成重叠图；

展示所述重叠图；

当接收到针对所述重叠图中任意一个所述第一词的点击操作时，突出显示所述待查重文档和所述对比文档中包含所述第一词的句子；或，当接收到针对所述重叠图中任意一个所述第二词的点击操作时，突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。

第二方面，本发明实施例提供了一种基于语义分析的文档查重装置，包括：

格式转换单元，用于确定待查重文档和对比文档；根据预设的格式标准，对所述待查重文档、所述对比文档进行格式转换；

分词单元，用于对所述格式转换单元经过格式转换的所述待查重文档、所述对比文档进行分词；

分析单元，用于根据所述分词单元所述待查重文档的分词结果和所述对比文档的分词结果，进行同义词归并，确定第一相似度；根据所述待查重文档的分词结果和所述对比文档的分词结果，进行聚类分析，确定第二相似度；

确定单元，用于根据所述分析单元得到的所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率。

优选地，

所述分析单元，用于根据所述待查重文档的分词结果和所述对比文档的分词结果，确定同时存在于所述待查重文档、所述对比文档中的第一词的数量；确定所述待查重文档中第二词的数量，其中，所述第二词在所述对比文档中存在同义词；根据所述第一词的数量和所述第二词的数量，利用下述第一公式，计算所述第一相似度；

所述第一公式，包括：

优选地，

所述分析单元，用于根据所述待查重文档的分词结果，按照词频由高到低的顺序，在所述待查重文档中确定目标数量的第一高频词；根据所述对比文档的分词结果，按照词频由高到低的顺序，在所述对比文档中确定所述目标数量的第二高频词；确定所述待查重文档中包括所述第一高频词的至少一个第一语句；确定所述对比文档中包括所述第二高频词的至少一个第二语句；确定同时存在于所述至少一个第一语句和所述至少一个第二语句中的第三词的数量；确定所述至少一个第一语句中第四词的数量，其中，所述第四词在所述至少一个第二语句中存在同义词；根据所述第三词的数量和所述第四词的数量，利用下述第二公式，计算所述第二相似度；

所述第二公式，包括：

优选地，

所述确定单元，用于根据所述第一相似度和所述第二相似度，利用下述第三公式，计算所述待查重文档与所述对比文档的重复率；

所述第三公式，包括：

q＝αp+βk

优选地，

进一步包括：展示单元；

所述展示单元，用于根据所述待查重文档的分词结果、所述对比文档的分词结果、所述第一词和所述第二词，生成重叠图；展示所述重叠图；当接收到针对所述重叠图中任意一个所述第一词的点击操作时，突出显示所述待查重文档和所述对比文档中包含所述第一词的句子；或，当接收到针对所述重叠图中任意一个所述第二词的点击操作时，突出显示所述待查重文档中包含所述第二词的句子和所述对比文档中包含所述第二词的同义词的句子。

本发明实施例提供了一种基于语义分析的文档查重方法和装置，其中，该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一，然后，分别对两个文档进行分词，根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果，确定两个文档的重复率。该方法通过语义分析对文档进行查重，与现有技术相比，能够提高查重的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种基于语义分析的文档查重方法的流程图；

图2是本发明另一个实施例提供的一种基于语义分析的文档查重方法的流程图；

图3是本发明一个实施例提供的一种基于语义分析的文档查重装置的结构示意图；

图4是本发明另一个实施例提供的一种基于语义分析的文档查重装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于语义分析的文档查重方法，包括：

步骤101：确定待查重文档和对比文档。

其中，对比文档可以是一个，也可以是多个。当对比文档是多个时，其处理方法与一个时相同。

步骤102：根据预设的格式标准，对待查重文档、对比文档进行格式转换。

将待查重文档、对比文档的格式进行统一，有助于对其进行统一处理。

步骤103：对经过格式转换的待查重文档、对比文档进行分词。

步骤104：根据待查重文档的分词结果和对比文档的分词结果，进行同义词归并，确定第一相似度。

步骤105：根据待查重文档的分词结果和对比文档的分词结果，进行聚类分析，确定第二相似度。

步骤106：根据第一相似度和第二相似度，确定待查重文档与对比文档的重复率。

该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一，然后，分别对两个文档进行分词，根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果，确定两个文档的重复率。该方法通过语义分析对文档进行查重，与现有技术相比，能够提高查重的精确度。

在本发明的一个实施例中，根据待查重文档的分词结果和对比文档的分词结果，进行同义词归并，确定第一相似度，包括：

根据待查重文档的分词结果和对比文档的分词结果，确定同时存在于待查重文档、对比文档中的第一词的数量；

确定待查重文档中第二词的数量，其中，第二词在对比文档中存在同义词；

根据第一词的数量和第二词的数量，利用下述第一公式，计算第一相似度；

第一公式，包括：

其中，p用于表征第一相似度，x用于表征第一词的数量，y用于表征第二词的数量，z用于表征待查重文档中词的总数。

在本发明实施例中，不仅考虑同时出现在两个文档中的第一次，还考虑语义相同的同义词，避免通过变更同义词而规避抄袭的情况。

通过统计两个文档中出现相同词、以及同义词的数量

在本发明的一个实施例中，根据待查重文档的分词结果和对比文档的分词结果，进行聚类分析，确定第二相似度，包括：

根据待查重文档的分词结果，按照词频由高到低的顺序，在待查重文档中确定目标数量的第一高频词；

根据对比文档的分词结果，按照词频由高到低的顺序，在对比文档中确定目标数量的第二高频词；

确定待查重文档中包括第一高频词的至少一个第一语句；

确定对比文档中包括第二高频词的至少一个第二语句；

确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量；

确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词；

根据第三词的数量和第四词的数量，利用下述第二公式，计算第二相似度；

第二公式，包括：

其中，k用于表征第二相似度，m用于表征第三词的数量，n用于表征第四词的数量，h用于表征至少一个第一语句中词的总数。

在本发明实施例中，聚类分析能够对文档进行内容层面的分析，根据文档中出现的高频词，确定文档的主题、所属的领域等。根据聚类分析结果，查重过程可以仅关注与文档主题相关性较高的内容，例如，包含高频词的句子，并以此作为查重的重点。针对重复词的数量较多，但是，各个重复词的词频较低的情况，鉴于重复词的内容与文档的主题相关性较低，应该避免过度关注，以造成查重的精确度下降。

在本发明的一个实施例中，根据第一相似度和第二相似度，确定待查重文档与对比文档的重复率，包括：

根据第一相似度和第二相似度，利用下述第三公式，计算待查重文档与对比文档的重复率；

第三公式，包括：

q＝αp+βk

其中，q用于表征待查重文档与对比文档的重复率，α用于表征第一相似度的权重，p用于表征第一相似度，β用于表征第二相似度的权重，k用于表征第二相似度。

第一相似度主要体现两个文档在词语方面的相似性，而第二相似度着重考虑了与文档主旨相关性较大的内容的相似性，第一相似度的权重和第二相似度的权重相结合，从不同侧面反映两个文档的相似性，与现有技术相比，该方法更加全面，得到的重复率精确度更高。

在本发明的一个实施例中，为了更加直观性展示两个稳当的重复率，该方法还包括：

根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词，生成重叠图；

展示重叠图；

当接收到针对重叠图中任意一个第一词的点击操作时，突出显示待查重文档和对比文档中包含第一词的句子；或，当接收到针对重叠图中任意一个第二词的点击操作时，突出显示待查重文档中包含第二词的句子和对比文档中包含第二词的同义词的句子。

在实际应用场景中，还可以在重叠图中展示重复率、各个词的词频等参数。

如图2所示，本发明实施例将对一种基于语义分析的文档查重方法进行详细的说明，该方法包括：

步骤201：确定待查重文档和对比文档，根据预设的格式标准，对待查重文档、对比文档进行格式转换。

步骤202：对经过格式转换的待查重文档、对比文档进行分词。

通过预设的分词规则进行分词，例如，对“我明天回家”进行分词，分词结果为“我”、“明天”、“回家”。

步骤203：根据待查重文档的分词结果和对比文档的分词结果，确定同时存在于待查重文档、对比文档中的第一词的数量。

以“俺明天归家”和“我明天回家”为例，第一词的数量为1，即“明天”。

步骤204：确定待查重文档中第二词的数量，其中，第二词在对比文档中存在同义词。

“俺”、“我”是一对同义词，“归家”和“回家”是一对同义词，因此，第二词的数量为2。

步骤205：根据第一词的数量和第二词的数量，利用第一公式，计算第一相似度。

第一公式，包括：

根据步骤204，利用第一公式，得到第一相似度为100％。

步骤206：根据待查重文档的分词结果，按照词频由高到低的顺序，在待查重文档中确定目标数量的第一高频词。

目标数量可以根据实际需求进行确定。例如，待查重文档中词频较高的两词为篮球(10次)、足球(5次)。

步骤207：根据对比文档的分词结果，按照词频由高到低的顺序，在对比文档中确定目标数量的第二高频词。

对比文档中词频较高的两词为学校(8)、足球(2)。

步骤208：确定待查重文档中包括第一高频词的至少一个第一语句，确定对比文档中包括第二高频词的至少一个第二语句。

需要说明的是，同一个高频词可以在一个语句中出现多次。

步骤209：确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量。

步骤209的处理过程参考步骤203，此处不再赘述。

步骤210：确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词。

步骤210的处理过程参考步骤204，此处不再赘述。

步骤211：根据第三词的数量和第四词的数量，利用第二公式，计算第二相似度。

第二公式，包括：

步骤212：根据第一相似度和第二相似度，利用第三公式，计算待查重文档与对比文档的重复率。

第三公式，包括：

q＝αp+βk

步骤213：根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词，生成重叠图，并展示重叠图。

步骤214：当接收到针对重叠图中任意一个第一词的点击操作时，突出显示待查重文档和对比文档中包含第一词的句子。

如图3所示，本发明实施例提供了一种基于语义分析的文档查重装置，包括：

格式转换单元301，用于确定待查重文档和对比文档；根据预设的格式标准，对待查重文档、对比文档进行格式转换；

分词单元302，用于对格式转换单元301经过格式转换的待查重文档、对比文档进行分词；

分析单元303，用于根据分词单元302待查重文档的分词结果和对比文档的分词结果，进行同义词归并，确定第一相似度；根据待查重文档的分词结果和对比文档的分词结果，进行聚类分析，确定第二相似度；

确定单元304，用于根据分析单元303得到的第一相似度和第二相似度，确定待查重文档与对比文档的重复率。

在本发明的一个实施例中，分析单元303，用于根据待查重文档的分词结果和对比文档的分词结果，确定同时存在于待查重文档、对比文档中的第一词的数量；确定待查重文档中第二词的数量，其中，第二词在对比文档中存在同义词；根据第一词的数量和第二词的数量，利用下述第一公式，计算第一相似度；

第一公式，包括：

在本发明的一个实施例中，分析单元303，用于根据待查重文档的分词结果，按照词频由高到低的顺序，在待查重文档中确定目标数量的第一高频词；根据对比文档的分词结果，按照词频由高到低的顺序，在对比文档中确定目标数量的第二高频词；确定待查重文档中包括第一高频词的至少一个第一语句；确定对比文档中包括第二高频词的至少一个第二语句；确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量；确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词；根据第三词的数量和第四词的数量，利用下述第二公式，计算第二相似度；

第二公式，包括：

在本发明的一个实施例中，确定单元304，用于根据第一相似度和第二相似度，利用下述第三公式，计算待查重文档与对比文档的重复率；

第三公式，包括：

q＝αp+βk

在本发明的一个实施例中，如图4所示该装置还包括：展示单元305；

展示单元305，用于根据待查重文档的分词结果、对比文档的分词结果、第一词和第二词，生成重叠图；展示重叠图；当接收到针对重叠图中任意一个第一词的点击操作时，突出显示待查重文档和对比文档中包含第一词的句子；或，当接收到针对重叠图中任意一个第二词的点击操作时，突出显示待查重文档中包含第二词的句子和对比文档中包含第二词的同义词的句子。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例提供了一种可读介质，包括执行指令，当存储控制器的处理器执行执行指令时，存储控制器执行上述任一实施例的方法。

本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；

存储器用于存储执行指令，处理器与存储器通过总线连接，当存储控制器运行时，处理器执行存储器存储的执行指令，以使存储控制器执行上述任一实施例的方法。

综上，本发明各个实施例至少具有如下效果：

1、在本发明实施例中，该方法首先将需要进行比对的待查重文档和对比文档的格式进行统一，然后，分别对两个文档进行分词，根据分词结果分别进行同义词归并和聚类分析。并结合同义词归并和聚类分析的结果，确定两个文档的重复率。该方法通过语义分析对文档进行查重，与现有技术相比，能够提高查重的精确度。

2、在本发明实施例中，该方法通过重叠图更加直观地展示两个文档的重复率，并通过突出显示强调同时出现在两个文档中的词。

3、在本发明实施例中，通过聚类分析确定与文档主旨相关性较大的文档内容，并通过这些文档内容计算第二相似度，以突出文档主旨对重复率的影响，提高查重放入精确度。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于语义分析的文档查重方法，其特征在于，包括：

确定待查重文档和对比文档；

根据所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率；

所述第一公式，包括：

其中，p用于表征所述第一相似度，x用于表征所述第一词的数量，y用于表征所述第二词的数量，z用于表征所述待查重文档中词的总数；

所述第二公式，包括：

2.根据权利要求1所述的基于语义分析的文档查重方法，其特征在于，

所述第三公式，包括：

q＝αp+βk

3.根据权利要求2所述的基于语义分析的文档查重方法，其特征在于，进一步包括：

展示所述重叠图；

4.一种基于语义分析的文档查重装置，其特征在于，包括：

确定单元，用于根据所述分析单元得到的所述第一相似度和所述第二相似度，确定所述待查重文档与所述对比文档的重复率；

所述第一公式，包括：

所述第二公式，包括：

5.根据权利要求4所述的基于语义分析的文档查重装置，其特征在于，

所述第三公式，包括：

q＝αp+βk

6.根据权利要求5所述的基于语义分析的文档查重装置，其特征在于，进一步包括：展示单元；