CN107633020B

CN107633020B - 文章相似度检测方法及装置

Info

Publication number: CN107633020B
Application number: CN201710736855.4A
Authority: CN
Inventors: 田亮; 孙凡; 武琼
Original assignee: New Tranx Information Technology Shenzhen Co ltd
Current assignee: New Tranx Information Technology Shenzhen Co ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2020-05-05
Anticipated expiration: 2037-08-24
Also published as: CN107633020A

Abstract

本发明实施例提供一种文章相似度检测方法及装置，通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词，根据提取获得的目标关键词，查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章，并基于预设滑动窗口，检测第一文章中各段内容与所述第二文章之间的第一相似度，以及第二文章中各段内容与第一文章之间的第二相似度，从而根据第一相似度和第二相似度，计算得到第一文章和第二文章之间的相似度，本发明实施例提供的技术方案能够对文章的相似度进行可靠有效的检测，从而解决了抄袭文章的识别问题。

Description

文章相似度检测方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文章相似度检测方法及装置。

背景技术

目前，学术论文的抄袭剽窃问题是一个比较突出的问题。学术界对此虽然早有认识，政府有关部门也给予了一定的关注，但抄袭剽窃的案例仍然层出不穷，且屡禁不止。为了提高学术论文的质量，有效辨认涉嫌抄袭剽窃的文章，现急需一种可靠有效的文章相似度检测手段。

发明内容

本发明实施例提供一种文章相似度检测方法及装置，用以对文章的相似度进行有效可靠的检测。

本发明实施例第一方面提供一种文章相似度检测方法，该方法包括：

从第一文章中提取目标关键词，所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词；

根据所述目标关键词，查找第二文章，所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值；

基于预设滑动窗口，检测所述第一文章中各段的内容与所述第二文章之间的第一相似度，以及第二文章中各段的内容与所述第一文章之间的第二相似度；

根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度。

本发明实施例第二方面提供一种文章相似度检测装置，该装置包括：

提取模块，用于从第一文章中提取目标关键词，所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词；

查找模块，用于根据所述目标关键词，查找第二文章，所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值；

检测模块，用于基于预设滑动窗口，检测所述第一文章中各段的内容与所述第二文章之间的第一相似度，以及第二文章中各段的内容与所述第一文章之间的第二相似度；

计算模块，用于根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度。

本发明实施例，通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词，根据提取获得的目标关键词，查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章，并基于预设滑动窗口，检测第一文章中各段内容与所述第二文章之间的第一相似度，以及第二文章中各段内容与第一文章之间的第二相似度，从而根据第一相似度和第二相似度，计算得到第一文章和第二文章之间的相似度，本发明实施例提供的技术方案能够对文章的相似度进行可靠有效的检测，从而解决了抄袭文章的识别问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种文章相似度检测方法的流程图；

图2为本发明一实施例提供的一种文章相似度检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

本发明实施例提供一种文章相似度检测方法，该方法由一种文章相似度检测装置(以下简称检测装置)来执行。参见图1，图1为本发明一实施例提供的一种文章相似度检测方法的流程图，如图1所示，该方法包括：

步骤101、从第一文章中提取目标关键词，所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词。

实际场景中，科技论文的期刊文章一般会在文章的固定位置提供文章的关键字，本实施例基于期刊文章的这一特点，首先从第一文章(即待检测的文章)的相应位置中直接提起文章提供的关键词，进一步的，再基于提取获得的关键词，采用bootstrapping算法从第一文章中提取评价分值高于第一阈值的词作为目标关键词。

具体的，采用bootstrapping算法从第一文章中提取评价分值高于第一阈值的词作为目标关键词的方法如下：

首先，对第一文章中的内容进行分词处理。其次，在分词结果的基础上，基于评价函数：

计算第一文章中每个词对应的分值T，再基于分值高于第一预设阈值的词和前述提取的关键词，计算第一文章中每个词对应的分值，如此循环预设次数后，获取分值大于第一预设阈值的词作为第一文章的目标关键词。其中，上式中的s在初次计算时，s为前述直接从第一文章中提取的关键词，在后续循环计算中，s为前述关键词和前一次计算获得的分值大于第一预设阈值的词。w为对第一文章进行分词处理后得到的词，F(w)为第一文章中包含w的句子数，F(s)为第一文章中包含s的句子数，F(w,s)为s和w出现在同一段中的次数。

步骤102、根据所述目标关键词，查找第二文章，所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值。

实际应用中数据库中存储有多篇文章，在执行本实施例的方法时，分别对每篇文章的目标关键词进行提取，再将每篇文章的目标关键词与第一文章的目标关键词取交集，得到与第一文章具有相同目标关键词的数量大于第二预设阈值的第二文章。其中，从数据库的文章中提取目标关键词的方法与前述提取第一文章的目标关键词的方法相同，在这里不再赘述。

具体的，本实施例中，可以根据如下表达式计算数据库中每篇文章与第一文章之间的目标关键词的交集：

S(A,B)＝|F(A)∩F(B)|

其中，F(A)为第一文章的目标关键词的集合，F(B)为数据库中的文章(即第二文章)的目标关键词的集合，S(A,B)为第二文章和第一文章之间具有的相同的目标关键词的集合。

步骤103、基于预设滑动窗口，检测所述第一文章中各段的内容与所述第二文章之间的第一相似度，以及第二文章中各段的内容与所述第一文章之间的第二相似度。

可选的，本实施例中通过计算第一文章和第二文章中隔断内容之间的相似度，将第一文章中各段内容对应的最大相似度作为第一文章中各段内容与第二文章之间的相似度，将第二文章中各段内容对应的最大相似度作为第二文章中内容与第一文章之间的相似度。

举例来说，假设预设滑动窗口的大小为n，则用第一文章的第一段内容和第二文章的前n段进行相似度比较，如果在前n中第s1段的内容与第一文章中第一段内容的相似度最大，相似度为a1，则将第一文章中第一段内容与第二文章的相似度记为a1。进一步的，若a1大于预设的相似度值，则认为a1可信，并继续将第一文章中第二段内容分别与第二文章中第s1段之后的n段内容进行相似度比较，得到第一文章中第二段内容与第二文章的相似度。而当a1小于预设的相似度值时，认为a1不可信，在计算第一文章中第二段内容与第二文章的相似度时，将滑动窗口增加为n+1,然后再将第一文章中第二段内容与第二文章的前n+1段进行相似度比较，以此类推，最终获得第一文章中各段内容与第二文章之间的相似度。本实施例中，第二文章中各段内容与第一文章的相似度的计算方法与前述方法类似，在这里不再赘述。

步骤104、根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度。

可选的，本实施例中根据如下表达式计算第一文章与第二文章之间的相似度：

其中，sim(A,B)为第一文章和第二文章之间的相似度，a_i为第一文章中第i段与第二文章的相似度，b_i为第二文章中第i段与第一文章的相似度，x_i为第一文章中第i段的权重，y_i为第二文章中第i段的权重，n为第一文章中的段数，m为第二文章中的段数。

其中，文章中第i段在文章中的权重根据如下表达式计算：

其中，S_i为文章中第i段的权重，m为文章的段数，a为预设段落离中心的偏移量，本实施例中a＝1，λ为递减因子，λ小于或等于1。

本实施例，通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词，根据提取获得的目标关键词，查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章，并基于预设滑动窗口，检测第一文章中各段内容与所述第二文章之间的第一相似度，以及第二文章中各段内容与第一文章之间的第二相似度，从而根据第一相似度和第二相似度，计算得到第一文章和第二文章之间的相似度，本实施例提供的技术方案能够对文章的相似度进行可靠有效的检测，从而解决了抄袭文章的识别问题。

图2为本发明一实施例提供的一种文章相似度检测装置的结构示意图，如图2所示，该装置包括：

提取模块11，用于从第一文章中提取目标关键词，所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词；

查找模块12，用于根据所述目标关键词，查找第二文章，所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值；

检测模块13，用于基于预设滑动窗口，检测所述第一文章中各段的内容与所述第二文章之间的第一相似度，以及第二文章中各段的内容与所述第一文章之间的第二相似度；

计算模块14，用于根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度。

可选的，所述提取模块11，具体用于：

基于所述第一文章提供的关键词，采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。

可选的，所述查找模块12，具体用于：

根据表达式：

S(A,B)＝|F(A)∩F(B)|

查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章；

其中，F(A)为所述第一文章的目标关键词的集合，F(B)为所述第二文章的目标关键词的集合，S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。

可选的，所述检测模块13，具体用于：

基于预设滑动窗口，计算所述第一文章和所述第二文章中各段内容之间的相似度，确定所述第一文章中各段内容对应的最大相似度为各段内容与所述第二文章之间的相似度，确定所述第二文章中各段内容对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的相似度。

可选的，所述计算模块14，具体用于：

根据表达式：

计算所述第一文章和所述第二文章之间的相似度sim(A,B)，其中，a_i为所述第一文章中第i段与所述第二文章的相似度，b_i为所述第二文章中第i段与所述第一文章的相似度，x_i为所述第一文章中第i段的权重，y_i为所述第二文章中第i段的权重，n为所述第一文章中的段数，m为所述第二文章中的段数。

本实施例提供的装置能够用于执行图1实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

最后需要说明的是，本领域普通技术人员可以理解上述实施例方法中的全部或者部分流程，是可以通过计算机程序来指令相关的硬件完成，所述的程序可存储于一计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可以为磁盘、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

本发明实施例中的各个功能单元可以集成在一个处理模块中，也可以是各个单元单独的物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现，并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。上述提到的存储介质可以是只读存储器、磁盘或光盘等。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文章相似度检测方法，其特征在于，包括：

根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度；

所述基于预设滑动窗口，检测所述第一文章中各段的内容与所述第二文章之间的第一相似度，以及第二文章中各段的内容与所述第一文章之间的第二相似度，包括：

基于预设滑动窗口，计算所述第一文章各段内容和所述第二文章中各段内容之间的相似度，确定所述第一文章中各段内容在预设滑动窗口内对应的最大相似度为所述第一文章各段内容与所述第二文章之间的第一相似度，其中，所述第一相似度值大于预设的相似度的值，并基于预设滑动窗口，计算所述第二文章各段内容和所述第一文章中各段内容之间的相似度，确定所述第二文章中各段内容在预设滑动窗口内对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的第二相似度，其中，所述第二相似度值大于预设的相似度的值；

所述根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度，包括：

根据表达式：

2.根据权利要求1所述的方法，其特征在于，所述从第一文章中提取目标关键词，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标关键词，查找第二文章，包括：

根据表达式：

S(A,B)＝|F(A)∩F(B)|

4.一种文章相似度检测装置，其特征在于，包括：

计算模块，用于根据所述第一相似度和所述第二相似度，计算所述第一文章和所述第二文章之间的相似度；

所述检测模块，具体用于：

所述计算模块，具体用于：

根据表达式：

5.根据权利要求4所述的装置，其特征在于，所述提取模块，具体用于：

6.根据权利要求4所述的装置，其特征在于，所述查找模块，具体用于：

根据表达式：

S(A,B)＝|F(A)∩F(B)|