CN107729323A

CN107729323A - 网络文章相似度检测方法和装置、服务器及存储介质

Info

Publication number: CN107729323A
Application number: CN201711231935.0A
Authority: CN
Inventors: 肖丹; 陈志群; 陈锦冰; 陈翔
Original assignee: Shenzhen Zhonghong On-Line Co Ltd
Current assignee: Shenzhen Zhonghong On-Line Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-02-23

Abstract

本发明公开了一种网络文章相似度检测方法和装置、服务器及存储介质，网络文章相似度检测方法包括以下步骤：对两篇待判定文章的文本进行分词，得到两篇待判定文章的特征词条；计算特征词条的哈希值；对应两篇待判定文章分别建立数列，根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布；根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度，相似度达到预设阈值则判断为相似文章。本发明技术方案根据待判定文章中特征词条的哈希值通过预设方式比较待判定文章之间的相似度，再通过比较相似度与预定阈值之间的大小关系判断出待判定文章是否相似，从而节约了读者的查阅时间，避免重复浏览相似的文章。

Description

网络文章相似度检测方法和装置、服务器及存储介质

技术领域

本发明涉及信息检索领域，尤其是一种网络文章相似度检测方法和装置、服务器及存储介质。

背景技术

现如今在对互联网舆情信息进行解读的时候，常常会遇到不同的网站对某一篇文章进行转载，或者转载后进行微小的改编，从而使读者难免重复浏览相似的文章，浪费查阅时间。

发明内容

本发明的主要目的是提供一种网络文章相似度检测方法和装置、服务器及存储介质，旨在避免读者重复浏览相似的文章，节约查阅时间。

为实现上述目的，本发明提出一种网络文章相似度检测方法，包括以下步骤：

对两篇待判定文章的文本进行分词，得到两篇待判定文章的特征词条；

计算特征词条的哈希值；

对应两篇待判定文章分别建立数列，根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布；

根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度，相似度达到预设阈值则判断为相似文章。

优选地，对两篇待判定文章的文本进行分词，得到两篇待判定文章的特征词条的步骤，包括：

对两篇待判定文章的文本进行分词；

判断分词后得到的词条是否为高频词；

剔除高频词后将余下的词条归为特征词条。

优选地，所述高频词为在词语频率表中词频数值高于预设阈值的词条。

优选地，计算特征词条的哈希值的步骤，包括：

建立汉字集合；

建立2的n次方个数据组，其中n大于5，并将所述汉字集合中的汉字平均分配到各个数据组中；

对各个数据组进行编号；

判断特征词条为单个汉字或是词组：

若特征词条为单个汉字，特征词条的哈希值为所在数据组的编号数值；

若特征词条为词组，记特征词条的首位汉字哈希值为A，特征词条的末位汉字哈希值为B，其中,A和B是由n位bit组成的数值，取A的前a位bit值和B的后(n-a)位bit值合成特征词条的哈希值，其中，a为整数且n＞a＞0。

优选地，所述n的值为9，所述数据组的数量为512个。

优选地，对应两篇待判定文章分别建立数列，根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布的步骤，包括：

对应两篇待判定文章分别建立长度为2的n次方个bit的数列，其中，每位bit值均为0；

取两篇待判定文章中前m个词语的哈希值记为(h1,h2,h3,...,hm)；

将数列中(h1,h2,h3,...,hm)位bit值改为1，得到两篇待判定文章的数列。

优选地，根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度，相似度达到预设阈值则判断为相似文章的步骤，包括：

对比两篇待判定文章的数列S1和S2，记S1和S2均为1的bit位的个数为x，S1和S2中至少存在一个数值为1的bit位的个数为y；

计算两篇待判定文章的相似度为x/y；

判断x/y是否大于预设阈值：若是，则两篇文章是相似文章；若否，则两篇文章不是相似文章。

本发明提出一种网络文章相似度检测装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络文章相似度检测方法的程序，所述网络文章相似度检测方法的程序被所述处理器执行时实现如以上所述的网络文章相似度检测方法的步骤。

本发明提出一种服务器，包括如以上所述的网络文章相似度检测装置。

本发明提出一种存储介质，所述存储介质上存储有网络文章相似度检测方法的程序，所述网络文章相似度检测方法的程序被处理器执行时实现如以上所述的网络文章相似度检测方法的步骤。

本发明技术方案根据待判定文章中特征词条的哈希值通过预设方式比较待判定文章之间的相似度，再通过比较相似度与预定阈值之间的大小关系判断出待判定文章是否相似，从而节约了读者的查阅时间，避免重复浏览相似的文章。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明提供的网络文章相似度检测方法的第一实施例的流程示意图；

图3为本发明提供的网络文章相似度检测方法的第二实施例的流程示意图；

图4为本发明提供的网络文章相似度检测方法的第三实施例的流程示意图；

图5为本发明提供的网络文章相似度检测方法的第四实施例的流程示意图；

图6为本发明提供的网络文章相似度检测方法的第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方+向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例的主要解决方案是：根据待判定文章中特征词条的哈希值通过预设方式比较待判定文章之间的相似度，再通过比较相似度与预定阈值之间的大小关系判断出待判定文章是否相似。

本发明提供一种解决方案，避免读者重复浏览相似的文章，从而节约了查阅时间。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机等终端设备，以下以运行终端为PC为例进行举例说明。

如图1所示，该PC包括：处理器1001，例如CPU，通信总线1002、数据接口1003、存储器1004。其中，通信总线1002用于实现这些组件之间的连接通信。数据接口1003还可以包括标准的有线接口(如USB接口或者IO接口)、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1004中可以包括操作系统、数据接口实现程序以及网络文章相似度检测方法的程序。

在图1所示的终端中，处理器1001可为PC中的控制芯片，该处理器1001可以用于调用存储器1004中存储的网络文章相似度检测方法的程序，并执行以下操作：

计算特征词条的哈希值；

进一步地，处理器1001可以调用存储器1004中存储的网络操作控制应用程序，还执行以下操作：

对两篇待判定文章的文本进行分词；

判断分词后得到的词条是否为高频词；

剔除高频词后将余下的词条归为特征词条。

建立汉字集合；

对各个数据组进行编号；

判断特征词条为单个汉字或是词组：

取两篇待判定文章中前m个词语的哈希值记为(h1,h2,h3,...,hm)；

计算两篇待判定文章的相似度为x/y；

本发明还提出一种网络文章相似度检测方法，图2为本发明提供的网络文章相似度检测方法的第一实施例的流程示意图，请参阅图2，所述网络文章相似度检测方法包括以下步骤：

步骤S10、对两篇待判定文章的文本进行分词，得到两篇待判定文章的特征词条；

步骤S20、计算特征词条的哈希值；

步骤S30、对应两篇待判定文章分别建立数列，根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布；

步骤S40、根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度，相似度达到预设阈值则判断为相似文章。

图3为本发明提供的网络文章相似度检测方法的第二实施例的流程示意图，其与第一实施例的差别在于，步骤S10具体包括：

S101、对两篇待判定文章的文本进行分词；

S102、判断分词后得到的词条是否为高频词；

S103、剔除高频词后余下的词条归为特征词条。

在这里需要说明的是，所述高频词为在词语频率表中词频数值高于预设阈值的词条。其中，所述词语频率表为本领域技术人员公知的现有资料，在此不作详细介绍。

下面将举例对分词步骤进行详细说明：“每天发布政府及企事业单位招标采购信息25000条，信息准确及时，有效提高中标几率。”，对该文本进行分词后得到以下特征词条“每天发布政府及企事业单位招标采购信息条信息准确及时有效提高中标几率”。在这里，因数字词条“25000”对待判定文章文本之间的相似度没有影响，因此不将其考虑在特征词条之内。随后，判断分词后得到的词条在词语频率表中的词频数值是否高于预设阈值，在本实施例中“及”、“条”、“更”这三个词在词语频率表中的词频数值均高于预设阈值，因此，将这三个词条剔除后，余下的特征词条为“每天发布政府企事业单位招标采购信息信息准确及时有效提高中标几率”。

图4为本发明提供的网络文章相似度检测方法的第三实施例的流程示意图，其与第一实施例的差别在于，步骤S20包括：

S201、建立汉字集合；

S202、建立2的n次方个数据组，其中n大于5，并将所述汉字集合中的汉字平均分配到各个数据组中；

S203、对各个数据组进行编号；

S204、判断特征词条为单个汉字或是词组；

S205、若特征词条为单个汉字，特征词条的哈希值为所在数据组的编号数值；

S206、若特征词条为词组，记特征词条的首位汉字哈希值为A，特征词条的末位汉字哈希值为B，其中，A和B是由n位bit组成的数值，取A的前a位bit值和B的后(n-a)位bit值合成特征词条的哈希值，其中，a为整数且n＞a＞0。

在这里，n的取值上限不作限定，但不宜过大，因为这里的汉字是通过编码成二进制数据存储在存储器当中的，当n的取值过大时，分组越多，占用的存储空间也就越大。当然，n的取值也不应过小，否则会导致最后计算出来的相似度结果区分度不大，当n大于5时，可满足相似度计算的要求。具体地，在本实施例中，所述n的值为9，即所述数据组的数量为512。下面以n的值为9时为例来详细说明计算特征词条的哈希值的步骤：

首先，建立一个16384个常用汉字的汉字集合，其中每个汉字代表0-16383中的一个数，然后将汉字集合中的汉字平均分配到512个数据组中，即每个数据组中汉字的个数为32个，随后对各个数据组进行编号。在这里，在分配某汉字过程中若遇到某个数据组已经拥有32个汉字，则将该汉字分配到距离其最近且未满32的数据组中，如果存在距离一样的两个数据组则选取编号较小的那个，从而确保将所有汉字平均分配到512个数据组中。分配完成后单个汉字的数值即为所在数据组的编号值。如“我”字在第510个数据组中，则“我”对应的数值为510。

接着，判断特征词条为单个汉字或是词组，若特征词条为单个汉字，则特征词条的哈希值为所在数据组的编号数值；若特征词条为词组，例如相似度，相对应的数值为A，度对应的数值为B(当特征词条为词组且词组字数为三个或三个以上时，不考虑中间汉字对应的数值)，其中，A和B是由9位bit组成的数值，举例说明，当A的数值为292，B的数值为196时，A对应9位bit组成的哈希数值为100100100，B对应的9位bit组成的哈希数值为011000101。取A的前5位bit值和C的后4位bit值作为这个词组的哈希值，即100100101，从而求得相似度对应的数值为293。当然，在其他实施例中，我们也可以取A的前3位bit值和C的后6位bit值，或是A的前2位bit值和C的后7位bit值，即只要满足权利要求中所述“取A的前a位bit值和B的后(n-a)位bit值合成特征词条的哈希值，其中，a为整数且n＞a＞0。”这一条件均可。

图5为本发明提供的网络文章相似度检测方法的第四实施例的流程示意图，其与第一实施例的差别在于，步骤S30包括：

S301、对应两篇待判定文章分别建立长度为2的n次方个bit的数列，其中，每位bit值均为0；

S302、取两篇待判定文章中前m个词语的哈希值记为(h1,h2,h3，...，hm)；

S303、将数列中(h1,h2,h3,...,hm)位bit值改为1，得到两篇待判定文章的数列。

在这里，同样以n为9时的实施例对上述步骤进行说明。首先对应两篇待判定文章分别建立长度为512个bit的哈希数列，其中每位bit值均为0。然后取两篇待判定文章中前m个词语的哈希值，在这里m优选为1000，当m取1000时，若文章中前1000个词语的哈希值分别为5、29、136、400、136、……、5，那么则将该待判定文章对应的上述512个bit的哈希数列中的第5、第29、第136以及第400位的0改为1，从而得到待判定文章的数列。需要说明的是，当前1000个词语中重复出现多个哈希值为相同数值的词语时，也只需将该数值对应的待判定文章数列中的位数修改一次即可。还有需要说明的是，在这里m优选为1000的原因是为了避免太多的词语造成序列中的“1”过多从而影响了相似度判断的效果。

图6为本发明提供的网络文章相似度检测方法的第五实施例的流程示意图，其与第一实施例的差别在于，步骤S40包括：

S401、对比两篇待判定文章的数列S1和S2，记S1和S2均为1的bit位的个数为x，S1和S2中至少存在一个数值为1的bit位的个数为y；

S402、计算两篇待判定文章的相似度为x/y；

S403、判断x/y是否大于预设阈值：若是，则两篇文章是相似文章；若否，则两篇文章不是相似文章。

下面将举例对步骤S40进行说明：假设数列S1中的第1、3、5、7、9位个数为1，数列S2中的第1、2、3、4、5、6、7、8、9位个数为1，则S1和S2中均为1的bit位的个数为5，S1和S2中至少存在一个数值为1的bit位的个数为9，从而求得两篇待判定文章的相似度为5/9，将此相似度数值与预设阈值比较，若大于预设阈值，则两篇文章为相似文章，若小于预设阈值，则两篇文章不是相似文章。

本发明提出一种网络文章相似度检测装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络文章相似度检测方法的程序，所述网络文章相似度检测方法的程序被所述处理器执行时实现如以上所述各实施例的网络文章相似度检测方法的步骤。

本发明提出一种存储介质，所述存储介质上存储有网络文章相似度检测方法的程序，所述网络文章相似度检测方法的程序被处理器执行时实现如以上所述各实施例的网络文章相似度检测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，云端服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网络文章相似度检测方法，其特征在于，所述网络文章相似度检测方法包括以下步骤：

计算特征词条的哈希值；

2.如权利要求1所述的网络文章相似度检测方法，其特征在于，对两篇待判定文章的文本进行分词，得到两篇待判定文章的特征词条的步骤，包括：

对两篇待判定文章的文本进行分词；

判断分词后得到的词条是否为高频词；

剔除高频词后将余下的词条归为特征词条。

3.如权利要求2所述的网络文章相似度检测方法，其特征在于，所述高频词为在词语频率表中词频数值高于预设阈值的词条。

4.如权利要求1所述的网络文章相似度检测方法，其特征在于，计算特征词条的哈希值的步骤，包括：

建立汉字集合；

对各个数据组进行编号；

判断特征词条为单个汉字或是词组：

若特征词条为词组，记特征词条的首位汉字哈希值为A，特征词条的末位汉字哈希值为B，其中，A和B是由n位bit组成的数值，取A的前a位bit值和B的后(n-a)位bit值合成特征词条的哈希值，其中，a为整数且n＞a＞0。

5.如权利要求4所述的网络文章相似度检测方法，其特征在于，所述n的值为9，所述数据组的数量为512个。

6.如权利要求1所述的网络文章相似度检测方法，其特征在于，对应两篇待判定文章分别建立数列，根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布的步骤，包括：

取两篇待判定文章中前m个词语的哈希值记为(h1,h2,h3,...,hm)；

7.如权利要求1所述的网络文章相似度检测方法，其特征在于，根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度，相似度达到预设阈值则判断为相似文章的步骤，包括：

计算两篇待判定文章的相似度为x/y；

8.一种网络文章相似度检测装置，其特征在于，所述网络文章相似度检测装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的判定网络文章相似度的程序，所述判定网络文章相似度的程序被所述处理器执行时实现如权利要求1至7中任一项所述的网络文章相似度检测方法的步骤。

9.一种服务器，其特征在于，所述服务器包括如权利要求8所述的网络文章相似度检测装置。

10.一种存储介质，其特征在于，所述存储介质上存储有判定网络文章相似度的程序，所述判定网络文章相似度的程序被处理器执行时实现如权利要求1至7中任一项所述的网络文章相似度检测方法的步骤。