CN106708947A

CN106708947A - 一种基于大数据的网络文章转发识别方法

Info

Publication number: CN106708947A
Application number: CN201611051297.XA
Authority: CN
Inventors: 罗炜敏; 聂敏; 苗大泉
Original assignee: Chengdu Xundao Technology Co Ltd
Current assignee: Chengdu Xundao Technology Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-05-24
Anticipated expiration: 2036-11-25
Also published as: CN106708947B

Abstract

本发明公开了一种基于大数据的网络文章转发识别方法，通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库；确认需要识别的文章及其显隐性，显式转发文章通过传播链接的比对进行转发识别，隐式转发文章通过模糊Hash值的比对查找到与待识别文章有关联的文章Pm，再进一步的识别出与之存在转发关系的文章Pe，根据文章Pe传播时间的先后重新排列找到源文章。通过本发明的实施能够找到文章的转发路径，解决了现有的人为排查耗时长、且效率低的问题，同时，依据查找到的具备转发关系的文章，为有关部门对有害网络文章的禁止传播提供数据依据，此外，本发明还能够用于网络文章的原创性判定以及文章的影响力评估。

Description

一种基于大数据的网络文章转发识别方法

技术领域

本发明涉及一种网络文章转发识别技术，尤其涉及一种基于大数据的网络文章转发识别的方法。

背景技术

随着互联网的快速发展，网络媒体也发展强劲，网络文章作为网络媒体最主要的表达形式，包括新闻、娱乐消息、体育报道等等，在微博、微信、博客等新闻媒体上大量的相互转载和传播；而另一方面，越来越多的网友习惯于在网上表达自己对各种新闻信息的看法和见解，这些看法和见解的论点明确、论述清楚，文字更是上升成了完整的网络评论形成了网络文章，该类网络文章也在大量的传播和转载。

大量的虚假、欺诈、有害的文章在网络上肆意传播，相关部门若要禁止该类文章的传播就须要找到该类文章的传播源头，现有技术中只能通过人工排查的方式找到该类文章的传播途径和来源，而一篇文章在网上发表后，由于网络的复杂性，具有转发多层次、多路径、转发量大等特点，最终形成了结构复杂的多级的网状转发路径；人工排查主要通过网民举报、网关监督等手段查找其转发路径，其耗时长且效率低。特别的，若该类文章为隐式转发文章，即通过计算机手段如复制、粘贴的方式完全拷贝或者部分拷贝别人的文章用以自我发表，该类文章的转发未有转发链接也没有标明文章的出处，且很容易形成多级的跨网站式的传播时，通过人为排查找到源文章难度极大，即便找到源文章，想要有效的禁止此类文章的传播，也缺乏有效手段。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于大数据的网络文章转发识别方法。

本发明通过以下技术方案来实现上述目的：

一种基于大数据的网络文章转发识别方法，包括：

通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章及其转发类型，若转发文章标出文章来源，则为显式转发文章，若转发文章未标出文章的来源，则为隐式转发文章。

对于显式转发文章，采用如下方法实现转发识别：

步骤A1：设置初始集合S为空集，将待识别的文章A的链接放入集合S；

步骤A2：设置一个临时集合C为空集；

步骤A3：取出集合S中的元素，与数据仓库中的其他文章的传播链接进行逐一匹配，若匹配成功，则将该匹配成功的文章P的链接加入集合C，反之，若匹配失败，则继续与数据仓库中的下一条传播链接进行匹配；

步骤A4：清空集合S中的元素，将C中所有元素加入S，清空集合C；

步骤A5：重复步骤A2至A4，直到集合S为空集；

步骤A6：根据步骤A3所获传播链接的传播时间的先后重新排列链接；

对于隐式转发文章，采用如下方法实现转发识别：

步骤B1：设置初始集合S1，提取数据仓库中所有文章的关键信息，并根据各自的关键信息计算得到各自的模糊Hash值；

步骤B2：将待识别文章A的模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对，找到与文章A有关联的文章Pm的模糊Hash值，并进一步查找出该类文章的具体内容，放入集合S1：

S1{P1、P2、P3……Pm}

步骤B3：依次提取集合S1中的文章Pm，将文章A与取出的文章Pm分别对应分解为两个字序列X,Y，其长度分别对应为N、T，其中N≥T；定义序列X到序列Y中的点到点的距离函数为：

其中表示序列X中序号为i的字，表示序列Y中序号为j的字，若则表示两个字相同，距离为0，若则表示两个字不同，距离为1；

步骤B4：定义X序列的字与Y序列的字之间的对应关系，根据对应关系计算得到两篇文章序列之间的的累计距离，其中：

的可能值为1到N，的可能值为1到T，即解出T个从序列X到序列Y的对应关系，即解出T个累计距离，若，则表明X序列的第一个点与Y序列的第一个点就是一个对应关系；

步骤B5：设定初始空集S2，设定转发判定阈值H，将计算得到的T个距离累计值放入集合S2，并从中筛选出最小的累计距离值，若最小距离值 ≦H，则文章A与文章Pm之间为转发关系，若最小距离值 ﹥H，则两文章之间不存在转发的关系；

步骤B6：设定初始空集S3，重复步骤B3至B5，直至集合S1为空集，并将找到的与A存在转发关系的文章Pe（0≦e≦m）放入集合S3；

步骤B7：根据文章Pe传播时间的先后重新排列，该排列的首篇文章即为源文章。

作为优选，所述步骤B2进一步包括：

B21：建立倒排索引表，针对待识别的文章A，将其的模糊Hash值分为4块，每块16位，根据每个块值分别查询4张倒排索引表，得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值；

B22：根据步骤B21所得模糊Hash值，查询出该类文章的ID，通过按域搜索，查找出所有这些文章的的具体内容，放入集合S1。

作为优选，所述步骤B1中的文章关键信息包括，文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要。

作为优选所述判定阈值H优选为0.15T。

作为优选，所述步骤B6中的e的值为0的时候，P₀仅为结果值，文章P₀不存在，即文章A未存在有转发关系的文章。

本发明的有益效果在于：通过该方法，能够找到文章的转发源，解决了现有的人为排查耗时长、且效率低的问题，同时，依据查找到的具备转发关系的文章，为有关部门对有害网络文章的禁止传播提供数据依据，此外，本发明还能够用于网络文章的原创性判定以及文章的影响力评估。

附图说明

图1是本发明中显式转发文章的识别流程图；

图2是本发明中隐式转发文章的识别流程图；

图3是本发明中文章模糊Hash值的计算流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章，并判定该文章的转发类型，若转发文章明显标出文章来源，则为显式转发文章，若转发文章未能标明其来源，则为隐式转发文章。

由于各个网站、平台的设计结构各异、数据结构也各不相同，所以在文章数据的采集中，须全面采集到一篇文章的基本信息，基本信息包括文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要等。

考虑到网络数据量的庞大以及提高数据采集的效率，搜索引擎采用分布式搜索引擎数据平台的方式，包括分布式数据采集系统、存储系统、监控管理系统与分析系统，分布式数据采集系统即由多台服务器之间通过通信协作共同完成任务，由一台主节点控制任务调度，即分发需要采集的网页链接到各个数据采集节点，再由各个数据采集节点采集相应的数据并存储及反馈给主节点。

图1为显式转发文章的识别流程图，如图所示，对于显式转发文章，其转发识别方法包括如下步骤：

步骤A2：设置一个临时集合C为空集；

步骤A5：重复步骤A2至A4，直到集合S为空集；

显式转发文章，该类转发文章有相同的链接，通过将待识别文章的链接与数据仓库中所有文章的链接进行一一匹配，从而找到与待识别文章链接相同的文章链接，再通过链接传播时间的先后，判定文章的转发顺序。

图2为隐式转发文章的识别流程图，如图所示，对于未标出文章来源的隐式转发文章，其转发识别方法包括如下步骤：

步骤B2：将待识别文章A的模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对，找到与文章A有关联的文章Pm的模糊Hash值，并进一步查找出该类文章的的具体内容，放入集合S1：

S1{P1、P2、P3……Pm}

其详细步骤包括，

步骤B21：建立倒排索引表，针对待识别的文章A，将其的64位的模糊Hash值分为4块，每块16位，根据鸽笼原理，如果两个模糊Hash值的距离在3以内，则它们必有一块模糊Hash值完全相同。每一块的块值作为主键，文章的ID作为键值，建立4张倒排索引表，根据每个块值分别查询4张倒排索引表，得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值；

步骤B22：根据步骤B21所得模糊Hash值，查询出该类文章的ID，通过按域搜索，查找出所有这些文章的的具体内容，放入集合S1。

步骤B3：依次提取集合S1中的文章Pm，将文章A与取出的文章Pm分别对应分解为两个字序列X，Y，其长度分别对应为N、T，其中N≥T；定义序列X到序列Y中的点到点的距离函数为：

两个序列之间的累计距离越小，则序列X和序列Y相似度越高，相反，两个序列之间的累计距离越大，则相似度越低，若两篇文章存在转发关系，则两篇文章具有完全相同的内容或者其中的某一段落或多个段落的内容相同。

H的值根据需求设定，例如当H设为0时，两篇内容必须完全相同即最小累计距离达到0，才能判定定文章A和Pm为转发关系，根据反复的实验，H的值为0.15T时，两篇文章具有85%的内容相同，这种情况下，转发识别准确度在99%以上，H的值为0.2T时，即两篇具有80%相似度的文章，转发识别准确度在95%，考虑到隐式转发文章存在完全转发和部分转发的基础上，且要保证转发识别的高准确度的，判定阈值H优选为0.15T。

步骤B6：设定初始空集S3，重复步骤B3至B5，直至集合S1为空集，并将找到的与A存在转发关系的文章Pe（0≦e≦m）放入集合S3，特别的，当e的值为0的时候，P₀仅为结果值，文章P₀不存在，即文章A未存在有转发关系的文章；这里值得说明的是，当未找到与文章A有转发关系的文章时，识别结果自动默认为P₀，P₀仅为结果值，而P₀代表的文章不存在。

对于隐式转发文章，该类文章未标明转发链接，其作者通过计算机手段如复制、粘贴的方式完全拷贝或者部分拷贝别人的文章内容并加入自己的文章用以自我发表，也就是两篇存在转发关系的文章具备一定相似度，该类文章与源文章部分内容相同或全部内容相同，同时，该类文章与显式转发文章不同，不能采用传播链接比对的方式进行转发识别。在识别一篇隐式转发文章的转发时，首先找到与其相关联的文章，相关联的文章即为可能存在转发的文章，而这一步首先要提取数据仓库中每篇文章的关键信息，通过关键信息计算得到各自的模糊Hash值，再将待识别文章的模糊Hash值与各篇文章的模糊Hash值逐一比对，找到可能存在转发关系的文章；而后在可能存在转发关系文章中进一步识别，准确识别出与这篇文章存在转发关系的文章。

对于模糊Hash值，尤其计算的是模糊的Hash值，而不是唯一性的Hash值。取模糊值的目的在于保留部分计算波动，该波动增加了步骤B2中Hash值的比对范围，从而提高识别准确度。对于部分转发文章，该类文章即保留了大部分源文章的内容并做了部分修改。若无此计算波动，有可能在步骤B2中Hash值比对时比漏掉，降低转发识别率。

对于步骤B1中的计算各文章的模糊Hash值，在此，进一步补充说明计算各文章的模糊hash值的具体的方法，其方法如下：

分词：首先进行分词，得到有效的特征向量，特征向量指的就是文本中的词。由于每个词在句子或文章中的重要性程度不同，所以需要对文章中的词设置权重，权重越大，重要性程度越大。设置词的权重为该词在该文章中出现的频率。例：将句子“我是中国人”，分词为“我（2）是（1）中国（5）人（3）”，括号中的数值为该词的权重。

Hash值计算：生成特征向量之后，通过Hash函数计算各个特征向量的Hash值，Hash值为二进制数0、1组成的n-bit签名，n为Hash值的长度，这里设置n为64。如此就将文本信息转化为数值信息。例如：Hash(“中国”) = [1100 1011 0001 0100 0011 1010 1100 11010110 1100 1001 0010 1001 1000 0010 0110]

加权：转化为数值型特征向量之后，就可以给所有特征向量的Hash值进行加权。把特征向量的Hash值的每一位看成是一个维度，如果该位为1，则加权结果为正权重；如果该位为0，则加权结果为负权重。以此生成加权的特征向量。例如：HW(“中国”) = Hash(“中国”)*Weight(“中国”) = [5 5 -5 -5 5 -5 5 5 -5 -5 -5 5 -5 5 -5 -5 -5 -5 5 5 5 -5 5 -5 5 5 -5 -5 5 5 -5 5 -5 5 5 -5 5 5 -5 -5 5 -5 -5 5 -5 -5 5 -5 5 -5 -5 5 5 -5-5 -5 -5 -5 5 -5 -5 5 5 -5]

合并：将上一步生成的所有加权特征向量对应的维度累加，生成最终的一个64位的合并特征向量。例如：M(“我是中国人”) = HW(“我”) + HW(“是”)+HW(“中国”)+HW(“人”) =[-1 3 -11 -1 -1 -11 5 9 -3 -9 -11 3 -9 11 -7 -1 1 -9 -1 5 9 -11 1 -5 11 11 -11 -1 11 11 -3 1 -11 1 11 -3 -1 5 -9 -1 3 -1 1 7 -5 1 11 -3 5 -5 -11 5 -1 -1-5 -1 -1 -9 7 -5 -7 9 7 -1]。

降维：对于上一步生成的合并特征向量，针对每一位值，如果该位大于0，则置为1，如果该位小于等于0，则置为0；该步的降维使得唯一Hash值变得模糊。例如：Sign(“我是中国人”) = DR(M(“我是中国人”)) = [0100 0011 0001 0100 1001 1010 1100 1101 01100100 1011 0110 1001 0000 0010 0110]，降维后的结果即为所需的模糊Hash值。

以上显式和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于大数据的网络文章转发识别方法，其特征在于：通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章及其转发类型，若转发文章标出文章来源，则为显式转发文章，若转发文章未标出文章的来源，则为隐式转发文章；

对于显式转发文章，其转发识别方法包括如下步骤：

步骤A2：设置一个临时集合C为空集；

步骤A3：取出集合S中的元素，与数据仓库中的其他文章的传播链接进行逐一匹配，若匹配成功，则将该匹配成功的文章P的链接加入集合C，反之，若匹配失败，则继续与数据仓库中的下一篇文章的传播链接进行匹配；

步骤A5：重复步骤A2至A4，直到集合S为空集；

对于隐式转发文章，其转发识别方法包括如下步骤：

步骤B1：提取数据仓库中的所有文章的关键信息，并根据各自的关键信息计算得到各自的64位模糊Hash值；

步骤B2：设置初始集合S1，将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对，找到与文章A有关联的文章Pm的模糊Hash值，并进一步查找出该类文章的具体内容，放入集合S1：

S1{P1、P2、P3……Pm}

步骤B3：依次提取集合S1中的文章Pm，将文章A与取出的文章Pm分别对应分解为两个字序列X，Y，其长度分别对应为N、T，其中N≥T，定义序列X到序列Y中的点到点的距离函数为：

2.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B2进一步包括：

步骤B21：建立倒排索引表，针对待识别的文章A，将其的64位模糊Hash值分为4块，每块16位，根据每个块值分别查询4张倒排索引表，得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值；

3.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B1中的文章关键信息包括，文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要。

4.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述判定阈值H优选为0.15T。

5.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B6中的e的值为0的时候，P₀仅为结果值，文章P₀不存在，即文章A未存在有转发关系的文章。