CN107967364B

CN107967364B - 网络文章传播力评估方法及装置

Info

Publication number: CN107967364B
Application number: CN201711407394.2A
Authority: CN
Inventors: 吴新丽; 姚笛; 赵立永; 李云飞; 王文文
Original assignee: Xinhuanet Co ltd
Current assignee: Xinhuanet Co ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-11-23
Anticipated expiration: 2037-12-22
Also published as: CN107967364A

Abstract

本发明公开了一种网络文章传播力评估方法及装置，该网络文章传播力评估方法，包括：提取待处理网络文章的特征参数；并根据所述特征参数计算所述待处理网络文章的影响力权重值；根据所述影响力权重值确定目标网络文章的传播力指数。本发明中，根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值，进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。

Description

网络文章传播力评估方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种网络文章传播力评估方法及装置。

背景技术

目前针对一些互联网应用的相关分析基本都集中在其公众号的影响力分析方面。针对单篇原创文章的传播情况，仅仅以统计该篇文章的阅读数和点赞数为主，但在实际情况中，存在大量公众号转载其他公众号所发文章内容的现象，这些转载的行为都应该纳入该文章整体传播力的范畴。

对于该互联网应用，其官方首次确认其活跃用户数超过9亿，公众号数量超过2000万，活跃公众号数量已经超过350万个。这些公众号每天发布的文章数量高达数百万篇。针对这些文章在该应用中的整体传播情况，目前的方式为通过该应用公众平台后台查看指定账号下文章的阅读人数(阅读数)、转发次数(转发数)来了解文章的传播情况。当前主流的微博传播力计算为清博指数和微指数。二者均以阅读数和点赞数为衡量依据。但在实际情况中，存在大量的原创文章内容被其他公众号转发但并未关联转发来源或者即使标明了来源却存在不可回溯的问题，而这些都应该纳入到该指定原创文章传播力的评估范畴。如何实现客观全面的评估网络文章的传播力，对于改进和提升公众号运营策略、保护原创知识产权等均具有重要的意义。

其中，清博指数的应用传播指数WCI以公众号为单位进行分析，具体包括四个分析指标，分别为整体传播力、篇均传播力、头条传播力和峰值传播力。所有的计算均以文章的阅读数和点赞数为依据，具体如图1所示。

其中针对文章的传播力是计算该应用公众号下所发文章的平均传播力，计算依据是篇均阅读数和篇均点赞数。而对于如何确定每篇文章各自的传播力的方式是当前亟待解决的技术问题。

发明内容

本发明提供网络文章传播力评估方法及装置，以实现对网络文章传播力的有效评估。

本发明提供了一种网络文章传播力评估方法，包括：

提取待处理网络文章的特征参数；

并根据所述特征参数计算所述待处理网络文章的影响力权重值；

根据所述影响力权重值确定目标网络文章的传播力指数。

优选地，所述提取待处理网络文章的特征参数，包括：

根据目标网络文章确定其所对应的待处理网络文章，并获取所述待处理网络文章的索引信息；

根据所述索引信息查找预先建立的消息队列；

获取所述消息队列中对应所述索引信息的特征参数。

优选地，所述根据所述特征参数计算所述待处理网络文章的影响力权重值，包括：

根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值；

根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配；

根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。

优选地，所述特征参数包括正文内容，所述根据所述待处理网络文章的特征参数计算相似度，得到待处理相似度值，包括：

对所述正文内容进行分词、去噪处理，得到特征词；

根据特征词的权重得到特征词集合；

并对所述特征词集合中的特征词进行哈希Hash值序列串计算，得到待处理相似度值。

优选地，所述根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配，包括：

计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离；

并根据所述海明距离对所述待处理网络文章进行集合划分。

优选地，所述特征参数还包括该待处理网络文章的转载来源信息，所述根据所述海明距离对所述待处理网络文章进行集合划分，包括：

若所述海明距离大于预设阈值，将所述待处理网络文章划分到初始转载文章集合中；

并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析，将所述待处理网络文章划分到对应的转载文章子集中。

优选地，所述特征参数还包括阅读数、点赞数以及留言数，所述根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

其中，Val_Inf为所述待处理网络文章的影响力权重值，Num_Read为所述待处理网络文章的阅读数，f_Read为阅读数的权值因子，Num_Like为所述待处理网络文章的点赞数，f_Like为点赞数的权值因子，Num_Comm为所述待处理网络文章的留言数，f_Comm为留言数的权值因子。

优选地，所述根据所述影响力权重值确定目标网络文章的传播力指数，包括：

确定各待处理网络文章的影响力权重值；

根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。

本发明还提供了一种网络文章传播力评估装置，包括：

提取单元，用于提取待处理网络文章的特征参数；

处理单元，用于根据所述特征参数计算所述待处理网络文章的影响力权重值；

确定单元，用于根据所述影响力权重值确定目标网络文章的传播力指数。

优选地，所述提取单元，用于根据目标网络文章确定其所对应的待处理网络文章，并获取所述待处理网络文章的索引信息；根据所述索引信息查找预先建立的消息队列；获取所述消息队列中对应所述索引信息的特征参数。

优选地，所述处理单元，用于根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值；根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配；根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。

优选地，所述特征参数包括正文内容，所述处理单元，具体用于对所述正文内容进行分词、去噪处理，得到特征词；根据特征词的权重得到特征词集合；并对所述特征词集合中的特征词进行哈希Hash值序列串计算，得到待处理相似度值。

优选地，所述处理单元，还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离；并根据所述海明距离对所述待处理网络文章进行集合划分。

优选地，所述特征参数还包括该待处理网络文章的转载来源信息，所述处理单元，具体用于若所述海明距离大于预设阈值，将所述待处理网络文章划分到初始转载文章集合中；并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析，将所述待处理网络文章划分到对应的转载文章子集中。

优选地，所述特征参数还包括阅读数、点赞数以及留言数，所述处理单元在根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值时，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

优选地，所述确定单元，用于确定各待处理网络文章的影响力权重值；根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。

与现有技术相比，本发明至少具有以下优点：

根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值，进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。

附图说明

图1是现有技术中通过清博指数进行传播力分析的示意图；

图2是本发明提供的网络文章传播力评估方法的流程示意图；

图3是本发明提供的网络文章传播力评估装置的结构图。

具体实施方式

本发明提出一种网络文章传播力评估方法及装置，下面结合附图，对本发明具体实施方式进行详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

基于本发明所要解决的如何实现对网络文章传播力的有效评估的技术问题，本发明提供了一种网络文章传播力评估方法及装置。其中，该网络文章传播力评估方法，如图2所示，包括如下步骤：

步骤201，提取待处理网络文章的特征参数。

本步骤中，该提取待处理网络文章的特征参数的处理，包括：

根据所述索引信息查找预先建立的消息队列；

获取所述消息队列中对应所述索引信息的特征参数。

步骤202，根据所述特征参数计算所述待处理网络文章的影响力权重值。

本步骤中，该根据所述特征参数计算所述待处理网络文章的影响力权重值的处理，包括如下步骤：

S1.根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值；

S2.根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配；

S3.根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。

进一步地，所述特征参数包括正文内容，该S1所述根据所述待处理网络文章的特征参数计算相似度，得到待处理相似度值的处理，包括：

对所述正文内容进行分词、去噪处理，得到特征词；

根据特征词的权重得到特征词集合；

进一步地，该S2根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配，包括：

并根据所述海明距离对所述待处理网络文章进行集合划分。

其中，该特征参数还包括该待处理网络文章的转载来源信息，所述根据所述海明距离对所述待处理网络文章进行集合划分，包括：

更进一步地，所述特征参数还包括阅读数、点赞数以及留言数，该S3根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值的处理，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

在本步骤中，由于待处理网络文章可能存在多个，若存在多个待处理网络文章时，需要对每一个待处理网络文章进行转载文章子集的划分，并在将各待处理网络文章划分到对应的转载文章子集之后，分别计算各待处理网络文章在所对应的转载文章子集中的影响力权重值，当然，计算过程同上述处理。

步骤203，根据所述影响力权重值确定目标网络文章的传播力指数。

本步骤中，所述根据所述影响力权重值确定目标网络文章的传播力指数的处理，包括：

确定各待处理网络文章的影响力权重值；

针对上述本发明所提供的网络文章传播力评估方法，下面以一个具体实施例对该方法做详尽阐述。当然，该实施例仅是为了介绍本发明网络文章传播力评估方法所优选的一种实施方式，对于其他任意采用本发明所提供的技术特征实现本发明上述技术方案的实施方式均在本发明的保护范围之内。

该网络文章传播力评估方法的整体处理流程可以包括公众号及网络文章获取单元U1、网络文章内容信息处理单元U2以及网络文章传播力计算单元U3这三个处理单元。

U1公众号及网络文章获取单元，用于实现依据指定条件进行指定信息的获取。具体包括从分布式存储数据库(如HBase等)中检索出指定目标网络文章A_O的所有数据项，以及根据给定的网络文章检索出所有发布时间晚于该网络文章发布时间的非原创网络文章的相关信息，并将这些相关信息内容放入消息队列(如Kafka、Redis等)中。

在本实施例中，指定的原创的目标网络文章A_O为：某官方公众号发布的“这件关乎每个人的“小事”，XXX批示了！”，从HBase库中检索出的该网络文章数据的格式如下：

其中，所用检索条件为网络文章的发布时间晚于特定时间的Art_O的发布时间，且文章原创类型取值为0(0表示非原创)。

U2实现网络文章内容信息处理。根据待处理网络文章的索引信息从消息队列中取出该待处理网络文章的内容信息，对该待处理网络文章的正文内容进行相似度计算，并记录每篇待处理网络文章的相似度值，同时对待处理网络文章中标记的转载来源的身份识别号信息进行比对，获取各待处理网络文章对应的转载文章子集。

待处理网络文章内容信息处理的具体实施过程为：

步骤一：U201正文内容相似度计算单元，采用SimHash算法，对正文内容进行相似度计算。首先对正文内容进行分词，如“厕所问题不是小事情，是城乡文明建设的重要方面……”的分词结果为：“厕所、问题、不、是、小、事情、是、城乡、文明、建设、的、重要、方面……”；其次，去掉该分词结果中的噪音词，依据TF-IDF计算去掉噪音词后得到的各特征词的权重，得到该文档的特征词集合“厕所、问题、城乡、文明、建设、重要方面……”；接下来对该集合中的各特征词进行哈希hash值计算，得到以下结果：

序号	特征词	Hash值	权重
				1	厕所	10111100	0.92
2	问题	00001011	0.75
				……	……	……
n	重要方面	11100010	0.65

并针对特征词进行计算得到其对应的Hash值序列串如下：

对上述每个特征词的hash值序列串按位相加，得到该段内容的Hash值序列串，并进一步进行降维处理，把计算出来的Hash值序列串变成“01”串，如果当前位大于0则记为1，如果小于0则记为0。最后算出结果“11010110”，这个数值为该待处理网络文章的Simhash签名Val_SimHash。

步骤二：U202转载文档集计算单元，计算Art_O的Val_SimHash和待处理网络文章的Val_SimHash值之间的海明距离。并将海明距离大于指定阈值(阈值Dis_o默认取经验值，可根据实际需要进行调整)的待处理网络文章被认定为转载文章，并形成初始转载文章集合C_orignal，文章总数量为N。对C_orignal中的各待处理网络文章Art_i i∈[0，N]进行转载来源比对分析，如果Art_i的来源名称与Art_O的来源名称完全相同或者包含了Art_O的来源名称，则将该待处理网络文章Art_i从C_orignal提取出来放入C_First，C_First为一级转载子集，即直接转载的待处理网络文章的集合；如果待处理网络文章Art_i的转载来源名称中为C_First集合中的待处理网络文章的来源名称，则将该待处理网络文章从C_orignal提取出来放入C_Second集合，C_Second为二级转载子集，即间接转载的待处理网络文章的集合；当完成上述比对后，C_orignal剩余的待处理网络文章全部归入C_Third。C_Third子集中包含了三级及以上的待处理网络文章和所有未标明转载来源的待处理网络文章。

U3实现网络文章传播力计算。计算每篇待处理网络文章的影响力权重，进而根据该权重数值计算得出指定网络文章Art_O的传播力指数。

网络文章传播力计算的具体实施过程为：

步骤一：U301单篇待处理网络文章的影响力权重计算。针对三个转载子集C_First、C_Second、C_Third中的待处理网络文章进行单篇待处理网络文章影响力权重计算。定义Val_Inf为单篇待处理网络文章的影响力权重值，Num_Read为单篇待处理网络文章的阅读数，f_Read为阅读数的权值因子，Num_Like为单篇待处理网络文章的点赞数，f_Like为点赞数的权值因子，Num_Comm为单篇待处理网络文章的留言数，，f_Comm为留言数的权值因子。

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

其中，f_Read+f_Like+f_Comm＝1，此处我们定义：f_Read＝70％，f_Like＝20％，f_Comm＝10％。

步骤二：U302指定目标网络文章Art_O的传播力指数计算。定义Art_O的传播力指数为

则：

其中，

为目标网络文章Art_O的影响力权重值，f_First为一级转载文章子集C_First的权重因子，f_Second为二级转载文章子集C_Second的权重因子，f_Third为三级转载文章子集C_Third的权重因子，f_First+f_Second+f_Third＝1，此处定义：f_First＝60％，f_Second＝25％，f_Third＝15％。

和

分别表示三个转载文章子集中的待处理网络文章的影响力权重值。

更优的，在计算上述目标网络文章的传播力指数时，并不仅局限于阅读数、点赞数以及留言数这三个参数，还可以将目标网络文章所属公众号的活跃度和影响力纳入考虑范围，以得到更优的传播力指数数值。

基于上述本发明所提供的网络文章传播力评估方法，本发明还提供了一种网络文章传播力评估装置，如图3所示，包括：

提取单元31，用于提取待处理网络文章的特征参数；

处理单元32，用于根据所述特征参数计算所述待处理网络文章的影响力权重值；

确定单元33，用于根据所述影响力权重值确定目标网络文章的传播力指数。

优选地，所述提取单元31，用于根据目标网络文章确定其所对应的待处理网络文章，并获取所述待处理网络文章的索引信息；根据所述索引信息查找预先建立的消息队列；获取所述消息队列中对应所述索引信息的特征参数。

优选地，所述处理单元32，用于根据所述待处理网络文章的特征参数计算所述待处理网络文章的待处理相似度值；根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果对所述待处理网络文章进行集合分配；根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值。

优选地，所述特征参数包括正文内容，所述处理单元32，具体用于对所述正文内容进行分词、去噪处理，得到特征词；根据特征词的权重得到特征词集合；并对所述特征词集合中的特征词进行哈希Hash值序列串计算，得到待处理相似度值。

优选地，所述处理单元32，还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离；并根据所述海明距离对所述待处理网络文章进行集合划分。

优选地，所述特征参数还包括该待处理网络文章的转载来源信息，所述处理单元32，具体用于若所述海明距离大于预设阈值，将所述待处理网络文章划分到初始转载文章集合中；并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析，将所述待处理网络文章划分到对应的转载文章子集中。

优选地，所述特征参数还包括阅读数、点赞数以及留言数，所述处理单元32在根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值时，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

优选地，所述确定单元33，用于确定各待处理网络文章的影响力权重值；根据各待处理网络文章的影响力权重值、各待处理网络文章所属子集的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。

本发明中，根据提取的待处理网络文章的特征参数来计算该待处理网络文章的影响力权重值，进而根据该影响力权重值来确定目标网络文章的传播力指数。实现了对网络文章传播力的有效评估。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种网络文章传播力评估方法，其特征在于，包括：

提取待处理网络文章的特征参数；所述特征参数包括待处理网络文章的正文内容、转载来源信息、阅读数、点赞数以及留言数；

并根据所述特征参数计算所述待处理网络文章的影响力权重值；所述根据所述特征参数计算所述待处理网络文章的影响力权重值，包括：根据所述特征参数计算所述待处理网络文章的待处理相似度值；根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配；根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值；

根据所述影响力权重值确定目标网络文章的传播力指数；

所述待处理网络文章包括发布时间晚于目标网络文章发布时间的非原创网络文章的相关信息；

所述根据所述特征参数计算所述待处理网络文章的待处理相似度值，包括：

根据所述待处理网络文章的正文内容计算相似度，得到待处理相似度值；

所述根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值，包括：

根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值。

2.如权利要求1所述的方法，其特征在于，所述提取待处理网络文章的特征参数，包括：

根据所述索引信息查找预先建立的消息队列；

获取所述消息队列中对应所述索引信息的特征参数。

3.如权利要求1所述的方法，其特征在于，所述根据所述待处理网络文章的正文内容计算相似度，得到待处理相似度值，包括：

对所述正文内容进行分词、去噪处理，得到特征词；

根据特征词的权重得到特征词集合；

4.如权利要求3所述的方法，其特征在于，所述根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配，包括：

并根据所述海明距离对所述待处理网络文章进行集合划分。

5.如权利要求4所述的方法，其特征在于，所述根据所述海明距离对所述待处理网络文章进行集合划分，包括：

并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析，将所述待处理网络文章划分到对应的转载文章集合中。

6.如权利要求1中所述的方法，其特征在于，所述根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

7.如权利要求1-6中任一项所述的方法，其特征在于，所述根据所述影响力权重值确定目标网络文章的传播力指数，包括：

确定各待处理网络文章的影响力权重值；

根据各待处理网络文章的影响力权重值、各待处理网络文章所属集合的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。

8.一种网络文章传播力评估装置，其特征在于，包括：

提取单元，用于提取待处理网络文章的特征参数；所述特征参数包括待处理网络文章的正文内容、转载来源信息、阅读数、点赞数以及留言数；

处理单元，用于根据所述特征参数计算所述待处理网络文章的影响力权重值；所述处理单元，用于根据所述特征参数计算所述待处理网络文章的待处理相似度值；根据预设的目标网络文章的目标相似度值与所述待处理相似度值进行比较，并根据比较结果和所述转载来源信息对所述待处理网络文章进行集合分配；根据所述特征参数计算所述待处理网络文章在所属集合中的影响力权重值；

确定单元，用于根据所述影响力权重值确定目标网络文章的传播力指数；

9.如权利要求8所述的装置，其特征在于，所述提取单元，用于根据目标网络文章确定其所对应的待处理网络文章，并获取所述待处理网络文章的索引信息；根据所述索引信息查找预先建立的消息队列；获取所述消息队列中对应所述索引信息的特征参数。

10.如权利要求8所述的装置，其特征在于，所述处理单元，具体用于对所述正文内容进行分词、去噪处理，得到特征词；根据特征词的权重得到特征词集合；并对所述特征词集合中的特征词进行哈希Hash值序列串计算，得到待处理相似度值。

11.如权利要求8所述的装置，其特征在于，所述处理单元，还具体用于计算所述目标相似度值与待处理网络文章的待处理相似度值间的海明距离；并根据所述海明距离对所述待处理网络文章进行集合划分。

12.如权利要求11所述的装置，其特征在于，所述处理单元，具体用于若所述海明距离大于预设阈值，将所述待处理网络文章划分到初始转载文章集合中；并根据所述转载来源信息对所述初始转载文章集合中的待处理网络文章进行分析，将所述待处理网络文章划分到对应的转载文章集合中。

13.如权利要求11所述的装置，其特征在于，所述处理单元在根据所述阅读数、所述点赞数以及所述留言数计算所述待处理网络文章在所属集合中的影响力权重值时，包括如下公式：

Val_Inf＝f_Read*ln(Num_Read+1)+f_Like*ln(Num_Like+1)+f_Comm*ln(Num_Comm+1)

14.如权利要求8-13中任一项所述的装置，其特征在于，所述确定单元，用于确定各待处理网络文章的影响力权重值；根据各待处理网络文章的影响力权重值、各待处理网络文章所属集合的权重因子以及预设的目标网络文章的影响力权重值计算得到所述目标网络文章的传播力指数。