CN103678613A

CN103678613A - 一种计算影响力数据的方法与装置

Info

Publication number: CN103678613A
Application number: CN201310693308.4A
Authority: CN
Inventors: 王君鹤; 曲武; 周涛; 叶润国
Original assignee: Beijing Venus Information Security Technology Co Ltd; Beijing Venus Information Technology Co Ltd
Current assignee: Beijing Venus Information Security Technology Co Ltd; Beijing Venus Information Technology Co Ltd
Priority date: 2013-12-17
Filing date: 2013-12-17
Publication date: 2014-03-26
Anticipated expiration: 2033-12-17
Also published as: CN103678613B

Abstract

本发明公开了一种计算影响力数据的方法与装置；所述方法适用于社交网络，包括：以指定信息的标识作为输入，从预定的社交网络的服务器中爬取所述指定信息的用户操作数据；根据所爬取的所述用户操作数据计算每天的用户参与次数；分别计算每天的参与次数增长率；比较各相邻天的所述参与次数增长率，选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值，当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期。本发明能够提高社交网络的影响力数据的正确性和可靠性，更加符合实际情况。

Description

一种计算影响力数据的方法与装置

技术领域

本发明涉及互联网领域，特别涉及一种计算影响力数据的方法与装置。

背景技术

截至2012年12月底，新浪微博注册用户数已超过5亿。2012年12月，日活跃用户数达到4620万。微博用户数与活跃用户数保持稳定增长。腾讯微博的注册账户数更高达5.4亿，日均活跃用户数超过8700万。微博应用的风靡，尤其是门户微博时代的到来，可以说是盖过了各种模式的互联网平台的风头。在社交网络上进行企业信息发布不仅拥有互联网传播快捷、廉价的优势，其特有的用户互动效果是其它媒体方式所无法比拟的。此外在社交媒体上做宣传不同于直接的广告投放，以微博形式发布的信息不需要额外的资金投入；同时，信息的传播不再只局限于企业自身的被关注度，有较强影响力用户的转发为信息的传播贡献了非常重要的力量。

传统的影响力数据获取方案中不会考虑用户本身对信息的传播贡献，用户也无法将自身的观点和情感倾向融入信息中加以散播，而在社交网络中用户可以使用多种方式表达自身的观点：发表评论点击“赞”、“踩”，甚至可以直接发帖表明观点；社交网络的新颖性在成为信息传播新模式的同时，导致信息的传播手段、用户参与方式、用户关注渠道等都和传统网络非常不同，这意味着如果直接将传统的影响力数据计算方案应用在新型社交网络中，将有可能忽略用户在信息传播中的行为，最终导致所得到的影响力数据片面且失真。比如由于社交网络发文的免费性，企业的发文和用户的发文处在一个平等的平台中，导致两者的影响力也相对接近。企业在传统网络中发布的信息影响力随时间推进衰减的较少，而社交网络中由于不断有用户发布新的信息，一条信息的影响力会在相对较短的时间内迅速减弱，因此如果采用和传统网络相同的方式计算信息的活跃时间，很有可能会得到一个超出实际情况的活跃时间，无法得到准确的信息更新周期。

发明内容

本发明所要解决的技术问题是如何提高社交网络的影响力数据的正确性和可靠性，更加符合实际情况。

为了解决上述技术问题，本发明公开了一种计算影响力数据的方法，适用于社交网络，包括：

以指定信息的标识作为输入，从预定的社交网络的服务器中爬取所述指定信息的用户操作数据；所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数；所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息，所述指定信息的第L层子信息是指对该指定信息第L－1层子信息的评论信息或转发信息；L为大于1的正整数；

根据所爬取的所述用户操作数据计算每天的用户参与次数；所述每天的用户参与次数为每天的评论次数加转发次数；

分别计算每天的参与次数增长率；所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差；

比较各相邻天的所述参与次数增长率，选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值，当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期；其中N和M为正整数。

可选地，所述的方法还包括：

所述用户操作数据还包括：对所述指定信息或其子信息的参与行为数据；所述参与行为数据至少包括参与行为的发布时间；所述参与行为包括评论、转发、投票；

从所述指定信息的参与行为数据中获取最迟的发布时间，用该最迟的发布时间减去所述指定信息的发布时间，得到所述指定信息的生存时间长度。

可选地，所述用户操作数据还包括：所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据；所述被投票数据包括投票的内容；

所述方法还包括：

对所述指定信息及各层评论信息的内容分别进行分词，使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断，得到所述指定信息及各层评论信息的情感类型；各层转发信息与所转发的指定信息或子信息的情感类型一致；各投票的情感类型根据投票的内容确定；

所述情感类型包括：正面、负面和中性。

可选地，所述用户操作数据还包括：对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息；所述用户互动信息至少包括互动所针对的用户标识；

所述方法还包括：

根据所述用户互动信息提取互动所针对的用户标识；

将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配，计算匹配成功的个数和匹配失败的个数，用匹配成功的个数除以匹配成功和失败的个数之和，得到所述指定信息的主动传播成功率。

可选地，所述投票数据还包括：对所述指定信息及其各层子信息投票的次数；

所述方法还包括：

根据所述用户操作数据中的用户标识生成原始用户集合，从中删除重复的用户标识，以及爬取过用户数据的用户标识后，根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据；所述用户数据至少包括所述用户标识对应的粉丝数；

计算每种情感类型下的传播量和参与量：

传播量：

PQ_spead=Σ(comment_i×word_i×fan_i)/word_all+transpond_all×fan_i×min{word_i}/word_all；

参与量：

PQ=[Σ(comment_i×word_i×fan_i)+(transpond_all×fan_i+praise_all)×min{word_i}]/word_all；

其中，comment_i为该情感类型下的第i条评论，i为小于或等于该情感类型下的总评论次数的各正整数；word_i为该第i条评论的字数，word_all为该情感类型下的总字数，transpond_all为该情感类型下的总转发次数，praise_all为该情感类型下的投票的总次数，fan_i表示发布该评论信息或转发信息的用户标识对应的粉丝数。

可选地，所述的方法还包括：

利用病毒传播SIR模型，根据被转发和被评论关系，生成转发评论树；统计所述转发评论树的最深层数，找出所述转发评论树中转发次数和评论次数之和最大的前k个节点；k=min{(user×α),10}，其中0<α<1，user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数，min{}是指取{}中的最小值；

查询这k个节点所对应的评论信息或转发信息的情感类型，在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识，作为强影响力用户。

可选地，所述用户操作数据还包括：所述评论信息、转发信息、投票的层数；其中，评论信息和转发信息的层数是所评论或转发的信息的层数加1，所述投票的层数是所针对的信息的层数；所述指定信息的层数为0；

所述方法还包括：

从所述指定信息中提取一个或多个关键词；以选出的关键词为检索词在所述社交网络的服务器中进行搜索，从检索出的信息的标识中去除所述指定信息的标识后，作为衍生信息；

分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据；

如果爬取到的所有衍生信息的用户操作数据中，存在信息的标识或用户标识相同的多条数据，则保留层数最多的一条数据，将所述多条数据中其它数据及其后续数据全部删除；一条数据的后续数据是指：对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据；

统计过滤后的0层信息的个数，作为所述指定信息对应的衍生信息的个数。

可选地，所述的方法还包括：

根据所爬取的各衍生信息的用户操作数据，获取所述过滤后的0层信息的内容，并根据所获取的内容判断各所述过滤后的0层信息的情感类型；

将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较，如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。

本发明还提供了一种计算影响力数据的装置，适用于社交网络，包括：

爬取模块，用于以指定信息的标识作为输入，从预定的社交网络的服务器中爬取所述指定信息的用户操作数据；所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数；所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息，所述指定信息的第L层子信息是指对该指定信息第L－1层子信息的评论信息或转发信息；L为大于1的正整数；

用户参与次数计算模块，用于根据所爬取的所述用户操作数据计算每天的用户参与次数；所述每天的用户参与次数为每天的评论次数加转发次数；

参与次数增长率计算模块，用于分别计算每天的参与次数增长率；所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差；

比较模块，用于比较各相邻天的所述参与次数增长率，选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值，当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期；其中N和M为正整数。

可选地，所述用户操作数据还包括：对所述指定信息或其子信息的参与行为数据；所述参与行为数据至少包括参与行为的发布时间；所述参与行为包括评论、转发、投票；

所述装置还包括：

生存时间长度计算模块，用于从所述指定信息的参与行为数据中获取最迟的发布时间，用该最迟的发布时间减去所述指定信息的发布时间，得到所述指定信息的生存时间长度。

所述装置还包括：

情感类型判断模块，用于对所述指定信息及各层评论信息的内容分别进行分词，使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断，得到所述指定信息及各层评论信息的情感类型；各层转发信息与所转发的指定信息或子信息的情感类型一致；各投票的情感类型根据投票的内容确定；所述情感类型包括：正面、负面和中性。

所述装置还包括：

用户标识提取模块，用于根据所述用户互动信息提取互动所针对的用户标识；

成功率计算模块，用于将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配，计算匹配成功的个数和匹配失败的个数，用匹配成功的个数除以匹配成功和失败的个数之和，得到所述指定信息的主动传播成功率。

所述爬取模块还用于根据所述用户操作数据中的用户标识生成原始用户集合，从中删除重复的用户标识，以及爬取过用户数据的用户标识后，根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据；所述用户数据至少包括所述用户标识对应的粉丝数；

所述装置还包括：

情感影响力计算模块，用于计算每种情感类型下的传播量和参与量：

传播量：

参与量：

其中，comment_i为该情感类型下的第i条评论，i为小于或等于该情感类型下的总评论次数的各正整数；word_i为该第i条评论的字数，word_all为该情感类型下的总字数，transpond_all为该情感类型下的总转发次数，praise_all为该情感类型下的投票的总次数，fan_i表示发布该评论信息或转发信息的用户标识所对应的粉丝数。

可选地，所述的装置还包括：

转发评论统计模块，用于利用病毒传播SIR模型，根据被转发和被评论关系，生成转发评论树；统计所述转发评论树的最深层数，找出所述转发评论树中转发次数和评论次数之和最大的前k个节点；k=min{(user×α),10}，其中0<α<1，user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数，min{}是指取{}中的最小值；

强影响力用户查询模块，用于查询这k个节点所对应的评论信息或转发信息的情感类型，在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识，作为强影响力用户。

所述装置还包括：

衍生模块，用于从所述指定信息中提取一个或多个关键词；以选出的关键词为检索词在所述社交网络的服务器中进行搜索，从检索出的信息的标识中去除所述指定信息的标识后，作为衍生信息；

所述爬取模块还用于分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据；

筛选模块，用于当爬取到的所有衍生信息的用户操作数据中，存在信息的标识或用户标识相同的多条数据时，保留层数最多的一条数据，将所述多条数据中其它数据及其后续数据全部删除；一条数据的后续数据是指：对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据；

衍生信息个数计算模块，用于统计过滤后的0层信息的个数，作为所述指定信息对应的衍生信息的个数。

可选地，所述情感类型判断模块还用于根据所爬取的各衍生信息的用户操作数据，获取所述过滤后的0层信息的内容，并根据所获取的内容判断各所述过滤后的0层信息的情感类型；

所述装置还包括：

告警模块，用于将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较，如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。

本申请的技术方案针对社交网络不同于传统网络的特点，设计了全新的计算方案，量化了社交网络中用户参与所带来的信息传播幅度，并纳入到影响力数据的计算中，使计算结果更加吻合社交网络这一新型网络传播媒介的真实情况，提高了影响力数据的正确性和可靠性。本申请及其各实施方式分别限定了各种影响力数据的计算细节，包括：信息影响力发生突变的时间点、信息的生存周期、情感类型的确定及其传播量/参与量、主动传播成功率、强影响力用户、衍生信息及其情感类型等。

附图说明

图1为实施例一中信息的用户操作数据的爬取流程图；

图2为实施例一中衍生信息的用户操作数据的获取流程图；

图3为实施例一中的影响力数据计算的流程图；

图4为实施例二的计算影响力数据的装置的示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是，在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

实施例一、一种计算影响力数据的方法，适用于社交网络，包括：

根据所爬取的所述转发数据和评论数据，计算每天的用户参与次数；所述每天的用户参与次数为每天的评论次数加转发次数；

本实施例中，所述指定信息可以是指定的话题、微博、帖子等信息，也就是作为计算影响力数据的对象的信息。

本实施例以天为单位统计所述指定信息的活动次数，即每天用户新发布的针对该指定信息及其各层子信息的评论和转发次数，由于包括点击“赞”、点击“顶/踩”、点击表达相应情绪（如愤怒、高兴等）的图标等在内的投票操作不具备传播性，在此不计算对所述指定信息及其各层子信息投票的次数，如果需要计算信息的阅读周期，则可以加上所述投票的次数。

本实施例针对社交网络中用户参与多的特色，在计算影响力数据时将信息的转发/评论、及转发/评论所形成的各层子信息都考虑在内，因此得到的结果能够更加匹配真实情况。

本实施例中，还可以生成所述指定信息的生存周期表，以每天的用户参与次数为纵坐标，以时间为横坐标，生成所述指定信息的活跃度折线；一般情况下，信息的生存周期是一个关注度（可用一天内的所述用户参与次数表示）先升高再降低的过程，但是当有特殊的事件发生时，关注度会出现多次起伏，这些特殊事件往往对信息的传播有很大影响，在所述活跃度折线上会形成下述重要拐点：

一种是起始点后再次出现的上升拐点（由降转升），此处表明该信息被再度关注，称其为转升拐点；该拐点即：前M天的参与增长率均为负值，当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期；M可以根据经验值设置，前M天的参与增长率均为负值意味着该信息的关注度在持续下降，已形成下降趋势；当参与次数增长率转为正值且用户参与次数大于第二预定阈值，意味着该信息的关注度明显上升；所述第二预定阈值可以根据经验值设置，比如可以设置为该信息之前每天的用户参与次数的平均值。

另一种是关注度大幅度上升的拐点，称其为陡增拐点；若某一天的参与次数增长率明显大于之前N日的参与次数增长率，则认为这一天为微博发酵点，即关注度陡增。所述N和第一预定阈值可以根据经验值设置，比如但不限于N为2，第一预定阈值为所比较的那天的参与次数增长率的50%，即：某一天的参与次数增长率d为200，前一天的参与次数增长率d－1为120，则d和d－1之差为80，大于120的50%；而再前一天的参与次数增长率d－2为100，d与d－2之差为100，也大于100的50%，则参与次数增长率d的这天为陡增拐点。

另外，还可以找出所述指定信息的关注度最高的一天。

在找出全部的重要拐点后，可以从所爬取的用户操作数据中获取每一拐点当日的全部传播行为（包括评论、转发）和行为实施用户，统计这些传播行为的被关注情况（评论/转发信息被评论、被转发、被投票——包括点“赞”等类似行为——的情况）。当陡增的部分集中在当日较早的时间内，还可以统计当日和前日两天的数据。找出被关注次数最多的行为，称此行为强影响力行为，称此行为实施者为强影响力用户。还可以进一步将强影响力行为和强影响力用户推送给分析者进行人工判断：造成此次拐点出现的原因是用户有较强的影响力还是事件本身引起了高度关注。

本实施例的一种实施方式中，所述用户操作数据还可以包括对所述指定信息或其子信息的参与行为数据；所述参与行为数据至少包括参与行为的发布时间；所述参与行为包括评论、转发、投票；

所述方法还可以包括：从所述指定信息的参与行为数据中获取最迟的发布时间，用该最迟的发布时间减去所述指定信息的发布时间，得到所述指定信息的生存时间长度。

下面以微博作为所述社交网络为例说明爬取的具体实施步骤。

将需要爬取的指定信息（本例子中为原始微博）定义为0层信息，对该信息的转发信息和评论信息称为1层子信息，包括1层转发信息和1层评论信息，将对1层转发信息或1层评论信息进行转发和评论得到的信息称为2层子信息，包括2层转发信息和2层评论信息，以此类推。

对指定信息及每一层子信息需要获取以下数据：操作用户id（即发布该信息、进行此次转发、评论操作的用户id）、针对此信息的投票次数（比如微博中被“赞”的次数）和进行该投票的用户id、被转发和评论的信息、及用户互动信息（比如其它用户id、推送、私信给其它用户id等）等。

首先进行用户操作数据的爬取，以微博作为所述指定信息；根据该条微博的id（标识）从微博爬取该条微博的内容、发布时间、所的用户id、被“赞”次数、对其发表赞的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。

爬取所述用户操作数据的过程如图1所示，包括：

101、爬取原始微博的转发信息和评论信息，生成转发列表和评论列表，将获得的转发信息的id和评论信息的id加入列表，记录信息层数；进行步骤102和105。其中，原始微博层数为0，每转发或评论一次，层数增1。

102、转发信息爬取：依次读取转发列表中各转发信息，如果不存在未爬取的转发信息则转发列表爬取结束；如果存在则进行步骤103。

103、根据转发信息的id爬取该转发信息的用户操作数据，包括：内容、所的用户id、被“赞”次数、对其点击“赞”的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。

104、将获得的转发信息的id和评论信息的id分别加入所述转发列表和所述评论列表的末尾，记录信息层数；返回步骤102和105。

105、评论信息爬取：依次读取评论列表中各评论信息，如果不存在未爬取的转发信息则转发列表爬取结束；如果存在则进行步骤106。

106、根据评论信息的id爬取该评论信息的用户操作数据，包括：内容、情感类型、所的用户id、被“赞”次数、对其点击“赞”的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。

107、将获得的转发信息的id和评论信息的id分别加入所述转发列表和所述评论列表的末尾，记录信息层数；返回步骤102和105。

可以将所爬取的用户操作数据保存在表1中，存进数据库。

表1、用户操作数据表

接下来，从表1中获取此次爬取的用户操作数据中全部用户id生成原始用户集合UA，将这些用户id进行两次过滤：

第一次过滤：内部过滤，将UA中重复的用户id删除；

第二次过滤：从数据库中获取已爬取过用户数据的用户id集合UB，依次查找UA中的用户id是否存在于UB中，若存在则从UA中删除该用户id。根据经过两次过滤后的UA中的用户id，在所述社交网络的服务器中爬取各用户id对应的用户数据，包括用户名、用户标签、关注数及关注列表、粉丝数及粉丝列表等；将爬取到的用户数据存入用户数据集合中，其形式可以如表2所示。

将UA中的用户id也加入到所述UB中；也就是说，在下一次爬取时，本次UA中的用户id也将属于爬取过用户数据的用户id。

表2.用户数据表

本实施例的一种实施方式中，所爬取的用户操作数据还可以包括：所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据；所述被投票数据包括投票的内容（比如“赞”、“踩”等）；

所述方法还可以包括：

对所述指定信息及各层评论信息的内容分别进行分词，使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断，得到所述指定信息及各层评论信息的情感类型；各层转发信息与所转发的指定信息或子信息的情感类型一致（即转发不改变情感类型）；各投票的情感类型根据投票的内容确定（比如投票内容为“笑脸”等属于预定的正面情感集合的内容时，投票的情感类型为正面；投票内容为“哭脸”等属于预定的负面情感集合的内容时，投票的情感类型为负面；其余为中性）。

本文所述的转发是指直接的、单纯的转发，转发时加上评论的、评论的同时转发的都属于评论。

本实施方式中的情感类型包括：正面、负面和中性三种；内容只有表情时，可将表情所对应的词作为内容爬取（比如“大笑”、“汗”等）；分词的方法及情感判断算法可采用现有技术实现。

本实施方式中，所述用户操作数据还可以包括对所述指定信息及其各层子信息进行评论或转发的用户标识（亦即：发布所述指定信息的各层评论信息或转发信息的用户标识）；

所述投票数据还可以包括：对所述指定信息及其各层子信息投票的次数；

所述方法还可以包括：

计算每种情感类型下的传播量和参与量：

传播量：

参与量：

其中，comment_i为该情感类型下的第i条评论，i为小于或等于该情感类型下的总评论次数（各层评论次数之和）的各正整数；word_i为该第i条评论的字数，word_all为该情感类型下的总字数，transpond_all为该情感类型下的总转发次数（各层转发次数之和），praise_all为该情感类型下的投票的总次数，fan_i表示发布该评论信息或转发信息的用户标识所对应的粉丝数。

情感类型的传播量体现了信息中带有该情感的传播所包含的信息量，其中字数较多的评论影响力相对较强，而单纯的转发则视为影响力与字数最少的评论相同。粉丝数越多该转发、或评论的影响力也越高。

情感类型的参与量是指阅读了这条信息并进行响应的情况，因此加入了投票的用户，单纯点击“赞”或其它投票内容时，只能提升微博的受关注度，信息不会进行扩散，因此视为只影响了单个用户。

与传统网络不同，社交网络中用户的操作有可能影响甚至改变原始信息的情感类型；本实施方式针对这一特点，根据用户操作数据进行了科学的计算，从而可以获得原始信息由于用户操作所产生的各种情感类型的影响情况。

本实施方式中，所述方法还可以包括：

将三种情感类型的传播量和参与量分别进行排序；

如果参与量和传播量最高的情感类型均与所述指定信息的情况类型相同，则认为该指定信息获得了正面响应，如果参与量和传播量最高的情感类型中有一个与所述指定信息的情况类型不同，则认为该指定信息未能达到正向引导的目标，可以将此情况推送给分析人员，进行提醒。

本实施例的一种实施方式中，所述用户操作数据还可以包括：对所述指定信息及其各层子信息进行评论、转发、投票的用户标识；

所述方法还可以包括：

根据所述用户操作数据统计每个用户标识的出现次数，选出所述出现次数最高的前S个用户标识，S为正整数，可根据需要自行设定。

所选出的用户标识表示关于此指定信息的活跃用户。这些活跃用户对该指定信息的内容兴趣较高，为该指定信息的积极参与者。

本实施例的一种实施方式中，所述用户操作数据还可以包括：对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息；所述用户互动信息至少包括互动所针对的用户标识（比如的用户标识，推广、私信的收件人的用户标识等）。

所述方法还可以包括：

根据所述用户互动信息提取互动所针对的用户标识；

比如对于一条微博，可以从所述用户操作数据中读取该微博中全部参与行为，包括评论、转发和点击“赞”的用户标识（包括用户名和/或用户id等），统计每一用户标识的出现次数，生成用户参与情况表。

表3、用户参与情况表

用户名	用户1	用户2
			用户id	用户1的id	用户2的id
点击“赞”的次数	np1	np2
			发表评论的次数	nc1	nc2
进行转发的次数	nt1	nt2

遍历该微博下的所有信息获取（提到）数据，生成被用户列表，将该用户列表中的用户标识在用户参与情况表中查找，若该用户标识存在于参与用户中，则此次成功，计算成功与失败的比例，作为该微博的主动传播成功率。此比例显示出分析对象是否适合于利用方式进行传播引发微博用户响应。

本实施例的一种实施方式中，所述方法还可以包括：

利用病毒传播SIR模型，根据被转发和被评论关系，生成转发评论树；统计所述转发评论树的最深层数，找出所述转发评论树中转发次数和评论次数之和最大的前k个节点（可称为强力传播点）；

k=min{(user ×α),10}，其中0<α<1，user为参与所述指定信息传播的用户总数，即对所述指定信息及其各层子信息进行转发或评论的用户id的个数，不包含只被和发表“赞”的用户id；min{}是指取{}中的最小值；

查询这k个节点所对应的转发信息或评论信息的情感类型，在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识，作为强影响力用户。

本实施方式的一种备选方案中，α可以但不限于为1%。

另外，还可以在所述转发评论树中标记情感转折点，情感转折点是指情感类型由正面转为负面、或由负面转为正面、或由中性转为其它情感类型的节点。可以将所述强影响力用户和情感转折点在所述转发评论树标记出之后推送给分析人员。

本实施例的一种实施方式中，所述用户操作数据还可以包括：所述评论信息、转发信息、投票的层数；其中，评论信息和转发信息的层数是所评论或转发的信息的层数加1，所述投票的层数是所针对的信息的层数；所述指定信息的层数为0；

如图2所示，所述方法在201、爬取指定信息的用户操作数据的步骤后还可以包括：

202、从所述指定信息中提取一个或多个关键词（可以根据需要设置或修改关键词集合）；以选出的关键词为检索词在所述社交网络的服务器中进行搜索（比如但不限于利用微博搜索的话题检索功能）。

203、从检索出的信息的标识中去除所述指定信息的标识后，作为衍生信息；可以将删除指定信息标识后的信息标识放入衍生信息列表。

接下来分别以各衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据，具体包括：

204、依次读取衍生信息列表中的衍生信息标识；判断是否存在未爬取的衍生信息，如果存在则进行步骤205；如果不存在则进行步骤206。

205、以所读取的衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据。

206、如果爬取到的所有衍生信息的用户操作数据中，存在信息的标识或用户标识相同的多条数据，则保留层数最多的一条数据，将所述多条数据中其它数据及其后续数据全部删除；一条数据的后续数据是指：对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据；

过滤可选择在两个阶段实现：爬取过程中和爬取完毕后。比如以微博作为所述社交网络为例：

爬取过程中的重复过滤：每爬取一条微博就先在已获取的数据中进行查找，若存在则比较两者的层数，待爬取微博的层数较少时，跳过该条微博；已爬取微博层数较少时，删除该微博及后续信息，重新爬取待爬取微博及其后续微博。此方式适合于网络流量受限的系统环境。

爬取完毕后的重复过滤：在爬取完成后将爬取的全部id汇集在一个集合中，使用散列方式查找碰撞，发现碰撞后，按过滤规则删除重复数据。此种方法适合于数据量较大的分布式系统。

本实施方式中，所述方法还可以包括：

所述第四预定阈值可以根据实际情况设置。

本实施方式中，所述方法还可以包括：

根据所爬取的各衍生信息的用户操作数据，分别计算各情感类型的传播量；使用传播量最高的情感类型与所述指定信息的情感类型进行比较；

对每一情感类型的信息（包括衍生信息及其各层子信息）的内容进行关键词提取。

进一步还可以将关键词分类推送给分析人员，用以判断衍生话题下不同情感倾向的用户的关注重心。

本实施方式中，所述方法还可以包括：

根据所爬取的各衍生信息的用户操作数据，统计每个用户标识的出现次数，即为该用户标识的衍生信息参与度；找出前2×S个衍生信息参与度最高的用户标识。

对比所述出现次数最高的前S个用户标识，找出衍生信息参与度高但不属于这S个的用户标识，作为潜在重要用户。潜在重要用户是对目标内容兴趣度高但在指定信息的传播中未传播到的用户。

本实施例中，可以根据爬取的所述指定信息的用户操作数据，进行多种影响力数据的计算，如图3所示，可以包括：

确定情感类型，计算各情感类型的传播量和参与量、计算生存时间长度和关注度的拐点、计算主动传播成功率、生成转发评论树，计算强力传播点、衍生信息的情感类型确定、衍生信息参与度计算。

当然，图3中的各步骤顺序可以调整，也可以并行；在一个实施方式中不必包含图3中的所有步骤，而且可以包含图3中未示出的步骤。

实施例二、一种计算影响力数据的装置，适用于社交网络，如图4所示，包括：

本实施例的一种实施方式中，所述用户操作数据还可以包括：对所述指定信息或其子信息的参与行为数据；所述参与行为数据至少包括参与行为的发布时间；所述参与行为包括评论、转发、投票；

所述装置还可以包括：

本实施例的一种实施方式中，所述用户操作数据还可以包括：所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据；所述被投票数据包括投票的内容；

所述装置还可以包括：

本实施方式的一种备选方案中，所述用户操作数据还可以包括：对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息；所述用户互动信息至少包括互动所针对的用户标识；

所述装置还可以包括：

本备选方案中，所述投票数据还可以包括：对所述指定信息及其各层子信息投票的次数；

所述爬取模块还可以用于根据所述用户操作数据中的用户标识生成原始用户集合，从中删除重复的用户标识，以及爬取过用户数据的用户标识后，根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据；所述用户数据至少包括所述用户标识对应的粉丝数；

所述装置还可以包括：

传播量：

参与量：

本备选方案中，所述的装置还可以包括：

本实施方式的一种备选方案中，所述用户操作数据还可以包括：所述评论信息、转发信息、投票的层数；其中，评论信息和转发信息的层数是所评论或转发的信息的层数加1，所述投票的层数是所针对的信息的层数；所述指定信息的层数为0；

所述装置还可以包括：

所述爬取模块还用于分别以各衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据；

本备选方案中，所述情感类型判断模块还可以用于根据所爬取的各衍生信息的用户操作数据，获取所述过滤后的0层信息的内容，并根据所获取的内容判断各所述过滤后的0层信息的情感类型；

所述装置还可以包括：

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种计算影响力数据的方法，适用于社交网络，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于：

所述用户操作数据还包括：所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据；所述被投票数据包括投票的内容；

所述方法还包括：

所述情感类型包括：正面、负面和中性。

4.如权利要求3所述的方法，其特征在于：

所述用户操作数据还包括：对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息；所述用户互动信息至少包括互动所针对的用户标识；

所述方法还包括：

根据所述用户互动信息提取互动所针对的用户标识；

5.如权利要求4所述的方法，其特征在于：

所述投票数据还包括：对所述指定信息及其各层子信息投票的次数；

所述方法还包括：

计算每种情感类型下的传播量和参与量：

传播量：

参与量：

6.如权利要求5所述的方法，其特征在于，还包括：

7.如权利要求4所述的方法，其特征在于：

所述用户操作数据还包括：所述评论信息、转发信息、投票的层数；其中，评论信息和转发信息的层数是所评论或转发的信息的层数加1，所述投票的层数是所针对的信息的层数；所述指定信息的层数为0；

所述方法还包括：

8.如权利要求7所述的方法，其特征在于，还包括：

9.一种计算影响力数据的装置，适用于社交网络，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于：

所述装置还包括：

11.如权利要求9所述的装置，其特征在于：

所述装置还包括：

12.如权利要求11所述的装置，其特征在于：

所述装置还包括：

13.如权利要求12所述的装置，其特征在于：

所述装置还包括：

传播量：

参与量：

14.如权利要求13所述的装置，其特征在于，还包括：

15.如权利要求12所述的装置，其特征在于：

所述装置还包括：

16.如权利要求15所述的装置，其特征在于：

所述情感类型判断模块还用于根据所爬取的各衍生信息的用户操作数据，获取所述过滤后的0层信息的内容，并根据所获取的内容判断各所述过滤后的0层信息的情感类型；

所述装置还包括：