CN103678613A - 一种计算影响力数据的方法与装置 - Google Patents
一种计算影响力数据的方法与装置 Download PDFInfo
- Publication number
- CN103678613A CN103678613A CN201310693308.4A CN201310693308A CN103678613A CN 103678613 A CN103678613 A CN 103678613A CN 201310693308 A CN201310693308 A CN 201310693308A CN 103678613 A CN103678613 A CN 103678613A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- data
- comment
- appointed information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012552 review Methods 0.000 claims description 82
- 238000009795 derivation Methods 0.000 claims description 55
- 230000003203 everyday effect Effects 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 26
- 230000003993 interaction Effects 0.000 claims description 20
- 230000008451 emotion Effects 0.000 claims description 18
- 230000009193 crawling Effects 0.000 claims description 15
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 13
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 7
- 241000700605 Viruses Species 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种计算影响力数据的方法与装置;所述方法适用于社交网络,包括:以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;根据所爬取的所述用户操作数据计算每天的用户参与次数;分别计算每天的参与次数增长率;比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期。本发明能够提高社交网络的影响力数据的正确性和可靠性,更加符合实际情况。
Description
技术领域
本发明涉及互联网领域,特别涉及一种计算影响力数据的方法与装置。
背景技术
截至2012年12月底,新浪微博注册用户数已超过5亿。2012年12月,日活跃用户数达到4620万。微博用户数与活跃用户数保持稳定增长。腾讯微博的注册账户数更高达5.4亿,日均活跃用户数超过8700万。微博应用的风靡,尤其是门户微博时代的到来,可以说是盖过了各种模式的互联网平台的风头。在社交网络上进行企业信息发布不仅拥有互联网传播快捷、廉价的优势,其特有的用户互动效果是其它媒体方式所无法比拟的。此外在社交媒体上做宣传不同于直接的广告投放,以微博形式发布的信息不需要额外的资金投入;同时,信息的传播不再只局限于企业自身的被关注度,有较强影响力用户的转发为信息的传播贡献了非常重要的力量。
传统的影响力数据获取方案中不会考虑用户本身对信息的传播贡献,用户也无法将自身的观点和情感倾向融入信息中加以散播,而在社交网络中用户可以使用多种方式表达自身的观点:发表评论点击“赞”、“踩”,甚至可以直接发帖表明观点;社交网络的新颖性在成为信息传播新模式的同时,导致信息的传播手段、用户参与方式、用户关注渠道等都和传统网络非常不同,这意味着如果直接将传统的影响力数据计算方案应用在新型社交网络中,将有可能忽略用户在信息传播中的行为,最终导致所得到的影响力数据片面且失真。比如由于社交网络发文的免费性,企业的发文和用户的发文处在一个平等的平台中,导致两者的影响力也相对接近。企业在传统网络中发布的信息影响力随时间推进衰减的较少,而社交网络中由于不断有用户发布新的信息,一条信息的影响力会在相对较短的时间内迅速减弱,因此如果采用和传统网络相同的方式计算信息的活跃时间,很有可能会得到一个超出实际情况的活跃时间,无法得到准确的信息更新周期。
发明内容
本发明所要解决的技术问题是如何提高社交网络的影响力数据的正确性和可靠性,更加符合实际情况。
为了解决上述技术问题,本发明公开了一种计算影响力数据的方法,适用于社交网络,包括:
以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
可选地,所述的方法还包括:
所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
可选地,所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;
所述方法还包括:
对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;
所述情感类型包括:正面、负面和中性。
可选地,所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;
所述方法还包括:
根据所述用户互动信息提取互动所针对的用户标识;
将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
可选地,所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;
所述方法还包括:
根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识对应的粉丝数。
可选地,所述的方法还包括:
利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;
查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
可选地,所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
所述方法还包括:
从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;
分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;
如果爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据,则保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
可选地,所述的方法还包括:
根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
本发明还提供了一种计算影响力数据的装置,适用于社交网络,包括:
爬取模块,用于以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
用户参与次数计算模块,用于根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
参与次数增长率计算模块,用于分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较模块,用于比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
可选地,所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
所述装置还包括:
生存时间长度计算模块,用于从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
可选地,所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;
所述装置还包括:
情感类型判断模块,用于对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;所述情感类型包括:正面、负面和中性。
可选地,所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;
所述装置还包括:
用户标识提取模块,用于根据所述用户互动信息提取互动所针对的用户标识;
成功率计算模块,用于将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
可选地,所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;
所述爬取模块还用于根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
所述装置还包括:
情感影响力计算模块,用于计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识所对应的粉丝数。
可选地,所述的装置还包括:
转发评论统计模块,用于利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;
强影响力用户查询模块,用于查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
可选地,所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
所述装置还包括:
衍生模块,用于从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;
所述爬取模块还用于分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;
筛选模块,用于当爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据时,保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
衍生信息个数计算模块,用于统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
可选地,所述情感类型判断模块还用于根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
所述装置还包括:
告警模块,用于将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
本申请的技术方案针对社交网络不同于传统网络的特点,设计了全新的计算方案,量化了社交网络中用户参与所带来的信息传播幅度,并纳入到影响力数据的计算中,使计算结果更加吻合社交网络这一新型网络传播媒介的真实情况,提高了影响力数据的正确性和可靠性。本申请及其各实施方式分别限定了各种影响力数据的计算细节,包括:信息影响力发生突变的时间点、信息的生存周期、情感类型的确定及其传播量/参与量、主动传播成功率、强影响力用户、衍生信息及其情感类型等。
附图说明
图1为实施例一中信息的用户操作数据的爬取流程图;
图2为实施例一中衍生信息的用户操作数据的获取流程图;
图3为实施例一中的影响力数据计算的流程图;
图4为实施例二的计算影响力数据的装置的示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例一、一种计算影响力数据的方法,适用于社交网络,包括:
以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
根据所爬取的所述转发数据和评论数据,计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
本实施例中,所述指定信息可以是指定的话题、微博、帖子等信息,也就是作为计算影响力数据的对象的信息。
本实施例以天为单位统计所述指定信息的活动次数,即每天用户新发布的针对该指定信息及其各层子信息的评论和转发次数,由于包括点击“赞”、点击“顶/踩”、点击表达相应情绪(如愤怒、高兴等)的图标等在内的投票操作不具备传播性,在此不计算对所述指定信息及其各层子信息投票的次数,如果需要计算信息的阅读周期,则可以加上所述投票的次数。
本实施例针对社交网络中用户参与多的特色,在计算影响力数据时将信息的转发/评论、及转发/评论所形成的各层子信息都考虑在内,因此得到的结果能够更加匹配真实情况。
本实施例中,还可以生成所述指定信息的生存周期表,以每天的用户参与次数为纵坐标,以时间为横坐标,生成所述指定信息的活跃度折线;一般情况下,信息的生存周期是一个关注度(可用一天内的所述用户参与次数表示)先升高再降低的过程,但是当有特殊的事件发生时,关注度会出现多次起伏,这些特殊事件往往对信息的传播有很大影响,在所述活跃度折线上会形成下述重要拐点:
一种是起始点后再次出现的上升拐点(由降转升),此处表明该信息被再度关注,称其为转升拐点;该拐点即:前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;M可以根据经验值设置,前M天的参与增长率均为负值意味着该信息的关注度在持续下降,已形成下降趋势;当参与次数增长率转为正值且用户参与次数大于第二预定阈值,意味着该信息的关注度明显上升;所述第二预定阈值可以根据经验值设置,比如可以设置为该信息之前每天的用户参与次数的平均值。
另一种是关注度大幅度上升的拐点,称其为陡增拐点;若某一天的参与次数增长率明显大于之前N日的参与次数增长率,则认为这一天为微博发酵点,即关注度陡增。所述N和第一预定阈值可以根据经验值设置,比如但不限于N为2,第一预定阈值为所比较的那天的参与次数增长率的50%,即:某一天的参与次数增长率d为200,前一天的参与次数增长率d-1为120,则d和d-1之差为80,大于120的50%;而再前一天的参与次数增长率d-2为100,d与d-2之差为100,也大于100的50%,则参与次数增长率d的这天为陡增拐点。
另外,还可以找出所述指定信息的关注度最高的一天。
在找出全部的重要拐点后,可以从所爬取的用户操作数据中获取每一拐点当日的全部传播行为(包括评论、转发)和行为实施用户,统计这些传播行为的被关注情况(评论/转发信息被评论、被转发、被投票——包括点“赞”等类似行为——的情况)。当陡增的部分集中在当日较早的时间内,还可以统计当日和前日两天的数据。找出被关注次数最多的行为,称此行为强影响力行为,称此行为实施者为强影响力用户。还可以进一步将强影响力行为和强影响力用户推送给分析者进行人工判断:造成此次拐点出现的原因是用户有较强的影响力还是事件本身引起了高度关注。
本实施例的一种实施方式中,所述用户操作数据还可以包括对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
所述方法还可以包括:从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
下面以微博作为所述社交网络为例说明爬取的具体实施步骤。
将需要爬取的指定信息(本例子中为原始微博)定义为0层信息,对该信息的转发信息和评论信息称为1层子信息,包括1层转发信息和1层评论信息,将对1层转发信息或1层评论信息进行转发和评论得到的信息称为2层子信息,包括2层转发信息和2层评论信息,以此类推。
对指定信息及每一层子信息需要获取以下数据:操作用户id(即发布该信息、进行此次转发、评论操作的用户id)、针对此信息的投票次数(比如微博中被“赞”的次数)和进行该投票的用户id、被转发和评论的信息、及用户互动信息(比如其它用户id、推送、私信给其它用户id等)等。
首先进行用户操作数据的爬取,以微博作为所述指定信息;根据该条微博的id(标识)从微博爬取该条微博的内容、发布时间、所的用户id、被“赞”次数、对其发表赞的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。
爬取所述用户操作数据的过程如图1所示,包括:
101、爬取原始微博的转发信息和评论信息,生成转发列表和评论列表,将获得的转发信息的id和评论信息的id加入列表,记录信息层数;进行步骤102和105。其中,原始微博层数为0,每转发或评论一次,层数增1。
102、转发信息爬取:依次读取转发列表中各转发信息,如果不存在未爬取的转发信息则转发列表爬取结束;如果存在则进行步骤103。
103、根据转发信息的id爬取该转发信息的用户操作数据,包括:内容、所的用户id、被“赞”次数、对其点击“赞”的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。
104、将获得的转发信息的id和评论信息的id分别加入所述转发列表和所述评论列表的末尾,记录信息层数;返回步骤102和105。
105、评论信息爬取:依次读取评论列表中各评论信息,如果不存在未爬取的转发信息则转发列表爬取结束;如果存在则进行步骤106。
106、根据评论信息的id爬取该评论信息的用户操作数据,包括:内容、情感类型、所的用户id、被“赞”次数、对其点击“赞”的用户id、被转发的次数、对其进行转发的用户id及转发信息的id、被评论次数、对其发表评论的用户id及评论信息的id。
107、将获得的转发信息的id和评论信息的id分别加入所述转发列表和所述评论列表的末尾,记录信息层数;返回步骤102和105。
可以将所爬取的用户操作数据保存在表1中,存进数据库。
表1、用户操作数据表
接下来,从表1中获取此次爬取的用户操作数据中全部用户id生成原始用户集合UA,将这些用户id进行两次过滤:
第一次过滤:内部过滤,将UA中重复的用户id删除;
第二次过滤:从数据库中获取已爬取过用户数据的用户id集合UB,依次查找UA中的用户id是否存在于UB中,若存在则从UA中删除该用户id。根据经过两次过滤后的UA中的用户id,在所述社交网络的服务器中爬取各用户id对应的用户数据,包括用户名、用户标签、关注数及关注列表、粉丝数及粉丝列表等;将爬取到的用户数据存入用户数据集合中,其形式可以如表2所示。
将UA中的用户id也加入到所述UB中;也就是说,在下一次爬取时,本次UA中的用户id也将属于爬取过用户数据的用户id。
表2.用户数据表
本实施例的一种实施方式中,所爬取的用户操作数据还可以包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容(比如“赞”、“踩”等);
所述方法还可以包括:
对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致(即转发不改变情感类型);各投票的情感类型根据投票的内容确定(比如投票内容为“笑脸”等属于预定的正面情感集合的内容时,投票的情感类型为正面;投票内容为“哭脸”等属于预定的负面情感集合的内容时,投票的情感类型为负面;其余为中性)。
本文所述的转发是指直接的、单纯的转发,转发时加上评论的、评论的同时转发的都属于评论。
本实施方式中的情感类型包括:正面、负面和中性三种;内容只有表情时,可将表情所对应的词作为内容爬取(比如“大笑”、“汗”等);分词的方法及情感判断算法可采用现有技术实现。
本实施方式中,所述用户操作数据还可以包括对所述指定信息及其各层子信息进行评论或转发的用户标识(亦即:发布所述指定信息的各层评论信息或转发信息的用户标识);
所述投票数据还可以包括:对所述指定信息及其各层子信息投票的次数;
所述方法还可以包括:
根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数(各层评论次数之和)的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数(各层转发次数之和),praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识所对应的粉丝数。
情感类型的传播量体现了信息中带有该情感的传播所包含的信息量,其中字数较多的评论影响力相对较强,而单纯的转发则视为影响力与字数最少的评论相同。粉丝数越多该转发、或评论的影响力也越高。
情感类型的参与量是指阅读了这条信息并进行响应的情况,因此加入了投票的用户,单纯点击“赞”或其它投票内容时,只能提升微博的受关注度,信息不会进行扩散,因此视为只影响了单个用户。
与传统网络不同,社交网络中用户的操作有可能影响甚至改变原始信息的情感类型;本实施方式针对这一特点,根据用户操作数据进行了科学的计算,从而可以获得原始信息由于用户操作所产生的各种情感类型的影响情况。
本实施方式中,所述方法还可以包括:
将三种情感类型的传播量和参与量分别进行排序;
如果参与量和传播量最高的情感类型均与所述指定信息的情况类型相同,则认为该指定信息获得了正面响应,如果参与量和传播量最高的情感类型中有一个与所述指定信息的情况类型不同,则认为该指定信息未能达到正向引导的目标,可以将此情况推送给分析人员,进行提醒。
本实施例的一种实施方式中,所述用户操作数据还可以包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识;
所述方法还可以包括:
根据所述用户操作数据统计每个用户标识的出现次数,选出所述出现次数最高的前S个用户标识,S为正整数,可根据需要自行设定。
所选出的用户标识表示关于此指定信息的活跃用户。这些活跃用户对该指定信息的内容兴趣较高,为该指定信息的积极参与者。
本实施例的一种实施方式中,所述用户操作数据还可以包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识(比如的用户标识,推广、私信的收件人的用户标识等)。
所述方法还可以包括:
根据所述用户互动信息提取互动所针对的用户标识;
将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
比如对于一条微博,可以从所述用户操作数据中读取该微博中全部参与行为,包括评论、转发和点击“赞”的用户标识(包括用户名和/或用户id等),统计每一用户标识的出现次数,生成用户参与情况表。
表3、用户参与情况表
用户名 | 用户1 | 用户2 |
用户id | 用户1的id | 用户2的id |
点击“赞”的次数 | np1 | np2 |
发表评论的次数 | nc1 | nc2 |
进行转发的次数 | nt1 | nt2 |
遍历该微博下的所有信息获取(提到)数据,生成被用户列表,将该用户列表中的用户标识在用户参与情况表中查找,若该用户标识存在于参与用户中,则此次成功,计算成功与失败的比例,作为该微博的主动传播成功率。此比例显示出分析对象是否适合于利用方式进行传播引发微博用户响应。
本实施例的一种实施方式中,所述方法还可以包括:
利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点(可称为强力传播点);
k=min{(user ×α),10},其中0<α<1,user为参与所述指定信息传播的用户总数,即对所述指定信息及其各层子信息进行转发或评论的用户id的个数,不包含只被和发表“赞”的用户id;min{}是指取{}中的最小值;
查询这k个节点所对应的转发信息或评论信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
本实施方式的一种备选方案中,α可以但不限于为1%。
另外,还可以在所述转发评论树中标记情感转折点,情感转折点是指情感类型由正面转为负面、或由负面转为正面、或由中性转为其它情感类型的节点。可以将所述强影响力用户和情感转折点在所述转发评论树标记出之后推送给分析人员。
本实施例的一种实施方式中,所述用户操作数据还可以包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
如图2所示,所述方法在201、爬取指定信息的用户操作数据的步骤后还可以包括:
202、从所述指定信息中提取一个或多个关键词(可以根据需要设置或修改关键词集合);以选出的关键词为检索词在所述社交网络的服务器中进行搜索(比如但不限于利用微博搜索的话题检索功能)。
203、从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;可以将删除指定信息标识后的信息标识放入衍生信息列表。
接下来分别以各衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据,具体包括:
204、依次读取衍生信息列表中的衍生信息标识;判断是否存在未爬取的衍生信息,如果存在则进行步骤205;如果不存在则进行步骤206。
205、以所读取的衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据。
206、如果爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据,则保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
过滤可选择在两个阶段实现:爬取过程中和爬取完毕后。比如以微博作为所述社交网络为例:
爬取过程中的重复过滤:每爬取一条微博就先在已获取的数据中进行查找,若存在则比较两者的层数,待爬取微博的层数较少时,跳过该条微博;已爬取微博层数较少时,删除该微博及后续信息,重新爬取待爬取微博及其后续微博。此方式适合于网络流量受限的系统环境。
爬取完毕后的重复过滤:在爬取完成后将爬取的全部id汇集在一个集合中,使用散列方式查找碰撞,发现碰撞后,按过滤规则删除重复数据。此种方法适合于数据量较大的分布式系统。
本实施方式中,所述方法还可以包括:
根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
所述第四预定阈值可以根据实际情况设置。
本实施方式中,所述方法还可以包括:
根据所爬取的各衍生信息的用户操作数据,分别计算各情感类型的传播量;使用传播量最高的情感类型与所述指定信息的情感类型进行比较;
对每一情感类型的信息(包括衍生信息及其各层子信息)的内容进行关键词提取。
进一步还可以将关键词分类推送给分析人员,用以判断衍生话题下不同情感倾向的用户的关注重心。
本实施方式中,所述方法还可以包括:
根据所爬取的各衍生信息的用户操作数据,统计每个用户标识的出现次数,即为该用户标识的衍生信息参与度;找出前2×S个衍生信息参与度最高的用户标识。
对比所述出现次数最高的前S个用户标识,找出衍生信息参与度高但不属于这S个的用户标识,作为潜在重要用户。潜在重要用户是对目标内容兴趣度高但在指定信息的传播中未传播到的用户。
本实施例中,可以根据爬取的所述指定信息的用户操作数据,进行多种影响力数据的计算,如图3所示,可以包括:
确定情感类型,计算各情感类型的传播量和参与量、计算生存时间长度和关注度的拐点、计算主动传播成功率、生成转发评论树,计算强力传播点、衍生信息的情感类型确定、衍生信息参与度计算。
当然,图3中的各步骤顺序可以调整,也可以并行;在一个实施方式中不必包含图3中的所有步骤,而且可以包含图3中未示出的步骤。
实施例二、一种计算影响力数据的装置,适用于社交网络,如图4所示,包括:
爬取模块,用于以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
用户参与次数计算模块,用于根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
参与次数增长率计算模块,用于分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较模块,用于比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
本实施例的一种实施方式中,所述用户操作数据还可以包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
所述装置还可以包括:
生存时间长度计算模块,用于从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
本实施例的一种实施方式中,所述用户操作数据还可以包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;
所述装置还可以包括:
情感类型判断模块,用于对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;所述情感类型包括:正面、负面和中性。
本实施方式的一种备选方案中,所述用户操作数据还可以包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;
所述装置还可以包括:
用户标识提取模块,用于根据所述用户互动信息提取互动所针对的用户标识;
成功率计算模块,用于将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
本备选方案中,所述投票数据还可以包括:对所述指定信息及其各层子信息投票的次数;
所述爬取模块还可以用于根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
所述装置还可以包括:
情感影响力计算模块,用于计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识所对应的粉丝数。
本备选方案中,所述的装置还可以包括:
转发评论统计模块,用于利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;
强影响力用户查询模块,用于查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
本实施方式的一种备选方案中,所述用户操作数据还可以包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
所述装置还可以包括:
衍生模块,用于从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;
所述爬取模块还用于分别以各衍生信息的标识作为输入从所述社交网络的服务器中分别爬取各衍生信息的用户操作数据;
筛选模块,用于当爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据时,保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
衍生信息个数计算模块,用于统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
本备选方案中,所述情感类型判断模块还可以用于根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
所述装置还可以包括:
告警模块,用于将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种计算影响力数据的方法,适用于社交网络,其特征在于,包括:
以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
2.如权利要求1所述的方法,其特征在于,还包括:
所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
3.如权利要求1所述的方法,其特征在于:
所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;
所述方法还包括:
对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;
所述情感类型包括:正面、负面和中性。
4.如权利要求3所述的方法,其特征在于:
所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;
所述方法还包括:
根据所述用户互动信息提取互动所针对的用户标识;
将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
5.如权利要求4所述的方法,其特征在于:
所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;
所述方法还包括:
根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识对应的粉丝数。
6.如权利要求5所述的方法,其特征在于,还包括:
利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;
查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
7.如权利要求4所述的方法,其特征在于:
所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
所述方法还包括:
从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;
分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;
如果爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据,则保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
8.如权利要求7所述的方法,其特征在于,还包括:
根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
9.一种计算影响力数据的装置,适用于社交网络,其特征在于,包括:
爬取模块,用于以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;
用户参与次数计算模块,用于根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;
参与次数增长率计算模块,用于分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;
比较模块,用于比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。
10.如权利要求9所述的装置,其特征在于:
所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;
所述装置还包括:
生存时间长度计算模块,用于从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。
11.如权利要求9所述的装置,其特征在于:
所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;
所述装置还包括:
情感类型判断模块,用于对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;所述情感类型包括:正面、负面和中性。
12.如权利要求11所述的装置,其特征在于:
所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;
所述装置还包括:
用户标识提取模块,用于根据所述用户互动信息提取互动所针对的用户标识;
成功率计算模块,用于将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。
13.如权利要求12所述的装置,其特征在于:
所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;
所述爬取模块还用于根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;
所述装置还包括:
情感影响力计算模块,用于计算每种情感类型下的传播量和参与量:
传播量:
PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;
参与量:
PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;
其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识所对应的粉丝数。
14.如权利要求13所述的装置,其特征在于,还包括:
转发评论统计模块,用于利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;
强影响力用户查询模块,用于查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。
15.如权利要求12所述的装置,其特征在于:
所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;
所述装置还包括:
衍生模块,用于从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;
所述爬取模块还用于分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;
筛选模块,用于当爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据时,保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;
衍生信息个数计算模块,用于统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。
16.如权利要求15所述的装置,其特征在于:
所述情感类型判断模块还用于根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;
所述装置还包括:
告警模块,用于将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693308.4A CN103678613B (zh) | 2013-12-17 | 2013-12-17 | 一种计算影响力数据的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693308.4A CN103678613B (zh) | 2013-12-17 | 2013-12-17 | 一种计算影响力数据的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678613A true CN103678613A (zh) | 2014-03-26 |
CN103678613B CN103678613B (zh) | 2017-01-25 |
Family
ID=50316158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310693308.4A Expired - Fee Related CN103678613B (zh) | 2013-12-17 | 2013-12-17 | 一种计算影响力数据的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678613B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361231A (zh) * | 2014-11-11 | 2015-02-18 | 电子科技大学 | 一种复杂网络中的谣言传播控制方法 |
CN104834737A (zh) * | 2015-05-19 | 2015-08-12 | 无锡天脉聚源传媒科技有限公司 | 一种基于电视报道的舆情处理方法和装置 |
CN105653689A (zh) * | 2015-12-30 | 2016-06-08 | 杭州师范大学 | 一种用户传播影响力的确定方法和装置 |
CN105701100A (zh) * | 2014-11-26 | 2016-06-22 | 上海高研明鉴信息技术有限公司 | 互联网信息转发过程自动记录方法、装置及系统 |
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN106408424A (zh) * | 2016-08-31 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种生成用户组合的方法和装置 |
CN106445773A (zh) * | 2015-08-13 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种网络信息反馈的监控方法和装置 |
CN106713120A (zh) * | 2016-12-23 | 2017-05-24 | 广州帷策智能科技有限公司 | 微信公众号图文消息增粉效应监测方法及装置 |
CN106844697A (zh) * | 2017-01-25 | 2017-06-13 | 中国矿业大学 | 一种基于潜在传播集的社交网络信息传播跟踪方法 |
CN107346593A (zh) * | 2014-04-14 | 2017-11-14 | 林云帆 | 一种设备启动控制方法 |
CN107886441A (zh) * | 2017-10-18 | 2018-04-06 | 中国科学院计算技术研究所 | 一种社交网络脆弱性评估方法和系统 |
CN108038727A (zh) * | 2017-12-11 | 2018-05-15 | 囯网河北省电力有限公司电力科学研究院 | 一种提供差异化服务的方法、系统及终端设备 |
CN108230169A (zh) * | 2017-12-20 | 2018-06-29 | 重庆邮电大学 | 基于社交影响力的信息传播模型及态势感知系统及方法 |
CN108322316A (zh) * | 2017-01-17 | 2018-07-24 | 广州市动景计算机科技有限公司 | 确定信息传播热度的方法、装置及计算设备 |
CN108363788A (zh) * | 2018-02-12 | 2018-08-03 | 广州市贝聊信息科技有限公司 | 帖子智能排位方法、装置以及计算机可读存储介质 |
CN108733706A (zh) * | 2017-04-20 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 热度信息的生成方法和装置 |
CN109993586A (zh) * | 2019-04-10 | 2019-07-09 | 秒针信息技术有限公司 | 一种营销产品的方法和装置 |
CN110196950A (zh) * | 2019-02-28 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 传播帐号的处理方法和装置 |
CN110866192A (zh) * | 2019-11-13 | 2020-03-06 | 精硕科技(北京)股份有限公司 | 推广效率评价方法、推广方式确定方法及装置 |
CN112000709A (zh) * | 2020-07-17 | 2020-11-27 | 微梦创科网络科技(中国)有限公司 | 一种社交媒体信息的总曝光量批量挖掘方法及装置 |
CN112633977A (zh) * | 2020-12-22 | 2021-04-09 | 苏州斐波那契信息技术有限公司 | 一种基于用户行为的评分方法、装置计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120030282A1 (en) * | 2009-10-29 | 2012-02-02 | Bbe Partners, Llc D/B/A "Fampus" | System, method, and apparatus for providing third party events in a social network |
CN102385576A (zh) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 博主影响力计算方法及系统 |
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN103258248A (zh) * | 2013-05-21 | 2013-08-21 | 中国科学院计算技术研究所 | 一种微博流行趋势预测方法、装置及系统 |
-
2013
- 2013-12-17 CN CN201310693308.4A patent/CN103678613B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120030282A1 (en) * | 2009-10-29 | 2012-02-02 | Bbe Partners, Llc D/B/A "Fampus" | System, method, and apparatus for providing third party events in a social network |
CN102385576A (zh) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 博主影响力计算方法及系统 |
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN103258248A (zh) * | 2013-05-21 | 2013-08-21 | 中国科学院计算技术研究所 | 一种微博流行趋势预测方法、装置及系统 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346593B (zh) * | 2014-04-14 | 2021-06-08 | 广州数娱信息科技有限公司 | 一种设备启动控制方法 |
CN107346593A (zh) * | 2014-04-14 | 2017-11-14 | 林云帆 | 一种设备启动控制方法 |
CN104361231A (zh) * | 2014-11-11 | 2015-02-18 | 电子科技大学 | 一种复杂网络中的谣言传播控制方法 |
CN105701100A (zh) * | 2014-11-26 | 2016-06-22 | 上海高研明鉴信息技术有限公司 | 互联网信息转发过程自动记录方法、装置及系统 |
CN105701100B (zh) * | 2014-11-26 | 2019-07-12 | 上海高研明鉴信息技术有限公司 | 互联网信息转发过程自动记录方法、装置及系统 |
CN104834737A (zh) * | 2015-05-19 | 2015-08-12 | 无锡天脉聚源传媒科技有限公司 | 一种基于电视报道的舆情处理方法和装置 |
CN106445773A (zh) * | 2015-08-13 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种网络信息反馈的监控方法和装置 |
CN105653689B (zh) * | 2015-12-30 | 2019-03-26 | 杭州师范大学 | 一种用户传播影响力的确定方法和装置 |
CN105653689A (zh) * | 2015-12-30 | 2016-06-08 | 杭州师范大学 | 一种用户传播影响力的确定方法和装置 |
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN106295702B (zh) * | 2016-08-15 | 2019-10-25 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN106408424A (zh) * | 2016-08-31 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种生成用户组合的方法和装置 |
CN106713120A (zh) * | 2016-12-23 | 2017-05-24 | 广州帷策智能科技有限公司 | 微信公众号图文消息增粉效应监测方法及装置 |
CN108322316A (zh) * | 2017-01-17 | 2018-07-24 | 广州市动景计算机科技有限公司 | 确定信息传播热度的方法、装置及计算设备 |
CN106844697A (zh) * | 2017-01-25 | 2017-06-13 | 中国矿业大学 | 一种基于潜在传播集的社交网络信息传播跟踪方法 |
CN106844697B (zh) * | 2017-01-25 | 2019-07-23 | 中国矿业大学 | 一种基于潜在传播集的社交网络信息传播跟踪方法 |
CN108733706B (zh) * | 2017-04-20 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 热度信息的生成方法和装置 |
CN108733706A (zh) * | 2017-04-20 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 热度信息的生成方法和装置 |
CN107886441A (zh) * | 2017-10-18 | 2018-04-06 | 中国科学院计算技术研究所 | 一种社交网络脆弱性评估方法和系统 |
CN107886441B (zh) * | 2017-10-18 | 2021-01-08 | 中国科学院计算技术研究所 | 一种社交网络脆弱性评估方法和系统 |
CN108038727A (zh) * | 2017-12-11 | 2018-05-15 | 囯网河北省电力有限公司电力科学研究院 | 一种提供差异化服务的方法、系统及终端设备 |
CN108230169A (zh) * | 2017-12-20 | 2018-06-29 | 重庆邮电大学 | 基于社交影响力的信息传播模型及态势感知系统及方法 |
CN108363788A (zh) * | 2018-02-12 | 2018-08-03 | 广州市贝聊信息科技有限公司 | 帖子智能排位方法、装置以及计算机可读存储介质 |
CN108363788B (zh) * | 2018-02-12 | 2021-05-14 | 广州市贝聊信息科技有限公司 | 帖子智能排位方法、装置以及计算机可读存储介质 |
CN110196950A (zh) * | 2019-02-28 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 传播帐号的处理方法和装置 |
CN110196950B (zh) * | 2019-02-28 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 传播帐号的处理方法和装置 |
CN109993586B (zh) * | 2019-04-10 | 2021-12-07 | 秒针信息技术有限公司 | 一种营销产品的方法和装置 |
CN109993586A (zh) * | 2019-04-10 | 2019-07-09 | 秒针信息技术有限公司 | 一种营销产品的方法和装置 |
CN110866192A (zh) * | 2019-11-13 | 2020-03-06 | 精硕科技(北京)股份有限公司 | 推广效率评价方法、推广方式确定方法及装置 |
CN112000709B (zh) * | 2020-07-17 | 2023-10-24 | 微梦创科网络科技(中国)有限公司 | 一种社交媒体信息的总曝光量批量挖掘方法及装置 |
CN112000709A (zh) * | 2020-07-17 | 2020-11-27 | 微梦创科网络科技(中国)有限公司 | 一种社交媒体信息的总曝光量批量挖掘方法及装置 |
CN112633977A (zh) * | 2020-12-22 | 2021-04-09 | 苏州斐波那契信息技术有限公司 | 一种基于用户行为的评分方法、装置计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103678613B (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678613A (zh) | 一种计算影响力数据的方法与装置 | |
Guo et al. | Robust spammer detection using collaborative neural network in Internet-of-Things applications | |
Banerjee et al. | Detection of cyberbullying using deep neural network | |
Kumar et al. | False information on web and social media: A survey | |
CN107515873B (zh) | 一种垃圾信息识别方法及设备 | |
Pacheco et al. | Uncovering coordinated networks on social media | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN106886518B (zh) | 一种微博账号分类的方法 | |
Hu et al. | Social spammer detection with sentiment information | |
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
Abulaish et al. | Self-deprecating sarcasm detection: an amalgamation of rule-based and machine learning approach | |
US20160117696A1 (en) | Method and system for determining on-line influence in social media | |
CN105794154A (zh) | 用于分析传输社交通信数据的系统和方法 | |
US9967321B2 (en) | Meme discovery system | |
CN106557513A (zh) | 事件信息推送方法及事件信息推送装置 | |
CN103064917A (zh) | 一种面向微博的特定倾向的高影响力用户群发现方法 | |
CN103324665A (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN110362818A (zh) | 基于用户关系结构特征的微博谣言检测方法和系统 | |
CN105512326A (zh) | 一种图片推荐的方法及系统 | |
CN103812872A (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
CN103744858A (zh) | 一种信息推送方法及系统 | |
CN103793489A (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN103500175A (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN102419777A (zh) | 一种互联网图片广告过滤系统及其过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170125 |