CN102982381B - 一种微博传播影响面的管理系统及方法 - Google Patents

一种微博传播影响面的管理系统及方法 Download PDF

Info

Publication number
CN102982381B
CN102982381B CN201210516553.3A CN201210516553A CN102982381B CN 102982381 B CN102982381 B CN 102982381B CN 201210516553 A CN201210516553 A CN 201210516553A CN 102982381 B CN102982381 B CN 102982381B
Authority
CN
China
Prior art keywords
data
originator
fin
microblogging
propagation effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210516553.3A
Other languages
English (en)
Other versions
CN102982381A (zh
Inventor
黄三伟
陈海文
彭坤
曾锐
阙学文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan ant software Limited by Share Ltd
Original Assignee
Hunan Yi Fang Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yi Fang Softcom Ltd filed Critical Hunan Yi Fang Softcom Ltd
Priority to CN201210516553.3A priority Critical patent/CN102982381B/zh
Publication of CN102982381A publication Critical patent/CN102982381A/zh
Application granted granted Critical
Publication of CN102982381B publication Critical patent/CN102982381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种微博传播影响面的管理系统及方法,其管理系统包括分析模块、监控模块及中央处理模块。分析模块包括数据采集单元及数据处理单元,数据采集单元将目标数据采集汇总后输送给数据处理单元,数据处理单元对单个转发者i的粉丝数求和后对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上结合抽样方式,计算出目标微博传播影响面数据,再将此数据输送给中央处理模块;中央处理模块接收到数据后将其与预设的阈值比较,并将比较结果输送给监控模块;若小于阈值,则监控模块无动作;若大于等于阈值,则监控模块在后台管理桌面告警,并将其设为热点博文。本发明统计结果精确率高,且无须去重。

Description

一种微博传播影响面的管理系统及方法
技术领域
本发明涉及一种舆情监控数据系统,特别涉及一种微博传播影响面的管理系统及方法。
背景技术
随着Web2.0技术及相关互联网应用的不断普及,微博等新媒体已经成为网络舆情的重要舆论场。微博具有用户基数大、传播速度快、信息上载方便等特点,已经成为我国舆情爆发的主要策源地和传播媒介,如病毒般蔓延至互联网、企业、个人生活的每个角落。如何针对微博所具有的海量非结构化文本数据、大用户数和实时性强的特点,研究有效的微博舆情监管软件平台,成了当务之急。
在微博社区内,如果博主B关注A,称B是A的粉丝,A所发每一篇微博都会出现B的主页,即能影响到B。如果C是B的粉丝,而B又转发了A的微博,则A的这篇微博也能影响到C。每篇微博能影响到的总人数我们称之为“微博传播影响面”。
普通的微博传播影响面计算公式为:
X=fin1+fin2+...+finn
其中X为目标微博传播影响面,fini(1≤i≤n)为第i个转发者的粉丝数,目标微博博主也计为转发者之一。
上述算法存在两个问题:
1.同一博主多次转发导致转发者重复计算
2.不同博主拥有相同粉丝导致粉丝数重复计算
第一个问题较易解决,只需对转发者进行去重即可。
但第二个问题基本无解。首先因为很多微博达人的粉丝动辄上百万、千万,去重工作消耗极大;其次各微博平台只提供最多5000粉丝信息查询接口,从而使得去重工作无法彻底实施。
发明内容
针对现有技术存在的问题,本发明旨在基于概率和统计学原理,结合抽样方式,提供一种无须人工去重的用于舆情监控系统的微博传播影响面的统计方法。
本发明第一方面提供一种微博传播影响面的管理系统,包括分析模块、监控模块及中央处理模块。
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
进一步地,所述数据处理单元采用以下算法计算出目标微博的传播影响面:
X k = fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Fi由下述计算公式得出:
F i = | R ∩ [ ∪ j = 1 m ( fout ( i , j ) ) ] |
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
本发明第二方面提供一种微博传播影响面的管理方法,包括上述管理系统,所述管理方法具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fou(i,j)(1≤j≤m);
S4:对步骤S3的结果求并集,得到
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk
S6:根据步骤S2、S5的结果,求得目标微博传播影响面 X = K × fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k ;
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
本发明提供的所述用于舆情监控系统的微博传播影响面的统计方法通过分别对单个转发者i的粉丝数求和,及对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上,结合抽样方式,使得统计结果精确率高,且无须去重。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明提供一种微博传播影响面的管理系统及方法,所述管理系统包括分析模块、监控模块及中央处理模块。
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
进一步地,所述数据处理单元采用以下算法计算出目标微博的传播影响面:
X k = fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Fi由下述计算公式得出:
F i = | R ∩ [ ∪ j = 1 m ( fout ( i , j ) ) ] |
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
所述微博传播影响面的管理方法具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fou(i,j)(1≤j≤m);
S4:对步骤S3的结果求并集,得到
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk
S6:根据步骤S2、S5的结果,求得目标微博传播影响面 X = K × fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k ;
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
所述用于舆情监控系统的微博传播影响面的统计方法通过分别对单个转发者i的粉丝数求和,及对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上,结合抽样方式,使得统计结果精确率高,且无须去重。
上面对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (2)

1.一种微博传播影响面的管理系统,其特征在于,包括分析模块、监控模块及中央处理模块,其中,
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文;
所述数据处理单元采用以下算法计算出目标微博的传播影响面:
X k = fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Fi由下述计算公式得出:
F i = | R ∩ [ ∪ j = 1 m ( fout ( i , j ) ) ] |
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
2.一种微博传播影响面的管理方法,包括如权利要求1所述的管理系统,其特征在于,具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fout(i,j)(1≤j≤m);
S4:对步骤S3的结果求并集,得到
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk
S6:根据步骤S2、S5的结果,求得目标微博传播影响面 X = k × fin 1 + fin 2 + . . . + fin k F 1 + F 2 + . . . + F k ;
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
CN201210516553.3A 2012-12-06 2012-12-06 一种微博传播影响面的管理系统及方法 Active CN102982381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210516553.3A CN102982381B (zh) 2012-12-06 2012-12-06 一种微博传播影响面的管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210516553.3A CN102982381B (zh) 2012-12-06 2012-12-06 一种微博传播影响面的管理系统及方法

Publications (2)

Publication Number Publication Date
CN102982381A CN102982381A (zh) 2013-03-20
CN102982381B true CN102982381B (zh) 2015-09-09

Family

ID=47856355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210516553.3A Active CN102982381B (zh) 2012-12-06 2012-12-06 一种微博传播影响面的管理系统及方法

Country Status (1)

Country Link
CN (1) CN102982381B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345524B (zh) * 2013-07-19 2017-03-22 中国地质大学(武汉) 微博热点话题检测方法及系统
CN103631901B (zh) * 2013-11-20 2017-01-18 清华大学 一种基于用户信任网络最大生成树的谣言控制方法
CN103761292B (zh) * 2014-01-16 2017-01-18 北京理工大学 基于用户转发行为的微博阅读概率计算方法
CN104268187B (zh) * 2014-09-17 2016-09-28 合一网络技术(北京)有限公司 基于用户反馈的支持多场景的在线内容优选系统
CN105468768A (zh) * 2015-12-07 2016-04-06 临沂大学 一种微信舆情的系统监测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120047632A (ko) * 2010-11-04 2012-05-14 한국전자통신연구원 상황 인지 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
微博的转发哲学;李伟钢;《科学网》;20120822;1-5 *

Also Published As

Publication number Publication date
CN102982381A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102982381B (zh) 一种微博传播影响面的管理系统及方法
Lemaitre et al. Assessing the impact of non-pharmaceutical interventions on SARS-CoV-2 transmission in Switzerland
Lee et al. Measurements, analyses, and insights on the entire ethereum blockchain network
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
Cortés et al. Stream processing of healthcare sensor data: studying user traces to identify challenges from a big data perspective
CN103345524B (zh) 微博热点话题检测方法及系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
Akoglu et al. Anomaly, event, and fraud detection in large network datasets
CN105205146B (zh) 一种计算微博用户影响力的方法
CN103744877A (zh) 部署于互联网的舆情监测应用系统及运用方法
CN103458042A (zh) 一种微博广告用户检测方法
CN104408083A (zh) 一种社会化媒体分析系统
CN104572757A (zh) 微博群体处理方法及装置
Wang et al. How far does scientific community look back?
CN104376405A (zh) 基于云计算和智能分析的餐饮管理系统及用于该系统的预警方法
KR101644036B1 (ko) 개인 관심 이슈 트래킹 장치 및 방법
CN110533488A (zh) 一种商业大数据分析系统
CN104063456B (zh) 基于向量查询的自媒体传播图谱分析方法和装置
CN102360394B (zh) 一种基于本体词法信息和语义信息的本体匹配方法
CN103793460A (zh) 社会网络在线特定团体感知方法及系统
CN106156364A (zh) 一种基于时间流的计算新闻事件动态影响力的方法与系统
CN106339389A (zh) 一种基于微博网站敏感信息的管控方法
CN102509230A (zh) 基于互联网的商铺业务信息发布方法
CN103761292B (zh) 基于用户转发行为的微博阅读概率计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 410013 Hunan high tech Zone Changsha Wenxuan Road No. 27 enterprises in the Park Plaza A4 building 603 room

Patentee after: Hunan ant software Limited by Share Ltd

Address before: 410000 Hunan city high tech Development Zone Changsha Lulong Road No. 199 sign Lugu No. A-1109 coordinates

Patentee before: Hunan Yi Fang softcom limited