CN106980692B - 一种基于微博特定事件的影响力计算方法 - Google Patents
一种基于微博特定事件的影响力计算方法 Download PDFInfo
- Publication number
- CN106980692B CN106980692B CN201710213302.0A CN201710213302A CN106980692B CN 106980692 B CN106980692 B CN 106980692B CN 201710213302 A CN201710213302 A CN 201710213302A CN 106980692 B CN106980692 B CN 106980692B
- Authority
- CN
- China
- Prior art keywords
- point
- microblog
- event
- user
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000011161 development Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 26
- 238000004026 adhesive bonding Methods 0.000 claims description 15
- 230000008033 biological extinction Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 230000004941 influx Effects 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000003012 network analysis Methods 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002354 daily effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。
Description
技术领域
本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。
背景技术
在计算机已基本普及、互联网迅猛发展的今天,社交网络媒体正日渐崛起,广大用户对其越发依赖,包括四大微博(新浪、腾讯、搜狐、网易)在内的众多社交网络媒体应用已成为其每日必看多次的主要信息来源。特别是新浪微博,已经成为国内最大的社交媒体平台,其中用户可以自主的发布自己的信息同时也可以看到他人的分享信息,构建了虚拟时代的社会网络。在微博平台中众多用户产生了大量的文本数据,对这些数据进行数据挖掘可以获得很高的信息价值。因此,需要使用高效的数据挖掘方法和机器学习算法来进行有用信息的挖掘,充分把社交网络文本信息中的有价值的信息提取出来。而以特定事件为单位来看待和处理微博上的信息是一种与常识更贴合的方式,将每条微博视为某特定热点事件的参与者,分析它和它的发布者在这个特定事件范围内的价值和影响力等具有更好的合理性与更大的应用价值。
在社交媒体用户影响力计算、热点话题影响力计算领域,已经有很多相关的研究,并且已经有已投入使用的较成熟的应用与服务。大量的研究是关于美国社交网络及微博客服务网站Twitter上的用户影响力与消息影响力的,关于新浪微博的研究相对少了很多。关于Twitter上用户影响力的研究有不少使用了PageRank等方法,通过“关注”关系构建拓扑图,据此计算用户在网上社区中的长期影响力;也有研究突发事件中特定群体的特定消息造成的后续传播风向等的改变;有通过建立转发模型来预测某消息的被转发次数,来判断即将产生的影响力的。对新浪微博的研究中,有通过抓取可信谣言集来训练检测模型以识别社交网络谣言的研究;有基于节点和信息特征的社会网络信息传播模型研究;有通过分析情感分布的微博热点事件发现;有使用MapReduce(映射归约)技术进行微博用户影响力评价的研究和实现;也有通过关注关系发现社交网络中的关键节点,即高影响力的重要用户的研究。但这些研究少有以特定事件为单位的,多研究某个用户、某条Twitter消息的广泛和常态的影响力;目前的研究大多使用关注关系构建社交网络关注关系拓扑图,使用全网的全量关注关系的数据对于特定事件的分析并无太大助益,而是徒增计算复杂度;且其中考虑网络关系、层次关系、统计数据为主要切入点,对微博文本的内容考量则较为少见。
目前网上投入实际使用的社交媒体的热度/影响力分析方法及系统主要有人民网的舆情监测室的政务微信排行榜、网络舆论共识度报告等,以及沈阳教授的新媒体指数。
人民网的相关系统主要对政府微信服务公众号进行影响力及服务评价的计算及排行,以及对某段较长时间内的网络热点事件的影响力、舆论态度等进行计算与排行。该系统主要基于一种网络舆情事件的热度分析方法及系统:CN 104598450 A。该发明公开了一种网络舆情事件的热度分析方法及系统,属于网络事件热度分析领域,首先对所要采集的网站进行数据的采集与保存,并对采集的数据进行聚类分析,将采集的数据分类成不同的话题事件,之后根据事件热点指数计算模型计算每个话题事件的热点指数。该方法及系统将网络舆情和民意数字化,通过建立多维度的模型及网站权重来计算一个话题的热点指数,可以更准确的衡量一个事件的热度情况,实现多维度的网络舆情事件的热度分析。
沈阳新媒体指数包括两项内容:面向微信平台的微指数WCI(WechatCommunication Index),面向微博平台的BCI(Micro-blog Communication Index)。微博传播指数BCI通过微博的活跃度和传播度来反映账号的传播能力和传播效果,重在评估账号的原发微博传播力,旨在鼓励高质量原创内容。其指标体系采用数据为:发博数X1、原创微博数X2、转发数X3、评论数X4、原创微博转发数X5、原创微博评论数X6、点赞数X7。其计算公式如下:
BCI=(20%xW1+80%xW2)x160
W1=30%xln(X1+1)+70%xln(X2+1)
W2=20%xln(X3+1)+20%xln(X4+1)+25%xln(X5+1)+25%xln(X6+1)+10%xln(X7+1)
由上可知,当前投入实际使用的对于特定事件影响力计算系统均较为简单直白,主要考虑的指标为各项可由统计得到的传播指标,如原创微博数、评论微博数、转发微博数、点击数量、跟帖数量、网友数量等。人民网的系统所用专利为面向全网平台统计,其实际操作中获取数据的难度较大。前面相关研究所涉及的需要大量甚至全网关注关系的方法实施难度更大。
总之,现有研究及实际使用系统较为依赖关注关系、不以特定事件为基本单位、多考虑传播统计指标而少分析微博文本内容、计算指标体系简单直白,只计算简单的转发关系。
在获取的数据只包含简单的转发关系的时候,我们需要更巧妙的计算模型来进行特定事件的影响力热度的计算。
发明内容
本发明的目的是为解决现有技术多考虑传播统计指标而少分析微博文本内容、计算指标体系简单直白、实施难度较高的问题,提出了一种基于微博特定事件的影响力计算方法。
本发明的思想是依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K-means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII(Event InfluenceIndex)、事件内的用户影响力排行榜、消息影响力排行榜,为微博上特定事件研究及舆情相关工作提供了解决方案。
本发明的目的是通过以下技术方案实现的:
一种基于微博特定事件的影响力计算方法,包括以下步骤:
步骤一、进行特定事件微博及用户信息采集;
基于爬虫技术或微博公开的一些数据资源,获取到需要分析的微博文本信息、微博被转发次数、微博被评论次数、用户基本信息,用户所做的评论的文本信息、用户在微博上所进行的互动信息、用户活动的时间;用户在微博上所进行的互动信息,包括评论操作、转发关系;用户基本信息,包括粉丝数、关注数,关注关系;
步骤二、使用情感值计算工具或方法对获取的特定事件数据逐个计算其情感正负值,并对全体微博文本做关键词及其信息熵与词频提取;
步骤三、对事件阶段进行分析:统计某个时间段内的发帖数和活跃用户,找出起始点、发展点、高潮点、胶着点、消亡点五个事件传播的关键点,以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述;
步骤四、针对每个参与用户进行影响力特征提取并计算其影响力:
从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5,并据粉丝数得到对应粉丝数权重X6;参与度X2为发布、评论、转发微博数之和;用户影响力计算方案为以下两种,具体描述如下:
1)使用所有六个特征指标,计算公式如下:
InfluenceUSER=X2*X6+XTime+log10(X1*0.001)+X3*X5
其中,XTime为根据用户发帖时间X4与事件起始点、发展点、高潮点、胶着点、消亡点的距离所得,若存在与X4距离小于n秒的时间节点,则XTime取值为X4与最近的重要节点的秒数差的倒数乘10000;若无符合条件的时间节点,则该微博的发帖时间X4处在发展点至高潮点之间时,XTime的权值为w1,处在高潮点至胶着点之间时,XTime的权值为w2,、处在胶着点至消亡点之间时,XTime的权值为w3;且应满足条件w1>w2;w1>w3。
2)使用X1、X2、X3、X6四个特征指标,根据各指标的数值大小,对X1、X2、X3进行0至3的评分EX1、EX2、EX3,对X6进行0至1.33的评分EX6,最终得出范围在0至9.99的用户影响力评分值,计算公式如下:
InfluenceUSER=EX1+EX3+(EX2*EX6)
步骤五、计算子话题及相关传播指标:根据步骤二得到的关键词,通过以下过程对关键词进行筛选以及对子话题进行划分:
1、使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词以及动词去除;
2、将出现词频过高的词汇去除,在剩余词汇中根据其信息熵与词频高低进行遴选,得出各个子话题的标题;
3、依据所得标题对微博文本内容进行划分,得到该事件中的子话题,然后统计其中原创、评论、转发微博的个数,计算各条微博情感值并统计其正向、负面、中立情感的个数,以关键词形式提取其子话题标签;
步骤六、对该特定事件的如下特征进行统计并计算评分,得出其事件热度指数:传播指标:原创微博数、评论微博数、转发微博数、用户地理分布维度;时间指标:总持续时长、敏感时期权值、舆论有无突涨/跌时段;用户指标:大V用户数、人均粉丝数、媒体用户数;内容指标:事件类别权重、集中维度、显著维度;情感指标:正负向情感占比、正负向情感评分均值;讨论指数:子话题个数、日均微博数、单日最高值。
有益效果
对比现有技术,本发明充分考虑微博文本的内容指标,以特定事件为分析微博平台的基本单位、考虑分析微博文本内容影响、采用更加全面的指标体系,并且使用K-means算法辅助进行子话题分析,对特定事件的传播学上的发展阶段进行划分计算,最终获得该特定事件的事件热度。
附图说明
图1表示基于微博特定事件的影响力计算方法的流程示意图;
图2表示针对微博数据进行网络爬虫采集的结构示意图;
图3表示使用K-means聚类结合关键词聚类的方法对子话题进行计算过程示意图;
图4表示对特定事件中用户影响力进行计算的过程;
图5表示分析事件发展阶段的计算过程示意图;
图6表示计算特定事件影响力的指标架构示意图。
具体实施方式
以下结合附图对本发明方法进行详细说明。
如图1所示为本发明基于微博特定事件的影响力计算方法的流程示意图,具体步骤如下:
根据步骤一,进行特定事件微博及用户信息的采集:
针对要研究的特定事件(以关键词和时间区间界定)的微博数据进行采集或是直接获取微博提供的公开数据:数据的采集既可以通过建立缓冲URL队列,采用广度优先搜索算法(BFS)进行网页链接搜索,并对每个节点网页进行扫描下载,并对页面进行解析,去除无关的噪声,保留如下可以描述用户的属性的元数据信息:用户发表的微博文本信息、用户评论的微博文本信息、用户的粉丝数目、用户的关注数目、用户的转发关系,如图2所示;也可以通过直接调用微博官方提供的API接口或是RSS等反馈信息直接提取相关信息。
所采集的特定事件类别可由用户自定义,包括舆情、民生、突发事件、娱乐新闻等,支持千万级的计算规模。
在获取了元数据之后,根据步骤二,对这些元数据进行初步的处理,将这些结果进行储存以便后续步骤的实现,并对部分结果进行进一步处理:
1)微博文本情感值分值计算,对用户的微博文本信息(发表微博、评论微博)使用ICTCLAS分词系统进行正/负/中立情感值计算,此处情感词及其权值可以人工修改,包括添加及修改特定词的权重;
2)在逐条计算情感值的同时将微博文本逐条用ICTCLAS分词系统关键词组件读取,以获得整个事件微博文本的关键词及其信息熵、词频;
3)基于已经处理完成的数据,建立用户-微博文本VSM映射,同时还可以获得用户-转发关系、用户-粉丝关系、用户-关注关系等映射。
根据步骤三,对事件阶段进行分析
如图5所示,对得到的微博数据,以每小时为单位,统计各时间段内的发帖数和活跃用户数目,然后按照发帖数70%,用户数30%的权重计算得到综合的时间顺序的加权和序列。对此时间序列做如下处理:分别找出最高点、各个极值点、最高点前后数值超过最高点数值50%的点等,对这些点进行识别找出对应事件五个阶段的关键节点,即:
起始点:最高点前,与下一点间斜率大于1的点;
发展点:判断高潮点与起始点间有无极点:有则第一个极点为发展点;无则选择起始点与高潮点间第一个超过最高点数值50%的点;
高潮点:即最高点;
胶着点:判断高潮点与消亡点之间有无极值点:有则高潮点后第一个极值点为胶着点;无则选择发展点后第一个超过最高点数值50%的点;
消亡点:序列中最后一个数值大于最高点数值50%的点的下一个点。
依据五个点对各阶段进行识别划分,高潮阶段为高潮点及其前后各一个时间窗,时间窗长度为自定义,一般取一个小时;发展阶段为发展点及其前后各一个时间窗;胶着阶段为胶着点及其前后各一个时间窗;衰退阶段为消亡点及其前后各一个时间窗。
本步骤以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述,并作为计算用户影响力和消息影响力时间指标的重要基准参数。
根据步骤四针对每个参与用户进行影响力特征提取并计算其影响力:
如图4所示,从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度(发布、评论、转发微博数之和)X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5,并据粉丝数得到对应粉丝数权重X6。本发明提供了两种用户影响力计算方案,具体描述如下:
1)使用所有六个特征指标,结合自身常态影响力、传播度、影响用户程度、发帖时机、二次传播能力各方面表现进行用户影响力计算,计算公式如下:
InfluenceUSER=X2*X6+XTime+log10(X1*0.001)+X3*X5
其中,XTime为根据用户发帖时间X4与事件几个重要节点的距离所得,距离关键节点越近越可能具有影响事态发展的能力,因此所得权值也越高:若存在与X4距离小于3600秒的时间节点,则XTime取值为X4与最近的重要节点的秒数差的倒数乘10000;若无符合条件的时间节点,该微博分别处在发展阶段、高潮阶段、胶着阶段时XTime依次取值2000,1500,2000。
用户粉丝数权重设置如下:粉丝数大于100万时,取1000;粉丝数在3万至100万之间时,取500;粉丝数小于3万时,取100。
2)仅使用X1、X2、X3、X6四个特征指标,根据各指标的数值大小,对X1、X2、X3进行0至3的评分EX1、EX2、EX3,对X6进行0至1.33的评分EX6,最终得出范围在0至9.99的用户影响力评分值,计算公式如下:
InfluenceUSER=EX1+EX3+(EX2*EX6)
各个EX评分值如下表所示:
X1 | EX1 |
>=5000000 | 3 |
>=1000000&&<5000000 | 2.5 |
>=500000&&<1000000 | 2.0 |
>=100000&&<500000 | 1.5 |
>=50000&&<100000 | 1 |
>=10000&&<50000 | 0.5 |
>=1000&&<10000 | 0.2 |
<1000 | 0.1 |
X2 | EX2 |
>=10 | 3 |
>=8&&<10 | 2.5 |
>=6&&<8 | 2.0 |
>=4&&<6 | 1.5 |
>=2&&<4 | 1 |
=1 | 0.5 |
=0 | 0 |
X3 | EX3 |
>=1000000 | 3 |
>=500000&&<1000000 | 2.5 |
>=100000&&<500000 | 2.0 |
>=50000&&<100000 | 1.5 |
>=10000&&<50000 | 1 |
>=5000&&<10000 | 0.5 |
>=100&&<5000 | 0.2 |
<100 | 0.1 |
根据步骤五、进行子话题划分及相关传播指标计算:
根据提取得到的用户微博文本的关键词,对其进行筛选,首先使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词等以及动词去除;接着将出现词频过高的词汇去除,以免出现子话题所包含微博文本数量过多导致无意义的状况,截取阈值为:词频小于全部微博数目的65%;最后在剩余词汇中依据其信息熵与词频高低进行排序,选出排名靠前的n个关键词作为各个子话题的标题。
依据所得标题对微博文本内容进行划分,得到该事件中的子话题。本发明提供两种子话题微博划分方案以供选择。方案一为仅以上面计算所得关键词作为子话题标题直接匹配微博文本以实现分类;方案二则使用K-means聚类对微博文本进行子话题聚类(可手动限制K-means聚类所得簇的数量),如图3所示,计算各关键词在各簇中的信息熵,取各簇内信息熵最高的关键词作为各簇的标题,并据各簇的标题之间的相似性,将相似性高的标题所对应的簇进行合并,得出各个子话题所包含的微博。
对各个子话题进行传播指标计算:统计其中原创、评论、转发微博的个数,计算各条微博情感值并统计其正向、负面、中立情感的个数,以关键词形式提取其子话题标签(Tag)。
根据步骤六统计事件各项特征并计算其事件热度指数:
首先,对参与用户进行五个群体的分类:媒体用户(依据自建白名单匹配),大V用户,境外IP用户,疑似水军用户,草根用户。
然后选取各指标特征并进行相关处理:
传播指标如下处理:首先对所有微博文本数据统计其数据类型,即原创微博数、评论微博数、转发微博数;依据其发博时候的地理位置备注或IP地址统计用户所在位置,依据所涉及的省级区划和国家数目多少得出地理分布维度高低;结合上面计算所得事件发展阶段考察舆论有无突涨或暴跌(根据步骤三所得的时间序列,计算每两点之间斜率,自定义斜率阈值以判定是否有超出阈值的情况,若有则视为存在突涨或暴跌)的状况,并给出相应权值;计算事件持续总时长及是否在敏感时期,得出相应权值;统计用户中大V的人数、媒体用户数目和人均粉丝数,并计算五个用户群体在整体用户中的各自占比。
内容指标如下处理:据关键词等(必要时人工干预)判断事件类别,从涉及国计民生到日常娱乐消遣该权重依重要度递减;对所有微博的正负向情感统计占比与各倾向的均值;统计子话题数目;计算是否某群体用户集中于某子话题;计算是否某子话题下微博数目较其他有显著优势;统计日均微博数与单日最高值。
综上所述,需统计计算的特征指标包括如下内容:
传播指标:原创微博数Q1、评论微博数Q2、转发微博数Q3、用户地理分布维度Q4;
时间指标:总持续时长Q5、敏感时期权值Q6、舆论有无突涨/跌时段Q7;
用户指标:大V用户数Q8、人均粉丝数Q9、媒体用户数Q10;
内容指标:事件类别权重Q11、集中维度Q12、显著维度Q13;
情感指标:正负向情感占比Q14、正负向情感评分均值Q15;
讨论指数:子话题个数Q16、日均微博数Q17、单日最高值Q18。
上述特征指标参数设置如下表所示:
最终的事件热度EII计算公式为将所有指标(Q1至Q18)加和并取对数。得到EII后可根据需要自行归一化、调节数值范围。
上述本发明方法对特定事件研究选取的各个指标数据的理论依据为传播学的“舆论八要素”,结合该理论及实际工作经验,对特定事件进行全面深入的考察和研究。
根据上述本发明方法研制的系统已在国家互联网应急响应中心投入实际使用,百万级数据的事件处理时间压缩到了数十分钟以内,大大节约了人力成本并提高了工作效率和处理及响应速度,且该系统的结果准确率完全满足中心的工作需求,目前该系统已成为该中心必不可少的有效工作工具。
为了说明本发明的内容及实施方法,给出了上述具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
Claims (2)
1.一种基于微博特定事件的影响力计算方法,其特征在于:包括以下步骤:
步骤一、进行特定事件微博及用户信息采集:基于爬虫技术或微博公开的一些数据资源,获取到需要分析的微博文本信息、微博被转发次数、微博被评论次数、用户基本信息,用户所做的评论的文本信息、用户在微博上所进行的互动信息、用户活动的时间;用户在微博上所进行的互动信息,包括评论操作、转发关系;用户基本信息,包括粉丝数、关注数,关注关系;
步骤二、使用情感值计算工具或方法对获取的特定事件数据逐个计算其情感正负值,并对全体微博文本做关键词及其信息熵与词频提取;
步骤三、对事件阶段进行分析:统计某个时间段内的发帖数和活跃用户,找出起始点、发展点、高潮点、胶着点、消亡点五个事件传播的关键点,以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述,具体为:
对得到的微博数据,以每小时为单位,统计各时间段内的发帖数和活跃用户数目,然后按照发帖数70%,用户数30%的权重计算得到综合的时间顺序的加权和序列,对此时间序列做如下处理:分别找出最高点、各个极值点、最高点前后数值超过最高点数值50%的点,对这些点进行识别找出对应事件五个阶段的关键节点,即:
起始点:最高点前,与下一点间斜率大于1的点;
发展点:判断高潮点与起始点间有无极点:有则第一个极点为发展点;无则选择起始点与高潮点间第一个超过最高点数值50%的点;
高潮点:即最高点;
胶着点:判断高潮点与消亡点之间有无极值点:有则高潮点后第一个极值点为胶着点;无则选择发展点后第一个超过最高点数值50%的点;
消亡点:序列中最后一个数值大于最高点数值50%的点的下一个点;
依据五个点对各阶段进行识别划分,高潮阶段为高潮点及其前后各一个时间窗,时间窗长度为自定义;发展阶段为发展点及其前后各一个时间窗;胶着阶段为胶着点及其前后各一个时间窗;衰退阶段为消亡点及其前后各一个时间窗;
步骤四、针对每个参与用户进行影响力特征提取并计算其影响力:
从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5,并据粉丝数得到对应粉丝数权重X6;参与度为发布、评论、转发微博数之和;用户影响力计算方案如下:
使用所有六个特征指标,计算公式如下:
InfluenceUSER=X2*X6+XTime+log10(X1*0.001)+X3*X5;
其中,XTime为根据用户发帖时间X4与事件起始点、发展点、高潮点、胶着点、消亡点的距离所得,若存在与X4距离小于n秒的时间节点,则XTime取值为X4与最近的事件传播关键点的秒数差的倒数乘10000;若无符合条件的时间节点,则该微博处在发展点至高潮点之间的XTime的权值为w1,高潮点至胶着点之间XTime的权值为w2,胶着点至消亡点之间XTime的权值为w3;且应满足条件w1>w2;w1>w3;
步骤五、计算子话题及相关传播指标:根据步骤二得到的关键词,通过以下过程对关键词进行筛选以及对子话题进行划分:
1)使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词以及动词去除;
2)将出现词频过高的词汇去除,在剩余词汇中根据其信息熵与词频高低对关键词进行遴选,得出各个子话题的标题;
3)依据所得标题对微博文本内容进行划分,得到该事件中的各子话题微博集合,然后统计其中原创、评论、转发微博的个数,计算各条微博情感值并统计其正向、负面、中立情感的个数,以关键词形式提取其子话题标签;
步骤六、对该特定事件的如下特征进行统计并计算评分,得出其事件热度指数EII(Event Influence Index):传播指标:原创微博数、评论微博数、转发微博数、用户地理分布维度;时间指标:总持续时长、敏感时期权值、舆论有无突涨/跌时段;用户指标:大V用户数、人均粉丝数、媒体用户数;内容指标:事件类别权重、集中维度、显著维度;情感指标:正负向情感占比、正负向情感评分均值;讨论指数:子话题个数、日均微博数、单日最高值。
2.根据权利要求1所述一种基于微博特定事件的影响力计算方法,其特征在于:步骤五所述依据所得标题对微博文本内容进行划分,得到该事件中的各子话题微博集合可以通过以下两种划分方案的任意一种实现:
1)以所述标题直接匹配微博文本实现分类;
2)使用K-means聚类对微博文本进行子话题聚类,计算标题在各簇中的信息熵,取各簇内信息熵最高的标题作为各簇的标题,并据各簇的标题之间的相似性,将相似性高的标题所对应的簇进行合并,得出各子话题所包含的微博。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016103715965 | 2016-05-30 | ||
CN201610371596 | 2016-05-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106980692A CN106980692A (zh) | 2017-07-25 |
CN106980692B true CN106980692B (zh) | 2020-12-08 |
Family
ID=59343781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710213302.0A Expired - Fee Related CN106980692B (zh) | 2016-05-30 | 2017-04-01 | 一种基于微博特定事件的影响力计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106980692B (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776841B (zh) * | 2016-11-28 | 2020-04-21 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN109388740A (zh) * | 2017-08-06 | 2019-02-26 | 北京国双科技有限公司 | 一种网络信息传播效果的监测方法及装置 |
CN107563820A (zh) * | 2017-09-19 | 2018-01-09 | 精硕科技(北京)股份有限公司 | 微博表现的评估方法与装置 |
CN109947840B (zh) * | 2017-09-25 | 2021-05-14 | 北京国双科技有限公司 | 告警数据展示方法和装置 |
CN108009220A (zh) * | 2017-11-22 | 2018-05-08 | 中国电子科技集团公司第二十八研究所 | 一种网络热点舆情事件中检测和定位异常用户的方法 |
CN109840319B (zh) * | 2017-11-24 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 确定对象实体的方法、系统及计算机设备和存储介质 |
CN107908804B (zh) * | 2017-12-27 | 2021-06-04 | 北京锐安科技有限公司 | 一种网民参与程度的评估方法及系统 |
CN108268618A (zh) * | 2018-01-08 | 2018-07-10 | 南京邮电大学 | 一种微博热度分析获取方法 |
CN108345662B (zh) * | 2018-02-01 | 2022-08-12 | 福建师范大学 | 一种考虑用户分布区域差异的签到微博数据加权统计方法 |
CN108319587B (zh) * | 2018-02-05 | 2021-11-19 | 中译语通科技股份有限公司 | 一种多权重的舆情价值计算方法及系统、计算机 |
CN108830630B (zh) * | 2018-04-09 | 2020-04-10 | 平安科技(深圳)有限公司 | 一种虚假消息的识别方法及其设备 |
CN108765178A (zh) * | 2018-04-23 | 2018-11-06 | 华侨大学 | 玩具缺陷事件的互联网传播影响力的评估方法 |
CN108733816B (zh) * | 2018-05-21 | 2022-02-01 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN109086341B (zh) * | 2018-07-10 | 2022-10-04 | 南京邮电大学 | 应用群体智能的热点事件热度度量方法 |
CN109063010B (zh) * | 2018-07-11 | 2022-01-28 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
CN109471881B (zh) * | 2018-07-27 | 2022-04-12 | 昆明理工大学 | 一种基于时空扫描的网络舆情预警监测方法 |
CN109508416B (zh) * | 2018-11-09 | 2021-11-23 | 四川大学 | 基于评论数量的微博舆情事件热度与发展趋势预测方法 |
CN109783712B (zh) * | 2018-12-14 | 2023-10-17 | 平安科技(深圳)有限公司 | 一种基于微博用户的社交网络分析方法及装置 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN109948047B (zh) * | 2019-01-18 | 2021-09-28 | 中国科学院自动化研究所 | 基于转移熵的文化基因排序方法与系统及相关设备 |
CN109885760B (zh) * | 2019-01-22 | 2020-12-29 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN109934726B (zh) * | 2019-01-24 | 2021-03-02 | 北京亿幕信息技术有限公司 | 一种机构账号管理系统 |
CN110134876B (zh) * | 2019-01-29 | 2021-10-26 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN109885770B (zh) * | 2019-02-20 | 2022-01-07 | 杭州威佩网络科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN110083701B (zh) * | 2019-03-20 | 2023-07-21 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110263238B (zh) * | 2019-06-21 | 2021-10-15 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110851684B (zh) * | 2019-11-12 | 2022-10-04 | 重庆邮电大学 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
CN111209513B (zh) * | 2020-01-08 | 2022-04-19 | 西安电子科技大学 | 基于图链接分析的网络用户分类方法 |
CN111339295A (zh) * | 2020-02-19 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 用于展示信息的方法、装置、电子设备和计算机可读介质 |
CN111307037B (zh) * | 2020-04-14 | 2022-10-14 | 深圳市异方科技有限公司 | 一种基于3d摄像头的手持体积测量装置 |
CN111581370B (zh) * | 2020-04-20 | 2023-06-23 | 国家计算机网络与信息安全管理中心 | 综合多通道数据来源的网络舆情热度评估方法及装置 |
CN111753213A (zh) * | 2020-06-10 | 2020-10-09 | 西北工业大学 | 一种问答社交网络用户分享行为的传染力度量方法 |
CN112183067B (zh) * | 2020-09-23 | 2022-05-27 | 夏一雪 | 一种大数据环境下网络舆情人工智能分析系统 |
CN113268976B (zh) * | 2021-02-20 | 2023-09-12 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
CN113064991B (zh) * | 2021-03-17 | 2024-04-19 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
CN113220964B (zh) * | 2021-04-01 | 2024-03-22 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN113946736A (zh) * | 2021-10-18 | 2022-01-18 | 北京清博智能科技有限公司 | 一种计算事件热度系统及方法 |
CN114091443B (zh) * | 2021-10-28 | 2022-07-19 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及评估方法 |
CN114612109B (zh) * | 2022-05-10 | 2022-08-19 | 武汉龙津科技有限公司 | 一种基于区块链的数字藏品生成方法、系统及电子设备 |
CN115688024B (zh) * | 2022-09-27 | 2023-05-30 | 哈尔滨工程大学 | 基于用户内容特征和行为特征的网络异常用户预测方法 |
CN115840844B (zh) * | 2022-12-17 | 2023-08-15 | 深圳市新联鑫网络科技有限公司 | 一种基于大数据的互联网络平台用户行为分析系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
CN105205146A (zh) * | 2015-09-18 | 2015-12-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8909771B2 (en) * | 2011-09-15 | 2014-12-09 | Stephan HEATH | System and method for using global location information, 2D and 3D mapping, social media, and user behavior and information for a consumer feedback social media analytics platform for providing analytic measurements data of online consumer feedback for global brand products or services of past, present or future customers, users, and/or target markets |
US20140223099A1 (en) * | 2013-02-06 | 2014-08-07 | Adam Kidron | Content management platform apparatus, methods, and systems |
-
2017
- 2017-04-01 CN CN201710213302.0A patent/CN106980692B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
CN105205146A (zh) * | 2015-09-18 | 2015-12-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
Non-Patent Citations (2)
Title |
---|
"以主体为中心的微博计算方法";张华平 等;《复杂系统与复杂性科学》;20121231;第9卷(第4期);第84-90页 * |
"基于信息熵和未确知测度模型的微博";魏志惠 等;《情报科学》;20141031;第32卷(第10期);第38-43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106980692A (zh) | 2017-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
Nguyen et al. | Real-time event detection for online behavioral analysis of big social data | |
Calvin et al. | # bully: Uses of hashtags in posts about bullying on Twitter | |
Zhang et al. | Automatic detection of rumor on social network | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
Luo et al. | An effective approach to tweets opinion retrieval | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
US9946775B2 (en) | System and methods thereof for detection of user demographic information | |
Shi et al. | Learning-to-rank for real-time high-precision hashtag recommendation for streaming news | |
Ishikawa et al. | Hot topic detection in local areas using Twitter and Wikipedia | |
US20120042020A1 (en) | Micro-blog message filtering | |
CN104216964B (zh) | 一种面向微博的非分词突发话题检测方法 | |
Yao et al. | Provenance-based indexing support in micro-blog platforms | |
CN108009220A (zh) | 一种网络热点舆情事件中检测和定位异常用户的方法 | |
CN103577405A (zh) | 基于兴趣分析的微博博主社区分类方法 | |
WO2014029314A1 (zh) | 信息聚合归类的显示方法及系统 | |
CN104572757A (zh) | 微博群体处理方法及装置 | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
Cui et al. | Personalized microblog recommendation using sentimental features | |
Phuvipadawat et al. | Detecting a multi-level content similarity from microblogs based on community structures and named entities | |
Alp et al. | Influential user detection on Twitter: Analyzing effect of focus rate | |
Li et al. | Polyu at trec 2016 real-time summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201208 Termination date: 20210401 |
|
CF01 | Termination of patent right due to non-payment of annual fee |