CN104216954B - 突发事件话题状态的预测装置及预测方法 - Google Patents
突发事件话题状态的预测装置及预测方法 Download PDFInfo
- Publication number
- CN104216954B CN104216954B CN201410412196.5A CN201410412196A CN104216954B CN 104216954 B CN104216954 B CN 104216954B CN 201410412196 A CN201410412196 A CN 201410412196A CN 104216954 B CN104216954 B CN 104216954B
- Authority
- CN
- China
- Prior art keywords
- topic
- microblogging
- opinion
- leader
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 210000004209 hair Anatomy 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000007423 decrease Effects 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 10
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000000630 rising effect Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 238000009792 diffusion process Methods 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 238000009963 fulling Methods 0.000 claims 1
- 238000012552 review Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 10
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 10
- 238000005520 cutting process Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种突发事件话题状态的预测装置及预测方法,是基于突发事件微博话题产生机理和意见领袖对突发事件话题状态影响力的研究而提出的,该预测装置设有文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元共四个组件,通过意见领袖参与状态来预测话题状态,简化话题状态预测方法,有较高的预测精度,能够为监测突发事件话题趋势走向提供依据。本发明提出的话题关注度计算方式,降低了传统话题关注度的计算复杂度。并采用预测话题状态来代替话题关注度数值的预测,使得预测内容更合理,预测精度更高。还提出隐马尔科夫模型的预测方法,通过不断迭代,构建意见领袖集合和话题预测模型,能显著简化预测操作,提高预测效率。
Description
技术领域
本发明涉及一种互联网的话题检测与跟踪TDT(Topic Detection and Tracking)技术,确切地说,涉及一种突发事件话题状态的预测装置及预测方法,用于在解决突发事件发生后,微博网络中话题状态的识别与跟踪,并通过意见领袖参与率的状态来预测突发事件话题状态,建立预测模型,为监测突发事件话题趋势走向提供依据。属于互联网信息应用的技术领域。
背景技术
互联网的话题检测与跟踪TDT技术起源于早期面向事件的检测与跟踪EDT(EventDetection and Tracking)。TDT面向多语言文本和语言形式的新闻报道,主要从事报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展、以及跨语言检测与跟踪等相关任务。不同于EDT,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于单事件的识别,跨越到包含突发事件及其后续相关报道的话题检测与跟踪。
TDT涉及两类最主要的信息获取问题:信息的检测与集成,以及信息的采集与跟踪。这两方面研究课题分别与目前的信息检索IR(Information Retrieval)和信息过滤IF(Information Filtering)对应的问题非常相似。在IF系统中,用户通过定义静态的用户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重于跟踪信息的时空进程,并将最新的相关信息反馈给用户。
美国国家标准技术研究院NIST(National Institute of Standards andTechnology)为TDT研究设立了五项基础性的研究任务,包括:面向新闻广播类报道的切分,面向已知话题的跟踪,面向未知话题的检测,对未知话题首次相关报道的检测和报道间相关性的检测共五项任务。其中,面向已知话题的跟踪任务主要是跟踪话题的后续报道。随着TDT研究的深入,面向已知话题的跟踪任务已经不再满足于收集语料、进行分析,然后进行跟踪。话题追踪(又称为话题演化),不仅包含对话题本身内容的演化与子话题的衍生等,还包括了话题强度的演化。话题内容的演化,既包含传统话题跟踪TTT(Traditional TopicTracking),也包括自适应话题跟踪ATT(Adaptive Topic Tracking)。话题强度演化主要是发现随着时间的推移,话题强度增大、减小等强度变化规律。这就演化出了一个新的任务——话题预测,其目的是提前预知话题在下一个时刻,话题自身的变化情况,即话题热度等;话题在空间上的变化情况,即影响范围大小,影响人数的多少。
这几年来,突发事件话题预测技术已经从最初的网页内容话题预测,逐渐发展为论坛和博客话题预测,近几年又有微博话题预测。这些话题预测主要围绕在话题属性方面,如话题流行度、关注度或者话题热度的变化趋势等。预测方法主要是回归模型、时间序列模型和马尔科夫模型。
回归模型是借用回归公式,发现话题流行度等属性与话题转发、评论、引用等信息的关系。通过具体数据,构造一个多元非线性回归模型。模型建立后,可用于对下一时刻的话题流行度等属性进行预测。
时间序列是在连续时间下,发现话题转发、评论、引用等信息的变化量,通过计算前一段时间的变化速度和加速度,对话题下一时刻的话题流行度属性进行预测。
马尔科夫模型是通过大量数据得到话题的状态值,以及话题中的一个状态到下一个状态的迁移概率矩阵。当有当前状态时,就可以通过这个状态迁移矩阵找到下一个时刻的话题状态。
《基于意见领袖参与行为的微博话题热度预测研究》(刊于《情报杂志》2013年12期)定义了三个概念:话题意见领袖参与率、话题意见领袖微博转发率、话题意见领袖微博评论率。然后,采用回归模型方法,利用这三个指标构造高阶多元回归公式,得到话题热度公式,从而预测话题热度。
《Towards Topic Trend Prediction on a Topic Evolution Model withSocial Connection》(刊于2012 IEEE/WIC/ACM International Conferences on WebIntelligence and Intelligent Agent Technology)将话题的生命周期设置为初生、增长、爆发、稳定、衰亡和消失共六个时期,采用潜在狄利克雷分配模型LDA(LatentDirichlet Allocation)方法对话题进行聚类,并自定义用户贡献度的计算公式,通过用户贡献度计算话题热度,最后通过时间序列法,计算出话题热度速度的变化值和多时刻变化平均值,以及加速度的变化值和多时刻变化平均值,并设定阈值,然后预测话题属于某个时期,并预测下一时刻状态。
《网络论坛热点话题的关注度预测》(刊于《计算机与数字工程》2013年05期)通过点击数、评论数和话题下的主题数构造一个线性回归公式来计算话题关注度,统计话题状态变化率,构造马尔科夫模型来预测话题关注度。
对现有技术的TDT检测和追踪方法进行综合分析,并结合突发事件对现有话题演化方法的优劣加以归纳和总结,发现仍然存在下述三个特点和缺陷:
(1)突发事件的话题流行度等信息变化没有规律,数据抖动大,只能在小范围内保持平稳,因此,设定的其个回归模型、时间序列模型等都需要大量先验数据的预测方法,并且,也不能很好地适应话题预测。
(2)不容易界定话题生命周期的分界点,因此根据话题的不同,无法用一个统一数值来描述话题流行度等信息。
(3)意见领袖与话题强度演化有着密切关系。
为此,国内外的业内科技人员不断地对上述三个关键点开展相应研究,企图找到相应的解决方法。
发明内容
有鉴于此,本发明的目的是基于突发事件微博话题产生原理,以及意见领袖对突发事件话题状态影响力的研究,提供一种突发事件话题状态的预测装置及预测方法。本发明提出一种话题状态的有效识别装置与方法,可以通过意见领袖参与状态来预测话题状态,简化话题状态预测方法,有较高的预测精度,能够为监测突发事件话题趋势走向提供依据。
为了达到上述目的,本发明提供了一种突发事件话题状态的预测装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元;其中各个单元功能如下:
文本获取单元,负责根据预设的突发事件的关键词,从微博系统中爬取与该突发事件相关的微博内容和用户信息,所述微博包括:原创微博、转发微博和评论;爬取的微博内容包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户关注数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬取模块、用户信息爬取模块和微博数据库;
话题聚类单元,负责选取微博数据库中的博文和评论内容进行聚类,找出突发事件的话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然后根据话题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分别存储于话题数据库和微博数据库中;设有:顺序连接的分词模块、聚类模块和相似度计算模块以及话题数据库共四个组成模块;
话题状态识别单元,负责根据话题聚类单元得到的话题和所标记的每个话题对应的微博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,再利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库中;设有顺序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组成模块;
话题状态预测单元,负责识别突发事件中的意见领袖,并根据参与突发事件话题讨论的意见领袖数量,计算意见领袖参与率;然后根据设定每个时段意见领袖参与率计算意见领袖的参与状态,并将得到的意见领袖参与状态序列保存于预测模型数据库中;然后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存于预测模型数据库中;设有顺序连接的意见领袖识别模块,意见领袖参与率计算模块,话题状态预测模块和预测模型数据库共四个组成模块。
为了达到上述目的,本发明还提供了一种突发事件话题状态的预测装置的预测方法,其特征在于:根据突发事件中的微博话题产生机理,对微博中的原创微博、转发微博、评论以及意见领袖影响力属性进行下述具体分析:该预测装置的话题状态识别单元根据原创微博、转发微博和评论推导出话题关注度计算公式,计算设定话题关注度,以得到话题状态;再在话题状态预测单元中,根据用户微博转发和评论数,利用自定义的意见领袖影响力公式计算得到所有的意见领袖,再根据各话题计算出意见领袖参与率,计算得到意见领袖参与状态;最后根据隐马尔科夫模型,预测突发事件中的话题状态;所述方法包括下列操作步骤:
步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口,获取微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库中;所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和发博人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息;
步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进行分词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多个关键词,从中选取词频最高的2~3个词作为该话题的主题词;最后使用余弦相似度公式计算微博文本与话题的相似度,将微博进行归类;
步骤3,话题状态识别单元根据步骤2得到的主题词和已标记的每个话题所归属的微博文本,利用自定义的话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,通过话题关注度序列得到话题的状态序列,然后将话题状态序列存储在话题状态数据库中;
步骤4,话题状态预测单元先从微博数据库存储的全体用户中识别突发事件的意见领袖,并根据步骤3中的时间段信息,寻找每个时段参与突发事件设定话题讨论的意见领袖,并计算意见领袖参与率;再根据每个时段意见领袖参与率计算出意见领袖参与状态,得到多个意见领袖的参与状态序列,将该多个意见领袖参与状态序列保存到预测模型数据库中;最后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存到预测模型数据库中。
本发明的创新技术是针对现有技术的三个关键问题开展研究,提出用隐马尔科夫模型解决突发事件话题状态的预测与评估的装置和方法,解决了话题关注度定量描述和话题状态预测问题,有较高的预测精度。具体体现在下述三点:
首先,相较于传统的构造回归公式,本发明使用微博数量表示话题关注度,还对话题关注度的计算方法作了改进:结合PageRank算法,提出微博贡献度的概念,计算每条微博的贡献度,最终综合得出话题关注度。这种计算方法避免了传统回归公式的复杂计算,也避免了回归公式的高阶运算和拟合度的问题。
其次,本发明从传统预测话题关注度的数值转为预测话题状态。因传统的话题预测通常都是计算话题关注度回归公式的各项系数,以得到话题关注度计算公式。虽然这种公式大都为线性公式,预测结果也一般都是上升或下降。如果话题关注度数据抖动,则预测精度就不高。然而突发事件的话题,话题关注度数据抖动性很大。然而本发明采用话题状态预测,就不存在类似问题,使得话题状态序列可以得到更高的预测精度,提供给实际分析的信息更加精准。
最后,本发明创新使用隐马尔科夫模型,结合意见领袖参与状态来预测话题状态,简化了话题状态的预测计算量,还构建话题状态预测模型库,为以后话题预测提供参考。因为不同话题的微博变化比较大,如果采用传统步骤先计算话题关注度再得到话题状态,其计算量很大。而意见领袖基本是一个静态集合,变化很小,可以构造意见领袖集合来加快意见领袖参与率的计算。而且,意见领袖参与状态和话题状态关系密切,通过计算意见领袖参与状态来预测话题状态,就可以减少预测过程中的计算量。并且构建话题状态预测模型库,可以在新的话题到来后,快速尝试使用已有的模型进行预测,如此不断地迭代改进,减少发现话题预测模型的步骤,提供更快速的预测方式。
综上所述,本发明的优点是:本发明提出新的话题关注度计算方式,降低了传统话题关注度的计算复杂性。并采用预测话题状态来代替话题关注度数值的预测,使得预测内容更加合理,提高预测精度。提出隐马尔科夫模型的预测方法,通过不断迭代,构建意见领袖集合和话题预测模型,能够显著简化预测操作步骤,提高预测效率。而且,本发明突发事件话题状态预测装置和方法都通过实施例进行了实际系统的试验,对话题状态预测都有较高的预测精度。
附图说明
图1是本发明突发事件话题状态的监测装置结构组成示意图。
图2是本发明突发事件话题状态的预测装置预测方法总体流程图。
图3(a)~(f)分别是本发明预测方法中意见领袖参与率状态与六个话题状态走势的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参照图1,介绍本发明突发事件话题状态的预测装置的结构组成:设有文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元共四个组成部件;其中各个单元功能说明如下:
(A)文本获取单元:负责根据预设的突发事件的关键词,从微博系统中爬取与该突发事件相关的微博(包括原创微博、转发微博和评论)内容和用户信息。爬取的微博内容包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户关注数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬取模块、用户信息爬取模块和微博数据库。这五个组成模块功能如下:
原创微博爬取模块,用于根据预设的突发事件的关键词,利用微博的搜索功能,获取所有设定时段和/或设定地区的原创微博,并保存于微博数据库;存储的微博内容包括:原创博文、发博时间、发博人标识、转发链接地址和评论的链接地址等信息。
转发微博爬取模块,用于根据微博数据库中的原创微博的转发链接地址,逐个爬取转发微博,并将获取的所有转发微博存储于微博数据库;存储内容包括:转发博文、转发时间、转发用户标识、转发链接地址、评论链接地址及其与原创微博的转发关系。
评论爬取模块,用于根据微博数据库中的评论链接地址,获取设定微博的相关评论,并将全部评论保存在微博数据库中;存储内容包括:评论内容、评论时间,评论用户标识和该评论与微博的关系。
用户信息爬取模块,用于根据微博数据库中的用户标识,构造用户页面的统一资源定位符URL(Uniform Resource Location),再通过URL访问用户信息页,获取用户详细信息,并存储到微博数据库中;存储内容包括:用户昵称,粉丝数,关注数和发博数。
微博数据库,负责存储文本获取单元中各个模块从微博网站上爬取到的微博内容信息以及用户数据,以供话题聚类单元,话题状态识别单元和话题状态预测单元进行后续处理。
(B)话题聚类单元:负责选取微博数据库中的博文和评论内容进行聚类,找出突发事件的话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然后根据话题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分别存储于话题数据库和微博数据库中。设有:顺序连接的分词模块、聚类模块和相似度计算模块以及话题数据库共四个组成模块;这四个组成模块功能如下:
分词模块,负责利用中科院汉语词法分析系统ICTCLAS(Institute ofComputing Technology,Chinese Lexical Analysis System)对微博文本内容进行分词和词性标注,过滤停用词,分别统计每个词的词频并缓存之,并将分词处理后的信息送至聚类模块。
聚类模块,负责利用潜在狄利克雷分配模型LDA(Latent Dirichlet Allocation)对分出的词进行聚类,将每个词分别聚类到不同的相应话题,再根据每个话题中的各词的词频,挑选出该话题中的2~3个主题词;所述话题表示为Topic={tword1,tword2,tword3},其中,tword1,tword2,tword3为三个不同的主题词,再将主题词及其词频信息存储于话题数据库中,以供相似度计算模块使用。
相似度计算模块,负责根据分词模块的分词结果将微博文本表示为Microblog={mword1,mword2,...,mwordi,...,mwordn},式中,mwordi为微博文本经过分词后的第i个词语,自然数i为词语序号,其最大值为n;然后结合聚类模块得到的话题,将微博文本通过向量夹角的余弦值计算公式计算微博文本与话题的相似度,再根据相似度数值将所有的微博文本进行归类,每条微博可能归属于一个或多个话题,并将其归类信息标记在微博数据库中。
话题数据库,用于存储聚类模块聚类后得到的话题信息,包括主题标识,主题词和主题词词频的信息,以供话题状态识别单元和话题状态预测单元进行后续处理。
(C)话题状态识别单元:负责根据话题聚类单元得到的话题和所标记的每个话题对应的微博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,再利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库中。设有顺序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组成模块,这些组成模块功能如下:
话题关注度计算模块,用于根据每个话题的原创微博、转发微博和评论的内容及其数量,用定量方式计算得到该话题关注度后,送入话题状态识别模块进行话题状态计算。
话题状态识别模块,用于根据来自话题关注度计算模块的话题关注度值,对话题状态进行分析统计后,得到各个话题状态序列,再将该话题状态序列保存于话题状态数据库,以供话题状态预测单元中的评估预测模块作为参考依据。
话题状态数据库,用于存储话题状态序列,以供话题状态预测单元进行后续处理。
(D)话题状态预测单元:负责识别突发事件中的意见领袖,并根据参与突发事件话题讨论的意见领袖数量,计算意见领袖参与率;然后根据设定每个时段意见领袖参与率计算意见领袖的参与状态,并将得到的意见领袖参与状态序列保存于预测模型数据库中;然后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存于预测模型数据库中。设有顺序连接的意见领袖识别模块,意见领袖参与率计算模块,话题状态预测模块和预测模型数据库共四个组成模块。这四个组成模块功能如下:
意见领袖识别模块,用于综合微博数据库中的用户信息、微博信息和话题数据库中的话题信息,得到用户在突发事件话题中的微博数量、被转发和被评论的数量,并根据该三个参数计算每个用户的意见领袖影响力,再根据意见领袖影响力指标识别出意见领袖,并将这些意见领袖组成集合和缓存其用户标识,以供意见领袖参与率计算模块使用。
意见领袖参与率计算模块,用于首先从微博数据库中根据设定时间得到各个时段话题的微博,然后统计每个时段这些微博的发博人是否为意见领袖;并缓存每个时段的意见领袖人数,结合意见领袖识别模块得到的意见领袖集合,计算每个时段意见领袖参与率,统计得到这些意见领袖参与状态信息,将得到的意见领袖参与状态序列信息保存于预测模型数据库,以供预测模型训练使用。
话题状态预测模块,用于根据意见领袖参与状态序列,训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型;并利用话题状态识别单元得到的话题状态序列和预留的意见领袖参与状态序列,评估该隐马尔科夫模型;再将评估结果较好的模型,保存在预测模型数据库中,以供制作一个模型库。
本发明突发事件话题状态的预测装置根据突发事件中的微博话题产生机理,对微博中的原创微博、转发微博、评论以及意见领袖影响力属性进行具体分析,提出了突发事件话题状态预测方法。该预测方法是:由预测装置的话题状态识别单元根据原创微博、转发微博和评论推导出话题关注度计算公式,计算设定话题关注度,以得到话题状态;再在话题状态预测单元中,根据用户微博转发和评论数,利用自定义的意见领袖影响力公式计算得到所有的意见领袖,再根据各话题计算出意见领袖参与率,计算得到意见领袖参与状态;最后根据隐马尔科夫模型,预测突发事件中的话题状态。
参见图2,介绍本发明突发事件话题状态的预测装置及预测方法的具体操作步骤:
步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口,获取微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库中;所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和发博人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息。该步骤包括下述操作内容:
(11)原创微博爬取模块根据用户输入的突发事件关键词,从微博搜索页上,分时间段和/或分地域进行原创微博的数据搜索和爬取,将爬取的原创微博的包括微博文本、微博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中。
(12)转发微博爬取模块根据原创微博爬取模块爬取的原创微博,爬取转发微博;因转发微博和原创微博的结构相同,故也要爬取转发微博的包括微博文本、微博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中;且因转发微博爬取模块执行递归爬取操作,故要直到没有转发微博才停止操作。
(13)评论爬取模块根据微博数据库中的微博信息,得到该微博的评论链接地址,然后爬取该微博的包括评论内容、评论人标识、评论标识和评论时间的评论信息,并将这些信息存入文本数据库中。
(14)用户信息爬取模块是从微博数据库中获取所有的发博人标识和评论人标识,再爬取发博用户和评论用户中的包括:用户标识、用户昵称、粉丝数、关注数和发博数的信息,并保持在微博数据库中。
步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进行分词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多个关键词,从中选取词频最高的2~3个词作为该话题的主题词;最后使用余弦相似度公式计算微博文本与话题的相似度,将微博进行归类。该步骤包括下述操作内容:
(21)分词模块使用中科院ICTCLAS中文分词系统,对微博文本进行分词处理:只保留名词和动词,删除停用词和其它词性的词语,并统计分词后的每个词的词频信息M=<word,number>,其中,word为保留的名词或动词词语,number为该词语的数量、即词频;然后,缓存下述两组信息:每个微博文本的分词结果Microblog1={mword1,mword2,...,mwordi,...,mwordn}和该微博文本中每个词的出现数量信息、即词频式中,mwordi为微博文本经过分词后的第i个词,自然数下标i为词序号,其最大值为n;为词mwordi的词频。
(22)聚类模块利用LDA算法对分词处理后的词进行聚类:先预设聚类结果的话题数K为3~5个,再在聚类后,根据每个话题中的各个词的词频,按照从大到小进行降序排列,挑选出每个话题的2~3个主题词,并将话题表示为主题词序列Topic1=<tword1,tword2,tword3>和该话题的主题词所对应的词频序列最后将主题词及其词频信息存储到话题数据库中。
(23)相似度计算模块根据分词模块处理结果得到的每个微博文本分词后的词频信息和聚类模块聚类结果得到的主题词对应的词频信息使用向量夹角的余弦值计算公式计算两者的相似度值,再根据相似度数值对所有的微博文本进行归类:若cosθ>0.3,则将该微博归属于该话题;否则,不属于该话题;最后,将归类信息标记在微博数据库中;需要注意的是:每条微博文本可能归属于多个话题。
步骤3,话题状态识别单元根据步骤2得到的主题词和已标记的每个话题所归属的微博文本,利用自定义的话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,通过话题关注度序列得到话题的状态序列,然后将话题状态序列存储在话题状态数据库中。该步骤包括下述操作内容:
(31)话题关注度计算模块首先根据话题聚类分类模块得到的话题,按照预设的时间间隔,分时段分别计算每个话题的关注度;再按照时间段、话题标识及其关注度值将计算出的每个话题关注度存储于话题状态数据库中。其具体操作步骤包括下述内容:
(31A)首先设置微博贡献度表示每条微博对话题的贡献:如果包括原创微博、转发微博和评论的某一条微博文本内容被归类属于设定话题,则这条微博对该话题的微博贡献度MC(Microblog Contribution)记为1;如果该条微博被归类到n个话题,则这条微博对每个话题的微博贡献度MC为
(31B)定义话题关注度TA(Topic Attention)是设定话题的所有微博的微博贡献度的总和,按照下述公式:计算每个话题的关注度;其中,OMC(Original Microblog Contribution)和RMC(Repost Microblog Contribution)分别为设定话题的原创微博贡献度及其转发微博贡献度,自然数下标j和k分别为原创微博及其转发微博的序号,其最大值分别为NO和NR。
因原创微博贡献度OMC是该微博的自身贡献度、其转发微博贡献度和评论贡献度的三个贡献度之和,其计算公式为:式中,SC(SelfContribution)为该原创微博的贡献度,SRMC(Sub-Repost Microblg Contribution)为该原创微博所归属的所有转发微博的贡献度,自然数下标p是该原创微博的转发微博的序号,其最大值,即该原创微博的转发微博的总数为NSR,CMC(Comment Microblog Contribution)为该原创微博的评论贡献度,自然数下标q是该原创微博的评论序号,其最大值,即该原创微博的评论总数为NC,微博评论的衰减因子β取值范围是:(0,1]之间的实数;因为评论不会对话题的扩散产生实质效果,但因评论的人多,也会从侧面反映话题的关注度,其对微博的贡献要弱于转发,故在计算评论的贡献度时,采用衰减因子来平衡微博评论对话题的贡献度。
因在微博系统中,转发微博也是一条微博,其和原创微博具有相同属性:既有自己的微博内容,也能够被转发或被评论,其区别只是具有转发属性:转发微博会带上它所转发的原创微博,所以转发微博的贡献度计算公式和原创微博的贡献度计算公式相同,即其计算公式为:
(32)话题状态识别模块根据步骤(31)计算得到的话题关注度值,对话题状态进行分析统计:若关注度值变大,则表示状态上升;若关注度值变小,则表示状态下降;最终得到各个话题状态的序列后,将该话题状态序列保存在话题状态数据库中。
步骤4,话题状态预测单元先从微博数据库存储的全体用户中识别突发事件的意见领袖,并根据步骤3中的时间段信息,寻找每个时段参与突发事件设定话题讨论的意见领袖,并计算意见领袖参与率;再根据每个时段意见领袖参与率计算出意见领袖参与状态,得到多个意见领袖的参与状态序列,将该多个意见领袖参与状态序列保存到预测模型数据库中;最后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存到预测模型数据库中。该步骤包括下述操作内容:
(41)意见领袖识别模块结合微博数据库中的用户信息、微博信息和话题数据库中的话题信息,得到每个用户在突发事件设定话题中的发微博数量、被转发数量和被评论数量,根据公式计算每个用户的意见领袖影响力值P,再根据意见领袖影响力指标数值高低,选取P>1000的用户作为意见领袖,并缓存这些意见领袖的用户标识;式中,自然数下标a、b和c分别表示该用户原创微博,被转发微博和被评论的序号,最大值分别为NM,NR和NC。
(42)根据意见领袖参与率的计算公式:分时段分别统计每个时段参与话题的意见领袖所占全部意见领袖的百分比,即为意见领袖参与率;式中,OLP为意见领袖参与率,它是取值范围:[0,1]之间的实数;自然数Numbert和Numbertotal分别为设定时段t时的意见领袖人数和参与设定话题的意见领袖总人数;计算得到每个时段意见领袖参与率,就能够得到意见领袖参与状态:意见领袖参与率增大,表示参与状态上升;反之,即意见领袖参与率减小,表示参与状态下降。
(43)话题状态预测模块根据意见领袖参与状态序列,训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型;并且利用话题状态识别单元得到的话题状态序列和预留的意见领袖参与状态序列,对模型进行评估;再将评估结果较好的模型,保存在预测模型数据库中,以便制作一个模型库。
该步骤(43)进一步包括下述操作内容:
(43A)定义隐马尔科夫模型的数学表达式为:λ=(S,O,A,B,π),其中:
S为话题状态的集合,所述话题状态是用各个时段话题关注度指标值的升降来表示设定话题的动态状况,故其状态集合为{上升,下降}:若下一时段话题关注度指标数值比上一时段大,表示话题状态上升;若下一时段话题关注度指标数值比上一时段小,表示话题状态下降;
O为意见领袖参与状态的集合,所述意见领袖参与状态是用各时段意见领袖参与率指标值的升降来表示意见领袖参与话题讨论的动态状况,所述意见领袖参与状态的涵义是意见领袖参与率指标的下一时段数值大于上一时段,表示意见领袖参与状态上升;意见领袖参与率指标下一时段数值小于上一时段,表示意见领袖参与状态下降。所以意见领袖参与状态集合为{上升,下降};
A为话题状态转移概率矩阵,所述话题状态转移矩阵是一个2×2矩阵,共有四项,分别是:上升状态→上升状态的转移概率,上升状态→下降状态的转移概率,下降状态→上升状态的转移概率,下降状态→下降状态的转移概率;
B为意见领袖参与状态概率分布矩阵,所述概率分布矩阵是一个2×2矩阵,共有四项,分别是:话题状态上升时输出意见领袖参与状态上升的概率,话题状态上升时输出意见领袖参与状态下降的概率,话题状态下降时输出意见领袖状态上升的概率,话题状态下降时输出意见领袖参与状态下降的概率;
π为初始状态概率的分布状况,其初始状态为π0={0.5,0.5},即上升状态和下降概率平均。
(43B)使用步骤(42)计算得到的意见领袖参与状态序列,先划分80%用作训练集,再利用隐马尔科夫模型的前向后向算法对模型进行训练,得到话题状态转移概率矩阵A和意见领袖参与状态概率分布矩阵B;
(43C)利用步骤3得到的话题状态序列,以及步骤(43B)剩余的20%意见领袖参与状态序列对模型进行评估,利用误差公式分别计算其误差;其中,ε为误差,其是取值范围:[0,1]之间的实数;Nwrong为模型执行后得到的状态序列与实际状态序列相比发生差错的状态个数;Ntotal为实际状态的个数;如果ε≤0.3,则认为得到的模型是可信的。
模型评估的算法采用隐马尔科夫模型的前向算法和后向算法:前向算法用于计算意见领袖参与状态序列,再和预留的20%意见领袖参与状态序列进行比较来评估模型;后向算法用于计算话题状态序列,再和步骤3得到的话题状态序列进行比较,用于评估模型。
本发明已经进行了多次实施试验,既设计了突发事件话题状态预测装置,还构建与实现了该实施例装置所对应的实验系统和相应的预测方法。实施例是以新浪微博为研究对象,爬取新浪微博2014年“昆明砍人事件”和“马航370事件”相关的微博,作为数据源进行预测方法中的相关算法和模型评估试验。
实施例的试验结果表明,本发明装置和方法是在突发事件话题预测方面的创新应用,与现有的话题预测方法相比较,给出了合理的话题关注度定量计算方法,利用隐马尔科夫模型,简化了话题状态计算的复杂度,并且能够预测话题状态。从评估结果来看,本发明有较好的预测精度,能够很好地适应突发事件话题状态预测。
参照图2的本发明方法的操作步骤,以下分别介绍实施例的具体实施步骤、对本发明实施例的实验结果进行分析。
步骤1,获取文本:通过设置关键词“昆明”、“砍人”、“马航”、“MH370”等关键词,从微博搜索上爬取“昆明砍人事件”和“马航370事件”相关原创微博,其中,“昆明砍人事件”爬取了从3月1号到4月1号的数据,共687730条博文和393760个用户信息。“马航370事件”爬取了从3月8号到4月8号的数据,共747693条微博和340095个用户信息。经过两周的数据爬取,获得的用户及其微博的数据如下表1所示:
用户数 | 微博数 | |
昆明砍人事件 | 393760 | 687730 |
马航370事件 | 340095 | 747693 |
步骤2,话题聚类分类:将所有的微博文本和评论文本放进话题聚类分类单元,首先进行分词,将分词结果和词频进行缓存,再使用LDA进行聚类,设置最终的话题数K=5,聚类后得到5个话题,但是经过筛选和去重,分别得到3个话题,各个事件话题如下表2所示,最后将微博文本进行归类。
昆明砍人事件 | 马航370事件 | |
话题1 | 昆明,砍人,火车站 | 失联,航班,飞机 |
话题2 | 家属,祈福 | 中国,马来西亚,马方 |
话题3 | 疆独,暴力,组织 | 搜救,客机,海域 |
步骤3,计算话题状态:本发明的话题状态是通过话题的关注度侧面表述的。话题关注度是通过微博的贡献度计算出来的。通过话题的关注度、原创微博贡献度和转发微博贡献度三个计算公式,分别对这六个话题计算在设定的连续时间的话题关注度值,限于篇幅,表3仅列出各话题关注度序列的部分数据。
从表3中可以看出,突发事件话题的关注度比较抖动,使用诸如回归分析,灰色预测等方法预测下一时刻的关注度,不能达到预期效果。所以,采用通过关注度数值,得到话题状态序列,使用0表示上升状态,使用1表示下降状态,从而得到下表4所示的各个话题状态序列:
昆明话题1 | 11011101111001101… |
昆明话题2 | 10110111011010110… |
昆明话题3 | 01011111110101111… |
马航话题1 | 11100101101111011… |
马航话题2 | 11100100111011100… |
马航话题3 | 01111100100110001… |
步骤4,预测话题状态:本发明根据通过自定义的意见领袖影响力计算公式计算两个事件中的意见领袖数,取出每个事件的领袖影响力P>1000的用户,两个事件中意见领袖的用户数分别如下表4所示:
昆明砍人事件 | 马航370事件 |
10781 | 20287 |
根据每个时段发出的微博情况,分别统计每个时段意见领袖参与率的情况。并且使用0表示状态上升,1表示状态下降,可以得到如下表5所示的意见领袖参与率的状态序列,限于篇幅,仅列出部分数据:
昆明话题1 | 01101101010101001… |
昆明话题2 | 10111011011100010… |
昆明话题3 | 01111111000101001… |
马航370话题1 | 01110000100101011… |
马航370话题2 | 11011100101011111… |
马航370话题3 | 01111100100101011… |
参见图3所示的六个话题的关注度和意见领袖参与率每天占整体比重的走势图。其中横坐标表示天数,纵坐标表示比例。可以看出大体上,意见领袖参与率的状态和话题关注度的状态是有联系的,所以本发明利用隐马尔科夫模型进行建模,实现话题状态的预测。
将意见领袖参与率状态序列输入到隐马尔科夫模型中,分别计算“昆明砍人事件”和“马航370事件”的模型。下表6和下表7分别是昆明砍人事件话题状态转移矩阵和昆明砍人事件观测序列输出概率矩阵:
表6:昆明砍人事件话题状态转移矩阵
昆明砍人事件 | 话题状态上升 | 话题状态下降 |
话题状态上升 | 0.380763 | 0.619237 |
话题状态下降 | 0.722222 | 0.277778 |
表7:昆明砍人事件观测序列输出概率矩阵
昆明砍人事件 | 意见领袖参与率状态上升 | 意见领袖参与率状态下降 |
话题状态上升 | 1.000000 | 0.000000 |
话题状态下降 | 0.000000 | 1.000000 |
根据得到的隐马尔科夫模型,将测试结果数据放入模型中,分别运用前向算法和后向算法得到预测的意见领袖参与率状态序列和话题状态序列,然后进行评估,得到话题状态序列的误差为ε1=0.103397,意见领袖参与率状态序列误差为ε2=0.08341。这两个误差都远远小于0.3。
表8:“马航370事件”题状态转移矩阵
马航370事件 | 话题状态上升 | 话题状态下降 |
话题状态上升 | 0.322925 | 0.677075 |
话题状态下降 | 0.622843 | 0.377157 |
表9:“马航370事件”观测序列输出概率矩阵
马航370事件 | 意见领袖参与率状态上升 | 意见领袖参与率状态下降 |
话题状态上升 | 1.000000 | 0.000000 |
话题状态下降 | 0.000000 | 1.000000 |
同样地,根据上述算法,得到“马航370事件”的话题状态序列的误差为ε1=0.019161,意见领袖参与率状态序列误差为ε2=0.26052。这两个误差也小于0.3。
从评估结果看来,通过意见领袖参与率状态序列可以训练出一个比较符合实际情况的隐马尔科夫模型,它包含话题状态间转移的概率矩阵和各个状态下输出意见领袖参与率状态的输出矩阵。通过隐马尔科夫模型中的状态转移矩阵预测下一时刻的话题状态。
通过微博贡献度、话题关注度、意见领袖影响力计算得到话题状态和意见领袖参与率状态,从而训练出意见领袖状态和话题状态的隐马尔科夫模型,经过上述本发明多次实施例的实验表明,本发明可以通过意见领袖参与率较精确地预测话题在未来时间段内的话题状态。而且,本发明可以自动获取微博系统中的微博数据,并进行话题聚类和微博文本分类,计算话题关注度,计算意见领袖影响力,建立能够预测话题状态的隐马尔科夫模型库,为话题预测提供直观数据,并且大型突发事件话题预测提供基础模型库,简化预测步骤,缩短预测周期。因此,本发明实现了发明目的。
Claims (10)
1.一种突发事件话题状态的预测装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元;其中各个单元功能如下:
文本获取单元,负责根据预设的突发事件的关键词,从微博系统中爬取与该突发事件相关的微博内容和用户信息,所述微博包括:原创微博、转发微博和评论;爬取的微博内容包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户关注数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬取模块、用户信息爬取模块和微博数据库;
话题聚类单元,负责选取微博数据库中的博文和评论内容进行聚类,找出突发事件的话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然后根据话题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分别存储于话题数据库和微博数据库中;设有:顺序连接的分词模块、聚类模块和相似度计算模块以及话题数据库共四个组成模块;
话题状态识别单元,负责根据话题聚类单元得到的话题和所标记的每个话题对应的微博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,再利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库中;设有顺序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组成模块;
话题状态预测单元,负责识别突发事件中的意见领袖,并根据参与突发事件话题讨论的意见领袖数量,计算意见领袖参与率;根据设定每个时段意见领袖参与率计算意见领袖的参与状态,将得到的意见领袖参与状态序列保存于预测模型数据库中;之后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存于预测模型数据库中;设有顺序连接的意见领袖识别模块,意见领袖参与率计算模块,话题状态预测模块和预测模型数据库共四个组成模块。
2.根据权利要求1所述的装置,其特征在于:所述文本获取单元各个组成 模块功能如下:
原创微博爬取模块,用于根据预设的突发事件的关键词,利用微博的搜索功能,获取所有设定时段和/或设定地区的原创微博,并保存于微博数据库;存储的微博内容包括:原创博文、发博时间、发博人标识、转发链接地址和评论的链接地址信息;
转发微博爬取模块,用于根据微博数据库中的原创微博的转发链接地址,逐个爬取转发微博,并将获取的所有转发微博存储于微博数据库;存储内容包括:转发博文、转发时间、转发用户标识、转发链接地址、评论链接地址及其与原创微博的转发关系;
评论爬取模块,用于根据微博数据库中的评论链接地址,获取设定微博的相关评论,并将全部评论保存在微博数据库中;存储内容包括:评论内容、评论时间,评论用户标识和该评论与微博的关系;
用户信息爬取模块,用于根据微博数据库中的用户标识,构造用户页面的统一资源定位符URL(Uniform Resource Location),再通过URL访问用户信息页,获取用户详细信息,并存储到微博数据库中;存储内容包括:用户昵称,粉丝数,关注数和发博数;
微博数据库,负责存储文本获取单元中各个模块从微博网站上爬取到的微博内容信息以及用户数据,以供话题聚类单元,话题状态识别单元和话题状态预测单元进行后续处理。
3.根据权利要求1所述的装置,其特征在于:所述话题聚类单元各个组成模块功能如下:
分词模块,负责利用中科院汉语词法分析系统ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)对微博文本内容进行分词和词性标注,过滤停用词,分别统计每个词的词频并缓存之,并将分词处理后的信息送至聚类模块;
聚类模块,负责利用潜在狄利克雷分配模型LDA(Latent Dirichlet Allocation)对分出的词进行聚类,将每个词分别聚类到不同的相应话题,再根据每个话题中的各词的词频,挑选出该话题中的2~3个主题词;所述话题表示为Topic={tword1,tword2,tword3},其中,tword1,tword2,tword3为三个不同的主题词, 再将主题词及其词频信息存储于话题数据库中,以供相似度计算模块使用;
相似度计算模块,负责根据分词模块的分词结果将微博文本表示为Microblog={mword1,mword2,...,mwordi,...,mwordn},式中,mwordi为微博文本经过分词后的第i个词语,自然数i为词语序号,其最大值为n;然后结合聚类模块得到的话题,将微博文本通过向量夹角的余弦值计算公式计算微博文本与话题的相似度,再根据相似度数值将所有的微博文本进行归类,每条微博可能归属于一个或多个话题,并将其归类信息标记在微博数据库中;
话题数据库,用于存储聚类模块聚类后得到的话题信息,包括主题标识,主题词和主题词词频的信息,以供话题状态识别单元和话题状态预测单元进行后续处理。
4.根据权利要求1所述的装置,其特征在于:所述话题状态识别单元各个组成模块功能如下:
话题关注度计算模块,用于根据每个话题的原创微博、转发微博和评论的内容及其数量,用定量方式计算得到该话题关注度后,送入话题状态识别模块进行话题状态计算;
话题状态识别模块,用于根据来自话题关注度计算模块的话题关注度值,对话题状态进行分析统计后,得到各个话题状态序列,再将该话题状态序列保存于话题状态数据库,以供话题状态预测单元中的评估预测模块作为参考依据;
话题状态数据库,用于存储话题状态序列,以供话题状态预测单元进行后续处理。
5.根据权利要求1所述的装置,其特征在于:所述话题状态预测单元各个组成模块功能如下:
意见领袖识别模块,用于综合微博数据库中的用户信息、微博信息和话题数据库中的话题信息,得到用户在突发事件话题中的微博数量、被转发和被评论的数量,并根据该三个参数计算每个用户的意见领袖影响力,再根据意见领袖影响力指标识别出意见领袖,并将这些意见领袖组成集合和缓存其用户标识,以供意见领袖参与率计算模块使用;
意见领袖参与率计算模块,用于首先从微博数据库中根据设定时间得到各个时段话题的微博,然后统计每个时段这些微博的发博人是否为意见领袖;并 缓存每个时段的意见领袖人数,结合意见领袖识别模块得到的意见领袖集合,计算每个时段意见领袖参与率,统计得到这些意见领袖参与状态信息,将得到的意见领袖参与状态序列信息保存于预测模型数据库,以供预测模型训练使用;
话题状态预测模块,用于根据意见领袖参与状态序列,训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型;并利用话题状态识别单元得到的话题状态序列和预留的意见领袖参与状态序列,评估该隐马尔科夫模型;再将评估结果较好的模型,保存在预测模型数据库中,以供制作一个模型库。
6.一种突发事件话题状态的预测装置的预测方法,其特征在于:根据突发事件中的微博话题产生机理,对微博中的原创微博、转发微博、评论以及意见领袖影响力属性进行下述具体分析:该预测装置的话题状态识别单元根据原创微博、转发微博和评论推导出话题关注度计算公式,计算设定话题关注度,以得到话题状态;再在话题状态预测单元中,根据用户微博转发和评论数,利用自定义的意见领袖影响力公式计算得到所有的意见领袖,再根据各话题计算出意见领袖参与率,计算得到意见领袖参与状态;最后根据隐马尔科夫模型,预测突发事件中的话题状态;所述方法包括下列操作步骤:
步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口,获取微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库中;所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和发博人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息;
步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进行分词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多个关键词,从中选取词频最高的2~3个词作为该话题的主题词;最后使用余弦相似度公式计算微博文本与话题的相似度,将微博进行归类;
步骤3,话题状态识别单元根据步骤2得到的主题词和已标记的每个话题所归属的微博文本,利用自定义的话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,通过话题关注度序列得到话题的状态序列,然后将话题状态序列存储在话题状态数据库中;
步骤4,话题状态预测单元先从微博数据库存储的全体用户中识别突发事 件的意见领袖,并根据步骤3中的时间段信息,寻找每个时段参与突发事件设定话题讨论的意见领袖,并计算意见领袖参与率;再根据每个时段意见领袖参与率计算出意见领袖参与状态,得到多个意见领袖的参与状态序列,将该多个意见领袖参与状态序列保存到预测模型数据库中;最后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良好的模型保存到预测模型数据库中。
7.根据权利要求6所述的方法,其特征在于:所述步骤1包括下述操作内容:
(11)原创微博爬取模块根据用户输入的突发事件关键词,从微博搜索页上,分时间段和/或分地域进行原创微博的数据搜索和爬取,将爬取的原创微博的包括微博文本、微博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中;
(12)转发微博爬取模块根据原创微博爬取模块爬取的原创微博,爬取转发微博;因转发微博和原创微博的结构相同,故也要爬取转发微博的包括微博文本、微博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中;且因转发微博爬取模块执行递归爬取操作,故要直到没有转发微博才停止操作;
(13)评论爬取模块根据微博数据库中的微博信息,得到该微博的评论链接地址,然后爬取该微博的包括评论内容、评论人标识、评论标识和评论时间的评论信息,并将这些信息存入文本数据库中;
(14)用户信息爬取模块是从微博数据库中获取所有的发博人标识和评论人标识,再爬取发博用户和评论用户中的包括:用户标识、用户昵称、粉丝数、关注数和发博数的信息,并保持在微博数据库中。
8.根据权利要求6所述的方法,其特征在于:所述步骤2包括下述操作内容:
(21)分词模块使用中科院ICTCLAS中文分词系统,对微博文本进行分词处理:只保留名词和动词,删除停用词和其它词性的词语,并统计分词后的每个词的词频信息M=<word,number>,其中,word为保留的名词或动词词语,number为该词语的数量,即词频;然后,缓存下述两组信息:每个微博文本的分词结果Microblog1={mword1,mword2,...,mwordi,...,mwordn}和该微博文本中每个词的出现数量信息,即词频式中,mwordi 为微博文本经过分词后的第i个词,自然数下标i为词序号,其最大值为n;为词mwordi的词频;
(22)聚类模块利用LDA算法对分词处理后的词进行聚类:先预设聚类结果的话题数K为3~5个,再在聚类后,根据每个话题中的各个词的词频,按照从大到小进行降序排列,挑选出每个话题的2~3个主题词,并将话题表示为主题词序列Topic1=<tword1,tword2,tword3>和该话题的主题词所对应的词频序列 最后将主题词及其词频信息存储到话题数据库中;
(23)相似度计算模块根据分词模块处理结果得到的每个微博文本分词后的词频信息和聚类模块聚类结果得到的主题词对应的词频信息使用向量夹角的余弦值计算公式计算两者的相似度值,再根据相似度数值对所有的微博文本进行归类:若cosθ>0.3,则将该微博归属于该话题;否则,不属于该话题;最后,将归类信息标记在微博数据库中;需要注意的是:每条微博文本可能归属于多个话题。
9.根据权利要求6所述的方法,其特征在于:所述步骤3包括下述操作内容:
(31)话题关注度计算模块首先根据话题聚类分类模块得到的话题,按照预设的时间间隔,分时段分别计算每个话题的关注度;再按照时间段、话题标识及其关注度值将计算出的每个话题关注度存储于话题状态数据库中;其具体操作步骤包括下述内容:
(31A)首先设置微博贡献度表示每条微博对话题的贡献:如果包括原创微博、转发微博和评论的某条微博文本内容被归类属于设定话题,则这条微博对该话题的微博贡献度MC(Microblog Contribution)记为1;如果该条微博被归类到n个话题,则这条微博对每个话题的微博贡献度为
(31B)定义话题关注度TA(Topic Attention)是设定话题的所有微博的微博贡献度的总和,按照下述公式:计算每个话题的关注度;其中,OMC(Original Microblog Contribution)和RMC(Repost Microblog Contribution)分别为设定话题的原创微博贡献度及其转发微博贡献度,自然数下标j和k分别为原创微博及其转发微博的序号,其最大值分别为NO和NR;
原创微博贡献度OMC是该微博的自身贡献度、其转发微博贡献度和评论的贡献度之和,其计算公式为:式中,SC(Self Contribution)为原创微博的自身贡献度,SRMC(Sub-Repost Microblg Contribution)为该原创微博所归属的所有转发微博的贡献度,自然数下标p是该原创微博的转发微博的序号,其最大值,即该原创微博的转发微博的总数为NSR,CMC(Comment Microblog Contribution)为该原创微博的评论贡献度,自然数下标q是该原创微博的评论序号,其最大值,即该原创微博的评论总数为NC,微博评论的衰减因子β取值范围是:(0,1]之间的实数;因为评论不会对话题的扩散产生实质效果,但因评论的人多,也会从侧面反映话题的关注度,其对微博的贡献要弱于转发,故在计算评论的贡献度时,采用衰减因子来平衡微博评论对话题的贡献度;
因在微博系统中,转发微博也是一条微博,其和原创微博具有相同属性:既有自己的微博内容,也能够被转发或被评论,其区别是具有转发属性:转发微博会带上它所转发的原创微博,所以转发微博的贡献度计算公式和原创微博的贡献度计算公式相同,即其计算公式为:
(32)话题状态识别模块根据步骤(31)计算得到的话题关注度值,对话题状态进行分析统计:若关注度值变大,则表示状态上升;若关注度值变小,则表示状态下降;最终得到各个话题状态的序列后,将该话题状态序列保存在话题状态数据库中。
10.根据权利要求6所述的方法,其特征在于:所述步骤4包括下述操作内容:
(41)意见领袖识别模块结合微博数据库中的用户信息、微博信息和话题数据库中的话题信息,得到每个用户在突发事件设定话题中的发微博数量、被转发数量和被评论数量,根据公式计算每个用户的意见领袖影响力值P,再根据意见领袖影响力指标数值高低,选取P>1000的用户作为意见领袖,并缓存这些意见领袖的用户标识;式中,自然数下标a、b和c分别表示该用户原创微博,被转发微博和被评论的序号,最大值分别为NM,NR和NC;
(42)根据意见领袖参与率的计算公式:分时段分别统计每个时段参与话题的意见领袖所占全部意见领袖的百分比,即为意见领袖参与率;式中,OLP为意见领袖参与率,它是取值范围:[0,1]之间的实数;自然数Numbert和Numbertotal分别为设定时段t时的意见领袖人数和参与设定话题的意见领袖总人数;计算得到每个时段意见领袖参与率,就能够得到意见领袖参与状态:意见领袖参与率增大,表示参与状态上升;反之,即意见领袖参与率减小,表示参与状态下降;
(43)话题状态预测模块根据意见领袖参与状态序列,训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型;并且利用话题状态识别单元得到的话题状态序列和预留的意见领袖参与状态序列,对模型进行评估;再将评估结果较好的模型,保存在预测模型数据库中,以便制作一个模型库;该步骤进一步包括下述操作内容:
(43A)定义隐马尔科夫模型的数学表达式为:λ=(S,O,A,B,π),其中:
S为话题状态的集合,所述话题状态是用各个时段话题关注度指标值的升降来表示设定话题的动态状况,故其状态集合为{上升,下降}:若下一时段话题关注度指标数值比上一时段大,表示话题状态上升;若下一时段话题关注度指标数值比上一时段小,表示话题状态下降;
O为意见领袖参与状态的集合,所述意见领袖参与状态是用各时段意见领袖参与率指标值的升降来表示意见领袖参与话题讨论的动态状况,所述意见领袖参与状态的涵义是意见领袖参与率指标的下一时段数值大于上一时段,表示意见领袖参与状态上升;意见领袖参与率指标下一时段数值小于上一时段,表示意见领袖参与状态下降,所以意见领袖参与状态集合为{上升,下降};
A为话题状态转移概率矩阵,所述话题状态转移矩阵是一个2×2矩阵,共有四项,分别是:上升状态→上升状态的转移概率,上升状态→下降状态的转移概率,下降状态→上升状态的转移概率,下降状态→下降状态的转移概率;
B为意见领袖参与状态概率分布矩阵,所述概率分布矩阵是一个2×2矩阵,共有四项,分别是:话题状态上升时输出意见领袖参与状态上升的概率,话题状态上升时输出意见领袖参与状态下降的概率,话题状态下降时输出意见领袖 状态上升的概率,话题状态下降时输出意见领袖参与状态下降的概率;
π为初始状态概率的分布状况,其初始状态为π0={0.5,0.5},即上升状态和下降概率平均;
(43B)使用步骤(42)计算得到的意见领袖参与状态序列,先划分80%用作训练集,再利用隐马尔科夫模型的前向后向算法对模型进行训练,得到话题状态转移概率矩阵A和意见领袖参与状态概率分布矩阵B;
(43C)利用步骤3得到的话题状态序列,以及步骤(43B)剩余的20%意见领袖参与状态序列对模型进行评估,利用误差公式分别计算其误差;其中,ε为误差,其是取值范围:[0,1]之间的实数;Nwrong为模型执行后得到的状态序列与实际状态序列相比发生差错的状态个数;Ntotal为实际状态的个数;如果ε≤0.3,则认为得到的模型是可信的;
模型评估的算法采用隐马尔科夫模型的前向算法和后向算法:前向算法用于计算意见领袖参与状态序列,再和预留的20%意见领袖参与状态序列进行比较来评估模型;后向算法用于计算话题状态序列,再和步骤3得到的话题状态序列进行比较,用于评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410412196.5A CN104216954B (zh) | 2014-08-20 | 2014-08-20 | 突发事件话题状态的预测装置及预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410412196.5A CN104216954B (zh) | 2014-08-20 | 2014-08-20 | 突发事件话题状态的预测装置及预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104216954A CN104216954A (zh) | 2014-12-17 |
CN104216954B true CN104216954B (zh) | 2017-07-14 |
Family
ID=52098444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410412196.5A Expired - Fee Related CN104216954B (zh) | 2014-08-20 | 2014-08-20 | 突发事件话题状态的预测装置及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216954B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615718B (zh) * | 2015-02-05 | 2017-12-15 | 北京航空航天大学 | 社交网络突发事件的层次分析方法 |
CN104657498B (zh) * | 2015-03-11 | 2017-12-01 | 中国科学院自动化研究所 | 微博用户影响力的评估方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
CN106294333B (zh) * | 2015-05-11 | 2019-10-29 | 国家计算机网络与信息安全管理中心 | 一种微博突发话题检测方法及装置 |
CN104809253B (zh) * | 2015-05-20 | 2017-12-08 | 成都布林特信息技术有限公司 | 互联网数据分析系统 |
CN104933475A (zh) * | 2015-05-27 | 2015-09-23 | 国家计算机网络与信息安全管理中心 | 网络转发行为预测方法及装置 |
CN105389354B (zh) * | 2015-11-02 | 2018-08-21 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN106970925B (zh) * | 2016-01-14 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 用户观点的异常预警方法和装置 |
CN105809554B (zh) * | 2016-02-07 | 2020-03-17 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN107291754B (zh) * | 2016-04-01 | 2020-12-04 | 北京大学 | 新闻评论的预测方法和新闻评论的预测系统 |
CN106055661B (zh) * | 2016-06-02 | 2017-11-17 | 福州大学 | 基于多Markov链模型的多兴趣资源推荐方法 |
CN106156364A (zh) * | 2016-08-02 | 2016-11-23 | 西南石油大学 | 一种基于时间流的计算新闻事件动态影响力的方法与系统 |
CN106446146B (zh) * | 2016-09-21 | 2019-05-17 | 中国国防科技信息中心 | 一种微博中事件持续关注者的识别模型建立及识别方法 |
CN106599196B (zh) * | 2016-12-14 | 2021-07-16 | 竹间智能科技(上海)有限公司 | 一种人工智能对话方法及系统 |
CN107124630B (zh) * | 2017-03-30 | 2020-04-14 | 华为技术有限公司 | 节点数据管理的方法及装置 |
CN107193797B (zh) * | 2017-04-26 | 2020-08-18 | 天津大学 | 中文微博的热点话题检测及趋势预测方法 |
CN107229689B (zh) * | 2017-05-19 | 2021-02-02 | 四川新网银行股份有限公司 | 一种微博舆情风险研判的方法 |
CN107273496B (zh) * | 2017-06-15 | 2020-07-28 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN110147482B (zh) * | 2017-09-11 | 2021-06-22 | 上海优扬新媒信息技术有限公司 | 用于获取突发热点主题的方法和装置 |
CN107885793A (zh) * | 2017-10-20 | 2018-04-06 | 江苏大学 | 一种微博热点话题分析预测方法及系统 |
CN108062402B (zh) * | 2017-12-27 | 2020-10-27 | 云润大数据服务有限公司 | 一种事件时间轴挖掘方法与系统 |
CN108596239B (zh) * | 2018-04-20 | 2021-12-31 | 南京航空航天大学 | 一种基于马尔科夫链和动态回溯的主题热度趋势预测方法 |
CN108733791B (zh) * | 2018-05-11 | 2020-11-20 | 北京科技大学 | 网络事件检测方法 |
CN108763337A (zh) * | 2018-05-14 | 2018-11-06 | 苏州闻道网络科技股份有限公司 | 用于确定影响力指数的方法及其装置 |
CN110737820B (zh) * | 2018-07-03 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 用于生成事件信息的方法和装置 |
CN109582786B (zh) * | 2018-10-31 | 2020-11-24 | 中国科学院深圳先进技术研究院 | 一种基于自动编码的文本表示学习方法、系统及电子设备 |
CN109857869B (zh) * | 2019-01-26 | 2021-07-30 | 北京工业大学 | 一种基于Ap增量聚类和网络基元的热点话题预测方法 |
CN110489741B (zh) * | 2019-07-12 | 2022-06-21 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN110378532B (zh) * | 2019-07-19 | 2021-12-14 | 中南大学 | 一种基于随机树的科研主题状态预测方法 |
TWI742450B (zh) * | 2019-10-16 | 2021-10-11 | 財團法人工業技術研究院 | 企劃書的自動化產生系統及其方法 |
CN110929168A (zh) * | 2019-11-12 | 2020-03-27 | 北京百分点信息科技有限公司 | 关键受众确定方法、装置及电子设备 |
CN111783468B (zh) * | 2020-06-28 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 文本处理方法、装置、设备和介质 |
CN112380846A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 医学文献的突发热点检测方法、装置、电子设备及相关产品 |
CN112527960A (zh) * | 2020-12-17 | 2021-03-19 | 华东师范大学 | 基于关键词聚类的突发事件检测方法 |
CN112667876B (zh) * | 2020-12-24 | 2024-04-09 | 湖北第二师范学院 | 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法 |
CN113946736A (zh) * | 2021-10-18 | 2022-01-18 | 北京清博智能科技有限公司 | 一种计算事件热度系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
-
2014
- 2014-08-20 CN CN201410412196.5A patent/CN104216954B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
Non-Patent Citations (2)
Title |
---|
基于意见领袖参与行为的微博话题热度预测研究;赵龙文等;《情报杂志》;20131231;第32卷(第12期);第42-46页 * |
张乐等.网络论坛热点话题的关注度预测+.《计算机与数字工程》.2013,第41卷(第5期),第772-774,861页. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104216954A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104216954B (zh) | 突发事件话题状态的预测装置及预测方法 | |
Saad et al. | Twitter sentiment analysis based on ordinal regression | |
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
Wang et al. | TM-LDA: efficient online modeling of latent topic transitions in social media | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
Lubis et al. | The effect of the TF-IDF algorithm in times series in forecasting word on social media | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN106682208B (zh) | 基于融合特征筛选与随机森林的微博转发行为预测方法 | |
CN109325231A (zh) | 一种多任务模型生成词向量的方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
Meenakshi et al. | A Data mining Technique for Analyzing and Predicting the success of Movie | |
CN106599065A (zh) | 一种基于Storm分布式框架的食品安全网络舆情预警系统 | |
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
Basnet et al. | Improving Nepali news recommendation using classification based on LSTM recurrent neural networks | |
Yan et al. | An improved single-pass algorithm for chinese microblog topic detection and tracking | |
Li et al. | Lifecycle research of social media rumor refutation effectiveness based on machine learning and visualization technology | |
Wan | Sentiment analysis of Weibo comments based on deep neural network | |
Yang et al. | DUAPM: An effective dynamic micro-blogging user activity prediction model towards cyber-physical-social systems | |
CN110147482A (zh) | 用于获取突发热点主题的方法和装置 | |
Kumar et al. | Depression detection in Twitter tweets using machine learning classifiers | |
Rauniyar | A survey on deep learning based various methods analysis of text summarization | |
Konagala et al. | Fake news detection using deep learning: supervised fake news detection analysis in social media with semantic similarity method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170714 |
|
CF01 | Termination of patent right due to non-payment of annual fee |