CN106294333A - 一种微博突发话题检测方法及装置 - Google Patents

一种微博突发话题检测方法及装置 Download PDF

Info

Publication number
CN106294333A
CN106294333A CN201510236634.1A CN201510236634A CN106294333A CN 106294333 A CN106294333 A CN 106294333A CN 201510236634 A CN201510236634 A CN 201510236634A CN 106294333 A CN106294333 A CN 106294333A
Authority
CN
China
Prior art keywords
item
burst
character
characteristic item
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510236634.1A
Other languages
English (en)
Other versions
CN106294333B (zh
Inventor
贺敏
王丽宏
周勇林
云晓春
程学旗
包秀国
马宏远
丁丽
刘玮
刘悦
赵立永
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510236634.1A priority Critical patent/CN106294333B/zh
Publication of CN106294333A publication Critical patent/CN106294333A/zh
Application granted granted Critical
Publication of CN106294333B publication Critical patent/CN106294333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。

Description

一种微博突发话题检测方法及装置
技术领域
本发明涉及网络信息挖掘领域,特别是涉及一种微博突发话题检测方法及装置。
背景技术
微博是近年来兴起的web2.0新媒体,用户可以通过手机、即时通信工具、Email、Web等媒介在个人微博上发布140字以内的文本信息及图片、影音等多媒体内容,展现个人最新动态,分享身边实时信息。微博平台上每天产生数量庞大的信息,截至2013年年底,我国微博用户总用户量已经突破13亿,日均用户发帖量超过2亿。而且,由于微博与多种媒体关联,信息发表、转发非常便捷,微博成为信息传播速度最快的媒体。社会上许多突发性话题,往往在微博平台上首发,借助其好友转发机制迅速传播,引起广泛的社会共鸣,进而波及传统媒体如新闻、论坛、博客等,产生巨大的社会影响。因此,微博平台上的社会突发话题检测技术对于最新社会热点发现、网络民意的及时感知、舆情检测、应急处置等方面都具有积极的现实意义。
但不同于传统的新闻文档,微博数据具有内容短小、数量巨大、信息零碎、用语不规范等显著特性,这些新特点为面向微博的突发话题检测技术带来了以下挑战:
微博信息用词不规范,须及时识别微博新词,每个用户随时都可以发表微博,信息具有原创性和时效性的同时,也表现出草根性和随意性,用词口语化、不规范现象严重,简称、缩略语大量存在。随着网络事件的事态发展,微博空间不断涌现出表达话题核心语义的新词,只有及时动态地发现这些重要新词,才能准确地表达话题内容,因此,新词的不断涌现,对突发话题发现技术提出了新的挑战。
微博信息数量庞大,突发话题容易被信息噪音淹没,微博用户根据个人兴趣每天发表大量身边发生的事件,信息琐碎零散,基于好友转发的传播机制,导致海量的信息冗余,因此,对于突发话题,虽然其在话题相关的微博数量上增长迅猛,但总量有限,很容易被各种噪声信息、热点话题等所淹没,难以识别。
然而,传统的突发话题发现方法是以词典中的词语作为特征,从话题随时间的动态特性出发,提取突发词语来实现的,这些方法在微博环境下不适用,表现在以下两方面:一方面词典中词语不能准确反映突发事件的关键特征,微博信息实时性很强,突发事件往往是新发生的事件,需要用新词来描述;另一方面微博信息短小,用静态的词语特征来表示微博信息,将带来严重的特征稀疏问题,同时微博数量巨大后续计算复杂度高,所以,需要针对微博信息的特点,发明微博突发话题检测方法。
发明内容
本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题。
根据本发明的一个方面,提供了一种微博突发话题检测方法,包括:提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题。
其中,提取指定的微博数据集合中的特征项包括:提取指定的微博集合中的重复字符串;提取重复字符串所在的文本中位于重复字符串前面的词语,得到第一邻接集合,提取重复字符串所在的文本中位于重复字符串后面的词语,得到第二邻接集合;确定第一邻接集合以及第二邻接集合中元素的个数;在第一邻接集合以及第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为特征项。
其中,以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项当前的能量和加速度,包括:根据统计特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到质量参数项m:公式1:m(i)=tf(i)×idf(i);根据特征项在时刻t出现的频次tf(t,i)、在时刻t出现的文档频次df(t,i)、以及在时刻t微博内容包含特征项的博主数af(t,i)按照公式2计算得到位置参数项x;公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);其中a、b以及c是调节参数;根据质量参数项、位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到特征项的当前能量和加速度。
其中,当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,包括:在每两个突发特征之间的互信息大于第三阈值时,将该两个突发特征合并为一个特征项组;待第一次合并完成后,将与特征项组内的突发特征之间的互信息大于第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与特征项组内的突发特征之间的互信息大于指定阈值。
其中,根据检测到的突发特征项在微博中同时出现的情况计算突发特征项之间的互信息,包括:采用如下公式计算突发特征项之间的互信息:其中,P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
根据本发明的另一个方面,提供了一种微博突发话题检测装置,包括:
提取模块,用于提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定模块,用于确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;建模模块,用于以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;检测模块,用于在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;计算模块,用于根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;合并模块,用于当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题。
其中,提取模块包括:第一提取单元,用于提取指定的微博集合中的重复字符串;第二提取单元,用于提取重复字符串所在的文本中位于重复字符串前面的词语,得到第一邻接集合,提取重复字符串所在的文本中位于重复字符串后面的词语,得到第二邻接集合;第一确定单元,用于确定第一邻接集合以及第二邻接集合中元素的个数;第二确定单元,用于在第一邻接集合以及第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为特征项。
其中,建模模块,包括:
第一计算单元,用于根据统计特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到质量参数项m;公式1:m(i)=tf(i)×idf(i);第二计算单元,用于根据特征项在时刻t出现的频次tf(t,i)、在时刻t刻出现的文档频次df(t,i)、以及在时刻t微博内容包含特征项的博主数af(t,i)按照公式2计算得到位置参数项x;公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);其中a、b以及c是调节参数;第三计算单元,用于根据质量参数项、位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到特征项的当前能量和加速度。
其中,合并模块包括:第一合并单元,用于在每两个突发特征之间的互信息大于第三阈值时,将该两个突发特征合并为一个特征项组;第二合并单元,用于待第一次合并完成后,将与特征项组内的突发特征之间的互信息大于第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与特征项组内的突发特征之间的互信息大于指定阈值。
其中,计算模块具体用于:采用如下公式计算突发特征项之间的互信息:其中,P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
本发明实施例的方案,基于动量模型提取微博的突发特征,并通过对突发特征的合并来得到微博的突发话题,该方案能够提高微博突发话题检测的准确率。
附图说明
图1是本发明实施例1提供的微博突发话题检测方法的流程图;
图2是本发明实施例2提供的微博突发话题检测方法的流程图;
图3是本发明实施例3提供的微博突发话题检测装置的结构框图。
具体实施方式
为了解决现有技术微博突发话题难以识别的问题,本发明提供了一种微博突发话题获取方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
实施例1
本实施例提供了一种微博突发话题检测方法,该方法用于实现微博突发话题的识别以及获取,如图1所示,该方法包括如下步骤:
步骤101:提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;
在该步骤中,提取指定的微博数据集合中的特征项包括:提取指定的微博集合中的重复字符串;提取重复字符串所在的文本中位于重复字符串前面的词语,得到第一邻接集合,提取重复字符串所在的文本中位于重复字符串后面的词语,得到第二邻接集合;确定第一邻接集合以及第二邻接集合中元素的个数;在第一邻接集合以及第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为特征项。
步骤102:确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;
步骤103:以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;
在该步骤中:以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项当前的能量和加速度具体包括:
根据统计特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到质量参数项m:
公式1:m(i)=tf(i)×idf(i);
根据特征项在时刻t出现的频次tf(t,i)、在时刻t出现的文档频次df(t,i)、以及在时刻t微博内容包含特征项的博主数af(t,i)按照公式2计算得到位置参数项x;
公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);
其中a、b以及c是调节参数;
根据质量参数项、位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到特征项的当前能量和加速度。
步骤104:在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;
步骤105:根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;
在该步骤105中,根据检测到的突发特征项在微博中同时出现的情况计算突发特征项之间的互信息,包括:
采用如下公式计算突发特征项之间的互信息:
MI ( i , j ) = lb P ( i , j ) P ( i ) P ( j ) ;
其中,P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
步骤106:当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题。
在该步骤106中:当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,包括:在每两个突发特征之间的互信息大于第三阈值时,将该两个突发特征合并为一个特征项组;待第一次合并完成后,将与特征项组内的突发特征之间的互信息大于第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与特征项组内的突发特征之间的互信息大于指定阈值。
实施例2
为解决上述技术问题,本实施例通过公开更多的技术细节结合附图2,对上述实施例中的微博突发话题发现方法进行进一步说明。
步骤1:动态提取指定的时间窗口内微博信息流的有意义串特征,即有意义字符串,作为局部微博信息的动态特征,利用微博信息的重复特性,结合字符串的上下文邻接分析,提取微博信息中的有意义串。
将微博信息看作时间序列上的文本流,设置观察时间窗口T,将时间窗口T内的微博信息作为文档集合D={D1,D2,D3,…},提取D中的有意义字符串,形成窗口T内微博信息的特征空间S,随着时间窗口的推移,特征空间S将动态变化。
提取的有意义串是指包含具体语义,灵活独立的语言单元,能在多种不同语境中使用的字符串,包括了未登录的新词和命名实体,以及有意义的词组和短语,具有语义完整性,突破了词典中词语的界限。
步骤1中的邻接分析是指分析有意义字符串的上下文语言环境,能够应用于多种不同的上下文环境,具有语用灵活性的字符串是有意义字符串。
上下文邻接分析指提取重复串的邻接集合,计算邻接类别,邻接集合和邻接种类定义如下:
邻接集合:分为左邻接集合NBL和右邻接集合NBR,分别指真实文本中,与字符串S左边或者右边相邻的词语的集合。当字符串做为一个句子的开始,其左邻接元素记为BOS,做为句子的结束时,其右邻接元素记为EOS。
邻接种类:分为左邻接种类VL和右邻接种类VR,分别指左邻接集合中和右邻接集合种元素的数目,它们反映了字符串上文和下文语境种类的多少。
选取左邻接类别和右邻接类别中的较小值记为minVN。当重复串的minVN大于阈值TVN时,该字符串就是有意义字符串。阈值TVN的选取与微博信息的规模相关,取值应大于2,本实施例优选的取值为3,时间窗口T优选的取值为1天。
步骤2:对微博特征借鉴动力学原理建模,类似物体的运动过程,建模特征随事件动态变化的动力学指标,根据特征的当前能量大小和加速度检测突发特征。
步骤2中,由于微博突发话题的产生、发展、高潮、衰落、消失的过程,与动力学中的物体从静止开始运动,速度加快,再到速度变缓,最终停止的过程类似,在物理学中,动量是与物体的质量和速度相关的物理量,描述这个物体在它运动方向上保持运动的趋势,因此微博特征的动力学模型可以借鉴动力学中的动量定义对微博特征建模,将特征在大规模统计文本中的流通度作为特征的“质量”m,将特征当前时刻的热度作为特征的“位置”x,来计算特征在当前时刻的速度、动量和加速度,直接反映了特征在事件发展中的能量大小和变化趋势。
微博的突发特征是与时间相关的,指在某一时刻突然爆发,大量涌现的特征,突发特征具有两方面的特性,一个是当前时刻的瞬时能量比较大,另一个是与历史情况比较,加速度比较大,有迅速增长的趋势,这两方面正好与动量以及加速度相对应.所以,基于特征的动量模型能够检测出突发特征。
特征的“质量”m指特征的重要性,它不随时间变化,是特征的基本属性,在一段较长时间内基本恒定,该值采用传统的TF-IDF来衡量,通过统计特征在大量信息中的频次tf和文档频次idf值计算得到,特征i的质量m(i)=tf(i)×idf(i);
特征的“位置”x与时间相关,指特征在某一时刻的流通度或关注度,随时间动态变化该值与特征在时刻t出现的频次、文档频次以及参与博主数等相关,计算公式如下:
x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i),
其中,x(t,i)表示特征i在时刻t的“位置”,tf(t,i)表示特征i在时刻t出现的频次,df(t,i)表示特征i在时刻t出现的文档频次,af(t,i)表示在时刻t的微博内容包含特征i的博主数,a、b、c是调节参数。
上述定义中,特征的“质量”m是在大量信息中统计得到的,反映了特征在普通文本流中的重要性,特征的“位置”x是与时间相关的值,反映了特征在时刻t的热度,由这两个基本的定义,可以计算特征i在时刻t的一系列物理值:
速度 v = Δx Δt ;
加速度 a = Δv Δt ;
动量p=m×v;
经过动量模型建模后,特征的动量p反映了特征在时刻t的能量大小及变化趋势,加速度a反映了特征在时刻t与时刻t-1的二阶变化趋势,即时刻t的增长率与时刻t-1的增长率相比是加快还是放缓。
突发特征检测过程分为训练阶段和检测阶段,训练阶段有两方面,一方面是从大量的微博历史数据中计算得到特征的质量m,另一方面是在标注的微博突发特征集合上,训练得到突发特征提取的动量p和加速度a的阈值参数,检测阶段利用训练好的质量m来计算特征的速度v,加速度a和动量p,根据动量p和加速度a的阈值参数来检测突发特征。
步骤3:根据突发特征在微博信息中的共现的情况计算两两突发特征之间的互信息,根据互信息对突发特征合并,发现突发话题。
在该步骤中,对步骤2检测出的突发特征进行合并,每个突发特征对应一个广义的话题,这些广义话题之间可能存在交叉重复现象,所以,还需要对这些突发特征进行合并,多个突发特征共同来描述一个话题,形成具体明确的突发话题。
特征之间的互信息指特征在相同微博信息中的共现情况,体现了两个特征的依赖程度,互信息越高,特征的相关度越高,描述同一话题的可能性越大,考虑到话题的特征之间可能有交叉,一个突发特征有可能描述多个不同的话题,特征合并时需要计算突发特征两两之间的互信息,互信息大于一定阈值时,将特征合并,经过多轮层次合并后,最后得到突发话题。
两个特征的互信息反映了特征在同一条微博信息中的共现情况,将互信息作为突发特征距离的度量,计算公式如下:
MI ( i , j ) = lb P ( i , j ) P ( i ) P ( j )
P(i)代表特征i在观察时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
特征合并的阈值D在标注的突发特征集合中训练得到。首轮合并时,只要两个特征之间的互信息大于D,就将特征合并为一个组。下一轮合并时,只要特征与一组特征中的一个特征之间的互信息大于D,就将特征合并入这个组。一个特征可以并入多个组。直到没有互信息大于D的特征可合并,合并完毕。合并后的每个组中有两个或多个突发特征,构成一个突发话题。
实施例3
本实施例提供了一种微博突发话题检测装置,该装置用于实现上述实施例1以及实施例2提供的微博突发话题检测方法,如图3所示,该装置20包括如下组成部分:
提取模块21,用于提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;
确定模块22用于确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;
建模模块23,用于以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;
检测模块24,用于在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;
计算模块25,用于根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;
合并模块26,用于当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题。
其中,提取模块21具体可以包括:第一提取单元,用于提取指定的微博集合中的重复字符串;第二提取单元,用于提取重复字符串所在的文本中位于重复字符串前面的词语,得到第一邻接集合,提取重复字符串所在的文本中位于重复字符串后面的词语,得到第二邻接集合;第一确定单元,用于确定第一邻接集合以及第二邻接集合中元素的个数;第二确定单元,用于在第一邻接集合以及第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为特征项。
其中,建模模块23具体可以包括:第一计算单元,用于根据统计特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到质量参数项m;公式1:m(i)=tf(i)×idf(i);第二计算单元,用于根据特征项在时刻t出现的频次tf(t,i)、在时刻t刻出现的文档频次df(t,i)、以及在时刻t微博内容包含特征项的博主数af(t,i)按照公式2计算得到位置参数项x;公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);其中a、b以及c是调节参数;第三计算单元,用于根据质量参数项、位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到特征项的当前能量和加速度。
其中,上述计算模块25具体用于:采用如下公式计算突发特征项之间的互信息:其中,P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
其中,上述合并模块26包括:第一合并单元,用于在每两个突发特征之间的互信息大于第三阈值时,将该两个突发特征合并为一个特征项组;第二合并单元,用于待第一次合并完成后,将与特征项组内的突发特征之间的互信息大于第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与特征项组内的突发特征之间的互信息大于指定阈值。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种微博突发话题检测方法,其特征在于,包括:
提取指定的微博数据集合中的特征项,所述特征项为包含具体语义的语言单元;
确定所述特征项在所述微博数据集合的文本中的流通度以及所述特征项当前的热度;
以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项的当前能量和加速度;
在得到的所述能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;
根据检测到的突发特征项在同一条微博中同时出现的情况计算所述突发特征项之间的互信息;
当所述互信息大于第三阈值时,对所述突发特征项进行合并,得到突发话题。
2.根据权利要求1所述的方法,其特征在于,提取指定的微博数据集合中的特征项包括:
提取指定的微博集合中的重复字符串;
提取所述重复字符串所在的文本中位于所述重复字符串前面的词语,得到第一邻接集合,提取所述重复字符串所在的文本中位于所述重复字符串后面的词语,得到第二邻接集合;
确定所述第一邻接集合以及所述第二邻接集合中元素的个数;
在所述第一邻接集合以及所述第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为所述特征项。
3.根据权利要求1所述的方法,其特征在于,所述以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项当前的能量和加速度,包括:
根据统计所述特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到所述质量参数项m:
公式1:m(i)=tf(i)×idf(i);
根据所述特征项在时刻t出现的频次tf(t,i)、在时刻t出现的文档频次df(t,i)、以及在时刻t微博内容包含所述特征项的博主数af(t,i)按照公式2计算得到所述位置参数项x;
公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);
其中所述a、b以及c是调节参数;
根据所述质量参数项、所述位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到所述特征项的当前能量和加速度。
4.根据权利要求1所述的方法,其特征在于,所述当所述互信息大于第三阈值时,对所述突发特征项进行合并,得到突发话题,包括:
在每两个突发特征之间的互信息大于所述第三阈值时,将该两个突发特征合并为一个特征项组;
待第一次合并完成后,将与所述特征项组内的突发特征之间的互信息大于所述第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与所述特征项组内的突发特征之间的互信息大于所述指定阈值。
5.根据权利要求1所述的方法,其特征在于,根据检测到的突发特征项在微博中同时出现的情况计算所述突发特征项之间的互信息,包括:
采用如下公式计算所述突发特征项之间的互信息:
MI ( i , j ) = lb P ( i , j ) P ( i ) P ( j ) ;
其中,所述P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
6.一种微博突发话题检测装置,其特征在于,包括:
提取模块,用于提取指定的微博数据集合中的特征项,所述特征项为包含具体语义的语言单元;
确定模块,用于确定所述特征项在所述微博数据集合的文本中的流通度以及所述特征项当前的热度;
建模模块,用于以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项的当前能量和加速度;
检测模块,用于在得到的所述能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;
计算模块,用于根据检测到的突发特征项在同一条微博中同时出现的情况计算所述突发特征项之间的互信息;
合并模块,用于当所述互信息大于第三阈值时,对所述突发特征项进行合并,得到突发话题。
7.根据权利要求6所述的装置,其特征在于,所述提取模块包括:
第一提取单元,用于提取指定的微博集合中的重复字符串;
第二提取单元,用于提取所述重复字符串所在的文本中位于所述重复字符串前面的词语,得到第一邻接集合,提取所述重复字符串所在的文本中位于所述重复字符串后面的词语,得到第二邻接集合;
第一确定单元,用于确定所述第一邻接集合以及所述第二邻接集合中元素的个数;
第二确定单元,用于在所述第一邻接集合以及所述第二邻接集合中的元素个数均大于预设值时,确定当前重复字符串为所述特征项。
8.根据权利要求6所述的装置,其特征在于,所述建模模块,包括:
第一计算单元,用于根据统计所述特征项i在选定的历史微博数据集合中的词频tf以及逆向文件频率idf按照公式1计算得到所述质量参数项m;
公式1:m(i)=tf(i)×idf(i);
第二计算单元,用于根据所述特征项在时刻t出现的频次tf(t,i)、在时刻t刻出现的文档频次df(t,i)、以及在时刻t微博内容包含所述特征项的博主数af(t,i)按照公式2计算得到所述位置参数项x;
公式2:x(t,i)=a×tf(t,i)+b×df(t,i)+c×af(t,i);
其中所述a、b以及c是调节参数;
第三计算单元,用于根据所述质量参数项、所述位置参数项以及动力学模型,使用速度计算公式、加速度计算公式以及动量计算公式计算得到所述特征项的当前能量和加速度。
9.根据权利要求6所述的装置,其特征在于,所述合并模块包括:
第一合并单元,用于在每两个突发特征之间的互信息大于所述第三阈值时,将该两个突发特征合并为一个特征项组;
第二合并单元,用于待第一次合并完成后,将与所述特征项组内的突发特征之间的互信息大于所述第三阈值的突发特征合并到该特征项组内,直至不存在任何突发特征与所述特征项组内的突发特征之间的互信息大于所述指定阈值。
10.根据权利要求6所述的装置,其特征在于,所述计算模块具体用于:
采用如下公式计算所述突发特征项之间的互信息:
MI ( i , j ) = lb P ( i , j ) P ( i ) P ( j ) ;
其中,所述P(i)代表特征i在时间窗口的文档中出现的概率,P(i,j)代表特征i和j在时间窗口内共现的概率。
CN201510236634.1A 2015-05-11 2015-05-11 一种微博突发话题检测方法及装置 Active CN106294333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510236634.1A CN106294333B (zh) 2015-05-11 2015-05-11 一种微博突发话题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510236634.1A CN106294333B (zh) 2015-05-11 2015-05-11 一种微博突发话题检测方法及装置

Publications (2)

Publication Number Publication Date
CN106294333A true CN106294333A (zh) 2017-01-04
CN106294333B CN106294333B (zh) 2019-10-29

Family

ID=57630701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510236634.1A Active CN106294333B (zh) 2015-05-11 2015-05-11 一种微博突发话题检测方法及装置

Country Status (1)

Country Link
CN (1) CN106294333B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133219A (zh) * 2017-06-06 2017-09-05 中国人民解放军国防科学技术大学 一种基于张量分解的在线爆炸性话题早发现方法
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN110147482A (zh) * 2017-09-11 2019-08-20 百度在线网络技术(北京)有限公司 用于获取突发热点主题的方法和装置
CN110704717A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于动力学模型的网络突发事件检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104216964A (zh) * 2014-08-22 2014-12-17 哈尔滨工程大学 一种面向微博的非分词突发话题检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104216964A (zh) * 2014-08-22 2014-12-17 哈尔滨工程大学 一种面向微博的非分词突发话题检测方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAN HE ET AL: ""Topic Dynamics:An Alternative Model of ‘Bursts’ in Streams of Topics"", 《PROC OF THE 16TH ACM INTCONF ON KNOWLEDGE DISCOVERY AND DATA MINING(SIGKDD’10),NEW YORK.ACM》 *
YANYAN DU ET AL: ""Microblog Bursty Feature Detection Based on Dynamics Model"", 《2012 INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI 2012)》 *
张志飞: ""微博信息流中突现话题检测技术研究"", 《中国优秀硕士学位论文全文数据库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133219A (zh) * 2017-06-06 2017-09-05 中国人民解放军国防科学技术大学 一种基于张量分解的在线爆炸性话题早发现方法
CN107273496A (zh) * 2017-06-15 2017-10-20 淮海工学院 一种微博网络地域突发事件的检测方法
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107330022B (zh) * 2017-06-21 2023-03-24 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN107291952B (zh) * 2017-07-28 2020-05-19 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN110147482A (zh) * 2017-09-11 2019-08-20 百度在线网络技术(北京)有限公司 用于获取突发热点主题的方法和装置
CN110147482B (zh) * 2017-09-11 2021-06-22 上海优扬新媒信息技术有限公司 用于获取突发热点主题的方法和装置
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109472415B (zh) * 2018-11-15 2021-11-19 成都智库二八六一信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN110704717A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于动力学模型的网络突发事件检测方法及系统
CN110704717B (zh) * 2019-09-04 2022-09-27 中国科学院计算技术研究所 基于动力学模型的网络突发事件检测方法及系统

Also Published As

Publication number Publication date
CN106294333B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN106294333A (zh) 一种微博突发话题检测方法及装置
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN106598944B (zh) 一种民航安保舆情情感分析方法
Feduhko Development of a software for computer-linguistic verification of socio-demographic profile of web-community member
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103927297B (zh) 基于证据理论的中文微博可信度评估方法
CN103455705A (zh) 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN105893444A (zh) 情感分类方法及装置
CN104679738B (zh) 互联网热词挖掘方法及装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN101630312A (zh) 一种用于问答平台中问句的聚类方法及系统
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN107609103A (zh) 一种基于推特的事件检测方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
Rudrapal et al. A Survey on Automatic Twitter Event Summarization.
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN115186654B (zh) 一种公文文本摘要生成方法
CN104166726A (zh) 一种面向微博文本流的突发关键词检测方法
CN108073571A (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant