CN106294335A - 一种用于微博的热点话题检测方法及装置 - Google Patents

一种用于微博的热点话题检测方法及装置 Download PDF

Info

Publication number
CN106294335A
CN106294335A CN201510236792.7A CN201510236792A CN106294335A CN 106294335 A CN106294335 A CN 106294335A CN 201510236792 A CN201510236792 A CN 201510236792A CN 106294335 A CN106294335 A CN 106294335A
Authority
CN
China
Prior art keywords
feature
hot spot
merging
spot feature
author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510236792.7A
Other languages
English (en)
Other versions
CN106294335B (zh
Inventor
贺敏
周勇林
王丽宏
云晓春
包秀国
程学旗
马宏远
丁丽
张丹
刘克松
杜攀
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510236792.7A priority Critical patent/CN106294335B/zh
Publication of CN106294335A publication Critical patent/CN106294335A/zh
Application granted granted Critical
Publication of CN106294335B publication Critical patent/CN106294335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,涉及网络信息挖掘技术领域,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。

Description

一种用于微博的热点话题检测方法及装置
技术领域
本发明涉及网络信息挖掘技术领域,特别是涉及一种用于微博的突发特征检测方法及装置。
背景技术
近年来,随着web2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。
由于微博具有来源广泛、更新速度快、传播周期短、传播方式多样化、参与性和互动性强等特点,在热点话题形成和传播方面,取得了强大的影响力和引导力。微博信息数量大,存在严重的信息过载问题,而话题分析技术能够将大量信息中的关键内容快速提取出来,对海量信息进行压缩组织。
微博话题检测及分析技术是微博舆情研究中的关键问题,通过微博平台上的话题发现及分析技术来及时、准确的发现热点话题,对于帮助个人了解社会热点和重要资讯,辅助国家发现网络舆情事件和舆论趋势,在网络民意及时感知、舆情检测、舆情监控、应急处置、信息安全等领域具有重要的现实意义。
在话题检测领域中,话题检测的方法主要包括两类,基于文本聚类的方法和基于概率话题模型的方法。但是这些方法都通常更适用于新闻等长篇文档的话题检测,对于特征高度稀疏的微博文本适用性较差。如何针对微博信息的特点进行热点话题检测,现有技术尚无有效的解决方案。
发明内容
本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。
一方面,本发明提供一种用于微博的热点话题检测方法,包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。
可选的,对所述有意义串进行热度分析包括:根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析。
可选的,所述根据信息瓶颈理论对所述热点特征进行特征合并包括:确定所述热点特征与文档、作者之间的对应关系;分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
可选的,所述合并代价为:
ΔI(Fi,Fj)=λ{(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}
+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;
DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
可选的,所述从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小包括:分别计算两两热点特征集合之间的合并代价;选择合并代价最小的两个特征集合进行特征合并形成新特征集合;计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
另一方面,本发明还提供一种用于微博的热点话题检测装置,包括:热度分析单元,用于提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;特征合并单元,用于根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;确定单元,用于根据所述合并程度指示参数确定热点话题。
可选的,所述热度分析单元,具体用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析。
可选的,所述特征合并单元包括:关系确定模块,用于确定所述热点特征与文档、作者之间的对应关系;概率确定模块,用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;计算模块,用于分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;合并模块,用于从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
可选的,所述合并代价为:
ΔI(Fi,Fj)=λ{(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}
+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;
DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
可选的,所述合并模块,具体用于:分别计算两两热点特征集合之间的合并代价;选择合并代价最小的两个特征集合进行特征合并形成新特征集合;计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
本发明实施例提供的用于微博的热点话题检测方法及装置,能够对信息流中的有意义串进行提取和热度分析,从这些有意义串中筛选出热点特征,然后根据信息瓶颈理论对热点特征进行特征合并,并且计算合并后的合并程度指示参数,根据所述合并程度指示参数确定热点话题。这样,即使对于特征高度稀疏的微博文本,也能够将特征一点一点合并,并根据合并程度指示参数确定出特征对应的热点话题,有效提高了微博热点话题的检测准确率。
附图说明
图1是本发明实施例提供的用于微博的热点话题检测方法的一种流程图;
图2是本发明实施例中热点特征、文档、作者之间的关系示意图;
图3是本发明实施例中特征的共现关系构成特征网络的一种结构示意图;
图4是本发明实施例提供的用于微博的热点话题检测装置的一种结构示意图。
具体实施方式
以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例提供一种用于微博的热点话题检测方法,包括:
S11,提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;
S12,根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;
S13,根据所述合并程度指示参数确定热点话题。
本发明实施例提供的用于微博的热点话题检测方法,能够对信息流中的有意义串进行提取和热度分析,从这些有意义串中筛选出热点特征,然后根据信息瓶颈理论对热点特征进行特征合并,并且计算合并后的合并程度指示参数,根据所述合并程度指示参数确定热点话题。这样,即使对于特征高度稀疏的微博文本,也能够将特征一点一点合并,并根据合并程度指示参数确定出特征对应的热点话题,有效提高了微博热点话题的检测准确率。
具体而言,在步骤S11中,可以在设定的时间窗口内提取微博信息流中的有意义串,并对提取的有意义串进行热度分析。
可选的,有意义串的提取可包括如下步骤:
步骤1,提取大规模微博信息中的重复串。
其中,重复串是指重复出现频次大于两次的字符串,重复串的长度限定在若干个(如10个)字符以内。同一话题或事件,微博中有大量的博主发帖或者转发,具有统计意义的微博新特征就包含在重复串中。
步骤2,对重复串进行上下文邻接分析,提取微博信息中的有意义串。
上下文邻接分析指提取重复串的邻接集合,计算邻接种类。邻接集合和邻接种类定义如下:
邻接集合:分为左邻接集合NBL和右邻接集合NBR,分别指真实文本中,与字符串S左边或者右边相邻的词语的集合。当字符串做为一个句子的开始,其左邻接元素记为BOS,做为句子的结束时,其右邻接元素记为EOS。
邻接种类:分为左邻接种类VL和右邻接种类VR,分别指左邻接集合中和右邻接集合种元素的数目,它们反映了字符串上文和下文语境种类的多少。
选取左邻接种类和右邻接种类中的较小值记为minVN。当minVN大于预先设定的阈值TVN时,该字符串就是有意义串。阈值TVN的选取与微博信息的规模相关,取值应大于2,例如为3。
由于微博信息数量大,存在严重的信息过载、特征高度稀疏等特点,优选的,可以根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析,以便从中提取出热点特征。其中,有意义串的频次为有意义串出现的次数,文档频次表示有意义串在多少篇文档中出现过,作者频次表示有意义串被多少个作者发表过,邻接种类则表示字符串上文和下文语境种类的多少。
根据上述信息即可得到有意义串的热度hot,具体可根据如下公式计算。
hot ( F i ) = a * log ( TF max TF i ) + b * log ( DF max DF i ) + c * log ( AF max AF i ) + d * log ( VN max VN i )
其中,TFmax表示时间窗口内特征频次的最大值,DFmax表示时间窗口内特征文档频次的最大值,AFmax表示时间窗口内特征作者频次的最大值,VNmax表示时间窗口内特征邻接种类的最大值。a,b,c,d分别为调节系数,可选的,可以都取1。当热度hot大于预先设定的阈值H时,对应的有意义串即为热点特征。
具体的,在步骤S12中,根据信息瓶颈理论对所述热点特征进行特征合并可包括:
确定所述热点特征与文档、作者之间的对应关系;
分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;
分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;
从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
举例说明,如图2所示,首先可以根据热点特征在文档中的出现情况构造热点特征F、文档D、作者A之间的三部图。统计特征F、文档D、作者A的边缘概率分布,以及特征F、文档D,热点特征F、作者A之间的联合概率分布,计算热点特征F、文档D以及热点特征F、作者A两两之间的互信息,公式如下:
I ( X , Y ) = P ( X , Y ) log P ( X , Y ) P ( X ) P ( Y )
对热点特征(或热点特征集合)Fi、Fj合并时,合并代价是指合并所带来的互信息的减少量,公式如下:
ΔI(Fi,Fj)=λ[I(Fbefore,D)-I(Fafter,D)]+(1-λ)[I(Fbefore,A)-I(Fafter,A)]
具体的,当进行特征合并时,合并既会引起热点特征F与文档D之间的互信息减少,又会引起热点特征F与作者A之间的互信息减少,可以通过λ来调节文档和作者对热点特征的影响大小。
根据信息瓶颈压缩方法的理论,合并代价详细计算方法如下:
ΔI(Fi,Fj)=λ{(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}
+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
可选的,从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小可具体包括如下步骤:
分别计算两两热点特征集合之间的合并代价;
选择合并代价最小的两个特征集合进行特征合并形成新特征集合;
计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
举例而言,在本发明的一个实施例中,假设存在四个热点特征A、B、C、D,分别计算AB,AC,AD,BC,BD,CD的合并代价,假如经过计算发现AB的合并代价最小,则先将热点特征A、B合并成特征集合AB,然后重新计算AB,C,D中两两合并(即ABC,ABD,CD合并)的合并代价。假设ABD的合并代价在三者中最小,则下一步将AB与D进行合并,最后将ABD与C合并,形成一个特征集合。
在步骤S12中,每一次特征合并后,还需要计算一下特征合并后的合并程度指示参数。在本发明的一个实施例中,合并程度指示参数可以为衡量网络模块化程度的一个指标Q,定义为;
Q = Σ i = 1 n ( e ii - a i )
其中,eii表示第i个社区内部的连边占网络总边数的比例,ai表示第i个社区与其他社区之间的连边数。Q的含义具体可如图3所示。图3所示为特征的共现关系构成特征网络,每个特征是一个顶点(A、B、C、D、E),如果两个特征在一条微博信息中共现,这两个特征就有一条连边。特征未合并时,每个特征是一个社区,每次特征合并后,合并的特征集合构成一个新的社区。在整个特征合并过程中,每次合并都会产生一个对应的Q值,最后选择Q值最大的特征集合为一个热点话题。例如,如果上述实施例中,如果ABD对应的Q值最大,则确定ABD为一个热点话题。
相应的,如图4所示,本发明实施例还提供一种用于微博的热点话题检测装置,包括:
热度分析单元41,用于提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;
特征合并单元42,用于根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;
确定单元43,用于根据所述合并程度指示参数确定热点话题。
本发明实施例提供的用于微博的热点话题检测装置,热度分析单元41能够对信息流中的有意义串进行提取和热度分析,从这些有意义串中筛选出热点特征,特征合并单元42能够根据信息瓶颈理论对热点特征进行特征合并,并且计算合并后的合并程度指示参数,确定单元43能够根据所述合并程度指示参数确定热点话题。这样,即使对于特征高度稀疏的微博文本,也能够快速发现热点特征,并对热点特征进行准确合并,有效提高了微博热点话题的检测准确率。
可选的,热度分析单元41,具体可用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析。
具体而言,特征合并单元42可包括:
关系确定模块,用于确定所述热点特征与文档、作者之间的对应关系;
概率确定模块,用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;
计算模块,用于分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;
合并模块,用于从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
具体的,合并代价ΔI可以为:
ΔI(Fi,Fj)=λ{(p(Fi)+p(Fj))*DJS[p(D|Fi),p(D|Fj)]}
+(1-λ){(p(Fi)+p(Fj))*DJS[p(A|Fi),p(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;
DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
可选的,所述合并模块,可具体用于:
分别计算两两热点特征集合之间的合并代价;
选择合并代价最小的两个特征集合进行特征合并形成新特征集合;
计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种用于微博的热点话题检测方法,其特征在于,包括:
提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;
根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;
根据所述合并程度指示参数确定热点话题。
2.根据权利要求1所述的方法,其特征在于,对所述有意义串进行热度分析包括:
根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析。
3.根据权利要求1所述的方法,其特征在于,所述根据信息瓶颈理论对所述热点特征进行特征合并包括:
确定所述热点特征与文档、作者之间的对应关系;
分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;
分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;
从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
4.根据权利要求3所述的方法,其特征在于,
所述合并代价为:
ΔI(Fi,Fj)=λ{(P(Fi)+P(Fj))*DJS[P(D|Fi),P(D|Fj)]}
+(1-λ){(P(Fi)+P(Fj))*DJS[P(A|Fi),P(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;
DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
5.根据权利要求3所述的方法,其特征在于,所述从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小包括:
分别计算两两热点特征集合之间的合并代价;
选择合并代价最小的两个特征集合进行特征合并形成新特征集合;
计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
6.一种用于微博的热点话题检测装置,其特征在于,包括:
热度分析单元,用于提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;
特征合并单元,用于根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;
确定单元,用于根据所述合并程度指示参数确定热点话题。
7.根据权利要求6所述的装置,其特征在于,所述热度分析单元,具体用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类,对所述有意义串进行热度分析。
8.根据权利要求6所述的装置,其特征在于,所述特征合并单元包括:
关系确定模块,用于确定所述热点特征与文档、作者之间的对应关系;
概率确定模块,用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布,所述热点特征与所述文档的联合概率分布,以及所述热点特征与所述作者的联合概率分布;
计算模块,用于分别计算所述热点特征与所述文档的互信息,以及所述热点特征与所述作者的互信息;
合并模块,用于从所述热点特征中选择两组热点特征进行特征合并,以使被选择的所述两组热点特征合并代价最小,其中,所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。
9.根据权利要求8所述的装置,其特征在于,
所述合并代价为:
ΔI(Fi,Fj)=λ{(P(Fi)+P(Fj))*DJS[P(D|Fi),P(D|Fj)]}
+(1-λ){(P(Fi)+P(Fj))*DJS[P(A|Fi),P(A|Fj)]}
其中,DJS是指Jensen-Shannon(JS)距离,计算方法为:
D JS [ p i , p j ] = π i D KL [ p i | | p ^ ] + π j D KL [ p j | | p ^ ]
{ p i , p j } = { p ( D | F i ) , p ( D | F j ) } { π i , π j } = { p ( F i ) p ( F * ) , p ( F j ) p ( F * ) } p ^ = π i p ( D | F i ) + π j p ( D | F j )
其中,Fi和Fj分别为两个不同的热点特征集合,F*为Fi和Fj合并后的热点特征集合,D表示文档,A表示作者;
DKL表示是KL距离,是相对熵,计算如下:
D KL [ x , y ] = p ( x ) log p ( x ) p ( y ) .
10.根据权利要求9所述的装置,其特征在于,所述合并模块,具体用于:
分别计算两两热点特征集合之间的合并代价;
选择合并代价最小的两个特征集合进行特征合并形成新特征集合;
计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并,直到将所有特征集合合并为一个特征集合。
CN201510236792.7A 2015-05-11 2015-05-11 一种用于微博的热点话题检测方法及装置 Active CN106294335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510236792.7A CN106294335B (zh) 2015-05-11 2015-05-11 一种用于微博的热点话题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510236792.7A CN106294335B (zh) 2015-05-11 2015-05-11 一种用于微博的热点话题检测方法及装置

Publications (2)

Publication Number Publication Date
CN106294335A true CN106294335A (zh) 2017-01-04
CN106294335B CN106294335B (zh) 2020-01-14

Family

ID=57630737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510236792.7A Active CN106294335B (zh) 2015-05-11 2015-05-11 一种用于微博的热点话题检测方法及装置

Country Status (1)

Country Link
CN (1) CN106294335B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074905A1 (en) * 2004-09-17 2006-04-06 Become, Inc. Systems and methods of retrieving topic specific information
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074905A1 (en) * 2004-09-17 2006-04-06 Become, Inc. Systems and methods of retrieving topic specific information
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙励: "基于微博的热点话题发现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
褚镇飞: "基于半监督学习的物体识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆瑶等: "基于Hadoop的微博热点话题挖掘系统研究与设计", 《技术应用》 *
黄惠芬等: "《数字图像司法取证技术》", 30 April 2015 *

Also Published As

Publication number Publication date
CN106294335B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN102662952B (zh) 一种基于层次的中文文本并行数据挖掘方法
CN102254038B (zh) 一种分析网络评论相关度的系统及其分析方法
CN103927297B (zh) 基于证据理论的中文微博可信度评估方法
CN102945268A (zh) 产品特征评论挖掘方法及系统
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
Kherwa et al. An approach towards comprehensive sentimental data analysis and opinion mining
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN104899230A (zh) 舆情热点自动监测系统
CN103268350A (zh) 一种互联网舆情信息监测系统及监测方法
CN103455705A (zh) 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN101609459A (zh) 一种情感特征词提取系统
CN104915443B (zh) 一种中文微博评价对象的抽取方法
CN105912656A (zh) 一种商品知识图谱的构建方法
CN103294664A (zh) 开放领域新词发现的方法及系统
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN106649222A (zh) 基于语义分析与多重Simhash的文本近似重复检测方法
CN106294333A (zh) 一种微博突发话题检测方法及装置
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN104102658A (zh) 文本内容挖掘方法及装置
CN104636319A (zh) 一种文本去重方法和装置
CN103246728A (zh) 一种基于文档词汇特征变化的突发事件检测方法
CN107562843A (zh) 一种基于标题高频切分的新闻热点短语提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant