CN103745000A - 一种中文微博客的热点话题检测方法 - Google Patents

一种中文微博客的热点话题检测方法 Download PDF

Info

Publication number
CN103745000A
CN103745000A CN201410034402.3A CN201410034402A CN103745000A CN 103745000 A CN103745000 A CN 103745000A CN 201410034402 A CN201410034402 A CN 201410034402A CN 103745000 A CN103745000 A CN 103745000A
Authority
CN
China
Prior art keywords
microblog
topic
keywords
micro
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410034402.3A
Other languages
English (en)
Other versions
CN103745000B (zh
Inventor
陈国龙
廖祥文
郭德清
郭文忠
魏晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410034402.3A priority Critical patent/CN103745000B/zh
Publication of CN103745000A publication Critical patent/CN103745000A/zh
Application granted granted Critical
Publication of CN103745000B publication Critical patent/CN103745000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种中文微博客的热点话题检测方法,包括以下步骤:(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测,检测速度快,准确度高,适用范围广,应用性强。

Description

一种中文微博客的热点话题检测方法
技术领域
本发明涉及话题检测与跟踪技术领域,更具体地,涉及一种中文微博客的热点话题检测方法,能应用于热点话题的检测和热度排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
话题检测与跟踪(TDT)任务始于1996年,一个话题包含了一系列事件或者活动,或者伴随的直接相关的事件和活动。一个TDT事件表示在特定时间和场合发生的事情,连同所有必要的先决条件和不可避免的后果。
话题检测与跟踪经过十多年的高速发展,已经有了一系列成熟的理论,其中包括隐马尔可夫模型、老化理论、时间序列分析、LDA等。
热点话题是在一个时间段内频繁出现的话题。一个话题经常出现表示它可能是热点话题,但是这不是唯一的条件。每件事都有它的生命周期:出生、发展、衰落、死亡。所以,时间也是一个评价条件。热点话题的基本特征:1)在大量的信息中频繁出现;2)热点话题是从当前网络用户发布的微博中抽取的,所以是实时的,必须保证热点话题的“热”。
热点话题是话题检测与跟踪研究在实际问题中的应用。常见的话题发现算法,如中心向量法、层次聚类法、K-means、Single-Pass聚类算法等,在普通文本的TDT任务中已经取得了较好的效果。利用聚类方法来实现话题发现的技术已经比较成熟,但是在处理海量的文本数据时,大多数文本聚类算法速度过低,时间和空间复杂度往往大于O(n2)。而且这些算法主要是针对传统媒介平台的新闻数据,微博中的信息多呈现短文本、口语化、即时性、冗余信息、互动性强等特性,其中情感词所占比重也比传统文本要大,故传统的TDT不适合直接应用于微博的热点发现。
在现有技术中,有将传统的文本分类方法应用在微博平台上进行热点信息筛选,针对可能成为热点信息的微博条目,有研究者提出可以针对一部分特别关心的信息进行检测。如果能设计一种切合当前热点事件的分类器,那么就可以实时监控事件的发展。但是热点事件和话题在其出现之前是未知的,所以问题就变为对一些特定的,敏感的话题的固定检测。比如有日本学者训练了一个分类器来判断用户发布的内容是不是属于和地震相关的报道。分类器针对特定的话题筛选可以有良好的效果,但是微博上文本内容分布范围广,话题千变万化,在发生之前无法认为预知,这使得设计一个完备的词典式分类器来对所有的信息进行分类变得几乎不可能,一般的分类器难以胜任这样的任务。
在现有技术中,有利用微博情感波动和相邻时段词集的差异性来识别热点话题,并取得较好效果,但其没有考虑微博多噪声特点以及热点话题引起的突发关键字。
在现有技术中,有从社会学的角度出发,考虑了微博的基本信息来进行热点话题检测。比如有工作再计算词的权重的时候考虑了用户权重、粉丝数、回复数、转发数。首先使用一个成熟的理论来对词生命周期进行建模,然后考虑了用户权重,通过pagerank来计算词的权重,最后使用无监督的学习算法发现爆炸性话题。
因为短文本没有足够的单词出现信息,传统的聚类方法,比如词袋方法,受到了限制。为了解决这个问题,有工作把一个用户的推文当做一个文档。但是这样处理忽略了一个重要的事实:一条推文经常是和一个话题相关的。也有工作从用户的简介和文本中抽取出领域特征。其考虑了用户在推特上意图的分类标签和特征集合,比如平时的聊天,交流,分享,转发的信息。把tweets分成指定的的新闻、事件、观点、交易、私人信息类别。还有利用维基百科和WordNet整合短文本信息,用于短文本聚类。实验表明这种丰富文本特征的方法能很大地提高聚类精度,所以本发明中使用了类似的技术来丰富微博文本特征。
在现有技术中,有从建模角度出发,比如通过改进LDA的以适用于微博的Author-topic、Twitter-LDA模型等,可以有效用于微博话题建模,但是该类算法复杂度普通偏高,不利于从大规模微博数据集合中检测热点话题。
然而,现有的大部分中文微博热点话题检测方法没有充分考虑以下三个问题:1)微博客中存在大量的噪声信息;2)微博短文本造成信息缺失;3)海量微博数据带来的性能挑战。
微博经过这几年的快速发展,已经成为中国互联网的主流应用。庞大规模的用户也确保了其网络信息传播的核心作用。用户通过微博自由、便捷、即时地抒发自己的情感,已成为互联网上的时尚,同时也使得其成为热点话题产生和谈论的重要场所。由于微博具有自主性强,影响力大,信息传播便捷迅速等特点,从微博中检测出热点话题,可以帮助公众了解社会焦点,发现社会趋势,为市场研究和咨询行业等提供理论依据,也可以基于热点话题进行个性化的推荐服务、客户群偏好分析等,有很好的现实的应用价值和广阔的应用前景。因此,迫切需要一种高效准确的中文微博热点话题检测方法,该方法应该能够快速地发现微博中的热点话题,并对热点话题按照热度进行排序。
发明内容
本发明的目的在于提供一种中文微博客的热点话题检测方法,该方法检测速度快,准确度高,适用范围广,应用性强。
为实现上述目的,本发明的技术方案是:一种中文微博客的热点话题检测方法,包括以下步骤:
(1) 首先基于一定的垃圾过滤规则对垃圾微博进行过滤;
(2) 对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;
(3) 基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。
进一步的,所述步骤(1)中,所述垃圾过滤规则为过滤掉包含有以下内容之一的微博:
a) 特殊字符;
b) 推广相关的特殊汉字;
c) 网页链接“http://t.cn/”;
d) 符号“#”。
进一步的,所述步骤(2)中,按如下方法对关键字进行初步聚合:
采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度:
其中,
Figure 2014100344023100002DEST_PATH_IMAGE004
表示关键字w i 和关键字w j 的相似度,WB i 表示出现关键字w i 的微博集合;
如果大于一设定阈值φ,则判定关键字w i 和关键字w j 属于同一个话题,建立关键字w i 和关键字w j 的关联关系,否则不建立关键字w i 和关键字w j 的关联关系;利用得到的所有关联关系构成词关系集合;
然后,采用并查集对词关系集合中的关联关系进行合并,得到初步表示话题的词集合。
进一步的,所述步骤(2)中,检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,具体方法如下:
对于微博B,通过信息检索中的BM25检索模型检索得到与其最相似的前k条微博{B1,B2,……,Bk},然后将微博B表示为
Figure 2014100344023100002DEST_PATH_IMAGE006
,其中:
w j 表示微博中的关键字,j=1,2,……,nn表示微博中所有关键字的个数;
其中,v ji 表示所述前k条微博的第i条微博中关键字w j 的权重,v ji 初始为1或0,v ji  =1表示第i条微博中出现关键字w j v ji =0表示第i条微博中未出现关键字w j ;假设经过关键字初步聚合后,关键字w j 与其他一个或多个关键字属于同一个话题的词集合,那么如果第i条微博中出现关键字w j ,则判定所述其他一个或多个关键字也出现在所述第i条微博中,即第i条微博中所述其他一个或多个关键字的权重也设置为1;
最后得到微博B特征丰富后的特征向量
Figure 222607DEST_PATH_IMAGE006
进一步的,所述步骤(3)中,基于聚类的话题集合,将每个话题包含的微博按照时间窗口进行划分,得到m个时间窗口的微博集合:{BT 1BT 2, …, BT i , …, BT m },所述话题热度HT的计算公式为:
Figure 2014100344023100002DEST_PATH_IMAGE010
其中,HT表示话题的热度,m表示有m个时间窗口,HB i 表示时间窗口i内的微博热度和;
Figure 2014100344023100002DEST_PATH_IMAGE012
其中,VB i 表示话题在时间窗口i内的热度权重,|BT i |表示话题在时间窗口i内的微博数量,Hb ij 表示话题在时间窗口i内微博j的热度;
Figure 2014100344023100002DEST_PATH_IMAGE014
Figure 2014100344023100002DEST_PATH_IMAGE016
其中,RT j 表示在时间窗口i内微博j的转发数,RP j 表示在时间窗口i内微博j的评论数。
本发明的有益效果是:针对目前中文微博客热点话题检测面临的微博客中存在大量噪声信息、微博短文本造成信息缺失、海量微博数据对性能要求高等问题,提出了一种能够高效、准确地对中文微博客进行热点话题检测的方法,该方法检测速度快,准确度高,适用范围广,应用性强,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明中文微博客的热点话题检测方法,如图1所示,包括以下步骤:
步骤(1) 对垃圾微博进行过滤
因为微博中存在大量的噪声微博,比如一些广告推广、微博活动、用户个人微博等,因此,本发明首先基于一定的垃圾过滤规则对垃圾微博进行过滤。所述垃圾过滤规则为过滤掉包含有以下内容之一的微博:
a) 特殊字符:包括“★”、“▲”、“¥”、“『”、“◆”、“●”、“①”等;
b) 推广相关的特殊汉字:包括“分享自”、“参加了投票”、“活动推荐”等;
c) 网页链接“http://t.cn/”;
d) 符号“#”。
步骤(2) 对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合,通过初步聚合的结果可以很直观地看到话题相关的关键字;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量,以基于此特征向量提高微博话题聚类的精度。
步骤(2)中,对关键字进行初步聚合的具体方法为:
采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度:
Figure 473197DEST_PATH_IMAGE002
其中,
Figure 43463DEST_PATH_IMAGE004
表示关键字w i 和关键字w j 的相似度,WB i 表示出现关键字w i 的微博集合;
如果
Figure 497447DEST_PATH_IMAGE004
大于一设定阈值φ,则判定关键字w i 和关键字w j 属于同一个话题,建立关键字w i 和关键字w j 的关联关系,否则不建立关键字w i 和关键字w j 的关联关系;利用得到的所有关联关系构成词关系集合;
然后,采用并查集对词关系集合中的关联关系进行合并,得到初步表示话题的词集合。
步骤(2)中,检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,具体方法如下:
对于微博B,通过信息检索中的BM25检索模型检索得到与其最相似的前k条微博{B1,B2,……,Bk},然后将微博B表示为
Figure 447079DEST_PATH_IMAGE006
,其中:
w j 表示微博中的关键字,j=1,2,……,nn表示微博中所有关键字的个数;
Figure 676810DEST_PATH_IMAGE008
其中,v ji 表示所述前k条微博的第i条微博中关键字w j 的权重,v ji 初始为1或0,v ji  =1表示第i条微博中出现关键字w j v ji =0表示第i条微博中未出现关键字w j ;假设经过关键字初步聚合后,关键字w j 与其他一个或多个关键字属于同一个话题的词集合,那么如果第i条微博中出现关键字w j ,则判定所述其他一个或多个关键字也出现在所述第i条微博中,即第i条微博中所述其他一个或多个关键字的权重也设置为1;
最后得到微博B特征丰富后的特征向量
步骤(3) 基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。
利用增量聚类方法对所有微博进行聚类的实现方法为:
1)选择一个微博作为初始类,并作为该初始类的中心;
2)按照顺序从微博集中取出一个微博,计算它和现有类中心的相似度,得到该微博和已有类最近的相似度;
3)若该距离大于或等于设定的阈值Tc,则将其归入该类,并更新类的中心;
4)若该距离小于设定的阈值Tc,则将该微博当做一个新的类,并将其作为新类的中心;
5)重复步骤2)、3)、4)直至微博都处理完毕。
经过聚类后,可能会得到较多的话题聚类结果。如果直接呈现给用户,无法直观地反应话题的热度。因此需要通过计算话题热度,从中得到排序后的热点话题列表,然后呈现给用户。
每个话题都是从微博中提取得到的,所以微博文本热度是最能直接反应话题的热度。因为每条微博的影响力不同,所以单纯从聚类结果的微博数量上考虑,会造成较大的误差。考虑微博热度的时候应该综合用户影响力、转发数、评论数等因素。本发明根据用户影响力、微博转发数、微博评论数对微博热度的贡献率,提出了一种微博热度计算公式:
Figure 611454DEST_PATH_IMAGE016
其中,Hb ij 表示话题在时间窗口i内微博j的热度,RT j 表示在时间窗口i内微博j的转发数,RP j 表示在时间窗口i内微博j的评论数。
话题的热度可以通过话题包含的微博热度求和得到。但是在计算话题热度的时候,还应该考虑时间因素,因为随着时间的推移,人们对一个话题的关注度也会下降。因此,所述步骤(3)中,基于聚类的话题集合,将每个话题包含的微博按照时间窗口(1个小时)进行划分,得到m个时间窗口的微博集合:{BT 1BT 2, …, BT i , …, BT m },则话题热度HT计算公式为:
Figure 912247DEST_PATH_IMAGE010
其中,HT表示话题的热度,m表示有m个时间窗口,HB i 表示时间窗口i内的微博热度和;
Figure 497950DEST_PATH_IMAGE012
其中,VB i 表示话题在时间窗口i内的热度权重,|BT i |表示话题在时间窗口i内的微博数量,Hb ij 表示话题在时间窗口i内微博j的热度;
Figure 990111DEST_PATH_IMAGE014
通过以上话题热度计算公式,可以得到话题的热度值,进而得到热点话题的排序。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种中文微博客的热点话题检测方法,其特征在于,包括以下步骤:
(1) 首先基于一定的垃圾过滤规则对垃圾微博进行过滤;
(2) 对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;
(3) 基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。
2.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于,所述步骤(1)中,所述垃圾过滤规则为过滤掉包含有以下内容之一的微博:
a) 特殊字符;
b) 推广相关的特殊汉字;
c) 网页链接“http://t.cn/”;
d) 符号“#”。
3.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(2)中,按如下方法对关键字进行初步聚合:
采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度:
Figure 2014100344023100001DEST_PATH_IMAGE002
其中,
Figure 2014100344023100001DEST_PATH_IMAGE004
表示关键字w i 和关键字w j 的相似度,WB i 表示出现关键字w i 的微博集合;
如果大于一设定阈值φ,则判定关键字w i 和关键字w j 属于同一个话题,建立关键字w i 和关键字w j 的关联关系,否则不建立关键字w i 和关键字w j 的关联关系;利用得到的所有关联关系构成词关系集合;
然后,采用并查集对词关系集合中的关联关系进行合并,得到初步表示话题的词集合。
4.根据权利要求3所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(2)中,检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,具体方法如下:
对于微博B,通过信息检索中的BM25检索模型检索得到与其最相似的前k条微博{B1,B2,……,Bk},然后将微博B表示为
Figure 2014100344023100001DEST_PATH_IMAGE006
,其中:
w j 表示微博中的关键字,j=1,2,……,nn表示微博中所有关键字的个数;
Figure 2014100344023100001DEST_PATH_IMAGE008
其中,v ji 表示所述前k条微博的第i条微博中关键字w j 的权重,v ji 初始为1或0,v ji  =1表示第i条微博中出现关键字w j v ji =0表示第i条微博中未出现关键字w j ;假设经过关键字初步聚合后,关键字w j 与其他一个或多个关键字属于同一个话题的词集合,那么如果第i条微博中出现关键字w j ,则判定所述其他一个或多个关键字也出现在所述第i条微博中,即第i条微博中所述其他一个或多个关键字的权重也设置为1;
最后得到微博B特征丰富后的特征向量
Figure 280876DEST_PATH_IMAGE006
5.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(3)中,基于聚类的话题集合,将每个话题包含的微博按照时间窗口进行划分,得到m个时间窗口的微博集合:{BT 1BT 2, …, BT i , …, BT m },所述话题热度HT的计算公式为:
Figure 2014100344023100001DEST_PATH_IMAGE010
其中,HT表示话题的热度,m表示有m个时间窗口,HB i 表示时间窗口i内的微博热度和;
Figure 2014100344023100001DEST_PATH_IMAGE012
其中,VB i 表示话题在时间窗口i内的热度权重,|BT i |表示话题在时间窗口i内的微博数量,Hb ij 表示话题在时间窗口i内微博j的热度;
Figure 2014100344023100001DEST_PATH_IMAGE016
其中,RT ij 表示在时间窗口i内微博j的转发数,RP ij 表示在时间窗口i内微博j的评论数。
CN201410034402.3A 2014-01-24 2014-01-24 一种中文微博客的热点话题检测方法 Active CN103745000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410034402.3A CN103745000B (zh) 2014-01-24 2014-01-24 一种中文微博客的热点话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410034402.3A CN103745000B (zh) 2014-01-24 2014-01-24 一种中文微博客的热点话题检测方法

Publications (2)

Publication Number Publication Date
CN103745000A true CN103745000A (zh) 2014-04-23
CN103745000B CN103745000B (zh) 2017-02-01

Family

ID=50502018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410034402.3A Active CN103745000B (zh) 2014-01-24 2014-01-24 一种中文微博客的热点话题检测方法

Country Status (1)

Country Link
CN (1) CN103745000B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063479A (zh) * 2014-07-02 2014-09-24 成都数联铭品科技有限公司 一种基于社会网络的品牌网络热度计算方法
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法
CN104765757A (zh) * 2014-12-05 2015-07-08 华中科技大学 一种基于异构网络的微博时序排名方法
CN104933475A (zh) * 2015-05-27 2015-09-23 国家计算机网络与信息安全管理中心 网络转发行为预测方法及装置
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN105224954A (zh) * 2015-10-10 2016-01-06 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN105975517A (zh) * 2016-04-27 2016-09-28 湖南蚁坊软件有限公司 一种微博热度指数的分析方法
CN106295681A (zh) * 2016-08-02 2017-01-04 西南石油大学 一种基于复杂网络标签传播算法的事件分类方法和系统
CN106503209A (zh) * 2016-10-26 2017-03-15 Tcl集团股份有限公司 一种话题热度预测方法及系统
CN106780065A (zh) * 2016-12-05 2017-05-31 深圳万发创新进出口贸易有限公司 一种社交网络资源分享系统
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108363788A (zh) * 2018-02-12 2018-08-03 广州市贝聊信息科技有限公司 帖子智能排位方法、装置以及计算机可读存储介质
CN108959484A (zh) * 2018-06-21 2018-12-07 中国人民解放军战略支援部队信息工程大学 面向事件检测的多策略媒体数据流过滤方法及其装置
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110502703A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于字符串字典构建的社交网络突发事件检测方法
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN111309911A (zh) * 2020-02-17 2020-06-19 昆明理工大学 面向司法领域的案件话题发现方法
CN112307366A (zh) * 2020-10-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息展示的方法、装置及计算机存储介质
CN112328735A (zh) * 2020-11-11 2021-02-05 河北工程大学 热点话题确定方法、装置及终端设备
TWI784913B (zh) * 2022-05-25 2022-11-21 中華電信股份有限公司 一種頻道節目熱點偵測系統、方法及其電腦可讀媒介

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856B (zh) * 2012-11-09 2015-07-08 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103500175B (zh) * 2013-08-13 2017-09-15 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103530345A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 短文本特征扩展及拟合特征库构建方法、装置

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104063479A (zh) * 2014-07-02 2014-09-24 成都数联铭品科技有限公司 一种基于社会网络的品牌网络热度计算方法
CN104063479B (zh) * 2014-07-02 2017-08-11 成都数联铭品科技有限公司 一种基于社会网络的品牌网络热度计算方法
CN104156436B (zh) * 2014-08-13 2017-05-10 福州大学 一种社交云媒体协同过滤推荐方法
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN104765757A (zh) * 2014-12-05 2015-07-08 华中科技大学 一种基于异构网络的微博时序排名方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法
CN104715014B (zh) * 2015-01-26 2017-10-10 中山大学 一种新闻在线话题检测方法
CN104933475A (zh) * 2015-05-27 2015-09-23 国家计算机网络与信息安全管理中心 网络转发行为预测方法及装置
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN105224608B (zh) * 2015-09-06 2019-04-09 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN105224954B (zh) * 2015-10-10 2018-10-26 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN105224954A (zh) * 2015-10-10 2016-01-06 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN105975517A (zh) * 2016-04-27 2016-09-28 湖南蚁坊软件有限公司 一种微博热度指数的分析方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN106980692B (zh) * 2016-05-30 2020-12-08 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN106295681A (zh) * 2016-08-02 2017-01-04 西南石油大学 一种基于复杂网络标签传播算法的事件分类方法和系统
CN106503209A (zh) * 2016-10-26 2017-03-15 Tcl集团股份有限公司 一种话题热度预测方法及系统
CN106780065A (zh) * 2016-12-05 2017-05-31 深圳万发创新进出口贸易有限公司 一种社交网络资源分享系统
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
CN107193797B (zh) * 2017-04-26 2020-08-18 天津大学 中文微博的热点话题检测及趋势预测方法
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108197144B (zh) * 2017-11-28 2021-02-09 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108090157B (zh) * 2017-12-12 2018-11-06 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108363788A (zh) * 2018-02-12 2018-08-03 广州市贝聊信息科技有限公司 帖子智能排位方法、装置以及计算机可读存储介质
CN108363788B (zh) * 2018-02-12 2021-05-14 广州市贝聊信息科技有限公司 帖子智能排位方法、装置以及计算机可读存储介质
CN108959484B (zh) * 2018-06-21 2020-07-28 中国人民解放军战略支援部队信息工程大学 面向事件检测的多策略媒体数据流过滤方法及其装置
CN108959484A (zh) * 2018-06-21 2018-12-07 中国人民解放军战略支援部队信息工程大学 面向事件检测的多策略媒体数据流过滤方法及其装置
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110502703A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于字符串字典构建的社交网络突发事件检测方法
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN111309911A (zh) * 2020-02-17 2020-06-19 昆明理工大学 面向司法领域的案件话题发现方法
CN111309911B (zh) * 2020-02-17 2022-06-14 昆明理工大学 面向司法领域的案件话题发现方法
CN112307366A (zh) * 2020-10-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息展示的方法、装置及计算机存储介质
CN112307366B (zh) * 2020-10-30 2023-09-19 抖音视界有限公司 一种信息展示的方法、装置及计算机存储介质
CN112328735A (zh) * 2020-11-11 2021-02-05 河北工程大学 热点话题确定方法、装置及终端设备
TWI784913B (zh) * 2022-05-25 2022-11-21 中華電信股份有限公司 一種頻道節目熱點偵測系統、方法及其電腦可讀媒介

Also Published As

Publication number Publication date
CN103745000B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103745000B (zh) 一种中文微博客的热点话题检测方法
Zhang et al. Automatic detection of rumor on social network
Zhao et al. A personalized hashtag recommendation approach using LDA-based topic model in microblog environment
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
Zhang et al. Event detection and popularity prediction in microblogging
Luo et al. An effective approach to tweets opinion retrieval
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
Zhao et al. Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog
Alsaedi et al. Arabic event detection in social media
CN109783614B (zh) 一种社交网络待发布文本的差分隐私泄露检测方法及系统
CN103218400B (zh) 基于链接与文本内容的网络社区用户群划分方法
Liu et al. Context-aware social media user sentiment analysis
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
Daouadi et al. Organization vs. Individual: Twitter User Classification.
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
Bao et al. A topic-rank recommendation model based on Microblog topic relevance & user preference analysis
Cui et al. Personalized microblog recommendation using sentimental features
Song et al. Recommending hashtags to forthcoming tweets in microblogging
Zhao et al. Fake news detection based on dual-channel graph convolutional attention network
Luo et al. Structuring T weets for improving T witter search
Heravi et al. Tweet location detection
Zhao et al. Micro-blog Keyword Extraction Method Based on Graph Model and Semantic Space.
Wan et al. Vertical and sequential sentiment analysis of micro-blog topic
Han et al. A survey on event tracking in social media data streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant