CN110489741B - 基于突发词检测和过滤的微博突发话题检测方法 - Google Patents
基于突发词检测和过滤的微博突发话题检测方法 Download PDFInfo
- Publication number
- CN110489741B CN110489741B CN201910631334.1A CN201910631334A CN110489741B CN 110489741 B CN110489741 B CN 110489741B CN 201910631334 A CN201910631334 A CN 201910631334A CN 110489741 B CN110489741 B CN 110489741B
- Authority
- CN
- China
- Prior art keywords
- burst
- word
- topic
- value
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Abstract
本发明提出了一种基于突发词检测和过滤的微博突发话题检测方法。方法包括三个部分:基于词突发值计算的突发词检测、基于突发值指数平均值计算的伪突发词识别和基于话题关键字和突发词相似度的突发话题识别。理论系统完备,创新性突出,主要用于社交网络文本处理中。该发明为微博突发话题检测提供了解决方案,具有很高的实用价值。
Description
技术领域
本发明属于互联网技术领域,具体涉及一种突发话题检测方法。
背景技术
近年来,随着Web 2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。突发话题在微博中传播速度非常迅速,能够产生巨大的影响力,因此,微博平台上的社会突发话题检测技术对于社会热点的及时发现、网络民意的尽快感知、突发话题及早响应等方面都具有积极的现实意义。然而,目前对于微博的突发话题检测而言依旧存在一些挑战。首先,微博上话题具有多样性。同一时间微博上各种话题如社会话题类话题、娱乐八卦类话题、个人生活琐事等多种话题掺杂在一起,存在大量对于话题检测而言无意义的信息。其次,微博上有的话题表现出间歇性。通常同一个话题会随着微博用户的关注程度和时间的推移经历一个产生、发展、成熟、衰退和消亡的完整生命周期。通常这个生命周期是连续的,但是一些话题在产生后会沉寂两到三天,之后随着相关的后续消息出现再次出现。
本发明提出了基于突发词检测和过滤的微博突发话题检测方法。从两个方面进行研究。突发词提取上,综合考虑了词的基本权重和突发权重,利用词出现频次、包含词的微博数、词出现频次的增长速度计算词的突发值;利用词突发值趋势分析的方法,计算短期突发值的均值与长期突发值的均值的差,过滤无效的突发词。本发明能够更加准确地检测突发话题。
发明内容
本发明所提出的基于突发词检测和过滤的微博突发话题检测方法分为三个部分:突发词的提取、伪突发词的过滤和突发话题识别。首先,分别计算一个词在某个时间片的基本权重与突发权重,根据这个词的基本权重与突发权重计算一个词的突发值;其次,计算一个词突发值在两个不同长度时间段内的指数平均值,根据两个指数平均值的差判断词突发值的变化趋势;最后,使用主题模型和聚类的方法检测出当前时间片的话题,并选出每个话题出现频次最高的3个词作为关键词。如果一个话题中的关键词包含突发词,则认为这个话题是突发话题。
为达到上述目的,如图1所示,本发明的技术方案划分为三个部分:
1.基于词突发值计算的突发词检测;
2.基于突发值指数平均值的伪突发词识别;
3.基于话题关键字和突发词相似度的突发话题识别
本发明有以下一些技术特征:
(1)提出基于词突发值计算的突发词检测,突发词提取上,综合考虑了词的基本权重和突发权重,利用词出现频次、包含词的微博数、词出现频次的增长速度计算词的突发值。
(2)提出基于突发值指数平均值的伪突发词识别,计算一个词突发值在两个不同长度时间段内的指数平均值,根据两个指数平均值的差判断词突发值的变化趋势。
(3)提出基于话题关键字和突发词相似度的突发话题识别,使用主题模型与聚类算法结合的方法来检测时间片内的话题。当一个话题的前三个关键词与突发词的相似度大于一个阈值时,此话题为突发话题。算法的精确率、召回率比传统算法有较大提高。
本发明提出了一种突发话题检测方法,理论系统完备,创新性突出,主要用在社交网络数据中。本发明应用在社交网络突发话题检测领域,可以处理各种话题混杂的社交网络文本数据,识别出伪突发词,提高突发话题检测的准确性和实时性。
附图说明
图1为基于突发词检测和过滤的微博突发话题检测模型的基本内容结构图;
具体实施方式
为使本发明的目的、算法计算及优点更加清楚明白,以下参照附图对本发明做进一步详细地说明。本发明算法的具体实现分为以下几步:
1.基于词突发值计算的突发词检测
结合词的基本权重和突发权重,提出了一种基于突发值计算的突发词算法。算法主要包括两个部分:基本权重计算和突发权重计算。这个过程采用公式(1)来阐述:
W(i,j)=λF(i,j)+(1-λ)B(i,j) (1)
其中F(i,j)和B(i,j)分别代表词Wi在第j时间片的基本权重和突发权重,Wi表示词典中第i个词,j表示时间片的顺序。λ为调节系数(0<λ<1)。算法具体实现步骤:
步骤1:统计词的频率信息。将数据集划分成n个时间片下的数据集D1,…,Dn;获取一个词的累计词频、词频最高的词的词频、包含这个词的文档和时间片内总文档数;
步骤2:计算基本权重。计算词的累计词频与最高词频的比值、包含词的文档数与总文档数比值,对两个比值进行加权处理,以输出词的基本权重;
步骤3:计算突发权重。计算词累计词频的增长速度作为突发权重,其中,词的累计词频表示当前时间片内所有文档中,词出现的累计次数,用于比较的词频是词Wi在之前k个时间片内的平均累计词频;
步骤4:加权计算基本权重和突发权重,最终得到词Wi在第j时间片的突发值;当突发值大于某个阈值时,这个词是突发词。
2.基于突发值指数平均值的伪突发词识别
提出的基于突发值指数平均值的伪突发词识别算法,主要的实施划分为三个阶段。在第一阶段,计算词的突发值计算在两个时间段内指数平均值的差。第二阶段,计算差值在一个时间段的指数平均值。第三阶段,比较第一阶段和第二阶段的结果判断词的突发值变化趋势,判断词是否为伪突发词。算法具体实现步骤:
步骤1:计算词突发值在之前n天内的指数平均值,取不同的n的值n1,n2;
步骤2:计算词突发值在n1-n2两个时间段内的差值,并计算差值的指数平均值;
步骤3:比较步骤2得到差值和差值的指数平均值,判断词是否为伪突发词。
3.基于突发词的突发话题识别
提出一种基于话题关键字和突发词相似度的突发话题识别算法,算法的具体步骤如下:
步骤1:使用主题模型计算当前时间片内的文本的主题分布;
步骤2:对当前时间片内的文本,通过聚类算法比较文本之间的余弦相似度得到聚类结果,每一个类是一个话题;
步骤3:选取每个话题文本中累计词频最高的三个词为关键词;
步骤4:当一个话题的关键词包含当前时间片的突发词时,这个话题是突发话题。
Claims (1)
1.一种基于突发词检测和过滤的微博突发话题检测方法,其特征在于,该方法包括:
(1)基于词突发值计算的突发词检测:根据分词结果计算词在一个时间片的突发值,在一个时间片内,获取一个词的累计词频、词频最高的词的词频、包含这个词的文档和时间片内总文档数,并计算词的累计词频与最高词频的比值、包含词的文档数与总文档数比值,对两个比值进行加权处理,以输出词的基本权重,计算词累计词频的增长速度作为突发权重,其中,词的累计词频表示当前时间片内所有文档中,词出现的累计次数,对两个权重加权求和计算出突发值,
(2)基于突发值指数平均值的伪突发词识别:计算词在不同长度时间段内的突发值的指数平均值,计算两个指数平均值的差值,再次计算差值在一个时间段内的指数平均值,比较两个结果的大小确定词突发值的变化趋势,以此识别伪突发词,
(3)基于话题关键字和突发词相似度的突发话题识别:使用主题模型与聚类算法结合的方法来检测时间片内的话题,使用主题模型计算当前时间片内的文本的主题分布;对当前时间片内的文本,通过聚类算法比较文本之间的余弦相似度得到聚类结果,每一个类是一个话题;选取每个话题文本中累计词频最高的三个词为关键词;当一个话题的关键词包含当前时间片的突发词时,这个话题是突发话题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631334.1A CN110489741B (zh) | 2019-07-12 | 2019-07-12 | 基于突发词检测和过滤的微博突发话题检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631334.1A CN110489741B (zh) | 2019-07-12 | 2019-07-12 | 基于突发词检测和过滤的微博突发话题检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489741A CN110489741A (zh) | 2019-11-22 |
CN110489741B true CN110489741B (zh) | 2022-06-21 |
Family
ID=68547093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631334.1A Active CN110489741B (zh) | 2019-07-12 | 2019-07-12 | 基于突发词检测和过滤的微博突发话题检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489741B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN104063428A (zh) * | 2014-06-09 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种中文微博突发热点话题检测方法 |
CN104216964A (zh) * | 2014-08-22 | 2014-12-17 | 哈尔滨工程大学 | 一种面向微博的非分词突发话题检测方法 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN104281608A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 基于微博的突发事件分析方法 |
CN104965930A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的突发事件演化分析方法 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107908616A (zh) * | 2017-10-18 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 预测趋势词的方法和装置 |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及系统 |
-
2019
- 2019-07-12 CN CN201910631334.1A patent/CN110489741B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN104281608A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 基于微博的突发事件分析方法 |
CN104063428A (zh) * | 2014-06-09 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种中文微博突发热点话题检测方法 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN104216964A (zh) * | 2014-08-22 | 2014-12-17 | 哈尔滨工程大学 | 一种面向微博的非分词突发话题检测方法 |
CN104965930A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的突发事件演化分析方法 |
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107908616A (zh) * | 2017-10-18 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 预测趋势词的方法和装置 |
CN109376231A (zh) * | 2018-09-29 | 2019-02-22 | 杭州凡闻科技有限公司 | 一种媒体热点跟踪方法及系统 |
Non-Patent Citations (9)
Title |
---|
"Chinese Wechat and Blog Hot WOrds Detection Method Based on Chinese Semantic Clustering";Yu Wang 等;《Cloud Computing for Big Data Processing》;20171005;第613-618页 * |
"Combining Burst Detection for Hot Topic Extraction";MaHuiFang 等;《www.scientific.net》;20110704;第1283-1288页 * |
"基于多特征融合的微博突发事件检测方法研究";王建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-4382 * |
"基于微博的突发事件检测方法研究";张玉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161115;I138-458 * |
"基于爆发词识别的微博突发事件监测方法研究";陈国兰;《情报杂志》;20140918;第123-128页 * |
"基于突发词H指数的微博突发事件检测算法研究";张晓霞 等;《情报杂志》;20150218;第37-41页 * |
"基于突发词地域分析的微博突发事件检测方法研究";张雄宝;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180515;I138-563 * |
"基于突发词聚类的微博突发事件检测方法";郭跇秀 等;《计算机应用》;20140210;第486-490页 * |
"爆发词识别与主题探测技术研究综述";逯万辉 等;《情报理论与实践》;20120630;第57-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110489741A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN107193797B (zh) | 中文微博的热点话题检测及趋势预测方法 | |
Kaushik et al. | Sentiment extraction from natural audio streams | |
CN104484343B (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN103455562A (zh) | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN108549634A (zh) | 一种中文专利文本相似度计算方法 | |
CN110046260A (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
CN103324665A (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN109145114B (zh) | 基于Kleinberg在线状态机的社交网络事件检测方法 | |
CN103258025B (zh) | 生成共现关键词的方法、提供关联搜索词的方法以及系统 | |
CN113032557B (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN103559176A (zh) | 微博情感演化分析方法及系统 | |
CN103927297A (zh) | 基于证据理论的中文微博可信度评估方法 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN110781679A (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN103914551A (zh) | 一种微博语义信息扩充和特征选取方法 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN114547293A (zh) | 一种跨平台虚假新闻检测方法及系统 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN106681986A (zh) | 一种多维度情感分析系统 | |
Jedrzejewski et al. | Opinion mining and social networks: A promising match | |
CN113343118A (zh) | 混合新媒体下的热点事件发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |