CN110990592B - 一种微博突发话题在线检测方法及检测装置 - Google Patents
一种微博突发话题在线检测方法及检测装置 Download PDFInfo
- Publication number
- CN110990592B CN110990592B CN201911081872.4A CN201911081872A CN110990592B CN 110990592 B CN110990592 B CN 110990592B CN 201911081872 A CN201911081872 A CN 201911081872A CN 110990592 B CN110990592 B CN 110990592B
- Authority
- CN
- China
- Prior art keywords
- document
- microblog
- time
- burst
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种微博突发话题在线检测方法及检测装置,能够实现微博突发话题实时在线检测。所述方法包括:获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。本发明涉及互联网技术领域。
Description
技术领域
本发明涉及互联网技术领域,特别是指一种微博突发话题在线检测方法及检测装置。
背景技术
如今,社交媒体已成为人们日常生活的重要组成部分,它使每个用户都成为一个信息来源,人们可以随时随地享受即时信息和知识,分享自己的想法和观点。消息在整个社交网络中迅速而广泛地传播,它极大地改变了新闻的生成和通信的方式。微博作为目前主流的社交平台,备受大众的喜爱。近年来,微博在许多热点事件的发布和传播中发挥了重要作用。许多热点大事件都源于微博信息的发布和传播。微博中的信息涉及到人们关注的各个方面,然而信息的传播的迅速,趋势的难以控制也给网络的管理带来巨大的挑战。
尤其涉及负面舆情的突发事件,一旦通过微博在短时间内不断被转发扩散,将会产生极为不良的影响,对于这一类事件应在爆发前尽早识别出主题,并进行一定的人工控制和引导,将其不利影响降至最低,确保网络的健康发展。
现有技术中,由于微博文档数据稀疏,无法实时、准确地实现微博突发话题的在线检测。
发明内容
本发明要解决的技术问题是提供一种微博突发话题在线检测方法及检测装置,以解决现有技术所存在的微博文档数据稀疏,无法实时、准确地实现微博突发话题在线检测的问题。
为解决上述技术问题,本发明实施例提供一种微博突发话题在线检测方法,包括:
获取微博文档流,提取文档的时间信息;
对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
进一步地,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
进一步地,滤除的无用信息包括:URL链接、@某用户、非中文字符及表情中的一种或多种。
进一步地,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
进一步地,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题。
进一步地,单词对的速度表示为:
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量。
进一步地,单词对的加速度可表示为:
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
进一步地,所述对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk包括:
对时间窗口内的每一个文档,根据狄利克雷分布,生成文档的主题分布θ和每个主题k对应的词汇分布φk。
进一步地,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
其中,αN和βN分别为新的时间窗口中参数α和β的值,α表示每个文档下主题分布的狄利克雷分布先验参数,β表示主题k下词汇分布的狄利克雷先验参数;DO和WO分别为旧的时间窗口中文档数和单词对数量;和/>分别为旧时间窗口中的主题数和主题中包含的单词对数;BN为新时间窗口中单词对的数量;△表示旧时间窗口对新时间窗口的贡献权重。
本发明实施例还提供一种微博突发话题在线检测装置,包括:
提取模块,用于获取微博文档流,提取文档的时间信息;
合成模块,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明的上述技术方案的有益效果如下:
上述方案中,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
附图说明
图1为本发明实施例提供的微博突发话题在线检测方法的流程示意图;
图2为本发明实施例提供的建立突发话题检测模型的原理示意图;
图3为本发明实施例提供的微博突发话题在线检测装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的微博文档数据稀疏,无法实时、准确地实现微博突发话题在线检测的问题,提供一种微博突发话题在线检测方法及检测装置。
实施例一
如图1所示,本发明实施例提供的微博突发话题在线检测方法,包括:
S101,获取微博文档流,提取文档的时间信息;
S102,对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
S103,将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
S104,通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明实施例所述的微博突发话题在线检测方法,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
本实施例中,可以通过爬虫获取微博文档流其中,ND为文档数量,di为文档i;并对获取的微博文档流进行去噪处理滤除文档中的URL链接、@某用户、非中文字符及表情等无用信息,这些无用信息对话题检测并无意义。需要说明的是:两个#中间的内容为话题标签,本实施例重点考虑标签内容,所以对于#字符不予处理。
本实施例中,去噪处理的同时提取文档的时间信息,并划分固定长度为△T的时间片,这样每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td=t相关联,其中时间片t的取值按照时间片的数量依次增长,t=1,2,3…。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
本实施例中,对于带有标签的微博文档,提取两个#字符之间的标签内容,并滤除标签之外的正文内容,然后,将标签内容重新写入相应的文档之中;其中,标签内容一般为2-5个单词组成的短语或者一句话,此标签内容能够代表文档的中心话题内容。
本实施例中,对于不带有标签的微博文档不做处理,此时,将处理后的有标签的文档和没有标签的文档合成新的微博文档流,得到更新之后的微博文档流D。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息(时间特征)的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题。
本实施例中,将新合成的微博文档流中的词汇构成单词对,利用带有时间信息(时间特征)的单词对获得突发项,建立突发话题检测模型具体可以包括以下步骤:
A11,单词对共现
本实施例中,应用文档语料库中的所有单词对共现的方式,即两个单词同时出现,将新合成的微博文档流中的词汇构成单词对,将带有时间特征单词对形成语料集合,并放入相应的长度相同的时间片中;例如,新合成的微博文档流中的文档di由一组词汇集合Wi表示,将Wi中的词汇两两组成一个单词对bi=(wi1,wi2),wi1、wi2表示文档di中的任意2个词汇,则文档di也可由单词对集合表示,其中,NB为单词对的数量。单词对共现的频率越稳定,越更清楚地揭示词汇之间的相关性。
本实施例中,突发话题检测模型考虑微博文档中的标签内容,用标签内容替换正文内容,突出文档中心主题,并对新合成的微博文档流中的文档采用单词对共现的方法,这两步操作均在一定程度上解决微博文档数据稀疏问题。
A12,“加速度”确定突发项
本实施例中,时间特征包括术语的变化率及变化趋势,具体抽象为在时间线上的“速度”与“加速度”,计算在每个时间片中术语的变化趋势,并设置相应阈值及标准提取突发项,即:对于突发话题的检测考虑用“加速度”的变化来确定突发项。
本实施例中,首先确定每个时间片内单词对的“速度”,表示为,
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量。
在式(1)中,当wi1=wi2时,vt(wi1,wi2)等于单词wi1所占比率;当wi1≠wi2时,vt(wi1,wi2)表示项wi1和wi2的共现的概率。
接着,根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的“加速度”,表示为:
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
本实施例中,由同两个相邻时间片的“速度”计算前一个时间片结束时单词对的“加速度”,若Ait(wi1,wi2)在预设时间段内皆大于预设的阈值,则确定当前单词对为突发项,否则,则当前单词对为一般术语,根据“加速度”的大小为单词对赋予相应的贡献权重δ,判断突发项对应的主题是否为突发主题。
其中,η表示主题为突发主题的概率,η∈(0,1);Aj(wi1,wi2)表示主题中包含的第j个单词对的加速度;NKB为主题中包含的单词对数量;δ为单词对的权重,根据不同的“加速度”的值设置不同的δ。
本实施例中,定义一个二进制变量m判断主题是否为突发话题,其中,m表示突发话题标识,若η<0.5,取m=0,不做输出;若η>0.5,取m=1,输出突发项对应的主题为突发话题。
本实施例中,采用“加速度”确定突发项,并根据加速度大小给予不同的贡献权重确定是否是突发主题,能够提高话题检测的准确率。
A13,建立突发话题检测模型,如图2所示(单圆圈表示隐变量,双圆圈表示观察到的变量),具体可以包括以下步骤:
A131,确定时间窗口T,其中,所述时间窗口包括:若干个时间片;对于时间片t∈T的每一个文档,参照文档主题生成(LDA)模型的生成过程,根据狄利克雷分布(DirichletDistribution),生成文档的主题分布θ和每个主题k对应的词汇分布φk:
生成主题分布θ~Dir(α),其中,文档的主题分布θ服从参数为α的狄利克雷分布,α表示每个文档下主题分布的狄利克雷分布先验参数,Dir()表示狄利克雷分布;
生成词汇分布φk~Dir(β),其中,主题k对应的词汇分布φk服从参数为β的Dirchlet分布,β表示主题k下词汇分布的狄利克雷先验参数。
A132,对于时间片t内的每一个单词对:
生成两个单词wi1、wi2,其中,wi1、wi2为单词对中的两个词汇;
根据步骤A12,生成变量m;
如果m=1,生成突发话题zi。
本实施例中,在突发话题检测模型中,联合条件分布概率P为为:
本实施例中,使用吉布斯采样(Gibbs sampling)算法估计参数α和β,基本思想是使用从潜在变量θ和φk的后验分布中抽取的样本,来估计参数α和β。
在前述微博突发话题在线检测方法的具体实施方式中,进一步地,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃最早的时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
其中,αN和βN分别为新的时间窗口中参数α和β的值,α表示每个文档下主题分布的狄利克雷分布先验参数,β表示主题k下词汇分布的狄利克雷先验参数;DO和WO分别为旧的时间窗口中文档数和单词对数量;和/>分别为旧时间窗口中的主题数和主题中包含的单词对数;BN为新时间窗口中单词对的数量;△表示旧时间窗口对新时间窗口的贡献权重。
本实施例中,通过公式(5)和(6)实时维护突发话题检测模型的参数更新,以实现微博突发话题的在线检测。
实施例二
本发明还提供一种微博突发话题在线检测装置的具体实施方式,由于本发明提供的微博突发话题在线检测装置与前述微博突发话题在线检测方法的具体实施方式相对应,该微博突发话题在线检测装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述微博突发话题在线检测方法具体实施方式中的解释说明,也适用于本发明提供的微博突发话题在线检测装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图3所示,本发明实施例还提供一种微博突发话题在线检测装置,包括:
提取模块11,用于获取微博文档流,提取文档的时间信息;
合成模块12,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块13,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块14,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。
本发明实施例所述的微博突发话题在线检测装置,获取微博文档流,提取文档的时间信息;对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测。这样,通过利用微博标签内容突出文档中心主题并采用单词对共现的方法来解决数据稀疏问题,进而利用带有时间信息的单词对获得突发项,建立、更新突发话题检测模型实现微博突发话题实时在线检测,且能够提高微博话题检测的准确率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种微博突发话题在线检测方法,其特征在于,包括:
获取微博文档流,提取文档的时间信息;
对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测;
其中,所述将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型包括:
将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;
确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;
根据生成的词汇分布,确定每个主题包含的单词对;
确定每个时间片内单词对的速度;
根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;
判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题;
其中,单词对的速度表示为:
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量;
其中,单词对的加速度表示为:
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
2.根据权利要求1所述的微博突发话题在线检测方法,其特征在于,所述获取微博文档流,提取文档的时间信息包括:
获取微博文档流;
对获取的微博文档流进行去噪处理滤除无用信息,提取文档的时间信息,并划分固定长度为△T的时间片;其中,每个文档按照时间顺序在相应的时间片中,同一个时间片中的文档与时间戳td相关联,其中,td=t,t表示第t个时间片;△T表示时间片的长度。
3.根据权利要求1所述的微博突发话题在线检测方法,其特征在于,滤除的无用信息包括:URL链接、@某用户、非中文字符及表情中的一种或多种。
4.根据权利要求2所述的微博突发话题在线检测方法,其特征在于,所述对有标签的文档提取标签内容,利用提取的标签内容代替正文内容包括:
对有标签的文档提取两个#字符之间的标签内容,删除标签内容之外的正文内容,将标签内容重新写入相应的文档之中。
5.根据权利要求1所述的微博突发话题在线检测方法,其特征在于,所述对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk包括:
对时间窗口内的每一个文档,根据狄利克雷分布,生成文档的主题分布θ和每个主题k对应的词汇分布φk。
6.根据权利要求5所述的微博突发话题在线检测方法,其特征在于,所述通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测包括:
在线突发话题检测过程中,新的待检测微博文档流不断进入,采用滑动窗口的方法,随着时间窗口不断滑动,丢弃时间窗口之外的时间片,并固定上一个时间窗口中的参数的分布期望θ、φk,求解新的时间窗口中的参数α和β:
7.一种微博突发话题在线检测装置,其特征在于,包括:
提取模块,用于获取微博文档流,提取文档的时间信息;
合成模块,用于对有标签的文档提取标签内容,利用提取的标签内容代替正文内容,将处理后的有标签的文档和没有标签的文档合成新的微博文档流;
建立模块,用于将新合成的微博文档流中的词汇构成单词对,利用带有时间信息的单词对获得突发项,建立突发话题检测模型;
更新模块,用于通过增量的方式实时更新突发话题检测模型,实现微博突发话题的在线检测;
其中,所述建立模块,具体用于将新合成的微博文档流中的词汇构成单词对,并放入相应的时间片中;其中,单词对表示为bi=(wi1,wi2),wi1、wi2表示新合成的微博文档流中文档di中的任2个词汇;确定时间窗口,对时间窗口内的每一个文档生成文档的主题分布θ和每个主题k对应的词汇分布φk;其中,所述时间窗口包括:若干个时间片;根据生成的词汇分布,确定每个主题包含的单词对;确定每个时间片内单词对的速度;根据确定的每个时间片内单词对的速度,确定每个时间片结束时单词对的加速度;判断加速度在预设时间段内是否皆大于预设的阈值,若是,则当前单词对为突发项,并根据加速度大小为单词对赋予相应的贡献权重,确定突发项对应的主题是否是突发话题;
其中,单词对的速度表示为:
其中,vit(wi1,wi2)表示单词对(wi1,wi2)在第t个时间片的速度,Wt和Nt分别表示第t个时间片内的词汇集合和词汇数量;
其中,单词对的加速度表示为:
其中,Ait(wi1,wi2)表示第t个时间片结束时单词对(wi1,wi2)的加速度,vi(t+1)(wi1,wi2)表示单词对(wi1,wi2)在第t+1个时间片的速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081872.4A CN110990592B (zh) | 2019-11-07 | 2019-11-07 | 一种微博突发话题在线检测方法及检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081872.4A CN110990592B (zh) | 2019-11-07 | 2019-11-07 | 一种微博突发话题在线检测方法及检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990592A CN110990592A (zh) | 2020-04-10 |
CN110990592B true CN110990592B (zh) | 2023-06-23 |
Family
ID=70083438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911081872.4A Active CN110990592B (zh) | 2019-11-07 | 2019-11-07 | 一种微博突发话题在线检测方法及检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990592B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069394B (zh) * | 2020-08-14 | 2023-09-29 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447179A (zh) * | 2015-12-14 | 2016-03-30 | 清华大学 | 基于微博社交网络的话题自动推荐方法及其系统 |
CN106547875A (zh) * | 2016-11-02 | 2017-03-29 | 哈尔滨工程大学 | 一种基于情感分析和标签的微博在线突发事件检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482119B2 (en) * | 2015-09-14 | 2019-11-19 | Conduent Business Services, Llc | System and method for classification of microblog posts based on identification of topics |
-
2019
- 2019-11-07 CN CN201911081872.4A patent/CN110990592B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447179A (zh) * | 2015-12-14 | 2016-03-30 | 清华大学 | 基于微博社交网络的话题自动推荐方法及其系统 |
CN106547875A (zh) * | 2016-11-02 | 2017-03-29 | 哈尔滨工程大学 | 一种基于情感分析和标签的微博在线突发事件检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110990592A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Emon et al. | A deep learning approach to detect abusive bengali text | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
Tsur et al. | What's in a hashtag? Content based prediction of the spread of ideas in microblogging communities | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN105893582B (zh) | 一种社交网络用户情绪判别方法 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN111309864B (zh) | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN109214454B (zh) | 一种面向微博的情感社区分类方法 | |
CN106547866B (zh) | 一种基于情感词随机共现网络的细粒度情感分类方法 | |
Dent et al. | Through the twitter glass: Detecting questions in micro-text | |
Srivastava et al. | Challenges with sentiment analysis of on-line micro-texts | |
Narr et al. | Extracting semantic annotations from twitter | |
CN114547293A (zh) | 一种跨平台虚假新闻检测方法及系统 | |
Arif et al. | A machine learning based approach for opinion mining on social network data | |
CN110990592B (zh) | 一种微博突发话题在线检测方法及检测装置 | |
CN108038166A (zh) | 一种基于词项主客观偏向性的中文微博情感分析方法 | |
CN106708796A (zh) | 一种基于文本的关键人名的提取方法及系统 | |
CN103984731B (zh) | 微博环境下自适应话题追踪方法和装置 | |
Sun et al. | Joint topic-opinion model for implicit feature extracting | |
Dayalani et al. | Emoticon-based unsupervised sentiment classifier for polarity analysis in tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |