CN105335349A - 一种基于时间窗口的lda微博主题趋势检测方法及装置 - Google Patents

一种基于时间窗口的lda微博主题趋势检测方法及装置 Download PDF

Info

Publication number
CN105335349A
CN105335349A CN201510532828.6A CN201510532828A CN105335349A CN 105335349 A CN105335349 A CN 105335349A CN 201510532828 A CN201510532828 A CN 201510532828A CN 105335349 A CN105335349 A CN 105335349A
Authority
CN
China
Prior art keywords
theme
time window
lda
trend
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510532828.6A
Other languages
English (en)
Inventor
侯德俊
尚鸿运
喻梅
缑小路
胡悦
高玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510532828.6A priority Critical patent/CN105335349A/zh
Publication of CN105335349A publication Critical patent/CN105335349A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于时间窗口的LDA微博主题趋势检测方法及装置,方法包括:在各个时间窗口利用LDA模型从词集中抽取主题词,获取全局各主题;对全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;通过LDA主题模型,结合热点主题,依次在各个时间窗口提取每个热点主题的特征词;结合特征词的结果,计算热点主题在各时间窗口的热度值,并绘制热点主题的趋势图。装置包括:第一获取模块、第二获取模块、提取模块和绘制模块。本发明提高了微博主题检测的精度,使得趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据。

Description

一种基于时间窗口的LDA微博主题趋势检测方法及装置
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,具体涉及短文本处理、主题检测与跟踪,以及网络舆情分析的相关领域,尤其涉及一种基于时间窗口的LDA微博主题趋势检测方法及装置。
背景技术
主题检测与跟踪(TopicDetectionandTracking,TDT)技术是由美国国防部高级研究规划署(DARPA)和国家标准技术局(NIST)发起的,旨在发展一系列基于时间的信息组织技术,帮助人们应对信息过载问题。国外对于TDT的研究和起步较早,CMU,Cambridge等一流大学以及IBM公司在TDT评测中已经取得了很好的成绩。陆续地,TDT主题检测的技术被应用到实践中;一种基于增量TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文件频率)的事件检测系统被成功开发;自然语言处理技术被引入到主题检测中,且有效提高了主题检测的质量。国内在TDT方面的研究相继起步:TDT系统评测会议从1999年开始引入汉语;中国台湾大学参加了1999年的TDT主题检测任务的评测;各大学相关专业人士相继关注主题检测与跟踪的评测及研究;中科院的骆卫华等人提出一种基于多策略优化的分治多层聚类算法比基准方法有了较大的该进;复旦大学的闵可锐等人采用一种基于知识库和网络流算法更好地实现了主题的聚合。
潜在狄利克雷(LatentDirichletAllocation,LDA)模型是一种主题检测模型,能够识别大规模文档集(documentcollection)或者语料库(corpus)中潜在的主题信息。LDA模型是Blei等人在2003年提出的一种无监督机器学习技术,是一种三层贝叶斯概率模型,包含:词语、主题和文档三层结构。模型的生成过程首先假设不同主题下词语按照不用的概率分布随机产生,一个主题下词语服从多项式分布;其次假设不同文档下主题依照不同的概率随机分布产生;最后对每一个文档从Dirichlet分布中抽样产生该文档的主题分布,结合主题词的概率分布随机生成文档中的每一个词。这种方法更针对微博文本的特点。实际上LDA模型的主题检测过程是上述生成过程的逆过程,在已知文档中每个词的前提下,采用Gibbs抽样算法估计相关参数,从而获得文档集的主题概率分布(BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JournalofMachineLearningResearrch,2003,(3):2003—2003)。
目前已有LDA与时序信息结合进行主题检测的模型,相比传统LDA模型能产生更精准的主题检测结果。但此时获得的主题结果数量仍较多,信息相对分散,不利于对热点主题的建模与分析,而且缺乏一个有力的指标表达热点事件的发展趋势信息,无法供研究人员分析热点事件基于时间的演化规律。
发明内容
本发明提供了一种基于时间窗口的LDA微博主题趋势检测方法及装置,本发明提高了微博主题检测的精度,使得趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据,详见下文描述:
一种基于时间窗口的LDA微博主题趋势检测方法,所述检测方法包括以下步骤:
在各个时间窗口利用LDA主题模型从词集中抽取主题词,获取全局各主题;
对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;
通过LDA主题模型,结合所述热点主题,依次在各个时间窗口提取每个热点主题的特征词;
结合所述特征词的结果,计算所述热点主题在各时间窗口的热度值,并绘制所述热点主题的趋势图。
其中,所述检测方法还包括:
通过网络爬虫获取微博数据集;
对所述微博数据集进行文本分词、去除停用词等预处理,获取所述词集。
其中,所述在各个时间窗口利用LDA主题模型从词集中抽取主题词,获取全局各主题的步骤具体为:
将全局时间划分为若干时间窗口;通过基于时间窗口的LDA主题模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布,获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
其中,所述对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题的步骤具体为:
利用概率分布的相对熵表示两个主题的差异性,所述差异性使用相对熵差分来计算,再纠正相对熵差分距离的不对称性,得到两个主题的相似度值;
结合相似度值对获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
一种基于时间窗口的LDA微博主题趋势检测装置,所述检测装置包括:
第一获取模块,用于在各个时间窗口利用LDA主题模型从词集中抽取主题词,获取全局各主题;
第二获取模块,对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;
提取模块,用于通过LDA主题模型,结合所述热点主题,依次在各个时间窗口提取每个热点主题的特征词;
绘制模块,用于结合所述特征词的结果,计算所述热点主题在各时间窗口的热度值,并绘制所述热点主题的趋势图。
其中,所述检测装置还包括:
第三获取模块,用于通过网络爬虫获取微博数据集;
第四获取模块,用于对所述微博数据集进行文本分词、去除停用词等预处理,获取所述词集。
其中,所述第一获取模块包括:
划分子模块,用于将全局时间划分为若干时间窗口;
建立子模块,用于通过基于时间窗口的LDA主题模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布;
第一获取子模块,用于获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
其中,所述第二获取模块包括:
第二获取子模块,用于利用概率分布的相对熵表示两个主题的差异性,所述差异性使用相对熵差分来计算,再纠正相对熵差分距离的不对称性,得到两个主题的相似度值;
聚类分析子模块,用于结合相似度值对获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
本发明提供的技术方案的有益效果是:本发明为微博主题检测结果的利用与分析提供了一种新思路,通过相似度聚类缩小主题范围,并考虑将热度值作为表示热点主题趋势的指标,从而确定热点主题作为舆情分析对象,与未经处理的LDA主题检测结果相比,主题精度得到提升,趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据,具有较大实用特点。
附图说明
图1为一种基于时间窗口的LDA微博主题趋势检测方法的流程图;
图2为K-means聚类结果的示意图;
图3为热点主题趋势图;
图4为一种基于时间窗口的LDA微博主题趋势检测装置的示意图;
图5为一种基于时间窗口的LDA微博主题趋势检测装置的另一示意图;
图6为第一获取模块的示意图;
图7为第二获取模块的示意图。
附图中,各部件的列表如下:
1:第一获取模块;2:第二获取模块;
3:提取模块;4:绘制模块;
5:第三获取模块;6:第四获取模块;
11:划分子模块;12:建立子模块;
13:第一获取子模块;21:第二获取子模块;
22:聚类分析子模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例针对现有主题检测结果数量较多且含义相对分散这一缺陷,在基于时间窗口的LDA主题模型检测的主题结果之上,应用相似度聚类缩小主题范围,确定热点主题,并提出热度值计算方法,从而建立微博的热点主题检测和主题时间演化体系,并进行趋势分析,详见下文描述:
实施例1
一种基于时间窗口的LDA微博主题趋势检测方法,参见图1,该检测方法包括以下步骤:
101:通过网络爬虫获取微博数据集;
例如:构建针对新浪微博的爬虫程序,爬取新浪微博上一定时长的微博内容,并保留发表时间、发表作者、标题、正文内容等信息。该步骤为本领域技术人员所公知,本发明实施例对此不作赘述。
102:对微博数据集进行文本分词、去除停用词等预处理,获取词集;
该步骤具体为:对获取到的微博数据集,使用现有的汉语词法分析系统进行分词;之后使用“哈工大停用词表”进行去除停用词筛选,只保留分词结果中的名词和动词。本发明实施例对预处理中使用到的处理软件、工具不做限制,只要能实现上述功能的软件即可。
103:将全局时间划分为若干时间窗口,在各个时间窗口利用LDA主题模型抽取主题词,获取全局各主题;
该步骤具体为:将全局时间划分为若干时间窗口;每条微博的词集视为一个文档,利用基于时间窗口的LDA主题模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布,从两个分布结果可得到每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
104:对全局各主题进行相似度计算,之后进行K-means聚类,找出符合舆情分析的热点主题;
该步骤具体为:通过步骤103得到的主题-词语概率分布,利用概率分布的Kullback-Leibler散度(又称相对熵)表示两个主题的差异性,此差异性使用KL差分来计算,再纠正KL差分距离的不对称性,得到两个主题的相似度值。结合此相似度结果,对步骤103获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
105:在每个时间窗口内,分别应用LDA模型,抽取热点主题对应的特征词;
通过步骤103中的基于时间窗口的LDA主题模型算法,结合步骤104中得到的热点主题,依次在各个时间窗口提取每个热点主题的特征词。
106:结合特征词结果,计算热点主题在各时间窗口的热度值,并绘制热点主题趋势图。
即,根据各时间窗口热点主题特征词序列,计算热点主题在各时间窗口的热度值,并绘制热点主题趋势图,以进行热点趋势分析。
综上所述,本发明实施例通过上述步骤101-步骤106提高了微博主题检测的精度,使得趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据。
实施例2
下面结合具体的计算公式、例子、附图1对实施例1中的方案进行详细描述,详见下文描述:
201:构建针对新浪微博的爬虫程序,爬取新浪微博上一定时长的微博内容,并保留发表时间、发表作者、标题、正文内容等信息;
202:使用中国科学院计算技术研究所研发出的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),采用提供的API接口ICTCLAS5.0进行分词处理,并将一些特殊词语,例如:情感词,网络用词等作为用户词典添加到分词器中,得到更好地分词效果。
203:对分词结果做停用词筛选;
即,去除没有实在意义使用频率又高的词,由于人工抽取的主题词通常是名词和动词,因此本发明实施例只保留了分词后的名词和动词的实词,得到最终词集。
204:根据微博数据的时间信息,并保证各窗口主题数目足以涵盖有效的主题信息,人工量定时间窗口单位,从而确定时间窗口的数量;
205:每条微博数据的词集视为一个文档,在各时间窗口利用LDA主题模型提取特征词,抽取主题词;
基于时间窗口的LDA主题模型用下面的公式,估计在t时间窗口的文档-主题概率分布θ(t)hj和主题-词语概率分布φ(t)wj,公式(1)和(2)如下:
θ ( t ) h j = C h j U T + α t Σ j ′ = 1 T C hj ′ U T + Tα t - - - ( 1 )
φ ( t ) w j = C w j W T + β t Σ w ′ = 1 N w u ( t ) C w ′ j W T + N w u ( t ) β t - - - ( 2 )
其中,w代表词语;j代表主题;T是主题总数;αt是在时间窗口t内文档的狄利克雷先验;βt是在时间窗口t内隐藏主题的狄利克雷先验;CUT是文档-主题矩阵,规模大小为Nu×T,Nu是文档总数;表示文档h被分配给主题j的次数;表示对t时间窗口内的某一文档h分配给任一主题j′的次数并求和;类似地,CWT是词语-主题矩阵,规模大小为Nw×T,Nw为词语总数;是词语w被分配给主题j的次数,为在t时间窗口内的文档u的特征词总数,表示对t时间窗口内每个词w′分配给某一主题j的次数并求和。
在基于时间窗口的LDA主题模型参数中,确定文档集合包含的主题总数T的取值,在每个时间窗口通过模型求解抽取特征词。LDA模型中参数θ(t)hj、φ(t)wj的估计方法使用Gibbs抽样法,用来对建模后的文本向量矩阵进行求解。设置主题模型中Gibbs采样参数为αt=50/T,βt=0.01,迭代I=50次。
206:计算全局各主题的相似度;
在相邻时间间隔ti和ti+1上利用LDA主题模型抽取到主题M是计算词语-主题概率分布过程中得到的主题词表,记q是在M上的概率分布,p是在M上的概率分布,则p和q之间的Kullback–Leibler散度就表示了上述两个主题在词表上分布的差异性。差异度越小,两个主题在语义上就更接近,关联度就越高。主题的关联度使用p和q的KL差分来计算,即公式(3)。
D ( p | | q ) = Σ j | M | p j log p j q j - - - ( 3 )
其中,D(p||q)为分布p和分布q的KL差分,pj和qj分别为同一主题j在分布p和q上的概率取值。
两个主题的语义相关性,应该是相互关联的,即对称的。矫正Kullback-Leibler差分距离的不对称性,用著名的JS距离即公式(4)计算主题和主题的关联度。
S i m ( j t i , j t i + 1 ) = J e n s e n - S h a n n o n ( p , q ) = 1 2 ( D ( p | | m ) + D ( q | | m ) ) - - - ( 4 )
其中,是计算结果即关联度值;Jensen-Shannon(p,q)代表分布p和分布q的JS距离计算符号;D(p||m)为分布p和分布m的KL差分;D(q||m)为分布q和分布m的KL差分。当两个主题的相似度小于预先设定的阈值时,则两个主题之间具有演化关系。
207:应用K-means文本聚类方法,对全局所有主题进行聚类,得到全局适合舆情分析的热点主题;
K-means算法采用主流通用代码。K-means算法的优势在于聚类的中心是簇的中心,能够很好地代表类中的对象。其中,计算两个文档u、v距离采用欧氏距离,如公式(5)所示。
d i s t ( u , v ) = Σ j = 1 T ( R u j - R v j ) 2 - - - ( 5 )
其中,dist(u,v)为u、v两个文档的距离;Ruj为文档u属于主题j的权值;Rvj为文档v属于主题j的权值;T为所有文档包含的主题总数。
208:根据热点主题的数量,重新确定基于时间窗口LDA主题模型的参数K的取值,在各时间窗口通过模型抽取特征词;
根据特征词和主题的关联度信息,同时权衡主题热点的差异度,确定抽取的特征词个数。
209:结合各热点主题在各窗口的特征词结果,根据公式(6)计算各热点主题在各时间窗口的热度值,最后根据热度值结果,绘制热点趋势图。
δ j t = 1 D t Σ d ∈ D t θ d , j - - - ( 6 )
其中,为热点主题j在时间窗口t的强度,代表该主题热度;θd,j表示时间窗口t内任一文档d是否归类于热点主题j;Dt为时间窗口t内文档的数量。
综上所述,本发明实施例通过上述步骤201-步骤209提高了微博主题检测的精度,使得趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据。
实施例3
下面结合附图2和3、具体事例,对实施例1和2中的方案进行可行性验证,详见下文描述:
利用网络爬虫采集新浪微博上2011年9月-10月发布的微博内容,共计25495条,保留发表时间、发表作者、标题、正文内容等信息,进行中文分词、停用词等预处理;之后将全局时间划分为4个时间窗口,如表1所示,在各个时间窗口利用LDA主题模型抽取主题共计150个;对该主题结果进行相似度计算后,再进行K-means聚类,设定聚类个数为2,则聚类结果为2个热点主题,回归文档数据后,确定主题1是“贩卖儿童”事件,主题2是“天宫一号”事件,如图2所示,之后计算热点主题在各时间窗口的热度值,并绘制成热点主题趋势图,如图3所示。
表1主题数目
图3显示,主题1在4个时间窗口上热度的变化与民生舆论事件发生、高潮、持续、消退的发展规律相一致。容易分析,在出现“贩卖儿童”的微博内容后,之所以主题1的热度值快速升高,显示出极高的公众关注度,是因为“贩卖儿童”这一事实引起民众强烈共鸣,大量网友迅速关注并扩散该主题微博;在关注度达到峰值后的一段时间,主题1热度虽略有下降但仍持续走高,印证了“贩卖儿童”这一舆情的高度影响力,事实上,该事件的发生确实引起部分民众极大恐慌,也有爱心人士不断通过网络帮助寻找失踪的孩子;随后,在不停转发关注直至部分案件破获后,主题1热度才逐渐消退,但仍比该话题刚出现时关注度高,因为有许多类似“人贩量刑”的后续话题被人关注。图3中还显示,主题2在出现后热度值未升高,反而在第二阶段达到一个最低点,之后热度攀升达到最高值,最后热度逐渐消退。经过分析,“天宫一号”这类科技舆论事件在开始并不会受到很大关注,所以预备发射的消息热度值不高,甚至在新的里程碑事件发生前关注度会跌至最低点,直到29日天宫一号成功发射,热度才攀升至最高点,之后才逐渐消退。本方法得到的热点主题趋势图直观完整地展现出两个热点事件在出现期、发展期和衰退期的热度情况,较准确地呈现了每个事件独特的发展历程,为舆情监测部门研究各类舆情事件发展规律并及时采取应对措施提供了依据。
通过在基于时间窗口的LDA主题检测结果上实行聚类,增强了热点主题的代表性,变相提高了微博主题检测的精度,又提出将热度值作为衡量主题热度的指标,二者均使得对微博热点主题的趋势分析更精准且更具实际意义。
实施例4
一种基于时间窗口的LDA微博主题趋势检测装置,参见图4,该检测装置包括:
第一获取模块1,用于在各个时间窗口利用LDA模型从词集中抽取主题词,获取全局各主题;
第二获取模块2,对全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;
提取模块3,用于通过LDA主题模型,结合热点主题,依次在各个时间窗口提取每个热点主题的特征词;
绘制模块4,用于结合特征词的结果,计算热点主题在各时间窗口的热度值,并绘制热点主题的趋势图。
其中,参见图5,该检测装置还包括:
第三获取模块5,用于通过网络爬虫获取微博数据集;
第四获取模块6,用于对微博数据集进行文本分词、去除停用词等预处理,获取词集。
其中,参见图6,第一获取模块1包括:
划分子模块11,用于将全局时间划分为若干时间窗口;
建立子模块12,用于通过基于时间窗口的LDA模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布;
第一获取子模块13,用于获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
其中,参见图7,第二获取模块2包括:
第二获取子模块21,用于利用概率分布的相对熵表示两个主题的差异性,差异性使用KL差分来计算,再纠正KL差分距离的不对称性,得到两个主题的相似度值;
聚类分析子模块22,用于结合相似度值对获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
本发明实施例对上述模块、子模块的执行主体不做限制,只要能完成上述功能的器件均可,可以为单片机、PC机等具有计算功能的器件。
综上所述,本发明实施例通过上述模块、子模块提高了微博主题检测的精度,使得趋势指标更具有表现力,为分析热点主题趋势提供更精准的依据。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述检测方法包括以下步骤:
在各个时间窗口利用LDA主题模型从词集中抽取主题词,获取全局各主题;
对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;
通过LDA主题模型,结合所述热点主题,依次在各个时间窗口提取每个热点主题的特征词;
结合所述特征词的结果,计算所述热点主题在各时间窗口的热度值,并绘制所述热点主题的趋势图。
2.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述检测方法还包括:
通过网络爬虫获取微博数据集;
对所述微博数据集进行文本分词、去除停用词等预处理,获取所述词集。
3.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述在各个时间窗口利用LDA模型从词集中抽取主题词,获取全局各主题的步骤具体为:
将全局时间划分为若干时间窗口;通过基于时间窗口的LDA主题模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布,获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
4.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题的步骤具体为:
利用概率分布的相对熵表示两个主题的差异性,所述差异性使用相对熵差分来计算,再纠正相对熵差分距离的不对称性,得到两个主题的相似度值;
结合相似度值对获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
5.一种基于时间窗口的LDA微博主题趋势检测装置,其特征在于,所述检测装置包括:
第一获取模块,用于在各个时间窗口利用LDA主题模型从词集中抽取主题词,获取全局各主题;
第二获取模块,对所述全局各主题进行相似度计算,并进行K-means聚类,获取符合舆情分析的热点主题;
提取模块,用于通过LDA主题模型,结合所述热点主题,依次在各个时间窗口提取每个热点主题的特征词;
绘制模块,用于结合所述特征词的结果,计算所述热点主题在各时间窗口的热度值,并绘制所述热点主题的趋势图。
6.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测装置,其特征在于,所述检测装置还包括:
第三获取模块,用于通过网络爬虫获取微博数据集;
第四获取模块,用于对所述微博数据集进行文本分词、去除停用词等预处理,获取所述词集。
7.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述第一获取模块包括:
划分子模块,用于将全局时间划分为若干时间窗口;
建立子模块,用于通过基于时间窗口的LDA主题模型,对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布;
第一获取子模块,用于获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。
8.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测方法,其特征在于,所述第二获取模块包括:
第二获取子模块,用于利用概率分布的相对熵表示两个主题的差异性,所述差异性使用相对熵差分来计算,再纠正相对熵差分距离的不对称性,得到两个主题的相似度值;
聚类分析子模块,用于结合相似度值对获取到的全局主题应用K-means聚类,聚类结果则代表符合舆情分析的热点主题。
CN201510532828.6A 2015-08-26 2015-08-26 一种基于时间窗口的lda微博主题趋势检测方法及装置 Pending CN105335349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510532828.6A CN105335349A (zh) 2015-08-26 2015-08-26 一种基于时间窗口的lda微博主题趋势检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510532828.6A CN105335349A (zh) 2015-08-26 2015-08-26 一种基于时间窗口的lda微博主题趋势检测方法及装置

Publications (1)

Publication Number Publication Date
CN105335349A true CN105335349A (zh) 2016-02-17

Family

ID=55285894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510532828.6A Pending CN105335349A (zh) 2015-08-26 2015-08-26 一种基于时间窗口的lda微博主题趋势检测方法及装置

Country Status (1)

Country Link
CN (1) CN105335349A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557551A (zh) * 2016-10-27 2017-04-05 西南石油大学 基于微博事件聚类建模的微博传播规模预测方法和系统
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN106599063A (zh) * 2016-11-15 2017-04-26 武汉璞华大数据技术有限公司 基于主题情感语义提取的细粒度观点挖掘方法
CN106874365A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 基于社会媒体平台上社会事件的跟踪方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107330076A (zh) * 2017-07-01 2017-11-07 岳小玲 一种网络舆情信息展示系统及方法
CN107391705A (zh) * 2017-07-28 2017-11-24 岳小玲 一种网络观点传播与预测方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108595593A (zh) * 2018-04-19 2018-09-28 南京大学 基于主题模型的会议研究热点与发展趋势信息分析方法
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及系统
CN108763390A (zh) * 2018-05-18 2018-11-06 浙江新能量科技股份有限公司 基于滑动窗口技术的细粒度主题提取方法
CN109101518A (zh) * 2018-05-21 2018-12-28 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110428102A (zh) * 2019-07-31 2019-11-08 杭州电子科技大学 基于hc-tc-lda的重大事件趋势预测方法
CN111078852A (zh) * 2019-12-09 2020-04-28 武汉大学 基于机器学习的高校前沿科研团队探测系统
CN112182187A (zh) * 2020-09-30 2021-01-05 天津大学 提取社交媒体短文本中重要时间片段的方法
CN112364164A (zh) * 2020-11-12 2021-02-12 南京信息职业技术学院 面向特定社会群体的网络舆情主题发现及趋势预测方法
CN113609790A (zh) * 2021-10-11 2021-11-05 成都数联云算科技有限公司 产品虚拟量测方法及系统及装置及介质
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN104484346A (zh) * 2014-11-28 2015-04-01 浙江大学 一种基于混合距离依赖中餐馆过程的层次化主题建模方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104484346A (zh) * 2014-11-28 2015-04-01 浙江大学 一种基于混合距离依赖中餐馆过程的层次化主题建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SILONG ZHANG 等: "Hotspots Detection on Microblog", 《2012 FOURTH INTERNATIONAL CONFERENCE ON MULTIMEDIA INFORMATION NETWORKING AND SECURITY》 *
单斌 等: "基于种子文档和话题模型的话题演化研究", 《第六届全国信息检索学术会议论文集》 *
唐晓波 等: "基于LDA模型和微博热度的热点挖掘", 《图书情报工作》 *
翟东海 等: "基于语义相似度的话题关联检测方法", 《西南交通大学学报》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN106557551A (zh) * 2016-10-27 2017-04-05 西南石油大学 基于微博事件聚类建模的微博传播规模预测方法和系统
CN106599063A (zh) * 2016-11-15 2017-04-26 武汉璞华大数据技术有限公司 基于主题情感语义提取的细粒度观点挖掘方法
CN108156193A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN108156193B (zh) * 2016-12-02 2022-08-19 阿里巴巴集团控股有限公司 一种热点确定方法及系统
CN106874365A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 基于社会媒体平台上社会事件的跟踪方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107239529B (zh) * 2017-05-27 2020-06-09 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107330076A (zh) * 2017-07-01 2017-11-07 岳小玲 一种网络舆情信息展示系统及方法
CN107330076B (zh) * 2017-07-01 2021-04-06 岳小玲 一种网络舆情信息展示系统及方法
CN107391705A (zh) * 2017-07-28 2017-11-24 岳小玲 一种网络观点传播与预测方法
CN107391705B (zh) * 2017-07-28 2020-05-12 岳小玲 一种网络观点传播与预测方法
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108564106B (zh) * 2018-02-28 2020-10-20 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力分析方法
CN108595593A (zh) * 2018-04-19 2018-09-28 南京大学 基于主题模型的会议研究热点与发展趋势信息分析方法
CN108595593B (zh) * 2018-04-19 2021-11-23 南京大学 基于主题模型的会议研究热点与发展趋势信息分析方法
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及系统
CN108763390A (zh) * 2018-05-18 2018-11-06 浙江新能量科技股份有限公司 基于滑动窗口技术的细粒度主题提取方法
CN109101518B (zh) * 2018-05-21 2022-03-22 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN109101518A (zh) * 2018-05-21 2018-12-28 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109508416B (zh) * 2018-11-09 2021-11-23 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN109299280B (zh) * 2018-12-12 2020-09-29 河北工程大学 短文本聚类分析方法、装置和终端设备
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN109871434B (zh) * 2019-02-25 2019-12-10 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110428102B (zh) * 2019-07-31 2021-11-09 杭州电子科技大学 基于hc-tc-lda的重大事件趋势预测方法
CN110428102A (zh) * 2019-07-31 2019-11-08 杭州电子科技大学 基于hc-tc-lda的重大事件趋势预测方法
CN111078852A (zh) * 2019-12-09 2020-04-28 武汉大学 基于机器学习的高校前沿科研团队探测系统
CN112182187A (zh) * 2020-09-30 2021-01-05 天津大学 提取社交媒体短文本中重要时间片段的方法
CN112182187B (zh) * 2020-09-30 2022-09-02 天津大学 提取社交媒体短文本中重要时间片段的方法
CN112364164A (zh) * 2020-11-12 2021-02-12 南京信息职业技术学院 面向特定社会群体的网络舆情主题发现及趋势预测方法
CN113609790B (zh) * 2021-10-11 2021-12-03 成都数联云算科技有限公司 产品虚拟量测方法及系统及装置及介质
CN113609790A (zh) * 2021-10-11 2021-11-05 成都数联云算科技有限公司 产品虚拟量测方法及系统及装置及介质
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质
CN117391071B (zh) * 2023-12-04 2024-02-27 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN105335349A (zh) 一种基于时间窗口的lda微博主题趋势检测方法及装置
Chisholm et al. Entity disambiguation with web links
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
Li et al. Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN105069102A (zh) 信息推送方法和装置
CN102779190B (zh) 一种时序海量网络新闻的热点事件快速检测方法
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN106407280A (zh) 查询目标匹配方法及装置
CN103593418A (zh) 一种面向大数据的分布式主题发现方法及系统
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Huang et al. A topic BiLSTM model for sentiment classification
Qian et al. Sentiment analysis model on weather related tweets with deep neural network
CN106202065A (zh) 一种跨语言话题检测方法及系统
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
Bellaachia et al. Hg-rank: A hypergraph-based keyphrase extraction for short documents in dynamic genre
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
Zhou et al. EDM-JBW: A novel event detection model based on JS-ID′ Forder and Bikmeans with word embedding for news streams
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN103309851B (zh) 短文本的垃圾识别方法及系统
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN103150388A (zh) 一种提取关键词的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217

RJ01 Rejection of invention patent application after publication