CN102662960A - 在线监督式主题建模及其演变分析的方法 - Google Patents

在线监督式主题建模及其演变分析的方法 Download PDF

Info

Publication number
CN102662960A
CN102662960A CN2012100594956A CN201210059495A CN102662960A CN 102662960 A CN102662960 A CN 102662960A CN 2012100594956 A CN2012100594956 A CN 2012100594956A CN 201210059495 A CN201210059495 A CN 201210059495A CN 102662960 A CN102662960 A CN 102662960A
Authority
CN
China
Prior art keywords
theme
word
phi
newsletter archive
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100594956A
Other languages
English (en)
Inventor
邵健
张寅�
任鸿凯
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2012100594956A priority Critical patent/CN102662960A/zh
Publication of CN102662960A publication Critical patent/CN102662960A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤:1)从新闻媒体网站下载新闻文本,并按一定的时间粒度进行划分;2)对各时间段的新闻文本进行分词处理,根据词频过滤更新词汇表3)提取文本特征,形成单词与文本的关系矩阵,构成在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题建模方法检测主题,得到单词关于主题的分布矩阵及主题在文本上的分布矩阵;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。本发明充分利用数据本身的时间和类别信息,提高了主题挖掘的精度,并结合类别信息有效地分析了主题的演变过程。

Description

在线监督式主题建模及其演变分析的方法
技术领域
本发明涉及文本的主题挖掘领域,尤其涉及一种在线监督式主题建模及其演变分析方法。
背景技术
随着互联网的飞速发展,各种网络资源迅猛增长,如何将庞大的数据集以合理的结构展示,便于用户迅速地了解各主题事件的当前及历史信息显得尤为重要。传统的搜索、索引及浏览已经不能满足用户的需求,将相关事件在语义层面上抽象成主题,以主题形式表现整个数据集成为了更为科学合理的方式。因此挖掘数据内容的主题及其演变的算法研究具有迫切的现实意义,也充满无尽的挑战。
现今对离散数据进行主题建模和分析的方法大多采用概率主题模型实现,其能自动地检测出给定集合的主题,并且被证明是分析理解数据的有效方法,尤其是LDA(Latent Dirichlet Allocation)模型。然而随着文档数据格式的丰富和互联网的发展,传统的纯文本观点往往不适合,容易忽略了一些很重要的特征,如时间、作者、类别、用户提供的标签等等。并且面对实际需解决的数据流主题分析问题,传统的主题挖掘算法无法在线实时分析数据,将时间信息用在现有的主题模型中,合理地利用已经学到的先验知识进行主题的挖掘成为了国内外研究的热点。所以在主题模型中,一个非常重要的方向就是如何将这些有用的特征融入模型。如监督式LDA(Supervised LDA)引入了文本的类别信息,OLDA(Online LDA)方法引入了时间信息。
尽管已经有众多国内外的科研工作者在改进主题模型方面做出努力,并产生了很多有效的主题挖掘算法,但目前为止没有一种模型能同时考虑文档的时序特性和类别属性。不同的类别往往反映出不同的主题。现有研究表明,在文档分析中,若能有效利用文档中除单词之外的其他辅助信息可有效地提高隐含主题的挖掘及其演变分析的性能。
针对需解决的带有类别标签的新闻数据文本进行主题演化分析时,我们提出了在线监督式主题挖掘及演变分析的算法。该方法能在线实时地分析主题的演变,适用于海量数据的分析。其将前一时刻学到的先验知识有效地用于当前时刻的主题分布,有效地利用了文本间的实现关系。考虑到主题跟类别之间的相关性,利用文本的类别特征及各单词在文本中的词频及权重,并结合主题在单词上的分布重计算其所属的类别,并在类内计算主题的相似性来表征主题间的演变关系。同时,利用各文本上的主题概率计算主题的强度及其相关的文本,实现更直观地表示。
发明内容
本发明的目的是克服现有技术的不足,提供一种在线监督式主题建模及其演变分析的方法。
在线监督式主题建模及其演变分析的方法包括如下步骤:
1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D={S1,S2......St},Si表示一周的数据;
2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;
3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;
4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ;
5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。
所述的步骤2)为:
1)对当前时间粒度数据集St中的新闻文本进行分词,去除停用词、数字、标点符号,并更新总的单词列表SW={(swi):i=1,2,...,l}及其相应的词频SC;
2)当前的单词列表Wt为SW中词频不小于5的单词,并得到相关矩阵C,相关矩阵C是一个|Wt|×2的矩阵,ci1表示单词wi在St中出现的次数,ci2表示出现该单词的文本数量。
所述的步骤3)为:根据tfidf值提取新闻文本特征,确定每篇新闻文本的单词及词频作为输入,tfidf的计算公式如下
tfidf = c j 1 / SD c j 2 / SM - - - ( 1 )
其中,SD表示当前处理文档总的单词数,SM表示St中总的文档数,过滤掉tfidf值小于0.05的单词;
另外,前一时刻得出的单词关于主题的分布矩阵φt-1,是一个|Wt-1|×K矩阵,K为主题数量,根据新的单词列表Wt,将其更新为|Wt|×T的矩阵,新出现单词关于主题的分配为0,新闻文本的类别映射到整数集合上,分别用1、2…L表示,L为类别总数。
所述的步骤4)为:第t个时间段的主题先验分布参数β通过如下公式由t-1时刻的主题分布来获得:
β v i , k , t = b , t = 1 φ v , k t - 1 + b , t ≥ 2 - - - ( 2 )
表示第v个单词关于主题k的先验,
Figure BDA0000141681370000033
是前一时刻得出的单词在主题上的分布,利用这一数据来作为当前时刻的先验,构成先验参数
Figure BDA0000141681370000034
由此建立在线监督式主题模型,更改Gibbs采样的条件概率P(z|w),得出新的主题分布;
利用蒙特卡洛迭代算法计算每个单词所属主题的条件分布P(z|w),进而对在线监督式主题模型进行求解,在每次迭代中,通过其他单词的主题分布,用如下公式计算每个单词所对应每个主题的概率P(zd,i=k|z-d,i,wdi,yd,α,βt,η,σ2):
P ( z d , i = k | z - d , i , w di , y d , α , β t , η , σ 2 ) ∝ C w - i , k VK + β w i , k , t Σ v = 1 V ( C v - i , k VK + β v , k , t ) × C d - i , k DK + α Σ k = 1 K ( C d - i , k DK + α ) × ρ ρ = exp { 2 × ( N × y - Σ k = 1 K η k × C d - i , k DK ) × η k - ( η k ) 2 2 N 2 σ 2 } - - - ( 3 )
其中
Figure BDA0000141681370000036
是不包括wi的其他所有单词被分配到主题k的次数,
Figure BDA0000141681370000037
表示单词wi在主题k下的概率,
Figure BDA0000141681370000038
是主题k分配到文档d的次数,
Figure BDA0000141681370000039
表示主题k在文档di里的概率,N为文档d中所包含的单词总数,η和σ是类别服从的高斯分布参数,ρ是已知yd的情况下,zd,i为主题k的概率,据此分配,一个新的主题被采用并作为对应单词的新主题,经过足够的迭代次数后,通过分配给每个主题的单词数及每个文档被分配的主题数估算出单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ。
所述的步骤5)为:用Jensen-Shannon散度进行两向量之间相似度的度量,来表示主题之间的演化关系,对于两主题向量φi、φj,用如下公式计算:
JS ( φ i | | φ j ) = 1 2 Σ p φ ip log φ ip φ rp + 1 2 Σ p φ rp log φ rp φ jp
其中 φ r = 1 2 ( φ i + φ j )
同时计算各主题的类别、强度及相关新闻文本属性,首先利用tfidf及单词的词频,得出单词关于类别的关系矩阵。
WL v , c = Σ d ∈ C Σ v ∈ d n v × tfidf v ‾
C表示所要处理类别的文本集合,v是文本d中的单词,对于每个单词,用其词频与tfidf的乘积计算权重,得出各单词关于类别的权重WLv,c,根据各单词的类别计算主题的类别属性,即对每个单词,在其主题概率上引入类别概率值:
TL = Σ v φ v × WL v
得出的TL是关于类别的向量,用权重最大的一个值表示该主题的类别,定义主题的强度为该主题在整个新闻文本数据集上的概率比例。
TH k = Σ d θ d , k D
D是数据集内新闻文本的数量,也是所有主题在新闻文本上的分布θd,k累加的值,得出各主题的强度,通过在线监督式主题模型的分析得出各新闻文本关于主题的分布,得到某一主题相关的新闻文本;
主题的演变关系计算步骤如下:
输入:当前时刻t得出的主题分布
Figure BDA0000141681370000043
t-1时刻的主题分布φt-1,阈值εT
输出:各主题的演变关系集合
Figure BDA0000141681370000044
步骤1:计算各主题的类别、强度及相关新闻文本属性;
步骤2:对t-1时刻的主题映射到当前词汇表Vt
步骤3:对于t时刻的每个主题i,进行如下计算:
1)计算与t时刻的每个主题i同类别的t-1时刻主题j的Jensen-Shannon散度距离,即
Figure BDA0000141681370000045
2)若Jensen-Shannon散度距离小于阈值,则主题j与主题i之间存在演变关系,更新
Figure BDA0000141681370000046
Figure BDA0000141681370000047
中各元素相应的演变关系集合。
本发明充分利用文本数据的时序和类别信息,将前一时刻的主题建模结果用于下一时刻的分析,实现主题在时序间的相互影响,因此可提升主题建模的精度,并结合主题的属性有效实现主题演化的分析。
附图说明
图1是在线监督式主题建模的模型图,其中:α和β分别用来表示文档和主题的狄利克莱先验分布θ和φ的参数;w表示单词,y是文档的类别标识,其对应的高斯分布参数是η和σ;z表示文档中各个单词的主题分配,M是文档数,N是单词数;
图2是本发的主题建模索与其他方法的对比结果,分别是传统LDA、监督式LDA、在线LDA、在线监督式LDA在17个实验点数据上的结果。
具体实施方式
在线监督式主题建模及其演变分析的方法包括如下步骤:
1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D={S1,S2......St},Si表示一周的数据;
2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;
3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;
4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ;
5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。
所述的步骤2)为:
1)对当前时间粒度数据集St中的新闻文本进行分词,去除停用词、数字、标点符号,并更新总的单词列表SW={(swi):i=1,2,...,l}及其相应的词频SC;
2)当前的单词列表Wt为SW中词频不小于5的单词,并得到相关矩阵C,相关矩阵C是一个|Wt|×2的矩阵,ci1表示单词wi在St中出现的次数,ci2表示出现该单词的文本数量。
所述的步骤3)为:根据tfidf值提取新闻文本特征,确定每篇新闻文本的单词及词频作为输入,tfidf的计算公式如下
tfidf = c j 1 / SD c j 2 / SM - - - ( 1 )
其中,SD表示当前处理文档总的单词数,SM表示St中总的文档数,过滤掉tfidf值小于0.05的单词;
另外,前一时刻得出的单词关于主题的分布矩阵φt-1,是一个|Wt-1|×K矩阵,K为主题数量,根据新的单词列表Wt,将其更新为|Wt|×T的矩阵,新出现单词关于主题的分配为0,新闻文本的类别映射到整数集合上,分别用1、2…L表示,L为类别总数。
所述的步骤4)为:第t个时间段的主题先验分布参数β通过如下公式由t-1时刻的主题分布来获得:
β v i , k , t = b , t = 1 φ v , k t - 1 + b , t ≥ 2 - - - ( 2 )
表示第v个单词关于主题k的先验,是前一时刻得出的单词在主题上的分布,利用这一数据来作为当前时刻的先验,构成先验参数由此建立在线监督式主题模型,更改Gibbs采样的条件概率P(z|w),得出新的主题分布;
利用蒙特卡洛迭代算法计算每个单词所属主题的条件分布P(z|w),进而对在线监督式主题模型进行求解,在每次迭代中,通过其他单词的主题分布,用如下公式计算每个单词所对应每个主题的概率P(zd,i=k|z-d,i,wdi,yd,α,βt,η,σ2):
P ( z d , i = k | z - d , i , w di , y d , α , β t , η , σ 2 ) ∝ C w - i , k VK + β w i , k , t Σ v = 1 V ( C v - i , k VK + β v , k , t ) × C d - i , k DK + α Σ k = 1 K ( C d - i , k DK + α ) × ρ ρ = exp { 2 × ( N × y - Σ k = 1 K η k × C d - i , k DK ) × η k - ( η k ) 2 2 N 2 σ 2 } - - - ( 3 )
其中
Figure BDA0000141681370000062
是不包括wi的其他所有单词被分配到主题k的次数,
Figure BDA0000141681370000063
表示单词wi在主题k下的概率,是主题k分配到文档d的次数,
Figure BDA0000141681370000065
表示主题k在文档di里的概率,N为文档d中所包含的单词总数,η和σ是类别服从的高斯分布参数,ρ是已知yd的情况下,zd,i为主题k的概率,据此分配,一个新的主题被采用并作为对应单词的新主题,经过足够的迭代次数后,通过分配给每个主题的单词数及每个文档被分配的主题数估算出单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ。
所述的步骤5)为:用Jensen-Shannon散度进行两向量之间相似度的度量,来表示主题之间的演化关系,对于两主题向量φi、φj,用如下公式计算:
JS ( φ i | | φ j ) = 1 2 Σ p φ ip log φ ip φ rp + 1 2 Σ p φ rp log φ rp φ jp
其中 φ r = 1 2 ( φ i + φ j )
同时计算各主题的类别、强度及相关新闻文本属性,首先利用tfidf及单词的词频,得出单词关于类别的关系矩阵。
WL v , c = Σ d ∈ C Σ v ∈ d n v × tfidf v ‾
C表示所要处理类别的文本集合,v是文本d中的单词,对于每个单词,用其词频与tfidf的乘积计算权重,得出各单词关于类别的权重WLv,c,根据各单词的类别计算主题的类别属性,即对每个单词,在其主题概率上引入类别概率值:
TL = Σ v φ v × WL v
得出的TL是关于类别的向量,用权重最大的一个值表示该主题的类别,定义主题的强度为该主题在整个新闻文本数据集上的概率比例。
TH k = Σ d θ d , k D
D是数据集内新闻文本的数量,也是所有主题在新闻文本上的分布θd,k累加的值,得出各主题的强度,通过在线监督式主题模型的分析得出各新闻文本关于主题的分布,得到某一主题相关的新闻文本;
主题的演变关系计算步骤如下:
输入:当前时刻t得出的主题分布t-1时刻的主题分布φt-1,阈值εT
输出:各主题的演变关系集合
Figure BDA0000141681370000072
步骤1:计算各主题的类别、强度及相关新闻文本属性;
步骤2:对t-1时刻的主题映射到当前词汇表Vt
步骤3:对于t时刻的每个主题i,进行如下计算:
1)计算与t时刻的每个主题i同类别的t-1时刻主题j的Jensen-Shannon散度距离,即
Figure BDA0000141681370000073
2)若Jensen-Shannon散度距离小于阈值,则主题j与主题i之间存在演变关系,更新
Figure BDA0000141681370000074
Figure BDA0000141681370000075
中各元素相应的演亦关系集合。
实施例
实验数据采用纽约时报数据集,数据集包括从2011年1月1日至2011年4月30日的文本数据,为了避免个别文本数很少的类对主题建模的影响,去除了这几个类的数据。只针对纽约时报arts、business、health等8类中的文本数据进行分析,每篇文章均标有其中的一个类别。整个处理的数据集合一共包含8295篇文章和32723个不同单词,各类别包含的文档数及单词数具体信息如下表所示,其中单词数的单位是千:
  类别   arts   business   health   realestate   Science   technology   us   world
  文档数   1366   1681   313   215   297   229   1928   2326
  单词数   1932   2028   310   298   308   287   1978   2361
将8295篇文章按照7天一个时间片段进行切分后,将其中80%的文档作为训练数据,剩下的20%作为测试数据,用LDA、SLDA、OLDA和OSLDA分别进行实验,得出其相应的复杂度(Perplexity)。由于参数会对模型性能有所影响,在实验中将参数α值范围设定为[0.5∶3.0],间隔为0.5;β从[0.01∶0.2],间隔为0.01,对所得到的两个参数组成120种情况进行实验。并对各方法最好的效果进行比较,如图2。所以,其中Perplexity值越小,效果越好。
OSLDA在α为0.05,β为0.02时效果最好,用此参数进行数据分析,得出主题的演变,例如3月12号的数据中检测出的主题7是因3月11号日本地震后突发的,其与相邻时刻最近的主题之间的JS熵度如图3。表示了某主题的突发演变,具体的内容如下表所示:
Figure BDA0000141681370000081
上表给出了检测出的主题7的演变过程,在该表中给出了各主题对应的类别信息,主题强度,以及相关文本,从中可以看出,3月11号日本地震后,该主题主要由日本地震、核问题等相关事件的单词来表示,且主题强度随时间减弱。

Claims (5)

1.一种在线监督式主题建模及其演变分析的方法,其特征在于包括如下步骤:
1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D={S1,S2......St},Si表示一周的数据;
2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;
3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;
4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ;
5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。
2.根据权利要求1所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤2)为:
1)对当前时间粒度数据集St中的新闻文本进行分词,去除停用词、数字、标点符号,并更新总的单词列表SW={(swi):i=1,2,...,l}及其相应的词频SC;
2)当前的单词列表Wt为SW中词频不小于5的单词,并得到相关矩阵C,相关矩阵C是一个|Wt|×2的矩阵,ci1表示单词wi在St中出现的次数,ci2表示出现该单词的文本数量。
3.根据权利要求1所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤3)为:根据tfidf值提取新闻文本特征,确定每篇新闻文本的单词及词频作为输入,tfidf的计算公式如下
tfidf = c j 1 / SD c j 2 / SM - - - ( 1 )
其中,SD表示当前处理文档总的单词数,SM表示St中总的文档数,过滤掉tfidf值小于0.05的单词;
另外,前一时刻得出的单词关于主题的分布矩阵φt-1,是一个|Wt-1|×K矩阵,K为主题数量,根据新的单词列表Wt,将其更新为|Wt|×T的矩阵,新出现单词关于主题的分配为0,新闻文本的类别映射到整数集合上,分别用1、2…L表示,L为类别总数。
4.根据权利要求1所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤4)为:第t个时间段的主题先验分布参数β通过如下公式由t-1时刻的主题分布来获得:
β v i , k , t = b , t = 1 φ v , k t - 1 + b , t ≥ 2 - - - ( 2 )
表示第v个单词关于主题k的先验,
Figure FDA0000141681360000023
是前一时刻得出的单词在主题上的分布,利用这一数据来作为当前时刻的先验,构成先验参数
Figure FDA0000141681360000024
由此建立在线监督式主题模型,更改Gibbs采样的条件概率P(z|w),得出新的主题分布;
利用蒙特卡洛迭代算法计算每个单词所属主题的条件分布P(z|w),进而对在线监督式主题模型进行求解,在每次迭代中,通过其他单词的主题分布,用如下公式计算每个单词所对应每个主题的概率P(zd,i=k|z-d,i,wdi,yd,α,βt,η,σ2):
P ( z d , i = k | z - d , i , w di , y d , α , β t , η , σ 2 ) ∝ C w - i , k VK + β w i , k , t Σ v = 1 V ( C v - i , k VK + β v , k , t ) × C d - i , k DK + α Σ k = 1 K ( C d - i , k DK + α ) × ρ ρ = exp { 2 × ( N × y - Σ k = 1 K η k × C d - i , k DK ) × η k - ( η k ) 2 2 N 2 σ 2 } - - - ( 3 )
其中
Figure FDA0000141681360000026
是不包括wi的其他所有单词被分配到主题k的次数,
Figure FDA0000141681360000027
表示单词wi在主题k下的概率,
Figure FDA0000141681360000028
是主题k分配到文档d的次数,
Figure FDA0000141681360000029
表示主题k在文档di里的概率,N为文档d中所包含的单词总数,η和σ是类别服从的高斯分布参数,ρ是已知yd的情况下,zd,i为主题k的概率,据此分配,一个新的主题被采用并作为对应单词的新主题,经过足够的迭代次数后,通过分配给每个主题的单词数及每个文档被分配的主题数估算出单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ。
5.根据权利要求1所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤5)为:用Jensen-Shannon散度进行两向量之间相似度的度量,来表示主题之间的演化关系,对于两主题向量φi、φj,用如下公式计算:
JS ( φ i | | φ j ) = 1 2 Σ p φ ip log φ ip φ rp + 1 2 Σ p φ rp log φ rp φ jp
其中 φ r = 1 2 ( φ i + φ j )
同时计算各主题的类别、强度及相关新闻文本属性,首先利用tfidf及单词的词频,得出单词关于类别的关系矩阵。
WL v , c = Σ d ∈ C Σ v ∈ d n v × tfidf v ‾
C表示所要处理类别的文本集合,v是文本d中的单词,对于每个单词,用其词频与tfidf的乘积计算权重,得出各单词关于类别的权重WLv,c,根据各单词的类别计算主题的类别属性,即对每个单词,在其主题概率上引入类别概率值:
TL = Σ v φ v × WL v
得出的TL是关于类别的向量,用权重最大的一个值表示该主题的类别,定义主题的强度为该主题在整个新闻文本数据集上的概率比例。
TH k = Σ d θ d , k D
D是数据集内新闻文本的数量,也是所有主题在新闻文本上的分布θd,k累加的值,得出各主题的强度,通过在线监督式主题模型的分析得出各新闻文本关于主题的分布,得到某一主题相关的新闻文本;
主题的演变关系计算步骤如下:
输入:当前时刻t得出的主题分布
Figure FDA0000141681360000033
t-1时刻的主题分布φt-1,阈值εT
输出:各主题的演变关系集合
Figure FDA0000141681360000034
步骤1:计算各主题的类别、强度及相关新闻文本属性;
步骤2:对t-1时刻的主题映射到当前词汇表Vt
步骤3:对于t时刻的每个主题i,进行如下计算:
1)计算与t时刻的每个主题i同类别的t-1时刻主题j的Jensen-Shannon散度距离,即
Figure FDA0000141681360000035
2)若Jensen-Shannon散度距离小于阈值,则主题j与主题i之间存在演变关系,更新
Figure FDA0000141681360000036
Figure FDA0000141681360000037
中各元素相应的演变关系集合。
CN2012100594956A 2012-03-08 2012-03-08 在线监督式主题建模及其演变分析的方法 Pending CN102662960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100594956A CN102662960A (zh) 2012-03-08 2012-03-08 在线监督式主题建模及其演变分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100594956A CN102662960A (zh) 2012-03-08 2012-03-08 在线监督式主题建模及其演变分析的方法

Publications (1)

Publication Number Publication Date
CN102662960A true CN102662960A (zh) 2012-09-12

Family

ID=46772451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100594956A Pending CN102662960A (zh) 2012-03-08 2012-03-08 在线监督式主题建模及其演变分析的方法

Country Status (1)

Country Link
CN (1) CN102662960A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法
CN104331483A (zh) * 2014-11-05 2015-02-04 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104866491A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种并行主题挖掘方法及装置
CN105224557A (zh) * 2014-06-13 2016-01-06 华为技术有限公司 数据处理的方法及计算设备
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及系统
CN108875057A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109710936A (zh) * 2018-12-27 2019-05-03 中电科大数据研究院有限公司 一种跨层级政府公文公告主题分析方法
CN111553145A (zh) * 2020-07-10 2020-08-18 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112989799A (zh) * 2021-04-26 2021-06-18 扆亮海 微博数据流演化主题建模文档聚类解析法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法
CN103559193B (zh) * 2013-09-10 2016-08-31 浙江大学 一种基于选择单元的主题建模方法
CN104866491A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种并行主题挖掘方法及装置
CN104866491B (zh) * 2014-02-24 2019-07-23 华为技术有限公司 一种并行主题挖掘方法及装置
CN105224557B (zh) * 2014-06-13 2019-06-11 华为技术有限公司 数据处理的方法及计算设备
CN105224557A (zh) * 2014-06-13 2016-01-06 华为技术有限公司 数据处理的方法及计算设备
CN104331483B (zh) * 2014-11-05 2017-12-01 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104331483A (zh) * 2014-11-05 2015-02-04 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN107066555B (zh) * 2017-03-26 2020-03-17 天津大学 面向专业领域的在线主题检测方法
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN108717421A (zh) * 2018-04-23 2018-10-30 深圳市城市规划设计研究院有限公司 一种基于时空变化的社交媒体文本主题提取方法及系统
CN108875057A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN108875057B (zh) * 2018-06-29 2021-08-27 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109408641B (zh) * 2018-11-22 2020-06-02 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109710936A (zh) * 2018-12-27 2019-05-03 中电科大数据研究院有限公司 一种跨层级政府公文公告主题分析方法
CN111553145A (zh) * 2020-07-10 2020-08-18 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN111553145B (zh) * 2020-07-10 2020-10-16 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112597769B (zh) * 2020-12-15 2022-06-03 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112989799A (zh) * 2021-04-26 2021-06-18 扆亮海 微博数据流演化主题建模文档聚类解析法

Similar Documents

Publication Publication Date Title
CN102662960A (zh) 在线监督式主题建模及其演变分析的方法
Hasan et al. Real-time event detection from the Twitter data stream using the TwitterNews+ Framework
Choi et al. Emerging topic detection in twitter stream based on high utility pattern mining
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
CN104216954B (zh) 突发事件话题状态的预测装置及预测方法
Hu et al. Adaptive online event detection in news streams
CN103761264B (zh) 基于商品评论文档集的概念层次创建方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN103514183A (zh) 基于交互式文档聚类的信息检索方法及系统
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN106874419B (zh) 一种多粒度实时热点聚合方法
CN102646095A (zh) 一种基于网页分类信息的对象分类方法和系统
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
Korobkin et al. Method of identification of patent trends based on descriptions of technical functions
Foong et al. Text summarization using latent semantic analysis model in mobile android platform
Jalil et al. Comparative study of clustering algorithms in text mining context
CN107066585A (zh) 一种概率主题计算与匹配的舆情监测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120912