CN103870447A - 一种基于隐含狄利克雷模型的关键词抽取方法 - Google Patents

一种基于隐含狄利克雷模型的关键词抽取方法 Download PDF

Info

Publication number
CN103870447A
CN103870447A CN201410088252.4A CN201410088252A CN103870447A CN 103870447 A CN103870447 A CN 103870447A CN 201410088252 A CN201410088252 A CN 201410088252A CN 103870447 A CN103870447 A CN 103870447A
Authority
CN
China
Prior art keywords
word
topic
vocabulary
probability
implicit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410088252.4A
Other languages
English (en)
Inventor
陈里波
胡子扬
祁点点
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Original Assignee
BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd filed Critical BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Priority to CN201410088252.4A priority Critical patent/CN103870447A/zh
Publication of CN103870447A publication Critical patent/CN103870447A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开一种基于隐含狄利克雷模型的关键词抽取方法 。该交互式关键词推荐方法包括步骤,词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。本发明不需要额外语料库,又能够挖掘出文本中描述的各个“事物”或“观点”。

Description

一种基于隐含狄利克雷模型的关键词抽取方法
技术领域
本发明涉及文字处理领域,更具体的说,涉及一种基于隐含狄利克雷模型的关键词抽取方法 。 
背景技术
统计和分析大量文本信息的一种常用技术就是关键词提取。通常情况下,受制于人力和时间资源,人们无法逐字阅读海量的文本库。关键词抽取技术的目标,就是找出文本里最能体现文本主旨的词汇,方便快速浏览,甄选信息。 
为了准确地找到这些词汇,通常需要对文本进行预处理;基于预处理后的文本,统计词频和词对的共现信息;将词频大于或等于预设阈值的词作为候选关键词;根据词对的共现信息,计算各候选关键词对文本的重要性;根据计算结果,对候选关键词进行排序,将前N个候选关键词作为文本的关键词,其中,N大于等于1。 
中国专利 CN101872363A于2010年10月27日公开了一种抽取关键词的方法,先在现有技术选取的关键词集的基础上,叠加所有相邻的候选关键词,作为候选词集。然后依照各个候选关键词在文本中的关联度,抽取关联程度较高的关键词。这种方法生成的关键词长度较长,故而能涵盖更全面的信息。位置相邻的词通常是用于描述同一事物/观点的,相邻的关键词则可能已经横跨了不同事物/观点的表述了。常以相邻位置共现的关键词,可能隐含相对固定的表述次序,无法确知一定是语义上的关联。 
中国专利CN101196904A于2008年6月11日公开了一种基于词频和多元文法的新闻关键词抽取方法通过挖掘文本中潜在关键词的多元文法的词性模式,将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。这种方法可以抽取符合词性模式的多元词组,通常这样的词组表述是连贯的、有意义的。为了保证潜在词性模式的准确性和完备性,这种方法在应用中,需要首先挖掘一个有相当数量的自然语言语料库,得到的词性模式才能被用在真正的关键词提取技术中。这提高了应用的复杂度。另一方面,此专利方案默认,待处理的文本词性模式与语料库中的相近。这一点在实际应用中无法得到保证。譬如,语料库中的文本多是科技论文,那么以科技论文中常出现的词性模式为依据抽取出的小说散文关键词组,则可能存在偏漏。 
发明内容
本发明所要解决的技术问题是提供一种既不需要额外语料库,又能够挖掘出文本中描述的各个“事物”或“观点”,并依据挖掘出的话题分别抽取关键词的基于隐含狄利克雷模型的关键词抽取方法。 
本发明的目的是通过以下技术方案来实现的: 
一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布; 
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。 
进一步的,所述输出话题和关键词步骤后,还包括:指定话题和词汇的强关联规则,在给定的场景中,优先按照强关联规则来匹配话题和关键词。 
进一步的,所述词汇预处理步骤包括: 
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain),使用维特比算法,求出对于观测到的数据,概率最大的词性标记序列;运算过程中隐含分词;
文本中每出现的一个新词,都会被插入到一张词汇表里。创建的词汇表中包含文本中所有词,且无重复词;
把自定义词库中的词设置为强相关,加入隐马尔科夫链模型,该模型在标记词性序列的时候,优先将自定义词结合为一个词;
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤。
进一步的,所述生成型概率模型为隐含狄利克雷分布(LDA)模型;所述话题聚类步骤包括初始化LDA模型的方法:待分析的文本集 含有
Figure 817117DEST_PATH_IMAGE002
篇文档
Figure 462862DEST_PATH_IMAGE003
Figure 712577DEST_PATH_IMAGE004
。把文档
Figure 774816DEST_PATH_IMAGE003
表示成长度为
Figure 146892DEST_PATH_IMAGE005
的词
Figure 217616DEST_PATH_IMAGE006
的序列,
Figure 333339DEST_PATH_IMAGE007
。把词
Figure 173119DEST_PATH_IMAGE006
表示成
Figure 716096DEST_PATH_IMAGE008
维向量,其中
Figure 8537DEST_PATH_IMAGE008
为词汇表
Figure 927952DEST_PATH_IMAGE009
的长度。假定待分析的文档集
Figure 622238DEST_PATH_IMAGE001
共包含
Figure 336116DEST_PATH_IMAGE010
个隐含话题
Figure 381433DEST_PATH_IMAGE011
Figure 838959DEST_PATH_IMAGE012
为根据经验设定的常数; 
文档中第
Figure 805144DEST_PATH_IMAGE013
个词
Figure 69291DEST_PATH_IMAGE014
所对应的隐含话题
Figure 472590DEST_PATH_IMAGE015
服从以
Figure 793850DEST_PATH_IMAGE016
为参数的多项式分
Figure 548179DEST_PATH_IMAGE017
,其中参数向量
Figure 347508DEST_PATH_IMAGE016
服从以为参数的狄利克雷分布
Figure 363055DEST_PATH_IMAGE019
。初始化
Figure 339101DEST_PATH_IMAGE015
使其服从均匀分布。
Figure 942121DEST_PATH_IMAGE020
定义
Figure 585591DEST_PATH_IMAGE021
为话题生成词
Figure 711996DEST_PATH_IMAGE023
的概率:
Figure 853128DEST_PATH_IMAGE024
, 
Figure 351105DEST_PATH_IMAGE025
。其中参数向量
Figure 919490DEST_PATH_IMAGE026
服从以
Figure 135707DEST_PATH_IMAGE027
为参数的狄利克雷分布
Figure 83459DEST_PATH_IMAGE028
。初始化所有
Figure 498260DEST_PATH_IMAGE029
,即话题
Figure 440808DEST_PATH_IMAGE022
生成词汇表中的每个词的初始概率相同,构建该概率矩阵
Figure 941060DEST_PATH_IMAGE030
。进而,对文档中词而言,它是词汇表里第
Figure 361677DEST_PATH_IMAGE008
个词
Figure 896563DEST_PATH_IMAGE031
的概率为:
Figure 744434DEST_PATH_IMAGE032
完整的概率模型为:
Figure 2014100882524100002DEST_PATH_IMAGE033
Figure 731981DEST_PATH_IMAGE034
Figure 2014100882524100002DEST_PATH_IMAGE035
Figure 18606DEST_PATH_IMAGE036
初始化后,一个词由任一话题生成的概率
Figure 2014100882524100002DEST_PATH_IMAGE037
相等,且一个话题生成任一词的概率
Figure 407999DEST_PATH_IMAGE038
也相等。
进一步的,所述话题聚类步骤包括参数估计的方法: 
采用吉布斯采样法(Gibbs Sampling),给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新后逐一对构成文本的词更新归属话题,直至结果稳定。
进一步的,所述吉布斯采样法概率更新公式为: 
Figure 2014100882524100002DEST_PATH_IMAGE039
其中, 
Figure 754667DEST_PATH_IMAGE040
是除了当前词以外,词
Figure 232440DEST_PATH_IMAGE006
被分配到话题
Figure 2014100882524100002DEST_PATH_IMAGE041
的频率,
Figure 57177DEST_PATH_IMAGE042
是除了当前词以外,所有被分配到话题
Figure 238759DEST_PATH_IMAGE041
的总频率。
Figure 756328DEST_PATH_IMAGE027
为平滑系数,具体根据数据集调整,
Figure 718468DEST_PATH_IMAGE005
为归一化系数; 
Figure 284579DEST_PATH_IMAGE043
是在当前文档
Figure 382985DEST_PATH_IMAGE003
中除了当前词以外的所有词的总频率。
Figure 9138DEST_PATH_IMAGE018
为平滑系数,具体根据数据集调整,
Figure 458574DEST_PATH_IMAGE044
为归一化系数。
进一步的,采用马尔科夫蒙特卡洛法(Markov chain Monte Carlo)计算话题聚类的结果; 
先初始化马尔科夫链(Markov chain),初始状态为
Figure 2014100882524100002DEST_PATH_IMAGE045
,生成概率为
Figure 625113DEST_PATH_IMAGE046
,转移概率为
Figure 843605DEST_PATH_IMAGE047
。重新用吉布斯采样法估计隐含狄利克雷模型的参数,反复迭代马尔科夫链,直至结果稳定;
进一步的,所述条件概率为
Figure 640660DEST_PATH_IMAGE048
本发明不依赖外部资源,例如人工维护的词表、语料库等。应用中,节省了维护外部资源的成本;效果上,也规避掉外部资源需要与待处理文本大致类似的前提条件。利用生成型概率模型,规约生成的关键词是用于描述文本中核心话题的核心词汇。不基于传统的(根据词频和共现计算的)关键词库,再引进其他特征进一步地增删。因此,本发明不仅完成了关键词抽取的任务,且为文本库提供了一种有意义的表示。这种潜在的意群被称作“话题”。这种方法不需要任何关于文本的背景知识,并可以对“一词多义”和“一义多词”的语言现象进行建模。 
附图说明
图1是本发明实施例的基于隐含狄利克雷模型的关键词抽取方法流程示意图; 
图2是采用本发明实施例的基于隐含狄利克雷模型的关键词抽取方法的效果示意图;
图3是强制“中国共产党”与“楼市”分为两个话题的效果示意图。
具体实施方式
本发明公开一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤, 
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布; 
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。 
本发明不依赖外部资源,例如人工维护的词表、语料库等。应用中,节省了维护外部资源的成本;效果上,也规避掉外部资源需要与待处理文本大致类似的前提条件。利用生成型概率模型,规约生成的关键词是用于描述文本中核心话题的核心词汇。不基于传统的(根据词频和共现计算的)关键词库,再引进其他特征进一步地增删。因此,本发明不仅完成了关键词抽取的任务,且为文本库提供了一种有意义的表示。这种潜在的意群被称作“话题”。这种方法不需要任何关于文本的背景知识,并可以对“一词多义”和“一义多词”的语言现象进行建模。 
下面结合附图和较佳的实施例对本发明作进一步说明。 
如图1所示,本实施方式的基于隐含狄利克雷模型的关键词抽取方法 ,包括: 
1.   预处理
1.1.        词性标注和分词
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain)。使用维特比算法,可以求出,对于观测到的数据,概率最大的词性标记序列。这个过程隐含着分词,比如“天安门”会被标记为“NSB-NSM=NSE”,分别表示“地名开始”、“地名中间”和“地名结尾”。
1.2.        构建词汇表 
文本中每出现的一个新词,都会被插入到一张词汇表里。创建的词汇表中包含文本中所有词,且无重复词。词汇表
Figure 303023DEST_PATH_IMAGE009
中的词记作
Figure 476516DEST_PATH_IMAGE006
Figure 549514DEST_PATH_IMAGE049
1.3.        修订词汇表 
1.3.1.            添加自定义词
步骤1.1中的隐马尔科夫链模型支持加入自定义词库。把自定义词库中的词设置为强相关,该模型在标记词性序列的时候,会优先将自定义词结合为一个词。利用这一机制,本发明技术方案提供了设置不可分割词和垃圾词的方法。
1.3.2.            去除停用词 
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤,比如会把“的”、“了”等这样的助词过滤掉。之后,算法会将标记为垃圾词的词语也过滤掉。
话题聚类
隐含狄利克雷分布(LDA)模型是一种生成型概率模型。它的基本思想是,把一篇文档
Figure 517470DEST_PATH_IMAGE003
看作个隐含话题的概率分布。每一个隐含话题又被定义成词汇表
Figure 516202DEST_PATH_IMAGE009
中所有词
Figure 161947DEST_PATH_IMAGE006
的一个概率分布。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。这就是所谓LDA的三层概率模型:文档是话题的概率模型,话题是词汇的概率模型。
2.1.        初始化LDA模型 
2.1.1.            假定待分析的文档集
Figure 411663DEST_PATH_IMAGE001
含有
Figure 459253DEST_PATH_IMAGE002
篇文档
Figure 769012DEST_PATH_IMAGE003
Figure 902053DEST_PATH_IMAGE004
。把文档
Figure 955459DEST_PATH_IMAGE003
表示成长度为
Figure 860486DEST_PATH_IMAGE005
的词的序列,
Figure 695904DEST_PATH_IMAGE007
。把词
Figure 615318DEST_PATH_IMAGE006
表示成
Figure 309605DEST_PATH_IMAGE008
维向量,其中
Figure 23483DEST_PATH_IMAGE008
为词汇表
Figure 757215DEST_PATH_IMAGE009
的长度。假定待分析的文档集
Figure 152424DEST_PATH_IMAGE001
共包含
Figure 763534DEST_PATH_IMAGE010
个隐含话题
Figure 851576DEST_PATH_IMAGE011
Figure 183856DEST_PATH_IMAGE012
Figure 117177DEST_PATH_IMAGE010
为根据经验设定的常数。
2.1.2.            文档
Figure 848372DEST_PATH_IMAGE003
中第个词所对应的隐含话题
Figure 660973DEST_PATH_IMAGE015
服从以
Figure 246675DEST_PATH_IMAGE016
为参数的多项式分布
Figure 410941DEST_PATH_IMAGE017
,其中参数向量
Figure 714883DEST_PATH_IMAGE016
服从以
Figure 255586DEST_PATH_IMAGE018
为参数的狄利克雷分布
Figure 695794DEST_PATH_IMAGE019
。初始化使其服从均匀分布。 
2.1.3.            定义
Figure 228910DEST_PATH_IMAGE021
为话题生成词的概率:
Figure 338638DEST_PATH_IMAGE024
Figure 283460DEST_PATH_IMAGE025
。其中参数向量
Figure 635944DEST_PATH_IMAGE026
服从以为参数的狄利克雷分布
Figure 813165DEST_PATH_IMAGE028
。初始化所有
Figure 561678DEST_PATH_IMAGE029
,即话题
Figure 768668DEST_PATH_IMAGE022
生成词汇表中的每个词的初始概率相同,构建该概率矩阵
Figure 944435DEST_PATH_IMAGE030
。进而,对文档中词而言,它是词汇表里第个词
Figure 156290DEST_PATH_IMAGE031
的概率为 
Figure 483366DEST_PATH_IMAGE032
2.1.4.            至此,完整的概率模型为:
Figure 830034DEST_PATH_IMAGE033
Figure 39298DEST_PATH_IMAGE034
Figure 314126DEST_PATH_IMAGE050
初始化后,一个词由任一话题生成的概率
Figure 831695DEST_PATH_IMAGE037
相等,且一个话题生成任一词的概率
Figure 731518DEST_PATH_IMAGE038
也相等。
2.2.        参数估计 
吉布斯采样法(Gibbs Sampling)的基本思想是,给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新之。然后逐一对构成文档的词更新归属话题,直至结果稳定。
2.2.1.            根据2.1.4.可知,需要估计的参数有2个。一是,一个词由某个话题生成的概率
Figure 359946DEST_PATH_IMAGE037
;一是,一个话题生成某个词的概率
Figure 396035DEST_PATH_IMAGE038
。 
Figure 84505DEST_PATH_IMAGE051
其中,
Figure 268362DEST_PATH_IMAGE052
是除了当前位置
Figure 638163DEST_PATH_IMAGE053
以外,其他所有的话题。
Figure 856655DEST_PATH_IMAGE054
是除了当前位置
Figure 653710DEST_PATH_IMAGE053
以外,其他所有的词。 
2.2.2.             根据贝叶斯法则(Bayes’ Rule): 
其中,
Figure 295093DEST_PATH_IMAGE056
是话题
Figure 305774DEST_PATH_IMAGE041
生成所有词的多项分布,然后在所有可能的话题上做积分。根据贝叶斯法则(Bayes’ Rule)化简
Figure 338977DEST_PATH_IMAGE057
,得到:
Figure 497425DEST_PATH_IMAGE058
其中,
Figure 271346DEST_PATH_IMAGE040
是除了当前词以外,词
Figure 402113DEST_PATH_IMAGE006
被分配到话题
Figure 603288DEST_PATH_IMAGE041
的频率,
Figure 983453DEST_PATH_IMAGE042
是除了当前词以外,所有被分配到话题的总频率。
Figure 546339DEST_PATH_IMAGE027
为平滑系数,具体根据数据集调整,
Figure 856097DEST_PATH_IMAGE005
为归一化系数。
2.2.3.            用同样的方法计算2.2.1中公式的后半部分: 
其中,
Figure 776966DEST_PATH_IMAGE060
是在当前文档
Figure 679063DEST_PATH_IMAGE003
中除了当前词以外,被分配到话题
Figure 224969DEST_PATH_IMAGE041
的词的总频率。
Figure 782990DEST_PATH_IMAGE043
是在当前文档
Figure 436825DEST_PATH_IMAGE003
中除了当前词以外的所有词的总频率。
Figure 396691DEST_PATH_IMAGE018
为平滑系数,具体根据数据集调整,
Figure 110569DEST_PATH_IMAGE044
为归一化系数。
2.2.4.            至此,完整的吉布斯采样法(Gibbs Sampling)概率更新公式为: 
Figure 952623DEST_PATH_IMAGE061
2.3.        计算结果
用马尔科夫蒙特卡洛法(Markov chain Monte Carlo)计算话题聚类的结果。它是一种利用马尔科夫链(Markov chain)从随机样本中取样的方法。
2.3.1.            用2.1所述方法,初始化马尔科夫链(Markov chain)。初始状态为
Figure 347832DEST_PATH_IMAGE045
,生成概率为
Figure 224521DEST_PATH_IMAGE046
,转移概率为。根据2.2所述方法,反复迭代马尔科夫链,直至结果稳定。 
输出话题及关键词
3.1.        依照给定话题,依据每个词汇出现的条件概率
Figure 376334DEST_PATH_IMAGE048
,对词汇表重新排序。概率大于给定阈值的词,作为关键词输出。
3.2.        对每个话题,重复3.1.。 
用户调整话题与关键词
4.1.        用户指定强关联规则。如果用户认为,3.给出的聚类结果把原本不属于同话题的词归为了一类,则可设置话题和关键词的强关联。例如,在某些使用场景中,用户则可能倾向与将“电影、明星”等归为一类,同“战争、飞机”类加以区分;在另外的使用场景中,“电影”和“明星”则更适合作为两个话题,分别加以考察。用户可以在此步骤中设定规则。
4.2.        重复步骤2、步骤 3.重新给出计算结果。 
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。 

Claims (8)

1. 一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订;
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布;每个隐含话题被定义为词的分布;一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成;
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。
2. 如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述输出话题和关键词步骤后,还包括:指定话题和词汇的强关联规则,在给定的场景中,优先按照强关联规则来匹配话题和关键词。
3.如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述词汇预处理步骤包括:
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain),使用维特比算法,求出对于观测到的数据,概率最大的词性标记序列;运算过程中隐含分词;
文本中每出现的一个新词,都会被插入到一张词汇表里;创建的词汇表中包含文本中所有词,且无重复词;
把自定义词库中的词设置为强相关,加入隐马尔科夫链模型,该模型在标记词性序列的时候,优先将自定义词结合为一个词;
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤。
4.如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述生成型概率模型为隐含狄利克雷分布(LDA)模型;所述话题聚类步骤包括初始化LDA模型的方法:待分析的文本集                                                
Figure 552100DEST_PATH_IMAGE001
含有
Figure 667824DEST_PATH_IMAGE002
篇文档
Figure 507604DEST_PATH_IMAGE003
Figure 112897DEST_PATH_IMAGE004
;把文档
Figure 670918DEST_PATH_IMAGE003
表示成长度为的词
Figure 19039DEST_PATH_IMAGE006
的序列,
Figure 998497DEST_PATH_IMAGE007
;把词表示成
Figure 235760DEST_PATH_IMAGE008
维向量,其中
Figure 50132DEST_PATH_IMAGE008
为词汇表
Figure 949560DEST_PATH_IMAGE009
的长度;假定待分析的文档集
Figure 278910DEST_PATH_IMAGE001
共包含
Figure 477810DEST_PATH_IMAGE010
个隐含话题
Figure 209006DEST_PATH_IMAGE011
Figure 202370DEST_PATH_IMAGE012
Figure 19016DEST_PATH_IMAGE010
为根据经验设定的常数;
文档
Figure 756028DEST_PATH_IMAGE003
中第
Figure 341730DEST_PATH_IMAGE013
个词
Figure 771574DEST_PATH_IMAGE014
所对应的隐含话题
Figure 75517DEST_PATH_IMAGE015
服从以
Figure 412957DEST_PATH_IMAGE016
为参数的多项式分
,其中参数向量
Figure 453911DEST_PATH_IMAGE016
服从以
Figure 182833DEST_PATH_IMAGE018
为参数的狄利克雷分布
Figure 326894DEST_PATH_IMAGE019
;初始化
Figure 824871DEST_PATH_IMAGE015
使其服从均匀分布;
定义
Figure 671791DEST_PATH_IMAGE021
为话题生成词
Figure 969097DEST_PATH_IMAGE023
的概率:
Figure 911645DEST_PATH_IMAGE024
Figure 411897DEST_PATH_IMAGE025
;其中参数向量服从以
Figure 367400DEST_PATH_IMAGE027
为参数的狄利克雷分布
Figure 480850DEST_PATH_IMAGE028
;初始化所有
Figure 468397DEST_PATH_IMAGE029
,即话题
Figure 692705DEST_PATH_IMAGE022
生成词汇表中的每个词的初始概率相同,构建该概率矩阵
Figure 816519DEST_PATH_IMAGE030
;进而,对文档中词而言,它是词汇表里第个词
Figure 578643DEST_PATH_IMAGE031
的概率为:
Figure 668959DEST_PATH_IMAGE032
完整的概率模型为:
Figure DEST_PATH_IMAGE033
Figure 912858DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure 164848DEST_PATH_IMAGE036
初始化后,一个词由任一话题生成的概率
Figure DEST_PATH_IMAGE037
相等,且一个话题生成任一词的概率也相等。
5.如权利要求4所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述话题聚类步骤包括参数估计的方法:
采用吉布斯采样法(Gibbs Sampling),给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新后逐一对构成文本的词更新归属话题,直至结果稳定。
6. 如权利要求5所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述吉布斯采样法概率更新公式为:
Figure DEST_PATH_IMAGE039
其中, 
Figure 755415DEST_PATH_IMAGE040
是除了当前词以外,词
Figure 119401DEST_PATH_IMAGE006
被分配到话题
Figure DEST_PATH_IMAGE041
的频率,
Figure 542292DEST_PATH_IMAGE042
是除了当前词以外,所有被分配到话题
Figure 994657DEST_PATH_IMAGE041
的总频率;
Figure 426776DEST_PATH_IMAGE027
为平滑系数,具体根据数据集调整,
Figure 317371DEST_PATH_IMAGE005
为归一化系数; 是在当前文档
Figure 785579DEST_PATH_IMAGE003
中除了当前词以外的所有词的总频率;
Figure 21388DEST_PATH_IMAGE018
为平滑系数,具体根据数据集调整,
Figure 94386DEST_PATH_IMAGE044
为归一化系数。
7.如权利要求6所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,采用马尔科夫蒙特卡洛法(Markov chain Monte Carlo)计算话题聚类的结果;
先初始化马尔科夫链(Markov chain),初始状态为
Figure DEST_PATH_IMAGE045
,生成概率为
Figure 124659DEST_PATH_IMAGE046
,转移概率为
Figure 283108DEST_PATH_IMAGE047
;重新用吉布斯采样法估计隐含狄利克雷模型的参数,反复迭代马尔科夫链,直至结果稳定。
8.如权利要求7所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述条件概率为
Figure 994712DEST_PATH_IMAGE048
CN201410088252.4A 2014-03-11 2014-03-11 一种基于隐含狄利克雷模型的关键词抽取方法 Pending CN103870447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410088252.4A CN103870447A (zh) 2014-03-11 2014-03-11 一种基于隐含狄利克雷模型的关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410088252.4A CN103870447A (zh) 2014-03-11 2014-03-11 一种基于隐含狄利克雷模型的关键词抽取方法

Publications (1)

Publication Number Publication Date
CN103870447A true CN103870447A (zh) 2014-06-18

Family

ID=50908991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410088252.4A Pending CN103870447A (zh) 2014-03-11 2014-03-11 一种基于隐含狄利克雷模型的关键词抽取方法

Country Status (1)

Country Link
CN (1) CN103870447A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104834679A (zh) * 2015-04-14 2015-08-12 苏州大学 一种行为轨迹的表示、查询方法及装置
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN107145469A (zh) * 2017-03-23 2017-09-08 四川省公安科研中心 基于狄利克雷特分布的置信度计算方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108875810A (zh) * 2018-06-01 2018-11-23 阿里巴巴集团控股有限公司 针对训练语料从词频表中进行负例采样的方法及装置
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN109214454A (zh) * 2018-08-31 2019-01-15 东北大学 一种面向微博的情感社区分类方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109726222A (zh) * 2018-12-29 2019-05-07 苏州大学 一种数据流主题特征提取方法、装置、设备及存储介质
CN109741298A (zh) * 2018-12-06 2019-05-10 东北大学 半连续铸造铝硅合金微观组织评估方法
CN109783615A (zh) * 2019-01-25 2019-05-21 王小军 基于词语对狄利克雷过程的用户画像方法和系统
CN109829151A (zh) * 2018-11-27 2019-05-31 国网浙江省电力有限公司 一种基于分层狄利克雷模型的文本分割方法
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN110569270A (zh) * 2019-08-15 2019-12-13 中国人民解放军国防科技大学 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN111026866A (zh) * 2019-10-24 2020-04-17 北京中科闻歌科技股份有限公司 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN112395386A (zh) * 2020-11-21 2021-02-23 清华大学 一种基于隐含狄利克雷分布的服务知识地图构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288790A1 (en) * 2001-08-29 2003-03-05 Tarchon BV Method of analysing a text corpus and information analysis system
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288790A1 (en) * 2001-08-29 2003-03-05 Tarchon BV Method of analysing a text corpus and information analysis system
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DAVID M.BLEI,ET AL.: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》, 31 December 2003 (2003-12-31) *
THOMAS L. GRIFFITHS, ET AL.: "Finding scientific topics", 《PNAS》, vol. 101, 6 April 2004 (2004-04-06), XP 055238874, DOI: doi:10.1073/pnas.0307752101 *
刘潇: "关联规则挖掘在DM研究热点演化分析中的应用", 《情报杂志》, vol. 28, no. 12, 31 December 2009 (2009-12-31) *
崔世起: "中文新词检测与研究", 《中国优秀硕士论文全文数据库 信息科技辑》 *
李英: "基于词性选择的文本预处理方法研究", 《情报科学》 *
牛秀萍: "基于隐马尔科夫模型词性标注的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
石晶 等: "基于LDA模型的主题分析", 《自动化学报》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104112447B (zh) * 2014-07-28 2017-08-25 安徽普济信息科技有限公司 提高统计语言模型准确度的方法及系统
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN105139211B (zh) * 2014-12-19 2021-06-22 Tcl科技集团股份有限公司 产品简介生成方法及系统
CN104834679A (zh) * 2015-04-14 2015-08-12 苏州大学 一种行为轨迹的表示、查询方法及装置
CN104834679B (zh) * 2015-04-14 2018-01-19 苏州大学 一种行为轨迹的表示、查询方法及装置
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107145469A (zh) * 2017-03-23 2017-09-08 四川省公安科研中心 基于狄利克雷特分布的置信度计算方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107798043B (zh) * 2017-06-28 2022-05-03 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN110019806B (zh) * 2017-12-25 2021-08-06 中移动信息技术有限公司 一种文档聚类方法及设备
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN108304383B (zh) * 2018-01-29 2019-06-25 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108596205B (zh) * 2018-03-20 2022-02-11 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN109192200B (zh) * 2018-05-25 2023-06-13 华侨大学 一种语音识别方法
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN108875810A (zh) * 2018-06-01 2018-11-23 阿里巴巴集团控股有限公司 针对训练语料从词频表中进行负例采样的方法及装置
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN109213853A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109213853B (zh) * 2018-08-16 2022-04-12 昆明理工大学 一种基于cca算法的中文社区问答跨模态检索方法
CN109214454A (zh) * 2018-08-31 2019-01-15 东北大学 一种面向微博的情感社区分类方法
CN109214454B (zh) * 2018-08-31 2021-07-06 东北大学 一种面向微博的情感社区分类方法
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109829151A (zh) * 2018-11-27 2019-05-31 国网浙江省电力有限公司 一种基于分层狄利克雷模型的文本分割方法
CN109741298A (zh) * 2018-12-06 2019-05-10 东北大学 半连续铸造铝硅合金微观组织评估方法
CN109726222A (zh) * 2018-12-29 2019-05-07 苏州大学 一种数据流主题特征提取方法、装置、设备及存储介质
CN109783615B (zh) * 2019-01-25 2023-08-11 宋来伟 基于词语对狄利克雷过程的用户画像方法和系统
CN109783615A (zh) * 2019-01-25 2019-05-21 王小军 基于词语对狄利克雷过程的用户画像方法和系统
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN110569270B (zh) * 2019-08-15 2022-07-05 中国人民解放军国防科技大学 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN110569270A (zh) * 2019-08-15 2019-12-13 中国人民解放军国防科技大学 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN111026866A (zh) * 2019-10-24 2020-04-17 北京中科闻歌科技股份有限公司 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN112395386A (zh) * 2020-11-21 2021-02-23 清华大学 一种基于隐含狄利克雷分布的服务知识地图构建方法

Similar Documents

Publication Publication Date Title
CN103870447A (zh) 一种基于隐含狄利克雷模型的关键词抽取方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
US8583420B2 (en) Method for the extraction of relation patterns from articles
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
Walia et al. A Naïve Bayes Approach for working on Gurmukhi Word Sense Disambiguation
CN102866989A (zh) 基于词语依存关系的观点抽取方法
CN108920466A (zh) 一种基于word2vec和TextRank的科技文本关键词提取方法
CN103207856A (zh) 一种本体概念及层次关系生成方法
Chen et al. Improving distributed representation of word sense via wordnet gloss composition and context clustering
Sidorov et al. Computing text similarity using tree edit distance
CN106611041A (zh) 一种新的文本相似度求解方法
Yang et al. Ordering-sensitive and semantic-aware topic modeling
CN110674298B (zh) 一种深度学习的混合主题模型构建方法
CN105243083B (zh) 文档主题挖掘方法及装置
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Andrews et al. Robust entity clustering via phylogenetic inference
CN104484437A (zh) 一种网络短评情感挖掘方法
Wang et al. Research on neologism detection in entity attribute knowledge acquisition
Elfida et al. Enhancing to method for extracting Social network by the relation existence
CN103336803A (zh) 一种嵌名春联的计算机生成方法
CN113590809A (zh) 一种裁判文书摘要自动生成方法及装置
CN103927176A (zh) 一种基于层次主题模型的程序特征树的生成方法
Romano et al. Clustering and lexical information support for the recovery of design pattern in source code

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140618

RJ01 Rejection of invention patent application after publication