CN103870447A

CN103870447A - 一种基于隐含狄利克雷模型的关键词抽取方法

Info

Publication number: CN103870447A
Application number: CN201410088252.4A
Authority: CN
Inventors: 陈里波; 胡子扬; 祁点点
Original assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Current assignee: BEIJING EUCITA INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2014-06-18

Abstract

本发明公开一种基于隐含狄利克雷模型的关键词抽取方法　。该交互式关键词推荐方法包括步骤，词汇预处理：先进行词性标注和分词，跟进待分析文本构建词汇表，然后对词汇表进行修订。话题聚类：构建隐含狄利克雷模型，把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。输出话题和关键词：预设一个阈值，依据每个词汇出现在某话题中的条件概率，对词汇表重新排序，概率大于给定阈值的词，作为关键词输出。本发明不需要额外语料库，又能够挖掘出文本中描述的各个“事物”或“观点”。

Description

一种基于隐含狄利克雷模型的关键词抽取方法

技术领域

本发明涉及文字处理领域，更具体的说，涉及一种基于隐含狄利克雷模型的关键词抽取方法　。

背景技术

统计和分析大量文本信息的一种常用技术就是关键词提取。通常情况下，受制于人力和时间资源，人们无法逐字阅读海量的文本库。关键词抽取技术的目标，就是找出文本里最能体现文本主旨的词汇，方便快速浏览，甄选信息。

为了准确地找到这些词汇，通常需要对文本进行预处理；基于预处理后的文本，统计词频和词对的共现信息；将词频大于或等于预设阈值的词作为候选关键词；根据词对的共现信息，计算各候选关键词对文本的重要性；根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词，其中，N大于等于1。

中国专利 CN101872363A于2010年10月27日公开了一种抽取关键词的方法，先在现有技术选取的关键词集的基础上，叠加所有相邻的候选关键词，作为候选词集。然后依照各个候选关键词在文本中的关联度，抽取关联程度较高的关键词。这种方法生成的关键词长度较长，故而能涵盖更全面的信息。位置相邻的词通常是用于描述同一事物／观点的，相邻的关键词则可能已经横跨了不同事物／观点的表述了。常以相邻位置共现的关键词，可能隐含相对固定的表述次序，无法确知一定是语义上的关联。

中国专利CN101196904A于2008年6月11日公开了一种基于词频和多元文法的新闻关键词抽取方法通过挖掘文本中潜在关键词的多元文法的词性模式，将其作为关键词抽取算法的依据。在进行新闻关键词抽取时，首先根据潜在词性模式挖掘文本中的多元词组，抽取关键词的候选词集，然后从标题中挖掘未登录的潜在关键词，将潜在关键词也加入候选关键词集中。这种方法可以抽取符合词性模式的多元词组，通常这样的词组表述是连贯的、有意义的。为了保证潜在词性模式的准确性和完备性，这种方法在应用中，需要首先挖掘一个有相当数量的自然语言语料库，得到的词性模式才能被用在真正的关键词提取技术中。这提高了应用的复杂度。另一方面，此专利方案默认，待处理的文本词性模式与语料库中的相近。这一点在实际应用中无法得到保证。譬如，语料库中的文本多是科技论文，那么以科技论文中常出现的词性模式为依据抽取出的小说散文关键词组，则可能存在偏漏。

发明内容

本发明所要解决的技术问题是提供一种既不需要额外语料库，又能够挖掘出文本中描述的各个“事物”或“观点”，并依据挖掘出的话题分别抽取关键词的基于隐含狄利克雷模型的关键词抽取方法。

本发明的目的是通过以下技术方案来实现的：

一种基于隐含狄利克雷模型的关键词抽取方法　，包括步骤，

词汇预处理：先进行词性标注和分词，跟进待分析文本构建词汇表，然后对词汇表进行修订。

话题聚类：构建隐含狄利克雷模型，把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布；

一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

输出话题和关键词：预设一个阈值，依据每个词汇出现在某话题中的条件概率，对词汇表重新排序，概率大于给定阈值的词，作为关键词输出。

进一步的，所述输出话题和关键词步骤后，还包括：指定话题和词汇的强关联规则，在给定的场景中，优先按照强关联规则来匹配话题和关键词。

进一步的，所述词汇预处理步骤包括：

把自然语言中的每一句话当作是一个隐马尔科夫链（Hidden Markov Chain）,使用维特比算法，求出对于观测到的数据，概率最大的词性标记序列；运算过程中隐含分词；

文本中每出现的一个新词，都会被插入到一张词汇表里。创建的词汇表中包含文本中所有词，且无重复词；

把自定义词库中的词设置为强相关，加入隐马尔科夫链模型，该模型在标记词性序列的时候，优先将自定义词结合为一个词；

得到了分词结果和词性标注序列之后，算法会根据给定的词性列表对分词结果进行过滤。

进一步的，所述生成型概率模型为隐含狄利克雷分布（LDA）模型；所述话题聚类步骤包括初始化LDA模型的方法：待分析的文本集含有

篇文档

，

。把文档

表示成长度为

的词

的序列，

。把词

表示成

维向量，其中

为词汇表

的长度。假定待分析的文档集

共包含

个隐含话题

，

，为根据经验设定的常数；

文档中第

个词

所对应的隐含话题

服从以

为参数的多项式分

布

，其中参数向量

服从以为参数的狄利克雷分布

。初始化

使其服从均匀分布。

定义

为话题生成词

的概率：

，

。其中参数向量

服从以

为参数的狄利克雷分布

。初始化所有

，即话题

生成词汇表中的每个词的初始概率相同，构建该概率矩阵

。进而，对文档中词而言，它是词汇表里第

个词

的概率为：

完整的概率模型为：

Figure 2014100882524100002DEST_PATH_IMAGE033

Figure 2014100882524100002DEST_PATH_IMAGE035

初始化后，一个词由任一话题生成的概率

Figure 2014100882524100002DEST_PATH_IMAGE037

相等，且一个话题生成任一词的概率

也相等。

进一步的，所述话题聚类步骤包括参数估计的方法：

采用吉布斯采样法（Gibbs Sampling），给定当前词之外的所有其它词和话题，重新计算当前词属于哪一个话题，更新后逐一对构成文本的词更新归属话题，直至结果稳定。

进一步的，所述吉布斯采样法概率更新公式为：

Figure 2014100882524100002DEST_PATH_IMAGE039

其中，

是除了当前词以外，词

被分配到话题

Figure 2014100882524100002DEST_PATH_IMAGE041

的频率，

是除了当前词以外，所有被分配到话题

的总频率。

为平滑系数，具体根据数据集调整，

为归一化系数；

是在当前文档

中除了当前词以外的所有词的总频率。

为平滑系数，具体根据数据集调整，

为归一化系数。

进一步的，采用马尔科夫蒙特卡洛法（Markov chain Monte Carlo）计算话题聚类的结果；

先初始化马尔科夫链（Markov chain），初始状态为

Figure 2014100882524100002DEST_PATH_IMAGE045

，生成概率为

，转移概率为

。重新用吉布斯采样法估计隐含狄利克雷模型的参数，反复迭代马尔科夫链，直至结果稳定；

进一步的，所述条件概率为

。

本发明不依赖外部资源，例如人工维护的词表、语料库等。应用中，节省了维护外部资源的成本；效果上，也规避掉外部资源需要与待处理文本大致类似的前提条件。利用生成型概率模型，规约生成的关键词是用于描述文本中核心话题的核心词汇。不基于传统的（根据词频和共现计算的）关键词库，再引进其他特征进一步地增删。因此，本发明不仅完成了关键词抽取的任务，且为文本库提供了一种有意义的表示。这种潜在的意群被称作“话题”。这种方法不需要任何关于文本的背景知识，并可以对“一词多义”和“一义多词”的语言现象进行建模。

附图说明

图1是本发明实施例的基于隐含狄利克雷模型的关键词抽取方法流程示意图；

图2是采用本发明实施例的基于隐含狄利克雷模型的关键词抽取方法的效果示意图；

图3是强制“中国共产党”与“楼市”分为两个话题的效果示意图。

具体实施方式

本发明公开一种基于隐含狄利克雷模型的关键词抽取方法　，包括步骤，

下面结合附图和较佳的实施例对本发明作进一步说明。

如图1所示，本实施方式的基于隐含狄利克雷模型的关键词抽取方法　，包括：

1. 预处理

1.1. 词性标注和分词

把自然语言中的每一句话当作是一个隐马尔科夫链（Hidden Markov Chain）。使用维特比算法，可以求出，对于观测到的数据，概率最大的词性标记序列。这个过程隐含着分词，比如“天安门”会被标记为“NSB-NSM=NSE”，分别表示“地名开始”、“地名中间”和“地名结尾”。

1.2. 构建词汇表

文本中每出现的一个新词，都会被插入到一张词汇表里。创建的词汇表中包含文本中所有词，且无重复词。词汇表

中的词记作

，

。

1.3. 修订词汇表

1.3.1. 添加自定义词

步骤1.1中的隐马尔科夫链模型支持加入自定义词库。把自定义词库中的词设置为强相关，该模型在标记词性序列的时候，会优先将自定义词结合为一个词。利用这一机制，本发明技术方案提供了设置不可分割词和垃圾词的方法。

1.3.2. 去除停用词

得到了分词结果和词性标注序列之后，算法会根据给定的词性列表对分词结果进行过滤，比如会把“的”、“了”等这样的助词过滤掉。之后，算法会将标记为垃圾词的词语也过滤掉。

话题聚类

隐含狄利克雷分布（LDA）模型是一种生成型概率模型。它的基本思想是，把一篇文档

看作个隐含话题的概率分布。每一个隐含话题又被定义成词汇表

中所有词

的一个概率分布。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。这就是所谓LDA的三层概率模型：文档是话题的概率模型，话题是词汇的概率模型。

2.1. 初始化LDA模型

2.1.1. 假定待分析的文档集

含有

篇文档

，

。把文档

表示成长度为

的词的序列，

。把词

表示成

维向量，其中

为词汇表

的长度。假定待分析的文档集

共包含

个隐含话题

，

，

为根据经验设定的常数。

2.1.2. 文档

中第个词所对应的隐含话题

服从以

为参数的多项式分布

，其中参数向量

服从以

为参数的狄利克雷分布

。初始化使其服从均匀分布。

2.1.3. 定义

为话题生成词的概率：

，

。其中参数向量

服从以为参数的狄利克雷分布

。初始化所有

，即话题

生成词汇表中的每个词的初始概率相同，构建该概率矩阵

。进而，对文档中词而言，它是词汇表里第个词

的概率为

2.1.4. 至此，完整的概率模型为：

初始化后，一个词由任一话题生成的概率

相等，且一个话题生成任一词的概率

也相等。

2.2. 参数估计

吉布斯采样法（Gibbs Sampling）的基本思想是，给定当前词之外的所有其它词和话题，重新计算当前词属于哪一个话题，更新之。然后逐一对构成文档的词更新归属话题，直至结果稳定。

2.2.1. 根据2.1.4.可知，需要估计的参数有2个。一是，一个词由某个话题生成的概率

；一是，一个话题生成某个词的概率

。

其中，

是除了当前位置

以外，其他所有的话题。

是除了当前位置

以外，其他所有的词。

2.2.2. 根据贝叶斯法则（Bayes’ Rule）：

其中，

是话题

生成所有词的多项分布，然后在所有可能的话题上做积分。根据贝叶斯法则（Bayes’ Rule）化简

，得到：

其中，

是除了当前词以外，词

被分配到话题

的频率，

是除了当前词以外，所有被分配到话题的总频率。

为平滑系数，具体根据数据集调整，

为归一化系数。

2.2.3. 用同样的方法计算2.2.1中公式的后半部分：

其中，

是在当前文档

中除了当前词以外，被分配到话题

的词的总频率。

是在当前文档

中除了当前词以外的所有词的总频率。

为平滑系数，具体根据数据集调整，

为归一化系数。

2.2.4. 至此，完整的吉布斯采样法（Gibbs Sampling）概率更新公式为：

2.3. 计算结果

用马尔科夫蒙特卡洛法（Markov chain Monte Carlo）计算话题聚类的结果。它是一种利用马尔科夫链（Markov chain）从随机样本中取样的方法。

2.3.1. 用2.1所述方法，初始化马尔科夫链（Markov chain）。初始状态为

，生成概率为

，转移概率为。根据2.2所述方法，反复迭代马尔科夫链，直至结果稳定。

输出话题及关键词

3.1. 依照给定话题，依据每个词汇出现的条件概率

，对词汇表重新排序。概率大于给定阈值的词，作为关键词输出。

3.2. 对每个话题，重复3.1.。

用户调整话题与关键词

4.1. 用户指定强关联规则。如果用户认为，3.给出的聚类结果把原本不属于同话题的词归为了一类，则可设置话题和关键词的强关联。例如，在某些使用场景中，用户则可能倾向与将“电影、明星”等归为一类，同“战争、飞机”类加以区分；在另外的使用场景中，“电影”和“明星”则更适合作为两个话题，分别加以考察。用户可以在此步骤中设定规则。

4.2. 重复步骤2、步骤 3.重新给出计算结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。