CN102033919A

CN102033919A - 文本关键词提取方法及系统

Info

Publication number: CN102033919A
Application number: CN2010105840515A
Authority: CN
Inventors: 牟小峰
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2010-12-07
Filing date: 2010-12-07
Publication date: 2011-04-27

Abstract

本发明公开了一种文本关键词提取方法，包括以下步骤：S1：获取当前文本中所有词语的相关性权重值；S2：通过词语的词性对所有词语的相关性权重值进行折扣处理，得到新的相关性权重值，按照新的相关性权重值由大至小排序；S3：提取排序后的前N个词语作为文本关键词，使关键词提取不受文本结构限制，提高关键词提取准确率及速度，降低提取复杂度，并通过依赖关系值的计算，可在提取关键词的基础上提取准确的关键短语。本发明还公开了一种文本关键词提取系统，包括：权重值获取模块、折扣排序模块和关键词提取模块。

Description

文本关键词提取方法及系统

技术领域

本发明涉及信息提取技术领域，特别涉及一种文本关键词提取方法及系统。

背景技术

随着互联网的逐步普及，网络文本的数据规模越来越大，信息量的增长速度也越来越快。要从海量的数据中找到用户所需要的信息，往往需要对文本内容进行一定程度的压缩。在对文本内容进行压缩的方法中，关键词和关键短语提取是非常重要的方法，即从文本中找到一些有代表性的词语来表示文本基本内容。这可以极大地压缩文本规模，同时不会明显地丢失基本信息。

关键词和关键短语提取也叫自动标引，是指利用计算机从文本中提取出与文本内容相关程度较高的一些词语。关键词提取在文本检索、文本摘要、文本分类和文本相似性计算中有重要应用，是自然语言处理领域的基本技术之一。

在已有的关键词和关键短语提取方法中，最常见的方法包括：

a)基于知识库的关键词和关键短语提取

基于知识库的关键词提取通过利用人工或自动标注的语义资源进行文本关键词的提取。常用的语义资源包括Hownet、Wordnet、FrameNet、Mindnet等等。在这些人工标注或自动标注的语义资源里，往往标注了常用词的语义信息，例如上下位词、同义词、反义词、词性、语义角色等等。这些语义信息及其约束关系往往能够体现出词的重要性。该方法的缺陷在于知识库的规模过小，只能覆盖比较有限的范围，绝大多数词语并不能被知识库所覆盖。

b)有指导的关键词和关键短语提取

有指导的关键词提取通过人工标注语料和统计方法来实现关键词提取。在科技文献和法律文本中，关键词的位置往往与文本结构有关。这些结构化的信息包括文本标题、首段、末段、首句、末句等，关键词往往分布在这些特定的位置。通过人工标注部分数据，然后利用机器学习方法学习这些关键词分布的知识，可以实现有指导的关键词提取。有指导的关键词提取的缺陷在于，大量文本并非十分规范，内容表达的随意性很大，关键词的分布往往与文本位置没有明确的关系。在这种情况下，有指导的方法并不能发挥作用。另外，该方法会直接受制于人工标注语料规模的影响。语料规模太小，则会影响该方法的有效性；语料规模太大，往往代价大于收益。

c)无指导的关键词和关键短语提取

无指导的关键词提取并不使用任何词表，也不用分词信息，直接将新词发现和关键词提取同时进行，在识别新词的过程中完成关键词和关键短语的提取。无指导的关键词提取的优点在于不会受制于分词系统的表现，往往能将新词确定为关键词和关键短语。该方法的缺陷在于：(1)将新词发现和关键词语提取合并在一起，计算复杂度太高，效率低下；(2)关键词提取的整体准确性不高，虽然有时能够捕捉到新词，但往往会将部分垃圾词串作为关键词，而且不能有效利用已有的知识库资源来指导关键词提取，导致提取的准确率不高。

d)基于经验估计的关键词和关键短语提取

基于经验的关键词语提取通过对关键词语分布的经验估计，利用经验公式来实现关键词语提取。该方法结合了上述两种方法的优点来实现关键词语提取。在知识库的使用上往往会利用表层的分词和词性的信息。在关键词语的分布上，往往会利用经验公式进行建模，例如词频-逆文档频率(term frequency-inverse document frequency，TF/IDF)和Page-Rank公式。通过对表层知识和关键词语分布的统计，基于经验估计的方法往往能够取得较好的效果。该方法的缺陷在于经验分布有时并不符合实际情况，表层的知识信息作用有限，无法提取到准确的关键短语。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何使关键词提取不受文本结构限制，提高关键词提取准确率及提取速度，降低提取复杂度，并可在提取关键词的基础上提取准确的关键短语。

(二)技术方案

为解决上述技术问题，本发明提供了一种文本关键词提取方法，包括以下步骤：

S1：获取当前文本中所有词语的相关性权重值；

S2：通过词语的词性对所有词语的相关性权重值进行折扣处理，得到新的相关性权重值，按照新的相关性权重值由大至小排序；

S3：提取排序后的前N个词语作为文本关键词。

其中，步骤S1中获取相关性权重值的具体步骤包括：

S11：按照公式

t f_{i} = \frac{n_{i}}{\underset{k}{Σ} n_{k}}

获得当前文本中所有词语的频率值，其中，tf_i为当前文本中词语t_i的频率值；n_i为当前文本中词语t_i的频次；n_k为当前文本中第k个词语的频次；

S12：按照公式

{idf}_{i} = \ln \frac{| D |}{| d : t_{i} &Element; d |}

获得当前文本中所有词语在文本集中的逆文档频率值，其中，|D|为所述文本集中的文本总数量；|d：t_i∈d|为所述文本集中包括所述词语t_i的文本数量；idf_i为所述词语t_i在所述文本集中的逆文档频率值；

S13：按照公式

(tf/idf)_i＝tf_i×idf_i

获取当前文本中所有词语的相关性权重值，所述相关性权重值用于衡量词语与该词语所在文本的相关程度，相关性权重值越大，相关程度越高，其中，(tf/idf)_i为当前文本中所述词语t_i的相关性权重值；tf_i为当前文本中所述词语t_i的频率值；idf_i为所述词语t_i在所述文本集中的逆文档频率值；

其中，步骤S12之前，还包括步骤：

S111：判断当前文本中的每个词语是否包括在文本集中，若否，则执行步骤S112，若是，则执行步骤S12；

S112：判断不包括在所述文本集中的词语的频次是否超过了预定频次，若是，则为该词语分配一个默认的逆文档频率值，并执行步骤S13，若否，则不对该词语进行后续处理。

其中，所述默认的逆文档频率值为所有文本集中词语的逆文档频率值的平均值。

其中，步骤S2中通过词性对词语的相关性权重值进行折扣处理的具体步骤包括：

S21：为所述词语的每个词性分配折扣系数；

S22：根据公式

discount (x) = \frac{\underset{i}{Σ} freq (x_{i}) p (x_{i})}{\underset{i}{Σ} freq (x_{i})}

获得每个词语的折扣值，其中，discount(x)为词语的折扣值；x_i为所述词语第i个词性；freq(x_i)为所述词语第i个词性在所有文本集中出现的频次；p(x_i)为所述词语第i个词性的折扣系数；

S23：每个词语的折扣值与相关性权重值相乘，得到新的相关性权重值。

其中，步骤S2之后还包括步骤：

S4：提取重新排序后的前M个词语，计算所述M个词语中每两个词语组合的依赖关系值，判断所述依赖关系值是否达到预定的阈值，若是，则将这两个词语合并，并作为当前文本的关键短语。

其中，步骤S4中依赖关系值计算的具体步骤包括：

通过公式

I (x, y) = \ln \frac{p (x, y)}{p (x) p (y)}

获得两个词语之间的依赖关系值，其中，x为一个词语；y为另一个词语；I(x，y)为词语x和词语y之间的依赖关系值；p(x)为词语x在当前文本的频率值；p(y)为词语y在当前文本的出现频率值；p(x，y)为词语x和词语y在当前文本中同时出现的频率值。

本发明还公开了一种文本关键词提取系统，包括：

权重值获取模块，用于获取当前文本中所有词语的相关性权重值；

折扣排序模块，用于通过词语的词性对所有词语的相关性权重值进行折扣处理，得到新的相关性权重值，按照新的相关性权重值由大至小排序；

关键词提取模块，用于提取排序后的前N个词语作为文本关键词。

其中，还包括：

关键短语提取模块，用于提取重新排序后的前M个词语，计算所述M个词语中每两个词语组合的依赖关系值，判断所述依赖关系值是否达到预定的阈值，若是，则将这两个词语合并，并作为当前文本的关键短语。

(三)有益效果

通过对文本中词语的计算及排序，使关键词提取不受文本结构限制，可准确地、快速地提取文本中的关键词，降低了提取复杂度，并可在提取关键词的基础上提取准确的关键短语。

附图说明

图1是按照本发明的一种实施方式文本关键词提取方法的流程图。

图2是按照本发明的一种实施方式文本关键词提取系统的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是按照本发明的一种实施方式文本关键词提取方法的流程图，包括以下步骤：

S1：获取当前文本中所有词语的相关性权重值；其中，获取相关性权重值的具体步骤包括：

S11：按照公式

{tf}_{i} = \frac{n_{i}}{\underset{k}{Σ} n_{k}}

获得当前文本中所有词语的频率值，频次比较低的词语一般与基本内容不相关，词语的频次越大，则词语的频率值也就越大，反之，词语的频次越小，则频率值也就越小。其中，tf_i为当前文本中词语t_i的频率值；n_i为当前文本中词语t_i的频次；n_k为当前文本中第k个词语的频次；

S111：判断当前文本中的每个词语是否包括在文本集中，若否，则进行步骤S112，若是，则进行步骤S12；

S112：判断不包括在所述语料库中的词语的频次是否超过了预定频次，若是，则为该词语分配一个默认的逆文档频率值，进行步骤S13，若否，则不对该词语进行后续处理。未在文本集中出现的未登录词语(out of vocabulary，OOV)，不能直接认定一定是或不是关键词。这些词语往往是命名实体，或者极低频的新词，例如犀利哥、凤姐。如果这些OOV在当前文本内的频次很高，则成为关键词的可能性很大，不能直接删除。如果不能删除OOV，则必须给予默认的逆文档频率值。默认的逆文档频率值不能太小，否则就失去了计算OOV的意义；默认的逆文档频率值也不能太大，容易导致关键词都偏向OOV词，本实施方式OOV逆文档频率值的默认值取所有文本集中词语的逆文档频率值的平均值。另外，并非所有OOV词都需要计算，只有大于预定频次的OOV才有计算的意义。在本实施方式中，预定频次设定为当前文本内所有词语的平均频次。

S12：按照公式

{idf}_{i} = \ln \frac{| D |}{| d : t_{i} &Element; d |}

获得当前文本中所有词语在文本集中的逆文档频率值(逆文档频率值的计算公式中log还可以以其他大于1的数字为底)，其中，|D|为所述文本集中的文本总数量；|d：t_i∈d|为所述文本集中包括所述词语t_i的文本数量；idf_i为所述词语t_i在所述文本集中的逆文档频率值；在公式中，词语在不同文本中出现的可能性越大，则

的值越小。在极少数情况下，词语在所有文档中都出现，则对大于或等于1的数值取对数的结果仍然是正数。

越大，则

也越大，如果词在几乎所有文本中出现，则该词不太可能与文本基本内容相关，

S13：按照公式

(tf/idf)_i＝tf_i×idf_i

获取当前文本中所有词语的相关性权重值，所述相关性权重值用于衡量词语与该词语所在文本的相关程度，相关性权重值越大，相关程度越高，其中，(tf/idf)_i为当前文本中所述词语t_i的相关性权重值；tf_i为当前文本中所述词语t_i的频率值；idf_i为所述词语t_i在所述文本集中的逆文档频率值；频率值最大的词语往往是一些没有多少内容的词语，例如：你、我、的、地等等。这些词语的逆文档频率值往往比较小，因此词语的频率值乘以逆文档频率值以后这些词的相关性权重值会降低。

S2：通过词语的词性对所有词语的相关性权重值进行折扣处理，得到新的相关性权重值，按照新的相关性权重值由大至小排序。不同词性的词语能够表达不同的内容，具有不同的权重，名词和动词往往是文本内容表达的重点，副词和形容词往往仅表示名词和动词的属性和状态，这些属性和状态并不影响文本基本内容的表达。例如：

a、红色的苹果在桌子上。绿色的苹果在桌子上。

b、我非常爱你。我很爱你。

c、我爱你。我恨你。

例子a，前后句子的内容基本一样，例子b，前后句子也基本一样，但例子c，前后句子的基本内容完全不同。

从自动句法分析来看，能够成为句子中心成分的词往往能够影响基本内容的表达，反之，不能成为句子中心成分的词并不会影响基本内容。从这个判断出发，可以根据词性信息对词语的相关性权重值进行打折。

其中，通过词性对词语的相关性权重值进行折扣处理的具体步骤包括：

S21：为所述词语的每个词性分配折扣系数，本实施方式中各个词性的折扣系数如下：

a)专用名(包括人名、地名、组织机构名等)、OOV＝1.0

b)名词＝0.8

c)动词＝0.6

d)形容词＝0.4

e)其他词性＝0.2

S22：根据公式

discount (x) = \frac{\underset{i}{Σ} freq (x_{i}) p (x_{i})}{\underset{i}{Σ} freq (x_{i})}

获得每个词语的折扣值(由于需要判断词语在实际环境下的词性分布才能进入打折，若通过当前文本进行词性分布统计则涉及到了对当前文本进行词性标注的问题，由于词性标注存在一定错误率且影响关键词的提取效率，故本实施方式中通过对文本集中的词性分布信息来确定折扣值)，对词语而言，折扣值会对不是专用名或OOV的词性进行折扣，非专用名的词性的出现频率越大，则折扣程度越大，反之，如果一个词的词性比较单一，且是专名或OOV，则该词受到的打折比较小，其中，discount(x)为词语的折扣值；x_i为所述词语第i个词性；freq(x_i)为所述词语第i个词性在文本集中出现的频次；p(x_i)为所述词语第i个词性的折扣系数；

S3：提取前N个词语作为文本关键词(N为大于等于1的整数，本实施方式中N＝5)。

S4：提取重新排序后的前M(M为大于等于2的整数，本实施方式中M＝20)个候选关键词，在当前文本中取出若干候选关键词，若候选关键词联合出现的话，则可以合并为关键短语，由于候选关键词之间可能会有多种联合出现，故仅合并联合出现可能性最大的候选关键词组合，为了度量两个候选关键词组合的依赖关系，计算所述M个词语中每两个词语组合的依赖关系值，判断所述依赖关系值是否达到预定的阈值，若是，则将这两个词语合并，并作为当前文本的关键短语，其中依赖关系值计算的具体步骤包括：通过公式

I (x, y) = \ln \frac{p (x, y)}{p (x) p (y)}

获得两个词语之间的依赖关系值(依赖关系值的计算公式中log还可以以其他大于1的数字为底)，其中，x为一个词语；y为另一个词语；I(x，y)为词语x和词语y之间的依赖关系值；p(x)为词语x在当前文本的频率值；p(y)为词语y在当前文本的出现频率值；p(x，y)为词语x和词语y在当前文本中同时出现(此处的同时出现指两个词语在一篇文本中紧邻同时出现)的频率值；p(x，y)为关键词x和y在所述一篇文本中同时出现的频率；如果x和y相互独立，则

即I(x，y)≈0。如果x和y之间不独立，则I(x，y)＞0。如果x和y之间有稳定的联系，则I(x，y)＞＞0，经测试发现，当I(x，y)＞1时提取的关键短语比较可信，因此本实施方式把关键短语的阈值设定为1。

本发明还公开了一种文本关键词提取系统，如图2所示，包括：

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种文本关键词提取方法，其特征在于，包括以下步骤：

S1：获取当前文本中所有词语的相关性权重值；

S3：提取排序后的前N个词语作为文本关键词。

2.如权利要求1所述的文本关键词提取方法，其特征在于，步骤S1中获取相关性权重值的具体步骤包括：

S11：按照公式

{tf}_{i} = \frac{n_{i}}{\underset{k}{Σ} n_{k}}

S12：按照公式

{idf}_{i} = \ln \frac{| D |}{| d : t_{i} &Element; d |}

S13：按照公式

(tf/idf)_i＝tf_i×idf_i

3.如权利要求2所述的文本关键词提取方法，其特征在于，步骤S12之前，还包括步骤：

4.如权利要求3所述的文本关键词提取方法，其特征在于，所述默认的逆文档频率值为所有文本集中词语的逆文档频率值的平均值。

5.如权利要求1所述的文本关键词提取方法，其特征在于，步骤S2中通过词性对词语的相关性权重值进行折扣处理的具体步骤包括：

S21：为所述词语的每个词性分配折扣系数；

S22：根据公式

discount (x) = \frac{\underset{i}{Σ} freq (x_{i}) p (x_{i})}{\underset{i}{Σ} freq (x_{i})}

6.如权利要求1所述的文本关键词提取方法，其特征在于，步骤S2之后还包括步骤：

7.如权利要求6所述的文本关键词提取方法，其特征在于，步骤S4中依赖关系值计算的具体步骤包括：

通过公式

I (x, y) = \ln \frac{p (x, y)}{p (x) p (y)}

8.一种文本关键词提取系统，其特征在于，包括：

9.如权利要求8所述的文本关键词提取系统，其特征在于，还包括：