CN103399901A

CN103399901A - 一种关键词抽取方法

Info

Publication number: CN103399901A
Application number: CN2013103164831A
Authority: CN
Inventors: 周进华; 熊张亮; 胡永; 张涛
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2013-07-25
Filing date: 2013-07-25
Publication date: 2013-11-20
Anticipated expiration: 2033-07-25
Also published as: CN103399901B

Abstract

本申请公开了一种关键词抽取方法，该方法包括：对文本进行预处理；基于预处理后的文本，统计词频和词对的共现信息；将词频大于或等于门限值的词作为候选关键词；根据词对的共现信息，计算各候选关键词对文本的重要性；根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词，其中，N大于等于1。应用本申请公开的技术方案，能够实现独立于任何领域，不受文本篇幅长短影响的关键词抽取，并提高了关键词抽取的准确性。

Description

一种关键词抽取方法

技术领域

本申请涉及文本处理中的关键词抽取技术领域，特别涉及一种关键词抽取方法。

背景技术

随着计算机和网络技术的发展，数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率，于是原始文档的各种简洁表示，比如摘要和关键词等形式应运而生。

关键词被定义成压缩表示了原始文本重要信息和核心内容的词。人们可以通过它快速了解文本的大致内容，而不需要通读全文。在信息检索中，关键词常被我们用来查找内容相关的文档。此外，关键词在话题探测和跟踪、文本分类和聚类等任务中都有重要的应用。目前，除了形式规范的科技论文提供了关键词外，大部分文档都没有作者或读者分配的关键词。传统的依靠人工去阅读文本，然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需要。因此，如何自动抽取关键词成了时下文本处理领域的一个研究热点。

从人工选择关键词的过程可以知道，关键词可以是预定义的类别，也可以是从文本中抽取的反映核心内容和重要信息的词。第一种方法可以看成是一个文本分类的问题，它将现成的文本分配到预定义的一个或几个类别中，从而可以采用文本分类的思路和技术进行关键词的抽取。第二种方法就是本申请所涉及的方法，它从原始文本中抽取反映文档主要内容的词，而不需要预先建立一个相关领域的类别体系。

目前关键词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。

语言分析的方法采用自然语言处理中词法、句法及语义分析等技术，在对文档进行深入理解的基础上抽取文档中反映其主要内容的词。虽然该类方法有很大的潜力提高抽取的关键词的质量，但是目前自然语言处理技术还在发展过程中，暂时还没有成熟到可以有效应用到关键词抽取的各种场合。

基于机器学习的方法需要提供大规模特定的样例进行学习。不同领域的应用需要采用相应领域的样例，而且训练模型需要花费大量的时间。该类方法对authoring（文本创作）及网页等不确定领域环境中关键词抽取的应用，效果较差。

简单统计的方法不依赖于特定语言和特定领域，仅通过对文本中各种语言单元进行统计分析以自动产生关键词。这种方法简单、快速，几乎可以应用于所有需要关键词的任务中。

在简单统计的方法中，词频和词语共现关系等常被用于关键词的抽取。统计方法tf*idf中的tf就表示词频，它常用于评估一个词对一个文档集或语料库中某个文档的重要性。下面简要介绍现有技术中几种典型的简单统计方法。

Yukio Ohsawa等人在1998年提出的KeyGraph方法利用文档中词间的共现关系构造一个图，图中的每个节点表示一个词项。KeyGraph方法将共现图切割成多个涵盖了作者观点的互相连通的最大子图(簇)，然后统计词项和这些簇的关系，并将排名靠前的若干个词返回做关键词。

TextRank是Rada Mihalcea和Paul Tarau在2004年提出的又一个基于图的关键词抽取算法。该算法利用长度为n的窗口中词项的共现关系构建词共现图，然后通过节点的出度、入度及边的权重计算词项的重要性，并选取最重要的若干个词作为文档的关键词。

2004年，Yutaka Matsuo等人采用χ²计算单文本中词项的共现分布对高频词集的偏置程度决定词的重要性。该方法还通过对共现矩阵中高频列的聚类来改善算法的准确性。

Stuart Rose等人在2010年提出的RAKE算法利用词度对词频的比例从文本摘要中抽取关键词。其中，词度为词频和该词的所有共现次数之和。

虽然目前有很多优秀的方法可用于关键词的抽取，特别是基于机器学习的方法和基于语言分析的方法，但是这些方法要么需要带标注的大规模语料用于学习，要么需要复杂的自然语言处理技术对文本进行深入分析，这些要求对许多应用都不可行或很难满足。具体来说，现有技术有如下需要改善的地方：

1.现有基于机器学习和基于语言分析的方法都需要特定语言或领域的知识，对于多语言或多领域的应用，需要针对每种语言或领域单独训练模型或制定语言规则，然而对任何团队来说，在短时间内获取各种语言的语料和领域知识都是一件十分困难的事情。

2.目前简单统计的方法大多是针对摘要等语言表达紧凑的短文进行关键词抽取，这些算法对篇幅较长的文本的处理效果较差。

3.Yutaka Matsuo等人通过χ²抽取关键词的方法中以单词对高频词集的特定子集共现分布的偏置来衡量其重要性，受子集确定方法的影响，而且直接忽略了内容相关的非高频词汇，方法复杂，另外，该方法对期望值的估计缺乏理论基础。

发明内容

本申请提供了一种关键词抽取方法，以实现独立于任何领域，不受文本篇幅长短影响的关键词抽取，并提高关键词抽取的准确性。

本申请提供的一种关键词抽取方法，包括：

对文本进行预处理；

基于预处理后的文本，统计词频和词对的共现信息；

将词频大于或等于门限值的词作为候选关键词；

根据词对的共现信息，计算各候选关键词对文本的重要性；

根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词，其中，N大于等于1。

较佳地，所述对文本进行预处理可以包括：根据标点符号对文本进行切分得到切分单元，从各个切分单元中识别并去除以下词中的至少一种：停用词、HTML/XML标记、数字、时间、噪音词；

统计词对的共现信息包括：基于切分单元统计词对的共现次数。

较佳地，所述基于切分单元统计词对的共现次数可以包括：对于每一个词对，根据构成所述词对的两个词在同一切分单元中的距离，计算所述词对在所述切分单元中的共现次数，将所述词对在所有切分单元中的共现次数累加，得到所述词对在文本中的共现次数。

较佳地，所述根据构成所述词对的两个词在同一切分单元中的距离，计算所述词对在所述切分单元中的共现次数可以包括：

将1除以构成所述词对的两个词在同一切分单元中的位序之差，作为所述词对在所述切分单元中的共现次数；所述共现次数是浮点数。

较佳地，所述计算各候选关键词对文本的重要性可以包括：根据卡方检验公式计算各候选关键词对文本内容的语义相关程度，得到各候选关键词对文本的重要性。

较佳地，所述根据卡方检验公式计算各候选关键词对文本内容的语义相关程度可以包括：

根据卡方检验公式计算候选关键词与文本中各个其他词的共现分布的偏置；

将所述候选关键词对应于各个其他词计算得到的共现分布的偏置进行累加，得到所述候选关键词对文本内容的语义相关程度。

较佳地，所述候选关键词与文本中各个其他词的共现分布的偏置可以为：所述候选关键词与所述其他词共现次数的实际值与期望值之差的平方除以期望值的商。

较佳地，所述候选关键词与所述其他词共现次数的实际值可以为：所述候选关键词与所述其他词在文本中实际的共现次数。

较佳地，所述候选关键词与所述其他词共现次数的期望值可以为：所述其他词的出现次数和所述候选关键词的出现概率的乘积。

较佳地，所述卡方检验公式为：

χ^{2} (w) = \underset{w 2 &NotEqual; w}{\underset{w 2,}{Σ}} \frac{{(c (w, w 2) - c (w 2) p (w))}^{2}}{c (w 2) p (w)}

其中，w候选关键词，w2为与w构成词对的词；

c(w,w2)表示词w和w2的共现次数；

c(w2)为词w2的词频；

p(w)为文本中词w出现的概率；

表示候选关键词w和其他词w2的共现次数的偏置。

由上述技术方案可见，本申请首先对文本进行预处理，并基于预处理后的文本统计词频和词对的共现信息，然后基于词频筛选得到候选关键词，并基于文本中词对的共现信息，计算各候选关键词对文本的重要性，最后根据计算结果将最重要的N个候选关键词作为文本的关键词，从而实现了根据候选关键词对文本内容的重要性来抽取文本的关键词。该技术方案独立于任何领域，且不受文本篇幅长短的影响，并且，能够提高关键词抽取的准确性。

附图说明

图1为本申请关键词抽取方法的流程示意图；

图2为本申请一较佳对文本进行预处理的实施流程示意图；

图3为本申请一较佳统计词频和词对的共现信息的流程示意图；

图4为本申请一较佳计算候选关键词与文本中其他词的共现次数的偏置程度的示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

针对现有技术所存在的问题，本申请提出了一种关键词抽取方法。该方法不针对特定语言，不需要任何领域相关的工具或资源的支持，能够独立应用于任何领域的单个文本。

图1为本申请关键词抽取方法的流程示意图，该方法包括以下步骤：

步骤101：对文本进行预处理。

步骤102：基于预处理后的文本，统计词频和词对的共现信息。

步骤103：将词频大于或等于门限值的词作为候选关键词。

步骤104：根据词对的共现信息，计算各个候选关键词对文本的重要性。

步骤105：根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词，其中，N大于等于1。

下面结合附图，对图1中各个步骤的具体实施方式进行详细说明。

图1所示步骤101中对文本进行预处理的任务是：依据一定的原则对原始文本进行切分，识别并去除不符合关键词条件的词。例如：可以依据标点符号对原始文本进行切分，识别并去除停用词、HTML/XML标记、数字、时间、噪音词等明显不是关键词的词。一较佳对文本进行预处理的实施流程如图2所示，包括以下步骤：

步骤201：判断任意两个词之间是否有分隔符，如果没有分隔符，则需执行步骤202，先对文本进行分词，然后执行步骤203；如果有分隔符，直接执行步骤203。

当文本所使用的语言中词之间没有分隔符时，例如：中文的词之间是没有分隔符的，对于这种语言的文本，需要先进行分词。

步骤203：新建空的切分单元。

在统计词对的共现次数时，需要定义两个词在多大范围内共同出现算作共现。本申请中，切分单元是统计词对的共现次数的范围，可以是段落、完整的句子或半句。例如：假设以句号作为切分文本的标记，那么，切分得到的切分单元将是完整的句子。假设以任意标点符号作为切分文本的标记，那么，碰到逗号、分号、顿号等标点符号也将进行切分，如此切分得到的切分单元将是完整句子的一部分，可称为半句。当然，也可以对自然段进行识别，这样，切分单元将是段落。

步骤204：读取一个词。

步骤205：判断该词是否为空，如果为空，表示已完成对文本的预处理，结束本流程，否则，执行步骤206。

步骤206～209依次判断该词是否为停用词、数字、词长是否小于3、噪音词，如果判断结果为是，则去除该词，并返回步骤204，对下一个词进行操作。

其中，步骤208中是以英文文本为例进行说明，如果待处理的文本是中文的，可以省略本步骤。在英语中，长度小于3的单词通常不是实义词，因此，本申请中将长度小于3的单词去除。如果将3改用成4等其他数字，必然会过滤掉更多的实义词，影响算法性能和结果。

步骤209所述噪音词是指PDF文档转换过程中带入的“-LRB-”等符号。

步骤210：判断是否为标点符号，如果不是标点符号，执行步骤211，否则，执行步骤212。这里，以标点符号作为切分标记，得到的切分单元将是半句。

步骤211：将当前词加入当前切分单元中，并返回步骤204。

步骤212：保存当前切分单元。

步骤213：新建空的切分单元，并返回步骤204。

图1所示步骤102中需要统计词频和词对的共现信息，其主要原理是：

首先从预处理得到的切分单元中取一个未被统计的切分单元；

然后，检查该切分单元中的词是否出现过，如果已出现过，则为其出现次数增加1；如果未曾出现过，则将该词插入词频统计表中，记录其出现次数为1；

再检查该切分单元中的任意两个不同词是否同时出现过，如果同时出现过，则给这两个词所构成的词对的出现次数增加1除以该词对在该切分单元中出现的位置差的绝对值的结果；否则，将该词对插入共现统计表，记录该词对共现次数为1除以该词对在该切分单元中出现的位置差的绝对值的结果；

对下一个未被统计的切分单元执行上述操作，直至处理完所有的切分单元。

图3为本申请一较佳统计词频和词对的共现信息的流程示意图，该流程包括：

步骤301：获取一个完整的切分单元，统计其词数，假设为n。

步骤302：取出该切分单元中第i个词（以下记为“词i”），i的取值从0到n-1.

步骤303：判断词i是否出现过，如果出现过，执行步骤304，否则，执行步骤305。

步骤304：将词i的词频增加1次，执行步骤306。

步骤305：向词频表中插入词i的记录，并将其词频记为1次。

步骤306：取出该切分单元中第j个词，j的取值从i+1到n-1。

步骤307：判断第j个词是否为空，如果不为空，执行步骤308，否则，跳到步骤313。

步骤308：判断第i个词和第j个词构成的词对是否共现过，如果共现过，执行步骤309，否则，执行步骤310。

步骤309：将第i个词和第j个词构成的词对的共现次数增加1/(j-i)，跳到步骤311。

步骤310：向共现表中插入第i个词和第j个词构成的词对的共现记录，并将其共现次数记为1/(j-i)。

步骤311：判断j是否小于n-1，即：判断词j是否不是本切分单元的最后一个词，如果是，表明本切分单元中，对词i和其他词的共现次数的统计尚未完毕，执行步骤312，将j累加1，并返回步骤306；否则，表明本切分单元中，对词i和其他词的共现次数的统计已完毕，执行步骤313。

步骤313：将i累加1。

步骤314：判断i是否大于n-1，如果大于，表明本切分单元中，对词频和词对共现的统计已完毕，结束对本切分单元的统计工作；否则，表明本切分单元中，对词频和词对共现的统计尚未完毕，返回步骤302。

图1所示步骤103中是生成候选关键词集，即：将词频大于或等于门限值的词作为候选关键词。其中，所设置的门限值是区分高频词的一个阈值，当文本中某词出现的频率大于或等于该门限值时，可认为该词是高频词。该门限值的确定以过滤掉大部分频率较低且不涵盖文本主要信息的词语为宜。这里，通过门限值选择候选关键词仅仅是为了加快处理速度。如果设定该门限值等于1，结果仍然一样。通常设定该门限值等于2。

图1所示步骤104中是计算各个候选关键词对文本的重要性，下面对本步骤进行详细说明。

如果一个词w的出现与另一个词w2是相互独立的，那么它们的共现分布应该是非条件分布，即存在关系：p(w,w2)=p(w)p(w2|w)=p(w)p(w2)，从而，可以知道p(w2)=p(w2|w)，那么可以推导出：

c(w2,w)=c(w)c(w2)/n=c(w)p(w2)

其中，c(w2,w)表示词w和w2的共现次数；

c(w)为词w的词频；

c(w2)为词w2的词频；

n为总词频；

p(w2)为词w2出现的概率。

以c(w)p(w2)作为共现c(w2,w)的期望值。如果w与w2是语义相关的，那么词w和w2的共现次数必定偏离该期望值。

基于上述分析，本申请采用式(1)所示卡方检验公式计算候选关键词和文本中其他词的共现次数的偏置程度，来计算各个候选关键词的重要性。χ²检验是一种用途广泛的假设检验方法，其重要特性在于对样本的分布没有要求。

χ^{2} (w) = \underset{w 2 &NotEqual; w}{\underset{w 2,}{Σ}} \frac{{(c (w, w 2) - c (w 2) p (w))}^{2}}{c (w 2) p (w)}

式(1)

其中，c(w,w2)表示词w和w2的共现次数；

c(w2)为词w2的词频；

p(w)为文本中词w出现的概率；

表示候选关键词w和其他词w2的共现次数的偏置，为便于描述，将其称为score(w,w2)。

由于c(w,w2)表示候选关键词w和其他词w2的实际共现次数，而c(w2)p(w)表示候选关键词w和其他词w2的共现次数的期望值；如果c(w2)p(w)的值为0，则

为0，表示候选关键词w和该其他词w2的共现次数的偏置为0，即词语w和w2是相互独立的，没有语义相关关系。

将候选关键词w与文本中所有其他词w2的共现次数的偏置累加，得到该候选关键词w与文本中其他词的共现次数的偏置程度，如式(1)所示。

图4为本申请一较佳计算候选关键词与文本中其他词的共现次数的偏置程度的示意图，具体包括以下步骤：

步骤401：从候选关键词集选择一个候选关键词w。

步骤402：判断w是否为空，如果为空，表示已完成所有候选关键词的χ²值的计算，结束本流程，否则，执行步骤403。

步骤403：设候选关键词w与文本内容的语义相关程度为χ²(w)＝0.0。

步骤404：从文本的词集中选择一个不同于w的其他词w2。

步骤405：判断词w2是否为空，如果为空，表示已完成候选关键词w的χ²(w)的计算，执行步骤406，否则执行步骤407。

步骤406：输出候选关键词及其相应的计算结果χ²(w)，返回步骤401，对下一个候选关键词进行计算。

步骤407：设score(w,w2)=0.0。

步骤408：根据公式c(w2)p(w)计算候选关键词w与不同于词w的词语w2的共现次数的期望值。

步骤409：判断计算得到的共现次数的期望值是否大于0，如果大于0，继续执行步骤410，否则，返回步骤404。

步骤410：从共现表中读取词w和w2的实际共现次数。

步骤411：根据公式

计算词w和w2的共现次数的偏置程度，得到词w和w2的相关性评分score(w,w2)。

步骤412：将计算得到的score(w,w2)累加到χ²(w)中，返回步骤404。

通过重复上述步骤，可以计算出文本集中所有词语与各个候选关键词w的共现分布的偏置。

在计算得到所有候选关键词的χ²值后，按照数值高低对候选关键词进行排序，将χ²值最高的若干个候选关键词作为文本的关键词。

由上述技术方案可见，本申请基于文本中词间的共现关系，通过χ²计算候选关键词对文本中其他词共现分布的语义偏置，从而确定候选关键词对文本内容的相关性，最后抽取相关性最强的若干个候选关键词作为文本的关键词，实现了关键词抽取。具体来说，本申请能够产生如下有益效果：

1、关键词的抽取不依赖于任何语言或领域相关的知识或资源，能够适用于更一般的场景。

2、能够对单文本进行关键词抽取，并不受文本篇幅长短的影响。

3、算法简单，可以在便携式设备上，或资源使用受限，或对响应时间要求较高的场合进行关键词抽取。

4、本申请基于用标点符号切分开的自然语言逻辑单元来统计词对的共现次数，而不是人为定义的一个固定范围，因此，统计得到的词对的共现信息更加准确。

5、通过考虑共现词对之间的距离，反映了自然语言中相关性随距离增加而变弱的现象，使得相关性的计算更准确。

6、本申请以候选关键词对文本中所有其他词的偏置代替了Yutaka Matsuo等人通过χ²抽取关键词方法中候选关键词对高频词集特定子集的偏置，使得候选关键词对文本内容语义相关性的计算更准确，并且克服了其确定子集方法带来的复杂性和误差。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种关键词抽取方法，其特征在于，该方法包括：

对文本进行预处理；

基于预处理后的文本，统计词频和词对的共现信息；

将词频大于或等于门限值的词作为候选关键词；

根据词对的共现信息，计算各候选关键词对文本的重要性；

2.根据权利要求1所述的方法，其特征在于：

所述对文本进行预处理包括：根据标点符号对文本进行切分得到切分单元，从各个切分单元中识别并去除以下词中的至少一种：停用词、HTML/XML标记、数字、时间、噪音词；

3.根据权利要求3所述的方法，其特征在于：

所述基于切分单元统计词对的共现次数包括：对于每一个词对，根据构成所述词对的两个词在同一切分单元中的距离，计算所述词对在所述切分单元中的共现次数，将所述词对在所有切分单元中的共现次数累加，得到所述词对在文本中的共现次数。

4.根据权利要求3所述的方法，其特征在于，所述根据构成所述词对的两个词在同一切分单元中的距离，计算所述词对在所述切分单元中的共现次数包括：

5.根据权利要求1所述的方法，其特征在于：

所述计算各候选关键词对文本的重要性包括：根据卡方检验公式计算各候选关键词对文本内容的语义相关程度，得到各候选关键词对文本的重要性。

6.根据权利要求5所述的方法，其特征在于，所述根据卡方检验公式计算各候选关键词对文本内容的语义相关程度包括：

7.根据权利要求6所述的方法，其特征在于：

所述候选关键词与文本中各个其他词的共现分布的偏置为：所述候选关键词与所述其他词共现次数的实际值与期望值之差的平方除以期望值的商。

8.根据权利要求6所述的方法，其特征在于：

所述候选关键词与所述其他词共现次数的实际值为：所述候选关键词与所述其他词在文本中实际的共现次数。

9.根据权利要求6所述的方法，其特征在于：

所述候选关键词与所述其他词共现次数的期望值为：所述其他词的出现次数和所述候选关键词的出现概率的乘积。

10.根据权利要求6所述的方法，其特征在于：

所述卡方检验公式为：

χ^{2} (w) = \underset{w 2 &NotEqual; w}{\underset{w 2,}{Σ}} \frac{{(c (w, w 2) - c (w 2) p (w))}^{2}}{c (w 2) p (w)}

其中，w候选关键词，w2为与w构成词对的词；

c(w,w2)表示词w和w2的共现次数；

c(w2)为词w2的词频；

p(w)为文本中词w出现的概率；

表示候选关键词w和其他词w2的共现次数的偏置。