CN104063387A

CN104063387A - 在文本中抽取关键词的装置和方法

Info

Publication number: CN104063387A
Application number: CN201310089672.XA
Authority: CN
Inventors: 周进华; 李雄锋; 吕光华; 张涛; 叶青
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2013-03-19
Filing date: 2013-03-19
Publication date: 2014-09-24
Anticipated expiration: 2033-03-19
Also published as: CN104063387B

Abstract

公开了一种在文本中抽取关键词的装置和方法。所述方法包括：对文本进行预处理，包括根据标点符号将原始文本切分为段的集合；统计预处理后的文本的词语频率和基于段的词对的共现次数；根据统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；根据评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

Description

在文本中抽取关键词的装置和方法

技术领域

本发明涉及一种在文本中抽取关键词的装置和方法，更具体地说，涉及一种通过共现次数和规范化的点互信息计算候选关键词与文本内容的相关性，来抽取相关性高的预定数量的词语作为关键词的装置和方法。

背景技术

随着计算机和网络技术的发展，数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率，原始文档的各种简洁表示(例如摘要和关键词等形式)应运而生。

关键词被定义成压缩表示了原始文本重要信息和核心内容的词语。人们可以通过它快速了解文本的大致内容，而不需要通读全文。在信息检索中，关键词常被我们用来查找内容相关的文档。此外，在话题探测和跟踪、文本分类和聚类等任务中都有重要的应用。目前，除了形式规范的科技论文提供了关键词外，大部分文档都没有作者或读者分配的关键词。传统依靠人工去阅读文本，然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此，如何自动抽取关键词成了时下文本处理领域的一个研究热点。

从人工选择关键词的过程可以知道，关键词可以是预定义好的类别，也可以是从文本中抽取的反映核心内容和重要信息的词语。第一种方法可以看成是一个文本分类的问题，它将现成的文本分配到预定义好的一个或几个类别中。从而可以采用文本分类的思路和技术进行关键词的抽取。第二种方法就是本发明所采用的方法，它从原始文本中抽取反映文档主要内容的词语，而不需要预先建立一个相关领域的类别体系。目前关键词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。语言分析的方法采用自然语言处理中词法、句法及语义分析等技术，在对文档进行深入理解的基础上抽取文档中反映其主要内容的词语。虽然该类方法在提高抽取的关键词的质量方面具有很大的潜力，但是目前自然语言处理技术还在发展过程中，暂时还没有成熟到可以有效应用到关键词抽取的各种场合。基于机器学习的方法需要提供大规模特定的样例进行学习。不同领域的应用需要采用相应领域的样例。而且训练模型需要花费大量的时间。该类方法对authoring及网页等不确定领域环境中关键词抽取的应用，效果较差。简单统计的方法不依赖于特定语言和特定领域，仅通过对文本中各种语言单元进行统计分析以自动产生关键词。这种方法简单、快速、几乎可以应用于所有需要关键词的任务中。

在简单统计的方法中，词频(即，词语频率)和词语共现关系等常被用于关键词的抽取。统计方法tf×idf中的tf表示词频，词频是词语在文本中总共出现的次数，常用于评估特定词语对一个文档集或语料库中某个文档的重要性，idf反映了词语对文本或类别的区分能力。Yukio Ohsawa等人在1998年提出的Key Graph方法利用文档中词语间的共现关系构造词共现图，其中每个节点表示一个词项。Key Graph方法将词共现图切割成多个涵盖了作者观点的互相连通的最大子图(簇)，然后统计词项和这些簇的关系并将排名靠前的若干个词语返回做关键词。Text Rank是Rada Mihalcea和Paul Tarau在2004年提出的又一个基于图的关键词抽取算法。该算法利用长度为n的窗口中词项的共现关系构建词共现图，然后通过节点的出度、入度及边的权重计算词项的重要性，并选取最重要的若干个词作为文档的关键词。2004年，YutakaMatsuo等人采用χ²计算单文本中词项的共现分布对高频词集的偏置程度来决定词语的重要性。该方法还通过对共现矩阵中高频列的聚类来改善算法的准确性。Stuart Rose等人在2010年提出的RAKE算法利用词度对词频的比例从文本摘要中抽取关键词，其中词度为词频和该词的所有共现次数之和。

互信息(Mutual Information，MI)是衡量两个随机变量间信息重叠程度的一种统计方法。它表示在知道了一个随机变量的值之后，我们对另一个随机变量不确定性的减少，即一个随机变量揭示了多少关于另一个随机变量的信息量。给定两个随机变量X和Y，假设它们的先验概率和联合概率分别为p(x)，p(y)和p(x，y)，那么随机变量X和Y的互信息可以表示成：

MI (X, Y) = \underset{x, y}{Σ} p (x, y) \log \frac{p (x, y)}{p (x) p (y)} = \underset{x, y}{Σ} p (x, y) pmi (x, y) - - - (1)

其中，pmi(x，y)就是点互信息。对于单文档来说，存在大量词语出现次数为1的情况，其中不乏包含文本重要信息的关键词。根据观察知道，相对于MI来说，PMI更倾向于让低频词语获得相对高的评分。假设N为文本中的词语总数，对于文本中的词对w1和w2，它们的点互信息为：

pmi (w 1, w 2) = \log \frac{p (w 1, w 2)}{p (w 1) p (w 2)} = \log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)} - - - (2)

其中，N为文本总词数，c(w1，w2)为词语w1和w2共现的次数，c(w1)和c(w2)分别为词语w1和w2单独在文本中出现的次数。然而，点互信息对共现次数较高的词对不利，例如，假设N＝100，c(w1)、c(w2)和c(w1，w2)均为1和均为2时的点互信息分别为log100(pmi＝log(100×1/1×1))和log50(pmi＝log(100×2/2×2))。实际上，共现次数越高越可靠。

但是仅考虑共现次数也不妥。自然语言中有些词语会与许多其它词语共现，它们每次出现要么意义不一样，要么没有实际意义。对于没有实际意义的词语，利用停用词表可以过滤掉。但是对于那些多次出现，意义都不一样的词语，即变异性强的词语，会因为共现次数高而获得不正当利益，影响关键词抽取的准确率。

虽然目前有很多优秀的方法可用于关键词的抽取，特别是基于机器学习的方法和基于语言分析的方法，但是这些方法要么需要带标注的大规模语料用于学习，要么需要复杂的自然语言处理技术对文本进行深入分析，这些要求对许多应用都不可行或很难满足。具体来说，现有技术有如下需要改善的地方：

1、现有的基于机器学习和基于语言分析的方法都需要特定语言或领域的知识，对于多语言或多领域的应用，需要针对每种语言或领域单独实现算法，然而对任何团队来说，在短时间内获取各种语言的语料和领域知识都是一件十分困难的事情。

2、目前简单统计的方法大多针对摘要等语言表达紧凑的短文的关键词抽取，这些算法对篇幅较长文本则效果很差。

3、单独使用共现频率度量相关性时，忽略词语变异性的影响。容易抽取那些没有实际意义，但共现次数很高的连接词作为关键词。

4、单独使用点互信息时，存在对共现次数高的词语不公平的现象。

发明内容

针对上述问题，本发明提出了一种领域独立的文本关键词抽取装置和方法。该方法不依赖于任何语言，不需要任何领域相关的工具或资源的支持。基于词语间的共现关系，该方法结合共现次数和规范化的点互信息考虑单个词语对文档内容的相关性，并选择相关性最高的预定数量的词语作为文档的关键词。

根据本发明的一方面，提供了一种在文本中抽取关键词的方法，所述方法包括：对文本进行预处理，包括根据标点符号将原始文本切分为段的集合；统计预处理后的文本的词语频率和基于段的词对的共现次数；根据统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；根据评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

词语频率可以是词语在文本中总共出现的次数。

对文本进行预处理的步骤还可包括：去除文本中的停用词和/或明显不是关键词的字符串。

对文本进行预处理的步骤还可包括：对没有间隔符的语言的文本进行分词处理。

对文本进行预处理的步骤还可包括：针对具有间隔符的语言的文本，去除文本中的长度小于3的词语。

对候选关键词进行评分的步骤可包括：通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和，来衡量候选关键词和文本内容的相关性。

基于段的词对的共现次数的计算公式可以是：

c (w 1, w 2) = \underset{seg}{Σ} \frac{1}{len (w 1, w 2)},

其中，c(w1，w2)为词对(w1，w2)在文本中的共现次数，seg为根据标点符号切分后的段，len(w1，w2)为词语w1和词语w2在段seg中出现的位序之差的绝对值。

词对间规范化点互信息的计算公式可以是：

npmi (w 1, w 2) = (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},

其中，N为文本总词数；c(w1，w2)为词对(w1，w2)在文本中的共现次数；c(w1)为词语w1在文本中出现的次数；c(w2)为词语w2在文本中出现的次数。

候选关键词和文本中其他词语的相关性评分的计算公式可以是：

score (w 1, w 2) = c (w 1, w 2) \times npmi (w 1, w 2)

= c (w 1, w 2) \times (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},

其中，c(w1，w2)为词对(w1，w2)在文本中的共现次数，npmi(w1，w2)为词对(w1，w2)的词对间规范化点互信息。

根据本发明的另一方面，提供了一种在文本中抽取关键词的装置，所述装置包括：预处理单元，被配置为对文本进行预处理，其中，预处理单元根据标点符号将原始文本切分为段的集合；统计单元，被配置为统计预处理后的文本的词语频率和基于段的词对的共现次数；选择单元，被配置为根据统计单元的统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；评分单元，被配置为结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；排序单元，被配置为根据评分单元的评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本发明实施例的用于在文本中自动抽取关键词的装置的框图。

图2示出根据本发明实施例的对文本进行预处理操作的方法的流程图。

图3示出根据本发明实施例的词频和共现次数统计的方法的流程图。

图4示出根据本发明实施例的候选关键词评分的方法的流程图。

图5示出根据本发明实施例的用于在文本中自动抽取关键词的方法的流程图。

具体实施方式

现在，将参照附图更充分地描述本发明的实施例。在附图中，相同的标号表示相同的元件。

在图1中，用于在文本中自动抽取关键词的装置100包括预处理单元101、统计单元102、选择单元103、评分单元104和排序单元105。

根据本发明示例性实施例的装置100适用于处理所有语言。对于没有间隔符的语言(例如中文，韩文，日文，泰文等)，需要预先对其进行分词处理。为了简洁和方便，本实施例将基于英文文本介绍本方法实现关键词自动抽取的方法的步骤。然而，应该理解的是，本发明的实施例不限于英文，而是可以类似地应用于其它语言。

参照图1，预处理单元101对文本进行预处理。预处理单元101根据标点符号将原始文本切分为自然语言的逻辑单位(以下称为段)的集合，并去除停用词和/或诸如HTML/XML标记(网页标记)、数字、时间等明显不是关键词的字符串。预处理单元101进行预处理的具体步骤将参照图2详细示出。统计单元102统计预处理后的文本的词语频率和基于段的词对的共现次数。例如，仅在词对(w1，w2)(即，词语w1和w2)同时出现在特定段中时，词对(w1，w2)的共现次数才不为零；而在词对(w1，w2)分别出现在不同段中的情况下，词对(w1，w2)的共现次数为零。这比基于任意设定的一个距离范围进行的统计更准确。另外，在计算共现次数时，本发明考虑了词语间的距离。词语间距离越远，其相关性也越弱。统计单元102进行统计操作的具体步骤将参照图3详细示出。选择单元103根据统计单元102的统计结果，选择高频词来构成候选关键词的集合。例如，可以选择词频大于或等于2的所有单词作为候选关键词。

评分单元104结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分。例如，可通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和，来衡量候选关键词和文本内容的相关性。对于词对间规范化点互信息，其计算公式为：

npmi (w 1, w 2) = (\log \frac{p (w 1, w 2)}{p (w 1) p (w 2)}) / - \log p (w 1, w 2)

(3)

= (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)}

其中，N为文本总词数；p(w1，w2)为词对(w1，w2)的共现概率，p(w1)和p(w2)分别为词语w1和w2的先验概率；c(w1，w2)为词对(w1，w2)在文本中的共现次数；c(w1)为词语w1在文本中出现的次数；c(w2)为词语w2在文本中出现的次数。这里，本发明通过基于标点符号切分出的段来统计共现次数c(w1，w2)。当词对(w1，w2)在特定段中同时出现时，其共现次数增加由1/len表示的浮点值，其中，len为词对中词语在该段中位序之差的绝对值。共现次数统计的公式表示如下：

c (w 1, w 2) = \underset{seg}{Σ} \frac{1}{len (w 1, w 2)} - - - (4)

其中，seg为根据标点符号切分后的段，len(w1，w2)为词语w1和w2在段seg中出现的位序之差的绝对值。

候选关键词与任意其他词语的相关性评分score(w1，w2)由以下公式计算：

score (w 1, w 2) = c (w 1, w 2) \times npmi (w 1, w 2)

= c (w 1, w 2) \times (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)} - - - (5)

这里，c(w1，w2)、npmi(w1，w2)的计算方法已在上文示出，因此不再对其进行详细描述。候选关键词的评分是该候选关键词与所有其他词语的相关性评分之和。例如，可以根据公式来计算候选关键词w的评分，其中，rank(w)是候选关键词w的评分，是候选关键词w与所有其他词语的相关性评分之和。候选关键词的评分越高，候选关键词和文本内容的相关性越大。评分单元104对候选关键词进行评分的具体步骤将参照图4详细示出。

当计算得到所有候选关键词的评分后，排序单元105按照评分从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

图2示出根据本发明实施例的预处理单元对文本进行预处理操作的方法的流程图。

参照图2，在步骤S201，确定词语间是否有分隔符。如果没有，则在步骤S202对文本进行分词处理；如果有，则在步骤S203创建空段。在步骤S204，读取一个词。在步骤S205，确定该词是否为空，即，确定取词是否成功。如果取词不成功，则处理结束；如果取词成功，则在步骤S206确定该词是否为停用词。如果该词为停用词，则在步骤S207去除该词；如果该词不是停用词，则在步骤S208，确定该词是否是数字串。如果该词是数字串，则在步骤S209去除该词；如果该词不是数字串，则在步骤S210确定该词是否是噪音串，诸如PDF转换过程中带入的“-LRB-”等符号。如果该词是噪音串，则在步骤S211去除该词；如果该词不是噪音串，则在步骤S212确定该词是否是标点符号。如果该词不是标点符号，则在步骤S213将该词添加到当前段中；如果该词是标点符号，则在步骤S214保存当前段。在步骤S215新建空段。之后，处理返回步骤S204。

这里，对于诸如英语的存在间隔符的语言来说，大部分长度小于3的词语都没有实际意义，所以可以在预处理操作中添加去除词语长度小于3的词语的步骤，从而提高关键词抽取的准确性。

图3示出根据本发明实施例的统计单元统计词频和共现次数的方法的流程图。

参照图3，在步骤S301，获取一个未被统计的完整的段，确定段中的词语的数量为n(n为正整数)。在步骤S302，从该段中抽取第i个词，将该词记为词i，并将i的初始值设置为0。在步骤S303，检查词i是否出现过。如果词i出现过，则在步骤S304，在词频表中将词i的词频增加1；如果词i没有出现过，则在步骤S305向词频表中插入词i的记录，并将其词频记为1。在步骤S306，从该段中抽取第j个词，将该词记为词j，并将j的初始值设置为i+1。在步骤S307，确定词j是否为空，即，确定词j的抽取是否成功。如果词j为空，则在步骤S313更新i的值(即，将i+1的值赋给i)；如果词j不为空，则在步骤S308，检查该段中的词i和词j构成的词对是否曾共现过。如果共现过，则在步骤S309，在共现表中将该词对的共现次数增加1/(j-i)；如果没有共现过，则在步骤S310，向共现表中插入该词对的共现记录，并将其共现次数记为1/(j-i)。之后在步骤S311，确定j是否小于n-1。如果j小于n-1，则在步骤S312更新j的值(即，将j+1的值赋给j)；如果j大于或等于n-1，则在步骤S313更新i的值(即，将i+1的值赋给i)。之后在步骤S314，确定i是否大于n-1。如果i小于等于n-1，则处理返回步骤S302；如果i大于n-1，则处理结束。如果未处理完文本中的所有的段，则重复上述步骤。

图4示出根据本发明实施例的评分单元对候选关键词进行评分的方法的流程图。

在步骤S401，从候选关键词集中提取候选关键词w。在步骤S402，确定候选关键词w是否为空，即，确定选词是否成功。如果不为空，则处理进行到步骤S403；否则，处理结束。在步骤S403，将候选关键词w的评分rank(w)设置为0.0。在步骤S404，从文本的所有词语中选择不同于候选关键词w的对等词w’。这里，对等词w’表示文本中除了候选关键词w以外的任何词语。在步骤S405，确定对等词w’是否为空。如果为空，则处理在步骤S406输出该候选关键词及其评分rank(w)；否则，处理在步骤S407将候选关键词w和对等词w’(即，词对(w，w′))的相关性评分score(w，w′)设置为0.0。在步骤S408，确定候选关键词w和对等词w’的共现次数是否为零。对于共现次数为0的词对(即，c(w，w′)＝0)，其score(w，w′)等于0。如果共现次数为零，则处理返回步骤S404；如果共现次数不为零，则处理在步骤S409计算词对(w，w′)的相关性评分score(w，w′)。由于相关性评分score(w，w′)的计算方法已经在上文详细描述，因此不再赘述。之后，在步骤S410，将rank(w)+score(w，w′)的值赋给rank(w)之后，处理返回步骤S404。

参照图5，在步骤S501，对文本进行预处理。

在步骤S502，统计预处理后的文本的词语频率和基于段的词对的共现次数。

在步骤S503，根据在步骤S502的统计结果，选择高频词来构成候选关键词的集合。

在步骤S504，结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分。

在步骤S505，按照评分高低从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

本发明通过共现次数和规范化点互信息计算候选关键词对文本内容的相关性，来抽取相关性最强的预定数量的词语作为关键词。具体来说，本发明产生了如下有益效果：关键词的抽取不依赖于任何语言或领域相关的知识或资源，能够适用于更一般的场景。能够对单文本进行关键词抽取，并不受文本篇幅长短的影响。不仅克服了使用共现频率时的词语变异性问题，还解决了单独使用点互信息时对高频词语不公平的现象。本发明的方法简单，可以在便携式设备上、或资源使用受限、或对响应时间要求较高的场合进行关键词抽取。共现次数的统计基于自然语言的逻辑单位进行，而不是人为定义的固定范围，因此统计更加准确。此外，本发明通过考虑自然语言中相关性随距离增加而变弱的现象，利用共现词对间的距离计算词对的相关性，使得相关性的计算更准确。

尽管已经参照本发明的实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种在文本中抽取关键词的方法，所述方法包括：

对文本进行预处理，包括根据标点符号将原始文本切分为段的集合；

统计预处理后的文本的词语频率和基于段的词对的共现次数；

根据统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；

结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；

根据评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

2.如权利要求1所述的方法，其中，词语频率为词语在文本中总共出现的次数。

3.如权利要求1所述的方法，其中，对文本进行预处理的步骤还包括：去除文本中的停用词和/或明显不是关键词的字符串。

4.如权利要求1所述的方法，其中，对文本进行预处理的步骤还包括：对没有间隔符的语言的文本进行分词处理。

5.如权利要求1所述的方法，其中，对文本进行预处理的步骤还包括：针对具有间隔符的语言的文本，去除文本中的长度小于3的词语。

6.如权利要求1所述的方法，其中，对候选关键词进行评分的步骤包括：通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和，来衡量候选关键词和文本内容的相关性。

7.如权利要求1所述的方法，其中，基于段的词对的共现次数的计算公式为：

c (w 1, w 2) = \underset{seg}{Σ} \frac{1}{len (w 1, w 2)},

8.如权利要求7所述的方法，其中，词对间规范化点互信息的计算公式为：

npmi (w 1, w 2) = (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},

9.如权利要求8所述的方法，其中，候选关键词和文本中其他词语的相关性评分的计算公式为：

score (w 1, w 2) = c (w 1, w 2) \times npmi (w 1, w 2)

= c (w 1, w 2) \times (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},

10.一种在文本中抽取关键词的装置，所述装置包括：

预处理单元，被配置为对文本进行预处理，其中，预处理单元根据标点符号将原始文本切分为段的集合；

统计单元，被配置为统计预处理后的文本的词语频率和基于段的词对的共现次数；

选择单元，被配置为根据统计单元的统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；

评分单元，被配置为结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；

排序单元，被配置为根据评分单元的评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。

11.如权利要求10所述的装置，其中，词语频率为词语在文本中总共出现的次数。

12.如权利要求10所述的装置，其中，预处理单元还被配置为去除文本中的停用词和/或明显不是关键词的字符串。

13.如权利要求10所述的装置，其中，预处理单元还被配置为对没有间隔符的语言的文本进行分词处理。

14.如权利要求10所述的装置，其中，预处理单元还被配置为针对具有间隔符的语言的文本，去除文本中的长度小于3的词语。

15.如权利要求10所述的装置，其中，评分单元还被配置为：通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和，来衡量候选关键词和文本内容的相关性。

16.如权利要求10所述的装置，其中，基于段的词对的共现次数的计算公式为：

c (w 1, w 2) = \underset{seg}{Σ} \frac{1}{len (w 1, w 2)},

17.如权利要求16所述的装置，其中，词对间规范化点互信息的计算公式为：

npmi (w 1, w 2) = (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},

18.如权利要求17所述的装置，其中，候选关键词和文本中其他词语的相关性评分的计算公式为：

score (w 1, w 2) = c (w 1, w 2) \times npmi (w 1, w 2)

= c (w 1, w 2) \times (\log \frac{N \times c (w 1, w 2)}{c (w 1) c (w 2)}) / \log \frac{N}{c (w 1, w 2)},