CN106557460A

CN106557460A - 从单文档中提取关键词的装置及方法

Info

Publication number: CN106557460A
Application number: CN201510632825.XA
Authority: CN
Inventors: 薛征山; 张大鲲; 郭继冲; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-05
Also published as: JP2017068833A; US20170091318A1; JP6232478B2

Abstract

本发明提供从单文档中提取关键词的方法和装置。根据一个实施方式，从单文档中提取关键词的装置，包括：关键句提取单元，其从所述单文档中提取关键句；以及关键词提取单元，其从所述关键句中提取关键词。

Description

从单文档中提取关键词的装置及方法

技术领域

本发明的实施方式涉及自然语言处理领域，具体地说，涉及从单文档中提取关键词的装置及方法。

背景技术

在自然语言处理领域中，会涉及到提取关键词。作为关键词提取的方法，可以大致分为两类，即有监督的方法和无监督的方法。有监督的方法是将关键词提取问题看成分类问题，需要人工标注训练数据，费时费力，不适用于网络时代。随着科技进步及网络普及，有监督的方法基本上已经很少使用。

关于无监督的方法，在现有技术中，主要有如下三种：

(1)基于TF-IDF及其变形的方法：其数学公式如下：

ω表示关键词，TF_ω表示ω在文档集合中出现的频率，D_set表示文档集合数，DF_ω表示包含ω的文档数(非专利文献1)。

(2)基于图的提取方法：其最经典的方法是TextRank.

WS(V_i)表示V_i的得分，In(V_i)表示V_i的进度，Out(V_j)表示V_j的出度，w_ji表示ω_j→w_i边的权重，d表示阻尼系数(非专利文献2)。

(3)基于分隔符(delimiter-based)的方法：

首先利用分隔符列表中的词，将文档中的句子切分成一个个的片段，然后使用类似LA(Link Analysis)的方法，获得文档内部每个候选关键词的得分。而后使用如下公式，获得候选关键词的最终得分。

Score(ω)表示候选关键词的最终得分，表示文档j中关键词ω的得分，D_set表示文档集合数量，DF_ω表示包含ω的文档数(非专利文献3)。

上述方法(1)中的TF-IDF是“term frequency–inverse documentfrequency”的缩略，是一种统计方法，用以评估一词语对于文档集或语料库的重要程度。词语的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在文档集或语料库中的覆盖度成反比下降，覆盖度表示一个词在文档集或语料库中的覆盖程度，即有多少文档里出现过这个词。具体而言，TF表示词语在文档中出现的频率，IDF表示逆文档频率(InverseDocument Frequency)，可以理解为，在文档集或语料库中，对于某一词语而言，如果包含该词语的文档的数量越少，则该词语的IDF越大。这样一来，对于在某些特定文档内的出现频率高而在整个文档集或语料库中覆盖度低(例如仅在一个文档中出现，在其他文档中未出现)的词语，通过计算TF与IDF的乘积，可以产生出高权重的TF-IDF。因此，TF-IDF能够过滤掉常见的词语，保留关键词。

现有技术相关文献：

非专利文献1：Domain-specific keyphrase extraction.(Frank,Gordon.In Proceedings of the 16^th International Conference on ComputationalLinguistics 1996.Page 41-46)

非专利文献2：Bringing Order into Texts.(Rada Mihalcea,Paul Tarau.In Proceedings of EMNLP 2004.Page 404-411.)

非专利文献3：A delimiter-based general approach for Chinese termextraction.(Yuhang Yang,Qin Lu,Tiejun Zhao.Journal of the Americansociety for information science and technology 2010.Page 111-125.)

发明内容

本发明的发明人发现上述现有技术中存在以下问题。

在将IDF应用于单文档关键词提取，则其提取效果远远不及在多文档中的提取效果。其原因是：(1)如上所述，在多文档关键词提取中，IDF的作用是提高候选关键词中目标关键词的相对得分，从而提高目标关键词被提取的准确率。而在单文档中，IDF信息对于所有候选关键词来说，都是一样的，所以IDF失去了意义。没有IDF信息的帮助，单文档中提取关键词的方法在很大程度上，偏向于词频高的词，即使过滤了高频的停用词，提取出来的仍然可能是在单文档中很多句子中出现的其他高频词，但这些并不是要提取的目标关键词。(2)单文档中的可用信息有限，而且还存在很多燥音。所以仅凭文档本身的内容，想高质量地提取关键词是非常困难的。

上述方法(1)和(3)都与IDF有关，因此，应用于单文档关键词提取时效果不理想。方法(2)虽然与IDF无关，但是由于在单文档中缺乏足够的统计信息，很难精确估计词图中两个节点间的权重，导致提取的关键词倾向于词频高的词项，而忽略某些出现次数少的目标关键词(如专有名词)。

本发明是鉴于现有技术中存在的上述问题所提出的，其目的在于，提供能够有效提高关键词的提取质量的从单文档中提取关键词的装置及方法。具体地，提供以下技术方案。

本发明的技术方案[1]，提供一种从单文档中提取关键词的装置，包括：

关键句提取单元，其从所述单文档中提取关键句；以及

关键词提取单元，其从所述关键句中提取关键词。

根据技术方案[1]，通过提取单文档中的关键句，再从关键句中提取关键词，能够有效提高目标关键词的提取质量。一般情况下，出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词，而是从仅是文档所有句子的子集的关键句集合中进行提取，所以可以减少候选关键词的个数，这意味着目标关键词被提取的概率提高，提取质量也会明显提高。

本发明的技术方案[2]，在技术方案[1]的从单文档中提取关键词的装置中，还包括：

识别单元，其识别所述单文档的类别；以及

分类单元，其对所述单文档中的句子进行分类；

所述关键句提取单元提取所述单文档中的与所述单文档的类别相同的句子，作为第一关键句集合，

所述关键词提取单元从所述第一关键句集合中提取关键词。

根据技术方案[2]，在提取单文档中的与单文档的类别相同的句子作为关键句的情况下，关键句能够表征该文档的主要含义，因此能够更有效地提高目标关键词的提取质量。

本发明的技术方案[3]，在技术方案[2]的从单文档中提取关键词的装置中，

所述关键词提取单元，从所述第一关键句集合中提取第一关键词集合，

所述关键句提取单元，从语料库中提取与所述第一关键句集合中的关键句相似的句子，作为第二关键句集合，

所述关键词提取单元，从所述第二关键句集合提取第二关键词集合，

所述装置还包括排序单元，其基于所述第二关键词集合，对所述第一关键词集合中的关键词进行重排序，

所述关键词提取单元从重新排序后的第一关键词集合中提取关键词。

根据技术方案[3]，通过排序单元基于第二关键词集合对第一关键词集合中的关键词进行重排序，能够进一步提高目标关键词的提取质量。这是因为，在单个文档中，内容有限，缺乏足够信息来辅助提取目标关键词。在技术方案[3]中，借助语料库中与单文档相关的信息，来对文档内关键词进行调整，能够相对提高目标关键词在排序中的位置，进而提高目标关键词被提取的概率，提取质量会明显提高。

本发明的技术方案[4]，在技术方案[3]的从单文档中提取关键词的装置中，

所述排序单元，基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第二关键词集合的权重和所述关键词在所述第二关键词集合中的权重，计算所述关键词的权重，基于计算出的权重，对所述第一关键词集合进行重排序。

根据技术方案[4]，利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第二关键词集合的权重和关键词在第二关键词集合中的权重来对第一关键词集合进行重排序，能够有效地利用语料库中的信息对候选关键词进行排序，能够提高目标关键词的提取质量。

本发明的技术方案[5]，在技术方案[3]的从单文档中提取关键词的装置中，

所述关键词提取单元，从所述第二关键词集合中删除从所述第一关键词集合中提取出的关键词，从进行了删除的所述第二关键词集合中提取关键词。

根据技术方案[5]，通过从第二关键词集合中提取关键词，能够借助语料库来扩展关键词。这是因为，在某些情况下，存在虽然未存在于单文档中但仍与单文档的内容高度相关的关键词。通过将这样的关键词提取出来而进行扩充，也能够明显改进关键词的提取质量。

本发明的技术方案[6]，在技术方案[1]～[5]的从单文档中提取关键词的装置中，

所述关键句提取单元，从用户历史文档中提取与所述第一关键句集合中的关键句相似的句子作为第三关键句集合，

所述关键词提取单元，从所述第三关键句集合提取第三关键词集合，

所述装置还包括排序单元，其基于所述第三关键词集合，对所述第一关键词集合中的关键词进行重排序，

根据技术方案[6]，通过排序单元基于第三关键词集合对第一关键词集合中的关键词进行重排序，能够进一步提高目标关键词被提取的概率。其原因与使用语料库的原理相似。也就是说，借助用户历史文档中与单文档相关的信息，来对文档内关键词进行调整，能够相对提高目标关键词在排序中的位置，进而提高目标关键词被提取的概率，提取质量会明显提高。

本发明的技术方案[7]，在技术方案[6]的从单文档中提取关键词的装置中，

所述关键句提取单元，计算所述语料库中的句子与所述关键句的相似度，从所述语料库中提取相似度大于预先设定的第一阈值的句子，作为与所述关键句相似的句子，计算所述用户历史文档中的句子与所述关键句的相似度，从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子，作为与所述关键句相似的句子。

本发明的技术方案[8]，在技术方案[6]的从单文档中提取关键词的装置中，

所述排序单元，基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第三关键词集合的权重和所述关键词在所述第三关键词集合中的权重，计算所述关键词的权重，基于计算出的权重，对所述第一关键词集合进行重排序。

根据技术方案[8]，利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第三关键词集合的权重和关键词在第三关键词集合中的权重来对第一关键词集合进行重排序，能够有效地利用用户历史文档中的信息对候选关键词进行排序，能够提高目标关键词的提取质量。

本发明的技术方案[9]，在技术方案[6]的从单文档中提取关键词的装置中，

所述关键词提取单元，从所述第三关键词集合中删除从所述第一关键词集合中提取出的关键词，从进行了删除的所述第三关键词集合中提取关键词。

根据技术方案[9]，通过从第三关键词集合中提取关键词，能够借助用户历史文档来扩展关键词。通过将这样的关键词提取出来而进行扩充，能够明显改进关键词的提取质量。

本发明的技术方案[10]，提供一种从单文档中提取关键词的方法，包括：

从所述单文档中提取关键句的关键句提取步骤；以及

从所述关键句中提取关键词的关键词提取步骤。

根据技术方案[10]，通过提取单文档中的关键句，再从关键句中提取关键词，能够有效提高目标关键词的提取质量。一般情况下，出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词，而是从仅是文档所有句子的子集的关键句集合中进行提取，所以可以减少候选关键词的个数，这意味着目标关键词被提取的概率提高，提取质量也会明显提高。

本发明的技术方案[11]，在技术方案[10]的从单文档中提取关键词的方法中，还包括：

识别单文档的类别；

对所述单文档中的句子进行分类；

在所述关键句提取步骤中，提取所述单文档中的与所述单文档的类别相同的句子，作为第一关键句集合，

在所述关键词提取步骤中，从所述第一关键句集合中提取关键词。

根据技术方案[11]，在提取单文档中的与单文档的类别相同的句子作为关键句的情况下，关键句能够表征该文档的主要含义，因此能够更有效地提高目标关键词的提取质量。

本发明的技术方案[12]，在技术方案[11]的从单文档中提取关键词的方法中，

在所述关键词提取步骤中，从所述第一关键句集合中提取第一关键词集合，

所述关键句提取步骤还包括：从语料库中提取与所述第一关键句集合中的关键句相似的句子作为第二关键句集合，

所述关键词提取步骤还包括：从所述第二关键句集合提取第二关键词集合，

所述方法还包括：基于所述第二关键词集合，对所述第一关键词集合中的关键词进行重排序的重排序步骤；

在所述关键词提取步骤中，从重新排序后的第一关键词集合中提取关键词。

根据技术方案[12]，通过基于第二关键词集合对第一关键词集合中的关键词进行重排序，能够进一步提高目标关键词的提取质量。这是因为，在单个文档中，内容有限，缺乏足够信息来辅助提取目标关键词。在技术方案[12]中，借助语料库中与单文档相关的信息，来对文档内关键词进行调整，能够相对提高目标关键词在排序中的位置，进而提高目标关键词被提取的概率，提取质量会明显提高。

本发明的技术方案[13]，在技术方案[12]的从单文档中提取关键词的方法中，

所述重排序步骤包括：

基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第二关键词集合的权重和所述关键词在所述第二关键词集合中的权重，计算所述关键词的权重；以及

基于计算出的权重，对所述第一关键词集合进行重排序。

根据技术方案[13]，利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第二关键词集合的权重和关键词在第二关键词集合中的权重来对第一关键词集合进行重排序，能够有效地利用语料库中的信息对候选关键词进行排序，能够提高目标关键词的提取质量。

本发明的技术方案[14]，在技术方案[12]的从单文档中提取关键词的方法中，所述关键词提取步骤还包括：

从所述第二关键词集合中删除从所述第一关键词集合中提取出的关键词；以及

从进行了删除的所述第二关键词集合中提取关键词。

根据技术方案[14]，通过从第二关键词集合中提取关键词，能够借助语料库来扩展关键词。这是因为，在某些情况下，存在虽然未存在于单文档中但仍与单文档的内容高度相关的关键词。通过将这样的关键词提取出来而进行扩充，也能够明显改进关键词的提取质量。

本发明的技术方案[15]，在技术方案[10]～[14]的从单文档中提取关键词的方法中，

所述关键句提取步骤还包括：从用户历史文档中提取与所述第一关键句集合中的关键句相似的句子作为第三关键句集合，

所述关键词提取步骤还包括：从所述第三关键句集合提取第三关键词集合，

所述方法还包括：基于所述第三关键词集合，对所述第一关键词集合中的关键词进行重排序的重排序步骤，

根据技术方案[15]，通过基于第三关键词集合对第一关键词集合中的关键词进行重排序，能够进一步提高目标关键词被提取的概率。其原因与使用语料库的原理相似。也就是说，借助用户历史文档中与单文档相关的信息，来对文档内关键词进行调整，能够相对提高目标关键词在排序中的位置，进而提高目标关键词被提取的概率，提取质量会明显提高。

本发明的技术方案[16]，在技术方案[15]的从单文档中提取关键词的方法中，

从所述语料库中提取与所述第一关键句集合中的关键句相似的句子的步骤包括：

计算所述语料库中的句子与所述关键句的相似度；以及

从所述语料库中提取相似度大于预先设定的第一阈值的句子，作为与所述关键句相似的句子

从所述用户历史文档中提取与所述第一关键句集合中的关键句相似的句子的步骤包括：

计算所述用户历史文档中的句子与所述关键句的相似度；以及

从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子，作为与所述关键句相似的句子。

本发明的技术方案[17]，在技术方案[15]的从单文档中提取关键词的方法中，

所述重排序步骤包括：

基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第三关键词集合的权重和所述关键词在所述第三关键词集合中的权重，计算所述关键词的权重；以及

基于计算出的权重，对所述第一关键词集合进行重排序。

根据技术方案[17]，利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第三关键词集合的权重和关键词在第三关键词集合中的权重来对第一关键词集合进行重排序，能够有效地利用用户历史文档中的信息对候选关键词进行排序，能够提高目标关键词的提取质量。

本发明的技术方案[18]，在技术方案[15]的从单文档中提取关键词的方法中，所述关键词提取步骤还包括：

从所述第三关键词集合中删除从所述第一关键词集合中提取出的关键词；以及

从进行了删除的所述第三关键词集合中提取关键词。

根据技术方案[18]，通过从第三关键词集合中提取关键词，能够借助用户历史文档来扩展关键词。通过将这样的关键词提取出来而进行扩充，能够明显改进关键词的提取质量。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是本发明的一个实施方式的从单文档中提取关键词的方法的流程图；

图2是本发明的另一实施方式的从单文档中提取关键句的方法的流程图；

图3是本发明的图2的实施方式的从单文档中提取关键词的方法的关键词重排序处理的详细流程图；

图4是本发明的图2的实施方式的从单文档中提取关键词的方法的关键词扩展处理的详细流程图；

图5是本发明的另一实施方式的从单文档中提取关键词的装置的概略框图；

图6是本发明的另一实施方式的从单文档中提取关键词的装置的提取关键句所使用的单元的概略框图

具体实施方式

下面就结合附图对本发明的各个优选实施方式进行详细的说明。

从单文档中提取关键词的方法

图1是本发明的一个实施方式的从单文档中提取关键词的方法的流程图。

如图1所示，首先，在步骤S130中，提取单文档中的关键句作为第一关键句集合10。在本实施方式中，单文档可以是任何语言的任何类型的文档，本实施方式对此没有任何限制。

然后，进入步骤S140，从第一关键句集合10中提取目标关键词。

根据本实施方式的上述方法，通过提取单文档中的关键句，再从关键句中提取关键词，能够有效提高目标关键词的提取质量。一般情况下，出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词，而是从仅是文档所有句子的子集的关键句集合中进行提取，所以可以减少候选关键词的个数，这意味着目标关键词被提取的概率提高，提取质量也会明显提高。

在此，作为例子，假设单文档中有100句话，总共包含1000个不同的词，有20个目标关键词。去掉停用词的话(假设停用词占总词数的30％)，则剩余的700个词都是候选关键词。而目标关键词需要从700个候选关键词中选出。如果文档中有40句关键句，总共包含400个不同的词，去掉停用词以后，剩余的280个词是候选关键词，从280个候选关键词中正确选择出20个目标关键词的概率显然比从700个候选关键词中正确选择出20个目标关键词的概率大。

作为从单文档中提取关键句的方法，并不特别限定。例如，在提取关键句之前，如图2所示，可以还包括如下步骤：

在步骤S110中，识别单文档的类别。在本实施方式中，例如，预先使用文档分类器为单文档本身自动分配一个类别标签。文本分类器可以使用成熟的算法(SVM、NBM、VSM等)训练得到，也可以使用其他科研机构或组织提供的现成的工具，本实施方式对此没有任何限制。

接着，在步骤S120中，对所述单文档中的句子进行分类。在本实施方式中，例如，使用句子分类器，为单文档中的每个句子自动分配一个类别标签。句子分类器与文档分类器同样地，可以使用成熟的算法(SVM、NBM、VSM等)训练得到，也可以使用其他科研机构或组织提供的现成的工具，本实施方式对此没有任何限制。

在S110和S120的基础上，在步骤S130中，提取单文档中的与单文档的类别相同的句子，在本实施方式中，由于使用了类别标签，因此，选取单文档中的类别标签与单文档的类别标签相同的句子，作为第一关键句集合10。

在提取单文档中的与单文档的类别相同的句子作为关键句的情况下，关键句能够表征该文档的主要含义，因此能够更有效地提高目标关键词的提取质量。

在本实施方式中，优选在提取关键句之后，对基于第一关键句集合10的关键词进行重排序，再提取目标关键词。以下，参照图3进行说明。

如图3所示，在步骤S130之后，首先，在步骤S131b中，遍历第一关键句集合10，通过句子相似度算法(例如VSM)，计算在语料库中每个句子与第一关键句集合10中的句子的相似度。同样地，在步骤S131c中，遍历第一关键句集合10，通过句子相似度算法(例如VSM)，计算在用户历史文档中每个句子与第一关键句集合10中的句子的相似度。

接着，在步骤S132b中，从语料库中提取所计算出的相似度大于预先设定的阈值X的句子，作为第二关键句集合20，同样地，在步骤S132c中，从用户历史文档中提取所计算出的相似度大于预先设定的Y的句子，作为第三关键句集合30。对于X和Y，可以设为相同，也可以设为不同，根据需要设定即可。

通过预先设定阈值X和Y，能够准确地根据需要筛选语料库和用户历史文档中与单文档中的关键句相似的句子，这有助于提高目标关键词的提取质量。

接着，在步骤S133a中，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第一关键句集合10中，提取相应的带有权重的候选关键词集合即第一候选关键词集合11，同样地，在步骤S133b中，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第二关键句集合20中，提取相应的带有权重的第二候选关键词集合21，在步骤S133c中，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第三关键句集合30中，提取相应的带有权重的第三候选关键词集合31。

接着，在步骤S134，基于第二候选关键词集合21和第三候选关键词集合31，对第一候选关键词集合11进行重排序。

接着，进入步骤S140，从重新排序后的第一候选关键词集合11中提取目标关键词。

下面，对步骤S134中所采用的重排序的方法，以采用线性插值法为例，进行详细说明。

首先，对第一候选关键词集合11、第二候选关键词集合21以及第三候选关键词集合31分别赋予权重α、β、γ。设Score(ω in 11)表示某候选关键词在第一候选关键词集合11中的权重，Score(ω in 21)表示该候选关键词在第二候选关键词集合21中的权重，Score(ω in 31)表示该候选关键词在第三候选关键词集合31中的权重。并基于下式(4)，对第一候选关键词集合11中的每一个候选关键词进行计算：

Score(ω)＝α*Score(ω in 11)+β*Score(ω in 21)+γ*Score(ω in 31) (4)

之后，基于计算所得的综合权重Score(ω)，对第一候选关键词集合11中候选关键词进行重排序。

在单个文档中，内容有限，缺乏足够信息来辅助提取目标关键词。而在本实施方式中，通过如上所述基于第二候选关键词集合21以及第三候选关键词集合31对第一关键词集合11中的关键词进行重排序，借助语料库以及用户历史文档中与单文档相关的信息来对文档内关键词进行调整，能够相对提高目标关键词在排序中的位置，进一步提高目标关键词的提取质量。

另外，由于使用各预先确定的权重来进行重排序，因此，能够更有效地利用语料库和用户历史文档中的信息对候选关键词准确地进行排序，提高目标关键词的提取质量。

在本实施方式中，优选在进行重排序之后，进行关键词的扩展。以下，参照图4进行说明。

在将第一候选关键词集合11中候选关键词进行重排序即S134之后，如图4所示，在步骤S135，从第一候选关键词集合11中提取前N个候选关键词作为集合12。

接着，在步骤S136b中，从第二候选关键词集合21中删除包含在步骤S135中提取的集合12中的候选关键词，同样地，在步骤S136c中，从第三候选关键词集合31中删除包含在步骤S135中提取的集合12中的候选关键词。

接着，在步骤S137b中，从进行了删除的第二候选关键词集合21中，提取前M个候选关键词作为集合22，同样地，在步骤S137c中，从进行了删除的第三候选关键词集合31中，提取前V个候选关键词作为集合32。

接着，在步骤S138中，将集合12、22以及32合并，由此，得到最终的目标关键词集合。

在某些情况下，存在一些关键词，其虽然不存在于单文档中，但仍与单文档的内容高度相关。因此，在实施方式中，为了不遗漏掉上述关键词，优选将存在于语料库和用户历史文档中的与单文档的内容高度相关的关键词提取出来，与从单文档中提取出的关键词一并组成了最终的关键词集合。通过如此进行扩充，能够明显改进关键词的提取质量。

在上述实施方式中，以同时使用语料库和用户历史文档进行关键词的重排序和扩展关键词为例进行了说明，但是，也可以仅使用语料库和用户历史文档中的一方来进行关键词的重排序和扩展关键词。

另外，上述步骤的顺序并非固定的，例如，在本实施方式中，在识别单文档的类别(即S110)之后，对单文档中的句子进行分类(即S120)，但并不限于此，也可以在对单文档中的句子进行分类之后，再识别单文档的类别。

从单文档中提取关键词的装置

在同一发明构思下，图5和图6是根据本发明的另两个实施方式的从单文档中提取关键词的装置的方框图。下面就结合该图，对本实施方式进行描述。对于那些与前面实施方式相同的部分，适当省略其说明。

如图5所示，本实施方式的从单文档中提取关键词的装置(以下称为“关键词提取装置”)100包括：关键句提取单元103和关键词提取单元104。关键句提取单元103从单文档中提取关键句作为第一关键句集合10，关键词提取单元104从第一关键句集合10中提取关键词。

根据本实施方式的关键词提取装置100，通过提取单文档中的关键句，再从关键句中提取关键词，能够有效提高目标关键词的提取质量。一般情况下，出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词，而是从仅是文档所有句子的子集的关键句集合中进行提取，所以可以减少候选关键词的个数，这意味着目标关键词被提取的概率提高，提取质量也会明显提高。

另外，关键词提取装置100，如图6所示，可以还具备识别单元101和分类单元102。

识别单元101用于识别单文档的类别。在本实施方式中，例如，预先使用文档分类器为单文档本身自动分配一个类别标签。文本分类器可以使用成熟的算法(SVM、NBM、VSM等)训练得到，也可以使用其他科研机构或组织提供的现成的工具。文本分类器没有特别地限制，只要能对单文档进行分类即可。

分类单元102用于对单文档中的句子进行分类。在本实施方式中，例如，分类单元102可以是句子分类器，该句子分类器为单文档中的每个句子自动分配一个类别标签。句子分类器与文档分类器同样地，可以使用成熟的算法(SVM、NBM、VSM等)训练得到，也可以使用其他科研机构或组织提供的现成的工具。句子分类器没有特别地限制，只要能对单文档中每个句子进行分类即可。

关键句提取单元103，根据识别单元101的识别结果和分类单元102的分类结果，从单文档中提取与该单文档的类别相同的句子，作为第一关键句集合10。

此外，关键词提取装置100可以还包括排序单元105，该排序单元105对基于第一关键句集合10的关键词进行重排序。

首先，通过关键句提取单元103，遍历第一关键句集合10，通过句子相似度算法(例如VSM)，计算在语料库中每个句子与第一关键句集合10中的句子的相似度。同样地，通过关键句提取单元103，遍历第一关键句集合10，通过句子相似度算法(例如VSM)，计算在用户历史文档中每个句子与第一关键句集合10中的句子的相似度。

基于相似度的结果，从语料库中提取所计算出的相似度大于预先设定的阈值X的句子，作为第二关键句集合20，同样地，从用户历史文档中提取所计算出的相似度大于预先设定的Y的句子，作为第三关键句集合30。对于X和Y，可以设为相同，也可以设为不同，根据需要设定即可。

接着，关键词提取单元104，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第一关键句集合10中，提取相应的带有权重的候选关键词集合即第一候选关键词集合11，同样地，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第二关键句集合20中，提取相应的带有权重的第二候选关键词集合21，并且，采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等)，从第三关键句集合30中，提取相应的带有权重的第三候选关键词集合31。

接着，排序单元105基于通过关键词提取单元104提取出的第二候选关键词集合21和第三候选关键词集合31，对第一候选关键词集合11进行重排序。

接着，关键词提取单元104从重新排序后的第一候选关键词集合11中提取目标关键词。

下面，对排序单元105所采用的重排序的方法，以采用线性插值法为例，进行详细说明。

Score(ω)＝α*Score(ω in 11)+β*Score(ω in 21)+γ*Score(ω in 31) (4)

关键词提取单元104优选在进行重排序之后进行关键词的扩展。具体地，关键词提取单元104从第一候选关键词集合11中，提取前N个关键词作为集合12，并且，从第二候选关键词集合21和第三候选关键词集合31中分别删除集合12所包含的关键词，进而，从进行了删除的第二候选关键词集合21中，提取前M个候选关键词作为集合22，同样地，从进行了删除的第三候选关键词集合31中，提取前V个候选关键词作为集合32，将集合12、22以及32合并，得到最终的目标关键词集合。

在某些情况下，存在一些关键词，其虽然不存在于单文档中，但仍与单文档的内容高度相关。因此，在实施方式中，为了不遗漏掉上述关键词，优选将存在于语料库和用户历史文档中的与单文档的内容高度相关的关键词提取出来，与从单文档中提取出的关键词一并组成了最终的目标关键词集合。通过如此进行扩充，能够明显改进关键词的提取质量。

本发明的上述从单文档中提取关键词的装置及方法可以应用于自然语言处理的各个领域，例如机器翻译，文本摘要等，本发明对此没有任何限制。

以上，虽然通过一些示例性的实施方式详细地描述了本发明的从单文档中提取关键词的装置及方法，但是以上这些实施方式并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。本发明并不限于这些实施方式，本发明的范围仅由所附权利要求为准。

Claims

1.一种从单文档中提取关键词的装置，包括：

关键句提取单元，其从所述单文档中提取关键句；以及

关键词提取单元，其从所述关键句中提取关键词。

2.根据权利要求1所述的从单文档中提取关键词的装置，还包括：

识别单元，其识别所述单文档的类别；以及

分类单元，其对所述单文档中的句子进行分类；

所述关键词提取单元从所述第一关键句集合中提取关键词。

3.根据权利要求2所述的从单文档中提取关键词的装置，其中，

4.根据权利要求3所述的从单文档中提取关键词的装置，其中，

5.根据权利要求3所述的从单文档中提取关键词的装置，其中，

6.根据权利要求1至5中的任一项所述的从单文档中提取关键词的装置，其中，

7.根据权利要求6所述的从单文档中提取关键词的装置，其中，

所述关键句提取单元，

计算所述语料库中的句子与所述关键句的相似度，从所述语料库中提取相似度大于预先设定的第一阈值的句子，作为与所述关键句相似的句子，

计算所述用户历史文档中的句子与所述关键句的相似度，从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子，作为与所述关键句相似的句子。

8.根据权利要求6所述的从单文档中提取关键词的装置，其中，

9.根据权利要求6所述的从单文档中提取关键词的装置，其中，

10.一种从单文档中提取关键词的方法，包括：

从所述单文档中提取关键句；以及

从所述关键句中提取关键词。