CN103038764A

CN103038764A - 用于关键字提取的方法

Info

Publication number: CN103038764A
Application number: CN2010800661555A
Authority: CN
Inventors: 杨胜文; 熊宇红; 刘伟
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2010-04-14
Filing date: 2010-04-14
Publication date: 2013-04-10
Also published as: WO2011127655A1; US20130036076A1

Abstract

给出一种提取关键字的方法。所述方法包括：获得文档全集；确定作为关键字出现在存在于所述文档全集中的文档中的第一字集合；确定出现在所述文档全集中但是不一定作为关键字出现在所述文档中的第二字集合；以及通过组合第一字集合与第二字集合来确定所述文档的最终关键字集合。

Description

用于关键字提取的方法

背景技术

随着计算机和互联网的出现，世界已经经历了前所未有的信息爆炸。印刷品过去主导表示媒介的日子已经一去不复返了。互联网已经改变了人们消费数据的方式。找到现今所印刷的几乎所有其他文档的数字版本是非常常见的。这样大量的数字化虽然在许多方面极为有益，但是也有其自身的限制。总是存在找到正确的信息或数据的这一迫切问题。因此，文档搜索仍然是最具挑战性的研究领域之一。

关键字或关键字提供一种用于表征文本文档的有价值的机制。关键字提供一种在文档或文档全集（corpus）中搜索信息的有意义的方式。在传统上，关键字由作者、图书管理员、专业的索引编制员和编目员人工地指定。然而，随着每天成千上万的文档得到数字化，人工指定不再可能。基于计算机的自动关键字提取是这一问题的自然结果。在过去的几年里已经提出了许多种关键字提取方法。在一些方法中，所述问题被制定为有监督的分类问题，并且基于加标记的训练数据集对分类器进行训练。在一些其他方法中，关键字提取被制定为排序问题，并且根据一些度量对候选字进行排序。然而，现有方法具有其自身的限制。举例来说，现有方法没有明确地考虑候选关键字与文档之间的语义关系。此外，所提取的关键字受限于文档内容。

附图说明

为了更好地理解本发明，现在将纯粹通过示例的方式参照附图来描述实施例，其中：

图1示出根据一个实施例的计算机实施的关键字提取的方法的流程图。

图2示出根据一个实施例的图1的方法的一个子例程的流程图。

图3示出根据一个实施例的图1的方法的另一子例程的流程图。

图4示出可以在其上实施一个实施例的计算机系统400的框图。

具体实施方式

在包括附图在内的整个本文档中，下面的术语可以被互换地使用。

（a）“关键字”和“关键短语”

（b）“文档”和“电子文档”。

本发明的实施例提供用于从可能存在于文档全集中的文档提取关键字的方法、计算机可执行代码和计算机存储介质。具体来说，所公开的方法涉及文档内关键字提取方法和全集内关键字提取方法。前者提取出现在单个文档内的关键字；后者提取出现在全集内（可能未出现在所述文档内）的关键字。

图1示出根据一个实施例的提取关键字的方法100的流程图。方法100可以在计算机系统（或计算机可读介质）上被执行。

所述方法开始于步骤110。在步骤110中，获得或访问文档全集。所述文档全集可以从储存库获得，所述储存库可以是电子数据库。所述电子数据库可以是内部数据库（例如公司的内联网）或者外部数据库（例如维基百科（Wikipedia））。此外，所述电子数据库可以被存储在独立的个人计算机上，或者可以分散在利用有线或无线技术联网在一起的许多计算机器上。举例来说，所述电子数据库可以被寄放（host）在通过广域网（WAN）或互联网连接的许多服务器上。

在步骤120中，从文档全集中选择文档，并且确定作为关键字出现在所述文档中的字集合。在选择作为关键字出现在所述文档中的字集合中所涉及的方法步骤在下面参照图2被更详细地描述。在本步骤中，只要说可以选择存在于文档全集中的任何文档并且可以确定作为关键字出现在所述文档中的第一字集合就够了。此外，可以针对存在于文档全集中的任何数目的文档来重复本步骤。

在步骤130中，可以确定出现在文档全集中的字集合。这样的字集合可能不一定出现在步骤120中所选择的文档中。在确定出现在文档全集中但是可能不一定作为关键字出现在较早所选的文档中的第二字集合中所涉及的方法步骤在下面参照图3被更详细地描述。本步骤130是关于文档全集而执行的。

在步骤140中，确定所述文档的最终关键字集合。该步骤涉及把在步骤120中确定的第一字集合与在步骤120中确定的第二字集合相组合。一旦完成了对于步骤120和130所概述的方法步骤，就出现了被一起用来确定在步骤120中所选择的文档的最终关键字集合的两个关键字集合。

图2示出根据一个实施例的图1的方法的一个子例程的流程图。该流程图详细地描述方法步骤120。所述子例程可以被称作文档内关键字提取方法。在一个实施例中，所述方法涉及下列模块：统计话题建模的学习，统计话题建模的推断，名词短语分块，以及基于话题的名词短语评分。如下利用在下面的表1中提供的用在其中的标记法来描述所述方法的主要步骤。

表1

标记法

在步骤210中，通过利用统计话题建模方法，对于文档全集D学习话题模型。可以使用任何统计话题建模方法，例如但不限于概率潜在语义分析（PLSA）和潜在狄利克雷分配（LDA），其由{P(w|z)}w,z即字W关于话题Z的多项式分布集合以及可选地{P(z|d)}z,d即话题Z关于文档D的多项式分布集合来表示。可选地，可以执行预处理步骤，其可以包括无用字去除、字干处理（word stemming）、以及将全集变换成字与文档的矩阵（word by document matrix）。可以对于文档全集仅仅执行一次步骤210。一旦学习了模型，就可以将其直接应用于后面的步骤。

在步骤220中，对于给定的文档，根据所述统计话题模型来推断话题关于文档的多项式分布，以确定文档的主要话题。为了说明起见，在一个实施例中，对于文档d，根据所学习到的模型（在步骤210中）推断话题Z关于文档d的分布，即{P(z|d)}z，其被用来通过挑选具有最大概率的前k个话题来确定所述文档的主要话题T，即T=argtopzP(z|d)。

在步骤230中，确定话题关于文档中的字的后验概率，并且使用所述后验概率来将话题指派给文档中的字，从而产生以三元组的形式的加标记的字的集合。在一个实施例中，计算话题关于文档中的字的后验概率，即{P(z|d,w)}z,w，其被用来通过对于每个字挑选具有最大后验概率的话题来将话题指派给字，即z*d,w =argmaxz P(z|d,w)，从而产生以三元组<w,z*,P(z*|d,w)>的形式的加标记的字的集合。

在步骤240中，通过利用名词短语分块方法从相同的文档中提取名词短语集合。所述步骤可以可选地包括用于过滤前置冠词（例如“一个”、“一”、“所述”）和代词（例如“他的”、“她的”、“你的”、“那个”、“那些”等等）的后处理步骤。

在步骤250中，根据利用主要话题T进行标记的字的出现率，对所提取的名词短语进行评分，并且按照降序进行排序。

评分方法可以是各种各样的。举例来说，在一个实施例中，可以把利用文档的主要话题进行标记的字的后验概率进行总计以作为名词短语的得分。在另一实施例中，可以通过优选二字或三字名词短语而将名词短语的长度看作评分因素。

在步骤260中，提供具有最高得分的前m个名词短语以作为输出。所述输出是作为文档的关键字出现的第一字集合。

图3示出根据一个实施例的图1的方法的另一子例程的流程图。所述流程图详细地描述方法步骤130。所述子例程可以被称作全集内关键字提取方法。所述方法提取可能出现在全集中但是可能不一定出现在特定文档中的关键字。所述方法的步骤被描述如下。

在步骤310中，学习关于文档全集的统计话题模型。任何统计话题建模方法，例如但不限于概率潜在语义分析（PLSA）和潜在狄利克雷分配（LDA），可以被利用以用于学习统计话题模型。

一旦确定了统计话题模型，就对全集中的每个文档执行下列步骤。

在步骤320中，对于全集中的每个文档，确定话题关于字的后验分布并且使用所述后验分布来将话题指派给字，从而产生以三元组<字，话题，概率>的形式的加标记的字的集合。

在步骤330中，对于全集中的每个文档，通过利用名词短语分块方法从文档中提取名词短语。可选地，可以执行如较早所述的去除冠词和代词的后处理步骤，从而产生名词短语集合。

在步骤340中，为每个提取的名词短语加标记，这是通过根据所述三元组将每个字与话题和权重相关联来实现的。这产生三元组序列。加标记的名词短语的输出被提供到储存库中。所述储存库可以是电子数据库。

在步骤350中，从储存库中读出加标记的名词短语，并且借助于索引引擎对其编制索引。在编制索引时，索引引擎可以对所述三元组序列以下述方式进行组织，所述方式支持基于字的搜索和基于话题的搜索，并且通过将所述概率看作评分因素而支持结果排序（步骤360）。Apache Lucene索引引擎尤其可以被定制以执行这一任务。

在步骤370中，对于文档的主要话题，构造串查询。这可以通过按照布尔逻辑级联文档的主要话题并且随后将所述串查询提交到索引引擎来完成。这产生经匹配的名词短语的已排序列表。前n个名词短语作为所述文档的关键字被返回。这些是出现在文档全集中但是可能不一定出现在所述文档中的第二字集合。

图4示出可以在其上实施一个实施例的计算机系统400的框图。计算机系统400包括处理器410、存储介质420、系统存储器430、监视器440、键盘450、鼠标460、网络接口420和视频适配器480。这些部件通过系统总线490被耦合在一起。

存储介质420（例如硬盘）存储许多程序，其包括操作系统、应用程序以及其他程序模块。用户可以通过诸如键盘450、触摸板（未示出）和鼠标460之类的输入设备将命令和信息输入到计算机系统400中。监视器440被用来显示文本和图形信息。

操作系统运行在处理器410上，并且被用来协调和提供对图4中的个人计算机系统400内的各种部件的控制。此外，计算机程序可以被使用在计算机系统400上以实施上面所描述的各种实施例。

将会认识到，图4中描绘的硬件部件仅仅是为了进行说明，并且实际的部件可以取决于为了实施本发明所部署的计算设备而变化。

此外，计算机系统400例如可以是台式计算机、服务器计算机、膝上型计算机、或者诸如移动电话、个人数字助理（PDA）、手持式计算机等等之类的无线设备。

所描述的实施例提供一种从文档中提取关键字的有效方式，这是通过利用提取高质量关键字候选的名词短语分块技术和分析文本文档的潜在话题的统计话题建模技术来实现的。所述实施例通过把关键字候选与文档之间的话题相关性看作评分因素来对关键字候选进行排序。通过将文档内方法与全集内方法相组合，生成文档内关键字集合和文档外关键字集合。

将会认识到，可以按照包括计算机可执行指令（例如程序代码）的计算机程序产品的形式来实施在本发明的范围内的实施例，所述计算机可执行指令可以结合合适的操作系统（例如Microsoft Windows、Linux或UNIX操作系统）来运行在任何合适的计算环境中。在本发明的范围内的实施例还可以包括程序产品，所述程序产品包括用于在其上携带或存储计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是能够由通用或专用计算机访问的任何可用介质。举例来说，这样的计算机可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM、磁盘存储或其他存储设备、或者可以被用来以计算机可执行指令的形式携带或存储所期望的程序代码并且可以由通用或专用计算机访问的任何其他介质。

应当注意，本发明的上述实施例仅仅是为了进行说明。虽然已经结合其特定实施例描述了本发明，但是本领域技术人员将认识到，在没有实质上背离在这里所描述的主题的教导和优点的情况下，许多修改是可能的。在不背离本发明的精神的情况下可以做出其他替换、修改和改变。

Claims

1. 一种计算机实施的提取关键字的方法，包括：

获得文档全集；

确定作为关键字出现在存在于所述文档全集中的文档中的第一字集合；

确定出现在所述文档全集中但是不一定作为关键字出现在所述文档中的第二字集合；以及

通过组合第一字集合与第二字集合来确定所述文档的最终关键字集合。

2. 根据权利要求1所述的方法，其中，确定作为关键字出现在文档中的第一字集合的所述步骤包括：

学习关于所述文档全集的统计话题模型；

关于所述文档，根据所述统计话题模型来推断话题关于所述文档的多项式分布，以确定所述文档的主要话题；

确定话题关于所述文档中的字的后验分布以将话题指派给所述文档中的字，从而产生以三元组的形式的加标记的字的集合；

通过利用名词短语分块方法从所述文档中提取名词短语；

根据利用所述主要话题进行标记的字的出现率，对所述名词短语进行评分；

按照降序对所述名词短语进行排序；以及

将具有最高得分的靠前名词短语输出为作为所述文档的关键字出现的第一字集合。

3. 根据权利要求2所述的方法，在所述学习步骤之前还包括预处理步骤，所述预处理步骤包括：

去除无用字；

字干处理；以及

将所述文档全集变换成字与文档的矩阵。

4. 根据权利要求2所述的方法，其中，所述统计话题模型由字关于话题的多项式分布集合来表示，并且可选地由话题关于所述文档全集的多项式分布集合来表示。

5. 根据权利要求2所述的方法，其中，通过概率潜在语义分析（PLSA）或潜在狄利克雷分配（LDA）统计话题建模方法来学习所述统计话题模型。

6. 根据权利要求2所述的方法，其中，确定所述文档的主要话题包括：选择具有最大概率的话题。

7. 根据权利要求2所述的方法，其中，以三元组的形式的所述加标记的字的集合被表示为<字，话题，概率>。

8. 根据权利要求2所述的方法，在所述评分步骤之前还包括用于过滤前置冠词的预处理步骤。

9. 根据权利要求1所述的方法，其中，确定出现在所述文档全集中的第二字集合的所述步骤包括：

学习关于所述文档全集的统计话题模型；

对于所述全集中的每个文档，确定话题关于字的后验分布以将话题指派给字，从而产生以三元组的形式的加标记的字的集合；

对于所述全集中的每个文档，通过利用名词短语分块方法从所述文档中提取名词短语；

通过根据所述三元组将每个字与话题和权重相关联来为每个提取的名词短语加标记；以及

将加标记的名词短语输出到储存库中。

10. 根据权利要求9所述的方法，还包括：从所述储存库中读出加标记的名词短语并且利用索引引擎对所述名词短语编制索引。

11. 根据权利要求10所述的方法，还包括：

对于所述文档的主要话题，通过按照布尔逻辑级联所述文档的主要话题来构造串查询；以及

将所述串查询提交到所述索引引擎，从而产生经匹配的名词短语的已排序列表，其中靠前的名词短语是出现在所述文档全集中的第二字集合。

12. 根据权利要求1所述的方法，其中，所述文档全集是从储存库获得的。

13. 一种系统，包括：

处理器；以及

耦合到所述处理器的存储器，其中所述存储器包括用于执行下列操作的指令：

获得文档全集；

14. 一种包括计算机程序装置的计算机程序，当所述程序在计算机上运行时，所述计算机程序装置适于执行权利要求1的所有步骤。

15. 根据权利要求14所述的计算机程序，其被具体实现在计算机可读介质上。