CN101872363A

CN101872363A - 一种抽取关键词的方法

Info

Publication number: CN101872363A
Application number: CN 201010218156
Authority: CN
Inventors: 李蕾; 王骏; 刘冬雪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2010-06-24
Filing date: 2010-06-24
Publication date: 2010-10-27
Anticipated expiration: 2030-06-24
Also published as: CN101872363B

Abstract

本发明公开了一种抽取关键词的方法，应用于关键词长度较长、且内容较新的文本，该方法包括：首先，将通过现有方法抽取出的所有关键词作为候选关键词集；其次；通过考查各个候选关键词在文本中的关联度，将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集；最后，将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值，而且还考虑了词语在文本中的关联度，因此，对于关键词长度较长、且内容较新的文本来说，采用本发明抽取关键词的方法能够准确地抽取出其中长度较长的关键词，提高了抽取关键词的准确度。

Description

一种抽取关键词的方法

技术领域

本发明涉及词语处理技术领域，特别涉及一种抽取关键词的方法。

背景技术

抽取关键词即将非结构化的文本信息进行结构化处理，创建结构化的信息知识库，而关键词又是最能体现一个特定领域中的具有代表意义的词语，是信息管理、检索、文本自动分类聚类等方面的重要资源。因此，如何抽取关键词成了对信息进行有效管理和利用的当务之急。

图1为现有对文本进行抽取关键词方法的工作流程图。如图1所示，该流程包括以下步骤：

步骤101：对文本进行预处理，得到候选词语集。

在本步骤中，需要对输入的文本进行预处理，具体实现可以为：首先，对文本中的每一个文本句进行中文分词，将输入的文本转换为该文本中所有的词语；然后，对中文分词后得到的每一个词语分别进行词性标注；最后，去除文本中标点符号、以及其中的一些停用词等。

需要说明的是，文本中的词语的词性主要有名词、名词短语、动词、动词短语和修饰词等几种，对词语进行词性标注即将得到的词语分别标注上其在文本中所对应的词性。在经过上述预处理后，即可将词性标注后的所有词语作为候选词语集。然而，对于不同类型的文本，所得到的候选词语集可能会出现不同的情况，例如，当文本为科技类文献时，科技类文献中的修饰词一般很少，且其中的内容主要由名词和动词体现，因而只需将标注为名词和动词的词语作为候选词语即可，实际中应依据文本的类型确定将何种词性的词语作为候选词语。

还需说明的是，具体的中文分词以及去除标点和停用词等操作均为现有技术，这里不再赘述。

步骤102：分别统计每个候选词语的总权值，并按照总权值由大到小的顺序对候选词语集进行排序。

一般情况下，在整个文本的层次上，标题，摘要和结论部分的重要程度较高；在文本中每一段落的层次上，第一句话的重要程度较高，因而，在文本中不同位置的词语的重要程度是不同的。特别地，在行文严谨的科技文献中，这种区域特征尤为明显，一般在标题中就明确点出了研究对象，包含了相当的关键词，文章的开头也会简要介绍一下研究的主要内容，其中亦包含不少关键词。此外，词语的词频也是在进行抽取关键词时需要考虑的一个很重要的方面。

因此，在本步骤中，是通过候选词语的位置和词频来计算每个候选词语的总权值的，具体计算方式可以为：对于每一个候选词语，在标题、摘要和结论中每出现一次，将其赋予权值40；在段落的第一句话每出现一次，将其赋予权值20；在文本中除标题、摘要、结论和段落的第一句话中每出现一次，将其赋予权值10；然后，将每一个候选词语被赋予的各个权值进行求和，得到每一个候选词语的总权值。

步骤103：将总权值最大的前m个候选词语的集合作为关键词集。

在本步骤中，关键词集中关键词的个数m可依据实际需要而定，所述m为自然数。对于关键词长度较短、且词语较常见的文本来说，经过实验分析，m取5即可达到比较好的抽取结果。

至此，即得到了现有所采用的对关键词进行抽取的整个工作流程。下面举两个例子说明采用现有方法对文本进行抽取关键词的结果，如下：

第一个例子采用的是关键词长度较短、且词语较常见的文本“钢筋滚压直螺纹连接生产技术”，给定的关键词集分别为：钢筋、螺纹、滚压和连接。当m＝5时，通过现有方法抽取出的关键词集及各个关键词的总权值依次为：方法50；技术60；钢筋70；连接100；螺纹160。

第二个例子采用的是关键词长度较长、且内容较新的文本“西门塔尔牛选育方法研究”，给定的关键词集分别为：中国西门塔尔牛、系统选育程序、黄牛改良、开放核心群育种法(ONBS)和育种目标。当m＝5时，通过现有方法抽取出的关键词集及各个关键词的总权值依次为：中国180；改良190；塔尔260；西门290；牛490。

通过上述抽取结果可以看出，对于关键词长度较短、且词语较常见的文本来说，采用现有对文本进行抽取关键词的方法即能够达到比较高的抽取准确度；而对于关键词长度较长、且内容较新的文本来说，采用现有方法对关键词进行抽取时，由于关键词长度较长，在进行中文分词时很可能会被分成多个词语，使得较长的关键词不能被正确地抽取出来，因而导致抽取结果非常不理想。

发明内容

有鉴于此，本发明提供了一种抽取关键词的方法，对于关键词长度较长、且内容较新的文本来说，提高了抽取关键词的准确度。

为达到上述目的，本发明的技术方案具体是这样实现的：

一种抽取关键词的方法，该方法包括：

对文本进行预处理，得到候选词语集；

根据候选词语集中每个候选词语总权值的大小，得到候选关键词集；

在得到所述候选关键词集后，该方法还包括：

将文本中的第一个词语作为当前词语，

A.当当前词语不是文本中的最后一个词语时，判断当前词语是否为候选关键词集中的词语，

如果是，执行步骤B；

否则，将当前词语的下一个词语作为当前词语，返回执行步骤A，直至当前词语为文本中的最后一个词语时，执行步骤D；

B.将当前词语作为当前候选未登录词，并将当前词语的下一个词语作为当前词语，判断当前词语是否为候选关键词集中的词语，

如果是，执行步骤C；

C.将所述当前候选未登录词与当前词语的组合作为当前候选未登录词，并将当前词语的下一个词语作为当前词语，判断当前词语是否为候选关键词集中的词语，

如果是，返回执行步骤C；

否则，将当前候选未登录词作为候选未登录词，并将当前词语的下一个词语作为当前词语，返回执行步骤A，直至当前词语为文本中的最后一个词语时，执行步骤D；

D.将候选未登录词按照频数由高到低的顺序进行排序，得到候选未登录词集；

将候选关键词集中前n1个总权值最大的候选关键词和候选未登录词集中前n2个频数最高的候选未登录词的集合作为关键词集，所述n1和n2为自然数。

所述根据候选词语集中每个候选词语总权值的大小，得到候选关键词集包括：

根据候选词语在文本中的位置和频数分别统计每个候选词语的总权值；

按照总权值由大到小的顺序对候选词语集进行排序；

将总权值最大的前m个候选词语的集合作为候选关键词集，所述m为自然数。

所述文本中的位置包括文本的标题、摘要、结论，文本中段落的第一句话，以及文本中除文本的标题、摘要、结论和文本中段落的第一句话的其它部分。

所述根据候选词语在文本中的位置和频数分别统计每个候选词语的总权值包括：

当所述候选词语位于文本的标题、摘要、结论一次时，将所述候选词语赋予权值40；当所述候选词语位于文本中段落的第一句话一次时，将所述候选词语赋予权值20；当所述候选词语位于文本中除文本的标题、摘要、结论和文本中段落的第一句话的其它部分一次时，将所述候选词语赋予权值10；

将所述候选词被赋予的各个权值进行求和，得到所述候选词语的总权值。

所述将所述当前候选未登录词与当前词语的组合作为当前候选未登录词包括：将所述当前候选未登录词与当前词语按照文本中出现的顺序叠加组合为一个词语，作为当前候选未登录词。

综上，本发明所采用的抽取关键词的方法，将通过现有方法抽取出的所有关键词作为候选关键词集，并通过考查各个候选关键词在文本中的关联度，将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集；最后，将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值，而且还考虑了词语在文本中的关联度，因此，对于关键词长度较长、且内容较新的文本来说，能够准确地抽取出其中长度较长的关键词，从而提高了抽取关键词的准确度。

附图说明

图1为现有所采用的抽取关键词方法的工作流程图；

图2为本发明实施例发现候选未登录词方法的工作流程图；

图3为本发明实施例顺序叠加组合词语的原理示意图。

具体实施方式

为解决现有技术中存在的问题，本发明提出了一种新的抽取关键词的方法，即将通过现有方法抽取出的所有关键词作为候选关键词集，并通过考查各个候选关键词在文本中的关联度，将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集；最后，将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值，而且还考虑了词语在文本中的关联度，因此，对于关键词长度较长、且内容较新的文本来说，能够准确地抽取出其中长度较长的关键词，从而提高了抽取关键词的准确度。

在介绍具体的实现方案之前，首先介绍一下未登录词的概念。未登录词是指在文本中出现但并没有被收录在词典中的词语，如新出现的词语，这些词语在进行中文分词时会被分成多个词语。

基于上述介绍，本发明所述方案的具体实现包括：

对文本进行预处理，得到候选词语集；根据候选词语集中每个候选词语总权值的大小，得到候选关键词集；

在得到所述候选关键词集后，该方法还包括：将文本中的第一个词语作为当前词语，

如果是，执行步骤B；

如果是，执行步骤C；

如果是，返回执行步骤C；

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

需要说明的是，在实施例中，首先，需要采用图1所示的现有抽取关键词的方法对文本抽取关键词，并将通过上述方法抽取出的关键词集作为候选关键词集；进一步地，从候选关键词集中发现候选未登录词集；最后，将通过现有方法抽取出的部分候选关键词集以及发现的部分候选未登录词集作为本发明最终抽取的关键词集。

还需说明的是，在本实施例中，当图1中的m＝15时，能够达到比较好的抽取结果。在实际中，m还可取其它值，以不影响本发明实施例的实现为准。

由于图1所述方法在前面已经介绍过，这里不再赘述。下面详细介绍本发明所采用的发现候选未登录词的方法，该方法是从文本的开始处，即从文本的第一个词语开始进行查找，并将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集的。如图2所示，该方法具体可包括以下步骤：

步骤201：将文本的第一个词语作为当前词语。

步骤202：判断当前词语是否为文本中最后一个词语，如果是，则结束发现候选未登录词方法的整个工作流程；否则，执行步骤203。

步骤203：判断当前词语是否为候选关键词，如果是，执行步骤204；否则，执行步骤209。

步骤204：将当前词语作为当前候选未登录词，并将当前词语的下一个词语作为当前词语。

步骤205：判断当前词语是否为候选关键词，如果是，执行步骤206；否则，执行步骤209。

步骤206：将当前词语与当前候选未登录词的叠加组合作为当前候选未登录词，并将当前词语的下一个词语作为当前词语。

需要说明的是，在本步骤中，如果当前词语和当前词语的前几个相邻的词语都为候选关键词，则可将所有这几个相邻的候选关键词按照文本中出现的顺序叠加组合为一个词语，并将这个词语作为当前候选未登录词。

顺序叠加组合词语的具体处理方式可参见图3，在图3中，W1、W2、W3、W4和Wn均为文本中的词语，且它们在文本中是相邻的，当W1为候选关键词中的词语，且W2也为候选关键词中的词语时，将W1W2作为一个词语输出；再继续判断W3是否为候选关键词中的词语，当W3也为候选关键词中的词语时，将W1W2W3作为一个词语输出；再继续判断W4是否为候选关键词中的词语，当判断出W4不是候选关键词中的词语时，最后输出的W1W2W3即可作为本步骤中的当前候选未登录词。

步骤207：判断当前词语是否为候选关键词，如果是，返回执行步骤206；否则，执行步骤208。

步骤208：将当前候选未登录词作为候选未登录词。

步骤209：将当前词语的下一个词语作为当前词语，并返回执行步骤202，直至当前词语为文本中的最后一个词语。

至此，即得到了本发明所采用的发现候选未登录词方法的整个工作流程。在通过图2所述方法得到文本中的候选未登录词集后，对发现的所有候选未登录词按照词语频数由高到低的顺序进行排序；进一步地，还需结合图1中所得到的候选关键词集，得到本发明最终抽取出的关键词集。

在本实施例中，得到本发明最终抽取出的关键词集具体可以为：将排好序的候选关键词集中前n1个总权值最大的候选关键词和排好序的候选未登录词集中前n2个频数最高的候选未登录词的集合作为最终抽取出的关键词集，其中，所述n1和n2为自然数。根据实验分析，对于一般关键词长度较长、且内容较新的文本来说，n1＝4、n2＝2即能达到比较好的抽取结果，实际中，n1和n2还可以取其它值，以不影响本发明实施例的实现为准。

为了同现有对文本进行抽取关键词的方法进行比较，在本实施例中，同样以“西门塔尔牛选育方法研究”这一文本为例，给定的关键词集依然为：中国西门塔尔牛、系统选育程序、黄牛改良、ONBS和育种目标。当图1中的m＝15，且n1＝4、n2＝6时，通过本发明方法抽取出的6个关键词分别为：塔尔西门改良中国中国西门塔尔西门塔尔。

通过上述抽取结果可以看出，对于关键词长度较长、且内容较新的文本来说，采用本发明方法能够达到比较好的抽取结果。

然而，在采用本发明方法发现候选未登录词集时，仅仅是通过考虑各个候选关键词之间的关联度来实现的，而并没有考虑各个候选关键词之间的其它信息，从而导致发现的候选未登录词集可能并不是很准确。具体如何提高发现的候选未登录词集的准确度不是本发明所要解决的问题，故不再赘述。

综上所述，本发明所采用的抽取关键词的方法，是将通过现有方法抽取出的所有关键词作为候选关键词集，并通过考查各个候选关键词在文本中的关联度，将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集；最后，将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值，而且还考虑了词语在文本中的关联度，因此，对于关键词长度较长、且内容较新的文本来说，能够准确地抽取出其中长度较长的关键词，从而提高了抽取关键词的准确度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种抽取关键词的方法，该方法包括：

对文本进行预处理，得到候选词语集；

其特征在于，在得到所述候选关键词集后，该方法还包括：

将文本中的第一个词语作为当前词语，

如果是，执行步骤B；

如果是，执行步骤C；

如果是，返回执行步骤C；

2.根据权利要求1所述的方法，其特征在于，所述根据候选词语集中每个候选词语总权值的大小，得到候选关键词集包括：

按照总权值由大到小的顺序对候选词语集进行排序；

3.根据权利要求2所述的方法，其特征在于，所述文本中的位置包括文本的标题、摘要、结论，文本中段落的第一句话，以及文本中除文本的标题、摘要、结论和文本中段落的第一句话的其它部分。

4.根据权利要求3所述的方法，其特征在于，所述根据候选词语在文本中的位置和频数分别统计每个候选词语的总权值包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述当前候选未登录词与当前词语的组合作为当前候选未登录词包括：

将所述当前候选未登录词与当前词语按照文本中出现的顺序叠加组合为一个词语，作为当前候选未登录词。

6.根据权利要求2所述的方法，其特征在于，所述m＝15。

7.根据权利要求6所述的方法，其特征在于，所述n1＝4，所述n2＝2。