CN103150388A

CN103150388A - 一种提取关键词的方法及装置

Info

Publication number: CN103150388A
Application number: CN2013100924039A
Authority: CN
Inventors: 韩建波
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2013-03-21
Filing date: 2013-03-21
Publication date: 2013-06-12

Abstract

本发明公开了一种提取关键词的方法。所述方法包括：获取对应有权重值的词语；根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原；利用义原对各词语的权重值进行校正；根据校正后的权重值从词语中确定关键词。该方法能够将出现频率低但与主题非常相关的词确定为关键词，并且提高了文本内容获取的效率和关键词的置信度。本发明还公开了用于实现所述方法的装置。

Description

一种提取关键词的方法及装置

技术领域

本发明涉及文本检索技术领域，尤其涉及一种提取关键词的方法及装置。

背景技术

随着计算机及互联网技术的发展，文本的数据规模越来越大，信息量的增长速度也越来越快。人们面对海量的文本信息，如何在浩如烟海的文本信息中获取需要的文本，是我们在日常学习工作中经常遇到的问题。

要在海量的文本中找到用户需求的信息，提取关键词是非常重要的方法，提取关键词，是指利用计算机在文本中提取出与文本内容相关程度较高的一些词语。提取关键词的精度直接影响到文本内容获取的效率和关键词的置信度。

本申请的发明人发现，目前，提取关键词一般通过词频、位置、词性、长度等因素对文本中每个词进行线性加权，权重最高的几个词为关键词。但是，如果在文本中的某个词出现的频率比较低，但与主题非常相关，则无法将该词作为关键词。

发明内容

本发明实施例提供一种提取关键词的方法及装置，能够将出现频率低但与主题非常相关的词确定为关键词，并且提高了文本内容获取的效率和关键词的置信度。

一种提取关键词的方法，包括以下步骤：获取对应有权重值的词语；根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原；利用义原对各词语的权重值进行校正；根据校正后的权重值从词语中提取关键词。在本实施例中，通过义原的比较对各词语的权重值进行校正，提高了提取出的关键词的置信度，能够将出现频率低但与主题非常相关的词确定为关键词。

优选的，所述利用义原对各词语的权重值进行校正的步骤包括：根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。在本实施例中，根据义原的重复程度对各词语的权重值进行平滑，可以使校正后各词语的权重值更能体现文本中所要突出展现的内容，极大地提高了关键词的置信度。

优选的，所述利用义原对各词语的权重值进行校正的步骤包括：将对应有权重值的词语进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高这两个词语的权重值。在本实施例中，直接按照相同义原的数量提高进行比较的两个词语的权重值，这样使校正权重值的过程更加简单明了，并提高了提取关键词的效率。

优选的，所述利用义原对各词语的权重值进行校正的步骤包括：对有权重值的词语的义原进行聚类分析；通过聚类分析将文本中的词语划分为不同的类别；提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。在本实施例中，通过聚类分析的方式将各词语的义原分类，这样可以更加全面的展现文本的核心所在，突破现有的通过词频、位置、词性、长度等因素得到各词权重的壁垒，通过本方法将出现频率低但与主题非常相关的词确定为关键词。

优选的，所述利用义原对各词语的权重值进行校正的方法还包括：将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。在本实施例中，通过聚类分析后，直接提取关键词的方法，提高了提取关键词的效率，省去了对对各词语权重值进行平滑的时间。

优选的，所述利用义原对各词语的权重值进行校正的步骤包括：将候选词与预设关键词进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高候选词的权重值。在本实施例中，通过有针对性地对候选词的权重值进行平滑，可以将更符合文本核心所在的词语提取为关键词，使最终提取出的关键词的置信度有所保证。

本实施例提供一种提取关键词的装置，包括：

获取模块，用于获取对应有权重值的词语，并根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原；

校正模块，用于利用义原对各词语的权重值进行校正；

提取模块，用于根据校正后的权重值从词语中提取关键词。

优选的，校正模块根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。

优选的，校正模块将对应有权重值的词语进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高这两个词语的权重值。

优选的，校正模块对有权重值的词语的义原进行聚类分析；通过聚类分析将文本中的词语划分为不同的类别；提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。

优选的，提取模块将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。

优选的，校正模块将候选词与预设关键词进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高候选词的权重值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获取。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中提取关键词方法的主要流程流程图；

图2为本发明实施例中对各词的权重值进行校正的第一优选实施例的详细流程图；

图3为本发明实施例中对各词的权重值进行校正的第二优选实施例的详细流程图；

图4为本发明实施例中对各词的权重值进行校正的第三优选实施例的详细流程图；

图5为本发明实施例中提取关键词装置的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

目前，提取关键词一般通过词频、位置、词性、长度等因素对文本中每个词进行线性加权，权重最高的几个词为关键词。但是，如果在文本中的某个词出现的频率比较低，但与主题非常相关，则无法将该词作为关键词。为解决该问题，在本实施例中，先通过词频、位置、词性、长度等因素得到各词的权重，然后对该权重进行校正。对各词的权重进行校正后，即可将出现频率低但与主题非常相关的词确定为关键词，并且提高了文本内容获取的效率和关键词的置信度。

参见图1，本实施例中提取关键词的方法的主要流程如下：

步骤101：获取对应有权重值的词语。

对文本中所有的实词进行线性加权，获取各词语的权重值。

实词是具有实在意义的词语，它可以单独充当句子的任何一个成分。这就是说：首先，这类词语在不与其他任何词语发生语法关系的情况下能够单独表达一个意思或反映某种意象。其次，这类词语具有成为句子的潜在能力，或者说，这类词语有可能成为句子而表达一个完整的意思，如名词等。

步骤102：根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原。

大体上说，义原是最基本的、不易于再分割的意义的最小单位。例如：“人”虽然是一个非常复杂的概念，它可以是多种属性的集合体，但也可以把它看作为一个义原。设想所有的概念都可以分解成各种各样的义原，同时也设想应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合，并利用它来描述概念之间的关系以及属性与属性之间的关系，就可以构建出预设的词语与义原的对应关系。

步骤103：利用义原对各词语的权重值进行校正。较佳的，根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。

对词语的权重值进行校正有多种方式，此处用到的利用义原进行校正的方式，通过对比各词语的解释，使校正后词语的权重值更能体现文本中所要突出展现的内容，极大地提高了关键词的置信度。

步骤104：根据校正后的权重值从词语中确定关键词。

下面利用三个优选实施例对权重值校正的方法分别进行详细的阐述，即对步骤103进行展开说明。

参见图2，本实施例中对各词的权重值进行校正的详细流程如下：

步骤201：将文本中对应有权重值的词语组成一个集合。

步骤202：将集合中的第一个词语提取出来，并依次与集合中所剩其他词语进行义原比较。

先将集合中第一个词语提取出来，将该词语与集合中所剩其他词语进行义原比较。比较完成后，已提取出来的词语不再纳入集合，将当前集合中的第一个词语提取出来并与集合中所剩其他词语进行比较。当集合中只剩下一个词语时，不再提取词语，本流程结束。假设文本中对应有权重值的词语组成的集合为{A、B、C、…、Z}，先将词语A提取出来，将词语A与集合中所剩其他词语进行义原比较。比较完成后，词语A不再纳入集合，那么此时集合中的第一个词语是词语B，将词语B提取出来，再将词语B与集合中所剩其他词语进行义原比较。重复这个过程，直到集合中只剩下一个词语Z时，不再提取词语，本流程结束。

步骤203：判断进行比较的两个词语之间是否有相同的义原，若是，继续步骤204，否则继续步骤205。假设词语A的义原为义原1、义原2、义原3、义原4、义原5，词语B的义原为义原5、义原6、义原7、义原8，那么词语A与词语B有一个相同义原，相同义原为义原5。

步骤204：按照相同义原的数量提高这两个词语的权重值。

优选的，利用公式同时提高进行比较的两个词语的权重值。

n(x，y)表示进行比较的两个词语的相同义原的数量，n(x)表示词语x的义原数量，n(y)表示词语y的义原数量，f表示这两个词语应当增加的权重值。当进行比较的两个词语x和词语y有相同义原时，将这两个词语的权重值同时增加f(x，y)，进而提高这两个词语的权重值。

优选的，也可以直接将两个词语的权重值分别加上它们之间相同义原的数量n(x，y)，以此提高进行比较的两个词语的权重值。

步骤205：保持两个词语的权重值不变。

步骤206：判断文本中对应有权重值的词语所组成的集合中是否还有未提取的词语，若是，继续步骤202，直到集合中只剩下一个词语为止，否则结束本流程。

参见图3，本实施例中对各词的权重值进行校正的详细流程如下：

步骤301：获取对应有权重值的词语。

步骤302：根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原。

步骤303：对有权重值的词语的义原进行聚类分析。聚类分析是将物理或抽象对象的集合分为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相类似的基础上收集数据并分门别类。

步骤304：通过聚类分析将文本中的词语划分为不同的类别。聚类分析根据词语的义原将相似的词语归类，它的原则是同一类别中的词语有较大的相似性，不同类别的词语差异性很大。

步骤305：提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。

较优的，也可将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。

参见图4，本实施例中对各词的权重值进行校正的详细流程如下：

步骤401：获取对应有权重值的词语。

步骤402：根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原。

步骤403：将权重值排名最高的X个词语提取为预设关键词，X为预设参数。

步骤404：将预设关键词组成预设关键词集合，并将预设关键词以外的对应有权重值的词语组成候选词集合。

步骤405：将候选词集合中的第一个词语提取出来，并依次与预设关键词集合中的词语进行义原比较。

步骤406：按照相同义原的数量提高候选词的权重值。此时只提高候选词的权重值，提高的方法与步骤204和步骤205中所述方法相同。

步骤407：判断候选词集合中是否还有未提取的词语，若是，继续步骤405，直到候选词集合中已无词语为止，否则结束本流程。

参见图5，本发明实施例中提取关键词的装置包括：获取模块501、校正模块502、提取模块503。

获取模块501，用于获取对应有权重值的词语，并根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原；

校正模块502，用于利用义原对各词语的权重值进行校正；

提取模块503，用于根据校正后的权重值从词语中提取关键词。

校正模块502根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。

校正模块502将对应有权重值的词语进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高这两个词语的权重值。

校正模块502对有权重值的词语的义原进行聚类分析；通过聚类分析将文本中的词语划分为不同的类别；提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。

提取模块503将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。

校正模块502将候选词与关键词进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高候选词的权重值。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提取关键词的方法，其特征在于，包括以下步骤：

获取对应有权重值的词语；

根据预设的词语与义原的对应关系，获取对应有权重值的词语对应的义原；

利用义原对各词语的权重值进行校正；

根据校正后的权重值从词语中确定关键词。

2.如权利要求1所述的方法，其特征在于，所述利用义原对各词语的权重值进行校正的步骤包括：根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。

3.如权利要求1所述的方法，其特征在于，所述利用义原对各词语的权重值进行校正的步骤包括：

将对应有权重值的词语进行两两比较；

判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高这两个词语的权重值。

4.如权利要求1所述的方法，其特征在于，所述利用义原对各词语的权重值进行校正的步骤包括：

对有权重值的词语的义原进行聚类分析；

通过聚类分析将文本中的词语划分为不同的类别；

提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。

6.如权利要求1所述的方法，其特征在于，所述利用义原对各词语的权重值进行校正的步骤包括：

将候选词和预设关键词进行两两比较；

判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高候选词的权重值。

7.一种提取关键词的装置，其特征在于，包括：

校正模块，用于利用义原对各词语的权重值进行校正；

提取模块，用于根据校正后的权重值从词语中提取关键词。

8.如权利要求7所述的装置，其特征在于，校正模块根据义原的重复程度对各词语的权重值进行校正，重复程度越高对权重值提高的幅度越大。

9.如权利要求7所述的装置，其特征在于，校正模块将对应有权重值的词语进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高这两个词语的权重值。

10.如权利要求7所述的装置，其特征在于，校正模块对有权重值的词语的义原进行聚类分析；通过聚类分析将文本中的词语划分为不同的类别；提高聚合度最高的M个类别对应的词语的权重值，M为预设参数。

11.如权利要求10所述的装置，其特征在于，提取模块将聚合度最高的N个类别对应的词语直接提取为关键词，N为预设参数。

12.如权利要求7所述的装置，其特征在于，校正模块将候选词与预设关键词进行两两比较；判断进行比较的两个词语之间是否有相同的义原，若是，按照相同义原的数量提高候选词的权重值。