CN105426360B

CN105426360B - 一种关键词抽取方法及装置

Info

Publication number: CN105426360B
Application number: CN201510771769.8A
Authority: CN
Inventors: 王全礼; 邵小亮; 谢隆飞; 郑坚钢; 陈飞; 杨雷
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2015-11-12
Filing date: 2015-11-12
Publication date: 2018-08-07
Anticipated expiration: 2035-11-12
Also published as: CN105426360A

Abstract

本发明提供一种关键词抽取方法及装置，通过正则表达式从输入文本中抽取出与所述正则表达式对应的特殊类型词；对输入文本进行分词处理，得到第一候选关键词集合；对第一候选关键词进行任意组合，得到第二候选关键词集合；基于第一预设规则对第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合；计算第三候选关键词集合中各个第三候选关键词的特征值；基于第三候选关键词集合中各个第三候选关键词的特征值，计算第三候选关键词集合中各个第三候选关键词的评分；基于评分抽取出目标关键词，以实现抽取不同类型的关键词，从而提高抽取的准确度和通用性。

Description

一种关键词抽取方法及装置

技术领域

本发明属于词语处理技术领域，更具体的说，尤其涉及一种关键词抽取方法及装置。

背景技术

关键词抽取是《知识库管理系统》核心功能模块之一，通过对知识对应文本中进行关键词抽取，可以使用户迅速了解知识的主要内容。其中关键词抽取是从文本中抽取出体现文本的核心内容的词汇，目前主要的关键词抽取技术是对文本进行分词预处理得到候选关键词，然后再从候选关键词中抽取出关键词。

如专利申请号为201010218156.9，发明名称为“一种抽取关键词的方法”公开的技术方案为：将通过现有方法抽取出的所有关键词作为候选关键词集；通过考查各个候选关键词在文本中的关联度，将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集；最后，将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值，而且还考虑了词语在文本中的关联度，因此，对于关键词长度较长、且内容较新的文本来说，采用本发明抽取关键词的方法能够准确地抽取出其中长度较长的关键词，提高了抽取关键词的准确度。

综上可以看出，上述抽取关键词的方法对于关键词长度较长，且内容较新的文本来说其准确度得到提高，也就是说上述抽取关键词的方法适用于在内容较新的文本中，且可以准确抽取到长度较长的关键词。

发明内容

有鉴于此，本发明提供一种关键词抽取方法及装置，用于抽取不同类型的关键词，提高抽取的准确度和通用性。技术方案如下：

本发明提供一种关键词抽取方法，所述方法包括：

通过正则表达式从输入文本中抽取出与所述正则表达式对应的特殊类型词，其中所述正则表达式对应一种特殊类型词，且对应一种特殊类型词的正则表达式预先构建得到，所述正则表达式存储于正则表达式集合中；

对输入文本进行分词处理，得到第一候选关键词集合；

对所述第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合；

基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，并将所述特殊类型词作为第三候选关键词添加至所述第三候选关键词集合中；

计算所述第三候选关键词集合中各个第三候选关键词的特征值；

基于所述第三候选关键词集合中各个第三候选关键词的特征值，计算所述第三候选关键词集合中各个第三候选关键词的评分；

基于所述第三候选关键词集合中各个第三候选关键词的评分，从所述第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

优选地，所述对所述第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合，包括：

对所述第一候选关键词进行任意组合，得到多个第二候选关键词；

基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合。

优选地，所述在基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合，包括：

当所述第一候选关键词两两组合得到第二候选关键词时，删除组合中第一个第一候选关键词长度为3，且第二个第一候选关键词长度为1的第二候选关键词；

当所述第一候选关键词两两组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

当所述第一候选关键词两两组合得到第二候选关键词时，获取所述第二候选关键词中两个第一候选关键词的词性，当所述两个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

当所述第一候选关键词三三组合得到第二候选关键词时，删除长度大于8的第二候选关键词；

当所述第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当所述第二候选关键词在输入文本中的前缀为无意义词或所述第二候选关键词在输入文本中的后缀为无意义词时，删除所述第二候选关键词；

当所述第一候选关键词三三组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

当所述第一候选关键词三三组合得到第二候选关键词时，获取所述第二候选关键词中三个第一候选关键词的词性，当所述三个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

当所述第一候选关键词四四组合得到第二候选关键词时，删除长度大于8，且组合中第一个第一候选关键词长度大于2，且第二个第一候选关键词长度为1的第二候选关键词；

当所述第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当所述第二候选关键词在输入文本中的前缀为无意义词或所述第二候选关键词在输入文本中的后缀为无意义词时，删除所述第二候选关键词；

当所述第一候选关键词四四组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

当所述第一候选关键词四四组合得到第二候选关键词时，获取所述第二候选关键词中四个第一候选关键词的词性，当所述四个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

优选地，所述基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，包括：

当所述第二候选关键词是所述第一候选关键词两两组合得到时，计算组合得到所述第二候选关键词的两个所述第一候选关键词单独出现在输入文本中的第一互信息比例；

当所述第一互信息比例小于预设第一互信息比例时，删除所述第二候选关键词；

当所述第二候选关键词是所述第一候选关键词三三组合得到时，计算组合得到所述第二候选关键词的三个所述第一候选关键词单独出现在输入文本中的第二互信息比例；

当所述第二互信息比例小于预设第二互信息比例时，删除所述第二候选关键词；

当所述第二候选关键词是所述第一候选关键词四四组合得到时，计算组合得到所述第二候选关键词的四个所述第一候选关键词单独出现在输入文本中的第三互信息比例；

当所述第三互信息比例小于预设第三互信息比例时，删除所述第二候选关键词；

计算所述第二候选关键词在多个输入文本中的第一前词缀比例和第一后词缀比例；

当所述第一前词缀比例小于等于预设第一前词缀比例，或所述第一后词缀比例小于等于预设第一后词缀比例时，删除所述第二候选关键词。

优选地，所述对应一种特殊类型词的正则表达式预先构建得到，包括：

获取一种特殊类型词的不同格式的第一输入文本；

对每个所述第一输入文本进行分割，得到字符串序列CS＝{C1，C2,…Cn}，其中Ci为第一输入文本中的一个字符，且n为第一输入文本中字符总数；

将所述字符串序列CS中的每个字符转换成正则表达式中相应的属性，得到初始的正则表达式Re1＝R1,R2…Rn；

将所述初始的正则表达式中的各个属性逐个进行比对，当所述相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm。

本发明还提供一种关键词抽取装置，所述装置包括：

第一抽取单元，用于通过正则表达式从输入文本中抽取出与所述正则表达式对应的特殊类型词，其中所述正则表达式对应一种特殊类型词，且对应一种特殊类型词的正则表达式预先构建得到，所述正则表达式存储于正则表达式集合中；

分词单元，用于对输入文本进行分词处理，得到第一候选关键词集合；

组合单元，用于对所述第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合；

筛选单元，用于基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，并将所述特殊类型词作为第三候选关键词添加至所述第三候选关键词集合中；

第一计算单元，用于计算所述第三候选关键词集合中各个第三候选关键词的特征值；

第二计算单元，用于基于所述第三候选关键词集合中各个第三候选关键词的特征值，计算所述第三候选关键词集合中各个第三候选关键词的评分；

第二抽取单元，用于基于所述第三候选关键词集合中各个第三候选关键词的评分，从所述第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

优选地，所述组合单元包括：

组合子单元，用于对所述第一候选关键词进行任意组合，得到多个第二候选关键词；

筛选子单元，用于基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合。

优选地，所述筛选子单元包括：

删除子单元，用于当所述第一候选关键词两两组合得到第二候选关键词时，删除组合中第一个第一候选关键词长度为3，且第二个第一候选关键词长度为1的第二候选关键词；

第一删除子单元，用于当所述第一候选关键词两两组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

第二删除子单元，用于当所述第一候选关键词两两组合得到第二候选关键词时，获取所述第二候选关键词中两个第一候选关键词的词性，当所述两个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

优选地，所述筛选子单元包括：

第三删除子单元，用于当所述第一候选关键词三三组合得到第二候选关键词时，删除长度大于8的第二候选关键词；

第四删除子单元，用于当所述第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当所述第二候选关键词在输入文本中的前缀为无意义词或所述第二候选关键词在输入文本中的后缀为无意义词时，删除所述第二候选关键词；

第五删除子单元，用于当所述第一候选关键词三三组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

第六删除子单元，用于当所述第一候选关键词三三组合得到第二候选关键词时，获取所述第二候选关键词中三个第一候选关键词的词性，当所述三个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

优选地，所述筛选子单元包括：

第七删除子单元，用于当所述第一候选关键词四四组合得到第二候选关键词时，删除长度大于8，且组合中第一个第一候选关键词长度大于2，且第二个第一候选关键词长度为1的第二候选关键词；

第八删除子单元，用于当所述第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当所述第二候选关键词在输入文本中的前缀为无意义词或所述第二候选关键词在输入文本中的后缀为无意义词时，删除所述第二候选关键词；

第九删除子单元，用于当所述第一候选关键词四四组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词；

第十删除子单元，用于当所述第一候选关键词四四组合得到第二候选关键词时，获取所述第二候选关键词中四个第一候选关键词的词性，当所述四个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除所述第二候选关键词。

优选地，所述筛选单元包括：

第一计算子单元，用于当所述第二候选关键词是所述第一候选关键词两两组合得到时，计算组合得到所述第二候选关键词的两个所述第一候选关键词单独出现在输入文本中的第一互信息比例；

第一词删除子单元，用于当所述第一互信息比例小于预设第一互信息比例时，删除所述第二候选关键词；

第二计算子单元，用于当所述第二候选关键词是所述第一候选关键词三三组合得到时，计算组合得到所述第二候选关键词的三个所述第一候选关键词单独出现在输入文本中的第二互信息比例；

第二词删除子单元，用于当所述第二互信息比例小于预设第二互信息比例时，删除所述第二候选关键词；

第三计算子单元，用于当所述第二候选关键词是所述第一候选关键词四四组合得到时，计算组合得到所述第二候选关键词的四个所述第一候选关键词单独出现在输入文本中的第三互信息比例；

第三词删除子单元，用于当所述第三互信息比例小于预设第三互信息比例时，删除所述第二候选关键词；

第四计算子单元，用于计算所述第二候选关键词在多个输入文本中的第一前词缀比例和第一后词缀比例；

第四词删除子单元，用于当所述第一前词缀比例小于等于预设第一前词缀比例，或所述第一后词缀比例小于等于预设第一后词缀比例时，删除所述第二候选关键词。

优选地，所述装置还包括构建单元，用于获取一种特殊类型词的不同格式的第一输入文本；对每个所述第一输入文本进行分割，得到字符串序列CS＝{C1，C2,…Cn}，将所述字符串序列CS中的每个字符转换成正则表达式中相应的属性，得到初始的正则表达式Re1＝R1,R2…Rn，并将所述初始的正则表达式中的各个属性逐个进行比对，当所述相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm，其中Ci为第一输入文本中的一个字符，且n为第一输入文本中字符总数。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

本发明提供的上述技术方案，首先对输入文本进行分词处理，得到第一候选关键词集合；然后通过正则表达式输入文本中抽取出与所述正则表达式对应的特殊类型词；同样还可以对第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合；基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，并将特殊类型词作为第三候选关键词添加至第三候选关键词集合中；计算所述第三候选关键词集合中各个第三候选关键词的特征值；基于所述第三候选关键词集合中各个第三候选关键词的特征值，计算所述第三候选关键词集合中各个第三候选关键词的评分；基于所述第三候选关键词集合中各个第三候选关键词的评分，从所述第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

也就是说本发明提供的上述技术方案，可以实现对特殊类型词以及除特殊类型词之外的其他目标关键词进行抽取，实现抽取不同类型的关键词，从而提高抽取的准确度和通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的关键词抽取方法的流程图；

图2是本发明实施例提供的关键词抽取方法的第一种子流程图；

图3是本发明实施例提供的关键词抽取方法的第二种子流程图；

图4是本发明实施例提供的关键词抽取方法的第三种子流程图；

图5是本发明实施例提供的关键词抽取方法的第四种子流程图；

图6是本发明实施例提供的关键词抽取方法的第五种子流程图；

图7是本发明实施例提供的关键词抽取装置的结构示意图；

图8是本发明实施例提供的关键词抽取装置中组合单元的结构示意图；

图9是图8中组合单元中筛选子单元的一种结构示意图；

图10是图8中组合单元中筛选子单元的另一种结构示意图；

图11是图8中组合单元中筛选子单元的再一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的关键词抽取方法的一种流程图，可以包括以下步骤：

101：通过正则表达式从输入文本中抽取出与正则表达式对应的特殊类型词，其中正则表达式对应一种特殊类型词，且对应一种特殊类型词的正则表达式预先构建得到，正则表达式存储于正则表达式集合中。

也就是说输入文本中可能包含特殊类型词，如日期，时间和邮件等，其可以采用不同格式来表示相同信息。以日期2012年12月12日为例，其可能出现以下几种表现方法：

(1)2012-12-12

(2)2012:12:12

(3)2012年12月12日

(4)2012_12_12

为此对于这种特殊类型词则需要首先构建其对应的正则表达式，然后再基于正则表达式从输入文本中抽取出对应的特殊类型词中。即在本发明实施例中可以为不同的特殊类型词来构建对应的且通用的正则表达式，并将这些正则表达式存储于正则表达式集合中，当获取到任意一个输入文本后，从正则表达式集合中依次调用正则表达式，以从输入文本中抽取出相对应的特殊类型词。

仍以上述2012年12月12日为例，当输入文本中包括2012年12月12日时，通过正则表达式\d{4，4}.\d{2，2}.\d{2，2}即可以抽取到。

102：对输入文本进行分词处理，得到第一候选关键词集合。在本发明实施例中，分词处理主要用于对输入文本进行预处理，其可以采用现有技术实现，如采用中科院的中文分词技术，所述中科院的中文分词技术基于词库进行分词，使得分词结果中各个词带有词性。并且基于词库其得到的分词结果中可以包括单个字符，也可以包括由多个字符组成的一个词。

在对输入文本进行分词后，得到第一候选关键词集合中还需要对分词结果进行过滤以得到第一候选关键词集合中的第一候选关键词。其中过滤规则如下：

长度规则，选取长度大于2的词作为第一候选关键词；

词性规则，根据分词结果的词性进行选择，第一候选关键词集合中第一候选关键词的词性至少为：

{标点符号、前缀、后缀、拟声词、叹词、助词、连词、介词、副词、数词、量词、状态词、区别词、形容词、代词、名词、动词}；

词频规则，将词频大于2的词作为第一候选关键词，词频指词在输入文本中出现的次数。

103：对第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合。在本发明实施例中，对第一候选关键词可以进行随意组合，如两两组合或者三三组合，并且在进行组合时，可以顺次组合。如第一候选关键词为{A、B、C、D}，且进行两两组合时，则顺次组合过程为：AB、BC、CD，这是因为在分词时会根据词在文本中由前到后的顺序记录分词结果，即第一候选关键词集合中的第一候选关键词，所以按照顺次组合有利于后续对组合得到的词的判断。

并且为了提高抽取效率，在对第一候选关键词进行任意组合的过程中，还可以对组合得到的词进行筛选，其过程为：首先对第一候选关键词进行任意组合，得到多个第二候选关键词，其次基于第二预设规则对多个第二候选关键词进行筛选，得到第二候选关键词集合，其中第二候选关键词集合包括筛选后剩下的第二候选关键词。

在本发明实施例中，基于第二预设规则对多个第二候选关键词进行筛选，得到第二候选关键词集合的过程如图2所示，可以包括以下步骤：

201：当第一候选关键词两两组合得到第二候选关键词时，删除组合中第一个第一候选关键词长度为3，且第二个第一候选关键词长度为1的第二候选关键词。比如第二候选关键词“信用卡的”是以“信用卡”和“的”这两个第一候选关键词组合得到，可以看出第二候选关键词“信用卡的”的第一个第一候选关键词长度为3，第二个第一候选关键词长度为1，则需要将第二候选关键词“信用卡的”删除。

202：当第一候选关键词两两组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词。在本发明实施例中，无意义的第一候选关键词预先存储于一集合中，该集合的部分内容为：{是，就，着，向，于，之，於，仅，了，且，确，却，无，在，呵，何，及，的，你，我，他，它，她，您，要…}，如果组合第二候选关键词中的一个第一候选关键词存在于该集合中，则将得到的第二候选关键词删除。

203：当第一候选关键词两两组合得到第二候选关键词时，获取第二候选关键词中两个第一候选关键词的词性，当两个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

其中，预设词性组合规则集合中包括通过词性配对得到的有意义词性组合对，因此通过判断两个第一候选关键词的词性是否存在于预设词性组合规则集合中，即可确定第二候选关键词是否为有意义词，如果存在则保留，否则删除。在本发明实施例中预设词性组合规则集合可以基于计算所汉语词性标记集ICTPOS3.0.doc，其包括的有意义词性组合对如下：

{"t,t","v,v","nr,ng","vn,n","b,n","vg,t","vg,n","vi,t","n,n","ns,n","nr,n","n,nt","nt,n","nt,nt","vn,vn","vn,v","a,n","t,n","ns,v","vd,vi","j,nr","j,vn","d,vn","v,n","vn,n","n,vn","n,v","v,ng","n,m","nr,c"}。

其中，t为时间词，v为动词，nr为人名，ng为名词性语素，vn为名动词，n为名词，b为区别次，vg为动词性语素，vi为不及物动词，ns为地名，nt为机构团体名，a为形容词，vd为副动词，j为连词，d为副词，m为数词。

进一步，第二预设规则还包括对三三组合得到的第二候选关键词的筛选的情况下，在图2基础上还可以包括其他步骤，如图3所示，包括以下步骤：

204：当第一候选关键词三三组合得到第二候选关键词时，删除长度大于8的第二候选关键词。

205：当第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当第二候选关键词在输入文本中的前缀为无意义词或第二候选关键词在输入文本中的后缀为无意义词时，删除第二候选关键词。在本发明实施例中，第二候选关键词在输入文本中的前缀指的是在输入文本中位于第二候选关键词前面的词，后缀则指的是在输入文本中位于第二候选关键词后面的词。而作为前缀中的无意义词预先存储于一集合中，如下：

{属于，到，可，由，类，与，式，及，而，则，因，让，于，其，就，含，更，本，只，另，第，喘，要，能，哪，那，以，应，之，只，另，第，喘，要，能，哪，那，以，由，类…}；如果第二候选关键词中的前缀为该集合中的词，则将得到的第二候选关键词删除。

相应的作为后缀中的无意义词也预先存储于一集合中，如下：

{要，应，由，与，及，某，而，则，因，让，不，于，止，前，换，其，下，可，本人，到，为，等，么，呢，自，至，着，开始，给，以，对，住，地，儿，变…}；如果第二候选关键词中的后缀为该集合中的词，则将得到的第二候选关键词删除。

206：当第一候选关键词三三组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词。

在本发明实施例中，无意义的第一候选关键词预先存储于一集合中，该集合的部分内容为：{继续，参与，介绍，无常，可能，提前，能够，比如，乎乎，部分，一些，啥，时候，非常，个别，任何，无论，谁，尽管，虽然…}，如果组合第二候选关键词中的一个第一候选关键词存在于该集合中，则将得到的第二候选关键词删除。

207：当第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词中三个第一候选关键词的词性，当三个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

在本发明实施例中预设词性组合规则集合在包括上述两两词性组合的基础上，还可以基于计算所汉语词性标记集ICTPOS3.0.doc得到三三词性组合得到的有意义词性组合对，如下：

{"j,ng,n","ns,n,n","vn,n,n","a,v,n","ng,r,v","vq,v,n","b,n,n","n,b,n","n,a,n","p,n,n","nv,n,n","n,nz,n","j,v,n","ng,r,v","j,nr,n","b,m,v","v,v,n","vn,b,n","n,nv,n","vn,nv,n","vn,v,n","vn,v,v","vi,v,v","ns,n,n","n,s,n","ad,v,v","a,n,n","b,n,n","n,n,n","b,nv,n","v,vn,n","a,v,v"}。

进一步，第二预设规则还包括对四四组合得到的第二候选关键词的筛选的情况下，在图3基础上还可以包括其他步骤，如图4所示，包括以下步骤：

208：当第一候选关键词四四组合得到第二候选关键词时，删除长度大于8，且组合中第一个第一候选关键词长度大于2，且第二个第一候选关键词长度为1的第二候选关键词。

209：当第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当第二候选关键词在输入文本中的前缀为无意义词或第二候选关键词在输入文本中的后缀为无意义词时，删除第二候选关键词。作为前缀中的无意义词预先存储于一集合中，如下：

{作为，属于，上述，代表，越，向，般，率，后，使用，由，与，式，及，而，则，让，于，其，含，更，本，第，另，以，等，由，与，式，及，而，则，让，于，其，含，更，本…}；如果第二候选关键词中的前缀为该集合中的词，则将得到的第二候选关键词删除。

{只能，提供，相关，包括，降低，需，后，说，按，越，向，成，时，称，经，过，由，与，及，某，而，不，于，止，前，其，下，可，本人，到，为，等，么，呢，自，至，着，开始…}；如果第二候选关键词中的后缀为该集合中的词，则将得到的第二候选关键词删除。

210：当第一候选关键词四四组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词。在本发明实施例中，无意义的第一候选关键词预先存储于一集合中，该集合的部分内容为：{作为，所属，继续，所有，获得，参与，介绍，无常，可能，提前，能够，比如，乎乎，部分，你，我，他，她，您，它，多多，大大，小小，多少…}，如果组合第二候选关键词中的一个第一候选关键词存在于该集合中，则将得到的第二候选关键词删除。

211：当第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词中四个第一候选关键词的词性，当四个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

在本发明实施例中预设词性组合规则集合在包括上述两两词性组合和三三词性组合的基础上，还可以基于计算所汉语词性标记集ICTPOS3.0.doc得到四四词性组合得到的有意义词性组合对，如下：

{"v,b,v,j","v,vn,n,n","n,vn,v,n","d,v,v,v","q,ng,v,n","vn,v,q,n","vn,n,n,vn","a,n,n,n","b,n,n,n","n,n,n,n","b,n,v,n","n,n,nv,n","m,a,vn,n","n,v,vn,n","nv,a,v,n"}。

104：基于第一预设规则对第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，这样可进一步筛选掉不准确的候选关键词，以提高抽取的准确度，并且特殊类型词也会作为第三候选渐渐次添加到第三候选关键词集合中。

在本发明实施例中，基于第一预设规则筛选的可行方式可以参阅图5所示，可以包括以下步骤：

501：当第二候选关键词是第一候选关键词两两组合得到时，计算组合得到第二候选关键词的两个第一候选关键词单独出现在输入文本中的第一互信息比例。

假设两个第一候选关键词：word1和word2，其对应的第一互信息比例为：

MI(word1,word2)＝TF(word1+word2)/(TF(word1)+TF(word2)-TF(word1+word2))，其中，TF(word1+word2)是指两个第一候选关键词相邻出现的次数，TF(word1)是指word1出现的次数，TF(word2)是指word2出现的次数。

502：当第一互信息比例小于预设第一互信息比例时，删除第二候选关键词。

503：当第二候选关键词是第一候选关键词三三组合得到时，计算组合得到第二候选关键词的三个第一候选关键词单独出现在输入文本中的第二互信息比例。

假设三个第一候选关键词：word1、word2和word3，其对应的第二互信息比例为：

其中，TF(word1+word2+word3)是指三个第一候选关键词相邻出现的次数，TF(word1)是指word1出现的次数，TF(word2)是指word2出现的次数，TF(word3)是指word3出现的次数。

504：当第二互信息比例小于预设第二互信息比例时，删除第二候选关键词。

505：当第二候选关键词是第一候选关键词四四组合得到时，计算组合得到第二候选关键词的四个第一候选关键词单独出现在输入文本中的第三互信息比例。

假设四个第一候选关键词：word1、word2、word3和word4，其对应的第三互信息比例为：

其中，TF(word1+word2+word3+word4)是指四个第一候选关键词相邻出现的次数，TF(word1)是指word1出现的次数，TF(word2)是指word2出现的次数，TF(word3)是指word3出现的次数，TF(word4)是指word4出现的次数。

506：当第三互信息比例小于预设第三互信息比例时，删除第二候选关键词。

507：计算第二候选关键词在多个输入文本中的第一前词缀比例和第一后词缀比例。在本发明实施例中，第一前词缀比例指在多个输入文本中位于第二候选关键词前面词的去重个数与非去重个数的比例；第一后词缀比例指在多个输入文本中位于第二候选关键词后面词的去重个数与非去重个数的比例。如下面的三个文本：

利得盈信托贷款型2008年7月1日第44期；

下面介绍下利得盈产品的详细信息；

关于利得盈产品价格定义如下。

以第二候选关键词为利得盈为例，其前后词缀选一个为例，其对应的前词缀和后词缀分为{“”，下，“于”}，{信，产}，词缀总数分别为3.0和2.0(去重后的词缀总数)

则去重词缀除以非去重词缀分别为：

3.0/3.0＝1.0(第一前词缀比例)；

2.0/3.0＝0.67(第一后词缀比例)。

508：当第一前词缀比例小于等于预设第一前词缀比例，或第一后词缀比例小于等于预设第一后词缀比例时，删除第二候选关键词。

在本发明实施例中，对于两两组合、三三组合和四四组合得到的第二候选关键词来说，其对应的预设第一前词缀比例和预设第一后词缀比例不同，其可以采用如下方式：

两两组合：前词缀个数：2，预设第一前词缀比例：0.67，后词缀个数：2，预设第一后词缀：0.998；

三三组合：左词缀个数：2，预设第一前词缀比例：0.8右词缀个数：2，预设第一后词缀：0.8；

四四组合：左词缀个数：2，预设第一前词缀比例：0.2右词缀个数：2，预设第一后词缀：0.2；其中前词缀个数和后词缀个数指示向前和向后所取的字符数。

并且在本发明实施例中，上述预设第一互信息比例、预设第二互信息比例、预设第三互信息比例、预设第一前词缀比例和预设第一后词缀比例这些阈值是通过训练得到而非人工指定，其阈值训练过程为：

(1)输入人工标注词组的样本，人工标注的样本是一个很小的集合；

(2)为上述各个阈值分别设定一个较小的阈值，并基于设定的阈值对样本进行词组抽取；

(3)对抽取的词组和人工标注的词组集合进行对比，判断抽取的词组是否为人工标注词组的最大子集，也就是判断是否在一个区间范围内，如果是则训练结束，否则转(4)；

(4)分别升高各个阈值继续抽取词组，这个就是对各个策略进行任意组合提升阈值进行抽取词组后转(3)。

以上阈值训练是基于单文档抽取词组，本发明严格按照人工标注样本进行判断，选择标准为准确率大于召回率，进而得到的阈值可以有效筛除无意义的候选关键词，以提高后续抽取的准确度。通过上述阈值训练过程得到的预设第一互信息比例为0.08；预设第二互信息比例为0.005；预设第二互信息比例为0.001。

在这里需要说明的一点是：本发明实施例中，第二候选关键词可以选取两两组合、三三组合和四四组合中的任意一种，在选取任意一种时可以基于其组合方式选取相应的筛选方式对第二候选关键词进行删除。

105：计算第三候选关键词集合中各个第三候选关键词的特征值。在本发明实施例中，计算第三候选关键词的特征值可以基于多个维度计算，具体维度包括但不限于下述几种：

tf-idf：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，即评估第三候选关键词在输入文本中的重要程度，其可以通过现有技术评估，tf为词频，idf为逆向文件频率(Inverse Document Frequency)；

是否出现在标题：如果第三候选关键词出现在标题则为1，否则为0；

首次出现位置：以第三候选关键词是文中首次出现的位置除以文本的长度(标题长度+正文长度)；

末次出现位置：以第三候选关键词在文中末次出现的位置除以文本的长度(标题长度+正文长度)；

词长：第三候选关键词的长度；

是否为名词：第三候选关键词词性是否为名词，是为1否则为0；

是否为词组：第三候选关键词词性是否为抽取的词组，是为1否则为0；

是否为特殊词：第三候选关键词是否为抽取的特殊类型词，是为1否则为0；

每个维度的权重通过训练得到，例如每个维度对应的权重分别为{200.0,30.0,5.0,2.0,10.0,30.0,35.0,35.0}；将上述维度的取值与对应权重相乘即得到特征值，其中特征值可以是以一向量形式表示。

以标题为《利得盈信托贷款型2008年7月1日第44期》文档为例，其中第三候选关键词“利得盈”和“2008年7月1日”计算后的特征值分别如下：

利得盈：{60.15,30.0,5.0,0.1,5.0,0.0,35.0,0.0}；

2008年7月1日：{50.5,30.0,3.1,0.06,7.0,0.0,0.0,35.0}。

106：基于第三候选关键词集合中各个第三候选关键词的特征值，计算第三候选关键词集合中各个第三候选关键词的评分。

107：基于第三候选关键词集合中各个第三候选关键词的评分，从第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

在本发明实施例中，上述步骤106和步骤107可以通过现有候选关键词评价器来实现，对此本发明实施例不再阐述。发明人分别已直接得分计算、贝叶斯、神经网络分类器这三种候选关键词评价词来抽取目标关键词，试验结果发现神经网络分类器的抽取结果稳定且和人工标注关键词误差小，因此本发明采用神经网络分类器作为候选关键词评价器。

进一步在得到目标关键词之后，还可以对目标关键词进一步处理以提高其准确度，如根据已知停词库中记录的各个停词与目标关键词进行比对，如果目标关键词与某个停词相同，则将目标关键词删除。

此外还可以对目标关键词进行合并，其合并方式包括但不限于下述方式：

排名靠后的目标关键词向排名靠前的目标关键词合并；

正文的目标关键词向标题的目标关键词合并，所谓正文的目标关键词为出现在输入文本的正文的目标关键词，而标题的目标关键词则是出现在标题中的目标关键词，一般情况下标题的目标关键词的权重大于正文的目标关键词的权重，因此要取标题的目标关键词；

具有包含关系的目标关键词基于前两条合并顺序进行关键词合并，如信用卡和白金信用卡这两个目标关键词，信用卡包含白金信用卡，即两者具有包含关系，如果信用卡的排名相对于白金信用卡靠前，则将白金信用卡合并到信用卡中，仅取两个目标关键词中的信用卡。

应用本发明实施例提供的关键词抽取方法对金融领域和互联网新闻的两篇文章进行抽取得到的目标关键词如下表1：

表1关键词抽取结果

通过本发明设计的算法具有的优势为：可以抽取出“利得盈”、“理财通”等核心词汇以及特殊类型词“2008年”，且通过神经网络评价器对候选关键词进行评价筛选得到词的顺序相对合理

从上述技术方案可知，本发明提供的关键词抽取方法，首先对输入文本进行分词处理，得到第一候选关键词集合；然后通过正则表达式从第一候选关键词集合中抽取出与所述正则表达式对应的特殊类型词；同样还可以在从第一候选关键词集合中去除所述特殊类型词后，对剩余的第一候选关键词进行任意组合，得到第二候选关键词集合；基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合；计算所述第三候选关键词集合中各个第三候选关键词的特征值；基于所述第三候选关键词集合中各个第三候选关键词的特征值，计算所述第三候选关键词集合中各个第三候选关键词的评分；基于所述第三候选关键词集合中各个第三候选关键词的评分，从所述第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

此外，在本发明实施例中，对应一种特殊类型词的正则表达式预先构建得到的过程如图6所示，可以包括以下步骤：

601：获取一种特殊类型词的不同格式的第一输入文本。仍以上述日期为例，获取的第一输入文本为2012-12-12；2012:12:12；2012年12月12日；2012_12_12。

602：对每个所述第一输入文本进行分割，得到字符串序列CS＝{C1，C2,…Cn}，其中Ci为第一输入文本中的一个字符，且n为第一输入文本中字符总数。

对于第一输入文本为2012-12-12来说，其得到的字符串序列CS＝{2,0,1,2，-，1,2，-，1,2}。

603：将所述字符串序列CS中的每个字符转换成正则表达式中相应的属性，得到初始的正则表达式Re1＝R1,R2…Rn。在构建正则表达式前，定义字符属性的集合为：

数字：\d

汉字：[]

常规字符：\w

空格：\s

符号：\W

所有字符：[\s\S]

自定义集合：一些给定的字符的集合。

字符出现次数的定义：

m-n次：{m,n}

0次或多次：*

1次或多次：+

0次或1次：？。

基于上述定义，得到的初始的正则表达式Re1＝\d，\d，\d，\d，\w，\d，\d，\w，\d，\d。

604：将所述初始的正则表达式中的各个属性逐个进行比对，当所述相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm。

以上述Re1＝\d，\d，\d，\d，\w，\d，\d，\w，\d，\d为例，其从第一个属性开始比对，第一个属性和第二个属性相同，则出现次数为2，在比对到第五个属性后，发现其属性与前四个属性不同，则在记录第五个属性的出现次数为1，在比对结束后，得到的正则表达式Re2＝\d{4，4}.\d{2，2}.\d{2，2}，符合对日期这一特殊类型词的抽取。

如果要构建得到正则表达式集合，则需要通过上述方式来构建任意一种特殊类型词，将任意一种特殊类型词记录到正则表达式集合。

当然，在本发明实施例还可以采用其他方式来构建一种特殊类型词的正则表达式，可以理解的是：给定的同一种特殊类型词的不同格式的输入文本集合之间并不是相互排斥的，相反，同一种特殊类型词的多个输入文本集合之间可能存在交集，甚至一个输入文本集合是另一个输入文本集合的子集，因此对于同一种特殊类型词来说，存在着多个可以表述它的属性集合，也就是说对于同一种特殊类型词来说，其所对应的正则表达式是有多条的。假如同一种特殊类型词的对应的所有正则表达式的集合为UUre，其对应的任意输入文本集合T，输入文本集合T对应的正则表达式集合为Ure，则有Ure->UUre(Ure是UUre的子集)，因此在本发明实施例中需要从多个Ure集合中抽取出一个正则表达式Regex，且Regex属于Ure，则此Regex则是某一种特殊类型词的通用的正则表达式，一种特殊类型词的正则表达式的自动生成过程完成，并且通过Regex可以抽取出其对应类型的特殊类型词。

在本发明实施例中，从多个Ure集合中抽取出一个正则表达式的过程如下：首先，构建每个输入文本集合T的Ure集合和同一种特殊类型词的对应的所有正则表达式的集合为UUre，其中每个输入文本集合T中任意一个输入文本的正则表达式的生成过程可以参阅上述图6所示流程图，Ure集合中的任意一个正则表达式扩展后的正则表达式，即将原有正则表达式适用范围进行扩大化，如正则表达式中包括常规字符：\w，则会用符号：\W来替换掉，这样正则表达式的适用范围得到扩大，并且会在正则表达式中加入最大化的正则表达式，如[\s\S]，UUre集合中的元素为上述每个输入文本集合T的Ure集合，即UUre＝{Ure1，Ure2，……，Uren}，n为集合的总数量。

其次，将集合Ure1作为集合Uresult，并从集合UUre中获取其他集合与集合Uresult进行比对，即两个集合中的正则表达式进行一一比对，将两个集合中相同的正则表达式进行合并，合并规则为：对于两个正则表达式Re1＝R1,R2…Rn，Re2＝R1’,R2’…Rn’。如果对应序列上的字符属性的集合是相同的(属性集合出现次数可以不同)，则认为是相同的正则表达式。假如Re1和Re2的字符属性的集合相同，则得到Re3＝R1{min(R1,R1’),max(R1,R1’)},R2{min(R2,R2’),max(R2,R2’)}，……，Rn{min(Rn,Rn’),max(Rn,Rn’)}；比如Re1＝\d{4，4}.\d{2，2}.\d{2，2}，Re2＝\d{3，3}.\d{2，2}.\d{2，2}，Re1和Re2是相同的正则表达式，则在合并后得到的Re3＝\d{4，4}.\d{2，2}.\d{2，2}；

将合并后得到的正则表达式替换集合Uresult中相对应的正则表达式；如果在比对后正则表达式未出现在集合Uresult中，则将未出现在集合Uresult中的正则表达式加入到集合Uresult中。

最后，对集合Uresult进行过滤，以选取到对于集合UUre对应的特殊类型词通用的正则表达式，过滤规则为：

去掉无意义的正则表达式。如‘[\s\S]*’，‘.*’等匹配所有文本；

去掉只有一种字符属性的正则表达式，如果一个正则表达式只有一个字符属性，则对于抽取没有作用，因为其会截取所有的字符串；

遍历集合Uresult，对于任意的Re属于Uresult，按照字符属性的个数从大到小排序，将字符属性个数最多的正则表达式加入新集合Uresultn中；

如果新集合Uresultn的个数为1，则返回新集合Uresultn中的正则表达式为集合UUre对应的特殊类型词通用的正则表达式，如果大于1，则按照字符属性的次数大小进行排序，选取范围最小的正则表达式作为集合UUre对应的特殊类型词通用的正则表达式，其中所谓范围最小则是每个字符出现的次数最多，以\d{4，4}和\d{3，3}为例，选取的正则表达式是\d{4，4}。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述方法实施例相对应，本发明实施例还提供一种关键词抽取装置，其结构示意图如图7所示，可以包括：第一抽取单元11、分词单元12、组合单元13、筛选单元14、第一计算单元15、第二计算单元16和第二抽取单元17。

第一抽取单元11，用于通过正则表达式从输入文本中抽取出与正则表达式对应的特殊类型词，其中正则表达式对应一种特殊类型词，且对应一种特殊类型词的正则表达式预先构建得到，正则表达式存储于正则表达式集合中。

也就是说输入文本中可能包含特殊类型词，如日期，时间和邮件等，其可以采用不同格式来表示相同信息。为此对于这种特殊类型词则需要首先构建其对应的正则表达式，然后再基于正则表达式从输入文本中抽取出对应的特殊类型词中。即在本发明实施例中可以为不同的特殊类型词来构建对应的且通用的正则表达式，并将这些正则表达式存储于正则表达式集合中，当获取到任意一个输入文本后，从正则表达式集合中依次调用正则表达式，以从输入文本中抽取出相对应的特殊类型词。如日期2012年12月12日为例，当输入文本中包括2012年12月12日时，通过正则表达式\d{4，4}.\d{2，2}.\d{2，2}即可以抽取到。

分词单元12，用于对输入文本进行分词处理，得到第一候选关键词集合。在本发明实施例中，分词处理主要用于对输入文本进行预处理，其可以采用现有技术实现，如采用中科院的中文分词技术，所述中科院的中文分词技术基于词库进行分词，使得分词结果中各个词带有词性。并且基于词库其得到的分词结果中可以包括单个字符，也可以包括由多个字符组成的一个词。在对输入文本进行分词后，得到第一候选关键词集合中还需要对分词结果进行过滤以得到第一候选关键词集合中的第一候选关键词，其中过滤规则请参阅方法实施例部分。

组合单元13，用于对第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合。在本发明实施例中，对第一候选关键词可以进行随意组合，如两两组合或者三三组合，并且在进行组合时，可以顺次组合。如第一候选关键词为{A、B、C、D}，且进行两两组合时，则顺次组合过程为：AB、BC、CD，这是因为在分词时会根据词在文本中由前到后的顺序记录分词结果，即第一候选关键词集合中的第一候选关键词，所以按照顺次组合有利于后续对组合得到的词的判断。

筛选单元14，用于基于第一预设规则对第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，并将特殊类型词作为第三候选关键词添加至第三候选关键词集合中。

第一计算单元15，用于计算第三候选关键词集合中各个第三候选关键词的特征值。在本发明实施例中，计算第三候选关键词的特征值可以基于多个维度计算，具体维度包括但不限于下述几种：

词长：第三候选关键词的长度；

利得盈：{60.15,30.0,5.0,0.1,5.0,0.0,35.0,0.0}；

2008年7月1日：{50.5,30.0,3.1,0.06,7.0,0.0,0.0,35.0}。

第二计算单元16，用于基于第三候选关键词集合中各个第三候选关键词的特征值，计算第三候选关键词集合中各个第三候选关键词的评分。

第二抽取单元17，用于基于第三候选关键词集合中各个第三候选关键词的评分，从第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

从上述技术方案可知，本发明提供的关键词抽取装置，首先对输入文本进行分词处理，得到第一候选关键词集合；然后通过正则表达式从第一候选关键词集合中抽取出与所述正则表达式对应的特殊类型词；同样还可以在从第一候选关键词集合中去除所述特殊类型词后，对剩余的第一候选关键词进行任意组合，得到第二候选关键词集合；基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合；计算所述第三候选关键词集合中各个第三候选关键词的特征值；基于所述第三候选关键词集合中各个第三候选关键词的特征值，计算所述第三候选关键词集合中各个第三候选关键词的评分；基于所述第三候选关键词集合中各个第三候选关键词的评分，从所述第三候选关键词集合中各个第三候选关键词中抽取出目标关键词。

在本发明实施例中，上述组合单元13的结构示意图如图8所示，可以包括：组合子单元131和筛选子单元132。

组合子单元131，用于对第一候选关键词进行任意组合，得到多个第二候选关键词。

筛选子单元132，用于基于第二预设规则对多个第二候选关键词进行筛选，得到第二候选关键词集合。

其中筛选子单元132的结构示意图如图9所示，可以包括：删除子单元1321、第一删除子单元1322和第二删除子单元1323。

删除子单元1321，用于当第一候选关键词两两组合得到第二候选关键词时，删除组合中第一个第一候选关键词长度为3，且第二个第一候选关键词长度为1的第二候选关键词。比如第二候选关键词“信用卡的”是以“信用卡”和“的”这两个第一候选关键词组合得到，可以看出第二候选关键词“信用卡的”的第一个第一候选关键词长度为3，第二个第一候选关键词长度为1，则需要将第二候选关键词“信用卡的”删除。

第一删除子单元1322，用于当第一候选关键词两两组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词。在本发明实施例中，无意义的第一候选关键词预先存储于一集合中，该集合的部分内容请参阅方法实施例部分。

第二删除子单元1323，用于当第一候选关键词两两组合得到第二候选关键词时，获取第二候选关键词中两个第一候选关键词的词性，当两个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

其中，预设词性组合规则集合中包括通过词性配对得到的有意义词性组合对，因此通过判断两个第一候选关键词的词性是否存在于预设词性组合规则集合中，即可确定第二候选关键词是否为有意义词，如果存在则保留，否则删除。在本发明实施例中预设词性组合规则集合可以基于计算所汉语词性标记集ICTPOS3.0.doc，其包括的有意义词性组合对请参阅方法实施例部分。

筛选子单元132的另一种结构示意图如图10所示，在图9基础上，还可以包括：第三删除子单元1324、第四删除子单元1325、第五删除子单元1326和第六删除子单元1327。

第三删除子单元1324，用于当第一候选关键词三三组合得到第二候选关键词时，删除长度大于8的第二候选关键词。

第四删除子单元1325，用于当第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当第二候选关键词在输入文本中的前缀为无意义词或第二候选关键词在输入文本中的后缀为无意义词时，删除第二候选关键词。

在本发明实施例中，第二候选关键词在输入文本中的前缀指的是在输入文本中位于第二候选关键词前面的词，后缀则指的是在输入文本中位于第二候选关键词后面的词，作为前缀中无意义词和后缀中无意义词分别存储于一集合中，具体包括哪些无意义词请参阅方法实施例部分。

第五删除子单元1326，用于当第一候选关键词三三组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词，其无意义的第一候选关键词预先存储于一集合中，该集合的部分内容请参阅方法实施例部分。

第六删除子单元1327，用于当第一候选关键词三三组合得到第二候选关键词时，获取第二候选关键词中三个第一候选关键词的词性，当三个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

在本发明实施例中预设词性组合规则集合在包括上述两两词性组合的基础上，还可以基于计算所汉语词性标记集ICTPOS3.0.doc得到三三词性组合得到的有意义词性组合对，具体请参阅方法实施例部分。

进一步，筛选子单元还可以包括：第七删除子单元1328、第八删除子单元1329、第九删除子单元1330和第十删除子单元1331，如图11所示。

第七删除子单元1328，用于当第一候选关键词四四组合得到第二候选关键词时，删除长度大于8，且组合中第一个第一候选关键词长度大于2，且第二个第一候选关键词长度为1的第二候选关键词。

第八删除子单元1329，用于当第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词在输入文本中的前缀和后缀，当第二候选关键词在输入文本中的前缀为无意义词或第二候选关键词在输入文本中的后缀为无意义词时，删除第二候选关键词，作为前缀中无意义词和后缀中无意义词分别存储于一集合中，具体包括哪些无意义词请参阅方法实施例部分。

第九删除子单元1330，用于当第一候选关键词四四组合得到第二候选关键词时，删除由无意义的第一候选关键词组合得到的第二候选关键词，其无意义的第一候选关键词预先存储于一集合中，该集合的部分内容请参阅方法实施例部分。

第十删除子单元1331，用于当第一候选关键词四四组合得到第二候选关键词时，获取第二候选关键词中四个第一候选关键词的词性，当四个第一候选关键词的词性不存在于预设词性组合规则集合中时，删除第二候选关键词。

在本发明实施例中预设词性组合规则集合在包括上述两两词性组合的基础上，还可以基于计算所汉语词性标记集ICTPOS3.0.doc得到四四词性组合得到的有意义词性组合对，具体请参阅方法实施例部分。

此外，本发明实施例提供的关键词抽取装置中筛选单元包括：第一计算子单元、第一词删除子单元、第二计算子单元、第二词删除子单元、第三计算子单元、第三词删除子单元、第四计算子单元和第四词删除子单元。

第一计算子单元，用于当第二候选关键词是第一候选关键词两两组合得到时，计算组合得到第二候选关键词的两个第一候选关键词单独出现在输入文本中的第一互信息比例。

第一词删除子单元，用于当第一互信息比例小于预设第一互信息比例时，删除第二候选关键词。

第二计算子单元，用于当第二候选关键词是第一候选关键词三三组合得到时，计算组合得到第二候选关键词的三个第一候选关键词单独出现在输入文本中的第二互信息比例。

第二词删除子单元，用于当第二互信息比例小于预设第二互信息比例时，删除第二候选关键词。

第三计算子单元，用于当第二候选关键词是第一候选关键词四四组合得到时，计算组合得到第二候选关键词的四个第一候选关键词单独出现在输入文本中的第三互信息比例。

第三词删除子单元，用于当第三互信息比例小于预设第三互信息比例时，删除第二候选关键词。

第四计算子单元，用于计算第二候选关键词在多个输入文本中的第一前词缀比例和第一后词缀比例。

第四词删除子单元，用于当第一前词缀比例小于等于预设第一前词缀比例，或第一后词缀比例小于等于预设第一后词缀比例时，删除第二候选关键词。

在上述装置实施例中，本发明实施例提供的关键词抽取装置还包括构建单元，用于获取一种特殊类型词的不同格式的第一输入文本。对每个第一输入文本进行分割，得到字符串序列CS＝{C1，C2,…Cn}，将字符串序列CS中的每个字符转换成正则表达式中相应的属性，得到初始的正则表达式Re1＝R1,R2…Rn，并将初始的正则表达式中的各个属性逐个进行比对，当相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm，其中Ci为第一输入文本中的一个字符，且n为第一输入文本中字符总数。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词抽取方法，其特征在于，所述方法包括：

对输入文本进行分词处理，得到第一候选关键词集合；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一候选关键词集合中的第一候选关键词进行任意组合，得到第二候选关键词集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于第二预设规则对所述多个第二候选关键词进行筛选，得到第二候选关键词集合，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于第一预设规则对所述第二候选关键词集合中的各个第二候选关键词进行筛选，得到第三候选关键词集合，包括：

7.根据权利要求1所述的方法，其特征在于，所述对应一种特殊类型词的正则表达式预先构建得到，包括：

获取一种特殊类型词的不同格式的第一输入文本；

将所述初始的正则表达式中的各个属性逐个进行比对，当相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm。

8.一种关键词抽取装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述组合单元包括：

10.根据权利要求9所述的装置，其特征在于，所述筛选子单元包括：

11.根据权利要求10所述的装置，其特征在于，所述筛选子单元包括：

12.根据权利要求11所述的装置，其特征在于，所述筛选子单元包括：

13.根据权利要求12所述的装置，其特征在于，所述筛选单元包括：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括构建单元，用于获取一种特殊类型词的不同格式的第一输入文本；对每个所述第一输入文本进行分割，得到字符串序列CS＝{C1，C2,…Cn}，将所述字符串序列CS中的每个字符转换成正则表达式中相应的属性，得到初始的正则表达式Re1＝R1,R2…Rn，并将所述初始的正则表达式中的各个属性逐个进行比对，当相邻属性相同时，记录相同属性的出现次数，得到正则表达式Re2＝R1,R2…Rm，其中Ci为第一输入文本中的一个字符，且n为第一输入文本中字符总数。