CN108073568B

CN108073568B - 关键词提取方法和装置

Info

Publication number: CN108073568B
Application number: CN201611039501.6A
Authority: CN
Inventors: 鲍晓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2020-09-11
Anticipated expiration: 2036-11-10
Also published as: US10878004B2; CN108073568A; WO2018086470A1; US20190163690A1

Abstract

本发明公开了一种关键词提取方法和装置，属于信息处理技术领域。所述方法包括：从目标文本中提取候选关键词；对于每一个候选关键词，获取候选关键词对应的有效特征，有效特征是指对关键词判定具有区分功能的特征；根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词。本发明使得特征的使用无需通过人工制定的规则来实现，从而解决了现有技术存在的问题，减小了关键词提取的复杂度，且提高了关键词提取的准确率。

Description

关键词提取方法和装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种关键词提取方法和装置。

背景技术

关键词提取(或称为“关键词抽取”，keywords extraction)技术是指从文本中提取关键词的技术。关键词提取技术在许多业务领域得到了广泛应用，例如资讯业务、搜索业务、广告业务等。

一些主流的关键词提取技术通常基于词频特征提取关键词。例如，基于TF-IDF(Term Frequency–Inverse Document Frequency，词频-反文档频率)算法的关键词提取技术、基于TextRank算法的关键词提取技术。在实际应用中发现，仅考虑词频特征提取得到的关键词准确率并不高，还应当考虑字词在文本中出现的位置、字词与文本主题之间相关性、字词的词性等其它特征。

在现有技术中，提供了一种基于规则的多特征融合的关键词提取方法，其具体流程如下：对目标文本进行分词处理，得到多个字词；采用TF-IDF算法或者TextRank算法计算各个字词的关键词评分；选取关键词评分较高的若干个字词作为候选关键词；而后根据一些由人工制定的规则，从候选关键词中选取关键词。例如，过滤词频低的候选关键词，召回词频高的候选关键词；又例如，过滤与文本主题无关的候选关键词，召回与文本主题相关的候选关键词；再例如，召回在文本的标题中出现且被书名号括出的候选关键词，等等。根据人工制定的规则对候选关键词进行一系列的过滤和召回之后，最终剩下的候选关键词即作为文本的关键词。

在现有技术中，虽然考虑到了关键词提取需要综合考虑多方面的特征，但是由于对候选关键词进行过滤和召回的规则是由人工制定的，如果考虑的特征较多，则需要制定大量的规则，这就导致关键词提取的过程过于复杂。并且，人工制定的规则难免存在一些问题，例如规则不够合理、准确，这也导致关键词提取的准确率并不高。

发明内容

为了解决现有技术中关键词提取的过程过于复杂且准确率不高的问题，本发明实施例提供了一种关键词提取方法和装置。所述技术方案如下：

第一方面，提供了一种关键词提取方法，所述方法包括：

从目标文本中提取候选关键词；

对于每一个候选关键词，获取所述候选关键词对应的有效特征，所述有效特征是指对关键词判定具有区分功能的特征；

根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。

第二方面，提供了一种关键词提取装置，所述装置包括：

提取模块，用于从目标文本中提取候选关键词；

第一获取模块，用于对于每一个候选关键词，获取所述候选关键词对应的有效特征，所述有效特征是指对关键词判定具有区分功能的特征；

第一确定模块，用于根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。

本发明实施例提供的技术方案带来的有益效果包括：

通过根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词，使得特征的使用无需通过人工制定的规则来实现，从而避免了因人工制定的规则较多而导致关键词提取的过程过于复杂的问题，也避免了因人工制定的规则难免存在不合理、不准确的缺陷而导致关键词提取的准确率较低的问题，减小了关键词提取的复杂度，提高了关键词提取的准确率。并且，通过获取对关键词判定具有区分功能的有效特征，根据这些有效特征进行关键词判定，排除掉对关键词判定不具有区分功能的特征，一方面能够降低计算量，另一方面也有助于提高关键词提取的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的关键词提取方法的流程图；

图2A示出了特征筛选过程的流程图；

图2B示出了若干种候选特征对应的样本占比与特征值之间的关系的示意图；

图3示出了本发明另一实施例提供的关键词提取方法的流程图；

图4示出了人工特征工程与使用GBDT模型进行特征处理的比对示意图；

图5示出了模型训练过程的流程图；

图6示出了GBDT模型和LR模型融合的示意图；

图7示出了本发明实施例提供的技术方案所涉及的架构图；

图8示出了本发明一个实施例提供的关键词提取装置的框图；

图9示出了本发明一个实施例提供的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供的技术方案，主要用于提取文本中的关键词。在本发明实施例中，对文本的类型不作限定，例如文章、网页、文档等。在许多应用场景中涉及到关键词提取，例如将从文本中提取的关键词作为该文本的标签、根据从文本中提取的关键词确定文本所属的分类、将从文本中提取的关键词作为该文本的索引以实现搜索该文本，等等。

本发明实施例提供的方法，各步骤的执行主体可以是服务器。例如，该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。为了便于描述，在下述方法实施例中，以各步骤的执行主体为服务器进行说明。

请参考图1，其示出了本发明一个实施例提供的关键词提取方法的流程图。该方法可以包括如下几个步骤。

步骤101，从目标文本中提取候选关键词。

目标文本是指待提取关键词的文本。例如，目标文本可以是一篇资讯文章，包括该资讯文章的标题和正文。候选关键词是指从目标文本中初步筛选出的有可能作为关键词的字词。

在一个示例中，本步骤包括如下几个子步骤：

步骤101a、对目标文本进行分词处理得到多个字词；

步骤101b、从多个字词中选取属于预设词库中的字词作为候选关键词。

预设词库中包括多个字词。对于目标文本中分词得到的字词，如果该字词存在于预设词库中，则将该字词选取为候选关键词；如果该字词不存在于预设词库中，则确定该字词不是候选关键词。通过上述方式，无需辨别目标文本中的每一个字词是否为关键词，而是直接将字词与预设词库中的字词进行比对，有助于减少计算量，提高关键词提取的效率。

预设词库是指预先设定的可以被选作为关键词的字词所组成的词库。在一个示例中，当应用场景为将从文本中提取的关键词作为该文本的标签时，如果预先设定可以作为标签的字词，则将这些可以作为标签的字词添加至预设词库中。

可选地，针对不同分类的文本，对应设定不同的预设词库。以资讯文章为例，其分类可以包括新闻、娱乐、体育、军事等等。每一种分类的文本对应的预设词库是指预先设定的可以被选作为这一类文本的关键词的字词所组成的词库。例如，娱乐分类的文本对应的预设词库中包括与娱乐相关的字词，如娱乐明星的姓名、影视剧的名称、综艺节目的名称等；又例如，体育分类的文本对应的预设词库中包括与体育相关的字词，如体育明星的姓名、体育项目的名称、球队的名称等。上述步骤101b可以包括：获取目标文本所属的分类，从多个字词中选取属于目标文本所属的分类对应的预设词库中的字词作为候选关键词。通过上述方式，能够使得提取的候选关键词与文本的分类更具相关性。

步骤102，对于每一个候选关键词，获取候选关键词对应的有效特征。

有效特征是指对关键词判定具有区分功能的特征，有效特征也可称为有区分性特征。关键词一般具有如下特点：出现在文本的标题中、在文本中多次出现、与文本表达的语义相符、且占文本的大部分篇幅。概括来说，文本中的关键词应该具备位置影响力、频度影响力、语义影响力和覆盖影响力。基于对上述特点的分析，可以将影响关键词提取的有效特征至少分成如下4种类型：词频特征、位置特征、语义特征和语言特征。

词频特征是用于指示字词在文本中出现频度的特征。例如，词频特征包括：字词对应的TF-IDF、文本中出现该字词的段落数量与文本的段落总数量的比值，等等。位置特征是用于指示字词在文本中出现位置的特征。例如，位置特征包括：字词在文本中第一次出现的位置、字词是否在文本的标题中出现、字词在文本中第一次出现和最后一次出现的位置之间的跨度占文本总长度的比值，等等。语义特征是用于指示字词与文本主题之间相关性的特征。例如，语义特征包括：字词与文本主题的相关性、字词与文本的LDA(LatentDirichlet Allocation，文档主题生成模型)主题的相关性，等等。语言特征是用于指示字词的基本属性的特征。例如，语言特征包括：词长、词性(如名词、动词、形容词)、词分类(如人名、地名)，等等。

在一个示例中，如图2A所示，预先设定大量的可能影响关键词提取的候选特征，采用如下方式从这些大量的候选特征中筛选出有效特征：

步骤21，获取多项候选特征和多个标注样本；

标注样本是指已标注出关键词的文本。候选特征是指预先设定的可能对关键词判定具有区分功能的特征。通过对各个标注样本中的关键词进行观察并分析其特点，可总结出一系列的候选特征。

步骤22，对于每一项候选特征，统计在候选特征的各个特征值上的样本占比；

其中，样本占比为正样本占比或负样本占比，正样本占比是指标注样本中正样本的数量与标注样本的数量的比值，负样本占比是指标注样本中负样本的数量与标注样本的数量的比值，正样本是指存在符合候选特征的特征值的关键词的标注样本，负样本是指不存在符合候选特征的特征值的关键词的标注样本。

假设标注样本的数量为100。在一个示例中，以候选特征为字词在文本中第一次出现的位置为例，假设关键词在文本中第一次出现的位置为第1段的标注样本的数量为60、关键词在文本中第一次出现的位置在第2段的标注样本的数量为20、关键词在文本中第一次出现的位置在第3段的标注样本的数量为20，则当特征值为第1段时，正样本的数量为60且负样本的数量为40，正样本占比为0.6且负样本占比为0.4；当特征值为第2段时，正样本的数量为20且负样本的数量为80，正样本的占比为0.2且负样本的占比为0.8。

步骤23，如果样本占比与候选特征的特征值之间的关系符合预设条件，则将该候选特征确定为一项有效特征。

可选地，预设条件为样本占比与候选特征的特征值之间的关系为单调递增或单调递减。如果候选特征满足上述预设条件，则说明该候选特征是对关键词判定具有区分功能的有效特征。

每一项确定的有效特征用于在从任一目标文本中提取关键词时作为关键词判定的依据。例如，预先通过上述步骤21至步骤23从上千个候选特征中筛选出50个有效特征，在后续从任一目标文本中提取关键词时，每一个候选关键词对应的有效特征均是这50项有效特征。

请参考图2B，其示例性示出了若干种候选特征对应的样本占比与特征值之间的关系的示意图。在各个图示中，横坐标表示候选特征的特征值，纵坐标表示样本占比。在各个图示中，曲线1表示正样本占比，曲线2表示负样本占比。由图中可以看出，字词是否在文本的标题中出现、字词对应的TF-IDF、字词对应的TextRank、字词在文本中第一次出现和最后一次出现的位置之间的差值、字词与文本的LDA主题的相关性等候选特征可以选取为有效特征。此外，在根据样本占比与候选特征的特征值之间的关系选取有效特征时，还可参考曲线的斜率，斜率越大的候选特征更具价值，优先选取为有效特征。

在实际应用中，通过上述方式从预先设定的2000多个候选特征(包括20多个词频特征和位置特征、2000多个语义特征和50多个语言特征)中筛选出几十个有效特征。

步骤103，根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词。

具体实现时，各项有效特征分别对应的加权系数可以通过算法预先计算得到，也可以通过模型进行训练得到。在一个示例中，将候选关键词对应的每一项有效特征的特征值与该项有效特征对应的加权系数相乘得到相乘结果，并将各项有效特征对应的相乘结果累加得到该候选关键词属于关键词的概率。根据概率确定是否将候选关键词作为目标文本的关键词时，将概率大于阈值的候选关键词确定为目标文本的关键词。其中，阈值的大小可以根据关键词的提取精度需求进行设置。如果对关键词的提取精度需求不高，可以设置偏低的阈值；如果对关键词的提取精度需求较高，可以设置偏高的阈值。

例如，设置阈值为0.5，则当候选关键词属于关键词的概率大于0.5时，确定将该候选关键词作为目标文本的关键词；当候选关键词属于关键词的概率小于0.5时，确定不将该候选关键词作为目标文本的关键词。

可选地，本实施例提供的方法还可以预先构建关键词评价模型，通过关键词评价模型根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词。关键词评价模型可以是分类模型。则上述步骤103可以由如下步骤替换实现：将候选关键词对应的有效特征输入至关键词评价模型，采用关键词评价模型确定是否将候选关键词作为目标文本的关键词。其中，候选关键词对应的有效特征可以以特征向量的形式输入至关键词评价模型。有关关键词评价模型的训练过程可参见下文的介绍说明。

在一个示例中，关键词评价模型为基于LR(Logistic Regression，逻辑回归)算法构建的LR模型。LR模型是一种线性分类模型，模型结构简单、分类效果较好，且具有现成的lib(library)库。通过LR模型将关键词提取问题转换成二分类问题后，可以使用LR算法训练得到各项有效特征分别对应的加权系数，避免人工制定规则的不合理。

综上所述，本实施例提供的方法，通过根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词，使得特征的使用无需通过人工制定的规则来实现，从而避免了因人工制定的规则较多而导致关键词提取的过程过于复杂的问题，也避免了因人工制定的规则难免存在不合理、不准确的缺陷而导致关键词提取的准确率较低的问题，减小了关键词提取的复杂度，提高了关键词提取的准确率。并且，通过获取对关键词判定具有区分功能的有效特征，根据这些有效特征进行关键词判定，排除掉对关键词判定不具有区分功能的特征，一方面能够降低计算量，另一方面也有助于提高关键词提取的准确率。

另外，还通过采用关键词评价模型确定是否将候选关键词作为目标文本的关键词，各项有效特征分别对应的加权系数可以通过模型进行训练得到，使得各个加权系数的取值更加准确，进而提高关键词提取的准确率。

请参考图3，其示出了本发明另一实施例提供的关键词提取方法的流程图。图3所示的方法中，与图1所示方法相同或类似的内容可以参考图1中的详细描述，此处不作赘述。该方法可以包括如下几个步骤。

步骤301，从目标文本中提取候选关键词。

步骤302，对于每一个候选关键词，获取候选关键词对应的有效特征。

步骤303，将候选关键词对应的有效特征输入至特征处理模型，采用特征处理模型对候选关键词对应的有效特征进行预定处理，得到候选关键词对应的处理后的有效特征。

特征处理模型用于对有效特征进行预定处理，得到处理后的有效特征。其中，预定处理包括但不限于连续特征离散化处理、特征组合处理中的至少一种。候选关键词对应的有效特征可以以特征向量的形式输入至特征处理模型，通过特征处理模型进行预定处理，并以特征向量的形式输出候选关键词对应的处理后的有效特征。在本实施例中，候选关键词对应的处理后的有效特征作为关键词评价模型的输入。

在一个示例中，特征处理模型为基于GBDT(Gradient Boosting Decision Tree，梯度提升决策树)算法构建的GBDT模型。GBDT模型的输入参数为字词对应的有效特征，GBDT模型包括多棵决策树，决策树的每一个叶子节点对应于一项处理后的有效特征。GBDT模型能够替代复杂的人工特征工程，无需人工对特征进行处理，实现自动化地对特征进行处理。

步骤304，将候选关键词对应的处理后的有效特征输入至关键词评价模型，采用关键词评价模型确定是否将候选关键词作为目标文本的关键词。

在本实施例中，关键词评价模型用于根据候选关键词对应的处理后的有效特征和各项处理后的有效特征分别对应的加权系数计算候选关键词属于关键词的概率，并根据概率确定是否将候选关键词作为目标文本的关键词。关键词评价模型可以是分类模型。候选关键词对应的处理后的有效特征可以以特征向量的形式输入至关键词评价模型。

在上文已经提到，关键词评价模型可以采用LR模型。由于LR模型的学习能力有限，要想达到好的分类效果，需要进行复杂的人工特征工程，而GBDT模型能够替代复杂的人工特征工程，因此采用GBDT模型和LR模型的结合。请参考图4，其示出了人工特征工程与使用GBDT模型进行特征处理的比对示意图，融合前人工寻找有区分性特征(raw feature)、特征组合(cross feature)，融合后直接通过GBDT模型进行自动化的特征处理。

请参考图5，其示出了模型训练过程的流程图，模型训练过程可包括如下几个步骤：

步骤51，构建GBDT算法的训练样本；

GBDT算法的训练样本包括第一正样本和第一负样本。第一正样本为样本文本中属于关键词的字词，第一正样本以样本文本中属于关键词的字词对应的有效特征表示。第一负样本为样本文本中不属于关键词的字词，第一负样本以样本文本中不属于关键词的字词对应的有效特征表示。

样本文本是指已标注出关键词的文本。样本文本与标注样本可以是相同的文本，也可以是不同的文本。

步骤52，采用GBDT算法对GBDT算法的训练样本进行训练，得到GBDT模型；

GBDT模型包括多棵决策树，决策树的每一个叶子节点对应于一项处理后的有效特征，GBDT模型为特征处理模型。

步骤53，根据各个GBDT算法的训练样本在各棵决策树中的预测结果，构建LR算法的训练样本；

LR算法的训练样本包括第二正样本和第二负样本。第二正样本为样本文本中属于关键词的字词，第二正样本以样本文本中属于关键词的字词对应的处理后的有效特征表示。第二负样本为样本文本中不属于关键词的字词，第二负样本以样本文本中不属于关键词的字词对应的处理后的有效特征表示。

步骤54，采用LR算法对LR算法的训练样本进行训练，得到LR模型；

LR模型用于根据字词对应的处理后的有效特征和各项处理后的有效特征分别对应的加权系数，计算字词属于关键词的概率，并根据该概率确定是否将该字词作为关键词。LR模型为关键词评价模型。

结合参考图6，其示出了GBDT模型和LR模型融合的示意图。图中决策树1和决策树2是通过GBDT算法训练出GBDT模型包括的两棵决策树，x为一个GBDT算法的训练样本，遍历两棵决策树之后，训练样本x分别落到两棵决策树的叶子节点上，每个叶子节点对应LR模型的一维特征，通过遍历各棵决策树即可得到该训练样本x对应的所有LR特征。假设训练样本x在决策树1中落到从左向右的第2个叶子节点上，在决策树2中也落到从左向右的第2个叶子节点上，则该训练样本x对应的LR算法的训练样本可表示为(0,1,0,0,1)。由于决策树的每条路径，是通过最小化均方差等方法最终分割出来的有区分性路径，根据该路径得到的特征、特征组合都相对有区分性，效果理论上不会亚于人工经验的处理方式。

在本实施例中，将GBDT算法和LR算法的结合应用于到关键词提取中，从而将关键词提取问题转换成简单的二分类问题，并且能够替代复杂的人工特征工程。

可选地，上述步骤103或步骤304之后还包括如下步骤：根据目标文本的各个关键词以及目标文本的各个关键词分别对应的概率，对目标文本的各个关键词进行排序，得到关键词序列，以通过关键词序列展示目标文本的各个关键词与目标文本之间的相关程度。

示例性地，当关键词评价模型为上文介绍的LR模型时，由于LR模型是通过计算候选关键词属于关键词的概率，并根据该概率确定是否将该候选关键词作为目标文本的关键词，因此关键词对应的概率反映了关键词与文本之间的相关程度。

在一个示例中，按照各个关键词分别对应的概率由小到大的顺序，对目标文本的各个关键词进行排序得到关键词序列，也即优先显示与文本之间的相关性大的关键词。比如，目标文本包括10个候选关键词，其中4个候选关键词对应的概率大于0.5，另外6个候选关键词对应的概率小于等于0.5，则将上述4个候选关键词确定为该目标文本的关键词。假设上述4个关键词中，关键词A、B、C和D对应的概率分别为0.75、0.66、0.94和0.88，则按照各个关键词分别对应的概率由小到大的顺序，对目标文本的各个关键词进行排序后得到的关键词序列依次为：关键词C、关键词D、关键词A和关键词B。

通过上述方式，对目标文本的各个关键词进行排序，从而实现将各个关键词与目标文本之间的相关程度进行展示。

需要补充说明的是，在训练得到模型之后，还可通过如下步骤对模型进行评测：采用测试样本对关键词评价模型进行测试；根据测试结果获取关键词评价模型的质量评价参数。其中，测试样本是指已标注出关键词的文本，测试样本和训练样本应当选择不同的文本。通过关键词模型提取测试样本中的关键词，并将提取的关键词和预先标注的关键词进行比对，得到测试结果。在实际应用中，可选取多个测试样本，对该多个测试样本分别对应的测试结果进行统计计算，得到关键词评价模型的质量评价参数。其中，质量评价参数包括准确率、召回率、排序精度中的至少一种。

准确率是指提取的正确的关键词的数量与提取的关键词的总数的比值。召回率是指提取的正确的关键词的数量与人工标注的关键词的总数的比值。例如，对于某一测试样本来说，假设其人工标注的关键词包括：A、B、C和D，通过上述步骤301至304提取出的关键词包括A、C、D、E和F，则提取的正确的关键词的数量为3，准确率为0.6，召回率为0.75。当存在多个测试样本时，可求取各个测试样本对应的准确率的均值，作为关键词评价模型的准确率。当存在多个测试样本时，可求取各个测试样本对应的召回率的均值，作为关键词评价模型的召回率。

由于对各个关键词进行排序的精度也在一定程度上反映了模型的质量。因此，模型的质量评价参数还可包括排序精度。排序精度可采用搜索排序中的一些评价指标来表示，例如P@N(Precision@N)、MAP(Mean Average Precision)或nDCG(normalizedDiscounted Cumulative Gain，归一化的折扣增益值)等。

在一个示例中，以P@N为例，其表示提取的前N个关键词中，是正确的关键词的概率。其中，N为预先设定的正整数。例如，N设定为5，假设从某一测试样本中提取了7个关键词，且按照各个关键词对应的概率由大到小的顺序进行排序得到关键词序列，从上述关键词序列中选取前5个关键词(也即对应的概率最大的5个关键词)，假设其中正确的关键词的数量为4个，则该测试样本对应的排序精度可表示为：P@5＝4/5＝0.8。

在另一示例中，以MAP为例，其定义是求各个文本对应的平均准确率(averageprecision)的算术平均值(mean)。这里对准确率求了两次平均，因此称为Mean AveragePrecision。MAP的衡量标准比较单一，一个文本与提取的一个关键词之间的关系非0即1，核心是利用从文本中提取的关键词在关键词序列中的位置对排序结果进行准确性评估。

一个文本对应的平均准确率(AP)的计算公式如下：

其中，AP(q)表示文本q对应的平均准确率，j表示从文本q中提取的关键词在关键词序列中的编号，n表示从文本q中提取的关键词的数量，j、n为正整数。如果第j个关键词与文本q相关(也即第j个关键词为正确的关键词)，则该第j个关键词对应的i的取值为该第j个关键词是正确的关键词的编号(正确的关键词的编号从1开始计数)；否则，如果第j个关键词与文本q不相关(也即第j个关键词不是正确的关键词)，则该第j个关键词对应的i的取值为0。

多个文本对应的平均准确率(MAP)的计算公式如下：

其中，MAP(q₁,q₂,......,q_m)表示m个文本对应的平均准确率的算术平均值，AP(q_k)表示第k个文本对应的平均准确率，k为正整数，m为大于1的整数。

例如，假设从文本q₁中提取的关键词的数量为5，按照各个关键词对应的概率由大到小的顺序进行排序得到关键词序列，在这个关键词序列中，第1、3、5个关键词是正确的关键词，则AP(q₁)＝(1/1+0+2/3+0+3/5)/5＝0.45。又例如，假设从文本q₂中提取的关键词的数量为6，按照各个关键词对应的概率由大到小的顺序进行排序得到关键词序列，在这个关键词序列中，第1、2、4、6个关键词是正确的关键词，则AP(q₂)＝(1/1+2/2+0+3/4+0+4/6)/6＝0.57。那么，这两个文本(也即文本q₁和文本q₂)对应的MAP值就是(AP(q₁)+AP(q₂))/2＝(0.45+0.57)/2＝0.51。

在又一示例中，以nDCG为例，nDCG是一种综合考虑模型排序结果和真实序列之间的关系的指标，也是最常用的衡量排序结果的准确性的指标。其计算公式如下：

nDCG(q)＝Z_nDCG(q)；

其中，DCG(q)表示文本q对应的关键词序列的衰减累加熵，j表示从文本q中提取的关键词在关键词序列中的编号，r(j)表示第j个关键词对应的概率。取以2为底的log值来自于经验公式，并不存在理论上的依据，实际来说，log的基数可以根据实际需求进行修改。Z_n表示理想排序结果对应的DCG的倒数，nDCG越大表示模型得到的关键词序列与理想排序结果越接近。在实际应用中，理想排序结果可由人工预先设定。

另外，当存在多个测试样本时，可求取各个测试样本对应的排序精度的均值，作为关键词评价模型的排序精度。

通过上述方式，采用测试样本对关键词评价模型进行评测，以便于根据质量评价参数确定训练得到的模型是否满足预测精度要求。如果已满足预测精度要求，则可将该模型用于线上预测；如果还未满足预测精度要求，则可调整训练样本(例如进一步增加训练样本)，并对调整后的训练样本进行训练得到预测精度更高的模型。

通过实验发现，本发明实施例提供的基于GBDT+LR的关键词提取方法较现有技术提供的基于规则的多特征融合的关键词提取方法，在各项质量评价参数上提升明显，平均准确率提升至80％左右，而现有技术提供的基于规则的多特征融合的关键词提取方法的平均准确率仅为62％，总体提升18％。并且，通过实验发现，本发明实施例提供的基于GBDT+LR的关键词提取方法，训练得到的关键词评价模型对应的MAP指标达到85％。

请参考图7，其示出了本发明实施例提供的技术方案所涉及的架构图。预先设定大量的可能影响关键词提取的候选特征，从候选特征中筛选出对关键词判定具有区分功能的有效特征。有效特征的类型至少包括词频特征、位置特征、语义特征和语言特征。在模型训练阶段，采用训练样本进行模型训练，并对训练完成的模型进行测试评估，得到满足预测精度要求的模型后输出。示例性地，本实施例中采用GBDT模型和LR模型。在线上预测阶段，获取待提取关键词的目标文本，对目标文本进行分词处理并选取候选关键词，获取候选关键词对应的有效特征组成特征向量，将特征向量输入至上述输出的模型，模型的输出结果即为是否将该候选关键词作为目标文本的关键词。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图8，其示出了本发明一个实施例提供的关键词提取装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：提取模块810、第一获取模块820和第一确定模块830。

提取模块810，用于执行上述步骤101或步骤301。

第一获取模块820，用于执行上述步骤102或步骤302。

第一确定模块830，用于执行上述步骤103或步骤304。

可选地，该装置还包括：处理模块。

处理模块，用于执行上述步骤303。

可选地，该装置还包括：第一构建模块和第一训练模块。

第一构建模块，用于执行上述步骤51。

第一训练模块，用于执行上述步骤52。

可选地，该装置还包括：第二构建模块和第二训练模块。

第二构建模块，用于执行上述步骤53。

第二训练模块，用于执行上述步骤54。

可选地，该装置还包括：测试模块和第二获取模块。

测试模块，用于采用测试样本对关键词评价模型进行测试。

第二获取模块，用于根据测试结果获取关键词评价模型的质量评价参数。其中，质量评价参数包括准确率、召回率、排序精度中的至少一种。

可选地，该装置还包括：第三获取模块、统计模块和第二确定模块。

第三获取模块，用于执行上述步骤21。

统计模块，用于执行上述步骤22。

第二确定模块，用于执行上述步骤23。

可选地，该装置还包括：排序模块。

排序模块，用于根据目标文本的各个关键词以及目标文本的各个关键词分别对应的概率，对目标文本的各个关键词进行排序，得到关键词序列，以通过关键词序列展示目标文本的各个关键词与目标文本之间的相关程度。

可选地，提取模块810，包括：分词单元和选择单元。

分词单元，用于执行上述步骤101a。

选择单元，用于执行上述步骤101b。

相关细节可参考上述方法实施例。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图9，其示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的关键词提取方法。具体来讲：

所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本发明的各种实施例，所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器的处理器执行以完成上述方法实施例中的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词提取方法，其特征在于，所述方法包括：

从目标文本中提取候选关键词；

对于每一个候选关键词，获取所述候选关键词对应的有效特征，所述有效特征是指对关键词判定具有区分功能的特征，所述有效特征包括各个特征值上的样本占比与对应的特征值之间为单调递增或单调递减关系的候选特征；

根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词；

其中，所述有效特征的确定过程如下：

获取多项候选特征和多个标注样本，所述标注样本是指已标注出关键词的文本；

对于每一项候选特征，统计在所述候选特征的各个特征值上的样本占比；

如果所述样本占比与所述候选特征的特征值之间的关系符合预设条件，则将所述候选特征确定为一项有效特征，每一项确定的有效特征用于在从任一目标文本中提取关键词时作为关键词判定的依据；

其中，所述样本占比为正样本占比或负样本占比，所述正样本占比是指所述标注样本中正样本的数量与所述标注样本的数量的比值，所述负样本占比是指所述标注样本中负样本的数量与所述标注样本的数量的比值，所述正样本是指存在符合所述候选特征的特征值的关键词的标注样本，所述负样本是指不存在符合所述候选特征的特征值的关键词的标注样本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词，包括：

将所述候选关键词对应的有效特征输入至关键词评价模型，采用所述关键词评价模型根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。

3.根据权利要求2所述的方法，其特征在于，所述将所述候选关键词对应的有效特征作为关键词评价模型的输入之前，还包括：

将所述候选关键词对应的有效特征输入至特征处理模型，采用所述特征处理模型对所述候选关键词对应的有效特征进行预定处理，得到所述候选关键词对应的处理后的有效特征；

其中，所述候选关键词对应的处理后的有效特征作为所述关键词评价模型的输入，所述预定处理包括连续特征离散化处理、特征组合处理中的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述将所述候选关键词对应的有效特征作为特征处理模型的输入之前，还包括：

构建梯度提升决策树GBDT算法的训练样本；

采用GBDT算法对所述GBDT算法的训练样本进行训练，得到GBDT模型，将所述GBDT作为所述特征处理模型；

其中，所述GBDT算法的训练样本包括第一正样本和第一负样本；所述第一正样本为样本文本中属于关键词的字词，所述第一正样本以所述样本文本中属于关键词的字词对应的有效特征表示；所述第一负样本为所述样本文本中不属于关键词的字词，所述第一负样本以所述样本文本中不属于关键词的字词对应的有效特征表示；所述GBDT模型包括多棵决策树，所述决策树的每一个叶子节点对应于一项处理后的有效特征。

5.根据权利要求4所述的方法，其特征在于，所述采用GBDT算法对所述GBDT算法的训练样本进行训练，得到GBDT模型之后，还包括：

根据各个所述GBDT算法的训练样本在各棵所述决策树中的预测结果，构建逻辑回归LR算法的训练样本；

采用LR算法对所述LR算法的训练样本进行训练，得到LR模型，将所述LR模型作为所述关键词评价模型；

其中，所述LR算法的训练样本包括第二正样本和第二负样本；所述第二正样本为所述样本文本中属于关键词的字词，所述第二正样本以所述样本文本中属于关键词的字词对应的处理后的有效特征表示；所述第二负样本为所述样本文本中不属于关键词的字词，所述第二负样本以所述样本文本中不属于关键词的字词对应的处理后的有效特征表示。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

采用测试样本对所述关键词评价模型进行测试；

根据测试结果获取所述关键词评价模型的质量评价参数；

其中，所述质量评价参数包括准确率、召回率、排序精度中的至少一种。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述有效特征的类型至少包括：词频特征、位置特征、语义特征和语言特征；

所述词频特征是用于指示字词在文本中出现频度的特征；

所述位置特征是用于指示字词在文本中出现位置的特征；

所述语义特征是用于指示字词与文本主题之间相关性的特征；

所述语言特征是用于指示字词的基本属性的特征。

8.一种关键词提取装置，其特征在于，所述装置包括：

提取模块，用于从目标文本中提取候选关键词；

第一获取模块，用于对于每一个候选关键词，获取所述候选关键词对应的有效特征，所述有效特征是指对关键词判定具有区分功能的特征，有效特征包括各个特征值上的样本占比与对应的特征值之间为单调递增或单调递减关系的候选特征；

第一确定模块，用于根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率，并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词；

其中，所述有效特征的确定过程如下：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

处理模块，用于将所述候选关键词对应的有效特征输入至特征处理模型，采用所述特征处理模型对所述候选关键词对应的有效特征进行预定处理，得到所述候选关键词对应的处理后的有效特征；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一构建模块，用于构建梯度提升决策树GBDT算法的训练样本；

第一训练模块，用于采用GBDT算法对所述GBDT算法的训练样本进行训练，得到GBDT模型，将所述GBDT作为所述特征处理模型；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第二构建模块，用于根据各个所述GBDT算法的训练样本在各棵所述决策树中的预测结果，构建逻辑回归LR算法的训练样本；

第二训练模块，用于采用LR算法对所述LR算法的训练样本进行训练，得到LR模型，将所述LR模型作为所述关键词评价模型；

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

测试模块，用于采用测试样本对所述关键词评价模型进行测试；

第二获取模块，用于根据测试结果获取所述关键词评价模型的质量评价参数；

14.根据权利要求8至13任一项所述的装置，其特征在于，所述有效特征的类型至少包括：词频特征、位置特征、语义特征和语言特征；

所述词频特征是用于指示字词在文本中出现频度的特征；

所述位置特征是用于指示字词在文本中出现位置的特征；

所述语言特征是用于指示字词的基本属性的特征。

15.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一所述的关键词提取方法。

16.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质中包括计算机程序，所述计算机程序在被处理器执行时，用于实现如权利要求1至7任一项所述的关键词提取方法。