CN108334490A

CN108334490A - 关键词提取方法以及关键词提取装置

Info

Publication number: CN108334490A
Application number: CN201710225745.1A
Authority: CN
Inventors: 王煦祥; 尹庆宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-07-27
Anticipated expiration: 2037-04-07
Also published as: CN108334490B

Abstract

本发明提供一种关键词提取方法，其包括：对提取文本的所有分析语句进行分词操作，以得到分析语句的词语单元；获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在所述提取文本中的文本特征；基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。本发明还提供一种关键词提取装置，本发明的关键词提取方法及关键词提取装置使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度。

Description

关键词提取方法以及关键词提取装置

技术领域

本发明涉及文本处理领域，特别是涉及一种关键词提取方法及关键词提取装置。

背景技术

信息的表达方式随着信息时代的发展而日益多样，其中利用文本来表达信息的方式是不可替代的。随着网络的发展，线上文本信息的数量呈现爆炸式增长，手工获取所需文本信息的难度日益增大，因此如何高效地获取信息成为一个十分重要的课题。

为了能够有效地处理海量的文本数据，研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究，而这些研究都涉及到一个关键而又基础的问题，即如何获取文本中的关键词。因此，在自然语言处理和信息检索等任务中，关键词提取技术已逐渐成为热点研究问题。现有的研究成果中，关键词提取技术已被广泛应用于新闻服务、查询服务等领域，并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。与此同时，海量信息处理也对关键词提取技术提出了新的挑战。

关键词是对文本主题信息的精炼，高度概括了文本的主要内容，能帮助用户快速理解文本的主旨，易于使用户判断出文本是否为自己所需的内容，从而提高信息访问和信息搜索的效率。不仅如此，由于关键词精炼、简洁的特点，可以利用关键词以较低的复杂度进行文本相关性的计算，从而高效地进行文本分类、文本聚类和信息检索等处理。在这些应用中，使用最广泛的是信息检索，用户在搜索引擎或问答系统中输入关键词，系统将提供这些关键词对应的文本或问题答案返回给用户。

在查询问句中，关键词代表了用户问句的主体含义。在问题分析时，提取问题中的关键词对于理解问题的语义至关重要。在信息检索中，需要从用户输入的问句中提取出对检索有用的关键词。因此，关键词提取是问答系统的基础，如何快速准确地从问句中提取出关键词对于提升问答系统的性能至关重要。

现在一些常用的机器学习方法也逐渐应用到关键词提取领域中，现有的基于机器学习的关键词提取方法首先需要选取候选词的特征，然后根据提取出的特征使用机器学习算法进行学习。这里的候选词的特征一般分为两类：词语出现频率以及词语第一次出现的位置等数据内部特征，以及关键词的语义相似度以及是否为搜索引擎的搜索日志等外部资源特征。

但是由于某些候选词特征与关键词提取操作的关联性较差，因此并非选择越多的候选词特征进行机器学习，对应关键词提取方法提取的关键词就会更加准确，因此现有的基于机器学习的关键词提取方法的关键词提取准确度较为低下。

发明内容

本发明实施例提供一种具有较高关键词提取准确度的关键词提取方法及关键词提取装置，以解决现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。

本发明实施例提供一种关键词提取方法，其包括：

对提取文本的所有分析语句进行分词操作，以得到所述分析语句的词语单元；

获取所述词语单元的词语特征、所述词语单元在对应分析语句中的语句特征、以及所述词语单元在所述提取文本中的文本特征；以及

基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

本发明实施例提供一种关键词提取装置，其包括：

分词操作模块，用于对提取文本的所有分析语句进行分词操作，以得到所述分析语句的词语单元；

特征获取模块，用于获取所述词语单元的词语特征、所述词语单元在对应分析语句中的语句特征、以及所述词语单元在所述提取文本中的文本特征；以及

关键词提取模块，用于基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

相较于现有技术，本发明的关键词提取方法及关键词提取装置使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度；解决了现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。

附图说明

图1为本发明的关键词提取方法的第一优选实施例的流程图；

图2为本发明的关键词提取方法的第二优选实施例的流程图；

图3为本发明的关键词提取方法的第二优选实施例的步骤S203的流程图；

图4为本发明的关键词提取方法的第二优选实施例的获取词语单元的依存关系特征的流程图；

图5为本发明的关键词提取方法的第二优选实施例的步骤S205的流程图；

图6为本发明的关键词提取装置的第一优选实施例的结构示意图；

图7为本发明的关键词提取装置的第二优选实施例的结构示意图；

图8为本发明的关键词提取装置的第二优选实施例的分词操作模块的结构示意图；

图9为本发明的关键词提取装置的第二优选实施例的特征获取模块的结构示意图；

图10为本发明的关键词提取装置的第二优选实施例的特征获取模块的文本特征获取单元的结构示意图；

图11为本发明的关键词提取装置的第二优选实施例的关键词提取模块的结构示意图；

图12为本发明的关键词提取装置所在的电子设备的工作环境结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的关键词提取方法及关键词提取装置可设置在各种对文本内容进行处理的电子设备中，该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。该电子设备优选为对提取文本进行关键词提取的检索服务器。本发明的电子设备使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度。

请参照图1，图1为本发明的关键词提取方法的第一优选实施例的流程图；本优选实施例的关键词提取方法可使用上述的电子设备进行实施，该关键词提取方法包括：

步骤S101，对提取文本的所有分析语句进行分词操作，以得到分析语句的词语单元；

步骤S102，获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在提取文本中的文本特征；

步骤S103，基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

下面详细说明本优选实施例的关键词提取方法的各步骤的具体流程。

在步骤S101中，关键词提取装置对提取文本的所有分析语句进行分词操作，该提取文件可由多个分析语句组成，这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作，获取该分析语句的词语单元。随后转到步骤S102。

在步骤S102中，关键词提取装置获取步骤S101获取的词语单元的词语特征、该词语单元在对应分析语句中的语句特征以及该词语单元在提取文本中的文本特征。

词语单元的词语特征是指词语单元本身具有的特征，如词语单元的词性特征以及命名实体特征等。

这里的词语单元的词性特征是指词语单元的词性，如名词或动词等。某些词性特征的词语单元更易成为关键词，如名词特征的词语单元。

这里的词语单元的命名实体特征是指词语单元是否为命名实体，一般为命名实体的词语单元更易成为关键词。

词语单元的语句特征是指词语单元在分析语句中的特征，如词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征等。

这里词语单元的词频特征是指词语单元在分析语句中的出现频率，因为分析语句中的关键词是能够表述需求的词语，应该会被适当的加重表述，因此一般在分析语句中出现频率较高的词更易成为关键词。

这里的词语单元的前组合词词性特征是指词语单元与前一个词组合后的词性特征，后组合词词性特征是指词语单元与后一个词组合后的词性特征。如连续两个词均为名词特征，则由这两个词组合成的前组合词以及后组合词更易成为关键词。

这里的词语单元的词语位置特征是指词语单元在分析语句中的位置。如句首的词语单元为问句的引出词，如“求助”或“为什么”这类引出词，不会成为关键词。如句首的词语单元为实体词，如“李白的出生年月是什么？”，则该词语单元更易成为关键词。

这里的词语单元的依存关系特征是指词语单元与分析语句中的其他词语单元的依存句法关系。如通过对分析语句进行依存句法分析，可以识别出分析语句的核心谓语、主语和宾语，其中名词性宾语更易成为关键词，如“打篮球可以戴眼镜吗？”中的名词性宾语“篮球”以及名词性宾语“眼镜”更易成为关键词。因此可通过词语单元与其他词语单元的依存关系，如主谓关系、动宾关系以及定中关系等以及该依存关系对应的依存弧的指向词词性，如动宾关系中的宾语等，确定词语单元相应的依存关系特征。

词语单元的文本特征是指词语单元在提取文本中的特征，如词语单元的逆文本频率特征等。

这里的词语单元的逆文本频率是指该词语单元在所有提取文本中的出现次数除以提取文本总数所得商的对数。如包含一个词语单元的提取文本越少，该词语单元的逆文本频率就越大，即该词语单元的区分度越大，该词语单元也更易成为关键词。对于某些词语单元，如“的”，其词频虽然高，但是对应的逆文本频率极低，因此该词语单元也无法成为关键词。

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100＝0.03。如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆文件频率就是log(10,000,000/1,000)＝4。随后转到步骤S103。

在步骤S103中，关键词提取装置基于机器学习算法建立的机器学习模型，使用步骤S102获取的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。由于机器学习模型中考虑到了词语单元的词语特征、对应的语句特征以及对应的文本特征，使得分析语句中提取的关键词更加准确。

这样即完成了本优选实施例的关键词提取方法的关键词提取过程。

本优选实施例的关键词提取方法使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度。

请参照图2，图2为本发明的关键词提取方法的第二优选实施例的流程图；本优选实施例的关键词提取方法可使用上述的电子设备进行实施，该关键词提取方法包括：

步骤S201，获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句；

步骤S202，基于机器学习算法，使用设定数量的分析语句创建机器学习模型；

步骤S203，对提取文本的所有分析语句进行分词操作，以得到分析语句的词语单元；

步骤S204，获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在提取文本中的文本特征；

步骤S205，基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

在步骤S201中，关键词提取装置获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句。这些分析语句可构成形成机器学习模型的训练集。

这里选择可对关键词提取操作具有较大区分度的词语单元的特征，以提高通过机器学习创建的机器学习模型的关键词识别准确度，即提供分析语句中的词语单元的词语特征、语句特征以及文本特征，同时提供分析语句中的词语单元的关键词，以便建立较为准确的机器学习模型。

具体的这里的词语单元的词语特征为词语单元的词性特征以及命名实体特征；词语单元的语句特征为词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；词语单元的文本特征为词语单元的逆文本频率特征。随后转到步骤S202。

在步骤S202中，关键词提取装置基于机器学习算法，使用步骤S201提供的设定数量的分析语句创建机器学习模型。具体的，关键词提取装置可提取步骤S201中的词语单元的词语特征、语句特征、文本特征的特征向量，并使用机器学习算法(如支持向量机或最大熵算法等)对这些特征向量以及分析语句中的关键词进行训练，从而得到机器学习模型。

具体的，为了便于使用机器学习模型对分析语句进行关键词提取操作，这里首先需要对词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，即可使用0和1来表示词语单元的每个离散化词语特征。

如词语单元的词性特征可划分为名词特征、动词特征以及形容词特征等离散化词语特征；词语单元的词频特征可划分为词频处于第一区间特征、词频处于第二区间特征以及词频处于第三区间特征等离散化词语特征；前组合词词性特征和后组合词词性特征可划分为名词名词特征、名词动词特征以及动词名词特征等离散化词语特征；词语位置特征可划分为词语处于第一位置特征、词语处于第二位置特征以及词语处于第三位置特征等离散化词语特征；依存关系特征可为主谓依存关系特征、动宾依存关系特征以及指向词词性为名词等离散化词语特征；词语单元的逆文本频率特征可划分为逆文本频率处于第一区间特征、逆文本频率处于第二区间特征以及逆文本频率处于第三区间特征等离散化词语特征。这样词语单元可通过一特征向量对词语单元对应的所有离散化词语特征进行表示。

如这里设定机器学习模型中设定的离散化词语特征包括名词特征、动词特征、形容词特征、命名实体特征、词频处于第一区间特征、词频处于第二区间特征、词频处于第三区间特征、前组合词为名词名词特征、前组合词为名词动词特征、前组合词为动词名词特征、后组合词为名词名词特征、后组合词为名词动词特征、后组合词为动词名词特征、词语处于第一位置特征、词语处于第二位置特征、词语处于第三位置特征、主谓依存关系特征、动宾依存关系特征、指向词词性为名词、指向词词性为动词、逆文本频率处于第一区间特征、逆文本频率处于第二区间特征以及逆文本频率处于第三区间特征。

如该词语单元具有名词特征、非动词特征、非形容词特征、命名实体特征、词频处于第一区间特征、词频未处于第二区间特征、词频未处于第三区间特征、前组合词为名词名词特征、前组合词不是名词动词特征、前组合词不是动词名词特征、后组合词不是名词名词特征、后组合词为名词动词特征、后组合词不是动词名词特征、词语未处于第一位置特征、词语处于第二位置特征、词语未处于第三位置特征、主谓依存关系特征、非动宾依存关系特征、指向词词性为名词、指向词词性不是动词、逆文本频率处于第一区间特征、逆文本频率未处于第二区间特征以及逆文本频率未处于第三区间特征。则该词语单元对应的特征向量为[1,0,0,1,1,0,0,1,0,0,0,1,0,0,1,0,1,0,1,0,1,0,0]。

当然这里词频特征、词语位置特征以及逆文本频率特征也可直接表示，如词频特征为0.5，词语位置特征为0.3(即词语单元处于整个分析语句的3/10的位置)，逆文本频率特征为6.7。

则这里设定机器学习模型中设定的词语特征包括名词特征、动词特征、形容词特征、命名实体特征、词频特征、前组合词为名词名词特征、前组合词为名词动词特征、前组合词为动词名词特征、后组合词为名词名词特征、后组合词为名词动词特征、后组合词为动词名词特征、词语位置特征、主谓依存关系特征、动宾依存关系特征、指向词词性为名词、指向词词性为动词以及逆文本频率特征。

如该词语单元具有名词特征、非动词特征、非形容词特征、命名实体特征、词频为0.5、前组合词为名词名词特征、前组合词不是名词动词特征、前组合词不是动词名词特征、后组合词不是名词名词特征、后组合词为名词动词特征、后组合词不是动词名词特征、词语位置为0.3、主谓依存关系特征、非动宾依存关系特征、指向词词性为名词、指向词词性不是动词、逆文本频率为6.7。则该词语单元对应的特征向量为[1,0,0,1,0.5,1,0,0,0,1,0,0.3,1,0,1,0,6.7]。这样使得词语单元对应的特征向量的维度更加简化。

基于最大熵算法，使用上述具有至少部分离散化词语特征的词语单元的分析语句创建机器学习模型。具体的：

假设机器学习模型的一个条件概率分布P(y|x)，x表示输入的词语单元的所有特征，y表示输出的词语单元为对应分析语句中的关键词，这个模型表示的是对于给定的输入x，在条件熵H(y|x)最大的条件下，以条件概率P(y|x)输出y。最大熵模型的一般式如下式所示：

其中p(x,y)为(x,y)在机器学习模型中出现的概率；

以分析语句的词语单元设置机器学习模型中的样本(x，y)，其中x表示词语单元的所有特征，y表示该词语单元为对应分析语句中的关键词。

随后以步骤S201中提供的设定数量的分析语句设置训练数据集

T＝[(x₁,y₁),(x₂,y₂),…，(x_n,y_n)]；并获取对应的特征函数f(x,y)：

随后计算特征函数的样本特征函数期望值

其中是(x,y)在训练数据集中出现的概率。

模型特征函数期望值E(f)：

如果机器学习模型能够获取训练数据集中的信息，那么可以假设样本特征函数期望值和模型特征函数期望值E(f)相等，即

即

对于给定的训练数据集T＝[(x₁,y₁),(x₂,y₂),…，(x_n,y_n)]，以及特征函数f(x,y)，最大熵模型等价于约束最优化问题：

这样最大熵问题的求解是将约束最优化问题转化为无约束最优化的对偶问题，即实现了机器学习模型的创建。随后转到步骤S203。

在步骤S203中，关键词提取装置对提取文本的所有分析语句进行分词操作，该提取文件可由多个分析语句组成，这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作，获取该分析语句的词语单元。具体请参照图3，图3为本发明的关键词提取方法的第二优选实施例的步骤S203的流程图。该步骤S203包括：

步骤S301，关键词提取装置对提取文本的所有分析语句进行分词操作，以得到分析语句的词语预备单元。该词语预备单元包括可能会成为关键词的词语单元以及不可能成为关键词的停用词，其中关键词即为从词语预备单元中获取的对于提取文本较为重要的词。

步骤S302，关键词提取装置对词语预备单元进行去停用词操作，即将设定的停用词，如“在”、“什么”等，从词语预备单元中取出，以得到分析语句的词语单元。随后转到步骤S204。

在步骤S204中，关键词提取装置获取步骤S203获取的词语单元的词语特征、该词语单元在对应分析语句中的语句特征以及该词语单元在提取文本中的文本特征。具体的，获取词语单元的词性特征以及命名实体特征；获取词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；以及获取词语单元的逆文本频率特征。

这些词语单元的词语特征、语句特征以及文本特征与步骤S201中分析语句中标注的词语特征、语句特征、文本特征相同。

请参照图4，图4为本发明的关键词提取方法的第二优选实施例的获取词语单元的依存关系特征的流程图。该获取流程包括：

步骤S401，关键词提取装置基于依存句法分析，获取词语单元关联的依存关系；

步骤S402，关键词提取装置根据词语单元关联的依存关系，确定词语单元关联的依存弧的指向词词性；

步骤S403，关键词提取装置根据词语单元关联的依存关系以及词语单元的依存弧的指向，确定词语单元的依存关系特征。即词语单元的依存关系特征包括词语单元关联的依存关系以及词语单元关联的依存弧的指向词词性。

如“打篮球可以戴眼镜吗？”其中“打”和“篮球”为动宾关系(VOB)，“戴”和“眼镜”为动宾关系(VOB)，“打”和“戴”为并列关系(COO)，“可以”和“戴”是状中关系(ADV)，“戴”和“吗”为右附加关系(RAD)。这样词语单元“打”关联的依存关系为动宾关系的“打篮球”以及并列关系的“打戴”，动宾关系的依存弧的指向词词性为名词“篮球”，并列关系的依存弧的指向词词性为动词“戴”。随后转到步骤S205。

在步骤S205中，关键词提取装置基于机器学习算法建立的机器学习模型，使用步骤S204获取的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

请参照图5，图5为本发明的关键词提取方法的第二优选实施例的步骤S205的流程图。该步骤205包括：

步骤S501，关键词提取装置对每个分析语句中的词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，以获取词语单元的多个离散化词语特征，具体步骤S202中所示。

步骤S502，关键词提取装置根据步骤S501获取的词语单元的多个离散化词语特征，获取该词语单元对应的特征向量。随后关键词提取装置基于步骤S202获取的机器学习模型，使用上述词语单元的特征向量对每个分析语句进行关键词提取操作。

由于机器学习模型中考虑到了词语单元的词语特征、对应的语句特征以及对应的文本特征，使得分析语句中提取的关键词更加准确。

在第一优选实施例的基础上，本优选实施例的关键词提取方法通过对分析语句中的停用词进行删除操作，进一步提高了关键词的提取效率。同时细化了通过依存句法分析获取词语单元关联的依存关系以及词语单元关联的依存弧的指向词词性的过程，使得获取的词语单元的依存关系特征更加准确，从而可进一步提高关键词提取的准确度。此外使用词语单元的离散化词语特征创建相应的机器学习模型，进一步提高了关键词提取的效率。

本发明还提供一种关键词提取装置，请参照图6，图6为本发明的关键词提取装置的第一优选实施例的结构示意图。本优选实施例的关键词提取装置可使用上述的关键词提取方法的第一优选实施例进行实施，本优选实施例的关键词提取装置60包括分词操作模块61、特征获取模块62以及关键词提取模块63。

分词操作模块61用于对提取文本的所有分析语句进行分词操作，以得到分析语句的词语单元；特征获取模块62用于获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在所述提取文本中的文本特征；关键词提取模块63用于基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

本优选实施例的关键词提取装置60使用时，首先分词操作模块61对提取文本的所有分析语句进行分词操作，该提取文件可由多个分析语句组成，这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作，获取该分析语句的词语单元。

随后特征获取模块62获取分词操作模块61获取的词语单元的词语特征、该词语单元在对应分析语句中的语句特征以及该词语单元在提取文本中的文本特征。

最后关键词提取模块63基于机器学习算法建立的机器学习模型，使用特征获取模块获取的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。由于机器学习模型中考虑到了词语单元的词语特征、对应的语句特征以及对应的文本特征，使得分析语句中提取的关键词更加准确。

这样即完成了本优选实施例的关键词提取装置50的关键词提取过程。

本优选实施例的关键词提取装置使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度。

请参照图7，图7为本发明的关键词提取装置的第二优选实施例的结构示意图。本优选实施例的关键词提取装置可使用上述关键词提取方法的第二优选实施例进行实施，本优选实施例的关键词提取装置70包括分析语句获取模块71、机器学习模型创建模块72、分词操作模块73、特征获取模块74以及关键词提取模块75。

分析语句获取模块71用于获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句。机器学习模型创建模块72用于基于机器学习算法，使用设定数量的分析语句创建所述机器学习模型。分词操作模块73用于对提取文本的所有分析语句进行分词操作，以得到分析语句的词语单元。特征获取模块74用于获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在提取文本中的文本特征。关键词提取模块75用于基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

请参照图8，图8为本发明的关键词提取装置的第二优选实施例的分词操作模块的结构示意图。该分词操作模块73包括分词操作单元81以及去停用词单元82。

分词操作单元81用于对提取文本的所有分析语句进行分词操作，以得到分析语句的词语预备单元。去停用词单元82用于对词语预备单元进行去停用词操作，以得到分析语句的词语单元。

请参照图9，图9为本发明的关键词提取装置的第二优选实施例的特征获取模块的结构示意图。该特征获取模块74包括词语特征获取单元91、语句特征获取单元92以及文本特征获取单元93。

词语特征获取单元91用于获取词语单元的词性特征以及命名实体特征；语句特征获取单元92用于获取词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征。文本特征获取单元93用于获取词语单元的逆文本频率特征。

请参照图10，图10为本发明的关键词提取装置的第二优选实施例的特征获取模块的文本特征获取单元的结构示意图。该文本特征获取单元93包括依存关系获取子单元101、依存弧指向确定子单元102以及依存关系特征获取子单元103。

依存关系获取子单元101用于基于依存句法分析，获取词语单元关联的依存关系。依存弧指向确定子单元102用于根据词语单元关联的依存关系，确定词语单元关联的依存弧的指向词的词性。依存关系特征获取子单元103用于根据词语单元关联的依存关系以及词语单元关联的依存弧的指向词的词性，确定词语单元的依存关系特征。

请参照图11，图11为本发明的关键词提取装置的第二优选实施例的关键词提取模块的结构示意图。该关键词提取模块75包括离散化词语特征获取单元111以及关键词提取单元112。

离散化词语特征获取单元111用于对每个分析语句中的词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，以获取词语单元的多个离散化词语特征；关键词提取单元112用于基于机器学习算法建立的机器学习模型，使用词语单元的多个离散化词语特征对每个分析语句进行关键词提取操作。

本发明的关键词提取装置70使用时，首先分析语句获取模块71获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句。这些分析语句可构成形成机器学习模型的训练集。

具体的这里的词语单元的词语特征为词语单元的词性特征以及命名实体特征；词语单元的语句特征为词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；词语单元的文本特征为词语单元的逆文本频率特征。

随后机器学习模型创建模块72基于机器学习算法，使用分析语句获取模块提供的设定数量的分析语句创建机器学习模型。具体的，机器学习模型创建模块62可提取词语单元的词语特征、语句特征、文本特征的特征向量，并使用机器学习算法(如支持向量机或最大熵算法等)对这些特征向量以及分析语句中的关键词进行训练，从而得到机器学习模型。

具体的，为了便于使用机器学习模型对分析语句进行关键词提取操作，这里首先机器学习模型创建模块72需要对词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，即可使用0和1来表示词语单元的每个离散化词语特征。

基于最大熵算法，机器学习模型创建模块72使用上述具有至少部分离散化词语特征的词语单元的分析语句创建机器学习模型。具体的：

其中p(x,y)为(x,y)在机器学习模型中出现的概率；

随后以步骤S201中提供的设定数量的分析语句设置训练数据集

随后计算特征函数的样本特征函数期望值

其中是(x,y)在训练数据集中出现的概率。

模型特征函数期望值E(f)：

即

这样最大熵问题的求解是将约束最优化问题转化为无约束最优化的对偶问题，即实现了机器学习模型的创建。

然后分词操作模块73对提取文本的所有分析语句进行分词操作，该提取文件可由多个分析语句组成，这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作，获取该分析语句的词语单元。具体包括：

分词操作模块73的分词操作单元81对提取文本的所有分析语句进行分词操作，以得到分析语句的词语预备单元。该词语预备单元包括可能会成为关键词的词语单元以及不可能成为关键词的停用词，其中关键词即为从词语预备单元中获取的对于提取文本较为重要的词。

分词操作模块73的去停用词单元82对词语预备单元进行去停用词操作，即将设定的停用词，如“在”、“什么”等，从词语预备单元中取出，以得到分析语句的词语单元。

随后特征获取模块74的词语特征获取单元91获取词语单元的词语特征，特征获取模块74的语句特征获取单元92获取词语单元在对应分析语句中的语句特征，特征获取模块74的文本特征获取单元93获取词语单元在提取文本中的文本特征。具体的，词语特征获取单元91获取词语单元的词性特征以及命名实体特征；语句特征获取单元92获取词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；文本特征获取单元93获取词语单元的逆文本频率特征。

这些词语单元的词语特征、语句特征以及文本特征与分析语句获取模块71中分析语句中标注的词语特征、语句特征、文本特征相同。

其中获取词语单元的依存关系特征的流程包括：

文本特征获取单元93的依存关系获取子单元101基于依存句法分析，获取词语单元关联的依存关系；

文本特征获取单元93的依存弧指向确定子单元102根据词语单元关联的依存关系，确定词语单元关联的依存弧的指向词词性；

文本特征获取单元93的依存关系特征获取子单元103根据词语单元关联的依存关系以及词语单元的依存弧的指向，确定词语单元的依存关系特征。即词语单元的依存关系特征包括词语单元关联的依存关系以及词语单元关联的依存弧的指向词词性。

如“打篮球可以戴眼镜吗？”其中“打”和“篮球”为动宾关系(VOB)，“戴”和“眼镜”为动宾关系(VOB)，“打”和“戴”为并列关系(COO)，“可以”和“戴”是状中关系(ADV)，“戴”和“吗”为右附加关系(RAD)。这样词语单元“打”关联的依存关系为动宾关系的“打篮球”以及并列关系的“打戴”，动宾关系的依存弧的指向词词性为名词“篮球”，并列关系的依存弧的指向词词性为动词“戴”。

关键词提取模块75基于机器学习算法建立的机器学习模型，使用特征获取模块74获取的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作。

具体包括：

关键词提取模块75的离散化词语特征获取单元111对每个分析语句中的词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，以获取词语单元的多个离散化词语特征。

关键词提取模块75的关键词提取单元112根据离散化词语特征获取单元1101获取的词语单元的多个离散化词语特征，获取该词语单元对应的特征向量。随后关键词提取装置基于机器学习模型创建模块72获取的机器学习模型，使用上述词语单元的特征向量对每个分析语句进行关键词提取操作。

这样即完成了本优选实施例的关键词提取装置70的关键词提取过程。

在第一优选实施例的基础上，本优选实施例的关键词提取装置通过对分析语句中的停用词进行删除操作，进一步提高了关键词的提取效率。同时细化了通过依存句法分析获取词语单元关联的依存关系以及词语单元关联的依存弧的指向词词性的过程，使得获取的词语单元的依存关系特征更加准确，从而可进一步提高关键词提取的准确度。此外使用词语单元的离散化词语特征创建相应的机器学习模型，进一步提高了关键词提取的效率。

本发明使用词语单元的词性特征、命名实体特征、词频特征、前组合词词性特征、后组合词词性特征、词语位置特征、依存关系特征以及逆文本频率特征进行机器学习模型的创建以及机器学习模型的训练集的获取，可有效的提高提取文本的关键词提取准确率(Precision)、召回率(Recall)以及F值(F-Measure)。

我们以800个句子作为训练集，200个句子作为测试集，对本发明的基于机器学习的关键词提取方法以及使用Java库编写的基于机器学习的关键词提取工具Maui进行比较。

本发明的关键词提取方法的关键词提取的准确率、召回率以及F值分别为78.14％、82.82％以及80.41％，而基于机器学习的关键词提取工具Maui的关键词提取的准确率、召回率以及F值分别为61.42％、83.08％以及70.63％。因此本发明的关键词提取方法在保证召回率的同时，可大幅度的提高准确率，从而使得整体F值提高了10个点左右。

同时我们还将不同的词语单元的词语特征、语句特征以及文本特征进行了机器学习模型的创建以及对应的关键词提取实验，结果如表1所示：

表1

其中全特征一行的数值为保留所有11个特征的关键词提取方法的准确率、召回率以及F值。词语特征的第一行的数值为去除命名实体特征(保留其他10个特征)的关键词提取方法的准确率、召回率以及F值。词语特征的第二行的数值为去除词性特征(保留其他10个特征)的关键词提取方法的准确率、召回率以及F值。……文本特征的一行的数值为保留逆文本频率特征(保留其他10个特征)的关键词提取方法的准确率、召回率以及F值。

根据表1中的结果，去掉前一个词的词性的语句特征以及后一个词的词性的语句特征，对应的关键词提取方法的准确率、召回率以及F值并没有下降，反而F值和召回率有所上升，因此前一个词的词性的语句特征以及后一个词的词性的语句特征对关键词提取的机器学习模型建立并没有正向帮助。而去除其他语句特征、词语特征或文本特征，关键词提取方法的准确率、召回率和/或F值均有所下降，因此将词语单元的词性特征、命名实体特征、词频特征、前组合词词性特征、后组合词词性特征、词语位置特征、依存关系特征(依存关系以及依存弧的指向词词性)以及逆文本频率特征作为对应机器学习模型的训练特征组合，可以较好的提升关键词提取方法的准确率、召回率以及F值，从而进一步提高关键词提取的准确度。

本发明的关键词提取方法及关键词提取装置使用词语单元的词语特征、语句特征以及文本特征建立机器学习模型，从而对每个分析语句进行关键词提取操作，进而提高了关键词提取的准确度；解决了现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

图12和随后的讨论提供了对实现本发明所述的关键词提取装置所在的电子设备的工作环境的简短、概括的描述。图12的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1212包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图12图示了包括本发明的关键词提取装置中的一个或多个实施例的电子设备1212的实例。在一种配置中，电子设备1212包括至少一个处理单元1216和存储器1218。根据电子设备的确切配置和类型，存储器1318可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图12中由虚线1214图示。

在其他实施例中，电子设备1212可以包括附加特征和/或功能。例如，设备1212还可以包括附加的存储装置(例如可移除和/或不可移除的)，其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图12中由存储装置1220图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1220中。存储装置1220还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1218中由例如处理单元1216执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1218和存储装置1220是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1212访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1212的一部分。

电子设备1212还可以包括允许电子设备1212与其他设备通信的通信连接1226。通信连接1226可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备1212连接到其他电子设备的其他接口。通信连接1226可以包括有线连接或无线连接。通信连接1226可以发射和/或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备1212可以包括输入设备1224，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备1212中也可以包括输出设备1222，比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备1224和输出设备1222可以经由有线连接、无线连接或其任意组合连接到电子设备1212。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备1212的输入设备1224或输出设备1222。

电子设备1212的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中，电子设备1212的组件可以通过网络互连。例如，存储器1218可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络1228访问的电子设备1230可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1212可以访问电子设备1230并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备1212可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备1212处执行并且一些指令可以在电子设备1230处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种关键词提取方法，其特征在于，包括：

2.根据权利要求1所述的关键词提取方法，其特征在于，

获取所述词语单元的词语特征的步骤包括：获取所述词语单元的词性特征以及命名实体特征；

获取所述词语单元的语句特征的步骤包括：获取所述词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；

获取所述词语单元的文本特征的步骤包括：获取所述词语单元的逆文本频率特征。

3.权利要求2所述的关键词提取方法，其特征在于，获取词语单元的依存关系特征的步骤包括：

基于依存句法分析，获取所述词语单元关联的依存关系；

根据所述词语单元关联的依存关系，确定所述词语单元关联的依存弧的指向词的词性；以及

根据所述词语单元关联的依存关系以及所述词语单元关联的依存弧的指向词的词性，确定所述词语单元的依存关系特征。

4.根据权利要求2所述的关键词提取方法，其特征在于，所述基于机器学习算法建立的机器学习模型，使用每个分析语句中的词语单元的词语特征、语句特征以及文本特征，对每个分析语句进行关键词提取操作的步骤包括：

对每个分析语句中的词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，以获取所述词语单元的多个离散化词语特征；以及

基于机器学习算法建立的机器学习模型，使用所述词语单元的多个离散化词语特征对每个分析语句进行关键词提取操作。

5.根据权利要求1所述的关键词提取方法，其特征在于，所述机器学习模型通过以下步骤生成：

获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句；以及

基于机器学习算法，使用设定数量的分析语句创建所述机器学习模型。

6.根据权利要求5所述的关键词提取方法，其特征在于，所述基于机器学习算法，使用设定数量的分析语句创建所述机器学习模型的步骤具体为：

基于最大熵算法，使用设定数量的分析语句创建所述机器学习模型。

7.根据权利要求1所述的关键词提取方法，其特征在于，所述对提取文本的所有分析语句进行分词操作，以得到所述分析语句的词语单元的步骤包括：

对提取文本的所有分析语句进行分词操作，以得到所述分析语句的词语预备单元；以及

对所述词语预备单元进行去停用词操作，以得到所述分析语句的词语单元。

8.一种关键词提取装置，其特征在于，包括：

9.根据权利要去8所述的关键词提取装置，其特征在于，所述特征获取模块包括：

词语特征获取单元，用于获取所述词语单元的词性特征以及命名实体特征；

语句特征获取单元，用于获取所述词语单元的词频特征、前组合词词性特征、后组合词词性特征、词语位置特征以及依存关系特征；以及

文本特征获取单元，用于获取所述词语单元的逆文本频率特征。

10.根据权利要求9所述的关键词提取装置，其特征在于，所述文本特征获取单元包括：

依存关系获取子单元，用于基于依存句法分析，获取所述词语单元关联的依存关系；

依存弧指向确定子单元，用于根据所述词语单元关联的依存关系，确定所述词语单元关联的依存弧的指向词的词性；以及

依存关系特征获取子单元，用于根据所述词语单元关联的依存关系以及所述词语单元关联的依存弧的指向词的词性，确定所述词语单元的依存关系特征。

11.根据权利要求9所述的关键词提取装置，其特征在于，所述关键词提取模块包括：

离散化词语特征获取单元，用于对每个分析语句中的词语单元的词语特征、语句特征以及文本特征进行特征离散化处理，以获取所述词语单元的多个离散化词语特征；以及

关键词提取单元，用于基于机器学习算法建立的机器学习模型，使用所述词语单元的多个离散化词语特征对每个分析语句进行关键词提取操作。

12.根据权利要求8所述的关键词提取装置，其特征在于，所述关键词提取装置还包括：

分析语句获取模块，用于获取设定数量的已标注所有词语单元的词语特征、语句特征、文本特征以及关键词的分析语句；以及

机器学习模型创建模块，用于基于机器学习算法，使用设定数量的分析语句创建所述机器学习模型。

13.根据权利要求12所述的关键词提取装置，其特征在于，所述机器学习模型创建模块用于基于最大熵算法，使用设定数量的分析语句创建所述机器学习模型。

14.根据权利要求8所述的关键词提取装置，其特征在于，所述分词操作模块包括：

分词操作单元，用于对提取文本的所有分析语句进行分词操作，以得到所述分析语句的词语预备单元；以及

去停用词单元，用于对所述词语预备单元进行去停用词操作，以得到所述分析语句的词语单元。