CN108304365A

CN108304365A - 关键词提取方法及装置

Info

Publication number: CN108304365A
Application number: CN201710101013.1A
Authority: CN
Inventors: 王煦祥; 尹庆宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2018-07-20
Also published as: KR20190085098A; US20190220514A1; JP6956177B2; WO2018153265A1; EP3518122A1; EP3518122A4; US10963637B2; JP2019531562A; KR102304673B1

Abstract

本发明实施例提供一种关键词提取方法及装置，一个实施例的方法包括：获取待处理文本的各待判断词；确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词；根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序，确定各待判断词的词序列；分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率；根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。该关键词提取方法及装置，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

Description

关键词提取方法及装置

技术领域

本发明涉及信息技术领域，特别是涉及一种关键词提取方法及装置。

背景技术

信息的表达方式随着信息时代的发展而日益多样，其中利用文本来表达信息的方式又是不可替代的。随着网络的发展，线上文本信息的数量呈爆炸式增长，手工获取所需文本信息的难度日益增大，因此，如何高效地获取信息成为一个十分重要的课题。

为了能够有效地处理海量的文本数据，研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究，而这些研究都涉及到一个关键而又基础的问题，即如何获取文本中的关键词。

传统的关键词提取方法采用基于特征选择的机器学习算法，需要人工根据数据的特点来抽取有效的特征。由于人工参与的方式包含较大的主观思想，难以保证关键词的准确性。

发明内容

基于此，有必要针对关键词准确率难以保证的问题，提供一种提高关键词准确率的关键词提取方法及装置。

一种关键词提取方法，包括：

获取待处理文本的各待判断词；

确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列；

分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。

一种关键词提取装置，包括：

待判词获取模块，用于获取待处理文本的各待判断词；

前文词确定模块，用于确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

词序列确定模块，用于根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序确定词序列；

概率确定模块，用于分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

关键词确定模块，用于根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。

上述关键词提取方法及装置，无需人工根据数据的特点抽取有效的特征，是通过将词序列输入到经过训练的循环神经网络模型中以获得对应的待判断词是关键词的概率，且输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

附图说明

图1为一个实施例的关键词提取方法和装置的应用环境示意图；

图2为一个实施例的服务器的内部结构示意图；

图3为一个实施例的关键词提取方法的流程图；

图4为另一个实施例的关键词提取方法的流程图；

图5为一个实施例的LSTM单元的结构图；

图6为一个实施例的关键词提取方法对应的模型的结构示意图；

图7为一个实施例的关键词提取装置的结构图；

图8为另一个实施例的关键词提取装置的结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1为一个实施例提供的关键词提取方法和装置的应用环境示意图。如图1所示，该应用环境包括用户终端110和服务器120，用户终端110与服务器120通信连接。用户终端110安装有搜索引擎或问答系统，用户通过用户终端110输入文本，输入文本通过通信网络被发送至服务器120，服务器120对输入文本进行处理，提取输入文本中的关键词，为用户提供搜索结果或问答结果。或者，用户通过用户终端110输入文本，用户终端110对输入文本进行处理，提取输入文本的关键词，通过通信网络将关键词发送至服务器120，服务器120为用户提供搜索结果或问答结果。

图2为一个实施例中的服务器的内部结构示意图。如图2所示，服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中，服务器的存储介质存储有操作系统以及一种关键词提取装置，该关键词提取装置用于实现一种关键词提取方法。该处理器用于提供计算和控制能力，支撑整个服务器的运行。服务器中的内存为存储介质中的数据的处理装置运行提供环境，网络接口用于与用户终端进行网络通信，接收用户终端发送输入文本，将根据输入文本中的关键词查询到的搜索结果或问答结果发送至用户终端。本领域技术人员可以理解，图2中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参照图3，在一个实施例中，提供一种关键词提取方法，该方法运行在如图1所示的服务器120中，该方法包括以下步骤：

S310：获取待处理文本的各待判断词。

待处理文本通常由单字组成。相比单字而言，词更能表达语义，更具有实际意义。

可通过对待处理文本进行预处理，从而获取到待处理文本的各待判断词。待判断词为待处理文本中需要判断其是否为待处理文本的关键词的词。待判断词可以为进行分词处理后得到的待处理文本的词，即预处理可以包括分词处理。为了提高处理效率，待判断词还可以为待处理文本的词中提取的具有实际意义的词，即预处理还可以包括识别停用词和排除停用词的处理。

在其中一个实施方式中，步骤S310之前，还可以包括步骤：获取待处理文本。

用户通过用户终端输入文本，服务器通过通信网络获取用户输入的文本得到待处理文本。

S320：确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词。

由前文词的定义，前文词为待处理文本中出现在待判断词的上文中的词，可以根据待处理文本确定各待判断词分别对应的前文词。具体地，可以根据对待处理文本进行预处理(如，分词处理)之后，得到的词在待处理文本中出现的顺序确定出现在待判断词的上文中的前文词。

S330：根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序，确定各待判断词的词序列。

需要说明的是，待处理文本中的第一个待判断词可能没有对应的前文词，第一个待判断词的词序列，可以由第一个待判断词本身构成。

除了第一个待判断词之外的其它待判断词，必定存在前文词，其对应的词序列为该待判断词对应的各前文词再加上其本身，按照这些词(各前文词加上待判断词)在待处理文本中出现的顺序而确定的词的序列。

S350：分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率。

本实施中的循环神经网络模型可采用RNN(Recurrent Neural Net)模型、长短时记忆(Long Short-Term Memory，LSTM)模型或GRU(Gated Recurrent Unit)模型。循环神经网络模型包括输入层、隐含层和输出层，其中隐含层中的隐含单元完成了最主要的工作，根据输入的待判断词的词序列，得到待判断词是待处理文本的关键词的概率。由于输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率。

S360：根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。

分别将待处理文本中各待判断词是关键词的概率与预设阈值进行比较，将概率大于或不小于预设阈值的待判断词确定为待处理文本中的关键词。

阈值的设定与具体需求有关，阈值设定得高，准确率就高，召回率相应降低。如果阈值设置得低，准确率就低，召回率就高，用户可根据需要设置阈值，如可以将阈值设置为0.5。

上述关键词提取方法，无需人工根据数据的特点抽取有效的特征，是通过将词序列输入到经过训练的循环神经网络模型中以获得对应的待判断词是关键词的概率，且输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

在其中一个实施例中，获取待处理文本的待判断词的步骤，即步骤S310，包括以下步骤：

步骤a：对待处理文本进行分词处理，获得待处理文本中的词。

步骤b：识别待处理文本中的停用词，将待处理文本中除停用词之外的词确定为待判断词。

可将停用词库中的停用词与待处理文本中的词进行比较，确定待处理文本中的停用词。例如，常用的停用词有“的”、“了”、“什么”等等，这些词一定不可能作为关键词。本实施例中，将待处理文本中除停用词之外的词确定为待判断词，而除停用词之外的词通常为实义词，将实义词作为待判断词，而不将停用词作为待判断词，一方面能够避免因停用词的输出结果影响关键词提取的准确率，另一方面，能够提高关键词提取的速度。

在其中一个实施例中，前文词包括待处理文本中出现在待判断词的上文中、除停用词之外的词。可以理解地，待处理文本中出现在待判断词的上文中、除停用词之外的词，即为待处理文本中出现在待判断词的上文中的实义词。

在另一个实施例中，前文词可以包括待处理文本中出现在待判断词的上文中的所有词，即，包括待处理文本中出现在待判断词的上文中的停用词和实义词。

在其中一个实施例中，步骤S330可以包括：

步骤a：获取各待判断词分别对应的前文词的词向量和各待判断词的词向量。

步骤b：根据各待判断词分别对应的前文词及各待判断词在待处理文本中出现的顺序、采用各待判断词分别对应的前文词的词向量和各待判断词的词向量确定各待判断词的词序列，词序列为词向量序列。

词向量是一个词对应的向量表示，是将自然语言中的词进行数字化的一种方式，词向量可利用语言模型训练得到。常用的语言模型为Word2vec，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算。在具体的实施方式中，可以通过大规模文本数据，利用Word2vec训练得到每个词的词向量，通过查找，可以获取到待处理文本中每个词的词向量，从而可以获取到各待判断词分别对应的前文词的词向量和各待判断词的词向量。

如此，采用词向量来对各个词进行表示，因而可以更好地获取词级别的语义信息，从而进一步提高提取的关键词的准确性。

需要说明的是，当输入到经过训练的循环神经网络模型中的词序列为词向量序列时，经过训练的循环神经网络模型的隐含层输出的结果也为一个向量，为了把该向量映射到0-1范围内以表示各待判断词的概率，可使用Softmax函数或Sigmoid函数。Softmax函数是一种常用的多分类回归模型。判断待判断词是否为关键词可以构造为一个二维问题，对应的Softmax函数具有二维，一维表示是关键词的概率，第二维表示不是关键词的概率。

更进一步地，获取前文词和待判断词分别对应的词向量的获取方式为通过大规模语料库训练得到。使用通过大规模语料库训练得到的词向量，可以充分利用词的语义信息从语义层面帮助判别关键词，从而可以更进一步地提高提取的关键词的准确性。

请参阅图4，在其中一个实施例中，为进一步提高提取的关键词的准确性，在分别将各待判断词的词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

S340：获取训练样本，对循环神经网络模型进行训练获得经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

元素对中的训练词为训练文本的关键词的概率的值包括0和1；当该值为0时，表示该训练词不是该训练文本的关键词；当该值为1时，表示该训练词是该训练文本的关键词。

在训练过程中可使用高斯分布初始化循环神经网络模型的网络参数，训练时将训练文本的第i个待判断词及该待判断词的各前文词按照各个词在待处理文本中出现的顺序形成词序列，依次将词序列中的各个词向量输入到循环神经网络模型中，得到第i个待判断词的损失，从而得到各个待判断词的损失。还需要说明的是，在训练过程中，可采用梯度下降法来更新循环神经网络模型的参数。

在其中一个实施例中，循环神经网络模型为LSTM模型。

LSTM模型在RNN模型的基础上，循环神经网络模型中的隐含单元为LSTM单元。一种LSTM单元结构图如图5所示。其中，记忆单元用于存储历史信息，历史信息的更新和使用分别受三个门的控制——输入门(Input Gate)、遗忘门(Forget Gate)和输出门(OutputGate)。由于LSTM模型能够克服对不定长序列输入的不足，可以更好地存储历史信息，因此，可以进一步地，提高提取的关键词的准确性。

请结合参阅图5和图6，以循环神经网络模型为LSTM模型对一个待判断词的词序列进行处理的过程为例，将待判断词对应的词序列中的各前文词的词向量(Word Embedding)及该待判断词的词向量，按在待处理文本中出现的顺序输入到经过训练的LSTM模型，因而，根据待判断词的数量多次利用LSTM模型，得到每个待判断词是待处理文本的关键词的概率。并且每一个待判断词都是作为LSTM模型的最后一个LSTM单元的输入，每一个待判断词的输出结果都考虑了每一个待判断词的上文历史信息，即每个待判断词对应的各个前文词的语义信息。LSTM模型输出的各待判断词的结果为LSTM模型的最后一个隐含层(LSTM单元)的输出。

下面结合具体的实施例对本发明的关键词提取方法进行说明。

请继续参阅图6，一种与关键词提取方法对应模型包括LSTM单元和Sotfmax函数。通过该模型可以构建一个分类器，对待处理文本的每个待判断词，确定其成为关键词的概率。对于一个待判断词，抽取从其句首开始的所有的词组成词序列。模型的输入为词向量，每一个LSTM单元均可以输出一个针对该LSTM单元输入的词向量对应的词的结果，将该结果结合词序列中的下一个词向量，作为下一个LSTM单元的输入。最后一个LSTM单元，将上一个LSTM单元的输出结果结合待判断词的词向量作为该最后一个LSTM单元的输入，其输出结果为以向量形式表示的待判断词对应的结果，该向量形式的结果通过Sotfmax函数，从而确定该待判断词是关键词的概率。将待判断词是关键词的概率与预设阈值进行比较可确定待判断词是否为关键词。

以待处理文本为“宁波有什么特产能在上海世博会占有一席之地呢”为例，在分词处理后，确定的待判断词包括“宁波”、“特产”、“上海”、“世博会”、“占有”和“一席之地”。分别将每个待判断词的词向量及该待判断词上文的各前文词的词向量按照其在待处理文本中出现的顺序输入到经训练得到的循环神经网络模型中，得各待判断词是待处理文本的关键词的概率。例如，当待判断词为“世博会”时，可以如图6所示，以“宁波”、“有”“特产”“上海”、“世博会”的顺序，将对应的词向量输入到循环神经网络模型中，其中，“宁波”的词向量输入至LSTM模型的第一个LSTM单元，“有”的词向量输入至第二个LSTM单元，依此类推，待判断词“世博会”的词向量输入最后一个LSTM单元，每一个LSTM单元都受上一个LSTM单元的输出影响。LSTM模型的输出为最后一个LSTM单元的输出向量经过Softmax函数映射所对应的概率值，从而得到各待判断词是待处理文本的关键词的概率。由于输入的词向量序列本身包括了待判断词对应的各前文词的向量和待判断词的词向量，从而考虑了上文信息，而且在LSTM模型内部，能够更好地存储历史信息，因此可以进一步得到更为准确的待判断词是待处理文本的关键词的概率。

在一个实施例中，提供一种关键词提取装置，如图7所示，包括：

待判词获取模块710，用于获取待处理文本的各待判断词。

前文词确定模块720，用于确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词。

词序列确定模块730，用于根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序确定词序列。

概率确定模块750，用于分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率。

关键词确定模块760，用于根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。

上述关键词提取装置，无需人工根据数据的特点抽取有效的特征，是通过将词序列输入到经过训练的循环神经网络模型中以获得对应的待判断词是关键词的概率，且输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

请参阅图8，在其中一个实施例中，待判词获取模块710，包括：

分词处理单元711，用于对待处理文本进行分词处理，获得待处理文本中的词。

识别确定单元713，用于识别待处理文本中的停用词，将待处理文本中除停用词之外的词确定为待判断词。

在其中一个实施例中，前文词包括待处理文本中出现在待判断词的上文中、除停用词之外的词。

在其中一个实施例中，还包括：词向量获取模块731；

词向量获取模块731，用于获取各待判断词分别对应的前文词的词向量和各待判断词的词向量；

词序列确定模块730，根据各待判断词分别对应的前文词及各待判断词在待处理文本中出现的顺序、采用各待判断词分别对应的前文词的词向量和各待判断词的词向量确定各待判断词的词序列，词序列为词向量序列。

请继续参阅图8，在其中一个实施例中，还包括：

模型训练模块740，用于获取训练样本，对循环神经网络模型进行训练获得经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

在其中一个实施例中，循环神经网络模型为LSTM模型。

由于上述关键词提取装置与上述关键词提取方法相互对应，对于装置中与上述方法对应的具体技术特征，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种关键词提取方法，其特征在于，包括：

获取待处理文本的各待判断词；

2.根据权利要求1所述的关键词提取方法，其特征在于，所述获取待处理文本的待判断词的步骤，包括：

对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。

3.根据权利要求1所述的关键词提取方法，其特征在于，所述根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列的步骤，包括：

获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序，采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。

4.根据权利要求1所述的关键词提取方法，其特征在于，在分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

5.根据权利要求1所述的关键词提取方法，其特征在于，所述循环神经网络模型为LSTM模型。

6.一种关键词提取装置，其特征在于，包括：

待判词获取模块，用于获取待处理文本的各待判断词；

7.根据权利要求6所述的关键词提取装置，其特征在于，所述待判词获取模块，包括：

分词处理单元，用于对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别确定单元，用于识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。

8.根据权利要求6所述的关键词提取装置，其特征在于，还包括：词向量获取模块；

所述词向量获取模块，用于获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

所述词序列确定模块，用于根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序、采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。

9.根据权利要求6所述的关键词提取装置，其特征在于，还包括：

模型训练模块，用于获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

10.根据权利要求6所述的关键词提取装置，其特征在于，所述循环神经网络模型为LSTM模型。