CN109992774A

CN109992774A - 基于词属性注意力机制的关键短语识别方法

Info

Publication number: CN109992774A
Application number: CN201910225532.8A
Authority: CN
Inventors: 潘丽敏; 李玉; 罗森林; 陈倩柔; 吴舟婷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-09

Abstract

本发明涉及基于词属性注意力机制的关键短语识别方法，属于自然语言处理与机器学习领域。主要为了解决现有关键短语识别方法无法识别文本中未出现的关键短语的问题。本发明首先利用词嵌入学习将输入文本的词和词性标签转化为向量；其次利用RNN编码器对单词序列和词性标签序列进行编码，获得单词序列和词性标签序列的隐藏状态；然后基于词属性注意力机制对单词序列的隐藏状态进行权值分配，并计算上下文向量；随后通过RNN解码器解码上下文向量并逐字生成可变长度序列；最后通过beam search算法生成关键短语。在567,830篇科研文章和新闻刊物上进行实验，结果表明本发明能达到较好的关键短语识别效果，进一步提升了识别的正确率。

Description

基于词属性注意力机制的关键短语识别方法

技术领域

本发明涉及基于词属性注意力机制的关键短语识别方法，属于自然语言处理与机器学习领域。

背景技术

关键短语识别作为自然语言处理领域的重要研究领域之一，是从文档中提取出代表文档主题或亮点的关键短语，以加速理解、浏览和组织文档。常用的关键短语识别方法可以分为基于有监督学习的提取方法、基于无监督学习的提取方法以及基于循环神经网络编码-解码提取方法(RNN encoder-decoder)。

1.基于有监督学习的提取方法

基于有监督学习的提取方法是将关键短语识别问题抽象为二分类任务或序列标记任务。基于二分类的方法一般过程是先从文本中提取候选短语，再通过分类器将候选短语划分为关键短语和非关键短语两类，以筛选出关键短语。基于序列标注的方法是对文本中的词或字依次打上标签，并通过标签来区分文本中的词或字是否属于关键短语。

2.基于无监督学习的提取方法

基于无监督学习的提取方法主要是基于图排序的方法，其一般过程是先基于文本构建单词共现图，图中的节点由词或候选短语构成，边表示节点在一定窗口范围内的共现概率，然后利用随机游走算法度量单词或短语的重要性，并依据重要性对节点进行排序，最后将前N个词组合成多个短语或者直接选取前N个短语作为候选短语。

上述两类方法均是从文本中抽取候选短语并进行判断。然而，在实际应用中，关键短语是基于文本的语义生成的，即关键短语可能不在原文中出现。因此传统的先抽取、再判断的方法无法识别出原文中未出现的关键短语，即面临样本外问题。

3.基于循环神经网络编码-解码模型的方法(RNN-encoder-decoder)

基于循环神经网络编码-解码模型的方法利用深度语言模型在语言生成方面的优势，为缓解样本外问题，提升关键短语识别的效果提供了新的思路。该方法使用传统的注意力机制，通过学习和理解文本的语义内容，生成关键短语，但该方法忽略了词或短语的句法标签对于关键短语识别的重要作用，因此识别效果仍有提升空间。

综上所述，从现有传统类型方法可知，由于关键短语是表达文本核心内容和亮点的简短而符合语言规则的表示，故信息(词或短语)筛选和句法标签的使用对关键短语识别任务起着至关重要的作用，但目前基于深度神经网络的关键短语识别方法未考虑这个特点，且传统关键短语识别方法面临样本外问题，故其样本外的关键短语识别准确率较低，同时无法捕捉文本背后的真实语义，而基于循环神经网络编码-解码模型的方法忽略了词和短语的句法标签，因此识别准确率仍有存在提升空间。

发明内容

本发明的目的是针对现有关键短语识别方法无法识别文本中未出现的关键短语的问题，提出了基于词属性注意力机制的关键短语识别方法。

本发明的设计原理为：首先，利用词嵌入学习将输入文本的词和词性标签转化为向量；其次，利用RNN编码器对单词序列和词性标签序列进行编码，获得单词序列和词性标签序列的隐藏状态；然后，基于词属性注意力机制对单词序列的隐藏状态进行权值分配，并计算上下文向量；随后，通过RNN 解码器解码上下文向量并逐字生成可变长度序列；最后，通过beam search 算法生成关键短语。

本发明的技术方案是通过如下步骤实现的：

步骤1，利用词嵌入学习将输入文本的词和词性标签转化为向量。

步骤2，利用RNN-encoder对单词序列和词性标签序列进行编码，获得单词序列和词性标签序列的隐藏状态。

步骤2.1，使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码。

步骤2.2，使用一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码。

步骤3，基于词属性注意力机制对单词序列进行权值分配。

步骤3.1，通过计算解码器隐藏状态与单词隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量。

步骤3.2，使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量。

步骤3.3，使用单词序列隐藏状态的文本、词性权重向量动态计算每个输出词的上下文向量。

步骤4，RNN解码器通过解码上下文向量并逐字生成可变长度序列。

步骤5，通过beam search算法生成关键短语。

有益效果

相比于传统的有监督和无监督方法，本发明可以使用循环神经网络编码- 解码模型学习和理解文本内容，从而一定程度避免了样本外问题。

相比于基于传统注意力机制的RNN-encoder-decoder关键短语识别方法，本发明在RNN-encoder-decoder基础上结合了语义信息，利用预训练模型和语法标签信息丰富了文本表示信息，并融合注意力机制和复制机制，进一步提升关键短语识别效果。

附图说明

图1为本发明基于词属性注意力机制的关键短语识别方法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验数据来自科研文章和新闻刊物，共计567,830篇文章。其中，测试集包括Inspec、Karpivin、NUS、SemEval-2010以及DUC-2001中的部分内容。关键短语识别部分实验数据见表1。

表1关键短语识别部分实验数据(条)

模型参数见表2：

表2关键短语识别模型参数

实验采用F1值评价关键短语提取的结果，F1值计算方法为：

其中，P表示精确率(precision)，计算公式为：

R表示召回率(recall)，计算公式为：

式中，TP是将关键短语识别为关键的数目，FN是将关键短语识别为非关键的数目，FP是将非关键短语识别为关键的数目，TN是将非关键短语识别为关键的数目。

本次实验在一台计算机和一台服务器上进行，计算机的具体配置为：Inter i7-6700，CPU 2.40GHz，内存4G，操作系统是windows 7，64位；服务器的具体配置为：E7-4820v4，RAM 256G，操作系统是Linux Ubuntu 64位。

本次实验的具体流程为：

步骤1，利用词嵌入学习将输入文本的词和词性标签序列转化为向量。

步骤2，利用RNN编码器对单词序列和词性标签序列进行编码，获得单词序列和词性标签序列的隐藏状态。

步骤2.1，使用一个独立的前向RNN(GRU)组成编码器，并对单词序列x＝(x₁，x₂，…，x_n)进行编码，输出单词序列隐藏状态h＝(h₁，h₂，…，h_n)。

步骤2.2，使用另一个独立的前向RNN(GRU)组成编码器，并对词性标签序列进行编码，输出词性标签序列隐藏状态

步骤3，基于词属性注意力机制对单词序列进行权值分配。

步骤3.1，计算解码器隐藏状态s_i-1和单词序列隐藏状态h_j之间的相关性，获得单词序列隐藏状态的文本权重向量α_ij，计算过程为：α_ij＝ softmax(v^Ttanh(W_hh_j+W_ss_i-1+b))，式中，v、W_h、W_s和b为待学习的参数。

步骤3.2，使用词性标签隐藏状态获得单词序列隐藏状态的词性权重向量β_j，计算过程为：式中，v^p、和 b^p为待学习的参数。

步骤3.3，使用单词序列隐藏状态的文本权重向量α_ij和词性标签权重向量β_j动态计算每个输出词的上下文向量c_i，从而实现融合语言知识标签和注意力模型。上下文向量c_i计算过程为：

步骤4，通过RNN解码器解码上下文向量并逐字生成可变长度序列y＝ (y₁，y₂，…，y_i)，其中解码器状态更新的公式s_i＝f(y_i-1，s_i-1，c)。通过结合复制机制，预测每个新单词y_i的概率公式由两部分组成：p(y_i|y_{1，…，i-1}，x)＝ p_g(y_i|·)+p_c(y_i|·)，其中，第一项是生成项的概率，第二项是从源文本复制它的概率。

步骤5，通过beam search算法生成关键短语。

测试结果：实验基于词属性注意力机制的关键短语识别方法，对567，830 篇来自科研文章和新闻刊物的文章进行了关键短语识别，取得了较好的识别效果。在实验数据集中的前5，10，15和50个预测的F1值见表3。

表3关键短语识别实验结果

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于词属性注意力机制的关键短语识别方法，其特征在于所述方法包括如下步骤：

步骤1，利用词嵌入学习将输入文本的词和标签转化为向量。

步骤2，利用RNN编码器对单词序列和词性标签序列进行编码，获得单词序列和词性标签序列的隐藏状态，首先使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码，然后使用另一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码，最后得到单词序列和词性标签序列的隐藏状态；

步骤3，基于词属性注意力机制对单词序列进行权值分配，首先，通过计算解码器隐藏状态与单词序列隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量，然后，使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量，最后，使用单词序列隐藏状态的文本权重向量和词性权重向量动态计算每个输出词的上下文向量；

步骤4，RNN解码器通过解码上下文向量并逐字生成可变长度序列；

步骤5，通过beam search算法生成关键短语。

2.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法，其特征在于：步骤2中使用两个独立的前向RNN(GRU)编码器分别对单词序列x＝(x₁,x₂,…,x_n)、词标签序列h＝(h₁,h₂,…,h_n)进行编码，以获得单词序列的隐藏状态和词性标签序列的隐藏状态

3.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法，其特征在于：步骤3中使用α_ij＝softmax(v^Ttanh(W_hh_j+W_ss_i-1+b))计算解码器隐藏状态s_i-1和单词序列隐藏状态h_j之间的相关性，同时使用计算单词序列隐藏状态的词性权重向量β_j,其中，h_j为单词序列隐藏状态，为词性标签序列隐藏状态，v、v^p、W_h、W_s、b和b^p为待学习的参数。

4.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法，其特征在于：步骤3中使用单词序列隐藏状态的文本权重向量α_ij和词性标签权重向量β_j动态计算每个输出词的上下文向量c_i，从而实现融合语言知识标签和注意力模型。上下文向量计算过程为：