CN111738006A

CN111738006A - 基于商品评论命名实体识别的问题生成方法

Info

Publication number: CN111738006A
Application number: CN202010574339.8A
Authority: CN
Inventors: 周夏冰; 陈楠; 肖康; 王中卿
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-02

Abstract

本发明基于商品评论命名实体识别的问题生成方法，该模型首先将产品相关的信息实体加以标注，使得生成的问题与产品紧密相关。其次，利用基于复制覆盖机制的序列到序列模型，当词汇表中未收录该词时，选取原文词汇，这避免了脱离词典问题，使得生成的问句更加的通顺和灵活。最后，结合注意力机制，增加与产品相关词语的比重。本文使用产品评论数据进行实验，与目前的问题生成模型相比，基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺，而且更加符合本身产品的相关内容。

Description

基于商品评论命名实体识别的问题生成方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于商品评论命名实体识别的问题生成方法。

背景技术

自然语言处理作为人工智能领域的璀璨明珠，在自然语言处理的任务中，对于生成问题，当前的研究主要集中在产生与文本内容有关的自然问题，自然问题主要基于已知的词典，无法解决词典之外的问题。研究的主要内容是为评论信息生成与产品信息有关的问题。评论信息通常看起来更短，句子更通俗易懂，并且各种新的词更可能出现，并且所产生的问题需要与产品紧密相关。因此，先前的问题生成模型不能很好地解决上述挑战，并且极容易出现措词不准确和句子不通畅的情况。同时，命名实体识别会影响模型的性能，特别是对于特定领域(如产品评论)中的信息。所产生的问题需要与产品紧密相关。但是，手动标记非常昂贵且主观，因此使用命名实体识别来改善模型性能已成为研究的热点。

问题生成一直是自然语言处理领域的一个研究热点，旨在从文本中生成自然的问句，以推进自然语言处理中的其他任务，如阅读理解，问答等等。近年来，国内外学者对问题生成任务做了相关研究，传统的方法主要是通过手动设置相关规则或模板来生成问题。然而，这类方法需要大量人力，同时生成的问题模式也相对固定，不灵活，尤其应用到新的领域时，仍需要定义新的规则和模板。近段时间，越来越多的学者开始尝试利用神经网络模型来生成问题。

1.基于规则的方法

传统的问题生成主要是基于规则或基于模板的方法。将输入的句子转换成句法表示，然后用来生成疑问句。这类方法大多通过手工构建问题模板，将其应用到生成问题上。Mostow等针对阅读理解生成自问式策略，该策略定义三个模板(how，what，why)来生成问题。Mannem等引入了一个基于语义的系统，该系统使用语法来辅助生成问题。Lindberg等通过使用主要的语义信息构建问题生成的系统模板来生成问题。Chali和Hasan利用主题模型来识别句子的主题作为启发式规则，通过句子的实体和谓词参数结构来生成问题。Mazidi和Tarau考虑了句型出现的频率以及句型传递的语义信息一致性来生成问题。然而，该类方法具有一些共同的缺点：具有依赖性和不可移植性。由于规则可能因人而异，所以系统的维护往往很困难。同时，由于大多系统只具有专有领域制定的相关规则，不容易被迁移到其他领域。除此之外，基于规则或基于模板的方法生成的问题样式比较固定，不能摆脱既定的框架，因此生成的问题不具有灵活性。

2.基于神经网络的方法

为了突破基于人为定制规则的传统方法的束缚，近几年有人开始尝试利用神经网络的模型来解决问题生成任务。Serban等基于结构化的数据(主语，关系，宾语)，提出了一种序列到序列的神经网络模型来生成简单的事实问题。Du等提出了基于编码器状态的注意机制序列到序列模型，并在编码层加入词的一些特性来产生问题。Zheng等使用一个基于模板的方法来构造关键句子中的问题，并利用多特征神经网络模型对所有问题进行排序，从而选出top1的问题。Bao等提出了双重对抗网络实现了跨领域问题生成。Zhao等把向量输入至逆向传播神经网络中对网络进行训练，通过信号正方向的传播和逆向的误差传播，直到输出的误差在阈值以内。Xiong等通过基于字符重叠度的部分复制机制，可以使得生成问题中在单词级别和输入文档具有更高的重叠度和相关性。

与以往问题生成研究不同，基于产品评论数据，该数据往往逻辑性差，较为口语化，同样的意思不同人有不同的表述词语，在问题生成上更易出现OOV(不在词典中)问题。同时，基于产品评论的问题生成更注重问题与当前产品息息相关。因此，以往的问题生成模型无法很好的解决上述挑战。

发明内容

本发明要解决的技术问题是提供一种基于商品评论命名实体识别的问题生成方法，该模型首先将产品相关的信息实体加以标注，使得生成的问题与产品紧密相关。其次，利用基于复制覆盖机制的序列到序列模型，当词汇表中未收录该词时，选取原文词汇，这避免了脱离词典问题，使得生成的问句更加的通顺和灵活。最后，结合注意力机制，增加与产品相关词语的比重。本文使用产品评论数据进行实验，与目前的问题生成模型相比，基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺，而且更加符合本身产品的相关内容。

为了解决上述技术问题，本发明提供了一种基于商品评论命名实体识别的问题生成方法，包括：

1模型总体框架：

1.1命名实体识别

首先，用命名实体模型将一些和产品信息相关的实体进行标注生成评论表示信息，以便加强生成的问题和产品之间的相关性，其中，标注生成评论表示信息利用长短期记忆网络和条件随机场，同时，LSTM还能用于下游的问题生成模型中；

1.2问题生成

再利用1.1中长短时记忆网络来学习评论文本信息；运用注意力机制保留重要的内容并识别出相关实体，从而将其提取出用于生成问题；最后，将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确，生成的问题语句更为通顺；

2.文本表示

将每条评论d表示成由n个词{w₁，w₂，w₃，....，w_n}组成的序列，然后使用预先训练好的词嵌入表将每个词w_i转换成对应的词向量x_i；对于评论d，通过使用一个双向LSTM模型来学习评论的相关内容，即编码层；

训练的LSTM模型，用于一边用于命名实体识别中CRF相连；另一边可用于问题生成模型，与编码层对应的解码层是一个单向的LSTM网络结构；在训练时，接收的是对应问题的文本表示；而在测试时，获取的是前一层发出的状态；最终经过解码层后都会产生一个解码状态s_t；

3.命名实体识别

条件随机场可以学习到句子的约束条件，在CRF层中可以加入一些约束条件保证最终预测结果有效，约束条件可以在训练数据时被CRF层自动学习得到；

将正向LSTM与反向LSTM的隐状态进行拼接得ht，再通过条件随机场(CRF)层，进行句子级的序列标注；使模型对句子x进行打分score(x，y)，再采用softmax得到归一化的概率:

从中选择最优标注实体；

4.产品信息实体标注

为了能够更好的生成与产品息息相关的问题，特别将与产品信息相关的实体信息嵌入到文本学习过程；通过对产品信息相关的实体进行标注，使得生成的问题更加倾向于围绕这些实体展开的问句；

因此，在学习文本信息的过程中，需要判断该词是否为实体并进行标注当该词是一个实体时在其词向量之后加上[1，0]的标签：

x′_i＝contact(x_i，[1，0]) (11)

当该词不是一个实体时在其词向量之后加上[0，1]的标签：

x′_i＝contact(x_i，[0，1]) (12)

其中contact是串联函数，主要作用是将两个向量首尾相连；随后将新生成的词向量x′_i输入网络；

5.注意力机制

模型引入了注意力机制；注意力机制融合了评论信息和问题信息，用来提取最终问题生成的重要词语注意力机制利用文本信息表示h_i与问题信息表示s_t构造文本评论中词汇的权重：

a^t＝softmax(e^t) (14)

这里的v，W_h，W_s，b_attn是模型参数

为了充分考虑到生成问题的词语不仅仅来自于评论本身，还可能出现评论中未包含的词语，在模型的最后增加了词典信息；模型通过基于注意力机制生成的隐层状态加权和

以及解码层状态s_t，对词典中的词汇学习其生成相关问题的概率分布，因此有：

这里的V，V′，b和b′是模型参数P_vocab是词汇表中所有词汇的概率分布；

6.模型训练

在本模型中，为了能够更好的平衡词汇来自词典或来自评论本身，避免未知单词现象，或生成与产品信息无关的问题，对于每一步时间t，增加了一个产生概率p_gen∈[0，1]，它由已经计算得到的

解码状态s_t和编码层的输入x_t获得：

向量

标量b_ptr为模型参数，其中σ代表sigmoid函数；

p_gen相当于一个概率取样，既可以从P_vocab中获取词典中词汇的概率，也可以原文中摘取相关词汇；这样就可以得到一个总体的概率分布：

从式子(17)中可以注意到，如果w不在词汇表之中，那么P_vocab(w)＝0，则问题生成的词语来自从评论中和产品相关联的内容，避免了未知单词问题的产生。

在其中一个实施例中，双向LSTM在单向的基础上，又引入了逆序的LSTM，使得模型不仅可以记忆前面的信息，同时也能记忆后面的信息在双向LSTM网络中t时刻产生的文本表示向量h_t由正向隐层序列

和逆向隐层序列

获得，即:

其中LSTM的历史信息主要由三个门控制：输入门(Input Gate)，遗忘门(ForgetGate)和输出门(Output Gate)。

在其中一个实施例中，以正向LSTM为例，它的主要结构可以表示如下：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_i-1+b⁽ⁱ⁾) (4)

f_t＝σ(W^(f)x_t+U^(f)h_i-1+b^(f)) (5)

O_t＝σ(W^(o)x_t+U^(o)h_i-1+b^(o)) (6)

u_t＝tanh(W^(u)+U^(u)h_i-1+b^(u)) (7)

C_t＝i_t·u_t+f_t·c_t-1 (8)

h_t＝O_t·tanh(C_t) (9)

其中σ是激活函数sigmoid，i_t，f_t，o_t,和C_t分别表示在t时刻对应的三种门结构产生的细胞状态，x_t是在时刻t时的输入字向量。

在其中一个实施例中，使用AdaGrad梯度下降算法进行模型训练过程中的优化。

在其中一个实施例中，使用SkipGram算法来生成词向量。

在其中一个实施例中，命名实体识别中，为了使矩阵更具有鲁棒性，加上START(s)和END(e)两类标签START代表一个句子的开始，END代表一个句子的结束。

在其中一个实施例中，模型的最终损失函数如式(18)-(19)所示，在每个时间t上，损失函数为目标词汇

的负对数似然表示：

基于同样的发明构思，本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

该模型首先将产品相关的信息实体加以标注，使得生成的问题与产品紧密相关。其次，利用基于复制覆盖机制的序列到序列模型，当词汇表中未收录该词时，选取原文词汇，这避免了脱离词典问题，使得生成的问句更加的通顺和灵活。最后，结合注意力机制，增加与产品相关词语的比重。本文使用产品评论数据进行实验，与目前的问题生成模型相比，基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺，而且更加符合本身产品的相关内容。

附图说明

图1是本发明基于商品评论命名实体识别的问题生成方法的模型框架示意图。

图2是本发明基于商品评论命名实体识别的问题生成方法的一个LSTM+CRF神经网络示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本专利研究的主要内容是基于评论信息，生成与产品信息相关的问题。而评论信息内容较短，语句更加口语化，更易出现多种新的未统计的词语，并且生成的问题需要和产品息息相关。因此，以往的问题生成模型不能很好地解决上述挑战，极其容易出现用词不准确、语句不通顺等现象，如下例所示：

[E1]评论信息：这耳机不错，方便，佩戴时，耳朵几乎没什么感觉，贴合度很好。

生成问题：听力怎么样？

[E2]评论信息：可以同时兼容安卓和苹果系统，但是对于苹果系统兼容性不是特别好。

生成问题：苹果系兼容？

从例1中可以看出，当所给的词典中没有和产品信息相符合的词语时，生成的问题就会出现和产品内容不符的状况，从而导致生成的问题和标准问题相差甚远。在例2中，基于神经网络的模型无法准确地划分实体的边界，极其容易出现选择词汇出错，以及语句不通顺的状况。

1.模型总体框架

由于传统的问题生成模型没有充分考虑和产品相关的信息，导致生成的问题可能出现与产品不相关的情况。本专利提出了一种基于命名实体识别的问题生成模型，主要包含命名实体识别和问题生成两大模块。总框架如图1所示。

1.1命名实体识别

首先，我们用命名实体模型将一些和产品信息相关的实体进行标注(利用长短期记忆网络(LSTM)和条件随机场(CRF))生成评论表示信息，以便加强生成的问题和产品之间的相关性，同时LSTM还能用于下游的问题生成模型中。

1.2问题生成

我们再利用1.1中长短期记忆网络(longshort-termmemory)来学习评论文本信息。运用注意力机制保留重要的内容并识别出相关实体，从而将其提取出用于生成问题；最后，将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确，生成的问题语句更为通顺。

1.3总结

我们采用命名实体识别和新的问题生成模型，可以很好的解决所生成问题与产品相关性不匹配的问题，提高问题生成的关联性，并且解决问题生成上易出现的OOV(不在词典中)问题。

2.文本表示

我们将每条评论d表示成由n个词{w₁，w₂，w₃，...，w_n}组成的序列，然后使用预先训练好的词嵌入表将每个词w_i转换成对应的词向量x_i。对于评论d，通过使用一个双向LSTM模型来学习评论的相关内容，即编码层。单向LSTM通过引入多种门来产生隐层的向量序列{h₁，h₂，h₃，...，h_n}，这些向量序列能够长时间的保留重要的信息，并能缓解传统RNN梯度消失的问题。双向LSTM在单向的基础上，又引入了逆序的LSTM，使得模型不仅可以记忆前面的信息，同时也能记忆后面的信息。在双向LSTM网络中t时刻产生的文本表示向量h_t由正向隐层序列

和逆向隐层序列

获得，即:

其中LSTM的历史信息主要由三个门控制：输入门(Input Gate)，遗忘门(ForgetGate)和输出门(Output Gate)，以正向LSTM为例，它的主要结构可以表示如下：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_i-1+b⁽ⁱ⁾) (4)

f_t＝σ(W^(f)x_t+U^(f)h_i-1+b^(f)) (5)

O_t＝σ(W^(o)x_t+U^(o)h_i-1+b^(o)) (6)

u_t＝tanh(W^(u)+U^(u)h_i-1+b^(u)) (7)

C_t＝i_t·u_t+f_t·c_t-1 (8)

h_t＝O_t·tanh(C_t) (9)

我们训练的LSTM模型，用于一边用于命名实体识别中CRF相连。另一边可用于问题生成模型，与编码层对应的解码层是一个单向的LSTM网络结构。在训练时，接收的是对应问题的文本表示；而在测试时，获取的是前一层发出的状态。最终经过解码层后都会产生一个解码状态s_t。

3.命名实体识别

条件随机场(CRF)可以学习到句子的约束条件，在CRF层中可以加入一些约束条件保证最终预测结果有效，约束条件可以在训练数据时被CRF层自动学习得到。

将正向LSTM与反向LSTM的隐状态进行拼接得ht，再通过条件随机场(CRF)层，进行句子级的序列标注。使模型对句子x进行打分score(x，y)，再采用softmax得到归一化的概率:

从中选择最优标注实体。

为了使矩阵更具有鲁棒性，我们加上START(s)和END(e)两类标签。START代表一个句子的开始(不属于句子的第一个单词)，END代表一个句子的结束。

总之通过训练命名实体识别模型，是为了在后期的问题生成任务中对评论信息的实体进行标注，使得问题的生成更加贴近评论信息。

4.产品信息实体标注

本专利提出的模型为了能够更好的生成与产品息息相关的问题，特别将与产品信息相关的实体信息嵌入到文本学习过程。通过对产品信息相关的实体进行标注，使得生成的问题更加倾向于围绕这些实体展开的问句。

因此，在学习文本信息的过程中，需要判断该词是否为实体并进行标注。当该词是一个实体时在其词向量之后加上[1，0]的标签：

x′_i＝contact(x_i，[1，0]) (11)

当该词不是一个实体时我们在其词向量之后加上[0，1]的标签：

x′_i＝contact(x_i，[0，1]) (12)

其中contact是串联函数，主要作用是将两个向量首尾相连。随后将新生成的词向量x′_i输入网络。

5.注意力机制

注意力机制能够从众多信息中保留关键的产品信息，为了能够学习出更加准确的问句，加强与产品相关内容的影响，模型引入了注意力机制。注意力机制融合了评论信息和问题信息，用来提取最终问题生成的重要词语。注意力机制利用文本信息表示h_i与问题信息表示s_t构造文本评论中词汇的权重：

a^t＝softmax(e^t) (14)

这里的v，W_h，W_s，b_attn是模型参数

为了充分考虑到生成问题的词语不仅仅来自于评论本身，还可能出现评论中未包含的词语，在模型的最后增加了词典信息。模型通过基于注意力机制生成的隐层状态加权和

这里的V，V′，b和b′是模型参数。P_vocab是词汇表中所有词汇的概率分布。

6.模型训练

解码状态s_t和编码层的输入x_t获得：

向量

标量b_ptr为模型参数，其中σ代表sigmoid函数。

p_gen相当于一个概率取样，既可以从P_vocab中获取词典中词汇的概率，也可以原文中摘取相关词汇。这样就可以得到一个总体的概率分布：

从式子(17)中可以注意到，如果w不在词汇表之中，那么P_vocab(w)＝0，则问题生成的词语来自从评论中和产品相关联的内容，避免了未知单词问题的产生。相比之下，有很多编码解码模型被预先设定的词汇表所限制，导致生成的词汇不准确或者出现错误。

模型的最终损失函数如式(18)-(19)所示，在每个时间t上，损失函数为目标词汇

的负对数似然表示：

本模型使用AdaGrad梯度下降算法进行模型训练过程中的优化，实验中使用SkipGram算法来生成词向量。

下面给出本发明的一个具体应用场景：

为了更好的理解网络的作用效果，表1展示了其中三个网络生成问题的实例，可以从该实例中分析相关原因。

表1实验结果实例

从第一个网络模型生成的问题中可以看出，当出现未知单词问题时，即“平板”不在词汇表中，一般的神经网络会从词汇表中选择出现概率最大的词，甚至无法生成相关词汇。从而导致生成的问题与标准问题相差甚远。

从指针生成器(Poiner-generator)模型生成的问题中，可以发现该模型可以选取原文的词汇，但是语句可能会出现不通顺的状况，这主要因为该网络不能准确的识别实体，未能准确地划分实体的边界，导致出现词汇生成过多，语句不通的状况。

对比中可以发现，本专利提出的模型产生的问题虽然不能完整的复现标准问题的内容，但是它体现出了该问题的重点，并且准确地运用了实体词汇，形成的语句也更加通顺。

以上对本发明提供的基于商品评论命名实体识别的问题生成方法做了详细的描述，还有以下几点需要说明：

本专利提出了基于命名实体识别的问题生成方法，该模型运用注意力的复制覆盖机制，当词汇表中未收录该词时，选取原文词汇，很好地解决了未知单词的问题。在此基础上，该模型针对评论数据文本较短、用词更加口语化的特性，加入了文本的实体信息，使得生成的问题更关注产品本身，语句也更加通顺。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于商品评论命名实体识别的问题生成方法，其特征在于，包括：

1模型总体框架：

1.1命名实体识别

首先，用命名实体模型将一些和产品信息相关的实体进行标注生成评论表示信息，以便加强生成的问题和产品之间的相关性，其中，标注生成评论表示信息利用长短期记忆网络(LSTM)和条件随机场，同时，LSTM还能用于下游的问题生成模型中；

1.2问题生成

再利用1.1中长短期记忆网络来学习评论文本信息；运用注意力机制保留重要的内容并识别出相关实体，从而将其提取出用于生成问题；最后，将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确，生成的问题语句更为通顺；

2.文本表示

训练的LSTM模型，一边可用于命名实体识别中CRF相连；另一边可用于问题生成模型，与编码层对应的解码层是一个单向的LSTM网络结构；在训练时，接收的是对应问题的文本表示；而在测试时，获取的是前一层发出的状态；最终经过解码层后都会产生一个解码状态s_t；

3.命名实体识别

从中选择最优标注实体；

4.产品信息实体标注

x′_i＝contact(x_i，[1，0]) (11)

当该词不是一个实体时在其词向量之后加上[0，1]的标签：

x′_i＝contact(x_i，[0，1]) (12)

5.注意力机制

a^t＝softmax(e^t) (14)

这里的v，W_h，W_s，b_attn是模型参数

6.模型训练

解码状态s_t和编码层的输入x_t获得：

向量

标量b_ptr为模型参数，其中σ代表sigmoid函数；

2.如权利要求1所述的基于商品评论命名实体识别的问题生成方法，其特征在于，双向LSTM在单向的基础上，又引入了逆序的LSTM，使得模型不仅可以记忆前面的信息，同时也能记忆后面的信息在双向LSTM网络中t时刻产生的文本表示向量h_t由正向隐层序列

和逆向隐层序列

获得，即:

其中LSTM的历史信息主要由三个门控制：输入门(Input Gate)，遗忘门(Forget Gate)和输出门(Output Gate)。

3.如权利要求2所述的基于商品评论命名实体识别的问题生成方法，其特征在于，以正向LSTM为例，它的主要结构可以表示如下：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_i-1+b⁽ⁱ⁾) (4)

f_t＝σ(W^(f)x_t+U^(f)h_i-1+b^(f)) (5)

O_t＝σ(W^(o)x_t+U^(o)h_i-1+b^(o)) (6)

u_t＝tanh(W^(u)+U^(u)h_i-1+b^(u)) (7)

C_t＝i_t·u_t+f_t·c_t-1 (8)

h_t＝O_t·tanh(C_t) (9)

4.如权利要求1所述的基于商品评论命名实体识别的问题生成方法，其特征在于，使用AdaGrad梯度下降算法进行模型训练过程中的优化。

5.如权利要求1所述的基于商品评论命名实体识别的问题生成方法，其特征在于，使用SkipGram算法来生成词向量。

6.如权利要求1所述的基于商品评论命名实体识别的问题生成方法，其特征在于，命名实体识别中，为了使矩阵更具有鲁棒性，加上START(s)和END(e)两类标签START代表一个句子的开始，END代表一个句子的结束。

7.如权利要求1所述的基于商品评论命名实体识别的问题生成方法，其特征在于，模型的最终损失函数如式(18)-(19)所示，在每个时间t上，损失函数为目标词汇

的负对数似然表示：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。