CN111738006A - 基于商品评论命名实体识别的问题生成方法 - Google Patents

基于商品评论命名实体识别的问题生成方法 Download PDF

Info

Publication number
CN111738006A
CN111738006A CN202010574339.8A CN202010574339A CN111738006A CN 111738006 A CN111738006 A CN 111738006A CN 202010574339 A CN202010574339 A CN 202010574339A CN 111738006 A CN111738006 A CN 111738006A
Authority
CN
China
Prior art keywords
model
information
lstm
generated
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010574339.8A
Other languages
English (en)
Inventor
周夏冰
陈楠
肖康
王中卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010574339.8A priority Critical patent/CN111738006A/zh
Publication of CN111738006A publication Critical patent/CN111738006A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明基于商品评论命名实体识别的问题生成方法,该模型首先将产品相关的信息实体加以标注,使得生成的问题与产品紧密相关。其次,利用基于复制覆盖机制的序列到序列模型,当词汇表中未收录该词时,选取原文词汇,这避免了脱离词典问题,使得生成的问句更加的通顺和灵活。最后,结合注意力机制,增加与产品相关词语的比重。本文使用产品评论数据进行实验,与目前的问题生成模型相比,基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺,而且更加符合本身产品的相关内容。

Description

基于商品评论命名实体识别的问题生成方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于商品评论命名实体识别的问题生成方法。
背景技术
自然语言处理作为人工智能领域的璀璨明珠,在自然语言处理的任务中,对于生成问题,当前的研究主要集中在产生与文本内容有关的自然问题,自然问题主要基于已知的词典,无法解决词典之外的问题。研究的主要内容是为评论信息生成与产品信息有关的问题。评论信息通常看起来更短,句子更通俗易懂,并且各种新的词更可能出现,并且所产生的问题需要与产品紧密相关。因此,先前的问题生成模型不能很好地解决上述挑战,并且极容易出现措词不准确和句子不通畅的情况。同时,命名实体识别会影响模型的性能,特别是对于特定领域(如产品评论)中的信息。所产生的问题需要与产品紧密相关。但是,手动标记非常昂贵且主观,因此使用命名实体识别来改善模型性能已成为研究的热点。
问题生成一直是自然语言处理领域的一个研究热点,旨在从文本中生成自然的问句,以推进自然语言处理中的其他任务,如阅读理解,问答等等。近年来,国内外学者对问题生成任务做了相关研究,传统的方法主要是通过手动设置相关规则或模板来生成问题。然而,这类方法需要大量人力,同时生成的问题模式也相对固定,不灵活,尤其应用到新的领域时,仍需要定义新的规则和模板。近段时间,越来越多的学者开始尝试利用神经网络模型来生成问题。
1.基于规则的方法
传统的问题生成主要是基于规则或基于模板的方法。将输入的句子转换成句法表示,然后用来生成疑问句。这类方法大多通过手工构建问题模板,将其应用到生成问题上。Mostow等针对阅读理解生成自问式策略,该策略定义三个模板(how,what,why)来生成问题。Mannem等引入了一个基于语义的系统,该系统使用语法来辅助生成问题。Lindberg等通过使用主要的语义信息构建问题生成的系统模板来生成问题。Chali和Hasan利用主题模型来识别句子的主题作为启发式规则,通过句子的实体和谓词参数结构来生成问题。Mazidi和Tarau考虑了句型出现的频率以及句型传递的语义信息一致性来生成问题。然而,该类方法具有一些共同的缺点:具有依赖性和不可移植性。由于规则可能因人而异,所以系统的维护往往很困难。同时,由于大多系统只具有专有领域制定的相关规则,不容易被迁移到其他领域。除此之外,基于规则或基于模板的方法生成的问题样式比较固定,不能摆脱既定的框架,因此生成的问题不具有灵活性。
2.基于神经网络的方法
为了突破基于人为定制规则的传统方法的束缚,近几年有人开始尝试利用神经网络的模型来解决问题生成任务。Serban等基于结构化的数据(主语,关系,宾语),提出了一种序列到序列的神经网络模型来生成简单的事实问题。Du等提出了基于编码器状态的注意机制序列到序列模型,并在编码层加入词的一些特性来产生问题。Zheng等使用一个基于模板的方法来构造关键句子中的问题,并利用多特征神经网络模型对所有问题进行排序,从而选出top1的问题。Bao等提出了双重对抗网络实现了跨领域问题生成。Zhao等把向量输入至逆向传播神经网络中对网络进行训练,通过信号正方向的传播和逆向的误差传播,直到输出的误差在阈值以内。Xiong等通过基于字符重叠度的部分复制机制,可以使得生成问题中在单词级别和输入文档具有更高的重叠度和相关性。
与以往问题生成研究不同,基于产品评论数据,该数据往往逻辑性差,较为口语化,同样的意思不同人有不同的表述词语,在问题生成上更易出现OOV(不在词典中)问题。同时,基于产品评论的问题生成更注重问题与当前产品息息相关。因此,以往的问题生成模型无法很好的解决上述挑战。
发明内容
本发明要解决的技术问题是提供一种基于商品评论命名实体识别的问题生成方法,该模型首先将产品相关的信息实体加以标注,使得生成的问题与产品紧密相关。其次,利用基于复制覆盖机制的序列到序列模型,当词汇表中未收录该词时,选取原文词汇,这避免了脱离词典问题,使得生成的问句更加的通顺和灵活。最后,结合注意力机制,增加与产品相关词语的比重。本文使用产品评论数据进行实验,与目前的问题生成模型相比,基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺,而且更加符合本身产品的相关内容。
为了解决上述技术问题,本发明提供了一种基于商品评论命名实体识别的问题生成方法,包括:
1模型总体框架:
1.1命名实体识别
首先,用命名实体模型将一些和产品信息相关的实体进行标注生成评论表示信息,以便加强生成的问题和产品之间的相关性,其中,标注生成评论表示信息利用长短期记忆网络和条件随机场,同时,LSTM还能用于下游的问题生成模型中;
1.2问题生成
再利用1.1中长短时记忆网络来学习评论文本信息;运用注意力机制保留重要的内容并识别出相关实体,从而将其提取出用于生成问题;最后,将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确,生成的问题语句更为通顺;
2.文本表示
将每条评论d表示成由n个词{w1,w2,w3,....,wn}组成的序列,然后使用预先训练好的词嵌入表将每个词wi转换成对应的词向量xi;对于评论d,通过使用一个双向LSTM模型来学习评论的相关内容,即编码层;
训练的LSTM模型,用于一边用于命名实体识别中CRF相连;另一边可用于问题生成模型,与编码层对应的解码层是一个单向的LSTM网络结构;在训练时,接收的是对应问题的文本表示;而在测试时,获取的是前一层发出的状态;最终经过解码层后都会产生一个解码状态st
3.命名实体识别
条件随机场可以学习到句子的约束条件,在CRF层中可以加入一些约束条件保证最终预测结果有效,约束条件可以在训练数据时被CRF层自动学习得到;
将正向LSTM与反向LSTM的隐状态进行拼接得ht,再通过条件随机场(CRF)层,进行句子级的序列标注;使模型对句子x进行打分score(x,y),再采用softmax得到归一化的概率:
Figure BDA0002550797840000041
从中选择最优标注实体;
4.产品信息实体标注
为了能够更好的生成与产品息息相关的问题,特别将与产品信息相关的实体信息嵌入到文本学习过程;通过对产品信息相关的实体进行标注,使得生成的问题更加倾向于围绕这些实体展开的问句;
因此,在学习文本信息的过程中,需要判断该词是否为实体并进行标注当该词是一个实体时在其词向量之后加上[1,0]的标签:
x′i=contact(xi,[1,0]) (11)
当该词不是一个实体时在其词向量之后加上[0,1]的标签:
x′i=contact(xi,[0,1]) (12)
其中contact是串联函数,主要作用是将两个向量首尾相连;随后将新生成的词向量x′i输入网络;
5.注意力机制
模型引入了注意力机制;注意力机制融合了评论信息和问题信息,用来提取最终问题生成的重要词语注意力机制利用文本信息表示hi与问题信息表示st构造文本评论中词汇的权重:
Figure BDA0002550797840000051
at=softmax(et) (14)
这里的v,Wh,Ws,battn是模型参数
为了充分考虑到生成问题的词语不仅仅来自于评论本身,还可能出现评论中未包含的词语,在模型的最后增加了词典信息;模型通过基于注意力机制生成的隐层状态加权和
Figure BDA0002550797840000052
以及解码层状态st,对词典中的词汇学习其生成相关问题的概率分布,因此有:
Figure BDA0002550797840000053
Figure BDA0002550797840000054
这里的V,V′,b和b′是模型参数Pvocab是词汇表中所有词汇的概率分布;
6.模型训练
在本模型中,为了能够更好的平衡词汇来自词典或来自评论本身,避免未知单词现象,或生成与产品信息无关的问题,对于每一步时间t,增加了一个产生概率pgen∈[0,1],它由已经计算得到的
Figure BDA0002550797840000055
解码状态st和编码层的输入xt获得:
Figure BDA0002550797840000056
向量
Figure BDA0002550797840000057
标量bptr为模型参数,其中σ代表sigmoid函数;
pgen相当于一个概率取样,既可以从Pvocab中获取词典中词汇的概率,也可以原文中摘取相关词汇;这样就可以得到一个总体的概率分布:
Figure BDA0002550797840000061
从式子(17)中可以注意到,如果w不在词汇表之中,那么Pvocab(w)=0,则问题生成的词语来自从评论中和产品相关联的内容,避免了未知单词问题的产生。
在其中一个实施例中,双向LSTM在单向的基础上,又引入了逆序的LSTM,使得模型不仅可以记忆前面的信息,同时也能记忆后面的信息在双向LSTM网络中t时刻产生的文本表示向量ht由正向隐层序列
Figure BDA0002550797840000062
和逆向隐层序列
Figure BDA0002550797840000063
获得,即:
Figure BDA0002550797840000064
Figure BDA0002550797840000065
Figure BDA0002550797840000066
其中LSTM的历史信息主要由三个门控制:输入门(Input Gate),遗忘门(ForgetGate)和输出门(Output Gate)。
在其中一个实施例中,以正向LSTM为例,它的主要结构可以表示如下:
it=σ(W(i)xt+U(i)hi-1+b(i)) (4)
ft=σ(W(f)xt+U(f)hi-1+b(f)) (5)
Ot=σ(W(o)xt+U(o)hi-1+b(o)) (6)
ut=tanh(W(u)+U(u)hi-1+b(u)) (7)
Ct=it·ut+ft·ct-1 (8)
ht=Ot·tanh(Ct) (9)
其中σ是激活函数sigmoid,it,ft,ot,和Ct分别表示在t时刻对应的三种门结构产生的细胞状态,xt是在时刻t时的输入字向量。
在其中一个实施例中,使用AdaGrad梯度下降算法进行模型训练过程中的优化。
在其中一个实施例中,使用SkipGram算法来生成词向量。
在其中一个实施例中,命名实体识别中,为了使矩阵更具有鲁棒性,加上START(s)和END(e)两类标签START代表一个句子的开始,END代表一个句子的结束。
在其中一个实施例中,模型的最终损失函数如式(18)-(19)所示,在每个时间t上,损失函数为目标词汇
Figure BDA0002550797840000071
的负对数似然表示:
Figure BDA0002550797840000072
Figure BDA0002550797840000073
基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
该模型首先将产品相关的信息实体加以标注,使得生成的问题与产品紧密相关。其次,利用基于复制覆盖机制的序列到序列模型,当词汇表中未收录该词时,选取原文词汇,这避免了脱离词典问题,使得生成的问句更加的通顺和灵活。最后,结合注意力机制,增加与产品相关词语的比重。本文使用产品评论数据进行实验,与目前的问题生成模型相比,基于商品评论的问题生成模型不仅生成的问题会更加的灵活通顺,而且更加符合本身产品的相关内容。
附图说明
图1是本发明基于商品评论命名实体识别的问题生成方法的模型框架示意图。
图2是本发明基于商品评论命名实体识别的问题生成方法的一个LSTM+CRF神经网络示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本专利研究的主要内容是基于评论信息,生成与产品信息相关的问题。而评论信息内容较短,语句更加口语化,更易出现多种新的未统计的词语,并且生成的问题需要和产品息息相关。因此,以往的问题生成模型不能很好地解决上述挑战,极其容易出现用词不准确、语句不通顺等现象,如下例所示:
[E1]评论信息:这耳机不错,方便,佩戴时,耳朵几乎没什么感觉,贴合度很好。
生成问题:听力怎么样?
[E2]评论信息:可以同时兼容安卓和苹果系统,但是对于苹果系统兼容性不是特别好。
生成问题:苹果系兼容?
从例1中可以看出,当所给的词典中没有和产品信息相符合的词语时,生成的问题就会出现和产品内容不符的状况,从而导致生成的问题和标准问题相差甚远。在例2中,基于神经网络的模型无法准确地划分实体的边界,极其容易出现选择词汇出错,以及语句不通顺的状况。
1.模型总体框架
由于传统的问题生成模型没有充分考虑和产品相关的信息,导致生成的问题可能出现与产品不相关的情况。本专利提出了一种基于命名实体识别的问题生成模型,主要包含命名实体识别和问题生成两大模块。总框架如图1所示。
1.1命名实体识别
首先,我们用命名实体模型将一些和产品信息相关的实体进行标注(利用长短期记忆网络(LSTM)和条件随机场(CRF))生成评论表示信息,以便加强生成的问题和产品之间的相关性,同时LSTM还能用于下游的问题生成模型中。
1.2问题生成
我们再利用1.1中长短期记忆网络(longshort-termmemory)来学习评论文本信息。运用注意力机制保留重要的内容并识别出相关实体,从而将其提取出用于生成问题;最后,将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确,生成的问题语句更为通顺。
1.3总结
我们采用命名实体识别和新的问题生成模型,可以很好的解决所生成问题与产品相关性不匹配的问题,提高问题生成的关联性,并且解决问题生成上易出现的OOV(不在词典中)问题。
2.文本表示
我们将每条评论d表示成由n个词{w1,w2,w3,...,wn}组成的序列,然后使用预先训练好的词嵌入表将每个词wi转换成对应的词向量xi。对于评论d,通过使用一个双向LSTM模型来学习评论的相关内容,即编码层。单向LSTM通过引入多种门来产生隐层的向量序列{h1,h2,h3,...,hn},这些向量序列能够长时间的保留重要的信息,并能缓解传统RNN梯度消失的问题。双向LSTM在单向的基础上,又引入了逆序的LSTM,使得模型不仅可以记忆前面的信息,同时也能记忆后面的信息。在双向LSTM网络中t时刻产生的文本表示向量ht由正向隐层序列
Figure BDA0002550797840000101
和逆向隐层序列
Figure BDA0002550797840000102
获得,即:
Figure BDA0002550797840000103
Figure BDA0002550797840000104
Figure BDA0002550797840000105
其中LSTM的历史信息主要由三个门控制:输入门(Input Gate),遗忘门(ForgetGate)和输出门(Output Gate),以正向LSTM为例,它的主要结构可以表示如下:
it=σ(W(i)xt+U(i)hi-1+b(i)) (4)
ft=σ(W(f)xt+U(f)hi-1+b(f)) (5)
Ot=σ(W(o)xt+U(o)hi-1+b(o)) (6)
ut=tanh(W(u)+U(u)hi-1+b(u)) (7)
Ct=it·ut+ft·ct-1 (8)
ht=Ot·tanh(Ct) (9)
其中σ是激活函数sigmoid,it,ft,ot,和Ct分别表示在t时刻对应的三种门结构产生的细胞状态,xt是在时刻t时的输入字向量。
我们训练的LSTM模型,用于一边用于命名实体识别中CRF相连。另一边可用于问题生成模型,与编码层对应的解码层是一个单向的LSTM网络结构。在训练时,接收的是对应问题的文本表示;而在测试时,获取的是前一层发出的状态。最终经过解码层后都会产生一个解码状态st
3.命名实体识别
条件随机场(CRF)可以学习到句子的约束条件,在CRF层中可以加入一些约束条件保证最终预测结果有效,约束条件可以在训练数据时被CRF层自动学习得到。
将正向LSTM与反向LSTM的隐状态进行拼接得ht,再通过条件随机场(CRF)层,进行句子级的序列标注。使模型对句子x进行打分score(x,y),再采用softmax得到归一化的概率:
Figure BDA0002550797840000111
从中选择最优标注实体。
为了使矩阵更具有鲁棒性,我们加上START(s)和END(e)两类标签。START代表一个句子的开始(不属于句子的第一个单词),END代表一个句子的结束。
总之通过训练命名实体识别模型,是为了在后期的问题生成任务中对评论信息的实体进行标注,使得问题的生成更加贴近评论信息。
4.产品信息实体标注
本专利提出的模型为了能够更好的生成与产品息息相关的问题,特别将与产品信息相关的实体信息嵌入到文本学习过程。通过对产品信息相关的实体进行标注,使得生成的问题更加倾向于围绕这些实体展开的问句。
因此,在学习文本信息的过程中,需要判断该词是否为实体并进行标注。当该词是一个实体时在其词向量之后加上[1,0]的标签:
x′i=contact(xi,[1,0]) (11)
当该词不是一个实体时我们在其词向量之后加上[0,1]的标签:
x′i=contact(xi,[0,1]) (12)
其中contact是串联函数,主要作用是将两个向量首尾相连。随后将新生成的词向量x′i输入网络。
5.注意力机制
注意力机制能够从众多信息中保留关键的产品信息,为了能够学习出更加准确的问句,加强与产品相关内容的影响,模型引入了注意力机制。注意力机制融合了评论信息和问题信息,用来提取最终问题生成的重要词语。注意力机制利用文本信息表示hi与问题信息表示st构造文本评论中词汇的权重:
Figure BDA0002550797840000121
at=softmax(et) (14)
这里的v,Wh,Ws,battn是模型参数
为了充分考虑到生成问题的词语不仅仅来自于评论本身,还可能出现评论中未包含的词语,在模型的最后增加了词典信息。模型通过基于注意力机制生成的隐层状态加权和
Figure BDA0002550797840000122
以及解码层状态st,对词典中的词汇学习其生成相关问题的概率分布,因此有:
Figure BDA0002550797840000123
Figure BDA0002550797840000124
这里的V,V′,b和b′是模型参数。Pvocab是词汇表中所有词汇的概率分布。
6.模型训练
在本模型中,为了能够更好的平衡词汇来自词典或来自评论本身,避免未知单词现象,或生成与产品信息无关的问题,对于每一步时间t,增加了一个产生概率pgen∈[0,1],它由已经计算得到的
Figure BDA0002550797840000125
解码状态st和编码层的输入xt获得:
Figure BDA0002550797840000126
向量
Figure BDA0002550797840000127
标量bptr为模型参数,其中σ代表sigmoid函数。
pgen相当于一个概率取样,既可以从Pvocab中获取词典中词汇的概率,也可以原文中摘取相关词汇。这样就可以得到一个总体的概率分布:
Figure BDA0002550797840000128
从式子(17)中可以注意到,如果w不在词汇表之中,那么Pvocab(w)=0,则问题生成的词语来自从评论中和产品相关联的内容,避免了未知单词问题的产生。相比之下,有很多编码解码模型被预先设定的词汇表所限制,导致生成的词汇不准确或者出现错误。
模型的最终损失函数如式(18)-(19)所示,在每个时间t上,损失函数为目标词汇
Figure BDA0002550797840000131
的负对数似然表示:
Figure BDA0002550797840000132
Figure BDA0002550797840000133
本模型使用AdaGrad梯度下降算法进行模型训练过程中的优化,实验中使用SkipGram算法来生成词向量。
下面给出本发明的一个具体应用场景:
为了更好的理解网络的作用效果,表1展示了其中三个网络生成问题的实例,可以从该实例中分析相关原因。
表1实验结果实例
Figure BDA0002550797840000134
从第一个网络模型生成的问题中可以看出,当出现未知单词问题时,即“平板”不在词汇表中,一般的神经网络会从词汇表中选择出现概率最大的词,甚至无法生成相关词汇。从而导致生成的问题与标准问题相差甚远。
从指针生成器(Poiner-generator)模型生成的问题中,可以发现该模型可以选取原文的词汇,但是语句可能会出现不通顺的状况,这主要因为该网络不能准确的识别实体,未能准确地划分实体的边界,导致出现词汇生成过多,语句不通的状况。
对比中可以发现,本专利提出的模型产生的问题虽然不能完整的复现标准问题的内容,但是它体现出了该问题的重点,并且准确地运用了实体词汇,形成的语句也更加通顺。
以上对本发明提供的基于商品评论命名实体识别的问题生成方法做了详细的描述,还有以下几点需要说明:
本专利提出了基于命名实体识别的问题生成方法,该模型运用注意力的复制覆盖机制,当词汇表中未收录该词时,选取原文词汇,很好地解决了未知单词的问题。在此基础上,该模型针对评论数据文本较短、用词更加口语化的特性,加入了文本的实体信息,使得生成的问题更关注产品本身,语句也更加通顺。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于商品评论命名实体识别的问题生成方法,其特征在于,包括:
1模型总体框架:
1.1命名实体识别
首先,用命名实体模型将一些和产品信息相关的实体进行标注生成评论表示信息,以便加强生成的问题和产品之间的相关性,其中,标注生成评论表示信息利用长短期记忆网络(LSTM)和条件随机场,同时,LSTM还能用于下游的问题生成模型中;
1.2问题生成
再利用1.1中长短期记忆网络来学习评论文本信息;运用注意力机制保留重要的内容并识别出相关实体,从而将其提取出用于生成问题;最后,将文本保留的重要词汇与已有的词汇表相结合从而使得用词更加准确,生成的问题语句更为通顺;
2.文本表示
将每条评论d表示成由n个词{w1,w2,w3,....,wn}组成的序列,然后使用预先训练好的词嵌入表将每个词wi转换成对应的词向量xi;对于评论d,通过使用一个双向LSTM模型来学习评论的相关内容,即编码层;
训练的LSTM模型,一边可用于命名实体识别中CRF相连;另一边可用于问题生成模型,与编码层对应的解码层是一个单向的LSTM网络结构;在训练时,接收的是对应问题的文本表示;而在测试时,获取的是前一层发出的状态;最终经过解码层后都会产生一个解码状态st
3.命名实体识别
条件随机场可以学习到句子的约束条件,在CRF层中可以加入一些约束条件保证最终预测结果有效,约束条件可以在训练数据时被CRF层自动学习得到;
将正向LSTM与反向LSTM的隐状态进行拼接得ht,再通过条件随机场(CRF)层,进行句子级的序列标注;使模型对句子x进行打分score(x,y),再采用softmax得到归一化的概率:
Figure FDA0002550797830000021
从中选择最优标注实体;
4.产品信息实体标注
为了能够更好的生成与产品息息相关的问题,特别将与产品信息相关的实体信息嵌入到文本学习过程;通过对产品信息相关的实体进行标注,使得生成的问题更加倾向于围绕这些实体展开的问句;
因此,在学习文本信息的过程中,需要判断该词是否为实体并进行标注当该词是一个实体时在其词向量之后加上[1,0]的标签:
x′i=contact(xi,[1,0]) (11)
当该词不是一个实体时在其词向量之后加上[0,1]的标签:
x′i=contact(xi,[0,1]) (12)
其中contact是串联函数,主要作用是将两个向量首尾相连;随后将新生成的词向量x′i输入网络;
5.注意力机制
模型引入了注意力机制;注意力机制融合了评论信息和问题信息,用来提取最终问题生成的重要词语注意力机制利用文本信息表示hi与问题信息表示st构造文本评论中词汇的权重:
Figure FDA0002550797830000022
at=softmax(et) (14)
这里的v,Wh,Ws,battn是模型参数
为了充分考虑到生成问题的词语不仅仅来自于评论本身,还可能出现评论中未包含的词语,在模型的最后增加了词典信息;模型通过基于注意力机制生成的隐层状态加权和
Figure FDA0002550797830000031
以及解码层状态st,对词典中的词汇学习其生成相关问题的概率分布,因此有:
Figure FDA0002550797830000032
Figure FDA0002550797830000033
这里的V,V′,b和b′是模型参数Pvocab是词汇表中所有词汇的概率分布;
6.模型训练
在本模型中,为了能够更好的平衡词汇来自词典或来自评论本身,避免未知单词现象,或生成与产品信息无关的问题,对于每一步时间t,增加了一个产生概率pgen∈[0,1],它由已经计算得到的
Figure FDA0002550797830000034
解码状态st和编码层的输入xt获得:
Figure FDA0002550797830000035
向量
Figure FDA0002550797830000036
标量bptr为模型参数,其中σ代表sigmoid函数;
pgen相当于一个概率取样,既可以从Pvocab中获取词典中词汇的概率,也可以原文中摘取相关词汇;这样就可以得到一个总体的概率分布:
Figure FDA0002550797830000037
从式子(17)中可以注意到,如果w不在词汇表之中,那么Pvocab(w)=0,则问题生成的词语来自从评论中和产品相关联的内容,避免了未知单词问题的产生。
2.如权利要求1所述的基于商品评论命名实体识别的问题生成方法,其特征在于,双向LSTM在单向的基础上,又引入了逆序的LSTM,使得模型不仅可以记忆前面的信息,同时也能记忆后面的信息在双向LSTM网络中t时刻产生的文本表示向量ht由正向隐层序列
Figure FDA0002550797830000038
和逆向隐层序列
Figure FDA0002550797830000039
获得,即:
Figure FDA00025507978300000310
Figure FDA0002550797830000041
Figure FDA0002550797830000042
其中LSTM的历史信息主要由三个门控制:输入门(Input Gate),遗忘门(Forget Gate)和输出门(Output Gate)。
3.如权利要求2所述的基于商品评论命名实体识别的问题生成方法,其特征在于,以正向LSTM为例,它的主要结构可以表示如下:
it=σ(W(i)xt+U(i)hi-1+b(i)) (4)
ft=σ(W(f)xt+U(f)hi-1+b(f)) (5)
Ot=σ(W(o)xt+U(o)hi-1+b(o)) (6)
ut=tanh(W(u)+U(u)hi-1+b(u)) (7)
Ct=it·ut+ft·ct-1 (8)
ht=Ot·tanh(Ct) (9)
其中σ是激活函数sigmoid,it,ft,ot,和Ct分别表示在t时刻对应的三种门结构产生的细胞状态,xt是在时刻t时的输入字向量。
4.如权利要求1所述的基于商品评论命名实体识别的问题生成方法,其特征在于,使用AdaGrad梯度下降算法进行模型训练过程中的优化。
5.如权利要求1所述的基于商品评论命名实体识别的问题生成方法,其特征在于,使用SkipGram算法来生成词向量。
6.如权利要求1所述的基于商品评论命名实体识别的问题生成方法,其特征在于,命名实体识别中,为了使矩阵更具有鲁棒性,加上START(s)和END(e)两类标签START代表一个句子的开始,END代表一个句子的结束。
7.如权利要求1所述的基于商品评论命名实体识别的问题生成方法,其特征在于,模型的最终损失函数如式(18)-(19)所示,在每个时间t上,损失函数为目标词汇
Figure FDA0002550797830000051
的负对数似然表示:
Figure FDA0002550797830000052
Figure FDA0002550797830000053
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项所述的方法。
CN202010574339.8A 2020-06-22 2020-06-22 基于商品评论命名实体识别的问题生成方法 Pending CN111738006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010574339.8A CN111738006A (zh) 2020-06-22 2020-06-22 基于商品评论命名实体识别的问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010574339.8A CN111738006A (zh) 2020-06-22 2020-06-22 基于商品评论命名实体识别的问题生成方法

Publications (1)

Publication Number Publication Date
CN111738006A true CN111738006A (zh) 2020-10-02

Family

ID=72650420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010574339.8A Pending CN111738006A (zh) 2020-06-22 2020-06-22 基于商品评论命名实体识别的问题生成方法

Country Status (1)

Country Link
CN (1) CN111738006A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112668308A (zh) * 2020-12-30 2021-04-16 上海犀语科技有限公司 一种基于内容分类的营销文本短句生成方法
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN114579710A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种高速列车问题查询模板生成方法
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴璠 等: "基于文本和用户信息的在线评论质量检测", 《中文信息学报》, pages 107 - 112 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112668308A (zh) * 2020-12-30 2021-04-16 上海犀语科技有限公司 一种基于内容分类的营销文本短句生成方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN112926324B (zh) * 2021-02-05 2022-07-29 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
US11475225B2 (en) 2021-03-22 2022-10-18 National University Of Defense Technology Method, system, electronic device and storage medium for clarification question generation
CN114579710A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种高速列车问题查询模板生成方法
CN114579710B (zh) * 2022-03-15 2023-04-25 西南交通大学 一种高速列车问题查询模板生成方法
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法

Similar Documents

Publication Publication Date Title
CN111738006A (zh) 基于商品评论命名实体识别的问题生成方法
CN109902298B (zh) 一种自适应学习系统中领域知识建模及知识水平估测方法
CN111563166B (zh) 一种针对数学问题分类的预训练模型方法
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN112699688B (zh) 一种篇章关系可控的文本生成方法和系统
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN112131367A (zh) 自审核的人机对话方法、系统及可读存储介质
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN112101044A (zh) 一种意图识别方法、装置及电子设备
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN115964459A (zh) 基于食品安全认知图谱的多跳推理问答方法及系统
WO2021159803A1 (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination