CN107133224A

CN107133224A - 一种基于主题词的语言生成方法

Info

Publication number: CN107133224A
Application number: CN201710274116.8A
Authority: CN
Inventors: 赵鑫; 窦洪健; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2017-09-05
Anticipated expiration: 2037-04-25
Also published as: CN107133224B

Abstract

本发明提供一种基于主题词的语言生成方法，使用传统的Seq2Seq模型对上下文以及主题词进行训练，在模型编码部分计算出输入X_i的隐层信息所对应的中间层信息c_i，同时将主题词的词向量也通过注意力机制生成中间层信息o_i，将c_i和o_i通过所述联合注意力机制的结构，使二者共同影响最终生成不仅与上下文相关，而且和主题词相关的序列。本发明提供的一种基于主题词的语言生成方法，而且使得生成的文本更加流畅以及富有多样性，不仅为用户提供了便捷，而且对潜在用户的购买决策起到了导向作用。

Description

一种基于主题词的语言生成方法

技术领域

本发明涉及一种语言生成方法，特别是一种基于主题词利用深度学习以及注意力机制对语言的生成方法。

背景技术

随着互联网技术的发展，在线用户评论对电商和消费者影响重大。研究表明多数消费者在做出购买决策前会在网上收集产品服务相关信息，并且购买后会在网上分享消费体验和购买评价。此外，大量网络用户在购买产品或服务前会阅读用户评论，并且受到评论内容的影响。因此，海量的在线用户评论是帮助消费者发现产品质量和做出相应购买决策的重要信息源。然而，由于现阶段评论过程的繁琐，导致用户不愿意花费较多的时间用于评价购买的对象，它们通常只是利用较短的通用型词语进行评论，一定程度上影响了潜在消费者的购买决策。如何能够在用户给出的较短的语言文字中，得到尽可能准确的信息，从而能针对性对顾客的提供更加优质的服务，成为众多商家极为关注的问题。

自然语言生成(Natural language Generation，NLG)是将数据翻译转化为自然语言表示，它可以看作是相反的自然语言理解：自然语言理解是对输入的句子生成机器的表示语言，而自然语言生成是将概念转化为文字。近年来，以深度学习为代表的自然语言生成技术异军突起，在网络销售等诸多领域获得广泛的关注。

现有的语言生成方法通常是利用现有的规则或者人工设计的模板，现有的语言生成方法有以下几种：

(1)通过模板生成：构造相应的模板，每个模板中包括一些变量和一些常量，文本生成器根据用户输入的内容，将这些内容作为字符串填充到模板中替代变量。

(2)通过模式生成：该方法利用修辞谓词和操作符来构成文本主题的表达顺序。

(3)通过短语/规则扩展(Rhetorical Structure Theory，RST)：该方法认为一段文字的各个组成部分无论是句子、段落甚至由段落构成的章节之间都是按照特定的关系层次内聚起来，根据内聚关系对文本进行生成。

(4)通过属性特征生成：该技术对语言生成的每一部分信息增添属性，直到能够唯一地决定一个输出结果为止。

这些传统的语言生成方法在实际应用时存在以下问题：

(1)通过模板生成虽然简单可行，但生成的文本不完备，质量不高。

(2)通过模式生成虽然生成的文本结构具有层次性，但该方法只适用于结构固定的文章，缺乏灵活性。

(3)RST方法具有较强的灵活性。但是由于句子间具有复杂的语义和语法关系，构建文本规则库并不容易。

(4)基于属性特征的方法概念简单，生成的文本相对灵活，但属性间的内容关系较为复杂，工作量很大，即很难确定什么样的文本变化能够作为属性特征添加进集合中。

随着对语言生成方法的不断改进，现有的比较流行的方法还包括基于循环神经网络(Recurrent Neural Networks,RNNS)和Sequence-to-Sequence(Seq2Seq)的技术。

基于RNNs的生成语言模型是将训练文本输入到RNN语言模型中进行训练。训练结束后，根据给定的内容按照语言模型输出的概率分布进行采样得到下一个词，不断重复这一内容得到完整的生成文本。假设训练数据序列为(x₁,…,x_T)，经过RNN结构得到输出序列(o₁,…,o_T)，然后通过softmax函数得到概率分布P(x_t+1|x_≤t)。生成语言模型的目的是使概率分布最大。RNNS计算公式如下：

h_t＝tanh(W_hxx_t+W_hhh_t-1+b_h) (1)

o_t＝W_ohh_t+b_o (2)

x_t表示输入向量，h_t表示隐含层单元，o_t表示输出单元，W_hx表示输入层到隐含层的权重矩阵，W_hh表示隐含层到隐含层的权重矩阵，b_h和b_o表示偏置。

Seq2Seq模型是将一个序列(sequence)翻译成另一个序列(sequence)，通常被作为翻译模型，而语言生成也是一个“翻译”的过程。其基本结构由两个RNN模型构成，一个作为解码器(encoder)，另一个作为编码器(decoder)，称为RNN Encoder-Decoder。作为encoder的RNN，用于把一个sequence压缩表示成一个固定大小的向量(fixed-lengthvector representation)，即将一段文本进行语义表示。作为decoder的RNN，根据encoder的向量(vector)，生成标记(token)序列，这个token序列就是生成的sequence。在生成过程中，常用极大似然估计进行优化，使得通过encoder和decoder操作后生成文本的概率最大。Seq2Seq结构图如图1所示。

基于RNNS的方法是将上下文encoder，然后再decoder成目标文本。但是这种做法的缺点是，无论上下文context有多长，包含多少信息量，最终都要被压缩成一个几百维的向量。这意味着context越大，最终得到的向量会丢失越多的信息。

目前以Seq2Seq为代表的语言生成模型，对短句子或文本的生成有着较好的效果。但是该模型存在一些问题，它们往往在生成较长文本时的效果较差。因此注意力机制(attention)的引入解决了这一问题，在生成过程中，注意力模型分配给不同中文词语的大小不同的注意力，也就是赋予不同的权值。这意味着在生成每个单词时，原先都是相同的中间语义表示会被替换成根据当前单词而不断变化的值。

Attention模型的结构如图2所示。

计算公式如下：

S_t＝f(S_t-1,y_t-1,c_t) (3)

e_tj＝α(S_t-1,h_j) (6)

S_t是指decoder在t时刻的隐层状态，同Seq2Seq相比，这里的c_t随着encoder的输入而不断变化，它是一个加权求和值。a_tj表示attention模型对encoder每个输入赋予的注意力程度，它的计算同softmax相似。α是用来计算S_t-1，h_j这两者的关系分数，如果分数大则说明关注度较高，注意力分布就会更加集中在这个输入单词上。

虽然基于attention机制的Seq2Seq模型能够生成较好的文本，但是由于模型通常采用模仿训练集中语言的生成方式，训练文本中存在大量的“很好”，“不清楚”等通用型词语，使生成的在线评论趋于“保守”，缺乏多样性，即产生万金油式但几乎没有信息量的语言，导致该模型生成的语言不能够反应任何信息。

发明内容

本发明提出了一种基于主题词的注意力(attention)机制的语言生成方法，使得生成的文本更加流畅以及富有多样性。本专利所述方法利用用户的背景信息(性别、兴趣、爱好等)、用户的打分情况(rating)、评论对象(item)信息以及用户勾选的关键词自动生成社交网站的评论。在线评论的自动生成，而且使得生成的文本更加流畅以及富有多样性，不仅为用户提供了便捷，而且对潜在用户的购买决策起到了导向作用。

附图说明

图1为现有技术的Seq2Seq结构图。

图2为现有技术的Attention结构图。

图3为本发明的LSTM选择激活单元tanh函数图。

图4为本发明的基于主题词的语言生成流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明方法涉及到智能分析、语言生成等技术，可用于在线评论的自动生成，而且使得生成的文本更加流畅以及富有多样性。

本发明在attention模型基础上提出一种基于主题词(topic word)的语言生成模型(T-Seq2Seq)。

T-Seq2Seq模型是基于传统的Seq2Seq框架，利用context和topic word联合attention机制生成目标序列。在模型的encoder部分，利用双向LSTM结构生成输入X的隐层信息LSTM的计算公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (7)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (8)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (9)

c_t＝f_t·c_t-1+i_t·tanh(W_cx+U_ch_t-1+b_c) (10)

h_t＝o_t·tanh(c_t) (11)

其中i_t、o_t、f_t、c_t、h_t分别表示输入门信息、输出门信息、忘记门信息、细胞状态信息以及历史的隐层信息，W_i、W_o、W_f、W_c、U_i、U_o、U_f和U_c分别表示输入门、输出门、忘记门和细胞状态的输入x_t的权值以及输入h_t-1的权重，b_i、b_o、b_f和b_c表示各个控制门对应的偏置。LSTM选择激活单元是tanh函数，如图3所示，它是将一个实数输入映射到[-1,1]范围内。

假定数据集K_i表示topic word的词向量，B_i表示用户的背景，它是由性别、年龄和爱好构成的向量。Item_i表示评价对象(商品或服务)的ID。R_i＝{R_i0,R_i1,R_i2,…R_in}表示用户打分，它是一个j维的one-hot向量，j表示评分范围(通常是1-5)，R_i0表示对该商品i的整体评分，{R_i1,R_i2,…R_in}表示对于商品i的各属性打分，n表示属性个数。对于某条评分生成的上下文向量表示如下：

其中E_i∈R^d×N，d表示商品属性上下文向量的维度，N表示评分i向量对应的维度，d₀表示商品(Item_i)向量的维度。一旦计算出不同评分j(通常是1-5)生成的上下文向量，将它们首尾连接起来生成情感向量C_i。情感向量C_i在topic word的attention结构中也会被使用，情感向量C_i的表示如下：

C_i＝tanh(W[e₀,e₁,e₂,…,e_j]+b) (13)

W和b分别表示对应的权重和偏置。此外，Y_i表示生成的评论。然后利用B_i,C_i,Item_i构建上下文向量X_i。最后利用X_i和K_i生成Y_i，X_i的定义如下：

X_i＝tanh(W[B_i,C_i]+b) (14)

Topic word由两部分组成，一部分来自于用户勾选的关键词，另一部分通过文档主题生成模型(Latent Dirichlet Allocation,LDA)构建文本-主题-主题词之间的关系，在这一过程中，本发明的实现流程如图4所示，首先利用社交平台的评论信息生成评论语料，然后将用户勾选的关键词对应到相应的语料信息中，最后利用语料信息生成相应主题(topic)中概率最高的10个topic word。

首先利用公式(12)找到用户勾选属性词对应的概率最高的topic。具体计算过程如下：

t表示用户勾选属性对应的topic，w表示每个topic下对应的topic word，C_wt表示单词w在topic t中出现的次数。然后利用LDA得到语料信息中该topic下最相关的10个词，利用预先定义好的停用词词表，过滤掉通用型词，例如“很好”，“一般”等。最后利用word2vec训练评论语料，得到topic word的词向量(k₁…k_n)，n表示topic word的个数。

然后利用Seq2Seq模型对context以及topic model进行训练。在模型decoding部分，利用公式(3)、(4)、(5)、(6)计算出输入X_i的隐层信息所对应的中间层信息c_i。此外，同时将topic word的词向量也通过attention机制生成中间层信息o_i。单词k_j所对应的attention权重定义如下：

S_i-1表示decoder在i-1时刻的隐含层状态，h_T表示输入X对应的最后一个隐含层状态，η_o表示一个多层感知机。相比较传统的attention模型，T-Seq2Seq模型更多的强调了topic word对最终生成语言的影响，尽可能的降低了非相关词的影响。然后，将c_i和o_i通过一个联合attention机制的结构，使二者共同影响最终生成的序列，使其不仅与context相关，而且和利用用户勾选属性生成的topic word相关。除了用于生成上下文向量X，情感信息C_i还被应用于topicword的attention机制中，对于每一个topic wordK_j，C_i生成topicword的情感信息M_j定义如下：

T-Seq2Seq定义生成概率P(y_i)＝P_V(y_i)+P_K(y_i)，P_V(y_i)和P_K(y_i)定义如下：

在上述公式中，V是context的词表，K是主题词的词表，f是LSTM单元。ψ_V(s_i,y_i-1,ω)和ψ_K(S_i,y_i-1,ω,c_i,M_ω)定义如下：

σ(·)是tanh激活单元，w表示单词ω的one-hot词向量， b_V和b_K都是网络训练中的参数。A表示归一化参数，它的计算公式如下：

利用T-Seq2Seq模型生成在线评论可以分为两部分，对于非topic word，它的处理机制同传统的Seq2Seq+attention模型类似，只是s_i的隐层信息除了使用c_i以外还利用了topic word的中间层信息o_i；而对于topic word来讲，除了上述传统模型外，还需要一个topic+attention的机制提供一个P_K(y_i)的概率分布。通过该概率进一步提升topic word在生成序列中的影响。由上述公式可知，概率P_K(y_i)取决于decoder的隐层状态s_i，中间层信息c_i，情感信息M_ω以及前词生成的序列y_i-1。这意味着，给定一个context信息，topic word与context越相关，那么它出现在生成序列中的概率就越大，同时情感信息M_ω也会影响生成评论的感情色彩。

此外，为了提升生成评论的语言流畅性，本发明引入了基于FP-growth算法的模板机制，生成相关语料的频繁模式树，得到由频繁词语及词性组成的句子骨架，最后利用句子骨架及上述模型生成的语言构建最终生成的文本。其中所做的处理步骤如下：

(1)第一遍扫描数据库，找出频繁1项集，按降序排列。

(2)第二遍扫描数据库，过滤不频繁集合，并将频繁1项集插入到FP-tree中，相同前缀的路径共用，同时增加一个header table，将FP-tree中相同的item连接起来。

(3)从header table的最下面的item开始，构造每个item的条件模式基。

(4)构造条件FP-tree。过滤掉低于阈值的item。

(5)递归的挖掘每个条件FP-tree，累加后缀频繁项集，直到找到FP-tree为空或FP-tree只有一条路径。

通过T-Seq2Seq模型，主要解决了在线评论生成的四个问题，它们分别是多样化问题、语言流畅性问题、内容完整性问题和感情极性。下面将分别进行解释。

(1)多样性。在传统的语言生成问题中，通常只是利用context信息进行生成，得到的语言通常没有什么心意，只是用一些通用性的词进行替代，这样生成的文本显得有些“保守”。而利用T-Seq2Seq模型，我们将topic word抽象成用户的记忆，凭借用户的“记忆”生成更加富有多样性的语言。其次，我们还将用户的兴趣爱好等作为输入，进一步的提升了用户个性化对生成语言的影响。

(2)语言流畅性。在语言生成过程中，生成文本的第一个词很重要，这是因为它是模型decoder阶段的起始部分，它对接下来生成语言的流畅性产生非常重要的影响。如果第一个词被错误的生成，那么整个文本的流畅性受到严重的影响，甚至会生成完全不同含义的文本。而在传统的Seq2Seq+attention模型中，生成语言的首词通常只由c₀决定，这是因为当t＝0时，s_i-1和y_i-1都不存在。而在T-Seq2Seq模型中，生成语言的首词不只由c₀决定，还受到topic word的o₀影响，也就是说topic word包含的信息能够一定程度上影响首词的生成质量。因此，在语言生成中，利用T-Seq2Seq模型能够较好的生成首词，从而生成流畅性高的语言。此外，本专利利用FP-growth挖掘到的频繁模式集构建生成句子的骨架，从而进一步提升生成文本的流畅性。

(3)内容完整性。内容完整性的含义是指，在生成语言中，应尽可能多的包含用户输入的关键词信息。例如对于旅游网站用户，用户勾选了“快捷”、“舒适”等词，生成的语言中应尽可能多的包含这两方面的信息。在T-Seq2Seq模型中，我们除了利用用户勾选的关键词作为topic word，还选取了关键词对应topic中的概率最大的10个词作为topic，这样能够尽可能多的覆盖到用户输入的信息。

(4)感情极性。感情极性是指通过用户的打分，判断该用户生成评论的感情色彩，即该用户是否推荐该商品或服务。本专利通过用户打分和商品属性，构建情感信息C_i，该向量一部分作为上下文向量X的输入，另一部分用于生成topic word的情感信息M_ω。通过影响上下文向量以及topic word的生成，进一步加强生成评论的感情色彩。

Claims

1.一种基于主题词的语言生成方法，所述方法使用传统的Seq2Seq模型对上下文以及主题词进行训练，所述训练包括在模型编码部分计算出输入X_i的隐层信息所对应的中间层信息c_i，同时将主题词的词向量也通过注意力机制生成中间层信息o_i，将c_i和o_i通过所述联合注意力机制的结构，使二者共同影响最终生成不仅与所述上下文相关，而且和所述主题词相关的序列。

2.如权利要求1所述的方法，其特征在于，所述主题词由两部分组成，所述一部分主题词来自于用户勾选的关键词，另一部分主题词是利用语料信息生成相应主题中高概率的主题词。

3.如权利要求2所述的方法，其特征在于，所述利用语料信息生成相应主题中高概率的主题词是通过文档主题生成模型构建文本-主题-主题词之间的关系生成，在构建所述关系时，首先利用社交平台的评论信息生成评论语料，然后将用户勾选的关键词对应到相应的语料信息中，最后利用语料信息生成相应主题中概率最高的10个主题词。

4.如权利要求3所述的方法，其特征在于，在所述利用语料信息生成相应主题中概率最高的10个主题词受概率分布的影响，所述概率分布取决于编码的隐层状态，中间层信息，情感信息，以及前词生成的序列。

5.如权利要求4所述的方法，其特征在于，所述情感信息取决于所述情感向量C_i，所述某条评分生成的上下文向量表示如下：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mi>j</mi> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mo>{</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>=</mo> <msup> <mi>W</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msub> <mi>Item</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mn>0</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，所述{R_i1,R_i2,…R_in}表示对于商品i的各属性打分，所述n表示属性个数。所述E_i∈R^d×N，d表示商品属性词向量的维度，N表示不同评分i对应属性的数量，所述所述d₀表示商品Item_i向量的维度，当计算出不同评分j生成的上下文向量，将所述由不同评分生成的上下文向量首尾连接起来生成所述情感向量C_i。

6.如权利要求5所述的方法，其特征在于，为了提升生成评论的语言流畅性，引入了基于FP-growth算法的模板机制，生成相关语料的频繁模式树，得到由频繁词语及词性组成的句子骨架，进而构建生成最终文本。