CN110298436B

CN110298436B - 基于指针生成网络的数据到文本的生成模型

Info

Publication number: CN110298436B
Application number: CN201910573445.1A
Authority: CN
Inventors: 琚生根; 孙萌欣; 刘实; 赖星宇; 王霞
Original assignee: Leshan Jinmi Industrial Guard Service Co ltd
Current assignee: Leshan Jinmi Industrial Guard Service Co ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2023-05-09
Anticipated expiration: 2039-06-28
Also published as: CN110298436A

Abstract

本发明公开了基于指针生成网络的数据到文本的生成模型，包括(1)建立输入层；(2)建立属性注意力机制；(3)建立指针生成网络；(4)建立覆盖机制；(5)建立注意力分布门控；(6)进行训练等步骤。本发明提供基于指针生成网络的数据到文本的生成模型，能够提供基于指针生成网络的数据到文本的生成模型，利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题，且引入槽‑值对数据的结构语义知识从而更好地对齐属性和值，在此基础上，不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性，还引入注意力分布门控调整注意力分布的尖锐度，更好地对齐槽‑值对数据与生成的文本。

Description

基于指针生成网络的数据到文本的生成模型

技术领域

本发明属于计算机领域，具体是指基于指针生成网络的数据到文本的生成模型。

背景技术

自然语言生成和自然语言理解是自然语言处理的两个主要技术领域。自然语言理解(如命名实体识别等)的目标是帮助机器更好地理解自然语言。不同于自然语言理解任务，自然语言生成任务的目标是帮助机器生成人类能够理解的自然语言。自然语言生成包括文本到文本生成，如机器翻译、文本摘要等；非结构化数据的文本生成，如图片标题生成等；数据到文本生成。

数据到文本生成其输入为槽-值对数据，输出为表达槽-值对数据的文本。其在现实中被广泛应用，如根据体育比赛数据生成新闻、根据LinkedIn数据生成用户档案等，与人工生成文本相比更高效。

目前数据到文本生成的研究方法大致分为两种，一种是基于规则或统计的方法，其采用流水线结构，主要包括内容规划(确定句子的整体结构)、句子规划(确定单词形式)、句子实现(类似于润色)等阶段。流水线结构需要逐步搭建和调优，容易造成错误累积，并且不能够捕获不同阶段之间的交互。基于简单规则的方法通过设计并填充模板以生成文本，然而设计模板需依赖专家或领域知识，且在复杂情况下几乎不可能涵盖所有的规则，扩展性较差。基于统计的方法通过从历史数据中学习模板来减少时间成本。但是，统计方法容易产生错误的文本，不能满足整合信息的要求。另一种是基于注意力机制的编码器-解码器模型，该模型以端到端的方式对内容规划和句子规划进行联合训练。该类研究工作未充分考虑从槽-值对数据生成文本相关的任务背景，生成的文本的质量仍有待提升。

发明内容

本发明的目的在于克服上述问题，提供基于指针生成网络的数据到文本的生成模型，利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题，且引入槽-值对数据的结构语义知识从而更好地对齐属性和值，在此基础上，不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性，还引入注意力分布门控调整注意力分布的尖锐度，更好地对齐槽-值对数据与生成的文本。

本发明的目的通过下述技术方案实现：

基于指针生成网络的数据到文本的生成模型，包括以下建立步骤：

(1)建立输入层；

(2)建立属性注意力机制；

(3)建立指针生成网络；

(4)建立覆盖机制；

(5)建立注意力分布门控；

(6)进行训练；

(7)完成预测。

步骤(1)的具体方式为：

令模型输入序列为x，目标输出文本为y＝{y₁,y₂,…,y_T}，其中y_t是在t时刻生成的单词，设T为目标文本的长度，即T为文本最后一个词的时刻，t为文本中某一个时刻；

基础模型将属性-值对序列看作一个顺序序列作为输入，输入序列词嵌入为x＝[s₁,v_1,1,…,v_1,k,…,s_i,v_i,1,…,v_i,k′,…]，其中，s_i表示第i个属性名，v_i表示s_i对应的属性值序列；

本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x＝[(s₁,v₁),…,(s_J,v_J)]，其中[v₁,…,v_J]是值词嵌入序列，[s₁,…,s_J]是值序列对应的属性名词嵌入序列，设J为序列长度，j则为(1，……，J)中任意一个序列；

利用LSTM对x进行编码来初始化解码器隐藏状态

步骤(2)的具体方式为：

在解码时间步t计算每个属性-值对和解码器隐藏状态

的注意力分数e_t,j：

其中W_h、W_s、W_v为神经网络的权重，b_e为神经网络的偏差参数；并进行归一化得到注意力权重，

表示每个属性-值对与生成的目标词的相关程度，权重越高表示越相关：

其中分母为exp(e_t,k)的累加，下标k从1到J；

然后，分别为属性序列和值序列构建对应的上下文向量，得到

利用属性名序列和属性值序列的上下文向量

和解码器隐藏状态

计算注意力隐藏状态，以此加入属性信息的控制：

其中W_z为神经网络的权重，b_z为神经网络的偏差参数。

步骤(3)的具体方式为：

在解码过程中，输入中的单词V_x动态地扩展固定词汇表V，包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>，即V_ext＝V∪V_x，得到扩展词汇表V_ext；

模型在扩展词汇表上的概率分布由固定词汇表上的概率分布P_g(y_t)和输入序列上的注意力分布P_c(y_t)插值得到；

其中，p_gen,t∈(0,1)是生成概率，其利用上下文向量

解码器隐藏状态

以及上一时间步解码器输出y_t-1计算；

其中W_s,s、W_s,v、W_s,h、W_y为神经网络的权重，b_s为神经网络的偏差参数；

固定词汇表上的概率分布P_g(y_t)计算为：

其中W_d2v为神经网络的权重，b_d2v为神经网络的偏差参数；

输入序列上的注意力分布P_c(y_t)是所有出现的目标词的注意力权重之和：

可以看出，如果y_t是一个未登录词，则P_g(y_t)为0；同样如果y_t没有出现在输入样本中，则P_c(y_t)为0。

步骤(4)的具体方式为：

在每个解码时间步t构建一个覆盖向量

向量的每个维度表示每个输入词在未来要表达的程度，覆盖向量

每个维度初始化为1；

覆盖向量

的更新方式为，在覆盖向量的每个维度上使用初始值减去该维度上的所有先前解码时间步的注意力权重之和：

其中Φ_j表示x_j生成单词的个数，其定义为：

N∈是预定义的常量，表示输入词可以生成目标词数的最大值，

是编码隐藏状态；

注意力分数计算为：

其中W_h、W_s、W_v为神经网络的权重，b_e为神经网络的偏差参数；

一个输入词未表达的信息越多，其覆盖向量对应的值越大，覆盖向量作为注意力分数计算公式的系数，未表达信息越多的词的系数越大，其相应的注意力分数就越大。

步骤(5)的具体方式为：

首先计算时间步t的门控参数τ_t，其根据分别表示将要表达的信息和已表达的信息的当前时间步的解码信息

以及前一时间步的上下文向量

来学习，在第一个解码时间步用解码器初始状态进行初始化:

其中W_z,s、W_z,v、W_z,h为神经网络的权重，λ为一个大于1的超参数，τ_t的范围是(1/λ,λ)；

新的注意力分布计算为：

可以看出，当门控值增大时，注意力分布更平滑；当门控值减小时，注意力分布更尖锐。

步骤(6)的具体公式为：

在训练阶段，根据最大似然估计，最大化标签序列基于输入序列的条件概率：

损失函数即为：

步骤7的具体方式为：

预测阶段的目标是找到一个最优输出序列

满足：

其中Y表示所有可能生成的文本的集合；

预测阶段采用束搜索算法：其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。

本发明与现有技术相比，具有以下优点及有益效果：

本发明相较于现有技术，采用指针生成网络既可以从输入中拷贝单词，又可以从固定词汇表生成单词，同时缓解未登录词和稀有词问题，并且提出基于属性的注意力机制加入属性信息的控制，引入覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值，利用注意力分布门控动态地控制注意力分布的尖锐程度，以将输入属性-值对数据与生成的描述之间更好地对齐，在E2E数据集上进一步提高了文本生成的质量，很好的从准确性和完整性方面提升模型效果。

具体实施方式

下面结合实施例对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例

(1)建立输入层；

具体方式为：

利用LSTM对x进行编码来初始化解码器隐藏状态

LSTM为长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM为本领域的现有技术，在此便不进行赘述。

(2)建立属性注意力机制；

具体方式为：

在解码时间步t计算每个属性-值对和解码器隐藏状态

的注意力分数e_t,j：

其中分母为exp(e_t,k)的累加，下标k从1到J；

利用属性名序列和属性值序列的上下文向量

和解码器隐藏状态

计算注意力隐藏状态，以此加入属性信息的控制：

其中W_z为神经网络的权重，b_z为神经网络的偏差参数。

(3)建立指针生成网络；

具体方式为：

其中，p_gen,t∈(0,1)是生成概率，其利用上下文向量

解码器隐藏状态

以及上一时间步解码器输出y_t-1计算；

固定词汇表上的概率分布P_g(y_t)计算为：

其中W_d2v为神经网络的权重，b_d2v为神经网络的偏差参数；

指针生成(pointer-generator)网络，其通过对词汇表上的概率分布和输入序列中注意力分布插值生成最终概率分布，既具有从输入中拷贝单词的能力，又保留了从固定词汇表生成单词的能力，同时缓解了未登录词和稀有词问题。

(4)建立覆盖机制；

具体方式为：

在每个解码时间步t构建一个覆盖向量

每个维度初始化为1；

覆盖向量

其中Φ_j表示x_j生成单词的个数，其定义为：

是编码隐藏状态；

注意力分数计算为：

覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值。

(5)建立注意力分布门控；

具体方式为：

以及前一时间步的上下文向量

来学习，在第一个解码时间步用解码器初始状态进行初始化:

新的注意力分布计算为：

注意力分布函数(通常为softmax)将注意力分数映射为注意力权重，在大多数情况下，生成词只与部分的输入词相关，与其他输入词完全不相关，这些不相关的词可能会引入噪声而不是提供有用的信息。因此，注意力分布应该是稀疏且尖锐的，稀疏表示大多数输入词的注意力权重接近0，尖锐则表示与生成词最相关的输入词的注意力权重应尽可能大。

句子中的实词和虚词分别与句子的语义和语法相关，注意力分布门控使模型根据生成词的类型自动调整注意力分布的尖锐程度，即使得生成虚词时注意力分布更平滑以捕获语法信息，生成实词时注意力分布更尖锐以捕获语义的信息。

(6)进行训练；

具体公式为：

损失函数即为：

(7)完成预测；

具体方式为：

预测阶段的目标是找到一个最优输出序列

满足：

其中Y表示所有可能生成的文本的集合；

实验例

本实验例采用Heriot-Watt大学在SIGDIAL 2017上发表的论文The E2E Dataset:New Challenges For End-to-End Generation中介绍的面向餐馆领域的E2E数据集，旨在训练端到端、数据驱动自然语言生成系统。

在E2E数据集中，输入是由描述餐馆的三到八个属性-值对组成的MR(MeaningRepresentation)，输出是用自然语言表达的关于该输入餐馆的描述。

表1显示了E2E数据集的一个由八个属性-值对组成的示例样本：

表1

数据集以76.5：8.5：15比例划分为训练集、验证集和测试集，如表2所示：

	训练集	验证集	测试集
				样本	42061	4672	4693
MRs	4862	547	630

表2

在PyTorch深度学习框架下实现模型，在训练集上训练13轮，每轮均训练完整个训练集。每训练完一轮，在验证集上计算BLEU，选择最好BLEU结果的模型的参数。

模型采用Adam优化算法，初始学习率设置为0.0005，批量大小为64，编码器和解码器的词嵌入维度，隐藏单元数均设置为500，并且均为2层LSTM，丢失率和强制教学率均为0.3，源端和目标端长度均为50，此外使用300维的Glove向量初始化词嵌入，且在训练期间不进行微调，设束宽为5。

与现有算法对比试验如下：

本实验通过对比基线模型、E2E数据集上最近模型在测试集上的自动评估结果，以验证本申请模型的有效性。实验采用常用的评估指标BLEU、NIST、METEOR、Rouge-L和CIDEr。结果如表3所示：

模型	BLEU	NIST	METEOR	ROUGE-L	CIDEr
						TGEN	65.93	8.60	44.83	68.50	2.23
TUDA	56.57	7.45	45.29	66.14	1.82
						GONG	64.22	8.34	44.69	66.45	2.27
SHEFF1	60.15	8.30	44.05	67.78	2.17
						Wiseman	59.80	7.56	38.75	65.01	1.95
本申请模型	68.65	8.64	46.01	69.03	2.11

表3

表3中各个模型详解如下：

TGEN：该方法为E2E数据集的基线模型，它将一个MR集合的多个参考文本作为多个训练样本。该模型采用seq2seq为基础框架，在测试阶段加入束搜索和重新排序(re-ranker)，重新排序作用于束搜索产生的k个输出，它是用一个RNN建模生成的文本，然后它在句尾词的隐藏状态上使用多个二分类器，用于训练数据中看到的所有可能的属性-值对，每个分类器采用sigmoid函数为生成的文本产生one-hot向量。此外，也为MR生成one-hot向量，然后将这两个向量之间的汉明距离用作惩罚，从相应生成的文本的对数概率中减去加权罚分；

TUDA：该方法是基于模板的方法，考虑到MR属性值的词汇多样性很低以及MR属在训练数据中的表达方式，设计一个核心模板：“[name]is a[familyFriendly][eatType]which serves[food]food in the[price]price range.It has a[customerRating]customerrating.Itis locatedinthe[area]area,near[near].”。由于每个样本最多包含8个属性，将模板分解，并且针对一些特殊情况手动设计一些规则，例如有些属性可能缺失的情况。

GONG：基线模型中将一组属性-值对的多个参考文本视为不同的训练样本，强迫模型学习生成类似于同一输入的多个参考文本的句子可能会削弱模型生成多样化句子的能力，从而生成更多一般的表达，所以利用REINFORCE算法对TGEN基线模型微调，在训练期间使用单个MR的多个参考文本，将生成的句子和多个参考之间的BLEU作为奖励。

SHEFF1：

等将任务建模为两种动作即内容预测动作和单词预测动作，内容预测动作决定选择哪个属性，反应了在生成文本中的单词顺序，内容预测动作完成后，对每个属性单词预测动作决定从属性的词汇表中选择哪个单词，最后的单词预测动作序列即为生成的文本。其中内容预测动作和单词预测动作由AROW分类器(adaptiveregularizationofweightvectors classifiers)参数化，模仿学习的LOLS算法控制整个搜索过程。该方法在

等人工作的基础上，对每个MR仅保留其词具有最高平均频率的一个参考文本，利用目标探索(targeted exploration)修改LOLS来降低单词预测动作的搜索空间。

Wiseman：该模型采用lstm-hsmm结构，以端到端地方式自动学习模板，并利用神经网络进行参数化。模型训练完后，用训练好的模型计算训练数据的维特比分割，从分割中抽取常用模板，并且将模板与句子、状态与短语进行映射。最后，用训练好的模型和抽取的模板来生成文本。

从表3的结果可以看出基线模型(TGEN)是很强大的，并且神经网络模型比基于模板的模型(TUDA)、LOLS算法(SHEFF1)以及隐半马尔科夫模型(Wiseman)在自动度量指标上总体要好。

从表3中可以看出：

本申请模型在BLRU度量指标上相比TGEN提高了2.22；

本申请模型在METEOR指标上相比TGEN和TUDA分别提高了1.18和0.72；

本申请模型在NIST指标上略高于TGEN约0.04；

本申请模型在ROUGE-L指标上超过TGEN0.53，在一定程度上反应覆盖机制的有效性；

本申请模型在CIDEr指标上表现较为勉强，但是不能掩盖本申请模型在其他指标上的优异。

消融试验：

表4第一行为基础seq2seq+attention模型，记为M*，第二、三行在基础模型上依次加入拷贝机制和属性注意力机制。

表4为系由此对模型效果的影响，拷贝机制会提升模型效果，属性注意力机制在指针生成网络的基础上进行了持续地改进。

模型	BLEU	NIST	METEOR	ROUGE-L	CIDEr
						M*	58.54	7.54	38.36	62.47	1.72
+pointer	63.36	8.35	43.17	67.24	1.73
						+slot-attn	66.51	8.49	44.52	68.16	1.82

表4

表5中的-gate为本申请模型中未加入注意力分布门控的结果。实验结果表明加入覆盖机制和注意力分布门控后各指标的变化结果：

模型	BLEU	NIST	METEOR	ROUGE-L	CIDEr
						本申请模型	68.65	8.64	46.01	69.03	2.11
-gate	67.67	8.57	45.33	68.72	1.97

表5

如表6所示，进行注意力门控实验，由注意力门控参数的定义可知，其依赖于当前时间步解码器隐藏状态和前一时间步的上下文向量由模型自动学习，是自适应的。本实验验证这种自适应性的有效性，将注意力门控参数值手动设定在0.8-1.2之间，粒度为0.05，且在训练过程中保持不变，以测试集上的BLEU指标为衡量标准。

表6

由表6可以看出，即使固定门控的BLEU峰值也没有超过对应的自适应门控的BLEU值，故而证明了自适应门控是有效的。

模型的输入为几个属性-值对组成的意义表示，每个输入可有多个参考文本。E2E数据集的每个训练样本为输入MR和其对应的某个参考文本。

表7展示了具有“name”、“eatType”、“customer rating”、“near”4个属性的MR的预测结果。参考1-参考6为一个训练样本输入后可能输出的多个参考文本。

表7

带注意力机制的seq2seq模型生成的文本未准确表达输入信息，如将“CaféSicilia”表达为“CaféRouge”。一个词可能会在多个属性中出现，指针网络可能会混淆，例如第8行“name”和“near”属性。而加入属性注意力机制则缓解了将属性值分配给错误属性的情况，如第9行所示。并且第10行和11行为加入覆盖机制和注意力分布门控的模型生成的文本，文本质量较好。

如上所述，便可很好的实现本发明。