CN112069777B

CN112069777B - 一种基于骨架的二阶段数据到文本生成方法

Info

Publication number: CN112069777B
Application number: CN202010931906.0A
Authority: CN
Inventors: 刘琼昕; 王鹏; 王佳升; 卢士帅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-06-15
Filing date: 2020-09-08
Publication date: 2022-09-30
Anticipated expiration: 2040-09-08
Also published as: CN112069777A

Abstract

本发明涉及一种基于骨架的二阶段数据到文本生成方法，属于人工智能与自然语言生成技术领域。所述方法将数据到文本生成划分为骨架构建和文本生成两个阶段。首先，本方法提出一种基于结构化Transformer的骨架构建模型SCST来构建数据的文本骨架；然后，将文本骨架嵌入到本方法提出的基于骨架的非自回归文本生成模型SNAM中，利用插入与删除操作逐步生成文本。该方法能较好地发掘人物传记类新闻之间的知识关联，在BLEU及ROUGE指标上显著优于传统模型。

Description

一种基于骨架的二阶段数据到文本生成方法

技术领域

本发明涉及一种数据到文本生成方法，具体涉及一种基于骨架的二阶段数据到文本生成方法，属于人工智能与自然语言生成技术领域。

背景技术

随着人工智能的不断发展，人们开始寄希望于机器能够具备像人一样的写作能力，从而辅助人类进行写作甚至替代人类写作，进一步提高数据到文本的转换速度。机器智能写作的核心是自然语言生成技术，而数据到文本生成是自然语言生成领域的典型技术，是实现机器自动写作的关键技术之一。数据到文本生成指的是基于结构化数据生成一段恰当而流畅的描述性文本，它在天气预报、体育新闻报道、人物传记生成等场景上都有着重要的应用价值。

数据到文本生成一般可归结内容选择(Content Selection)和表层实现(SurfaceRealization)两个任务，内容选择指的是从输入中选择合适的内容进行表达，表层实现指的是使用合适的文本来描述所选择的内容。最早期的方法依赖于领域专家的知识，通过制定多条规则来实现上述任务，然而这种方法十分的费时费力，而且在一个领域中制定的规则难以直接应用在其它领域，因此它的泛化能力较差。

随着深度学习技术的发展，基于深度学习的数据到文本生成方法成为了目前研究的重点。Lebret等人在2016年发布了新的人物传记数据集WikiBio，并提出一个基于神经语言模型的方法，该方法配备了拷贝机制，在生成时可以直接从输入数据拷贝相应文本，论文中的实验结果表明基于神经语言模型的方法要远胜于基于统计语言模型的方法。Mei等人在2016年提出了一个基于长短时记忆网络的自回归模型，其中加入了一个粗粒度到细粒度的对齐器(Aligner)，用于识别输入里比较重要的数据库条目，解码器基于这些条目逐步生成文本，该方法在天气预报生成上取得了令人惊艳的效果。Liu等人在2018年提出了结构化的生成模型，在编码时将属性名信息嵌入到LSTM的细胞状态中(Cell State)，使得属性名信息可以直接影响属性值的编码过程，并在解码时引入对偶注意力机制整合属性名和属性值信息，该模型在WikiBio数据集上取得了突出的成果。

上述的数据到文本生成方法主要使用序列到序列的自回归模型，虽然这些方法可以为结构化数据生成较为流畅的文本，但它们仍然存在着两个方面的问题：第一，缺乏对文本的规划，生成的文本中常常会遗漏一些输入数据里的关键信息。第二，自回归模型容易产生“幻觉”，生成不符合输入数据的文本。本发明的目的是致力于解决上述数据到文本生成方法的技术缺陷，提出一种基于骨架的二阶段数据到文本生成方法。

发明内容

本发明的目的是为了解决现有的基于自回归模型的数据到文本生成方法对文本规划不足以及容易产生“幻觉”问题，提出一种基于骨架的二阶段数据到文本生成方法，将数据到文本生成分为骨架构建与文本生成两个阶段，骨架构建阶段由一种基于结构化Transformer的骨架构建模型实现，文本生成阶段由一种基于骨架的非自回归文本生成模型实现。

本发明采用的技术实现方案如下：

(1)在骨架构建阶段，提出一种基于结构化transformer的骨架构建模型，该模型利用输入数据间的结构信息构造文本的骨架；

(2)在文本生成阶段，提出一种基于骨架的非自回归文本生成模型，该模型利用骨架信息，生成逻辑性强且信息丰富的文本；

所述基于骨架的二阶段数据到文本生成方法，包括以下步骤：

步骤1，基于无骨架数据集构建骨架数据集，并对其进行划分，生成骨架训练集和骨架测试集，具体为：

步骤1.1，重构无骨架数据集中的每个数据表，具体为：将属性值中的单词拆开，将每个单词对应的属性名用原始属性名以及该单词在属性值中的正向位置和逆向位置表示；

其中，数据集中的每个数据表都对应一个描述该表的文本；数据表由多条记录组成，每个记录表示为：属性名-属性值；每条记录中的属性值包含多个单词；

步骤1.2，构建数据集中每个数据表的文本骨架，即构建包含文本骨架的数据集，具体包括如下子步骤：

步骤1.2.1，设置每个数据表的文本骨架中不包含任何单词；

步骤1.2.2，枚举该数据表对应文本的每一个单词，若该单词不是停用词且在数据表的属性值列中出现过，则将该单词添加到骨架中；

步骤1.2.3，枚举完每个数据表对应的文本，得到每个数据表对应的骨架；

步骤1.3，按照一定比例，将步骤1.2构建的包含文本骨架的数据集划分为骨架训练集和骨架测试集；

其中，一定比例包括但不限于8：2、7：3、6：4以及5：5；

步骤2，基于骨架数据集对骨架构建模型进行训练和测试，输出训练好的文本骨架构建模型；

其中，骨架构建模型利用输入数据间的结构信息构造文本的骨架,包括Transformer编码器A、Transformer解码器A以及拷贝层；

其中，Transformer编码器A包括属性名编码器A与属性值编码器A，分别对属性名和属性值分别进行编码，得到相应的特征向量；Transformer解码器A对特征向量解码，得到解码器A输出向量；拷贝层对解码器A输出向量进行处理，构建文本骨架；

步骤2，具体包括以下子步骤：

步骤2.1，对于骨架训练集中的每一个数据表，获取属性名输入向量和属性值的输入向量；

步骤2.2，利用骨架构建模型中的属性名编码器A与属性值编码器A，对属性名和属性值的输入向量进行编码，得到属性名与属性值的特征向量；

步骤2.3，利用骨架构建模型中的解码器A对属性名和属性值的特征向量进行解码，得到解码器A的输出向量；

步骤2.4：通过拷贝层对解码器A的输出向量进行处理，生成数据表的文本骨架；

步骤2.5：基于损失函数计算该骨架构建模型的损失，利用梯度下降和反向传播算法，优化骨架构建模型的参数；

步骤2.6，将骨架测试集输入到骨架构建模型进行测试，若效果指标达到要求，停止训练并保存当前骨架构建模型为训练好的文本骨架构建模型，否则跳至步骤2.1；

步骤3，对于骨架数据集中的每一个数据表，利用步骤2得到训练好的文本骨架构建模型，生成对应的文本骨架；

步骤4，对基于骨架的非自回归文本生成模型，进行训练和测试，输出训练好的基于骨架的非自回归文本生成模型；

其中，基于骨架的非自回归文本生成模型，利用骨架信息，生成逻辑性强且信息丰富的文本，包括Transformer编码器B、Transformer解码器B以及操作编辑器；

其中，Transformer编码器B包括属性名编码器B与属性值编码器B；

其中，操作编辑器包括删除编辑器、占位符编辑器以及单词编辑器，删除编辑器实现删除操作产生删除中间序列，占位符编辑器和单词编辑器实现插入操作产生插入中间序列；

步骤4，具体包括以下子步骤：

步骤4.1：在基于骨架的非自回归文本生成模型上执行步骤4.1A、步骤4.1B以及步骤4.1C；

步骤4.1A，对于骨架训练集中的每一个数据表，获取属性名和属性值的输入向量；

步骤4.1B，利用属性名编码器B与属性值编码器B，对属性名和属性值的输入向量进行编码，得到属性名和属性值的特征向量；

步骤4.1C，利用解码器B对属性名和属性值的特征向量进行解码，得到解码器B输出向量；

步骤4.2：将解码器B输出向量输入到删除编辑器中，构建删除中间序列；

步骤4.3：将数据表的骨架输入到占位符编辑器和单词编辑器，构建插入中间序列；

步骤4.4：基于损失函数计算该基于骨架的非自回归文本生成模型的损失，利用梯度下降和反向传播算法，优化基于骨架的非自回归文本生成模型的参数；

步骤4.5：将骨架测试集数据输入到基于骨架的非自回归文本生成模型进行测试，若效果指标达到要求，停止训练并保存当前基于骨架的非自回归文本生成模型为训练好的基于骨架的非自回归文本生成模型，否则跳至步骤4.1；

步骤5：将网络中的数据表输入到训练好的骨架构建模型，生成其文本骨架，然后将文本骨架输入到训练好的基于骨架的非自回归文本生成模型，得到对应的描述文本。

有益效果

本发明所述一种基于骨架的二阶段数据到文本生成方法，与现有技术相比，具有如下有益效果：

1.所述方法与传统的主要采用端到端的自回归神经网络模型的文本生成方法相比，生成文本不容易遗漏关键信息，也不经常生成与输入数据不符合的内容；所述方法能模仿人类写作方法，将文本生成分解为文本骨架构建和文本生成两阶段任务，采用自回归模型和非自回归模型相结合的方法，生成覆盖度和流畅度更优的文本；

2.所述方法在BLEU和ROUGE指标上优于传统方法。

附图说明

图1是本发明一种基于骨架的二阶段数据到文本生成方法中步骤2中骨架构建模型的整体框架图；

图2是骨架构建模型的属性名输入层和属性值输入层的操作示意图；

图3是本发明一种基于骨架的二阶段数据到文本生成方法中步骤4中基于骨架的非自回归文本生成模型的整体框架图；

图4是基于骨架的非自回归文本生成模型的编辑器操作的示意图。

具体实施方式

下面结合附图和实施例对本发明一种基于骨架的二阶段数据到文本生成方法做进一步的说明。

实施例1

本实施例详细阐述了本方法在WikiBio数据集下具体实施时的方法和效果，包括以下步骤：

步骤1：从WikiBio数据集中构建骨架数据集，并对其进行划分，生成骨架训练集和骨架测试集。

其中，WikiBio数据集是一个人物传记数据集，数据集中的每个样本包含一个人物的数据表格以及对应的人物描述文本。

步骤1，具体包括以下步骤：

步骤1.1：重构WikiBio数据集的每个数据表。

其中，WikiBio数据集中的每条样本包含一个人物数据表T，数据表的样式如表1所示。T是多条属性名-属性值记录的集合，记作{R₁,R₂,...,R_P}，p代表记录的数量。每条属性名-属性值记录R_i由属性值中的单词序列{v₁,v₂,...,v_l}及其对应的属性名

构成，l代表R_i的属性值所包含的单词数量。每个人物表格都对应有一条关于该人物的描述文本

n表示文本单词数量。为了更加精准地表示属性值中每个单词的语义，本发明对数据表进行重构。

表1 WikiBio中的一个人物数据表

具体地，对于每条属性名-属性值记录R_i，将属性值中的单词序列拆开，对于序列中的每一个单词w，将其对应的属性名表示为

其中，f_w表示原始属性名，

表示单词w与属性值序列开头的距离，

表示单词w与属性值序列结尾的距离。对于表1进行重构后的数据表如表2所示。

表2：重构后的数据表

步骤1.2：构建WikiBio数据集中每个数据表的文本骨架，即构建包含文本骨架的数据集。

具体包括以下步骤：

步骤1.2.1，设置每个数据表的文本骨架中不包含任何单词。

步骤1.2.2，枚举该数据表对应文本的每一个单词，若该单词不是停用词且在数据表的属性值列中出现过，则将该单词添加到骨架中。

步骤1.2.3，枚举完每个数据表对应的文本后，便得到每个数据表对应的骨架。

步骤1.3：按照一定的比例将骨架数据集划分为训练集和测试集。训练集用于优化骨架构建模型参数，测试集用于测试骨架构建模型效果。

其中，一定比例包括但不限于8：2、7：3、6：4以及5：5。

步骤2：基于骨架数据集对骨架构建模型进行训练和测试，输出训练好的文本骨架构建模型。

其中，骨架构建模型包括Transformer编码器A、Transformer解码器A以及拷贝层，该模型简称为SCST模型，模型的总体架构图如图1所示。

结合图1，对SCST模型的训练过程进行详细说明，具体包含如下步骤。

步骤2.1：将骨架训练集中的每一个数据表输入到SCST模型的属性名输入层和属性值输入层，获取属性名输入向量和属性值的输入向量，具体操作如图2所示。

步骤2.1，具体包括以下步骤：

步骤2.2.1：获得属性名和属性值的表示向量。

其中，数据表T的包含m条属性名-属性值记录，其属性名集合为

属性值集合为{v₁,v₂...,v_m}。

对于T的第i个属性名-属性值记录

和v_i,通过Embedding技术得到对应的嵌入式向量表示

和

之后通过SCST模型中的属性名表示层得到属性名表示向量f_i:

其中，Relu为激活函数，W_f表示可训练的参数矩阵，[；]表示对向量进行拼接。

对数据表T的每条记录执行相同的操作后，得到属性名集合的表示向量{f₁,f₂...,f_m}和属性值集合的表示向量

步骤2.1.2：获取属性名和属性值的输入向量。

具体操作过程如图2所示，对于第i条属性名-属性值记录，得到属性名输入向量

和属性值输入向量

其中，

为i的向量表示，通过Embedding技术得到。

对数据表T的每条记录执行相同的操作后，得到属性名集合的输入向量

和属性值集合的输入向量

步骤2.2：利用Transformer编码器A进行编码，获取属性名特征向量和属性值特征向量。

其中，SCST模型的编码部分由属性名编码器A和属性值编码器A组成，分别对属性名输入向量

和属性值集合的输入向量

进行编码，提取不同颗粒度的数据信息。

按照公式(4)和公式(5)对属性名输入向量和属性值输入向量进行编码。

其中，EBlock_l表示属性名编码器中第l层Transformer编码器模块，EBlock′_l表示属性值编码器中第l层Transformer编码器模块。

将属性名编码器A最后一层输出记为{c₁,c₂,...,c_m}，代表属性名的特征向量，将属性值编码器A最后一层的输出记为{h₁,h₂,...,h_m}，代表属性值的特征向量；

步骤2.3：执行SCST模型的解码部分。

其中，SCST模型的解码部分采用自回归的解码模式，在每一个解码时刻生成一个单词；在解码的t+1时刻，解码器的输入为0-t时刻解码得到的单词序列{s₀,s₁...,s_t}，s₀为起始符号“<s>”；

步骤2.3，具体的解码过程包括如下步骤：

步骤2.3.1：获得解码器A的骨架输入向量。

首先，通过Embedding技术得到{s₀,s₁...,s_t}的嵌入式向量表示

和全局位置嵌入向量表示

然后，通过公式(6)得到骨架输入向量

步骤2.3.2：获得解码器A的输出向量。

按照公式(7)计算解码器A的输出向量。

其中，C＝{c₁,c₂,...,c_m}表示属性名的特征向量，H＝{h₁,h₂,...,h_m}表示属性值的特征向量,DBlock_l表示解码器中第l层Transformer解码器模块。

将解码器A最后一层Transformer解码模块的输出记为{z₀,z₁,...,z_t}，并作为解码器的输出向量。

步骤2.4：利用拷贝机制生成t+1时刻骨架的单词s_t+1。

其中，拷贝机制通过SCST模型中的拷贝层实现，拷贝层利用指针网络的思想，通过注意力机制直接从数据表中拷贝相应的属性值作为预测结果。

步骤2.4，具体包括如下步骤：

步骤2.4.1：通过公式(8)计算解码器A的输出z_t与属性名的特征向量{c₁,c₂,...,c_m}的注意力分布

其中，

其中，W′_q与W′_kc为可训练参数，d_model为c_i的向量维度。

步骤2.4.2：通过公式(10)计算解码器A的输出z_t与属性名的特征向量{h₁,h₂,...,h_m}的注意力分布

其中，

其中，W′_kh为可训练参数。

步骤2.4.3：将

与

进行归一化，得到注意力分布

步骤2.4.4：利用

从数据表中拷贝相应的属性值，作为t+1时刻的生成骨架单词s_t+1。

其中，

步骤2.5：基于损失函数计算该骨架构建模型的损失，利用梯度下降和反向传播算法，优化骨架构建模型的参数。

以数据集中的数据表T为例，其目标骨架为

q为骨架长度,属性名集合

属性值集合为V＝{v₁,v₂...,v_m}。模型的训练目标如公式(15)所示。

其中，θ代表SCST模型的参数。

步骤2.6，将骨架测试集输入到骨架构建模型进行测试，若效果指标达到要求，停止训练并保存当前骨架构建模型为训练好的文本骨架构建模型，否则跳至步骤2.1。

步骤3，对于骨架数据集中的每一个数据表T，根据步骤2得到训练好的SCST模型，生成对应的文本骨架

步骤4：对基于文本骨架的非自回归文本生成模型，进行训练和测试，输出训练好的基于文本骨架的非自回归文本生成模型。

其中，基于骨架的非自回归文本生成模型包括Transformer编码器B、Transformer解码器B以及操作编辑器，该模型简称SNAM模型，总体架构如图3所示；

图4表示SNAM单次训练迭代过程，以第k次迭代过程为例，结合图4对SNAM模型的训练过程进行说明，具体包括以下步骤：

步骤4.1：获取SNAM模型解码器B输出向量。

对于k-1次迭代生成的文本序列Y^k-1,在SNAM模型上执行步骤4.1A、步骤4.1B以及步骤4.1C。

步骤4.1A，对于骨架训练集中的每一个数据表，获取属性名输入向量和属性值的输入向量；

步骤4.1B，利用基于骨架的非自回归文本生成模型中的属性名编码器B与属性值编码器B，对属性名和属性值的输入向量进行编码，得到属性名的特征向量与属性值的特征向量；

步骤4.1C，利用基于骨架的非自回归文本生成模型中的解码器B对属性值和属性名的特征向量进行解码，得到解码器B输出向量

其中，

其中n+1表示序列长度,

表示起始符<s>,

表示结束符</s>。

步骤4.2：通过基于骨架的删除策略

构建删除操作的中间序列

其中，基于骨架删除策略

对骨架

和第k-1次迭代过程删除操作产生的中间序列

进行采样,构建删除中间序列

采样过程如公式(16)所示。

其中，α∈[0,1]表示策略

的采样阈值，u∈Uniform[0,1]，

为插入占位符操作，

为每一个占位符填充单词操作。ε为环境函数，返回对序列执行操作后得到的新序列。

步骤4.3：通过基于骨架的插入策略

构建插入操作的中间序列

其中，基于骨架插入策略

对骨架

和第k-1次迭代过程插入操作产生的中间序列

进行采样，构建插入中间序列

采样过程如公式(19)所示。

其中，β∈[0,1]表示策略

的采样阈值，u∈Uniform[0,1]，

为删除单词操作。

步骤4.4：对SNAM模型进行训练和测试，输出训练好的SNAM模型。

具体包括以下步骤：

步骤4.4.1：计算删除操作和插入操作的损失值。

将删除中间序列

输入到公式(21)，计算删除操作的损失值。

其中，n表示

的长度，d_i为在

的第i个位置执行删除操作。

将插入中间序列

输入到公式(22)，计算插入操作的损失值。

其中，

p_i为在

的第i个位置执行添加占位符操作,<pth>表示占位符，

为

经过执行添加占位符操作得到的中间序列,t_i为在

的第i个占位符位置执行插入单词操作。

步骤4.4.2：计算词袋损失。

其中，词袋损失使SNAM模型可以捕捉到句子层面的语义。词袋损失使用句子的词袋表示作为训练目标，对于给定待填充单词的中间序列

以及目标序列

具体计算过程如公式(23)所示。

其中，P_low是一个维度为输出词表长度的向量，计算过程为公式(24)所示。

表示填充的所有单词中存在

的概率。

其中，W_vocab为输出词汇表的Embedding矩阵，

为

通过SNAM模型的结构化Transformer得到的隐向量。

步骤4.4.3：通过公式(25),计算SNAM模型的总损失值，将总损失值通过反向传播算法输入到SNAM模型中，优化SNAM模型参数。

步骤4.5：将骨架测试集数据输入到SNAM模型进行测试，若效果指标达到要求，停止训练并保存当前SNAM模型为训练好的SNAM模型，否则跳至步骤4.1。

步骤5：根据训练好的SCST模型和SNAM模型，针对网络中的数据表，首先通过SCST模型生成其文本骨架，然后利用SNAM模型得到对应的描述文本。

实验验证对比如下：

本发明方法和各种基准方法的实验对比结果如表1所示，在BLEU和ROUGE指标上，利用本发明方法均取得最好的效果。

表1实验对比效果

方法	BLEU	ROUGE
			Table NLM	34.70	25.80
Order-Plan	43.91	37.15
			PtrGen	44.11	40.57
Transformer	44.87	40.89
			Struct-Aware	44.91	41.33
SNAM(Only)	42.81	39.99
			本方法：SNAM+SCST	45.46	41.47

表2展示了本发明在人工评测上的结果，从中可以看出，SNAM+SCST在真实性和覆盖度上均优于基线方法，这说明二阶段的生成方法可以减少模型生成错误内容的可能性，生成更加符合输入数据的文本，生成的文本对输入数据的描述也更加全面细致。此外，SNAM+SCST生成的文本在流畅度上也超过基线方法。

表2：人工评测结果

方法	流畅度	真实性	覆盖度
				Transformer	4.55	3.92	3.29
Struct-Aware	4.63	3.86	3.42
				本方法：SNAM+SCST	4.66	4.15	3.53

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于骨架的二阶段数据到文本生成方法，其特征在于：包括以下步骤：

步骤1，基于无骨架数据集构建骨架数据集，并对其进行划分，生成骨架训练集和骨架测试集；

步骤4，具体包括以下子步骤：

步骤4.2：将解码器B的输出向量输入到删除编辑器中，构建删除中间序列；

2.根据权利要求1所述的一种基于骨架的二阶段数据到文本生成方法，其特征在于：步骤1，具体为：

步骤1.2，构建数据集中每个数据表的文本骨架，即构建包含文本骨架的数据集；

步骤1.3，按照一定比例，将步骤1.2构建的包含文本骨架的数据集划分为骨架训练集和骨架测试集。

3.根据权利要求2所述的一种基于骨架的二阶段数据到文本生成方法，其特征在于：步骤1.2，具体包括如下子步骤：

步骤1.2.1，设置每个数据表的文本骨架中不包含任何单词；

步骤1.2.3，枚举完每个数据表对应的文本，得到每个数据表对应的骨架。

4.根据权利要求3所述的一种基于骨架的二阶段数据到文本生成方法，其特征在于：步骤1.3中，一定比例包括但不限于8：2、7：3、6：4以及5：5。

5.根据权利要求4所述的一种基于骨架的二阶段数据到文本生成方法，其特征在于：步骤2，具体包括以下子步骤：

步骤2.3，利用骨架构建模型中的解码器A对属性名和属性值的特征向量进行解码，得到解码器A输出向量；

步骤2.4：通过拷贝层对解码器A输出向量进行处理，生成数据表的文本骨架；