CN112699688B

CN112699688B - 一种篇章关系可控的文本生成方法和系统

Info

Publication number: CN112699688B
Application number: CN202110021424.6A
Authority: CN
Inventors: 鉴萍; 陈振威
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-11-04
Anticipated expiration: 2041-01-08
Also published as: CN112699688A

Abstract

本发明公开了一种篇章关系可控的文本生成方法和系统，属于自然语言处理应用技术领域。首先利用预训练语言模型对含有篇章关系PDTB语料进行预训练，构造四分类模型。对文本生成语料进行分类，得到其对应的篇章关系类型。将上文的词语向量，送入到Encoder，训练Bi‑LSTM编码特征表示，得到上文状态向量。之后，将语义向量和上下文篇章关系的信息拼接得到语义向量，通过全连接层，采样得到隐变量，让其服从正态分布。利用Decoder对隐变量z进行解码，引导往预先篇章关系信息的文本方面进行生成，对生成的文本和真实文本进行交叉熵损失计算，使用梯度下降方法更新参数，调到最优的模型。利用最优模型能够续写出下文。本发明能够有效提升文本生成的连贯性。

Description

一种篇章关系可控的文本生成方法和系统

技术领域

本发明涉及一种篇章关系可控的文本生成方法和系统，属于自然语言处理应用技术领域。

背景技术

自然语言生成是一种语言技术，其主要目的是构建能够“流畅写”的软件系统，即能够用汉语、英语等其他人类语言生成解释、摘要、叙述等。具体而言，就是利用计算机“编写语言”，生成一系列有效文本，以人类语言形式表达。即，能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，来自动生成一段高质量的自然语言文本，符合人类语言的正确表达习惯。

随着人工智能前沿技术的发展，越来越多的学者希望机器能够具备这样的文字撰写能力，帮助解决人们的写作能力。但是，文本生成系统如何能够生成更通顺流利的文章，内容要有起承转合的形式，甚至还需要篇章关系分析方面的知识和更高阶的认知能力。

文本生成任务是：输入一些必要的上文信息，然后得到满足要求、有效可行的下文信息。目前，技术人员针对先前的文本生成任务已有充分的研究，基本的seq2seq模型框架为：编码器encoder端的输入为结构化或者半结构化的数据信息，解码器decoder端的输入为encoder端输入信息所对应的文本信息，也可简单的理解为序列标签信息。其中，encoder负责将输入编码成一条语义向量C，然后语义向量C作为decoder的初始状态参与decoder进行解码生成文本的过程。众所周知，人类之所以能够较好地撰写流畅的文本，其不仅通过上下文获取连贯的相关信息，还会加入一些篇章关系连接词以保持句子间的连贯。

目前，篇章关系分析是自然语言处理的一个核心问题。篇章是指由一系列连续子句、句子或语段构成的语言整体，篇章关系是指同一篇章中相邻的句子之间的语义连接关系，如因果关系、转折关系等。

然而，现有的文本生成模型却忽略了这些至关重要的因素，并没有充分利用这些篇章知识来辅助机器进行文本生成的过程。

具体而言，文本生成领域存在下述问题：

(1)普通的深度学习方法没有考虑到结合篇章关系这一语言学信息来辅助机器文本生成；

(2)现有的方法并未考虑文本上下文之间的连贯问题。

发明内容

本发明的目的是为了克服现有技术存在的缺陷，为解决文本生成面临的技术问题，提出一种篇章关系可控的文本生成方法和系统。

本发明的创新点在于：

首先，利用预训练语言模型Bert-base对含有篇章关系PDTB语料进行预训练，构造四分类模型。

然后，对文本生成语料进行分类，得到其对应的篇章关系类型。其次，将上文的词语向量，送入到Encoder，训练Bi-LSTM编码特征表示，得到上文状态向量h。

之后，将语义向量h和上下文篇章关系的信息d拼接得到语义向量C，通过全连接层，采样得到隐变量z，让其服从正态分布。

最后，利用Decoder对隐变量z进行解码，引导往预先篇章关系信息的文本方面进行生成，对生成的文本和真实文本进行交叉熵损失计算，使用梯度下降方法更新参数，调到最优的模型。

本发明是采用以下技术方案实现的。

一种篇章关系可控的文本生成方法，包括以下步骤：

步骤1：语料预处理。

通过预训练语言模型Bert-base，构造四分类模型，得到生成文本语料的篇章关系类型d。

步骤2：信息编码。

利用编码器训练上文的Bi-LSTM编码特征表示，得到状态向量h。

步骤3：语义信息拼接。

将状态向量h和上下文篇章关系的信息d拼接，得到语义向量C。

步骤4：隐变量采样。

将语义向量C通过全连接层采样得到隐变量z，令其服从正态分布。

步骤5：文本生成。

利用解码器Decoder对隐变量z进行解码及模型训练。计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到最优模型。

利用最优模型，输入要生成文本的上文，模型就能够续写出下文，并保持上下文的连贯一致性。

基于上述方法，本发明提出了一种篇章关系可控的文本生成系统，所述系统包括预处理模块、控制模块、特征融合模块和训练模块。

所述预处理模块，用于预处理语料，用篇章关系PDTB语料构造篇章关系分类器，获取生成文本语料中句子间的篇章关系类型d。其中，语料包括上文和下文两部分。通过预训练语言模型Bert-base，得到生成文本语料中每一对句子间的篇章关系类型d。预处理模块的输入来自训练语料，预处理模块的输出与控制系统的输入相连。

所述控制模块，先利用通用编码器训练上文的Bi-LSTM编码特征表示，获取文本的状态向量h，再与预测出的篇章关系类型d的信息拼接得到语义向量C。控制系统中输入的篇章关系类型d来自预处理模块，输入的上文信息来自训练语料，控制系统的输出端与特征融合模块的输入端相连。

所述特征融合模块，将语义向量C通过全连接层，采样得到隐变量z，让其服从正态分布。特征融合模块中输入的语义向量C来自控制模块的输出，特征融合模块的输出端与训练模块的输入端相连接。

所述训练模块，利用解码器对隐变量z进行解码及模型训练，从隐变量中学习到篇章关系信息，并利用注意力方法考虑上文信息。训练模块中输入的隐变量z来自特征融合模块的输出端，训练模块最终输出能与保持连贯性的下文信息。

有益效果

本发明与现有方法相比，具有如下优点：

(1)通过运用篇章关系对文本进行控制生成，内容上保持起承转合的效果，能够帮助模型生成过程的精准性和多样性。

(2)本发明能够有效提升文本生成的连贯性，弥补了基于传统文本方法忽略的问题，给予用户提供较好的文本生成结果，为进一步提高机器的文本生成能力提供了很好的指导和参考。

附图说明

图1为本发明实施例的篇章关系预训练的流程示意图；

图2为本发明实施例的文本生成方法的流程示意图；

图3为本发明实施例的文本生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种篇章关系可控的文本生成方法，如图2所示，包括如下步骤：

步骤1：语料预处理。

步骤2：信息编码。

步骤3：语义信息拼接。

步骤4：隐变量采样。

步骤5：文本生成。

利用解码器对隐变量z进行解码及模型训练。计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到最优模型。

在步骤1中，如图1所示，首先利用预训练模型Bert-base，在PDTB篇章关系语料库上预训练了分类器；再把生成文本的语料输入分类器预测，获取句子之间的篇章关系类型d；

在本实施例中，训练语料为ROCStories。2016年NAACL会议论文A corpus andcloze evaluation for deeper understanding of commonsense stories提出了故事结尾任务，并引入了数据集ROCStories。该语料中的每个样例都是含有五个句子的故事，我们可以自己划分上下文层次，第一句作为上文，其余作为下文。

Bert模型是Google在2018年10月发布的语言表示模型，Bert在NLP领域横扫了11项任务的最优结果，可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers，是通过训练MaskedLanguage Model和预测下一句任务得到的模型。

在步骤2中，如图2所示，训练上文的Bi-LSTM编码特征表示，得到状态向量h。训练过程中，上文的句子和下文的句子同时通过Bi-LSTM编码器进行编码，共用参数，以备于步骤4中的空间分布对齐；生成过程中，则只考虑上文句子的编码。

在步骤3中，如图2所示，把状态向量h和上下文篇章关系的信息d拼接得到语义向量C。

在步骤4中，如图2所示，语义向量C通过全连接层，采样得到隐变量z，让其服从正态分布。采样过程中，参照变分自编码器的做法，在训练的过程中，同时训练先验网络和后验网络，不断降低两个隐变量空间分布的之间的损失，让后验分布不断地逼近先验分布；在测试的过程中，使用先验网络进行文本生成过程的隐变量采样。

在步骤5中，如图2所示，利用Decoder对隐变量z进行解码及模型训练。解码过程中，利用经典的注意力机制，考虑到上文的语义信息，又特别学习到篇章关系信息，保证句子生成的连贯性。使用随机梯度下降法更新模型参数直到其收敛，最终得到生成模型。

文本生成模型的使用方法为：输入文本的上文，模型就可以生成篇章关系可控的的下文。对于ROCStories语料集，输入故事语料的开头，最终得到故事的下文，完成生成过程。

本发明提供了一种篇章关系可控的文本生成系统，如图3所示，所述系统包括预处理模块、控制模块、隐变量模块和训练模块，其中：

所述预处理模块，用于预处理语料，用篇章关系PDTB语料构造篇章关系分类器，获取生成文本语料中句子间的篇章关系类型d。其中，语料包括上文和下文两部分，通过预训练语言模型Bert-base，得到生成文本语料的篇章关系类型d。预处理模块的输入是训练语料，预处理模块的输出与控制系统的输入相连。

例如，训练语料为ROCStories。2016年NAACL会议论文A corpus and clozeevaluation for deeper understanding of commonsense stories提出了故事结尾任务，并引入了数据集ROCStories。该语料中的每个样例都是含有五个句子的故事，我们可以划分上下文层次，第一句作为上文，其余作为下文。

所述特征融合模块，将语义向量C通过全连接层，采样得到隐变量z，让其服从正态分布。隐采样过程中，参照变分自编码器的做法，在训练的过程中，同时训练先验网络和后验网络，不断降低两个隐变量空间分布的之间的损失，让后验分布不断地逼近先验分布；在测试的过程中，使用先验网络进行文本生成过程的隐变量采样。特征融合模块中输入的语义向量C来自控制模块的输出，特征融合模块的输出端与训练模块的输入端相连接。

所述训练模块，利用解码器Decoder对隐变量z进行解码及模型训练，从隐变量中学习到篇章关系信息，并利用注意力方法考虑上文信息。训练模块中输入的隐变量z来自特征融合模块的输出端，训练模块的输出是能与保持连贯性的下文。

实施例

步骤1：语料预处理。

通过预训练模型Bert-base，在PDTB语料库上预训练了分类器，分类器的四个篇章关系标签为：{时序temporal，偶然contingency，对比comparison and扩展expansion}，把训练语料送入到分类器之中，得到训练语料中句子间的篇章关系。

步骤2：信息编码。

首先，编码器采用利用双向的长短期记忆网络BiLSTM进行编码，上文X＝{x₁，x₂，...，x_j，}，其中，e(x_j)是词x₂的词向量，BiLSTM的单隐藏层设置为256维，dropout系数设置为0.6。

h_j＝BiLSTM(h_j-1，e(x_j)) (1)

其中，h_j表示第j个时刻的状态向量，h_j-1表示第j-1个时刻的状态向量。

当训练时，对于下文的句子Y＝{y₁，y₂，...，y_t，}，同样利用上面的BiLSTM进行编码，内部参数共享，h_Y是编码后的最后一个状态向量，e(y_t)是y_t的词向量。

h_t＝BiLSTM(h_t-1，e(y_t)) (2)

其中，h_t表示第t个时刻的状态向量，h_t-1表示第t-1个时刻的状态向量。

然后，进一步预测语料中句子间的篇章关系类型d。

h_X是将BiLSTM上文句子编码后的最后一个状态向量。将h_X输入到多层感知机MLP，对其进行分类，得到预测的篇章关系d。MLP为两层的前馈全连接层，神经元个数为512。

P(d|h_X)＝softmax(MLP(h_X)) (3)

其中，softmax为归一化激活函数，训练时，预测的篇章关系与上一步骤求得的篇章关系进行求交叉熵损失。

步骤3：语义信息拼接。

语义向量C是由状态向量h_X与篇章关系类型d的标签向量e(d)拼接得到：

C＝[h_X；e(d)] (4)

步骤4：隐变量采样。

将编码后的上文的语义信息输入到先验网络，生成均值μ和方差σ，再采样得到隐变量z。MLP_prior为两层的前馈全连接层，神经元个数为512。

z＝MLP_prior(C) (5)

其中，z表示从上文的语义信息中采样得到的隐变量，向量维度为128。

训练时，编码后的下文信息和上文的语义信息一起送入到后验网络，MLP_posterior同样为两层的前馈全连接层，神经元个数为512。

z′＝MLP_posterior(h_Y，C) (6)

其中，z′表示从下文信息和上文的语义信息中采样得到的隐变量，向量维度为128。

此处参照变分自编码器的做法，在训练的过程中，不断降低两个隐变量空间分布的之间的损失Loss(z，z′)，让后验分布不断地逼近先验分布；在测试的过程中，使用先验网络进行文本生成。

步骤5：文本生成。

利用Decoder对隐变量z进行解码。Decoder采用的是单层的长短期记忆网络LSTM，其隐藏层设置为256维，dropout系数设置为0.6。利用下列公式，求得第t时刻的状态向量s_t：

H＝(h₁，h₂，...，h_j) (7)

v_t-1＝softmax(s_t-1WH)H (8)

s_t＝LSTM(s_t-1，e(y_t-1)，v_t-1，C，z) (9)

其中，z是上一步骤采样得到的隐变量，C表示上一步骤中得到的语义向量，W表示可训练参数，H是上文的所有时刻的状态向量，v_t-1表示通过注意力机制加权得到的上文的句子向量，s_t-1表示生成过程中第t-1时刻的状态向量，e(y_t-1)表示t-1时刻生成词的词向量。

通过逐步的解码生成下文的句子，即第t时刻生成的词由前t时刻之前生成的词、第t时刻的状态向量s_t、语义向量C和隐变量z共同作用生成，其生成过程可表示为：

P(y_t|y_＜t，s_t，C，z)＝softmax(U[s_t，C，z]) (10)

其中，y_＜t表示t时刻之前生成的词，y_t表示第t个时刻生成的词，U表示可训练参数。

模型总共在ROCStories训练数据集上训练60轮，批量大小设置为128，学习率为0.001，权重衰减因子为0.0001。如果模型在验证集上Bleu值不再上升就停止训练，保存模型。

在ROCStories训练数据集上实验结果证明，本发明生成Bleu值达到3.14，并经过人工测评，实验结果明显优于已有的模型。虽然这次用于实验的数据集是英文版本，但我们的方法对于中文也是适用的。

文本生成模型的使用方法为：输入要生成文本的上文，模型就可以续写出下文，并保持上下文的连贯一致性。

Claims

1.一种篇章关系可控的文本生成方法，其特征在于，包括以下步骤：

步骤1：语料预处理；

通过预训练语言模型Bert-base，构造四分类模型，得到生成文本语料的篇章关系类型d；

步骤2：信息编码；

利用编码器训练上文的BiLSTM编码特征表示，得到状态向量h，具体如下：

首先，编码器采用利用双向的长短期记忆网络BiLSTM进行编码，上文的句子X＝{x₁,x₂,…,x_j}，其中，e(x_j)是词x_j的词向量：

h_j＝BiLSTM(h_j-1,e(x_j)) (1)

其中，h_j表示第j个时刻的状态向量，h_j-1表示第j-1个时刻的状态向量；

当训练时，对于下文的句子Y＝{y₁,y₂,…,y_t}，同样利用上面的BiLSTM进行编码，内部参数共享，h_Y是下文句子编码后的最后一个状态向量，e(y_t)是y_t的词向量；

h_t＝BiLSTM(h_t-1,e(y_t)) (2)

其中，h_t表示第t个时刻的状态向量，h_t-1表示第t-1个时刻的状态向量；

然后，进一步预测句子间的篇章关系类型d；

h_X是将BiLSTM上文句子编码后的最后一个状态向量；将h_X输入到多层感知机MLP，对其进行分类，得到预测句子间的篇章关系类型d；

P(d|h_X)＝softmax(MLP(h_X)) (3)

其中，softmax为归一化激活函数，训练时，预测的篇章关系类型与上一步骤求得的篇章关系类型d进行求交叉熵损失；

步骤3：语义信息拼接；

将状态向量h和求得的篇章关系类型d拼接，得到上文的语义向量C；

步骤4：隐变量采样；

将上文的语义向量C通过全连接层采样得到隐变量z，令其服从正态分布，具体如下：

将上文的语义向量C输入到先验网络，生成均值μ和方差σ，再采样得到隐变量z；

z＝MLP_prior(C) (5)

其中，z表示从上文的语义向量C中采样得到的隐变量；

训练时，将下文句子编码后的最后一个状态向量h_Y和上文的语义向量C一起送入到后验网络：

z′＝MLP_posterior(h_Y,C) (6)

其中，z′表示从下文句子编码后的状态向量h_Y和上文的语义信息C中采样得到的隐变量；

在训练的过程中，不断降低两个隐变量空间分布之间的损失Loss(z,z′)，让后验分布不断地逼近先验分布；

步骤5：文本生成；

利用解码器Decoder对隐变量z进行解码及模型训练，计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到最优模型；

利用最优模型，输入要生成文本的上文，模型能够续写出下文，并保持上下文的连贯一致性。

2.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤2中，BiLSTM的单隐藏层设置为256维，dropout系数设置为0.6。

3.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤2中，MLP为两层的前馈全连接层，神经元个数为512。

4.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤4中，MLP_prior为两层的前馈全连接层，神经元个数为512。

5.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤4中，z、z′的向量维度均为128。

6.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤4中，MLP_posterior为两层的前馈全连接层，神经元个数为512。

7.如权利要求1所述的一种篇章关系可控的文本生成方法，其特征在于，步骤5的具体实现方法如下：

利用Decoder对隐变量z进行解码；利用下列公式，求得第t时刻的状态向量s_t：

H＝(h₁,h₂,…,h_j) (7)

v_t-1＝softmax(s_t-1WH)H (8)

s_t＝LSTM(s_t-1,e(y_t-1),v_t-1,C,z) (9)

其中，z是步骤4采样得到的隐变量，C表示上文的语义向量C，W表示可训练参数，H是上文的所有时刻的状态向量，v_t-1表示通过注意力机制加权得到的上文的句子向量，s_t-1表示生成过程中第t-1时刻的状态向量，e(y_t-1)表示t-1时刻生成词的词向量；

通过逐步的解码生成下文的句子，即第t时刻生成的词由前t时刻之前生成的词、第t时刻的状态向量s_t、上文的语义向量C和隐变量z共同作用生成，其生成过程表示为：

P(y_t|y_<t,s_t,C,z)＝softmax(U[s_t,C,z]) (10)

其中，y_<t表示t时刻之前生成的词，y_t表示第t个时刻生成的词，U表示可训练参数。

8.如权利要求7所述的一种篇章关系可控的文本生成方法，其特征在于，步骤5中，Decoder采用的是单层的长短期记忆网络LSTM，其隐藏层设置为256维，dropout系数设置为0.6。

9.一种篇章关系可控的文本生成系统，其特征在于，包括预处理模块、控制模块、特征融合模块和训练模块；

所述预处理模块，用于预处理语料，用篇章关系PDTB语料构造篇章关系分类器，获取生成文本语料中句子间的篇章关系类型d；其中，语料包括上文和下文两部分；通过预训练语言模型Bert-base，得到生成文本语料中每一对句子间的篇章关系类型d；预处理模块的输入来自训练语料，预处理模块的输出与控制系统的输入相连；

所述控制模块，先利用通用编码器训练上文的BiLSTM编码特征表示，获取文本的状态向量h，再与预测出的篇章关系类型d的信息拼接得到上文的语义向量C；控制系统中输入的篇章关系类型d来自预处理模块，输入的上文信息来自训练语料，控制系统的输出端与特征融合模块的输入端相连；

所述特征融合模块，将上文的语义向量C通过全连接层，采样得到隐变量z，让其服从正态分布；特征融合模块中输入的上文的语义向量C来自控制模块的输出，特征融合模块的输出端与训练模块的输入端相连接；

所述训练模块，利用解码器对隐变量z进行解码及模型训练，从隐变量中学习到篇章关系信息，并利用注意力方法考虑上文信息；训练模块中输入的隐变量z来自特征融合模块的输出端，训练模块最终输出能保持连贯性的下文信息。