CN110619118A

CN110619118A - 一种文本自动生成方法

Info

Publication number: CN110619118A
Application number: CN201910243895.4A
Authority: CN
Inventors: 于洪涛; 曲强; 丁悦航; 黄瑞阳; 李邵梅; 高超; 李子勇
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-12-27
Anticipated expiration: 2039-03-28
Also published as: CN110619118B

Abstract

本发明提供一种文本自动生成方法。该方法包括：步骤1、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量；步骤2、利用训练好的生成网络生成所述隐藏空间向量的合成文本。针对现有技术中的基于自编码器的方法易于训练但生成文本逻辑性差的问题，或者基于生成对抗网络的方法生成文本语句通顺但稳定性差的问题，本发明能够加速生成网络的训练速度，增强训练稳定性，并在一定程度上增强合成文本的文本逻辑性。

Description

一种文本自动生成方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本自动生成方法。

背景技术

高效生成类似于人类语言的合成文本是自然语言处理领域的一个重要研究方向，也是人工智能走向成熟的一个重要标志。目前，文本生成技术有很多的应用，例如：文本生成技术可以应用于智能问答与对话、机器翻译等系统，实现更加智能和自然的人机交互；文本生成系统也可以替代编辑实现新闻的自动撰写与发布，最终将有可能颠覆新闻出版行业；该项技术甚至可以用来帮助学者进行学术论文撰写，进而改变科研创作模式。因此，自动生成文本技术对于提升人类生产生活效率，提高人类生活水平具有重要意义。

目前，文本生成方法主要有两类方法。一是基于自编码器的文本生成方法，主要利用编码器输入的真实文本和解码器输出的真实文本的一致性约束条件来生成文本；二是基于对抗生成网络的文本生成方法，主要利用生成网络与判别网络的博弈对抗来生成文本。第一类方法训练方法简单，计算复杂度低，但是生成的文本逻辑性较差，不符合人类认知；第二类方法生成的文本逻辑性较强，语句通顺，符合人类认知，但是训练稳定性差，难度大。

中国专利CN108334497A公开了一种自动生成文本的方法和装置，该方法为提升文本生成效果，以循环神经网络作为基础，在上面融合了变分自编码器，并使用了生成对抗网络的思想，运用卷积神经网络作为判别器，使用强化学习来进行训练。但是，该方法将变分自编码器融入生成网络，使得生成对抗网络训练计算复杂度较高，难度较大。并且生成对抗网络采用的循环神经网络容易产生梯度爆炸问题，训练不稳定。

发明内容

针对现有文本生成方法中存在的生成的文本逻辑性较差或者生成的文本逻辑性较强但是训练过程复杂、稳定性差以及难度较大的问题，本发明提供一种文本自动生成方法。

本发明提供的一种文本自动生成方法，包括以下步骤：

步骤1、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量；

步骤2、利用训练好的生成网络生成所述隐藏空间向量的合成文本。

进一步地，所述自编码器包括：编码器与解码器；相应地，所述自编码器的预训练过程包括：

步骤a1、利用编码器将真实数据集中的训练用真实文本映射到隐藏空间中得到隐藏向量；

步骤a2、利用解码器将编码器得到的隐藏向量映射到训练用真实文本；

步骤a3、将输入至编码器的训练用真实文本与解码器恢复的训练用真实文本进行一致性保持，得到真实数据集的隐藏空间BM。

进一步地，所述生成网络的训练过程包括：

步骤b1、随机初始化生成网络的参数θ和判别网络的参数φ；

步骤b2、从真实数据集随机抽取一训练用真实文本，利用预训练好的自编码器得到训练用真实文本的隐藏空间向量；

步骤b3、根据训练用真实文本的隐藏空间向量，利用生成网络生成训练用真实文本的合成文本；

步骤b4、从真实数据集再次随机抽取一训练用真实文本，将再次抽取的训练用真实文本和步骤b3中的合成文本输入到判别网络进行文本分类；

步骤b5、将判别网络的分类结果作为奖励值，依次更新判别网络与生成网络的模型参数；

步骤b6、重复步骤b2至步骤b5，直至生成网络与判别网络收敛，即得到训练好的生成网络。

进一步地，步骤b3中，所述生成网络生成合成文本的过程具体为：

步骤b3.1、分别按照式(1)和式(2)生成隐藏空间向量z的第一个单词y₁和第t个单词y_t：

其中，z∈R^d，d表示噪声向量的维度；C，V表示参数矩阵；w¹表示第一个单词的单词概率分布向量；h₁表示第一个单词的隐藏向量；p(w¹|z)表示；W_e∈R^m×k表示单词的嵌入矩阵，m表示真实文本数据中的单词数目，k表示真实文本数据中单词的维度；分别表示第t个单词的输入门向量、遗忘门向量、输出门向量、记忆门向量、修正记忆门向量和隐藏向量；w^t表示第t个单词的词概率分布向量；σ(·)表示sigmoid函数，⊙表示点乘；W_{i,f,o,c},U_{i,f,o,c},C_{i,f,o,c},b_{i,f,o,c}表示偏置；t≥2。

步骤b3.2、按照式(3)生成合成文本

其中，G(·)表示生成网络；T表示合成文本的单词数目，表示拼接操作。

进一步地，步骤b4中，所述判别网络进行文本分类的过程具体为：

步骤b4.1、在卷积层，每个句子的第i个单词的位置的输出为c_i：

其中，ξ表示输入至判别网络的训练用真实文本和合成文本，ξ∈R^T×k；w∈R^l×k表示窗口大小为l的卷积核，表示点乘后进行加和操作，b表示偏置，ρ表示Relu函数；

步骤b4.2、在池化层，采用最大池化策略，经过池化后的输出为

步骤b4.3、在分类层，采用基于softmax函数的方法进行分类，即y^c＝softmax(W^(p)c+b^(p))。

进一步地，步骤b5中，所述更新判别网络与生成网络的模型参数具体为：

步骤b5.1、设置最优化目标函数(5)：

其中，x表示服从真实文本分布p_x采样的样本，z表示服从噪音空间分布p_z采样的样本，表示判别网络对真实文本分类的分类结果的期望，表示判别网络对合成文本分类的分类结果的期望，D_φ表示参数设置为φ的判别网络，G_θ表示参数设置为θ的生成网络；

步骤b5.2、根据所述最优化目标函数，生成网络G_θ的参数θ的更新方式为式(6)和式(7)：

其中，Y表示生成网络G_θ生成的合成文本；α_h为生成网络G_θ第h步的学习率；

步骤b5.3、根据所述最优化目标函数，判别网络D_φ的参数φ的更新方式为式(9)和式(10)：

其中，β_h为判别网络D_φ第h步的学习率。

进一步地，步骤b5.2中，将生成网络G_θ生成的合成文本被判别网络D_φ判断为真实文本的概率作为奖励值，所述奖励值按照式(8)进行计算：

其中，表示当输入单词为s时，生成网络G_θ生成单词为a时的奖励值；表示在生成网络G_θ生成文本y_1:t后，利用蒙特卡洛搜索方法推导出的第n条文本；表示在生成网络G_θ生成文本y_1:t后，利用蒙特卡洛搜索方法推导出的N条文本的集合。

本发明的有益效果：

本发明提供的一种文本自动生成方法，首先通过利用预训练好的自编码器，得到待处理真实文本的隐藏空间向量，作为生成网络的输入，加速生成网络的训练速度，并且增强了训练稳定性；其次，把隐藏空间向量输入到预先训练好的稳定的生成网络，利用生成网络自动生成合成文本。另外，由于通过自编码器得到的隐藏空间分布与真实文本空间分布有交集，本发明生成的合成文本符合人类认知，可读性较强。

附图说明

图1为本发明实施例提供的一种文本自动生成方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种文本自动生成方法，包括以下步骤：

S101、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量；

S102、利用训练好的生成网络生成所述隐藏空间向量的合成文本。

在上述实施例的基础上，本发明又一实施例提供的文本自动生成方法，分为训练阶段和文本自动生成阶段。其中：

训练阶段包括以下步骤：

S201、预训练自编码器。所述自编码器包括：编码器与解码器。所述自编码器的预训练过程包括：

S202、训练生成网络G。所述生成网络的训练过程包括：

步骤b1、随机初始化生成网络的参数θ和判别网络的参数φ，记为生成网络G_θ和判别网络D_φ。

具体地，生成网络G的作用为：将隐藏空间向量z映射到文本空间中，得到合成文本G(z)。其中，G(z)∈R^T×k，T表示合成文本的单词个数即文本长度，k表示真实文本的单词的向量维度。判别网络D的作用为：对给定的一对文本(即：一条真实文本s∈R^T×k与一条合成文本进行分类，分类结果包括两种：一种是将合成文本判定为真实文本s；另一种则是将合成文本判定为合成文本。

步骤b2、从真实数据集随机抽取一训练用真实文本，利用步骤S201中预训练好的自编码器得到训练用真实文本的隐藏空间向量，记为z，z∈BM；

具体地，生成网络生成合成文本的过程具体为：

其中，z∈R^d，d表示噪声向量的维度；C，V表示参数矩阵；w¹表示第一个单词的单词概率分布向量；h₁表示第一个单词的隐藏向量；p(w¹|z)表示；W_e∈R^m×k表示单词的嵌入矩阵，m表示真实文本数据中的单词数目，k表示真实文本数据中单词的维度；分别表示第t个单词的输入门向量、遗忘门向量、输出门向量、记忆门向量、修正记忆门向量和隐藏向量；w^t表示第t个单词的单词概率分布向量；σ(·)表示sigmoid函数，⊙表示点乘；W_{i,f,o,c},U_{i,f,o,c},C_{i,f,o,c},b_{i,f,o,c}表示偏置；t≥2。例如，[1 2]⊙[1 2]＝[1*1 2*2]＝[14]。

步骤b3.2、按照式(3)生成合成文本

其中，G(·)表示生成网络；T表示合成文本的单词数目，表示拼接操作。例如，

具体地，判别网络进行文本分类的过程具体为：

其中，ξ表示输入至判别网络的训练用真实文本和合成文本，ξ∈R^T×k；w∈R^l×k表示窗口大小为l的卷积核，表示点乘后进行加和操作，b表示偏置，ρ表示Relu函数；例如，

由于判别网络D_φ只能对完整的句子进行分类，不能对句子片段进行分类，因此参数更新只能在生成网络G_θ生成完整的句子之后进行。本发明实施例采用联合训练的方式，目标是得到最优化目标函数的零和博弈均衡点。具体包括以下子步骤：

步骤b5.1、设置最优化目标函数(5)：

在该步骤中，本发明实施例将生成网络G_θ生成的合成文本被判别网络D_φ判断为真实文本的概率作为奖励值，所述奖励值按照式(8)进行计算：

本发明实施例中的生成网络之所以上述参数更新方式，主要是鉴于以下原因：生成网络G_θ生成完整句子时采取逐个单词的方式，该方式会产生比较大的累积误差，因此对于生成网络G_θ而言，生成网络G_θ参数θ的更新方式需要考虑每次生成一个单词的未来情况。而上述的生成网络G_θ参数θ的更新方式则充分考虑了生成每个单词后的未来情况，减少了累积误差。

其中，β_h为判别网络D_φ第h步的学习率。

步骤b6、重复步骤b2至步骤b5，直至生成网络与判别网络收敛，即得到稳定的生成网络。

文本自动生成阶段包括以下步骤：

S203、将待处理真实文本输入至该预训练好的自编码器，得到该待处理真实文本的隐藏空间向量，记为z'，z'∈BM。

S204、将该隐藏空间向量z'输入至经步骤S202训练好的稳定的生成网络中，自动生成该待处理真实文本的合成文本。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本自动生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述自编码器包括：编码器与解码器；相应地，所述自编码器的预训练过程包括：

3.根据权利要求1所述的方法，其特征在于，所述生成网络的训练过程包括：

步骤b1、随机初始化生成网络的参数θ和判别网络的参数φ；

4.根据权利要求3所述的方法，其特征在于，步骤b3中，所述生成网络生成合成文本的过程具体为：

其中，z∈R^d，d表示噪声向量的维度；C，V表示参数矩阵；w¹表示第一个单词的单词概率分布向量；h₁表示第一个单词的隐藏向量；p(w¹|z)表示；W_e∈R^m×k表示单词的嵌入矩阵，m表示真实文本数据中的单词数目，k表示真实文本数据中单词的维度；i_t,f_t,o_t,c_t,h_t分别表示第t个单词的输入门向量、遗忘门向量、输出门向量、记忆门向量、修正记忆门向量和隐藏向量；w^t表示第t个单词的词概率分布向量；σ(·)表示sigmoid函数，⊙表示点乘；W_{i,f,o,c},U_{i,f,o,c},C_{i,f,o,c},b_{i,f,o,c}表示偏置；t≥2；

步骤b3.2、按照式(3)生成合成文本

5.根据权利要求3所述的方法，其特征在于，步骤b4中，所述判别网络进行文本分类的过程具体为：

6.根据权利要求3所述的方法，其特征在于，步骤b5中，所述更新判别网络与生成网络的模型参数具体为：

步骤b5.1、设置最优化目标函数(5)：

其中，β_h为判别网络D_φ第h步的学习率。

7.根据权利要求6所述的方法，其特征在于，步骤b5.2中，将生成网络G_θ生成的合成文本被判别网络D_φ判断为真实文本的概率作为奖励值，所述奖励值按照式(8)进行计算：