CN109543165B

CN109543165B - 基于循环卷积注意力模型的文本生成方法及装置

Info

Publication number: CN109543165B
Application number: CN201811389085.1A
Authority: CN
Inventors: 袁江林; 郭志刚; 魏晗; 陈刚; 席耀一; 唐永旺
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2022-09-23
Anticipated expiration: 2038-11-21
Also published as: CN109543165A

Abstract

本发明属于计算机应用技术领域，特别涉及一种基于循环卷积注意力模型的文本生成方法及装置，该方法包含：采集互联网文本数据作为样本数据库；将样本数据库作为循环卷积注意力模型的输入和输出，训练循环卷积注意力模型，其中，循环卷积注意力模型包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。本发明降低LSTM模型中历史信息的衰弱特性；训练更加容易且训练耗费资源降低，使得产生的文本含有一定的主题信息。

Description

基于循环卷积注意力模型的文本生成方法及装置

技术领域

本发明属于计算机应用技术领域，特别涉及一种基于循环卷积注意力模型的文本生成方法及装置。

背景技术

随着大数据时代的到来，智能写作的应用需求增多，如新闻的短评论自动生成，短文信息的自动回复等。人类需要利用更加快捷的方式写出符合主题要求的文本，加快文本产生的速度。经过近几十年的发展，文本自动生成技术在应用领域上已经有了很大突破。能在体育、新闻、财经等方面自动写稿，在大众点评等媒体上进行简单的点评。但目前自动生成文本技术研究水平受限，即使是写稿机器人，也并没有实现真正的智能化。主要体现在以下几个方面：(1)仍依靠大量的人工辅助和以大数据作为支撑，且覆盖面有限，仅仅在体育、财经等新闻自动生成上效果较好；(2)生成的文本的稳定性和可靠性还不能得到保证，容易出现一定的语法错误；(3)生成的文本含有的主题信息并不明确，生成的文本的语言的表达质量受限，甚至不成句子。

当前基于深度学习的文本生成技术研究已经成为人工智能研究的热点方向，改进文本自动生成技术中的缺点和不足，对将来快速生成符合条件的短评论和短文本具有重要意义，对扩展应用领域有很大的帮助。采用传统的模板的方法实现文本自动生成的文本句子表达模式固定，不具有灵活性，不适于当前环境下，复杂多变的语言文字表达交流；采用长短期记忆LSTM(Long Short term Memory)模型实现的文本生成在一定的程度上可以有一定的变化，但是容易出现较多的语法错误，且产生的文本主题信息不明确；采用生成对抗网络GAN(Generative Adversarial Networks)模型的方法在训练语言模型的时候，由于自然语言的离散数据特性，不容易训练，虽然可以产生的文本较灵活，但是训练的代价很大，需要耗费很大的资源去训练和实现。

发明内容

为此，本发明提供一种基于循环卷积注意力模型的文本生成方法及装置，降低历史信息衰弱特性，训练测试容易，消耗低。

按照本发明所提供的设计方案，一种基于循环卷积注意力模型的文本生成方法，包含如下内容：

采集互联网文本数据作为样本数据库，该样本数据库中包含文本主题及与文本主题对应的文本数据；

将样本数据库作为循环卷积注意力模型的输入和输出，对循环卷积注意力模型进行训练，其循环卷积注意力模型中包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；

将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。

上述的，对循环卷积注意力模型进行训练时，将文本主题作为长短期记忆网络模块中初始LSTM长短期记忆网络节点输入，将已经生成的字符与当前LSTM长短期记忆网络节点的输出作为循环卷积网络模块输入，并将循环卷积网络模块输出的生成字符和当前LSTM长短期记忆网络节点的输出作为下一个LSTM长短期记忆网络节点的输入，对循环卷积注意力模型进行训练，获取模型参数数据。

优选的，LSTM长短期记忆网络计算公式表示为：

其中，i_t,f_t,o_t,c_t分别表示LSTM长短期记忆网络输入门、忘记门、输出门和内存单元参数，W_I、W_F、W_O、W_c分别表示对应参数的权重矩阵，activation()表示激活函数，x_t表示当前时刻t的节点输入，h_t-1表示上一时刻t-1的节点输出。

优选的，t时刻循环卷积网络模块结合0到t-1时刻的循环卷积结果，更新文本主题对应的历史文本信息。

上述的，注意力机制模块计算公式表示为att＝activation(y_t-1U+cV)，其中，c表示从0到t-1时刻的循环卷积结果，t-1时刻LSTM长短期记忆网络输出，U、V表示神经网络学习的矩阵参数。

上述的，循环卷积注意力模型输出表示为：序列Y_1:m＝(y₁,…,y_t,…,y_m)，利用公式p(t)＝max{p(y_t|y₁,…,y_t-1,T,α)}获取文本词汇信息，其中，T为文本主题，α为文本隐含变量，并使用最大似然概率预测生成下一个时刻的输出符号。

一种基于循环卷积注意力模型的文本生成装置，包含采集模块、学习模块和生成模块，其中，

采集模块，用于采集互联网文本数据作为样本数据库，该样本数据库中包含文本主题及与文本主题对应的文本数据；

学习模块，用于将样本数据库作为循环卷积注意力模型的输入和输出，对循环卷积注意力模型进行训练，其循环卷积注意力模型中包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；

生成模块，用于将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。

上述的装置中，学习模块中，将文本主题作为长短期记忆网络模块中初始LSTM长短期记忆网络节点输入，将已经生成的字符与当前LSTM长短期记忆网络节点的输出作为循环卷积网络模块输入，并将循环卷积网络模块输出的生成字符和当前LSTM长短期记忆网络节点的输出作为下一个LSTM长短期记忆网络节点的输入，对循环卷积注意力模型进行训练，获取模型参数数据。

本发明的有益效果：

本发明采用循环卷积的基于注意力机制的模型实现短文本自动生成，结合卷积神经网络提取特征的特点和循环神经网络记忆历史信息的特点，融合主题信息对模型进行训练，通过注意力机制增强对文本信息的控制，降低LSTM模型中历史信息的衰弱特性；相比于GAN模型，训练更加容易且训练耗费的资源将相对降低，使得产生的文本含有一定的主题信息，对快速生成符合条件的短评论和短文本具有重要意义，对扩展应用领域有很大的帮助。

附图说明：

图1为实施例中文本生成方法流程示意图；

图2为实施例中循环卷积注意力模型基本结构示意图；

图3为实施例中文本生成装置示意图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

目前，采用传统的模板的方法实现文本自动生成的文本句子表达模式固定，不具有灵活性，不适于当前环境下，复杂多变的语言文字表达交流；采用长短期记忆LSTM(LongShort term Memory)模型实现的文本生成在一定的程度上可以有一定的变化，但是容易出现较多的语法错误，且产生的文本主题信息不明确；采用生成对抗网络GAN(GenerativeAdversarial Networks)模型的方法在训练语言模型的时候，由于自然语言的离散数据特性，不容易训练，虽然可以产生的文本较灵活，但是训练的代价很大，需要耗费很大的资源去训练和实现。鉴于此，本发明实施例，参见图2所示，提供一种基于循环卷积注意力模型的文本生成方法，包含如下内容：

S101、采集互联网文本数据作为样本数据库，该样本数据库中包含文本主题及与文本主题对应的文本数据；

S102、将样本数据库作为循环卷积注意力模型的输入和输出，对循环卷积注意力模型进行训练，其循环卷积注意力模型中包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；

S103、将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。

基于循环卷积的注意力机制模型结合循环神经网络记忆历史信息的特性和卷积神经网络能提取句子特征的优点，同时注意力机制能实现从历史文字信息中筛选出当前文字信息，降低LSTM模型中历史信息的衰弱特性，相比于GAN模型，训练更加容易且训练耗费的资源将相对降低，使得产生的文本含有一定的主题信息。参见图2所示，循环卷积注意力机制模型Recurrent Convolution Attention Model(RCAM)包含有LSTM模型、循环卷积、注意力机制三部分循环卷积注意力模型，能够很好的利用历史信息。本发明实施例中，将文本生成任务视为序列产生问题，定义输入为：X_1:n＝{x₁,…,x_t,…,x_n}。产生的文本序列为：Y_1:m＝(y₁,…,y_t,…,y_m)。其中，T为句子的主题，α为句子的隐含变量。句子中的词汇的生成过程公式：

p(t)＝max{p(y_t|y₁,…,y_t-1,T,α)} (1)

使用最大似然概率去预测生成下一个时刻的输出符号。

对循环卷积注意力模型进行训练时，本发明另一个实施例中，将文本主题作为长短期记忆网络模块中初始LSTM长短期记忆网络节点输入，将已经生成的字符与当前LSTM长短期记忆网络节点的输出作为循环卷积网络模块输入，并将循环卷积网络模块输出的生成字符和当前LSTM长短期记忆网络节点的输出作为下一个LSTM长短期记忆网络节点的输入，对循环卷积注意力模型进行训练，获取模型参数数据。如图2所示，将主题和隐变量作为长短期记忆网络的初始输入初始化长短期记忆网络，实现主题信息的添加，然后利用已经生成的字符与长短期记忆网络的输出做循环卷积，利用循环卷积算法计算生成的信息，利用注意力机制算法对卷积的最后结果和当前长短期记忆网络的输出作处理作为下一个长短期记忆网络的输入。循环卷积实现短文本的生成。

LSTM网络包含循环神经网络RNN(Recurrent Neural Networks)中的LSTM单元是一种循环网络单元，擅长在长时间或短时间内记忆历史信息，其包含一个输入门、一个忘记门、一个输出门和一个内存单元。本发明再一个实施例中，在t时刻，分别设置上述输入门、忘记门、输出门和内存单元部分参数为：i_t,f_t,o_t,c_t，计算公式为公式(2)(3)(4)，W_I、W_F、W_o、W_c分别表示对应参数的权重矩阵，activation()表示激活函数，x_t表示当前时刻t的节点输入，h_t-1表示上一时刻t-1的节点输出，其中激活函数可以选择多种类型的激活函数。

h_t＝c_t*o_t (4)

LSTM在t＝0时刻的初始输入为公式(5)所示：

y₀＝f(T,α) (5)

LSTM在t时刻的输出为公式(6)所示：

y_t＝g(attention(y_t-1,c)) (6)

如公式(5)所示，c表示输出词汇从0到t-1时刻循环卷积的计算结果，可采用如下表1算法实现。从表1中可以看出循环卷积算法可以更新产生的文本信息，作为下一个时刻的输入信息。

表1.循环卷积算法

Algorithm1:Recurrent Convolution Calculation

循环卷积可以更新新生成的词汇的历史信息，解决了LSTM中历史信息衰弱的问题。

循环卷积注意力机制模型(RCAM)利用注意力机制克服自然语生成技术中的历史信息消失的问题。注意力机制可以使当前的文字生成注意力更加集中，更好的利用了前文所生成的文字信息。其中注意力机制的计算公式如公式(7)所示，其中，U、V是通过样本数据对神经网络学习的矩阵参数，然后利用该矩阵参数，对卷积结果和当前LSTM输出执行注意力机制的计算公式。

att＝activation(y_t-1U+cV) (7)

本发明结合注意力机制的长短期记忆网络的循环卷积网络，结合卷积神经网络提取句法结构特征的优点，利用长短期记忆网络的记忆历史信息的特性并加入注意力机制，提升当前词汇注意力的优势，可以使模型产生的文本语法错误减少，同时训练使用的资源也会减少不少；实施例中模型还融合了主题信息，使得短文本生成时考虑一定的主题信息。

基于上述的方法，本发明实施例还提供一种基于循环卷积注意力模型的文本生成装置，参见图3所示，包含采集模块101、学习模块102和生成模块103，其中，

采集模块101，用于采集互联网文本数据作为样本数据库，该样本数据库中包含文本主题及与文本主题对应的文本数据；

学习模块102，用于将样本数据库作为循环卷积注意力模型的输入和输出，对循环卷积注意力模型进行训练，其循环卷积注意力模型中包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；

生成模块103，用于将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。

本发明中，基于循环卷积的注意力机制的模型可以应用在短文本生成中，充分利用了互联网大数据的数据特征和深度学习技术的发展趋势和需求，结合了当前自然语言处理中的重要的研究领域；利用卷积神经网络提取句法结构信息的特性，结合循环神经网络记忆和遗忘历史信息的特点，聚合了注意力机制的特性和优势，嵌入主题信息，为短文本生成提供指引，为未来智能化自动生成短评论和短文本甚至是长文本提供方向。

基于上述的方法，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于循环卷积注意力模型的文本生成方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于循环卷积注意力模型的文本生成方法，其特征在于，对循环卷积注意力模型进行训练时，将文本主题作为长短期记忆网络模块中初始LSTM长短期记忆网络节点输入，将已经生成的字符与当前LSTM长短期记忆网络节点的输出作为循环卷积网络模块输入，并将循环卷积网络模块输出的生成字符和当前LSTM长短期记忆网络节点的输出作为下一个LSTM长短期记忆网络节点的输入，对循环卷积注意力模型进行训练，获取模型参数数据。

3.根据权利要求1或2所述的基于循环卷积注意力模型的文本生成方法，其特征在于，LSTM长短期记忆网络计算公式表示为：

4.根据权利要求3所述的基于循环卷积注意力模型的文本生成方法，其特征在于，t时刻循环卷积网络模块结合0到t-1时刻的循环卷积结果，更新文本主题对应的历史文本信息。

5.根据权利要求1所述的基于循环卷积注意力模型的文本生成方法，其特征在于，注意力机制模块计算公式表示为att＝activation(y_t-1U+cV)，其中，c表示从0到t-1时刻的循环卷积结果，t-1时刻LSTM长短期记忆网络输出，U、V表示神经网络学习的矩阵参数。

6.根据权利要求1所述的基于循环卷积注意力模型的文本生成方法，其特征在于，循环卷积注意力模型输出表示为：序列Y_1:m＝(y₁,…,y_t,…,y_m)，利用公式p(t)＝max{p(y_t|y₁,…,y_t-1,T,α)}获取文本词汇信息，其中，T为文本主题，α为文本隐含变量，并使用最大似然概率预测生成下一个时刻的输出符号。

7.一种基于循环卷积注意力模型的文本生成装置，其特征在于，包含采集模块、学习模块和生成模块，其中，

8.根据权利要求7所述的基于循环卷积注意力模型的文本生成装置，其特征在于，学习模块中，将文本主题作为长短期记忆网络模块中初始LSTM长短期记忆网络节点输入，将已经生成的字符与当前LSTM长短期记忆网络节点的输出作为循环卷积网络模块输入，并将循环卷积网络模块输出的生成字符和当前LSTM长短期记忆网络节点的输出作为下一个LSTM长短期记忆网络节点的输入，对循环卷积注意力模型进行训练，获取模型参数数据。

9.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1～6中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1～6任一项所述的方法。