CN112417092A

CN112417092A - 基于深度学习的智能化文本自动生成系统及其实现方法

Info

Publication number: CN112417092A
Application number: CN202011251305.1A
Authority: CN
Inventors: 徐小龙; 丁海杰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-26
Anticipated expiration: 2040-11-11
Also published as: CN112417092B

Abstract

本发明提供了一种基于深度学习的智能化文本自动生成系统及其实现方法，该实现方法主要包括如下操作步骤：步骤A，数据预处理：对用户提交的数据文件进行预处理，并转换成智能化文本自动生成系统可以识别和处理的数据格式；步骤B，字段‑内容选择编码：对预处理之后的数据进行编码，并利用预先设计好的神经网络模型计算序列的阶段性输出；步骤C，描述性解码：再次利用所述神经网络模型对所述阶段性输出进行新的计算预测，以得到所有词汇表中的单词的输出概率，并从中选出概率最大的文本作为输出。

Description

基于深度学习的智能化文本自动生成系统及其实现方法

技术领域

本发明涉及一种基于深度学习的智能化文本自动生成系统及其实现方法，属于自然语言处理和数据挖掘领域。

背景技术

智能化文本自动生成是一种利用人工智能领域的自然语言处理技术实现自动文本分析、内容总结和文本生成的技术，是解决目前信息过剩问题的一种有效的辅助手段，能够帮助人类更加快速、准确、全面的获取关键信息，在工业和商业方面都具有重要的实用意义。但是，当前应用在文本生成领域的主流方法都基于神经网络语言模型，由于神经网络语言模型的不可解释性和黑盒等特性，生成的文本开始出现参考错误，例如:语句间不一致以及对源数据缺乏保真度等问题。

如何解决文本生成过程中出现的准确性和流畅性问题已经成为研究焦点。目前采用的方法大多建立在序列到序列神经网络架构上，通过编码器-解码器结构以及注意力机制来对齐生成的文本和源数据之间的依赖，但是，注意力机制仍存在部分缺陷，在生成长文本时注意力向量的对齐作用会逐渐减弱，而且对于数据中的复杂结构信息不能很好的提取。并且，神经网络语言模型将文本生成问题建模为一个统计概率问题，输出文本时通过找到后验概率最大的单词作为目标单词，但是对于训练数据集中没有出现过的稀有词，又称未登录词并不能很好的生成。

针对稀有词问题，目前的处理方法大多是采用拷贝网络，将模型无法生成的单词从源序列中复制到输出文本中，但额外训练的神经网络往往不能和模型共享参数，因此增加了训练模型的难度和资源消耗。

有鉴于此，确有必要提出一种基于深度学习的智能化文本自动生成系统及其实现方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于深度学习的智能化文本自动生成系统，基于该系统能够进行文本的自动生成和对生成文本的准确性和完整性进行验证。

为实现上述目的，本发明提供了一种基于深度学习的智能化文本自动生成系统的实现方法，主要包括如下操作步骤：

步骤A，数据预处理：对用户提交的数据文件进行预处理，并转换成智能化文本自动生成系统可以识别和处理的数据格式；

步骤B，字段-内容选择编码：对预处理之后的数据进行编码，并利用预先设计好的神经网络模型计算序列的阶段性输出；

步骤C，描述性解码：再次利用所述神经网络模型对所述阶段性输出进行新的计算预测，以得到所有词汇表中的单词的输出概率，并从中选出概率最大的文本作为输出。

作为本发明的进一步改进，所述步骤A包括如下步骤：步骤A01，将字段名和其对应的属性值作为神经网络模型的主要输入，采用词嵌入的方式对用户提交的数据文件进行编码，分别得到字段词嵌入向量和属性词嵌入向量，将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量，用f_w表示字段名的词嵌入向量，v_w表示该字段对应的属性词嵌入向量，将f_w和v_w拼接成一个新的语义向量r_w，其中r_w＝concat{f_w,v_w}；

步骤A02，将字段在整体结构中的相对位置也采用词嵌入的方式进行编码，分别用p_w+,p_w-表示某个词在其所属的字段内容中正向和反向出现的位置，将这两个方向上的位置嵌入向量处理成一个新的结构向量p_w，其中p_w＝concat{p_w+,p_w-}；

步骤A03，将新的语义向量和新的结构向量分别作为神经网络模型的主要输入和辅助输入进行计算。

作为本发明的进一步改进，所述步骤B包括如下步骤：

步骤B01，对长短期记忆神经网络进行改进，修改每个时间步的长短期记忆神经网络单元的计算方式，使其能够学习字段-属性键值对的复杂结构信息和长序列依赖；

步骤B02，将不同字段的上下文环境作为决定其重要性的决策信息，并使用门控机制来学习隐藏依赖，针对特定字段获取更准确的语义信息。

作为本发明的进一步改进，所述步骤B01中，修改每个时间步的长短期记忆神经网络单元的计算方式为：

其中，f_t,i_t,o_t分别表示遗忘门，输入门和输出门；

分别是施加给r_t和h_t-1的权重矩阵，

表示4n×d_r维度的实数向量空间，n是隐藏层维度，d_r是输入r_t的向量维度；r_t是t时刻的输入；h_t-1是t-1时刻输出的隐藏状态向量；

是当前时刻神经网络模型输出的候选单元状态向量；sigmoid和tanh分别表示不同的激活函数。

作为本发明的进一步改进，将p_t作为长短期记忆神经网络的联合输入，新的单元状态向量和隐藏状态向量的计算方式为：

h_t＝o_t⊙tanh(c_t)

其中

和

分别是施加给p_t的权重矩阵和偏置向量，2d_p是输入p_t的维度，⊙表示向量点乘，c_t表示当前时刻神经网络模型输出的单元状态向量，

决定着c_t要保存的结构信息量，而ω_t∈(-1,1)ⁿ中保存着当前时刻的所有结构信息。

作为本发明的进一步改进，步骤B02具体为：首先计算每个字段的重要程度得分α_i,j，然后用α_i,j来求这个字段的依赖向量d_i，接着通过门控机制来获取新的编码器输出

具体为：

α_i,j＝softmax(h_iW_rh_j)

其中

是施加给h_i和h_j的权重矩阵，

和

是施加给concat{h_i,d_i}的权重矩阵和偏置向量，softmax是激活函数，concat{}表示对两个向量作拼接操作，

控制着解码器中的每个时间步可以从编码器中获取到的信息量。

作为本发明的进一步改进，所述步骤C包括如下步骤：

步骤C01，将注意力向量和目标序列的词嵌入向量进行拼接操作，作为神经网络模型的输入；

步骤C02，将通过内容选择器得到的上下文信息向量和某个时间步的隐藏状态向量作为输入，模型输出这个时间步中所有单词的条件概率分布；

步骤C03，从候选单词中选择条件概率最大的词作为输出词，输出所有时间步的单词即为对长文本或结构化数据的描述性文本。

作为本发明的进一步改进，所述步骤C01中，注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到，具体为：

其中，

是内容选择器输出的上下文向量，s_t是解码器中每个时间步输出的隐藏状态向量，计算α_t,j得到注意力得分，z_t是通过内容选择器强化之后的注意力向量，融合注意力向量和目标序列的词嵌入向量x_t得到语言模型真实的输入

所述步骤C02中，把每个时间步经过编码之后的单词x_t、从编码器中得到的上下文信息向量z_t和上一个隐藏状态向量s_t-1作为输入，输出生成下一个单词的条件概率分布P_t，P_t＝P(w_t|w_0:t-1,r_1:n)，

P_t＝softmax(W_ss_t+b_s)

其中，s_t-1是解码器中t-1时刻的隐藏状态向量，LSTM表示长短期记忆神经网络单元，

是施加给s_t的权重矩阵和偏置向量，d_out是输出维度，即词汇表大小，w_t和w_0:t-1分别是t时刻和0～t-1时刻的输出词。

作为本发明的进一步改进，步骤C03中，从候选单词中选择条件概率最大的词作为输出词，若条件概率最大的词为特殊字符<UNK>，表示未登录词，则用注意力向量所指向的输入数据表中替换概率最大的词来替换所述特殊字符<UNK>，即argmax函数所指向注意力向量中的字段的属性值。具体为：

其中，z_s表示注意力向量，当系统在某时刻选择的条件概率最大的词w_s为<UNK>时，用

替换。

本发明的目的还在于提供一种基于深度学习的智能化文本自动生成系统，用于将目标用户提交的数据自动生成描述性文本。

为实现上述目的，本发明提供了一种基于深度学习的智能化文本自动生成系统，该智能文本自动生成系统应用上述实现方法，所述智能化文本自动生成系统包括：

数据预处理模块，用于对用户提交的数据文件进行预处理，并转换成智能化文本自动生成系统可以识别和处理的数据格式；

字段-内容选择编码器模块，用于接收数据处理模块发送过来的预处理后的数据，并对这些数据进行编码，利用预先设计好的神经网络模型计算序列的阶段性输出；

解码器模块，用于接收字段-内容选择编码器模块发送过来的阶段性输出，再次利用所述神经网络模型对所述阶段性输出进行新的计算预测，以得到所有词汇表中的单词的输出概率，并从中选出概率最大的文本作为输出；

推理模块，用于将解码器模块输出的文本通过条件语言模型生成描述性文本。

本发明的有益效果是：本发明基于深度学习的智能化文本自动生成系统，一方面利用自然语言处理技术将长文本或结构化数据自动生成描述性文本，方便用户快速、准确的了解关键信息；另一方面，通过强化的注意力机制和门控机制解决了序列到序列模型中输出文本和输入序列之间的映射关系，并解决了注意力机制无法有效处理长文本和结构信息的缺陷。

附图说明

图1是本发明基于深度学习的智能化文本自动生成系统的结构示意图。

图2是本发明基于深度学习的智能化文本自动生成系统的实现方法的流程图。

图3是图2中进行数据预处理时的示意图。

图4是图1中内容选择编码器的流程示意图。

图5是本发明基于深度学习的智能化文本自动生成系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明设计了一种基于深度学习技术的智能化文本自动生成系统，该系统将复杂的长文本或结构化数据作为输入，通过对数据进行预处理、转换以及推理，最终得到能够充分、连贯且流畅的描述这些数据的文本。

如图1所示，基于深度学习的智能化文本自动生成系统包括：

如图2所示，智能化文本自动生成系统的实现方法，包括如下步骤：

步骤A，数据预处理：对用户提交的数据文件进行预处理，并转换成所述智能化文本自动生成系统可以识别和处理的数据格式。

为了适用长文本及结构化数据中复杂的结构信息，增强该模型的可移植性，本发明首先在预处理阶段对字段的内容和位置信息进行了联合建模，以便从表格中学习到更丰富的语义信息和结构信息。

如图3所示，具体为：步骤A01，将字段名和属性值作为神经网络模型的主要输入，采用词嵌入的方式对用户提交的数据文件进行编码，分别得到字段词嵌入向量和属性词嵌入向量，将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量，用f_w表示所述字段名的词嵌入向量，v_w表示该字段对应的属性词嵌入向量，将f_w和v_w拼接成一个新的语义向量r_w，其中r_w＝concat{f_w,v_w}；

步骤A02，将字段在整体结构中的相对位置也采用词嵌入的方式进行编码，分别用p_w+,p_w-表示某个词在其所属的字段内容中正向和反向出现的位置，将这两个方向上的位置嵌入向量处理成一个新的结构向量p_w，其中p_w＝concat{p_w+,p_w-}，用r_w表示模型的输入，r_w＝concat{f_w,v_w}，用p_w＝concat{p_w+,p_w-}表示辅助的位置信息，p_w+,p_w-分别表示某个词在其所属的字段内容中正向和反向出现的位置，如图3所示，(a)表示Penny Ramsey的维基百科信息框内容，(b)表示其对应的预处理之后的形式，将r_w和p_w作为LSTM某个时间步的联合输入；

步骤B，字段-内容选择编码：将预处理之后的数据进行编码，并利用预先设计好的神经网络模型计算序列的阶段性输出。在字段编码器中通过门控机制预先在编码器内部决定不同字段内容之间的互相决策重要程度，注意力向量能够从源序列中获取到更多的信息并且校正这两者之间的对齐关系。

如图4所示，具体为：步骤B01，对长短期记忆神经网络进行改进，修改每个时间步的长短期记忆神经网络单元的计算方式，使其能够学习字段-属性键值对的复杂结构信息和长序列依赖。即修改每个时间步的LSTM单元结构为：

其中，f_t,i_t,o_t分别表示遗忘门，输入门和输出门，

分别是施加给r_t和h_t-1的权重矩阵，r_t是t时刻的输入，h_t-1是t-1时刻的隐藏状态向量，

是当前时刻神经网络单元输出的候选单元状态向量，

表示4n×d_r维度的实数向量空间，n是隐藏层维度，d_r是输入r_t的向量维度，sigmoid和tanh分别表示不同的激活函数。

长短期记忆神经网络能够通过单元状态向量和隐藏状态向量来保存重要的信息。为了更深入的学习表格的结构信息，将p_t作为长短期记忆神经网络的联合输入，p_t＝concat{p_t+,p_t-}。新的单元状态向量和隐藏状态向量的计算方式为：

h_t＝o_t⊙tanh(c_t)

其中

和

分别是施加给p_t的权重矩阵和偏置向量，2d_p是输入p_t的维度，⊙表示向量点乘，c_t表示当前时刻神经网络单元输出的单元状态向量，

步骤B02，将不同字段的上下文环境作为决定其重要性的决策信息，并使用门控机制来学习隐藏依赖，针对特定字段获取更准确的语义信息。设计使用门控机制来更好的学习不同字段之间相互存在的依赖关系，首先计算每个字段的重要程度得分α_i,j，然后用α_i,j来求这个字段的依赖向量d_i，接着通过门控机制来获取新的编码器输出

α_i,j＝softmax(h_iW_rh_j)

其中

是施加给h_i和h_j的权重矩阵，

和

是施加给concat{h_i,d_i}的权重矩阵和偏置向量，softmax是激活函数，concat表示对两个向量作拼接操作，

步骤C，描述性解码：再次利用所述神经网络模型对阶段性输出进行新的计算预测，得到所有词汇表中的单词的输出概率，并从中选出概率最大的文本作为输出。

如图1和图5所示，在描述性解码器中通过LSTM网络来学习上下文的语义信息，具体为：

步骤C01，将注意力向量和目标序列的词嵌入向量进行拼接操作，作为神经网络模型的输入，通过注意力机制在解码器中计算得到每一个时间步的上下文信息向量z_t，注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到，具体为：

其中，

是内容选择器输出的上下文向量，s_t是解码器中每个时间步输出的隐藏状态向量，计算α_t,j得到注意力得分，z_t是通过内容选择器强化之后的注意力向量，同时也作为编码器的上下文向量输出给解码器。

步骤C02，通过内容选择器得到的上下文信息向量和隐藏向量作为输入，输出生成下一个时间步中所有单词的条件概率分布。把每个时间步经过编码之后的单词x_t、从编码器中得到的上下文信息向量z_t和上一个隐藏状态向量s_t-1作为输入，输出生成下一个单词的条件概率分布P_t，P_t＝P(w_t|w_0:t-1,r_1:n)，

P_t＝softmax(W_ss_t+b_s)

其中LSTM表示长短期记忆神经网络单元，s_t,c_t是长短期记忆神经网络输出的隐藏状态向量和单元状态向量，

步骤C03，从候选单词中选择条件概率最大的词作为输出词，输出所有时间步的单词即为对长文本或结构化数据的描述性文本。若条件概率最大的词为特殊字符<UNK>，则用注意力向量所指向的输入数据表中替换概率最大的词来替换<UNK>字符，也就是argmax函数所指向注意力向量中的字段的属性值。具体为：

其中z_s表示上文给出的注意力向量，当某时刻模型生成的词w_s为<UNK>字符时用

替换。

综上所述，本发明公开了一种基于深度学习的智能化文本自动生成系统及其实现方法，可以根据用户输入的长文本或结构化数据生成其对应的描述性文本。设计了一种编码器-解码器结构的神经网络语言模型来处理文本序列，还设计了一种高性能的拷贝网络来解决稀有词的问题。整个过程基于端到端的处理方式，无需用户手动输入数据特征，能很方便的得到准确、流畅的描述性文本。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度学习的智能化文本自动生成系统的实现方法，其特征在于，主要包括如下操作步骤：

2.根据权利要求1所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于，所述步骤A包括如下步骤：

步骤A01，将字段名和属性值作为神经网络模型的主要输入，采用词嵌入的方式对用户提交的数据文件进行编码，分别得到字段词嵌入向量和属性词嵌入向量，将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量，用f_w表示字段名的词嵌入向量，v_w表示该字段对应的属性词嵌入向量，将f_w和v_w拼接成一个新的语义向量r_w，其中r_w＝concat{f_w,v_w}；

3.根据权利要求1所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于，所述步骤B包括如下步骤：

4.根据权利要求3所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于：所述步骤B01中，修改每个时间步的长短期记忆神经网络单元的计算方式为：

其中，f_t,i_t,o_t分别表示遗忘门，输入门和输出门；

分别是施加给r_t和h_t-1的权重矩阵，

5.根据权利要求4所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于：将p_t作为长短期记忆神经网络的联合输入，新的单元状态向量和隐藏状态向量的计算方式为：

h_t＝o_t⊙tanh(c_t)

其中

和

6.根据权利要求3所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于，步骤B02具体为：首先计算每个字段的重要程度得分α_i,j，然后用α_i,j来求这个字段的依赖向量d_i，接着通过门控机制来获取新的编码器输出

具体为：

α_i,j＝softmax(h_iW_rh_j)

其中

是施加给h_i和h_j的权重矩阵，

和

7.根据权利要求1所述基于深度学习的智能化文本自动生成系统的实现方法，其特征在于，所述步骤C包括如下步骤：

8.根据权利要求7所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于：所述步骤C01中，注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到，具体为：

其中，

P_t＝softmax(W_ss_t+b_s)

和

9.根据权利要求7所述的基于深度学习的智能化文本自动生成系统的实现方法，其特征在于：步骤C03中，从候选单词中选择条件概率最大的词作为输出词，若条件概率最大的词为特殊字符<UNK>，表示未登录词，则用注意力向量所指向的输入数据表中替换概率最大的词来替换所述特殊字符<UNK>，即argmax函数所指向注意力向量中的字段的属性值。具体为：

替换。

10.一种基于深度学习的智能化文本自动生成系统，应用权利要求1-9中任一项所述的实现方法，其特征在于，所述智能化文本自动生成系统包括：