CN109344391B

CN109344391B - 基于神经网络的多特征融合中文新闻文本摘要生成方法

Info

Publication number: CN109344391B
Application number: CN201810965659.9A
Authority: CN
Inventors: 严馨; 宁珊; 徐广义; 周枫; 郭剑毅; 陈玮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2022-10-21
Anticipated expiration: 2038-08-23
Also published as: CN109344391A

Abstract

本发明涉及基于神经网络的多特征融合中文新闻文本摘要生成方法，属于自然语言处理领域。本发明先利用word2vec模型训练预处理后中文新闻文本语料；再通过CNN和带有注意力机制的LSTM通路进行多特征融合；将融合后的向量输入解码器，解码器是单向LSTM模型，并利用其对应的摘要向量，解码自动生成中文文本摘要；通过训练整个的网络模型后，对于新的文本，利用训练后的网络模型生成摘要。本发明通过数据驱动学习了一个端到端的中文新闻文本摘要自动生成模型，相对于传统的摘要生成方法，本发明采用基于神经网络融合多特征自动生成摘要的方法可以更加全面地挖掘文本特征，提高文本摘要生成的精确度。

Description

基于神经网络的多特征融合中文新闻文本摘要生成方法

技术领域

本发明涉及基于神经网络的多特征融合中文新闻文本摘要生成方法，属于自然语言处理技术领域。

背景技术

自动文摘将文本内容通过精炼的话概括，是解决信息过载和人工文摘成本大的有效工具，主要应用于新闻领域。

自动文摘的现有研究主要包括两种解决思路，一种是extractive，抽取式的，从原文中找到一些关键的句子，组合成一篇摘要；一种是abstractive，摘要式的，这需要计算机可以读懂原文的内容，并且用自己的意思将其表达出来。本发明利用摘要式(abstractive)这一解决思路来自动生成摘要。

注意力机制可以用来帮助神经网络更好地理解输入数据，尤其是一些专有名词和数字。attention在decoder阶段起作用，通过将输出与所有输入的词建立一个权重关系来让decoder决定当前输出的词与哪个输入词的关系更大(即应该将注意力放到哪个词上)。

通过多特征融合的方式可以更加全面细致地提取文本的深层语义特征。这种融合方式的优点是，不必对各通路输出数据进行同一维度上尺度的统一，可以避免数据信息损失。

发明内容

本发明提供了基于神经网络的多特征融合中文新闻文本摘要生成方法，以用于提高中文新闻文本摘要自动生成的精确度。

本发明的技术方案是：基于神经网络的多特征融合中文新闻文本摘要生成方法，该方法首先进行文本预处理，再进行多特征融合，将融合后的信息输入到解码器生成摘要，再将整个模型的构建与数据进行处理，对于新的文本，利用训练后的网络模型生成摘要；

所述方法的具体步骤如下：

Step1、进行文本预处理，中文新闻语料包括新闻文本及其摘要，使用分词工具jieba进行文本预处理包括分词、去停用词，再利用word2vec将分词后的语料表示成词向量；

Step2、使新闻文本词向量矩阵分别通过CNN和带有注意力机制的LSTM通路进行多特征融合；

Step3、将融合后的向量输入解码器，解码器是单向LSTM模型，并利用其对应的摘要向量，解码自动生成中文文本摘要；

Step4、通过训练整个的网络模型后，对于新的文本，利用训练后的网络模型生成摘要。

所述步骤Step2的具体步骤如下所示：

Step2.1、LSTM通路分析文本整体信息，LSTM能处理序列形式的文本数据，注意力机制辅助解码器识别当前时间步的重点信息；用带注意力机制的双向LSTM，对于基本的LSTM结构，其当前时间步隐层状态更新公式为：

h_t＝O_t·tanh(c_t)

其中：

O_t＝σ(W_o·[h_t-1，X_t]+B_o)

F_t＝σ(W_F·[h_t-1，X_t]+B_F)

上述公式中，X_t是当前时间步的输入，h_t是当前时间步的LSTM隐层状态，O_t是LSTM单元输出，LSTM单元状态更新c_t，当前输入的单元状态

上一次的单元状态c_t-1，F_t是遗忘层更新，σ是sigmoid函数，遗忘门层权重矩阵W_F，LSTM单元状态权重矩阵W_c，LSTM输出层权重矩阵W_o；遗忘门层的偏置项为B_F，单元状态的偏置项为B_c，输出层的偏置项为B_o；

对于双向LSTM，由于有正向和反向两个计算方向，其结构用公式表示为：

S_t＝f(UX_t+WS_t-1)

S′_t＝f(U′X_t+W′S′_t+1)

O′＝g(V′S′_t+VS_t)

其中S_t为正向t时刻的隐藏状态，S′_t是反向t时刻的隐藏状态，U，W，U′，W′分别是正向和反向对应的矩阵权重，最终的输出O′取决于正向和反向计算的加和，V′、V为权重矩阵，f为上面基本的LSTM结构，g为softmax函数；

在注意力机制中，e_ij的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大，e_ij是由第i-1个输出隐藏状态S_i-1和输入中各个隐藏状态共同决定的，经过归一化成为权重a_ij，由带注意力机制的LSTM通道的隐藏向量序列(h₁，h₂...h_t)按权重相加得到的新闻文本在i时刻的信息向量c_i，能表示为公式：

e_ij＝a(S_i-1,h_j)

其中a是sigmoid函数；

e_ij经过归一化成为权重a_ij，a_ij表示为公式：

其中，T_x为输入词的个数；

隐藏向量序列(h₁，h₂...h_t)按权重相加得到c_i，c_i表示为公式：

Step2.2、CNN通路提取文本局部特征，为了提取不同方面特征，使用两个CNN通路；同一条CNN通路中卷积核的尺寸相同，池化层均采用最大池化；通过将不同卷积核的CNN的处理结果拼接在一起，以更全面、更细致地挖掘深层特征；嵌入层为输入新闻文本词向量矩阵，依次经过CNN1，CNN2，2种3层卷积层和池化层提取特征和降维，2条通路的输出经压平层压为1维向量；

Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后，通过融合层来实现各个通路输出的融合；融合层采用合并拼接各个神经网络通路输出向量的方式，将各个通路提取的文本特征向量拼接融合在一起；各条通路的输出均为一维的数据。

所述步骤Step3的具体步骤如下所示：

Step3.1、新闻文本对应的摘要Y＝(y₁，y₂...y_N)，y_i∈R^d，i∈[0，N]

其中d为向量维度，N为摘要的词个数；

每个LSTM单元都会根据它的输入并通过其内部结构计算出h_t，具体过程如下：

i_t＝σ(W₁y_t-1+W₂h_t-1+W₃M)

i′_t＝tanh(W₄y_t-1+W₅h_t-1+W₆M)

f_t＝σ(W₇y_t-1+W₈h_t-1+W₉M)

o_t＝σ(W₁₀y_t-1+W₁₁h_t-1+W_i2M)

m_t＝m_t-1·f_t+i_t·i′_t

h_t＝m_t·o_t

其中y_t-1，h_t-1，M是每个LSTM单元的输入，W_i，i∈[1，14]，是可学习的参数矩阵，σ是sigmoid激活函数，tanh是tanh激活函数，i_t和i′_t是输入层更新，f_t是遗忘层更新，o_t是输出层更新，m_t是更新的细胞状态，h_t是LSTM单元的隐含层状态，也是每个LSTM结构的最终输出；

根据h_t得到y′_t的条件概率：

P(y′_t|y′_t-1，y′_t-2，…，y′_i，M)＝ρ(W₁₃h_t+W₁₄M)

其中y′_t为解码器t时刻的输出，ρ为输出层的softmax函数，对于t时刻，根据LSTM单元的输出h_t和M，利用输出层函数softmax，得到在已知前t-1时刻的摘要词的条件下，第t时刻的摘要词是y′_t的概率；对于模型每一次的迭代输出，这个概率是一个定值；

Step3.2、在训练过程中，给定一个训练语料

其中(xⁱ，yⁱ)为训练语料的第i个训练样本，xⁱ为第i个训练样本的新闻文本，yⁱ是其对应的标准摘要；s为训练语料的样本总数，使用交叉熵损失函数，计算模型损失：

其中N为每个训练样本标准摘要的词个数，参数θ是构成网络模型的参数；

通过随机梯度下降算法端对端的训练网络模型，优化模型参数θ，使得模型损失L达到最小值。

所述步骤Step4的具体步骤包括：

对于新文本X，直接利用训练好的模型参数进行摘要生成，首先对新文本进行文本预处理，即分词，去停用词，使用word2vec将文本转化为词向量，并按顺序输入到模型网络中；采用集束搜索beam search的方法，通过搜索词汇库，生成一个长度为N个词的序列Y，使得P(Y|X)最大，这个公式表示为输入序列为X的条件下，输出是Y序列，其中，X表示输入序列即输入的新闻文本，Y表示输出序列即模型生成的摘要序列；即通过每个时间步追踪的路径数目K对搜索进行参数化，在每个时间步执行argmax P(y_t|{y₁，…，y_t-1}，X)，保留K个概率最大的t元序列，直至生成使P(Y|X)最大的N元序列。

本发明使用数据驱动的方法来训练一个中文新闻文本摘要自动生成模型。生成的摘要序列不限于输入文本中的词，在很多情况下能够生成更好的文本摘要。本方法使用的融合多特征的encode-decode框架能够很好的学习训练数据中摘要生成的风格。

本发明的有益效果是：

本方法通过数据驱动学习了一个端到端的中文新闻文本摘要自动生成模型来实现中文新闻文本的摘要自动生成，相对于传统的基于统计学的摘要生成方法，基于神经网络融合多特征自动生成摘要的方法可以深层次的分析文本含义，更加全面地挖掘文本特征，从而提高文本摘要生成的精确度。

附图说明

图1是本发明分析文本整体信的LSTM通道结构示意图；

图2是本发明提取文本局部特征的CNN通道结构示意图；

图3是本发明多元特征融合的编码器结构示意图；

图4是本发明解码器训练过程结构示意图；

图5是本发明解码器测试过程结构示意图；

图6基于神经网络的多特征融合的中文新闻文本摘要生成模型结构示意图。

具体实施方式

实施例1：如图1-6所示，基于神经网络的多特征融合中文新闻文本摘要生成方法；

所述方法的具体步骤如下：

进一步的，所述步骤Step2的具体步骤如下所示：

Step2.1、LSTM通路分析文本整体信息，LSTM能处理序列形式的文本数据，注意力机制辅助解码器识别当前时间步的重点信息；用带注意力机制的双向LSTM，如图1所示。对于基本的LSTM结构，其当前时间步隐层状态更新公式为：

h_t＝O_t·tanh(c_t)

其中：

O_t＝σ(W_o·[h_t-1，X_t]+B_o)

F_t＝σ(W_F·[h_t-1，X_t]+B_F)

S_t＝f(UX_t+WS_t-1)

S′_t＝f(U′X_t+W′S′_t+1)

O′＝g(V′S′_t+VS_t)

在注意力机制中，e_ij的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大，e_ij是由第i-1个输出隐藏状态S_i-1和输入中各个隐藏状态共同决定的，经过归一化成为权重a_ii，由带注意力机制的LSTM通道的隐藏向量序列(h₁，h₂...h_t)按权重相加得到的新闻文本在i时刻的信息向量c_i，能表示为公式：

e_ij＝a(S_i-1,h_j)

其中a是sigmoid函数；

e_ij经过归一化成为权重a_ij，a_ij表示为公式：

其中，T_x为输入词的个数；

Step2.2、CNN通路提取文本局部特征，为了提取不同方面特征，使用两个CNN通路；同一条CNN通路中卷积核的尺寸相同，池化层均采用最大池化；通过将不同卷积核的CNN的处理结果拼接在一起，以更全面、更细致地挖掘深层特征；如图2中，嵌入层为输入新闻文本词向量矩阵，依次经过CNN1，CNN2，2种3层卷积层和池化层提取特征和降维，2条通路的输出经压平层压为1维向量；

Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后，通过融合层来实现各个通路输出的融合；融合层采用合并拼接各个神经网络通路输出向量的方式，将各个通路提取的文本特征向量拼接融合在一起；各条通路的输出均为一维的数据。多特征融合示意图如图3所示。图中CNN通路、带有注意力机制的LSTM通路输出的一维向量在融合层进行拼接融合生成向量M，表示为公式：

M＝[y₁，y₂]

进一步的，所述步骤Step3的具体步骤如下所示：

其中d为向量维度，N为摘要的词个数；

i_t＝σ(W₁y_t-1+W₂h_t-1+W₃M)

i′_t＝tanh(W₄y_t-1+W₅h_t-1+W₆M)

f_t＝σ(W₇y_t-1+W₈h_t-1+W₉M)

o_t＝σ(W₁₀y_t-1+W₁₁h_t-1+W₁₂M)

m_t＝m_t-1·f_t+i_t·i′_t

h_t＝m_t·o_t

其中y_t-1，h_t-1，M是每个LSTM单元的输入，Wi，i∈[1，14]，是可学习的参数矩阵，σ是sigmoid激活函数，tanh是tanh激活函数，i_t和i′_t是输入层更新，f_t是遗忘层更新，o_t是输出层更新，m_t是更新的细胞状态，h_t是LSTM单元的隐含层状态，也是每个LSTM结构的最终输出；

根据h_t得到y′_t的条件概率：

P(y′_t|y′_t-1，y′_t-2，…，y′₁，M)＝ρ(W₁₃h_t+W₁₄M)

Step3.2、在训练过程中，给定一个训练语料

进一步的，所述步骤Step4的具体步骤包括：

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于神经网络的多特征融合中文新闻文本摘要生成方法，其特征在于：所述方法的具体步骤如下：

Step1、进行文本预处理，中文新闻语料包括新闻文本及其摘要，结合新闻语料特点，使用分词工具jieba进行文本预处理包括分词、去停用词，再利用word2vec将分词后的语料表示成词向量；

Step2、使新闻文本词向量矩阵分别通过多通路CNN网络和带有注意力机制的LSTM网络，在多特征融合的基础上获得每个时刻摘要生成的编码表示；

Step3、将获得的t时刻编码表示输入解码器，解码器是单向LSTM模型，同时利用其对应的摘要向量，获得t时刻的摘要词输出，解码生成中文文本摘要，根据模型生成的摘要信息优化训练模型；

Step4、通过训练整个的网络模型后，对于新的文本，利用训练后的网络模型生成摘要；

所述步骤Step2的具体步骤如下所示：

h_t＝O_t·tanh(c_t)

其中：

O_t＝σ(W_o·[h_t-1,X_t]+B_o)

F_t＝σ(W_F·[h_t-1,X_t]+B_F)

S_t＝f(UX_t+WS_t-1)

S′_t＝f(U′X_t+W′S′_t+1)

O′＝g(V′S′_t+VS_t)

其中S_t为正向t时刻的隐藏状态，S′_t是反向t时刻的隐藏状态，U，W，U′，W′分别是正向和反向对应的矩阵权重，最终的输出O′取决于正向和反向计算的加和,V′、V为权重矩阵，f为上面基本的LSTM结构，g为softmax函数；

在注意力机制中，e_ij的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大，e_ij是由第i-1个输出隐藏状态S_i-1和输入中各个隐藏状态共同决定的，经过归一化成为权重a_ij，由带注意力机制的LSTM通道的隐藏向量序列(h₁,h₂…h_t)按权重相加得到的新闻文本在i时刻的信息向量c_i，能表示为公式：

e_ij＝a(S_i-1,h_j)

其中a是sigmoid函数；

e_ij经过归一化成为权重a_ij，a_ij表示为公式：

其中，T_x为输入词的个数；

隐藏向量序列(h₁,h₂…h_t)按权重相加得到c_i，c_i表示为公式：

Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后，通过融合层来实现各个通路输出的融合；融合层采用合并拼接各个神经网络通路输出向量的方式，将各个通路提取的文本特征向量拼接融合在一起；各条通路的输出均为一维的数据；

所述步骤Step3的具体步骤如下所示：

Step3.1、新闻文本对应的摘要Y＝(y₁,y₂…y_N)，y_i∈R^d,i∈[0,N]

其中d为向量维度，N为摘要的词个数；

i_t＝σ(W₁y_t-1+W₂h_t-1+W₃M)

i′_t＝tanh(W₄y_t-1+W₅h_t-1+W₆M)

f_t＝σ(W₇y_t-1+W₈h_t-1+W₉M)

o_t＝σ(W₁₀y_t-1+W₁₁h_t-1+W₁₂M)

m_t＝m_t-1·f_t+i_t·i′_t

h_t＝m_t·o_t

其中y_t-1，h_t-1，M是每个LSTM单元的输入，W_i，i∈[1,14]，是可学习的参数矩阵，σ是sigmoid激活函数，tanh是tanh激活函数，i_t和i′_t是输入层更新，f_t是遗忘层更新，o_t是输出层更新，m_t是更新的细胞状态，h_t是LSTM单元的隐含层状态，也是每个LSTM结构的最终输出；

根据h_t得到y′_t的条件概率：

P(y′_t|y′_t-1,y′_t-2,…,y′₁,M)＝ρ(W₁₃h_t+W₁₄M)

Step3.2、在训练过程中，给定一个训练语料

其中(xⁱ,yⁱ)为训练语料的第i个训练样本，xⁱ为第i个训练样本的新闻文本，yⁱ是其对应的标准摘要；s为训练语料的样本总数，使用交叉熵损失函数，计算模型损失：

2.根据权利要求1所述的基于神经网络的多特征融合中文新闻文本摘要生成方法，其特征在于：所述步骤Step1的具体步骤如下所示：

Step1.1、结合中文新闻语料的特点，在利用jieba分词工具分词时，将时间、数字整合，不进行分割，在去除停用词时，将名词、数字、形容词排出在外，以保留新闻文本的原始信息以及新闻本文特征。

3.根据权利要求1所述的基于神经网络的多特征融合中文新闻文本摘要生成方法，其特征在于：所述步骤Step4的具体步骤包括：

对于新文本X，直接利用训练好的模型参数进行摘要生成，首先对新文本进行文本预处理，即分词，去停用词，使用word2vec将文本转化为词向量，并按顺序输入到模型网络中；采用集束搜索beam search的方法，通过搜索词汇库，生成一个长度为N个词的序列Y，使得P(Y|X)最大，这个公式表示为输入序列为X的条件下，输出是Y序列，其中，X表示输入序列即输入的新闻文本，Y表示输出序列即模型生成的摘要序列；即通过每个时间步追踪的路径数目K对搜索进行参数化，在每个时间步执行argmax P(y_t|{y₁,…,y_t-1},X)，保留K个概率最大的t元序列，直至生成使P(Y|X)最大的N元序列。