CN110390103B

CN110390103B - 基于双编码器的短文本自动摘要方法及系统

Info

Publication number: CN110390103B
Application number: CN201910665534.9A
Authority: CN
Inventors: 丁建立; 李洋; 王怀超
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2022-12-27
Anticipated expiration: 2039-07-23
Also published as: CN110390103A

Abstract

本发明公开了一种基于双编码器的短文本自动摘要方法及系统，属于信息处理技术领域，其特征在于：包括如下步骤：一、数据预处理，二、设计具有双向递归神经网络的双编码器，三、融合全局与局部语义的注意力机制；四、伴随经验概率分布的解码器，采用双层单向神经网络设计解码器，五、增加词嵌入特征，六、优化词嵌入维度，七、通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算，通过文本摘要质量评价体系Rouge进行实验评估。本发明通过对传统编‑解码框架进行优化研究，实现了模型对文本语义的充分理解，提高了文本摘要的流畅度和精度。

Description

基于双编码器的短文本自动摘要方法及系统

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于双编码器的短文本自动摘要方法及系统。

背景技术

互联网的快速发展使得网络平台成为了人们交互信息、互相沟通的重要途径，也使得人们更容易浏览和发布信息。在线信息的爆炸式增长使得信息过载成为了一个严重的问题，面对海量信息，如何从中获取对自己有用的信息已经成为了信息处理领域迫切解决的问题。

自动文本摘要是自然语言处理领域的重要分支。文本摘要是指通过计算机从大量文本中提取关键信息，自动文本摘要是信息提取和压缩的关键技术。自动文本摘要早在上世纪50年代就已出现，依据摘要形式可将其分为抽取式和生成式，抽取式文本摘要是认为文章的中心思想可以由文章中的一个或几个句子进行概括。生成式文本摘要是基于对文章上下文的理解，可以像人一样对文章进行总结和概括，所概括的文本不必再原文中出现但要切合全文语义。相比之下，生成式文本摘要更加贴近人类思维，更能准确反映文本意境，但同时涉及自然语言理解理和文本重造，使得理解概要更加困难。

目前，深度学习技术已经广泛的应用于自然语言处理领域，包括阅读理解、自动问答、机器翻译、文本重塑等任务。

基于数据驱动的端到端的文本摘要生成方法灵感来源于机器翻译的神经网络模型。利用递归神经网络和LSTM神经单元构建了基于Encoder-Decoder框架的抽象生成模型，并结合自注意力机制生成文本摘要。

运用RNN(递归神经网络)的编码器-解码器结构应用于中文文本摘要任务结合改进的注意力模型用于句子摘要生成。使用字符级特征作为RNN编-解码器框架的输入，保证性能的同时缩小了特征空间的维数。等提出了一种混合指针生成器网络，保证了生成摘要原义重述的精确性又保留了新单词的生成能力。

结合多层神经网络隐层语义来提高摘要生成质量。通过增加多层编解码器网络层数并结合改进的词嵌入特征提高了模型对语义的理解。

目前对于长短文本的摘要生成任务是自然语言研究热点，面对构词结构迥异，组成结构复杂的文本如何生成语义理解充分，准确度高的摘要是当前亟待解决的问题。当前普遍使用的是编码器-解码器的抽象生成学习方法，即序列映射方法(Seq2Seq)文本学习模型来生成文本摘要。

发明内容

针对现有技术的缺陷，本发明提供一种基于双编码器的短文本自动摘要方法及系统，针对当前生成式文本摘要方法中语义信息利用不充分，摘要精度不够等问题，提出以一种基于双编码器的文本摘要模型，该模型通过双编码器为Seq2Seq架构提供更丰富的语义信息，通过改进的注意力机制采用多层循环神经网络融合编码器的双通道语义，设计伴随经验分布的解码器加快模型收敛，同时，使用融合位置嵌入和词嵌入的嵌入方法，把词频-逆文档指数(TF-IDF)、词性(Pos)、关键性特征融入到词向量中，优化了词嵌入维度，增强了模型对词意的理解，提高摘要质量。

本发明所采用的具体技术方案为：

本专利的第一发明目的是提供一种基于双编码器的短文本自动摘要方法及系统，包括如下步骤：

步骤一：数据预处理，具体为：

将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取；去除掉长度小于5的文本，替换英文、特殊字符、表情符号等杂乱字符，提取高质量的文本摘要数据；依据摘要与原文语义相似度的大小对数据进行优选，依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入；语义相似度计算公式如下所示：

其中：v_S为句子向量生成，|s|为当前句子所含词数，IDF_w为词文档逆文档频率指数，v_w为词向量；通过词向量的加权求和获得句子向量，并通过余弦距离计算文本-摘要对之间的相似度；

步骤二：设计具有双向递归神经网络的双编码器，具体为：

双编码器结构用于获取原文的全局语义信息和局部上下文语义信息，高层编码器将文本输入序列(x₁,x₂,...,x_n)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M，低层编码器聚焦于原始文本局部语义的一致性表示，将文本输入序列(x₁,x₂,...,x_n)通过BiRNN映射成编码器隐藏状态向量(h₁,h₂,...h_n)，双编码器具体计算公式如下所示：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

其中：H是由递归神经网络映射的隐藏状态向量，V_H和W_H为优化参数矩阵，通过softmax对

进行归一化处理得到

归一化得分和编码器隐藏状态信息的加权求和获得M，M代表着原文全局语义向量表示；

步骤三：融合全局与局部语义的注意力机制；

注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示，并指示解码器对序列中哪一单词语义需重点关注，融合全局与局部语义的注意力机制的详细计算公式如下所示：

其中：全局语义向量M和编码器隐藏状态h_i级联相处通过优化参数W_h将其转化为当前状态的语义表示，解码器隐藏状态S_t-1与V_s相乘获得解码器当前状态信息的向量表示，然后两者通过相应元素的对齐相加，并通过非线性激活函数tanh()映射成一融合状态向量，该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息，

为优化参数矩阵与结果做内积运算，其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分，将低层编码器状态的加权求和获得的联合上下文语义表示C_t-1；

步骤四：伴随经验概率分布的解码器，采用双层单向神经网络设计解码器，

首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率，然后引入了关键词经验概率分布，加速解码端的收敛速度，计算公式如下所示：

其中：C_t为融合全局和局部语义信息的上下文语义表示，S_t为当前时刻解码器的隐藏状态，y_t-1为t-1时刻输出摘要，Q_o为输出序列候选词经验概率分布；W_c，W_o，b_o为优化参数；W_Q、λ为优化参数，

表示哈达马积(Hadamard)在与λ对位相加；V为词表0/1向量矩阵V＝(v₁,v₂,...,v_m)，v₁＝1代表该词在文章中出现过，否则v₁＝0；

步骤五：增加词嵌入特征，将Position Embedding和word Embedding结合形成新的词向量表示，增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征，位置嵌入和关键性得分的详细计算公式如下：

其中：单词所在位置pos映射成为一个d_model维的位置向量，且此位置向量的第i维的值为PE(pos,i)，P(w_i)为单词频率，β为平滑反频率系数。多词特征的引入增加模型对词语的理解；

步骤六：优化词嵌入维度，通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示，PIP损失函数如下：

其中：

为已得到的词向量矩阵，E^*∈R^n×d为未获得的最优词向量矩阵；k,d为维数k<d，

为偏差，表示限定k维的词嵌入维度后将丢失k+1维之后的信息，

和

为方差，第二项表示噪声的存在导致对语义矩阵的大小估计产生误差，随k的增加而增加；第三项表示存在的噪声对语义矩阵方向上的估计误差，随k的增加而增加，α∈(0,1]，σ为噪声标准差，λ_i为第i个经验奇异值参数；

步骤七：通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算，同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析，并通过文本摘要质量评价体系Rouge进行实验评估。

本专利的第二发明目的是提供一种基于双编码器的短文本自动摘要系统，包括：

数据预处理模块，将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取；去除掉长度小于5的文本，替换英文、特殊字符、表情符号等杂乱字符，提取高质量的文本摘要数据；依据摘要与原文语义相似度的大小对数据进行优选，依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入；语义相似度计算公式如下所示：

具有双向递归神经网络的双编码器设计模块，双编码器结构用于获取原文的全局语义信息和局部上下文语义信息，高层编码器将文本输入序列(x₁,x₂,...,x_n)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M，低层编码器聚焦于原始文本局部语义的一致性表示，将文本输入序列(x₁,x₂,...,x_n)通过BiRNN映射成编码器隐藏状态向量(h₁,h₂,...h_n)，双编码器具体计算公式如下所示：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

进行归一化处理得到

融合全局与局部语义的注意力机制模块，注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示，并指示解码器对序列中哪一单词语义需重点关注，融合全局与局部语义的注意力机制的详细计算公式如下所示：

伴随经验概率分布的解码器模块，采用双层单向神经网络设计解码器，

增加词嵌入特征模块，将Position Embedding和word Embedding结合形成新的词向量表示，增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征，位置嵌入和关键性得分的详细计算公式如下：

优化词嵌入维度模块，通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示，PIP损失函数如下：

其中：

和

评估模块，通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算，同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析，并通过文本摘要质量评价体系Rouge进行实验评估。

本专利的第三发明目的是提供一种实现上述基于双编码器的短文本自动摘要方法的计算机程序。

本专利的第四发明目的是提供一种实现上述基于双编码器的短文本自动摘要方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于双编码器的短文本自动摘要方法。

本发明的优点及积极效果为：

通过采用上述技术方案，本发明具有如下的技术效果：

本发明研究是对传统的Seq2Seq文本摘要生成模型进行优化设计。首先将双编码器应用于编码器端，高层编码器用于获得文本的全局语义信息，而低层编码器专注于编码过程中原始序列的对齐单词语义表示；通过建立全局、局部语义信息与原始文本和摘要之间的内在对齐联系，来优化注意力机制使其融合双编码器混合语义信息和解码器隐藏状态；其次，为解码器端增加关键词经验概率分布，加快模型收敛并使生成的摘要更准确；通过增加融合位置嵌入、词嵌入方法，增加词性、词频和关键性得分改进单词特征表示以提高模型对词义的理解；并根据语料库的大小优化词向量生成的最优维度，实现了文本高质量摘要的生成，提高了摘要精度

本发明通过对传统编-解码框架(Encoder-Decoder)进行优化研究，在编码端设计高低层双编码器，为模型提供更丰富的语义信息，解码端设计经验概率分布，增加文本多项词特征联合表示并优化词向量最优维度。实现了模型对文本语义的充分理解，提高了文本摘要的流畅度和精度。

附图说明

图1为本发明优选实施例的结构框图；

图2为本发明优选实施例图中改进词嵌入特征的设计图；

图3为本发明优选实施例图中词嵌入维度最优选择图；

图4为本发明优选实施例图中不同方法之间Rouge值对比；

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

请参阅图1至图4，

一种基于双编码器的短文本自动摘要方法，图1是本发明的整体模型框架图，本发明针对当前生成式文本摘要方法中语义信息利用不充分，摘要精度不够等问题，提出以一种基于双编码器的文本摘要方法，该模型通过双编码器为Seq2Seq架构提供更丰富的语义信息，通过改进的注意力机制采用多层循环神经网络融合编码器的双通道语义，设计伴随经验分布的解码器加快模型收敛，同时，使用融合位置嵌入和词嵌入的嵌入方法，把词频、词性、关键性特征融入到词向量中，优化了词嵌入维度，增强了模型对词意的理解，提高摘要准确度和流畅度。

实施例：

为验证本发明的效果，按照前文所述的步骤进行实验验证，实验验证结果如图4所示。

步骤一：搜狗实验室提供的新闻语料库数据集，该数据集中共包含来自娱乐、文化、教育、军事、社会、金融等679978条新闻-标题数据对。对数据集预处理去除掉长度小于5的文本，替换英文、特殊字符、表情符号等杂乱字符；依据摘要与原文语义相似度的大小将数据分为三级以选取高质量的实验数据对。1表示最不相关，3是最相关。文本-摘要语义相似度在区间(0,0.4)内相关度为1，在区间[0.4,0.65)内相关度为2，在区间[0.65,1)内相关度为3。本文设计语义相关性算法公式如下：

其中：v_S句子向量生成，|s|为当前句子所含词数，IDF_w为词文档逆文档频率指数，v_w为词向量；通过词向量的加权求和获得句子向量，并通过余弦距离计算文本-摘要对之间的相似度。

步骤二：设计具有双向递归神经网络的双编码器。为了解决传统seq2seq模型中编码器端输出的语义信息不完全、不充分的问题，本发明设计了双编码器结构用于获取原文的全局语义信息和局部上下文语义信息。双编码器具体计算公式如下所示：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

其中：H是隐藏状态向量。其中V_H和W_H为优化参数矩阵，通过softmax对

进行归一化处理得到

归一化得分和编码器隐藏状态信息的加权求和获得M。

步骤三：融合全局与局部语义的注意力机制。注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示，并指示解码器对序列中哪一单词语义需重点关注。详细计算公式如下所示：

算法中：全局语义向量M和编码器隐藏状态h_i级联相处通过优化参数W_h将其转化为当前状态的语义表示，解码器隐藏状态S_t-1与V_s相乘获得解码器当前状态信息的向量表示，

为优化参数矩阵与结果做内积运算。并通过非线性激活函数tanh()映射成一融合状态向量

将低层编码器状态h_i和

的加权求和获得的联合上下文语义表示C_t-1。

步骤四：伴随经验概率分布的解码器，传统解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率，此基础上引入了关键词经验概率分布，详细计算公式如下所示：

算法中：C_t为融合全局和局部语义信息的上下文语义表示，S_t为当前时刻解码器的隐藏状态，y_t-1为t-1时刻输出摘要，Q_o为输出序列候选词经验概率分布；W_c，W_o，b_o为优化参数；W_Q、λ为优化参数，

表示哈达马积(Hadamard)在与λ对位相加；V为词表0/1向量矩阵V＝(v₁,v₂,...,v_m)。

步骤五：增加词嵌入特征，将Position Embedding(位置嵌入)和word Embedding(词嵌入)结合形成新的词向量表示。此外，在此基础上增加了词性(POS)、词频-逆文档频率(TF-IDF)和关键性得分(Soc)来丰富单词语义特征，详细计算公式如下：

算法中：单词所在位置pos映射成为一个d_model维的位置向量，且此位置向量的第i维的值为PE(pos,i)，P(w_i)为单词频率，β为平滑反频率系数。多词特征的引入增加模型对词语的理解。

步骤六：优化词嵌入维度，通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数(Pairwise Inner Product)PIP为当前语料库设计最优的维度嵌入表示，PIP损失函数如下：

PIP(E)＝EE^T

算法中：

为偏差，

和

为方差，α∈(0,1]，σ为噪声标准差，λ_i为第i个经验奇异值参数。

步骤七：实验结果对比。分别在RNN+atten(传统Rnn模型)、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型(融合词嵌入和位置嵌入模型)、以及本文设计的Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析，并通过Rouge评价体系进行实验对比，图4为Rouge值得对比图，从中可以看出本发明的性能高出其他算法10％-13％，这表明本发明所提方法在同等情况下，优于其他文本摘要方法生成的文本摘要质量更好，精度更高。

实施例：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

进行归一化处理得到

归一化得分和编码器隐藏状态信息的加权求和获得M。

将低层编码器状态h_i和

的加权求和获得的联合上下文语义表示C_t-1。

PIP(E)＝EE^T

算法中：

为偏差，

和

步骤七：实验结果对比。分别在RNN+atten(传统Rnn模型)、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型(融合词嵌入和位置嵌入模型)、以及本文设计的Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析，并通过Rouge评价体系进行实验对比，图4为Rouge值得对比图，从中可以看出本发明的性能高出其他算法10％-13％，这表明本发明所提方法在同等情况下，优于其他文本摘要方法生成的文本摘要质量更好，精度更高

一种基于双编码器的短文本自动摘要系统，包括：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

进行归一化处理得到

PIP(E)＝EE^T

其中：

和

一种实现上述优选实施例中基于双编码器的短文本自动摘要方法的计算机程序。

本专利的第四发明目的是提供一种实现上述优选实施例中基于双编码器的短文本自动摘要方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述优选实施例中的基于双编码器的短文本自动摘要方法。

本发明通过对生成式文本摘要任务进行学习与研究，提出了一种基于双编码器的短文本自动摘要方法，针对当前文本摘要生成模型中上下文语义信息利用不充分，传统注意力机制语义理解不丰富；生成摘要精确度不高等问题，融合全局语义信息和局部语义信息以提高模型语言理解能力；同时结合位置嵌入、词嵌入方法将词性、词频率-逆文档指数、词关键性融合词向量特征表示中，提高模型对词语的理解；其次，针对word2vec的skip-gram模型，通过具有酉不变性质的成对内积损失函数优化词嵌入矩阵，为当前语料库选择最佳词嵌入维度，发挥词向量表示的最佳性能；最后，通过Rouge评价体系得出，本发明提出一种基于双编码器的短文本自动摘要方法提高了文本摘要的准确度和精度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于双编码器的短文本自动摘要方法，其特征在于，包括如下步骤：

步骤一：数据预处理，具体为：

将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取；去除掉长度小于5的文本，替换英文、特殊字符、表情符号三种杂乱字符，提取高质量的文本摘要数据；依据摘要与原文语义相似度的大小对数据进行筛选，依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入；语义相似度计算公式如下所示：

步骤二：设计具有双向递归神经网络的双编码器，具体为：

H＝(H₁,H₂,...H_n)＝BiRNN(x₁,x₂,...,x_n)

进行归一化处理得到

步骤三：融合全局与局部语义的注意力机制；

其中：单词所在位置pos映射成为一个d_model维的位置向量，且此位置向量的第i维的值为PE(pos,i)，P(w_i)为单词频率，β为平滑反频率系数，多词特征的引入增加模型对词语的理解；

PIP(E)＝EE^T

其中：

和

2.一种基于双编码器的短文本自动摘要系统，其特征在于，包括：

数据预处理模块，将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取；去除掉长度小于5的文本，替换英文、特殊字符、表情符号三种杂乱字符，提取高质量的文本摘要数据；依据摘要与原文语义相似度的大小对数据进行筛选，依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入；语义相似度计算公式如下所示：