CN113220870B

CN113220870B - 一种自然语言的摘要生成方法

Info

Publication number: CN113220870B
Application number: CN202110579062.2A
Authority: CN
Inventors: 郭树理; 宋晓伟; 韩丽娜; 王国威; 杨文涛
Original assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Current assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-09-06
Anticipated expiration: 2041-05-26
Also published as: CN113220870A

Abstract

本发明涉及一种自然语言的摘要生成方法，属于自然语言生成领域。本发明方法首先对基于最大熵隐马尔可夫的分词模型进行了优化调整；然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度；其次在Seq2seq模型中Encoder部分训练时，基于条件信息熵来得到系统的损失函数，并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整；最后优化了基于改进核心词的注意力机制和解码端新词生成概率的计算公式方法，并改进了解码端模型中的覆盖损失。对比现有技术，本发明可以很好解决摘要生成速度过慢等问题，提升摘要生成的流畅性和实用性。

Description

一种自然语言的摘要生成方法

技术领域

本发明涉及一种摘要生成方法，特别涉及一种基于Seq2seq模型的摘要生成方法，属于人工智能自然语言生成技术领域。

背景技术

随着社会发展进入大数据时代，各色各样的文本信息出现在人们的日常生活中，微博、微信、新闻等大量的文本信息无时无刻不出现在人们周围，这导致人们被大量无用的信息所干扰，从而无法获取到有用的信息。如果人们在看到大量的文本信息前，首先看到这些文本的摘要，进而确定此文本是否为自己需要的有用信息，这样就可以大大减少被无用信息干扰的可能性，从而方便人们的生活工作。但是无论是互联网海量的数据资源，还是医院中病历等专业信息，一般都没有摘要，如果要为这些文件提供摘要，将会耗费大量的人力资源，并且像病历这类专业的文件需要专业的医生来整理，否则可能会产生差异化不准确的摘要信息，影响数据的使用。随着人工智能技术的逐渐发展与完善，特别是神经网络技术的不断应用，用机器来为文章自动生成摘要迫在眉睫。

发明内容

本发明的目的为了解决当前信息爆炸时代文本数据量大、信息种类多且繁杂和阅读效率低的问题，提供一种自然语言摘要生成方法。

本发明的目的是通过以下技术内容实现的。

一种基于Seq2seq模型的摘要生成方法，包括以下内容：

将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词；

将分词后的文本转化为词向量序列；

将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。

作为优选，对所述最大熵隐马尔可夫模型的目标函数进行调整，直接采用与文本特性直接相关的特征函数关系来计算当前误差。

作为优选，对所述最大熵隐马尔可夫模型的权重估计进行改进，具体的，所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为：

其中λ＝λ₁,λ₂…λ_i…λ_n代表输入的句子，n为句子长度，λ_i表示句子中的每个字，o＝o₁,o₂…o_i…o_n代表输出的标签序列，每个字的标签为以下四个标记的一种：B、M、E、S，其中，B表示词语开始，M表示中间词，E表示单词的结尾，S表示单个字，g_i表示当前的输入序列，表示如下：

g_i＝＜o_i-2,o_i-1,λ₁,λ₂…λ_n,i＞

f_j(g_i,λ_i)为g_i,λ_i的第j个特征函数，f(g_i,λ_i)共有J个特征函数，为超参数，每个特征函数通常用布尔函数表示，函数值只能有1或者0两种情况，即：

γ_j为f_j(g_i,λ_i)相关联的需要学习的权重，

所述γ_j利用条件极大似然估计进行训练，其中需要最大化的目标函数是：

其中，

为对o_i＝B或M或E或S时进行求和。

作为优选，所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法，所述改进为：在所述Viterbi算法求解最优路径概率的过程中用自适应阈值

直接裁减掉不可能或者概率比较低的路径，其中δ_t(i)代表时刻t第i个字的所有单个路径的概率，b为自适应阈值中的参数，其作用为去掉所有路径中(1-b)*100％比例的概率比较低的路径。

作为优选，对所述Seq2seq模型中的Encoder编码模型进行修改，将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:

其中，I表示输入节点数，H表示输出节点数，C表示隐藏节点数，w_il表示输入门中输入节点i到隐藏节点l的连接权重，

表示t时刻第i个节点的输入，ζ_b表示输入门中输出节点系数，w_hl表示输入门中输出节点h到隐藏节点l的连接权重，

表示t时刻第h个节点的输出，ζ_s表示输入门中隐藏节点系数，w_cl表示输入门中隐藏节点c到隐藏节点l的连接权重，

表示t时刻第c个节点的状态，

表示t时刻输入门的状态，

表示t时刻输入门的输出，g(·)表示输入门的激活函数，w_iφ表示遗忘门中输入节点i到隐藏节点φ的连接权重，η_b表示遗忘门中输出节点系数，w_hφ表示遗忘门中输出节点h到隐藏节点φ的连接权重，η_s表示遗忘门中隐藏节点系数，w_cφ表示遗忘门中隐藏节点c到隐藏节点φ的连接权重，

表示t时刻遗忘门的状态，

表示t时刻遗忘门的输出，f(·)表示遗忘门的激活函数，||·||^*表示核范数，max(·)表示最大值函数。

作为优选，对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化：

①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统，利用输入文本信息的属性信息将整体信息分为不同属性的子系统；

所述整体信息系统表示为三元组S＝〈X,Y,C〉，其中X＝{x₁,x₂,...,x_i,...,x_n}，为训练过程中的输入文本数据，n为输入文本中所含不同属性文本的个数，x_i为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统；Y＝{y₁,y₂,...,y_i,...,y_n}，为训练过程的输出摘要文本，其中y_i与x_i对应，为将整体摘要拆分后，与x_i相对应的输入文本生成的摘要句子数据；C＝{c₁,c₂,...,c_i,...,c_n}是输入数据的条件属性标签，所述子系统为根据输入文本的属性标签拆分得到的，(x_i,y_i|c_i),i＝1,2,...,n，表示第i个子系统；

②根据每个子系统的输入数据属性标签，选取针对于子系统合适的损失函数L₁,L₂,...,L_n；

③利用每个子损失函数的自适应权重SGF(c_i)，将所有子损失函数融合得到总系统的初始损失函数：

L₀＝SGF(c₁)L₁+SGF(c₂)L₂+...+SGF(c_n)L_n

作为优选，所述子损失函数的自适应权重SGF(c_i)的计算公式为：

其中H(c_i)为第i个子系统的条件信息熵，H(C)为整体系统的信息熵，为各子系统信息熵累加得到。

作为优选，所述H(c_i)通过下式计算：

其中p(x_i,y_i)为第i个子系统文本信息和摘要信息同时发生的概率，p(y_i)为第i个子系统摘要信息发生的概率。

④针对当前训练数据的特性，计算自适应权重w(p,q)，用于对初始损失函数进行自适应动态惯性调整；

w(p,q)＝f_g(Δg_pq)·f_s(Δs_pq)

其中，f_g(Δg_pq)和f_s(Δs_pq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重；

作为优选，所述数值上的权重f_g(Δg_pq)根据局部数据相似性原则函数进行定义，同时为了保证算法的实时性要求和上下文流畅性，利用多次幂多项式核函数C_d(x,y)定义数值上的权重f_g(Δg_pq)为：

其中a为截断值，与数据值的整体分布有关，依据经验决定；C_d(x,y)为多次幂多项式核函数。

作为优选，所述空间上的权重f_s(Δs_pq)定义为服从二维正态分布，同时为了增加语言生成时上下文的连贯性，将上下文的输出数据特性也加入到权值调整过程中，此时f_s(Δs_pq)表达式为：

其中σ_x，σ_y为数据在x和y空间方向上分布系数，Q为空间权重的整体系数，与数据值的空间分布有关，依据经验决定。

⑤利用自适应权重对初始损失函数进行调整，最终得到多重融合损失函数L＝w(p,q)L₀。

作为优选，对所述Seq2seq模型中的Decoder解码模型进行修改，对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进；具体如下：

所述Decoder解码模型中对下一时刻生成新词的概率：

其中，w为摘要中生成的词汇，P(w)为生成词汇w的概率，p_gen(w)为从当前所用语料库的词汇表中产生新词w的概率，P_vocab为当前所用语料库的词汇表中所有词的概率分布，P_vo_cab(w)为P_vo_cab中词汇w的概率，

为当前生成内容的基于核心词的注意力机制，i＝1,2,...,H_l为当前处理的第i个编码端的隐藏层，编码端共有H_l个隐藏层；

所述p_gen(w)通过下述公式计算：

其中

为上下文向量，s_t为所述Decoder解码端的隐藏层向量的最后一层，x_t为所述模型的当前输入，w_h*，w_s，w_x和b_ptr为所述模型的参数，需要在训练过程中学习，T表示矩阵的转置，loss为训练过程中的词向量损失；sigmoid为激活函数；

所述

通过下述公式计算：

其中，softmax为激活函数；v,W_h，W_s，W_k以及b_attn都是模型需要学习的参数，h_i为编码端的第i个隐藏层向量，k_j为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量，s为核心词的个数，核心词的选取过程为：①计算每个词的权重；②根据权重对所有词进行排序；③选取排序中最靠前的s个词；词的权重WS(V)计算公式为：

其中，α为计算过程中的参数，确保计算得到的单词权重不为0，由经验给出；V为当前处理的所述待生成摘要文本中的词，V_j为在所述待生成摘要文本中与V有共现关系的词，两个词有共现关系表示它们在长度为K的窗口中共同出现，K表示窗口大小，即最多共现K个单词，由经验给出；w_ij表示词V到词V_j之间的连接权重，In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合，w_jk表示词V_j到词V_k之间的连接权重，Out(V_j)是所述待生成摘要文本与词V_j有共现关系的除V之外的所有词的集合，|D|表示语料库中文档总个数，|{V:V_j∈d}|表示语料库D中词V和词V_j有共现关系的文档d的数量；

所述

的计算公式为:

所述loss的计算公式为：

其中λ_loss为覆盖损失参数，由训练过程中学习得到，w_t为已经生成的词向量，N为已经生成的w_t的个数。

有益效果：

对比现有技术，本发明具有以下效果：

①通过通过对最大熵隐马尔可夫的目标函数进行调整，直接采用与文本特性直接相关的特征函数关系来计算当前误差，可以更好的利用文本模型的特征来加快权重的求解过程和精度；在最大熵隐马尔可夫分词模型的求解过程中，用自适应阈值直接裁减掉不可能或者概率比较低的路径，尽可能的减少模型需要求解的路径数，提升整体模型的求解速度，最终提高分词的准确定和效率；②通过对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门

加入自适应权重调整权值，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度，从而在尽可能保留上下文信息的条件下提升网络训练速度；

③Seq2seq模型中Encoder部分训练时，通过将训练数据分为子系统，根据不同子系统属性的不同选取适合于子系统特性的损失函数，并根据条件信息熵来计算不同子系统所含信息量的多少，将条件信息熵作为子系统损失函数的权重得到系统的损失函数，通过该方法生成的损失函数可以最大程度的结合输入数据的特征，满足不同属性输入数据对损失函数的要求，进而提升模型的训练速度和精度；

④在构建系统的损失函数中，利用自适应动态惯性权重对函数进行调整，所述自适应动态惯性权重主要由空间权重和数值权重组成，可以利用权重提取训练数据在不同时刻空间和数值上的特征，自适应的动态调整损失函数对当前训练数据的适应能力，同时平滑融合损失函数带来的不确定性，提升损失函数的适应能力；

⑤最后采用逆文档词频的思想来处理词汇之间的相关性，尽可能准确地选出文章中的核心词；同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法，通过尽可能地增加模型中可学习参数来增加模型的适应能力，并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成，使得在生成文章摘要的过程中，可以遗忘之前已生成摘要部分的主题，尽可能的聚焦于当前生成摘要主题，防止摘要内容重复生成。

附图说明

图1为整体算法的工作流程图

图2为基于最大熵隐马尔可夫分词模型工作流程图

图3为基于条件信息熵和自适应动态惯性权重调整的损失函数的工作流程图；

图4为基于改进核心词和注意力机制和覆盖损失的解码模型工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例当中的技术方案进行清楚、完整地描述，需要说明的是，本说明书所附图中示意的公式等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何公式的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

实施例1

一种基于Seq2seq模型的摘要生成方法，整体算法流程如图1所示，包括以下内容：

一、将待生成摘要的文本进行分词；

此处可以采用现有的分词工具对待生成摘要的文本进行分词，如最大匹配分词法、全切分分词算法、隐马尔可夫模型。

本例采用最大熵隐马尔可夫模型进行中文分词，由于现有的隐马尔可夫分词模型存在求解过程复杂，路径过多，分词耗费时间过长，发现可以通过对最大熵隐马尔可夫的目标函数进行调整，直接采用与文本特性直接相关的特征函数关系来计算当前误差，可以更好的利用文本模型的特征来加快权重的求解过程和精度；在最大熵隐马尔可夫分词模型的求解过程中，用自适应阈值直接裁减掉不可能或者概率比较低的路径，这样就可以尽可能的减少模型需要求解的路径数，提升整体模型的求解速度，最终提高分词的准确定和效率。

具体的，对最大熵隐马尔可夫模型的权重估计进行改进，最大熵隐马尔可夫模型在求解过程中不需要引入独立性假设，可以任意的选择特征，因此可以在分词过程中更好的引入文本的上下文特征，具体的，最大熵隐马尔可夫模型估计每个局部标记的概率模型为：

其中λ＝λ₁,λ₂…λ_n代表输入的句子，n为句子长度，λ_i表示句子中的每个字，i为[1,n]范围内的任意整数，o＝o₁,o₂…o_n代表输出的标签序列，每个字的标签为以下四个标记的一种，包括B、M、E、S，其中，B表示词语开始，M表示中间词，E表示单词的结尾，S表示单个字，g_i表示当前的输入序列，表示如下：

g_i＝＜o_i-2,o_i-1,λ₁,λ₂…λ_n,i＞

f_j(g_i,λ_i)为g_i,λ_i的第j个特征函数，f(g_i,λ_i)共有J个特征函数，每个特征函数通常用布尔函数表示，函数值只能有1或者0两种情况，即：

γ_j为f_j(g_i,λ_i)相关联的需要学习的权重，利用条件极大似然估计进行训练，其中需要最大化的目标函数是：

其中，

为对o_i＝B或M或E或S时进行求和，所述目标函数通常可以运用随机梯度下降法、L-BFGS或共轭梯度法来求此函数的最大值。在上述的目标函数中，直接采用与文本特性直接相关的特征函数关系来计算当前误差，可以更好的利用文本模型的特征来加快权重的求解过程和精度。

进一步的，所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法，具体过程如图2所示，所述改进为：传统的Viterbi算法虽然减少了最大熵隐马尔可夫模型中对路径的求解次数，但仍然计算量较大，在实际使用过程中花费时间较长，因此在Viterbi算法求解最优路径概率的过程中用自适应阈值b(max[δ_T(i)]-min[δ_T(i)])直接裁减掉不可能或者概率比较低的路径，这样就可以尽可能的减少最大熵隐马尔可夫模型需要求解的路径数，提升整体模型的求解速度，其中δ_t(i)在Viterbi算法中代表时刻t状态i的所有单个路径中的概率参数，在本专利中代表时刻t第i个字的所有单个路径的概率，b为自适应阈值中的参数，其作用为去掉所有路径中(1-b)*100％比例的概率比较低的路径(即将所有单个路径的概率排序，去掉后面(1-b)*100％比例的路径)，在实际使用中由经验和需求设定。

二、将分词后的文本转化为词向量序列；

此处对分词构造词向量，可以采用现有的词向量工具实现，如one-hot编码、Distributed编码等。

三、将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。

进一步的，由于现有Seq2seq模型在摘要生成训练过程缓慢，耗费时间过长通过分析其编码结构，发现可以通过对隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值调整，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度，从而在尽可能保留上下文信息的条件下提升网络训练速度。

具体的，对所述Seq2seq模型中的Encoder编码模型的改进为，将LSTM隐层单个细胞节点的输入门和遗忘门计算公式做出了改进，利用核函数计算每个隐层所蕴含的原文本语义信息，并选取当前数值最大项作为当前输入门和遗忘门的系数，从而进一步强化对之前信息的记忆或者遗忘程度，提升编码模型的训练速度。LSTM模型每一个细胞节点的输入门和遗忘门结构计算如下:

进一步的，由于现有Seq2seq模型应用于摘要生成时，输入数据过于庞大而复杂，包含不同属性类型的数据，通过分析其损失函数，发现单一损失函数无法满足多样化输入数据对损失函数的要求，进而造成训练耗费时间长，模型精度不高的问题，可以通过对样本分类，对每个分类样本单独设置损失函数，并在训练过程中依惯性调整，最后再根据各分类的重要性程度进行融合，从而极大地减少模型训练时间，增加模型精度。

具体的，如图3所示，损失函数优化过程如下：

①将训练过程中每次训练数据输入文本信息和输出信息摘要视为一个整体信息系统，利用输入文本信息的属性信息(如数据、引言、方法描述和总结等)将整体信息分为不同属性的子系统。

所述整体信息系统是一个三元组S＝〈X,Y,C〉，其中X＝{x₁,x₂,...,x_n}，为训练过程中的输入文本数据，n为输入文本中所含不同属性文本的个数，x_i为整体输入文本中不同属性的子文本，如数据文本和引言文本等，每种属性的文本视为一个子系统；Y＝{y₁,y₂,...,y_n}，为训练过程的输出摘要文本，其中y_i与x_i对应据，为将整体摘要拆分后，与x_i相对应的输入文本生成的摘要句子数据；C＝{c₁,c₂,...,c_n}是输入数据的条件属性标签，即数据、引言、方法描述和总结等标签。所述子系统为根据输入文本的属性标签拆分得到的(x_i,y_i|c_i),i＝1,2,...,n子系统。

②根据每个子系统的输入数据属性标签c_i，选取针对于子系统合适的损失函数L₁,L₂,...,L_n。

本例假设有四项子系统，由于不同属性的文本在摘要生成中所起作用不同，如摘要中很少体现数据文本的内容，而相应会侧重于体现方法描述文本的内容，因此在训练文本的过程中，可以根据不同的子系统属性动态挑选不同的损失函数。根据子系统的输入数据属性标签c₁-c₄，选取针对于子系统合适的损失函数L₁,L₂,L₃,L₄。

L₀＝SGF(c₁)L₁+SGF(c₂)L₂+SGF(c₃)L₃...+SGF(c₄)L₄

所述子损失函数的自适应权重SGF(c_i)的计算公式为：

进一步的，设定H(c_i)通过概率实现，计算公式如下：

④针对当前训练数据的特性，计算自适应权重w(p,q)，以对函数权值进行自适应动态惯性调整。

w(p,q)＝f_g(Δg_pq)·f_s(Δs_pq)

所述步骤中的f_g(Δg_pq)和f_s(Δs_pq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重。

在训练时，一般是将样本每5—20个分为一组，每组训练时或称阶段训练时，根据本阶段训练样本特性，调整所述w(p,q)。

进一步的，所述数值上的权重f_g(Δg_pq)根据局部数据相似性原则函数进行定义，同时为了保证算法的实时性要求和上下文流畅性，利用多次幂多项式核函数C_d(x,y)定义数值上的权重f_g(Δg_pq)为：

其中a为截断值，与数据值的整体分布有关，依据经验决定。

所述空间上的权重f_s(Δs_pq)定义为服从二维正态分布，同时为了增加语言生成时上下文的连贯性，将上下文的输出数据特性也加入到权值调整过程中，此时f_s(Δs_pq)表达式为：

其中σ_x，σ_y为数据在x和y空间方向上分布系数，Q为空间权重的整体系数，与数据值的空间分布有关，依据经验决定给出。

⑤利用惯性权重对初始损失函数进行调整，最终得到多种融合损失函数L＝w(p,q)L₀。

进一步的，对Seq2seq模型中的Decoder解码模型进行修改，对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进，具体如图4所示，传统的核心词选取方法为TF-IDF算法和TextRank算法，其中TF-IDF算法主要提取了逆文档词频作为核心词的选取指标，无法考虑文档中词汇之间的相关性，TextRank算法主要考虑文档中词汇之间的相关性，却无法去除文档中常用词汇带来的干扰，因此本发明采用逆文档词频的思想来处理词汇之间的相关性，尽可能准确地选出文章中的核心词；同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法，通过尽可能地增加模型中可学习参数来增加模型的适应能力，并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成，使得在生成文章摘要的过程中，可以遗忘之前已生成摘要部分的主题，尽可能的聚焦于当前生成摘要主题，防止摘要内容重复生成。

首先，改进Decoder解码模型中对下一时刻生成新词的概率，根据该生成词的概率决定摘要生成下一时刻的输出内容：

其中，w为摘要中生成的词汇，P(w)为生成词汇w的概率，p_gen(w)为从当前所用语料库的词汇表中(后面简称词表)产生新词w的概率，P_vocab为词表中所有词的概率分布，P_vocab(w)为P_vocab中词汇w的概率，

所述p_gen(w)通过下述公式计算：

其中

为上下文向量，s_t为decoder解码端的隐藏层向量的最后一层，x_t为当前模型的输入，w_h*，w_s，w_x和b_ptr都用来表示在训练过程汇总可学习的参数，T表示矩阵的转置，loss为训练过程中的词向量损失；sigmoid为激活函数；

所述

通过下述公式计算：

其中，softmax为激活函数；v,W_h，W_s，W_k以及b_attn都是可学习的参数，h_i为编码端的第i个隐藏层向量，k_j为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量，s为核心词的个数，核心词的选取过程为：①计算每个词的权重；②根据权重对所有词进行排序；③选取排序中最靠前的s个词；词的权重计算公式为：

其中，α为计算过程中的参数，确保计算得到的单词权重不为0，由经验给出；V为待生成摘要文本中的词，V_j为在待生成摘要文本中与该词有共现关系的词，两个词有共现关系表示它们在长度为K的窗口中共同出现，K表示窗口大小，即最多共现K个单词，由经验给出；w_ij表示词V到词V_j之间的连接权重，In(V)是待生成摘要文本中与词V有共现关系的所有单词的集合，w_jk表示词V_j到词V_k之间的连接权重，本例中设置初始连接权重均为1，然后若在待生成摘要文本中词V_j到词V_k每出现一次共现关系，则连接权重加1，Out(V_j)是待生成摘要文本中与词V_j有共现关系的除V之外的所有词的集合，|D|表示语料库中文档总个数，|{V:V_j∈d}|表示语料库D中词V和词V_j有共现关系的文档d的数量；

该核心词的计算方法主要通过词汇的共现关系来表征词汇之间的相关性，并利用词汇之间的相关性来挑选与其余单词相关性最大的词汇作为备选词汇，同时利用逆文档频率作为该词汇的系数，降低常用词汇在核心词挑选中的比例，使得经过该方法挑选出的核心词既可以参考词汇间的关联程度，表征文本主题相关度最高的词汇，又尽可能的避免出现将常用口语词作为核心词的现象。

所述

的计算公式为:

所述loss的计算公式为：

其中λ_lo_ss为覆盖损失参数，由训练过程中学习得到，w_t为已经生成的词向量，N为已经生成的w_t的个数。

综上所述，本发明方法首先通过对基于最大熵隐马尔可夫的分词模型进行了优化调整；然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度；其次在Seq2seq模型中Encoder部分训练时，通过将子系统条件信息熵来作为子系统损失函数的权重得到系统的损失函数，并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整；最后采用逆文档词频的思想来处理词汇之间的相关性，优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法，并改进了解码端模型中的覆盖损失。经过这一系列的调整，本模型可以很好解决摘要生成模型中，速度过慢等问题，提升摘要生成的流畅性和实用性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Seq2seq模型的摘要生成方法，其特征在于，包括：

将分词后的文本转化为词向量序列；

将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要；

对所述Seq2seq模型中的Encoder编码模型进行修改，将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:

表示t时刻第c个节点的状态，

表示t时刻输入门的状态，

表示t时刻遗忘门的状态，

2.根据权利要求1所述的方法，其特征在于，对所述最大熵隐马尔可夫模型的目标函数进行调整，直接采用与文本特性直接相关的特征函数关系来计算当前误差。

3.根据权利要求2所述的方法，其特征在于，所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为：

g_i＝＜o_i-2,o_i-1,λ₁,λ₂…λ_n,i＞

f_j(g_i,λ_i)为g_i,λ_i的第j个特征函数，f(g_i,λ_i)共有J个特征函数，每个特征函数用布尔函数表示，函数值只能有1或者0两种情况，即：

γ_j为f_j(g_i,λ_i)相关联的需要学习的权重，

其中，

为对o_i＝B或M或E或S时进行求和。

4.根据权利要求1所述的方法，其特征在于，所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法，所述改进为：在Viterbi算法求解最优路径概率的过程中用自适应阈值

直接裁减掉不可能或者低概率的路径，其中δ_t(i)代表时刻t第i个字的所有单个路径的概率，b为自适应阈值中的参数，其作用为去掉所有路径中概率排序靠后的(1-b)*100％比例的路径。

5.根据权利要求1所述的方法，其特征在于，对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化：

②根据每个子系统的输入数据属性标签，选取针对于子系统的损失函数L₁,L₂,...,L_n；

L₀＝SGF(c₁)L₁+SGF(c₂)L₂+...+SGF(c_n)L_n

w(p,q)＝f_g(Δg_pq)·f_s(Δs_pq)

6.根据权利要求5所述的方法，其特征在于，所述子损失函数的自适应权重SGF(c_i)的计算公式为：

7.根据权利要求5所述的方法，其特征在于，所述f_g(Δg_pq)通过下式计算：

其中a为截断值，C_d(x,y)为多次幂多项式核函数。

8.根据权利要求6所述的方法，其特征在于，所述f_s(Δs_pq)通过下式计算：

其中σ_x，σ_y为数据在x和y空间方向上分布系数，Q为空间权重的整体系数。

9.根据权利要求1-8任一所述的方法，其特征在于，对所述Seq2seq模型中的Decoder解码模型进行修改，具体如下:

所述Decoder解码模型中对下一时刻生成新词的概率：

其中，w为摘要中生成的词汇，P(w)为生成词汇w的概率，p_gen(w)为从当前所用语料库的词汇表中产生新词w的概率，P_vocab为当前所用语料库的词汇表中所有词的概率分布，P_vocab(w)为P_vocab中词汇w的概率，

所述p_gen(w)通过下述公式计算：

其中

为上下文向量，s_t为所述Decoder解码端的隐藏层向量的最后一层，x_t为所述模型的当前输入，

w_s，w_x和b_ptr为所述模型的参数，由训练过程中学习得到，T表示矩阵的转置，loss为训练过程中的词向量损失；sigmoid为激活函数；

所述

通过下述公式计算：

其中，softmax为激活函数；v,W_h，W_s，W_k以及b_attn都是所述模型的参数，由训练过程中学习得到，h_i为编码端的第i个隐藏层向量，k_j为所述待生成摘要文本中的第j个核心词经转化得到的词向量，s为核心词的个数，所述核心词的选取过程为：①计算所述待生成摘要文本中每个词的权重；②根据权重对所有词进行排序；③选取排序中最靠前的s个词；所述词的权重WS(V)计算公式为：

其中，α为计算过程中的参数，确保WS(V)不为0；V为当前处理的所述待生成摘要文本中的词，V_j为在所述待生成摘要文本中与V有共现关系的词，两个词有共现关系表示它们在长度为K的窗口中共同出现，K表示窗口大小；w_ij表示词V到词V_j之间的连接权重，In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合，w_jk表示词V_j到词V_k之间的连接权重，Out(V_j)是所述待生成摘要文本与词V_j有共现关系的除V之外的所有词的集合，|D|表示语料库中文档总个数，|{V:V_j∈d}|表示语料库D中词V和词V_j有共现关系的文档d的数量；

所述

的计算公式为:

所述loss的计算公式为：