CN113220870A - 一种自然语言的摘要生成方法 - Google Patents
一种自然语言的摘要生成方法 Download PDFInfo
- Publication number
- CN113220870A CN113220870A CN202110579062.2A CN202110579062A CN113220870A CN 113220870 A CN113220870 A CN 113220870A CN 202110579062 A CN202110579062 A CN 202110579062A CN 113220870 A CN113220870 A CN 113220870A
- Authority
- CN
- China
- Prior art keywords
- word
- representing
- input
- weight
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种自然语言的摘要生成方法,属于自然语言生成领域。本发明方法首先对基于最大熵隐马尔可夫的分词模型进行了优化调整;然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度;其次在Seq2seq模型中Encoder部分训练时,基于条件信息熵来得到系统的损失函数,并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整;最后优化了基于改进核心词的注意力机制和解码端新词生成概率的计算公式方法,并改进了解码端模型中的覆盖损失。对比现有技术,本发明可以很好解决摘要生成速度过慢等问题,提升摘要生成的流畅性和实用性。
Description
技术领域
本发明涉及一种摘要生成方法,特别涉及一种基于Seq2seq模型的摘要生成方法,属于人工智能自然语言生成技术领域。
背景技术
随着社会发展进入大数据时代,各色各样的文本信息出现在人们的日常生活中,微博、微信、新闻等大量的文本信息无时无刻不出现在人们周围,这导致人们被大量无用的信息所干扰,从而无法获取到有用的信息。如果人们在看到大量的文本信息前,首先看到这些文本的摘要,进而确定此文本是否为自己需要的有用信息,这样就可以大大减少被无用信息干扰的可能性,从而方便人们的生活工作。但是无论是互联网海量的数据资源,还是医院中病历等专业信息,一般都没有摘要,如果要为这些文件提供摘要,将会耗费大量的人力资源,并且像病历这类专业的文件需要专业的医生来整理,否则可能会产生差异化不准确的摘要信息,影响数据的使用。随着人工智能技术的逐渐发展与完善,特别是神经网络技术的不断应用,用机器来为文章自动生成摘要迫在眉睫。
发明内容
本发明的目的为了解决当前信息爆炸时代文本数据量大、信息种类多且繁杂和阅读效率低的问题,提供一种自然语言摘要生成方法。
本发明的目的是通过以下技术内容实现的。
一种基于Seq2seq模型的摘要生成方法,包括以下内容:
将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词;
将分词后的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
作为优选,对所述最大熵隐马尔可夫模型的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差。
作为优选,对所述最大熵隐马尔可夫模型的权重估计进行改进,具体的,所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
其中λ=λ1,λ2…λi…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,o=o1,o2…oi…on代表输出的标签序列,每个字的标签为以下四个标记的一种:B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-1,λ1,λ2…λn,i>
fj(gi,λi)为gi,λi的第j个特征函数,f(gi,λi)共有J个特征函数,为超参数,每个特征函数通常用布尔函数表示,函数值只能有1或者0两种情况,即:
γj为fj(gi,λi)相关联的需要学习的权重,
所述γj利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
作为优选,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,所述改进为:在所述Viterbi算法求解最优路径概率的过程中用自适应阈值直接裁减掉不可能或者概率比较低的路径,其中δt(i)代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中(1-b)*100%比例的概率比较低的路径。
作为优选,对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,表示t时刻第i个节点的输入,ζb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,表示t时刻第h个节点的输出,ζs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,表示t时刻第c个节点的状态,表示t时刻输入门的状态,表示t时刻输入门的输出,g(·)表示输入门的激活函数,wiφ表示遗忘门中输入节点i到隐藏节点φ的连接权重,ηb表示遗忘门中输出节点系数,whφ表示遗忘门中输出节点h到隐藏节点φ的连接权重,ηs表示遗忘门中隐藏节点系数,wcφ表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,表示t时刻遗忘门的状态,表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
作为优选,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统表示为三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统合适的损失函数L1,L2,...,Ln;
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
作为优选,所述子损失函数的自适应权重SGF(ci)的计算公式为:
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
作为优选,所述H(ci)通过下式计算:
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
作为优选,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
其中a为截断值,与数据值的整体分布有关,依据经验决定;Cd(x,y)为多次幂多项式核函数。
作为优选,所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定。
⑤利用自适应权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0。
作为优选,对所述Seq2seq模型中的Decoder解码模型进行修改,对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进;具体如下:
所述Decoder解码模型中对下一时刻生成新词的概率:
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中产生新词w的概率,Pvocab为当前所用语料库的词汇表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
其中为上下文向量,st为所述Decoder解码端的隐藏层向量的最后一层,xt为所述模型的当前输入,wh*,ws,wx和bptr为所述模型的参数,需要在训练过程中学习,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是模型需要学习的参数,hi为编码端的第i个隐藏层向量,kj为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量,s为核心词的个数,核心词的选取过程为:①计算每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;词的权重WS(V)计算公式为:
其中,α为计算过程中的参数,确保计算得到的单词权重不为0,由经验给出;V为当前处理的所述待生成摘要文本中的词,Vj为在所述待生成摘要文本中与V有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小,即最多共现K个单词,由经验给出;wij表示词V到词Vj之间的连接权重,In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,Out(Vj)是所述待生成摘要文本与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
所述loss的计算公式为:
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
有益效果:
对比现有技术,本发明具有以下效果:
①通过通过对最大熵隐马尔可夫的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度;在最大熵隐马尔可夫分词模型的求解过程中,用自适应阈值直接裁减掉不可能或者概率比较低的路径,尽可能的减少模型需要求解的路径数,提升整体模型的求解速度,最终提高分词的准确定和效率;②通过对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门
加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度;
③Seq2seq模型中Encoder部分训练时,通过将训练数据分为子系统,根据不同子系统属性的不同选取适合于子系统特性的损失函数,并根据条件信息熵来计算不同子系统所含信息量的多少,将条件信息熵作为子系统损失函数的权重得到系统的损失函数,通过该方法生成的损失函数可以最大程度的结合输入数据的特征,满足不同属性输入数据对损失函数的要求,进而提升模型的训练速度和精度;
④在构建系统的损失函数中,利用自适应动态惯性权重对函数进行调整,所述自适应动态惯性权重主要由空间权重和数值权重组成,可以利用权重提取训练数据在不同时刻空间和数值上的特征,自适应的动态调整损失函数对当前训练数据的适应能力,同时平滑融合损失函数带来的不确定性,提升损失函数的适应能力;
⑤最后采用逆文档词频的思想来处理词汇之间的相关性,尽可能准确地选出文章中的核心词;同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,通过尽可能地增加模型中可学习参数来增加模型的适应能力,并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成,使得在生成文章摘要的过程中,可以遗忘之前已生成摘要部分的主题,尽可能的聚焦于当前生成摘要主题,防止摘要内容重复生成。
附图说明
图1为整体算法的工作流程图
图2为基于最大熵隐马尔可夫分词模型工作流程图
图3为基于条件信息熵和自适应动态惯性权重调整的损失函数的工作流程图;
图4为基于改进核心词和注意力机制和覆盖损失的解码模型工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例当中的技术方案进行清楚、完整地描述,需要说明的是,本说明书所附图中示意的公式等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何公式的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例1
一种基于Seq2seq模型的摘要生成方法,整体算法流程如图1所示,包括以下内容:
一、将待生成摘要的文本进行分词;
此处可以采用现有的分词工具对待生成摘要的文本进行分词,如最大匹配分词法、全切分分词算法、隐马尔可夫模型。
本例采用最大熵隐马尔可夫模型进行中文分词,由于现有的隐马尔可夫分词模型存在求解过程复杂,路径过多,分词耗费时间过长,发现可以通过对最大熵隐马尔可夫的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度;在最大熵隐马尔可夫分词模型的求解过程中,用自适应阈值直接裁减掉不可能或者概率比较低的路径,这样就可以尽可能的减少模型需要求解的路径数,提升整体模型的求解速度,最终提高分词的准确定和效率。
具体的,对最大熵隐马尔可夫模型的权重估计进行改进,最大熵隐马尔可夫模型在求解过程中不需要引入独立性假设,可以任意的选择特征,因此可以在分词过程中更好的引入文本的上下文特征,具体的,最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
其中λ=λ1,λ2…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,i为[1,n]范围内的任意整数,o=o1,o2…on代表输出的标签序列,每个字的标签为以下四个标记的一种,包括B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-1,λ1,λ2…λn,i>
fj(gi,λi)为gi,λi的第j个特征函数,f(gi,λi)共有J个特征函数,每个特征函数通常用布尔函数表示,函数值只能有1或者0两种情况,即:
γj为fj(gi,λi)相关联的需要学习的权重,利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
其中,为对oi=B或M或E或S时进行求和,所述目标函数通常可以运用随机梯度下降法、L-BFGS或共轭梯度法来求此函数的最大值。在上述的目标函数中,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度。
进一步的,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,具体过程如图2所示,所述改进为:传统的Viterbi算法虽然减少了最大熵隐马尔可夫模型中对路径的求解次数,但仍然计算量较大,在实际使用过程中花费时间较长,因此在Viterbi算法求解最优路径概率的过程中用自适应阈值b(max[δT(i)]-min[δT(i)])直接裁减掉不可能或者概率比较低的路径,这样就可以尽可能的减少最大熵隐马尔可夫模型需要求解的路径数,提升整体模型的求解速度,其中δt(i)在Viterbi算法中代表时刻t状态i的所有单个路径中的概率参数,在本专利中代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中(1-b)*100%比例的概率比较低的路径(即将所有单个路径的概率排序,去掉后面(1-b)*100%比例的路径),在实际使用中由经验和需求设定。
二、将分词后的文本转化为词向量序列;
此处对分词构造词向量,可以采用现有的词向量工具实现,如one-hot编码、Distributed编码等。
三、将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
进一步的,由于现有Seq2seq模型在摘要生成训练过程缓慢,耗费时间过长通过分析其编码结构,发现可以通过对隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值调整,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度。
具体的,对所述Seq2seq模型中的Encoder编码模型的改进为,将LSTM隐层单个细胞节点的输入门和遗忘门计算公式做出了改进,利用核函数计算每个隐层所蕴含的原文本语义信息,并选取当前数值最大项作为当前输入门和遗忘门的系数,从而进一步强化对之前信息的记忆或者遗忘程度,提升编码模型的训练速度。LSTM模型每一个细胞节点的输入门和遗忘门结构计算如下:
进一步的,由于现有Seq2seq模型应用于摘要生成时,输入数据过于庞大而复杂,包含不同属性类型的数据,通过分析其损失函数,发现单一损失函数无法满足多样化输入数据对损失函数的要求,进而造成训练耗费时间长,模型精度不高的问题,可以通过对样本分类,对每个分类样本单独设置损失函数,并在训练过程中依惯性调整,最后再根据各分类的重要性程度进行融合,从而极大地减少模型训练时间,增加模型精度。
具体的,如图3所示,损失函数优化过程如下:
①将训练过程中每次训练数据输入文本信息和输出信息摘要视为一个整体信息系统,利用输入文本信息的属性信息(如数据、引言、方法描述和总结等)将整体信息分为不同属性的子系统。
所述整体信息系统是一个三元组S=〈X,Y,C〉,其中X={x1,x2,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本,如数据文本和引言文本等,每种属性的文本视为一个子系统;Y={y1,y2,...,yn},为训练过程的输出摘要文本,其中yi与xi对应据,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,cn}是输入数据的条件属性标签,即数据、引言、方法描述和总结等标签。所述子系统为根据输入文本的属性标签拆分得到的(xi,yi|ci),i=1,2,...,n子系统。
②根据每个子系统的输入数据属性标签ci,选取针对于子系统合适的损失函数L1,L2,...,Ln。
本例假设有四项子系统,由于不同属性的文本在摘要生成中所起作用不同,如摘要中很少体现数据文本的内容,而相应会侧重于体现方法描述文本的内容,因此在训练文本的过程中,可以根据不同的子系统属性动态挑选不同的损失函数。根据子系统的输入数据属性标签c1-c4,选取针对于子系统合适的损失函数L1,L2,L3,L4。
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+SGF(c3)L3...+SGF(c4)L4
所述子损失函数的自适应权重SGF(ci)的计算公式为:
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
进一步的,设定H(ci)通过概率实现,计算公式如下:
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),以对函数权值进行自适应动态惯性调整。
w(p,q)=fg(Δgpq)·fs(Δspq)
所述步骤中的fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重。
在训练时,一般是将样本每5—20个分为一组,每组训练时或称阶段训练时,根据本阶段训练样本特性,调整所述w(p,q)。
进一步的,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
其中a为截断值,与数据值的整体分布有关,依据经验决定。
所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定给出。
⑤利用惯性权重对初始损失函数进行调整,最终得到多种融合损失函数L=w(p,q)L0。
进一步的,对Seq2seq模型中的Decoder解码模型进行修改,对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进,具体如图4所示,传统的核心词选取方法为TF-IDF算法和TextRank算法,其中TF-IDF算法主要提取了逆文档词频作为核心词的选取指标,无法考虑文档中词汇之间的相关性,TextRank算法主要考虑文档中词汇之间的相关性,却无法去除文档中常用词汇带来的干扰,因此本发明采用逆文档词频的思想来处理词汇之间的相关性,尽可能准确地选出文章中的核心词;同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,通过尽可能地增加模型中可学习参数来增加模型的适应能力,并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成,使得在生成文章摘要的过程中,可以遗忘之前已生成摘要部分的主题,尽可能的聚焦于当前生成摘要主题,防止摘要内容重复生成。
首先,改进Decoder解码模型中对下一时刻生成新词的概率,根据该生成词的概率决定摘要生成下一时刻的输出内容:
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中(后面简称词表)产生新词w的概率,Pvocab为词表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
其中为上下文向量,st为decoder解码端的隐藏层向量的最后一层,xt为当前模型的输入,wh*,ws,wx和bptr都用来表示在训练过程汇总可学习的参数,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是可学习的参数,hi为编码端的第i个隐藏层向量,kj为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量,s为核心词的个数,核心词的选取过程为:①计算每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;词的权重计算公式为:
其中,α为计算过程中的参数,确保计算得到的单词权重不为0,由经验给出;V为待生成摘要文本中的词,Vj为在待生成摘要文本中与该词有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小,即最多共现K个单词,由经验给出;wij表示词V到词Vj之间的连接权重,In(V)是待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,本例中设置初始连接权重均为1,然后若在待生成摘要文本中词Vj到词Vk每出现一次共现关系,则连接权重加1,Out(Vj)是待生成摘要文本中与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
该核心词的计算方法主要通过词汇的共现关系来表征词汇之间的相关性,并利用词汇之间的相关性来挑选与其余单词相关性最大的词汇作为备选词汇,同时利用逆文档频率作为该词汇的系数,降低常用词汇在核心词挑选中的比例,使得经过该方法挑选出的核心词既可以参考词汇间的关联程度,表征文本主题相关度最高的词汇,又尽可能的避免出现将常用口语词作为核心词的现象。
所述loss的计算公式为:
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
综上所述,本发明方法首先通过对基于最大熵隐马尔可夫的分词模型进行了优化调整;然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度;其次在Seq2seq模型中Encoder部分训练时,通过将子系统条件信息熵来作为子系统损失函数的权重得到系统的损失函数,并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整;最后采用逆文档词频的思想来处理词汇之间的相关性,优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,并改进了解码端模型中的覆盖损失。经过这一系列的调整,本模型可以很好解决摘要生成模型中,速度过慢等问题,提升摘要生成的流畅性和实用性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于Seq2seq模型的摘要生成方法,其特征在于,包括:
将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词;
将分词后的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
2.根据权利要求1所述的方法,其特征在于,对所述最大熵隐马尔可夫模型的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差。
3.根据权利要求2所述的方法,其特征在于,所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
其中λ=λ1,λ2…λi…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,o=o1,o2…oi…on代表输出的标签序列,每个字的标签为以下四个标记的一种:B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-1,λ1,λ2…λn,i>
fj(gi,λi)为gi,λi的第j个特征函数,f(gi,λi)共有J个特征函数,每个特征函数用布尔函数表示,函数值只能有1或者0两种情况,即:
γj为fj(gi,λi)相关联的需要学习的权重,
所述γj利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
5.根据权利要求1所述的方法,其特征在于,对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,表示t时刻第i个节点的输入,ζb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,表示t时刻第h个节点的输出,ζs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,表示t时刻第c个节点的状态,表示t时刻输入门的状态,表示t时刻输入门的输出,g(·)表示输入门的激活函数,wiφ表示遗忘门中输入节点i到隐藏节点φ的连接权重,ηb表示遗忘门中输出节点系数,whφ表示遗忘门中输出节点h到隐藏节点φ的连接权重,ηs表示遗忘门中隐藏节点系数,wcφ表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,表示t时刻遗忘门的状态,表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
6.根据权利要求1所述的方法,其特征在于,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统表示为三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统合适的损失函数L1,L2,...,Ln;
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
④针对当前训练数据的特性,计算自适应权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
⑤利用自适应权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0。
10.根据权利要求1-9任一所述的方法,其特征在于,对所述Seq2seq模型中的Decoder解码模型进行修改,具体如下:
所述Decoder解码模型中对下一时刻生成新词的概率:
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中产生新词w的概率,Pvocab为当前所用语料库的词汇表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
其中为上下文向量,st为所述Decoder解码端的隐藏层向量的最后一层,xt为所述模型的当前输入,ws,wx和bptr为所述模型的参数,由训练过程中学习得到,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是所述模型的参数,由训练过程中学习得到,hi为编码端的第i个隐藏层向量,kj为所述待生成摘要文本中的第j个核心词经转化得到的词向量,s为核心词的个数,所述核心词的选取过程为:①计算所述待生成摘要文本中每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;所述词的权重WS(V)计算公式为:
其中,α为计算过程中的参数,确保WS(V)不为0;V为当前处理的所述待生成摘要文本中的词,Vj为在所述待生成摘要文本中与V有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小;wij表示词V到词Vj之间的连接权重,In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,Out(Vj)是所述待生成摘要文本与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
所述loss的计算公式为:
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579062.2A CN113220870B (zh) | 2021-05-26 | 2021-05-26 | 一种自然语言的摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579062.2A CN113220870B (zh) | 2021-05-26 | 2021-05-26 | 一种自然语言的摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220870A true CN113220870A (zh) | 2021-08-06 |
CN113220870B CN113220870B (zh) | 2022-09-06 |
Family
ID=77098661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110579062.2A Active CN113220870B (zh) | 2021-05-26 | 2021-05-26 | 一种自然语言的摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220870B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
US20190278835A1 (en) * | 2018-03-08 | 2019-09-12 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
-
2021
- 2021-05-26 CN CN202110579062.2A patent/CN113220870B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
US20190278835A1 (en) * | 2018-03-08 | 2019-09-12 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
XUEFENG XI等: "Global Encoding for Long Chinese Text Summarization", 《ACM TRANS. ASIAN LOW-RESOUR. LANG. INF. PROCESS.》 * |
方旭等: "核心词修正的Seq2Seq短文摘要", 《计算机工程与设计》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113220870B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209817B (zh) | 文本处理模型的训练方法、装置和文本处理方法 | |
CN110111399B (zh) | 一种基于视觉注意力的图像文本生成方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107358948B (zh) | 基于注意力模型的语言输入关联性检测方法 | |
CN109992780B (zh) | 一种基于深度神经网络特定目标情感分类方法 | |
CN110210032B (zh) | 文本处理方法及装置 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110210499A (zh) | 一种图像语义描述的自适应生成系统 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN115794999B (zh) | 一种基于扩散模型的专利文档查询方法及计算机设备 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN110874411A (zh) | 一种基于注意力机制融合的跨领域情感分类系统 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN113407663B (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN108647206B (zh) | 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
Huo et al. | Terg: Topic-aware emotional response generation for chatbot | |
Mathur et al. | A scaled‐down neural conversational model for chatbots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |