CN113220870B - 一种自然语言的摘要生成方法 - Google Patents

一种自然语言的摘要生成方法 Download PDF

Info

Publication number
CN113220870B
CN113220870B CN202110579062.2A CN202110579062A CN113220870B CN 113220870 B CN113220870 B CN 113220870B CN 202110579062 A CN202110579062 A CN 202110579062A CN 113220870 B CN113220870 B CN 113220870B
Authority
CN
China
Prior art keywords
word
input
representing
weight
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110579062.2A
Other languages
English (en)
Other versions
CN113220870A (zh
Inventor
郭树理
宋晓伟
韩丽娜
王国威
杨文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan College Of Software Technology
Beijing Institute of Technology BIT
Second Medical Center of PLA General Hospital
Original Assignee
Hainan College Of Software Technology
Beijing Institute of Technology BIT
Second Medical Center of PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan College Of Software Technology, Beijing Institute of Technology BIT, Second Medical Center of PLA General Hospital filed Critical Hainan College Of Software Technology
Priority to CN202110579062.2A priority Critical patent/CN113220870B/zh
Publication of CN113220870A publication Critical patent/CN113220870A/zh
Application granted granted Critical
Publication of CN113220870B publication Critical patent/CN113220870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种自然语言的摘要生成方法,属于自然语言生成领域。本发明方法首先对基于最大熵隐马尔可夫的分词模型进行了优化调整;然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度;其次在Seq2seq模型中Encoder部分训练时,基于条件信息熵来得到系统的损失函数,并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整;最后优化了基于改进核心词的注意力机制和解码端新词生成概率的计算公式方法,并改进了解码端模型中的覆盖损失。对比现有技术,本发明可以很好解决摘要生成速度过慢等问题,提升摘要生成的流畅性和实用性。

Description

一种自然语言的摘要生成方法
技术领域
本发明涉及一种摘要生成方法,特别涉及一种基于Seq2seq模型的摘要生成方法,属于人工智能自然语言生成技术领域。
背景技术
随着社会发展进入大数据时代,各色各样的文本信息出现在人们的日常生活中,微博、微信、新闻等大量的文本信息无时无刻不出现在人们周围,这导致人们被大量无用的信息所干扰,从而无法获取到有用的信息。如果人们在看到大量的文本信息前,首先看到这些文本的摘要,进而确定此文本是否为自己需要的有用信息,这样就可以大大减少被无用信息干扰的可能性,从而方便人们的生活工作。但是无论是互联网海量的数据资源,还是医院中病历等专业信息,一般都没有摘要,如果要为这些文件提供摘要,将会耗费大量的人力资源,并且像病历这类专业的文件需要专业的医生来整理,否则可能会产生差异化不准确的摘要信息,影响数据的使用。随着人工智能技术的逐渐发展与完善,特别是神经网络技术的不断应用,用机器来为文章自动生成摘要迫在眉睫。
发明内容
本发明的目的为了解决当前信息爆炸时代文本数据量大、信息种类多且繁杂和阅读效率低的问题,提供一种自然语言摘要生成方法。
本发明的目的是通过以下技术内容实现的。
一种基于Seq2seq模型的摘要生成方法,包括以下内容:
将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词;
将分词后的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
作为优选,对所述最大熵隐马尔可夫模型的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差。
作为优选,对所述最大熵隐马尔可夫模型的权重估计进行改进,具体的,所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
Figure BDA0003085509030000021
其中λ=λ12…λi…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,o=o1,o2…oi…on代表输出的标签序列,每个字的标签为以下四个标记的一种:B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-112…λn,i>
fj(gii)为gii的第j个特征函数,f(gii)共有J个特征函数,为超参数,每个特征函数通常用布尔函数表示,函数值只能有1或者0两种情况,即:
Figure BDA0003085509030000022
γj为fj(gii)相关联的需要学习的权重,
所述γj利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
Figure BDA0003085509030000023
其中,
Figure BDA0003085509030000024
为对oi=B或M或E或S时进行求和。
作为优选,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,所述改进为:在所述Viterbi算法求解最优路径概率的过程中用自适应阈值
Figure BDA0003085509030000025
直接裁减掉不可能或者概率比较低的路径,其中δt(i)代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中(1-b)*100%比例的概率比较低的路径。
作为优选,对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
Figure BDA0003085509030000031
Figure BDA0003085509030000032
Figure BDA0003085509030000033
Figure BDA0003085509030000034
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,
Figure BDA0003085509030000035
表示t时刻第i个节点的输入,ζb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,
Figure BDA0003085509030000036
表示t时刻第h个节点的输出,ζs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,
Figure BDA0003085509030000037
表示t时刻第c个节点的状态,
Figure BDA0003085509030000038
表示t时刻输入门的状态,
Figure BDA0003085509030000039
表示t时刻输入门的输出,g(·)表示输入门的激活函数,w表示遗忘门中输入节点i到隐藏节点φ的连接权重,ηb表示遗忘门中输出节点系数,w表示遗忘门中输出节点h到隐藏节点φ的连接权重,ηs表示遗忘门中隐藏节点系数,w表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,
Figure BDA00030855090300000310
表示t时刻遗忘门的状态,
Figure BDA00030855090300000311
表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
作为优选,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统表示为三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统合适的损失函数L1,L2,...,Ln
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
作为优选,所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure BDA0003085509030000041
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
作为优选,所述H(ci)通过下式计算:
Figure BDA0003085509030000042
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
作为优选,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
Figure BDA0003085509030000051
其中a为截断值,与数据值的整体分布有关,依据经验决定;Cd(x,y)为多次幂多项式核函数。
作为优选,所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
Figure BDA0003085509030000052
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定。
⑤利用自适应权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0
作为优选,对所述Seq2seq模型中的Decoder解码模型进行修改,对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进;具体如下:
所述Decoder解码模型中对下一时刻生成新词的概率:
Figure BDA0003085509030000061
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中产生新词w的概率,Pvocab为当前所用语料库的词汇表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,
Figure BDA0003085509030000062
为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
Figure BDA0003085509030000063
其中
Figure BDA0003085509030000064
为上下文向量,st为所述Decoder解码端的隐藏层向量的最后一层,xt为所述模型的当前输入,wh*,ws,wx和bptr为所述模型的参数,需要在训练过程中学习,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
所述
Figure BDA0003085509030000065
通过下述公式计算:
Figure BDA0003085509030000066
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是模型需要学习的参数,hi为编码端的第i个隐藏层向量,kj为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量,s为核心词的个数,核心词的选取过程为:①计算每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;词的权重WS(V)计算公式为:
Figure BDA0003085509030000067
其中,α为计算过程中的参数,确保计算得到的单词权重不为0,由经验给出;V为当前处理的所述待生成摘要文本中的词,Vj为在所述待生成摘要文本中与V有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小,即最多共现K个单词,由经验给出;wij表示词V到词Vj之间的连接权重,In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,Out(Vj)是所述待生成摘要文本与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
所述
Figure BDA0003085509030000071
的计算公式为:
Figure BDA0003085509030000072
所述loss的计算公式为:
Figure BDA0003085509030000073
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
有益效果:
对比现有技术,本发明具有以下效果:
①通过通过对最大熵隐马尔可夫的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度;在最大熵隐马尔可夫分词模型的求解过程中,用自适应阈值直接裁减掉不可能或者概率比较低的路径,尽可能的减少模型需要求解的路径数,提升整体模型的求解速度,最终提高分词的准确定和效率;②通过对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门
加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度;
③Seq2seq模型中Encoder部分训练时,通过将训练数据分为子系统,根据不同子系统属性的不同选取适合于子系统特性的损失函数,并根据条件信息熵来计算不同子系统所含信息量的多少,将条件信息熵作为子系统损失函数的权重得到系统的损失函数,通过该方法生成的损失函数可以最大程度的结合输入数据的特征,满足不同属性输入数据对损失函数的要求,进而提升模型的训练速度和精度;
④在构建系统的损失函数中,利用自适应动态惯性权重对函数进行调整,所述自适应动态惯性权重主要由空间权重和数值权重组成,可以利用权重提取训练数据在不同时刻空间和数值上的特征,自适应的动态调整损失函数对当前训练数据的适应能力,同时平滑融合损失函数带来的不确定性,提升损失函数的适应能力;
⑤最后采用逆文档词频的思想来处理词汇之间的相关性,尽可能准确地选出文章中的核心词;同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,通过尽可能地增加模型中可学习参数来增加模型的适应能力,并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成,使得在生成文章摘要的过程中,可以遗忘之前已生成摘要部分的主题,尽可能的聚焦于当前生成摘要主题,防止摘要内容重复生成。
附图说明
图1为整体算法的工作流程图
图2为基于最大熵隐马尔可夫分词模型工作流程图
图3为基于条件信息熵和自适应动态惯性权重调整的损失函数的工作流程图;
图4为基于改进核心词和注意力机制和覆盖损失的解码模型工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例当中的技术方案进行清楚、完整地描述,需要说明的是,本说明书所附图中示意的公式等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何公式的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例1
一种基于Seq2seq模型的摘要生成方法,整体算法流程如图1所示,包括以下内容:
一、将待生成摘要的文本进行分词;
此处可以采用现有的分词工具对待生成摘要的文本进行分词,如最大匹配分词法、全切分分词算法、隐马尔可夫模型。
本例采用最大熵隐马尔可夫模型进行中文分词,由于现有的隐马尔可夫分词模型存在求解过程复杂,路径过多,分词耗费时间过长,发现可以通过对最大熵隐马尔可夫的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度;在最大熵隐马尔可夫分词模型的求解过程中,用自适应阈值直接裁减掉不可能或者概率比较低的路径,这样就可以尽可能的减少模型需要求解的路径数,提升整体模型的求解速度,最终提高分词的准确定和效率。
具体的,对最大熵隐马尔可夫模型的权重估计进行改进,最大熵隐马尔可夫模型在求解过程中不需要引入独立性假设,可以任意的选择特征,因此可以在分词过程中更好的引入文本的上下文特征,具体的,最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
Figure BDA0003085509030000091
其中λ=λ12…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,i为[1,n]范围内的任意整数,o=o1,o2…on代表输出的标签序列,每个字的标签为以下四个标记的一种,包括B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-112…λn,i>
fj(gii)为gii的第j个特征函数,f(gii)共有J个特征函数,每个特征函数通常用布尔函数表示,函数值只能有1或者0两种情况,即:
Figure BDA0003085509030000101
γj为fj(gii)相关联的需要学习的权重,利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
Figure BDA0003085509030000102
其中,
Figure BDA0003085509030000103
为对oi=B或M或E或S时进行求和,所述目标函数通常可以运用随机梯度下降法、L-BFGS或共轭梯度法来求此函数的最大值。在上述的目标函数中,直接采用与文本特性直接相关的特征函数关系来计算当前误差,可以更好的利用文本模型的特征来加快权重的求解过程和精度。
进一步的,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,具体过程如图2所示,所述改进为:传统的Viterbi算法虽然减少了最大熵隐马尔可夫模型中对路径的求解次数,但仍然计算量较大,在实际使用过程中花费时间较长,因此在Viterbi算法求解最优路径概率的过程中用自适应阈值b(max[δT(i)]-min[δT(i)])直接裁减掉不可能或者概率比较低的路径,这样就可以尽可能的减少最大熵隐马尔可夫模型需要求解的路径数,提升整体模型的求解速度,其中δt(i)在Viterbi算法中代表时刻t状态i的所有单个路径中的概率参数,在本专利中代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中(1-b)*100%比例的概率比较低的路径(即将所有单个路径的概率排序,去掉后面(1-b)*100%比例的路径),在实际使用中由经验和需求设定。
二、将分词后的文本转化为词向量序列;
此处对分词构造词向量,可以采用现有的词向量工具实现,如one-hot编码、Distributed编码等。
三、将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
进一步的,由于现有Seq2seq模型在摘要生成训练过程缓慢,耗费时间过长通过分析其编码结构,发现可以通过对隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值调整,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度。
具体的,对所述Seq2seq模型中的Encoder编码模型的改进为,将LSTM隐层单个细胞节点的输入门和遗忘门计算公式做出了改进,利用核函数计算每个隐层所蕴含的原文本语义信息,并选取当前数值最大项作为当前输入门和遗忘门的系数,从而进一步强化对之前信息的记忆或者遗忘程度,提升编码模型的训练速度。LSTM模型每一个细胞节点的输入门和遗忘门结构计算如下:
Figure BDA0003085509030000111
Figure BDA0003085509030000112
Figure BDA0003085509030000113
Figure BDA0003085509030000114
进一步的,由于现有Seq2seq模型应用于摘要生成时,输入数据过于庞大而复杂,包含不同属性类型的数据,通过分析其损失函数,发现单一损失函数无法满足多样化输入数据对损失函数的要求,进而造成训练耗费时间长,模型精度不高的问题,可以通过对样本分类,对每个分类样本单独设置损失函数,并在训练过程中依惯性调整,最后再根据各分类的重要性程度进行融合,从而极大地减少模型训练时间,增加模型精度。
具体的,如图3所示,损失函数优化过程如下:
①将训练过程中每次训练数据输入文本信息和输出信息摘要视为一个整体信息系统,利用输入文本信息的属性信息(如数据、引言、方法描述和总结等)将整体信息分为不同属性的子系统。
所述整体信息系统是一个三元组S=〈X,Y,C〉,其中X={x1,x2,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本,如数据文本和引言文本等,每种属性的文本视为一个子系统;Y={y1,y2,...,yn},为训练过程的输出摘要文本,其中yi与xi对应据,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,cn}是输入数据的条件属性标签,即数据、引言、方法描述和总结等标签。所述子系统为根据输入文本的属性标签拆分得到的(xi,yi|ci),i=1,2,...,n子系统。
②根据每个子系统的输入数据属性标签ci,选取针对于子系统合适的损失函数L1,L2,...,Ln
本例假设有四项子系统,由于不同属性的文本在摘要生成中所起作用不同,如摘要中很少体现数据文本的内容,而相应会侧重于体现方法描述文本的内容,因此在训练文本的过程中,可以根据不同的子系统属性动态挑选不同的损失函数。根据子系统的输入数据属性标签c1-c4,选取针对于子系统合适的损失函数L1,L2,L3,L4
Figure BDA0003085509030000121
Figure BDA0003085509030000122
Figure BDA0003085509030000123
Figure BDA0003085509030000124
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+SGF(c3)L3...+SGF(c4)L4
所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure BDA0003085509030000131
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
进一步的,设定H(ci)通过概率实现,计算公式如下:
Figure BDA0003085509030000132
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),以对函数权值进行自适应动态惯性调整。
w(p,q)=fg(Δgpq)·fs(Δspq)
所述步骤中的fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重。
在训练时,一般是将样本每5—20个分为一组,每组训练时或称阶段训练时,根据本阶段训练样本特性,调整所述w(p,q)。
进一步的,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
Figure BDA0003085509030000133
其中a为截断值,与数据值的整体分布有关,依据经验决定。
所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
Figure BDA0003085509030000141
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定给出。
⑤利用惯性权重对初始损失函数进行调整,最终得到多种融合损失函数L=w(p,q)L0
进一步的,对Seq2seq模型中的Decoder解码模型进行修改,对模型中新词生成的概率、核心词计算方式进行了改进、注意力机制进行了改进,具体如图4所示,传统的核心词选取方法为TF-IDF算法和TextRank算法,其中TF-IDF算法主要提取了逆文档词频作为核心词的选取指标,无法考虑文档中词汇之间的相关性,TextRank算法主要考虑文档中词汇之间的相关性,却无法去除文档中常用词汇带来的干扰,因此本发明采用逆文档词频的思想来处理词汇之间的相关性,尽可能准确地选出文章中的核心词;同时优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,通过尽可能地增加模型中可学习参数来增加模型的适应能力,并改进解码端模型中的覆盖损失为当前已生成摘要和注意力向量融合而成,使得在生成文章摘要的过程中,可以遗忘之前已生成摘要部分的主题,尽可能的聚焦于当前生成摘要主题,防止摘要内容重复生成。
首先,改进Decoder解码模型中对下一时刻生成新词的概率,根据该生成词的概率决定摘要生成下一时刻的输出内容:
Figure BDA0003085509030000142
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中(后面简称词表)产生新词w的概率,Pvocab为词表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,
Figure BDA0003085509030000156
为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
Figure BDA0003085509030000151
其中
Figure BDA0003085509030000152
为上下文向量,st为decoder解码端的隐藏层向量的最后一层,xt为当前模型的输入,wh*,ws,wx和bptr都用来表示在训练过程汇总可学习的参数,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
所述
Figure BDA0003085509030000153
通过下述公式计算:
Figure BDA0003085509030000154
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是可学习的参数,hi为编码端的第i个隐藏层向量,kj为通过改进的核心词计算公式得到整篇文章的核心词经过word2vec转化得到的词向量,s为核心词的个数,核心词的选取过程为:①计算每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;词的权重计算公式为:
Figure BDA0003085509030000155
其中,α为计算过程中的参数,确保计算得到的单词权重不为0,由经验给出;V为待生成摘要文本中的词,Vj为在待生成摘要文本中与该词有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小,即最多共现K个单词,由经验给出;wij表示词V到词Vj之间的连接权重,In(V)是待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,本例中设置初始连接权重均为1,然后若在待生成摘要文本中词Vj到词Vk每出现一次共现关系,则连接权重加1,Out(Vj)是待生成摘要文本中与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
该核心词的计算方法主要通过词汇的共现关系来表征词汇之间的相关性,并利用词汇之间的相关性来挑选与其余单词相关性最大的词汇作为备选词汇,同时利用逆文档频率作为该词汇的系数,降低常用词汇在核心词挑选中的比例,使得经过该方法挑选出的核心词既可以参考词汇间的关联程度,表征文本主题相关度最高的词汇,又尽可能的避免出现将常用口语词作为核心词的现象。
所述
Figure BDA0003085509030000161
的计算公式为:
Figure BDA0003085509030000162
所述loss的计算公式为:
Figure BDA0003085509030000163
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
综上所述,本发明方法首先通过对基于最大熵隐马尔可夫的分词模型进行了优化调整;然后对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度;其次在Seq2seq模型中Encoder部分训练时,通过将子系统条件信息熵来作为子系统损失函数的权重得到系统的损失函数,并利用由空间权重和数值权重组成的自适应动态惯性权重对函数进行调整;最后采用逆文档词频的思想来处理词汇之间的相关性,优化了基于核心词的注意力机制和解码端新词生成概率的计算公式方法,并改进了解码端模型中的覆盖损失。经过这一系列的调整,本模型可以很好解决摘要生成模型中,速度过慢等问题,提升摘要生成的流畅性和实用性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于Seq2seq模型的摘要生成方法,其特征在于,包括:
将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词;
将分词后的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要;
对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
Figure FDA0003745140980000011
Figure FDA0003745140980000012
Figure FDA0003745140980000013
Figure FDA0003745140980000014
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,
Figure FDA0003745140980000015
表示t时刻第i个节点的输入,ζb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,
Figure FDA0003745140980000016
表示t时刻第h个节点的输出,ζs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,
Figure FDA0003745140980000017
表示t时刻第c个节点的状态,
Figure FDA0003745140980000018
表示t时刻输入门的状态,
Figure FDA0003745140980000019
表示t时刻输入门的输出,g(·)表示输入门的激活函数,w表示遗忘门中输入节点i到隐藏节点φ的连接权重,ηb表示遗忘门中输出节点系数,w表示遗忘门中输出节点h到隐藏节点φ的连接权重,ηs表示遗忘门中隐藏节点系数,w表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,
Figure FDA00037451409800000110
表示t时刻遗忘门的状态,
Figure FDA00037451409800000111
表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
2.根据权利要求1所述的方法,其特征在于,对所述最大熵隐马尔可夫模型的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差。
3.根据权利要求2所述的方法,其特征在于,所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
Figure FDA0003745140980000021
其中λ=λ12…λi…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,o=o1,o2…oi…on代表输出的标签序列,每个字的标签为以下四个标记的一种:B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-112…λn,i>
fj(gii)为gii的第j个特征函数,f(gii)共有J个特征函数,每个特征函数用布尔函数表示,函数值只能有1或者0两种情况,即:
Figure FDA0003745140980000022
γj为fj(gii)相关联的需要学习的权重,
所述γj利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
Figure FDA0003745140980000023
其中,
Figure FDA0003745140980000024
为对oi=B或M或E或S时进行求和。
4.根据权利要求1所述的方法,其特征在于,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,所述改进为:在Viterbi算法求解最优路径概率的过程中用自适应阈值
Figure FDA0003745140980000025
直接裁减掉不可能或者低概率的路径,其中δt(i)代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中概率排序靠后的(1-b)*100%比例的路径。
5.根据权利要求1所述的方法,其特征在于,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统表示为三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统的损失函数L1,L2,...,Ln
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
④针对当前训练数据的特性,计算自适应权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
⑤利用自适应权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0
6.根据权利要求5所述的方法,其特征在于,所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure FDA0003745140980000041
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
7.根据权利要求5所述的方法,其特征在于,所述fg(Δgpq)通过下式计算:
Figure FDA0003745140980000042
其中a为截断值,Cd(x,y)为多次幂多项式核函数。
8.根据权利要求6所述的方法,其特征在于,所述fs(Δspq)通过下式计算:
Figure FDA0003745140980000043
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数。
9.根据权利要求1-8任一所述的方法,其特征在于,对所述Seq2seq模型中的Decoder解码模型进行修改,具体如下:
所述Decoder解码模型中对下一时刻生成新词的概率:
Figure FDA0003745140980000044
其中,w为摘要中生成的词汇,P(w)为生成词汇w的概率,pgen(w)为从当前所用语料库的词汇表中产生新词w的概率,Pvocab为当前所用语料库的词汇表中所有词的概率分布,Pvocab(w)为Pvocab中词汇w的概率,
Figure FDA0003745140980000045
为当前生成内容的基于核心词的注意力机制,i=1,2,...,Hl为当前处理的第i个编码端的隐藏层,编码端共有Hl个隐藏层;
所述pgen(w)通过下述公式计算:
Figure FDA0003745140980000051
其中
Figure FDA0003745140980000052
为上下文向量,st为所述Decoder解码端的隐藏层向量的最后一层,xt为所述模型的当前输入,
Figure FDA0003745140980000055
ws,wx和bptr为所述模型的参数,由训练过程中学习得到,T表示矩阵的转置,loss为训练过程中的词向量损失;sigmoid为激活函数;
所述
Figure FDA0003745140980000056
通过下述公式计算:
Figure FDA0003745140980000053
其中,softmax为激活函数;v,Wh,Ws,Wk以及battn都是所述模型的参数,由训练过程中学习得到,hi为编码端的第i个隐藏层向量,kj为所述待生成摘要文本中的第j个核心词经转化得到的词向量,s为核心词的个数,所述核心词的选取过程为:①计算所述待生成摘要文本中每个词的权重;②根据权重对所有词进行排序;③选取排序中最靠前的s个词;所述词的权重WS(V)计算公式为:
Figure FDA0003745140980000054
其中,α为计算过程中的参数,确保WS(V)不为0;V为当前处理的所述待生成摘要文本中的词,Vj为在所述待生成摘要文本中与V有共现关系的词,两个词有共现关系表示它们在长度为K的窗口中共同出现,K表示窗口大小;wij表示词V到词Vj之间的连接权重,In(V)是在所述待生成摘要文本中与词V有共现关系的所有单词的集合,wjk表示词Vj到词Vk之间的连接权重,Out(Vj)是所述待生成摘要文本与词Vj有共现关系的除V之外的所有词的集合,|D|表示语料库中文档总个数,|{V:Vj∈d}|表示语料库D中词V和词Vj有共现关系的文档d的数量;
所述
Figure FDA0003745140980000057
的计算公式为:
Figure FDA0003745140980000061
所述loss的计算公式为:
Figure FDA0003745140980000062
其中λloss为覆盖损失参数,由训练过程中学习得到,wt为已经生成的词向量,N为已经生成的wt的个数。
CN202110579062.2A 2021-05-26 2021-05-26 一种自然语言的摘要生成方法 Active CN113220870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110579062.2A CN113220870B (zh) 2021-05-26 2021-05-26 一种自然语言的摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579062.2A CN113220870B (zh) 2021-05-26 2021-05-26 一种自然语言的摘要生成方法

Publications (2)

Publication Number Publication Date
CN113220870A CN113220870A (zh) 2021-08-06
CN113220870B true CN113220870B (zh) 2022-09-06

Family

ID=77098661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579062.2A Active CN113220870B (zh) 2021-05-26 2021-05-26 一种自然语言的摘要生成方法

Country Status (1)

Country Link
CN (1) CN113220870B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Global Encoding for Long Chinese Text Summarization;XUEFENG XI等;《ACM Trans. Asian Low-Resour. Lang. Inf. Process.》;20201031;第19卷(第6期);84:1-84:17 *
核心词修正的Seq2Seq短文摘要;方旭等;《计算机工程与设计》;20181231;第39卷(第12期);3610-3615 *

Also Published As

Publication number Publication date
CN113220870A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN112507078B (zh) 一种语义问答方法、装置、电子设备及存储介质
CN108647206B (zh) 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN112069827A (zh) 一种基于细粒度主题建模的数据到文本生成方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113590803A (zh) 一种数据处理方法、装置、存储介质和计算机设备
CN113220870B (zh) 一种自然语言的摘要生成方法
CN114491029B (zh) 基于图神经网络的短文本相似度计算方法
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant