CN115659172A - 基于关键信息掩码与拷贝的生成式文本摘要方法 - Google Patents
基于关键信息掩码与拷贝的生成式文本摘要方法 Download PDFInfo
- Publication number
- CN115659172A CN115659172A CN202211178863.9A CN202211178863A CN115659172A CN 115659172 A CN115659172 A CN 115659172A CN 202211178863 A CN202211178863 A CN 202211178863A CN 115659172 A CN115659172 A CN 115659172A
- Authority
- CN
- China
- Prior art keywords
- text
- key information
- sequence
- copy
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于关键信息掩码与拷贝的生成式文本摘要方法,通过获得原始文档的以词为单位的原始文本序列,以获取关键信息集合;获得输入文本序列;构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,生成文本摘要;通过训练后的生成式文本摘要模型获得输入文档的文本摘要;本发明通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量。
Description
技术领域
本发明涉及一种基于关键信息掩码与拷贝的生成式文本摘要方法,属于自然语言处理技术领域。
背景技术
生成式文本摘要任务旨在通过模型训练理解文本内容,模仿人类的思维对原文进行压缩、重组进而生成摘要。与抽取式方法相比,生成式方法无需评估文本的重要程度,同时生成摘要中的词语或句子不必完全来自原始文档,因而生成的摘要具有较高的语言连贯性和较低的语义冗余度。
但生成式方法属于一项文本生成任务,涉及到底层的语言处理方法,例如句子压缩、句子转述、同义词替换等,这无疑增加了模型设计和训练的难度。在文本摘要技术的研究初期,抽取式方法发展迅速,然而随着大规模文本摘要数据集的出现和深度学习技术的兴起,人们逐渐将目光投向生成式文本摘要任务中来。
近年来,尽管融合注意力机制的序列到序列模型被广泛的应用于文本生成任务,并且在机器翻译任务上取得了显著性效果,但是在生成式文本摘要任务中的表现还有待提升。
目前,生成式方法主要面临两个问题:一方面,大多数方法仅是对原始文档进行建模,而摘要通常由文档中的关键信息构成,这些方法忽略了关键信息对文档主旨的影响;另一方面,该方法通常使用拷贝机制来缓解集外词问题,但是传统的拷贝机制无法拷贝文本序列中的关键信息和连续信息。由于缺乏对文本序列的关键信息建模,导致生成摘要的质量不佳。
上述问题是在文本摘要生成过程中应当予以考虑并解决的问题。
发明内容
本发明的目的是提供一种基于关键信息掩码与拷贝的生成式文本摘要方法解决现有技术中存在的对关键信息关注度不足,生成摘要的质量有待提高的问题。
本发明的技术解决方案是:
一种基于关键信息掩码与拷贝的生成式文本摘要方法,包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合;
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列;
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要;
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
进一步地,步骤S1中,对原始文档使用词性标注技术和信息抽取技术,分别抽取文档中的名词集合和关键词集合,计算其交集,以获取关键信息集合,具体为,
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为原始文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
进一步地,步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
进一步地,步骤S2中,由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列,具体为,
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
进一步地,步骤S4中,编码器总共堆叠L层编码计算单元,编码器第l层的编码过程:
在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算多头注意力机制层的当前层的输出结果al:
Q=hl-1Wl Q,K=hl-1Wl K,V=hl-1Wl V
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息;
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的当前层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
进一步地,步骤S4中,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列,具体为,
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
Pvocab=softmax(Wvhd+bv)
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
进一步地,步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,具体为,
本发明的有益效果是:
一、该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量,能够解决目前生成式摘要模型对关键信息关注度不足和缓解集外词产生的问题。
二、本发明中,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,
三、该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用BIOK拷贝机制优化关键信息的生成过程,增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
四、该种基于关键信息掩码与拷贝的生成式文本摘要方法,采用的融合关键信息的BIOK拷贝机制仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。在解码阶段通过门控单元神经网络增强文本的上下文特征。同时,该方法能够提升生成文本对原文的忠诚度与语义连贯性。
附图说明
图1是本发明实施例基于关键信息掩码与拷贝的生成式文本摘要方法的流程示意图。
图2是实施例中获得掩码矩阵Mk的说明示意图。
图3是实施例中编码器和解码器的说明示意图。
图4是实施例中融合关键信息的BIOK拷贝机制的说明示意图。
图5是实施例的KMCS模型与B-Unilm模型、PointerNet模型的集外词比例的实验结果对比示意图。
图6是实施例的KMCS模型与B-Unilm模型关键信息拷贝量的实验结果对比示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种基于关键信息掩码与拷贝的生成式文本摘要方法,如图1,包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合。
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列。
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
以原序列S1=(t1,t2,t3)为例说明,通过步骤S1提取t1和t3为序列中的关键信息kt1和kt3,则含关键信息的文本序列表示为S1`=(kt1,t2,kt3),并与目标序列S2=(t4,t5)拼接,构建如下所示的输入序列:Sinput=(CLS,kt1,t2,kt3,SEP,t4,t5,SEP),其中,CLS和SEP分别代表一个序列的开始和结束。
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
通过构建关键信息掩码语言模型,能够增强序列到序列模型对关键信息的关注度。以输入序列:Sinput=(CLS,kt1,t2,kt3,SEP,t4,t5,SEP)为例说明,关键信息掩码语言模型中除对目标序列使用掩码操作外,会对关键信息kt1和kt3进行动态掩码操作,即在每轮训练中对kt1和kt3交替掩码,例如在第i轮训练中掩码kt1,在第i+1轮训练中掩码kt3,获得掩码后的文本序列,形成掩码矩阵Mk,如图2。
在文本摘要任务中,输入的原序列是原始文档,目标序列是参考摘要,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布Pvocab和重构的拷贝标签序列如图3;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,如图4;
步骤S4中,编码器使用变换器模型的编码器架构即Transformer的Encoder架构,总共堆叠L层编码计算单元,对于输入文本xinput,编码器第l层的编码过程:
al=Attention′(hl-1)
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
步骤S4中,在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算当前层的结果al:
Q=hl-1Wl Q,K=hl-1Wl K,V=hl-1Wl V
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息。
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
如图3,解码器中,在Softmax函数前添加一层门控单元循环网络层(GRU)和归一化层,能够进一步捕获文本序列的上下文特征。
Pvocab=softmax(Wvhd+bv)
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要。
表1基于BIOK拷贝标签的文本生成算法
其中,x表示输入的文本序列xinput对应的原始文本序列,KWx表示输入的文本序列xinput对应的关键信息集合,MAX_L表示生成序列的最大长度,count表示迭代次数,vj表示词汇表中的文本单元,temp表示当前时刻的拷贝序列,表示当前时刻的生成单元;函数model表示模型的输入函数并根据单向语言模型的方式生成文本,函数beam_search表示集束搜索算法,函数get_ngram用于获取拷贝序列与原序列中文本单元组成连续序列的集合,其结果存入数组n_gram中。
通过采用融合关键信息的BIOK拷贝机制,能够提升BIO拷贝机制对文本序列中关键信息的关注度,增强其适配文本摘要任务的能力。
在BIOK拷贝机制中,B表示该单元从原序列中拷贝而来;I表示该单元从原序列中拷贝而来且跟前一个单元组成连续片段;K表示该单元从原文中拷贝而来且是关键信息;O表示其他字符。在标签的标注过程中规定:原序列和目标序列的最长公共子序列为拷贝序列c=(c1,c2,…,cz),z表示拷贝序列的长度。其中,拷贝序列的第一个单元c1被标注为B;若拷贝序列包含原序列的关键信息且这些单元不是c1时,则包含关键信息的单元被标注为K;拷贝序列的其他文本单元被标注为I。如图4,以原序列S1=(t1,t2,t3,t4)、目标序列S2=(t5,t2,t3,t4)为例进行说明,利用步骤S1的关键信息提取和步骤S2的序列到序列的掩码语言模型,提取t3为序列中的关键信息kt3,将序列拼接为:Sinput=(CLS,t1,t2,kt3,t4,SEP,t5,t2,kt3,t4,SEP),其中,CLS和SEP分别代表一个序列的开始和结束,标注结果为Slabel:Slabel=(O,O,B,K,I,I,O,B,K,I,I),其中,拷贝序列c=(t2,kt3,t4,SEP),因此在目标序列中t2被标注为B,kt3被标注为K,序列(t4,SEP)与序列(t2,kt3)连续被标注为I,其余字符被标注为O。为了保证原序列和目标序列标签的一致性,在实际的模型训练中对原序列所包含的拷贝序列也进行标注。
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
以原始文本序列x=(x1,x2,…,xn)、参考摘要作为目标序列y=(y1,y2,…,ym)为例进行说明,获得关键信息集合KWx=(kw1,kw2,…,kwg),其中n和m分别表示原始文本序列的单词数量、参考摘要的文本单元数量,g表示原始文档的关键信息数量。在模型的输入端,拼接原始文本序列和参考摘要得到序列xinput=(CLS,x,SEP,y,SEP)。使用BIOK拷贝机制标注序列xinput的标注标签为binput=(b1,b2,…,bn+m+3)。
生成式文本摘要模型在训练阶段的训练目标是根据输入文本序列xinput和标注标签binput生成目标序列的文本序列和拷贝标签序列,目标函数为通过计算输入与输出的负对数似然训练模型中的参数:
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量,能够解决目前生成式摘要模型对关键信息关注度不足和缓解集外词产生的问题。
本发明中,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用BIOK拷贝机制优化关键信息的生成过程,增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,采用的融合关键信息的BIOK拷贝机制仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。在解码阶段通过门控单元神经网络增强文本的上下文特征。同时,该方法能够提升生成文本对原文的忠诚度与语义连贯性。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,为基于BERT+Seq2seq架构的基于关键信息掩码与拷贝的生成式文本摘要方法,针对一篇原始文档,首先利用词性标注和信息抽取技术,提取文档中的关键信息。其次,提出了基于关键信息的掩码语言模型和融合关键信息的BIOK拷贝机制,前者用于调整摘要模型的输入与训练方式,后者用于优化生成文本的词表概率分布。最后,将优化后的词表单元概率分布优化后的词表单元概率分布与集束搜索算法结合完成摘要的生成工作。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过提取文本关键信息,抽取文档中的关键词和名词,计算其交集以获取文本中的关键信息集合,借此增强模型的输入。通过构建关键信息掩码模型,在训练过程中采用掩码机制,通过构建掩码矩阵来遮盖补位信息,增强模型捕获文本序列中关键信息的能力。通过构建模型的编码器与解码器,编码器将输入文本采用相应机制转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成对应的序列和标签序列。改进BIO标注模式,构建融合关键信息的BIOK拷贝机制。进而通过采用融合关键信息的BIOK拷贝机制,优化生成文本的词表,完成摘要的生成工作。通过采用融合关键信息的BIOK拷贝机制,能够提升BIO拷贝机制对文本序列中关键信息的关注度,增强其适配文本摘要任务的能力。
实施例的该种基于关键信息掩码与拷贝的生成式文本摘要方法进行实验验证如下:
为验证实施例所提出的基于关键信息掩码与拷贝的生成式摘要模型的有效性,选取当下软好的模型作为对比:TextRank+BERT:该算法利用BERT模型,将原始文档中的句子向量化表示,并使用句子之间的余弦相似度建立全图,通过算法迭代选取得分最高的句子作为文档摘要;RNN-Context:该模型利用循环神经网络作为编码器和解码器,以字为单元作为输入,完成摘要的生成;NLP-ONE:该模型使用字词模型对原序列与目标序列进行编码,并引入注意力机制,利用解码器完成摘要的生成;SRB:该模型使用语义关联的神经网络模型,利用门控单元编码器和引入注意力机制的解码器,完成摘要的生成;CopyNet:该模型使用引入拷贝机制的编码器-解码器结构,以字为单元作为输入,通过计算生成文本的拷贝概率和词表概率,完成摘要的生成;PointerNet:该模型在序列到序列模型框架的基础上,通过指针网络选择摘要词,并使用覆盖机制缓解集外词和信息错误的问题,采用的代码来自:https://github.com/yamonc/New-Pytorch-Chinese;AA:模型采用编码器-解码器架构,通过使用融合注意力机制动态平衡原始文档的局部信息和全局信息,完成摘要的生成;B-Unilm:该模型采用BERT+Seq2seq架构,使用序列到序列的语言模型作为编码器的输入,使用预训练模型BERT完成文本编码,使用解码器完成摘要的生成;W-Unilm:该模型采用BERT+Seq2seq架构,使用序列到序列的语言模型作为编码器的输入,使用以词为单位的预训练模型WoBERT完成文本编码,使用解码器完成摘要的生成。
模型对比验证如下:
实施例的KMCS模型与各模型在LCSTS与NLPCC 2017数据集上的实验结果分别如下表1与表2,其中ROUGE-1、ROUGE-2、ROUGE-L为ROUGE指标,R-Avg代表各项ROUGE指标的平均值。
表1 LCSTS数据集上的评价指标对比
表2 NLPCC 2017数据集上的评价指标对比
根据表1和表2的结果显示,在两个数据集中相较于其他文本摘要模型,实施例的KMCS模型在ROUGE指标上有所提升。在各项ROUGE指标中,与RNN-Context模型和NLP-ONE模型相比提高了几个百分点,两个模型都使用循环神经网络构建,将编码器的中间结果作为文本的向量表示,而实施例的KMCS模型使用预训练模型作为文本的向量表示,评价指标的提升体现预训练模型强大的语言表征能力;在LCSTS数据集中,与PointerNet模型相比分别提高了3.98%、4.44%、1.9%,与CopyNet模型相比分别提高了1.22%、1.34%、1.53%;在NLPCC 2017数据集中,与PointerNet模型相比分别提高了1.97%、2.06%、2.28%,PointerNet和CopyNet模型都使用以指针网络为基础的拷贝机制,而实施例的KMCS模型使用更适合中文文本和Transfomer模型的BIOK拷贝机制,评价指标的提高说明实施例的该模型增强了对文本中连续信息和关键信息的拷贝能力,提升了摘要的生成质量。
在LCSTS数据集中,与B-Unilm模型相比R-AVG指标提高了3.83%,两个模型都使用以序列到序列语言模型为基础的方法完成摘要生成任务,但是实施例的KMCS模型在解码端引入GRU网络强化了文本的序列特征,同时在训练过程中遮盖部分关键信息,提升了模型的泛化能力与捕获关键信息的能力;相比于W-Unilm模型,实施例的KMCS模型具有词表范围广的特点,并使用基于关键信息的掩码语言模型和拷贝机制调整模型对连续词序列的处理方式,使得实施例的该模型在R-AVG指标上提高了1.22%,但是以词为单位的W-Unilm模型减少了摘要生成的迭代次数(例如以词为单位的模型生成一个二字词需要一步,以字为单位的模型需要两步),因此后续考虑使用以词为单位的预训练方式,并在条件允许的硬件环境中从头进行预训练工作,进一步提升KMCS模型的性能。
消融实验如下:
为验证基于关键信息的掩码语言模型和拷贝机制对于实施例的KMCS模型性能的影响,将除去这些方法并在LCSTS数据集中开展消融实验。实验结果如表3所示,其中KMS模型表示KMCS模型只采用关键信息掩码语言模型,KCS模型表示KMCS模型只采用融合关键信息的BIOK拷贝机制,BIOS模型表示将KCS模型中的BIOK拷贝机制替换为BIO拷贝机制。
表3实施例的KMCS模型消融实验结果
模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
KMCS | 35.62 | 22.94 | 32.83 |
KCS | 34.96 | 21.17 | 32.08 |
KMS | 33.94 | 20.16 | 31.24 |
BIOS | 34.01 | 20.98 | 31.87 |
在表3中,对于删除关键信息掩码语言模型的KCS模型,与实施例的KMCS模型相比在ROUGE指标上分别下降了0.66%、1.77%、0.75%;对于删除BIOK拷贝机制的KMS模型,其得分下降幅度比KCS模型大,与实施例的KMCS模型相比在ROUGE指标上分别下降了1.68%、2.78%、0.59%。这两组消融实验结果说明实施例的KMCS模型在删除基于关键信息的掩码语言模型或拷贝机制时,其性能均有不同程度的下降,同时验证了两种方法能够提升模型的整体性能。对于使用BIO拷贝机制的BIOS模型,与KCS模型相比ROUGE指标上分别下降了0.95%、0.19%、0.21%,这组消融实验结果说明改进BIO拷贝机制的BIOK拷贝机制有助于提升摘要的生成质量。
关键信息增强效果分析如下:
为验证实施例提出的掩码语言模型与拷贝机制对摘要质量的影响,使用集外词比例和关键信息拷贝量两个指标,其中:
集外词比例的计算如下:其中,PO表示集外词比例,w表示生成文本的最小单元,wunk表示生成的UNK(集外词)标记,Count(w)表示生成的文本单元数量,Count(wunk)表示生成的UNK标记数量。集外词比例PO越小表示模型生成集外词的数量越少,表明模型处理集外词的能力越好。
关键信息拷贝量的计算如下:其中,PK表示关键信息拷贝量,kw表示原始文本中的关键信息,kwgen表示在生成文本中出现关键信息kw,kwgen的产生说明模型在生成摘要时,能够捕捉原文中的关键信息。关键信息拷贝量PK越大表示生成文本中的关键信息数量越多,表明模型生成关键信息的能力越强。
如图5,实施例的KMCS模型和采取拷贝机制的PointerNet模型的集外词比例均低于B-Unilm模型,说明两种模型能够减少生成文本中的集外词数量。此外,相比于基于指针网络拷贝机制的PointerNet模型,实施例的KMCS模型所采用的融合关键信息的BIOK拷贝机制可仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。
如图6,相比于B-Unilm模型,实施例的KMCS模型的关键信息拷贝量提升了5%左右。由于实施例的KMCS模型在编码阶段对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,同时在解码阶段通过门控单元神经网络增强文本的上下文特征以及使用BIOK拷贝机制优化关键信息的生成过程,这些方法增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
摘要示例分析如下:
实施例的KMCS模型与RNN-Context模型、CopyNet模型在LCSTS测试集上的摘要生成示例,如表4。
表4实施例的KMCS模型与各模型在LCSTS测试集上的摘要生成示例
根据表4中结果可以看出,在RNN-Context模型生成的文本中,仅表示“收购”含义,与原文表示的“拟收购”含义不符,且摘要文本中出现两个集外词UNK标记;在CopyNet模型生成的文本中,前半句仅表达原文中“拟收购”含义,但是没有明确所收购的对象,导致语义信息缺失;而在实施例的KMCS模型生成的文本中,关键信息“影视”和“股权”被拷贝生成,关键信息“公司”通过模型理解替换为“华谊兄弟”,除对股权收购的数量表述有缺失外,其生成结果与参考摘要一致,表明实施例的KMCS模型能够提升生成文本对原文的忠诚度与语义连贯性。
上述实验结果表明,该种基于关键信息掩码与拷贝的生成式文本摘要方法,使用基于关键信息的掩码语言模型和BIOK拷贝机制,使模型获得了识别与总结关键信息的能力,减少了生成文本中的集外词数量,提升了摘要的生成质量。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合;
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列;
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要;
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
2.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S1中,对原始文档使用词性标注技术和信息抽取技术,分别抽取文档中的名词集合和关键词集合,计算其交集,以获取关键信息集合,具体为,
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为原始文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
3.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
4.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S2中,由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列,具体为,
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
5.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S4中,编码器总共堆叠L层编码计算单元,编码器第l层的编码过程:
在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算多头注意力机制层的当前层的输出结果al:
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息;
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的当前层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
6.如权利要求1-5任一项所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S4中,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列,具体为,
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
pvocab=softmax(Wvhd+bv)
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178863.9A CN115659172A (zh) | 2022-09-26 | 2022-09-26 | 基于关键信息掩码与拷贝的生成式文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178863.9A CN115659172A (zh) | 2022-09-26 | 2022-09-26 | 基于关键信息掩码与拷贝的生成式文本摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659172A true CN115659172A (zh) | 2023-01-31 |
Family
ID=84985424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178863.9A Pending CN115659172A (zh) | 2022-09-26 | 2022-09-26 | 基于关键信息掩码与拷贝的生成式文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659172A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610513A (zh) * | 2024-01-22 | 2024-02-27 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
-
2022
- 2022-09-26 CN CN202211178863.9A patent/CN115659172A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610513A (zh) * | 2024-01-22 | 2024-02-27 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
CN117610513B (zh) * | 2024-01-22 | 2024-04-02 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
CN115659172A (zh) | 基于关键信息掩码与拷贝的生成式文本摘要方法 | |
CN111309896A (zh) | 基于二级注意力的深度学习文本摘要生成方法 | |
Choi et al. | A cross-sentence latent variable model for semi-supervised text sequence matching | |
Zhao et al. | Leveraging pre-trained language model for summary generation on short text | |
CN111274826B (zh) | 一种基于语义信息融合的低频词翻译方法 | |
CN116720531B (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
CN113033153A (zh) | 基于Transformer模型融合关键信息的神经机器翻译模型 | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |