CN115659172A - 基于关键信息掩码与拷贝的生成式文本摘要方法 - Google Patents

基于关键信息掩码与拷贝的生成式文本摘要方法 Download PDF

Info

Publication number
CN115659172A
CN115659172A CN202211178863.9A CN202211178863A CN115659172A CN 115659172 A CN115659172 A CN 115659172A CN 202211178863 A CN202211178863 A CN 202211178863A CN 115659172 A CN115659172 A CN 115659172A
Authority
CN
China
Prior art keywords
text
key information
sequence
copy
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211178863.9A
Other languages
English (en)
Inventor
龚乐君
吕畅
唐翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211178863.9A priority Critical patent/CN115659172A/zh
Publication of CN115659172A publication Critical patent/CN115659172A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于关键信息掩码与拷贝的生成式文本摘要方法,通过获得原始文档的以词为单位的原始文本序列,以获取关键信息集合;获得输入文本序列;构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,生成文本摘要;通过训练后的生成式文本摘要模型获得输入文档的文本摘要;本发明通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量。

Description

基于关键信息掩码与拷贝的生成式文本摘要方法
技术领域
本发明涉及一种基于关键信息掩码与拷贝的生成式文本摘要方法,属于自然语言处理技术领域。
背景技术
生成式文本摘要任务旨在通过模型训练理解文本内容,模仿人类的思维对原文进行压缩、重组进而生成摘要。与抽取式方法相比,生成式方法无需评估文本的重要程度,同时生成摘要中的词语或句子不必完全来自原始文档,因而生成的摘要具有较高的语言连贯性和较低的语义冗余度。
但生成式方法属于一项文本生成任务,涉及到底层的语言处理方法,例如句子压缩、句子转述、同义词替换等,这无疑增加了模型设计和训练的难度。在文本摘要技术的研究初期,抽取式方法发展迅速,然而随着大规模文本摘要数据集的出现和深度学习技术的兴起,人们逐渐将目光投向生成式文本摘要任务中来。
近年来,尽管融合注意力机制的序列到序列模型被广泛的应用于文本生成任务,并且在机器翻译任务上取得了显著性效果,但是在生成式文本摘要任务中的表现还有待提升。
目前,生成式方法主要面临两个问题:一方面,大多数方法仅是对原始文档进行建模,而摘要通常由文档中的关键信息构成,这些方法忽略了关键信息对文档主旨的影响;另一方面,该方法通常使用拷贝机制来缓解集外词问题,但是传统的拷贝机制无法拷贝文本序列中的关键信息和连续信息。由于缺乏对文本序列的关键信息建模,导致生成摘要的质量不佳。
上述问题是在文本摘要生成过程中应当予以考虑并解决的问题。
发明内容
本发明的目的是提供一种基于关键信息掩码与拷贝的生成式文本摘要方法解决现有技术中存在的对关键信息关注度不足,生成摘要的质量有待提高的问题。
本发明的技术解决方案是:
一种基于关键信息掩码与拷贝的生成式文本摘要方法,包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合;
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列;
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要;
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
进一步地,步骤S1中,对原始文档使用词性标注技术和信息抽取技术,分别抽取文档中的名词集合和关键词集合,计算其交集,以获取关键信息集合,具体为,
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为原始文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
进一步地,步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
进一步地,步骤S2中,由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列,具体为,
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
进一步地,步骤S4中,编码器总共堆叠L层编码计算单元,编码器第l层的编码过程:
在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算多头注意力机制层的当前层的输出结果al
Q=hl-1Wl Q,K=hl-1Wl K,V=hl-1Wl V
Figure BDA0003864341060000031
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:
Figure BDA0003864341060000032
掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息;
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的当前层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
进一步地,步骤S4中,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列,具体为,
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
S42、对隐层变量hd分别通过线性层进行两种不同的线形变化后,分别经过Softmax函数得到词表单元概率分布Pvocab和重构的拷贝标签序列
Figure BDA0003864341060000033
作为解码器的输出,计算过程如下所示:
Pvocab=softmax(Wvhd+bv)
Figure BDA0003864341060000041
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
进一步地,步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,具体为,
S43、对于输入的文本序列xinput,生成式文本摘要模型的解码器输出当前i时刻的词表单元概率分布
Figure BDA0003864341060000042
和拷贝标签
Figure BDA00038643410600000418
S44、通过拷贝标签
Figure BDA00038643410600000420
优化生成文本的词表概率分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000043
S45、利用优化后的词表单元概率分布
Figure BDA0003864341060000044
与集束搜索算法结合生成当前时刻的文本序列,得到文本摘要。
进一步地,步骤S44中,通过拷贝标签
Figure BDA00038643410600000419
优化生成文本的词表概率分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000045
具体为,
S441、若
Figure BDA0003864341060000046
说明解码器当前时刻的生成单元将拷贝自原始文本序列,则在
Figure BDA0003864341060000047
中去掉所有不在原序列中的单元分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000048
S442、若
Figure BDA0003864341060000049
说明解码器当前时刻的生成单元与上一时刻的生成单元都来自于原始文本序列,则在
Figure BDA00038643410600000410
中去掉所有不能与原始文本序列组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure BDA00038643410600000411
S443、若
Figure BDA00038643410600000412
说明解码器当前时刻的生成单元将来自关键信息集合,则在
Figure BDA00038643410600000413
中去掉所有不能与关键信息组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure BDA00038643410600000414
S444、若
Figure BDA00038643410600000415
说明解码器当前时刻的生成单元将不在原序列中,则
Figure BDA00038643410600000416
不作调整,获得优化后的词表单元概率分布
Figure BDA00038643410600000417
本发明的有益效果是:
一、该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量,能够解决目前生成式摘要模型对关键信息关注度不足和缓解集外词产生的问题。
二、本发明中,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,
三、该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用BIOK拷贝机制优化关键信息的生成过程,增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
四、该种基于关键信息掩码与拷贝的生成式文本摘要方法,采用的融合关键信息的BIOK拷贝机制仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。在解码阶段通过门控单元神经网络增强文本的上下文特征。同时,该方法能够提升生成文本对原文的忠诚度与语义连贯性。
附图说明
图1是本发明实施例基于关键信息掩码与拷贝的生成式文本摘要方法的流程示意图。
图2是实施例中获得掩码矩阵Mk的说明示意图。
图3是实施例中编码器和解码器的说明示意图。
图4是实施例中融合关键信息的BIOK拷贝机制的说明示意图。
图5是实施例的KMCS模型与B-Unilm模型、PointerNet模型的集外词比例的实验结果对比示意图。
图6是实施例的KMCS模型与B-Unilm模型关键信息拷贝量的实验结果对比示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种基于关键信息掩码与拷贝的生成式文本摘要方法,如图1,包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合。
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列。
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
以原序列S1=(t1,t2,t3)为例说明,通过步骤S1提取t1和t3为序列中的关键信息kt1和kt3,则含关键信息的文本序列表示为S1`=(kt1,t2,kt3),并与目标序列S2=(t4,t5)拼接,构建如下所示的输入序列:Sinput=(CLS,kt1,t2,kt3,SEP,t4,t5,SEP),其中,CLS和SEP分别代表一个序列的开始和结束。
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
通过构建关键信息掩码语言模型,能够增强序列到序列模型对关键信息的关注度。以输入序列:Sinput=(CLS,kt1,t2,kt3,SEP,t4,t5,SEP)为例说明,关键信息掩码语言模型中除对目标序列使用掩码操作外,会对关键信息kt1和kt3进行动态掩码操作,即在每轮训练中对kt1和kt3交替掩码,例如在第i轮训练中掩码kt1,在第i+1轮训练中掩码kt3,获得掩码后的文本序列,形成掩码矩阵Mk,如图2。
在文本摘要任务中,输入的原序列是原始文档,目标序列是参考摘要,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布Pvocab和重构的拷贝标签序列
Figure BDA0003864341060000072
如图3;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,如图4;
步骤S4中,编码器使用变换器模型的编码器架构即Transformer的Encoder架构,总共堆叠L层编码计算单元,对于输入文本xinput,编码器第l层的编码过程:
al=Attention′(hl-1)
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
步骤S4中,在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算当前层的结果al
Q=hl-1Wl Q,K=hl-1Wl K,V=hl-1Wl V
Figure BDA0003864341060000071
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:
Figure BDA0003864341060000081
掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息。
步骤S4中,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布Pvocab和重构的拷贝标签序列
Figure BDA00038643410600000810
具体为,
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
如图3,解码器中,在Softmax函数前添加一层门控单元循环网络层(GRU)和归一化层,能够进一步捕获文本序列的上下文特征。
S42、对隐层变量hd分别通过线性层进行两种不同的线形变化后,分别经过Softmax函数得到词表单元概率分布Pvocab和重构的拷贝标签序列
Figure BDA00038643410600000812
作为解码器的输出,计算过程如下所示:
Pvocab=softmax(Wvhd+bv)
Figure BDA0003864341060000082
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要。
S43、对于输入的文本序列xinput,生成式文本摘要模型的解码器输出当前i时刻的词表单元概率分布
Figure BDA0003864341060000083
和拷贝标签
Figure BDA00038643410600000811
S44、通过拷贝标签
Figure BDA0003864341060000084
优化生成文本的词表概率分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000085
S441、若
Figure BDA0003864341060000086
说明解码器当前时刻的生成单元将拷贝自原始文本序列,则在
Figure BDA0003864341060000087
中去掉所有不在原序列中的单元分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000088
S442、若
Figure BDA00038643410600000813
说明解码器当前时刻的生成单元与上一时刻的生成单元都来自于原始文本序列,则在
Figure BDA0003864341060000089
中去掉所有不能与原始文本序列组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000091
S443、若
Figure BDA0003864341060000092
说明解码器当前时刻的生成单元将来自关键信息集合,则在
Figure BDA0003864341060000093
中去掉所有不能与关键信息组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure BDA0003864341060000094
S444、若
Figure BDA0003864341060000095
说明解码器当前时刻的生成单元将不在原序列中,则
Figure BDA0003864341060000096
不作调整,获得优化后的词表单元概率分布
Figure BDA0003864341060000097
S45、利用优化后的词表单元概率分布
Figure BDA0003864341060000098
与集束搜索算法结合生成当前时刻的文本序列
Figure BDA0003864341060000099
得到文本摘要。上述过程的形式化描述如表1:
表1基于BIOK拷贝标签的文本生成算法
Figure BDA00038643410600000910
其中,x表示输入的文本序列xinput对应的原始文本序列,KWx表示输入的文本序列xinput对应的关键信息集合,MAX_L表示生成序列的最大长度,count表示迭代次数,vj表示词汇表中的文本单元,temp表示当前时刻的拷贝序列,
Figure BDA00038643410600000911
表示当前时刻的生成单元;函数model表示模型的输入函数并根据单向语言模型的方式生成文本,函数beam_search表示集束搜索算法,函数get_ngram用于获取拷贝序列与原序列中文本单元组成连续序列的集合,其结果存入数组n_gram中。
通过采用融合关键信息的BIOK拷贝机制,能够提升BIO拷贝机制对文本序列中关键信息的关注度,增强其适配文本摘要任务的能力。
在BIOK拷贝机制中,B表示该单元从原序列中拷贝而来;I表示该单元从原序列中拷贝而来且跟前一个单元组成连续片段;K表示该单元从原文中拷贝而来且是关键信息;O表示其他字符。在标签的标注过程中规定:原序列和目标序列的最长公共子序列为拷贝序列c=(c1,c2,…,cz),z表示拷贝序列的长度。其中,拷贝序列的第一个单元c1被标注为B;若拷贝序列包含原序列的关键信息且这些单元不是c1时,则包含关键信息的单元被标注为K;拷贝序列的其他文本单元被标注为I。如图4,以原序列S1=(t1,t2,t3,t4)、目标序列S2=(t5,t2,t3,t4)为例进行说明,利用步骤S1的关键信息提取和步骤S2的序列到序列的掩码语言模型,提取t3为序列中的关键信息kt3,将序列拼接为:Sinput=(CLS,t1,t2,kt3,t4,SEP,t5,t2,kt3,t4,SEP),其中,CLS和SEP分别代表一个序列的开始和结束,标注结果为Slabel:Slabel=(O,O,B,K,I,I,O,B,K,I,I),其中,拷贝序列c=(t2,kt3,t4,SEP),因此在目标序列中t2被标注为B,kt3被标注为K,序列(t4,SEP)与序列(t2,kt3)连续被标注为I,其余字符被标注为O。为了保证原序列和目标序列标签的一致性,在实际的模型训练中对原序列所包含的拷贝序列也进行标注。
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
以原始文本序列x=(x1,x2,…,xn)、参考摘要作为目标序列y=(y1,y2,…,ym)为例进行说明,获得关键信息集合KWx=(kw1,kw2,…,kwg),其中n和m分别表示原始文本序列的单词数量、参考摘要的文本单元数量,g表示原始文档的关键信息数量。在模型的输入端,拼接原始文本序列和参考摘要得到序列xinput=(CLS,x,SEP,y,SEP)。使用BIOK拷贝机制标注序列xinput的标注标签为binput=(b1,b2,…,bn+m+3)。
生成式文本摘要模型在训练阶段的训练目标是根据输入文本序列xinput和标注标签binput生成目标序列的文本序列和拷贝标签序列,目标函数为通过计算输入与输出的负对数似然训练模型中的参数:
Figure BDA0003864341060000101
其中,xinput为输入文本序列,
Figure BDA0003864341060000111
为输出的目标序列的文本序列,
Figure BDA0003864341060000112
为预测的拷贝标签序列,|D|为训练集样本数量,θ为模型参数。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量,能够解决目前生成式摘要模型对关键信息关注度不足和缓解集外词产生的问题。
本发明中,在关键信息掩码语言模型的作用下,不仅让模型学习了根据原始文档生成摘要的能力,而且由于原始文档中的关键信息被掩盖,增强了模型捕获文本序列中关键信息的能力,以此辅助最终摘要的生成。对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过使用BIOK拷贝机制优化关键信息的生成过程,增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,采用的融合关键信息的BIOK拷贝机制仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。在解码阶段通过门控单元神经网络增强文本的上下文特征。同时,该方法能够提升生成文本对原文的忠诚度与语义连贯性。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,为基于BERT+Seq2seq架构的基于关键信息掩码与拷贝的生成式文本摘要方法,针对一篇原始文档,首先利用词性标注和信息抽取技术,提取文档中的关键信息。其次,提出了基于关键信息的掩码语言模型和融合关键信息的BIOK拷贝机制,前者用于调整摘要模型的输入与训练方式,后者用于优化生成文本的词表概率分布。最后,将优化后的词表单元概率分布优化后的词表单元概率分布与集束搜索算法结合完成摘要的生成工作。
该种基于关键信息掩码与拷贝的生成式文本摘要方法,通过提取文本关键信息,抽取文档中的关键词和名词,计算其交集以获取文本中的关键信息集合,借此增强模型的输入。通过构建关键信息掩码模型,在训练过程中采用掩码机制,通过构建掩码矩阵来遮盖补位信息,增强模型捕获文本序列中关键信息的能力。通过构建模型的编码器与解码器,编码器将输入文本采用相应机制转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成对应的序列和标签序列。改进BIO标注模式,构建融合关键信息的BIOK拷贝机制。进而通过采用融合关键信息的BIOK拷贝机制,优化生成文本的词表,完成摘要的生成工作。通过采用融合关键信息的BIOK拷贝机制,能够提升BIO拷贝机制对文本序列中关键信息的关注度,增强其适配文本摘要任务的能力。
实施例的该种基于关键信息掩码与拷贝的生成式文本摘要方法进行实验验证如下:
为验证实施例所提出的基于关键信息掩码与拷贝的生成式摘要模型的有效性,选取当下软好的模型作为对比:TextRank+BERT:该算法利用BERT模型,将原始文档中的句子向量化表示,并使用句子之间的余弦相似度建立全图,通过算法迭代选取得分最高的句子作为文档摘要;RNN-Context:该模型利用循环神经网络作为编码器和解码器,以字为单元作为输入,完成摘要的生成;NLP-ONE:该模型使用字词模型对原序列与目标序列进行编码,并引入注意力机制,利用解码器完成摘要的生成;SRB:该模型使用语义关联的神经网络模型,利用门控单元编码器和引入注意力机制的解码器,完成摘要的生成;CopyNet:该模型使用引入拷贝机制的编码器-解码器结构,以字为单元作为输入,通过计算生成文本的拷贝概率和词表概率,完成摘要的生成;PointerNet:该模型在序列到序列模型框架的基础上,通过指针网络选择摘要词,并使用覆盖机制缓解集外词和信息错误的问题,采用的代码来自:https://github.com/yamonc/New-Pytorch-Chinese;AA:模型采用编码器-解码器架构,通过使用融合注意力机制动态平衡原始文档的局部信息和全局信息,完成摘要的生成;B-Unilm:该模型采用BERT+Seq2seq架构,使用序列到序列的语言模型作为编码器的输入,使用预训练模型BERT完成文本编码,使用解码器完成摘要的生成;W-Unilm:该模型采用BERT+Seq2seq架构,使用序列到序列的语言模型作为编码器的输入,使用以词为单位的预训练模型WoBERT完成文本编码,使用解码器完成摘要的生成。
模型对比验证如下:
实施例的KMCS模型与各模型在LCSTS与NLPCC 2017数据集上的实验结果分别如下表1与表2,其中ROUGE-1、ROUGE-2、ROUGE-L为ROUGE指标,R-Avg代表各项ROUGE指标的平均值。
表1 LCSTS数据集上的评价指标对比
Figure BDA0003864341060000131
表2 NLPCC 2017数据集上的评价指标对比
Figure BDA0003864341060000132
根据表1和表2的结果显示,在两个数据集中相较于其他文本摘要模型,实施例的KMCS模型在ROUGE指标上有所提升。在各项ROUGE指标中,与RNN-Context模型和NLP-ONE模型相比提高了几个百分点,两个模型都使用循环神经网络构建,将编码器的中间结果作为文本的向量表示,而实施例的KMCS模型使用预训练模型作为文本的向量表示,评价指标的提升体现预训练模型强大的语言表征能力;在LCSTS数据集中,与PointerNet模型相比分别提高了3.98%、4.44%、1.9%,与CopyNet模型相比分别提高了1.22%、1.34%、1.53%;在NLPCC 2017数据集中,与PointerNet模型相比分别提高了1.97%、2.06%、2.28%,PointerNet和CopyNet模型都使用以指针网络为基础的拷贝机制,而实施例的KMCS模型使用更适合中文文本和Transfomer模型的BIOK拷贝机制,评价指标的提高说明实施例的该模型增强了对文本中连续信息和关键信息的拷贝能力,提升了摘要的生成质量。
在LCSTS数据集中,与B-Unilm模型相比R-AVG指标提高了3.83%,两个模型都使用以序列到序列语言模型为基础的方法完成摘要生成任务,但是实施例的KMCS模型在解码端引入GRU网络强化了文本的序列特征,同时在训练过程中遮盖部分关键信息,提升了模型的泛化能力与捕获关键信息的能力;相比于W-Unilm模型,实施例的KMCS模型具有词表范围广的特点,并使用基于关键信息的掩码语言模型和拷贝机制调整模型对连续词序列的处理方式,使得实施例的该模型在R-AVG指标上提高了1.22%,但是以词为单位的W-Unilm模型减少了摘要生成的迭代次数(例如以词为单位的模型生成一个二字词需要一步,以字为单位的模型需要两步),因此后续考虑使用以词为单位的预训练方式,并在条件允许的硬件环境中从头进行预训练工作,进一步提升KMCS模型的性能。
消融实验如下:
为验证基于关键信息的掩码语言模型和拷贝机制对于实施例的KMCS模型性能的影响,将除去这些方法并在LCSTS数据集中开展消融实验。实验结果如表3所示,其中KMS模型表示KMCS模型只采用关键信息掩码语言模型,KCS模型表示KMCS模型只采用融合关键信息的BIOK拷贝机制,BIOS模型表示将KCS模型中的BIOK拷贝机制替换为BIO拷贝机制。
表3实施例的KMCS模型消融实验结果
模型 ROUGE-1 ROUGE-2 ROUGE-L
KMCS 35.62 22.94 32.83
KCS 34.96 21.17 32.08
KMS 33.94 20.16 31.24
BIOS 34.01 20.98 31.87
在表3中,对于删除关键信息掩码语言模型的KCS模型,与实施例的KMCS模型相比在ROUGE指标上分别下降了0.66%、1.77%、0.75%;对于删除BIOK拷贝机制的KMS模型,其得分下降幅度比KCS模型大,与实施例的KMCS模型相比在ROUGE指标上分别下降了1.68%、2.78%、0.59%。这两组消融实验结果说明实施例的KMCS模型在删除基于关键信息的掩码语言模型或拷贝机制时,其性能均有不同程度的下降,同时验证了两种方法能够提升模型的整体性能。对于使用BIO拷贝机制的BIOS模型,与KCS模型相比ROUGE指标上分别下降了0.95%、0.19%、0.21%,这组消融实验结果说明改进BIO拷贝机制的BIOK拷贝机制有助于提升摘要的生成质量。
关键信息增强效果分析如下:
为验证实施例提出的掩码语言模型与拷贝机制对摘要质量的影响,使用集外词比例和关键信息拷贝量两个指标,其中:
集外词比例的计算如下:
Figure BDA0003864341060000151
其中,PO表示集外词比例,w表示生成文本的最小单元,wunk表示生成的UNK(集外词)标记,Count(w)表示生成的文本单元数量,Count(wunk)表示生成的UNK标记数量。集外词比例PO越小表示模型生成集外词的数量越少,表明模型处理集外词的能力越好。
关键信息拷贝量的计算如下:
Figure BDA0003864341060000152
其中,PK表示关键信息拷贝量,kw表示原始文本中的关键信息,kwgen表示在生成文本中出现关键信息kw,kwgen的产生说明模型在生成摘要时,能够捕捉原文中的关键信息。关键信息拷贝量PK越大表示生成文本中的关键信息数量越多,表明模型生成关键信息的能力越强。
如图5,实施例的KMCS模型和采取拷贝机制的PointerNet模型的集外词比例均低于B-Unilm模型,说明两种模型能够减少生成文本中的集外词数量。此外,相比于基于指针网络拷贝机制的PointerNet模型,实施例的KMCS模型所采用的融合关键信息的BIOK拷贝机制可仅通过一层前馈神经网络完成序列拷贝任务,其实现与计算的复杂程度更小,并能够拷贝原文中的某个片段或者关键信息,拷贝的信息更具有价值。
如图6,相比于B-Unilm模型,实施例的KMCS模型的关键信息拷贝量提升了5%左右。由于实施例的KMCS模型在编码阶段对关键信息采用动态掩码的训练方式,提升了模型识别关键信息的能力,同时在解码阶段通过门控单元神经网络增强文本的上下文特征以及使用BIOK拷贝机制优化关键信息的生成过程,这些方法增强了模型对文本中关键信息的关注度,使得生成文本能够包含原文中更多的关键信息。
摘要示例分析如下:
实施例的KMCS模型与RNN-Context模型、CopyNet模型在LCSTS测试集上的摘要生成示例,如表4。
表4实施例的KMCS模型与各模型在LCSTS测试集上的摘要生成示例
Figure BDA0003864341060000161
根据表4中结果可以看出,在RNN-Context模型生成的文本中,仅表示“收购”含义,与原文表示的“拟收购”含义不符,且摘要文本中出现两个集外词UNK标记;在CopyNet模型生成的文本中,前半句仅表达原文中“拟收购”含义,但是没有明确所收购的对象,导致语义信息缺失;而在实施例的KMCS模型生成的文本中,关键信息“影视”和“股权”被拷贝生成,关键信息“公司”通过模型理解替换为“华谊兄弟”,除对股权收购的数量表述有缺失外,其生成结果与参考摘要一致,表明实施例的KMCS模型能够提升生成文本对原文的忠诚度与语义连贯性。
上述实验结果表明,该种基于关键信息掩码与拷贝的生成式文本摘要方法,使用基于关键信息的掩码语言模型和BIOK拷贝机制,使模型获得了识别与总结关键信息的能力,减少了生成文本中的集外词数量,提升了摘要的生成质量。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:包括以下步骤,
S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合;
S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列;
S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;
S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要;
S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
2.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S1中,对原始文档使用词性标注技术和信息抽取技术,分别抽取文档中的名词集合和关键词集合,计算其交集,以获取关键信息集合,具体为,
S11、对原始文档,利用分词技术将文档表示为以词为单位的原始文本序列D=(w1,w2,…wp),其中,p为文本序列D的单词数量;
S12、对于文本序列中的单词wi,利用词性标注技术标注单词wi的词性为fi,筛选出文本中名词词性的词汇并组成名词集合Dn=(wn1,wn2,…,wno),其中,o为名词数量;利用基于图的排序算法即TextRank算法抽取文本中的关键词集合Dk=(k1,k2,…,ks),其中,s为关键词数量;
S13、将关键词集合Dk与名词集合Dn的交集称为原始文本序列D的关键信息集合KWD=(kw1,kw2,…,kwg),其中,g为关键信息数量。
3.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S3中,关键信息掩码语言模型对输入文本序列中的目标序列使用掩码操作,且对输入文本序列中的关键信息进行交替动态掩码操作。
4.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S2中,由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列,具体为,
S21、由原始文本序列与关键信息集合,将原始文本序列中的单词替换为对应的关键信息集合中的关键信息后,获得含关键信息的文本序列;
S22、将含关键信息的文本序列与给定的目标序列拼接后,获得输入文本序列。
5.如权利要求1所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S4中,编码器总共堆叠L层编码计算单元,编码器第l层的编码过程:
在编码器第l层的多头注意力机制层中,将第l-1层的输出hl-1作为当前层的输入,利用关键信息掩码语言模型构建的掩码矩阵Mk与自注意力机制相结合,计算多头注意力机制层的当前层的输出结果al
Figure FDA0003864341050000021
Figure FDA0003864341050000022
其中,Q、K、V为随机矩阵,softmax为归一化指数函数,Wl Q,Wl K,Wl V为可训练的参数矩阵,dk为矩阵K的维度;Mk为掩码矩阵:
Figure FDA0003864341050000023
掩码矩阵Mk中的每个元素仅有0和-∞两种状态,-∞表示被遮盖的掩码信息,0表示正常有效的信息;
ul=LayerNorm(hl-1+al)
hl=LayerNorm(ul+FFN(ul))
其中,hl-1表示编码器在第l-1层输出的隐层变量,al为多头注意力机制层的当前层的输出结果,ul为中间结果,LayerNorm和FFN分别是归一化层与前馈神经网络层。
6.如权利要求1-5任一项所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S4中,解码器则是将编码器的第L层输出hL作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列,具体为,
S41、通过门控单元循环网络层GRU和归一化层,得到解码端的隐层变量hd,计算过程如下公式所示:
rd=GRU(hL)
hd=LayerNorm(rd)
其中,rd为经过GRU的中间变量,LayerNorm是归一化层;
S42、对隐层变量hd分别通过线性层进行两种不同的线形变化后,分别经过Softmax函数得到词表单元概率分布Pvocab和重构的拷贝标签序列
Figure FDA00038643410500000311
作为解码器的输出,计算过程如下所示:
pvocab=softmax(Wvhd+bv)
Figure FDA00038643410500000312
其中,Wv,We,bv,be为可训练的模型参数,softmax为归一化指数函数。
7.如权利要求1-5任一项所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,具体为,
S43、对于输入的文本序列xinput,生成式文本摘要模型的解码器输出当前i时刻的词表单元概率分布
Figure FDA0003864341050000031
和拷贝标签
Figure FDA0003864341050000032
S44、通过拷贝标签
Figure FDA0003864341050000033
优化生成文本的词表概率分布,获得优化后的词表单元概率分布
Figure FDA0003864341050000034
S45、利用优化后的词表单元概率分布
Figure FDA0003864341050000035
与集束搜索算法结合生成当前时刻的文本序列,得到文本摘要。
8.如权利要求7所述的基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:步骤S44中,通过拷贝标签
Figure FDA0003864341050000036
优化生成文本的词表概率分布,获得优化后的词表单元概率分布
Figure FDA0003864341050000037
具体为,
S441、若
Figure FDA0003864341050000038
说明解码器当前时刻的生成单元将拷贝自原始文本序列,则在
Figure FDA0003864341050000039
中去掉所有不在原序列中的单元分布,获得优化后的词表单元概率分布
Figure FDA00038643410500000310
S442、若
Figure FDA0003864341050000041
说明解码器当前时刻的生成单元与上一时刻的生成单元都来自于原始文本序列,则在
Figure FDA0003864341050000042
中去掉所有不能与原始文本序列组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure FDA0003864341050000043
S443、若
Figure FDA0003864341050000044
说明解码器当前时刻的生成单元将来自关键信息集合,则在
Figure FDA0003864341050000045
中去掉所有不能与关键信息组成连续序列的单元分布,获得优化后的词表单元概率分布
Figure FDA0003864341050000046
S444、若
Figure FDA0003864341050000047
说明解码器当前时刻的生成单元将不在原序列中,则
Figure FDA0003864341050000048
不作调整,获得优化后的词表单元概率分布
Figure FDA0003864341050000049
CN202211178863.9A 2022-09-26 2022-09-26 基于关键信息掩码与拷贝的生成式文本摘要方法 Pending CN115659172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178863.9A CN115659172A (zh) 2022-09-26 2022-09-26 基于关键信息掩码与拷贝的生成式文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178863.9A CN115659172A (zh) 2022-09-26 2022-09-26 基于关键信息掩码与拷贝的生成式文本摘要方法

Publications (1)

Publication Number Publication Date
CN115659172A true CN115659172A (zh) 2023-01-31

Family

ID=84985424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178863.9A Pending CN115659172A (zh) 2022-09-26 2022-09-26 基于关键信息掩码与拷贝的生成式文本摘要方法

Country Status (1)

Country Link
CN (1) CN115659172A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610513A (zh) * 2024-01-22 2024-02-27 南开大学 一种基于知识保护及选择的主题文本生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610513A (zh) * 2024-01-22 2024-02-27 南开大学 一种基于知识保护及选择的主题文本生成方法
CN117610513B (zh) * 2024-01-22 2024-04-02 南开大学 一种基于知识保护及选择的主题文本生成方法

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN114998670B (zh) 多模态信息预训练方法及系统
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN111428518B (zh) 一种低频词翻译方法及装置
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN111309896A (zh) 基于二级注意力的深度学习文本摘要生成方法
Choi et al. A cross-sentence latent variable model for semi-supervised text sequence matching
Zhao et al. Leveraging pre-trained language model for summary generation on short text
CN111274826B (zh) 一种基于语义信息融合的低频词翻译方法
CN116720531B (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN113033153A (zh) 基于Transformer模型融合关键信息的神经机器翻译模型
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination