CN116432637A - 一种基于强化学习的多粒度抽取-生成混合式文摘方法 - Google Patents
一种基于强化学习的多粒度抽取-生成混合式文摘方法 Download PDFInfo
- Publication number
- CN116432637A CN116432637A CN202310360578.7A CN202310360578A CN116432637A CN 116432637 A CN116432637 A CN 116432637A CN 202310360578 A CN202310360578 A CN 202310360578A CN 116432637 A CN116432637 A CN 116432637A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- graph
- attention
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002787 reinforcement Effects 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 63
- 239000003795 chemical substances by application Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,具体涉及一种基于强化学习的多粒度抽取‑生成混合式文摘方法。为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题,本发明使用一种抽取‑生成混合架构,用多智能体强化学习驱动整个架构,在保留生成式摘要可读性和简洁性优势的基础上,也能利用抽取式模型获得原文的重要语义信息。利用基于A2C策略的强化学习模型学习词句的层次结构,能够更好的模拟语言结构,使并行化训练模型成为可能。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于强化学习的多粒度抽取-生成混合式文摘方法。
背景技术
互联网快速发展,传播的信息越来越多元化,用户如何快速有效地从海量信息中提炼出所需的有用信息已经成为一个亟待解决的问题。利用自动文本摘要技术能为用户提供全面、简洁、流畅的摘要信息,同时保留原文中包含的所有关键信息。自动文本摘要是将原始文档凝练成一段简洁连贯的中心内容。在新闻阅读、科学研究、公共卫生等领域有广泛的应用价值。通常分为抽取式和生成式两种方法。抽取式自动文本摘要方法是直接抽取并输出原文中的关键语句组成摘要,但存在信息冗余的缺点。生成式方法可以从原文开头执行摘要推理过程,压缩重写生成更加简洁的摘要,不过输入序列过长时,会出现长时间依赖问题,无法正确分析提取输入序列的文本语义信息,同时生成过程难以人为控制,导致最终摘要并不理想。早期的学者们主要侧重于对抽取式方法的研究,随着计算机硬件性能和计算性能的提升,自动文本摘要的研究热点从早期的抽取式方法转变为现在的生成式方法逐渐转移。
尽管在深度学习技术的助力下,生成式自动文本摘要模型已经能较好地处理生成摘要的流畅性、可读性、简洁性和超纲词问题,但仍然存在着几个比较关键的问题待解决:1)摘要重要信息冗余问题;2)长文本长时间依赖问题;3)模型长文本推理缓慢。
借着深度学习的兴起发展,自然语言处理领域的研究也取得跨越式的进展,生成式自动文本摘要技术的诞生与深度学习是分不开的。
see等人提出Seq2Seq模型后,广泛应用应用于生成摘要的过程。Liu和Lapata首次通过将预训练的语言模型作为编码器,随后Zhang等人利用大规模的无标签语料库对摘要生成过程进行预训练,取得了显著的改进。显式结构在基于深度学习的抽取式和生成式摘要方法中发挥了重要作用,不同的结构从不同方面提升摘要生成模型的性能。Cao等人提出根据他们提出的成分句法分析树来提取关键语句。Xu和Durrett同时考虑到句法结构和句法规则,根据两者共同作用选择和压缩重写关键语句。Li和Zhuge提出一种基于语义链接网络,不过其中并没有包含图神经网络。通过用OpenIE提取图元,Fan等人压缩并减少了输入文档中的冗余度,提高了长序列处理的有效性,而Huang等人利用基于OpenIE的知识图谱来提高生成摘要的事实一致性。而先提取后重写这一范式,研究人员早期尝试使用了隐式马尔科夫模型和基于规则的系统,基于解析树的统计模型,以及基于整数线性编程的方法。近几年有人研究了话语结构、图切割和解析树结构。在深度神经网络领域,Cheng和Lapata使用第二个深度神经网络从抽取式模型的输出中选择单词。近几年强化学习已经被用来优化语言生成的非差异性指标,并减轻暴露偏差。Hen等人使用基于Q-learning的强化学习框架做抽取式摘要。Paulus等人使用强化学习策略梯度方法执行生成式摘要过程,利用序列级度量奖励与课程学习提高训练过程的稳定性,或者利用加权机器学习+强化学习混合损失提高生成摘要的流畅性。Choi等人首先提取一个句子,再通过强化学习框架的桥接,从句子的向量表示中生成答案。Narayan等人在抽取式摘要方法中使用强化学习对句子进行排名,elikyilmaz等人研究在模型中使用多个沟通编码器代理来增强复制效果的生成式摘要模型。Swayamdipta等人在抽取式问答任务上尝试引入级联式非递归小网络,构建了一个可扩展的、可并行的模型。Fan等人在此基础上增加了控制参数,提高模型的适应度,让生成的摘要能够满足长度、风格和实体的偏好。
以上现有技术对重要信息进行了隐式地建模,因为对句子摘要任务而言,重要的需求就是生成尽量短且体现重要信息的摘要。但以上现有技术缺乏对于输入句子中的单词重要性的建模。此外,现有技术产生的最终摘要虽然语法通顺,但却可能引入不重要的和冗余的信息。
发明内容
为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题,本发明使用一种抽取-生成混合架构,用多智能体强化学习驱动整个架构,在保留生成式摘要可读性和简洁性优势的基础上,也能利用抽取式模型获得原文的重要语义信息。利用基于A2C策略的强化学习模型学习词句的层次结构,能够更好的模拟语言结构,使并行化训练模型成为可能。本发明从原文的关键语义信息出发抽取原文中的关键语句融入到模型中,利用到抽取式模型的优势,再对关键语句解码重写,避免按原文顺序对长文本的每个词迭代处理发生的缓慢问题,也消除了冗余问题。
为了达到上述目的,本发明采用了下列技术方案:
一种基于强化学习的多粒度抽取-生成混合式文摘方法,包括以下步骤:
步骤1,使用抽取式模块选择关键语义信息;
步骤2,使用生成式模块压缩重写选择的关键语义信息;
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。
进一步,所述步骤1中使用抽取式模块选择关键语义信息,具体步骤为:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk;
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用。
更进一步,所述步骤1.1中采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk,具体步骤为:
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,…,hm}。
更进一步,所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器进行解码,具体步骤为:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态和/>计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
其中,FNN是前馈神经网络,sigmoid表示激活函数。
进一步,所述步骤2中使用生成式模块压缩重写选择的关键语义信息,首先在输入序列上构建对应的图结构,然后经过图编码器用来对所有关键句执行全局编码过程,图结构中结点之间的边是注意力权重值,通过多层的图注意力机制,利用明确的图结构来帮助组织摘要的内容。借助于图形建模,生成式模型从输入序列中分析出关键信息,有效地生成连贯的摘要。具体步骤为:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;成对关系偏置Rij∈(-inf,0]衡量句子Pi和Pj之间的联系程度。因为softmax函数中指数运算的影响,成对关系偏置可以用隐式注意力分布乘以权重∈(0,1]来计算。
αij=softmax(eij+Rij)(8)
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
进一步,所述步骤3中使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块,步骤1中的单词和句子提取器Dw2w和Ds2s作为强化学习的代理aw和as操作。此外,框架中还包含一个通讯器m,传递信息来协调代理的动作,解决多个独立的代理角色可能出现的稳定问题。具体步骤为:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色(agent),即词级代理aw和句子级代理as,基于各自的策略网络和/>以及隐藏状态/>和/>一起考虑,选择要执行的动作/>和/>
步骤3.2,若通讯器m(communicator)在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要和真实摘要/>之间的句子奖励/>同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>在原文句子的关键词集合中,动作/>得到的单词奖励/>就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
与现有技术相比本发明具有以下优点:
本发明提出了基于强化学习的多粒度抽取生成混合架构,按照架构执行的顺序,从两种层级的抽取式模块,到基于Transformer的图神经网络结构,再到引导两者的多智能体强化学习框架,解决了传统摘要模型的冗余问题,让模型学习更深入的句子间关系,在自动文本摘要任务上具有更高的准确性和稳定性,同时因为模块彼此间独立的架构,可以方便的对各个模块更新迭代,提升模型整体性能。
附图说明
图1为本发明整体模型架构示意图;
图2为本发明抽取式模块架构示意图;
图3为本发明生成式模块示意图。
具体实施方式
实施例1
本发明的一种基于强化学习的多粒度抽取-生成混合式文摘方法,包括以下步骤:
步骤1,使用抽取式模块(如图2所示)选择关键语义信息,具体包括以下步骤:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk:
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,...,hm}。
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态和/>计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
其中,FNN是前馈神经网络,sigmoid表示激活函数。
步骤2,使用生成式模块(如图3所示)压缩重写选择的关键语义信息,具体包括以下步骤:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;
αij=sofmax(eij+Rij)(8)
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块(如图1所示),具体包括以下步骤:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色,即词级代理aw和句子级代理as,基于各自的策略网络和/>以及隐藏状态/>和/>一起考虑,选择要执行的动作/>和/>
步骤3.2,若通讯器m在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要和真实摘要/>之间的句子奖励同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>在原文句子的关键词集合中,动作/>得到的单词奖励/>就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
实施例2
1、实验数据集和评价指标
本发明在CNN/Daily Mail数据集和New York Times数据集上评估了整个模型,这两个数据集的摘要都是由多个句子组成。CNN/Daily Mail数据集由30多万篇新闻文章组成,每篇文章都与几个重点配对在一起。对数据集使用标准划分法进行训练、验证和测试,不过没有对实体进行匿名处理,然后使用Stanford CoreNLP分割处理句子后,再对数据集执行预处理方法,处理完成的数据中包含原始文档和真实摘要。New York Times数据集也是由许多新闻文章组成,首先清洗数据,删除短于50字的摘要文件,然后执行数据集拆分,最终90%的数据用于训练,剩余10%用于测试实例。
本发明使用ROUGE-1、ROUGE-2、ROUGE-L和METEOR四个评价指标来全面衡量模型的性能,计算方式如公式(26)~(28)所示:
METEOR=(1-pen)\timesFmeans(28)
其中,ROUGE指标是在自动文本摘要、问答生成等自然语言处理领域常见的评估指标,通过将模型产生的摘要与真实摘要进行比较计算得到分数。Rouge-N是将模型产生的摘要与真实摘要按N-gram拆分后,计算召回率。Rouge-L的L表示最长公共子序列,最长公共子序列计算产生摘要与真实摘要的准确率和召回率,两者结合计算最终得分,可作为访问频率的手段。METEOR为产生摘要和与真实摘要之间的准确率和召回率的调和平均,将词序纳入评估范畴。
2、实验环境设置
实验模型训练阶段将输入序列中词的最大限制设定为800,每句话中词的最大数量截断为60个。在训练集上使用word2vec生成128维的词嵌入向量。词汇表由训练集中最常见的50000个词组成。使用的一维卷积滤波器具有3种不同窗口大小:3、4和5,每个中间句子表示的维度为300。框架中的所有LSTM的维度设置为256,使用的Adam优化器,预训练阶段的学习率为0.001,在强化学习训练阶段的学习率为0.0001。采用梯度裁剪法来缓解梯度爆炸。在验证集上使用前面描述的停止方法。强化学习框架设置中,折扣系数γ被设置为0.95。测试阶段,波束大小设置为5执行波束搜索。
3、实验基线模型
本发明选取以下抽取式模型和生成式模型作为实验的基线模型:
1)PTGEN+Coverage模型:一种编码器-解码器模型,通过指向从原始文档中复制单词,同时保留了通过生成器产生新单词的能力,并引入了覆盖机制来解决重复冗余问题。
2)Transformer-LM模型:基于Transformer的摘要模型,通过实例化输入序列嵌入式向量来增强摘要模型的输入序列特征表示,再通过对Transformer微调帮助理解输入序列。
3)BertSumExtAbs模型:一种采用BERT作为编码器的编码器-解码器模型,第一阶段使用带有BERT编码器的模型完成提取任务,然后再将训练好的BERT编码器和6层transformer层结合起来,形成生成式摘要模型。
4)Bart模型:一种基于Transformer的序列到序列模型,与BertSumExtAbs模型类似。但与BertSumExtAbs的编码器的微调和解码器的再次训练不同,对于BART,编码器和解码器都只进行了微调。
4.实验结果
将本发明的混合架构与其他基线模型在CNN/Daily Mail数据集和New YorkTimes数据集上进行对比,实验结果如表1所示:
表1 CNN/Daily Mail数据集和New York Times数据集实验结果
表1展示了各种模型在CNN/Daily Mail数据集和New York Times数据集上训练和测试的实验结果。本发明的混合架构模型性能超过了单独抽取式和单独生成式的基线模型,也超过了混合架构的基线模型BertSumExtAbs。本发明的混合架构模型的性能改进主要体现在提取然后生成的摘要产生机制、包含词级解码器的抽取式模块和图注意力增强的生成式模块共同创造的。混合架构中的抽取式模块,能够利用到多粒度的原文信息,与基于演员-评论家的多智能体强化学习框架非常有效的结合,因此获得了更高的性能。从实验结果中可以看到,抽取式模块的表现优于基线模型,证明抽取式模块能选择到更关键的句子。通过混合架构消融实验结果可以看到生成式模块在所有四个指标上都取得了明显的进步,证明了生成式模块的有效性。同时生成式模块的图模型能有效的与预训练语言模型结合,与其他预训练语言模型对比,也证明预训练语言模型对图模型的重要性。架构中使用到的重新排序策略也能帮助提高性能,有助于生成式模块压缩抽取到的关键语句,解决跨句子的冗余问题,获取到简洁的信息,改进后的实验结果也证明了成功消除了一些冗余表达,产生了更简洁的摘要。
Claims (7)
1.一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,包括以下步骤:
步骤1,使用抽取式模块选择关键语义信息;
步骤2,使用生成式模块压缩重写选择的关键语义信息;
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。
2.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1中使用抽取式模块选择关键语义信息,具体步骤为:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk;
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用。
3.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1.1中采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk,具体步骤为:
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,…,hm}。
4.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器进行解码,具体步骤为:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态和/>计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
其中,FNN是前馈神经网络,sigmoid表示激活函数。
6.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤2中使用生成式模块压缩重写选择的关键语义信息,具体步骤为:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;
αij=softmax(eij+Rij) (8)
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
7.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤3中使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块,具体步骤为:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色,即词级代理aw和句子级代理as,基于各自的策略网络和/>以及隐藏状态/>和/>一起考虑,选择要执行的动作/>和/>
步骤3.2,若通讯器m在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要和真实摘要/>之间的句子奖励同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>在原文句子的关键词集合中,动作/>得到的单词奖励/>就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310360578.7A CN116432637A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310360578.7A CN116432637A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432637A true CN116432637A (zh) | 2023-07-14 |
Family
ID=87088502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310360578.7A Pending CN116432637A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432637A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
-
2023
- 2023-04-06 CN CN202310360578.7A patent/CN116432637A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
CN117725928B (zh) * | 2024-02-18 | 2024-04-30 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Efficient Classification for Neural Machines Interpretations based on Mathematical models | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
US20220129450A1 (en) | System and method for transferable natural language interface | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN113033189B (zh) | 一种基于注意力分散的长短期记忆网络的语义编码方法 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN113704437A (zh) | 一种融合多头注意力机制和相对位置编码的知识库问答方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN116992042A (zh) | 基于新型研发机构科技创新服务知识图谱系统的构建方法 | |
CN116432637A (zh) | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 | |
Yang et al. | Adaptive syncretic attention for constrained image captioning | |
CN114238636A (zh) | 一种基于翻译匹配的跨语言属性级情感分类方法 | |
Han et al. | Generative adversarial networks for open information extraction | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN116955594A (zh) | 语义融合预训练模型构建方法及跨语言摘要生成方法和系统 | |
Anisha et al. | Text to sql query conversion using deep learning: A comparative analysis | |
CN114239575A (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
Nie et al. | Graph neural net-based user simulator | |
Liang et al. | Knowledge graph enhanced transformer for generative question answering tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |