CN116432637A - 一种基于强化学习的多粒度抽取-生成混合式文摘方法 - Google Patents

一种基于强化学习的多粒度抽取-生成混合式文摘方法 Download PDF

Info

Publication number
CN116432637A
CN116432637A CN202310360578.7A CN202310360578A CN116432637A CN 116432637 A CN116432637 A CN 116432637A CN 202310360578 A CN202310360578 A CN 202310360578A CN 116432637 A CN116432637 A CN 116432637A
Authority
CN
China
Prior art keywords
sentence
word
graph
attention
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310360578.7A
Other languages
English (en)
Inventor
郭鑫
任翔宇
陈千
王素格
郑建兴
廖健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202310360578.7A priority Critical patent/CN116432637A/zh
Publication of CN116432637A publication Critical patent/CN116432637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及一种基于强化学习的多粒度抽取‑生成混合式文摘方法。为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题,本发明使用一种抽取‑生成混合架构,用多智能体强化学习驱动整个架构,在保留生成式摘要可读性和简洁性优势的基础上,也能利用抽取式模型获得原文的重要语义信息。利用基于A2C策略的强化学习模型学习词句的层次结构,能够更好的模拟语言结构,使并行化训练模型成为可能。

Description

一种基于强化学习的多粒度抽取-生成混合式文摘方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于强化学习的多粒度抽取-生成混合式文摘方法。
背景技术
互联网快速发展,传播的信息越来越多元化,用户如何快速有效地从海量信息中提炼出所需的有用信息已经成为一个亟待解决的问题。利用自动文本摘要技术能为用户提供全面、简洁、流畅的摘要信息,同时保留原文中包含的所有关键信息。自动文本摘要是将原始文档凝练成一段简洁连贯的中心内容。在新闻阅读、科学研究、公共卫生等领域有广泛的应用价值。通常分为抽取式和生成式两种方法。抽取式自动文本摘要方法是直接抽取并输出原文中的关键语句组成摘要,但存在信息冗余的缺点。生成式方法可以从原文开头执行摘要推理过程,压缩重写生成更加简洁的摘要,不过输入序列过长时,会出现长时间依赖问题,无法正确分析提取输入序列的文本语义信息,同时生成过程难以人为控制,导致最终摘要并不理想。早期的学者们主要侧重于对抽取式方法的研究,随着计算机硬件性能和计算性能的提升,自动文本摘要的研究热点从早期的抽取式方法转变为现在的生成式方法逐渐转移。
尽管在深度学习技术的助力下,生成式自动文本摘要模型已经能较好地处理生成摘要的流畅性、可读性、简洁性和超纲词问题,但仍然存在着几个比较关键的问题待解决:1)摘要重要信息冗余问题;2)长文本长时间依赖问题;3)模型长文本推理缓慢。
借着深度学习的兴起发展,自然语言处理领域的研究也取得跨越式的进展,生成式自动文本摘要技术的诞生与深度学习是分不开的。
see等人提出Seq2Seq模型后,广泛应用应用于生成摘要的过程。Liu和Lapata首次通过将预训练的语言模型作为编码器,随后Zhang等人利用大规模的无标签语料库对摘要生成过程进行预训练,取得了显著的改进。显式结构在基于深度学习的抽取式和生成式摘要方法中发挥了重要作用,不同的结构从不同方面提升摘要生成模型的性能。Cao等人提出根据他们提出的成分句法分析树来提取关键语句。Xu和Durrett同时考虑到句法结构和句法规则,根据两者共同作用选择和压缩重写关键语句。Li和Zhuge提出一种基于语义链接网络,不过其中并没有包含图神经网络。通过用OpenIE提取图元,Fan等人压缩并减少了输入文档中的冗余度,提高了长序列处理的有效性,而Huang等人利用基于OpenIE的知识图谱来提高生成摘要的事实一致性。而先提取后重写这一范式,研究人员早期尝试使用了隐式马尔科夫模型和基于规则的系统,基于解析树的统计模型,以及基于整数线性编程的方法。近几年有人研究了话语结构、图切割和解析树结构。在深度神经网络领域,Cheng和Lapata使用第二个深度神经网络从抽取式模型的输出中选择单词。近几年强化学习已经被用来优化语言生成的非差异性指标,并减轻暴露偏差。Hen等人使用基于Q-learning的强化学习框架做抽取式摘要。Paulus等人使用强化学习策略梯度方法执行生成式摘要过程,利用序列级度量奖励与课程学习提高训练过程的稳定性,或者利用加权机器学习+强化学习混合损失提高生成摘要的流畅性。Choi等人首先提取一个句子,再通过强化学习框架的桥接,从句子的向量表示中生成答案。Narayan等人在抽取式摘要方法中使用强化学习对句子进行排名,elikyilmaz等人研究在模型中使用多个沟通编码器代理来增强复制效果的生成式摘要模型。Swayamdipta等人在抽取式问答任务上尝试引入级联式非递归小网络,构建了一个可扩展的、可并行的模型。Fan等人在此基础上增加了控制参数,提高模型的适应度,让生成的摘要能够满足长度、风格和实体的偏好。
以上现有技术对重要信息进行了隐式地建模,因为对句子摘要任务而言,重要的需求就是生成尽量短且体现重要信息的摘要。但以上现有技术缺乏对于输入句子中的单词重要性的建模。此外,现有技术产生的最终摘要虽然语法通顺,但却可能引入不重要的和冗余的信息。
发明内容
为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题,本发明使用一种抽取-生成混合架构,用多智能体强化学习驱动整个架构,在保留生成式摘要可读性和简洁性优势的基础上,也能利用抽取式模型获得原文的重要语义信息。利用基于A2C策略的强化学习模型学习词句的层次结构,能够更好的模拟语言结构,使并行化训练模型成为可能。本发明从原文的关键语义信息出发抽取原文中的关键语句融入到模型中,利用到抽取式模型的优势,再对关键语句解码重写,避免按原文顺序对长文本的每个词迭代处理发生的缓慢问题,也消除了冗余问题。
为了达到上述目的,本发明采用了下列技术方案:
一种基于强化学习的多粒度抽取-生成混合式文摘方法,包括以下步骤:
步骤1,使用抽取式模块选择关键语义信息;
步骤2,使用生成式模块压缩重写选择的关键语义信息;
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。
进一步,所述步骤1中使用抽取式模块选择关键语义信息,具体步骤为:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用。
更进一步,所述步骤1.1中采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk,具体步骤为:
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,…,hm}。
更进一步,所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器进行解码,具体步骤为:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态
Figure BDA0004164970850000041
和/>
Figure BDA0004164970850000042
计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
Figure BDA0004164970850000043
Figure BDA0004164970850000044
其中,WD、WEv、
Figure BDA0004164970850000045
v表示可训练的参数,T表示矩阵的转置;
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
Figure BDA0004164970850000051
Figure BDA0004164970850000052
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
Figure BDA0004164970850000053
其中,FNN是前馈神经网络,sigmoid表示激活函数。
进一步,对所述步骤1中的抽取式模块使用最大似然估计损失函数进行端到端训练最小化损失
Figure BDA0004164970850000054
如公式(6)所示:
Figure BDA0004164970850000055
其中,t表示训练的最大步骤数,
Figure BDA0004164970850000056
分别表示第j步时计算得到的切换开关、词级和句子级被选中标签。
进一步,所述步骤2中使用生成式模块压缩重写选择的关键语义信息,首先在输入序列上构建对应的图结构,然后经过图编码器用来对所有关键句执行全局编码过程,图结构中结点之间的边是注意力权重值,通过多层的图注意力机制,利用明确的图结构来帮助组织摘要的内容。借助于图形建模,生成式模型从输入序列中分析出关键信息,有效地生成连贯的摘要。具体步骤为:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
Figure BDA0004164970850000061
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;成对关系偏置Rij∈(-inf,0]衡量句子Pi和Pj之间的联系程度。因为softmax函数中指数运算的影响,成对关系偏置可以用隐式注意力分布乘以权重∈(0,1]来计算。
给定
Figure BDA0004164970850000062
表示第i句Pi的第l-1个图编码层,其中/>
Figure BDA0004164970850000063
只是输入的句子表示向量,对每个句子Pi,上下文特征表示ui计算过程如公式(7)、(8)、(9)所示:
Figure BDA0004164970850000064
αij=softmax(eij+Rij)(8)
Figure BDA0004164970850000065
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
步骤2.3,使用包含ReLU激活函数的前馈神经网络和两层残差连接归一化,得到每个句子的向量表示
Figure BDA0004164970850000066
如公式(11)和(12)所示:
Figure BDA0004164970850000067
Figure BDA0004164970850000068
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用
Figure BDA0004164970850000071
表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>
Figure BDA0004164970850000072
转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
Figure BDA0004164970850000073
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
Figure BDA0004164970850000074
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
Figure BDA0004164970850000075
然后继续计算局部图注意力lt,给定γt,ji表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布,局部归一化注意力
Figure BDA0004164970850000076
的计算公式如公式(16)所示:
Figure BDA0004164970850000077
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
Figure BDA0004164970850000078
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
Figure BDA0004164970850000081
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
进一步,所述步骤3中使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块,步骤1中的单词和句子提取器Dw2w和Ds2s作为强化学习的代理aw和as操作。此外,框架中还包含一个通讯器m,传递信息来协调代理的动作,解决多个独立的代理角色可能出现的稳定问题。具体步骤为:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色(agent),即词级代理aw和句子级代理as,基于各自的策略网络
Figure BDA0004164970850000082
和/>
Figure BDA0004164970850000083
以及隐藏状态/>
Figure BDA0004164970850000084
和/>
Figure BDA0004164970850000085
一起考虑,选择要执行的动作/>
Figure BDA0004164970850000086
和/>
Figure BDA0004164970850000087
步骤3.2,若通讯器m(communicator)在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要
Figure BDA0004164970850000088
和真实摘要/>
Figure BDA0004164970850000089
之间的句子奖励/>
Figure BDA00041649708500000810
同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>
Figure BDA00041649708500000811
在原文句子的关键词集合中,动作/>
Figure BDA00041649708500000812
得到的单词奖励/>
Figure BDA00041649708500000813
就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
Figure BDA00041649708500000814
其中,t表示句子级代理as输出的最后一步,λ为调节全局词奖励贡献程度的超参数,
Figure BDA0004164970850000091
表示真实摘要句子集合,W表示真实的关键词集合;
步骤3.4,计算得到动作
Figure BDA0004164970850000092
和/>
Figure BDA0004164970850000093
对应的价值/>
Figure BDA0004164970850000094
和/>
Figure BDA0004164970850000095
如公式(20)~(23)所示:
Figure BDA0004164970850000096
Figure BDA0004164970850000097
Figure BDA0004164970850000098
Figure BDA0004164970850000099
其中,
Figure BDA00041649708500000910
为折扣回报,γ为超参数;
步骤3.5,评论家(critic)结构双向LSTM网络,在训练过程的每一步j,评论家根据代理作出的选择计算梯度值
Figure BDA00041649708500000911
和/>
Figure BDA00041649708500000912
如公式(24)和(25)所示:
Figure BDA00041649708500000913
Figure BDA00041649708500000914
其中,
Figure BDA00041649708500000915
表示参数化后的随机策略。
与现有技术相比本发明具有以下优点:
本发明提出了基于强化学习的多粒度抽取生成混合架构,按照架构执行的顺序,从两种层级的抽取式模块,到基于Transformer的图神经网络结构,再到引导两者的多智能体强化学习框架,解决了传统摘要模型的冗余问题,让模型学习更深入的句子间关系,在自动文本摘要任务上具有更高的准确性和稳定性,同时因为模块彼此间独立的架构,可以方便的对各个模块更新迭代,提升模型整体性能。
附图说明
图1为本发明整体模型架构示意图;
图2为本发明抽取式模块架构示意图;
图3为本发明生成式模块示意图。
具体实施方式
实施例1
本发明的一种基于强化学习的多粒度抽取-生成混合式文摘方法,包括以下步骤:
步骤1,使用抽取式模块(如图2所示)选择关键语义信息,具体包括以下步骤:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,...,hm}。
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态
Figure BDA0004164970850000101
和/>
Figure BDA0004164970850000102
计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
Figure BDA0004164970850000111
Figure BDA0004164970850000112
其中,WD、WEv、
Figure BDA0004164970850000113
v表示可训练的参数,T表示矩阵的转置;
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
Figure BDA0004164970850000114
Figure BDA0004164970850000115
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
Figure BDA0004164970850000116
其中,FNN是前馈神经网络,sigmoid表示激活函数。
步骤2,使用生成式模块(如图3所示)压缩重写选择的关键语义信息,具体包括以下步骤:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
Figure BDA0004164970850000121
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;
给定
Figure BDA0004164970850000122
表示第i句Pi的第l-1个图编码层,其中/>
Figure BDA0004164970850000123
只是输入的句子表示向量,对每个句子Pi,上下文特征表示ui计算过程如公式(7)、(8)、(9)所示:
Figure BDA0004164970850000124
αij=sofmax(eij+Rij)(8)
Figure BDA0004164970850000125
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
步骤2.3,使用包含ReLU激活函数的前馈神经网络和两层残差连接归一化,得到每个句子的向量表示
Figure BDA0004164970850000126
如公式(11)和(12)所示:
Figure BDA0004164970850000127
Figure BDA0004164970850000128
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用
Figure BDA0004164970850000129
表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>
Figure BDA00041649708500001210
转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
Figure BDA0004164970850000131
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
Figure BDA0004164970850000132
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
Figure BDA0004164970850000133
然后继续计算局部图注意力lt,给定γt,ji表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布,局部归一化注意力
Figure BDA0004164970850000134
的计算公式如公式(16)所示:
Figure BDA0004164970850000135
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
Figure BDA0004164970850000136
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
Figure BDA0004164970850000137
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块(如图1所示),具体包括以下步骤:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色,即词级代理aw和句子级代理as,基于各自的策略网络
Figure BDA0004164970850000141
和/>
Figure BDA0004164970850000142
以及隐藏状态/>
Figure BDA0004164970850000143
和/>
Figure BDA0004164970850000144
一起考虑,选择要执行的动作/>
Figure BDA0004164970850000145
和/>
Figure BDA0004164970850000146
步骤3.2,若通讯器m在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要
Figure BDA0004164970850000147
和真实摘要/>
Figure BDA0004164970850000148
之间的句子奖励
Figure BDA0004164970850000149
同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>
Figure BDA00041649708500001410
在原文句子的关键词集合中,动作/>
Figure BDA00041649708500001411
得到的单词奖励/>
Figure BDA00041649708500001412
就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
Figure BDA00041649708500001413
其中,t表示句子级代理as输出的最后一步,λ为调节全局词奖励贡献程度的超参数,
Figure BDA00041649708500001414
表示真实摘要句子集合,W表示真实的关键词集合;
步骤3.4,计算得到动作
Figure BDA00041649708500001415
和/>
Figure BDA00041649708500001416
对应的价值/>
Figure BDA00041649708500001417
和/>
Figure BDA00041649708500001418
如公式(21)~(24)所示:
Figure BDA00041649708500001419
Figure BDA00041649708500001420
Figure BDA00041649708500001421
Figure BDA00041649708500001422
其中,
Figure BDA00041649708500001423
为折扣回报,γ为折扣系数;
步骤3.5,评论家结构双向LSTM网络,在训练过程的每一步j,评论家根据代理作出的选择计算梯度值
Figure BDA0004164970850000151
和/>
Figure BDA0004164970850000152
如公式(24)和(25)所示:
Figure BDA0004164970850000153
Figure BDA0004164970850000154
其中,
Figure BDA0004164970850000155
表示参数化后的随机策略。
实施例2
1、实验数据集和评价指标
本发明在CNN/Daily Mail数据集和New York Times数据集上评估了整个模型,这两个数据集的摘要都是由多个句子组成。CNN/Daily Mail数据集由30多万篇新闻文章组成,每篇文章都与几个重点配对在一起。对数据集使用标准划分法进行训练、验证和测试,不过没有对实体进行匿名处理,然后使用Stanford CoreNLP分割处理句子后,再对数据集执行预处理方法,处理完成的数据中包含原始文档和真实摘要。New York Times数据集也是由许多新闻文章组成,首先清洗数据,删除短于50字的摘要文件,然后执行数据集拆分,最终90%的数据用于训练,剩余10%用于测试实例。
本发明使用ROUGE-1、ROUGE-2、ROUGE-L和METEOR四个评价指标来全面衡量模型的性能,计算方式如公式(26)~(28)所示:
Figure BDA0004164970850000157
METEOR=(1-pen)\timesFmeans(28)
其中,ROUGE指标是在自动文本摘要、问答生成等自然语言处理领域常见的评估指标,通过将模型产生的摘要与真实摘要进行比较计算得到分数。Rouge-N是将模型产生的摘要与真实摘要按N-gram拆分后,计算召回率。Rouge-L的L表示最长公共子序列,最长公共子序列计算产生摘要与真实摘要的准确率和召回率,两者结合计算最终得分,可作为访问频率的手段。METEOR为产生摘要和与真实摘要之间的准确率和召回率的调和平均,将词序纳入评估范畴。
2、实验环境设置
实验模型训练阶段将输入序列中词的最大限制设定为800,每句话中词的最大数量截断为60个。在训练集上使用word2vec生成128维的词嵌入向量。词汇表由训练集中最常见的50000个词组成。使用的一维卷积滤波器具有3种不同窗口大小:3、4和5,每个中间句子表示的维度为300。框架中的所有LSTM的维度设置为256,使用的Adam优化器,预训练阶段的学习率为0.001,在强化学习训练阶段的学习率为0.0001。采用梯度裁剪法来缓解梯度爆炸。在验证集上使用前面描述的停止方法。强化学习框架设置中,折扣系数γ被设置为0.95。测试阶段,波束大小设置为5执行波束搜索。
3、实验基线模型
本发明选取以下抽取式模型和生成式模型作为实验的基线模型:
1)PTGEN+Coverage模型:一种编码器-解码器模型,通过指向从原始文档中复制单词,同时保留了通过生成器产生新单词的能力,并引入了覆盖机制来解决重复冗余问题。
2)Transformer-LM模型:基于Transformer的摘要模型,通过实例化输入序列嵌入式向量来增强摘要模型的输入序列特征表示,再通过对Transformer微调帮助理解输入序列。
3)BertSumExtAbs模型:一种采用BERT作为编码器的编码器-解码器模型,第一阶段使用带有BERT编码器的模型完成提取任务,然后再将训练好的BERT编码器和6层transformer层结合起来,形成生成式摘要模型。
4)Bart模型:一种基于Transformer的序列到序列模型,与BertSumExtAbs模型类似。但与BertSumExtAbs的编码器的微调和解码器的再次训练不同,对于BART,编码器和解码器都只进行了微调。
4.实验结果
将本发明的混合架构与其他基线模型在CNN/Daily Mail数据集和New YorkTimes数据集上进行对比,实验结果如表1所示:
表1 CNN/Daily Mail数据集和New York Times数据集实验结果
Figure BDA0004164970850000171
表1展示了各种模型在CNN/Daily Mail数据集和New York Times数据集上训练和测试的实验结果。本发明的混合架构模型性能超过了单独抽取式和单独生成式的基线模型,也超过了混合架构的基线模型BertSumExtAbs。本发明的混合架构模型的性能改进主要体现在提取然后生成的摘要产生机制、包含词级解码器的抽取式模块和图注意力增强的生成式模块共同创造的。混合架构中的抽取式模块,能够利用到多粒度的原文信息,与基于演员-评论家的多智能体强化学习框架非常有效的结合,因此获得了更高的性能。从实验结果中可以看到,抽取式模块的表现优于基线模型,证明抽取式模块能选择到更关键的句子。通过混合架构消融实验结果可以看到生成式模块在所有四个指标上都取得了明显的进步,证明了生成式模块的有效性。同时生成式模块的图模型能有效的与预训练语言模型结合,与其他预训练语言模型对比,也证明预训练语言模型对图模型的重要性。架构中使用到的重新排序策略也能帮助提高性能,有助于生成式模块压缩抽取到的关键语句,解决跨句子的冗余问题,获取到简洁的信息,改进后的实验结果也证明了成功消除了一些冗余表达,产生了更简洁的摘要。

Claims (7)

1.一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,包括以下步骤:
步骤1,使用抽取式模块选择关键语义信息;
步骤2,使用生成式模块压缩重写选择的关键语义信息;
步骤3,使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。
2.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1中使用抽取式模块选择关键语义信息,具体步骤为:
步骤1.1,采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk
步骤1.2,将得到词级特征编码ti和句子级特征编码hk输入词级解码器Dw2w和句子级解码器DS2S中供后续解码使用。
3.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1.1中采用BERT预训练模型对整篇文档的词和句子进行编码,得到词级特征编码ti和句子级特征编码hk,具体步骤为:
对于词级特征编码,将原始文档每个句子的每个词构造为词元嵌入向量,串联对应的段嵌入向量和位置嵌入向量,输入到Bert模型中,生成最终的词级特征编码T={t11,t12,...,t[SEQ]};
对于句子级特征编码,在每个句子开头插入[CLS]标记,句子末尾插入[SEQ]标记,区分多个句子,然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量,将整个句子映射为句子特征表示向量,即H={h1,h2,…,hm}。
4.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器进行解码,具体步骤为:
词级解码器和句子级解码器的结构为词级指针式抽取网络Dw2w和句子级网络Ds2s,解码过程的每一步,两种网络各自独立确定一个原文单词索引和原文语句索引,给定解码的任意一步j,两种解码器互不干扰使用隐藏状态
Figure FDA0004164970840000021
和/>
Figure FDA0004164970840000022
计算输入项嵌入表示wi和sk的注意力得分,如公式(1)和(2)所示:
Figure FDA0004164970840000023
Figure FDA0004164970840000024
其中,WD、WEv、
Figure FDA0004164970840000025
v表示可训练的参数,T表示矩阵的转置;
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量,如公式(3)和(4)所示:
Figure FDA0004164970840000026
Figure FDA0004164970840000027
其中,m表示全文中词的最大数量,n表示全文中句子的最大数量;
之后以上下文向量为输入,计算切换概率值qj,最后根据概率值结果是否为0或1,确定解码过程的每一步输出空值或对应原文位置,计算如公式(5)所示:
Figure FDA0004164970840000028
其中,FNN是前馈神经网络,sigmoid表示激活函数。
5.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,对所述步骤1中的抽取式模块使用最大似然估计损失函数进行端到端训练最小化损失
Figure FDA0004164970840000031
如公式(6)所示:
Figure FDA0004164970840000032
其中,t表示训练的最大步骤数,
Figure FDA0004164970840000033
分别表示第j步时计算得到的切换开关、词级和句子级被选中标签。
6.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤2中使用生成式模块压缩重写选择的关键语义信息,具体步骤为:
步骤2.1,基于transformer结构构建基础的transformer编码层,对输入序列的词元上下文执行编码过程,转为向量表示;
步骤2.2,在基础的transformer编码层上扩展图编码层,图编码层根据特征向量表示初始化图结构节点,构建图结构,图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展,增加额外的成对关系偏置Rij,用于关注图特征表示中的配对关系,Rij基于图特征表示矩阵G权重的高斯偏置计算,如公式(10)所示:
Figure FDA0004164970840000034
其中,σ为标准差,用来表示图结构的影响强度,G[i][j]表示表示图特征矩阵中第i个节点和第j个节点之间的权重值;
给定
Figure FDA0004164970840000035
表示第i句Pi的第l-1个图编码层,其中/>
Figure FDA0004164970840000036
只是输入的句子表示向量,对每个句子Pi,上下文特征表示ui计算过程如公式(7)、(8)、(9)所示:
Figure FDA0004164970840000037
αij=softmax(eij+Rij) (8)
Figure FDA0004164970840000041
其中,WQ、WK、WV均为待训练的权重参数,eij表示句子Pi和Pj之间的隐式关系权重,L表示图编码器的最大层数,dhead表示多头注意力的维度;
步骤2.3,使用包含ReLU激活函数的前馈神经网络和两层残差连接归一化,得到每个句子的向量表示
Figure FDA0004164970840000042
如公式(11)和(12)所示:
Figure FDA0004164970840000043
Figure FDA0004164970840000044
其中,Wo2、Wo1均为待训练的参数;
步骤2.4,图解码层中使用两层图注意力层,由全局图注意力和局部图注意力组成,首先使用全局图注意力向量,给定用
Figure FDA0004164970840000045
表示针对摘要中第t个词元的第l-1层图解码层的输出,应用前馈神经网络将/>
Figure FDA0004164970840000046
转化为位置隐藏状态,再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置st,如公式(13)所示:
Figure FDA0004164970840000047
其中,Up、Wp表示权重矩阵;
通过对图结构的正则化得到所有句子的注意力分布βtj,如公式(14)所示:
Figure FDA0004164970840000048
其中,G[st][j]表示图特征矩阵中第st个节点和第j个节点之间的权重值;
全局图注意力向量gt通过句子向量的加权求和计算得到,如公式(15)所示:
Figure FDA0004164970840000049
然后继续计算局部图注意力lt,给定γt,ji表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布,局部归一化注意力
Figure FDA0004164970840000051
的计算公式如公式(16)所示:
Figure FDA0004164970840000052
而局部图注意力lt通过所有句子中词元向量的加权和计算得到,如公式(17)所示:
Figure FDA0004164970840000053
步骤2.5,通过对全局图注意力和局部图注意力串联和线性转换,计算出层次化的图注意力表示,如公式(18)所示:
Figure FDA0004164970840000054
其中,Ud表示权重矩阵;
步骤2.6,层次化图注意力经过前馈神经网络和残差连接归一化计算过程,迭代输出生成的摘要概率分布。
7.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法,其特征在于,所述步骤3中使用基于A2C策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块,具体步骤为:
步骤3.1,在解码过程的第j步,词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色,即词级代理aw和句子级代理as,基于各自的策略网络
Figure FDA0004164970840000055
和/>
Figure FDA0004164970840000056
以及隐藏状态/>
Figure FDA0004164970840000057
和/>
Figure FDA0004164970840000058
一起考虑,选择要执行的动作/>
Figure FDA0004164970840000059
和/>
Figure FDA00041649708400000510
步骤3.2,若通讯器m在基于执行的动作输出重点句集合,随后强化学习框架使用ROUGE-1指标计算评价得分,用R1表示,计算出生成摘要
Figure FDA00041649708400000511
和真实摘要/>
Figure FDA00041649708400000512
之间的句子奖励
Figure FDA00041649708400000513
同时词级代理aw按照原文顺序匹配选中的关键词,如果单词/>
Figure FDA00041649708400000514
在原文句子的关键词集合中,动作/>
Figure FDA00041649708400000515
得到的单词奖励/>
Figure FDA00041649708400000516
就为1,否则为0;
步骤3.3,多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励,如公式(19)所示:
Figure FDA0004164970840000061
其中,t表示句子级代理as输出的最后一步,λ为调节全局词奖励贡献程度的超参数,
Figure FDA0004164970840000062
表示真实摘要句子集合,W表示真实的关键词集合;
步骤3.4,计算得到动作
Figure FDA0004164970840000063
和/>
Figure FDA0004164970840000064
对应的价值/>
Figure FDA0004164970840000065
和/>
Figure FDA0004164970840000066
如公式(20)~(23)所示:
Figure FDA0004164970840000067
Figure FDA0004164970840000068
Figure FDA0004164970840000069
Figure FDA00041649708400000610
其中,
Figure FDA00041649708400000611
为折扣回报,γ为折扣参数;
步骤3.5,评论家结构双向LSTM网络,在训练过程的每一步j,评论家根据代理作出的选择计算梯度值
Figure FDA00041649708400000612
和/>
Figure FDA00041649708400000613
如公式(24)和(25)所示:
Figure FDA00041649708400000614
Figure FDA00041649708400000615
其中,
Figure FDA00041649708400000616
表示参数化后的随机策略。
CN202310360578.7A 2023-04-06 2023-04-06 一种基于强化学习的多粒度抽取-生成混合式文摘方法 Pending CN116432637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310360578.7A CN116432637A (zh) 2023-04-06 2023-04-06 一种基于强化学习的多粒度抽取-生成混合式文摘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310360578.7A CN116432637A (zh) 2023-04-06 2023-04-06 一种基于强化学习的多粒度抽取-生成混合式文摘方法

Publications (1)

Publication Number Publication Date
CN116432637A true CN116432637A (zh) 2023-07-14

Family

ID=87088502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310360578.7A Pending CN116432637A (zh) 2023-04-06 2023-04-06 一种基于强化学习的多粒度抽取-生成混合式文摘方法

Country Status (1)

Country Link
CN (1) CN116432637A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法
CN117725928B (zh) * 2024-02-18 2024-04-30 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Similar Documents

Publication Publication Date Title
Sharma et al. Efficient Classification for Neural Machines Interpretations based on Mathematical models
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN111241807B (zh) 一种基于知识引导注意力的机器阅读理解方法
US20220129450A1 (en) System and method for transferable natural language interface
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN113033189B (zh) 一种基于注意力分散的长短期记忆网络的语义编码方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113704437A (zh) 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN116992042A (zh) 基于新型研发机构科技创新服务知识图谱系统的构建方法
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法
Yang et al. Adaptive syncretic attention for constrained image captioning
CN114238636A (zh) 一种基于翻译匹配的跨语言属性级情感分类方法
Han et al. Generative adversarial networks for open information extraction
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
Anisha et al. Text to sql query conversion using deep learning: A comparative analysis
CN114239575A (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
Nie et al. Graph neural net-based user simulator
Liang et al. Knowledge graph enhanced transformer for generative question answering tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication