CN115658882B - 一种结合全局主题信息的摘要生成方法 - Google Patents

一种结合全局主题信息的摘要生成方法 Download PDF

Info

Publication number
CN115658882B
CN115658882B CN202211221342.7A CN202211221342A CN115658882B CN 115658882 B CN115658882 B CN 115658882B CN 202211221342 A CN202211221342 A CN 202211221342A CN 115658882 B CN115658882 B CN 115658882B
Authority
CN
China
Prior art keywords
word
vector
time step
key
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211221342.7A
Other languages
English (en)
Other versions
CN115658882A (zh
Inventor
卢玲
段志丽
王景慧
李东远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202211221342.7A priority Critical patent/CN115658882B/zh
Publication of CN115658882A publication Critical patent/CN115658882A/zh
Application granted granted Critical
Publication of CN115658882B publication Critical patent/CN115658882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种结合全局主题信息的摘要生成方法,包括以下步骤:S1,抽取原文的关键主题信息;S2,将关键主题信息与原文表示融合;S3,采用指针生成网络生成摘要。本发明能够从原文主题的角度生成更加符合原文的摘要,通过引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。

Description

一种结合全局主题信息的摘要生成方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种结合全局主题信息的摘要生成方法。
背景技术
自动文摘技术旨在用计算机对文本进行理解、分析,进而生成涵盖原文主旨, 简洁精炼的摘要,它是自然语言处理(Natural Language Processing,NLP)领域被广 泛关注的研究内容,也是自动问答、新闻标题生成等众多下游应用的基础任务。
现有自动文摘方法主要分抽取式和生成式两类。抽取式摘要通过抽取原文重要的文本单元组成摘要。生成式方法则以转述、同义替换、句子缩写等技术对原文进 行重述,其中常包含超出原文的词或短语,生成摘要的流畅性、概括性较好,更接 近人工摘要。近年来,结合深度神经网络的序列到序列(Sequence to Sequence,Seq2Seq) 摘要生成框架被广泛研究。同时,结合注意力机制的Seq2Seq摘要生成方法有针对 性地解决因句子过长而导致的梯度消失问题,提升了摘要的性能。影响摘要生成质 量的还有未登录词(out-of-vocabulary,OOV)、生成冗余词问题,为此,See等提出 用指针生成网络(Pointer-generator network)从文档中复制词,并用Coverage机制缓 解生成词冗余问题,提升了摘要性能。
总体来看,结合注意力机制的Seq2Seq框架为生成式摘要研究提供了基础。但 现有方法将摘要生成视为从原文到摘要的翻译过程,因此多关注原文字符与摘要字 符的相关性,注意力机制也建立在原文字符和摘要字符之间,较少从原文主题的角 度研究摘要生成方法,由此生成的摘要很容易偏离原文主题,不能准确地表达原文的重点。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种结合全局主题信息的摘要生成方法。
为了实现本发明的上述目的,本发明提供了一种结合全局主题信息的摘要生成方法,包括以下步骤:
S1,抽取原文的关键主题信息;
S2,将关键主题信息与原文表示融合;
S3,采用指针生成网络生成摘要。
进一步地,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包 括以下步骤:
S1-1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布; 选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成 关键主题信息词集Top;
S1-2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
S1-3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:
X=fBERT(Top) (9)
Figure SMS_1
其中,X={x11,x12,...,x1q,...,xpq}为经BERT编码后的关键主题词向量集;
fBERT为BERT的非线性方程;
p为前p个主题;
q为前p个主题下的前q个主题词;
Xi表示经BERT编码后的第i个关键主题词向量。
进一步地,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包 括以下步骤:
S1-1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布; 选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成 关键主题信息词集Top;
S1-2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
S1-3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:
X=fBERT(Top) (9)
Figure SMS_2
其中,X={x11,x12,...,x1q,...,xpq}为经BERT编码后的关键主题词向量集;
fBERT为BERT的非线性方程;
p为前p个主题;
q为前p个主题下的前q个主题词;
Xi表示经BERT编码后的第i个关键主题词向量。
进一步地,所述S2包括以下步骤:
S2-1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得 到关键主题信息向量G_T';
S2-2,将关键主题信息向量G_T',编码端隐藏层向量hi和解码端隐藏层向量st通过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化 后得到注意力分布
Figure SMS_3
如式(12)~(13)所示:
Figure SMS_4
Figure SMS_5
其中,Att(hi,st,G_T')表示对hi、st、G_T'进行加性注意力操作;
vTtanh(Whhi+Wsst+Wg_tG_T'+battn)表示对tanh(Whhi+Wsst+Wg_tG_T'+battn)进行转置变换;
hi是原文词wi的隐藏层向量表示;
wi表示第i个原文词;
st为解码端隐藏层向量;
G_T'为关键主题信息向量;
Wh,Ws,Wg_t是可训练的参数矩阵;
battn是偏置项;
softmax(·)为归一化指数函数;
S2-3,用注意力分布
Figure SMS_6
与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量Ct,如式(14)所示:
Figure SMS_7
其中,t表示时间步;
T为总的时间步;
Figure SMS_8
为时间步t第i个词的注意力分布;
Figure SMS_9
表示时间步t第i个词的隐藏层向量。
进一步地,所述S2还包括:
将ct作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力:
Figure SMS_10
Figure SMS_11
其中,
Figure SMS_12
为时间步t的注意力分布;
Figure SMS_13
为时间步t第i个词的未归一化的注意力打分函数;
Wh,Ws,Wc,Wg_t为可训练的参数矩阵;
Figure SMS_14
为时间步t第i个词的覆盖向量;
battn为偏置项。
通过引入了覆盖机制对注意力机制进行约束,解决了生成重复词的问题。即通 过公式(22)对公式(12)进行替换,之后还是求注意力分布
Figure SMS_15
再用注意力分布/>
Figure SMS_16
与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量Ct
进一步地,所述S3包括:
对目标摘要词序列R=[r1,r2,…,rk],用LSTM对其编码,计算词的隐藏层向量,其中rt表示在时间步t的摘要词,k表示总的时间步数;对任意rt∈R,其隐藏层向量编 码如式(15)~(16)所示:
Figure SMS_17
st=LSTM(st-1,yt-1,Ct) (16)
其中,ew(rt)为rt的词嵌入表示;
m为词嵌入维度;
yt为在时间步t的摘要词rt的向量表示;
st为时间步t的隐藏层向量;
Ct表示融合了时间步t之前关键主题信息的上下文向量;
对给定序列,在预设词表上,每个词w输出的条件概率P(w)如式(17)~(18)所示:
Pvocab=softmax(V'(V[st;Ct]+b)+b') (17)
P(w)=Pvocab(w) (18)
其中,Pvocab为预设词汇表中所有单词的概率分布;
softmax表示归一化指数函数;
[;]表示向量拼接;
Pvocab(w)表示当前词w的概率分布;
V’、V是可训练的参数矩阵;
b和b’是偏置项;
在每个解码器时间步t,指针网络用上下文向量Ct、解码端隐藏层向量st和解码 端输入yt计算生成摘要词的概率pgen,计算如式(19)所示:
Pgen=σ(WctCt+Wstst+Wytyt+bptr) (19)
其中,Wct,Wst,Wyt是可训练的参数矩阵;
bptr是偏置项;
σ是sigmoid激活函数;
对于每一篇文档,pgen对词汇分布和注意力分布加权求和,得到一个扩展词表, 在所述扩展词表上生成词w的概率如式(20)所示:
Figure SMS_18
其中,Pvocab(w)是预设词表上生成词的概率;
Figure SMS_19
表示对时间步t第i个词的之前的所有注意力进行求和。
若生成的摘要词w是词表外的词,则Pvocab(w)为零;若w未出现在原文档中,则
Figure SMS_20
为零。
根据生成词的概率P(w),选择生成词中概率最高的词作为摘要词,摘要词依次 生成得到摘要。
进一步地,还包括损失函数:
losst=-log P(wt)+λ∑icov losst (26)
Figure SMS_21
losst为时间步t的最终损失函数;
P(wt)为生成目标词wt的概率;
wt为时间步t的词;
λ为超参数;
cov losst为时间步t的覆盖损失;
Figure SMS_22
表示取/>
Figure SMS_23
中更小的值;
Figure SMS_24
为时间步t第i个词的注意力分布,是一个向量;
Figure SMS_25
为时间步t第i个词的覆盖向量。
综上所述,由于采用了上述技术方案,本发明能够从原文主题的角度生成更加 符合原文的摘要,通过引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均 有提升。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明结合全局主题信息的摘要生成模型示意图。
图2是本发明LDA的概率模型图。
图3是本发明结合全局主题信息的注意力机制示意图。
图4是本发明数据集CNN/DM上主题词项数对摘要的影响示意图。
图5是本发明数据集LCSTS上主题词项数对摘要的影响示意图。
图6是本发明数据集CNN/DM上主题数目对摘要的影响示意图。
图7是本发明数据集LCSTS上主题数目对摘要的影响示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至 终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通 过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
一般人工摘要的思路为“阅读全文→关注局部→归纳中心思想→转述”,即先通读和理解全文,从文中定位与主题紧密相关的词句,再撰写覆盖原文主题的摘要, 其中,“归纳中心思想”是关键但现有研究关注不足的环节。只有理解了人类撰写摘 要的方式,才能辅助模型更好的生成摘要。而本文发明就是按照人工撰写摘要的方式去组织生成摘要的,具体内容如下。
1结合全局主题信息的摘要生成模型
本文提出的ACGT摘要生成模型如图1所示。图1中,分为编码端(encoder) 和解码端(decoder),编码端主要包括全局主题信息抽取器(Global Topics Extractor),结合全局主题信息的注意力模块(Global Topics combined Attention Module)两部分, 最终编码端将蕴含全局主题信息的上下文向量输出到解码端。然后在解码端通过指 针网络最终生成摘要,与此同时加入了覆盖机制,在生成摘要的同时解决OOV词和 冗余词问题。其中,全局主题信息抽取器通过LDA模型,以nTmG方法抽取文档的 关键主题信息,再通过注意力模块,将关键主题信息与原文词加权求和,更新上下 文向量,以增强原文表示的语义。解码端接收上下文向量,利用Pgen构建新的词表, 生成摘要词。同时引入覆盖向量,解决对原文同一词过度关注导致的重复生成问题。
1.1编码端
对原文词序列W=[w1,w2,…,wi,…wn],用Bi-LSTM进行编码。对任意wi∈W,其编 码如式(1)~(4)所示:
xi=ew(wi),wi∈W (1)
Figure SMS_26
Figure SMS_27
Figure SMS_28
其中,ew(wi)表示wi的词嵌入表示,wi表示原文第i个词语,xi是原文词wi的嵌 入表示,
Figure SMS_29
m为词嵌入维度,/>
Figure SMS_30
为xi的前向隐藏层向量,/>
Figure SMS_31
为后向隐 藏层向量,LSTM(xi,hi-1)表示将xi、hi-1输入到LSTM中去训练。/>
Figure SMS_32
表示对/>
Figure SMS_33
进行拼 接,/>
Figure SMS_34
是原文词wi的隐藏层向量表示,n为隐藏层向量维度。
1.1.1基于LDA的全局主题信息抽取器
为提取文档的关键主题信息,本文构建了基于LDA的主题信息抽取器,用LDA 结合nTmG方法,提取原文的关键主题词,再通过信息融合单元,将关键主题信息 重新编码得到全局主题向量,用于进行注意力的更新。所述nTmG方法即从原文概 率分布最大的n个主题中选择TOP m个概率最大的词项。LDA生成文档的概率图模 型如图2所示。
对输入文档集D={d1,d2,…di,…,ds},变量K表示D中隐含的主题数,di∈D是第i个文档,α表示D中隐含主题间的强弱关系,η为所有隐含主题的概率分布,α和η均 服从狄利克雷分布。LDA生成文档时,按照先验概率选择文档,确定文档的特征词 数,取样生成文档的主题分布,并选择文档中词的主题,再取样生成当前主题的词分布,最终采样生成词。根据LDA概率图模型,对文档di∈D,其第n个词Wd,n的生 成概率如式(5)~(8)所示:
θd=Dirichlet(α) (5)
Zd,n=multi(θd) (6)
βk=Dirichlet(η) (7)
Figure SMS_35
其中,θd为文档di的主题分布,βk为当前主题的词分布,θd和βk分别从狄利克 雷分布α,η中采样得到。Zd,n为词Wd,n所属的主题,Zd,n从θd的多项式分布中采样得 到。P(Wd,ndk)表示在θdk条件下生成的Wd,n的生成概率。Wd,n表示文档di的第n个 词。θd和βk分别从狄利克雷分布α,η中采样得到,Dirichlet(·)表示狄利克雷分布模 型,multi(·)为多项式函数。
本文用吉布斯采样算法训练LDA模型的主题分布θ和词分布β的参数。首先确 定主题数K,并对语料库中每一个词随机地赋予主题编号Z;重新扫描语料库,对每个词用吉布斯采样公式更新其主题编号;重复前述采样步骤直至收敛。最后,统计 语料库中词主题,得到文档的主题分布θd,统计各个主题词的分布,得到主题的词 分布βk
由LDA模型得到文档集D的主题概率分布,和各主题下的词概率分布。对文档 di∈D,取其概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词 项,构成关键主题信息词集Top={t11,t12,...,t1q,...,tpq},tpq表示在TOP p主题下选取概率 为TOP q的词项;再以BERT预训练模型得到Top的嵌入表示,最后取其均值向量 作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:
X=fBERT(Top) (9)
Figure SMS_36
其中,fBERT为BERT的非线性方程,X={x11,x12,...,x1q,...,xpq}为经BERT编码后的关键主题词向量集。
Figure SMS_37
b表示模型训练批次,l表示关键主题词数,d表 示BERT最后一层隐藏层的维度。p为TOP p中的p,即前p个主题。q为TOP q中 的q,即为前p个主题下的前q个主题词;Xi表示经BERT编码后的第i个关键主题词 向量。
1.1.2结合全局主题信息的注意力模块
结合全局主题信息的注意力模块用于将关键主题信息与原文表示融合,以增强原文表示,其结构如图3所示。
传统注意力机制是对一定距离内的文档信息进行平均注意,没有重点关注某些重要信息。为此,本文用Bahdanau Attention进行结合关键主题信息的注意力计算, 将编码端的隐藏层向量和关键主题向量共同作为注意力计算的输入。首先,将G_T经 线性变换为与原文编码相同维度,得到关键主题信息向量G_T',如式(11)所示:
G_T→G_T' (11)
其中,
Figure SMS_38
b'表示模型训练批次,l'表示文档长度,d'表示词向量的隐藏层维度。接着,将关键主题信息向量G_T',编码端隐藏层向量hi和解码端隐藏层 向量st通过线性变换,再经tanh激活函数得到相关度权重,归一化后得到注意力分 布/>
Figure SMS_39
如式(12)~(13)所示:
Att(hi,st,G_T')=vTtanh(Whhi+Wsst+Wg_tG_T'+battn) (12)
Figure SMS_40
其中,Att为加性注意力,通过单层前馈神经网络实现;Att(hi,st,G_T')表示对hi、st、G_T'进行加性注意力操作。Wh,Ws,Wg_t是可训练的参数矩阵,battn是偏置项。 hi是原文词wi的隐藏层向量表示,st为时间步t的隐藏层向量即解码端隐藏层向量, 关键主题信息向量G_T'。T为总的时间步。
用注意力分布
Figure SMS_41
与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量(Context Vector)Ct,如式(14)所示:
Figure SMS_42
其中,T为总的时间步,t表示时间步,
Figure SMS_43
为时间步t第i个词的注意力分布;/>
Figure SMS_44
表 示时间步t第i个词的隐藏层向量。/>
1.1.3 Coverage机制
为解决生成重复词的问题,本文引入了覆盖机制。定义覆盖向量ct,即所有注意力分布的总和,用于记录到当前时间步从注意力机制接收到的词的覆盖度,ct的计算 如式(21)所示:
Figure SMS_45
其中,
Figure SMS_46
为时间步t的注意力分布。
将ct作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力,改变公式(12),如式(22)所示:
Figure SMS_47
其中,Wh,Ws,Wc,Wg_t为可训练的参数矩阵,battn为偏置项。
Figure SMS_48
为时间步t第i个 词的未归一化的注意力打分函数,是计算注意力的一部分。/>
Figure SMS_49
为时间步t第i个词的覆 盖向量。
1.2解码端
对目标摘要词序列R=[r1,r2,…,rk],解码端用LSTM对其编码,计算词的隐藏层向量。其中rt表示在时间步t的摘要词,k表示总的时间步数。对任意rt∈R,其隐藏层 向量编码如式(15)~(16)所示:
Figure SMS_50
st=LSTM(st-1,yt-1,Ct) (16)
其中,ew为词嵌入表示,yt为在时间步t的摘要词rt的向量表示,
Figure SMS_51
m为 词嵌入维度,st为时间步t的隐藏层向量,/>
Figure SMS_52
n为隐藏层向量维度。Ct表示融 合了时间步t之前关键主题信息的上下文向量。
对给定序列,在预设词表上,每个词w输出的条件概率P(w)如式(17)~(18)所示:
Pvocab=softmax(V'(V[st;Ct]+b)+b') (17)
P(w)=Pvocab(w) (18)
其中,[;]表示向量拼接。Pvocab为预设词汇表中所有单词的概率分布,Pvocab(w)表示当前词w的概率分布,V’,V是可训练的参数矩阵,b和b’是偏置项。softmax表示 归一化指数函数。
1.2.1指针网络
传统的Seq2Seq模型无法解决未登录词的问题,因此提出了指针生成网络的方法,它在每一步预测中都寻找当前输入序列权重最大的元素,此时输出序列完全来 自于输入序列,因此可适应输入序列的长度变化,解决未登录词的问题。
本文用指针网络解决OOV词问题。在每个解码器时间步t,指针网络用上下文 向量Ct、解码端隐藏层向量st和解码端输入yt计算生成生成摘要词的概率pgen∈[0,1], 表示从预设词表生成单词的概率,辅助模型判断从词表中生成单词或从原文的输入序列中复制单词。pgen的计算如式(19)所示:
Pgen=σ(WctCt+Wstst+Wytyt+bptr) (19)
其中,Wct,Wst,Wyt是可训练的参数矩阵,bptr是偏置项,σ是sigmoid激活函数。
对于每一篇文档,pgen对词汇分布和注意力分布加权求和,得到一个扩展词表, 在该词表上生成词w的概率如式(20)所示:
Figure SMS_53
其中,Pvocab(w)是预设词表上生成词的概率。若生成的摘要词w是词表外的词, 则Pvocab(w)为零;若w未出现在原文档中,则
Figure SMS_54
为零。/>
Figure SMS_55
表示对时间步t第i个 词的之前的所有注意力进行求和。
1.3损失函数
在训练时,每个时间步t的损失为生成目标词wt的概率的负对数似然函数,如式(23)所示:
losst=-log P(wt) (23)
输入序列的整体损失如式(24)所示:
Figure SMS_56
其中,T′为解码所需要的总时间步。
此外,覆盖机制中计算额外的覆盖损失来惩罚关注过多的词,计算如式(25)所示:
Figure SMS_57
其中,
Figure SMS_58
Figure SMS_59
为时间步t第i个词的注意力分布。/>
Figure SMS_60
为时间步t第i个 词的覆盖向量
因此,在损失函数中加入由超参数λ加权的coverage loss,得到最终的损失函数bu’t如式(26)所示:
losst=-log P(wt)+λ∑icov losst (26)
2实验结果及分析
2.1数据集
本文实验分别在英文长文本数据集和中文短文本数据集上进行。英文数据集为CNN/Daily Mail(CNN/DM),包含美国有限新闻网(CNN)和每日邮报网(Daily Mail) 的287227条训练数据,其中11490条验证集数据。其基本情况统计如表1所示。训 练集中原文平均长度766,共29.74句,目标摘要平均长度53,共3.72句,摘要和 原文的长度比值为1/14.45。
表1 CNN/DM数据长度统计表
Figure SMS_61
中文数据集采用LCSTS(Large-scale Chinese Short Text Summarizationdataset), 它由Hu基于《中国日报》等权威认证用户在微博发布的内容创建,规模超过200万。数据集由三部分构成,如表2所示。Part Ⅰ为训练集,Part Ⅱ是从Part Ⅰ随机采样而来,增加了1~5档人工评分,1表示文档与摘要的相关度最低,5表示最高。Part Ⅲ 独立于前两部分,同样也有1~5档人工评分。为令对比实验公平,参照基线模型Hu 等在RNN模型上使用的LCSTS数据集格式,本文以Part Ⅰ为训练集,Part Ⅲ的3 分以上的数据为测试集进行实验。
表2 LCSTS数据统计信息
Figure SMS_62
2.2评价指标
本文以官方ROUGE-1.5.5,用ROUGE-N,ROUGE-L的F1值评价摘要效果。 ROUGE-N计算如式(27)所示:
Figure SMS_63
其中,n-gram表示n元词,{Ref}表示参考摘要,Countmatch(Nn-gram)表示生成摘要 和参考摘要中同时出现n-gram的个数,Count(Nn-gram)表示参考摘要中出现n-gram的 个数。S为生成的摘要。
ROUGE-L用于衡量生成摘要的可读性,其计算如式(28)~(30)所示:
Figure SMS_64
Figure SMS_65
Figure SMS_66
其中,LCS(X,Y)是X和Y的最长公共子序列的长度,mm、nn分别为参考摘要 和生成摘要的长度,即所含词数,Rlcs,Plcs分别表示召回率和精确率,χ为参数,一 般设为∞。由于ROUGE不能直接评测中文摘要,本文评价中文摘要时,先将中文 字符转成数字形式,再进行评测。
2.3实验参数设置
本文实验用PYTORCH深度学习框架,在显卡设备NVIDIA GeForce RTX 3090 TI 上进行。训练使用ADAGRAD优化器,设置学习率为0.15。对CNN/DM数据集, 按照See等的处理方式,采用数据的非匿名版本,用斯坦福大学的工具包Core NLP 对进行分词,设置原文档长度为400,对摘要长度,训练时设置为100,测试时设置 为120,预设词表大小设置为50k。对LCSTS数据集,先在文档中插入四种字符, 包括<PAD>补全字符,<UNK>作OOV词,<s>和</s>作为句子起止标识符,用JIEBA 分词工具,分别以(字粒度)和(词粒度)进行分词,字粒度下词表大小设置为40k, 词粒度下为50k。在覆盖机制中,设置coverage loss的权重为1,其余的超参数设置 如表3所示:
表3实验参数设置表
模型参数 参数取值
词嵌入维度 128
LSTM隐藏层维度 256
批处理大小 16
Beam search大小 4
2.4摘要生成结果及分析
本文实验选取8种基线模型进行对比,结果如表4~6所示,对比模型如下:
Lead-3:传统简单的抽取式摘要模型,抽取文章的前三句作为摘要。
RNN:以RNN为编解码器,将最后的隐藏层向量作为解码端的输入。
RNN context:以RNN为编解码器,使用编码端所有隐藏向量的加权和解码生成 摘要。
ABS:用RUSH等基于注意力机制的编—解码器结构生成摘要。
Copy Net:用混合机制获取记忆单元的信息,对文本的内容和位置编码,主要用于解决未登录词。
PGEN:为seq2seq+Attention结构,采用指针网络,允许从原文复制词或从预设 词表中生成新词。
PGEN+Cov:将指针网络与基于注意力机制的编—解码器结合,用coverge机制 缓解生成冗余词问题。
Key info guide model:将文档的关键信息,含人物、时间、地点等,以关键词或关键句形式,用多视图注意力的方式融合到生成模块中指导摘要生成。
表4各模型在CNN/DM数据集上的ROUGE值
模型 Rouge-1 Rouge-2 Rouge-L
Lead-3 35.10 14.51 34.38
ABS 31.33 11.81 28.83
PGEN 36.44 15.66 33.42
PGEN+Cov 39.53 17.28 36.38
Key-inf-guide 40.34 17.70 36.57
ACGT(Ours) 40.49 19.72 37.41
表5各模型在LCSTS数据集的ROUGE值(词粒度)
模型 Rouge-1 Rouge-2 Rouge-L
RNN 17.7 8.5 15.8
RNN context 26.8 16.1 24.1
Copy Net 35.0 22.3 32
PGEN 36.68 21.39 31.12
PGEN+Cov 37.16 24.67 33.96
ACGT(Ours) 38.35 25.70 34.81
表6各模型在LCSTS数据集的ROUGE值(字粒度)
模型 Rouge-1 Rouge-2 Rouge-L
RNN 21.5 8.9 18.6
RNN context 29.9 17.4 27.2
Copy Net 34.4 21.6 31.3
PGEN 36.57 22.14 31.46
PGEN+Cov 37.15 24.00 34.05
ACGT(Ours) 38.72 24.80 34.92
对比实验可见,本文的ACGT方法在CNN/DM和LCSTS数据集上取得了优于 基线的结果。对CNN/DM数据集,ACGT的ROUGE-1为40.49%、ROUGE-2为19.72%, ROUGE-L为37.41%,较PGEN+Cov模型分别提高了0.96%,2.44%,1.03%。在LCSTS 数据集上,ACGT(字粒度)的ROUGE-1、ROUGE-2和ROUGE-L分别为38.72%, 24.80%,34.92%,较PGEN+Cov提高1.57%,0.80%,0.87%;ACGT(词粒度)的 ROUGE-1、ROUGE-2和ROUGE-L分别为38.35%,25.70%,34.81%,较PGEN+Cov 提高了1.19%,1.03%,0.85%。实验表明,生成摘要的质量与引入的主题数显著相 关。案例研究表明,引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。
2.5消融实验
在消融实验中,本文首先比较了添加和不添加关键主题词时模型性能。由图4, 图5可见,当添加关键主题词时,模型的性能有所提升。此外,为了进一步说明在 ACGT中引入关键主题词对摘要的影响,分析了主题词的数量与摘要性能之间的相 关性,分别从CNN/DM数据集、LCSTS数据集的TOP1的主题下抽取词项数为1~10 的关键主题词,其中CNN/DM数据集的主题为43个,LCSTS数据集主题数为18个; ACGT生成摘要的ROUGE值如图4、图5所示。总体来看,在两个数据集上,随词 项数增长,ROUGE值略有提升。最终,对于CNN/DM数据集,本文实验选用的词 项数为9。对于LCSTS数据集,选用6个关键主题词。
3分析与讨论
3.1主题数对摘要的影响分析
为说明ACGT引入主题信息对生成摘要的影响,本文实验分析了主题数与摘要 质量的相关性。
对文档集进行LDA主题模型训练时,需要确定文档集的主题数。LDA模型的提 出者B lei用困惑度值为标准,认为低困惑度的概率分布模型或概率模型能更好地预 测原文。因此,对CNN/DM数据集,本文对每个主题取概率最大的前10个词项为特征,计算LDA模型在主题数在1~50间的困惑度值,结果如图6(a)所示,可见当 主题数为40~45时,模型平均困惑度值较低。以PGEN+Cov为基线方法,当主题数 为1~50时,ACGT生成摘要的ROUGE值如图6(b)~6(d)所示。其中,纵轴代表ACGT 与基线模型的ROUGE差值。可见,随LDA模型困惑度值下降,ACGT生成摘要的 ROUGE值与基线方法的差异显著增大。当主题数为43时,LDA的困惑度值最低, 此时ROUGE差值最大,ACGT生成摘要的性能达到最优。
对LCSTS数据集,同样选取各主题中概率最大的前10个词项为特征,计算LDA 模型在主题数在1~30间的困惑度值,结果如图7(a)所示,可见,当主题数为18~20 时,模型平均困惑度值最低,当主题数大于20时出现过拟合,困惑度趋于稳定。以 PGEN+Cov为基线方法,当主题数为1~20时,ACGT生成摘要的ROUGE值与基线 方法的对比如图7(b)~7(d)所示。可见,LDA模型的困惑度和摘要ROUGE差值同样 呈负相关。当主题数是18时,ROUGE差值最大,ACGT生成摘要的性能达到最优。
实验表明,ACGT方法生成摘要的性能随引入的主题数发生显著变化。当LDA 的困惑度值下降时,ACGT生成摘要的性能提升,表明LDA提取的主题信息对摘要 质量有积极影响,本文的ACGT将主题信息融入摘要生成是有效的。本文实验对 CNN/DM数据集采用的主题数为43,对LCSTS数据集采用的主题数为18。
3.2案例研究
为直观地观察本文方法生成摘要的效果,将ACGT生成的摘要与PGEN+Cov基 线模型摘要进行比较,结果如表7、表8所示,表中灰色的部分表示各文档中的主题 信息。
表7对CNN/DM数据集生成摘要的实例
Figure SMS_67
Figure SMS_68
表8对LCSTS数据集生成摘要的实例
Figure SMS_69
从表7,表8可见,PGEN+Cov生成的摘要易于偏离文本主题,ACGT生成的摘 要与标准摘要的主题更加贴近,且ACGT生成摘要中有相对完整的句子,其流畅性 优于PGEN+Cov方法。案例表明,ACGT以注意力机制融合文本的全局主题信息,令生成的摘要更有效地关注原文的主题,有利于提升摘要的质量。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在 不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本发明的范围由权利要求及其等同物限定。

Claims (2)

1.一种结合全局主题信息的摘要生成方法,其特征在于,包括以下步骤:
S1,抽取原文的关键主题信息;
S2,将关键主题信息与原文表示融合;
S2-1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得到关键主题信息向量G_T';
S2-2,将关键主题信息向量G_T',编码端隐藏层向量hi和解码端隐藏层向量st通过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化后得到注意力分布
Figure FDA0004195242300000011
如式(12)~(13)所示:
Figure FDA0004195242300000012
Figure FDA0004195242300000013
其中,Att(hi,st,G_T')表示对hi、st、G_T'进行加性注意力操作;
vTtanh(Whhi+Wsst+Wg_tG_T'+battn)表示对tanh(Whhi+Wsst+Wg_tG_T'+battn)进行转置变换;
hi是原文词wi的隐藏层向量表示;
wi表示第i个原文词;
st为解码端隐藏层向量;
G_T'为关键主题信息向量;
Wh,Ws,Wg_t是可训练的参数矩阵;
battn是偏置项;
soft max(·)为归一化指数函数;
S2-3,用注意力分布
Figure FDA0004195242300000014
与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量Ct,如式(14)所示:
Figure FDA0004195242300000021
其中,t表示时间步;
T为总的时间步;
Figure FDA0004195242300000022
为时间步t第i个词的注意力分布;
Figure FDA0004195242300000023
表示时间步t第i个词的隐藏层向量;
所述S2还包括:
将ct作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力:
Figure FDA0004195242300000024
Figure FDA0004195242300000025
其中,
Figure FDA0004195242300000026
为时间步t的注意力分布;/>
Figure FDA0004195242300000027
为时间步t第i个词的未归一化的注意力打分函数;
Wh,Ws,Wc,Wg_t为可训练的参数矩阵;
Figure FDA0004195242300000028
为时间步t第i个词的覆盖向量;
battn为偏置项;
S3,采用指针生成网络生成摘要:对目标摘要词序列R=[r1,r2,...,rk],用LSTM对其编码,计算词的隐藏层向量,其中rt表示在时间步t的摘要词,k表示总的时间步数;对任意rt∈R,其隐藏层向量编码如式(15)~(16)所示:
Figure FDA0004195242300000029
st=LSTM(st-1,yt-1,Ct) (16)
其中,ew(rt)为rt的词嵌入表示;
m为词嵌入维度;
yt为在时间步t的摘要词rt的向量表示;
st为时间步t的隐藏层向量;
Ct表示融合了时间步t之前关键主题信息的上下文向量;
对给定序列,在预设词表上,每个词w输出的条件概率P(w)如式(17)~(18)所示:
Pvocab=soft max(V'(V[st;Ct]+b)+b') (17)
P(w)=Pvocab(w) (18)
其中,Pvocab为预设词汇表中所有单词的概率分布;
soft max表示归一化指数函数;
[;]表示向量拼接;
Pvocab(w)表示当前词w的概率分布;
V’、V是可训练的参数矩阵;
b和b’是偏置项;
在每个解码器时间步t,指针网络用上下文向量Ct、解码端隐藏层向量st和解码端输入yt计算生成摘要词的概率pgen,计算如式(19)所示:
Pgen=σ(WctCt+Wstst+Wytyt+bptr) (19)
其中,Wct,Wst,Wyt是可训练的参数矩阵;
bptr是偏置项;
σ是sigmoid激活函数;
对于每一篇文档,pgen对词汇分布和注意力分布加权求和,得到一个扩展词表,在所述扩展词表上生成词w的概率如式(20)所示:
Figure FDA0004195242300000031
其中,Pvocab(w)是预设词表上生成词的概率;
Figure FDA0004195242300000032
表示对时间步t第i个词的之前的所有注意力进行求和;
还包括损失函数:
losst=-log P(wt)+λ∑icovlosst (26)
Figure FDA0004195242300000041
losst为时间步t的最终损失函数;
P(wt)为生成目标词wt的概率;
wt为时间步t的词;
λ为超参数;
covlosst为时间步t的覆盖损失;
Figure FDA0004195242300000042
为时间步t第i个词的注意力分布;
Figure FDA0004195242300000043
为时间步t第i个词的覆盖向量。
2.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包括以下步骤:
S1-1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布;选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成关键主题信息词集Top;
S1-2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
S1-3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:
X=fBERT(Top) (9)
Figure FDA0004195242300000044
其中,X={x11,x12,...,x1q,...,xpq}为经BERT编码后的关键主题词向量集;
fBERT为BERT的非线性方程;
p为前p个主题;
q为前p个主题下的前q个主题词;
Xi表示经BERT编码后的第i个关键主题词向量。
CN202211221342.7A 2022-10-08 2022-10-08 一种结合全局主题信息的摘要生成方法 Active CN115658882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211221342.7A CN115658882B (zh) 2022-10-08 2022-10-08 一种结合全局主题信息的摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211221342.7A CN115658882B (zh) 2022-10-08 2022-10-08 一种结合全局主题信息的摘要生成方法

Publications (2)

Publication Number Publication Date
CN115658882A CN115658882A (zh) 2023-01-31
CN115658882B true CN115658882B (zh) 2023-05-30

Family

ID=84985436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211221342.7A Active CN115658882B (zh) 2022-10-08 2022-10-08 一种结合全局主题信息的摘要生成方法

Country Status (1)

Country Link
CN (1) CN115658882B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN113901200A (zh) * 2021-09-28 2022-01-07 特赞(上海)信息科技有限公司 基于主题模型的文本摘要方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11914954B2 (en) * 2019-12-08 2024-02-27 Virginia Tech Intellectual Properties, Inc. Methods and systems for generating declarative statements given documents with questions and answers
EP3905142A1 (en) * 2020-04-30 2021-11-03 Naver Corporation Abstractive multi-document summarization through self-supervision and control
CN113360601A (zh) * 2021-06-10 2021-09-07 东北林业大学 一种融合主题的pgn-gan文本摘要模型

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN113901200A (zh) * 2021-09-28 2022-01-07 特赞(上海)信息科技有限公司 基于主题模型的文本摘要方法、装置及存储介质

Also Published As

Publication number Publication date
CN115658882A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110413768B (zh) 一种文章题目自动生成方法
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN113127631B (zh) 基于多头自注意力机制和指针网络的文本摘要方法
CN114580382A (zh) 文本纠错方法以及装置
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN110569505A (zh) 一种文本输入方法及装置
CN116011456B (zh) 基于提示学习的中文建筑规范文本实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
Jian et al. Lstm-based attentional embedding for English machine translation
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN115658882B (zh) 一种结合全局主题信息的摘要生成方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
Dilawari et al. Neural attention model for abstractive text summarization using linguistic feature space
Yao et al. Tessp: text-enhanced self-supervised speech pre-training
CN113822018B (zh) 实体关系联合抽取方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant