CN115658882B

CN115658882B - 一种结合全局主题信息的摘要生成方法

Info

Publication number: CN115658882B
Application number: CN202211221342.7A
Authority: CN
Inventors: 卢玲; 段志丽; 王景慧; 李东远
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-05-30
Anticipated expiration: 2042-10-08
Also published as: CN115658882A

Abstract

本发明提出了一种结合全局主题信息的摘要生成方法，包括以下步骤：S1，抽取原文的关键主题信息；S2，将关键主题信息与原文表示融合；S3，采用指针生成网络生成摘要。本发明能够从原文主题的角度生成更加符合原文的摘要，通过引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。

Description

一种结合全局主题信息的摘要生成方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种结合全局主题信息的摘要生成方法。

背景技术

自动文摘技术旨在用计算机对文本进行理解、分析，进而生成涵盖原文主旨，简洁精炼的摘要，它是自然语言处理(Natural Language Processing，NLP)领域被广泛关注的研究内容，也是自动问答、新闻标题生成等众多下游应用的基础任务。

现有自动文摘方法主要分抽取式和生成式两类。抽取式摘要通过抽取原文重要的文本单元组成摘要。生成式方法则以转述、同义替换、句子缩写等技术对原文进行重述，其中常包含超出原文的词或短语，生成摘要的流畅性、概括性较好，更接近人工摘要。近年来，结合深度神经网络的序列到序列(Sequence to Sequence，Seq2Seq) 摘要生成框架被广泛研究。同时，结合注意力机制的Seq2Seq摘要生成方法有针对性地解决因句子过长而导致的梯度消失问题，提升了摘要的性能。影响摘要生成质量的还有未登录词(out-of-vocabulary，OOV)、生成冗余词问题，为此，See等提出用指针生成网络(Pointer-generator network)从文档中复制词，并用Coverage机制缓解生成词冗余问题，提升了摘要性能。

总体来看，结合注意力机制的Seq2Seq框架为生成式摘要研究提供了基础。但现有方法将摘要生成视为从原文到摘要的翻译过程，因此多关注原文字符与摘要字符的相关性，注意力机制也建立在原文字符和摘要字符之间，较少从原文主题的角度研究摘要生成方法，由此生成的摘要很容易偏离原文主题，不能准确地表达原文的重点。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种结合全局主题信息的摘要生成方法。

为了实现本发明的上述目的，本发明提供了一种结合全局主题信息的摘要生成方法，包括以下步骤：

S1，抽取原文的关键主题信息；

S2，将关键主题信息与原文表示融合；

S3，采用指针生成网络生成摘要。

进一步地，所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的，包括以下步骤：

S1-1，由LDA模型得到文档集D的主题概率分布，以及各主题下的词概率分布；选择概率为TOP p的主题，在TOP p主题下分别选取概率为TOP q的词项，构成关键主题信息词集Top；

S1-2，以BERT预训练模型得到关键主题信息词集Top的嵌入表示；

S1-3，取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T，计算如式(9)～(10)所示：

X＝f_BERT(Top) (9)

其中，X＝{x₁₁,x₁₂,...,x_1q,...,x_pq}为经BERT编码后的关键主题词向量集；

f_BERT为BERT的非线性方程；

p为前p个主题；

q为前p个主题下的前q个主题词；

X_i表示经BERT编码后的第i个关键主题词向量。

X＝f_BERT(Top) (9)

f_BERT为BERT的非线性方程；

p为前p个主题；

q为前p个主题下的前q个主题词；

X_i表示经BERT编码后的第i个关键主题词向量。

进一步地，所述S2包括以下步骤：

S2-1，将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度，得到关键主题信息向量G_T'；

S2-2，将关键主题信息向量G_T'，编码端隐藏层向量h_i和解码端隐藏层向量s_t通过线性变换，再经tanh激活函数得到相关度权重，将相关度权重进行转置、归一化后得到注意力分布

如式(12)～(13)所示：

其中，Att(h_i,s_t,G_T')表示对h_i、s_t、G_T'进行加性注意力操作；

v^Ttanh(W_hh_i+W_ss_t+W_{g_t}G_T'+b_attn)表示对tanh(W_hh_i+W_ss_t+W_{g_t}G_T'+b_attn)进行转置变换；

h_i是原文词w_i的隐藏层向量表示；

w_i表示第i个原文词；

s_t为解码端隐藏层向量；

G_T'为关键主题信息向量；

W_h，W_s，W_{g_t}是可训练的参数矩阵；

b_attn是偏置项；

softmax(·)为归一化指数函数；

S2-3，用注意力分布

与原文各词的隐藏层向量加权求和，得到融合关键主题信息的上下文向量C_t，如式(14)所示：

其中，t表示时间步；

T为总的时间步；

为时间步t第i个词的注意力分布；

表示时间步t第i个词的隐藏层向量。

进一步地，所述S2还包括：

将c^t作为求解注意力分布时的额外输入，将当前时间步以前一定步长内的注意力权重考虑在内，计算当前时间步的注意力：

其中，

为时间步t的注意力分布；

为时间步t第i个词的未归一化的注意力打分函数；

W_h，W_s，W_c，W_{g_t}为可训练的参数矩阵；

为时间步t第i个词的覆盖向量；

b_attn为偏置项。

通过引入了覆盖机制对注意力机制进行约束，解决了生成重复词的问题。即通过公式(22)对公式(12)进行替换，之后还是求注意力分布

再用注意力分布/>

与原文各词的隐藏层向量加权求和，得到融合关键主题信息的上下文向量C_t。

进一步地，所述S3包括：

对目标摘要词序列R＝[r₁,r₂,…,r_k]，用LSTM对其编码，计算词的隐藏层向量，其中r_t表示在时间步t的摘要词，k表示总的时间步数；对任意r_t∈R，其隐藏层向量编码如式(15)～(16)所示：

s_t＝LSTM(s_t-1,y_t-1,C_t) (16)

其中，e^w(r_t)为r_t的词嵌入表示；

m为词嵌入维度；

y_t为在时间步t的摘要词r_t的向量表示；

s_t为时间步t的隐藏层向量；

C_t表示融合了时间步t之前关键主题信息的上下文向量；

对给定序列，在预设词表上，每个词w输出的条件概率P(w)如式(17)～(18)所示：

P_vocab＝softmax(V'(V[s_t；C_t]+b)+b') (17)

P(w)＝P_vocab(w) (18)

其中，P_vocab为预设词汇表中所有单词的概率分布；

softmax表示归一化指数函数；

[；]表示向量拼接；

P_vocab(w)表示当前词w的概率分布；

V’、V是可训练的参数矩阵；

b和b’是偏置项；

在每个解码器时间步t，指针网络用上下文向量C_t、解码端隐藏层向量s_t和解码端输入y_t计算生成摘要词的概率p_gen，计算如式(19)所示：

P_gen＝σ(W_ctC_t+W_sts_t+W_yty_t+b_ptr) (19)

其中，W_ct，W_st，W_yt是可训练的参数矩阵；

b_ptr是偏置项；

σ是sigmoid激活函数；

对于每一篇文档，p_gen对词汇分布和注意力分布加权求和，得到一个扩展词表，在所述扩展词表上生成词w的概率如式(20)所示：

其中，P_vocab(w)是预设词表上生成词的概率；

表示对时间步t第i个词的之前的所有注意力进行求和。

若生成的摘要词w是词表外的词，则P_vocab(w)为零；若w未出现在原文档中，则

为零。

根据生成词的概率P(w)，选择生成词中概率最高的词作为摘要词，摘要词依次生成得到摘要。

进一步地，还包括损失函数：

loss_t＝-log P(w_t)+λ∑_icov loss_t (26)

loss_t为时间步t的最终损失函数；

P(w_t)为生成目标词w_t的概率；

w_t为时间步t的词；

λ为超参数；

cov loss_t为时间步t的覆盖损失；

表示取/>

中更小的值；

为时间步t第i个词的注意力分布，是一个向量；

为时间步t第i个词的覆盖向量。

综上所述，由于采用了上述技术方案，本发明能够从原文主题的角度生成更加符合原文的摘要，通过引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明结合全局主题信息的摘要生成模型示意图。

图2是本发明LDA的概率模型图。

图3是本发明结合全局主题信息的注意力机制示意图。

图4是本发明数据集CNN/DM上主题词项数对摘要的影响示意图。

图5是本发明数据集LCSTS上主题词项数对摘要的影响示意图。

图6是本发明数据集CNN/DM上主题数目对摘要的影响示意图。

图7是本发明数据集LCSTS上主题数目对摘要的影响示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

一般人工摘要的思路为“阅读全文→关注局部→归纳中心思想→转述”，即先通读和理解全文，从文中定位与主题紧密相关的词句，再撰写覆盖原文主题的摘要，其中，“归纳中心思想”是关键但现有研究关注不足的环节。只有理解了人类撰写摘要的方式，才能辅助模型更好的生成摘要。而本文发明就是按照人工撰写摘要的方式去组织生成摘要的，具体内容如下。

1结合全局主题信息的摘要生成模型

本文提出的ACGT摘要生成模型如图1所示。图1中，分为编码端(encoder) 和解码端(decoder)，编码端主要包括全局主题信息抽取器(Global Topics Extractor)，结合全局主题信息的注意力模块(Global Topics combined Attention Module)两部分，最终编码端将蕴含全局主题信息的上下文向量输出到解码端。然后在解码端通过指针网络最终生成摘要，与此同时加入了覆盖机制，在生成摘要的同时解决OOV词和冗余词问题。其中，全局主题信息抽取器通过LDA模型，以nTmG方法抽取文档的关键主题信息，再通过注意力模块，将关键主题信息与原文词加权求和，更新上下文向量，以增强原文表示的语义。解码端接收上下文向量，利用P_gen构建新的词表，生成摘要词。同时引入覆盖向量，解决对原文同一词过度关注导致的重复生成问题。

1.1编码端

对原文词序列W＝[w₁,w₂,…,w_i,…w_n]，用Bi-LSTM进行编码。对任意w_i∈W，其编码如式(1)～(4)所示：

x_i＝e^w(w_i),w_i∈W (1)

其中，e^w(w_i)表示w_i的词嵌入表示，w_i表示原文第i个词语，x_i是原文词w_i的嵌入表示，

m为词嵌入维度，/>

为x_i的前向隐藏层向量，/>

为后向隐藏层向量，LSTM(x_i,h_i-1)表示将x_i、h_i-1输入到LSTM中去训练。/>

表示对/>

进行拼接，/>

是原文词w_i的隐藏层向量表示，n为隐藏层向量维度。

1.1.1基于LDA的全局主题信息抽取器

为提取文档的关键主题信息，本文构建了基于LDA的主题信息抽取器，用LDA 结合nTmG方法，提取原文的关键主题词，再通过信息融合单元，将关键主题信息重新编码得到全局主题向量，用于进行注意力的更新。所述nTmG方法即从原文概率分布最大的n个主题中选择TOP m个概率最大的词项。LDA生成文档的概率图模型如图2所示。

对输入文档集D＝{d₁,d₂,…d_i,…,d_s}，变量K表示D中隐含的主题数，d_i∈D是第i个文档，α表示D中隐含主题间的强弱关系，η为所有隐含主题的概率分布，α和η均服从狄利克雷分布。LDA生成文档时，按照先验概率选择文档，确定文档的特征词数，取样生成文档的主题分布，并选择文档中词的主题，再取样生成当前主题的词分布，最终采样生成词。根据LDA概率图模型，对文档d_i∈D，其第n个词W_d,n的生成概率如式(5)～(8)所示：

θ_d＝Dirichlet(α) (5)

Z_d,n＝multi(θ_d) (6)

β_k＝Dirichlet(η) (7)

其中，θ_d为文档d_i的主题分布，β_k为当前主题的词分布，θ_d和β_k分别从狄利克雷分布α，η中采样得到。Z_d,n为词W_d,n所属的主题，Z_d,n从θ_d的多项式分布中采样得到。P(W_d,n|θ_d,β_k)表示在θ_d,β_k条件下生成的W_d,n的生成概率。W_d,n表示文档d_i的第n个词。θ_d和β_k分别从狄利克雷分布α，η中采样得到，Dirichlet(·)表示狄利克雷分布模型，multi(·)为多项式函数。

本文用吉布斯采样算法训练LDA模型的主题分布θ和词分布β的参数。首先确定主题数K，并对语料库中每一个词随机地赋予主题编号Z；重新扫描语料库，对每个词用吉布斯采样公式更新其主题编号；重复前述采样步骤直至收敛。最后，统计语料库中词主题，得到文档的主题分布θ_d，统计各个主题词的分布，得到主题的词分布β_k。

由LDA模型得到文档集D的主题概率分布，和各主题下的词概率分布。对文档 d_i∈D，取其概率为TOP p的主题，在TOP p主题下分别选取概率为TOP q的词项，构成关键主题信息词集Top＝{t₁₁,t₁₂,...,t_1q,...,t_pq}，t_pq表示在TOP p主题下选取概率为TOP q的词项；再以BERT预训练模型得到Top的嵌入表示，最后取其均值向量作为文档的关键主题信息向量G_T，计算如式(9)～(10)所示：

X＝f_BERT(Top) (9)

其中，f_BERT为BERT的非线性方程，X＝{x₁₁,x₁₂,...,x_1q,...,x_pq}为经BERT编码后的关键主题词向量集。

b表示模型训练批次，l表示关键主题词数，d表示BERT最后一层隐藏层的维度。p为TOP p中的p，即前p个主题。q为TOP q中的q，即为前p个主题下的前q个主题词；X_i表示经BERT编码后的第i个关键主题词向量。

1.1.2结合全局主题信息的注意力模块

结合全局主题信息的注意力模块用于将关键主题信息与原文表示融合，以增强原文表示，其结构如图3所示。

传统注意力机制是对一定距离内的文档信息进行平均注意，没有重点关注某些重要信息。为此，本文用Bahdanau Attention进行结合关键主题信息的注意力计算，将编码端的隐藏层向量和关键主题向量共同作为注意力计算的输入。首先，将G_T经线性变换为与原文编码相同维度，得到关键主题信息向量G_T'，如式(11)所示：

G_T→G_T' (11)

其中，

b'表示模型训练批次，l'表示文档长度，d'表示词向量的隐藏层维度。接着，将关键主题信息向量G_T'，编码端隐藏层向量h_i和解码端隐藏层向量s_t通过线性变换，再经tanh激活函数得到相关度权重，归一化后得到注意力分布/>

如式(12)～(13)所示：

Att(h_i,s_t,G_T')＝v^Ttanh(W_hh_i+W_ss_t+W_{g_t}G_T'+b_attn) (12)

其中，Att为加性注意力，通过单层前馈神经网络实现；Att(h_i,s_t,G_T')表示对h_i、s_t、G_T'进行加性注意力操作。W_h，W_s，W_{g_t}是可训练的参数矩阵，b_attn是偏置项。 h_i是原文词w_i的隐藏层向量表示，s_t为时间步t的隐藏层向量即解码端隐藏层向量，关键主题信息向量G_T'。T为总的时间步。

用注意力分布

与原文各词的隐藏层向量加权求和，得到融合关键主题信息的上下文向量(Context Vector)C_t，如式(14)所示：

其中，T为总的时间步，t表示时间步，

为时间步t第i个词的注意力分布；/>

表示时间步t第i个词的隐藏层向量。/>

1.1.3 Coverage机制

为解决生成重复词的问题，本文引入了覆盖机制。定义覆盖向量c^t，即所有注意力分布的总和，用于记录到当前时间步从注意力机制接收到的词的覆盖度，c^t的计算如式(21)所示：

其中，

为时间步t的注意力分布。

将c^t作为求解注意力分布时的额外输入，将当前时间步以前一定步长内的注意力权重考虑在内，计算当前时间步的注意力，改变公式(12)，如式(22)所示：

其中，W_h，W_s，W_c，W_{g_t}为可训练的参数矩阵，b_attn为偏置项。

为时间步t第i个词的未归一化的注意力打分函数，是计算注意力的一部分。/>

为时间步t第i个词的覆盖向量。

1.2解码端

对目标摘要词序列R＝[r₁,r₂,…,r_k]，解码端用LSTM对其编码，计算词的隐藏层向量。其中r_t表示在时间步t的摘要词，k表示总的时间步数。对任意r_t∈R，其隐藏层向量编码如式(15)～(16)所示：

s_t＝LSTM(s_t-1,y_t-1,C_t) (16)

其中，e^w为词嵌入表示，y_t为在时间步t的摘要词r_t的向量表示，

m为词嵌入维度，s_t为时间步t的隐藏层向量，/>

n为隐藏层向量维度。C_t表示融合了时间步t之前关键主题信息的上下文向量。

P_vocab＝softmax(V'(V[s_t；C_t]+b)+b') (17)

P(w)＝P_vocab(w) (18)

其中，[；]表示向量拼接。P_vocab为预设词汇表中所有单词的概率分布，P_vocab(w)表示当前词w的概率分布，V’，V是可训练的参数矩阵，b和b’是偏置项。softmax表示归一化指数函数。

1.2.1指针网络

传统的Seq2Seq模型无法解决未登录词的问题，因此提出了指针生成网络的方法，它在每一步预测中都寻找当前输入序列权重最大的元素，此时输出序列完全来自于输入序列，因此可适应输入序列的长度变化，解决未登录词的问题。

本文用指针网络解决OOV词问题。在每个解码器时间步t，指针网络用上下文向量C_t、解码端隐藏层向量s_t和解码端输入y_t计算生成生成摘要词的概率p_gen∈[0,1]，表示从预设词表生成单词的概率，辅助模型判断从词表中生成单词或从原文的输入序列中复制单词。p_gen的计算如式(19)所示：

P_gen＝σ(W_ctC_t+W_sts_t+W_yty_t+b_ptr) (19)

其中，W_ct，W_st，W_yt是可训练的参数矩阵，b_ptr是偏置项，σ是sigmoid激活函数。

对于每一篇文档，p_gen对词汇分布和注意力分布加权求和，得到一个扩展词表，在该词表上生成词w的概率如式(20)所示：

其中，P_vocab(w)是预设词表上生成词的概率。若生成的摘要词w是词表外的词，则P_vocab(w)为零；若w未出现在原文档中，则

为零。/>

表示对时间步t第i个词的之前的所有注意力进行求和。

1.3损失函数

在训练时，每个时间步t的损失为生成目标词w_t的概率的负对数似然函数，如式(23)所示：

loss_t＝-log P(w_t) (23)

输入序列的整体损失如式(24)所示：

其中，T′为解码所需要的总时间步。

此外，覆盖机制中计算额外的覆盖损失来惩罚关注过多的词，计算如式(25)所示：

其中，

为时间步t第i个词的注意力分布。/>

为时间步t第i个词的覆盖向量

因此，在损失函数中加入由超参数λ加权的coverage loss，得到最终的损失函数bu’t如式(26)所示：

loss_t＝-log P(w_t)+λ∑_icov loss_t (26)

2实验结果及分析

2.1数据集

本文实验分别在英文长文本数据集和中文短文本数据集上进行。英文数据集为CNN/Daily Mail(CNN/DM)，包含美国有限新闻网(CNN)和每日邮报网(Daily Mail) 的287227条训练数据，其中11490条验证集数据。其基本情况统计如表1所示。训练集中原文平均长度766，共29.74句，目标摘要平均长度53，共3.72句，摘要和原文的长度比值为1/14.45。

表1 CNN/DM数据长度统计表

中文数据集采用LCSTS(Large-scale Chinese Short Text Summarizationdataset)，它由Hu基于《中国日报》等权威认证用户在微博发布的内容创建，规模超过200万。数据集由三部分构成，如表2所示。Part Ⅰ为训练集，Part Ⅱ是从Part Ⅰ随机采样而来，增加了1～5档人工评分，1表示文档与摘要的相关度最低，5表示最高。Part Ⅲ 独立于前两部分，同样也有1～5档人工评分。为令对比实验公平，参照基线模型Hu 等在RNN模型上使用的LCSTS数据集格式，本文以Part Ⅰ为训练集，Part Ⅲ的3 分以上的数据为测试集进行实验。

表2 LCSTS数据统计信息

2.2评价指标

本文以官方ROUGE-1.5.5，用ROUGE-N，ROUGE-L的F1值评价摘要效果。 ROUGE-N计算如式(27)所示：

其中，n-gram表示n元词，{Ref}表示参考摘要，Count_match(N_n-gram)表示生成摘要和参考摘要中同时出现n-gram的个数，Count(N_n-gram)表示参考摘要中出现n-gram的个数。S为生成的摘要。

ROUGE-L用于衡量生成摘要的可读性，其计算如式(28)～(30)所示：

其中，LCS(X,Y)是X和Y的最长公共子序列的长度，mm、nn分别为参考摘要和生成摘要的长度，即所含词数，R_lcs，P_lcs分别表示召回率和精确率，χ为参数，一般设为∞。由于ROUGE不能直接评测中文摘要，本文评价中文摘要时，先将中文字符转成数字形式，再进行评测。

2.3实验参数设置

本文实验用PYTORCH深度学习框架，在显卡设备NVIDIA GeForce RTX 3090 TI 上进行。训练使用ADAGRAD优化器，设置学习率为0.15。对CNN/DM数据集，按照See等的处理方式，采用数据的非匿名版本，用斯坦福大学的工具包Core NLP 对进行分词，设置原文档长度为400，对摘要长度，训练时设置为100，测试时设置为120，预设词表大小设置为50k。对LCSTS数据集，先在文档中插入四种字符，包括<PAD>补全字符，<UNK>作OOV词，<s>和</s>作为句子起止标识符，用JIEBA 分词工具，分别以(字粒度)和(词粒度)进行分词，字粒度下词表大小设置为40k，词粒度下为50k。在覆盖机制中，设置coverage loss的权重为1，其余的超参数设置如表3所示：

表3实验参数设置表

模型参数	参数取值
		词嵌入维度	128
LSTM隐藏层维度	256
		批处理大小	16
Beam search大小	4

2.4摘要生成结果及分析

本文实验选取8种基线模型进行对比，结果如表4～6所示，对比模型如下：

Lead-3：传统简单的抽取式摘要模型，抽取文章的前三句作为摘要。

RNN：以RNN为编解码器，将最后的隐藏层向量作为解码端的输入。

RNN context：以RNN为编解码器，使用编码端所有隐藏向量的加权和解码生成摘要。

ABS：用RUSH等基于注意力机制的编—解码器结构生成摘要。

Copy Net：用混合机制获取记忆单元的信息，对文本的内容和位置编码，主要用于解决未登录词。

PGEN：为seq2seq+Attention结构，采用指针网络，允许从原文复制词或从预设词表中生成新词。

PGEN+Cov：将指针网络与基于注意力机制的编—解码器结合，用coverge机制缓解生成冗余词问题。

Key info guide model：将文档的关键信息，含人物、时间、地点等，以关键词或关键句形式，用多视图注意力的方式融合到生成模块中指导摘要生成。

表4各模型在CNN/DM数据集上的ROUGE值

模型	Rouge-1	Rouge-2	Rouge-L
				Lead-3	35.10	14.51	34.38
ABS	31.33	11.81	28.83
				PGEN	36.44	15.66	33.42
PGEN+Cov	39.53	17.28	36.38
				Key-inf-guide	40.34	17.70	36.57
ACGT(Ours)	40.49	19.72	37.41

表5各模型在LCSTS数据集的ROUGE值(词粒度)

模型	Rouge-1	Rouge-2	Rouge-L
				RNN	17.7	8.5	15.8
RNN context	26.8	16.1	24.1
				Copy Net	35.0	22.3	32
PGEN	36.68	21.39	31.12
				PGEN+Cov	37.16	24.67	33.96
ACGT(Ours)	38.35	25.70	34.81

表6各模型在LCSTS数据集的ROUGE值(字粒度)

模型	Rouge-1	Rouge-2	Rouge-L
				RNN	21.5	8.9	18.6
RNN context	29.9	17.4	27.2
				Copy Net	34.4	21.6	31.3
PGEN	36.57	22.14	31.46
				PGEN+Cov	37.15	24.00	34.05
ACGT(Ours)	38.72	24.80	34.92

对比实验可见，本文的ACGT方法在CNN/DM和LCSTS数据集上取得了优于基线的结果。对CNN/DM数据集，ACGT的ROUGE-1为40.49％、ROUGE-2为19.72％， ROUGE-L为37.41％，较PGEN+Cov模型分别提高了0.96％，2.44％，1.03％。在LCSTS 数据集上，ACGT(字粒度)的ROUGE-1、ROUGE-2和ROUGE-L分别为38.72％， 24.80％，34.92％，较PGEN+Cov提高1.57％，0.80％，0.87％；ACGT(词粒度)的 ROUGE-1、ROUGE-2和ROUGE-L分别为38.35％，25.70％，34.81％，较PGEN+Cov 提高了1.19％，1.03％，0.85％。实验表明，生成摘要的质量与引入的主题数显著相关。案例研究表明，引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。

2.5消融实验

在消融实验中，本文首先比较了添加和不添加关键主题词时模型性能。由图4，图5可见，当添加关键主题词时，模型的性能有所提升。此外，为了进一步说明在 ACGT中引入关键主题词对摘要的影响，分析了主题词的数量与摘要性能之间的相关性，分别从CNN/DM数据集、LCSTS数据集的TOP1的主题下抽取词项数为1～10 的关键主题词，其中CNN/DM数据集的主题为43个，LCSTS数据集主题数为18个； ACGT生成摘要的ROUGE值如图4、图5所示。总体来看，在两个数据集上，随词项数增长，ROUGE值略有提升。最终，对于CNN/DM数据集，本文实验选用的词项数为9。对于LCSTS数据集，选用6个关键主题词。

3分析与讨论

3.1主题数对摘要的影响分析

为说明ACGT引入主题信息对生成摘要的影响，本文实验分析了主题数与摘要质量的相关性。

对文档集进行LDA主题模型训练时，需要确定文档集的主题数。LDA模型的提出者B lei用困惑度值为标准，认为低困惑度的概率分布模型或概率模型能更好地预测原文。因此，对CNN/DM数据集，本文对每个主题取概率最大的前10个词项为特征，计算LDA模型在主题数在1～50间的困惑度值，结果如图6(a)所示，可见当主题数为40～45时，模型平均困惑度值较低。以PGEN+Cov为基线方法，当主题数为1～50时，ACGT生成摘要的ROUGE值如图6(b)～6(d)所示。其中，纵轴代表ACGT 与基线模型的ROUGE差值。可见，随LDA模型困惑度值下降，ACGT生成摘要的 ROUGE值与基线方法的差异显著增大。当主题数为43时，LDA的困惑度值最低，此时ROUGE差值最大，ACGT生成摘要的性能达到最优。

对LCSTS数据集，同样选取各主题中概率最大的前10个词项为特征，计算LDA 模型在主题数在1～30间的困惑度值，结果如图7(a)所示，可见，当主题数为18～20 时，模型平均困惑度值最低，当主题数大于20时出现过拟合，困惑度趋于稳定。以 PGEN+Cov为基线方法，当主题数为1～20时，ACGT生成摘要的ROUGE值与基线方法的对比如图7(b)～7(d)所示。可见，LDA模型的困惑度和摘要ROUGE差值同样呈负相关。当主题数是18时，ROUGE差值最大，ACGT生成摘要的性能达到最优。

实验表明，ACGT方法生成摘要的性能随引入的主题数发生显著变化。当LDA 的困惑度值下降时，ACGT生成摘要的性能提升，表明LDA提取的主题信息对摘要质量有积极影响，本文的ACGT将主题信息融入摘要生成是有效的。本文实验对 CNN/DM数据集采用的主题数为43，对LCSTS数据集采用的主题数为18。

3.2案例研究

为直观地观察本文方法生成摘要的效果，将ACGT生成的摘要与PGEN+Cov基线模型摘要进行比较，结果如表7、表8所示，表中灰色的部分表示各文档中的主题信息。

表7对CNN/DM数据集生成摘要的实例

表8对LCSTS数据集生成摘要的实例

从表7，表8可见，PGEN+Cov生成的摘要易于偏离文本主题，ACGT生成的摘要与标准摘要的主题更加贴近，且ACGT生成摘要中有相对完整的句子，其流畅性优于PGEN+Cov方法。案例表明，ACGT以注意力机制融合文本的全局主题信息，令生成的摘要更有效地关注原文的主题，有利于提升摘要的质量。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。