CN111753523B

CN111753523B - 基于注意力分布已知的抽象式神经网络生成摘要的方法

Info

Publication number: CN111753523B
Application number: CN202010610681.9A
Authority: CN
Inventors: 马晔; 宗璐
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-11-03
Anticipated expiration: 2040-06-29
Also published as: CN111753523A

Abstract

本发明提供一种基于注意力分布已知的抽象式神经网络生成摘要的方法，所述方法包括如下步骤：步骤S1，将源文本输入摘要模型，利用beam search生成多个候选摘要及相应的注意力分布，并经过摘要模型的编码后得到句向量；步骤S2，将所述句向量输入到预先训练好的注意力分布预测模型中，得到预测出的最优注意力分布；步骤S3，根据每个候选摘要的注意力分布与最优注意力分布的距离，计算各个候选摘要的注意力得分；步骤S4，根据每个摘要序列的条件概率以及注意力得分，计算各个候选摘要的最终得分；步骤S5，选择最终得分最高的候选摘要作为最终摘要。本发明得到的最终摘要更贴近源文本。

Description

基于注意力分布已知的抽象式神经网络生成摘要的方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于注意力分布已知的抽象式神经网络生成摘要的方法。

背景技术

Beam search算法是目前最常用的抽象式神经网络摘要的生成算法，其以最大化序列出现概率为前提逐字生成摘要，但是该算法存在着一些问题，比如说为了追求概率最大化，常常会生成常见的短语，反而忽略了源文本中的特有信息。

发明内容

鉴于目前现有技术的不足，本发明的目的在于提供一种基于注意力分布已知的抽象式神经网络生成摘要的方法，生成的摘要更贴近源文本。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于注意力分布已知的抽象式神经网络生成摘要的方法，所述方法包括如下步骤：

步骤S1，将源文本输入摘要模型，利用beam search生成多个候选摘要及相应的注意力分布，并经过摘要模型的编码后得到句向量；

步骤S2，将所述句向量输入到预先训练好的注意力分布预测模型中，得到预测出的最优注意力分布；

步骤S3，根据每个候选摘要的注意力分布与最优注意力分布的距离，计算各个候选摘要的注意力得分；

步骤S4，根据每个摘要序列的条件概率以及注意力得分，计算各个候选摘要的最终得分；

步骤S5，选择最终得分最高的候选摘要作为最终摘要。

进一步，其中所述步骤S3中，计算各个候选摘要的注意力得分是按照如下公式：

其中，attAw(Y)为注意力得分，α_t,p为第t个单词对第p个句子的注意力权重，Y为生成的序列，|Y|为生成的序列的长度，为真实生成摘要的注意力分布，ψ_p(X)为预测出的最优的注意力分布，如果某个候选摘要对一些句子赋予过低的注意力比重，那么注意力得分就会下降，如果某些句子被分配的注意力比重过高，虽其本身的分数不变，但会降低其他句子的注意力比重，从而导致分数下降。

进一步，其中所述步骤S4中，计算各个候选摘要的最终得分是按照如下公式：

其中，Score为最终得分，p(Y|X)为每个摘要序列Y的条件概率，β为比例系数，用来均衡条件概念和注意力得分，最终得分是等于去除摘要长度影响的条件概率加上一定比例的注意力得分。

进一步，其中所述步骤S2中，所述注意力分布预测模型为句向量与注意力分布之间的依存关系，所述注意力分布预测模型的训练学习过程为：将句向量的集合输入一个Transformer编码器后得到包含上下文信息的句向量集合，每个句向量再经过一个单神经元的全连接层得到对应的注意力权重，这些注意力权重经过softmax归一化后就可以得到注意力分布，将之前训练摘要模型得到的注意力分布作为最优的注意力分布，训练所述注意力分布预测模型来最小化其输出的注意力分布与最优的流产力分布之间的均方差。

进一步，其中所述句向量的集合是将源文本以句子的形式分开然后将它们输入到一个摘要模型而得到，同时还得到各个预测单词对各个句子分配的注意力。

进一步，其中所述注意力权重经过softmax归一化后就可以得到注意力分布的计算过程如下：

其中，α_p为第p个句子被分配的总注意力权重，α_t,p为第t个单词对第p个句子的注意力权重，将所有的单词对第p个句子的注意力权重相加后归一化得到第p个句子被分配的总注意力权重，这些权重组成了注意力分布。

本发明一种基于注意力分布已知的抽象式神经网络生成摘要的方法，包括如下步骤：步骤S1，将源文本输入摘要模型，利用beam search生成多个候选摘要及相应的注意力分布，并经过摘要模型的编码后得到句向量；步骤S2，将所述句向量输入到预先训练好的注意力分布预测模型中，得到预测出的最优注意力分布；步骤S3，根据每个候选摘要的注意力分布与最优注意力分布的距离，计算各个候选摘要的注意力得分；步骤S4，根据每个摘要序列的条件概率以及注意力得分，计算各个候选摘要的最终得分；步骤S5，选择最终得分最高的候选摘要作为最终摘要。所以，得到的最终摘要更贴近源文本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施方式一种基于注意力分布已知的抽象式神经网络生成摘要的方法的流程示意图；

图2为本发明一实施方式一种基于注意力分布已知的抽象式神经网络生成摘要的方法中注意力分布预测模型的训练学习流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请首先参见图1所示，本发明一实施方式一种基于注意力分布已知的抽象式神经网络生成摘要的方法，所述方法包括如下步骤：

步骤S5，选择最终得分最高的候选摘要作为最终摘要。

其中，所述步骤S3中，计算各个候选摘要的注意力得分是按照如下公式：

其中，attAw(Y)为注意力得分，α_t,p为第t个单词对第p个句子的注意力权重，Y为生成的序列，|Y|为生成的序列的长度，为真实生成摘要的注意力分布，ψ_p(X)为预测出的最优的注意力分布。如果某个候选摘要对一些句子赋予过低的注意力比重，那么注意力得分就会下降，如果某些句子被分配的注意力比重过高，虽其本身的分数不变，但会降低其他句子的注意力比重，从而导致分数下降。总的来说，如果某个候选摘要的注意力分布与预测出的最优注意力分布越接近，那么它的注意力得分就越高。

所述步骤S4中，计算各个候选摘要的最终得分是按照如下公式：

其中，Score为最终得分，p(Y|X)为每个摘要序列Y的条件概率，β为比例系数，用来均衡条件概念和注意力得分。最终得分是等于去除摘要长度影响的条件概率加上一定比例的注意力得分。

所述步骤S2中，所述注意力分布预测模型为句向量与注意力分布之间的依存关系，请参见图2所示，所述注意力分布预测模型的训练学习过程为：将句向量的集合输入一个Transformer编码器后得到包含上下文信息的句向量集合，每个句向量再经过一个单神经元的全连接层得到对应的注意力权重，这些注意力权重经过softmax归一化后就可以得到注意力分布，将之前训练摘要模型得到的注意力分布作为最优的注意力分布，训练所述注意力分布预测模型来最小化其输出的注意力分布与最优的注意力分布之间的均方差。

其中，所述句向量的集合是将源文本以句子的形式分开然后将它们输入到一个摘要模型而得到，同时还得到各个预测单词对各个句子分配的注意力。

所述注意力权重经过softmax归一化后就可以得到注意力分布的计算过程如下：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于注意力分布已知的抽象式神经网络生成摘要的方法，其特征在于，所述方法包括如下步骤：

步骤S2，将所述句向量输入到预先训练好的注意力分布预测模型中，得到预测出的最优注意力分布；所述注意力分布预测模型的训练学习过程为：将句向量的集合输入一个Transformer编码器后得到包含上下文信息的句向量集合，每个句向量再经过一个单神经元的全连接层得到对应的注意力权重，这些注意力权重经过softmax归一化后就可以得到注意力分布，将之前训练摘要模型得到的注意力分布作为最优的注意力分布，训练所述注意力分布预测模型来最小化其输出的注意力分布与最优的流产力分布之间的均方差；

步骤S5，选择最终得分最高的候选摘要作为最终摘要。

2.根据权利要求1所述的方法，其特征在于，其中所述步骤S3中，计算各个候选摘要的注意力得分是按照如下公式：

其中，attAw(Y)为注意力得分，α_t，p为第t个单词对第p个句子的注意力权重，Y为生成的序列，|Y|为生成的序列的长度，为真实生成摘要的注意力分布，ψ_p(X)为预测出的最优的注意力分布，如果某个候选摘要对一些句子赋予过低的注意力比重，那么注意力得分就会下降，如果某些句子被分配的注意力比重过高，虽其本身的分数不变，但会降低其他句子的注意力比重，从而导致分数下降。

3.根据权利要求2所述的方法，其特征在于，其中所述步骤S4中，计算各个候选摘要的最终得分是按照如下公式：

4.根据权利要求1所述的方法，其特征在于，其中所述步骤S2中，所述注意力分布预测模型为句向量与注意力分布之间的依存关系。

5.根据权利要求4所述的方法，其特征在于，其中所述句向量的集合是将源文本以句子的形式分开然后将它们输入到一个摘要模型而得到，同时还得到各个预测单词对各个句子分配的注意力。

6.根据权利要求5所述的方法，其特征在于，其中所述注意力权重经过softmax归一化后就可以得到注意力分布的计算过程如下：

其中，α_p为第p个句子被分配的总注意力权重，α_t，p为第t个单词对第p个句子的注意力权重，将所有的单词对第p个句子的注意力权重相加后归一化得到第p个句子被分配的总注意力权重，这些权重组成了注意力分布。