CN113378546A

CN113378546A - 一种非自回归的句子排序方法

Info

Publication number: CN113378546A
Application number: CN202110648939.9A
Authority: CN
Inventors: 杨阳; 史文浩; 宾燚; 丁玉娟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-10
Anticipated expiration: 2041-06-10
Also published as: CN113378546B

Abstract

为了实现并行预测提高预测效率，解决误差累积提高句子排序任务的性能，考虑到句子排序任务中生成目标的长度具有确定性，并且句子和位置具有完全匹配性，本发明创新性地设计了一种非自回归的句子排序方法，采用非自回归解码器，充分利用了Transformer变体结构所得到的上下文句子特征，从而并行地预测每个位置的句子，能够有效避免循环神经网络解码器递归地预测句子顺序所带来的效率低下与误差累积的难题。

Description

一种非自回归的句子排序方法

技术领域

本发明属于句子排序技术领域，更为具体地讲，涉及一种非自回归的句子排序方法。

背景技术

句子排序是建模文档连贯性的基本任务和常见任务之一，其目标是将一组句子重新组织为一段连贯的文本。

现有的句子排序方法，通常采用编码器-解码器体系结构，利用指针网络进行序列预测。由于输入段落中的句子是无序的，循环神经网络的编码方式将所有句子表征映射为段落的特征向量，这样的方式会捕获句子之间的错误语义逻辑，从而误导解码器预测出不连贯的段落，显然同一段落的不同排列方式可能会得到不同的段落表示特征，并导致输出不同的句子顺序。

启发于自注意力机制，现有的句子排序方法采用去除位置编码的Transformer变体结构来提取更可靠的段落表征，以消除句子输入顺序带来的影响。当前主流的句子排序方法是一种自回归的注意力句子排序方法，利用Bi-LSTM来提取基本的句子特征向量，并基于自注意力机制学习段落中的句子特征，平均池化后获得段落特征来初始化循环神经网络解码器的隐层状态，通过指针网络，采用贪心搜索或集束搜索递归地预测有序句子。

尽管自回归的注意力句子排序方法能有效解决句子输入顺序问题而获得可靠的段落特征，并进一步提升句子排序任务的性能。然而，其有两个不足，(1)现有的句子排序方法采用指针网络来递归地逐步预测每个句子的顺序，这种自回归的方式效率较低，算法复杂度高，无法并行实现预测，需要更多的开销。(2)现有的方法采用了循环神经网络解码器，循环神经网络的循环性会导致排序解码器在序列预测的过程中产生误差累积，会限制句子排序任务的性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种非自回归的句子排序方法，以有效实现并行预测，提高预测效率，同时，解决误差积累问题，提高句子排序任务的性能。

为实现上述发明目的，本发明非自回归的句子排序方法，其特征在于，包括以下步骤：

(1)、构建句子排序网络

构建基本句子编码器、上下文句子编码器以及非自回归解码器，并组成句子排序网络，其中，非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成；

(2)、获得基本句子特征

基本句子编码器将N条句子的离散词映射成分布式表示，获得N个维度为d_k的基本句子特征，第j条句子的基本句子特征表示为

(3)、获取上下文句子特征

将基本句子特征

拼接为

其中，

表示N行、d_k列的实数矩阵，令

并送入上下文句子编码器；

所述的上下文句子编码器由M个注意力块构成，每个注意力块包括一个多头注意力模块以及一个前馈全连接层；

在上下文句子编码器的第一个注意力块中，首先，通过多头注意力模块得到多头注意力：

MH(Q,K,V)＝[H₁,H₂,…,H_G]W^E

其中，[·,·]表示多个注意力头的拼接，

为训练参数，为d_k行、d_k列的实数矩阵，第g个注意力头的计算如下：

其中，

为第g个注意力头的训练参数，d_a＝d_k/G；

然后，由前馈全连接层对多头注意力MH(Q,K,V)进行全连接操作，得到上下文句子特征

将第一个注意力块中得到的上下文句子特征

进行拼接，然后作为

送入第二个注意力块中进行与第一个注意力块中相同的处理，这样，依次在M个注意力块进行处理，最后输出的上下文句子特征

并作为上下文句子编码器输出上下文句子特征

并表示为上下文句子特征集合

(4)、句子排序

4.1)、将离散位置投影嵌入为紧凑表示p_i，每一维为：

j为偶数

j为奇数

其中，i表示位置的编号，p_i,j紧凑表示p_i中的第j维，得到N个位置的嵌入表示p₁,p₂,…,p_N；

4.2)、将p₁,p₂,…,p_N拼接为

送入非自回归解码器中的多头自注意机制中，采用步骤(3)的方式进行处理，利用多头自注意力机制获取位置之间的交互作用和相对信息：

其中[·,·]表示多个注意力头的拼接，

为训练参数，

为这里第g个头的训练参数，设置d_a＝d_k/G；

4.3)、在多头互注意力机制中，使用位置查询上下文句子特征得到句子关于位置的注意力特征集合E^p：

其中，注意力特征集合E^p表示为

为位置i的注意力特征；

4.4)、在指针网络中，计算N个句子在位置i的概率分布Ptr_i：

Ptr_i＝softmax(ω_i)

其中，W_P、W_b为训练的网络参数，u是列权重向量，

为句子j的基本句子特征，ω_ij表示句子j与位置i之间的注意力值，

表示所有句子对位置i的注意力；

4.5)、在概率分布Ptr_i中，最大一维对应维度句子序号，将对应句子放大位置i，这样完成句子的排序。

本发明的目的是这样实现的。

附图说明

图1是本发明非自回归的句子排序方法一种具体实施方式流程图；

图2是本发明非自回归的句子排序方法一种具体实施方式原理示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

现有的句子排序方法编码时利用Bi-LSTM提取基本的句子特征向量，并利用自注意力机制提取段落中结合上下文的句子特征，然后通过平均池化操作得到段落特征，特别注意，这里采用了去除位置编码的Transformer变体结构。解码时采用指针网络架构作为解码器，该解码器由LSTM单元组成，基本的句子特征向量作为解码器的输入，第一步的输入向量是零向量，段落特征作为隐层初始状态。其解码是基于循环神经网络的自回归的方式，效率较低，无法实现并行预测，并且在序列预测过程中产生误差累积。

图1是本发明非自回归的句子排序方法一种具体实施方式流程图。

在本实施例中，如图1所示，本发明非自回归的句子排序方法，其特征在于，包括以下步骤：

步骤S1：构建句子排序网络

如图2所示，构建基本句子编码器、上下文句子编码器以及非自回归解码器，并组成句子排序网络，其中，非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成。

步骤S2：获得基本句子特征

在本实施例中，采用BERT预训练模型作为基本句子编码器来获取基本的句子特征集合

特别地，将[CLS]和单词序列连接作为基本句子编码器的输入，并采用端到端的方式对其进行微调，使得句子表征与句子排序任务更加兼容。

步骤S3：获取上下文句子特征

为了恢复连贯的顺序，重要的是利用句子之间的语义关系，在获得基本句子特征之后，本发明采用去除位置编码的Transformer变体结构，其使用了缩放点积的自注意力机制以利用上下文信息。

将基本句子特征

拼接为

其中，

表示N行、d_k列的实数矩阵，令

并送入上下文句子编码器。

MH(Q,K,V)＝[H₁,H₂,…,H_G]W^E (2)

其中，[·,·]表示多个注意力头的拼接，

其中，

为第g个注意力头的训练参数，d_a＝d_k/G；

将第一个注意力块中得到的上下文句子特征

进行拼接，然后作为

并作为上下文句子编码器输出上下文句子特征

并表示为上下文句子特征集合

步骤S4：句子排序

编码完成后，本发明设计了一种创新性的非自回归解码器，因为句子排序任务可以解释为将无序句子匹配到正确的位置，所以采用位置信息作为非自回归解码器的输入，并行地预测每个位置的正确句子。

步骤S4.1：将离散位置投影嵌入为紧凑表示p_i，每一维为：

j为偶数 (4)

j为奇数 (5)

其中，i表示位置的编号，p_i,j紧凑表示p_i中的第j维，得到N个位置的嵌入表示p₁,p₂,…,p_N。

步骤S4.2：将p₁,p₂,…,p_N拼接为

其中[·,·]表示多个注意力头的拼接，

为训练参数，

为这里第g个头的训练参数，设置d_a＝d_k/G。

步骤S4.3：与现有的自回归方法需要初始化解码器隐层状态不同，该非自回归方法将所有上下文句子特征注入到解码器以获取位置与无序句子的相关性，进一步实现位置与句子之间的多头注意。即在多头互注意力机制中，使用位置查询上下文句子特征得到句子关于位置的注意力特征集合E^p：

其中，注意力特征集合E^p表示为

为位置i的注意力特征。

步骤S4.4：在指针网络中，计算N个句子在位置i的概率分布Ptr_i：

Ptr_i＝softmax(ω_i) (9)

其中，W_P、W_b为训练的网络参数，u是列权重向量，

表示所有句子对位置i的注意力。

步骤S4.5：在概率分布Ptr_i中，最大一维对应维度句子序号，将对应句子放大位置i，这样完成句子的排序。

在本实施例中，对于句子排序网络通过最小化交叉熵损失函数来优化：

其中，o_i是标签，是一个N维列向量，如果句子j位于位置i，o_i的第j维的值为1，其他维的值为0，o_i用来表示位置i正确对应的是句子j，log(Ptr_i)表示概率分布Ptr_i的N维概率取对数后构成的N维列向量。

实验验证

本发明提出的非自回归的句子排序方法可以有效地对句子进行编码，并行地解码预测每个位置的句子，进一步提升句子排序任务的速度和精度。为了评估本发明的性能，本发明将该构建句子排序网络应用于几个常用数据集，其中包括四个收集自AAN,NIPS,NSF,arXiv的学术论文摘要数据集，以及SIND,ROCStory两个视觉叙事和故事理解语料库。本发明采用完全匹配率(PMR)，准确率(Acc)和τ度量来作为评价指标。完全匹配率(PMR)在段落级别上衡量句子位置预测的性能。准确率(Acc)计算句子级别的绝对位置预测的准确性，是更为宽松的度量指标。τ度量用于衡量预测段落中所有句子对之间的相对顺序，与人类的判断更相近，实验结果列在表1中。

表1

从表1的实验结果可以看出，非自回归的句子排序方法在大多数数据集上的性能几乎优于所有现有的方法，而且本专利在τ度量上的优越性意味着非自回归方式更接近人类。

由于句子的特殊位置，第一个和最后一个句子在句子排序中起着重要的作用，在arXiv和SIND数据集上进行评估首尾句子准确率的实验，结果列在表2中。

表2

从表2可以看出，本发明对首尾句子的预测优于现有的方法。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。