CN112182439B

CN112182439B - 一种基于自注意力网络的搜索结果多样化方法

Info

Publication number: CN112182439B
Application number: CN202011055076.6A
Authority: CN
Inventors: 窦志成; 秦绪博
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-05-23
Anticipated expiration: 2040-09-30
Also published as: CN112182439A

Abstract

本发明通过人工智能领域的方法，实现了一种基于自注意力网络的搜索结果多样化方法，采用重排序模型，通过将模型设置编码器和解码器构成的编码器‑解码器结构以及排序学习函数，经过训练步骤后，针对输入的查询和子话题进行运算，最终生成经过多样化重排序的文档序列。通过上述步骤，建立了一个基于自注意力网络的模型结构，捕获候选文档间的全局交互信息；编码器‑解码器结构同时捕获文档本身相对于其他文档的新颖性，以及文档对不同子话题的覆盖程度，并综合考量文档的相关性特征以获得最终的多样化排序评分，并克服现有选择算法难以获得全局最优解的局限性的问题。

Description

一种基于自注意力网络的搜索结果多样化方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于自注意力网络的搜索结果多样化方法。

背景技术

相关统计数据证明用户在使用搜索引擎时倾向于提交短查询，为了解决短查询所带来的歧义性问题，搜索引擎需要对搜索结果进行多样化排序。对于给定的查询和初始排序文档序列，一个多样化模型应当对文档序列进行多样化重排序，使得重排序之后排在前面位置的文档能够尽可能多地覆盖不同的用户意图。目前主流的多样化排序方法，按照如何衡量文档的多样性，可以分为隐式多样化方法和显式多样化方法：隐式多样化方法按照候选文档相对于已选中的文档是否具有新颖性，即是否与已选中的文档尽可能不相似来判定文档是否具有多样性，显式多样化方法则显式地衡量文档对不同的用户意图(通常用子话题表示)的覆盖程度，一个具有多样性的文档应该覆盖了此前已选中文档序列没有覆盖的用户意图。而按照如何拟定多样化排序函数，则可以分为启发式(非监督式)和学习式(监督式)方法，启发式方法依赖于人工提取的多样化特征与排序函数，而学习式方法则利用机器学习模型，通过训练数据自发地学习到最优化的排序函数与特征。

目前已有的显式与隐式方法都采用贪心文档选择的策略，即每一次都根据当前已选中的文档序列，计算所有候选文档的多样性得分，从中选择当前最佳的候选文档，然后将其附加到当前已选中的文档序列的末尾。由于多样化排序本质上是一个子空间搜索问题，该问题属于NP-难解问题，使用贪心选择的算法策略可以在较短地时间内完成计算，对线上排序任务有良好的适应性。

理论上贪心选择算法每一次选择都会导向当前的局部最优解，而通过一系列局部最优解导向全局最优解的条件是贪心选择过程满足无后效性，即每一个候选文档的选取给已选文档序列带来的新增信息收益应当是彼此相互独立的。但相关研究已经证明，候选文档之间彼此并非相互独立，当一个候选文档被选中之后，其他候选文档的新增信息收益也将随之发生改变。因此，贪心选择算法从理论上即无法获得全局最优的多样化排序。此外，已有的方法通常只考虑单一的隐式或显式多样化特征，而两者并非可以互相取代的关系，综合衡量文档的新颖性和子话题收益通常可以获得更佳的多样化效果。

发明内容

为此，本发明提出了一种基于自注意力网络的搜索结果多样化方法，设计基于自注意力网络的搜索结果多样化框架，所述框架采用重排序模型，经过训练后，针对输入的查询和子话题，所述框架接受一个纯相关性的初始排序作为输入，所属框架的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征，以及文档针对给定查询和子话题的相关性特征，所述相关性特征由传统信息检索模型生成，为一系列常用的传统信息检索相关性特征，分布式向量表征由一系列静态文档表征工具生成；

所述框架的运算结构包括两个部分：编码器-解码器结构和排序学习函数，所述编码器-解码器结构由编码器和解码器构成，输入文档序列的向量表征和子话题的向量表征，返回每一个文档的编码器生成表示向量和解码器生成表示向量，所述编码器生成表示向量和解码器生成表示向量作为所述文档的多样性特征，分别表征所述文档相对于其他文档的新颖性和所述文档对不同子话题的覆盖程度，同时通过所述文档对子话题的相关性参数生成文档相对于子话题的覆盖得分，之后，将所述编码器生成表示向量、所述解码器生成表示向量、所述文档相对查询的相关性特征的参数、所述文档相对于子话题的覆盖得分首尾相连生成文档的全体特征向量，将所述全体特征向量输入线性排序学习函数，返回针对每一个文档给出的多样化排序评分，进而按照该评分对文档进行排序，生成经过多样化重排序的文档序列。

所述相关性特征具体包括BM25、TF-IDF，所述分布式向量表征包括doc2vec和LDA。

所述训练过程为使用list-pairwise的方法对训练样本进行采样；而后生成已选的上下文文档序列，针对多样化排序数据集，首先按照不同的长度，采样一系列上下文文档序列C作为已选文档序列，采样方法包括随机采样和理想排序采样，两种，使用人工标注数据生成理论最佳的排序；之后遍历全体候选文档，将候选文档一个个附加到已选上下文序列中，生成样本[C，d_i](此处d_i表示剩余的候选文档集合中，第i个候选文档，注意d_i应当是与给定查询q相关的候选文档)，并计算其评价指标M，采用α-nDCG作为评价指标；对于一对样本r₁＝[C，d₁]和r₂＝[C，d₂]，若评价指标M(r₁)＞M(r₂)，则将其作为一对正负例样本；对于排序r₁，它的评分计算为排序中的所有文档的得分之和，即

于是针对每一对正负例样本的损失函数可以表征如下：

Loss＝|ΔM|[P(r₁，r₂)log(P(r₁，r₂))+(1-P(r₁，r₂))log(1-P(r₁，r₂))]

|ΔM|＝|M(r₁)-M(r₂)|。

在所述编码器中引入序列掩码进一步加强损失函数，使序列中的每一个文档，都只能与自身和排在自身前面的文档发生交互，即

对于r₁＝[C，d₁]有

由于序列掩码的存在，公共已选文档序列C中文档的排序评分不会受到后续文档的影响，因此可得/>

于是损失函数可以化简为：

Loss＝|ΔM|[P(d₁，d₂)log(P(d₁，d₂))+(1-P(d₁，d₂))log(1-P(d₁，d₂))]。

所述编码器-解码器结构输入的所述文档序列的向量表征输入至所述编码器，所述向量表征为一个由文档向量组成的长度为m的文档序列D＝{d₁，…，d_m}，自注意力网络的核心为缩放点积注意力函数，表示如下：

此处Q，K，V分别为注意力函数中的查询-键-值向量，Q表示的“查询”是注意力函数内部的概念，完整的自注意力网络编码器结构，包含一个多层的自注意力网络，每一层引入多头注意力机制，将输入的文档向量映射到h个不同的子空间中，然后利用每一个头分别捕获自注意力特征：

其中

W^H是在训练过程中学习的参数，输入矩阵D′为全体文档序列对应的文档向量组成的矩阵；并且为了表征文档序列的位置信息，在输入矩阵中引入额外的位置编码d_pi，即D′＝{d₁+d_p1，…，d_m+d_pm}，在每一层间引入残差连接的前馈神经网络，以及Dropout机制用于防止过度拟合和保持申请网络的可训练性，如下所示：

SelfAttnEnc(D)＝LN(H_enc+Dp(FF(H_enc)))

H_enc＝LN(D′+Dp(MHA_enc(D′)))

式中，FF表示前馈神经网络，Dp(·)表示Dropout层，LN(·)表示层归一化操作，所述编码器生成全体文档序列的上下文相关表示向量，并连接成矩阵

即

每一个文档的表示向量/>

都可以用作文档的新颖性特征表示。

所述子话题的向量表征输入为一个给定的子话题序列Q＝{q₁，…，q_n}，将其输入至编码器中，返回得到对应的子话题表征向量：

所述解码器端结构与编码器端相似——即解码器端与编码器端都基于带有多头机制的缩放点积注意力函数，区别在于注意力函数的输入有所不同：对于编码器端，缩放点积自注意力函数的查询-键-值三项均为线性变换之后的原始文档向量表征；对于解码器端，其缩放点积注意力函数的查询矩阵对应编码器端返回的文档序列矩阵，键和值向量对应编码器端返回的子话题序列矩阵，同样经过线性变换，即：

所述解码器的其他操作与编码器相同：

最终生成每个文档的向量表征

每一个文档的表示向量/>

用作文档对子话题覆盖的特征表示。

所述多样化排序评分结合相关性参数和排序学习函数生成，d_i为每一个候选文档的多样化排序评分：

/>

w_s和w_q是可训练参数，

和/>

分别为文档d_i对查询q和子话题q_j的相关性参数，生成排序评分之后，按照评分对文档进行排序获得所述经过多样化重排序的文档序列。

本发明所要实现的技术效果在于：

(1)本发明建立了一个基于自注意力网络(Self-Attention Network)的模型结构，通过综合衡量所有的候选文档彼此间的相关关系，学习每一个文档的上下文相关的文档表示，捕获候选文档间的全局交互信息。

(2)本发明构造了一个编码器-解码器(Encoder-Decoder)结构，同时捕获文档本身相对于其他文档的新颖性，以及文档对不同子话题的覆盖程度，并综合考量文档的相关性特征以获得最终的多样化排序评分。

(3)相对于以往的基于贪心选择的算法，本发明的模型可以通过使用评分直接排序来生成最终的多样化文档序列，且可以克服贪心选择算法难以获得全局最优解的局限性，生成的排序结果比贪心选择算法更加接近全局最优解。

附图说明

图1基于自注意力网络的搜索结果多样化框架整体结构；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

自注意力机制最初作为注意力机制的一种，作为基于循环神经网络的一个组件使用，后来出现了完全依赖于自注意力机制的自注意力网络。自Transformer以来，自注意力网络在越来越多的领域取得了显著的成功。作为一种序列模型，相对于已有的卷积神经网络和循环神经网络，自注意力网络具备两个显著的优点：一方面，它没有时序依赖关系，更加适合于并行计算，另一方面它允许序列中的每一个对象，彼此之间发生直接的全局交互，且可以较好地解决长距离依赖问题。已有的一些预训练语言模型，如GPT和BERT等，通过自注意力网络学习一个句子中的每一个单词的上下文相关表示。类似地，本发明希望使用一个基于自注意力网络的编码器结构，学习一个文档相对于整个文档序列的上下文相关文档表示——对于搜索结果多样化排序任务，这一上下文相关文档表示可以表征文档相对于其他文档的新颖性。此外，本发明还希望通过一个解码器结构，学习文档对于不同子话题的覆盖关系。

基于自注意力网络的搜索结果多样化框架

基于自注意力网络的搜索结果多样化框架整体结构如图1所示。该框架是一个重排序模型，针对给定的查询和子话题，模型接受一个纯相关性的初始排序作为输入，返回针对每一个文档给出的多样化排序评分。按照该评分对文档进行排序，即可生成经过多样化重排序的文档序列。详细而言，模型接受的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征，以及文档针对给定查询和子话题的相关性特征。这些相关性特征由传统信息检索模型生成，包括一系列常用的传统信息检索相关性特征，如BM25，TF-IDF等；分布式向量表征由一系列静态文档表征工具生成，如doc2vec和LDA等。

整个框架主要包括两个部分：编码器-解码器结构和排序学习函数。基于自注意力网络的编码器-解码器结构输入文档序列和子话题的向量表征，返回每一个文档的编码器生成表示向量和解码器生成表示向量。这两种表示向量可以作为文档的多样性特征，分别表征文档相对于其他文档的新颖性，和文档对不同子话题的覆盖程度。将文档的两种表征向量，与文档相对查询的相关性特征参数，和文档相对于子话题的覆盖得分(由文档对子话题的相关性参数生成)首尾相连即可生成文档的全体特征向量，将该特征向量输入线性排序学习函数，即可生成最终的文档多样化排序评分。

基于自注意力网络的编码器-解码器结构

本发明希望能够充分地衡量全体候选文档彼此之间的相关关系，且将文档相对于其他文档的新颖性特征(下文称为隐式特征)，与文档对子话题的覆盖特征(下文称为显式特征)一起共同融合进最终的排序评分中。因此，本发明设计了基于自注意力网络的完整的编码器-解码器结构，用于从序列中全体候选文档的角度，衡量文档的隐式特征与显式特征的覆盖。

衡量隐式特征的编码器结构

如上文所述，已有的基于自注意力网络的预训练语言模型(如BERT)通常使用自注意力网络输入句子序列(由一个个单词构成)，而本发明希望通过自注意力网络捕获文档间的交互关系。因此，编码器结构的输入为一个由文档向量组成的文档序列D。此处D＝{d₁，…，d_m}，即长度为m的文档序列，共包含m个文档向量。自注意力网络的核心为缩放点积(Scaled Dot-Product)注意力函数，表示如下：

此处Q，K，V分别为注意力函数中的查询-键-值向量(矩阵)。需要说明的是，此处Q表示的“查询”是注意力函数内部的概念，并不是信息检索中的“查询”。完整的自注意力网络编码器结构，包含一个多层的自注意力网络，每一层引入多头(Multi-head)注意力机制，即将输入的文档向量映射到h个不同的子空间中，然后利用每一个头(head)分别捕获自注意力特征。该机制可以表示如下：

其中

W^H是在训练过程中学习的参数，输入矩阵D′为全体文档序列对应的文档向量组成的矩阵。为了表征文档序列的位置信息，本发明还在输入矩阵中引入额外的位置编码d_pi，即D′＝{d₁+d_p1，…，d_m+d_pm}。为了让深层次的神经网络可以训练，并防止过拟合问题，本发明在每一层间引入残差连接的前馈神经网络，以及Dropout机制，如下所示：

SelfAttnEnc(D)＝LN(H_enc+Dp(FF(H_enc)))

H_enc＝LN(D′+Dp(MHA_enc(D′)))

式中，FF表示前馈神经网络，Dp(·)表示Dropout层，LN(·)表示层归一化(LayerNormalization)操作。编码器生成全体文档序列的上下文相关表示向量，并连接成矩阵

即/>

每一个文档的表示向量/>

都可以用作文档的新颖性特征表示。

衡量隐式特征的解码器结构

对于搜索引擎而言，在排序阶段可以使用的子话题通常来自于一系列用户意图挖掘方法，这些子话题通常并不与实际的用户意图完全一致，且仍然存在潜在的冗余性。因此，本发明希望模型也可以尽量抑制子话题的冗余性带来的影响。对于给定的子话题序列Q＝{q₁，…，q_n}，同样将其输入至编码器中，返回得到对应的子话题表征向量：

解码器端的作用是捕获文档对不同子话题的覆盖信号。它的基本结构与编码器端相似，区别在于注意力函数的输入有所不同：解码器端注意力函数的查询矩阵为编码器端返回的文档序列矩阵，键和值向量为编码器端返回的子话题序列矩阵，即：

解码器的其他操作与编码器相同，如残差连接、Dropout层等：

与编码器端类似，解码器端生成每个文档的向量表征

每一个文档的表示向量/>

都可以用作文档对子话题覆盖的特征表示。

通过排序学习得到文档的多样化评分

针对每一个文档，在获取了编码器和解码器对应的输出向量之后，结合相关性参数和排序学习函数，即可生成每一个候选文档d_i的多样化排序评分：

式中w_s和w_q都是可训练参数，

和/>

分别为文档d_i对查询q和子话题q_j的相关性参数。生成排序评分之后，直接按照评分对文档进行排序即可获得最后的多样化文档序列，不需要进行文档选择过程。

模型训练和优化方法

由于多样化排序可用的标注数据集相对较少，本发明使用list-pairwise的方法对训练样本进行采样。所使用的采样算法描述如下：

(1)生成已选的上下文(Context)文档序列。针对多样化排序数据集，首先按照不同的长度，采样一系列上下文文档序列C作为已选文档序列。采样方法包括随机采样和理想排序采样(即使用人工标注数据生成理论最佳的排序)两种。

(2)将候选文档一个个附加(append)到已选上下文序列中，生成样本[C，d_i]并计算其评价指标M(通常采用α-nDCG作为典型评价指标)。

(3)对于一对样本r₁＝[C，d₁]和r₂＝[C，d₂]，若评价指标M(r₁)＞M(r₂)，则将其作为一对正负例样本。

对于排序r₁，它的评分计算为排序中的所有文档的得分之和，即

于是针对每一对正负例样本的损失函数可以表征如下：

|ΔM|＝|M(r₁)-M(r₂)|

由于搜索结果多样化排序是一个从上到下的过程，每一个文档的评价指标只受到自身和排在前面的文档的影响，排在该文档后面的文档不应当对该文档的评价指标产生影响，因此在训练阶段，本发明在编码器中引入序列掩码(Sequence Mask)来模拟这一过程。序列掩码的作用是是序列中的每一个文档，都只能与自身和排在自身前面的文档发生交互。如上所述，

对于r₁＝[C，d₁]有/>

由于序列掩码的存在，公共已选文档序列C中文档的排序评分不会受到后续文档的影响，因此可得

于是损失函数可以化简为：

Loss＝|ΔM|[P(d₁，d₂)log(P(d₁，d₂))+(1-P(d₁，d₂))log(1-P(d₁，d₂))]

于是模型优化的目标可以描述为：通过给定的已选文档序列，尽可能提升模型区分正负例文档d₁和d₂的差别，让模型可以更好地判别一个文档是否具有多样性(包括新颖性和子话题覆盖)。

结论

本发明提出基于自注意力网络的搜索结果多样化模型，通过直接输入全体候选文档组成的序列，充分衡量全体候选文档间的相关关系，有效地克服了贪心选择算法难以得到全局最优解的局限性。此外，相对于此前单方面衡量文档新颖性或子话题覆盖的方法，本发明的方法实现了文档相对于其他文档的新颖性特征，以及文档对不同子话题的覆盖的特征的融合。本发明设计了一种采样方法和对应的损失函数来优化模型。实验结果证明了本发明模型的有效性。。

Claims

1.一种基于自注意力网络的搜索结果多样化方法，其特征在于：设计基于自注意力网络的搜索结果多样化框架，所述框架采用重排序模型，经过训练后，针对输入的查询和子话题，所述框架接受一个纯相关性的初始排序作为输入，所属框架的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征，以及文档针对给定查询和子话题的相关性特征，所述相关性特征由传统信息检索模型生成，为一系列常用的传统信息检索相关性特征，分布式向量表征由一系列静态文档表征工具生成；

所述框架的运算结构包括两个部分：编码器-解码器结构和排序学习函数，所述编码器-解码器结构由编码器和解码器构成，输入文档序列的向量表征和子话题的向量表征，返回每一个文档的编码器生成表示向量和解码器生成表示向量，所述编码器生成表示向量和解码器生成表示向量作为所述文档的多样性特征，分别表征所述文档相对于其他文档的新颖性和所述文档对不同子话题的覆盖程度，同时通过所述文档对子话题的相关性参数生成文档相对于子话题的覆盖得分，之后，将所述编码器生成表示向量、所述解码器生成表示向量、所述文档相对查询的相关性特征的参数、所述文档相对于子话题的覆盖得分首尾相连生成文档的全体特征向量，将所述全体特征向量输入线性排序学习函数，返回针对每一个文档给出的多样化排序评分，进而按照该评分对文档进行排序，生成经过多样化重排序的文档序列；

所述编码器-解码器结构输入的所述文档序列的向量表征输入至所述编码器，所述向量表征为一个由文档向量组成的长度为m的文档序列D＝{d₁,…,d_m}，自注意力网络的核心为缩放点积注意力函数，表示如下：

此处Q,K,V分别为注意力函数中的查询-键-值向量，Q表示的“查询”是注意力函数内部的概念，完整的自注意力网络编码器结构，包含一个多层的自注意力网络，每一层引入多头注意力机制，将输入的文档向量映射到h个不同的子空间中，然后利用每一个头分别捕获自注意力特征：

其中W_i ^Q，W_i ^K，W_iV，W^H是在训练过程中学习的参数，输入矩阵D′为全体文档序列对应的文档向量组成的矩阵；并且为了表征文档序列的位置信息，在输入矩阵中引入额外的位置编码

即/>

在每一层间引入残差连接的前馈神经网络，以及Dropout机制用于防止过度拟合和保持申请网络的可训练性，如下所示：

SelfAttnEnc(D)＝LN(H_enc+Dp(FF(H_enc)))

H_enc＝LN(D′+Dp(MHA_enc(D′)))

即

每一个文档的表示向量/>

都可以用作文档的新颖性特征表示；/>

所述子话题的向量表征输入为一个给定的子话题序列Q＝{q₁,…,q_n}，将其输入至编码器中，返回得到对应的子话题表征向量：

所述解码器端结构与编码器端相似，所述解码器端与编码器端都基于带有多头机制的缩放点积注意力函数，区别在于注意力函数的输入有所不同：对于编码器端，缩放点积自注意力函数的查询-键-值三项均为线性变换之后的原始文档向量表征；对于解码器端，其缩放点积注意力函数的查询矩阵对应编码器端返回的文档序列矩阵，键和值向量对应编码器端返回的子话题序列矩阵，同样经过线性变换，即：

所述解码器的其他操作与编码器相同：

最终生成每个文档的向量表征

每一个文档的表示向量/>

用作文档对子话题覆盖的特征表示；

所述多样化排序评分结合相关性参数和排序学习函数生成，s_i为每一个候选文档的多样化排序评分：

w_s和w_q是可训练参数，

和/>

2.根据权利要求1所述的一种基于自注意力网络的搜索结果多样化方法，其特征在于：所述相关性特征具体包括BM25、TF-IDF，所述分布式向量表征包括doc2vec和LDA。

3.根据权利要求2所述的一种基于自注意力网络的搜索结果多样化方法，其特征在于：所述训练过程为使用list-pairwise的方法对训练样本进行采样；而后生成已选的上下文文档序列，针对多样化排序数据集，首先按照不同的长度，采样一系列上下文文档序列C作为已选文档序列，采样方法包括随机采样和理想排序采样，两种，使用人工标注数据生成理论最佳的排序；之后遍历全体候选文档，将候选文档一个个附加到已选上下文序列中，生成样本[C,d_i]，d_i表示剩余的候选文档集合中，与给定查询q相关的第i个候选文档，并计算其评价指标M，采用α-nDCG作为评价指标；对于一对样本r₁＝[C,d₁]和r₂＝[C,d₂]，若评价指标M(r₁)>M(r₂)，则将其作为一对正负例样本；对于排序r₁，它的评分计算为排序中的所有文档的得分之和，即

于是针对每一对正负例样本的损失函数可以表征如下：

Loss＝|ΔM|[P(r₁,r₂)log(P(r₁,r₂))+(1-P(r₁,r₂))log(1-P(r₁,r₂))]

|ΔM|＝|M(r₁)-M(r₂)|。

4.根据权利要求3所述的一种基于自注意力网络的搜索结果多样化方法，其特征在于：在所述编码器中引入序列掩码进一步加强损失函数，使序列中的每一个文档，都只能与自身和排在自身前面的文档发生交互，即

对于r₁＝[C,d₁]有/>

于是损失函数可以化简为：

Loss＝|ΔM|[P(d₁,d₂)log(P(d₁,d₂))+(1-P(d₁,d₂))log(1-P(d₁,d₂))]。