CN112115253A

CN112115253A - 基于多视角注意力机制的深度文本排序方法

Info

Publication number: CN112115253A
Application number: CN202010824405.2A
Authority: CN
Inventors: 李明磊; 洪冯; 王颖; 陈宇翔; 徐治纬; 张记强
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-12-22
Anticipated expiration: 2040-08-17
Also published as: CN112115253B

Abstract

本发明涉及一种基于多视角注意力机制的深度文本排序架构，其中，包括：输入层，用于输入网络模型中的数据；编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征，在双向长短期记忆网络中包括前向LSTM和后向LSTM；内部交互层，用来建模文本中不同单词的重要程度，对重要程度不同的单词给予不同的权重，采用自注意力机制建模查询与文本各自内部的重要语义信息；外部交互层，用来建模查询与文本之间的交互相关性，采用双向注意力机制来捕获查询与文本交互过程中的匹配模式；输出层，将外部交互层的输出作为输入，输出查询与文本的相关性分数作为排序依据。

Description

基于多视角注意力机制的深度文本排序方法

技术领域

本发明属于信息检索领域，具体涉及一种基于多视角注意力机制的深度文本排序方法。

背景技术

文本排序是指给定查询和候选文本集合，在候选文本集合中找到与查询相关的文本并按照相关性排序的过程。一种可靠的文本排序方法将大大提升文本检索的效率并降低人工成本，这在内容过滤、舆情分析、态势感知等领域具有较高的研究价值和应用需求。

早期的信息检索排序方法主要是基于关键字的查询文本匹配。随着机器学习算法的发展，人们提出了效果更好的检索机制。逻辑推理方法使用逻辑回归概率来确定查询和文档之间的相关性。信息检索中的其他传统技术包括基于Boosting的方法、基于TF-IDF相似度和Okapi BM25是最常用的基于术语的文本搜索和排序方法。

随着深度神经网络在文本数据特征表示学习中的成功，人们提出了一些用于文本检索的神经网络排序方法。现有的神经网络排序方法可以分为两类，即以基于表示的匹配方法和基于交互的匹配方法。

在基于表示的方法中，深度结构语义方法使用简单的前向神经网络来学习查询和文本的语义表示，并使用余弦相似度函数计算它们的语义相似度。卷积深度结构语义方法使用卷积层表示词汇的三元组特征，而Palangi等人提出的方法则使用长短期记忆网络LSTM编码器的最后输出状态作为查询和文本的特征，同样这两个方法都使用查询和文档表示之间的余弦相似度函数来计算它们的相关性。在Hu等人提出的工作中，作者提出了卷积神经网络文本语义匹配方法 Architecture-I(ARC-I)，该方法也使用卷积结构来创建查询和文本的表示，并使用前馈神经网络来计算它们的相关性。所有这些方法都使用了查询和文本的文本级语义表示。

在Guo等人提出了深度语义匹配方法，该方法利用了查询词和文档词之间的交互特征。Hu等人提出的Architecture-II(ARC-II)使用卷积运算来计算文本的交互特征，并将这些特征反馈到一个深度前馈网络中，以计算相关性得分。MatchPyramid方法则利用查询和文本词向量之间的点积作为交互特征，然后利用卷积层计算相关度得分。这些方法都使用了基于交互的文本匹配方法。

当文本较长时，或者与查询有很少的词汇字面重叠时，传统的技术通常不能取得较好地效果。与传统的方法相比，神经网络排序方法具有足够的建模能力以及更大的潜力来学习这些复杂任务。

在文本检索的大多数情况下，与查询相关的文本是来自文本中的某个或者某几个句子。因此，将整个文本的表示与查询的表示相匹配不会产生很好的结果，基于表示的方法往往效果不能使人满意。因为文本的表示中还包含来自其他不相关部分的特征。

基于交互的匹配方法的一个共同限制是它们没有充分利用文本中内在的层次结构，因此，在文本较长的情况下效果常常表现不佳。

发明内容

本发明的目的在于提供一种基于多视角注意力机制的深度文本排序架构，用于解决现有排序方法对文本较短或较长都有很大局限性，对于非对称的文本导致了现有文本匹配方法难以捕获文本中的有效语义信息。

本发明一种基于多视角注意力机制的深度文本排序架构，其中，包括：输入层，用于输入网络模型中的数据；编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征，在双向长短期记忆网络中包括前向LSTM和后向LSTM；内部交互层，用来建模文本中不同单词的重要程度，对重要程度不同的单词给予不同的权重，采用自注意力机制建模查询与文本各自内部的重要语义信息；外部交互层，用来建模查询与文本之间的交互相关性，采用双向注意力机制来捕获查询与文本交互过程中的匹配模式；输出层，将外部交互层的输出作为输入，输出查询与文本的相关性分数作为排序依据。

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，输入网络模型中的数据，包括查询和文本，定义 Q＝[q₁,q₂,q₃,...,q_n]表示查询集合，D＝{d₁,d₂,d₃,...,d_m}表示文本集合，

表示查询中的单词，

表示文本中的单词，输入层将查询与文本中的每个单词分别映射到K维向量空间，如式(1)以及式(2)所示：

其中，embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵

将单词

和

编码为向量，分别得到查询与文本中每个单词对应的词向量

和

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，编码层对于查询，以查询词向量

作为输入，经过前向LSTM网络编码后，得到W维查询上下文特征向量表示如下：

其中，式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码，式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码，式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接；

经过该编码层的编码后，得到的查询上下文向量表示包括：

对于文本，该编码层以文本词向量

作为输入，经过后向 LSTM网络编码后，得到的文本上下文特征向量表示如下：

其中，式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码，式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码，式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接；

经过该编码层的编码后，得到的文本上下文向量表示如下：

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，内部交互层对于查询，给定编码层的输出

作为输入，通过内部交互层后得到查询中每个单词的向量权重，表示如下：

其中，

表示

向量的权重，W_q为权重矩阵，w_q为向量的参数；

经过内部交互层后产生的查询向量

表示如下：

对于文本，给定编码层的输出

作为输入，通过内部交互层后得到的文本中每个单词的向量表示如下：

其中，

表示

向量的权重，W_d为权重矩阵，w_d为向量参数。

经过内部交互层后产生的文本向量

表示如下：

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，外部交互层通过Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度，将这些单词给予更高的权重，对于Query2Doc注意力，给定x^q作为输入，输出

的计算表示如式(17)以及式(18)所示：

其中，

表示Query2Doc注意力机制中的权重矩阵，

表示偏置项，y^q为由Query2Doc注意力机制产生的交互向量。

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度，

对于Doc2Query注意力，给定x^d作为输入，输出

计算表示如式(19)、式(20)所示：

其中，

表示Doc2Query注意力机制中的权重矩阵，

表示偏置项，y^d为由Doc2Query注意力机制最终产生的交互向量。

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，输出层首先对y^q和y^d按元素相乘得到相似度向量p，然后将向量p经过一个前馈神经网络后得到相似度分数s，其计算过程如式(21)以及式(22)所示：

根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例，其中，对于输出层的查询排序的模型训练，采用铰链损失函数来训练。给定一个三元组(q,d⁺,d^-)，其中d⁺表示数据集中的正例，d^-表示数据集中的负例，损失函数的定义如下所示：

l(q,d⁺,d^-；θ)＝max(0,1-s(q,d⁺)+s(q,d^-)) (23)；

其中，s(q,d)表示查询与文本的预测相似度得分，θ为模型的训练参数，包括注意力机制中的参数和前馈神经网络中的参数。

本发明的一种基于多视角注意力机制的深度文本排序方法将注意力机制应用于文本内部和文本之间，分别捕获文本自身的内部语义信息和交互过程中文本的匹配，获取更有效的信息。

附图说明

图1为基于多视角注意力机制的深度文本排序方法模型框架图；

图2所示编码层双向长短期记忆网络Bi-LSTM结构图；

图3所示为内部交互层结构图；

图4所示为外部交互层的由查询到文本的注意力机制结构图；

图5所示为外部交互层的文本到查询的注意力机制结构图；

图6所示为输出层结构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出了一种基于多视角注意力机制的深度文本匹配方法，综合考虑查询扩展技术、内部注意力机制与外部注意力机制等因素对文本检索的性能影响，通过多视角注意力机制可以增加对文本中关键信息的关注并捕获查询与文本交互过程中的匹配信息。

使用该方法建立模型，主要由输入层、编码层、内部交互层、外部交互层和输出层五部分组成。为便于理解，下面将按照网络模型层次采用自底向上的方法介绍模型。图1为基于多视角注意力机制的深度文本排序方法模型框架图，如图1所示，

1、输入层

输入层的目的是准备用于输入网络模型中的数据，包括查询和文本。定义Q＝[q₁,q₂,q₃,...,q_n]表示查询集合，D＝{d₁,d₂,d₃,...,d_m}表示文本集合，

表示查询中的单词，

表示文本中的单词。输入层将查询与文本中的每个单词分别映射到K维向量空间，如式(1)、式(2)所示：

将单词

和

编码为向量，分别得到查询与文本中每个单词对应的词向量

和

2、编码层

图2所示编码层双向长短期记忆网络Bi-LSTM结构图，如图2所示，编码层使用双向长短期记忆网络Bi-LSTM分别编码查询和文本中单词的上下文特征，在双向长短期记忆网络Bi-LSTM中包括前向 LSTM和后向LSTM。

对于查询，该层以查询词向量

其中，式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码，式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码，式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接。

经过该编码层的编码后，最终得到的查询上下文向量表示如下：

其中，嵌入矩阵E对应的实体空间的维度是V*K，其中V代表整个语料中的单词个数，K代表每个单词的维度。公式(6)中，H^q对应的实体空间维度是i*W，其中i代表的是查询中i个单词，i属于V，在经过LSTM编码层的神经单元后，每个单词的维度由原来的K维变为了W维。

对于文本，该层以文本词向量

作为输入。经过后向LSTM网络编码后，得到的文本上下文特征向量表示如下：

其中，式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码，式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码，式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接。

经过该编码层的编码后，最终得到的文本上下文向量表示如下：

在公式(10)中，H^d对应的实体空间维度是j*W，其中j代表的是文本中j个单词，j属于V，在经过LSTM编码层后，每单词的维度由原来的K维变为了W维。

3、内部交互层

内部交互层用来建模文本中不同单词的重要程度，对更重要的单词给予更高的权重。该层采用自注意力机制Self-Attention建模查询与文本各自内部的重要语义信息，图3所示为内部交互层结构图，如图3 所示。

对于查询，给定编码层的输出

其中，

表示

向量的权重，W_q为权重矩阵，w_q为向量的参数。

最终经过内部交互层后产生的查询向量

表示如下：

对于文本，给定编码层的输出

其中，

表示

向量的权重，W_d为权重矩阵，w_d为向量参数。

最终经过内部交互层后产生的文本向量

表示如下：

4、外部交互层

外部交互层用来建模查询与文本之间的交互相关性。为了获取两者之间的交互相关性，该层采用双向注意力机制来捕获查询与文本交互过程中的匹配模式。双向注意力机制在阅读理解任务中已经表现出良好的性能。因此，本文利用双向注意力机制在文本检索任务中。该双向注意力机制包括由查询到文本的注意力机制(Query2Doc)，以及由文本到查询的注意力机制(Doc2Query)，图4所示为外部交互层的由查询到文本的注意力机制结构图；图5所示为外部交互层的文本到查询的注意力机制结构图，如图4以及图5所示，

Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度，将这些单词给予更高的权重。对于Query2Doc注意力，该层给定x^q作为输入，输出

的计算表示如式(17)、式(18) 所示：

其中，

表示Query2Doc注意力机制中的权重矩阵，

表示偏置项，y^q为由Query2Doc注意力机制最终产生的交互向量。

Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度，并将这些单词给予更高的权重。对于Doc2Query注意力，该层给定x^d作为输入，输出

计算表示如式(19)、式(20) 所示：

其中，

表示Doc2Query注意力机制中的权重矩阵，

5、输出层

输出层将外部交互层的输出y^q和y^d作为输入，输出查询与文本的相关性分数作为排序依据，图6所示为输出层结构图，如图6所示，具体地，首先对y^q和y^d按元素相乘得到相似度向量p，然后将向量p经过一个前馈神经网络(FFNN)后得到相似度分数s，其计算过程如式(21)、式(22)所示：

对模型训练：

由于检索任务是一个典型的排序问题，因此采用铰链损失函数来训练。给定一个三元组(q,d⁺,d^-)，其中d⁺表示数据集中的正例，d^-表示数据集中的负例，损失函数的定义如下所示：

l(q,d⁺,d^-；θ)＝max(0,1-s(q,d⁺)+s(q,d^-)) (23)

本发明采用两类基准方法进行对比实验，包括传统检索方法和神经网络排序方法。神经网络排序方法具体包括：

ArcI：ArcI模型采用一维卷积层和最大池化层产生输入的两个文本的特征表示，然后将两个特征进行拼接，最后用多层感知器(MLP) 获得相似性得分。

ArcII：ArcII模型使用一维卷积来建立两个输入句子的交互矩阵。在交互矩阵上使用2D卷积、max pooling和MLP得到最终得分。

MatchPyramid：MatchPyramid模型使用两个输入句子的词嵌入之间的点积来建立两个输入句子之间的交互矩阵，然后将所得矩阵用卷积神经网络进行处理，最终匹配得分采用卷积神经网络输出的MLP 计算。

本发明采用Yahoo！Answers API中提供的getByCategory函数从 Yahoo！Answers网站上获取问答对来构建数据集Yahoo Answers。使用两个与排序位置敏感的评价指标：主集合平均准确率(MAP)和归一化折损累积增益(NDCG)。NDCG分别对检索结果中的前三个和前五个进行排名。

表1三类模型在Yahoo Answers数据集上的实验结果

由表1可以发现，不同类型的模型在对称数据集上和非对称数据集上的效果均表现出明显差别，对称数据集上的效果比非对称数据集上的效果平均高出10％左右，两个数据集中性能表现最好的结果用粗体标出。

本发明提出的基于多视角注意力机制的深度文本排序方法借鉴了基于表示模型与基于交互式模型的优点，分别考虑了文本的表示与文本的交互，从而提高模型的性能。通过多视角注意力机制可以增加对文本中关键信息的关注并捕获查询与文本交互过程中的匹配模式。具体地，构造两种注意力机制，包括内部注意力机制和外部注意力机制。内部注意力机制主要用于捕获查询内部的关键信息与文本内部的关键信息，从而降低噪声信息的干扰，能够有效克服已有排序模型无法捕获长文本语义信息的问题；而外部注意力机制主要用于捕获查询与文本之间的关键信息，能够捕捉文本之间的交互匹配模式。基于多视角注意力机制深度文本排序方法在两个数据集上的效果均优于其它两类方法，该结果表明基于多视角注意力机制深度文本排序方法不仅能处理对称的数据，而且能够有效解决文本检索中的非对称性问题。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。