CN112115253B - 基于多视角注意力机制的深度文本排序方法 - Google Patents

基于多视角注意力机制的深度文本排序方法 Download PDF

Info

Publication number
CN112115253B
CN112115253B CN202010824405.2A CN202010824405A CN112115253B CN 112115253 B CN112115253 B CN 112115253B CN 202010824405 A CN202010824405 A CN 202010824405A CN 112115253 B CN112115253 B CN 112115253B
Authority
CN
China
Prior art keywords
text
query
layer
vector
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010824405.2A
Other languages
English (en)
Other versions
CN112115253A (zh
Inventor
李明磊
洪冯
王颖
陈宇翔
徐治纬
张记强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202010824405.2A priority Critical patent/CN112115253B/zh
Publication of CN112115253A publication Critical patent/CN112115253A/zh
Application granted granted Critical
Publication of CN112115253B publication Critical patent/CN112115253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多视角注意力机制的深度文本排序架构,其中,包括:输入层,用于输入网络模型中的数据;编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。

Description

基于多视角注意力机制的深度文本排序方法
技术领域
本发明属于信息检索领域,具体涉及一种基于多视角注意力机制的深度文本排序方法。
背景技术
文本排序是指给定查询和候选文本集合,在候选文本集合中找到与查询相关的文本并按照相关性排序的过程。一种可靠的文本排序方法将大大提升文本检索的效率并降低人工成本,这在内容过滤、舆情分析、态势感知等领域具有较高的研究价值和应用需求。
早期的信息检索排序方法主要是基于关键字的查询文本匹配。随着机器学习算法的发展,人们提出了效果更好的检索机制。逻辑推理方法使用逻辑回归概率来确定查询和文档之间的相关性。信息检索中的其他传统技术包括基于Boosting的方法、基于TF-IDF相似度和Okapi BM25是最常用的基于术语的文本搜索和排序方法。
随着深度神经网络在文本数据特征表示学习中的成功,人们提出了一些用于文本检索的神经网络排序方法。现有的神经网络排序方法可以分为两类,即以基于表示的匹配方法和基于交互的匹配方法。
在基于表示的方法中,深度结构语义方法使用简单的前向神经网络来学习查询和文本的语义表示,并使用余弦相似度函数计算它们的语义相似度。卷积深度结构语义方法使用卷积层表示词汇的三元组特征,而Palangi等人提出的方法则使用长短期记忆网络LSTM编码器的最后输出状态作为查询和文本的特征,同样这两个方法都使用查询和文档表示之间的余弦相似度函数来计算它们的相关性。在Hu等人提出的工作中,作者提出了卷积神经网络文本语义匹配方法 Architecture-I(ARC-I),该方法也使用卷积结构来创建查询和文本的表示,并使用前馈神经网络来计算它们的相关性。所有这些方法都使用了查询和文本的文本级语义表示。
在Guo等人提出了深度语义匹配方法,该方法利用了查询词和文档词之间的交互特征。Hu等人提出的Architecture-II(ARC-II)使用卷积运算来计算文本的交互特征,并将这些特征反馈到一个深度前馈网络中,以计算相关性得分。MatchPyramid方法则利用查询和文本词向量之间的点积作为交互特征,然后利用卷积层计算相关度得分。这些方法都使用了基于交互的文本匹配方法。
当文本较长时,或者与查询有很少的词汇字面重叠时,传统的技术通常不能取得较好地效果。与传统的方法相比,神经网络排序方法具有足够的建模能力以及更大的潜力来学习这些复杂任务。
在文本检索的大多数情况下,与查询相关的文本是来自文本中的某个或者某几个句子。因此,将整个文本的表示与查询的表示相匹配不会产生很好的结果,基于表示的方法往往效果不能使人满意。因为文本的表示中还包含来自其他不相关部分的特征。
基于交互的匹配方法的一个共同限制是它们没有充分利用文本中内在的层次结构,因此,在文本较长的情况下效果常常表现不佳。
发明内容
本发明的目的在于提供一种基于多视角注意力机制的深度文本排序架构,用于解决现有排序方法对文本较短或较长都有很大局限性,对于非对称的文本导致了现有文本匹配方法难以捕获文本中的有效语义信息。
本发明一种基于多视角注意力机制的深度文本排序架构,其中,包括:输入层,用于输入网络模型中的数据;编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据。
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,输入网络模型中的数据,包括查询和文本,定义 Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,
Figure RE-GDA0002784154420000031
表示查询中的单词,
Figure RE-GDA0002784154420000032
表示文本中的单词,输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)以及式(2)所示:
Figure RE-GDA0002784154420000033
Figure RE-GDA0002784154420000034
其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵
Figure RE-GDA0002784154420000035
将单词
Figure RE-GDA0002784154420000036
Figure RE-GDA0002784154420000037
编码为向量,分别得到查询与文本中每个单词对应的词向量
Figure RE-GDA0002784154420000038
Figure RE-GDA0002784154420000039
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,编码层对于查询,以查询词向量
Figure RE-GDA00027841544200000310
作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:
Figure RE-GDA00027841544200000311
Figure RE-GDA00027841544200000312
Figure RE-GDA00027841544200000313
其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的查询上下文向量表示包括:
Figure RE-GDA0002784154420000041
对于文本,该编码层以文本词向量
Figure RE-GDA0002784154420000042
作为输入,经过后向 LSTM网络编码后,得到的文本上下文特征向量表示如下:
Figure RE-GDA0002784154420000043
Figure RE-GDA0002784154420000044
Figure RE-GDA0002784154420000045
其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的文本上下文向量表示如下:
Figure RE-GDA0002784154420000046
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,内部交互层对于查询,给定编码层的输出
Figure RE-GDA0002784154420000047
作为输入,通过内部交互层后得到查询中每个单词的向量权重,表示如下:
Figure RE-GDA0002784154420000048
Figure RE-GDA0002784154420000049
其中,
Figure RE-GDA00027841544200000410
表示
Figure RE-GDA00027841544200000411
向量的权重,Wq为权重矩阵,wq为向量的参数;
经过内部交互层后产生的查询向量
Figure RE-GDA00027841544200000412
表示如下:
Figure RE-GDA00027841544200000413
对于文本,给定编码层的输出
Figure RE-GDA00027841544200000414
作为输入,通过内部交互层后得到的文本中每个单词的向量表示如下:
Figure RE-GDA00027841544200000415
Figure RE-GDA00027841544200000416
其中,
Figure RE-GDA0002784154420000051
表示
Figure RE-GDA0002784154420000052
向量的权重,Wd为权重矩阵,wd为向量参数。
经过内部交互层后产生的文本向量
Figure RE-GDA0002784154420000053
表示如下:
Figure RE-GDA0002784154420000054
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,外部交互层通过Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度,将这些单词给予更高的权重,对于Query2Doc注意力,给定xq作为输入,输出
Figure RE-GDA0002784154420000055
的计算表示如式(17)以及式(18)所示:
Figure RE-GDA0002784154420000056
Figure RE-GDA0002784154420000057
其中,
Figure RE-GDA0002784154420000058
表示Query2Doc注意力机制中的权重矩阵,
Figure RE-GDA0002784154420000059
表示偏置项,yq为由Query2Doc注意力机制产生的交互向量。
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度,
对于Doc2Query注意力,给定xd作为输入,输出
Figure RE-GDA00027841544200000510
计算表示如式(19)、式(20)所示:
Figure RE-GDA00027841544200000511
Figure RE-GDA00027841544200000512
其中,
Figure RE-GDA00027841544200000513
表示Doc2Query注意力机制中的权重矩阵,
Figure RE-GDA00027841544200000514
表示偏置项,yd为由Doc2Query注意力机制最终产生的交互向量。
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,输出层首先对yq和yd按元素相乘得到相似度向量p,然后将向量p经过一个前馈神经网络后得到相似度分数s,其计算过程如式(21)以及式(22)所示:
Figure RE-GDA00027841544200000515
Figure RE-GDA0002784154420000061
根据本发明的基于多视角注意力机制的深度文本排序方法的一实施例,其中,对于输出层的查询排序的模型训练,采用铰链损失函数来训练。给定一个三元组(q,d+,d-),其中d+表示数据集中的正例,d-表示数据集中的负例,损失函数的定义如下所示:
l(q,d+,d-;θ)=max(0,1-s(q,d+)+s(q,d-)) (23);
其中,s(q,d)表示查询与文本的预测相似度得分,θ为模型的训练参数,包括注意力机制中的参数和前馈神经网络中的参数。
本发明的一种基于多视角注意力机制的深度文本排序方法将注意力机制应用于文本内部和文本之间,分别捕获文本自身的内部语义信息和交互过程中文本的匹配,获取更有效的信息。
附图说明
图1为基于多视角注意力机制的深度文本排序方法模型框架图;
图2所示编码层双向长短期记忆网络Bi-LSTM结构图;
图3所示为内部交互层结构图;
图4所示为外部交互层的由查询到文本的注意力机制结构图;
图5所示为外部交互层的文本到查询的注意力机制结构图;
图6所示为输出层结构图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提出了一种基于多视角注意力机制的深度文本匹配方法,综合考虑查询扩展技术、内部注意力机制与外部注意力机制等因素对文本检索的性能影响,通过多视角注意力机制可以增加对文本中关键信息的关注并捕获查询与文本交互过程中的匹配信息。
使用该方法建立模型,主要由输入层、编码层、内部交互层、外部交互层和输出层五部分组成。为便于理解,下面将按照网络模型层次采用自底向上的方法介绍模型。图1为基于多视角注意力机制的深度文本排序方法模型框架图,如图1所示,
1、输入层
输入层的目的是准备用于输入网络模型中的数据,包括查询和文本。定义Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,
Figure RE-GDA0002784154420000071
表示查询中的单词,
Figure RE-GDA0002784154420000072
表示文本中的单词。输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)、式(2)所示:
Figure RE-GDA0002784154420000073
Figure RE-GDA0002784154420000074
其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵
Figure DEST_PATH_GDA0002784154420000035
将单词
Figure DEST_PATH_GDA0002784154420000036
Figure DEST_PATH_GDA0002784154420000037
编码为向量,分别得到查询与文本中每个单词对应的词向量
Figure DEST_PATH_GDA0002784154420000038
Figure DEST_PATH_GDA0002784154420000039
2、编码层
图2所示编码层双向长短期记忆网络Bi-LSTM结构图,如图2所示,编码层使用双向长短期记忆网络Bi-LSTM分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络Bi-LSTM中包括前向 LSTM和后向LSTM。
对于查询,该层以查询词向量
Figure RE-GDA0002784154420000079
作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:
Figure RE-GDA00027841544200000710
Figure RE-GDA00027841544200000711
Figure RE-GDA00027841544200000712
其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接。
经过该编码层的编码后,最终得到的查询上下文向量表示如下:
Figure RE-GDA0002784154420000081
其中,嵌入矩阵E对应的实体空间的维度是V*K,其中V代表整个语料中的单词个数,K代表每个单词的维度。公式(6)中,H^q对应的实体空间维度是i*W,其中i代表的是查询中i个单词,i属于V,在经过LSTM编码层的神经单元后,每个单词的维度由原来的K维变为了W维。
对于文本,该层以文本词向量
Figure RE-GDA0002784154420000082
作为输入。经过后向LSTM网络编码后,得到的文本上下文特征向量表示如下:
Figure RE-GDA0002784154420000083
Figure RE-GDA0002784154420000084
Figure RE-GDA0002784154420000085
其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接。
经过该编码层的编码后,最终得到的文本上下文向量表示如下:
Figure RE-GDA0002784154420000086
在公式(10)中,H^d对应的实体空间维度是j*W,其中j代表的是文本中j个单词,j属于V,在经过LSTM编码层后,每单词的维度由原来的K维变为了W维。
3、内部交互层
内部交互层用来建模文本中不同单词的重要程度,对更重要的单词给予更高的权重。该层采用自注意力机制Self-Attention建模查询与文本各自内部的重要语义信息,图3所示为内部交互层结构图,如图3 所示。
对于查询,给定编码层的输出
Figure RE-GDA0002784154420000091
作为输入,通过内部交互层后得到查询中每个单词的向量权重,表示如下:
Figure RE-GDA0002784154420000092
Figure RE-GDA0002784154420000093
其中,
Figure RE-GDA0002784154420000094
表示
Figure RE-GDA0002784154420000095
向量的权重,Wq为权重矩阵,wq为向量的参数。
最终经过内部交互层后产生的查询向量
Figure RE-GDA0002784154420000096
表示如下:
Figure RE-GDA0002784154420000097
对于文本,给定编码层的输出
Figure RE-GDA0002784154420000098
作为输入,通过内部交互层后得到的文本中每个单词的向量表示如下:
Figure RE-GDA0002784154420000099
Figure RE-GDA00027841544200000910
其中,
Figure RE-GDA00027841544200000911
表示
Figure RE-GDA00027841544200000912
向量的权重,Wd为权重矩阵,wd为向量参数。
最终经过内部交互层后产生的文本向量
Figure RE-GDA00027841544200000913
表示如下:
Figure RE-GDA00027841544200000914
4、外部交互层
外部交互层用来建模查询与文本之间的交互相关性。为了获取两者之间的交互相关性,该层采用双向注意力机制来捕获查询与文本交互过程中的匹配模式。双向注意力机制在阅读理解任务中已经表现出良好的性能。因此,本文利用双向注意力机制在文本检索任务中。该双向注意力机制包括由查询到文本的注意力机制(Query2Doc),以及由文本到查询的注意力机制(Doc2Query),图4所示为外部交互层的由查询到文本的注意力机制结构图;图5所示为外部交互层的文本到查询的注意力机制结构图,如图4以及图5所示,
Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度,将这些单词给予更高的权重。对于Query2Doc注意力,该层给定xq作为输入,输出
Figure RE-GDA0002784154420000101
的计算表示如式(17)、式(18) 所示:
Figure RE-GDA0002784154420000102
Figure RE-GDA0002784154420000103
其中,
Figure RE-GDA0002784154420000104
表示Query2Doc注意力机制中的权重矩阵,
Figure RE-GDA0002784154420000105
表示偏置项,yq为由Query2Doc注意力机制最终产生的交互向量。
Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度,并将这些单词给予更高的权重。对于Doc2Query注意力,该层给定xd作为输入,输出
Figure RE-GDA0002784154420000106
计算表示如式(19)、式(20) 所示:
Figure RE-GDA0002784154420000107
Figure RE-GDA0002784154420000108
其中,
Figure RE-GDA0002784154420000109
表示Doc2Query注意力机制中的权重矩阵,
Figure RE-GDA00027841544200001010
表示偏置项,yd为由Doc2Query注意力机制最终产生的交互向量。
5、输出层
输出层将外部交互层的输出yq和yd作为输入,输出查询与文本的相关性分数作为排序依据,图6所示为输出层结构图,如图6所示,具体地,首先对yq和yd按元素相乘得到相似度向量p,然后将向量p经过一个前馈神经网络(FFNN)后得到相似度分数s,其计算过程如式(21)、式(22)所示:
Figure RE-GDA00027841544200001011
Figure RE-GDA00027841544200001012
对模型训练:
由于检索任务是一个典型的排序问题,因此采用铰链损失函数来训练。给定一个三元组(q,d+,d-),其中d+表示数据集中的正例,d-表示数据集中的负例,损失函数的定义如下所示:
l(q,d+,d-;θ)=max(0,1-s(q,d+)+s(q,d-)) (23)
其中,s(q,d)表示查询与文本的预测相似度得分,θ为模型的训练参数,包括注意力机制中的参数和前馈神经网络中的参数。
本发明采用两类基准方法进行对比实验,包括传统检索方法和神经网络排序方法。神经网络排序方法具体包括:
ArcI:ArcI模型采用一维卷积层和最大池化层产生输入的两个文本的特征表示,然后将两个特征进行拼接,最后用多层感知器(MLP) 获得相似性得分。
ArcII:ArcII模型使用一维卷积来建立两个输入句子的交互矩阵。在交互矩阵上使用2D卷积、max pooling和MLP得到最终得分。
MatchPyramid:MatchPyramid模型使用两个输入句子的词嵌入之间的点积来建立两个输入句子之间的交互矩阵,然后将所得矩阵用卷积神经网络进行处理,最终匹配得分采用卷积神经网络输出的MLP 计算。
本发明采用Yahoo!Answers API中提供的getByCategory函数从 Yahoo!Answers网站上获取问答对来构建数据集Yahoo Answers。使用两个与排序位置敏感的评价指标:主集合平均准确率(MAP)和归一化折损累积增益(NDCG)。NDCG分别对检索结果中的前三个和前五个进行排名。
表1三类模型在Yahoo Answers数据集上的实验结果
Figure RE-GDA0002784154420000111
Figure RE-GDA0002784154420000121
由表1可以发现,不同类型的模型在对称数据集上和非对称数据集上的效果均表现出明显差别,对称数据集上的效果比非对称数据集上的效果平均高出10%左右,两个数据集中性能表现最好的结果用粗体标出。
本发明提出的基于多视角注意力机制的深度文本排序方法借鉴了基于表示模型与基于交互式模型的优点,分别考虑了文本的表示与文本的交互,从而提高模型的性能。通过多视角注意力机制可以增加对文本中关键信息的关注并捕获查询与文本交互过程中的匹配模式。具体地,构造两种注意力机制,包括内部注意力机制和外部注意力机制。内部注意力机制主要用于捕获查询内部的关键信息与文本内部的关键信息,从而降低噪声信息的干扰,能够有效克服已有排序模型无法捕获长文本语义信息的问题;而外部注意力机制主要用于捕获查询与文本之间的关键信息,能够捕捉文本之间的交互匹配模式。基于多视角注意力机制深度文本排序方法在两个数据集上的效果均优于其它两类方法,该结果表明基于多视角注意力机制深度文本排序方法不仅能处理对称的数据,而且能够有效解决文本检索中的非对称性问题。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于多视角注意力机制的深度文本排序方法,其特征在于,包括:
输入层,用于输入网络模型中的数据;
编码层使用双向长短期记忆网络分别编码查询和文本中单词的上下文特征,在双向长短期记忆网络中包括前向LSTM和后向LSTM;
内部交互层,用来建模文本中不同单词的重要程度,对重要程度不同的单词给予不同的权重,采用自注意力机制建模查询与文本各自内部的重要语义信息;
外部交互层,用来建模查询与文本之间的交互相关性,采用双向注意力机制来捕获查询与文本交互过程中的匹配模式;
输出层,将外部交互层的输出作为输入,输出查询与文本的相关性分数作为排序依据;
输入网络模型中的数据,包括查询和文本,定义Q=[q1,q2,q3,...,qn]表示查询集合,D={d1,d2,d3,...,dm}表示文本集合,
Figure FDA0003939629000000011
表示查询中的单词,
Figure FDA0003939629000000012
表示文本中的单词,输入层将查询与文本中的每个单词分别映射到K维向量空间,如式(1)以及式(2)所示:
Figure FDA0003939629000000013
Figure FDA0003939629000000014
其中,embedding(·)表示使用V维预训练词向量GloVe模型通过一个嵌入矩阵
Figure FDA0003939629000000015
将单词
Figure FDA0003939629000000016
Figure FDA0003939629000000017
编码为向量,分别得到查询与文本中每个单词对应的词向量
Figure FDA0003939629000000018
Figure FDA0003939629000000019
2.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,
编码层对于查询,以查询词向量
Figure FDA00039396290000000110
作为输入,经过前向LSTM网络编码后,得到W维查询上下文特征向量表示如下:
Figure FDA0003939629000000021
Figure FDA0003939629000000022
Figure FDA0003939629000000023
其中,式(3)表示使用前向LSTM对上层输出的查询的词向量进行编码,式(4)表示使用后向LSTM对上层输出的查询的词向量进行编码,式(5)表示对查询的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的查询上下文向量表示包括:
Figure FDA0003939629000000024
对于文本,该编码层以文本词向量
Figure FDA0003939629000000025
作为输入,经过后向LSTM网络编码后,得到的文本上下文特征向量表示如下:
Figure FDA0003939629000000026
Figure FDA0003939629000000027
Figure FDA0003939629000000028
其中,式(7)表示使用前向LSTM对上层输出的文本的词向量进行编码,式(8)表示使用后向LSTM对上层输出的文本的词向量进行编码,式(9)表示对文本的前向上下文向量和后向的上下文向量进行拼接;
经过该编码层的编码后,得到的文本上下文向量表示如下:
Figure FDA0003939629000000029
3.如权利要求2所述的基于多视角注意力机制的深度文本排序方法,其特征在于,
内部交互层对于查询,给定编码层的输出
Figure FDA00039396290000000210
作为输入,通过内部交互层后得到查询中每个单词的向量权重,表示如下:
Figure FDA00039396290000000211
Figure FDA0003939629000000031
其中,
Figure FDA0003939629000000032
表示
Figure FDA0003939629000000033
向量的权重,Wq为权重矩阵,wq为向量的参数;
经过内部交互层后产生的查询向量
Figure FDA0003939629000000034
表示如下:
Figure FDA0003939629000000035
对于文本,给定编码层的输出
Figure FDA0003939629000000036
作为输入,通过内部交互层后得到的文本中每个单词的向量表示如下:
Figure FDA0003939629000000037
Figure FDA0003939629000000038
其中,
Figure FDA0003939629000000039
表示
Figure FDA00039396290000000310
向量的权重,Wd为权重矩阵,wd为向量参数,
经过内部交互层后产生的文本向量
Figure FDA00039396290000000311
表示如下:
Figure FDA00039396290000000312
4.如权利要求3所述的基于多视角注意力机制的深度文本排序方法,其特征在于,外部交互层通过Query2Doc注意力机制用来捕获文本中哪些单词与查询中的单词有最高的相似度,将这些单词给予更高的权重,对于Query2Doc注意力,给定xq作为输入,输出
Figure FDA00039396290000000313
的计算表示如式(17)以及式(18)所示:
Figure FDA00039396290000000314
Figure FDA00039396290000000315
其中,
Figure FDA00039396290000000316
表示Query2Doc注意力机制中的权重矩阵,
Figure FDA00039396290000000317
表示偏置项,yq为由Query2Doc注意力机制产生的交互向量。
5.如权利要求4所述的基于多视角注意力机制的深度文本排序方法,其特征在于,Doc2Query注意力机制用来捕获查询中哪些单词与文本中的单词有最高的相似度,
对于Doc2Query注意力,给定xd作为输入,输出
Figure FDA00039396290000000318
计算表示如式(19)、式(20)所示:
Figure FDA0003939629000000041
Figure FDA0003939629000000042
其中,
Figure FDA0003939629000000043
表示Doc2Query注意力机制中的权重矩阵,
Figure FDA0003939629000000044
表示偏置项,yd为由Doc2Query注意力机制最终产生的交互向量。
6.如权利要求5所述的基于多视角注意力机制的深度文本排序方法,其特征在于,输出层首先对yq和yd按元素相乘得到相似度向量p,然后将向量p经过一个前馈神经网络后得到相似度分数s,其计算过程如式(21)以及式(22)所示:
Figure FDA0003939629000000045
Figure FDA0003939629000000046
7.如权利要求1所述的基于多视角注意力机制的深度文本排序方法,其特征在于,对于输出层的查询排序的模型训练,采用铰链损失函数来训练,给定一个三元组(q,d+,d-),其中d+表示数据集中的正例,d-表示数据集中的负例,损失函数的定义如下所示:
l(q,d+,d-;θ)=max(0,1-s(q,d+)+s(q,d-)) (23);
其中,s(q,d)表示查询与文本的预测相似度得分,θ为模型的训练参数,包括注意力机制中的参数和前馈神经网络中的参数。
CN202010824405.2A 2020-08-17 2020-08-17 基于多视角注意力机制的深度文本排序方法 Active CN112115253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824405.2A CN112115253B (zh) 2020-08-17 2020-08-17 基于多视角注意力机制的深度文本排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824405.2A CN112115253B (zh) 2020-08-17 2020-08-17 基于多视角注意力机制的深度文本排序方法

Publications (2)

Publication Number Publication Date
CN112115253A CN112115253A (zh) 2020-12-22
CN112115253B true CN112115253B (zh) 2023-02-03

Family

ID=73804924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824405.2A Active CN112115253B (zh) 2020-08-17 2020-08-17 基于多视角注意力机制的深度文本排序方法

Country Status (1)

Country Link
CN (1) CN112115253B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651242B (zh) * 2021-01-20 2024-04-26 重庆大学 一种基于内外注意力机制和可变尺度卷积的文本分类方法
CN112836012B (zh) * 2021-01-25 2023-05-12 中山大学 一种基于排序学习的相似患者检索方法
CN113095433B (zh) * 2021-04-27 2023-06-23 北京石油化工学院 入侵检测网络结构模型的训练方法
CN113535918B (zh) * 2021-07-14 2022-09-09 梁晨 预训练对偶注意力神经网络语义推断对话检索方法及系统、检索设备、存储介质
CN114065729A (zh) * 2021-11-16 2022-02-18 神思电子技术股份有限公司 一种基于深度文本匹配模型的文本排序方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111159223A (zh) * 2019-12-31 2020-05-15 武汉大学 一种基于结构化嵌入的交互式代码搜索方法及装置
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111159223A (zh) * 2019-12-31 2020-05-15 武汉大学 一种基于结构化嵌入的交互式代码搜索方法及装置
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于混合多头注意力和胶囊网络的特定目标情感分析;王家乾等;《中文信息学报》;20200515(第05期);全文 *
改进biLSTM网络的短文本分类方法;李文慧等;《计算机工程与设计》;20200316(第03期);全文 *

Also Published As

Publication number Publication date
CN112115253A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112115253B (zh) 基于多视角注意力机制的深度文本排序方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111611361A (zh) 抽取式机器智能阅读理解问答系统
Manmadhan et al. Visual question answering: a state-of-the-art review
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110516145B (zh) 一种基于句向量编码的信息搜索方法
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
CN114595306A (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
Reddy et al. Convolutional recurrent neural network with template based representation for complex question answering
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
Jiang et al. Hadamard product perceptron attention for image captioning
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant