CN112182439B - 一种基于自注意力网络的搜索结果多样化方法 - Google Patents

一种基于自注意力网络的搜索结果多样化方法 Download PDF

Info

Publication number
CN112182439B
CN112182439B CN202011055076.6A CN202011055076A CN112182439B CN 112182439 B CN112182439 B CN 112182439B CN 202011055076 A CN202011055076 A CN 202011055076A CN 112182439 B CN112182439 B CN 112182439B
Authority
CN
China
Prior art keywords
document
documents
encoder
sequence
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011055076.6A
Other languages
English (en)
Other versions
CN112182439A (zh
Inventor
窦志成
秦绪博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202011055076.6A priority Critical patent/CN112182439B/zh
Publication of CN112182439A publication Critical patent/CN112182439A/zh
Application granted granted Critical
Publication of CN112182439B publication Critical patent/CN112182439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明通过人工智能领域的方法,实现了一种基于自注意力网络的搜索结果多样化方法,采用重排序模型,通过将模型设置编码器和解码器构成的编码器‑解码器结构以及排序学习函数,经过训练步骤后,针对输入的查询和子话题进行运算,最终生成经过多样化重排序的文档序列。通过上述步骤,建立了一个基于自注意力网络的模型结构,捕获候选文档间的全局交互信息;编码器‑解码器结构同时捕获文档本身相对于其他文档的新颖性,以及文档对不同子话题的覆盖程度,并综合考量文档的相关性特征以获得最终的多样化排序评分,并克服现有选择算法难以获得全局最优解的局限性的问题。

Description

一种基于自注意力网络的搜索结果多样化方法
技术领域
本发明涉及人工智能领域,尤其涉及一种基于自注意力网络的搜索结果多样化方法。
背景技术
相关统计数据证明用户在使用搜索引擎时倾向于提交短查询,为了解决短查询所带来的歧义性问题,搜索引擎需要对搜索结果进行多样化排序。对于给定的查询和初始排序文档序列,一个多样化模型应当对文档序列进行多样化重排序,使得重排序之后排在前面位置的文档能够尽可能多地覆盖不同的用户意图。目前主流的多样化排序方法,按照如何衡量文档的多样性,可以分为隐式多样化方法和显式多样化方法:隐式多样化方法按照候选文档相对于已选中的文档是否具有新颖性,即是否与已选中的文档尽可能不相似来判定文档是否具有多样性,显式多样化方法则显式地衡量文档对不同的用户意图(通常用子话题表示)的覆盖程度,一个具有多样性的文档应该覆盖了此前已选中文档序列没有覆盖的用户意图。而按照如何拟定多样化排序函数,则可以分为启发式(非监督式)和学习式(监督式)方法,启发式方法依赖于人工提取的多样化特征与排序函数,而学习式方法则利用机器学习模型,通过训练数据自发地学习到最优化的排序函数与特征。
目前已有的显式与隐式方法都采用贪心文档选择的策略,即每一次都根据当前已选中的文档序列,计算所有候选文档的多样性得分,从中选择当前最佳的候选文档,然后将其附加到当前已选中的文档序列的末尾。由于多样化排序本质上是一个子空间搜索问题,该问题属于NP-难解问题,使用贪心选择的算法策略可以在较短地时间内完成计算,对线上排序任务有良好的适应性。
理论上贪心选择算法每一次选择都会导向当前的局部最优解,而通过一系列局部最优解导向全局最优解的条件是贪心选择过程满足无后效性,即每一个候选文档的选取给已选文档序列带来的新增信息收益应当是彼此相互独立的。但相关研究已经证明,候选文档之间彼此并非相互独立,当一个候选文档被选中之后,其他候选文档的新增信息收益也将随之发生改变。因此,贪心选择算法从理论上即无法获得全局最优的多样化排序。此外,已有的方法通常只考虑单一的隐式或显式多样化特征,而两者并非可以互相取代的关系,综合衡量文档的新颖性和子话题收益通常可以获得更佳的多样化效果。
发明内容
为此,本发明提出了一种基于自注意力网络的搜索结果多样化方法,设计基于自注意力网络的搜索结果多样化框架,所述框架采用重排序模型,经过训练后,针对输入的查询和子话题,所述框架接受一个纯相关性的初始排序作为输入,所属框架的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征,以及文档针对给定查询和子话题的相关性特征,所述相关性特征由传统信息检索模型生成,为一系列常用的传统信息检索相关性特征,分布式向量表征由一系列静态文档表征工具生成;
所述框架的运算结构包括两个部分:编码器-解码器结构和排序学习函数,所述编码器-解码器结构由编码器和解码器构成,输入文档序列的向量表征和子话题的向量表征,返回每一个文档的编码器生成表示向量和解码器生成表示向量,所述编码器生成表示向量和解码器生成表示向量作为所述文档的多样性特征,分别表征所述文档相对于其他文档的新颖性和所述文档对不同子话题的覆盖程度,同时通过所述文档对子话题的相关性参数生成文档相对于子话题的覆盖得分,之后,将所述编码器生成表示向量、所述解码器生成表示向量、所述文档相对查询的相关性特征的参数、所述文档相对于子话题的覆盖得分首尾相连生成文档的全体特征向量,将所述全体特征向量输入线性排序学习函数,返回针对每一个文档给出的多样化排序评分,进而按照该评分对文档进行排序,生成经过多样化重排序的文档序列。
所述相关性特征具体包括BM25、TF-IDF,所述分布式向量表征包括doc2vec和LDA。
所述训练过程为使用list-pairwise的方法对训练样本进行采样;而后生成已选的上下文文档序列,针对多样化排序数据集,首先按照不同的长度,采样一系列上下文文档序列C作为已选文档序列,采样方法包括随机采样和理想排序采样,两种,使用人工标注数据生成理论最佳的排序;之后遍历全体候选文档,将候选文档一个个附加到已选上下文序列中,生成样本[C,di](此处di表示剩余的候选文档集合中,第i个候选文档,注意di应当是与给定查询q相关的候选文档),并计算其评价指标M,采用α-nDCG作为评价指标;对于一对样本r1=[C,d1]和r2=[C,d2],若评价指标M(r1)>M(r2),则将其作为一对正负例样本;对于排序r1,它的评分计算为排序中的所有文档的得分之和,即
Figure BDA0002710627770000021
于是针对每一对正负例样本的损失函数可以表征如下:
Loss=|ΔM|[P(r1,r2)log(P(r1,r2))+(1-P(r1,r2))log(1-P(r1,r2))]
Figure BDA0002710627770000031
|ΔM|=|M(r1)-M(r2)|。
在所述编码器中引入序列掩码进一步加强损失函数,使序列中的每一个文档,都只能与自身和排在自身前面的文档发生交互,即
Figure BDA0002710627770000032
对于r1=[C,d1]有
Figure BDA0002710627770000033
由于序列掩码的存在,公共已选文档序列C中文档的排序评分不会受到后续文档的影响,因此可得/>
Figure BDA0002710627770000034
于是损失函数可以化简为:
Loss=|ΔM|[P(d1,d2)log(P(d1,d2))+(1-P(d1,d2))log(1-P(d1,d2))]。
所述编码器-解码器结构输入的所述文档序列的向量表征输入至所述编码器,所述向量表征为一个由文档向量组成的长度为m的文档序列D={d1,…,dm},自注意力网络的核心为缩放点积注意力函数,表示如下:
Figure BDA0002710627770000035
此处Q,K,V分别为注意力函数中的查询-键-值向量,Q表示的“查询”是注意力函数内部的概念,完整的自注意力网络编码器结构,包含一个多层的自注意力网络,每一层引入多头注意力机制,将输入的文档向量映射到h个不同的子空间中,然后利用每一个头分别捕获自注意力特征:
Figure BDA0002710627770000036
Figure BDA0002710627770000037
其中
Figure BDA0002710627770000038
WH是在训练过程中学习的参数,输入矩阵D′为全体文档序列对应的文档向量组成的矩阵;并且为了表征文档序列的位置信息,在输入矩阵中引入额外的位置编码dpi,即D′={d1+dp1,…,dm+dpm},在每一层间引入残差连接的前馈神经网络,以及Dropout机制用于防止过度拟合和保持申请网络的可训练性,如下所示:
Figure BDA0002710627770000039
SelfAttnEnc(D)=LN(Henc+Dp(FF(Henc)))
Henc=LN(D′+Dp(MHAenc(D′)))
式中,FF表示前馈神经网络,Dp(·)表示Dropout层,LN(·)表示层归一化操作,所述编码器生成全体文档序列的上下文相关表示向量,并连接成矩阵
Figure BDA00027106277700000310
Figure BDA00027106277700000311
每一个文档的表示向量/>
Figure BDA00027106277700000312
都可以用作文档的新颖性特征表示。
所述子话题的向量表征输入为一个给定的子话题序列Q={q1,…,qn},将其输入至编码器中,返回得到对应的子话题表征向量:
Figure BDA0002710627770000041
所述解码器端结构与编码器端相似——即解码器端与编码器端都基于带有多头机制的缩放点积注意力函数,区别在于注意力函数的输入有所不同:对于编码器端,缩放点积自注意力函数的查询-键-值三项均为线性变换之后的原始文档向量表征;对于解码器端,其缩放点积注意力函数的查询矩阵对应编码器端返回的文档序列矩阵,键和值向量对应编码器端返回的子话题序列矩阵,同样经过线性变换,即:
Figure BDA0002710627770000042
Figure BDA0002710627770000043
所述解码器的其他操作与编码器相同:
Figure BDA0002710627770000044
Figure BDA0002710627770000045
Figure BDA0002710627770000046
最终生成每个文档的向量表征
Figure BDA0002710627770000047
每一个文档的表示向量/>
Figure BDA0002710627770000048
用作文档对子话题覆盖的特征表示。
所述多样化排序评分结合相关性参数和排序学习函数生成,di为每一个候选文档的多样化排序评分:
Figure BDA0002710627770000049
/>
Figure BDA00027106277700000410
ws和wq是可训练参数,
Figure BDA00027106277700000411
和/>
Figure BDA00027106277700000412
分别为文档di对查询q和子话题qj的相关性参数,生成排序评分之后,按照评分对文档进行排序获得所述经过多样化重排序的文档序列。
本发明所要实现的技术效果在于:
(1)本发明建立了一个基于自注意力网络(Self-Attention Network)的模型结构,通过综合衡量所有的候选文档彼此间的相关关系,学习每一个文档的上下文相关的文档表示,捕获候选文档间的全局交互信息。
(2)本发明构造了一个编码器-解码器(Encoder-Decoder)结构,同时捕获文档本身相对于其他文档的新颖性,以及文档对不同子话题的覆盖程度,并综合考量文档的相关性特征以获得最终的多样化排序评分。
(3)相对于以往的基于贪心选择的算法,本发明的模型可以通过使用评分直接排序来生成最终的多样化文档序列,且可以克服贪心选择算法难以获得全局最优解的局限性,生成的排序结果比贪心选择算法更加接近全局最优解。
附图说明
图1基于自注意力网络的搜索结果多样化框架整体结构;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
自注意力机制最初作为注意力机制的一种,作为基于循环神经网络的一个组件使用,后来出现了完全依赖于自注意力机制的自注意力网络。自Transformer以来,自注意力网络在越来越多的领域取得了显著的成功。作为一种序列模型,相对于已有的卷积神经网络和循环神经网络,自注意力网络具备两个显著的优点:一方面,它没有时序依赖关系,更加适合于并行计算,另一方面它允许序列中的每一个对象,彼此之间发生直接的全局交互,且可以较好地解决长距离依赖问题。已有的一些预训练语言模型,如GPT和BERT等,通过自注意力网络学习一个句子中的每一个单词的上下文相关表示。类似地,本发明希望使用一个基于自注意力网络的编码器结构,学习一个文档相对于整个文档序列的上下文相关文档表示——对于搜索结果多样化排序任务,这一上下文相关文档表示可以表征文档相对于其他文档的新颖性。此外,本发明还希望通过一个解码器结构,学习文档对于不同子话题的覆盖关系。
基于自注意力网络的搜索结果多样化框架
基于自注意力网络的搜索结果多样化框架整体结构如图1所示。该框架是一个重排序模型,针对给定的查询和子话题,模型接受一个纯相关性的初始排序作为输入,返回针对每一个文档给出的多样化排序评分。按照该评分对文档进行排序,即可生成经过多样化重排序的文档序列。详细而言,模型接受的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征,以及文档针对给定查询和子话题的相关性特征。这些相关性特征由传统信息检索模型生成,包括一系列常用的传统信息检索相关性特征,如BM25,TF-IDF等;分布式向量表征由一系列静态文档表征工具生成,如doc2vec和LDA等。
整个框架主要包括两个部分:编码器-解码器结构和排序学习函数。基于自注意力网络的编码器-解码器结构输入文档序列和子话题的向量表征,返回每一个文档的编码器生成表示向量和解码器生成表示向量。这两种表示向量可以作为文档的多样性特征,分别表征文档相对于其他文档的新颖性,和文档对不同子话题的覆盖程度。将文档的两种表征向量,与文档相对查询的相关性特征参数,和文档相对于子话题的覆盖得分(由文档对子话题的相关性参数生成)首尾相连即可生成文档的全体特征向量,将该特征向量输入线性排序学习函数,即可生成最终的文档多样化排序评分。
基于自注意力网络的编码器-解码器结构
本发明希望能够充分地衡量全体候选文档彼此之间的相关关系,且将文档相对于其他文档的新颖性特征(下文称为隐式特征),与文档对子话题的覆盖特征(下文称为显式特征)一起共同融合进最终的排序评分中。因此,本发明设计了基于自注意力网络的完整的编码器-解码器结构,用于从序列中全体候选文档的角度,衡量文档的隐式特征与显式特征的覆盖。
衡量隐式特征的编码器结构
如上文所述,已有的基于自注意力网络的预训练语言模型(如BERT)通常使用自注意力网络输入句子序列(由一个个单词构成),而本发明希望通过自注意力网络捕获文档间的交互关系。因此,编码器结构的输入为一个由文档向量组成的文档序列D。此处D={d1,…,dm},即长度为m的文档序列,共包含m个文档向量。自注意力网络的核心为缩放点积(Scaled Dot-Product)注意力函数,表示如下:
Figure BDA0002710627770000061
此处Q,K,V分别为注意力函数中的查询-键-值向量(矩阵)。需要说明的是,此处Q表示的“查询”是注意力函数内部的概念,并不是信息检索中的“查询”。完整的自注意力网络编码器结构,包含一个多层的自注意力网络,每一层引入多头(Multi-head)注意力机制,即将输入的文档向量映射到h个不同的子空间中,然后利用每一个头(head)分别捕获自注意力特征。该机制可以表示如下:
Figure BDA0002710627770000071
Figure BDA0002710627770000072
其中
Figure BDA0002710627770000073
WH是在训练过程中学习的参数,输入矩阵D′为全体文档序列对应的文档向量组成的矩阵。为了表征文档序列的位置信息,本发明还在输入矩阵中引入额外的位置编码dpi,即D′={d1+dp1,…,dm+dpm}。为了让深层次的神经网络可以训练,并防止过拟合问题,本发明在每一层间引入残差连接的前馈神经网络,以及Dropout机制,如下所示:
Figure BDA0002710627770000074
SelfAttnEnc(D)=LN(Henc+Dp(FF(Henc)))
Henc=LN(D′+Dp(MHAenc(D′)))
式中,FF表示前馈神经网络,Dp(·)表示Dropout层,LN(·)表示层归一化(LayerNormalization)操作。编码器生成全体文档序列的上下文相关表示向量,并连接成矩阵
Figure BDA0002710627770000075
即/>
Figure BDA0002710627770000076
每一个文档的表示向量/>
Figure BDA0002710627770000077
都可以用作文档的新颖性特征表示。
衡量隐式特征的解码器结构
对于搜索引擎而言,在排序阶段可以使用的子话题通常来自于一系列用户意图挖掘方法,这些子话题通常并不与实际的用户意图完全一致,且仍然存在潜在的冗余性。因此,本发明希望模型也可以尽量抑制子话题的冗余性带来的影响。对于给定的子话题序列Q={q1,…,qn},同样将其输入至编码器中,返回得到对应的子话题表征向量:
Figure BDA0002710627770000078
解码器端的作用是捕获文档对不同子话题的覆盖信号。它的基本结构与编码器端相似,区别在于注意力函数的输入有所不同:解码器端注意力函数的查询矩阵为编码器端返回的文档序列矩阵,键和值向量为编码器端返回的子话题序列矩阵,即:
Figure BDA0002710627770000081
Figure BDA0002710627770000082
解码器的其他操作与编码器相同,如残差连接、Dropout层等:
Figure BDA0002710627770000083
Figure BDA0002710627770000084
Figure BDA0002710627770000085
与编码器端类似,解码器端生成每个文档的向量表征
Figure BDA0002710627770000086
每一个文档的表示向量/>
Figure BDA0002710627770000087
都可以用作文档对子话题覆盖的特征表示。
通过排序学习得到文档的多样化评分
针对每一个文档,在获取了编码器和解码器对应的输出向量之后,结合相关性参数和排序学习函数,即可生成每一个候选文档di的多样化排序评分:
Figure BDA0002710627770000088
Figure BDA0002710627770000089
式中ws和wq都是可训练参数,
Figure BDA00027106277700000810
和/>
Figure BDA00027106277700000811
分别为文档di对查询q和子话题qj的相关性参数。生成排序评分之后,直接按照评分对文档进行排序即可获得最后的多样化文档序列,不需要进行文档选择过程。
模型训练和优化方法
由于多样化排序可用的标注数据集相对较少,本发明使用list-pairwise的方法对训练样本进行采样。所使用的采样算法描述如下:
(1)生成已选的上下文(Context)文档序列。针对多样化排序数据集,首先按照不同的长度,采样一系列上下文文档序列C作为已选文档序列。采样方法包括随机采样和理想排序采样(即使用人工标注数据生成理论最佳的排序)两种。
(2)将候选文档一个个附加(append)到已选上下文序列中,生成样本[C,di]并计算其评价指标M(通常采用α-nDCG作为典型评价指标)。
(3)对于一对样本r1=[C,d1]和r2=[C,d2],若评价指标M(r1)>M(r2),则将其作为一对正负例样本。
对于排序r1,它的评分计算为排序中的所有文档的得分之和,即
Figure BDA0002710627770000091
于是针对每一对正负例样本的损失函数可以表征如下:
Loss=|ΔM|[P(r1,r2)log(P(r1,r2))+(1-P(r1,r2))log(1-P(r1,r2))]
Figure BDA0002710627770000092
|ΔM|=|M(r1)-M(r2)|
由于搜索结果多样化排序是一个从上到下的过程,每一个文档的评价指标只受到自身和排在前面的文档的影响,排在该文档后面的文档不应当对该文档的评价指标产生影响,因此在训练阶段,本发明在编码器中引入序列掩码(Sequence Mask)来模拟这一过程。序列掩码的作用是是序列中的每一个文档,都只能与自身和排在自身前面的文档发生交互。如上所述,
Figure BDA0002710627770000093
对于r1=[C,d1]有/>
Figure BDA0002710627770000094
由于序列掩码的存在,公共已选文档序列C中文档的排序评分不会受到后续文档的影响,因此可得
Figure BDA0002710627770000095
于是损失函数可以化简为:
Loss=|ΔM|[P(d1,d2)log(P(d1,d2))+(1-P(d1,d2))log(1-P(d1,d2))]
于是模型优化的目标可以描述为:通过给定的已选文档序列,尽可能提升模型区分正负例文档d1和d2的差别,让模型可以更好地判别一个文档是否具有多样性(包括新颖性和子话题覆盖)。
结论
本发明提出基于自注意力网络的搜索结果多样化模型,通过直接输入全体候选文档组成的序列,充分衡量全体候选文档间的相关关系,有效地克服了贪心选择算法难以得到全局最优解的局限性。此外,相对于此前单方面衡量文档新颖性或子话题覆盖的方法,本发明的方法实现了文档相对于其他文档的新颖性特征,以及文档对不同子话题的覆盖的特征的融合。本发明设计了一种采样方法和对应的损失函数来优化模型。实验结果证明了本发明模型的有效性。。

Claims (4)

1.一种基于自注意力网络的搜索结果多样化方法,其特征在于:设计基于自注意力网络的搜索结果多样化框架,所述框架采用重排序模型,经过训练后,针对输入的查询和子话题,所述框架接受一个纯相关性的初始排序作为输入,所属框架的输入包括文档序列的分布式向量表征、给定查询对应子话题的分布式向量表征,以及文档针对给定查询和子话题的相关性特征,所述相关性特征由传统信息检索模型生成,为一系列常用的传统信息检索相关性特征,分布式向量表征由一系列静态文档表征工具生成;
所述框架的运算结构包括两个部分:编码器-解码器结构和排序学习函数,所述编码器-解码器结构由编码器和解码器构成,输入文档序列的向量表征和子话题的向量表征,返回每一个文档的编码器生成表示向量和解码器生成表示向量,所述编码器生成表示向量和解码器生成表示向量作为所述文档的多样性特征,分别表征所述文档相对于其他文档的新颖性和所述文档对不同子话题的覆盖程度,同时通过所述文档对子话题的相关性参数生成文档相对于子话题的覆盖得分,之后,将所述编码器生成表示向量、所述解码器生成表示向量、所述文档相对查询的相关性特征的参数、所述文档相对于子话题的覆盖得分首尾相连生成文档的全体特征向量,将所述全体特征向量输入线性排序学习函数,返回针对每一个文档给出的多样化排序评分,进而按照该评分对文档进行排序,生成经过多样化重排序的文档序列;
所述编码器-解码器结构输入的所述文档序列的向量表征输入至所述编码器,所述向量表征为一个由文档向量组成的长度为m的文档序列D={d1,…,dm},自注意力网络的核心为缩放点积注意力函数,表示如下:
Figure FDA0004153380470000011
此处Q,K,V分别为注意力函数中的查询-键-值向量,Q表示的“查询”是注意力函数内部的概念,完整的自注意力网络编码器结构,包含一个多层的自注意力网络,每一层引入多头注意力机制,将输入的文档向量映射到h个不同的子空间中,然后利用每一个头分别捕获自注意力特征:
Figure FDA0004153380470000012
Figure FDA0004153380470000013
其中Wi Q,Wi K,WiV,WH是在训练过程中学习的参数,输入矩阵D′为全体文档序列对应的文档向量组成的矩阵;并且为了表征文档序列的位置信息,在输入矩阵中引入额外的位置编码
Figure FDA0004153380470000014
即/>
Figure FDA0004153380470000015
在每一层间引入残差连接的前馈神经网络,以及Dropout机制用于防止过度拟合和保持申请网络的可训练性,如下所示:
Figure FDA0004153380470000021
SelfAttnEnc(D)=LN(Henc+Dp(FF(Henc)))
Henc=LN(D′+Dp(MHAenc(D′)))
式中,FF表示前馈神经网络,Dp(·)表示Dropout层,LN(·)表示层归一化操作,所述编码器生成全体文档序列的上下文相关表示向量,并连接成矩阵
Figure FDA0004153380470000022
Figure FDA0004153380470000023
每一个文档的表示向量/>
Figure FDA0004153380470000024
都可以用作文档的新颖性特征表示;/>
所述子话题的向量表征输入为一个给定的子话题序列Q={q1,…,qn},将其输入至编码器中,返回得到对应的子话题表征向量:
Figure FDA0004153380470000025
所述解码器端结构与编码器端相似,所述解码器端与编码器端都基于带有多头机制的缩放点积注意力函数,区别在于注意力函数的输入有所不同:对于编码器端,缩放点积自注意力函数的查询-键-值三项均为线性变换之后的原始文档向量表征;对于解码器端,其缩放点积注意力函数的查询矩阵对应编码器端返回的文档序列矩阵,键和值向量对应编码器端返回的子话题序列矩阵,同样经过线性变换,即:
Figure FDA0004153380470000026
Figure FDA0004153380470000027
所述解码器的其他操作与编码器相同:
Figure FDA0004153380470000028
Figure FDA0004153380470000029
Figure FDA00041533804700000210
最终生成每个文档的向量表征
Figure FDA00041533804700000211
每一个文档的表示向量/>
Figure FDA00041533804700000212
用作文档对子话题覆盖的特征表示;
所述多样化排序评分结合相关性参数和排序学习函数生成,si为每一个候选文档的多样化排序评分:
Figure FDA00041533804700000213
Figure FDA00041533804700000214
ws和wq是可训练参数,
Figure FDA00041533804700000215
和/>
Figure FDA00041533804700000216
分别为文档di对查询q和子话题qj的相关性参数,生成排序评分之后,按照评分对文档进行排序获得所述经过多样化重排序的文档序列。
2.根据权利要求1所述的一种基于自注意力网络的搜索结果多样化方法,其特征在于:所述相关性特征具体包括BM25、TF-IDF,所述分布式向量表征包括doc2vec和LDA。
3.根据权利要求2所述的一种基于自注意力网络的搜索结果多样化方法,其特征在于:所述训练过程为使用list-pairwise的方法对训练样本进行采样;而后生成已选的上下文文档序列,针对多样化排序数据集,首先按照不同的长度,采样一系列上下文文档序列C作为已选文档序列,采样方法包括随机采样和理想排序采样,两种,使用人工标注数据生成理论最佳的排序;之后遍历全体候选文档,将候选文档一个个附加到已选上下文序列中,生成样本[C,di],di表示剩余的候选文档集合中,与给定查询q相关的第i个候选文档,并计算其评价指标M,采用α-nDCG作为评价指标;对于一对样本r1=[C,d1]和r2=[C,d2],若评价指标M(r1)>M(r2),则将其作为一对正负例样本;对于排序r1,它的评分计算为排序中的所有文档的得分之和,即
Figure FDA0004153380470000031
于是针对每一对正负例样本的损失函数可以表征如下:
Loss=|ΔM|[P(r1,r2)log(P(r1,r2))+(1-P(r1,r2))log(1-P(r1,r2))]
Figure FDA0004153380470000032
|ΔM|=|M(r1)-M(r2)|。
4.根据权利要求3所述的一种基于自注意力网络的搜索结果多样化方法,其特征在于:在所述编码器中引入序列掩码进一步加强损失函数,使序列中的每一个文档,都只能与自身和排在自身前面的文档发生交互,即
Figure FDA0004153380470000033
对于r1=[C,d1]有/>
Figure FDA0004153380470000034
由于序列掩码的存在,公共已选文档序列C中文档的排序评分不会受到后续文档的影响,因此可得/>
Figure FDA0004153380470000035
于是损失函数可以化简为:
Loss=|ΔM|[P(d1,d2)log(P(d1,d2))+(1-P(d1,d2))log(1-P(d1,d2))]。
CN202011055076.6A 2020-09-30 2020-09-30 一种基于自注意力网络的搜索结果多样化方法 Active CN112182439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011055076.6A CN112182439B (zh) 2020-09-30 2020-09-30 一种基于自注意力网络的搜索结果多样化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011055076.6A CN112182439B (zh) 2020-09-30 2020-09-30 一种基于自注意力网络的搜索结果多样化方法

Publications (2)

Publication Number Publication Date
CN112182439A CN112182439A (zh) 2021-01-05
CN112182439B true CN112182439B (zh) 2023-05-23

Family

ID=73945454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011055076.6A Active CN112182439B (zh) 2020-09-30 2020-09-30 一种基于自注意力网络的搜索结果多样化方法

Country Status (1)

Country Link
CN (1) CN112182439B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487027B (zh) * 2021-07-08 2023-09-22 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN114036262B (zh) * 2021-11-15 2024-03-29 中国人民大学 一种基于图的搜索结果多样化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235833A (zh) * 2013-05-15 2013-08-07 中国科学院自动化研究所 一种借助统计机器翻译的答案检索方法及装置
CN105488195A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于层次结构子话题的搜索结果多样化排序方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN109635083A (zh) * 2018-11-27 2019-04-16 北京科技大学 一种用于搜索ted演讲中话题式查询的文档检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645369B2 (en) * 2008-07-31 2014-02-04 Yahoo! Inc. Classifying documents using implicit feedback and query patterns

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235833A (zh) * 2013-05-15 2013-08-07 中国科学院自动化研究所 一种借助统计机器翻译的答案检索方法及装置
CN105488195A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于层次结构子话题的搜索结果多样化排序方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN109635083A (zh) * 2018-11-27 2019-04-16 北京科技大学 一种用于搜索ted演讲中话题式查询的文档检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Charles L.A. Clarke 等.Novelty and diversity in information retrieval evaluation.《SIGIR '08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval》.2008,659–666. *
Xubo Qin 等.Diversifying Search Results using Self-Attention Network.《CIKM '20: Proceedings of the 29th ACM International Conference on Information &amp Knowledge Management》.2020,1265–1274. *
面向准确性和多样性的个性化推荐算法研究;李爽;《中国博士学位论文全文数据库 信息科技辑》;I138-105 *

Also Published As

Publication number Publication date
CN112182439A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
Ma et al. A survey on empathetic dialogue systems
Alomari et al. Deep reinforcement and transfer learning for abstractive text summarization: A review
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN112182373B (zh) 一种基于上下文表示学习的性化搜索方法
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN112182154B (zh) 一种利用个人词向量消除关键词歧义的个性化搜索模型
US11232154B2 (en) Neural related search query generation
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN112182439B (zh) 一种基于自注意力网络的搜索结果多样化方法
US20230094730A1 (en) Model training method and method for human-machine interaction
CN116821457B (zh) 一种基于多模态大模型的智能咨询及舆情处理系统
CN114528898A (zh) 基于自然语言命令的场景图修改
CA3135717A1 (en) System and method for transferable natural language interface
CN113254604A (zh) 一种基于参考规范的专业文本生成方法及装置
CN111522936B (zh) 一种包含情感的智能客服对话回复生成方法、装置及电子设备
CN111401003B (zh) 一种外部知识增强的幽默文本生成方法
CN112632267B (zh) 一种全局交互与贪心选择相结合的搜索结果多样化系统
Lin Reinforcement learning and bandits for speech and language processing: Tutorial, review and outlook
CN112015947A (zh) 一种语言描述引导的视频时序定位方法、系统
Cohen et al. Dynamic planning in open-ended dialogue using reinforcement learning
CN111125323A (zh) 一种聊天语料标注方法、装置、电子设备及存储介质
Yao Attention-based BiLSTM neural networks for sentiment classification of short texts
CN116561251A (zh) 一种自然语言处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant