CN114036262B - 一种基于图的搜索结果多样化方法 - Google Patents
一种基于图的搜索结果多样化方法 Download PDFInfo
- Publication number
- CN114036262B CN114036262B CN202111345988.1A CN202111345988A CN114036262B CN 114036262 B CN114036262 B CN 114036262B CN 202111345988 A CN202111345988 A CN 202111345988A CN 114036262 B CN114036262 B CN 114036262B
- Authority
- CN
- China
- Prior art keywords
- document
- documents
- graph
- intent
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 3
- 101000608154 Homo sapiens Peroxiredoxin-like 2A Proteins 0.000 description 2
- 102100039896 Peroxiredoxin-like 2A Human genes 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 101100220074 Arabidopsis thaliana CDA8 gene Proteins 0.000 description 1
- 101000851892 Homo sapiens Tropomyosin beta chain Proteins 0.000 description 1
- 101100451407 Hypomyces subiculosus hpm2 gene Proteins 0.000 description 1
- 102100036471 Tropomyosin beta chain Human genes 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明通过网络安全领域的方法,实现了一种基于图的搜索结果多样化方法。在每一个步骤中,从剩余文档中根据排序分数f(di)从剩余的候选文档挑选最佳文档d*,之后通过图调整算法,基于所述当前查询q、所述最佳文档d*和所述意图图GD,S,对意图图进行调整形成新的所述一组文档S和剩余文档C,并将所述一组文档S作为新的排名文档列表R生成。本发明提供的方法可同时利用图结构来同时建模多个文档对的关系,以实现搜索结果的多样化。进一步使用图卷积网络来提取包含局部和全局信息的多样性特征。为意图图设计了一种图调整算法,以便在文档选择过程中及时获取文档和查询的表示。
Description
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种基于图的搜索结果多样化方法。
背景技术
搜索结果多样化的任务旨在提供覆盖尽可能多意图的文档。现有的大多数搜索结果多样化方法可以粗略地分成显式和隐式的方法:显式方法通过文档的子话题覆盖来衡量文档的多样化程度,而隐式方法主要是通过文档之间的不相似度来衡量文档的新颖度。由于搜索结果多样化文档是一个NP难问题,大多数方法使用贪心选择的方法,即每一步都从候选文档集合中选择最优的文档,并由此迭代地生成多样化后的文档序列。
隐式多样化方法:大多数隐式方法都遵循MMR的框架,该框架通过参数λ平衡了文档的相关性和新颖性。新颖性主要由检索到的文档之间的相似性来衡量。它提供了一种平衡策略,用于对搜索引擎返回的文档进行排名,这成为许多隐式和显式方法的基础。Yue和Joachims提出了SVM-DIV,它使用结构化SVM来衡量文档的多样性。R-LTR是一种基于文档关系特征的学习式排序算法,它使用了一些人工定义的规则去抽取文档之间的相关性特征,把搜索结果多样化排序任务当成特殊的排序学习任务。为了解决损失函数与评估措施松散相关的问题,Xia等人提出了PAMM方法来直接优化多样性评估措施。之后又出现了引入神经张量网络(NTN)来自动学习文档关系的方法,使用NTN来改进R-LTR和PAMM的方法被记为R-LTR-NTN和PAMM-NTN,这两种方法取得了目前隐式方法最好的排序效果。作为一种隐式方法,我们的模型还遵循MMR的框架。与以前的隐式方法不同,我们的方法可以从包含意图信息的图结构中自动学习获得文档的多样性特征。
显式多样化方法:大多数显式多样化方法不是利用文档之间的相似性,而是利用子主题覆盖度来衡量文档的多样性。代表性的传统显式方法是xQuAD和PM2。研究人员基于它们进行了许多进一步的研究,例如HxQuAD,HPM2,TxQuAD和TPM2。为了避免人工设计的函数和参数,最近出现了几种显式监督的多样化排序方法。例如,DSSA提出了一种list-pariwise损失函数来训练多样性排序模型。此外,DSSA还引入了递归神经网络(RNN)和注意力机制来对文档序列的子话题覆盖进行建模。研究人员还考虑过同时使用显式(子话题)特征和隐式特征,可以粗略将其归类为显式方法。例如,DVGAN引入生成对抗网络(GAN),结合了生成器和判别器以获得更好的多样化排序模型。DESA基与自注意力机制,充分利用了文档的新颖性和子话题覆盖。与这些模型相比,我们的方法利用了监督学习的优势,但又不依赖于额外的子主题,因此它是一种隐式方法。
现有大多数隐式方法都是间接地通过文档的表示来获得文档的相似度,这类方法(1)通常只使用一个多样化排序的损失函数来优化整体模型,无法很好地监督文档多样化特征的生成;(2)无法动态地根据已选文档序列建模候选文档的多样化特征,即已选文档对查询信息需求的满足通常被忽略;(3)通常使用无监督预训练的文档表示获得文档关系的特征向量,这样会损失文本中包含的语义信息从而导致模型特征的不精准。
发明内容
为此,本发明首先提出一种基于图的搜索结果多样化方法,对于已经选择的一组文档S,定义初始临时文档列表D、剩余文档C、当前查询q和当前查询q的意图图GD,S,初始状态下C=D;
在每一个步骤中,从所述剩余文档C中根据排序分数f(di)从剩余的候选文档挑选最佳文档d*,f(di,D,S)=λfrel(di)+(1-λ)fdiv(di,D,S)
其中frel(di)是文档的相关性分数,fdiv(di,D,S)是文档的多样化分数,根据多样化特征H计算:fdiv(di,D,S)=MLP(Hi),Hi=F(di,D,S,GD,S),,F(di,D,S,GD,S)为产生文档多样化特征的方法,即输入候选文档di,文档列表D,此时已选文档集S,和当前状态下的意图图GD,S,F(di,D,S,GD,S)=Hi,其中考虑初始节点表示X=[Xq,X1,...,Xn],它们在通过图卷积层后,得到它们的新表示Z=[Zq,Z1,...,Zn],为了获得多样性特征Hi,考虑查询q表示Zq,文档di的表示Zi,结点vi的度Di,以及整个意图图的表示Tg,文档di的多样化特征Hi是上述特征的拼接结果,即Hi=[Zq,Z1,Di,Tg],Zq=Z(L)[1]是查询q的初始特征向量Xq经过L层图卷积层更新后的向量表示(Z(L)[1]表示特征矩阵Z(L)在索引为1处的特征向量);Zi=Z(L)[i+1]是文档di的初始特征向量Xi经过L层图卷积层更新后的向量表示(Z(L)[i+1]表示特征矩阵Z(L)在索引为(i+1)处的特征向量);是文档di在意图图上结点的度,由意图图的邻接矩阵计算得到;/>是意图图所有结点的经过图卷积层更新后的向量和,作为整个意图图的特征向量。
λ是用来平衡相关度和多样化的参数,相关性分数是从相关性特征Ri通过多层感知机获得的frel(di)=MLP(Ri),
之后通过图调整算法,基于所述当前查询q、所述最佳文档d*和所述意图图GD,S,对意图图进行调整形成新的所述一组文档S和剩余文档C,并将所述一组文档S作为新的排名文档列表R,
最终生成新的排名文档列表R。
所述意图图的定义方式为:创建一个初始意图图G0,将当前查询q和D中包含的所有文档作为节点,并创建一个空边集,即N(G0)={vq,v1,...,vn},然后建立一个文档分类器,以预测两个文档之间的关系,训练一个分类器来明确判断两个文档是否属于同一意图,在获得所有候选文档的预测结果之后,采用图构建器连接被预测属于同一意图的文档节点,文档之间的边权重为二进制值。
所述图调整算法的实现方式为:给定当前查询q、当前查询q的意图图GD,S、得分最高的最佳文档d*,使用图神经网络来更新当前查询的表示,将一组文档S中的文档和剩余文档C中的文档之间的所有边都丢弃,添加一条边连接d*和q以相关分数作为边的权重,相关分数/>是初始排名分数/>的归一化形式,即/>max(sD)为文档集D中初始排序的最高分,然后删除连接最佳文档d*和剩余文档C中其他文档的所有边,从而得到并返回更新的所述对当前查询q的意图图GD,S。
所述文档分类器的实现方式为:对当前查询q及定义初始临时文档列表D,对所有文档进行采样配对,并发送到关系分类器,给出一对文档(di,dj),文档关系分类器判断di和dj是否共享相同的子话题,利用BERT提取文档di和dj的表示xi和xj,将两个文档标记为固定长度M,获得分别代表文档di和dj的词序列[[CLS],w1,w2,…,wM]和[[CLS],t1,t2,...,tM],其中“[CLS]”是一个特殊标记,使用[xi;xj;|xi-xj|]作为di和dj共同特征的表示:
xi=BERT([CLS],w1,w2,...,wM),
xj=BERT([CLS],t1,t2,...,tM),
xij=[xi;xj;|xi-xj|],
cij=MLP(xij),
其中cij是文档关系分类器给出的di和dj的判断,cij=1表示文档di和dj可能覆盖相同的意图,而cij=0表示文档di和dj不太可能覆盖相同的用户意图,对于初始意图图GD,S得到邻接矩阵A,其中定义为:
这里的A[i,j]是A的第i行和第j列的元素,代表文档di-1和dj-1的关系,i≥1,j≥1,设置在t时刻,给定选择的最佳文档dk,设置A[i,k]=A[k,i]=0,i∈[2,n+1]来去除给定选择的最佳文档dk与其他文档之间的所有边,设置A[i,k]=A[k,i]=rk连接查询节点和文档结点vk,其中rk是没有考虑多样性的初始排序的相关性得分。
所述图卷积层的实现方式为:图上的文档节点将在预定义范围K内汇总所有邻居的特征向量,然后文档节点通过从其邻居收集的信息来更新其表示,范围K由GCN的层L决定,即K=L,利用意图图GD,S对应的邻接矩阵A,使用GCN进行更新结点的表示:
l∈[0,L)是GCN中每一层的标识;IN是单位矩阵;/>D是特征向量的维度;W(l)是l层可训练的权重矩阵;σ(.)是激活函数,例如ReLU(.)=max(0,.)或tanh(.)。
本发明所要实现的技术效果在于:
(1)为了更精准地描述文档的相似度,我们使用意图覆盖的相似度来衡量两个不同文档之间的相似度,具体来说就是两个文档如果覆盖同一个用户意图那么这两个文档是相似的,否则不相似。
(2)为了同时处理多个文档之间的相似关系,我们把文档之间复杂的关系表示在图上,即相似的文档结点之间是相连的,不相似文档之间是不连接的,我们称这样的图为意图图,利用图结构去更新文档结点的表示可以获得意图感知的文档表示。
(3)为了及时精确地表示查询的信息需求以及在文档选择过程中文档的表示,我们使用图调整策略根据选择的文档来调整初始的意图图,借助图卷积神经网络(GCN)我们可以从图上获得局部和全局的文档多样化特征。
附图说明
图1模型整体框架;
图2意图图的调整过程示意图;
图3模型的算法架构;
图4意向图的构建和调整过程算法架构
图5基于BERT的文档关系分类器
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种基于图的搜索结果多样化方法。
首先定义q是当前查询,D是q的候选文档列表,则搜索结果多样化的任务是根据初始临时排名列表D生成新的排名文档列表R,其中各种文档是在R中排名较高,而多余的则排名较低。
与旨在返回相关文档的Ad-hoc retrieval任务不同,搜索结果的多样化需要同时考虑以下两个方面:(1)查询与文档之间的相关性;(2)文件之间的相似性。大多数现有的多元化方法都采用贪心选择策略,即通过与当前查询的相关性和新颖性(与之前在文档中已选择的文档相比),来迭代选择下一个文档。
模型概述:
总体结构如图1所示。图1为Graph4DIV的整体结构图。在t=2时刻,假设此时已选文档为d2,意图图的调整方式如图所示,文档di的排序分数f(di)由多样化特征Hi和相关性特征Ri计算得到。在步骤t处,假设S是已经选择的一组文档,模型根据排序分数f(di)从剩余的候选文档挑选下一个文档d*。f(di)由给定当前查询q的文档的相关性和新颖性,文档集D和选定的文档序列S组成:
f(di,D,S)=λfrel(di)+(1-λ)fdiv(di,D,S)
模型的整体框架如图1所示,frel(di)是文档的相关性分数,fdiv(di,D,S)是文档的多样化分数,λ是用来平衡相关度和多样化的参数。相关性分数是从相关性特征Ri通过多层感知机获得的:
frel(di)=MLP(Ri)
文档多样化分数的计算是本发明的核心。我们提出使用意图图G来表示文档和查询之间的复杂关系,并且根据意图图G来抽取多样化特征H,文档的多样化分数是根据多样化特征H来计算的。
fdiv(di,D,S)=MLP(H(di,D,S)),
H(di,D,S)=F(di,D,S,GD,S),
其中GD,S是查询q的对应意图图,该意图图是在从D中选择S之后更新的。注意,q也属于该图的节点,但是为简化和节省空间,此处省略了表示法。在文档选择过程的每个步骤中,每个文档di的多样性特征Hi都在动态变化,并且为了方便起见,我们也省略了符号t。函数F描述了当给定意图图GD,S,选定的文档集S和文档集D时,我们的模型如何生成文档和相关分集特征的表示。
用于计算Hi的关键组件:
(1)图形建立和调整。我们基于文档关系分类器的结果为每个查询建立一个意图图。在意图图中,查询及其所有候选文档均表示为节点。查询节点仅连接到所选文档,以便获得上下文感知的查询表示。对于其余的候选文档,仅当两个候选文档节点共享相同的查询意图时,它们之间才会存在边缘。根据在每个步骤中选择的文档来动态调整图形。例如,如图2所示,在时间步t=2的情况下,给定先前选择的文档d2,我们通过断开所选文档节点v2和其余候选文档节点v1,v3,...vn之间的边来调整图,并以相关性得分的权重将选定的文档节点v2连接到查询节点vq。
(2)基于图的多样性特征。然后我们根据当前意图图计算每个文档的多样化特征。具体而言,考虑初始节点表示X=[Xq,X1,...,Xn],它们在通过两层图卷积层后,我们可以得到它们的新表示Z=[Zq,Z1,...,Zn]。为了获得多样性特征Hi,我们考虑了查询q表示Zq,文档di的表示Zi,结点vi的度Di,以及整个意图图的表示Tg。文档di的多样化特征Hi是上述特征的拼接结果,即Hi=[Zq,Z1,Di,Tg]。
我们提出的用于搜索结果多样化的总体过程总结为图3的算法1。
意图图:
衡量两个文档的相似性是隐式多样化方法的基础。在搜索结果多样化任务中,我们将文档的相似性视为子话题覆盖的相似性。为了同时建模多个文档对的关系并提取包含局部和全局信息的更全面的多样性特征,我们在图上呈现所有文档di和查询q的关系,称为意图图。
意向图是建模文档-文档和查询-文档关系以实现多样化的方法的重要组成部分。我们为每个查询q,q∈Q建立一个意向图G=(N,E),其中N表示节点,E表示节点边缘。G是一个无向图,其结点由当前查询q和D中包含的所有文档组成。选择新文档并将其添加到S后,将动态调整边。
意向图的构建和调整过程如图2所示。我们构建了一个文档关系分类器,以判断子主题覆盖文档的关系。这样的关系表示为文档节点之间的边缘。根据分类器的结果,图构建器将使用查询节点和文档节点构建初始意图图。然后,图调整算法将根据每个步骤的文档选择结果对意图图进行细化。接下来,我们将详细介绍工作流程的关键部分。
在意图图的构建中,首先,我们创建一个初始意图图G0,将当前查询q和D中包含的所有文档作为节点,并创建一个空边集,即N(G0)={vq,v1,...,vn},然后,我们建立一个文档-文档关系分类器,以预测两个文档之间的关系。搜索结果多样化的目标是提高结果多样性,而衡量多样性的通用方法是基于意图。受此启发,我们训练了一个分类器来明确判断两个文档是否属于同一意图,并且我们认为这是预测文档之间联系的简单但有效的方法。更多细节将在第1.3.3节中阐述。在获得所有候选文档的预测结果之后,图构建器将连接被预测属于同一意图的文档节点,并获得初始图GD,S,并且当前我们有/>在我们的方法中,我们将文档之间的边权重视为二进制值。
这样就完成了意图图的构建。
对于基于文档选择的图调整算法:给定当前意图图GD,S,我们将采用文档评分算法来评估其余文档C=D\S中的每个文档。与分散算法一致,我们将文档划分N中的节点分为两组:所选文档S和剩余文档C。
假设选择了得分最高的最佳文档d*并将其附加到S,我们使用图4的算法2来调整意图图。考虑到在选择文档d*时可能满足了部分用户的信息需求,因此我们希望模型能够将更多的注意力集中在所选文档集S尚未涵盖的意图上。因此,我们提出利用S来更新上下文感知的查询表示。我们将查询节点与S内的节点连接,为了利这些边的信息,我们使用图神经网络(例如GCN)来更新当前查询的表示。此外,我们主要利用剩余候选文档的关系来获取文档的表示,因此我们将S中的文档和C中的文档之间的所有边都丢弃。更具体地说,选择d*后,我们添加一条边来连接d*和q以相关分数作为边的权重,以帮助更新上下文感知的查询表示。相关分数是初始排名分数的归一化形式,不考虑多样性。然后,我们删除连接d*和C中其他文档的所有边。
对于文档关系分类器:为了将查询和文档之间复杂的关系转换为意图图的边,我们设计了一个分类器,以根据文档的内容来明确判断两个文档是否覆盖相同的子主题。我们希望我们的模型能够从文档的表示形式中获取文档的关系,而不是将文档和查询的关系集成到其表示形式中。这些文档的关联信息来自文档关联分类器的预测结果。
分类器的主要结构如图5所示。查询query及其文档集D,我们对所有文档进行采样从D配对,并将它们发送到关系分类器。假如给出一对文档(di,dj),文档关系分类器判断di和dj是否共享相同的子话题。要从文档中挖掘子话题信息,
我们利用BERT提取文档di和dj的表示xi和xj。为了方便处理,将两个文档标记为固定长度,例如M。因此,我们可以获得分别代表文档di和dj的词序列[[CLS],w1,w2,…,wM]和[[CLS],t1,t2,...,tM],其中“[CLS]”是一个特殊标记。我们使用[xi;xj;|xi-xj|]作为di和dj共同特征的表示。
xi=BERT([CLS],w1,w2,...,wM),
xj=BERT([CLS],t1,t2,...,tM),
xij=[xi;xj;|xi-xj|],
cij=MLP(xij),
其中cij是文档关系分类器给出的di和dj的判断。cij=1表示文档di和dj可能覆盖相同的意图,而cij=0表示文档di和dj不太可能覆盖相同的用户意图。
假设所有文档的数量为n=|D|,则意图图的节点总数为n+1,因为我们在图上表示了查询结点和所有的文档。根据分类器的结果,对于初始意图图GD,S我们可以得到邻接矩阵A,其中定义为:
这里的A[i,j]是A的第i行和第j列的元素,代表文档di-1和dj-1(i≥1和j≥1)的关系。根据算法2,邻接矩阵A在文档选择过程会动态变化。在t时刻,给定选择的文档dk,我们通过设置A[i,k]=A[k,i]=0,i∈[2,n+1]来去除文档dk与其他文档之间的所有边。我们设置A[i,k]=A[k,i]=rk连接查询节点和文档结点vk,其中rk是没有考虑多样性的初始排序的相关性得分。
基于图的多样化打分:
基于GCN的表示学习的具体方法:给定查询和文档节点的初始表示X=[Xq,X1,...,Xn],Xi是文档di的初始表示。然后,我们可以使用意图图上包含的信息来更新表示,并获得具有局部和全局信息的每个节点的新特征向量Z=[Zq,Z1,...,Zn]。我们不希望使用文档表示来计算相似度,而是希望根据文档相似度来生成文档表示。具体来说,我们利用图卷积网络(GCN)聚合邻居结点的意图信息以生成新的文档表示。在GCN的帮助下,具有类似意图的邻居将增强文档的表示形式。GCN提取的多样性特征将用于产生文档的多样性得分。
图上的文档节点将在预定义范围K内汇总所有邻居的特征向量。然后,文档节点通过从其邻居收集的信息来更新其表示。该程序是逐层进行的。在这项工作中,范围K由GCN的层L决定,即K=L。根据我们的实验,我们将L=2。具体来说,假设A是意图图GD,S对应的邻接矩阵,我们使用GCN进行更新结点的表示:
l∈[0,L)是GCN中每一层的标识;
IN是单位矩阵;/>D是特征向量的维度;W(l)是l层可训练的权重矩阵;σ(.)是激活函数,例如ReLU(.)=max(0,.)或tanh(.)。
相关性和多样化特征的计算:我们根据相关性和多样性对每个候选文档评分。和之前的许多工作相同,我们使用传统的相关特征Ri(包括BM25,TF-IDF,PageRank等)产生文档di的相关性分数frel(di)。
根据从当前意图图GD,S提取的多样化特征H(di,D,S)计算文档di的得分fdiv(di,D,S):
Hi=[Zq,Z1,Di,Tg]
其中Hi由当前查询的表示Zq,文档di的表示Z1,结点vi的度特征Di和整个图的表示Tg组成。[;]表示拼接操作。
Zq=Z(l)[1],Zi=Z(l)[i+1],
Zq:查询结点的表示。为了与之前的工作作比较,我们使用doc2vec表示作为初始查询和文档表示形式。基于意图图,查询的表示包含所选文档的信息,这些信息可以在调整图时动态更改。通过查询q的动态表示,我们的模型可以准确及时地对查询的信息需求进行建模。
Zi:文档di的表示,它通过聚合文档结点vi的邻居特征来包含局部的信息。我们从GCN获得Zi=Z(l)[i+1]。
Di:意图图上文档di的度。由于多样化程度高的文档可能会与其他文档共享更多的意图,因此意图图中节点vi的度数是必不可少的指标评估文档的多样性的指标。
Tg:通过将所有文档的表示相加而获得的整个图的表示。我们有 由于Tg从所有节点向量中得出,因此Tg是全局变量包含了全局的信息。结合局部和全局的特征,我们的方法可以在多样化任务中考虑综合的信息。
Claims (5)
1.一种基于图的搜索结果多样化方法,其特征在于:对于已经选择的一组文档S,定义初始临时文档列表D、剩余文档C、当前查询q和当前查询q的意图图GD,S,初始状态下C=D;
在每一个步骤中,从所述剩余文档C中根据排序分数f(di)从剩余的候选文档挑选最佳文档d*,f(di,D,S)=λfrel(di)+(1-λ)fdiv(di,D,S)
其中frel(di)是文档的相关性分数,fdiv(di,D,S)是文档的多样化分数,根据多样化特征H计算:fdiv(di,D,S)=MLP(Hi),Hi=F(di,D,S,GD,S),F(di,D,S,GD,S)为产生文档多样化特征的方法,即输入候选文档di,文档列表D,此时已选文档集S,和当前状态下的意图图GD,S,F(di,D,S,GD,S)=Hi,其中考虑初始节点表示X=[Xq,X1,...,Xn],为方便表示,记Z(0)=X=[Xq,X1,...,Xn]为图卷积层的最初输入特征表示,它们在通过L层图卷积层后,得到它们的新表示Z(L)=[Zq,Z1,...,Zn],则多样性特征Hi,有Hi=[Zq,Z1,Di,Tg],Zq=Z(L)[1]是查询q的初始特征向量Xq经过L层图卷积层更新后的向量表示,Z(L)[1]表示特征矩阵Z(L)在索引为1处的特征向量;Zi=Z(l)[i+1]是文档di的初始特征向量Xi经过L层图卷积层更新后的向量表示,Z(L)[i+1]表示特征矩阵Z(L)在索引为(i+1)处的特征向量;是文档di在意图图上结点的度,由意图图的邻接矩阵计算得到;/>是意图图所有结点的经过图卷积层更新后的向量和,作为整个意图图的特征向量;
λ是用来平衡相关度和多样化的参数,相关性分数是从相关性特征Ri通过多层感知机获得的frel(di)=MLP(Ri),
之后通过图调整算法,基于所述当前查询q、所述最佳文档d*和所述意图图GD,S,对意图图进行调整形成新的所述一组文档S和剩余文档C,并将所述一组文档S作为新的排名文档列表R,
最终生成新的排名文档列表R。
2.如权利要求1所述一种基于图的搜索结果多样化方法,其特征在于:所述意图图的定义方式为:创建一个初始意图图G0,将当前查询q和D中包含的所有文档作为节点,并创建一个空边集,即N(G0)={vq,v1,...,vn},然后建立一个文档分类器,以预测两个文档之间的关系,训练一个分类器来明确判断两个文档是否属于同一意图,在获得所有候选文档的预测结果之后,采用图构建器连接被预测属于同一意图的文档节点,文档之间的边权重为二进制值。
3.如权利要求2所述一种基于图的搜索结果多样化方法,其特征在于:所述图调整算法的实现方式为:给定当前查询q、当前查询q的意图图GD,S、得分最高的最佳文档d*,使用图神经网络来更新当前查询的表示,将一组文档S中的文档和剩余文档C中的文档之间的所有边都丢弃,添加一条边连接d*和q以相关分数作为边的权重,相关分数/>是文档d*初始排序分数/>的归一化形式,即/>max(sD)为文档集D中初始排序的最高分,然后删除连接最佳文档d*和剩余文档C中其他文档的所有边,从而得到并返回更新的所述对当前查询q的意图图GD,S。
4.如权利要求3所述一种基于图的搜索结果多样化方法,其特征在于:所述文档分类器的实现方式为:对当前查询q及定义初始临时文档列表D,对所有文档进行采样配对,并发送到关系分类器,给出一对文档(di,dj),文档关系分类器判断di和dj是否共享相同的子话题,利用BERT提取文档di和dj的表示xi和xj,将两个文档标记为固定长度M,获得分别代表文档di和dj的词序列[[CLS],w1,w2,…,wM]和[[CLS],t1,t2,...,tM],其中“[CLS]”是一个特殊标记,使用[xi;xj;|xi-xj|]作为di和dj共同特征的表示:
xi=BERT([CLS],w1,w2,...,wM),
xj=BERT([CLS],t1,t2,...,tM),
xij=[xi;xj;|xi-xj|],
cij=MLP(xij),
其中cij是文档关系分类器给出的di和dj的判断,cij=1表示文档di和dj可能覆盖相同的意图,而cij=0表示文档di和dj不太可能覆盖相同的用户意图,对于初始意图图GD,S得到邻接矩阵A,其中定义为:
这里的A[i,j]是A的第i行和第j列的元素,代表文档di-1和dj-1的关系,i≥1,j≥1,设置在t时刻,给定选择的最佳文档dk,设置A[i,k]=A[k,i]=0,i∈[2,n+1]来去除给定选择的最佳文档dk与其他文档之间的所有边,设置A[i,k]=A[k,i]=rk连接查询节点和文档结点vk,其中rk是没有考虑多样性的初始排序的相关性得分。
5.如权利要求4所述一种基于图的搜索结果多样化方法,其特征在于:所述图卷积层的实现方式为:图上的文档节点将在预定义范围K内汇总所有邻居的特征向量,然后文档节点通过从其邻居收集的信息来更新其表示,范围K由GCN的层L决定,即K=L,利用意图图GD,S对应的邻接矩阵A,使用GCN进行更新结点的表示:
l∈[0,L)是GCN中每一层的标识;IN是单位矩阵;D是特征向量的维度;W(l)是l层可训练的权重矩阵;σ(.)是激活函数,例如ReLU(.)=max(0,.)或tanh(.)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111345988.1A CN114036262B (zh) | 2021-11-15 | 2021-11-15 | 一种基于图的搜索结果多样化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111345988.1A CN114036262B (zh) | 2021-11-15 | 2021-11-15 | 一种基于图的搜索结果多样化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036262A CN114036262A (zh) | 2022-02-11 |
CN114036262B true CN114036262B (zh) | 2024-03-29 |
Family
ID=80137531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111345988.1A Active CN114036262B (zh) | 2021-11-15 | 2021-11-15 | 一种基于图的搜索结果多样化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036262B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171333B (zh) * | 2023-11-03 | 2024-08-02 | 国网浙江省电力有限公司营销服务中心 | 一种电力文件问答式智能检索方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864846A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Method for facilitating world wide web searches utilizing a document distribution fusion strategy |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
CN112182439A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民大学 | 一种基于自注意力网络的搜索结果多样化方法 |
CN112632267A (zh) * | 2020-12-04 | 2021-04-09 | 中国人民大学 | 一种全局交互与贪心选择相结合的搜索结果多样化系统 |
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
-
2021
- 2021-11-15 CN CN202111345988.1A patent/CN114036262B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864846A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Method for facilitating world wide web searches utilizing a document distribution fusion strategy |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
CN112182439A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民大学 | 一种基于自注意力网络的搜索结果多样化方法 |
CN112632267A (zh) * | 2020-12-04 | 2021-04-09 | 中国人民大学 | 一种全局交互与贪心选择相结合的搜索结果多样化系统 |
Non-Patent Citations (3)
Title |
---|
一种基于关键词的网页搜索结果多样化方法;林古立;彭宏;马千里;韦佳;覃姜维;;华南理工大学学报(自然科学版);20110515(第05期);全文 * |
多文档短摘要生成技术研究;张随远;薛源海;俞晓明;刘悦;程学旗;;广西师范大学学报(自然科学版);20190425(第02期);全文 * |
搜索结果多样化研究综述;窦志成;秦绪博;文继荣;;计算机学报;20191231(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114036262A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321494A (zh) | 基于矩阵分解与网络嵌入联合模型的社会化推荐方法 | |
Sha et al. | A framework for recommending relevant and diverse items. | |
CN113255895B (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
Yang et al. | Graph attention topic modeling network | |
CN106130899B (zh) | 一种生成业务路径的方法和装置 | |
US20080147630A1 (en) | Recommender and payment methods for recruitment | |
CN112507246B (zh) | 一种融合全局和局部社会兴趣影响的社会推荐方法 | |
Kaya | A hotel recommendation system based on customer location: a link prediction approach | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN108470075A (zh) | 一种面向排序预测的社会化推荐方法 | |
CN107229645A (zh) | 信息处理方法、服务平台及客户端 | |
CN114358657B (zh) | 一种基于模型融合的岗位推荐方法及装置 | |
CN108875090A (zh) | 一种歌曲推荐方法、装置和存储介质 | |
CN107562966A (zh) | 用于网页链接检索排序的基于智能学习的优化系统及方法 | |
CN114036262B (zh) | 一种基于图的搜索结果多样化方法 | |
Tabourier et al. | RankMerging: a supervised learning-to-rank framework to predict links in large social networks | |
Stankova et al. | Classification over bipartite graphs through projection | |
Huang et al. | Two-stage fuzzy cross-efficiency aggregation model using a fuzzy information retrieval method | |
Ning et al. | An adaptive node embedding framework for multiplex networks | |
CN114048386B (zh) | 一种基于深度学习的融合个性化和多样化的搜索方法 | |
CN109033463A (zh) | 一种基于端到端记忆网络的社区问答内容推荐方法 | |
Han et al. | Scene re-ranking for recommendation | |
Jiang et al. | A novel meta-graph-based attention model for event recommendation | |
Ye et al. | An interpretable mechanism for personalized recommendation based on cross feature | |
CN108280176A (zh) | 基于MapReduce的数据挖掘优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |