CN114036262B

CN114036262B - 一种基于图的搜索结果多样化方法

Info

Publication number: CN114036262B
Application number: CN202111345988.1A
Authority: CN
Inventors: 窦志成; 苏展
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2024-03-29
Anticipated expiration: 2041-11-15
Also published as: CN114036262A

Abstract

本发明通过网络安全领域的方法，实现了一种基于图的搜索结果多样化方法。在每一个步骤中，从剩余文档中根据排序分数f(d_i)从剩余的候选文档挑选最佳文档d^*，之后通过图调整算法，基于所述当前查询q、所述最佳文档d^*和所述意图图G_D,S，对意图图进行调整形成新的所述一组文档S和剩余文档C，并将所述一组文档S作为新的排名文档列表R生成。本发明提供的方法可同时利用图结构来同时建模多个文档对的关系，以实现搜索结果的多样化。进一步使用图卷积网络来提取包含局部和全局信息的多样性特征。为意图图设计了一种图调整算法，以便在文档选择过程中及时获取文档和查询的表示。

Description

一种基于图的搜索结果多样化方法

技术领域

本发明涉及网络搜索技术领域，尤其涉及一种基于图的搜索结果多样化方法。

背景技术

搜索结果多样化的任务旨在提供覆盖尽可能多意图的文档。现有的大多数搜索结果多样化方法可以粗略地分成显式和隐式的方法：显式方法通过文档的子话题覆盖来衡量文档的多样化程度，而隐式方法主要是通过文档之间的不相似度来衡量文档的新颖度。由于搜索结果多样化文档是一个NP难问题，大多数方法使用贪心选择的方法，即每一步都从候选文档集合中选择最优的文档，并由此迭代地生成多样化后的文档序列。

隐式多样化方法：大多数隐式方法都遵循MMR的框架，该框架通过参数λ平衡了文档的相关性和新颖性。新颖性主要由检索到的文档之间的相似性来衡量。它提供了一种平衡策略，用于对搜索引擎返回的文档进行排名，这成为许多隐式和显式方法的基础。Yue和Joachims提出了SVM-DIV，它使用结构化SVM来衡量文档的多样性。R-LTR是一种基于文档关系特征的学习式排序算法，它使用了一些人工定义的规则去抽取文档之间的相关性特征，把搜索结果多样化排序任务当成特殊的排序学习任务。为了解决损失函数与评估措施松散相关的问题，Xia等人提出了PAMM方法来直接优化多样性评估措施。之后又出现了引入神经张量网络(NTN)来自动学习文档关系的方法，使用NTN来改进R-LTR和PAMM的方法被记为R-LTR-NTN和PAMM-NTN,这两种方法取得了目前隐式方法最好的排序效果。作为一种隐式方法，我们的模型还遵循MMR的框架。与以前的隐式方法不同，我们的方法可以从包含意图信息的图结构中自动学习获得文档的多样性特征。

显式多样化方法：大多数显式多样化方法不是利用文档之间的相似性，而是利用子主题覆盖度来衡量文档的多样性。代表性的传统显式方法是xQuAD和PM2。研究人员基于它们进行了许多进一步的研究，例如HxQuAD，HPM2，TxQuAD和TPM2。为了避免人工设计的函数和参数，最近出现了几种显式监督的多样化排序方法。例如，DSSA提出了一种list-pariwise损失函数来训练多样性排序模型。此外，DSSA还引入了递归神经网络(RNN)和注意力机制来对文档序列的子话题覆盖进行建模。研究人员还考虑过同时使用显式(子话题)特征和隐式特征，可以粗略将其归类为显式方法。例如，DVGAN引入生成对抗网络(GAN)，结合了生成器和判别器以获得更好的多样化排序模型。DESA基与自注意力机制，充分利用了文档的新颖性和子话题覆盖。与这些模型相比，我们的方法利用了监督学习的优势，但又不依赖于额外的子主题，因此它是一种隐式方法。

现有大多数隐式方法都是间接地通过文档的表示来获得文档的相似度，这类方法(1)通常只使用一个多样化排序的损失函数来优化整体模型，无法很好地监督文档多样化特征的生成；(2)无法动态地根据已选文档序列建模候选文档的多样化特征，即已选文档对查询信息需求的满足通常被忽略；(3)通常使用无监督预训练的文档表示获得文档关系的特征向量，这样会损失文本中包含的语义信息从而导致模型特征的不精准。

发明内容

为此，本发明首先提出一种基于图的搜索结果多样化方法，对于已经选择的一组文档S，定义初始临时文档列表D、剩余文档C、当前查询q和当前查询q的意图图G_D，S，初始状态下C＝D；

在每一个步骤中，从所述剩余文档C中根据排序分数f(d_i)从剩余的候选文档挑选最佳文档d^*，f(d_i，D，S)＝λf^rel(d_i)+(1-λ)f^div(d_i，D，S)

其中f^rel(d_i)是文档的相关性分数，f^div(d_i，D，S)是文档的多样化分数，根据多样化特征H计算：f^div(d_i，D，S)＝MLP(H_i)，H_i＝F(d_i，D，S，G_D，S)，，F(d_i，D，S，G_D，S)为产生文档多样化特征的方法，即输入候选文档d_i，文档列表D，此时已选文档集S，和当前状态下的意图图G_D，S，F(d_i，D，S，G_D，S)＝H_i，其中考虑初始节点表示X＝[X_q，X₁，...，X_n]，它们在通过图卷积层后，得到它们的新表示Z＝[Z_q，Z₁，...，Z_n]，为了获得多样性特征H_i，考虑查询q表示Z_q，文档d_i的表示Z_i，结点v_i的度D_i，以及整个意图图的表示T_g，文档d_i的多样化特征H_i是上述特征的拼接结果，即H_i＝[Z_q，Z₁，D_i，T_g]，Z_q＝Z^(L)[1]是查询q的初始特征向量X_q经过L层图卷积层更新后的向量表示(Z^(L)[1]表示特征矩阵Z^(L)在索引为1处的特征向量)；Z_i＝Z^(L)[i+1]是文档d_i的初始特征向量X_i经过L层图卷积层更新后的向量表示(Z^(L)[i+1]表示特征矩阵Z^(L)在索引为(i+1)处的特征向量)；是文档d_i在意图图上结点的度，由意图图的邻接矩阵计算得到；/>是意图图所有结点的经过图卷积层更新后的向量和，作为整个意图图的特征向量。

λ是用来平衡相关度和多样化的参数，相关性分数是从相关性特征R_i通过多层感知机获得的f^rel(d_i)＝MLP(R_i)，

之后通过图调整算法，基于所述当前查询q、所述最佳文档d^*和所述意图图G_D，S，对意图图进行调整形成新的所述一组文档S和剩余文档C，并将所述一组文档S作为新的排名文档列表R，

最终生成新的排名文档列表R。

所述意图图的定义方式为：创建一个初始意图图G₀，将当前查询q和D中包含的所有文档作为节点，并创建一个空边集，即N(G₀)＝{v_q，v₁，...，v_n}，然后建立一个文档分类器，以预测两个文档之间的关系，训练一个分类器来明确判断两个文档是否属于同一意图，在获得所有候选文档的预测结果之后，采用图构建器连接被预测属于同一意图的文档节点，文档之间的边权重为二进制值。

所述图调整算法的实现方式为：给定当前查询q、当前查询q的意图图G_D，S、得分最高的最佳文档d^*，使用图神经网络来更新当前查询的表示，将一组文档S中的文档和剩余文档C中的文档之间的所有边都丢弃，添加一条边连接d^*和q以相关分数作为边的权重，相关分数/>是初始排名分数/>的归一化形式，即/>max(s_D)为文档集D中初始排序的最高分，然后删除连接最佳文档d^*和剩余文档C中其他文档的所有边，从而得到并返回更新的所述对当前查询q的意图图G_D，S。

所述文档分类器的实现方式为：对当前查询q及定义初始临时文档列表D，对所有文档进行采样配对，并发送到关系分类器，给出一对文档(d_i，d_j)，文档关系分类器判断d_i和d_j是否共享相同的子话题，利用BERT提取文档d_i和d_j的表示x_i和x_j，将两个文档标记为固定长度M，获得分别代表文档d_i和d_j的词序列[[CLS]，w₁，w₂，…，w_M]和[[CLS]，t₁，t₂，...，t_M]，其中“[CLS]”是一个特殊标记，使用[x_i；x_j；|x_i-x_j|]作为d_i和d_j共同特征的表示：

x_i＝BERT([CLS]，w₁，w₂，...，w_M)，

x_j＝BERT([CLS]，t₁，t₂，...，t_M)，

x_ij＝[x_i；x_j；|x_i-x_j|]，

c_ij＝MLP(x_ij)，

其中c_ij是文档关系分类器给出的d_i和d_j的判断，c_ij＝1表示文档d_i和d_j可能覆盖相同的意图，而c_ij＝0表示文档d_i和d_j不太可能覆盖相同的用户意图，对于初始意图图G_D，S得到邻接矩阵A，其中定义为：

这里的A[i，j]是A的第i行和第j列的元素，代表文档d_i-1和d_j-1的关系，i≥1，j≥1，设置在t时刻，给定选择的最佳文档d_k，设置A[i，k]＝A[k，i]＝0，i∈[2，n+1]来去除给定选择的最佳文档d_k与其他文档之间的所有边，设置A[i，k]＝A[k，i]＝r_k连接查询节点和文档结点v_k，其中r_k是没有考虑多样性的初始排序的相关性得分。

所述图卷积层的实现方式为：图上的文档节点将在预定义范围K内汇总所有邻居的特征向量，然后文档节点通过从其邻居收集的信息来更新其表示，范围K由GCN的层L决定，即K＝L，利用意图图G_D，S对应的邻接矩阵A，使用GCN进行更新结点的表示：

l∈[0，L)是GCN中每一层的标识；I_N是单位矩阵；/>D是特征向量的维度；W^(l)是l层可训练的权重矩阵；σ(.)是激活函数，例如ReLU(.)＝max(0，.)或tanh(.)。

本发明所要实现的技术效果在于：

(1)为了更精准地描述文档的相似度，我们使用意图覆盖的相似度来衡量两个不同文档之间的相似度，具体来说就是两个文档如果覆盖同一个用户意图那么这两个文档是相似的，否则不相似。

(2)为了同时处理多个文档之间的相似关系，我们把文档之间复杂的关系表示在图上，即相似的文档结点之间是相连的，不相似文档之间是不连接的，我们称这样的图为意图图，利用图结构去更新文档结点的表示可以获得意图感知的文档表示。

(3)为了及时精确地表示查询的信息需求以及在文档选择过程中文档的表示，我们使用图调整策略根据选择的文档来调整初始的意图图，借助图卷积神经网络(GCN)我们可以从图上获得局部和全局的文档多样化特征。

附图说明

图1模型整体框架；

图2意图图的调整过程示意图；

图3模型的算法架构；

图4意向图的构建和调整过程算法架构

图5基于BERT的文档关系分类器

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于图的搜索结果多样化方法。

首先定义q是当前查询，D是q的候选文档列表，则搜索结果多样化的任务是根据初始临时排名列表D生成新的排名文档列表R，其中各种文档是在R中排名较高，而多余的则排名较低。

与旨在返回相关文档的Ad-hoc retrieval任务不同，搜索结果的多样化需要同时考虑以下两个方面：(1)查询与文档之间的相关性；(2)文件之间的相似性。大多数现有的多元化方法都采用贪心选择策略，即通过与当前查询的相关性和新颖性(与之前在文档中已选择的文档相比)，来迭代选择下一个文档。

模型概述：

总体结构如图1所示。图1为Graph4DIV的整体结构图。在t＝2时刻，假设此时已选文档为d₂，意图图的调整方式如图所示，文档d_i的排序分数f(d_i)由多样化特征H_i和相关性特征R_i计算得到。在步骤t处，假设S是已经选择的一组文档，模型根据排序分数f(d_i)从剩余的候选文档挑选下一个文档d^*。f(d_i)由给定当前查询q的文档的相关性和新颖性，文档集D和选定的文档序列S组成：

f(d_i，D，S)＝λf^rel(d_i)+(1-λ)f^div(d_i，D，S)

模型的整体框架如图1所示，f^rel(d_i)是文档的相关性分数，f^div(d_i，D，S)是文档的多样化分数，λ是用来平衡相关度和多样化的参数。相关性分数是从相关性特征R_i通过多层感知机获得的：

f^rel(d_i)＝MLP(R_i)

文档多样化分数的计算是本发明的核心。我们提出使用意图图G来表示文档和查询之间的复杂关系，并且根据意图图G来抽取多样化特征H，文档的多样化分数是根据多样化特征H来计算的。

f^div(d_i，D，S)＝MLP(H(d_i，D，S))，

H(d_i，D，S)＝F(d_i，D，S，G_D，S)，

其中G_D，S是查询q的对应意图图，该意图图是在从D中选择S之后更新的。注意，q也属于该图的节点，但是为简化和节省空间，此处省略了表示法。在文档选择过程的每个步骤中，每个文档d_i的多样性特征H_i都在动态变化，并且为了方便起见，我们也省略了符号t。函数F描述了当给定意图图G_D，S，选定的文档集S和文档集D时，我们的模型如何生成文档和相关分集特征的表示。

用于计算H_i的关键组件：

(1)图形建立和调整。我们基于文档关系分类器的结果为每个查询建立一个意图图。在意图图中，查询及其所有候选文档均表示为节点。查询节点仅连接到所选文档，以便获得上下文感知的查询表示。对于其余的候选文档，仅当两个候选文档节点共享相同的查询意图时，它们之间才会存在边缘。根据在每个步骤中选择的文档来动态调整图形。例如，如图2所示，在时间步t＝2的情况下，给定先前选择的文档d₂，我们通过断开所选文档节点v₂和其余候选文档节点v₁，v₃，...v_n之间的边来调整图，并以相关性得分的权重将选定的文档节点v₂连接到查询节点v_q。

(2)基于图的多样性特征。然后我们根据当前意图图计算每个文档的多样化特征。具体而言，考虑初始节点表示X＝[X_q，X₁，...，X_n]，它们在通过两层图卷积层后，我们可以得到它们的新表示Z＝[Z_q，Z₁，...，Z_n]。为了获得多样性特征H_i，我们考虑了查询q表示Z_q，文档d_i的表示Z_i，结点v_i的度D_i，以及整个意图图的表示T_g。文档d_i的多样化特征H_i是上述特征的拼接结果，即H_i＝[Z_q，Z₁，D_i，T_g]。

我们提出的用于搜索结果多样化的总体过程总结为图3的算法1。

意图图：

衡量两个文档的相似性是隐式多样化方法的基础。在搜索结果多样化任务中，我们将文档的相似性视为子话题覆盖的相似性。为了同时建模多个文档对的关系并提取包含局部和全局信息的更全面的多样性特征，我们在图上呈现所有文档d_i和查询q的关系，称为意图图。

意向图是建模文档-文档和查询-文档关系以实现多样化的方法的重要组成部分。我们为每个查询q，q∈Q建立一个意向图G＝(N，E)，其中N表示节点，E表示节点边缘。G是一个无向图，其结点由当前查询q和D中包含的所有文档组成。选择新文档并将其添加到S后，将动态调整边。

意向图的构建和调整过程如图2所示。我们构建了一个文档关系分类器，以判断子主题覆盖文档的关系。这样的关系表示为文档节点之间的边缘。根据分类器的结果，图构建器将使用查询节点和文档节点构建初始意图图。然后，图调整算法将根据每个步骤的文档选择结果对意图图进行细化。接下来，我们将详细介绍工作流程的关键部分。

在意图图的构建中，首先，我们创建一个初始意图图G₀，将当前查询q和D中包含的所有文档作为节点，并创建一个空边集，即N(G₀)＝{v_q，v₁，...，v_n}，然后，我们建立一个文档-文档关系分类器，以预测两个文档之间的关系。搜索结果多样化的目标是提高结果多样性，而衡量多样性的通用方法是基于意图。受此启发，我们训练了一个分类器来明确判断两个文档是否属于同一意图，并且我们认为这是预测文档之间联系的简单但有效的方法。更多细节将在第1.3.3节中阐述。在获得所有候选文档的预测结果之后，图构建器将连接被预测属于同一意图的文档节点，并获得初始图G_D，S，并且当前我们有/>在我们的方法中，我们将文档之间的边权重视为二进制值。

这样就完成了意图图的构建。

对于基于文档选择的图调整算法：给定当前意图图G_D，S，我们将采用文档评分算法来评估其余文档C＝D\S中的每个文档。与分散算法一致，我们将文档划分N中的节点分为两组：所选文档S和剩余文档C。

假设选择了得分最高的最佳文档d^*并将其附加到S，我们使用图4的算法2来调整意图图。考虑到在选择文档d^*时可能满足了部分用户的信息需求，因此我们希望模型能够将更多的注意力集中在所选文档集S尚未涵盖的意图上。因此，我们提出利用S来更新上下文感知的查询表示。我们将查询节点与S内的节点连接，为了利这些边的信息，我们使用图神经网络(例如GCN)来更新当前查询的表示。此外，我们主要利用剩余候选文档的关系来获取文档的表示，因此我们将S中的文档和C中的文档之间的所有边都丢弃。更具体地说，选择d^*后，我们添加一条边来连接d^*和q以相关分数作为边的权重，以帮助更新上下文感知的查询表示。相关分数是初始排名分数的归一化形式，不考虑多样性。然后，我们删除连接d^*和C中其他文档的所有边。

对于文档关系分类器：为了将查询和文档之间复杂的关系转换为意图图的边，我们设计了一个分类器，以根据文档的内容来明确判断两个文档是否覆盖相同的子主题。我们希望我们的模型能够从文档的表示形式中获取文档的关系，而不是将文档和查询的关系集成到其表示形式中。这些文档的关联信息来自文档关联分类器的预测结果。

分类器的主要结构如图5所示。查询query及其文档集D，我们对所有文档进行采样从D配对，并将它们发送到关系分类器。假如给出一对文档(d_i，d_j)，文档关系分类器判断d_i和d_j是否共享相同的子话题。要从文档中挖掘子话题信息，

我们利用BERT提取文档d_i和d_j的表示x_i和x_j。为了方便处理，将两个文档标记为固定长度，例如M。因此，我们可以获得分别代表文档d_i和d_j的词序列[[CLS]，w₁，w₂，…，w_M]和[[CLS]，t₁，t₂，...，t_M]，其中“[CLS]”是一个特殊标记。我们使用[x_i；x_j；|x_i-x_j|]作为d_i和d_j共同特征的表示。

x_i＝BERT([CLS]，w₁，w₂，...，w_M)，

x_j＝BERT([CLS]，t₁，t₂，...，t_M)，

x_ij＝[x_i；x_j；|x_i-x_j|]，

c_ij＝MLP(x_ij)，

其中c_ij是文档关系分类器给出的d_i和d_j的判断。c_ij＝1表示文档d_i和d_j可能覆盖相同的意图，而c_ij＝0表示文档d_i和d_j不太可能覆盖相同的用户意图。

假设所有文档的数量为n＝|D|，则意图图的节点总数为n+1，因为我们在图上表示了查询结点和所有的文档。根据分类器的结果，对于初始意图图G_D，S我们可以得到邻接矩阵A，其中定义为：

这里的A[i，j]是A的第i行和第j列的元素，代表文档d_i-1和d_j-1(i≥1和j≥1)的关系。根据算法2，邻接矩阵A在文档选择过程会动态变化。在t时刻，给定选择的文档d_k，我们通过设置A[i，k]＝A[k，i]＝0，i∈[2，n+1]来去除文档d_k与其他文档之间的所有边。我们设置A[i，k]＝A[k，i]＝r_k连接查询节点和文档结点v_k，其中r_k是没有考虑多样性的初始排序的相关性得分。

基于图的多样化打分：

基于GCN的表示学习的具体方法：给定查询和文档节点的初始表示X＝[X_q，X₁，...，X_n]，X_i是文档d_i的初始表示。然后，我们可以使用意图图上包含的信息来更新表示，并获得具有局部和全局信息的每个节点的新特征向量Z＝[Z_q，Z₁，...，Z_n]。我们不希望使用文档表示来计算相似度，而是希望根据文档相似度来生成文档表示。具体来说，我们利用图卷积网络(GCN)聚合邻居结点的意图信息以生成新的文档表示。在GCN的帮助下，具有类似意图的邻居将增强文档的表示形式。GCN提取的多样性特征将用于产生文档的多样性得分。

图上的文档节点将在预定义范围K内汇总所有邻居的特征向量。然后，文档节点通过从其邻居收集的信息来更新其表示。该程序是逐层进行的。在这项工作中，范围K由GCN的层L决定，即K＝L。根据我们的实验，我们将L＝2。具体来说，假设A是意图图G_D，S对应的邻接矩阵，我们使用GCN进行更新结点的表示：

l∈[0，L)是GCN中每一层的标识；

I_N是单位矩阵；/>D是特征向量的维度；W^(l)是l层可训练的权重矩阵；σ(.)是激活函数，例如ReLU(.)＝max(0，.)或tanh(.)。

相关性和多样化特征的计算：我们根据相关性和多样性对每个候选文档评分。和之前的许多工作相同，我们使用传统的相关特征R_i(包括BM25，TF-IDF，PageRank等)产生文档d_i的相关性分数f^rel(d_i)。

根据从当前意图图G_D，S提取的多样化特征H(d_i，D，S)计算文档d_i的得分f^div(d_i，D，S)：

H_i＝[Z_q，Z₁，D_i，T_g]

其中H_i由当前查询的表示Z_q，文档d_i的表示Z₁，结点v_i的度特征D_i和整个图的表示T_g组成。[；]表示拼接操作。

Z_q＝Z^(l)[1]，Z_i＝Z^(l)[i+1]，

Z_q：查询结点的表示。为了与之前的工作作比较，我们使用doc2vec表示作为初始查询和文档表示形式。基于意图图，查询的表示包含所选文档的信息，这些信息可以在调整图时动态更改。通过查询q的动态表示，我们的模型可以准确及时地对查询的信息需求进行建模。

Z_i：文档d_i的表示，它通过聚合文档结点v_i的邻居特征来包含局部的信息。我们从GCN获得Z_i＝Z^(l)[i+1]。

D_i：意图图上文档d_i的度。由于多样化程度高的文档可能会与其他文档共享更多的意图，因此意图图中节点v_i的度数是必不可少的指标评估文档的多样性的指标。

T_g：通过将所有文档的表示相加而获得的整个图的表示。我们有由于T_g从所有节点向量中得出，因此T_g是全局变量包含了全局的信息。结合局部和全局的特征，我们的方法可以在多样化任务中考虑综合的信息。

Claims

1.一种基于图的搜索结果多样化方法，其特征在于：对于已经选择的一组文档S，定义初始临时文档列表D、剩余文档C、当前查询q和当前查询q的意图图G_D，S，初始状态下C＝D；

其中f^rel(d_i)是文档的相关性分数，f^div(d_i，D，S)是文档的多样化分数，根据多样化特征H计算：f^div(d_i，D，S)＝MLP(H_i)，H_i＝F(d_i，D，S，G_D，S)，F(d_i，D，S，G_D，S)为产生文档多样化特征的方法，即输入候选文档d_i，文档列表D，此时已选文档集S，和当前状态下的意图图G_D，S，F(d_i，D，S，G_D，S)＝H_i，其中考虑初始节点表示X＝[X_q，X₁，...，X_n]，为方便表示，记Z⁽⁰⁾＝X＝[X_q，X₁，...，X_n]为图卷积层的最初输入特征表示，它们在通过L层图卷积层后，得到它们的新表示Z^(L)＝[Z_q，Z₁，...，Z_n]，则多样性特征H_i，有H_i＝[Z_q，Z₁，D_i，T_g]，Z_q＝Z^(L)[1]是查询q的初始特征向量X_q经过L层图卷积层更新后的向量表示，Z^(L)[1]表示特征矩阵Z^(L)在索引为1处的特征向量；Z_i＝Z^(l)[i+1]是文档d_i的初始特征向量X_i经过L层图卷积层更新后的向量表示，Z^(L)[i+1]表示特征矩阵Z^(L)在索引为(i+1)处的特征向量；是文档d_i在意图图上结点的度，由意图图的邻接矩阵计算得到；/>是意图图所有结点的经过图卷积层更新后的向量和，作为整个意图图的特征向量；

最终生成新的排名文档列表R。

2.如权利要求1所述一种基于图的搜索结果多样化方法，其特征在于：所述意图图的定义方式为：创建一个初始意图图G₀，将当前查询q和D中包含的所有文档作为节点，并创建一个空边集，即N(G₀)＝{v_q，v₁，...，v_n}，然后建立一个文档分类器，以预测两个文档之间的关系，训练一个分类器来明确判断两个文档是否属于同一意图，在获得所有候选文档的预测结果之后，采用图构建器连接被预测属于同一意图的文档节点，文档之间的边权重为二进制值。

3.如权利要求2所述一种基于图的搜索结果多样化方法，其特征在于：所述图调整算法的实现方式为：给定当前查询q、当前查询q的意图图G_D，S、得分最高的最佳文档d^*，使用图神经网络来更新当前查询的表示，将一组文档S中的文档和剩余文档C中的文档之间的所有边都丢弃，添加一条边连接d^*和q以相关分数作为边的权重，相关分数/>是文档d^*初始排序分数/>的归一化形式，即/>max(s_D)为文档集D中初始排序的最高分，然后删除连接最佳文档d^*和剩余文档C中其他文档的所有边，从而得到并返回更新的所述对当前查询q的意图图G_D，S。

4.如权利要求3所述一种基于图的搜索结果多样化方法，其特征在于：所述文档分类器的实现方式为：对当前查询q及定义初始临时文档列表D，对所有文档进行采样配对，并发送到关系分类器，给出一对文档(d_i，d_j)，文档关系分类器判断d_i和d_j是否共享相同的子话题，利用BERT提取文档d_i和d_j的表示x_i和x_j，将两个文档标记为固定长度M，获得分别代表文档d_i和d_j的词序列[[CLS]，w₁，w₂，…，w_M]和[[CLS]，t₁，t₂，...，t_M]，其中“[CLS]”是一个特殊标记，使用[x_i；x_j；|x_i-x_j|]作为d_i和d_j共同特征的表示：

x_i＝BERT([CLS]，w₁，w₂，...，w_M)，

x_j＝BERT([CLS]，t₁，t₂，...，t_M)，

x_ij＝[x_i；x_j；|x_i-x_j|]，

c_ij＝MLP(x_ij)，

5.如权利要求4所述一种基于图的搜索结果多样化方法，其特征在于：所述图卷积层的实现方式为：图上的文档节点将在预定义范围K内汇总所有邻居的特征向量，然后文档节点通过从其邻居收集的信息来更新其表示，范围K由GCN的层L决定，即K＝L，利用意图图G_D，S对应的邻接矩阵A，使用GCN进行更新结点的表示：

l∈[0，L)是GCN中每一层的标识；I_N是单位矩阵；D是特征向量的维度；W^(l)是l层可训练的权重矩阵；σ(.)是激活函数，例如ReLU(.)＝max(0，.)或tanh(.)。