CN114385880A

CN114385880A - 一种计及相关性和差异性的在线搜索方法和装置

Info

Publication number: CN114385880A
Application number: CN202111568976.5A
Authority: CN
Inventors: 丁春玲; 房有丽; 曾国荪
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-22
Also published as: US11971941B2; US20230195817A1

Abstract

本发明涉及一种计及相关性和差异性的在线搜索方法和装置，包括根据用户输入的查询请求，确定初始搜索结果集，从初始搜索结果集中选取多个差异度最大的搜索结果，作为最终的搜索结果集，具体过程包括：根据用户提交的查询请求，初步获取多个候选结果；利用语义矩阵刻画候选结果对应的文档的属性特征；根据文档的属性特征，计算文档之间的相似度，然后将候选结果聚类成多个聚类块；从每个聚类块中分别选出代表；根据选出的代表，组成最终的搜索结果集。与现有技术相比，本发明提供了核心的、差异性多样化的搜索结果，特别适用于一些存在多义的短查询关键字搜索的场合，提高了用户搜索的满意度。

Description

一种计及相关性和差异性的在线搜索方法和装置

技术领域

本发明涉及搜索技术领域，尤其是涉及一种计及相关性和差异性的在线搜索方法和装置。

背景技术

搜索引擎是人们从互联网上查找信息和发现知识的有效工具。当用户在线提交一个查询请求后，搜索引擎按照用户的意愿返回海量的搜索结果。在互联网时代，人们不怕找不到信息，而是找到太多无用信息，本质问题仍就是找不到真正想要和满意的信息。目前，搜索引擎返回的海量搜索结果往往按照相关性进行先后排序，与搜索请求非常相关的结果最先返回，并且排在前面，方便用户优先挑选，反之排在后面。搜索返回结果排序的方法很多，例如，根据搜索请求内容语义和搜索结果内容语义的相似度排序，根据搜索返回结果对应网页的链接数，即PageRank进行排序，根据时间时效顺序排序等等。随着互联网的普及和深入应用，人们对在线搜索的需求永无止境。除了希望专业领域的精准搜索，也希望广域网上的通用搜索；既希望集中专一搜索，又希望发散扩展联想搜索；既希望同义正面搜索，又希望反义负面搜索；总之，可以有五彩缤纷，多种多样的搜索需求。

目前，在线搜索广泛采用的是关键字搜索方法，用户只是输入少量的关键字作为搜索请求，提交给搜索引擎，便可得到搜索结果，操作非常简单方便，深受广大用户使用。但是，关键字的录入非常随意，没有任何约束和限制，关键字很有可能是一些有歧义和宽泛性的短语查询，搜索引擎接收这些短语查询请求，却不能准确理解用户的查询意图，导致不同用户可能提交了同一个短语查询请求，但不同用户可能希望得到不同搜索返回结果。此时，若仅考虑返回的搜索结果与查询请求的相关度来排序搜索结果，则很可能无法覆盖用户的检索和查找意图。

而且，当只按照搜索结果与查询请求的相关度进行排序时，那些与查询请求相关度很高，并且彼此很相似的多个搜索结果被放置在搜索返回结果列表中比较靠前的位置，当用户浏览了其中的某一个搜索结果之后，附近的其它候选结果对用户而言可能不感兴趣，自动放弃选择，因此是冗余的。以上两个方面大大降低了用户的搜索效率，用户的搜索体验感极差。

发明内容

本发明的目的就是为了克服上述现有技术存在只按照搜索结果与查询请求的相关度进行排序时，出现冗余现象，大大降低了用户的搜索效率，用户的搜索体验感极差的缺陷而提供一种计及相关性和差异性的在线搜索方法和装置。

本发明的目的可以通过以下技术方案来实现：

一种计及相关性和差异性的在线搜索方法，包括根据用户输入的查询请求，确定初始搜索结果集，该初始搜索结果集包含多个搜索结果，所述方法还包括：

从所述初始搜索结果集中选取多个差异度最大的搜索结果，作为最终的搜索结果集。

进一步地，所述差异度为初始搜索结果集中一搜索结果与其它搜索结果的差异值的累加值。

进一步地，所述最终的搜索结果集的获取表达式为：

式中，d_i为初始搜索结果集中第i个搜索结果，q为查询请求，rel(q,d_i)为搜索结果d_i和查询请求q相关，δ₀为相关性阈值，k为最终的搜索结果集中搜索结果的数量，D^*为最终的搜索结果集，D为初始搜索结果集，D＝{d₁,d₂,…,d_n}，k<n，div(d_i,d_j)为第i个搜索结果d_i与第j个搜索结果d_j的差异值。

进一步地，所述最终的搜索结果集的获取过程具体包括以下步骤：

S1：根据用户提交的查询请求，初步获取n个候选结果集D；

S2：利用语义矩阵刻画所述候选结果对应的文档的属性特征；

S3：根据文档的属性特征，计算文档之间的相似度，然后将n个候选结果D聚类成k类聚类块D₁,D₂,…D_k；

S4：从每个聚类块D₁,D₂,…D_k中分别选出代表d_i ^*；

S5：根据选出的代表，组成最终的搜索结果集D^*＝{d₁ ^*,d₂ ^*,…d_k ^*}。

进一步地，步骤S3具体包括以下步骤：

S301：根据文档的属性特征，计算文档之间的相似度，构造文档图，计算文档图的邻接矩阵W和度矩阵D；

S302：计算拉普拉斯矩阵L＝D-W；

S303：标准化拉普拉斯矩阵L_rw＝D^-1/2LD^-1/2；

S304：计算L_rw最小的k个特征值各自所对应的特征向量u₁,u₂...u_k；

S305：根据特征向量u₁,u₂...u_k组成矩阵U＝{u₁,u₂...u_k},U∈R^n×k；

S306：令y_i∈R^k是U的第i行的向量，其中i＝1,2,…,n；

S307：使用k-means算法将新样本点Y＝{y₁,y₂,...y_n}，聚类成D₁,D₂...D_k。

进一步地，对于文档d，假设其包含语句s₁,s₂,…s_n，每条语句对应的语义向量为s_i＝[v_i1,v_i2,…v_im]，i＝1,2,…,n；所述文档的属性特征的表达式为：

式中，Ψ_d为文档d的属性特征。

进一步地，若某文档不足n条语句，则用空语句补齐，若某文档多于n条语句，则删除重复的语句或者信息量最少的语句。

进一步地，构造文档图的过程具体为：

将每个文档看作图G＝(V,E)，V＝{v₁,v₂,…v_n}中的一个顶点，即d₁＝v₁,d₂＝v₂,…,d_n＝v_n；文档d_i和d_j之间的相互关系看作是顶点v_i和v_j之间的连接边e_ij，连接边e_ij的权值w_ij等于文档d_i和d_j之间的相似度。

进一步地，选出代表d_i ^*具体为对聚类块中的各个结果进行相关性排序，选取相关性最大的结果作为代表d_i ^*。

本实施例还提供一种计及相关性和差异性的在线搜索装置，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如上所述的方法的步骤。

与现有技术相比，本发明具有以下优点：

(1)本发明既考虑搜索返回结果与查询请求之间的相关性，又考虑搜索返回结果之间的差异性，突破了传统搜索引擎只是提供大量相关搜索结果的局限，提供了核心的、差异性多样化的搜索结果，特别适用于一些存在多义的短查询关键字搜索的场合，提高了用户搜索的满意度。

(2)本发明创新地利用谱图理论构建多文档之间的相似图，通过图聚类对多文档进行划分和聚类，寻找搜索返回结果的差异性；同时关注搜索结果与查询请求的相关性，从每个聚类块中选择出一个最具代表的搜索结果返回给用户，降低了搜索返回结果的冗余率。

附图说明

图1为本发明实施例中提供的一种计及相关性和差异性的在线搜索方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

针对传统在线搜索方法的不足，本实施例既考虑搜索结果与查询请求之间的相关性，又考虑搜索结果之间的差异性，为用户提供一种差异性多样化的搜索结果，本实施例计及相关性和差异性的在线搜索方法，包括以下步骤：

根据用户输入的查询请求，确定初始搜索结果集，该初始搜索结果集包含多个搜索结果；

从初始搜索结果集中选取多个差异度最大的搜索结果，作为最终的搜索结果集。

假定用户输入的查询请求为q，搜索引擎最初确定的n个搜索结果的初始搜索结果集为D＝{d₁,d₂,…,d_n}。为了尽可能给用户提供差异性多样化的搜索结果，需要从集合D中选择一个包含k个搜索结果，并且差异度最大的结果的最终的搜索结果集

作为最终的搜索结果返回给用户，k<n。那么，D^*应满足如下要求：

其中，rel(q,d_i)≥δ₀，表示候选结果d_i必须和查询请求q相关，而且相关度必须大等于预先给定的阈值δ₀。最终的搜索结果集D^*＝{d₁ ^*,d₂ ^*,…d_k ^*}，其中每一项d_i ^*与查询q必须满足相关性的条件，并且通过求解目标最大值

使搜索结果D^*＝{d₁ ^*,d₂ ^*,…d_k ^*}之间的差异度最大。由此，给用户提供合理且多样化的搜索结果。

如图1所示，为获取上述最终的搜索结果，本实施例的整体实施方案为：

(1)搜索结果对应文档的语义特征刻画：搜索引擎返回的搜索结果通常是一个URL网址，对应一个Web网页，本质上可以简化地看做是一个正文文档。文档的语义刻画是计算和分析文档的前提，刻画搜索结果文档直接影响到后续聚类的效果，为此通过语义矩阵对文档特征进行刻画。对于一个正文文档d，假设其中包含s₁,s₂,…s_n等语句，每条语句对应的语义向量为s_i＝[v_i1,v_i2,…v_im]，i＝1,2,…,n，则文档d的语义矩阵定义为：

文档的语义矩阵Ψ_d是一个n行、(m×ζ)列、固定大小的二维实数矩阵。根据实际应用情况，可以预先理性规定语句数量n，特征词数量m，以及每个词向量维数ζ。不同文档d包含的语句数量不尽相同，不够n条语句时，用空语句补齐；多于n条语句时，删除重复或信息量不大的语句。

(2)多个文档的划分和聚类：搜索引擎根据用户请求进行搜索期间，初始可能得到大量返回结果文档。对大量结果文档进行聚类，有利于更加准确地选择出差异性大的结果文档集。因此，多个文档的划分和聚类是重要的一步。对多个搜索结果文档D＝{d₁,d₂,…,d_n}进行聚类时，可以将每个文档看作图G＝(V,E)，V＝{v₁,v₂,…v_n}中的一个顶点，即d₁＝v₁,d₂＝v₂,…,d_n＝v_n。文档d_i和d_j之间的相互关系看作是顶点v_i和v_j之间的连接边e_ij，连接边e_ij的权值w_ij等于文档d_i和d_j之间的相似度。根据谱图聚类理论，可以将距离相近的顶点，即内容相似性大的文档集聚在一起，最终将d₁,d₂,…,d_n聚成D₁,D₂,…,D_k共k类，即D₁∪D₂∪…∪D_k＝D，

(3)从每个文档聚类块中选择代表：在一个聚类块中，可能有多个文档，只需要选择一个文档即可。由于本专利搜索方法的目标是最终的返回搜索结果满足差异度最大，同时与搜索请求q尽量相关。因此，在每个聚类块中，根据初选结果的相关性排序，选择本聚类块中排序在最前的一个文档担任本聚类块的唯一代表，作为最终多样化搜索结果集的成员返回给用户。

上述整体方案的具体实施过程的详细描述如下：

假设用户提交给搜索引擎的查询为q，搜索引擎会最初得到n个候选搜索结果，通过语义矩阵Ψ_d对每一个每个搜索候选结果对应的文档进行语义特征刻画，然后分别计算两个文档d_i和d_j之间的相似度s_ij(d_i,d_j)，根据谱图理论构造一个特殊的图G_s(V,E),V＝{d₁,d₂,…d_n}，e_ij＝s_ij，e_ij∈E，由此得到图的邻接矩阵W，度矩阵D，拉普拉斯矩阵L，并对这n个顶点进行k-way聚类，最后，从每个聚类块中分别选择一个相关文档返回给用户。具体算法步骤如下：

输入：用户提交给搜索引擎的查询请求q；

输出：k个既相关又差异性的搜索结果D^*＝{d₁ ^*,d₂ ^*,…d_k ^*}；

S1：根据用户提交的查询请求q，搜索引擎初步得到n个候选结果D＝{d₁,d₂,…,d_n}；

S2：利用语义矩阵刻画候选结果对应文档的属性特征ψ_d1,ψ_d2…,ψ_dn；

S3：根据谱图聚类理论，对n个搜索结果聚成k类D₁,D₂,…D_k；

S301：计算文档之间的相似度s_ij(d_i,d_j)，构造一个特殊的图，计算图的邻接矩阵W，度矩阵D；

S302：计算拉普拉斯矩阵L＝D-W；

S303：标准化拉普拉斯矩阵L_rw＝D^-1/2LD^-1/2；

S305：将上面k个列向量特征向量组成矩阵U＝{u₁,u₂...u_k},U∈R^n×k；

S306：令y_i∈R^k是U的第i行的向量，其中i＝1,2,…,n；

S307：使用k-means算法将新样本点Y＝{y₁,y₂,...y_n}，聚类成D₁,D₂...D_k；

S4：依据搜索引擎初选结果的排序位置，从每个聚类块D₁,D₂,…D_k中分别选出一个代表d_i ^*；

S5：组成差异性多样化的搜索结果集D^*＝{d₁ ^*,d₂ ^*,…d_k ^*}，最终返回给用户。

举例说明：

假设用户a和用户b的查询请求q都是“苹果”，用户a希望搜索的是关于“苹果手机”的相关信息，用户b希望搜索的是关于“苹果水果”的相关信息。按照传统搜索方法返回的搜索结果，如表1所示。可见，搜索返回结果中前3项既不满足用户a也不满足用户b。然而，采用本发明的搜索方法返回的搜索结果如表2所示。不难发现，返回结果的前3个项，同时满足用户a和用户b，说明本专利方法提供了既考虑相关性又考虑差异性的多样化返回搜索结果，提高了用户的搜索效率和满意度。

表1：传统的搜索方法返回的结果

表2：本实施例搜索方法返索结果

本实施例还提供一种计及相关性和差异性的在线搜索装置，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如上所述的计及相关性和差异性的在线搜索方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种计及相关性和差异性的在线搜索方法，包括根据用户输入的查询请求，确定初始搜索结果集，该初始搜索结果集包含多个搜索结果，其特征在于，所述方法还包括：

2.根据权利要求1所述的一种计及相关性和差异性的在线搜索方法，其特征在于，所述差异度为初始搜索结果集中一搜索结果与其它搜索结果的差异值的累加值。

3.根据权利要求1所述的一种计及相关性和差异性的在线搜索方法，其特征在于，所述最终的搜索结果集的获取表达式为：

4.根据权利要求1所述的一种计及相关性和差异性的在线搜索方法，其特征在于，所述最终的搜索结果集的获取过程具体包括以下步骤：

S1：根据用户提交的查询请求，初步获取n个候选结果集D；

S4：从每个聚类块D₁,D₂,…D_k中分别选出代表d_i ^*；

5.根据权利要求4所述的一种计及相关性和差异性的在线搜索方法，其特征在于，步骤S3具体包括以下步骤：

S302：计算拉普拉斯矩阵L＝D-W；

S303：标准化拉普拉斯矩阵L_rw＝D^-1/2LD^-1/2；

S306：令y_i∈R^k是U的第i行的向量，其中i＝1,2,…,n；

6.根据权利要求4所述的一种计及相关性和差异性的在线搜索方法，其特征在于，对于文档d，假设其包含语句s₁,s₂,…s_n，每条语句对应的语义向量为s_i＝[v_i1,v_i2,…v_im]，i＝1,2,…,n；所述文档的属性特征的表达式为：

式中，Ψ_d为文档d的属性特征。

7.根据权利要求6所述的一种计及相关性和差异性的在线搜索方法，其特征在于，若某文档不足n条语句，则用空语句补齐，若某文档多于n条语句，则删除重复的语句或者信息量最少的语句。

8.根据权利要求4所述的一种计及相关性和差异性的在线搜索方法，其特征在于，构造文档图的过程具体为：

9.根据权利要求4所述的一种计及相关性和差异性的在线搜索方法，其特征在于，选出代表d_i ^*具体为对聚类块中的各个结果进行相关性排序，选取相关性最大的结果作为代表d_i ^*。

10.一种计及相关性和差异性的在线搜索装置，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行如权利要求1～9任一所述的方法的步骤。