CN113010776B

CN113010776B - 一种基于Monroe规则的元搜索排序Top-k聚合方法

Info

Publication number: CN113010776B
Application number: CN202110232699.4A
Authority: CN
Inventors: 付晓东; 赵时海; 刘骊; 刘利军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-12-09
Anticipated expiration: 2041-03-03
Also published as: CN113010776A

Abstract

本发明涉及一种基于Monroe规则的元搜索排序Top‑k聚合方法，属于信息处理技术领域。本发明首先采用Borda规则将独立搜索引擎对检索元素的排序关系构造为独立搜索引擎‑检索元素匹配度矩阵，然后借鉴Monroe比例代表思想将元搜索排序Top‑k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合优化问题，最后采用贪心算法对该优化问题进行求解，将所得元素集合作为元搜索排序Top‑k聚合结果反馈给用户。本发明基于Monroe规则动态寻找最大化独立搜索引擎的总体匹配度的检索元素，综合考虑检索元素与关键词的关联性以及独立搜索引擎的比例代表性，相比于其他元搜索排序聚合方法更具公平性，更能满足用户需求。

Description

一种基于Monroe规则的元搜索排序Top-k聚合方法

技术领域

本发明涉及一种基于Monroe规则的元搜索排序Top-k聚合方法，属于互联网信息处理技术领域。

背景技术

搜索引擎(Search Engine)基于特定的策略和算法，对互联网上急剧增长的互联网资源进行检索和处理，帮助检索用户获取与查询关键字相关的网络信息，其核心是一个排序系统。由于互联网的网络信息量非常巨大且不断增加，独立搜索引擎面临覆盖率低、查准率低的问题，同时，个别独立搜索引擎由于受偏见或利益的影响可能存在不公平行为，如通过网站竞价、付费收录等方式来达到提高某些检索元素的综合排名。为满足用户更好的检索需求，元搜索引擎(Meta Search Engine)应运而生，其集成多个独立搜索引擎的检索结果并基于相关算法对该各排序进行聚合以获得元搜索排序聚合结果，将聚合后新的排序结果展示给检索用户。元搜索是元搜索引擎的核心技术，旨在研究如何合并独立搜索引擎的搜索结果为用户提供公平有效的排序聚合结果。各独立搜索引擎根据其特定算法得到的检索结果，即对检索元素的排序，是元搜索引擎的重要基础。

Vijaya P等(Artificial neural network-based merging score for Metasearch engine,2016,23(010):2604-2615)指出现有的元搜索技术主要包括位置聚合算法、标题聚合算法、片段聚合算法等，并提出综合考虑检索元素在独立搜索引擎中的位置、标题、内容域等信息，基于神经网络来聚合各独立搜索引擎的检索结果。

专利“基于群组划分的元搜索引擎个性化结果推荐方法”(专利申请号：201610320125.1，公布号：CN106021423A)公开了一种基于群组划分的元搜索引擎个性化结果推荐方法。该方法通过收集用户兴趣及分析用户的查询日志，将用户划分群组，然后结合同一群组用户的推荐和用户查询词之间的关联性来搜索结果。该方法存在的局限之处是：方法采用基于密度的方法对具有相同兴趣的用户进行群组划分，用户数据密度变化较大时会影响群组划分的效果，使得元搜索聚合准确性降低。

上述元搜索排序聚合方法主要考虑检索元素与关键词的相关性对独立搜索引擎的排序进行合并，但其没有考虑到某些独立搜索引擎受利益或偏见的影响会推荐与关键词相关度较高的元素，但实际上这些检索元素可能并不能真正满足用户需求。而有些搜索引擎中的检索元素虽相关性较小，却包含用户真正需要的内容。因此，仅考虑关键词与检索元素的相关性来进行元搜索会导致最终排序结果缺乏公平性。另外，目前很多元搜索排序聚合方法根据特定算法对独立搜索引擎提供的排序信息进行聚合以获得一个最终排序，但对于检索用户而言并不关注总体排序，仅需要与关键词相关性最高且相对客观的Top-k个聚合结果，且为避免元搜索反馈的信息量太过庞大，根据检索用户需求设置不同k值来反馈元搜索排序聚合结果更具合理性。

发明内容

本发明要解决的技术问题是提供一种基于Monroe规则的元搜索排序Top-k聚合方法，用于解决在元搜索过程中由于各独立搜索引擎可能存在的偏见问题和公平性不足的问题。

本发明的技术方案是：一种基于Monroe规则的元搜索排序Top-k聚合方法，具体步骤为：

Step1：采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵。

Step2：借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题。

Step3：采用贪心算法对该优化问题进行求解，将所得检索元素集合作为元搜索排序Top-k聚合结果。

所述Step1具体为：

Step1.1：设独立搜索引擎集合为S＝{s_i|i＝1,2,...,n}，检索元素集合为E＝{e_j|j＝1,2,...,m}，其中，n表示独立搜素引擎的数量，m表示检索元素数量。检索元素指文档、图像、链接等独立搜索引擎的检索结果中返回的元素，一般由特定关键词检索而来。

Step1.2、独立搜素引擎s_i根据其特定排序算法对检索元素的排序定义为β_i＝e_r(1)＞_ie_r(2)＞_i...＞_ie_r(t)，所有独立搜素引擎对应的检索结果的排序关系集合定义为R＝{β_i|i＝1,2,...,n}。

其中，e_r(1)＞_ie_r(2)表示在独立搜索引擎s_i对检索元素的排序中，元素e_r(1)优于元素e_r(2)，β_i表示独立搜索引擎s_i对t个元素的某种潜在排列，即从m个元素中取出t个元素进行的无重复线性排序，r_(t)表示排列的序号，参数t控制独立搜索引擎对元素排序的完整程度，且t≤m。

当t＝m时，β_i表示独立搜索引擎s_i给出对所有元素的完整偏好排序。

当t＜m时，β_i表示独立搜索引擎s_i只对最偏爱的Top-t个检索元素进行部分截断排序。

Step1.3：记独立搜索引擎s_i对检索元素e_j的匹配度分数为Mat_ij，即独立搜索引擎s_i对选择元素e_j作为元搜索排序Top-k聚合结果的匹配程度，将独立搜索引擎对元素的匹配度分数表示为矩阵Mat＝[Mat_ij]_n×m。

Step1.4：匹配度分数Mat_ij通过Borda规则计算，用参数t控制独立搜索引擎对检索元素排序的完整程度，并将不包含于独立搜索引擎的截断排序Top-t中的元素均记为e'，当t＝m时表示独立搜索引擎s_i对元素有完整的排序时，独立搜索引擎s_i对元素的匹配度计算为：

Mat_ij＝m-pos_i(e_j) (1)

当t＜m时表示独立搜索引擎s_i仅对其偏爱的前t个检索元素进行部分排序，若元素e_j包含在独立搜索引擎s_i的Top-t排序中，则获取该元素在对应排序中的位置并计算匹配度。

若元素e_j不在独立搜索引擎s_i的Top-t排序中，则将该元素记为e'，且默认pos_i(e')＝m，独立搜索引擎s_i对元素e_j的匹配度计算为：

其中，pos_i(e_j)表示在检索元素e_j在独立搜索引擎s_i的排序中的位置。

由于同一独立搜索引擎的排序算法相对稳定，因而其对各检索元素的排序结果相对稳定，在排序结果中元素越靠前表明独立搜索引擎对该元素的匹配度越高。因此，借鉴Borda规则计算独立搜索引擎对检索元素的匹配度分数是合理的。例如，若元素e_j被独立搜索引擎s_i排在首位，则pos_i(e_j)＝1；若元素e_j在独立搜索引擎s_i的第t个位置，则pos_i(s_j)＝t。

所述Step2具体为：

Step2.1：将独立搜索引擎按比例动态地分为k组，每组最多包含

个搜索引擎，每个搜索引擎分别被分配给一个检索元素作为该搜索引擎的代表并计算搜索引擎匹配度，且每个元素最多只能代表

个搜索引擎，或者不能作为代表，寻找在分配过程中最大化独立搜索引擎总体匹配度的k个元素作为元搜索排序结果。

Step2.2：独立搜索引擎总体匹配度计算为：

其中，Φ表示局部分配任务，Φ(i)表示能代表独立搜索引擎s_i的检索元素，pos_i(Φ(i))表示能代表独立搜索引擎s_i的元素在独立搜索引擎s_i的排序中的位置，目标为最大化独立搜索引擎总体匹配度

所述Step3具体为：

Step3.1：根据贪心算法建立一个迭代解决方案，在每次迭代过程中选择某个未被分配过的元素e_j，并将最佳匹配元素e_j的

个独立搜索引擎分配给元素e_j，即把这

个独立搜索引擎分配给元素e_j得到的匹配度最大。

贪心策略为：从独立搜索引擎或检索元素未被分配的初始状态出发，进行k次迭代，每次迭代选择能够保持局部独立搜索引擎匹配度最优或较优的元素，逐步逼近给定的目标，在更短的时间内获得满足独立搜索引擎总体匹配度最大化的元搜素排序Top-k聚合最优解(或较优解)。

Step3.2：在每次迭代过程中，遍历未被分配过的元素列表，根据规则对独立搜索引擎进行排序并存在数组engines中。

所述规则为：若元素e_j在独立搜索引擎s_i排序中的位置小于或等于其在独立搜索引擎s_i’中的位置，即pos_i(e_j)≤pos_i'(e_j)，则认为独立搜索引擎s_i优于s_i’。

Step3.3：截取独立搜索引擎数组engines中前

个搜索引擎。

Step3.4：根据公式(1)分别计算集合E中每个元素分配给数组engines中的n/k个独立搜索引擎所得到的匹配度分数。

Step3.5：取使得这n/k个独立搜索引擎匹配度最大的元素，并将该元素和其对应的独立搜索引擎匹配度分数存放于字典bests中。

Step3.6：将字典bests中的元素加入数组W中，

Step3.7：重复以上步骤，根据检索用户输入的k取值建立k次迭代，并将数组W中的k个元素作为Top-k元搜索排序的聚合结果。

对元搜索排序Top-k聚合结果的属性进行理论分析：

对于有n个搜索引起m个元素的元搜索排序Top-k聚合过程f:R→W，如果至少有n/k个独立搜索引擎将元素e_j放在排序的首位，则e_j∈W。

在元搜索排序Top-k聚合过程中，至少有n/k个独立搜索引擎将元素e_j排在各自排序的首位。由于MGA算法在每次迭代中选择被n/k个独立搜索引擎排在偏好序首位且未被迭代选择过的元素，该算法会选择元素e_j。因此，本发明满足联盟稳定性。

对于元搜索排序Top-k聚合过程f:R→W，假设存在一个包含k个元素的集合W。若每个独立搜索引擎将集合W中的某些元素排在其偏好序的首位，且集合中所有元素均被n/k个独立搜索引擎排在偏好序前面，则集合W为元搜索排序Top-k聚合结果。

根据MGA算法的贪心策略，每次迭代选择局部最大化

个独立搜索引擎匹配度的元素。从而，集合W中被所有独立搜索引起排在其首位的元素及被n/k个独立搜索引擎排在偏好序前面的元素均被选中，即集合W为元搜索排序Top-k聚合结果。因此，本发明满足集体一致性。

元搜索排序Top-k聚合方法需要充分考虑检索元素的比例代表性。为衡量排序结果的比例代表性，本发明已对联盟稳定性及集体一致性这两个公平性质进行阐述及证明。进一步增强本发明的公平性和合理性。

本发明的有益效果是：

1、本发明以独立搜索引擎对检索元素的排序为基础基于Monroe规则提出针对元搜索排序Top-k聚合的评价指标和计算方法，采用Borda规则计算搜索引擎对检索元素的匹配度分数，并根据Monroe规则对元搜索排序聚合问题进行建模，将最大化独立搜索引擎总体匹配度的检索元素集合作为元搜索排序聚合结果。最大化独立搜索引擎的总体匹配度保证元搜索聚合结果的检索元素与关键词具有较高的相关性，而基于Monroe规则将该问题建模为成比例的代表问题，保证每个独立搜索引擎的排序信息均得以充分表达，一方面为用户提供多样性选择，提高元搜索聚合结果的覆盖率，另一方面也进一步保证了元搜索排序Top-k聚合过程的公平性。

2、由于互联网中特定关键词对应的检索元素数量非常庞大，且各独立搜索引擎排序算法覆盖面不同，使得各独立搜索引擎的检索结果通常情况下是部分排序。通过截断排序的方式表达搜索引擎对检索元素的排序，使得方法应用于各独立搜索引擎的元搜索排序聚合方法中广泛存在的排序不完整场景，保证了方法的实用性。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于Monroe规则的元搜索排序Top-k聚合方法，首先采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵；然后借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题；最后采用贪心算法对该优化问题进行求解，将所得检索元素集合作为元搜索排序Top-k聚合结果反馈给用户。

给定6个独立搜索引擎对4个检索元素的排序，独立搜索引擎集合为S＝{s_i|i＝1,2,...,n}，检索元素集合为E＝{e_j|j＝1,2,...,m}，需选择k＝2个元素推荐给用户。独立搜索引擎对元素的排序如表1所示，其中独立搜索引擎对元素的排序指搜索引擎根据其聚合算法对检索元素的排序，独立搜索引擎对检索元素的匹配度随元素在排序中的位置的递增而递减，排在首位的元素匹配度最高，第二个位置次之，以此类推。

表1

由表1可见，独立搜索引擎对检索元素有不同的排序，且独立搜索引擎的排序不完整。因此根据公式(2)，可以利用Borda规则计算表1中各独立搜索引擎对不同元素的匹配度分数。例如对于独立搜索引擎s₁，其对检索元素e₁,e₂,e₃,e₄的匹配度分别为3,2,1,0。以此类推，可以得到所有独立搜索引擎对元素的匹配度矩阵为矩阵Mat＝[Mat_ij]_6×4，i＝1,2,3,4,5,6，j＝1,2,3,4。综上，独立搜索引擎-检索元素匹配度矩阵如表2所示。

表2

Step2.1：已知k取值为2，因此将独立搜索引擎按比例动态地分为2组，每组最多包含n/k＝6/2＝3个搜索引擎，每个独立搜索引擎分别被分配给一个检索元素作为该搜索引擎的代表并计算其匹配度，且每个元素最多只能代表3个独立搜索引擎，或者不能作为代表。寻找在分配过程中最大化独立搜索引擎总体匹配度的2个元素作为元搜索排序聚合结果。

Step2.2：独立搜索引擎总体匹配度计算如下：

其中，Φ表示局部分配任务，Φ(i)表示能代表独立搜索引擎s_i的元素，pos_i(Φ(i))表示能代表独立搜索引擎s_i的元素在独立搜索引擎s_i的排序中的位置。比如将搜索引擎s₁,s₂,s₃分配给检索元素e₁，将用s₄,s₅,s₆分配给元素e₂，根据公式(3)计算得到独立搜索引擎总体匹配度

为3+3+3+2+3+1＝15。

Step3：寻找最大化独立搜索引擎总体匹配度的元搜索排序Top-k聚合结果集合。

Step3.1：建立一个迭代解决方案，由于这里k＝2，从而方法需要迭代两次便可得到排序聚合结果。

当k＝1时，由于检索元素还没有进行分配，因此应该遍历所有元素{e₁,e₂,e₃,e₄}，并根据元素e_j(j＝1,2,3,4)在搜索引擎s₁-s₆中的位置分别对所有搜索引擎进行排序。检索元素e₁,e₂,e₃,e₄具体对应的搜索引擎排序如表3所示：

元素序号	搜索引擎排序
		e<sub>1</sub>	s<sub>1</sub>,s<sub>2</sub>,s<sub>3</sub>,s<sub>4</sub>,s<sub>5</sub>,s<sub>6</sub>
e<sub>2</sub>	s<sub>5</sub>,s<sub>1</sub>,s<sub>4</sub>,s<sub>2</sub>,s<sub>6</sub>,s<sub>3</sub>
		e<sub>3</sub>	s<sub>6</sub>,s<sub>2</sub>,s<sub>5</sub>,s<sub>1</sub>,s<sub>3</sub>,s<sub>4</sub>
e<sub>4</sub>	s<sub>3</sub>,s<sub>6</sub>,s<sub>4</sub>,s<sub>1</sub>,s<sub>2</sub>,s<sub>5</sub>

表3

将每个检索元素分配给其对应的搜索引擎排序的前n/k＝3个引擎并分别计算各独立搜索引擎匹配度：

e₁:s₁,s₂,s₃，s₁,s₂,s₃对应的搜索引擎匹配度为3+3+3＝9。

e₂:s₅,s₁,s₄，s₅,s₁,s₄对应的搜索引擎匹配度为3+2+2＝7。

e₃:s₆,s₂,s₅，s₆,s₂,s₅对应的搜索引擎匹配度为3+2+2＝7。

e₄:s₃,s₆,s₄，s₃,s₆,s₄对应的搜索引擎匹配度为2+2+1＝5。

取其中搜索引擎匹配度最大的元素e₁加入数组W中，并将其对应的搜索引擎s₁,s₂,s₃做相应标记。

当k＝2时，由于元素e₁已分配过，因此应该遍历剩余元素{e₂,e₃,e₄}，并根据元素e₂,e₃,e₄在剩余搜索引擎s₄,s₅,s₆中的位置分别对所有搜索引擎进行排序。元素e₂,e₃,e₄具体对应的搜索引擎排序如表4所示：

元素序号	搜索引擎排序
		e<sub>2</sub>	s<sub>5</sub>,s<sub>4</sub>,s<sub>6</sub>
e<sub>3</sub>	s<sub>6</sub>,s<sub>5</sub>,s<sub>4</sub>
		e<sub>4</sub>	s<sub>6</sub>,s<sub>4</sub>,s<sub>5</sub>

表4

将每个元素分配给其对应的搜索引擎排序的前n/k＝3个引擎并分别计算搜索引擎匹配度：

e₂:s₅,s₄,s₆，s₅,s₄,s₆对应的搜索引擎匹配度为3+1+0＝4。

e₃:s₆,s₅,s₄，s₆,s₅,s₄对应的搜索引擎匹配度为3+2+1＝6。

e₄:s₆,s₄,s₅，s₆,s₄,s₅对应的搜索引擎匹配度为2+1+0＝3。

取其中搜索引擎匹配度最大的元素e₃加入数组W中，并将其对应的搜索引擎s₆,s₅,s₄做相应标记。

Step3.2：由于k取值为2，因此迭代结束，W＝{e₁,e₃}即为元搜索排序Top-k聚合结果。

元搜索排序Top-k聚合方法的联盟稳定性及集体一致性验证：

元素e₁被4个独立搜索引擎排在其偏好排序的首位，即元素e₁至少已被n/k个搜索引擎排在其偏好序首位，从而元素e₁包含于元搜索排序聚合结果集合。因此，本发明满足联盟稳定性。对于集合W中的元素e₁和e₃，根据本发明提出的方法，在第一次迭代选择中元素e₁分别被独立搜索引擎s₁,s₂,s₃排在其偏好序的首位，而元素e₃分别被独立搜索引擎s₆,s₅,s₄排在其偏好排序靠前的位置，从而元素e₁和e₃均被选择作为元搜索排序Top-k聚合结果，因此，本发明满足集体一致性。

总之，基于Monroe规则建立了一种元搜索排序Top-k聚合方法，体现了Top-k元搜索场景中独立搜索引擎总体匹配度最大化的实际需求以及各搜索引擎排序规则不一致的本质特性。采用Monroe规则将元搜索排序Top-k聚合问题进行建模，通过最大化独立搜索引擎总体匹配度来确保元搜索结果与关键词的强相关性。同时，以搜索引擎对检索元素的排序关系为输入避免了由于不同独立搜索引擎排序算法的差异而引入的偏见。其次，通过考虑独立搜索引擎对元素的截断排序实现了排序信息不完整情况下的元搜索排序聚合，保证本发明的实用性。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Monroe规则的元搜索排序Top-k聚合方法，其特征在于：

Step1：采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵；

Step2：借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题；

Step3：采用贪心算法对该优化问题进行求解，将所得检索元素集合作为元搜索排序Top-k聚合结果；

Step2具体为：

个搜索引擎，或者不能作为代表，寻找在分配过程中最大化独立搜索引擎总体匹配度的k个元素作为元搜索排序结果；

Step2.2：独立搜索引擎总体匹配度计算为：

其中，Φ表示局部分配任务，Φ(i)表示能代表独立搜索引擎s_i的检索元素，pos_i(Φ(i))表示能代表独立搜索引擎s_i的元素在独立搜索引擎s_i的排序中的位置，目标为最大化独立搜索引擎总体匹配度maxl(Φ)。

2.根据权利要求1所述的基于Monroe规则的元搜索排序Top-k聚合方法，其特征在于Step1具体为：

Step1.1：设独立搜索引擎集合为S＝{s_i|i＝1,2,...,n}，检索元素集合为E＝{e_j|j＝1,2,...,m}，其中，n表示独立搜素引擎的数量，m表示检索元素数量；

Step1.2、独立搜素引擎s_i根据其特定排序算法对检索元素的排序定义为

所有独立搜素引擎对应的检索结果的排序关系集合定义为R＝{β_i|i＝1,2,...,n}；

其中，e_r(1)＞_ie_r(2)表示在独立搜索引擎s_i对检索元素的排序中，元素e_r(1)优于元素e_r(2)，β_i表示独立搜索引擎s_i对t个元素的某种潜在排列，即从m个元素中取出t个元素进行的无重复线性排序，r_(t)表示排序的序号，参数t控制独立搜索引擎对元素排序的完整程度，且t≤m；

当t＝m时，β_i表示独立搜索引擎s_i给出对所有元素的完整偏好排序；

当t＜m时，β_i表示独立搜索引擎s_i只对最偏爱的Top-t个检索元素进行部分截断排序；

Step1.3：记独立搜索引擎s_i对检索元素e_j的匹配度分数为Mat_ij，即独立搜索引擎s_i对选择元素e_j作为元搜索排序Top-k聚合结果的匹配程度，将独立搜索引擎对元素的匹配度分数表示为矩阵Mat＝[Mat_ij]_n×m；

Mat_ij＝m-pos_i(e_j) (1)

当t＜m时表示独立搜索引擎s_i仅对其偏爱的前t个检索元素进行部分排序，若元素e_j包含在独立搜索引擎s_i的Top-t排序中，则获取该元素在对应排序中的位置并计算匹配度；