CN113010776B - 一种基于Monroe规则的元搜索排序Top-k聚合方法 - Google Patents

一种基于Monroe规则的元搜索排序Top-k聚合方法 Download PDF

Info

Publication number
CN113010776B
CN113010776B CN202110232699.4A CN202110232699A CN113010776B CN 113010776 B CN113010776 B CN 113010776B CN 202110232699 A CN202110232699 A CN 202110232699A CN 113010776 B CN113010776 B CN 113010776B
Authority
CN
China
Prior art keywords
search
independent
search engine
elements
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110232699.4A
Other languages
English (en)
Other versions
CN113010776A (zh
Inventor
付晓东
赵时海
刘骊
刘利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110232699.4A priority Critical patent/CN113010776B/zh
Publication of CN113010776A publication Critical patent/CN113010776A/zh
Application granted granted Critical
Publication of CN113010776B publication Critical patent/CN113010776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Monroe规则的元搜索排序Top‑k聚合方法,属于信息处理技术领域。本发明首先采用Borda规则将独立搜索引擎对检索元素的排序关系构造为独立搜索引擎‑检索元素匹配度矩阵,然后借鉴Monroe比例代表思想将元搜索排序Top‑k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合优化问题,最后采用贪心算法对该优化问题进行求解,将所得元素集合作为元搜索排序Top‑k聚合结果反馈给用户。本发明基于Monroe规则动态寻找最大化独立搜索引擎的总体匹配度的检索元素,综合考虑检索元素与关键词的关联性以及独立搜索引擎的比例代表性,相比于其他元搜索排序聚合方法更具公平性,更能满足用户需求。

Description

一种基于Monroe规则的元搜索排序Top-k聚合方法
技术领域
本发明涉及一种基于Monroe规则的元搜索排序Top-k聚合方法,属于互联网信息处理技术领域。
背景技术
搜索引擎(Search Engine)基于特定的策略和算法,对互联网上急剧增长的互联网资源进行检索和处理,帮助检索用户获取与查询关键字相关的网络信息,其核心是一个排序系统。由于互联网的网络信息量非常巨大且不断增加,独立搜索引擎面临覆盖率低、查准率低的问题,同时,个别独立搜索引擎由于受偏见或利益的影响可能存在不公平行为,如通过网站竞价、付费收录等方式来达到提高某些检索元素的综合排名。为满足用户更好的检索需求,元搜索引擎(Meta Search Engine)应运而生,其集成多个独立搜索引擎的检索结果并基于相关算法对该各排序进行聚合以获得元搜索排序聚合结果,将聚合后新的排序结果展示给检索用户。元搜索是元搜索引擎的核心技术,旨在研究如何合并独立搜索引擎的搜索结果为用户提供公平有效的排序聚合结果。各独立搜索引擎根据其特定算法得到的检索结果,即对检索元素的排序,是元搜索引擎的重要基础。
Vijaya P等(Artificial neural network-based merging score for Metasearch engine,2016,23(010):2604-2615)指出现有的元搜索技术主要包括位置聚合算法、标题聚合算法、片段聚合算法等,并提出综合考虑检索元素在独立搜索引擎中的位置、标题、内容域等信息,基于神经网络来聚合各独立搜索引擎的检索结果。
专利“基于群组划分的元搜索引擎个性化结果推荐方法”(专利申请号:201610320125.1,公布号:CN106021423A)公开了一种基于群组划分的元搜索引擎个性化结果推荐方法。该方法通过收集用户兴趣及分析用户的查询日志,将用户划分群组,然后结合同一群组用户的推荐和用户查询词之间的关联性来搜索结果。该方法存在的局限之处是:方法采用基于密度的方法对具有相同兴趣的用户进行群组划分,用户数据密度变化较大时会影响群组划分的效果,使得元搜索聚合准确性降低。
上述元搜索排序聚合方法主要考虑检索元素与关键词的相关性对独立搜索引擎的排序进行合并,但其没有考虑到某些独立搜索引擎受利益或偏见的影响会推荐与关键词相关度较高的元素,但实际上这些检索元素可能并不能真正满足用户需求。而有些搜索引擎中的检索元素虽相关性较小,却包含用户真正需要的内容。因此,仅考虑关键词与检索元素的相关性来进行元搜索会导致最终排序结果缺乏公平性。另外,目前很多元搜索排序聚合方法根据特定算法对独立搜索引擎提供的排序信息进行聚合以获得一个最终排序,但对于检索用户而言并不关注总体排序,仅需要与关键词相关性最高且相对客观的Top-k个聚合结果,且为避免元搜索反馈的信息量太过庞大,根据检索用户需求设置不同k值来反馈元搜索排序聚合结果更具合理性。
发明内容
本发明要解决的技术问题是提供一种基于Monroe规则的元搜索排序Top-k聚合方法,用于解决在元搜索过程中由于各独立搜索引擎可能存在的偏见问题和公平性不足的问题。
本发明的技术方案是:一种基于Monroe规则的元搜索排序Top-k聚合方法,具体步骤为:
Step1:采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵。
Step2:借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题。
Step3:采用贪心算法对该优化问题进行求解,将所得检索元素集合作为元搜索排序Top-k聚合结果。
所述Step1具体为:
Step1.1:设独立搜索引擎集合为S={si|i=1,2,...,n},检索元素集合为E={ej|j=1,2,...,m},其中,n表示独立搜素引擎的数量,m表示检索元素数量。检索元素指文档、图像、链接等独立搜索引擎的检索结果中返回的元素,一般由特定关键词检索而来。
Step1.2、独立搜素引擎si根据其特定排序算法对检索元素的排序定义为βi=er(1)ier(2)i...>ier(t),所有独立搜素引擎对应的检索结果的排序关系集合定义为R={βi|i=1,2,...,n}。
其中,er(1)ier(2)表示在独立搜索引擎si对检索元素的排序中,元素er(1)优于元素er(2),βi表示独立搜索引擎si对t个元素的某种潜在排列,即从m个元素中取出t个元素进行的无重复线性排序,r(t)表示排列的序号,参数t控制独立搜索引擎对元素排序的完整程度,且t≤m。
当t=m时,βi表示独立搜索引擎si给出对所有元素的完整偏好排序。
当t<m时,βi表示独立搜索引擎si只对最偏爱的Top-t个检索元素进行部分截断排序。
Step1.3:记独立搜索引擎si对检索元素ej的匹配度分数为Matij,即独立搜索引擎si对选择元素ej作为元搜索排序Top-k聚合结果的匹配程度,将独立搜索引擎对元素的匹配度分数表示为矩阵Mat=[Matij]n×m
Step1.4:匹配度分数Matij通过Borda规则计算,用参数t控制独立搜索引擎对检索元素排序的完整程度,并将不包含于独立搜索引擎的截断排序Top-t中的元素均记为e',当t=m时表示独立搜索引擎si对元素有完整的排序时,独立搜索引擎si对元素的匹配度计算为:
Matij=m-posi(ej) (1)
当t<m时表示独立搜索引擎si仅对其偏爱的前t个检索元素进行部分排序,若元素ej包含在独立搜索引擎si的Top-t排序中,则获取该元素在对应排序中的位置并计算匹配度。
若元素ej不在独立搜索引擎si的Top-t排序中,则将该元素记为e',且默认posi(e')=m,独立搜索引擎si对元素ej的匹配度计算为:
Figure GDA0003900972960000031
其中,posi(ej)表示在检索元素ej在独立搜索引擎si的排序中的位置。
由于同一独立搜索引擎的排序算法相对稳定,因而其对各检索元素的排序结果相对稳定,在排序结果中元素越靠前表明独立搜索引擎对该元素的匹配度越高。因此,借鉴Borda规则计算独立搜索引擎对检索元素的匹配度分数是合理的。例如,若元素ej被独立搜索引擎si排在首位,则posi(ej)=1;若元素ej在独立搜索引擎si的第t个位置,则posi(sj)=t。
所述Step2具体为:
Step2.1:将独立搜索引擎按比例动态地分为k组,每组最多包含
Figure GDA0003900972960000032
个搜索引擎,每个搜索引擎分别被分配给一个检索元素作为该搜索引擎的代表并计算搜索引擎匹配度,且每个元素最多只能代表
Figure GDA0003900972960000033
个搜索引擎,或者不能作为代表,寻找在分配过程中最大化独立搜索引擎总体匹配度的k个元素作为元搜索排序结果。
Step2.2:独立搜索引擎总体匹配度计算为:
Figure GDA0003900972960000041
其中,Φ表示局部分配任务,Φ(i)表示能代表独立搜索引擎si的检索元素,posi(Φ(i))表示能代表独立搜索引擎si的元素在独立搜索引擎si的排序中的位置,目标为最大化独立搜索引擎总体匹配度
Figure GDA0003900972960000046
所述Step3具体为:
Step3.1:根据贪心算法建立一个迭代解决方案,在每次迭代过程中选择某个未被分配过的元素ej,并将最佳匹配元素ej
Figure GDA0003900972960000042
个独立搜索引擎分配给元素ej,即把这
Figure GDA0003900972960000043
个独立搜索引擎分配给元素ej得到的匹配度最大。
贪心策略为:从独立搜索引擎或检索元素未被分配的初始状态出发,进行k次迭代,每次迭代选择能够保持局部独立搜索引擎匹配度最优或较优的元素,逐步逼近给定的目标,在更短的时间内获得满足独立搜索引擎总体匹配度最大化的元搜素排序Top-k聚合最优解(或较优解)。
Step3.2:在每次迭代过程中,遍历未被分配过的元素列表,根据规则对独立搜索引擎进行排序并存在数组engines中。
所述规则为:若元素ej在独立搜索引擎si排序中的位置小于或等于其在独立搜索引擎si’中的位置,即posi(ej)≤posi'(ej),则认为独立搜索引擎si优于si’
Step3.3:截取独立搜索引擎数组engines中前
Figure GDA0003900972960000044
个搜索引擎。
Step3.4:根据公式(1)分别计算集合E中每个元素分配给数组engines中的n/k个独立搜索引擎所得到的匹配度分数。
Step3.5:取使得这n/k个独立搜索引擎匹配度最大的元素,并将该元素和其对应的独立搜索引擎匹配度分数存放于字典bests中。
Step3.6:将字典bests中的元素加入数组W中,
Figure GDA0003900972960000045
Step3.7:重复以上步骤,根据检索用户输入的k取值建立k次迭代,并将数组W中的k个元素作为Top-k元搜索排序的聚合结果。
对元搜索排序Top-k聚合结果的属性进行理论分析:
对于有n个搜索引起m个元素的元搜索排序Top-k聚合过程f:R→W,如果至少有n/k个独立搜索引擎将元素ej放在排序的首位,则ej∈W。
在元搜索排序Top-k聚合过程中,至少有n/k个独立搜索引擎将元素ej排在各自排序的首位。由于MGA算法在每次迭代中选择被n/k个独立搜索引擎排在偏好序首位且未被迭代选择过的元素,该算法会选择元素ej。因此,本发明满足联盟稳定性。
对于元搜索排序Top-k聚合过程f:R→W,假设存在一个包含k个元素的集合W。若每个独立搜索引擎将集合W中的某些元素排在其偏好序的首位,且集合中所有元素均被n/k个独立搜索引擎排在偏好序前面,则集合W为元搜索排序Top-k聚合结果。
根据MGA算法的贪心策略,每次迭代选择局部最大化
Figure GDA0003900972960000051
个独立搜索引擎匹配度的元素。从而,集合W中被所有独立搜索引起排在其首位的元素及被n/k个独立搜索引擎排在偏好序前面的元素均被选中,即集合W为元搜索排序Top-k聚合结果。因此,本发明满足集体一致性。
元搜索排序Top-k聚合方法需要充分考虑检索元素的比例代表性。为衡量排序结果的比例代表性,本发明已对联盟稳定性及集体一致性这两个公平性质进行阐述及证明。进一步增强本发明的公平性和合理性。
本发明的有益效果是:
1、本发明以独立搜索引擎对检索元素的排序为基础基于Monroe规则提出针对元搜索排序Top-k聚合的评价指标和计算方法,采用Borda规则计算搜索引擎对检索元素的匹配度分数,并根据Monroe规则对元搜索排序聚合问题进行建模,将最大化独立搜索引擎总体匹配度的检索元素集合作为元搜索排序聚合结果。最大化独立搜索引擎的总体匹配度保证元搜索聚合结果的检索元素与关键词具有较高的相关性,而基于Monroe规则将该问题建模为成比例的代表问题,保证每个独立搜索引擎的排序信息均得以充分表达,一方面为用户提供多样性选择,提高元搜索聚合结果的覆盖率,另一方面也进一步保证了元搜索排序Top-k聚合过程的公平性。
2、由于互联网中特定关键词对应的检索元素数量非常庞大,且各独立搜索引擎排序算法覆盖面不同,使得各独立搜索引擎的检索结果通常情况下是部分排序。通过截断排序的方式表达搜索引擎对检索元素的排序,使得方法应用于各独立搜索引擎的元搜索排序聚合方法中广泛存在的排序不完整场景,保证了方法的实用性。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于Monroe规则的元搜索排序Top-k聚合方法,首先采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵;然后借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题;最后采用贪心算法对该优化问题进行求解,将所得检索元素集合作为元搜索排序Top-k聚合结果反馈给用户。
Step1:采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵。
给定6个独立搜索引擎对4个检索元素的排序,独立搜索引擎集合为S={si|i=1,2,...,n},检索元素集合为E={ej|j=1,2,...,m},需选择k=2个元素推荐给用户。独立搜索引擎对元素的排序如表1所示,其中独立搜索引擎对元素的排序指搜索引擎根据其聚合算法对检索元素的排序,独立搜索引擎对检索元素的匹配度随元素在排序中的位置的递增而递减,排在首位的元素匹配度最高,第二个位置次之,以此类推。
Figure GDA0003900972960000061
表1
由表1可见,独立搜索引擎对检索元素有不同的排序,且独立搜索引擎的排序不完整。因此根据公式(2),可以利用Borda规则计算表1中各独立搜索引擎对不同元素的匹配度分数。例如对于独立搜索引擎s1,其对检索元素e1,e2,e3,e4的匹配度分别为3,2,1,0。以此类推,可以得到所有独立搜索引擎对元素的匹配度矩阵为矩阵Mat=[Matij]6×4,i=1,2,3,4,5,6,j=1,2,3,4。综上,独立搜索引擎-检索元素匹配度矩阵如表2所示。
Figure GDA0003900972960000062
Figure GDA0003900972960000071
表2
Step2:借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题。
Step2.1:已知k取值为2,因此将独立搜索引擎按比例动态地分为2组,每组最多包含n/k=6/2=3个搜索引擎,每个独立搜索引擎分别被分配给一个检索元素作为该搜索引擎的代表并计算其匹配度,且每个元素最多只能代表3个独立搜索引擎,或者不能作为代表。寻找在分配过程中最大化独立搜索引擎总体匹配度的2个元素作为元搜索排序聚合结果。
Step2.2:独立搜索引擎总体匹配度计算如下:
Figure GDA0003900972960000072
其中,Φ表示局部分配任务,Φ(i)表示能代表独立搜索引擎si的元素,posi(Φ(i))表示能代表独立搜索引擎si的元素在独立搜索引擎si的排序中的位置。比如将搜索引擎s1,s2,s3分配给检索元素e1,将用s4,s5,s6分配给元素e2,根据公式(3)计算得到独立搜索引擎总体匹配度
Figure GDA0003900972960000073
为3+3+3+2+3+1=15。
Step3:寻找最大化独立搜索引擎总体匹配度的元搜索排序Top-k聚合结果集合。
Step3.1:建立一个迭代解决方案,由于这里k=2,从而方法需要迭代两次便可得到排序聚合结果。
当k=1时,由于检索元素还没有进行分配,因此应该遍历所有元素{e1,e2,e3,e4},并根据元素ej(j=1,2,3,4)在搜索引擎s1-s6中的位置分别对所有搜索引擎进行排序。检索元素e1,e2,e3,e4具体对应的搜索引擎排序如表3所示:
元素序号 搜索引擎排序
e<sub>1</sub> s<sub>1</sub>,s<sub>2</sub>,s<sub>3</sub>,s<sub>4</sub>,s<sub>5</sub>,s<sub>6</sub>
e<sub>2</sub> s<sub>5</sub>,s<sub>1</sub>,s<sub>4</sub>,s<sub>2</sub>,s<sub>6</sub>,s<sub>3</sub>
e<sub>3</sub> s<sub>6</sub>,s<sub>2</sub>,s<sub>5</sub>,s<sub>1</sub>,s<sub>3</sub>,s<sub>4</sub>
e<sub>4</sub> s<sub>3</sub>,s<sub>6</sub>,s<sub>4</sub>,s<sub>1</sub>,s<sub>2</sub>,s<sub>5</sub>
表3
将每个检索元素分配给其对应的搜索引擎排序的前n/k=3个引擎并分别计算各独立搜索引擎匹配度:
e1:s1,s2,s3,s1,s2,s3对应的搜索引擎匹配度为3+3+3=9。
e2:s5,s1,s4,s5,s1,s4对应的搜索引擎匹配度为3+2+2=7。
e3:s6,s2,s5,s6,s2,s5对应的搜索引擎匹配度为3+2+2=7。
e4:s3,s6,s4,s3,s6,s4对应的搜索引擎匹配度为2+2+1=5。
取其中搜索引擎匹配度最大的元素e1加入数组W中,并将其对应的搜索引擎s1,s2,s3做相应标记。
当k=2时,由于元素e1已分配过,因此应该遍历剩余元素{e2,e3,e4},并根据元素e2,e3,e4在剩余搜索引擎s4,s5,s6中的位置分别对所有搜索引擎进行排序。元素e2,e3,e4具体对应的搜索引擎排序如表4所示:
元素序号 搜索引擎排序
e<sub>2</sub> s<sub>5</sub>,s<sub>4</sub>,s<sub>6</sub>
e<sub>3</sub> s<sub>6</sub>,s<sub>5</sub>,s<sub>4</sub>
e<sub>4</sub> s<sub>6</sub>,s<sub>4</sub>,s<sub>5</sub>
表4
将每个元素分配给其对应的搜索引擎排序的前n/k=3个引擎并分别计算搜索引擎匹配度:
e2:s5,s4,s6,s5,s4,s6对应的搜索引擎匹配度为3+1+0=4。
e3:s6,s5,s4,s6,s5,s4对应的搜索引擎匹配度为3+2+1=6。
e4:s6,s4,s5,s6,s4,s5对应的搜索引擎匹配度为2+1+0=3。
取其中搜索引擎匹配度最大的元素e3加入数组W中,并将其对应的搜索引擎s6,s5,s4做相应标记。
Step3.2:由于k取值为2,因此迭代结束,W={e1,e3}即为元搜索排序Top-k聚合结果。
元搜索排序Top-k聚合方法的联盟稳定性及集体一致性验证:
元素e1被4个独立搜索引擎排在其偏好排序的首位,即元素e1至少已被n/k个搜索引擎排在其偏好序首位,从而元素e1包含于元搜索排序聚合结果集合。因此,本发明满足联盟稳定性。对于集合W中的元素e1和e3,根据本发明提出的方法,在第一次迭代选择中元素e1分别被独立搜索引擎s1,s2,s3排在其偏好序的首位,而元素e3分别被独立搜索引擎s6,s5,s4排在其偏好排序靠前的位置,从而元素e1和e3均被选择作为元搜索排序Top-k聚合结果,因此,本发明满足集体一致性。
总之,基于Monroe规则建立了一种元搜索排序Top-k聚合方法,体现了Top-k元搜索场景中独立搜索引擎总体匹配度最大化的实际需求以及各搜索引擎排序规则不一致的本质特性。采用Monroe规则将元搜索排序Top-k聚合问题进行建模,通过最大化独立搜索引擎总体匹配度来确保元搜索结果与关键词的强相关性。同时,以搜索引擎对检索元素的排序关系为输入避免了由于不同独立搜索引擎排序算法的差异而引入的偏见。其次,通过考虑独立搜索引擎对元素的截断排序实现了排序信息不完整情况下的元搜索排序聚合,保证本发明的实用性。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于:
Step1:采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵;
Step2:借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题;
Step3:采用贪心算法对该优化问题进行求解,将所得检索元素集合作为元搜索排序Top-k聚合结果;
Step2具体为:
Step2.1:将独立搜索引擎按比例动态地分为k组,每组最多包含
Figure FDA0003900972950000011
个搜索引擎,每个搜索引擎分别被分配给一个检索元素作为该搜索引擎的代表并计算搜索引擎匹配度,且每个元素最多只能代表
Figure FDA0003900972950000012
个搜索引擎,或者不能作为代表,寻找在分配过程中最大化独立搜索引擎总体匹配度的k个元素作为元搜索排序结果;
Step2.2:独立搜索引擎总体匹配度计算为:
Figure FDA0003900972950000013
其中,Φ表示局部分配任务,Φ(i)表示能代表独立搜索引擎si的检索元素,posi(Φ(i))表示能代表独立搜索引擎si的元素在独立搜索引擎si的排序中的位置,目标为最大化独立搜索引擎总体匹配度maxl(Φ)。
2.根据权利要求1所述的基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于Step1具体为:
Step1.1:设独立搜索引擎集合为S={si|i=1,2,...,n},检索元素集合为E={ej|j=1,2,...,m},其中,n表示独立搜素引擎的数量,m表示检索元素数量;
Step1.2、独立搜素引擎si根据其特定排序算法对检索元素的排序定义为
Figure FDA0003900972950000014
所有独立搜素引擎对应的检索结果的排序关系集合定义为R={βi|i=1,2,...,n};
其中,er(1)ier(2)表示在独立搜索引擎si对检索元素的排序中,元素er(1)优于元素er(2),βi表示独立搜索引擎si对t个元素的某种潜在排列,即从m个元素中取出t个元素进行的无重复线性排序,r(t)表示排序的序号,参数t控制独立搜索引擎对元素排序的完整程度,且t≤m;
当t=m时,βi表示独立搜索引擎si给出对所有元素的完整偏好排序;
当t<m时,βi表示独立搜索引擎si只对最偏爱的Top-t个检索元素进行部分截断排序;
Step1.3:记独立搜索引擎si对检索元素ej的匹配度分数为Matij,即独立搜索引擎si对选择元素ej作为元搜索排序Top-k聚合结果的匹配程度,将独立搜索引擎对元素的匹配度分数表示为矩阵Mat=[Matij]n×m
Step1.4:匹配度分数Matij通过Borda规则计算,用参数t控制独立搜索引擎对检索元素排序的完整程度,并将不包含于独立搜索引擎的截断排序Top-t中的元素均记为e',当t=m时表示独立搜索引擎si对元素有完整的排序时,独立搜索引擎si对元素的匹配度计算为:
Matij=m-posi(ej) (1)
当t<m时表示独立搜索引擎si仅对其偏爱的前t个检索元素进行部分排序,若元素ej包含在独立搜索引擎si的Top-t排序中,则获取该元素在对应排序中的位置并计算匹配度;
若元素ej不在独立搜索引擎si的Top-t排序中,则将该元素记为e',且默认posi(e')=m,独立搜索引擎si对元素ej的匹配度计算为:
Figure FDA0003900972950000021
其中,posi(ej)表示在检索元素ej在独立搜索引擎si的排序中的位置。
3.根据权利要求2所述的基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于Step3具体为:
Step3.1:根据贪心算法建立一个迭代解决方案,在每次迭代过程中选择某个未被分配过的元素ej,并将最佳匹配元素ej
Figure FDA0003900972950000022
个独立搜索引擎分配给元素ej,即把这
Figure FDA0003900972950000023
个独立搜索引擎分配给元素ej得到的匹配度最大;
Step3.2:在每次迭代过程中,遍历未被分配过的元素列表,根据规则对独立搜索引擎进行排序并存在数组engines中;
所述规则为:若元素ej在独立搜索引擎si排序中的位置小于或等于其在独立搜索引擎si’中的位置,即posi(ej)≤posi'(ej),则认为独立搜索引擎si优于si’
Step3.3:截取独立搜索引擎数组engines中前
Figure FDA0003900972950000031
个搜索引擎;
Step3.4:根据公式(1)分别计算集合E中每个元素分配给数组engines中的n/k个独立搜索引擎所得到的匹配度分数;
Step3.5:取使得这n/k个独立搜索引擎匹配度最大的元素,并将该元素和其对应的独立搜索引擎匹配度分数存放于字典bests中;
Step3.6:将字典bests中的元素加入数组W中,
Figure FDA0003900972950000032
Step3.7:重复以上步骤,根据检索用户输入的k取值建立k次迭代,并将数组W中的k个元素作为Top-k元搜索排序的聚合结果。
CN202110232699.4A 2021-03-03 2021-03-03 一种基于Monroe规则的元搜索排序Top-k聚合方法 Active CN113010776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110232699.4A CN113010776B (zh) 2021-03-03 2021-03-03 一种基于Monroe规则的元搜索排序Top-k聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110232699.4A CN113010776B (zh) 2021-03-03 2021-03-03 一种基于Monroe规则的元搜索排序Top-k聚合方法

Publications (2)

Publication Number Publication Date
CN113010776A CN113010776A (zh) 2021-06-22
CN113010776B true CN113010776B (zh) 2022-12-09

Family

ID=76403030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110232699.4A Active CN113010776B (zh) 2021-03-03 2021-03-03 一种基于Monroe规则的元搜索排序Top-k聚合方法

Country Status (1)

Country Link
CN (1) CN113010776B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法
CN106202313A (zh) * 2016-07-01 2016-12-07 西安电子科技大学 面向学术元搜索的检索结果合成排序方法
CN107122467A (zh) * 2017-04-26 2017-09-01 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US20060288001A1 (en) * 2005-06-20 2006-12-21 Costa Rafael Rego P R System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
US8407229B2 (en) * 2006-09-19 2013-03-26 Iac Search & Media, Inc. Systems and methods for aggregating search results
US7966309B2 (en) * 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US8150793B2 (en) * 2008-07-07 2012-04-03 Xerox Corporation Data fusion using consensus aggregation functions
US8463774B1 (en) * 2008-07-15 2013-06-11 Google Inc. Universal scores for location search queries
CN101782998A (zh) * 2009-01-20 2010-07-21 复旦大学 一种违规在线产品信息的智能判断方法与系统
US8180768B2 (en) * 2009-08-13 2012-05-15 Politecnico Di Milano Method for extracting, merging and ranking search engine results
CN102393858A (zh) * 2011-11-17 2012-03-28 陈洪 一种基于客户端实时聚合的元搜索引擎系统
CN104268142B (zh) * 2014-08-05 2018-02-02 河海大学 基于可拒绝策略的元搜索结果排序方法
CN105022827B (zh) * 2015-07-23 2016-06-15 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN105808739A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于Borda算法的搜索结果排序方法
CN107239555A (zh) * 2017-06-08 2017-10-10 深圳市唯特视科技有限公司 一种利用全景图构建的视觉实例检索方法
CN108845996A (zh) * 2018-04-02 2018-11-20 北京大学 一种聚合安卓应用程序内部搜索功能的元搜索引擎实现方法和总控系统
CN111859091B (zh) * 2020-07-21 2021-06-04 山东省科院易达科技咨询有限公司 一种基于人工智能的搜索结果的聚合方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法
CN106202313A (zh) * 2016-07-01 2016-12-07 西安电子科技大学 面向学术元搜索的检索结果合成排序方法
CN107122467A (zh) * 2017-04-26 2017-09-01 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质

Also Published As

Publication number Publication date
CN113010776A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Weston et al. Label partitioning for sublinear ranking
CN107391687B (zh) 一种面向地方志网站的混合推荐系统
Yuan et al. LambdaFM: Learning optimal ranking with factorization machines using lambda surrogates
Liu et al. A robust model for paper reviewer assignment
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
US20060248074A1 (en) Term-statistics modification for category-based search
US8930388B2 (en) System and method for providing orientation into subject areas of digital information for augmented communities
CN107256241B (zh) 基于网格与差异替换改进多目标遗传算法的电影推荐方法
CN108563749B (zh) 基于多维度信息和知识网络的在线教育系统资源推荐方法
AU2009201966A1 (en) Systems and methods for bidirectional matching
CN108415928B (zh) 一种基于加权混合k-最近邻算法的图书推荐方法与系统
CN106844637A (zh) 基于正交与聚类修剪改进多目标遗传算法的电影推荐方法
CN114282106B (zh) 一种职位信息快速投递方法
CN110046713A (zh) 基于多目标粒子群优化的鲁棒性排序学习方法及其应用
Santos et al. Aggregated search result diversification
WO2010037314A1 (zh) 一种搜索的方法、系统和装置
Alshareef et al. Academic venue recommendations based on similarity learning of an extended nearby citation network
CN113010776B (zh) 一种基于Monroe规则的元搜索排序Top-k聚合方法
Zhong et al. A clustering and fusion method for large group decision making with double information and heterogeneous experts
CN108710620B (zh) 一种基于用户的k-最近邻算法的图书推荐方法
Petrovsky Structuring techniques in multiset spaces
Guo et al. K-loop free assignment in conference review systems
Niu et al. Deep learning of human information foraging behavior with a search engine
Cui et al. Social tag relevance estimation via ranking-oriented neighbour voting
Utama et al. Scientific Articles Recommendation System Based On User’s Relatedness Using Item-Based Collaborative Filtering Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant