CN105808739A - 基于Borda算法的搜索结果排序方法 - Google Patents

基于Borda算法的搜索结果排序方法 Download PDF

Info

Publication number
CN105808739A
CN105808739A CN201610136924.3A CN201610136924A CN105808739A CN 105808739 A CN105808739 A CN 105808739A CN 201610136924 A CN201610136924 A CN 201610136924A CN 105808739 A CN105808739 A CN 105808739A
Authority
CN
China
Prior art keywords
search results
search
query word
similarity
abs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610136924.3A
Other languages
English (en)
Inventor
王红滨
董宇欣
王让
李自金
刘红丽
张玉鹏
杨楠
刘广强
冯梦园
刘天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610136924.3A priority Critical patent/CN105808739A/zh
Publication of CN105808739A publication Critical patent/CN105808739A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于Borda算法的搜索结果排序方法,属于搜索引擎结果排序领域。现有的Borda排序算法对于结果相关分值的计算时,所用的位置关系并不能完全代表相关度的变化,导致搜索结果排序不准确。一种基于Borda算法的搜索结果排序方法,先是对返回结果的位置得分统一规范化处理,并且结合进了检索词串与搜索结果的相似度,对相似度的计算方法也进行了改进。本发明利用标题和摘要进行相似度的计算时,结合了查询词与结果的匹配权重,使得相似度的计算更加准确;且提高搜索效率。

Description

基于Borda算法的搜索结果排序方法
技术领域
本发明涉及一种基于Borda算法的搜索结果排序方法。
背景技术
元搜索引擎是一个致力于解决独立搜索引擎的查准率和查全率不高的问题的搜索引擎,不用像搜索引擎那样需要建立索引数据库,当然亦不用检索机制等。它可以按照用户的兴趣或者搜索引擎的优秀程度来集成最符合用户需求的搜索引擎来实现其检索行为,而且它的搜索界面和传统的搜索引擎是一样的,对于返回的检索结果,元搜索引擎会按照其结果整合机制,去重之后,完成融合,再按照一定的算法来再排序,最后返回给用户的一个过程,因此,元搜索引擎中,结果的排序至关重要,目前对于结果排序算法的研究有很多,本文主要针对经典的Borda排序算法进行研究与改进,传统的加权位置排序算法中Borda排序最初是选举中,投票者对候选人进行投票的一种决策方法,因其效果良好,得到了广泛的应用。
传统的Borda算法是基于加权位置排序算法的一种改进。对这种算法的进行如下描述:
定义元搜索引擎中成员搜索引擎的集合是S={s1,s2,…,sn},对于某个查询词q,R={r1,r2,…,rm}为所有搜索结果的集合,每一个搜索结果rk由4个部分组成,网址,标题,摘要,相关分值,采用数组形式表示就是si_Url[k]、si_Title[k]、si_Abs[k]、si_Score[k],其中,k=1,2,…,m,i=1,2,…,n。
元搜索引擎中的Borda排序算法就是由成员搜索引擎对返回的结果进行投票[3],输入查询词,按照返回的结果在成员搜索引擎中的位置关系建立偏好关系,如果是独立的结果,就认为它在别的搜索引擎中的相关得分是0,最后把各个结果的得分相加得到最终得分,按这个分值的高低进行排序,对该算法建立数学模型如下:定义元搜索引擎的成员引擎个数为n,即S={s1,s2,…,sn},搜索结果集即候选人几个为R={r1,r2,…,rm}则某个成员Sk对于结果集R来构建偏好关系的矩阵为:
R k = b 11 k b 12 k ... b 1 m k b 21 k b 22 k ... b 2 m k . . . . . . . . . b m 1 k b m 2 k ... b m m k
其中,当成员搜索引擎k的排序将ri排序在rj前面,则否则为0
则Sk对ri的Borda评分是:
r i k = Σ j = 1 m r i j k
因此Sk(k=1,2,…,n)对所有搜索结果的投票矩阵如下表示:
R , = r 1 1 b 1 2 ... b 1 n r 2 1 r 2 2 ... r 2 n . . . . . . . . . r m 1 r m 2 ... r m n
最后再计算的最终的得分是:
B o r d a ( r i ) = Σ k = 1 m r i k
对Borda(ri)按照Borda相关分值大小进行排序返回给用户即可。
这种传统的Borda排序算法是基于加权位置算法的一种改进算法,主要适用于重复度较高的搜索结果,对于独立型搜索结果效果不太好,而且,Borda排序对于结果相关分值的计算是按照位置信息利用了线性递减的规律,但是位置关系并不能完全代表相关度的变化。
并且传统的Borda排序算法每个搜索引擎返回的结果的数量是不同的,所以不能对搜索引擎中搜索结果的位置直接进行比较,因此直接用数量来表示位置的得分是不准确的;传统的Borda排序仅仅考虑位置得分,却忽略了独立搜索结果,不适用出现在单个搜索引擎中的独立搜索结果;目前采用的相关度计算方法均是下载原文档,再统一计算全局相似度,浪费了大量的时间和网络资源,不能为用户所接受;针对上述缺点,进行改进。
发明内容
本发明的目的是为了解决利用现有的Borda排序算法对于搜索结果相关分值的计算时,所用的位置关系并不能完全代表相关度的变化,导致搜索结果排序不准确,查准率低的问题,而提出一种基于Borda算法的搜索结果排序方法。
一种基于Borda算法的搜索结果排序方法,所述方法通过以下步骤实现:
步骤一、定义元搜索引擎中n个成员的搜索引擎的集合S={s1,s2,…,sn};查询词q;所有搜索结果rk的集合R={r1,r2,…,rm},下角标k表示位置,k=1,2,…,m,每一个搜索结果rk包括网址、标题、摘要和相关分值,采用数组形式分别表示为si_Url[k]、si_Title[k]、si_Abs[k]和si_Score[k],i=1,2,…,n;
步骤二、在按照与查询词q的相关度排列得到的搜索结果列表中,进行搜索结果rk在搜索引擎中的位置k的得分计算,使位置得分统一规范化处理;
步骤三、将查询词q与搜索结果rk的标题和摘要的相似度加权求和,进行搜索结果rk与用户输入的查询词q的全局相似度计算;
步骤四、基于Borda排序的思想,搜索引擎对搜索结果rk投票,并综合步骤二得到的搜索结果rk的位置k的得分,最终累加得到每个搜索结果rk的最终相关得分;其中,每个搜索结果rk的最终相关得分表示为位置相关度和查询词q与搜索结果rk的相似度加权的和;
步骤五、通过步骤四获得的每个搜索结果rk的最终相关得分表示搜索结果rk的相关分值,利用每个搜索结果rk的最终相关得分的相关分值对搜索结果rk降序排列,最终展现给用户。
本发明的有益效果为:
本发明方法的查准率与传统算法相比,对搜索结果排序位置进行规范化处理,用位置相关度取代位置的得分,来更好的代表位置与检索词的相关度,弥补每个搜索引擎返回的结果的数量少不同导致的直接用数量表示位置的得分不准确的缺点;
本发明结合查询词与搜索结果的相似度信息,以适用出现在单个搜索引擎中的独立搜索结果的情况;
本发明利用返回网页的摘要和标题提取信息进行全局相关度计算,降低搜索时间和网络资源的使用,提高搜索效率;
在利用标题和摘要进行相似度的计算时,结合了查询词与结果的匹配权重,使得相似度的计算更加准确,将将查准率提高到85%左右。
如图4所示,每个搜索成员获得不同结果数时,均比传统的Borda排序算法要好,而且要高于Round-Robin算法和CombSUM算法这两种传统的排序算法,说明改进之后的算法是十分有效的,所以本发明方法涉及的元搜索引擎是更加专业化、智能化的发展方向。
附图说明
图1为本发明的流程框图;
图2为本发明涉及的ω的取值与算法平均查准率的关系;
图3为本发明涉及的元搜索引擎与其成员搜索引擎的平均查准率对比图;
图4为本发明算法与传统算法查准率对比图。
具体实施方式
具体实施方式一:
本实施方式的基于Borda算法的搜索结果排序方法,结合图1所示的流程图,所述方法通过以下步骤实现:
步骤一、定义元搜索引擎中n个成员的搜索引擎的集合S={s1,s2,…,sn};查询词q;所有搜索结果rk的集合R={r1,r2,…,rm},下角标k表示位置,k=1,2,…,m,每一个搜索结果rk包括网址、标题、摘要和相关分值,采用数组形式分别表示为si_Url[k]、si_Title[k]、si_Abs[k]和si_Score[k],i=1,2,…,n;
步骤二、在按照与查询词q的相关度排列得到的独立的搜索引擎的搜索结果列表中,进行搜索结果rk在搜索引擎中的位置k的得分计算,使位置得分统一规范化处理;
步骤三、将查询词q与搜索结果rk的标题和摘要的相似度加权求和,进行搜索结果rk与用户输入的查询词q的全局相似度计算;
步骤四、基于Borda排序的思想,搜索引擎对搜索结果rk投票,并综合步骤二得到的搜索结果rk的位置k的得分,最终累加得到每个搜索结果rk的最终相关得分;其中,每个搜索结果rk的最终相关得分表示为位置相关度pos(q,Sj,rk)和查询词q与搜索结果rk的相似度corr(q,Sj,rk)加权的和;
步骤五、通过步骤四获得的每个搜索结果rk的最终相关得分表示搜索结果rk的相关分值,利用每个搜索结果rk的最终相关得分的相关分值对搜索结果rk降序排列,最终展现给用户。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于Borda算法的搜索结果排序方法,步骤二所述在按照与查询词q的相关度排列得到的搜索结果列表中,进行搜索结果rk在搜索引擎中的位置k的得分计算,使位置得分统一规范化处理的过程为,
搜索结果列表中各搜索结果rk的位置k极大地反映与查询词q的相关程度,搜索结果列表中搜索结果rk的位置越靠前的搜索结果与用户输入的查询词q相关度越高,所以,考虑独立搜索引擎的位置信息是十分必要的,本文为了使得位置得分更加准确,则n个搜索引擎成员S1,S2,...,Sn对于查询词q,搜索引擎sj返回m个搜索结果,则位于位置k的搜索结果rk与用户查询的位置相关度用pos(q,Sj,rk)表示为:
p o s ( q , S j , r k ) = m - k + 1 m - - - ( 1 )
其中,pos(q,Sj,rk)∈[0,1];
如果搜索结果rk是某搜索引擎搜索所得搜索结果列表的第一个,则pos(q,Sj,rk)得分为1,这表明各搜索引擎成员中搜索结果列表中排在首位的结果是同等重要的;
如果两个结果在其搜索引擎中的排列的位置相同,但是返回的结果列表文档数量不同,则搜索引擎返回的结果列表文档的数量少的得分高,这是表明了在一个结果数量多的列表中有一个好位置比在一个结果少的列表中有一个好位置要更具有价值,从而将搜索结果rk与查询词q的关系完成规范化处理,且搜索结果rk的位置越靠后,搜索结果rk对应的pos(q,Sj,rk)值越小,与查询词q关系越小,对排序的影响也越小。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的基于Borda算法的搜索结果排序方法,步骤三所述将查询词q与搜索结果rk的标题和摘要的相似度加权求和,进行搜索结果rk与用户输入查询词q的全局相似度计算的过程为,
设查询词q有z个特征项t1,t2,...,tz,且存在文档d1和文档d2;如果在文档d1中,某个特征项出现了多次,而其他特征项均没有出现过,但是在文档d2中,z个特征项都出现了一次,虽然文档d1和文档d2词频情况相同,但是明显文档d2覆盖的特征项最全面的,文档d2的情况相关度更高;
例如:对于查询串“中央人民政府”,将查询词q分为三个特征项,t1=“中央”、t2=“人民”、t3=“政府”,如果特征项t1=“中央”在第一个文档中多次出现,而其他两个特征项都没有出现过;三个特征项在第二个文档里面都出现了,但只出现一次,显然,第二个文档和查询词q具有更高的相关度,因此,对于这种情况,查询词q与搜索结果rk匹配比较全面,应该赋予更高的权值;查询词q与搜索结果rk的相似度计算:
将查询词q与搜索结果rk的标题和摘要的相似度加权求和,可以使得计算更为科学,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度,公式如下:
corr(q,Sj,rk)=α*corr(q,Sj,rk·tit)+β*corr(q,Sj,rk·abs)(2)
式中,α+β=1;rk.tit是搜索结果rk包括的标题si_Title[k]的简写,表示搜索结果rk的标题;rk·abs是搜索结果rk包括的摘要si_Abs[k]的简写,表示搜索结果rk的摘要。
词频情况是指单个文档d1或文档d2中出现的特征项的总次数。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的基于Borda算法的搜索结果排序方法,所述将查询词q与搜索结果rk的标题和摘要的相似度加权求和,可以使得计算更为科学,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度的过程为,
(1)首先进行查询词q与搜索结果rk的摘要的匹配度计算:
如果特征项与摘要匹配的比较全面,应该具有更高权重,特征项ti与摘要的匹配等级用pg(ti,Sj,rk.abs)表示,计算方式如下:
p g ( t i , S j , r k · a b s ) = w ( t i ) , t i ∈ r k · a b s 0 , t i ∉ r k · a b s - - - ( 3 )
式中,w(ti)表示查询词q为每个特征项所赋的权值;rk.abs表示搜索结果rk的摘要;
则查询词q与摘要的匹配等级PG(ti,Sj,rk.abs)的计算公式为:
P G ( q , S j , a b s ) = Σ i = 1 n p g ( t i , S j , r k · a b s ) - - - ( 4 )
(2)特征项ti与搜索结果rk的摘要的相似度的计算:
计算查询词q中每个特征项与搜索结果rk之间的相似度,则每个特征项ti与搜索结果rk的摘要的相似度用sim(ti,Sj,rk·abs)表示,得:
s i m ( t i , S j , r k · a b s ) = Σ x = 1 N ( t i , a b s ) ( 1 - l o c a t i o n ( t i , t ) l e n g t h ( a b s ) ) N ( t i , a b s ) > 0 0 N ( t i , a b s ) = 0 - - - ( 5 )
式中,N(ti,abs)表示查询词q中特征项ti在搜索结果rk中出现的次数,length(abs)表示搜索结果rk的摘要的长度,location(ti,t)表示特征项ti在摘要中第t次出现的位置;
则查询词q与摘要的相似度sim(q,Sj,abs)的计算方式如下:
s i m ( q , S j , a b s ) = Σ i = 1 n s i m ( t i , S j , a b s ) - - - ( 6 )
(3)查询词q与搜索结果rk的摘要相似度计算:
查询词q与摘要的相似度用corr(q,Sj,rk.abs)来表示,则计算方法是:
corr(q,Sj,rk·abs)=sim(q,Sj,rk·abs)×pg(q,Sj,rk·abs)(7)
(4)同理,查询词q与搜索结果rk标题的相似度计算可表示如下:
corr(q,Sj,rk·tit)=sim(q,Sj,rk·tit)×pg(q,Sj,rk·tit)(8)
式中,rk·abs表示搜索结果rk的标题;
(5)最终,得到查询词q与搜索结果rk的相似度计算方法:
将查询词q与搜索结果rk的标题和摘要的相似度加权求和,可以使得计算更为科学,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度,公式如下:
corr(q,Sj,rk)=α*corr(q,Sj,rk·tit)+β*corr(q,Sj,rk·abs)(2)
具体实施方式五:
与具体实施方式一、二或四不同的是,本实施方式的基于Borda算法的搜索结果排序方法,步骤四所述每个搜索结果rk的最终相关得分的计算方式为,设位置相关度由pos(q,Sj,rk)表示,查询词q与搜索结果rk的相似度由corr(q,Sj,rk)表示,位置相关度与查询词q与搜索结果rk的相似度加权的和的计算方式为:
Score(q,Sj,rk)=ω*pos(q,Sj,rk)+θ*corr(q,Sj,rk)(9)
其中,ω和θ为权重因子,且ω+θ=1。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于Borda算法的搜索结果排序方法,步骤五所述通过步骤四获得的每个搜索结果rk的最终相关得分表示搜索结果rk的相关分值,利用每个搜索结果rk的最终相关得分的相关分值对搜索结果rk降序排列,最终展现给用户:
通过上面几步已经计算出的搜索结果rk的最终相关得分,被多个成员搜索引擎搜索到的结果的得分是每个成员引擎的所打分数的和,因此,对于n个成员搜索引擎,搜索结果rk的Borda得分数用Borda(q,Sj,rk)表示为:
B o r d a ( q , S j , r k ) = Σ j = 1 n S c o r e ( q , S j , r k ) - - - ( 10 )
最后根据Borda(q,Sj,rk)的得分数对搜索结果降序排列,显示给用户。
实验结果与分析:
(一)数据集的选取
为了对算法进行实验分析与验证,本发明中构建了以百度(Baidu)、雅虎(Yahoo)、必应(Bing)、搜狗(Sogou)为成员搜索引擎的元搜索引擎原型系统,选择有代表性的检索主题进行实验,每一次的搜索,均是选各个成员查询返回来的前30条结果。
查询数据集采用的是2014年搜索引擎搜索排行前100位的检索词,本实验从中选择了不同主题的查询词进行实验。最后对算法的效果进行比对。
(二)评价方法
搜索引擎领域常用的评价方法有查全率、查准率和系统响应时间等[4],因为元搜索引擎的原理,一般都能得到较高的查全率,本文用查准率来衡量算法的效率,具体如公式(11)所示。
(三)结果及分析
(1)权重因子ω和θ对算法的影响
在文中算法中,ω和θ两个权重因子影响位置和相似度两个因子的权重,所以它们的取值对算法有很大的影响。在实验中,取ω的值从0.1-0.9变化,不同ω取值时平均查准率的变化如图2所示。
从图2中可以看出,当ω<0.4时,变化不大,当取值在0.6左右时达到峰值,然后又处于下降趋势,因此,在随后的实验中权重因子的取值按ω=0.6来取值,这也表明了一个结果在其搜索引擎返回结果集中的排列位置是很具价值的。
(2)文中算法和独立搜索引擎的对比
为了验证文中算法的有效性,本节将采用文中算法的元搜索引擎NMSE与其成员搜索引擎的平均准确率和查全率进行了对比,不同的搜索引擎对于不同的查询主题也有不同的效果,例如,搜索“埃博拉病毒”,各搜索引擎的查准率是百度是0.75,Yahoo是0.68,bing是0.59,搜狗是0.67,而再输入其他搜索词又取得不同的结果,下面针对不同搜索主题,分别使用各个独立搜索引擎和采用文中算法的元搜索引擎进行搜索,得到平均值比较效果如图3所示。
从图3中可以看出,百度仍然是中文搜索领域的佼佼者,而采用本文算法的元搜索引擎在不同主题搜索时,平均的查准率要高于百度。
(3)文中改进算法与经典元搜索引擎排序算法的对比
本文的算法是在元搜索引擎的排序算法Borda排序的基础上进行改进的,为了验证算法的效率,现在选择几种经典的排序算法作为对比对象,分别是Borda排序,Round-Robin算法和CombSUM算法。
Round-Robin算法使用了轮询的思想,算法思想是,首先将成员搜索引擎排成一定的顺序,然后,元搜素引擎进行结果合成时,首先按顺序取成员引擎的第1个结果,紧接着再按顺序取第2个结果,以此类推。
CombSUM算法是一种相关分值法,因为不一样搜索引擎的局部相似度无法拿来比较,直接合成,因此,可以将搜索结果的位置映射到一个[0,1]的值,从而得到规范化的相关分值,CombSUM算法的思想是将其出现在不同搜索引擎中的相关分值都加在一起作为最终相关分值,以此排序。
现在从数据集中挑选不同主题的查询关键词,在Web环境下连续10天进行搜索实验,最后取其平均,对这四种算法比对效果如图4所示。
从图4中可以看出,随着结果数的增多,查准率逐渐下降,文中提出的算法的查准率比传统的Borda排序算法要好,而且要高于另外两种传统的排序算法,说明改进之后的算法是十分有效的。
(四)结论:
本文的改进算法在传统Borda排序的基础上,主要做了以下几点改进:
(1)对搜索结果排序位置进行规范化处理,用位置相关度取代位置的得分,因为每个搜索引擎返回的结果的数量少不同的,所以不能直接对搜索引擎中搜索结果的位置直接比较因此直接用数量来表示位置的得分是不够准确的,用位置相关度才能更好的代表位置与检索词的相关度。
(2)传统的Borda排序仅仅考虑位置得分,却忽略了独立搜索结果,对出现在单个搜索引擎中的独立搜索结果不太适用,应该结合入查询词串与搜索结果的相似度信息。
(3)考虑到目前采用的相关度计算方法均是下载原文档,再统一计算全局相似度,浪费了大量的时间和网络资源,不能为用户所接受,研究表明检索结果的标题和摘要中集中了网页中主要信息,因此本文利用返回网页的摘要和标题提取信息进行计算全局相关度。
(4)在利用标题和摘要进行相似度的计算时,结合了查询词与结果的匹配权重,使得相似度的计算更加准确。
但是在时间效率上还是存在一定的不足,另外,
没有考虑到不同用户的个性化需求,元搜索引擎以后将是更加个性化、专业化、智能化的搜索引擎,这也将是元搜索引擎以后的研究热点方向。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于Borda算法的搜索结果排序方法,其特征在于:所述方法通过以下步骤实现:
步骤一、定义元搜索引擎中n个成员的搜索引擎的集合S={s1,s2,…,sn};查询词q;所有搜索结果rk的集合R={r1,r2,…,rm},下角标k表示位置,k=1,2,…,m,每一个搜索结果rk包括网址、标题、摘要和相关分值,采用数组形式分别表示为si_Url[k]、si_Title[k]、si_Abs[k]和si_Score[k],i=1,2,…,n;
步骤二、在按照与查询词q的相关度排列得到的搜索结果列表中,进行搜索结果rk在搜索引擎中的位置k的得分计算,使位置得分统一规范化处理;
步骤三、将查询词q与搜索结果rk的标题和摘要的相似度加权求和,进行搜索结果rk与用户输入的查询词q的全局相似度计算;
步骤四、基于Borda排序的思想,搜索引擎对搜索结果rk投票,并综合步骤二得到的搜索结果rk的位置k的得分,最终累加得到每个搜索结果rk的最终相关得分;其中,每个搜索结果rk的最终相关得分表示为位置相关度和查询词q与搜索结果rk的相似度加权的和;
步骤五、通过步骤四获得的每个搜索结果rk的最终相关得分表示搜索结果rk的相关分值,利用每个搜索结果rk的最终相关得分的相关分值对搜索结果rk降序排列,最终展现给用户。
2.根据权利要求1所述基于Borda算法的搜索结果排序方法,其特征在于:步骤二所述在按照与查询词q的相关度排列得到的搜索结果列表中,进行搜索结果rk在搜索引擎中的位置k的得分计算,使位置得分统一规范化处理的过程为,
搜索结果列表中各搜索结果rk的位置k反映与查询词q的相关程度,搜索结果列表中搜索结果rk的位置越靠前的搜索结果与用户输入的查询词q相关度越高,则n个搜索引擎成员S1,S2,...,Sn对于查询词q,搜索引擎sj返回m个搜索结果,则位于位置k的搜索结果rk与用户查询的位置相关度用pos(q,Sj,rk)表示为:
其中,pos(q,Sj,rk)∈[0,1];
如果搜索结果rk是某搜索引擎搜索所得搜索结果列表的第一个,则pos(q,Sj,rk)得分为1;
如果两个结果在其搜索引擎中的排列的位置相同,但是返回的结果列表文档数量不同,则搜索引擎返回的结果列表文档的数量少的得分高,从而将搜索结果rk与查询词q的关系完成规范化处理,且搜索结果rk的位置越靠后,搜索结果rk对应的pos(q,Sj,rk)值越小,与查询词q关系越小,对排序的影响也越小。
3.根据权利要求1或2所述基于Borda算法的搜索结果排序方法,其特征在于:步骤三所述将查询词q与搜索结果rk的标题和摘要的相似度加权求和,进行搜索结果rk与用户输入查询词q的全局相似度计算的过程为,
设查询词q有z个特征项t1,t2,...,tz,且存在文档d1和文档d2;如果在文档d1中,某个特征项出现了多次,而其他特征项均没有出现过,但是在文档d2中,z个特征项都出现了一次,虽然文档d1和文档d2词频情况相同,但是明显文档d2覆盖的特征项最全面的,文档d2的情况相关度更高,查询词q与搜索结果rk匹配比较全面,应该赋予更高的权值;查询词q与搜索结果rk的相似度计算:
将查询词q与搜索结果rk的标题和摘要的相似度加权求和,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度,公式如下:
corr(q,Sj,rk)=α*corr(q,Sj,rk·tit)+β*corr(q,Sj,rk·abs)(2)
式中,α+β=1;rk.tit是搜索结果rk包括的标题,是si_Title[k]的简写,表示搜索结果rk的标题;rk·abs是搜索结果rk包括的摘要,是si_Abs[k]的简写,表示搜索结果rk的摘要。
4.根据权利要求3所述基于Borda算法的搜索结果排序方法,其特征在于:所述将查询词q与搜索结果rk的标题和摘要的相似度加权求和,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度的过程为,
(1)首先进行查询词q与搜索结果rk的摘要的匹配度计算:
特征项ti与摘要的匹配等级用pg(ti,Sj,rk.abs)表示,计算方式如下:
式中,w(ti)表示查询词q为每个特征项所赋的权值;rk.abs表示搜索结果rk的摘要;
则查询词q与摘要的匹配等级PG(ti,Sj,rk.abs)的计算公式为:
(2)特征项ti与搜索结果rk的摘要的相似度的计算:
计算查询词q中每个特征项与搜索结果rk之间的相似度,则每个特征项ti与搜索结果rk的摘要的相似度用sim(ti,Sj,rk·abs)表示,得:
式中,N(ti,abs)表示查询词q中特征项ti在搜索结果rk中出现的次数,length(abs)表示搜索结果rk的摘要的长度,location(ti,t)表示特征项ti在摘要中第t次出现的位置;
则查询词q与摘要的相似度sim(q,Sj,abs)的计算方式如下:
(3)查询词q与搜索结果rk的摘要相似度计算:
查询词q与摘要的相似度用corr(q,Sj,rk.abs)来表示,则计算方法是:
corr(q,Sj,rk·abs)=sim(q,Sj,rk·abs)×pg(q,Sj,rk·abs)(7)
(4)同理,查询词q与搜索结果rk标题的相似度计算可表示如下:
corr(q,Sj,rk·tit)=sim(q,Sj,rk·tit)×pg(q,Sj,rk·tit)(8)
式中,rk·abs表示搜索结果rk的标题;
(5)最终,得到查询词q与搜索结果rk的相似度计算方法:
将查询词q与搜索结果rk的标题和摘要的相似度加权求和,将二者的权重用α和β表示,用corr(q,Sj,rk)来表示最终的相似度,公式如下:
corr(q,Sj,rk)=α*corr(q,Sj,rk·tit)+β*corr(q,Sj,rk·abs)(2)。
5.根据权利要求1、2或4所述基于Borda算法的搜索结果排序方法,其特征在于:步骤四所述每个搜索结果rk的最终相关得分的计算方式为,设位置相关度由pos(q,Sj,rk)表示,查询词q与搜索结果rk的相似度由corr(q,Sj,rk)表示,位置相关度与查询词q与搜索结果rk的相似度加权的和的计算方式为:
Score(q,Sj,rk)=ω*pos(q,Sj,rk)+θ*corr(q,Sj,rk)(9)
其中,ω和θ为权重因子,且ω+θ=1。
6.根据权利要求5所述基于Borda算法的搜索结果排序方法,其特征在于:步骤五所述通过步骤四获得的每个搜索结果rk的最终相关得分表示搜索结果rk的相关分值,利用每个搜索结果rk的最终相关得分的相关分值对搜索结果rk降序排列,最终展现给用户:
通过计算出的搜索结果rk的最终相关得分,被多个成员搜索引擎搜索到的结果的得分是每个成员引擎的所打分数的和,因此,对于n个成员搜索引擎,搜索结果rk的Borda得分数用Borda(q,Sj,rk)表示为:
最后根据Borda(q,Sj,rk)的得分数对搜索结果降序排列,显示给用户。
CN201610136924.3A 2016-03-10 2016-03-10 基于Borda算法的搜索结果排序方法 Pending CN105808739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610136924.3A CN105808739A (zh) 2016-03-10 2016-03-10 基于Borda算法的搜索结果排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610136924.3A CN105808739A (zh) 2016-03-10 2016-03-10 基于Borda算法的搜索结果排序方法

Publications (1)

Publication Number Publication Date
CN105808739A true CN105808739A (zh) 2016-07-27

Family

ID=56467028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610136924.3A Pending CN105808739A (zh) 2016-03-10 2016-03-10 基于Borda算法的搜索结果排序方法

Country Status (1)

Country Link
CN (1) CN105808739A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708943A (zh) * 2016-11-22 2017-05-24 安徽睿极智能科技有限公司 一种基于排列融合的图像检索重排序方法及系统
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN111708942A (zh) * 2020-06-12 2020-09-25 北京达佳互联信息技术有限公司 多媒体资源推送方法、装置、服务器及存储介质
CN111737966A (zh) * 2020-06-11 2020-10-02 北京百度网讯科技有限公司 文档重复度检测方法、装置、设备和可读存储介质
CN112597274A (zh) * 2020-12-18 2021-04-02 深圳市彬讯科技有限公司 基于bm25算法的文档确定方法、装置、设备及存储介质
CN113010776A (zh) * 2021-03-03 2021-06-22 昆明理工大学 一种基于Monroe规则的元搜索排序Top-k聚合方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662941A (zh) * 2011-12-31 2012-09-12 武汉理工大学 基于random walk的排序方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662941A (zh) * 2011-12-31 2012-09-12 武汉理工大学 基于random walk的排序方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KOBAYSHI M等: ""Information Retrieval on the Web"", 《ACM COMPUTING SURVEYS》 *
冯竣俍: ""基于特定领域元搜索的网页排名算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王莎莎: ""元搜索引擎结果合成技术的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
董乐: ""基于分布式架构的元搜索引擎系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708943A (zh) * 2016-11-22 2017-05-24 安徽睿极智能科技有限公司 一种基于排列融合的图像检索重排序方法及系统
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN107291871B (zh) * 2017-06-15 2021-02-19 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
US11481656B2 (en) 2017-06-15 2022-10-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
CN111737966A (zh) * 2020-06-11 2020-10-02 北京百度网讯科技有限公司 文档重复度检测方法、装置、设备和可读存储介质
CN111737966B (zh) * 2020-06-11 2024-03-01 北京百度网讯科技有限公司 文档重复度检测方法、装置、设备和可读存储介质
CN111708942A (zh) * 2020-06-12 2020-09-25 北京达佳互联信息技术有限公司 多媒体资源推送方法、装置、服务器及存储介质
CN111708942B (zh) * 2020-06-12 2023-08-08 北京达佳互联信息技术有限公司 多媒体资源推送方法、装置、服务器及存储介质
CN112597274A (zh) * 2020-12-18 2021-04-02 深圳市彬讯科技有限公司 基于bm25算法的文档确定方法、装置、设备及存储介质
CN113010776A (zh) * 2021-03-03 2021-06-22 昆明理工大学 一种基于Monroe规则的元搜索排序Top-k聚合方法

Similar Documents

Publication Publication Date Title
CN101501630B (zh) 计算机化搜索结果列表的排序方法及其数据库搜索引擎
CN107391687B (zh) 一种面向地方志网站的混合推荐系统
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
Chakrabarti et al. Contextual advertising by combining relevance with click feedback
US8266077B2 (en) Method of analyzing documents
RU2375747C2 (ru) Проверка релевантности между ключевыми словами и содержанием веб-сайта
CN104252456B (zh) 一种权重估计方法、装置及系统
US20080215565A1 (en) Searching heterogeneous interrelated entities
US20080114750A1 (en) Retrieval and ranking of items utilizing similarity
CN102567326B (zh) 一种信息搜索、及信息搜索排序装置和方法
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
CN102254039A (zh) 一种基于搜索引擎的网络搜索方法
US20130036076A1 (en) Method for keyword extraction
CN103838756A (zh) 一种确定推送信息的方法及装置
CN102253982A (zh) 一种基于查询语义和点击流数据的查询建议方法
Bian et al. Ranking specialization for web search: a divide-and-conquer approach by using topical ranksvm
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
CN101770521A (zh) 一种用于垂直搜索引擎的聚焦相关度排序方法
Bar-Yossef et al. Mining search engine query logs via suggestion sampling
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN105528411A (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN102156728A (zh) 一种改进的基于用户兴趣模型的个性化摘要系统
CN101088082A (zh) 全文查询和搜索系统及其使用方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727