CN102737090A - 网页搜索结果排序方法及装置 - Google Patents

网页搜索结果排序方法及装置 Download PDF

Info

Publication number
CN102737090A
CN102737090A CN2012100759380A CN201210075938A CN102737090A CN 102737090 A CN102737090 A CN 102737090A CN 2012100759380 A CN2012100759380 A CN 2012100759380A CN 201210075938 A CN201210075938 A CN 201210075938A CN 102737090 A CN102737090 A CN 102737090A
Authority
CN
China
Prior art keywords
information
webpage
quality score
correlation
representes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100759380A
Other languages
English (en)
Other versions
CN102737090B (zh
Inventor
袁行远
龚颖坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210075938.0A priority Critical patent/CN102737090B/zh
Publication of CN102737090A publication Critical patent/CN102737090A/zh
Application granted granted Critical
Publication of CN102737090B publication Critical patent/CN102737090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网页搜索结果排序方法及装置。其中方法包括:搜索引擎根据用户输入的查询词搜索出多个相关的网页;获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;计算所述P及所述I的信息量和相关度;根据所述信息量和相关度计算得到所述I的信息质量得分;按照所述信息质量得分从大到小的顺序排列相应的网页。本发明在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。

Description

网页搜索结果排序方法及装置
技术领域
本发明涉及一种网页搜索结果排序方法及装置,属于互联网搜索技术领域。
背景技术
随着互联网技术的发展,网络信息量呈现爆炸式增长,因此出现了搜索引擎服务,如百度、谷歌等。这种服务由索引擎服务器根据用户提供的查询词进行网页搜索,并将搜索出的相关网页的链接作为搜索结果呈现给用户。由于搜索出的相关网页数量通常不只一个,因此需要对这些网页搜索结果进行排序,现有技术中对网页搜索结果进行排序时通常采用如下的方法:
方法1,页面排序法(pageRank)
该方法根据网页之间相互的超链接关系计算页面等级,以作为网页排名的依据,具体地,该方法把从A页面到B页面的链接解释为A页面给B页面投票,从而根据投票来源和投票目标的等级来决定新的等级。
方法2,学习排序法(learning to rank)
该方法是一类机器学习排序方法的总称,主要是将待排序的网页与查询词进行配对,进行特征提取,这些特征包括文本相似度、用户点击率等信息;针对提取出的特征,以相关性或点击率为目标进行机器学习;根据机器学习结果计算每个网页与查询词之间的静态分数,以此分数为排序的依据。
现有技术的主要缺陷在于:在对网页搜索结果进行排序均只考虑了网页本身的特征而没有考虑人作为信息发布者的因素,实际上,由不同人发布相同内容的网页的可信度是不同的,因此,现有方法不能将真正具有高可信度的网页排在前列,因此其排序可信性较差。
发明内容
本发明提供一种网页搜索结果排序方法及装置,用以提高排序的可信性。
本发明一方面提供一种网页搜索结果排序方法,其中包括:
搜索引擎根据用户输入的查询词搜索出多个相关的网页;
获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;
计算所述P及所述I的信息量和相关度;
根据所述信息量和相关度计算得到所述I的信息质量得分;
按照所述信息质量得分从大到小的顺序排列相应的网页。
本发明另一方面提供一种网页搜索结果排序装置,其中包括:
搜索引擎,用于根据用户输入的查询词搜索出多个相关的网页;
获取模块,用于获取由搜索引擎搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;
第一计算模块,用于计算由获取模块得到的所述P及所述I的信息量和相关度;
第二计算模块,用于根据由第一计算模块得到的所述信息量和相关度计算得到所述I的信息质量得分;
排序模块,用于按照由第二计算模块得到的所述信息质量得分从大到小的顺序排列相应的网页。
本发明通过计算用户标识与网页信息的信息量和相关度,进而计算得到各个网页的信息质量得分用于进行网页排序,因此在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。
附图说明
图1为本发明所述网页搜索结果排序方法实施例的流程图;
图2为用于说明图1所示方法的举例关系图;
图3为本发明所述网页搜索结果排序装置实施例的结构示意图。
具体实施方式
图1为本发明所述网页搜索结果排序方法实施例的流程图,如图所示,包括如下步骤:
步骤110,搜索引擎根据用户输入的查询词搜索出多个相关的网页。
其中,所述查询词是用户想要搜索的关键信息,具体的搜索过程与现有技术相同,所述网页为搜索结果。
步骤120,获取所述网页的发布者的全网统一的用户标识P及所述网页的信息I。
其中,所述全网统一的用户标识P用于把一个自然人与其在互联网的行为联系起来。该用户标识可以有多种实现方案,具体可以具有的特征为:ID的编号、注册邮箱、注册时间、真实姓名、对应的公用账号、微博、QQ等。当两个用户标识的相似程度到达一定阈值时,认为这两个用户标识属于同一个自然人所有。
具体地,在本实施例中,将全网的信息按照信息发布者做一个统一的镜像,在这个网络里面,本实施例只关心表1中的P和I。
表1
  I   网页的信息
  P   网页发布者的全网统一的用户标识
在实际情况中,表1中的P和I存在如表2中所示的关系:
表2
  P<->I   发布者产生信息,发布者是信息的作者
  P->P   发布者关注其他发布者
  I->I   信息引用其他信息
  I->P   信息引用发布者,被引用的发布者不是信息的作者
以下参照表3举例说明P和I的关系:
表3
  记号\场景   论坛   邮件   微博   博客   购物
  P   用户   发件/收件人   博主/粉丝   博主   顾客/店铺
  I   帖子   电邮   微博   博客   商品
  P<->I   发帖/浏览   发邮件   发微博   发博客   购买/上架
  P->P   关注   联系人   关注   友情博客   收藏店铺
  I->I   转帖   转发   转发   转载   引用商品
  I->P   引用用户   引用邮件地址   引用用户   引用人
步骤130,计算所述P及所述I的信息量和它们之间的相关度。
其中,信息量是指各个用户标识和各个网页信息自身所具有信息量。每个信息都有一个初始化信息量,表示这条信息在没有任何外界信息之下它自身的质量得分。具体地,第i个用户标识Pi的信息量E(Pi)=log(Pi的字节数),通常将E(Pi)设置为0;第i个网页信息Ii的信息量E(Ii)=log(Ii的字节数)。
其中,所述相关度是指不同用户标识之间、不同网页信息之间以及用户标识与网页信息之间的相互的信息量,也可以称为关联关系强度或连接权重。下文用S来表示相关度,例如:S′(Pi,Pj)表示第i个用户和第j个用户之间的相关度,其具体计算方法如下:
第一步,取得任意两个P、I之间的临时相关度S’,具体公式如下:
Figure BDA0000145557340000041
Figure BDA0000145557340000042
Figure BDA0000145557340000043
Figure BDA0000145557340000044
第二步,计算相关度S,计算公式如下:
S ( P i , P j ) = S &prime; ( P i , P j ) &Sigma; k = 1 n S &prime; ( P i , P k ) + &Sigma; k = 1 m S &prime; ( P i , I k )
S ( P i , I j ) = S &prime; ( P i , I j ) &Sigma; k = 1 n S &prime; ( P i , P k ) + &Sigma; k = 1 m S &prime; ( P i , I k )
S ( I i , I j ) = S &prime; ( I i , I j ) &Sigma; k = 1 n S &prime; ( I i , P k ) + &Sigma; k = 1 m S &prime; ( I i , I k )
S ( I i , P j ) = S &prime; ( I i , P j ) &Sigma; k = 1 n S &prime; ( I i , P k ) + &Sigma; k = 1 m S &prime; ( I i , I k )
上述公式中假设共有n个用户和m条信息。
其中,m表示所述发布者的数量,n表示所述网页的数量。
步骤140,根据所述信息量和相关度计算得到所述I的信息质量得分。
具体地,可以先根据所述信息量和相关度构建以所述P的标识质量得分r(Pi)为元素的标识质量得分向量rp=(1-α)PP·rp+(1-α)IP·ri以及以所述I的信息质量得分r(Ii)为元素的信息质量得分;ri=α·ri0+(1-α)PI·rp+(1-α)II·ri;然后,求解由所述第一表达式和第二表达式联立而成的如下向量方程组得到所述标识质量得分。
rp = ( 1 - &alpha; ) PP &CenterDot; rp + ( 1 - &alpha; ) IP &CenterDot; ri ri = &alpha; &CenterDot; ri 0 + ( 1 - &alpha; ) PI &CenterDot; rp + ( 1 - &alpha; ) II &CenterDot; ri
其中,ri0表示初始信息量,PP表示P与P之间的相关度矩阵;IP表示I与P之间的相关度矩阵;PI表示P与I之间的相关度矩阵;II表示I与I之间的相关度矩阵;α为比例参数,用于控制ri0在ri中所占的比重,例如,α=0.15。其中,ri0(j)=E(Ij),PPij=S(Pi,Pj),PIij=S(Pi,Ij),IIij=S(Ii,Ij),IPij=S(Ii,Pj)。
步骤150,按照所述信息质量得分从大到小的顺序排列相应的网页
如图2所示,假设在搜索引擎经搜索后得到的搜索结果中包含m=3个发布者,它们的用户标识分别为P1、P2和P3;他们共发布了n=4个网页,相应的网页信息分别为I1、I2、I3和I4,其中的三条信息为微博,另一条信息为博客,它们之间的关系如表4所示:
表4
  来自于   发往   意义   连接权重
  P1   I1   发表微博   0.5
  P1   P2   关注   0.5
  P2   I3   发表微博   0.33
  P2   I2   发表博客   0.66
  P3   I4   发表微博   1
  I1   P1   作者   0.33
  I1   I2   微博引用博客   0.33
  I1   I4   微博引用微博   0.33
  I2   P2   作者   1
  I3   P2   作者   0.5
  I3   I4   微博引用微博   0.5
  I4   P3   作者   0.5
  I4   I2   微博引用博客   0.5
假设相应的信息量为E(I2)=2,E(I1)=E(I3)=E(I4)=1,E(P1)=E(P2)=E(P3)=0,则通过计算得到的相关度矩阵为:
PP = 0 0 0 0.5 0 0 0 0 0 , IP = 0.33 0 0 0 0.0 1 0.5 0 0 0 0 0.5
PI = 0.5 0 0 0 0.66 0 0 0.33 0 0 0 1 , II = 0 0 0 0 0.33 0 0 0.5 0 0 0 0 0.33 0 0.5 0
初始条件为:
rp 0 = 0 0 0 , ri 0 = 1 &Sigma;E ( I i ) E ( I 1 ) E ( I 2 ) &CenterDot; &CenterDot; &CenterDot; E ( I n ) = 1 5 1 2 1 2 = 0.2 0.4 0.2 0.2
令α=0.5,则得到如下的向量方程组:
Figure BDA0000145557340000067
求解该向量方程组得到:
rp = r ( P 1 ) r ( P 2 ) r ( P 3 ) = 0.0170 0.2008 0.0430 , ri = r ( I 1 ) r ( I 2 ) r ( I 3 ) r ( I 4 ) = 0.1043 0.3264 0.1331 0.1720
然后根据ri中各元素从大到小的顺序排列相应的网页,排列结果为:I2->I3->I4->I1。从上述计算结果可以看出,r(P2)的值最高,意味着P2对应的发布者是三人中最可靠的,从图2中也可以看到他的信息被转载和引用的次数最多。
通过上述过程可以总结出本发明的主要依靠的准则是:
1信息引用次数越多越可靠
2信息被越可靠的信息引用则更可靠
3信息的发布者越可靠,则信息越可靠
4信息的发布者发布的信息越可靠,则信息的发布者越可靠
本实施例所述方法通过计算用户标识与网页信息的信息量和相关度,进而计算得到各个网页的信息质量得分用于进行网页排序,因此在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。
图3为本发明所述网页搜索结果排序装置实施例的结构示意图,用以实现上述方法,如图所示,该装置包括:搜索引擎10、获取模块20、第一计算模块30、第二计算模块40和排序模块50,其工作原理如下:
由搜索引擎10根据用户输入的查询词搜索出多个相关的网页;并由获取模块20获取由搜索引擎10搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I,具体的举例可参见表1~3及其相关内容;
然后,由第一计算模块30计算由获取模块20得到的所述P及所述I的信息量和相关度;并由第二计算模块40根据由第一计算模块30得到的所述信息量和相关度计算得到所述I的信息质量得分。具体的计算过程可参见上述方法实施例。
最后,由排序模块50按照由第二计算模块40得到的所述信息质量得分从大到小的顺序排列相应的网页,具体的举例可参见图2及其相关内容。
本实施例所述装置通过计算用户标识与网页信息的信息量和相关度,进而计算得到各个网页的信息质量得分用于进行网页排序,因此在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种网页搜索结果排序方法,其特征在于,包括:
搜索引擎根据用户输入的查询词搜索出多个相关的网页;
获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;
计算所述P及所述I的信息量和相关度;
根据所述信息量和相关度计算得到所述I的信息质量得分;
按照所述信息质量得分从大到小的顺序排列相应的网页。
2.根据权利要求1所述的方法,其特征在于,计算所述P及所述I的信息量包括:
第i个用户标识Pi的信息量E(Pi)=0;
第i个网页信息Ii的信息量E(Ii)=log(Ii的字节数)。
3.根据权利要求2所述的方法,其特征在于,计算所述P及所述I的相关度包括:
计算每两个网页信息I之间的互相关信息量
Figure FDA0000145557330000011
计算每两个用户标识P之间的互相关信息量
Figure FDA0000145557330000012
计算每个用户标识P与各个网页信息I之间的互相关信息量
Figure FDA0000145557330000013
计算每个网页信息I与各个用户标识P之间的互相关信息量
Figure FDA0000145557330000014
其中,m表示所述发布者的数量,n表示所述网页的数量,S’表示任意两个P、I之间的临时相关度,其中,
Figure FDA0000145557330000015
Figure FDA0000145557330000022
Figure FDA0000145557330000023
4.根据权利要求3所述的方法,其特征在于,根据所述信息量和相关度计算得到所述I的信息质量得分包括:
根据所述信息量和相关度构建以所述P的标识质量得分r(Pi)为元素的标识质量得分向量rp=(1-α)PP·rp+(1-α)IP·ri以及以所述I的信息质量得分r(Ii)为元素的信息质量得分;ri=α·ri0+(1-α)PI·rp+(1-α)II·ri
求解由所述第一表达式和第二表达式联立而成的向量方程组得到所述标识质量得分;
其中,ri0表示初始信息量,PP表示P与P之间的相关度矩阵;IP表示I与P之间的相关度矩阵;PI表示P与I之间的相关度矩阵;II表示I与I之间的相关度矩阵;α为比例参数。
5.一种网页搜索结果排序装置,其特征在于,包括:
搜索引擎,用于根据用户输入的查询词搜索出多个相关的网页;
获取模块,用于获取由搜索引擎搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;
第一计算模块,用于计算由获取模块得到的所述P及所述I的信息量和相关度;
第二计算模块,用于根据由第一计算模块得到的所述信息量和相关度计算得到所述I的信息质量得分;
排序模块,用于按照由第二计算模块得到的所述信息质量得分从大到小的顺序排列相应的网页。 
CN201210075938.0A 2012-03-21 2012-03-21 网页搜索结果排序方法及装置 Active CN102737090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210075938.0A CN102737090B (zh) 2012-03-21 2012-03-21 网页搜索结果排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210075938.0A CN102737090B (zh) 2012-03-21 2012-03-21 网页搜索结果排序方法及装置

Publications (2)

Publication Number Publication Date
CN102737090A true CN102737090A (zh) 2012-10-17
CN102737090B CN102737090B (zh) 2014-12-03

Family

ID=46992607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210075938.0A Active CN102737090B (zh) 2012-03-21 2012-03-21 网页搜索结果排序方法及装置

Country Status (1)

Country Link
CN (1) CN102737090B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870521A (zh) * 2012-12-17 2014-06-18 祁勇 一种获取用户和文档个性化特征的方法和系统
CN104050203A (zh) * 2013-03-17 2014-09-17 祁勇 一种获取网页和用户个性化特征的方法
CN105824951A (zh) * 2016-03-23 2016-08-03 百度在线网络技术(北京)有限公司 检索方法和装置
CN108733686A (zh) * 2017-04-17 2018-11-02 伊姆西Ip控股有限责任公司 信息处理方法和设备
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
WO2020233344A1 (zh) * 2019-05-21 2020-11-26 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN118012991A (zh) * 2024-04-08 2024-05-10 深圳希施玛数据科技有限公司 内容质量评分方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870521A (zh) * 2012-12-17 2014-06-18 祁勇 一种获取用户和文档个性化特征的方法和系统
CN104050203A (zh) * 2013-03-17 2014-09-17 祁勇 一种获取网页和用户个性化特征的方法
CN105824951A (zh) * 2016-03-23 2016-08-03 百度在线网络技术(北京)有限公司 检索方法和装置
CN105824951B (zh) * 2016-03-23 2019-10-11 百度在线网络技术(北京)有限公司 检索方法和装置
CN108733686A (zh) * 2017-04-17 2018-11-02 伊姆西Ip控股有限责任公司 信息处理方法和设备
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
CN109144953B (zh) * 2018-07-27 2022-02-01 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
WO2020233344A1 (zh) * 2019-05-21 2020-11-26 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN118012991A (zh) * 2024-04-08 2024-05-10 深圳希施玛数据科技有限公司 内容质量评分方法及相关装置
CN118012991B (zh) * 2024-04-08 2024-06-11 深圳希施玛数据科技有限公司 内容质量评分方法及相关装置

Also Published As

Publication number Publication date
CN102737090B (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
JP6435307B2 (ja) クエリについての検索意図
JP6193518B2 (ja) オンライン・ソーシャル・ネットワーク上での検索クエリ対話
CN102737090B (zh) 网页搜索结果排序方法及装置
CN104216942B (zh) 查询建议模板
CN102831234B (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
US9798820B1 (en) Classification of keywords
JP6073349B2 (ja) 広告キャンペーンの生成
JP2017068861A (ja) クエリについての逆演算子の使用
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
WO2008106667A1 (en) Searching heterogeneous interrelated entities
CN107944898A (zh) 广告投放楼宇信息的自动发现与排序方法
CN104217030A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
US20170235836A1 (en) Information identification and extraction
CN109952571B (zh) 基于上下文的图像搜索结果
US11789946B2 (en) Answer facts from structured content
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN104133913B (zh) 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN108153785B (zh) 生成展示信息的方法和装置
KR20120038418A (ko) 탐색 방법 및 디바이스
Zaghoul et al. Website search engine optimization: geographical and cultural point of view
Varga et al. Integrating dbpedia and sentiwordnet for a tourism recommender system
Król Promoting of agrotourism on the Internet–A lesson from the Visegrad Group countries
Zhang et al. Using Web clustering for Web communities mining and analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant