CN102737090A

CN102737090A - 网页搜索结果排序方法及装置

Info

Publication number: CN102737090A
Application number: CN2012100759380A
Authority: CN
Inventors: 袁行远; 龚颖坤
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2012-10-17
Anticipated expiration: 2032-03-21
Also published as: CN102737090B

Abstract

本发明提供一种网页搜索结果排序方法及装置。其中方法包括：搜索引擎根据用户输入的查询词搜索出多个相关的网页；获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I；计算所述P及所述I的信息量和相关度；根据所述信息量和相关度计算得到所述I的信息质量得分；按照所述信息质量得分从大到小的顺序排列相应的网页。本发明在进行网页排序时不仅考虑了网页自身的因素，而且还考虑了人作为信息发布者的因素，使得真正具有高可信度的网页能够排在前列，因此提高了网页排序的可信性。

Description

网页搜索结果排序方法及装置

技术领域

本发明涉及一种网页搜索结果排序方法及装置，属于互联网搜索技术领域。

背景技术

随着互联网技术的发展，网络信息量呈现爆炸式增长，因此出现了搜索引擎服务，如百度、谷歌等。这种服务由索引擎服务器根据用户提供的查询词进行网页搜索，并将搜索出的相关网页的链接作为搜索结果呈现给用户。由于搜索出的相关网页数量通常不只一个，因此需要对这些网页搜索结果进行排序，现有技术中对网页搜索结果进行排序时通常采用如下的方法：

方法1，页面排序法(pageRank)

该方法根据网页之间相互的超链接关系计算页面等级，以作为网页排名的依据，具体地，该方法把从A页面到B页面的链接解释为A页面给B页面投票，从而根据投票来源和投票目标的等级来决定新的等级。

方法2，学习排序法(learning to rank)

该方法是一类机器学习排序方法的总称，主要是将待排序的网页与查询词进行配对，进行特征提取，这些特征包括文本相似度、用户点击率等信息；针对提取出的特征，以相关性或点击率为目标进行机器学习；根据机器学习结果计算每个网页与查询词之间的静态分数，以此分数为排序的依据。

现有技术的主要缺陷在于：在对网页搜索结果进行排序均只考虑了网页本身的特征而没有考虑人作为信息发布者的因素，实际上，由不同人发布相同内容的网页的可信度是不同的，因此，现有方法不能将真正具有高可信度的网页排在前列，因此其排序可信性较差。

发明内容

本发明提供一种网页搜索结果排序方法及装置，用以提高排序的可信性。

本发明一方面提供一种网页搜索结果排序方法，其中包括：

搜索引擎根据用户输入的查询词搜索出多个相关的网页；

获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I；

计算所述P及所述I的信息量和相关度；

根据所述信息量和相关度计算得到所述I的信息质量得分；

按照所述信息质量得分从大到小的顺序排列相应的网页。

本发明另一方面提供一种网页搜索结果排序装置，其中包括：

搜索引擎，用于根据用户输入的查询词搜索出多个相关的网页；

获取模块，用于获取由搜索引擎搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I；

第一计算模块，用于计算由获取模块得到的所述P及所述I的信息量和相关度；

第二计算模块，用于根据由第一计算模块得到的所述信息量和相关度计算得到所述I的信息质量得分；

排序模块，用于按照由第二计算模块得到的所述信息质量得分从大到小的顺序排列相应的网页。

本发明通过计算用户标识与网页信息的信息量和相关度，进而计算得到各个网页的信息质量得分用于进行网页排序，因此在进行网页排序时不仅考虑了网页自身的因素，而且还考虑了人作为信息发布者的因素，使得真正具有高可信度的网页能够排在前列，因此提高了网页排序的可信性。

附图说明

图1为本发明所述网页搜索结果排序方法实施例的流程图；

图2为用于说明图1所示方法的举例关系图；

图3为本发明所述网页搜索结果排序装置实施例的结构示意图。

具体实施方式

图1为本发明所述网页搜索结果排序方法实施例的流程图，如图所示，包括如下步骤：

步骤110，搜索引擎根据用户输入的查询词搜索出多个相关的网页。

其中，所述查询词是用户想要搜索的关键信息，具体的搜索过程与现有技术相同，所述网页为搜索结果。

步骤120，获取所述网页的发布者的全网统一的用户标识P及所述网页的信息I。

其中，所述全网统一的用户标识P用于把一个自然人与其在互联网的行为联系起来。该用户标识可以有多种实现方案，具体可以具有的特征为：ID的编号、注册邮箱、注册时间、真实姓名、对应的公用账号、微博、QQ等。当两个用户标识的相似程度到达一定阈值时，认为这两个用户标识属于同一个自然人所有。

具体地，在本实施例中，将全网的信息按照信息发布者做一个统一的镜像，在这个网络里面，本实施例只关心表1中的P和I。

表1

I	网页的信息
		P	网页发布者的全网统一的用户标识

在实际情况中，表1中的P和I存在如表2中所示的关系：

表2

P<->I	发布者产生信息，发布者是信息的作者
		P->P	发布者关注其他发布者
I->I	信息引用其他信息
		I->P	信息引用发布者，被引用的发布者不是信息的作者

以下参照表3举例说明P和I的关系：

表3

记号\场景	论坛	邮件	微博	博客	购物
						P	用户	发件/收件人	博主/粉丝	博主	顾客/店铺
I	帖子	电邮	微博	博客	商品
						P<->I	发帖/浏览	发邮件	发微博	发博客	购买/上架
P->P	关注	联系人	关注	友情博客	收藏店铺

I->I	转帖	转发	转发	转载	引用商品
						I->P	引用用户	引用邮件地址		引用用户	引用人

步骤130，计算所述P及所述I的信息量和它们之间的相关度。

其中，信息量是指各个用户标识和各个网页信息自身所具有信息量。每个信息都有一个初始化信息量，表示这条信息在没有任何外界信息之下它自身的质量得分。具体地，第i个用户标识P_i的信息量E(P_i)＝log(P_i的字节数)，通常将E(P_i)设置为0；第i个网页信息I_i的信息量E(I_i)＝log(I_i的字节数)。

其中，所述相关度是指不同用户标识之间、不同网页信息之间以及用户标识与网页信息之间的相互的信息量，也可以称为关联关系强度或连接权重。下文用S来表示相关度，例如：S′(P_i，P_j)表示第i个用户和第j个用户之间的相关度，其具体计算方法如下：

第一步，取得任意两个P、I之间的临时相关度S’，具体公式如下：

第二步，计算相关度S，计算公式如下：

S (P_{i}, P_{j}) = \frac{S^{'} (P_{i}, P_{j})}{Σ_{k = 1}^{n} S^{'} (P_{i}, P_{k}) + Σ_{k = 1}^{m} S^{'} (P_{i}, I_{k})}

S (P_{i}, I_{j}) = \frac{S^{'} (P_{i}, I_{j})}{Σ_{k = 1}^{n} S^{'} (P_{i}, P_{k}) + Σ_{k = 1}^{m} S^{'} (P_{i}, I_{k})}

S (I_{i}, I_{j}) = \frac{S^{'} (I_{i}, I_{j})}{Σ_{k = 1}^{n} S^{'} (I_{i}, P_{k}) + Σ_{k = 1}^{m} S^{'} (I_{i}, I_{k})}

S (I_{i}, P_{j}) = \frac{S^{'} (I_{i}, P_{j})}{Σ_{k = 1}^{n} S^{'} (I_{i}, P_{k}) + Σ_{k = 1}^{m} S^{'} (I_{i}, I_{k})}

上述公式中假设共有n个用户和m条信息。

其中，m表示所述发布者的数量，n表示所述网页的数量。

步骤140，根据所述信息量和相关度计算得到所述I的信息质量得分。

具体地，可以先根据所述信息量和相关度构建以所述P的标识质量得分r(P_i)为元素的标识质量得分向量rp＝(1-α)PP·rp+(1-α)IP·ri以及以所述I的信息质量得分r(I_i)为元素的信息质量得分；ri＝α·ri₀+(1-α)PI·rp+(1-α)II·ri；然后，求解由所述第一表达式和第二表达式联立而成的如下向量方程组得到所述标识质量得分。

\{\begin{matrix} rp = (1 - α) PP \cdot rp + (1 - α) IP \cdot ri \\ ri = α \cdot {ri}_{0} + (1 - α) PI \cdot rp + (1 - α) II \cdot ri \end{matrix}

其中，ri₀表示初始信息量，PP表示P与P之间的相关度矩阵；IP表示I与P之间的相关度矩阵；PI表示P与I之间的相关度矩阵；II表示I与I之间的相关度矩阵；α为比例参数，用于控制ri₀在ri中所占的比重，例如，α＝0.15。其中，ri₀(j)＝E(I_j)，PP_ij＝S(P_i，P_j)，PI_ij＝S(P_i，I_j)，II_ij＝S(I_i，I_j)，IP_ij＝S(I_i，P_j)。

步骤150，按照所述信息质量得分从大到小的顺序排列相应的网页

如图2所示，假设在搜索引擎经搜索后得到的搜索结果中包含m＝3个发布者，它们的用户标识分别为P₁、P₂和P₃；他们共发布了n＝4个网页，相应的网页信息分别为I₁、I₂、I₃和I₄，其中的三条信息为微博，另一条信息为博客，它们之间的关系如表4所示：

表4

来自于	发往	意义	连接权重
				P1	I1	发表微博	0.5
P1	P2	关注	0.5
				P2	I3	发表微博	0.33
P2	I2	发表博客	0.66
				P3	I4	发表微博	1
I1	P1	作者	0.33
				I1	I2	微博引用博客	0.33

I1	I4	微博引用微博	0.33
				I2	P2	作者	1
I3	P2	作者	0.5
				I3	I4	微博引用微博	0.5
I4	P3	作者	0.5
				I4	I2	微博引用博客	0.5

假设相应的信息量为E(I₂)＝2，E(I₁)＝E(I₃)＝E(I₄)＝1，E(P₁)＝E(P₂)＝E(P₃)＝0，则通过计算得到的相关度矩阵为：

PP = [\begin{matrix} 0 & 0 & 0 \\ 0.5 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}],

IP = [\begin{matrix} 0.33 & 0 & 0 & 0 \\ 0.0 & 1 & 0.5 & 0 \\ 0 & 0 & 0 & 0.5 \end{matrix}]

PI = [\begin{matrix} 0.5 & 0 & 0 \\ 0 & 0.66 & 0 \\ 0 & 0.33 & 0 \\ 0 & 0 & 1 \end{matrix}],

II = [\begin{matrix} 0 & 0 & 0 & 0 \\ 0.33 & 0 & 0 & 0.5 \\ 0 & 0 & 0 & 0 \\ 0.33 & 0 & 0.5 & 0 \end{matrix}]

初始条件为：

{rp}_{0} = [\begin{matrix} 0 \\ 0 \\ 0 \end{matrix}],

{ri}_{0} = \frac{1}{ΣE (I_{i})} [\begin{matrix} E (I_{1}) \\ E (I_{2}) \\ \cdot \\ \cdot \\ \cdot \\ E (I_{n}) \end{matrix}] = \frac{1}{5} [\begin{matrix} 1 \\ 2 \\ 1 \\ 2 \end{matrix}] = [\begin{matrix} 0.2 \\ 0.4 \\ 0.2 \\ 0.2 \end{matrix}]

令α＝0.5，则得到如下的向量方程组：

求解该向量方程组得到：

rp = [\begin{matrix} r (P_{1}) \\ r (P_{2}) \\ r (P_{3}) \end{matrix}] = [\begin{matrix} 0.0170 \\ 0.2008 \\ 0.0430 \end{matrix}],

ri = [\begin{matrix} r (I_{1}) \\ r (I_{2}) \\ r (I_{3}) \\ r (I_{4}) \end{matrix}] = [\begin{matrix} 0.1043 \\ 0.3264 \\ 0.1331 \\ 0.1720 \end{matrix}]

然后根据ri中各元素从大到小的顺序排列相应的网页，排列结果为：I₂->I₃->I₄->I₁。从上述计算结果可以看出，r(P₂)的值最高，意味着P₂对应的发布者是三人中最可靠的，从图2中也可以看到他的信息被转载和引用的次数最多。

通过上述过程可以总结出本发明的主要依靠的准则是：

1信息引用次数越多越可靠

2信息被越可靠的信息引用则更可靠

3信息的发布者越可靠，则信息越可靠

4信息的发布者发布的信息越可靠，则信息的发布者越可靠

本实施例所述方法通过计算用户标识与网页信息的信息量和相关度，进而计算得到各个网页的信息质量得分用于进行网页排序，因此在进行网页排序时不仅考虑了网页自身的因素，而且还考虑了人作为信息发布者的因素，使得真正具有高可信度的网页能够排在前列，因此提高了网页排序的可信性。

图3为本发明所述网页搜索结果排序装置实施例的结构示意图，用以实现上述方法，如图所示，该装置包括：搜索引擎10、获取模块20、第一计算模块30、第二计算模块40和排序模块50，其工作原理如下：

由搜索引擎10根据用户输入的查询词搜索出多个相关的网页；并由获取模块20获取由搜索引擎10搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I，具体的举例可参见表1～3及其相关内容；

然后，由第一计算模块30计算由获取模块20得到的所述P及所述I的信息量和相关度；并由第二计算模块40根据由第一计算模块30得到的所述信息量和相关度计算得到所述I的信息质量得分。具体的计算过程可参见上述方法实施例。

最后，由排序模块50按照由第二计算模块40得到的所述信息质量得分从大到小的顺序排列相应的网页，具体的举例可参见图2及其相关内容。

本实施例所述装置通过计算用户标识与网页信息的信息量和相关度，进而计算得到各个网页的信息质量得分用于进行网页排序，因此在进行网页排序时不仅考虑了网页自身的因素，而且还考虑了人作为信息发布者的因素，使得真正具有高可信度的网页能够排在前列，因此提高了网页排序的可信性。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。