CN108460158A

CN108460158A - 基于PageRank的差异化网页排序方法

Info

Publication number: CN108460158A
Application number: CN201810267122.5A
Authority: CN
Inventors: 刘春凤; 刘莹; 王建荣; 喻梅; 应翔; 滕玉宁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-08-28

Abstract

本发明公开了一种基于PageRank的差异化网页排序方法，包括以下步骤：利用PageRank算法计算每个网页的初始网页排名值；根据网页的入链数量评价网页的权威性分配权重，获取网页排序值计算公式；根据网页的总链接数量评价网页的权威性分配权重，获取另一网页排序值计算公式；通过上述排序值计算公式对每个网页的网页排名值进行迭代计算，直至每个页面的网页排名值趋于稳定；利用所检测到的垃圾网页数目、召回率、精确度和F‑Measure值进行实验对比分析，衡量差异化网页排序方法解决PageRank排序问题的有效性。本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题。

Description

基于PageRank的差异化网页排序方法

技术领域

本发明涉及数据挖掘和互联网中搜索引擎领域，涉及搜索引擎优化技术，尤其是一种对PageRank平均分配链接权重所存在弊端进行改进的网页排序方法。

背景技术

目前在搜索引擎网页排序算法的相关技术中，搜索引擎技术的相关算法主要有：一种是超文本诱导的主题搜索算法(Hypertext Induced Topic Selection，HITS)。HITS算法针对搜索关键词对返回的匹配页面计算枢纽值和权威值。枢纽值指页面上所有出链的权威值之和，权威值指所有入链的枢纽值之和。相应的网页将会被划分为枢纽网页和权威网页。HITS算法的基本思想为：好的枢纽页指向好的权威页，好的权威页被较多好的枢纽页所指向，考虑了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。

HITS算法的缺陷在于：首先，由于页面通常兼具枢纽页和权威页两者性能，故对其严格无误地划分存在困难；其次，主题漂移现象的存在，即查询出的网页与用户输入的主题无关，导致HITS算法对大多数与用户查询相关的文献在同等权重的情况下无法查询；且HITS是查询独立的算法。

另一种是网页排名算法(PageRank)。PageRank算法利用网络结构中的反向链接信息为网页赋予PR值，并按照PR值高低顺序为网页排序。PageRank算法基于“从许多优质网页链接过来的网页，必定还是优质网页”的思想来判定所有网页的重要性，且平均分配链接权重，即假设网页T所指向的页面内有n个，则每一个被指向的网页所获得的权重均为1/n。

PageRank算法的缺陷在于：首先，偏重旧网页。旧网页往往具有更多PR值。而很多包含更有热度更加及时性信息的新网页由于存在时间尚短，被引用量较低，故往往具有较低PR值，排序结果可能恰好与用户的需求相反；其次，PageRank算法无法区分网页中的链接和用户查询的主题是否相关，这样就容易出现用户搜索到的不是其想要浏览的网页内容；再者，PageRank算法根据网页之间的链接关系对PR值进行平均分配，降低了高质量网页的相对得分，提高了垃圾网页的得分，使排序结果不可靠；且PageRank算法没有充分考虑用户的浏览兴趣。

发明内容

本发明提供了一种基于PageRank的差异化网页排序方法，本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题，详见下文描述：

一种基于PageRank的差异化网页排序方法，所述方法包括以下步骤：

利用PageRank算法计算每个网页的初始网页排名值；

根据网页的入链数量评价网页的权威性分配权重，获取网页排序值计算公式；

根据网页的总链接数量评价网页的权威性分配权重，获取另一网页排序值计算公式；

通过上述排序值计算公式对每个网页的网页排名值进行迭代计算，直至每个页面的网页排名值趋于稳定；

利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析，衡量差异化网页排序方法解决PageRank排序问题的有效性。

其中，所述根据网页的入链数量评价网页的权威性分配权重，获取网页排序值计算公式具体为：

其中，d为阻尼系数，取值范围为(0,1]，表示任意时刻用户到达p页面后并能够继续向后浏览的概率，Inlinks(p)表示网页p被指向的次数，首先∑_x∈A(q)Inlinks(x)统计网页q向外链接多少个页面，再将每个页面的所有链入页面相加，Inlinks(p)/∑_x∈A(q)Inlinks(x)表示节点p的链入数在所有q指向节点的链入数所占的比重，网页p根据这个比重分得网页q的PR值。

进一步地，所述根据网页的总链接数量评价网页的权威性分配权重，获取另一网页排序值计算公式具体为：

其中，B(p)表示网页p的入链集合，Links(p)表示网页p的链接数量，A(q)表示网页q的出链集合，∑_x∈A(q)Links(x)首先统计网页q所链出的所有页面，然后再将每个页面的链接数量加起来，Links(p)/∑_x∈A(q)Links(x)表示网页p的链接数量在所有网页q，所指向的网页的链接数量总和中所占的比重，根据这个比重，网页p分得网页q的PR值。

本发明提供的技术方案的有益效果是：

1、本发明将网页的权威性差别考虑在内，以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B，进而改进在垃圾网页检测方面的性能；

2、本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题；

3、在图3中，取定5个不同的垃圾网页PR阈值，利用PageRank、DPR-A和DPR-B算法对垃圾网页进行检测，统计检测到的垃圾网页数量，从实验结果可以看出，DPR-A能够检测到的垃圾网页数量最多，其次为DPR-B算法，最后为PageRank算法。

4、在图4中，取定5个不同的垃圾网页PR阈值，利用PageRank、DPR-A和DPR-B算法计算垃圾网页F-Measure值，从实验结果可以看出，DPR-B算法具有较高F-Measure值，其次为PageRank算法，最后为DPR-A算法。

附图说明

图1为一种基于PageRank的差异化网页排序方法的流程图；

图2为DRP算法基本思想的示意图；

图3为垃圾网页的检测数量图；

图4为垃圾网页的F-Measure值图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了实现上述目的，本发明实施例提出了一种基于PageRank的差异化网页排序算法(The Improved PageRank Algorithm Based on Web Page Differentiation，DPR)。根据评估网页权威性标准的不同，又可分为两类：以入链数量评估网页权威性的算法DPR-A和以链接总数量评估网页权威性的算法DPR-B，参见图1，该DPR方法包含以下步骤：

101：利用PageRank算法计算每个节点的初始PR值；

其中，本发明实施例将每个网页看作是网络中的一个节点。

102：基于网页的权威性差别，为其分配相应权重，计算得到新的排序值计算公式；

103：依据新的排序值计算公式计算网页排序值；

104：利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析，衡量本发明提出的网页排序算法解决PageRank排序算法的技术性问题的有效性。

在一个实施例中，步骤101中的利用PageRank算法计算每个节点的初始PR值的具体步骤如下：

首先给每个网页初始化一个相同的PR值，之后进行迭代运算，直至每个网页的PR值稳定(即稳定在某一阈值范围内即可，该阈值范围以及迭代的次数，根据实际应用中的需要进行设定，本发明实施例对此不做限制)，由此得到每个节点的初始PR值。

在每一轮迭代过程中，网页q的PR值被平均的传递给q引用的页面。

在一个实施例中，步骤102在步骤101的基础上进行新的排序值计算公式的计算，具体步骤如下：

由于PageRank采用平均分配链接权重的方式传递PR值，没有将网页的权威性差别考虑入PR值的计算过程中，导致排序结果不可靠，所以本发明实施例使用基于网页权威性差别的排序算法，将网页质量对PR值的不同影响程度考虑在内，得到新的排序值计算公式。其中DPR-A和DPR-B基于不同的网页权威性标准得出不同的排序值计算公式。

综上所述，本发明实施例通过上述步骤101-步骤104有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题，满足了实际应用中的多种需要。

实施例2

下面结合图1、图2、以及具体的计算公式，对实施例1中的方案进行可行性验证，详见下文描述：

201：为每个节点计算初始PR值的过程中，首先为每个网页初始化一个相同的PR值，之后进行迭代运算，直至每个网页的PR值稳定，在每一轮迭代过程中，网页q的PR值被平均的传递给网页q引用的页面，如公式(1)所示：

其中，PR(p)表示网页p的PR值，OutDeg(q)表示网页q的出度，PR(q)表示网页q的PR值，N为网页总数，α为阻尼因子，通常设为0.85，为解决网页集合存在链接环(即网络链接中存在重复网页节点的现象，为本领域技术人员所公知的技术术语，本发明实施例对此不做赘述)的现象而设置，B(p)表示引用p的网页集合，如公式(2)所示：

B(p)＝{q|(q,p)∈E} (2)

其中，E为图2中边的集合。

与公式(1)等价的矩阵公式(3)如下所示：

其中，PR是一个矩阵，矩阵元素为PR值，T表示转移矩阵，α表示阻尼因子，I_N表示矩阵，此矩阵只有单元列向量。

具体实现时，转移矩阵T中记录了每次迭代过程中，各网页(即节点)的出度变化情况，以便在接下来的迭代中使用这些值计算新的PR值。

202：DPR-A依据节点入链数量分配权重；

例如，对于图2所示结构，网页A的入链数量为2，网页D的入链数量为1，则网页A得到网页B的2/(1+2)权威值，网页D得到网页B的1/(1+2)权威值。DPR-A的计算公式如公式(4)所示。

其中，d为阻尼系数，取值范围为(0,1]，表示任意时刻用户到达p页面后并能够继续向后浏览的概率，Inlinks(p)表示p被指向的次数，首先∑_x∈A(q)Inlinks(x)统计网页q向外链接多少个页面，再将每个页面的所有链入页面相加，Inlinks(p)/∑_x∈A(q)Inlinks(x)，表示节点p的链入数在所有q指向节点的链入数所占的比重，节点p根据这个比重分得网页q的PR值。

其中，上述网页A-D，也为节点A-D。

203：DPR-B在步骤202改进的基础上，将网页的出链数量也考虑到评价网页权威性的标准中，即以网页的总链接数量来评价网页的权威性；

例如，对于图2所示结构，对于网页A和网页D，网页A的链接总数为4，其中包括2个入链和2个出链。D的链接数为3，其中包括1个入链和2个出链。

根据DPR-B的算法思想，网页获得权威值的大小由其链接数量的多少表示，网页A获得网页B的4/(4+3)权威值，网页D获得网页B的3/(4+3)权威值。DPR-B的计算公式如公式(5)所示。

其中，B(p)表示网页p的入链集合，Links(p)表示网页p的链接数量，A(q)表示网页q的出链集合。∑_x∈A(q)Links(x)首先统计网页q所链出的所有页面，然后再将每个页面的链接数量加起来。Links(p)/∑_x∈A(q)Links(x)表示网页p的链接数量在所有网页q所指向的网页的链接数量总和中所占的比重，根据这个比重，网页p分得网页q的PR值。

204：利用公式(4)和公式(5)对每个节点的PR值进行迭代计算，直至每个页面的DPR值趋于稳定；

205：通过与PageRank的实验对比分析，利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准，衡量本发明实施例提出的排序方法的有效性。

综上所述，本发明实施例通过上述步骤201-步骤204为搜索引擎的技术改进提供了一种新思路，提出并定义一种基于PageRank的差异化网页排序的计算方式，将网页的权威性差别考虑在内，进一步分化出两种算法：以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B，进而改进在垃圾网页检测方面的性能。

实施例3

下面结合图3、图4对实施例1和2中的方案进行试验对比分析，衡量本方法的有效性，具体步骤如下：

通过互联网中搜索引擎等经常涉及的概念和指标，对本发明的改进程度进行试验对比分析。

实验使用WEBSPAM-UK2007数据集。该数据集由三部分组成：垃圾/非垃圾网页标签(训练集，测试集)；网址和超链接；HTML页面内容。对主机采用PageRank算法，DPR算法进行排序，将检测到的垃圾网页与人工标记网页进行对比统计。之后使用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准，与PageRank算法进行实验对比分析。

实验结果表明，在垃圾网页检测方面，DPR-A所检测到的垃圾网页数目远高于PageRank算法所检测到的垃圾网页数目，如图3所示。但同时可观察到DPR-A精确率较低，综合所得DPR-A的F-Measure值较PageRank算法低，如图4所示。

由此，在DPR-A的基础上，进行了第二步改进，将网页的出链数也统计在内，将网页的总链接数作为评价网页权威性的标准，得出DPR-B算法。

经实验验证，DPR-B算法所检测到的垃圾网页数量较高，如图3所示，召回率较高。DPR-B算法的精确率比PageRank算法稍低，但在两者的调和平均数F-Measure值方面，DPR-B比PageRank算法高，如图4所示。

这说明，经两步改进后所得到DPR-B算法在垃圾网页检测方面的综合性能比PageRank算法好。

综上所述，当追求垃圾网页的检测数目，想尽可能多的检测到所有垃圾网页时，可以使用第一步改进后所得到的DPR-A算法；当希望在召回率、精确率及F-Measure值等多方面综合考虑取得较好表现时，应使用经过两步改进后所得到的DPR-B算法。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于PageRank的差异化网页排序方法，其特征在于，所述方法包括以下步骤：

利用PageRank算法计算每个网页的初始网页排名值；

2.根据权利要求1所述的一种基于PageRank的差异化网页排序方法，其特征在于，所述根据网页的入链数量评价网页的权威性分配权重，获取网页排序值计算公式具体为：

3.根据权利要求1所述的一种基于PageRank的差异化网页排序方法，其特征在于，所述根据网页的总链接数量评价网页的权威性分配权重，获取另一网页排序值计算公式具体为：

其中，B(p)表示网页p的入链集合，Links(p)表示网页p的链接数量，A(q)表示网页q的出链集合，∑_x∈A(q)Links(x)首先统计网页q所链出的所有页面，然后再将每个页面的链接数量加起来，Links(p)/∑_x∈A(q)Links(x)表示网页p的链接数量，在所有网页q所指向的网页的链接数量总和中所占的比重，根据这个比重，网页p分得网页q的PR值。