CN1996299A

CN1996299A - 对网页和网站评级的方法

Info

Publication number: CN1996299A
Application number: CN 200610165801
Authority: CN
Inventors: 孙斌
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2007-07-11
Anticipated expiration: 2026-12-12
Also published as: CN100543744C

Abstract

一种对网络节点评级的方法，由节点之间的多种链接关系性质递归地确定各个网页的级别。每个节点的级别是其入链的正向权重与入链的源节点的级别的加权和，或者是其出链的反向权重与出链的目标节点的级别的加权和，或者是其共引用关系的权重与共引用关系节点的级别的加权和，或者是其共指关系的权重与共指关系节点的级别的加权和，或者是这4类加权和的进一步的加权和。网络节点可以是网页，也可以是代表网站内所有网页之间的链接关系的超级网页。本发明提供的评级结果能够更为全面、准确地反映节点的质量、重要性与权威性，并且具有较好的稳定性、更好地抵抗作弊行为的影响。本发明的评级方法能够为网页搜集、网站分类和搜索结果排序等应用提供更佳的技术效果。

Description

对网页和网站评级的方法

技术领域

本发明涉及网络信息搜索技术领域，特别是涉及根据网络节点(例如网页或者网站)之间的链接关系而对节点评级的方法，例如在互联网搜索引擎中，利用网页之间的超文本链接，对所收录的网页和网站的质量或者重要性进行区分、衡量并评级的方法。

背景技术

随着计算机技术和网络技术的不断发展，特别是随着互联网应用的日益普及，对网络中的信息进行有效的搜索成为一项非常重要的日常活动和研究课题。当前，搜索引擎已经成为与电子邮件等类似的使用最为频繁的互联网应用之一。因此，提高网络信息搜索技术具有重要的意义和价值。经过近年来持续不断的研发和市场竞争，互联网搜索引擎技术已经有了长足的发展，形成了比较成熟的技术体系和商业模式。一方面，传统的文本信息检索技术在搜索引擎中获得了广泛、深入的应用；另一方面，针对网络信息特性的一些新的技术也被开发出来，并产生了积极、显著的效果。

网络信息的一大特征是丰富的链接关系：信息分布在网络的各个节点上，节点之间通过具有特定语义的链接而互相关联、互相参照或者互相引用。例如，互联网中的万维网(the World-Wide Web)就是一个通过超文本链接(基于超文本传输协议HTTP)而连接起来的一个巨大的信息节点网络，其基本的信息节点是网页，其中可以设置数量、目标和显示格式等都不受限的超文本链接(hypertext links，以下简称为“超链接”或“链接”)；同时，网页的分布还具有较高一层的结构，即网页都是通过网站来访问的，因而网站又构成了万维网的更大一级的信息节点。另外，网站中的网页还具有中间层次的目录结构，而且网站之间还可通过域名(domain name)形成更高级别的层次结构。因此，网络的信息节点可包括网页、网站以及其它粒度的信息节点，例如域名节点、某一级文件目录节点等。节点之间丰富的链接关系和层次化的结构成为网络信息区别于常规的文本、图像、音视频等信息的重要特性。对这些特性加以充分利用有助于提升网络信息搜索的技术水平。因此，当前获得主流应用的互联网搜索引擎都普遍使用了网络信息的链接关系。这类技术通常被称为“链接分析(link analysis)”技术。其目的在于通过网页或者网站等信息节点之间的链接关系，对信息节点作内容、属性分析或者评级。对节点的评级即赋予节点一个或多个级别数值，以便定量地区分其质量、重要性、权威性或者受欢迎程度等性质。

美国专利第6,285,999号(US Patent No.6,285,999.标题：Method for node ranking in alinked database.发明人：Lawrence Page)公开了一种链接分析方法。该方法通常被称为PageRank，是目前为止获得最广泛的关注和研究、并取得最成功应用的一种链接分析方法。(它也是Google.com搜索引擎所使用过的专有技术。)该方法完全基于节点之间的链接关系并根据超链接的有向性，为各个节点赋予一个级别分数，该分数为链接到该节点的各个节点(即链出节点)的分数的加权求和，且链出节点的分数的权值为该节点的出度(outdegree，即外出链接的总数)的倒数。由PageRank确定的网页级别是一种整体的、与搜索查询无关的网页流行程度的描述，它为定量地区分大量网页的质量或者重要程度提供了一种间接的度量。这种整体性的评级结果一方面可用作指导网页收集的优先级别，以便将重要的网页尽快收集或者更新；另一方面，它还可以同常规的针对具体查询关键词的搜索结果评分机制结合起来，提升高质量网页的排名，从而实现效果更佳的对搜索结果的排序。PageRank自1998年提出之后，获得了产业界和学术界的普遍关注与研究，并有大量相关论文发表。有关PageRank的详细性质、算法、参数调整和改进的一个综合性的论述可参见文献Deeper Inside PageRank(作者：A.Langville和C.Meyer.期刊：InternetMathematics Vol.1，No.3，p335-380.网址：http://www.internetmathematics.org/volumes/1/3/Langville.pdf)。

同时，也可以利用PageRank方法对网站进行评级。类似于网页的PageRank是该网页被某种随机浏览过程选中的概率，网站的PageRank是该网站被浏览者随机选中的概率。网站PageRank可以简单地定义为其所包含的所有网页的PageRank之和，也可以定义为某种专门的网站质量或者可信任程度的度量。例如，可以将一少部分高质量的网站挑选出来，根据经验值分别赋予较高的质量级别或者信用级别(或称为trust rank)，然后按照PageRank方法计算这些高质量网站的级别传递到其它各个网站的结果，从而比较各个网站的质量或者信用度。网站之间的链接关系可通过网页之间的链接关系而构造，例如可以简单地将网页之间的链接关系合并到各个网站节点并忽略网站内部的链接，或者对网站之间的网页链接与网站内部网页之间的链接设置不同的权重等。所获得的网站评级结果对于网页搜集调度、网站分类和反作弊、以及最终的搜索结果排序都可以提供重要作用。

尽管PageRank方法为互联网信息搜索提供了革新性的技术并在市场应用中获得了巨大的成功，其完全基于链接关系和单向的网页级别传递的性质也显现了一些不足的方面。特别是，在PageRank方法被搜索引擎普遍应用之后，出现了一种利用PageRank单向传递特点的搜索引擎作弊技术，称为链接作弊(link spamming)。作弊者只要不断地增加包含指向某个网页的链接的网页，所指网页的PageRank就能不断提高。这种作弊行为难以在PageRank的机制内得到判别和处理，而必须花费大量人力物力并使用奇特的方法进行专门检查。而这些反链接作弊方法通常被当作商业机密严加保守，不予公开。这也正好显示出了PageRank算法本身的脆弱性。

总体而言，经过近年来的大规模应用和检验，PageRank方法的优点与诸多不足之处已经较为明确。其主要不足之处包括如下几个方面(其中一些方面是链接分析本身带来的问题)：

■只依靠网页的反向链接即进入链接(in-bound links)进行评级，网页的级别总是随着入链的增加而单增，并且不区分入链是否具有相关性及其相关程度，由此导致其网页级别容易受到链接交换、链接接力堆积等作弊行为的操纵；

■直接基于网页之间的链接关系，忽略了网页在网站一级和其它层次上的聚集关系，链接关系的粒度过细，由此导致PageRank计算量大、更新慢，并且对于最新出现的网页因缺少链接关系而失效；

■同一网站内的网页所包含的链接大都为站内链接，因而难以对网站作出精确的评级。尽管可以对站内链接与站间链接设置不同的权重，但不同网站的权重值设定并无确切依据；

■有商业竞争关系的公司网站之间几乎不会有任何链接关系，即使它们的内容是非常相关的，这将影响评级的精确性。相互竞争的网站之间通常会有比较多的共引用(co-citation)和共指(coreference)等关系(详见下文说明)，但现有评级方法并未对此加以应用；

■外出链接(out-bound links)或称为正向链接倾向于引起网页的级别及其所在网站的总的级别下降，这个性质不利于鼓励网页作者积极创作外出链接，特别是鼓励设置指向高质量、内容更相关、并无业务关系的网站和网页的链接；相反地，这通常导致网站之间大量交换或者买卖所谓“互惠链接”；

■所假定的网页之间的均匀随机跳跃概率与人们浏览网页的实际行为方式相差甚远。这个不足通常可以通过引入一个“个性化向量”(作为网页浏览随机过程的外部概率源)来克服，但是如何设置个性化向量是一个更为复杂、计算成本极高的问题，因此个性化向量实际上并未被广泛应用；

■与文本内容无关、完全基于超链接关系，即完全忽略了文档的内容信息，因而不能实质地改善文档和查询语义匹配误差等问题。

由此可见，PageRank还是一种比较简单和初级的链接分析方法。对于PageRank的这些问题，可以进行一些针对性的改进。例如对于PageRank与网页文本或查询词无关的不足，可以设计相对一批预定的查询主题的扩展PageRank(或称为topic-sensitive PageRank)。但是这类改进方法的应用领域特定性与实现的复杂性都会引起更大范围的问题，实际效果并不明显。目前已知的改进方法大都属于局部性的调整或特定场合的变种，其新的技术效果尚未在大规模实际应用中得到验证，或者因计算复杂性过高而难以实现。更重要的是，已知的这些改进方法都没有对PageRank的单向传递性质作出改进，因而并不能提供实质性的改进效果以及更为有效的抗作弊性能。总之，由于存在诸多方面的简化或省略，PageRank方法及其现有的改进方法尚未能精确、全面地或更为充分地利用网页之间的链接关系对网页和网站做出评级，并且易于受到人为操纵和链接作弊的影响。

因此，有必要研究比现有技术更全面、更细致、更稳固和抗作弊、并且能被高效实现的网络信息节点评级技术，提供技术效果更好的对网页和网站评级的方法和系统。

发明内容

本发明的一个目的是提出一种综合性的网页评级方法，平衡地利用网页之间链接关系的多种特性对网页进行更全面和稳定的评级。所使用的多种特性包括链接的双向关系、由链接导出的共引用关系和共指关系，以及这些关系的频次、权重等属性。

本发明的另一个目的是提出一种网站评级方法，综合地利用网站之间链接关系的多种性质对网站进行全面、细致和稳定性强的评级。

本发明的再一个目的是提供一种基于计算机的网页和网站评级系统，利用高效率的算法实现上述网页和网站的评级方法，并使之能够应用于极大规模的网页集合与网站集合，例如用于对某一个地区内的或者全球范围内的万维网中的网页和网站进行评级。

为达到上述目的，本发明采取的技术方案是：一种以计算机实现的对网络节点评级的方法，根据节点之间的有向链接关系而赋予各个节点一个表示其级别的数值，其特征在于包括如下步骤：

a.设置至少一种如下所述的权重：对至少一部分链接，各设置一个正向权重；对至少一部分链接，各设置一个反向权重；对至少一部分节点的共引用关系，各设置一个权重；对至少一部分节点的共指关系，各设置一个权重；

b.根据至少一个如下所列举的因素确定各个节点的级别：链接到该网页的各个节点的级别，以及这些链接的正向权重；该节点所链接的各个节点的级别，以及这些链接的反向权重；与该节点有共引用关系的各个节点的级别，以及这些共引用的权重；与该节点有共指关系的各个节点的级别，以及这些共指的权重。

其中，所述链接的正向权重、链接的反向权重、共引用的权重、共指的权重分别依赖于节点的出度、节点的入度、共引用的频次、共指的频次。节点的级别是其入链的正向权重与入链的源节点的级别的加权和，或者是其出链的反向权重与出链的目标节点的级别的加权和，或者是其共引用关系的权重与共引用关系节点的级别的加权和，或者是其共指关系的权重与共指关系节点的级别的加权和，也可以是这4类加权和的进一步的加权和。节点的级别还可包括一个表示先验概率分布的常数级别。上述网络节点可以是网页，也可以是网站所对应的超级网页，该超级网页代表网站内的所有网页之间的链接关系。

与现有技术对比，本技术方案具备如下优点：由于使用了信息节点链接关系的多种性质进行评级，本方法提供的评级结果能够更为全面和准确地反映节点由链接关系而形成的质量、重要性与权威性，并且具有较好的稳定性，可加大链接作弊的难度、更好地抵抗作弊行为的影响。本方法的评级结果因此能够为网页搜集、网站分类和搜索结果排序提供更佳的技术效果。

附图说明

本说明书包含7个附图。

图1是本发明所使用的双向级别传递关系及其权重的示意图。

图2是本发明所使用的由链接而形成的节点之间共引用关系示意图。

图3是本发明所使用的由链接而形成的节点之间共指关系示意图。

图4是本发明一个实施例的对网页评级方法的流程图。

图5是本发明的网页评级方法对一个包含3个网页的网络的评级结果图示。

图6是本发明的一个实施例使用幂乘积方法迭代计算节点的级别向量的流程图。

图7是本发明一个实施例的对网站评级方法的流程图。

具体实施方式

下面结合附图和实施例对上述技术方案作进一步的说明。在以下部分，首先详细说明了本发明的方法如何用于对网页节点进行评级；在最后部分则说明了本方法如何按照相同思路，同理地利用网站之间的链接关系对网站评级。

本发明的实施例通过一个互联网搜索引擎系统而实现。该搜索引擎系统为一个包括公知的软硬件体系结构的计算机系统，通过运行特定的指令序列(即程序)而完成各种功能。该系统由文档搜集、文档索引和查询处理三个子系统组成，分别实现互联网服务器站点上的网页(即HTML或XML文档)及其它数据格式文件的发现和收集、索引文档库中的文档、对搜索用户提交的查询请求进行处理并返回搜索结果等功能。系统通过提取、分析和整理文档库中各个网页所包含的对其它网页的有向超链接而建立起网页之间和网站之间的链接关系。这些链接关系通常以有向图的格式存放在一个或多个文件中。系统使用整数对网页库中的各个网页和网站进行编号，分别称为网页的文档标识号(doc ID)和网站标识号(site ID)。以下论述中，用G表示网页或网站由链接关系构成的有向图；用i、j或did等变量名表示网页编号，其取值范围从1到N(N是网页的总数)；用I、J或者sid等变量名表示网站编号，其取值范围从1到N_s(N_s是网站的总数)。如果网页i(或网站I)在有向图G中，则记为i∈G(或I∈G)。如果网页i包含指向网页j的链接，则表示为i→j，并且称i为链接i→j的源网页，称j为链接i→j的目标网页。如果G中存在链接i→j，则记为i→j∈G。

■基本模型：

对网页(或网站)评级，就是通过某种数值计算模型对G中的每个网页i(或网站I)确定一个数值R(i)(或R(I))，以此定量地区分其质量、重要性或者权威性。在以下论述中，用R(i)表示网页i的级别。基于链接分析的评级是根据网页或网站之间的链接关系而确定其级别的数值。这种级别是一种与用户查询词无关的全局性级别。众所周知的PageRank评级方法是利用网页之间的超链接关系，将网页的初始级别单向地沿着链接传递，而最终的网页级别的分布就是这种单向性的级别值传递过程达到稳定状态的结果。在数学上这种级别传递过程等价于N个节点上的概率分布P(i)＝R(i)的Markov链过程，而最后的评级结果就是该Markov链到达平稳态的概率分布。PageRank的主要思想认为网页之间的超链接可作为一种引用与推荐关系，被很多网页推荐的网页具有较大的重要性；而且，来自重要网页的推荐具有更重要的价值；各个网页的级别随着其所包含的链接平均地向外传递，而一个网页所得到的级别就是所有沿着指向它的链接所传递的级别的总和。该总和是链接到该网页的各个链出网页的级别的加权求和，其中每个链出网页的权值为其外出链接的总数(即出度，outdegree)的倒数。

如前所述，PageRank的单向传递性质具有一系列的不足之处，易于受到人为设置链接的操纵，并且未充分利用节点之间链接关系的多种性质。本发明的评级方法通过使用链接关系的多种性质进行评级，以便更为全面、客观和准确地反映节点由链接关系而形成的质量、重要性或权威性的差异，并更好地减少链接作弊行为的影响。

根据本发明的实施例，能够影响网页级别的链接关系的性质至少包括如下4类：

■正向的链接，以及这些链接的正向权重；

■反向的链接，以及这些链接的反向权重；

■节点之间的共引用(co-citation)关系及其属性；

■节点之间的共指(co-reference)关系及其属性。

任一个网页的级别可以根据上述4类链接关系性质的一部分或全部，由其它网页的级别递归地确定。这为定量地利用多种链接关系特性计算网页的级别提供了可实现的算法，即：网页i的级别R(i)可以由所有与网页i有链接关系的其它网页j的级别R(j)的某种线性叠加(加权和)而确定。具体而言，根据本发明实施例，确定网页i的级别R(i)(i＝1，2，...，N)的基本模型为：

R (i) = c_{1} \cdot \underset{j &RightArrow; i &Element; G}{Σ} W^{+} (j, i) \cdot R (j) + c_{2} \cdot \underset{i &RightArrow; j &Element; G}{Σ} W^{-} (i, j) \cdot R (j) + - - - (1)

c_{3} \cdot \underset{j &Element; G}{Σ} W^{C} (i, j) \cdot R (j) + c_{4} \cdot \underset{j &Element; G}{Σ} W^{R} (i, j) \cdot R (j) + D (i),

式中所有求和都是对指标j进行，并且j≠i(除非有链接关系特别指定了网页对自己的链接、共引用或共指)。其中，4个求和中的函数W⁺(j，i)、W^-(i，j)、W^C(i，j)、W^R(i，j)分别是链接j→i的正向权重、i→j的反向链接权重、网页i同j的共引用权重、网页i同j的共指权重；c₁，c₂，c₃，c₄是常系数，表示各种链接关系性质对级别的贡献比例，其值可根据实际使用的模型而确定；D(i)_{i＝1，2，...，N}是N个常数，表示网页级别的某种先验分布(也就是在没有任何链接关系影响的情况下，即各个权重函数W⁺＝W^-＝W^C＝W^R＝0时，各网页的级别值)。也可以把D(i)改写为如下形式：

D(i)＝d·E(i)，

d = \underset{i &Element; G}{Σ} D (i),

\underset{i &Element; G}{Σ} E (i) = 1,

其中E(i)＝D(i)/d是一个归一化的向量，可看作是网页级别的先验概率分布。

公式(1)实际上是对网页级别的4类链接关系级别传递的加权和的进一步的加权和，而系数c₁，c₂，c₃，c₄是后一次加权和的权重。下面分别对上述各种链接关系性质及其权重函数W⁺(j，i)、W^-(i，j)、W^C(i，j)、W^R(i，j)加以详细说明。

如附图1所示，与任一网页i具有直接的链接关系的网页可分为两大类：一类是链接到网页i的网页j所组成的集合；另一类是被网页i链接的网页j′所组成的集合。前者所包含的指向网页i的链接称为网页i的进入链接(in-bound links)，或者简称为“入链”(in-links)；入链的数目称为网页i的入度，记为函数形式in-degree(i)；而网页i所包含的指向其它网页的链接称为网页i的外出链接(out-bound links)，或者简称为“出链”(out-links)；出链的数目称为网页i的出度，记为out-degree(i).

在网页评级过程中，网页的级别是通过(直接或间接的)链接关系而传递的。首先，与网页i的入度相关的各个网页j对网页i的级别R(i)具有直接的贡献，其中每个网页j的贡献是其自身级别R(j)的某个百分比例。这个贡献为网页j的级别R(j)按链接j→i对网页i的正向传递，所传递的比例系数W⁺(j，i)称为链接j→i的正向权重。因此，网页i的级别R(i)首先是其入链的正向权重与入链的源网页的级别的加权和。此即公式(1)的右边第一项。

因此，根据本发明，对同一网页i，来自不同网页j的入链的重要性是不同的。入链的重要程度由链接j→i的正向权重W⁺(j，i)来表示。按此评级原理，来自重要网页的重要链接的推荐具有更大的重要性。显然，网页j本身所包含的(外出)链接越多，其对被链接网页的级别的贡献就应该越小。这个关系可以利用网页j的出度来表示，可认为链接j→i的正向权重W⁺(j，i)与网页j的出度out-degree(j)成反比，即W⁺(j，i)∝1/out-degree(j).通过引入一个比例因子w⁺(j，i)，可将此关系表示为

W⁺(j，i)＝w⁺(j，i)/out-degree(j). (2)

比例因子w⁺(j，i)取决于与链接j→i相关的多种属性(详见下面说明)。而在本方法的简化应用模型中，可以取为

w⁺(j，i)≡1.0，对所有链接j→i；w⁺(j，i)＝0，当不存在链接j→i. (3)

其次，根据本发明的评级方法，网页之间的超链接对网页级别的影响是双向的。与上述沿链接正向传递级别的机制相对应，沿链接反方向传递级别也可作为一种有价值的网络节点评级的机制。本发明将此机制集成到评级方法中。如附图1所示，与网页i的出度相关的各个网页j′也会对网页i的级别R(i)产生影响。其主要思想在于：网页中的超链接的设置完全是由网页作者任意决定的；虽然网页作者不能控制指向其网页的链接，但他们可以任意选择被其网页链接的网站和网页，而反向的网页级别传递可以对网页链接设置的这种自发行为形成有效的制约和积极的影响，即：如果网页作者主动指向高质量的网页，则作为鼓励，其网页的级别有可能获得较大幅度的提高；而如果指向低质量的网页，则其网页的级别只会有很小的增加，不会获得实质性的提升。在某些反作弊技术中，已存在应用类似机制的方法，例如，对包含指向已知作弊网站的链接的网页或网站进行一定程度的惩罚(在网页搜集、更新和搜索结果排序方面降低其优先级)。

另一方面，从被指向的高质量的网页所能获得的级别提升好处又是与被指网页的入度有关的。如果指向某个高质量的网页的链接较多，则该网页对主动链接过来的网页的级别贡献会较小。因而本发明通过在评级方法中集成反方向的级别传递机制，能够较好地对各种人为可控的要素加以平衡。

因此，与网页i的出度相关的各个网页j′也会将其级别R(j′)的一部分贡献给网页i的级别R(i).这个贡献为网页j′的级别R(j′)按链接i→j′对网页i的级别的反向传递，因而其贡献的比例系数W^-(i，j′)称为链接i→j′的反向权重。这样，网页i的级别R(i)还包括其出链的反向权重与出链的目标网页的级别的加权和，即公式(1)的右边第二项。

如上所述，同一网页i的不同出链的重要性是不同的。出链的重要程度由链接i→j′的反向权重W^-(i，j′)来表示。按此评级原理，设置指向高质量网页的高质量(大权重)的链接可以在较大程度上提高该网页的质量，而指向低质量网页则不会获得实质的质量提升(即使该链接具有较大的反向权重)。

与正向权重同理，对于链接i→j′的反向权重W^-(i，j′)，网页j′所具有的入链越多，其对主动链接来的网页i的级别的贡献就应该越小。可以用网页j′的入度来表示这个关系，即链接i→j′的反向权重W^-(i，j′)与网页j′的入度in-degree(j′)成反比，即W^-(i，j′)∝1/in-degree(j′).通过引入一个比例因子w^-(i，j)，可将此关系表示为

W^-(i，j)＝w^-(i，j)/in-degree(j). (4)

因子w^-(i，j)取决于链接i→j的多种属性(详见下面说明)，在简化应用情形可取为

w^-(i，j)≡1.0，当存在链接i→j∈G；w^-(i，j)＝0，当不存在链接i→j∈G. (5)

综合上述链接的双向传递性质和双向权重，根据本发明实施例，来自重要网页的重要链接的推荐(入链)、以及指向重要网页的重要链接的引用(出链)都可以对网页的重要性产生较大的影响。这种机制可以鼓励指向高质量网页的高质量(大权重)的链接，提高超链接关系的总体质量，并在很大程度上减少对低质量信息的链接和链接交换。

再次，根据本发明的评级方法，具有共引用关系和共指关系的网页或网站之间也存在级别传递关系，也就是说共引用关系和共指关系能够充当网页或网站之间的某种间接的“互惠链接”关系，使得彼此之间的级别数值能够互相传递、相互增长。

如附图2所示，编号为2和3的网页之间没有任何直接的链接关系，但存在另一个编号为1的网页，包含了同时指向网页2和3的链接1→2，1→3.也就是说，网页2和3同时被网页1引用，或者说网页1包含了对网页2和3的共引用(co-citation)。这样，网页2和3通过网页1而形成了一种间接的关系，此即上述网页之间的共引用关系。显然，这是一种相互的(即双向的)间接链接关系。

在附图3，网页2和3之间也没有任何直接的链接关系，但是二者同时指向了另一个编号为1的网页。这样，网页2和3通过直接的链接关系2→1和3→1而形成了另一种间接关系，即共指(co-reference)关系。共指关系的链接方向正好与共引用关系的相反(等价于“反向的co-citation”)。这也是一种相互的、双向的关系(对应双向的级别传递)。

被很多网页共引用的两个网页，以及指向多个相同网页的两个网页，一般具有较大的相关性，例如相同的领域、主题或对类型相似的资源的引用等。通常，有商业竞争关系的公司网站之间一般不会有任何链接关系，然而它们的内容则具有很强的相关性。从整体上看，这些相互竞争的商业网站之间会存在比较多的共引用和共指关系，即有较多的第三方网页会同时引用它们，而它们也可能会指向某些相同的第三方网页或者网站。PageRank方法等现有技术并未对这种导出性的链接关系特性加以应用。本发明的评级方法将上述两种间接的链接关系集成到评级模型中，以此进一步提高评级结果的客观性和稳定性。

显然，这种通过第三方网页或网站而间接形成的“互惠链接”关系较为客观地反映了节点之间在主题、内容或类型方面的联系，可以更好地反映网络的链接结构对节点的全局影响；同时它又远比直接的单向超链接关系难以被人为操纵，因而具备极强的抗拒链接作弊的性能。依靠网页链接的共引用和共指关系进行作弊的难度比链接堆积、链接交换等作弊方式要困难得多。综合经济成本、技术难度、竞争等因素，通过人为设置大量共引用或共指关系而达到显著提升自己的网页级别、同时不增加竞争对手的网页级别的目的实际上难以实现。

根据本发明实施例，与网页i有共引用关系的各个网页j会将其级别R(j)的一部分贡献给网页i的级别R(i)，其比例系数W^C(i，j)称为网页i与j的共引用权重；而与网页i有共指关系的各个网页j会将其级别R(j)的一部分贡献给网页i的级别R(i)，其比例系数W^R(i，j)称为网页i与j的共指权重。这两方面的贡献分别构成公式(1)右边的第三项和第四项。

进一步地，权重W^C(i，j)和W^R(i，j)还可以通过引入两个新的函数coci-degree(i，j)和coref-degree(i，j)来确定，后者分别表示共引用和共指关系的频次属性。对于存在共引用关系得网页i和网页j，如果同时收录二者的第三方网页越多，则在总体上网页i、j被同时浏览的概率就会增大，表现为这两个网页之间有较大的跃迁概率。共引用权重W^C(i，j)就是从网页j到网页i的这种跃迁的概率强度。因此，W^C(i，j)是与网页i和网页j之间的共引用的次数(或称为共引用频次)相关的一个函数。用coci-degree(i，j)表示共引用频次对于从网页i跳跃到网页j的概率的贡献，则共引用权重W^C(i，j)∝coci-degree(i，j).引入一个比例因子w^C(i，j)，将此关系表示为

W^C(i，j)∝w^C(i，j)·coci-degree(i，j). (6)

因子w^C(i，j)依赖于网页i与j的属性(详见下面说明)，在简化应用情形可取为

w^C(i，j)≡1.0，当i与j存在共引用；w^C(i，j)＝0，当不存在共引用. (7)

相应地，可以认为共指权重W^R(i，j)是由共指关系引起的从网页j到网页i的跃迁概率强度，并且是与网页i和网页j之间的共指的次数(或称为共指频次)成正比的一个函数。用coref-degree(i，j)表示共指频次对于从网页i跳跃到网页j的概率的贡献，引入比例因子w^R(i，j)，可将W^R(i，j)表示为

W^R(i，j)∝w^R(i，j)·coref-degree(i，j). (8)

因子w^R(i，j)依赖于网页i与j的属性(详见下面说明)，在简化应用情形可取为

w^R(i，j)≡1.0，当i与j存在共指；w^R(i，j)＝0，当不存在共指. (9)

根据本发明实施例，系数coci-degree(i，j)为网页i和网页j之间的共引用频次coci_freq(i，j)的函数，即

coci-degree(i，j)＝f(coci_freq(i，j)).

在本发明优选实施例的系统配置中，coci-degree(i，j)正比于网页i和网页j之间的共引用频次，并可定义为coci-degree(i，j)＝coci_freq(i，j).当i＝j，可认为coci_freq(i，j)＝in-degree(i).即

coci-degree(i，j)＝coci_freq(i， j)，i≠j；coci-degree(i，i)＝in-degree(i). (10)

本发明也可以使用其它的函数形式f实现coci-degree(i，j)，从而分析共引用关系对网页或网站评级的其它方面的技术效果。例如，f(coci_freq)可以为log(coci_freq)或者(coci_freq)^1/2等形式。

类似地，根据本发明实施例，系数coref-degree(i，j)为网页i和网页j之间的共指频次coref_freq(i，j)的函数，即

coref-degree(i，j)＝g(coref_freq(i，j)).

在优选系统配置中，coref-degree(i,j)正比于网页i和网页j之间的共指频次，并定义为coref-degree(i，j)＝coref_freq(i，j).当i＝j时，coref_freq(i，j)＝out-degree(i)。即

coref-degree(i，j)＝coref_freq(i，j)，i≠j；coref-degree(i，i)＝out-degree(i). (11)

本发明也可以按需要使用其它的函数形式g，例如log(coref_freq(i，j))或者[coref_freq(i，j)]^1/2等形式。

■评级算法：

综合上述各个评级因素，本发明实施例的评级流程如附图4所示。在步骤410，根据网页节点之间的链接关系，按照上述描述，为节点之间的每个链接设置一个正向权重W⁺和一个反向权重W^-，并为任两个节点之间的每个共引用设置一个权重W^C、为任两个节点之间的每个共指设置一个权重W^R。然后在步骤420，根据上述公式(1)所描述的评级模型以及公式(2)～(11)所述的4类链接关系性质，按下列因素逐一确定各个网页i的级别R(i)，即：链接到网页i的各个网页j的级别R(j)，以及这些链接的正向权重W⁺(j，i)；网页i所链接的各个网页j的级别R(j)，以及这些链接的反向权重W^-(i，j)；与网页i有共引用关系的各个网页j的级别R(j)，以及这些共引用的权重W^C(i，j)；与网页i有共指关系的各个网页j的级别R(j)，以及这些共指的权重W^R(i，j)。根据这些因素，可对每个网页i的级别值R(i)作精确求解。

上述评级过程包含了一个具体的算法，该算法可由如下概率转移公式描述。这是一个由N个方程组成的N元线性方程组，其中网页的级别R(i)等价网页i被随机选中(浏览或点击)的概率：

R (i) = c_{1} \cdot \underset{j &RightArrow; i &Element; G}{Σ} \frac{w^{+} (j, i)}{out - degree (j)} R (j) + c_{2} \cdot \underset{i &RightArrow; j &Element; G}{Σ} \frac{w^{-} (i, j)}{in - degree (j)} R (j) +

c_{3} \cdot \underset{j &Element; G, j &NotEqual; i}{Σ} \frac{coci - degree (i, j) \cdot w^{C} (i, j)}{α (j)} R (j) + - - - (12)

c_{4} \cdot \underset{j &Element; G, j &NotEqual; i}{Σ} \frac{coref - degree (i, j) \cdot w^{R} (i, j)}{β (j)} R (j) + d \cdot E (i),

式中α(j)和β(j)为概率矩阵的归一化因子，而w⁺、w^-、w^C和w^R分别是上述4类概率跃迁机制的相应的权重因子。根据概率转移变换的要求，常数c₁，c₂，c₃，c₄和d满足如下关系：

d＝1-(c₁+c₂ +c₃+c₄). (13)

归一化的向量E(i)满足条件

\underset{i &Element; G}{Σ} E (i) = 1,

其作用为一个概率外源(external source)，d·E(i)表示网页浏览者不沿着网页之间的链接关系、而是在整体上随机挑选各个节点i的概率，在此称为“个性化评级向量”。其基本性质与PageRank中的个性化向量相同。在本发明实施例优选配置中，外部概率源向量E(i)的各个分量都取为1/N，即取平均的先验概率分布。

由上述算法确定的N个网页的级别R(i)已是按链接关系浏览网页的随机过程达到稳定状态的概率分布，因此满足如下非负和归一条件：

i，R(i)≥0；

Σ_{i = 1}^{N} R (i) &equiv; 1 . - - - (14)

将上述N个网页的级别R(i)组成一个列向量R，可将上述公式写为矩阵形式：

R＝M(c₁，c₂，c₃，c₄)·R (15)

其中矩阵M是多个矩阵的线性组合：

M(c₁，c₂，c₃，c₄)＝c₁M⁺+c₂M^-+c₃M^C+c₄M^R+dM⁰， (16)

对于网页i，j，x∈G，右边各个矩阵分别定义如下：

M_{i, j}^{+} = \frac{w^{+} (j, i)}{out - degree (j)},

(对于链接j→i) (17)

M_{i, j}^{-} = \frac{w^{-} (i, j)}{in - dergree (j)},

(对于链接i→j) (18)

M_{i, j}^{C} = \frac{coci - degree (i, j) \cdot w^{C} (i, j)}{α (j)},

(对于共引用关系x→i，x→j) (19)

M_{i, j}^{R} = \frac{coref - degree (i, j) \cdot w^{R} (i, j)}{β (j)},

(对于共指关系i→x，j→x) (20)

M_{i, j}^{0} = E (i),

对于任意网页j＝1，2，...，N. (21)

以上对矩阵M⁰的推导利用了级别向量R的如下非负和归一属性。

上述矩阵M以及M⁺、M^-、M^C和M^R的每一个都是一个Markov链的概率转移矩阵，它们都满足概率转移矩阵的一个基本属性：对于G中的任意节点i，转移矩阵的任意一列的元素之和为1，即：

i，M^k∈{M，M⁺，M^-，M^C，M^R，M⁰}：

\underset{i &Element; G}{Σ} M_{i, j}^{k} = 1 . - - - (22)

此性质保证向量R的上述非负和归一属性不因概率转移矩阵的变换而改变。由(17)、(18)，有如下关系式：

\underset{i &Element; G}{Σ} w^{+} (j, i) = out - degree (j),

\underset{i &Element; G}{Σ} w^{-} (i, j) = in - degree (j) . - - - (23)

而对于归一因子α和β，根据上述概率转移矩阵属性(19)、(20)，二者的定义为：

α (j) = \underset{i &Element; G, i &NotEqual; j}{Σ} coci - degree (i, j) \cdot w^{C} (i, j),

&Exists; i : w^{C} (i, j) &NotEqual; 0; elseα (j) = 1, - - - (24)

β (j) = \underset{i &Element; G, i &NotEqual; j}{Σ} coref - degree (i, j) \cdot w^{R} (i, j),

&Exists; i : w^{R} (i, j) &NotEqual; 0; elseβ (j) = 1 . - - - (25)

因此，因子α(j)表示网页j所参与的共引用关系的总的频次(加权和)，而比值coci-degree(i，j)/α(j)则为网页j的级别R(j)由于共引用关系而分配给网页i的比例；β(j)表示网页j所参与的共指关系的总的频次(加权和)，coref-degree(i，j)/β(j)为网页j的级别R(j)由共指关系分配给网页i的比例。

上述概率转移矩阵M(c₁，c₂，c₃，c₄)表示本发明实施例的一个综合模型，可看作是基于双向链接权重和双向的共引用关系的增强PageRank模型。当常数c₁，c₂，c₃，c₄的一部分取值为0时，可由矩阵M(c₁，c₂，c₃，c₄)得到不同的简化模型。例如，PageRank实际上就是由矩阵M(1-d，0，0，0)所表示的一种简化模型特例，并且其中进一步假设了所有正向链接权重w⁺(i，j)＝1。其它几种重要的简化模型包括：

R^+-＝M(c₁，c₂，0，0)·R^+-

R^+C＝M(c₁，0，c₃，0)·R^+C

R^+R＝M(c₁，0，0，c₄)·R^+R

以及

R^+-C＝M(c₁，c₂，c₃，0)·R^+-C

R^+-R＝M(c₁，c₂，0，c₄)·R^+-R

R^+CR＝M(c₁，0，c₃，c₄)·R^+CR

这些评级模型分别利用了一部分评级因素，可用于对同一个网络结构给出多种评级结果。这些结果可以单独或者联合地应用于不同目的。例如，级别向量R^+-可单独地用于对“主动链接到高质量网页”情况的度量，部分地显示创建高质量超链接行为的效果。

另外，在保证上述各个转移矩阵的任意一列元素之和为1的属性时，还有一个需要特殊处理的问题，即：在实际的网络链接结构中，通常都存在出度或者入度为0的节点。例如，对于某个非网页的文档(包括PDF文件、Word DOC文件等)或者尚未/无法成功下载的网页j，有out-degree(j)＝0；而对于某些没有被其它任何网页链接的网站首页k，则in-degree(k)＝0.对于前者，矩阵M⁺的相应列元素都是0，因而将不能满足上述归一公式(22)。对于后者，矩阵M^-的相应的列元素都是0，不满足上述公式(22)。而且，这些网页的存在还有可能导致矩阵M^C和M^R存在全部元素为0的列，不能满足公式(22)。

在相应的Markov链过程中，这些入度或者出度为0的节点被称为“摇摆节点”(dangling nodes)。本发明实施例应用一种标准化的数学技巧对这些节点进行特殊处理，即：如果网络中的节点总数为N，则对于入度为0的节点，其入度被修正为N；而对于出度为0的节点，其出度被修正为N；而且，对于这些被修正的节点所具备的新链接(称为“虚链接”virtual links)，其正向和反向的链接权重都是1.0，即对于任何源节点或者目标节点为被修正的节点的链接，w^±＝1.0；另外，被修正的节点不参与共引用频次和共指频次的计算。(其它节点则不做任何处理。)

经过这样处理之后，网络中的任何节点的入度和出度都不会为0，因而上述矩阵M(c₁，c₂，c₃，c₄)对于任何网络链接结构都将是合格的概率转移矩阵。

由上述公式(12)或(15)描述的评级算法所获得的结果实际上是N维矩阵M(c₁，c₂，c₃，c₄)的主特征向量。该算法可以被高效地实现(详见后文描述)。

■参数与权重因子设置：

在上述评级方法中，模型参数c₁，c₂，c₃，c₄以及d可按具体应用调整。其中参数d具有特殊的作用，它一方面表示网页浏览者不依靠链接关系而是随机挑选各个网页节点的概率强度，另一方面它与评级算法的迭代计算收敛速率有关：d值越大，迭代的收敛越快，但评级结果越偏离实际的网络链接结构。数学上，引入参数d(即外部概率源)的目的在于加快Markov链达到平稳状态。

为较小地偏离网络结构并较快地收敛，通常可取d≈10％，即c₁+c₂+c₃+c₄≈90％.而c₁，c₂，c₃，c₄的比例又可以按需调整，由此调整各种链接关系性质对级别贡献的权重。如果需要强调直接的链接关系的作用，则可适当增大参数c₁和c₂；如果需要强调由第三方网页或网站间接形成的“互惠链接”关系的效应，则可增大c₃和c₄。而c₁和c₂以及c₃和c₄二者之间的相对比例也可按同理调整。

上述评级算法所涉及的权重因子w⁺、w^-、w^C和w^R分别表示网页之间的4种链接关系性质对概率转移(即级别传递)的强度系数(传递比例)，它们都是具体的网页i和j的多种相关属性的函数。

根据本发明实施例，权重因子w⁺、w^-、w^C和w^R的一个或多个可以取常数值。在本方法的一个简化应用的模型中，w⁺、w^-、w^C和w^R都为常数，并分别按公式(3)、(5)、(7)、(9)取值，可综合表示为：

w⁺＝w^-＝w^C＝w^R＝1.0，当存在相应的链接关系；＝0，当无相应关系时. (26)

而当权重因子w^C和w^R取为1时，对于网页i和j之间非空的共引用和共指关系，由上述定义，归一因子α和β简化为

α (j) = \underset{i &Element; G, i &NotEqual; j}{Σ} coci - degree (i, j),

β (j) = \underset{i &Element; G, i &NotEqual; j}{Σ} coref - degree (i, j) . - - - (27)

即分别为网页j所参与的共引用关系和共指关系的总的频次。

作为一个示例，可将本评级方法的上述简化模型应用到如附图5所示的网络，其中包括N＝3个网页(或者网站)节点及4个链接。根据这些链接关系，有

out-degree(1)＝2，out-degree(2)＝1，out-degree(3)＝1；

in-degree(1)＝1， in-degree(2)＝1，in-degree(3)＝2；

coci-degree(2，3)＝coci-degree(3，2)＝1；

coref-degree(1，2)＝coref-degree(2，1)＝1；

w^-(1，2)＝w^-(1，3)＝w^-(2，3)＝w^-(3，1)＝1.0，w⁺(i，j)＝0对其它i，j；

w⁺(2，1)＝w⁺(3，1)＝w⁺(3，2)＝w⁺(1，3)＝1.0，w⁺(i，j)＝0对其它i，j；

w^C(2，3)＝w^C(3，2)＝1.0，w^C(i，j)＝0对其它i，j；

w^R(1，2)＝w^R(2，1)＝1.0，w^R(i，j)＝0对其它i，j；

由α和β定义及公式(27)得

α(1)＝1，α(2)＝1，α(3)＝1；β(1)＝1，β(2)＝1，β(3)＝1.

将上述各因子以及先验概率分布E(i)＝1/3代入评级公式(12)，得到以下线性方程组：

\{\begin{matrix} R (1) = (c_{2} + c_{4}) \cdot R (2) + (c_{1} + c_{2} / 2) \cdot R (3) + d / 3, \\ R (2) = (c_{1} / 2 + c_{4}) \cdot R (1) + (c_{2} / 2 + c_{3}) \cdot R (3) + d / 3, \\ R (3) = (c_{1} / 2 + c_{2}) \cdot R (1) + (c_{1} + c_{3}) \cdot R (2) + d / 3 . \end{matrix}

以及约束条件R(1)+R(2)+R(3)＝1.

显然，R(i)是参数参数c₁，c₂，c₃，c₄及d的函数。作为简单示例，设d＝0、加权系数c₁＝c₂＝c₃＝c₄＝1/4(即等权重)，则得到评级结果为

R(1)＝36/121≈0.2975，R(2)＝3/11≈0.2727，R(3)＝52/121≈0.4298.

当应用本发明的方法进行更细致的网页评级时，权重因子w⁺(j，i)、w^-(i，j)、w^C(i，j)和w^R(i，j)可根据网页i和j的具体属性进行定义和调整，以便更准确地反映网页之间的上述4种链接关系性质对网页级别传递的效果。例如，设函数A₁(i)、A₂(j)、A₃(i，j)分别表示网页i的属性、网页j的属性、链接i→j或j→i的属性对权重因子的作用，则链接权重因子w⁺或w^-可以表示为

w^+，-(i，j)＝A₁(i)·A₂(j)·A₃(i，j)，

而共引用和共指权重因子w^C、w^R可表示为

w^C(i，j)＝A₁(i)·A₂(j)·∑_x∈G[A₃(x，i)·A₃(x，j)]，

w^R(i，j)＝A₁(i)·A₂(j)·∑_x∈G[A₃(i，x)·A₃(j，x)]，

其中x是与i、j形成共引用或共指关系的网页。

所述网页的属性包括：该网页的URL以及该URL的属性，该网页的创建、搜集和/或更新时间，该网页的访问次数、访问频度，该网页的上一次评级的结果等。而网页的URL属性又包括：主机名和域名的属性(域名注册信息、主机IP地址及其地域等)，文件目录的深度，文件名称及其长度等。

链接i→j的属性包括：该链接在网页i中的属性、网页j的属性。后者如上所述；前者包括：链接在网页i中的位置(是否处于页面顶端或中间等)，链接文字以及链接描述文字(包括文字长度、关键词的数量、关键词的主题类别等)，链接的排版格式信息(包括字体大小、颜色，链接图形的相对大小和视觉效果，以及其它HTML标签信息)，该链接在此网页中被点击的次数、频度、以及点击者的来源等信息。同时，链接i→j的属性还包括网页i的属性与网页j的属性的对比情况，包括：网页i的URL与网页j的URL的比较属性(例如二者主机之间的IP地址距离或实际地理位置距离、二者文件目录深度的比较等)，二者被访问次数的差异、访问者来源的差异，网页i、j的文本属性的差异(包括各自的字符数长度、关键词数量、关键词和链接的密度，以及二者的文本的相似程度)。

在本发明方法的实际应用中，可根据上述属性的一部分或者全部分别调整各个权重因子。例如，对于正向链接权重因子w⁺(j，i)，可主要根据链接在源网页j中的位置、显示视觉等属性，区分各个外出链接的权重，从而更准确地模拟在源网页j中的各个链接向外传递网页j的级别的比例因子。而对于反向链接权重因子w^-(i，j)，可主要考虑网页i和j的相关性(包括标题、链接描述文字、主要内容、URL中的主机信息等的相关程度)，链接i→j及其指向的网页j同网页i的相关性越强，则网页j的级别对网页i的级别的贡献比例即w^-(i，j)就越大。

两个网页i、j的共引用权重因子w^C(i，j)表示某个与网页i具有共引用关系的某个网页j在所有与网页i的具有共引用关系的网页集合中的重要程度。确定该权重的过程为共引用权重分析(co-citation weighting)。在简单的情况下，所有与网页i的具有共引用关系的网页都具有相同的重要性，即w^C(i，j)＝1，公式(1)中的共引用权重W^C(i，j)只是正比于共引用频次coci-degree(i，j).而在一般的情况下，权重因子w^C(i，j)通过比较上述网页i的属性、所有与网页i具有共引用关系的网页j的各种相关的属性而确定，其中还包括了同时指向网页i和j的网页x的属性，以及链接x→j、x→j的属性。通过这些属性，可确定网页i与网页j之间的某种距离特征，则与网页i的距离较小的网页j将具有较大的权重因子w^C(i，j)。

共指权重因子w^R(i，j)表示某个与网页i具有共指关系的某个网页j在所有与网页i的具有共指关系的网页集合中的重要程度。确定该权重的过程为共指权重分析(coreferenceweighting)。在简单的情况下，所有与网页i的具有共指关系的网页具有相同的重要性，即w^R(i，j)＝1，公式(1)中的共指权重W^R(i，j)只是正比于共指频次coref-degree(i，j).而在一般的情况下，权重因子w^R(i，j)通过上述各项网页属性和各项链接属性而确定，并反映网页i与网页j之间的某种距离特征，即如果网页i、j的距离较小，则权重因子w^R(i，j)被相应地加大。

■评级算法的实现：

根据公式(12)或(15)的评级算法所获得的结果R(i)是N维矩阵M(c₁，c₂，c₃，c₄)的主特征向量(即最大的特征值所对应的特征向量)。在本发明实施例的上述搜索引擎系统中，该算法的高效率实现需要使用一批关键的数据结构，即矩阵M⁺、M^-、M^C和M^R的存储信息与格式。算法所涉及的外部概率源向量E(i)则不需特别处理。当取等概率分布即E(i)＝1/N时，E(i)向量不需要存储，在计算步骤中直接使用即可；而当取E(i)为某个其它的个性化向量时，则可以把它存放在文件中，其中E(i)各个分量按网页编号i的顺序存放。

根据本发明实施例，上述4个矩阵M⁺、M^-、M^C和M^R的存储方式各为一个稀疏矩阵文件，分别称为Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。公式(12)所述的网页节点级别的计算方法可按照如下方式实现：

●首先分析网页，提取其中包含的链接，生成一个Outdegree文件(M⁺的稀疏矩阵表示)，其记录单位是每个网页的外出链接信息，包括被链接网页的编号和该出链的正向权重。Outdegree文件中的每个网页记录的格式为：

src_did：n，(linked_did₁，w⁺ ₁)，......，(linked_did_n，w⁺ _n). (28)

其中src_did为链出的源网页的编号，linked_did_j为被链接网页的编号，w⁺ _j为该链接的正向权重w⁺(src_did，linked_did_j)，而整数n即为网页src_did的出度out-degree(src_did).

●生成一个Indegree文件(M^-的稀疏矩阵表示)，记录每个网页的所有进入链接的信息，包括所有入链的反向权重和该入链的链出网页的编号。Indegree文件中每个网页的记录格式为：

lided_did：n，(src_did₁，w^- ₁)，......，(src_did_n，w^- _n). (29)

其中linke_did为被链接的目标网页的编号，src_did_j为链出网页的编号，w^- _j为该链接的反向权重w^-(src_did_j，linked_did)，整数n为网页linked_did的入度in-degree(linked_did).

根据本发明的实施例，Indegree文件可以根据Outdegree文件来生成，其方法为：利用稀疏矩阵的高效转置算法，对Outdegree文件中由src_did与linked_did张成的矩阵进行转置运算(行、列互换)；再由链接src_did→linked_did的各种属性计算其反向权重w^-(src_did，linked_did)。

●由Indegree文件生成一个Cocitation文件(M^C的稀疏矩阵表示)，记录每个网页的共引用信息，其记录格式为：

did：n，(coci_did₁，coci_degree₁，w^c ₁)，......，(coci_did_n，coci_degree_n，w^c _n). (30)

其中整数n为后续三元组的数目；对于每个与网页did有共引用关系的网页coci_did_i，分别用一个三元组来记录该共引用关系的频次信息coci_degree_i＝coci-degree(coci_did_i，did)及其权重w^c _i＝w^c(coci_did_i，did)。由于与did相关的归一因子α(did)可以直接按其定义求出，故不必存放在Cocitation文件中。

●由Outdegree文件生成一个Coreference文件(M^R的稀疏矩阵表示)，记录每个网页的共指信息，其记录格式为：

did：n，(coref_did₁，coref_degree₁，w^R ₁)，......，(coref_did_n，coref_degree_n，w^R _n).(31)

其中整数n为后续三元组的数目；对于每个与网页did有共指关系的网页coref_did_i，分别用一个三元组记录该共指关系的频次信息coref_degree_i＝coref-degree(coref_did_i，did)，以及权重w^R _i＝w^R(coref_did_i，did)。与did相关的归一因子β(did)可以直接按其定义求出，不必存放在Coreference文件中。

●生成上述4个稀疏矩阵文件之后，即可使用幂方法，进行迭代计算R⁽ⁿ⁺¹⁾＝M(c₁，c₂，c₃，c₄)·R⁽ⁿ⁾.

本发明实施例的网页级别R(包括R⁺、R^-、R⁰等)是所对应的M矩阵的主特征向量(即最大的特征值所对应的特征向量)。计算矩阵主特征向量的幂方法(Power Method)适用于这种计算，它是一种迭代计算，从一个任选的非零初始向量R⁽⁰⁾开始，用矩阵M反复对R⁽⁰⁾作乘法运算：

R⁽ⁿ⁺¹⁾＝M·R⁽ⁿ⁾＝M²·R^(n-1)＝......＝Mⁿ·R⁽⁰⁾， (32)

直到下述增量小于某个指定的误差值δ：

||R⁽ⁿ⁺¹⁾-R⁽ⁿ⁾||₁＝∑_i|R⁽ⁿ⁺¹⁾(i)-R⁽ⁿ⁾(i)|≤δ， (33)

根据幂方法的收敛性质，迭代计算R⁽ⁿ⁺¹⁾＝M·R⁽ⁿ⁾的收敛速率整体上为数值(1-d)^m趋近于0的速率，即lim_m(1-d)^m→0，其中m是迭代次数，而d是公式(12)中的随机跳跃概率系数。由(1-d)^m≤δ可得到上述迭代计算达到指定误差δ所需要的迭代次数为

m＝log₁₀δ/log₁₀(1-d). (34)

根据本发明实施例，误差δ设为0.0001，网络节点之间随机跳跃系数d＝0.1，则可估计出所需的迭代计算次数至多为m＝88.

幂方法的迭代计算流程如图6所示。在步骤610，系统打开组成矩阵M(c₁，c₂，c₃，c₄)的4个矩阵M⁺、M^-、M^C和M^R的各个稀疏矩阵文件，即上述Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。在步骤620，一个表示网页的初始级别分布的N维向量R⁽⁰⁾的文件被打开并设置为顺序读入(该文件中每个记录R⁽⁰⁾(i)一般是1，或者是上一次计算的结果)。

在步骤630～640，进行迭代计算，其具体步骤如下：对于n＝0，1，2，...，m-1，在磁盘文件中存放初始级别向量R⁽ⁿ⁾(i)，并在内存中分配表示级别向量R⁽ⁿ⁺¹⁾(i)的数组；逐行读取上述4个矩阵M⁺、M^-、M^C和M^R的稀疏矩阵文件，并逐个读取向量R⁽ⁿ⁾(i)的各个分量，按照公式(12)，将各个初始级别R⁽ⁿ⁾(i)逐一传递给各个指定的向量R⁽ⁿ⁺¹⁾(i)中的分量；遍历完磁盘文件中的向量R⁽ⁿ⁾(i)的各个分量之后，将内存中的向量R⁽ⁿ⁺¹⁾(i)写入该文件(即用R⁽ⁿ⁺¹⁾(i)各个分量替代R⁽ⁿ⁾(i)的各个分量)，然后再以R⁽ⁿ⁺¹⁾(i)为初始向量，同理计算新的向量R⁽ⁿ⁺²⁾(i)；重复此过程，直到新的向量R^(m)(i)满足预定的精度。则在步骤650，得到网页的评级结果为R(i)＝R^(m)(i).

在此计算过程中，为保证浮点数运算的精度，可以将各个向量分量R⁽ⁿ⁾(i)乘以常数N(网页总数)，然后在计算结束之后再将每个分量R⁽ⁿ⁾(i)除以N即为网页的实际级别R(i)。

另外，在上述计算步骤，对于非常大的网页集合，向量R(i)的全部分量通常无法存放在单个计算机的内存中。根据本发明实施例，可采用如下分段处理的方法计算超大网页集合的级别向量：将网页的文档编号i＝1，2，...，N分成等长度的s段，使得向量的每一段R(i)(i＝1，2...，s；s+1，...，2s；...)可以存放在内存中；同时，将上述4个矩阵M⁺、M^-、M^C和M^R的稀疏矩阵文件的每一行也按照同样的文档号分段方式划分，从而将每个稀疏矩阵文件按其矩阵列号而分解成为s个较小的文件；随后即可按上述迭代算法，由初始级别向量R⁽ⁿ⁾(i)文件和各分段的稀疏矩阵文件，依次计算新的级别向量R⁽ⁿ⁺¹⁾(i)的每一段；将算好的R⁽ⁿ⁺¹⁾(i)的每一段按文档号顺序写入磁盘文件中，从而得到完整的新的级别向量R⁽ⁿ⁺¹⁾(i)；重复此过程，直到新的向量R^(m)(i)满足预定的精度。

根据本发明实施例，上述分段计算过程还可采用分布式计算的方法进行：使用s个由高速网络链接的节点计算机；将初始级别向量R⁽ⁿ⁾(i)文件分配到各个节点计算机，并且将上述4个矩阵M⁺、M^-、M^C和M^R的稀疏矩阵的分段划分文件按照文档号分段区间分配给各个节点计算机；每个节点计算机分别计算新的向量R⁽ⁿ⁺¹⁾(i)的某一段；然后将算好的向量R⁽ⁿ⁺¹⁾(i)的各段组合成为新的向量R⁽ⁿ⁺¹⁾(i)；再以R⁽ⁿ⁺¹⁾(i)为初始向量分配给各个节点计算机，按同样的分段方式分布计算新的向量R⁽ⁿ⁺²⁾(i)；重复此过程，直到由各段组合而成的新的向量R^(m)(i)满足指定的精度。

另一方面，由Outdegree文件生成Coreference文件(M^R的稀疏矩阵表示)和由Indegree文件生成Cocitation文件(M^C的稀疏矩阵表示)的过程也都可以通过分段与分布式计算的方式加快处理过程，即将Outdegree文件和Indegree文件每一行按照文档号分段方式划分，然后分配到多个节点计算机进行处理，再将各个节点计算机生成的部分Coreference文件和部分Cocitation文件的每一行按照矩阵列号顺序合并起来，即分别得到所需要的M^R和M^C的稀疏矩阵文件。

在上述计算过程中还可应用一些技巧以进一步提高计算效率。在最初计算时，存放在文件中的初始级别向量R⁽⁰⁾可以选取为均匀概率分布，即对于所有网页i，取R(i)＝1/N(N为网页总数)。在之后的更新计算中，对于新搜集的网页i，取R(i)＝1/N，而对于已存在的网页j，可取R(j)为上一次计算的结果。在幂方法计算中，如果适当选择初始向量R⁽⁰⁾，使得它能够与最后所收敛到的向量接近，则可以使迭代次数大为减少。对于更新频度或者程度较小的网页集，选择上一次计算得到的评级结果作为下一次计算的初始级别向量，可以显著加快计算过程。另外，矩阵计算中有关加快特征向量计算收敛的其它方法也可以应用到上述计算过程。

本计算方法还可应用于简化的评级模型中。根据本发明实施例，一种简化情形是：将公式(12)中的各个权重因子w⁺、w^-、w^C和w^R都取定为常数，例如取w⁺＝w^-＝w^C＝w^R＝1.0(当存在相应的链接关系)，则上述计算过程在时/空效率方面可以进行相应优化，包括：稀疏矩阵文件可直接按照网页之间的链接关系生成，而不需分析这些权重所涉及的链接和网页的诸多属性与元信息记录；在稀疏矩阵文件中不需存储这些权重值，等。

■对网站的评级：

上述评级方法及其算法实现并不限于对网页的评级，而是可以直接应用于由任何形式的节点通过任意的有向链接关系而组成的网络。上述双向级别传递性质、共引用关系和共指关系对于各种形式的网络都是普遍成立的。因此，本发明的评级算法同样适用于对网站的评级，只要事先给定了网站之间任意某种形式的链接关系。通常，网站之间并不存在直接的链接关系，但通过对网页之间的链接关系进行某种变换，可导出网站之间的各种链接关系。由网页链接关系导出网站链接关系的变换可以有多种形式。由不同变换得到的各种网站链接网络，都可以由本发明的评级方法对其中的网站节点进行评级。

在本发明实施例的搜索引擎系统中，各个网站编号用整数编号，作为唯一的网站标识号(site ID)。下面用I、J或sid等变量名表示网站的编号，用G表示网站链接关系所构成的有向图，用I→J表示网站I到网站J的链接。根据本发明实施例，可以用以下方法从网页之间的链接关系构造出网站之间的链接关系：

■首先，为每个网站构造一个超级网页，它代表该网站内的所有网页。例如，可以简单地把一个网站内所有网页的内容(特别是其中包含的外出链接URL)都线性地合并到一个大网页文件中，以此网页文件为超级网页；或者利用网页布局方式，对网站内不同目录路径下的网页在排版、位置、格式等方面进行区分，由多个网页的内容组成超级网页的内容。

■然后进行链接合并，即将网页之间的超链接关系转换成为相应的超级网页之间的链接关系，以此表示网站之间的链接关系。

将网页链接关系合并为超级网页链接关系包括如下不同的处理方式。网页之间的链接可分为站内链接和站间链接两类。对于站间链接，即不同网站上的网页之间的链接，可以把任意两个网站之间的站间网页链接简化为对应的两个超级网页之间的一个链接，而这又有两种具体的方式：一种是简单地将对应的超级网页之间的链接的双向权重W⁺和W^-都设置为常数，例如为1.0；另一种是根据站间之间的网页链接的数目对超级网页之间链接的权重W⁺和W^-进行调整，网页之间的链接数越多，对应的超级网页链接的权重越大。

而对于站内链接，即同一网站上的网页之间的链接，也有两种处理方式：一是忽略站内链接，即同一网站内网页之间的链接对超级网页之间的链接没有贡献，也不影响超级网页链接的权重；另一种是把站内链接当作是对应的超级网页指向自己的自链接(表现为在同一网页上的从一处到另一处的超链接)，并且这些自链接同普通的超级网页之间的链接一样具有双向权重。当保留站内链接作为网站的超级网页的自链接时，这些自链接将影响由超级网页入度、出度和双向链接权重，并且这些自链接也具有双向的链接权重W⁺和W^-。另一方面，超级网页的自链接不影响超级网页之间的共引用关系。

按照上述处理方式构造超级网页之间的链接关系之后，即可按上述方法获得各个超级网页I的入度in-degree(I)、出度out-degree(I)，以及任两个超级网页I、J之间的共引用频次函数coci-degree(I，J)、共指频次函数coref-degree(I，J)，并可进一步设置对应的4类超级网页链接关系性质的各个权重因子w⁺(J，I)、w^-(I，J)、w^C(I，J)、w^R(I，J)和权重函数W⁺(J，I)、W^-(I，J)、W^C(I，J)、W^R(I，J)。这样，公式(1)描述的评级模型即可直接应用于超级网页，并且由公式(12)或(15)描述的评级算法也可以直接调用。因此，网站的超级网页级别向量R(I)的计算与网页级别向量R(i)的算法同理，只需将超级网页I替代上述网页评级算法描述中的网页i即可。故有如下网站评级算法：

R (I) = c_{1} \cdot \underset{J &RightArrow; I &Element; G}{Σ} \frac{w^{+} (J, I)}{out - degree (J)} R (J) + c_{2} \cdot \underset{I &RightArrow; J &Element; G}{Σ} \frac{w^{-} (I, J)}{in - degree (J)} R (J) +

c_{3} \cdot \underset{J &Element; G}{Σ} \frac{coci - degree (I, J) \cdot w^{C} (I, J)}{α (J)} R (J) + - - - (35)

c_{4} \cdot \underset{J &Element; G}{Σ} \frac{coref - degree (I, J) \cdot w^{R} (I, J)}{β (J)} R (J) + d \cdot E (I), - - - (35)

该算法在系统中的具体实现也完全同上述网页评级算法的高效实现一样。相关的权重因子w⁺、w^-、w^C和w^R分别表示超级网页之间的4种链接关系性质对网站之间级别传递的强度系数(传递比例)，它们都可按上述网页评级的情形，根据具体的超级网页I和J的多种相关属性进行类似的调整，以便更准确地反映超级网页之间的级别传递效果。在简化的网站评级模型中，w⁺、w^-、w^C和w^R也可取为如公式(26)所示的常数值(即取值为1或0)。

综上所述，本发明的评级方法对网站的评级流程如附图7所示。在步骤710，按上述方式为每个网站构造一个超级网页，将网页之间的超链接关系简化、合并为相应的超级网页之间的链接关系，从而得到网站之间的有向链接图。然后在步骤720，根据超级网页节点之间的链接关系，为节点之间的每个链接设置一个正向权重W⁺和一个反向权重W^-，并为任两个节点之间的每个共引用设置一个权重W^C、为任两个节点之间的每个共指设置一个权重W^R。在步骤730，根据上述公式(1)所描述的评级模型以及公式(2)～(11)所述的4类链接关系性质，按下列因素逐一确定各个超级网页i的级别R(I)，即：链接到超级网页I的各个超级网页J的级别R(J)，以及这些链接的正向权重W⁺(J，I)；超级网页I所链接的各个超级网页J的级别R(J)，以及这些链接的反向权重W^-(I，J)；与超级网页I有共引用关系的各个超级网页J的级别R(J)，以及这些共引用的权重W^C(I，J)；与超级网页I有共指关系的各个超级网页J的级别R(J)，以及这些共指的权重W^R(I，J)。按上述评级算法，由上述各个因素迭代计算超级网页J的级别向量R(J)，直到满足指定的精度。

另一方面，由于网站数目远小于网页数目，超级网页组成的网络的规模通常比网页的网络小很多。因此，网站的评级计算要比网页评级计算快很多，内存与磁盘存储的开销也会小很多。这样，对于非常大的网页集合，可以用本发明的网站评级方法首先获得各个网站的级别，然后再用近似的方法估计各个网站内的网页的级别。由网站级别估计其中网页级别的方法有多种形式，只要保证站内网页级别之和等于网站级别即可。例如可以按照目录深度递减地将网站的级别分布于各个目录下的网页，或者根据网页的实际访问频次确定分配比例，或者对于较小的网站可采用简单的均匀分布级别的方式等。这样获得的网页级别的精度虽然比前面所述的网页级别较低，但是其计算复杂度较小，并且能够更快地进行更新。特别是，如果相关的权重因子取值为公式(26)所示的常数，上述网站评级算法的时、空开销都可保持很低。对于最新出现的网页，这种评级方法还能够比直接基于网页链接关系的评级方法更为有效，后者通常因为新网页缺少链接关系而失效。

本发明的实施例使用了特定的算法步骤和数据结构，并基于特定的应用系统实现。但是，任何熟悉本领域背景技术的人员都清楚地知道本发明的适用范围并不局限于以这样的算法和系统。本发明的技术方案可被应用于其它多种不同的具体实施方式。所附的权利要求书涵盖了对该技术方案的各要素的诸多变形与替换。

Claims

1.一种以计算机实现的对网络节点评级的方法，根据节点之间的有向链接关系而赋予各个节点一个表示其级别的数值，其特征在于包括如下步骤：

a.设置至少一种如下所述的权重：

(1)对至少一部分节点之间的链接，为其中的每个链接设置一个正向权重；

(2)对至少一部分节点之间的链接，为其中的每个链接设置一个反向权重；

(3)对至少一部分节点，为其中的任意两个节点的每个共引用关系设置一个权重；

(4)对至少一部分节点，为其中的任意两个节点的每个共指关系设置一个权重；

b.根据至少一个如下所列举的因素确定各个节点的级别：

(1)链接到该网页的各个节点的级别，以及这些链接的正向权重；

(2)该节点所链接的各个节点的级别，以及这些链接的反向权重；

(3)与该节点有共引用关系的各个节点的级别，以及这些共引用的权重；

(4)与该节点有共指关系的各个节点的级别，以及这些共指的权重。

2.根据权利要求1所述的网络节点评级方法，其特征在于：所述链接的正向权重、链接的反向权重、共引用的权重、共指的权重分别依赖于节点的出度、节点的入度、共引用的频次、共指的频次。

3.根据权利要求1所述的网络节点评级方法，其特征在于：所确定的各个节点的级别是其入链的正向权重与入链的源节点的级别的加权和，或者是其出链的反向权重与出链的目标节点的级别的加权和，或者是其共引用关系的权重与共引用关系节点的级别的加权和，或者是其共指关系的权重与共指关系节点的级别的加权和，或者是这4类加权和的一部分或全部的进一步的加权和。

4.根据权利要求3所述的网络节点评级方法，其特征在于：节点的级别还包括一个表示先验概率分布的常数级别。

5.根据权利要求1至3之一所述的网络节点评级方法，其特征在于：所述节点为网页。

6.根据权利要求5所述的网络节点评级方法，其特征在于：所述链接的正向权重、链接的反向权重、共引用的权重、共指的权重还依据至少一个如下所列举的因素被设置：

网页的属性，包括：该网页的URL以及该URL的属性，该网页的创建、搜集或更新时间，该网页的访问次数、访问频度，或者该网页的上一次评级的结果；

链接的属性，包括：链接在网页中的位置，链接文字以及链接描述文字，链接的排版格式信息，该链接被点击的次数、频度、以及点击者的来源信息，链接的两个网页之间的距离或者所包含的文本内容的对比属性。

7.根据权利要求1至3之一所述的网络节点评级方法，其特征在于：所述节点为网站所对应的超级网页，并且超级网页之间的链接关系根据网站的网页之间的链接关系而获得。

8.根据权利要求7所述的网络节点评级方法，其特征在于：网站的超级网页通过合并该网站中的网页而构造，包括直接聚合网站中各个网页的内容，或者将各个网页放置于超级网页中的不同布局位置。

9.根据权利要求7或8所述的网络节点评级方法，其特征在于：网页的级别由其所在的网站的超级网页的级别而确定，其方式包括按照文件目录将超级网页的级别分布于各个网页，或者根据网页的实际访问频次确定分配比例，或者简单地将超级网页的级别平均分配给各个网页。

10.一种计算机系统，通过运行指令序列而根据节点之间的有向链接关系赋予各个节点一个表示其级别的数值，其特征在于包括实现如下步骤的指令序列：

a.设置至少一种如下所述的权重的指令序列：对至少一部分链接，各设置一个正向权重；对至少一部分链接，各设置一个反向权重；对至少一部分节点的共引用关系，各设置一个权重；对至少一部分节点的共指关系，各设置一个权重；

b.根据至少一个如下所列举的因素确定各个节点的级别的指令序列：链接到该网页的各个节点的级别，以及这些链接的正向权重；该节点所链接的各个节点的级别，以及这些链接的反向权重；与该节点有共引用关系的各个节点的级别，以及这些共引用的权重；与该节点有共指关系的各个节点的级别，以及这些共指的权重。