CN104731876A

CN104731876A - 一种评价网络资源价值的方法及其在搜索引擎领域的应用

Info

Publication number: CN104731876A
Application number: CN201510101085.7A
Authority: CN
Inventors: 李钊; 周鸿祎; 刘旭平; 谢军样
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2007-04-02
Filing date: 2007-04-02
Publication date: 2015-06-24
Anticipated expiration: 2027-04-02
Also published as: CN104731876B

Abstract

本发明提供一种网络资源的价值评价方法，利用该方法可以有效评价网页资源对搜索用户的价值衡量，从而可以有效的将高质量的、真正符合用户搜索意图的网页资源优先提供给用户，以减少用户浏览、查检网页的时间，提高用户的搜索效能，本发明还提供将该网络资源价值评估方法应用于网络搜索引擎的方法。利用本发明的价值评价方法，可以使得网络搜索时，给予搜索到的网络资源更为准确的权值，利用该权值，一方面可以剔出那些无价值或价值甚微的网络资源，另一方面可以将与用户真实意图更为贴切的资源优先排列呈给用户。

Description

一种评价网络资源价值的方法及其在搜索引擎领域的应用

技术领域

本发明涉及信息检索技术，特别是涉及一种利用相关目标的一种特定指标——人气指标(PeopleRank)进行检索、归纳的方法及其在搜索引擎领域的应用。

背景技术

目前搜索引擎一般都是通过用户输入一个或一组关键词或文字片段，经过检索处理后，向用户回馈相当数量的包含该关键词或文字片段或者与其密切相关的网页，以供用户浏览、查检所需的资讯。

然而，互联网上网页数量极其巨大，而且仍然在以空前的速度高速增长，如果仍然按照传统的搜索处理模式，即搜索引擎运营商将其搜集到的数量惊人的网页资源经以简单地分析处理，进行归类备用，那么按照用户的输入源经搜索所得的相关网页数量通常都是极其巨大，但是其中大部分为低价值甚至无价值的网页资源，这些无价值的或近似于无价值的网页大大增加了处理的难度，并将严重干扰处理的结果，从而有可能使得呈现给用户的往往是价值甚微的资源，这将严重浪费用户的时间和精力，间接的也将造成网络资源的浪费。

怎样才能将那些真正的满足客户需要的网页筛选出来优先提供给客户，即在提供给客户的反馈内容中能够真实反映客户需求的内容优先排列，是完全符合用户的利益的。因此如何判断用户的兴趣所在就成了搜索引擎运营商必须解决的问题。

对检索所得的网页进行相关性评价，就成了搜索领域技术中的关键。目前，关于网页的相关性的评价方法很多，其大都注重某一方面能反映客户需求或意图的因素，如检索词或句子的匹配程度、网页链接关系等，但是，仅仅利用这样的检索处理方法所得到的网页往往包含了诸多的复杂因素，很难准确地提供与客户实际需要紧密相连的搜索资源。因此，目前还没有一种较为完备的、成熟的可以较全面反映网页价值的评价方法。

经过长期实践，发现现有的大多数网页中均包含有各类的与人相关的因素，而这些人的因素对于网页的质量评价至关重要，能最大限度的反映该网页对于用户兴趣、意图所蕴含的价值，也就是利用这些人的因素可使网页的质量评价更加贴近用户的真实需求，从而使得所作出的评价更加准确，本发明正是根据这些人的因素为任一网络资源确定一权值，该权值称为PeapleRank值(简称为PR值)。

发明内容

针对现有搜索技术中存在的缺陷和不足，本发明的一个目的在于提供一种网络资源的价值评价方法，利用该方法可以有效评价网页资源对搜索用户的价值衡量，从而可以将高质量的、真正符合用户搜索意图的网页资源优先提供给用户，以减少用户浏览、查检网页的时间，提高用户的搜索效能。

本发明的另一个目的在于提供一种将该网络资源价值评估方法应用于网络搜索引擎的方法，利用本发明的网络资源评价方法，可以使得网络搜索时，给予搜索到的网络资源更为准确的权值，利用该权值，一方面可以剔出那些无价值或价值甚微的网络资源，另一方面可以将与用户真实意图更为贴切的资源优先排列呈给用户。

本发明的技术方案如下：

一种评价网络资源价值的方法，其特征在于：

包括以下步骤：

1)提取数据，提取网络资源上所包含的特定的与人相关的基本因素；

2)处理数据，结合采样时间计算该基本因素的变化率；

3)确定权值，根据该基本因素及其变化率计算并赋予该网络资源一确定的代表其质量价值的权值。

所述提取数据步骤中的基本因素包括：发生时间因素；用户阅读数量因素，如该网络资源的点击数或浏览数；相似内容数量因素；关联及推荐关系因素；作者价值因素；网站价值因素。

其中，除了发生时间因素；用户阅读数量因素，如该网络资源的点击数或浏览数可以直接获得外，网络资源的相似内容数量因素、关联及推荐关系因素、作者价值因素、网站价值因素等都需要进一步加工才能转换为可计算的基本因素。最后将各个基本因素按照设定的函数关系变换为网络资源的PeopleRank权值。

所述需要进一步加工的基本因素的处理方法包括：

1)根据网络资源内容，计算出其被转发及与其相似的网络资源的数量数据，并依据该数据计算该网络资源的相似内容数量权值。

2)根据网络资源之间的推荐或关联关系，并基于以下特性计算该网络资源的关联及推荐关系因素：(1)一个网络资源被他人引用的越多，则越有价值；(2)被价值高的网络资源所引用的资源，其价值也高。关联及推荐关系因素通常以某种迭代计算算法实现。

3)根据该网络资源作者的相关网络资源经迭代计算，确定作者价值，并依据该作者价值确定该网络资源的权值，所述迭代计算通常为正反馈式系统。

4)根据该网络资源所在网站经迭代计算，确定该网站价值，并依据该网站价值确定该网络资源的权值，所述迭代计算通常为正反馈式系统。

所述各基本因素按照多点采样时间计算其变化率。

所述的评价网络资源价值方法在搜索引擎领域的一种应用方法，其特征在于：按照如上所述的价值评价方法，根据热点网络资源在一定时期内变化率高的特性，结合网络资源的类别信息，可以按照权值高低排序输出各类别的热点网络资源。

所述的评价网络资源价值方法在搜索引擎领域的一种应用方法，其特征在于：按照如上所述的价值评价方法，赋予搜索到的各网络资源权值，并筛选剔除权值较低的网络资源。

所述的评价网络资源相关性价值方法在搜索引擎领域的一种应用方法，其特征在于：按照如上所述的价值评价方法，赋予搜索到的各网络资源权值，利用该权值参与引擎查询结果的排序，使高质量的网页优先提供。

本发明的技术效果：

本发明的评价网络资源价值的方法，通过提取网络资源上所包含的特定的与人相关的基本因素，并结合采样时间计算该基本因素的变化率，从而根据该基本因素及变化率赋予该网络资源一确定的能代表其相关性价值的权值，即PeopleRank值(简称PR值)。

由于该PR值不但与网络资源中抽取的特定的与人相关的因素相关，而且与所提取因素的时间因素也相关，因此采用这种方法确定的PR值不但可以反映其可能符合用户需要的程度，而且还可以有效反应该网络资源是否仍然在人们的关注期内，即可以反映出那些曾经引人关注而目前已无人问津的网络资源。

正是这种自网络资源提取的相关因素及与该因素的采样时间之间的相互作用，反映出了该网络资源的受人关注的变化状态，这种时间因素的作用，对于那些时效性较强的新闻类网络资源尤其重要。

People Rank就是将上述各种与人相关的因素通过一定的数学模型，合成为综合的价值权重。

不同网页(即网络资源，以下皆简称网页)拥有不同的人为因素，因此针对不同类别的网页，People Rank包含的因素也不同。

对于不同的网络资源而言，其包含有不同侧重的人为因素，基本归纳起来，包括六种基本因素：

发生时间因素；

用户阅读数量因素，如该网络资源的点击数或浏览数；

相似内容数量因素；

关联及推荐关系因素；

作者价值因素；

网站价值因素等。

其中发生时间、网络资源点击数或浏览数提取后即可按照一定的系数比例参与PR值的计算，其他因素都需要故进一步分析转换，即按照某种设定的函数关系才能变换为可计算的基本因素。

其中，对于相似内容数量而言，其被转发的数量以及网络中存在的相似网页的数量反映了其受人关注的程度，因此通过计算其被转发的数量以及存在的与其相似的网页的数量数据，并依据该数据结合采样时间因素即可确定该网络资源的权值——PR值。

同理，对于关联及推荐关系而言，各网页之间的推荐或关联特性，符合以下规律：(1)网页被他人引用的越多，则说明该网页越有价值；(2)被价值高的网页资源所引用的资源，其价值必定也高，因此基于这种规律可以获得各网页的推荐和引用数据，并结合时间因素确定该网络资源的权值——PR值。

对于作者价值来说，根据该作者的网页的PeopleRank数据反馈计算该作者价值。计算初始阶段，所有作者价值完全相同，通过对作者发表文章的分析，可以得到该作者不同阶段的价值权值——PR值，这些价值权值随迭代计算的推进，分别成为该作者后续发表文章的反馈价值权值因素，由于采用正反馈式迭代计算，Rank合成需要控制作者的放大系数，以防止其影响其它因素的作用。

网站价值的分析计算与作者关系相似。

正是基于上述的各种与人相关的基本因素，再加上多点采样时间(即时间因素)，可以计算各种基本因素的变化率。将基本因素和基本因素的变化率输入，根据一定的数学模型，合成为最终的反映网页价值的单一数值——PeopleRank值。

热点网页的重要特性是当前时刻受到广泛关注，其相关因素的变化率比较高，通过这一特征，利用上述的评价网络资源价值的方法，再加上类别信息，可以输出各类别的热点网页，即热点分析。

People Rank本身就是网页价值的重要评价参数，因此可以利用上述的评价网络资源价值的方法确定搜索到的网页其PR值，根据该PR值，剔除那些价值不高的网页，筛选出其中最有价值的网页，以提高搜索过程中后续网页处理的质量和效率。

同理，该PR值可以参与引擎查询结果的排序计算，使高质量的网页优先排在前面，改善搜索引擎排序质量。

附图说明

图1为PR值分析合成示意框图；

图2为本发明在搜索领域的应用示意框图；

图3为时间衰减函数f(x)＝1-e^(-1/x)的图形。

具体实施方式

以下结合附图对本发明做进一步说明。

如图1，Rank合成器1为一预先设定的数学模型。以下给出一种具体的Rank合成算法的实施例。

等价关系：因各基本因素差异太大，我们对它归一处理；通过大量统计及人类社会学特征，我们确定：

因素1价值＝因素2价值＝……＝因素6价值。

即认为它们在一定值下对Rank作用等价。

Rank＝(∑用户阅读因素等价+∑相似内容数量因素等价+∑网页关联/推荐价值等价)*作者价值因素价值*网站价值因素价值*发生时间因素

例：其中时间衰减函数f(x)＝1-e^(-1/x)的图形如附图3所示。

其中，时间越新，Rank值越大；时间越旧，Rank值越小；符合时间衰减规律。

发生时间因素，此因素通常可以在抓取网页时获得。

用户阅读数量因素3，如该网络资源的点击数或浏览数，通常可以在抓取网页时从页面中抽取用户阅读数量的信息而获得；此因素可以直接作为基本因素，结合发生时间2(即时间因素)进行变化率分析，获得变化率因素，再将做为基本因素的阅读数量与该变化率因素输入Rank合成器1中进行合成输出该基本因素的PR值。其中发生时间2为多点采样时间。

相似内容数量因素4，经过内容相关分析41，即通过计算其被转发的数量以及存在的与其相似的网页的数量数据获得相关因素，该相关因素作为基本因素结合发生时间2(即时间因素)进行变化率分析，获得变化率因素。

相似内容数量因素的进一步加工可以利用自然语言处理技术中的文本相似性分析技术来实现。以下给出一种实现方式：

根据网络资源的文本内容，计算出给该资源的一个特征向量X，该特征向量的维度为n。再根据所有网络资源的特征向量，计算不同特征向量之间的相似度R，再由相似度的不同阀值确定网络资源内容是否相同、相关、无关。

特征向量的相似度R的计算公式：

Rij = \frac{Σ_{k = 1}^{n} (x_{ik} * x_{jk})}{\sqrt{Σ_{k = 1}^{n} x_{ik}^{2}} * \sqrt{Σ_{k = 1}^{n} x_{jk}^{2}}}

其中：

X：特征向量，X(xl，x2，x3，...，xn)；

N：特征向量维度，1<＝k<＝n；

i，j：特征向量Xi、Xj的下标，表示第i，j篇网页；

Rij：第i，j篇网页的相似度；

例：

n＝5

Xi(20,30,20,30,40) Xj(30,30,30,30,20)则：

\underset{k = 1}{Σ} (x_{ik} * x_{jk}) = 600 + 900 + 600 + 900 + 800 = 3800

\sqrt{Σ_{k = 1}^{n} x_{ik}^{2}} = sqrt (400 + 900 + 400 + 900 + 1600) = sqrt (4200)

\sqrt{Σ_{k = 1}^{n} x_{jk}^{2}} = sqrt (900 + 900 + 900 + 900 + 400) = sqrt (4000)

Rij＝3800/(sqrt(4200)*sqrt(4000))＝0.927

即这两篇文章i,j的相似度Rij为0.927

再由阀值确定：与该篇文章相同内容页数即网页被转发数量；

与该篇文章相关内容页数即网页内容相似数量；

再将做为基本因素的相似内容数量因素与该变化率因素输入Rank合成器1中进行合成并输出该相关因素的PR值。其中发生时间2为多点采样时间。

对于关联及推荐关系因素5，经过关联关系分析51，根据网络资源之间的推荐或关联关系，并基于以下特性计算该网络资源的关联及推荐关系因素：(1)一个网络资源被他人引用的越多，则越有价值；(2)被价值高的网络资源所引用的资源，其价值也高。

这通常可以通过某种迭代计算算法实现。例如：

网页关联/推荐价值＝∑被引用网站价值或作者价值或资源价值/被引用数+f(被引用数)

该关联及推荐关系因素作为基本因素结合发生时间2(即时间因素)进行变化率分析，获得变化率因素，再将做为基本因素的推荐因素与该变化率因素输入Rank合成器1中进行合成并输出该推荐因素的PR值。其中发生时间2为多点采样时间。

以下给出一种具体的关联及推荐关系因素的迭代计算方法；

第一步：由作者价值和网站价值及被引用数计算网站每篇文章关联及推荐关系价值；

第二步：由第一步每篇文章的关联/推荐价值，计算新的作者价值和网站价值；

由新的作者价值和网站价值、新的被引用网站价值和被引用数量，计算每篇文章的关联/推荐价值；

… … … …

第n步：由第n-1步的每篇文章的关联/推荐价值，计算新的作者价值和网站价值；

由n-1步的作者价值和网站价值、被引用网站价值和被引用数量，计算每篇文章的关联/推荐价值；

· ... ... ... ... · · · · ·

当最近两次关联/推荐价值小于某一控制值时，关联/推荐价值趋于稳定，结束运算退出。

对于作者价值因素6，进行作者价值分析61，初始阶段，作者价值完全相同，通过对作者发表文章的分析，可以得到该作者不同阶段的价值权值——PR值，这些价值权值随计算的推进，分别成为该作者后续发表文章的反馈价值权值因素，

根据该网络资源作者的相关网络资源经迭代计算，确定作者价值，并依据该作者价值确定该网络资源的权值，所述迭代计算通常为正反馈式系统。一个可能的计算方式举例如下：

提取网络资源主题特征词

文章价值＝∑特征词idf/特征词总数+关联/推荐价值

作者价值＝∑文章价值/文章总数

由于采用正反馈系统，Rank合成需要控制作者的放大系数，以防止其影响其它因素的作用。

以下给出一种具体的作者价值因素的迭代计算方法；

第一步：由关联/推荐价值及文章内容价值计算网站每篇文章价值；由每篇文章价值计算网站价值；

第二步：由第一步的网站价值计算每篇文章的关联/推荐价值；由新文章综合价值、新的关联/推荐价值和文章内容价值计算网站每篇文章价值；由每篇文章新价值计算网站价值；

... ... ... ... · · · ···

第n步：由第n-1步的网站价值计算每篇文章的关联/推荐价值；由新文章综合价值、新的关联/推荐价值和文章内容价值计算网站每篇文章价值；由每篇文章新价值计算网站价值；... ... ... ...

当最近两次作者价值小于某一控制值时，作者价值趋于稳定，结束运算退出。

对于网站价值因素7及其网站价值分析71，采用与作者关系因素6相似的分析和计算方法，主要差异是网页集合的分析粒度不同。

根据该网络资源所在网站经迭代计算，确定该网站价值，并依据该网站价值确定该网络资源的权值，所述迭代计算通常为正反馈式系统。一个可能的计算方式举例如下：

提取网络资源主题特征词

∑文章价值＝∑特征词idf/特征词总数+关联/推荐价值

网站价值＝∑文章价值/文章总数+新文章总数综合价值

以下给出一种具体的网站价值因素的迭代计算方法；

… … … …

当最近两次网站价值小于某一控制值时，网站价值趋于稳定，结束运算退出。

如图2所示为本发明的PR值在搜索引擎领域中的三种不同应用。

首先通过网页提取8进行网页抓取及内容抽取，按照上述方法由Rank合成器1确定该网页的PR值，其后PR值可以分三路应用至搜索引擎领域中：

其一，结合网页分类81的信息，输出各类别的热点网页，即热点分析82。如各种排行榜等。

其二，根据PR值，剔除那些价值不高的网页，筛选出其中最有价值的网页，以提高搜索过程中后续网页处理的质量和效率，即网页筛选83。

其三，PR值可以参与引擎查询结杲的排序计算即搜索结果排序84，使高质量的网页优先排在前面，改善搜索引擎排序质量。

综上所述，利用本发明的网页价值评价方法，即利用PR值可以有效评价网页资源对搜索用户的价值，从而优先提供高质量的、真正符合用户搜索意图的网页资源给用户，以减少用户浏览、查检网页的时间，提高用户的检索效能。

当然，以上实施例中所例举的具体计算方式，仅仅为可能的计算方式中之一，对于本领域的技术人员而言，依据相同的技术目的，还可以采用其它的具体的计算方式，但这种具体计算方式的改变和不同，并不影响其实质依然归属于本发明的保护范围。

Claims

1.一种评价网络资源价值的方法，其特征在于：

包括以下步骤：

1)提取数据，提取所述网络资源上所包含的特定的与人相关的基本因素；

2)处理数据，结合采样时间计算该基本因素的变化率；

3)确定权值，根据该基本因素及其变化率赋予该网络资源一确定的代表其相关性价值的权值。

2.如权利要求1所述的方法，其特征在于：所述提取数据步骤中的基本因素包括发生时间因素、用户阅读数量因素、相似内容数量因素、关联及推荐关系因素、作者价值因素、网站价值因素，其中，相似内容数量因素、关联及推荐关系因素、作者价值因素、网站价值因素需要按照设定的函数关系变换为可计算的基本因素。

3.如权利要求1所述的方法，其特征在于：所述需要变换的基本因素的处理方法包括：根据网络资源内容，计算出其被转发及与其相似的网络资源的数量数据，并依据该数据计算该网络资源的相似内容数量权值。

4.如权利要求2所述的方法，其特征在于：所述需要变换的基本因素的处理方法包括：

根据网络资源之间的推荐或关联关系，并基于以下特性计算该网络资源的关联及推荐关系因素：(1)一个网络资源被他人引用的越多，则越有价值；(2)被价值高的网络资源引用的资源，其价值也高。

5.如权利要求2所述的方法，其特征在于：所述需要变换的基本因素的处理方法包括：根据该网络资源作者的相关网络资源经迭代计算，确定作者价值，并依据该作者价值确定该网络资源的权值，所述迭代计算为正反馈式系统。

6.如权利要求2所述的方法，其特征在于：所述需要变换的基本因素的处理方法包括：根据该网络资源所在网站经迭代计算，确定该网站价值，并依据该网站价值确定该网络资源的权值，所述迭代计算通常为正反馈式系统。

7.如权利要求3-6任一所述的方法，其特征在于：所述各基本因素按照多点采样时间计算其变化率。

8.如权利要求1所述的评价网络资源相关性价值方法在搜索引擎领域的一种应用方法，其特征在于：按照权利要求1所述的价值评价方法，根据热点网络资源在一定时期内变化率高的特性，结合网络资源的类别信息，可以按照权值高低排序输出各类别的热点网络资源。

9.如权利要求1所述的评价网络资源相关性价值方法在搜索引擎领域的一种应用方法，其特征在于：按照权利要求1所述的价值评价方法，赋予搜索到的各网络资源权值，并筛选剔除权值较低的网络资源。

10.如权利要求1所述的评价网络资源相关性价值方法在搜索引擎领域的一种应用方法，其特征在于：按照权利要求1所述的价值评价方法，赋予搜索到的各网络资源权值，利用该权值参与引擎查询结果的排序，使高质量的网页优先提供。