CN100338610C

CN100338610C - 基于链接分析的个性化搜索引擎方法

Info

Publication number: CN100338610C
Application number: CNB2005100501985A
Authority: CN
Inventors: 卜佳俊; 陈纯; 莫林剑; 娄水勇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2005-06-22
Filing date: 2005-06-22
Publication date: 2007-09-19
Anticipated expiration: 2025-06-22
Also published as: CN1710560A

Abstract

本发明公开了一种基于链接分析的个性化搜索引擎方法。是通过建立知识网络模型描述用户兴趣，建立多态链接网络记录网络节点之间链接的不同类别，进而在此基础上展开链接分析得到搜索结果。本发明是建立在包含信息更加丰富，且与原始链接网络保持兼容的多态链接网络基础上，加上个性化知识网络在描述用户兴趣的方面的可伸缩性，从而保证了更高的准确率和更广的适用性。

Description

基于链接分析的个性化搜索引擎方法

技术领域

本发明涉及搜索引擎，语义网络领域，特别是涉及一种基于链接分析的个性化搜索引擎方法。

背景技术

近年来，搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视。优秀的搜索引擎也不断涌现，如：Google，ODP等，这其中基于链接分析的第三代搜索引擎(如Google)则凭借其较高的搜索准确率而成为当前搜索引擎的主流。

然而当前搜索引擎仍然存在着查准率太低的问题，搜索结果充斥着太多的无用信息，因此个性化搜索一经提出既成为当前国际上的一个研究热点。现有的个性化搜索引擎的普遍做法是先将用户关心的问题分为若干个类别，然后根据一些统计信息记录每个用户对每个类别的兴趣值，接着按照这些兴趣值对搜索结果进行处理，使搜索结果偏向用户感兴趣的类别。这种方式还只是停留在对兴趣分类的基础上，而没有对这些类别的关系进行描述。为了得到更好的效果，有必要引入新的模型来描述这种关系。概念网络则在这里发挥作用，我们以概念网络为基础构建知识网，更好的组织兴趣类别，同时作为描述用户兴趣的模型。

同时，现有方法还有一个共同的不足之处就是他们没有充分利用包含在链接网络结构上的信息。现有链接分析技术的基础是“一致链接网络”，即网络结构中所有链接都是一致的，如图2所示。

发明内容

本发明的目的在于提供一种基于链接分析的个性化搜索引擎方法。

本发明解决其技术问题所采用的技术方案如下：

1)用户输入搜索词，在知识网络中找到对应的节点；其中知识网络是一个定量表示概念之间关系的结构；

2)根据知识网络中的邻接关系，扩散步骤(1)中的知识网络节点得到一个概念节点集合；

3)为概念节点集合中的每个节点在多态链接网络中计算排序值，计算排序值的方法可采用目前很成熟的PageRank链接分析算法；其中多态链接网络在原有网络链接结构之上添加了链接的类别信息；

4)最后根据知识网络中的权重，求前面得到的排序值的加权和，得到最终的排序值。

1.步骤(1)中知识网络在概念层次关系的基础上，为这些层次关系添加一个0～1之间的权值，来表示用户对这种关系的认可程度；在用户的使用过程中，根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络，使得在用户与系统多次交互后，知识网络能够趋向于反映用户的偏好。

2.步骤(3)中多态链接网络是按照知识网络定义的概念节点，对链接进行分类；这样除了在原来的A到B的链接表达的A和B有关系的基础上，还可以进一步表达A和B因为知识网络中对应节点定义的原因而有关系；分类允许重复，也允许某些链接没有被分到任何类；其中A、B代表多态链接网络中任意两有链接的节点。

3.步骤(3)中多态链接网络的更新采用静态的分析方法：使用索引词-权重策略(TF-IDF)方法为每个概念节点统计多态链接网络中每个节点的权重，取其中前N位的作为该多态链接网络节点的关键词集合；然后观察关键字集合有重合的两个节点，如果已经存在链接，那么给该链接添加关键词集合中的重合元素；否则给两个节点添加一条新链接，同样给该新链接添加关键词集合中的重合元素；其中N根据多态链接网络的规模来确定；

TF-IDF的计算公式如下：

概念节点Ki在文档Di中的权值为：K_Ki，Di＝F_Ki，Di×(Log₂N/(N_K，D+1))其中：F_Ki，Di为概念节点K_i在文档D_i中的出现频率；N为文档集总数，其中文档是多态网络中的节点；N_K，D为文档集中至少出现一次概念节点K_i的文档数；

步骤(3)中多态链接网络的更新采用动态更新方法：跟踪用户的检索习惯，一段时间内用户检索的行为通常只有一个主题，该主题从搜索词中提取；通过分析用户在某个文档的停留时间，以及反馈信息来访问历史记录，得到一个文档集合；给该文档集合中的文档相互之间添加一条类别为通过检索词提取出来的若干个概念节点的链接。

4.步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法时，将针对这一概念节点为每条链接评估一个权值，链接被分为三种：

1)与本次概念节点拥有相同类别的链接，权值为1；

2)没有任何类别信息的链接，权值为α；

3)有类别信息，但是与本次概念节点不符合的链接，权值为β；

一个文档A有文档T1、T2...Tn指向它，那么A的PageRank值计算方式如下：

PR(A)＝(1-d)+d(f(A，T1)^*PR(T1)/C(T1)+...+f(A，Tn)^*PR(Tn)/C(Tn))

其中：

d：一个0到1的系数；

C(A)：A指向的文档数目；

f(A，Tx)：A与Tx之间链接的权值，其中x＝1，2，...，n。

本发明与背景技术相比，具有的有益的效果是：

本发明是一种用于建立个性化搜索引擎的机制。它适用于搭建因特网或者企业内部网络的搜索引擎。本发明的方法是通过建立知识网络模型描述用户兴趣，建立多态链接网络记录网络节点之间链接的不同类别，修改PageRank算法以适应多态链接网络，进而在此基础上展开链接分析得到搜索结果。本发明是建立在包含信息更加丰富，且与原始链接网络保持兼容的多态链接网络基础上，加上个性化知识网络在描述用户兴趣的方面的可伸缩性，从而保证了更高的准确率和更广的适用性。

附图说明

图1为知识网络，概念提取自ODP搜索引擎；

图2为原始的各链接一致的链接网络；

图3为多态链接网络，其中不同线型表示三种不同类别的链接，黑色实线表示该链接没有被分类，链接的类别是可以重复的。

具体实施方式

本发明实施的关键有三点：知识网络、多态链接网络的建立和维护，查询时排序值的计算。其中知识网络、多态链接网络是本发明实施的基础。

1.知识网络的建立和维护

知识网络是在概念网络的基础上添加了权值，来定量的表示用户对概念之间关系的一种结构，如图1。概念节点可以在Yahoo！、ODP等目前非常流行的目录搜索引擎中提取。初始化时，将在ODP中有关系的两个节点之间的权值设置为1，否则设置为0。

知识网络的维护可以在用户的使用过程中，根据文中概念节点的出现的次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后，这个知识网络就逼近于用户对概念的真实理解。

2.多态链接网络的建立和维护

链接关系也是可以分类的。因特网上的超链接类型很多，有一般的网页链接、对图片的链接、email链接等等。类似的，把这些链接针对某个领域进行更细的分类，就形成了“多态链接网络”，如图3。

多态链接网络存在静态更新和动态更新两种方式。在多态链接网络建立时，可以根据需要选择适量的静态更新；而在系统运行过程中，实施动态更新。需要说明的是，即使在初始化时候完全不实施静态更新方式也可以运行，但是搜索结果却不能反映个性化搜索结果。详细可参看下一点。

3.排序值的计算

在这里假设知识网络和多态链接网络都是相对固定的。

排序算法步骤如下：根据用户输入的搜索词在知识网络中找到一个最符合的节点；然后选取与该概念节点相邻的其他节点；针对每个选出的节点在多态网络中为每条链接评估一个权值，再为每个文档根据修改过的PageRank算法求得表示在该概念节点意义下的排序值；最后将所有排序值加权求和得到最终的排序结果。其中，由于知识网络是个性化的，所以得到的节点以及最后的组合方式都会不同，从而最终的排序值也会不同，再结合对文档和搜索词的相关性分析，就会得到不同的搜索结果。

把所有具有直接链接关系的节点(权值不为0)作为相关参考节点集合(下面称为RelatedSet)。由于为链接新引入了权值，必须修改PageRank算法。

在原来的PageRank算法中，一个文档A有文档T1、T2...Tn指向它。那么A的PageRank值计算方式如下：

PR(A)＝(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn)) (1.1)

其中d是一个0到1的系数，而C(A)则是表示A指向的文档数目。

在引入多态链接网络后，我们将其改变如下：

PR(A)＝(1-d)+d(f(A，T1)^*PR(T1)/C(T1)+...+f(A，Tn)^*PR(Tn)/C(Tn)) (1.2)

其中：f(A，T)为A和T之间链接的权值，定义如下：

根据试验结果，我们把α和β分别设置为0.15和0.01。

某个文档在特定的搜索主题下排序值计算公式如下：

其中

doc：需要排序的文档；

query：搜索词；

Weight(topic，query)：知识网络中定义的权值；

PunishFactor(topic，query)：当前检查的节点topic与query之间的关系。为了区别搜索节点query和扩展后RelatedSet中的节点。显然扩展节点的贡献应该相对小，所以将其定义为：PunishFactor(w，w0)＝1/k^{Distance(w，w0)}，其中Distance(topic，word)是Topic和word之间最小的边数，直接链接，则为1，k是控制收敛速度的参数，可以设置为2；

Rank(doc，topic)：公式1.1定义的doc在概念节点topic意义下的PageRank值。

最终的排序结果还需要考察文档与搜索主题之间的关联程度，综合给出评判，这已非本发明的内容，故不再详细叙述。

Claims

1.一种基于链接分析的个性化搜索引擎方法，其特征在于：

2.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法，其特征在于：步骤(1)中知识网络在概念层次关系的基础上，为这些层次关系添加一个0～1之间的权值，来表示用户对这种关系的认可程度；在用户的使用过程中，根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络，使得在用户与系统多次交互后，知识网络能够趋向于反映用户的偏好。

3.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法，其特征在于：步骤(3)中多态链接网络是按照知识网络定义的概念节点，对链接进行分类；这样除了在原来的A到B的链接表达的A和B有关系的基础上，还可以进一步表达A和B因为知识网络中对应节点定义的原因而有关系；分类允许重复，也允许某些链接没有被分到任何类；其中A、B代表多态链接网络中任意两有链接的节点。

4.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法，其特征在于：步骤(3)中多态链接网络的更新采用静态的分析方法：使用索引词-权重策略为每个概念节点统计多态链接网络中每个节点的权重，取其中前N位的作为该多态链接网络节点的关键词集合；然后观察关键字集合有重合的两个节点，如果已经存在链接，那么给该链接添加关键词集合中的重合元素；否则给两个节点添加一条新链接，同样给该新链接添加关键词集合中的重合元素；其中N根据多态链接网络的规模来确定；

索引词-权重策略的计算公式如下：

概念节点K_i在文档D_i中的权值为：K_Ki，Di＝F_Ki，Di×(Log₂N/(N_K，D+1))

其中：F_Ki，Di为概念节点K_i在文档D_i中的出现频率；N为文档集总数，其中文档是多态网络中的节点；N_K，D为文档集中至少出现一次概念节点K_i的文档数；

5.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法，其特征在于：步骤(3)中多态链接网络的更新采用动态更新方法：跟踪用户的检索习惯，一段时间内用户检索的行为通常只有一个主题，该主题从搜索词中提取；通过分析用户在某个文档的停留时间，以及反馈信息来访问历史记录，得到一个文档集合；给该文档集合中的文档相互之间添加一条类别为通过检索词提取出来的若干个概念节点的链接。

6.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法，其特征在于：步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法时，将针对这一概念节点为每条链接评估一个权值，链接被分为三种：

1)与本次概念节点拥有相同类别的链接，权值为1；

2)没有任何类别信息的链接，权值为α；

PR(A)＝(1-d)+d(f(A，T1)*PR(T1)/C(T1)+...+f(A，Tn)*PR(Tn)/C(Tn))

其中：

d：一个0到1的系数；

C(A)：A指向的文档数目；

f(A，Tx)：A与Tx之间链接的权值，其中x＝1，2，...，n。