CN100338610C - 基于链接分析的个性化搜索引擎方法 - Google Patents

基于链接分析的个性化搜索引擎方法 Download PDF

Info

Publication number
CN100338610C
CN100338610C CNB2005100501985A CN200510050198A CN100338610C CN 100338610 C CN100338610 C CN 100338610C CN B2005100501985 A CNB2005100501985 A CN B2005100501985A CN 200510050198 A CN200510050198 A CN 200510050198A CN 100338610 C CN100338610 C CN 100338610C
Authority
CN
China
Prior art keywords
link
network
node
document
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100501985A
Other languages
English (en)
Other versions
CN1710560A (zh
Inventor
卜佳俊
陈纯
莫林剑
娄水勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2005100501985A priority Critical patent/CN100338610C/zh
Publication of CN1710560A publication Critical patent/CN1710560A/zh
Application granted granted Critical
Publication of CN100338610C publication Critical patent/CN100338610C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于链接分析的个性化搜索引擎方法。是通过建立知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。本发明是建立在包含信息更加丰富,且与原始链接网络保持兼容的多态链接网络基础上,加上个性化知识网络在描述用户兴趣的方面的可伸缩性,从而保证了更高的准确率和更广的适用性。

Description

基于链接分析的个性化搜索引擎方法
技术领域
本发明涉及搜索引擎,语义网络领域,特别是涉及一种基于链接分析的个性化搜索引擎方法。
背景技术
近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视。优秀的搜索引擎也不断涌现,如:Google,ODP等,这其中基于链接分析的第三代搜索引擎(如Google)则凭借其较高的搜索准确率而成为当前搜索引擎的主流。
然而当前搜索引擎仍然存在着查准率太低的问题,搜索结果充斥着太多的无用信息,因此个性化搜索一经提出既成为当前国际上的一个研究热点。现有的个性化搜索引擎的普遍做法是先将用户关心的问题分为若干个类别,然后根据一些统计信息记录每个用户对每个类别的兴趣值,接着按照这些兴趣值对搜索结果进行处理,使搜索结果偏向用户感兴趣的类别。这种方式还只是停留在对兴趣分类的基础上,而没有对这些类别的关系进行描述。为了得到更好的效果,有必要引入新的模型来描述这种关系。概念网络则在这里发挥作用,我们以概念网络为基础构建知识网,更好的组织兴趣类别,同时作为描述用户兴趣的模型。
同时,现有方法还有一个共同的不足之处就是他们没有充分利用包含在链接网络结构上的信息。现有链接分析技术的基础是“一致链接网络”,即网络结构中所有链接都是一致的,如图2所示。
发明内容
本发明的目的在于提供一种基于链接分析的个性化搜索引擎方法。
本发明解决其技术问题所采用的技术方案如下:
1)用户输入搜索词,在知识网络中找到对应的节点;其中知识网络是一个定量表示概念之间关系的结构;
2)根据知识网络中的邻接关系,扩散步骤(1)中的知识网络节点得到一个概念节点集合;
3)为概念节点集合中的每个节点在多态链接网络中计算排序值,计算排序值的方法可采用目前很成熟的PageRank链接分析算法;其中多态链接网络在原有网络链接结构之上添加了链接的类别信息;
4)最后根据知识网络中的权重,求前面得到的排序值的加权和,得到最终的排序值。
1.步骤(1)中知识网络在概念层次关系的基础上,为这些层次关系添加一个0~1之间的权值,来表示用户对这种关系的认可程度;在用户的使用过程中,根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络,使得在用户与系统多次交互后,知识网络能够趋向于反映用户的偏好。
2.步骤(3)中多态链接网络是按照知识网络定义的概念节点,对链接进行分类;这样除了在原来的A到B的链接表达的A和B有关系的基础上,还可以进一步表达A和B因为知识网络中对应节点定义的原因而有关系;分类允许重复,也允许某些链接没有被分到任何类;其中A、B代表多态链接网络中任意两有链接的节点。
3.步骤(3)中多态链接网络的更新采用静态的分析方法:使用索引词-权重策略(TF-IDF)方法为每个概念节点统计多态链接网络中每个节点的权重,取其中前N位的作为该多态链接网络节点的关键词集合;然后观察关键字集合有重合的两个节点,如果已经存在链接,那么给该链接添加关键词集合中的重合元素;否则给两个节点添加一条新链接,同样给该新链接添加关键词集合中的重合元素;其中N根据多态链接网络的规模来确定;
TF-IDF的计算公式如下:
概念节点Ki在文档Di中的权值为:KKi,Di=FKi,Di×(Log2N/(NK,D+1))其中:FKi,Di为概念节点Ki在文档Di中的出现频率;N为文档集总数,其中文档是多态网络中的节点;NK,D为文档集中至少出现一次概念节点Ki的文档数;
步骤(3)中多态链接网络的更新采用动态更新方法:跟踪用户的检索习惯,一段时间内用户检索的行为通常只有一个主题,该主题从搜索词中提取;通过分析用户在某个文档的停留时间,以及反馈信息来访问历史记录,得到一个文档集合;给该文档集合中的文档相互之间添加一条类别为通过检索词提取出来的若干个概念节点的链接。
4.步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法时,将针对这一概念节点为每条链接评估一个权值,链接被分为三种:
1)与本次概念节点拥有相同类别的链接,权值为1;
2)没有任何类别信息的链接,权值为α;
3)有类别信息,但是与本次概念节点不符合的链接,权值为β;
一个文档A有文档T1、T2...Tn指向它,那么A的PageRank值计算方式如下:
PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))
其中:
d:一个0到1的系数;
C(A):A指向的文档数目;
f(A,Tx):A与Tx之间链接的权值,其中x=1,2,...,n。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种用于建立个性化搜索引擎的机制。它适用于搭建因特网或者企业内部网络的搜索引擎。本发明的方法是通过建立知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,修改PageRank算法以适应多态链接网络,进而在此基础上展开链接分析得到搜索结果。本发明是建立在包含信息更加丰富,且与原始链接网络保持兼容的多态链接网络基础上,加上个性化知识网络在描述用户兴趣的方面的可伸缩性,从而保证了更高的准确率和更广的适用性。
附图说明
图1为知识网络,概念提取自ODP搜索引擎;
图2为原始的各链接一致的链接网络;
图3为多态链接网络,其中不同线型表示三种不同类别的链接,黑色实线表示该链接没有被分类,链接的类别是可以重复的。
具体实施方式
本发明实施的关键有三点:知识网络、多态链接网络的建立和维护,查询时排序值的计算。其中知识网络、多态链接网络是本发明实施的基础。
1.知识网络的建立和维护
知识网络是在概念网络的基础上添加了权值,来定量的表示用户对概念之间关系的一种结构,如图1。概念节点可以在Yahoo!、ODP等目前非常流行的目录搜索引擎中提取。初始化时,将在ODP中有关系的两个节点之间的权值设置为1,否则设置为0。
知识网络的维护可以在用户的使用过程中,根据文中概念节点的出现的次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后,这个知识网络就逼近于用户对概念的真实理解。
2.多态链接网络的建立和维护
链接关系也是可以分类的。因特网上的超链接类型很多,有一般的网页链接、对图片的链接、email链接等等。类似的,把这些链接针对某个领域进行更细的分类,就形成了“多态链接网络”,如图3。
多态链接网络存在静态更新和动态更新两种方式。在多态链接网络建立时,可以根据需要选择适量的静态更新;而在系统运行过程中,实施动态更新。需要说明的是,即使在初始化时候完全不实施静态更新方式也可以运行,但是搜索结果却不能反映个性化搜索结果。详细可参看下一点。
3.排序值的计算
在这里假设知识网络和多态链接网络都是相对固定的。
排序算法步骤如下:根据用户输入的搜索词在知识网络中找到一个最符合的节点;然后选取与该概念节点相邻的其他节点;针对每个选出的节点在多态网络中为每条链接评估一个权值,再为每个文档根据修改过的PageRank算法求得表示在该概念节点意义下的排序值;最后将所有排序值加权求和得到最终的排序结果。其中,由于知识网络是个性化的,所以得到的节点以及最后的组合方式都会不同,从而最终的排序值也会不同,再结合对文档和搜索词的相关性分析,就会得到不同的搜索结果。
把所有具有直接链接关系的节点(权值不为0)作为相关参考节点集合(下面称为RelatedSet)。由于为链接新引入了权值,必须修改PageRank算法。
在原来的PageRank算法中,一个文档A有文档T1、T2...Tn指向它。那么A的PageRank值计算方式如下:
PR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))                (1.1)
其中d是一个0到1的系数,而C(A)则是表示A指向的文档数目。
在引入多态链接网络后,我们将其改变如下:
PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))       (1.2)
其中:f(A,T)为A和T之间链接的权值,定义如下:
根据试验结果,我们把α和β分别设置为0.15和0.01。
某个文档在特定的搜索主题下排序值计算公式如下:
Figure C20051005019800081
其中
doc:需要排序的文档;
query:搜索词;
Weight(topic,query):知识网络中定义的权值;
PunishFactor(topic,query):当前检查的节点topic与query之间的关系。为了区别搜索节点query和扩展后RelatedSet中的节点。显然扩展节点的贡献应该相对小,所以将其定义为:PunishFactor(w,w0)=1/kDistance(w,w0),其中Distance(topic,word)是Topic和word之间最小的边数,直接链接,则为1,k是控制收敛速度的参数,可以设置为2;
Rank(doc,topic):公式1.1定义的doc在概念节点topic意义下的PageRank值。
最终的排序结果还需要考察文档与搜索主题之间的关联程度,综合给出评判,这已非本发明的内容,故不再详细叙述。

Claims (6)

1.一种基于链接分析的个性化搜索引擎方法,其特征在于:
1)用户输入搜索词,在知识网络中找到对应的节点;其中知识网络是一个定量表示概念之间关系的结构;
2)根据知识网络中的邻接关系,扩散步骤(1)中的知识网络节点得到一个概念节点集合;
3)为概念节点集合中的每个节点在多态链接网络中计算排序值,计算排序值的方法可采用目前很成熟的PageRank链接分析算法;其中多态链接网络在原有网络链接结构之上添加了链接的类别信息;
4)最后根据知识网络中的权重,求前面得到的排序值的加权和,得到最终的排序值。
2.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特征在于:步骤(1)中知识网络在概念层次关系的基础上,为这些层次关系添加一个0~1之间的权值,来表示用户对这种关系的认可程度;在用户的使用过程中,根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络,使得在用户与系统多次交互后,知识网络能够趋向于反映用户的偏好。
3.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特征在于:步骤(3)中多态链接网络是按照知识网络定义的概念节点,对链接进行分类;这样除了在原来的A到B的链接表达的A和B有关系的基础上,还可以进一步表达A和B因为知识网络中对应节点定义的原因而有关系;分类允许重复,也允许某些链接没有被分到任何类;其中A、B代表多态链接网络中任意两有链接的节点。
4.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特征在于:步骤(3)中多态链接网络的更新采用静态的分析方法:使用索引词-权重策略为每个概念节点统计多态链接网络中每个节点的权重,取其中前N位的作为该多态链接网络节点的关键词集合;然后观察关键字集合有重合的两个节点,如果已经存在链接,那么给该链接添加关键词集合中的重合元素;否则给两个节点添加一条新链接,同样给该新链接添加关键词集合中的重合元素;其中N根据多态链接网络的规模来确定;
索引词-权重策略的计算公式如下:
概念节点Ki在文档Di中的权值为:KKi,Di=FKi,Di×(Log2N/(NK,D+1))
其中:FKi,Di为概念节点Ki在文档Di中的出现频率;N为文档集总数,其中文档是多态网络中的节点;NK,D为文档集中至少出现一次概念节点Ki的文档数;
5.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特征在于:步骤(3)中多态链接网络的更新采用动态更新方法:跟踪用户的检索习惯,一段时间内用户检索的行为通常只有一个主题,该主题从搜索词中提取;通过分析用户在某个文档的停留时间,以及反馈信息来访问历史记录,得到一个文档集合;给该文档集合中的文档相互之间添加一条类别为通过检索词提取出来的若干个概念节点的链接。
6.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特征在于:步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法时,将针对这一概念节点为每条链接评估一个权值,链接被分为三种:
1)与本次概念节点拥有相同类别的链接,权值为1;
2)没有任何类别信息的链接,权值为α;
3)有类别信息,但是与本次概念节点不符合的链接,权值为β;
一个文档A有文档T1、T2...Tn指向它,那么A的PageRank值计算方式如下:
PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))
其中:
d:一个0到1的系数;
C(A):A指向的文档数目;
f(A,Tx):A与Tx之间链接的权值,其中x=1,2,...,n。
CNB2005100501985A 2005-06-22 2005-06-22 基于链接分析的个性化搜索引擎方法 Expired - Fee Related CN100338610C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100501985A CN100338610C (zh) 2005-06-22 2005-06-22 基于链接分析的个性化搜索引擎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100501985A CN100338610C (zh) 2005-06-22 2005-06-22 基于链接分析的个性化搜索引擎方法

Publications (2)

Publication Number Publication Date
CN1710560A CN1710560A (zh) 2005-12-21
CN100338610C true CN100338610C (zh) 2007-09-19

Family

ID=35706803

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100501985A Expired - Fee Related CN100338610C (zh) 2005-06-22 2005-06-22 基于链接分析的个性化搜索引擎方法

Country Status (1)

Country Link
CN (1) CN100338610C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456296C (zh) * 2006-06-28 2009-01-28 腾讯科技(深圳)有限公司 一种多媒体文件搜索引擎的排序方法
CN100504866C (zh) * 2006-06-30 2009-06-24 腾讯科技(深圳)有限公司 一种综合搜索结果的排序系统及方法
EP2321745B1 (en) * 2008-08-01 2017-05-31 Google, Inc. Providing posts to discussion threads in response to a search query
CN101441662B (zh) * 2008-11-28 2010-12-22 北京交通大学 基于网络拓扑的主题信息采集方法
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
CN101634995B (zh) * 2009-08-13 2011-09-21 浙江大学 一种基于机器学习的网络连接速度预测方法
CN101976245A (zh) * 2010-10-09 2011-02-16 吕琳媛 网络中节点重要性的排序方法
CN103198228B (zh) * 2013-04-18 2016-02-24 清华大学 基于广义关系隐话题模型的关系网络链接预测方法
CN109902214B (zh) * 2019-02-15 2021-06-08 重庆邮电大学 一种基于改进PageRank算法的用户偏好挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236989B1 (en) * 1998-12-11 2001-05-22 International Business Machines Corporation Network-based help architecture
CN1296589A (zh) * 1998-04-10 2001-05-23 国际商业机器公司 通过超级链接扩散特性
US6438110B1 (en) * 1997-11-12 2002-08-20 Nortel Networks Limited Reservation of connections in a communications network
CN1421011A (zh) * 1999-11-06 2003-05-28 林克普拉斯株式会社 在因特网上的搜索专用网站和搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438110B1 (en) * 1997-11-12 2002-08-20 Nortel Networks Limited Reservation of connections in a communications network
CN1296589A (zh) * 1998-04-10 2001-05-23 国际商业机器公司 通过超级链接扩散特性
US6236989B1 (en) * 1998-12-11 2001-05-22 International Business Machines Corporation Network-based help architecture
CN1421011A (zh) * 1999-11-06 2003-05-28 林克普拉斯株式会社 在因特网上的搜索专用网站和搜索方法

Also Published As

Publication number Publication date
CN1710560A (zh) 2005-12-21

Similar Documents

Publication Publication Date Title
CN100338610C (zh) 基于链接分析的个性化搜索引擎方法
Tanudjaja et al. Persona: A contextualized and personalized web search
Wu et al. Identifying link farm spam pages
Arguello et al. Document representation and query expansion models for blog recommendation
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
Xue et al. Optimizing web search using web click-through data
JP5185498B2 (ja) エンティティ固有の調整された検索
CN1755678A (zh) 在排序搜索结果时引入锚文本用的系统和方法
CN1904886A (zh) 在多个文档之间建立链接结构的方法和装置
CN102955810B (zh) 一种网页分类方法和设备
CN1169195A (zh) 存取信息的方法和/或系统
CN1764916A (zh) 用于频率计数的方法和装置
CN1781100A (zh) 用于为一组搜索结果生成精细化类别的系统和方法
CN1755677A (zh) 使用索引关键词的范围搜索系统和方法
US8423554B2 (en) Content category scoring for nodes in a linked database
Nasraoui et al. A framework for mining evolving trends in web data streams using dynamic learning and retrospective validation
CN1845098A (zh) 仿人工细粒度网页信息采集方法
Saranya et al. A personalized online news recommendation system
CN101030206A (zh) 搜索引擎关键字关联的发现和生成方法
US8949254B1 (en) Enhancing the content and structure of a corpus of content
Chen et al. A unified framework for web link analysis
Maaradji et al. Social web mashups full completion via frequent sequence mining
Hassan et al. Mace: A dynamic caching framework for mashups
Gemechu et al. A framework for personalized information retrieval model
CN1326158A (zh) 适用于多媒体内容的数据库构造方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070919

Termination date: 20170622

CF01 Termination of patent right due to non-payment of annual fee