CN103853831A - 一种基于用户兴趣的个性化搜索实现方法 - Google Patents

一种基于用户兴趣的个性化搜索实现方法 Download PDF

Info

Publication number
CN103853831A
CN103853831A CN201410086236.1A CN201410086236A CN103853831A CN 103853831 A CN103853831 A CN 103853831A CN 201410086236 A CN201410086236 A CN 201410086236A CN 103853831 A CN103853831 A CN 103853831A
Authority
CN
China
Prior art keywords
user
interest
clustering
browsing pages
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410086236.1A
Other languages
English (en)
Other versions
CN103853831B (zh
Inventor
崔自峰
钱葵东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201410086236.1A priority Critical patent/CN103853831B/zh
Publication of CN103853831A publication Critical patent/CN103853831A/zh
Application granted granted Critical
Publication of CN103853831B publication Critical patent/CN103853831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种基于用户兴趣剖像实现个性化搜索的方法,首先,从用户的浏览器页面缓存中抽取Web页面,根据页面中包含的超链接关系进行聚类,获取的聚类代表用户的一种兴趣,聚类包含的页面数量与页面总数之比代表兴趣的浓厚程度;然后,提出一种新的用户兴趣剖像表示方法,并在用户兴趣页面聚类中,采用基于忠诚度的加权关联规则方法,挖掘聚类中的关联规则词条作为用户兴趣剖像的代表;最后,将获取的用户兴趣剖像推导用户搜索请求的兴趣,通过与用户交互确认,扩展用户的搜索请求提交给通用搜索引擎,扩展后搜索请求能够将搜索结果聚焦在用户的兴趣范围内,实现了用户的个性化搜索。该方法可以用于浏览互联网的浏览器,帮助用户改善搜索体验。

Description

一种基于用户兴趣的个性化搜索实现方法
技术领域
本发明涉及一种互联网上实现个性化搜索的技术,特别是一种挖掘和表示用户的兴趣剖像实现基于用户兴趣的个性化搜索实现方法。
背景技术
对于目前基于关键字匹配的搜索引擎,大多数的用户缺乏改善搜索结果的经验,不能精确的表示自己想要的信息。而且搜索引擎用户往往只给出相对较少的查询词(据统计超过70%的搜索词只有一个,90%不超过3个),通过短短的几个词,搜索引擎也无法获知用户的具体需求,搜索引擎会返回的成千上万的结果页面,用户根本就无法逐一浏览,通常只是查看前几页的搜索结果。大量的含有用户搜索关键字的页面可能与用户的兴趣毫无关系。因此对于用户来说,找个适合自己的有用的信息是一件相当费时、费力的事情。
如何能够从用户方获取更多的关于用户的兴趣信息,进而改善用户的搜索是个性化搜索领域需要解决的课题,其中,用户兴趣数据的获取和用户兴趣剖像的表示是个性化搜索研究领域中关键的问题。在对用户兴趣剖像建模方面主要的方法有兴趣特征向量,本体结构化等。兴趣特征向量将用户兴趣剖像信息表达为一组带权重的术语集合,权重大小表示用户的兴趣程度,因为采用向量空间模型表示,这种表达方式的好处是与目前很多的信息检索系统可以很好的匹配,在实现个性搜索的过程中,二维兴趣特征词条通常用于搜索结果的过滤和排序,并没有提高搜索的精度。
从用户兴趣数据来源方式上,主要有(1)用户浏览器的历史页面、收藏和Cache的数据,(2)搜索引擎的日志信息,(3)用户指定的文档或兴趣,(4)用户的搜索反馈和评价。其中,Cui和Liu等人提出从搜索引擎的搜索日志中挖掘用户的搜索信息,以获得普遍用户的共同偏好。存在的问题是用户的搜索记录并不能完全代表个别用户的偏好信息。通过与用户交互的方式,事先要求用户指定自己的兴趣偏好特征,或者用户指定自己的喜好的页面,通过挖掘这些页面得到用户的偏好特征。
从用户兴趣剖像表示方面,主要有二维兴趣特征词条、决策树、兴趣生成树以及本体表示等方法。二维兴趣特征词条将用户的剖像信息表达为一组带权重的术语,权重大小表示用户的兴趣程度,这种表达方式的好处是与目前很多的信息检索系统可以很好的匹配,因为它们大部分仍然是基于向量空间模型,大部分的研究都是基于这种表示方式。本体(ontology)技术的用户剖像是最近热门研究方向的内容,本体正是描述语义Web中语义知识的建模手段,它形式化定义了领域内共同认可的知识,是语义Web体系中的核心。把本体直接应用到目前的检索方式上,仍然存在如果结合完全不同的两种表达体系的问题。
基于代理的个性化搜索,建立专用的个性化代理系统,利用兴趣剖像过滤搜索结果。基于WWW缓冲技术的实时二维兴趣模型,通过粗集理论和关联规则深入挖掘兴趣之间的关联关系,实时二维兴趣模型充分考虑了用户兴趣之间的递推关系。
Letizia系统是由MIT开发的,具有智能导航功能。它采用了一种基于行为的用户兴趣建模方法,即通过跟踪用户的浏览行为推测用户兴趣,建立用户兴趣模型。例如该系统可自动从用户当前页面出发,对所有超链接指向的链宿页面进行宽度优先搜索,在分析页面内容后与用户兴趣模型比较,进而找出用户可能感兴趣的页面,在单独的窗口中显示推荐给用户的URL列表。
LIRA系统是由Stanford开发的,具有主动服务功能的系统。在用户网络浏览过程中选择与用户兴趣模型相似度高的页面提交给用户,并要求用户给出明确的评估值,然后根据用户提供的相关反馈结果修改搜索和选择策略,调整用户兴趣模型。该系统的特点在于利用了启发式搜索算法,对搜索规模进行了限制,从而兼顾了效率。
WebMate系统是一个帮助用户有效地浏览和搜索Web的代理。从Web信息检索的多个方面改善,首先,使用了多个TFIDF向量跟踪用户的兴趣领域,这些领域都是WebMate自动学习的。其次,WebMate使用了Trigger Pair Model自动提取关键词改善页面搜索。再次,搜索过程中,用户可以为搜索提供多个页面作为相似/相关性的引导。
国内目前也有研究个性化搜索的专利,比如一种基于用户停留时间分析的个性化网页搜索排序方法(申请号201110194078.8)依据用户阅读页面的时间推测出感兴趣的概念词,进一步基于概念词来预测搜索结果中每个页面的个性化阅读兴趣。基于链接分析的个性化搜索引擎方法(申请号200510050198.5)通过知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于用户兴趣的个性化搜索实现方法,通过实时获取浏览器缓存的页面,能够动态反映用户兴趣的变化,利用关联规则词条作为用户兴趣特征,将用户的搜索限定在特定兴趣的页面范围,达成更加精确的搜索结果。
为了解决上述技术问题,本发明提出了一种用户兴趣剖像模型的表达方法和两阶段策略的个性化搜索方案。
本发明所述的一种用户兴趣剖像模型由三部分组成,第一部分为一组浏览页面的聚类,每一个聚类代表用户的一种兴趣,称为兴趣聚类,其包含的页面数量与页面总数之比作为用户兴趣的程度,该值范围为0~1之间的实数;第二部分为每一个兴趣聚类中心,用向量表达,每一个特征项的值为该聚类中词条特征的词频平均值,聚类中心随着聚类中文本的变化而不断更新;第三部分为关联特征词条,从每一个兴趣聚类中获取,代表用户的一类兴趣。
本发明所述的两阶段策略的个性化搜索方案包括用户兴趣剖像生成阶段和个性化搜索推导阶段。
阶段一、用户兴趣剖像生成
该阶段包括两个步骤:
步骤一、对用户浏览器缓存区的浏览页面进行聚类;
通过对用户浏览器缓存区中的浏览页面实施基于图链接的聚类,获得用户兴趣聚类。具体步骤如下所示:
步骤(11):提取用户浏览器缓存区中的浏览页面,把每一个浏览页面p表示成一组词条的特征向量和其包含的超链接页面集合。
步骤(12),将用户的浏览器缓存区中的浏览页面按照其包含的链接关系建立图模型的表示方式,所述图模型表示为浏览页面图HG={V,E},其中,HG是一个无向图,节点的集合V={pi|1≤i≤n},V代表浏览页面集合,pi表示集合V中第i个浏览页面,n表示集合V的浏览页面总数;E是边的集合,边表示V中两个浏览页面的链接关系,若有pi,pj∈V,当pj∈pi.L时,则有<pi,pj>∈E∪<pj,pi>∈E,pi.L表示浏览页面pi中包含的超链接页面集合;pj表示集合V中第j个浏览页面,1≤j≤n。
步骤(13):根据页面邻居和噪声页面,计算浏览页面图HG的边集合E中任意条边<pi,pj>所对应的两个浏览页面是否互为邻居,如果不互为邻居,则判定两个浏览页面的主题不一致,从浏览页面图HG中删除该边;反之,保留该边。
所述页面邻居Neighborhood(pi,pj)是指两个具有直接链接关系的浏览页面,且它们之间的页面相似度大于指定值,表示为:
Neighborhood ( p i , p j ) &DoubleLeftRightArrow; ( ( p i , p j ) &Element; E ) &cap; ( sim ( p i , p j ) &GreaterEqual; &theta; ) ,
其中,相似度函数sim(pi,pj)采用浏览页面pi与浏览页面pj的特征向量的夹角余弦表示的它们之间相似度,θ是相似度阈值,根据经验取值范围为0.3~0.4之间的任意实数。
所述噪声页面是指在初始浏览页面集合中与用户兴趣无关的页面,表示为:
如果浏览页面pi与任意一个聚类中心OCj的相似度sim(pi,OCj)<θ成立,则所述浏览页面pi为噪声页面,其中OCj表示第j个聚类中心,所述聚类中心是聚类代表性的特征向量表示,计算方式为每个词条特征在该聚类中出现页面次数的平均值;
步骤(14):采用深度优先的方式遍历浏览页面图HG,得到浏览页面图HG的所有连通分量;
步骤(15):将浏览页面图HG中的每一个节点数量大于阈值的连通分量都作为一个用户的兴趣浏览页面聚类,按照聚类相似度合并具有相似主题的聚类;所述阈值设定为浏览页面图HG中页面总数的5%~10%;
步骤(16):将剩余的节点分配到与其相似度最大的聚类中,并重新计算每一个聚类的中心。
步骤二、聚类的关联规则词条挖掘;
从每一个兴趣聚类包含的页面中挖掘具有关联关系的所有词条,生成用户兴趣剖像。具体步骤如下所示:
步骤(21),对于每一个兴趣聚类,将兴趣聚类包含的页面中每一个词条作为一个词条特征,根据词条特征在浏览页面中出现与否,如果出现将词条对应的布尔型特征值设为1,否则为0,每一个浏览页面可表示为一个高维的布尔型特征向量;
步骤(22),确定加权关联规则中的词条特征集X的加权支持率,和规则的加权可信率如下:
词条特征集X的加权支持率计算公式如下:
WSup ( X , C ) = &Sigma; i = 1 p L ( t i , C ) &times; Support ( t i , C )
其中,p值为词条特征集X中词条特征的个数,ti∈X,1≤i≤p,
词条特征ti在聚类C中的权重,
词条特征ti在聚类C中的支持率,
DF(ti,C)表示词条特征ti在聚类C中的文档频率,
DF(ti)表示词条特征ti在全部浏览页面集合中的文档频率;
|C|表示聚类C的浏览页面总数。
算法中规则的加权可信率计算公式如下:
WConf ( X &DoubleRightArrow; Y ) = WSup ( X &cup; Y , C ) WSup ( X , C )
步骤(23),设定加权支持率阈值为0.2,加权可信率阈值为0.7,计算同时满足加权支持率和加权可信率都大于上述阈值的每一个聚类的关联规则
Figure BDA0000474899500000052
步骤(24),将所有关联规则
Figure BDA0000474899500000053
转换为关联规则词条(X∪Y)。
步骤(25),保存用户兴趣聚类、兴趣聚类中心和关联规则词条,构成用户兴趣剖像。
阶段二、基于用户兴趣剖像的个性化搜索推导
将用户输入的关键字与阶段一生成的用户兴趣剖像进行推理判断,获得用户本次搜索的兴趣,扩展用户搜索请求,提交给通用搜索,获取搜索结果。具体步骤如下所示:
步骤(31),推导用户的搜索兴趣:取用户输入的搜索关键词与每一个用户兴趣聚类中心进行相似度计算,获得最佳匹配兴趣聚类,将用户的搜索关键词映射到该兴趣聚类上,计算公式如下:
F ( q ) = arg max 1 &le; i &le; | C | sim ( q , O Ci ) * w ( C i )
其中,|C|表示用户兴趣聚类的个数,sim(q,OCi)是用户搜索关键字q与用户的第i个兴趣聚类中心OCi的相似度,w(Ci)是第i个兴趣聚类的兴趣程度,其值为:Ci兴趣聚类中页面数/总页面数;
步骤(32),获取兴趣聚类关联规则词条并由用户确认:将最佳匹配兴趣聚类对应的关联规则词条显示出来,并由用户确认兴趣聚类;
步骤(33),扩展用户搜索请求:如果步骤(32)确定了兴趣聚类,那么将该兴趣聚类的关联规则词条作为用户搜索请求的扩展,提交给搜索引擎;否则,不扩展用户的搜索关键词,直接提交给搜索引擎;
步骤(34),结果返回显示:把搜索引擎返回的结果显示给用户。
本发明能够自动聚类浏览器缓冲区中的用户浏览页面,从用户兴趣页面聚类中挖掘出用户兴趣剖像,并将兴趣剖像用于实现用户个性化搜索的推导。
本发明由于是从用户最近浏览页面中获取信息,随着用户浏览页面的变化,本发明实时跟踪用户兴趣的变化,所以能够动态反映用户最新的兴趣。而采用关联规则挖掘算法,从用户的兴趣聚类中获取用户兴趣的代表性词条特征,当用户搜索时,代表用户兴趣的词条特征能够将搜索范围限制在特定兴趣页面内,相当于在一个用户感兴趣的页面集合中进行选择。从而,返回的搜索结果既满足了用户的要求,又很自然地表示出用户的个性化特点。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明实现的个性化搜索系统结构图
图2是用户兴趣剖像描述示意图。
图3是基于图链接的浏览器缓存区页面聚类流程图。
图4是浏览器缓存区页面在特征空间的分布示意图。
图5是将浏览器缓存区页面建模成图并删除噪声页面的示意图。
图6是获取图的连通分量示意图。
图7是合并相同主题的聚类并分配没有被连通分量包含的浏览页面节点示意图。
图8是个性化搜索技术实现的框架示意图。
具体实施方式:
参照图1,本发明的实施过程主要有两个阶段,一个阶段是用户兴趣剖像的生成,另一阶段是利用用户兴趣剖像进行个性化搜索推导。两个阶段的实施过程相对独立,可以分开阐述说明,而用户兴趣剖像是将两个阶段联系起来的关键。
下面首先说明用户兴趣剖像,然后分别说明两个阶段的实施过程。
用户兴趣剖像是用户兴趣的描述模型,参照图2,本发明提出的用户兴趣剖像说明如下:用户兴趣剖像采用一种树状结构描述,从根结点出发,一个分支代表用户的一类兴趣,与分支边上对应的数值作为该类兴趣的程度;而每一个分支下面都由3层结构组成,下面一层是浏览页面聚类集合;中间一层是每个浏览页面聚类的中心表示,以实现用户搜索兴趣的推导;上面一层是关联词条特征,从兴趣聚类中选择,代表用户的一类兴趣。
阶段一、用户兴趣剖像生成
该阶段的主要实施步骤如下:
步骤一,对用户浏览器缓存区的浏览页面进行兴趣聚类。
从浏览器的缓存中获取web页面,通过对web页面进行超链接分析、文本处理和聚类后,获得用户的兴趣聚类,保存到用户兴趣剖像模型库中。具体步骤结合图3所示:
步骤(11),提取用户的浏览器缓存区中的浏览页面,把每一个浏览页面表示成一组词条的特征向量和其包含的超链接页面集合,初始情况下,页面在特征空间中的表示如图4所示,图中圆圈表示浏览页面,圈中的数字表示浏览页面的兴趣类别(类别1和类别2是类标签),x表示页面为噪声页面。
步骤(12),将用户的浏览器缓存区中的浏览页面按照其固有的链接关系建立图模型(HG),如图5所示,如果两个浏览页面之间有链接关系,那么它们之间存在一条相连的边。
步骤(13),判定页面邻居和噪声页面,计算浏览页面图HG的边集合E中任意条边<pi,pj>所对应的两个浏览页面是否互为邻居,如果不互为邻居,则判定两个页面的主题不一致,从浏览页面图HG中删除该边;反之,保留该边。如图5所示,图中噪声页面是因为用户浏览过程中存在兴趣主题偏移或链接主题漂移。图中连线上的叉表示两个页面虽然具有链接关系,但是页面相似度太小,不能构成页面邻居。
步骤(14),采用深度优先的方式遍历浏览页面图HG,得到浏览页面图HG的所有连通分量,不同的连通分量可能具有相似的兴趣主题,如图6所示,深度优先遍历页面图后,共获得4个连通分量(用虚线包围),类别1和类别2的聚类各由两个连通分量组成。
步骤(15),将浏览页面图HG中的每一个浏览页面节点数量大于给定值的连通分量,都可以看作是用户一类兴趣页面聚类,并按照聚类相似度合并具有相似主题的聚类,如图7所示。
步骤(16),将剩余的页面节点分配到与其相似度最大的聚类中,并重新计算每一个聚类中心。
步骤二,获取关联规则词条,生成用户兴趣剖像
在步骤一生成的用户兴趣聚类基础上,挖掘聚类的关联规则,形成关联规则词条,保存到用户兴趣剖像模型中。具体步骤如下:
步骤(21),对于每一个兴趣聚类,将兴趣聚类包含的页面中每一个词条作为一个词条特征,根据词条特征在浏览页面中出现与否,如果出现将词条对应的布尔型特征值设为1,否则为0,每一个浏览页面可表示为一个高维的布尔型特征向量;
步骤(22),确定加权关联规则中的词条特征集X的加权支持率,和规则
Figure BDA0000474899500000071
的加权可信率如下:
词条特征集X的加权支持率计算公式如下:
WSup ( X , C ) = &Sigma; i = 1 p L ( t i , C ) &times; Support ( t i , C )
其中,p值为词条特征集X中词条特征的个数,ti∈X,1≤i≤p,
Figure BDA0000474899500000082
词条特征ti在聚类C中的权重,
Figure BDA0000474899500000083
词条特征ti在聚类C中的支持率,
DF(ti,C)表示词条特征ti在聚类C中的文档频率,
DF(ti)表示词条特征ti在全部浏览页面集合中的文档频率;
|C|表示聚类C的浏览页面总数。
算法中规则
Figure BDA0000474899500000084
的加权可信率计算公式如下:
WConf ( X &DoubleRightArrow; Y ) = WSup ( X &cup; Y , C ) WSup ( X , C ) ,
步骤(23),设定加权支持率阈值为0.2,加权可信率阈值为0.7,计算同时满足加权支持率和加权可信率都大于上述阈值的每一个聚类的关联规则
Figure BDA0000474899500000086
步骤(24),将所有关联规则
Figure BDA0000474899500000087
转换为关联规则词条(X∪Y)。
步骤(25),保存用户兴趣聚类、兴趣聚类中心和关联规则词条,构成用户兴趣剖像。
阶段二、利用用户兴趣剖像进行个性化搜索推导
参照图8,在用户发起搜索时,获取用户的搜索关键字q,根据用户搜索关键字将其映射到用户的某类兴趣,并以人机交互的方式让用户确认,获得相应兴趣聚类的关联规则词条F(q);之后,将用户搜索请求与兴趣特征代表(q∪F(q))一起提交给通用搜索引擎,比如百度或者google,这一步的作用是将用户的搜索限制在特定的兴趣范围里,最后接收通用搜索引擎的结果给用户,完成一次用户的搜索请求。具体步骤如下:
步骤(31),获取用户输入的搜索关键字q;
步骤(32),推导用户的搜索兴趣;
将用户输入的搜索关键词与每一个用户兴趣聚类中心进行相似度计算,获得最佳匹配兴趣聚类,将用户的搜索关键词映射到该兴趣聚类上,计算公式如下:
F ( q ) = arg max 1 &le; i &le; | C | sim ( q , O Ci ) * w ( C i )
其中,|C|表示用户兴趣聚类的个数,sim(q,OCi)是用户请求q与用户的第i个兴趣聚类中心的相似度,w(Ci)是第i个兴趣聚类的兴趣程度,其值为Ci兴趣聚类中页面数/总页面数;
步骤(33),用户交互确认
将最佳匹配兴趣聚类对应的关联规则词条显示出来,并由用户确认兴趣聚类;
步骤(34),扩展用户搜索请求
如果步骤(33)确认了兴趣聚类,那么将该兴趣聚类的关联规则词条作为用户的扩展搜索请求,提交给搜索引擎;否则,不扩展用户的搜索关键词,直接提交给搜索引擎;
步骤(35),搜索结果返回显示
实施例
本发明的效果通过以下仿真实例予以说明:
1、抽取用户web缓存文档,计算用户兴趣聚类
在一个利用本发明实现的个性化搜索系统中,预置用户缓存的有效文档总数为319个,词条总数为1813。该系统中的用户兴趣聚类子系统从用户使用过的浏览器中,抽取缓存在硬盘上的web文档,执行文档聚类算法。本实例系统聚类后的结果如下表所示,得到用户的5个相关兴趣类,以及每个兴趣类的文档数、词条特征数和聚类比例。其中,每个聚类的词条特征数只记录该类中包含的词条,不同聚类会有相同的词条,比如“火箭”词条在第1和2类中都存在。由于,聚类中心是词条的向量表达,用于计算和关键字的相似度,在此就不再给出示例。
聚类序号 聚类文档数 聚类词条特征数 聚类比例
1 100 890 100/319
2 83 787 83/319
3 50 540 50/319
4 46 455 46/319
5 40 408 40/319
总数 319 1813 1
2、利用关联规则方法,计算用户剖像信息
上述用户的兴趣聚类文档,即可作为用户的兴趣样本,通过布尔型关联规则挖掘算法获取代表某兴趣类的特征词条作为兴趣剖像信息。
聚类序号 兴趣浓度 兴趣聚类关联特征词条
1 0.313 球员∪NBA∪得分
2 0.26 军事∪战机
3 0.158 电影∪明星∪票房
4 0.144 房产∪调控
5 0.125 数码相机∪拍摄∪色彩
总数 1 13
3、用户兴趣匹配推荐和搜索扩展
用户在进行搜索时,用户输入关键词“火箭”时,实例系统将捕获用户输入,与兴趣聚类进行匹配,获得第1和2两个聚类中都有“火箭”一词,但是,实例系统通过计算得出:“火箭”与第1个聚类的相似度为0.68,“火箭”与第2个聚类的相似度为0.23,而且,用户对第1个兴趣类浓度为0.313,第2个兴趣类浓度为0.26。因此,可以计算出两个兴趣类的匹配度分别为:0.213和0.0598。实例系统获得最佳匹配类并提示用户本次搜索选择兴趣类进行扩展搜索。显然,如果用户兴趣与第一个兴趣类匹配,那么用户关注在篮球的火箭队,实例系统会将“火箭”and“球员or NBA or得分”进行组合,通过搜索引擎获取结果;如果用户兴趣与第二个兴趣类匹配,那么用户关注在军事的航天火箭发射方面,实例系统会将“火箭”and“军事or战机”进行组合发送给搜索引擎,通过搜索引擎获取结果,由此比用户单独输入“火箭”相比,获得与用户兴趣关联度更高的更加准确的搜索结果。
本发明提供了一种基于用户兴趣的个性化搜索实现方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种基于用户兴趣的个性化搜索实现方法,其特征在于,包括用户兴趣剖像、用户兴趣剖像生成以及个性化搜索推导三个部分;
所述用户兴趣剖像包括对用户的兴趣进行描述和建模;
所述用户兴趣剖像生成包括对用户浏览器中缓存页面进行聚类、关联规则挖掘,构建用户兴趣剖像;
所述个性化搜索推导包括依据用户兴趣剖像对用户的搜索请求进行推理匹配,获得用户搜索兴趣,利用搜索请求扩展方法,实现个性化搜索。
2.根据权利要求1所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,所述的用户兴趣剖像的组成包括三个部分:
第一部分为一组浏览页面聚类,每一个聚类代表用户的一种兴趣,作为兴趣聚类,其包含的页面数量与页面总数之比作为用户兴趣的程度,该比值的范围为0~1之间的实数;
第二部分为每一个兴趣聚类的中心,用特征向量表达,每一个特征项的值为该聚类中词条特征的词频平均值,用于搜索时,用户兴趣的推导;
第三部分为聚类关联规则词条,是与关联规则对应的词条组合,代表每一个兴趣聚类的关键特征,在个性化搜索时,将其作为扩展词进行搜索,将搜索内容限定在扩展词范围内。
3.根据权利要求1所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,所述的用户兴趣剖像生成过程包括两个步骤:
步骤1、对用户浏览器缓存浏览页面的兴趣聚类,生成用户兴趣剖像的第一部分和第二部分;
步骤2、挖掘兴趣聚类的关联规则词条,生成用户兴趣剖像的第三部分。
4.根据权利要求3所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,其中步骤1所述的对用户浏览器缓存浏览页面的兴趣聚类,包括如下步骤:
步骤(11),提取用户的浏览器缓存区中的浏览页面,把每一个浏览页面p表示成一组词条的特征向量和浏览页面p包含的超链接页面集合;
步骤(12),将用户的浏览器缓存区中的浏览页面按照页面包含的链接关系建立图模型的表示方式,得到一个浏览页面图;
步骤(13):根据浏览页面图中页面之间的链接关系和浏览页面之间的相似度,计算浏览页面图的边集合E中任意条边所对应的两个浏览页面是否互为邻居,如果不互为邻居,则判定两个浏览页面的主题不一致,从浏览页面图中删除该边;反之,保留该边;
步骤(14):采用深度优先的方式遍历浏览页面图,得到浏览页面图的所有连通分量;
步骤(15):将浏览页面图中的每一个节点数量大于阈值的连通分量都作为一个用户的兴趣浏览页面聚类,按照聚类相似度合并具有相似主题的聚类;
步骤(16):将剩余的节点分配到与其相似度最大的聚类中,并重新计算每一个聚类的中心。
5.根据权利要求3所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,步骤2所述的挖掘兴趣聚类的关联规则词条,包括如下步骤:
步骤(21),对于每一个兴趣聚类,将兴趣聚类包含的浏览页面中每一个词条作为一个词条特征;根据词条特征在浏览页面中出现与否,如果出现将浏览页面的布尔型特征向量设为1,如果没有出现将浏览页面的布尔型特征向量设为0,每一个浏览页面表示为一个布尔型特征向量;
步骤(22),利用加权关联规则挖掘算法,获取聚类的关联规则词条。
6.根据权利要求5所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,步骤(22)所述的加权关联规则挖掘算法,加权关联规则为:在一个聚类中,任意两个词条特征集X与Y,如果存在X的加权支持率和规则
Figure FDA0000474899490000021
即由X推出Y,的加权可信率高于阈值,那么规则
Figure FDA0000474899490000022
被称作关联规则,词条的合集X∪Y称作关联规则词条;
算法中词条特征集X的加权支持率计算公式如下:
WSup ( X , C ) = &Sigma; i = 1 p L ( t i , C ) &times; Support ( t i , C ) ,
其中,p值为词条特征集X中词条特征的个数,ti∈X,1≤i≤p,
Figure FDA0000474899490000024
L(ti,C)为词条特征ti在聚类C中的权重,
Figure FDA0000474899490000025
Support(ti,C)为词条特征ti在聚类C中的支持率,
DF(ti,C)表示词条特征ti在聚类C中的文档频率,
DF(ti)表示词条特征ti在全部浏览页面集合中的文档频率;
|C|表示聚类C的浏览页面总数;
算法中规则
Figure FDA0000474899490000026
的加权可信率计算公式如下:
WConf ( X &DoubleRightArrow; Y ) = WSup ( X &cup; Y , C ) WSup ( X , C ) .
7.根据权利要求1所述的一种基于用户兴趣的个性化搜索实现方法,其特征在于,所述的个性化搜索推导部分,包括如下步骤:
步骤(31),推导用户的搜索兴趣:计算用户输入的搜索关键词与用户每一个兴趣聚类中心的相似度,获得最佳匹配兴趣聚类,将用户的搜索关键词映射到该兴趣聚类;
步骤(32),获取兴趣聚类的特征并由用户确认:显示最佳匹配兴趣聚类对应的关联规则词条,并由用户确认兴趣聚类;
步骤(33),扩展用户搜索请求:如果步骤(32)用户确定了兴趣聚类,那么将该兴趣聚类的关联词条作为用户的扩展搜索请求,提交给搜索引擎;否则,不扩展用户的搜索关键词,直接提交给搜索引擎;
步骤(34),结果返回显示:把搜索引擎返回的结果显示给用户。
CN201410086236.1A 2014-03-10 2014-03-10 一种基于用户兴趣的个性化搜索实现方法 Active CN103853831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410086236.1A CN103853831B (zh) 2014-03-10 2014-03-10 一种基于用户兴趣的个性化搜索实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410086236.1A CN103853831B (zh) 2014-03-10 2014-03-10 一种基于用户兴趣的个性化搜索实现方法

Publications (2)

Publication Number Publication Date
CN103853831A true CN103853831A (zh) 2014-06-11
CN103853831B CN103853831B (zh) 2017-02-01

Family

ID=50861486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410086236.1A Active CN103853831B (zh) 2014-03-10 2014-03-10 一种基于用户兴趣的个性化搜索实现方法

Country Status (1)

Country Link
CN (1) CN103853831B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184654A (zh) * 2014-07-30 2014-12-03 小米科技有限责任公司 一种基于用户标识的匹配方法及装置
RU2580516C2 (ru) * 2014-08-19 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования персонализированной модели ранжирования, способ формирования модели ранжирования, электронное устройство и сервер
CN105912673A (zh) * 2016-04-11 2016-08-31 天津大学 基于用户个性化特征的微博搜索优化方法
CN106294661A (zh) * 2016-08-04 2017-01-04 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN106682202A (zh) * 2016-12-29 2017-05-17 北京奇艺世纪科技有限公司 一种搜索缓存更新方法及装置
WO2017173929A1 (zh) * 2016-04-05 2017-10-12 阿里巴巴集团控股有限公司 无监督的特征选择方法、装置
CN107885872A (zh) * 2017-11-27 2018-04-06 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及系统
CN110222191A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 用户兴趣画像的构建方法、装置、计算机设备及计算机存储介质
CN110532429A (zh) * 2019-09-04 2019-12-03 重庆邮电大学 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN111461118A (zh) * 2020-03-31 2020-07-28 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111488493A (zh) * 2020-04-10 2020-08-04 西安交通大学 一种基于搜索关键字的用户兴趣图序列动态管理方法
CN113779354A (zh) * 2015-10-01 2021-12-10 电子湾有限公司 用于生成目标页面的系统和方法
US11379487B2 (en) 2018-08-27 2022-07-05 International Business Machines Corporation Intelligent and interactive knowledge system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295319B (zh) * 2008-06-24 2010-06-02 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENGYU ZHU 等: "Query Expansion Based on a Personalized Web Search Model", 《THIRD INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRID》 *
于春雷等: "一种个性化查询扩展方法", 《计算机工程与应用》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184654A (zh) * 2014-07-30 2014-12-03 小米科技有限责任公司 一种基于用户标识的匹配方法及装置
US10061820B2 (en) 2014-08-19 2018-08-28 Yandex Europe Ag Generating a user-specific ranking model on a user electronic device
RU2580516C2 (ru) * 2014-08-19 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования персонализированной модели ранжирования, способ формирования модели ранжирования, электронное устройство и сервер
CN113779354A (zh) * 2015-10-01 2021-12-10 电子湾有限公司 用于生成目标页面的系统和方法
WO2017173929A1 (zh) * 2016-04-05 2017-10-12 阿里巴巴集团控股有限公司 无监督的特征选择方法、装置
CN105912673A (zh) * 2016-04-11 2016-08-31 天津大学 基于用户个性化特征的微博搜索优化方法
CN106294661B (zh) * 2016-08-04 2019-09-20 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN106294661A (zh) * 2016-08-04 2017-01-04 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
US11734276B2 (en) 2016-12-29 2023-08-22 Beijing Qiyi Century Science & Technology Co., Ltd. Method and apparatus for updating search cache to improve the update speed of hot content
CN106682202A (zh) * 2016-12-29 2017-05-17 北京奇艺世纪科技有限公司 一种搜索缓存更新方法及装置
CN106682202B (zh) * 2016-12-29 2020-01-10 北京奇艺世纪科技有限公司 一种搜索缓存更新方法及装置
CN107885872A (zh) * 2017-11-27 2018-04-06 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107885872B (zh) * 2017-11-27 2023-12-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US11379487B2 (en) 2018-08-27 2022-07-05 International Business Machines Corporation Intelligent and interactive knowledge system
CN109388665B (zh) * 2018-09-30 2020-10-09 吉林大学 作者关系在线挖掘方法及系统
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及系统
CN110222191A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 用户兴趣画像的构建方法、装置、计算机设备及计算机存储介质
CN110222191B (zh) * 2019-04-19 2023-08-22 平安科技(深圳)有限公司 用户兴趣画像的构建方法、装置、计算机设备及计算机存储介质
CN110532429B (zh) * 2019-09-04 2021-05-11 重庆邮电大学 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN110532429A (zh) * 2019-09-04 2019-12-03 重庆邮电大学 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN111461118A (zh) * 2020-03-31 2020-07-28 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111461118B (zh) * 2020-03-31 2023-11-24 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111488493A (zh) * 2020-04-10 2020-08-04 西安交通大学 一种基于搜索关键字的用户兴趣图序列动态管理方法

Also Published As

Publication number Publication date
CN103853831B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103853831B (zh) 一种基于用户兴趣的个性化搜索实现方法
Sharma et al. A brief review on search engine optimization
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN103064945B (zh) 基于本体的情境搜索方法
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
CN103744956B (zh) 一种关键词的多样化拓展方法
CN101321190A (zh) 一种异构网络中的推荐方法及推荐系统
CN103455487A (zh) 一种搜索词的提取方法及装置
Du et al. A topic-specific crawling strategy based on semantics similarity
CN101706812A (zh) 一种文档的检索方法和装置
CN102306182A (zh) 基于概念语义背景图挖掘用户兴趣的方法
Murugudu et al. Efficiently harvesting deep web interfaces based on adaptive learning using two-phase data crawler framework
An et al. A heuristic approach on metadata recommendation for search engine optimization
Alghamdi et al. Extended user preference based weighted page ranking algorithm
Thukral et al. FCHC: A social semantic focused crawler
Ahamed et al. Deduce user search progression with feedback session
Nithya Link Analysis Algorithm for Web Structure Mining
CN104794200A (zh) 一种基于本体的支持模糊匹配的事件发布订阅方法
Prasath et al. Finding potential seeds through rank aggregation of web searches
Manral et al. An innovative approach for online meta search engine optimization
Li et al. User personalization mechanism in agentbased meta search engine
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
Khan et al. Self-adaptive ontology-based focused crawling: a literature survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant