CN101408897A - 一种基于协作过滤的个性化查询扩展方法 - Google Patents

一种基于协作过滤的个性化查询扩展方法 Download PDF

Info

Publication number
CN101408897A
CN101408897A CNA2008102237694A CN200810223769A CN101408897A CN 101408897 A CN101408897 A CN 101408897A CN A2008102237694 A CNA2008102237694 A CN A2008102237694A CN 200810223769 A CN200810223769 A CN 200810223769A CN 101408897 A CN101408897 A CN 101408897A
Authority
CN
China
Prior art keywords
user
document
interest
value
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008102237694A
Other languages
English (en)
Other versions
CN101408897B (zh
Inventor
周莉
张勇
邢春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EASYWAY TECHNOLOGY Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2008102237694A priority Critical patent/CN101408897B/zh
Publication of CN101408897A publication Critical patent/CN101408897A/zh
Application granted granted Critical
Publication of CN101408897B publication Critical patent/CN101408897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于协作过滤的个性化查询扩展方法,属于个性化服务领域,其特征是利用用户群组对搜索结果的种种行为作为对词与词之间关系分析的依据,而不是依据文档中词语的相关性。根据同一个用户聚类内所有用户提交过的查询词以及用户对Web搜索引擎给出的结果的隐式反馈信息而进行查询扩展。该算法不需要用户人为地填写或修改个人兴趣,而是基于用户以往对搜索结果的种种动作,保证了用户兴趣的持久更新。

Description

一种基于协作过滤的个性化查询扩展方法
技术领域
本发明属于个性化服务领域,具体涉及一种基于协作过滤的个性化查询扩展方法。
背景技术
Web信息的日益增长,使人们不得不花费大量的时间搜索和浏览自己需要的信息。传统的搜索引擎比如:AltaVista(www.altavista.com)、Yahoo!(www.yahoo.com)和新一代的搜索引擎比如:Google(www.google.com)满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的个性化查询需求。另外,电子商务应用的日益普及,越来越多的商品可供人们从因特网上挑选和购买。尽管人们可以更加轻松地买到自己需要的物品,但网上琳琅满目,千差万别的商品使消费者很难选择自己中意的产品。通常,人们很想了解别人的看法,并希望有人向他们进行推荐。另外,随着互联网上的资源的日益增多,如何对自己感兴趣的资源进行管理也成为人们越来越关心的问题。很多方面都涉及到个性化服务的需求,由于本发明的着重点在个性化搜索,这里以个性化搜索作为主要背景技术描述。
用户希望从搜索引擎中获得最贴近自己需要的信息,即对于同一查询,不同用户能够获得不同的搜索结果。例如,同样的查询“苹果”,有的用户希望“苹果”作为一种水果,获得它的相关信息;而另外的用户可能希望“苹果”作为一种计算机品牌,获取相关信息。有研究表明:网络用户用于搜索的查询85%是短查询,该类查询一般包括3个或更少数目的查询单词。因此,用户提交的查询通常不能充分表达出搜索相关文档所需的信息。目前,Web搜索引擎广泛采用自动查询扩展方法来解决这个问题,并获得了成功。即在原来查询的基础上,加入与用户用词相关联的词组成新查询,这在一定程度上弥补了用户查询信息的不足。对用户提交的查询进行扩展可以提高查询的准确性,但由于搜索引擎作为通用查询工具,很难做到用户间差异性,也就是说很难实现深入的个性化搜索。
发明内容
本发明的目的是提供一种基于协作过滤的个性化查询扩展方法来解决查询个性化问题。
本发明的特征在于,所述方法是在计算机中依次按以下步骤进行的:
步骤(1)初始化
在所述计算机中设定以下模块:用户兴趣学习模块、用户聚类模块、查询词相似度计算模块以及基于协作过滤的个性化查询扩展模块,其中:
用户兴趣学习模块:
设定:用户动作以及该用户动作对应的兴趣值的映射表:
a.用于下载文档的兴趣值为0.8,
b.用于为文档评分的兴趣值为:评分值/满分值,评分值由用户设定,用户根据对文档内容的兴趣度以及文档外观的怎样打分,满分值为5分,
c.用于为文档添加书签的兴趣值为1,
d.用于为文档删除的书签的兴趣值为-1,
e.在文档级别上,用户u浏览文档d的兴趣度为,wu,d=P(spd(u,d)≤spd(u,d’|d’∈Du)),其中spd(u,d)为用户u阅读文档d的速度,spd(u,d)=Ld/Td,Ld为文档d的长度,Td为用户u阅读文档d的时长,Du为用户u浏览过的所有文档的集合,用户u阅读速度最慢的文档是最感兴趣的文档,用1表示;
所述在文档级别上的兴趣度按下式计算:wu,d=spd(u,d)/spd(u,d’),其中d’表示用户u阅读速度最快的文章,
用户提交过多次查询后,对同一篇文档d有多种动作,其综合兴趣度用w′u,d表示: w u , d j = max ( w u , d j ) + a , j=1,…,λ,j为用户动作序号,wu,d j为序号为j的用户动作的兴趣值,α在[0.1,0.3]中取值,
e.在领域级别上用户u浏览文档d的兴趣度为Put,公式如下:
P ut = P ( c t | u ) = Σ d ∈ D u , d ∈ c t w u , d ′ p ( c t | d ) size ( D u )
其中,ct为序号为t的领域类型,所述领域类型的集合C={c1,c2,…,cT},T为该领域类型C的大小,P(ct|d)为文档d属于领域ct的条件概率,Du为用户u浏览过的所有文档集合,size(Du)为用户反馈的文档数;
用户聚类模块,用下述KMeans聚类对所以阅读过文档的用户分类,其步骤为:
第一步:随机选择K个用户,其中每个用户k初始代表一个簇中心op,p=1,…,K,
第二步:计算剩余的每个用户uc各自与各个簇中心op的欧氏距离 d ( u c , O p ) = Σ t = 1 K ( p u c t - p ot ) 2 , 其中,
Figure A20081022376900073
表示剩余用户uc对领域的ct兴趣值,Pot表示属于簇op的用户对所述领域类型ct的平均兴趣值, p ot = 1 | O p | Σ u ∈ O p p ut , op为所述簇中心的大小,
第三步:根据所述剩余的每个用户uc与各个簇中的op的距离,把uc给最近的簇中心,
第四步:重新计算每个簇中心对领域类型ct的平均兴趣值,
第五步:重复上述第一到第四步,直至 P u c t - P ot < &epsiv; , 阈值ε取10-5
查询相似度计算模块,用于计算与各个用户聚类op内所有用户各自的第i次提交的查询词qi相似的由用户隐式反馈的查询词q′i组成的列表simList={q′1,q′2,…,q′t},
所述相似查询词qi满足以下条件:
由用户提交的查询词qi查询得到的由搜索引擎给出的一组链接集合 res q i = { d 1 , d 2 , . . . , d n } , 以及由用户隐式反馈链接集合
Figure A20081022376900077
来计算两个查询词qi,q′i之间的相似度,其公式为:
similarity ( q i , q i &prime; ) = &Sigma; k = 1 m w k i * w k i &prime; &Sigma; k = 1 m ( w k i ) 2 * &Sigma; k = 1 m ( w k i &prime; ) 2
当计算得到的相似值similarity(qi,q′i)大于给定阈值δ,δ取值区间为(0,1),则将q′i添加到所述simList表中,否则舍去;
基于协作过滤的个性化查询扩展模块;
第一步,构造属于用户聚类op的原始查询词和扩展查询词的组合,用
Figure A20081022376900081
表示,qi∈simList,λi为-1或1,
第二步,把所述原始查询词和扩展词的组合提交所述搜索引擎,得到扩展查询词,
第三步,当用户属于不同聚类中时,重复上述第一步和第二步;
步骤(2),用户输入查询词q,得到resq={d1,d2,…,dn},并依次通过步骤(1)中所述各模块,得到多个个性化扩展查询词以及这些扩展查询词与查询词q之间的相似度排序结果。
本发明的优点在于:(1)体现用户的个性化查询需求,同一查询,不同用户能够获得不同的搜索结果;(2)查询扩展不是依据文档中词语的相关性,而是依据同一个用户聚类内所有用户提交过的查询词以及用户对Web搜索引擎给出的结果的隐式反馈信息。
附图说明
图1是基于协作过滤的个性化查询扩展的体系结构;
图2是个性化查询扩展的处理流程;
图3是查询词相似度(查询词以collaborative filtering为例),其中:①查询词:协作过滤,②查询扩展词:推荐,③查询扩展词:聚类,④查询扩展词:信息过滤,⑤查询扩展词:计算机,⑥查询扩展词:推荐系统。
具体实施方式
本发明提出了一种基于协作过滤的个性化查询扩展方法,结合协作过滤,利用用户群组对搜索结果的种种行为体现用户的个性化查询以及对用户查询进行扩展,如图1所示,个性化查询扩展包括下述几个步骤:(1)用户兴趣学习,(2)用户聚类,(3)查询词处理,主要涉及查询词相似度的计算,(4)基于协作过滤的个性化查询扩展。
用户兴趣学习
为了实现个性化搜索必须了解用户的搜索意图,要建立一种长期的且能动态更新的方式来学习用户的兴趣.对用户兴趣的捕捉基于用户对以往搜索结果的种种动作。这里设定的资源对象为Web文档。
用户提交一项查询q,搜索引擎相应地给出一组页面链接集合resq={d1,d2,…,dn}。用户对于集合resq中的页面链接,有些进一步打开浏览,有些下载,这些用户动作体现了用户兴趣。不同的用户动作在用户兴趣中具有的意义不同。如表1所示用户对搜索结果的一些主要动作,其中UID为用户标识,DID为文档标识,如果一篇文档实际存放在多个位置,则这个文档具有多个DID。
表1用户访问行为
Figure A20081022376900091
其中,对于用户浏览文档来说,判断其对该文档的兴趣度比较复杂,本文根据用户浏览文档的时间长短来衡量,直观的,用户u阅读文档d时间越长,说明u对d的关注程度越高。设u阅读文档d的时间为Td,文档d的长度为Ld,则u阅读d的速度为:
spd(u,d)=Ld/Td
根据上述公式计算用户u对文档d的兴趣度为:
wu,d=P(spd(u,d)≤spd(u,d’|d’∈Du))
其中Du表示用户u浏览过所有文档集合。上式表明,在用户浏览过的文档中,阅读速度最慢的可以看作是该用户最感兴趣的文档。用户对文档的其他动作对应的兴趣度值见表2。
表2用户动作的兴趣值
Figure A20081022376900092
对于用户的一次查询q,设定用户u对集合resq中的每项d具有一定的感兴趣度wu,d,wu,d值的大小介于[0,1],则用户的兴趣表示为:
u=(<d1,wu[1]>,<d2,wu[2]>,……,<dn,wu[n]>)。
用户兴趣学习(文档级别)
a.将查询q传到搜索引擎S(例如Google),
b.resq=搜索引擎S返回的URL组成的向量,
c.对于resq的每个URL,wu[i]=Interestingness(resq[i],action[i]),action[i]为用户对resq[i]的动作,
d.利用wu对resq进行排序,
用户u提交过多次查询后,若对同一篇文档d有多种动作,其动作值为wu,d j,j=1,…,λ。则u对d的感兴趣度为多个动作值的综合,即 w u , d = max ( w u , d j ) + a
其中,max(wu,d j)为取wu,d j中最大值,α为常数,且满足 0 &le; max ( w u , d j ) + a &le; 1 . 一般地,α的取值区间为[0.1,0.3]。
由于文档数目巨大,相对地,用户反馈过的文档数目过少,造成用户的兴趣表示非常稀疏。稀疏的数据会影响用户相似度计算和查询扩展的质量。考虑新的表示方式来改进数据稀疏状况。
假定所有文档具有特定的领域类型。领域类型集合为C={c1,c2,…,cT},其中T为集合的大小,ct表示第t个领域,则文档d表示为一个条件概率的矢量:d=<p(c1|d),p(c2|d),…,p(cT|d)>,其中p(ct|d)看作文档d属于类ct的概率。用户u对某一领域ct的兴趣表示为条件概率put=p(ct|u),则用户在一次查询后对领域的兴趣表示为uc=(<c1,pu1>,<c2,pu2>,…,<cT,puT>),相对于文档数目来说,领域类型的数目是非常有限的。
设Du为用户u浏览过的文档集,则u对类别ct感兴趣的概率可表示为Du中所有文档属于ct概率的加权平均:
Figure A20081022376900103
其中size(Du)表示用户反馈的文档总数,wu,d是用户u对文档d的兴趣度。
用户兴趣学习(领域级别)
a.将查询q传到搜索引擎S(例如Google),
b.resq=搜索引擎S返回的URL的向量,
c.用户从resq选择Du
d.对于Du中的每一篇文档d,如果d属于ct,则有
Figure A20081022376900111
f.利用Put对ct(t=1,…,T)进行排序。
用户聚类
根据基于领域的用户兴趣表示方法对用户的聚类。一般认为:同一个聚类内的用户是相似的;处于不同聚类的用户是相异的。聚类算法有多种,KMeans聚类算法是最常用的基于划分的方法。它以k为参数,把n个用户分为K个簇,以使簇内具有较高的相似度,而簇间的相似度最低。相似度的计算根据一个簇中所有用户的平均值(被看作簇的重心)来进行。首先,随机地选择K个用户,每个用户初始地代表了一个簇中心。对剩余的每个用户uc,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。
计算每个用户对象uc与簇中心op(p=1,…,K)之间的距离(即uc与op的相异度),最常用的度量方法是欧氏距离,公式为:
d ( u c , O p ) = &Sigma; t = 1 K ( p u c t - p ot ) 2 , 其中表示剩余用户uc对领域ct的兴趣值,
Figure A20081022376900114
Pot的值是所有属于簇op的用户对领域类型Ct的兴趣值的平均值,即 p ot = 1 | O p | &Sigma; u &Element; O p p ut . 利用KMeans聚类算法对用户聚类计算步骤如下:
a.任意选择K个用户作为初始的簇中心,
b.根据与每个中心的距离,将每个用户对象赋给“最近”的簇,
c.重新计算每个簇中心对领域类型Ct的平均兴趣值,
d.重复上述三个步骤直至 P u c t - P ot < &epsiv; (一般阈值ε取10-5)。
查询相似度计算
用于计算与各个用户聚类op内所有用户各自的第i次提交的查询词qi相似的由用户隐式反馈的查询词q′i组成的列表simList={q′1,q′2,…,q′t},可按照以下步骤进行:
a.由用户提交的查询词qi查询得到的由搜索引擎给出的一组链接集合 res q i = { d 1 , d 2 , . . . , d n } ,
b.利用
Figure A20081022376900123
以及由用户隐式反馈链接集合
Figure A20081022376900124
计算查询词qi和q′i之间的相似度值 similarity ( q i , q i &prime; ) = &Sigma; k = 1 m w k i * w k i &prime; &Sigma; k = 1 m ( w k i ) 2 * &Sigma; k = 1 m ( w k i &prime; ) 2 , 如果similarity(qi,q′i)大于阈值δ,δ的取值区间为(0,1),则把q′i添加到查询词列表simList,δ的取值需要根据该算法实施到的实际系统调整。
基于协作过滤的个性化查询扩展
对于目标用户u,针对其提交的查询q,对该查询进行扩展的基本流程是:
a.构造属于用户聚类op的原始查询词和扩展查询词的组合,用
Figure A20081022376900126
表示,qi∈simList,λi为-1或1,
b.把所述原始查询词和扩展词的组合提交所述搜索引擎,得到扩展查询词,
c.当用户属于不同聚类中时,重复上述第一步和第二步,
步骤二,用户输入查询词q,得到resq={d1,d2,…,dn},并依次通过步骤一中所述各模块,得到个性化扩展查询词。
如图1所示是个性化查询扩展的处理流程。
我们开发了一个关于学术资源的个性化服务平台,新用户登录到该系统,输入查询词,系统返回搜索结果,用户对搜索结果进行浏览、下载、打分、收藏等操作。当用户再次登录到该系统,输入查询词时,系统将提示有一组词语可以作为当前查询的扩展词,辅助用户查询。系统收集了从2006年6月到2007年4月之间计算机系30位学生老师的搜索记录,对个性化查询扩展算法的测试利用了两个数据集进行测试。其中数据集1下载自Citeseer系统的1700篇文档,17个类,每个类别包含100篇;数据集2包含2312篇论文,属于6个类别:Agents,Artificial Intelligence(AI),Database(DB),InformationRetrieval(IR),Machine Learning(ML),Human Computer Interaction(HCI),每个类别的文档数目大致相等。
用户提交查询关键词collaborative filtering,系统计算得到和查询词collaborativefiltering最相似的五个短语recommendation、clustering、information filtering、computer、recommender system,它们与collaborative filtering之间的相似度分别为0.83、0.43、0.35、0.52、0.80,如图3所示,按相似度从大到小排序得到扩展组合collaborative filtering和recommendation、collaborative filtering和recommendersystem、collaborative filtering和clustering、collaborative filtering和computer、collaborative filtering和information filtering,提交给系统进行扩展查询。

Claims (1)

1.一种基于协作过滤的个性化查询扩展方法,其特征在于,所述方法是在计算机中依次按以下步骤进行的:
步骤(1)初始化
在所述计算机中设定以下模块:用户兴趣学习模块、用户聚类模块、查询词相似度计算模块以及基于协作过滤的个性化查询扩展模块,其中:
用户兴趣学习模块:
设定:用户动作以及该用户动作对应的兴趣值的映射表:
a.用于下载文档的兴趣值为0.8,
b.用于为文档评分的兴趣值为:评分值/满分值,评分值由用户设定,用户根据对文档内容的兴趣度以及文档外观的怎样打分,满分值为5分,
c.用于为文档添加书签的兴趣值为1,
d.用于为文档删除的书签的兴趣值为-1,
e.在文档级别上,用户u浏览文档d的兴趣度为,wu,d=P(spd(u,d)≤spd(u,d’|d’∈Du)),其中spd(u,d)为用户u阅读文档d的速度,spd(u,d)=Ld/Td,Ld为文档d的长度,Td为用户u阅读文档d的时长,Du为用户u浏览过的所有文档的集合,用户u阅读速度最慢的文档是最感兴趣的文档,用1表示;
所述在文档级别上的兴趣度按下式计算:wu,d=spd(u,d)/spd(u,d’),其中d’表示用户u阅读速度最快的文章,
用户提交过多次查询后,对同一篇文档d有多种动作,其综合兴趣度用w′u,d表示: w u , d j = max ( w u , d j ) + &alpha; , j=1,…,λ,j为用户动作序号,wu,d j为序号为j的用户动作的兴趣值,α在[0.1,0.3]中取值,
g.在领域级别上用户u浏览文档d的兴趣度为Put,公式如下:
P ut = P ( c t | u ) = &Sigma; d &Element; D u , d &Element; c t w u , d &prime; p ( c t | d ) size ( D u )
其中,ct为序号为t的领域类型,所述领域类型的集合C={c1,c2,...,cT},T为该领域类型C的大小,P(ct|d)为文档d属于领域ct的条件概率,Du为用户u浏览过的所有文档集合,size(Du)为用户反馈的文档数;
用户聚类模块,用下述KMeans聚类对所以阅读过文档的用户分类,其步骤为:第一步:随机选择K个用户,其中每个用户k初始代表一个簇中心op,p=1,...,K,第二步:计算剩余的每个用户uc各自与各个簇中心op的欧氏距离 d ( u c , O p ) = &Sigma; t = 1 K ( p u c t - p ot ) 2 , 其中,
Figure A2008102237690003C3
表示剩余用户uc对领域的ct兴趣值,Pot表示属于簇op的用户对所述领域类型ct的平均兴趣值, p ot = 1 | O p | &Sigma; u &Element; O p p ut , op为所述簇中心的大小,
第三步:根据所述剩余的每个用户uc与各个簇中的op的距离,把uc给最近的簇中心,
第四步:重新计算每个簇中心对领域类型ct的平均兴趣值,
第五步:重复上述第一到第四步,直至 P u c t - P ot < &epsiv; , 阈值ε取10-5
查询相似度计算模块,用于计算与各个用户聚类op内所有用户各自的第i次提交的查询词qi相似的由用户隐式反馈的查询词q′i组成的列表simList={q′1,q′2,...,q′t},
所述相似查询词qi满足以下条件:
由用户提交的查询词qi查询得到的由搜索引擎给出的一组链接集合 res q i = { d 1 , d 2 , . . . , d n } , 以及由用户隐式反馈链接集合resq′i来计算两个查询词qi,q′i之间的相似度,其公式为:
similarity ( q i , q i &prime; ) = &Sigma; k = 1 m w k i * w k i &prime; &Sigma; k = 1 m ( w k i ) 2 * &Sigma; k = 1 m ( w k i &prime; ) 2
当计算得到的相似值similarity(qi,q′i)大于给定阈值δ,δ取值区间为(0,1],则将q′i添加到所述simList表中,否则舍去;
基于协作过滤的个性化查询扩展模块;
第一步,构造属于用户聚类op的原始查询词和扩展查询词的组合,用
Figure A2008102237690004C1
表示,qi∈simList,λi为-1或1,
第二步,把所述原始查询词和扩展词的组合提交所述搜索引擎,得到扩展查询词,
第三步,当用户属于不同聚类中时,重复上述第一步和第二步;
步骤(2),用户输入查询词q,得到resq={d1,d2,...,dn},并依次通过步骤(1)中所述各模块,得到多个个性化扩展查询词以及这些扩展查询词与查询词q之间的相似度排序结果。
CN2008102237694A 2008-10-10 2008-10-10 一种基于协作过滤的个性化查询扩展方法 Active CN101408897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102237694A CN101408897B (zh) 2008-10-10 2008-10-10 一种基于协作过滤的个性化查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102237694A CN101408897B (zh) 2008-10-10 2008-10-10 一种基于协作过滤的个性化查询扩展方法

Publications (2)

Publication Number Publication Date
CN101408897A true CN101408897A (zh) 2009-04-15
CN101408897B CN101408897B (zh) 2011-03-30

Family

ID=40571909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102237694A Active CN101408897B (zh) 2008-10-10 2008-10-10 一种基于协作过滤的个性化查询扩展方法

Country Status (1)

Country Link
CN (1) CN101408897B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102054018A (zh) * 2009-10-28 2011-05-11 索尼公司 信息处理设备、信息处理方法以及程序
CN102483764A (zh) * 2009-09-04 2012-05-30 微软公司 用于搜索查询细化的内容表
CN101876979B (zh) * 2009-04-28 2012-08-29 株式会社理光 查询扩展方法及查询扩展系统
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN104239324A (zh) * 2013-06-17 2014-12-24 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统
CN104424300A (zh) * 2013-08-30 2015-03-18 北京千橡网景科技发展有限公司 个性化搜索提示方法及装置
CN105447159A (zh) * 2015-12-02 2016-03-30 北京信息科技大学 一种用户间查询关联度的查询扩展方法
CN105512298A (zh) * 2015-12-10 2016-04-20 成都陌云科技有限公司 基于机器学习的感兴趣内容预测方法
CN105550282A (zh) * 2015-12-10 2016-05-04 成都陌云科技有限公司 利用多维数据预测用户兴趣的方法
CN105574015A (zh) * 2014-10-13 2016-05-11 阿里巴巴集团控股有限公司 搜索推荐方法和装置
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108287916A (zh) * 2018-02-11 2018-07-17 北京方正阿帕比技术有限公司 一种资源推荐方法
CN109117475A (zh) * 2018-07-02 2019-01-01 武汉斗鱼网络科技有限公司 一种文本改写的方法以及相关设备
CN110070134A (zh) * 2019-04-25 2019-07-30 厦门快商通信息咨询有限公司 一种基于用户兴趣感知的推荐方法及装置
CN111245876A (zh) * 2018-11-29 2020-06-05 杭州海康威视数字技术股份有限公司 名单同步方法和集群系统
CN112612875A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种查询词自动扩展方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351785C (zh) * 2003-12-10 2007-11-28 华为技术有限公司 嵌入式系统的调试方法
CN1333336C (zh) * 2006-06-23 2007-08-22 清华大学 一种支持异构构件的构件库统一管理方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876979B (zh) * 2009-04-28 2012-08-29 株式会社理光 查询扩展方法及查询扩展系统
CN102483764A (zh) * 2009-09-04 2012-05-30 微软公司 用于搜索查询细化的内容表
CN102483764B (zh) * 2009-09-04 2015-06-17 微软公司 用于搜索查询细化的内容表
CN102054018A (zh) * 2009-10-28 2011-05-11 索尼公司 信息处理设备、信息处理方法以及程序
CN102054018B (zh) * 2009-10-28 2013-05-01 索尼公司 信息处理设备、信息处理方法以及程序
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101950306B (zh) * 2010-09-29 2013-06-26 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN102682001B (zh) * 2011-03-09 2016-12-28 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN104239324B (zh) * 2013-06-17 2019-09-17 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统
CN104239324A (zh) * 2013-06-17 2014-12-24 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN103455564B (zh) * 2013-08-15 2018-11-13 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN104424300A (zh) * 2013-08-30 2015-03-18 北京千橡网景科技发展有限公司 个性化搜索提示方法及装置
CN105574015A (zh) * 2014-10-13 2016-05-11 阿里巴巴集团控股有限公司 搜索推荐方法和装置
CN105447159A (zh) * 2015-12-02 2016-03-30 北京信息科技大学 一种用户间查询关联度的查询扩展方法
CN105550282A (zh) * 2015-12-10 2016-05-04 成都陌云科技有限公司 利用多维数据预测用户兴趣的方法
CN105512298A (zh) * 2015-12-10 2016-04-20 成都陌云科技有限公司 基于机器学习的感兴趣内容预测方法
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108287916A (zh) * 2018-02-11 2018-07-17 北京方正阿帕比技术有限公司 一种资源推荐方法
CN109117475A (zh) * 2018-07-02 2019-01-01 武汉斗鱼网络科技有限公司 一种文本改写的方法以及相关设备
CN109117475B (zh) * 2018-07-02 2022-08-16 武汉斗鱼网络科技有限公司 一种文本改写的方法以及相关设备
CN111245876A (zh) * 2018-11-29 2020-06-05 杭州海康威视数字技术股份有限公司 名单同步方法和集群系统
CN111245876B (zh) * 2018-11-29 2023-04-28 杭州海康威视数字技术股份有限公司 名单同步方法和集群系统
CN110070134A (zh) * 2019-04-25 2019-07-30 厦门快商通信息咨询有限公司 一种基于用户兴趣感知的推荐方法及装置
CN112612875A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种查询词自动扩展方法、装置、设备及存储介质
CN112612875B (zh) * 2020-12-29 2023-05-23 重庆农村商业银行股份有限公司 一种查询词自动扩展方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101408897B (zh) 2011-03-30

Similar Documents

Publication Publication Date Title
CN101408897B (zh) 一种基于协作过滤的个性化查询扩展方法
Guo et al. A deep look into neural ranking models for information retrieval
CN1702654B (zh) 计算显示页面中块的重要度的方法和系统
Wu et al. Harvesting social knowledge from folksonomies
Bach et al. Personalized recommendation of stories for commenting in forum-based social media
Gao et al. Personalisation in web computing and informatics: Theories, techniques, applications, and future research
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
Zhou et al. Improving search via personalized query expansion using social media
Kathuria et al. Classifying the user intent of web queries using k‐means clustering
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US20110213761A1 (en) Searchable web site discovery and recommendation
CN111079028A (zh) 基于多源辅助信息的协同过滤推荐系统及方法
CN109800350A (zh) 一种个性化新闻推荐方法及系统、存储介质
CN108920521B (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN101321190A (zh) 一种异构网络中的推荐方法及推荐系统
Tan et al. To each his own: personalized content selection based on text comprehensibility
CN109992674B (zh) 一种融合自动编码器和知识图谱语义信息的推荐方法
KR20140012750A (ko) 마이크로 블로그 배열, 검색 및 표시 방법과 시스템
Xu et al. Modelling user behaviour for web recommendation using lda model
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN112749341A (zh) 重点舆情推荐方法、可读存储介质及数据处理装置
Krestel et al. Diversifying customer review rankings
Gupta et al. Continuous space models for CLIR
Renuka et al. An unsupervised content-based article recommendation system using natural language processing
Ramesh et al. Personalized search engine using social networking activity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: EASYWAY TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: TSINGHUA UNIVERSITY

Effective date: 20121225

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100084 HAIDIAN, BEIJING TO: 100083 HAIDIAN, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20121225

Address after: 100083 Beijing city Haidian District Wangzhuang Road No. 1, Tsinghua Tongfang Technology Plaza, A block 18 layer

Patentee after: Easyway Technology Co., Ltd.

Address before: 100084 Beijing 100084-82 mailbox

Patentee before: Tsinghua University