CN101477554A - 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 - Google Patents
基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 Download PDFInfo
- Publication number
- CN101477554A CN101477554A CNA2009100209514A CN200910020951A CN101477554A CN 101477554 A CN101477554 A CN 101477554A CN A2009100209514 A CNA2009100209514 A CN A2009100209514A CN 200910020951 A CN200910020951 A CN 200910020951A CN 101477554 A CN101477554 A CN 101477554A
- Authority
- CN
- China
- Prior art keywords
- user
- search
- interest
- search results
- user interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户兴趣的个性化元搜索引擎及搜索结果处理方法。其搜索引擎包括用户注册/登录单元、元搜索结果收集单元和个性化处理单元,该个性化处理单元通过搜索结果预处理模块、个性化排序处理模块和用户兴趣更新模块,完成对搜索结果的筛选、个性化排序及对用户兴趣模型的建立和更新。其对搜索结果的处理为:建立并初始化用户兴趣模型,存入服务器;将用户输入的搜索词语,按各搜索引擎要求的格式分发;将收集的返回结果转换成统一的格式,依次进行去除重复处理和个性化排序,并提交给用户;捕获用户点击的搜索结果,改变兴趣种类和权值大小,更新用户兴趣模型数据。本发明具有查询覆盖度和准确度高的优点,可用于互联网的搜索引擎。
Description
技术领域
本发明属于互联网信息处理技术领域,涉及搜索引擎、Web数据挖掘和知识发现技术,特别是涉及基于用户兴趣的个性化元搜索系统及方法,用于互联网的搜索引擎。
背景技术
搜索引擎的出现,大大提高了人们对互联网信息检索的能力和效率,已经成为互联网的基础应用之一。据中国互联网络信息中心在2008年中期的统计,中国网民搜索引擎的使用率为69.2%,并处在高速增长之中,而在互联网高度普及的美国,网民对搜索引擎的使用率已达91%。可见,上网用户对搜索引擎已经产生了强烈的依赖。
目前,搜索引擎领域主要有以下几种技术:
(1)传统搜索引擎:这种搜索引擎目前应用最广泛且用户数量最多,主要代表有谷歌(www.google.com)、百度(www.baidu.com)、雅虎(cn.yahoo.com)等。
这种搜索引擎虽然给人们带来了便利,但是它们却存在着本身无法克服的缺陷。根据专业评测,目前主流搜索引擎的网络资源覆盖面加在一起只占整个网络的约42%,返回的结果相关度不足45%,而且由于对网页的索引和排序机制互不相同,导致同样一个搜索请求在不同搜索引擎中的查询结果的重复率不足34%。因此,单个这样的搜索引擎是无法满足用户搜索需求的,要想获得一个比较全面、准确的搜索结果,用户就必须反复调用多个搜索引擎,这大大降低了用户的检索效率,提高了信息检索的难度。
(2)元搜索引擎(Meta-SearchEngine):元搜索引擎的出现,在一定程度上弥补了传统搜索引擎的不足,其主要代表有国外的MetaCrawler(www.metacrawler.com)、Dogpile(www.dogpile.com)和国内的比比猫(www.bbmao.com)等。元搜索是一种将用户检索请求同时发送给多个独立搜索引擎,并将它们的搜索结果汇集在一起返回给用户的搜索技术。它的优点是综合了多个独立搜索引擎的搜索结果,从而提高了搜索结果在整个网络资源上的覆盖率,省去了用户自己逐个调用不同搜索引擎进行查询的麻烦。
但是,目前已投入实用的元搜索引擎的搜索结果排序方式仅仅是以各独立搜索引擎返回结果的排序或某种统一的排序原则为依据的,所以对与不同用户的搜索请求不能做到根据用户的兴趣喜好和搜索意图返回与之相适应的排序结果,即搜索的准确度并未得到有效提高。因此,在信息量巨大的互联网世界里用户想要找到自己需要的信息的难易程度并未得到有效改善。
(3)个性化搜索引擎(Personalized Search Engine):为了满足用户的个性化搜索需求,弥补传统搜索引擎和元搜索引擎的不足,给用户提供更为精准的搜索服务,人们提出了个性化搜索引擎的思想,这种搜索引擎目前还处于技术研究和初步应用阶段。在这方面的研究中,具有代表性的方法一个是通过用户对搜索结果进行打分来调节搜索结果的排列次序,一个是将用户的搜索历史存放在用户计算机的cookie文件中,作为以后用户进行搜索的参考来影响搜索结果的次序。
但是这些方法仍存在缺陷。对于依靠用户打分来说,大量用户对搜索结果的评价并不能准确刻划某个特定用户的兴趣喜好,无法实现针对每个用户的个性化服务;对于在用户计算机上记录用户搜索历史来说,这种方法实际上只是记录了这台计算机上进行过的搜索历史,如果使用该计算机的用户更换或者用户在别的计算机上进行搜索,则这种个性化搜索的作用就失效了。
从上面介绍的目前存在的三种搜索引擎技术来看,个性化搜索技术无疑是搜索引擎进一步发展的方向,但这个领域的技术研究还远未达到成熟阶段,需要有更加有效和实用的个性化搜索技术来改善用户的搜索体验。
发明内容
本发明的目的在于避免上述已有搜索引擎的缺陷,提供一种基于用户兴趣的个性化元搜索引擎及其搜索结果处理方法,以准确确定用户兴趣和搜索意图,在服务器上长期保存和及时更新用户兴趣,并利用用户兴趣和搜索意图对元搜索的搜索结果进行个性化排序,提高搜索结果的覆盖度和搜索的准确度。
本发明的目的是这样实现的:
本发明的搜索系统主要由用户注册/登录单元、元搜索结果收集单元和个性化处理单元组成,其中个性化处理单元,包括:
搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,并将处理后的搜索结果送入个性化排序处理模块;
个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,将排序后的搜索结果提交给用户;
用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新;
用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,并将这些数据提供给个性化排序处理模块进行个性化排序。
所述的用户兴趣模型数据用I(C)={(c1,w1),(c2,w2),...,(cm,wm)}表示,其中(ci,wi)是用户的一个兴趣分量,ci为兴趣类别,wi为ci对应的归一化权值,该用户兴趣模型数据是用于定量描述用户兴趣喜好及其喜好程度的数据集。
本发明的引擎搜索结果处理方法,包括:
步骤1.建立并初始化用户兴趣模型,保存在服务器的用户兴趣数据库中;
步骤2.将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去,并收集它们返回的结果,将收集的返回结果转换成统一的格式。
步骤3.将转换成统一格式的搜索结果进行去除重复处理;
步骤4.根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户;
步骤5.捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据。
上述引擎结果处理方法,其中步骤1所述的建立用户兴趣模型,包括两种方式:一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的初始兴趣模型;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,自动建立用户兴趣模型。
上述引擎结果处理方法,其中步骤3所述的将转换成统一格式的搜索结果进行去除重复处理,是先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果;再将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果。
上述引擎结果处理方法,其中步骤4所述的根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果的个性化排序方法,按如下步骤进行:
1)分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度向量;
2)根据步骤1)得到的相关度向量,计算搜索结果与用户搜索词语的相关度向量;
3)计算搜索结果在各独立搜索引擎上的排名得分向量;
4)将步骤2)和3)得到的数值进行加权综合,得到每条搜索结果基于用户兴趣的权值,并按权值大小排序,得到个性化排序结果。
上述引擎结果处理方法,其中步骤5所述的更新用户兴趣数据库中用户的兴趣模型数据,按如下步骤进行:
a)捕获用户在客户端点击的搜索结果,并传回服务器端;
b)对该搜索结果的标题和摘要进行分词处理,得到该搜索结果的关键词集;
c)依据关键词集进行兴趣分析,得到该用户最新的兴趣类别及相应的权值大小;
d)根据最新的兴趣类别及相应的权值大小对用户兴趣数据库中的用户兴趣模型数据进行更新。
本发明与背景技术相比具有的优势在于:
本发明是一种个性化元搜索引擎技术,适用于建立互联网上的个性化元搜索引擎;
本发明通过元搜索技术同时抓取多个独立搜索引擎的搜索结果,提高了搜索结果的覆盖度,克服了单个独立搜索引擎搜索结果覆盖度低的问题;
本发明通过为每个用户建立各自的用户兴趣模型,并将其长期保存在服务器数据库中,而且随着用户的搜索过程对用户兴趣数据不断更新,使得用户不论身处何时何地,本发明的搜索系统均能准确定位用户兴趣,为其提供个性化搜索服务,不仅克服了一般元搜索引擎不能提供个性化服务的缺点,而且克服了现有个性化搜索技术不能长期保存用户兴趣和不能精准定位个人兴趣的缺点;
本发明通过独创的引擎搜索结果处理机制将多个独立搜索引擎的搜索结果进行去除重复处理,并计算每条搜索结果的个性化权值PersonalRank,为用户提供最适合其搜索意图和兴趣喜好的搜索结果排列方式,使得搜索结果的准确度得到显著提高,用户的搜索需求得到最大程度的满足,用户通过本发明的搜索系统找到自己需要的搜索结果的难度大大降低。
附图说明
图1是本发明搜索引擎系统结构框图;
图2是本发明搜索结果处理流程图;
图3是本发明用户兴趣模型示例图;
图4是本发明去除重复搜索结果流程图;
图5是本发明基于用户兴趣的个性化排序流程图;
图6是本发明用户兴趣更新流程图。
具体实施方式
参照图1,本发明的搜索引擎系统主要由用户注册/登录单元,元搜索结果收集单元,个性化处理单元,服务器输入输出接口和外部独立搜索引擎资源组成,其中:
所述的用户注册/登录单元,由注册模块和登录模块组成。注册模块负责接收新用户通过服务器输入输出接口发来的注册请求,通过收集和向数据库中保存必要的用户信息,使其成为网站注册用户;登录模块负责利用存储的用户信息验证请求登录的用户的合法性,使合法用户登录进网站中进行搜索活动。
所述的元搜索结果收集单元,由搜索引擎代理管理模块和用户个人配置数据库组成。用户个人配置数据库负责存储用户的搜索配置数据,如选择的独立搜索引擎种类、每个独立搜索引擎抓取的搜索结果数量和搜索结果的显示效果;搜索引擎代理管理模块负责在用户通过服务器输入输出接口向网站发出搜索请求时,根据用户个人配置数据库中存储的用户配置信息,为用户选择相应的独立搜索引擎,按照各个独立搜索引擎的搜索格式向外部独立搜索引擎资源发出搜索请求,并收集它们返回的搜索结果,把它们转换成统一的格式。
所述的个性化处理单元,由搜索结果预处理模块、个性化排序处理模块、用户兴趣更新模块和用户兴趣数据库组成。该搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,其中网址去重和摘要去重依次进行:首先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果,再将网址去重后的各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果,最后将处理后的搜索结果送入个性化排序处理模块;该个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,在处理过程中,综合考虑搜索词语与搜索结果基于用户兴趣模型的相关度以及搜索结果在独立搜索引擎的排名得分,计算出个性化权值PersonalRank,并以此为依据进行排序,将排序后的搜索结果通过服务器输入输出接口提交给用户界面;该用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新,其中捕获用户对搜索结果的点击行为是通过在搜索结果显示页面上设置特定代码实现,并由服务器输入输出接口传回服务器进行兴趣分析,从而更新用户兴趣数据库中的用户兴趣模型数据;该用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,这些数据是个性化排序处理模块进行个性化排序的依据,并由兴趣更新模块进行更新。
所述的服务器输入输出接口,是网站服务器用于服务器端与用户端进行数据交互的接口,将需要经过接口交互的数据送到相应的模块中。
所述的外部独立搜索引擎资源是互联网中各种提供搜索服务的独立搜索引擎,是本发明的搜索系统获取搜索结果数据的来源,由搜索结果收集单元通过发出搜索命令与外部独立搜索引擎资源Ei进行连接。
参照图2,本发明的对搜索引擎结果的处理步骤如下:
步骤一,建立并初始化用户兴趣模型数据,保存在服务器的用户兴趣数据库中。
参照图3,本发明中的用户兴趣模型是用户兴趣类别及其权值的数据记录集,其中包含若干个兴趣类别分量,用I(C)={(c1,w1),(c2,w2),...,(cm,wm)}表示。其中(ci,wi)是用户的一个兴趣分量,ci为一个兴趣类别,wi为对应的归一化权值,即所有wi之和为1,wi越大说明兴趣类别ci在该用户兴趣中的比重越大,也就是该用户在兴趣类别ci方面的喜好程度越大。对于用户兴趣模型的建立,包括两种方式:一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的用户兴趣模型数据;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,为用户自动建立用户兴趣模型数据。将按照以上方式建立的用户兴趣模型数据保存入服务器的用户兴趣数据库中,作为后续对搜索结果进行个性化排序的依据。
步骤二,将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去。
对于用户输入的搜索词语,首先由搜索引擎代理管理模块从用户个人配置数据库中取出该用户选定的独立搜索引擎种类,以及需要抓取的搜索结果数目这些必要的配置数据;然后按照各个独立搜索引擎的链接格式,将用户配置数据组合成相应的搜索链接;最后将这些组合好的搜索链接通过网络命令向独立搜索引擎资源分发出去。
步骤三,收集各独立搜索引擎返回的结果,将收集的返回结果转换成统一的格式。
搜索引擎代理管理模块接收到相应独立搜索引擎返回的搜索结果数据流,对这些数据流进行格式分析,分割出这些数据流中搜索结果的网址、标题、内容摘要以及在相应搜索结果中的原始排名名次信息,并将每组这样的信息作为本搜索引擎系统的一条统一格式的搜索结果数据。
步骤四,在搜索结果预处理模块中将转换成统一格式的搜索结果进行去除重复处理。
首先,进行基于网址的搜索结果去除重复处理。将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果。在处理过程中,对于网址相同的搜索结果,优先保留在独立搜索引擎原始排名中名次靠前的那条搜索结果,将相对靠后的其它重复搜索结果删除。
然后,将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果,具体步骤如图4所示:
(4.1)设置有关参数
将用户搜索词语S由元搜索结果收集单元得到的独立搜索引擎返回的搜索结果集设为:R0(s)={r1,1(1),r1,2(2),...,ri,j(n),...},其中R0(s).sum表示查询结果总数,ri,j(n)表示第i个独立搜索引擎的第n条搜索结果且在整个集合中排在第j位,ri,j(n).summary表示该条的摘要,ri,j(n).length为摘要的长度,ri,j(n).flag为去重标志位;
将经过去除重复处理后的搜索结果集设为:R(s)={r1(x1,y1,...),r2(x2,y2,...),...,rn(xn,yn,...)},其中ri(xi,yi,.)表示R(s)中的第i条搜索结果,且在包含该结果的独立搜索引擎上的排名分别为xi,yi,.;
(4.2)将R0(s)中所有ri,j(n).flag置为0,表示相应的ri,j(n)未进行过去除重复处理;
(4.3)从第一条搜索结果r1,1(1)开始,对于ri,k(n)和rj,t(m),其中k<t,若rj,t(m).flag=1,表示已进行过去除重复处理,或ri,k(n).length和rj,t(m).length相差大于50%,表示两者摘要长度相差太大,不做处理,否则,从ri,k(n)summary的前中后部分别截取长为0.6×ri,k(n).length的三个子串与rj,t(m).summary进行比较,若rj,t(m).summary包含子串,则认为两者摘要相似,将两者合并为ri,k(n,m),并置rj,t(m).flag=1,若不包含,则不做处理;
若t<R0(s).sum,令t=t+1,转向下一条结果,重做步骤(4.3);若t=R0(s).sum,说明ri,k(n)与其后的所有结果均已比较完毕,则将ri,k(n,m,...)归入R(s)中,并令i=i+1,若i=R0(s).sum,转向步骤(4.4),否则重做步骤(4.3);
(4.4)当i=R0(s).sum时,说明R0(s)中除最后一项rx,R0(s).sum(y)的所有条目均已进行过去除重复处理,若rx,R0(s).sum(y).flag=1,说明与前面的条目重复,不计入R(s)中,否则将它归入R(s)中;
(4.5)R(s)已包含所有去除重复处理后的搜索结果,由搜索结果预处理模块将这些搜索结果传给个性化排序模块进行后续处理。
用基于摘要内容的搜索结果去除重复方法对搜索结果进行处理的必要性在于:
对于经过基于网址的去除重复处理后的搜索结果,虽然它们的网址不同,但有些页面上的实际内容还是有可能很相似甚至完全相同,对于用户而言也属于重复结果,应该予以滤除。因此,经过网址去除重复处理之后,还要对搜索结果进行内容去除重复处理。而且利用元搜索技术可以得到搜索结果网页的标题的摘要,其中对于标题而言,相似与否并不能说明其内容是否相似,例如标题为“山西省人民政府网站”和“陕西省人民政府网站”的两个网页,它们的内容其实完全不同,而网页摘要虽然简短,但它是页面中与用户查询最相关的一部分信息,这些信息可以很好的反应网页的内容。而且往往是用户搜索到的许多网页虽然它们来源不同标题不同,但它们的内容很相似甚至完全相同,都是对一些已有信息的简单复制,这些网页对用户来说没有更多价值,在用户查找有用信息时还会造成干扰。所以通过分析网页摘要内容来判断内容相似度从而进行去除重复处理是一个提高用户搜索体验的必要过程。
步骤五,根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户,具体步骤如图5所示:
(5.1)设置有关参数
将某用户的搜索词语S经过分词处理后得到的关键词集设为:Q={key1,key2,...,keyh},其中keyi表示第i个关键词,共有h个,且它们在查询语句中相对应的归一化重要度向量为X(Q)=(x1,x2,...,xh),其中各分量之和为1;
用户兴趣数据库的特征词基础数据表是各种特征词与兴趣类别的对应关系表,将K(ci)设为属于兴趣类别ci的特征词集合;在特征词基础数据表中逐一查找Q中的关键词,得到分别所属的兴趣类别,再与用户的I(C)对照,将用户本次查询的兴趣类别集合设为: ;
(5.2)对于I(Q)中的每个兴趣类别ci,分别计算Q中各个关键词权重向量WQ(ci)=(w1,w2,...,wh),其中
若WQ(ci)中存在wj不为零,则对X(Q)和WQ(ci)进行基于向量空间模型的相关度计算,得到搜索词语Q与兴趣类别ci的相关度: 表示Q与兴趣类别ci的相关程度;若wj全为零,则sim(Q,ci)=0;
(5.3)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索词语Q与用户兴趣的相关度向量Sim(Q,C)=(sim(Q,c1),...,sim(Q,cm));
(5.4)对于搜索结果集合R(s)中的每条记录ri,将ri的标题和摘要分别进行分词处理,得到若干关键词,在特征词库中找出其中归属于I(Q)中各兴趣类别的关键词集,表示为Ktitle(ri)={key1,key2,...,keyk}和Ksummary(ri)={key1,key2,...,keyp};
对于I(Q)中的每个兴趣类别cj,逐个计算Ktitle(ri)和Ksummary(ri)的权重向量Wtitle(ri,cj)=(w1,w2,...,wk)和Wsummary(ri,cj)=(w1,w2,...,wp),
式中,
将Ktitle(ri)、Ksummary(ri)以及Wtitle(ri,cj)、Wsummary(ri,cj)分别合并为K(ri)=(t1,t2,...,tn)和W(ri,cj)=(w1,w2,...,wn),
式中,K(ri)包含Ktitle(ri)和Ksummary(ri)中的所有关键词,W(ri,cj)中的权重为Wtitle(ri,cj)和Wsummary(ri,cj)中相应权重之和;
经过分词处理后,K(ri)中包含的关键词在ri中的归一化重要度向量为:
X(ri)=(x1,x2,...,xn);
若W(ri,cj)中存在wi不为零,则将X(ri)和W(ri,cj)进行基于向量空间模型的相关度计算,得到搜索结果ri与兴趣类别cj的相关度 表示搜索结果ri与兴趣类别cj的相似程度,若wi全为零,则sim(ri,cj)=0;
(5.5)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索结果ri与用户兴趣的相关度向量Sim(ri,C)=(sim(ri,c1),...,sim(ri,cn));
(5.6)对所有搜索结果与所有用户兴趣类别的相关度进行计算,得到搜索结果集R与用户兴趣的相关度向量Sim(R,C)=(Sim(ri,C),...,Sim(ri,C));
(5.7)计算ri与Q在兴趣类别cj上的相关度sim(ri,Q,cj):当Sim(Q,C)中所有分量全为0时,sim(ri,Q,cj)=sim(ri,cj),否则sim(ri,Q,cj)=sim(ri,cj)×sim(Q,cj);
(5.8)计算所有的用户兴趣类别与一条搜索结果ri的相关度向量,得到相关度向量Sim(ri,Q,C)=(sim(ri,Q,c1),...,sim(ri,Q,cn));
(5.9)将相关度向量Sim(ri,Q,C)进行综合处理,得到Q与ri的相关度
(5.10)计算所有搜索结果与搜索词语的相关度,得到搜索结果集R与搜索词语的相关度向量Sim(R.Q)=(sim(r1,Q),...,sim(rn,Q));
(5.11)对于搜索结果ri,可按该式计算它在独立搜索引擎上的排名得分:
式中,k表示搜索结果包含ri的独立搜索引擎的个数,ni表示在相应搜索引擎上的排名,该式表明ri被越多的搜索引擎索引且在搜索引擎上排名越靠前则其得分较高;
(5.12)由于sim(ri,Q)和weightSE(ri)均为归一化的数值,所以将两者按一定比例综合即可得到ri的权值weight(ri)=0.6×sim(ri,Q)+0.4×weightSE(ri),该权值是该搜索结果的个性化权值PersonalRank;
(5.13)按照PersonalRank的数值,由大到小对搜索结果进行排序,得到符合用户兴趣和搜索意图的排序方式,并按照此排序方式将搜索结果提交给用户。
步骤六,捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据,其步骤如图6所示:
(6.1)通过在搜索结果显示页面设置特定代码,捕获用户在客户端点击的搜索结果,并传回服务器端;
(6.2)对传回的搜索结果ri的标题和摘要分别进行分词,得到该搜索结果的标题和摘要关键词集KTitle(ri)={keyT1,keyT2,...,keyTk}和Ksummary(ri)={keyS1,keyS2,...,keySm};
(6.3)对于KTitle(ri)和Ksummary(ri)中的每个关键词keyTi和keySi,进行如下兴趣分析步骤:
(6.3a)在用户兴趣数据库的特征词基础数据表中查找keyTi所属的兴趣类别,对找到的每个兴趣类别ci,若该用户兴趣模型中存在该兴趣类别,且其被涉及次数CountCi=m,则将其更新为CountCi=CountCi+1.2,相应的权值更新为 若找不到兴趣类别,则将这个兴趣分量加入用户兴趣模型中,且CountCi=1.2,
(6.3b)在用户兴趣数据库的特征词基础数据表中查找keySi所属的兴趣类别,对找到的每个兴趣类别ci,若该用户兴趣模型中存在该兴趣类别,且其被涉及次数CountCi=m,则将其更新为CountCi=CountCi+0.8,相应的权值更新为 若找不到兴趣类别,则将这个兴趣分量加入用户兴趣模型中,且CountCi=0.8,
所述步骤(6.3a)和步骤(6.3b)中的权值计算公式的意义在于:被用户点击浏览涉及次数越多的兴趣类别的兴趣权值越大,且随着涉及次数的增多,这种权值增加的趋势会逐渐减缓,即用户的兴趣喜好逐渐趋于稳定;
(6.4)对于经过一定的更新次数门限后没有被更新过的兴趣分量,说明该用户对这些兴趣领域已经不再关注,将它们从用户兴趣模型中删除;
(65)对搜索结果ri的标题和摘要中所有关键词处理结束之后,将该用户的所有兴趣权重进行归一化处理,变为取值在0和1之间且总和为1的数值,作为更新后的用户兴趣权值,对用户兴趣数据库中的相应兴趣权值进行更新。
本发明的效果通过以下仿真实例进一步说明:
1.去除重复搜索结果实例
在一个利用本发明所涉及的搜索引擎系统及其搜索方法实现的实例搜索引擎系统中,预先设置79个兴趣类别,并为每个兴趣类别设置若干能够代表该类别特征的特征词;设置每次搜索请求通过搜索引擎代理管理模块向百度抓取50条、谷歌抓取50条、有道抓取10条、搜狗抓取20条共130条搜索结果。
本实例中分别用5个不同的搜索词语在该搜索系统上进行搜索,经过本发明中的去除网址重复和基于摘要内容的搜索结果去除重复方法处理后,得到的统计结果如表1所示。
表1 搜索结果去除重复数据
表1中,内容去重覆盖度为实际去重条目与应去重总条目之比;内容去重准确度为去重条目中正确去重条目与去重总条目之比。
2.个性化排序实例
在实例搜索系统中,分别设置一个兴趣爱好分布在“信息技术”这个类别的用户A和一个兴趣爱好分布在“个人电子产品”这个类别的用户B,首先对这两个用户以基本的元搜索技术进行搜索,再对这两个用户以登录状态进行本发明的个性化搜索,得到表2的统计结果:
表2 搜索结果排序数据
表2中,个性化搜索响应时间为服务器从接收搜索请求到向用户返回搜索结果间经历的时间间隔。
3.实例系统性能分析
从表1中的数据可以看出,对从四个独立搜索引擎抓取的130条搜索结果经过本发明的基于摘要内容的去除重复方法处理后,得到的搜索结果条数相比仅进行网址去重处理有了显著减少,内容去重覆盖度平均为88.9%,内容去重准确度平均为96.67%。
这说明本发明的内容去除重复技术可以准确的识别和去除重复的搜索结果,使搜索结果数量得到大幅度精简,从而免去了用户在大量重复的搜索结果中寻找有用信息的烦恼。
从表2中的数据可以看出,对于具有一定兴趣爱好的用户,在基本的元搜索情况下,得到的搜索结果排在前3页的30条搜索结果中满足其搜索需求的平均不足12条,而经过本发明的个性化搜索系统的处理之后,符合用户兴趣的搜索结果平均达到了20.8条。
这说明利用本发明中的基于用户兴趣的个性化排序技术实现的搜索引擎系统能够准确的识别用户兴趣,并能根据用户喜好为用户返回合适的搜索结果排序方式,这样使得用户在最靠前的搜索结果中找到感兴趣的内容的几率大大增加,从而提高了用户信息检索的效率。
从搜索系统的响应时间上看,用户从提交搜索请求到服务器为用户返回搜索结果之间的时延平均约为1.49秒。据有关调查数据显示,中国网民认为打开网页的最佳速度应在5秒之内,而本发明的搜索系统的响应时间即使考虑服务器与用户端的通信时延,也完全可以满足用户这一要求,这说明利用本发明所涉及的技术实现的搜索系统具有实际可行性。
综合以上的性能分析,本发明包括的基于用户兴趣的个性化元搜索引擎及搜索结果处理方法,与传统搜索引擎相比,提高了搜索结果的覆盖度,克服了单个独立搜索引擎搜索结果覆盖度低的问题;与一般的元搜索引擎以及现有的个性化搜索技术相比,通过为每个用户建立各自的用户兴趣模型,并将其长期保存在服务器数据库中,而且随着用户的搜索过程对用户兴趣数据不断更新,使得用户不论身处何时何地,均能准确定位用户兴趣,为其提供个性化搜索服务,不仅克服了一般元搜索引擎不能提供个性化服务的缺点,而且克服了现有个性化搜索技术不能长期保存用户兴趣和不能精准定位个人兴趣的缺点。
本发明通过独创的引擎搜索结果处理机制将多个独立搜索引擎的搜索结果进行去除重复处理,并计算每条搜索结果的个性化权值PersonalRank,为用户提供最适合其搜索意图和兴趣喜好的搜索结果排列方式,使得搜索结果的准确度得到显著提高,用户的搜索需求得到最大程度的满足,用户找到自己需要的搜索结果的难度大大降低。本发明的搜索系统是一种性能优越、实际可行的互联网信息检索领域的新技术。
Claims (10)
1.一种基于用户兴趣的个性化元搜索引擎,主要由用户注册/登录单元、元搜索结果收集单元和个性化处理单元组成,其特征在于个性化处理单元,包括:
搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,并将处理后的搜索结果送入个性化排序处理模块;
个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,将排序后的搜索结果提交给用户;
用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新;
用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,并将这些数据提供给个性化排序处理模块进行个性化排序。
2.一种基于用户兴趣的个性化元搜索引擎结果处理方法,包括:
步骤1.建立并初始化用户兴趣模型数据,保存在服务器的用户兴趣数据库中;
步骤2.将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去,并收集它们返回的结果,将收集的返回结果转换成统一的格式;
步骤3.将转换成统一格式的搜索结果进行去除重复处理;
步骤4.根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户;
步骤5.捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据。
3.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤1所述的建立用户兴趣模型数据,包括两种方式:一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的用户兴趣模型数据;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,自动建立用户兴趣模型数据。
4.根据权利要求2或3所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中所述的用户兴趣模型数据,用I(C)={(c1,w1),(c2,w2),...,(cm,wm)}表示,其中(ci,wi)是用户的一个兴趣分量,ci为兴趣类别,wi为ci对应的归一化权值,该用户兴趣模型数据是用于定量描述用户兴趣喜好及其喜好程度的数据集。
5.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤3所述的将转换成统一格式的搜索结果进行去除重复处理,是先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果;再将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果。
6.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤4所述的根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果的个性化排序方法,按如下步骤进行:
(6a)分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度向量;
(6b)根据步骤(6a)得到的相关度向量,计算搜索结果与用户搜索词语的相关度向量;
(6c)计算搜索结果在各独立搜索引擎上的排名得分向量;
(6d)将步骤(6b)和(6c)得到的数值进行加权综合,得到每条搜索结果基于用户兴趣的权值,并按权值大小排序,得到个性化排序结果。
7.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6a)所述的分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度向量,按照如下步骤进行:
(7a)按照公式 计算搜索词语Q与一个兴趣类别ci的相关度,
式中,wj是Q经分词处理后的一个关键词对应在用户模型中的兴趣类别ci上的归一化权值,xj是该关键词在Q中的归一化重要度,当所有wj都为零,sim(Q,ci)=0;
(7b)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索词语Q与用户兴趣的相关度向量Sim(Q,C)=(sim(Q,c1),...,sim(Q,cm));
(7c)按照公式 计算一条搜索结果ri与一个兴趣类别cj的相关度,
式中,wi是ri经分词处理后的一个关键词对应在用户模型中的兴趣类别ci上的归一化权值,xi是该关键词在ri中的归一化重要度,当所有wi都为零,sim(ri,cj)=0;
(7d)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到一条搜索结果ri与用户兴趣的相关度向量Sim(ri,C)=(sim(ri,c1),...,sim(ri,cn));
(7e)对所有搜索结果与所有用户兴趣类别的相关度进行计算,得到搜索结果集R与用户兴趣的相关度向量Sim(R,C)=(Sim(ri,C),...,Sim(ri,C))。
8.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6b)所述的计算搜索结果与用户搜索词语的相关度向量,按照如下步骤进行:
(8a)计算ri与Q在兴趣类别cj上的相关度sim(ri,Q,cj):当Sim(Q,C)中所有分量全为0时,sim(ri,Q,cj)=sim(ri,cj),否则sim(ri,Q,cj)=sim(ri,cj)×sim(Q,cj);
(8b)计算所有用户兴趣类别与搜索结果ri的相关度向量,得到:Sim(ri,Q,C)=(sim(ri,Q,c1),...,sim(ri,Q,cn)),并计算Q与ri的相关度:
(8c)计算所有搜索结果与搜索词语的相关度,得到搜索结果集R与搜索词语的相关度向量Sim(R,Q)=(sim(r1,Q),...,sim(rn,Q))。
9.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6d)所述的计算每条搜索结果在各独立搜索引擎上的排名得分,按照如下步骤进行:
(9a)按照公式 计算搜索结果ri在各独立搜索引擎上的排名得分,
式中,k是包含ri的独立搜索引擎的个数,ni是在相应搜索引擎上的排名名次;
(9b)计算所有搜索结果在各独立搜索引擎上的排名得分,得到搜索结果集R在各独立搜索引擎上的排名得分向量WeightSE(R)=(weightSE(r1),...,weightSE(rn))。
10.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤5所述的更新用户兴趣数据库中用户的兴趣模型数据,按如下步骤进行:
(10a)捕获用户在客户端点击的搜索结果,并传回服务器端;
(10b)对该搜索结果的标题和摘要进行分词处理,得到该搜索结果的关键词集;
(10c)依据关键词集进行兴趣分析,得到该用户最新的兴趣类别及相应的权值大小;
(10d)根据最新的兴趣类别及相应的权值大小对用户兴趣数据库中的用户兴趣模型数据进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100209514A CN101477554A (zh) | 2009-01-16 | 2009-01-16 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100209514A CN101477554A (zh) | 2009-01-16 | 2009-01-16 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101477554A true CN101477554A (zh) | 2009-07-08 |
Family
ID=40838270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009100209514A Pending CN101477554A (zh) | 2009-01-16 | 2009-01-16 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101477554A (zh) |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853308A (zh) * | 2010-06-11 | 2010-10-06 | 中兴通讯股份有限公司 | 一种个性化元搜索的方法及其应用终端 |
CN102117320A (zh) * | 2011-01-11 | 2011-07-06 | 百度在线网络技术(北京)有限公司 | 一种结构化数据搜索的方法和装置 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级系统 |
CN102298629A (zh) * | 2011-08-29 | 2011-12-28 | 上海量明科技发展有限公司 | 调整网页排序的搜索结果提供方法及系统 |
CN102376057A (zh) * | 2010-08-16 | 2012-03-14 | 富士通株式会社 | 对消费者生成媒体信息进行处理的方法和装置 |
CN102385603A (zh) * | 2010-09-02 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 视频过滤方法和装置 |
CN102591876A (zh) * | 2011-01-14 | 2012-07-18 | 阿里巴巴集团控股有限公司 | 搜索结果排序方法及装置 |
CN102591977A (zh) * | 2012-01-04 | 2012-07-18 | 北京百度网讯科技有限公司 | 一种对搜索结果进行排序的方法以及系统 |
US8234275B2 (en) | 2009-03-20 | 2012-07-31 | Ad-Vantage Networks, Llc | Methods and systems for searching, selecting, and displaying content |
CN102664946A (zh) * | 2012-04-17 | 2012-09-12 | 网宿科技股份有限公司 | 通过监视用户数据搜索动作并推荐优质资源的方法和装置 |
CN102841908A (zh) * | 2011-06-21 | 2012-12-26 | 富士通株式会社 | 微博内容排序方法和微博内容排序装置 |
CN102866997A (zh) * | 2011-07-05 | 2013-01-09 | 腾讯科技(深圳)有限公司 | 用户数据的处理方法和装置 |
CN102880728A (zh) * | 2012-10-31 | 2013-01-16 | 中国科学院自动化研究所 | 名人视频搜索结果个性化排序的方法 |
CN102902800A (zh) * | 2012-10-12 | 2013-01-30 | 西安电子科技大学 | 基于Agent的智能元搜索引擎系统 |
CN103258004A (zh) * | 2013-04-12 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 一种用于对搜索结果进行处理的方法和装置 |
CN103294721A (zh) * | 2012-03-02 | 2013-09-11 | 富泰华工业(深圳)有限公司 | 具有数据推荐功能的电子装置及方法 |
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN101996200B (zh) * | 2009-08-19 | 2014-03-12 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
CN103646093A (zh) * | 2013-12-18 | 2014-03-19 | 北京博雅立方科技有限公司 | 搜索引擎数据处理方法和平台 |
CN103679373A (zh) * | 2013-04-12 | 2014-03-26 | 国家电网公司 | 生产基建标准成本体系的全链条预算数据处理系统及方法 |
CN103782285A (zh) * | 2011-09-12 | 2014-05-07 | 英特尔公司 | 对精确用户偏好数据的收集和管理 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN104142999A (zh) * | 2014-08-01 | 2014-11-12 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法及装置 |
CN104166659A (zh) * | 2013-05-20 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 一种地图数据判重的方法及系统 |
CN104361046A (zh) * | 2014-10-29 | 2015-02-18 | 中英融贯资讯(武汉)有限公司 | 用于药品采购的搜索方法及系统 |
WO2015070689A1 (en) * | 2013-11-13 | 2015-05-21 | International Business Machines Corporation | Improving search results based on an environment context |
CN104881431A (zh) * | 2015-04-23 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 一种用于在计算机设备中获得搜索结果页的方法和装置 |
CN105868360A (zh) * | 2016-03-29 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于语音识别的内容推荐方法及装置 |
CN105975508A (zh) * | 2016-04-28 | 2016-09-28 | 西安电子科技大学 | 个性化元搜索引擎检索结果合成排序方法 |
CN103593413B (zh) * | 2013-10-27 | 2016-11-09 | 西安电子科技大学 | 基于Agent的元搜索引擎个性化方法 |
CN106708887A (zh) * | 2015-11-17 | 2017-05-24 | 镇江诺尼基智能技术有限公司 | 一种意图驱动的产品搜索系统和方法 |
CN106991107A (zh) * | 2015-09-25 | 2017-07-28 | 环球娱乐株式会社 | 信息提供系统、信息提供方法及存储介质 |
CN103152288B (zh) * | 2011-11-08 | 2017-08-29 | 马维尔以色列(M.I.S.L.)有限公司 | 用于在网络上传输数据的方法和装置 |
CN107122447A (zh) * | 2017-04-25 | 2017-09-01 | 南京邮电大学 | 一种基于偏好的多数据源融合的网络搜索系统及控制方法 |
WO2017161578A1 (zh) * | 2016-03-25 | 2017-09-28 | 马岩 | 数据抓取的方法及系统 |
CN108228804A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇元科技有限公司 | 一种更新资源文件标签权重值的方法及装置 |
CN108460116A (zh) * | 2018-02-12 | 2018-08-28 | 苏州朗动网络科技有限公司 | 搜索方法、装置、计算机设备、存储介质及搜索系统 |
CN108900574A (zh) * | 2018-06-04 | 2018-11-27 | 上海市疾病预防控制中心 | 基于用户个性化需求的一站式搜索推送方法 |
US10896186B2 (en) | 2014-06-30 | 2021-01-19 | Microsoft Technology Licensing, Llc | Identifying preferable results pages from numerous results pages |
CN113053493A (zh) * | 2019-12-27 | 2021-06-29 | 无锡祥生医疗科技股份有限公司 | 数据处理平台 |
CN113505273A (zh) * | 2021-05-24 | 2021-10-15 | 平安银行股份有限公司 | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
CN115827990A (zh) * | 2023-02-10 | 2023-03-21 | 北京中电普华信息技术有限公司 | 搜索方法及装置 |
-
2009
- 2009-01-16 CN CNA2009100209514A patent/CN101477554A/zh active Pending
Cited By (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8554630B2 (en) | 2009-03-20 | 2013-10-08 | Ad-Vantage Networks, Llc | Methods and systems for processing and displaying content |
US8234275B2 (en) | 2009-03-20 | 2012-07-31 | Ad-Vantage Networks, Llc | Methods and systems for searching, selecting, and displaying content |
US8898161B2 (en) | 2009-03-20 | 2014-11-25 | Ad-Vantage Networks, Inc. | Methods and systems for searching, selecting, and displaying content |
US9996616B2 (en) | 2009-03-20 | 2018-06-12 | Mediashift Acquisition, Inc. | Methods and systems for searching, selecting, and displaying content |
US8386321B2 (en) | 2009-03-20 | 2013-02-26 | Ad-Vantage Networks, Llc | Methods and systems for searching, selecting, and displaying content |
CN101996200B (zh) * | 2009-08-19 | 2014-03-12 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级系统 |
WO2011153807A1 (zh) * | 2010-06-11 | 2011-12-15 | 中兴通讯股份有限公司 | 一种个性化元搜索的方法及其应用终端 |
CN101853308A (zh) * | 2010-06-11 | 2010-10-06 | 中兴通讯股份有限公司 | 一种个性化元搜索的方法及其应用终端 |
US8898155B2 (en) | 2010-06-11 | 2014-11-25 | Zte Corporation | Personalized meta-search method and application terminal thereof |
CN102376057A (zh) * | 2010-08-16 | 2012-03-14 | 富士通株式会社 | 对消费者生成媒体信息进行处理的方法和装置 |
CN102385603A (zh) * | 2010-09-02 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 视频过滤方法和装置 |
CN102117320A (zh) * | 2011-01-11 | 2011-07-06 | 百度在线网络技术(北京)有限公司 | 一种结构化数据搜索的方法和装置 |
CN102591876A (zh) * | 2011-01-14 | 2012-07-18 | 阿里巴巴集团控股有限公司 | 搜索结果排序方法及装置 |
CN102841908A (zh) * | 2011-06-21 | 2012-12-26 | 富士通株式会社 | 微博内容排序方法和微博内容排序装置 |
CN102866997A (zh) * | 2011-07-05 | 2013-01-09 | 腾讯科技(深圳)有限公司 | 用户数据的处理方法和装置 |
CN102866997B (zh) * | 2011-07-05 | 2017-07-21 | 深圳市世纪光速信息技术有限公司 | 用户数据的处理方法和装置 |
CN102298629B (zh) * | 2011-08-29 | 2017-06-20 | 上海量明科技发展有限公司 | 调整网页排序的搜索结果提供方法及系统 |
CN102298629A (zh) * | 2011-08-29 | 2011-12-28 | 上海量明科技发展有限公司 | 调整网页排序的搜索结果提供方法及系统 |
CN103782285B (zh) * | 2011-09-12 | 2018-03-06 | 英特尔公司 | 对精确用户偏好数据的收集和管理 |
US10095793B2 (en) | 2011-09-12 | 2018-10-09 | Intel Corporation | Collection and management of precision user preference data |
CN103782285A (zh) * | 2011-09-12 | 2014-05-07 | 英特尔公司 | 对精确用户偏好数据的收集和管理 |
CN103152288B (zh) * | 2011-11-08 | 2017-08-29 | 马维尔以色列(M.I.S.L.)有限公司 | 用于在网络上传输数据的方法和装置 |
CN102591977A (zh) * | 2012-01-04 | 2012-07-18 | 北京百度网讯科技有限公司 | 一种对搜索结果进行排序的方法以及系统 |
CN103294721A (zh) * | 2012-03-02 | 2013-09-11 | 富泰华工业(深圳)有限公司 | 具有数据推荐功能的电子装置及方法 |
CN102664946A (zh) * | 2012-04-17 | 2012-09-12 | 网宿科技股份有限公司 | 通过监视用户数据搜索动作并推荐优质资源的方法和装置 |
CN102902800B (zh) * | 2012-10-12 | 2015-06-03 | 西安电子科技大学 | 基于Agent的智能元搜索引擎系统 |
CN102902800A (zh) * | 2012-10-12 | 2013-01-30 | 西安电子科技大学 | 基于Agent的智能元搜索引擎系统 |
CN102880728B (zh) * | 2012-10-31 | 2015-10-28 | 中国科学院自动化研究所 | 名人视频搜索结果个性化排序的方法 |
CN102880728A (zh) * | 2012-10-31 | 2013-01-16 | 中国科学院自动化研究所 | 名人视频搜索结果个性化排序的方法 |
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN104035927B (zh) * | 2013-03-05 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN103679373A (zh) * | 2013-04-12 | 2014-03-26 | 国家电网公司 | 生产基建标准成本体系的全链条预算数据处理系统及方法 |
CN103258004A (zh) * | 2013-04-12 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 一种用于对搜索结果进行处理的方法和装置 |
CN104166659A (zh) * | 2013-05-20 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 一种地图数据判重的方法及系统 |
CN104166659B (zh) * | 2013-05-20 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种地图数据判重的方法及系统 |
CN103488705B (zh) * | 2013-09-06 | 2016-06-22 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
CN103593413B (zh) * | 2013-10-27 | 2016-11-09 | 西安电子科技大学 | 基于Agent的元搜索引擎个性化方法 |
US9679063B2 (en) | 2013-11-13 | 2017-06-13 | International Business Machines Corporation | Search results based on an environment context |
US9679066B2 (en) | 2013-11-13 | 2017-06-13 | International Business Machines Corporation | Search results based on an environment context |
WO2015070689A1 (en) * | 2013-11-13 | 2015-05-21 | International Business Machines Corporation | Improving search results based on an environment context |
CN103646093A (zh) * | 2013-12-18 | 2014-03-19 | 北京博雅立方科技有限公司 | 搜索引擎数据处理方法和平台 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
US10896186B2 (en) | 2014-06-30 | 2021-01-19 | Microsoft Technology Licensing, Llc | Identifying preferable results pages from numerous results pages |
CN104142999B (zh) * | 2014-08-01 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法及装置 |
CN104142999A (zh) * | 2014-08-01 | 2014-11-12 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法及装置 |
CN104361046A (zh) * | 2014-10-29 | 2015-02-18 | 中英融贯资讯(武汉)有限公司 | 用于药品采购的搜索方法及系统 |
CN104881431A (zh) * | 2015-04-23 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 一种用于在计算机设备中获得搜索结果页的方法和装置 |
CN104881431B (zh) * | 2015-04-23 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 一种用于在计算机设备中获得搜索结果页的方法和装置 |
CN106991107A (zh) * | 2015-09-25 | 2017-07-28 | 环球娱乐株式会社 | 信息提供系统、信息提供方法及存储介质 |
CN106991107B (zh) * | 2015-09-25 | 2022-01-04 | 环球娱乐株式会社 | 信息提供系统、信息提供方法及存储介质 |
CN106708887A (zh) * | 2015-11-17 | 2017-05-24 | 镇江诺尼基智能技术有限公司 | 一种意图驱动的产品搜索系统和方法 |
WO2017161578A1 (zh) * | 2016-03-25 | 2017-09-28 | 马岩 | 数据抓取的方法及系统 |
CN105868360A (zh) * | 2016-03-29 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于语音识别的内容推荐方法及装置 |
CN105975508B (zh) * | 2016-04-28 | 2019-02-15 | 西安电子科技大学 | 个性化元搜索引擎检索结果合成排序方法 |
CN105975508A (zh) * | 2016-04-28 | 2016-09-28 | 西安电子科技大学 | 个性化元搜索引擎检索结果合成排序方法 |
CN107122447A (zh) * | 2017-04-25 | 2017-09-01 | 南京邮电大学 | 一种基于偏好的多数据源融合的网络搜索系统及控制方法 |
CN108228804A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇元科技有限公司 | 一种更新资源文件标签权重值的方法及装置 |
CN108228804B (zh) * | 2017-12-29 | 2020-12-11 | 北京奇元科技有限公司 | 一种更新资源文件标签权重值的方法及装置 |
CN108460116A (zh) * | 2018-02-12 | 2018-08-28 | 苏州朗动网络科技有限公司 | 搜索方法、装置、计算机设备、存储介质及搜索系统 |
CN108900574A (zh) * | 2018-06-04 | 2018-11-27 | 上海市疾病预防控制中心 | 基于用户个性化需求的一站式搜索推送方法 |
CN113053493A (zh) * | 2019-12-27 | 2021-06-29 | 无锡祥生医疗科技股份有限公司 | 数据处理平台 |
CN113053493B (zh) * | 2019-12-27 | 2024-05-14 | 无锡祥生医疗科技股份有限公司 | 数据处理平台 |
CN113505273A (zh) * | 2021-05-24 | 2021-10-15 | 平安银行股份有限公司 | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
CN113505273B (zh) * | 2021-05-24 | 2023-08-22 | 平安银行股份有限公司 | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
CN115827990A (zh) * | 2023-02-10 | 2023-03-21 | 北京中电普华信息技术有限公司 | 搜索方法及装置 |
CN115827990B (zh) * | 2023-02-10 | 2023-11-21 | 北京中电普华信息技术有限公司 | 搜索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101477554A (zh) | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 | |
CN101320375B (zh) | 基于用户点击行为的数字图书搜索方法 | |
CN1858733B (zh) | 信息检索系统和检索方法 | |
CN100507920C (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN100520778C (zh) | 一种互联网主题文件搜索方法、爬虫系统和搜索引擎 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
CN101814083A (zh) | 网页自动分类方法和系统 | |
CN110543595B (zh) | 一种站内搜索系统及方法 | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN102855282B (zh) | 一种文档推荐方法及装置 | |
CN101770521A (zh) | 一种用于垂直搜索引擎的聚焦相关度排序方法 | |
CN103942268B (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
CN110222260A (zh) | 一种搜索方法、装置及存储介质 | |
CN102651011A (zh) | 一种确定文档特征和用户特征的方法和系统 | |
CN104572733A (zh) | 用户兴趣标签分类的方法及装置 | |
CN102609539A (zh) | 一种搜索方法和系统 | |
KR20000063422A (ko) | 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090708 |