CN100541495C - 一种个性化搜索引擎的搜索方法 - Google Patents

一种个性化搜索引擎的搜索方法 Download PDF

Info

Publication number
CN100541495C
CN100541495C CNB2007100726085A CN200710072608A CN100541495C CN 100541495 C CN100541495 C CN 100541495C CN B2007100726085 A CNB2007100726085 A CN B2007100726085A CN 200710072608 A CN200710072608 A CN 200710072608A CN 100541495 C CN100541495 C CN 100541495C
Authority
CN
China
Prior art keywords
cookie
user
website
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100726085A
Other languages
English (en)
Other versions
CN101127043A (zh
Inventor
张健沛
杨静
徐泼
初研
张泽宝
李泓波
徐磊
李连江
董喜双
吴寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CNB2007100726085A priority Critical patent/CN100541495C/zh
Publication of CN101127043A publication Critical patent/CN101127043A/zh
Application granted granted Critical
Publication of CN100541495C publication Critical patent/CN100541495C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是一种个性化搜索引擎的搜索方法。本搜索方法由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。本发明的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索。通过客户端的存储与服务器端的用户行为跟踪引擎的结合,本发明给出了针对用户不同需求,符合用户兴趣的个性化搜索引擎的解决方案。

Description

一种个性化搜索引擎的搜索方法
(一)技术领域
本发明涉及的是一种网络技术,尤其是搜索引擎技术。
(二)背景技术
如今的因特网对多数人已不再陌生,网络搜索引擎成了人们获取信息的一个重要途径,人们在希望搜索引擎能够提供全面的信息资源的同时,也对搜索引擎的服务提出了更高的要求,这是搜索引擎设计的一种挑战,也是未来搜索引擎的发展趋势。
纵观目前因特网上流行的搜索引擎,普遍是基于关键字的查询,用户的每次搜索都是相互独立的,不能根据用户的兴趣给出适应用户需求的查询结果。而如今社会分工的细化与个人兴趣的不同,决定了不同领域的用户,不同社会群体对信息需求的不同。于是现在的搜索引擎应该能够根据用户的不同需求来对查询结果进行排序,也就是针对不同用户的个性化定制,使搜索结果根据用户需求收敛,使搜索引擎趋向于反映用户的偏好。
为了适应这种需求,人们提出了个性化的搜索引擎的设计思想,通过增加用户行为数据库来跟踪用户的兴趣或需求。但是,这需要在服务器端建立庞大的用户信息库与用户行为库,同时要定期对这些数据进行维护,在如今面向因特网的搜索来说,这种在服务器端的巨大开销限制了这种方法的可行性,此外通过用户登录搜索的方式,对于公共搜索引擎的用户来说,也不是一种方便的信息查询方式。
专利申请号为200510050198.5,名称为“基于链接分析的个性化搜索引擎方法”中公开的技术方案,是通过建立知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。
(三)发明内容
本发明的目的在于提供一种在搜索引擎的服务器端不需要增加存储开销,符合用户兴趣的个性化搜索引擎的一种个性化搜索引擎的搜索方法。
本发明的目的是这样实现的:
本发明的搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。
本发明的搜索引擎的搜索方法为:其搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,
(1)信息抓取模块从配置了需要抓取的URL的Web库中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时更新Web库内容;
(2)信息检索模块获取用户的查询请求,提取用户客户端的兴趣记录,信息检索模块将用户客户端的兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器、查询分析器;索引器、查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后查询结果通过信息检索模块返回给用户;
所述的用户客户端的兴趣记录采用cookie形式存储在用户的客户机中,其中M为搜索引擎为每个用户保存兴趣关键字cookie项的上限值,N为搜索引擎为每个用户的一关键字存储历史访问记录的上限值;
搜索引擎为用户创建M个cookie,0<M<10,在cookie个数未超过上限且用户每搜索一个关键字并点击“兴趣访问”链接时,将增加一条cookie记录,cookie由cookie名和cookie值组成,cookie名预置成“key01,key02,…,keyM”,每条cookie值的记录格式如下:标题“用户关键字##网站1标题||网站1网址||网站1快照||网站1摘要$$网站2标题||网站2网址||网站2快照||网站2摘要$$......$$网站N标题||网站N网址||网站N快照||网站N摘要”,0<N<6,
另外cookie的名和值不能包含空格和[ ]( )=,″/?@:;字符;
用户客户端的兴趣记录存储算法如下:
1)接收interestWeb对象,该对象包括如下属性:搜索关键字Key,用于记录用户搜索的关键字;网站标题Title,用于记录用户访问的网站标题;网站网址url,用于记录用户访问的网站网址;网站快照cachedUrl,用于记录用户所访问的网站在搜索列表中对应的网页快照地址;网站摘要Summary,用于记录用户所访问的网站的摘要;
2)取出上述interestWeb对象中的已经过UTF-8编码的各属性:搜索关键字、网站标题、网站网址、网站快照和网站摘要;
3)根据关键字key,设置计数器i,在i小于M的情况下遍历cookie中的cookie项,查找cookie中##前的字符串StrOldPre与关键字key匹配的cookie项,若找到匹配的项则退出循环,根据计数器最终的结果i,若i小于M说明找到匹配则转4),否则转9);
4)得到cookie名“key”+i;
5)拼接待存储串StrNew,title+“||”+url+“||”+cachedUrl+“||”+summary;
6)取出cookie项中##后的字符串StrOldSuc,再将该字符串分隔成字符数组,判断数组长度是否超过N,若数组长度不超过N则转7),否则转8);
7)修改新cookie项为:原cookie串##前字符串StrOldPre+“##”+待存储串StrNew+“$$”+原cookie串##后字符串StrOldSuc,将新串存入cookie,替换原cookie项,转13);
8)去除原cookie串最后一个“$$”符后面的字符串,连同“$$”符得到字符串StrOldSucTemp;修改新cookie项为:原cookie串##前符串+“##”+待存储串+“$$”+StrOldSucTemp,将新串存入cookie,替换原cookie项,转13);
9)根据i生成cookie名“key”+(i+1);
10)拼接待存储串StrNew,key+“##”+title+“||”+url+“||”+cachedUrl+“||”+summary;
11)设置cookie项目生命周期;
12)将新cookie项存入cookie中;
13)结束。
本发明的搜索方法还可以包括:
1.所述的用户兴趣记录的获取方法为:搜索引擎记录用户的点击搜索结果的行为,对于只点搜索表单按钮而未访问搜索结果的行为不予记录,用户可以通过点击搜索结果中的访问并记录我的兴趣链接来访问搜索结果列表中感兴趣的网站,并让搜索引擎存储访问记录。
2.所述的用户兴趣记录采用cookie形式存储在用户的客户机中。
3.所述的用户个性分析模块生成用户特征向量是将用户兴趣记录抽象成一个向量,同时根据用户兴趣记录与信息源文本集、即抓取模块所维护的信息库的相似性特征。
4.所述的用户个性分析模块生成用户特征向量还包括进一步抽象成基于关键字权重的向量。
本发明基于现今个性搜索的不足,提出了一种轻量级的个性化搜索引擎的设计思想与实现方法。所谓轻量级是指在搜索引擎的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索。通过客户端的存储与服务器端的用户行为跟踪引擎的结合,本发明给出了针对用户不同需求,符合用户兴趣的个性化搜索引擎的解决方案。
整个系统由“信息抓取模块”,“信息检索模块”和“用户个性分析模块”三部分。其中“信息抓取模块”由“抓取程序”和“索引程序”组成;“信息检索模块”与“用户个性分析模块”结合提供个性化检索服务。整体结构图如图1所示,可以看出虚线左侧负责搜索引擎数据的抓取,虚线右侧负责搜索引擎的搜索。
本发明的主要特点体现在:
(1)搜索引擎的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索;
(2)根据用户的不同需求来对查询结果进行排序,也就是针对不同用户的个性化定制;
(3)基于向量空间的个性化检索模型。
(四)附图说明
附图是本发明的框图。
(五)具体实施方式
本发明的搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。结合图1,虚线左侧负责搜索引擎数据的抓取,虚线右侧负责搜索引擎的搜索。
(1)信息抓取模块从Web库(配置了需要抓取的URL)中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时根据需要更新Web库内容。
(2)信息检索模块是用户与搜索引擎的一个接口,它可以获取用户的查询请求,提取用户客户端的兴趣记录,同时可以把查询结果返回给用户。信息检索模块将用户兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器;索引器/查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后通过信息检索模块(搜索接口)返回给用户。
1.用户兴趣记录的获取
用户搜索关键字和点击的搜索结果链接网址在一定程度上能反映出用户的访问偏好,相比之下,搜索结果网址链接比搜索关键字更能体现用户实际的兴趣,因为用户可能尝试性地输入某关键字后发现无感兴趣的内容时,往往不会去点击搜索结果中的链接。同时对于是否获取用户访问记录也涉及到用户隐私问题,需要由用户自由决定是否让搜索引擎记录用户兴趣。
搜索引擎记录用户的点击搜索结果事性的行为(连同搜索的关键字),对于只点搜索表单按钮而未访问搜索结果的行为不予记录,因为后者相对于前者来说意思不是太大。关于用户隐私与自主性,用户可以通过点击搜索结果中的“访问并记录我的兴趣”链接来访问搜索结果列表中感兴趣的网站,并让搜索引擎存储访问记录。
2.用户兴趣记录的存储
搜索引擎需要根据用户的兴趣来返回搜索结果,但是在服务器端的搜索引擎如何获取这些用户兴趣是一个需要解决的问题,同时在获取这些用户兴趣记录的同时还要保证尽量小的额外开销。
记录用户兴趣的方式一般方法是在搜索引擎服务器端建立用户注册信息表,为每一个搜索的用户维护用户注册信息,同时记录每个用户的访问行为。但是这有两个缺点,一是在服务器端需要额外的庞大的存储开销,二是每次用户访问时都要更新用户行为表中的记录,就算采用session延迟写入数据库的方式来记录用户访问行为,也会因为服务器端需要创建大量的session会话而消耗服务器内存资源,对于面向全网的搜索引擎来说,其开销更是不可想象。
轻量级个性化搜索引擎用户兴趣记录采用cookie形式存储在用户的客户机中。Cookie是服务器发送给浏览器的体积很小的纯文本信息,用户以后访问同一个Web服务器时浏览器会把它们原样发送给服务器。通过让服务器读取它原先保存到客户端的信息,网站能够为浏览者提供一系列的方便。同时,由于浏览器一般只允许存放300个Cookie,每个站点最多存放20个Cookie,每个Cookie的大小限制为4KB,因此Cookie不会占用搜索引擎用户的客户机太多资源,更不会被用作“拒绝服务”攻击手段,也避免了一些采用登录搜索方式中维护大量用户注册信息与行为信息的开销。另外还可以利用cookie的存储来实现用户的访问历史搜索记录。
3.基于向量空间的个性化检索模型
在获取用户兴趣记录并在用户客户机存储用户访问行为之后,如何根据用户兴趣记录来对搜索结果重新排序,并返回针对用户偏好的不同的搜索结果是搜索引擎需要解决的另一个重要问题。这需要在算法上实现个性化查询,个性化查询应该在普通查询的基础上,根据用户兴趣记录来对普通查询结果进行过滤和非序,使查询结果趋向于反映用户的个人需要。
普通搜索引擎的查询遵循了向量空间模型,“抓取模块”所得到的信息源页面是以基于关键字权值的向量的形式存在于索引库中,搜索关键字与信息源页面存在一种相关性。考虑到用户兴趣记录中的搜索关键字和访问网站信息与普通搜索时的关键字之间的相似性,本方法可以基于此引入用户特征向量的概念,将用户兴趣记录抽象成一个向量,同时根据用户兴趣记录与信息源文本集(抓取模块所维护的信息库)的相似性特征,用户模型也可以进一步抽象成基于关键字权重的向量。
下面是本发明的一个具体实例:
1用户兴趣的获取
用户的行为可以通过其访问的网站信息来反映,所以可以将在一定时期内一定数量的网站信息来作为记录用户兴趣的模型InterestWeb。模型的各属性如下:
  属性名   ID   取值说明
  搜索关键字   key   记录用户搜索的关键字
  网站标题   title   记录用户访问的网站标题
  网站网址   url   记录用户访问的网站网址
  网站快照   cachedUrl   记录用户所访问的网站在搜索列表中对应的网页快照地址
  网站摘要   summary   记录用户所访问的网站的摘要
用户输入关键字搜索后,在搜索结果列表中,若点击“访问并记住我的兴趣”链接后,系统将首先调用搜索引擎的用户兴趣记录获取程序,将用户所点击列表项对应的网站的标题、网址、快照地址和摘要组装成interestWeb对象同时传递给用户兴趣记录存储程序,并利用如下2的方案来实现用户兴趣记录的存储。注意,如果用户输入关键字搜索后,未点“访问并记住我的兴趣”链接,系统将不会在用户客户机上记录访问信息,同时在下次搜索时也不会为该访问记录重新排序。这也在一定程度上体现了个性化搜索引擎的用户自主性。
2用户兴趣记录的存储
搜索引擎可以为用户创建M(0<M<10)个cookie。在cookie个数未超过上限时,用户每搜索一个关键字并点击“兴趣访问”链接时,cookie将增加一条cookie记录,cookie由cookie名和cookie值组成,cookie名预置成“key01,key02,…,keyM”,每条cookie值的记录格式如下:标题
“用户关键字##网站1标题||网站1网址||网站1快照||网站1摘要$$网站2标题||网站2网址||网站2快照||网站2摘要$$......$$网站N标题||网站N网址||网站N快照||网站N摘要”(0<N<6)
字符编码采用UTF-8格式,另外cookie的名和值不能包含cookie的名字和值不能包含空格和[ ]( )=,″/?@:;字符,所以在原字符串转换成UTF-8存储之前需要进行字符串转换,如titleStr=Replace(titleStr,″&equal″,″=″)将字符串的:“=”转换成&equal,字符串的替换由自定义方法toCookieStr(String)来实现。
存储算法如下:(其中M为搜索引擎为每个用户保存兴趣关键字cookie项的上限值,N为搜索引擎为每个用户某关键字存储历史访问记录的上限值)
1)接收interestWeb对象;
2)取出对象中的已经过UTF-8编码的各属性:关键字(key)、网站标题(title)、网址(url)快照地址(cachedUrl)和摘要(summary);并将各字符串通过toCookieStr(String)方法转换成适应cookie存储的格式;
3)根据关键字key,设置计数器i,在i小于M的情况下遍历cookie中的cookie项,查找cookie中##前的字符串StrOldPre与关键字key匹配的cookie项,若找到匹配的项则退出循环。根据计数器最终的结果i,若i小于M说明找到匹配转4),否则转9);
4)得到cookie名”key”+i;
5)拼接待存储串StrNew,title+”||”+url+”||”+cachedUrl+”||”+summary;
6)取出cookie项中##后的字符串StrOldSuc,再将该字符串分隔成字符数组,判断数组长度是否超过N,若数组长度不超过N则转7),否则转8);
7)修改新cookie项为:原cookie串##前字符串StrOldPre+”##”+待存储串StrNew+”$$”+原cookie串##后字符串StrOldSuc,将新串存入cookie,替换原cookie项,转13);
8)去除原串最后一个“$$”符后面的字符串(连同“$$”符)得到字符串StrOldSucTemp;修改新cookie项为:原cookie串##前符串+”##”+待存储串+”$$”+StrOldSucTemp,将新串存入cookie,替换原cookie项,转13);
9)根据i生成cookie名“key”+(i+1);
10)拼接待存储串StrNew,key+”##”+title+”||”+url+”||”+cachedUrl+”||”+summary;
11)设置cookie项目生命周期;
12)将新cookie项存入cookie中;
13)结束。
3基于向量空间的个性化检索模型
1)在用户提交搜索时,搜索引擎将同时获取用户搜索关键字和用户兴趣记录,如果未能获取用户兴趣记录或用户兴趣记录为空,则搜索引擎进行普通查询并返回结果。如果获取了用户兴趣记录,则搜索引擎将用户兴趣交由“用户个性分析模块”处理,处理过程算法如下:
2)搜索引擎读取cookie,将每一个cookie项中用“$$”分隔的字符串转换成interestWeb对象,将key01-keyM的所有cookie项转换成用户兴趣访问列表interestWebList;
3)遍历interestWebList,抽取各关键字,存入用户兴趣关键字向量interestKeyVector;
4)抽取各网站标题interestWeb.getTitle(),对网站标题进行分词处理,得到多个次关键字,将这些次关键字附加到用户兴趣关键字向量interestKeyVector中;
5)建立用户兴趣关键字权值向量interestWeightVector,目前认定这些用户兴趣关键字权值是相同的,将interestWeightVector中各值初始化成1。
其中,分词也是搜索引擎需要解决的重要问题,中文分词不同于英文分词,因为英文单词之间的空格足以区分不同的查询关键字,而中文固有的特征决定了需要采取更有效的方式来实现分词。一般的分词方式有三种:
1)单字切分:中文搜索词一个一个单字分开来。这种方式的优点是分词算法简单,最大的缺点是会极大增加索引,相应地,索引条目的内容也会增多,严重影响搜索效率。
2)二分法:对中文搜索词中每两个字进行次切分,比如,对搜索词“计算机学院”进行二分法切分后得到的关键字将会是“计算/算机/机学/学院”。这种分词方式只是机械地对搜索词进行切分,不考虑词义与词法,所以会产生大量的无用关键字,同时增加了无用的索引开销。
3)词库分词:这是目前最理想的中文分词方式,方式是根据已经建立好的词的集合,即词库来匹配搜索词的子串。比如,词库中已经存在“计算机”、“学院”和“计算机学院”三个词,则“计算机学院”便可以切分成这三个关键字。
假设搜索引擎中“抓取模块”获取的索引库中,每个URL包含的关键字身量为
K=(k1,k2,...,kn)  其中k1,k2,...,kn该URL中的关键字每个关键字的权值向量为
V=(v1,v2,...,vn)  其中v1,v2,...,vn是每个关键字对应的权值用户兴趣模型中用户特征向量为
U=(u1,u2,...,un)  其中u1,u2,...,un是用户兴趣关键字(包括分词后的次关键字),用户兴趣模型中每个关键字的权值都设置为默认值1。
接下去的任务是建立用户兴趣模型与信息源文本集之间的相关性,相关性的算法如下:
1)搜索引擎通过普通查询得到初始查询结果;
2)对于1)中查询结果中给出的各URL,筛选符合条件
Figure C20071007260800131
的URL,其中
Figure C20071007260800132
为空集,若不存在这些URL转5),否则转3);
3)为满足条件的URL计算与用户兴趣模型之间的相关性S=∑Yi(1≤i≤n),其中Yi的计算方法为:
若ui∈K,且ui=kj则Yi=vj,否则Yi=0
4)排除相关性为零的页面,按相关性S从大到小对搜索结果进行排序,最后将结果返回给用户,转6);
5)将普通查询结果返回给用户;
6)结束。

Claims (1)

1、一种个性化搜索引擎的搜索方法,其搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其特征是:
(1)信息抓取模块从配置了需要抓取的URL的Web库中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时更新Web库内容;
(2)信息检索模块获取用户的查询请求,提取用户客户端的兴趣记录,信息检索模块将用户客户端的兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器、查询分析器;索引器、查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后查询结果通过信息检索模块返回给用户;
所述的用户客户端的兴趣记录采用cookie形式存储在用户的客户机中,其中M为搜索引擎为每个用户保存兴趣关键字cookie项的上限值,N为搜索引擎为每个用户的一关键字存储历史访问记录的上限值;
搜索引擎为用户创建M个cookie,0<M<10,在cookie个数未超过上限且用户每搜索一个关键字并点击“兴趣访问”链接时,将增加一条cookie记录,cookie由cookie名和cookie值组成,cookie名预置成“key01,key02,…,keyM”,每条cookie值的记录格式如下:标题“用户关键字##网站1标题||网站1网址||网站1快照||网站1摘要$$网站2标题||网站2网址|网站2快照||网站2摘要$$......$$网站N标题||网站N网址|网站N快照||网站N摘要”,0<N<6,
另外cookie的名和值不能包含空格和[]()=,″/?@:;字符;
用户客户端的兴趣记录存储算法如下:
1)接收interestWeb对象,该对象包括如下属性:搜索关键字Key,用于记录用户搜索的关键字;网站标题Title,用于记录用户访问的网站标题;网站网址url,用于记录用户访问的网站网址;网站快照cachedUrl,用于记录用户所访问的网站在搜索列表中对应的网页快照地址;网站摘要Summary,用于记录用户所访问的网站的摘要;
2)取出上述interestWeb对象中的已经过UTF-8编码的各属性:搜索关键字、网站标题、网站网址、网站快照和网站摘要;
3)根据关键字key,设置计数器i,在i小于M的情况下遍历cookie中的cookie项,查找cookie中##前的字符串StrOldPre与关键字key匹配的cookie项,若找到匹配的项则退出循环,根据计数器最终的结果i,若i小于M说明找到匹配则转4),否则转9);
4)得到cookie名“key”+i;
5)拼接待存储串StrNew,title+“||”+url+“||”+cachedUrl+“||”+summary;
6)取出cookie项中##后的字符串StrOldSuc,再将该字符串分隔成字符数组,判断数组长度是否超过N,若数组长度不超过N则转7),否则转8);
7)修改新cookie项为:原cookie串##前字符串StrOldPre+“##”+待存储串StrNew+“$$”+原cookie串##后字符串StrOldSuc,将新串存入cookie,替换原cookie项,转13);
8)去除原cookie串最后一个“$$”符后面的字符串,连同“$$”符得到字符串StrOldSucTemp;修改新cookie项为:原cookie串##前符串+“##”+待存储串+“$$”+StrOldSucTemp,将新串存入cookie,替换原cookie项,转13);
9)根据i生成cookie名“key”+(i+1);
10)拼接待存储串StrNew,key+“##”+title+“||”+url+“||”+cachedUrl+“||”+summary;
11)设置cookie项目生命周期;
12)将新cookie项存入cookie中;
13)结束。
CNB2007100726085A 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法 Expired - Fee Related CN100541495C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100726085A CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100726085A CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Publications (2)

Publication Number Publication Date
CN101127043A CN101127043A (zh) 2008-02-20
CN100541495C true CN100541495C (zh) 2009-09-16

Family

ID=39095075

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100726085A Expired - Fee Related CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Country Status (1)

Country Link
CN (1) CN100541495C (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661490B (zh) * 2008-08-28 2013-01-02 国际商业机器公司 搜索引擎、其客户端及搜索网页的方法
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
CN101819576A (zh) * 2009-12-22 2010-09-01 无锡语意电子政务软件科技有限公司 一种用户可编程的搜索系统及方法
CN101957847B (zh) * 2010-09-21 2011-11-23 百度在线网络技术(北京)有限公司 一种搜索系统及其实现方法
CN102117320B (zh) * 2011-01-11 2012-07-25 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102890689B (zh) * 2011-07-22 2017-06-06 北京百度网讯科技有限公司 一种用户兴趣模型的建立方法及系统
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN102629257B (zh) * 2012-02-29 2014-02-19 南京大学 一种基于关键字的电子商务网站商品推荐方法
CN102779193B (zh) * 2012-07-16 2015-05-13 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN102831199B (zh) * 2012-08-07 2015-07-08 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN102968465B (zh) * 2012-11-09 2015-07-29 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN103970780B (zh) * 2013-01-30 2017-02-08 鸿富锦精密工业(深圳)有限公司 多媒体装置及其索引管理方法
CN104063383B (zh) * 2013-03-19 2019-09-27 北京三星通信技术研究有限公司 信息推荐方法及装置
CN103617241B (zh) * 2013-11-26 2017-06-06 北京奇虎科技有限公司 搜索信息处理方法、浏览器终端与服务器
CN104199849A (zh) * 2014-08-08 2014-12-10 亿赞普(北京)科技有限公司 一种广告投放的方法和装置
CN104484367A (zh) * 2014-12-05 2015-04-01 广州招商速建互联网信息科技有限公司 一种数据挖掘分析系统
CN105574113B (zh) * 2015-12-14 2019-01-29 山东金佳园科技股份有限公司 一种大数据环境下的数据管理方法
US10250634B2 (en) * 2016-11-11 2019-04-02 Juniper Networks, Inc Apparatus, system, and method for protecting against denial of service attacks using one-time cookies
CN108153775A (zh) * 2016-12-05 2018-06-12 北大方正集团有限公司 元搜索引擎高频访问单个网站的方法及元搜索引擎
CN107516163A (zh) * 2017-08-10 2017-12-26 安徽牧心文化服务有限公司 基于读者个性化的云图书馆信息服务系统
CN107766450A (zh) * 2017-09-26 2018-03-06 甘肃万维信息技术有限责任公司 需求推荐的方法及服务器
CN109635203B (zh) * 2018-12-19 2020-12-25 北京达佳互联信息技术有限公司 网页抓取请求处理方法、装置、服务器及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一个个性化的Web信息采集模型. 吴丽辉,王斌,张刚.计算机工程,第31卷第22期. 2005
一个个性化的Web信息采集模型. 吴丽辉,王斌,张刚.计算机工程,第31卷第22期. 2005 *
搜索引擎系统中个性化机制的研究. 袁薇,高淼.微电子学与计算机,第23卷第2期. 2006
搜索引擎系统中个性化机制的研究. 袁薇,高淼.微电子学与计算机,第23卷第2期. 2006 *

Also Published As

Publication number Publication date
CN101127043A (zh) 2008-02-20

Similar Documents

Publication Publication Date Title
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
Cambazoglu et al. Scalability challenges in web search engines
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN100442290C (zh) 访问标识索引系统及访问标识索引库生成方法
US20170060856A1 (en) Efficient search and analysis based on a range index
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
WO2007134130A2 (en) Systems and methods for generating statistics from search engine query logs
CN101911042A (zh) 用户的浏览器历史的相关性排序
CN102236867A (zh) 基于云计算的受众行为分析广告定向系统
Puppin et al. Tuning the capacity of search engines: Load-driven routing and incremental caching to reduce and balance the load
CN113297457B (zh) 一种高精准性的信息资源智能推送系统及推送方法
Zhao et al. Topic-centric and semantic-aware retrieval system for internet of things
Doddegowda et al. Extraction of behavioral patterns from pre-processed web usage data for web personalization
Chen et al. COWES: Web user clustering based on evolutionary web sessions
CN103631779A (zh) 一种基于社交化词典的单词推荐系统
CN112104714A (zh) 一种基于用户互动元素权重精准推送方法
Supriyadi et al. Website content analysis using clickstream data and apriori algorithm
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.
Jiang et al. A personalized search engine model based on RSS User's interest
KR20210037488A (ko) 빅데이터 분석 기반 광고 마케팅 시스템
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
Jin et al. Indexing temporal information for web pages
Chen et al. Cowes: Clustering web users based on historical web sessions
Irfan et al. Ranking web pages using cosine similarity measure

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090916

Termination date: 20120803