CN101127043A - 一种轻量级个性化搜索引擎及其搜索方法 - Google Patents

一种轻量级个性化搜索引擎及其搜索方法 Download PDF

Info

Publication number
CN101127043A
CN101127043A CNA2007100726085A CN200710072608A CN101127043A CN 101127043 A CN101127043 A CN 101127043A CN A2007100726085 A CNA2007100726085 A CN A2007100726085A CN 200710072608 A CN200710072608 A CN 200710072608A CN 101127043 A CN101127043 A CN 101127043A
Authority
CN
China
Prior art keywords
user
information
module
search engine
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100726085A
Other languages
English (en)
Other versions
CN100541495C (zh
Inventor
张健沛
杨静
徐泼
初研
张泽宝
李泓波
徐磊
李连江
董喜双
吴寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CNB2007100726085A priority Critical patent/CN100541495C/zh
Publication of CN101127043A publication Critical patent/CN101127043A/zh
Application granted granted Critical
Publication of CN100541495C publication Critical patent/CN100541495C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供的是一种轻量级个性化搜索引擎及其搜索方法。由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。本发明的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索。通过客户端的存储与服务器端的用户行为跟踪引擎的结合,本发明给出了针对用户不同需求,符合用户兴趣的个性化搜索引擎的解决方案。

Description

一种轻量级个性化搜索引擎及其搜索方法
(一)技术领域
本发明涉及的是一种网络技术,尤其是搜索引擎技术。
(二)背景技术
如今的因特网对多数人已不再陌生,网络搜索引擎成了人们获取信息的一个重要途径,人们在希望搜索引擎能够提供全面的信息资源的同时,也对搜索引擎的服务提出了更高的要求,这是搜索引擎设计的一种挑战,也是未来搜索引擎的发展趋势。
纵观目前因特网上流行的搜索引擎,普遍是基于关键字的查询,用户的每次搜索都是相互独立的,不能根据用户的兴趣给出适应用户需求的查询结果。而如今社会分工的细化与个人兴趣的不同,决定了不同领域的用户,不同社会群体对信息需求的不同。于是现在的搜索引擎应该能够根据用户的不同需求来对查询结果进行排序,也就是针对不同用户的个性化定制,使搜索结果根据用户需求收敛,使搜索引擎趋向于反映用户的偏好。
为了适应这种需求,人们提出了个性化的搜索引擎的设计思想,通过增加用户行为数据库来跟踪用户的兴趣或需求。但是,这需要在服务器端建立庞大的用户信息库与用户行为库,同时要定期对这些数据进行维护,在如今面向因特网的搜索来说,这种在服务器端的巨大开销限制了这种方法的可行性,此外通过用户登录搜索的方式,对于公共搜索引擎的用户来说,也不是一种方便的信息查询方式。
专利申请号为200510050198.5,名称为“基于链接分析的个性化搜索引擎方法”中公开的技术方案,是通过建立知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。
(三)发明内容
本发明的目的在于提供一种在搜索引擎的服务器端不需要增加存储开销,符合用户兴趣的个性化搜索引擎的一种轻量级个性化搜索引擎及其搜索方法。
本发明的目的是这样实现的:
本发明的搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。
本发明的搜索引擎的搜索方法为:
(1)信息抓取模块从配置了需要抓取的URL的Web库中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时根据需要更新Web库内容;
(2)信息检索模块获取用户的查询请求,提取用户客户端的兴趣记录,同时把查询结果返回给用户,信息检索模块将用户兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器/查询分析器;索引器/查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后通过信息检索模块返回给用户。
本发明的搜索方法还可以包括:
1.所述的用户兴趣记录的获取方法为:搜索引擎记录用户的点击搜索结果的行为,对于只点搜索表单按钮而未访问搜索结果的行为不予记录,用户可以通过点击搜索结果中的访问并记录我的兴趣链接来访问搜索结果列表中感兴趣的网站,并让搜索引擎存储访问记录。
2.所述的用户兴趣记录采用cookie形式存储在用户的客户机中。
3.所述的用户个性分析模块生成用户特征向量是将用户兴趣记录抽象成一个向量,同时根据用户兴趣记录与信息源文本集、即抓取模块所维护的信息库的相似性特征。
4.所述的用户个性分析模块生成用户特征向量还包括进一步抽象成基于关键字权重的向量。
本发明基于现今个性搜索的不足,提出了一种轻量级的个性化搜索引擎的设计思想与实现方法。所谓轻量级是指在搜索引擎的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索。通过客户端的存储与服务器端的用户行为跟踪引擎的结合,本发明给出了针对用户不同需求,符合用户兴趣的个性化搜索引擎的解决方案。
整个系统由“信息抓取模块”,“信息检索模块”和“用户个性分析模块”三部分。其中“信息抓取模块”由“抓取程序”和“索引程序”组成;“信息检索模块”与“用户个性分析模块”结合提供个性化检索服务。整体结构图如图1所示,可以看出虚线左侧负责搜索引擎数据的抓取,虚线右侧负责搜索引擎的搜索。
本发明的主要特点体现在:
(1)搜索引擎的服务器端不需要增加存储开销,充分利用客户端的资源来实现个性化的搜索;
(2)根据用户的不同需求来对查询结果进行排序,也就是针对不同用户的个性化定制;
(3)基于向量空间的个性化检索模型。
(四)附图说明
附图是本发明的框图。
(五)具体实施方式
本发明的搜索引擎由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。结合图1,虚线左侧负责搜索引擎数据的抓取,虚线右侧负责搜索引擎的搜索。
(1)信息抓取模块从Web库(配置了需要抓取的URL)中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时根据需要更新Web库内容。
(2)信息检索模块是用户与搜索引擎的一个接口,它可以获取用户的查询请求,提取用户客户端的兴趣记录,同时可以把查询结果返回给用户。信息检索模块将用户兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器;索引器/查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后通过信息检索模块(搜索接口)返回给用户。
1.用户兴趣记录的获取
用户搜索关键字和点击的搜索结果链接网址在一定程度上能反映出用户的访问偏好,相比之下,搜索结果网址链接比搜索关键字更能体现用户实际的兴趣,因为用户可能尝试性地输入某关键字后发现无感兴趣的内容时,往往不会去点击搜索结果中的链接。同时对于是否获取用户访问记录也涉及到用户隐私问题,需要由用户自由决定是否让搜索引擎记录用户兴趣。
搜索引擎记录用户的点击搜索结果事性的行为(连同搜索的关键字),对于只点搜索表单按钮而未访问搜索结果的行为不予记录,因为后者相对于前者来说意思不是太大。关于用户隐私与自主性,用户可以通过点击搜索结果中的“访问并记录我的兴趣”链接来访问搜索结果列表中感兴趣的网站,并让搜索引擎存储访问记录。
2.用户兴趣记录的存储
搜索引擎需要根据用户的兴趣来返回搜索结果,但是在服务器端的搜索引擎如何获取这些用户兴趣是一个需要解决的问题,同时在获取这些用户兴趣记录的同时还要保证尽量小的额外开销。
记录用户兴趣的方式一般方法是在搜索引擎服务器端建立用户注册信息表,为每一个搜索的用户维护用户注册信息,同时记录每个用户的访问行为。但是这有两个缺点,一是在服务器端需要额外的庞大的存储开销,二是每次用户访问时都要更新用户行为表中的记录,就算采用session延迟写入数据库的方式来记录用户访问行为,也会因为服务器端需要创建大量的session会话而消耗服务器内存资源,对于面向全网的搜索引擎来说,其开销更是不可想象。
轻量级个性化搜索引擎用户兴趣记录采用cookie形式存储在用户的客户机中。Cookie是服务器发送给浏览器的体积很小的纯文本信息,用户以后访问同一个Web服务器时浏览器会把它们原样发送给服务器。通过让服务器读取它原先保存到客户端的信息,网站能够为浏览者提供一系列的方便。同时,由于浏览器一般只允许存放300个Cookie,每个站点最多存放20个Cookie,每个Cookie的大小限制为4KB,因此Cookie不会占用搜索引擎用户的客户机太多资源,更不会被用作“拒绝服务”攻击手段,也避免了一些采用登录搜索方式中维护大量用户注册信息与行为信息的开销。另外还可以利用cookie的存储来实现用户的访问历史搜索记录。
3.基于向量空间的个性化检索模型
在获取用户兴趣记录并在用户客户机存储用户访问行为之后,如何根据用户兴趣记录来对搜索结果重新排序,并返回针对用户偏好的不同的搜索结果是搜索引擎需要解决的另一个重要问题。这需要在算法上实现个性化查询,个性化查询应该在普通查询的基础上,根据用户兴趣记录来对普通查询结果进行过滤和非序,使查询结果趋向于反映用户的个人需要。
普通搜索引擎的查询遵循了向量空间模型,“抓取模块”所得到的信息源页面是以基于关键字权值的向量的形式存在于索引库中,搜索关键字与信息源页面存在一种相关性。考虑到用户兴趣记录中的搜索关键字和访问网站信息与普通搜索时的关键字之间的相似性,本方法可以基于此引入用户特征向量的概念,将用户兴趣记录抽象成一个向量,同时根据用户兴趣记录与信息源文本集(抓取模块所维护的信息库)的相似性特征,用户模型也可以进一步抽象成基于关键字权重的向量。
下面是本发明的一个具体实例:
1用户兴趣的获取
用户的行为可以通过其访问的网站信息来反映,所以可以将在一定时期内一定数量的网站信息来作为记录用户兴趣的模型InterestWeb。模型的各属性如下:
属性名 ID 取值说明
搜索关键字 key 记录用户搜索的关键字
网站标题 title 记录用户访问的网站标题
网站网址 url 记录用户访问的网站网址
网站快照 cachedUrl 记录用户所访问的网站在搜索列表中对应的网页快照地址
网站摘要 summary 记录用户所访问的网站的摘要
用户输入关键字搜索后,在搜索结果列表中,若点击“访问并记住我的兴趣”链接后,系统将首先调用搜索引擎的用户兴趣记录获取程序,将用户所点击列表项对应的网站的标题、网址、快照地址和摘要组装成interestWeb对象同时传递给用户兴趣记录存储程序,并利用3.2的方案来实现用户兴趣记录的存储。注意,如果用户输入关键字搜索后,未点“访问并记住我的兴趣”链接,系统将不会在用户客户机上记录访问信息,同时在下次搜索时也不会为该访问记录重新排序。这也在一定程度上体现了个性化搜索引擎的用户自主性。
2用户兴趣记录的存储
搜索引擎可以为用户创建M(0<M<10)个cookie。在cookie个数未超过上限时,用户每搜索一个关键字并点击“兴趣访问”链接时,cookie将增加一条cookie记录,cookie由cookie名和cookie值组成,cookie名预置成“key01,key02,…,keyM”,每条cookie值的记录格式如下:标题
“用户关键字##网站1标题||网站1网址||网站1快照||网站1摘要$$网站2标题||网站2网址||网站2快照||网站2摘要$$......$$网站N标题||网站N网址||网站N快照||网站N摘要”(0<N<6)
字符编码采用UTF-8格式,另外cookie的名和值不能包含cookie的名字和值不能包含空格和[]()=,″/?@:;字符,所以在原字符串转换成UTF-8存储之前需要进行字符串转换,如titleStr=Replace(titleStr,″&equal″,″=″)将字符串的:“=”转换成&equal,字符串的替换由自定义方法toCookieStr(String)来实现。
存储算法如下:(其中M为搜索引擎为每个用户保存兴趣关键字cookie项的上限值,N为搜索引擎为每个用户某关键字存储历史访问记录的上限值)
1)接收interestWeb对象;
2)取出对象中的已经过UTF-8编码的各属性:关键字(key)、网站标题(title)、网址(url)快照地址(cachedUrl)和摘要(summary);并将各字符串通过toCookieStr(String)方法转换成适应cookie存储的格式;
3)根据关键字key,设置计数器i,在i小于M的情况下遍历cookie中的cookie项,查找cookie中##前的字符串StrOldPre与关键字key匹配的cookie项,若找到匹配的项则退出循环。根据计数器最终的结果i,若i小于M说明找到匹配转4),否则转5);
4)得到cookie名”key”+i;
5)拼接待存储串StrNew,title+”||”+url+”||”+cachedUrl+”||”+summary;
6)取出cookie项中##后的字符串StrOldSuc,用split(“\\$\\$”)方法将该字符串分隔成字符数组,判断数组长度是否超过N,若数组长度不超过N则转7),否则转8);
7)修改新cookie项为:原cookie串##前字符串StrOldPre+”##”+待存储串StrNew+”$$”+原cookie串##后字符串StrOldSuc,将新串存入cookie,替换原cookie项,转13);
8)去除原串最后一个“$$”符后面的字符串(连同“$$”符)得到字符串StrOldSucTemp;修改新cookie项为:原cookie串##前符串+”##”+待存储串+”$$”+StrOldSucTemp,将新串存入cookie,替换原cookie项,转13);
9)根据i生成cookie名”key”+(i+1);
10)拼接待存储串StrNew,key+”##”+title+”||”+url+”||”+cachedUrl+”||”+summary;
11)设置cookie项目生命周期;
12)将新cookie项存入cookie中;结束。
3基于向量空间的个性化检索模型
1)在用户提交搜索时,搜索引擎将同时获取用户搜索关键字和用户兴趣记录,如果未能获取用户兴趣记录或用户兴趣记录为空,则搜索引擎进行普通查询并返回结果。如果获取了用户兴趣记录,则搜索引擎将用户兴趣交由“用户个性分析模块”处理,处理过程算法如下:
2)搜索引擎读取cookie,将每一个cookie项中用“$$”分隔的字符串转换成interestWeb对象,将key01-keyM的所有cookie项转换成用户兴趣访问列表interestWebList;
3)遍历interestWebList,抽取各关键字,存入用户兴趣关键字向量interestKeyVector;
4)抽取各网站标题interestWeb.getTitle(),对网站标题进行分词处理,得到多个次关键字,将这些次关键字附加到用户兴趣关键字向量interestKeyVector中;
5)建立用户兴趣关键字权值向量interestWeightVector,目前认定这些用户兴趣关键字权值是相同的,将interestWeightVector中各值初始化成1。
其中,分词也是搜索引擎需要解决的重要问题,中文分词不同于英文分词,因为英文单词之间的空格足以区分不同的查询关键字,而中文固有的特征决定了需要采取更有效的方式来实现分词。一般的分词方式有三种:
1)单字切分:中文搜索词一个一个单字分开来。这种方式的优点是分词算法简单,最大的缺点是会极大增加索引,相应地,索引条目的内容也会增多,严重影响搜索效率。
2)二分法:对中文搜索词中每两个字进行次切分,比如,对搜索词“计算机学院”进行二分法切分后得到的关键字将会是“计算/算机/机学/学院”。这种分词方式只是机械地对搜索词进行切分,不考虑词义与词法,所以
3)词库分词:这是目前最理想的中文分词方式,方式是根据已经建立好的词的集合,即词库来匹配搜索词的子串。比如,词库中已经存在“计算机”、“学院”和“计算机学院”三个词,则“计算机学院”便可以切分成这三个关键字。
假设搜索引擎中“抓取模块”获取的索引库中,每个URL包含的关键字身量为
K=(k1,k2,...,kn)    其中k1,k2,...,kn该URL中的关键字每个关键字的权值向量为
V=(v1,v2,...,vn)    其中v1,v2,...,vn是每个关键字对应的权值用户兴趣模型中用户特征向量为
U=(u1,u2,...,un)    其中u1,u2,...,un是用户兴趣关键字(包括分词后的次关键字),用户兴趣模型中每个关键字的权值都设置为默认值1。
接下去的任务是建立用户兴趣模型与信息源文本集之间的相关性,相关性的算法如下:
1)搜索引擎通过普通查询得到初始查询结果;
2)对于1)中查询结果中给出的各URL,筛选符合条件K∩U≠的URL,
其中为空集,若不存在这些URL转5),否则转3);
3)为满足条件的URL计算与用户兴趣模型之间的相关性
s=∑Yi(1≤i≤n),其中Yi的计算方法为:
若ui∈K,且ui=kj则Yi=vj,否则Yi=0
4)排除相关性为零的页面,按相关性S从大到小对搜索结果进行排序,最后将结果返回给用户,转6);
5)将普通查询结果返回给用户;
6)结束。

Claims (6)

1.一种轻量级个性化搜索引擎,由信息抓取模块、信息检索模块和用户个性分析模块三部分连接组成,其特征是:其中信息抓取模块由抓取程序和索引程序组成,因特网信息资源和Web库接入信息抓取模块,信息抓取模块的输出连接用户个性分析模块,用户兴趣记录与查询关键字输入信息检索模块,信息检索模块与用户个性分析模块,信息检索模块与用户个性分析模块结合提供个性化检索服务。
2.一种轻量级个性化搜索引擎的搜索方法,其特征是:
(1)信息抓取模块从配置了需要抓取的URL的Web库中获取抓取列表,提交给抓取程序,通过抓取程序抓取因特网信息资源提交给索引程序,同时根据需要更新Web库内容;
(2)信息检索模块获取用户的查询请求,提取用户客户端的兴趣记录,同时把查询结果返回给用户,信息检索模块将用户兴趣记录与查询关键字同时提交给用户个性分析模块;用户个性分析模块生成用户特征向量提交给索引器/查询分析器;索引器/查询分析器根据索引库中的信息与用户特征向量结合得到查询结果;最后通过信息检索模块返回给用户。
3.根据权利要求2所述的一种轻量级个性化搜索引擎的搜索方法,其特征是:所述的用户兴趣记录的获取方法为:搜索引擎记录用户的点击搜索结果的行为,对于只点搜索表单按钮而未访问搜索结果的行为不予记录,用户可以通过点击搜索结果中的“访问并记录我的兴趣”链接来访问搜索结果列表中感兴趣的网站,并让搜索引擎存储访问记录。
4.根据权利要求2所述的一种轻量级个性化搜索引擎的搜索方法,其特征是:所述的用户兴趣记录采用cookie形式存储在用户的客户机中。
5.根据权利要求2所述的一种轻量级个性化搜索引擎的搜索方法,其特征是:所述的用户个性分析模块生成用户特征向量是将用户兴趣记录抽象成一个向量,同时根据用户兴趣记录与信息源文本集、即抓取模块所维护的信息库的相似性特征。
6.根据权利要求5所述的一种轻量级个性化搜索引擎的搜索方法,其特征是:所述的用户个性分析模块生成用户特征向量还包括进一步抽象成基于关键字权重的向量。
CNB2007100726085A 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法 Expired - Fee Related CN100541495C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100726085A CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100726085A CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Publications (2)

Publication Number Publication Date
CN101127043A true CN101127043A (zh) 2008-02-20
CN100541495C CN100541495C (zh) 2009-09-16

Family

ID=39095075

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100726085A Expired - Fee Related CN100541495C (zh) 2007-08-03 2007-08-03 一种个性化搜索引擎的搜索方法

Country Status (1)

Country Link
CN (1) CN100541495C (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819576A (zh) * 2009-12-22 2010-09-01 无锡语意电子政务软件科技有限公司 一种用户可编程的搜索系统及方法
CN101957847A (zh) * 2010-09-21 2011-01-26 百度在线网络技术(北京)有限公司 一种搜索系统及其实现方法
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN102629257A (zh) * 2012-02-29 2012-08-08 南京大学 一种基于关键字的电子商务网站商品推荐方法
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN102831199A (zh) * 2012-08-07 2012-12-19 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN101661490B (zh) * 2008-08-28 2013-01-02 国际商业机器公司 搜索引擎、其客户端及搜索网页的方法
CN102890689A (zh) * 2011-07-22 2013-01-23 北京百度网讯科技有限公司 一种用户兴趣模型的建立方法及系统
CN102968465A (zh) * 2012-11-09 2013-03-13 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN103617241A (zh) * 2013-11-26 2014-03-05 北京奇虎科技有限公司 搜索信息处理方法、浏览器终端与服务器
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN103970780A (zh) * 2013-01-30 2014-08-06 鸿富锦精密工业(深圳)有限公司 多媒体装置及其索引管理方法
CN104063383A (zh) * 2013-03-19 2014-09-24 北京三星通信技术研究有限公司 信息推荐方法及装置
CN104199849A (zh) * 2014-08-08 2014-12-10 亿赞普(北京)科技有限公司 一种广告投放的方法和装置
CN104484367A (zh) * 2014-12-05 2015-04-01 广州招商速建互联网信息科技有限公司 一种数据挖掘分析系统
CN105574113A (zh) * 2015-12-14 2016-05-11 四川九成信息技术有限公司 一种大数据环境下的数据管理方法
CN107516163A (zh) * 2017-08-10 2017-12-26 安徽牧心文化服务有限公司 基于读者个性化的云图书馆信息服务系统
CN107766450A (zh) * 2017-09-26 2018-03-06 甘肃万维信息技术有限责任公司 需求推荐的方法及服务器
CN108076037A (zh) * 2016-11-11 2018-05-25 瞻博网络公司 用于使用一次性cookie来防御拒绝服务攻击的装置、系统和方法
CN108153775A (zh) * 2016-12-05 2018-06-12 北大方正集团有限公司 元搜索引擎高频访问单个网站的方法及元搜索引擎
CN109635203A (zh) * 2018-12-19 2019-04-16 北京达佳互联信息技术有限公司 网页抓取请求处理方法、装置、服务器及存储介质

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661490B (zh) * 2008-08-28 2013-01-02 国际商业机器公司 搜索引擎、其客户端及搜索网页的方法
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
CN101819576A (zh) * 2009-12-22 2010-09-01 无锡语意电子政务软件科技有限公司 一种用户可编程的搜索系统及方法
CN101957847A (zh) * 2010-09-21 2011-01-26 百度在线网络技术(北京)有限公司 一种搜索系统及其实现方法
CN101957847B (zh) * 2010-09-21 2011-11-23 百度在线网络技术(北京)有限公司 一种搜索系统及其实现方法
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102890689A (zh) * 2011-07-22 2013-01-23 北京百度网讯科技有限公司 一种用户兴趣模型的建立方法及系统
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN102629257A (zh) * 2012-02-29 2012-08-08 南京大学 一种基于关键字的电子商务网站商品推荐方法
CN102779193B (zh) * 2012-07-16 2015-05-13 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN102831199A (zh) * 2012-08-07 2012-12-19 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN102831199B (zh) * 2012-08-07 2015-07-08 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN102968465A (zh) * 2012-11-09 2013-03-13 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN102968465B (zh) * 2012-11-09 2015-07-29 同济大学 网络信息服务平台及其基于该平台的搜索服务方法
CN103970780A (zh) * 2013-01-30 2014-08-06 鸿富锦精密工业(深圳)有限公司 多媒体装置及其索引管理方法
CN103970780B (zh) * 2013-01-30 2017-02-08 鸿富锦精密工业(深圳)有限公司 多媒体装置及其索引管理方法
CN104063383A (zh) * 2013-03-19 2014-09-24 北京三星通信技术研究有限公司 信息推荐方法及装置
CN104063383B (zh) * 2013-03-19 2019-09-27 北京三星通信技术研究有限公司 信息推荐方法及装置
CN103617241A (zh) * 2013-11-26 2014-03-05 北京奇虎科技有限公司 搜索信息处理方法、浏览器终端与服务器
CN103617241B (zh) * 2013-11-26 2017-06-06 北京奇虎科技有限公司 搜索信息处理方法、浏览器终端与服务器
CN104199849A (zh) * 2014-08-08 2014-12-10 亿赞普(北京)科技有限公司 一种广告投放的方法和装置
CN104484367A (zh) * 2014-12-05 2015-04-01 广州招商速建互联网信息科技有限公司 一种数据挖掘分析系统
CN105574113A (zh) * 2015-12-14 2016-05-11 四川九成信息技术有限公司 一种大数据环境下的数据管理方法
CN105574113B (zh) * 2015-12-14 2019-01-29 山东金佳园科技股份有限公司 一种大数据环境下的数据管理方法
CN108076037A (zh) * 2016-11-11 2018-05-25 瞻博网络公司 用于使用一次性cookie来防御拒绝服务攻击的装置、系统和方法
CN108153775A (zh) * 2016-12-05 2018-06-12 北大方正集团有限公司 元搜索引擎高频访问单个网站的方法及元搜索引擎
CN107516163A (zh) * 2017-08-10 2017-12-26 安徽牧心文化服务有限公司 基于读者个性化的云图书馆信息服务系统
CN107766450A (zh) * 2017-09-26 2018-03-06 甘肃万维信息技术有限责任公司 需求推荐的方法及服务器
CN109635203A (zh) * 2018-12-19 2019-04-16 北京达佳互联信息技术有限公司 网页抓取请求处理方法、装置、服务器及存储介质
CN109635203B (zh) * 2018-12-19 2020-12-25 北京达佳互联信息技术有限公司 网页抓取请求处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN100541495C (zh) 2009-09-16

Similar Documents

Publication Publication Date Title
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
CN100442290C (zh) 访问标识索引系统及访问标识索引库生成方法
US20170060856A1 (en) Efficient search and analysis based on a range index
WO2007134130A2 (en) Systems and methods for generating statistics from search engine query logs
Puppin et al. Tuning the capacity of search engines: Load-driven routing and incremental caching to reduce and balance the load
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
CN105574200A (zh) 基于历史记录的用户兴趣提取方法
Chen et al. COWES: Web user clustering based on evolutionary web sessions
CN103631779A (zh) 一种基于社交化词典的单词推荐系统
CN112104714A (zh) 一种基于用户互动元素权重精准推送方法
Jian et al. Based on automatic correlation keyword grouping and combination based deep information search corresponding to specific language big data—Case of leisure recreation
Jiang et al. A personalized search engine model based on RSS User's interest
Supriyadi et al. Website content analysis using clickstream data and apriori algorithm
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.
KR20210037488A (ko) 빅데이터 분석 기반 광고 마케팅 시스템
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
Kumar et al. Web data mining using xML and agent framework
Jin et al. Indexing temporal information for web pages
Munilatha et al. A study on issues and techniques of web mining
Chen et al. Cowes: Clustering web users based on historical web sessions
Irfan et al. Ranking web pages using cosine similarity measure
Ni et al. Web information recommendation based on user behaviors
Gobinath et al. Improved preprocessing techniques for analyzing patterns in web personalization process
CN102609536B (zh) 一种非合作环境下的资源选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090916

Termination date: 20120803