CN102945259B - 一种基于收藏夹的搜索方法和搜索装置 - Google Patents

一种基于收藏夹的搜索方法和搜索装置 Download PDF

Info

Publication number
CN102945259B
CN102945259B CN201210398286.4A CN201210398286A CN102945259B CN 102945259 B CN102945259 B CN 102945259B CN 201210398286 A CN201210398286 A CN 201210398286A CN 102945259 B CN102945259 B CN 102945259B
Authority
CN
China
Prior art keywords
network address
browser
server
search results
snapshots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210398286.4A
Other languages
English (en)
Other versions
CN102945259A (zh
Inventor
赵飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qizhi Business Consulting Co ltd
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210398286.4A priority Critical patent/CN102945259B/zh
Publication of CN102945259A publication Critical patent/CN102945259A/zh
Application granted granted Critical
Publication of CN102945259B publication Critical patent/CN102945259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于收藏夹的搜索方法和搜索装置,其中所述方法包括:采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;接收搜索请求,并根据所述搜索请求返回搜索结果;判断访问某个搜索结果的网址是否为失效网址;若所述搜索结果的网址为失效网址,服务器在数据库中查找匹配的网页快照,并返回至浏览器。本发明可以在用户点击搜索结果失败时保证用户正常浏览该网页的内容。

Description

一种基于收藏夹的搜索方法和搜索装置
技术领域
本发明涉及互联网访问技术领域,具体涉及一种基于收藏夹的搜索方法,以及一种基于收藏夹的搜索装置。
背景技术
伴随互联网的普及和网上信息的爆炸式增长,搜索引擎越来越引起人们的重视,目前,搜索引擎技术成为仅次于门户的互联网第二大核心技术。
在使用搜索引擎进行网页搜索时,点击某一搜索结果可能会出现无法访问的情况,这是因为互联网上的网页经常发生变化,当被搜索到的网页被删除或死链时,直接点击链接无法查看网页的内容。
在这种情况下,如果用户需要继续查看该无法访问的网页的内容,用户不得不重新查找相应的网址或搜索相关的内容,搜索效率低下,用户体验非常差,并且增加了客户端与服务器的资源耗费。
因此,本领域技术人员需要解决的技术问题是提供一种搜索机制,能够在用户点击搜索结果失败时保证用户正常浏览该网页的内容。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于收藏夹的搜索方法和相应的搜索装置。
依据本发明的一个方面,提供了一种基于收藏夹的搜索方法,包括:
采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;
接收搜索请求,并根据所述搜索请求返回搜索结果;
判断访问某个搜索结果的网址是否为失效网址;
若所述搜索结果的网址为失效网址,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
可选地,所述网页快照为服务器获取所述网页的代码保存生成,或为,在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。
可选地,所述接收搜索请求,并根据所述搜索请求返回搜索结果的步骤包括:
浏览器接收搜索请求并将所述搜索请求发送至服务器;
服务器在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
浏览器展示所述搜索结果。
可选地,所述判断访问某个搜索结果的网址是否为失效网址的步骤包括:
浏览器将所述搜索结果的网址发送至服务器;
服务器对所述搜索结果的网址进行解析生成响应消息返回浏览器;
浏览器解析所述响应消息,提取对应网址的HTTP状态码;
浏览器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
可选地,所述判断访问某个搜索结果的网址是否为失效网址的步骤包括:
浏览器将所述搜索结果的网址发送至服务器;
服务器对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
服务器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
根据本发明的另一方面,提供了一种基于收藏夹的搜索装置,包括:
网址信息采集模块,适于采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;
搜索请求接收模块,适于接收搜索请求,并根据所述搜索请求返回搜索结果;
失效网址判断模块,适于判断访问某个搜索结果的网址是否为失效网址;
网页快照获取模块,适于在所述搜索结果的网址为失效网址时,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
可选地,所述网页快照为服务器获取所述网页的代码保存生成,或为,在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。
可选地,所述搜索请求接收模块包括:
位于浏览器的搜索请求发送子模块,适于接收搜索请求并将所述搜索请求发送至服务器;
位于服务器的搜索结果返回子模块,适于在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
位于浏览器的搜索结果展示子模块,适于展示所述搜索结果。
可选地,所述失效网址判断模块包括:
位于浏览器的第一网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的响应消息返回子模块,适于对所述搜索结果的网址进行解析生成响应消息返回浏览器;
位于浏览器的HTTP状态码获取子模块,适于解析所述响应消息,提取对应网址的HTTP状态码;
位于浏览器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
可选地,所述失效网址判断模块包括:
位于浏览器的第二网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的HTTP状态码获取子模块,适于对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
位于服务器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
根据本发明的一种基于收藏夹的搜索方法可以提供一种基于收藏夹的收藏机制,由此解决了针对搜索请求得到的搜索结果无法正常访问的问题取得了保证用户正常浏览所述无法正常访问的搜索结果的网页内容,提高搜索效率的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种基于收藏夹的搜索方法实施例的步骤流程图;
图2示出了根据本发明一个实施例的一种基于收藏夹的搜索装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例的核心构思之一在于,通过采集多台用户设备中浏览器收藏夹的网址信息和所述网址对应的网页快照,将网址信息和网页快照保存至数据库。当针对搜索请求返回相应的搜索结果时,判断所述搜索结果是否为失效网址,若是,服务器返回网址对应的网页快照给浏览器。
参照图1,示出了根据本发明一个实施例的一种基于收藏夹的搜索方法实施例的步骤流程图,具体可以包括以下步骤:
步骤101:采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;
网页快照,英文名叫WebCache,网页缓存。搜索引擎在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜索引擎将Spider(蜘蛛)系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。在本发明中,所述网页快照可以由服务器获取所述网页的代码保存生成,或者,可以在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。也就是说,网页快照在服务器侧的展现为一些网页代码。
网页代码就是指在网页制作过程中需要用到的一些特殊的“语言”,设计人员通过对这些“语言”进行组织编排制作出网页,然后由浏览器对代码进行“翻译”后才是我们最终看到的效果。目前制作网页时常用的代码有HTML,JavaScript,ASP,PHP,CGI等,其中HTML是最基础的网页代码。所述网页代码可以由服务器在解析浏览器的请求消息时直接获取;或者,所述网页代码也可以在浏览器解析服务器返回的响应消息时获取,然后将网页代码上传至服务器。使用服务器来获取网页代码的好处是这样可以节省用户的上网流量,最小地耗用用户带宽,当服务器保存网页代码失败的时候,可以通知浏览器获取网页代码上传,服务器再对所述网页代码进行保存,浏览器上传所述网页代码时可以采用压缩代码的方式将所述网页代码上传,这样也可以降低上传的流浪,减少带宽。
在具体实现中,一种服务器保存网页代码不成功的情况可以是一些网站为了防止自己内容被其他人恶意盗用,会在自己服务器上做一些访问限制,例如限定其他机器对它的访问频率,这样服务器就不能直接保存网页代码,在具体实现中,服务器可以将网页代码进行哈希算法得到网站内容验证串,将所述网站内容验证串与预设的保存检验接口中的网站内容验证串进行比较判断服务器保存网页代码是否成功,如果所述网站内容验证串存在于预设的保存检验接口中则服务器保存网页代码成功,否则,服务器保存代码不成功。本领域技术人员采用其他方式均是可以的,本发明对此不作限制。
浏览器在采集多台用户设备的浏览器收藏夹的网址信息后,将网址信息保存在数据库中以供后续的搜索使用。在具体实现中,本发明可以用两个数据库保存网址信息,一个是内容数据库,一个是网页快照数据库,网页快照数据库用于保存网址的网页快照,内容数据库用户保存网址除网页快照外的其他信息;或者,本发明也可以建立一个数据库,数据库中包括两张表,一张用于存储网页快照,一张用于存储网页快照以外的内容,本领域技术人员应该可以理解,上述的网址信息存储方式仅仅是本发明的示例,本领域技术人员可以采用其他存储方法进行存储,本发明在此不作限制。
步骤102:接收搜索请求,并根据所述搜索请求返回搜索结果;
在本发明的一种优选实施例中,所述步骤102可以包括如下子步骤:
子步骤S11:浏览器接收搜索请求并将所述搜索请求发送至服务器;
子步骤S12:服务器在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
例如,当用户在浏览器中进行关键词搜索时,浏览器接收用户的搜索的关键词后将关键词发送给服务器,服务器根据所述关键词到所述内容数据库中抓取跟关键词相关的网页内容形成搜索结果返回给浏览器。在具体实现中,搜索结果可以按照网页的权重进行排序然后返回,也可以按照其他方法进行排序返回,本发明在此不作限制。
子步骤S13:浏览器展示所述搜索结果。
步骤103:判断访问某个搜索结果的网址是否为失效网址;
当用户需要查看某个搜索结果时,浏览器或服务器首先判断所述搜索结果对应的网址能否正常访问,如果所述网址不能正常访问,则将网址对应的网页快照展示给用户。
一般情况下,采用HTTP状态码(HTTPStatusCode)来判断网址的有效性。HTTP状态码由三位十进制数字组成,用以指出网页访问请求的成功或失败,如果失败则指出原因。HTTP状态码分分五种类型,由其第一位数字表示:
以1开头的3位数字代码,包括100(客户端应当继续发送请求)、101(服务器已经理解了客户端的请求,并将通过Upgrade(升级)消息头通知客户端采用不同的协议来完成这个请求)、102(由WebDAV(Web-basedDistributedAuthoringandVersioning,一种基于HTTP1.1协议的通信协议)扩展的状态码,代表处理将被继续执行),表示请求已被接受,需要继续处理,这类响应是临时响应,只包含状态行和某些可选的响应头信息,并以空行结束,但是由于HTTP/1.0协议中没有定义任何以1开头的状态码,所以除非在某些试验条件下,服务器禁止向此类客户端发送此类状态码的响应;
以2开头的3位数字代码,包括200(请求已成功,请求所希望的响应头或数据体将随此响应返回)、201(请求已经被实现,而且有一个新的资源已经依据请求的需要而建立)、202(服务器已接受请求,但尚未处理)、203(服务器已成功处理了请求,但返回的实体头部元信息不是在原始服务器上有效的确定集合,而是来自本地或者第三方的拷贝)、204(服务器成功处理了请求,但不需要返回任何实体内容,并且希望返回更新了的元信息)、205(服务器成功处理了请求,且没有返回任何内容)、206(服务器已经成功处理了部分GET请求)、207(由WebDAV(RFC2518)扩展的状态码,代表之后的消息体将是一个XML消息),表示请求已成功被服务器接收、理解、并接受;
以3开头的3位数字代码,300(用户或浏览器能够自行选择一个首选的地址进行重定向)、301(被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI(通用资源标志符)之一)、302(请求的资源现在临时从不同的URI响应请求)、303(对应当前请求的响应可以在另一个URI上被找到,而且客户端应当采用GET的方式访问那个资源)、304(如果客户端发送了一个带条件的GET请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个状态码)、305(被请求的资源必须通过指定的代理才能被访问)、306(在最新版的规范中,306状态码已经不再被使用)、307(请求的资源现在临时从不同的URI响应请求),表示需要客户端采取进一步的操作才能完成请求,通常,这些状态码用来重定向,后续的请求地址(重定向目标)在本次响应的位置域中指明;
以4开头的3位数字代码,包括400(语义有误,当前请求无法被服务器理解,请求参数有误)、401(当前请求需要用户验证)、402(该状态码是为了将来可能的需求而预留的)、403(服务器已经理解请求,但是拒绝执行它)、404(请求失败,请求所希望得到的资源未被在服务器上发现)、405(请求行中指定的请求方法不能被用于请求相应的资源)、406(请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体)、407(与401响应类似,只不过客户端必须在代理服务器上进行身份验证)、408(请求超时)、409(由于和被请求的资源的当前状态之间存在冲突,请求无法完成)、410(被请求的资源在服务器上已经不再可用,而且没有任何已知的转发地址)、411(服务器拒绝在没有定义Content-Length头的情况下接受请求)、412(服务器在验证在请求的头字段中给出先决条件时,没能满足其中的一个或多个)、413(服务器拒绝处理当前请求,因为该请求提交的实体数据大小超过了服务器愿意或者能够处理的范围)、414(请求的URI长度超过了服务器能够解释的长度,因此服务器拒绝对该请求提供服务)、415(对于当前请求的方法和所请求的资源,请求中提交的实体并不是服务器中所支持的格式,因此请求被拒绝)、416(如果请求中包含了Range请求头,并且Range中指定的任何数据范围都与当前资源的可用范围不重合,同时请求中又没有定义If-Range请求头,那么服务器就应当返回416状态码)、417(在请求头Expect中指定的预期内容无法被服务器满足,或者这个服务器是一个代理服务器,它有明显的证据证明在当前路由的下一个节点上,Expect的内容无法被满足)、421(从当前客户端所在的IP地址到服务器的连接数超过了服务器许可的最大范围)、422(请求格式正确,但是由于含有语义错误,无法响应)、424(由于之前的某个请求发生的错误,导致当前请求失败)、425(在WebDavAdvancedCollections草案中定义,但是未出现在《WebDAV顺序集协议》(RFC3658)中)、426(客户端应当切换到TLS/1.0)、449(由微软扩展,代表请求应当在执行完适当的操作后进行重试),表示客户端看起来可能发生了错误,妨碍了服务器的处理;
以5开头的3位数字代码,包括500(服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理)、501(服务器不支持当前请求所需要的某个功能)、502(作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应)、503(由于临时的服务器维护或者过载,服务器当前无法处理请求)、504(作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器收到响应)、505(服务器不支持,或者拒绝支持在请求中使用的HTTP版本)、506(由《透明内容协商协议》(RFC2295)扩展,代表服务器存在内部配置错误)、507(服务器无法存储完成请求所必须的内容)、509(服务器达到带宽限制)、510(获取资源所需要的策略并没有没满足),表示服务器在处理请求的过程中有错误或者异常状态发生,也有可能是服务器意识到以当前的软硬件资源无法完成对请求的处理。
在本发明的一种优选实施例中,所述步骤103可以包括如下子步骤:
子步骤S21:浏览器将所述搜索结果的网址发送至服务器;
子步骤S22:服务器对所述搜索结果的网址进行解析生成响应消息返回浏览器;
子步骤S23:浏览器解析所述响应消息,提取对应网址的HTTP状态码;
子步骤S24:浏览器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
在本发明的另一种优选实施例中,所述步骤103可以包括如下子步骤:
子步骤S31:浏览器将所述搜索结果的网址发送至服务器;
子步骤S32:服务器对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
子步骤S33:服务器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
作为本实施例的一种优选示例,状态码为200、301、302、304的状态可以视为网址链接成功网页正常打开的状态,其余的状态码可以视为失效网址的状态码。
实际上,上述从浏览器侧或者服务器侧获取HTTP状态码的方式可以是在浏览器侧或者服务器侧生成独立的线程或者进程进行捕获HTTP状态码,而本领域技术人员应当可以理解,以上获取HTTP状态码的方式仅是一种示例,本领域技术人员可以采取其他方式来实现均是可以的,本发明在此不作限制。
步骤104:若所述搜索结果的网址为失效网址,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
实际上,若是在浏览器端判断访问某个搜索结果的网址为失效网址时,浏览器将所述搜索结果的网址对应的网页快照获取请求发送至服务器,服务器在所述网页快照数据库中查找与网页快照获取请求匹配的网页快照返回浏览器;
若是在服务器端判断访问某个搜索结果的网址为失效网址时,服务器直接从网页快照数据库中查找与网页快照获取请求匹配的网页快照返回浏览器。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参照图2,示出了根据本发明一个实施例的一种基于收藏夹的搜索装置实施例的结构框图,具体可以包括以下模块:
网址信息采集模块201,适于采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;
网页快照,英文名叫WebCache,网页缓存。搜索引擎在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜索引擎将Spider(蜘蛛)系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。在本发明中,所述网页快照可以由服务器获取所述网页的代码保存生成,或者,可以在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。也就是说,网页快照在服务器侧的展现为一些网页代码。
网页代码就是指在网页制作过程中需要用到的一些特殊的“语言”,设计人员通过对这些“语言”进行组织编排制作出网页,然后由浏览器对代码进行“翻译”后才是我们最终看到的效果。目前制作网页时常用的代码有HTML,JavaScript,ASP,PHP,CGI等,其中HTML是最基础的网页代码。所述网页代码可以由服务器在解析浏览器的请求消息时直接获取;或者,所述网页代码也可以在浏览器解析服务器返回的响应消息时获取,然后将网页代码上传至服务器。使用服务器来获取网页代码的好处是这样可以节省用户的上网流量,最小地耗用用户带宽,当服务器保存网页代码失败的时候,可以通知浏览器获取网页代码上传,服务器再对所述网页代码进行保存,浏览器上传所述网页代码时可以采用压缩代码的方式将所述网页代码上传,这样也可以降低上传的流浪,减少带宽。
浏览器在采集多台用户设备的浏览器收藏夹的网址信息后,将网址信息保存在数据库中以供后续的搜索使用。在具体实现中,本发明可以用两个数据库保存网址信息,一个是内容数据库,一个是网页快照数据库,网页快照数据库用于保存网址的网页快照,内容数据库用户保存网址除网页快照外的其他信息;或者,本发明也可以建立一个数据库,数据库中包括两张表,一张用于存储网页快照,一种用于存储网页快照以外的内容,本领域技术人员应该可以理解,上述的网址信息存储方式仅仅是本发明的示例,本领域技术人员可以采用其他存储方法进行存储,本发明在此不作限制。
搜索请求接收模块202,适于接收搜索请求,并根据所述搜索请求返回搜索结果;
在本发明的一种优选实施例中,所述搜索请求接收模块202可以包括如下子模块:
位于浏览器的搜索请求发送子模块,适于接收搜索请求并将所述搜索请求发送至服务器;
位于服务器的搜索结果返回子模块,适于在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
位于浏览器的搜索结果展示子模块,适于展示所述搜索结果。
失效网址判断模块203,适于判断访问某个搜索结果的网址是否为失效网址;
当用户需要查看某个搜索结果时,浏览器或服务器首先判断所述搜索结果对应的网址能否正常访问,如果所述网址不能正常访问,则将网址对应的网页快照展示给用户。
一般情况下,采用HTTP状态码(HTTPStatusCode)来判断网址的有效性。HTTP状态码由三位十进制数字组成,用以指出网页访问请求的成功或失败,如果失败则指出原因。
在本发明的一种优选实施例中,所述失效网址判断模块203可以包括如下子模块:
位于浏览器的第一网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的响应消息返回子模块,适于对所述搜索结果的网址进行解析生成响应消息返回浏览器;
位于浏览器的HTTP状态码获取子模块,适于解析所述响应消息,提取对应网址的HTTP状态码;
位于浏览器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
在本发明的另一种优选实施例中,所述失效网址判断模块203可以包括如下子模块:
位于浏览器的第二网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的HTTP状态码获取子模块,适于对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
位于服务器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
实际上,上述从浏览器侧或者服务器侧获取HTTP状态码的方式可以是在浏览器侧或者服务器侧生成独立的线程或者进程进行捕获HTTP状态码,而本领域技术人员应当可以理解,以上获取HTTP状态码的方式仅是一种示例,本领域技术人员可以采取其他方式来实现均是可以的,本发明在此不作限制。
网页快照获取模块204,适于在所述搜索结果的网址为失效网址时,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
实际上,若是在浏览器端判断访问某个搜索结果的网址为失效网址时,浏览器将所述搜索结果的网址对应的网页快照获取请求发送至服务器,服务器在所述网页快照数据库中查找与网页快照获取请求匹配的网页快照返回浏览器;
若是在服务器端判断访问某个搜索结果的网址为失效网址时,服务器直接从网页快照数据库中查找与网页快照获取请求匹配的网页快照返回浏览器。
对于图2的系统实施例而言,由于其与图1的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于收藏夹的搜索设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于收藏夹的搜索方法,包括:
采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;其中,数据库中包括两张表,一张用于存储网页快照,一张用于存储网页快照以外的内容;所述网页快照由网页的代码生成;
接收搜索请求,并根据所述搜索请求返回搜索结果;
判断访问某个搜索结果的网址是否为失效网址;
若所述搜索结果的网址为失效网址,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
2.如权利要求1所述的方法,所述网页快照为服务器获取所述网页的代码保存生成,或为,在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。
3.如权利要求1所述的方法,所述接收搜索请求,并根据所述搜索请求返回搜索结果的步骤包括:
浏览器接收搜索请求并将所述搜索请求发送至服务器;
服务器在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
浏览器展示所述搜索结果。
4.如权利要求1所述的方法,所述判断访问某个搜索结果的网址是否为失效网址的步骤包括:
浏览器将所述搜索结果的网址发送至服务器;
服务器对所述搜索结果的网址进行解析生成响应消息返回浏览器;
浏览器解析所述响应消息,提取对应网址的HTTP状态码;
浏览器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
5.如权利要求1所述的方法,所述判断访问某个搜索结果的网址是否为失效网址的步骤包括:
浏览器将所述搜索结果的网址发送至服务器;
服务器对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
服务器依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
6.一种基于收藏夹的搜索装置,包括:
网址信息采集模块,适于采集多台用户设备的浏览器收藏夹的网址信息,保存所述网址信息至数据库,所述网址信息包括网址的网页快照;其中,数据库中包括两张表,一张用于存储网页快照,一张用于存储网页快照以外的内容;所述网页快照由网页的代码生成;
搜索请求接收模块,适于接收搜索请求,并根据所述搜索请求返回搜索结果;
失效网址判断模块,适于判断访问某个搜索结果的网址是否为失效网址;
网页快照获取模块,适于在所述搜索结果的网址为失效网址时,服务器在数据库中查找匹配的网页快照,并返回至浏览器。
7.如权利要求6所述的装置,所述网页快照为服务器获取所述网页的代码保存生成,或为,在所述服务器获取该网页的代码保存不成功时,通知浏览器将对应的网页的代码上传生成。
8.如权利要求6所述的装置,所述搜索请求接收模块包括:
位于浏览器的搜索请求发送子模块,适于接收搜索请求并将所述搜索请求发送至服务器;
位于服务器的搜索结果返回子模块,适于在数据库中抓取与所述搜索请求相关的网页形成搜索结果返回给浏览器;
位于浏览器的搜索结果展示子模块,适于展示所述搜索结果。
9.如权利要求6所述的装置,所述失效网址判断模块包括:
位于浏览器的第一网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的响应消息返回子模块,适于对所述搜索结果的网址进行解析生成响应消息返回浏览器;
位于浏览器的HTTP状态码获取子模块,适于解析所述响应消息,提取对应网址的HTTP状态码;
位于浏览器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
10.如权利要求6所述的装置,所述失效网址判断模块包括:
位于浏览器的第二网址发送子模块,适于将所述搜索结果的网址发送至服务器;
位于服务器的HTTP状态码获取子模块,适于对所述搜索结果的网址进行解析,提取对应网址中的HTTP状态码;
位于服务器的网址判定子模块,适于依据所述HTTP状态码判定网址访问请求是否为失效网址的访问请求。
CN201210398286.4A 2012-10-18 2012-10-18 一种基于收藏夹的搜索方法和搜索装置 Active CN102945259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210398286.4A CN102945259B (zh) 2012-10-18 2012-10-18 一种基于收藏夹的搜索方法和搜索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210398286.4A CN102945259B (zh) 2012-10-18 2012-10-18 一种基于收藏夹的搜索方法和搜索装置

Publications (2)

Publication Number Publication Date
CN102945259A CN102945259A (zh) 2013-02-27
CN102945259B true CN102945259B (zh) 2016-06-22

Family

ID=47728203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210398286.4A Active CN102945259B (zh) 2012-10-18 2012-10-18 一种基于收藏夹的搜索方法和搜索装置

Country Status (1)

Country Link
CN (1) CN102945259B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929984B (zh) * 2012-10-18 2016-06-22 北京奇虎科技有限公司 失效网址搜索方法和装置
CN103294789A (zh) * 2013-05-21 2013-09-11 鸿富锦精密工业(深圳)有限公司 信息搜索系统及方法
CN103246746A (zh) * 2013-05-23 2013-08-14 百度在线网络技术(北京)有限公司 一种信息搜索方法、装置和系统
EP2998885A4 (en) * 2014-04-10 2016-08-17 Huawei Device Co Ltd METHOD AND DEVICE FOR SEARCHING INFORMATION
CN106682223B (zh) * 2017-01-04 2020-03-10 上海智臻智能网络科技股份有限公司 数据有效性检测方法及装置、智能交互方法及装置
CN110020335B (zh) * 2017-07-28 2022-04-26 北京搜狗科技发展有限公司 收藏夹的处理方法和装置
CN110069667B (zh) * 2017-11-03 2022-07-19 北京搜狗科技发展有限公司 一种搜索方法、装置以及用于搜索的装置
CN109710832B (zh) * 2018-12-29 2021-09-24 上海掌门科技有限公司 一种用于搜索寄宿程序的方法与设备
CN112084441A (zh) * 2019-06-13 2020-12-15 北京字节跳动网络技术有限公司 信息检索方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957818A (zh) * 2009-07-13 2011-01-26 北京搜狗科技发展有限公司 一种批量收藏网页的方法及系统
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957818A (zh) * 2009-07-13 2011-01-26 北京搜狗科技发展有限公司 一种批量收藏网页的方法及系统
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《百度收藏 让我的网络收藏更实在》;小痛;《电脑迷》;20091130;第83页 *

Also Published As

Publication number Publication date
CN102945259A (zh) 2013-02-27

Similar Documents

Publication Publication Date Title
CN102929984B (zh) 失效网址搜索方法和装置
CN102945259B (zh) 一种基于收藏夹的搜索方法和搜索装置
CN108206802B (zh) 检测网页后门的方法和装置
US9602613B2 (en) Method and system for accelerating browsing sessions
CN102771080B (zh) 使用缓存的高效媒体传送的系统和方法
US8892640B2 (en) Access control method and system and access terminal
EP3080972B1 (en) A method and network node for caching web content
CN102929985A (zh) 一种收藏网页展示的方法和系统
CN107181779B (zh) 访问请求的处理方法、装置和系统
CN101662464A (zh) 一种用于实现http请求服务的系统及其方法
CN102937981A (zh) 网页呈现系统和方法
CN102970384B (zh) 代理服务器和通信系统
CN105939313A (zh) 状态码重定向方法及装置
US11734367B2 (en) Direct data center request for proxy web scraping
CN101136834B (zh) 一种基于ssl vpn的链接改写方法和设备
CN103258056B (zh) 处理风格样式表的方法、服务器、客户端和系统
CN105393247A (zh) 一种网页优化的设备及方法
US20040019636A1 (en) System and method for dynamically routing web procedure calls
CN108664493B (zh) 统计url是否有效的方法、装置、电子设备和存储介质
CN106919600A (zh) 一种失效网址访问方法及终端
EP4227829A1 (en) Web scraping through use of proxies, and applications thereof
US20230018983A1 (en) Traffic counting for proxy web scraping
CN102937982A (zh) 一种收藏内容生成的方法和系统
CN102902828B (zh) 一种用于检索的方法和装置
KR20210157389A (ko) 공동 브라우징 세션에서 독점 자원에 액세스하기 위한 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee after: Beijing Qizhi Business Consulting Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240108

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Beijing Qizhi Business Consulting Co.,Ltd.

TR01 Transfer of patent right