CN102200980B - 一种提供网络资源的方法及系统 - Google Patents

一种提供网络资源的方法及系统 Download PDF

Info

Publication number
CN102200980B
CN102200980B CN2010101333761A CN201010133376A CN102200980B CN 102200980 B CN102200980 B CN 102200980B CN 2010101333761 A CN2010101333761 A CN 2010101333761A CN 201010133376 A CN201010133376 A CN 201010133376A CN 102200980 B CN102200980 B CN 102200980B
Authority
CN
China
Prior art keywords
invalid
internet resources
network resource
webpage
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010101333761A
Other languages
English (en)
Other versions
CN102200980A (zh
Inventor
蒋又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2010101333761A priority Critical patent/CN102200980B/zh
Priority to PCT/CN2011/072097 priority patent/WO2011116696A1/zh
Publication of CN102200980A publication Critical patent/CN102200980A/zh
Application granted granted Critical
Publication of CN102200980B publication Critical patent/CN102200980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/76Admission control; Resource allocation using dynamic resource allocation, e.g. in-call renegotiation requested by the user or requested by the network in response to changing network conditions
    • H04L47/762Admission control; Resource allocation using dynamic resource allocation, e.g. in-call renegotiation requested by the user or requested by the network in response to changing network conditions triggered by the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提供网络资源的方法及系统,其中,所述方法包括:识别出无效网络资源;利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;将所述替代网络资源提供给用户。通过本发明,能够提高提供网络资源的成功率。

Description

一种提供网络资源的方法及系统
技术领域
本发明涉及浏览器技术领域,特别是涉及一种提供网络资源的方法及系统。
背景技术
用户在使用浏览器浏览网页或者在网页中下载文件时,经常会存在访问网页不成功或者下载文件失败的情况。例如,用户点击某网页的链接访问该网页时,会存在该链接是死链,该网页无法显示的现象,或者该链接不是死链,但是页面上的内容已经被删除的现象,或者由于网速太慢而导致网页无法打开的现象,以至于请求不到想要的网页。又如,用户访问的网页具有图片时,可能会出现网页上的图片无法正常显示,以至于用户无法获取到该网页的完整信息。再如,用户点击某个网页上的文件下载链接想下载文件,但是无法下载成功,等等。
可见,现有技术在向用户提供网络资源时,存在成功率低的问题。
发明内容
本发明提供一种提供网络资源的方法及系统,能够提高提供网络资源的成功率。
本发明提供了如下方案:
一种提供网络资源的方法,包括:
识别无效网络资源;
利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;
将所述替代网络资源提供给用户;
其中,所述特征信息包括所述无效网络资源的链接文本和引用页信息,所述利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源包括:
在搜索引擎中搜索所述链接文本对应的网络资源,利用所述引用页信息对搜索到的网络资源进行过滤,并确定所述替代网络资源。
优选的,所述无效网络资源包括无效网页,或者网页中的无效页面元素,或者无效下载文件。
优选的,所述识别无效网络资源包括:
读取页面内容,通过识别页面内容中的错误提示信息,识别无效网络资源。
优选的,所述识别无效网络资源包括:
根据用户的访问历史记录,识别无效网络资源。
优选的,所述将所述替代网络资源提供给用户包括:
当所述无效网络资源为无效网页或网页中的页面元素时,利用所述替代网络资源替换所述无效网络资源,将所述替代网络资源展现在原无效网络资源所在的页面中;
和/或,
当所述无效网络资源为无效网页或网页中的页面元素时,在新建的窗口或标签页中展现所述替代网络资源;
和/或,
当所述无效网络资源为无效下载文件时,将所述替代网络资源传输给用户。
一种提供网络资源的系统,包括:
识别单元,用于识别出无效网络资源;
替代查找单元,用于利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;
替代提供单元,用于将所述替代网络资源提供给用户;
其中,所述特征信息包括所述无效网络资源的链接文本和所述无效网络资源的引用页信息,所述替代查找单元包括:
第四查找子单元,用于在搜索引擎中搜索所述链接文本对应的网络资源,利用所述引用页信息对搜索到的网络资源进行过滤,并确定所述替代网络资源。
优选的,所述无效网络资源包括无效网页,或者网页中的无效页面元素,或者无效下载文件。
优选的,所述识别单元包括:
第一识别单元,用于读取页面内容,通过识别页面内容中的错误提示信息,识别无效网络资源。
优选的,所述第一识别单元包括:
模板比对子单元,用于读取页面内容,将所述页面内容与预置的规则模板进行比对,识别出页面内容中的错误提示信息。
优选的,所述识别单元包括:
第二识别单元,用于根据用户的访问历史记录,识别出无效网络资源。
优选的,所述替代提供单元包括:
第一提供子单元,用于当所述无效网络资源为无效网页或网页中的页面元素时,利用所述替代网络资源替换所述无效网络资源,将所述替代网络资源展现在原无效网络资源所在的页面中;
和/或,
第二提供子单元,用于当所述无效网络资源为无效网页或网页中的页面元素时,在新建的窗口或标签页中展现所述替代网络资源;
和/或,
第三提供子单元,用于当所述无效网络资源为无效下载文件时,将所述替代网络资源传输给用户。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例由于能够识别出无效网络资源,并获取相应的替代网络资源,因此,当出现无效网络资源时,可以将替代网络资源提供给用户,避免仅向用户展现一个带有错误提示的页面或者显示为“红叉”的图片,因此,可以提高提供网络资源的成功率,从用户应用的角度而言,可以更好地满足用户的需求,提高用户获得所需网络资源的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是无效网络资源示意图;
图2是本发明实施例提供的方法的流程图;
图3是本发明实施例提供的系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例针对现有技术中一些无法成功提供网络资源的情况,通过对浏览器增加新的功能,给出了相应的解决方法。为了解决该问题,首先需要识别出无效的网络资源。在本发明实施例中,网络资源可以包括网页、网页中的图片、音视频、供下载的文件(通常在网页中以链接的形式存在,在该文件有效的情况下,点击该链接时,可以弹出一个对话框,提示用户设定文件保存路径等信息)等等;关于无效的网络资源,从广义上讲可以包括所有没有正常显示或播放的资源,即用户通过浏览器看到的内容并不是用户所真正需要的内容。在本发明实施例中,无效的网络资源可以包括无效网页、网页中的无效页面元素或者无效下载文件等。具体而言,可以包括没有正常显示的网页、页面内容被删除的网页、网页中显示为“红叉”的图片、网页中显示为防盗链伪图的图片、网页中无法正常下载的文件等等。
如何使浏览器识别出这些无效的网络资源是一个关键问题,因此,下面首先示例性地介绍几种识别无效网络资源的方法。
方法一、第一种识别无效网络资源的方法可以是通过服务器返回的错误码来识别。这里的服务器是指提供网络资源的服务器,例如,网页所在的网站服务器,提供图片的服务器等;当出现错误时,服务器会通过HTTP协议向客户端返回错误码,指明内容无效以及无效的原因。例如,如图1所示,当用户访问某网页时,服务器可能会返回一个错误提示页面,其中在“11”处提示了“找不到网页”,并且提示出要查看的内容可能已经被删除、名称已被更改,或者暂时不可用,同时,在“12”处显示出错误码为400。又如,如果服务器返回的错误码为404b,则证明该错误是由于无法找到文件而造成的,通常是由于正在搜索的网页可能已经删除、更名或暂时不可用,换言之,如果服务器端无法找到相应的文件,则会向客户端返回404b错误。如,当用户访问的网页已经被删除时,用户看到的将是一个带有“该页面无法显示”等提示信息的网页,同时,还在该网页中显示出“错误码:404b”。因此,从浏览器端检测HTTP返回的错误码即可,通过识别这些错误码即可识别出无效的网络资源。
需要说明的是,这种方法对于无效网页、图片、供下载文件的识别都能够适用。其中,对于文件无法成功被下载的情况(其原因可能是网页中原本提供某个文件的下载,但是后来又撤掉了这个文件),用户点击该文件的链接时,将被跳转到一个无效网页上,并且服务器仍可以在该网页上提供相应的错误码信息。可见,当下载文件无效时,最终可以得到一个网页,通过识别该网页页面内容中的错误提示信息,就可以识别出无效下载文件,所以对无效网页的识别方法同样适用对无效待下载文件的识别方法。
当然,在一些特殊情况下,网络资源可能确实是无效的,但是本发明实施例可以不对其进行处理。例如,当用户不具有访问某网页的权限时,用户也会得到一个无效的网页,网页中可能也会包含相应的错误码;例如,403.6错误是由于IP地址被拒绝而造成的,即如果服务器中有不能访问该站点的IP地址列表,并且某用户当前使用的IP地址在该列表中时,服务器就会返回这条403.6错误信息。本发明实施例可以将这种错误排除在识别的范围之外,即,当涉及到由于访问权限等非客观因素造成的无效时,本发明实施例可以不予处理。
具体实现时,由于各种错误码代表的含义是固定的,因此可以预先根据需要设置需要统计的错误码,得到一个错误码列表,该错误码列表中可以保存各个错误码的编号,以及对应的无效网络资源的类型;当服务器返回某错误码时,先判断该错误码是否在预置的错误码列表之内,如果是,再将对应的网络资源识别为无效的网络资源。
方法二、在某些情况下,当网络资源没有正常显示或播放时,服务器也可能不会返回错误码。例如,如果是网站相应的功能模块尚未完成、网站被关闭正在维护等原因,则该网页也无法正常显示,但是在HTTP返回码上是正常的;又如,当网页中的其他内容都正常显示,只有图片没有正常显示,此时服务器也不会返回错误码。
虽然服务器不会返回错误码,但是针对上述各种情况都会有相应的提示信息,例如,对于无效网页,可能在页面中提示“该网页正在维护”等;或者,对于网页中的无效图片,可能会在无效图片上显示一个“红叉”等;或者,对于无效下载文件,在跳转后的网页中也可能给出“该文件已经被删除”等文字提示信息,等等。因此,对于这种无效的网络资源,可以利用这些提示信息进行识别。具体实现时,可以预先将各种错误信息进行分类,并对每一类错误信息建立提示内容的规则模板,例如,“网页正在维护”、“红叉”、“文件被删除”等都可以作为一个规则模板,同时还可以预先设置各规则模板对应的无效网络资源的类型;浏览器在识别无效网络资源时,可以将网页上的内容与各个模板进行匹配,如果匹配上,则证明是此类的无效内容。例如,某规则模板为“网页正在维护”,其对应的无效网络资源的类型为“无效网页”;则在识别无效网络资源的过程中,只要某网页的页面内容中出现了“网页正在维护”的字样,则认为出现了无效网络资源,并且该无效网络资源为无效网页。同样,对于无效的待下载文件,由于点击链接后会弹出一个网页,显示出相应的提示信息,因此也可以采用该方法。
另外,当一个网站引用源自另一个网站的图片时,很容易出现图片显示为防盗链警告图片的情况,即此时服务器返回的图片内容将不是原始图片本身,而是内容类似“该图片为盗链”的警告图片。针对这种无效图片的识别,也可以采用规则模板的方式实现。
具体的,可以预先对每一个网站的防盗链警告图片建立数字签名,形成一个数字签名库。当浏览器在识别无效图片时,可以将图片的数字签名与数字签名库进行对照,如果与数字签名库中的某数字签名相同,则说明是存在此类的无效内容。
其中,在建立规则模板时,可以采用人工的方法,即根据经验人为地建立一些规则模板;为了提高建立规则模板的效率,还可以通过服务器抓取的手段,辅助以人工检查;例如,当服务器发现一个站点下的很多页面内容相同时,则这些页面很可能就是无效页面,并将这些页面作为候选的无效页面,然后再由人工对候选的无效页面进行审核并总结出规则模板。
关于数字签名库,由于也属于规则模板的一种,因此具体的建立方法也与上述方法类似,如,首先可以通过服务器进行抓取,当服务器发现某个站点引用的很多图片内容都相同时,则可以认为这些图片可能是无效图片,然后由人工进行审核处理。
需要说明的是,使用规则模板的方法进行识别时,同样可能存在一些特殊情况,例如,对于“您不具有访问该地址的权限”等提示信息,由于仍然涉及到权限问题,因此,可以不对其进行处理。具体的实现方法与比较简单,不针对这类错误建立规则模板即可,因此,浏览器也不会发现这类错误,更不会对其进行相应的处理。
总之,在前述方法一及方法二中,都是通过识别页面内容中的错误提示信息,来识别出无效网络资源。其中,在方法一中,页面内容中的错误提示信息是指错误码,在方法二中,页面容中的错误提示信息是指文本或图片(如无效图片上显示的“红叉”等)信息。需要说明的是,关于方法一中的错误码列表,由于其目的也是使得浏览器获知识别出页面内容中的错误提示信息,因此,实际上可以看作是方法二中使用的规则模板中的一种。
方法三、在该方法三中,还可以利用用户的访问历史建立无效网络资源库,然后利用该库来识别无效网络资源。
例如,针对待下载文件这种网络资源,可以采用以下识别方法:根据用户之前的下载记录,保存一份无效文件下载链接的库;当某个属于该库的链接出现跳转的时候,则认为是无效的。即,在初始状态下(无效文件下载链接库为空时),可以根据前文所述的方法一或方法二来识别是否存在无效文件下载的情况,如果发现了无效的文件下载,则将该文件对应的链接记录到无效文件下载链接库中;这样,在后续的识别过程中,可以首先在该库中查询是否存在该文件的下载链接,如果存在,则认为该文件时无效文件。同样,对于网页、网页中的图片等其他无效页面元素,也可以采用类似的方法来进行识别。
以上所述介绍了几种识别无效网络资源的方法,当然在实际应用中,还可以采用其他的识别方法,这里并不做限定。
从前文所述可以看出,导致出现上述无效网络资源的原因可能是访问的网页被管理员删除了,或者网站正在维护而导致网页暂时不可用,或者网络拥塞导致服务器无法响应,或者网速比较慢等等。也即,在正常情况下,用户是应该获取到这些网络资源的。在本发明实施例中,在识别出无效网络资源之后,还可以获取替代网络资源,然后将这些替代网络资源提供给用户,以尽量使得提供的网络资源的准确率提高,从用户应用的角度来讲,也可以尽可能地满足用户的需求。
需要说明的是,各种网络资源,无论是网页、网页中的图片、待下载文件等等,都具有自己的定位信息,都可以利用该定位信息在网络中进行定位。定位信息的具体表示方法可能有多种,这里可以不进行限定,只要能够唯一定位到一个网络资源即可。例如,定位信息可以包括目前常用的统一资源标识符(Uniform Resource Identifier,URI)、统一资源定位符(UniformResource Locator,URL)、统一资源名称(Uniform Resource Name,URN)、统一资源引用符(Uniform Resource Citation,URC),当然也可以是将来可能研究出来的某种新的定位信息,等等。为方便描述,本发明实施例中均以URL为例进行介绍。当某些网络资源无效时,这些网络资源的URL是有效的(如图1中所示,虽然当前网页没有正常显示,但是“13”指示的地址栏处依然可以显示出该网页的URL),即浏览器能够获取到这些无效网络资源的URL,然后就可以利用该URL来获取相应的替代网络资源,并提供给用户。
其中,利用无效网络资源的URL来获取替代网络资源的具体方法可以有多种,下面也仅示例性地介绍几种。
方法一、在介绍该方法一之前,首先介绍一下搜索引擎的工作原理。通常,在搜索引擎的搜索入口中输入查询词时,搜索引擎能够针对查询词给出相应的搜索结果,在日常应用中,这些搜索结果通常为多个网页的链接。为了达到该目的,需要预先尽可能地收集网络中的所有网页,并且每找到一张网页,都要将该网页当前的内容复制下来,放入自己的网页数据库中,到最后,它就把网络中几乎所有的网页都收罗到这个网页数据库中了,这个数据库中包含了所有被复制下来的网页内容,这些被复制下来的网页内容称为网页快照。实际上,搜索引擎的网页数据库中不仅可以包括网页快照,还可以包括各种网络资源的快照。
需要说明的是,快照中的内容仅仅是对应网页被找到时显示的内容,通常是通过保存该网页当时的HTML代码,如果此后该网页的内容发生了变化,该快照的内容也是不变的。因此,即使此后将网页中的某网络资源被删除,该网页快照中仍然会存在该被删除的内容。
另外,搜索引擎的网页数据库中,除了保存有快照,还保存有网络资源的URL及网页标题、摘要等内容,并且各部分内容之间具有对应关系。例如,当用户输入查询词之后,搜索引擎给出的结果中,对于一个网页而言,可能既包括以网页标题为链接文本的链接,又包括以网页URL为链接文本的链接,两者都可以作为网页的入口,即用户点击这两个链接都可以跳转到该网页;同时,还包括以“网页快照”为链接文本的链接,该链接是该网页的快照的入口,即当点击该链接时,将跳转到该网页的快照页面。
基于以上所述,本发明实施例可以利用搜索引擎的快照来提供无效网络资源的替代网络资源。具体实现时,可以利用通用的搜索引擎或者有合作关系的搜索引擎来实现。
其中,在使用通用的搜索引擎时,可以在识别出无效网络资源后,直接由浏览器将该网络资源的URL作为关键字在通用搜索引擎中进行搜索,在搜索结果页中获取“网页快照”的链接,访问该链接便可以得到替代内容。该方法对于网页被删除、网页暂时无法访问或者由于网络繁忙网页服务器拒绝响应等原因造成的网页无法正常显示的情况,比较适用。
对于无效的图片等网页中的部分内容,由于通用的搜索引擎通常可能不提供直接对图片URL的搜索结果,因此,在这种方法下,如果无效的网络资源是网页中的页面元素,则无法通过直接将该资源的URL在搜索引擎中搜索而得到替代内容,一种可行的方案可以是:将该无效的网络资源所在网页的URL在搜索引擎中搜索,将相应的搜索结果作为原无效网络资源所在网页的替代内容。
在使用有合作关系的搜索引擎时,可以由合作的搜索引擎服务器,直接向浏览器提供访问快照的入口,浏览器将无效网络资源的URL作为关键字,直接访问搜索引擎服务器提供的快照入口,获取替代内容。具体的实现方法与使用通用的搜索引擎时相似,不同之处仅在于,由于与搜索引擎具有合作关系,因此,可以充分地利用快照资源,即对于网页中存在无效图片的情况,可以直接利用该图片的URL进行搜索,获取相应的图片快照。
方法二、由于有的浏览器为了提高访问网页的速度,提供了“全网加速”功能,为实现该功能,会在服务器中存放网络上各个URL(包括网页、图片等)在过去时刻的Cache(缓存)。即只要有用户访问过某URL,就将该URL对应的网页中的内容缓存在浏览器的服务器中,以便其他用户在访问同样的URL时,可以直接从缓存中取出相应的数据,从而提升访问速度。
因此,本发明实施例也可以通过访问该缓存来获取替代内容。具体实现时,可以由浏览器的服务器提供访问缓存的接口,这样,在需要获取替代内容时,就可以直接利用无效网络资源的URL在缓存中进行搜索,接下来的实现过程与在搜索引擎中搜索相似。当然,由于是服务器直接将访问缓存的入口提供给浏览器,因此,对于无效图片等网络资源,也可以直接利用网络资源的URL进行搜索获取替代内容。
方法三、对于无效下载文件,可以采用P2P(peer-to-peer,点对点)的方式来获取替代网络资源。其中,P2P又称为对等互联网络技术,是一种用于不同PC(Personal Computer,个人计算机)用户之间,不经过中继设备直接交换数据或服务的技术。在P2P网络中,PC用户可以直接连接到其他用户的计算机,而不需要连接到服务器上再进行浏览与下载。
在本发明实施例中,就可以构建一个P2P网络(基于公开协议和自有协议的均可),用户每下载一个文件,就可以在P2P网络共享这一文件。这样,只要有用户下载过某文件,即使该文件此后被删除,也可以通过在P2P网络中查找这一文件并获取。
例如,当浏览器识别出某无效下载文件时,就可以向P2P网络服务器发起请求,并向P2P网络服务器提供该无效下载文件的URL,P2P网络服务器利用该URL查找到曾经成功下载过该文件的用户,如果找到,就可以向浏览器返回响应信息,浏览器收到该响应消息就认为找到了替代文件。当然,该方法对于获取无效网页、网页中无效网络资源的替代内容都是有效的,具体的,对于无效网页,可以为用户提供其他用户之前访问时的网页内容,对于网页中的无效页面元素,可以为用户提供其他用户之前访问时的页面元素。
需要说明的是,通过P2P方式查找替代网络资源时,从某个或某些用户处查找到替代网络资源后,替代网络资源仍然保存在这些用户的本地,通过P2P网络,用户之间可以直接完成网络资源的传输,对此,后续会有较为详细地介绍。
以上介绍了利用无效网络资源的URL来获取替代网络资源的方法,在实际应用中,也可以利用无效网络资源的其他特征信息来获取替代网络资源。例如,对于无效网页或无效下载文件,还可以利用该无效网页或指该无效下载文件的Anchortext(链接文本),来获取替代网络资源。其中,链接文本是指一条链接上显示出的文字内容,例如,在个人网站上把中央电视台(www.cctv.com)作为新闻频道的链接,访问者通过点击网站上“新闻频道”这一链接可以进入http://www.cctv.com网站,那么“新闻频道”这几个字就是中央电视台网站首页的链接文本。如果用户是通过点击某链接来打开某网页或者下载某文件,则浏览器可以获取到这些网页或文件的链接文本,由于链接文本通常能作为对所指向网页页面内容的评估,因此链接文本通常能精确地描述所指向网页的页面内容,因此,也可以作为网络资源的一项特征信息。在当网络资源无效时,可以利用这些链接文本在搜索引擎中获取与该无效网络资源相近的其他网络资源,作为替代网络资源提供给用户。
为了使得提供的替代网络资源尽量满足用户的需求,在使用无效网络资源的链接文本获取替代网络资源时,还可以利用无效网络资源的Referrer(引用页)作为辅助信息。其中,Referrer用户指示哪个网页添加的该无效网络资源的链接。当浏览器向web服务器发送请求的时候,一般会带上Referrer信息,告诉服务器该请求是从哪个页面链接过来的,也就是让网站知道是从那个网页进入其站点的;服务器籍此可以获得一些信息用于处理,比如从用户A的主页上链接到用户B的主页,那么,用户B主页的服务器就能够从HTTPReferrer中统计出每天有多少用户通过点击用户A主页上的链接访问用户B的主页。
由于页面中增加的链接通常都会和页面本身的内容有一定的关系,例如,服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接等等,因此,在利用无效网络资源的链接文本进行搜索获取替代资源的过程中,可以利用无效网络资源的Referrer信息对搜索结果进行过滤,将与引用页的内容完全不相关的搜索结果过滤掉,还可以根据搜索结果与引用页内容的相关程度,从搜索结果中选择最优的替代网络资源,并提供给用户。这样,可以提高替代网络资源满足用户需求的概率。
当然,在其他实施例中,在查找替代资源时,也可以将无效网络资源的URL、Anchor、Referrer作为一个整体去描述用户需求,以便进一步提高替代网络资源满足用户需求的概率。
按照上述方法识别出无效网络资源,并获取到相应的替代内容之后,就可以将获取到的替代内容展现给用户了。这样,用户能够看到的将不再仅仅是带有错误提示信息的页面,或者页面中的“红叉”等,而是可以看到自己想要看到的内容。
具体的提供替代内容方式也可以有多种,例如,对于无效网页的替代内容,由于也是一个网页,用户的原意是通过浏览器看到该网页中的内容,因此,需要将替代网页展现给用户。为此,可以直接在新的窗口或标签页中显示该网页,或者在原无效网页所在的标签页中进行跳转,即从原无效网页直接跳转到替代的网页。
对于网页中的无效页面元素,与无效网页类似,同意需要将替代网络资源展现给用户。为此,可以通过改写无效页面元素所在原网页的HTML代码等方式,将获取到的替代网络资源展现在原网页中原无效页面元素的位置,或者,也可以新建一个窗口或标签页,在该新建的窗口或标签页中仅显示出该替代网络资源也是可行的。
对于无效下载文件,用户的原意是通过浏览器将文件下载到本地,因此,在提供替代文件时,可以直接通过调用P2P网络,由其他用户将该文件传输到该用户的本地即可。例如,在通过P2P网络查找到替代文件之后,浏览器可以向用户显示提示消息,如“浏览器为您找到了替代文件,是否下载到本地?”,如果用户同意下载,还可以提供一个界面(可以是对话框等形式)供用户选择文件的保存路径,用户选择完毕之后,就可以由其他用户通过P2P的方式将文件传输到该用户的本地。当然,也可以不显示提示消息,直接通过P2P网络将替代文件传输到该用户的本地;或者,也可以在向P2P网络服务器发起请求之前,提示用户将要通过P2P网络获取该文件,在用户同意的情况下,再进行后续的操作。
此外,需要说明的是,前述几种替代资源的提供方式,可以根据实际需要只选择其中的任意一种(比如只针对页面元素或者只针对下载文件提供替代网络资源),或者任意几种组合(比如无论对页面元素还是下载文件都提供替代网络资源)。
综上可见,参见图2,本发明实施例提供的提供网络资源的方法可以包括以下步骤:
S201:识别无效网络资源。具体的识别方法包括上述介绍的多种具体实施方式。
S202:利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源。以上可以利用、以便得到替代网络资源的各种无效网络资源的信息(比如上述提到的定位信息、链接文本、引用页信息)都可以视为是无效网络资源的特征信息,在获知这些无效网络资源的特征信息后,都可以依据其中的至少一种来查找无效网络资源的替代网络资源。
S203:将所述替代网络资源提供给用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:识别出无效网络资源;利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;将所述替代网络资源提供给用户。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
与本发明实施例提供的提供网络资源的方法相对应,本发明实施例还提供了一种提供网络资源的系统,参见图3,该系统包括:
识别单元301,用于识别出无效网络资源;
替代查找单元302,用于利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;
替代提供单元303,用于将所述替代网络资源提供给用户。
其中,所述无效网络资源包括无效网页,或者网页中的无效页面元素,或者无效下载文件。
在识别无效网络资源时,识别单元301可以包括:
第一识别单元,用于读取页面内容,通过识别页面内容中的错误提示信息,识别无效网络资源。
具体的,所述读第一识别单元包括:
模板比对子单元,用于读取页面内容,将所述页面内容与预置的规则模板进行比对,识别出页面内容中的错误提示信息。
在其他方法中,识别单元301也可以包括:
第二识别单元,用于根据用户的访问历史记录,识别出无效网络资源。
查找替代网络资源的方法也可以有多种,具体的,所述特征信息包括所述无效网络资源的定位信息或所述无效网络资源所在网页的定位信息,替代查找单元302可以包括:
第一查找子单元,用于在搜索引擎中搜索所述无效网络资源的定位信息或所述无效网络资源所在网页的定位信息对应的快照,将所述快照作为所述无效网络资源的替代网络资源;或者
第二查找子单元,用于在浏览器的服务器缓存中搜索所述无效网络资源的定位信息或所述无效网络资源所在网页的定位信息对应的缓存内容,将所述缓存内容作为所述无效网络资源的替代网络资源;或者
第三查找子单元,用于在P2P网络中查找其他用户之前保存的与所述无效网络资源的定位信息或所述无效网络资源所在网页的定位信息对应的网络资源,将所述查找到的网络资源作为所述替代网络资源。
或者,特征信息也可以是无效网络资源的链接文本,相应的,替代查找单元302可以包括:
第四查找子单元,用于在搜索引擎中搜索所述链接文本对应的网络资源,根据所述搜索到的网络资源确定所述替代网络资源。
为了提高替代网络资源的准确性,特征信息还可以包括无效网络资源的引用页信息,此时,第四查找子单元具体可以用于利用所述引用页信息对所述搜索到的网络资源进行过滤,并确定所述替代网络资源。
向用户提供替代网络资源时也可以有多种方法,其中,当无效网络资源为无效网页或网页中的页面元素时,替代提供单元303可以包括:
第一提供子单元,用于当无效网络资源为无效网页或网页中的页面元素时,利用所述替代网络资源替换所述无效网络资源,将所述替代网络资源展现在原无效网络资源所在的页面中;或者
第二提供子单元,用于当无效网络资源为无效网页或网页中的页面元素时,在新建的窗口或标签页中展现所述替代网络资源。
当所述无效网络资源为无效下载文件时,替代提供单元303可以包括:第三提供子单元,用于当所述无效网络资源为无效下载文件时,将所述替代网络资源传输给用户。
此外,需要说明的是,前述几种提供子单元可以根据实际需要任意选择其中一种,或者任意组合。比如只针对页面元素提供替代网络资源,那么就可以只选择第一提供子单元和/或第二提供子单元;又例如,只针对下载文件提供替代网络资源,那么可以只选择第三提供子单元;再例如,如果对页面元素和下载文件都提供替代网络资源,那么可以只选择第一提供子单元和第三提供子单元,或者只选择第二提供子单元和第三提供子单元,或者也可以第一、第二、第三提供子单元都选择。
以上对本发明所提供的一种提供网络资源的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种提供网络资源的方法,其特征在于,包括:
识别无效网络资源;
利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;
将所述替代网络资源提供给用户;
其中,所述特征信息包括所述无效网络资源的链接文本和引用页信息,所述利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源包括:
在搜索引擎中搜索所述链接文本对应的网络资源,利用所述引用页信息对搜索到的网络资源进行过滤,并确定所述替代网络资源。
2.根据权利要求1所述的方法,其特征在于,所述无效网络资源包括无效网页,或者网页中的无效页面元素,或者无效下载文件。
3.根据权利要求1所述的方法,其特征在于,所述识别无效网络资源包括:
读取页面内容,通过识别页面内容中的错误提示信息,识别无效网络资源。
4.根据权利要求1所述的方法,其特征在于,所述识别无效网络资源包括:
根据用户的访问历史记录,识别无效网络资源。
5.根据权利要求1所述的方法,其特征在于,所述将所述替代网络资源提供给用户包括:
当所述无效网络资源为无效网页或网页中的页面元素时,利用所述替代网络资源替换所述无效网络资源,将所述替代网络资源展现在原无效网络资源所在的页面中;
和/或,
当所述无效网络资源为无效网页或网页中的页面元素时,在新建的窗口或标签页中展现所述替代网络资源;
和/或,
当所述无效网络资源为无效下载文件时,将所述替代网络资源传输给用户。
6.一种提供网络资源的系统,其特征在于,包括:
识别单元,用于识别出无效网络资源;
替代查找单元,用于利用所述无效网络资源的特征信息,查找所述无效网络资源的替代网络资源;
替代提供单元,用于将所述替代网络资源提供给用户;
其中,所述特征信息包括所述无效网络资源的链接文本和所述无效网络资源的引用页信息,所述替代查找单元包括:
第四查找子单元,用于在搜索引擎中搜索所述链接文本对应的网络资源,利用所述引用页信息对搜索到的网络资源进行过滤,并确定所述替代网络资源。
7.根据权利要求6所述的系统,其特征在于,所述无效网络资源包括无效网页,或者网页中的无效页面元素,或者无效下载文件。
8.根据权利要求6所述的系统,其特征在于,所述识别单元包括:
第一识别单元,用于读取页面内容,通过识别页面内容中的错误提示信息,识别无效网络资源。
9.根据权利要求8所述的系统,其特征在于,所述第一识别单元包括:
模板比对子单元,用于读取页面内容,将所述页面内容与预置的规则模板进行比对,识别出页面内容中的错误提示信息。
10.根据权利要求6所述的系统,其特征在于,所述识别单元包括:
第二识别单元,用于根据用户的访问历史记录,识别出无效网络资源。
11.根据权利要求7所述的系统,其特征在于,所述替代提供单元包括:
第一提供子单元,用于当所述无效网络资源为无效网页或网页中的页面元素时,利用所述替代网络资源替换所述无效网络资源,将所述替代网络资源展现在原无效网络资源所在的页面中;
和/或,
第二提供子单元,用于当所述无效网络资源为无效网页或网页中的页面元素时,在新建的窗口或标签页中展现所述替代网络资源;
和/或,
第三提供子单元,用于当所述无效网络资源为无效下载文件时,将所述替代网络资源传输给用户。
CN2010101333761A 2010-03-25 2010-03-25 一种提供网络资源的方法及系统 Active CN102200980B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010101333761A CN102200980B (zh) 2010-03-25 2010-03-25 一种提供网络资源的方法及系统
PCT/CN2011/072097 WO2011116696A1 (zh) 2010-03-25 2011-03-24 一种提供网络资源的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101333761A CN102200980B (zh) 2010-03-25 2010-03-25 一种提供网络资源的方法及系统

Publications (2)

Publication Number Publication Date
CN102200980A CN102200980A (zh) 2011-09-28
CN102200980B true CN102200980B (zh) 2013-06-19

Family

ID=44661664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101333761A Active CN102200980B (zh) 2010-03-25 2010-03-25 一种提供网络资源的方法及系统

Country Status (2)

Country Link
CN (1) CN102200980B (zh)
WO (1) WO2011116696A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663062B (zh) * 2012-03-30 2015-01-14 北京奇虎科技有限公司 一种处理搜索结果中无效链接的方法及装置
CN102647417B (zh) * 2012-03-31 2017-03-29 北京奇虎科技有限公司 网络访问的实现方法、装置和系统、以及网络系统
CN102868753B (zh) * 2012-09-25 2016-03-02 网宿科技股份有限公司 基于内容分发网络优化后自适应的空响应恢复方法和装置
CN102937981A (zh) * 2012-10-18 2013-02-20 北京奇虎科技有限公司 网页呈现系统和方法
CN103001954B (zh) * 2012-11-22 2016-03-09 深圳市共进电子股份有限公司 一种web服务器文件保护方法及系统
CN104052777A (zh) * 2013-03-14 2014-09-17 神乎科技股份有限公司 信息服务方法及系统
CN103546830B (zh) * 2013-10-28 2017-08-08 Tcl集团股份有限公司 一种视频地址失效的处理方法及系统
CN103593429B (zh) * 2013-11-07 2017-02-15 北京奇虎科技有限公司 一种检测商品模板失效的方法及装置
CN103631905A (zh) * 2013-11-22 2014-03-12 北京奇虎科技有限公司 一种网页的加载方法和浏览器
CN104750741A (zh) * 2013-12-30 2015-07-01 中国移动通信集团湖南有限公司 一种无效链接处理方法及装置
CN105243073A (zh) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 一种书签访问方法、装置及终端
CN105528355A (zh) * 2014-09-29 2016-04-27 优视科技有限公司 一种下载处理方法及装置
CN105187505A (zh) * 2015-08-11 2015-12-23 魅族科技(中国)有限公司 一种下载处理方法和装置
CN106487832B (zh) * 2015-08-26 2019-09-20 阿里巴巴集团控股有限公司 网络信息处理方法及装置
CN106649389A (zh) * 2015-11-03 2017-05-10 阿里巴巴集团控股有限公司 一种页面推送方法及装置、网络系统
CN105787032B (zh) * 2016-02-25 2019-03-29 广州神马移动信息科技有限公司 网页快照的生成方法及装置
CN108737327B (zh) 2017-04-14 2021-11-16 阿里巴巴集团控股有限公司 拦截恶意网站的方法、装置、系统和存储器
CN108600342B (zh) * 2018-03-30 2020-01-10 连尚(新昌)网络科技有限公司 一种消息显示方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706507A (en) * 1995-07-05 1998-01-06 International Business Machines Corporation System and method for controlling access to data located on a content server
CN1504928A (zh) * 2002-12-02 2004-06-16 �Ҵ���˾ 用于访问网页内容的系统和方法
CN101379505A (zh) * 2006-02-13 2009-03-04 国际商业机器公司 阻止Web浏览器从不期望的源加载内容
CN101620610A (zh) * 2008-06-30 2010-01-06 国际商业机器公司 Web内容纠正方法和装置,Web内容纠正服务方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706507A (en) * 1995-07-05 1998-01-06 International Business Machines Corporation System and method for controlling access to data located on a content server
CN1504928A (zh) * 2002-12-02 2004-06-16 �Ҵ���˾ 用于访问网页内容的系统和方法
CN101379505A (zh) * 2006-02-13 2009-03-04 国际商业机器公司 阻止Web浏览器从不期望的源加载内容
CN101620610A (zh) * 2008-06-30 2010-01-06 国际商业机器公司 Web内容纠正方法和装置,Web内容纠正服务方法和设备

Also Published As

Publication number Publication date
WO2011116696A1 (zh) 2011-09-29
CN102200980A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102200980B (zh) 一种提供网络资源的方法及系统
US9300755B2 (en) System and method for determining information reliability
CN102333122B (zh) 一种下载资源提供方法、装置及系统
US20160203193A1 (en) Context aware query selection
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN105608134A (zh) 一种基于多线程的网络爬虫系统及其网页爬取方法
US20130290369A1 (en) Contextual application recommendations
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
CN104036011A (zh) 网页元素的显示方法以及浏览器装置
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
US8579187B2 (en) System and method to identify machine-readable codes
US20100161599A1 (en) Computer Method and Apparatus of Information Management and Navigation
KR20090048998A (ko) 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN103905434A (zh) 一种网络数据处理方法和装置
CN102306181B (zh) 提供网络资源的方法及系统
US9477769B2 (en) Method and system for detecting original document of web document, method and system for providing history information of web document for the same
CN108399224A (zh) 一种网络购物信息的推送的方法
KR101853388B1 (ko) 소외 광고용 소셜 컨텍스트
US20090125516A1 (en) System and method for detecting duplicate content items
US20080114786A1 (en) Breaking documents
JP4084962B2 (ja) 緊急時企業情報公開システム
TWI627545B (zh) Online community media instant news screening and notification method
KR101079802B1 (ko) 웹사이트 검색 방법 및 시스템과 웹사이트 검색 장치 및이를 위한 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant