CN104468807B - 进行网页缓存的处理方法、云端装置、本地装置及系统 - Google Patents

进行网页缓存的处理方法、云端装置、本地装置及系统 Download PDF

Info

Publication number
CN104468807B
CN104468807B CN201410773837.XA CN201410773837A CN104468807B CN 104468807 B CN104468807 B CN 104468807B CN 201410773837 A CN201410773837 A CN 201410773837A CN 104468807 B CN104468807 B CN 104468807B
Authority
CN
China
Prior art keywords
web
data
cache
caching
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410773837.XA
Other languages
English (en)
Other versions
CN104468807A (zh
Inventor
王齐
冀涛
黄卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiwang boundless Technology Co. Ltd.
Original Assignee
Beijing Yiwang Boundless Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiwang Boundless Technology Co Ltd filed Critical Beijing Yiwang Boundless Technology Co Ltd
Priority to CN201410773837.XA priority Critical patent/CN104468807B/zh
Publication of CN104468807A publication Critical patent/CN104468807A/zh
Application granted granted Critical
Publication of CN104468807B publication Critical patent/CN104468807B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种进行网页缓存处理方法、云端装置、本地装置及系统。所述系统包括至少一本地装置,用于接收客户端请求,获得缓存或者外部服务器的网页数据,作为客户端回应数据;获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制;云端装置,用于根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本发明可调整缓存的网页数据的更新周期,节省访问网页的带宽。

Description

进行网页缓存的处理方法、云端装置、本地装置及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种进行网页缓存处理方法、云端装置、本地装置及系统。
背景技术
网页浏览器是个显示网页服务器或档案系统内的文件,并让用户与此些文件互动的一种软件。它用来显示在万维网或局部局域网络等内的文字、影像及其他资讯。这些文字或影像,可以是连接其他网址的超链接,用户可迅速及轻易地浏览各种资讯。
现有的网页缓存系统保存着用户最近请求过的网页数据,当用户再次请求该页面时,即请求命中缓存中的网页数据,网页缓存系统使用本地缓存的网页数据替代请求URL实际的网页数据。当用户请求未保存过的网页数据时,即请求未命中缓存中的网页数据,网页缓存系统代理用户请求获取真实的网页内容,并将其保存在本地缓存内。这样,当用户下一次请求相同的网页数据时,就能加快请求的响应速度。
现有的网页缓存系统一般通过四种方式判断是否需要刷新缓存内容,分别是通过HTTP包头的Expire字段、Cache-Control字段的Max-age字段、Last-Modified/If-Modify-since字段和ETag/If-None-Match字段。
其定义如下:
Expires字段:声明了一个网页或URL地址不再被浏览器缓存的时间,一旦超过了这个时间,浏览器都应该联系外部服务器,其为格林威治时间GMT。
Cache-Control字段的Max-age字段:页面最长有效时间。比如,Cache-control:max-age=5,表示当访问此网页后的5秒内不会再次访问外部服务器。
Last-Modified字段:外部服务器端对资源的最后一次修改的时间。客户端第一次请求资源,外部服务器端下发了Last-Modified,客户端保存起来,再次请求同一资源时,将其写入request的If-Modified-Since字段发送给服务端,若服务端发现该资源为更新,则直接返回403(Not Changed),客户端将缓存数据返回给UI。
If-Modified-Since字段:客户端存取该资源的最后一次修改的时间,与Last-Modified字段对应。
ETag字段:响应客户端存取资源的校验值。客户端第一次请求资源,外部服务器端下发了Etag,客户端保存起来,再次请求同一资源时,将其写入request的If-None-Match字段发送给外部服务器端,若外部服务器端发现该资源为更新,则直接返回403(NotChanged),客户端将缓存数据返回给UI。
If-None-Match字段:客户端存取的该资源的检验值,与ETag字段对应。
网页缓存系统通过两种方式判断存储的网页数据是否过期,即是否旭曜更新缓存的网页数据。第一种方式是通过Expires字段或者Max-age字段,由服务器告知本地缓存管理装置当前网页的有效时间,在此有效时间内页面内容不会更新。不同的是,Expires字段提供的是绝对时间,而Max-age字段提供的是相对时间。另一种方式是通过Last-Modified/If-Modify-since字段或者ETag/If-None-Match字段,在请求命中缓存中的网页数据时,网页缓存系统会通过HTTP协议中的Last-Modified/If-Modify-since字段和ETag/If-None-Match字段去真实的网页服务器查询请求的URL内容是否有变化。如果没有变化则返回一个很短的报文,而在有变化的时候,返回完整的页面内容数据。
对于第一种方式,一般的网站为了保证用户可以尽快的获取新发布的网页数据,会将Expire/Max-age字段的时间会设置的非常短,比如1分钟。但是,实际上,在Expire/Max-age字段标示的网页数据过期时间后,网页数据并不一定会有真正的变化。而网页缓存系统无法获得网页数据的真实变化情况,这就会导致网页缓存系统重新获取的网页数据和保存在缓存中的网页数据相同,浪费了流量带宽。
对于第二种方式,支持Last-Modified/If-Modify-since或者ETag/If-None-Match包头的网站,虽然这两种协议可以使网页缓存系统快速的获知网页数据是否变化。但是,网页缓存系统向外部服务器发送的请求本身是基于HTTP报文的,其报文本身的长度需要几百字节,其中包含了大量的冗余信息,增加了数据交互的复杂度。
公开日为2014年3月5日的中国专利CN103618799公开了浏览器缓存处理方法、系统及代理其与浏览器缓存策略信息对应缓存代码不需要网站制作人员进行编写,而是由代理生成与所述浏览器缓存策略信息对应的缓存代码。因此,解决了浏览器缓存策略通用性差的问题。但是该技术方案是浏览器和一种特殊的代理之间进行配合,来达到加速网站阅览的目的。其所述的代理通过修改网页代码使浏览器本身的缓存行为出现变化。该方案仍需要通过代理对网页代码进行处理,添加包含缓存策略的缓存代码,其对网页代码进行修改增加了网页显示错误的概率。
因此,如何实现网页缓存的管理成为亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种进行网页缓存处理方法、云端装置、本地装置及系统,其可调整缓存的网页数据的更新周期,节省访问网页的带宽。
本发明提供一种进行网页缓存处理方法,应用于云端装置,所述方法包括:
接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息;
如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表,否则,将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果;
间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据;
对所述网页数据进行分析,获取所述网页的摘要信息;
将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果;
若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中;
根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
在本申请一具体实施例中,所述间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据为:
获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
在本申请一具体实施例中,所述URL包括所监控网页的Last-Modified或者Etag字段;
所述本地装置发送的网页监控请求为私有协议报文。
本申请还提供一种进行网页缓存处理方法,应用于本地装置,所述方法包括:
接收云端装置发送的规则数据,并发送网页监控请求给云端装置;
根据所述规则数据,更新所保存的缓存刷新机制;
接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据;
若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
在本申请一具体实施例中,所述根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
在本申请一具体实施例中,所述根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
在本申请一具体实施例中,所述根据规则数据,更新所保存的缓存刷新机制包括:
若规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志;
若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
本申请还提供一种进行网页缓存处理的云端装置,包括:
网页获取模块,用于间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据;
网页分析模块,用于对所述网页数据进行分析,获取所述网页的摘要信息;
网页对比模块,用于将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果,若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中;
缓存服务器管理模块,用于接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息;如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表;根据网页对比模块的比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
在本申请一具体实施例中,所述网页获取模块还用于,获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
在本申请一具体实施例中,所述URL包括所监控网页的Last-Modified或者Etag字段;
所述本地装置发送的网页监控请求为私有协议报文。
本申请还提供一种进行网页缓存处理的本地装置,包括:
云端连接模块,用于接收云端装置发送的规则数据,并发送网页监控请求给云端装置;
缓存刷新模块,用于保存缓存刷新机制;
缓存管理模块,用于根据所述规则数据,更新缓存刷新模块保存的缓存刷新机制;接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据;若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
在本申请一具体实施例中,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
在本申请一具体实施例中,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
在本申请一具体实施例中,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
若规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志;
若若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
本申请还提供一种进行网页缓存处理的系统,包括:
至少一本地装置,用于接收客户端请求,获得缓存或者外部服务器的网页数据,作为客户端回应数据;获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制;
云端装置,用于根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。
由以上技术方案可见,本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明进行网页缓存处理的方法一实施例的流程图;
图2是本发明进行网页缓存处理的方法另一实施例的流程图;
图3本发明进行网页缓存处理的云端装置一实施例的结构图;
图4本发明进行网页缓存处理的本地装置一实施例的结构图;
图5是本发明本发明进行网页缓存处理的系统一实施例的结构图。
具体实施方式
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
当然,实施本发明的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
下面结合本发明附图进一步说明本发明具体实现。
本发明提供一种进行网页缓存处理方法,应用于云端装置。所述云端装置通常为服务器,在具体实现中,可以为分布式服务器。
参看图1,本申请一具体实施例中所述进行网页缓存处理方法包括:
S1、接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息。
具体地,所述摘要信息为本地装置缓存的该监控网页的MD5信息。MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。
S2、如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表,否则,执行步骤S5。
云端装置根据接收的网页监控请求,对网页数据库进行查询,查询所述监控网页的摘要信息是否在网页数据库中。如果网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表。即,增加一个监控任务到原监控列表。如果网页数据库中存在所述监控网页的摘要信息,则直接执行步骤S5。
S3、间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据。
云端装置每间隔预设周期,登陆外部服务器,从所述外部服务器下载监控列表中的全部URL对应的网页数据。所述预设周期由本领域普通技术人员根据需求进行选取。
S4、对所述网页数据进行分析,获取所述网页的摘要信息。
云端装置对从外部服务器下载的网页数据进行分析,提取关键信息,获取所述网页的摘要信息。具体地,所述摘要信息为计算网页数据获得的MD5信息。具体计算方法采用现有的MD5算法,故在此不再赘述。
S5、将网页摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。
如果步骤S2中的网页数据库中存在所述监控网页的摘要信息,则直接执行步骤S5,即将所述监控网页的摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将云端装置接收到的网页监控请求中的所监控网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得网页的变化情况。
步骤S4中获得的网页的摘要信息为间隔预设周期从外部服务器下载的监控列表中网页的摘要信息,即定期监控的网页的摘要信息。将步骤S4中的网页的摘要信息同网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将定期监控的网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得定期监控的网页的变化情况。
S6、若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中。
步骤S4中网页摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,比较的结果不同,则表明网页发生变化,将变化网页的摘要信息更新至所述网页数据库中。
步骤S2中如网页数据库中不存在所述监控网页的摘要信息,则执行步骤S3、S4获得所述监控网页的摘要信息。此时,由于步骤S2已经判断过网页数据库中不存在所述监控网页的摘要信息,则将所述网页的摘要信息更新至所述网页数据库中。
S7、根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
根据步骤S6中的比较结果,判断网页的变化情况,从而产生规则数据。云端装置将该规则数据发送给本地装置,本地装置根据规则数据控制其缓存刷新机制。
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
在本发明另一具体实施例中,包括上述步骤S1——S7,其中,所述步骤S3为:
获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
本地装置将各监控网页的URL的请求热度发送给云端装置,云端装置的监控列表根据各监控网页的URL的请求热度进行排序,优先跟踪请求热度高的网页数据。
因此,本发明能够更加保证请求热度高的网页数据获得更好的网页变化监控,从而根据网页的变化,产生规则数据,控制本地装置的缓存刷新机制。
在本发明另一具体实施例中,如缓存对象中存在Cache-Control头部的Max-age属性或者Expires头部时,所述步骤S7包括:
根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置修改Max-age值或者Expires值,或者删除缓存中的网页数据。
具体地,缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除。
具体地,缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除。
在本发明另一具体实施例中,所述进行网页缓存处理方法包括:
S1、接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息。
具体地,所述摘要信息包括本地装置缓存的该监控网页的MD5信息。MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。
本地装置处理带有Last-Modified/If-Modify-since或者ETag/If-None-Match的HTTP请求时,本地装置向云端装置发送网页监控请求的URL带有Last-Modified或ETag字段。所述本地装置向云端装置发送的网页监控请求为私有协议报文,即带有Last-Modified或ETag字段的URL和本地装置缓存的该监控网页的MD5信息为私有协议报文。
由于现有技术中本地装置直接向外部服务器发送带有Last-Modified/If-Modify-since或者ETag/If-None-Match的HTTP请求。这种请求本身是基于HTTP报文的,其报文本身的长度需要几百字节,其中包含大量的冗余信息。因此,本发明本地装置向云端装置发送的网页监控请求,即带有Last-Modified或ETag字段的URL和监控网页的MD5信息,为私有协议报文,数据量极小。本发明极大的简化了HTTP报文的冗余数据,解决了频繁的带有Last-Modified/If-Modify-since的HTTP请求的数据交互问题。
本发明通过使用私有协议完成本地装置向云端装置发送网页监控请求,可以极大的减少本地缓存系统对外部服务器查询网页资源是否变化时的交互数据,减少本地装置的处理时间和流量消耗。
S2、如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表,否则,执行步骤S5。
云端装置根据接收的网页监控请求,对网页数据库进行查询,查询所述监控网页的摘要信息是否在网页数据库中。如果网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表。即,增加一个监控任务到原监控列表。如果网页数据库中存在所述监控网页的摘要信息,则直接执行步骤S5。
S3、间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据。
云端装置每间隔预设周期,登陆外部服务器,向外部服务器发送带有If-Modify-since或If-None-Match字段的HTTP请求,从所述外部服务器下载监控列表中的全部URL对应的网页数据。所述预设周期由本领域普通技术人员根据需求进行选取。
由于If-Modify-since或If-None-Match字段请求的特殊性,当外部服务器的对应网页数据没有改变时,会返回云端装置一个很短的带有304 HTTP状态码(数据内容未修改)的回应报文;当外部服务器的对应网页数据发生改变时,就会返回云端装置一个完整的网页数据。
S4、对所述网页数据进行分析,获取所述网页的摘要信息。
如果外部服务器返回的是带有304 HTTP状态码的回应报文,则所述网页的摘要信息包括网页数据未变化标志。
如果外部服务器返回的是一个完整的网页数据,则所述网页的摘要信息包括计算网页数据获得的MD5信息。具体计算方法采用现有的MD5算法,故在此不再赘述。
S5、将网页摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。
如果步骤S2中的网页数据库中存在所述监控网页的摘要信息,则直接执行步骤S5,即将所述监控网页的摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将云端装置接收到的网页监控请求中的所监控网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得网页的变化情况。
步骤S4中获得的网页的摘要信息为间隔预设周期从外部服务器下载的监控列表中网页的摘要信息,即定期监控的网页的摘要信息。将步骤S4中的网页的摘要信息同网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将定期监控的网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得定期监控的网页的变化情况。
如果网页摘要信息包括网页数据未变化标志,而网页数据库同一URL对应的网页的摘要信息包括网页数据的MD5信息或者网页数据未变化标志,则表明网页未发生变化。如果网页摘要信息包括网页数据的MD5信息,而网页数据库同一URL对应的网页的摘要信息包括网页数据的MD5信息,则比较两个MD5信息获得网页的真实变化情况。
S6、若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中。
步骤S4中网页摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,比较的结果不同,则表明网页发生变化,将变化网页的摘要信息更新至所述网页数据库中。
步骤S2中如网页数据库中不存在所述监控网页的摘要信息,则执行步骤S3、S4获得所述监控网页的摘要信息。此时,由于步骤S2已经判断过网页数据库中不存在所述监控网页的摘要信息,则将所述网页的摘要信息更新至所述网页数据库中。
S7、根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
根据步骤S6中的比较结果,判断网页的变化情况,从而产生规则数据。云端装置将该规则数据发送给本地装置,本地装置根据规则数据控制其缓存刷新机制。
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
本发明还提供另外一种进行网页缓存处理方法,应用于本地装置。所述本地装置通常为服务器,在具体实现中,可以为分布式服务器。
参看图2,所述方法包括:
P1、接收云端装置发送的规则数据,并发送网页监控请求给云端装置。
具体地,所述本地装置接收云端装置根据所监控网页的变化情况产生的规则数据。所述本地装置发送网页监控请求给云端装置。
本地装置还将各监控网页的URL的请求热度发送给云端装置,云端装置的监控列表根据各监控网页的URL的请求热度进行排序,优先跟踪请求热度高的网页数据。
P2、根据所述规则数据,更新所保存的缓存刷新机制。
本地装置根据云端装置发送的规则数据,更新所保存的缓存刷新机制,由于规则数据反应网页数据的变化情况,从而根据网页的真实变化情况更新缓存刷新机制。
P3、接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据。
本地装置接收客户端的请求,并根据所述请求判断本地装置的缓存中是否存在客户端请求的网页数据。如果缓存中存在客户端请求的网页数据,则进一步根据缓存刷新机制判断网页数据是否过期。如果网页数据未过期,则缓存的网页数据为客户端回应数据,发送所述客户端。
P4、若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
如果本地装置的缓存中不存在客户端请求的网页数据,则登陆外部服务器获取网页数据,将从外部服务器获取的网页数据作为客户端回应数据,发送给所述客户端。如果本地装置的缓存中的网页数据过期,则登陆外部服务器获取网页数据,将从外部服务器获取的网页数据作为客户端回应数据,发送给所述客户端。
具体地,所述本地装置登陆外部服务器获得客户端请求的网页数据通常通过代理进行。所述外部服务器包括源网站服务器或者缓存集群服务器等。
本发明本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
本申请另一实施例所述进行网页缓存处理方法,应用于本地装置。所述方法包括上述步骤P1——P4。
所述步骤P2包括:
缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值。若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除。
所述步骤P3中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
本发明云端装置主动获取网页内容并与之前内容进行比较,获得真实的网页数据变化情况作为规则数据,并将所述规则数据发送给本地装置。因此,本发明本地装置根据网页数据的真实变化情况,调整Max-age值。本发明调整后的Max-age值符合网页数据的真实变化情况,从而避免本地装置在显示缓存中的网页数据需要更新而实际网页数据没有发生变化时,发出缓存更新请求,浪费流量带宽。
本申请另一实施例所述进行网页缓存处理方法,应用于本地装置。所述方法包括上述步骤P1——P4。
所述步骤P2包括:
缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除;
所述步骤P3中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
本发明云端装置主动获取网页内容并与之前内容进行比较,获得真实的网页数据变化情况作为规则数据,并将所述规则数据发送给本地装置。因此,本发明本地装置根据网页数据的真实变化情况,调整Expires值。本发明调整后的Expires值符合网页数据的真实变化情况,从而避免本地装置在显示缓存中的网页数据需要更新而实际网页数据没有发生变化时,发出缓存更新请求,浪费流量带宽。
本申请另一实施例所述进行网页缓存处理方法,应用于本地装置。所述方法包括上述步骤P1——P4。
所述步骤P2包括:
若规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志。
若若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志。
具体地,第一标志为0,第二标志为1。
所述步骤P3中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
在本发明具体实现中,缓存网页数据存在Last-Modified头部,检查缓存网页数据的同步标志是否为0,如果是0,则认为缓存网页数据未过期,则缓存的网页数据为客户端回应数据。否则,所述步骤P4在客户端请求基础上增加If-Modified-Since头部后通过代理发送给外部服务器。
在本发明具体实现中,缓存网页数据存在ETag头部,检查缓存网页数据的同步标志是否为0,如果是0,则认为缓存网页数据未过期,则缓存的网页数据为客户端回应数据。否则,所述步骤P4在客户端请求基础上增加If-None-Match头部后通过代理发送给外部服务器。
其他情况的缓存对象,检查缓存网页数据的同步标志是否为0,如果是0,则认为这个缓存网页数据是未过期的,则缓存的网页数据为客户端回应数据。否则,将客户端请求通过代理发送给外部服务器。
对应于上述方法,本发明还提供一种进行网页缓存处理的云端装置。
参看图3,所述装置包括:
网页获取模块31,用于间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据。
网页分析模块32,用于对所述网页数据进行分析,获取所述网页的摘要信息。
网页对比模块33,用于将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果,若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中。
缓存服务器管理模块34,用于接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息;如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表;根据网页对比模块的比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
具体地,所述摘要信息为本地装置缓存的该监控网页的MD5信息。MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。
云端装置中的缓存服务器管理模块34根据接收的网页监控请求,对网页数据库进行查询,查询所述监控网页的摘要信息是否在网页数据库中。如果网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表。即,增加一个监控任务到原监控列表。如果网页数据库中存在所述监控网页的摘要信息,则网页对比模块33执行网页数据比对。
云端装置中的网页获取模块31每间隔预设周期,登陆外部服务器,从所述外部服务器下载监控列表中的全部URL对应的网页数据。所述预设周期由本领域普通技术人员根据需求进行选取。
云端装置中的网页分析模块32对从外部服务器下载的网页数据进行分析,提取关键信息,获取所述网页的摘要信息。具体地,所述摘要信息为计算网页数据获得的MD5信息。具体计算方法采用现有的MD5算法,故在此不再赘述。
如果缓存服务器管理模块34中的网页数据库中存在所述监控网页的摘要信息,则网页对比模块33将所述监控网页的摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将云端装置接收到的网页监控请求中的所监控网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得网页的变化情况。
网页分析模块32中获得的网页的摘要信息为间隔预设周期从外部服务器下载的监控列表中网页的摘要信息,即定期监控的网页的摘要信息。网页对比模块33将网页分析模块32中的网页的摘要信息同网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果。本发明将定期监控的网页的摘要信息和网页数据库中已经保存的同一网页的摘要信息进行比较,通过比较结果获得定期监控的网页的变化情况。
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
在本发明另一具体实施例中,所述装置包括网页获取模块31、网页分析模块32、网页对比模块33、缓存服务器管理模块34。
其中,所述网页获取模块31获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
本地装置将各监控网页的URL的请求热度发送给云端装置,云端装置的监控列表根据各监控网页的URL的请求热度进行排序,优先跟踪请求热度高的网页数据。
因此,本发明能够更加保证请求热度高的网页数据获得更好的网页变化监控,从而根据网页的变化,产生规则数据,控制本地装置的缓存刷新机制。
在本发明另一具体实施例中,所述装置包括网页获取模块31、网页分析模块32、网页对比模块33、缓存服务器管理模块34。
缓存对象中存在Cache-Control头部的Max-age属性或者Expires头部时,所述缓存服务器管理模块34根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置修改Max-age值或者Expires值,或者删除缓存中的网页数据。
具体地,缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除。
具体地,缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除。
在本发明另一具体实施例中,所述装置包括网页获取模块31、网页分析模块32、网页对比模块33、缓存服务器管理模块34。
具体地,所述摘要信息包括本地装置缓存的该监控网页的MD5信息。MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。
本地装置处理带有Last-Modified/If-Modify-since或者ETag/If-None-Match的HTTP请求时,本地装置向云端装置的缓存服务器管理模块34发送网页监控请求的URL带有Last-Modified或ETag字段。所述本地装置向云端装置发送的网页监控请求为私有协议报文,即带有Last-Modified或ETag字段的URL和本地装置缓存的该监控网页的MD5信息为私有协议报文。
由于现有技术中本地装置直接向外部服务器发送带有Last-Modified/If-Modify-since或者ETag/If-None-Match的HTTP请求。这种请求本身是基于HTTP报文的,其报文本身的长度需要几百字节,其中包含大量的冗余信息。因此,本发明本地装置向云端装置发送的网页监控请求,即带有Last-Modified或ETag字段的URL和监控网页的MD5信息,为私有协议报文,数据量极小。本发明极大的简化了HTTP报文的冗余数据,解决了频繁的带有Last-Modified/If-Modify-since的HTTP请求的数据交互问题。
本发明通过使用私有协议完成本地装置向云端装置发送网页监控请求,可以极大的减少本地缓存系统对外部服务器查询网页资源是否变化时的交互数据,减少本地装置的处理时间和流量消耗。
网页获取模块31每间隔预设周期,登陆外部服务器,向外部服务器发送带有If-Modify-since或If-None-Match字段的HTTP请求,从所述外部服务器下载监控列表中的全部URL对应的网页数据。所述预设周期由本领域普通技术人员根据需求进行选取。
由于If-Modify-since或If-None-Match字段请求的特殊性,当外部服务器的对应网页数据没有改变时,会返回云端装置一个很短的带有304HTTP状态码(数据内容未修改)的回应报文;当外部服务器的对应网页数据发生改变时,就会返回云端装置一个完整的网页数据。
如果外部服务器返回的是带有304HTTP状态码的回应报文,则网页分析模块32中所述网页的摘要信息包括网页数据未变化标志。
如果外部服务器返回的是一个完整的网页数据,则网页分析模块32中所述网页的摘要信息包括计算网页数据获得的MD5信息。具体计算方法采用现有的MD5算法,故在此不再赘述。
网页对比模块33中如果网页摘要信息包括网页数据未变化标志,而网页数据库同一URL对应的网页的摘要信息包括网页数据的MD5信息或者网页数据未变化标志,则表明网页未发生变化。如果网页摘要信息包括网页数据的MD5信息,而网页数据库同一URL对应的网页的摘要信息包括网页数据的MD5信息,则比较两个MD5信息获得网页的真实变化情况。
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
对应于上述方法,本发明还提供一种进行网页缓存处理的本地装置。
参看图4,所述装置包括:
云端连接模块41,用于接收云端装置发送的规则数据,并发送网页监控请求给所述云端装置。
缓存刷新模块42,用于保存缓存刷新机制。
缓存管理模块43,用于根据所述规则数据,更新缓存刷新模块保存的缓存刷新机制;接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据;若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
具体地,所述云端连接模块41接收云端装置根据所监控网页的变化情况产生的规则数据。所述云端连接模块41置发送网页监控请求给云端装置。
云端连接模块41还将各监控网页的URL的请求热度发送给云端装置,云端装置的监控列表根据各监控网页的URL的请求热度进行排序,优先跟踪请求热度高的网页数据。
本发明本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量,提高访问热点网站的速度。
本申请另一实施例所述进行网页缓存处理装置,应用于本地装置。所述装置包括云端连接模块41、缓存刷新模块42、缓存管理模块43。
缓存刷新模块42包括:
Max-age更新单元,用于当缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值。若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除。
所述缓存管理模块43中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
本发明云端装置主动获取网页内容并与之前内容进行比较,获得真实的网页数据变化情况作为规则数据,并将所述规则数据发送给本地装置。因此,本发明本地装置根据网页数据的真实变化情况,调整Max-age值。本发明调整后的Max-age值符合网页数据的真实变化情况,从而避免本地装置在显示缓存中的网页数据需要更新而实际网页数据没有发生变化时,发出缓存更新请求,浪费流量带宽。
本申请另一实施例所述进行网页缓存处理装置,应用于本地装置。所述装置包括云端连接模块41、缓存刷新模块42、缓存管理模块43。
缓存刷新模块42包括:
Expir更新单元,用于当缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除。
所述缓存管理模块43中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
本发明云端装置主动获取网页内容并与之前内容进行比较,获得真实的网页数据变化情况作为规则数据,并将所述规则数据发送给本地装置。因此,本发明本地装置根据网页数据的真实变化情况,调整Expires值。本发明调整后的Expires值符合网页数据的真实变化情况,从而避免本地装置在显示缓存中的网页数据需要更新而实际网页数据没有发生变化时,发出缓存更新请求,浪费流量带宽。
本申请另一实施例所述进行网页缓存处理装置,应用于本地装置。所述装置包括云端连接模块41、缓存刷新模块42、缓存管理模块43。
缓存刷新模块42包括:
标志设置单元,用于当规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志。若若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志。
具体地,第一标志为0,第二标志为1。
所述缓存管理模块43中根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
在本发明具体实现中,缓存网页数据存在Last-Modified头部,检查缓存网页数据的同步标志是否为0,如果是0,则认为缓存网页数据未过期,则缓存的网页数据为客户端回应数据。否则,所述步骤P4在客户端请求基础上增加If-Modified-Since头部后通过代理发送给外部服务器。
在本发明具体实现中,缓存网页数据存在ETag头部,检查缓存网页数据的同步标志是否为0,如果是0,则认为缓存网页数据未过期,则缓存的网页数据为客户端回应数据。否则,所述步骤P4在客户端请求基础上增加If-None-Match头部后通过代理发送给外部服务器。
其他情况的缓存对象,检查缓存网页数据的同步标志是否为0,如果是0,则认为这个缓存网页数据是未过期的,则缓存的网页数据为客户端回应数据。否则,将客户端请求通过代理发送给外部服务器。
本发明还提供一种进行网页缓存处理的系统,参看图5,所述系统包括:
至少一本地装置51,用于接收客户端请求,获得缓存或者外部服务器的网页数据,作为客户端回应数据;获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制;
云端装置52,用于根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。
本发明云端装置根据本地装置发送的网页监控请求,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置。本地装置获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制。从而,调整缓存的网页数据的更新周期,节省访问外部服务器的网络带宽,有效地增加热点网页的命中率,减少传输的数据量。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种进行网页缓存处理方法,应用于云端装置,其特征在于,所述方法包括:
接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息,所述网页监控请求的URL带有Last-Modified或ETag字段,所述网页监控请求为私有协议报文;
如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表,否则,将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果;
当网页数据库中不存在所述监控网页的摘要信息时,间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据;
对所述网页数据进行分析,获取所述网页的摘要信息;
将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果;
若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中;
根据所述比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
2.根据权利要求1所述的方法,其特征在于,所述间隔预设周期从外部服务器下载所述监控列表中的URL对应的网页数据为:
获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
3.一种进行网页缓存处理方法,应用于本地装置,其特征在于,所述方法包括:
接收云端装置发送的规则数据,并发送网页监控请求给云端装置,所述网页监控请求包括监控网页的URL和摘要信息,所述网页监控请求的URL带有Last-Modified或ETag字段,所述网页监控请求为私有协议报文,其中,所述规则数据用于表示网页数据是否发生变化;
根据所述规则数据,更新所保存的缓存刷新机制;
接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据;
若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
4.根据权利要求3所述的方法,其特征在于,所述根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
5.根据权利要求3所述的方法,其特征在于,所述根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
6.根据权利要求3-5中任一项所述的方法,其特征在于,所述根据规则数据,更新所保存的缓存刷新机制包括:
若规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志;
若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
7.一种进行网页缓存处理的云端装置,其特征在于,包括:
网页获取模块,用于间隔预设周期从外部服务器下载监控列表中的URL对应的网页数据;
网页分析模块,用于对所述网页数据进行分析,获取所述网页的摘要信息;
网页对比模块,用于将所述摘要信息与网页数据库中同一URL对应的网页的摘要信息进行比较,获得比较结果,若所述比较结果不同或所述网页数据库中不存在同一URL对应的网页的摘要信息,将所述网页的摘要信息更新至所述网页数据库中;
缓存服务器管理模块,用于接收本地装置发送的网页监控请求,所述网页监控请求包括监控网页的URL和摘要信息,所述网页监控请求的URL带有Last-Modified或ETag字段,所述网页监控请求为私有协议报文;如网页数据库中不存在所述监控网页的摘要信息,则增加所述监控网页的URL到监控列表;如网页数据库中存在所述监控网页的摘要信息,根据网页对比模块的比较结果,产生并发送规则数据至所述本地装置,控制本地装置的缓存刷新机制。
8.根据权利要求7所述的云端装置,其特征在于,所述网页获取模块还用于,获取所述本地装置对各监控网页的URL的请求热度,根据所述请求热度,间隔预设周期从外部服务器下载所述监控网页的URL对应的网页数据。
9.一种进行网页缓存处理的本地装置,其特征在于,包括:
云端连接模块,用于接收云端装置发送的规则数据,并发送网页监控请求给云端装置,所述网页监控请求包括监控网页的URL和摘要信息,所述网页监控请求的URL带有Last-Modified或ETag字段,所述网页监控请求为私有协议报文,其中,所述规则数据用于表示网页数据是否发生变化;
缓存刷新模块,用于保存缓存刷新机制;
缓存管理模块,用于根据所述规则数据,更新缓存刷新模块保存的缓存刷新机制;接收客户端请求,判断缓存中是否存在客户端请求的网页数据,若存在,则根据所述缓存刷新机制判断网页数据是否过期,若网页数据未过期,则缓存的网页数据为客户端回应数据;若缓存中不存在客户端请求的网页数据或者缓存的网页数据过期,获取外部服务器提供的网页数据为客户端回应数据,并更新缓存中的网页数据。
10.根据权利要求9所述的本地装置,其特征在于,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Cache-Control头部的Max-age字段时,若规则数据表示网页数据未发生变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第一调整值;若规则数据表示网页数据发生变化,修改Max-age值小于或者等于零,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Cache-Control头部的Max-age字段,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Max-age值,则所述网页数据未过期;否则,所述网页数据过期。
11.根据权利要求9所述的本地装置,其特征在于,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
缓存网页数据包括Expires头部时,若规则数据表示网页数据发生未变化,若当前时间在Max-age时间范围内,则保持Max-age值不变,否则,增大Max-age值为第二调整值;若规则数据表示网页数据发生变化,修改Expires值小于当前时间,或者直接将缓存网页数据从缓存中删除;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据中存在Expires头部,如缓存中的网页数据从写入缓存时间到当前时间的间隔小于Expires值,则所述网页数据未过期;否则,所述网页数据过期。
12.根据权利要求9-11中任一项所述的本地装置,其特征在于,所述缓存管理模块中根据规则数据,更新所保存的缓存刷新机制包括:
若规则数据表示网页数据发生未变化,修改缓存网页数据的同步标志为第一标志;
若规则数据表示网页数据发生变化,修改缓存网页数据的同步标志为第二标志;
所述根据缓存刷新机制判断网页数据是否过期包括:
缓存的网页数据,如缓存中的网页数据的同步标志为第一标志,则所述网页数据未过期;否则,所述网页数据过期。
13.一种进行网页缓存处理的系统,其特征在于,包括:
至少一本地装置,用于接收客户端请求,获得缓存或者外部服务器的网页数据,作为客户端回应数据;获取云端装置生成的规则数据,根据所述规则数据调整其缓存刷新机制,其中,所述规则数据用于表示网页数据是否发生变化;
云端装置,用于根据本地装置发送的网页监控请求,所述网页监控请求为私有协议报文,监控网页数据的变化,并根据所述网页数据的变化产生规则数据,将所述规则数据发送给所述本地装置,所述网页监控请求包括监控网页的URL和摘要信息,所述网页监控请求的URL带有Last-Modified或ETag字段。
CN201410773837.XA 2014-12-12 2014-12-12 进行网页缓存的处理方法、云端装置、本地装置及系统 Expired - Fee Related CN104468807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410773837.XA CN104468807B (zh) 2014-12-12 2014-12-12 进行网页缓存的处理方法、云端装置、本地装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410773837.XA CN104468807B (zh) 2014-12-12 2014-12-12 进行网页缓存的处理方法、云端装置、本地装置及系统

Publications (2)

Publication Number Publication Date
CN104468807A CN104468807A (zh) 2015-03-25
CN104468807B true CN104468807B (zh) 2018-11-13

Family

ID=52914159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410773837.XA Expired - Fee Related CN104468807B (zh) 2014-12-12 2014-12-12 进行网页缓存的处理方法、云端装置、本地装置及系统

Country Status (1)

Country Link
CN (1) CN104468807B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794177B (zh) * 2015-04-02 2016-10-12 广州神马移动信息科技有限公司 一种数据存储方法及装置
CN106549905A (zh) * 2015-09-16 2017-03-29 北京国双科技有限公司 数据获取方法、系统、客户端和服务器
CN106547773A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 调整事件打开速度的方法及装置
CN106708495B (zh) * 2015-11-18 2021-05-07 优信拍(北京)信息科技有限公司 一种基于移动终端的页面显示方法及装置
CN106021512A (zh) * 2016-05-24 2016-10-12 乐视控股(北京)有限公司 一种页面刷新方法及装置
CN106878370A (zh) * 2016-09-19 2017-06-20 阿里巴巴集团控股有限公司 一种本地缓存的更新方法和设备
CN106446640B (zh) * 2016-10-31 2019-11-08 东软集团股份有限公司 用户识别的方法及服务器
CN106506704A (zh) * 2016-12-29 2017-03-15 北京奇艺世纪科技有限公司 一种缓存更新方法及装置
CN106909690A (zh) * 2017-03-07 2017-06-30 四川驹马企业管理有限公司 网络数据缓存方法
CN107070991A (zh) * 2017-03-08 2017-08-18 四川驹马企业管理有限公司 网络数据缓存装置与系统
CN108282510A (zh) * 2017-06-13 2018-07-13 广州市动景计算机科技有限公司 缓存资源处理方法、装置、用户终端以及存储介质
CN109684358B (zh) * 2017-10-18 2021-11-09 北京京东尚科信息技术有限公司 数据查询的方法和装置
CN110417836A (zh) * 2018-04-28 2019-11-05 阿里巴巴集团控股有限公司 一种业务数据的处理方法、处理装置和处理系统
CN109246035A (zh) * 2018-08-01 2019-01-18 平安科技(深圳)有限公司 一种数据传输管理的方法及装置
CN110807229B (zh) * 2019-10-14 2023-11-10 许继集团有限公司 一种配网主站系统web接线图的数据更新方法及服务器
CN111143417A (zh) * 2019-12-27 2020-05-12 广东浪潮大数据研究有限公司 数据处理方法、装置、系统及Nginx服务器和介质
CN114154094B (zh) * 2021-11-26 2024-05-03 上海星鸟网络科技有限公司 一种网站更新不及时的计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127783A (zh) * 2007-09-28 2008-02-20 北京金山软件有限公司 一种网站缓存方法和一种网站缓存的装置
CN101252462A (zh) * 2008-04-11 2008-08-27 杭州华三通信技术有限公司 告警页面刷新方法以及服务器和客户端
CN101997927A (zh) * 2010-11-18 2011-03-30 厦门市美亚柏科信息股份有限公司 一种web平台数据缓存的方法和系统
CN102364461A (zh) * 2011-06-30 2012-02-29 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103455478A (zh) * 2012-05-21 2013-12-18 腾讯科技(深圳)有限公司 加速网页访问的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065275B2 (en) * 2007-02-15 2011-11-22 Google Inc. Systems and methods for cache optimization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127783A (zh) * 2007-09-28 2008-02-20 北京金山软件有限公司 一种网站缓存方法和一种网站缓存的装置
CN101252462A (zh) * 2008-04-11 2008-08-27 杭州华三通信技术有限公司 告警页面刷新方法以及服务器和客户端
CN101997927A (zh) * 2010-11-18 2011-03-30 厦门市美亚柏科信息股份有限公司 一种web平台数据缓存的方法和系统
CN102364461A (zh) * 2011-06-30 2012-02-29 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN103455478A (zh) * 2012-05-21 2013-12-18 腾讯科技(深圳)有限公司 加速网页访问的方法和装置
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统

Also Published As

Publication number Publication date
CN104468807A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104468807B (zh) 进行网页缓存的处理方法、云端装置、本地装置及系统
US11606411B1 (en) Application state server-side cache for a state-based client-server application
US11176219B1 (en) Browser based feedback for optimized web browsing
US10554777B1 (en) Caching for re-coding techniques
Wang et al. How far can client-only solutions go for mobile browser speed?
US9106607B1 (en) Browser based feedback for optimized web browsing
RU2589306C2 (ru) Управление сеансом удаленного просмотра
US7769823B2 (en) Method and system for distributing requests for content
US9690568B2 (en) Client-side script bundle management system
KR101672901B1 (ko) 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
US20090204682A1 (en) Caching http request and response streams
JPH1091638A (ja) 検索システム
CN103916474B (zh) 缓存时间的确定方法、装置及系统
Venkataramani et al. Bandwidth constrained placement in a WAN
US12061663B2 (en) Accelerating hint information in web page transactions
Negrão et al. An adaptive semantics-aware replacement algorithm for web caching
US7617215B2 (en) Method and arrangement for setting up and updating a user interface for accessing information pages in a data network
CN110413846A (zh) 用于网页镜像的数据处理方法、装置及计算机可读存储介质
Shivakumar et al. A survey and analysis of techniques and tools for web performance optimization
JP3485915B1 (ja) ゲートウェイ装置、クライアント計算機およびプロキシサーバ計算機
US20240214449A1 (en) Ensuring Coherency Across Responses When Handling A Series Of Client Requests
Ghosh et al. Performance of dynamic web page generation for database-driven web sites
Lam et al. Temporal pre-fetching of dynamic web pages
Moise et al. Optimizing Intensive Database Tasks Through Caching Proxy Mechanisms
Partl et al. A comparison of WWW caching algorithm efficiency

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161014

Address after: 100000 Beijing Haidian District information on Road No. 1 (Beijing is a high-tech Development Company No. 1-2) B Building 8 Room 833

Applicant after: Beijing Yiwang boundless Technology Co. Ltd.

Address before: 100094 Beijing city northwest of Haidian District Wang benevolent jasmine garden No. 19 South Building No. A-1249 1

Applicant before: BEIJING XIAOYU UNLIMITED INFORMATION TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181113

Termination date: 20181212