CN103269353B - Web缓存回源优化方法及Web缓存系统 - Google Patents

Web缓存回源优化方法及Web缓存系统 Download PDF

Info

Publication number
CN103269353B
CN103269353B CN201310139117.3A CN201310139117A CN103269353B CN 103269353 B CN103269353 B CN 103269353B CN 201310139117 A CN201310139117 A CN 201310139117A CN 103269353 B CN103269353 B CN 103269353B
Authority
CN
China
Prior art keywords
resource
caching
file
web
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310139117.3A
Other languages
English (en)
Other versions
CN103269353A (zh
Inventor
洪珂
郑捷敏
邱秀珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201310139117.3A priority Critical patent/CN103269353B/zh
Publication of CN103269353A publication Critical patent/CN103269353A/zh
Application granted granted Critical
Publication of CN103269353B publication Critical patent/CN103269353B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种Web缓存回源优化方法及Web缓存系统,该Web缓存回源优化方法包括:接收用户的Web请求;根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;根据该文件指纹向量判断该资源是否在资源缓存单元中;如果在,则将所述资源缓存单元中缓存的该资源返回至所述用户。本发明能够保证同一资源不会被重复缓存,提高缓存节点的利用效率,进一步减小带宽压力并提高用户体验。

Description

Web缓存回源优化方法及Web缓存系统
技术领域
本发明涉及Web缓存技术,尤其涉及一种基于智能资源区分的Web缓存回源优化方法及Web缓存系统。
背景技术
Web缓存(Web cache)是基于HTTP协议的缓存系统,系统主要功能是缓存静态资源,当有用户来访问的时候,判断缓存内是否有用户请求的资源,如果有则直接返回资源给用户,否则代理用户向源站请求该资源,再返回给用户,并判断该资源是否能够缓存,若能则对其进行缓存。引入Web缓存系统能够起到以下3个方面的作用:
1:减少源站访问压力;
2:降低源站吐出带宽,缓解骨干网带宽压力;
3:由于缓存系统往往部署在离用户较近的地方,因此还能起到提高访问速度,优化用户体验的效果。
统一资源定位符(URL,Uniform Resource Locator)是因特网上标准的资源地址。现有的Web缓存系统将URL作为资源的唯一标识,即每个不同的URL被认为对应不同的资源。现有的Web缓存系统的访问过程如图1所示:
步骤S11,用户通过客户终端101向Web缓存节点102请求某资源;
步骤S12,Web缓存节点102根据URL判断是否有缓存资源,如果有,则转入步骤S16,否则转入步骤S13;
步骤S13,对Web缓存节点102未缓存的资源,Web缓存节点102用原URL向源站103请求该资源;
步骤S14,源站103返回资源给Web缓存节点102;
步骤S15,Web缓存节点102用此URL作为资源标识缓存该资源;
步骤S16,Web缓存节点102返回资源给用户。
现有的Web缓存系统提高了用户访问速度、节约了网络带宽、降低了源站服务器负载,但同时也存在不足。例如,经常出现不同URL对应同一资源的情况,由于现有的Web缓存系统在步骤S12和步骤S15直接将URL作为区别资源的标识进行缓存和索引,这导致现有的Web缓存系统针对同一资源会向源站请求多次,并在缓存节点以不同的索引标识缓存多份该资源,这不但消耗缓存节点设备的有限资源,而且影响节点的服务效率。
URL的一般格式为(带方括号[]的为可选项):
protocol://hostname[:port]/path/[;parameters][?query]#fragment
protocol:指定使用的传输协议;
hostname:存放资源的服务器的域名系统(DNS)主机名或IP地址;
path:由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址;
?query:可选,用于传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。
以下情况会导致不同URL对应同一个资源:
1.互联网内容提供商(ICP)为统计网站的访问情况,会要求用户在访问网站时带上用户的某些信息,这导致指向同一资源的URL的?query字段内容会不一样;
2.ICP为防止资源盗用,对同一资源的URL会定期更新?query字段的某些标识;
3.对于一些下载类网站的镜像资源,同一个资源会有多个镜像,那么就导致资源相同但是URL中的hostname不一样;
4.同一份资源可能会在不同的网站发布,导致URL不同。
发明内容
本发明要解决的技术问题是提供一种Web缓存回源优化方法及Web缓存系统,能够保证同一资源不会被重复缓存,提高缓存节点的利用效率,进一步减小带宽压力并提高用户体验。
为解决上述技术问题,本发明提供了一种Web缓存回源优化方法,包括:
接收用户的Web请求;
根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;
根据该文件指纹向量判断该资源是否在资源缓存单元中;
如果在,则将所述资源缓存单元中缓存的该资源返回至所述用户。
根据本发明的一个实施例,根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量包括:
向源站资源服务器请求所述Web请求指向的资源的文件长度和预设片段的文件内容;
根据该预设片段的文件内容计算该资源的文件指纹,所述文件指纹向量包含该资源的文件长度和文件指纹。
根据本发明的一个实施例,根据该预设片段的文件内容计算该资源的文件指纹包括:采用哈希算法计算该预设片段的文件内容的哈希值,并将计算得到的哈希值作为该资源的文件指纹。
根据本发明的一个实施例,根据该文件指纹向量判断该资源是否在资源缓存单元中包括:根据该文件指纹向量判断该资源是否在缓存资源列表中,所述缓存资源列表记录有所述资源缓存单元中缓存的多个资源的文件指纹向量。
根据本发明的一个实施例,该方法还包括:
如果该资源不在所述资源缓存单元中,则向源站资源服务器请求所述Web请求指向的资源;
将该资源写入所述资源缓存单元;
将该资源的文件指纹向量更新至所述缓存资源列表中;
将该资源返回至所述用户。
本发明还提供了一种Web缓存系统,包括:
Web请求处理单元,接收用户的Web请求;
资源缓存单元,用于缓存多个资源;
指纹向量判断器,根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;
资源调度单元,根据该文件指纹向量判断该资源是否在所述资源缓存单元中,如果在,则将所述资源缓存单元中缓存的该资源经由所述Web请求处理单元返回至所述用户。
根据本发明的一个实施例,所述指纹向量判断器包括:
预取模块,向源站资源服务器请求所述Web请求指向的资源的文件长度和预设片段的文件内容;
计算模块,根据该预设片段的文件内容计算该资源的文件指纹,所述文件指纹向量包含该资源的文件长度和文件指纹。
根据本发明的一个实施例,所述计算模块采用哈希算法计算该预设片段的文件内容的哈希值,并将计算得到的哈希值作为该资源的文件指纹。
根据本发明的一个实施例,所述资源调度单元根据该文件指纹向量判断该资源是否在资源缓存单元中包括:根据该文件指纹向量判断该资源是否在缓存资源列表中,所述缓存资源列表记录有所述资源缓存单元中缓存的多个资源的文件指纹向量。
根据本发明的一个实施例,如果该资源不在所述资源缓存单元中,则所述资源调度单元向源站资源服务器请求所述Web请求指向的资源,将该资源写入所述资源缓存单元,将该资源的文件指纹向量更新至所述缓存资源列表中,并就该资源经由所述Web请求处理单元返回至所述用户。
与现有技术相比,本发明具有以下优点:
本发明实施例的Web缓存回源优化方法和Web缓存系统中,缓存在资源缓存单元中的资源采用文件指纹向量来标识,该文件指纹向量是和资源的至少部分文件内容相关的,因而具有唯一性,避免了资源的重复缓存,提高了资源缓存单元的利用效率,有利于进一步减小带宽压力并改善用户体验。
附图说明
图1是现有技术中一种Web缓存系统的架构示意图;
图2是本发明实施例的Web缓存回源优化方法的流程示意图;
图3是本发明实施例中生成文件指纹向量的流程示意图;
图4是本发明实施例的Web缓存系统的结构框图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步说明,但不应以此限制本发明的保护范围。
参考图2,本实施例的Web缓存回源优化方法包括如下步骤:
步骤S21,接收用户的Web请求;
步骤S22,根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;
步骤S23,根据该文件指纹向量判断该资源是否在资源缓存单元中;
步骤S24,如果在,则将所述资源缓存单元中缓存的该资源返回至所述用户。
进一步而言,步骤S21中,用户的Web请求可以是常规的Web请求,其中可以包含有所请求的资源的URL。
步骤S22中,资源的文件指纹向量可以采用如下方式确定:向源站资源服务器请求该Web请求指向的资源的文件长度和预设片段的文件内容;之后根据该预设片段的文件内容计算得到文件指纹,文件指纹向量包含该资源的文件长度和该文件指纹。
参考图3,图3示出了一个具体实例中文件指纹向量的生成过程。在S31处,获取原Web请求的URL,例如可以从用户发出的Web请求中提取URL;在S32处,获取文件长度并请求文件片段,例如可以根据先前提取的URL向源站资源服务器请求该URL指向的资源的文件长度以及特定片段的文件内容;在S33处,判断源站资源服务器是否正常响应,如果未正常响应,则转至S34,返回的文件指纹向量为空;如果正常响应,则前进至S35,采用哈希(hash)算法计算得到该预设片段的文件内容的哈希值,将该哈希值作为文件指纹,相应的文件指纹向量可以采用<文件长度,文件指纹>的格式;之后前进至S36,将计算得到的文件指纹向量返回。
需要说明的是,将预设片段的哈希值作为文件指纹仅仅是一个优选的实施例,本领域技术人员应当理解,还可以采用其他由资源的部分或者全部内容得到的适当标识符来唯一标识各个资源。
仍然参考图2,步骤S23中,可以根据该资源的文件指纹向量在缓存资源列表中进行查询,以确认该资源是否缓存在资源缓存单元中,该缓存资源列表记录有资源缓存单元中缓存的全部资源的文件指纹向量。
步骤S24中,如果该资源缓存在资源缓存单元中,则从资源缓存单元中获取该资源并将其返回给用户。如果经过判断,该资源并未缓存在资源缓存单元中,则可以向源站资源服务器请求该Web请求指向的资源,将从源站资源服务器获取的资源写入到资源缓存单元中,将该资源的文件指纹向量记录在缓存资源列表内供后续查询使用,并将资源返回给用户。
参考图4,本实施例的Web缓存系统400主要包括:Web请求处理单元401、资源缓存单元402、指纹向量判断器403、资源调度单元404、缓存资源列表405。
其中,Web请求处理单元401用于接收用户的Web请求并将请求结果返回给用户。
资源缓存单元402用于缓存资源,其可以包括多个缓存节点设备。
缓存资源列表405记录有资源缓存单元402中缓存的多个资源的文件指纹向量。
指纹向量判断器403用于根据Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量,该文件指纹向量与资源一一对应,指纹向量判断器403可以区分出不同的URL是否对应于同一资源。
资源调度单元404主要有以下功能:根据指纹向量判断器403确定的文件指纹向量判断请求的资源是否存在于资源缓存单元402中;代理用户向源站资源服务器请求该资源,并将返回结果交由Web请求处理单元401返回给用户;更新资源缓存单元402以及缓存资源列表405。
图4所示的Web缓存系统对Web请求的处理过程如下:
在S40处,Web请求处理单元401接收用户的Web请求;
在S41处,Web请求处理单元401调用资源调度单元404对该Web请求进行处理;
在S42处,资源调度单元404调用指纹向量判断器403计算文件指纹向量,指纹向量判断器403的计算过程可以参考图3以及相关描述;
在S43处,资源调度单元404根据计算得到的文件指纹向量,判断所请求的资源是否存在于缓存资源列表405中,如果是则转入S44,如果否则转入S48;
在S44处,资源调度单元404从资源缓存单元402中读取到该资源所对应的缓存文件的地址;
在S45处,资源调度单元404将资源缓存地址返回给Web请求处理单元401;
在S46处,Web请求处理单元401向资源缓存单元402请求读取该资源;
在S47处,资源缓存单元402将资源返回给Web请求处理单元401,进而转入S53;
在S48处,资源调度单元404通过用户的Web请求中的URL向源站资源服务器请求资源;
在S49处,源站资源服务器返回资源给资源调度单元404;
在S50处,资源调度单元404将源站资源服务器返回的资源交给Web请求处理单元401;
在S51处,资源调度单元404将资源写入资源缓存单元402;
在S52处,资源调度单元404采用先前计算得到的文件指纹向量更新缓存资源列表405;
在S53处,Web请求处理单元401将资源返回给用户。
综上,本实施例中采用文件指纹向量来标识资源的唯一性,该文件指纹向量与资源的至少部分文件内容相关,从而避免了资源的重复缓存。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (8)

1.一种Web缓存回源优化方法,其特征在于,包括:
接收用户的Web请求;
根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;
根据该文件指纹向量判断该资源是否在资源缓存单元中;
如果在,则将所述资源缓存单元中缓存的该资源返回至所述用户;
其中,根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量包括:
向源站资源服务器请求所述Web请求指向的资源的文件长度和预设片段的文件内容;
根据该预设片段的文件内容计算该资源的文件指纹,所述文件指纹向量包含该资源的文件长度和文件指纹。
2.根据权利要求1所述的Web缓存回源优化方法,其特征在于,根据该预设片段的文件内容计算该资源的文件指纹包括:采用哈希算法计算该预设片段的文件内容的哈希值,并将计算得到的哈希值作为该资源的文件指纹。
3.根据权利要求1所述的Web缓存回源优化方法,其特征在于,根据该文件指纹向量判断该资源是否在资源缓存单元中包括:根据该文件指纹向量判断该资源是否在缓存资源列表中,所述缓存资源列表记录有所述资源缓存单元中缓存的多个资源的文件指纹向量。
4.根据权利要求3所述的Web缓存回源优化方法,其特征在于,还包括:
如果该资源不在所述资源缓存单元中,则向源站资源服务器请求所述Web请求指向的资源;
将该资源写入所述资源缓存单元;
将该资源的文件指纹向量更新至所述缓存资源列表中;
将该资源返回至所述用户。
5.一种Web缓存系统,其特征在于,包括:
Web请求处理单元,接收用户的Web请求;
资源缓存单元,用于缓存多个资源;
文件指纹向量判断器,根据该Web请求指向的资源的至少部分文件内容确定该资源的文件指纹向量;
资源调度单元,根据该文件指纹向量判断该资源是否在所述资源缓存单元中,如果在,则将所述资源缓存单元中缓存的该资源经由所述Web请求处理单元返回至所述用户;
其中,所述文件指纹向量判断器包括:
预取模块,向源站资源服务器请求所述Web请求指向的资源的文件长度和预设片段的文件内容;
计算模块,根据该预设片段的文件内容计算该资源的文件指纹,所述文件指纹向量包含该资源的文件长度和文件指纹。
6.根据权利要求5所述的Web缓存系统,其特征在于,所述计算模块采用哈希算法计算该预设片段的文件内容的哈希值,并将计算得到的哈希值作为该资源的文件指纹。
7.根据权利要求5所述的Web缓存系统,其特征在于,所述资源调度单元根据该文件指纹向量判断该资源是否在资源缓存单元中包括:根据该文件指纹向量判断该资源是否在缓存资源列表中,所述缓存资源列表记录有所述资源缓存单元中缓存的多个资源的文件指纹向量。
8.根据权利要求7所述的Web缓存系统,其特征在于,如果该资源不在所述资源缓存单元中,则所述资源调度单元向源站资源服务器请求所述Web请求指向的资源,将该资源写入所述资源缓存单元,将该资源的文件指纹向量更新至所述缓存资源列表中,并就该资源经由所述Web请求处理单元返回至所述用户。
CN201310139117.3A 2013-04-19 2013-04-19 Web缓存回源优化方法及Web缓存系统 Expired - Fee Related CN103269353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310139117.3A CN103269353B (zh) 2013-04-19 2013-04-19 Web缓存回源优化方法及Web缓存系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310139117.3A CN103269353B (zh) 2013-04-19 2013-04-19 Web缓存回源优化方法及Web缓存系统

Publications (2)

Publication Number Publication Date
CN103269353A CN103269353A (zh) 2013-08-28
CN103269353B true CN103269353B (zh) 2016-11-02

Family

ID=49012962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310139117.3A Expired - Fee Related CN103269353B (zh) 2013-04-19 2013-04-19 Web缓存回源优化方法及Web缓存系统

Country Status (1)

Country Link
CN (1) CN103269353B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747112A (zh) * 2013-12-24 2014-04-23 乐视网信息技术(北京)股份有限公司 一种cdn回源的方法、第一服务器及系统
CN105100166A (zh) * 2014-05-21 2015-11-25 陆春观 手机软件即时分享方法及系统
CN105550338B (zh) * 2015-12-23 2018-11-23 北京大学 一种基于HTML5应用缓存的移动Web缓存优化方法
CN108494875A (zh) 2018-04-10 2018-09-04 网宿科技股份有限公司 一种反馈资源文件的方法和装置
CN109788047B (zh) * 2018-12-29 2021-07-06 山东省计算中心(国家超级计算济南中心) 一种缓存优化方法及一种存储介质
CN110866198B (zh) * 2019-09-27 2022-10-28 上海硬通网络科技有限公司 静态资源缓存方法、系统、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831182A (zh) * 2012-07-31 2012-12-19 北京天神互动科技有限公司 一种网页资源数据实时加载系统及方法
CN102843426A (zh) * 2012-08-09 2012-12-26 网宿科技股份有限公司 基于智能父节点的Web缓存资源共享系统和方法
CN103036948A (zh) * 2012-11-21 2013-04-10 北京航空航天大学 网络文件处理方法、执行节点、软件即服务SaaS平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2487609A1 (en) * 2011-02-07 2012-08-15 Alcatel Lucent A cache manager for segmented multimedia and corresponding method for cache management
CN102170479B (zh) * 2011-05-21 2013-12-18 华为数字技术(成都)有限公司 Web缓存的更新方法及Web缓存的更新装置
CN102263828B (zh) * 2011-08-24 2013-08-07 北京蓝汛通信技术有限责任公司 一种负载均衡分配方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831182A (zh) * 2012-07-31 2012-12-19 北京天神互动科技有限公司 一种网页资源数据实时加载系统及方法
CN102843426A (zh) * 2012-08-09 2012-12-26 网宿科技股份有限公司 基于智能父节点的Web缓存资源共享系统和方法
CN103036948A (zh) * 2012-11-21 2013-04-10 北京航空航天大学 网络文件处理方法、执行节点、软件即服务SaaS平台

Also Published As

Publication number Publication date
CN103269353A (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN103269353B (zh) Web缓存回源优化方法及Web缓存系统
EP3229148B1 (en) Website access method and device, and website system
CN105404622B (zh) 一种客户端页面显示方法、装置及系统
US9729662B2 (en) Probabilistic lazy-forwarding technique without validation in a content centric network
CN106031130B (zh) 具有边缘代理的内容传送网络架构
CN103209223B (zh) 分布式应用会话信息共享方法、系统和应用服务器
CN102985921B (zh) 在具有电子资源数据库的客户端装置中高速缓存电子文档资源
US10645192B2 (en) Identifying content files in a cache using a response-based cache index
US8028089B2 (en) On-deck detection for a web site
CN102771080A (zh) 使用缓存的高效媒体传送的系统和方法
CN103001964B (zh) 一种局域网环境下的缓存加速方法
CN106599239A (zh) 网页内容数据获取方法及服务器
WO2020228038A1 (zh) 域名处理方法、装置、电子设备以及存储介质
CN109922030A (zh) 基于Android设备的全局网络访问控制系统及方法
CN113452780B (zh) 针对客户端的访问请求处理方法、装置、设备及介质
CA3058061A1 (en) Permission processing method, device, application side device and storage media
US11140214B2 (en) Proactive conditioned prefetching and origin flooding mitigation for content delivery
CN112565406A (zh) 一种灰度发布方法、灰度发布系统及电子设备
US20130097383A1 (en) Methods for providing a response and systems thereof
CN103416027B (zh) 缓存优化的方法、缓存器和缓存优化的系统
EP2901658B1 (en) Request-agnostic caching for a data resource collection
US20190028561A1 (en) Method and System of Forming Local and/or Hierarchical Cloud Networks
CN114006943A (zh) 一种数据回源方法、装置、设备及存储介质
KR20150011087A (ko) 컨텐츠 전송 서비스를 위한 분산 캐싱 관리 방법 및 이를 위한 중앙 관리 장치
CN107453950A (zh) 一种信息处理方法及监控系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161102