CN106713479B - 一种基于云端的文件去重方法 - Google Patents

一种基于云端的文件去重方法 Download PDF

Info

Publication number
CN106713479B
CN106713479B CN201710009040.6A CN201710009040A CN106713479B CN 106713479 B CN106713479 B CN 106713479B CN 201710009040 A CN201710009040 A CN 201710009040A CN 106713479 B CN106713479 B CN 106713479B
Authority
CN
China
Prior art keywords
file
url
value
local area
area network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710009040.6A
Other languages
English (en)
Other versions
CN106713479A (zh
Inventor
杨谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yixun Information Technology Co ltd
Original Assignee
Nanjing Yixun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yixun Information Technology Co ltd filed Critical Nanjing Yixun Information Technology Co ltd
Priority to CN201710009040.6A priority Critical patent/CN106713479B/zh
Publication of CN106713479A publication Critical patent/CN106713479A/zh
Application granted granted Critical
Publication of CN106713479B publication Critical patent/CN106713479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于云端的文件去重方法,通过不同的HTTP缓存加速设备将自身所存储的URL与文件内容的对应记录,上传到云端,云端通过整合所有设备上传的记录,并下发到各个HTTP缓存加速设备。HTTP缓存加速设备获取到云端提供的记录后,读取其中的URL与文件内容的对应关系。从而在局域网内用户首次访问URL即能提供加速功能。

Description

一种基于云端的文件去重方法
技术领域
本发明涉及一种基于云端的文件去重方法,属于网络技术领域。
背景技术
HTTP缓存加速是一种通过将互联网资源本地化从而加速局域网内对互联网资源的访问,以及缓存互联网出口带宽高的方法。该方法的原理是侦听局域网内重复的URL请求,如果对同一URL的请求达到一定次数,则将URL指向的资源下载到本地,当局域网内有同样的URL请求时,通过HTTP协议中的302重定向响应,将局域网内的外网请求重定向到内网。
然而现有技术中存在以下两种现象:一,在当前的网络环境下,由于用户对网站访问速度的高要求,大部分网站都会采用CDN节点的方式进行加速。CDN节点加速的原理为,通过判断用户访问的IP,返回靠近用户地理位置的服务器地址。二,软件开发商出于对软件分发的需求,相同的软件会被分发到不同网站上,以便最大化的分发软件。
网站采用CDN节点加速或者软件分发到不同的网站,同样的资源被分发到不同的服务器。HTTP缓存加速设备在侦听时,不同的URL请求可能会指向相同的资源内容。导致HTTP缓存加速设备重复下载同样的文件,降低加速效果。
因此,需要一种可以针对相同文件不同URL的去重方法。典型的方案是,HTTP缓存加速设备可以通过对URL指向文件的内容进行判断,如果同样的URL指向的文件内容相同,则说明这些URL指向的是同一个文件,只需要保存一份文件。
但是,这种典型的方案的缺点是,只有当局域网用户内访问过URL后,HTTP缓存加速设备方能知晓URL和文件的对应关系。
因此,需要一种基于云端的文件去重方法。
发明内容
发明目的:针对现有HTTP缓存加速中文件去重技术的不足,本发明提供一种更加完善的相同文件不同URL去重的实现方法,即一种基于云端的文件去重方法。
技术方案:一种基于云端的文件去重方法,通过不同的HTTP缓存加速设备将自身所存储的URL与文件内容的对应记录,上传到云端,云端整合文件MD5值相等的所有设备上传的记录,并下发到各个HTTP缓存加速设备。HTTP缓存加速设备获取到云端提供的记录后,读取其中的URL与文件内容的对应关系。从而在局域网内用户首次访问URL即能提供加速功能。
HTTP缓存加速设备在本发明中主要发挥加速局域网内对外网资源访问的作用。在实际应用中,HTTP缓存加速设备可以有效的为局域网节省大量的带宽,降低局域网对带宽的需求,从而节省资金,具有很高的实用价值。
云服务端并不存储文件,仅存储文件MD5值与URL的对应记录。
基于云端的文件去重方法,具体流程为:
步骤01,第一局域网内的用户访问第一URL指向的第一文件;
步骤02,第一局域网内的HTTP缓存加速设备侦听到该请求,记录对应关系,第一URL对应第一文件,并计算第一文件的MD5值;
步骤03,第二局域网内的用户访问第二URL指向的第二文件;
步骤04,第二局域网内的HTTP缓存加速设备侦听到该请求,记录对应关系,第二URL对应第二文件,并计算第二文件的MD5值;
步骤05,第一局域网和第二局域网内的HTTP缓存加速设备分别将URL文件对应记录上传到云服务端;
步骤06,云服务端收到两台设备上传的记录后,发现第一文件的MD5值与第二文件的MD5值相同,于是得到如下记录,第一URL与第二URL指向的文件内容相同,同时合并第一URL和第二URL与文件的对应记录;
步骤07,云服务端下发合并后的URL文件对应关系到各个HTTP缓存加速设备;
步骤08,第二局域网内的HTTP缓存加速设备收到记录后,读取其中的对应关系;
步骤09,第二局域网内的用户访问第一URL指向的第一文件;
步骤10,HTTP缓存设备通过同步的记录发现第一URL指向的第一文件即本机所存储的第二文件,于是重定向第二文件的内容。
有益效果:与现有技术相比,本发明提供的基于云端的文件去重方法,不仅能够有效的判断文件与URL的对应关系,而且不同网内的HTTP缓存加速设备对于不同URL指向的相同文件只需要下载一次。本发明可应用于所有HTTP缓存加速场景,具有较为广泛的应用型。
附图说明
图1为网络拓扑示意图;
图2为单个HTTP缓存加速节点网络拓扑示意图;
图3为云服务端去重流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于云端的文件去重方法,通过不同的HTTP缓存加速设备将自身所存储的URL与文件内容的对应记录,上传到云端,云端整合文件MD5值相等的所有设备上传的记录,并下发到各个HTTP缓存加速设备。HTTP缓存加速设备获取到云端提供的记录后,读取其中的URL与文件内容的对应关系。从而在局域网内用户首次访问URL即能提供加速功能。
HTTP缓存加速设备在本发明中主要发挥加速局域网内对外网资源访问的作用。在实际应用中,HTTP缓存加速设备可以有效的为局域网节省大量的带宽,降低局域网对带宽的需求。
步骤01,第一局域网内的用户访问第一URL指向的第一文件;
步骤02,第一局域网内的HTTP缓存加速设备侦听到该请求,记录对应关系,第一URL对应第一文件,并计算第一文件的MD5值;
步骤03,第二局域网内的用户访问第二URL指向的第二文件;
步骤04,第二局域网内的HTTP缓存加速设备侦听到该请求,记录对应关系,第二URL对应第二文件,并计算第二文件的MD5值;
步骤05,第一局域网和第二局域网2内的HTTP缓存加速设备分别将URL文件对应记录上传到云服务端;
步骤06,云服务端收到两台设备上传的记录后,发现第一文件的MD5值与第二文件的MD5值相同,于是得到如下记录,第一URL与第二URL指向的文件内容相同,同时合并第一URL和第二URL与文件的对应记录;
步骤07,云服务端下发合并后的URL文件对应关系到各个HTTP缓存加速设备;
步骤08,第二局域网内的HTTP缓存加速设备收到记录后,读取其中的对应关系;
步骤09,第二局域网内的用户访问第一URL指向的第一文件;
步骤10,HTTP缓存设备通过同步的记录发现第一URL指向的第一文件即本机所存储的第二文件,于是重定向第二文件的内容。
本发明提供的基于云端的文件去重方法,可以应用于政府,高校,运营商等诸多行业,例如,高校,可将本发明部署于实际网络中,这样可以共享多个高校的URL文件对应记录。不仅加速了高校内网的资源访问速度,而且减轻了高校出口的带宽压力,因此,本技术具有很高的推广价值。

Claims (2)

1.一种基于云服务器的文件去重方法,其特征在于:通过不同的HTTP缓存加速设备将自身所存储的URL与文件MD5值记录,上传到云服务器,云服务器整合MD5值相等的所有HTTP缓存加速设备上传的URL与文件MD5值对应记录,并下发到各个HTTP缓存加速设备;HTTP缓存加速设备获取到云服务器提供的URL与文件MD5值对应记录后,读取其中的URL与文件内容的对应关系;从而在局域网内用户首次访问URL即能提供加速功能;
云服务器并不存储文件,仅存储URL与文件MD5值对应记录;
云服务器整合MD5值相等的所有HTTP缓存加速设备上传的URL与文件MD5值对应记录,并下发到各个HTTP缓存加速设备的过程为:
步骤01,第一局域网内的用户访问第一URL指向的第一文件;
步骤02,第一局域网内的HTTP缓存加速设备侦听到步骤01的用户访问,保存URL与文件MD5值对应记录,第一URL对应第一文件,并计算第一文件的MD5值;
步骤03,第二局域网内的用户访问第二URL指向的第二文件;
步骤04,第二局域网内的HTTP缓存加速设备侦听到步骤03的用户访问,保存URL与文件MD5值对应记录,第二URL对应第二文件,并计算第二文件的MD5值;
步骤05,第一局域网和第二局域网内的HTTP缓存加速设备分别将URL与文件MD5值对应记录上传到云服务器;
步骤06,云服务器收到两台HTTP缓存加速设备上传的URL与文件MD5值对应记录后,发现第一文件的MD5值与第二文件的MD5值相同,于是得到如下结果,第一URL与第二URL指向的文件内容相同,同时合并第一URL和第二URL与文件MD5值对应的记录;
步骤07,云服务器下发合并后的URL与文件MD5值对应记录到各个HTTP缓存加速设备。
2.如权利要求1所述的基于云服务器的文件去重方法,其特征在于,第二局域网内的HTTP缓存加速设备收到URL与文件MD5值对应记录后,读取其中的对应关系;第二局域网内的用户访问第一URL指向的第一文件;HTTP缓存加速设备通过同步的URL与文件MD5值对应记录发现第一URL指向的第一文件即本机所存储的第二文件,于是重定向到本机所存储的第二文件的内容。
CN201710009040.6A 2017-01-06 2017-01-06 一种基于云端的文件去重方法 Active CN106713479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710009040.6A CN106713479B (zh) 2017-01-06 2017-01-06 一种基于云端的文件去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710009040.6A CN106713479B (zh) 2017-01-06 2017-01-06 一种基于云端的文件去重方法

Publications (2)

Publication Number Publication Date
CN106713479A CN106713479A (zh) 2017-05-24
CN106713479B true CN106713479B (zh) 2020-04-10

Family

ID=58907087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710009040.6A Active CN106713479B (zh) 2017-01-06 2017-01-06 一种基于云端的文件去重方法

Country Status (1)

Country Link
CN (1) CN106713479B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321122A (zh) * 2019-05-24 2019-10-11 中国平安人寿保险股份有限公司 浏览器应用的开发方法及相关设备
CN111787421A (zh) * 2020-04-07 2020-10-16 重庆云君教育科技有限公司 一种用于在线视频节约带宽的硬件设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693315A (zh) * 2012-05-29 2012-09-26 上海家配电子商务有限公司 一种基于共享内存映射的url去重方法及装置
CN102855418A (zh) * 2012-08-08 2013-01-02 周耕辉 发现Web内网代理漏洞的方法
CN104396220A (zh) * 2012-06-21 2015-03-04 思科技术公司 用于安全内容检索的方法和设备
CN104714965A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 静态资源去重方法、静态资源管理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693315A (zh) * 2012-05-29 2012-09-26 上海家配电子商务有限公司 一种基于共享内存映射的url去重方法及装置
CN104396220A (zh) * 2012-06-21 2015-03-04 思科技术公司 用于安全内容检索的方法和设备
CN102855418A (zh) * 2012-08-08 2013-01-02 周耕辉 发现Web内网代理漏洞的方法
CN104714965A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 静态资源去重方法、静态资源管理方法及装置

Also Published As

Publication number Publication date
CN106713479A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
US10142434B2 (en) Method and apparatus for reducing network resource transmission size using delta compression
TWI657682B (zh) 在內容分發網路(cdn)上實現請求精確調度的方法及系統
US11425088B2 (en) Content delivery network optimization system
US11044335B2 (en) Method and apparatus for reducing network resource transmission size using delta compression
US10798205B2 (en) Cache system for live broadcast streaming
CN107094176B (zh) 用于对计算机网络上的数据通信进行缓存的方法和系统
US8806008B2 (en) HTML delivery from edge-of-network servers in a content delivery network (CDN)
US9390200B2 (en) Local caching device, system and method for providing content caching service
US20060212584A1 (en) Method and system for accelerating downloading of web page content by a peer-to-peer network
US10735528B1 (en) Geographic relocation of content source in a content delivery network
EP2503759A1 (en) Method, apparatus and cache system for providing file downloading service
CN108234207B (zh) 一种基于内容分发网络cdn的故障定位方法和装置
WO2017080459A1 (zh) 服务内容的缓存及提供方法、装置、系统和存储介质
CN105871975A (zh) 选择回源服务器的方法及装置
CN107710171B (zh) 加速的子资源加载
CN113271362B (zh) 基于混合云的教育资源的处理方法、装置、系统及介质
CN104426718A (zh) 数据监听服务器、缓存服务器和重定向下载方法
US20140025841A1 (en) Redundancy Elimination for Web Caching
US10476688B1 (en) URL replication for live broadcast streaming
CN104301415A (zh) 一种基于http重定向的全局负载均衡方法
CN106713479B (zh) 一种基于云端的文件去重方法
CN106789956A (zh) 一种基于hls的p2p点播方法及系统
CN103139252A (zh) 一种网络代理缓存加速的实现方法及其装置
CN110943876B (zh) Url状态检测方法、装置、设备和系统
CN107347100B (zh) 一种内容分发网络的透明代理转发方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant