CN109587214B - 一种透明缓存系统及缓存方法 - Google Patents

一种透明缓存系统及缓存方法 Download PDF

Info

Publication number
CN109587214B
CN109587214B CN201811297238.XA CN201811297238A CN109587214B CN 109587214 B CN109587214 B CN 109587214B CN 201811297238 A CN201811297238 A CN 201811297238A CN 109587214 B CN109587214 B CN 109587214B
Authority
CN
China
Prior art keywords
module
user
resource
website
tcf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811297238.XA
Other languages
English (en)
Other versions
CN109587214A (zh
Inventor
谭志成
康济富
梁柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou haizhiguang Network Co.,Ltd.
Original Assignee
Guangzhou Seabright Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Seabright Communication Technology Co ltd filed Critical Guangzhou Seabright Communication Technology Co ltd
Priority to CN201811297238.XA priority Critical patent/CN109587214B/zh
Publication of CN109587214A publication Critical patent/CN109587214A/zh
Application granted granted Critical
Publication of CN109587214B publication Critical patent/CN109587214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种透明缓存系统,包括:TCF模块、PF模块、存储模块、控制模块和物理网卡,TCF模块用于分析用户访问源站的连接是否完整,PF模块用于分析用户连接是否为标准HTTP协议,存储模块用于实现资源的存储,控制模块对每个合法的连接进行跟踪,TCF模块的一端与物理网卡相连接,TCF模块的另一端与PF模块的一端相连接,PF模块的另一端与存储模块相连接,控制模块分别与TCF模块、PF模块、存储模块相连接;本发明还公开了一种透明缓存方法;本发明通过TCF模块和PF模块相结合,解决占用额外的下载带宽作为回源的技术问题,从而无需要占用额外的下载带宽作为回源,进而实现提高传输速率,提高效率,且降低使用成本。

Description

一种透明缓存系统及缓存方法
技术领域
本发明涉及互联网缓存领域,尤其涉及一种透明缓存系统及缓存方法。
背景技术
目前,市面上主要的互联网缓存主要为重定向缓存。重定向缓存模式:重定向缓存服务器通过分光/镜像方式接受用户发起的请求,当服务器监听到该请求符合缓存要求,服务器则发重定向报文给用户,用户收到重定向信息后会重新连接重定向缓存服务器进行资源请求,如果重定向缓存服务器上有资源则直接对用户提供下载服务,若没有则代理用户去外网下载同时也对该用户提供服务。
在现有技术中,需要占用额外的下载带宽作为回源,这样会降低传输速率,降低效率,且带宽的额外增加会增加客户的使用成本。
发明内容
本发明提供了一种透明缓存系统及缓存方法,以解决占用额外的下载带宽作为回源的技术问题,从而无需要占用额外的下载带宽作为回源,进而实现提高传输速率,提高效率,且降低使用成本。
为了解决上述技术问题,本发明实施例提供了一种透明缓存系统,包括:TCF模块、PF模块、存储模块、控制模块和物理网卡,
所述TCF模块用于分析用户访问源站的连接是否完整,所述PF模块用于分析用户连接是否为标准HTTP协议以及对HTTP的资源进行特征识别分析,所述存储模块用于实现资源的存储,所述控制模块对每个合法的连接进行跟踪,判断是否需要将资源写入硬盘或读取提供给用户,所述TCF模块的一端与所述物理网卡相连接,所述TCF模块的另一端与所述PF模块的一端相连接,所述PF模块的另一端与所述存储模块相连接,所述控制模块分别与所述TCF模块、所述PF模块、所述存储模块相连接。
作为优选方案,所述存储模块包括资源索引数据库和资源读写子模块,所述资源索引数据库用于存储资源数据,所述资源读写子模块用于读取所述资源索引数据库内的资源数据。
作为优选方案,所述PF模块包括特征识别子模块和分析子模块,所述特征识别子模块用于截取资源头部的内容进行HASH生成特征码,所述分析子模块用于进行HTTP分析。
作为优选方案,所述截取资源头部大小为100k。
作为优选方案,所述物理网卡包括两路网口。
一种透明缓存方法,包括:
网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整;
PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码;
控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源;
PF模块对资源进行HTTP封装,且TCF模块提取会话中的网站IP地址、用户IP地址及已有的TCP会话信息,将HTTP内容封装到原TCP会话中,并模拟网站IP信息将报文返回给用户;
返回资源给用户过程中,透明缓存系统模拟用户IP地址向网站发出TCP重置报文,中断网站的连接。
作为优选方案,所述网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整,包括:
网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块对TCP连接进行检查;
发现连接没有建立且不完整,则将该请求直接转发出网;
用户与网站建立好TCP连接,网站接收由用户发起HTTP GET资源请求,透明缓存系统TCF模块检查该TCP连接完整。
作为优选方案,所述PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码,包括:
TCF模块将报文提交到PF模块进行HTTP分析,记录用户请求URL;
网站对用户响应资源,PF模块对网站返回给用户的HTTP内容进行分析;
PF模块截取资源头部的内容进行HASH,生成特征码。
作为优选方案,所述控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源,包括:
控制模块使用特征码与存储模块的资源索引数据库进行比对,检查本地是否存有资源;
控制模块检查资源索引数据库内无对应资源,则将该报文转发给用户,并且将内容复制存储到本地;
若控制模块检查到索引数据库内有对应资源,则存储模块读取资源。
作为优选方案,所述截取资源头部大小为100k。
相比于现有技术,本发明实施例具有如下有益效果:
1、本发明无需要占用额外的下载带宽作为回源,提高传输速率,提高效率,且降低使用成本。
2、基于资源特征的识别技术,可以有效识别防盗链内容。
3、可以及时响应快冷快热内容。
4、可以识别不同网站上的相同资源,提高本地存储空间使用率,提高重复利用效果。
附图说明
图1:为本发明实施例中的透明缓存系统的结构示意图;
图2:为本发明实施例中的透明缓存方法的具体步骤流程图;
图3:为本发明实施例中的透明缓存方法的步骤S1的具体流程图;
图4:为本发明实施例中的透明缓存方法的步骤S2的具体流程图;
图5:为本发明实施例中的透明缓存方法的步骤S3的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明优选实施例提供了一种透明缓存系统,包括:TCF模块、PF模块、存储模块、控制模块和物理网卡,
所述TCF模块用于分析用户访问源站的连接是否完整,所述PF模块用于分析用户连接是否为标准HTTP协议以及对HTTP的资源进行特征识别分析,所述存储模块用于实现资源的存储,所述控制模块对每个合法的连接进行跟踪,判断是否需要将资源写入硬盘或读取提供给用户,所述TCF模块的一端与所述物理网卡相连接,所述TCF模块的另一端与所述PF模块的一端相连接,所述PF模块的另一端与所述存储模块相连接,所述控制模块分别与所述TCF模块、所述PF模块、所述存储模块相连接。
在本实施例中,所述存储模块包括资源索引数据库和资源读写子模块,所述资源索引数据库用于存储资源数据,所述资源读写子模块用于读取所述资源索引数据库内的资源数据。
在本实施例中,所述PF模块包括特征识别子模块和分析子模块,所述特征识别子模块用于截取资源头部的内容进行HASH生成特征码,所述分析子模块用于进行HTTP分析。
在本实施例中,所述截取资源头部大小为100k。
在本实施例中,所述物理网卡包括两路网口。
参照图2,本发明实施例还提供了一种透明缓存方法,包括:
S1,网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整;
S2,PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码;
S3,控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源;
S4,PF模块对资源进行HTTP封装,且TCF模块提取会话中的网站IP地址、用户IP地址及已有的TCP会话信息,将HTTP内容封装到原TCP会话中,并模拟网站IP信息将报文返回给用户;
S5,返回资源给用户过程中,透明缓存系统模拟用户IP地址向网站发出TCP重置报文,中断网站的连接。
参照图3,在本实施例中,所述步骤S1网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整,包括:
S11,网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块对TCP连接进行检查;
S12,发现连接没有建立且不完整,则将该请求直接转发出网;
S13,用户与网站建立好TCP连接,网站接收由用户发起HTTP GET资源请求,透明缓存系统TCF模块检查该TCP连接完整。
参照图4,在本实施例中,所述步骤S2PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码,包括:
S21,TCF模块将报文提交到PF模块进行HTTP分析,记录用户请求URL;
S22,网站对用户响应资源,PF模块对网站返回给用户的HTTP内容进行分析;
S23,PF模块截取资源头部的内容进行HASH,生成特征码。
参照图5,在本实施例中,所述步骤S3控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源,包括:
S31,控制模块使用特征码与存储模块的资源索引数据库进行比对,检查本地是否存有资源;
S32,控制模块检查资源索引数据库内无对应资源,则将该报文转发给用户,并且将内容复制存储到本地;
S33,若控制模块检查到索引数据库内有对应资源,则存储模块读取资源。
在本实施例中,所述截取资源头部大小为100k。
下面结合实施例,对本发明实施例进行详细说明。
参照图1,透明缓存系统主要分为四个模块:
1)TCF(TCP Connection Filter)模块:主要分析用户访问源站的连接是否完整。
2)PF(ProtocolFilter)模块:主要分析用户连接是否为标准HTTP协议,及对HTTP的资源进行特征识别分析。
3)存储模块:主要实现资源的存储。
4)控制模块:对每个合法的连接进行跟踪,判断是否需要将资源写入硬盘或读取提供给用户等。
部署时候,透明缓存系统逻辑上串接用户与网站之间。
透明缓存系统工作过程:
1)用户首次向网站发起建立TCP连接请求,透明缓存系统TCF模块对TCP连接进行检查,发现连接没有建立且不完整,则将该请求直接转发出网。
2)用户与网站建立好TCP连接,用户向网站发起HTTP GET资源请求,透明缓存TCF模块检查该TCP连接完整,继续将报文提交到PF模块进行HTTP分析,记录用户请求URL。
3)网站对用户响应资源,PF模块对网站返回给用户的HTTP内容进行分析,截取资源头部100K大小的内容进行HASH,生成特征码,控制模块使用特征码与存储模块的资源索引数据库进行比对,检查本地是否存有资源。
4)控制模块检查资源索引数据库内无对应资源,则将该报文转发给用户,并且将内容复制存储到本地。
5)若控制模块检查到索引数据库内有对应资源,则读取资源,PF模块对资源进行HTTP封装,TCF模块提取会话中的网站IP地址、用户IP地址及已有的TCP会话信息,将HTTP内容封装到原TCP会话中,模拟网站IP信息将报文返回给用户。返回资源给用户过程中,透明缓存系统模拟用户IP地址向网站发出TCP重置报文,中断网站的连接。在用户角度观察,TCP连接没有中断,无法感知透明缓存系统工作生效。
本发明通过TCF模块和PF模块相结合,解决占用额外的下载带宽作为回源的技术问题,从而无需要占用额外的下载带宽作为回源,进而实现提高传输速率,提高效率,且降低使用成本。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种透明缓存系统,其特征在于,包括:TCF模块、PF模块、存储模块、控制模块和物理网卡,
所述TCF模块用于分析用户访问源站的连接是否完整,所述PF模块用于分析用户连接是否为标准HTTP协议以及对HTTP的资源进行特征识别分析,所述存储模块用于实现资源的存储,所述控制模块对每个合法的连接进行跟踪,判断是否需要将资源写入硬盘或读取提供给用户,所述TCF模块的一端与所述物理网卡相连接,所述TCF模块的另一端与所述PF模块的一端相连接,所述PF模块的另一端与所述存储模块相连接,所述控制模块分别与所述TCF模块、所述PF模块、所述存储模块相连接;
所述PF模块还用与对所述源站的资源进行HTTP封装;
所述TCF模块还用于提取会话中的网站IP地址、用户IP地址及已有的TCP会话信息,将HTTP内容封装到原TCP会话中,模拟网站IP信息将报文返回给用户。
2.如权利要求1所述的透明缓存系统,其特征在于,所述存储模块包括资源索引数据库和资源读写子模块,所述资源索引数据库用于存储资源数据,所述资源读写子模块用于读取所述资源索引数据库内的资源数据。
3.如权利要求1所述的透明缓存系统,其特征在于,所述PF模块包括特征识别子模块和分析子模块,所述特征识别子模块用于截取资源头部的内容进行HASH生成特征码,所述分析子模块用于进行HTTP分析。
4.如权利要求3所述的透明缓存系统,其特征在于,所述截取资源头部大小为100k。
5.如权利要求1所述的透明缓存系统,其特征在于,所述物理网卡包括两路网口。
6.一种基于权利要求1至权利要求5任一项所述系统的透明缓存 方法,其特征在于,包括:
网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整;
PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码;
控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源;
PF模块对资源进行HTTP封装,且TCF模块提取会话中的网站IP地址、用户IP地址及已有的TCP会话信息,将HTTP内容封装到原TCP会话中,并模拟网站IP信息将报文返回给用户;
返回资源给用户过程中,透明缓存系统模拟用户IP地址向网站发出TCP重置报文,中断网站的连接。
7.如权利要求6所述的透明缓存方法,其特征在于,所述网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块检查该TCP连接完整,包括:
网站接收用户首次发起建立TCP连接的请求,透明缓存系统TCF模块对TCP连接进行检查;
发现连接没有建立且不完整,则将该请求直接转发出网;
用户与网站建立好TCP连接,网站接收由用户发起HTTP GET资源请求,透明缓存系统TCF模块检查该TCP连接完整。
8.如权利要求6所述的透明缓存方法,其特征在于,所述PF模块对TCP连接完整的网站HTTP进行分析,并截取资源头部的内容进行HASH,生成特征码,包括:
TCF模块将报文提交到PF模块进行HTTP分析,记录用户请求URL;
网站对用户响应资源,PF模块对网站返回给用户的HTTP内容进行分析;
PF模块截取资源头部的内容进行HASH,生成特征码。
9.如权利要求6所述的透明缓存方法,其特征在于,所述控制模块使用特征码与存储模块的资源索引数据库进行比对,将该报文转发给用户并将内容复制存储到本地,或者直接从索引数据库读取资源,包括:
控制模块使用特征码与存储模块的资源索引数据库进行比对,检查本地是否存有资源;
控制模块检查资源索引数据库内无对应资源,则将该报文转发给用户,并且将内容复制存储到本地;
若控制模块检查到索引数据库内有对应资源,则存储模块读取资源。
10.如权利要求6所述的透明缓存方法,其特征在于,所述截取资源头部大小为100k。
CN201811297238.XA 2018-11-01 2018-11-01 一种透明缓存系统及缓存方法 Active CN109587214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811297238.XA CN109587214B (zh) 2018-11-01 2018-11-01 一种透明缓存系统及缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811297238.XA CN109587214B (zh) 2018-11-01 2018-11-01 一种透明缓存系统及缓存方法

Publications (2)

Publication Number Publication Date
CN109587214A CN109587214A (zh) 2019-04-05
CN109587214B true CN109587214B (zh) 2021-11-30

Family

ID=65921244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811297238.XA Active CN109587214B (zh) 2018-11-01 2018-11-01 一种透明缓存系统及缓存方法

Country Status (1)

Country Link
CN (1) CN109587214B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014053A (zh) * 2010-11-17 2011-04-13 华为技术有限公司 业务下发方法、装置及通信系统
CN102130838A (zh) * 2011-04-02 2011-07-20 南京邮电大学 一种基于阿瑞斯协议的对等网络缓存系统的实现方法
CN103200091A (zh) * 2013-03-29 2013-07-10 北京蓝汛通信技术有限责任公司 一种抗干扰方法
CN103905439A (zh) * 2014-03-25 2014-07-02 重庆邮电大学 一种基于家庭网关的加速网页浏览方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014053A (zh) * 2010-11-17 2011-04-13 华为技术有限公司 业务下发方法、装置及通信系统
CN102130838A (zh) * 2011-04-02 2011-07-20 南京邮电大学 一种基于阿瑞斯协议的对等网络缓存系统的实现方法
CN103200091A (zh) * 2013-03-29 2013-07-10 北京蓝汛通信技术有限责任公司 一种抗干扰方法
CN103905439A (zh) * 2014-03-25 2014-07-02 重庆邮电大学 一种基于家庭网关的加速网页浏览方法

Also Published As

Publication number Publication date
CN109587214A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
US9769240B2 (en) Loading of web resources
US8291007B2 (en) System and method to accelerate client/server interactions using predictive requests
US10630758B2 (en) Method and system for fulfilling server push directives on an edge proxy
US8738711B2 (en) System and method for redirecting client-side storage operations
CN102783119A (zh) 访问控制方法、系统及接入终端
US11734367B2 (en) Direct data center request for proxy web scraping
US20180324064A1 (en) Unobtrusive methods and systems for collecting information transmitted over a network
CN102929985A (zh) 一种收藏网页展示的方法和系统
JP4404404B2 (ja) アプリケーションサーバ間のクライアント介在
US20160142432A1 (en) Resource classification using resource requests
CN105279034B (zh) 一致性缓存控制系统和方法
CN107040606B (zh) 用于处理http请求的方法与设备
US9400547B2 (en) Processing device and method thereof
WO2017097092A1 (zh) 缓存集群服务的处理方法及系统
US8694659B1 (en) Systems and methods for enhancing domain-name-server responses
CN105184559B (zh) 一种支付系统及方法
CN109587214B (zh) 一种透明缓存系统及缓存方法
CN106919595B (zh) 一种用于Cookie映射的方法、装置及电子设备
EP4227829A1 (en) Web scraping through use of proxies, and applications thereof
US20230018983A1 (en) Traffic counting for proxy web scraping
US20160028856A1 (en) Method, system and apparatus for providing services across networks
US20240176829A1 (en) Token-based authentication for a proxy web scraping service
CN105959296B (zh) 一种Portal上网接入控制方法及装置
WO2023280593A1 (en) Web scraping through use of proxies, and applications thereof
CN116471325A (zh) 访问请求的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tan Zhicheng

Inventor after: Kang Jifu

Inventor after: Liang Zhu

Inventor before: Tan Zhicheng

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 510000 room 505-1, building 1, No. 1, Mingzhi street, Xiaoguwei street, Panyu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou haizhiguang Network Co.,Ltd.

Address before: 510000 Room 601, information hub building, No. 1, Zhongliu Road, Xiaoguwei, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU SEABRIGHT COMMUNICATION TECHNOLOGY CO.,LTD.