CN102638580A - 一种网页信息处理方法和装置 - Google Patents

一种网页信息处理方法和装置 Download PDF

Info

Publication number
CN102638580A
CN102638580A CN2012100913152A CN201210091315A CN102638580A CN 102638580 A CN102638580 A CN 102638580A CN 2012100913152 A CN2012100913152 A CN 2012100913152A CN 201210091315 A CN201210091315 A CN 201210091315A CN 102638580 A CN102638580 A CN 102638580A
Authority
CN
China
Prior art keywords
client
web
address
page requests
destination server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100913152A
Other languages
English (en)
Inventor
董斌雁
孙鹏
任寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qizhi Software Beijing Co Ltd filed Critical Qizhi Software Beijing Co Ltd
Priority to CN2012100913152A priority Critical patent/CN102638580A/zh
Publication of CN102638580A publication Critical patent/CN102638580A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种网页信息处理方法和装置,涉及网络技术领域。本申请的方法包括:接收客户端的网页请求;解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。将本申请对于用户访问的不能进行压缩传输的网站的网页内容,由于减少了网络对页面内容的传输量,从而提高了传输时间,可节省客户端的流量,对于存在流量限制的客户端来说,使其可在同等流量限制的条件下访问更多的网站,获取更多的信息。

Description

一种网页信息处理方法和装置
技术领域
本申请涉及网络技术领域,特别是涉及一种网页信息处理方法和装置。
背景技术
用户浏览网页是上网的一个主要需求,主要是浏览器通过HTTP协议(超文本传送协议)与Web服务器建立访问请求,Web服务器将相应的网页内容返回给浏览器。超文本传送协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到Web浏览器。HTML是一种用于创建文档的标记语言,这些文档包含到相关信息的链接,用户可以单击一个链接来访问其它文档、图像或多媒体对象,并获得关于链接项的附加信息。客户机和服务器必须都支持HTTP,才能在万维网上发送和接收HTML文档并进行交互。HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。
随着网络的发展,HTTP协议也随着发展,而在HTTP1.1以前的HTTP协议版本,如HTTP1.0,即不支持网页的压缩传输,在采用HTTP1.1的很多Web服务器也未配置支持网页压缩传输的功能。并且,基于历史原因,现有网络中存在大量的采用HTTP1.0协议的Web服务器。
基于上述情况,现有技术中,对于用户浏览的各种网页中,其中可能存在大量未能以压缩模式传输的网页内容,加大了页面返回的传输时间;并且,对于存在流量限制的用户来说,浪费了用户流量。
发明内容
本申请所要解决的技术问题是提供一种网页信息处理方法和装置,对于用户浏览的各未支持网页压缩功能的各网页,降低了页面返回的传输时间,节省了用户的流量。
为了解决上述问题,本申请公开了一种网页信息处理方法,包括:
接收客户端的网页请求;
解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
优选的,接收到客户端的网页请求后包括:
判断客户端的网页请求是否为动态网页请求;
如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
优选的,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
判断所述目标服务器响应是否为动态页面;
如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
优选的,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
优选的,接收客户端的网页请求之前还包括:
在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
优选的,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
相应的,本申请公开了一种网页信息处理装置,包括:
网页请求接收模块,用于接收客户端的网页请求;
网页请求处理模块,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
响应内容判断模块,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
优选的,接收到客户端的网页请求后包括:
第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
优选的,所述压缩处理模块包括:
第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
优选的,所述会话标识生成模块包括:
监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,解析客户端Cookie列表;
计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
优选的,接收客户端的网页请求之前,在客户端包括:
IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
与现有技术相比,本申请包括以下优点:
本申请利用代理服务器,将用户浏览的各web服务器返回的为压缩的页面,根据客户端可接收和解析的压缩格式,在代理服务器中压缩完毕后再发送给客户端,如此,可减少因为网络对页面内容的传输量,从而可节省页面内容在网络中传输的时间;并且,对于用户访问的不能进行压缩传输的网站的网页内容,由于减少了网络对页面内容的传输量,从而可节省客户端的流量,对于存在流量限制的客户端来说,使其可在同等流量限制的条件下访问更多的网站,获取更多的信息。比如对于使用现有3G的移动终端用户来说,一般都存在流量限制,还比如对于教育网用户来说,也一般存在流量限制,那么通过本申请即可在同等流量的条件下,访问更多的网站或网页。
附图说明
图1是本申请一种网页信息处理方法的流程示意图;
图2是本申请一种网页信息处理装置的结构示意图;
图3是本申请一种网页信息处理系统的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心思想之一在于,针对无法将网页内容以压缩模式返回给客户端的情况,通过代理服务器根据客户端的可解析的压缩格式进行压缩,并将压缩后的包返回至客户端。
参照图1,示出了本申请一种网页信息处理方法的流程示意图,包括:
步骤110,接收客户端的网页请求。
对于客户端来说,其可能访问各种类型的web网站,而这些各种类型的web网站采用的可能是不同版本的HTTP协议。而基于历史原因,现在大量存在HTTP1.0的web服务器,而HTTP1.0的web服务器不支持页面压缩传输的功能。同时,由于对于web网站来说,即使采用HTTP1.1协议进行构建,如果对于各网页都进行压缩传输,可能影响服务器的性能,从而许多HTTP1.1web服务器也可能不会配置页面压缩传输功能。那么在这种情况下,客户端可将其网页请求发送至本申请的代理服务器中,由代理服务器接收客户端的网页请求,然后代理服务器对于目标服务器的网页请求响应,如果未压缩,则对其进行压缩传输至客户端。
优选的,接收客户端的网页请求之前还包括:
在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
在实际中,如果客户端需要通过本申请访问网站,节省流量时,首先需要将网页请求发送至本代理。那么在网页请求发送时,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址,即可保证客户端的网页请求发送至本申请的代理服务器。
进一步的,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。实际中,所述域名查询函数为getaddrinfo。
在实际中,当客户端浏览器初始化时,通过钩子函数钩取(hook)系统域名查询函数getaddrinfo,然后对于客户端的网页请求,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
在实际中,用户端通过发送HTTP请求报文至代理服务器,从代理服务器获取HTTP响应报文。
在实际中,用户端会发送HTTP GET请求至代理服务器,比如访问www.baidu.com的HTTP GET请求示例部分如下:
GET/HTTP/1.1
Accept:*/*
Accept-Language:zh-cn
User-Agent:Mozilla/4.0(compatible;MSIE 8.0;Windows NT 5.1;Trident/4.0;.NET CLR 2.0.50727;.NET CLR 3.0.04506.648;.NET CLR3.5.21022;.NET CLR 3.0.4506.2152;.NET CLR 3.5.30729;.NET CLR1.1.4322;.NET4.0C;.NET4.0E;WWTClient2;IE0006_ver1;EN_US;360SE)
Accept-Encoding:gzip,deflate
Host:www.baidu.com
Connection:Keep-Alive
其中:请求的第一部分说明了该请求是一个GET请求,该行的第二部分是一个斜杠(/),用来说明请求的是该域名的根目录.该行的最后一部分说明使用的是HTTP1.1版本(另一个可选荐是1.0).
第2行是请求的第一个请求头部:User-Agent:产生请求的浏览器类型。Accept:客户端可识别的内容类型列表。Host:请求的主域名。
Connection:Keep-Alive,表示保持连接,客户端和代理服务器之间用于传输HTTP数据的TCP连接不会关闭,如果客户端再次访问这个服务器上的网页,会继续使用这一条已经建立的连接。一般Keep-Alive不会永久保持连接,它有一个保持时间,可以在不同的服务器软件(如Apache)中设定这个时间。
实际中,在报文中,请求头部后面存在一个空行,发送回车符和换行符,通知服务器以下不再有请求头。
其中,Host中的www.baidu.com加上“GET/HTTP/1.1”中第一个“/”后“HTTP”之前的请求相对主机路径,为一个完整的客户端HTTP请求的URL。比如对于“ww.baidu.com/s?wd=chinese”这个URL,那么“s?wd=chinese”即写在第一个“/”后“HTTP”之前,即“GET/s?wd=chinese HTTP/1.1”形式。
步骤120,解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
当代理服务器接收到客户端发送的网页请求后,解析所述网页请求,即前述网页请求报文,获得客户端可接收的压缩格式,即客户端可以接收并且在客户端浏览器中可以进行解析的压缩格式。
然后将所述客户端的接收压缩格式对应客户端标识存储与代理服务器中,以备后续步骤使用。
在本步骤中,为了获取客户端网页请求对应的目标服务器的网页内容,代理服务器还会将客户端的网页请求转发至目标服务器。在实际转发的过程中,代理服务器会以网页请求中的域名重构网页请求转发至目标服务器,即代理服务器以自身属性构造前述User-Agent,针对客户端的网页请求中的URL重构网页请求,然后转发至目标服务器。
在本步骤中,优选的,接收到客户端的网页请求后包括:
步骤S1,判断客户端的网页请求是否为动态网页请求;
实际中,是与静态网页相对应的,也就是说,网页URL的后缀不是htm、html、shtml、xml等形态,而是以aspxasp、sp、php、perl、cgi等形式为后缀,在动态网页网址URL中有一个标志性的符号“?”,因此,可通过判断网页请求的URL中是否包括“?”判定网页请求是否为动态;如果包括,那么所述网页请求即为动态网页请求,如果不包括,那么所述网页请求即为静态网页请求。比如前述URL“ww.baidu.com/s?wd=chinese”,其中存在“?”那么该URL对应的网页请求即为动态网页请求;对于前述URL“ww.baidu.com”,其中不存在“?”,那么该URL对应的网页请求即为静态网页请求。
步骤S2,如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
对于客户端的动态网页请求,在客户端与代理服务器,代理服务器与目标服务器交互过程中,需要通过会话图数据结构(session map)进行交互,而这两个过程中的session map需要以一定的标识标志是哪一个客户端在请求,是哪一个目标服务器在提供所述请求的网页内容。
那么此时,可根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
在实际中,客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口必然存在,而在客户端第一次发送网页请求到服务器时,不一定存在,因为cookie信息的内容服务器为该客户端生成,然后发送至客户端,客户端对其进行处理后获得本地的cookie信息。当客户端的网页请求中不存在cookie信息时,所述5元组中的cookie信息即为缺省。
进一步的,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
步骤S21,在代理服务器添加监听事件,监听代理服务器的套接字;
现有技术中,网络中各终端的应用程序一般是通过套接字进行数据传输的,比如客户端浏览器与代理服务器,代理服务器与web服务器之间。那么即可通过添加套接字监听事件获取其中的数据。
步骤S22,代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
在实际中,客户端发送HTTP请求之前,一般会发送网页请求报文至代理服务器进行连接。在客户端发送的网页请求报文中,包括了目标服务器IP地址和目标服务器端口号,本申请在客户端发送的网页请求报文中采用私有参数的形式将客户端IP和端口进行设置,当代理服务器接收到所述网页请求报文后,解析到目标服务器IP和端口号,客户端IP和端口号后,再将所述网页请求报文中的私有参数删除,再进行发送。
在实际中,当客户端存在cookie信息时,客户端的网页请求还包括了客户端对应网站主域名的cookie列表信息,那么代理服务器可根据HTTP协议解析客户端的cookie列表。
步骤S24,依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
当得到所述客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口后,将其作为五元组计算所述五元组的MD5值。(MD5,Message Digest Algorithm 5,中文名为消息摘要算法第五版)
步骤S25,根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
比如前述五元组示例如下:
220.181.126.42【客户端IP】,1000【客户端端口】,CookieList【TAOBAOSIDA=5723055450375193901_20120323193804;TAOBAOCHIDA=109_20120323193804;TAOBAOMIDA=5723055450375259437;TAOBAOAIDA=5723055450375324973】,125.76.224.251【目的服务器IP】,80【目的服务器端口】。
然后基于上述五元组生成MD5值,将其插入会话图数据结构,实际中会话图数据结构一般以sessionMap标识。
步骤130,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
代理服务器获得目的服务器HTTP Response后,检查返回HTTP头是否标识压缩模式。若返回内容是压缩模式,则直接返回给客户端。比如对于如下响应示例:
HTTP Response示例
HTTP/1.1 200OK
Server:nginx
Date:Fri,23 Mar 2012 11:38:06 GMT
Content-Type:image/gif
Content-Length:49
Connection:close
P3P:CP=″NOI DSP COR CURa ADMa DEVa PSAa PSDa OUR IND UNIPUR NAV″
Expires:Sat,16 Jan 1980 12:00:00 GMT
Pragma:no-cache
可根据Content-Type:image/gif判断当前响应内容是否为压缩模式。
步骤140,如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
优选的,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
步骤S131,判断所述目标服务器响应是否为动态页面;
实际中,响应对应客户端的请求的URL,则可判断所述响应对应的URL中是否包括“?”,如果包括则是动态页面,如果不包括,则是静态页面。
步骤S131,如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
如果是静态页面,则可以标准HTTP协议规定gzip格式对网页进行自动压缩、打包,重写HTTP头添加压缩模式标签,并返回给客户端。
步骤S132,如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
如果是动态页面,则根据响应对应的session map中的会话ID,在代理服务器中查询匹配前述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识;若匹配上,则可以标准HTTP协议规定gzip格式对网页进行自动压缩、打包,重写HTTP头添加压缩模式标签。并返回给客户端。
另外,还包括:
步骤150,如果所述响应的内容是不是压缩模式,则将所述网页请求转发至客户端。
因此,对于客户端来说无论目的服务器支持压缩格式或不支持压缩格式,都会被特定代理服务器压缩打包,从而节省客户端的实际下载流量。
参照图2,其示出了本申请一种网页信息处理装置,包括:
代理服务器210,所述代理服务器包括:
网页请求接收模块211,用于接收客户端的网页请求;
网页请求处理模块212,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
响应内容判断模块213,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
所述压缩处理模块还用于如果所述响应的内容是不是压缩模式,则将所述网页请求转发至客户端。
其中,接收到客户端的网页请求后包括:
第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
其中,所述压缩处理模块包括:
第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
其中,所述会话标识生成模块包括:
监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
另外对应使用本申请的代理服务器的客户端中,接收客户端的网页请求之前,在客户端包括:
IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
其中,所述IP地址替换模块包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。所述域名查询函数为getaddrinfo。
参照图3,其示出了本申请一种网页信息处理系统的结构示意图,包括:
代理服务器310和客户端320;
所述代理服务器310包括:
网页请求接收模块311,用于接收客户端的网页请求;
网页请求处理模块312,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
响应内容判断模块313,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
压缩处理模块314,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
所述客户端320包括:IP地址替换模块321,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上对本申请所提供的一种网页信息处理方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种网页信息处理方法,其特征在于,包括:
接收客户端的网页请求;
解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
2.根据权利要求1所述的方法,其特征在于,接收到客户端的网页请求后包括:
判断客户端的网页请求是否为动态网页请求;
如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
3.根据权利要求2所述的方法,其特征在于,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
判断所述目标服务器响应是否为动态页面;
如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
4.根据权利要求2所述的方法,其特征在于,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
5.根据权利要求1所述的方法,其特征在于,接收客户端的网页请求之前还包括:
在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
6.根据权利要求5所述的方法,其特征在于,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
7.一种网页信息处理装置,其特征在于,包括:
网页请求接收模块,用于接收客户端的网页请求;
网页请求处理模块,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
响应内容判断模块,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
8.根据权利要求7所述的装置,其特征在于,接收到客户端的网页请求后包括:
第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
9.根据权利要求8所述的装置,其特征在于,所述压缩处理模块包括:
第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
10.根据权利要求8所述的装置,其特征在于,所述会话标识生成模块包括:
监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,解析客户端Cookie列表;
计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
11.根据权利要求7所述的装置,其特征在于,接收客户端的网页请求之前,在客户端包括:
IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
12.根据权利要求11所述的装置,其特征在于,所述IP地址替换模块包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
CN2012100913152A 2012-03-30 2012-03-30 一种网页信息处理方法和装置 Pending CN102638580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100913152A CN102638580A (zh) 2012-03-30 2012-03-30 一种网页信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100913152A CN102638580A (zh) 2012-03-30 2012-03-30 一种网页信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN102638580A true CN102638580A (zh) 2012-08-15

Family

ID=46622821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100913152A Pending CN102638580A (zh) 2012-03-30 2012-03-30 一种网页信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN102638580A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904937A (zh) * 2012-09-25 2013-01-30 百度在线网络技术(北京)有限公司 移动终端访问网页的方法、系统、浏览器和中转服务器
CN103227827A (zh) * 2013-04-24 2013-07-31 北京小米科技有限责任公司 请求资源的方法和装置
CN103248627A (zh) * 2013-05-06 2013-08-14 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN103685436A (zh) * 2012-09-26 2014-03-26 联想(北京)有限公司 数据获取方法和终端设备
CN103686198A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频数据的处理方法、装置和系统
CN103701852A (zh) * 2013-11-11 2014-04-02 珠海市魅族科技有限公司 发送文件的方法和终端
CN103731493A (zh) * 2013-12-31 2014-04-16 优视科技有限公司 页面传输方法、装置及系统
CN103731492A (zh) * 2013-12-31 2014-04-16 优视科技有限公司 一种页面传输处理方法、装置和系统
CN103905472A (zh) * 2012-12-25 2014-07-02 中国移动通信集团江苏有限公司 一种通过网页方式访问的云存储方法和系统
CN103944942A (zh) * 2013-01-22 2014-07-23 腾讯科技(深圳)有限公司 一种多web环境的数据访问方法和装置
CN104509066A (zh) * 2014-06-05 2015-04-08 胡汉强 一种访问网络的方法及网络设备、管理服务器
CN105391642A (zh) * 2015-10-16 2016-03-09 百度在线网络技术(北京)有限公司 流量节省方法以及装置
CN105871980A (zh) * 2015-12-01 2016-08-17 乐视体育文化产业发展(北京)有限公司 提高缓存命中率的方法及装置
CN108959384A (zh) * 2018-05-31 2018-12-07 康键信息技术(深圳)有限公司 网页数据获取方法、装置、计算机设备和存储介质
CN109275014A (zh) * 2018-09-13 2019-01-25 武汉斗鱼网络科技有限公司 一种链接弹幕的方法及移动终端
CN110636034A (zh) * 2018-06-25 2019-12-31 优视科技有限公司 应用数据传输方法、客户端、服务器及系统
CN110677396A (zh) * 2019-09-16 2020-01-10 杭州迪普科技股份有限公司 一种安全策略配置方法和装置
CN110727720A (zh) * 2019-10-21 2020-01-24 腾讯科技(深圳)有限公司 列表显示及查询方法、装置、存储介质和计算机设备
CN110808897A (zh) * 2019-11-06 2020-02-18 深信服科技股份有限公司 代理访问方法、用户设备、存储介质、装置及系统
CN112769730A (zh) * 2019-10-21 2021-05-07 北京车和家信息技术有限公司 一种页面压缩方法、装置、客户端及服务端
CN112822237A (zh) * 2020-12-28 2021-05-18 北京奇艺世纪科技有限公司 网络请求传输方法及装置
CN113076462A (zh) * 2021-03-25 2021-07-06 恒安嘉新(北京)科技股份公司 网络会话数据查询方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505309A (zh) * 2002-11-20 2004-06-16 安全地处理被用于基于web的资源访问的客户证书
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN101126977A (zh) * 2007-08-28 2008-02-20 激动集团股份有限公司 一种基于isapi的web静态页面生成方法
CN102238226A (zh) * 2010-04-22 2011-11-09 帕洛阿尔托研究中心公司 在以内容为中心的网络上的会话迁移

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505309A (zh) * 2002-11-20 2004-06-16 安全地处理被用于基于web的资源访问的客户证书
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN101126977A (zh) * 2007-08-28 2008-02-20 激动集团股份有限公司 一种基于isapi的web静态页面生成方法
CN102238226A (zh) * 2010-04-22 2011-11-09 帕洛阿尔托研究中心公司 在以内容为中心的网络上的会话迁移

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904937A (zh) * 2012-09-25 2013-01-30 百度在线网络技术(北京)有限公司 移动终端访问网页的方法、系统、浏览器和中转服务器
CN103685436B (zh) * 2012-09-26 2017-05-24 联想(北京)有限公司 数据获取方法和终端设备
CN103685436A (zh) * 2012-09-26 2014-03-26 联想(北京)有限公司 数据获取方法和终端设备
CN103905472A (zh) * 2012-12-25 2014-07-02 中国移动通信集团江苏有限公司 一种通过网页方式访问的云存储方法和系统
CN103905472B (zh) * 2012-12-25 2017-12-01 中国移动通信集团江苏有限公司 一种通过网页方式访问的云存储方法和系统
CN103944942B (zh) * 2013-01-22 2018-04-27 腾讯科技(深圳)有限公司 一种多web环境的数据访问方法和装置
CN103944942A (zh) * 2013-01-22 2014-07-23 腾讯科技(深圳)有限公司 一种多web环境的数据访问方法和装置
CN103227827B (zh) * 2013-04-24 2016-02-24 小米科技有限责任公司 请求资源的方法和装置
CN103227827A (zh) * 2013-04-24 2013-07-31 北京小米科技有限责任公司 请求资源的方法和装置
CN103248627B (zh) * 2013-05-06 2017-02-08 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN103248627A (zh) * 2013-05-06 2013-08-14 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN103701852B (zh) * 2013-11-11 2017-12-12 魅族科技(中国)有限公司 发送文件的方法和终端
CN103701852A (zh) * 2013-11-11 2014-04-02 珠海市魅族科技有限公司 发送文件的方法和终端
CN103686198A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频数据的处理方法、装置和系统
CN103731492B (zh) * 2013-12-31 2017-08-04 优视科技有限公司 一种页面传输处理方法、装置和系统
CN103731492A (zh) * 2013-12-31 2014-04-16 优视科技有限公司 一种页面传输处理方法、装置和系统
CN103731493A (zh) * 2013-12-31 2014-04-16 优视科技有限公司 页面传输方法、装置及系统
CN104509066B (zh) * 2014-06-05 2017-10-27 胡汉强 一种访问网络的方法及网络设备、管理服务器
CN104509066A (zh) * 2014-06-05 2015-04-08 胡汉强 一种访问网络的方法及网络设备、管理服务器
CN105391642A (zh) * 2015-10-16 2016-03-09 百度在线网络技术(北京)有限公司 流量节省方法以及装置
CN105871980A (zh) * 2015-12-01 2016-08-17 乐视体育文化产业发展(北京)有限公司 提高缓存命中率的方法及装置
CN108959384A (zh) * 2018-05-31 2018-12-07 康键信息技术(深圳)有限公司 网页数据获取方法、装置、计算机设备和存储介质
CN108959384B (zh) * 2018-05-31 2023-04-07 康键信息技术(深圳)有限公司 网页数据获取方法、装置、计算机设备和存储介质
CN110636034A (zh) * 2018-06-25 2019-12-31 优视科技有限公司 应用数据传输方法、客户端、服务器及系统
CN109275014B (zh) * 2018-09-13 2021-09-07 武汉斗鱼网络科技有限公司 一种链接弹幕的方法及移动终端
CN109275014A (zh) * 2018-09-13 2019-01-25 武汉斗鱼网络科技有限公司 一种链接弹幕的方法及移动终端
CN110677396A (zh) * 2019-09-16 2020-01-10 杭州迪普科技股份有限公司 一种安全策略配置方法和装置
CN110727720A (zh) * 2019-10-21 2020-01-24 腾讯科技(深圳)有限公司 列表显示及查询方法、装置、存储介质和计算机设备
CN112769730A (zh) * 2019-10-21 2021-05-07 北京车和家信息技术有限公司 一种页面压缩方法、装置、客户端及服务端
CN112769730B (zh) * 2019-10-21 2023-03-24 北京车和家信息技术有限公司 一种页面压缩方法、装置、客户端及服务端
CN110727720B (zh) * 2019-10-21 2023-06-20 腾讯科技(深圳)有限公司 列表显示及查询方法、装置、存储介质和计算机设备
CN110808897A (zh) * 2019-11-06 2020-02-18 深信服科技股份有限公司 代理访问方法、用户设备、存储介质、装置及系统
CN112822237A (zh) * 2020-12-28 2021-05-18 北京奇艺世纪科技有限公司 网络请求传输方法及装置
CN113076462A (zh) * 2021-03-25 2021-07-06 恒安嘉新(北京)科技股份公司 网络会话数据查询方法、装置、设备及介质
CN113076462B (zh) * 2021-03-25 2024-04-30 恒安嘉新(北京)科技股份公司 网络会话数据查询方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN102638580A (zh) 一种网页信息处理方法和装置
US7277914B2 (en) Proxy server apparatus and method for providing service using the same
CA2732540C (en) Methods for optimizing a web content proxy server and devices thereof
US9633135B2 (en) Method and system for extending the capabilities of embedded devices through network clients
EP1886470B1 (en) Method and system for object prediction
TWI670611B (zh) 網頁文件發送方法、網頁渲染方法及裝置、網頁渲染系統
CN100562873C (zh) 获取网页中网页元素的系统及方法
US9473592B2 (en) Methods for optimizing a web content proxy server and devices thereof
WO2012152228A1 (zh) 获取页面资源的方法及装置、浏览器及移动终端
US20120246258A1 (en) Http-based synchronization method and apparatus
WO2013078830A1 (zh) 一种处理移动终端的页面访问请求的方法、设备与系统
US9143378B2 (en) Rendering components within different browser environments
Lemlouma et al. Adapted content delivery for different contexts
WO2014034001A1 (ja) Webコンテンツ先読み制御装置、Webコンテンツ先読み制御プログラム、及びWebコンテンツ先読み制御方法
CN106790334A (zh) 一种页面数据传输方法及系统
CN111708962A (zh) 骨架屏的渲染方法、装置、设备及存储介质
CN105279156B (zh) 网络信息通信方法及网络信息浏览装置
KR20090009804A (ko) 네트워크 응답 버퍼링 거동을 관리하는 방법 및 그를 이용하는 컴퓨터 시스템
EP2787454A1 (en) Methods for optimizing a web content proxy server and devices thereof
Nagy Improved speed on intelligent web sites
JP2004246747A (ja) 既存サービスのラッピング方法および装置
CN103167554B (zh) 网关流量压缩处理方法与装置、网络服务提供系统
KR100987768B1 (ko) 대용량 쿠키 처리 방법 및 장치
US20130110912A1 (en) System and method for providing anonymous internet browsing
CN109344344A (zh) 网页客户端的标识方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING QIHU TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20121026

Owner name: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20121026

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100016 CHAOYANG, BEIJING TO: 100088 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20121026

Address after: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant after: Beijing Qihu Technology Co., Ltd.

Applicant after: Qizhi Software (Beijing) Co., Ltd.

Address before: The 4 layer 100016 unit of Beijing city Chaoyang District Jiuxianqiao Road No. 14 Building C

Applicant before: Qizhi Software (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20120815

RJ01 Rejection of invention patent application after publication