CN108076124B - 一种面向高速http网络采集数据的压缩方法 - Google Patents

一种面向高速http网络采集数据的压缩方法 Download PDF

Info

Publication number
CN108076124B
CN108076124B CN201611040717.4A CN201611040717A CN108076124B CN 108076124 B CN108076124 B CN 108076124B CN 201611040717 A CN201611040717 A CN 201611040717A CN 108076124 B CN108076124 B CN 108076124B
Authority
CN
China
Prior art keywords
data
http
load
network
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611040717.4A
Other languages
English (en)
Other versions
CN108076124A (zh
Inventor
叶晓舟
刘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinrand Network Technology Co ltd
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Intellix Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Intellix Technologies Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201611040717.4A priority Critical patent/CN108076124B/zh
Publication of CN108076124A publication Critical patent/CN108076124A/zh
Application granted granted Critical
Publication of CN108076124B publication Critical patent/CN108076124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • H04L67/5651Reducing the amount or size of exchanged application data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向高速HTTP网络采集数据的压缩方法,所述方法包括:网络数据采集器进行HTTP数据采集接收,判断HTTP数据是否在本地缓存,如果缓存则删除该数据的载荷,使用缓存标识替代载荷内容;如果没有缓存则对HTTP载荷进行缓存,添加缓存标识;然后将HTTP数据加入待压缩处理队列,对缓存的载荷数据之外数据进行压缩。本发明的方法通过缓存方式大幅度减少HTTP数据量;利用压缩处理队列中的众多HTTP采集数据的重复冗余,通过无损压缩算法进行压缩,可以得到良好的压缩率,满足高速HTTP网络采集数据的压缩需求。

Description

一种面向高速HTTP网络采集数据的压缩方法
技术领域
本发明涉及计算机及网络技术领域,尤其涉及一种面向高速HTTP网络采集数据的压缩方法。
背景技术
HTTP协议是互联网应用最广泛的协议,网络中的HTTP数据是网络安全审计、网络流量分析等网络安全应用的重要数据来源。通过在有线网络中对HTTP的分析统计,其流量占总流量的24.7%。在目前网络边缘节点的带宽达到10G,网络核心节点的带宽则到达40G、100G的情况下,经过采集的HTTP网络数据流量和并发量极大。对于网络数据采集器把HTTP网络采集数据传输给远端的云分析系统进行后续分析处理的应用场景来说,其所需的采集数据传输需要很高带宽,带宽租赁费用难以承受。而网络数据采集器如果对HTTP网络采集数据进行本地存储,存储io难以满足大吞吐量的数据存储需求。无论是采集器向远端传输方式还是本地存储方式,都需要对HTTP网络采集数据进行压缩。采用通用的无损数据压缩方式来减少网络流量是一种合理的手段,但是HTTP流量中的音视频、图片等主要负载已经进行了压缩,再次压缩反而可能会造成数据增大。HTTP协议中支持压缩选项,用于减少web服务器和浏览器之间的传输数据,但不适用于高速条件下的HTTP网络数据采集。如何在尽量保留采集的HTTP关键信息的同时大幅度压缩采集数据,是高速HTTP网络采集遇到的一大难题。
发明内容
本发明的目的在于克服目前高速HTTP网络采集数据压缩难以实现的问题,提供一种面向高速HTTP网络采集数据的压缩方法,利用HTTP服务内容、HTTP协议字段和IP包头等的重复冗余,通过对HTTP音、视频、文本等内容负载进行缓存,以及对处理队列中的多HTTP并发的IP数据包进行无损压缩,有效降低HTTP网络采集数据量,特别适用于网络运维审计,银行电信等服务类网站的网络行为审计等服务内容固定的web应用场景。
为了实现上述目的,本发明提供了一种面向高速HTTP网络采集数据的压缩方法,所述方法包括:网络数据采集器进行HTTP数据采集接收,判断HTTP数据是否在本地缓存,如果缓存则删除该数据的载荷,使用缓存标识替代载荷内容;如果没有缓存则对HTTP载荷进行缓存,添加缓存标识;然后将HTTP数据加入待压缩处理队列,对该数据的缓存的载荷数据之外数据进行压缩。
上述技术方案中,所述方法具体包括:
步骤1)网络数据采集器进行HTTP数据采集接收;
步骤2)判断接收到的HTTP载荷是否有缓存,没有缓存则执行步骤3),有缓存则执行步骤4);
步骤3)网络数据采集器进行HTTP载荷缓存,并为该载荷添加缓存标识,同时设定缓存时间,执行步骤5);
步骤4)删除该条HTTP数据中的载荷,并使用缓存标识替代载荷内容,执行步骤5);
步骤5)将HTTP数据加入待压缩处理队列;
步骤6)判断待压缩处理队列所占用的空间是否已经达到了预定的压缩门限,达到,则执行步骤7),未达到,则执行步骤1);
步骤7)采用无损压缩算法对缓存的载荷数据之外数据进行压缩;
步骤8)清除已经到达缓存时间的缓存载荷,转入步骤1),直至网络数据采集器不再接收HTTP数据。
上述技术方案中,所述步骤7)的无损压缩算法为gizp压缩算法。
上述技术方案中,所述步骤7)的缓存的载荷数据之外数据包括IP头部、TCP头部和HTTP头部数据。
本发明的优点在于:
本发明的方法利用网络运维审计,银行电信等服务类网站的网络行为审计等服务内容固定的web应用场景中HTTP所携带的音视频、图片、文本等载荷内容的重复冗余,通过缓存方式大幅度减少HTTP数据量;利用压缩处理队列中的众多HTTP采集数据的重复冗余,通过无损压缩算法进行压缩,可以得到良好的压缩率。满足高速HTTP网络采集数据的压缩需求。
附图说明
图1为本发明的面向高速HTTP网络采集数据的压缩方法的流程图。
具体实施方式
下面结合实施例,对本发明的技术方案做进一步的详细描述。
本实施例以网络数据采集设备在HTTP网络运维审计中应用为例,说明一种面向高速HTTP网络采集数据的压缩方法的实施方式,如图1所示,所述方法包括:
步骤1)网络数据采集器进行HTTP数据采集接收;
步骤2)判断接收到的HTTP载荷是否有缓存,没有缓存则执行步骤3),有缓存则执行步骤4);
步骤3)网络数据采集器进行HTTP载荷缓存,并为该载荷添加缓存标识,同时设定缓存时间,执行步骤5);
步骤4)删除该条HTTP数据中的载荷,并使用缓存标识替代载荷内容,执行步骤5);
步骤5)将HTTP数据加入待压缩处理队列;
步骤6)判断待压缩处理队列所占用的空间是否已经达到了预定的压缩门限,达到,则执行步骤7),未达到,则执行步骤1);
步骤7)采用gizp无损压缩算法进行缓存的载荷数据之外数据的压缩,包括IP头部、TCP头部、HTTP头部等数据;
步骤8)清除已经到达缓存时间的缓存载荷,转入步骤1),直至网络数据采集器不再接收HTTP数据。
网络数据采集设备在HTTP网络流量采集过程中,通过对HTTP中音视频、图片、文本等载荷的缓存,避免大量重复冗余的媒体数据处理,同时通过对队列中的多并发HTTP数据进行无损压缩,压缩效率较高,压缩处理时延为预定的队列填充时间和压缩执行时间,实时性较好。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种面向高速HTTP网络采集数据的压缩方法,所述方法包括:网络数据采集器进行HTTP数据采集接收,判断HTTP数据是否在本地缓存,如果缓存则删除该数据的载荷,使用缓存标识替代载荷内容;如果没有缓存则对HTTP载荷进行缓存,添加缓存标识;然后将HTTP数据加入待压缩处理队列,对该数据的缓存的载荷数据之外的数据进行压缩;
所述方法具体包括:
步骤1)网络数据采集器进行HTTP数据采集接收;
步骤2)判断接收到的HTTP载荷是否有缓存,没有缓存则执行步骤3),有缓存则执行步骤4);
步骤3)网络数据采集器进行HTTP载荷缓存,并为该载荷添加缓存标识,同时设定缓存时间,执行步骤5);
步骤4)删除该条HTTP数据中的载荷,并使用缓存标识替代载荷内容,执行步骤5);
步骤5)将HTTP数据加入待压缩处理队列;
步骤6)判断待压缩处理队列所占用的空间是否已经达到了预定的压缩门限,达到,则执行步骤7),未达到,则执行步骤1);
步骤7)采用无损压缩算法对缓存的载荷数据之外数据进行压缩;
步骤8)清除已经到达缓存时间的缓存载荷,转入步骤1),直至网络数据采集器不再接收HTTP数据。
2.根据权利要求1所述的面向高速HTTP网络采集数据的压缩方法,其特征在于,所述步骤7)的无损压缩算法为gizp压缩算法。
3.根据权利要求1所述的面向高速HTTP网络采集数据的压缩方法,其特征在于,所述步骤7)的缓存的载荷数据之外数据包括IP头部、TCP头部和HTTP头部数据。
CN201611040717.4A 2016-11-10 2016-11-10 一种面向高速http网络采集数据的压缩方法 Active CN108076124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611040717.4A CN108076124B (zh) 2016-11-10 2016-11-10 一种面向高速http网络采集数据的压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611040717.4A CN108076124B (zh) 2016-11-10 2016-11-10 一种面向高速http网络采集数据的压缩方法

Publications (2)

Publication Number Publication Date
CN108076124A CN108076124A (zh) 2018-05-25
CN108076124B true CN108076124B (zh) 2020-05-26

Family

ID=62161570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611040717.4A Active CN108076124B (zh) 2016-11-10 2016-11-10 一种面向高速http网络采集数据的压缩方法

Country Status (1)

Country Link
CN (1) CN108076124B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888317A (zh) * 2014-03-31 2014-06-25 西南科技大学 一种协议无关的网络冗余流量消除方法
CN105262491A (zh) * 2015-10-13 2016-01-20 深圳市有方科技股份有限公司 数据压缩方法及系统、数据解压缩方法及系统、通信设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533550B2 (en) * 2010-06-29 2013-09-10 Intel Corporation Method and system to improve the performance and/or reliability of a solid-state drive

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888317A (zh) * 2014-03-31 2014-06-25 西南科技大学 一种协议无关的网络冗余流量消除方法
CN105262491A (zh) * 2015-10-13 2016-01-20 深圳市有方科技股份有限公司 数据压缩方法及系统、数据解压缩方法及系统、通信设备

Also Published As

Publication number Publication date
CN108076124A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
US10652265B2 (en) Method and apparatus for network forensics compression and storage
EP2890133B1 (en) System and method for distributing live broadcast content
EP2697967B1 (en) Real-time video detector
EP2800310B1 (en) Content transmitting system, method for optimizing network traffic in the system, central control device and local caching device
US9455864B2 (en) System and method for creation, distribution, application, and management of shared compression dictionaries for use in symmetric HTTP networks
US9210090B1 (en) Efficient storage and flexible retrieval of full packets captured from network traffic
CA2591777C (en) System and method for enhancing network browsing speed by setting a proxy server on a handheld device
EP3013015B1 (en) Packet compression method and apparatus
US10063893B2 (en) Controlling the transmission of a video data stream over a network to a network user device
US9609402B2 (en) Optical transmittal storage networks
WO2006066383A1 (en) System and method for enhancing network browsing speed by setting a proxy server on a handheld device
CN102651861A (zh) 用于移动终端的下载方法、移动终端和代理下载服务器
US20120124633A1 (en) Wireless Video Streaming Quality Management for Bandwidth Constrained Cellular Network
CN111030999B (zh) 一种基于网络数据包提取文件的方法
CN107357526B (zh) 用于处理网络数据的方法和装置、服务器和存储介质
CN103390023A (zh) 图片处理方法及系统
CN113079386B (zh) 一种视频在线播放方法、装置、电子设备及存储介质
CN108076124B (zh) 一种面向高速http网络采集数据的压缩方法
CN112187774A (zh) 一种基于http/2传输特征的加密数据长度还原方法
CN108234567A (zh) 数字报文件的上传方法、客户端、云存储平台和服务器
CN111314350A (zh) 图像存储系统、存储方法、调用系统和调用方法
CN115022585A (zh) 告警视频抓取的方法和装置
CN103167554B (zh) 网关流量压缩处理方法与装置、网络服务提供系统
CN112882808B (zh) 应用交付设备大数据审计日志收集和发送的方法
Kalan et al. Towards low latency live streaming: challenges in a real-world deployment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210818

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Patentee before: BEIJING INTELLIX TECHNOLOGIES Co.,Ltd.

Effective date of registration: 20210818

Address after: Room 1601, 16th floor, East Tower, Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou, Henan 450001

Patentee after: Zhengzhou xinrand Network Technology Co.,Ltd.

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES