CN112311789B - 深度报文处理方法、装置、电子设备及存储介质 - Google Patents

深度报文处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112311789B
CN112311789B CN202011173763.8A CN202011173763A CN112311789B CN 112311789 B CN112311789 B CN 112311789B CN 202011173763 A CN202011173763 A CN 202011173763A CN 112311789 B CN112311789 B CN 112311789B
Authority
CN
China
Prior art keywords
http
data stream
protocol
tcp data
tcp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011173763.8A
Other languages
English (en)
Other versions
CN112311789A (zh
Inventor
孙晓
谢永恒
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202011173763.8A priority Critical patent/CN112311789B/zh
Publication of CN112311789A publication Critical patent/CN112311789A/zh
Priority to PCT/CN2021/107642 priority patent/WO2022088779A1/zh
Application granted granted Critical
Publication of CN112311789B publication Critical patent/CN112311789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种深度报文处理方法、装置、电子设备及存储介质。该方法包括:通过获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;若是,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构,从而得到多个HTTP/2流对象结构;并基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与所述头信息对应的数据内容,将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中,从而实现了对HTTP/2数据流的解析与存储,通过将各个HTTP/2数据流存储至对应结构,为预设检测规则的匹配提供了数据基础。

Description

深度报文处理方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种深度报文处理方法、装置、电子设备及存储介质。
背景技术
为了协助运营商对网络流量的管控,DPI(Deep Packet Inspection,深度报文检测)方法在网络中被广泛应用。其中的“深度”是和普通报文分析层次相比较而言的,普通报文检测仅分析IP报文四层以下内容,包括源IP地址、目的IP地址、传输层源端口、传输层目的端口和承载协议类型,而DPI技术基于从二层到七层网络协议的分析,能够实现对网络中数据的精准感知,从而实现对网络现状的精准把握,如业务识别、业务统计、流量管控和网元分析等。
然而,DPI的本质是一种数据报文过滤技术,需要先对应用层有效载荷进行解析,从而根据业务需求对解析后的信息进行匹配过滤。因此,解析出应用层有效载荷信息至关重要。
发明内容
本发明提供一种深度报文处理方法、装置、电子设备及存储介质,以实现针对HTTP/2协议的报文处理,从而为预设检测规则的匹配提供了数据基础。
第一方面,本发明实施例提供了一种深度报文处理方法,包括:
获取TCP数据流,基于所述TCP数据流中的协议标识确定所述TCP数据流中是否包含HTTP/2协议;
若是,则根据所述HTTP/2协议中的流标识符确定所述TCP数据流中至少一个HTTP/2数据流,并基于所述HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
基于HTTP/2头映射表解析各所述HTTP/2数据流的头信息,并提取所述HTTP/2数据流中与所述头信息对应的数据内容;
将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
第二方面,本发明实施例还提供了一种深度报文处理装置,该装置包括:
协议确定模块,用于获取TCP数据流,基于所述TCP数据流中的协议标识确定所述TCP数据流中是否包含HTTP/2协议;
结构构建模块,用于在所述TCP数据流中包含HTTP/2协议时,根据所述HTTP/2协议中的流标识符确定所述TCP数据流中至少一个HTTP/2数据流,并基于所述HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
内容提取模块,用于基于HTTP/2头映射表解析各所述HTTP/2数据流的头信息,并提取所述HTTP/2数据流中与所述头信息对应的数据内容;
数据存储模块,用于将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例提供的深度报文处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的深度报文处理方法。
上述发明中的实施例具有如下优点或有益效果:
通过获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;若是,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构,从而得到多个HTTP/2流对象结构;并基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与所述头信息对应的数据内容,将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中,从而实现了对HTTP/2数据流的解析与存储,通过将各个HTTP/2数据流存储至对应结构,为预设检测规则的匹配提供了数据基础。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种深度报文处理方法的流程示意图;
图2为本发明实施例二所提供的一种深度报文处理方法的流程示意图;
图3为本发明实施例三所提供的一种深度报文处理装置的结构示意图;
图4为本发明实施例四所提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的深度报文处理方法的流程示意图,本实施例可适用于需要解析HTTP/2数据流,并对各个的HTTP/2数据流的数据信息进行存储,以统计分析大量HTTP/2数据流数据信息的情形,该方法可以由深度报文处理装置来执行,该装置可以由硬件和/或软件来实现,该方法具体包括如下步骤:
S110、获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议。
其中,TCP(Transmission Control Protocol,传输控制协议)提供一种面向连接的字节流服务,两个使用TCP的应用(如客户端和服务器)在交换数据包之前,需要建立一个TCP连接,在该连接上传输的数据则为TCP数据流,每个TCP数据流中包含一个或多个TCP报文,各个TCP报文包括报文头部分和有效承载的数据体部分。TCP数据流可以从传输层中直接获取,或从链路层、网络层等底层数据包中解封装获得,其中,解封装指自下而上的逐层去掉头部或尾部的过程。
在本实施例中,HTTP/2协议指HTTP/2协议报文帧。协议标识指TCP数据流中各个TCP报文的数据体部分中所包含的协议信息,其中,协议是指诸如HTTP协议、FTP协议或HTTP/2等应用层的协议,协议信息指在应用层上发送的一个或多个报文帧的组合,其中,应用层协议在交互过程中产生的各个报文帧,由传输层根据帧头的标志进行关联和组装,并封装至TCP报文的数据体部分中,因此,可以从TCP报文的数据体部分中确定应用层协议信息。不同的应用类型通常依赖不同的应用层协议,而各个应用层协议具备相应的特征,如特定的端口、特定的字符串或者特定的Bit序列等,基于各个协议的相应特征,通过对TCP数据流中的TCP报文数据体部分的协议信息进行检测,可以确定出TCP数据流所包含的协议。
具体的,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议,包括:从TCP数据流中提取第一个有效承载的报文内容,对第一个有效承载的报文内容进行Magic字符串匹配,若匹配成功,则TCP数据流中包含HTTP/2协议。其中,第一个有效承载的报文内容指TCP数据流的第一个TCP报文的数据体部分。两个依赖HTTP/2协议的应用(如客户端和服务器)在传输各个HTTP/2报文帧时,第一个报文帧通常为Magic帧,因此,将第一个报文帧通常为Magic帧作为HTTP/2协议的特征,对第一个报文帧进行Magic字符串匹配可以判断是否为HTTP/2协议。Magic帧的内容固定为PRI*HTTP/2.0\r\n\r\nSM\r\n\r\n,因此,将TCP数据流的第一个有效承载的报文内容进行Magic字符串匹配,可以识别出HTTP/2协议。
可选的,若TCP数据流不包含HTTP/2协议,将TCP数据流添加至黑名单,以使在TCP数据流的生命周期内不进行HTTP/2数据流处理。其中,TCP数据流的生命周期是指保持TCP连接的预设时间段,若TCP数据流不包含HTTP/2协议,将TCP数据流添加至黑名单,以对保持TCP连接的预设时间段内的TCP数据流均不进行HTTP/2数据流处理。
S120、若TCP数据流中包含HTTP/2协议,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,并基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构。
其中,HTTP/2协议中的流标识符用于唯一标识HTTP/2的数据流,流标识符为31字节,通过流标识符可以确定出一个或多个HTTP/2数据流。一个单独的HTTP/2连接能够包含多个同时打开的HTTP/2数据流,每个HTTP/2数据流可以看作一个请求,每个HTTP/2数据流上传输一个或多个HTTP/2协议报文帧,不同HTTP/2数据流中的HTTP/2协议报文帧交错地发送给对方。根据帧头的标志,在传输层将各个不同HTTP/2数据流上的HTTP/2协议报文帧进行关联和组装,并封装成TCP报文。具体的,根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流具体过程为:首先,从TCP数据流中确定TCP报文的数据体,其中,TCP报文的数据体由各个HTTP/2数据流的HTTP/2协议报文帧,根据帧头的标志进行关联和组装得到;然后,从TCP报文数据体中获取各个HTTP/2协议报文帧;最后,根据HTTP/2协议报文帧的流标识符确定至少一个HTTP/2数据流。示例性的,4个HTTP/2协议报文帧的流标识符分别为2、4、4、6,则构建3个HTTP/2流对象结构。
在本实施例中,每个HTTP/2流包括一个头帧——headers,用于传输HTTP/2流的额外的首部字段,还可以包括一个或多个消息体帧——data,用于传输HTTP/2消息体。HTTP/2流对象结构中包括headers的存储区域和对应的data的存储区域。
S130、基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与头信息对应的数据内容。
其中,各HTTP/2数据流的头信息采用Huffman编码压缩以减少传输大小,由HTTP/2流中的headers携带,通过对HTTP/2流中的headers进行Huffman编码解码,再结合头映射表获取HTTP/2数据流的头信息。HTTP/2数据流的传输的两端(如客户端和服务器)需要维护同一份头映射表。
具体的,HTTP/2头映射表包括静态头映射表和动态头映射表;其中,基于HTTP/2头映射表解析各HTTP/2数据流的头信息,包括:识别HTTP/2数据流中未解析头信息,将未解析头信息在静态头映射表中进行匹配,确定未解析头信息对应的解析后的头信息;当静态头映射表中不包括未解析头信息时,调用动态头映射表,确定未解析头信息对应的解析后的头信息。
其中,静态头映射表包含常见的头部名称,以及常见的头部名称与值的组合,头部名称与值组成头部键值对,如表1所示,通常预先设置于连接双方(如客户端与服务器)。动态头映射表可以动态地添加内容,如客户端向服务端发送将cookie:xxxxxxx添加到动态头映射表的请求信息,以使客户端和服务器可以将整个键值对用一个字符表示。具体的,HTTP/2数据流中未解析头信息先通过静态头映射表中进行匹配,若未匹配成功,则再通过动态头映射表进行匹配。
在本实施例中,静态头映射表中包括多个头部键值对和多个头部名称,如表1所示。当接收到HTTP/2数据流的头信息后,若整个头部键值对都存在于静态头映射表,可以根据索引值直接查询到头部键值,如HTTP/2数据流的头信息解码后索引值为2,则在静态头映射表查询可得对应:method:GET,请求获取Request-URI所标识的资源,解码后索引值为3,则在静态头映射表查询可得对应:method:POST,在Request-URI所标识的资源后附加新的数据;若只有头部名称存在于静态头映射表,可以根据索引值查询到头部名称,在将头部值进行解码后,作为该头部名称对应的值,将解码后的头部键值对添加至动态头映射表中,以使后续接收到头信息后,可以根据动态头映射表中的索引值直接确定头部键值对,示例性的,索引值为32(100000),在静态字典中查询可得cookie,头部值使用了哈夫曼编码,长度是28(0011100);接下来的28个字节为cookie的值,将其进行哈夫曼解码即可得到cookie对应的值,并将该头部名称和对应值添加至动态头映射表中。
表1
Index Header Name Header Value
1 :authority
2 :method GET
3 :method POST
4 :path /
5 :path /index.html
6 :scheme http
7 :scheme https
…… …… ……
32 cookie
…… …… ……
S140、将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
其中,各个HTTP/2数据流包含一个头帧,以及优先级帧、ping帧或一个或多个消息体帧等。示例性的,客户端与服务器传输中的某个HTTP/2数据流中包括一个头帧和两个消息体帧,则将解析后的头信息和两个消息体帧存储至该HTTP/2数据流对象结构中。
本实施例的技术方案,通过获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;若是,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构,从而得到多个HTTP/2流对象结构;并基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与所述头信息对应的数据内容,将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中,从而实现了对HTTP/2数据流的解析与存储,通过将各个HTTP/2数据流存储至对应结构,为预设检测规则的匹配提供了数据基础。
可选的,在将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中之后,还包括:接收数据检测的匹配规则,将匹配规则分别与各HTTP/2流对象结构中存储信息进行匹配,确定检测结果。
其中,数据检测的匹配规则指根据实际业务需求所确定的规则,可以用于对各HTTP/2流对象结构中存储的信息进行过滤,得到符合业务需求的信息,将过滤结果作为检测结果,从而调用检测结果返回至外部应用,以使外部应用展示或统计检测结果。通过匹配规则分别与各HTTP/2流对象结构中存储信息进行匹配,确定检测结果,实现了HTTP/2流对象结构中存储信息的过滤,从而得出业务需求对应的检测结果。
示例性的,匹配规则包括如下至少一项:预设头信息长度、预设数据内容长度和预设字段内容。其中,预设头信息长度和预设数据内容长度可以筛选出固定头长度和数据体长度的HTTP/2流对象结构中存储信息。预设字段内容可以是一段预设字符串,预设字符串可以是敏感行为的特征字符串,将匹配出的HTTP/2流对象结构中存储信息确定为敏感行为,实现不良网络内容或者是黑客网络攻击行为的检测;预设字符串还可以是各种应用类型对应的特征字符串,用于识别各种应用类型,如QQ、微信或淘宝等,各种应用类型对应的特征字符串存储于后台特征数据库,以使将各HTTP/2流对象结构中的存储信息与特征字符串进行匹配后,得到各个应用类型的检测结果,实现流量流向和业务占比的统计;预设字符串还可以是诸如万维网或无线网等区域的特征字符串或表征时间的字符串,对匹配后的HTTP/2流对象结构中存储信息作统计,可以得到HTTP/2协议的热点区域和高峰时刻。
在本实施例中,通过预设头信息长度、预设数据内容长度和预设字段内容中的至少一项,分别与各HTTP/2流对象结构中存储信息进行匹配,确定检测结果,实现了固定头长度和数据体长度的HTTP/2流对象结构中存储信息的筛选,不良网络内容或者是黑客网络攻击行为的检测,流量流向和业务占比的统计,以及HTTP/2协议的热点区域和高峰时刻的探测。
实施例二
图2为本发明实施例二提供的深度报文处理方法中的流程示意图,本实施例在上述各实施例的基础上,增加了对IP分片报文进行重组,提取重组后的IP报文的承载数据,得到TCP数据流,并对TCP数据流进行排序和去重的步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,本实施例提供的深度报文处理方法包括:
S210、接收底层协议信息中的IP分片报文,对IP分片报文进行重组;提取重组后的IP报文的承载数据,得到TCP数据流。
其中,底层协议指包含网络层及网络层以下对应的协议,如MAC(Media AccessControl Address,媒体存取控制位址)协议、VLAN(Virtual Local Area Network,虚拟局域网)协议、MPLS(Multi-Protocol Label Switching,多协议标签变换)协议或IP(Internet Protocol,网际互联协议)等。具体的,若底层协议为MAC协议、VLAN协议或MPLS协议,需要对MAC协议或VLAN协议进行解封装,从而得到IP分片报文。IP分片报文的报头中,包括与分片相关的字段,如:Identification,用于确认不同的分片是否属于同一个IP报文;Flags,当Flags中的MF为1时,表示还有分片,此分片为中间分片;Fragment Offset,表示此分片在整个报文中的偏移地址。因此,根据各个IP分片报文的报头信息,可以重组出完整IP报文,完整IP报文的数据体部分包含了TCP报文,提取各个完整IP报文的数据体部分,可以得到各个TCP报文,即TCP数据流。
S220、根据TCP数据流的序列号对TCP数据流进行排序和去重;对于排序和去重后的TCP数据流,基于控制信息标志位对TCP数据进行释放,其中,用于释放的控制信息标志位包括连接断开和连接重置。
其中,TCP数据流中的每个TCP报文的首部均包含序列号,序列号是TCP报文发送的数据组的第一个字节的序号,确保了TCP数据流中各个TCP报文传输的有序性。示例性的,一个TCP报文的序列号为300,此TCP报文的数据部分共有100字节,则下一个TCP报文的序列号为400。根据各序列号可以对TCP报文进行排序和去重,以丢弃冗余TCP报文。TCP数据流中的每个TCP报文的首部均包含控制信息标志位,用于表征每个TCP报文的性质,如RST,连接重置标志,用于重置由于主机崩溃或其他原因出现的错误连接,或者用于拒绝非法报文段和拒绝连接请求;FIN,连接断开标志,FIN为1时,表示发送方的数据均发送完毕,关闭本方的数据流;ACK;确认序号标志,为1时表示确认号有效,为0时表示报文中不含确认信息,忽略确认号字段。若TCP报文的控制信息标志位为连接断开或连接重置,则对该TCP报文进行释放,不对该TCP报文进行HTTP/2数据流处理。可选的,建立TCP数据流维护表,将排序和去重,以及释放后的TCP数据流中的TCP报文存储于TCP数据流维护表中,以提高对TCP数据流进行HTTP/2数据流处理的速度。
S230、获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议。
S240、若TCP数据流中包含HTTP/2协议,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,并基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构。
S250、基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与头信息对应的数据内容。
S260、将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
S270、接收数据检测的匹配规则,将所述匹配规则分别与各所述对象结构中存储信息进行匹配,确定检测结果。
本实施例的技术方案,在对TCP数据流进行HTTP/2数据流处理之前,首先接收底层协议信息中的IP分片报文,对IP分片报文进行重组;然后提取重组后的IP报文的承载数据,得到TCP数据流,根据TCP数据流的序列号对TCP数据流进行排序和去重;对于排序和去重后的TCP数据流,基于控制信息标志位对TCP数据进行释放,实现了对TCP数据流的预处理,对预处理后的TCP数据流进行HTTP/2数据流处理,从而减少了对冗余TCP数据流的HTTP/2数据流处理,提高了处理效率。
实施例三
图3为本发明实施例三提供的一种深度报文处理装置的结构示意图,本实施例可适用于需要解析HTTP/2数据流,并对各个的HTTP/2数据流的数据信息进行存储,以统计分析大量HTTP/2数据流数据信息的情形,该装置具体包括:协议确定模块310、结构构建模块320、内容提取模块330和数据存储模块340。
协议确定模块310,用于获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;
结构构建模块320,用于在TCP数据流中包含HTTP/2协议时,根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,并基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
内容提取模块330,用于基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与头信息对应的数据内容;
数据存储模块340,用于将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
在本实施例中,通过协议确定模块获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;基于结构构建模块在TCP数据流中包含HTTP/2协议时,根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,通过结构构建模块来基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构,从而得到多个HTTP/2流对象结构;并用过内容提取模块来基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与所述头信息对应的数据内容,通过数据存储模块将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中,从而实现了对HTTP/2数据流的解析与存储,通过将各个HTTP/2数据流存储至对应结构,为预设检测规则的匹配提供了数据基础。
在上述装置的基础上,可选的,还包括预处理模块,其中,预处理模块包括报文重组单元和报文排序单元,其中,
报文重组单元,用于接收底层协议信息中的IP分片报文,对IP分片报文进行重组;提取重组后的IP报文的承载数据,得到TCP数据流;
报文排序单元,用于根据TCP数据流的序列号对TCP数据流进行排序和去重;对于排序和去重后的TCP数据流,基于控制信息标志位对TCP数据进行释放,其中,用于释放的控制信息标志位包括连接断开和连接重置。
可选的,HTTP/2头映射表包括静态头映射表和动态头映射表,内容提取模块330还用于识别HTTP/2数据流中未解析头信息,将未解析头信息在静态头映射表中进行匹配,确定未解析头信息对应的解析后的头信息;当静态头映射表中不包括未解析头信息时,调用动态头映射表,确定未解析头信息对应的解析后的头信息。
可选的,上述装置还包括:信息匹配模块,用于在数据存储模块340将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中之后,接收数据检测的匹配规则,将匹配规则分别与各HTTP/2流对象结构中存储信息进行匹配,确定检测结果。其中,匹配规则可以包括如下至少一项:预设头信息长度、预设数据内容长度和预设字段内容。
可选的,协议确定模块310还用于在TCP数据流不包含HTTP/2协议时,将TCP数据流添加至黑名单,以使在TCP数据流的生命周期内不进行HTTP/2数据流处理。
本发明实施例所提供的深度报文处理装置可执行本发明任意实施例所提供的深度报文处理方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述系统所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图4显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与电子设备40的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种深度报文处理方法,该方法包括:
获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;
若是,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,并基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与头信息对应的数据内容;
将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的深度报文处理方法的技术方案。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种深度报文处理方法。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的深度报文处理方法步骤,该方法包括:
获取TCP数据流,基于TCP数据流中的协议标识确定TCP数据流中是否包含HTTP/2协议;
若是,则根据HTTP/2协议中的流标识符确定TCP数据流中至少一个HTTP/2数据流,并基于HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
基于HTTP/2头映射表解析各HTTP/2数据流的头信息,并提取HTTP/2数据流中与头信息对应的数据内容;
将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种深度报文处理方法,其特征在于,包括:
获取TCP数据流,基于所述TCP数据流中的协议标识确定所述TCP数据流中是否包含HTTP/2协议;
若是,则根据所述HTTP/2协议中的流标识符确定所述TCP数据流中至少一个HTTP/2数据流,并基于所述HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
基于HTTP/2头映射表解析各所述HTTP/2数据流的头信息,并提取所述HTTP/2数据流中与所述头信息对应的数据内容;
将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中;
其中,获取所述TCP数据流,包括:
接收底层协议信息中的IP分片报文,对所述IP分片报文进行重组;
提取重组后的IP报文的承载数据,得到所述TCP数据流;
其中,在获取所述TCP数据流之前,还包括:
根据TCP数据流的序列号对TCP数据流进行排序和去重;
对于排序和去重后的TCP数据流,基于控制信息标志位对TCP数据进行释放,其中,用于释放的控制信息标志位包括连接断开和连接重置;
其中,所述基于所述TCP数据流的协议标识确定所述TCP数据流中是否包含HTTP/2协议,包括:
从所述TCP数据流中提取第一个有效承载的报文内容,对所述第一个有效承载的报文内容进行Magic字符串匹配,若匹配成功,则所述TCP数据流中包含HTTP/2协议。
2.根据权利要求1所述的方法,其特征在于,所述HTTP/2头映射表包括静态头映射表和动态头映射表;
其中,所述基于HTTP/2头映射表解析各所述HTTP/2数据流的头信息,包括:
识别所述HTTP/2数据流中未解析头信息,将所述未解析头信息在所述静态头映射表中进行匹配,确定所述未解析头信息对应的解析后的头信息;
当所述静态头映射表中不包括所述未解析头信息时,调用所述动态头映射表,确定所述未解析头信息对应的解析后的头信息。
3.根据权利要求1所述的方法,其特征在于,在将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中之后,还包括:
接收数据检测的匹配规则,将所述匹配规则分别与各所述HTTP/2流对象结构中存储信息进行匹配,确定检测结果。
4.根据权利要求3中所述的方法,其特征在于,所述匹配规则包括如下至少一项:预设头信息长度、预设数据内容长度和预设字段内容。
5.根据权利要求1所述的方法,其特征在于,若所述TCP数据流不包含HTTP/2协议,将所述TCP数据流添加至黑名单,以使在所述TCP数据流的生命周期内不进行HTTP/2数据流处理。
6.一种深度报文处理装置,其特征在于,包括:
协议确定模块,用于获取TCP数据流,基于所述TCP数据流中的协议标识确定所述TCP数据流中是否包含HTTP/2协议;
结构构建模块,用于在所述TCP数据流中包含HTTP/2协议时,根据所述HTTP/2协议中的流标识符确定所述TCP数据流中至少一个HTTP/2数据流,并基于所述HTTP/2数据流的类型构建对应的HTTP/2流对象结构;
内容提取模块,用于基于HTTP/2头映射表解析各所述HTTP/2数据流的头信息,并提取所述HTTP/2数据流中与所述头信息对应的数据内容;
数据存储模块,用于将各个HTTP/2数据流解析后的头信息与数据内容存储至对应的HTTP/2流对象结构中;
预处理模块,所述预处理模块包括报文重组单元和报文排序单元;
其中,所述报文重组单元,用于接收底层协议信息中的IP分片报文,对IP分片报文进行重组;提取重组后的IP报文的承载数据,得到TCP数据流;
其中,所述报文排序单元,用于根据TCP数据流的序列号对所述TCP数据流进行排序和去重;对于排序和去重后的所述TCP数据流,基于控制信息标志位对TCP数据进行释放,其中,用于释放的控制信息标志位包括连接断开和连接重置;
其中,所述协议确定模块,具体用于:
从所述TCP数据流中提取第一个有效承载的报文内容,对所述第一个有效承载的报文内容进行Magic字符串匹配,若匹配成功,则所述TCP数据流中包含HTTP/2协议。
7.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的深度报文处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的深度报文处理方法。
CN202011173763.8A 2020-10-28 2020-10-28 深度报文处理方法、装置、电子设备及存储介质 Active CN112311789B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011173763.8A CN112311789B (zh) 2020-10-28 2020-10-28 深度报文处理方法、装置、电子设备及存储介质
PCT/CN2021/107642 WO2022088779A1 (zh) 2020-10-28 2021-07-21 深度报文处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011173763.8A CN112311789B (zh) 2020-10-28 2020-10-28 深度报文处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112311789A CN112311789A (zh) 2021-02-02
CN112311789B true CN112311789B (zh) 2023-02-28

Family

ID=74331575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011173763.8A Active CN112311789B (zh) 2020-10-28 2020-10-28 深度报文处理方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112311789B (zh)
WO (1) WO2022088779A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112311789B (zh) * 2020-10-28 2023-02-28 北京锐安科技有限公司 深度报文处理方法、装置、电子设备及存储介质
CN115412538A (zh) * 2021-05-11 2022-11-29 北京字跳网络技术有限公司 网络请求信息的处理方法、装置、设备及存储介质
CN113691523B (zh) * 2021-08-20 2023-10-10 中科国昱(合肥)科技有限公司 面向实时网络流量密码应用评估方法和终端设备
CN113872976B (zh) * 2021-09-29 2023-06-02 绿盟科技集团股份有限公司 一种基于http2攻击的防护方法、装置及电子设备
CN114389863B (zh) * 2021-12-28 2024-02-13 绿盟科技集团股份有限公司 一种蜜罐交互的方法、装置、蜜罐网络、设备及存储介质
CN114553494B (zh) * 2022-01-26 2024-02-13 深圳市风云实业有限公司 一种基于数据报文的轻量级染色与检测方法及装置
CN115296878B (zh) * 2022-07-27 2023-11-03 天翼云科技有限公司 一种报文检测方法、装置、电子设备及存储介质
CN115190056B (zh) * 2022-09-08 2022-12-23 杭州海康威视数字技术股份有限公司 一种可编排的流量协议识别与解析方法、装置及设备
CN115361334B (zh) * 2022-10-19 2023-01-31 深圳市光联世纪信息科技有限公司 基于深度包检测技术的sd-wan流量识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882703A (zh) * 2012-08-31 2013-01-16 赛尔网络有限公司 一种基于http分析的url自动分类分级的系统及方法
US10291682B1 (en) * 2016-09-22 2019-05-14 Juniper Networks, Inc. Efficient transmission control protocol (TCP) reassembly for HTTP/2 streams

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865589B2 (en) * 2007-03-12 2011-01-04 Citrix Systems, Inc. Systems and methods for providing structured policy expressions to represent unstructured data in a network appliance
CN101399843B (zh) * 2007-09-27 2012-11-28 中兴通讯股份有限公司 报文深度过滤方法
US10044620B2 (en) * 2015-05-01 2018-08-07 Hughes Network Systems, Llc Multi-phase IP-flow-based classifier with domain name and HTTP header awareness
US11431677B2 (en) * 2018-01-11 2022-08-30 Nicira, Inc. Mechanisms for layer 7 context accumulation for enforcing layer 4, layer 7 and verb-based rules
US10757166B2 (en) * 2018-11-20 2020-08-25 International Business Machines Corporation Passive re-assembly of HTTP2 fragmented segments
CN110636151B (zh) * 2019-10-25 2022-03-22 新华三信息安全技术有限公司 一种报文处理方法、装置、防火墙及存储介质
CN112311789B (zh) * 2020-10-28 2023-02-28 北京锐安科技有限公司 深度报文处理方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882703A (zh) * 2012-08-31 2013-01-16 赛尔网络有限公司 一种基于http分析的url自动分类分级的系统及方法
US10291682B1 (en) * 2016-09-22 2019-05-14 Juniper Networks, Inc. Efficient transmission control protocol (TCP) reassembly for HTTP/2 streams

Also Published As

Publication number Publication date
CN112311789A (zh) 2021-02-02
WO2022088779A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
CN112311789B (zh) 深度报文处理方法、装置、电子设备及存储介质
US7486673B2 (en) Method and system for reassembling packets prior to searching
US20170300595A1 (en) Data packet extraction method and apparatus
US8060633B2 (en) Method and apparatus for identifying data content
WO2016082371A1 (zh) 一种基于ssh协议的会话解析方法及系统
US20150036513A1 (en) Multicore processing of bidirectional traffic flows
CN102598598B (zh) 用于分析数据分组的设备、数据分组处理系统和方法
Choi et al. A marking scheme using Huffman codes for IP traceback
US20080291912A1 (en) System and method for detecting file
CN101557329A (zh) 一种基于应用层的数据分割方法及装置
CN112751833A (zh) Rtp报文识别方法、装置、电子设备及可读存储介质
CN115174676A (zh) 汇聚分流方法及其相关设备
CN114828140A (zh) 业务流量报文转发方法及装置、存储介质及电子设备
CN110225061B (zh) 基于流表驱动的异构协议转换方法和装置
CN108460044B (zh) 数据的处理方法和装置
US20060259620A1 (en) Statistical information collecting method and apparatus
CN112491662A (zh) 一种icmp隐蔽隧道检测方法及装置
CN113067815A (zh) Dns日志分析方法、dns日志分析系统及计算机可读存储介质
US9553795B2 (en) Port switching method, analysis device, and recording medium
CN116319448A (zh) 丢包诊断方法、装置、电子设备及计算机可读存储介质
CN115801927A (zh) 报文解析方法及装置
CN108833282A (zh) 数据转发方法、系统、装置及sdn交换机
JP5885224B2 (ja) テキストベースのプロトコルによる受信データメッセージのハンドリング
JP7000808B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR100862193B1 (ko) 하드웨어 기반 인터넷 프로토콜 버전 6 세션 관리 장치 및방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant