CN104022924A

CN104022924A - 一种http通信内容检测的方法

Info

Publication number: CN104022924A
Application number: CN201410310696.8A
Authority: CN
Inventors: 陈伟东
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2014-09-03

Abstract

本发明提供一种HTTP通信内容检测的方法，其具体实现过程为：在高速网络环境下，得到HTTP流的出入网络数据，对IPv4/IPv6HTTP数据流做拦截回调；进行内容检测：采用由后及前方式进行搜索，搜索关键词出现频率、权重并作统计，这里的关键词是指多阶段攻击行为和恶意代码的特征关键词；搜索敏感内容字符串并报警或做进一步分析。该一种HTTP通信内容检测的方法和现有技术相比，方便管理人员掌握和控制HTTP流量、对多频词等相关信息和通信数据分析；节省人力资源，降低维护成本，实用性强，易于推广。

Description

一种HTTP通信内容检测的方法

技术领域

本发明涉及计算机信息安全技术领域，具体的说是一种实用性强、HTTP通信内容检测的方法。

背景技术

本发明互联网络应用有内容丰富的应用，对HTTP通信的安全保障等十分重要。各类黄色和反动信息等也造成网络威胁。未知和已知的各类蠕虫等对网络造成了异常和各类威胁。WFP驱动技术是Windows下一代网络驱动技术，兼容IPv4/IPv6双协议栈。在网络协议的网络层到传输层等多个层次可以设置过滤和分析等。WFP技术广泛用于网络安全访问控制和网络数据流检测分析等。

网络数据包内容检测采用模式匹配、特征匹配对网络数据流作搜索，字符串查找算法包括AC算法等。规则集从字符串集合发展到正则表达式。如开源的入侵检测系统规则很多采用了正则表达式。利用有穷自动机(DFA)实现字符串关键词匹配。正则表达式在网络数据检测和协议识别等方向有优势。内容检测系统一般包括：数据包内容截获、解码、预处理、检测引擎，日志审计系统。网络攻击可通过对协议分析和数据包内容检测发现。

对蠕虫攻击检测首先发现可疑网络流自动检测特征，判断是否是异常流量数据。对TCP流需要做流重组，对分片传播的蠕虫难以检测。内容检测方法包括确定有限自动机(DFA)等，基于该DFA内容的分析速度成为瓶颈。

为了解决上述问题，现提供一种HTTP通信内容检测的方法，该方法在网络数据接收和分析时，采用数据缓存链和多线程分析技术，提高网络吞吐率。基于正则表达式作深度包检测，正则表达式灵活而有效率。在网络数据包检测应用，模式由上百个表达式和数以万计状态数组组成。对上规模正则表达式适用化在不断研究。对HTTP等互联网应用提取特征串，对于网络视频。用正则表达式对协议特征和安全特征作分析。

发明内容

本发明的技术任务是解决现有技术的不足，提供一种采用WFP驱动技术、HTTP通信内容检测的方法。

本发明的技术方案是按以下方式实现的，该一种HTTP通信内容检测的方法，其具体实现过程为：

一、在高速网络环境下，得到HTTP流的出入网络数据，对IPv4/IPv6 HTTP数据流做拦截回调：

构建一个基于WFP驱动、在IPv4/IPv6双协议栈上的流过滤驱动，对TCP流数据过滤；

在WFP驱动内部得到IPv4/IPv6相应的HTTP流数据；

采用字符串匹配算法将字符串转为树状有限状态自动机DFA；

二、进行内容检测：采用由后及前方式进行搜索，搜索关键词出现频率、权重并作统计，这里的关键词是指多阶段攻击行为和恶意代码的特征关键词；

三、搜索敏感内容字符串并报警或做进一步分析。

所述步骤一中基于WFP驱动的HTTP网络数据流内容检测详细操作过程为：

1）在FWPM_LAYER_STREAM_v4/6双协议流层注册callout例程；

2）根据层过滤条件设置要过滤参数；

3）将相应数据流复制到分配的内存，利用字符串匹配算法做流数据模式匹配；

4）得到关键字字符串出现信息，提取数据流关键字符串。

所述步骤二的内容检测过程为：

A、对得到的HTTP网络数据流做蠕虫、关键词和可疑流量检测；

B、采用字符串匹配算法对数据流做字符串集合的多模式匹配；

C、实时检测进出网络数据流病分析入侵行为，做实时报警和对关键字匹配。

所述步骤A中的检测是指根据HTTP协议检测相应URL，并对HTTP请求“GET”、“HEAD”和“POST”做分析检测。

所述网络数据的检测采用缓存方式，即开启数个接收队列和发送队列，数据处理后由发送队列发送。

本发明与现有技术相比所产生的有益效果是：

本发明的一种HTTP通信内容检测的方法可发现蠕虫攻击特征，对流量和网络数据包内容分析，对蠕虫攻击特征可作有效率的检测、另一方面对HTTP通信的非法和反动等内容也做有效率检测；可检测已知和未知的HTTP协议漏洞攻击；方便管理人员掌握和控制HTTP流量、对多频词等相关信息和通信数据分析；节省人力资源，降低维护成本，实用性强，易于推广。

附图说明

附图1为本发明的实现示意图。

附图2是本发明的HTTP数据流检测报警示意图。

具体实施方式

下面结合附图对本发明的一种HTTP通信内容检测的方法作以下详细说明。

本发明提供了一种实时检测文件完整性的方法，高速网络环境下，系统对HTTP数据包作高速深度包检测，利用成熟的字符串匹配算法，找到有给定数据内容的网络数据通信包。进一步的，采用基于WFP驱动技术在网络通信协议的流层对HTTP协议通信数据做关键字过滤和语义分析等。采用字符串匹配算法对字符串匹配。判断HTTP数据流是否包含字符串关键字，对网络流量作深度包内容检测(DPI)，检测已知和未知的蠕虫等攻击。可自动提取HTTP各类应用关键字符串，建立相应HTTP应用的特征字符串等。基于该设计思路，如附图1、图2所示，该方法的具体实现过程为：

一、在高速网络环境下，根据HTTP网络协议流量的特点，对HTTP流数据在WFP的流过滤层对网络数据包检测。

得到HTTP流的出入网络数据，对IPv4/IPv6 HTTP数据流做拦截回调：

构建一个基于WFP驱动、在IPv4/IPv6双协议栈上的流过滤驱动，对TCP流数据过滤；WFP(Windows Filter Platform)驱动技术，是运行于Windows Vista版本下一代网络协议栈callout驱动。有网络数据包内容检测，网络访问控制等功能。

在WFP驱动内部得到IPv4/IPv6相应的HTTP流数据。

采用字符串匹配算法将字符串转为树状有限状态自动机DFA；这里的网络数据字符串匹配算法：是对网络数据流，运行字符串匹配运算。该算法的采用主要是考虑到时间和空间复杂度。

二、在WFP驱动的高过滤层FWPM_LAYER_STREAM_v4/6对IPv4/IPv6双协议栈作基于流的内容检测：利用字符串匹配算法，基于前缀对字符串构建树状有限状态自动机，该有限自动机DFA是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表的字符，它都能根据事先给定的转移函数转移到下一个状态（这个状态可以是先前那个状态）；对多模式串做检索和统计，采用由后及前方式进行搜索，搜索关键词出现频率、权重并作统计，这里的关键词是指多阶段攻击行为和恶意代码的特征关键词，在内容检测时，使用正则表达式进行匹配，这样具有更高的效率。

三、搜索敏感内容字符串并报警或做进一步分析。

1）在FWPM_LAYER_STREAM_v4/6双协议流层注册callout例程。

2）根据层过滤条件设置要过滤参数，在如上层的classify例程内根据参数得到通信数据流。

3）将相应数据流复制到分配的内存，利用字符串匹配算法做流数据模式匹配。

4）得到关键字字符串出现信息，提取数据流关键字符串。

所述步骤二的内容检测过程为：

A、对得到的HTTP网络数据流做蠕虫、关键词和可疑流量检测。

B、采用字符串匹配算法对数据流做字符串集合的多模式匹配，该字符串匹配算法基于有限自动机的关键词匹配算法，在速度和存储空间上较有优势。

D、统计结果，字符关键字的匹配等参数可作为Web用户个性化服务系统。

实施例：本发明基于字符串集合的规则集引入了正则表达式，基于正则表达式作深度包检测，正则表达式灵活而有效率。应用于网络数据包检测应用。对成规模正则表达式适用化在不断研究。对HTTP等互联网应用提取特征串，也可以应用于网络视频的内容检测。应用正则表达式对协议和安全特征作分析。

其详细步骤如下所述：

A、首先利用WFP驱动技术构建底层，对IPv4/IPv6HTTP数据流做拦截回调。

B、利用多模式和自动机模型对多阶段攻击行为和恶意代码的多个特征匹配。

C、得到HTTP流的出入网络数据并复制并做内容检测。

D、算法采用字符串匹配算法，采用基于树有限自动机的字符串。主要采用BM算法提高匹配速度。

E、检测多类攻击方式，HTTP协议需要检测相应URL。

F、采用基于有限自动机多模式匹配算法，预处理将模式串转换为树型有限自动机。

G、TCP流重组：将多个数据包内HTTP请求做检测分析。

H、对HTTP请求“GET”、“HEAD”和“POST”做分析检测，检测如“cmd.exe”等类数据。

I、对协议分析和关键词匹配，对状态和关键词出现率统计分析发现有用数据。

由于HTTP网络数据在互联网络中应用，其具体访问流程为：

1）在网络边界部署上述网络内容检测系统。

2）编辑好字符串关键字规则和基于正则表达式的规则集。

3）对TCP流做流重组，根据关键特征字符串检测已知和未知的网络威胁。

4）接收数据包保存在接收队列，分别应用字符串匹配算法作匹配查找。

5）对应用层组做相关报警信息和审计等。

6）规则加载到WFP驱动共享内存，与应用层共享。有利于更改和操作规则集。

7）基于WEB方式查询和浏览相关信息等。

8）对关键词和出现频度高的词作统计分析。

9）对网络流内可疑信息如漏洞利用、运行程序等过滤并报警。

10）对非法和反动信息做基于树自动机的字符串匹配算法高速过滤。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种HTTP通信内容检测的方法，其特征在于其具体实现过程为：

在WFP驱动内部得到IPv4/IPv6相应的HTTP流数据；

采用字符串匹配算法将字符串转为树状有限状态自动机DFA；

三、搜索敏感内容字符串并报警或做进一步分析。

2.根据权利要求1所述的一种HTTP通信内容检测的方法，其特征在于：所述步骤一中基于WFP驱动的HTTP网络数据流内容检测详细操作过程为：

1）在FWPM_LAYER_STREAM_v4/6双协议流层注册callout例程；

2）根据层过滤条件设置要过滤参数；

4）得到关键字字符串出现信息，提取数据流关键字符串。

3.根据权利要求1或2所述的一种HTTP通信内容检测的方法，其特征在于：所述步骤二的内容检测过程为：

4.根据权利要求3所述的一种HTTP通信内容检测的方法，其特征在于：所述步骤A中的检测是指根据HTTP协议检测相应URL，并对HTTP请求“GET”、“HEAD”和“POST”做分析检测。

5.根据权利要求3所述的一种HTTP通信内容检测的方法，其特征在于：所述网络数据的检测采用缓存方式，即开启数个接收队列和发送队列，数据处理后由发送队列发送。