CN109960729A

CN109960729A - Http恶意流量的检测方法及系统

Info

Publication number: CN109960729A
Application number: CN201910241639.1A
Authority: CN
Inventors: 周昊; 张帅; 吕志泉; 董云飞; 朱天; 陈阳; 饶毓; 徐娜; 严寒冰; 丁丽; 张华�; 常霞; 狄少嘉; 徐原; 温森浩; 王庆; 李世淙; 徐剑; 李志辉; 姚力
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-02
Anticipated expiration: 2039-03-28
Also published as: CN109960729B

Abstract

本发明公开了一种HTTP恶意流量的检测方法及系统，该方法包括：抓取网络流量数据，并对网络流量数据进行预处理，得到对应每条HTTP请求的格式化数据；对格式化数据进行特征提取，得到每条格式化数据的文本向量特征；基于预先训练的恶意流量检测模型对文本向量特征进行分类检测，检测出HTTP恶意请求；基于相似攻击聚类算法对HTTP恶意请求进行相似攻击聚类，得到聚类簇；基于聚类簇进行分析，得到HTTP恶意请求的恶意攻击信息。本发明利用Spark大数据分析引擎对流量数据进行特征提取和转化，并利用机器学习和聚类算法对恶意流量进行挖掘，提高了网络恶意流量的检测精确度，减少了安全分析人员的流量分析时间成本。

Description

HTTP恶意流量的检测方法及系统

技术领域

本发明涉及网络通信技术领域，特别是指一种HTTP(Hyper Text TransferProtocol，超文本传输协议)恶意流量的检测方法及系统。

背景技术

近年来，随着互联网应用的发展突飞猛进，互联网的网络规模呈现出空前的扩张趋势，网络复杂程度也越来越高。互联网给广大用户带来便利服务的同时，随之而来的网络安全问题也愈加严峻。网络数据传输中频频发生用户信息被任意窃取、修改等事件，使得网络安全问题引起广泛重视。

恶意流量识别是网络监管中的一个重要手段，使用网络流量分析对恶意流量进行识别与分类已经成为一个热点研究课题，其通过对网络流量数据进行分析，将流量数据标记为正常流量和恶意流量。恶意流量识别按照协议可分为全流量检测、加密流量检测、工控协议流量检测、TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/网际协议)流量检测、DNS(Domain Name System，域名系统)流量检测、HTTP流量检测等。按照检测方法可分为基于规则的检测、基于机器学习模型的检测、基于深度学习模型的检测以及综合性的检测方法等。

针对HTTP的恶意攻击，WAF(Web Application Firewall，网站应用级入侵防御系统)规则检测方法主要通过正则匹配的方式进行恶意流量检测。该方法检测速度快，但模式固定且单一、检测结果的好坏完全依赖于WAF正则表达式，并且该方法只能检测出已知的网络攻击方式，对于加入了混淆代码的攻击方式或者未知的攻击方式，该方法并不能奏效。基于深度学习模型的检测方法具有良好的数据拟合能力，能够一定程度的识别出具有混淆代码的恶意攻击，但由于深度学习的解释性较差，且需要消耗大量的GPU(GraphicsProcessing Unit，图形处理器)资源，所以并不适用于如今的大数据流量检测场景。

发明内容

有鉴于此，本发明的目的在于提出一种HTTP恶意流量的检测方法及系统。

基于上述目的本发明提供的一种HTTP恶意流量的检测方法，包括以下步骤：

抓取网络流量数据，并对所述网络流量数据进行预处理，得到对应每条HTTP请求的格式化数据；

对所述格式化数据进行特征提取，得到每条所述格式化数据的文本向量特征；

基于预先训练的恶意流量检测模型对所述向量特征进行分类检测，检测出HTTP恶意请求；

基于相似攻击聚类算法对所述HTTP恶意请求进行相似攻击聚类，得到聚类簇；

基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息.

在一实施例中，所述对所述网络流量数据进行预处理，包括：

判断所述网络流量数据是否属于HTTP请求，如果判断为否，则对不属于HTTP请求的网络流量数据进行过滤；

如果判断为是，则对所述HTTP请求进行以下处理的一种或多种：

判断所述HTTP请求是否属于二进制格式，如果判断为是，则将所述二进制格式的HTTP请求格式化为文本结构；

判断所述HTTP请求的请求体是否为静态文件或请求体的所有字段是否为空，如果判断为是，则去除对应的HTTP请求；

提取所述HTTP请求中的脏数据，并对所述脏数据进行统一化处理；

判断所述HTTP请求中是否存在指定编码，如果判断为是，则将所述HTTP请求进行解码处理。

在一实施例中，所述对所述格式化数据进行特征提取，得到每条所述格式化数据的文本向量特征，包括：

基于N-gram分词方法对所述格式化数据进行分词处理，得到若干分词，使用字符标志对所述分词进行区分；

计算各所述分词的词频-逆文本频率指数TF-IDF权重；

基于词向量工具将各所述分词转化为固定维度的向量；

基于各分词的TF-IDF权重，使用加权平均的方式将每条所述固定维度的向量转化为文本向量特征。

在一实施例中，所述基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息，包括：

提取所述聚类簇中的设定字段；

将所述设定字段与HTTP恶意流量数据库中存储的字段进行比对；

如果所述设定字段与所存储的一个字段一致，则将所述HTTP恶意流量数据库中与所述字段对应的信息确定为恶意攻击信息；

如果所述设定字段与所存储的任一个字段都不一致，则提取所述聚类簇中每一簇的频繁项集，基于所述频繁项集确定恶意攻击信息。

在一实施例中，所述方法还包括：

基于所述分类检测的结果、相似攻击聚类的结果、所述聚类簇的分析结果生成检测报告；

将所述检测报告存储到HTTP恶意流量数据库中。

基于上述目的本发明提供的一种HTTP恶意流量的检测系统，包括：

处理模块，被配置为抓取网络流量数据，并对所述网络流量数据进行预处理，得到对应每条HTTP请求的格式化数据；

特征提取模块，被配置为对所述格式化数据进行特征提取，得到每条所述格式化数据的文本向量特征；

分类检测模块，被配置为基于预先训练的恶意流量检测模型对所述向量特征进行分类检测，检测出HTTP恶意请求；

聚类模块，被配置为基于相似攻击聚类算法对所述HTTP恶意请求进行相似攻击聚类，得到聚类簇；

分析模块，被配置为基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息。

在一实施例中，所述处理模块包括：

第一判断子模块，被配置为判断所述网络流量数据是否属于HTTP请求，如果判断为否，则对不属于HTTP请求的网络流量数据进行过滤；如果判断为是，则还包括以下子模块的一种或多种：

第二判断子模块，被配置为判断所述HTTP请求是否属于二进制格式，如果判断为是，则将所述二进制格式的HTTP请求格式化为文本结构；

第三判断子模块，被配置为判断所述HTTP请求的请求体是否为静态文件或请求体的所有字段是否为空，如果判断为是，则去除对应的HTTP请求；

第一提取子模块，被配置为提取所述HTTP请求中的脏数据，并对所述脏数据进行统一化处理；

第四判断子模块，被配置为判断所述HTTP请求中是否存在指定编码，如果判断为是，则将所述HTTP请求进行解码处理。

在一实施例中，所述特征提取模块包括：

分词处理子模块，被配置为基于N-gram分词方法对所述格式化数据进行分词处理，得到若干分词，使用字符标志对所述分词进行区分；

计算子模块，被配置为计算各所述分词的词频-逆文本频率指数TF-IDF权重；

第一转化子模块，被配置为基于词向量工具将各所述分词转化为固定维度的向量；

第二转化子模块，被配置为基于各分词的TF-IDF权重，使用加权平均的方式将每条所述固定维度的向量转化为文本向量特征。

在一实施例中，所述分析模块包括：

第二提取子模块，被配置为提取所述聚类簇中的设定字段；

比对子模块，被配置为将所述设定字段与HTTP恶意流量数据库中存储的字段进行比对；

第一确定子模块，被配置为如果所述设定字段与所存储的一个字段一致，则将所述HTTP恶意流量数据库中与所述字段对应的信息确定为恶意攻击信息；

第二确定子模块，被配置为如果所述设定字段与所存储的任一个字段都不一致，则提取所述聚类簇中每一簇的频繁项集，基于所述频繁项集确定恶意攻击信息。

在一实施例中，所述系统还包括：

报告生成模块，被配置为基于所述分类检测的结果、相似攻击聚类的结果、所述聚类簇的分析结果生成检测报告；

存储模块，被配置为将所述检测报告存储到HTTP恶意流量数据库中。

从上面所述可以看出，本发明提供的HTTP恶意流量的检测方法及系统，通过机器学习的检测模型，可以在具有混淆代码或攻击未知的情况下进行恶意流量检测，具有良好的检测效率，同时本发明能够聚类出相似攻击方式，相比WAF规则检测和深度学习检测有了很大改进，而且使用相似攻击聚类模型进行攻击行为聚类，能够有效减少安全研究人员的流量分析时间成本。此外本发明提供的特征提取方法可以减少模型误报，充分提取流量文本特征，提升机器学习模型检测效果。

附图说明

图1为本发明实施例提供的HTTP恶意流量的检测方法的流程图；

图2为本发明实施例提供的HTTP恶意流量的检测系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

图1为本发明实施例提供的一种HTTP恶意流量的检测方法的流程图，如图1所示，本发明实施例提供的方法，可以基于Hortonworks公司开发的开源大数据分析平台(Hortonworks Data Platform)作为基础数据处理平台，并在该平台的基础上搭建分布式HTTP恶意流量的检测平台。该检测平台可以包括：位于各分布式服务器上的：Hadoop数据存储组件、Spark计算引擎组件以及Yarn资源调度组件，其中Hadoop数据存储组件用于存储网络流量数据和恶意流量检测模型等模型文件，Spark计算引擎组件用于作为数据分析引擎，执行数据处理和基于模型的恶意流量检测，Yarn资源调度组件用于调度可使用的计算资源。

本发明实施例提供的方法，包括由分布式Spark Worker(节点)执行的以下步骤：

在步骤S101中，对网络流量数据进行抓取，并存储所抓取的网络流量数据。

本步骤中，可以采用光纤分光器等设备，对网关、交换机中传输的网络流量数据进行抓取，并将获取的网络流量镜像保存至Hadoop数据存储组件中。

在步骤S102中，对抓取的网络流量数据进行预处理，得到HTTP请求的格式化数据。

在一实施例中，可以使用Spark分布式计算引擎组件的UDF函数，对上一步骤抓取的网络流量数据进行预处理，具体可以包括：

使用Pcap包分析工具对网络流量数据是否属于HTTP协议，即是否为HTTP请求，进行分析判断，如果判断为否，则对识别为非HTTP协议的网络流量数据进行过滤；

如果判断为是，那么对于属于HTTP协议的网络流量数据，即HTTP请求，进行以下处理中的一种或多种：

判断HTTP请求是否为二进制格式，如果判断为是，则将二进制格式的HTTP请求格式化为文本结构；

判断HTTP请求的请求体是否是静态文件或者请求体所有字段为空，如果判断为是，则去除包含图片、文件等静态文件的HTTP请求；

提取HTTP请求中存在的脏数据，并对脏数据进行统一化处理；

判断HTTP请求中是否存在指定编码，例如Base64编码和URL编码，如果判断为是，则对该HTTP请求进行解码处理。

通过以上预处理流程，对于每条HTTP请求，都能得到一条对应的格式化数据，包括URL、Get、Post、Header、Method等字段的详细信息。

本公开步骤中通过对抓取的网络流量数据进行预处理，能够尽可能的减少由于数据不规范造成的模型误报风险。

在步骤S103中，对格式化数据进行特征提取，得到每条格式化数据的文本向量特征。

在一实施例中，特征提取的实现流程如下：

使用3-gram或2-gram分词方法对上一步骤得到的格式化数据进行分词处理，得到若干分词，并且在分词处理过程中将URL、GET、POST等字段使用字符标志进行区分；

计算每个分词的TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)权重；

利用Word2vec词向量工具对分词后的数据进行特征转化，即将每条格式化数据中的每个分词转化为固定维度，例如300维度的向量；

使用加权平均的方式将每条固定维度的向量转化为文本向量特征，也就是说将每条格式化数据的所有分词的向量加权平均为一条固定维度为300的文本向量特征，其中权重使用计算出的TF-IDF权重，至此，特征提取完毕，通过上述过程，能够提取到每条格式化数据的文本向量特征。

在一实施例中，还可以设置TF-IDF权重阈值，在计算出TF-IDF权重之后，仅保留TF-IDF权重值高于阈值的分词，并对保留的分词进行特征转化。

在现有技术中，使用N-gram分词与TF-IDF结合的特征提取方式进行HTTP特征提取，所得到的向量特征最高可达95的3次方维度，而本发明实施例使用增加了文本标识符的N-gram分词方法进行HTTP网络流量数据的文本分词，并将特征提取方法改进为增加了TF-IDF权重的Word2vec向量表示提取方法，进行文本向量特征的提取，使得提取到的文本向量特征的维度缩减至300维度，从而大大降低了特征的维度，减少了算法的运算量；并且能够充分提取流量数据的文本向量特征，提高了特征提取的效率。

由于采用了Word2vec向量表示提取方法，该方法可以提取出词前后的相关信息，因而与现有技术中的其他提取方法相比，可以更加充分的提取流量文本特征，减少模型误报，提升机器学习模型检测效果。

在步骤S104中，加载预先训练的恶意流量检测模型，对上一步骤得到的文本向量特征进行检测，检测出HTTP恶意请求。

本实施例中，通过恶意流量检测模型对文本向量特征进行分类检测，能够检测出是否为HTTP恶意请求。检测结果包括“正常”和“恶意”，在检测之后，对每条向量特征对应的HTTP请求进行模型检测结果的标记，将标记为“正常”的HTTP请求，即不包含恶意流量的HTTP请求去除，只保留标记为“恶意”的HTTP请求，即HTTP恶意请求，将该HTTP请求及其对应的文本向量特征存储在Hadoop数据存储组件中。

在一实施例中，需要预先根据已知的HTTP恶意请求数据集训练恶意流量检测模型，本实施例选择的机器模型为逻辑回归模型。基于机器学习模型的检测方法对减少人工干预、提高识别精度、处理大量流量数据、发现未知攻击等方面具有其他方法所不具有的优势。

在步骤S105中，基于预先编写的相似攻击聚类算法，对步骤S104中检测出的HTTP恶意请求进行相似攻击聚类，得到聚类簇，对聚类簇进行存储。

在一实施例中，通过以下方式编写相似攻击聚类算法：

1)初始聚类。

使用Kmeans算法对输入的恶意流量数据的文本向量特征进行初始聚类，聚类类别可以为5000，使每一类别中的攻击数据属于同一类攻击，本质上为将向量空间划分成5000个节点。

2)计算相关系数。

针对5000个节点中的数据，计算簇质心，并针对5000个簇质心计算相关系数矩阵，该相关系数矩阵的维度为5000*5000，其中相关系数使用pearson相关系数。

3)设立联通阈值。

将相关系数矩阵看作无向图，设立空间相邻阈值，当相关系数大于0.9时，认为该节点在空间上相邻。

4)选择相邻节点。

计算每个节点的相邻节点，并以相邻节点最多的节点为权重进行排序，拥有更多节点相连的节点具有更高的优先级。

5)合并相邻节点。

对排序后的相关节点进行划分，将无向图中连通的节点划分为同一攻击方式。

具体地，在本步骤中，通过上述相似攻击聚类算法对HTTP恶意请求对应的文本向量特征进行相似攻击聚类，算法运行完毕后将会生成多个不同攻击类型的聚类簇，每种聚类簇代表着一种相似的攻击。

本实施例中，通过对文本向量特征进行相似攻击聚类，有效减少了安全研究人员的流量分析时间成本。

在步骤S106中，基于步骤S105中生成的聚类簇进行分析，得到HTTP恶意请求的恶意攻击信息。

在本实施例中，HTTP恶意请求的恶意攻击信息可以包括：攻击者、攻击行为、恶意IP、恶意HTTP请求负载、攻击针对平台信息、漏洞编号和漏洞解决办法等信息。

在一实施例中，通过以下方法进行聚类簇的分析：

提取聚类簇中的Payload字段；

将提取的Payload字段与HTTP恶意流量数据库中的Payload字段进行比对，模糊匹配；

如果匹配结果一致，则能够根据HTTP恶意流量数据库中记录的信息确定HTTP恶意请求的漏洞信息，攻击行为信息，漏洞编号和解决办法等详细信息，也说明该HTTP恶意请求是已知的恶意攻击。

如果匹配结果不一致，说明该HTTP恶意请求是未知的HTTP网络攻击，那么可以提取聚类簇的频繁项集，得到每个聚类簇的特征；

通过分析每一簇的频繁项集，可以定位攻击者攻击意图，从而帮助研究人员快速发现未知威胁，并将该HTTP恶意请求的聚类簇等相关信息保存至HTTP恶意流量数据库中。

例如，在某一类聚类簇中，提取HTTP请求的网络流量数据中的字符，发现“z0”、“z1”字符出现的次数较多，通过研究可发现，该频繁出现的字符是由名为“中国菜刀”的Webshell通信工具产生的HTTP网络流量数据，以此可判断出攻击者企图利用网站后台的某一Shell文件进行注入等攻击行为。

在本实施例中，可以根据已知HTTP恶意请求的数据构建HTTP恶意流量数据库，存储每一类攻击行为的恶意IP记录、恶意HTTP请求、针对平台信息、漏洞编号和漏洞解决办法等信息。

进一步地，通过分析聚类后的数据，还可以生成检测报告，将分类与聚类的检测结果，包括检测到的恶意攻击行为、相关漏洞编号、漏洞描述和解决措施等详细信息记录到报告中，并将生成的报告进行存储，以供研究人员研究和总结。

本发明实施例所提供的方法由于采用了机器学习模型，因而可以在具有混淆代码或攻击未知的情况下进行流量检测，具有良好的检测效率，同时本发明能够聚类出相似攻击方式，因而相比现有技术中的WAF规则检测和深度学习检测有了很大改进。此外本发明由于实现了分布式HTTP恶意流量的检测，利用Spark分布式计算引擎和Spark ML(SparkMachine Learning)分布式机器学习算法，对HTTP请求进行恶意流量检测，与现有技术中单机流量检测相比，充分利用了多机性能，大大提升了恶意流量恶意攻击行为的检测效率。

图2是本发明实施例提供的一种HTTP恶意流量的检测系统的结构示意图，如图2所示，该系统可以包括：处理模块201、特征提取模块202、分类检测模块203、聚类模块204及分析模块205。

其中，处理模块201，被配置为抓取网络流量数据，并对所述网络流量数据进行预处理，得到对应每条HTTP请求的格式化数据；

特征提取模块202，被配置为对所述格式化数据进行特征提取，得到每条所述格式化数据的文本向量特征；

分类检测模块203，被配置为基于预先训练的恶意流量检测模型对所述向量特征进行分类检测，检测出HTTP恶意请求；

聚类模块204，被配置为基于相似攻击聚类算法对所述HTTP恶意请求进行相似攻击聚类，得到聚类簇；

分析模块205，被配置为基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息。

在一实施例中，处理模块可以包括：

在一实施例中，特征提取模块包括：

在一实施例中，分析模块包括：

第二提取子模块，被配置为提取所述聚类簇中的设定字段；

在一实施例中，该系统还可以包括：

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种HTTP恶意流量的检测方法，其特征在于，包括：

基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息。

2.根据权利要求1所述的方法，其特征在于，所述对所述网络流量数据进行预处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述格式化数据进行特征提取，得到每条所述格式化数据的文本向量特征，包括：

计算各所述分词的词频-逆文本频率指数TF-IDF权重；

基于词向量工具将各所述分词转化为固定维度的向量；

4.根据权利要求1所述的方法，其特征在于，所述基于所述聚类簇进行分析，得到所述HTTP恶意请求的恶意攻击信息，包括：

提取所述聚类簇中的设定字段；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述检测报告存储到HTTP恶意流量数据库中。

6.一种HTTP恶意流量的检测系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述处理模块包括：

8.根据权利要求6所述的系统，其特征在于，所述特征提取模块包括：

9.根据权利要求6所述的系统，其特征在于，所述分析模块包括：

第二提取子模块，被配置为提取所述聚类簇中的设定字段；

10.根据权利要求6所述的系统，其特征在于，所述系统还包括：