CN112468509A

CN112468509A - 一种基于深度学习技术的流量数据自动检测方法及装置

Info

Publication number: CN112468509A
Application number: CN202011446352.1A
Authority: CN
Inventors: 黄松; 周春阳; 周富成; 严小正
Original assignee: Hubei Songhao Technology Co ltd
Current assignee: Hubei Songhao Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-09

Abstract

本发明公开了一种基于深度学习技术的流量数据自动检测方法及装置，所述检测方法如下：步骤一：系统对数据链路层的数据流进行监听和捕获，同时，采用web服务支持外部流量数据接入功能，系统对捕获的原始数据信息流进行数据清洗，除去冗余和非必须信息；步骤二：在分组捕获目标数据流量后，对原始数据流进行数据预处理，即是从原始流量至深度神经网络输入数据的处理过程。本发明鉴于安全威胁流量通过网络交互实现破坏任务的特点，采用流检测技术以数据流为基本研究对象，在捕获的数据链路层流量后，通过自动化选取与分析数据流传输的统计特征，能有效减轻系统的处理负担，为确定网络安全威胁提供有力支持。

Description

一种基于深度学习技术的流量数据自动检测方法及装置

技术领域

本发明涉及流量检测技术领域，具体为一种基于深度学习技术的流量数据自动检测方法及装置。

背景技术

随着信息技术的不断发展，互联网数据逐渐成为人民生活的重要基础资源，随之而来的网络安全正面临着日益严峻的挑战。网络流量检测技术作为最重要的防护技术之一，通过建立网络访问行为基准来识别网络异常行为，通用性较强，在入侵检测、网络攻击、欺诈窃密检测等领域具有广泛的应用。然而，传统的流量数据自动检测方法大多集中于使用检测特定数据包载荷、匹配木马特征库或者网络协议划分等方法，这些技术依赖于木马检测专家经验的判断，缺乏泛化能力，难以应对日趋复杂的木马技术和网络环境，检测准确率低，缺乏实用性。基于深度学习技术的流量数据检测处理方法与装置，支持流量数据自动化处理和智能化威胁检测，分别对应安全威胁流量、不确定流量和安全流量，能够为流量威胁识别提供有力支持。

发明内容

本发明的目的在于提供一种基于深度学习技术的流量数据自动检测方法及装置，解决了背景技术中所提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习技术的流量数据自动检测方法，所述检测方法如下：

步骤一：系统对数据链路层的数据流进行监听和捕获，同时，采用web服务支持外部流量数据接入功能，系统对捕获的原始数据信息流进行数据清洗，除去冗余和非必须信息；

步骤二：在分组捕获目标数据流量后，对原始数据流进行数据预处理，即是从原始流量至深度神经网络输入数据的处理过程；

步骤三：包括对流量数据用深度学习方法进行训练和进行识别的两个过程；识别出安全威胁流量、不确定流量和安全流量，实现流量准入控制；

步骤四：利用训练好的模型对网络流量检测,识别出安全威胁流量、不确定流量和安全流量，实现流量准入控制。

作为本发明的一种优选实施方式，所述步骤一包括如下子步骤：

(1.1)、对于本网络系统的流经数据包，系统在网络出口处将网卡设置为混杂模式，这种模式能够接受所有流经本地的流量数据包，数据包采集业务系统工作流程如下：

第一：初始化数据包采集环境，设定采集的数据包大小、可用CPU数量、多线程池的大小；

第二：建立系统内存缓冲区，接受到的数据包将会被拷贝到套接字缓冲区，并供系统用户层通过调用系统函数mmap访问；

第三：使用多线程循环不断查询各端口并接收流量数据包，再采用自定义的包处理函数，过滤掉不属于本网络的冗余信息；

第四：最后输出pcap格式的标准流量数据包集合。

(1.2)、对于外部提供的数据包，向外部数据源提供API回调接口，通过web服务获取流量数据集合，并提取流量集合中某单一应用的数据流量，包含该应用的使用所有协议层次数据流。

(1.3)、将数据流量与系统中已有流量集合进行逐条比对，

若该数据包已经存在于系统中，则对同一应用产生的流量，进行合并处理，并选取最新时间戳版本覆盖该数据流的旧版本。

若该数据流的应用不存在于系统中，则将其作为新数据导入系统，并记录其关联的数据表版本号；

若没有在系统中检索到该数据表，则将其版本号设置为0，并作为新数据流量导入系统。

(1.4)通过重复步骤(1.2)(1.3)的操作，直到所有待处理数据流量集合都顺利导入系统。

作为本发明的一种优选实施方式，所述步骤二中包括如下子步骤：

(2.1)、对于输入的流量数据，选取所有具有相同<源IP、源端口、目的IP、目的端口、传输层协议>的所有数据包，并以此将原始流量数据进行分组。

(2.2)、对于分组后的流量数据，采用如下流量清洗方法：

第一：比对所有分组后流量的会话内容，将内容完全相同的重复流量去除；

第二：将没有应用层数据内容的空流量包，如ACK文件等数据流量包去除；

第三：采用随机抽样方法选取流量数据包，再随机生成一组新的MAC地址和IP地址，将其数据链路层对应的MAC地址和IP层的IP地址进行替换。

(2.3)、对于清洗后的流量数据，将流量数据包转化为神经网络的图像输入，假设图像大小为N*N，则每隔k个数据包长度提取一段长度为n个字节的数据流量片段,并在末尾插入的N-n个混淆字符串，以增强流量样本的随机性。

(2.4)、将统一长度后的文件按照二进制形式转换为流量数据图片，其中灰度图包含宽和高两个维度，彩色图包含宽、高和通道三个维度，最后，将图片转化为包含了该流量数据像素信息及统计信息IDX文件格式，作为神经网络的输入。

(2.5)、通过重复步骤(2.1)-(2.4)的操作，直到所有待处理数据流量集合都处理完毕。

作为本发明的一种优选实施方式，所述步骤三包括如下子步骤：

(3.1)、将IDX格式的流量数据图作为二维CNN网络模型的输入。

(3.2)、初始化深度网络模型参数，其中网络结构采用堆叠三层CNN神经网络,并在每层CNN神经后面添加Dropout层防止模型出现过拟合现象,随后添加一层Flatten将二维图像的流量数据降维度输出。

(3.3)、在深度神经网络卷积模块后添加注意力机制，注意力机制获取CNN神经网络中训练得到的权值，在空间或者通道上直接加权全局上的信息作为输入特征，即，注意力过滤器对窗口宽度为h的一组流量字节添加注意力权重并操作得到新特征。

(3.4)、在深度神经网络最后添加一层softmax层，将卷积层的输出分成若干个相同大小且互不重叠的维度更小的二维矩阵，然后根据均值池化或最大值池化得到次抽样层的输出。

(3.5)、在训练过程中，首先从基类流量数据集中随机选择N个类，并从这些类的数据样本中采样出基础支持集和基础查询集，训练的任务目标是以支持集为训练样本，训练深度神经网络模型，使得该模型对查询集中的流量样本识别损失最小化。

作为本发明的一种优选实施方式，所述步骤四包括如下子步骤：

(4.1)、将训练好的深度学习模型部署于目标服务器上。

(4.2)、开启系统流量采集模块，持续收集各个支路的网络流量情况，由于场景的流量数据巨大，将系统处理能力保持在转发阈值之内。

(4.3)、在系统流量分析模块中加载已训练的深度神经网络模型，将应用场景流量分为黑色安全威胁流量、灰色不确定流量和白色安全流量，通过筛选出白名单部分的流量数据，排除大部分正常流量，再通过检测技术直接判定黑色威胁流量部分携带的木马。对于灰色部分流量，尽可能推测出可能存在的威胁，供进一步综合比对。

本发明还涉及一种基于深度学习技术的流量检测装置，所述基于深度学习技术的流量检测装置包括web服务接口，所述web服务接口包括处理组件，以及由存储器所代表的存储器资源，用于存储可由处理组件的执行的指令，处理组件被配置为执行指令，以执行上述方法。

其中，所述处理组件包括有流量清洗组件、流量转化组件和流量检测组件。

其中，所述存储器中存储的应用程序包括一个或一个以上的每一个对应于一组指令的模块。

其中，所述web服务接口还可以包括一个电源组件、一个有线或无线网络监听接口、一个输出接口，所述电源组件被配置为执行web服务接口的电源管理，所述无线网络监听接口被配置为将装置连接到网络，所述web服务接口可以操作基于存储在存储器的操作系统。

与现有技术相比，本发明的有益效果如下：

1.本发明鉴于安全威胁流量通过网络交互实现破坏任务的特点，采用流检测技术以数据流为基本研究对象，在捕获的数据链路层流量后，通过自动化选取与分析数据流传输的统计特征，能有效减轻系统的处理负担，为确定网络安全威胁提供有力支持。

2.本发明的深度学习模型技术不依赖于某种木马特征库，无需进行训练样本与待测流量的统计特征提取，能够兼容加密协议和弱特征协议，该方法在保证高准确率的前提下，不依靠专家经验来获取数据特征，实现自动化的处理。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一种基于深度学习技术的流量检测装置示意图；

图2为本发明基于深度学习的流量检测架构图；

图3为本发明一种流量数据的处理过程图；

图4为本发明一种流量数据的检测流程图。

1900、web服务接口；1922、处理组件；1926、电源组件；1932、存储器；1950、有线或无线网络监听接口；1958、输出接口。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

请参阅图1-4，本发明提供一种技术方案：一种基于深度学习技术的流量数据自动检测方法，所述检测方法如下：

步骤一：系统对数据链路层的数据流进行监听和捕获，同时，采用web服务支持外部流量数据接入功能，系统对捕获的原始数据信息流进行数据清洗，除去冗余和非必须信息，系统对数据链路层的数据流进行捕获，同时，为了效减轻系统的处理负担，也支持跨系统的流量数据接入功能，通过向外部接入流量提供API回调接口，采用web服务获取不同来源的流量数据，系统对捕获的原始数据信息流进行数据清洗，除去冗余和非必须信息，保持流量数据的一致性；

步骤二：在分组捕获目标数据流量后，对原始数据流进行数据预处理，即是从原始流量至深度神经网络输入数据的处理过程，系统对数据流量进行深度分析，在分组捕获目标数据流量后，为了避免由于最大传输单元(MTU)大小不一或传输协议的分片功能导致的流量分组混乱，支持数据分片的重组排序，将数据流转化为图像的数据编码建模方法，作为神经网络输入；

步骤三：包括对流量数据用深度学习方法进行训练和进行识别的两个过程；识别出安全威胁流量、不确定流量和安全流量，实现流量准入控制，系统对深度神经网络模型进行训练，模型训练可以自动化学习和积累大流量数据，通过抽取不同类型流量中的抽象特征部分，实现对于流量数据的快速学习能力；

步骤四：利用训练好的模型对网络流量检测,识别出安全威胁流量、不确定流量和安全流量，实现流量准入控制，系统的流检测引擎识别功能，将系统部署在网关出口处，系统将根据训练后的深度学习模型，将网络流量自动地对应识别为黑色安全威胁流量、灰色不确定流量和白色安全流量，并采用多种检测技术直接判定木马或者筛选出白名单部分流量，并通过不断给训练模型进行结果反馈，强化系统的数据流检测能力。

进一步的，所述步骤一包括如下子步骤：

第四：最后输出pcap格式的标准流量数据包集合。

(1.3)、将数据流量与系统中已有流量集合进行逐条比对，

进一步的，所述步骤二中包括如下子步骤：

(2.2)、对于分组后的流量数据，采用如下流量清洗方法：

进一步的，所述步骤三包括如下子步骤：

(3.1)、将IDX格式的流量数据图作为二维CNN网络模型的输入。

进一步的，所述步骤四包括如下子步骤：

(4.1)、将训练好的深度学习模型部署于目标服务器上。

本发明中参考图1，一种基于深度学习技术的流量检测装置，包括web服务接口1900，所述web服务接口1900包括处理组件1922，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，处理组件1922被配置为执行指令，以执行上述方法，所述处理组件1922包括有流量清洗组件、流量转化组件和流量检测组件，所述存储器1932中存储的应用程序包括一个或一个以上的每一个对应于一组指令的模块，所述web服务接口1900还可以包括一个电源组件1926、一个有线或无线网络监听接口1950、一个输出接口1958，所述电源组件1926被配置为执行web服务接口1900的电源管理，所述无线网络监听接口1950被配置为将装置1900连接到网络，所述web服务接口1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

综上述，本发明鉴于安全威胁流量通过网络交互实现破坏任务的特点，采用流检测技术以数据流为基本研究对象，在捕获的数据链路层流量后，通过自动化选取与分析数据流传输的统计特征，能有效减轻系统的处理负担，为确定网络安全威胁提供有力支持，本发明的深度学习模型技术不依赖于某种木马特征库，无需进行训练样本与待测流量的统计特征提取，能够兼容加密协议和弱特征协议，该方法在保证高准确率的前提下，不依靠专家经验来获取数据特征，实现自动化的处理。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习技术的流量数据自动检测方法，其特征在于：所述检测方法如下：

2.根据权利要求1所述的一种基于深度学习技术的流量数据自动检测方法，其特征在于：所述步骤一包括如下子步骤：

第四：最后输出pcap格式的标准流量数据包集合。

(1.3)、将数据流量与系统中已有流量集合进行逐条比对，

3.根据权利要求1所述的一种基于深度学习技术的流量数据自动检测方法，其特征在于：所述步骤二中包括如下子步骤：

(2.2)、对于分组后的流量数据，采用如下流量清洗方法：

4.根据权利要求1所述的一种基于深度学习技术的流量数据自动检测方法，其特征在于：所述步骤三包括如下子步骤：

(3.1)、将IDX格式的流量数据图作为二维CNN网络模型的输入。

5.根据权利要求1所述的一种基于深度学习技术的流量数据自动检测方法，其特征在于：所述步骤四包括如下子步骤：

(4.1)、将训练好的深度学习模型部署于目标服务器上。

6.一种基于深度学习技术的流量数据自动检测装置，其特征在于：包括web服务接口1900，所述web服务接口1900包括处理组件1922，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，处理组件1922被配置为执行指令，以执行上述方法。

7.根据权利要求6所述的一种基于深度学习技术的流量检测装置，其特征在于：所述处理组件1922包括有流量清洗组件、流量转化组件和流量检测组件。

8.根据权利要求6所述的一种基于深度学习技术的流量检测装置，其特征在于：所述存储器1932中存储的应用程序包括一个或一个以上的每一个对应于一组指令的模块。

9.根据权利要求6所述的一种基于深度学习技术的流量检测装置，其特征在于：所述web服务接口1900还可以包括一个电源组件1926、一个有线或无线网络监听接口1950、一个输出接口1958，所述电源组件1926被配置为执行web服务接口1900的电源管理，所述无线网络监听接口1950被配置为将装置1900连接到网络，所述web服务接口1900可以操作基于存储在存储器1932的操作系统。