CN112235314A

CN112235314A - 网络流量检测方法和装置及设备

Info

Publication number: CN112235314A
Application number: CN202011181208.XA
Authority: CN
Inventors: 吴来云; 张研; 江志华; 李薛
Original assignee: Dongxun Tech Beijing Co ltd
Current assignee: Dongxun Tech Beijing Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-15

Abstract

本申请涉及一种网络流量检测方法，包括：获取网络流量数据，对网络流量数据进行解析，由网络流量数据中提取出流量会话；其中，流量会话包括报文字节数；对流量会话进行变换，将流量会话转换为流量基因图谱；将流量基因图谱输入至预先训练好的流量检测网络模型中，由流量检测网络模型根据输入的流量基因图谱进行网络流量数据的检测，并输出相应的检测结果；其中，检测结果包括网络流量数据为正常流量和恶意流量中的任意一种。相较于相关技术中单纯采用深度学习进行网络流量检测的方式，有效提高了检测结果的准确性。

Description

网络流量检测方法和装置及设备

技术领域

本申请涉及计算机网络安全技术领域，尤其涉及一种网络流量检测方法和装置及设备。

背景技术

当前随着互联网、物联网、大数据、云计算和人工智能等技术的迅速发展和应用，在网络空间产生了越来越巨大的经济、社会价值，甚至关系到国家安全。近年来，不断见诸报端的各种严重黑客攻击事件体现出黑客攻击的专业化、国家化、经济政治目的的导向化等演进趋势。而传统的网络安全防御体现在企业、人才、产品和手段等方面越来越不能使用日益严峻的挑战。尤其是越来越多的攻击者大量采用加密通信、隐蔽信道、免杀技术和机器学习等技术，提高了攻击的自动化程度和攻击程度，并且增大了检测分析的难度，使传统基于负载内容的检测分析技术难以再有大的效用。但是，在相关技术中，基于传统的网络流量检测算法的检测结果准确率偏低，不能有效地检测出恶意流量。

发明内容

有鉴于此，本申请提出了一种网络流量检测方法，可以有效提高检测结果的准确率。

根据本申请的一方面，提供了一种网络流量检测方法，包括：

获取网络流量数据，对所述网络流量数据进行解析，由所述网络流量数据中提取出流量会话；其中，所述流量会话包括报文字节数；

对所述流量会话进行变换，将所述流量会话转换为流量基因图谱；

将所述流量基因图谱输入至预先训练好的流量检测网络模型中，由所述流量检测网络模型根据输入的所述流量基因图谱进行所述网络流量数据的检测，并输出相应的检测结果；

其中，所述检测结果包括所述网络流量数据为正常流量和恶意流量中的任意一种。

在一种可能的实现方式中，将所述流量会话转换为所述流量基因图谱时，采用离散傅里叶变换对所述流量会话进行变换；

其中，所述流量基因图谱包括横坐标和纵坐标；横坐标为时间戳，纵坐标为所述报文字节数。

在一种可能的实现方式中，所述流量检测网络模型基于卷积神经网络构建得到。

在一种可能的实现方式中，由所述流量检测网络模型根据输入的所述流量基因图谱进行所述网络流量数据的检测，包括：

由所述流量检测网络模型中的第一卷积层对所述流量基因图谱进行卷积操作，由所述流量基因图谱中提取出第一图像特征；

由所述流量检测网络模型中的第一池化层对所述第一图像特征进行下采样，得到第一采样结果；

由所述流量检测网络模型中的第二卷积层对所述第一采样结果进行再次卷积操作，由所述第一采样结果中提取出第二图像特征；

由所述流量检测网络模型中的第二池化层对所述第二图像特征进行下采样，得到第二采样结果；

由所述流量检测网络模型中的第三卷积层对所述第二采样结果进行再次卷积操作，由所述第二采样结果中提取出第三图像特征；

由所述流量检测网络模型中的第三池化层对所述第三图像特征进行下采样，得到第三采样结果；

由所述流量检测网络模型中的第四卷积层对所述第三采样结果进行再次卷积操作，由所述第三采样结果中提取出第四图像特征；

由所述流量检测网络模型中的第四池化层对所述第四图像特征进行下采样，得到第四采样结果；

将所述第四采样结果转换为一维向量后，再进行多次全连接后，输出相应的所述检测结果。

在一种可能的实现方式中，还包括对所述流量检测网络模型进行训练的步骤；

其中，对所述流量检测网络模型进行训练包括：

收集捕获预设数量的网络流量样本数据；其中，所述网络流量样本数据包括非恶意样本产生的各种协议的网络流量信息文件和恶意样本产生的各种协议的网络流量信息文件；

由各所述网络流量样本数据中提取出相应的报文字节数作为输入数据；

将所述输入数据变换为样本流量基因图谱，并基于变换得到的所述样本流量基因图谱对所搭建的流量检测网络模型进行训练。

在一种可能的实现方式中，在将所述流量基因图谱输入至预先训练好的所述流量检测网络模型之前，还包括：将所述流量基因图谱缩放至预设尺寸的步骤。

在一种可能的实现方式中，所述预设尺寸的大小为：224*224*1；

其中，224*224表示所述流量基因图谱所包含的像素点，1表示所述流量基因图谱为单通道图像。

根据本申请的一方面，还提供了一种网络流量检测装置，包括数据获取模块、数据解析模块、数据变换模块和数据检测模块；

所述数据获取模块，被配置为获取网络流量数据；

所述数据解析模块，被配置为对所述网络流量数据进行解析，由所述网络流量数据中提取出流量会话；其中，所述流量会话包括报文字节数；

所述数据变换模块，被配置为对所述流量会话进行变换，将所述流量会话转换为流量基因图谱；

所述数据检测模块，被配置为将所述流量基因图谱输入至预先训练好的流量检测网络模型中，由所述流量检测网络模型根据输入的所述流量基因图谱进行所述网络流量数据的检测，并输出相应的检测结果；

在一种可能的实现方式中，所述流量检测网络模型包括依次级联的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第一全连接层、第二全连接层和第三全连接层；

其中，所述一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层的卷积核大小均为3*3，卷积核数量均为64；

所述第一池化层、所述第二池化层、所述第三池化层和所述第四池化层的大小均为2*2。

根据本申请的另一方面，还提供了一种网络流量检测设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

本申请实施例的网络流量检测方法，通过对截获的网络流量数据进行解析，由网络流量数据中提取出相应的特征数据(即，流量会话)，进而再将时域信号形式的流量会话转换为频域信号的流量基因图谱后，再通过深度学习的方式，由预先训练好的流量检测网络模型根据转换得到的流量基因图谱进行网络流量数据的检测，以此来识别所截获的网络流量数据是否为恶意流量，从而实现了基于信号变换和深度学习的结合来进行网络流量的检测的目的。相较于相关技术中单纯采用深度学习进行网络流量检测的方式，有效提高了检测结果的准确性。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出本申请一实施例的网络流量检测方法的流程图；

图2示出本申请一实施例的网络流量检测方法中所构建的流量检测网络模型的架构图；

图3示出本申请一实施例的网络流量检测方法的另一流程图；

图4a—图4e分别示出了第一原信号DFT频谱的正常通信行为图；

图5a—图5d分别示出了第二原信号DFT频谱异常通信行为图；

图6a—图6c分别示出了第三原信号DFT频谱异常通信行为图；

图7示出本申请一实施例的网络流量检测装置的结构框图；

图8示出本申请一实施例的网络流量检测设备的结构框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

图1示出根据本申请一实施例的网络流量检测方法的流程图。如图1所示，该方法包括：步骤S100，获取网络流量数据。此处，需要指出的是，网络流量数据可以采用抓取的方式获取，也可以采用其它方式获取，此处不进行具体限定。在一种可能的实现方式中，所获取的网络流量数据为通过在对网络行为进行实时监测过程中所发现的可疑部分的数据段。

步骤S200，对网络流量数据进行解析，由网络流量数据中提取出流量会话。此处，本领域技术人员可以理解的是，在对网络流量数据进行解析的过程中，主要是通过对所截获的网络流量信息文件进行分析，由网络流量信息文件中提取出一条完整会中每一个封包的报文字节数，从而以便于将流量会话映射为二维图谱。其中，所映射的二维图谱中，横坐标为封包产生的时间戳，纵坐标为报文字节数。

步骤S300，对流量会话进行变换，将流量会话转换为流量基因图谱。此处，本领域技术人员可以理解的是，通过上述步骤对网络流量数据解析，由网络流量数据中提取出的流量会话为时域信号，通过对流量会话进行转换，转换为频域信号，从而能够对时域上某些不好处理的地方采用频域的方式进行处理。

步骤S400，将流量基因图谱输入至预先训练好的流量检测网络模型中，由流量检测网络模型根据输入的流量基因图谱进行网络流量数据的检测，并输出相应的检测结果。其中，检测结果包括网络流量数据为正常流量和恶意流量中的任意一种。

也就是说，本申请实施例的网络流量检测方法，通过对截获的网络流量数据进行解析，由网络流量数据中提取出相应的特征数据(即，流量会话)，进而再将时域信号形式的流量会话转换为频域信号的流量基因图谱后，再通过深度学习的方式，由预先训练好的流量检测网络模型根据转换得到的流量基因图谱进行网络流量数据的检测，以此来识别所截获的网络流量数据是否为恶意流量，从而实现了基于信号变换和深度学习的结合来进行网络流量的检测的目的。相较于相关技术中单纯采用深度学习进行网络流量检测的方式，有效提高了检测结果的准确性。

其中，由于在本申请实施例的网络流量检测方法中，对截获到的网络流量数据进行检测时，主要是通过所构建的神经网络模型(即，流量检测网络模型)进行的。因此，在执行本申请实施例的网络流量检测方法之前，需要先构建用于进行网络流量检测的网络模型。

在一种可能的实现方式中，所构建的流量检测网络模型可以基于CNN网络(即，卷积神经网络)进行搭建。

具体的，在本申请实施例的网络流量检测方法中，所搭建的卷积神经网络的网络结构包括多个卷积层、多个池化层和多个全连接层。其中，每个卷积层后连接一个池化层，多个全连接层依次连接在最后一层的池化层之后。其中，全连接层在整个网络结构中起到最后分类的作用。由此，基于上述结构的卷积神经网络，通过卷积层对输入的数据进行卷积操作，由输入数据中提取出相应的特征数据后，再通过池化层对提取出的特征数据进行采样，进而再由全连接层对采样后的数据进行分类识别，从而最终完成对输入数据(即，输入的流量基因图谱)是否为恶意流量的检测识别。

更加具体的，参阅图2，在一种可能的实现方式中，卷积层和池化层均可以设置为4层，全连接层设置为3层。即，在本申请一实施例的网络流量检测方法中，所构建的流量检测网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第一全连接层、第二全连接层、第三全连接层和输出层。

其中，输入至该网络模型的流量基因图谱通过第一卷积层进行卷积操作，提取出流量基因图谱中的图像特征(即，第一图像特征)再由第一池化层对第一图像特征进行下采样，得到第一采样结果。进而再由第二卷积层对第一采样结果进行再次卷积操作，由第一采样结果中提取出第二图像特征后，由第二池化层对第二图像特征进行下采样，得到第二采样结果。接着，再由第三卷积层对第二采样结果进行再次卷积操作，由第二采样结果中提取出第三图像特征，并通过第三池化层对第三图像特征进行下采样，得到第三采样结果。然后，由第四卷积层对第三采样结果进行再次卷积操作，由第三采样结果中提取出第四图像特征。接着，由第四池化层对所述第四图像特征进行下采样，得到第四采样结果后，再将第四采样结果转换为一维向量后，再依次进行三次全连接后，输出相应的检测结果。

此外，还需要指出的是，在搭建好上述结构的流量检测网络模型之后，还需要对所搭建的流量检测网络模型进行训练，以使流量检测网络模型能够收敛至最优结构。

其中，在一种可能的实现方式中，对流量检测网络模型进行训练时，可以通过以下步骤来实现。

首先，收集捕获预设数量的网络流量样本数据；其中，网络流量样本数据包括非恶意样本产生的各种协议的网络流量信息文件和恶意样本产生的各种协议的网络流量信息文件。然后，由各网络流量样本数据中提取出相应的报文字节数作为输入数据；最后，将输入数据变换为样本流量基因图谱，并基于变换得到的样本流量基因图谱对所搭建的流量检测网络模型进行训练。

也就是说，在对流量检测网络模型进行训练时，所采用的训练样本数据为收集所捕获到的恶意样本产生的各种协议的网络流量信息文件和非恶意样本产生的各种协议的网络流量信息文件。这些网络流量信息文件通过预处理后，由网络流量信息文件中提取出报文字节数作为进行时域到频域变换的输入信息集合。然后，利用离散傅里叶变换，将输入的信息集合变换为流量基因图谱集合，进而再利用变换后的流量基因图谱集合对流量检测网络模型进行训练。

其中，在一种可能的实现方式中，在将变换后的流量基因图谱集合依次输入至流量检测网络模型中进行模型训练之前，还包括对流量基因图谱集合中的各流量基因图谱进行处理，将各流量基因图谱缩放至统一尺寸的步骤。

即，在本申请实施例的网络流量检测方法中，通过采集预设数量的训练样本数据，该训练样本数据包含恶意的代码样本和非恶意的代码样本。将采集到的这些训练样本数据(即，恶意代码样本和非恶意代码样本)提交至模拟环境运行分析，通过模拟执行样本获得代码的流量会话，从流量会话中抽取信息元素(即，报文字节数)作为信号变换的输入，将流量会话映射为基因图谱。然后，基于映射得到的基因图谱，结合深度学习技术进行模型训练，在训练过程中不断进行参数调整以及交叉验证，最终形成最优的流量检测网络模型，从而完成对流量检测网络模型的训练。

在完成对流量检测网络模型的训练，确定最终的流量检测网络模型中各网络层的网络参数和权重等之后，即可利用训练好的流量检测网络模型进行网络流量是否为恶意流量的检测识别。

其中，在利用训练好的流量检测网络模型进行网络流量是否为恶意流量的检测过程前面已经进行了描述，此处不在进行赘述。所需要说明的是，在本申请实施例的网络流量检测方法中，由网络流量数据中提取的信息元素可以通过以下方式来确定。

参阅图3，首先，通过步骤S001，从恶意代码库中获取大量恶意的代码样本，对恶意的代码样本进行分析，过滤掉不符合预设条件的代码样本(如：误报样本、不完整样本等)，同时，采集大量正常的代码样本，分别将恶意的代码样本和非恶意的代码样本提交至模拟环境运行，通过监控样本的行为动作截取样本的网络流量，并生成相应的pcap文件。

针对恶意样本所截获的网络流量信息文件，编写处理脚本，同时进行样本分析，过滤掉样本在模拟环境运行过程中产生的合法流量信息，只保留恶意流量部分。对处理后的Pcap文件进行解析，提取出一条完整会话中每一个封包的报文字节数，便可将流量会话映射为二维图谱，横轴为封包产生的时间戳，纵轴为报文字节数。

同时，本领域技术人员可以理解的是，傅里叶变换的目的是将时域上的信号转变为频域上的信号，从而对于时域上不好处理的地方，转换为频域后能够较好的处理。离散傅里叶变换，是傅里叶变换在时域和频域上都呈现离散的形式，将时域信号的采样变换为在离散时间傅里叶变换频域的采样。异常的流量的行为信息和正常流量的行为有着不同的特征，本发明中通过离散傅里叶变换，从流量的特征上对网络流量进行变换和分析。

其中，离散傅里叶变换的理论基础为：

其中x(n)为采样的模拟信号，X(k)表示离散傅里叶变换后的数据。

参阅图4a至图4e、图5a至图5d、以及图6a至图6c，分别为正常软件通信行为图，恶意大白鲨控制软件通信行为图，和恶意骇客远程控制软件通信行为图。由变换的基因图谱中可以看出，正常流量更容易集中在离散傅里叶变换后的超高频、中频和低频部分，而其他的部分频谱相对来说比较平稳。而对于异常流量，较为突出的问题是异常流量在频谱特征的全部范围内都有着较为粗糙的波动。

由此，通过上述分析可知，在进行网络流量数据是否为恶意流量的检测识别时，可以通过对截获的网络流量数据进行上述解析获取网络流量数据中的流量会话，进而再对获取到的流量会话进行离散傅里叶变换，变换为相应的流量基因图谱，然后在根据变换得到的流量基因图谱，结合预先训练好的流量检测网络模型进行流量检测识别。

进一步的，在将变换得到的流量基因图谱输入至训练好的流量检测网络模型中进行检测识别时，还需要对流量基因图谱进行处理，将流量基因图谱缩放至统一的尺寸。在本申请实施例的网络流量检测方法中，可以将流量基因图谱缩放至224*224*1。其中，224*224表示流量基因图谱所包含的像素点，1则表示流量基因图谱为单通道图像。

将流量基因图谱缩放至统一尺寸之后，即可输入至训练好的流量检测网络模型中进行检测识别。其中，根据前面所述，在本申请一实施例的网络流量检测方法中，所构建的流量检测网络模型的网络架构共包含有4个卷积层，4个池化层，3个全连接层以及最后的输出层。卷积层可对图像进行卷积操作，发掘并提取图像特征。池化层可以理解为下采样，过滤掉一些不重要的高频信息，分为最大池化和平均池化。全连接层则在整个架构上起到最后分类的作用。

因此，在将流量基因图谱输入至流量检测网络模型后，对流量基因图谱先进行卷积处理，具体的，卷积核大小为3*3，卷积核数量为64，处理后的张量大小为224*224*64,。然后进行池化处理，池化大小为2*2，处理后的张量大小为112*112*64。然后，再以同样的方法进行三次卷积和池化处理，得到的张量大小为7*7*512，通过标准化处理，将7*7*512的张量转化为长度为25088的一维张量，并与节点数为1024的隐藏层进行全连接，再与节点数为256的隐藏层进行全连接，最后还有包含两个节点的输出层，即输出网络流量是恶意流量还是非恶意流量。

由此，本申请实施例的网络流量检测方法，通过对截获到的网络流量数据进行信号处理，并结合神经网络技术进行是否为恶意流量的检测识别，不仅有效解决了超大网络流量的安全威胁检测，同时还提高了对恶意流量识别的准确率，大大降低了攻击成功概率和攻击造成的损失。此外，采用本申请实施例的网络流量检测方法，还可以直接将该方法包装成相应的功能模块后嵌入已有的威胁预警系统中，从而通过解析pcap网络流量信息文件进行是否为恶意流量的检测识别。

相应的，基于前面任一所述的网络流量检测方法，本申请还提供了一种网络流量检测装置。由于本申请提供的网络流量检测装置的工作原理与本申请的网络流量检测方法的原理相同或相似，因此重复之处不再赘述。

参阅图7，本申请实施例的网络流量检测装置100，包括数据获取模块110、数据解析模块120、数据变换模块130和数据检测模块140。其中，数据获取模块110，被配置为获取网络流量数据。数据解析模块120，被配置为对网络流量数据进行解析，由网络流量数据中提取出流量会话；其中，流量会话包括报文字节数。数据变换模块130，被配置为对流量会话进行变换，将流量会话转换为流量基因图谱。数据检测模块140，被配置为将流量基因图谱输入至预先训练好的流量检测网络模型中，由流量检测网络模型根据输入的流量基因图谱进行网络流量数据的检测，并输出相应的检测结果。其中，检测结果包括网络流量数据为正常流量和恶意流量中的任意一种。

在一种可能的实现方式中，流量检测网络模型包括依次级联的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第一全连接层、第二全连接层和第三全连接层；

其中，一卷积层、第二卷积层、第三卷积层和第四卷积层的卷积核大小均为3*3，卷积核数量均为64；第一池化层、第二池化层、第三池化层和第四池化层的大小均为2*2。

更进一步地，根据本申请的另一方面，还提供了一种网络流量检测设备200。参阅图8，本申请实施例的网络流量检测设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的网络流量检测方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本申请实施例的网络流量检测设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本申请实施例的网络流量检测方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行网络流量检测设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种网络流量检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述流量会话转换为所述流量基因图谱时，采用离散傅里叶变换对所述流量会话进行变换；

3.根据权利要求1所述的方法，其特征在于，所述流量检测网络模型基于卷积神经网络构建得到。

4.根据权利要求3所述的方法，其特征在于，由所述流量检测网络模型根据输入的所述流量基因图谱进行所述网络流量数据的检测，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括对所述流量检测网络模型进行训练的步骤；

其中，对所述流量检测网络模型进行训练包括：

6.根据权利要求1至4任一项所述的方法，其特征在于，在将所述流量基因图谱输入至预先训练好的所述流量检测网络模型之前，还包括：将所述流量基因图谱缩放至预设尺寸的步骤。

7.根据权利要求6所述的方法，其特征在于，所述预设尺寸的大小为：224*224*1；

8.一种网络流量检测装置，其特征在于，包括数据获取模块、数据解析模块、数据变换模块和数据检测模块；

所述数据获取模块，被配置为获取网络流量数据；

9.根据权利要求8所述的装置，其特征在于，所述流量检测网络模型包括依次级联的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第一全连接层、第二全连接层和第三全连接层；

10.一种网络流量检测设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至7中任意一项所述的方法。