CN112995150B

CN112995150B - 一种基于cnn-lstm融合的僵尸网络检测方法

Info

Publication number: CN112995150B
Application number: CN202110169984.6A
Authority: CN
Inventors: 卢法权; 陈丹伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2023-05-02
Anticipated expiration: 2041-02-08
Also published as: CN112995150A

Abstract

本发明公开了一种基于CNN‑LSTM融合的僵尸网络检测方法，获取网络数据集，对数据集进行预处理操作；构建检测模型，检测模型包括卷积神经网络模型CNN、长短时记忆网络模型LSTM、特征融合模块、全连接层，卷积神经网络模型CNN用于空间特征提取，长短时记忆网络模型LSTM用于时序特征提取，将提取得到的空间特征和时序特征在特征融合模块中进行特征融合，得到融合特征，融合特征经过全连接层输出检测结果；对检测模型进行训练，得到训练好的检测模型。本发明简化了人工提取特征等操作，不需要极强的先验知识，对僵尸网络检测具有良好的准确率。

Description

一种基于CNN-LSTM融合的僵尸网络检测方法

技术领域

本发明涉及一种基于CNN-LSTM融合的僵尸网络检测方法，属于网络安全和深度学习技术领域。

背景技术

随着计算机网络技术的飞速发展，互联网已经成为了人类社会生活不可或缺的组成部分，渗透到了人类社会活动的各个方面。现阶段，互联网技术在军事、教育、经济等各社会领域都有非常广泛而又重要的应用。但与此同时，随着大数据与云计算的发展，大量有价值的信息都存储在服务器或云端网络中，重要信息也通过网络流量为载体进行传输与交互，借助于互联网平台的开放性与连通性，网络攻击与计算机病毒有了更大的“表现舞台”。其中，僵尸网络以其规模庞大、感染迅速而难以检测与防范成为了网络攻击中的热门手段，对网络空间安全造成极大的威胁。

僵尸网络(Botnet)就是不法分子利用网络进行非法牟利的一种常用攻击手段。僵尸网络是被广泛认为在传统蠕虫、木马、后门工具等基础上融合而成的复杂网络攻击手段之一，是一种通过入侵网络空间内若干非合作用户终端构建的、可被攻击者远程控制的具有一定规模的网络。攻击者通过命令与控制(Command and Control,C&C)信道可以一对多地发起攻击活动，如钓鱼攻击、DDos、发送垃圾邮件、分发恶意软件、监听用户敏感信息、虚拟货币挖掘等。僵尸网络作为恶意代码的进化形态，具有影响范围广、破坏性强、灵活多变的特性，严重威胁到网络安全。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，常用来分析视觉图像。卷积神经网络创始人是著名计算机科学家Yann LeCun，他早在上世纪80年代，第一个将卷积神经网络应用在MNIST手写数据集识别任务上。与传统的神经网络相比，卷积神经网络有三个基本概念，同时也是三个改进点，分别为局部感受野、权值共享和池化(Pooling)。

长短期记忆循环神经网络(LSTM，Long Short-Term Memory)是一种特殊的循环神经网络(RNN，Recurrent Neural Network)，为了解决一般的RNN存在的长期依赖问题而专门设计出来的。LSTM由于独特的设计结构，适合于处理和预测时间序列中间隔和延迟非常长的事件，表现通常比普通RNN模型要更好。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

发明内容

发明目的：传统机器学习方法需要进行繁琐的人工提取特征过程，并且模型的识别准确率不高，为了克服上述问题以及弥补现有技术中存在的不足，本发明提出一种基于CNN-LSTM融合的僵尸网络检测方法，本方法结合僵尸网络的特性，利用卷积神经网络在图像处理方面的优势对僵尸网络的空间特征进行提取，利用长短时记忆网络对上下文关系处理的优势对僵尸网络的时序特征进行提取，最终进行特征融合，并且对卷积神经网络结构进行改进，以提高对僵尸网络检测的准确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于CNN-LSTM融合的僵尸网络检测方法，采用深度学习算法分别对僵尸网络的两种特征进行提取和融合，来完成对僵尸网络的检测，包括以下步骤：

步骤1，获取网络数据集，得到用于训练僵尸网络流量数据。

步骤2，对网络数据集进行预处理操作，使其保留原本语义的同时符合神经网络的输入，得到训练数据集。

步骤3，构建检测模型，检测模型包括卷积神经网络模型CNN、长短时记忆网络模型LSTM、特征融合模块、全连接层，卷积神经网络模型CNN用于空间特征提取，长短时记忆网络模型LSTM用于时序特征提取，将提取得到的空间特征和时序特征在特征融合模块中进行特征融合，得到融合特征，融合特征经过全连接层输出检测结果。

卷积神经网络模型CNN包括依次连接的卷积层一C1、池化层一S1、卷积层二C2、池化层二S2、卷积层三C3、池化层三S3、全连接层一D1、全连接层二D2，所述卷积层一C1由两个3x3卷积层串联，通道数为16，输出为32x32x16。卷积层二C2由两个3x3卷积层串联，通道数为32，输出为16x16x32。卷积层三C3由两个3x3卷积层串联，通道数为64，输出为8x8x64。全连接层一D1由1024个神经元构成，输出为1024维向量。全连接层二D2由128个神经元构成，输出为128维向量的空间特征。

本发明对卷积神经网络模型CNN进行改进，使用两个3x3的小卷积核串联代替5x5的大卷积核，在具有相同感受野的情况下，具有更少的参数量，检测性能更好。

长短时记忆网络模型LSTM包括依次连接的LSTM层一L1、第一全连接层FC1、LSTM层二L2、第二全连接层FC2，LSTM层一L1由100个单元构成，输出为100个256维向量，第一全连接层FC1由256个神经元组成，输出为256维向量，LSTM层二L2由8个单元构成，输出为8个128维向量，第二全连接层FC2由128个神经元组成，输出为128维向量的时序特征。

所述特征融合模块将128维向量的空间特征和128维向量的时序特征进行并联融合，组成256维向量融合特征。

全连接层根据256维向量融合特征输出10维向量的检测结果。

步骤4，利用训练数据集，对检测模型进行训练，一轮网络的训练由一次前向传导过程和一次反向传播过程组成；首先是经过整个检测模型逐层传递学习的特征值，然后给出检测模型的预测；再通过交叉熵损失函数计算出预测值与真实值之间的损失值，这是一轮前向传导；反向传播过程将根据损失值，对整个检测模型中的参数进行优化更新；最终得到训练好的检测模型，然后利用训练优化完成后的检测模型进行僵尸网络检测。

优选的：步骤1中采用的网络数据集包括正常网络流量和僵尸网络流量，正这样组成的数据集更加贴合日常实际使用的情况。常网络流量为使用wireshark抓包工具进行日常流量的采集，僵尸网络流量则从公开数据集中选取。

优选的：步骤2中预处理操作包括对网络数据集中输入到卷积神经网络模型CNN中的网络数据预处理和对网络数据集中输入到长短时记忆网络模型LSTM的网络数据预处理。

优选的：对网络数据集中输入到卷积神经网络模型CNN中的网络数据预处理如下：对网络数据集中网络流量数据按照1024字节进行统一长度进行处理，即长度超过1024字节的流量进行截取，长度小于1024字节的流量在其末尾进行补0操作，补齐1024字节长度，相当于转化为32x32的二维灰度图。

优选的：对网络数据集中输入到长短时记忆网络模型LSTM的网络数据预处理如下：将网络数据集中网络流量数据的字节组成数据包，数据包又组成网络流，对每条网络流截取前8个数据包，每个数据包取100个字节，若长度不够，则在末尾补0x00。

优选的：步骤3中采用GELU()激活函数激活。本发明对激活函数进行改进，采用GELU()激活函数，其在激活中引入了随机正则的思想，是一种对神经元输入的概率描述，是一种高性能的神经网络激活函数。

优选的：步骤4中使用softmax()作为分类函数。其能够将网络的输出映射成为(0,1)之间的值，并且这些值的累和为1(满足概率的性质)，那么概率值最大的(也就是值对应最大的)结点，就是网络最后的预测目标。

优选的：步骤4中使用交叉熵损失函数(CrossEntropyLoss)作为损失函数计算损失值。

优选的：步骤4中采用Adam优化器优化。Adam优化器其本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。它的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定的范围，使得在训练过程中参数更新比较平稳。

本发明相比现有技术，具有以下有益效果：

1、本发明利用深度学习算法强大的自主学习能力，通过对网络模型的迭代训练来自动提取特征，相比于传统机器学习方法省去了人工提取特征的繁琐以及不需要极强的先验知识。

2、本发明对僵尸网络的空间和时序两种特征即自身特征和上下文关系特征进行提取以进行检测，借助于分别对上述两种特征有处理优势的卷积神经网络和长短时记忆网络，相比单一特征具有更高的准确率。

3、本发明对两者提取的特征进行并联融合，相比于串联模式，能够最大限度的保证空间特征和时序特征的完整性。

4、本发明使用小卷积核串联成模块对网络模型进行改进，并且改进使用GELU()激活函数，进一步增强网络性能。

附图说明

图1是本发明中整体流程图。

图2是本发明中网络具体网络模型结构。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于CNN-LSTM融合的僵尸网络检测方法，如图1所示，采用深度学习算法分别对僵尸网络的两种特征进行提取和融合，并进行网络训练，来完成对僵尸网络的检测示，主要包括四个阶段：数据集采集、数据预处理、网络模型构建、网络模型训练。

一、数据集采集

本文实验采用的数据集由正常网络流量和僵尸网络流量两部分组成。这样组成的数据集更加贴合日常实际使用的情况。其中，正常网络流量为使用wireshark抓包工具进行日常流量的采集，僵尸网络流量则从CTU公开数据集中选取。本文从中选取了5种具有代表性的僵尸网络流量，为Neris、Rbot、Virut、Nsis、Zeus，正常流量包括Gmail、Weibo、WOW、MySQL、FaceTime。

二、数据预处理

数据预处理分为两个部分，由于卷积神经网络和长短时记忆网络对输入要求的不同，需要对空间特征提取模块和时序特征提取模块分别进行处理。

(1)空间特征提取模块

流量切分：对网络流量按照1024字节进行统一长度进行处理，即长度超过1024字节的流量进行截取，长度小于1024字节的流量在其末尾进行补0操作，补齐1024字节长度，相当于转化为32x32的二维灰度图。

数据归一化：对上述流量，每个字节的取值范围都在[0,255]，将其构造为一个向量，每个字节对应一个分量，并将每个分量的数值除以255，让其取值范围归一到[0,1]区间。这样做的优势在于，原不同特征数据的范围可能会有很大的差别，归一化可以使数据有相同的分布，网络学习、收敛就会越快，不容易发生不收敛或者梯度消失的情况。

标签标注：经过前面的处理后，需要为样本打上标签，标注其属于哪种类型的网络流量。

(2)时序特征提取模块

字节组成数据包，数据包又组成网络流，对每条网络流截取前8个数据包，每个数据包取100个字节，若长度不够，则在末尾补0x00。接下来还需要对数据包向量进行编码，每个数据包为100维向量α＝(a₁,a₂,...,a_i)，i＝1,2,...,100，0≤a_i≤255，采用one-hot编码将每个字节编码为256维的向量，这样做是防止在训练时，网络模型将字节这种离散型值当做连续型数值，从而影响参数更新，降低识别率。

三、网络模型构建

构建检测模型，检测模型包括卷积神经网络模型CNN、长短时记忆网络模型LSTM、特征融合模块、全连接层，卷积神经网络模型CNN用于空间特征提取，长短时记忆网络模型LSTM用于时序特征提取，将提取得到的空间特征和时序特征在特征融合模块中进行特征融合，得到融合特征，融合特征经过全连接层输出检测结果。

改进卷积神经网络模型CNN使用两个3x3的小卷积核串联代替5x5的大卷积核，在具有相同感受野的情况下，具有更少的参数量，检测性能更好。并且对激活函数进行改进，采用GELU()激活函数，其在激活中引入了随机正则的思想，是一种对神经元输入的概率描述，是一种高性能的神经网络激活函数。具体检测模型结构如图2所示：

卷积神经网络模型CNN结构：

1)卷积层一C1：两个3x3卷积层串联，通道数为16，输出为32x32x16；

2)池化层一S1：进行一次2x2的最大值池化操作，输出为16x16x16；

3)卷积层二C2：两个3x3卷积层串联，通道数为32，输出为16x16x32；

4)池化层二S2：进行一次2x2的最大值池化操作，输出为8x8x32；

5)卷积层三C3：两个3x3卷积层串联，通道数为64，输出为8x8x64；

6)池化层三S3：进行一次2x2的最大值池化操作，输出为4x4x64；

7)全连接层一D1：由1024个神经元构成，与S3层全连接，输出为1024维向量；

8)全连接层一D2：由128个神经元构成，与D1层全连接，输出为128维向量；

长短时记忆网络模型LSTM结构：

1)LSTM层一L1：由100个单元构成，输出为100个256维向量。

2)第一全连接层FC1：由256个神经元组成，输出为256维向量。

3)LSTM层二L2：由8个单元构成，输出为8个128维向量。

4)第二全连接层FC2：由128个神经元组成，输出为128维向量。

最后对时序特征的FC2层128维向量与空间特征的D2层128维向量通过特征融合模块进行并联融合，组成256维向量，输出到最后一层全连接层，输出10维向量。

四、网络训练过程

(1)分类函数选择：本发明使用softmax()作为激活函数。softmax()函数通常在多分类任务中使用，作为最后的“分类器”，其公式如下所示：

其中，z_i表示网络的第i个输出，a_i代表softmax的第i个输出值，k表示类别总数，即共有k个类别。通俗的说，softmax()函数能够将网络的输出映射成为(0,1)之间的值，并且这些值的累和为1(满足概率的性质)，那么概率值最大的(也就是值对应最大的)结点，就是网络最后的预测目标。

(2)损失函数选择：本文采用交叉熵损失函数(CrossEntropyLoss)，其公式如下所示。

其中，cross_entropy表示交叉熵函数，概率分布p表示期望输出，概率分布q表示实际输出，N表示样本数量。

(3)优化函数选择：本文采用Adam优化器，其本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。它的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定的范围，使得在训练过程中参数更新比较平稳。

一轮网络的训练由一次前向传导过程和一次反向传播过程组成。首先是经过整个模型逐层传递学习的特征值，然后给出检测模型的预测。再通过交叉熵损失函数计算出预测值与真实值之间的损失，这是一轮前向传导。反向传播过程(BP，back propagation)将根据损失值，通过Adam优化函数对整个检测模型中的参数进行优化更新。

最终训练好的检测模型可用于僵尸网络流量检测，本发明使用卷积神经网络提取空间特征，再使用LSTM提取时许特征捕捉上下文联系，最后将特征融合，同时改进卷积神经网络结构和激活函数，以此来提高对僵尸网络的检测准确度。最终，采用本发明在上文提到的混合数据集中，对僵尸网络流量的分类准确率可达到98.4％。

本发明采用深度学习领域中的方法，由网络自己在训练过程中提取特征，完成检测。相比于传统机器学习方法，本发明简化了人工提取特征等操作，不需要极强的先验知识，对僵尸网络检测具有良好的准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于CNN-LSTM融合的僵尸网络检测方法，其特征在于，包括以下步骤：

步骤1，获取网络数据集，得到用于训练僵尸网络流量数据；

步骤2，对网络数据集进行预处理操作，使其保留原本语义的同时符合神经网络的输入，得到训练数据集；

预处理操作包括对网络数据集中输入到卷积神经网络模型CNN中的网络数据预处理和对网络数据集中输入到长短时记忆网络模型LSTM的网络数据预处理；

对网络数据集中输入到卷积神经网络模型CNN中的网络数据预处理如下：对网络数据集中网络流量数据按照1024字节进行统一长度进行处理，即长度超过1024字节的流量进行截取，长度小于1024字节的流量在其末尾进行补0操作，补齐1024字节长度；

对网络数据集中输入到长短时记忆网络模型LSTM的网络数据预处理如下：将网络数据集中网络流量数据的字节组成数据包，数据包又组成网络流，对每条网络流截取前8个数据包，每个数据包取100个字节，若长度不够，则在末尾补0x00；

步骤3，构建检测模型，检测模型包括卷积神经网络模型CNN、长短时记忆网络模型LSTM、特征融合模块、全连接层，卷积神经网络模型CNN用于空间特征提取，长短时记忆网络模型LSTM用于时序特征提取，将提取得到的空间特征和时序特征在特征融合模块中进行特征融合，得到融合特征，融合特征经过全连接层输出检测结果；

卷积神经网络模型CNN包括依次连接的卷积层一C1、池化层一S1、卷积层二C2、池化层二S2、卷积层三C3、池化层三S3、全连接层一D1、全连接层二D2，所述卷积层一C1由两个3x3卷积层串联，通道数为16，输出为32x32x16；卷积层二C2由两个3x3卷积层串联，通道数为32，输出为16x16x32；卷积层三C3由两个3x3卷积层串联，通道数为64，输出为8x8x64；全连接层一D1由1024个神经元构成，输出为1024维向量；全连接层二D2由128个神经元构成，输出为128维向量的空间特征；

长短时记忆网络模型LSTM包括依次连接的LSTM层一L1、第一全连接层FC1、LSTM层二L2、第二全连接层FC2，LSTM层一L1由100个单元构成，输出为100个256维向量，第一全连接层FC1由256个神经元组成，输出为256维向量，LSTM层二L2由8个单元构成，输出为8个128维向量，第二全连接层FC2由128个神经元组成，输出为128维向量的时序特征；

所述特征融合模块将128维向量的空间特征和128维向量的时序特征进行并联融合，组成256维向量融合特征；

全连接层根据256维向量融合特征输出10维向量的检测结果；

2.根据权利要求1所述基于CNN-LSTM融合的僵尸网络检测方法，其特征在于：步骤1中采用的网络数据集包括正常网络流量和僵尸网络流量，正常网络流量为使用wireshark抓包工具进行日常流量的采集，僵尸网络流量则从公开数据集中选取。

3.根据权利要求2所述基于CNN-LSTM融合的僵尸网络检测方法，其特征在于：步骤3中采用GELU()激活函数激活。

4.根据权利要求3所述基于CNN-LSTM融合的僵尸网络检测方法，其特征在于：步骤4中使用softmax()作为分类函数。

5.根据权利要求4所述基于CNN-LSTM融合的僵尸网络检测方法，其特征在于：步骤4中采用Adam优化器优化。