CN111340191A - 基于集成学习的僵尸网络恶意流量分类方法及系统 - Google Patents

基于集成学习的僵尸网络恶意流量分类方法及系统 Download PDF

Info

Publication number
CN111340191A
CN111340191A CN202010122760.5A CN202010122760A CN111340191A CN 111340191 A CN111340191 A CN 111340191A CN 202010122760 A CN202010122760 A CN 202010122760A CN 111340191 A CN111340191 A CN 111340191A
Authority
CN
China
Prior art keywords
malicious traffic
training
data
category
idx
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010122760.5A
Other languages
English (en)
Other versions
CN111340191B (zh
Inventor
陈羽中
张毓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010122760.5A priority Critical patent/CN111340191B/zh
Publication of CN111340191A publication Critical patent/CN111340191A/zh
Application granted granted Critical
Publication of CN111340191B publication Critical patent/CN111340191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于集成学习的僵尸网络恶意流量分类方法及系统,该方法包括:步骤A:将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,建立恶意流量训练集R;步骤B:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器;步骤C:将训练集R分为R 0R 1两部分,使用R 0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到R 0中,增强该部分训练集;步骤D:将增强后的训练集与R 1合并,用其训练次级分类器;步骤E:将待判定类别的恶意流量数据转换为IDX图像格式,输入到训练好的次级分类器,输出判定结果。该方法及系统有利于快速、准确地识别恶意流量类别。

Description

基于集成学习的僵尸网络恶意流量分类方法及系统
技术领域
本发明属于网络安全领域,具体涉及一种基于集成学习的僵尸网络恶意流量分类方法及系统。
背景技术
恶意流量特征提取一直是网络安全领域的难点问题。恶意软件可利用伪装、加密、欺骗、零日漏洞等技术实现行为的深度隐藏且它们可以频繁地变种,这些致使互联网中大量的僵尸网络恶意流量未被发现。由于僵尸主机产生的流量与正常主机产生的网络流量在特征上与有很大差异,通过对网络流量分类识别僵尸网络恶意流量也是检测僵尸网络的主要方向。因此对僵尸网络恶意流量分类投入研究有很重要的意义。
目前有很多种网络流量异常检测方法,如基于统计、聚类、分类、信息熵等等。其中,将网络流量归类至特定的类型是其中很重要的一个方向,从而区分正常和僵尸网络恶意流量,并识别僵尸网络恶意流量类型。网络流量异常检测作为一种有效的网络防护手段,能够检测未知攻击行为,并为网络态势感知提供重要支持,按照使用技术的不同,目前一般的网络流量分类方法可以分为四类:基于端口识别的方法,基于深层包检测的方法,基于统计的方法,以及基于行为的方法。迄今为止,国内外学者基于这四类方向已经提出了很多不同类型的检测方法。但是,目前大多数网络流量分类方法都是基于传统的机器学习方式,分类性能非常依赖于流量特征的设计。
发明内容
本发明的目的在于提供一种基于集成学习的僵尸网络恶意流量分类方法及系统,该方法及系统有利于快速、准确地识别恶意流量类别。
为实现上述目的,本发明采用的技术方案是:一种基于集成学习的僵尸网络恶意流量分类方法,包括以下步骤:
步骤A:将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,建立恶意流量训练集R;
步骤B:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器;
步骤C:将训练集R分为R0和R1两部分,使用R0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到R0中,以增强该部分训练集;
步骤D:将增强后的训练集与R1合并,用其训练次级分类器;
步骤E:将待判定类别的恶意流量数据转换为IDX图像格式,输入到训练好的次级分类器,输出判定结果。
进一步地,所述步骤A具体包括以下步骤:
步骤A1:从已标注类别的恶意流量数据中清除没有应用层数据的数据报文;
步骤A2:对步骤A1处理后的恶意流量数据进行划分,将属于同一TCP会话的恶意流量数据划分为一组,将恶意流量数据中的网络层、传输层、应用层报文信息保存到一个二进制文件中;
步骤A3:将步骤A2得到的二进制文件截断或补0x00到固定长度M个字节,以保留TCP会话中能够反映流量类别特征的网络层首部、传输层首部、应用层首部信息以及部分应用层数据,去除不能反映流量类别特征的其他应用层数据;以字节为单位,将每个字节转换为灰度值,输出大小为m×m的灰度图像文件,M=m2
步骤A4:将步骤A3得到的灰度图像文件转换为IDX图像文件;
步骤A5:遍历已标注类别的恶意流量数据,得到训练集R;
其中R={(xi,yi)|i=1,2,...,N},N为训练集R中的恶意流量样本数,xi为一个IDX图像文件,yi为对应的恶意流量类别标签;yi∈C={1,2,...,K},C表示恶意流量类别标签集合,yi=c,1≤c≤K,表示xi为第c种恶意流量类别。
进一步地,所述恶意流量类别为包括Cridex、Geodo、Htbot、Miuref、Neris、Nsisay、Shifu、Virut和Zeus的僵尸网络恶意流量。
进一步地,所述步骤B中,所述三个深度残差卷积神经网络分别为ResNet1、ResNet2和ResNet3;每个深度残差卷积神经网络包括五个残差单元和两个全连接层;其中,每个残差单元按照输入样本的数据流向依次包括1个卷积层、1个批量正则化层、1个线性激活层和2个卷积层。
进一步地,所述步骤C具体包括以下步骤:
步骤C1:将数据集R随机分为R0和R1两个训练子集,再将R0随机拆分成三个训练子集
Figure BDA0002393490070000031
Figure BDA0002393490070000032
步骤C2:分别使用
Figure BDA0002393490070000033
Figure BDA0002393490070000034
三个训练子集对三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3进行训练;
步骤C2:分别使用
Figure BDA0002393490070000035
Figure BDA0002393490070000036
三个训练子集对三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3进行训练;
步骤C3:利用步骤C2训练好的三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3分别对R0中的每个IDX图像样本进行恶意流量特征向量提取,然后对ResNet1、ResNet2和ResNet3获得的特征向量求平均,输出与各IDX图像样本对应的特征向量,并将各特征向量覆盖到对应的IDX图像样本的二进制文件末尾,保持文件字节数不变;遍历R0中的每个IDX图像样本后,得到特征增强后的训练子集
Figure BDA0002393490070000037
进一步地,所述步骤C2中,使用训练子集
Figure BDA0002393490070000038
采用均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,采用交叉熵作为损失函数计算损失值,利用反向传播迭代更新模型参数,以最小化损失函数作为训练目标,对相应的深度残差卷积神经网络ResNeti进行训练。
进一步地,所述步骤D具体包括以下步骤:
步骤D1:合并训练子集R1和步骤C3得到的训练子集
Figure BDA0002393490070000039
得到增强后的训练集R+
步骤D2:使用R+训练次分类器的softmax逻辑回归模型,用交叉熵作为损失函数计算损失值,通过均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,得到训练好的softmax逻辑回归模型。
进一步地,所述步骤E具体包括以下步骤:
步骤E1:按照步骤A1-A4,将待判定类别的僵尸网络恶意流量数据转换为IDX图像格式,表示为m×m的二维向量矩阵X,计算矩阵X的协方差矩阵cov;
Figure BDA00023934900700000310
步骤E2:计算协方差矩阵cov的特征值与特征向量,根据特征值大小对特征向量排序,保留前K个特征向量,对前K个特征向量进行平均,得到特征向量
Figure BDA0002393490070000041
其中K是步骤A5中所述恶意流量类别标签集合C中的类别标签数;
步骤E3:将
Figure BDA0002393490070000042
输入到DropOut层,然后输入训练好的softmax逻辑回归模型,计算该流量数据属于流量类别c的概率
Figure BDA0002393490070000043
选择
Figure BDA0002393490070000044
作为判定的僵尸网络恶意流量类别,输出判定结果。
本发明还提供了一种基于集成学习的僵尸网络恶意流量分类系统,包括:
数据收集模块,用于根据TCP连接作为标准划分网络流量,以产生流量的僵尸网络种类作为恶意流量种类,收集恶意流量数据并标注类别;
数据预处理模块,用于将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,构建恶意流量训练集R,并将其分为R0和R1两个训练子集,对其中的R0进行数据增强;
数据增强模块,用于构造包含三个深度残差卷积神经网络的初级分类器和构造softmax逻辑回归模型作为次级分类器,然后使用R0训练初级分类器,提取恶意流量特征向量,并用提取的特征向量增强训练子集R0
次级分类器训练模块,用于将增强后的训练子集R0和训练子集R1合并,并用合并后的训练集训练次级分类器;以及
恶意流量种类预测模块,用于利用训练好的次级分类器对输入的待判定类别的恶意流量数据进行预测,输出其所属的类别。
相较于现有技术,本发明具有以下有益效果:提供了一种基于集成学习的僵尸网络恶意流量分类方法及系统,首先将流量转换为图像的方式,利用图像识别领域表现优秀的模型和集成思想,使用残差网络作为初级分类器提取流量特征,利用神经网络提取流量的特征,不需要像传统机器学习一样设计能准确反映流量特征的特征集,也无需借助其解析信息和端口信息,从而解决现实中僵尸网络恶意流量大多被加密的问题;之后使用神经网络所提取的流量特征向量增强原训练集,用于训练网络参数较少、分类速度更快的基于Softmax逻辑回归的次级分类器,提升次级分类器的恶意流量分类能力,在识别精度和流量分类速度之间达到了较好的平衡。因此,本发明可进一步提升恶意流量识别性能,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例中步骤A的实现流程图。
图3是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于集成学习的僵尸网络恶意流量分类方法,如图1所示,包括以下步骤:
步骤A:将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,建立恶意流量训练集R。如图2所示,步骤A具体包括以下步骤:
步骤A1:从已标注类别的恶意流量数据中清除没有应用层数据的数据报文。
步骤A2:对步骤A1处理后的恶意流量数据进行划分,将属于同一TCP会话的恶意流量数据划分为一组,将恶意流量数据中的网络层、传输层、应用层报文信息保存到一个二进制文件中。
其中,同一TCP会话的数据报文具有相同的五元组,即源IP地址、目的IP地址、目的端口、源端口和传输层协议。其中,(源IP地址:源端口)和(目的IP地址:目的端口)可以互换,TCP会话包含双向TCP数据流。
步骤A3:将步骤A2得到的二进制文件截断或补0x00到固定长度M个字节,其目的是保留TCP会话中能够反映流量类别特征的网络层首部、传输层首部、应用层首部信息以及部分应用层数据,去除不能反映流量类别特征的其他大部分应用层数据。以字节为单位,将每个字节转换为灰度值,输出大小为m×m的灰度图像文件,其中M=m2。一般可取M为784字节,m=28,图像文件大小为28×28。
步骤A4:将步骤A3得到的灰度图像文件转换为IDX图像文件。
其中,IDX文件是索引文件格式,包含图片的像素及统计信息,是深度学习模型常用的输入图像数据格式。
步骤A5:遍历已标注类别的恶意流量数据,得到训练集R。
其中,R={(xi,yi)|i=1,2,...,N},N为训练集R中的恶意流量样本数,xi为一个IDX图像文件,yi为对应的恶意流量类别标签;yi∈C={1,2,...,K},C表示恶意流量类别标签集合,恶意流量类别包括Cridex、Geodo、Htbot、Miuref、Neris、Nsisay、Shifu、Virut和Zeus等僵尸网络恶意流量,yi=c,1≤c≤K,表示xi为第c种恶意流量类别。
步骤B:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器。
其中,所述三个深度残差卷积神经网络分别为ResNet1、ResNet2和ResNet3;每个深度残差卷积神经网络包括五个残差单元和两个全连接层。
其中,每个残差单元按照输入样本的数据流向依次包括1个卷积层、1个批量正则化层、1个线性激活层和2个卷积层。
第一残差单元的组成按照输入样本的数据流向依次为卷积层1,参数包括通道数为128,卷积核尺寸为3和3,步长为2;批量正则化层1;线性激活层1;卷积层2,参数包括通道数为256,卷积核尺寸为1和1,步长为1;批量正则化层2;线性激活层2。
第二残差单元的组成按照输入样本的数据流向依次为卷积层1,参数包括通道数为256,卷积核尺寸为3和3,步长为2;批量正则化层1;线性激活层1;卷积层2,参数包括通道数为512,卷积核尺寸为1和1,步长为1;批量正则化层2;线性激活层2。
第三残差单元的组成按照输入样本的数据流向依次为卷积层1,参数包括通道数为512,卷积核尺寸为3和3,步长为2;批量正则化层1;线性激活层1;卷积层2,参数包括通道数为1024,卷积核尺寸为1和1,步长为1;批量正则化层2;线性激活层2。
第四残差单元的组成按照输入样本的数据流向依次为卷积层1,参数包括通道数为1024,卷积核尺寸为3和3,步长为2;批量正则化层1;线性激活层1;卷积层2,参数包括通道数为2048,卷积核尺寸为1和1,步长为1;批量正则化层2;线性激活层2。
第五残差单元的组成按照输入样本的数据流向依次为卷积层1,参数包括通道数为2048,卷积核尺寸为3和3,步长为2;批量正则化层1;线性激活层1;卷积层2,参数包括通道数为4096,卷积核尺寸为1和1,步长为1;批量正则化层2;线性激活层2。
步骤C:将训练集R分为R0和R1两部分,使用R0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到R0中,以增强该部分训练集。具体包括以下步骤:
步骤C1:将数据集R随机分为R0和R1两个训练子集,再将R0随机拆分成三个,得到R0的三个训练子集
Figure BDA0002393490070000061
Figure BDA0002393490070000062
步骤C2:分别使用
Figure BDA0002393490070000063
Figure BDA0002393490070000064
三个训练子集对三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3进行训练。
具体地,使用训练子集
Figure BDA0002393490070000071
采用均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,采用交叉熵作为损失函数计算损失值,利用反向传播迭代更新模型参数,以最小化损失函数作为训练目标,对相应的深度残差卷积神经网络ResNeti进行训练。
步骤C3:利用步骤C2训练好的三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3分别对R0中的每个IDX图像样本进行恶意流量特征向量提取,然后对ResNet1、ResNet2和ResNet3获得的特征向量求平均,输出与各IDX图像样本对应的特征向量,并将各特征向量覆盖到对应的IDX图像样本的二进制文件末尾,保持文件字节数不变;遍历R0中的每个IDX图像样本后,得到特征增强后的训练子集
Figure BDA0002393490070000072
步骤D:将增强后的训练集与R1合并,用其训练次级分类器。具体包括以下步骤:
步骤D1:合并训练子集R1和步骤C3得到的训练子集
Figure BDA0002393490070000073
得到增强后的训练集R+
步骤D2:使用R+训练次分类器的softmax逻辑回归模型,用交叉熵作为损失函数计算损失值,通过均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,得到训练好的softmax逻辑回归模型。
步骤E:将待判定类别的恶意流量数据转换为IDX图像格式,输入到训练好的次级分类器,输出判定结果。具体包括以下步骤:
步骤E1:按照步骤A1-A4,将待判定类别的僵尸网络恶意流量数据转换为IDX图像格式,表示为m×m的二维向量矩阵X,计算矩阵X的协方差矩阵cov;
Figure BDA0002393490070000074
步骤E2:计算协方差矩阵cov的特征值与特征向量,根据特征值大小对特征向量排序,保留前K个特征向量,对前K个特征向量进行平均,得到特征向量
Figure BDA0002393490070000075
其中K是步骤A5中所述恶意流量类别标签集合C中的类别标签数;
步骤E3:将
Figure BDA0002393490070000076
输入到DropOut层(DropOut层是用于解决过拟合的一种机制,即对于神经网络单元,按照一定的概率将其暂时从网络中丢弃),然后输入训练好的softmax逻辑回归模型,计算该流量数据属于流量类别c的概率
Figure BDA0002393490070000081
选择
Figure BDA0002393490070000082
作为判定的僵尸网络恶意流量类别,输出判定结果。
本发明还提供了采用上述方法的基于集成学习的僵尸网络恶意流量分类系统,如图3所示,包括数据收集模块、数据预处理模块、数据增强模块、次级分类器训练模块和恶意流量种类预测模块。
所述数据收集模块用于根据TCP连接作为标准划分网络流量,以产生流量的僵尸网络种类作为恶意流量种类,收集恶意流量数据并标注类别。
所述数据预处理模块用于将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,构建恶意流量训练集R,并将其分为R0和R1两个训练子集,对其中的R0进行数据增强。
所述数据增强模块用于构造包含三个深度残差卷积神经网络的初级分类器和构造softmax逻辑回归模型作为次级分类器,然后使用R0训练初级分类器,提取恶意流量特征向量,并用提取的特征向量增强训练子集R0
所述次级分类器训练模块用于将增强后的训练子集R0和训练子集R1合并,并用合并后的训练集训练次级分类器。
所述恶意流量种类预测模块用于利用训练好的次级分类器对输入的待判定类别的恶意流量数据进行预测,输出其所属的类别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (9)

1.一种基于集成学习的僵尸网络恶意流量分类方法,其特征在于,包括以下步骤:
步骤A:将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,建立恶意流量训练集R;
步骤B:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器;
步骤C:将训练集R分为R0和R1两部分,使用R0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到R0中,以增强该部分训练集;
步骤D:将增强后的训练集与R1合并,用其训练次级分类器;
步骤E:将待判定类别的恶意流量数据转换为IDX图像格式,输入到训练好的次级分类器,输出判定结果。
2.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤A具体包括以下步骤:
步骤A1:从已标注类别的恶意流量数据中清除没有应用层数据的数据报文;
步骤A2:对步骤A1处理后的恶意流量数据进行划分,将属于同一TCP会话的恶意流量数据划分为一组,将恶意流量数据中的网络层、传输层、应用层报文信息保存到一个二进制文件中;
步骤A3:将步骤A2得到的二进制文件截断或补0x00到固定长度M个字节,以保留TCP会话中能够反映流量类别特征的网络层首部、传输层首部、应用层首部信息以及部分应用层数据,去除不能反映流量类别特征的其他应用层数据;以字节为单位,将每个字节转换为灰度值,输出大小为m×m的灰度图像文件,M=m2
步骤A4:将步骤A3得到的灰度图像文件转换为IDX图像文件;
步骤A5:遍历已标注类别的恶意流量数据,得到训练集R;
其中R={(xi,yi)|i=1,2,...,N},N为训练集R中的恶意流量样本数,xi为一个IDX图像文件,yi为对应的恶意流量类别标签;yi∈C={1,2,...,K},C表示恶意流量类别标签集合,yi=c,1≤c≤K,表示xi为第c种恶意流量类别。
3.根据权利要求2所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述恶意流量类别为包括Cridex、Geodo、Htbot、Miuref、Neris、Nsisay、Shifu、Virut和Zeus的僵尸网络恶意流量。
4.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤B中,所述三个深度残差卷积神经网络分别为ResNet1、ResNet2和ResNet3;每个深度残差卷积神经网络包括五个残差单元和两个全连接层;其中,每个残差单元按照输入样本的数据流向依次包括1个卷积层、1个批量正则化层、1个线性激活层和2个卷积层。
5.根据权利要求4所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:将数据集R随机分为R0和R1两个训练子集,再将R0随机拆分成三个训练子集
Figure FDA0002393490060000021
Figure FDA0002393490060000022
步骤C2:分别使用
Figure FDA0002393490060000023
Figure FDA0002393490060000024
三个训练子集对三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3进行训练;
步骤C3:利用步骤C2训练好的三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3分别对R0中的每个IDX图像样本进行恶意流量特征向量提取,然后对ResNet1、ResNet2和ResNet3获得的特征向量求平均,输出与各IDX图像样本对应的特征向量,并将各特征向量覆盖到对应的IDX图像样本的二进制文件末尾,保持文件字节数不变;遍历R0中的每个IDX图像样本后,得到特征增强后的训练子集
Figure FDA0002393490060000025
6.根据权利要求5所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤C2中,使用训练子集
Figure FDA0002393490060000026
采用均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,采用交叉熵作为损失函数计算损失值,利用反向传播迭代更新模型参数,以最小化损失函数作为训练目标,对相应的深度残差卷积神经网络ResNeti进行训练。
7.根据权利要求5所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤D具体包括以下步骤:
步骤D1:合并训练子集R1和步骤C3得到的训练子集
Figure FDA0002393490060000027
得到增强后的训练集R+
步骤D2:使用R+训练次分类器的softmax逻辑回归模型,用交叉熵作为损失函数计算损失值,通过均方根随机梯度下降优化方法RMsprop计算所有的梯度的平方的平均值,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,得到训练好的softmax逻辑回归模型。
8.根据权利要求2所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤E具体包括以下步骤:
步骤E1:按照步骤A1-A4,将待判定类别的僵尸网络恶意流量数据转换为IDX图像格式,表示为m×m的二维向量矩阵X,计算矩阵X的协方差矩阵cov;
Figure FDA0002393490060000031
步骤E2:计算协方差矩阵cov的特征值与特征向量,根据特征值大小对特征向量排序,保留前K个特征向量,对前K个特征向量进行平均,得到特征向量
Figure FDA0002393490060000032
其中K是步骤A5中所述恶意流量类别标签集合C中的类别标签数;
步骤E3:将
Figure FDA0002393490060000033
输入到DropOut层,然后输入训练好的softmax逻辑回归模型,计算该流量数据属于流量类别c的概率
Figure FDA0002393490060000034
选择
Figure FDA0002393490060000035
作为判定的僵尸网络恶意流量类别,输出判定结果。
9.一种采用如权利要求1-8任一项所述方法的基于集成学习的僵尸网络恶意流量分类系统,其特征在于,包括:
数据收集模块,用于根据TCP连接作为标准划分网络流量,以产生流量的僵尸网络种类作为恶意流量种类,收集恶意流量数据并标注类别;
数据预处理模块,用于将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,构建恶意流量训练集R,并将其分为R0和R1两个训练子集,对其中的R0进行数据增强;
数据增强模块,用于构造包含三个深度残差卷积神经网络的初级分类器和构造softmax逻辑回归模型作为次级分类器,然后使用R0训练初级分类器,提取恶意流量特征向量,并用提取的特征向量增强训练子集R0
次级分类器训练模块,用于将增强后的训练子集R0和训练子集R1合并,并用合并后的训练集训练次级分类器;以及
恶意流量种类预测模块,用于利用训练好的次级分类器对输入的待判定类别的恶意流量数据进行预测,输出其所属的类别。
CN202010122760.5A 2020-02-27 2020-02-27 基于集成学习的僵尸网络恶意流量分类方法及系统 Active CN111340191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010122760.5A CN111340191B (zh) 2020-02-27 2020-02-27 基于集成学习的僵尸网络恶意流量分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122760.5A CN111340191B (zh) 2020-02-27 2020-02-27 基于集成学习的僵尸网络恶意流量分类方法及系统

Publications (2)

Publication Number Publication Date
CN111340191A true CN111340191A (zh) 2020-06-26
CN111340191B CN111340191B (zh) 2023-02-21

Family

ID=71183715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122760.5A Active CN111340191B (zh) 2020-02-27 2020-02-27 基于集成学习的僵尸网络恶意流量分类方法及系统

Country Status (1)

Country Link
CN (1) CN111340191B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367303A (zh) * 2020-10-21 2021-02-12 中国电子科技集团公司第二十八研究所 分布式自学习异常流量协同检测方法及系统
CN112465055A (zh) * 2020-12-09 2021-03-09 西安邮电大学 一种基于卷积神经网络的网络故障诊断方法
CN112560020A (zh) * 2021-02-19 2021-03-26 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质
CN112688961A (zh) * 2021-01-06 2021-04-20 北京科技大学 基于特征自适应层次聚类的网络流量图像安全分类方法
CN112887291A (zh) * 2021-01-20 2021-06-01 中国科学院计算技术研究所 基于深度学习的i2p流量识别方法及系统
CN112884121A (zh) * 2021-02-05 2021-06-01 武汉纺织大学 基于生成对抗深度卷积网络的流量识别方法
CN113177520A (zh) * 2021-05-26 2021-07-27 电子科技大学 一种基于集成学习的智能辐射源识别方法
CN113194092A (zh) * 2021-04-28 2021-07-30 东南大学 一种精准的恶意流量变种检测方法
CN113612767A (zh) * 2021-07-31 2021-11-05 中山大学 基于多任务学习增强的加密恶意流量检测方法及系统
CN113705604A (zh) * 2021-07-15 2021-11-26 中国科学院信息工程研究所 僵尸网络流量分类检测方法、装置、电子设备及存储介质
CN113949589A (zh) * 2021-12-20 2022-01-18 四川师范大学 一种网络流量的马尔科夫图像表征方法
CN114205106A (zh) * 2020-09-01 2022-03-18 安信资讯安全私人有限公司 用于检测可疑网络行为的深度嵌入式自学系统和方法
CN114362988A (zh) * 2021-09-29 2022-04-15 中国科学院计算机网络信息中心 网络流量的识别方法及装置
CN116319036A (zh) * 2023-03-27 2023-06-23 哈尔滨工业大学(威海) 基于卷积循环神经网络的异常网络请求识别模型生成方法
CN116319036B (zh) * 2023-03-27 2024-05-24 哈尔滨工业大学(威海) 基于卷积循环神经网络的异常网络请求识别模型生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134404A1 (en) * 2015-11-06 2017-05-11 Cisco Technology, Inc. Hierarchical feature extraction for malware classification in network traffic
US20180150635A1 (en) * 2016-11-28 2018-05-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic
CN108881192A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于深度学习的加密型僵尸网络检测系统及方法
CN110765458A (zh) * 2019-09-19 2020-02-07 浙江工业大学 一种基于深度学习的恶意软件检测方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134404A1 (en) * 2015-11-06 2017-05-11 Cisco Technology, Inc. Hierarchical feature extraction for malware classification in network traffic
US20180150635A1 (en) * 2016-11-28 2018-05-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic
CN108881192A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于深度学习的加密型僵尸网络检测系统及方法
CN110765458A (zh) * 2019-09-19 2020-02-07 浙江工业大学 一种基于深度学习的恶意软件检测方法及其装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TANGDA YU 等: "An Encrypted Malicious Traffic Detection System Based on Neural Network", 《2019 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY 》 *
王伟: "基于深度学习的网络流量分类及异常检测方法研究", 《中国博士学位论文全文数据库信息科技辑》 *
蒋鸿玲等: "基于神经网络的僵尸网络检测", 《智能系统学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205106B (zh) * 2020-09-01 2024-04-23 安信资讯安全私人有限公司 用于检测可疑网络行为的深度嵌入式自学系统和方法
CN114205106A (zh) * 2020-09-01 2022-03-18 安信资讯安全私人有限公司 用于检测可疑网络行为的深度嵌入式自学系统和方法
CN112367303A (zh) * 2020-10-21 2021-02-12 中国电子科技集团公司第二十八研究所 分布式自学习异常流量协同检测方法及系统
CN112465055A (zh) * 2020-12-09 2021-03-09 西安邮电大学 一种基于卷积神经网络的网络故障诊断方法
CN112688961A (zh) * 2021-01-06 2021-04-20 北京科技大学 基于特征自适应层次聚类的网络流量图像安全分类方法
CN112887291A (zh) * 2021-01-20 2021-06-01 中国科学院计算技术研究所 基于深度学习的i2p流量识别方法及系统
CN112884121A (zh) * 2021-02-05 2021-06-01 武汉纺织大学 基于生成对抗深度卷积网络的流量识别方法
CN112560020A (zh) * 2021-02-19 2021-03-26 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质
CN112560020B (zh) * 2021-02-19 2022-08-02 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质
CN113194092A (zh) * 2021-04-28 2021-07-30 东南大学 一种精准的恶意流量变种检测方法
CN113177520A (zh) * 2021-05-26 2021-07-27 电子科技大学 一种基于集成学习的智能辐射源识别方法
CN113177520B (zh) * 2021-05-26 2022-06-28 电子科技大学 一种基于集成学习的智能辐射源识别方法
CN113705604A (zh) * 2021-07-15 2021-11-26 中国科学院信息工程研究所 僵尸网络流量分类检测方法、装置、电子设备及存储介质
CN113612767B (zh) * 2021-07-31 2022-09-20 中山大学 基于多任务学习增强的加密恶意流量检测方法及系统
CN113612767A (zh) * 2021-07-31 2021-11-05 中山大学 基于多任务学习增强的加密恶意流量检测方法及系统
CN114362988A (zh) * 2021-09-29 2022-04-15 中国科学院计算机网络信息中心 网络流量的识别方法及装置
CN114362988B (zh) * 2021-09-29 2023-06-20 中国科学院计算机网络信息中心 网络流量的识别方法及装置
CN113949589A (zh) * 2021-12-20 2022-01-18 四川师范大学 一种网络流量的马尔科夫图像表征方法
CN116319036A (zh) * 2023-03-27 2023-06-23 哈尔滨工业大学(威海) 基于卷积循环神经网络的异常网络请求识别模型生成方法
CN116319036B (zh) * 2023-03-27 2024-05-24 哈尔滨工业大学(威海) 基于卷积循环神经网络的异常网络请求识别模型生成方法

Also Published As

Publication number Publication date
CN111340191B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN111340191B (zh) 基于集成学习的僵尸网络恶意流量分类方法及系统
CN110796196B (zh) 一种基于深度判别特征的网络流量分类系统及方法
CN110730140B (zh) 基于时空特性相结合的深度学习流量分类方法
CN112953924B (zh) 网络异常流量检测方法、系统、存储介质、终端及应用
CN110808971B (zh) 一种基于深度嵌入的未知恶意流量主动检测系统及方法
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及系统
US11122058B2 (en) System and method for the automated detection and prediction of online threats
CN112163594A (zh) 一种网络加密流量识别方法及装置
CN111131069B (zh) 一种基于深度学习策略的异常加密流量检测与分类方法
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
CN112054967A (zh) 网络流量分类方法、装置、电子设备及存储介质
CN113364787B (zh) 一种基于并联神经网络的僵尸网络流量检测方法
CN111786951B (zh) 流量数据特征提取方法、恶意流量识别方法及网络系统
CN111224998B (zh) 一种基于极限学习机的僵尸网络识别方法
CN111404942A (zh) 一种基于深度学习的垂直类恶意爬虫流量识别方法
CN112910853A (zh) 基于混合特征的加密流量分类方法
Do et al. An Efficient Feature Extraction Method for Attack Classification in IoT Networks
CN114884894B (zh) 一种基于迁移学习的半监督网络流量分类方法
CN105429817A (zh) 基于dpi和dfi的非法业务识别装置与方法
CN114362988B (zh) 网络流量的识别方法及装置
CN110417786B (zh) 一种基于深度特征的p2p流量细粒度识别方法
KR102525593B1 (ko) 네트워크 공격 탐지 시스템 및 네트워크 공격 탐지 방법
CN113132397B (zh) 一种基于深度学习的网络加密流量识别方法、装置及设备
CN116684357A (zh) 一种传输层安全协议加密流量的识别方法及系统
CN113256507A (zh) 一种针对二进制流量数据生成图像的注意力增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant