CN112039903A - 基于深度自编码神经网络模型的网络安全态势评估方法 - Google Patents

基于深度自编码神经网络模型的网络安全态势评估方法 Download PDF

Info

Publication number
CN112039903A
CN112039903A CN202010915110.6A CN202010915110A CN112039903A CN 112039903 A CN112039903 A CN 112039903A CN 202010915110 A CN202010915110 A CN 202010915110A CN 112039903 A CN112039903 A CN 112039903A
Authority
CN
China
Prior art keywords
data
data set
type
traffic
train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010915110.6A
Other languages
English (en)
Other versions
CN112039903B (zh
Inventor
杨宏宇
曾仁韵
谢丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN202010915110.6A priority Critical patent/CN112039903B/zh
Publication of CN112039903A publication Critical patent/CN112039903A/zh
Application granted granted Critical
Publication of CN112039903B publication Critical patent/CN112039903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于深度自编码神经网络模型的网络安全态势评估方法。其包括构建深度自编码神经网络模型;获取网络流量数据;数据预处理;数据重采样;深度自编码神经网络模型训练;深度自编码神经网络模型测试;网络安全态势量化评估等步骤。本发明提出的深度自编码神经网络模型可以检测网络中的异常流量,此外,所提出的欠、过采样加权算法,可以提高数据量较少的流量检测率。基于本发明方法计算出的网络安全态势值,可以更直观、准确地表示出当前网络所处于的状态,并可以提供决策意见,使得网络管理者可以更全面地了解网络态势。

Description

基于深度自编码神经网络模型的网络安全态势评估方法
技术领域
本发明属于网络信息安全技术领域,特别是涉及一种基于深度自编码神经网络模型的网络安全态势评估方法。
背景技术
各种网络技术飞速发展的同时,所带来的安全问题也日益突出。网络安全问题对人们的隐私和生活带来了严重的危害,特别是在大数据环境下,人们已经无法离开网络,因此面临的网络安全问题十分严峻。尽管已经采取了各种网络安全防护措施,但是没有综合考虑各种因素对于网络环境的影响,因此无法满足全面获取网络状态的要求。网络安全态势评估是一种常用的、有效的解决方案,它可以实时了解网络安全状况,并从宏观的角度去评估网络安全态势,为网络安全管理人员提供决策支持,从而降低网络安全问题带来的负面影响。
随着网络的普及和大数据的广泛应用,网络受到了大量的网络威胁攻击,因此,传统的网络安全态势评估方法已经无法满足实时、直观的评估需求。深度学习在各个领域的广泛应用也为网络安全态势评估提供了新的解决思路,由于其强大的学习能力,即使面临海量的网络流量,也能从中检测出各类网络攻击,进而可以进行实时的、有效的网络安全态势评估。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于深度自编码神经网络模型的网络安全态势评估方法。
为了达到上述目的,本发明提供的基于深度自编码神经网络模型的网络安全态势评估方法包括按顺序进行的下列步骤:
1)构建深度自编码神经网络模型的S1阶段:构建由深度自动编码器和深度神经网络构成的深度自编码神经网络模型;
2)获取网络流量数据的S2阶段:选择网络安全领域相对权威的NSL-KDD入侵数据集作为评估的数据集;NSL-KDD入侵数据集包括训练数据集KDDTrain+和测试数据集KDDTest+,训练数据集KDDTrain+和测试数据集KDDTest+中均包括正常流量数据和四种攻击流量数据共五种类型的流量数据;
3)数据预处理的S3阶段:对上述训练数据集KDDTrain+和测试数据集KDDTest+中的部分流量数据进行特征数值化和数值归一化处理,其中,特征数值化采用独热编码技术,将流量数据中的非数值数据转化为只用0和1表示的数据,分别获得特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest;对特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest中最小值与最大值之间存在显著差异的流量数据进行数值归一化处理,将其统一到同一区间,获得归一化训练数据集X(train)和归一化测试数据集X(test)
4)数据重采样的S4阶段:为了消除归一化训练数据集X(train)中数据分布不均匀带来的负面影响,采用欠、过采样加权算法对上述归一化训练数据集X(train)进行数据重采样处理,使得归一化训练数据集X(train)中每种类型流量的数据量相接近,获得重采样训练数据集X(train’)
5)深度自编码神经网络模型训练的S5阶段:使用不同的参数和不同的优化器,将上述重采样训练数据集X(train’)分多次输入到步骤1)构建的深度自编码神经网络模型中,对该模型进行训练;其中DAE使用的激活函数是‘sigmoid’,优化器选择‘RMSprop’;DNN使用的激活函数是‘relu’,当进行二分类时,使用的激活函数是‘sigmoid’;进行多分类时,使用的激活函数是‘softmax’;优化器选择‘Adam’,损失函数使用交叉熵函数;
6)深度自编码神经网络模型测试的S6阶段:将上述步骤3)获得的归一化测试数据集X(test)输入到步骤5)中已经训练好的深度自编码神经网络模型中,获得流量数据的二分类结果和多分类结果;
7)网络安全态势量化评估的S7阶段:将步骤6)获得的流量数据的二分类结果记为攻击概率p,并基于通用漏洞评分系统制定的类别影响分数评定量表计算出每种类型流量的影响分数impacti,ti表示每种类型流量出现的次数;然后根据攻击概率p、每种类型流量的影响分数impacti和每种类型流量出现的次数ti计算出网络安全态势值T,最后根据网络安全态势值T确定出网络安全态势严重程度的等级。
在步骤2)中,所述的NSL-KDD入侵数据集的基本信息见表1:
表1、NSL-KDD入侵数据集的基本信息
Figure BDA0002664746360000031
在步骤3)中,所述的数值归一化处理的计算公式如下:
Figure BDA0002664746360000032
其中,xmin和xmax分别表示特征数值化处理后流量数据的最大值和最小值,x表示特征数值化处理后流量数据,x*表示归一化流量数据。
在步骤4)中,所述的采用欠、过采样加权算法对上述归一化训练数据集X(train)进行数据重采样处理,获得重采样训练数据集X(train’)的方法如下:
4.1)计算归一化训练数据集X(train)中每种类型流量的权重wi:将每种类型流量的实际数据量与理想数据量之间的差值作为权重;设归一化训练数据集中包含n种类型的流量,每种类型的流量都有xi个数据,则该类型流量的权重wi用下式表示:
Figure BDA0002664746360000041
4.2)结合上述流量的权重wi进行数据欠采样处理:对于数据量大于平均值的流量数据,需要进行数据欠采样处理,使处理后的数据量接近平均值;使用Python中sklearn库的“train_test_split”方法将归一化训练数据集X(train)中类型i的原始流量数据集Si_data分为训练流量数据集Si_train和剩余流量数据集Si_left;将其中的训练流量数据集Si_train用于构建重采样训练数据集X(train’),训练流量数据集Si_train=xi×wi;而将剩余流量数据集Si_left用于接下来的过采样处理;
4.3)进行数据过采样处理:对于数据量小于平均值的流量数据,需要进行数据过采样处理,采用过采样算法SMOTE对这样的流量数据进行数据过采样处理,其核心是在现有少量数据的基础上生成新的同类型数据,方法如下:
4.3.1)合并其他类型数据:设需要进行过采样处理的流量数据的类型为type_o,其原始流量数据量为size_o,数据集为data_o;如果其他类型i(i∈{n-type_o})的流量数据量大于平均值,使用步骤4.2)中获得的类型i的剩余流量数据集Si_left;否则,使用类型i的原始流量数据集Si_data;然后对类型i的剩余流量数据集Si_left或类型i的原始流量数据集Si_data中除了类型type_o外的其他类型的流量数据进行合并,得到合并数据集并用other_types_data表示;
4.3.2)统一类型标签:因为过采样算法SMOTE是根据类型的标签进行操作,而且是针对二分类的数据,所以需要将合并数据集other_types_data的标签更改为同一类型,记为othe_type,以便于操作;
4.3.3)确定数据量大小:为了平衡数据集,需要对数据量少的流量数据进行扩展,设扩展后的流量数据量大小为size_o',其中size_o'=size_o*wo,wo为类型type_o的流量数据的权重;此时,将步骤4.3.1)获得的合并数据集other_types_data的流量数据量设为size_o';
4.3.4)数据过采样:将合并数据集other_types_data和需要进行过采样处理的类型type_o的数据集data_o合并成一个完整数据集data_all,其只包含两种类型的流量数据:类型type_o和类型othe_type;然后使用Python中imblearn库的SMOTE方法,利用完整数据集data_all和其中每种类型的标签生成所需的流量数据O_train;
4.3.5)重复步骤4.3.1)—4.3.4),直到数据量少于平均值的那种类型的流量数据全部完成过采样处理;
4.4)在对上述归一化训练数据集X(train)进行重采样处理之后,将欠采样、过采样之后的数据合并成重采样数据集X(train’)
在步骤7)中,所述的每种类型流量的影响分数impacti的计算公式为:
impacti=C+I+A (3)
其中,C为机密性,I为完整性,A为可用性,取值范围见表2所示的类别影响分数评定量表;
表2、类别影响分数评定量表
Figure BDA0002664746360000051
Figure BDA0002664746360000061
网络安全态势值T的计算公式为:
Figure BDA0002664746360000062
根据网络安全态势值T确定出网络安全态势严重程度的等级的方法是将网络安全态势值T划分成0.00-20.00、20.01-40.00、40.01-60.00、60.01-80.00和80.01-100.00共5个区间,相应的网络安全态势严重程度划分为安全、低风险、中等风险、高风险和超风险共5个等级。
本发明提供的基于深度自编码神经网络模型的网络安全态势评估方法具有如下有益效果:本发明提出的深度自编码神经网络模型可以检测网络中的异常流量,此外,所提出的欠、过采样加权算法,可以提高数据量较少的流量检测率。基于本发明方法计算出的网络安全态势值,可以更直观、准确地表示出当前网络所处于的状态,并可以提供决策意见,使得网络管理者可以更全面地了解网络态势。
附图说明
图1为本发明提供的基于深度自编码神经网络模型的网络安全态势评估方法流程图。
图2为本发明中深度自编码神经网络模型示意图。
图3为本发明中深度自编码神经网络模型模型与其他模型的性能对比示意图(二分类)。
图4为本发明中深度自编码神经网络模型模型与其他模型的性能对比示意图(多分类)。
图5为应用本发明方法计算出的网络安全态势值。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
如图1所示,本发明提供的基于深度自编码神经网络模型的网络安全态势评估方法包括按顺序进行的下列步骤:
1)构建深度自编码神经网络模型的S1阶段:构建如图2所示的由深度自动编码器(DAE)和深度神经网络(DNN)构成的深度自编码神经网络(AEDNN)模型;该模型能够对网络流量进行二分类和多分类,即可以简单地将网络流量分为正常流量和异常流量,还能够将网络流量具体分为各种类型的流量;
2)获取网络流量数据的S2阶段:选择网络安全领域相对权威的NSL-KDD入侵数据集作为评估的数据集;NSL-KDD入侵数据集是对KDD99数据集的改进,包括训练数据集KDDTrain+和测试数据集KDDTest+,其基本信息如表1所示,训练数据集KDDTrain+和测试数据集KDDTest+中均包括正常流量数据和四种攻击流量数据共五种类型的流量数据;由于训练数据集不包含冗余或重复的记录,这有助于分类器产生无偏差的结果;
表1、NSL-KDD入侵数据集的基本信息
Figure BDA0002664746360000071
3)数据预处理的S3阶段:对上述训练数据集KDDTrain+和测试数据集KDDTest+中的部分流量数据进行特征数值化和数值归一化处理,其中,特征数值化采用独热编码技术,将流量数据中的非数值数据转化为只用0和1表示的数据,分别获得特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest;在特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest中,某些流量数据的最小值与最大值之间存在显著差异,为了减少不同数值水平对深度自编码神经网络模型的负面影响,对特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest中的这些流量数据进行数值归一化处理,将其统一到同一区间,获得归一化训练数据集X(train)和归一化测试数据集X(test)
所述数值归一化处理的计算公式如下:
Figure BDA0002664746360000081
其中,xmin和xmax分别表示特征数值化处理后流量数据的最大值和最小值,x表示特征数值化处理后流量数据,x*表示归一化流量数据。
4)数据重采样的S4阶段:从表1可以看出,不同类型流量的数据量存在巨大差异,例如,在训练数据集KDDTrain+中,正常流量的数据量远远大于R2L和U2R攻击流量的数据量,这种巨大的差异会导致分类模型学习到大量的正常流量知识而学不到其它两种攻击流量的特征,因此会导致分类结果极度不平衡。例如正常流量的检测准确率会达到百分之九十几,而R2L和U2R攻击流量的检测准确率只有百分之几。因此,为了消除归一化训练数据集X(train)中数据分布不均匀带来的负面影响,采用欠、过采样加权算法(UOSW)对上述归一化训练数据集X(train)进行数据重采样处理,使得归一化训练数据集X(train)中每种类型流量的数据量相接近,获得重采样训练数据集X(train’)
所述的采用欠、过采样加权算法对上述归一化训练数据集X(train)进行数据重采样处理,获得重采样训练数据集X(train’)的方法如下:
4.1)计算归一化训练数据集X(train)中每种类型流量的权重wi:在网络训练中,当训练集中每种类型的数据量非常接近平均值时,网络的识别准确率会很高。因此,本发明将每种类型流量的实际数据量与理想数据量之间的差值作为权重,以达到每次攻击的均衡。设归一化训练数据集中包含n种类型的流量,每种类型的流量都有xi个数据,则该类型流量的权重wi可用下式表示:
Figure BDA0002664746360000091
4.2)结合上述流量的权重wi进行数据欠采样处理:对于数据量大于平均值的流量数据,需要进行数据欠采样处理,使处理后的数据量接近平均值。本发明使用Python中sklearn库的“train_test_split”方法将归一化训练数据集X(train)中类型i的原始流量数据集Si_data分为训练流量数据集Si_train和剩余流量数据集Si_left;将其中的训练流量数据集Si_train用于构建重采样训练数据集X(train’),训练流量数据集Si_train=xi×wi;而将剩余流量数据集Si_left用于接下来的过采样处理;
4.3)进行数据过采样处理:对于数据量小于平均值的流量数据,需要进行数据过采样处理,本发明采用过采样算法SMOTE对这样的流量数据进行数据过采样处理,其核心是在现有少量数据的基础上生成新的同类型数据。方法如下:
4.3.1)合并其他类型数据:设需要进行过采样处理的流量数据的类型为type_o,其原始流量数据量为size_o,数据集为data_o;如果其他类型i(i∈{n-type_o})的流量数据量大于平均值,使用步骤4.2)中获得的类型i的剩余流量数据集Si_left;否则,使用类型i的原始流量数据集Si_data;然后对类型i的剩余流量数据集Si_left或类型i的原始流量数据集Si_data中除了类型type_o外的其他类型的流量数据进行合并,得到合并数据集并用other_types_data表示;
4.3.2)统一类型标签:因为过采样算法SMOTE是根据类型的标签进行操作,而且是针对二分类的数据,所以需要将合并数据集other_types_data的标签更改为同一类型,记为othe_type,以便于操作;
4.3.3)确定数据量大小:为了平衡数据集,需要对数据量少的流量数据进行扩展,设扩展后的流量数据量大小为size_o',其中size_o'=size_o*wo,wo为类型type_o的流量数据的权重;此时,将步骤4.3.1)获得的合并数据集other_types_data的流量数据量设为size_o';
4.3.4)数据过采样:将合并数据集other_types_data和需要进行过采样处理的类型type_o的数据集data_o合并成一个完整数据集data_all,其只包含两种类型的流量数据:类型type_o和类型othe_type;然后使用Python中imblearn库的SMOTE方法,利用完整数据集data_all和其中每种类型的标签生成所需的流量数据O_train;
4.3.5)重复步骤4.3.1)—4.3.4),直到数据量少于平均值的那种类型的流量数据全部完成过采样处理。
4.4)在对上述归一化训练数据集X(train)进行重采样处理之后,将欠采样、过采样之后的数据合并成重采样数据集X(train’)
5)深度自编码神经网络模型训练的S5阶段:使用不同的参数和不同的优化器,将上述重采样训练数据集X(train’)分多次输入到步骤1)构建的深度自编码神经网络模型中,对该模型进行训练;其中DAE使用的激活函数是
‘sigmoid’,优化器选择‘RMSprop’;DNN使用的激活函数是‘relu’,当进行二分类时,使用的激活函数是‘sigmoid’;进行多分类时,使用的激活函数是‘softmax’;优化器选择‘Adam’,损失函数使用交叉熵函数;
6)深度自编码神经网络模型测试的S6阶段:将上述步骤3)获得的归一化测试数据集X(test)输入到步骤5)中已经训练好的深度自编码神经网络模型中,获得流量数据的二分类结果和多分类结果;
7)网络安全态势量化评估的S7阶段:将步骤6)获得的流量数据的二分类结果记为攻击概率p,并基于通用漏洞评分系统制定的类别影响分数评定量表计算出每种类型流量的影响分数impacti,ti表示每种类型流量出现的次数;然后根据攻击概率p、每种类型流量的影响分数impacti和每种类型流量出现的次数ti计算出网络安全态势值T,最后根据网络安全态势值T确定出网络安全态势严重程度的等级。
所述的每种类型流量的影响分数impacti的计算公式为:
impacti=C+I+A (3)
其中,C为机密性,I为完整性,A为可用性,取值范围见表2所示的类别影响分数评定量表。
表2、类别影响分数评定量表
Figure BDA0002664746360000111
网络安全态势值T的计算公式为:
Figure BDA0002664746360000121
根据网络安全态势值T确定出网络安全态势严重程度的等级的方法是将网络安全态势值T划分成0.00-20.00、20.01-40.00、40.01-60.00、60.01-80.00和80.01-100.00共5个区间,相应的网络安全态势严重程度划分为安全、低风险、中等风险、高风险和超风险共5个等级。
本发明中深度自编码神经网络模型的评价:
本发明选取用于评价深度自编码神经网络模型性能的三个指标Precision、Recall和F-score,它们由以下评估指标求得:
1)真阳性(True Positive,TP):表示攻击被检测为攻击的样本数;
2)假阳性(False Positive,FP):表示正常流量被检测为攻击的样本数;
3)真阴性(True Negative,TN):表示正常流量被检测为正常流量的样本数;
4)假阴性(False Negative,FN):表示攻击被检测为正常流量的样本数。
精确率(Precision):表示该类别预测对的个数与该类别所有预测个数的比值。精度越高,误报率越低,它可以表示为:
precision=TP/(TP+FP) (5)
召回率(Recall):表示该类别预测正确的个数与该类别所有个数的比值,它可以表示为:
recall=TP/(TP+FN) (6)
F-分数(F-score):考虑了精确率和召回率,它可以表示为:
F-score=2×(precision×recall/precision+recall) (7)
接受者操作特性曲线(Receiver Operating Characteristic Curve,ROC):表示分类模型地性能测量,当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。ROC的y轴为真阳性率(True Positive Rate,TPR),x轴为假阳性率(False Positive Rate,FPR)。ROC下的面积为AUC,AUC越高,模型越好。该评估指标用于深度自编码神经网络模型的二分类。
如图3所示,在进行二分类时,本发明中的深度自编码神经网络模型取得了较高的准确率。在进行多分类时,如图4所示,本发明结合所提出的UOSW算法之后,在三类指标:Precision、Recall和F-score的表现上均优于其他几类模型。图5所示为本发明中深度自编码神经网络模型计算出的网络安全态势值,从图中可以看出网络安全态势所处的等级和对应的分数值。

Claims (5)

1.一种基于深度自编码神经网络模型的网络安全态势评估方法,其特征在于:所述的基于深度自编码神经网络模型的网络安全态势评估方法包括按顺序进行的下列步骤:
1)构建深度自编码神经网络模型的S1阶段:构建由深度自动编码器和深度神经网络构成的深度自编码神经网络模型;
2)获取网络流量数据的S2阶段:选择网络安全领域相对权威的NSL-KDD入侵数据集作为评估的数据集;NSL-KDD入侵数据集包括训练数据集KDDTrain+和测试数据集KDDTest+,训练数据集KDDTrain+和测试数据集KDDTest+中均包括正常流量数据和四种攻击流量数据共五种类型的流量数据;
3)数据预处理的S3阶段:对上述训练数据集KDDTrain+和测试数据集KDDTest+中的部分流量数据进行特征数值化和数值归一化处理,其中,特征数值化采用独热编码技术,将流量数据中的非数值数据转化为只用0和1表示的数据,分别获得特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest;对特征数值化处理后训练数据集Xtrain和特征数值化处理后测试数据集Xtest中最小值与最大值之间存在显著差异的流量数据进行数值归一化处理,将其统一到同一区间,获得归一化训练数据集X(train)和归一化测试数据集X(test)
4)数据重采样的S4阶段:为了消除归一化训练数据集X(train)中数据分布不均匀带来的负面影响,采用欠、过采样加权算法对上述归一化训练数据集X(train)进行数据重采样处理,使得归一化训练数据集X(train)中每种类型流量的数据量相接近,获得重采样训练数据集X(train’)
5)深度自编码神经网络模型训练的S5阶段:使用不同的参数和不同的优化器,将上述重采样训练数据集X(train’)分多次输入到步骤1)构建的深度自编码神经网络模型中,对该模型进行训练;其中DAE使用的激活函数是‘sigmoid’,优化器选择‘RMSprop’;DNN使用的激活函数是‘relu’,当进行二分类时,使用的激活函数是‘sigmoid’;进行多分类时,使用的激活函数是‘softmax’;优化器选择‘Adam’,损失函数使用交叉熵函数;
6)深度自编码神经网络模型测试的S6阶段:将上述步骤3)获得的归一化测试数据集X(test)输入到步骤5)中已经训练好的深度自编码神经网络模型中,获得流量数据的二分类结果和多分类结果;
7)网络安全态势量化评估的S7阶段:将步骤6)获得的流量数据的二分类结果记为攻击概率p,并基于通用漏洞评分系统制定的类别影响分数评定量表计算出每种类型流量的影响分数impacti,ti表示每种类型流量出现的次数;然后根据攻击概率p、每种类型流量的影响分数impacti和每种类型流量出现的次数ti计算出网络安全态势值T,最后根据网络安全态势值T确定出网络安全态势严重程度的等级。
2.根据权利要求1所述的基于深度自编码神经网络模型的网络安全态势评估方法,其特征在于:在步骤2)中,所述的NSL-KDD入侵数据集的基本信息见表1:
表1、NSL-KDD入侵数据集的基本信息
Figure FDA0002664746350000021
3.根据权利要求1所述的基于深度自编码神经网络模型的网络安全态势评估方法,其特征在于:在步骤3)中,所述的数值归一化处理的计算公式如下:
Figure FDA0002664746350000031
其中,xmin和xmax分别表示特征数值化处理后流量数据的最大值和最小值,x表示特征数值化处理后流量数据,x*表示归一化流量数据。
4.根据权利要求1所述的基于深度自编码神经网络模型的网络安全态势评估方法,其特征在于:在步骤4)中,所述的采用欠、过采样加权算法对上述归一化训练数据集X(train)进行数据重采样处理,获得重采样训练数据集X(train’)的方法如下:
4.1)计算归一化训练数据集X(train)中每种类型流量的权重wi:将每种类型流量的实际数据量与理想数据量之间的差值作为权重;设归一化训练数据集中包含n种类型的流量,每种类型的流量都有xi个数据,则该类型流量的权重wi用下式表示:
Figure FDA0002664746350000032
4.2)结合上述流量的权重wi进行数据欠采样处理:对于数据量大于平均值的流量数据,需要进行数据欠采样处理,使处理后的数据量接近平均值;使用Python中sklearn库的“train_test_split”方法将归一化训练数据集X(train)中类型i的原始流量数据集Si_data分为训练流量数据集Si_train和剩余流量数据集Si_left;将其中的训练流量数据集Si_train用于构建重采样训练数据集X(train’),训练流量数据集Si_train=xi×wi;而将剩余流量数据集Si_left用于接下来的过采样处理;
4.3)进行数据过采样处理:对于数据量小于平均值的流量数据,需要进行数据过采样处理,采用过采样算法SMOTE对这样的流量数据进行数据过采样处理,其核心是在现有少量数据的基础上生成新的同类型数据,方法如下:
4.3.1)合并其他类型数据:设需要进行过采样处理的流量数据的类型为type_o,其原始流量数据量为size_o,数据集为data_o;如果其他类型i(i∈{n-type_o})的流量数据量大于平均值,使用步骤4.2)中获得的类型i的剩余流量数据集Si_left;否则,使用类型i的原始流量数据集Si_data;然后对类型i的剩余流量数据集Si_left或类型i的原始流量数据集Si_data中除了类型type_o外的其他类型的流量数据进行合并,得到合并数据集并用other_types_data表示;
4.3.2)统一类型标签:因为过采样算法SMOTE是根据类型的标签进行操作,而且是针对二分类的数据,所以需要将合并数据集other_types_data的标签更改为同一类型,记为othe_type,以便于操作;
4.3.3)确定数据量大小:为了平衡数据集,需要对数据量少的流量数据进行扩展,设扩展后的流量数据量大小为size_o',其中size_o'=size_o*wo,wo为类型type_o的流量数据的权重;此时,将步骤4.3.1)获得的合并数据集other_types_data的流量数据量设为size_o';
4.3.4)数据过采样:将合并数据集other_types_data和需要进行过采样处理的类型type_o的数据集data_o合并成一个完整数据集data_all,其只包含两种类型的流量数据:类型type_o和类型othe_type;然后使用Python中imblearn库的SMOTE方法,利用完整数据集data_all和其中每种类型的标签生成所需的流量数据O_train;
4.3.5)重复步骤4.3.1)—4.3.4),直到数据量少于平均值的那种类型的流量数据全部完成过采样处理;
4.4)在对上述归一化训练数据集X(train)进行重采样处理之后,将欠采样、过采样之后的数据合并成重采样数据集X(train’)
5.根据权利要求1所述的基于深度自编码神经网络模型的网络安全态势评估方法,其特征在于:在步骤7)中,所述的每种类型流量的影响分数impacti的计算公式为:
impacti=C+I+A (3)
其中,C为机密性,I为完整性,A为可用性,取值范围见表2所示的类别影响分数评定量表;
表2、类别影响分数评定量表
Figure FDA0002664746350000051
网络安全态势值T的计算公式为:
Figure FDA0002664746350000052
根据网络安全态势值T确定出网络安全态势严重程度的等级的方法是将网络安全态势值T划分成0.00-20.00、20.01-40.00、40.01-60.00、60.01-80.00和80.01-100.00共5个区间,相应的网络安全态势严重程度划分为安全、低风险、中等风险、高风险和超风险共5个等级。
CN202010915110.6A 2020-09-03 2020-09-03 基于深度自编码神经网络模型的网络安全态势评估方法 Active CN112039903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010915110.6A CN112039903B (zh) 2020-09-03 2020-09-03 基于深度自编码神经网络模型的网络安全态势评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010915110.6A CN112039903B (zh) 2020-09-03 2020-09-03 基于深度自编码神经网络模型的网络安全态势评估方法

Publications (2)

Publication Number Publication Date
CN112039903A true CN112039903A (zh) 2020-12-04
CN112039903B CN112039903B (zh) 2022-03-08

Family

ID=73591802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010915110.6A Active CN112039903B (zh) 2020-09-03 2020-09-03 基于深度自编码神经网络模型的网络安全态势评估方法

Country Status (1)

Country Link
CN (1) CN112039903B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010895A (zh) * 2020-12-08 2021-06-22 四川大学 一种基于深度学习的漏洞危害评估指标技术
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113780382A (zh) * 2021-08-29 2021-12-10 桂林电子科技大学 一种基于ae和pmu的高效网络安全态势评估方法
CN114783524A (zh) * 2022-06-17 2022-07-22 之江实验室 基于自适应重采样深度编码器网络的通路异常检测系统
CN114915502A (zh) * 2022-07-15 2022-08-16 北京六方云信息技术有限公司 资产异常行为检测方法、装置、终端设备以及存储介质
CN114970694A (zh) * 2022-05-12 2022-08-30 河北师范大学 一种网络安全态势评估方法及其模型训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149333A (zh) * 2019-05-23 2019-08-20 桂林电子科技大学 一种基于sae+bpnn的网络安全态势评估方法
CN110392048A (zh) * 2019-07-04 2019-10-29 湖北央中巨石信息技术有限公司 基于ce-rbf的网络安全态势感知模型和方法
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110650153A (zh) * 2019-10-14 2020-01-03 北京理工大学 一种基于聚焦损失深度神经网络的工控网络入侵检测方法
US20200106788A1 (en) * 2018-01-23 2020-04-02 Hangzhou Dianzi University Method for detecting malicious attacks based on deep learning in traffic cyber physical system
CN111556016A (zh) * 2020-03-25 2020-08-18 中国科学院信息工程研究所 一种基于自动编码器的网络流量异常行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200106788A1 (en) * 2018-01-23 2020-04-02 Hangzhou Dianzi University Method for detecting malicious attacks based on deep learning in traffic cyber physical system
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110149333A (zh) * 2019-05-23 2019-08-20 桂林电子科技大学 一种基于sae+bpnn的网络安全态势评估方法
CN110392048A (zh) * 2019-07-04 2019-10-29 湖北央中巨石信息技术有限公司 基于ce-rbf的网络安全态势感知模型和方法
CN110650153A (zh) * 2019-10-14 2020-01-03 北京理工大学 一种基于聚焦损失深度神经网络的工控网络入侵检测方法
CN111556016A (zh) * 2020-03-25 2020-08-18 中国科学院信息工程研究所 一种基于自动编码器的网络流量异常行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨宏宇,王峰岩: "基于改进卷积神经网络的网络入侵检测模型", 《计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010895A (zh) * 2020-12-08 2021-06-22 四川大学 一种基于深度学习的漏洞危害评估指标技术
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113194094B (zh) * 2021-04-29 2022-07-15 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113780382A (zh) * 2021-08-29 2021-12-10 桂林电子科技大学 一种基于ae和pmu的高效网络安全态势评估方法
CN114970694A (zh) * 2022-05-12 2022-08-30 河北师范大学 一种网络安全态势评估方法及其模型训练方法
CN114783524A (zh) * 2022-06-17 2022-07-22 之江实验室 基于自适应重采样深度编码器网络的通路异常检测系统
CN114915502A (zh) * 2022-07-15 2022-08-16 北京六方云信息技术有限公司 资产异常行为检测方法、装置、终端设备以及存储介质
CN114915502B (zh) * 2022-07-15 2022-10-04 北京六方云信息技术有限公司 资产异常行为检测方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
CN112039903B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN110213222B (zh) 基于机器学习的网络入侵检测方法
CN110598851A (zh) 一种融合lstm和gan的时间序列数据异常检测方法
CN113807570B (zh) 基于XGBoost的水库大坝风险等级评估方法及系统
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN113780443B (zh) 一种面向威胁检测的网络安全态势评估方法
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN114553545A (zh) 一种入侵流量检测识别方法及系统
CN108388969A (zh) 基于个人行为时序特征的内部威胁人物风险预测方法
CN110852441B (zh) 一种基于改进朴素贝叶斯算法的火灾预警方法
CN109767351A (zh) 一种电力信息系统日志数据的安全态势感知方法
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
CN111538311A (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN115018512A (zh) 基于Transformer神经网络的窃电检测方法及装置
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN117278314A (zh) 一种DDoS攻击检测方法
CN117667495B (zh) 一种关联规则与深度学习集成的应用系统故障预测方法
CN114547608A (zh) 一种基于降噪自编码核密度估计的网络安全态势评估方法
CN110719279A (zh) 基于神经网络的网络异常检测系统及检测方法
CN115618297A (zh) 识别异常企业的方法及其装置
CN116170187A (zh) 一种基于cnn和lstm融合网络的工业互联网入侵监测方法
CN117521042B (zh) 基于集成学习的高危授权用户识别方法
CN118606872B (zh) 一种安全水设备异常的检测方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant