CN114826764B - 一种基于集成学习的边缘计算网络攻击识别方法及系统 - Google Patents

一种基于集成学习的边缘计算网络攻击识别方法及系统 Download PDF

Info

Publication number
CN114826764B
CN114826764B CN202210534906.6A CN202210534906A CN114826764B CN 114826764 B CN114826764 B CN 114826764B CN 202210534906 A CN202210534906 A CN 202210534906A CN 114826764 B CN114826764 B CN 114826764B
Authority
CN
China
Prior art keywords
data set
data
attack
data stream
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210534906.6A
Other languages
English (en)
Other versions
CN114826764A (zh
Inventor
王欢
彭勇
闫俊杰
王炎
李威龙
张海峰
王喆
李辉
黄剑华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Yunshu Xin'an Technology Co.,Ltd.
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202210534906.6A priority Critical patent/CN114826764B/zh
Publication of CN114826764A publication Critical patent/CN114826764A/zh
Application granted granted Critical
Publication of CN114826764B publication Critical patent/CN114826764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Abstract

本发明提供了一种基于集成学习的边缘计算网络攻击识别方法及系统,涉及边缘计算网络安全技术领域,方法获取边缘计算网络的待识别数据流;将待识别数据流输入到数据流类别识别模型中,确定待识别数据流是否为攻击数据;将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别。本发明对网络流量数据集进行预处理和简化处理,进而得到数据流类别识别模型和攻击类别识别模型在保证边缘计算网络攻击识别效率的同时,提高了识别的准确率和泛化能力。

Description

一种基于集成学习的边缘计算网络攻击识别方法及系统
技术领域
本发明涉及边缘计算网络安全技术领域,特别是涉及一种基于集成学习的边缘计算网络攻击识别方法及系统。
背景技术
边缘计算作为互联网的延伸,具有功耗小、覆盖范围广、部署成本低等特点,广泛应用在各种生产生活场景中。然而边缘计算的这些特点,也导致其硬件结构简单、计算资源匮乏、设计缺乏考虑安全性等问题。精准的攻击识别能够有效弥补边缘计算的安全缺陷,提升边缘计算应对网络攻击的能力。常见的边缘计算攻击识别主要包括深度包检测技术(DPI,Deep Packet Inspection)、统计和行为等方法,但这些方法计算复杂度高,难以在计算资源有限的边缘计算环境中发挥作用。决策树因构造简单、计算复杂度低,相较于其他机器学习方法更适合边缘计算环境而成为研究热点。但决策树存在过拟合和泛化能力弱的缺点,识别效果不理想。集成学习能够组合多个弱分类器,基于弱分类器投票决定最终分类结果,比单分类器模型具有更高的识别准确率和泛化能力。随机森林作为一种组合若干决策树的集成学习模型能够有效解决单棵决策树的过拟合问题,提高检测效果。但多个模型的集成,无疑要消耗大量的计算资源,降低识别效率。
传统攻击流量分类检测技术受限于边缘计算网络有限的计算资源,无法部署高级的安全策略而易受到攻击的问题,传统攻击流量分类检测技术受限于边缘计算网络环境复杂,流量类别多,识别精度不高、集成多个模型导致识别效率低,因此,如何在不降低识别效率的情况下,有效提高识别的准确率和泛化能力,仍需进一步的研究。
发明内容
本发明的目的是提供一种基于集成学习的边缘计算网络攻击识别方法及系统,能够在保证边缘计算网络攻击识别效率的同时,提高识别的准确率和泛化能力。
为实现上述目的,本发明提供了如下方案:
一种基于集成学习的边缘计算网络攻击识别方法,包括:
获取边缘计算网络的待识别数据流;
将所述待识别数据流输入到数据流类别识别模型中,确定所述待识别数据流是否为攻击数据;所述数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;所述攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的。
可选的,在所述获取边缘计算网络的待识别数据流之前,还包括:
获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;
对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集;
根据预处理后的网络流量数据集构建抽样数据集;
利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征;
删除抽样数据集内每个历史数据流中除所述优化特征外的特征值,得到优化数据集;
以所述优化数据集为输入,以所述优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型。
可选的,所述网络流量数据集为CICIDS2017网络流量数据集。
可选的,在所述获取边缘计算网络的待识别数据流之前,还包括:
以所述优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
可选的,所述对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集,具体包括:
将网络流量数据集中的历史数据流统一为UTF-8数据,得到统一编码数据集;
删除统一编码数据集中的冗余数据,得到简化数据集;
确定任一特征为当前特征;
计算网络流量数据集中当前特征的特征值均值;
确定简化数据集中任一历史数据流为当前历史数据流;
确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果;
若第一判断结果为是,则将当前特征的特征值均值作为当前历史数据流中当前特征的特征值;
若第一判断结果为否,则更新当前历史数据流并返回步骤“确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果”;
历遍简化数据集中所有历史数据流,更新所述当前特征并返回步骤“计算网络流量数据集中当前特征的特征值均值”;
历遍所有特征,得到预处理后的网络流量数据集。
可选的,在所述根据预处理后的网络流量数据集构建抽样数据集之后,还包括:
对抽样数据集进行标准化处理,得到标准化处理后的抽样数据集;
对标准化处理后的抽样数据集进行one-hot编码。
可选的,所述利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征,包括:
将所述抽样数据集输入随机森林模型中进行预训练,确定每个特征的基尼不纯度;
根据所述基尼不纯度对所述特征进行降序排列;
确定前预设个数个特征为第0级初始优化特征;
删除抽样数据集内每个历史数据流中除所述第0级初始优化特征外的特征值,得到第0级优化数据集;
将所述第0级优化数据集输入对随机森林模型中进行第0级训练,确定第0级训练时的准确率;
令迭代次数i=1;
令预设个数的数值增加1;
确定前预设个数个特征为第i级初始优化特征;
删除抽样数据集内每个历史数据流中除所述第i级初始优化特征外的特征值,得到第i级优化数据集;
将所述第i级优化数据集输入对随机森林模型中进行第i级训练,确定第i级训练时的准确率;
判断所述第i级训练时的准确率是否有大于第i-1级训练时的准确率,得到第二判断结果;
若所述第二判断结果为是,则令i的数值增加1并返回步骤“令预设个数的数值增加1”;
若所述第二判断结果为否,确定第i-1级初始优化特征为影响分类结果的多个优化特征。
一种基于集成学习的边缘计算网络攻击识别系统,包括:
待识别数据流获取模块,用于获取边缘计算网络的待识别数据流;
攻击数据识别模块,用于将所述待识别数据流输入到数据流类别识别模型中,确定所述待识别数据流是否为攻击数据;所述数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
攻击类别识别模块,用于将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;所述攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的。
可选的,所述系统还包括:
网络流量数据集获取模块,用于获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;
预处理模块,用于对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集;
抽样数据集构建模块,用于根据预处理后的网络流量数据集构建抽样数据集;
优化特征确定模块,用于利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征;
优化数据集确定模块,用于删除抽样数据集内每个历史数据流中除所述优化特征外的特征值,得到优化数据集;
数据流类别识别模型确定模块,用于以所述优化数据集为输入,以所述优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型。
可选的,所述系统还包括:
攻击类别识别模型确定模块,用于以所述优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于集成学习的边缘计算网络攻击识别方法及系统,方法获取边缘计算网络的待识别数据流;将待识别数据流输入到数据流类别识别模型中,确定待识别数据流是否为攻击数据;将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别。本发明对网络流量数据集进行预处理和简化处理,进而得到数据流类别识别模型和攻击类别识别模型在保证边缘计算网络攻击识别效率的同时,提高了识别的准确率和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于集成学习的边缘计算网络攻击识别方法流程图;
图2为本发明实施例中训练模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于集成学习的边缘计算网络攻击识别方法及系统,能够在保证边缘计算网络攻击识别效率的同时,提高识别的准确率和泛化能力。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1,本发明提供了一种基于集成学习的边缘计算网络攻击识别方法,包括:
获取边缘计算网络的待识别数据流;
将待识别数据流输入到数据流类别识别模型中,确定待识别数据流是否为攻击数据;数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的,多分随机森林模型如图2。
本发明提供的基于集成学习的边缘计算网络攻击识别方法,在获取边缘计算网络的待识别数据流之前,还包括:
获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;网络流量数据集为CICIDS2017网络流量数据集。
对网络流量数据集进行预处理,得到预处理后的网络流量数据集;
根据预处理后的网络流量数据集构建抽样数据集,具体包括:对网络流量数据集进行类不平衡处理,利用随机抽样法对数据集中的多数类进行抽样,利用SMOTE(SyntheticMinority Oversampling Technique,合成少数类过采样技术)技术对数据集中的少数类进行样本合成,得到相对平衡的抽样数据集。
利用随机森林模型对抽样数据集进行预训练,得到影响分类结果的多个优化特征;
删除抽样数据集内每个历史数据流中除优化特征外的特征值,得到优化数据集;
以优化数据集为输入,以优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型。
以优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
其中,对网络流量数据集进行预处理,得到预处理后的网络流量数据集,具体包括:
将网络流量数据集中的历史数据流统一为UTF-8数据,得到统一编码数据集;
删除统一编码数据集中的冗余数据,得到简化数据集;
确定任一特征为当前特征;
计算网络流量数据集中当前特征的特征值均值;
确定简化数据集中任一历史数据流为当前历史数据流;
确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果;
若第一判断结果为是,则将当前特征的特征值均值作为当前历史数据流中当前特征的特征值;
若第一判断结果为否,则更新当前历史数据流并返回步骤“确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果”;
历遍简化数据集中所有历史数据流,更新当前特征并返回步骤“计算网络流量数据集中当前特征的特征值均值”;
历遍所有特征,得到预处理后的网络流量数据集。
本发明提供的基于集成学习的边缘计算网络攻击识别方法,在根据预处理后的网络流量数据集构建抽样数据集之后,还包括:
对抽样数据集进行标准化处理,得到标准化处理后的抽样数据集;
对标准化处理后的抽样数据集进行one-hot编码。
具体的,利用随机森林模型对抽样数据集进行预训练,得到影响分类结果的多个优化特征,包括:
将抽样数据集输入随机森林模型中进行预训练,确定每个特征的基尼不纯度;
根据基尼不纯度对特征进行降序排列;
确定前预设个数个特征为第0级初始优化特征;
删除抽样数据集内每个历史数据流中除第0级初始优化特征外的特征值,得到第0级优化数据集;
将第0级优化数据集输入对随机森林模型中进行第0级训练,确定第0级训练时的准确率;
令迭代次数i=1;
令预设个数的数值增加1;
确定前预设个数个特征为第i级初始优化特征;
删除抽样数据集内每个历史数据流中除第i级初始优化特征外的特征值,得到第i级优化数据集;
将第i级优化数据集输入对随机森林模型中进行第i级训练,确定第i级训练时的准确率;
判断第i级训练时的准确率是否有大于第i-1级训练时的准确率,得到第二判断结果;
若第二判断结果为是,则令i的数值增加1并返回步骤“令预设个数的数值增加1”;
若第二判断结果为否,确定第i-1级初始优化特征为影响分类结果的多个优化特征。
下面,对本发明进行进一步说明:
步骤1将网络流量数据集处理成符合模型训练要求的数据集。
(1-1)读取全部数据,合并成一个数据集(DataSet);
(1-2)替换数据集中非法字符,删除数据集中冗余数据,删除数据集中全“0”数据,用均值替换数据集中值为“Nan”的记录值,用均值替换数据集中值为“Inf”的值,均值计算公式为:
其中Cj表示缺失值,Fi.Cj表示第i条数据流的第j个特征值,m表示数据流数量;n表示特征种类数量。
(1-3)采用随机抽样法对记录数量过多的网络流量类别进行抽样,抽样公式为:
其中,Pnew为选出的样本,Number表示需要筛选出的样本数量,F.sample(m)表示从样本中随机抽样m条数据流F。
采用SMOTE技术对记录数量过少的网络流量类别进行样本合成,合成少数类样本的公式为:
Fnnew=Fi+ξ*{Fi(n)-Fi} (3)
其中,Fnnew为合成的新流量记录,Fi为任意一个样本,Fi(n)为Fi的任一邻居样本,ξ为0到1之间的一个随机数。
(1-4)采用min-max标准化法对数据集中网络流量进行标准化,公式为:
其中Cjnew为标准化后的值,Cj是第j个属性(特征)标准化前的原始值,Cjmax和Cjmin分别是每个属性的最大值。
(1-5)对数据集进行one-hot编码;
(1-6)将数据集划分为训练集(TrainSet)、测试集(TestSet)和验证集(ValiSet)。
步骤2:从预处理后的训练集(TrainSet)中选出特征值,用于模型训练。
(2-1)使用随机森林模型对训练集(TrainSet)进行预训练,计算出各属性对分类结果影响的基尼不纯度,计算公式为:
数据集S中共有m种不同类型的流量数据,每条流量数据F属于第j类流量类型的概率为Pj,则数据集S的基尼不纯度定义为:
其中,impurity(S)表示预处理后的训练集基尼不纯度;对于数据集S,根据特征A是否取可能值a,将数据集S左训练集Sleft和右训练集Sright两个部分,因此,数据集S在特征A取值为a的条件下的基尼不纯度为:
Impurity(S,A)表示训练集S在特征A的条件下的基尼不纯度,|S|表示预处理后的训练集的样本数量;|Sleft|表示左训练集的样本数量;Impurity(Sleft)表示左训练集的基尼不纯度;|Sright|表示右训练集的样本数量;Impurity(Sright)表示右训练集的基尼不纯度。
(2-2)依据基尼不纯度对各属性进行非递增排序,选取前K个基尼不纯度值最大的属性进行再训练,K值不断递增;
(2-3)直到训练后的模型得分不再随K值的增加而增加,选出模型得分最高且数量最少的属性,作为特征值;
步骤3将选出特征值的训练集传入模型进行训练。
(3-1)将选出特征值的训练集(TrainSetWithFeature)传入二分随机森林模型进行二分类训练;
(3-2)采用二分网格搜索调参法对训练后的二分随机森林模型进行超参数优化,采用10折交叉验证法验证模型稳定性;
(3-3)结合搜索出的最优超参数,构建最优二分随机森林模型,对选出特征值的训练集(TrainSetWithFeature)进行二分类;
(3-4)将被正确分类为攻击流量的数据(TrainSetCorAtt)传入多分随机森林进行多分类训练;
(3-5)采用二分网格搜索调参法对训练后的多分随机森林模型进行超参数优化,采用10折交叉验证法验证模型稳定性;
(3-6)结合搜索出的最优超参数,构建最优多分随机森林模型,对攻击流量数据集(TrainSetCorAtt)进行多分类;
(3-7)将最优二分随机森林模型与最优多分随机森林模型集成,构建出强集成模型并导出。
步骤4:将测试集传入训练好的强集成学习模型,根据模式对测试集分类结果的准确率、精确率、召回率、f1值以及检测效率5个方面对模型进行评估。
相较于传统的单分类器流量检测分类方法,本发明所提出的一种基于集成学习的边缘计算网络攻击流量识别方法,采用由多个决策树组成的随机森林作为学习器,结合Bagging集成学习方法,将二分随机森林和多分随机森林集成,分类结果由两层随机森林中的若干决策树平权投票得出,因此,有效提高了模型的泛化能力。本发明提出了一种的数据预处理方法,去除数据集中的噪点数据,降低了噪点对模型训练的影响,结合随机抽样方法和SMOTE合成少数类样本技术,有效解决数据集不平衡问题、模型欠拟合和过拟合问题。本发明采用过滤式特征选择方法,结合基尼不纯度选取出能够保证最优分类结果且数量最少的属性做为特征值,有效降低模型复杂度,因此,有效提高了模型的检测效率。
另外,本发明采用合理的数据预处理方法、类不平衡处理方法、特征选择方法和Bagging集成学习方法,将二分随机森林分类器和多分随机森林分类器集成,结合二分网格搜索调参法构建出最优参数的强集成学习模型,结合10折交叉验证法验证最优参数模型的稳定性,有效提高了模型的检测准确率。
此外,本发明还提供了一种基于集成学习的边缘计算网络攻击识别系统,包括:
待识别数据流获取模块,用于获取边缘计算网络的待识别数据流;
攻击数据识别模块,用于将待识别数据流输入到数据流类别识别模型中,确定待识别数据流是否为攻击数据;数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
攻击类别识别模块,用于将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的。
网络流量数据集获取模块,用于获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;
预处理模块,用于对网络流量数据集进行预处理,得到预处理后的网络流量数据集;
抽样数据集构建模块,用于根据预处理后的网络流量数据集构建抽样数据集;
优化特征确定模块,用于利用随机森林模型对抽样数据集进行预训练,得到影响分类结果的多个优化特征;
优化数据集确定模块,用于删除抽样数据集内每个历史数据流中除优化特征外的特征值,得到优化数据集;
数据流类别识别模型确定模块,用于以优化数据集为输入,以优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型。
攻击类别识别模型确定模块,用于以优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于集成学习的边缘计算网络攻击识别方法,其特征在于,包括:
获取边缘计算网络的待识别数据流;
将所述待识别数据流输入到数据流类别识别模型中,确定所述待识别数据流是否为攻击数据;所述数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;所述攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的;
在所述获取边缘计算网络的待识别数据流之前,还包括:
获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;所述网络流量数据集为CICIDS2017网络流量数据集;
对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集;
根据预处理后的网络流量数据集构建抽样数据集;
利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征;
删除抽样数据集内每个历史数据流中除所述优化特征外的特征值,得到优化数据集;
以所述优化数据集为输入,以所述优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型;
所述对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集,具体包括:
将网络流量数据集中的历史数据流统一为UTF-8数据,得到统一编码数据集;
删除统一编码数据集中的冗余数据,得到简化数据集;
确定任一特征为当前特征;
计算网络流量数据集中当前特征的特征值均值;
确定简化数据集中任一历史数据流为当前历史数据流;
确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果;
若第一判断结果为是,则将当前特征的特征值均值作为当前历史数据流中当前特征的特征值;
若第一判断结果为否,则更新当前历史数据流并返回步骤“确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果”;
历遍简化数据集中所有历史数据流,更新所述当前特征并返回步骤“计算网络流量数据集中当前特征的特征值均值”;
历遍所有特征,得到预处理后的网络流量数据集。
2.根据权利要求1所述的一种基于集成学习的边缘计算网络攻击识别方法,其特征在于,在所述获取边缘计算网络的待识别数据流之前,还包括:
以所述优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
3.根据权利要求1所述的一种基于集成学习的边缘计算网络攻击识别方法,其特征在于,在所述根据预处理后的网络流量数据集构建抽样数据集之后,还包括:
对抽样数据集进行标准化处理,得到标准化处理后的抽样数据集;
对标准化处理后的抽样数据集进行one-hot编码。
4.根据权利要求1所述的一种基于集成学习的边缘计算网络攻击识别方法,其特征在于,所述利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征,包括:
将所述抽样数据集输入随机森林模型中进行预训练,确定每个特征的基尼不纯度;
根据所述基尼不纯度对所述特征进行降序排列;
确定前预设个数个特征为第0级初始优化特征;
删除抽样数据集内每个历史数据流中除所述第0级初始优化特征外的特征值,得到第0级优化数据集;
将所述第0级优化数据集输入对随机森林模型中进行第0级训练,确定第0级训练时的准确率;
令迭代次数i=1;
令预设个数的数值增加1;
确定前预设个数个特征为第i级初始优化特征;
删除抽样数据集内每个历史数据流中除所述第i级初始优化特征外的特征值,得到第i级优化数据集;
将所述第i级优化数据集输入对随机森林模型中进行第i级训练,确定第i级训练时的准确率;
判断所述第i级训练时的准确率是否有大于第i-1级训练时的准确率,得到第二判断结果;
若所述第二判断结果为是,则令i的数值增加1并返回步骤“令预设个数的数值增加1”;
若所述第二判断结果为否,确定第i-1级初始优化特征为影响分类结果的多个优化特征。
5.一种基于集成学习的边缘计算网络攻击识别系统,其特征在于,包括:
待识别数据流获取模块,用于获取边缘计算网络的待识别数据流;
攻击数据识别模块,用于将所述待识别数据流输入到数据流类别识别模型中,确定所述待识别数据流是否为攻击数据;所述数据流类别识别模型是利用预处理后的网络流量数据集,对二分随机森林模型进行训练得到的;
攻击类别识别模块,用于将识别结果为攻击数据的待识别数据流输入到攻击类别识别模型中,得到待识别数据流的攻击类别;所述攻击类别识别模型是利用预处理后的网络流量数据集,对多分随机森林模型进行训练得到的;
所述系统还包括:
网络流量数据集获取模块,用于获取网络流量数据集;网络流量数据集包括多个历史数据流;每个历史数据流包括多种特征的特征值;不同历史数据流对应的多个特征相同;
预处理模块,用于对所述网络流量数据集进行预处理,得到预处理后的网络流量数据集;所述预处理模块,用于将网络流量数据集中的历史数据流统一为UTF-8数据,得到统一编码数据集;删除统一编码数据集中的冗余数据,得到简化数据集;确定任一特征为当前特征;计算网络流量数据集中当前特征的特征值均值;确定简化数据集中任一历史数据流为当前历史数据流;确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果;若第一判断结果为是,则将当前特征的特征值均值作为当前历史数据流中当前特征的特征值;若第一判断结果为否,则更新当前历史数据流并返回“确定当前历史数据流中当前特征的特征值是否为Nan或Inf,确定第一判断结果”;历遍简化数据集中所有历史数据流,更新所述当前特征并返回“计算网络流量数据集中当前特征的特征值均值”;历遍所有特征,得到预处理后的网络流量数据集;
抽样数据集构建模块,用于根据预处理后的网络流量数据集构建抽样数据集;
优化特征确定模块,用于利用随机森林模型对所述抽样数据集进行预训练,得到影响分类结果的多个优化特征;
优化数据集确定模块,用于删除抽样数据集内每个历史数据流中除所述优化特征外的特征值,得到优化数据集;
数据流类别识别模型确定模块,用于以所述优化数据集为输入,以所述优化数据集中每个数据流是否为攻击数据为输出,对二分随机森林模型进行训练,得到数据流类别识别模型。
6.根据权利要求5所述的一种基于集成学习的边缘计算网络攻击识别系统,其特征在于,所述系统还包括:
攻击类别识别模型确定模块,用于以所述优化数据集中的攻击数据为输入,以攻击数据的攻击类别为输出,对多分随机森林模型进行训练,得到攻击类别识别模型。
CN202210534906.6A 2022-05-17 2022-05-17 一种基于集成学习的边缘计算网络攻击识别方法及系统 Active CN114826764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534906.6A CN114826764B (zh) 2022-05-17 2022-05-17 一种基于集成学习的边缘计算网络攻击识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534906.6A CN114826764B (zh) 2022-05-17 2022-05-17 一种基于集成学习的边缘计算网络攻击识别方法及系统

Publications (2)

Publication Number Publication Date
CN114826764A CN114826764A (zh) 2022-07-29
CN114826764B true CN114826764B (zh) 2023-07-18

Family

ID=82514997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534906.6A Active CN114826764B (zh) 2022-05-17 2022-05-17 一种基于集成学习的边缘计算网络攻击识别方法及系统

Country Status (1)

Country Link
CN (1) CN114826764B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103241A (zh) * 2017-03-15 2017-08-29 广西科技大学 一种自动生成存储型xss攻击向量的测试方法
US10685081B2 (en) * 2017-06-20 2020-06-16 Intel Corporation Optimized data discretization
CN111107102A (zh) * 2019-12-31 2020-05-05 上海海事大学 基于大数据实时网络流量异常检测方法
CN111565199B (zh) * 2020-07-14 2021-10-01 腾讯科技(深圳)有限公司 网络攻击信息处理方法、装置、电子设备及存储介质
CN112800421A (zh) * 2021-01-13 2021-05-14 清华大学 边缘计算场景下后门攻击主动防御方法及装置
CN112910918A (zh) * 2021-02-26 2021-06-04 南方电网科学研究院有限责任公司 基于随机森林的工控网络DDoS攻击流量检测方法及装置
CN113158390B (zh) * 2021-04-29 2023-03-24 北京邮电大学 一种基于辅助分类式生成对抗网络的网络攻击流量生成方法
CN113206859B (zh) * 2021-05-17 2022-03-15 北京交通大学 一种针对低速率DDoS攻击的检测方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统

Also Published As

Publication number Publication date
CN114826764A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109639739B (zh) 一种基于自动编码器网络的异常流量检测方法
CN110213222B (zh) 基于机器学习的网络入侵检测方法
WO2020220439A1 (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN111832647A (zh) 异常流量检测系统及方法
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN110245745B (zh) 基于集成双向循环神经网络的设备剩余使用寿命预测方法
Tan et al. Application of Self-Organizing Feature Map Neural Network Based on K-means Clustering in Network Intrusion Detection.
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN110120218A (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN113887616A (zh) 一种epg连接数的实时异常检测系统及方法
CN112087442B (zh) 基于注意力机制的时序相关网络入侵检测方法
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN110909977A (zh) 基于adasyn-dhsd-et的电网故障诊断方法
CN113688558B (zh) 一种基于大数据库样本的汽车行驶工况构建方法及系统
CN112491891B (zh) 物联网环境下基于混合深度学习的网络攻击检测方法
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级系统
CN112990371B (zh) 一种基于特征扩增的无监督夜间图像分类方法
CN110275942A (zh) 一种电子凭据安全事件融合分析方法
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN114826764B (zh) 一种基于集成学习的边缘计算网络攻击识别方法及系统
CN116170187A (zh) 一种基于cnn和lstm融合网络的工业互联网入侵监测方法
CN113852612B (zh) 一种基于随机森林的网络入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240425

Address after: 545006, No. 2 Wenchang Road, Liuzhou City, Guangxi Zhuang Autonomous Region, Public Office Space 1-2, Incubation Room, No. 4, B1, 5th Teaching Building, Wenchang Campus, Guangxi University of Science and Technology

Patentee after: Guangxi Yunshu Xin'an Technology Co.,Ltd.

Country or region after: China

Address before: 545006 268 East Ring Road, Central District, Liuzhou, the Guangxi Zhuang Autonomous Region

Patentee before: GUANGXI University OF SCIENCE AND TECHNOLOGY

Country or region before: China