CN113824725A - 一种基于因果机器学习的网络安全监测分析方法与系统 - Google Patents

一种基于因果机器学习的网络安全监测分析方法与系统 Download PDF

Info

Publication number
CN113824725A
CN113824725A CN202111123336.3A CN202111123336A CN113824725A CN 113824725 A CN113824725 A CN 113824725A CN 202111123336 A CN202111123336 A CN 202111123336A CN 113824725 A CN113824725 A CN 113824725A
Authority
CN
China
Prior art keywords
feature
causal
attack
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111123336.3A
Other languages
English (en)
Other versions
CN113824725B (zh
Inventor
曾增日
彭伟
赵宝康
曾德天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111123336.3A priority Critical patent/CN113824725B/zh
Publication of CN113824725A publication Critical patent/CN113824725A/zh
Application granted granted Critical
Publication of CN113824725B publication Critical patent/CN113824725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于因果机器学习的网络安全监测分析方法与系统,本发明方法包括针对网络流量的训练数据集的特征集合P进行预处理;针对预处理后的特征集合P删除非因果噪声特征,得到因果特征集合V;通过机器学习方法在因果特征集合V中选择与监测数据接近的M类攻击标签;通过反事实诊断方法计算M类攻击标签在反事实中异常特征的期望值,并选择使得期望值最大的攻击标签作为检测数据最终的网络入侵检测结果。本发明在保证监测性能的同时,能够降低反事实方法计算的复杂度,提升监测系统的精度。

Description

一种基于因果机器学习的网络安全监测分析方法与系统
技术领域
本发明涉及网络安全监测,具体涉及一种基于因果机器学习的网络安全监测分析方法与系统。
背景技术
网络安全监测是针对计算机网络传输提供即时监视的一种安全监测设备,这种设备在发现可疑传输时会及时发出警报或主动采取相应措施对可疑行为进行封杀。相对于其他网络安全设备来说,网络安全监测是一种更加积极主动的网络安全防护技术。与防火墙等传统防御系统相比,网络安全监测可以捕获数据包并提取它们的特征,然后将这些特征与已知的攻击模式进行对比。网络安全监测主要有基于贝叶斯推理、特征选择、模式预测、数据挖掘等检测方法。
近年来,随着决策树、随机森林、神经网络等机器学习方法被广泛应用于入侵检测领域,网络安全监测的检测精度也愈发提高了很多。然而现有基于关联的机器学习方法无法将相关性与因果性解耦,对于未知的测试数据集就很难达到稳定的预测。特别是许多的机器学习方法或者基于特征选择的方法,均是基于关联驱动来判断流量特征属性与网络攻击类型之间的因果关系的,这种关联关系因存在许多的强虚假关联而导致网络安全监测对特征错误的归类,特别是在网络攻击类型数量较多时,这种错误归类更为明显。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于因果机器学习的网络安全监测分析方法与系统,本发明在保证检测性能的同时,能够降低反事实方法计算的复杂度,提升网络安全监测的检测精度。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于因果机器学习的网络安全监测分析方法,包括:
1)针对网络流量的训练数据集的特征集合P进行预处理;
2)针对预处理后的特征集合P删除非因果噪声特征,得到只包含因果特征集合V的训练数据;
3)通过机器学习方法在训练数据中选择与检测数据接近的M类攻击标签;
4)通过反事实诊断方法计算M类攻击标签在反事实中异常特征的期望值,并选择使得期望值最大的攻击标签作为检测数据最终的网络入侵检测结果。
可选地,步骤1)中的预处理依次包括Z分数标准化、最大最小标准化以及删除无效和错误的数据集合。
可选地,步骤2)包括:
2.1)初始化循环变量i,在预处理后的包含p个特征的特征集合P中选择第i个特征为当前特征,初始化当前特征的删除特征集合Cu[i],其中0≤i<p;
2.2)分别遍历特征集合P中的所有特征,针对遍历得到的第j%p个特征,计算该第j%p个特征与网络攻击之间的因果效应值,如果因果效应值小于设定的阈值δ,则将该第j%p个特征值改为全0,并记为非因果特征添加到当前特征的删除特征集合Cu[i],其中i≤j<p+i;
2.3)判断循环变量i小于特征集合P的特征数量p是否成立,若成立则将循环变量i加1,跳转执行步骤2.1);否则,跳转执行步骤2.4);
2.4)将得到的所有的删除特征集合Cu[1]~Cu[p]按包含特征个数进行排序;
2.5)在排序后的所有的删除特征集合Cu[1]~Cu[p]中选取包含特征数最多的删除特征集合Cu[i]max,根据包含特征数最多的删除特征集合Cu[i]max中包含的特征编号删除特征集合P中对应的特征,并将所有剩余的特征保存至集合中作为得到的因果特征集合V。
可选地,步骤2.2)中因果效应值的计算函数表达式为:
Ej%p=E[X]-E[X|do(Yj%p)],
上式中,Ej%p表示第j%p个特征与网络攻击X之间的因果效应值,E[X]表示网络攻击X的期望值,E[X|do(Yj%p)]表示干预删除第j%p个特征后网络攻击X的期望值。
可选地,步骤3)包括:
3.1)计算检测数据与训练数据集之间的距离,其中训练数据集为n行v列,且每行都有自己的攻击标签,其中v为因果特征集合V的长度;检测数据为1行v列;
3.2)对检测数据与训练数据集每一行之间的距离进行排序,选取与检测数据距离最近的K行训练数据;
3.3)对K行训练数据中攻击标签出现的频率进行排序;
3.4)选取出现频率最靠前的M类攻击标签,M小于训练数据集的攻击标签总类数。
可选地,步骤3.1)中的距离是指曼哈顿距离或者欧式距离。
可选地,步骤4)包括:
4.1)设定各个特征异常与否的阈值δ,将训练数据和检测数据的所有特征取值转变成{0,1}分布,使其服从伯努利分布;
4.2)根据训练数据求出X和Y的条件概率分布表;
4.3)根据X和Y的条件概率分布表,分别计算M类攻击标签在反事实中异常特征的期望值;
4.4)将M类攻击标签在反事实中计算出的异常特征的期望值进行排序;
4.5)选择所有在反事实中异常特征期望值中的最大值所对应的攻击标签作为检测数据最终的网络入侵检测结果。
可选地,步骤4.3)中计算M类攻击标签在反事实中异常特征的期望值的函数表达式为:
Figure BDA0003277829270000031
上式中,E(Xk,ε)表示攻击标签Xk在反事实中异常特征的期望值;ε为1行v列的检测数据,ε=Y±,Y+表示特征集合中的异常特征,Y-为正常特征;P(Y±,Xk)为网络攻击Xk和包含正常和异常特征的检测数据的联合先验概率分布;P(Y±)为异常和正常特征集合的先验概率分布;A为某个异常特征,P(Y-=0,A=0,Xk=1)为正常特征、某个异常特征A被干预设置为正常、网络攻击Xk为攻击时的联合先验概率分布;Y+\A为排除某个异常特征A的异常特征集合,
Figure BDA0003277829270000032
为因为噪声变量的影响而使得网络在遭受网络攻击Xk攻击时,流量特征Y仍表现为正常的概率,a为排除异常特征A的异常特征集合中的某个异常特征。
此外,本发明还提供一种基于因果机器学习的网络安全监测分析系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于因果机器学习的网络安全监测分析方法的步骤。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行所述基于因果机器学习的网络安全监测分析方法的计算机程序。
和现有技术相比,本发明具有下述优点:本发明包括针对预处理后的特征集合P删除非因果噪声特征得到因果特征集合V,通过机器学习方法在因果特征集合V中选择与检测数据接近的M类攻击标签;通过反事实诊断方法计算M类攻击标签在反事实中异常特征的期望值,并选择使得期望值最大的攻击标签作为最终的网络入侵检测结果,本发明在保证检测性能的同时,降低了反事实方法计算的复杂度,提升了网络安全监测系统的检测精度。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例步骤3)的流程图。
图3为本发明实施例步骤4)的流程图。
图4为本发明实施例中网络攻击与流量特征之间的因果关系。
图5为本发明实施例中特征Y对网络攻击X的影响简化图。
图6为本发明实施例中干预操作的原理示意图。
图7为本发明实施例中单个网络攻击X与流量特征之间事实因果关系图。
图8为本发明实施例中多个网络攻击X与流量特征之间事实因果关系图。
图9为本发明实施例中反事实诊断的原理示意图。
图10、图11、图12和图13分别为本发明实施例方法与现有的Z分数、SMOTE(合成少数类过采样技术)、CFS(基于相关性的特征选择)和CRFS(基于因果干预的特征选择)在CICDS2017数据集中含有两种“攻击”(含“BENIGN”类型)类型时,训练精度和交叉验证精度收敛所需的训练样本数量对比。
图14、图15、图16和图17分别为本发明实施例方法与现有的Z分数、SMOTE、CFS和CRFS在CICDS2017数据集中含有12种攻击(含“BENIGN”类型)类型时的交叉验证准确率,训练精度和交叉验证精度收敛所需的训练样本数量对比。
具体实施方式
如图1所示,本实施例基于因果机器学习的网络安全监测分析方法包括:
1)针对网络流量的训练数据集的特征集合P进行预处理;
2)针对预处理后的特征集合P删除非因果噪声特征,得到只包含因果特征集合V的训练数据;
3)通过机器学习方法在训练数据中选择与检测数据接近的M类攻击标签;
4)通过反事实诊断方法计算M类攻击标签在反事实中异常特征的期望值,并选择使得期望值最大的攻击标签作为检测数据最终的网络入侵检测结果。
参见背景技术记载,现有基于机器学习或特征选择的安全监测系统均是基于特征与网络攻击类型之间的关联关系进行判别的,这种关联驱动因存在大量的强虚假关联而导致许多错误的分类。因此,基于理解一些因果关系,通过干预和反事实等修改一些变量来重新运行网络攻击对流量特征的影响来进行检测数据的网络攻击分类。本文引入的这种分类方式被称为因果机器学习。因果机器学习为揭示网络安全检测问题中的因果关系提供了一种有效的方法,长期以来因果机器学习一直是一个很有吸引力的研究课题。当前的因果推理主要采用两个模型:结构化因果网络模型和潜在结果模型。结构化因果网络模型是描述数据产生机制和外部干预的形式化语言,可建模数百种网络攻击、风险因子和异常特征之间的关系。潜在的结果模型通过数学定义给出因果作用,因为潜在结果模型假定结果和原因等变量是已知的,所以可以通过定量分析原因与结果变量之间的关系来评价因果作用。本实施例基于因果机器学习的网络安全监测分析方法可构建出网络安全监测框架,本实施例基于因果机器学习的网络安全监测分析方法的重点在于特征集合P删除非因果噪声特征,即通过因果推理的干预操作删除非因果特征来降低网络安全监测的计算复杂度;其次,通过反事实诊断方法计算M类攻击标签在反事实情景中异常特征的期望值,即通过反事实诊断方法在现有观察到的特征组合下假设是某类网络攻击导致该特征组合的出现,计算这种反事实情景中异常特征的期望值来识别出最有可能的网络攻击类型,基于因果推理的特点,该框架具有较高的检测精度、较低的误识率和较低的时间复杂度。
参见图1可知,本实施例步骤1)~步骤4)分别概括为数据预处理、特征选择、初步分类和最终分类四个阶段,下面分别对四个阶段进行详细说明。
第一阶段:数据预处理。
数据预处理是进行数据检测或数据处理的常规流程,在不同领域都或多或少会有一些公知的处理方法。本实施例中,步骤1)中的预处理依次包括Z分数标准化、最大最小标准化以及删除无效和错误的数据集合,这样做是为了提高训练模型的性能,减少网络流量数据中经常出现的类不平衡现象,适应反事实诊断方法二进制特征的需求同时通过去除模糊值既可以减少训练样本的大小,又能提高数据集的精确度。
由于机器学习分类模型在归一化数据集上的表现更好,所以首先对数据进行Z分数标准化。最常见的标准化方法就是Z标准化,也叫标准差标准化,这种方法给予原始数据的均值和标准差进行数据的标准化。经过处理后的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
Figure BDA0003277829270000051
上式中,Yzscore为Z分数标准化的结果,Yinst为初始化的流量特征值,U为特征的均值向量,σ为标准差。
最大最小标准化(Min-Max归一化)也叫离差标准化,是对原始数据的线性变换,其中Max为样本数据的最大值,Min为样本数据的最小值。因为反事实诊断方法中特征正常为0,异常为正整数,所以需要通过归一化处理为自然数。数据规范化是将符号转换为数值的必要步骤,每个值都需要将其扩展到适当的范围。这个过程有助于消除特征的较大偏差,其转化函数为:
Figure BDA0003277829270000052
上式中,ψij为对输入数据Yij的最大最小标准化结果,范围为0到N的整数形式;i表示第i行,j表示第j个特征;Min(Yj)表示第j个特征的最小值,Max(Yj)表示第j个特征的最大值,N为特征数量。
训练数据集中有部分的特征组合集是无效或者错误的。如一些特征组合为对应的标签为空,这种特征集为错误集;又或一些特征组合对应着多种网络攻击类型(如特征组合值[0,1,1,1]对应Dos和Exploits两种攻击),这种特征集为模糊集。错误集和模糊集是无法通过方法训练来进行标签归类的。所以,在对数据进行预处理阶段需要通过删除无效或者错误的数据,只留下特征组合与标签一对一的确定子集(如特征组合值[0,1,1,1]唯一对应Dos标签),以此来提高监测系统的鲁棒性。
第二阶段:特征选择。
通过特征选择,可减少机器学习分类模型和反事实诊断方法所需的特征数量。首先通过反事实假设、非因果特征识别,然后据此来筛选因果特征。该方法能够大量的删除非因果噪声特征,仅保留少量的因果特征。不仅降低了分类模型的时间复杂度,又可以在不牺牲分类准确率性能的前提下减少了训练时间。
本实施例中,步骤2)包括:
2.1)初始化循环变量i,在预处理后的包含p个特征的特征集合P中选择第i个特征为当前特征,初始化当前特征的删除特征集合Cu[i],其中0≤i<p;
2.2)分别遍历特征集合P中的所有特征,针对遍历得到的第j%p个特征,计算该第j%p个特征与网络攻击之间的因果效应值,如果因果效应值小于设定的阈值δ,则将该第j%p个特征值改为全0,并记为非因果特征添加到当前特征的删除特征集合Cu[i],其中i≤j<p+i;
2.3)判断循环变量i小于特征集合P的特征数量p是否成立,若成立则将循环变量i加1,跳转执行步骤2.1);否则,跳转执行步骤2.4);
2.4)将得到的所有的删除特征集合Cu[1]~Cu[p]按包含特征个数进行排序;
2.5)选取包含特征数最多的删除特征集合Cu[i]max,根据包含特征数最多的删除特征集合Cu[i]max中包含的特征编号删除特征集合P中对应的特征,并将所有剩余的特征保存至集合中作为得到的因果特征集合V。
本实施例中,步骤2.2)中因果效应值的计算函数表达式为:
Ej%p=E[X]-E[X|do(Yj%p)], (3)
上式中,Ej%p表示与第j%p个特征与网络攻击X之间的因果效应值,E[X]表示网络攻击X的期望值,E[X|do(Yj%p)]表示干预删除第j%p个特征后网络攻击X的期望值。
第三阶段:初步分类。
初步分类通过机器学习方法选择几类与测试集最为接近的类标签。因为事件之间如果有因果关系则必有关联性,但是如果没有关联性则必没有因果性。所以通过关联方法筛选出几类相关性最大的标签作为第四阶段的参考值,以此降低下阶段反事实诊断方法的复杂度。因此,反事实方法仅需要计算M个网络攻击的期望值,无需计算Gn个期望值(M<Gn,M为关联方法选中的几类攻击类型,Gn为训练数据集的攻击标签总类数,即:所有的攻击类型)。
如图2所示,本实施例中步骤3)包括:
3.1)计算检测数据与训练数据集之间的距离,其中训练数据集为n行v列,且每行都有自己的攻击标签,其中v为因果特征集合V的长度;检测数据为1行v列;
3.2)对检测数据与训练数据集每一行之间的距离进行排序,选取与检测数据距离最近的K行训练数据;
3.3)对K行训练数据中攻击标签出现的频率进行排序;
3.4)选取出现频率最靠前的M类攻击标签,M小于训练数据集的攻击标签总类数。
其中,步骤3.1)中的距离可采用曼哈顿距离或者欧式距离,此外还可以根据需要采用其他距离方法。
第四阶段:最终分类。
最终分类阶段通过反事实诊断方法计算几类相关性最大的攻击类型在反事实中异常特征的期望值,其期望值越大,则其与测试集为因果关系的可能性最大。
如图3所示,本实施例中步骤4)包括:
4.1)设定各个特征异常与否的阈值δ,将训练数据和检测数据的所有特征取值转变成{0,1}分布,使其服从伯努利分布;
4.2)根据训练数据求出X和Y的条件概率分布表;
4.3)根据X和Y的条件概率分布表,分别计算M类攻击标签在反事实中异常特征的期望值;
4.4)将M类攻击标签在反事实中计算出的异常特征的期望值进行排序;
4.5)选择所有在反事实中异常特征期望值中的最大值所对应的攻击标签作为检测数据最终的网络入侵检测结果。
本实施例中,步骤4.3)中计算M类攻击标签在反事实中异常特征的期望值的函数表达式为:
Figure BDA0003277829270000071
上式中,E(Xk,ε)表示攻击标签Xk在反事实中异常特征的期望值;ε为1行v列的检测数据,ε=Y±,Y+表示特征集合中的异常特征,Y-为正常特征;P(Y±,Xk)为网络攻击Xk和包含正常和异常特征的检测数据的联合先验概率分布;P(Y±)为异常和正常特征集合的先验概率分布;A为某个异常特征,P(Y-=0,A=0,Xk=1)为正常特征、某个异常特征A被干预设置为正常、网络攻击Xk为攻击时的联合先验概率分布;Y+\A为排除某个异常特征A的异常特征集合,
Figure BDA0003277829270000072
为因为噪声变量的影响而使得网络在遭受网络攻击Xk攻击时,流量特征Y仍表现为正常的概率,a为排除异常特征A的异常特征集合中的某个异常特征。基于上述公式可知,假定X和Y的条件概率分布表如表1所示。
表1:先验分布计算示例表。
Figure BDA0003277829270000081
如表1所示:假若观测证据ε为{1,1,0,0,0},则公式(4)中的异常特征Y+为Y1、Y2,正常特征Y-为Y3、Y4、Y5,则有:
Figure BDA0003277829270000082
Figure BDA0003277829270000083
假若A为Y1特征,则有:
Figure BDA0003277829270000084
通过前四个阶段的联合作用,使得本实施例基于因果机器学习的网络安全监测分析方法不仅在分为正常实例和攻击实例的模型中有高的精度,而且在攻击类型较多较复杂的模型中也有很高的精度。
下文将对本实施例中因果机器学习的原理进行说明。传统机器学习是基于关联驱动的,对于未知的测试数据集很难达到稳定的监测。传统机器学习在关联挖掘中会发现一些非因果特征,比如风险因素与疾病症状之间的关系,并利用这种强的虚假相关进行预测。如果我们能够发现症状与病人信息(如疾病史,年龄、性别等)之间的因果关系,我们人类在识别疾病的时候就会去关心病人的所处环境、疾病史和个体身体素质等这些因果特征,那么无论什么情况,我们都可以正确的诊断出病人所得疾病。贝叶斯网络之父朱迪亚·珀尔曾在因果关系科普著作《为什么》中说道,“沿着因果关系之梯,机器便有望拥有强人工智能”,强调了因果关系在实现机器智能过程中的重要性。
定义1:在保持其他东西不变的情况下,改变X会引起Y的变化,那么就称X是Y的原因。
推论1:若X的单位变化能引起Y的单位变化,其中引起变化的大小为因果效应的度量。假若X1与Y之间因果效应的度量大小强于X2与Y,则是X1导致了Y。
A、基于因果推理的特征选择。
因果推理的基本问题:因为混淆因素(在有向无环图中,这被称为偏路径:X导致Y,但Z同时导致X和Y。因此,X是一个混淆因素)的出现,难以判别真正的因果关系。或者对于一个问题的解释非常多,我们如何在这个因果问题的征询过程中,根据定义1和推论1找到最接近真理的那一个?
1)反事实假设:
一般现实情况中,流量特征的异常是由网络攻击导致的。网络攻击是原因,流量异常是结果,因果关系的方向由网络攻击指向流量特征,如图4中的(a)所示,X为网络攻击,Y为相对应的流量特征。为了更好的通过统计数据分析X与Y之间的因果关系,我们假设由Y导致X的出现,如图4中的(b)所示。根据定义1,假设在其他条件不变的情况下,反事实中Y1、Y2....Yn的变化都会导致X的变化,则说明这两者之中具有因果关系,同时也等价于事实情况中X为因,Y1、Y2....Yn为果。
2)非因果特征识别:
如图5中的(a)所示,一般事实情况下网络攻击X和特征Yi以及Yj之间的关系有很多种,如果不厘清他们之间的因果关系和方向,就会影响对异常特征的归类判断。如图5中的(b)所示,假设Yi与Yj之间具有相互的因果关系,其中一个特征异常就会导致另外一个特征异常。如果仅凭Yj的异常就判断是网络攻击X导致的,就可能会导致错误的结论。因为Yj的异常也可能是Yi导致的。根据反事实假设,颠反网络攻击X与特征Y之间事实的因果方向如图5中的(c)所示。于是在反事实假设中可以对特征Y进行干预,根据X的期望值变化求出Y与X的因果关系,如下公式(5)所示:
Figure BDA0003277829270000091
上式中,E[X|do(Yi)]表示干预第i个特征下X的期望值,X表示网络攻击,Y表示特征,do(Yi=yi)表示干预设置第i个特征的值为yi(yi为0或者1),P(|)表示条件概率分布。如果Y与X之间的条件分别满足以下规则,则式(5)可以进一步简化。
规则1:如果Yi与Yj独立,则有:
Figure BDA0003277829270000092
上式中,E[X|do(Yi)]表示干预第i个特征下X的期望值,X表示网络攻击,Y表示特征,do(Yi=yi)表示干预设置第i个特征的值为yi(yi为0或者1),P(|)表示条件概率分布。
证明:
在统计模型中,联合分布的计算公式为:
Figure BDA0003277829270000093
上式中,x表示网络攻击,P(x1,x2,x3,...,xn)表示x1,x2,x3,...,xn的联合概率分布,P(x1)表示x1的概率分布,P(xi|xi-1,...,x1)表示已知xi-1,...,x1情况下xi的条件概率分布。
而根据马尔可夫假设:在一个有向无环图中,给定节点X的所有父节点,节点X独立于其父节点的所有非子代节点。可以将以上公式简写为:
P(x)=Πi∈nP(xi|pa(xi)), (8)
上式中,x表示网络攻击,P(x)为P(x1,x2,x3,...,xn),表示x1,x2,x3,...,xn的联合概率分布;P(xi|pa(xi))表示已知pa(xi)时xi的条件概率分布,pa(xi)代表xi的所有父节点,这个公式也称为贝叶斯网络因式分解。根据图5中的(c)进行贝叶斯网络因子化则有:
P(x,yi,yj)=P(x|yi,yj)P(yi|yj)P(yj|yi), (9)
上式中,x表示网络攻击,y表示流量特征,P(x,y)表示x和y的联合概率分布,P(|)表示条件概率分布。
根据截断因式分解:
P(x,yj|do(yi))=P(yj)P(x|do(yi),yj),( 10)
上式中,x表示网络攻击,y表示流量特征,P(x|do(y))表示干预yi(设置yi为0或者1)的情况下x的条件概率分布,P(|)表示条件概率分布。
边缘化yj
P(x|do(yi))=∑yjP(x|yi,yj)P(yj), (11)
上式中,x表示网络攻击,y表示流量特征,P(x|do(y))表示干预yi(设置yi为0或者1)的情况下x的条件概率分布,P(|)表示条件概率分布。
因此有:
Figure BDA0003277829270000101
上式中,E[X|do(Yi)]表示干预第i个特征下X的期望值,X表示网络攻击,Y表示特征,do(Yi=yi)表示干预设置第i个特征的值为yi(yi为0或者1),P(|)表示条件概率分布。
规则2:如果Yi与X独立,则有:
Figure BDA0003277829270000102
上式中,E[X|do(Yi)]表示干预第i个特征下X的期望值,X表示网络攻击,Y表示特征,do(Yi=yi)表示干预设置第i个特征的值为yi(yi为0或者1),P(|)表示条件概率分布。
规则3:如果Yi与Yj和X均独立,则有:
Figure BDA0003277829270000103
上式中,E[X|do(Yi)]表示干预第i个特征下X的期望值,X表示网络攻击,Y表示特征,do(Yi=yi)表示干预设置第i个特征的值为yi(yi为0或者1),P(|)表示条件概率分布。
根据推论1,可计算X与Yi的因果效应度量E:
E=E[X]-E[X|do(Yi)], (15)
上式中,E表示第i个特征与网络攻击X之间的因果效应值,E[X]表示网络攻击X的期望值,E[X|do(Yi)]表示干预删除第i个特征后网络攻击X的期望值,从而可得到式(3)。
3)特征筛选。
如果一些特征跟网络攻击的因果效应值不大或者为0时,那么这些特征就无法构成判断网络是否遭受这些攻击的依据,如若不删除这些可能具有强虚假关联关系的特征,就会造成对判断攻击与特征因果关系的干扰。根据因果发现的方法对所有流量特征执行干预操作,如图6所示。如果Y1,Y3,...,Yn-1与X和其他特征之间无任何因果关系,则可以根据规则3转化公式(4)为如下公式(16):
Figure BDA0003277829270000111
上式中,E[X|do(Y1),do(Y3),...,do(Yn-1)]表示干预第1,3,...,n-1个特征时,X的期望值。如果公式(16)成立,则可根据反事实的假设恢复出事实情况下的因果关系如图7。根据公式(17),假设对Y1、Y3、...、Yn-1进行干预时,则Y1、Y3、...、Yn-1与Xk的因果效应强度为:
Figure BDA0003277829270000112
上式中,ξk表示干预Xk时的因果效应值,Xk表示第k个网络攻击,Yi表示第i个流量特征,L为1、3、...、n-1。如若满足:
ξ1=ξ2=...=ξn≤δ, (18)
则网络攻击与特征的贝叶斯网络模型可以简化为图8。如图8所示,根据上述方法,对数据进行预处理时,则可删除特征Y1、Y3和Yn-1。然后根据简化因果关系图得出如下公式(19)所示的因果对应关系,这样既降低了计算复杂度,又提升了检测速度。
Figure BDA0003277829270000113
上式中,x为网络攻击标签,y特某个流量特征,{}表示集合。
B、基于因果推理的反事实诊断:虽然经过如图8所示的特征筛选后简化了因果关系,但是攻击类型与流量特征之间依然是多对多的关系。如何从众多的攻击标签中选择最适合的标签解释其与异常特征集之间的因果关系是反事实方法的工作要义所在。根据“执果索因”,我们可以假定在某些先决条件变化时,反事实中的结果是否会有所变化,然后根据因果效应的大小为因果判断提供依据。例如为了量化入侵检测系统中网络攻击导致异常特征的因果性,可以采用反事实进行推理。假设在给定证据ε=e的条件下,对X进行干预并设定其值等于x,则可以计算出反事实中ε=e′的概率为p(ε=e’|ε=e,do(X=x))。所以通过反事实征询可以提供形式化语言来量化假定在攻击X=1时特征异常Y=1的大小。同理,通过对事实图结构贝叶斯网络模型进行编码复制成一个“双网络”,然后隐去风险因素Z的外生潜在变量后简化如图9所示。根据图9执行反事实查询,在风险因素Z的情况下,通过干预设置Xi′=0来“解决掉”某些攻击而只容许单一攻击Xa′=1的情况下求出概率P(Y=1|Xa′,do(Xi′=0))。P越大,Xa导致特征异常的可能性越大。
定理2:执行干预以关闭反事实中除Xa′以外的所有网络攻击,预期仍然会出现的异常特征期望数量为:
Figure BDA0003277829270000121
上式中,Xa表示网络攻击的类型a;Y+表示网络异常特征;Pa(Y+)表示Y+的父节点,为导致特征Y异常的所有网络攻击;Pa(Y+)\Xa表示除Xa外的所有Y+的父节点;Y+表示反事实中的网络异常特征,ε表示观测到的网络特征集合。如若E(Xa,ε)在所有E(Xi,ε)中最大或超过我们设定的阈值,则攻击类型Xa构成对给定证据ε=e的因果解释。
推论2:根据上述式子和Richens J G等的《Improving the accuracy ofmedicaldiagnosis with causal machine learning[J]》(Nature Communications,2020,11(1):3923.)记载的推断方法,我们推导得出:
Figure BDA0003277829270000122
上式中,E(Xk,ε)表示攻击标签Xk在反事实中异常特征的期望值;ε为1行v列的检测数据,ε=Y±,Y+表示特征集合中异常特征,Y-为正常特征;P(Y±,Xk)为网络攻击Xk和包含正常和异常特征的检测数据的联合先验概率分布;P(Y±)为异常和正常特征集合的先验概率分布;A为某个异常特征,P(Y-=0,A=0,Xk=1)为正常特征、异常特征A被干预设置为正常、网络攻击Xk为攻击时的联合先验概率分布;Y+\A为排除某个异常特征A的异常特征集合,
Figure BDA0003277829270000123
为因为噪声变量的影响而使得网络在遭受Xk攻击时,流量特征Y仍表现为正常的概率,a为排除异常特征A的异常特征集合中的某个异常特征。
式(21)既可以形式化现实世界中不存在的反事实情景,又能极大的简化了攻击与特征之间因果关系求解。
下文将对本实施例方法的时间复杂度以及性能进行分析和实验。
第一部分、关于本实施例方法的时间复杂度。
为了确定所提出的本实施例方法的时间复杂度,我们需要确定每个阶段使用的每个方法的复杂度。考虑到这项工作比较了不同方法在框架的不同阶段的性能,总体时间复杂度是由产生最高总体复杂度的方法决定。假设数据由n个样本和p个特征组成,一般情况下n>>p。从第一阶段即数据预处理阶段开始,Z分数和Min-Max归一化过程的复杂度为O(p),因为我们需要对数据集内的p个特征的所有样本进行归一化。去除模糊值的复杂度为O(n),因为我们需要对数据集内n行样本进行分析然后剔除错误和无关集合。因此,第一阶段的总体复杂度为O(n)。第二阶段的复杂度为O(p2)。首先,该阶段对所有特征进行干预操作,只需执行(p+p/2)*(p/4)步即可。第三阶段,KNN(K近邻)的时间复杂度为O(nl*k),随机森林的时间复杂度为O(nl*k*D),k(k<p)为特征筛选后的维度,nl为去除模糊值后的样本个数,D是树的深度。第四阶段的时间复杂度为O(M*nl*k),M(M<D)为第三阶段所选的攻击类型的数量。因此,本实施例方法的时间复杂度O(nl*k*D)。而数据预处理和特征筛选的时间复杂度仅为O(n+p^2)。一般情况下n>>p,所以数据预处理和特征筛选的时间复杂度约等于O(n),这个时间复杂度远远小于现有的MOMBNF《Multi-Stage Optimized Machine LearningFramework for Network Intrusion Detection[J]》(IEEE Transactions on Networkand Service Management,2020,pp(99):1-1.)等特征选择方法的时间复杂度O(n*p2)。确定本实施例方法的完整阶段的总体时间复杂性是至关重要的,因为本实施例方法将经常被重新训练以学习新的攻击模式,这是基于网络入侵攻击不断发展的事实,因此组织需要一个灵活和动态的网络入侵检测系统来跟上这些新的攻击。
第二部分、关于本实施例方法的性能对比实验。
为了对本实施例方法进行验证,下文将结合数据进行对比实验。
关于训练和测试数据:对比实验的训练和测试数据采用加拿大网络安全研究所于2017年推出的数据集CICIDS2017。数据集CICIDS2017包含良性和最新的常见攻击类型,类似于真实世界的数据。该数据集中一共包含11种攻击类型:DrDoS_MSSQL,DrDoS_SNMP,Syn,DrDoS_NTP,TFTP,UDP-lag,DrDoS_NetBIOS,DrDoS_DNS,DrDoS_UDP,DrDoS_LDAP,DrDoS_SSDP;一共87个特征属性。它还包括使用CICFlowMeter进行网络流量分析的结果,该结果基于时间戳、源和目标IP、源和目标端口、协议和攻击标记流。
实验环境及实验设置:本实施例中,实验环境为Spyder(Python 3.8),实验数据按8:2的分裂标准进行归一化后,两个数据集被随机分成训练和测试样本。实验结果分为三个主要部分:特征选择对训练样本的影响、特征选择对特征集的影响以及不同攻击类型数量下对检测性能的影响。
实验结果分析:
(1)数据预处理对训练样本的影响。
(1.1)数据预处理对训练样本量的影响。
本实施例中,从数据预处理阶段对训练样本大小的影响入手,得到训练精度和交叉验证精度随训练样本大小变化的学习曲线。使用80%/20%的分裂标准进行归一化后,两个数据集被随机分成训练和测试样本。
本实验使用现有的Z分数、SMOTE、CFS和CRFS技术进行对比。其中SMOTE方法是经过Z分数对数据处理后使用SMOTE算法对少数类进行采样;CFS是经过SMOTE技术对数据处理后对特征进行筛选;本发明提出的CRFS方法是经过Z分数对数据处理后,利用本文基于因果推理的特征选择的方法筛选特征。图10-17是CICIDS2017数据集经过上述四种数据处理后在不同攻击类型情况下的交叉验证曲线。
图10~图13是CICDS2017数据集中含有两种“攻击”(含“BENIGN”类型)类型时,训练精度和交叉验证精度收敛所需的训练样本数量。如图10~图13所示,CICIDS 2017数据集要使训练精度和交叉验证精度收敛,Z分数需要的训练样本数量16万以上;SMOTE需要的训练样本数量约为16万以上;CFS需要的训练样本数量接近15万个样本,下降约为20%;CRFS需要的训练样本数量约为10万,相比Z分数、SMOTE和CFS的样本空间分别下降40%、40%和33%,同时又确了保训练精度相差无几。图14~图17是CICDS2017数据集中含有12种攻击(含“BENIGN”类型)类型时的交叉验证准确率,训练精度和交叉验证精度收敛所需的训练样本数量。如图14~图17所示,CICIDS 2017数据集要使训练精度和交叉验证精度收敛,Z分数需要的训练样本数量接近10万,SMOTE需要的训练样本数量接近9万,下降约为10%;CFS需要的训练样本数量接近5万,下降约为50%;CRFS需要的训练样本数量接近3万,相比Z分数、SMOTE和CFS的样本空间分别下降70%、66.7%和40%,同时训练精度又为最高,相比最高的SMOTE提升约为10%。从图10~图17可以看出,随着CICIDS2017数据集种攻击类型的增加,Z分数、SMOTE和CFS所需要的训练集样本都有较大的增长而训练精度降幅明显,而CRFS基本保持在5万个样本以下,训练样精度下降幅度较小。这突出了在CICIDS 2017数据集中使用CRFS技术的积极影响,因为它能够显著减少所需训练样本的大小,而不牺牲检测性能。
(1.2)数据预处理对训练时间的影响。
表2:构建学习曲线所需的时间。
Figure BDA0003277829270000141
为了进一步突出使用数据预处理阶段的影响,表2确定了不同方法在不同数据集下构建学习曲线所需的时间。例如,在CICIDS 2017数据集中攻击类型数量为2时,Z分数为构建学习曲线需要将近483s,经过SMOTE技术对Z分数数据处理后降低到370s,而再一次经过CFS技术处理后时间降低到154s。但通过CRFS技术对Z分数数据进行处理后构建学习曲线所需的时间仅为90s,相比Z分数、SMOTE、CFS分别降低了81.4%、75.7%和41.6%。整体来说,CRFS技术对数据处理后的整体性能要强于Z分数、SMOTE和CFS,特别是在CICIDS2017数据集中要远强于其他三类方法。
(2)特征选择对特征集大小的影响。
本实验采用了三组对照实验,分别是SMOTE、CFS、Min-Max方法处理数据后是否采用CRFS方法进一步筛选特征后的特征数量及其训练精度对比。表3~6中的SMOTE、CFS、Min-Max后面加(do)表明数据经过这些方法处理后应用CRFS方法对数据进行处理和特征筛选。
表3:CICDS2017数据集应用不同特征筛选方法筛选后的特征数量。
Figure BDA0003277829270000151
表3是数据集CICIDS 2017在不同网络攻击类型数量下,通过不同的方法处理后所留下的特征数量。从表3可以看出,经过CRFS方法处理后,训练所需特征数量相比处理前最低降幅高于50%,最多降幅达到94%以上。且经过CRFS方法处理后的特征数量均明显小于CFS方法的计算结果,这是由于基于因果推理的CRFS仅仅选择与攻击类型有因果关系的网络特征属性,剔除掉了虚假关联关系的特征,有效的压缩了训练和检测样本空间。而CFS虽然是基于高度相关的特征选择方法,也能大大压缩特征数量,但这种选择方法同样选择了部分强虚假关联的非因果特征,导致其特征数量压缩要弱于CRFS。
表4:CICDS2017数据集应用SMOTE和CRFS的精度对比。
Figure BDA0003277829270000152
表5:CICDS2017数据集应用CFS和CRFS的精度对比。
Figure BDA0003277829270000153
Figure BDA0003277829270000161
表6:CICDS2017数据集应用MinMax和CRFS的精度对比
Figure BDA0003277829270000162
表4~表6分别是CICDS2017数据集在应用SMOTE、CFS、Min-Max方法处理数据后是否采用CRFS后再通过KNN训练的检测精度。根据上表可知,虽然通过CRFS方法处理后其训练所需特征数量大大压缩了,但其训练精度仍然保持了原有方法99%左右的精度,相比压缩的特征数量其降幅几乎可以忽略不计。结果显示,CRFS方法不仅能有效的减少训练样本空间,同时又能保证训练样本的准确率相对稳定。这是因为通过CRFS方法可以识别网络攻击与特征之间的真正因果关系,而剔除的特征仅仅是虚假关联的特征,对其准确率的影响微乎其微。
(3)不同数量攻击类型数量下对检测性能的影响。
为评价不同分类器的性能,研究不同优化方法对分类器性能的影响,我们根据检测数据的准确度(acc)这个评价指标来评定。随机森林(RS),树结构Parzen估计方法(TPE)这两种调参方法是MOMBNF中KNN和随机森林准确度最高的两种优化调参方法。NBCML是本文基于因果机器学习构建出的基于因果机器学习的网络安全监测分析系统。表7是CICIDS2017数据集在不同攻击类型数量下应用不同的算法处理数据和训练样本后测试集的准确率对比。
表7:CICDS2017数据集在不同攻击类型数量下应用不同检测算法时测试集的性能结果。
Figure BDA0003277829270000163
如表7,在CICIDS 2017数据集中,随着数据集中攻击类型数量的增加,MOMBNF方法的检测准确率下降明显。当攻击类型达到12时,MOMBNF的所有调参优化方法的检测准确率均低于90%,特别是基于IGBS(基于信息增益的特征选择)处理数据后其测试集的准确率低至30%以下,而经NBCML训练后其测试集的准确率却稳定在98.5%以上,相比最优的RS-KNN-CFS方法其提升幅度近10%左右。由表7可以看出,不管数据集的组成成分如何,NBCML测试集的准确率均高于MOMBNF和BRS《An efficient feature selection-based Bayesianand Rough set approach for intrusion detection》(Applied Soft Computing,2020,87:105980.)方法的准确率,特别是攻击类型较多时,NBCML相对MOMBNF对检测率的提升更为明显。
综上所述,随着5G时代的到来,人类社会对互联网的依赖日益加深。由于网络系统的不安全性将会造成个人或社会无可估量的损失,网络安全领域获得了业界和学术界的高度关注。因此现阶段几乎所有的网络设施都正在或已经部署和分配了更多的资源以保护现有网络免受潜在的攻击。因此,大量的实践研究提出了许多不同类型的网络安全监测方法。尽管随着学术界对网络安全监测研究加深,其检测性能也不断提高,但仍有进一步提升的空间。现有传统基于关联的机器学习算法无法将相关性与因果性解耦,对于未知的测试数据集就很难达到稳定的预测。特别是许多的机器学习算法或者基于特征选择的算法,均是基于关联驱动来判断特征属性与网络攻击之间的因果关系的,因为这种关联关系中存在着大量的强虚假关联而导致许多的错误结论,特别是在网络攻击类型数量较多时,网络安全监测系统的准确率往往低于90%。因此,本文基于因果机器学习构建出的网络安全监测系统,通过因果干预识别因果关系,删除噪声特征,既提升了检测性能又降低了计算复杂度。基于因果机器学习的网络安全监测方法与系统利用CICIDS 2017集来进行性能评估,首先通过CRFS识别出网络攻击与特征之间的真正因果关系,然后剔除虚假关联的特征以此来降低训练样本空间并确定有效入侵检测的最小合适训练样本。实验结果表明,使用因果发现筛选特征可以将训练样本的大小降低到原始数据集的6%~50%,同时又能保证网络监测系统准确率的相对稳定。其次,本文从数据预处理阶段对训练样本大小的影响入手,得到训练精度和交叉验证精度随训练样本大小变化的学习曲线,比较了Z分数、SMOTE、CFS和CRFS四种技术的学习曲线。实验结果表明,所提出的CRFS特征选择方法在CICIDS 2017数据集中能将特征集大小最多可减少近70%。最后,为评价不同分类器的性能,研究不同优化方法对分类器性能的影响,利用K近邻(KNN)和随机森林(RF)两种ML分类模型研究了不同攻击类型数量中MOMBNF、BRS、基于因果机器学习等算法的检测准确率。实验结果表明,与其他优化技术相比,基于因果机器学习的监测方法具有最高的检测精度(当攻击类型达到12时,相比最优的RS-KNN-CFS方法,其准确率提升近9%)。
此外,本实施例还提供一种基于因果机器学习的网络安全监测系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述基于因果机器学习的网络安全监测分析方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行前述基于因果机器学习的网络安全监测分析方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于因果机器学习的网络安全监测分析方法,其特征在于,包括:
1)针对网络流量的训练数据集的特征集合P进行预处理;
2)针对预处理后的特征集合P删除非因果噪声特征,得到只包含因果特征集合V的训练数据;
3)通过机器学习方法在训练数据中选择与监测数据接近的M类攻击标签;
4)通过反事实诊断方法计算M类攻击标签在反事实中异常特征的期望值,并选择使得期望值最大的攻击标签作为最终的网络入侵检测结果。
2.根据权利要求1所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤1)中的预处理依次包括Z分数标准化、最大最小标准化以及删除无效和错误的数据集合。
3.根据权利要求1所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤2)包括:
2.1)初始化循环变量i,在预处理后的包含p个特征的特征集合P中选择第i个特征为当前特征,初始化当前特征的删除特征集合Cu[i],其中0≤i<p;
2.2)分别遍历特征集合P中的所有特征,针对遍历得到的第j%p个特征,计算该第j%p个特征与网络攻击之间的因果效应值,如果因果效应值小于设定的阈值δ,则将该第j%p个特征值改为全0,并记为非因果特征添加到当前特征的删除特征集合Cu[i],其中i≤j<p+i;
2.3)判断循环变量i小于特征集合P的特征数量p是否成立,若成立则将循环变量i加1,跳转执行步骤2.1);否则,跳转执行步骤2.4);
2.4)将得到的所有的删除特征集合Cu[1]~Cu[p]按包含特征个数进行排序;
2.5)在排序后的所有的删除特征集合Cu[1]~Cu[p]中选取包含特征数最多的删除特征集合Cu[i]max,根据包含特征数最多的删除特征集合Cu[i]max中包含的特征编号删除特征集合P中对应的特征,并将所有剩余的特征保存至集合中作为得到的因果特征集合V。
4.根据权利要求3所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤2.2)中因果效应值的计算函数表达式为:
Ej%p=E[X]-E[X|do(Yj%p)],
上式中,Ej%p表示第j%p个特征与网络攻击X之间的因果效应值,E[X]表示网络攻击X的期望值,E[X|do(Yj%p)]表示干预删除第j%p个特征后网络攻击X的期望值。
5.根据权利要求1所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤3)包括:
3.1)计算检测数据与训练数据集之间的距离,其中训练数据集为n行v列,且每行都有自己的攻击标签,其中v为因果特征集合V的长度;检测数据为1行v列;
3.2)对检测数据与训练数据集每一行之间的距离进行排序,选取与检测数据距离最近的K行训练数据;
3.3)对K行训练数据中攻击标签出现的频率进行排序;
3.4)选取出现频率最靠前的M类攻击标签,M小于训练数据集的攻击标签总类数。
6.根据权利要求5所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤3.1)中的距离是指曼哈顿距离或者欧式距离。
7.根据权利要求1所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤4)包括:
4.1)设定各个特征异常与否的阈值δ,将训练数据和检测数据的所有特征取值转变成{0,1}分布,使其服从伯努利分布;
4.2)根据训练数据求出X和Y的条件概率分布表;
4.3)根据X和Y的条件概率分布表,分别计算M类攻击标签在反事实中异常特征的期望值;
4.4)将M类攻击标签在反事实中计算出的异常特征的期望值进行排序;
4.5)选择所有在反事实中异常特征期望值中的最大值所对应的攻击标签作为检测数据最终的网络入侵检测结果。
8.根据权利要求7所述的基于因果机器学习的网络安全监测分析方法,其特征在于,步骤4.3)中计算M类攻击标签在反事实中异常特征的期望值的函数表达式为:
Figure FDA0003277829260000021
上式中,E(Xk,ε)表示攻击标签Xk在反事实中异常特征的期望值;ε为1行v列的检测数据,ε=Y±,Y+表示特征集合中的异常特征,Y-为正常特征;P(Y±,Xk)为网络攻击Xk和包含正常和异常特征的检测数据的联合先验概率分布;P(Y±)为异常和正常特征集合的先验概率分布;A为某个异常特征,P(Y-=0,A=0,Xk=1)为正常特征、某个异常特征A被干预设置为正常、网络攻击Xk为攻击时的联合先验概率分布;Y+\A为排除某个异常特征A的异常特征集合,
Figure FDA0003277829260000022
为因为噪声变量的影响而使得网络在遭受网络攻击Xk攻击时,流量特征Y仍表现为正常的概率,a为排除异常特征A的异常特征集合中的某个异常特征。
9.一种基于因果机器学习的网络安全监测分析方法与系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于因果机器学习的网络安全监测分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有被编程或配置以执行权利要求1~8中任意一项所述基于因果机器学习的网络安全监测分析方法的计算机程序。
CN202111123336.3A 2021-09-24 2021-09-24 一种基于因果机器学习的网络安全监测分析方法与系统 Active CN113824725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111123336.3A CN113824725B (zh) 2021-09-24 2021-09-24 一种基于因果机器学习的网络安全监测分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111123336.3A CN113824725B (zh) 2021-09-24 2021-09-24 一种基于因果机器学习的网络安全监测分析方法与系统

Publications (2)

Publication Number Publication Date
CN113824725A true CN113824725A (zh) 2021-12-21
CN113824725B CN113824725B (zh) 2023-04-07

Family

ID=78915487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111123336.3A Active CN113824725B (zh) 2021-09-24 2021-09-24 一种基于因果机器学习的网络安全监测分析方法与系统

Country Status (1)

Country Link
CN (1) CN113824725B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884843A (zh) * 2022-06-10 2022-08-09 三峡大学 一种基于网络视听新媒体的流量监测系统
CN117520905A (zh) * 2024-01-03 2024-02-06 合肥工业大学 一种基于因果干预的反事实故障数据生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018200111A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Anomaly and causation detection in computing environments using counterfactual processing
US20180314835A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Anomaly and Causation Detection in Computing Environments
CN112087447A (zh) * 2020-09-07 2020-12-15 广西师范大学 面向稀有攻击的网络入侵检测方法
CN112257441A (zh) * 2020-09-15 2021-01-22 浙江大学 一种基于反事实生成的命名实体识别增强方法
CN112488290A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 具有依赖关系的自然语言多任务建模、预测方法及系统
US20210089895A1 (en) * 2019-09-20 2021-03-25 Robert Bosch Gmbh Device and method for generating a counterfactual data sample for a neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018200111A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Anomaly and causation detection in computing environments using counterfactual processing
US20180314835A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Anomaly and Causation Detection in Computing Environments
US20210089895A1 (en) * 2019-09-20 2021-03-25 Robert Bosch Gmbh Device and method for generating a counterfactual data sample for a neural network
CN112087447A (zh) * 2020-09-07 2020-12-15 广西师范大学 面向稀有攻击的网络入侵检测方法
CN112257441A (zh) * 2020-09-15 2021-01-22 浙江大学 一种基于反事实生成的命名实体识别增强方法
CN112488290A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 具有依赖关系的自然语言多任务建模、预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨梦月;何洪波;王闰强;: "基于反事实学习及混淆因子建模的文章个性化推荐" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884843A (zh) * 2022-06-10 2022-08-09 三峡大学 一种基于网络视听新媒体的流量监测系统
CN114884843B (zh) * 2022-06-10 2023-05-09 三峡大学 一种基于网络视听新媒体的流量监测系统
CN117520905A (zh) * 2024-01-03 2024-02-06 合肥工业大学 一种基于因果干预的反事实故障数据生成方法
CN117520905B (zh) * 2024-01-03 2024-03-22 合肥工业大学 一种基于因果干预的反事实故障数据生成方法

Also Published As

Publication number Publication date
CN113824725B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Farahnakian et al. A deep auto-encoder based approach for intrusion detection system
Abusnaina et al. Adversarial example detection using latent neighborhood graph
Haggag et al. Implementing a deep learning model for intrusion detection on apache spark platform
Telikani et al. Cost-sensitive stacked auto-encoders for intrusion detection in the Internet of Things
Wang et al. A clustering algorithm for intrusion detection
Deore et al. Hybrid optimization enabled robust CNN-LSTM technique for network intrusion detection
CN113824725B (zh) 一种基于因果机器学习的网络安全监测分析方法与系统
Singh et al. Edge-detect: edge-centric network intrusion detection using deep neural network
Verma et al. A network intrusion detection approach using variant of convolution neural network
Chua et al. Evaluation of machine learning algorithms in network-based intrusion detection system
Zhang et al. The classification and detection of malware using soft relevance evaluation
Zeng et al. Intrusion detection framework based on causal reasoning for DDoS
Rajora Reviews research on applying machine learning techniques to reduce false positives for network intrusion detection systems
Sezgin et al. Enhancing intrusion detection in industrial internet of things through automated preprocessing
US20210365771A1 (en) Out-of-distribution (ood) detection by perturbation
Shao et al. Deep learning hierarchical representation from heterogeneous flow-level communication data
CU et al. Efficient ensemble to combat flash attacks
Dharaneish et al. Comparative analysis of deep learning and machine learning models for network intrusion detection
US11727109B2 (en) Identifying adversarial attacks with advanced subset scanning
Subha et al. Anomaly detection and oversampling approach for classifying imbalanced data using CLUBS technique in IoT healthcare data
CN113536299A (zh) 一种基于贝叶斯神经网络的入侵检测系统的设计方法
Farahnakian et al. Anomaly-based intrusion detection using deep neural networks
CN117134943A (zh) 一种基于模糊贝叶斯网络的攻击模式预测方法
Qin et al. ADSAD: An unsupervised attention-based discrete sequence anomaly detection framework for network security analysis
Shah et al. Group feature selection via structural sparse logistic regression for IDS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant