CN117811822B - 基于自适应动态多核单类支持向量机的异常行为检测方法 - Google Patents
基于自适应动态多核单类支持向量机的异常行为检测方法 Download PDFInfo
- Publication number
- CN117811822B CN117811822B CN202410009685.XA CN202410009685A CN117811822B CN 117811822 B CN117811822 B CN 117811822B CN 202410009685 A CN202410009685 A CN 202410009685A CN 117811822 B CN117811822 B CN 117811822B
- Authority
- CN
- China
- Prior art keywords
- data
- kernel
- function
- kernel function
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 53
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims description 164
- 239000013598 vector Substances 0.000 claims description 33
- 230000009977 dual effect Effects 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000001575 pathological effect Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007427 paired t-test Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于自适应动态多核单类支持向量机的异常行为检测方法,首先,基于Scapy工具提取内网非受控终端网络数据信息,进而采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度,并以此为依据,选取出个核函数,最后通过SMO方法,得到各核函数最优权重;单类支持向量机模型是基于数据不断迭代更新的,可以更精确的描绘出内网非受控终端在网络层面上的数据行为特征,提升异常行为检测精度。本发明具有更高的精度和更好的抗噪声干扰能力。
Description
技术领域
本发明涉及一种基于自适应动态多核单类支持向量机的异常行为检测方法。
背景技术
近些年来,信息技术迅猛发展,网络数据安全问题日益严峻。当前,仅依靠防火墙技术不足以应对当前形势下纷繁复杂的网络攻击。具备主动网络监控系统的出现弥补了上述不足,可在一定程度上应对网络安全入侵及机密信息外泄等问题,引起了国内外研究学者的广泛关注。
肖中峰等运用基于Kmean算法,基于协议层面的网络行为数据,搭建了网络异常行为特征库,并基于此,构建了网络异常行为识别系统。Wang等基于智能电网日志数据抽取了16个特征,并构建了基于随机森林的提升算法模型,用以识别网络故障及攻击等异常行为。黄河等通过对网络流量进行特征匹配与模式识别,检测出恶意入侵的网络流量。李铮等搭建了6层深度神经网络,并基于此实现对网络异常行为的检测。
上述研究成果从网络流量分析、协议层数据解析、主机行为信息分析等多个层面进行了分析,取得了一系列成果。为本发明研究提供了一定研究思路和参考价值。
电力通信网指的是采用各种通信手段和一定的连接方式,将一定数量的终端设备、传输系统、交换系统等连接起来的通信整体。其包含骨干通信网和终端接入网,目前终端接入网中可运用奇安信、深信服对智能交换机、服务器等可控组件实现实时监控,但尚缺乏有效针对动环监控、综合接入设备等类别非受控终端异常行为的检测手段。
发明内容
本发明的目的在于提供一种具有更高的精度和更好的抗噪声干扰能力的基于自适应动态多核单类支持向量机的异常行为检测方法。
本发明的技术解决方案是:
一种基于自适应动态多核单类支持向量机的异常行为检测方法,其特征是:包括下列步骤:
首先,基于Scapy工具提取内网非受控终端网络数据信息,进而采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度,并以此为依据,选取出m个核函数,最后通过SMO方法,得到各核函数最优权重;单类支持向量机模型是基于数据不断迭代更新的,可以更精确的描绘出内网非受控终端在网络层面上的数据行为特征,提升异常行为检测精度。
所述基于Scapy工具提取内网非受控终端网络数据信息的具体方法:
首先,基于Python3.8.13开发平台,利用工具包Scapy,开发内网非受控终端信息获取程序,包含进网流量、出网流量、IP单播流量、IP广播流量、IP组播流量、异常IP流量、IMCP数据包数、创建会话数、关闭会话数、每秒活动会话数等多维度数据特征;k时刻非受控终端i的网络数据以向量形式表示如下
其中表示进网流量、出网流量等单一网络数据特征,其中n=256为k时刻单非受控终端数据维数。
所述采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度的方法:
在多核单类支持向量机中,基于中心核对齐测度,计算核函数集合中各核函数与理想核函数间的相关性,
其中Ki表示核函数集合中各核函数,Kideal表示理想核函数;函数h(Ki)所得数值越大,说明核函数Ki与理想核间相关性越大,通过其映射关系,越能将数据在高维数据空间中分离出来,更好地表示其行为特征;若h(Ki)数值越低,表示其相应核函数匹配度越低,经过其映射后,数据在高维数据空间中分离程度越差;
因此,为避免较低匹配度核函数对最终单类支持向量机判别结果的影响,设置在k时刻,非受控终端i的判断阈值为当/>时,将Ki加入此时刻待组核函数集合/>反之,Ki不加入待组核函数集合。
所述选取出m个核函数,最后通过SMO方法,得到各核函数最优权重的方法:
设待组合核函数集合其中m为待组核函数数目。则组合核函数
其中μi,j,j=1,2,...,m为各待组核函数权值,满足因此后续问题转化为求解各待组核函数权值μi,j;
由上述分析,可得多核单类支持向量机最优化对偶问题为
设函数Kd为多核单类支持向量机目标函数的最优解,根据对偶原则,可得Kd同时为对偶问题最优解,即满足
基于梯度下降法,令Kd对μi,a求偏导,可得
以b表示权值向量μ中最大元素的下标,进而偏导数可化为
令B=(B1,B2,...,Bm)T表示函数Kd的梯度下降方向,则B中各元素计算公式为
由上式可计算得出梯度下降方向的各个元素,进而求得权值参数μi,a,进而求得组合后的核函数经上述分析,可采用序贯极小优化算法来解决上述问题;
SMO算法流程:
(1)设定解的精度要求,令权值μi,a初始解为k=0;
(2)对当前可行近似解确定工作集;
(3)求解与工作集对应的最优化问题,解得新的可行近似解
(4)若已达到预设精度指标,且满足停机准则之一,当前解即为最优解求解过程结束,反之令k=k+1,转到步骤(2),继续执行;
通过SMO算法计算得到核函数组合权值后,即可求得最优组合核函数
相应决策函数为
其中(ω,ρ)为最优分离超平面参数,进而判断当前该非受控终端是否存在异常行为;后续时刻中,不断更新训练集数据,进而不断更新待组合核函数集合,计算最优权值,获取最佳决策函数,提升异常行为检测精度。
所述单类支持向量机,其算法属于传统机器学习算法的一种,仅需单类数据样本即可建立模型,利用单类输入样本数据,将通过所选核函数将该单类数据映射到尽可能小的区域中;以正常数据点与原点之间具有最大间隔为基准构造分离超平面,实际应用时,若数据样本处于边界之内,则分类为正常样本,反之,则视为异常样本;单类支持向量机模型通常表示如下:
设单类数据样本集合X={x1,x2,...,xn},求解如下二次规划问题:
其中表示样本集合中第i个向量数据,维度为dx。n为样本集合D中样本数目,ω为表示超平面的法向量,其维度与特征空间相同。ρ为截距,表示高维特征空间中原点和超平面的距离,Φ(xi)为非线性映射函数,通常称作核函数,负责将样本点从输入空间映射到高维特征空间;ξi为避免函数过拟合加入的非负松弛因子,v∈(0,1)为控制距离原点最大距离与支持向量在样本中的个数平衡的惩罚项,表示边界支持向量所占比例的上界,也是全部支持向量所占比例的下界。式(1)对偶优化问题为
其中α=(α1,α2,...,αn)T,αi为样本点xi对应的拉格朗日乘子。K(·,·)为对偶变化后的核函数;
求解对偶优化问题,法向量
截距ρ可通过某个支持向量在特征空间中的像及法向量内积得到,即
设该问题解为(ω,ρ),则可得最优分离超平面为
ωTx-ρ=0 (5)
实际使用时相应决策函数为
f(x)=sgn((ω·Φ(x))-ρ) (6)
其中sgn(·)为符号函数,当其返回正号(+)时,表示输入数据xi为正常数据,反之,返回负号(-)时,则输入数据xi为异常数据;
通过与经典支持向量机模型相比较,单类支持向量机仅需单类样本数据即可完成数据模型的搭建,不依靠恶意标记样本数据,具有实际应用价值;
当前单类支持向量机中,通常采用单核函数或固定多核函数映射输入数据特征,而内网非受控终端行为并不是固定不变的,且相关网络数据也会伴随人员操作不断变化;因此固定单核函数或传统多核函数无法精准刻画内网非受控终端网络行为特征。
核对齐的定义是两个核函数(核矩阵)或核函数(核矩阵)与目标函数(矩阵)的相似性度量,它们之间的相似性越高,一致性也越高,训练得出的分类器的泛化误差就越低;
在特征空间中,若原点远离样本的凸包,则核矩阵中元素值可能相同或相近,存在病态矩阵的问题,为此,采用中心核对齐方法,首先在特征空间进行中心化,然后对中心化后的核矩阵进行中心核对齐;
中心核对齐:假设在数据集D={x1,x2,...,xN}上k和k′均为核函数,所对应核矩阵分别为K和K′,则K和K′在数据集D上的中心核定义为
其中
I为适当维数单位矩阵,1为全部是1的N阶向量,<·,·>F表示Frobenius内积,||·||F表示Frobenius范数(F范数),定义如下:
在式(8)中,若其值越接近于1,则表示两个核矩阵的相似度就越高。
本发明与现有技术中3种常用单类支持向量机方法相比,具有更高的精度和更好的抗噪声干扰能力。
下面结合附图和实施例对本发明作进一步说明。
图1是不同噪声比例下测试结果示意图。
图1中横坐标为噪声比例,纵坐标为AGM。
具体实施方式
自适应动态多核单类支持向量机
实际非受控内网终端异常行为检测系统中,异常样本难以获取且数量占比极小,样本不平衡问题相当严峻,常用数据分类检测模型难以建立且检测精度较低。为此,可采用单类支持向量机算法进行检测,其仅需单类样本(即正常数据)即可完成正常数据建模,检测精度高,且对实际检测环境中的噪声具有一定鲁棒性。
2.1单类支持向量机
单类支持向量机算法属于传统机器学习算法的一种,仅需单类数据样本即可建立模型,利用单类输入样本数据,将通过所选核函数将该单类数据映射到尽可能小的区域中。以正常数据点与原点之间具有最大间隔为基准构造分离超平面,实际应用时,若数据样本处于边界之内,则分类为正常样本,反之,则视为异常样本。单类支持向量机模型通常表示如下:
设单类数据样本集合X={x1,x2,...,xn},求解如下二次规划问题:
其中表示样本集合中第i个向量数据,维度为dx。n为样本集合D中样本数目,ω为表示超平面的法向量,其维度与特征空间相同。ρ为截距,表示高维特征空间中原点和超平面的距离,Φ(xi)为非线性映射函数,通常称作核函数,负责将样本点从输入空间映射到高维特征空间。ξi为避免函数过拟合加入的非负松弛因子,v∈(0,1)为控制距离原点最大距离与支持向量在样本中的个数平衡的惩罚项,表示边界支持向量所占比例的上界,也是全部支持向量所占比例的下界。式(1)对偶优化问题为
其中α=(α1,α2,...,αn)T,αi为样本点xi对应的拉格朗日乘子。K(·,·)为对偶变化后的核函数。
求解对偶优化问题,法向量
截距ρ可通过某个支持向量在特征空间中的像及法向量内积得到,即
设该问题解为(ω,ρ),则可得最优分离超平面为
ωTx-ρ=0 (5)
实际使用时相应决策函数为
f(x)=sgn((ω·Φ(x))-ρ) (6)
其中sgn(·)为符号函数,当其返回正号(+)时,表示输入数据xi为正常数据,反之,返回负号(-)时,则输入数据xi为异常数据。
通过与经典支持向量机模型相比较,单类支持向量机仅需单类样本数据即可完成数据模型的搭建,不依靠恶意标记样本数据,具有实际应用价值。
当前单类支持向量机中,通常采用单核函数或固定多核函数映射输入数据特征,而内网非受控终端行为并不是固定不变的,且相关网络数据也会伴随人员操作等不断变化。因此固定单核函数或传统多核函数无法精准刻画内网非受控终端网络行为特征。为此,本位提出了一种自适应动态多核单类支持向量机方法(Adaptive Dynamic MultipleKernel One Class Support Vector Machine,ADMK-OCSVM),进一步提升模型建立精度,提升检测精度。在此之前,首先引入中心核对齐[10]的概念。
2.2中心核对齐
核对齐的定义是两个核函数(核矩阵)或核函数(核矩阵)与目标函数(矩阵)的相似性度量,它们之间的相似性越高,一致性也越高,训练得出的分类器的泛化误差就越低。
在特征空间中,若原点远离样本的凸包,则核矩阵中元素值可能相同或相近,存在病态矩阵的问题,为此,采用中心核对齐(Centered Kernel Alignment,CKA)方法,首先在特征空间进行中心化,然后对中心化后的核矩阵进行中心核对齐。
中心核对齐:假设在数据集D={x1,x2,...,xN}上k和k′均为核函数,所对应核矩阵分别为K和K′,则K和K′在数据集D上的中心核定义为
其中
I为适当维数单位矩阵,1为全部是1的N阶向量,<·,·>F表示Frobenius内积,||·||F表示Frobenius范数(F范数),定义如下:
在式(8)中,若其值越接近于1,则表示两个核矩阵的相似度就越高。相比较于传统经验核对齐方法,中心核对齐可使数据间的线性相关性更好体现出来,有效解决病态矩阵的问题。
2.3基于自适应动态多核单类支持向量机的异常行为检测方法
当前传统多核学习(Multiple Kernel Learning,MKL)均用于处理两类或多类分类问题,不适应于处理单类分类问题。且传统多核学习方法中,存在模型集合固定、权值固定等问题,无法适用于解决内网非受控终端动态异常行为检测问题。为此,本发明针对上述问题,提出了一种自适应动态多核单类支持向量机。首先,基于Scapy工具,提取内网非受控终端网络数据信息,进而采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度,并以此为依据,选取出m个核函数(核矩阵),最后通过SMO方法,得到各核函数最优权重。在本发明方法中,所提出的单类支持向量机模型是基于数据不断迭代更新的,可以更精确的描绘出内网非受控终端在网络层面上的数据行为特征,提升异常行为检测精度。
2.3.1非受控终端数据信息获取
首先,基于Python3.8.13开发平台,利用工具包Scapy,开发内网非受控终端信息获取程序,包含进网流量、出网流量、IP单播流量、IP广播流量、IP组播流量、异常IP流量、IMCP数据包数、创建会话数、关闭会话数、每秒活动会话数等多维度数据特征。k时刻非受控终端i的网络数据以向量形式表示如下
其中表示进网流量、出网流量等单一网络数据特征,其中n=256为k时刻单非受控终端数据维数。
2.3.2自适应动态多核选择
在多核单类支持向量机中,基于中心核对齐测度,计算核函数集合中各核函数与理想核函数间的相关性,
其中Ki表示核函数集合中各核函数,Kideal表示理想核函数。函数h(Ki)所得数值越大,说明核函数Ki与理想核间相关性越大,通过其映射关系,越能将数据在高维数据空间中分离出来,更好地表示其行为特征。若h(Ki)数值越低,表示其相应核函数匹配度越低,经过其映射后,数据在高维数据空间中分离程度越差。
因此,为避免较低匹配度核函数对最终单类支持向量机判别结果的影响,设置在k时刻,非受控终端i的判断阈值为当/>时,将Ki加入此时刻待组核函数集合/>反之,Ki不加入待组核函数集合。
2.3.3多核权值计算
设上一步得到的待组合核函数集合其中m为待组核函数数目。则组合核函数
其中μi,j,j=1,2,...,m为各待组核函数权值,满足因此后续问题转化为求解各待组核函数权值μi,j。
由上述分析,可得多核单类支持向量机最优化对偶问题为
设函数Kd为多核单类支持向量机目标函数的最优解,根据对偶原则,可得Kd同时为对偶问题最优解,即满足
基于梯度下降法,令Kd对μi,a求偏导,可得
以b表示权值向量μ中最大元素的下标,进而偏导数可化为
令B=(B1,B2,...,Bm)T表示函数Kd的梯度下降方向,则B中各元素计算公式为
由上式可计算得出梯度下降方向的各个元素,进而求得权值参数μi,a,进而求得组合后的核函数经上述分析,可采用序贯极小优化(Sequential MinimalOptimization,SMO)算法[11]来解决上述问题。
SMO算法流程:
(1)设定解的精度要求,令权值μi,a初始解为k=0。
(2)对当前可行近似解确定工作集。
(3)求解与工作集对应的最优化问题,解得新的可行近似解
(4)若已达到预设精度指标,且满足停机准则之一,当前解即为最优解求解过程结束,反之令k=k+1,转到步骤(2),继续执行。
通过SMO算法计算得到核函数组合权值后,即可求得最优组合核函数
相应决策函数为
其中(ω,ρ)为最优分离超平面参数,可由本发明2.1部分计算得出,进而判断当前该非受控终端是否存在异常行为。后续时刻中,不断更新训练集数据,进而不断更新待组合核函数集合,计算最优权值,获取最佳决策函数,提升异常行为检测精度。
3实验及分析
为验证本发明所提方法的有效性,基于江苏省南通市电力公司现场采集到的多种非受控终端设备网络数据,进行对比测试。其余3种对比参照方法分别为基于核目标对齐的多核支持单类支持向量机(Kernel Target Alignment Based Multiple Kernel OneClass SVM,KTAMK-OCSVM)[12]、局部多核单类支持向量机(Localized Multiple KernelOne Class SVM,LMK-OCSVM)[13]、基于径向基核函数的单类支持向量机(Radial BasisKernel One Class SVM,RBK-OCSVM)[14]。
所采用的数据集中正常数据均为正常生产及工作环境中通过Scapy包采集到的各项数据,异常数据为人工干预实际生产工作环境所产生的各项数据。正常数据集按8:2随机划分,其中随机选取80%数据用作训练集,其余20%数据及所有异常数据用作测试集。所使用的数据集相关信息如下表1所示。Nta表示正常数据个数,Nnon-ta表示异常数据个数,Nfea表示单个数据维数,Ntr表示训练集数据个数,Nts表示测试数据个数。
表1数据集说明
为构造组合核函数,选用三类不同核函数,即线性核函数、多项式核函数、径向基核函数。其中多项式核函数K(a,b)=(c+γ<a,b>)n,经测试,参数c,n,γ分别从集合C={-10,-9,...,-1,0,1,2,..,10},Γ={1,2,...,5}中选取,构成多项式核函数待选集合。径向基核函数K(a,b)=exp(-σ||a-b||2),其参数σ取值集合为Ω={10-6,10-5,...,104},构成径向基核函数待选集合。
在单类分类问题中,测试集样本类别所占比重极不平衡,故无法适用传统准确率来进行精度度量。本发明采用准确率几何均值(Accuracy Geometric Mean,AGM)[15]度量各单类支持向量机分类性能。
其中R表示召回率,即在正常数据样本上取得的准确率,S表示特异度,即在异常数据样本上所取得的准确率。
为减轻训练集随机选取影响,所有方法均在数据集上重复50次实验,并将测试集上50次实验所得AGM均值作为最终测试结果。采用配对T检验检验本发明所提ADMK-OCSVM方法与3中对照方法在统计上的差异。相应测试结果如下表2所示。
表2非受控终端网络数据集测试结果
由表2测试结果可以看出,本发明所提ADMK-OCSVM方法在非受控终端网络数据集上的AGM均高于其余3种对比方法。由T检验指标可以看出,本发明所提方法与其余算法均存在显著性差异。此外,与RBK-OCSVM相比较,可以看出,本发明所提方法ADMK-OCSVM将不同类型不同参数的核函数经挑选后再组合在一起,并为其分配最优组合权值,能针对各自数据特点充分发挥不同核函数优势,取得较优分类性能。与未经中心化的KTAMK-OCSVM相比,本发明在核函数选取阶段,通过对其进行中心化,可以避免产生病态矩阵,对分布较为分散的数据集依然能取得较好的分类效果。与LMK-OCSVM相比,本发明所提方法不存在参数冗余问题,也无需添加正则项和门函数,分类效果也较好。
进一步,为检验本发明所提ADMK-OCSVM方法的抗噪声能力,在训练集中加入了5%-20%不同比例的异常数据作为噪声,测试结果如图1所示。
由图1可以看出,随着训练数据集中异常数据比例的不断增加,包含本发明所提方法在内的4种方法其AGM均呈现明显下降趋势,但其效果仍优于3种对比方法,因此在实际场景中,仍可发挥一定作用。
4结论
本发明针对内网非受控终端异常行为检测问题开展研究,并利用单类支持向量机方法,应对实际场景中异常数据较难获取且数量占比较小的问题。针对传统单类支持向量机中存在的单核函数适应范围窄,应用度不高等问题,提出了自适应动态多核单类支持向量机。首先基于中心核对齐方法,挑选合适的核函数构成待组合核函数集合,随后采用SMO方法求得各待组核函数最优组合权值。实验结果表明:与当前3种常用单类支持向量机方法相比,本发明方法具有更高的精度和更好的抗噪声干扰能力。
未来工作主要在于降低本方法的训练复杂度,并进一步探索更多类型的核函数组合的可能。
Claims (3)
1.一种基于自适应动态多核单类支持向量机的异常行为检测方法,其特征是:包括下列步骤:
首先,基于Scapy工具提取内网非受控终端网络数据信息,进而采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度,并以此为依据,选取出m个核函数,最后通过SMO方法,得到各核函数最优权重;单类支持向量机模型是基于数据不断迭代更新的,更精确的描绘出内网非受控终端在网络层面上的数据行为特征,提升异常行为检测精度;
所述采用基于中心核对齐方法,评判当前核函数集合中各核函数适应度的方法:
在多核单类支持向量机中,基于中心核对齐测度,计算核函数集合中各核函数与理想核函数间的相关性,
其中Ki表示核函数集合中各核函数,Kideal表示理想核函数;函数h(Ki)所得数值越大,说明核函数Ki与理想核间相关性越大,通过其映射关系,越能将数据在高维数据空间中分离出来,表示其行为特征;若h(Ki)数值越低,表示其相应核函数匹配度越低,经过其映射后,数据在高维数据空间中分离程度越差;
因此,为避免较低匹配度核函数对最终单类支持向量机判别结果的影响,设置在k时刻,非受控终端i的判断阈值为当/>时,将Ki加入此时刻待组合核函数集合/>反之,Ki不加入待组合核函数集合;
所述选取出m个核函数,最后通过SMO方法,得到各核函数最优权重的方法:
设待组合核函数集合其中m为待组合核函数数目;则组合核函数
其中μi,j,j=1,2,...,m为各待组合核函数权值,满足因此后续问题转化为求解各待组合核函数权值μi,j;
由上述分析,可得多核单类支持向量机最优化对偶问题为
设函数Kd为多核单类支持向量机目标函数的最优解,根据对偶原则,可得Kd同时为对偶问题最优解,即满足
基于梯度下降法,令Kd对μi,a求偏导,可得
以b表示权值向量μ中最大元素的下标,进而偏导数可化为
令B=(B1,B2,...,Bm)T表示函数Kd的梯度下降方向,则B中各元素计算公式为
由上式可计算得出梯度下降方向的各个元素,进而求得权值参数μi,a,进而求得组合后的核函数经上述分析,可采用序贯极小优化算法SMO来解决上述问题;
SMO算法流程:
(1)设定解的精度要求,令权值μi,a初始解为k=0;
(2)对当前可行近似解确定工作集;
(3)求解与工作集对应的最优化问题,解得新的可行近似解
(4)若已达到预设精度指标,且满足停机准则之一,当前解即为最优解/>求解过程结束,反之令k=k+1,转到步骤(2),继续执行;
通过SMO算法计算得到核函数组合权值后,即可求得最优组合核函数
相应决策函数为
其中(ω,ρ)为最优分离超平面参数,进而判断当前该非受控终端是否存在异常行为;后续时刻中,不断更新训练集数据,进而不断更新待组合核函数集合,计算最优权值,获取最佳决策函数,提升异常行为检测精度;
核对齐的定义是两个核函数或核函数与目标函数的相似性度量,它们之间的相似性越高,一致性也越高,训练得出的分类器的泛化误差就越低;
在特征空间中,若原点远离样本的凸包,则核矩阵中元素值可能相同或相近,存在病态矩阵的问题,为此,采用中心核对齐方法,首先在特征空间进行中心化,然后对中心化后的核矩阵进行中心核对齐;
中心核对齐:假设在数据集D={x1,x2,...,xN}上k和k′均为核函数,所对应核矩阵分别为K和K′,则K和K′在数据集D上的中心核定义为
其中
I为适当维数单位矩阵,1为全部是1的N阶向量,<·,·>F表示Frobenius内积,||·||F表示Frobenius范数,定义如下:
在式(18)中,若其值越接近于1,则表示两个核矩阵的相似度就越高。
2.根据权利要求1所述的基于自适应动态多核单类支持向量机的异常行为检测方法,其特征是:所述基于Scapy工具提取内网非受控终端网络数据信息的具体方法:
首先,基于Python3.8.13开发平台,利用工具包Scapy,开发内网非受控终端信息获取程序,包含以下多维度数据特征:进网流量、出网流量、IP单播流量、IP广播流量、IP组播流量、异常IP流量、IMCP数据包数、创建会话数、关闭会话数、每秒活动会话数;
k时刻非受控终端i的网络数据以向量形式表示如下
其中表示进网流量、出网流量的单一网络数据特征,其中n=256为k时刻单非受控终端数据维数。
3.根据权利要求1所述的基于自适应动态多核单类支持向量机的异常行为检测方法,其特征是:所述单类支持向量机,仅需单类数据样本即可建立模型,利用输入的单类数据样本,将通过所选核函数将该单类数据样本映射到尽可能小的区域中;以正常数据点与原点之间具有最大间隔为基准构造分离超平面,若单类数据样本处于边界之内,则分类为正常样本,反之,则视为异常样本;单类支持向量机模型表示如下:
设单类数据样本集合X={x1,x2,...,xn},求解如下二次规划问题:
其中表示样本集合中第i个向量数据,维度为dx,n为样本集合D中样本数目,ω为表示超平面的法向量,其维度与特征空间相同,ρ为截距,表示高维特征空间中原点和超平面的距离,Φ(xi)为非线性映射函数,称作核函数,负责将样本点从输入空间映射到高维特征空间;ξi为避免函数过拟合加入的非负松弛因子,v∈(0,1)为控制距离原点最大距离与支持向量在样本中的个数平衡的惩罚项,表示边界支持向量所占比例的上界,也是全部支持向量所占比例的下界,式(11)对偶优化问题为
其中α=(α1,α2,...,αn)T,αi为样本点xi对应的拉格朗日乘子,K(·,·)为对偶变化后的核函数;
求解对偶优化问题,法向量
截距ρ可通过某个支持向量在特征空间中的像及法向量内积得到,即
设该问题解为(ω,ρ),则可得最优分离超平面为
ωTx-ρ=0 (15)
相应决策函数为
f(x)=sgn((ω·Φ(x))-ρ) (16)
其中sgn(·)为符号函数,当其返回正号(+)时,表示输入数据xi为正常数据,反之,返回负号(-)时,则输入数据xi为异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410009685.XA CN117811822B (zh) | 2024-01-03 | 2024-01-03 | 基于自适应动态多核单类支持向量机的异常行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410009685.XA CN117811822B (zh) | 2024-01-03 | 2024-01-03 | 基于自适应动态多核单类支持向量机的异常行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117811822A CN117811822A (zh) | 2024-04-02 |
CN117811822B true CN117811822B (zh) | 2024-06-04 |
Family
ID=90433112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410009685.XA Active CN117811822B (zh) | 2024-01-03 | 2024-01-03 | 基于自适应动态多核单类支持向量机的异常行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117811822B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241307A (zh) * | 2017-04-26 | 2017-10-10 | 北京立思辰计算机技术有限公司 | 一种基于报文内容的自学习的网络隔离安全装置和方法 |
EP3585056A1 (en) * | 2018-06-20 | 2019-12-25 | Telefónica, S.A. | Method and system for optimizing event prediction in data systems |
CN111262849A (zh) * | 2020-01-13 | 2020-06-09 | 东南大学 | 一种基于流表信息的网络异常流量行为识别阻断的方法 |
CN117194145A (zh) * | 2023-08-14 | 2023-12-08 | 深圳市与飞科技有限公司 | 异常客户端检测方法、装置、电子设备及存储介质 |
CN117315476A (zh) * | 2023-10-11 | 2023-12-29 | 国网江苏省电力有限公司南通供电分公司 | 一种电力场景异常行为的智能检测方法及系统 |
CN117319064A (zh) * | 2023-10-17 | 2023-12-29 | 深圳市永达电子信息股份有限公司 | 基于可信计算的网络空间安全管控系统 |
-
2024
- 2024-01-03 CN CN202410009685.XA patent/CN117811822B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241307A (zh) * | 2017-04-26 | 2017-10-10 | 北京立思辰计算机技术有限公司 | 一种基于报文内容的自学习的网络隔离安全装置和方法 |
EP3585056A1 (en) * | 2018-06-20 | 2019-12-25 | Telefónica, S.A. | Method and system for optimizing event prediction in data systems |
CN111262849A (zh) * | 2020-01-13 | 2020-06-09 | 东南大学 | 一种基于流表信息的网络异常流量行为识别阻断的方法 |
CN117194145A (zh) * | 2023-08-14 | 2023-12-08 | 深圳市与飞科技有限公司 | 异常客户端检测方法、装置、电子设备及存储介质 |
CN117315476A (zh) * | 2023-10-11 | 2023-12-29 | 国网江苏省电力有限公司南通供电分公司 | 一种电力场景异常行为的智能检测方法及系统 |
CN117319064A (zh) * | 2023-10-17 | 2023-12-29 | 深圳市永达电子信息股份有限公司 | 基于可信计算的网络空间安全管控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117811822A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909811B (zh) | 一种基于ocsvm的电网异常行为检测、分析方法与系统 | |
CN111931175B (zh) | 一种基于小样本学习的工业控制系统入侵检测方法 | |
CN108076060B (zh) | 基于动态k-means聚类的神经网络态势预测方法 | |
CN112165485A (zh) | 一种大规模网络安全态势智能预测方法 | |
CN111598179B (zh) | 电力监控系统用户异常行为分析方法、存储介质和设备 | |
CN111901340B (zh) | 一种面向能源互联网的入侵检测系统及其方法 | |
CN111723367B (zh) | 一种电力监控系统业务场景处置风险评价方法及系统 | |
CN113162893B (zh) | 基于注意力机制的工业控制系统网络流量异常检测方法 | |
CN111092862A (zh) | 一种用于对电网终端通信流量异常进行检测的方法及系统 | |
CN111404911B (zh) | 一种网络攻击检测方法、装置及电子设备 | |
CN106992965A (zh) | 一种基于网络行为的木马检测方法 | |
Yin et al. | Towards accurate intrusion detection based on improved clonal selection algorithm | |
CN112087442A (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN113225346A (zh) | 一种基于机器学习的网络运维态势评估方法 | |
CN113901448A (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
Ouyang et al. | FS-IDS: a novel few-shot learning based intrusion detection system for scada networks | |
CN114528547A (zh) | 基于社区特征选择的icps无监督在线攻击检测方法和设备 | |
CN117811822B (zh) | 基于自适应动态多核单类支持向量机的异常行为检测方法 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
CN115086070B (zh) | 工业互联网入侵检测方法及系统 | |
Jiao et al. | An effective intrusion detection model for class-imbalanced learning based on smote and attention mechanism | |
Ming-Xia et al. | An intrusion detection scheme combining FCM and Kohonen Network | |
Wang et al. | Study on the application of neural network in the computer network security evaluation | |
CN116702629B (zh) | 一种具备可迁移能力的电力系统暂态稳定评估方法 | |
TWI795153B (zh) | 網路惡意流量分析之平衡式資料集生成與處理系統及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |