CN111343171A - 一种基于支持向量机的混合特征选择的入侵检测方法 - Google Patents

一种基于支持向量机的混合特征选择的入侵检测方法 Download PDF

Info

Publication number
CN111343171A
CN111343171A CN202010103243.3A CN202010103243A CN111343171A CN 111343171 A CN111343171 A CN 111343171A CN 202010103243 A CN202010103243 A CN 202010103243A CN 111343171 A CN111343171 A CN 111343171A
Authority
CN
China
Prior art keywords
intrusion detection
feature
svm
value
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010103243.3A
Other languages
English (en)
Other versions
CN111343171B (zh
Inventor
熊炼
王云锋
裴作飞
刘丹
姚立霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010103243.3A priority Critical patent/CN111343171B/zh
Publication of CN111343171A publication Critical patent/CN111343171A/zh
Application granted granted Critical
Publication of CN111343171B publication Critical patent/CN111343171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及入侵检测网络安全领域,特别涉及一种基于支持向量机的混合特征选择的入侵检测方法,采用最优特征子集完成实时入侵检测,包括:导入入侵检测数据集;对入侵检测数据集中参数进行初始化,得到最优特征;利用改进的GSA算法对高斯核SVM的惩罚参数和核函数进行优化,得到SVM分类器;利用优化SVM的递归特征对最优特征进行排序;采用改进的引力搜书算法求取优良子集中的初始种群,根据初始种群得到指定特征空间的最优特征子集;将最优特征子集输入到入侵检测算法中,并采用改进的SVM作为分类器进行分类,完成入侵检测;本发明对传统引力搜索算法进行改进,即引入了Tent混沌序列,避免了引力搜索算方法过早收敛的问题。

Description

一种基于支持向量机的混合特征选择的入侵检测方法
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于支持向量机的混合特征选择的入侵检测方法。
背景技术
针对网络面临的安全威胁,保障网络安全已经成为各个领域网络信息化工作健康稳定发展的先决条件。当前的网络防护措施主要分为技术和管理两个方面、在技术方面,主要采用身份认证和访问控制技术、网络防火墙技术、文件加密技术和入侵检测技术等。由于现有的防护措施大多是预防性的。即使在现有的防御技术能够较好的保护网络安全的基础上,知道入侵数据的具体类型仍然是设计合理网络防护模型的重要参考依据。
入侵检测是一种主动的网络安全防御方法,能够很好地判断网络数据信息是否合法并检测出入侵数据的具体类型,让网络用户能够更及时地做出相应安全防护措施。入侵检测的核心是入侵检测算法。专利申请号为CN201810359856.2的《一种基于元样本稀疏表示的网络入侵检测方法》公开了一种通过使用网络数据采集工具采集网络实例,构建训练样本集;从构建的网络训练样本集中提取元样本,形成元样本集并替代训练样本集;采用稀疏表示分类方法对待识别网络数据进行检测,以识别待测网络数据所属类别。该方法能够减少原始训练样本中的冗余信息,减少计算量,适用于网络入侵检测算法。
但是,待检测网络入侵数据往往都是高维数据,该方法在检测大量的高维入侵数据时,存在着检测速度低、误报率高的缺点。
发明内容
为解决以上现有技术问题,本发明提出了一种基于支持向量机的混合特征选择的入侵检测方法,该方法包括采用最优特征子集完成实时入侵检测;
最优特征子集的获取包括:
S1:导入入侵检测数据集;
S2:采用数值标准化处理入侵检测数据集中的连续型特征,得到特征子集;
S3:对特征子集的参数进行初始化,得到最优特征;
S4:利用改进的GSA算法对高斯核SVM的惩罚参数和核函数进行优化,得到SVM分类器;
S5:利用SVM分类器对最优特征进行排序,得到优良子集;
S6:采用改进的引力搜书算法求取优良子集中的初始种群,根据初始种群得到指定特征空间的最优特征子集;
所述采用最优特征子集完成实时入侵检测包括:
将最优特征子集输入到入侵检测算法中,并采用改进的SVM作为分类器对待检测网络入侵数据进行分类,完成入侵检测。
优选的,导入入侵检测数据包括特征向量和训练的样本集;
输入的特征向量为:x=(x(1),x(2),...,x(i),...,x(n))T
训练的样本集为:T={(x1,y1),...(xi,yi),...(xN,yN)}。
优选的,采用数值标准化处理入侵检测数据集中的连续型特征包括:将连续数据转化为离散数据;其表达式为:
Figure BDA0002387577820000021
优选的,对入侵检测数据集中参数进行初始化的过程包括:
S31:输入数据集、采样个数和阈值,其中,数据集为
T={(x1,y1),...(xi,yi),...(xN,yN)};
S32:对于每个数据集,在xi的同类样本中寻找最近邻xi,nh样本,再从xi的异类样本中寻找最近邻xi,nm样本;
S33:求取相关量所对应的属性j的分量,即表达式为:
Figure BDA0002387577820000022
S34:根据相关量所对应的属性j的分量的大小对特征子集中特征进行排序,得到最优特征。
优选的,改进的GSA算法包括:将Tent混沌序列引入GSA算法中,利用Tent混沌序列对GSA算法中的输入数据进行初始化;在Tent混沌序列中引入随机变量
Figure BDA0002387577820000031
采用贝努利位移变换对Tent混沌序列的映射进行变换;在区间(0,1)内随机选取初值,将初值输入到变换后的Tent混沌序列映射中,并进行迭代,得到X序列。
优选的,高斯核SVM的惩罚参数和核函数进行优化的过程包括:
步骤1:根据Tent混沌序列在n维搜索空间中确定第i个粒子的位置为
Figure BDA0002387577820000032
步骤2:初始化种群的和进行引力搜索算法中的所有参数;其参数包括种群大小N,最大迭代次数T,引力系数初始值G0,时间常数α,极小值常量ε,以及常数a,粒子的初始速度
Figure BDA0002387577820000033
步骤3:根据分类预测准确率确定适应度函数值;其中分类预测准确率为使用训练数据训练SVM模型后,采用测试集对SVM模型进行测试,得到分类预测准确率;
步骤4:更新种群粒子的万有引力系数G(t)、适应度函数值的最大值best(t)以及适应度函数值的最小值worst(t);
步骤5:计算t时刻,粒子i与粒子j的引力大小
Figure BDA0002387577820000034
步骤6:采用Logistic映射法计算kbest;
步骤7:根据引力大小
Figure BDA0002387577820000035
和kbest计算每个粒子的质量Mi(t)和加速度
Figure BDA0002387577820000036
通过引力搜索算法中的速度更新公式和位置更新公式依次更新粒子的速度和位置;
步骤8:根据对比更新前后粒子的位置向量对应适应度函数值,确定下一代粒子的位置;确定下一代粒子的位置规则为:若更新后的适应度函数值高于更新前,则替换原来的粒子;否则保留更新前的粒子;
步骤9:当迭代到最大值时,求得最终的粒子速度、位置以及平面最大间隔ω;
利用改进的引力搜索算法优化SVM的惩罚参数和核函数参数,两个参数是介于粒子本身就有位置的属性,则粒子的位置代表待优化的这两个参数。
进一步的,速度更新公式为:
Figure BDA0002387577820000041
位置更新公式为:
Figure BDA0002387577820000042
进一步的,平面最大间隔ω的表达式为:
Figure BDA0002387577820000043
优选的,优化的SVM递归特征消除对最优特征进行排序的步骤包括:
S51:对当前特征子集Current_M包含的特征进行递归特征消除,得到特征子集Best_M为空;
S52:设定每次删除的特征数量比例S%;
S53:根据当前特征子集Current_M建立支持向量机分类模型,模型的表达式为:
α=SVM-train(Y,X,c,λ)
S54:将当前特征子集Current_M输入到支持向量机分类模型中,得到平面最大间隔ω的值;
S55:根据平面最大间隔的绝对值的平方|ω|2的值对当前特征子集Current_M中的特征进行降序排列;
S56:移除排序后的排在末尾的S%个特征,得到优良子集。
优选的,得到指定特征空间的最优特征子集的过程包括:将递归特征消除得到的排序的特征通过优化过参数的支持向量机,对特征数量按排序的特征依次增加,比较预测准确率,其中准确率越高,则该特征子集为最优特征子集。
本法明采用了过滤式选择算法和封装选择算法的优点,利用两者的互补特性,提高了算法检测效率,降低误报率;本发明对传统引力搜索算法进行改进,即引入了Tent混沌序列,避免了引力搜索算方法过早收敛的问题。
附图说明
图1为本发明中基于改进GSA的参数优化的流程示意图;
图2为本发明中基于改进GSA的SVM的参数优化的流程示意图;
图3为本发明中基于SVM的特征选择的流程示意图;
图4为本发明中基于支持向量机的混合特征选择入侵检测的流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于支持向量机的混合特征选择的入侵检测方法,如图4所示,该方法步骤包括采用最优特征子集完成实时入侵检测;
最优特征子集的获取包括:
S1:导入入侵检测数据集;
S2:采用数值标准化处理入侵检测数据集中的连续型特征,得到特征子集;
S3:对特征子集的参数进行初始化,得到最优特征;
S4:利用改进的GSA算法对高斯核SVM的惩罚参数和核函数进行优化,得到SVM分类器;
S5:利用SVM分类器对最优特征进行排序,得到优良子集;
S6:采用改进的引力搜书算法求取优良子集中的初始种群,根据初始种群得到指定特征空间的最优特征子集;
所述采用最优特征子集完成实时入侵检测包括:
将最优特征子集输入到入侵检测算法中,并采用改进的SVM作为分类器对待检测网络入侵数据进行分类,完成入侵检测;
其中,GSA表示引力搜索算法,SVM表示支持向量机。
入侵检测数据集中的内容包括:网络连接持续时间、协议类型、目标主机的网络服务类型、连接状态、原地址到目标地址的网络数据流量、目标地址到原地址的数据流量、错误分段的数量。
导入入侵检测数据包括特征向量和训练的样本集;
输入的特征向量为:x=(x(1),x(2),...,x(i),...,x(n))T
训练的样本集为:T={(x1,y1),...(xi,yi),...(xN,yN)}
其中,x(i)表示x的第i个特征,xi表示多个输入变量中的第i个。
采用数值标准化处理连续特征,即将连续数据转化为离散数据;数值标准化为把非数字特征转化为数字特征,相应的非数字类型转换为数字标识即符号型数据转化为数值型数据;数值标准化的表达式为:
Figure BDA0002387577820000061
其中,
Figure BDA0002387577820000062
表示第i个特征数值标准化后的值,x(i)表示x的第i个特征,μx是训练集对应特征列的平均值,σx是对应特征列的标准差。
Relief算法中输入的数据包括:数据集、采样个数和阈值;其中,数据集为T={(x1,y1),...(xi,yi),...(xN,yN)},采样个数为N,阈值的范围为0.01~0.02;优选的,采样个数为300,阈值设置为0.01;具体步骤包括:
对于每个示例,在xi的同类样本中寻找最近邻xi,nh样本,再从xi的异类样本中寻找最近邻xi,nm样本,然后相关量在对应属性j的分量为
Figure BDA0002387577820000063
根据相关量所对应的属性j的分量的大小对特征子集中特征进行排序,得到最优特征;
其中,T表示输入的数据集,xi表示多个输入变量中的第i个,yi表示输入的第i个特征,
Figure BDA0002387577820000071
表示样本xi在属性j上的取值,
Figure BDA0002387577820000072
表示同类样本中的邻近样本xi,nh在属性j上的取值,
Figure BDA0002387577820000073
表示异类样本中的邻近样本xi,nm在属性j上的取值;若xi与xi,nh在属性j上的距离小于xi与xi,nm的距离,则属性j对区分正常与异常流量有益,反之,则无意义;通过这种方法对特征进行快速筛选。
如图1所示,改进的引力搜索算法包括将Tent混沌序列引入,Tent混沌序列具有随机性、遍历性和规律性的特点,用这些特点优化搜索,能够有效保持种群多样性,抑制算法落入局部最优的范围,即:
Figure BDA0002387577820000074
其中,Tent表示帐篷,i表示混沌序列的编号,x表示混沌序列的值。
Tent混沌迭代序列能够发现序列中存在的小周期并且存在不稳周期点,在原有的Tent混沌映射表达式上引入一个随机变量
Figure BDA0002387577820000075
改进后的Tent混沌映射表达式如下:
Figure BDA0002387577820000076
变换后的混沌映射通过贝努利位移变换后表示为:
Figure BDA0002387577820000077
其中,N为序列内粒子的个数,rand(0,1)是范围在[0,1]之间的随机数。利用改进的混沌映射表达式在可行域中产生Tent混沌序列,其步骤包括:在区间(0,1)内取随机初值,根据改进混沌映射表达式,产生X序列,X序列表示空间中的所有粒子的位置的集合,每次迭代次数i增1,当i等于最大迭代次数时则停止迭代。
如图2所示,引力搜索算法具体包括:
步骤1:根据Tent混沌序列在n维搜索空间中确定第i个粒子的位置为
Figure BDA0002387577820000081
步骤2:初始化种群的和进行引力搜索算法中的所有参数;其参数包括种群大小N,最大迭代次数T,引力系数初始值G0,时间常数α,极小值常量ε,以及常数a,粒子的初始速度
Figure BDA0002387577820000082
步骤3:根据分类预测准确率确定适应度函数值;其中分类预测准确率为使用训练数据训练SVM模型后,采用测试集对SVM模型进行测试,得到分类预测准确率;
步骤4:更新种群粒子的万有引力系数G(t)、适应度函数值的最大值best(t)以及适应度函数值的最小值worst(t);
步骤5:计算t时刻,粒子i与粒子j的引力大小
Figure BDA0002387577820000083
步骤6:采用Logistic映射法计算kbest;
步骤7:根据引力大小
Figure BDA0002387577820000084
和kbest计算每个粒子的质量Mi(t)和加速度
Figure BDA0002387577820000085
通过引力搜索算法中的速度更新公式和位置更新公式依次更新粒子的速度和位置;
步骤8:根据对比更新前后粒子的位置向量对应适应度函数值,确定下一代粒子的位置;确定下一代粒子的位置规则为:若更新后的适应度函数值高于更新前,则替换原来的粒子;否则保留更新前的粒子;
步骤9:当迭代到最大值时,求得最终的粒子速度、位置以及平面最大间隔ω;
利用改进的引力搜索算法优化SVM的惩罚参数和核函数参数,两个参数是介于粒子本身就有位置的属性,则粒子的位置代表待优化的这两个参数。
本发明的另一实施例,在一个n维搜索空间中包含N个粒子,第i个粒子(i=1,2,…,N)的位置为:
Figure BDA0002387577820000086
其中,
Figure BDA0002387577820000087
代表第i个粒子在第d维上的位置,原始算法中粒子的初始位置时为随机产生的,改进为Tent混沌序列产生初始种群,某一时刻t,粒子i和粒子j之间的引力大小,依据万有引力定律可以定义为:
Figure BDA0002387577820000091
其中Mpi(t)和Maj(t)分别为受力粒子i的惯性质量和施力粒子j的惯性质量;而G(t)是t时刻的引力常数,随t变化,具体如下式:
Figure BDA0002387577820000092
Rij(t)=||Xi(t),Xj(t)||2
式中通常设置G0为100;α的值为20;T为迭代的最大次数。Rij(t)是两个粒子之间的欧式距离;ε为一个极小值。
粒子的惯性质量是根据适应度值的大小进行计算的,两者成正比,适应度值越大,就表示它越接近所求函数的最优值,在GSA经典算法中,按照下面的式子来更新粒子的惯性质量。
Mai=Mpi=Mii=Mi
Figure BDA0002387577820000093
Figure BDA0002387577820000094
其中,i=1,2,…,N,Mii(t)是粒子i的惯性质量;fiti(t)代表在t时刻时粒子i的适应度值大小。
求解最小值时,worst(t)和best(t)的表达式为:
Figure BDA0002387577820000095
Figure BDA0002387577820000096
在原始GSA中,kbest的计算表达式为:
Figure BDA0002387577820000101
其中,iteration为当前迭代次数,max_it为迭代总次数,final是对其他对象施加力的对象的百分比,可以看出kbest随着迭代次数线性减小。在改进算法中,混沌模型中采用Logistic映射法计算kbest。一维的Logistic映射为:
η(t+1)=μ×η(t)×(1-η(t))
其中,η(t)∈[0,1],μ=4,kbest的计算公式变为:
Figure BDA0002387577820000102
Figure BDA0002387577820000103
在原始GSA中,所受的作用力是其他所有粒子作用力的总和为
Figure BDA0002387577820000104
其加速度计算表达式为:
Figure BDA0002387577820000105
其中,t为当前迭代次数,T为迭代总次数,final是对其他对象施加力的对象的百分比,可以看出kbest随着迭代次数线性减小。在改进算法中,采用混沌模型采用Logistic映射法计算kbest。
加速度的计算方式变为:
Figure BDA0002387577820000106
其中,randj是[0,1]之间的随机数;而kbest通过之前的优化策略,是一组质量较大的粒子的数量,这样计算方式,可以有效的缩短分类时间,提高算法的效率,同时可以消除因距离较小时的影响。
最后,对于每一次的迭代过程,原始算法粒子都按照牛顿第二定律如下式更新它的速度和位置:
Figure BDA0002387577820000107
Figure BDA0002387577820000111
其中,randi是[0,1]之间的随机数。则速度更新公式为:
Figure BDA0002387577820000112
将粒子群的全局记忆性纳入到粒子速度与位置迭代更新中,同时引入随时间减少的惯性权重,在迭代初期,惯性权重的取值较大,全局搜索能力强;在迭代后期,惯性权重取较小值,局部搜索能力强,有利于找到最优解。具体改进包括:
将ω(t)可以设置为随迭代次数增加而线性递减的函数,其表达式为:
Figure BDA0002387577820000113
其中,rand1i,rand2i,rand3i为[0,1]的常数,pbest为当前粒子找到的最佳位置,qbest为群体内所有粒子找到的最佳位置。通过c1=1.5,c2=0.5的大小可以控制全局记忆性对引力搜索本身算法的影响,这样改进的好处是,既可以平衡粒子群和引力搜索的影响,又同时继承了两个算法的优点。
利用改进后的引力搜索算法对高斯核SVM中的惩罚参数和核函数参数进行优化,构成SVM分类器;优化的过程包括:
输入:高斯核SVM分类器,入侵检测数据集,改进引力搜索算法
输出:惩罚参数C和高斯核核函数
过程:将入侵检测数据作为输入数据,利用改进引力搜索算法优化SVM的惩罚参数C和核函数参数,介于粒子本身就有位置的属性,所以粒子的位置正好可以代表待优化的这两个参数。
如图3所示,利用SVM分类器和RFE算法组成基于SVM-RFE对快速筛选得到的特征再次进行排序,输出根据SVM中超平面最大间隔ω排序的特征。
优化的SVM递归特征消除对最优特征进行排序的步骤包括:
S51:对当前特征子集Current_M包含的特征进行递归特征消除,得到特征子集Best_M为空;
S52:设定每次删除的特征数量比例S%;
S53:根据当前特征子集Current_M建立支持向量机分类模型,模型的表达式为:
α=SVM-train(Y,X,c,λ)
S54:将当前特征子集Current_M输入到支持向量机分类模型中,得到平面最大间隔ω的值;
S55:根据平面最大间隔的绝对值的平方|ω2的值对当前特征子集Current_M中的特征进行降序排列;
S56:移除排序后的排在末尾的S%个特征,得到优良子集;
其中,α表示SVM训练得到的模型,Y表示标志位,X代表输入的数据,c表示惩罚参数,λ表示高斯核函数参数,SVM-train(.)表示支持向量机模型的计算过程。
利用改进后的引力搜索算法继续搜索最优子集,并将SVM-RFE算法得到的优良粒子作为引力搜索算法中部分初始种群,使引力搜索算法有一个好的搜索起点。
得到指定特征空间的最优特征子集的过程包括:将递归特征消除得到的排序的特征通过优化过参数的支持向量机,对特征数量按排序的特征依次增加,比较预测准确率,其中准确率越高,则该特征子集为最优特征子集。
利用最优特征子集和SVM分类器完成入侵检测。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于支持向量机的混合特征选择的入侵检测方法,采用最优特征子集完成实时入侵检测,其特征在于:
最优特征子集的获取包括:
S1:导入入侵检测数据集;
S2:采用数值标准化处理入侵检测数据集中的连续型特征,得到特征子集;
S3:对特征子集的参数进行初始化,得到最优特征;
S4:利用改进的GSA算法对高斯核SVM的惩罚参数和核函数进行优化,得到SVM分类器;
S5:利用SVM分类器对最优特征进行排序,得到优良子集;
S6:采用改进的引力搜书算法求取优良子集中的初始种群,根据初始种群得到指定特征空间的最优特征子集;
所述采用最优特征子集完成实时入侵检测包括:
将最优特征子集输入到入侵检测算法中,并采用改进的SVM作为分类器对待检测网络入侵数据进行分类,完成入侵检测;
其中,GSA表示引力搜索算法,SVM表示支持向量机。
2.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述导入入侵检测数据包括特征向量和训练的样本集;
输入的特征向量为:x=(x(1),x(2),...,x(i),...,x(n))T
训练的样本集为:T={(x1,y1),...(xi,yi),...(xN,yN)}
其中,x(i)表示x的第i个特征,xi表示多个输入变量中的第i个,yi表示输入的第i个特征。
3.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述采用数值标准化处理入侵检测数据集中的连续型特征包括:将连续数据转化为离散数据;其表达式为:
Figure FDA0002387577810000021
其中,
Figure FDA0002387577810000022
表示第i个特征数值标准化后的值,x(i)表示x的第i个特征,μx表示训练集对应特征列的平均值,σx是对应特征列的标准差。
4.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述对入侵检测数据集中参数进行初始化的过程包括:
S31:输入数据集、采样个数和阈值,其中,数据集为T={(x1,y1),...(xi,yi),...(xN,yN)};
S32:对于每个数据集,在xi的同类样本中寻找最近邻xi,nh样本,再从xi的异类样本中寻找最近邻xi,nm样本;
S33:求取相关量所对应的属性j的分量,即表达式为:
Figure FDA0002387577810000023
S34:根据相关量所对应的属性j的分量的大小对特征子集中特征进行排序,得到最优特征;
其中,T表示输入的数据集,xi表示多个输入变量中的第i个,yi表示输入的第i个特征,
Figure FDA0002387577810000024
表示样本xi在属性j上的取值,
Figure FDA0002387577810000025
表示同类样本中的邻近样本xi,nh在属性j上的取值,
Figure FDA0002387577810000026
表示异类样本中的邻近样本xi,nm在属性j上的取值。
5.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述改进的GSA算法包括:将Tent混沌序列引入GSA算法中,利用Tent混沌序列对GSA算法中的输入数据进行初始化;在Tent混沌序列中引入随机变量
Figure FDA0002387577810000027
采用贝努利位移变换对Tent混沌序列的映射进行变换;在区间(0,1)内随机选取初值,将初值输入到变换后的Tent混沌序列映射中,并进行迭代,得到X序列;
其中,Tent表示帐篷混沌序列,rand(.)表示随机选取一个数值,N表示序列内粒子的个数,X序列表示空间中的所有粒子的位置的集合。
6.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述高斯核SVM的惩罚参数C和高斯核核函数参数进行优化的过程包括:
步骤1:根据Tent混沌序列在n维搜索空间中确定第i个粒子的位置为
Figure FDA0002387577810000031
步骤2:初始化种群进行引力搜索算法中的所有参数;其参数包括种群大小N,最大迭代次数T,引力系数初始值G0,时间常数α,极小值常量ε,以及常数a,粒子的初始速度
Figure FDA0002387577810000032
步骤3:根据分类预测准确率确定适应度函数值;其中分类预测准确率为使用训练数据训练SVM模型后,采用测试集对SVM模型进行测试,得到分类预测准确率;
步骤4:更新种群粒子的万有引力系数G(t)、适应度函数值的最大值best(t)以及适应度函数值的最小值worst(t);
步骤5:计算t时刻,粒子i与粒子j的引力大小
Figure FDA0002387577810000033
步骤6:采用Logistic映射法计算kbest;
步骤7:根据引力大小
Figure FDA0002387577810000034
和kbest计算每个粒子的质量Mi(t)和加速度
Figure FDA0002387577810000035
通过引力搜索算法中的速度更新公式和位置更新公式依次更新粒子的速度和位置;
步骤8:根据对比更新前后粒子的位置向量对应适应度函数值,确定下一代粒子的位置;确定下一代粒子的位置规则为:若更新后的适应度函数值高于更新前,则替换原来的粒子;否则保留更新前的粒子;
步骤9:当迭代到最大值时,求得最终的粒子速度、位置以及平面最大间隔ω;
利用改进的引力搜索算法优化SVM的惩罚参数和核函数参数,两个参数是介于粒子本身就有位置的属性,则粒子的位置代表待优化的这两个参数;
其中,GSA表示引力搜索算法,Logistic表示逻辑斯特算法,kbest表示种群最优粒子的集合。
7.根据权利要求6所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述速度更新公式为:
Figure FDA0002387577810000041
位置更新公式为:
Figure FDA0002387577810000042
其中,randi为[0,1]之间的随机数,t表示时间,ω(t)表示惯性权重,c1表示平衡群体记忆性的值,pbest表示粒子个体经过的最好位置,c2表示平衡个体记忆性的值,qbest表示种群所经历的最好位置,a(t)表示加速度。
8.根据权利要求6所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,平面最大间隔ω的表达式为:
Figure FDA0002387577810000043
其中,max_it为迭代总次数。
9.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述优化的SVM递归特征消除对最优特征进行排序的步骤包括:
S51:对当前特征子集Current_M包含的特征进行递归特征消除,得到特征子集Best_M为空;
S52:设定每次删除的特征数量比例S%;
S53:根据当前特征子集Current_M建立支持向量机分类模型,模型的表达式为:
α=SVM-train(Y,X,c,λ)
S54:将当前特征子集Current_M输入到支持向量机分类模型中,得到平面最大间隔ω的值;
S55:根据平面最大间隔的绝对值的平方|ω|2的值对当前特征子集Current_M中的特征进行降序排列;
S56:移除排序后的排在末尾的S%个特征,得到优良子集;
其中,α表示SVM训练得到的模型,Y表示标志位,X代表输入的数据,c表示惩罚参数,λ表示高斯核函数参数,SVM-train(.)表示支持向量机模型的计算过程。
10.根据权利要求1所述的一种基于支持向量机的混合特征选择的入侵检测方法,其特征在于,所述得到指定特征空间的最优特征子集的过程包括:
将递归特征消除得到的排序的特征通过优化过参数的支持向量机,对特征数量按排序的特征依次增加,比较预测准确率,其中准确率越高,则该特征子集为最优特征子集。
CN202010103243.3A 2020-02-19 2020-02-19 一种基于支持向量机的混合特征选择的入侵检测方法 Active CN111343171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010103243.3A CN111343171B (zh) 2020-02-19 2020-02-19 一种基于支持向量机的混合特征选择的入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103243.3A CN111343171B (zh) 2020-02-19 2020-02-19 一种基于支持向量机的混合特征选择的入侵检测方法

Publications (2)

Publication Number Publication Date
CN111343171A true CN111343171A (zh) 2020-06-26
CN111343171B CN111343171B (zh) 2022-08-05

Family

ID=71187023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103243.3A Active CN111343171B (zh) 2020-02-19 2020-02-19 一种基于支持向量机的混合特征选择的入侵检测方法

Country Status (1)

Country Link
CN (1) CN111343171B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112595706A (zh) * 2020-12-25 2021-04-02 西北大学 一种激光诱导击穿光谱变量选择方法及系统
CN112910866A (zh) * 2021-01-20 2021-06-04 重庆邮电大学 一种面向网络入侵检测的特征选择方法
CN114928478A (zh) * 2022-05-10 2022-08-19 罗嗣扬 基于核心算法、机器学习和云计算的网络安全检测系统
WO2023052838A1 (en) * 2021-09-28 2023-04-06 Smitha R System and method for network intrusion detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345704A (zh) * 2008-08-15 2009-01-14 南京邮电大学 基于支持向量机的对等网络流量检测方法
US20150135318A1 (en) * 2013-11-12 2015-05-14 Macau University Of Science And Technology Method of detecting intrusion based on improved support vector machine
US20170329314A1 (en) * 2014-11-26 2017-11-16 Shenyang Institute Of Automation, Chinese Academy Of Sciences Modbus tcp communication behaviour anomaly detection method based on ocsvm dual-outline model
CN109828860A (zh) * 2019-02-01 2019-05-31 重庆科技学院 一种基于gsa优化svm的故障诊断方法
CN110166454A (zh) * 2019-05-21 2019-08-23 重庆邮电大学 一种基于自适应遗传算法的混合特征选择入侵检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345704A (zh) * 2008-08-15 2009-01-14 南京邮电大学 基于支持向量机的对等网络流量检测方法
US20150135318A1 (en) * 2013-11-12 2015-05-14 Macau University Of Science And Technology Method of detecting intrusion based on improved support vector machine
US20170329314A1 (en) * 2014-11-26 2017-11-16 Shenyang Institute Of Automation, Chinese Academy Of Sciences Modbus tcp communication behaviour anomaly detection method based on ocsvm dual-outline model
CN109828860A (zh) * 2019-02-01 2019-05-31 重庆科技学院 一种基于gsa优化svm的故障诊断方法
CN110166454A (zh) * 2019-05-21 2019-08-23 重庆邮电大学 一种基于自适应遗传算法的混合特征选择入侵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. SCHAAD等: "Use of the Advanced Encryption Algorithm in CMS", 《IETF 》 *
张晓宇等: "改进引力搜索算法用于工控系统入侵检测", 《计算机工程与设计》 *
李丛等: "入侵检测中基于IBQGSA的特征选择及SVM参数优化", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112595706A (zh) * 2020-12-25 2021-04-02 西北大学 一种激光诱导击穿光谱变量选择方法及系统
CN112910866A (zh) * 2021-01-20 2021-06-04 重庆邮电大学 一种面向网络入侵检测的特征选择方法
CN112910866B (zh) * 2021-01-20 2022-07-29 重庆邮电大学 一种面向网络入侵检测的特征选择方法
WO2023052838A1 (en) * 2021-09-28 2023-04-06 Smitha R System and method for network intrusion detection
CN114928478A (zh) * 2022-05-10 2022-08-19 罗嗣扬 基于核心算法、机器学习和云计算的网络安全检测系统

Also Published As

Publication number Publication date
CN111343171B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111343171B (zh) 一种基于支持向量机的混合特征选择的入侵检测方法
Bamakan et al. A new intrusion detection approach using PSO based multiple criteria linear programming
CN108632279B (zh) 一种基于网络流量的多层异常检测方法
CN111143838B (zh) 数据库用户异常行为检测方法
CN111786951B (zh) 流量数据特征提取方法、恶意流量识别方法及网络系统
CN111259219A (zh) 恶意网页识别模型、识别模型建立方法、识别方法及系统
Saha et al. Genetic algorithm combined with support vector machine for building an intrusion detection system
Lu et al. Intrusion detection system based on evolving rules for wireless sensor networks
CN108446562B (zh) 基于禁忌与人工蜂群双向优化支持向量机的入侵检测方法
CN110602120A (zh) 一种面向网络的入侵数据检测方法
Ghalehgolabi et al. Intrusion detection system using genetic algorithm and data mining techniques based on the reduction
Yao et al. An abnormal network traffic detection algorithm based on big data analysis
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
Seth et al. Drift-based approach for evolving data stream classification in Intrusion detection system
Hlaing Feature selection and fuzzy decision tree for network intrusion detection
Thanh et al. An approach to reduce data dimension in building effective network intrusion detection systems
Malik et al. Performance Evaluation of Classification Algorithms for Intrusion Detection on NSL-KDD Using Rapid Miner
Naoum et al. Hybrid system of learning vector quantization and enhanced resilient backpropagation artificial neural network for intrusion classification
Jian Unsupervised intrusion feature selection based on genetic algorithm and fcm
Rahma et al. Assessing the Effectiveness of Oversampling and Undersampling Techniques for Intrusion Detection on an Imbalanced Dataset
Wang et al. Intrusion detection algorithms based on correlation information entropy and binary particle swarm optimization
Mirhosseini et al. Metaheuristic search algorithms in solving the n-similarity problem
Shao et al. A link prediction algorithm by unsupervised machine learning
Gao et al. A novel intrusion detection method based on WOA optimized hybrid kernel RVM
CN115987689B (zh) 一种网络入侵检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant