CN111654463A - 基于特征选择的支持向量机电网入侵检测系统及方法 - Google Patents
基于特征选择的支持向量机电网入侵检测系统及方法 Download PDFInfo
- Publication number
- CN111654463A CN111654463A CN202010192130.5A CN202010192130A CN111654463A CN 111654463 A CN111654463 A CN 111654463A CN 202010192130 A CN202010192130 A CN 202010192130A CN 111654463 A CN111654463 A CN 111654463A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- feature
- support vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012706 support-vector machine Methods 0.000 claims abstract description 40
- 238000010606 normalization Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000009545 invasion Effects 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 claims description 2
- XXXSILNSXNPGKG-ZHACJKMWSA-N Crotoxyphos Chemical compound COP(=O)(OC)O\C(C)=C\C(=O)OC(C)C1=CC=CC=C1 XXXSILNSXNPGKG-ZHACJKMWSA-N 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000005364 simax Substances 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 4
- 238000012795 verification Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于特征选择的支持向量机电网入侵检测系统及方法,系统包括入侵信息数据库、数据预处理模块和数据分析模块,入侵信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接,入侵信息数据库,用于存储入侵信息数据包;所述数据预处理模块包含有:数据填补模块和数据归一化模块,所述数据填补模块和数据归一化模块通过数据总线进行通信连接,所述数据分析模块包含有:特征选择模块和支持向量机检测模块,所述特征选择模块和支持向量机检测模块通过数据总线进行通信连接,通过对网络数据进行缺失值填补、归一化、特征选择和入侵行为检测,以达到对网络数据的高检测性,使得智能电网的判断更为准确的目的。
Description
技术领域
本发明涉及电网领域,具体涉及一种基于特征选择的支持向量机 电网入侵检测系统及方法。
背景技术
智能电网是一门融合电气工程、计算机技术和通信技术的交叉学 科,通信技术的引入大幅提升了云电网系统的性能和可靠性。另一方 面,智能电网可能会遭遇来自未知网络世界攻击的威胁,特别是与电 网系统内部相连接的智能电表记录仪器等。由于缺乏合适的防护措施, 智能电网的部署和运营存在诸多难点。
传统的密码学和安全协议等安全措施可以在一定程度上保障智 能电表等设备的数据安全,但对智能电表等设备依然存在被攻击的可 能性。因此,需要对智能电网部署入侵检测系统(Intrusion Detection System,IDS)防被网络攻击的可能性。IDS是一种被动监控系统,通过分析来自未知网络的数据流量来判别网络设备存在被 攻击的可能性。
虽然IDS在一定程度上解决了智能电网被攻击的可能性,但是来 自未知网络的数据流量存在大量的无效特征据缺失情况。特征数目和 检测算法之间并不存在线性关系,当特征数目超过一定限度时,会导 致检测算法的准确性变差。因此,在正确检测的前提下,提升入侵检 测系统的性能是现阶段的难点。所以,研究人员尝试在基于支持向量 机的入侵检测系统中引入数据预处理和基于信息增益率的特征选择 方法,用以解决攻击数据中的无效属性和数据缺失情况。
发明内容
为解决上述技术问题,本发明提出了一种基于特征选择的支持向 量机电网入侵检测系统及方法,以达到确保网络数据的有效性,使对 网络数据的检测更为准确的目的。
为达到上述目的,本发明的技术方案如下:一种基于特征选择的 支持向量机电网入侵检测系统,所述系统包括用于存储入侵信息数据 包的入侵信息数据库、数据预处理模块和数据分析模块,所述数据预 处理模块调用入侵信息数据库的数据进行数据预处理,且数据预处理 模块将数据预处理后的数据送至数据分析模块。
所述数据预处理模块包含有:数据填补模块和数据归一化模块, 所述数据填补模块,用于对入侵数据进行空缺值填补,数据填补模块 是利用与有缺失值的属性相关联的属性或属性组对总体进行划分,对 于缺失数据,用该数据所在类的完整数据的均值来代替;所述数据归 一化模块,用于对入侵数据进行归一化操作,数据归一化模块是利用 每个属性特征中的最大值和最小值对该类属性下的数据进行归一化 操作。
所述数据分析模块包含有:特征选择模块和支持向量机检测模块, 所述特征选择模块,用于筛选入侵数据中的冗余特征,特征选择模块 是利用网络数据集中的每个属性特征所含的信息量对特征集合进行 选择,剔除特征集合中的冗余特征;所述支持向量机检测模块,用于 对入侵数据进行检测分析,支持向量机检测模块是利用二分类支持向 量机算法对网络数据集进行检测,区分网络数据中的“攻击”类型和 “非攻击”类型。
本发明基于特征选择的支持向量机电网入侵检测方法,包括有 如下步骤:
步骤1)采用类均值对网络数据中的缺失值进行填补;
步骤2)将步骤1处理后的网络数据,通过归一化方法对网络数 据进行归一化处理,从而降低网络数据的不确定性;
步骤3)采用信息增益对预处理后的数据进行特征选择,剔除网 络数据中的冗余特征;
步骤4)对步骤3剔除冗余特征的网络数据进行支持向量机算法 分析预测,并将分析预测的结果通过设备反馈给网络维护人员。
本发明与现有技术相比,具有如下优点:
1)本发明通过类均值方法对网络数据的缺失值进行填补,提高 了数据的精准度。
2)本发明通过基于信息增益率的特征选择方法对网络数据进行 特征筛选,从而降低网络数据的冗余特征,使后期的入侵检测更为准 确。
3)本发明通过二分类支持向量机算法对处理后的网络数据进行 分析预测,提高入侵检测的准确性。
附图说明
图1为本发明实施例公开的基于特征选择的支持向量机电网入侵检 测系统功能模块图;
图2为本发明实施例公开的基于特征选择的支持向量机电网入侵检 测方法流程图;
图3为本发明中基于信息增益率的特征选择准确率指标结果图;
图4为本发明中基于信息增益率的特征选择MCC指标结果图;
图5为本发明中基于信息增益率的特征选择ROC指标结果图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述。
如图1和图2所示,一种基于特征选择的支持向量机电网入侵检 测系统,包括用于存储入侵信息数据包的入侵信息数据库、数据预处 理模块和数据分析模块,所述数据预处理模块调用入侵信息数据库的 数据进行数据预处理,且数据预处理模块将数据预处理后的数据送至 数据分析模块。所述数据预处理模块2包含有:数据填补模块201和 数据归一化模块202,所述数据填补模块201,用于对入侵数据进行 空缺值填补;所述数据归一化模块202,用于对入侵数据进行归一化 操作;所述数据分析模块3包含有:特征选择模块301和支持向量机 检测模块302,所述特征选择模块301,用于筛选入侵数据中的冗余 特征;所述支持向量机检测模块302,用于对入侵数据进行检测分析。
其中,所述数据填补模块201是利用利用与有缺失值的属性相关 联的属性或属性组对总体进行划分,对于缺失数据,用该数据所在类 的完整数据的均值来代替。
其中,所述数据归一化模块202是利用每个属性特征中的最大值 和最小值对该类属性下的数据进行归一化操作。
其中,所述特征选择模块301是利用网络数据集中的每个属性特 征所含的信息量对特征集合进行选择,剔除特征集合中的冗余特征。
其中,所述支持向量机检测模块是利用二分类支持向量机算法对 网络数据集进行检测,区分网络数据中的“攻击”类型和“非攻击” 类型。
本发明基于特征选择的支持向量机电网入侵检测方法,通过类 均值对原始网络数据进行空缺值填补,其次对填补后的网络数据进行 归一化处理,再次使用基于信息增益率的特征选择剔除网络数据中的 冗余特征,最后使用二分类支持向量机对精简后的网络数据进行检测, 实现智能化识别和管理,所属方法步骤如下:
步骤1:采用类均值对网络数据集的缺失值进行填补;该过程由 数据预处理模块的数据填补模块完成;
步骤2:将步骤1处理后的网络数据,通过归一化方法对网络数 据进行归一化处理,从而降低网络数据的不确定性;该过程由数据预 处理模块的数据归一化模块完成;
步骤3:采用信息增益对预处理后的数据进行特征选择,剔除网 络数据中的冗余特征;该过程由数据分析模块的特征选择模块完成;
步骤4:对步骤3剔除冗余特征的网络数据进行支持向量机方法 分析预测,并将分析预测的结果通过设备反馈给网络维护人员;该过 程由数据分析模块的支持向量机检测模块完成。
其中,所属步骤1中的类均值填补法对每一个类别中的缺失特征 的数据进行检索,生成各自类别的均值,然后根据缺失特征的数据和 均值之差来生成填充后的数据,具体步骤如下:
步骤1.1)输入收集到网络数据集S=(S1,S2,…,Sn),含有n个样 本,每条记录有m个属性S=(Si1,Si2,…,Sin),那么数据集可表示为 如下的数据矩阵:
步骤1.2)对于缺失数据Sij(i=1,2,…,n;j=1,2,…,m);通过与 第j个属性相关联的其他属性或属性组对数据集中的样本进行分组, 组数记为K;
步骤1.3)如果数据集Si在第k(k=1,2,,K)个分组中,则Sij=μkj, 其中μkj表示Si所在的第k个组中第个属性的均值;
步骤1.4)输出填补后的网络数据集S′。
其中,所属步骤2中的数据归一化的目的是简化网络数据的复杂 性,使得所有网络数据分布在固定区域内,以便于后续的特征选择和 二分类支持向量机的检测过程。具体步骤如下:
步骤2.1)输入填补后的网络数据集S′,统计S′中各个属性特 征中的最大值(Simax)和最小值(Simin);
步骤2.2)对于数据差异较大的网络数据集的各个属性特征S′进 行归一化处理,归一化公式如下:
S′ij=S′ij-S′imin)/(S′jmax-S′imin)(i=1,2,…,m;j=1,2,…,n)
其中,S″ij为归一化后第i个属性特征中第j个数据的值;
步骤2.3)经过归一化,每个特征的取值范围都转换到[0,1],并 输出归一化后的网络数据S′ij。
其中,所属步骤3中的基于信息增益率的特征选择方法的目的是 筛选出对二分类支持向量机检测有利的特征,从而提升二分类支持向 量机的准确性。首先设原始特征集为F,计算每个特征所含的信息量, 根据信息量的大小对特征集进行排序,筛选出低于阈值的冗余特征, 具体步骤如下:
步骤3.1)输入初始化属性特征集合Fi=(F1,F2,…,Fm-1),初始化特 征选择阈值λ;
步骤3.2)计算网络数据集S的各个条件特征Fi的信息增益率;设类别 特征Fm具有k个不同取值,那么根据Fm的不同取值可以将数据集S划 分为k个子集,由此可以得出数据集S对类别属性的平均信息量为:
其中,P(Cp)=|Cp|/|S|,表示样本p属于类别C的概率;
步骤3.3)对于属性特征Fi,假设Fi存在t个不同的取值aq(1<<q<< t),那么根据Fi的取值,可以将数据集S划分为t个子集,同时将类别 属性的k个子集进一步划分为k×t;由此,对于特征属性Fi进行划分, 数据集S对类别属性的条件信息量H(S/Fi)为:
步骤3.4)依据网络数据集S的信息量和条件信息量,可以计算 属性特征Fi对数据集S进行划分前后信息增益G(S,Fi)可以表示为:
G(S,Fi)=H(S)-H(S/Fi)
步骤3.5)由于使用属性特征Fi对数据集S进行划分的信息增益 率等于信息增益量与分割信息量之比,那么可以得到信息增益比 GR(S,Fi)为:
GR(S,Fi)=G(S,Fi)/Sp(S,Fi)
步骤3.6)输出网络数据S的各个特征属性Fi的信息增益率大小, 如果Fi小于阈值λ,则删除该特征,最后,输出排序后的特征子集 Fi(1<<i<m-1)。
其中,所述步骤4是将步骤3处理后的网络数据应用与二分类支持向 量机中,其中支持向量机是基于结构风险最小化原理,因其在解决小 样本、非线性和高维特征数据中的表现出诸多优势,现已被广泛用于 入侵检测中。具体步骤如下:
步骤4.1)网络数据集可分为入侵数据和非入侵数据,因此,可以使 用二分类的支持向量机对网络数据集进行检测,因此,依据统计学理 论,支持向量机的分类模型可以构建如下:
其中,C>0为正则化参数,ξi(i=1,2,…,l)为松弛变量,w∈n为分 类超平面的法向量,b为阈值,s.tyi为限制函数;
步骤4.2)利用优化理论中的KKT条件和对偶理论,可以得到对偶函 数优化后的模型A′为:
其中,αi(i=1,2,…,l)Lagrange乘子;
αi(yi(wTxi)+b)-1+ξi)=0,i=1,2,…,l
(C-αi)ξi=0,i=1,2,…,l
步骤4.4)对应于Lagrange乘子αi=0的样本对分类问题失去作用, 而只有对应于Lagrange乘子αi>0的样本怼计算w*起作用,从而决 策分类的结果,而支持向量通常只是全部样本中的很少的一部分;求 解上述问题后可以得到最优线性分类器f(x)为:
其中,sgn()为符号函数,b*为分类的阈值,可通过任意一个支持向 量求得;
步骤4.5)对于线性不可分情况,SVM的主要做法是将输人向量映射 到一个高维的特征向量空间,并在该特征空间中构造最优分类面,以 特征向量Φ(x)代替输入向量x,则可以得到最优分类器f(x)为:
利用分类器f(x)对网络数据进行预测,并输出检测结果{“攻击”和 “非攻击”}。
本发明数据采用加州大学欧文分校(UCI)机器学习标准数据集作 为验证数据集,用于验证本发明的电网入侵检测系统。由于入侵数据 是高度不平衡的,本发明所选择的UCI数据集均是经过处理的二类高 不平衡数据集。测试数据集选择KDD1999的标准入侵检测数据集为验 证数据集,数据集的具体信息如下:
表1
采用十字交叉验证的方法对网络数据进行验证,分别记录数据集 的各项性能指标。为了验证本发明的有效性,验证共分为三部分。首 先,使用基于信息增益的特征选择方法对数据集进行特征筛选,通过 设置不同的特征过滤阈值,将数据的特征降低到最合适数目;然后, 使用二分类支持向量机算法对筛选特征后的数据进行建模训练,并记 录各个数据集的分类性能;最后,将本发明应用于真实的网络数据集 中进行验证。
本发明基于信息增益的特征选择的方法如下:
首先计算数据集中的各个特征所包含的信息量,从而剔除数据 集中的冗余特征,具体实验结果如表2所示:
表2
由表2可知,对不同的数据集选择不同的阈值,使得筛选后的特 征子集包含最高的信息量。观察表2的实验结果发现,与原始数据集 相比,经过特征选择后的数据集的各项性能指标均有了显著的提升, ROC曲线下面积(AUC)是一种评估数据集整体效果的性能指标,而 F-value是一项评估少数类样本(等价于攻击样本)的性能指标。由这 两项指标的结果可知,经过特征筛选后的数据集具有更高的预测效果, 在这里我们使用二分类支持向量机算法作为数据集的测试算法。根据 Precision、MCC和ROC选择最合适的阈值,经过特征选择后的三种 指标结果变化结果如图3-图5所述。
图3-5先输了9个UCI数据集经过特征选择后的三种不同评价指 标的结果,随着阈值的增加,AUC趋于平稳,表明数据集所包含的信 息量趋近稳定。此外,观察发现,对于大部分数据集而言,当阈值为0时数据集的三项性能指标往往达到最优值,这也是传统方法选择阈 值为0作为筛选的标准。但是对于个别数据集,如ionosphere,阈 值并不为0。因此,对于不同的数据集应当考虑其特性来选择不同的 阈值来筛选最优的特征子集。最后将本发明应用于真实的入侵数据集, 即可得到检测结果。
由检测结果可知,经过特征选择后的入侵数据集的三项性能指 标都有了显著的提升。这对于入侵检测而言,极大地帮助了运维人员 的工作效率,在实际应用中能够帮助运维人员准确、及时的发现攻击 信息,从而快速的做出最准确的判断。
本发明的基于特征选择的支持向量机电网入侵检测系统及方法, 其工作原理是通过对网络数据进行缺失值填补、归一化、特征选择和 入侵行为检测,以达到对网络数据的高检测性,使得智能电网的判断 更为准确的目的。
以上所述的仅是本发明所公开的一种基于特征选择的支持向量 机电网入侵检测系统及方法的优选实施方式,应当指出,对于本领域 的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做 出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于特征选择的支持向量机电网入侵检测系统,其特征在于所述系统包括用于存储入侵信息数据包的入侵信息数据库、数据预处理模块和数据分析模块,所述数据预处理模块调用入侵信息数据库的数据进行数据预处理,且数据预处理模块将数据预处理后的数据送至数据分析模块。
2.根据权利要求1所述的基于支持向量机的入侵检测系统,其特征在于,所述数据预处理模块包含有:数据填补模块和数据归一化模块,所述数据填补模块,用于对入侵数据进行空缺值填补,数据填补模块是利用与有缺失值的属性相关联的属性或属性组对总体进行划分,对于缺失数据,用该数据所在类的完整数据的均值来代替;所述数据归一化模块,用于对入侵数据进行归一化操作,数据归一化模块是利用每个属性特征中的最大值和最小值对该类属性下的数据进行归一化操作。
3.根据权利要求1所述的基于支持向量机的入侵检测系统,其特征在于,所述数据分析模块包含有:特征选择模块和支持向量机检测模块,所述特征选择模块,用于筛选入侵数据中的冗余特征,特征选择模块是利用网络数据集中的每个属性特征所含的信息量对特征集合进行选择,剔除特征集合中的冗余特征;所述支持向量机检测模块,用于对入侵数据进行检测分析,支持向量机检测模块是利用二分类支持向量机算法对网络数据集进行检测,区分网络数据中的“攻击”类型和“非攻击”类型。
4.根据权利要求1所述的基于支持向量机的入侵检测系统,其特征在于,所述数据填补模块和数据归一化模块之间均通过数据总线进行通信连接。
5.根据权利要求1所述的基于支持向量机的入侵检测系统,其特征在于,所述特征选择模块和支持向量机检测模块之间均通过数据总线进行通信连接。
6.一种基于特征选择的支持向量机电网入侵检测系统的检测方法,其特征在于包括有如下步骤:
步骤1)采用类均值对网络数据中的缺失值进行填补;
步骤2)将步骤1处理后的网络数据,通过归一化方法对网络数据进行归一化处理,从而降低网络数据的不确定性;
步骤3)采用信息增益对预处理后的数据进行特征选择,剔除网络数据中的冗余特征;
步骤4)对步骤3剔除冗余特征的网络数据进行支持向量机算法分析预测,并将分析预测的结果通过设备反馈给网络维护人员。
8.根据权利要求6所述的基于特征选择的支持向量机电网入侵检测系统,其特征在于,所述步骤2的具体步骤如下:
步骤2.1)输入填补后的网络数据集S′,统计S′中各个属性特征中的最大值(Simax)和最小值(Simin);
步骤2.2)对于数据差异较大的网络数据集的各个属性特征S′进行归一化处理,归一化公式如下:
S′ij=(S′ij-S′imin)/(S′jmax-S′imin)(i=1,2,…,m;j=1,2,…,n)
其中,S″ij为归一化后第i个属性特征中第j个数据的值;
步骤2.3)经过归一化,每个特征的取值范围都转换到[0,1],并输出归一化后的网络数据S′ij。
9.根据权利要求6所述的基于特征选择的支持向量机电网入侵检测系统,其特征在于,所述步骤3的具体步骤如下:
步骤3.1)输入初始化属性特征集合Fi=(F1,F2,…,Fm-1),初始化特征选择阈值λ;
步骤3.2)计算网络数据集S的各个条件特征Fi的信息增益率;设类别特征Fm具有k个不同取值,那么根据Fm的不同取值可以将数据集S划分为k个子集,由此可以得出数据集S对类别属性的平均信息量为:
其中,P(Cp)=|Cp|/|S|,表示样本p属于类别C的概率;
步骤3.3)对于属性特征Fi,假设Fi存在t个不同的取值aq(1<<q<<t),那么根据Fi的取值,可以将数据集S划分为t个子集,同时将类别属性的k个子集进一步划分为k×t;由此,对于特征属性Fi进行划分,数据集S对类别属性的条件信息量H(S/Fi)为:
步骤3.4)依据网络数据集S的信息量和条件信息量,可以计算属性特征Fi对数据集S进行划分前后信息增益G(S,Fi)可以表示为:
G(S,Fi)=H(S)-H(S/Fi)
步骤3.5)由于使用属性特征Fi对数据集S进行划分的信息增益率等于信息增益量与分割信息量之比,那么可以得到信息增益比GR(S,Fi)为:
GR(S,Fi)=G(S,Fi)/Sp(S,Fi)
步骤3.6)输出网络数据S的各个特征属性Fi的信息增益率大小,如果Fi小于阈值λ,则删除该特征,最后,输出排序后的特征子集Fi(1<<i<m-1)。
10.根据权利要求6所述的基于特征选择的支持向量机电网入侵检测系统,其特征在于,所述步骤4的具体步骤如下:
步骤4.1)网络数据集可分为入侵数据和非入侵数据,因此,可以使用二分类的支持向量机对网络数据集进行检测,因此,依据统计学理论,支持向量机的分类模型可以构建如下:
其中,C>0为正则化参数,ξi(i=1,2,…,l)为松弛变量,w∈n为分类超平面的法向量,b为阈值,s.tyi为限制函数;
步骤4.2)利用优化理论中的KKT条件和对偶理论,可以得到对偶函数优化后的模型A′为:
其中,αi(i=1,2,…,l)Lagrange乘子;
αi(yi(wTxi)+b)-1+ξi)=0,i=1,2,…,l
(C-αi)ξi=0,i=1,2,…,l
步骤4.4)对应于Lagrange乘子αi=0的样本对分类问题失去作用,而只有对应于Lagrange乘子αi>0的样本怼计算w*起作用,从而决策分类的结果,而支持向量通常只是全部样本中的很少的一部分;求解上述问题后可以得到最优线性分类器f(x)为:
其中,sgn()为符号函数,b*为分类的阈值,可通过任意一个支持向量求得;
步骤4.5)对于线性不可分情况,SVM的主要做法是将输人向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面,以特征向量Φ(x)代替输入向量x,则可以得到最优分类器f(x)为:
利用分类器f(x)对网络数据进行预测,并输出检测结果{“攻击”和“非攻击”}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192130.5A CN111654463A (zh) | 2020-03-18 | 2020-03-18 | 基于特征选择的支持向量机电网入侵检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192130.5A CN111654463A (zh) | 2020-03-18 | 2020-03-18 | 基于特征选择的支持向量机电网入侵检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111654463A true CN111654463A (zh) | 2020-09-11 |
Family
ID=72348002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192130.5A Pending CN111654463A (zh) | 2020-03-18 | 2020-03-18 | 基于特征选择的支持向量机电网入侵检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111654463A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022038A (zh) * | 2022-05-31 | 2022-09-06 | 广东电网有限责任公司 | 一种电网网络异常检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012009724A1 (en) * | 2010-07-16 | 2012-01-19 | The Trustees Of Columbia University In The City Of New York | Machine learning for power grids |
CN106991435A (zh) * | 2017-03-09 | 2017-07-28 | 南京邮电大学 | 基于改进的字典学习的入侵检测方法 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
CN110232499A (zh) * | 2019-04-26 | 2019-09-13 | 中国电力科学研究院有限公司 | 一种配电网信息物理侧风险预警方法及系统 |
-
2020
- 2020-03-18 CN CN202010192130.5A patent/CN111654463A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012009724A1 (en) * | 2010-07-16 | 2012-01-19 | The Trustees Of Columbia University In The City Of New York | Machine learning for power grids |
CN106991435A (zh) * | 2017-03-09 | 2017-07-28 | 南京邮电大学 | 基于改进的字典学习的入侵检测方法 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN110232499A (zh) * | 2019-04-26 | 2019-09-13 | 中国电力科学研究院有限公司 | 一种配电网信息物理侧风险预警方法及系统 |
Non-Patent Citations (2)
Title |
---|
任志伟: "面向数据驱动建模的数据预处理方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黎利辉: "基于特征选择的入侵检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022038A (zh) * | 2022-05-31 | 2022-09-06 | 广东电网有限责任公司 | 一种电网网络异常检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298663B (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN106570513B (zh) | 大数据网络系统的故障诊断方法和装置 | |
CN101582813B (zh) | 基于分布式迁移网络学习的入侵检测系统及其方法 | |
CN108632279A (zh) | 一种基于网络流量的多层异常检测方法 | |
CN108540451A (zh) | 一种用机器学习技术对网络攻击行为进行分类检测的方法 | |
CN113489685B (zh) | 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 | |
CN111786951B (zh) | 流量数据特征提取方法、恶意流量识别方法及网络系统 | |
Aziz et al. | Multi-layer hybrid machine learning techniques for anomalies detection and classification approach | |
CN113660196A (zh) | 一种基于深度学习的网络流量入侵检测方法及装置 | |
CN113378160A (zh) | 一种基于生成式对抗网络的图神经网络模型防御方法及装置 | |
Somwang et al. | Computer network security based on support vector machine approach | |
CN111526144A (zh) | 基于DVAE-Catboost的异常流量检测方法与系统 | |
CN110445766A (zh) | DDoS攻击态势评估方法及装置 | |
CN111444501B (zh) | 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法 | |
CN107483451A (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
WO2020094276A1 (en) | Method and system for adaptive network intrusion detection | |
CN115913691A (zh) | 一种网络流量异常检测方法及系统 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
Jenefa et al. | A Robust Deep Learning-based Approach for Network Traffic Classification using CNNs and RNNs | |
CN111654463A (zh) | 基于特征选择的支持向量机电网入侵检测系统及方法 | |
Selim et al. | Intrusion detection using multi-stage neural network | |
CN116545733A (zh) | 一种电网入侵检测方法及系统 | |
CN113098910B (zh) | 基于时空粒度和三宽度学习的网络入侵检测方法及系统 | |
CN107172062A (zh) | 一种基于生物免疫t细胞受体机制的入侵检测方法 | |
CN116541698A (zh) | 一种基于XGBoost的网络异常入侵检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |
|
RJ01 | Rejection of invention patent application after publication |