CN111654463A

CN111654463A - 基于特征选择的支持向量机电网入侵检测系统及方法

Info

Publication number: CN111654463A
Application number: CN202010192130.5A
Authority: CN
Inventors: 梁寿愚; 刘映尚; 张昆; 胡荣; 周华锋; 方文崇; 周志烽; 朱文; 李映辰; 何超林; 顾慧杰; 江伟; 李文朝; 王义昌; 侯剑
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-09-11

Abstract

本发明公开了一种基于特征选择的支持向量机电网入侵检测系统及方法，系统包括入侵信息数据库、数据预处理模块和数据分析模块，入侵信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接，入侵信息数据库，用于存储入侵信息数据包；所述数据预处理模块包含有：数据填补模块和数据归一化模块，所述数据填补模块和数据归一化模块通过数据总线进行通信连接，所述数据分析模块包含有：特征选择模块和支持向量机检测模块，所述特征选择模块和支持向量机检测模块通过数据总线进行通信连接，通过对网络数据进行缺失值填补、归一化、特征选择和入侵行为检测，以达到对网络数据的高检测性，使得智能电网的判断更为准确的目的。

Description

基于特征选择的支持向量机电网入侵检测系统及方法

技术领域

本发明涉及电网领域，具体涉及一种基于特征选择的支持向量机电网入侵检测系统及方法。

背景技术

智能电网是一门融合电气工程、计算机技术和通信技术的交叉学科，通信技术的引入大幅提升了云电网系统的性能和可靠性。另一方面，智能电网可能会遭遇来自未知网络世界攻击的威胁，特别是与电网系统内部相连接的智能电表记录仪器等。由于缺乏合适的防护措施，智能电网的部署和运营存在诸多难点。

传统的密码学和安全协议等安全措施可以在一定程度上保障智能电表等设备的数据安全，但对智能电表等设备依然存在被攻击的可能性。因此，需要对智能电网部署入侵检测系统(Intrusion Detection System，IDS)防被网络攻击的可能性。IDS是一种被动监控系统，通过分析来自未知网络的数据流量来判别网络设备存在被攻击的可能性。

虽然IDS在一定程度上解决了智能电网被攻击的可能性，但是来自未知网络的数据流量存在大量的无效特征据缺失情况。特征数目和检测算法之间并不存在线性关系，当特征数目超过一定限度时，会导致检测算法的准确性变差。因此，在正确检测的前提下，提升入侵检测系统的性能是现阶段的难点。所以，研究人员尝试在基于支持向量机的入侵检测系统中引入数据预处理和基于信息增益率的特征选择方法，用以解决攻击数据中的无效属性和数据缺失情况。

发明内容

为解决上述技术问题，本发明提出了一种基于特征选择的支持向量机电网入侵检测系统及方法，以达到确保网络数据的有效性，使对网络数据的检测更为准确的目的。

为达到上述目的，本发明的技术方案如下：一种基于特征选择的支持向量机电网入侵检测系统，所述系统包括用于存储入侵信息数据包的入侵信息数据库、数据预处理模块和数据分析模块，所述数据预处理模块调用入侵信息数据库的数据进行数据预处理，且数据预处理模块将数据预处理后的数据送至数据分析模块。

所述数据预处理模块包含有：数据填补模块和数据归一化模块，所述数据填补模块，用于对入侵数据进行空缺值填补，数据填补模块是利用与有缺失值的属性相关联的属性或属性组对总体进行划分,对于缺失数据，用该数据所在类的完整数据的均值来代替；所述数据归一化模块，用于对入侵数据进行归一化操作，数据归一化模块是利用每个属性特征中的最大值和最小值对该类属性下的数据进行归一化操作。

所述数据分析模块包含有：特征选择模块和支持向量机检测模块，所述特征选择模块，用于筛选入侵数据中的冗余特征，特征选择模块是利用网络数据集中的每个属性特征所含的信息量对特征集合进行选择，剔除特征集合中的冗余特征；所述支持向量机检测模块，用于对入侵数据进行检测分析，支持向量机检测模块是利用二分类支持向量机算法对网络数据集进行检测，区分网络数据中的“攻击”类型和 “非攻击”类型。

本发明基于特征选择的支持向量机电网入侵检测方法，包括有如下步骤：

步骤1)采用类均值对网络数据中的缺失值进行填补；

步骤2)将步骤1处理后的网络数据，通过归一化方法对网络数据进行归一化处理，从而降低网络数据的不确定性；

步骤3)采用信息增益对预处理后的数据进行特征选择，剔除网络数据中的冗余特征；

步骤4)对步骤3剔除冗余特征的网络数据进行支持向量机算法分析预测，并将分析预测的结果通过设备反馈给网络维护人员。

本发明与现有技术相比，具有如下优点：

1)本发明通过类均值方法对网络数据的缺失值进行填补，提高了数据的精准度。

2)本发明通过基于信息增益率的特征选择方法对网络数据进行特征筛选，从而降低网络数据的冗余特征，使后期的入侵检测更为准确。

3)本发明通过二分类支持向量机算法对处理后的网络数据进行分析预测，提高入侵检测的准确性。

附图说明

图1为本发明实施例公开的基于特征选择的支持向量机电网入侵检测系统功能模块图；

图2为本发明实施例公开的基于特征选择的支持向量机电网入侵检测方法流程图；

图3为本发明中基于信息增益率的特征选择准确率指标结果图；

图4为本发明中基于信息增益率的特征选择MCC指标结果图；

图5为本发明中基于信息增益率的特征选择ROC指标结果图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1和图2所示，一种基于特征选择的支持向量机电网入侵检测系统，包括用于存储入侵信息数据包的入侵信息数据库、数据预处理模块和数据分析模块，所述数据预处理模块调用入侵信息数据库的数据进行数据预处理，且数据预处理模块将数据预处理后的数据送至数据分析模块。所述数据预处理模块2包含有：数据填补模块201和数据归一化模块202，所述数据填补模块201，用于对入侵数据进行空缺值填补；所述数据归一化模块202，用于对入侵数据进行归一化操作；所述数据分析模块3包含有：特征选择模块301和支持向量机检测模块302，所述特征选择模块301，用于筛选入侵数据中的冗余特征；所述支持向量机检测模块302，用于对入侵数据进行检测分析。

其中，所述数据填补模块201是利用利用与有缺失值的属性相关联的属性或属性组对总体进行划分,对于缺失数据，用该数据所在类的完整数据的均值来代替。

其中，所述数据归一化模块202是利用每个属性特征中的最大值和最小值对该类属性下的数据进行归一化操作。

其中，所述特征选择模块301是利用网络数据集中的每个属性特征所含的信息量对特征集合进行选择，剔除特征集合中的冗余特征。

其中，所述支持向量机检测模块是利用二分类支持向量机算法对网络数据集进行检测，区分网络数据中的“攻击”类型和“非攻击” 类型。

本发明基于特征选择的支持向量机电网入侵检测方法，通过类均值对原始网络数据进行空缺值填补，其次对填补后的网络数据进行归一化处理，再次使用基于信息增益率的特征选择剔除网络数据中的冗余特征，最后使用二分类支持向量机对精简后的网络数据进行检测，实现智能化识别和管理，所属方法步骤如下：

步骤1：采用类均值对网络数据集的缺失值进行填补；该过程由数据预处理模块的数据填补模块完成；

步骤2：将步骤1处理后的网络数据，通过归一化方法对网络数据进行归一化处理，从而降低网络数据的不确定性；该过程由数据预处理模块的数据归一化模块完成；

步骤3：采用信息增益对预处理后的数据进行特征选择，剔除网络数据中的冗余特征；该过程由数据分析模块的特征选择模块完成；

步骤4：对步骤3剔除冗余特征的网络数据进行支持向量机方法分析预测，并将分析预测的结果通过设备反馈给网络维护人员；该过程由数据分析模块的支持向量机检测模块完成。

其中，所属步骤1中的类均值填补法对每一个类别中的缺失特征的数据进行检索，生成各自类别的均值，然后根据缺失特征的数据和均值之差来生成填充后的数据，具体步骤如下：

步骤1.1)输入收集到网络数据集S＝(S₁,S₂,…,S_n)，含有n个样本，每条记录有m个属性S＝(S_i1,S_i2,…,S_in)，那么数据集可表示为如下的数据矩阵：

步骤1.2)对于缺失数据S_ij(i＝1,2,…,n；j＝1,2,…,m)；通过与第j个属性相关联的其他属性或属性组对数据集中的样本进行分组，组数记为K；

步骤1.3)如果数据集S_i在第k(k＝1,2,,K)个分组中，则S_ij＝μ_kj，其中μ_kj表示S_i所在的第k个组中第个属性的均值；

步骤1.4)输出填补后的网络数据集S′。

其中，所属步骤2中的数据归一化的目的是简化网络数据的复杂性，使得所有网络数据分布在固定区域内，以便于后续的特征选择和二分类支持向量机的检测过程。具体步骤如下：

步骤2.1)输入填补后的网络数据集S′，统计S′中各个属性特征中的最大值(S_imax)和最小值(S_imin)；

步骤2.2)对于数据差异较大的网络数据集的各个属性特征S′进行归一化处理，归一化公式如下：

S′_ij＝S′_ij-S′_imin)/(S′_jmax-S′_imin)(i＝1,2,…,m；j＝1,2,…,n)

其中，S″_ij为归一化后第i个属性特征中第j个数据的值；

步骤2.3)经过归一化，每个特征的取值范围都转换到[0,1]，并输出归一化后的网络数据S′_ij。

其中，所属步骤3中的基于信息增益率的特征选择方法的目的是筛选出对二分类支持向量机检测有利的特征，从而提升二分类支持向量机的准确性。首先设原始特征集为F，计算每个特征所含的信息量，根据信息量的大小对特征集进行排序，筛选出低于阈值的冗余特征，具体步骤如下：

步骤3.1)输入初始化属性特征集合F_i＝(F₁,F₂,…,F_m-1)，初始化特征选择阈值λ；

步骤3.2)计算网络数据集S的各个条件特征F_i的信息增益率；设类别特征F_m具有k个不同取值，那么根据F_m的不同取值可以将数据集S划分为k个子集，由此可以得出数据集S对类别属性的平均信息量为：

其中，P(C_p)＝|C_p|/|S|，表示样本p属于类别C的概率；

步骤3.3)对于属性特征F_i，假设F_i存在t个不同的取值a_q(1＜＜q＜＜ t)，那么根据F_i的取值，可以将数据集S划分为t个子集，同时将类别属性的k个子集进一步划分为k×t；由此，对于特征属性F_i进行划分，数据集S对类别属性的条件信息量H(S/F_i)为：

其中，

P(C_pq)＝|C_pq|/|S|；

步骤3.4)依据网络数据集S的信息量和条件信息量，可以计算属性特征F_i对数据集S进行划分前后信息增益G(S,F_i)可以表示为：

G(S,F_i)＝H(S)-H(S/F_i)

步骤3.5)由于使用属性特征F_i对数据集S进行划分的信息增益率等于信息增益量与分割信息量之比，那么可以得到信息增益比 GR(S,F_i)为：

GR(S,F_i)＝G(S,F_i)/Sp(S,F_i)

其中，分割信息量

步骤3.6)输出网络数据S的各个特征属性F_i的信息增益率大小，如果F_i小于阈值λ，则删除该特征，最后，输出排序后的特征子集 F_i(1＜＜i<m-1)。

其中，所述步骤4是将步骤3处理后的网络数据应用与二分类支持向量机中，其中支持向量机是基于结构风险最小化原理，因其在解决小样本、非线性和高维特征数据中的表现出诸多优势，现已被广泛用于入侵检测中。具体步骤如下：

步骤4.1)网络数据集可分为入侵数据和非入侵数据，因此，可以使用二分类的支持向量机对网络数据集进行检测，因此，依据统计学理论，支持向量机的分类模型可以构建如下：

其中，C>0为正则化参数，ξ_i(i＝1,2,…,l)为松弛变量，w∈n为分类超平面的法向量，b为阈值，s.ty_i为限制函数；

步骤4.2)利用优化理论中的KKT条件和对偶理论,可以得到对偶函数优化后的模型A′为：

其中，α_i(i＝1,2,…,l)Lagrange乘子；

步骤4.3)优化模型A′是一个凸二次规划问题，那么求A′的局部最优解即为全局最优解；如果

为模型A’的全局最优解；根据优化理论中给的KKT互补条件，最优解必须满足：

α_i(y_i(w^Tx_i)+b)-1+ξ_i)＝0,i＝1,2,…,l

(C-α_i)ξ_i＝0,i＝1,2,…,l

步骤4.4)对应于Lagrange乘子α_i＝0的样本对分类问题失去作用，而只有对应于Lagrange乘子α_i>0的样本怼计算w^*起作用，从而决策分类的结果，而支持向量通常只是全部样本中的很少的一部分；求解上述问题后可以得到最优线性分类器f(x)为：

其中，sgn()为符号函数，b^*为分类的阈值，可通过任意一个支持向量求得；

步骤4.5)对于线性不可分情况，SVM的主要做法是将输人向量映射到一个高维的特征向量空间，并在该特征空间中构造最优分类面，以特征向量Φ(x)代替输入向量x，则可以得到最优分类器f(x)为：

利用分类器f(x)对网络数据进行预测，并输出检测结果{“攻击”和 “非攻击”}。

本发明数据采用加州大学欧文分校(UCI)机器学习标准数据集作为验证数据集，用于验证本发明的电网入侵检测系统。由于入侵数据是高度不平衡的，本发明所选择的UCI数据集均是经过处理的二类高不平衡数据集。测试数据集选择KDD1999的标准入侵检测数据集为验证数据集，数据集的具体信息如下：

表1

采用十字交叉验证的方法对网络数据进行验证，分别记录数据集的各项性能指标。为了验证本发明的有效性，验证共分为三部分。首先，使用基于信息增益的特征选择方法对数据集进行特征筛选，通过设置不同的特征过滤阈值，将数据的特征降低到最合适数目；然后，使用二分类支持向量机算法对筛选特征后的数据进行建模训练，并记录各个数据集的分类性能；最后，将本发明应用于真实的网络数据集中进行验证。

本发明基于信息增益的特征选择的方法如下：

首先计算数据集中的各个特征所包含的信息量，从而剔除数据集中的冗余特征，具体实验结果如表2所示：

表2

由表2可知，对不同的数据集选择不同的阈值，使得筛选后的特征子集包含最高的信息量。观察表2的实验结果发现，与原始数据集相比，经过特征选择后的数据集的各项性能指标均有了显著的提升， ROC曲线下面积(AUC)是一种评估数据集整体效果的性能指标，而 F-value是一项评估少数类样本(等价于攻击样本)的性能指标。由这两项指标的结果可知，经过特征筛选后的数据集具有更高的预测效果，在这里我们使用二分类支持向量机算法作为数据集的测试算法。根据 Precision、MCC和ROC选择最合适的阈值，经过特征选择后的三种指标结果变化结果如图3-图5所述。

图3-5先输了9个UCI数据集经过特征选择后的三种不同评价指标的结果，随着阈值的增加，AUC趋于平稳，表明数据集所包含的信息量趋近稳定。此外，观察发现，对于大部分数据集而言，当阈值为0时数据集的三项性能指标往往达到最优值，这也是传统方法选择阈值为0作为筛选的标准。但是对于个别数据集，如ionosphere，阈值并不为0。因此，对于不同的数据集应当考虑其特性来选择不同的阈值来筛选最优的特征子集。最后将本发明应用于真实的入侵数据集，即可得到检测结果。

由检测结果可知，经过特征选择后的入侵数据集的三项性能指标都有了显著的提升。这对于入侵检测而言，极大地帮助了运维人员的工作效率，在实际应用中能够帮助运维人员准确、及时的发现攻击信息，从而快速的做出最准确的判断。

本发明的基于特征选择的支持向量机电网入侵检测系统及方法，其工作原理是通过对网络数据进行缺失值填补、归一化、特征选择和入侵行为检测，以达到对网络数据的高检测性，使得智能电网的判断更为准确的目的。

以上所述的仅是本发明所公开的一种基于特征选择的支持向量机电网入侵检测系统及方法的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于特征选择的支持向量机电网入侵检测系统，其特征在于所述系统包括用于存储入侵信息数据包的入侵信息数据库、数据预处理模块和数据分析模块，所述数据预处理模块调用入侵信息数据库的数据进行数据预处理，且数据预处理模块将数据预处理后的数据送至数据分析模块。

2.根据权利要求1所述的基于支持向量机的入侵检测系统，其特征在于，所述数据预处理模块包含有：数据填补模块和数据归一化模块，所述数据填补模块，用于对入侵数据进行空缺值填补，数据填补模块是利用与有缺失值的属性相关联的属性或属性组对总体进行划分,对于缺失数据，用该数据所在类的完整数据的均值来代替；所述数据归一化模块，用于对入侵数据进行归一化操作，数据归一化模块是利用每个属性特征中的最大值和最小值对该类属性下的数据进行归一化操作。

3.根据权利要求1所述的基于支持向量机的入侵检测系统，其特征在于，所述数据分析模块包含有：特征选择模块和支持向量机检测模块，所述特征选择模块，用于筛选入侵数据中的冗余特征，特征选择模块是利用网络数据集中的每个属性特征所含的信息量对特征集合进行选择，剔除特征集合中的冗余特征；所述支持向量机检测模块，用于对入侵数据进行检测分析，支持向量机检测模块是利用二分类支持向量机算法对网络数据集进行检测，区分网络数据中的“攻击”类型和“非攻击”类型。

4.根据权利要求1所述的基于支持向量机的入侵检测系统，其特征在于，所述数据填补模块和数据归一化模块之间均通过数据总线进行通信连接。

5.根据权利要求1所述的基于支持向量机的入侵检测系统，其特征在于，所述特征选择模块和支持向量机检测模块之间均通过数据总线进行通信连接。

6.一种基于特征选择的支持向量机电网入侵检测系统的检测方法，其特征在于包括有如下步骤：

步骤1)采用类均值对网络数据中的缺失值进行填补；

7.根据权利要求6所述的基于特征选择的支持向量机电网入侵检测系统，其特征在于，所述步骤1的具体步骤如下：

步骤1.1)输入收集到网络数据集S＝(S₁,S₂,…,S_n)，含有n个样本，每条记录有m个属性S＝(S_i1，S_i2,…,S_in)，那么数据集可表示为如下的数据矩阵：