CN115022038A

CN115022038A - 一种电网网络异常检测方法、装置、设备及存储介质

Info

Publication number: CN115022038A
Application number: CN202210619314.4A
Authority: CN
Inventors: 蔡乾乾; 李经儒; 刘日荣; 阙华坤; 孙勇; 黄家嘉; 危阜胜; 吴敏; 招景明; 许卓
Original assignee: Guangdong Power Grid Co Ltd; Measurement Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Measurement Center of Guangdong Power Grid Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06

Abstract

本发明公开了一种电网网络异常检测方法、装置、设备及存储介质，包括：获取待检测的网络数据集；根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果；其中，所述预设的网络异常检测模型的构建步骤，包括：采集待检测的网络历史数据集，并对所述网络历史数据集进行数据重采样；对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集；其中，每个训练集中的特征组合均不相同；根据预设的机器学习算法，对所述预设数量的训练集分别进行训练，分别得到每个训练集所对应的网络异常检测模型。本发明解决现有技术中网络数据集特征过多、数据集不平衡和网络攻击多分类的技术问题。

Description

一种电网网络异常检测方法、装置、设备及存储介质

技术领域

本发明涉及电网通信技术领域，尤其涉及一种电网网络异常检测方法、装置、设备及存储介质。

背景技术

随着信息技术(IT)不断发展和智能设施的广泛布局，由各种互相通讯的设备组成的网络无处不在。在智能电网中，高级量测体系(AMI)通过智能量测设备和路由设备，以双向通讯的方式在用户和电网公司之间交换信息和控制指令来调控电网运行，实现潮流计算、负荷预测、负荷响应等功能。IT带来对电网实时监控的好处的同时，也导致了AMI对于网络攻击具有脆弱性。网络攻击的目的在于影响数据的完整性、保密性、可用性，以获取相应的利益。在AMI中，网络攻击的方法多样，例如黑客可以通过入侵集中器非法访问主站，实现对数据的篡改和删除；或是通过物理上接入电表，利用缓存溢出的方式获取电表的root权限，进而实行分布式的Dos攻击。针对这些网络攻击，主要可以分为两种防御方式，认证的方式与入侵检测的方式。随着网络攻击方式不断进化，通过入侵检测来保证网络安全至关重要。

入侵检测技术可分为异常检测(anomaly detection)和误用检测(misusedetection)两种，二者的主要区别在于是否已知网络攻击的特征。基于机器学习的误用检测可以通过监督学习或半监督学习提取网络攻击的特征，显著提高检测的准确率。当未知网络攻击特征时，则可以通过机器学习建立网络的正常行为模式，通过攻击下的网络行为与正常模式的不匹配度来对网络攻击进行分类。通过引入流量注意(traffic attention)机制增强机器学习，将机器学习的训练集中在重要信息上，解决了带标签的异常信息在训练集中数量占比较小的问题。现有技术中有通过利用基于改进的二元引力搜索算法(Improved Binary Gravitational Search Algorithm)的支持向量机的和特征选择进行对攻击的分类，来避免入侵检测中的维数灾难，在检测效率和鲁棒性之间取得平衡。相比于机器学习，深度学习由于其层数设置和提取训练数据中有效信息的高效性，也在网络入侵检测中广泛使用。还有的利用卷积神经网络从大量网络数据中提取数据特征，结合生成对抗网络和模糊粗糙集(fuzzy rough set)建立了适用于不同场景的入侵检测算法。

借鉴深度学习的优点，将传统的机器学习算法与特征选择结合起来，广泛应用于网络入侵检测领域中，例如随机森林、支持向量机、K近邻、决策树等，均取得了不错的效果。利用传统的机器学习算法对不同数据集进行入侵检测时，会产生以下问题：(1)数据集特征过多。例如基于遗传算法优化支持向量机的参数和权重选择，并结合特征选择，提升了入侵检测率的同时降低了SVM的训练时间，但数据集KDD Cup 99只有41个特征，而CIC－IDS2017具有78个特征。(2)数据集不平衡：采用不平衡数据集，导致对少数类检测效果很差。(3)单分类问题与多分类问题：目前大多数研究都是针对异常单分类问题，即每个分类器只能实现一种攻击方式的检测，基于数据集的网络攻击多分类研究很少。这不仅浪费了计算资源，而且难以辨识不同的网络攻击。

因此，目前急需一种能够避免网络数据集特征过多、数据集不平衡和网络攻击多分类，从而提高网络异常检测结果准确性的电网网络异常检测方法。

发明内容

本发明提供了一种电网网络异常检测方法、装置、设备及存储介质，以解决现有技术中网络数据集特征过多、数据集不平衡和网络攻击多分类的技术问题。

为了解决上述技术问题，本发明实施例提供了一种电网网络异常检测方法，包括：

获取待检测的网络数据集；

根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果；

其中，所述预设的网络异常检测模型的构建步骤，包括：

采集待检测的网络历史数据集，并对所述网络历史数据集进行数据重采样；

对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集；其中，每个训练集中的特征组合均不相同；

根据预设的机器学习算法，对所述预设数量的训练集分别进行训练，分别得到每个训练集所对应的网络异常检测模型。

可以理解的是，相比于现有技术，本发明能够通过对采集的网络历史数据集进行数据重采样，并进行特征划分和组合，能够避免网络数据集特征过多、数据集不平衡的问题，同时通过对划分与组合后的训练集来进行训练，能够保证不同特征组合的训练集对应不同的训练模型，从而使得训练所得到的网络异常检测模型能够解决网络攻击多分类的问题，进一步提高了整体网络异常检测的准确性，提高了电网网络信息安全性。

作为优选方案，所述对所述网络历史数据集进行数据重采样，具体为：

根据所述网络历史数据集的样本量，对所述网络历史数据集进行类别划分；其中，类别划分后的网络历史数据集包括：极少类别样本集、少数类别样本集和多数类别样本集；

对极少类别样本集进行剔除，增加少数类别样本集中的数据样本，减少多数类别样本集中的数据样本，从而得到数据重采样后的网络历史数据集。

可以理解的是，通过对网络历史数据集进行类别划分，并对划分后的样本集进行剔除、增加数据样本或减少数据样本的操作，保证了所要进行模型训练的数据集样本集避免出现特征过多、数据集不平衡的情况。

作为优选方案，所述增加少数类别样本集中的数据样本，具体为：

从整个所述网络历史数据集中，计算出所有少数类别样本的最近邻样本；其中，所述少数类别样本为少数类别样本集中的数据样本；

根据每一个少数类别样本的最近邻样本，对少数类别样本集进行分类标记；其中，分类标记后的少数类别样本集包括：噪声样本、边界样本和安全样本；

根据SMOTE算法，对所有所述边界样本进行循环插值扩充，以使在每一次插值扩充的过程中，根据依次对每个边界样本随机选出最近邻的同类样本，生成新样本插入至边界样本中，直至少数类别样本集中的数据样本达到预设数量，从而完成对少数类别样本集中数据样本的增加。

可以理解的是，通过计算出所有少数类别样本的最近邻样本，来对少数类别样本集进行分类标记，进而对所有所述边界样本进行循环插值扩充，能够保证所得到的少数类别样本集中的数据样本平衡，使得数据重采样后的网络历史数据集具备特征合适、数据集平衡，从而提高后续模型训练的准确性。

作为优选方案，在所述对所述网络历史数据集进行数据重采样之后，还包括：

对数据重采样后的网络历史数据集进行数据剔除和归一化操作；其中，剔除网络历史数据集中的数据包括：未定义值、无穷大值和空值。

可以理解的是，对数据重采样后的网络历史数据集进行数据剔除和归一化操作能够保证数据集中仅存在对模型训练有用的数据，避免了大量的无用数据对后续模型训练造成训练误差大、训练时间过长、训练结果准确率低和查全率低下等问题，能够进一步提高模型训练的精确性以及效率。

作为优选方案，所述对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集，具体为：

对重采样后的网络历史数据集中的所有特征进行ID编号；

计算重采样后的网络历史数据集中各个特征的信息增益率，并根据所述信息增益率，对各个特征进行降序排列，得到降序特征数据集；

根据预设阈值，对降序特征数据集进行划分，得到预设数量的特征集合，并根据所述预设数量的特征集合，得相同数量的训练集。

可以理解的是，通过重采样后的网络历史数据集中的所有特征进行编号，并通过计算重采样后的网络历史数据集中各个特征的信息增益率，来解决网络数据集特征过多问题，并对重采样后的网络历史数据集进行降序与划分，从而得到预设数量的训练集，从而使得网络数据集的特征数量能够保持在合适的范围。

作为优选方案，所述计算重采样后的网络历史数据集中各个特征的信息增益率，具体为：

根据预设分类系统以及预设分类系统的类别，计算重采样后的网络历史数据集的信息熵；

根据预设分类系统对应的各个特征，计算重采样后的网络历史数据集中各个特征的条件熵；

根据所述信息熵和所述条件熵，计算各个特征的信息增益，从而计算出各个特征的信息增益率。

可以理解的是，通过预设分类系统以及预设分类系统的类别来计算出信息熵，并通过预设分类系统对应的各个特征来计算出各个特征的条件熵，能够计算出各个特征的信息增益，进而计算出各个特征的信息增益率，使得本发明能够通过各个特征的信息增益率，来解决网络数据集中特征过多的问题，能够确保后续模型训练的具备高精度以及高效率的特性。

作为优选方案，在所述得到网络异常检测结果之后，还包括：

根据全局准确率、宏查准率、宏查全率、宏F1以及查全率，对所述网络异常检测结果进行评价。

可以理解的是，通过根据全局准确率、宏查准率、宏查全率、宏F1以及查全率，能够对所构建的网络异常检测模型的检测结果进行评价，确保模型所检测得到的结果具备可信性，同时也能够进一步反映本发明所构建的网络异常检测模型的检测性能，进一步提升了网络异常检测的准确性。

相应地，本发明还提供一种电网网络异常检测装置，包括：数据集获取模块、检测模块和建模模块；

所述建模模块包括：采集子模块、特征划分子模块和训练子模块；

所述采集子模块，用于采集待检测的网络历史数据集，并对所述网络历史数据集进行数据重采样；

作为优选方案，还包括：预处理子模块；所述预处理子模块，用于对数据重采样后的网络历史数据集进行数据剔除和归一化操作；其中，剔除网络历史数据集中的数据包括：未定义值、无穷大值和空值。

所述特征划分子模块，用于对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集；其中，每个训练集中的特征组合均不相同；

对重采样后的网络历史数据集中的所有特征进行ID编号；

所述训练子模块，用于根据预设的机器学习算法，对所述预设数量的训练集分别进行训练，分别得到每个训练集所对应的网络异常检测模型；

所述数据集获取模块，用于获取待检测的网络数据集；

所述检测模块，用于根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果。

作为优选方案，还包括：评价模块；所述评价模块，用于根据全局准确率、宏查准率、宏查全率、宏F1以及查全率，对所述网络异常检测结果进行评价。

相应地，本发明还提供一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的电网网络异常检测方法。

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的电网网络异常检测方法。

附图说明

图1：为本发明实施例所提供的网络异常检测模型的构建步骤流程示意图；

图2：为本发明实施例所提供的一种电网网络异常检测方法的步骤流程示意图；

图3：为本发明实施例所提供的三种算法在六个组合下的整体准确率示意图；

图4：为本发明实施例所提供的Web Attack Brute Force在不同算法以及不同特征选择下的查全率示意图；

图5：为本发明实施例所提供的Web Attack XSS在不同算法以及不同特征选择下的查全率示意图；

图6：为本发明实施例所提供的三种算法的训练时间的示意图；

图7：为本发明实施例所提供的一种电网网络异常检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，其为预设的网络异常检测模型的构建步骤，包括以下步骤S101－S103：

S101：采集待检测的网络历史数据集，并对所述网络历史数据集进行数据重采样。

具体地，根据所述网络历史数据集的样本量，对所述网络历史数据集进行类别划分；其中，类别划分后的网络历史数据集包括：极少类别样本集、少数类别样本集和多数类别样本集；对极少类别样本集进行剔除，增加少数类别样本集中的数据样本，减少多数类别样本集中的数据样本，从而得到数据重采样后的网络历史数据集。

需要说明的是，对于样本量较少的类别，采用Borderline SMOTE算法增加数据样本，Borderline SMOTE是在SMOTE基础上改进的一种过采样算法，该算法仅使用边界上的少数类样本来合成新样本，从而改善样本的类别分布。Borderline SMOTE采样过程是将少数类样本分为3类，分别为安全样本(Safe)、边界样本(Danger)和噪声样本(Noise)，最后，仅对边界样本的少数类样本进行过采样。

作为本实施例的优选方案，所述增加少数类别样本集中的数据样本，具体为：

从整个所述网络历史数据集中，计算出所有少数类别样本的最近邻样本；其中，所述少数类别样本为少数类别样本集中的数据样本；根据每一个少数类别样本的最近邻样本，对少数类别样本集进行分类标记；其中，分类标记后的少数类别样本集包括：噪声样本、边界样本和安全样本；根据SMOTE算法，对所有所述边界样本进行循环插值扩充，以使在每一次插值扩充的过程中，根据依次对每个边界样本随机选出最近邻的同类样本，生成新样本插入至边界样本中，直至少数类别样本集中的数据样本达到预设数量，从而完成对少数类别样本集中数据样本的增加。

需要说明的是，假设少数类共有n个样本，对于少数类中每一个样本x_i(i＝1,2,…,n)，从整个数据集中计算离它最近的m个样本。m个最近的样本中的其他类别的样本数量用m'(0≤m'≤m)表示。

对少数类每一个样本x_i进行分类，分类规则如下：如果m'＝m，则x_i周围的近邻样本中都是与其同不同类别的样本，即多数类，将x_i视为噪声样本，记为Noise，这类数据会对生成效果产生不良影响，因此考虑在生成时不使用该样本；如果m/2≤m'<m，则x_i周围m个近邻样本一半以上为与其不同类别的样本，即多数类，将x_i视为边界样本，记为Danger；如果0≤m'<m/2，则x_i周围m个近邻样本一半以上为与其相同类别的样本，即少数类，将其记为安全样本，记为Safe。

进一步地，经过对少数类样本分类标记后，再使用SMOTE算法对标记为Danger的样本进行插值扩充，扩充后的样本量根据数据集实际情况确定。假设Danger样本有l个，依次选择Danger数据集中的样本x_j(j＝1,2,…,l)，计算其l个最近邻的同类样本，其中距离定义为样本之间的欧氏距离，然后从中随机选择一个少数类样本x_zj，根据以下公式随机合成新样本x_new：

x_new＝x_j+β(x_zj-x_j)

式中，x_new为少数类样本插入的新样本，x_j为Danger样本中的第j个样本，x_zj为随机选出的少数类最邻近样本，β∈[0,1]为随机数，x_new位于x_j与x_zj连线上。

进而不断根据上述公式生成新样本直至各少数类样本集达到设定数值。

作为本实施例的优选方案，在所述对所述网络历史数据集进行数据重采样之后，还包括：

需要说明的是，在本实施例中，对进行数据重采样之后的数据集依次进行未定义值(NAN)剔除、无穷大值(INF)剔除、空值剔除，并用最大最小归一化方法对数据进行归一化处理，得到预处理后的重采样的网络数据集。

S102：对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集；其中，每个训练集中的特征组合均不相同。

具体地，对重采样后的网络历史数据集中的所有特征进行ID编号；计算重采样后的网络历史数据集中各个特征的信息增益率，并根据所述信息增益率，对各个特征进行降序排列，得到降序特征数据集；根据预设阈值，对降序特征数据集进行划分，得到预设数量的特征集合，并根据所述预设数量的特征集合，得相同数量的训练集。

需要说明的是，网络历史数据集重采样后，对各个特征进行ID编号，计算在平衡数据集上各个特征的信息增益率(Information Gain Ratio，IGR)，并根据信息增益率对各个特征进行降序排序，接着基于阈值划分不同的数据集，分别取阈值为0.5，0.4，0.3，0.2，0.1，得到不同的6个特征集合，基于6个特征集合构造6个不同的数据集。

具体地，根据预设分类系统以及预设分类系统的类别，计算重采样后的网络历史数据集的信息熵；根据预设分类系统对应的各个特征，计算重采样后的网络历史数据集中各个特征的条件熵；根据所述信息熵和所述条件熵，计算各个特征的信息增益，从而计算出各个特征的信息增益率。

需要说明的是，计算重采样后的网络历史数据集对应的分类系统的信息量(Amount of Information)，信息量是对某一事件的不确定性的度量，公式如下：

I(x)＝-log p(x)

式中，I(x)为分类系统X中类别x的信息量，p(x)为类别x发生的概率，发生的可能性越大，概率越大，则信息越少。

从而计算处理后重采样后的网络历史数据集上分类系统的信息熵(InformationEntropy)，是信息的先验不确定性，也称先验熵，是信息量的数学期望，公式如下：

式中，Ent(X)为分类系统X的信息熵，I(x)为分类系统X中分类x的信息量，p(x)为分类x发生的概率，如果信息熵等于0，表示只存在唯一的分类发生可能，即p(x)＝0。

进而计算处理后重采样后的网络历史数据集上各个特征的条件熵(conditionalentropy)，为特征V在给定的情况下，分类系统的熵，公式如下：

式中，Ent(X|V)是分类系统X在特征V下的条件熵，是随机干扰引起的不确定性，v是特征V的一种取值，p(v)是v发生的概率，Ent(X|v)是特征V＝v时分类系统X的条件熵，p(x|v)是特征V＝v时分类系统X中类别x发生的概率。

计算处理后重采样后的网络历史数据集上各个特征的信息增益(InformationGain，IG)，公式如下：

Gain(X,V)＝Ent(X)-Ent(X|V)

式中，Gain(X,V)为特征V的信息增益，Ent(X)为分类系统X的信息熵，Ent(X|V)是分类系统X在特征V下的条件熵，通常Ent(X)>Ent(X|V)。

计算处理后重采样后的网络历史数据集上各个特征的信息增益率(InformationGainRatio，IGR)，公式如下：

式中，GainRatio(X,V)为特征V的信息增益率，Gain(X,V)为特征V的信息增益。

其中：

IV(intrinsic value)表示特征的固定值，p(v|V)表示v在V中所占比例。需要注意的是。如果V中只有一类数据，即p(v|V)＝1，则IV(V)＝0，此时基于公式计算信息增益率会出现错误，令这种情况下信息增益率为0。

进一步地，通过预设分类系统以及预设分类系统的类别来计算出信息熵，并通过预设分类系统对应的各个特征来计算出各个特征的条件熵，能够计算出各个特征的信息增益，进而计算出各个特征的信息增益率，使得本发明能够通过各个特征的信息增益率，来解决网络数据集中特征过多的问题，能够确保后续模型训练的具备高精度以及高效率的特性。

S103：根据预设的机器学习算法，对所述预设数量的训练集分别进行训练，分别得到每个训练集所对应的网络异常检测模型。

需要说明的是，预设的机器学习算法包括机器学习算法决策树(DT)、K最近邻(KNN)和随机森林(RF)，优选地，在本实施例中机器学习算法采用机器学习算法决策树(DT)。

请参照图2，为本发明实施例提供的一种电网网络异常检测方法，包括以下步骤S201－S202：

S201：获取待检测的网络数据集。

需要说明的是，获取到待检测的网络数据集需要进行数据预处理的过程，并构造与步骤S102相应的6种特征的数据集。

S202：根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果。

需要说明的是，将上述构建不同网络异常检测模型分别在6个特征组合对应的数据集上进行检测，从而得到6个特征组合对应的网络异常检测结果。

作为本实施例的优选方案，在所述得到网络异常检测结果之后，还包括：

需要说明的是，对网络异常检测结果进行评价的指标，对于二分类问题，基于混淆矩阵提出准确率A(Accuracy)，查准率(Precision)，查全率R(Recall)，F1度量四个评价指标，扩展到多分类问题熵，多个二分类混淆矩阵会得到多个查准率与查全率，计算平均值可得到宏查准率(macro－P)与宏查全率(macro－R)以及相应的宏F1，具体公式如表1所示：

表1评价指标

实施以上实施例，具有如下效果：

本发明实施例相比于现有技术，能够通过对采集的网络历史数据集进行数据重采样，并进行特征划分和组合，能够避免网络数据集特征过多、数据集不平衡的问题，同时通过对划分与组合后的训练集来进行训练，能够保证不同特征组合的训练集对应不同的训练模型，从而使得训练所得到的网络异常检测模型能够解决网络攻击多分类的问题，进一步提高了整体网络异常检测的准确性，提高了电网网络信息安全性。

实施例二

为了检验本实施例网络异常检测模型的效果，本实施例基于CIC－IDS2017数据集进行网络信息攻击检测。入侵检测相关常用的数据集有KDD Cup 99、DARPA1998、ADFA－LD、CIC－IDS2017、UNSW－NB15等。其中CIC－IDS数据集是加拿大安全研究所的Sharafaldin等人于2017年设计、收集和处理得到的网络入侵检测数据集，与其他网络入侵检测领域流行的NSL－KDD等数据集相比，拥有更加丰富多样的数据类别，包含正常网络流量数据和7大类攻击，每一大类攻击又包含多种不同类型，总计14类攻击数据，这些攻击均是当前常见的攻击类型，更易于验证所提出方法的有效性。

CIC－IDS数据集共收集了2830743条网络流量数据，每条数据有78个特征，还包含一个标签标记数据。

采集得到待检测的网络历史数据集并进行数据重采样。首先针对CIC－IDS2017数据集的不平衡数据进行重采样。CIC－IDS2017数据集中共有14类数据，将14类数据分别按照其样本量分为三类：极少、较少和较多。针对样本量极少的类别，例如Web Attack SqlInjection这一类数据只有21例，在算法中不考虑，可以直接删除；针对样本量较多的类别，采用随机欠采样；针对样本量在方法中不考虑，可以直接删除；针对样本量较多的类别，采用随机欠采样(Random Under Sampler，RUS)方法减少数据样本，即从样本量较多的类别的样本中，随机选取一些剔除掉，使得不同标签的样本量达到均衡，剔除后的剩余样本量设置为20000；针对样本量较少的类别，采用Borderline SMOTE算法增加数据样本，采样后样本量设置为20000。

对进行数据重采样之后的CIC－IDS数据集依次进行未定义值(NAN)剔除、无穷大值(INF)剔除、空值剔除，并用最大最小归一化方法对数据进行归一化处理，得到预处理后的重采样平衡网络数据集。

得到预处理后的重采样平衡网络数据集后，对各个特征进行ID编号，ID编号为0～77，计算在平衡数据集上各个特征的信息增益率(Information Gain Ratio，IGR)，并根据信息增益率对各个特征进行降序排序，接着基于阈值划分不同的数据集，分别取阈值为0.5，0.4，0.3，0.2，0.1，得到不同的6个特征集合，基于6个特征集合构造6个不同的数据集，其中70％的数据作为训练集，模拟网络历史数据集，30％的数据作为测试集，模拟待检测的网络数据，测试方法在取不同特征的数据集时的结果。如上重采样、数据预处理、划分训练集与测试集之后得到的数据集各类样本量如表2所示：

表2 CIC－IDS数据集，重采样数据集，训练集，测试集样本量

计算在平衡数据集上各个特征的信息增益率后，结果见表3，在表3中可以看出，信息增益率最大的特征为min＿seg＿size＿forward，信息增益率为0的特征有6个，代表这些特征在平衡数据集上只有一类，因此在分类中不起作用。

表3基于信息增益率的特征排序

基于信息增益率排序及设定的阈值的6个特征选择组合如表4所示：

表4基于信息增益率的特征选择组合

基于机器学习算法决策树(DT)，对处理后的6个不同特征组合的网络数据集的训练集分别进行训练，每个数据集都得到不同的网络异常检测模型，为了说明本发明方法的优越性，选择另外两种常见的机器学习算法K最邻近(KNN)和随机森林(RF)算法同样训练模型进行对比。

将得到的不同网络异常检测模型分别在6个特征组合对应的数据集上进行检测，根据全局准确率、宏查准率、宏查全率、宏F1以及各类查全率等评价指标，说明本发明的网络异常检测方法效果。

表5－10分别为KNN、DT、RF在6个数据集上的结果。由表5可以看出，在只选择4个信息增益率最高的特征时，随机森林模型在测试集上的准确率可达91.45％，针对12种不同的类别，DoS Slow http test和Web Attack Brute Force在三种算法下的查全率(Recall)较低。

表5组合一结果

表6为三种算法在组合二上的结果，即取信息增益大于0.4的前22个特征。此时DoSSlow http test在三种算法下查全率均大于98％，结果很好，说明在组合一中DoS Slowhttp test查全率低的原因为与DoS Slow http test相关的特征不在组合一中。而WebAttack Brute Force在KNN模型上查全率为99％，在DT和RF上查全率仍然很低，说明KNN适合检测Web Attack Brute Force攻击。而Web Attack XSS在KNN上效果很差，几乎无法检测。此外，组合二的整体准确率、宏查准率、宏查全率、宏F1均优于组合一的结果。

表6组合二结果

表7为三种算法在组合三上的结果，与表6的结果相比，取前36个特征，对网络异常检测结果没有很大改善。

表7组合三结果

表8为三种算法在组合四上的结果，取前62个特征，此时Web Attack Brute Force在三种算法中查全率得到改善，Web Attack XSS在KNN上的查全率也由4％上升至75％，但在另外两种算法下的查全率由99％下降至77％。组合四的整体准确率、宏查准率、宏查全率、宏F1均有较大提升。

表8组合四结果

表9为三种算法在组合五上的结果，取前70个特征，表10为三种算法在组合六上的结果，取所有特征，与组合四的结果相比，没有较大改善。

表9组合五结果

表10组合六结果

请参阅图3，为三种算法在六个组合下的整体准确率示意图，可以看到，组合四，组合五，组合六的结果基本相同，即当特征大于62个时，再增加特征对整体准确率没有影响。

请参阅图4和图5，为Web Attack Brute Force和Web Attack XSS在不同算法以及不同特征选择下的查全率示意图。Web Attack Brute Force在组合二时选择KNN算法的查全率最高。Web Attack XSS的查全率会随着特征增多而降低。

请参阅图6，为三种算法的训练时间。可以看出，随机森林作为集成学习算法，训练时间远大于决策树与K最近邻算法，KNN与DT在数据特征数目较低时训练时间差别不大，当数据特征增大后，决策树的训练时间也远大于KNN。

基于上述结果与分析，可以看出，在三种算法中，决策树与随机森林的结果相差不大，而训练时间随机森林远大于决策树，而KNN整体性能略差于决策树，因此本发明采用的决策树算法性能最优。在6个组合中，整体性能并不会随着特征的增多而变优，甚至某些类别的查全率会随着特征的增多而降低，因此，选择合适的特征数目是提高算法性能的重要依据，在实际特征选择中，应该考虑各类网络攻击的分布，例如，在Web Attack BruteForce攻击较多的系统中，组合四为最优选择，而在Web Attack XSS攻击较多的系统中，前4个特征即可实现检测。在本实施例的数据集中，考虑算法的整体性能，组合四是最优选择。

以上具体实施例证明，本发明设计了一种基于Borderline SMOTE算法与特征选择的网络异常检测方法，通过分类和重采样有效解决了网络异常检测中数据集不平衡的问题，借助信息增益率解决了网络数据集特征过多的问题，通过决策树算法解决网络入侵多分类的问题，进一步提升了网络异常检测的准确性。

实施例三

相应地，请参阅图7，其为本发明实施例还提供一种电网网络异常检测装置，包括：数据集获取模块302、检测模块303和建模模块301。

所述建模模块301包括：采集子模块3011、特征划分子模块3012和训练子模块3013。

所述采集子模块3011，用于采集待检测的网络历史数据集，并对所述网络历史数据集进行数据重采样。

根据所述网络历史数据集的样本量，对所述网络历史数据集进行类别划分；其中，类别划分后的网络历史数据集包括：极少类别样本集、少数类别样本集和多数类别样本集；对极少类别样本集进行剔除，增加少数类别样本集中的数据样本，减少多数类别样本集中的数据样本，从而得到数据重采样后的网络历史数据集。

作为优选方案，所述建模模块301还包括：预处理子模块3014；所述预处理子模块3014，用于对数据重采样后的网络历史数据集进行数据剔除和归一化操作；其中，剔除网络历史数据集中的数据包括：未定义值、无穷大值和空值。

所述特征划分子模块3012，用于对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集；其中，每个训练集中的特征组合均不相同。

对重采样后的网络历史数据集中的所有特征进行ID编号；计算重采样后的网络历史数据集中各个特征的信息增益率，并根据所述信息增益率，对各个特征进行降序排列，得到降序特征数据集；根据预设阈值，对降序特征数据集进行划分，得到预设数量的特征集合，并根据所述预设数量的特征集合，得相同数量的训练集。

根据预设分类系统以及预设分类系统的类别，计算重采样后的网络历史数据集的信息熵；根据预设分类系统对应的各个特征，计算重采样后的网络历史数据集中各个特征的条件熵；根据所述信息熵和所述条件熵，计算各个特征的信息增益，从而计算出各个特征的信息增益率。

所述训练子模块3013，用于根据预设的机器学习算法，对所述预设数量的训练集分别进行训练，分别得到每个训练集所对应的网络异常检测模型。

所述数据集获取模块302，用于获取待检测的网络数据集。

所述检测模块303，用于根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果。

作为优选方案，还包括：评价模块304；所述评价模块304，用于根据全局准确率、宏查准率、宏查全率、宏F1以及查全率，对所述网络异常检测结果进行评价。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施本实施例，具有如下效果：

本发明实施例通过分类和重采样有效解决了网络异常检测中数据集不平衡的问题，借助信息增益率解决了网络数据集特征过多的问题，通过决策树算法解决网络入侵多分类的问题，进一步提升了网络异常检测的准确性。

实施例四

相应地，本发明还提供一种终端设备，包括：处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项实施例所述的电网网络异常检测方法。

该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序、计算机指令。所述处理器执行所述计算机程序时实现上述实施例一中的各个步骤，例如图1所示的步骤S101至S103。或者，所述处理器执行所述计算机程序时实现上述装置实施例中各模块/单元的功能，例如检测模块303。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如，所述检测模块303，用于根据预设的网络异常检测模型，对所述网络数据集进行异常检测，得到网络异常检测结果。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

实施例五

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的电网网络异常检测方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电网网络异常检测方法，其特征在于，包括：

获取待检测的网络数据集；

其中，所述预设的网络异常检测模型的构建步骤，包括：

2.如权利要求1所述的一种电网网络异常检测方法，其特征在于，所述对所述网络历史数据集进行数据重采样，具体为：

3.如权利要求2所述的一种电网网络异常检测方法，其特征在于，所述增加少数类别样本集中的数据样本，具体为：

4.如权利要求1所述的一种电网网络异常检测方法，其特征在于，在所述对所述网络历史数据集进行数据重采样之后，还包括：

5.如权利要求1所述的一种电网网络异常检测方法，其特征在于，所述对重采样后的网络历史数据集中的所有特征进行划分与组合，得到预设数量的训练集，具体为：

对重采样后的网络历史数据集中的所有特征进行ID编号；

6.如权利要求5所述的一种电网网络异常检测方法，其特征在于，所述计算重采样后的网络历史数据集中各个特征的信息增益率，具体为：

7.如权利要求1所述的一种电网网络异常检测方法，其特征在于，在所述得到网络异常检测结果之后，还包括：

8.一种电网网络异常检测装置，其特征在于，包括：数据集获取模块、检测模块和建模模块；

所述数据集获取模块，用于获取待检测的网络数据集；

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的电网网络异常检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的电网网络异常检测方法。