CN113591400B

CN113591400B - 一种基于特征相关性分区回归的电力调度监控数据异常检测方法

Info

Publication number: CN113591400B
Application number: CN202110968331.4A
Authority: CN
Inventors: 高欣; 刘治宇; 李康生; 贾欣; 薛冰; 傅世元; 黄旭; 黄子健
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-06-27
Anticipated expiration: 2041-08-23
Also published as: CN113591400A

Abstract

本发明实施例提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法，包括：将电力调度监控历史数据划分为训练集和测试集，基于皮尔逊相关系数计算训练集特征间的相关系数矩阵；根据计算所得相关系数矩阵对训练集进行特征子空间的划分；根据特征子空间内特征相关程度的高低选择特征作为伪标签，剩余特征作为预测属性，基于支持向量回归SVR训练用于预测伪标签的回归模型；对测试集进行与训练集相同的特征子空间划分，并使用对应的回归模型计算各特征子空间中测试集样本的异常程度；根据特征子空间内相关程度计算所对应的权重；根据加权后集成的最终异常分数获得测试集样本的检测结果。

Description

一种基于特征相关性分区回归的电力调度监控数据异常检测方法

【技术领域】

本发明涉及电力调度监控数据异常检测方法，尤其涉及一种基于特征相关性分区回归的电力调度监控数据异常检测方法。

【背景技术】

智能电网是以物理电网为基础，将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网，其包含发电、输电、变电、配电、用电和调度环节。而智能电网调度控制中心作为电网运行控制的指挥中枢，它的稳定性直接影响着所提供服务的稳定性，控制中心系统的崩溃会给管理者以及使用者造成较大的损失。而人工智能在电力系统领域的广泛应用，不仅能有效提升电力系统的工作效率，同时也能够保证电力系统运行过程中的安全。由于监控系统在电网运行时会在短时间内产生大量监控数据，较难通过咨询专家等方式人工为这些数据全部标定正、异常标签。因此，这些存储的历史电网调度监控数据往往缺少准确的标签信息。同时由于电网系统本身的鲁棒性，监控系统能够采集到的异常数据数量远少于正常数据。所以，不需要数据标签的无监督异常检测方法逐渐成为了解决该领域内问题的重要手段。通常来说，异常被认为是出现在数据集分布稀疏的区域且远离相邻点的数据点，为此，大多数无监督算法都倾向于挖掘数据集分布的特点，并依靠数据集样本在空间中分布的密度或者距离度量差异来区分正异常数据。虽然这类方法简单快捷，但电网数据有着数据特征维数高、无关属性难以区分的特点，在面向这种情况时，当前已有的基于样本分布的无监督异常检测方法很容易受到影响，从而导致模型的异常检测性能降低。因此，针对电力调度监控系统数据的特点，考虑提出一种能够在没有数据标签时仍能够有效提高对异常数据检测准确度的异常检测方法，对于加强电网状态监测、保障电网安全有重要意义。

【发明内容】

有鉴于此，本发明提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法，以提高电力调度监控数据异常检测的性能。

本发明提出一种基于特征相关性分区回归的电力调度监控数据异常检测方法，包括如下步骤：

(1)计算特征间相关性，具体为：

随机选取全部电力监控历史数据中的部分历史数据作为训练集S，其余的历史数据作为测试集T；电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据，其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数；数据集中样本的特征维度为N，基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C：

其中，x_a,x_b分别为训练集S中的样本在第a,b维特征属性下的值，ρ_ab为x_a,x_b间的相关系数，a,b∈1,2,...,N且a≠b；Cov(x_a,x_b)是x_a与x_b之间的协方差，Var()则是各自对应的方差，ρ_ab＝ρ_ba；

(2)划分特征子空间，具体为：

根据训练集S中样本的特征维度N，确定需要划分的特征子空间数量k，设第i个特征子空间S_i包含的特征数量为n_i，则：

k＝int(α×N)+1

其中，i＝1,2,…,k，int()为向下取整，特征子空间的划分系数α＝0.2，用以控制特征子空间中特征维数的高低；

设S'为一个特征空间，其初始值为整个训练集S；在每次循环中，根据步骤(1)中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征

并提取出与/>

相关性排名靠前的j维特征/>

j＝n_i-1；/>

以及/>

均为l×1的向量，均包含训练集S所有样本在对应维度特征属性下的值，l为训练集S中的样本数量；令

将x_i与/>

作为组成第i个特征子空间S_i的特征维度，并在更新特征空间S'←S'-S_i之后继续进行上述循环，循环终止条件为S'＝φ，φ代表空集；完成全部k个特征子空间的划分；

(3)训练特征子空间回归模型，具体为：

将步骤(2)中所得的特征子空间S_i中对应的

作为伪标签，剩余特征

作为预测属性，并基于支持向量回归SVR算法训练用于预测伪标签/>

的回归模型f_i(x_i)，经过训练后获得模型的一般形式如下所示：

f_i(x_i)＝w^Tx_i+b

其中，w,b为模型训练所得参数，w＝[w₁,w₂,…,w_j]，b为常数项；

(4)使用训练好的回归模型计算各特征子空间中测试集样本的异常程度，具体为：

根据步骤(2)中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分；

以及/>

均为l'×1的向量，/>

为测试集T中样本在第i维特征子空间中的预测属性，/>

则为对应的伪标签属性，l'为测试集T中的样本数量；

根据步骤(3)中训练得到的模型f_i(x)对划分特征子空间后的测试集T中的样本进行预测，令

可得伪标签/>

对应的预测值f_i(x_i')，进而得到伪标签真实值与预测值之间的差值向量/>

每个测试集T中样本的差值计算结果都能在

中一一对应；将/>

作为第i个特征子空间内测试集样本的异常分数，测试集样本在/>

中对应的值越大，认为该样本的异常程度越高；整合各特征子空间结果得到异常分数集合/>

(5)加权各特征子空间结果，具体为：

根据步骤(2)中所得特征子空间相关程度计算各特征子空间所对应的权重组成一维权重向量

第i个特征子空间S_i对应的权重ψ_i为/>

的相关系数向量中的最大值，即：

其中，

C_i∈C，m_i为特征/>

在皮尔逊相关系数矩阵C中的位置；argmax()为取最大值；权重ψ_i越高，认为第i个特征子空间内的属性间相关程度越高，训练出的模型性能越好，计算所得的异常分数也越可靠；

(6)根据步骤(4)、(5)所得特征子空间对应的异常分数r_i和权重ψ_i集成得到最终异常分数，并根据最终异常分数得到测试集T中样本的检测结果，实现电力调度监控数据异常检测；

上述方法步骤(1)中，将电力调度监控历史数据中80％作为训练集S，20％作为测试集T；

上述方法步骤(6)中，根据步骤(4)、(5)所得特征子空间对应的异常分数r_i和权重ψ_i集成得到最终异常分数，并根据最终异常分数得到测试集T中样本的检测结果，实现电力调度监控数据异常检测，具体为：

根据所得权重向量

以及异常分数集合r计算最终异常分数/>

其中，·代表矩阵间的乘积，

将测试集T中的样本按照在最终异常分数

中对应的值由高到低进行排名，将排序后的测试集中前t％个样本标记为异常类，取5≤t≤10，从而实现电力调度监控数据异常检测。

所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提高。

由以上技术方案可以看出，本发明具有以下有益效果：

本发明实施的技术方案中，基于特征属性之间的不同相关性，选择特征作为伪标签而不是数据的真实标签，旨在根据相关信息对数据集的特征进行划分，以便使用强相关特征进行回归预测并挖掘特征之间包含的模式；同时考虑到不同相关度下特征预测的可靠性，引入相关系数作为每个分区预测结果的权重，一定程度上缓解了因维数增加带来的性能下降问题，而且减少了无关属性的影响，从而提高电力调度监控数据异常检测的性能。

【附图说明】

为了更清楚地说明本发明的技术方案，下面将对本发明中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图；

图2是基于特征相关性的分区方法流程示意图；

图3是基于特征相关性的加权回归预测方法流程示意图；

图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图；

图5是本发明算法的输入数据和输出结果示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明进行详细描述。

应当明确，所描述的发明实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明给出一种基于特征相关性分区回归的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测，根据特征间的相关性划分出关联程度较高的特征子空间用以训练回归模型来检测待检测数据。

图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图，该方法包括以下步骤：

步骤101，将电力调度监控历史数据划分为训练集和测试集，基于皮尔逊相关系数计算训练集特征间的相关系数矩阵。

具体的，随机选取全部电力监控历史数据中的80％历史数据作为训练集S，20％历史数据作为测试集T。电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据，其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。数据集中样本的特征维度为N，基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C：

其中，x_a,x_b分别为训练集S中的样本在第a,b维特征属性下的值，ρ_ab为x_a,x_b间的相关系数，a,b∈1,2,...,N且a≠b。Cov(x_a,x_b)是x_a与x_b之间的协方差，Var()则是各自对应的方差，ρ_ab＝ρ_ba。

步骤102，根据计算所得相关系数矩阵对训练集进行特征子空间的划分。

具体的，根据训练集S中样本的特征维度N，确定需要划分的特征子空间数量k，设第i个特征子空间S_i包含的特征数量为n_i，则：

k＝int(α×N)+1

其中，i＝1,2,…,k，int()为向下取整，特征子空间的划分系数α＝0.2，用以控制特征子空间中特征维数的高低。

设S'为一个特征空间，其初始值为整个训练集S。在每次循环中，根据步骤101中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征

并提取出与/>

相关性排名靠前的j维特征/>

j＝n_i-1。/>

以及/>

均为l×1的向量，均包含训练集S所有样本在对应维度特征属性下的值，l为训练集S中的样本数量。令

将x_i与/>

作为组成第i个特征子空间S_i的特征维度，并在更新特征空间S'←S'-S_i之后继续进行上述循环，循环终止条件为S'＝φ，φ代表空集。完成全部k个特征子空间的划分。

步骤103，根据特征子空间内特征相关程度的高低选择特征作为伪标签，剩余特征作为预测属性，基于支持向量回归SVR训练用于预测伪标签的回归模型。

具体的，将步骤102中所得的特征子空间S_i中对应的

作为伪标签，剩余特征

f_i(x_i)＝w^Tx_i+b

其中，w,b为模型训练所得参数，w＝[w₁,w₂,…,w_j]，b为常数项。

步骤104，测试集进行与训练集相同的特征子空间划分，并使用对应的回归模型计算各特征子空间中测试集样本的异常程度。

具体的，根据步骤102中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分。

以及/>

均为l'×1的向量，/>

为测试集T中样本在第i维特征子空间中的预测属性，/>

则为对应的伪标签属性，l'为测试集T中的样本数量。

根据步骤103中训练得到的模型f_i(x)对划分特征子空间后的测试集T中的样本进行预测，令

可得伪标签/>

每个测试集T中样本的差值计算结果都能在

中一一对应。将/>

中对应的值越大，认为该样本的异常程度越高。整合各特征子空间结果得到异常分数集合/>

步骤105，根据特征子空间内相关程度计算所对应的权重。

具体的，根据步骤102中所得特征子空间相关程度计算各特征子空间所对应的权重组成一维权重向量

第i个特征子空间S_i对应的权重ψ_i为/>

的相关系数向量中的最大值，即：

其中，

C_i∈C，m_i为特征/>

在皮尔逊相关系数矩阵C中的位置。argmax()为取最大值。权重ψ_i越高，认为第i个特征子空间内的属性间相关程度越高，训练出的模型性能越好，计算所得的异常分数也越可靠。

步骤106，根据加权后集成的最终异常分数作为测试集样本的检测结果。

具体的，据步骤104、105所得特征子空间对应的异常分数r_i和权重ψ_i集成得到最终异常分数，并根据最终异常分数得到测试集T中样本的检测结果，实现电力调度监控数据异常检测，具体为：

根据所得权重向量

以及异常分数集合r计算最终异常分数/>

其中，·代表矩阵间的乘积，

将测试集T中的样本按照在最终异常分数

图2所示为基于特征相关性的分区方法流程示意图，该方法基于训练集特征间的相关系数对整个特征空间进行分区；输入为训练集中的所有数据；经过图示循环流程后，训练集所有样本的各维特征会被划分到对应特征子空间中。

图3是基于特征相关性的加权回归预测方法流程示意图，该方法将各特征子空间S_i中对应的

作为伪标签，剩余特征作为预测属性，并基于支持向量回归SVR算法训练回归模型；训练完成后使用训练得到的模型对划分特征子空间后的测试集T中的样本进行预测，可得测试集T伪标签/>

所对应的预测值，进而得到每个测试集样本的差值计算结果；计算所得差值越大，则认为该样本的异常程度越高；同时根据所得特征子空间相关程度计算各特征子空间所对应的权重，最后根据所得样本在各特征子空间中对应的异常分数以及权重集成所有结果。

图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图，提出的方法主要包括6个阶段：计算特征间相关性阶段、划分特征子空间阶段、训练回归模型阶段、计算异常分数阶段、计算特征子空间权重阶段、集成获得最终异常分数并得到结果阶段。在计算特征间相关性阶段，随机将电力调度历史监控数据的80％作为训练集，20％作为测试集，并基于训练集样本特征计算相关系数矩阵。在划分特征子空间阶段，基于训练集特征间的相关系数对整个特征空间进行分区，输入训练集中的所有数据，并将训练集所有样本的特征划分到各特征子空间中。在训练回归模型阶段，根据相关系数在各特征子空间中选择某一维特征作为伪标签，剩余特征作为预测属性，并基于支持向量回归SVR算法训练回归模型。在计算异常分数阶段，根据训练集的特征子空间划分情况完成对测试集同样的划分，并计算测试集样本在各回归模型上预测值与真实值的差值，从而得到测试集各样本的在各子空间内对应的异常分数。在计算特征子空间权重阶段，基于所划分训练集特征子空间内的最高相关系数，为测试集对应的异常分数赋予不同的权重，权重越高，认为特征子空间内的属性间相关程度越高，训练出的模型性能越好，计算所得的异常分数也越可靠。在集成获得最终异常分数并得到结果阶段，根据所得特征子空间对应的异常分数和权重集成得到最终异常分数，并根据最终异常分数得到测试集中样本的检测结果，实现电力调度监控数据异常检测。

图5是本发明算法的输入数据和输出结果示意图，本发明算法的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据，其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数；本发明算法的输出为根据所得异常分数的排名，前t％输入数据为异常数据，其他数据为正常数据，t一般取值5≤t≤10。

算法1为本发明基于特征相关性分区回归的电力调度监控数据异常检测方法的完整框架伪代码：

用于具体实施例中，使用21个公开数据集进行测试，数据集来自于各个领域，并经过预处理以模拟异常数量极少的数据特征。数据集的具体信息如表1所示。为了降低结果的随机性，全部结果均是运行25次的平均值。

表1具体实施例中使用的数据集

数据集	样本总数	异常数	特征维度	不平衡度
					PenDigits	4934	10	15	493.4
Pop_failures	509	15	18	33.9
					Hepatitis	70	3	19	22.3
Messidor_features	567	27	19	21.0
					Cardiotocography	1681	33	20	50.9
Waveform	3443	100	20	34.4
					Annthyroid	3365	67	20	50.2
Parkinson	50	2	21	25.0
					mHealth	697	20	23	34.9
WDBC	367	10	30	36.7
					WPBC	155	4	32	38.7
Biodeg	730	31	41	23.5
					Spectf	218	7	44	31.1
Lymphography	148	6	46	24.7
					Spam-Base	2579	51	56	50.6
Sonar	100	4	60	25.0
					Green	225	9	62	25.0
MEU_Mobile	1070	50	71	21.4
					KDDCup99	4811	20	78	240.6
Mice_Protein	519	12	79	43.3
					Movement_libras	347	11	90	31.5

为验证所提算法的有效性，本发明实施例中将对比算法分为两类。其中基于特征预测的方法三种：DEMUD、ALSO以及DELR；基于样本分布的方法四种：LOF、KNN、COPOD、LGOD。本发明实施例在表格中用CFPR表示。对比算法相关参数如表2所示。

表2对比算法相关参数

本发明实施例使用AUC指标进行评定。通常G-mean被用来评估数据不平衡下算法的性能，一般来说，使用AUC指标作为判定无监督异常检测方法效果好坏的指标更为合适。AUC常用于异常检测领域，因为它所得结果不受类别不平衡的影响，同时AUC还可以仅根据异常分数排名计算，通过正负类样本在排名表中的rank值，可以计算得到所需要的AUC值。实施例中将异常类看做正类，AUC的大小直接表明了算法在异常数据上的性能，即AUC越大，异常检测的准确率越高，算法的性能越好。

本发明实施例中检测结果的异常判定比例t设置为5。

本发明实施例和其他对比方法在公开数据集上的AUC结果如表3所示。可以看到本发明基于特征相关性分区回归的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的AUC值，并获得了最高的平均AUC。

表3在公开数据集上的AUC结果

/>

同样将本发明实施例应用在三种智能电网调度控制系统业务异常上，这三种异常分别为数据跳变、应用断网和遥测表不刷新。

表4展示了本发明实施例和其他对比方法在这三种异常上的AUC结果。

表4在三种异常上的AUC结果

异常类型	DEMUD	ALSO	DELR	LOF	KNN	COPOD	LGOD	CFPR
									数据跳变	0.8614	0.9994	0.9926	0.5417	0.4396	0.9800	0.2482	0.9852
应用断网	0.9510	0.9955	0.9969	0.6981	0.9063	0.9923	0.9959	0.9868
									遥测表不刷新	0.9848	0.9853	0.9928	0.5517	0.9927	0.9922	0.7628	0.9952

从表4中可以看到本发明在遥测表不刷新异常上取得了AUC指标的最优性能。由于本发明基于特征相关性分区回归的电力调度监控数据异常检测方法通过寻找数据特征间的相关性来挖掘数据中隐藏的信息，虽说在数据跳变和应用断网这两种异常上并未有突出的表现，但相比于其他方法并未落后太多。三种实际电力调度监控数据异常上的对比结果结合大量公开数据集上的对比结果，说明本发明可以在应对电力调度监控数据维数较高、无关属性较多的情况下，能够有效的提升异常检测的准确率，并且在其他情况下，也能取得较为稳定的异常检测结果。

综上所述，本发明实施例具有以下有益效果：

本发明实施的技术方案中，将电力调度监控历史数据划分为训练集和测试集，基于皮尔逊相关系数计算训练集特征间的相关系数矩阵；根据计算所得相关系数矩阵对训练集进行特征子空间的划分；根据特征子空间内特征相关程度的高低选择特征作为伪标签，剩余特征作为预测属性，基于支持向量回归SVR训练用于预测伪标签的回归模型；对测试集进行与训练集相同的特征子空间划分，并使用对应的回归模型计算各特征子空间中测试集样本的异常程度；根据特征子空间内相关程度计算所对应的权重；根据加权后集成的最终异常分数作为测试集样本的检测结果。与其他无监督算法相比，本方法可获得更高的异常检测准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。