CN110458195A

CN110458195A - 一种基于多判据融合的异常数据甄别方法

Info

Publication number: CN110458195A
Application number: CN201910619209.9A
Authority: CN
Inventors: 臧海祥; 陈远; 程礼临; 卫志龙; 孙国强
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-15
Anticipated expiration: 2039-07-10
Also published as: CN110458195B

Abstract

本发明公开了一种基于多判据融合的异常数据甄别方法，步骤如下：S1：对样本数据集进行预处理；S2：按照异常数据甄别模型中的四种检测模型，组建四种检测模型分别对应的样本数据集；S3：将深度学习方法的输入数据集输入长短期神经网络模型中进行训练，获取训练好的长短期神经网络模型；S4：将样本数据集分别输入对应的模型中，进行异常值的甄别，获取得到各数据点被相应模型分别甄别为异常点的概率；S5：将各个数据点被相应模型甄别的甄别结果概率进行融合，并将融合结果根据设定的判断准则进行判断，获取得到最终的异常数据甄别结果。本发明提高了数据异常点甄别精度，也提高了数据的准确性及可利用价值，为运营检测业务提供了精确数据保障。

Description

一种基于多判据融合的异常数据甄别方法

技术领域

本发明涉及电力系统的数据挖掘技术领域，尤其涉及一种基于多判据融合的异常数据甄别方法。

背景技术

随着计算机、智能电表、通讯技术的发展及其在电网实际运行中的广泛使用，电网的运营监测部门有更多途径获取电力系统正常运行时产生的海量的电网运行数据、营销数据、电气设备在线监测数据等。海量的数据为电网运营监测部门实施负荷预测业务，电气设备异常运行状态检测业务，线损分析业务等一系列数据处理分析业务提供了可靠的支撑，推进电网业务向精细化智能化方向发展。

电气设备的异常运行状态识别可以快速诊断电气设备是否异常，电网的监测检修部门可参考异常运行状态识别结果，采取相应的检修措施，能迅速排查电网中计量装置中的潜在问题，提高电网运行效率与安全可靠性。运营监测部门在处理数据分析相关的业务过程中，剔除计量装置在异常运行状态下测量的的异常数据点，提高运行数据的准确性与质量，提高国网运营监测部门的相关业务水平。

计量装置异常运行状态识别主要依靠计量装置的检测得到时间序列的异常点检测。而基于数据驱动进行的时间序列异常检测主要分为三个部分，分类方法、聚类方法和回归方法。分类方法和聚类方法的检测对象是大量用户，而回归方法的检测对象是单个用户。分类算法依赖带标签的数据集，回归算法依赖天气、日期、电价等相关的外生数据，聚类算法依赖聚类模型参数的选取。从模型的检测对象和算法依赖来看，不同的算法模型在面对不同的场景时各有优缺点。

发明内容

发明目的：针对现有数据异常点甄别精度低的问题，本发明提出一种基于多判据融合的异常数据甄别方法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种基于多判据融合的异常数据甄别方法，所述异常数据甄别方法具体包括如下步骤：

S1：对样本数据集进行预处理，其中所述样本数据集由电力系统正常运行时采集的历史电气量数据组建而成；

S2：将所述预处理后的样本数据集中的数据，按照异常数据甄别模型中的四种检测模型，组建四种检测模型分别对应的样本数据集；

S3：将深度学习方法的输入数据集输入神经网络模型中进行训练，获取训练好的神经网络模型；

S4：将四种检测模型对应的样本数据集分别输入原型聚类模型、密度聚类模型、概率密度模型、训练好的神经网络模型中，进行异常值的甄别，获取得到各个数据点被四种检测模型分别甄别为异常点的概率；

S5：通过所述各个数据点被四种检测模型分别甄别为异常点的概率，将各个数据点被四种检测模型甄别的甄别结果概率进行融合，并将所述融合结果根据设定的判断准则进行判断，获取得到最终的异常数据甄别结果。

进一步地讲，在所述步骤S1中对样本数据集进行预处理包括有：对所述样本数据集进行缺失值处理、对所述样本数据集中的异常值进行剔除处理；

其中对所述样本数据集进行缺失值处理具体如下：

在所述样本数据集中，当连续采样时间内缺失的数据数量小于预设阈值M时，通过线性插值方法对所述样本数据集进行处理；

在所述样本数据集中，当连续采样时间内缺失的数据数量不小于预设阈值M时，将所述连续采样时间内对应的电压数据、电流数据和有功功率数据从所述样本数据集中删除。

进一步地讲，在所述步骤S1中的历史电气量数据具体包括有：从用户采集系统中抽取正常运行用户的计量装置采集的电压数据、电流数据和有功功率数据，以及电压数据、电流数据和有功功率数据分别对应的采样时间。

进一步地讲，在所述步骤S2中的四种检测模型分别对应的样本数据集包括有：原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集；

所述原型聚类方法的输入数据集的组成为：目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值、目标检测数据序列中各采样点对应的数据值和各采样点的前两个采样点对应的数据值之间的变化值；

所述密度聚类方法的输入数据集的组成为：所述样本数据集中两个不同的电气量分别对应的数据值和采样时间；

所述概率密度方法的输入数据集的组成为：所述目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值和各采样点的前一个采样点对应的数据值之间的变化值；

所述深度学习方法的输入数据集的组成为：所述样本数据集中两个不同的电气量分别对应的样本和标签，所述样本为预设的连续时间内各个采样点对应的数据值及采样时间，所述标签为样本中的最后一个数据值对应的采样时间的下一个采样时间及其对应的数据值。

进一步地讲，所述步骤S3获取训练好的神经网络模型，具体如下：

S3.1：将所述深度学习方法的输入数据集输入神经网络模型中进行训练，即为对神经网络模型中的权重参数和网络结构偏置项参数进行优化，获取优化后的权重参数和网络结构偏置项参数，所述优化公式具体为：

其中：ρ_τ(u)＝u[τ-I(u)]，u＝Y_i-f(X_i,W,b)

W为权重参数，b为网络结构偏置项参数，Y_i为神经网络模型的响应变量，X_i为响应变量对应的解释变量，N为响应变量的总数目，τ为分位数，f(X_i,W,b)为长短期神经网络模型的输出与解释变量、权重参数、网络结构偏置项参数之间的非线性关系；

S3.2：将神经网络模型中原先的权重参数和网络结构偏置项参数更新为所述优化后的权重参数和网络结构偏置项参数，所述更新后的神经网络模型即为训练好的神经网络模型。

进一步地讲，在所述步骤S4中获取得到各个数据点被原型聚类模型甄别为异常点的概率，具体如下：

SA4.1：设置所述原型聚类模型中的模型参数，选择所述原型聚类模型中的聚类类别数和聚类最大循环次数；

SA4.2：将所述原型聚类方法的输入数据集中的各个数据进行标准化，并将所述标准化后的数据输入原型聚类模型中，获取得到每个数据点与该数据点所属聚类类别的质心之间的距离；

所述标准化后的数据，具体为：

其中：z_ij为标准化后的数据值，x_ij为输入数据集中的数据值，x_i为各个数据值的算数平均值，s_i为标准差；

SA4.3：根据所述原型聚类模型的聚类结果，设置最低阈值；

比较每个数据点与该数据点所属聚类类别的质心之间的距离值，选出最大的距离值，并将所述最大距离值设置为最高阈值；

SA4.4：将所述最低阈值和最高阈值之间的范围划分为w₁个阈值等级，将所述最低阈值设置为第一个阈值等级的大小，所述第n₁个阈值等级的大小，具体为：

w₁∈(50,100)

其中：为第n₁个阈值等级的大小，T_l1为最低阈值，T_h1为最高阈值，w₁为原型聚类模型中阈值等级的数量；

SA4.5：获取所述数据点与所属聚类类别的聚类中心之间的距离值，根据所述阈值等级的大小，当所述距离值大于第n₁个阈值等级的大小且小于第n₁+1个阈值等级的大小时，所述数据点被原型聚类模型甄别为异常点的概率，具体为：

其中：P₁为数据点被原型聚类模型甄别为异常点的概率，n₁为第n₁个阈值等级对应的序号，w₁为原型聚类模型中阈值等级的数量。

进一步地讲，在所述步骤S4中获取得到各个数据点被密度聚类模型甄别为异常点的概率，具体如下：

SB4.1：设置所述密度聚类模型中的模型参数，通过欧式距离计算方法，获取所述密度聚类方法的输入数据集中的相邻数据点之间的距离；

SB4.2：将所述密度聚类方法的输入数据集中的各个数据点之间的距离进行比较，选取出最大的距离值，同时通过序列平面分布图和模拟测试，设置所述最大距离值的最低阈值和最高阈值，并将所述最低阈值和最高阈值之间的数据范围设置为最大距离值的可选区间；

SB4.3：根据所述最大距离值的可选区间，判断所述密度聚类方法的输入数据集中的数据点是否为异常点，具体为：

当所述最大的距离值等于最低阈值时，在序列平面分布图中所有远离聚类中心的数据点均为异常点；

当所述最大的距离值等于最高阈值时，所有数据点均为正常点；

SB4.4：将所述最大距离值的可选区间划分为w₂个距离等级，将所述最低阈值设置为第一个距离等级的大小，所述第n₂个距离等级的大小，具体为：

w₂∈(50,100)

其中：为第n₂个距离等级的大小，T_l2为最大距离参数的最低阈值，T_h2为最大距离参数的最高阈值，w₂为密度聚类模型中距离等级的数量；

SB4.5：当所述数据点在第n₂个距离等级中检测为异常点，在第n₂+1个距离等级中检测为正常点时，所述数据点被密度聚类模型甄别为异常点的概率，具体为：

其中：P₂为数据点被密度聚类模型甄别为异常点的概率，n₂为第n₂个距离等级对应的序号，w₂为密度聚类模型中距离等级的数量。

进一步地讲，在所述步骤S4中获取得到各个数据点被概率密度模型甄别为异常点的概率，具体如下：

SC4.1：对所述概率密度方法的输入数据集中的数据进行核密度估计，获取得到概率密度方法的输入数据集数据变化值的概率分布函数，得到所述样本变化值出现任意值时的概率；

SC4.2：通过所述样本变化值出现任意值时的概率，设置最低阈值概率和最高阈值概率；

SC4.3：将所述数据变化值的绝对值按从小到大的顺序进行排序，获取所述数据点被概率密度模型甄别为异常点的概率，具体为：

其中：P₃为数据点被概率密度模型甄别为异常点的概率，n₃为数据变化值的绝对值标号，n_l为对应最高阈值概率的数据变化值的绝对值标号，n_h为对应最低阈值概率的数据变化值的绝对值标号，N为概率密度方法的输入数据集中的数据总数。

进一步地讲，在所述步骤S4中获取得到各个数据点被训练好的神经网络模型甄别为异常点的概率，具体如下：

SD4.1：将所述深度学习方法的输入数据集输入训练好的神经网络模型中，获取99组不同的预测值，确定出不同置信区间的上下界，具体为：

所述n％置信区间的上界为：99个预测值中分位数对应的数值；

所述n％置信区间的下界为：99个预测值中分位数对应的数值；

SD4.2：将所述不同置信区间的上下界做进一步地精确处理，所述精确后的置信区间，具体为：

B_u,l'＝B_u,l+A_real-A_0.5pred

其中：B_u,l'为精确后的置信区间的上下界，B_u,l为精确前的置信区间的上下界，A_real为采样时刻对应的数据值，A_0.5pred为对应采样时刻对应的0.5分位数的预测值；

SD4.3：根据所述精确后的置信区间，设置m₄组阈值等级，所述第n₄组阈值等级为其中为第置信区间的上界，为第置信区间的下界；

SD4.4：根据所述阈值等级设置最低阈值等级和最高阈值等级，并将所述最低阈值等级和最高阈值等级之间的距离划分为w₄个距离等级，所述最低阈值等级设置为第一个距离等级的大小，第n₄个距离等级的大小，具体为：

其中：为第n₄个距离等级的大小，T_l4为最低阈值等级，T_h4为最高阈值等级，w₄为训练好的长短期神经网络模型中距离等级的数量；

SD4.5：将所述数据点对应的数据值与距离等级对应的置信区间的上下界大小进行比较，根据所述比较结果，获取所述数据点被训练好的神经网络模型甄别为异常点的概率，具体为：

其中：P₄为数据点被训练好的神经网络模型甄别为异常点的概率，为第n₄个距离等级对应的置信区间的下界大小，为第n₄个距离等级对应的置信区间的上界大小，n₄为第n₄组距离等级对应的序号，w₄为训练好的神经网络模型中距离等级的数量，p为数据点对应的数据值。

进一步地讲，所述步骤S5获取得到最终的异常数据甄别结果，具体如下：

S5.1：根据所述各个数据点被四种检测模型分别甄别为异常点的概率，确定出各数据点的基本分配概率，所述基本分配概率包括：数据点被相应模型甄别为异常点的概率、数据点被相应模型甄别为正常点的概率，具体为：

其中：m₁(A₁)为数据点被原型聚类模型甄别为异常点的概率，m₁(A₂)为数据点被原型聚类模型甄别为正常点的概率，m₂(A₁)为数据点被密度聚类模型甄别为异常点的概率，m₂(A₂)为数据点被密度聚类模型甄别为正常点的概率，m₃(A₁)为数据点被概率密度模型甄别为异常点的概率，m₃(A₂)在数据点被概率密度模型甄别为正常点的概率，m₄(A₁)为数据点被训练好的长短期神经网络模型甄别为异常点的概率，m₄(A₂)为数据点被训练好的长短期神经网络模型甄别为正常点的概率；

S5.2：通过所述各数据点的基本分配概率，获取所述数据点对应的各个甄别结果之间的冲突系数，具体为：

其中：k为冲突系数，A_i表示数据点是否为异常点，m_j(A_i)为数据点被模型甄别的甄别结果概率，N为对数据点进行甄别的模型的个数，为空集；

S5.3：判断所述冲突系数的大小是否等于1，当所述冲突系数的大小不等于1时，所述各数据点的基本分配概率保持不变；

当所述冲突系数的大小等于1时，对所述各数据点的基本分配概率进行改进，获取改进后的各数据点的基本分配概率，具体为：

其中：m_j(A₁)'为改进后的数据点被模型甄别为异常点的概率，m_j(A₁)为数据点被模型甄别为异常点的概率，m_j(A₂)'为改进后的数据点被模型甄别为正常点的概率，m_j(A₂)为数据点被模型甄别为正常点的概率，m_j(A_i)为数据点被模型甄别的甄别结果概率，μ为折扣率；

S5.4：根据所述冲突系数的大小，选择所述各元素的基本分配概率，将各数据点被相应模型甄别的甄别结果概率通过D-S合成公式进行融合，具体为：

其中：M(A_i)为融合后的概率，k为冲突系数，A_i表示数据点是否为异常点，m_j(A_i)为数据点被模型甄别的甄别结果概率，m_j(A_i)'为改进后的数据点被模型甄别的甄别结果概率，S为对数据点进行甄别的模型的个数，为空集；

S5.5：判断所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率是否满足设定的判断准则，所述设定的判断准则，具体为：

其中：M(A₁)为融合后的数据点被模型甄别为异常点的概率，M(A₂)为融合后的数据点被模型甄别为正常点的概率，M(A_i)为融合后的数据点被模型甄别的甄别结果概率，n为融合后的数据点被模型甄别的甄别结果的总个数；

当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率满足设定的判断准则时，所述数据点为异常点；

当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率不满足设定的判断准则时，所述数据点为正常点。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

(1)本发明通过深度学习方法、原型聚类法、密度聚类法、概率密度法交叉验证，提高了数据异常点甄别精度，从而提高了对数据监测的可靠性和准确性，为运营检测业务提供了精确数据保障，也提高了数据的准确性及可利用价值，为开展用户负荷预测等其他重要业务提供了科学、合理、可靠的数据保障；

(2)本发明使用的深度学习方法能处理海量数据，并进行高效全面的特征学习，减少了人工进行特征学习的低效与不完备，从而使学习特征的泛化能力更强；

(3)本发明使用的LSTM神经网络，是长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；

(4)本发明的异常数据甄别方法能对不同情况下的异常运行状态进行识别，包括在电表获取的运行数据样本集数量不够、时间序列特性不明显或者LSTM的模型表现不佳等情况，从而本发明的异常数据甄别方法的泛化性能好，准确率高；

(5)本发明由于较好的识别性能，从而工作人员可以依据识别结果进行检修和排查，尽早解决异常电表存在的潜在问题，进而提高电网运行的安全可靠性。

附图说明

图1是本发明的异常数据甄别方法的流程示意图；

图2是本发明的实际功率与随机噪声曲线图；

图3是本发明的模拟异常功率曲线图；

图4是本发明的异常数据甄别方法甄别得到的异常功率点示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。

实施例1

参考图1、图2、图3和图4，本实施例提供了一种基于多判据融合的异常数据甄别方法，具体包括如下步骤：

步骤S1：将电力系统正常运行时采集的历史电气量数据组成样本数据集，并对样本数据集进行预处理。其中电力系统正常运行是指电力系统在正常工作的过程中未受到干扰，运行参数未偏离正常值。正常运行的电力系统不仅能以电压和频率质量均合格的电能满足负荷用电的需求，而且还具有适当安全的储备。

在本实施例中，组成样本数据集的历史电气量数据具体为：从用户采集系统中抽取正常运行用户的计量装置采集的电气量数据，该电气量数据包括有电压数据、电流数据和有功功率数据，以及电压数据、电流数据和有功功率数据分别对应的采样时间。

同时，在步骤S1中对样本数据集进行预处理包括有：对样本数据集进行缺失值处理、将样本数据集中明显异常的数据值进行剔除处理。其中样本数据集中明显异常的数据值是指利用统计和简单的数学方法能够快速判断出来的异常点对应的数值，譬如计量装置采集的电气量数据中有9999和-9999数据值，该9999和-9999数据值对应的数据点即为异常点，则此时需要将这些异常点从样本数据集中剔除出去。

其中对样本数据集进行缺失值处理分为两种情况，具体为：

在样本数据集中，当连续采样时间内对应的数据存在有缺失，且缺失的数据数量小于预设阈值M时，可以通过线性插值方法对样本数据集中缺失的数据进行处理。

在样本数据集中，当连续采样时间内对应的数据存在有缺失，且缺失的数据数量不小于预设阈值M时，此时将无法通过线性插值方法对样本数据集中缺失的数据进行处理，从而直接将该连续采样时间内对应的数据全部从样本数据集中剔除出去，其中连续采样时间内对应的数据包括电压数据、电流数据和有功功率数据。

具体地讲，在本实施例中，预设阈值M的大小选择为7个样本长度。即当样本长度为96时，当连续采样时间内对应的数据缺失的数量小于7*96个时，可以通过线性插值方法进行处理，反之则进行剔除处理。

步骤S2：根据步骤S1中预处理后的样本数据集，按照异常数据甄别模型中的四种检测模型，组建四种检测模型分别对应的输入数据集。

其中四种检测模型对应的输入数据集分别为：原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集。

在本实施例中，原型聚类方法的输入数据集的组成具体为：目标检测数据集中各采样点对应的数据值、目标检测数据集中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值、目标检测数据集中各采样点对应的数据值与各采样点的前两个采样点对应的数据值之间的变化值。

其中目标检测数据集为样本数据集中的一部分，当需要对电压数据进行异常数据甄别时，目标检测数据集则由样本数据集中所有的电压数据组成。当需要对电流数据进行异常数据甄别时，目标检测数据集则由样本数据集中所有的电流数据组成。当需要对有功功率数据进行异常数据甄别时，目标检测数据集则由样本数据集中所有的有功功率数据组成。

密度聚类方法的输入数据集的组成具体为：样本数据集中两个不同的电气量分别对应的数据值和采样时间。

其中密度聚类方法可以画出两个电气量之间的二维平面分布，从而展现出两个电气量之间的相关性大小和密度关系，通过密度聚类法甄别出的异常数据为相关性异常的数据点。

同时按照序列相关性检测目标的不同，组成密度聚类方法的输入数据集的两个电气量也会随之发生改变。当序列相关性检测目标为电压电流相关性异常检测时，密度聚类方法的输入数据集的组成为：样本数据集中所有电压数据及其对应的采样时间和电流数据及其对应的采样时间。当序列相关性检测目标为电压功率相关性异常检测时，密度聚类方法的输入数据集的组成为：样本数据集中所有电压数据及其对应的采样时间和有功功率数据及其对应的采样时间。当序列相关性检测目标为电流功率相关性异常检测时，密度聚类方法的输入数据集的组成为：样本数据集中所有电流数据及其对应的采样时间和有功功率数据及其对应的采样时间。

概率密度方法的输入数据集的组成具体为：目标检测数据集中各采样点对应的数据值、目标检测数据集中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值。

此处的目标检测数据集与原型聚类方法的输入数据集的组成中的目标检测数据集的组成相同，从而此处将不再进行重复阐述。

深度学习方法的输入数据集的组成具体为：样本数据集中两个不同的电气量分别对应的样本和标签。其中样本为预设的连续时间内各个采样点对应的数据值及其采样时间，标签为样本中最后一个数据值对应的采样时间的下一个采样时间及其对应的数据值。

深度学习模型在训练过程中需要大量的数据样本量，从而才能够训练得到预设的权重参数和网络结构偏置参数，进而更好的建立输入与输出之间的非线性映射关系。但是过大的训练量会增大深度学习模型的训练时间，从而选择合适的预设的连续时间十分重要。在本实施例中，预设的连续时间的选择具体为：一天96点的样本长度。

同时按照序列相关性检测目标的不同，组成深度学习方法的输入数据集的两个电气量也会随之发生改变，具体变化与组成密度聚类方法的输入数据集的两个电气量的变化相同，此处将不再进行重复阐述。

步骤S3：将步骤S2中的深度学习方法的输入数据集输入长短期神经网络模型中进行训练，获取得到训练好的长短期神经网络模型。在本实施例中，长短期神经网络模型在使用时进行了改进，使用的是长短期记忆网络分位数回归模型，也就是长短期记忆网络回归模型和分位数回归模型相结合的模型。其中分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸，通过几个分位函数估计整体模型。具体过程如下：

步骤S3.1：将步骤S2中的深度学习方法的输入数据集输入长短期神经网络模型中进行训练，也就是对长短期神经网络模型中的权重参数和网络结构偏置项参数进行优化，进而获取得到优化后的权重参数和网络结构偏置项参数，其中优化公式具体为：

其中：ρ_τ(u)＝u[τ-I(u)]，u＝Y_i-f(X_i,W,b)

W为权重参数，b为网络结构偏置项参数，Y_i为长短期神经网络模型的响应变量，X_i为响应变量对应的解释变量，N为响应变量的总数目，τ为分位数，f(X_i,W,b)为长短期神经网络模型的输出与解释变量、权重参数、网络结构偏置项参数之间的非线性关系。

步骤S3.2：将长短期神经网络模型中原先的权重参数W和网络结构偏置项参数b更新为步骤S3.1中优化后的权重参数W和网络结构偏置项参数b，从而获取得到更新后的长短期神经网络模型，即为获取得到了训练好的长短期神经网络模型。

步骤S4：将步骤S2中的四种检测模型对应的输入数据集分别输入对应的模型中，进行异常值甄别，获取得到各个数据点被四种检测模型分别甄别为异常点的概率，具体如下：

在本实施例中，将原型聚类方法的输入数据集输入原型聚类模型中进行异常值甄别，获取得到各个数据点被原型聚类模型甄别为异常点的概率，具体过程如下：

步骤SA4.1：设置原型聚类模型中的模型参数，选择原型聚类模型中的聚类类别数和聚类最大循环次数。其中聚类类别数和聚类最大循环次数是不固定的，具体根据实际数据进行选择，在本实施例中，具体地讲，聚类类别数设置为6，聚类最大循环次数设置为1000。

步骤SA4.2：将原型聚类方法的输入数据集中的各个数据进行标准化，并将标准化后的数据输入原型聚类模型中，获取得到每个数据点与该数据点所属聚类类别质心之间的距离。其中标准化后的数据，具体为：

其中：z_ij为标准化后的数据值，x_ij为输入数据集中的数据值，x_i为各个数据值的算数平均值，s_i为标准差。

步骤SA4.3：根据原型聚类模型的聚类结果，设置最低阈值T_l1。并将所有数据点与该数据点所属聚类类别质心之间的距离值进行比较，选取出其中最大的距离值，并将该最大距离值设置为最高阈值T_h1。

步骤SA4.4：根据最低阈值T_l1和最高阈值T_h1，将最低阈值T_l1和最高阈值T_h1之间的范围划分为w₁个阈值等级。其中第一个阈值等级T_1-1的大小为最低阈值T_l1，第n₁个阈值等级的大小，具体为：

w₁∈(50,100)

其中：为第n₁个阈值等级的大小，T_l1为最低阈值，T_h1为最高阈值，w₁为原型聚类模型中阈值等级的数量。

步骤SA4.5：获取得到数据点与该数据点所属聚类类别的聚类中心之间的距离，当该距离值大于第n₁个阈值等级的大小且小于第n₁+1个阈值等级的大小时，该数据点被原型聚类模型甄别为异常点的概率，具体为：

在本实施例中，将密度聚类方法的输入数据集输入密度聚类模型中进行异常值甄别，获取得到各个数据点被密度聚类模型甄别为异常点的概率，具体过程如下：

步骤SB4.1：设置密度聚类模型中的模型参数，并通过欧式距离计算方法，获取密度聚类方法的输入数据集中的相邻数据点之间的距离。其中每个聚类类别中的最少样本个数为5。

步骤SB4.2：通过序列平面分布图和模拟测试，人工设置最大距离参数的最低阈值T_l2和最高阈值T_h2。

并将最大距离参数的最大值设置为最高阈值T_h2，最大距离参数的最小值设置为最低阈值T_l2，也就是说最大距离参数的可选区间为(T_l2，T_h2)。

步骤SB4.3：通过步骤SB4.2中最大距离参数的可选区间，判断密度聚类方法的输入数据集中的数据点是否为异常点。具体为：

将密度聚类方法的输入数据集中的相邻数据点之间的距离值进行比较，选出其中的最大值，当最大的距离值等于最低阈值T_l2时，在序列平面分布图中所有远离聚类中心的数据点均为异常点。当最大的距离值等于最高阈值T_h2时，所有数据点均为正常点。

步骤SB4.4：将步骤SB4.2中最大距离参数的可选区间进行划分，划分为w₂个距离等级。其中第一个距离等级T_2-1的大小为最低阈值T_l2，第n₂个距离等级的大小，具体为：

w₂∈(50,100)

其中：为第n₂个距离等级的大小，T_l2为最大距离参数的最低阈值，T_h2为最大距离参数的最高阈值，w₂为密度聚类模型中距离等级的数量。

步骤SB4.5：当数据点在第n₂个距离等级中检测为异常点，在第n₂+1个距离等级中检测为正常点时，该数据点被密度聚类模型甄别为异常点的概率，具体为：

在本实施例中，将概率密度方法的输入数据集输入概率密度模型中进行异常值甄别，获取得到各个数据点被概率密度模型甄别为异常点的概率，具体过程如下：

步骤SC4.1：对概率密度方法的输入数据集进行核密度估计，获取得到概率密度方法的输入数据集中数据变化值的概率分布函数，同时根据数据变化值的概率密度函数，可以获取得到数据变化值出现任意值时的概率。

由数据变化值的概率密度函数可知，数据变化值的分布情况基本呈正态分布，当数据变化值越大，其出现的概率就会越小。

步骤SC4.2：通过步骤SC4.1中获取得到数据变化值出现任意值时的概率，人工设置最低阈值概率T_l3和最高阈值概率T_h3。

步骤SC4.3：将数据变化值的绝对值按照从小到大的顺序进行排序，并按照顺序将每个绝对值标号为n₃，n₃的大小与数据变化值的绝对值在排序过程中的序号相同。其中对应最低阈值概率T_l3的数据变化值的绝对值标号为n_h，对应最高阈值概率T_h3的数据变化值的绝对值标号为n_l。

从而数据点被概率密度模型甄别为异常点的概率，具体为：

在本实施例中，将深度学习方法的输入数据集输入训练好的长短期神经网络模型中进行异常值甄别，获取得到各个数据点被训练好的长短期神经网络模型甄别为异常点的概率，具体过程如下：

步骤SD4.1：将深度学习方法的输入数据集输入训练好的长短期神经网络模型中，获取得到99组不同的预测值，进而计算得到不同置信区间的上下界。其中不同置信区间的上下界，具体为：

其中n％置信区间的上界为：99个预测值中分位数对应的数值。

n％置信区间的下界为：99个预测值中分位数对应的数值。

步骤SD4.2：将步骤SD4.1中获取得到的不同置信区间的上下界做进一步地精确处理，精确后的置信区间的上下界，具体为：

B_u,l'＝B_u,l+A_real-A_0.5pred

其中：B_u,l'为精确后的置信区间的上下界，B_u,l为精确前的置信区间的上下界，A_real为采样时刻对应的数据值，A_0.5pred为对应采样时刻对应的0.5分位数的预测值。

步骤SD4.3：根据步骤SD4.3中精确后的置信区间的上下界，设置m₄组阈值等级，并将每一组阈值等级设置为相应置信区间的上下界。具体地讲，第n₄组阈值等级为其中为第置信区间的上界，为第置信区间的下界。

步骤SD4.4：根据步骤SD4.3中的阈值等级，设置最低阈值等级T_l4和最高阈值等级T_h4，并将最低阈值等级T_l4和最高阈值等级T_h4之间的距离划分为w₄个距离等级。其中第一个距离等级T_4-1的大小等于最低阈值等级T_l4，第n₄个距离等级的大小，具体为：

其中：为第n₄个距离等级的大小，T_l4为最低阈值等级，T_h4为最高阈值等级，w₄为训练好的长短期神经网络模型中距离等级的数量。

步骤SD4.5：将数据点对应的数据值与距离等级对应的置信区间的上下界大小进行比较，根据比较结果，获取数据点被训练好的长短期神经网络模型甄别为异常点的概率，具体为：

其中：P₄为数据点被训练好的长短期神经网络模型甄别为异常点的概率，为第n₄个距离等级对应的置信区间的下界大小，为第n₄个距离等级对应的置信区间的上界大小，n₄为第n₄组距离等级对应的序号，w₄为训练好的长短期神经网络模型中距离等级的数量，p为数据点对应的数据值。

步骤S5：根据步骤S4中各个数据点被相应模型甄别为异常点的概率，将各个数据点被相应模型甄别的甄别结果概率进行融合，同时将融合结果根据设定的判断准则进行判断，进而获取得到最终的异常数据甄别结果，具体过程如下：

步骤S5.1：根据步骤S4中获取得到的数据点被原型聚类模型甄别为异常点的概率P₁、数据点被密度聚类模型甄别为异常点的概率P₂、数据点被概率密度模型甄别为异常点的概率P₃、数据点被训练好的长短期神经网络模型甄别为异常点的概率P₄，确定出各数据点的基本分配函数，其中基本分配函数包括有：数据点被相应模型甄别为异常点的概率、数据点被相应模型甄别为正常点的概率，具体为：

其中：m₁(A₁)为数据点被原型聚类模型甄别为异常点的概率，m₁(A₂)为数据点被原型聚类模型甄别为正常点的概率，m₂(A₁)为数据点被密度聚类模型甄别为异常点的概率，m₂(A₂)为数据点被密度聚类模型甄别为正常点的概率，m₃(A₁)为数据点被概率密度模型甄别为异常点的概率，m₃(A₂)在数据点被概率密度模型甄别为正常点的概率，m₄(A₁)为数据点被训练好的长短期神经网络模型甄别为异常点的概率，m₄(A₂)为数据点被训练好的长短期神经网络模型甄别为正常点的概率。

步骤S5.2：通过步骤S5.1中确定出的各数据点的基本分配函数，获取数据点对应的各个甄别结果之间的冲突系数，具体为：

其中：k为冲突系数，A_i表示数据点是否为异常点，m_j(A_i)为数据点被模型甄别的甄别结果概率，N为对数据点进行甄别的模型的个数，为空集。

步骤S5.3：由于冲突系数k的大小可以反映出同一个数据点在不同模型中的不同甄别结果之间的冲突程度，从而对步骤S5.2中得到的冲突系数k的大小进行判断，并根据判断结果选择各数据点的分配概率。具体为：

当冲突系数k的大小不等于1时，步骤S5.1中获取得到的各数据点的分配概率保持不变。

当冲突系数k的大小等于1时，对各个元素的基本分配概率进行改进，具体为：

其中：m_j(A₁)'为改进后的数据点被模型甄别为异常点的概率，m_j(A₁)为数据点被模型甄别为异常点的概率，m_j(A₂)'为改进后的数据点被模型甄别为正常点的概率，m_j(A₂)为数据点被模型甄别为正常点的概率，m_j(A_i)为数据点被模型甄别的甄别结果概率，μ为折扣率。

步骤S5.4：根据冲突系数k的大小判断，选择各元素的基本分配概率，将各个数据点被相应模型甄别的甄别结果概率通过D-S合成公式进行融合，具体为：

其中：M(A_i)为融合后的概率，k为冲突系数，A_i表示数据点是否为异常点，m_j(A_i)为数据点被模型甄别的甄别结果概率，m_j(A_i)'为改进后的数据点被模型甄别的甄别结果概率，S为对数据点进行甄别的模型的个数，为空集。

步骤S5.5：根据步骤S5.4中的融合公式，获取得到融合后的数据点被模型甄别为异常点的概率M(A₁)、融合后的数据点被模型甄别为正常点的概率M(A₂)。并判断融合后的数据点被模型甄别为异常点的概率M(A₁)、融合后的数据点被模型甄别为正常点的概率M(A₂)是否满足设定的判断准则，其中设定的判断准则，具体为：

其中：M(A₁)为融合后的数据点被模型甄别为异常点的概率，M(A₂)为融合后的数据点被模型甄别为正常点的概率，M(A_i)为融合后的数据点被模型甄别的甄别结果概率，n为融合后的数据点被模型甄别的甄别结果的总个数。

当融合后的数据点被模型甄别为异常点的概率M(A₁)、融合后的数据点被模型甄别为正常点的概率M(A₂)满足设定的判断准则时，判断该数据点为异常点。

当融合后的数据点被模型甄别为异常点的概率M(A₁)、融合后的数据点被模型甄别为正常点的概率M(A₂)不满足设定的判断准则时，判断该数据点为正常点。

参考表1，表1为使用基于多判据融合的异常数据甄别方法对数据集中的各个数据进行甄别的结果及其准确率，具体为：

表1异常点检测结果及其准确率

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构和方法并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均属于本发明的保护范围。

Claims

1.一种基于多判据融合的异常数据甄别方法，其特征在于，所述异常数据甄别方法具体包括如下步骤：

2.根据权利要求1所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S1中对样本数据集进行预处理包括有：对所述样本数据集进行缺失值处理、对所述样本数据集中的异常值进行剔除处理；

其中对所述样本数据集进行缺失值处理具体如下：

3.根据权利要求1或2所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S1中的历史电气量数据具体包括有：从用户采集系统中抽取正常运行用户的计量装置采集的电压数据、电流数据和有功功率数据，以及电压数据、电流数据和有功功率数据分别对应的采样时间。

4.根据权利要求2所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S2中的四种检测模型分别对应的样本数据集包括有：原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集；

5.根据权利要求4所述的一种基于多判据融合的异常数据甄别方法，其特征在于，所述步骤S3获取训练好的神经网络模型，具体如下：

其中：ρ_τ(u)＝u[τ-I(u)]，u＝Y_i-f(X_i,W,b)

6.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S4中获取得到各个数据点被原型聚类模型甄别为异常点的概率，具体如下：

所述标准化后的数据，具体为：

SA4.3：根据所述原型聚类模型的聚类结果，设置最低阈值；

7.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S4中获取得到各个数据点被密度聚类模型甄别为异常点的概率，具体如下：

8.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S4中获取得到各个数据点被概率密度模型甄别为异常点的概率，具体如下：

9.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法，其特征在于，在所述步骤S4中获取得到各个数据点被训练好的神经网络模型甄别为异常点的概率，具体如下：

B_u,l'＝B_u,l+A_real-A_0.5pred

10.根据权利要求6或7或8或9所述的一种基于多判据融合的异常数据甄别方法，其特征在于，所述步骤S5获取得到最终的异常数据甄别结果，具体如下：