CN110458195A - 一种基于多判据融合的异常数据甄别方法 - Google Patents

一种基于多判据融合的异常数据甄别方法 Download PDF

Info

Publication number
CN110458195A
CN110458195A CN201910619209.9A CN201910619209A CN110458195A CN 110458195 A CN110458195 A CN 110458195A CN 201910619209 A CN201910619209 A CN 201910619209A CN 110458195 A CN110458195 A CN 110458195A
Authority
CN
China
Prior art keywords
data
point
probability
model
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910619209.9A
Other languages
English (en)
Other versions
CN110458195B (zh
Inventor
臧海祥
陈远
程礼临
卫志龙
孙国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201910619209.9A priority Critical patent/CN110458195B/zh
Publication of CN110458195A publication Critical patent/CN110458195A/zh
Application granted granted Critical
Publication of CN110458195B publication Critical patent/CN110458195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多判据融合的异常数据甄别方法,步骤如下:S1:对样本数据集进行预处理;S2:按照异常数据甄别模型中的四种检测模型,组建四种检测模型分别对应的样本数据集;S3:将深度学习方法的输入数据集输入长短期神经网络模型中进行训练,获取训练好的长短期神经网络模型;S4:将样本数据集分别输入对应的模型中,进行异常值的甄别,获取得到各数据点被相应模型分别甄别为异常点的概率;S5:将各个数据点被相应模型甄别的甄别结果概率进行融合,并将融合结果根据设定的判断准则进行判断,获取得到最终的异常数据甄别结果。本发明提高了数据异常点甄别精度,也提高了数据的准确性及可利用价值,为运营检测业务提供了精确数据保障。

Description

一种基于多判据融合的异常数据甄别方法
技术领域
本发明涉及电力系统的数据挖掘技术领域,尤其涉及一种基于多判据融合的异常数据甄别方法。
背景技术
随着计算机、智能电表、通讯技术的发展及其在电网实际运行中的广泛使用,电网的运营监测部门有更多途径获取电力系统正常运行时产生的海量的电网运行数据、营销数据、电气设备在线监测数据等。海量的数据为电网运营监测部门实施负荷预测业务,电气设备异常运行状态检测业务,线损分析业务等一系列数据处理分析业务提供了可靠的支撑,推进电网业务向精细化智能化方向发展。
电气设备的异常运行状态识别可以快速诊断电气设备是否异常,电网的监测检修部门可参考异常运行状态识别结果,采取相应的检修措施,能迅速排查电网中计量装置中的潜在问题,提高电网运行效率与安全可靠性。运营监测部门在处理数据分析相关的业务过程中,剔除计量装置在异常运行状态下测量的的异常数据点,提高运行数据的准确性与质量,提高国网运营监测部门的相关业务水平。
计量装置异常运行状态识别主要依靠计量装置的检测得到时间序列的异常点检测。而基于数据驱动进行的时间序列异常检测主要分为三个部分,分类方法、聚类方法和回归方法。分类方法和聚类方法的检测对象是大量用户,而回归方法的检测对象是单个用户。分类算法依赖带标签的数据集,回归算法依赖天气、日期、电价等相关的外生数据,聚类算法依赖聚类模型参数的选取。从模型的检测对象和算法依赖来看,不同的算法模型在面对不同的场景时各有优缺点。
发明内容
发明目的:针对现有数据异常点甄别精度低的问题,本发明提出一种基于多判据融合的异常数据甄别方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种基于多判据融合的异常数据甄别方法,所述异常数据甄别方法具体包括如下步骤:
S1:对样本数据集进行预处理,其中所述样本数据集由电力系统正常运行时采集的历史电气量数据组建而成;
S2:将所述预处理后的样本数据集中的数据,按照异常数据甄别模型中的四种检测模型,组建四种检测模型分别对应的样本数据集;
S3:将深度学习方法的输入数据集输入神经网络模型中进行训练,获取训练好的神经网络模型;
S4:将四种检测模型对应的样本数据集分别输入原型聚类模型、密度聚类模型、概率密度模型、训练好的神经网络模型中,进行异常值的甄别,获取得到各个数据点被四种检测模型分别甄别为异常点的概率;
S5:通过所述各个数据点被四种检测模型分别甄别为异常点的概率,将各个数据点被四种检测模型甄别的甄别结果概率进行融合,并将所述融合结果根据设定的判断准则进行判断,获取得到最终的异常数据甄别结果。
进一步地讲,在所述步骤S1中对样本数据集进行预处理包括有:对所述样本数据集进行缺失值处理、对所述样本数据集中的异常值进行剔除处理;
其中对所述样本数据集进行缺失值处理具体如下:
在所述样本数据集中,当连续采样时间内缺失的数据数量小于预设阈值M时,通过线性插值方法对所述样本数据集进行处理;
在所述样本数据集中,当连续采样时间内缺失的数据数量不小于预设阈值M时,将所述连续采样时间内对应的电压数据、电流数据和有功功率数据从所述样本数据集中删除。
进一步地讲,在所述步骤S1中的历史电气量数据具体包括有:从用户采集系统中抽取正常运行用户的计量装置采集的电压数据、电流数据和有功功率数据,以及电压数据、电流数据和有功功率数据分别对应的采样时间。
进一步地讲,在所述步骤S2中的四种检测模型分别对应的样本数据集包括有:原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集;
所述原型聚类方法的输入数据集的组成为:目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值、目标检测数据序列中各采样点对应的数据值和各采样点的前两个采样点对应的数据值之间的变化值;
所述密度聚类方法的输入数据集的组成为:所述样本数据集中两个不同的电气量分别对应的数据值和采样时间;
所述概率密度方法的输入数据集的组成为:所述目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值和各采样点的前一个采样点对应的数据值之间的变化值;
所述深度学习方法的输入数据集的组成为:所述样本数据集中两个不同的电气量分别对应的样本和标签,所述样本为预设的连续时间内各个采样点对应的数据值及采样时间,所述标签为样本中的最后一个数据值对应的采样时间的下一个采样时间及其对应的数据值。
进一步地讲,所述步骤S3获取训练好的神经网络模型,具体如下:
S3.1:将所述深度学习方法的输入数据集输入神经网络模型中进行训练,即为对神经网络模型中的权重参数和网络结构偏置项参数进行优化,获取优化后的权重参数和网络结构偏置项参数,所述优化公式具体为:
其中:ρτ(u)=u[τ-I(u)],u=Yi-f(Xi,W,b)
W为权重参数,b为网络结构偏置项参数,Yi为神经网络模型的响应变量,Xi为响应变量对应的解释变量,N为响应变量的总数目,τ为分位数,f(Xi,W,b)为长短期神经网络模型的输出与解释变量、权重参数、网络结构偏置项参数之间的非线性关系;
S3.2:将神经网络模型中原先的权重参数和网络结构偏置项参数更新为所述优化后的权重参数和网络结构偏置项参数,所述更新后的神经网络模型即为训练好的神经网络模型。
进一步地讲,在所述步骤S4中获取得到各个数据点被原型聚类模型甄别为异常点的概率,具体如下:
SA4.1:设置所述原型聚类模型中的模型参数,选择所述原型聚类模型中的聚类类别数和聚类最大循环次数;
SA4.2:将所述原型聚类方法的输入数据集中的各个数据进行标准化,并将所述标准化后的数据输入原型聚类模型中,获取得到每个数据点与该数据点所属聚类类别的质心之间的距离;
所述标准化后的数据,具体为:
其中:zij为标准化后的数据值,xij为输入数据集中的数据值,xi为各个数据值的算数平均值,si为标准差;
SA4.3:根据所述原型聚类模型的聚类结果,设置最低阈值;
比较每个数据点与该数据点所属聚类类别的质心之间的距离值,选出最大的距离值,并将所述最大距离值设置为最高阈值;
SA4.4:将所述最低阈值和最高阈值之间的范围划分为w1个阈值等级,将所述最低阈值设置为第一个阈值等级的大小,所述第n1个阈值等级的大小,具体为:
w1∈(50,100)
其中:为第n1个阈值等级的大小,Tl1为最低阈值,Th1为最高阈值,w1为原型聚类模型中阈值等级的数量;
SA4.5:获取所述数据点与所属聚类类别的聚类中心之间的距离值,根据所述阈值等级的大小,当所述距离值大于第n1个阈值等级的大小且小于第n1+1个阈值等级的大小时,所述数据点被原型聚类模型甄别为异常点的概率,具体为:
其中:P1为数据点被原型聚类模型甄别为异常点的概率,n1为第n1个阈值等级对应的序号,w1为原型聚类模型中阈值等级的数量。
进一步地讲,在所述步骤S4中获取得到各个数据点被密度聚类模型甄别为异常点的概率,具体如下:
SB4.1:设置所述密度聚类模型中的模型参数,通过欧式距离计算方法,获取所述密度聚类方法的输入数据集中的相邻数据点之间的距离;
SB4.2:将所述密度聚类方法的输入数据集中的各个数据点之间的距离进行比较,选取出最大的距离值,同时通过序列平面分布图和模拟测试,设置所述最大距离值的最低阈值和最高阈值,并将所述最低阈值和最高阈值之间的数据范围设置为最大距离值的可选区间;
SB4.3:根据所述最大距离值的可选区间,判断所述密度聚类方法的输入数据集中的数据点是否为异常点,具体为:
当所述最大的距离值等于最低阈值时,在序列平面分布图中所有远离聚类中心的数据点均为异常点;
当所述最大的距离值等于最高阈值时,所有数据点均为正常点;
SB4.4:将所述最大距离值的可选区间划分为w2个距离等级,将所述最低阈值设置为第一个距离等级的大小,所述第n2个距离等级的大小,具体为:
w2∈(50,100)
其中:为第n2个距离等级的大小,Tl2为最大距离参数的最低阈值,Th2为最大距离参数的最高阈值,w2为密度聚类模型中距离等级的数量;
SB4.5:当所述数据点在第n2个距离等级中检测为异常点,在第n2+1个距离等级中检测为正常点时,所述数据点被密度聚类模型甄别为异常点的概率,具体为:
其中:P2为数据点被密度聚类模型甄别为异常点的概率,n2为第n2个距离等级对应的序号,w2为密度聚类模型中距离等级的数量。
进一步地讲,在所述步骤S4中获取得到各个数据点被概率密度模型甄别为异常点的概率,具体如下:
SC4.1:对所述概率密度方法的输入数据集中的数据进行核密度估计,获取得到概率密度方法的输入数据集数据变化值的概率分布函数,得到所述样本变化值出现任意值时的概率;
SC4.2:通过所述样本变化值出现任意值时的概率,设置最低阈值概率和最高阈值概率;
SC4.3:将所述数据变化值的绝对值按从小到大的顺序进行排序,获取所述数据点被概率密度模型甄别为异常点的概率,具体为:
其中:P3为数据点被概率密度模型甄别为异常点的概率,n3为数据变化值的绝对值标号,nl为对应最高阈值概率的数据变化值的绝对值标号,nh为对应最低阈值概率的数据变化值的绝对值标号,N为概率密度方法的输入数据集中的数据总数。
进一步地讲,在所述步骤S4中获取得到各个数据点被训练好的神经网络模型甄别为异常点的概率,具体如下:
SD4.1:将所述深度学习方法的输入数据集输入训练好的神经网络模型中,获取99组不同的预测值,确定出不同置信区间的上下界,具体为:
所述n%置信区间的上界为:99个预测值中分位数对应的数值;
所述n%置信区间的下界为:99个预测值中分位数对应的数值;
SD4.2:将所述不同置信区间的上下界做进一步地精确处理,所述精确后的置信区间,具体为:
Bu,l'=Bu,l+Areal-A0.5pred
其中:Bu,l'为精确后的置信区间的上下界,Bu,l为精确前的置信区间的上下界,Areal为采样时刻对应的数据值,A0.5pred为对应采样时刻对应的0.5分位数的预测值;
SD4.3:根据所述精确后的置信区间,设置m4组阈值等级,所述第n4组阈值等级为其中为第置信区间的上界,为第置信区间的下界;
SD4.4:根据所述阈值等级设置最低阈值等级和最高阈值等级,并将所述最低阈值等级和最高阈值等级之间的距离划分为w4个距离等级,所述最低阈值等级设置为第一个距离等级的大小,第n4个距离等级的大小,具体为:
其中:为第n4个距离等级的大小,Tl4为最低阈值等级,Th4为最高阈值等级,w4为训练好的长短期神经网络模型中距离等级的数量;
SD4.5:将所述数据点对应的数据值与距离等级对应的置信区间的上下界大小进行比较,根据所述比较结果,获取所述数据点被训练好的神经网络模型甄别为异常点的概率,具体为:
其中:P4为数据点被训练好的神经网络模型甄别为异常点的概率,为第n4个距离等级对应的置信区间的下界大小,为第n4个距离等级对应的置信区间的上界大小,n4为第n4组距离等级对应的序号,w4为训练好的神经网络模型中距离等级的数量,p为数据点对应的数据值。
进一步地讲,所述步骤S5获取得到最终的异常数据甄别结果,具体如下:
S5.1:根据所述各个数据点被四种检测模型分别甄别为异常点的概率,确定出各数据点的基本分配概率,所述基本分配概率包括:数据点被相应模型甄别为异常点的概率、数据点被相应模型甄别为正常点的概率,具体为:
其中:m1(A1)为数据点被原型聚类模型甄别为异常点的概率,m1(A2)为数据点被原型聚类模型甄别为正常点的概率,m2(A1)为数据点被密度聚类模型甄别为异常点的概率,m2(A2)为数据点被密度聚类模型甄别为正常点的概率,m3(A1)为数据点被概率密度模型甄别为异常点的概率,m3(A2)在数据点被概率密度模型甄别为正常点的概率,m4(A1)为数据点被训练好的长短期神经网络模型甄别为异常点的概率,m4(A2)为数据点被训练好的长短期神经网络模型甄别为正常点的概率;
S5.2:通过所述各数据点的基本分配概率,获取所述数据点对应的各个甄别结果之间的冲突系数,具体为:
其中:k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,N为对数据点进行甄别的模型的个数,为空集;
S5.3:判断所述冲突系数的大小是否等于1,当所述冲突系数的大小不等于1时,所述各数据点的基本分配概率保持不变;
当所述冲突系数的大小等于1时,对所述各数据点的基本分配概率进行改进,获取改进后的各数据点的基本分配概率,具体为:
其中:mj(A1)'为改进后的数据点被模型甄别为异常点的概率,mj(A1)为数据点被模型甄别为异常点的概率,mj(A2)'为改进后的数据点被模型甄别为正常点的概率,mj(A2)为数据点被模型甄别为正常点的概率,mj(Ai)为数据点被模型甄别的甄别结果概率,μ为折扣率;
S5.4:根据所述冲突系数的大小,选择所述各元素的基本分配概率,将各数据点被相应模型甄别的甄别结果概率通过D-S合成公式进行融合,具体为:
其中:M(Ai)为融合后的概率,k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,mj(Ai)'为改进后的数据点被模型甄别的甄别结果概率,S为对数据点进行甄别的模型的个数,为空集;
S5.5:判断所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率是否满足设定的判断准则,所述设定的判断准则,具体为:
其中:M(A1)为融合后的数据点被模型甄别为异常点的概率,M(A2)为融合后的数据点被模型甄别为正常点的概率,M(Ai)为融合后的数据点被模型甄别的甄别结果概率,n为融合后的数据点被模型甄别的甄别结果的总个数;
当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率满足设定的判断准则时,所述数据点为异常点;
当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率不满足设定的判断准则时,所述数据点为正常点。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)本发明通过深度学习方法、原型聚类法、密度聚类法、概率密度法交叉验证,提高了数据异常点甄别精度,从而提高了对数据监测的可靠性和准确性,为运营检测业务提供了精确数据保障,也提高了数据的准确性及可利用价值,为开展用户负荷预测等其他重要业务提供了科学、合理、可靠的数据保障;
(2)本发明使用的深度学习方法能处理海量数据,并进行高效全面的特征学习,减少了人工进行特征学习的低效与不完备,从而使学习特征的泛化能力更强;
(3)本发明使用的LSTM神经网络,是长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件;
(4)本发明的异常数据甄别方法能对不同情况下的异常运行状态进行识别,包括在电表获取的运行数据样本集数量不够、时间序列特性不明显或者LSTM的模型表现不佳等情况,从而本发明的异常数据甄别方法的泛化性能好,准确率高;
(5)本发明由于较好的识别性能,从而工作人员可以依据识别结果进行检修和排查,尽早解决异常电表存在的潜在问题,进而提高电网运行的安全可靠性。
附图说明
图1是本发明的异常数据甄别方法的流程示意图;
图2是本发明的实际功率与随机噪声曲线图;
图3是本发明的模拟异常功率曲线图;
图4是本发明的异常数据甄别方法甄别得到的异常功率点示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。其中,所描述的实施例是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。
实施例1
参考图1、图2、图3和图4,本实施例提供了一种基于多判据融合的异常数据甄别方法,具体包括如下步骤:
步骤S1:将电力系统正常运行时采集的历史电气量数据组成样本数据集,并对样本数据集进行预处理。其中电力系统正常运行是指电力系统在正常工作的过程中未受到干扰,运行参数未偏离正常值。正常运行的电力系统不仅能以电压和频率质量均合格的电能满足负荷用电的需求,而且还具有适当安全的储备。
在本实施例中,组成样本数据集的历史电气量数据具体为:从用户采集系统中抽取正常运行用户的计量装置采集的电气量数据,该电气量数据包括有电压数据、电流数据和有功功率数据,以及电压数据、电流数据和有功功率数据分别对应的采样时间。
同时,在步骤S1中对样本数据集进行预处理包括有:对样本数据集进行缺失值处理、将样本数据集中明显异常的数据值进行剔除处理。其中样本数据集中明显异常的数据值是指利用统计和简单的数学方法能够快速判断出来的异常点对应的数值,譬如计量装置采集的电气量数据中有9999和-9999数据值,该9999和-9999数据值对应的数据点即为异常点,则此时需要将这些异常点从样本数据集中剔除出去。
其中对样本数据集进行缺失值处理分为两种情况,具体为:
在样本数据集中,当连续采样时间内对应的数据存在有缺失,且缺失的数据数量小于预设阈值M时,可以通过线性插值方法对样本数据集中缺失的数据进行处理。
在样本数据集中,当连续采样时间内对应的数据存在有缺失,且缺失的数据数量不小于预设阈值M时,此时将无法通过线性插值方法对样本数据集中缺失的数据进行处理,从而直接将该连续采样时间内对应的数据全部从样本数据集中剔除出去,其中连续采样时间内对应的数据包括电压数据、电流数据和有功功率数据。
具体地讲,在本实施例中,预设阈值M的大小选择为7个样本长度。即当样本长度为96时,当连续采样时间内对应的数据缺失的数量小于7*96个时,可以通过线性插值方法进行处理,反之则进行剔除处理。
步骤S2:根据步骤S1中预处理后的样本数据集,按照异常数据甄别模型中的四种检测模型,组建四种检测模型分别对应的输入数据集。
其中四种检测模型对应的输入数据集分别为:原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集。
在本实施例中,原型聚类方法的输入数据集的组成具体为:目标检测数据集中各采样点对应的数据值、目标检测数据集中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值、目标检测数据集中各采样点对应的数据值与各采样点的前两个采样点对应的数据值之间的变化值。
其中目标检测数据集为样本数据集中的一部分,当需要对电压数据进行异常数据甄别时,目标检测数据集则由样本数据集中所有的电压数据组成。当需要对电流数据进行异常数据甄别时,目标检测数据集则由样本数据集中所有的电流数据组成。当需要对有功功率数据进行异常数据甄别时,目标检测数据集则由样本数据集中所有的有功功率数据组成。
密度聚类方法的输入数据集的组成具体为:样本数据集中两个不同的电气量分别对应的数据值和采样时间。
其中密度聚类方法可以画出两个电气量之间的二维平面分布,从而展现出两个电气量之间的相关性大小和密度关系,通过密度聚类法甄别出的异常数据为相关性异常的数据点。
同时按照序列相关性检测目标的不同,组成密度聚类方法的输入数据集的两个电气量也会随之发生改变。当序列相关性检测目标为电压电流相关性异常检测时,密度聚类方法的输入数据集的组成为:样本数据集中所有电压数据及其对应的采样时间和电流数据及其对应的采样时间。当序列相关性检测目标为电压功率相关性异常检测时,密度聚类方法的输入数据集的组成为:样本数据集中所有电压数据及其对应的采样时间和有功功率数据及其对应的采样时间。当序列相关性检测目标为电流功率相关性异常检测时,密度聚类方法的输入数据集的组成为:样本数据集中所有电流数据及其对应的采样时间和有功功率数据及其对应的采样时间。
概率密度方法的输入数据集的组成具体为:目标检测数据集中各采样点对应的数据值、目标检测数据集中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值。
此处的目标检测数据集与原型聚类方法的输入数据集的组成中的目标检测数据集的组成相同,从而此处将不再进行重复阐述。
深度学习方法的输入数据集的组成具体为:样本数据集中两个不同的电气量分别对应的样本和标签。其中样本为预设的连续时间内各个采样点对应的数据值及其采样时间,标签为样本中最后一个数据值对应的采样时间的下一个采样时间及其对应的数据值。
深度学习模型在训练过程中需要大量的数据样本量,从而才能够训练得到预设的权重参数和网络结构偏置参数,进而更好的建立输入与输出之间的非线性映射关系。但是过大的训练量会增大深度学习模型的训练时间,从而选择合适的预设的连续时间十分重要。在本实施例中,预设的连续时间的选择具体为:一天96点的样本长度。
同时按照序列相关性检测目标的不同,组成深度学习方法的输入数据集的两个电气量也会随之发生改变,具体变化与组成密度聚类方法的输入数据集的两个电气量的变化相同,此处将不再进行重复阐述。
步骤S3:将步骤S2中的深度学习方法的输入数据集输入长短期神经网络模型中进行训练,获取得到训练好的长短期神经网络模型。在本实施例中,长短期神经网络模型在使用时进行了改进,使用的是长短期记忆网络分位数回归模型,也就是长短期记忆网络回归模型和分位数回归模型相结合的模型。其中分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,通过几个分位函数估计整体模型。具体过程如下:
步骤S3.1:将步骤S2中的深度学习方法的输入数据集输入长短期神经网络模型中进行训练,也就是对长短期神经网络模型中的权重参数和网络结构偏置项参数进行优化,进而获取得到优化后的权重参数和网络结构偏置项参数,其中优化公式具体为:
其中:ρτ(u)=u[τ-I(u)],u=Yi-f(Xi,W,b)
W为权重参数,b为网络结构偏置项参数,Yi为长短期神经网络模型的响应变量,Xi为响应变量对应的解释变量,N为响应变量的总数目,τ为分位数,f(Xi,W,b)为长短期神经网络模型的输出与解释变量、权重参数、网络结构偏置项参数之间的非线性关系。
步骤S3.2:将长短期神经网络模型中原先的权重参数W和网络结构偏置项参数b更新为步骤S3.1中优化后的权重参数W和网络结构偏置项参数b,从而获取得到更新后的长短期神经网络模型,即为获取得到了训练好的长短期神经网络模型。
步骤S4:将步骤S2中的四种检测模型对应的输入数据集分别输入对应的模型中,进行异常值甄别,获取得到各个数据点被四种检测模型分别甄别为异常点的概率,具体如下:
在本实施例中,将原型聚类方法的输入数据集输入原型聚类模型中进行异常值甄别,获取得到各个数据点被原型聚类模型甄别为异常点的概率,具体过程如下:
步骤SA4.1:设置原型聚类模型中的模型参数,选择原型聚类模型中的聚类类别数和聚类最大循环次数。其中聚类类别数和聚类最大循环次数是不固定的,具体根据实际数据进行选择,在本实施例中,具体地讲,聚类类别数设置为6,聚类最大循环次数设置为1000。
步骤SA4.2:将原型聚类方法的输入数据集中的各个数据进行标准化,并将标准化后的数据输入原型聚类模型中,获取得到每个数据点与该数据点所属聚类类别质心之间的距离。其中标准化后的数据,具体为:
其中:zij为标准化后的数据值,xij为输入数据集中的数据值,xi为各个数据值的算数平均值,si为标准差。
步骤SA4.3:根据原型聚类模型的聚类结果,设置最低阈值Tl1。并将所有数据点与该数据点所属聚类类别质心之间的距离值进行比较,选取出其中最大的距离值,并将该最大距离值设置为最高阈值Th1
步骤SA4.4:根据最低阈值Tl1和最高阈值Th1,将最低阈值Tl1和最高阈值Th1之间的范围划分为w1个阈值等级。其中第一个阈值等级T1-1的大小为最低阈值Tl1,第n1个阈值等级的大小,具体为:
w1∈(50,100)
其中:为第n1个阈值等级的大小,Tl1为最低阈值,Th1为最高阈值,w1为原型聚类模型中阈值等级的数量。
步骤SA4.5:获取得到数据点与该数据点所属聚类类别的聚类中心之间的距离,当该距离值大于第n1个阈值等级的大小且小于第n1+1个阈值等级的大小时,该数据点被原型聚类模型甄别为异常点的概率,具体为:
其中:P1为数据点被原型聚类模型甄别为异常点的概率,n1为第n1个阈值等级对应的序号,w1为原型聚类模型中阈值等级的数量。
在本实施例中,将密度聚类方法的输入数据集输入密度聚类模型中进行异常值甄别,获取得到各个数据点被密度聚类模型甄别为异常点的概率,具体过程如下:
步骤SB4.1:设置密度聚类模型中的模型参数,并通过欧式距离计算方法,获取密度聚类方法的输入数据集中的相邻数据点之间的距离。其中每个聚类类别中的最少样本个数为5。
步骤SB4.2:通过序列平面分布图和模拟测试,人工设置最大距离参数的最低阈值Tl2和最高阈值Th2
并将最大距离参数的最大值设置为最高阈值Th2,最大距离参数的最小值设置为最低阈值Tl2,也就是说最大距离参数的可选区间为(Tl2,Th2)。
步骤SB4.3:通过步骤SB4.2中最大距离参数的可选区间,判断密度聚类方法的输入数据集中的数据点是否为异常点。具体为:
将密度聚类方法的输入数据集中的相邻数据点之间的距离值进行比较,选出其中的最大值,当最大的距离值等于最低阈值Tl2时,在序列平面分布图中所有远离聚类中心的数据点均为异常点。当最大的距离值等于最高阈值Th2时,所有数据点均为正常点。
步骤SB4.4:将步骤SB4.2中最大距离参数的可选区间进行划分,划分为w2个距离等级。其中第一个距离等级T2-1的大小为最低阈值Tl2,第n2个距离等级的大小,具体为:
w2∈(50,100)
其中:为第n2个距离等级的大小,Tl2为最大距离参数的最低阈值,Th2为最大距离参数的最高阈值,w2为密度聚类模型中距离等级的数量。
步骤SB4.5:当数据点在第n2个距离等级中检测为异常点,在第n2+1个距离等级中检测为正常点时,该数据点被密度聚类模型甄别为异常点的概率,具体为:
其中:P2为数据点被密度聚类模型甄别为异常点的概率,n2为第n2个距离等级对应的序号,w2为密度聚类模型中距离等级的数量。
在本实施例中,将概率密度方法的输入数据集输入概率密度模型中进行异常值甄别,获取得到各个数据点被概率密度模型甄别为异常点的概率,具体过程如下:
步骤SC4.1:对概率密度方法的输入数据集进行核密度估计,获取得到概率密度方法的输入数据集中数据变化值的概率分布函数,同时根据数据变化值的概率密度函数,可以获取得到数据变化值出现任意值时的概率。
由数据变化值的概率密度函数可知,数据变化值的分布情况基本呈正态分布,当数据变化值越大,其出现的概率就会越小。
步骤SC4.2:通过步骤SC4.1中获取得到数据变化值出现任意值时的概率,人工设置最低阈值概率Tl3和最高阈值概率Th3
步骤SC4.3:将数据变化值的绝对值按照从小到大的顺序进行排序,并按照顺序将每个绝对值标号为n3,n3的大小与数据变化值的绝对值在排序过程中的序号相同。其中对应最低阈值概率Tl3的数据变化值的绝对值标号为nh,对应最高阈值概率Th3的数据变化值的绝对值标号为nl
从而数据点被概率密度模型甄别为异常点的概率,具体为:
其中:P3为数据点被概率密度模型甄别为异常点的概率,n3为数据变化值的绝对值标号,nl为对应最高阈值概率的数据变化值的绝对值标号,nh为对应最低阈值概率的数据变化值的绝对值标号,N为概率密度方法的输入数据集中的数据总数。
在本实施例中,将深度学习方法的输入数据集输入训练好的长短期神经网络模型中进行异常值甄别,获取得到各个数据点被训练好的长短期神经网络模型甄别为异常点的概率,具体过程如下:
步骤SD4.1:将深度学习方法的输入数据集输入训练好的长短期神经网络模型中,获取得到99组不同的预测值,进而计算得到不同置信区间的上下界。其中不同置信区间的上下界,具体为:
其中n%置信区间的上界为:99个预测值中分位数对应的数值。
n%置信区间的下界为:99个预测值中分位数对应的数值。
步骤SD4.2:将步骤SD4.1中获取得到的不同置信区间的上下界做进一步地精确处理,精确后的置信区间的上下界,具体为:
Bu,l'=Bu,l+Areal-A0.5pred
其中:Bu,l'为精确后的置信区间的上下界,Bu,l为精确前的置信区间的上下界,Areal为采样时刻对应的数据值,A0.5pred为对应采样时刻对应的0.5分位数的预测值。
步骤SD4.3:根据步骤SD4.3中精确后的置信区间的上下界,设置m4组阈值等级,并将每一组阈值等级设置为相应置信区间的上下界。具体地讲,第n4组阈值等级为其中为第置信区间的上界,为第置信区间的下界。
步骤SD4.4:根据步骤SD4.3中的阈值等级,设置最低阈值等级Tl4和最高阈值等级Th4,并将最低阈值等级Tl4和最高阈值等级Th4之间的距离划分为w4个距离等级。其中第一个距离等级T4-1的大小等于最低阈值等级Tl4,第n4个距离等级的大小,具体为:
其中:为第n4个距离等级的大小,Tl4为最低阈值等级,Th4为最高阈值等级,w4为训练好的长短期神经网络模型中距离等级的数量。
步骤SD4.5:将数据点对应的数据值与距离等级对应的置信区间的上下界大小进行比较,根据比较结果,获取数据点被训练好的长短期神经网络模型甄别为异常点的概率,具体为:
其中:P4为数据点被训练好的长短期神经网络模型甄别为异常点的概率,为第n4个距离等级对应的置信区间的下界大小,为第n4个距离等级对应的置信区间的上界大小,n4为第n4组距离等级对应的序号,w4为训练好的长短期神经网络模型中距离等级的数量,p为数据点对应的数据值。
步骤S5:根据步骤S4中各个数据点被相应模型甄别为异常点的概率,将各个数据点被相应模型甄别的甄别结果概率进行融合,同时将融合结果根据设定的判断准则进行判断,进而获取得到最终的异常数据甄别结果,具体过程如下:
步骤S5.1:根据步骤S4中获取得到的数据点被原型聚类模型甄别为异常点的概率P1、数据点被密度聚类模型甄别为异常点的概率P2、数据点被概率密度模型甄别为异常点的概率P3、数据点被训练好的长短期神经网络模型甄别为异常点的概率P4,确定出各数据点的基本分配函数,其中基本分配函数包括有:数据点被相应模型甄别为异常点的概率、数据点被相应模型甄别为正常点的概率,具体为:
其中:m1(A1)为数据点被原型聚类模型甄别为异常点的概率,m1(A2)为数据点被原型聚类模型甄别为正常点的概率,m2(A1)为数据点被密度聚类模型甄别为异常点的概率,m2(A2)为数据点被密度聚类模型甄别为正常点的概率,m3(A1)为数据点被概率密度模型甄别为异常点的概率,m3(A2)在数据点被概率密度模型甄别为正常点的概率,m4(A1)为数据点被训练好的长短期神经网络模型甄别为异常点的概率,m4(A2)为数据点被训练好的长短期神经网络模型甄别为正常点的概率。
步骤S5.2:通过步骤S5.1中确定出的各数据点的基本分配函数,获取数据点对应的各个甄别结果之间的冲突系数,具体为:
其中:k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,N为对数据点进行甄别的模型的个数,为空集。
步骤S5.3:由于冲突系数k的大小可以反映出同一个数据点在不同模型中的不同甄别结果之间的冲突程度,从而对步骤S5.2中得到的冲突系数k的大小进行判断,并根据判断结果选择各数据点的分配概率。具体为:
当冲突系数k的大小不等于1时,步骤S5.1中获取得到的各数据点的分配概率保持不变。
当冲突系数k的大小等于1时,对各个元素的基本分配概率进行改进,具体为:
其中:mj(A1)'为改进后的数据点被模型甄别为异常点的概率,mj(A1)为数据点被模型甄别为异常点的概率,mj(A2)'为改进后的数据点被模型甄别为正常点的概率,mj(A2)为数据点被模型甄别为正常点的概率,mj(Ai)为数据点被模型甄别的甄别结果概率,μ为折扣率。
步骤S5.4:根据冲突系数k的大小判断,选择各元素的基本分配概率,将各个数据点被相应模型甄别的甄别结果概率通过D-S合成公式进行融合,具体为:
其中:M(Ai)为融合后的概率,k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,mj(Ai)'为改进后的数据点被模型甄别的甄别结果概率,S为对数据点进行甄别的模型的个数,为空集。
步骤S5.5:根据步骤S5.4中的融合公式,获取得到融合后的数据点被模型甄别为异常点的概率M(A1)、融合后的数据点被模型甄别为正常点的概率M(A2)。并判断融合后的数据点被模型甄别为异常点的概率M(A1)、融合后的数据点被模型甄别为正常点的概率M(A2)是否满足设定的判断准则,其中设定的判断准则,具体为:
其中:M(A1)为融合后的数据点被模型甄别为异常点的概率,M(A2)为融合后的数据点被模型甄别为正常点的概率,M(Ai)为融合后的数据点被模型甄别的甄别结果概率,n为融合后的数据点被模型甄别的甄别结果的总个数。
当融合后的数据点被模型甄别为异常点的概率M(A1)、融合后的数据点被模型甄别为正常点的概率M(A2)满足设定的判断准则时,判断该数据点为异常点。
当融合后的数据点被模型甄别为异常点的概率M(A1)、融合后的数据点被模型甄别为正常点的概率M(A2)不满足设定的判断准则时,判断该数据点为正常点。
参考表1,表1为使用基于多判据融合的异常数据甄别方法对数据集中的各个数据进行甄别的结果及其准确率,具体为:
表1异常点检测结果及其准确率
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构和方法并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均属于本发明的保护范围。

Claims (10)

1.一种基于多判据融合的异常数据甄别方法,其特征在于,所述异常数据甄别方法具体包括如下步骤:
S1:对样本数据集进行预处理,其中所述样本数据集由电力系统正常运行时采集的历史电气量数据组建而成;
S2:将所述预处理后的样本数据集中的数据,按照异常数据甄别模型中的四种检测模型,组建四种检测模型分别对应的样本数据集;
S3:将深度学习方法的输入数据集输入神经网络模型中进行训练,获取训练好的神经网络模型;
S4:将四种检测模型对应的样本数据集分别输入原型聚类模型、密度聚类模型、概率密度模型、训练好的神经网络模型中,进行异常值的甄别,获取得到各个数据点被四种检测模型分别甄别为异常点的概率;
S5:通过所述各个数据点被四种检测模型分别甄别为异常点的概率,将各个数据点被四种检测模型甄别的甄别结果概率进行融合,并将所述融合结果根据设定的判断准则进行判断,获取得到最终的异常数据甄别结果。
2.根据权利要求1所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S1中对样本数据集进行预处理包括有:对所述样本数据集进行缺失值处理、对所述样本数据集中的异常值进行剔除处理;
其中对所述样本数据集进行缺失值处理具体如下:
在所述样本数据集中,当连续采样时间内缺失的数据数量小于预设阈值M时,通过线性插值方法对所述样本数据集进行处理;
在所述样本数据集中,当连续采样时间内缺失的数据数量不小于预设阈值M时,将所述连续采样时间内对应的电压数据、电流数据和有功功率数据从所述样本数据集中删除。
3.根据权利要求1或2所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S1中的历史电气量数据具体包括有:从用户采集系统中抽取正常运行用户的计量装置采集的电压数据、电流数据和有功功率数据,以及电压数据、电流数据和有功功率数据分别对应的采样时间。
4.根据权利要求2所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S2中的四种检测模型分别对应的样本数据集包括有:原型聚类方法的输入数据集、密度聚类方法的输入数据集、概率密度方法的输入数据集、深度学习方法的输入数据集;
所述原型聚类方法的输入数据集的组成为:目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值与各采样点的前一个采样点对应的数据值之间的变化值、目标检测数据序列中各采样点对应的数据值和各采样点的前两个采样点对应的数据值之间的变化值;
所述密度聚类方法的输入数据集的组成为:所述样本数据集中两个不同的电气量分别对应的数据值和采样时间;
所述概率密度方法的输入数据集的组成为:所述目标检测数据序列中各采样点对应的数据值、目标检测数据序列中各采样点对应的数据值和各采样点的前一个采样点对应的数据值之间的变化值;
所述深度学习方法的输入数据集的组成为:所述样本数据集中两个不同的电气量分别对应的样本和标签,所述样本为预设的连续时间内各个采样点对应的数据值及采样时间,所述标签为样本中的最后一个数据值对应的采样时间的下一个采样时间及其对应的数据值。
5.根据权利要求4所述的一种基于多判据融合的异常数据甄别方法,其特征在于,所述步骤S3获取训练好的神经网络模型,具体如下:
S3.1:将所述深度学习方法的输入数据集输入神经网络模型中进行训练,即为对神经网络模型中的权重参数和网络结构偏置项参数进行优化,获取优化后的权重参数和网络结构偏置项参数,所述优化公式具体为:
其中:ρτ(u)=u[τ-I(u)],u=Yi-f(Xi,W,b)
W为权重参数,b为网络结构偏置项参数,Yi为神经网络模型的响应变量,Xi为响应变量对应的解释变量,N为响应变量的总数目,τ为分位数,f(Xi,W,b)为长短期神经网络模型的输出与解释变量、权重参数、网络结构偏置项参数之间的非线性关系;
S3.2:将神经网络模型中原先的权重参数和网络结构偏置项参数更新为所述优化后的权重参数和网络结构偏置项参数,所述更新后的神经网络模型即为训练好的神经网络模型。
6.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S4中获取得到各个数据点被原型聚类模型甄别为异常点的概率,具体如下:
SA4.1:设置所述原型聚类模型中的模型参数,选择所述原型聚类模型中的聚类类别数和聚类最大循环次数;
SA4.2:将所述原型聚类方法的输入数据集中的各个数据进行标准化,并将所述标准化后的数据输入原型聚类模型中,获取得到每个数据点与该数据点所属聚类类别的质心之间的距离;
所述标准化后的数据,具体为:
其中:zij为标准化后的数据值,xij为输入数据集中的数据值,xi为各个数据值的算数平均值,si为标准差;
SA4.3:根据所述原型聚类模型的聚类结果,设置最低阈值;
比较每个数据点与该数据点所属聚类类别的质心之间的距离值,选出最大的距离值,并将所述最大距离值设置为最高阈值;
SA4.4:将所述最低阈值和最高阈值之间的范围划分为w1个阈值等级,将所述最低阈值设置为第一个阈值等级的大小,所述第n1个阈值等级的大小,具体为:
其中:为第n1个阈值等级的大小,Tl1为最低阈值,Th1为最高阈值,w1为原型聚类模型中阈值等级的数量;
SA4.5:获取所述数据点与所属聚类类别的聚类中心之间的距离值,根据所述阈值等级的大小,当所述距离值大于第n1个阈值等级的大小且小于第n1+1个阈值等级的大小时,所述数据点被原型聚类模型甄别为异常点的概率,具体为:
其中:P1为数据点被原型聚类模型甄别为异常点的概率,n1为第n1个阈值等级对应的序号,w1为原型聚类模型中阈值等级的数量。
7.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S4中获取得到各个数据点被密度聚类模型甄别为异常点的概率,具体如下:
SB4.1:设置所述密度聚类模型中的模型参数,通过欧式距离计算方法,获取所述密度聚类方法的输入数据集中的相邻数据点之间的距离;
SB4.2:将所述密度聚类方法的输入数据集中的各个数据点之间的距离进行比较,选取出最大的距离值,同时通过序列平面分布图和模拟测试,设置所述最大距离值的最低阈值和最高阈值,并将所述最低阈值和最高阈值之间的数据范围设置为最大距离值的可选区间;
SB4.3:根据所述最大距离值的可选区间,判断所述密度聚类方法的输入数据集中的数据点是否为异常点,具体为:
当所述最大的距离值等于最低阈值时,在序列平面分布图中所有远离聚类中心的数据点均为异常点;
当所述最大的距离值等于最高阈值时,所有数据点均为正常点;
SB4.4:将所述最大距离值的可选区间划分为w2个距离等级,将所述最低阈值设置为第一个距离等级的大小,所述第n2个距离等级的大小,具体为:
其中:为第n2个距离等级的大小,Tl2为最大距离参数的最低阈值,Th2为最大距离参数的最高阈值,w2为密度聚类模型中距离等级的数量;
SB4.5:当所述数据点在第n2个距离等级中检测为异常点,在第n2+1个距离等级中检测为正常点时,所述数据点被密度聚类模型甄别为异常点的概率,具体为:
其中:P2为数据点被密度聚类模型甄别为异常点的概率,n2为第n2个距离等级对应的序号,w2为密度聚类模型中距离等级的数量。
8.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S4中获取得到各个数据点被概率密度模型甄别为异常点的概率,具体如下:
SC4.1:对所述概率密度方法的输入数据集中的数据进行核密度估计,获取得到概率密度方法的输入数据集数据变化值的概率分布函数,得到所述样本变化值出现任意值时的概率;
SC4.2:通过所述样本变化值出现任意值时的概率,设置最低阈值概率和最高阈值概率;
SC4.3:将所述数据变化值的绝对值按从小到大的顺序进行排序,获取所述数据点被概率密度模型甄别为异常点的概率,具体为:
其中:P3为数据点被概率密度模型甄别为异常点的概率,n3为数据变化值的绝对值标号,nl为对应最高阈值概率的数据变化值的绝对值标号,nh为对应最低阈值概率的数据变化值的绝对值标号,N为概率密度方法的输入数据集中的数据总数。
9.根据权利要求5所述的一种基于多判据融合的异常数据甄别方法,其特征在于,在所述步骤S4中获取得到各个数据点被训练好的神经网络模型甄别为异常点的概率,具体如下:
SD4.1:将所述深度学习方法的输入数据集输入训练好的神经网络模型中,获取99组不同的预测值,确定出不同置信区间的上下界,具体为:
所述n%置信区间的上界为:99个预测值中分位数对应的数值;
所述n%置信区间的下界为:99个预测值中分位数对应的数值;
SD4.2:将所述不同置信区间的上下界做进一步地精确处理,所述精确后的置信区间,具体为:
Bu,l'=Bu,l+Areal-A0.5pred
其中:Bu,l'为精确后的置信区间的上下界,Bu,l为精确前的置信区间的上下界,Areal为采样时刻对应的数据值,A0.5pred为对应采样时刻对应的0.5分位数的预测值;
SD4.3:根据所述精确后的置信区间,设置m4组阈值等级,所述第n4组阈值等级为其中为第置信区间的上界,为第置信区间的下界;
SD4.4:根据所述阈值等级设置最低阈值等级和最高阈值等级,并将所述最低阈值等级和最高阈值等级之间的距离划分为w4个距离等级,所述最低阈值等级设置为第一个距离等级的大小,第n4个距离等级的大小,具体为:
其中:为第n4个距离等级的大小,Tl4为最低阈值等级,Th4为最高阈值等级,w4为训练好的长短期神经网络模型中距离等级的数量;
SD4.5:将所述数据点对应的数据值与距离等级对应的置信区间的上下界大小进行比较,根据所述比较结果,获取所述数据点被训练好的神经网络模型甄别为异常点的概率,具体为:
其中:P4为数据点被训练好的神经网络模型甄别为异常点的概率,为第n4个距离等级对应的置信区间的下界大小,为第n4个距离等级对应的置信区间的上界大小,n4为第n4组距离等级对应的序号,w4为训练好的神经网络模型中距离等级的数量,p为数据点对应的数据值。
10.根据权利要求6或7或8或9所述的一种基于多判据融合的异常数据甄别方法,其特征在于,所述步骤S5获取得到最终的异常数据甄别结果,具体如下:
S5.1:根据所述各个数据点被四种检测模型分别甄别为异常点的概率,确定出各数据点的基本分配概率,所述基本分配概率包括:数据点被相应模型甄别为异常点的概率、数据点被相应模型甄别为正常点的概率,具体为:
其中:m1(A1)为数据点被原型聚类模型甄别为异常点的概率,m1(A2)为数据点被原型聚类模型甄别为正常点的概率,m2(A1)为数据点被密度聚类模型甄别为异常点的概率,m2(A2)为数据点被密度聚类模型甄别为正常点的概率,m3(A1)为数据点被概率密度模型甄别为异常点的概率,m3(A2)在数据点被概率密度模型甄别为正常点的概率,m4(A1)为数据点被训练好的长短期神经网络模型甄别为异常点的概率,m4(A2)为数据点被训练好的长短期神经网络模型甄别为正常点的概率;
S5.2:通过所述各数据点的基本分配概率,获取所述数据点对应的各个甄别结果之间的冲突系数,具体为:
其中:k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,N为对数据点进行甄别的模型的个数,为空集;
S5.3:判断所述冲突系数的大小是否等于1,当所述冲突系数的大小不等于1时,所述各数据点的基本分配概率保持不变;
当所述冲突系数的大小等于1时,对所述各数据点的基本分配概率进行改进,获取改进后的各数据点的基本分配概率,具体为:
其中:mj(A1)'为改进后的数据点被模型甄别为异常点的概率,mj(A1)为数据点被模型甄别为异常点的概率,mj(A2)'为改进后的数据点被模型甄别为正常点的概率,mj(A2)为数据点被模型甄别为正常点的概率,mj(Ai)为数据点被模型甄别的甄别结果概率,μ为折扣率;
S5.4:根据所述冲突系数的大小,选择所述各元素的基本分配概率,将各数据点被相应模型甄别的甄别结果概率通过D-S合成公式进行融合,具体为:
其中:M(Ai)为融合后的概率,k为冲突系数,Ai表示数据点是否为异常点,mj(Ai)为数据点被模型甄别的甄别结果概率,mj(Ai)'为改进后的数据点被模型甄别的甄别结果概率,S为对数据点进行甄别的模型的个数,为空集;
S5.5:判断所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率是否满足设定的判断准则,所述设定的判断准则,具体为:
其中:M(A1)为融合后的数据点被模型甄别为异常点的概率,M(A2)为融合后的数据点被模型甄别为正常点的概率,M(Ai)为融合后的数据点被模型甄别的甄别结果概率,n为融合后的数据点被模型甄别的甄别结果的总个数;
当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率满足设定的判断准则时,所述数据点为异常点;
当所述融合后的数据点被模型甄别为异常点的概率、融合后的数据点被模型甄别为正常点的概率不满足设定的判断准则时,所述数据点为正常点。
CN201910619209.9A 2019-07-10 2019-07-10 一种基于多判据融合的异常数据甄别方法 Active CN110458195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910619209.9A CN110458195B (zh) 2019-07-10 2019-07-10 一种基于多判据融合的异常数据甄别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910619209.9A CN110458195B (zh) 2019-07-10 2019-07-10 一种基于多判据融合的异常数据甄别方法

Publications (2)

Publication Number Publication Date
CN110458195A true CN110458195A (zh) 2019-11-15
CN110458195B CN110458195B (zh) 2022-08-19

Family

ID=68482545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910619209.9A Active CN110458195B (zh) 2019-07-10 2019-07-10 一种基于多判据融合的异常数据甄别方法

Country Status (1)

Country Link
CN (1) CN110458195B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN111163530A (zh) * 2019-11-18 2020-05-15 浙江万胜智能科技股份有限公司 一种基于神经网络算法的无线局域网性能增强方法
CN111425932A (zh) * 2020-03-30 2020-07-17 瑞纳智能设备股份有限公司 一种基于flink的热网运行监测告警系统及方法
CN111579972A (zh) * 2020-07-03 2020-08-25 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种pcba板级组件的寿命检测方法
CN112329847A (zh) * 2020-11-03 2021-02-05 北京神州泰岳软件股份有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112365186A (zh) * 2020-11-27 2021-02-12 中国电建集团海外投资有限公司 一种电力信息系统健康度评估方法及其评估系统
CN112565422A (zh) * 2020-12-04 2021-03-26 杭州佳速度产业互联网有限公司 一种对电力物联网故障数据的识别方法、系统和存储介质
CN113222102A (zh) * 2020-02-06 2021-08-06 百度(美国)有限责任公司 用于神经网络模型量化的优化方法
CN113570200A (zh) * 2021-06-30 2021-10-29 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN115345319A (zh) * 2022-08-11 2022-11-15 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092582A (zh) * 2017-03-31 2017-08-25 江苏方天电力技术有限公司 一种基于残差后验的异常值在线检测及置信度评估方法
US20180082150A1 (en) * 2016-09-20 2018-03-22 Kabushiki Kaisha Toshiba Abnormality detection device, learning device, abnormality detection method, and learning method
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
CN109145949A (zh) * 2018-07-19 2019-01-04 山东师范大学 基于集成学习的非侵入式电力负荷监测与分解方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082150A1 (en) * 2016-09-20 2018-03-22 Kabushiki Kaisha Toshiba Abnormality detection device, learning device, abnormality detection method, and learning method
CN107092582A (zh) * 2017-03-31 2017-08-25 江苏方天电力技术有限公司 一种基于残差后验的异常值在线检测及置信度评估方法
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
CN109145949A (zh) * 2018-07-19 2019-01-04 山东师范大学 基于集成学习的非侵入式电力负荷监测与分解方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUIDO D: "Visual Explorations in Finance:With Self-Organizing Maps", 《SPRINGER SCIENCE&BUSINESS MEDIA》 *
孙栓柱等: "一种基于贝叶斯后验的异常值在线检测及置信度评估算法", 《中国科学技术大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111163530A (zh) * 2019-11-18 2020-05-15 浙江万胜智能科技股份有限公司 一种基于神经网络算法的无线局域网性能增强方法
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN113222102A (zh) * 2020-02-06 2021-08-06 百度(美国)有限责任公司 用于神经网络模型量化的优化方法
CN113222102B (zh) * 2020-02-06 2024-04-26 百度(美国)有限责任公司 用于神经网络模型量化的优化方法
CN111425932A (zh) * 2020-03-30 2020-07-17 瑞纳智能设备股份有限公司 一种基于flink的热网运行监测告警系统及方法
CN111425932B (zh) * 2020-03-30 2022-01-14 瑞纳智能设备股份有限公司 一种基于flink的热网运行监测告警系统及方法
CN111579972A (zh) * 2020-07-03 2020-08-25 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种pcba板级组件的寿命检测方法
CN112329847A (zh) * 2020-11-03 2021-02-05 北京神州泰岳软件股份有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112365186A (zh) * 2020-11-27 2021-02-12 中国电建集团海外投资有限公司 一种电力信息系统健康度评估方法及其评估系统
CN112565422A (zh) * 2020-12-04 2021-03-26 杭州佳速度产业互联网有限公司 一种对电力物联网故障数据的识别方法、系统和存储介质
CN112565422B (zh) * 2020-12-04 2022-07-22 杭州佳速度产业互联网有限公司 一种对电力物联网故障数据的识别方法、系统和存储介质
CN113570200A (zh) * 2021-06-30 2021-10-29 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN113570200B (zh) * 2021-06-30 2023-10-03 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN115345319A (zh) * 2022-08-11 2022-11-15 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN115345319B (zh) * 2022-08-11 2023-12-08 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法

Also Published As

Publication number Publication date
CN110458195B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN110458195A (zh) 一种基于多判据融合的异常数据甄别方法
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN110458230A (zh) 一种基于多判据融合的配变用采数据异常甄别方法
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
CN106201871B (zh) 基于代价敏感半监督的软件缺陷预测方法
CN109614997A (zh) 一种基于深度学习的窃电风险预测方法及装置
León et al. Variability and trend-based generalized rule induction model to NTL detection in power companies
CN106909933B (zh) 一种三阶段多视角特征融合的窃电分类预测方法
CN111104981A (zh) 一种基于机器学习的水文预报精度评价方法及系统
CN109977132B (zh) 一种基于无监督聚类模式的学生异常行为模式分析方法
CN110046792B (zh) 基于雷达图综合评价法的零电量用户排查方法
CN109767054A (zh) 基于深度神经网络算法的能效云评估方法及边缘能效网关
CN109376944A (zh) 智能电表预测模型的构建方法及装置
CN108761377A (zh) 一种基于长短时记忆模型的电能计量装置异常检测方法
CN110084493A (zh) 基于人工智能的企业诊断、预测方法及装置、服务器
CN109934469A (zh) 基于异源交叉回归分析的停电敏感度预警方法及装置
CN109934420A (zh) 一种预测员工离职的方法及系统
CN109829627A (zh) 一种基于集成学习方案的电力系统动态安全置信评估方法
CN110110898A (zh) 基于企业健康指标的行业分析方法及装置、服务器
CN113450009A (zh) 一种企业成长性评价的方法及系统
CN109947815A (zh) 一种基于离群点算法的窃电辨识方法
CN105913366A (zh) 一种基于工业电力大数据的区域工业景气指数构建方法
CN108459997A (zh) 基于深度学习和神经网络的高偏态数据价值概率预测方法
CN110490486A (zh) 一种企业大数据管理系统
CN109508820A (zh) 基于差异化建模的校园用电量预测建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant