CN112232447A - 一种电力设备状态监测数据的完整样本集的构建方法 - Google Patents
一种电力设备状态监测数据的完整样本集的构建方法 Download PDFInfo
- Publication number
- CN112232447A CN112232447A CN202011462003.9A CN202011462003A CN112232447A CN 112232447 A CN112232447 A CN 112232447A CN 202011462003 A CN202011462003 A CN 202011462003A CN 112232447 A CN112232447 A CN 112232447A
- Authority
- CN
- China
- Prior art keywords
- data
- state
- data set
- training
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/50—Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
- G01R31/52—Testing for short-circuits, leakage current or ground faults
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/50—Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
- G01R31/62—Testing of transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Power Engineering (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
Description
技术领域
本发明涉及一种基于机器学习算法的电力变压器铁芯接地电流状态监测数据处理方法,属于电力设备状态数据处理领域。
背景技术
电力变压器是保证输配电网稳定运行的重要设备,变压器的铁芯接地电流监测数据是对变压器进行状态评估的重要依据。一段时间的监测数据,包含其整体变化趋势、变化中的极值点及跃变点以及数据统计特征,可以从多方面反映电力变压器的内部可能存在的异常情况。
由于电磁干扰及恶劣的运行环境等影响,会出现变压器状态监测传感器故障、通信装置产生错误数据传输、通信中断等情况,导致在线铁芯接地电流采集的数含有大量的缺失值及检测系统故障产生的异常数据。对于数据异常值常采取删除操作,使得采样时间点数据缺失。数据中本就存在缺失值以及删除异常值产生的缺失数据点破坏在线监测数据时间序列的连续性,一定程度上改变了其数据特征即变化趋势,甚至出现关键极值点与跃变点缺失的情况。而造成各种基于数据样本的状态诊断评价技术因数据缺失而无法对变压器状态进行评价或评价结果不符合实际的情况。
经过电力变压器的长时间运行,电网公司已储备了大量的电力变压器基本台账信息以及状态运行信息,通过对设备的历史状态数据预处理,机器学习算法对数据所蕴藏信息的挖掘,可对缺失的数值采样点进行补全,进一步提高数据质量,并在此基础上提高基于数据的电力设备状态评价技术的准确性以及可信度。
发明内容
为了解决现有技术中电力设备状态监测数据缺失数据点,影响电力设备评价结果的问题,本发明所解决的技术问题在于提供一种基于历史数据挖掘的电力设备状态监测数据完整样本集的构建方法。
本发明通过以下技术方案来实现,一种电力设备状态监测数据的完整样本集的构建方法,步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
具体地,步骤S1中,基于设备的基本台账信息,对状态监测数据集进行设备关键编码匹配,生成带有主变设备相关基本信息的状态监测数据集(主要为设备电压等级、生产厂家、设备所在地等基本信息),以便获取设备除监测状态值以外的特征变量数据。
具体地,步骤S2中、数据采样频率归一化:鉴于外界因素的影响,状态监测设备可
能存在受到干扰而出现状态数据集中数据采样频率不一的情况(同一时间段内采样的数据
量不同),以作为设备的每日采样数据个数,每日状态监测数据量为,比对与的大
小,当,采样频率过大,删除当日部分采样数据;当,采样频率过小,填补缺
少的数据样本,完成状态监测数据集的采样频率归一化,获取采样频率归一化之后的状态
数据集。
具体地,步骤S3中、具有分析意义的数据集筛选:基于采样频率归一化之后的状态
数据集,根据设备编码逐条提取数据集中每台主变设备的状态监测数据,首先计算其数
据集中非零数据占比率,根据设置的非零数据占比率阈值,对于的设备,剔除
带有该设备编码的设备状态监测数据信息,以筛除初始数据集中存在较多零值的无效状态
数据集,初步获取可供数据分析的状态监测;之后再计算经过筛选后的每台设备状态监
测数据方差,由于数据集中存在一定时间不发生变化的非零值,所以选用方差筛除数据
集中存在的无用数据,设置一个方差参数的下限阈值,当时,将该设备的状
态监测数据信息筛除,获取具有分析意义的状态数据集。
具体地,步骤S4中、数据频率分布拟合:划分状态数据集的训练集与预测集,以前
两日作为训练集,后一日作为预测集,提取所有设备的前两日的状态监测数据,按不同设备
的状态编码,逐一绘制各设备的状态数据频率分布直方图,首先简单将直方图拟合为曲线,
筛选出符合正态分布直方图曲线,使用K-S方法根据对应曲线频率直方图拟合的曲线计算P
值,筛选得到符合正态分布的设备状态数据集,以及不服从正态分布的设备状态数据集。
具体地,步骤S5中、完整训练样本的构建:对于状态数据集,使用拉伊达法则与
滑动窗口组合的方法进行异常数据检测;对于数据集,由于其分布不符合正态分布,使
用箱形图与滑动窗口组合算法检测单日数据样本中存在异常点;检测出的异常值数据点将
被删去成为数据缺失点,使用牛顿多项式插补的方法将这些数据点补全,得到平滑后完整
的状态监测数据集训练样本。
具体地,步骤S6中、数据集的周期性检验:周期性体现了时序数据在未来长期趋
势的一种波浪形或振荡式变动,准确提取周期性信息,不仅能反映当前数据规律还可以掌
握数据未来的走势;在应用机器学习及回归预测类算法之前,需要先对数据集的周期性进
行分析,通过对比不同数据集之间的周期大小偏差以验证回归预测得到数值的可信度。
具体地,步骤S7中,对数据进行周期性分解,结果原始数据分解趋势部分、周期部
分以及残差部分,以两日数据作为训练集,后一日数据作为预测集,通过设置滑动的
与对整个设备状态检测数据集做一次回归预测的遍历,得到除前两日以外的设备状态预
测数据,以训练数据中分解出的残差部分设置状态监测数据的高低置信区间,以该置信区
间作为异常值检测的上下阈值对剩余日的异常值进行检测并删去,得到含有少量空值的实
测状态数据集。
具体地,步骤S8中的基于Markov状态转移模型进行空值点补全的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程,
对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构
成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值与最小值,将区间划分为个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度,
数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第日的第
个数据采样点缺失,以第个数据采样点所处的状态为初始状态,生成一个长度的
向量,其中第个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是确
定的,概率为1;将状态转移矩阵与向量相乘,得到缺失数据采样点的处于不同状态的
概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一个
补全值;同理,再以第个数据采样点作为初始状态,生成向量与反向状态转移矩阵
相乘得到反向状态补全值;
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某
一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考
虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,和的权重可以根
据训练集中状态和出现的次数进行调整;以岭形分布的分布函数作为权重值的设置依
据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次数
差值作为输入代入岭形分布函数:
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
本发明具有以下技术效果:本发明根据变压器状态监测设备采集数据存在缺陷的情况,设计融入机器学习的数据预处理方法;根据传回的主变设备采集数据信息,计算数据集的非零参数的占比以及数据的方差等参数,选取非零参数占比大于80%以及存在一定方差的数据作为可供数据分析的数据集(一种分析序列数据周期性的方法,最好选取一定时间内状态监测数据具有周期性的设备,有利于提高后续的回归预测分析的精确度),并标记主变设备采集编号;以初始采集数据作为研究样本,针对数据集中采样频率不一的情况,均化数据集样本的采样时间尺度;使用K-S方法检验数据与正态分布的相似度,根据相似度决策进行异常值监测的措施,使用多项式插值的方法补充异常数据点;对补充后的数据集使用自回归平均模型(ARMA)分析设备的状态监测数据,分析训练数据集的平稳性与周期性,基于处理后的训练集样本对整个数据集进行回归预测分析,以数据集的残差序列作为预测数据置信区间,检验监测并删去数据集中存在的异常值数据点;根据得到存在少量缺失点的数据集,基于前期处理的训练集数据构建数据状态转移矩阵,使用Markov模型根据第一日的数据集合,对整体数据集中存在的空缺值进行补全操作,完成数据清洗操作,初始数据集中的缺失数据与异常数据已去除,得到一个准确度较高的完整数据集样本。
附图说明
图1为本发明的流程图。
图2为数据周期性检测流程图。
图3为设备状态监测曲线。
图4为数据日采样量直方图。
图5为重采样后的设备状态数据监测曲线。
图6是8月7日状态监测数据分布直方图。
图7是8月8日状态监测数据分布直方图。
图8是8月7日数据分布拟合图。
图9是8月8日数据分布拟合图。
图10是状态监测数据的自相关系数图。
图11是训练数据集平滑前后的对比。
图12是状态监测数据分解各部分图。
图13是预测结果与置信区间分布图。
具体实施方式。
下面结合附图对本发明作进一步详细阐明。
如图1所示,一种电力设备状态监测数据的完整样本集的构建方法,其特征步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
具体地,步骤S1中,基于设备的基本台账信息,对状态监测数据集进行设备关键编码匹配,生成带有主变设备相关基本信息的状态监测数据集(主要为设备电压等级、生产厂家、设备所在地等基本信息),以便获取设备除监测状态值以外的特征变量数据。
具体地,步骤S2、数据采样频率归一化:鉴于外界因素的影响,状态监测设备可能
存在受到干扰而出现状态数据集中数据采样频率不一的情况(同一时间段内采样的数据量
不同),以作为设备的每日采样数据个数,每日状态监测数据量为,比对与的大
小,当,采样频率过大,删除当日部分采样数据;当,采样频率过小,填补缺
少的数据样本,完成状态监测数据集的采样频率归一化,获取采样频率归一化之后的状态
数据集。
具体地,步骤S3、具有分析意义的数据集筛选:基于采样频率归一化之后的状态数
据集,根据设备编码逐条提取数据集中每台主变设备的状态监测数据,首先计算其数据
集中非零数据占比率,根据设置的非零数据占比率阈值,对于的设备,剔除带
有该设备编码的设备状态监测数据信息,以筛除初始数据集中存在较多零值的无效状态数
据集,初步获取可供数据分析的状态监测数据;之后再计算经过筛选后的每台设备状态
监测数据方差,由于数据集中存在一定时间不发生变化的非零值,所以选用方差筛除数
据集中存在的无用数据,设置一个方差参数的下限阈值,当时,将该设备的
状态监测数据信息筛除,获取具有分析意义的状态数据集。
具体地,步骤S4、数据频率分布拟合:划分状态数据集的训练集与预测集,以前两
日作为训练集,后一日作为预测集,提取所有设备的前两日的状态监测数据,按不同设备的
状态编码,逐一绘制各设备的状态数据频率分布直方图,首先简单将直方图拟合为曲线,筛
选出符合正态分布直方图曲线,使用K-S方法根据对应曲线频率直方图拟合的曲线计算P
值,筛选得到符合正态分布的设备状态数据集,以及不服从正态分布的设备状态数据集。
具体地,步骤S5、完整训练样本的构建:对于状态数据集,使用拉伊达法则与滑
动窗口组合的方法进行异常数据检测;对于数据集,由于其分布不符合正态分布,使用
箱形图与滑动窗口组合算法检测单日数据样本中存在异常点;检测出的异常值数据点将被
删去成为数据缺失点,使用牛顿多项式插补的方法将这些数据点补全,得到平滑后完整的
状态监测数据集训练样本。
具体地,步骤S6、数据集的周期性检验:周期性体现了时序数据在未来长期趋势
的一种波浪形或振荡式变动,准确提取周期性信息,不仅能反映当前数据规律还可以掌握
数据未来的走势;在应用机器学习及回归预测类算法之前,需要先对数据集的周期性进行
分析,通过对比不同数据集之间的周期大小偏差以验证回归预测得到数值的可信度。
如图2所示,步骤S6中数据周期性检测的具体过程是:
S6-1.通过傅里叶变换将状态序列数据集转化为频域数据,即功率谱密度图和选取候选周期,在分解出的所有正弦函数多项式中,傅里叶系数越大的三角函数的周期越有可能为该数据集的周期;
S6-2.计算序列数据集的自相关系数,绘制自相关系数图。通过度量同一事件不同时间的相关程度,使用Pearson相关系数计算不同相位差序列间的自相关系数,若序列存在周期性,遍历足够多的相位差,则可以找到一个足够大的自相关系数,其对应的相位差即为周期;通过使用该相位差去校验步骤S6-1中检测出可能存在的周期,可辨别出真实周期以及伪周期,候选周期在自相关系数图的波峰则为真实周期,候选周期在自相关系数图的波谷则为伪周期。
具体地,步骤S7、基于训练样本的数据集回归预测及整体异常值检测:对数据进行
周期性分解,结果原始数据分解趋势部分、周期部分以及残差部分,以两日数据作为训练集,后一日数据作为预测集,通过设置滑动的与对整个设备状态检测数据集做一次
回归预测的遍历,得到除前两日以外的设备状态预测数据,以训练数据中分解出的残差部
分设置状态监测数据的高低置信区间,以该置信区间作为异常值检测的上下阈值对剩余日
的异常值进行检测并删去,得到含有少量空值的实测状态数据集。
具体地,步骤S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状
态转移矩阵,使用Markov模型对整体数据集中存在的缺失值数据点进行补全操作,以均
方根误差、变异系数、偏度系数以及峰度系数构建样本数据的评估指标,评价完整样本数据
集的构建效果。
具体地,步骤S8中的基于Markov状态转移模型进行空值点补全的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程,
对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构
成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值与最小值,将区间划分为个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度,
数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第日的第
个数据采样点缺失,以第个数据采样点所处的状态为初始状态,生成一个长度为
的向量,其中第个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是
确定的,概率为1;将状态转移矩阵与向量相乘,得到缺失数据采样点的处于不同状态
的概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一
个补全值;同理,再以第个数据采样点作为初始状态,生成向量与反向状态转移矩
阵相乘得到反向状态补全值;
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某
一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考
虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,和的权重可以
根据训练集中状态和出现的次数进行调整;以岭形分布的分布函数作为权重值的设置
依据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次
数差值作为输入代入岭形分布函数:
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
实施例
以部分江西省主变设备状态监测数据集作为数据分析对象,完整数据集样本构建案例如下:
状态数据集与设备编码匹配:以主变设备的历史监测数据作为研究对象,通过不同设备的编码将状态数据集与主变设备的台帐信建立对应关系;在此基础上使用统计计算不同编码的设备状态数据监测集的非零元素占比、方差、均值等参数,通过分析这些参数初步筛选出原始数据集中具有分析意义的设备状态数据集;以部分江西省主变设备状态监测数据集作为数据分析对象,其基本情况信息汇总表如表1所示。
数据采样频率归一化:通过上表可知,编码为18M00000086658507、18M00000086658511、18M00000086659708、18M00000086659889的设备数据集规模过小,不足以支撑后续数据集分析,因此筛除这些数据集;编码为18M00000086658205、18M00000086659742、18M00000086660016、18M00001061027161、18M00001061027453、18M00000086660011的设备状态采集的数据中空值的占比分别为100%、93.61%、100%、100%、100%、30.1%,数据集中残缺情况较为严重,不具备数据分析价值,舍去;编码为18M00001054120410、18M00001054116401、18M00000008307576的设备虽然特征参数达到要求,但其方差与均值相比相差过大,可推断出其状态监测数据很可能是在一个很小的范围内持续来回跳变,没有分析价值,故删去;编码为18M00000007905515、18M00000086659826的设备虽然数据采集规模较大,且不存在零值的情况,但其整体方差为零,传回的数据为一段不变的常数值,数据集不具备分析的意义,删去。以上这些数据集的问题,大部分还是由于外界环境因素导致状态监测设备运行故障造成的,需根据设备编码进行一一排查。
经过以上初步的状态数据集筛除,仅余下编码为18M00000086659828、18M00000086660044、18M00000086660046、18M00001054120379四台设备状态监测数据集可供后续数据分析;本实施例以编码为18M00000086659828设备状态数据集作为对象,对数据分析操作进行实例分析。首先将数据集数据进行可视化,得到图3所示的状态监测曲线。图3中不难看出,该数据集监测的为8月4日至8月12日的状态变量,4、5、6、12日数据存在残缺,以设置的标准采样频率计算(一日240个数据点为采样频率),其4、5、6、12日数据采样比率分别为23.1%、0%、51.2%、73.6%,故4、5、6日采集数据残缺较为严重,将其删去;12日数据采集比率较大,可通过前几日的数据集训练模型进行回归预测,以填充缺失的部分,故保留。
数据集的重采样:提取设备8月7日至8月11日数据,绘制如图4所示的数据集日数据采样量直方图。不难看出数据集中每日的采样频率不一,7日至11日的数据采样频率分别为:216、230、245、239、234,采样频率未归一化的时间序列数据不利于模型训练,因此,需要对数据集进行重采样,标准日采样频率设置为240个数据点一日,可知7、8、10、11日的采样频率小于标准频率,应执行上采样,上采样过程本质可以归为数据的放回抽样,不断的从少类样本中抽取样本,与原始样本组成训练集训练模型;因此最终的数据集中是存在一定重复数据的,容易造成模型的过拟合,为解决此问题,本方法在采样的数据中添加了部分“随机性”:
式中为方差系数,为方差,为数据集均值。使用该方式进行上采样时不仅可以
有效避免数据重复造成的过拟合问题,且根据抽取样本与均值的大小关系,决定放回样本,
可有效减少抽到异常数据而造成的数据集质量进一步劣化的程度。
9日的数据采集量为245,大于标准的采样频率,需对数据进行下采样,下采样本质为降低日数据采样量,为了更加有目的的选取丢弃样本,使用最大最小值的抽样法,根据下采样需丢弃的样本数量,依次选取数据集中最大最小值作为丢弃样本,直至采样频率达到标准值;该方法在下采样过程中,优先丢弃异常值可能性大的样本,可有效减小后续异常值监测过程的复杂程度。按上述方法将编号为18M00000086659828设备状态监测数据采样频率归一化的数据曲线如图5所示。
不难看出,经过数据集9日的状态数据的经过下采样后,其中存在的一些极端异常值已被删去,7、8、10、11日的数据经过上采样,也已经达到标准采样频率,其中7日补全的数据最多,数据曲线的密度得到了很好的平滑化。
数据集频率分布的拟合:在得到以上一条状态数据监测曲线的基础上,以7、8两日
的监测数据作为训练集,绘制训训练数据的频率分布直方图,如下图6和图7所示,对以上两
直方图进行拟合,以便观察数据与正态分布函数的近似度,拟合图如图8和图9所示,初步观
察两组数据的拟合图,发现两组数据的分布皆较为接近正态分布函数曲线,使用单样本的
K-S方法检验监测数据样本与正态分布的近似程度,比较一个频率分布和理论分布,存在假设:两个数据分布一致或数据符合分布理论,定义:
可见经过K-S方法检验,训练集数据的P值皆小于0.05,表示两组数据皆不满足正态分布。
设备状态监测数据的时序分析:观察到设备的状态监测数据接近时间序列数据,而平稳性是进行时序分析的基础,当数据不满足平稳性时许多结论都是不可靠的,因此,首先对数据的平稳性检验,以宽平稳作为判定条件,分别使用自相关系数与单位根检验法检验序列的稳定性,自相关系数检验结果如图10所示。
可见监测数据的自相关系数快速衰减,且单位根检验结果中P-value值远远小于0.99,说明状态监测数据是一个具有很强平稳的时间序列,不需要使用进一步手段对其进行平稳性处理。序列数据中存在的异常点会严重干扰基于建模技术对时序数据的分析,不利于挖掘序列数据中潜在的趋势规律,因此在对时间序列进行建模分析之前,需要对序列中存在的异常值筛除,本实施例使用一种滑动窗口与箱型图组合的方式筛除序列中存在的一些异常值以达到原始序列数据平滑的目的。经过本实施例提出方法平滑后的时序数据与滑动平均效果的对比如图11所示。不难看出,与一般的滑动平均对比,经过异常值的筛除以及筛除点数据的补全后,训练数据中的一些阶跃较大的数据点得到了更好的平滑效果,数据整体曲线也更加平缓,有效筛除了数据集中存在的一些过大或者过小的异常值。
使用时序数据的趋势部分单独对ARMA进行训练,预测出趋势数据之后将其与周期部分组合得到预测的结果,以11日状态数据为例,其预测结果如图13所示。
Claims (8)
1.一种电力设备状态监测数据的完整样本集的构建方法,其特征步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
3.根据权利要求2所述的一种电力设备状态监测数据的完整样本集的构建方法,其特
征是:步骤S3中,于采样频率归一化之后的状态数据集,根据设备编码逐条提取数据集中
每台主变设备的状态监测数据,首先计算其数据集中非零数据占比率,根据设置的非零
数据占比率阈值,对于的设备,剔除带有该设备编码的设备状态监测数据信息,
以筛除初始数据集中存在较多零值的无效状态数据集,初步获取可供数据分析的状态监测
数据;之后再计算经过筛选后的每台设备状态监测数据方差,由于数据集中存在一定
时间不发生变化的非零值,所以选用方差筛除数据集中存在的无用数据,设置一个方差参
数的下限阈值,当时,将该设备的状态监测数据信息筛除,获取具有分析
意义的状态数据集。
6.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特征是:步骤S6中数据周期性检测的具体过程是:
S6-1.通过傅里叶变换将状态序列数据集转化为频域数据,即功率谱密度图和选取候选周期,在分解出的所有正弦函数多项式中,傅里叶系数越大的三角函数的周期越有可能为该数据集的周期;
S6-2.计算序列数据集的自相关系数,绘制自相关系数图;通过度量同一事件不同时间的相关程度,使用Pearson相关系数计算不同相位差序列间的自相关系数,若序列存在周期性,遍历足够多的相位差,则可以找到一个足够大的自相关系数,其对应的相位差即为周期;通过使用该相位差去校验步骤S6-1中检测出可能存在的周期,可辨别出真实周期以及伪周期,候选周期在自相关系数图的波峰则为真实周期,候选周期在自相关系数图的波谷则为伪周期。
8.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特征是:步骤S8中的使用Markov模型对整体数据集中存在的缺失值数据点进行补全操作的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程,
对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构
成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值与最小值,将区间划分为个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度,
数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第日的第个
数据采样点缺失,以第个数据采样点所处的状态为初始状态,生成一个长度为的
向量,其中第个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是确
定的,概率为1;将状态转移矩阵与向量相乘,得到缺失数据采样点的处于不同状态的
概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一个
补全值;同理,再以第个数据采样点作为初始状态,生成向量与反向状态转移矩阵
相乘得到反向状态补全值;
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某
一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考
虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,和的权重可以根
据训练集中状态和出现的次数进行调整;以岭形分布的分布函数作为权重值的设置依
据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次数
差值作为输入代入岭形分布函数:
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462003.9A CN112232447B (zh) | 2020-12-14 | 2020-12-14 | 一种电力设备状态监测数据的完整样本集的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462003.9A CN112232447B (zh) | 2020-12-14 | 2020-12-14 | 一种电力设备状态监测数据的完整样本集的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232447A true CN112232447A (zh) | 2021-01-15 |
CN112232447B CN112232447B (zh) | 2021-06-04 |
Family
ID=74124484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011462003.9A Active CN112232447B (zh) | 2020-12-14 | 2020-12-14 | 一种电力设备状态监测数据的完整样本集的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232447B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113691398A (zh) * | 2021-08-13 | 2021-11-23 | 北京金山云网络技术有限公司 | 节点带宽的预测方法、装置、电子设备和存储介质 |
CN113723674A (zh) * | 2021-08-18 | 2021-11-30 | 卫宁健康科技集团股份有限公司 | 一种基于大数据相关性的医疗风险预测方法 |
CN113984114A (zh) * | 2021-10-18 | 2022-01-28 | 大连理工大学 | 一种海洋浮式平台水下结构异常诊断方法 |
CN115099370A (zh) * | 2022-08-23 | 2022-09-23 | 北京全应科技有限公司 | 面向流程型工业生产数据流的评测数据集构建方法及系统 |
CN115345319A (zh) * | 2022-08-11 | 2022-11-15 | 黑龙江大学 | 基于缺失率与异常度度量的不完备数据集建模及处理方法 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116090916A (zh) * | 2023-04-10 | 2023-05-09 | 淄博海草软件服务有限公司 | 一种企业内部采购资金核算预警系统 |
CN116702083A (zh) * | 2023-08-10 | 2023-09-05 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 一种卫星遥测数据异常检测方法及系统 |
CN116757534A (zh) * | 2023-06-15 | 2023-09-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
CN116992295A (zh) * | 2023-09-26 | 2023-11-03 | 北京宝隆泓瑞科技有限公司 | 用于机器学习的机泵设备监测缺失数据重构方法、装置 |
CN117273553A (zh) * | 2023-11-22 | 2023-12-22 | 青州市华康生物科技有限公司 | 一种基于糖浆浓度检测的生产异常监测系统 |
CN117310118A (zh) * | 2023-11-28 | 2023-12-29 | 济南中安数码科技有限公司 | 一种地下水污染可视化监测方法 |
CN117332360A (zh) * | 2023-12-01 | 2024-01-02 | 苏州弘皓光电科技有限公司 | 基于5g技术的温室大棚设备故障监测方法及系统 |
CN117992895B (zh) * | 2024-04-03 | 2024-06-07 | 西安寰宇管道工程技术有限公司 | 一种基于大数据的油气管道区域风险监测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521080A (zh) * | 2011-12-07 | 2012-06-27 | 福建省电力有限公司 | 电力用户用电信息采集系统的计算机数据修复方法 |
WO2017146290A1 (ko) * | 2016-02-26 | 2017-08-31 | 주식회사 네이블커뮤니케이션즈 | 빅데이터 분석 기반의 저작권 정산 검증 방법 |
CN109801181A (zh) * | 2017-11-17 | 2019-05-24 | 中国电力科学研究院有限公司 | 一种配变数据清洗修补方法及系统 |
CN109919432A (zh) * | 2019-01-28 | 2019-06-21 | 国网湖北省电力有限公司宜昌供电公司 | 一种基于大数据的变电站设备故障影响因素分析方法 |
CN111984626A (zh) * | 2020-08-25 | 2020-11-24 | 西安建筑科技大学 | 一种基于统计模式的能耗数据识别与修复方法 |
-
2020
- 2020-12-14 CN CN202011462003.9A patent/CN112232447B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521080A (zh) * | 2011-12-07 | 2012-06-27 | 福建省电力有限公司 | 电力用户用电信息采集系统的计算机数据修复方法 |
WO2017146290A1 (ko) * | 2016-02-26 | 2017-08-31 | 주식회사 네이블커뮤니케이션즈 | 빅데이터 분석 기반의 저작권 정산 검증 방법 |
CN109801181A (zh) * | 2017-11-17 | 2019-05-24 | 中国电力科学研究院有限公司 | 一种配变数据清洗修补方法及系统 |
CN109919432A (zh) * | 2019-01-28 | 2019-06-21 | 国网湖北省电力有限公司宜昌供电公司 | 一种基于大数据的变电站设备故障影响因素分析方法 |
CN111984626A (zh) * | 2020-08-25 | 2020-11-24 | 西安建筑科技大学 | 一种基于统计模式的能耗数据识别与修复方法 |
Non-Patent Citations (2)
Title |
---|
刘玉婷 等: "电力营销系统海量用户行为日志安全分析技术研究", 《网络安全技术与应用》 * |
林福海 等: "SF6继电器温度补偿方式的现状分析与探讨", 《江西电力》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113691398A (zh) * | 2021-08-13 | 2021-11-23 | 北京金山云网络技术有限公司 | 节点带宽的预测方法、装置、电子设备和存储介质 |
CN113723674A (zh) * | 2021-08-18 | 2021-11-30 | 卫宁健康科技集团股份有限公司 | 一种基于大数据相关性的医疗风险预测方法 |
CN113984114A (zh) * | 2021-10-18 | 2022-01-28 | 大连理工大学 | 一种海洋浮式平台水下结构异常诊断方法 |
CN115345319A (zh) * | 2022-08-11 | 2022-11-15 | 黑龙江大学 | 基于缺失率与异常度度量的不完备数据集建模及处理方法 |
CN115345319B (zh) * | 2022-08-11 | 2023-12-08 | 黑龙江大学 | 基于缺失率与异常度度量的不完备数据集建模及处理方法 |
CN115099370A (zh) * | 2022-08-23 | 2022-09-23 | 北京全应科技有限公司 | 面向流程型工业生产数据流的评测数据集构建方法及系统 |
CN115861011B (zh) * | 2023-02-15 | 2023-05-05 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN115861011A (zh) * | 2023-02-15 | 2023-03-28 | 山东优嘉环境科技有限公司 | 一种基于多源数据融合的智慧城市优化管理方法和系统 |
CN116090916A (zh) * | 2023-04-10 | 2023-05-09 | 淄博海草软件服务有限公司 | 一种企业内部采购资金核算预警系统 |
CN116757534A (zh) * | 2023-06-15 | 2023-09-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
CN116757534B (zh) * | 2023-06-15 | 2024-03-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
CN116702083A (zh) * | 2023-08-10 | 2023-09-05 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 一种卫星遥测数据异常检测方法及系统 |
CN116702083B (zh) * | 2023-08-10 | 2023-12-26 | 武汉能钠智能装备技术股份有限公司四川省成都市分公司 | 一种卫星遥测数据异常检测方法及系统 |
CN116992295A (zh) * | 2023-09-26 | 2023-11-03 | 北京宝隆泓瑞科技有限公司 | 用于机器学习的机泵设备监测缺失数据重构方法、装置 |
CN117273553B (zh) * | 2023-11-22 | 2024-02-02 | 青州市华康生物科技有限公司 | 一种基于糖浆浓度检测的生产异常监测系统 |
CN117273553A (zh) * | 2023-11-22 | 2023-12-22 | 青州市华康生物科技有限公司 | 一种基于糖浆浓度检测的生产异常监测系统 |
CN117310118A (zh) * | 2023-11-28 | 2023-12-29 | 济南中安数码科技有限公司 | 一种地下水污染可视化监测方法 |
CN117310118B (zh) * | 2023-11-28 | 2024-03-08 | 济南中安数码科技有限公司 | 一种地下水污染可视化监测方法 |
CN117332360A (zh) * | 2023-12-01 | 2024-01-02 | 苏州弘皓光电科技有限公司 | 基于5g技术的温室大棚设备故障监测方法及系统 |
CN117332360B (zh) * | 2023-12-01 | 2024-02-09 | 苏州弘皓光电科技有限公司 | 基于5g技术的温室大棚设备故障监测方法及系统 |
CN117992895B (zh) * | 2024-04-03 | 2024-06-07 | 西安寰宇管道工程技术有限公司 | 一种基于大数据的油气管道区域风险监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112232447B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232447B (zh) | 一种电力设备状态监测数据的完整样本集的构建方法 | |
CN109492193B (zh) | 基于深度机器学习模型的异常网络数据生成与预测方法 | |
CN109614576B (zh) | 基于多维高斯分布与趋势分段的变压器异常检测方法 | |
Aizpurua et al. | Power transformer dissolved gas analysis through Bayesian networks and hypothesis testing | |
CN108763729B (zh) | 基于网络结构熵的流程工业机电系统耦合状态评估方法 | |
Dash et al. | A novel interval‐halving framework for automated identification of process trends | |
CN112414694B (zh) | 基于多元状态估计技术的设备多级异常状态识别方法及装置 | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
CN112416662A (zh) | 多时间序列数据异常检测方法与装置 | |
CN114265882A (zh) | 时序信号点异常检测方法、系统、设备及介质 | |
CN115409066A (zh) | 时间序列数据的异常检测方法、装置及计算机存储介质 | |
CN116304957A (zh) | 一种供变电设备监测状态突变在线识别方法 | |
Xu et al. | An adaptive gamma process based model for residual useful life prediction | |
CN117029968A (zh) | 一种流量数据的诊断方法、系统、存储介质和电子设备 | |
CN111291918A (zh) | 平稳子空间外源矢量自回归的旋转机械退化趋势预测方法 | |
CN107220705B (zh) | 常减压装置常压塔顶干点预测方法 | |
CN114112390B (zh) | 一种非线性复杂系统早期故障诊断方法 | |
CN116108371A (zh) | 基于级联异常生成网络的云服务异常诊断方法与系统 | |
CN115423370A (zh) | 一种继电保护设备健康状态评估方法及装置 | |
CN111027680B (zh) | 基于变分自编码器的监控量不确定性预测方法及系统 | |
CN110532698B (zh) | 一种基于数据模型的工业设备振动特征值趋势预测方法 | |
CN113988173A (zh) | 基于定性趋势分析和五状态贝叶斯网络的故障诊断方法、系统、设备及存储介质 | |
CN116415128A (zh) | 用于润滑评估的方法、系统及介质 | |
CN112862019A (zh) | 一种动态筛选非周期性异常方法 | |
CN115249059A (zh) | 模型训练及异常数据分析方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |