CN112232447A - 一种电力设备状态监测数据的完整样本集的构建方法 - Google Patents

一种电力设备状态监测数据的完整样本集的构建方法 Download PDF

Info

Publication number
CN112232447A
CN112232447A CN202011462003.9A CN202011462003A CN112232447A CN 112232447 A CN112232447 A CN 112232447A CN 202011462003 A CN202011462003 A CN 202011462003A CN 112232447 A CN112232447 A CN 112232447A
Authority
CN
China
Prior art keywords
data
state
data set
training
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011462003.9A
Other languages
English (en)
Other versions
CN112232447B (zh
Inventor
童超
张益宁
朱自伟
王鹏
刘玉婷
万华
徐碧川
童涛
曾磊磊
李唐兵
童军心
周友武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Nanchang University
Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Nanchang University
Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Nanchang University, Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011462003.9A priority Critical patent/CN112232447B/zh
Publication of CN112232447A publication Critical patent/CN112232447A/zh
Application granted granted Critical
Publication of CN112232447B publication Critical patent/CN112232447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/50Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
    • G01R31/52Testing for short-circuits, leakage current or ground faults
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/50Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
    • G01R31/62Testing of transformers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Power Engineering (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于电力设备状态数据处理领域,公开了一种电力设备状态监测数据的完整样本集的构建方法,S1、状态数据集与设备编码匹配,S2、数据采样频率归一化,S3、具有分析意义的状态数据集筛选,S4、数据频率分布拟合,S5、完整训练样本的构建,S6、数据集的周期性检验,S7、基于训练样本的状态数据集回归预测及整体异常值检测,S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状态转移矩阵
Figure 470165DEST_PATH_IMAGE001
,通过Markov状态转移模型对实测数据集中存在空值点进行数据补全。本发明可对整体数据集中存在的空缺值进行补全操作,完成数据清洗操作,初始数据集中的缺失数据与异常数据已去除,得到一个准确度较高的完整数据集样本。

Description

一种电力设备状态监测数据的完整样本集的构建方法
技术领域
本发明涉及一种基于机器学习算法的电力变压器铁芯接地电流状态监测数据处理方法,属于电力设备状态数据处理领域。
背景技术
电力变压器是保证输配电网稳定运行的重要设备,变压器的铁芯接地电流监测数据是对变压器进行状态评估的重要依据。一段时间的监测数据,包含其整体变化趋势、变化中的极值点及跃变点以及数据统计特征,可以从多方面反映电力变压器的内部可能存在的异常情况。
由于电磁干扰及恶劣的运行环境等影响,会出现变压器状态监测传感器故障、通信装置产生错误数据传输、通信中断等情况,导致在线铁芯接地电流采集的数含有大量的缺失值及检测系统故障产生的异常数据。对于数据异常值常采取删除操作,使得采样时间点数据缺失。数据中本就存在缺失值以及删除异常值产生的缺失数据点破坏在线监测数据时间序列的连续性,一定程度上改变了其数据特征即变化趋势,甚至出现关键极值点与跃变点缺失的情况。而造成各种基于数据样本的状态诊断评价技术因数据缺失而无法对变压器状态进行评价或评价结果不符合实际的情况。
经过电力变压器的长时间运行,电网公司已储备了大量的电力变压器基本台账信息以及状态运行信息,通过对设备的历史状态数据预处理,机器学习算法对数据所蕴藏信息的挖掘,可对缺失的数值采样点进行补全,进一步提高数据质量,并在此基础上提高基于数据的电力设备状态评价技术的准确性以及可信度。
发明内容
为了解决现有技术中电力设备状态监测数据缺失数据点,影响电力设备评价结果的问题,本发明所解决的技术问题在于提供一种基于历史数据挖掘的电力设备状态监测数据完整样本集的构建方法。
本发明通过以下技术方案来实现,一种电力设备状态监测数据的完整样本集的构建方法,步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状态转移矩阵
Figure 579128DEST_PATH_IMAGE001
,使 用Markov模型对整体数据集中存在的缺失值数据点进行补全操作,得到可信度较高的状态 监测数据集。
具体地,步骤S1中,基于设备的基本台账信息,对状态监测数据集进行设备关键编码匹配,生成带有主变设备相关基本信息的状态监测数据集(主要为设备电压等级、生产厂家、设备所在地等基本信息),以便获取设备除监测状态值以外的特征变量数据。
具体地,步骤S2中、数据采样频率归一化:鉴于外界因素的影响,状态监测设备可 能存在受到干扰而出现状态数据集中数据采样频率不一的情况(同一时间段内采样的数据 量不同),以
Figure 512581DEST_PATH_IMAGE002
作为设备的每日采样数据个数,每日状态监测数据量为
Figure 620214DEST_PATH_IMAGE003
,比对
Figure 327008DEST_PATH_IMAGE002
Figure 406959DEST_PATH_IMAGE003
的大 小,当
Figure 557318DEST_PATH_IMAGE004
,采样频率过大,删除当日部分采样数据;当
Figure 637400DEST_PATH_IMAGE005
,采样频率过小,填补缺 少的数据样本,完成状态监测数据集的采样频率归一化,获取采样频率归一化之后的状态 数据集
Figure 898617DEST_PATH_IMAGE006
具体地,步骤S3中、具有分析意义的数据集筛选:基于采样频率归一化之后的状态 数据集
Figure 82343DEST_PATH_IMAGE006
,根据设备编码逐条提取数据集中每台主变设备的状态监测数据,首先计算其数 据集中非零数据占比率
Figure 138023DEST_PATH_IMAGE007
,根据设置的非零数据占比率阈值
Figure 970981DEST_PATH_IMAGE008
,对于
Figure 973572DEST_PATH_IMAGE009
的设备,剔除 带有该设备编码的设备状态监测数据信息,以筛除初始数据集中存在较多零值的无效状态 数据集,初步获取可供数据分析的状态监测
Figure 824854DEST_PATH_IMAGE010
;之后再计算经过筛选后的每台设备状态监 测数据方差
Figure 566283DEST_PATH_IMAGE011
,由于数据集中存在一定时间不发生变化的非零值,所以选用方差筛除数据 集中存在的无用数据,设置一个方差参数的下限阈值
Figure 73487DEST_PATH_IMAGE012
,当
Figure 161660DEST_PATH_IMAGE013
时,将该设备的状 态监测数据信息筛除,获取具有分析意义的状态数据集
Figure 133027DEST_PATH_IMAGE014
具体地,步骤S4中、数据频率分布拟合:划分状态数据集的训练集与预测集,以前 两日作为训练集,后一日作为预测集,提取所有设备的前两日的状态监测数据,按不同设备 的状态编码,逐一绘制各设备的状态数据频率分布直方图,首先简单将直方图拟合为曲线, 筛选出符合正态分布直方图曲线,使用K-S方法根据对应曲线频率直方图拟合的曲线计算P 值,筛选得到符合正态分布的设备状态数据集
Figure 733773DEST_PATH_IMAGE015
,以及不服从正态分布的设备状态数据集
Figure 39858DEST_PATH_IMAGE016
具体地,步骤S5中、完整训练样本的构建:对于状态数据集
Figure 180990DEST_PATH_IMAGE015
,使用拉伊达法则与 滑动窗口组合的方法进行异常数据检测;对于数据集
Figure 695279DEST_PATH_IMAGE016
,由于其分布不符合正态分布,使 用箱形图与滑动窗口组合算法检测单日数据样本中存在异常点;检测出的异常值数据点将 被删去成为数据缺失点,使用牛顿多项式插补的方法将这些数据点补全,得到平滑后完整 的状态监测数据集训练样本
Figure 529242DEST_PATH_IMAGE017
具体地,步骤S6中、数据集
Figure 791465DEST_PATH_IMAGE018
的周期性检验:周期性体现了时序数据在未来长期趋 势的一种波浪形或振荡式变动,准确提取周期性信息,不仅能反映当前数据规律还可以掌 握数据未来的走势;在应用机器学习及回归预测类算法之前,需要先对数据集的周期性进 行分析,通过对比不同数据集之间的周期大小偏差以验证回归预测得到数值的可信度。
具体地,步骤S7中,对数据进行周期性分解,结果原始数据分解趋势部分、周期部 分以及残差部分,以两日数据作为训练集
Figure 736288DEST_PATH_IMAGE019
,后一日数据作为预测集
Figure 167400DEST_PATH_IMAGE020
,通过设置滑动的
Figure 375528DEST_PATH_IMAGE021
Figure 141358DEST_PATH_IMAGE022
对整个设备状态检测数据集做一次回归预测的遍历,得到除前两日以外的设备状态预 测数据,以训练数据中分解出的残差部分设置状态监测数据的高低置信区间,以该置信区 间作为异常值检测的上下阈值对剩余日的异常值进行检测并删去,得到含有少量空值的实 测状态数据集
Figure 873560DEST_PATH_IMAGE023
具体地,步骤S8中的基于Markov状态转移模型进行空值点补全的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程, 对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构 成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值
Figure 611709DEST_PATH_IMAGE024
与最小值
Figure 538207DEST_PATH_IMAGE025
,将区间
Figure 994597DEST_PATH_IMAGE026
划分为
Figure 281221DEST_PATH_IMAGE027
个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度, 数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-2.状态转移矩阵的生成:在马尔科夫过程中,从状态
Figure 919882DEST_PATH_IMAGE028
转移到状态
Figure 469812DEST_PATH_IMAGE029
的概率为:
Figure 695388DEST_PATH_IMAGE030
其中
Figure 51283DEST_PATH_IMAGE031
为训练集中状态
Figure 498445DEST_PATH_IMAGE028
出现的次数;
Figure 265282DEST_PATH_IMAGE032
为训练集中状态
Figure 227421DEST_PATH_IMAGE028
的下一状态为
Figure 606581DEST_PATH_IMAGE029
的 次数;计算每个状态之间的转移概率,最终得到
Figure 173829DEST_PATH_IMAGE033
阶状态转移矩阵
Figure 111567DEST_PATH_IMAGE034
根据上式计算两两状态之间的转移概率,各个状态之间的转移概率共同构成变压器铁 芯接地电流状态转移矩阵,将状态时间序列倒序排列,按相同原理计算反向状态转移矩阵
Figure 561003DEST_PATH_IMAGE035
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第
Figure 743853DEST_PATH_IMAGE036
日的第
Figure 696766DEST_PATH_IMAGE028
个数据采样点缺失,以第
Figure 759400DEST_PATH_IMAGE037
个数据采样点所处的状态
Figure 945399DEST_PATH_IMAGE038
为初始状态,生成一个长度
Figure 181209DEST_PATH_IMAGE039
的 向量
Figure 208202DEST_PATH_IMAGE040
,其中第
Figure 238474DEST_PATH_IMAGE038
个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是确 定的,概率为1;将状态转移矩阵
Figure 646191DEST_PATH_IMAGE034
与向量
Figure 685691DEST_PATH_IMAGE040
相乘,得到缺失数据采样点的处于不同状态的 概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一个 补全值
Figure 816458DEST_PATH_IMAGE041
;同理,再以第
Figure 768365DEST_PATH_IMAGE042
个数据采样点作为初始状态
Figure 679689DEST_PATH_IMAGE043
,生成向量与反向状态转移矩阵 相乘得到反向状态补全值
Figure 240989DEST_PATH_IMAGE044
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某 一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考 虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,
Figure 491842DEST_PATH_IMAGE041
Figure 880229DEST_PATH_IMAGE044
的权重可以根 据训练集中状态
Figure 13270DEST_PATH_IMAGE038
Figure 332256DEST_PATH_IMAGE043
出现的次数进行调整;以岭形分布的分布函数作为权重值的设置依 据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次数 差值作为输入代入岭形分布函数:
Figure 749200DEST_PATH_IMAGE045
Figure 292177DEST_PATH_IMAGE046
则两个补全值的权重值分别为
Figure 600929DEST_PATH_IMAGE047
Figure 785923DEST_PATH_IMAGE048
,对两个补全值进行加权求 和得到最终的补全值
Figure 791794DEST_PATH_IMAGE049
Figure 708934DEST_PATH_IMAGE050
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
本发明具有以下技术效果:本发明根据变压器状态监测设备采集数据存在缺陷的情况,设计融入机器学习的数据预处理方法;根据传回的主变设备采集数据信息,计算数据集的非零参数的占比以及数据的方差等参数,选取非零参数占比大于80%以及存在一定方差的数据作为可供数据分析的数据集(一种分析序列数据周期性的方法,最好选取一定时间内状态监测数据具有周期性的设备,有利于提高后续的回归预测分析的精确度),并标记主变设备采集编号;以初始采集数据作为研究样本,针对数据集中采样频率不一的情况,均化数据集样本的采样时间尺度;使用K-S方法检验数据与正态分布的相似度,根据相似度决策进行异常值监测的措施,使用多项式插值的方法补充异常数据点;对补充后的数据集使用自回归平均模型(ARMA)分析设备的状态监测数据,分析训练数据集的平稳性与周期性,基于处理后的训练集样本对整个数据集进行回归预测分析,以数据集的残差序列作为预测数据置信区间,检验监测并删去数据集中存在的异常值数据点;根据得到存在少量缺失点的数据集,基于前期处理的训练集数据构建数据状态转移矩阵,使用Markov模型根据第一日的数据集合,对整体数据集中存在的空缺值进行补全操作,完成数据清洗操作,初始数据集中的缺失数据与异常数据已去除,得到一个准确度较高的完整数据集样本。
附图说明
图1为本发明的流程图。
图2为数据周期性检测流程图。
图3为设备状态监测曲线。
图4为数据日采样量直方图。
图5为重采样后的设备状态数据监测曲线。
图6是8月7日状态监测数据分布直方图。
图7是8月8日状态监测数据分布直方图。
图8是8月7日数据分布拟合图。
图9是8月8日数据分布拟合图。
图10是状态监测数据的自相关系数图。
图11是训练数据集平滑前后的对比。
图12是状态监测数据分解各部分图。
图13是预测结果与置信区间分布图。
具体实施方式。
下面结合附图对本发明作进一步详细阐明。
如图1所示,一种电力设备状态监测数据的完整样本集的构建方法,其特征步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状态转移矩阵
Figure 82147DEST_PATH_IMAGE051
,使 用Markov模型对整体数据集中存在的缺失值数据点进行补全操作,得到可信度较高的状态 监测数据集。
具体地,步骤S1中,基于设备的基本台账信息,对状态监测数据集进行设备关键编码匹配,生成带有主变设备相关基本信息的状态监测数据集(主要为设备电压等级、生产厂家、设备所在地等基本信息),以便获取设备除监测状态值以外的特征变量数据。
具体地,步骤S2、数据采样频率归一化:鉴于外界因素的影响,状态监测设备可能 存在受到干扰而出现状态数据集中数据采样频率不一的情况(同一时间段内采样的数据量 不同),以
Figure 290406DEST_PATH_IMAGE052
作为设备的每日采样数据个数,每日状态监测数据量为
Figure 104778DEST_PATH_IMAGE053
,比对
Figure 527841DEST_PATH_IMAGE052
Figure 857192DEST_PATH_IMAGE053
的大 小,当
Figure 134720DEST_PATH_IMAGE054
,采样频率过大,删除当日部分采样数据;当
Figure 803599DEST_PATH_IMAGE055
,采样频率过小,填补缺 少的数据样本,完成状态监测数据集的采样频率归一化,获取采样频率归一化之后的状态 数据集
Figure 124859DEST_PATH_IMAGE056
具体地,步骤S3、具有分析意义的数据集筛选:基于采样频率归一化之后的状态数 据集
Figure 456352DEST_PATH_IMAGE057
,根据设备编码逐条提取数据集中每台主变设备的状态监测数据,首先计算其数据 集中非零数据占比率
Figure 458943DEST_PATH_IMAGE058
,根据设置的非零数据占比率阈值
Figure 795378DEST_PATH_IMAGE059
,对于
Figure 553118DEST_PATH_IMAGE060
的设备,剔除带 有该设备编码的设备状态监测数据信息,以筛除初始数据集中存在较多零值的无效状态数 据集,初步获取可供数据分析的状态监测数据
Figure 794744DEST_PATH_IMAGE061
;之后再计算经过筛选后的每台设备状态 监测数据方差
Figure 912610DEST_PATH_IMAGE062
,由于数据集中存在一定时间不发生变化的非零值,所以选用方差筛除数 据集中存在的无用数据,设置一个方差参数的下限阈值
Figure 618398DEST_PATH_IMAGE063
,当
Figure 969876DEST_PATH_IMAGE064
时,将该设备的 状态监测数据信息筛除,获取具有分析意义的状态数据集
Figure 26694DEST_PATH_IMAGE065
具体地,步骤S4、数据频率分布拟合:划分状态数据集的训练集与预测集,以前两 日作为训练集,后一日作为预测集,提取所有设备的前两日的状态监测数据,按不同设备的 状态编码,逐一绘制各设备的状态数据频率分布直方图,首先简单将直方图拟合为曲线,筛 选出符合正态分布直方图曲线,使用K-S方法根据对应曲线频率直方图拟合的曲线计算P 值,筛选得到符合正态分布的设备状态数据集
Figure 371087DEST_PATH_IMAGE066
,以及不服从正态分布的设备状态数据集
Figure 180649DEST_PATH_IMAGE067
具体地,步骤S5、完整训练样本的构建:对于状态数据集
Figure 14613DEST_PATH_IMAGE066
,使用拉伊达法则与滑 动窗口组合的方法进行异常数据检测;对于数据集
Figure 247142DEST_PATH_IMAGE067
,由于其分布不符合正态分布,使用 箱形图与滑动窗口组合算法检测单日数据样本中存在异常点;检测出的异常值数据点将被 删去成为数据缺失点,使用牛顿多项式插补的方法将这些数据点补全,得到平滑后完整的 状态监测数据集训练样本
Figure 457544DEST_PATH_IMAGE068
具体地,步骤S6、数据集
Figure 75607DEST_PATH_IMAGE068
的周期性检验:周期性体现了时序数据在未来长期趋势 的一种波浪形或振荡式变动,准确提取周期性信息,不仅能反映当前数据规律还可以掌握 数据未来的走势;在应用机器学习及回归预测类算法之前,需要先对数据集的周期性进行 分析,通过对比不同数据集之间的周期大小偏差以验证回归预测得到数值的可信度。
如图2所示,步骤S6中数据周期性检测的具体过程是:
S6-1.通过傅里叶变换将状态序列数据集转化为频域数据,即功率谱密度图和选取候选周期,在分解出的所有正弦函数多项式中,傅里叶系数越大的三角函数的周期越有可能为该数据集的周期;
S6-2.计算序列数据集的自相关系数,绘制自相关系数图。通过度量同一事件不同时间的相关程度,使用Pearson相关系数计算不同相位差序列间的自相关系数,若序列存在周期性,遍历足够多的相位差,则可以找到一个足够大的自相关系数,其对应的相位差即为周期;通过使用该相位差去校验步骤S6-1中检测出可能存在的周期,可辨别出真实周期以及伪周期,候选周期在自相关系数图的波峰则为真实周期,候选周期在自相关系数图的波谷则为伪周期。
具体地,步骤S7、基于训练样本的数据集回归预测及整体异常值检测:对数据进行 周期性分解,结果原始数据分解趋势部分、周期部分以及残差部分,以两日数据作为训练集
Figure 329740DEST_PATH_IMAGE069
,后一日数据作为预测集
Figure 95570DEST_PATH_IMAGE070
,通过设置滑动的
Figure 532499DEST_PATH_IMAGE071
Figure 67386DEST_PATH_IMAGE072
对整个设备状态检测数据集做一次 回归预测的遍历,得到除前两日以外的设备状态预测数据,以训练数据中分解出的残差部 分设置状态监测数据的高低置信区间,以该置信区间作为异常值检测的上下阈值对剩余日 的异常值进行检测并删去,得到含有少量空值的实测状态数据集
Figure 492420DEST_PATH_IMAGE073
具体地,步骤S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状 态转移矩阵
Figure 683230DEST_PATH_IMAGE074
,使用Markov模型对整体数据集中存在的缺失值数据点进行补全操作,以均 方根误差、变异系数、偏度系数以及峰度系数构建样本数据的评估指标,评价完整样本数据 集的构建效果。
具体地,步骤S8中的基于Markov状态转移模型进行空值点补全的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程, 对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构 成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值
Figure 235434DEST_PATH_IMAGE075
与最小值
Figure 375559DEST_PATH_IMAGE076
,将区间
Figure 925489DEST_PATH_IMAGE077
划分为
Figure 915180DEST_PATH_IMAGE078
个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度, 数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-2.状态转移矩阵的生成:在马尔科夫过程中,从状态
Figure 943178DEST_PATH_IMAGE079
转移到状态
Figure 187078DEST_PATH_IMAGE080
的概率为:
Figure 720959DEST_PATH_IMAGE081
其中
Figure 886361DEST_PATH_IMAGE082
为训练集中状态
Figure 764056DEST_PATH_IMAGE079
出现的次数;
Figure 128041DEST_PATH_IMAGE083
为训练集中状态
Figure 19774DEST_PATH_IMAGE079
的下一状态为
Figure 485521DEST_PATH_IMAGE080
的 次数;计算每个状态之间的转移概率,最终得到
Figure 652060DEST_PATH_IMAGE084
阶状态转移矩阵
Figure 323082DEST_PATH_IMAGE085
根据上式计算两两状态之间的转移概率,各个状态之间的转移概率共同构成变压器铁 芯接地电流状态转移矩阵,将状态时间序列倒序排列,按相同原理计算反向状态转移矩阵
Figure 448033DEST_PATH_IMAGE086
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第
Figure 604339DEST_PATH_IMAGE087
日的第
Figure 840148DEST_PATH_IMAGE079
个数据采样点缺失,以第
Figure 427993DEST_PATH_IMAGE088
个数据采样点所处的状态
Figure 661528DEST_PATH_IMAGE089
为初始状态,生成一个长度为
Figure 819977DEST_PATH_IMAGE090
的向量
Figure 344630DEST_PATH_IMAGE091
,其中第
Figure 740977DEST_PATH_IMAGE089
个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是 确定的,概率为1;将状态转移矩阵
Figure 191419DEST_PATH_IMAGE085
与向量
Figure 102743DEST_PATH_IMAGE091
相乘,得到缺失数据采样点的处于不同状态 的概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一 个补全值
Figure 618038DEST_PATH_IMAGE092
;同理,再以第
Figure 681940DEST_PATH_IMAGE093
个数据采样点作为初始状态
Figure 54015DEST_PATH_IMAGE094
,生成向量与反向状态转移矩 阵相乘得到反向状态补全值
Figure 639586DEST_PATH_IMAGE095
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某 一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考 虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,
Figure 20889DEST_PATH_IMAGE092
Figure 673718DEST_PATH_IMAGE095
的权重可以 根据训练集中状态
Figure 419958DEST_PATH_IMAGE089
Figure 40295DEST_PATH_IMAGE094
出现的次数进行调整;以岭形分布的分布函数作为权重值的设置 依据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次 数差值作为输入代入岭形分布函数:
Figure 412239DEST_PATH_IMAGE096
Figure 434422DEST_PATH_IMAGE097
则两个补全值的权重值分别为
Figure 899032DEST_PATH_IMAGE098
Figure 209928DEST_PATH_IMAGE099
,对两个补全值进行加权求 和得到最终的补全值
Figure 933033DEST_PATH_IMAGE100
Figure 996673DEST_PATH_IMAGE101
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
实施例
以部分江西省主变设备状态监测数据集作为数据分析对象,完整数据集样本构建案例如下:
状态数据集与设备编码匹配:以主变设备的历史监测数据作为研究对象,通过不同设备的编码将状态数据集与主变设备的台帐信建立对应关系;在此基础上使用统计计算不同编码的设备状态数据监测集的非零元素占比、方差、均值等参数,通过分析这些参数初步筛选出原始数据集中具有分析意义的设备状态数据集;以部分江西省主变设备状态监测数据集作为数据分析对象,其基本情况信息汇总表如表1所示。
Figure 147032DEST_PATH_IMAGE102
数据采样频率归一化:通过上表可知,编码为18M00000086658507、18M00000086658511、18M00000086659708、18M00000086659889的设备数据集规模过小,不足以支撑后续数据集分析,因此筛除这些数据集;编码为18M00000086658205、18M00000086659742、18M00000086660016、18M00001061027161、18M00001061027453、18M00000086660011的设备状态采集的数据中空值的占比分别为100%、93.61%、100%、100%、100%、30.1%,数据集中残缺情况较为严重,不具备数据分析价值,舍去;编码为18M00001054120410、18M00001054116401、18M00000008307576的设备虽然特征参数达到要求,但其方差与均值相比相差过大,可推断出其状态监测数据很可能是在一个很小的范围内持续来回跳变,没有分析价值,故删去;编码为18M00000007905515、18M00000086659826的设备虽然数据采集规模较大,且不存在零值的情况,但其整体方差为零,传回的数据为一段不变的常数值,数据集不具备分析的意义,删去。以上这些数据集的问题,大部分还是由于外界环境因素导致状态监测设备运行故障造成的,需根据设备编码进行一一排查。
经过以上初步的状态数据集筛除,仅余下编码为18M00000086659828、18M00000086660044、18M00000086660046、18M00001054120379四台设备状态监测数据集可供后续数据分析;本实施例以编码为18M00000086659828设备状态数据集作为对象,对数据分析操作进行实例分析。首先将数据集数据进行可视化,得到图3所示的状态监测曲线。图3中不难看出,该数据集监测的为8月4日至8月12日的状态变量,4、5、6、12日数据存在残缺,以设置的标准采样频率计算(一日240个数据点为采样频率),其4、5、6、12日数据采样比率分别为23.1%、0%、51.2%、73.6%,故4、5、6日采集数据残缺较为严重,将其删去;12日数据采集比率较大,可通过前几日的数据集训练模型进行回归预测,以填充缺失的部分,故保留。
数据集的重采样:提取设备8月7日至8月11日数据,绘制如图4所示的数据集日数据采样量直方图。不难看出数据集中每日的采样频率不一,7日至11日的数据采样频率分别为:216、230、245、239、234,采样频率未归一化的时间序列数据不利于模型训练,因此,需要对数据集进行重采样,标准日采样频率设置为240个数据点一日,可知7、8、10、11日的采样频率小于标准频率,应执行上采样,上采样过程本质可以归为数据的放回抽样,不断的从少类样本中抽取样本,与原始样本组成训练集训练模型;因此最终的数据集中是存在一定重复数据的,容易造成模型的过拟合,为解决此问题,本方法在采样的数据中添加了部分“随机性”:
假设抽取的数据样本为
Figure 492693DEST_PATH_IMAGE103
,放回样本
Figure 691594DEST_PATH_IMAGE104
为:
Figure 688368DEST_PATH_IMAGE105
式中
Figure 258896DEST_PATH_IMAGE106
为方差系数,
Figure 13225DEST_PATH_IMAGE107
为方差,
Figure 94445DEST_PATH_IMAGE108
为数据集均值。使用该方式进行上采样时不仅可以 有效避免数据重复造成的过拟合问题,且根据抽取样本与均值的大小关系,决定放回样本, 可有效减少抽到异常数据而造成的数据集质量进一步劣化的程度。
9日的数据采集量为245,大于标准的采样频率,需对数据进行下采样,下采样本质为降低日数据采样量,为了更加有目的的选取丢弃样本,使用最大最小值的抽样法,根据下采样需丢弃的样本数量,依次选取数据集中最大最小值作为丢弃样本,直至采样频率达到标准值;该方法在下采样过程中,优先丢弃异常值可能性大的样本,可有效减小后续异常值监测过程的复杂程度。按上述方法将编号为18M00000086659828设备状态监测数据采样频率归一化的数据曲线如图5所示。
不难看出,经过数据集9日的状态数据的经过下采样后,其中存在的一些极端异常值已被删去,7、8、10、11日的数据经过上采样,也已经达到标准采样频率,其中7日补全的数据最多,数据曲线的密度得到了很好的平滑化。
数据集频率分布的拟合:在得到以上一条状态数据监测曲线的基础上,以7、8两日 的监测数据作为训练集,绘制训训练数据的频率分布直方图,如下图6和图7所示,对以上两 直方图进行拟合,以便观察数据与正态分布函数的近似度,拟合图如图8和图9所示,初步观 察两组数据的拟合图,发现两组数据的分布皆较为接近正态分布函数曲线,使用单样本的 K-S方法检验监测数据样本与正态分布的近似程度,比较一个频率分布
Figure 680147DEST_PATH_IMAGE109
和理论分布
Figure 109991DEST_PATH_IMAGE110
,存在假设
Figure 928781DEST_PATH_IMAGE111
:两个数据分布一致或数据符合分布理论,定义:
Figure 735063DEST_PATH_IMAGE112
当实际观测值
Figure 191583DEST_PATH_IMAGE113
,则拒绝假设
Figure 854645DEST_PATH_IMAGE114
,否则接受假设
Figure 583567DEST_PATH_IMAGE114
Figure 841062DEST_PATH_IMAGE115
可以查表 得到,该方法检验数据分布的优势在于不需要知道数据的具体分布情况,算是一种非参数 检验方法,检验结果如表2所示:
Figure 401356DEST_PATH_IMAGE116
可见经过K-S方法检验,训练集数据的P值皆小于0.05,表示两组数据皆不满足正态分布。
设备状态监测数据的时序分析:观察到设备的状态监测数据接近时间序列数据,而平稳性是进行时序分析的基础,当数据不满足平稳性时许多结论都是不可靠的,因此,首先对数据的平稳性检验,以宽平稳作为判定条件,分别使用自相关系数与单位根检验法检验序列的稳定性,自相关系数检验结果如图10所示。
可见监测数据的自相关系数快速衰减,且单位根检验结果中P-value值远远小于0.99,说明状态监测数据是一个具有很强平稳的时间序列,不需要使用进一步手段对其进行平稳性处理。序列数据中存在的异常点会严重干扰基于建模技术对时序数据的分析,不利于挖掘序列数据中潜在的趋势规律,因此在对时间序列进行建模分析之前,需要对序列中存在的异常值筛除,本实施例使用一种滑动窗口与箱型图组合的方式筛除序列中存在的一些异常值以达到原始序列数据平滑的目的。经过本实施例提出方法平滑后的时序数据与滑动平均效果的对比如图11所示。不难看出,与一般的滑动平均对比,经过异常值的筛除以及筛除点数据的补全后,训练数据中的一些阶跃较大的数据点得到了更好的平滑效果,数据整体曲线也更加平缓,有效筛除了数据集中存在的一些过大或者过小的异常值。
得到平滑后的序列数据集之后,需要对其进行分解以挖掘其蕴含的规律,本专利 使用加法模型对时序数据进行分解;对于一个时间序列
Figure 923735DEST_PATH_IMAGE117
,假设其为加法模型,则可以写 为:
Figure 467849DEST_PATH_IMAGE118
其中
Figure 68464DEST_PATH_IMAGE119
分别为周期、趋势和残差部分,对整个状态数据进行加性模 型分解,得到数据集分解之后的各个部分如图12所示。
使用时序数据的趋势部分单独对ARMA进行训练,预测出趋势数据之后将其与周期部分组合得到预测的结果,以11日状态数据为例,其预测结果如图13所示。

Claims (8)

1.一种电力设备状态监测数据的完整样本集的构建方法,其特征步骤如下:
S1、状态数据集与设备编码匹配:将数据集与设备编码匹配,以获取状态监测意外的相关基本信息;
S2、数据采样频率归一化:根据筛选出的状态监测数据集中存在的数据采样频率不一的情况,归一化数据集样本的采样时间尺度;
S3、具有分析意义的状态数据集筛选:获取设备采样频率均化后的数据集,计算数据集中非零元素占比、数据方差以及序列数据的周期性参数,从其中筛选出可供后续数据分析的设备状态监测数据;
S4、数据频率分布拟合:分析数据集整体数据的分布特征,根据其频率分布图,使用高斯拟合函数将其拟合为概率密度分布函数,为下一步异常值检测做好数据准备;
S5、完整训练样本的构建:根据拟合的密度函数不同,分别选取拉伊达法则或箱形图检测训练集的异常值并删去,再使用多项式插补法初步得到完整的训练数据集;
S6、数据集的周期性检验:根据完整的训练数据集,将训练数据集进行加性时序数据分集,得等数据的趋势、周期、残差部分;
S7、基于训练样本的状态数据集回归预测及整体异常值检测:对趋势部分进行预测,与周期部分组合得等预测数据,再将预测数据与残差部分组合,构成异常值检查的置信区间,检测并删去异常值;
S8、以经过数据预处理之后的第一日数据集作为训练集样本,构建状态转移矩阵
Figure 903721DEST_PATH_IMAGE001
,使 用Markov模型对整体数据集中存在的缺失值数据点进行补全操作,得到可信度较高的状态 监测数据集。
2.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特 征是:步骤S2中,鉴于外界因素的影响,状态监测设备可能存在受到干扰而出现数据集中数 据采样频率不一的情况,以
Figure 349746DEST_PATH_IMAGE002
作为设备的每日采样数据个数,每日状态监测数据量为
Figure 667464DEST_PATH_IMAGE003
,比 对
Figure 744004DEST_PATH_IMAGE002
Figure 248804DEST_PATH_IMAGE003
的大小,当
Figure 905044DEST_PATH_IMAGE004
,采样频率过大,删除当日部分采样数据;当
Figure 874006DEST_PATH_IMAGE005
,采样频率过 小,填补缺少的数据样本,完成状态监测数据集的采样频率归一化,获取采样频率归一化之 后的数据集
Figure 121448DEST_PATH_IMAGE006
3.根据权利要求2所述的一种电力设备状态监测数据的完整样本集的构建方法,其特 征是:步骤S3中,于采样频率归一化之后的状态数据集
Figure 319735DEST_PATH_IMAGE006
,根据设备编码逐条提取数据集中 每台主变设备的状态监测数据,首先计算其数据集中非零数据占比率
Figure 310825DEST_PATH_IMAGE007
,根据设置的非零 数据占比率阈值
Figure 603135DEST_PATH_IMAGE008
,对于
Figure 755899DEST_PATH_IMAGE009
的设备,剔除带有该设备编码的设备状态监测数据信息, 以筛除初始数据集中存在较多零值的无效状态数据集,初步获取可供数据分析的状态监测 数据
Figure 500870DEST_PATH_IMAGE010
;之后再计算经过筛选后的每台设备状态监测数据方差
Figure 30071DEST_PATH_IMAGE011
,由于数据集中存在一定 时间不发生变化的非零值,所以选用方差筛除数据集中存在的无用数据,设置一个方差参 数的下限阈值
Figure 176888DEST_PATH_IMAGE012
,当
Figure 741031DEST_PATH_IMAGE013
时,将该设备的状态监测数据信息筛除,获取具有分析 意义的状态数据集
Figure 114244DEST_PATH_IMAGE014
4.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特 征是:步骤S4中,划分数据集的训练集与预测集,以前两日作为训练集,后一日作为预测集, 提取所有设备的前两日的状态监测数据,按不同设备的状态编码,逐一绘制各设备的状态 数据频率分布直方图,首先简单将直方图拟合为曲线,筛选出符合正态分布直方图曲线,使 用高斯拟合函数根据对应曲线频率直方图将状态数据集拟合为概率密度函数分布曲线,得 到符合正态分布的设备状态数据集
Figure 978295DEST_PATH_IMAGE015
,以及不服从正态分布的设备状态数据集
Figure 714038DEST_PATH_IMAGE016
5.根据权利要求4所述的一种电力设备状态监测数据的完整样本集的构建方法,其特 征是:步骤S5中,对于设备状态数据集
Figure 395555DEST_PATH_IMAGE015
,使用拉伊达法则与滑动窗口组合的方法进行异 常数据检测;对于设备状态数据集
Figure 928168DEST_PATH_IMAGE016
,由于其分布不符合正态分布,使用箱形图与滑动窗 口组合算法检测单日数据样本中存在异常点;检测出的异常值数据点将被删去成为数据缺 失点,使用牛顿多项式插补的方法将这些数据点补全,得到平滑后完整的状态监测数据集 训练样本
Figure 64751DEST_PATH_IMAGE017
6.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特征是:步骤S6中数据周期性检测的具体过程是:
S6-1.通过傅里叶变换将状态序列数据集转化为频域数据,即功率谱密度图和选取候选周期,在分解出的所有正弦函数多项式中,傅里叶系数越大的三角函数的周期越有可能为该数据集的周期;
S6-2.计算序列数据集的自相关系数,绘制自相关系数图;通过度量同一事件不同时间的相关程度,使用Pearson相关系数计算不同相位差序列间的自相关系数,若序列存在周期性,遍历足够多的相位差,则可以找到一个足够大的自相关系数,其对应的相位差即为周期;通过使用该相位差去校验步骤S6-1中检测出可能存在的周期,可辨别出真实周期以及伪周期,候选周期在自相关系数图的波峰则为真实周期,候选周期在自相关系数图的波谷则为伪周期。
7.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特 征是:步骤S7中,对数据进行周期性分解,结果原始数据分解趋势部分、周期部分以及残差 部分,以两日数据作为训练集
Figure 923510DEST_PATH_IMAGE018
,后一日数据作为预测集
Figure 120136DEST_PATH_IMAGE019
,通过设置滑动的
Figure 467941DEST_PATH_IMAGE020
Figure 391904DEST_PATH_IMAGE021
对整个 设备状态检测数据集做一次回归预测的遍历,得到除前两日以外的设备状态预测数据,以 训练数据中分解出的残差部分设置状态监测数据的高低置信区间,以该置信区间作为异常 值检测的上下阈值对剩余日的异常值进行检测并删去,得到含有少量空值的实测状态数据 集
Figure 571081DEST_PATH_IMAGE022
8.根据权利要求1所述的一种电力设备状态监测数据的完整样本集的构建方法,其特征是:步骤S8中的使用Markov模型对整体数据集中存在的缺失值数据点进行补全操作的具体过程为:
S8-1.数据空间划分:马尔科夫过程是依照一定概率分布在离散状态之间转移的过程, 对与变压器铁芯接地电流的时间序列数据,需要将每个采样时间点转化为对应的状态,构 成一个马尔科夫链;取单日铁芯接地电流状态数据中最大值
Figure 862910DEST_PATH_IMAGE023
与最小值
Figure 432431DEST_PATH_IMAGE024
,将区间
Figure 487981DEST_PATH_IMAGE025
划分为
Figure 445966DEST_PATH_IMAGE026
个等间隔的状态区间,状态间隔的大小取决于数据补全所需要的精度, 数据样本越多,精度要求越高,则状态区间的划分越密集;
S8-2.状态转移矩阵的生成:在马尔科夫过程中,从状态
Figure 576207DEST_PATH_IMAGE027
转移到状态
Figure 633025DEST_PATH_IMAGE028
的概率为:
Figure 961107DEST_PATH_IMAGE029
其中
Figure 724663DEST_PATH_IMAGE030
为训练集中状态
Figure 217349DEST_PATH_IMAGE027
出现的次数;
Figure 840091DEST_PATH_IMAGE031
为训练集中状态
Figure 909547DEST_PATH_IMAGE027
的下一状态为
Figure 121086DEST_PATH_IMAGE028
的次 数;计算每个状态之间的转移概率,最终得到
Figure 1317DEST_PATH_IMAGE032
阶状态转移矩阵
Figure 691449DEST_PATH_IMAGE033
根据上式计算两两状态之间的转移概率,各个状态之间的转移概率共同构成变压器铁 芯接地电流状态转移矩阵,将状态时间序列倒序排列,按相同原理计算反向状态转移矩阵
Figure 423651DEST_PATH_IMAGE034
S8-3.权重分配:对于含有缺失数据的铁芯接地电流状态监测数据,设在第
Figure 99482DEST_PATH_IMAGE035
日的第
Figure 665462DEST_PATH_IMAGE027
个 数据采样点缺失,以第
Figure 528376DEST_PATH_IMAGE036
个数据采样点所处的状态
Figure 145826DEST_PATH_IMAGE037
为初始状态,生成一个长度为
Figure 315645DEST_PATH_IMAGE038
的 向量
Figure 715841DEST_PATH_IMAGE039
,其中第
Figure 49739DEST_PATH_IMAGE037
个元素为1,其余元素为0,表示对于一个已知的数据,其所处的状态是确 定的,概率为1;将状态转移矩阵
Figure 671213DEST_PATH_IMAGE033
与向量
Figure 321638DEST_PATH_IMAGE039
相乘,得到缺失数据采样点的处于不同状态的 概率;以此概率为权重,对各个状态对应的状态区间中间值进行加权求和,得到正向第一个 补全值
Figure 167103DEST_PATH_IMAGE040
;同理,再以第
Figure 725648DEST_PATH_IMAGE041
个数据采样点作为初始状态
Figure 150813DEST_PATH_IMAGE042
,生成向量与反向状态转移矩阵 相乘得到反向状态补全值
Figure 718060DEST_PATH_IMAGE043
经正向、反向生成的补全值原理相同,因此两个补全值的初始权重相同,都为0.5,当某 一状态在训练集中出现的次数越多,则说明在生成状态转移矩阵时对该状态的下一状态考 虑的越充分,以此状态作为初始状态的状态转移可信度就越高;因此,
Figure 547476DEST_PATH_IMAGE040
Figure 855966DEST_PATH_IMAGE043
的权重可以根 据训练集中状态
Figure 366713DEST_PATH_IMAGE037
Figure 709839DEST_PATH_IMAGE042
出现的次数进行调整;以岭形分布的分布函数作为权重值的设置依 据,根据输入值在初始权重的基础上进行调整,将正、反向初始状态在训练集中出现的次数 差值作为输入代入岭形分布函数:
Figure 710156DEST_PATH_IMAGE044
Figure 584571DEST_PATH_IMAGE045
则两个补全值的权重值分别为
Figure 682364DEST_PATH_IMAGE046
Figure 630729DEST_PATH_IMAGE047
,对两个补全值进行加权求和 得到最终的补全值
Figure 51215DEST_PATH_IMAGE048
Figure 85030DEST_PATH_IMAGE049
式中,th表示正向转移起始状态,tl表示反向转移起始状态,A(x)表示权重转换变量,amax指标最大值表示,amin指标最小值表示,x表示起始状态出现次数之差。
CN202011462003.9A 2020-12-14 2020-12-14 一种电力设备状态监测数据的完整样本集的构建方法 Active CN112232447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011462003.9A CN112232447B (zh) 2020-12-14 2020-12-14 一种电力设备状态监测数据的完整样本集的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462003.9A CN112232447B (zh) 2020-12-14 2020-12-14 一种电力设备状态监测数据的完整样本集的构建方法

Publications (2)

Publication Number Publication Date
CN112232447A true CN112232447A (zh) 2021-01-15
CN112232447B CN112232447B (zh) 2021-06-04

Family

ID=74124484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462003.9A Active CN112232447B (zh) 2020-12-14 2020-12-14 一种电力设备状态监测数据的完整样本集的构建方法

Country Status (1)

Country Link
CN (1) CN112232447B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691398A (zh) * 2021-08-13 2021-11-23 北京金山云网络技术有限公司 节点带宽的预测方法、装置、电子设备和存储介质
CN113723674A (zh) * 2021-08-18 2021-11-30 卫宁健康科技集团股份有限公司 一种基于大数据相关性的医疗风险预测方法
CN113984114A (zh) * 2021-10-18 2022-01-28 大连理工大学 一种海洋浮式平台水下结构异常诊断方法
CN115099370A (zh) * 2022-08-23 2022-09-23 北京全应科技有限公司 面向流程型工业生产数据流的评测数据集构建方法及系统
CN115345319A (zh) * 2022-08-11 2022-11-15 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN115861011A (zh) * 2023-02-15 2023-03-28 山东优嘉环境科技有限公司 一种基于多源数据融合的智慧城市优化管理方法和系统
CN116090916A (zh) * 2023-04-10 2023-05-09 淄博海草软件服务有限公司 一种企业内部采购资金核算预警系统
CN116702083A (zh) * 2023-08-10 2023-09-05 武汉能钠智能装备技术股份有限公司四川省成都市分公司 一种卫星遥测数据异常检测方法及系统
CN116757534A (zh) * 2023-06-15 2023-09-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
CN116992295A (zh) * 2023-09-26 2023-11-03 北京宝隆泓瑞科技有限公司 用于机器学习的机泵设备监测缺失数据重构方法、装置
CN117273553A (zh) * 2023-11-22 2023-12-22 青州市华康生物科技有限公司 一种基于糖浆浓度检测的生产异常监测系统
CN117310118A (zh) * 2023-11-28 2023-12-29 济南中安数码科技有限公司 一种地下水污染可视化监测方法
CN117332360A (zh) * 2023-12-01 2024-01-02 苏州弘皓光电科技有限公司 基于5g技术的温室大棚设备故障监测方法及系统
CN117992895B (zh) * 2024-04-03 2024-06-07 西安寰宇管道工程技术有限公司 一种基于大数据的油气管道区域风险监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521080A (zh) * 2011-12-07 2012-06-27 福建省电力有限公司 电力用户用电信息采集系统的计算机数据修复方法
WO2017146290A1 (ko) * 2016-02-26 2017-08-31 주식회사 네이블커뮤니케이션즈 빅데이터 분석 기반의 저작권 정산 검증 방법
CN109801181A (zh) * 2017-11-17 2019-05-24 中国电力科学研究院有限公司 一种配变数据清洗修补方法及系统
CN109919432A (zh) * 2019-01-28 2019-06-21 国网湖北省电力有限公司宜昌供电公司 一种基于大数据的变电站设备故障影响因素分析方法
CN111984626A (zh) * 2020-08-25 2020-11-24 西安建筑科技大学 一种基于统计模式的能耗数据识别与修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521080A (zh) * 2011-12-07 2012-06-27 福建省电力有限公司 电力用户用电信息采集系统的计算机数据修复方法
WO2017146290A1 (ko) * 2016-02-26 2017-08-31 주식회사 네이블커뮤니케이션즈 빅데이터 분석 기반의 저작권 정산 검증 방법
CN109801181A (zh) * 2017-11-17 2019-05-24 中国电力科学研究院有限公司 一种配变数据清洗修补方法及系统
CN109919432A (zh) * 2019-01-28 2019-06-21 国网湖北省电力有限公司宜昌供电公司 一种基于大数据的变电站设备故障影响因素分析方法
CN111984626A (zh) * 2020-08-25 2020-11-24 西安建筑科技大学 一种基于统计模式的能耗数据识别与修复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘玉婷 等: "电力营销系统海量用户行为日志安全分析技术研究", 《网络安全技术与应用》 *
林福海 等: "SF6继电器温度补偿方式的现状分析与探讨", 《江西电力》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691398A (zh) * 2021-08-13 2021-11-23 北京金山云网络技术有限公司 节点带宽的预测方法、装置、电子设备和存储介质
CN113723674A (zh) * 2021-08-18 2021-11-30 卫宁健康科技集团股份有限公司 一种基于大数据相关性的医疗风险预测方法
CN113984114A (zh) * 2021-10-18 2022-01-28 大连理工大学 一种海洋浮式平台水下结构异常诊断方法
CN115345319A (zh) * 2022-08-11 2022-11-15 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN115345319B (zh) * 2022-08-11 2023-12-08 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN115099370A (zh) * 2022-08-23 2022-09-23 北京全应科技有限公司 面向流程型工业生产数据流的评测数据集构建方法及系统
CN115861011B (zh) * 2023-02-15 2023-05-05 山东优嘉环境科技有限公司 一种基于多源数据融合的智慧城市优化管理方法和系统
CN115861011A (zh) * 2023-02-15 2023-03-28 山东优嘉环境科技有限公司 一种基于多源数据融合的智慧城市优化管理方法和系统
CN116090916A (zh) * 2023-04-10 2023-05-09 淄博海草软件服务有限公司 一种企业内部采购资金核算预警系统
CN116757534A (zh) * 2023-06-15 2023-09-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
CN116757534B (zh) * 2023-06-15 2024-03-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
CN116702083A (zh) * 2023-08-10 2023-09-05 武汉能钠智能装备技术股份有限公司四川省成都市分公司 一种卫星遥测数据异常检测方法及系统
CN116702083B (zh) * 2023-08-10 2023-12-26 武汉能钠智能装备技术股份有限公司四川省成都市分公司 一种卫星遥测数据异常检测方法及系统
CN116992295A (zh) * 2023-09-26 2023-11-03 北京宝隆泓瑞科技有限公司 用于机器学习的机泵设备监测缺失数据重构方法、装置
CN117273553B (zh) * 2023-11-22 2024-02-02 青州市华康生物科技有限公司 一种基于糖浆浓度检测的生产异常监测系统
CN117273553A (zh) * 2023-11-22 2023-12-22 青州市华康生物科技有限公司 一种基于糖浆浓度检测的生产异常监测系统
CN117310118A (zh) * 2023-11-28 2023-12-29 济南中安数码科技有限公司 一种地下水污染可视化监测方法
CN117310118B (zh) * 2023-11-28 2024-03-08 济南中安数码科技有限公司 一种地下水污染可视化监测方法
CN117332360A (zh) * 2023-12-01 2024-01-02 苏州弘皓光电科技有限公司 基于5g技术的温室大棚设备故障监测方法及系统
CN117332360B (zh) * 2023-12-01 2024-02-09 苏州弘皓光电科技有限公司 基于5g技术的温室大棚设备故障监测方法及系统
CN117992895B (zh) * 2024-04-03 2024-06-07 西安寰宇管道工程技术有限公司 一种基于大数据的油气管道区域风险监测方法及系统

Also Published As

Publication number Publication date
CN112232447B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112232447B (zh) 一种电力设备状态监测数据的完整样本集的构建方法
CN109492193B (zh) 基于深度机器学习模型的异常网络数据生成与预测方法
CN109614576B (zh) 基于多维高斯分布与趋势分段的变压器异常检测方法
Aizpurua et al. Power transformer dissolved gas analysis through Bayesian networks and hypothesis testing
CN108763729B (zh) 基于网络结构熵的流程工业机电系统耦合状态评估方法
Dash et al. A novel interval‐halving framework for automated identification of process trends
CN112414694B (zh) 基于多元状态估计技术的设备多级异常状态识别方法及装置
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN112416662A (zh) 多时间序列数据异常检测方法与装置
CN114265882A (zh) 时序信号点异常检测方法、系统、设备及介质
CN115409066A (zh) 时间序列数据的异常检测方法、装置及计算机存储介质
CN116304957A (zh) 一种供变电设备监测状态突变在线识别方法
Xu et al. An adaptive gamma process based model for residual useful life prediction
CN117029968A (zh) 一种流量数据的诊断方法、系统、存储介质和电子设备
CN111291918A (zh) 平稳子空间外源矢量自回归的旋转机械退化趋势预测方法
CN107220705B (zh) 常减压装置常压塔顶干点预测方法
CN114112390B (zh) 一种非线性复杂系统早期故障诊断方法
CN116108371A (zh) 基于级联异常生成网络的云服务异常诊断方法与系统
CN115423370A (zh) 一种继电保护设备健康状态评估方法及装置
CN111027680B (zh) 基于变分自编码器的监控量不确定性预测方法及系统
CN110532698B (zh) 一种基于数据模型的工业设备振动特征值趋势预测方法
CN113988173A (zh) 基于定性趋势分析和五状态贝叶斯网络的故障诊断方法、系统、设备及存储介质
CN116415128A (zh) 用于润滑评估的方法、系统及介质
CN112862019A (zh) 一种动态筛选非周期性异常方法
CN115249059A (zh) 模型训练及异常数据分析方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant