CN116204844A - 一种基于不确定性的电气设备异常数据清洗方法 - Google Patents

一种基于不确定性的电气设备异常数据清洗方法 Download PDF

Info

Publication number
CN116204844A
CN116204844A CN202310479279.5A CN202310479279A CN116204844A CN 116204844 A CN116204844 A CN 116204844A CN 202310479279 A CN202310479279 A CN 202310479279A CN 116204844 A CN116204844 A CN 116204844A
Authority
CN
China
Prior art keywords
data
uncertainty
electrical equipment
probability
evidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310479279.5A
Other languages
English (en)
Other versions
CN116204844B (zh
Inventor
汪敏
伍文静
张安安
邓江湖
张倬实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202310479279.5A priority Critical patent/CN116204844B/zh
Publication of CN116204844A publication Critical patent/CN116204844A/zh
Application granted granted Critical
Publication of CN116204844B publication Critical patent/CN116204844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于不确定性的电气设备异常数据清洗方法,包括收集电气设备数据;利用D‑S证据理论,对电气设备数据进行不确定性建模;电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。本发明通过构建不确定性模型,能够直接表达对电气设备数据的信息不确定性描述,解释每个异常数据的不确定性,具有完备的数学理论基础,可以有效地对电气设备异常数据进行清洗。

Description

一种基于不确定性的电气设备异常数据清洗方法
技术领域
本发明设计一种基于不确定性的电气设备异常数据清洗方法,属于大数据清洗领域。
背景技术
随着社会经济的高速发展,电气系统成为国民经济发展的重要组成部分,各企业对电气设备的安全性、可靠性等要求也越来越高。随之而来的是,电气设备大数据井喷式爆发并呈现快速增长趋势,其中不仅包括了设备的基本参数信息,也涵盖业务数据、设备监测数据等。
目前电气设备的信息通常由设备运维人员现场填报或采用智能技术进行采集。传统的人工巡检采集工作量大,管理成本高,大部分油电气系统建立在气候与环境都非常恶劣的边远地区,这使得人工巡检的难度非常大,工作强度非常高,且如果没有及时巡检,有可能会造成严重事故。近些年来,虽然智能技术得到了广泛的研究与应用,减少了人工现场采集的工作量,但由于电气设备数据来源广泛且复杂、信息获取的难度大,以及硬件故障、输入错误、编程错误等一些意外原因时有发生,从而引入了大量低质量的异常数据簇和离群数据。
而在智能化构建电气设备数据集的过程中,通常会依赖人工进行分析诊断,如果异常数据大量出现,数据质量较差则会导致辨识度降低,使专家无法正确标注数据相应标签。更进一步的,会在构建分类器的时间、分类的准确性以及分类器大小等方面降低系统性能,也会增加学习所需的样本数量和相应模型的复杂性,极可能会破坏当前模型的评价体系。对于设备安全性、稳定性要求更高的电气系统来说,当前最重要的是如何从海量的电气设备数据中提取有价值的信息,剔除异常数据对分类器模型的影响,使构建精确的电气预测系统成为可能,这也是本发明的关键。
发明内容
为了解决上述提出的问题,本发明提供一种基于不确定性的电气设备异常数据清洗方法。本发明更深层次地考虑如何将影响电气设备数据间存在概率的多种因素相结合,以得到一个更加有效衡量数据相似性的指标,从而进一步提高预测的准确性。为此,在考虑数据概率分布的基础上,综合了影响数据相似性的不确定性因素,得到了一个新的电气设备数据准确性的综合度量指标——不确定性,又结合经验阈值,实现了对电气设备异常数据的识别,在保证执行效率的前提下提高电气系统预测的精度。
本发明所提出的一种基于不确定性的电气设备异常数据清洗方法具体步骤如下:
步骤S10、收集电气设备数据;
步骤S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
步骤S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
步骤S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。
进一步的技术方案是,所述数据包括GIS数据:放电峰值、放电幅值、相位、放电次数、压力、微水含量、温度,以及变压器数据:A相高压侧电压、A相低压侧电压、A相高压侧电流、A相低压侧电流、有功功率、无功功率、视在功率、接地电流、H2含量、CO含量。
进一步的技术方案是,所述步骤S20的具体过程为:利用Dirichlet分布建模事件概率分布,通过边缘分布表示每个数据特征出现的概率所服从的概率分布。对于概率期望满足可加性的特点,又引入不确定性,可解得每个数据特征出现概率的不确定性,即该数据为异常数据的概率。
进一步的技术方案是,所述步骤S30中的损失函数为:
Figure SMS_1
其中,
Figure SMS_9
是分类损失,/>
Figure SMS_8
是数据类别数量,/>
Figure SMS_16
和/>
Figure SMS_6
代表数据的第/>
Figure SMS_10
类和第/>
Figure SMS_3
类,/>
Figure SMS_12
是第/>
Figure SMS_18
类电气设备数据的one-hot类别真实值,/>
Figure SMS_21
与/>
Figure SMS_2
是标准神经网络分类器的输出值;/>
Figure SMS_14
是证据损失,/>
Figure SMS_17
和/>
Figure SMS_20
分别是证据网络中的期望概率和方差;/>
Figure SMS_19
是/>
Figure SMS_22
损失,其中/>
Figure SMS_7
是Kullback-Leibler散度, />
Figure SMS_11
是Dirichlet分布,/>
Figure SMS_5
是去除相关证据后的Dirichlet参数,/>
Figure SMS_15
是一个未知量加和为1的无具体物理意义的集合,/>
Figure SMS_4
表示非相关证据参数/>
Figure SMS_13
,即非相关证据为1时的Dirichlet分布。
进一步的技术方案是,所述步骤S40的具体过程为:设置一个经验性阈值,根据模型输出的不确定性度量,将电气设备数据分割为正常数据和异常数据。
与现有技术相比,本发明的有益效果为:
本发明能够有效地对电气设备数据中的异常数据进行识别,并且给出模型决策的解释信息辅助现场人员排查数据问题;
本发明通过构建不确定性模型,具备将概率分配给多个目标对象的能力,能够直接表达对电气设备数据的不确定性描述,解释每个数据的不确定性,具有完备的数学理论基础;
本发明建立的数据模型,能够有效识别电气设备大量参数中的异常数据,降低甚至消除数据采集与标记过程中,异常数据对分类器模型的影响,有利于构建精确的电气预测系统;
本发明所采用的机器学习模型,具有异常数据识别敏感程度高的特点,非常适合数据来源广泛且复杂的电气设备平台。
附图说明
图1为本发明流程图。
具体实施方式
下面结合附图与实施案例对本发明做更进一步的说明,以使本发明的目的、技术方案及优点更加清楚明白。以图1为例,本发明的流程为采集数据、不确定性建模、获得不确定性度量、识别正常与异常数据、删除异常数据,具体包括以下步骤:
S10、收集电气设备数据(如表1所示);
表1
字段名 备注
PD_PEAK 放电峰值
AMPLIT 放电幅值
PHASE 相位
TIMES 放电次数
PRESSURE 压力
MICRO_WATER 微水含量
TEMPERA 温度
VHVS_A A相高压侧电压
VLVS_A A相低压侧电压
CHVS_A A相高压侧电流
CLVS_A A相低压侧电流
ACTIVE 有功功率
REACTIVE 无功功率
APPARENT 视在功率
CGCD 接地电流
H2_PPM H2含量
CO_PPM CO含量
S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
D-S证据理论使用非精确概率对信息的不确定性进行建模,将概率论中基本事件空间拓展到幂集空间,通过定义的基本概率指派函数、似然函数等表达对信息的“不确定”和“不知道”,输出不确定的异常数据的证据。在不确定信息表达与融合中具有独特的优势,普遍被认为是概率论的延伸。为了表达更丰富的信息,本发明使用Dirichlet分布建模事件概率分布。
标准神经网络分类器的输出是对每个数据可能的类进行概率分配,而证据参数化的Dirichlet分布代表了每个这样的概率分布的密度,表示为:
Figure SMS_23
其中,
Figure SMS_24
属于标准K-1单纯形,/>
Figure SMS_29
是数据类别,/>
Figure SMS_32
表示一个未知量加和为1的无具体物理意义的集合,/>
Figure SMS_25
表示每类数据的Dirichlet分布参数,/>
Figure SMS_28
为第/>
Figure SMS_31
类数据的Dirichlet分布参数,/>
Figure SMS_34
为标准神经网络分类器的输出值,/>
Figure SMS_26
确保所有参数为非负性,通过/>
Figure SMS_27
的先验确保所有/>
Figure SMS_30
,保证Dirichlet分布有意义且为一个定值,/>
Figure SMS_33
是多元beta函数;
Figure SMS_35
类数据服从的概率分布/>
Figure SMS_36
可由Dirichlet边际分布确定:
Figure SMS_37
该概率分布的期望概率为:
Figure SMS_38
方差为:
Figure SMS_39
其中
Figure SMS_40
表示Dirichlet强度;
由于期望概率满足可加性,即
Figure SMS_41
在此时,引入不确定的概率
Figure SMS_42
,它满足
Figure SMS_43
其中
Figure SMS_44
是数据属于第/>
Figure SMS_45
类的预测概率值,即置信度。
Figure SMS_46
和/>
Figure SMS_47
可计算电气设备数据的不确定性/>
Figure SMS_48
Figure SMS_49
S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
为了保证建模准确率,使用损失函数
Figure SMS_50
,可正确对电气设备数据进行分类,最大程度减少数据分类的不确定性,抑制不相关证据的同时获得更多相关证据。
首先,分类损失
Figure SMS_53
,其中,/>
Figure SMS_56
是数据类别数量,/>
Figure SMS_59
和/>
Figure SMS_51
代表数据的第/>
Figure SMS_54
类和第/>
Figure SMS_57
类,/>
Figure SMS_60
是第/>
Figure SMS_52
类电气设备数据的one-hot类别真实值,/>
Figure SMS_55
与/>
Figure SMS_58
是标准神经网络分类器的输出值。该损失可以优化分类输出值和真实值的距离。
其次,证据损失
Figure SMS_61
学习相关证据,该损失函数由一个均方差损失和一个额外的方差项组成,/>
Figure SMS_62
和/>
Figure SMS_63
分别是证据网络不确定模型中的期望概率和方差。方差用于限制模型复杂性并提高鲁棒性。
最后一个损失是
Figure SMS_64
,其中/>
Figure SMS_65
是Kullback-Leibler散度。该项损失通过惩罚非相关的异常数据的证据,增大相关证据,以归一化预测分布。其中,/>
Figure SMS_66
表示去除相关证据后的Dirichlet参数。/>
Figure SMS_67
计算为
Figure SMS_68
Figure SMS_69
表示Dirichlet参数/>
Figure SMS_70
,即非相关证据为1时的Dirichlet分布。
当损失函数
Figure SMS_71
收敛,不确定性模型完成训练。可得到对应电气设备数据的信息不确定性度量。
S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据;
基于不确定性建模得到的各电气设备数据的不确定性度量值,可以作为数据是否可靠的证据。设置一个经验性阈值
Figure SMS_72
,筛选/>
Figure SMS_73
的数据,认为其为异常数据,并将异常数据删除。
对于数据量大、数据采集与标注过程复杂易错的电气设备数据集,经过本发明所述的一种基于不确定性的电气设备异常数据清洗方法进行处理后,能够实现对电气设备异常数据的识别,提高了后续电气系统预测的精度。
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施案例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.一种基于不确定性的电气设备异常数据清洗方法,其特征在于,包括以下步骤:
步骤S10、收集电气设备数据;
步骤S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
步骤S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
步骤S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。
2.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:电气设备数据包括GIS数据:放电峰值、放电幅值、相位、放电次数、压力、微水含量、温度,以及变压器数据:A相高压侧电压、A相低压侧电压、A相高压侧电流、A相低压侧电流、有功功率、无功功率、视在功率、接地电流、H2含量、CO含量。
3.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:在步骤S20中,利用Dirichlet分布建模事件概率分布,通过边缘分布表示每个数据特征出现的概率所服从的概率分布,对于概率期望满足可加性的特点,又引入不确定性,可解得每个数据特征出现概率的不确定性,即该数据为异常数据的概率。
4.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:所述步骤S30中,为了保证建模准确性,使用的损失函数为:
Figure QLYQS_1
其中,
Figure QLYQS_18
是分类损失,/>
Figure QLYQS_4
是数据类别数量,/>
Figure QLYQS_17
和/>
Figure QLYQS_8
代表数据的第
Figure QLYQS_10
类和第/>
Figure QLYQS_7
类,/>
Figure QLYQS_16
是第/>
Figure QLYQS_5
类电气设备数据的one-hot类别真实值,/>
Figure QLYQS_12
与/>
Figure QLYQS_2
是标准神经网络分类器的输出值;/>
Figure QLYQS_13
是证据损失,/>
Figure QLYQS_3
和/>
Figure QLYQS_15
分别是证据网络中的期望概率和方差;/>
Figure QLYQS_9
是/>
Figure QLYQS_14
损失,其中/>
Figure QLYQS_19
是Kullback-Leibler散度, />
Figure QLYQS_22
是Dirichlet分布,/>
Figure QLYQS_20
是去除相关证据后的Dirichlet参数,/>
Figure QLYQS_21
是一个未知量加和为1的无具体物理意义的集合,/>
Figure QLYQS_6
表示非相关证据参数/>
Figure QLYQS_11
,即非相关证据为1时的Dirichlet分布。
5.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:在步骤S40中,设置一个经验性阈值,根据模型输出的数据信息不确定性度量,将电气设备数据分割为正常数据和异常数据。
CN202310479279.5A 2023-04-28 2023-04-28 一种基于不确定性的电气设备异常数据清洗方法 Active CN116204844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310479279.5A CN116204844B (zh) 2023-04-28 2023-04-28 一种基于不确定性的电气设备异常数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310479279.5A CN116204844B (zh) 2023-04-28 2023-04-28 一种基于不确定性的电气设备异常数据清洗方法

Publications (2)

Publication Number Publication Date
CN116204844A true CN116204844A (zh) 2023-06-02
CN116204844B CN116204844B (zh) 2023-07-04

Family

ID=86509719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310479279.5A Active CN116204844B (zh) 2023-04-28 2023-04-28 一种基于不确定性的电气设备异常数据清洗方法

Country Status (1)

Country Link
CN (1) CN116204844B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108362510A (zh) * 2017-11-30 2018-08-03 中国航空综合技术研究所 一种基于证据神经网络模型的机械产品故障模式识别方法
CN108764520A (zh) * 2018-04-11 2018-11-06 杭州电子科技大学 一种基于多层循环神经网络和d-s证据理论的水质参数预测方法
WO2020087848A1 (zh) * 2018-11-01 2020-05-07 山东大学 一种基于Lora和Capsule的实时行为识别系统及其工作方法
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN113762335A (zh) * 2021-07-27 2021-12-07 北京交通大学 一种基于不确定性的智能系统测试数据生成方法
CN115223731A (zh) * 2022-07-15 2022-10-21 桂林理工大学 一种基于ds证据理论的药物相互作用预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108362510A (zh) * 2017-11-30 2018-08-03 中国航空综合技术研究所 一种基于证据神经网络模型的机械产品故障模式识别方法
CN108764520A (zh) * 2018-04-11 2018-11-06 杭州电子科技大学 一种基于多层循环神经网络和d-s证据理论的水质参数预测方法
WO2020087848A1 (zh) * 2018-11-01 2020-05-07 山东大学 一种基于Lora和Capsule的实时行为识别系统及其工作方法
CN113762335A (zh) * 2021-07-27 2021-12-07 北京交通大学 一种基于不确定性的智能系统测试数据生成方法
CN115223731A (zh) * 2022-07-15 2022-10-21 桂林理工大学 一种基于ds证据理论的药物相互作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张鸿儒: "基于数据信息挖掘的电力变压器故障诊断及健康评估", 中国博士学位论文全文数据库 工程科技Ⅱ辑, no. 02, pages 042 - 73 *
阎京妮;陶友瑞;刘江南;: "一种基于证据理论的可靠性设计方法", 机械科学与技术, no. 07, pages 47 - 51 *

Also Published As

Publication number Publication date
CN116204844B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110837866A (zh) 基于XGBoost的电力二次设备缺陷程度评估方法
CN116559598B (zh) 一种智慧配电网故障定位方法及系统
CN108304567B (zh) 高压变压器工况模式识别与数据分类方法及系统
CN112949715A (zh) 一种基于svm的轨道交通故障诊断方法
CN105426441B (zh) 一种时间序列自动预处理方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN110348683A (zh) 电能质量扰动事件主成因分析方法、装置设备及存储介质
CN113569462A (zh) 一种计及天气因素的配电网故障等级预测方法及系统
Ren et al. Online anomaly detection using machine learning and HPC for power system synchrophasor measurements
CN111781467A (zh) 一种基于多维全景数据的电网故障智能判别方法
Cook Automated classification of gust events in the contiguous USA
CN114819260A (zh) 一种水文时间序列预测模型动态生成方法
CN117932295A (zh) 多源数据融合的电网监控运行特征信息提取方法及系统
CN116204844B (zh) 一种基于不确定性的电气设备异常数据清洗方法
CN111737993A (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法
CN111506636A (zh) 一种基于自回归和近邻算法的居民用电行为分析的系统及方法
CN113869355B (zh) 一种基于XGBoost的人员危险性评估方法
CN115392710A (zh) 一种基于数据过滤的风电机组运行决策方法及系统
CN115658772A (zh) 一种无人机光伏巡检数据类资产管理方法及系统
CN115345163A (zh) 一种基于故障数据的外场质量分析方法及系统
CN113761914A (zh) 一种基于svm模型的互联网文本气象灾害事件识别方法
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant