CN116204844A - 一种基于不确定性的电气设备异常数据清洗方法 - Google Patents
一种基于不确定性的电气设备异常数据清洗方法 Download PDFInfo
- Publication number
- CN116204844A CN116204844A CN202310479279.5A CN202310479279A CN116204844A CN 116204844 A CN116204844 A CN 116204844A CN 202310479279 A CN202310479279 A CN 202310479279A CN 116204844 A CN116204844 A CN 116204844A
- Authority
- CN
- China
- Prior art keywords
- data
- uncertainty
- electrical equipment
- probability
- evidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004140 cleaning Methods 0.000 title claims abstract description 13
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- SAPNXPWPAUFAJU-UHFFFAOYSA-N lofepramine Chemical compound C12=CC=CC=C2CCC2=CC=CC=C2N1CCCN(C)CC(=O)C1=CC=C(Cl)C=C1 SAPNXPWPAUFAJU-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于不确定性的电气设备异常数据清洗方法,包括收集电气设备数据;利用D‑S证据理论,对电气设备数据进行不确定性建模;电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。本发明通过构建不确定性模型,能够直接表达对电气设备数据的信息不确定性描述,解释每个异常数据的不确定性,具有完备的数学理论基础,可以有效地对电气设备异常数据进行清洗。
Description
技术领域
本发明设计一种基于不确定性的电气设备异常数据清洗方法,属于大数据清洗领域。
背景技术
随着社会经济的高速发展,电气系统成为国民经济发展的重要组成部分,各企业对电气设备的安全性、可靠性等要求也越来越高。随之而来的是,电气设备大数据井喷式爆发并呈现快速增长趋势,其中不仅包括了设备的基本参数信息,也涵盖业务数据、设备监测数据等。
目前电气设备的信息通常由设备运维人员现场填报或采用智能技术进行采集。传统的人工巡检采集工作量大,管理成本高,大部分油电气系统建立在气候与环境都非常恶劣的边远地区,这使得人工巡检的难度非常大,工作强度非常高,且如果没有及时巡检,有可能会造成严重事故。近些年来,虽然智能技术得到了广泛的研究与应用,减少了人工现场采集的工作量,但由于电气设备数据来源广泛且复杂、信息获取的难度大,以及硬件故障、输入错误、编程错误等一些意外原因时有发生,从而引入了大量低质量的异常数据簇和离群数据。
而在智能化构建电气设备数据集的过程中,通常会依赖人工进行分析诊断,如果异常数据大量出现,数据质量较差则会导致辨识度降低,使专家无法正确标注数据相应标签。更进一步的,会在构建分类器的时间、分类的准确性以及分类器大小等方面降低系统性能,也会增加学习所需的样本数量和相应模型的复杂性,极可能会破坏当前模型的评价体系。对于设备安全性、稳定性要求更高的电气系统来说,当前最重要的是如何从海量的电气设备数据中提取有价值的信息,剔除异常数据对分类器模型的影响,使构建精确的电气预测系统成为可能,这也是本发明的关键。
发明内容
为了解决上述提出的问题,本发明提供一种基于不确定性的电气设备异常数据清洗方法。本发明更深层次地考虑如何将影响电气设备数据间存在概率的多种因素相结合,以得到一个更加有效衡量数据相似性的指标,从而进一步提高预测的准确性。为此,在考虑数据概率分布的基础上,综合了影响数据相似性的不确定性因素,得到了一个新的电气设备数据准确性的综合度量指标——不确定性,又结合经验阈值,实现了对电气设备异常数据的识别,在保证执行效率的前提下提高电气系统预测的精度。
本发明所提出的一种基于不确定性的电气设备异常数据清洗方法具体步骤如下:
步骤S10、收集电气设备数据;
步骤S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
步骤S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
步骤S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。
进一步的技术方案是,所述数据包括GIS数据:放电峰值、放电幅值、相位、放电次数、压力、微水含量、温度,以及变压器数据:A相高压侧电压、A相低压侧电压、A相高压侧电流、A相低压侧电流、有功功率、无功功率、视在功率、接地电流、H2含量、CO含量。
进一步的技术方案是,所述步骤S20的具体过程为:利用Dirichlet分布建模事件概率分布,通过边缘分布表示每个数据特征出现的概率所服从的概率分布。对于概率期望满足可加性的特点,又引入不确定性,可解得每个数据特征出现概率的不确定性,即该数据为异常数据的概率。
进一步的技术方案是,所述步骤S30中的损失函数为:
其中,是分类损失,/>是数据类别数量,/>和/>代表数据的第/>类和第/>类,/>是第/>类电气设备数据的one-hot类别真实值,/>与/>是标准神经网络分类器的输出值;/>是证据损失,/>和/>分别是证据网络中的期望概率和方差;/>是/>损失,其中/>是Kullback-Leibler散度, />是Dirichlet分布,/>是去除相关证据后的Dirichlet参数,/>是一个未知量加和为1的无具体物理意义的集合,/>表示非相关证据参数/>,即非相关证据为1时的Dirichlet分布。
进一步的技术方案是,所述步骤S40的具体过程为:设置一个经验性阈值,根据模型输出的不确定性度量,将电气设备数据分割为正常数据和异常数据。
与现有技术相比,本发明的有益效果为:
本发明能够有效地对电气设备数据中的异常数据进行识别,并且给出模型决策的解释信息辅助现场人员排查数据问题;
本发明通过构建不确定性模型,具备将概率分配给多个目标对象的能力,能够直接表达对电气设备数据的不确定性描述,解释每个数据的不确定性,具有完备的数学理论基础;
本发明建立的数据模型,能够有效识别电气设备大量参数中的异常数据,降低甚至消除数据采集与标记过程中,异常数据对分类器模型的影响,有利于构建精确的电气预测系统;
本发明所采用的机器学习模型,具有异常数据识别敏感程度高的特点,非常适合数据来源广泛且复杂的电气设备平台。
附图说明
图1为本发明流程图。
具体实施方式
下面结合附图与实施案例对本发明做更进一步的说明,以使本发明的目的、技术方案及优点更加清楚明白。以图1为例,本发明的流程为采集数据、不确定性建模、获得不确定性度量、识别正常与异常数据、删除异常数据,具体包括以下步骤:
S10、收集电气设备数据(如表1所示);
表1
字段名 | 备注 |
PD_PEAK | 放电峰值 |
AMPLIT | 放电幅值 |
PHASE | 相位 |
TIMES | 放电次数 |
PRESSURE | 压力 |
MICRO_WATER | 微水含量 |
TEMPERA | 温度 |
VHVS_A | A相高压侧电压 |
VLVS_A | A相低压侧电压 |
CHVS_A | A相高压侧电流 |
CLVS_A | A相低压侧电流 |
ACTIVE | 有功功率 |
REACTIVE | 无功功率 |
APPARENT | 视在功率 |
CGCD | 接地电流 |
H2_PPM | H2含量 |
CO_PPM | CO含量 |
S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
D-S证据理论使用非精确概率对信息的不确定性进行建模,将概率论中基本事件空间拓展到幂集空间,通过定义的基本概率指派函数、似然函数等表达对信息的“不确定”和“不知道”,输出不确定的异常数据的证据。在不确定信息表达与融合中具有独特的优势,普遍被认为是概率论的延伸。为了表达更丰富的信息,本发明使用Dirichlet分布建模事件概率分布。
标准神经网络分类器的输出是对每个数据可能的类进行概率分配,而证据参数化的Dirichlet分布代表了每个这样的概率分布的密度,表示为:
其中,属于标准K-1单纯形,/>是数据类别,/>表示一个未知量加和为1的无具体物理意义的集合,/>表示每类数据的Dirichlet分布参数,/>为第/>类数据的Dirichlet分布参数,/>为标准神经网络分类器的输出值,/>确保所有参数为非负性,通过/>的先验确保所有/>,保证Dirichlet分布有意义且为一个定值,/>是多元beta函数;
该概率分布的期望概率为:
方差为:
由于期望概率满足可加性,即
S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
首先,分类损失,其中,/>是数据类别数量,/>和/>代表数据的第/>类和第/>类,/>是第/>类电气设备数据的one-hot类别真实值,/>与/>是标准神经网络分类器的输出值。该损失可以优化分类输出值和真实值的距离。
最后一个损失是,其中/>是Kullback-Leibler散度。该项损失通过惩罚非相关的异常数据的证据,增大相关证据,以归一化预测分布。其中,/>表示去除相关证据后的Dirichlet参数。/>计算为
S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据;
对于数据量大、数据采集与标注过程复杂易错的电气设备数据集,经过本发明所述的一种基于不确定性的电气设备异常数据清洗方法进行处理后,能够实现对电气设备异常数据的识别,提高了后续电气系统预测的精度。
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施案例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (5)
1.一种基于不确定性的电气设备异常数据清洗方法,其特征在于,包括以下步骤:
步骤S10、收集电气设备数据;
步骤S20、利用D-S证据理论,对电气设备数据进行不确定性建模;
步骤S30、电气设备不确定性模型训练结束,损失函数收敛,获得对应电气设备数据的信息不确定性度量;
步骤S40、根据不确定性度量,设置经验阈值,识别电气设备数据中的正常数据与异常数据。
2.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:电气设备数据包括GIS数据:放电峰值、放电幅值、相位、放电次数、压力、微水含量、温度,以及变压器数据:A相高压侧电压、A相低压侧电压、A相高压侧电流、A相低压侧电流、有功功率、无功功率、视在功率、接地电流、H2含量、CO含量。
3.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:在步骤S20中,利用Dirichlet分布建模事件概率分布,通过边缘分布表示每个数据特征出现的概率所服从的概率分布,对于概率期望满足可加性的特点,又引入不确定性,可解得每个数据特征出现概率的不确定性,即该数据为异常数据的概率。
4.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:所述步骤S30中,为了保证建模准确性,使用的损失函数为:
5.根据权利要求1所述的一种基于不确定性的电气设备异常数据清洗方法,其特征在于:在步骤S40中,设置一个经验性阈值,根据模型输出的数据信息不确定性度量,将电气设备数据分割为正常数据和异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310479279.5A CN116204844B (zh) | 2023-04-28 | 2023-04-28 | 一种基于不确定性的电气设备异常数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310479279.5A CN116204844B (zh) | 2023-04-28 | 2023-04-28 | 一种基于不确定性的电气设备异常数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116204844A true CN116204844A (zh) | 2023-06-02 |
CN116204844B CN116204844B (zh) | 2023-07-04 |
Family
ID=86509719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310479279.5A Active CN116204844B (zh) | 2023-04-28 | 2023-04-28 | 一种基于不确定性的电气设备异常数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204844B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108362510A (zh) * | 2017-11-30 | 2018-08-03 | 中国航空综合技术研究所 | 一种基于证据神经网络模型的机械产品故障模式识别方法 |
CN108764520A (zh) * | 2018-04-11 | 2018-11-06 | 杭州电子科技大学 | 一种基于多层循环神经网络和d-s证据理论的水质参数预测方法 |
WO2020087848A1 (zh) * | 2018-11-01 | 2020-05-07 | 山东大学 | 一种基于Lora和Capsule的实时行为识别系统及其工作方法 |
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN113762335A (zh) * | 2021-07-27 | 2021-12-07 | 北京交通大学 | 一种基于不确定性的智能系统测试数据生成方法 |
CN115223731A (zh) * | 2022-07-15 | 2022-10-21 | 桂林理工大学 | 一种基于ds证据理论的药物相互作用预测方法 |
-
2023
- 2023-04-28 CN CN202310479279.5A patent/CN116204844B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN108362510A (zh) * | 2017-11-30 | 2018-08-03 | 中国航空综合技术研究所 | 一种基于证据神经网络模型的机械产品故障模式识别方法 |
CN108764520A (zh) * | 2018-04-11 | 2018-11-06 | 杭州电子科技大学 | 一种基于多层循环神经网络和d-s证据理论的水质参数预测方法 |
WO2020087848A1 (zh) * | 2018-11-01 | 2020-05-07 | 山东大学 | 一种基于Lora和Capsule的实时行为识别系统及其工作方法 |
CN113762335A (zh) * | 2021-07-27 | 2021-12-07 | 北京交通大学 | 一种基于不确定性的智能系统测试数据生成方法 |
CN115223731A (zh) * | 2022-07-15 | 2022-10-21 | 桂林理工大学 | 一种基于ds证据理论的药物相互作用预测方法 |
Non-Patent Citations (2)
Title |
---|
张鸿儒: "基于数据信息挖掘的电力变压器故障诊断及健康评估", 中国博士学位论文全文数据库 工程科技Ⅱ辑, no. 02, pages 042 - 73 * |
阎京妮;陶友瑞;刘江南;: "一种基于证据理论的可靠性设计方法", 机械科学与技术, no. 07, pages 47 - 51 * |
Also Published As
Publication number | Publication date |
---|---|
CN116204844B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837866A (zh) | 基于XGBoost的电力二次设备缺陷程度评估方法 | |
CN116559598B (zh) | 一种智慧配电网故障定位方法及系统 | |
CN108304567B (zh) | 高压变压器工况模式识别与数据分类方法及系统 | |
CN112949715A (zh) | 一种基于svm的轨道交通故障诊断方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN115858794B (zh) | 用于网络运行安全监测的异常日志数据识别方法 | |
CN110348683A (zh) | 电能质量扰动事件主成因分析方法、装置设备及存储介质 | |
CN113569462A (zh) | 一种计及天气因素的配电网故障等级预测方法及系统 | |
Ren et al. | Online anomaly detection using machine learning and HPC for power system synchrophasor measurements | |
CN111781467A (zh) | 一种基于多维全景数据的电网故障智能判别方法 | |
Cook | Automated classification of gust events in the contiguous USA | |
CN114819260A (zh) | 一种水文时间序列预测模型动态生成方法 | |
CN117932295A (zh) | 多源数据融合的电网监控运行特征信息提取方法及系统 | |
CN116204844B (zh) | 一种基于不确定性的电气设备异常数据清洗方法 | |
CN111737993A (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN111209955A (zh) | 基于深度神经网络和随机森林的飞机电源系统故障识别方法 | |
CN116796894A (zh) | 一种高效深度学习气象预测模型的构建方法 | |
CN111506636A (zh) | 一种基于自回归和近邻算法的居民用电行为分析的系统及方法 | |
CN113869355B (zh) | 一种基于XGBoost的人员危险性评估方法 | |
CN115392710A (zh) | 一种基于数据过滤的风电机组运行决策方法及系统 | |
CN115658772A (zh) | 一种无人机光伏巡检数据类资产管理方法及系统 | |
CN115345163A (zh) | 一种基于故障数据的外场质量分析方法及系统 | |
CN113761914A (zh) | 一种基于svm模型的互联网文本气象灾害事件识别方法 | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |