CN115017143A - 一种智能化高压开关的数据清洗方法 - Google Patents

一种智能化高压开关的数据清洗方法 Download PDF

Info

Publication number
CN115017143A
CN115017143A CN202210585512.3A CN202210585512A CN115017143A CN 115017143 A CN115017143 A CN 115017143A CN 202210585512 A CN202210585512 A CN 202210585512A CN 115017143 A CN115017143 A CN 115017143A
Authority
CN
China
Prior art keywords
data
voltage switch
intelligent high
abnormal
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210585512.3A
Other languages
English (en)
Inventor
林翔宇
王晓明
苏毅
彭博雅
宋益
蒙宣任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority to CN202210585512.3A priority Critical patent/CN115017143A/zh
Publication of CN115017143A publication Critical patent/CN115017143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Keying Circuit Devices (AREA)

Abstract

本发明公开了一种智能化高压开关的数据清洗方法,涉及智能化高压开关数据采集领域技术领域,包括:检测智能化高压开关数据流中的异常数据,并将所述异常数据剔除;然后对剔除异常值之后对应位置产生的空值,以及检测的数据中本身存在的空值数据进行数据补全;再对智能化高压开关数据流进行数据平滑,通过数据平滑效剔除时间序列中的噪声数据和克服数据中的阶跃现象;结合数据平滑后的智能化高压开关数据构建智能化高压开关模型,通过智能化高压开关模型能够得到智能化高压开关各项指标的综合评估结果;而且在构建智能化高压开关模型时,采用数据包络处理,忽略小尺度时间维度上的微小波动,而保留大尺度时间维度上的整体变化趋势。

Description

一种智能化高压开关的数据清洗方法
技术领域
本发明属于智能化高压开关数据采集领域,尤其涉及一种智能化高压开关的数据清洗方法。
背景技术
高压开关是变电站中的重要设备,主要功能是开断线路、断开故障点,其运行状态直接决定电网的安全稳定。虽然传统高压开关设备的工作状态较为直观,易于检查及维护,但因设备检修频繁,故障率高,威胁着电网的安全运行。随着智能电网的发展,对高压开关设备有了新的要求,不但要具备长寿命、快速、准确开断线路的能力,还能时刻采集自身运行参数、判断各开关位置,并将数据通过SV、GOOSE网与间隔层、站控层设备相连,并执行上层系统传来的分合闸命令,为故障排查、运行维护和状态检修提供了极大便利。根据高压开关测量数字化的要求,需要将由密度传感器、电流互感器和电压互感器测量到的GIS气室压力、温度、SF6浓度、电流、电压等模拟状态量转化为数字信号,并通过光缆传输到上层网络进行逻辑判断。
由于各种数字信号的存在,因此智能化高压开关数据清洗是深度学习网络中一个极为重要的信息处理过程。数据清洗对异常检测制度的实施起到关键性影响作用。由于各项外界干预因素的存在,未进行高压开关数据清洗操作的异常捕获信息存在较强的不完整性与不一致性,这些信息参量被称为脏数据或错误数据,对后续自动捕获方法的执行具有较大影响,所以为了消除这些干扰性影响,高压开关数据清洗就显得非常必要。
数据清洗,也被称为数据清理技术,用于检测并消除数据中的错误和不一致之处,这是提高数据质量的重要方法之一。在智能化高压开关中,异常值是通过阈值进行检测的。但是,事实上,离群值不仅指超过某个阈值的观察值,而且还指与其相邻观察值相距较远的观察值。多种数据清洗技术都可以用来提高数据质量,例如异常检测法、缺失数据归因法、逻辑错误检测法、重复对象检测法和不一致检测等。因此,需要一种智能化高压开关的数据清洗方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种计算复杂度低、准确率高的智能化高压开关的数据清洗方法。
为实现上述目的,本发明提供了一种智能化高压开关的数据清洗方法,包括以下步骤:
检测智能化高压开关数据流中的异常数据,并将所述异常数据剔除;
对剔除异常值之后对应位置产生的空值,以及检测的数据中本身存在的空值数据进行数据补全;
对智能化高压开关数据流进行数据平滑,通过数据平滑效剔除时间序列中的噪声数据和克服数据中的阶跃现象;
在构建智能化高压开关模型时,采用数据包络处理,忽略小尺度时间维度上的微小波动,而保留大尺度时间维度上的整体变化趋势。
优选地,采用局部异常因子算法检测智能化高压开关数据流中的异常数据。
优选地,采用局部异常因子算法检测智能化高压开关数据流中的异常数据包括:
设置高压开关数据流中数据的阈值;
对所述高压开关数据流中的每个数据点计算局部异常因子,对所述局部异常因子判断是否大于阈值,当所述局部异常因子大于阈值时,则所述数据点的密度小于其所在领域点的密度,所述数据点为异常值;若局部异常因子接近于阈值,则所述数据点和邻域点密度接近,所述数据点为正常值;若局部异常因子小于阈值,则所述数据点高于其邻域点密度,所述数据点为密集点。
优选地,所述异常数据包括:丢失值、空值、超量程值和奇异值。
优选地,采用随机森林算法进行数据补全。
优选地,采用随机森林算法进行数据补全,包括:
对智能化高压开关数据剔除异常值之后的他缺失数据用线性插值进行处理,得到智能化高压开关数据矩阵;
统计智能化高压开关数据矩阵的缺失情况,遍历每日数据,从缺失最少的数据开始进行填补;
用训练集训练随机森林填补模型,训练标签为不含缺失部分的数据组成, 随机森林填补模型训练完成后,对验证集进行验证,从而填补缺失数据。
优选地,采用平滑分析法对智能化高压开关数据流进行数据平滑。
优选地,所述智能化高压开关模型采用CCR模型。
与现有的技术相比,本发明具有如下有益效果:
本发明所提供的智能化高压开关的数据清洗方法,首先检测智能化高压开关数据流中的异常数据,并将所述异常数据剔除;然后对剔除异常值之后对应位置产生的空值,以及检测的数据中本身存在的空值数据进行数据补全;再对智能化高压开关数据流进行数据平滑,通过数据平滑效剔除时间序列中的噪声数据和克服数据中的阶跃现象;结合数据平滑后的智能化高压开关数据构建智能化高压开关模型,通过智能化高压开关模型能够得到智能化高压开关各项指标的综合评估结果;而且在构建智能化高压开关模型时,采用数据包络处理,忽略小尺度时间维度上的微小波动,而保留大尺度时间维度上的整体变化趋势。本发明适用于智能化高压开关大数据应用场景,能够对智能化高压开关产生的数据进行快速有效的清洗,为后续数据挖掘和数据分析提供基础。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种智能化高压开关的数据清洗方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所提供的智能化高压开关的数据清洗方法包括:
步骤1、检测智能化高压开关数据流中的异常数据,并将所述异常数据剔除;所述智能化高压开关数据流包括:温度、湿度、SF6密度、刀闸角度等;所述异常数据包括:丢失值、空值、超量程值和奇异值;
具体的,采用局部异常因子算法检测智能化高压开关数据流中的异常数据,局部异常因子方法是一种基于密度的高精度离群点检测方法。算法通过给每个数据都分配一个依赖于邻域密度的离群因子,计算每个数据周围数据点的平均密度与该数据密度的比值,进而判断该数据是否为异常数据:若异常因子值远大于阈值,则该数据点为异常数据;若异常因子值接近于阈值,则该数据点为正常数据。
因此,采用局部异常因子算法检测智能化高压开关数据流中的异常数据包括:
设置高压开关数据流中数据的阈值;对所述高压开关数据流中的每个数据点计算局部异常因子,对所述局部异常因子判断是否大于阈值,当所述局部异常因子大于阈值时,则所述数据点的密度小于其所在领域点的密度,所述数据点为异常值;若局部异常因子接近于阈值,则所述数据点和邻域点密度接近,所述数据点为正常值;若局部异常因子小于阈值,则所述数据点高于其邻域点密度,所述数据点为密集点。
其中,阈值设置为1。
局部异常因子的思想主要是通过比较每个数据点和其邻域点的密度来判断该点是否为异常点,如果密度越低,越可能被认定是异常点。密度是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高。此外,由于密度是通过数据点的第k邻域进行计算,而不是全局计算,因此不会因为数据密度分散情况不同而错误的将正常点判定为异常点,具有较高的异常点检测精度,可用于智能化高压开关数据异常值的检测剔除。
步骤2、对剔除异常值之后对应位置产生的空值,以及检测的数据中本身存在的空值数据进行数据补全;
随机森林是一种集成算法,最终填补结果综合每棵决策树的结果,使得模型的填补结果具有较高精确度和泛化性能。因此,采用随机森林算法进行数据补全,对智能化高压开关缺失数据进行填补,综合提升智能化高压开关的数据质量。具体包括:
步骤21、对智能化高压开关数据剔除异常值之后的他缺失数据用线性插值进行处理,得到智能化高压开关数据矩阵;
步骤22、统计智能化高压开关数据矩阵的缺失情况,遍历每日数据,从缺失最少的数据开始进行填补;
步骤23、用训练集训练随机森林填补模型,训练标签为不含缺失部分的数据组成,随机森林填补模型训练完成后,对验证集进行验证,从而填补缺失数据;
步骤24、每完成一次随机森林填补,用填补后的数据更新智能化高压开关数据矩阵,再继续循环算法(步骤21-23),填补下一个含缺失值的数据;
步骤25、每次填补完毕,含缺失值的智能化高压开关数据也相应减少,所以需要用插值来处理的数据也越少,当进行到最后一个数据时,其它的数据已经不需要用线性插值进行处理,并且随机森立已经填补大量有效的信息,可以用来填补缺失最多的数据。最后,遍历完所有数据后,智能化高压开关数据矩阵不再含缺失值,数据填补完成。
步骤3、对智能化高压开关数据流进行数据平滑,通过数据平滑可以有效剔除时间序列中的噪声数据和克服数据中的阶跃现象;
数据平滑是剔除随机噪声、处理阶跃数据的重要方法。基于滤波系数等于跨度倒数的低通滤波器可以实现数据平滑,有效剔除时间序列中的噪声数据;而通过对阶跃数据段中的点进行逐个平滑,可以有效克服数据中的阶跃现象。
具体的,采用平滑分析法对智能化高压开关数据流进行数据平滑,平滑分析法也称为二次移动平均法或者二次指数平滑法,该理论同样假定事物遵循连续性发展的原则,以事物长期发展趋势变化率相似为基础进行趋势研究。包括:
1平滑分析法的预测模型参数主要靠经验判断来设定。
2平滑分析法预测模型中时间变量的值取决于建模时间点周期数在未来时间区间的时间表现值。
3平滑分析预测模型中参数对时间序列数据的对应关系采用的是远近加权原理,分析预测时能反映负荷变化的总体水平对于特殊时间点负荷的波动性反应性灵敏。
4随着时间的推移及时间序列数据的增加,平滑分析模型的参数在此过程中需要重新计算,但这些参数的计算与预测时间点的参数计算有关。
步骤4、结合数据平滑后的智能化高压开关数据构建智能化高压开关模型,通过智能化高压开关模型能够得到智能化高压开关各项指标的综合评估结果;
在构建智能化高压开关模型时,采用数据包络处理,忽略小尺度时间维度上的微小波动,而保留大尺度时间维度上的整体变化趋势。
具体的,智能化高压开关模型采用CCR模型。
数据包络分析是以“相对效率评估”为基础,利用线性规划对多投入和多产出决策单元(decision making units,DMU)的相对效率进行评估的一种方法。CCR模型应用于DMU处于固定规模报酬情形下,用来衡量总效率。固定规模报酬是所有DMU一起比较的效率评估。本申请采用DEA理论所求解的目标是确定各项指标的时序权重和指标权重,也就是说,需要对所有的分项指标决策单元(针对各项电能质量指标所建立的DMU)进行比较,以判断各个分项指标决策单元的相对重要程度,即确定各项指标间的相对重要程度。
为了充分体现智能化高压开关长期监测数据动态特性以及指标关联性对智能化高压开关综合评估的影响,便于时序权重和指标权重的求解,提高综合评估结果的可靠性,本专利对传统的DEA方法进行了改进。选取操作压力、工作电压、线圈电流、一次侧电源电流、SF6气体压力、SF6气体温度、分合闸线圈电流、储能电机电流、传动机构位移、隔离开关角度这10项指标,以各项指标长期监测数据中的最小值为输入,所有监测数据为输出,即以各项指标的最小值为基准,以获得最大的各项指标综合数据为目标,构建DMU1—DMU10共10个分项指标决策单元,每个分项指标决策单元仅有1种输入指标和m种输出指标。这样可以计算智能化高压开关各项指标的综合评估结果,通过比较筛选出最具代表性的指标为后续数据挖掘提供基础。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所揭露的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或变型,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种智能化高压开关的数据清洗方法,其特征在于,包括以下步骤:
检测智能化高压开关数据流中的异常数据,并将所述异常数据剔除;
对剔除异常值之后对应位置产生的空值,以及检测的数据中本身存在的空值数据进行数据补全;
对智能化高压开关数据流进行数据平滑,通过数据平滑效剔除时间序列中的噪声数据和克服数据中的阶跃现象;
结合数据平滑后的智能化高压开关数据构建智能化高压开关模型,通过智能化高压开关模型能够得到智能化高压开关各项指标的综合评估结果;
在构建智能化高压开关模型时,采用数据包络处理,忽略小尺度时间维度上的微小波动,而保留大尺度时间维度上的整体变化趋势。
2.根据权利要求1所述的智能化高压开关的数据清洗方法,其特征在于,采用局部异常因子算法检测智能化高压开关数据流中的异常数据。
3.根据权利要求2所述的智能化高压开关的数据清洗方法,其特征在于,采用局部异常因子算法检测智能化高压开关数据流中的异常数据包括:
设置高压开关数据流中数据的阈值;
对所述高压开关数据流中的每个数据点计算局部异常因子,对所述局部异常因子判断是否大于阈值,当所述局部异常因子大于阈值时,则所述数据点的密度小于其所在领域点的密度,所述数据点为异常值;若局部异常因子接近于阈值,则所述数据点和邻域点密度接近,所述数据点为正常值;若局部异常因子小于阈值,则所述数据点高于其邻域点密度,所述数据点为密集点。
4.根据权利要求1所述的智能化高压开关的数据清洗方法,其特征在于,所述异常数据包括:丢失值、空值、超量程值和奇异值。
5.根据权利要求1所述的智能化高压开关的数据清洗方法,其特征在于,采用随机森林算法进行数据补全。
6.根据权利要求5所述的智能化高压开关的数据清洗方法,其特征在于,采用随机森林算法进行数据补全,包括:
对智能化高压开关数据剔除异常值之后的他缺失数据用线性插值进行处理,得到智能化高压开关数据矩阵;
统计智能化高压开关数据矩阵的缺失情况,遍历每日数据,从缺失最少的数据开始进行填补;
用训练集训练随机森林填补模型,训练标签为不含缺失部分的数据组成, 随机森林填补模型训练完成后,对验证集进行验证,从而填补缺失数据。
7.根据权利要求1所述的智能化高压开关的数据清洗方法,其特征在于,采用平滑分析法对智能化高压开关数据流进行数据平滑。
8.根据权利要求1所述的智能化高压开关的数据清洗方法,其特征在于,所述智能化高压开关模型采用CCR模型。
CN202210585512.3A 2022-05-27 2022-05-27 一种智能化高压开关的数据清洗方法 Pending CN115017143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210585512.3A CN115017143A (zh) 2022-05-27 2022-05-27 一种智能化高压开关的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210585512.3A CN115017143A (zh) 2022-05-27 2022-05-27 一种智能化高压开关的数据清洗方法

Publications (1)

Publication Number Publication Date
CN115017143A true CN115017143A (zh) 2022-09-06

Family

ID=83071079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210585512.3A Pending CN115017143A (zh) 2022-05-27 2022-05-27 一种智能化高压开关的数据清洗方法

Country Status (1)

Country Link
CN (1) CN115017143A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法
CN116413395B (zh) * 2023-06-08 2023-08-25 山东瑞程数据科技有限公司 一种环境异常智能检测方法

Similar Documents

Publication Publication Date Title
CN112561736A (zh) 智能变电站继电器保护装置故障诊断系统和方法
CN111669123B (zh) 用于对光伏组串进行故障诊断的方法和装置
CN110210606A (zh) 一种基于bp神经网络的输电线路泄漏电流预测方法、系统及存储介质
CN105866638A (zh) 一种城网电缆接头绝缘状态在线监测预警装置及方法
CN112149877B (zh) 多元复杂城市电网多源数据驱动的故障预测方法及其系统
CN113988273A (zh) 基于深度学习的冰灾环境主动配电网态势预警及评估方法
CN105719094A (zh) 一种输电设备状态评估方法
CN113987908A (zh) 基于机器学习方法的天然气管网泄漏预警方法
CN114781476B (zh) 一种量测设备故障分析系统和方法
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN117406026A (zh) 一种适用于分布式电源的配电网故障检测方法
CN113036913A (zh) 一种综合能源设备状态监测方法及装置
CN112883634A (zh) 基于多维度分析的直流测量系统状态预测方法及系统
CN117560300B (zh) 一种智能物联网流量预测与优化系统
CN118226199B (zh) 一种用于电力输送的线缆故障检测系统
CN115017143A (zh) 一种智能化高压开关的数据清洗方法
CN117932501A (zh) 一种电能表运行状态管理方法和系统
CN115436864A (zh) 一种电容式电压互感器异常状态诊断方法、系统及介质
CN114895163A (zh) 一种基于电缆绝缘性能的电缆巡检定位装置及方法
CN117740072A (zh) 一种基于多传感器的水浸感应方法
CN103364669B (zh) Gis设备运行状态在线检测方法与系统
CN117148048A (zh) 基于数字孪生技术的配电网故障预测方法及系统
CN117407675A (zh) 基于多变量重构联合动态权重的避雷器泄漏电流预测方法
CN105652157B (zh) 基于行波电气量的配电网健康状态分析方法
CN116720983A (zh) 一种基于大数据分析的供电设备异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination