CN115794795A - 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质 - Google Patents

一种配电台区用电数据规范化清洗方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN115794795A
CN115794795A CN202211570603.6A CN202211570603A CN115794795A CN 115794795 A CN115794795 A CN 115794795A CN 202211570603 A CN202211570603 A CN 202211570603A CN 115794795 A CN115794795 A CN 115794795A
Authority
CN
China
Prior art keywords
data
equipment
cleaning
attribute
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211570603.6A
Other languages
English (en)
Other versions
CN115794795B (zh
Inventor
何非
李静
包义雄
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Central China Technology Development Of Electric Power Co ltd
State Grid Hubei Electric Power Co Ltd
Original Assignee
Hubei Central China Technology Development Of Electric Power Co ltd
State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Central China Technology Development Of Electric Power Co ltd, State Grid Hubei Electric Power Co Ltd filed Critical Hubei Central China Technology Development Of Electric Power Co ltd
Priority to CN202211570603.6A priority Critical patent/CN115794795B/zh
Publication of CN115794795A publication Critical patent/CN115794795A/zh
Application granted granted Critical
Publication of CN115794795B publication Critical patent/CN115794795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种配电台区用电数据规范化清洗方法、装置、系统及存储介质,该方法包括:建立数据交互模型:选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;基于配置的规则集合,实现对设备用电数据的数据清洗。本发明采用物模型将用电数据结构化建模处理,建立设备的数据交互模型,并提出了一套规则化的数据清洗方案,可很好地改进数据质量,提高后续挖掘过程的准确率和效率。

Description

一种配电台区用电数据规范化清洗方法、装置、系统及存储 介质
技术领域
本发明涉及电子信息技术领域,,具体是一种配电台区用电数据规范化清洗方法、装置、系统及存储介质。
背景技术
配电网是供电末端,供电面积大,网络结构复杂,运维难度大,容易影响用户用电体验。因此,很有必要通过技术手段,进一步提高运维水平和供电服务质量。当前随着物联网技术的成熟,许多物联网设备开始在台区推广应用。台区智能融合终端已经开始批量部署,在台区侧已经具备了边缘计算和区域自治能力。物联网开关、多功能LTU等设备已经在现场应用,使得配电台区已经具备了一定的数据采集和处理能力。
虽然台区设备已经具备数据采集能力,但是如何使用数据,特别是将数据与日常运维紧急结合,还没有开展深入研究。因此,从配电台区数字化、智能化、透明化建设目标出发,结合配电网建设、运维、检修各环节实际需求,开展基于台区智能融合终端深化应用为目标的配电台区用电数据规范化清洗研究很有必要的。
业界一些实现数据清洗的方法主要包括填写缺失值,光滑噪声数据,识别或删除离群点等方法,这些方法各有利弊,适用于不同的场合。但面对复杂多变、结构多样化的用电数据,传统的数据清洗方法无法快速准确完成数据清洗工作。
发明内容
本发明的目的在于提供一种配电台区用电数据规范化清洗方法、装置、系统及存储介质,针对配电台区用电设备收集的数据特点,采用物模型将用电数据结构化建模处理,建立设备的数据交互模型,并提出了一套规则化的数据清洗方案,可很好地改进数据质量,提高后续挖掘过程的准确率和效率。
一种配电台区用电数据规范化清洗方法,包括如下步骤:
步骤一、建立数据交互模型:选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;
步骤二、根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;
步骤三、基于步骤二配置的规则集合,实现对设备用电数据的数据清洗。
进一步的,所述物模型的结构包括设备GUID及属性列表,设备GUID是全局唯一标识符,用于区分每一台设备;属性列表是该物模型具有的所有属性,每个属性包含四个标签,分别是属性名称、属性类型、属性数据和时间戳,分别用于表示该属性是什么、属性数据类型、属性数值详情以及该数据的记录时间。
进一步的,所述数据交互模型的工作方式是台区的数据中心负责存储物模型和具体数值,每一个设备通过接口获取数据中心中对应的物模型,设备将自身数据写入物模型相应的位置,最终返回给数据中心并进行持久化存储。
进一步的,所述数据中心与台区的数据交互遵循以下原则:
(1)在通信接口中属性数值全部采用string类型;
(2)数据按设备分类管理;
(3)数据按实时数据、冻结数据、事件、参数分类管理,每一类数据具有独立的、标准的调用接口;
(4)接口中的拓展数据或私有数据采用自定义格式,并用base64编码;
(5)数据中心接口采用MQTT+JSON方式;
(6)台区按设备进行管理,对于注册管理的用电设备分配GUID,每个设备以唯一的GUID编号进行区分,GUID编号是由现有算法生成的二进制长度为128位的数字标识符。
进一步的,步骤三具体包括如下步骤:
预处理阶段:负责数据收集与导入数据库;
阶段1,缺失数据清洗:先判断缺失比例,分析字段属性的重要性,根据设备获取的专有物模型,对接收到的数据进行结构化分析,看是否存在缺失属性,或属性值是否为空;将属性用重要性和缺失率两个特征来综合评估:对于不重要的属性,如果缺失率较低,不做处理或简单默认填充;如果缺失率较高,考虑去除该字段;对于重要的属性,如果缺失率较低,根据历史数据特征采用均值、极值或中值法进行填充,或根据业务经验估算补充;如果缺失率较高,通过渠道读取并补充完成,或根据其他属性计算求得;
阶段2,格式内容清洗:在电网设备监测中,包含时间日期格式是否统一,设备属性的属性值的类型、数据范围、单位是否合理,格式内容清洗通过具体的规则集批量地对数据样本进行筛选实现;
阶段3,逻辑错误清洗:逻辑错误包含去重、不合理数据去除、以及矛盾内容清除,数据去重是针对设备可能多次发送同一时间的数据造成数据冗余,不合理数据针对一些设备属性不合理取值造成,矛盾内容针对设备关联关系中,出现上层设备包含下层设备,而下层设备也包含上层设备的矛盾现象;
阶段4,非需求数据清洗:电网设备监测传输的状态信息包含各种业务不需要字段属性,包括设备生成时间、设备名称、类型型号,对这些字段属性进行删除;
阶段5,关联性验证:通过模型唯一编号来判断需要关联分析两个数据源是否是同一个设备以免数据冗余。
一种配电台区用电数据规范化清洗装置,包括:
数据交互模型建立模块,用于建立数据交互模型,选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;
清洗规则构建模块,用于根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;
数据清洗模模块,用于基于清洗规则构建模块配置的规则集合,实现对设备用电数据的数据清洗。
进一步的,所述物模型的结构包括设备GUID及属性列表,设备GUID是全局唯一标识符,用于区分每一台设备;属性列表是该物模型具有的所有属性,每个属性包含四个标签,分别是属性名称、属性类型、属性数据和时间戳,分别用于表示该属性是什么、属性数据类型、属性数值详情以及该数据的记录时间。
所述数据清洗模模块基于清洗规则构建模块配置的规则集合,实现对设备用电数据的数据清洗,具体包括:
预处理阶段:负责数据收集与导入数据库;
阶段1,缺失数据清洗:先判断缺失比例,分析字段属性的重要性,根据设备获取的专有物模型,对接收到的数据进行结构化分析,看是否存在缺失属性,或属性值是否为空;将属性用重要性和缺失率两个特征来综合评估:对于不重要的属性,如果缺失率较低,不做处理或简单默认填充;如果缺失率较高,考虑去除该字段;对于重要的属性,如果缺失率较低,根据历史数据特征采用均值、极值或中值法进行填充,或根据业务经验估算补充;如果缺失率较高,通过渠道读取并补充完成,或根据其他属性计算求得;
阶段2,格式内容清洗:在电网设备监测中,包含时间日期格式是否统一,设备属性的属性值的类型、数据范围、单位是否合理,格式内容清洗通过具体的规则集批量地对数据样本进行筛选实现;
阶段3,逻辑错误清洗:逻辑错误包含去重、不合理数据去除、以及矛盾内容清除,数据去重是针对设备可能多次发送同一时间的数据造成数据冗余,不合理数据针对一些设备属性不合理取值造成,矛盾内容针对设备关联关系中,出现上层设备包含下层设备,而下层设备也包含上层设备的矛盾现象;
阶段4,非需求数据清洗:电网设备监测传输的状态信息包含各种业务不需要字段属性,包括设备生成时间、设备名称、类型型号,对这些字段属性进行删除;
阶段5,关联性验证:通过模型唯一编号来判断需要关联分析两个数据源是否是同一个设备以免数据冗余。
一种配电台区用电数据规范化清洗系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的配电台区用电数据规范化清洗方法。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的配电台区用电数据规范化清洗方法。
本发明通过对低压配电设备的深入调研分析,建立数据数据模型,开展数据处理、规则化数据清洗等技术研究,从而实现采集数据与运维业务的深度融合,完成配电台区用电数据分析与辨识,能够很好的指导现场运维高效开展;本发明针对电网设备数据特点提出定制化的的数据分析与清洗算法,数据清洗方案根据数据来自多设备,海量,冗杂等特点,进行基于规则和关联性验证的清,可有效地提升海量用电数据的易用性,提高数据质量,加强系统健壮性,降低下游分析、预测任务的成本。
附图说明
图1是本发明实施例一种配电台区用电数据规范化清洗方法的流程示意图;
图2是本发明物模型的示意图;
图3是数据交互模型的示意图,其中(a)为物模型具体示例,(b)为接口列表;
图4是台区设备数据存储过程示意图;
图5是数据清洗算法流程示意图;
图6是缺失数据清洗策略示意图;
图7是数据交互模型实现示意图;
图8是本发明实施例数据中台示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种配电台区用电数据规范化清洗方法,从“模型建立,规则建立,数据清洗”三个方面来实现此方案,具体包括如下步骤:
步骤一、建立数据交互模型,选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现了设备模型到数据库的映射。
将低压配电设备抽象成物模型。物模型的结构如图2所示,包括设备GUID及属性列表。GUID是全局唯一标识符,可根据现有算法快速生成,用于区分每一台设备,属性列表是该物模型具有的所有属性,每个属性包含四个标签,分别是属性名称、属性类型、属性数据和时间戳,分别用于表示该属性是什么、属性数据类型(实时数据或冻结数据)、属性数值详情以及该数据的记录时间。每一类物模型会有各自的属性列表。
具体的,将低压配电设备的用电数据分为遥测数据、遥信数据、事件数据。遥测数据由实时数据和冻结数据组成,分钟冻结、小时冻结、日冻结、月冻结等都属于冻结数据,遥测数据类型多样,多用float、int等类型表示;遥信数据是一种状态,反应设备在某时间点上状态信息,数据类型为bool;事件数据是一种记录型数据,表示某时间点设备生的异常状况,事件数据信息含量大,一般为struct结构体表述。对于设备的数据交互模型,以设备的GUID进行管理,分别对遥测数据、遥信数据等数据进行存储,通过模型接口处理不同模型的交互,如图3所示。
图3的(a)中,以电能表为例,电能表物模型包含自身设备GUID和属性列表,属性列表中含有A、B、C相电压等属性的数值记录。(b)是接口列表,包括电能表物模型接口、漏保物模型接口、温度物模型接口和交采物模型接口。接口的作用是供具体的低压配电设备调用某一模型接口,获得相关的属性列表和相关的数据清洗方法。
综合上述分析,设备数据由数据名称、数据值、单位、数据类型、数据时间、冻结类型几部分组成,并且定位了设备的唯一数据量。例如:电能表,A相电压、220.0V、float数据类型、xxxx年xx月xx日xx分xx秒xx毫秒,曲线冻结,这样能够确认数据的唯一性;再例如:电能表,失压事件、失压时的各种状态、数据类型为struct结构体、产生时间xxxx-xx-xx xx:xx:xx、事件记录。
数据交互模型的工作方式如图4所示。台区的数据中心负责存储物模型和具体数值。每一个设备通过接口获取数据中心中对应的物模型,设备将自身数据写入物模型相应的位置,最终返回给数据中心并进行持久化存储。
数据中心与台区的数据交互遵循以下原则:
(1)在通信接口中属性数值全部采用string类型;
(2)数据按设备(包括物理设备、虚拟设备)分类管理;
(3)数据按实时数据、冻结数据、事件、参数分类管理,每一类数据具有独立的、标准的调用接口;
(4)接口中的拓展数据或私有数据采用自定义格式,并用base64编码;
(5)数据中心接口采用MQTT+JSON方式。
(6)台区按设备进行管理,对于注册管理的用电设备分配GUID,每个设备以唯一的GUID编号进行区分。GUID编号是由现有算法生成的二进制长度为128位的数字标识符。
台区设备信息以表1所示的方式存储到终端中:
表1
Figure BDA0003987887490000071
步骤二、根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则。在运行过程中,获取某一低压配电设备的物模型和属性列表,将选定的规则集合配置到数据清洗算法中,进行基于结构化数据的规则清洗;
步骤三、基于步骤二配置的规则集合,实现对设备用电数据的数据清洗。
智能电网设备监测数据量通常是庞大的,每个时刻每个设备都在不停的产生数据,对于大量复杂时间序列数据,需要经过分析处理供应用功能使用。数据分析处理前的第一步就是对数据进行清洗。如图5所示,本发明采用数据清洗过程如下:
预处理阶段:主要负责数据收集与导入数据库。在电网设备中,各种设备存在关联关系,它们的关联关系数据可以使用一般的关系型数据库进行存储,需要对设备进行状态监测,各个设备的属性可能不一,且设备属性需要记录每个时刻的属性值,不宜使用传统的关系型数据库,而更适用时序数据库。
阶段1,缺失数据清洗:通常先判断缺失比例,分析字段属性的重要性。根据设备获取的专有物模型,对接收到的数据进行结构化分析,看是否存在缺失属性,或属性值是否为空。缺失率是指设备在过去一段时间接收到的报文总数中,某一属性字段缺失的概率。针对缺失数据的清洗策略如图6所示。将属性用重要性和缺失率两个特征来综合评估。对于不重要的属性,如果缺失率较低,不做处理或简单默认填充;如果缺失率较高,可考虑去除该字段,即在之后的分析中不再使用该字段。对于重要的属性,如果缺失率较低,可根据历史数据特征,采用均值、极值或中值法进行填充,或根据业务经验估算补充;如果缺失率较高,需要尝试通过渠道读取并补充完成,或根据其他属性计算求得,如果前两种方法不可行,则考虑去除该字段暂时不做分析,并在结果中标明。
阶段2,格式内容清洗:在电网设备监测中,主要包含时间日期格式是否统一,设备属性的属性值的类型,数据范围,单位是否合理。格式内容清洗一般通过具体的规则集批量地对数据样本进行筛选实现。
阶段3,逻辑错误清洗:逻辑错误主要包含数据去重,不合理数据去除,矛盾内容清除。数据去重主要是针对设备可能多次发送同一时间的数据造成数据冗余。不合理数据针对一些设备属性不合理取值造成。在电网项目中,设备不合理数据可能包含着设备故障等情形,所以针对不合理数据,不能简单修改数据,需要结合后续数据挖掘算法分析设备故障。矛盾内容针对比如在设备关联关系中,出现上层设备包含下层设备,而下层设备也包含上层设备这样的矛盾现象。
阶段4,非需求数据清洗:电网设备监测传输的状态信息可能包含各种业务不需要字段属性,比如设备生成时间,设备名称,类型型号,这样属性可能在后续业务中不需要,那么可以删除这些字段属性。
阶段5,关联性验证:如果数据有多个来源,那么有必要进行关联性验证。在电网设备中不免出现同一设备被两个监测设备监测并实时传输监测数据,那么需要关联分析两个数据源是否是同一个设备以免数据冗余。由于用电数据已按设备进行建模,可直接通过模型唯一编号来进行区分。
本发明能够对台区接收到的电表数据进行检查清洗,从而降低电网数据云平台接收处理大数据的压力,提高数据的处理分析速度,从而提高系统整体的健壮性。
下面通过一个具体实例,即基于本发明开发的基于MQTT协议进行数据交互的电网设备管理系统对本发明的方案进行详细说明:
(1)台区交流采集应用
在终端内部,基于MQTT协议编写终端运行的C语言程序,设计实现交采App。交采App从下游的边缘用电设备实时接收用电数据,将其归类整理,按设备类型组织成数据模型。数据模型将设备的数据分为数据,配置和运行参数等部分,以结构体的方式储存。将具体设备的数据模型和设备类型的数据模型关联起来,如图7所示。
(2)数据中台
云主站接受来自台区的用电数据,在数据中台进行数据存储,数据解析,数据清洗和数据交互等工作。云主站通过MQTT Broker接受到数据消息,并通过MQTT客户端发送到数据中台。数据中台将数据消息解析为结构化的模型数据,对其进行规则化的数据清洗,存在在目标数据库中。对于台区的物模型数据,按其类型分为时序数据和冻结数据,分别存储在时序数据库和关系数据库中。用InfluxDB存储时序数据,用MySQL存储属性值等关系数据。其中需要进行清洗的主要数据例如时序数据中的缺失值,冻结数据中的逻辑错误值,时间戳信息的格式统一化等等。数据中台的结构图如图8所示。
本发明实施例还提供一种配电台区用电数据规范化清洗装置,包括:
数据交互模型建立模块,用于建立数据交互模型,选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;
清洗规则构建模块,用于根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;
数据清洗模模块,用于基于清洗规则构建模块配置的规则集合,实现对设备用电数据的数据清洗。
本发明通过研究低压台区智能设备的规范化数据交互方案,使得台区内智能设备与智能融合终端的数据交汇更加规范、便捷、可追溯,支撑数字化配电网建设。对于智能电网产生的大量结构多样、来源复杂的数据,随着数据维度的提高带来对于客观现象更加丰富细致的信息,但同时也给随后的数据处理工作带来前所未有的困难。拟研究面向运维业务的低压台区数据清洗算法,利用规则化数据清洗方案,对于设备输入的大量复杂时间序列数据,经过分析处理供应用功能使用。
本发明另一方面提供了一种配电台区用电数据规范化清洗系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的配电台区用电数据规范化清洗方法。
本发明另一方面提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述的配电台区用电数据规范化清洗方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种配电台区用电数据规范化清洗方法,其特征在于:包括如下步骤:
步骤一、建立数据交互模型:选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;
步骤二、根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;
步骤三、基于步骤二配置的规则集合,实现对设备用电数据的数据清洗。
2.如权利要求1所述的配电台区用电数据规范化清洗方法,其特征在于:所述物模型的结构包括设备GUID及属性列表,设备GUID是全局唯一标识符,用于区分每一台设备;属性列表是该物模型具有的所有属性,每个属性包含四个标签,分别是属性名称、属性类型、属性数据和时间戳,分别用于表示该属性是什么、属性数据类型、属性数值详情以及该数据的记录时间。
3.如权利要求1所述的配电台区用电数据规范化清洗方法,其特征在于:所述数据交互模型的工作方式是台区的数据中心负责存储物模型和具体数值,每一个设备通过接口获取数据中心中对应的物模型,设备将自身数据写入物模型相应的位置,最终返回给数据中心并进行持久化存储。
4.如权利要求3所述的配电台区用电数据规范化清洗方法,其特征在于:所述数据中心与台区的数据交互遵循以下原则:
(1)在通信接口中属性数值全部采用string类型;
(2)数据按设备分类管理;
(3)数据按实时数据、冻结数据、事件、参数分类管理,每一类数据具有独立的、标准的调用接口;
(4)接口中的拓展数据或私有数据采用自定义格式,并用base64编码;
(5)数据中心接口采用MQTT+JSON方式;
(6)台区按设备进行管理,对于注册管理的用电设备分配GUID,每个设备以唯一的GUID编号进行区分,GUID编号是由现有算法生成的二进制长度为128位的数字标识符。
5.如权利要求1所述的配电台区用电数据规范化清洗方法,其特征在于:步骤三具体包括如下步骤:
预处理阶段:负责数据收集与导入数据库;
阶段1,缺失数据清洗:先判断缺失比例,分析字段属性的重要性,根据设备获取的专有物模型,对接收到的数据进行结构化分析,看是否存在缺失属性,或属性值是否为空;将属性用重要性和缺失率两个特征来综合评估:对于不重要的属性,如果缺失率较低,不做处理或简单默认填充;如果缺失率较高,考虑去除该字段;对于重要的属性,如果缺失率较低,根据历史数据特征采用均值、极值或中值法进行填充,或根据业务经验估算补充;如果缺失率较高,通过渠道读取并补充完成,或根据其他属性计算求得;
阶段2,格式内容清洗:在电网设备监测中,包含时间日期格式是否统一,设备属性的属性值的类型、数据范围、单位是否合理,格式内容清洗通过具体的规则集批量地对数据样本进行筛选实现;
阶段3,逻辑错误清洗:逻辑错误包含去重、不合理数据去除、以及矛盾内容清除,数据去重是针对设备可能多次发送同一时间的数据造成数据冗余,不合理数据针对一些设备属性不合理取值造成,矛盾内容针对设备关联关系中,出现上层设备包含下层设备,而下层设备也包含上层设备的矛盾现象;
阶段4,非需求数据清洗:电网设备监测传输的状态信息包含各种业务不需要字段属性,包括设备生成时间、设备名称、类型型号,对这些字段属性进行删除;
阶段5,关联性验证:通过模型唯一编号来判断需要关联分析两个数据源是否是同一个设备以免数据冗余。
6.一种配电台区用电数据规范化清洗装置,其特征在于,包括:
数据交互模型建立模块,用于建立数据交互模型,选定一类低压配电设备,在变量命名表中选出该类低压配电设备能够采集的全部变量,即构成该类设备的设备模型表,将设备模型表初始化为数据库表,即实现设备模型到数据库的映射,将低压配电设备抽象成物模型;
清洗规则构建模块,用于根据数据特点和业务需求,针对不同的物模型以及物模型中不同的属性特点,定制数据清洗方案中的清洗规则;
数据清洗模模块,用于基于清洗规则构建模块配置的规则集合,实现对设备用电数据的数据清洗。
7.如权利要求6所述的配电台区用电数据规范化清洗装置,其特征在于:所述物模型的结构包括设备GUID及属性列表,设备GUID是全局唯一标识符,用于区分每一台设备;属性列表是该物模型具有的所有属性,每个属性包含四个标签,分别是属性名称、属性类型、属性数据和时间戳,分别用于表示该属性是什么、属性数据类型、属性数值详情以及该数据的记录时间。
8.如权利要求6所述的配电台区用电数据规范化清洗装置,其特征在于:所述数据清洗模模块基于清洗规则构建模块配置的规则集合,实现对设备用电数据的数据清洗,具体包括:
预处理阶段:负责数据收集与导入数据库;
阶段1,缺失数据清洗:先判断缺失比例,分析字段属性的重要性,根据设备获取的专有物模型,对接收到的数据进行结构化分析,看是否存在缺失属性,或属性值是否为空;将属性用重要性和缺失率两个特征来综合评估:对于不重要的属性,如果缺失率较低,不做处理或简单默认填充;如果缺失率较高,考虑去除该字段;对于重要的属性,如果缺失率较低,根据历史数据特征采用均值、极值或中值法进行填充,或根据业务经验估算补充;如果缺失率较高,通过渠道读取并补充完成,或根据其他属性计算求得;
阶段2,格式内容清洗:在电网设备监测中,包含时间日期格式是否统一,设备属性的属性值的类型、数据范围、单位是否合理,格式内容清洗通过具体的规则集批量地对数据样本进行筛选实现;
阶段3,逻辑错误清洗:逻辑错误包含去重、不合理数据去除、以及矛盾内容清除,数据去重是针对设备可能多次发送同一时间的数据造成数据冗余,不合理数据针对一些设备属性不合理取值造成,矛盾内容针对设备关联关系中,出现上层设备包含下层设备,而下层设备也包含上层设备的矛盾现象;
阶段4,非需求数据清洗:电网设备监测传输的状态信息包含各种业务不需要字段属性,包括设备生成时间、设备名称、类型型号,对这些字段属性进行删除;
阶段5,关联性验证:通过模型唯一编号来判断需要关联分析两个数据源是否是同一个设备以免数据冗余。
9.一种配电台区用电数据规范化清洗系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1-5中任一项所述的配电台区用电数据规范化清洗方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-5中任一项所述的配电台区用电数据规范化清洗方法。
CN202211570603.6A 2022-12-08 2022-12-08 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质 Active CN115794795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211570603.6A CN115794795B (zh) 2022-12-08 2022-12-08 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211570603.6A CN115794795B (zh) 2022-12-08 2022-12-08 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115794795A true CN115794795A (zh) 2023-03-14
CN115794795B CN115794795B (zh) 2023-09-22

Family

ID=85417894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211570603.6A Active CN115794795B (zh) 2022-12-08 2022-12-08 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115794795B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131464A (zh) * 2023-10-25 2023-11-28 湖北华中电力科技开发有限责任公司 一种电网数据的可用性评估方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016110920A1 (ja) * 2015-01-06 2016-07-14 日本電気株式会社 電力識別装置、電力識別方法および電力識別プログラムが格納された非一時的なコンピュータ可読媒体
CN106528880A (zh) * 2016-12-14 2017-03-22 云南电网有限责任公司电力科学研究院 一种多源电力业务数据的数据结构格式的规整方法和系统
EP3575980A2 (en) * 2018-05-29 2019-12-04 Accenture Global Solutions Limited Intelligent data quality
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CA3177209A1 (en) * 2019-04-17 2020-10-22 10353744 Canada Ltd. Data cleaning method
CN112765143A (zh) * 2021-01-20 2021-05-07 国网山东省电力公司电力科学研究院 一种基于边缘计算技术的低压物联网配网数据处理方法
LU500416A1 (de) * 2020-04-29 2021-10-29 Shenzhen Shuanghe Electric Co Ltd Ein intelligentes Datenerfassungs- und -verarbeitungssystem für das Stromversorgungs- und Verteilungsnetz basierend auf dem intelligenten Fabrikrahmen

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016110920A1 (ja) * 2015-01-06 2016-07-14 日本電気株式会社 電力識別装置、電力識別方法および電力識別プログラムが格納された非一時的なコンピュータ可読媒体
CN106528880A (zh) * 2016-12-14 2017-03-22 云南电网有限责任公司电力科学研究院 一种多源电力业务数据的数据结构格式的规整方法和系统
EP3575980A2 (en) * 2018-05-29 2019-12-04 Accenture Global Solutions Limited Intelligent data quality
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CA3177209A1 (en) * 2019-04-17 2020-10-22 10353744 Canada Ltd. Data cleaning method
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统
LU500416A1 (de) * 2020-04-29 2021-10-29 Shenzhen Shuanghe Electric Co Ltd Ein intelligentes Datenerfassungs- und -verarbeitungssystem für das Stromversorgungs- und Verteilungsnetz basierend auf dem intelligenten Fabrikrahmen
CN112765143A (zh) * 2021-01-20 2021-05-07 国网山东省电力公司电力科学研究院 一种基于边缘计算技术的低压物联网配网数据处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏延秋等: "一种基于风功率曲线的SCADA数据清洗方法研究", 可再生能源, pages 1499 - 1504 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131464A (zh) * 2023-10-25 2023-11-28 湖北华中电力科技开发有限责任公司 一种电网数据的可用性评估方法及系统
CN117131464B (zh) * 2023-10-25 2024-01-09 湖北华中电力科技开发有限责任公司 一种电网数据的可用性评估方法及系统

Also Published As

Publication number Publication date
CN115794795B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN107402976A (zh) 一种基于多元异构模型的电网多源数据融合方法及系统
CN113381890B (zh) 告警信息关联方法、装置、电子设备和可读存储介质
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN107730394A (zh) 基于大数据的全景电网多元异构数据融合方法
CN112462696A (zh) 一种智能制造车间数字孪生模型构建方法与系统
CN104318481A (zh) 一种面向电网运行的全息时标量测数据萃取转换方法
CN108876019A (zh) 一种基于大数据的用电负荷预测方法及系统
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN112182077B (zh) 一种基于数据中台技术的智能运维系统
CN115794795B (zh) 一种配电台区用电数据规范化清洗方法、装置、系统及存储介质
CN110210980A (zh) 一种驾驶行为评估方法、装置和存储介质
CN115238959A (zh) 一种面向用户侧能源综合利用的数字孪生系统和方法
CN115828390A (zh) 一种面向水利水电工程安全监测的四预功能实现方法
CN114756563A (zh) 一种互联网多种复杂业务线并存的数据治理系统
CN112488502A (zh) 一种标准的水资源管理一体化管控平台
CN113793505A (zh) 一种知识驱动的云边协同交通数据采集方法及系统
CN115600824A (zh) 一种碳排放的预警方法及装置、存储介质、电子设备
CN117056867A (zh) 一种可用于数字孪生的多源异构数据融合方法及系统
CN111368450A (zh) 一种基于bim的输变电工程用gim数字模型建模方法
CN114722565A (zh) 一种元宇宙数字孪生系统
CN112836370A (zh) 供热系统调度方法、装置、设备、存储介质以及程序产品
CN112258015A (zh) 一种基于云数据分析的实验室管理预警系统及其预警方法
CN110647070A (zh) 一种用于超大规模数据中心的动力环境监控系统
KR101545998B1 (ko) 유출-수리모형 데이터 통합 관리 방법 및 그 시스템
CN115310923A (zh) 能源管理服务系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant