CN112347071B

CN112347071B - 一种配电网云平台数据融合方法及配电网云平台

Info

Publication number: CN112347071B
Application number: CN202011409474.3A
Authority: CN
Inventors: 刘洋; 李立生; 孙勇; 张世栋; 张林利; 刘合金; 王峰; 苏国强; 李帅; 张鹏平; 由新红; 黄敏
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-12-06
Filing date: 2020-12-06
Publication date: 2023-04-07
Anticipated expiration: 2040-12-06
Also published as: CN112347071A

Abstract

一种配电网云平台数据融合方法及配电网云平台，方法包括以下步骤：步骤1，将配电网数据接入配电网云平台，按照统一数据规范进行标准化格式存储，存储在分布式关系型数据库、分布式非关系型数据库和分布式文件系统中；步骤2，筛选出已接收的配电网数据中不符合要求的数据，进行数据清洗；步骤3，对步骤2已数据清洗的配电网数据进行不一致数据转换和数据粒度转换；步骤4，将步骤3中已数据转换的配电网数据构建为映射表，进行数据融合；步骤5，利用融合后的数据构建数据模型，形成数据中台，供后续系统及服务调用。本发明能够提高融合效率和正确性，使得融合结果能够支撑上层相关数据分析应用的准确性，最终提升配网运行大数据的应用效率。

Description

一种配电网云平台数据融合方法及配电网云平台

技术领域

本发明属于配电网自动化技术领域，更具体地，涉及一种配电网云平台数据融合方法及配电网云平台。

背景技术

随着全国大电网的互连，信息的复杂性和层次性问题越发突出，对不同来源信息的处理显得非常重要。

一方面，配电网系统电气设备种类繁多、结构各异，其在线状态监测项目各有不同。由于不同电气设备在线监测的项目不同，会采用不同形式的传感器，因此采用两个或两个以上传感器进行在线测量的方式将得到更广泛的应用，而对多个传感器采集数据的处理将涉及到信息融合的问题。随着智能配电站、配电自动化的推广，面对日益增大的采集数据，信息融合及校核技术是提高准确率、提升效率的关键。

另一方面，配电系统涉及到的异构信息来源众多，包括配电管理系统(DMS)、PMS、营销系统(CM)、计量与负荷管理系统(MS)、工作管理系统(WMS)、CIS以及配电SCADA系统等，由于没有统一、严格的配电网模型描述标准，系统间的设备信息及字段格式都不同，可能存在同一个设备在不同的系统中命名、编号等信息都不同或者信息类型及数量不一致的情况。

由于各系统间的信息不一致，且信息存储的方式存在区别，不便进行统一处理，因此在进行配电网数据融合时，无法实现各设备、各系统间配电网数据的有效融合，融合效率不高，融合后的结果也不尽如人意，难以保证完整性、一致性和正确性，无法为后续系统或服务提供有力的数据支撑。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种配电网云平台数据融合方法，其用于对配电自动化系统中的配电网模型数据进行数据融合，本方法通过对各系统间的数据进行清洗、转换，融合后构建统一的数据模型，提高融合效率和正确性，使得融合结果能够支撑上层相关数据分析应用的准确性，最终提升配网运行大数据的应用效率。

本发明采用如下的技术方案。一种配电网云平台数据融合方法，包括以下步骤：

步骤1，将配电网数据接入配电网云平台，按照统一数据规范进行标准化格式存储，存储在分布式关系型数据库、分布式非关系型数据库和分布式文件系统中；

步骤2，筛选出步骤1已接收的配电网数据中不符合要求的数据，进行数据清洗；

步骤3，对步骤2已数据清洗的配电网数据进行不一致数据转换和数据粒度转换；

步骤4，将步骤3中已数据转换的配电网数据构建为映射表，进行数据融合；

步骤5，利用融合后的数据构建数据模型，形成数据中台，供后续系统及服务调用。

优选地，步骤1中，对于配电网数据中的实时数据，使用基于Kafka分布式消息队列的数据通道接入配电网云平台，在数据抽取过程中，通过定义消息描述信息的方式设置数据抽取的主题，生产者向主题写入数据，消费者从主题读取数据，通过Hadoop的并行加载机制统一线上和离线的消息处理让数据存入Hadoop集群。

优选地，步骤1中，对于配电网数据中的结构化数据，通过Sqoop工具，分割成多个数据集并创建Hadoop任务来并行处理每个区域，写入配电网云平台的分布式关系型数据库。

优选地，在导入开始之前，使用JDBC来检查需要导入的表，检索出表中所有的列以及列的SQL数据类型，这些SQL类型被映射到Java数据类型，在MapReduce应用中将使用这些对应的Java类型来保存字段的值。

优选地，数据导入过程中，Sqoop启动MapReduce作业使用JDBC连接方式从一个数据库表中读取内容，JDBC的ResultSet接口提供一个用户从检查结果中检索记录的游标，并将ResultSet中每一行数据来填充Sqoop创建的类，在生成反序列化代码和配置抽取数据源之后，Sqoop将作业发送到MapReduce集群，Map任务将执行查询并将ResultSet中的数据反序列化到生成类的实例，这些数据被持久化写到分布式文件系统中。

优选地，步骤2中，对于缺失应有信息的不完整数据，应进行过滤并反馈至原输入系统，填补缺失内容，补全后再写入数据库；

对于错误数据，通过写SQL语句的方式找出，并在修正之后抽取；

对于重复数据，将记录的所有字段导出，人工剔除重复部分。

优选地，步骤3中，将不同系统中的相同类型的数据统一；将不同系统中信息类别不同的设备信息统一，使同一类设备的信息类别一致。

优选地，步骤3中包括将不同系统中的同一设备的名称统一，具体包括：

步骤3.1，对不同系统设备的命名进行语义拆分；

步骤3.2，在设备名称拆分的基础上，对拆分出的词语做分析匹配；

步骤3.3，完成对各设备名称匹配，形成一组匹配列表；

步骤3.4，从列表中选择最合适的名称或另设一个最合适的名称作为当前设备名称，以使不同系统中同一设备的名称相统一。

本发明还提供了一种使用所述配电网云平台数据融合方法的配电网云平台，包括：

数据抽取模块，用于将配电网数据接入配电网云平台，按照统一数据规范进行标准化格式存储；

数据清洗模块，用于筛选出数据抽取模块已接收的配电网数据中不符合要求的数据，进行数据清洗；

数据转换模块，用于对数据清洗模块已数据清洗的配电网数据进行不一致数据转换和数据粒度转换；

数据融合模块，用于将数据转换模块已数据转换的配电网数据构建为映射表，进行数据融合；

数据建模模块，用于利用融合后的数据构建数据模型，形成数据中台，供后续系统及服务调用。

本发明的有益效果在于，与现有技术相比，本发明提供一种配电网云平台数据融合方法，对各类系统数据提供不同的数据抽取和数据清洗方式，进行数据转换和融合后构建统一的数据模型，形成数据中台，供后续系统或服务调用。本发明能够提高融合效率和正确性，使得融合结果能够支撑上层相关数据分析应用的准确性，最终提升配网运行大数据的应用效率。

附图说明

图1为配电网数据融合流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明提供了一种配电网云平台数据融合方法，提取出不同业务系统对应的设备信息，进行清洗和转换后，使用统一的语义和格式定义转换后的数据，进行数据融合后构建统一的数据模型，形成数据中台，供后续系统或服务调用。本方法包含但不限于海量原型数据抽取、数据清洗、数据转换、数据融合、构建数据模型这五步

如图1所示，本发明提供了一种配电网云平台数据融合方法，包括以下步骤：

步骤1，数据抽取，将配电网数据接入配电网云平台，按照统一数据规范进行标准化格式存储，存储在分布式关系型数据库、分布式非关系型数据库和分布式文件系统中

采用Kafka、Sqoop、增量捕获工具等多种技术手段，实现结构化、非结构化、海量历史/准实时、电网空间数据(全量和增量捕获)接入，对各类数据按照统一数据规范进行标准化格式存储，依据应用需求存储在分布式关系型数据库、分布式非关系型数据库和分布式文件系统中。

具体的，对于实时数据、结构化数据和非结构化数据，分别通过以下三种方法抽取：

1、实时数据

对于负荷数据、用户用电数据、设备状态监测数据等实时数据，使用基于Kafka分布式消息队列的数据通道接入大数据平台。该数据通道基于快速、可扩展、持久的分布式消息发布--订阅系统，在数据抽取过程中，系统通过定义消息描述信息的方式设置数据抽取的主题，生产者向主题写入数据，消费者从主题读取数据。

值得注意的是，基于这样的设计，系统可以在消息队列中保存大量开销很小的数据，并且支持大量的消费者订阅，通过Hadoop的并行加载机制统一线上和离线的消息处理让数据存入Hadoop集群变得非常简单，并且当拥有多个数据来源和多个数据目的地时，为每一个来源和目的地配对地编写一个单独的数据通道会导致混乱发生，该数据抽取方式规范了数据通道格式，并且允许每一个系统获取数据和写入数据各一次，这样极大地减少数据通道的复杂性和操作耗时。

2、结构化数据

对于关系型数据库里的数据这样的结构化数据，通过Sqoop工具，分割成多个数据集并创建Hadoop任务来并行处理每个区域，高效写入大数据平台的分布式数据仓库，生成发布满足特定业务需求的数据主题，为数据挖掘和自助式分析提供数据访问支撑。

在导入开始之前，使用JDBC来检查需要导入的表，检索出表中所有的列以及列的SQL数据类型。这些SQL类型被映射到Java数据类型，在MapReduce应用中将使用这些对应的Java类型来保存字段的值。可以理解的是，MapReduce是Google提出的一种并行编程模型，可以实现大规模数据集的并行处理。Sqoop的代码生成器使用这些信息来创建对应表的类，用于保存从表中抽取的记录。

数据导入过程中，Sqoop启动MapReduce作业使用JDBC连接方式从一个数据库表中读取内容，JDBC的ResultSet接口提供了一个用户从检查结果中检索记录的游标，并将ResultSet中每一行数据来填充Sqoop创建的类，在生成反序列化代码和配置抽取数据源之后，Sqoop将作业发送到MapReduce集群。Map任务将执行查询并将ResultSet中的数据反序列化到生成类的实例，这些数据被持久化写到HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)的数据仓库中。为了获取更好地导入性能，Hadoop能够为几个Map任务查询结果按照表的主键进行划分达到并行的目的。

3、非结构化数据

对于电网系统运行日志文件等非结构化数据，通过Flume工具将数据直接写入大数据平台的分布式文件系统，Flume实时监控不同日志源文件的状态变更，聚合来自不同代理服务器的日志文件输送到平台文件系统，辅助电网开展数据分析、数据挖掘和规划决策支持等功能。Flume作为数据流平台中日志数据收集模块的核心组件，系统使用了其强大的收集和分流功能，在原有的基础上加上了分流配置的可管理功能，把日志的分流集中管理，有效避免了Flume原有分流方式日志重复发送的弊端。系统为保证输送的成功性，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。

步骤2，数据清洗，筛选出步骤1已接收的配电网数据中不符合要求的数据，进行数据清洗。

大数据的清洗阶段主要完成对上述已接收数据进行智能剔除和贮存等操作。由于外界客观条件变动(如电网供电电压突变、电磁干扰等)以及某些人为因素会导致数据发生变化，从而对数据分析的结论造成影响，导致各种计算和测试结论的可靠性降低，因此需要筛选出不符合要求的数据并进行处理以保持数据的有效性。不符合要求的数据主要有不完整的数据、错误的数据、重复的数据这三类，对于这些数据的处理方式则包括：填补、修正、剔除和不处理。

对于缺失应有信息如设备名称的不完整数据，应进行过滤并反馈至原输入系统，填补缺失内容，补全后再写入数据库。

错误数据是指因业务系统不够健全，在接收数据后没有进行判断而直接写入后台数据库造成的，导致出现数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确等错误。对于错误数据，通过写SQL语句的方式找出，并在修正之后抽取。

当然，一些不符合要求的数据中也可能包含有用的信息，是否需要剔除，需由人工进行判断。

步骤3，数据转换，对步骤2已数据清洗的配电网数据进行不一致数据转换和数据粒度转换。

由于存在不同业务系统对同一设备的编码、命名等信息不一致以及信息类型和数量不同的情况，需要进行不一致数据转换和数据粒度转换。

首先将不同系统中的相同类型的数据统一，例如同一个设备在A系统的编码是XX0001，而在B系统中的编码是YY0001，需转换为一个统一的编码，实现不同系统间编码的映射、匹配；然后将不同系统中信息类别不同的设备信息统一，使同一类设备的信息类别一致，例如同一设备在A系统中的信息类别包括电压、电流，在B系统中的信息类别仅包括电压，则需转换为统一的信息类别。

以设备名称为例，将不同系统中的同一设备的名称统一，需要经历以下几步：

步骤3.1，对不同系统设备的命名进行智能拆分：电网设备的命名规则严格，拆分设备名称需要对命名规则，设备名称进行深入分析，在此基础上智能地将设备名称拆分为有意义的词语；

步骤3.2，在设备名称拆分的基础上，对拆分出的词语做分析匹配：匹配过程根据电网设备命名规则，设备类别，电网公共模型等条件，针对关键词语进行；

步骤3.3，完成对各大系统中的设备名称匹配，形成一组匹配列表：将同一个设备实体在不同系统中的不同设备名称比对上，形成列表；

步骤3.4，完成统一命名：从列表中选择最合适的名称或另设一个最合适的名称作为当前设备名称，以使不同系统中同一设备的名称相统一。

步骤4，数据融合，将第三步中选取的各设备统一命名或编号等信息构建为映射表，进行数据融合。

步骤5，构建数据模型，利用融合后的数据构建数据模型，形成数据中台，供后续系统及服务调用。

本发明的有益效果在于，与现有技术相比，本发明提供一种配电网云平台数据融合方法，包括海量原型数据抽取、数据清洗、数据转换、数据融合、数据模型构建这五步，通过抽取不同业务系统对应的设备信息，进行数据清洗和转换后，使用统一的语义和格式定义转换后的数据，进行数据融合后构建统一的数据融合模型。对于不同类型的数据，提供对应的数据抽取及数据清洗方式，便于对原始数据进行处理。对各类系统数据提供不同的数据抽取和数据清洗方式，进行数据转换和融合后构建统一的数据模型，形成数据中台，供后续系统或服务调用。本发明能够提高融合效率和正确性，使得融合结果能够支撑上层相关数据分析应用的准确性，最终提升配网运行大数据的应用效率。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种配电网云平台数据融合方法，其特征在于，包括以下步骤：

步骤3，对步骤2已数据清洗的配电网数据进行不一致数据转换和数据粒度转换；将不同系统中的相同类型的数据统一；将不同系统中信息类别不同的设备信息统一，使同一类设备的信息类别一致；具体包括：

步骤3.1，对不同系统设备的命名进行语义拆分；

步骤3.3，完成对各设备名称匹配，形成一组匹配列表；

步骤3.4，从列表中选择最合适的名称或另设一个最合适的名称作为当前设备名称，以使不同系统中同一设备的名称相统一；

2.根据权利要求1所述的配电网云平台数据融合方法，其特征在于：

步骤1中，对于配电网数据中的实时数据，使用基于Kafka分布式消息队列的数据通道接入配电网云平台，在数据抽取过程中，通过定义消息描述信息的方式设置数据抽取的主题，生产者向主题写入数据，消费者从主题读取数据，通过Hadoop的并行加载机制统一线上和离线的消息处理让数据存入Hadoop集群。

3.根据权利要求2所述的配电网云平台数据融合方法，其特征在于：

步骤1中，对于配电网数据中的结构化数据，通过Sqoop工具，分割成多个数据集并创建Hadoop任务来并行处理每个区域，写入配电网云平台的分布式关系型数据库。

4.根据权利要求3所述的配电网云平台数据融合方法，其特征在于：

在导入开始之前，使用JDBC来检查需要导入的表，检索出表中所有的列以及列的SQL数据类型，这些SQL类型被映射到Java数据类型，在MapReduce应用中将使用这些对应的Java类型来保存字段的值。

5.根据权利要求4所述的配电网云平台数据融合方法，其特征在于：

数据导入过程中，Sqoop启动MapReduce作业使用JDBC连接方式从一个数据库表中读取内容，JDBC的ResultSet接口提供一个用户从检查结果中检索记录的游标，并将ResultSet中每一行数据来填充Sqoop创建的类，在生成反序列化代码和配置抽取数据源之后，Sqoop将作业发送到MapReduce集群，Map任务将执行查询并将ResultSet中的数据反序列化到生成类的实例，这些数据被持久化写到分布式文件系统中。

6.根据权利要求4或5中所述的配电网云平台数据融合方法，其特征在于：

步骤2中，对于缺失应有信息的不完整数据，应进行过滤并反馈至原输入系统，填补缺失内容，补全后再写入数据库；

7.一种使用权利要求1至5中任一项所述配电网云平台数据融合方法的配电网云平台，其特征在于，包括：

数据转换模块，用于对数据清洗模块已数据清洗的配电网数据进行不一致数据转换和数据粒度转换；将不同系统中的相同类型的数据统一；将不同系统中信息类别不同的设备信息统一，使同一类设备的信息类别一致：包括：对不同系统设备的命名进行语义拆分；在设备名称拆分的基础上，对拆分出的词语做分析匹配；完成对各设备名称匹配，形成一组匹配列表；从列表中选择最合适的名称或另设一个最合适的名称作为当前设备名称，以使不同系统中同一设备的名称相统一；