CN109871470B

CN109871470B - 一种电网设备数据标签化管理系统及实现方法

Info

Publication number: CN109871470B
Application number: CN201910150906.4A
Authority: CN
Inventors: 孔晓昀; 洪建光; 黄海潮; 秦俊宁; 张彩友; 陶敏; 李智; 胡如一; 刘周斌; 王志强; 江樱
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-06-08
Anticipated expiration: 2039-02-28
Also published as: CN109871470A

Abstract

本发明公开了一种电网设备数据标签化管理系统及实现方法，通过标签工厂建立和储存数据；通过标签数据订阅模块将分散在多个存储当中的数据订阅至数据服务需要计算的位置；通过智能搬迁将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中；通过推荐标签视图生成实体的关系视图；从而解决了业务人员直接面向大规模设备数据进行离线可视化管理和分析的日常需求问题；及如何面向设备标签做多组数据探察实验，以确定数据质量和数据分布情况符合预期的问题；同时电网所有设备数据可以基于该方法，实现设备和标签的网络拓扑图。

Description

一种电网设备数据标签化管理系统及实现方法

技术领域

本发明涉及电网设施信息化管理领域。

背景技术

随着电力行业的发展，电网设备在固定资产中比例逐渐增多，电网设备管理的观念和方法也发展迅速，因此，如何管理设备，关系到企业的兴衰。企业设备的日常管理，包括运行状态等，都关系到电能质量、供电可靠性等电力系统核心指标。从数据角度看，国内尚没有通过设备大数据标签化的方式来管理设备，用标签的方式来描述刻画电网设备，以及统一设备数据存通用的上下游使用规范的实现方法。目前传统的通过数据管理和分析设备的方式方法，对于多部门多系统协同的情况下，存在数据口径不统一、数据标准不一致等问题。并且在应用系统对设备数据提取和应用阶段，存在多渠道无法统一以及资源浪费的的问题。

发明内容

本发明提供了一种数据标签化管理系统及实现方法，解决了(1)业务人员能直接面向大规模设备数据进行离线可视化管理和分析的日常需求问题；(2)技术人员在开发设备相关数据应用之前，能面向设备标签做多组数据探察实验，以确定数据质量和数据分布情况符合预期；(3)电网所有设备数据可以基于该方法，实现设备和标签的网络拓扑图。

为达到上述目的，本发明可采用如下技术方案：

一种电网设备数据标签化管理系统，包括：标签工厂，用以建立和储存数据，包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况；其中，利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息；将未知的表识别为实体或关系；标签数据订阅模块，用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置；智能搬迁模块，用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中；推荐标签视图模块，用以生成实体的关系视图，包括图初始化模块，迭代调整模块，图分割模块。

进一步的，标签数据订阅模块中，首先查询标签地址并得到标签元信息，如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中；如标签不存在于该服务所需的物理计算资源，则先异步执行任务并同步成功后，再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。

进一步的，所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步。

进一步的，推荐标签视图模块中，图初始化模块用以初始化图的点和边的权重；迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图；对于大的联通子图，进一步进行图分割，使用聚集系数极大值点染色传播进行图划分；根据聚集度,推荐topN的联通子图。

本发明同时提供的一种电网设备数据标签化管理实现方法采用以下技术方案，包括以下步骤：

(1)、建立和储存数据，包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况；其中，利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息；将未知的表识别为实体或关系；

(2)、将分散在多个存储当中的数据订阅至数据服务需要计算的位置；

(3)、将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中；

(4)、生成实体的关系视图，包括图初始化步骤，迭代调整步骤，图分割步骤。

进一步的，步骤(2)中，首先查询标签地址并得到标签元信息，

如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中；如标签不存在于该服务所需的物理计算资源，则先异步执行任务并同步成功后，再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。

进一步的，步骤(4)的图初始化步骤用以初始化图的点和边的权重；迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；图分割步骤用以去掉置信度小于阈值或者冲突的节点的边而求联通子图；对于大的联通子图，进一步进行图分割，使用聚集系数极大值点染色传播进行图划分；根据聚集度,推荐topN的联通子图。

有益效果：采用本发明提供的电网设备数据标签化管理系统以及实现方法后的有益效果：(1)技术人员通过面向设备标签的简单可视化编程，就能实现对设备数据分析获取的API；(2)在电网企业内部形成了一套完整统一的标签语言和标签数据口径来描述设备；(3)有效降低了企业业务人员对设备数据使用的门槛。

附图说明

图1是本发明电网设备数据标签化管理系统的架构示意图。

图2是本发明标签数据订阅中的流程图。

图3是一种实时大数据混合计算架构图。

图4是另一种实时大数据混合计算架构图。

图5是实时数仓架构图。

具体实施方式

实施例一

请结合图1所示，本实施例为一种电网设备数据标签化管理系统，包括：标签工厂，用以建立和储存数据，包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况；其中，利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息；将未知的表识别为实体或关系；标签数据订阅模块，用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置；智能搬迁模块，用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中；推荐标签视图模块，用以生成实体的关系视图，包括图初始化模块，迭代调整模块，图分割模块。

在智能搬迁模块中，内置了针对几套典型的架构路径，包括：

批量大数据在线分析，如图3所示，采用实时大数据混合计算架构；

批量数据算法计算在线查询，如图4所示，采用实时大数据混合计算架构；

实时大数据在线分析，如图5所示，采用实时数仓架构；并且：

对于整合分析这类OLAP/ADHOC场景来说，提供了将Oracle,关系型数据库(MySQL)等业务库中的数据同步至大数据计算中，再订阅到所使用的分析库当中(分析型数据库，关系型数据库等)

对于规则引擎这类流式计算的场景来说，提供了将离线数据、流式数据进行归并，将规则所需要的离线历史数据订阅至阿里云表格存储当中，并根据规则计算结果订阅至所需要的存储计算资源当中

对于目前尚未以标准方式提供的订阅路径，可以进行相应的定制。

请结合图2所示，标签数据订阅模块中，首先查询标签地址并得到标签元信息，如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中；如标签不存在于该服务所需的物理计算资源，则先异步执行任务并同步成功后，再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。标签数据订阅是处理跨计算数据流转的重要功能之一。在相应的数据服务需要使用到数据的时候，标签中心提供了将分散在多个存储当中的数据订阅至数据服务需要计算的位置的功能。对于同步且相应时间要求高的场景来说，需要用户在相应的数据服务当中进行提前的手工订阅操作，对于异步或者请求相应要求不高的同步的计算场景来说，这个订阅过程对于用户来说透明。所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步。

推荐标签视图模块中，图初始化模块用以初始化图的点和边的权重；迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图；对于大的联通子图，进一步进行图分割，使用聚集系数极大值点染色传播进行图划分；根据聚集度,推荐topN的联通子图。

实施例二

本实施例为一种电网设备数据标签化管理实现方法采用以下技术方案，包括以下步骤：

首先查询标签地址并得到标签元信息，

进一步的，所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步

(4)、生成实体的关系视图，包括图初始化步骤，迭代调整步骤，图分割步骤；

其中图初始化步骤用以初始化图的点和边的权重；该步骤中的变量说明:

节点V的权重为二维实数向量[VE,VL]。

VE表示其是实体表的得分

VL表示其是关系表的得分

边E的权重为三维实数向量[EE,EL,ET]

EE表两个节点表是对等关系，并且都是实体表关联的得分，

EL表示是实体关表与系表关联的得分，

ET表示是父子实体表联系的得分

该步骤中的规则说明:

强规则:标签库里已经存在的实体关系,权重为1

通用规则:主要由表的元数据信息来表达,如:主键个数，有无外键，字段名包含特定的关键字等,可分为4类:实体表规则，关系表规则，tree关系规则，link关系规则

自定义规则

这部分规则比较个性化,不同的业务系统有不同的逻辑,而且这样的规则无法用结构化的方式来表达,因此工具在设计上留了扩展以供用户进行二次开发,允许用户以UDF的方式来植入自定义规则.

如:与[生产厂家]这张表有关联关系的表为实体表。

迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；这一步对那些点类型置信度低或者未标注的点进行半监督学习得到其[VE,VL]向量，即完善图的节点权值。这一步分为2个过程:确定LeadRank集合,由LeadRank作为源点迭代传播,取目标函数最大值.

1、找到LeaderRank集合

Leader的选择标准:

1)置信度高

2)冲突最小

2、迭代传播

每一次迭代，都是Leader将其权值向其邻居进行传播，即每一次都是一度传递.邻居节点接收到的值取决于Leader的影响力.每一次迭代完成之后，将置信度高的并且与周围节点不冲突的点加入Leader集中。

图分割步骤用以去掉置信度小于阈值或者冲突的节点的边而求联通子图；对于大的联通子图，进一步进行图分割，使用聚集系数极大值点染色传播进行图划分；根据聚集度,推荐topN的联通子图。

最后，会通过以下方式对算法效果分析

1.标签库初始化

2.标签库里的实体关系的正确性

3.业务库的数据模型是否规范。

本发明具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种电网设备数据标签化管理系统，其特征在于，包括：

标签工厂，用以建立和储存数据，包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况；其中，利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息；将未知的表识别为实体或关系；

标签数据订阅模块，用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置；首先查询标签地址并得到标签元信息，

如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中；

如标签不存在于该服务所需的物理计算资源，则先异步执行任务并同步成功后，再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中；所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步；

智能搬迁模块，用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中；

推荐标签视图模块，用以生成实体的关系视图，包括图初始化模块，迭代调整模块，图分割模块。

2.根据权利要求1所述的电网设备数据标签化管理系统，其特征在于：推荐标签视图模块中，图初始化模块用以初始化图的点和边的权重；

迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；

图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图；对于大的联通子图，进一步进行图分割，使用聚集系数极大值点染色传播进行图划分；根据聚集度,推荐topN的联通子图。

3.一种电网设备数据标签化管理实现方法，其特征在于，包括以下步骤：

(2)、将分散在多个存储当中的数据订阅至数据服务需要计算的位置；首先查询标签地址并得到标签元信息，

4.根据权利要求3所述的实现方法，其特征在于，步骤(4)的图初始化步骤用以初始化图的点和边的权重；

迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量，即完善图的节点权值；