CN109871470B - 一种电网设备数据标签化管理系统及实现方法 - Google Patents

一种电网设备数据标签化管理系统及实现方法 Download PDF

Info

Publication number
CN109871470B
CN109871470B CN201910150906.4A CN201910150906A CN109871470B CN 109871470 B CN109871470 B CN 109871470B CN 201910150906 A CN201910150906 A CN 201910150906A CN 109871470 B CN109871470 B CN 109871470B
Authority
CN
China
Prior art keywords
data
graph
tag
module
physical computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910150906.4A
Other languages
English (en)
Other versions
CN109871470A (zh
Inventor
孔晓昀
洪建光
黄海潮
秦俊宁
张彩友
陶敏
李智
胡如一
刘周斌
王志强
江樱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN201910150906.4A priority Critical patent/CN109871470B/zh
Publication of CN109871470A publication Critical patent/CN109871470A/zh
Application granted granted Critical
Publication of CN109871470B publication Critical patent/CN109871470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电网设备数据标签化管理系统及实现方法,通过标签工厂建立和储存数据;通过标签数据订阅模块将分散在多个存储当中的数据订阅至数据服务需要计算的位置;通过智能搬迁将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;通过推荐标签视图生成实体的关系视图;从而解决了业务人员直接面向大规模设备数据进行离线可视化管理和分析的日常需求问题;及如何面向设备标签做多组数据探察实验,以确定数据质量和数据分布情况符合预期的问题;同时电网所有设备数据可以基于该方法,实现设备和标签的网络拓扑图。

Description

一种电网设备数据标签化管理系统及实现方法
技术领域
本发明涉及电网设施信息化管理领域。
背景技术
随着电力行业的发展,电网设备在固定资产中比例逐渐增多,电网设备管理的观念和方法也发展迅速,因此,如何管理设备,关系到企业的兴衰。企业设备的日常管理,包括运行状态等,都关系到电能质量、供电可靠性等电力系统核心指标。从数据角度看,国内尚没有通过设备大数据标签化的方式来管理设备,用标签的方式来描述刻画电网设备,以及统一设备数据存通用的上下游使用规范的实现方法。目前传统的通过数据管理和分析设备的方式方法,对于多部门多系统协同的情况下,存在数据口径不统一、数据标准不一致等问题。并且在应用系统对设备数据提取和应用阶段,存在多渠道无法统一以及资源浪费的的问题。
发明内容
本发明提供了一种数据标签化管理系统及实现方法,解决了(1)业务人员能直接面向大规模设备数据进行离线可视化管理和分析的日常需求问题;(2)技术人员在开发设备相关数据应用之前,能面向设备标签做多组数据探察实验,以确定数据质量和数据分布情况符合预期;(3)电网所有设备数据可以基于该方法,实现设备和标签的网络拓扑图。
为达到上述目的,本发明可采用如下技术方案:
一种电网设备数据标签化管理系统,包括:标签工厂,用以建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;标签数据订阅模块,用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置;智能搬迁模块,用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;推荐标签视图模块,用以生成实体的关系视图,包括图初始化模块,迭代调整模块,图分割模块。
进一步的,标签数据订阅模块中,首先查询标签地址并得到标签元信息,如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。
进一步的,所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步。
进一步的,推荐标签视图模块中,图初始化模块用以初始化图的点和边的权重;迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
本发明同时提供的一种电网设备数据标签化管理实现方法采用以下技术方案,包括以下步骤:
(1)、建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;
(2)、将分散在多个存储当中的数据订阅至数据服务需要计算的位置;
(3)、将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;
(4)、生成实体的关系视图,包括图初始化步骤,迭代调整步骤,图分割步骤。
进一步的,步骤(2)中,首先查询标签地址并得到标签元信息,
如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。
进一步的,所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步。
进一步的,步骤(4)的图初始化步骤用以初始化图的点和边的权重;迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;图分割步骤用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
有益效果:采用本发明提供的电网设备数据标签化管理系统以及实现方法后的有益效果:(1)技术人员通过面向设备标签的简单可视化编程,就能实现对设备数据分析获取的API;(2)在电网企业内部形成了一套完整统一的标签语言和标签数据口径来描述设备;(3)有效降低了企业业务人员对设备数据使用的门槛。
附图说明
图1是本发明电网设备数据标签化管理系统的架构示意图。
图2是本发明标签数据订阅中的流程图。
图3是一种实时大数据混合计算架构图。
图4是另一种实时大数据混合计算架构图。
图5是实时数仓架构图。
具体实施方式
实施例一
请结合图1所示,本实施例为一种电网设备数据标签化管理系统,包括:标签工厂,用以建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;标签数据订阅模块,用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置;智能搬迁模块,用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;推荐标签视图模块,用以生成实体的关系视图,包括图初始化模块,迭代调整模块,图分割模块。
在智能搬迁模块中,内置了针对几套典型的架构路径,包括:
批量大数据在线分析,如图3所示,采用实时大数据混合计算架构;
批量数据算法计算在线查询,如图4所示,采用实时大数据混合计算架构;
实时大数据在线分析,如图5所示,采用实时数仓架构;并且:
对于整合分析这类OLAP/ADHOC场景来说,提供了将Oracle,关系型数据库(MySQL)等业务库中的数据同步至大数据计算中,再订阅到所使用的分析库当中(分析型数据库,关系型数据库等)
对于规则引擎这类流式计算的场景来说,提供了将离线数据、流式数据进行归并,将规则所需要的离线历史数据订阅至阿里云表格存储当中,并根据规则计算结果订阅至所需要的存储计算资源当中
对于目前尚未以标准方式提供的订阅路径,可以进行相应的定制。
请结合图2所示,标签数据订阅模块中,首先查询标签地址并得到标签元信息,如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。标签数据订阅是处理跨计算数据流转的重要功能之一。在相应的数据服务需要使用到数据的时候,标签中心提供了将分散在多个存储当中的数据订阅至数据服务需要计算的位置的功能。对于同步且相应时间要求高的场景来说,需要用户在相应的数据服务当中进行提前的手工订阅操作,对于异步或者请求相应要求不高的同步的计算场景来说,这个订阅过程对于用户来说透明。所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步。
推荐标签视图模块中,图初始化模块用以初始化图的点和边的权重;迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
实施例二
本实施例为一种电网设备数据标签化管理实现方法采用以下技术方案,包括以下步骤:
(1)、建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;
(2)、将分散在多个存储当中的数据订阅至数据服务需要计算的位置;
首先查询标签地址并得到标签元信息,
如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中。
进一步的,所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步
(3)、将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;
(4)、生成实体的关系视图,包括图初始化步骤,迭代调整步骤,图分割步骤;
其中图初始化步骤用以初始化图的点和边的权重;该步骤中的变量说明:
节点V的权重为二维实数向量[VE,VL]。
VE表示其是实体表的得分
VL表示其是关系表的得分
边E的权重为三维实数向量[EE,EL,ET]
EE表两个节点表是对等关系,并且都是实体表关联的得分,
EL表示是实体关表与系表关联的得分,
ET表示是父子实体表联系的得分
该步骤中的规则说明:
强规则:标签库里已经存在的实体关系,权重为1
通用规则:主要由表的元数据信息来表达,如:主键个数,有无外键,字段名包含特定的关键字等,可分为4类:实体表规则,关系表规则,tree关系规则,link关系规则
自定义规则
这部分规则比较个性化,不同的业务系统有不同的逻辑,而且这样的规则无法用结构化的方式来表达,因此工具在设计上留了扩展以供用户进行二次开发,允许用户以UDF的方式来植入自定义规则.
如:与[生产厂家]这张表有关联关系的表为实体表。
迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;这一步对那些点类型置信度低或者未标注的点进行半监督学习得到其[VE,VL]向量,即完善图的节点权值。这一步分为2个过程:确定LeadRank集合,由LeadRank作为源点迭代传播,取目标函数最大值.
1、找到LeaderRank集合
Leader的选择标准:
1)置信度高
2)冲突最小
2、迭代传播
每一次迭代,都是Leader将其权值向其邻居进行传播,即每一次都是一度传递.邻居节点接收到的值取决于Leader的影响力.每一次迭代完成之后,将置信度高的并且与周围节点不冲突的点加入Leader集中。
图分割步骤用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
最后,会通过以下方式对算法效果分析
1.标签库初始化
2.标签库里的实体关系的正确性
3.业务库的数据模型是否规范。
本发明具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (4)

1.一种电网设备数据标签化管理系统,其特征在于,包括:
标签工厂,用以建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;
标签数据订阅模块,用以将分散在多个存储当中的数据订阅至数据服务需要计算的位置;首先查询标签地址并得到标签元信息,
如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;
如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步;
智能搬迁模块,用以将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;
推荐标签视图模块,用以生成实体的关系视图,包括图初始化模块,迭代调整模块,图分割模块。
2.根据权利要求1所述的电网设备数据标签化管理系统,其特征在于:推荐标签视图模块中,图初始化模块用以初始化图的点和边的权重;
迭代调整模块用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;
图分割模块用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
3.一种电网设备数据标签化管理实现方法,其特征在于,包括以下步骤:
(1)、建立和储存数据,包括实体、实体与实体之间的联通关系及其属性、实体/关系下关联的标签情况;其中,利用业务库表的元数据信息、SQL执行历史在标签库中标示出实体/关系表的信息;将未知的表识别为实体或关系;
(2)、将分散在多个存储当中的数据订阅至数据服务需要计算的位置;首先查询标签地址并得到标签元信息,
如标签存在于物理存储中则解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;
如标签不存在于该服务所需的物理计算资源,则先异步执行任务并同步成功后,再解析成相应物理计算资源的语言并将计算代码分配至一个或多个物理计算资源中;所述异步执行任务包括目标建表、把数据元信息作为源表配置、列化抽取且进行数据结构转化、调用同步工具进行数据同步;
(3)、将数据库中的数据经过订阅到所使用的分析库中或者表格存储当中;
(4)、生成实体的关系视图,包括图初始化步骤,迭代调整步骤,图分割步骤。
4.根据权利要求3所述的实现方法,其特征在于,步骤(4)的图初始化步骤用以初始化图的点和边的权重;
迭代调整步骤用以对点类型置信度低或者未标注的点进行半监督学习得到其二维实数向量,即完善图的节点权值;
图分割步骤用以去掉置信度小于阈值或者冲突的节点的边而求联通子图;对于大的联通子图,进一步进行图分割,使用聚集系数极大值点染色传播进行图划分;根据聚集度,推荐topN的联通子图。
CN201910150906.4A 2019-02-28 2019-02-28 一种电网设备数据标签化管理系统及实现方法 Active CN109871470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910150906.4A CN109871470B (zh) 2019-02-28 2019-02-28 一种电网设备数据标签化管理系统及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910150906.4A CN109871470B (zh) 2019-02-28 2019-02-28 一种电网设备数据标签化管理系统及实现方法

Publications (2)

Publication Number Publication Date
CN109871470A CN109871470A (zh) 2019-06-11
CN109871470B true CN109871470B (zh) 2021-06-08

Family

ID=66919532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910150906.4A Active CN109871470B (zh) 2019-02-28 2019-02-28 一种电网设备数据标签化管理系统及实现方法

Country Status (1)

Country Link
CN (1) CN109871470B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555076A (zh) * 2019-08-22 2019-12-10 上海数禾信息科技有限公司 数据打标方法、处理方法以及装置
CN111949665B (zh) * 2020-08-21 2023-12-22 支付宝(杭州)信息技术有限公司 用于数据处理的方法和装置
CN112116363A (zh) * 2020-09-16 2020-12-22 国网安徽省电力有限公司 一种存量设备溯源赋码方法
CN116756388B (zh) * 2023-08-23 2023-10-20 成都太阳高科技有限责任公司 一种电网资产数据普查系统及方法及装置及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571905A (zh) * 2009-05-12 2009-11-04 中兴软件技术(杭州)有限公司 Rfid中间件应用接口转换系统和方法
CN103914290A (zh) * 2012-12-31 2014-07-09 杭州勒卡斯广告策划有限公司 一种操作命令处理方法及装置
CN103197654A (zh) * 2013-04-17 2013-07-10 清华大学 基于opc标准的半导体装备的监控系统
CN103942324A (zh) * 2014-04-29 2014-07-23 北京中科启信软件技术有限公司 数据实时同步系统及方法
CN105279187A (zh) * 2014-07-15 2016-01-27 天津科技大学 一种基于边聚集系数的社会网络群体划分方法
US20160267172A1 (en) * 2015-03-09 2016-09-15 DonRiver, Inc. Constraint free model
CN109064318A (zh) * 2018-08-24 2018-12-21 苏宁消费金融有限公司 一种基于知识图谱的互联网金融风险监测系统

Also Published As

Publication number Publication date
CN109871470A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871470B (zh) 一种电网设备数据标签化管理系统及实现方法
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
US20210342350A1 (en) System and method for reducing resource usage in a data retrieval process
CN110222127B (zh) 基于知识图谱的信息汇聚方法、装置和设备
Becker et al. A comparative survey of business process similarity measures
US20230350906A1 (en) Interactive identification of similar sql queries
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
WO2020073952A1 (zh) 用于图像识别的图像集的建立方法、装置、网络设备和存储介质
EP3226155A1 (en) System and method for database migration with target platform scalability
CN110837492A (zh) 一种多源数据统一sql提供数据服务的方法
CN109508355A (zh) 一种数据抽取方法、系统及终端设备
CN104991955A (zh) 一种自动构建模板库的方法及系统
De Virgilio et al. R2G: a Tool for Migrating Relations to Graphs.
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
CN112130891B (zh) 一种数据库持续部署的方法和设备
AU2024205714A1 (en) Multi-source-type interoperability and/or information retrieval optimization
US12061579B2 (en) Database gateway with machine learning model
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
US20190311041A1 (en) Database migration sequencing using dynamic object-relationship diagram
US11163801B2 (en) Execution of queries in relational databases
US10003492B2 (en) Systems and methods for managing data related to network elements from multiple sources
CN116010380A (zh) 一种基于可视化建模的数据仓库自动化管理方法
Liu et al. A performance optimization scheme for migrating hive data to Neo4j database
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant