CN108985531A - 一种多模异构电力大数据融合分析管理系统及方法 - Google Patents
一种多模异构电力大数据融合分析管理系统及方法 Download PDFInfo
- Publication number
- CN108985531A CN108985531A CN201710404706.8A CN201710404706A CN108985531A CN 108985531 A CN108985531 A CN 108985531A CN 201710404706 A CN201710404706 A CN 201710404706A CN 108985531 A CN108985531 A CN 108985531A
- Authority
- CN
- China
- Prior art keywords
- data
- big data
- electric power
- analysis
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims description 34
- 238000007726 management method Methods 0.000 claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 61
- 238000007405 data analysis Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000005065 mining Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000009412 basement excavation Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 241000282813 Aepyceros melampus Species 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 238000013523 data management Methods 0.000 abstract description 8
- 238000003860 storage Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004382 potting Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多模异构电力大数据融合分析管理系统,其包括有:多源数据采集层,用于对多个数据源进行数据采集;数据接口层,对应多种数据类型而分别设有多个数据接口;电力大数据融合管理子系统,包括有多个开源数据库;大数据分析引擎,包括有基于Spark并行运算框架的开源算法库,通过调用开源算法库中相应的分析方法实现对所述开源数据库中存储数据的计算分析;模型访问接口层,连接于大数据分析引擎和开源数据库,所述模型访问接口层包括有多种访问接口,藉由相应的访问接口而实现对开源算法库和开源数据库的访问。本发明能提升数据处理的性能、充分挖掘数据价值和实现数据资产管理,为上层电力专业模型提供快速高效的数据管理保障。
Description
技术领域
本发明涉及电力系统大数据智能信息处理方法,尤其涉及一种多模异构电力大数据融合分析管理系统及方法。
背景技术
随着电力行业的发展,电力系统中所涉及的数据已经由传统型电力数据演变为电力大数据,跨领域的时空扩展将电力系统的界面条件从确定性变为时变性,从单一变得复杂,同时也增加了多时间尺度的动态变换性,此外,电力大数据也具有通用大数据的“4V”显著特征,即数据量Volume、数据种类Variety、处理速度Velocity和数据价值Value。
目前,大部分电力设施和数据处理设备在面临大数据时,存在处理效率低下等缺陷,容易造成大量数据资源的浪费,无法及时、快速、全面地掌握电网系统以及相关设备的状态信息,最终给电网的运行管理和科学决策带来很大的困扰。与此同时,国内外大数据平台的研究也比较零散,大数据平台架构方面大多基于Hadoop技术,尚未形成支撑大数据平台开发的相关技术体系,而且国内外已有的电网数据获取与转换装置主要针对部分关键设备和关键数据采集开展,而对于电网、设备、环境以及大量弱关联、时空电力大数据的获取,以及如何实时快速地深入分析,尚存大量的关键技术问题亟需研究,由此可见,现有技术面临的最大挑战就是缺乏一个高效的大数据分析处理平台对电力大数据进行有效存储,再结合智能算法进行高效挖掘运算,最终以有价值的信息形式展现,帮助电力操作员进行快速正确的决策判断。目前,虽然电网公司已具备海量、多样的数据资源,为电力数据的深层次分析提供了良好条件,但如何提升数据处理的性能、充分挖掘数据价值并实现数据资产管理,如何使数据成为企业核心资产是当前亟待解决的问题。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种多模异构电力大数据融合分析管理系统及方法,利用该系统和方法为电力大数据采集、集成、存储、管理、数据挖掘和决策支持提供高效的分析处理平台,并且提升数据处理的性能、充分挖掘数据价值和实现数据资产管理,为上层电力专业模型提供快速高效的数据管理保障。
为解决上述技术问题,本发明采用如下技术方案。
一种多模异构电力大数据融合分析管理系统,其包括有:多源数据采集层,用于对多个数据源进行数据采集;数据接口层,其连接于多源数据采集层,所述数据接口层对应多种数据类型而分别设有多个数据接口,并利用相应数据类型的数据接口接收多源数据采集层所采集的数据;电力大数据融合管理子系统,其连接于数据接口层,所述电力大数据融合管理子系统包括有多个开源数据库,所述开源数据库用于对所述数据接口层接收的数据进行分别存储;大数据分析引擎,其连接于电力大数据融合管理子系统,所述大数据分析引擎包括有基于Spark并行运算框架的开源算法库,通过调用开源算法库中相应的分析方法实现对所述开源数据库中存储数据的计算分析;模型访问接口层,连接于大数据分析引擎和开源数据库,所述模型访问接口层包括有多种访问接口,藉由相应的访问接口而实现对开源算法库和开源数据库的访问。
优选地,所述数据接口层包括有用于传输关系型数据的SQOOP接口、用于传输实时数据流的JMS接口和用于传输常规数据的FTP接口;所述电力大数据融合管理子系统包括有数据仓库工具Hive、Hbase数据库、SQL大数据查询工具Impala和Hadoop资源管理器YARN。
优选地,所述大数据分析引擎中的Spark并行运算框架包括有大规模流式数据处理框架Spark Streaming、用于从R语言中使用Apache Spark的语言包Spark R、机器学习算法库MLlib、用于执行图并行计算的Spark GraphX和Python编程环境。
优选地,所述大数据分析引擎中的开源算法库包括有:时空地理分析模块,用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;影响范围分析模块,用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;图计算分析模块,其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;关联关系分析模块,其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。
优选地,所述模型访问接口层包括有:Java数据库连接接口JDBC,用于执行SQL语句;开放数据库连接ODBC,用于支持SQL语言;Spark SQL,用于实现对结构化数据的计算;HUE接口,用于实现Hadoop生态系统的开发和调试。
一种多模异构电力大数据融合分析管理方法,该方法基于一系统实现,所述系统包括有多源数据采集层、数据接口层、电力大数据融合管理子系统、大数据分析引擎和模型访问接口层,其中:所述数据接口层连接于多源数据采集层,且该数据接口层对应多种数据类型而分别设有多个数据接口;所述电力大数据融合管理子系统连接于数据接口层,且该电力大数据融合管理子系统包括有多个开源数据库;所述大数据分析引擎连接于电力大数据融合管理子系统,且该大数据分析引擎包括有基于Spark并行运算框架的开源算法库;所述模型访问接口层连接于大数据分析引擎和开源数据库,且该模型访问接口层包括有多种访问接口;所述方法包括如下步骤:步骤S1,利用多源数据采集层对多个数据源进行数据采集;步骤S2,利用数据接口层中相应的数据接口接收多源数据采集层所采集的数据;步骤S3,利用电力大数据融合管理子系统中的开源数据库对所述数据接口层接收的数据进行分别存储;步骤S4,通过向大数据分析引擎的开源算法库中调用相应的分析方法,实现对所述开源数据库中存储数据的计算分析;步骤S5,利用模型访问接口层中相应的访问接口而实现对开源算法库和开源数据库的访问。
优选地,所述大数据分析引擎中的开源算法库包括有:时空地理分析模块,用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;影响范围分析模块,用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;图计算分析模块,其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;关联关系分析模块,其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。
优选地,所述时空地理分析模块构建模型的过程包括:提供时空关联模式检测方法,分析空间临近权重、时间延迟度和时空关联效应,计算相应的量化指标,以完成电力大数据的时空地理特性分析。
优选地,所述图计算分析模块的计算分析过程包括:当电力网络信息从CIM文件解析出之后,利用GraphX建立图计算模型,融合不同来源的图模型数据,确定应用目标相关的子图结构,量化二者之间的关联关系,再评估网络中一个节点对其他节点的影响力,以及评估网络中一个局部结构的稳定性。
优选地,所述关联关系分析模块的挖掘运算过程包括:利用机器学习算法库MLlib中的FP-Growth频繁项挖掘算法和Association Rules关联规则算法,对电力大数据中的多模异构数据之间的强弱关联关系进行挖掘。
本发明公开的多模异构电力大数据融合分析管理系统中,先利用多源数据采集层对多个数据源进行数据采集,再利用数据接口层中相应的数据接口接收多源数据采集层所采集的数据,之后由电力大数据融合管理子系统中的开源数据库对所述数据接口层接收的数据进行分别存储,再通过向大数据分析引擎的开源算法库中调用相应的分析方法,实现对所述开源数据库中存储数据的计算分析,最后借助模型访问接口层中相应的访问接口而实现对开源算法库和开源数据库的访问。本发明相比现有技术而言,通过设计跨领域的多模异构电力数据管理分析平台,实现对多模异构电力大数据的采集、集成、存储、管理、数据挖掘、决策支持等功能,充分发掘电力大数据内部的隐藏价值,为上层电力专业模型提供快速高效的数据管理保障和全面灵活的分析引擎,可作为解决电力系统大数据处理和快速分析处理的基础平台,由此可见,本发明适合在电力系统大数据智能信息处理领域进行推广应用,并具有较好的应用前景。
附图说明
图1为本发明多模异构电力大数据融合分析管理系统的组成框图。
图2为本发明多模异构电力大数据融合分析管理方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作更加详细的描述。
本发明公开了一种多模异构电力大数据融合分析管理系统,请参照图1,其包括有:
多源数据采集层1,用于对多个数据源进行数据采集;
数据接口层2,其连接于多源数据采集层1,所述数据接口层2对应多种数据类型而分别设有多个数据接口,并利用相应数据类型的数据接口接收多源数据采集层1所采集的数据;
电力大数据融合管理子系统3,其连接于数据接口层2,所述电力大数据融合管理子系统3包括有多个开源数据库,所述开源数据库用于对所述数据接口层2接收的数据进行分别存储;
大数据分析引擎4,其连接于电力大数据融合管理子系统3,所述大数据分析引擎4包括有基于Spark并行运算框架的开源算法库,通过调用开源算法库中相应的分析方法实现对所述开源数据库中存储数据的计算分析;
模型访问接口层5,连接于大数据分析引擎4和开源数据库,所述模型访问接口层5包括有多种访问接口,藉由相应的访问接口而实现对开源算法库和开源数据库的访问。
上述多模异构电力大数据融合分析管理系统中,先利用多源数据采集层1对多个数据源进行数据采集,再利用数据接口层2中相应的数据接口接收多源数据采集层1所采集的数据,之后由电力大数据融合管理子系统3中的开源数据库对所述数据接口层2接收的数据进行分别存储,再通过向大数据分析引擎4的开源算法库中调用相应的分析方法,实现对所述开源数据库中存储数据的计算分析,最后借助模型访问接口层5中相应的访问接口而实现对开源算法库和开源数据库的访问。本发明相比现有技术而言,通过设计跨领域的多模异构电力数据管理分析平台,实现对多模异构电力大数据的采集、集成、存储、管理、数据挖掘、决策支持等功能,充分发掘电力大数据内部的隐藏价值,为上层电力专业模型提供快速高效的数据管理保障和全面灵活的分析引擎,可作为解决电力系统大数据处理和快速分析处理的基础平台,由此可见,本发明适合在电力系统大数据智能信息处理领域进行推广应用,并具有较好的应用前景。
上述多源数据采集层1中,多种数据源包括:生产管理系统11,其涉及设备信息、部件信息、设备功能位置、变电站、集控中心、线路等;能量管理系统12,例如EMS测量数据;输变电评价系统13,例如在线监测数据;高压试验系统14,例如高压试验数据;其他业务系统15,如气象系统数据、雷电系统数据、电能质量、电压监视数据、红外图像、视频影音等。
作为一种优选方式,所述数据接口层2包括有用于传输关系型数据的SQOOP接口21、用于传输实时数据流的JMS接口22和用于传输常规数据的FTP接口23。进一步地,系统提供Hive数据库访问地址、端口、用户名、密码、数据库等必要信息,通过建立相应的SQOOP语句实现表更新,大数据平台同时提供了HBase/Impala数据库,也可基于SQOOP语句导入。JMS接口负责传输任务之间调度的实时数据,存入Hive/HBase管理。常规数据接口FTP服务包括FTP服务器地址、端口、用户名、密码等必要信息,并把数据存入分布式文件HDFS系统,对外提供访问接口。
所述电力大数据融合管理子系统3包括有数据仓库工具Hive31、Hbase数据库32、SQL大数据查询工具Impala33和Hadoop资源管理器YARN34。其中,Hive是Hadoop的一个数据仓库工具,通过类SQL语句快速实现MapReduce统计,适合数据仓库的统计分析。Hbase在Hadoop之上提供了类似于Bigtable的能力,适合于非结构化数据存储的、面向列的开源数据库。Impala是一种新型查询系统,提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据,满足查询的交互性,进一步提高查询速度。Hadoop通过YARN实现资源的调度与管理,能够运行多种计算框架。本发明将上述各种开源数据库进行集成融合,改变单一数据库服务器无法胜任的多种结构大数据的存储和管理。
所述大数据分析引擎4中的Spark并行运算框架包括有大规模流式数据处理框架Spark Streaming41、用于从R语言中使用Apache Spark的语言包Spark R42、机器学习算法库MLlib43、用于执行图并行计算的Spark GraphX44和Python编程环境45。其中,底层主要采用的是Spark通用大数据计算框架系统,包括Spark Streaming大规模流式数据处理框架,适合复杂的批量数据处理、基于历史数据的交互式查询、和基于实时数据流的数据处理。Spark R可用于从R语言中使用Apache Spark,Spark R通过RDD类暴露Spark API,允许用户以交互方式在集群上从R shell运行jobs。MLlib是一个机器学习算法库,用来在集群上进行分类、回归、聚类、协同过滤等处理。Spark GraphX用来处理图,执行基于图的并行操作。此外,还采用Python编程环境,对各种高级任务实现扩展和支持。
在上述通用Spark计算框架结合Python编程语言的基础上,所述大数据分析引擎4中的开源算法库还包括有:
时空地理分析模块46,用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;
影响范围分析模块47,用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;
图计算分析模块48,其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;
关联关系分析模块49,其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。
关于本发明的接口规范设计,所述模型访问接口层5包括有:
Java数据库连接接口JDBC51,用于执行SQL语句;
开放数据库连接ODBC52,用于支持SQL语言;
Spark SQL53,用于实现对结构化数据的计算;
HUE接口54,用于实现Hadoop生态系统的开发和调试。
上述系统在实际应用中,电力专业模型6可以方便的调用数据平台的历史数据库或分布式数据文件,在数据分析引擎的支持下进行快速分析,所得大量的结果和信息会传输到集成应用展示单元7,进行二维或者三维的显示,从而使电力系统操作员及时掌握电网或设备的动态,帮助操作员快速做出正确的决策。
为了更好地说明本发明的技术方案,本发明还公开了一种多模异构电力大数据融合分析管理方法,结合图1和图2所示,该方法基于一系统实现,所述系统包括有多源数据采集层1、数据接口层2、电力大数据融合管理子系统3、大数据分析引擎4和模型访问接口层5,其中:
所述数据接口层2连接于多源数据采集层1,且该数据接口层2对应多种数据类型而分别设有多个数据接口;
所述电力大数据融合管理子系统3连接于数据接口层2,且该电力大数据融合管理子系统3包括有多个开源数据库;
所述大数据分析引擎4连接于电力大数据融合管理子系统3,且该大数据分析引擎4包括有基于Spark并行运算框架的开源算法库;
所述模型访问接口层5连接于大数据分析引擎4和开源数据库,且该模型访问接口层5包括有多种访问接口;
所述方法包括如下步骤:
步骤S1,利用多源数据采集层1对多个数据源进行数据采集;
步骤S2,利用数据接口层2中相应的数据接口接收多源数据采集层1所采集的数据;
步骤S3,利用电力大数据融合管理子系统3中的开源数据库对所述数据接口层2接收的数据进行分别存储;
步骤S4,通过向大数据分析引擎4的开源算法库中调用相应的分析方法,实现对所述开源数据库中存储数据的计算分析;
步骤S5,利用模型访问接口层5中相应的访问接口而实现对开源算法库和开源数据库的访问。
基于上述方法,为多模异构电力大数据采集、集成、存储、管理、数据挖掘和决策支持提供了高效的分析处理方案,有效提升了数据处理的性能、充分挖掘了数据价值以及实现了数据资产管理,为上层电力专业模型提供了快速高效的数据管理保障。
关于大数据分析引擎以及相关分析模块,所述大数据分析引擎4中的开源算法库包括有:
时空地理分析模块46,用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;进一步地,所述时空地理分析模块46构建模型的过程包括:提供时空关联模式检测方法,分析空间临近权重、时间延迟度和时空关联效应,计算相应的量化指标,以完成电力大数据的时空地理特性分析;
影响范围分析模块47,用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;
图计算分析模块48,其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;进一步地,所述图计算分析模块48的计算分析过程包括:当电力网络信息从CIM文件解析出之后,利用GraphX建立图计算模型,融合不同来源的图模型数据,确定应用目标相关的子图结构,量化二者之间的关联关系,再评估网络中一个节点对其他节点的影响力,以及评估网络中一个局部结构的稳定性;
关联关系分析模块49,其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。进一步地,所述关联关系分析模块49的挖掘运算过程包括:利用机器学习算法库MLlib中的FP-Growth频繁项挖掘算法和Association Rules关联规则算法,对电力大数据中的多模异构数据之间的强弱关联关系进行挖掘;
本发明公开的多模异构电力大数据融合分析管理系统和方法,其实际应用过程,可参照如下实施例:
本实施例中的多模异构电力大数据融合分析系统,包含多模异构数据源、多源数据接口层、电力大数据融合管理子系统、大数据分析引擎和模型访问接口层,上述系统的运行过程包括如下步骤:
首先,所述电力大数据从不同的数据源中采集,通过数据接口层传输进入大数据融合管理子系统。其中,针对关系型数据的传输采用SQOOP接口、针对实时数据流采用JMS传输接口、针对常规数据采用FTP,所述电力大数据的采集和传输过程涉及大数据接口层的多种接口集成融合的模式,提供多种语言(Python\Java\Scala)的访问形式。
其次,所述电力大数据融合管理子系统集成融合了Hive、Hbase、Impala、HDFSYARN等多种数据管理结构,涵盖了结构化、半结构化和非结构化格式的电力数据存储,可接收来自上层模型作业的提交请求,以及查询和传输数据。
再次,所述电力大数据系统的分析引擎是关键部分,其采用了基于Spark并行运算框架的开源算法库,包括Spark Stream、Spark R、MLlib、Spark GraphX和Python编程语言环境,集成上述工具后,使得系统平台具有较好的通用性和灵活性,用户可随时调用通用分析方法,方便地利用平台的分布式计算资源。
此外,电力大数据分析引擎子系统,在各种基于Spark并行运算框架的基础上,设置了分析引擎的计算模块,包括时空地理分析模块、影响范围分析模块、图计算分析模块和关联关系分析模块,该分析引擎子系统的具体实现原理如下:
时空地理分析模块通过时空网络模型和面向过程的时空数据模型建立时间邻域和空间邻域索引方法,提供时空关联模式检测方法,分析空间临近权重、时间延迟度、时空关联效应等,并计算相应的量化指标,完成电力大数据的时空地理特性分析;
影响范围分析模块提供了对确定图中两节点的可达性查询,并计算最短可达路径及其距离,对于不确定图则通过可能世界模型推演出结构确定图,再将这些确定图做类似的可达性查询,此模块结合集成应用展示可进行二维或三维的影响范围直观演示;
图计算分析模块基于GraphX,将图作为一种数据结构的抽象表达,适用于电力网络的拓扑结构表示,大量的电力网络信息从CIM文件解析出之后,利用GraphX建立图计算模型,融合不同来源的图模型数据,研究应用目标相关的子图结构,量化二者之间的关联关系,可评估网络中一个节点对其他节点的影响力,并评估网络中一个局部结构的稳定性;
关联关系分析模块基于机器学习算法库MLlib中的频繁模式挖掘类算法,主要采用FP-Growth频繁项挖掘和Association Rules关联规则算法,对电力大数据中的多模异构数据之间的强弱关联关系进行深度挖掘,找出潜在的强弱关联关系,去除电力信息孤岛,建立电力大数据的有效信息数据库。
最后,所述电力大数据系统的模型访问接口层,其连接于专业模型与分析引擎之间,同时与数据库之间的数据通信也保持畅通,针对大数据管理层所包含的数据库形式,主要提供了JDBC、ODBC、Spark SQL、HUE等接口,这些接口在一种或者多种编译语言环境下可兼容。
本发明公开的多模异构电力大数据融合分析管理系统及方法,其结合并行集群计算环境Spark和分布式存储,设计了多模异构数据集成融合管理结构、高效分析引擎以及相应接口,实现了对多模异构电力大数据的高效管理和分析。其中的数据采集接口针对数据库历史数据,离线文本文件和在线流数据进行设计开发,高效分析引擎由基于内存计算的开源分布式计算框架、多个开源科学计算模块和多个自主研发的数据分析模块组成,针对大数据管理层所包含的数据库形式开发了连接专业模型与分析引擎之间的访问接口,在一种或者多种编译语言环境下可兼容。基于上述解决方案,本发明为进一步探究电网运行状态、设备寿命与相关因素分析提供了技术支持,是挖掘电网数据库与知识库之间内在关联的有效途径。
以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。
Claims (10)
1.一种多模异构电力大数据融合分析管理系统,其特征在于,包括有:
多源数据采集层(1),用于对多个数据源进行数据采集;
数据接口层(2),其连接于多源数据采集层(1),所述数据接口层(2)对应多种数据类型而分别设有多个数据接口,并利用相应数据类型的数据接口接收多源数据采集层(1)所采集的数据;
电力大数据融合管理子系统(3),其连接于数据接口层(2),所述电力大数据融合管理子系统(3)包括有多个开源数据库,所述开源数据库用于对所述数据接口层(2)接收的数据进行分别存储;
大数据分析引擎(4),其连接于电力大数据融合管理子系统(3),所述大数据分析引擎(4)包括有基于Spark并行运算框架的开源算法库,通过调用开源算法库中相应的分析方法实现对所述开源数据库中存储数据的计算分析;
模型访问接口层(5),连接于大数据分析引擎(4)和开源数据库,所述模型访问接口层(5)包括有多种访问接口,藉由相应的访问接口而实现对开源算法库和开源数据库的访问。
2.如权利要求1所述的多模异构电力大数据融合分析管理系统,其特征在于,所述数据接口层(2)包括有用于传输关系型数据的SQOOP接口(21)、用于传输实时数据流的JMS接口(22)和用于传输常规数据的FTP接口(23);
所述电力大数据融合管理子系统(3)包括有数据仓库工具Hive(31)、Hbase数据库(32)、SQL大数据查询工具Impala(33)和Hadoop资源管理器YARN(34)。
3.如权利要求1所述的多模异构电力大数据融合分析管理系统,其特征在于,所述大数据分析引擎(4)中的Spark并行运算框架包括有大规模流式数据处理框架Spark Streaming(41)、用于从R语言中使用Apache Spark的语言包Spark R(42)、机器学习算法库MLlib(43)、用于执行图并行计算的Spark GraphX(44)和Python编程环境(45)。
4.如权利要求1所述的多模异构电力大数据融合分析管理系统,其特征在于,所述大数据分析引擎(4)中的开源算法库包括有:
时空地理分析模块(46),用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;
影响范围分析模块(47),用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;
图计算分析模块(48),其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;
关联关系分析模块(49),其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。
5.如权利要求1所述的多模异构电力大数据融合分析管理系统,其特征在于,所述模型访问接口层(5)包括有:
Java数据库连接接口JDBC(51),用于执行SQL语句;
开放数据库连接ODBC(52),用于支持SQL语言;
Spark SQL(53),用于实现对结构化数据的计算;
HUE接口(54),用于实现Hadoop生态系统的开发和调试。
6.一种多模异构电力大数据融合分析管理方法,其特征在于,该方法基于一系统实现,所述系统包括有多源数据采集层(1)、数据接口层(2)、电力大数据融合管理子系统(3)、大数据分析引擎(4)和模型访问接口层(5),其中:
所述数据接口层(2)连接于多源数据采集层(1),且该数据接口层(2)对应多种数据类型而分别设有多个数据接口;
所述电力大数据融合管理子系统(3)连接于数据接口层(2),且该电力大数据融合管理子系统(3)包括有多个开源数据库;
所述大数据分析引擎(4)连接于电力大数据融合管理子系统(3),且该大数据分析引擎(4)包括有基于Spark并行运算框架的开源算法库;
所述模型访问接口层(5)连接于大数据分析引擎(4)和开源数据库,且该模型访问接口层(5)包括有多种访问接口;
所述方法包括如下步骤:
步骤S1,利用多源数据采集层(1)对多个数据源进行数据采集;
步骤S2,利用数据接口层(2)中相应的数据接口接收多源数据采集层(1)所采集的数据;
步骤S3,利用电力大数据融合管理子系统(3)中的开源数据库对所述数据接口层(2)接收的数据进行分别存储;
步骤S4,通过向大数据分析引擎(4)的开源算法库中调用相应的分析方法,实现对所述开源数据库中存储数据的计算分析;
步骤S5,利用模型访问接口层(5)中相应的访问接口而实现对开源算法库和开源数据库的访问。
7.如权利要求6所述的多模异构电力大数据融合分析管理方法,其特征在于,所述大数据分析引擎(4)中的开源算法库包括有:
时空地理分析模块(46),用于构建设备、电网和环境大数据的时空关联及约束过程反馈模型;
影响范围分析模块(47),用于为确定图中两节点提供可达性查询,以及计算最短可达路径及距离;
图计算分析模块(48),其利用GraphX计算工具对电网拓扑结构形成的图类进行计算分析;
关联关系分析模块(49),其利用机器学习算法库MLlib中的挖掘算法,对电网运行状态、设备状态和环境因素之间的强弱关联关系进行挖掘,并建立关联关系库。
8.如权利要求7所述的多模异构电力大数据融合分析管理方法,其特征在于,所述时空地理分析模块(46)构建模型的过程包括:提供时空关联模式检测方法,分析空间临近权重、时间延迟度和时空关联效应,计算相应的量化指标,以完成电力大数据的时空地理特性分析。
9.如权利要求7所述的多模异构电力大数据融合分析管理方法,其特征在于,所述图计算分析模块(48)的计算分析过程包括:当电力网络信息从CIM文件解析出之后,利用GraphX建立图计算模型,融合不同来源的图模型数据,确定应用目标相关的子图结构,量化二者之间的关联关系,再评估网络中一个节点对其他节点的影响力,以及评估网络中一个局部结构的稳定性。
10.如权利要求7所述的多模异构电力大数据融合分析管理方法,其特征在于,所述关联关系分析模块(49)的挖掘运算过程包括:利用机器学习算法库MLlib中的FP-Growth频繁项挖掘算法和Association Rules关联规则算法,对电力大数据中的多模异构数据之间的强弱关联关系进行挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710404706.8A CN108985531A (zh) | 2017-06-01 | 2017-06-01 | 一种多模异构电力大数据融合分析管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710404706.8A CN108985531A (zh) | 2017-06-01 | 2017-06-01 | 一种多模异构电力大数据融合分析管理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108985531A true CN108985531A (zh) | 2018-12-11 |
Family
ID=64501607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710404706.8A Pending CN108985531A (zh) | 2017-06-01 | 2017-06-01 | 一种多模异构电力大数据融合分析管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108985531A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109587153A (zh) * | 2018-12-14 | 2019-04-05 | 中国人民解放军国防科技大学 | 基于数据流定制的通用生态安全监测数据采集方法与装置 |
CN109656917A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 多数据源的数据检测方法、装置、设备及可读存储介质 |
CN109697251A (zh) * | 2018-12-27 | 2019-04-30 | 国网电子商务有限公司 | 基于分布式光伏电站的云计算方法及云服务平台 |
CN110531926A (zh) * | 2019-08-01 | 2019-12-03 | 深圳供电局有限公司 | 一种基于云平台的电力数据管理系统 |
CN110532283A (zh) * | 2019-09-03 | 2019-12-03 | 衢州学院 | 一种基于Hadoop集群架构的智慧城市大数据处理系统 |
CN111078781A (zh) * | 2019-12-30 | 2020-04-28 | 电信科学技术第五研究所有限公司 | 一种多源流式大数据融合汇聚处理框架模型实现方法 |
CN111159152A (zh) * | 2019-12-28 | 2020-05-15 | 国网安徽省电力有限公司 | 基于大数据处理技术的二次运维数据融合方法 |
CN111884347A (zh) * | 2020-08-28 | 2020-11-03 | 国网山东省电力公司郯城县供电公司 | 多源电力信息融合的电力数据集中控制系统 |
CN112016832A (zh) * | 2020-08-28 | 2020-12-01 | 南京华盾电力信息安全测评有限公司 | 一种电厂数据处理方法、系统及存储介质 |
CN112612823A (zh) * | 2020-12-14 | 2021-04-06 | 南京铁道职业技术学院 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
CN112688435A (zh) * | 2021-01-15 | 2021-04-20 | 广东电网有限责任公司广州供电局 | 电网综合监控方法、装置、控制系统和存储介质 |
CN112785108A (zh) * | 2019-11-11 | 2021-05-11 | 国网天津市电力公司 | 一种基于调控云的电网运行数据关联分析方法及系统 |
CN113259251A (zh) * | 2021-06-17 | 2021-08-13 | 广东电网有限责任公司湛江供电局 | 一种多模融合通信的路由组网方法及装置 |
CN113377877A (zh) * | 2021-08-10 | 2021-09-10 | 深圳市爱云信息科技有限公司 | 多引擎大数据平台 |
CN113486106A (zh) * | 2021-07-30 | 2021-10-08 | 西安西热电站信息技术有限公司 | 一种Python获取SIS或监管系统数据并大数据分析的方法 |
CN114416705A (zh) * | 2021-11-09 | 2022-04-29 | 北京泰策科技有限公司 | 一种多源异构数据融合建模方法 |
CN114547160A (zh) * | 2022-01-06 | 2022-05-27 | 华能威海发电有限责任公司 | 一种应用于电力并网的涉外数据子站整合系统 |
CN115441584A (zh) * | 2022-09-02 | 2022-12-06 | 湖南第一师范学院 | 一种多模态低压电器在线监测方法与系统 |
CN116737817A (zh) * | 2023-08-04 | 2023-09-12 | 深圳市智慧城市科技发展集团有限公司 | 多源异构数据融合方法、设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
US20150363108A1 (en) * | 2011-05-03 | 2015-12-17 | Space-Time Insight | Space-time-node engine signal structure |
CN105574643A (zh) * | 2015-11-23 | 2016-05-11 | 江苏瑞中数据股份有限公司 | 一种电网实时数据中心与大数据平台融合方法 |
CN106570081A (zh) * | 2016-10-18 | 2017-04-19 | 同济大学 | 基于语义网的大规模离线数据分析框架 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
-
2017
- 2017-06-01 CN CN201710404706.8A patent/CN108985531A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150363108A1 (en) * | 2011-05-03 | 2015-12-17 | Space-Time Insight | Space-time-node engine signal structure |
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
CN105574643A (zh) * | 2015-11-23 | 2016-05-11 | 江苏瑞中数据股份有限公司 | 一种电网实时数据中心与大数据平台融合方法 |
CN106570081A (zh) * | 2016-10-18 | 2017-04-19 | 同济大学 | 基于语义网的大规模离线数据分析框架 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109587153B (zh) * | 2018-12-14 | 2021-01-15 | 中国人民解放军国防科技大学 | 基于数据流定制的通用生态安全监测数据采集方法与装置 |
CN109587153A (zh) * | 2018-12-14 | 2019-04-05 | 中国人民解放军国防科技大学 | 基于数据流定制的通用生态安全监测数据采集方法与装置 |
CN109656917A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 多数据源的数据检测方法、装置、设备及可读存储介质 |
CN109697251A (zh) * | 2018-12-27 | 2019-04-30 | 国网电子商务有限公司 | 基于分布式光伏电站的云计算方法及云服务平台 |
CN110531926A (zh) * | 2019-08-01 | 2019-12-03 | 深圳供电局有限公司 | 一种基于云平台的电力数据管理系统 |
CN110532283A (zh) * | 2019-09-03 | 2019-12-03 | 衢州学院 | 一种基于Hadoop集群架构的智慧城市大数据处理系统 |
CN112785108A (zh) * | 2019-11-11 | 2021-05-11 | 国网天津市电力公司 | 一种基于调控云的电网运行数据关联分析方法及系统 |
CN111159152A (zh) * | 2019-12-28 | 2020-05-15 | 国网安徽省电力有限公司 | 基于大数据处理技术的二次运维数据融合方法 |
CN111159152B (zh) * | 2019-12-28 | 2023-06-09 | 国网安徽省电力有限公司 | 基于大数据处理技术的二次运维数据融合方法 |
CN111078781A (zh) * | 2019-12-30 | 2020-04-28 | 电信科学技术第五研究所有限公司 | 一种多源流式大数据融合汇聚处理框架模型实现方法 |
CN111078781B (zh) * | 2019-12-30 | 2023-05-26 | 电信科学技术第五研究所有限公司 | 一种多源流式大数据融合汇聚处理框架模型实现方法 |
CN111884347A (zh) * | 2020-08-28 | 2020-11-03 | 国网山东省电力公司郯城县供电公司 | 多源电力信息融合的电力数据集中控制系统 |
CN112016832A (zh) * | 2020-08-28 | 2020-12-01 | 南京华盾电力信息安全测评有限公司 | 一种电厂数据处理方法、系统及存储介质 |
CN111884347B (zh) * | 2020-08-28 | 2021-07-13 | 国网山东省电力公司郯城县供电公司 | 多源电力信息融合的电力数据集中控制系统 |
CN112612823A (zh) * | 2020-12-14 | 2021-04-06 | 南京铁道职业技术学院 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
CN112612823B (zh) * | 2020-12-14 | 2022-07-19 | 南京铁道职业技术学院 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
CN112688435A (zh) * | 2021-01-15 | 2021-04-20 | 广东电网有限责任公司广州供电局 | 电网综合监控方法、装置、控制系统和存储介质 |
CN113259251A (zh) * | 2021-06-17 | 2021-08-13 | 广东电网有限责任公司湛江供电局 | 一种多模融合通信的路由组网方法及装置 |
CN113486106B (zh) * | 2021-07-30 | 2023-03-14 | 西安西热电站信息技术有限公司 | 一种Python获取SIS或监管系统数据并大数据分析的方法 |
CN113486106A (zh) * | 2021-07-30 | 2021-10-08 | 西安西热电站信息技术有限公司 | 一种Python获取SIS或监管系统数据并大数据分析的方法 |
CN113377877A (zh) * | 2021-08-10 | 2021-09-10 | 深圳市爱云信息科技有限公司 | 多引擎大数据平台 |
CN114416705A (zh) * | 2021-11-09 | 2022-04-29 | 北京泰策科技有限公司 | 一种多源异构数据融合建模方法 |
CN114547160A (zh) * | 2022-01-06 | 2022-05-27 | 华能威海发电有限责任公司 | 一种应用于电力并网的涉外数据子站整合系统 |
CN114547160B (zh) * | 2022-01-06 | 2023-02-03 | 华能威海发电有限责任公司 | 一种应用于电力并网的涉外数据子站整合系统 |
CN115441584A (zh) * | 2022-09-02 | 2022-12-06 | 湖南第一师范学院 | 一种多模态低压电器在线监测方法与系统 |
CN115441584B (zh) * | 2022-09-02 | 2023-07-14 | 湖南第一师范学院 | 一种多模态低压电器在线监测方法与系统 |
CN116737817A (zh) * | 2023-08-04 | 2023-09-12 | 深圳市智慧城市科技发展集团有限公司 | 多源异构数据融合方法、设备及计算机可读存储介质 |
CN116737817B (zh) * | 2023-08-04 | 2023-11-07 | 深圳市智慧城市科技发展集团有限公司 | 多源异构数据融合方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985531A (zh) | 一种多模异构电力大数据融合分析管理系统及方法 | |
CN105023188B (zh) | 一种基于云数据的数字化城市管理数据共享系统 | |
CN102882969B (zh) | 一种工矿企业的安全生产云服务平台 | |
CN102932419B (zh) | 一种用于面向工矿企业的安全生产云服务平台的数据存储系统 | |
CN105608144B (zh) | 一种基于多层模型迭代的大数据分析平台装置及方法 | |
CN109408548A (zh) | 一种城市电力大数据应用系统及方法 | |
CN102917032B (zh) | 一种工矿企业的安全生产云服务平台 | |
CN102880802B (zh) | 一种用于面向工矿企业安全生产云服务平台系统的重大危险源的分析评价方法 | |
CN103532739B (zh) | 一种基于网络服务与应用的监控分析系统 | |
CN107733986A (zh) | 支持一体化部署及监控的保护运行大数据支撑平台 | |
CN112165513A (zh) | 一种流域水环境水生态智慧化管理的云边协同平台架构 | |
CN109523446A (zh) | 一种面向价格领域的大数据处理分析系统 | |
CN102929827B (zh) | 一种用于矿企安全生产云平台的无线传感器数据采集集群 | |
CN109976268A (zh) | 在过程控制系统中的大数据 | |
CN102903011A (zh) | 一种用于面向工矿企业的安全生产云服务平台的海量数据处理系统 | |
CN105069025A (zh) | 一种大数据的智能聚合可视化与管控系统 | |
CN102903010A (zh) | 一种用于面向工矿企业的安全生产云服务平台的基于支持向量机的异常判断方法 | |
Lujic et al. | Efficient edge storage management based on near real-time forecasts | |
CN108777637A (zh) | 一种支持服务器异构的数据中心综合管理系统和方法 | |
CN107343010B (zh) | 面向类型化资源的自动安全态势感知、分析与报警系统 | |
CN102903009B (zh) | 一种用于面向工矿企业的安全生产云服务平台的基于广义规则推理的异常诊断方法 | |
CN112651872A (zh) | 一种基于数据中台的社区综合治理的系统和方法 | |
Parygin et al. | A convergent model for distributed processing of Big Sensor Data in urban engineering networks | |
CN114153920A (zh) | 大数据边平台与方法 | |
CN109977125A (zh) | 一种基于网络安全的大数据安全分析平台系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181211 |