CN107729410A - 一种适用于电力设备大数据的数据库引擎 - Google Patents

一种适用于电力设备大数据的数据库引擎 Download PDF

Info

Publication number
CN107729410A
CN107729410A CN201710883241.9A CN201710883241A CN107729410A CN 107729410 A CN107729410 A CN 107729410A CN 201710883241 A CN201710883241 A CN 201710883241A CN 107729410 A CN107729410 A CN 107729410A
Authority
CN
China
Prior art keywords
data
database engine
scheduler
big data
power equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710883241.9A
Other languages
English (en)
Inventor
张炜
黎新
邬蓉蓉
郭丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority to CN201710883241.9A priority Critical patent/CN107729410A/zh
Publication of CN107729410A publication Critical patent/CN107729410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Abstract

本发明涉及一种数据库引擎,具体涉及一种适用于电力设备大数据的数据库引擎,具体包括协调节点、工作节点;协调节点包括解析器、计划器、调度器;解析器、计划器、调度器依次连接,本发明率先实现了统一量测点与时标的数据视图,避免了因元数据结构和关系等导致数据表繁多的被动局面,极大地适应了海量结构化数据高并发、低时延的存储需求;创造性地提出了面向电力监控系统量测点时间序列数据的索引结构,打破了关系型数据库仅能进行单列索引的应用局限,极大地提升了检索和读写数据的效率。

Description

一种适用于电力设备大数据的数据库引擎
技术领域
本发明涉及一种数据库引擎,具体涉及一种适用于电力设备大数据的数据库引擎。
背景技术
大数据(big data)可以通俗地理解为无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。鉴于大数据潜在的巨大影响,很多国家都将大数据视作战略资源,并将大数据研究提升为国家战略,涉及金融、电信、网络、零售、制造、医疗及科技领域。大数据在能源电力领域的应用属于起步阶段。2013年,中国电机工程学会发布了《中国电力大数据发展白皮书》,白皮书第一次提出了电力大数据的定义,并指出重塑电力核心价值和转变电力发展方式是中国电力大数据的两条核心主线。大数据的应用流程一般可分为数据获取和集成、数据解释和分析(数据解析)、分析结果展示等环节。其中,数据解析是重要环节。
近期国内外研究采用映射-规约(大数据并行计算框架(MapReduce))和基于内存计算(Spark)的并行大数据计算模型,重新设计和实现适用于大数据的挖掘算法。当前,在各类分析挖掘算法和子系统的信息融合分析中采用数据仓库基础构架(Hive)技术已成为研究热点。数据仓库基础构架(Hive)是基于Hadoop平台的数据仓库,已经成为Hadoop事实上的SQL引擎标准。相较于大数据并行计算框架(MapReduce)、Shark等方法,数据仓库基础构架(Hive)将拥有更为广泛的用户基础以及对结构化查询语言(Structured QueryLanguage,SQL)语法更全面的支持。数据仓库基础构架(Hive)仍主要依赖大数据并行计算框架(MapReduce)进行运行,所以随着年龄的上升,其在速度上已不能满足日益增长的数据要求。同时,随着电网规模的与日俱增,省级电网的输变电设备状态监测评价中心中的数据规模也急剧膨胀,浏览一个完整的省级电网企业输变电一次设备的各类数据集可能要花费几分到几小时,这已完全不适应智能电网的发展需求。
鉴于HIVE相对于其他大数据组件虽然比较成熟和稳定,但由于其使用MapReduce作为后台计算引擎,导致HIVE的实时响应能力较差,不宜用于实时交互分析场景,无法满足电力大数据实时数据分析需求。所以有必要深入挖掘输变电一次设备数据的特征,设计并应用一种专门的高速、实时的数据库解析引擎。
发明内容
为了解决上述问题,本发明提供了一种适用于电力设备大数据的数据库引擎,具体技术方案如下:
一种适用于电力设备大数据的数据库引擎包括协调节点、工作节点;所述协调节点包括解析器、计划器、调度器;所述解析器、计划器、调度器依次连接,所述解析器用于解析客户端的查询请求中的任务并将解析的结果输入计划器,计划器用于将解析器输出的结果进行编排和优化,并将编排和优化的结果输入至调度器,所述调度器用于将任务调度到合适的工作节点;所述工作节点用于接收调度器调度的任务并在对应存储组件中解析、查询,并把查询结果返回至协调节点;所述协调节点用于将工作节点返回的查询结果进一步处理得到最终结果并返回给客户端。
进一步,所述工作节点设置2个及以上。
进一步,还包括连接器;所述连接器包括元数据获取接口、数据存储位置获取接口、数据获取接口;所述元数据获取接口用于获取数据结构和数据类型;所述数据存储位置获取接口用于获取所需数据的存储组件以及存储位置;所述数据获取接口用于针对具体的存储组件获取数据,并将所获取的数据转换为关系表;所述连接器与存储组件连接。
进一步,所述数据库引擎针对不同的存储组件设置对应的连接器。
进一步,所述客户端的查询请求由SQL语句编写而成。
进一步,所述解析器用于对客户端的查询请求的语法进行检查和分析客户端的查询请求包含的操作任务和数据源。
本发明的有益效果为:
本发明可以进行跨数据库中SQL查询,使用户可以不必了解后台多种数据源的数据集成方式和数据的具体位置,而开发人员可将更多精力投入在应用处理而不是数据的管理上;业务上可以解决跨状态监测、状态评价等不同数据库的关联查询,提高应用开发效率;
相比于传统的HIVE查询引擎,本发明使用内存计算,避免大量的IO操作从而提高了数据处理速度;
本发明解决了行业内缺少诊断故障类型和判断故障位置的应用局限,缩短了故障排查和抢修复电的响应时间,避免了酿成电力安全生产事件。
率先实现了统一量测点与时标的数据视图,避免了因元数据结构和关系等导致数据表繁多的被动局面,极大地适应了海量结构化数据高并发、低时延的存储需求。
创造性地提出了面向电力监控系统量测点时间序列数据的索引结构,打破了关系型数据库仅能进行单列索引的应用局限,极大地提升了检索和读写数据的效率。
附图说明
图1为本发明的结构示意图。
具体实施方式
为了更好的理解本发明,下面结合附图和具体实施例对本发明作进一步说明:
如图1所示,一种适用于电力设备大数据的数据库引擎包括协调节点、工作节点;协调节点包括解析器、计划器、调度器;解析器、计划器、调度器依次连接,解析器用于对客户端的查询请求的语法进行检查和分析客户端的查询请求包含的操作任务和数据源、解析客户端的查询请求中的任务并将解析的结果输入计划器,计划器用于将解析器输出的结果进行编排和优化,并将编排和优化的结果输入至调度器,调度器用于将任务调度到合适的工作节点;工作节点用于接收调度器调度的任务并在对应存储组件中解析、查询,并把查询结果返回至协调节点;协调节点用于将工作节点返回的查询结果进一步处理得到最终结果并返回给客户端。工作节点设置3个。
状态监测、状态评价、设备缺陷、检修计划、预防性试验、设备操作等大量输变电一次设备数据被存储于分布式文件系统(HDFS)之外的存储系统,例如:Oralce、Mysql、Cassandra以及其他的存储系统存储组件中,而本发明设计了简单易用的数据存储的抽象层,满足在不同数据存储系统均可应用结构化查询语言(SQL)进行解析。由于不同的存储组件对数据的访问方式不一样,本发明的一种适用于电力设备大数据的数据库引擎还包括连接器;连接器包括元数据获取接口、数据存储位置获取接口、数据获取接口;元数据获取接口用于获取数据结构和数据类型;数据存储位置获取接口用于获取所需数据的存储组件以及存储位置;数据获取接口用于针对具体的存储组件获取数据,并将所获取的数据转换为关系表;连接器与存储组件连接。本发明针对每种存储组件配置一个连接器。
其中,客户端的查询请求由SQL语句编写而成。
存储组件包括Hive、Oracle、Cassandra、Fastar。
下面对本发明提供的一种适用于电力设备大数据的数据库引擎的工作流程做进一步描述:
(1)客户端向协调节点发起查询请求;
(2)协调节点接收客户端发来的查询请求,解析器对客户端的查询请求进行语法检查;并分析客户端的查询请求包含的操作和数据源、分解查询请求中具体包含的任务,并将解析的结果输入计划器;
(3)计划器根据解析器输出的结果将解析器解析出来包含的任务的执行顺序、执行参数进行编排和优化,并将编排和优化的结果输入至调度器;
(4)调度器将任务调度到合适的工作节点;
(5)工作节点接收调度器调度的任务并在对应存储组件中解析、查询,并把查询结果返回至协调节点;其中,工作节点在对应存储组件中查询、解析的步骤包括:
1)工作节点若在对应存储组件中发现需查询解析的信息对象的关键字,则查询解析成功;并在停止针对对应存储组件的查询解析后,向协调节点反馈结果;
2)工作节点若未在对应存储组件中发现需查询解析的信息对象的关键字,则查询解析失败;并在停止针对对应存储组件的查询解析后,向协调节点反馈结果;
其中,协调节点接到工作节点的反馈结果后,选择执行对应的操作步骤:
1)若协调节点接收到工作节点在对应存储组件中查询解析成功的反馈结果,则停止查询解析过程,并抽取需查询抽取对象的副本信息;
2)若协调节点接收到工作节点在对应存储组件中查询解析失败的反馈结果,则继续查询其余存储组件中的信息对象,直至在全部存储组件中均反馈查询解析失败结果后,协调节点停止查询解析过程。
(6)协调节点将工作节点返回的查询结果进一步处理得到最终结果并返回给客户端。
下面以实际应用场景进一步说明本发明的工作流程,调度数据密度较高,且单个数据记录数据量较小,这样的时序数据通常存放在时序数据库中,同时在关系数据库的台账数据中存放着测点名称,时序数据库通常按测点管理数据,通过测点名称查询时序数据,下面语句的功能是查询X变电站的2017-01-01 00:00:00到2017-02-01 00:00:00的调度数据:
select t1.* from fastar.default.data_table t1 where t1.name in (selectpoint_name from oradb11.oms.point_table t where station_name like '%X变电站%') and t1.time > 2017-01-01 00:00:00 and t1.time < 2017-02-01 00:00:00
(1)客户端将该SQL语句所表示的查询请求发送至协调节点;
(2)协调节点接收客户端发来的查询请求,解析器对客户端的SQL语句的查询请求进行语法检查,并分析客户端的查询请求包含两个数据源:oradb11和fastar,并将查询请求按数据源分为3个任务,第一个任务是从ORC数据库(oradb11)中查出测点名称,第二个任务是从时序数据库(fastar)中查询时序数据,第三个任务是将前两个任务的结果合并;
(3)计划器根据解析器输出的结果将解析器解析出来包含的任务的执行顺序、执行参数进行编排和优化,并将编排和优化的结果输入至调度器;具体为:
计划器对解析器分解出来的三个任务进行优化,发现第二个任务执行的结果集的大小依赖于第一个任务的执行结果,直接将这两个任务以并行的方式下发到相应的工作节点执行,会导致第二个任务将所有测点满足2017-01-01 00:00:00 and t1.time < 2017-02-0100:00:00条件的数据返回,这将导致第二个任务返回大量没用的数据,从而导致系统响应变慢。于是计划器将第二个任务进行参数化,即将上面语句括号中的” select point_namefrom oradb11.oms.point_table t where station_name like ‘%X变电站%’”部分变成第二个任务的参数,这个参数取值依赖于第一个任务的执行结果,并将第一个任务和第二个任务任务调度串行化,即先将第一个任务执行完再执行第二个任务;
(4)调度器将任务调度到合适的工作节点:调度器将第一个任务调度至工作节点执行获得一个测点名称集合,设工作节点返回了9个测点,分别为:X变电站-1#主变-电流,X变电站-1#主变-电压,X变电站-1#主变-功率,X变电站-2#主变-电流,X变电站-2#主变-电压,X变电站-2#主变-功率,X变电站-3#主变-电流,X变电站-3#主变-电压,X变电站-3#主变-功率);
调度器在调度第二个任务前,通过时序数据库连接器的元数据获取接口将测点按其所在服务器分成了三组[(X变电站-1#主变-电流,X变电站-1#主变-电压,X变电站-1#主变-功率),(X变电站-2#主变-电流,X变电站-2#主变-电压,X变电站-2#主变-功率),(X变电站-3#主变-电流,X变电站-3#主变-电压,X变电站-3#主变-功率)],用每组测点对第二个任务的参数进行实例化得到三个分组任务:
1)select t1.* from fastar.default.data_table t1 where t1.name in (X变电站-1#主变-电流,X变电站-1#主变-电压,X变电站-1#主变-功率) and t1.time > 2017-01-01 00:00:00 and t1.time < 2017-02-01 00:00:00
2)select t1.* from fastar.default.data_table t1 where t1.name in (X变电站-2#主变-电流,X变电站-2#主变-电压,X变电站-2#主变-功率) and t1.time > 2017-01-01 00:00:00 and t1.time < 2017-02-01 00:00:00
3)select t1.* from fastar.default.data_table t1 where t1.name in (X变电站-3#主变-电流,X变电站-3#主变-电压,X变电站-3#主变-功率) and t1.time > 2017-01-01 00:00:00 and t1.time < 2017-02-01 00:00:00
调度器以并行的方式将这三个分组任务同时调度到对应的工作节点;
(5)工作节点接收调度器调度的任务并通过时序数据库(fastar)连接器将查询任务提交给时序数据库(fastar)执行并返回结果,并将执行结果返回给协调节点;
(6)协调节点将三个工作节点返回的数据合并得到最终结果,并将最终结果返回给客户端。
本发明不局限于以上所述的具体实施方式,以上所述仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种适用于电力设备大数据的数据库引擎,其特征在于:包括协调节点、工作节点;所述协调节点包括解析器、计划器、调度器;所述解析器、计划器、调度器依次连接,所述解析器用于解析客户端的查询请求中的任务并将解析的结果输入计划器,计划器用于将解析器输出的结果进行编排和优化,并将编排和优化的结果输入至调度器,所述调度器用于将任务调度到合适的工作节点;所述工作节点用于接收调度器调度的任务并在对应存储组件中解析、查询,并把查询结果返回至协调节点;所述协调节点用于将工作节点返回的查询结果进一步处理得到最终结果并返回给客户端。
2.根据权利要求1所述的一种适用于电力设备大数据的数据库引擎,其特征在于:所述工作节点设置2个及以上。
3.根据权利要求1所述的一种适用于电力设备大数据的数据库引擎,其特征在于:还包括连接器;所述连接器包括元数据获取接口、数据存储位置获取接口、数据获取接口;所述元数据获取接口用于获取数据结构和数据类型;所述数据存储位置获取接口用于获取所需数据的存储组件以及存储位置;所述数据获取接口用于针对具体的存储组件获取数据,并将所获取的数据转换为关系表;所述连接器与存储组件连接。
4.根据权利要求3所述的一种适用于电力设备大数据的数据库引擎,其特征在于:所述数据库引擎针对不同的存储组件设置对应的连接器。
5.根据权利要求1所述的一种适用于电力设备大数据的数据库引擎,其特征在于:所述客户端的查询请求由SQL语句编写而成。
6.根据权利要求1所述的一种适用于电力设备大数据的数据库引擎,其特征在于:所述解析器还用于对客户端的查询请求的语法进行检查和分析客户端的查询请求包含的操作任务和数据源。
CN201710883241.9A 2017-09-26 2017-09-26 一种适用于电力设备大数据的数据库引擎 Pending CN107729410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710883241.9A CN107729410A (zh) 2017-09-26 2017-09-26 一种适用于电力设备大数据的数据库引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710883241.9A CN107729410A (zh) 2017-09-26 2017-09-26 一种适用于电力设备大数据的数据库引擎

Publications (1)

Publication Number Publication Date
CN107729410A true CN107729410A (zh) 2018-02-23

Family

ID=61208074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710883241.9A Pending CN107729410A (zh) 2017-09-26 2017-09-26 一种适用于电力设备大数据的数据库引擎

Country Status (1)

Country Link
CN (1) CN107729410A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN117056379A (zh) * 2023-10-11 2023-11-14 宁波银行股份有限公司 一种元数据缓存方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101021852A (zh) * 2006-10-10 2007-08-22 鲍东山 基于内容的视频搜索调度系统
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN102075409A (zh) * 2009-11-24 2011-05-25 华为技术有限公司 请求消息处理方法、系统及负载均衡器设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021852A (zh) * 2006-10-10 2007-08-22 鲍东山 基于内容的视频搜索调度系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN102075409A (zh) * 2009-11-24 2011-05-25 华为技术有限公司 请求消息处理方法、系统及负载均衡器设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《数据库百科全书》编委会: "《数据库百科全书》", 30 September 2009, 上海交通大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN110362572B (zh) * 2019-06-25 2022-07-01 浙江邦盛科技股份有限公司 一种基于列式存储的时序数据库系统
CN117056379A (zh) * 2023-10-11 2023-11-14 宁波银行股份有限公司 一种元数据缓存方法、装置、电子设备及可读存储介质
CN117056379B (zh) * 2023-10-11 2024-01-26 宁波银行股份有限公司 一种元数据缓存方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106951694B (zh) 一种电力系统二次设备在线监测系统自适应建模方法
CN105808734B (zh) 一种基于语义网的钢铁制造过程知识间隐性关系获取方法
CN102750406B (zh) 一种基于模型集和差异模型的电网模型多版本管理方法
CN107402988A (zh) 一种分布式NewSQL数据库系统和半结构化数据查询方法
CN105335479B (zh) 一种基于sql的文本数据统计实现方法
CN102426525B (zh) 一种多应用系统的全景建模方法
CN105787089A (zh) 一种配电网规划基础数据集成方法
CN105824957A (zh) 分布式内存列式数据库的查询引擎系统及查询方法
CN107103064B (zh) 数据统计方法及装置
CN103441900A (zh) 集中式跨平台自动化测试系统及其控制方法
CN107766451A (zh) 一种面向电力大数据的跨数据库关联检索方法
CN107025279B (zh) 基于数据库接口层操作流的scd文件在线并行配置系统和方法
CN107870949A (zh) 数据分析作业依赖关系生成方法和系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN108446145A (zh) 一种分布式文件自动加载mpp数据库方法
CN107729410A (zh) 一种适用于电力设备大数据的数据库引擎
Chen et al. Multi-source and heterogeneous data integration model for big data analytics in power DCS
CN105677745A (zh) 一种通用高效自助数据查询系统及实现方法
CN103605806A (zh) 可配置的结构化数据组织方式的实现方法
Duan Analysis of ERP Enterprise Management Information System based on Cloud Computing Mode
CN102521451B (zh) 一种支持快速模型拼接的电网模型文件、生成方法及系统
CN110989988A (zh) 一种基于边缘计算的微电网边缘层软件平台
Huang et al. Research on representation of geographic spatio-temporal information and spatio-temporal reasoning rules based on geo-ontology and SWRL
CN109684329A (zh) 一种基于数据中心设备的资源管理方法
Xie Escep: A cep based on event sharing in internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223