CN108959369A - 一种海量数据平台与大数据平台融合方法 - Google Patents

一种海量数据平台与大数据平台融合方法 Download PDF

Info

Publication number
CN108959369A
CN108959369A CN201810496314.3A CN201810496314A CN108959369A CN 108959369 A CN108959369 A CN 108959369A CN 201810496314 A CN201810496314 A CN 201810496314A CN 108959369 A CN108959369 A CN 108959369A
Authority
CN
China
Prior art keywords
data
platform
interface
big
storage layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810496314.3A
Other languages
English (en)
Other versions
CN108959369B (zh
Inventor
韩嘉佳
犹锋
周升
张晓晓
倪阳旦
张珂珩
孙歆
张高坤
李景
李贤慧
戴桦
李沁园
汪自翔
吕磅
李霁远
王刘旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Zhejiang Electric Power Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201810496314.3A priority Critical patent/CN108959369B/zh
Publication of CN108959369A publication Critical patent/CN108959369A/zh
Application granted granted Critical
Publication of CN108959369B publication Critical patent/CN108959369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量数据平台与大数据平台融合方法,该平台包括数据采集层、数据缓存层和数据存储层;该融合方法包括:数据采集层采用分布式消息队列Kafka机制,实现测点数据传输;数据缓存层采用REDIS键值型内存数据库,实现用户即席查询需求;数据存储层采用HBASE列式存储,结合测点数据时序特征,对测点数据特征进行列式存储,本发明提出的海量数据平台与大数据平台融合方法,实现了海量平台与大数据平台最佳融合,通过统一技术路线、统一技术支持、明确职责分工,实现大数据应用服务平台化,全面支撑各专业大数据应用需求,解决公司各专业的大数据应用需求,保障数据和业务的连续性。

Description

一种海量数据平台与大数据平台融合方法
技术领域
本发明涉及电网数据分析领域,具体是涉及一种海量数据平台与大数据平台融合方法。
背景技术
经过国网SG186工程、SG-ERP的建设,目前已建成结构化、非结构化、海量历史/准实时、电网空间地理信息四类数据中心平台,有效支撑企业数据共享融合分析决策系统建设。
尽管现有数据中心有效支撑分析决策应用建设,但随着公司各业务系统数据量不断增大,以及数据价值挖掘需求的增长,针对平台需要在横向扩展、实时快速处理能力方面进一步提升,针对应用功能建设需要在跨业务/部门分析能力方面需进一步优化。
目前公司海量、多样的数据资源为数据深层次分析提供了良好条件,可围绕电网生产、经营管理、优质服务业务需求等相关业务研究创新应用,同时开展数据处理性能提升、数据价值挖掘、将数据转变为资产等工作,通过应用大数据技术,挖掘海量数据信息价值,可有效解决现有核心业务系统数据处理效率低、分析能力弱等问题。目前的行业内各专业均有大数据应用需求、大数据解决方案和产品路线众多,从一体化企业级信息系统的角度出发,亟需构建统一平台,以避免重复建设。
发明内容
为解决现有技术的不足,本发明的目的在于提出一种海量数据平台与大数据平台融合方法。该方法实现了两个平台的最优融合,通过统一技术路线、统一技术支持、明确职责分工,实现大数据应用服务平台化,全面支撑各专业大数据应用需求,解决了公司各专业的大数据应用需求,保障了数据和业务的连续性。
为了实现上述目标,本发明采用如下的技术方案:一种海量数据平台与大数据平台融合方法,所述大数据平台包括数据采集层、数据缓存层和数据存储层;所述融合方法包括:
数据采集层采用分布式消息队列Kafka机制,实现海量数据平台的测点数据与大数据平台的传输;
数据缓存层采用REDIS键值型内存数据库,存储海量数据平台的测点数据,实现应用端数据查询和数据写入需求;
数据存储层采用HBASE列式存储,结合测点数据时序特征,对测点数据特征进行列式存储。
优选地,所述数据采集层包括实时数据处理模块,所述数据采集方法包括:
对所述测点ID哈希,将测点数据均匀地分发到相应的消息队列;
所述消息队列中的数据量达到第一阀值或者达到预定时间后,向实时数据处理模块发布;
实时数据处理模块读取数据后,存入数据缓存层,并写入数据存储层,同时提供数据实时查询模块。
优选地,所述实时数据处理模块向用户提供数据查询接口,所述数据查询方法包括:用户查询实时数据时,通过实时数据查询模块在数据缓存层REDIS中进行查询,判断数据缓存层REDIS是否存有数据,如果有,则返回查询结果,如果没有,则进入到数据存储层HBASE中查询并返回查询结果。
优选地,所述融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。
优选地,所述迁移方法包括将海量平台数据库中的测点信息的ID保留到海量平台数据库中,在大数据平台关系库的测点信息表中,重新生成ID。
优选地,所述大数据平台设置UAPI接口,UAPI接口包括BYID接口和BYNAME接口,应用端使用BYNAME接口进行操作,通过BYNAME接口在大数据平台关系库中通过NAME查找到ID,进入BYID接口中进行操作。
优选地,所述UAPI接口包括UAPI查询接口,所述UAPI查询接口包括断面查询接口和批量查询接口,所述数据查询的方法包括:
应用端使用UAPI查询接口发出查询数据请求,在大数据平台的数据缓存层REDIS中查找数据,如果查找到数据则返回;
如果未查找到,则根据UAPI查询接口类型在数据存储层HBASE中查找对应表,查询对应的数据。
优选地,所述UAPI接口包括UAPI写值接口,所述数据写入的方法包括:通过UAPI写值接口将数据写入Kafka缓存区中,将Kafka缓存区中的数据分别写成两份,包括第一份和第二份;
所述第一份写入HDFS大文件中,数据量超过第二阈值后,再分为两份分别写入数据存储层HBASE的断面表和时序表中;
所述第二份写入数据缓存层REDIS中,以供应用端通过UAPI查询接口查询还未写入数据存储层HBASE中的数据。
与现有技术相比,本发明的有益效果是:本发明提供一种海量数据平台与大数据平台融合方法,实现了海量平台与大数据平台最佳融合;通过基于大数据平台UAPI接口的开发,保证原有UAPI接口定义不变,原有基于海量平台的业务应用迁移至大数据平台后可直接使用,保证了原有应用的连续性;各项功能运行稳定,用户体验良好,具有很好的可移植性。
附图说明
图1是本发明海量数据平台与大数据平台融合总体实现方案图。
图2是本发明数据采集总线设计图。
图3是本发明实时数据处理模块图。
图4是本发明测点迁移图。
图5是本发明大数据平台UAPI设计-数据查询图。
图6是本发明大数据平台UAPI设计-数据写入图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,提出了一种海量数据平台与大数据平台融合方法,大数据平台包括数据采集层、数据缓存层和数据存储层;该融合方法包括:
数据采集层采用分布式消息队列Kafka机制,实现海量数据平台的测点数据与大数据平台的传输;Kafka是一个可持久化的分布式消息队列,适用于数据被多个系统消费,高吞吐量应用场景,能够确保数据接入的及时性和可靠性。
数据缓存层采用REDIS键值型内存数据库,存储海量数据平台的测点数据,实现应用端数据查询和数据写入需求;优选地,能够满足用户即席查询和写入需求;键值型内存数据库REDIS,在支持K/V类型的数据的同时,还提供LIST、SET、HASH等数据结构的存储,另外REDIS支持数据备份与持久化,保证数据不易丢失。
数据存储层采用HBASE列式存储,结合测点数据时序特征,对测点数据特征进行列式存储。HBASE列式存储利用了HDFS高可用与高可扩展性,而且针对测点数据特征进行列式存储,数据存取效率也比较高,对原生态HBASE进行改造,使之能够支持千万级测点的秒级频率接入。
结合图2所示,数据采集总线采用Kafka分布式消息队列机制设计,数据采集层包括实时数据处理模块,测点数据采集的方法包括:
对测点ID哈希,将测点数据均匀地分发到相应的消息队列,实现负载均衡;例如将测点数据分为测点数据流1,测点数据流2均匀分发到消息队列1,消息队列2,消息队列3中;当消息队列中的数据量达到第一阀值或者达到预定时间后,向实时数据处理模块发布;实时数据处理模块读取数据后,存入数据缓存层,并写入数据存储层HBASE中,实现持久化,同时提供数据实时查询模块,供应用端实时查询。
其中,结合图3所示,实时数据处理模块向用户提供数据查询接口,在内部使用了REDIS。REDIS是一个Key-Value存储系统,它使用内存作为主存储支持,访问效率高。数据查询方法包括:用户查询实时数据时,通过实时数据查询模块在数据缓存层REDIS中进行查询,判断数据缓存层REDIS是否存有数据,如果有,则返回查询结果,如果没有,则进入到数据存储层HBASE中查询并返回查询结果。
结合图4所示,融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。在一个具体的实施例中,迁移方法包括将原先储存在海量平台数据库中的测点信息,除ID外都会迁移到大数据平台的关系库中。在关系库测点信息表中,除了ID重新生成以外,其他测点信息均由海量平台实时数据库迁移完成。删除测点后,要将HBASE中对应数据删除。
结合图5-图6所示,大数据平台设置UAPI接口,UAPI接口包括BYID接口和BYNAME接口,应用端使用BYNAME接口进行操作,通过BYNAME接口在大数据平台关系库中通过NAME查找到ID,进入BYID接口中进行操作。
其中,UAPI接口包括UAPI查询接口,UAPI查询接口包括断面查询接口和批量查询接口,数据查询的方法包括:应用端使用UAPI查询接口发出查询数据请求,在大数据平台的数据缓存层REDIS中查找数据,如果查找到数据则返回;
如果未查找到,则根据UAPI查询接口类型在数据存储层HBASE中查找对应表,查询对应的数据。
可理解的是,UAPI接口还包括UAPI写值接口,将数据写入的方法包括:通过UAPI写值接口将数据写入Kafka缓存区中,将Kafka缓存区中的数据分别写成两份,包括第一份和第二份;第一份写入HDFS大文件中,数据量超过第二阈值后,再分为两份分别写入数据存储层HBASE的断面表和时序表中;第二份写入数据缓存层REDIS中,以供应用端通过UAPI查询接口查询还未写入数据存储层HBASE中的数据。
上述UAPI原先对海量平台实时数据库进行测点操作,现对大数据平台关系库进行测点操作,保证原有UAPI接口定义不变,原有基于海量平台的业务应用迁移至大数据平台后可直接使用,保证了原有应用的连续性。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种海量数据平台与大数据平台融合方法,其特征在于,所述大数据平台包括数据采集层、数据缓存层和数据存储层;所述融合方法包括:
数据采集层采用分布式消息队列Kafka机制,实现海量数据平台的测点数据与大数据平台的传输;
数据缓存层采用REDIS键值型内存数据库,存储海量数据平台的测点数据,实现应用端数据查询和数据写入需求;
数据存储层采用HBASE列式存储,结合测点数据时序特征,对测点数据特征进行列式存储。
2.如权利要求1所述的海量数据平台与大数据平台融合方法,其特征在于,所述数据采集层包括实时数据处理模块,所述数据采集方法包括:
对所述测点ID哈希,将测点数据均匀地分发到相应的消息队列;
所述消息队列中的数据量达到第一阀值或者达到预定时间后,向实时数据处理模块发布;
实时数据处理模块读取数据后,存入数据缓存层,并写入数据存储层,同时提供数据实时查询模块。
3.如权利要求2所述的海量数据平台与大数据平台融合方法,其特征在于,所述实时数据处理模块向用户提供数据查询接口,所述数据查询方法包括:
用户查询实时数据时,通过实时数据查询模块在数据缓存层REDIS中进行查询,判断数据缓存层REDIS是否存有数据,如果有,则返回查询结果,如果没有,则进入到数据存储层HBASE中查询并返回查询结果。
4.如权利要求3所述的海量数据平台与大数据平台融合方法,其特征在于,所述融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。
5.如权利要求4所述的海量数据平台与大数据平台融合方法,其特征在于,所述迁移方法包括将海量平台数据库中的测点信息的ID保留到海量平台数据库中,在大数据平台关系库的测点信息表中,重新生成ID。
6.如权利要求5所述的海量数据平台与大数据平台融合方法,其特征在于,所述大数据平台设置UAPI接口,UAPI接口包括BYID接口和BYNAME接口,应用端使用BYNAME接口进行操作,通过BYNAME接口在大数据平台关系库中通过NAME查找到ID,进入BYID接口中进行操作。
7.如权利要求6所述的海量数据平台与大数据平台融合方法,其特征在于,所述UAPI接口包括UAPI查询接口,所述UAPI查询接口包括断面查询接口和批量查询接口,所述数据查询的方法包括:
应用端使用UAPI查询接口发出查询数据请求,在大数据平台的数据缓存层REDIS中查找数据,如果查找到数据则返回;
如果未查找到,则根据UAPI查询接口类型在数据存储层HBASE中查找对应表,查询对应的数据。
8.如权利要求7所述的海量数据平台与大数据平台融合方法,其特征在于,所述UAPI接口包括UAPI写值接口,所述数据写入的方法包括:
通过UAPI写值接口将数据写入Kafka缓存区中,将Kafka缓存区中的数据分别写成两份,包括第一份和第二份;
所述第一份写入HDFS大文件中,数据量超过第二阈值后,再分为两份分别写入数据存储层HBASE的断面表和时序表中;
所述第二份写入数据缓存层REDIS中,以供应用端通过UAPI查询接口查询还未写入数据存储层HBASE中的数据。
CN201810496314.3A 2018-05-22 2018-05-22 一种海量数据平台与大数据平台融合方法 Active CN108959369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496314.3A CN108959369B (zh) 2018-05-22 2018-05-22 一种海量数据平台与大数据平台融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496314.3A CN108959369B (zh) 2018-05-22 2018-05-22 一种海量数据平台与大数据平台融合方法

Publications (2)

Publication Number Publication Date
CN108959369A true CN108959369A (zh) 2018-12-07
CN108959369B CN108959369B (zh) 2021-11-30

Family

ID=64499406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496314.3A Active CN108959369B (zh) 2018-05-22 2018-05-22 一种海量数据平台与大数据平台融合方法

Country Status (1)

Country Link
CN (1) CN108959369B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857739A (zh) * 2019-01-28 2019-06-07 中国石油大学(华东) 一种基于RK(Redis and Kafka)的实时高效缓存机制
CN111432295A (zh) * 2020-03-18 2020-07-17 北京科东电力控制系统有限责任公司 一种基于分布式技术的用电信息采集主站系统
CN111475532A (zh) * 2020-03-05 2020-07-31 拉扎斯网络科技(上海)有限公司 数据处理的优化方法及装置、存储介质、终端
CN112181973A (zh) * 2019-07-01 2021-01-05 北京涛思数据科技有限公司 一种时序数据的存储方法
CN112487315A (zh) * 2020-12-17 2021-03-12 中国农业银行股份有限公司 一种数据处理方法和装置
CN113282568A (zh) * 2021-04-26 2021-08-20 本影(上海)网络科技有限公司 一种iot大数据实时时序流分析应用技术方法
CN115203159A (zh) * 2022-07-25 2022-10-18 北京字跳网络技术有限公司 一种数据存储方法、装置、计算机设备和存储介质
CN116775310A (zh) * 2023-07-31 2023-09-19 北京中泰华电科技有限公司 一种实现多个工业实时数据库融合扩展的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055233A1 (en) * 2014-08-25 2016-02-25 Ca, Inc. Pre-join tags for entity-relationship modeling of databases
CN106528786A (zh) * 2016-11-08 2017-03-22 国网山东省电力公司电力科学研究院 快速迁移多源异构电网大数据到HBase的方法及系统
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055233A1 (en) * 2014-08-25 2016-02-25 Ca, Inc. Pre-join tags for entity-relationship modeling of databases
CN106528786A (zh) * 2016-11-08 2017-03-22 国网山东省电力公司电力科学研究院 快速迁移多源异构电网大数据到HBase的方法及系统
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周国诚 等: "《电力企业实时数据中心服务能力研究与应用》", 31 December 2013, 中国电力出版社 *
曾宪宇: "基 于1大数据技术的车辆监控系统的优化与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857739A (zh) * 2019-01-28 2019-06-07 中国石油大学(华东) 一种基于RK(Redis and Kafka)的实时高效缓存机制
CN112181973A (zh) * 2019-07-01 2021-01-05 北京涛思数据科技有限公司 一种时序数据的存储方法
CN112181973B (zh) * 2019-07-01 2023-05-30 北京涛思数据科技有限公司 一种时序数据的存储方法
CN111475532A (zh) * 2020-03-05 2020-07-31 拉扎斯网络科技(上海)有限公司 数据处理的优化方法及装置、存储介质、终端
CN111475532B (zh) * 2020-03-05 2023-11-03 拉扎斯网络科技(上海)有限公司 数据处理的优化方法及装置、存储介质、终端
CN111432295A (zh) * 2020-03-18 2020-07-17 北京科东电力控制系统有限责任公司 一种基于分布式技术的用电信息采集主站系统
CN112487315A (zh) * 2020-12-17 2021-03-12 中国农业银行股份有限公司 一种数据处理方法和装置
CN113282568A (zh) * 2021-04-26 2021-08-20 本影(上海)网络科技有限公司 一种iot大数据实时时序流分析应用技术方法
CN113282568B (zh) * 2021-04-26 2022-08-09 本影(上海)网络科技有限公司 一种iot大数据实时时序流分析应用技术方法
CN115203159A (zh) * 2022-07-25 2022-10-18 北京字跳网络技术有限公司 一种数据存储方法、装置、计算机设备和存储介质
CN115203159B (zh) * 2022-07-25 2024-06-04 北京字跳网络技术有限公司 一种数据存储方法、装置、计算机设备和存储介质
CN116775310A (zh) * 2023-07-31 2023-09-19 北京中泰华电科技有限公司 一种实现多个工业实时数据库融合扩展的方法

Also Published As

Publication number Publication date
CN108959369B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN108959369A (zh) 一种海量数据平台与大数据平台融合方法
CN109726174A (zh) 数据归档方法、系统、设备以及存储介质
CN109558450A (zh) 一种基于分布式架构的汽车远程监控方法和装置
CN102136003A (zh) 大规模分布式存储系统
CN108108517A (zh) 一种基于大数据的电网规划智能辅助分析方法
CN106055590A (zh) 基于大数据及图数据库的电力网络数据处理方法和系统
CN102222065A (zh) 一种基于地理索引的空间信息服务系统
CN115481110A (zh) 一种基于元数据的资源共享交换设计方法
CN103001874B (zh) 一种基于节点标签集的延迟容忍移动社会网络路由方法
CN102685222B (zh) 一种用于电力系统的云存储资源管理装置
WO2021232610A1 (zh) 基于数据资源分布的跨域方舱计算系统及方法
CN105354263A (zh) 基于HBase分布式环境下移动对象并行网格索引同步方法
CN105635285A (zh) 一种基于状态感知的vm迁移调度方法
Swaroop et al. Mobile distributed real time database systems: A research challenges
CN108763562A (zh) 一种基于大数据技术提升数据交换效率的构建方法
CN111753004A (zh) 一种多元能源地下管网系统信息交互对接共享系统
Dong et al. Research on Architecture of Power Big Data High-Speed Storage System for Energy Interconnection
CN110275885A (zh) 基于Hadoop的多层次轨迹数据存储装置
US11194836B2 (en) Distributed data storage
CN103488792A (zh) 云计算的pm2.5监测、存储、处理的方法
CN103685380A (zh) 地理信息数据的分发服务方法和系统
CN105761179A (zh) 创新城市知识产权公共信息服务平台系统
Huang et al. Research on WebGIS application based on edge computing
He et al. Agent-based mobile service discovery in grid computing
CN105354310A (zh) 基于MapReduce的地图瓦片存储布局优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant