CN108959369A

CN108959369A - 一种海量数据平台与大数据平台融合方法

Info

Publication number: CN108959369A
Application number: CN201810496314.3A
Authority: CN
Inventors: 韩嘉佳; 犹锋; 周升; 张晓晓; 倪阳旦; 张珂珩; 孙歆; 张高坤; 李景; 李贤慧; 戴桦; 李沁园; 汪自翔; 吕磅; 李霁远; 王刘旺
Original assignee: CHINA REALTIME DATABASE Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: CHINA REALTIME DATABASE Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-12-07
Anticipated expiration: 2038-05-22
Also published as: CN108959369B

Abstract

本发明公开了一种海量数据平台与大数据平台融合方法，该平台包括数据采集层、数据缓存层和数据存储层；该融合方法包括：数据采集层采用分布式消息队列Kafka机制，实现测点数据传输；数据缓存层采用REDIS键值型内存数据库，实现用户即席查询需求；数据存储层采用HBASE列式存储，结合测点数据时序特征，对测点数据特征进行列式存储，本发明提出的海量数据平台与大数据平台融合方法，实现了海量平台与大数据平台最佳融合，通过统一技术路线、统一技术支持、明确职责分工，实现大数据应用服务平台化，全面支撑各专业大数据应用需求，解决公司各专业的大数据应用需求，保障数据和业务的连续性。

Description

一种海量数据平台与大数据平台融合方法

技术领域

本发明涉及电网数据分析领域，具体是涉及一种海量数据平台与大数据平台融合方法。

背景技术

经过国网SG186工程、SG-ERP的建设，目前已建成结构化、非结构化、海量历史/准实时、电网空间地理信息四类数据中心平台，有效支撑企业数据共享融合分析决策系统建设。

尽管现有数据中心有效支撑分析决策应用建设，但随着公司各业务系统数据量不断增大，以及数据价值挖掘需求的增长，针对平台需要在横向扩展、实时快速处理能力方面进一步提升，针对应用功能建设需要在跨业务/部门分析能力方面需进一步优化。

目前公司海量、多样的数据资源为数据深层次分析提供了良好条件，可围绕电网生产、经营管理、优质服务业务需求等相关业务研究创新应用，同时开展数据处理性能提升、数据价值挖掘、将数据转变为资产等工作，通过应用大数据技术，挖掘海量数据信息价值，可有效解决现有核心业务系统数据处理效率低、分析能力弱等问题。目前的行业内各专业均有大数据应用需求、大数据解决方案和产品路线众多，从一体化企业级信息系统的角度出发，亟需构建统一平台，以避免重复建设。

发明内容

为解决现有技术的不足，本发明的目的在于提出一种海量数据平台与大数据平台融合方法。该方法实现了两个平台的最优融合，通过统一技术路线、统一技术支持、明确职责分工，实现大数据应用服务平台化，全面支撑各专业大数据应用需求，解决了公司各专业的大数据应用需求，保障了数据和业务的连续性。

为了实现上述目标，本发明采用如下的技术方案：一种海量数据平台与大数据平台融合方法，所述大数据平台包括数据采集层、数据缓存层和数据存储层；所述融合方法包括：

数据采集层采用分布式消息队列Kafka机制，实现海量数据平台的测点数据与大数据平台的传输；

数据缓存层采用REDIS键值型内存数据库，存储海量数据平台的测点数据，实现应用端数据查询和数据写入需求；

数据存储层采用HBASE列式存储，结合测点数据时序特征，对测点数据特征进行列式存储。

优选地，所述数据采集层包括实时数据处理模块，所述数据采集方法包括：

对所述测点ID哈希，将测点数据均匀地分发到相应的消息队列；

所述消息队列中的数据量达到第一阀值或者达到预定时间后，向实时数据处理模块发布；

实时数据处理模块读取数据后，存入数据缓存层，并写入数据存储层，同时提供数据实时查询模块。

优选地，所述实时数据处理模块向用户提供数据查询接口，所述数据查询方法包括：用户查询实时数据时，通过实时数据查询模块在数据缓存层REDIS中进行查询，判断数据缓存层REDIS是否存有数据，如果有，则返回查询结果，如果没有，则进入到数据存储层HBASE中查询并返回查询结果。

优选地，所述融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。

优选地，所述迁移方法包括将海量平台数据库中的测点信息的ID保留到海量平台数据库中，在大数据平台关系库的测点信息表中，重新生成ID。

优选地，所述大数据平台设置UAPI接口，UAPI接口包括BYID接口和BYNAME接口，应用端使用BYNAME接口进行操作，通过BYNAME接口在大数据平台关系库中通过NAME查找到ID，进入BYID接口中进行操作。

优选地，所述UAPI接口包括UAPI查询接口，所述UAPI查询接口包括断面查询接口和批量查询接口，所述数据查询的方法包括：

应用端使用UAPI查询接口发出查询数据请求，在大数据平台的数据缓存层REDIS中查找数据，如果查找到数据则返回；

如果未查找到，则根据UAPI查询接口类型在数据存储层HBASE中查找对应表，查询对应的数据。

优选地，所述UAPI接口包括UAPI写值接口，所述数据写入的方法包括：通过UAPI写值接口将数据写入Kafka缓存区中，将Kafka缓存区中的数据分别写成两份，包括第一份和第二份；

所述第一份写入HDFS大文件中，数据量超过第二阈值后，再分为两份分别写入数据存储层HBASE的断面表和时序表中；

所述第二份写入数据缓存层REDIS中，以供应用端通过UAPI查询接口查询还未写入数据存储层HBASE中的数据。

与现有技术相比，本发明的有益效果是：本发明提供一种海量数据平台与大数据平台融合方法，实现了海量平台与大数据平台最佳融合；通过基于大数据平台UAPI接口的开发，保证原有UAPI接口定义不变，原有基于海量平台的业务应用迁移至大数据平台后可直接使用，保证了原有应用的连续性；各项功能运行稳定，用户体验良好，具有很好的可移植性。

附图说明

图1是本发明海量数据平台与大数据平台融合总体实现方案图。

图2是本发明数据采集总线设计图。

图3是本发明实时数据处理模块图。

图4是本发明测点迁移图。

图5是本发明大数据平台UAPI设计-数据查询图。

图6是本发明大数据平台UAPI设计-数据写入图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示，提出了一种海量数据平台与大数据平台融合方法，大数据平台包括数据采集层、数据缓存层和数据存储层；该融合方法包括：

数据采集层采用分布式消息队列Kafka机制，实现海量数据平台的测点数据与大数据平台的传输；Kafka是一个可持久化的分布式消息队列，适用于数据被多个系统消费，高吞吐量应用场景，能够确保数据接入的及时性和可靠性。

数据缓存层采用REDIS键值型内存数据库，存储海量数据平台的测点数据，实现应用端数据查询和数据写入需求；优选地，能够满足用户即席查询和写入需求；键值型内存数据库REDIS，在支持K/V类型的数据的同时，还提供LIST、SET、HASH等数据结构的存储，另外REDIS支持数据备份与持久化，保证数据不易丢失。

数据存储层采用HBASE列式存储，结合测点数据时序特征，对测点数据特征进行列式存储。HBASE列式存储利用了HDFS高可用与高可扩展性，而且针对测点数据特征进行列式存储，数据存取效率也比较高，对原生态HBASE进行改造，使之能够支持千万级测点的秒级频率接入。

结合图2所示，数据采集总线采用Kafka分布式消息队列机制设计，数据采集层包括实时数据处理模块，测点数据采集的方法包括：

对测点ID哈希，将测点数据均匀地分发到相应的消息队列，实现负载均衡；例如将测点数据分为测点数据流1，测点数据流2均匀分发到消息队列1，消息队列2，消息队列3中；当消息队列中的数据量达到第一阀值或者达到预定时间后，向实时数据处理模块发布；实时数据处理模块读取数据后，存入数据缓存层，并写入数据存储层HBASE中，实现持久化，同时提供数据实时查询模块，供应用端实时查询。

其中，结合图3所示，实时数据处理模块向用户提供数据查询接口，在内部使用了REDIS。REDIS是一个Key-Value存储系统，它使用内存作为主存储支持，访问效率高。数据查询方法包括：用户查询实时数据时，通过实时数据查询模块在数据缓存层REDIS中进行查询，判断数据缓存层REDIS是否存有数据，如果有，则返回查询结果，如果没有，则进入到数据存储层HBASE中查询并返回查询结果。

结合图4所示，融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。在一个具体的实施例中，迁移方法包括将原先储存在海量平台数据库中的测点信息，除ID外都会迁移到大数据平台的关系库中。在关系库测点信息表中，除了ID重新生成以外，其他测点信息均由海量平台实时数据库迁移完成。删除测点后，要将HBASE中对应数据删除。

结合图5-图6所示，大数据平台设置UAPI接口，UAPI接口包括BYID接口和BYNAME接口，应用端使用BYNAME接口进行操作，通过BYNAME接口在大数据平台关系库中通过NAME查找到ID，进入BYID接口中进行操作。

其中，UAPI接口包括UAPI查询接口，UAPI查询接口包括断面查询接口和批量查询接口，数据查询的方法包括：应用端使用UAPI查询接口发出查询数据请求，在大数据平台的数据缓存层REDIS中查找数据，如果查找到数据则返回；

可理解的是，UAPI接口还包括UAPI写值接口，将数据写入的方法包括：通过UAPI写值接口将数据写入Kafka缓存区中，将Kafka缓存区中的数据分别写成两份，包括第一份和第二份；第一份写入HDFS大文件中，数据量超过第二阈值后，再分为两份分别写入数据存储层HBASE的断面表和时序表中；第二份写入数据缓存层REDIS中，以供应用端通过UAPI查询接口查询还未写入数据存储层HBASE中的数据。

上述UAPI原先对海量平台实时数据库进行测点操作，现对大数据平台关系库进行测点操作，保证原有UAPI接口定义不变，原有基于海量平台的业务应用迁移至大数据平台后可直接使用，保证了原有应用的连续性。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种海量数据平台与大数据平台融合方法，其特征在于，所述大数据平台包括数据采集层、数据缓存层和数据存储层；所述融合方法包括：

2.如权利要求1所述的海量数据平台与大数据平台融合方法，其特征在于，所述数据采集层包括实时数据处理模块，所述数据采集方法包括：

3.如权利要求2所述的海量数据平台与大数据平台融合方法，其特征在于，所述实时数据处理模块向用户提供数据查询接口，所述数据查询方法包括：

用户查询实时数据时，通过实时数据查询模块在数据缓存层REDIS中进行查询，判断数据缓存层REDIS是否存有数据，如果有，则返回查询结果，如果没有，则进入到数据存储层HBASE中查询并返回查询结果。

4.如权利要求3所述的海量数据平台与大数据平台融合方法，其特征在于，所述融合方法包括将海量数据平台数据库中的测点信息迁移到大数据平台关系库中。

5.如权利要求4所述的海量数据平台与大数据平台融合方法，其特征在于，所述迁移方法包括将海量平台数据库中的测点信息的ID保留到海量平台数据库中，在大数据平台关系库的测点信息表中，重新生成ID。

6.如权利要求5所述的海量数据平台与大数据平台融合方法，其特征在于，所述大数据平台设置UAPI接口，UAPI接口包括BYID接口和BYNAME接口，应用端使用BYNAME接口进行操作，通过BYNAME接口在大数据平台关系库中通过NAME查找到ID，进入BYID接口中进行操作。

7.如权利要求6所述的海量数据平台与大数据平台融合方法，其特征在于，所述UAPI接口包括UAPI查询接口，所述UAPI查询接口包括断面查询接口和批量查询接口，所述数据查询的方法包括：

8.如权利要求7所述的海量数据平台与大数据平台融合方法，其特征在于，所述UAPI接口包括UAPI写值接口，所述数据写入的方法包括：

通过UAPI写值接口将数据写入Kafka缓存区中，将Kafka缓存区中的数据分别写成两份，包括第一份和第二份；