CN111125121B

CN111125121B - 基于HBase表的实时数据显示方法

Info

Publication number: CN111125121B
Application number: CN202010234335.5A
Authority: CN
Inventors: 田浩兵; 张奎; 陈思成
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-03
Anticipated expiration: 2040-03-30
Also published as: CN111125121A

Abstract

本发明涉及基于HBase表的实时数据显示方法，包括：A．建立Kafka消息队列；B．采集业务服务器中的实时数据并通过Kafka消息队列传输到HBase明细表中；C．对HBase明细表中的实时数据多维计算；D．建立HBase表的存储结构，在所述HBase表的存储结构中分别设有索引主键、指标名、渠道名、产品名、维度编码、维度值和计算值字段；将计算结果分别存入各字段中，其中索引主键是由其他各字段的内容通过分隔符拼接而成；E．前端设备读取索引主键并进行拆分，将拆分后的字符串在前端设备进行显示。本发明能够使前端设备以毫秒或秒级的速度快速从后端数据库中获取数据来进行显示，数量级倍数的提升了实时数据的获取速度，完全满足了数据实时显示的要求。

Description

基于HBase表的实时数据显示方法

技术领域

本发明涉及数据的显示方法，具体讲是基于HBase表的实时数据显示方法。

背景技术

在金融大数据的背景下，银行机构需要通过明确的数据来让业务人员和开发人员了解当前的业务情况，因此越来越多的金融机构/企业都会通过一些数据大屏来显示数据。在数据展示中，对于数据的实时性要求较高，大家都想看到动态变化的值，进而快速了解业务情况。目前在通过大屏显示数据时，需要由前端去访问后端的数据库，从多个数据库中查询到需要的数据后再在大屏上显示。但前端设备访问后端数据库来获取各项数据往往非常耗时，甚至可能需要数分钟，这就使得前端大屏显示的数据不再是当前的实时数据了，出现了延迟，这对于要求高实时性的金融行业来说会有很大的影响。

发明内容

本发明提供了一种基于HBase表的实时数据显示方法，使前端设备可以快速从后端数据库中获取数据进行显示，达到数据实时显示的目的。

本发明基于HBase表的实时数据显示方法，包括：

A．在系统的存储介质中建立Kafka消息队列的存储结构和相应的存储空间；

B．通过处理器采集后端业务服务器中的实时数据，并将采集的实时数据存入到所述的Kafka消息队列的存储结构中，通过Kafka消息队列的存储结构将所述实时数据传输到HBase明细表中，所述的实时数据包括金融行业的交易流水数据和授信工单数据。需要对这些业务数据进行多维计算分析，用于下游系统进行实时决策分析、动态调整授信条件等；

C．通过Spark计算引擎，对HBase明细表中的实时数据进行多维计算，得到计算结果；

D．在存储介质中建立HBase表的存储结构，在所述HBase表的存储结构中分别设有索引主键、指标名、渠道名、产品名、维度编码、维度值和计算值字段；将所述计算结果分别对应的存入所述HBase表的存储结构的各字段中，其中HBase表的存储结构的索引主键中的内容是由其他各字段的内容通过分隔符拼接而成的字符串形式的存储结构；

E．前端设备从所述HBase表的存储结构中读取索引主键，并根据所述分隔符对索引主键的内容进行拆分，将拆分后的字符串按各自在HBase表中对应的字段类型分别在前端设备进行显示。

其中步骤C所述的Spark计算引擎是一种大数据分布式计算引擎，能够对海量数据进行高效加工处理。通过Spark计算引擎对HBase明细表中的实时数据进行多维计算可以采用现有常规方法进行计算。将计算后的结果按照HBase表的存储结构和设置的字段分别进行对应的存储空间填充。当前端设备需要获取实时数据时，只需要读取HBase表的存储结构中的索引主键即可，不需要再读取数据库中的实质性内容，而读取索引主键的时间基本在毫秒级别的，再通过简单的对索引主键的内容拆分即可获得实时数据来显示，完全能够满足对于千万级大数据中的数据实时读取、实时显示的要求。

所述的Kafka消息队列的存储结构为在存储介质上设置的一种消息队列结构，可以将数据放入该消息队列的存储空间，并传输到另外一个输出接口中去。

进一步的，步骤D中，建立两个HBase表的存储结构，其中一个为表示实时数据的HBase表的存储结构，另一个为表示历史数据的HBase表的存储结构，在表示历史数据的HBase表的存储结构中，除步骤D中的所述字段以外，还设有时间字段，该HBase表的存储结构的索引主键中的内容是由包括时间字段在内的其他各字段的内容通过分隔符拼接而成的字符串形式的存储结构。因为在HBase表中相同索引主键的记录会被最新的索引主键的记录覆盖，因此在表示历史数据的HBase表的存储结构中通过加入时间(年月日时分秒)的拼接以对各条历史记录的索引主键进行区分，防止历史数据被覆盖，这样可以供前端设备查询历史数据，用来画折线图等功能使用。

可选的，步骤D中HBase表的存储结构的维度编码为数组结构，并且设有与维度编码数组元素相同数量的维度值字段。

具体的，HBase表的存储结构中的维度编码对应的维度包括渠道维度、产品维度和状态维度，还可以包括其他需要的维度信息。

本发明基于HBase表的实时数据显示方法，能够使前端设备以毫秒或秒级的速度快速从后端数据库中获取数据来进行显示，数量级倍数的提升了实时数据的获取速度，完全满足了数据实时显示的要求。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于HBase表的实时数据显示方法的流程图。

具体实施方式

如图1所示本发明基于HBase表的实时数据显示方法，包括：

B．通过处理器采集后端业务服务器中的实时数据，如业务服务器的MySQL数据库中的Binlog日志等。并将采集的实时数据存入到所述的Kafka消息队列的存储结构中，通过Kafka消息队列的存储结构将所述实时数据传输到HBase明细表中，所述的实时数据包括金融行业的交易流水数据和授信工单数据。需要对这些业务数据进行多维计算分析，用于下游系统进行实时决策分析、动态调整授信条件等；

C．通过Spark计算引擎，采用现有常规方法对HBase明细表中的实时数据进行多维计算，得到计算结果；

D．在存储介质中建立两个HBase表的存储结构，其中一个为表示实时数据的HBase表的存储结构，另一个为表示历史数据的HBase表的存储结构。在表示实时数据的HBase表的存储结构中分别设有索引主键、指标名、渠道名、产品名、维度编码、维度值和计算值字段，其中维度编码为数组结构，并且维度值字段的个数与维度编码数组元素的个数相同，索引主键中的内容是由其他各字段的内容通过下划线格式的分隔符拼接而成的字符串形式的存储结构；

在表示历史数据的HBase表的存储结构中，除上述的各字段以外，还设有时间字段，格式为：yyyy-MM-dd HH:mm:ss，该HBase表的存储结构的索引主键中的内容是由包括时间字段在内的其他各字段的内容通过下划线格式的分隔符拼接而成的字符串形式的存储结构。这是因为在HBase表中相同索引主键的记录会被最新的索引主键的记录覆盖，因此在表示历史数据的HBase表的存储结构中通过加入时间(年月日时分秒)的拼接以对各条历史记录的索引主键进行区分，防止历史数据被覆盖，这样可以供前端设备查询历史数据，用来画折线图等功能使用。

将所述计算结果分别对应的存入所述两个HBase表的存储结构的各字段中。

通过Spark计算引擎对两张HBase明细表中的实时数据进行多维计算后，将计算结果按照两张HBase表各自的存储结构和设置的字段分别进行对应的存储空间填充。当前端设备需要获取实时数据时，只需要读取表示实时数据的HBase表的存储结构中的索引主键即可，不需要再读取数据库中的实质性内容，而读取索引主键的时间基本在毫秒级别的，再通过简单的对索引主键的内容拆分即可获得实时数据来显示，完全能够满足对于千万级大数据中的数据实时读取、实时显示的要求。而需要根据历史数据进行相应的折线图等显示时，前端设备从表示历史数据的HBase表的存储结构中读取索引主键和拆分即可，同样能够在毫秒或秒级的时间内实现显示。

以金融行业的展示放款金额为例：

首先会通过Spark计算引擎对HBase明细表中的数据进行多维度计算，本实施例中的维度包括有渠道维度、产品维度和状态维度。在计算时会将各种情况的组合都计算出来，本实施例中，合计有8种情况：

(1)渠道维度；

(2)产品维度；

(3)状态维度；

(4)渠道、产品维度；

(5)渠道、状态维度；

(6)产品、状态维度；

(7)空维度；

(8)渠道、产品、状态维度；

然后建立表示实时数据的HBase表的存储结构，如表1所示，和表示历史数据的HBase表的存储结构，如表2所示：

表1：

索引主键Id拼接为：指标名_渠道名_产品名_维度编码1_维度值1_维度编码值2_维度值2_维度编码值3_维度值3_计算值。

表2：

索引主键Id拼接为：指标名_渠道名_产品名_维度编码1_维度值1_维度编码值2_维度值2_维度编码值3_维度值3_计算值_时间。

在将计算结果存入上述两个HBase表的存储结构时，会对放款金额和维度进行编码，本实施例中将放款金额编码为loan_amt，状态维度编码为01。

表示实时数据的HBase表的存储结构的索引主键Id拼接为:loan_amt_120001(渠道码)_110(产品码)_01(状态编码)_Sucess(状态编码枚举)_00_total_00_total_1000(计算值value)(若维度没用到，那么维度编码为00，表示无用，维度枚举为total表示无用)；

表示历史数据的HBase表的存储结构的索引主键Id拼接为:loan_amt_120001(渠道码)_110(产品码)_01(状态编码)_Sucess(状态编码枚举)_00_total_00_total_1000(计算值value)_2020-01-01 14:22:22（时间）。

前端设备直接读取上述HBase表的存储结构的索引主键Id，并通过分隔符“_”对索引主键Id字符串拆分，得到上述索引主键Id的含义为：120001渠道下，产品码为110，状态为Success，放款金额为1000元，针对历史数据的HBase表的存储结构，还有操作时间为2020-01-01 14:22:22。由此实现了毫秒或秒级的时间内同时得到和显示各个维度的数据，展示在页面或屏幕上。

Claims

1.基于HBase表的实时数据显示方法，其特征包括：

A.在系统的存储介质中建立Kafka消息队列的存储结构和相应的存储空间；

B.通过处理器采集后端业务服务器中的实时数据，并将采集的实时数据存入到所述的Kafka消息队列的存储结构中，通过Kafka消息队列的存储结构将所述实时数据传输到HBase明细表中，所述的实时数据包括金融行业的交易流水数据和授信工单数据；

C.通过Spark计算引擎，对HBase明细表中的实时数据进行多维计算，得到计算结果；

D.在存储介质中建立HBase表的存储结构，在所述HBase表的存储结构中分别设有索引主键、指标名、渠道名、产品名、维度编码、维度值和计算值字段；将所述计算结果分别对应的存入所述HBase表的存储结构的各字段中，其中HBase表的存储结构的索引主键中的内容是由其他各字段的内容通过分隔符拼接而成的字符串形式的存储结构；

E.前端设备从所述HBase表的存储结构中读取索引主键，并根据所述分隔符对索引主键的内容进行拆分，将拆分后的字符串按各自在HBase表中对应的字段类型分别在前端设备进行显示。

2.如权利要求1所述的基于HBase表的实时数据显示方法，其特征为：步骤D中，建立两个HBase表的存储结构，其中一个为表示实时数据的HBase表的存储结构，另一个为表示历史数据的HBase表的存储结构，在表示历史数据的HBase表的存储结构中，除步骤D中的所述字段以外，还设有时间字段，该HBase表的存储结构的索引主键中的内容是由包括时间字段在内的所有字段的内容通过分隔符拼接而成的字符串形式的存储结构。

3.如权利要求1所述的基于HBase表的实时数据显示方法，其特征为：步骤D中HBase表的存储结构的维度编码为数组结构，并且设有与维度编码数组元素相同数量的维度值字段。

4.如权利要求1至3之一所述的基于HBase表的实时数据显示方法，其特征为：HBase表的存储结构中的维度编码对应的维度包括渠道维度、产品维度和状态维度。