CN110287198A

CN110287198A - 基于HBase数据库的金融数据索引方法

Info

Publication number: CN110287198A
Application number: CN201910583626.2A
Authority: CN
Inventors: 胡荣德
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-09-27

Abstract

本发明涉及基于HBase数据库的金融数据索引方法，包括：A.一级索引的行主键设置：将业务代码、业务类型、交易日期和交易时间进行字符串组合，形成HBase数据库中每一行数据唯一性的行主键；B.二级索引设置：建立常见业务查询列与所述行主键之间的映射关系，并将所述的映射关系存储在映射关系表中。本发明基于HBase数据库的金融数据索引方法，有效提高了对金融数据的索引效率，并且能够支持多维度的索引，大幅度简化了索引过程。

Description

基于HBase数据库的金融数据索引方法

技术领域

本发明涉及对数据库数据的索引方法，具体讲是基于HBase数据库的金融数据索引方法。

背景技术

在金融领域的数据中包括了股票、期权、期货的代码、类型、每个交易日从开盘到封盘的数据记录等，数据记录的更新速度为秒级、毫秒级，因此这类数据的历史基数、日增量都非常庞大，如此海量的历史数据和日增量数据对于存储设备以及业务的快速多维查询、分析，都产生了巨大的挑战。

当前对金融行情交易数据进行存储和处理主要采用的是关系型数据库或直接存储于本地磁盘的方式。此类方式的存储和查询效率都非常低下，并不能很好地服务于具有高频、实时、数据字段变化、多维查询等特点的金融领域的量化分析、交易业务。

目前常用的存储及查询方式有以下几种：

1.以CSV文件形式存储于本地磁盘，查询和计算业务时需要重新定位、解析CSV文件。

2.数据存储在传统关系型数据库中，如MySQL、Oracle等。

3.数据存储在Hive数据仓库中，该数据仓库在传统关系型数据库的基础上建立，可以实现离线查询与计算。

4.数据存储于HBase数据库，但rowkey(数据库每条记录的行主键)设计方式单一，不支持多变的、多维度的业务查询。

以上现有的这些方式的缺点包括：

1.不能满足对于数据快速业务查询、计算与相应速度的要求。

对于业务查询和计算，每次需要对本次所需数据进行一次文件解析，不同时间节点的同一业务，需要重复解析同样数据，效率低下，严重耗时；

对于单次业务所需数据量较大且内存不能一次存储的情况下，需要对所需数据进行分割多批次计算处理，严重耗时。

2.存储占据大量硬盘空间。

将海量历史金融行情文件存储于本地磁盘，并不能很好地采用压缩技术，占用大量磁盘空间，物理硬件耗费巨大。

3.数据维度变化不适用于传统关系型数据库。

随着技术的发展，金融行情数据的数据记录维度(字段)发生变化，而传统型数据库并不能很好地适应表结构经常变化的情况，因为每次表结构的变化，均需对海量历史数据进行复制、迁移，或者重新导入，耗费不可容忍的时间限度，且造成数据丢失的风险。

4.数据安全。

存在文件安全问题，误操作造成数据删改等后果。

5.多维查询。

rowkey设计单一，不能满足业务多维度查询、查询需求的多样性。

发明内容

本发明提供了一种基于HBase数据库的金融数据索引方法，解决现有存储方式中索引效率低、并发性差的问题，提高数据的索引效率。

本发明基于HBase数据库的金融数据索引方法，包括：

A.一级索引的行主键设置：将业务代码、业务类型、交易日期和交易时间进行字符串组合，形成HBase数据库中每一行数据唯一性的行主键；

B.二级索引设置：建立常见业务查询列与所述行主键之间的映射关系，并将所述的映射关系存储在映射关系表中。

通常在对数据库的索引中只有一级索引，即通过行主键(rowkey)进行的索引，这种索引方式对一般的数据量是可行的，但对金融数据这种基数庞大的数据索引时效率会非常低下，因此本发明引入了二级索引，以满足金融领域的多维度、高效率的索引需求，避免了将rowkey作为唯一索引方式过于单一的不足。

为了保证在对HBase数据写入时，不会将大量同属性的数据都写入数据库的同一分区，造成数据库热点问题，导致索引效率下降，因此在步骤A中，将业务代码、业务类型、交易日期或交易时间中构成行主键前缀的部分进行编码或反转后，再进行字符串组合。这样使得组合后的行主键的前缀不再相同，避免了数据库热点问题，提高了索引的效率。

优选的，所述的编码为HASH编码。HASH编码是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出。

在此基础上，为了使索引效率最优化，步骤A中，通过脚本对金融数据在HBase数据库的每个分区的数据存储量定时进行检测，如果检测到其中有已存储的数据量超过设定阈值的分区，则对该分区进行拆分，使每个分区当前已存储的数据量均衡，提高检索效率。拆分方式可以采用常规的ConstantSizeRegionSplitPolicy方式或KeyPrefixRegionSplitPolicy方式等。

本发明基于HBase数据库的金融数据索引方法，有效提高了对金融数据的索引效率，并且能够支持多维度的索引，大幅度简化了索引过程。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于HBase数据库的金融数据索引方法的流程图。

具体实施方式

如图1所示本发明基于HBase数据库的金融数据索引方法，包括：

A.一级索引的行主键(rowkey)设置：将业务代码、业务类型、交易日期和交易时间中构成行主键的前缀部分进行编码或反转，使每条记录的前缀都不相同，然后将其进行字符串组合，形成HBase数据库中每一行数据唯一性的行主键，以避免数据库热点问题，提高索引效率。

以股票业务为例：

在股票业务中包括有股票代码、股票类型、交易日期和交易时间。其中，股票类型为股票所属的交易所：“SH”、“SZ”，分别用“0”、“1”表示。为确保rowkey唯一性，交易时间精确到秒或者毫秒。为了避免数据库热点的问题，将行主键的前缀部分进行编码或反转，使每条记录的前缀都不相同。行主键的一种设置方式为：

对每个交易日期或股票代码进行HASH编码。因此通过HASH编码对行主键进行设置有两种方式：

rowkey1＝交易日期HASH值+股票代码+股票类型+交易时间

rowkey2＝股票代码HASH值+交易日期+股票类型+交易时间

行主键的另一种设置方式为将交易日期或股票代码反转(倒序)，通过反转对行主键进行设置有两种方式：

rowkey3＝交易日期反转+股票代码+股票类型+交易时间

rowkey4＝股票代码反转+交易日期+股票类型+交易时间

为了使索引效率最优化，通过脚本对金融数据在HBase数据库的每个分区的数据存储量定时进行检测，如果检测到其中有已存储的数据量超过设定阈值的分区，则对该分区进行拆分，使每个分区当前已存储的数据量均衡，由此提高检索效率。拆分方式可以采用常规的ConstantSizeRegionSplitPolicy方式或KeyPrefixRegionSplitPolicy方式等。

例如，如查询满足开盘价c01、收盘价c02、成交额c03的多维查询。可将这三列的值与rowkey的映射关系存储在映射关系表中，以保证多维查询的速度。如，rowkey和单一列映射如表1所示：

表1：

rowkey1	c01
		rowkey2	c01
rowkey3	c02
		rowkey4	c02
rowkey5	c03
		rowkey6	c03
…	…
		rowkeyn	c0n

rowkey和多列映射如表2所示：

表2：

rowkey1	c01	…	cx1
				rowkey2	c01	…	cx2
rowkey3	c02	…	cx3
				rowkey4	c02	…	cx4
rowkey5	c03	…	cx5
				rowkey6	c03	…	cx6
…	…	…	…
				rowkeyn	c0n	…	cxn

其中c01,c02,…,c0n；cx1,cx2,…,cxn为业务查询时的常用列。

将本发明的索引方法与现有的常规CCIndex索引方法和Solr索引方法，以及未加索引的方法进行对比，按照不同数据量的HBase数据库表，以10次查询平均值作为最终结果，如表3～表5所示：

表3：

表数据量：100万	本发明	CCIndex索引	Solr索引	未加索引
					平均响应时间	427ms	518ms	703ms	查询超时

表4：

表数据量：1000万	本发明	CCIndex索引	Solr索引	未加索引
					平均响应时间	1060ms	1209ms	1491ms	查询超时

表5：

表数据量：1亿	本发明	CCIndex索引	Solr索引	未加索引
					平均响应时间	6046ms	7304ms	10044ms	查询超时

从测试数据可以看出，本发明索引方法在处理金融行情数据查询时，能够非常明显的提高查询效率，而且数据量越大，本发明索引方法的效率提升的越明显，特别是在对业务多维度查询中更能够体现出高速、便捷的特点。

Claims

1.基于HBase数据库的金融数据索引方法，其特征包括：

2.如权利要求1所述的基于HBase数据库的金融数据索引方法，其特征为：步骤A中，将业务代码、业务类型、交易日期或交易时间中构成行主键前缀的部分进行编码或反转后，再进行字符串组合。

3.如权利要求2所述的基于HBase数据库的金融数据索引方法，其特征为：所述的编码为HASH编码。

4.如权利要求1至3之一所述的基于HBase数据库的金融数据索引方法，其特征为：步骤A中，通过脚本对金融数据在HBase数据库的每个分区的数据存储量定时进行检测，如果检测到其中有已存储的数据量超过设定阈值的分区，则对该分区进行拆分，使每个分区当前已存储的数据量均衡，提高检索效率。