CN110287190A

CN110287190A - 一种大数据分析自定义编码储存结构及编码、解码方法

Info

Publication number: CN110287190A
Application number: CN201910553340.XA
Authority: CN
Inventors: 杨凡
Original assignee: Sichuan Deep Online Advertising Media Co Ltd
Current assignee: Sichuan Deep Online Advertising Media Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27

Abstract

本发明公开了一种大数据分析自定义编码储存结构及编码、解码方法，所述编码存储结构包括头部信息、索引数组、数据信息；所述头部信息包括魔数、布隆信息、键值对的个数；所述索引数组将查询数据的索引信息和数据信息分开存储；所述数据信息存储了属性名称、属性值以及属性值类型的信息，且通过１个字节的定长字段存储属性值类型。本发明通过对头部信息、索引数组、数据信息的划分，实现了将数据编码的描述定义、查询索引、实际属性信息进行了分块存储，相互之间存在依赖关系，查询索引数组的长度是在头部心中进行定义，而实际属性值的存储偏移信息，则是通过索引获取，以上三部分结合起来实现整个编解码器的快速查询和属性值个数的扩展。

Description

一种大数据分析自定义编码储存结构及编码、解码方法

技术领域

本发明属于数据处理的技术领域，具体涉及一种大数据分析自定义编码储存结构及编码、解码方法。

背景技术

大数据时代，PB级别的数据处理分析已成为互联网企业和传统企业的标准配置。数据维度的膨胀，导致传统的BI系统和OLAP系统在维度扩展和维度自定义的需求日趋强烈。当前主流的OLAP分析处理组件，如Kylin、Druid，均需要预先定义指标维度字段，当业务需求变更，或是研发ToB的产品时，灵活的自定义维度查询分析是不可避免的问题。

分布式关系型数据库(如Hive)，一般采用Map的数据结构去存储不确定属性个数的数据需求，但Map源于高级编程语言，它的值类型是确定的，因此它仅满足属性维度的自定义，不满足属性类型的自定义。

一种可选择的方案是采用半结构化的JSON数据结构实现自定义属性存储，通过JSON的组合嵌套可以实现值类型的自定义，但由于JSON编解码效率低下，在大规模数据分析场景下，查询效率不能满足业务场景需求。

发明内容

本发明的目的在于提供一种大数据分析自定义编码储存结构，本发明通过对头部信息、索引数组、数据信息的划分，实现了将数据编码的描述定义、查询索引、实际属性信息进行了分块存储，相互之间存在依赖关系，查询索引数组的长度是在头部心中进行定义，而实际属性值的存储偏移信息，则是通过索引获取，以上三部分结合起来实现整个编解码器的快速查询和属性值个数的扩展，具有较好的实用性。

本发明还提供了一种大数据分析自定义编码储存结构编码方法，本发明实现了属性维度可扩展，具有较好的实用性。

本发明还提供了一种大数据分析自定义编码储存结构解码方法，本发明基于存储结构提高了查询的效率，具有较好的实用性。

本发明主要通过以下技术方案实现：一种大数据分析自定义编码储存结构，包括头部信息、索引数组、数据信息；所述头部信息包括魔数、布隆信息、键值对的个数；所述索引数组将查询数据的索引信息和数据信息分开存储；所述数据信息存储了属性名称、属性值以及属性值类型的信息，且通过1个字节的定长字段存储属性值类型。

通过头部信息的常量魔数，可以在解码数据时快速确定数据是否是通过合法编码器编码；而当存储的属性值比较稀疏时，通过对属性的key做布隆过滤，可以快速确定是否存在某个key；键值对的个数是对索引信息数组的长度进行定义说明，是索引数组和数据信息进行编解码的必要参数。

为了更好的实现本发明，进一步的，所述索引数组存储属性名称的长度、属性值的长度以及属性数据存储的偏移地址，所述索引数组按照Key的字母顺序进行有序存储，在索引查询时，采用二分查找算法，对key进行快速定位查询。

为了更好的实现本发明，进一步的，所述索引数组中索引信息存储的是每一对key和value，在编码后的数据中的存储位置信息，索引信息以数组的形式编码存储，数组的长度为头部信息中的键值对的个数。

为了更好的实现本发明，进一步的，所述索引数组的每一个元素的属性信息编码存储为二进制字节数组后的起始偏移量offset，长度为8个字节；属性名称编码后的长度为4个字节；属性值编码后的长度为4个字节。

为了更好的实现本发明，进一步的，属性值类型的长度固定为一个字节，通过起始偏移量、属性值类型的长度，属性名称的长度、属性值的长度以及属性在索引数组的位置信息，可以快速计算出属性值类型、属性名称、属性值在字节编码中的位置信息，具体计算公式如下：

定义：position_range＝(start_position，end_position)

offset_position_range＝(16+pos*16，16+pos*16+8+8)

offset＝getOffset(encodeBytes，offset_position_range)

type_position_range＝(offset，offset+1)；

key_position_range＝(offset+1，offset+1+keyLen)；

value_position_range＝offset+1+keyLen，offset+1+keyLen+valueLen

通过计算出来的存储偏移区间，解码计算出key和Value Type，根据Value Type和Value的存储偏移区间解码出value的值。

为了更好的实现本发明，进一步的，所述魔数作为校验字段，值为int类型，以4个字节固定长度存储；所述布隆信息为对key的哈希值进行布隆化后的二进制信息，用于对稀疏的属性进行快速查询，所述布隆信息的长度为8个字节；所述键值对个数信息的值为int类型，以4个字节固定长度存储。

本发明主要通过以下技术方案实现：一种大数据分析自定义编码储存结构编码方法，主要包括以下步骤：

步骤S01：输入一组自定义类型的属性键值对；按属性名称的字母顺序进行排序；

步骤S02：然后对魔数进行编码；

步骤S03：若属性名称是稀疏类型，则进行Bloom Filter编码，否则对属性的键值对的个数进行编码；

步骤S04：循环编码key和Value，并编码索引信息和数据信息；

步骤S05：将以上编码的二进制块数据按照定义的存储结构组成字节数组返回。

本发明主要通过以下技术方案实现：一种大数据分析自定义编码储存结构解码方法，主要包括以下步骤：

步骤S1：输入自定义属性编码字节数组和要查询的属性名称；

步骤S2：根据输入的编码字节数组解码出头部信息；

步骤S3：根据头部信息中的魔数判断数据是否合法，若合法，则进行步骤S4，否则返回解码失败；

步骤S4：若属性名称是稀疏类型，是则根据头部信息中的Bloom Filter数据判断名称是否存在，若不存在，则直接返回空值，若存在，则进行解码索引数组信息；若属性名称不是稀疏类型，则进行解码索引数组信息；

步骤S5：根据头部信息中的键值对的个数以及索引数组，利用二分查找算法，确定属性名称的索引信息；如果属性名称不存在，则返回空值；否则根据索引数据组中的信息和数据信息，获取属性值返回。

自定义属性编码是一种复杂数据类型，类似于Impala中的复杂数据类型(ComplexType)，它需要支持存储任意数量的属性，属性的值类型可以是关系型数据库支持的任意原始数据类型(Primitive Type)，以实现在数据库的一个字段列中存储具有个体差异化的属性数据。另外，在编码存储结构需要重点考虑查询的效率。

一种大数据分析自定义编码储存结构，主要包括以下三大部分：

本发明的有益效果：

(1)本发明通过对头部信息、索引数组、数据信息的划分，实现了将数据编码的描述定义、查询索引、实际属性信息进行了分块存储，相互之间存在依赖关系，查询索引数组的长度是在头部心中进行定义，而实际属性值的存储偏移信息，则是通过索引获取，以上三部分结合起来实现整个编解码器的快速查询和属性值个数的扩展。

(2)在属性名称的查询出现大量的不存在的情况下，Bloom Filter信息可以极大提高查询效率。当存储的属性值比较稀疏时，通过对属性的key做布隆过滤，可以快速确定是否存在某个key，从而加快业务层查询的效率。

(3)索引数组的技术优点在于将查询数据的索引信息和数据信息的存储分开，索引数组关注于实现属性名称高效查询的索引构建。索引数组的大小为数组长度乘以16个字节，优化了内存存储布局(8字节的整数倍)。索引数组是一个按照属性名称(key)字母顺序排序的有序数组，因此通过二分查找算法极大的提供了属性名称查询的效率。

(4)所述数据信息通过1个字节的定长字段存储属性的值类型，实现了存储多种数据类型的需求。

附图说明

图1为编码存储结构的示意图；

图2为本发明编码的流程图；

图3为本发明解码的流程图。

具体实施方式

实施例1：

一种大数据分析自定义编码储存结构，如图1所示，包括头部信息、索引数组、数据信息；所述头部信息包括魔数、布隆信息、键值对的个数；所述索引数组将查询数据的索引信息和数据信息分开存储；所述数据信息存储了属性名称、属性值以及属性值类型的信息，且通过1个字节的定长字段存储属性值类型。

本发明通过对头部信息、索引数组、数据信息的划分，实现了将数据编码的描述定义、查询索引、实际属性信息进行了分块存储，相互之间存在依赖关系，查询索引数组的长度是在头部心中进行定义，而实际属性值的存储偏移信息，则是通过索引获取，以上三部分结合起来实现整个编解码器的快速查询和属性值个数的扩展。

实施例2：

一种大数据分析自定义编码储存结构，自定义属性编码是一种复杂数据类型，类似于Impala中的复杂数据类型(Complex Type)，它需要支持存储任意数量的属性，属性的值类型可以是关系型数据库支持的任意原始数据类型(Primitive Type)，以实现在数据库的一个字段列中存储具有个体差异化的属性数据。另外，在编码存储结构需要重点考虑查询的效率。

编码存储结构分为三大部分：

(1)头部信息

头部信息用于存储数据合法性校验的魔数，稀疏属性数据的快速存在性判断信息，编码中包含的属性个数信息。头部信息，是后续数据编码和解码的基础。

(2)索引数组

索引数组通过存储属性名称的长度、属性值的长度，以及属性数据存储的偏移地址，可以快速判定是否包含某个属性名称，并定位待查询属性名称的值信息。索引数组会按照Key的字母顺序进行有序存储，索引查询时，采用二分查找算法，对key进行快速定位查询。

(3)数据信息

数据信息部分存储了属性名称、属性值、属性值的类型信息。

以上划分的优点是将数据编码的描述定义、查询索引、实际属性信息进行了分块存储，相互之间存在依赖关系，查询索引数组的长度是在头部心中进行定义，而实际属性值的存储偏移信息，则是通过索引获取，以上三部分结合起来实现整个编解码器的快速查询和属性值个数的扩展。

实施例3：

一种大数据分析自定义编码储存结构，如图1所示，主要包括以下三个部分：

1.头部信息

·MagicNumber魔数，作为校验字段，值为int类型，以4个字节固定长度存储。

·BloomFilter布隆信息对key的哈希值进行布隆化后的二进制信息，该值主要用于对稀疏的属性进行快速查询。该字段信息可以根据业务需求来确定是否需要存储。长度为8个字节。

Bloom Filter算法的特点在于它判断一个属性名称(Key)不存在，那么这个key肯定不存在；它判断一个key存在，那么这个Key可能不存在。在索引数组中用到的二分查找算法，最坏的时间复杂度是O(logN)，如果由于数据的稀疏，属性名称的查询出现大量的不存在的情况，Bloom Filter信息可以极大提高查询效率。但如果待查找的key在大部分情况下都是能够找到的，那么这个开销就有点得不偿失；

·Key-Value pair size存储有多少个键值对，值为int类型，以4个字节固定长度存储。

头部信息是该编码数据的主体结构描述定义，通过头部信息的常量魔数，可以在解码数据时快速确定数据是否是通过合法编码器编码。而布隆信息数据的优点在于，当存储的属性值比较稀疏时，通过对属性的key做布隆过滤，可以快速确定是否存在某个key，从而加快业务层查询的效率。键值对的个数是对索引信息数组的长度进行定义说明，是索引数组和数据信息进行编解码的必要参数。

2.索引数组

索引信息存储的是每一对key和Value，在编码后的数据中的存储位置信息，索引信息以数组的形式编码存储，数组的长度为头部信息中的Key-Value pair size。对于数组的每一个元素，包含三部分信息：

■属性信息编码存储为二进制字节数组后的起始偏移量offset，长度为8个字节；

■属性名称(key)编码后的长度keyLength，长度为4个字节；

■属性值(value)编码后的长度valueLength，长度为4个字节；

属性值类型(type)的长度固定为一个字节，通过起始偏移量，type的长度，key的长度，value的长度以及属性在索引数组的位置信息position，可以快速计算出type，key，value在字节编码中的位置信息，具体计算公式如下：

定义：position_range＝(start_position，end_position)

offset_position_range＝(16+pos*16，16+pos*16+8+8)

offset＝getOffset(encodeBytes，offset_position_range)

type_position_range＝(offset，offset+1)；

key_position_range＝(offset+1，offset+1+keyLen)；

value_position_range＝offset+1+keyLen，offset+1+keyLen+valueLen

索引数组的技术优点在于将查询数据的索引信息和数据信息的存储分开，索引数组关注于实现属性名称高效查询的索引构建。索引数组的大小为数组长度乘以16个字节，优化了内存存储布局(8字节的整数倍)。索引数组是一个按照属性名称(key)字母顺序排序的有序数组，因此通过二分查找算法极大的提供了属性名称查询的效率。

3.数据信息

数据信息存储了属性值类型(type)、属性名称(key)、属性值(value)的具体信息。通过1个字节的定长字段存储属性的值类型，实现了存储多种数据类型的需求。在索引数组部分，已经通过编码的方式，将每一组属性名称、属性值、属性值类型的起始偏移地址、属性名称的长度、属性值的长度存储在索引数组里，在业务的查询过程中，属性名称、二进制编码作为输入，通过二分查找算法查询该二进制编码中是否存在该属性名称，存在则通过索引信息快速在数据信息中定位到属性的值，返回给客户端。

一种大数据分析自定义编码储存结构编码方法，如图2所示，主要包括以下步骤：

①用户输入一组自定义类型的属性键值对，如Java中的Map<String，Object>类型数据；

②按属性名称的字母顺序对Map进行排序，得到如Java中的TreeMap<String，Object>数据结构；

③对魔数进行编码；

④属性名称是稀疏类型，则进行Bloom Filter编码，否则直接进行第5步；

⑤对属性的key-value个数进行编码；

⑥循环便利TreeMap中的key和Value，并编码索引信息和数据信息；

⑦将以上编码的二进制块数据按照定义的存储结构组成字节数组返回。

一种大数据分析自定义编码储存结构解码方法，如图3所示，主要包括以下步骤：

①输入自定义属性编码字节数组和要查询的属性名称

②根据输入的编码字节数组解码出头部信息

③根据头部信息中的魔数判断数据是否合法，是则进行第4步，否则返回解码失败。

④属性名称是否为稀疏类型，是则根据头部信息中的Bloom Filter数据判断名称是否存在，不存在直接返回空值。存在则进行第5步。不是稀疏类型也进行第5步

⑤解码索引数组信息

⑥根据头部信息中的key-value个数和索引数组，利用二分查找算法，确定属性名称的索引信息。如果属性名称不存在，则返回空值。存在则进行第7步。

⑦根据索引数据组中的信息和数据信息，获取属性值返回。

性能测试案例中，通过kudu存储自定义属性编码数据，利用Impala查询引擎，结合标准SQL，对自定义属性编码进行统计分析查询。期中编码通过以下接口实现：

byte[]encode Map(Map<String,Object>decode Map)throws Value TypeException解码函数则集成至自定义的Impala UDF、UDFA函数中，在SQL中调用相关UDF函数，通过SQL查询出统计结果数据。性能测试中的统计SQL如下：

Select sum(get_int(qitem,"age"),sum(get_long(qitem,"long value"),

sum(get_float(qitem,"double value"))from qitem_test；

其中，get_int,get_long,get_float为UDF函数，

qitem字段是kudu中存储的自定义属性编码数据，

age,long value,double value为要统计的属性名称。

以上SQL完成对以上三个属性进行统计求和。

自定义属性编码方案，针对主流OLAP平台组件维度限制实现了灵活的扩展配置，在不增加存储空间的情况下，实现了用户自定义的即席查询。统筹考虑编码存储结构与查询算法，性能比现有的Json方案提升了7倍。下表是JSON编码与本专利编码查询性能对比：

查询数据量	结构	查询1个关键字	查询2个关键字	查询3个关键字
					1000万数据求和	JSON编码	52.13s	109.21s	173.28s
1000万数据求和	自定义编码	6.26s	16.09s	24.06s

表1编码查询性能对比

以上数据请关注对比结构查询性能的相对值，因为绝对值数据与性能测试机器的硬件配置有关。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种大数据分析自定义编码储存结构，其特征在于，包括头部信息、索引数组、数据信息；所述头部信息包括魔数、布隆信息、键值对的个数；所述索引数组将查询数据的索引信息和数据信息分开存储；所述数据信息存储了属性名称、属性值以及属性值类型的信息，且通过1个字节的定长字段存储属性值类型。

2.根据权利要求1所述的一种大数据分析自定义编码储存结构，其特征在于，所述索引数组存储属性名称的长度、属性值的长度以及属性数据存储的偏移地址，所述索引数组按照Key的字母顺序进行有序存储，在索引查询时，采用二分查找算法，对key进行快速定位查询。

3.根据权利要求1或2所述的一种大数据分析自定义编码储存结构，其特征在于，所述索引数组中索引信息存储的是每一对key和value，在编码后的数据中的存储位置信息，索引信息以数组的形式编码存储，数组的长度为头部信息中键值对的个数。

4.根据权利要求3所述的一种大数据分析自定义编码储存结构，其特征在于，所述索引数组的每一个元素的属性信息编码存储为二进制字节数组后的起始偏移量offset，长度为8个字节；属性名称编码后的长度为4个字节；属性值编码后的长度为4个字节。

5.根据权利要求4所述的一种大数据分析自定义编码储存结构，其特征在于，属性值类型的长度固定为一个字节，通过起始偏移量、属性值类型的长度，属性名称的长度、属性值的长度以及属性在索引数组的位置信息，可以快速计算出属性值类型、属性名称、属性值在字节编码中的位置信息，具体计算公式如下：

定义：position_range=(start_position，end_position)

offset_position_range=(16+pos*16，16+pos*16+8＋8)

offset=getOffset(encodeBytes，offset_position_range)

type_position_range=(offset，offset+1);

key_position_range=(offset+1，offset+1+keyLen);

value_position_range=offset+1+keyLen，offset+1+keyLen+valueLen

6.根据权利要求1所述的一种大数据分析自定义编码储存结构，其特征在于，所述魔数作为校验字段，值为int类型，以4个字节固定长度存储；所述布隆信息为对key的哈希值进行布隆化后的二进制信息，用于对稀疏的属性进行快速查询，所述布隆信息的长度为8个字节；所述键值对个数信息的值为int类型，以4个字节固定长度存储。

7.一种大数据分析自定义编码储存结构编码方法，其特征在于，主要包括以下步骤：

步骤S02：然后对魔数进行编码；

步骤S04：循环编码key和Value，并编码索引信息和数据信息；

8.一种大数据分析自定义编码储存结构解码方法，其特征在于，主要包括以下步骤：

步骤S2：根据输入的编码字节数组解码出头部信息；