CN105975634A

CN105975634A - 分布式数据存储系统中多维有序数据的存储方法

Info

Publication number: CN105975634A
Application number: CN201610459969.4A
Authority: CN
Inventors: 王建民; 黄向东; 张博; 龙明盛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2016-09-28
Anticipated expiration: 2036-06-22
Also published as: CN105975634B

Abstract

本发明涉及一种分布式数据存储系统中多维有序数据的存储方法，属于计算机数据管理技术领域。该方法首先对待存储对象进行定义，得到由待存储对象组成的多维有序数据集合，并对基于该多维有序数据集合的操作进行定义；随后枚举所有的存储方案并计算相应的期望时间代价，最终选择期望时间代价最小的存储方案作为最终存储方案。本发明能够有效的找到一种高效的多维有序数据集合存储方案，方法直观有效、便于使用。

Description

分布式数据存储系统中多维有序数据的存储方法

技术领域

本发明属于计算机数据管理技术领域，特别涉及一种分布式数据存储系统中多维有序数据的存储方法。

背景技术

维度是组成现实世界事物的基本状态，随着对物理世界认知的加深，人们不再仅仅使用一个维度刻画事物，而是同时存储和使用多个维度对数据进行描述。多维有序数据是指某些维度具有顺序关系的数据集合,以这种数据为基础的应用广泛存在。例如，在气象预报中，用户需要使用预报模式、物理量类型、预报时刻、预报时效、地理高度等5个维度共同刻画一个气象预报数据，而在设备的传感监测中，至少需要设备ID、监测物理量类型、监测时刻等3个维度对监测数据进行描述。

新兴的分布式计算机数据存储系统(后文简称为分布式存储系统)在处理海量数据方面具有较强优势，以HBase、Cassandra为代表的基于Key-Value的分布式存储系统广泛应用于大数据场景。分布式存储系统实质是一个多维的分布式映射，一个分布式存储系统由n个节点组成，通过列族名(Column Family)、行键(Row Key)、列名(Column Name)唯一地映射到一个值(Value)，数据会根据行键分布到不同的节点上。不同于传统数据库以严格的表结构存储数据，分布式存储系统的数据是以松散结构的多维哈希表存储在系统中，是一种面向行的存储；其弱化了表的结构，可以自由地向列族中添加数据。每一个列族都被设计为一组数据关联或排列。而且根据用户需求场景，还可以采用多种灵活的方式保存数据，而不必拘泥于早前定义的表结构。

面对新兴的分布式存储系统，多维有序数据的存储带来了新的问题：(1)多种维度如何存储在分布式存储系统中；(即进行合理的存储结构设计)(2)针对有序维度连续访问的特点，如何得到性能最优的存储方案。

目前工业界对分布式存储系统存储结构设计的讨论主要在于定性分析，而非定量计算，例如易趣(Ebay)的工程师在《Cassandra数据模型设计最佳实践》对存储结构设计提出了4项关键原则；《Cassandra:The Definitive Guide》一书也定性的分析了存储结构设计的原则。但这些原则都需要依赖于工程师的使用经验，不能通过定量计算来完成设计。

发明内容

本发明的目的是针对目前分布式存储系统，数据保存方式灵活，结构弱化，方案众多，但性能无法预先评测的问题，提出一种分布式数据存储系统中多维有序数据的存储方法。本发明基于对存储系统的原理分析，通过对有序数据的基本操作进行理论时间代价评估，最终得到一种期望性能最优的存储方案；该方案具备应对大数据的能力，且具有很强的适应性。

本发明提出一种分布式数据存储系统中多维有序数据的存储方法，包括以下步骤：

1)对待存储的由多个对象组成的多维数据进行定义，并将维度划分为有序维度集合与无序维度集合；

设O＝{o₁,o₂,...,o_s}为s个待存储对象组成的集合，Dim{D₁,D₂,...,D_k}为集合O中所有待存储对象维度集合，共有k个维度，s、k均为正整数；V为集合O中所有待存储对象数据值集合；

设M为有序维度集合，N为无序维度集合,M、N均为非负整数，则待存储对象组成的集合O表达为多维有序数据集合的形式，如式(1)所示：

SeqData(|o₁，o₂，...，o_s|，M，N，V) (1)

2)对基于步骤1)得到的多维有序数据集合的读取操作进行定义；

2-1)单元读取：对D_i∈Dim，通过指定每一个维度的具体值D_i＝d_i,i＝1,2,...k，进行数据读取的操作称为单元读取，定义单元读取操作为：Op_read；

2-2)确定顺序近邻读取维度；对于有顺序近邻读取需求的维度D_target∈M，获取在该维度上的顺序近邻操作定义为：Op_next(D_target)；

即对于维度D_target，取值为d_target，通过指定D_target＝l^-1(l(d_target)+1)实现顺序近邻操作，其中l为顺序函数，将维度取值映射为有序数据序号，l^-1则将数据序号反映射为维度取值；

2-3)确定逆序近邻操作维度；对于有逆序近邻读取需求的维度D_target∈M，获取在该维度上的逆序近邻操作定义为：Op_pre(D_target)；

即对于维度D_target，通过指定D_target＝l^-1(l(d_target)-1)实现逆序近邻操作；

2-4)确定序列读取操作；

一次序列读取操作包含一次单元读取操作以及q次连续的顺序或逆序近邻操作；一次序列读取操作定义为：Op_seq(D_target,q)；

根据具体数据访问需求，确定最终的序列读取操作需求，即确定SeqArray＝[Op_seq1,Op_seq2,...,Op_seqt]，其中Op_seq是Op_seq(D_target,q)的简写，表示一种序列读取操作；SeqArray为针对具体数据访问需求的访问序列数组，共包括t个序列读取操作；

2-5)统计步骤2-4)中不同序列读取操作的使用频率，得到与会话数组对应的使用频率数组FreqArray＝[fre₁,fre₂,...,fre_t]，fre_i表示第i种序列读取操作的频率；

3)枚举存储方案，计算每种存储方案期望时间代价；

多维有序数据集合的存储方案，即求解函数func使得对于所有D_i，func(D_i)＝DimArray[c],c＝1,2；其中，函数func表示存储方案，c代表数据下标，1,2是数组下标的可能取值；

给定一种存储方案func，对系统读取时间代价进行评估，对于每一种操作，又分为两种情况，本地读取和异地读取；

3-1)测量当前系统的网络传输速度和磁盘读取速度；其中T_trans为系统网络传输单个数据速度，T_read为磁盘读取速度；

3-2)计算单元读取时间代价；对于一次单元读取操作Op_read，计算其本地读取时间代价如式(2)所示：

T_{{Op}_{r e a d}}^{l o c a l} = T_{t r a n s} + T_{r o w L o c a t e} + \underset{D_{i} &Element; C K S e t}{Π} | D_{i} | T_{c o l L o c a t e} + T_{r e a d} - - - (2)

式中，|D_i|为维度D_i的不同值的个数；T_rowLocate为行键在节点中定位和读取的时间，T_colLocate为列寻址和定位时间；

对应地,如果数据异地地读取，则增加协调者节点到数据拥有者节点的一次网络通信，定义异地读取时间代价如式(3)所示：

T_{{Op}_{r e a d}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{r e a d}}^{l o c a l} - - - (3)

即增加一次数据网络通信消耗；

3-3)计算顺序近邻读取时间代价；

本地读取时间代价如式(4)所示：

T_{{Op}_{n e x t}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (4)

式中，T_index为设置性能消耗，定义Sign()为符号函数，Sign(true)＝1；Sign(false)＝0；

如果数据异地读取，则其异地读取时间代价如式(5)所示：

T_{{Op}_{n e x t}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (5)

3-4)计算逆序近邻读取时间代价；

本地读取时间代价如式(6)所示：

T_{{Op}_{p r e}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (6)

如果数据异地读取，则其异地读取时间代价如式(7)所示：

T_{{Op}_{p r e}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (7)

3-5)对于t个序列读取操作，计算每一种序列读取的时间代价；

T_{S e q} = T_{{Op}_{r e a d}}^{l o c a l} + S i g n (D_{t \arg e t} &NotElement; R K S e t) \times q \times T_{{Op}_{n e x t}}^{l o c a l} + S i g n (D_{t \arg e t} &Element; R K S e t) \times (\frac{q}{n} T_{{Op}_{n e x t}}^{l o c a l} + \frac{q (n - 1)}{n} T_{{Op}_{n e x t}}^{Re m o t e}) - - - (8)

其中，n是集群节点个数,q是该种序列读取的连续次数；

3-6)计算给定存储方案的期望时间代价E；

E = (Σ_{i = 1}^{t} T_{{Seq}_{i}} \times {fre}_{i}) - - - (9)

4)重复步骤3)，遍历所有枚举的存储方案并计算其相应的期望时间代价,选择期望时间代价最小的存储方案作为最终存储方案。

本发明提出的分布式数据存储系统中多维有序数据的存储方法，其特点和优点是：

1、本发明方法可以针对多维有序数据集合得到一种有效的分布式存储方案。借助分布式存储系统的优势，完成数据的基本操作。

2、本发明可以在真实数据未导入的情况下，对系统的性能进行评估，有效避免了系统性能在数据未导入前无法比较不同存储方案性能差异的问题。

3、本发明基于分布式存储系统，将多维有序数据的操作映射到分布式存储系统的操作，使其具备应对大数据的能力。

4、本发明方法具有很强的适应性，能够适用于多种分布式存储系统和各种多维有序数据集合。

附图说明

图1是本发明的分布式数据存储系统中多维有序数据存储方法的流程框图。

具体实施方式

本发明提出的一种分布式数据存储系统中多维有序数据的存储方法，下面结合附图和具体实施例进一步详细说明如下。

本发明提出的一种分布式数据存储系统中多维有序数据存储方法，其流程框图如图1所示，该方法包括以下步骤：

设O＝{o₁,o₂,...,o_s}为s个待存储对象组成的集合，Dim{D₁,D₂,...,D_k}为集合O中所有待存储对象维度集合，共有k个维度，s、k均为正整数；V为为集合O中所有待存储对象数据值集合；

多维数据的有些维度是存在顺序关系的，设M为有序维度集合，N为无序维度集合,M、N均为非负整数，则待存储对象组成的集合O表达为多维有序数据集合的形式，如式(1)所示：

SeqData(|o₁,o₂,...,o_s|,M,N,V) (1)

本实施例中，以包含5个维度气象预报数据的待存储的数据为例进行说明。在后文称该数据为:示例数据。5个维度的气象数据如表1所示：

表1 5个维度的气象数据表

表1中，第一行t₁表示在t639模式下温度物理量在800pa层次上2015.2.18.08未来3小时的数据，这样的一行记为一个待存储对象o；模式、物理量、层次、起报时刻、预报时效为5个维度Dim；表1中的层次维度和预报时效维度为有序维度集合；

针对多维有序数据的访问包括三种基本读取操作：单元读取、顺序近邻读取和逆序近邻读取来描述。这三种基本读取操作又可以组成较为复杂的序列读取操作。本方法的评估最终是以序列读取操作为单位进行的。

2-1)单元读取；对于多维有序数据集合，最基本操作就是指定各个维度的值，随后读取数据，对D_i∈Dim，通过指定每一个维度的具体值D_i＝d_i(i＝1,2,...k)，进行数据读取的操作称为单元读取，定义单元读取操作为：Op_read；

例如在表1所示的数据中，可以通过指定模式＝t639，物理量＝temper，层次＝800pa，起报时刻＝2015.2.18.08，预报时效＝3小时来读取对应的数据即13摄氏度。

2-2)确定顺序近邻读取维度；在多维有序数据集和中，往往存在沿着某个有序维度进行顺序访问的操作；对于有顺序近邻读取需求的维度D_target∈M，获取在该维度上的顺序近邻操作定义为：Op_next(D_target)；

2-3)确定逆序近邻操作维度；在多维有序数据集和中，同样往往存在沿着某个有序维度进行逆序访问的操作；对于有逆序近邻读取需求的维度D_target∈M，获取在该维度上的逆序近邻操作定义为：Op_pre(D_target)；

2-4)确定序列读取操作；

多维有序数据的访问往往是一组连续操作，将连续的操作称作一次序列读取。例如，在示例数据中，为了观测温度在未来24小时内的变化情况，就需要在预报时效维度上做连续多次近邻读取，通过观测连续的数据来了解温度的变化情况。对多维有序数据集合的操作最终是以多个序列读取来完成的。

具体地，一次序列读取操作包含一次单元读取操作(设其在D_target维度上进行)，以及q次连续的顺序或逆序近邻操作；一次序列读取操作定义为：Op_seq(D_target,q)；

因此，在该步骤根据具体数据访问需求，确定最终的序列读取操作需求，即确定SeqArray＝[Op_seq1,Op_seq2,...,Op_seqt]，其中Op_seq是Op_seq(D_target,q)的简写，表示一种序列读取操作。SeqArray为针对具体数据访问需求的访问序列数组，共包括t个序列读取操作；

2-5)统计步骤2-4)中不同序列读取操作的使用频率，得到与访问序列数组对应的使用频率数组FreqArray＝[fre₁,fre₂,...,fre_t]，fre_i表示第i种序列读取操作的频率；

3)枚举存储方案，计算每种存储方案期望时间代价；

分布式存储系统可以在行键(RowKey)和列名(ColumnKey)中保存数据维度信息；进一步，定义行键中包含的维度为集合RKSet，列名中包含的维度为集合CKSet；那么多维有序数据集合的存储方案即：将多维有序数据集合中的所有维度D_i∈Dim划分到DimArray＝[RKSet,CKSet]的划分问题，也即求解函数func使得对于所有D_i，func(D_i)＝DimArray[c],c＝1,2(其中c代表数据下标，1,2是数组下标的可能取值)；这里将函数func称为存储方案。例如，在示例数据中，可以通过把模式、物理量、层次维度放在行健上(即加入RKSet)，把起报时刻、预报时效维度放在列名上(即加入CKSet)，则可以通过构造行键t639_temper_800pa,列名2015.2.18.08_003来将第一条数据存储在分布式存储系统中，即为一种存储方案。

给定一种存储方案func，对系统读取时间代价进行评估，对于每一种操作，又分为两种情况，1.本地读取，即数据恰巧在客户端连接的协调者节点(客户端连接的节点称作当前客户端的协调者节点)上，则可以在本地读取，直接发送给客户端。2.异地读取，即数据不再协调者节点上，则需要把请求转发给数据真正的拥有者节点，拥有者节点读取完毕后，再较数据传回给协调者节点，在有协调者节点发给送给客户端。

3-1)测量当前系统的网络传输速度和磁盘读取速度；其中T_trans为系统网络传输单个数据速度，T_read为磁盘读取速度，以上数据均可通过实际测量获得；

3-2)计算单元读取时间代价；对于一次精确读取操作Op_read，计算其本地读取时间代价如式(2)所示：

T_{{Op}_{r e a d}}^{l o c a l} = T_{t r a n s} + T_{r o w L o c a t e} + \underset{D_{i} &Element; C K S e t}{Π} | D_{i} | T_{c o l L o c a t e} + T_{r e a d} - - - (2)

式中，T_trans为系统网络传输单个数据速度，T_read为磁盘读取速度，在3-1)已经通过实际测量读出，|D_i|为维度D_i的不同值的个数；T_rowLocate为行键在节点中定位和读取的时间，T_colLocate为列寻址和定位时间，这两项不需要测量，只需保留在计算式中即可。

如果数据异地读取，则增加协调者节点到数据拥有者节点的一次网络通信，定义异地读取时间代价如式(3)所示：

T_{{Op}_{r e a d}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{r e a d}}^{l o c a l} - - - (3)

即增加一次数据网络通信消耗；

3-3)计算顺序近邻读取时间代价；

本地读取时间代价如式(4)所示：

T_{{Op}_{n e x t}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (4)

如果顺序访问的维度不在列键集合中，则需要查找索引或者规则找到该维度下一个数值，设置性能消耗为T_index，顺序遍历的维度如果不在列键上，则其必须是有序有限维，否则通过索引来找到其顺序近邻；定义Sign()为符号函数，Sign(true)＝1；Sign(false)＝0。

如果数据异地读取，则其异地读取时间代价如式(5)所示：

T_{{Op}_{n e x t}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (5)

3-4)计算逆序近邻读取时间代价；本地读取时间代价如式(6)所示：

T_{{Op}_{p r e}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (6)

如果数据异地读取，则其异地读取时间代价如式(7)所示：

T_{{Op}_{p r e}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (7)

T_{S e q} = T_{{Op}_{r e a d}}^{l o c a l} + S i g n (D_{t \arg e t} &NotElement; R K S e t) \times q \times T_{{Op}_{n e x t}}^{l o c a l} + S i g n (D_{t \arg e t} &Element; R K S e t) \times (\frac{q}{n} T_{{Op}_{n e x t}}^{l o c a l} + \frac{q (n - 1)}{n} T_{{Op}_{n e x t}}^{Re m o t e}) - - - (8)

其中n是集群节点个数,q是该种序列读取的连续次数；

3-6)计算给定存储方案的期望时间代价E；

E = (Σ_{i = 1}^{t} T_{{Seq}_{i}} \times {fre}_{i}) - - - (9)

(4)重复步骤3)，遍历所有枚举的存储方案并计算其相应的期望时间代价,选择期望时间代价最小的存储方案作为最终存储方案。

Claims

1.一种分布式数据存储系统中多维有序数据的存储方法，其特征在于，该方法包括以下步骤：

SeqData(|o₁,o₂,...,o_s|,M,N,V) (1)

2-4)确定序列读取操作；

3)枚举存储方案，计算每种该存储方案期望时间代价；

T_{{Op}_{r e a d}}^{l o c a l} = T_{t r a n s} + T_{r o w L o c a t e} + \underset{D_{i} &Element; C K S e t}{Π} | D_{i} | T_{c o l L o c a t e} + T_{r e a d} - - - (2)

T_{{Op}_{r e a d}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{r e a d}}^{l o c a l} - - - (3)

即增加一次数据网络通信消耗；

3-3)计算顺序近邻读取时间代价；

本地读取时间代价如式(4)所示：

T_{{Op}_{n e x t}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (4)

如果数据异地读取，则其异地读取时间代价如式(5)所示：

T_{{Op}_{n e x t}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (5)

3-4)计算逆序近邻读取时间代价；

本地读取时间代价如式(6)所示：

T_{{Op}_{p r e}}^{l o c a l} = T_{{Op}_{r e a d}}^{l o c a l} + s i g n (D_{t \arg e t} &NotElement; C K S e t) \times T_{i n d e x} - - - (6)

如果数据异地读取，则其异地读取时间代价如式(7)所示：

T_{{Op}_{p r e}}^{r e m o t e} = T_{t r a n s} + T_{{Op}_{n e x t}}^{l o c a l} - - - (7)

T_{S e q} = T_{{Op}_{r e a d}}^{l o c a l} + S i g n (D_{t \arg e t} &NotElement; R K S e t) \times q \times T_{{Op}_{n e x t}}^{l o c a l} + S i g n (D_{t \arg e t} &Element; R K S e t) \times (\frac{q}{n} T_{{Op}_{n e x t}}^{l o c a l} + \frac{q (n - 1)}{n} T_{{Op}_{n e x t}}^{Re m o t e}) - - - (8)

其中，n是集群节点个数,q是该种序列读取的连续次数；

3-6)计算给定存储方案的期望时间代价E；

E = (Σ_{i = 1}^{t} T_{{Seq}_{i}} \times {fre}_{i}) - - - (9)