CN106202384A

CN106202384A - 一种支持时序数据聚合函数的索引方法

Info

Publication number: CN106202384A
Application number: CN201610536956.2A
Authority: CN
Inventors: 王建民; 黄向东; 郑亮帆; 康荣; 龙明盛; 刘英博
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2016-12-07

Abstract

一种支持时序数据聚合函数的索引方法，能够支持简单聚合操作的快速即席查询。其基本思想是将概要表和线段树(Segment Tree)结合起来，在概要表上建立由多棵线段树构成的线段森林模型，从而避免概要表的全表扫描操作。同时，通过自底向上的方式动态构建线段森林，回避了传统线段树不支持增长的缺点。此外，查询算法通过计算直接定位索引数据，避免了对线段森林的递归遍历操作，减少了磁盘IO次数。实验结果表明，本文采用的概要表+线段森林的计算查询方式，有效减少了磁盘IO的次数，显著提升了查询性能。

Description

一种支持时序数据聚合函数的索引方法

技术领域

本发明涉及在大数据应用开发过程中一种大数据系统自动选型与参数配置的方法，属于计算机数据库管理技术领域。

背景技术

随着传感器技术的发展和互联网的普及，数据的采集和信息的传播速度达到了空前的水平。对于数据的极值、均值等聚合信息变得十分重要，如何快速准确获取这些聚合信息是本文的研究重点。

要满足这类查询，数据库就必须支持在任意时间范围内，在海量数据上进行快速的聚合操作。

传统关系型数据库主要采用概要表或物化视图的方式达到加速聚合查询的目的。其中，物化视图是对涉及表连接的查询命令进行预处理，并将结果保存在视图表中，用户发生查询时，数据库直接从视图表中查询并返回结果。概要表则是在写入数据的同时，计算并保存相应的概要信息，从而发生查询时，直接从概要表中查询并返回结果。

这两种方式的本质都是预先计算并保存常用的聚合信息，缩小查询范围，提高实际查询速度。其弊端是增加了数据库的膨胀率；随着数据的增多，会出现性能退化的问题。

而在NoSQL数据库中，一些数据库采用了MapReduce的方式来处理这些聚合操作：每次聚合查询实时从数据库中检出涉及的表数据，提交到Map程序中进行处理。在Map阶段，程序过滤出满足条件的数据并提交给Reduce程序。Reduce程序汇总并计算出查询结果。另一些数据库如MongoDB，则提出了聚合管道(Aggregation Pipeline)的概念。它是结合MapReduce的思想和Linux系统管道的思想的产物。其原理是，聚合操作直接作用在数据文件上，通过类系统的原生操作，直接过滤聚合文件中的数据。

MapReduce和聚合管道的方式都是实时计算的代表。虽然没有增加数据库的膨胀率，但查询过程中产生了大量的磁盘和计算开销，低效耗时，无法满足即席查询的需求。

而Plamen Nikolov等人则将物化视图的思想应用到NoSQL中：预先计算计数、求和等常见统计信息，并保存在视图表中，后续持续增量更新，以达到加快查询响应的目的。

这种方式相比于在NoSQL数据库上进行MapReduce计算的速度提升非常明显，但也有其弊端。物化视图本身的形成机制决定了其不支持任意范围的查询操作。另外，随着数据量的上升，查询操作的磁盘开销也会增大。

发明内容

基于上述问题，本文提出了一种支持NoSQL数据库聚合操作的索引机制。其基本思想是将概要表和线段树(Segment Tree)结合起来，在概要表上建立由多棵线段树构成的线段森林模型，从而避免概要表的全表扫描操作。同时，通过自底向上的方式动态构建线段森林，回避了传统线段树不支持增长的缺点。此外，查询算法通过计算直接定位索引数据，避免了对线段森林的递归遍历操作，减少了磁盘IO次数。本文在Cassandra数据库上实现了上述的索引引擎，并设计2组对比实验：基于数据的直接查询和基于概要表的直接查询。实验结果表明，这种概要表+线段森林的计算查询方式，有效减少了磁盘IO的次数，显著提升了查询性能。

一种支持时序数据聚合函数的索引方法，其特征在于，包括两个步骤：

步骤一、定义时序数据的数据模型和查询需求

定义1：数据项：一个数据项D(data point)是一个三元组(s,t,v)，其中s是传感器ID，t是时间戳，其中，s和t构成了全局唯一的标识，v是传感器的值，同一个传感器的连续时间的数据项构成了时序数据，在此基础上，定义本文要解决的查询问题：在时序数据上，查询时间窗口t₁～t₂(t₁和t₂为任意时刻)内的时序数据的最值、方差统计信息；

定义2：概要信息：在时序数据中，k个在时间上连续的数据项的统计信息及其时间窗口构成1个概要信息(data Digest)；

定义3：叶子节点：由数据项直接产生的概要信息加上特定的标记信息构成了叶子结点(leaf node)；

定义4：中间节点：由2个叶子结点或2个中间结点汇总加上特定的标记信息构成了中间结点(parent node)；为了在避免树的递归操作，实现概要森林的快速检索，在叶子结点和中间结点上添加了必要的标记信息：序号和编号；

定义5：序号：初始建立索引时，依据产生顺序，每个叶子结点对应1个序号，序号由1开始递增，中间结点没有序号(serial)；

定义6：编号：依据线段森林后序遍历的顺序，每个结点对应1个编号，编号(code)由1开始递增；

定义7：概要森林：概要森林(Synopsis Forest)是由结点产生的概要树构成的森林。

步骤二、概要森林的构建与查询

(1)概要森林构建

概要森林维护一个栈结构rootStack，用来提高合并效率；同时维护一个queue，用以暂存待刷入磁盘的节点信息，

A.当第i个叶子节点到来时：

A)若i为奇数：

a)则直接添加该叶子结点，该叶子结点自成一棵树，此时，该叶子结点对应的序号为i，编号为2i-ones(i)，其中，ones(i)函数为i的二进制表示中1的个数；

b)将该叶子节点添加入rootStack和queue；

B)若i为偶数：

a)在添加该叶子结点的同时，生成由该叶子结点触发生成的新树,此时，该叶子结点对应的序号为i，编号为(i-1)叶子结点的编号加1即2(i-1)-ones(i-1)+1；

b)将该叶子节点添加入queue；

c)由于该叶子节点产生的新树的根结点编号为2i-ones(i)，其余新生成的中间结点的编号依次为2(i-1)-ones(i-1)+2到2i-ones(i)-1；

d)将该叶子节点放入rootStack；

e)弹出rootStack的前两个节点，这两个节点具有相同的高度且均为根节点，合并两者形成新的树，该树的根节点编号从2(i-1)-ones(i-1)+2不断增长到2i-ones(i)；

f)将1-a-ii-5生成的根节点放入queue；

g)将1-a-ii-5生成的根节点放入rootStack，重复1-a-ii-5，直到新生成的根节点编号达到2i-ones(i)；

B.将queue中所暂存的节点刷入磁盘。

(2)概要森林查询

1)首先定义查询需求：查询时间窗口t_a～t_b对应数据项的概要信息。

2)查询具体步骤如下：

A.标准化时间窗口，假设t_is<t_a<t_ie、t_js<t_b<t_je，则可将查询的时间窗口划分为3个时间窗口：t_a<t_ie，t_(i+1)s～t_(j-1)e和t_js<t_b；

B.对于时间窗口t_a<t_ie和t_js<t_b，需要从数据库中直接读取t_a到t_ie和t_js到t_b的数据项，并从数据项中直接计算出这段时间窗口的概要信息；

C.对于时间窗口t_(i+1)s～t_(j-1)e，从线段森林中找出最少数量的线段，使得这些线段称为时间窗口t(i+1)s～t(j-1)e的划分。假设一共需要s个线段，依次从数据库中读取这s个线段对应的概要结点，得到s个概要信息；本步具体实施过程如下：

a)根据起始时间t(i+1)s和t(j-1)e从数据库中读取出2个相应的概要包，从概要包分别得到对应的序号i和j；

b)获取下界序号：如果i是偶数，把t(i+1)s对应的概要包添加到待处理队列，此时下界序号为(i+1)。否则，下界序号为i；

c)获取上界序号：如果j是奇数，把t(j-1)e对应的概要包添加到待处理队列，此时上界序号为(j-1)，否则，上界序号为j；

d)由上界序号计算出对应的编号，以及覆盖该序号对应结点的最上层结点的编号；

e)由编号和最上层结点的编号计算出最上层结点覆盖的最左叶子结点的序号；

f)如果最左序号大于下界序号，则将最上层结点的编号加入待查询队列，并把上界序号设置为最左叶子结点的序号减1，转到步骤d；

g)如果最左序号小于下界序号，则最上层结点的编号减1，转到步骤e；

h)如果最左序号等于下界序号，则将最上层节点的编号加入待查询队列中，然后退出循环；

i)最后根据带查询队列查出相应的概要包，并将这些概要包添加到待处理队列。

由步骤B和C中的(s+2)个概要信息即可计算出时间窗口t_a～t_b的概要信息。

本发明提出了一种支持时序数据聚合操作的高效索引方法，其优点是：

1.能够支持简单聚合操作的快速即席查询。在查询过程中，该索引机制能够避免了大量的磁盘开销，解决了物化视图和概要表随着数据量增长导致的性能下降的问题；

2.将概要表和线段树(Segment Tree)结合起来，在概要表上建立由多棵线段树构成的线段森林模型，从而避免概要表的全表扫描操作；

3.通过自底向上的方式动态构建线段森林，回避了传统线段树不支持增长的缺点。此外，查询算法通过计算直接定位索引数据，避免了对线段森林的递归遍历操作，减少了磁盘IO次数；

4.这种索引机制与底层数据库无关，通过自实现的基于JAVA的查询引擎，可以轻松移植到任意数据库平台中。

附图说明

下面结合附图，通过非限定性的举例对本发明的优选实施方式作进一步说明，在附图中：

图1是一组数据项所对应的概要信息示意图。

图2是本发明方法定义的概要森林与时间窗口。

图3是本发明中涉及的添加序号为奇数(上)和偶数(下)的结点。

图4是本发明中的添加叶子节点算法伪代码。

图5是本发明中的查询过程算法伪代码。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

1.一种支持时序数据聚合函数的索引方法，其特征在于，包括两个步骤：

步骤一、定义时序数据的数据模型和查询需求

步骤二、概要森林的构建与查询

(1)概要森林构建

A.当第i个叶子节点到来时：

A)若i为奇数：

b)将该叶子节点添加入rootStack和queue；

B)若i为偶数：

b)将该叶子节点添加入queue；

d)将该叶子节点放入rootStack；

f)将1-a-ii-5生成的根节点放入queue；

B.将queue中所暂存的节点刷入磁盘。

(3)概要森林查询

1)首先定义查询需求：查询时间窗口t_a～t_b对应数据项的概要信息,

2)查询具体步骤如下：

Claims

步骤一、定义时序数据的数据模型和查询需求

步骤二、概要森林的构建与查询

(1)概要森林构建

概要森林维护一个栈结构(rootStack)，用来提高合并效率；同时维护一个队列(queue)，用以暂存待刷入磁盘的节点信息。

A.当第i个叶子节点到来时：

A)若i为奇数：

b)将该叶子节点添加入rootStack和queue；

B)若i为偶数：

b)将该叶子节点添加入queue；

d)将该叶子节点放入rootStack；

f)将1-a-ii-5生成的根节点放入queue；

B.将queue中所暂存的节点刷入磁盘；

(2)概要森林查询

2)查询具体步骤如下：