CN110347726A

CN110347726A - 一种高效时序数据集成存储查询系统及方法

Info

Publication number: CN110347726A
Application number: CN201910643982.9A
Authority: CN
Inventors: 陆文杰; 叶生晅
Original assignee: Creative Technology (hangzhou) Co Ltd
Current assignee: Creative Technology (hangzhou) Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-18

Abstract

本发明提出一种高效时序数据集成存储查询系统及方法，该系统包括数据结构接口、时序数据库集群、分布式查询引擎，数据结构接口在数据进入数据库之前，先将需要连接的数据表提前连接起来，然后将待存储数据转换为键值对结构存储；时序数据库集群的数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例；分布式查询引擎作为系统的查询数据查询入口。本发明能够实现集成式的数据存储，高效数据聚合，摆脱时序数据库的限制，降低用户学习成本。

Description

一种高效时序数据集成存储查询系统及方法

技术领域

本发明涉及时序数据存储领域，具体涉及一种高效时序数据集成存储查询系统及方法。

背景技术

时序数据聚合主要用于提取数据集的时间相关各种标量，例如提取计数，平均值或数据集方差，可以被广泛运用于多种场合，如随时间走势图列展示，时间相关数据分析和实时指标监控。数据聚合的数据源通常来源于多个时序数据库中的表，通过多个数据表的多次连接后得到。连接后的数据按一定的时间维度聚合后可以得到基于时间点的相关标量，并根据需求做进一步的处理。

现有的时序数据聚合方法存在以下缺陷：

(1)计算速度慢：表连接是非常耗时的操作，在连接完成前，无法执行聚合操作，连接会占据大量用户等待时间(2)资源占用高：连接会占用大量处理器资源和内存资源(3)储存样式复杂，用户学习成本高：多表连接要求用户记住多个表的结构，并写出复杂的请求语句，对用户要求较高(4)时序数据库对于时间线的数量有限制，并且当时间线数量较大时，会影响计算速度和内存占用。

发明内容

发明目的：为克服现有技术缺陷，本发明提出一种高效时序数据集成存储查询系统及方法。

技术方案：本发明的技术方案为：

一种高效时序数据集成存储查询系统，包括：数据结构接口、时序数据库集群、分布式查询引擎；其中，

数据结构接口与应用层进行交互，根据预先定义的时间窗口将应用层传输的不同数据形式的数据流进行分块，并将每一个分块转换为键值对结构存储，其中，键为索引，值为分块数据；

时序数据库集群由多个时序数数据库实例组成，时序数据库集群具有数据存储入口，数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例上，并保证相同时间线数据会被分发到相同的数据库实例中；

分布式查询引擎作为系统的查询数据查询入口。

进一步的，所述分布式查询引擎是由多个查询节点组成的集群，集群中任意节点均可作为查询入口。

本发明还提出一种高效时序数据集成存储查询方法，包括步骤：

(1)根据用户需求定义时间窗口和数据结构接口的数据处理逻辑，通过数据结构接口将新输入系统的次数据流按照时间窗口进行分块，并将每一个分块转换为键值对结构存储；当系统中原本存储的主数据流中有新的数据流入时，会从键值对存储系统中获取时间窗口内相应的键对应的值，并将该值拼接到这条主数据流的记录中输出；

(2)在数据存储入口中，利用哈希映射将步骤(1)中处理得到的主数据流按照不同的时间线分散到数据库集群中不同的数据库实例上，并保证相同的时间线会被分发到相同的数据库实例中；

(3)用户端通过分布式查询引擎访问数据库：节点收到用户端查询请求后会成为该请求的协调节点，会将请求分解成若干个子请求发给其他工作节点，工作节点在收到子请求后会去数据库统计数据，聚合数据后返回给协调节点；协调节点收到所有工作节点的回复后对所有数据再次聚合并返回给用户端。

进一步的，所述数据库实例中数据的存储结构包括时间戳、标签值和储存值。

进一步的，所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存，卷起后，每条记录的值变为计数+累计值。

进一步的，所述数据库实例中存储时间超过阈值时间的数据将会被删除。

有益效果：与现有技术相比，本发明具有以下优势：

1、本发明通过定义数据结构接口对输入的数据进行预处理，加快计算速度；

2、本发明通过固定储存格式和数据库集群来摆脱数据库时序限制并降低用户学习成本；

3、本发明通过采用分布式请求引擎提高请求速度；

4、本发明通过历史数据卷起降维减轻数据库压力。

附图说明

图1为本发明所述高效时序数据集成存储查询系统的架构图；

图2为分布式查询结构图；

图3为从数据流与主数据流的连接意图；

图4为数据库实例中数据的存储结构。

具体实施方式

下面结合附图和具体实施方式对本发明作更进一步的说明。

图1所示为本发明所述的一种高效时序数据集成存储查询系统，包括：数据结构接口、时序数据库集群、分布式查询引擎。其中：

数据结构接口与应用层进行交互，根据预先定义的时间窗口将应用层传输的不同数据形式的数据流进行分块，并将每一个分块转换为键值对结构存储，其中，键为索引，值为分块数据。

时序数据库集群由多个时序数数据库实例组成，时序数据库集群具有数据存储入口，数据存储入口利用哈希映射将通过数据结构接口转化后的数据按照不同的时间线分散到数据库集群中不同的数据库实例上，并保证相同时间线数据会被分发到相同的数据库实例中；所述数据库实例中数据的存储结构如图4所示，包括时间戳、标签值和储存值；所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存，卷起后，每条记录的值变为计数+累计值；当数据库实例中存储时间超过阈值时间的数据将会被删除。

分布式查询引擎作为系统的查询数据查询入口，所述分布式查询引擎是由多个查询节点组成的集群，集群中任意节点均可作为查询入口，分布式查询的结构如图2所示。

(1)根据用户需求定义时间窗口和数据结构接口的数据处理逻辑，通过数据结构接口将新输入系统的次数据流按照时间窗口进行分块，并将每一个分块转换为键值对结构存储；从数据流与主数据流的连接如图3所示，当系统中原本存储的主数据流中有新的数据流入时，会从键值对存储系统中获取时间窗口内相应的键对应的值，并将该值拼接到这条主数据流的记录中输出。

(2)在数据存储入口中，利用哈希映射将步骤(1)中处理得到的主数据流按照不同的时间线分散到数据库集群中不同的数据库实例上，并保证相同的时间线会被分发到相同的数据库实例中。例如，若键值为k，则其值存放在f(k)的存储位置上，其中f为哈希函数，哈希函数能使对一个数据序列的访问过程更加迅速有效，通过哈希函数，数据元素将会被更快定位。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种高效时序数据集成存储查询系统，其特征在于，包括：数据结构接口、时序数据库集群、分布式查询引擎；其中，

分布式查询引擎作为系统的查询数据查询入口。

2.根据权利要求1所述的高效时序数据集成存储查询系统，其特征在于，所述分布式查询引擎是由多个查询节点组成的集群，集群中任意节点均可作为查询入口。

3.一种基于权利要求1至2任意一项所述高效时序数据集成存储查询系统的数据集成存储查询方法，其特征在于，包括步骤：

4.根据权利要求3所述的一种高效时序数据集成存储查询方法，其特征在于，所述数据库实例中数据的存储结构包括时间戳、标签值和储存值。

5.根据权利要求3所述的一种高效时序数据集成存储查询方法，其特征在于，所述数据库实例中对存在时间不同的历史数据进行不同维度的卷起式储存，卷起后，每条记录的值变为计数+累计值。

6.根据权利要求3所述的一种高效时序数据集成存储查询方法，其特征在于，所述数据库实例中存储时间超过阈值时间的数据将会被删除。