CN111400265A

CN111400265A - 一种基于大冗余量时序数据的存储方法

Info

Publication number: CN111400265A
Application number: CN202010144723.4A
Authority: CN
Inventors: 张桦; 周青; 吴以凡; 许斌
Original assignee: ZHEJIANG YONGGUI ELECTRIC EQUIPMENT CO Ltd
Current assignee: ZHEJIANG YONGGUI ELECTRIC EQUIPMENT CO Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-07-10
Anticipated expiration: 2040-03-04
Also published as: CN111400265B

Abstract

本发明公开了一种基于大冗余量时序数据的存储方法。传统关系型数据库存储时序数据时存储成本大、写入吞吐低、查询性能差。本发明的服务器使用内存数据库作缓存。在传感器发送的时序数据达到设定的一段测控时间或者完成阶段性测量任务后，服务器将内存数据库中缓存的时序数据以去冗余存储格式存储于磁盘数据库中，成为该段测控时间或者该阶段性测量任务的历史数据；需要对历史数据进行搜索和分析时，根据不同存储格式进行调用。本发明以压缩形式存储历史数据，对数据去冗余，以减少服务器硬盘空间开销，减少数据行数，并在需要调用时，快速准确地调用历史数据。

Description

一种基于大冗余量时序数据的存储方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于大冗余量时序数据的存储方法。

背景技术

传感器技术作为信息技术的三大基础之一，是当前各发达国家竞相发展的高新技术。随着经济和技术的进步、互联网的普及和信息高速公路的发展，在社会的各个角落，部署了大量的各种用途的传感器，用于确保人们生活的安全，便捷。

大量的传感器也产生了大量的数据，不但在传输时占用了大量的网络带宽，而且随着应用的积累，也需要大量的硬件系统去存储历史数据。如果不对数据进行相应的处理，将会有很多的冗余数据。在历史数据的检索时，会降低平台系统的效率，占用更多的硬件资源，造成大量硬件资源浪费。

时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线，往过去看可以做成多纬度报表，揭示其趋势性、规律性、异常性；往未来看可以做大数据分析，机器学习，实现预测和预警。

时序数据不同于一般关系数据，有持续高并发写入，无更新操作：时序数据库面对的往往是百万甚至千万数量级终端设备的实时数据写入，但数据大多表征设备状态，写入后不会更新。

传统关系型数据库存储时序数据时存在如下问题：

1、存储成本大：对于时序数据压缩不佳，需占用大量机器资源；

2、维护成本高：单机系统，需要在上层人工的分库分表，维护成本高；

3、写入吞吐低：单机写入吞吐低，很难满足时序数据千万级的写入压力；

4、查询性能差：适用于交易处理，海量数据的聚合分析性能差。

发明内容

本发明的目的在于提供一种对传感器时序数据缓存的持久化存储方法，该方法适用于有较大冗余数据的、可阶段性存储的时序数据，最终达到以压缩形式存储历史数据，减少服务器硬盘空间开销，并在需要调用时，快速准确地调用历史数据。

本发明具体如下：

步骤1、传感器发送时序数据到服务器，服务器使用内存数据库作缓存。

步骤2、在传感器发送的时序数据达到设定的一段测控时间或者完成阶段性测量任务后，服务器将内存数据库中缓存的时序数据以去冗余存储格式存储于磁盘数据库中，成为该段测控时间或者该阶段性测量任务的历史数据。

服务器将内存数据库中缓存的时序数据以去冗余存储格式存储于磁盘数据库中的过程具体如下：

服务器将内存数据库中缓存的时序数据根据不同标识的传感器源划分为多个数据段，然后将传感器源标识相同的各数据段归并为一条信息，每条信息存入一个数据库表中。信息存入数据库表的存储格式如下：

①若信息中各数据段间隔相同，则将该信息以以下格式进行存储：

[S][d][v₁|a₁|v₂|a₂,…,v_i|a_i,…,v_n|a_n]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

d表示每两个相邻数据间的时间间隔；

v_i表示去冗余后的第i个数据值，去冗余过程为相邻且数据值相同的多个数据只保留一个，i＝1,2,…,n，n表示去冗余后数据的总个数；

a_i表示去冗余之前，第一个数据到连续出现的几个v_i值中最后一个对应的数据之间所有数据的个数和；

②若信息中各数据段间隔不相同，则将该信息以以下格式进行存储：

[S][v₁|t₂|v₂,…,t_q|v_q,…,t_m|v_m]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

m表示去冗余后数据的总个数；

v_q表示去冗余后的第q个数据值，q＝1,2,…,m；其中，v₁对应的时间为S；

t_q表示去冗余后的第q个数据与起始时间戳S的时间间隔，单位为毫秒；

去冗余过程具体为：定义k_q＝(v_q+1-v_q)/(t_q+1-t_q)和k_q+1＝(v_q+2-v_q+1)/(t_q+2-t_q+1)为任意相邻三个数据点([t_q]，[v_q])、([t_q+1]，[v_q+1])和([t_q+2]，[v_q+2])之间的两个斜率值，若k_q＝k_q+1，则删除该三个数据点中的中间数据点。

进一步，所述的内存数据库具体为redis数据库。

进一步，步骤1中由服务平台调用内存数据库中的时序数据，并展示给实时数据监控端。

进一步，若需要对历史数据进行搜索和分析，则根据不同存储格式进行：信息以第①种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断S_j+a_i*d≤t<S_j+a_i+1*d搜索到该条信息的具体数据点，S_j代表数据行j的数据起始时间戳。信息以第②种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断S_j+t_q≤t<S_j+t_q+1搜索到该条信息的具体数据点。

本发明具有的有益效果：

本发明以压缩形式存储历史数据，对数据去冗余，以减少服务器硬盘空间开销，减少数据行数，并在需要调用时，快速准确地调用历史数据。本发明适用于有较大冗余数据的、可阶段性存储的时序数据，特别适用于传感器采集的数据，因为传感器采集数据较为频繁，但数据变化较为平缓。但是本发明不适用于数据冗余较少的应用场景。

具体实施方式

下面结合实施例对本发明作进一步说明。

一种基于大冗余量时序数据的存储方法，具体包括如下步骤：

步骤1、传感器发送时序数据到服务器，服务器使用内存数据库(本实施例采用redis 数据库)作缓存。由服务平台调用内存数据库中的时序数据，并展示给实时数据监控端。数据监控端常规情况下仅需要监控短期内数据，实时的分时数据存储在redis数据库中，本实施例给每个传感器分配一个标识，且分时数据缓存时包含日期。

步骤2、在传感器发送的时序数据达到设定的一段测控时间或者完成阶段性测量任务后，服务器将内存数据库中缓存的时序数据以去冗余存储格式存储于磁盘数据库中，成为该段测控时间或者该阶段性测量任务的历史数据。本实施例设定的一段测控时间为一天，完成一天的数据监控后，这一天的数据将成为历史数据，相当于完成了一天的阶段性测量任务。

[S][d][v₁|a₁|v₂|a₂,…,v_i|a_i,…,v_n|a_n]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

d表示每两个相邻数据间的时间间隔；

[S][v₁|t₂|v₂,…,t_q|v_q,…,t_m|v_m]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

m表示去冗余后数据的总个数；

若需要对历史数据进行搜索和分析，则根据不同存储格式进行：信息以第①种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断 S_j+a_i*d≤t<S_j+a_i+1*d搜索到该条信息的具体数据点，S_j代表数据行j的数据起始时间戳。信息以第②种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断S_j+t_q≤t<S_j+t_q+1搜索到该条信息的具体数据点。

Claims

1.一种基于大冗余量时序数据的存储方法，其特征在于：该方法具体如下：

步骤1、传感器发送时序数据到服务器，服务器使用内存数据库作缓存；

步骤2、在传感器发送的时序数据达到设定的一段测控时间或者完成阶段性测量任务后，服务器将内存数据库中缓存的时序数据以去冗余存储格式存储于磁盘数据库中，成为该段测控时间或者该阶段性测量任务的历史数据；

服务器将内存数据库中缓存的时序数据根据不同标识的传感器源划分为多个数据段，然后将传感器源标识相同的各数据段归并为一条信息，每条信息存入一个数据库表中；信息存入数据库表的存储格式如下：

[S][d][v₁|a₁|v₂|a₂,…,v_i|a_i,…,v_n|a_n]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

d表示每两个相邻数据间的时间间隔；

[S][v₁|t₂|v₂,…,t_q|v_q,…,t_m|v_m]

其中：

[]表示各存储列数据之间的分隔；

“|”表示分隔符号，可以根据需要选用其它分隔符号；

S表示数据起始时间戳；

m表示去冗余后数据的总个数；

2.根据权利要求1所述一种基于大冗余量时序数据的存储方法，其特征在于：所述的内存数据库具体为redis数据库。

3.根据权利要求1所述一种基于大冗余量时序数据的存储方法，其特征在于：步骤1中由服务平台调用内存数据库中的时序数据，并展示给实时数据监控端。

4.根据权利要求1、2或3所述一种基于大冗余量时序数据的存储方法，其特征在于：若需要对历史数据进行搜索和分析，则根据不同存储格式进行：信息以第①种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断S_j+a_i*d≤t<S_j+a_i+1*d搜索到该条信息的具体数据点，S_j代表数据行j的数据起始时间戳；信息以第②种存储格式存入数据库表时，如果要搜索某时刻t的数据或者某时间段范围的数据，则首先通过判断S_j≤t<S_j+1来确定要搜索的数据所在的那条信息的数据行，再通过判断S_j+t_q≤t<S_j+t_q+1搜索到该条信息的具体数据点。