CN108595553B

CN108595553B - 一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法

Info

Publication number: CN108595553B
Application number: CN201810316913.2A
Authority: CN
Inventors: 周家贤; 刘晨; 张彪; 罗勇; 李永华; 徐永康; 郝瑞兴; 孙成顺
Original assignee: Hongyun Honghe Tobacco Group Co Ltd
Current assignee: Hongyun Honghe Tobacco Group Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2022-02-08
Anticipated expiration: 2038-04-10
Also published as: CN108595553A

Abstract

本发明公开一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，包含以下步骤：在数据库中建立时序表A和副本表B，在内存中为每个数采点建立缓存对象；表A存储每次数采时间；表B按照压缩规则存储数采数据副本，压缩规则为计算每次数采值与缓存对象的值的绝对差，比较绝对差与定义压缩精度，若小于等于则不存入，若大于则存入表B中，同时将数据更新至缓存对象；为查询时能够识别数采点值不存在或被压缩，规定一定时间内必须存储一次数采数据至表B中。解压查询时，根据所需查询时间和数采点将时序表A与副本表B左连接得到初始结果集R，再将R中的空值(被压缩掉的值)替换为向前搜索最近一次不为空的值。

Description

一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法

技术领域

本发明涉及一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法。

背景技术

随着信息技术的快速发展，信息化与工业化的融合已成为当今工业发展的大趋势。在生产加工过程中，以一定频率连续对实时工业数据进行采集存储，利用数据监控生产、分析生产、调控生产是当前制造业转型升级的发展方向。

当前对于工业数采时序数据的存储主要采用时序数据库，时序数据库通常都具备特定的压缩存取算法，具备良好的压缩效率，但一方面时序数据库不仅价格昂贵，还需要按其给定的场景进行存储，解压查询效率不高。另一方面，工业中的业务数据通常采用关系型数据库存储，造成业务数据与工业数采时序数据的分离，致使业务数据与时序数采数据难于关联查询，对数据的利用造成不便。

工业数采时序数据有数采点多，存储频繁，数据量大等特点，在不经压缩处理的情况下采用关系型数据库存取时，存在：写入性能低下，磁盘占用高，查询效率低下等问题。发明者在工作中发现，工业数采时序数据同一个数采点在一定时间内很少变化或者无变化，这样在存储时就产生了较大的数据冗余。

发明内容

本发明的目的是提供一种能有效降低冗余、提高查询效率的基于关系型数据库的工业数采时序数据压缩存储和解压查询方法。

为了解决上述技术问题，本发明的技术方案是：一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，所述的压缩存储过程，包含以下步骤：

(1)初始化：在关系型数据库中建立时序表A与副本表B，其中表A包含一个字段：采样时间，用于标记每次数采的时间；表B中包含三个字段，分别是：采样点、采样时间和数值，由采样点与采样时间组合成这个表的主键，用于存储符合压缩条件的数采数据副本；数采点的数采信息用 (N_i T_j P_i，j)来表示，其中N_i表示第i个数采点，T_j表示第j次数采时间，P_i，j表示第i个数采点在第T_j时间的数采值(i，j＝1，2，3...)，每个数采时间T_j，都会对所有的数采点进行一次数采；同时，在内存中为每个数采点N_i建立一个缓存对象，对象的结构为

分别表示(采样点，上次存储的数采时间，上次存储的数采值)；

(2)数采开始后，所有数采点的第1次数采信息(N_i T₁ P_i，1) (i＝1，2，3...)都按照表B的结构全部存入表B中，将数采时间T₁存入时序表 A中；将第一次的数采信息(N_i T₁P_i，1)赋予每个数采点在内存中的对象

中；

(3)对于第二次及以后的数采存储，按照以下步骤进行：

步骤3-1：将数采时间T_j(j＝2，3...)存入时序表A中；

步骤3-2：对数采点N_i(i＝1，2，3...)的数采时间T_j(j＝2，3...)与内存中对应数采点的上次存储的数采时间

进行如下比较：

其中，T_flag为自定义时间，它的作用是：规定一定时间T_flag内必须存储一次数采数据至表B；在解压查询中，遇到NULL时的最大的向前搜索范围即为T_flag,固定了向前搜索最大范围，既能识别数采点值不存在或被压缩，又能提高查询效率。

若(3)式不成立，转至步骤3-4；

若(3)式成立时，继续步骤3-3；

步骤3-3：将数采点N_i的数采值P_i，j与内存中对应数采点的上次存储的数采值

进行如下比较：

其中，∈为自定精度(可根据实际情况，进行有损压缩，实现更高的压缩效率)；

若(4)式成立，则不需将数采点N_i的数采信息(N_i T_j P_i，j)存入副本表 B中，不进行步骤3-4；

若(4)式不成立，继续步骤3-4；

步骤3-4：将该数采点N_i的数采信息(N_i T_j P_i，j)存入副本表B中，同时将内存中数采点N_i的对象值更新为(N_i T_j P_i，j)；

所述的解压查询过程，包含以下步骤：

(1)当需要查询某个数采点N_i在[t₁，t₂]时间间隔内的数采值时，根据所需查询时间[t₁，t₂]和数采点N_i为查询条件，将时序表A与副本表B以时序为连接条件进行左连接查询，即得到这个点在时间段[t₁，t₂]内的查询初始结果集R，因进行了压缩，在R中被压缩了的数采值显示为空值(NULL)；

(2)若R中t₁时刻的数采值为NULL，则在副本表B中查询数采点N_i在[t₁- T_flag,t₁]时间内的最后一次记录，即为t₁时刻数采值的副本，填补至R中的 t₁时刻。

(3)若R中其他时刻T_j的数采值空，可在R中向前搜索离该时刻最近的一次不为空的记录，该记录即为T_j时刻的数采数据副本，填补至R的T_j时刻，以此方法将所有空值填满，得到[t₁，t₂]时间段内的完整数采信息。特别的，当t₁＝t₂时，即可查询某点在某个时刻的数采值。

本发明包括以下优点：

针对时序数据的特点：在连续时间内，大量的存储数据，并且在某个时间段内，可能出现重复的值。通过在关系型数据库中用两个表做记录的方法，降低数据的存储空间，实现数据压缩；一方面，在存储压缩过程中降低了数据冗余；另一方面，由于数据量减少，且解压与查询数据同时进行，极大的提高了查询效率，发明者在实际的使用当中，压缩率可达10％，尤其随着数采点的增多以及数采频率的提高，压缩率越来越低。

附图说明

图1说明了关系型数据库中两表左连接运算的数据处理关系图；

图2说明了时序表A与采样副本表B的表结构图；

图3是本发明中压缩存储的流程图；

图4是本发明中解压查询的流程图；

图5展示本发明实例中数据在压缩存储前后的变化图；

图6是本发明实例的解压查询的恢复过程图。

具体实施方式

在本实施例中，需要说明的是，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

另，在本具体实施方式中如未特别说明部件之间的连接或固定方式，其连接或固定方式均可为通过现有技术中常用的螺栓固定或钉销固定，或销轴连接等方式，因此，在本实施例中不再详述。

一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，1、首先在关系型数据库中建立如图2所示结构的时序表A与副本表B；

2、初始化：在内存对象中，为每个数采点建立缓存对象，对象的结构为

分别表示(数采点，上次存储的数采时间，上次存储的数采值)；

3、数采开始后，第一次的数采值全部存入副本表B中，第二次及以后数采按照发明方法中的步骤(3)进行压缩存储(本例中的压缩为无损压缩，即ε＝0，同时定义T_flag＝30min)。图5中的原始数据，经过本发明的压缩存储后，只需用图中的时序表A与副本表B来表示；从图中我们可以看出，原始数据中3个点十次数采总共30条记录，经过压缩后，存储表B中共存储 9条记录，同时在时序表中值存储了10条数采时间；注：在图5中每个表中的第一列为数采序号，用于说明当前是第i次数采，在实际操作中并不需要这一列。

4、解压查询：当需要查询数采点a在时间段[2018/1/12 16:35:04, 2018/1/1216:35:22]内的数采值时，首先，以数采点a为查询条件对时序表 A与副本表B的左连接在时间段[2018/1/12 16:35:04,2018/1/12 16:35:22] 做查询，得到的结果集如图6的表1所示，在表1中为NULL的数据即为被压缩了的数据，在表1中经过向前搜索，再将表1中的空值恢复为最近一次不为空的值，即得到数采点a在时间段[2018/1/12 16:35:04,2018/1/1216:35:22]内的数采数据，如图6中表2所示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，其特征在于：所述的压缩存储过程，包含以下步骤：

(1)初始化：在关系型数据库中建立时序表A与副本表B；

(2)数采开始后，所有数采点的第1次数采信息N_i T₁ P_i,1i＝1，2，3...都按照表B的结构全部存入表B中，将数采时间T₁存入时序表A中；在内存中为每个数采点N_i建立一个缓存对象，对象的结构为N_i，T_Ni，P_Ni，分别表示：采样点，上次存储的数采时间，上次存储的数采值；将第一次的数采信息N_i T₁ P_i,1赋予每个数采点在内存内的对象Ni，T_Ni，P_Ni中,i＝1，2，3...；

(3)对于第二次及以后的数采存储，按照以下步骤进行：

步骤3-1：将数采时间T_j j＝2，3...存入时序表A中；

步骤3-2：对数采点N_ii＝1，2，3...的数采时间T_j j＝2，3...与内存中对应数采点的上次存储的数采时间T_Ni进行如下比较：

若(1)式不成立，转至步骤3-4；

若(1)式成立时，继续步骤3-3；

步骤3-3：将数采点N_i的数采值P_i,j与内存中对应数采点的上次存储的数采值P_Ni进行如下比较：

其中，ε为自定精度；

若(2)式成立，则不需将数采点N_i的数采信息N_i T_j P_i,j存入副本表B中，不进行步骤3-4；

若(2)式不成立，继续步骤3-4；

步骤3-4：将该数采点N_i的数采信息N_i T_j P_i,j存入副本表B中，同时将内存中数采点N_i的对象值更新为N_i T_j P_i,j；

解压查询过程，包含以下步骤：

(1)当需要查询某个数采点N_i在t₁,t₂时间间隔内的数采值时，以所需查询时间t₁,t₂和数采点N_i为查询条件，将时序表A与副本表B以时序为连接条件进行左连接查询，即得到这个点在时间段t₁,t₂内的查询初始结果集R，因进行了压缩，在R中被压缩了的数采值显示为空值NULL；

(2)若R中t₁时刻的数采值为NULL，则在副本表B中查询数采点N_i在[t₁-T_flag，t1]时间内的最后一次记录，即为t₁时刻数采值的副本，填补至R中的t₁时刻；

(3)若R中其他时刻T_j的数采值空，可在R中向前搜索离该时刻最近的一次不为空的记录，该记录即为T_j时刻的数采数据副本，填补至R的T_j时刻，以此方法将所有空值填满，得到t₁,t₂时间段内的完整数采信息；特别的，当t₁＝t₂时，即可查询某点在某个时刻的数采值。

2.根据权利要求1所述的基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，其特征在于：在压缩存储过程第(1)步中，其中表A包含一个字段：采样时间，用于记录每次数采的时间；表B中包含三个字段，分别是：采样点、采样时间和数值，由采样点与采样时间组合成这个表的主键，用于存储符合压缩条件的数采数据副本；数采点的数采信息用N_i T_j P_i,j来表示，其中N_i表示第i个数采点，T_j表示第j次数采时间，P_i,j表示第i个数采点在第T_j时间的数采值i,j＝1，2，3...，每个数采时间T_j，都会对所有的数采点进行一次数采。

3.根据权利要求1所述的基于关系型数据库的工业数采时序数据压缩存储和解压查询方法，其特征在于：在压缩存储过程第3-2步中，其中，T_flag为自定义时间，它的作用是：规定一定时间T_flag内必须存储一次数采数据至表B；在解压查询中，遇到NULL时的最大的向前搜索范围即为T_flag，固定了向前搜索最大范围，既能识别数采点值不存在或被压缩，又能提高查询效率。