CN106372181B

CN106372181B - 一种基于工业过程的大数据压缩方法

Info

Publication number: CN106372181B
Application number: CN201610785231.7A
Authority: CN
Inventors: 徐泉; 刘文庆; 张鹏; 冉振莉; 王良勇; 吴志伟; 许美蓉; 崔东亮
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2019-08-06
Anticipated expiration: 2036-08-31
Also published as: CN106372181A

Abstract

本发明提供一种基于工业过程的大数据压缩方法，涉及工业大数据分析技术领域。本发明通过对采集的生产数据按数据块和采集数据项进行压缩，根据采集数据项的类别，对浮点型、布尔型和字符型的采集数据分别进行处理，判定浮点型数值波动范围和比较布尔型、字符型相邻数据的变化来决定需要压缩的保存的数据。本发明既能有效改善工业过程中因时间的增加后采集数据项的数值发生偏移导致压缩结果偏差过大的问题，又能减少压缩后的采集数据项所占空间的大小，提高压缩效率，使工业数据库系统快速、有效地管理数据。

Description

一种基于工业过程的大数据压缩方法

技术领域：

本发明涉及工业大数据分析技术领域，尤其涉及一种基于工业过程的大数据压缩方法。

背景技术：

随着信息产业的不断发展，流程工业中的信息量也在膨胀式增长。在整个流程工业中所集成的数据采集点数通常有几千到十几万，数据采集间隔要达到秒级，数据量很大，为了确保高效的数据存储，在一定的精度指标下，应尽量减少数据的存储，因此需要对数据进行压缩处理。为了使工业数据库系统快速、有效地管理数据，提高磁盘存储效率，要保证系统有较高的压缩率，并且要有快速的、高精度的数据解压，必须进行有效的数据压缩。

在流程工业行业中，工业实时数据也有一定的变化规律，下面是工业实时数据的一些特征：

1.工业实时数据的数据变化具有一定波形规律；

2.工业实时数据中只有一小部分测点的值经常发生改变；

3.工业实时数据中很多测点的数值都具有慢变化的特征。

大数据压缩方法方面的专利主要有201610702102.7，该专利涉及对采集的工业过程数据进行压缩处理，结合工业过程数据时间采集标签，使用T，V二元组进行压缩表示，针对工业采集中数据的波动，设置数据波动范围，进行压缩。该专利虽然在一定程度上能够实现工业过程大数据的压缩，减少数据存储占用的空间，但采用的压缩方法仍然存在一定的局限性：

1.该专利中，将采集数据项初始采样时刻的数值作为基础数值，而由于随着时间的增加，生产数据会产生小幅度的偏移，这种情况下，若依然将初始时刻做为基准，数据压缩效率比较低；

2.该专利中，以采集数据项初始采样时刻的数值作为基础数值，根据设定的波动范围，将之后所有采样时刻的采集数据项的数值和基础数值做比较。而由于工业实时数据中只有一小部分测点的值经常发生改变，这种情况时有发生，因此，将初始采样时刻之后的所有采集数据项的数值和初始采样时刻的采集数据项的数值做比较，压缩效率不高；

3.该专利中，缺乏对布尔型数据的高效压缩，此外，针对工业生产中的采集的字符型数据，缺乏必要的压缩手段。

发明内容：

针对现有技术的缺陷，本发明提供一种基于工业过程的大数据压缩方法，既能有效改善工业过程中因时间的增加后采集数据项的数值发生偏移导致压缩结果偏差过大的问题，又能减少压缩后的采集数据项所占空间的大小，提高压缩效率，使工业数据库系统快速、有效地管理数据。

一种基于工业过程的大数据压缩方法，包括下述步骤：

步骤1、定义工业过程采集数据的数据标识项，对采集的工业过程生产数据按采集数据项进行编号，作为数据标识项；

步骤2、对采集数据项进行数据压缩处理，压缩过程如下：

步骤2.1、设定压缩数据块的大小，将采集的数据分为若干个数据块；

步骤2.2、对步骤2.1中数据块进行编号，形成数据组<编号，数据块内容>；

步骤2.3、将步骤2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量，即该时间偏移量为采样周期的整数倍，对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩，具体步骤为：

步骤2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩，判断该采集数据项的数据类型，若是数值型生产数据，则执行步骤2.3.2，对数值型生产数据进行压缩处理，若是布尔型生产数据，则执行步骤2.3.3，对布尔型生产数据进行压缩处理，若是字符型生产数据，执行步骤2.3.4，对字符型生产数据进行压缩；

步骤2.3.2、对数值型生产数据进行压缩处理，具体方法如下：

步骤2.3.2.1、设定该数值型生产数据的数值波动范围；

步骤2.3.2.2、根据数据块中的该数值型采集数据项第m₁(m₁≥1)个采样时刻的数值，判断该采集数据项第m₁+1个采样时刻的数值是否超出所设定的波动范围，若是，则执行步骤2.3.2.3；若否，则执行步骤2.3.2.4；

步骤2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的数值写入浮点型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤2.3.2.4；

步骤2.3.2.4、判断m₁是否等于n₁，n₁表示该数值型采集数据项的所有采样时刻的个数，若不等于，则m₁加1，返回步骤2.3.2.2；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤2.3.5，若不为空，则执行步骤2.3.5；

步骤2.3.3、对布尔型生产数据进行压缩处理，具体方法如下：

步骤2.3.3.1、根据数据块中的该布尔型采集数据项第m₂(m₂≥1)个采样时刻的数值，判断该采集数据项第m₂+1个采样时刻的数值是否发生改变，若是，则执行步骤2.3.3.2；若否，则执行步骤2.3.3.3；

步骤2.3.3.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该布尔型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤2.3.3.3；

步骤2.3.3.3、判断m₂是否等于n₂，n₂表示该布尔型采集数据项的所有采样时刻的个数，若不等于，则将m₂加1，返回步骤2.3.3.1；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤2.3.5；

步骤2.3.4、对字符型生产数据进行压缩处理，工业过程中字符型数据只有若干个取值，首先对该字符型数据能取得的状态进行编码，然后对该采集数据项进行压缩，具体方法如下：

步骤2.3.4.1、根据数据块中的该字符型采集数据项第m₃(m₃≥1)个采样时刻的数值，判断该采集数据项第m₃+1个采样时刻的数值是否发生改变，若是，则执行步骤2.3.4.2；若否，则执行步骤2.3.4.3；

步骤2.3.4.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该字符型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤2.3.4.3；

步骤2.3.4.3、判断m₃是否等于n₃，n₃表示该字符型采集数据项的所有采样时刻的个数，若不等于，则将m₃加1，返回步骤2.3.4.1；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤2.3.5；

步骤2.3.5、判断是否该数据块的所有数据采集项完成压缩，若是，则执行步骤3；若否，则采集数据项编号后移一位，对该数据块的下一个采集数据项的数据进行压缩，执行步骤2.3.1：

步骤3、判断是否步骤2.2中所有数据块都完成压缩，若是，则步骤结束，若否，则返回执行步骤2.3，对下一个新的数据块进行压缩。

由上述技术方案可知，本发明的有益效果在于：由于工业生产数据很多测点的值都具有慢变化的特征且只有一小部分测点的值经常发生改变，本发明提供的一种基于工业过程的大数据压缩方法，既能有效避免因时间的增加后采集数据项的数值发生偏移导致压缩效率低，又能减少压缩后的采集数据项所占空间的大小，提高压缩效率，使工业数据库系统快速、有效地管理数据，提高磁盘存储效率。此外，既能对布尔型数据进行高效压缩，又可以对字符型数据进行高效压缩，满足了工业过程不同类型的生产数据进行压缩，满足企业的压缩需求。

附图说明：

图1为本发明实施例提供的一种基于工业过程的大数据压缩方法的流程图；

图2为本发明实施例提供的对浮点型生产数据进行压缩处理的方法流程图；

图3为本发明实施例提供的对布尔型生产数据进行压缩处理的方法流程图；

图4为本发明实施例提供的对字符型生产数据进行压缩处理的方法流程图。

具体实施方式：

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例对选矿工业进行实时监控，共有15个采集数据项，包括运行状态数据、工作环境数据、物料信息数据、报警信息数据。其中包含15个数值型采集数据项，具体为浮点型采集数据项；2个布尔型采集数据项；1个字符型采集数据项，所有状态总共有三种，分别为：High表示上限超出，Low表示下限超出，Normal表示设备正常。采集每个工业生产现场生产数据的周期为1s。

一种基于工业过程的大数据压缩方法，如图1所示，包括如下步骤。

S1、定义工业过程采集数据的数据标识项，对采集的工业过程生产数据按照采集数据项进行编号，作为数据标识项，本实施例的15个采集数据项如表1所示。

表1 数据标识项表

S2、对采集数据项进行数据压缩处理，具体包括以下步骤。

S2.1、设定数据块的大小，本实施例中，设定30次采集的实时工业过程数据量作为数据块的大小，每个数据块包含表1中的15个采集数据项，将采集的数据分为若干个数据块。

S2.2、对S2.1中数据块进行编号，形成数据组<编号，数据块内容>，如：<B1，数据块>。

S2.3、将S2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量，即该时间偏移量为采样周期的整数倍，对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩，具体方法如下。

S2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩处理；判断该采集数据项的数据类型，若该采集数据项是浮点型生产数据，则执行步骤S2.3.2，对浮点型生产数据进行压缩处理；若该采集数据项是布尔型生产数据，则执行步骤S2.3.3，对布尔型生产数据进行压缩处理；若该采集数据项是字符型生产数据，则执行步骤S2.3.4，对字符型生产数据进行压缩处理；本实施例中，第一个数据块的15个采集数据项，每个采集数据项的30个数值分别如表2所示。

表2 第一个数据块对应的采集数据项的数值表

表2 续表一

表2 续表二

表2 续表三

本实施例中，对第一个数据块的第一个采集数据项ID0001进行压缩，第一个采集数据项ID0001为浮点型数据，则执行步骤S2.3.2。

S2.3.2、对浮点型生产数据进行压缩处理，如图2所示，具体方法如下：

S2.3.2.1、设定该浮点型生产数据的数值波动范围为±3％，即所判断的数值在基础数值的97％到103％之间，为没有超出波动范围；

S2.3.2.2、根据数据块中的该浮点型采集数据项第m₁(m₁≥1)个采样时刻的数值，判断该采集数据项第m₁+1个采样时刻的数值是否超出所设定的波动范围，若是，则执行步骤S2.3.2.3；若否，则执行步骤S2.3.2.4；

本实施例中，采集数据项ID0001的第一个采样时刻的数值为8.29，m＝2时，第二个采样时刻，即+1采样时刻的数值为8.14，8.29×97％＜8.14＜8.29×103％，相对于+0采样时刻的数值8.29没有超出所设定的波动范围±3％，则执行步骤S2.3.2.4；

S2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的采集数据项的数值写入该浮点型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤2.3.2.4；

S2.3.2.4、判断m₁是否等于n₁，n₁表示该浮点型数据块中该采集数据项的所有采样时刻的个数，即步骤S2.1中设定数据块大小时，数据块中该采集数据项的采集次数30，若不等于，则m₁加1，返回步骤S2.3.2.2；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤S2.3.5，若不为空，则执行步骤S2.3.5。

m₁加1后，m₁＝3，进行第三个采样时刻数值的判断，采集数据项ID0001的第三个采样时刻即+2采样时刻的数值为8.19，8.14×97％＜8.19＜8.14×103％，相对于+1采样时刻的数值8.14也没有超出所设定的波动范围，则继续执行步骤S2.3.2.4，到最后一个采样时刻+29为止，m₁＝n₁，n₁＝30，第一个采集数据项ID0001所有采样时刻的数值均未超出设定的波动范围，即对应的压缩数据对{T[]，V[]}中为空，则将最后一个采样时刻的时间偏移量+29和对应的数值8.28写入压缩数据对{T[]，V[]}中，压缩结果为：{T[+29]，V[8.28]}，表示第一个采集数据项ID0001的第一个采样时刻+0至第三十个采样时刻+29之间的数据(包括+0采样时刻和+29采样时刻)全部按照8.28进行存储，第一个采集数据项ID0001压缩完成后再转到步骤S2.3.4，进行第二个采集数据项的压缩处理。

S2.3.3、对布尔型生产数据进行压缩处理，如图3所示，具体方法如下：

S2.3.3.1、根据数据块中的该浮点型采集数据项第m₂(m₂≥1)个采样时刻的数值，判断该采集数据项第m₂+1个采样时刻的数值是否发生变化，若是，则执行步骤S2.3.3.2；若否，则执行步骤S2.3.3.3；

S2.3.3.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该布尔型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤S2.3.3.3；

S2.3.3.3、判断m₂是否等于n₂，n₂表示该布尔型采集数据项的所有采样时刻的个数，若不等于，则将m₂加1，返回步骤S2.3.3.1；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤S2.3.5。

S2.3.4、该字符型数据状态个数有限，首先对该字符型数据能取得的状态进行编码，其中High编码为L1，Low编码为L2，Normal编码为L3然后对该采集数据项进行压缩，如图4所示，具体方法如下：

S2.3.4.1、根据数据块中的该字符型采集数据项第m₃(m₃≥1)个采样时刻的数值，判断该采集数据项第m₃+1个采样时刻的数值是否发生变化，若是，则执行步骤S2.3.4.2；若否，则执行步骤S2.3.4.3；

S2.3.4.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该字符型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤S2.3.4.3；

S2.3.4.3、判断m₃是否等于n₃，n₃表示该字符型采集数据项的所有采样时刻的个数，若不等于，则将m₃加1，返回步骤S2.3.4.1；若等于，则判断压缩数据对{T[]，V[]}中是否为空，若为空，则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[]，V[]}中，为再执行步骤S2.3.5。

S2.3.5、判断是否该数据块的所有数据采集项完成压缩，若是，则执行步骤S3；若否，则采集数据项编号后移一位，对该数据块的下一个采集数据项的数据进行压缩，执行步骤S2.3.1。

本实施例中，第一个采集数据项ID0001完成压缩处理后，执行步骤S2.3.5，采集数据项编号后移一位，对第二个采集数据项ID0002的压缩处理，重新执行步骤S2.3.2.1至步骤S2.3.2.4。采集数据项ID0002第一个采样时刻的数值为0.34，判断该数据项下一个采样时刻即第二个采样时刻的数值0.32，超出所设定的波动范围，执行步骤S2.3.2.3，记录此时的时间偏移量+1和该采样时刻的数值0.32，写入压缩数据对{T[+1]，V[0.32]}中，表示第一个到第二个采样时刻之间的数值均按照0.32存储，继续比较该数据项下一个采样时刻即第三采样时刻的数值0.31，超出所设定的波动范围，记录此时的时间偏移量+2和该采样时刻的数值0.32，写入压缩数据对{T[+1，+2]，V[0.32，0.31]}中，继续比较该数据项下一个采样时刻即第四采样时刻的数值0.32，相对于第三采样时刻的数值0.31，超出所设定的波动范围，记录此时的时间偏移量+3及该采样时刻对应的数值0.32，写入压缩数据对{T[+1，+2，+3]，V[0.32，0.31，0.32]}，继续比较该数据项下一个采样时刻即第五采样时刻的数值0.32，相对于第四采样时刻的数值0.32，没有超出所设定的波动范围，按此过程继续比较，直到第八个采样时刻的数值0.35，相对于第七个采样时刻的数值0.32，超出所设定的波动范围，记录此时的时间偏移量+7及其该采样时刻对应的数值0.35，写入压缩数据对{T[+1，+2，+3，+7，]，V[0.32，0.31，0.32，0.35]}，按此过程，直至比较完该数据块中该数据项所有采样时刻的数据，压缩后的结果为：{T[+1，+2，+3，+7，+8，+10，+11，+12，+13，+15，+19，+20，+24，+27]，V[0.32，0.31，0.32，0.35，0.31，0.30，0.31，0.33，0.32，0.33，0.32，0.31，0.33，0.31])。

第二个采集数据项ID0002完成压缩处理后，执行步骤S2.3.5，采集数据项编号后移一位，对第三个数据项ID0003的数据进行压缩，重新执行步骤S2.3.1，判断该数据项为布尔型数据，则对布尔型数据进行处理。采集数据项ID0003第一个采样时刻的数值为0，判断该采集数据项下一个采样时刻即第二个采样时刻的数值0，没有发生改变，执行步骤S2.3.3.3，继续判断第三个采样时刻的数值0，相比第二个采样时刻的数值没有发生变化，依次继续比较该数据项下一个采样时刻的数值，直到+7采样时刻，即第八采样时刻的数值为1，相比第七采样时刻的数值0发生了改变，记录此时的时间偏移量+7及对应的该采样时刻的数值1，写入压缩数据对{T[+7]，V[1]}，按此过程，直至比较完该数据块中该数据项所有采样时刻的数据，压缩后的结果为：{T[+7，+14，+19，+24]，V[1，0，1，0]}。

第三个采集数据项ID0003完成压缩处理后，执行步骤S2.3.5，采集数据项编号后移一位，对第四个数据项ID0004的数据进行压缩，重新执行步骤S2.3.1，判断该数据项为布尔型数据，则对布尔型数据进行处理。采集数据项ID0004第一个采样时刻的数值为0，判断该采集数据项下一个采样时刻即第二个采样时刻的数值1，发生改变，执行步骤S2.3.3.2，记录此时的时间偏移量+1及对应的该采样时刻的数值1，写入压缩数据对{T[+1]，V[1]}，继续判断第三个采样时刻的数值1，相比第二个采样时刻的数值没有发生改变，依次继续比较该数据项下一个采样时刻的数值，直到+5采样时刻，即第六采样时刻的数值为0，相比第五采样时刻的数值1发生了改变，记录此时的时间偏移量+5及对应的该采样时刻的数值0，写入压缩数据对{T[+1，+5]，V[1，0]}，按此过程，直至比较完该数据块中该数据项所有采样时刻的数据，压缩后的结果为：{T[+1，+5，+8，+15，+19]，V[1，0，1，0，1]}。

重复执行以上步骤，直至第十四个采集数据项ID0014完成压缩处理后，执行步骤S2.3.5，采集数据项编号后移一位，对第十五个数据项ID0015的数据进行压缩，重新执行步骤S2.3.1，判断该数据项为字符型数据，则对字符型数据进行处理。具体压缩过程为：该采集数据项第一个采样时刻的数值为L3，判断该采集数据项下一个采样时刻的数值为L3，没有发生改变，继续比较该采集数据项下一个采样时刻的数值，直到+5采样时刻的数值L2，相比+4采样时刻的数值L3发生改变，记录此时的时间偏移量+5及对应的该采样时刻的数值L2，写入压缩数据对{T[+5]，V[L2]}，按此过程，直至比较完该数据块中该数据项所有采样时刻的数据，压缩后的结果为：{T[+5，+7，+13，+15]，V[L2，L3，L1，L3]}。

重复执行以上步骤，直至第一个数据块压缩完毕，第一个数据块压缩完成后的T，V二元组压缩数据对如表3所示。

由于生产过程数据变化慢的特性，且只有一小部分生产数据会发生改变，因此，与表2相比，采用该种压缩方法压缩后，数据量大幅度减小，能为企业节省存储实时工业过程大数据产生的巨额成本，使企业实现经济利益最大化。

表3 第一个数据块压缩后的结果

S3、判断是否步骤2.2中所有数据块都完成压缩，若是，则步骤结束，若否，则返回执行步骤2.3，对下一个新的数据快进行压缩。

第一个数据块完成压缩与存储处理后，按照第一个数据块相同的方法继续对步骤S2.2中剩余的数据块进行压缩处理，重复执行步骤S2.3，直至所有的数据被压缩完毕。

由于工业生产数据很多测点的值都具有慢变化的特征且只有一小部分测点的值经常发生改变，本发明提供的一种基于工业过程的大数据压缩方法，既能有效避免因时间的增加后采集数据项的数值发生偏移导致压缩效率低，又能减少压缩后的采集数据项所占空间的大小，提高压缩效率，使工业数据库系统快速、有效地管理数据，提高磁盘存储效率。此外，既能对布尔型数据进行高效压缩，又可以对字符型数据进行高效压缩，满足了工业过程不同类型的生产数据进行压缩，满足企业的压缩需求。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于工业过程的大数据压缩方法，其特征在于，包括下述步骤：

步骤2、对采集数据项进行数据压缩处理，压缩过程如下：

步骤2.3.2.1、设定该数值型生产数据的数值波动范围；

步骤2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的数值写入数值型采集数据项对应的T，V二元组形式的压缩数据对{T[]，V[]}中，为执行步骤2.3.2.4；

步骤2.3.5、判断是否该数据块的所有数据采集项完成压缩，若是，则执行步骤3；若否，则采集数据项编号后移一位，对该数据块的下一个采集数据项的数据进行压缩，执行步骤2.3.1；