CN106372181B - 一种基于工业过程的大数据压缩方法 - Google Patents

一种基于工业过程的大数据压缩方法 Download PDF

Info

Publication number
CN106372181B
CN106372181B CN201610785231.7A CN201610785231A CN106372181B CN 106372181 B CN106372181 B CN 106372181B CN 201610785231 A CN201610785231 A CN 201610785231A CN 106372181 B CN106372181 B CN 106372181B
Authority
CN
China
Prior art keywords
data
acquisition
item
numerical value
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610785231.7A
Other languages
English (en)
Other versions
CN106372181A (zh
Inventor
徐泉
刘文庆
张鹏
冉振莉
王良勇
吴志伟
许美蓉
崔东亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201610785231.7A priority Critical patent/CN106372181B/zh
Publication of CN106372181A publication Critical patent/CN106372181A/zh
Application granted granted Critical
Publication of CN106372181B publication Critical patent/CN106372181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于工业过程的大数据压缩方法,涉及工业大数据分析技术领域。本发明通过对采集的生产数据按数据块和采集数据项进行压缩,根据采集数据项的类别,对浮点型、布尔型和字符型的采集数据分别进行处理,判定浮点型数值波动范围和比较布尔型、字符型相邻数据的变化来决定需要压缩的保存的数据。本发明既能有效改善工业过程中因时间的增加后采集数据项的数值发生偏移导致压缩结果偏差过大的问题,又能减少压缩后的采集数据项所占空间的大小,提高压缩效率,使工业数据库系统快速、有效地管理数据。

Description

一种基于工业过程的大数据压缩方法
技术领域:
本发明涉及工业大数据分析技术领域,尤其涉及一种基于工业过程的大数据压缩方法。
背景技术:
随着信息产业的不断发展,流程工业中的信息量也在膨胀式增长。在整个流程工业中所集成的数据采集点数通常有几千到十几万,数据采集间隔要达到秒级,数据量很大,为了确保高效的数据存储,在一定的精度指标下,应尽量减少数据的存储,因此需要对数据进行压缩处理。为了使工业数据库系统快速、有效地管理数据,提高磁盘存储效率,要保证系统有较高的压缩率,并且要有快速的、高精度的数据解压,必须进行有效的数据压缩。
在流程工业行业中,工业实时数据也有一定的变化规律,下面是工业实时数据的一些特征:
1.工业实时数据的数据变化具有一定波形规律;
2.工业实时数据中只有一小部分测点的值经常发生改变;
3.工业实时数据中很多测点的数值都具有慢变化的特征。
大数据压缩方法方面的专利主要有201610702102.7,该专利涉及对采集的工业过程数据进行压缩处理,结合工业过程数据时间采集标签,使用T,V二元组进行压缩表示,针对工业采集中数据的波动,设置数据波动范围,进行压缩。该专利虽然在一定程度上能够实现工业过程大数据的压缩,减少数据存储占用的空间,但采用的压缩方法仍然存在一定的局限性:
1.该专利中,将采集数据项初始采样时刻的数值作为基础数值,而由于随着时间的增加,生产数据会产生小幅度的偏移,这种情况下,若依然将初始时刻做为基准,数据压缩效率比较低;
2.该专利中,以采集数据项初始采样时刻的数值作为基础数值,根据设定的波动范围,将之后所有采样时刻的采集数据项的数值和基础数值做比较。而由于工业实时数据中只有一小部分测点的值经常发生改变,这种情况时有发生,因此,将初始采样时刻之后的所有采集数据项的数值和初始采样时刻的采集数据项的数值做比较,压缩效率不高;
3.该专利中,缺乏对布尔型数据的高效压缩,此外,针对工业生产中的采集的字符型数据,缺乏必要的压缩手段。
发明内容:
针对现有技术的缺陷,本发明提供一种基于工业过程的大数据压缩方法,既能有效改善工业过程中因时间的增加后采集数据项的数值发生偏移导致压缩结果偏差过大的问题,又能减少压缩后的采集数据项所占空间的大小,提高压缩效率,使工业数据库系统快速、有效地管理数据。
一种基于工业过程的大数据压缩方法,包括下述步骤:
步骤1、定义工业过程采集数据的数据标识项,对采集的工业过程生产数据按采集数据项进行编号,作为数据标识项;
步骤2、对采集数据项进行数据压缩处理,压缩过程如下:
步骤2.1、设定压缩数据块的大小,将采集的数据分为若干个数据块;
步骤2.2、对步骤2.1中数据块进行编号,形成数据组<编号,数据块内容>;
步骤2.3、将步骤2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量,即该时间偏移量为采样周期的整数倍,对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩,具体步骤为:
步骤2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩,判断该采集数据项的数据类型,若是数值型生产数据,则执行步骤2.3.2,对数值型生产数据进行压缩处理,若是布尔型生产数据,则执行步骤2.3.3,对布尔型生产数据进行压缩处理,若是字符型生产数据,执行步骤2.3.4,对字符型生产数据进行压缩;
步骤2.3.2、对数值型生产数据进行压缩处理,具体方法如下:
步骤2.3.2.1、设定该数值型生产数据的数值波动范围;
步骤2.3.2.2、根据数据块中的该数值型采集数据项第m1(m1≥1)个采样时刻的数值,判断该采集数据项第m1+1个采样时刻的数值是否超出所设定的波动范围,若是,则执行步骤2.3.2.3;若否,则执行步骤2.3.2.4;
步骤2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的数值写入浮点型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.2.4;
步骤2.3.2.4、判断m1是否等于n1,n1表示该数值型采集数据项的所有采样时刻的个数,若不等于,则m1加1,返回步骤2.3.2.2;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5,若不为空,则执行步骤2.3.5;
步骤2.3.3、对布尔型生产数据进行压缩处理,具体方法如下:
步骤2.3.3.1、根据数据块中的该布尔型采集数据项第m2(m2≥1)个采样时刻的数值,判断该采集数据项第m2+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.3.2;若否,则执行步骤2.3.3.3;
步骤2.3.3.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该布尔型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.3.3;
步骤2.3.3.3、判断m2是否等于n2,n2表示该布尔型采集数据项的所有采样时刻的个数,若不等于,则将m2加1,返回步骤2.3.3.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5;
步骤2.3.4、对字符型生产数据进行压缩处理,工业过程中字符型数据只有若干个取值,首先对该字符型数据能取得的状态进行编码,然后对该采集数据项进行压缩,具体方法如下:
步骤2.3.4.1、根据数据块中的该字符型采集数据项第m3(m3≥1)个采样时刻的数值,判断该采集数据项第m3+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.4.2;若否,则执行步骤2.3.4.3;
步骤2.3.4.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该字符型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.4.3;
步骤2.3.4.3、判断m3是否等于n3,n3表示该字符型采集数据项的所有采样时刻的个数,若不等于,则将m3加1,返回步骤2.3.4.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5;
步骤2.3.5、判断是否该数据块的所有数据采集项完成压缩,若是,则执行步骤3;若否,则采集数据项编号后移一位,对该数据块的下一个采集数据项的数据进行压缩,执行步骤2.3.1:
步骤3、判断是否步骤2.2中所有数据块都完成压缩,若是,则步骤结束,若否,则返回执行步骤2.3,对下一个新的数据块进行压缩。
由上述技术方案可知,本发明的有益效果在于:由于工业生产数据很多测点的值都具有慢变化的特征且只有一小部分测点的值经常发生改变,本发明提供的一种基于工业过程的大数据压缩方法,既能有效避免因时间的增加后采集数据项的数值发生偏移导致压缩效率低,又能减少压缩后的采集数据项所占空间的大小,提高压缩效率,使工业数据库系统快速、有效地管理数据,提高磁盘存储效率。此外,既能对布尔型数据进行高效压缩,又可以对字符型数据进行高效压缩,满足了工业过程不同类型的生产数据进行压缩,满足企业的压缩需求。
附图说明:
图1为本发明实施例提供的一种基于工业过程的大数据压缩方法的流程图;
图2为本发明实施例提供的对浮点型生产数据进行压缩处理的方法流程图;
图3为本发明实施例提供的对布尔型生产数据进行压缩处理的方法流程图;
图4为本发明实施例提供的对字符型生产数据进行压缩处理的方法流程图。
具体实施方式:
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例对选矿工业进行实时监控,共有15个采集数据项,包括运行状态数据、工作环境数据、物料信息数据、报警信息数据。其中包含15个数值型采集数据项,具体为浮点型采集数据项;2个布尔型采集数据项;1个字符型采集数据项,所有状态总共有三种,分别为:High表示上限超出,Low表示下限超出,Normal表示设备正常。采集每个工业生产现场生产数据的周期为1s。
一种基于工业过程的大数据压缩方法,如图1所示,包括如下步骤。
S1、定义工业过程采集数据的数据标识项,对采集的工业过程生产数据按照采集数据项进行编号,作为数据标识项,本实施例的15个采集数据项如表1所示。
表1 数据标识项表
S2、对采集数据项进行数据压缩处理,具体包括以下步骤。
S2.1、设定数据块的大小,本实施例中,设定30次采集的实时工业过程数据量作为数据块的大小,每个数据块包含表1中的15个采集数据项,将采集的数据分为若干个数据块。
S2.2、对S2.1中数据块进行编号,形成数据组<编号,数据块内容>,如:<B1,数据块>。
S2.3、将S2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量,即该时间偏移量为采样周期的整数倍,对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩,具体方法如下。
S2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩处理;判断该采集数据项的数据类型,若该采集数据项是浮点型生产数据,则执行步骤S2.3.2,对浮点型生产数据进行压缩处理;若该采集数据项是布尔型生产数据,则执行步骤S2.3.3,对布尔型生产数据进行压缩处理;若该采集数据项是字符型生产数据,则执行步骤S2.3.4,对字符型生产数据进行压缩处理;本实施例中,第一个数据块的15个采集数据项,每个采集数据项的30个数值分别如表2所示。
表2 第一个数据块对应的采集数据项的数值表
表2 续表一
表2 续表二
表2 续表三
本实施例中,对第一个数据块的第一个采集数据项ID0001进行压缩,第一个采集数据项ID0001为浮点型数据,则执行步骤S2.3.2。
S2.3.2、对浮点型生产数据进行压缩处理,如图2所示,具体方法如下:
S2.3.2.1、设定该浮点型生产数据的数值波动范围为±3%,即所判断的数值在基础数值的97%到103%之间,为没有超出波动范围;
S2.3.2.2、根据数据块中的该浮点型采集数据项第m1(m1≥1)个采样时刻的数值,判断该采集数据项第m1+1个采样时刻的数值是否超出所设定的波动范围,若是,则执行步骤S2.3.2.3;若否,则执行步骤S2.3.2.4;
本实施例中,采集数据项ID0001的第一个采样时刻的数值为8.29,m=2时,第二个采样时刻,即+1采样时刻的数值为8.14,8.29×97%<8.14<8.29×103%,相对于+0采样时刻的数值8.29没有超出所设定的波动范围±3%,则执行步骤S2.3.2.4;
S2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的采集数据项的数值写入该浮点型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.2.4;
S2.3.2.4、判断m1是否等于n1,n1表示该浮点型数据块中该采集数据项的所有采样时刻的个数,即步骤S2.1中设定数据块大小时,数据块中该采集数据项的采集次数30,若不等于,则m1加1,返回步骤S2.3.2.2;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤S2.3.5,若不为空,则执行步骤S2.3.5。
m1加1后,m1=3,进行第三个采样时刻数值的判断,采集数据项ID0001的第三个采样时刻即+2采样时刻的数值为8.19,8.14×97%<8.19<8.14×103%,相对于+1采样时刻的数值8.14也没有超出所设定的波动范围,则继续执行步骤S2.3.2.4,到最后一个采样时刻+29为止,m1=n1,n1=30,第一个采集数据项ID0001所有采样时刻的数值均未超出设定的波动范围,即对应的压缩数据对{T[],V[]}中为空,则将最后一个采样时刻的时间偏移量+29和对应的数值8.28写入压缩数据对{T[],V[]}中,压缩结果为:{T[+29],V[8.28]},表示第一个采集数据项ID0001的第一个采样时刻+0至第三十个采样时刻+29之间的数据(包括+0采样时刻和+29采样时刻)全部按照8.28进行存储,第一个采集数据项ID0001压缩完成后再转到步骤S2.3.4,进行第二个采集数据项的压缩处理。
S2.3.3、对布尔型生产数据进行压缩处理,如图3所示,具体方法如下:
S2.3.3.1、根据数据块中的该浮点型采集数据项第m2(m2≥1)个采样时刻的数值,判断该采集数据项第m2+1个采样时刻的数值是否发生变化,若是,则执行步骤S2.3.3.2;若否,则执行步骤S2.3.3.3;
S2.3.3.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该布尔型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤S2.3.3.3;
S2.3.3.3、判断m2是否等于n2,n2表示该布尔型采集数据项的所有采样时刻的个数,若不等于,则将m2加1,返回步骤S2.3.3.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤S2.3.5。
S2.3.4、该字符型数据状态个数有限,首先对该字符型数据能取得的状态进行编码,其中High编码为L1,Low编码为L2,Normal编码为L3然后对该采集数据项进行压缩,如图4所示,具体方法如下:
S2.3.4.1、根据数据块中的该字符型采集数据项第m3(m3≥1)个采样时刻的数值,判断该采集数据项第m3+1个采样时刻的数值是否发生变化,若是,则执行步骤S2.3.4.2;若否,则执行步骤S2.3.4.3;
S2.3.4.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该字符型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤S2.3.4.3;
S2.3.4.3、判断m3是否等于n3,n3表示该字符型采集数据项的所有采样时刻的个数,若不等于,则将m3加1,返回步骤S2.3.4.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤S2.3.5。
S2.3.5、判断是否该数据块的所有数据采集项完成压缩,若是,则执行步骤S3;若否,则采集数据项编号后移一位,对该数据块的下一个采集数据项的数据进行压缩,执行步骤S2.3.1。
本实施例中,第一个采集数据项ID0001完成压缩处理后,执行步骤S2.3.5,采集数据项编号后移一位,对第二个采集数据项ID0002的压缩处理,重新执行步骤S2.3.2.1至步骤S2.3.2.4。采集数据项ID0002第一个采样时刻的数值为0.34,判断该数据项下一个采样时刻即第二个采样时刻的数值0.32,超出所设定的波动范围,执行步骤S2.3.2.3,记录此时的时间偏移量+1和该采样时刻的数值0.32,写入压缩数据对{T[+1],V[0.32]}中,表示第一个到第二个采样时刻之间的数值均按照0.32存储,继续比较该数据项下一个采样时刻即第三采样时刻的数值0.31,超出所设定的波动范围,记录此时的时间偏移量+2和该采样时刻的数值0.32,写入压缩数据对{T[+1,+2],V[0.32,0.31]}中,继续比较该数据项下一个采样时刻即第四采样时刻的数值0.32,相对于第三采样时刻的数值0.31,超出所设定的波动范围,记录此时的时间偏移量+3及该采样时刻对应的数值0.32,写入压缩数据对{T[+1,+2,+3],V[0.32,0.31,0.32]},继续比较该数据项下一个采样时刻即第五采样时刻的数值0.32,相对于第四采样时刻的数值0.32,没有超出所设定的波动范围,按此过程继续比较,直到第八个采样时刻的数值0.35,相对于第七个采样时刻的数值0.32,超出所设定的波动范围,记录此时的时间偏移量+7及其该采样时刻对应的数值0.35,写入压缩数据对{T[+1,+2,+3,+7,],V[0.32,0.31,0.32,0.35]},按此过程,直至比较完该数据块中该数据项所有采样时刻的数据,压缩后的结果为:{T[+1,+2,+3,+7,+8,+10,+11,+12,+13,+15,+19,+20,+24,+27],V[0.32,0.31,0.32,0.35,0.31,0.30,0.31,0.33,0.32,0.33,0.32,0.31,0.33,0.31])。
第二个采集数据项ID0002完成压缩处理后,执行步骤S2.3.5,采集数据项编号后移一位,对第三个数据项ID0003的数据进行压缩,重新执行步骤S2.3.1,判断该数据项为布尔型数据,则对布尔型数据进行处理。采集数据项ID0003第一个采样时刻的数值为0,判断该采集数据项下一个采样时刻即第二个采样时刻的数值0,没有发生改变,执行步骤S2.3.3.3,继续判断第三个采样时刻的数值0,相比第二个采样时刻的数值没有发生变化,依次继续比较该数据项下一个采样时刻的数值,直到+7采样时刻,即第八采样时刻的数值为1,相比第七采样时刻的数值0发生了改变,记录此时的时间偏移量+7及对应的该采样时刻的数值1,写入压缩数据对{T[+7],V[1]},按此过程,直至比较完该数据块中该数据项所有采样时刻的数据,压缩后的结果为:{T[+7,+14,+19,+24],V[1,0,1,0]}。
第三个采集数据项ID0003完成压缩处理后,执行步骤S2.3.5,采集数据项编号后移一位,对第四个数据项ID0004的数据进行压缩,重新执行步骤S2.3.1,判断该数据项为布尔型数据,则对布尔型数据进行处理。采集数据项ID0004第一个采样时刻的数值为0,判断该采集数据项下一个采样时刻即第二个采样时刻的数值1,发生改变,执行步骤S2.3.3.2,记录此时的时间偏移量+1及对应的该采样时刻的数值1,写入压缩数据对{T[+1],V[1]},继续判断第三个采样时刻的数值1,相比第二个采样时刻的数值没有发生改变,依次继续比较该数据项下一个采样时刻的数值,直到+5采样时刻,即第六采样时刻的数值为0,相比第五采样时刻的数值1发生了改变,记录此时的时间偏移量+5及对应的该采样时刻的数值0,写入压缩数据对{T[+1,+5],V[1,0]},按此过程,直至比较完该数据块中该数据项所有采样时刻的数据,压缩后的结果为:{T[+1,+5,+8,+15,+19],V[1,0,1,0,1]}。
重复执行以上步骤,直至第十四个采集数据项ID0014完成压缩处理后,执行步骤S2.3.5,采集数据项编号后移一位,对第十五个数据项ID0015的数据进行压缩,重新执行步骤S2.3.1,判断该数据项为字符型数据,则对字符型数据进行处理。具体压缩过程为:该采集数据项第一个采样时刻的数值为L3,判断该采集数据项下一个采样时刻的数值为L3,没有发生改变,继续比较该采集数据项下一个采样时刻的数值,直到+5采样时刻的数值L2,相比+4采样时刻的数值L3发生改变,记录此时的时间偏移量+5及对应的该采样时刻的数值L2,写入压缩数据对{T[+5],V[L2]},按此过程,直至比较完该数据块中该数据项所有采样时刻的数据,压缩后的结果为:{T[+5,+7,+13,+15],V[L2,L3,L1,L3]}。
重复执行以上步骤,直至第一个数据块压缩完毕,第一个数据块压缩完成后的T,V二元组压缩数据对如表3所示。
由于生产过程数据变化慢的特性,且只有一小部分生产数据会发生改变,因此,与表2相比,采用该种压缩方法压缩后,数据量大幅度减小,能为企业节省存储实时工业过程大数据产生的巨额成本,使企业实现经济利益最大化。
表3 第一个数据块压缩后的结果
S3、判断是否步骤2.2中所有数据块都完成压缩,若是,则步骤结束,若否,则返回执行步骤2.3,对下一个新的数据快进行压缩。
第一个数据块完成压缩与存储处理后,按照第一个数据块相同的方法继续对步骤S2.2中剩余的数据块进行压缩处理,重复执行步骤S2.3,直至所有的数据被压缩完毕。
由于工业生产数据很多测点的值都具有慢变化的特征且只有一小部分测点的值经常发生改变,本发明提供的一种基于工业过程的大数据压缩方法,既能有效避免因时间的增加后采集数据项的数值发生偏移导致压缩效率低,又能减少压缩后的采集数据项所占空间的大小,提高压缩效率,使工业数据库系统快速、有效地管理数据,提高磁盘存储效率。此外,既能对布尔型数据进行高效压缩,又可以对字符型数据进行高效压缩,满足了工业过程不同类型的生产数据进行压缩,满足企业的压缩需求。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (1)

1.一种基于工业过程的大数据压缩方法,其特征在于,包括下述步骤:
步骤1、定义工业过程采集数据的数据标识项,对采集的工业过程生产数据按采集数据项进行编号,作为数据标识项;
步骤2、对采集数据项进行数据压缩处理,压缩过程如下:
步骤2.1、设定压缩数据块的大小,将采集的数据分为若干个数据块;
步骤2.2、对步骤2.1中数据块进行编号,形成数据组<编号,数据块内容>;
步骤2.3、将步骤2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量,即该时间偏移量为采样周期的整数倍,对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩,具体步骤为:
步骤2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩,判断该采集数据项的数据类型,若是数值型生产数据,则执行步骤2.3.2,对数值型生产数据进行压缩处理,若是布尔型生产数据,则执行步骤2.3.3,对布尔型生产数据进行压缩处理,若是字符型生产数据,执行步骤2.3.4,对字符型生产数据进行压缩;
步骤2.3.2、对数值型生产数据进行压缩处理,具体方法如下:
步骤2.3.2.1、设定该数值型生产数据的数值波动范围;
步骤2.3.2.2、根据数据块中的该数值型采集数据项第m1(m1≥1)个采样时刻的数值,判断该采集数据项第m1+1个采样时刻的数值是否超出所设定的波动范围,若是,则执行步骤2.3.2.3;若否,则执行步骤2.3.2.4;
步骤2.3.2.3、记录对应采样时刻的时间偏移量和该采样时刻的数值写入数值型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.2.4;
步骤2.3.2.4、判断m1是否等于n1,n1表示该数值型采集数据项的所有采样时刻的个数,若不等于,则m1加1,返回步骤2.3.2.2;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5,若不为空,则执行步骤2.3.5;
步骤2.3.3、对布尔型生产数据进行压缩处理,具体方法如下:
步骤2.3.3.1、根据数据块中的该布尔型采集数据项第m2(m2≥1)个采样时刻的数值,判断该采集数据项第m2+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.3.2;若否,则执行步骤2.3.3.3;
步骤2.3.3.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该布尔型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.3.3;
步骤2.3.3.3、判断m2是否等于n2,n2表示该布尔型采集数据项的所有采样时刻的个数,若不等于,则将m2加1,返回步骤2.3.3.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5;
步骤2.3.4、对字符型生产数据进行压缩处理,工业过程中字符型数据只有若干个取值,首先对该字符型数据能取得的状态进行编码,然后对该采集数据项进行压缩,具体方法如下:
步骤2.3.4.1、根据数据块中的该字符型采集数据项第m3(m3≥1)个采样时刻的数值,判断该采集数据项第m3+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.4.2;若否,则执行步骤2.3.4.3;
步骤2.3.4.2、记录对应采样时刻的时间偏移量和该采样时刻对应的数值写入该字符型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为执行步骤2.3.4.3;
步骤2.3.4.3、判断m3是否等于n3,n3表示该字符型采集数据项的所有采样时刻的个数,若不等于,则将m3加1,返回步骤2.3.4.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量和对应的数值写入压缩数据对{T[],V[]}中,为再执行步骤2.3.5;
步骤2.3.5、判断是否该数据块的所有数据采集项完成压缩,若是,则执行步骤3;若否,则采集数据项编号后移一位,对该数据块的下一个采集数据项的数据进行压缩,执行步骤2.3.1;
步骤3、判断是否步骤2.2中所有数据块都完成压缩,若是,则步骤结束,若否,则返回执行步骤2.3,对下一个新的数据块进行压缩。
CN201610785231.7A 2016-08-31 2016-08-31 一种基于工业过程的大数据压缩方法 Active CN106372181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610785231.7A CN106372181B (zh) 2016-08-31 2016-08-31 一种基于工业过程的大数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610785231.7A CN106372181B (zh) 2016-08-31 2016-08-31 一种基于工业过程的大数据压缩方法

Publications (2)

Publication Number Publication Date
CN106372181A CN106372181A (zh) 2017-02-01
CN106372181B true CN106372181B (zh) 2019-08-06

Family

ID=57900513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610785231.7A Active CN106372181B (zh) 2016-08-31 2016-08-31 一种基于工业过程的大数据压缩方法

Country Status (1)

Country Link
CN (1) CN106372181B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198874B (zh) * 2018-11-16 2023-07-04 中国电信股份有限公司 数据处理方法、装置、系统和计算机可读存储介质
CN109962711B (zh) * 2019-04-09 2022-07-08 深圳市道通智能航空技术股份有限公司 一种数据压缩方法、电子设备及存储介质
CN110727648B (zh) * 2019-10-11 2023-08-15 西安文理学院 一种工业设备的高效数据压缩方法及数据服务器
CN111294054B (zh) * 2020-02-13 2023-05-23 北京天拓智领科技有限公司 一种服务于工业互联数据采集存储的压缩方法
CN112600938B (zh) * 2020-12-30 2022-01-11 深圳市蓝硕通讯设备有限公司 一种企业通讯数据压缩系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427369A (zh) * 2011-10-19 2012-04-25 广东电网公司电力科学研究院 生产型时序数据的实时全息无损压缩方法
CN102611454A (zh) * 2012-01-29 2012-07-25 上海锅炉厂有限公司 一种实时历史数据动态无损压缩方法
CN104503407A (zh) * 2014-12-20 2015-04-08 北京首钢自动化信息技术有限公司 一种工业生产过程中数据采集回放系统和方法
CN105549556A (zh) * 2015-12-17 2016-05-04 东北大学 一种用于工业过程实时监控的数据采集传输系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427369A (zh) * 2011-10-19 2012-04-25 广东电网公司电力科学研究院 生产型时序数据的实时全息无损压缩方法
CN102611454A (zh) * 2012-01-29 2012-07-25 上海锅炉厂有限公司 一种实时历史数据动态无损压缩方法
CN104503407A (zh) * 2014-12-20 2015-04-08 北京首钢自动化信息技术有限公司 一种工业生产过程中数据采集回放系统和方法
CN105549556A (zh) * 2015-12-17 2016-05-04 东北大学 一种用于工业过程实时监控的数据采集传输系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Comparison of wavelet thresholding methods for industrial data compression";Anna Sztyber 等;《2015 IEEE 8th International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS)》;20150926;第172-179页
"传感器网络中感知数据压缩技术研究";任倩倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20061115(第11期);第1-88页

Also Published As

Publication number Publication date
CN106372181A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106372181B (zh) 一种基于工业过程的大数据压缩方法
CN106354774B (zh) 一种实时工业过程大数据压缩存储系统及方法
CN108519281B (zh) 一种确定岩石的脆性指数的方法、装置及系统
CN104504116B (zh) 一种实时数据库的存储方法
US20130145350A1 (en) Efficient, large scale trace storage system
CN109448788B (zh) 基因组学及生物信息学的微生物组学在线分析平台架构
CN103500224B (zh) 一种数据写入方法及装置、数据读取方法及装置
EP4280088A1 (en) Time series data trend feature extraction method based on dynamic grid division
CN112560930B (zh) 基于生产数据的汽油辛烷值预测方法
CN110309131A (zh) 海量结构化数据的质量评估方法及装置
CN105095247A (zh) 符号数据分析方法和系统
CN102073712A (zh) 基于动态变化帧的过程数据全息归档和反演方法
CN115630045B (zh) 基于人工智能的数据溯源追踪方法及ai系统
CN111930751A (zh) 一种时序数据的存储方法及装置
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
Arora et al. Big data: A review of analytics methods & techniques
CN105320720A (zh) 相关规则分析装置以及相关规则分析方法
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN113518983A (zh) 用于处理大宽数据的过程控制工具
CN105843891A (zh) 一种增量式的在线特征提取分析方法及系统
CN105373583A (zh) 基于数据压缩的支撑向量机建模方法
Ren et al. Efficient processing of shortest path queries in evolving graph sequences
CN104376355B (zh) 一种中药质量追溯中化学指纹图谱转化为二维码的方法
Rosenthal Approaches to comparing cut-set enumeration algorithms
CN111143182B (zh) 一种进程行为的分析方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant