CN116032294A - 一种用于大气监测数据的智能处理方法 - Google Patents
一种用于大气监测数据的智能处理方法 Download PDFInfo
- Publication number
- CN116032294A CN116032294A CN202310152538.3A CN202310152538A CN116032294A CN 116032294 A CN116032294 A CN 116032294A CN 202310152538 A CN202310152538 A CN 202310152538A CN 116032294 A CN116032294 A CN 116032294A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring data
- compression
- matrix
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 167
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000007906 compression Methods 0.000 claims abstract description 134
- 230000006835 compression Effects 0.000 claims abstract description 134
- 239000011159 matrix material Substances 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 20
- 229910002056 binary alloy Inorganic materials 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据处理领域,具体涉及一种用于大气监测数据的智能处理方法。采集设定时间周期的监测数据并构建数据矩阵;将每列元素中相似性连续相同的监测数据划分为一个相似数据组并由上到下进行编号;对数据矩阵逐行进行遍历,直至一行监测数据中存在不同的编号;获取该行的压缩必要性;若小于阈值,继续向下遍历;若大于阈值,将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组,并从该行开始以第二编号为目标数据重新向下遍历,依次遍历,直至获取数据矩阵的所有压缩组;对数据矩阵的每个压缩组进行压缩存储。本发明通过采用多位压缩的方法,能够有效提高压缩效果,从而减少对存储空间的使用。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种用于大气监测数据的智能处理方法。
背景技术
随着科学技术的发展,对大气的探测越来越精细,探测周期越来越短,从而探测信息的数据量也随之越来越大,高频率采集产生的海量原生大气数据之中会存在庞大的相似数据,直接进行存储会导致大量的重复数据占用存储空间产生浪费,因此为达到数据的快速传输,以及减少数据存储空间,需要对其进行数据压缩。
现有技术中的数据压缩算法中,游程编码压缩算法是一种较为常用的无损压缩算法,在对重复的数据进行压缩存储具有不错的表现,然而该算法对于数据之间的波动处理效果较差,如大气数据中经常会存在不完全一致的数据波动,在对此类数据进行压缩时可能会造成压缩后的数据膨胀,使得数据的压缩效果并不理想,无法实现减少数据存储空间的目的。
发明内容
为了解决现有技术进行压缩时可能会造成压缩后的数据膨胀,使得数据的压缩效果并不理想的问题,本发明提供一种用于大气监测数据的智能处理方法,包括:采集设定时间周期的监测数据并构建数据矩阵;将每列元素中相似性连续相同的监测数据划分为一个相似数据组并由上到下进行编号;对数据矩阵逐行进行遍历,直至一行监测数据中存在不同的编号;获取该行的压缩必要性;若小于阈值,继续向下遍历;若大于阈值,将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组,并从该行开始以第二编号为目标数据重新向下遍历,依次遍历,直至获取数据矩阵的所有压缩组;对数据矩阵的每个压缩组进行压缩存储。
本发明采用如下技术方案,一种用于大气监测数据的智能处理方法,包括:
采集设定时间周期的监测数据,并根据每个时间周期的监测数据构建数据矩阵;
获取每个监测数据与数据矩阵中第一个监测数据的相似性,将数据矩阵的每列元素中相似性连续相同的监测数据划分为一个相似数据组,并由上到下对每列元素的相似数据组进行编号;
将每个相似数据组的编号赋值给对应相似数据组中的每个监测数据,以第一编号为目标数据对数据矩阵逐行进行遍历,直至一行监测数据中存在不同的编号;
将存在不同编号监测数据对应行中,其他编号对应的监测数据作为非目标数据,根据每个非目标数据的压缩关联度获取该存在不同编号监测数据对应行的压缩必要性;
判断该存在不同编号监测数据对应行监测数据的压缩必要性是否大于预设阈值,若大于阈值,继续向下遍历,直至存在不同编号监测数据对应行的压缩必要性小于阈值;
若小于阈值,将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组,并从该存在不同编号监测数据对应行开始,以第二编号为目标数据重新向下遍历,获取第二编号对应的第二压缩组,依次遍历,直至获取数据矩阵中每个编号对应的压缩组,得到数据矩阵的所有压缩组;
对数据矩阵的每个压缩组进行压缩,得到压缩完成的监测数据,并对压缩完成的监测数据进行存储。
进一步的,一种用于大气监测数据的智能处理方法,获取每个监测数据与数据矩阵中第一个监测数据的相似性的方法为:
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数;
获取每个监测数据与数据矩阵中第一个监测数据之间数据值的差值绝对值,并以该差值绝对值构建以e为底的指数函数,其中,e为自然常数;
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数,与构建的指数函数的比值,将归一化后的比值作为每个监测数据与数据矩阵中第一个监测数据的相似性。
进一步的,一种用于大气监测数据的智能处理方法,每个非目标数据的压缩关联度的获取方法如下:
获取每个非目标数据在数据矩阵对应行上目标数据的个数;
获取每个非目标数据与其四邻域内每个监测数据的差值绝对值的均值;
根据每个非目标数据在数据矩阵对应行上目标数据的个数,与该非目标数据和其四邻域内每个监测数据的差值绝对值的均值的比值,得到每个非目标数据的压缩关联度。
进一步的,一种用于大气监测数据的智能处理方法,获取该存在不同编号监测数据对应行的压缩必要性的方法为:
获取该存在不同编号监测数据对应行中非目标数据的压缩关联度均值,对该均值进行归一化得到该存在不同编号监测数据对应行的压缩必要性。
进一步的,一种用于大气监测数据的智能处理方法,对数据矩阵的每个压缩组进行压缩之前,还包括:
将每个编号对应的压缩组中,存在不同编号的监测数据对应行上的非目标数据替换为与其相邻的目标数据。
进一步的,一种用于大气监测数据的智能处理方法,对数据矩阵的每个压缩组进行压缩的方法为:
将每个压缩组中监测数据之间相同的二进制位数作为相同块;
对每个压缩组中监测数据的相同块进行合并压缩。
进一步的,一种用于大气监测数据的智能处理方法,根据每个时间周期的监测数据构建数据矩阵之后,还包括:将数据矩阵中的每个监测数据转化为二进制。
本发明的有益效果是:本发明首先对采集到的数据构建矩阵,为后续进行分组压缩提供了便利,同时结合压缩顺序,利用矩阵中每个数据与第一个数据之间的相似性进行分组,能够将相似的数据分为一组,并对每一列数据组进行编号,有利于提高编码压缩的效率;同时考虑到每列相同编号的数据组在矩阵中所占的行数不同,本发明在相同编号的数据组包含的最大行数范围内,对其中不属于该编号数据组的数据进行逐行分析,能够确定出进行压缩的最佳行高,避免波动数据对压缩造成的影响,实现自适应行高的多行编码压缩,最后对矩阵进行多行分组编码压缩,在极大程度上提升了压缩效率的同时,避免了压缩后的数据膨胀问题,有效减少了存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种用于大气监测数据的智能处理方法结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
某些行业对天气需要更准确预测结果,由此产生了高频次高精度的大气监测数据,而对大气监测数据进行存储时:同天时序上的数据存在测量结果波动、不同天数的时间跨度上也存在波动,传统的游程压缩算法(RLE算法)在进行大批量存在波动的数据压缩时通常压缩效果不佳。
如图1所示,给出了本发明实施例的一种用于大气监测数据的智能处理方法结构示意图,包括:
101.采集设定时间周期的监测数据并构建数据矩阵;
高精度的预测大气监测数据,需要高频率采集的历史监测数据做支撑,采集的数据类型为日期、时间、各种污染物浓度数据等等,大气监测设备采集数据后将数据传输至计算机,直接进行存储会耗费巨大的存储资源,因此需要进行压缩处理后再存储。
大气监测数据是时间跨度上采集的时序数据,因此将其进行排列,对大气监测数据进行分析是通过一定时间跨度上的数据集进行分析,因此压缩处理并不需要针对快速提取时序上某一时刻的数据进行着重处理。
本发明通过行方向为时间顺序、列方向为时间跨度,构建天气监测数据的样本矩阵:
即得到的数据矩阵为行列的矩阵,列方向为时间跨度,行方向为时间顺序,本发明为便于理解,以,为示例,即行方向的采集次数为60次,列方向的时间跨度为60分钟。
因为高频率采集的相似数据差别较小,在计算机存储数据时,常用八位二进制进行存储,因此通过判断数据之间二进制相同的位置,对数据之间衡量了二进制位的相似性,选取最大的相同二进制位进行压缩,便于最大化可压缩的数据范围,本发明在根据每个时间周期的监测数据构建数据矩阵之后,还包括:将数据矩阵中的每个监测数据转化为二进制。
数据矩阵中的不同行之间的元素也存在较高的相似性,因此对于常规游程编码在单行进行游程压缩,本发明通过数据相似性从而自适应获取压缩行高方法进行多行游程压缩,可以进一步的提升数据的压缩效果。
102.将每列元素中相似性连续相同的监测数据划分为一个相似数据组并进行编号;
对于不同的样本数据区域,其数据的相似性是不同的,例如一天之中不同时刻采集的大气监测数据不可能完全相同,因此本发明将相似的数据在矩阵中划为不同长度的相似列向量,以便进行分组压缩,且由于计算机存储数据采用二进制,而游程压缩是从第一个数据开始,因此,筛选与第一位数据二进制按位相减的位数长度来获取相似性,相似性越高,则说明变化的位数越小,而二进制数据一般为前半段位数数据几乎相同,仅是后半段位数数据在变化,选取最大化相似数据构成相似列向量进行分组压缩,更加贴合数据本身在计算机存储的方式,对数据之间的相似性能够进行更加准确的计算。
例如:样本矩阵中某一段为:,其存储的二进制为:,可以看出,高6位完全相同,因此,将该段数据的完全相同的高6位作为相同数据块,进行分块压缩,能够极大的提升存储效率。
获取数据矩阵中每个监测数据与第一个监测数据的相似性的方法为:
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数;
获取每个监测数据与数据矩阵中第一个监测数据之间数据值的差值绝对值,并以该差值绝对值构建以e为底的指数函数;
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数,与构建的指数函数的比值,将归一化后的比值作为每个监测数据与数据矩阵中第一个监测数据的相似性,表达式为:
其中,表示第矩阵中第k个监测数据与第一个监测数据的相似性,表示第一个监测数据的二进制数,函数用于获取二进制序列长度,即表示第一个监测数据的二进制位数,表示第k个监测数据的二进制数与第一个监测数据的二进制数按位相减后的二进制数,则表示第k个监测数据的二进制数与第一个监测数据的二进制数按位相减后的二进制数的位数,即第k个监测数据的二进制数与第一个监测数据的二进制数之间不同的二进制数位数,通过表示第k个监测数据与第一个监测数据之间二进制数相同的位数,该值越大则说明两个数据之间的相同位数越多,证明两元素的二进制位相似程度更高,表示数据矩阵中第k个监测数据的数据值,表示数据矩阵中第一个监测数据的数据值,表示以自然常数e为底的指数函数,通过对两个数据之间的差值绝对值进行映射,避免数据上下波动产生负值影响相似性计算,()为现有的神经元的非线性作用函数,用于将变量值映射至0,1之间,即起到归一化的作用。
本发明通过计算数据矩阵中每个监测数据与第一个监测数据的相似性,对于数据的存储结构以及数据之间差距进行了综合衡量,将每个监测数据的相似性按照数据矩阵中数据的分布进行拜访,从而得到一个相似性矩阵,便于后续根据数据相似性进行相似组的分划构建,得到的相似性矩阵如下:
其中,表示数据矩阵中位置为的监测数据与第一个监测数据的相似性,此处即表示数据矩阵中第一个监测数据与其自身的相似性,相似性矩阵中其他元素同理,表示数据矩阵中对应位置上的监测数据与第一个监测数据的相似性。
本发明按照时序进行相似组的选取,即对于相似性矩阵中的每列元素,通过筛选不同行上元素的相似性,将相同相似性的元素划分为一组,按照行向量的顺序将每列元素中相似性相同的元素归为同一相似组,当相似性不一致时即截止当前相似组获取,从下一位元素开始重新分组,并对每列元素的分组由上到下依次进行编号,例如:
相似组,其含义为:在相似性矩阵的第2列元素中,第8-12行对应的元素是该列元素中的第二个相似组,具有相同的与数据矩阵中第一个元素按位相减的差值位数长度,即这些像素拥有同样的相似性。
由此,将相似性矩阵中的每列元素分为多个相似数据组,能够得到一个相似数据组构成的相似组矩阵:
其中,表示相似性矩阵中第一列的第一个相似数据组,表示相似性矩阵中第j列的第一个相似数据组,表示相似性矩阵中第一列元素的第i个相似数据组,则相似组矩阵中每个元素均表示在原相似性矩阵中每列元素中具有相同相似性的多个监测数据。
103.以第一编号为目标数据对数据矩阵逐行进行遍历,直至一行监测数据中存在不同的编号;
对于高频率采集的大气监测数据难免产生波动,导致元素间相似性不同,从而形成长短不一的相似数据组,即在划分相似数据组时,每列元素中的相似数据组的个数不同,每个相似数据组中监测数据的个数也不同,因此对于本发明中得到的相似组矩阵,其可能是一个不规则的矩阵,为了保证矩阵的构建,本发明中对矩阵中对应位置上不存在的数据用0代替,例如,相似性矩阵中第一列元素划分得到的相似数据组最多,数量为10,而第二列元素划分仅得到了6个相似数据组,则在构建相似组矩阵时,中i的取值为10,而中i只能取到6,因此构建矩阵时将中i的取值为7-10之间的元素用0代替。
本发明中进行游程压缩采取多行游程编码,即对每个相似数据组中的监测数据同时进行编码,可以显著增加压缩效率,由于每个相似数据组中包含的监测数据个数不同,即对数据矩阵进行多行游程编码压缩时,每一列的游程窗口的行高不同,若直接扩大缩小游程窗口的行高,反而会导致过多信息丢失、降低压缩效果,因此本发明需要对游程编码窗口的行高进行自适应统一。
对于相似组矩阵中,本发明根据每列元素的编号顺序,依次选取相同编号的相似数据组进行分析,例如:对于相似组矩阵的每列元素中编号为1的相似数据组,每个相似数据组在数据矩阵中对应包含的监测数据个数均不同,即每个相似数据组中的监测数据在数据矩阵中所占的行数范围不同,选取相似组矩阵中编号为1的相似数据组中,所占行数范围最大的相似数据组和所占行数范围最小的相似数据组,则最大行数范围与最小行数范围之间,存在不属于该编号为1的相似数据组的监测数据,即为非目标数据,而最大行数范围内所有属于编号为1的相似数据组均为目标数据,按照符合多行游程行高特点的先行后列的顺序,对于一个不属于编号为1的相似数据组的非目标数据,该非目标数据所在数据矩阵的对应行上存在目标数据的个数越多,该非目标数据与周围监测数据之间的差异越小,则对该非目标数据进行编码压缩的损失越小,由此本发明计算每一个非目标数据的压缩关联度。
104.根据每个非目标数据的压缩关联度获取存在不同编号监测数据对应行的压缩必要性;
获取每个非目标数据的压缩关联度的方法为:
获取每个非目标数据在数据矩阵对应行上目标数据的个数;
获取每个非目标数据与其四邻域内每个监测数据的差值绝对值的均值;
根据每个非目标数据在数据矩阵对应行上目标数据的个数,与该非目标数据和其四邻域内每个监测数据的差值绝对值的均值的比值,得到每个非目标数据的压缩关联度,表达式为:
其中,表示第b个非目标数据的压缩关联度,表示第b个非目标数据所在数据矩阵对应行上目标数据的个数,的值越大,说明该非目标数据所在行上目标数据的个数越多,则该非目标数据对游程窗口大小选取的影响越小,表示第b个非目标数据在数据矩阵中对应监测数据的数据值,表示第b个非目标数据的第l个邻域数据在数据矩阵中对应监测数据的值,本发明选取每个非目标数据上下左右四个邻域的数据,代表第b个非目标数据与邻域数据的平均数据差异,该值越小,则说明第b个非目标数据的信息越可能为异常部位,则该非目标数据在进行压缩时越需要保留,即对游程窗口大小选取的影响越大,为数学中无穷小符号,代表不为零的一个极小的正数,在不对分母中另一加数(平均数据差异)的计算结果产生误差影响的情况下,防止另一加数(平均数据差异)为零从而导致的计算异常。
由此对于编号为1的相似数据组在数据矩阵中所占最大行数范围内,每个非目标数据均得到对应的压缩关联度,而每一行元素中可能存在多个非目标数据,本发明通过累加筛选获取非目标数据所在行监测数据的压缩必要性,从而判断该行是否需要进行压缩,避免仅筛选元素的压缩必要性导致相似数据组依然长短不一,无法确定游程行高。
获取该存在不同编号监测数据对应行的压缩必要性的方法为:
获取该存在不同编号监测数据对应行中非目标数据的压缩关联度均值,对该均值进行归一化得到该存在不同编号监测数据对应行的压缩必要性,表达式为:
其中,表示第b个非目标元素在数据矩阵中对应行的压缩必要性,表示第b个非目标元素在数据矩阵中对应行上,非目标数据的个数,表示第b个非目标元素在数据矩阵中对应行上的第k个压缩关联度,()为现有的神经元的非线性作用函数,本发明通过对第b个非目标元素在数据矩阵中对应行上非目标数据的压缩关联度累加求平均,并通过函数进行归一化操作,将第b个非目标元素在数据矩阵中对应行的压缩必要性落入区间,便于后续进行行高的自适应选择。
105.判断存在不同编号监测数据对应行监测数据的压缩必要性是否大于预设阈值;
若大于阈值,继续向下遍历,直至存在不同编号监测数据对应行的压缩必要性大于阈值;
若小于阈值,将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组,并从该存在不同编号监测数据对应行开始,以第二编号为目标数据重新向下遍历,获取第二编号对应的第二压缩组,依次遍历,直至获取数据矩阵中每个编号对应的压缩组,得到数据矩阵的所有压缩组。
对于编号为1的相似数据组,在进行游程编码压缩时其最小游程窗口即为所占行数范围最小的相似数据组在数据矩阵中对应的行数,从该行开始依次向下遍历,获取每一行的压缩必要性,将压缩必要性大于预设阈值的行作为需要合并的行,直到得到某一行的压缩必要性小于阈值,或遍历达到编号为1的相似数据组所占的最大行数范围,将压缩必要性小于阈值对应行的上一行监测数据,作为编号为1的相似数据组的最大压缩行,即得到了对编号为1的相似数据组进行游程编码压缩的游程窗口大小,即本发明中第一编号对应的第一压缩组,对该压缩组在数据矩阵中进行多行编码压缩,对于第一压缩组内的每个非目标数据,本发明选取其所在行方向,距离最近的目标数据对其进行替换。
获取编号为1的相似数据组的最大压缩行后,依次获取相似组矩阵中每个编号对应的压缩组,从而实现对监测数据的自适应游程窗口的选取。
根据经验本发明设定预设阈值为0.7,即本发明选取压缩必要性大于0.7对应的行将作为进行游程压缩的行,在不产生较大信息丢失的同时提高压缩率,该预设阈值可根据实际情况自行设定,本发明仅为举例说明,对此不做任何限制。
本发明通过压缩必要性进行自适应行高的多行游程压缩,相比常规的单行游程压缩更能提高重复数据的压缩效率,并且将波动影响较小的数据进行数值覆盖后进行有损游程压缩,在不对样本数据产生较大数据损伤影响的情况下,进一步提升多行游程压缩的压缩效率。
106.对数据矩阵的每个压缩组进行压缩存储。
对数据矩阵的每个压缩组进行压缩的方法为:
将每个压缩组中监测数据之间相同的二进制位数作为相同块;
对每个压缩组中监测数据的相同块进行合并压缩。
分块压缩为现有技术,其简要思想为:对于一个相似数据组中的监测数据,选取其相同的二进制位数作为相同块,不同的二进制位数作为差异块,将相同块进行一组存储,因其数据相同,只需很小的存储空间就能存储大量重复数据,因此差异块的数据大小大大降低,同时将每个相似数据组中相同块对应的二进制数进行合并,从而大大减少了重复数据的存储空间。
至此,完成了对大气监测数据的高效压缩,将压缩后的数据进行存储,当需要进行大气监测数据分析时,按照分跨压缩的方法进行对应的解压缩即可。
本发明首先对采集到的数据构建矩阵,为后续进行分组压缩提供了便利,同时结合压缩顺序,利用矩阵中每个数据与第一个数据之间的相似性进行分组,能够将相似的数据分为一组,并对每一列数据组进行编号,有利于提高编码压缩的效率;同时考虑到每列相同编号的数据组在矩阵中所占的行数不同,本发明在相同编号的数据组包含的最大行数范围内,对其中不属于该编号数据组的数据进行逐行分析,能够确定出进行压缩的最佳行高,避免波动数据对压缩造成的影响,实现自适应行高的多行编码压缩,最后对矩阵进行多行分组编码压缩,在极大程度上提升了压缩效率的同时,避免了压缩后的数据膨胀问题,有效减少了存储空间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种用于大气监测数据的智能处理方法,其特征在于,包括:
采集设定时间周期的监测数据,并根据每个时间周期的监测数据构建数据矩阵;
获取每个监测数据与数据矩阵中第一个监测数据的相似性,将数据矩阵的每列元素中相似性连续相同的监测数据划分为一个相似数据组,并由上到下对每列元素的相似数据组进行编号;
将每个相似数据组的编号赋值给对应相似数据组中的每个监测数据,以第一编号为目标数据对数据矩阵逐行进行遍历,直至一行监测数据中存在不同的编号;
将存在不同编号监测数据对应行中,其他编号对应的监测数据作为非目标数据,根据每个非目标数据的压缩关联度获取该存在不同编号监测数据对应行的压缩必要性;
判断该存在不同编号监测数据对应行监测数据的压缩必要性是否大于预设阈值,若大于阈值,继续向下遍历,直至存在不同编号监测数据对应行的压缩必要性小于阈值;
若小于阈值,将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组,并从该存在不同编号监测数据对应行开始,以第二编号为目标数据重新向下遍历,获取第二编号对应的第二压缩组,依次遍历,直至获取数据矩阵中每个编号对应的压缩组,得到数据矩阵的所有压缩组;
对数据矩阵的每个压缩组进行压缩,得到压缩完成的监测数据,并对压缩完成的监测数据进行存储。
2.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,获取每个监测数据与数据矩阵中第一个监测数据的相似性的方法为:
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数;
获取每个监测数据与数据矩阵中第一个监测数据之间数据值的差值绝对值,并以该差值绝对值构建以e为底的指数函数,其中,e为自然常数;
获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数,与构建的指数函数的比值,将归一化后的比值作为每个监测数据与数据矩阵中第一个监测数据的相似性。
3.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,每个非目标数据的压缩关联度的获取方法如下:
获取每个非目标数据在数据矩阵对应行上目标数据的个数;
获取每个非目标数据与其四邻域内每个监测数据的差值绝对值的均值;
根据每个非目标数据在数据矩阵对应行上目标数据的个数,与该非目标数据和其四邻域内每个监测数据的差值绝对值的均值的比值,得到每个非目标数据的压缩关联度。
4.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,获取该存在不同编号监测数据对应行的压缩必要性的方法为:
获取该存在不同编号监测数据对应行中非目标数据的压缩关联度均值,对该均值进行归一化得到该存在不同编号监测数据对应行的压缩必要性。
5.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,对数据矩阵的每个压缩组进行压缩之前,还包括:
将每个编号对应的压缩组中,存在不同编号的监测数据对应行上的非目标数据替换为与其相邻的目标数据。
6.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,对数据矩阵的每个压缩组进行压缩的方法为:
将每个压缩组中监测数据之间相同的二进制位数作为相同块;
对每个压缩组中监测数据的相同块进行合并压缩。
7.根据权利要求1所述的一种用于大气监测数据的智能处理方法,其特征在于,根据每个时间周期的监测数据构建数据矩阵之后,还包括:将数据矩阵中的每个监测数据转化为二进制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310152538.3A CN116032294B (zh) | 2023-02-23 | 2023-02-23 | 一种用于大气监测数据的智能处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310152538.3A CN116032294B (zh) | 2023-02-23 | 2023-02-23 | 一种用于大气监测数据的智能处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116032294A true CN116032294A (zh) | 2023-04-28 |
CN116032294B CN116032294B (zh) | 2023-06-20 |
Family
ID=86078078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310152538.3A Active CN116032294B (zh) | 2023-02-23 | 2023-02-23 | 一种用于大气监测数据的智能处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116032294B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504396A (zh) * | 2023-06-26 | 2023-07-28 | 贵阳市第四人民医院 | 一种中西医结合内科检查数据分析系统 |
CN117235013A (zh) * | 2023-11-10 | 2023-12-15 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05151349A (ja) * | 1991-11-29 | 1993-06-18 | Fujitsu Ltd | 画像データ圧縮方法および符号化回路 |
US5319469A (en) * | 1991-02-08 | 1994-06-07 | Oce-Nederland B.V. | Method and apparatus for coding digital image data |
JP2000261812A (ja) * | 1999-03-12 | 2000-09-22 | Fuji Xerox Co Ltd | 画像符号化装置および復号装置 |
CN102088604A (zh) * | 2011-02-10 | 2011-06-08 | 深圳创维数字技术股份有限公司 | 一种影片缩略图的压缩方法及压缩装置 |
CN102158485A (zh) * | 2011-03-30 | 2011-08-17 | 广东电网公司电力科学研究院 | 一种局部放电在线监测数据的压缩方法 |
JP2012213088A (ja) * | 2011-03-31 | 2012-11-01 | Dynacomware Taiwan Inc | コンピュータによるドットマトリクスフォントデータの圧縮及び解凍のための方法及びシステム |
JP2015118455A (ja) * | 2013-12-17 | 2015-06-25 | 日本電気株式会社 | 行列圧縮装置、制御方法、及びプログラム |
US9647685B1 (en) * | 2016-09-14 | 2017-05-09 | Federal Express Corporation | Data compression |
CN111510152A (zh) * | 2019-01-30 | 2020-08-07 | 中国科学院声学研究所 | 一种声波测井数据的压缩及解压缩方法 |
CN114286102A (zh) * | 2021-11-15 | 2022-04-05 | 上海电科智能系统股份有限公司 | 基于Base62编码的二值图像压缩编解码方法 |
CN115206460A (zh) * | 2022-07-28 | 2022-10-18 | 康键信息技术(深圳)有限公司 | 药物数据处理方法、装置、电子设备及存储介质 |
CN115623536A (zh) * | 2022-12-20 | 2023-01-17 | 苏州洛尔帝科技有限公司 | 一种基于LoRa的传感器信号的高可靠数据传输方法 |
-
2023
- 2023-02-23 CN CN202310152538.3A patent/CN116032294B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319469A (en) * | 1991-02-08 | 1994-06-07 | Oce-Nederland B.V. | Method and apparatus for coding digital image data |
JPH05151349A (ja) * | 1991-11-29 | 1993-06-18 | Fujitsu Ltd | 画像データ圧縮方法および符号化回路 |
JP2000261812A (ja) * | 1999-03-12 | 2000-09-22 | Fuji Xerox Co Ltd | 画像符号化装置および復号装置 |
CN102088604A (zh) * | 2011-02-10 | 2011-06-08 | 深圳创维数字技术股份有限公司 | 一种影片缩略图的压缩方法及压缩装置 |
CN102158485A (zh) * | 2011-03-30 | 2011-08-17 | 广东电网公司电力科学研究院 | 一种局部放电在线监测数据的压缩方法 |
JP2012213088A (ja) * | 2011-03-31 | 2012-11-01 | Dynacomware Taiwan Inc | コンピュータによるドットマトリクスフォントデータの圧縮及び解凍のための方法及びシステム |
JP2015118455A (ja) * | 2013-12-17 | 2015-06-25 | 日本電気株式会社 | 行列圧縮装置、制御方法、及びプログラム |
US9647685B1 (en) * | 2016-09-14 | 2017-05-09 | Federal Express Corporation | Data compression |
CN111510152A (zh) * | 2019-01-30 | 2020-08-07 | 中国科学院声学研究所 | 一种声波测井数据的压缩及解压缩方法 |
CN114286102A (zh) * | 2021-11-15 | 2022-04-05 | 上海电科智能系统股份有限公司 | 基于Base62编码的二值图像压缩编解码方法 |
CN115206460A (zh) * | 2022-07-28 | 2022-10-18 | 康键信息技术(深圳)有限公司 | 药物数据处理方法、装置、电子设备及存储介质 |
CN115623536A (zh) * | 2022-12-20 | 2023-01-17 | 苏州洛尔帝科技有限公司 | 一种基于LoRa的传感器信号的高可靠数据传输方法 |
Non-Patent Citations (2)
Title |
---|
X. RUAN AND R. S. KATTI: "Data-Independent Pattern Run-Length Compression for Testing Embedded Cores in SoCs", 《IEEE TRANSACTIONS ON COMPUTERS》, pages 545 - 556 * |
籍俊伟; 林小竹: "图像编码中的RLE方法研究", 《石油化工高等学校学报》, pages 83 - 87 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504396A (zh) * | 2023-06-26 | 2023-07-28 | 贵阳市第四人民医院 | 一种中西医结合内科检查数据分析系统 |
CN116504396B (zh) * | 2023-06-26 | 2023-09-08 | 贵阳市第四人民医院 | 一种中西医结合内科检查数据分析系统 |
CN117235013A (zh) * | 2023-11-10 | 2023-12-15 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
CN117235013B (zh) * | 2023-11-10 | 2024-01-30 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116032294B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116032294B (zh) | 一种用于大气监测数据的智能处理方法 | |
CN116192971B (zh) | 智能云能源运维服务平台数据管理方法 | |
CN111368890A (zh) | 故障检测方法及装置、信息物理融合系统 | |
CN110515931B (zh) | 一种基于随机森林算法的电容型设备缺陷预测方法 | |
CN110825826A (zh) | 聚类簇计算方法、装置、终端及存储介质 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN114969060B (zh) | 一种工业设备时序数据压缩存储方法、装置 | |
CN117375630B (zh) | 一种针对带电作业预警系统的监控数据压缩方法 | |
CN116702708B (zh) | 一种道路路面施工数据管理系统 | |
CN117473351B (zh) | 基于物联网的电源信息远程传输系统 | |
CN110647990A (zh) | 基于灰色关联分析的深度卷积神经网络模型的裁剪方法 | |
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
CN115941943A (zh) | 一种hevc视频编码方法 | |
CN113468473B (zh) | 户外固定大型机械设备的运行状态实时评估方法及系统 | |
CN116471412A (zh) | 一种基于密度聚类的自适应图像压缩方法及系统 | |
CN118018035A (zh) | 一种装修进度智能监管系统的信息传输方法 | |
CN116737085B (zh) | 一种电梯维护数据高效存储方法 | |
CN115882867B (zh) | 一种基于大数据的数据压缩存储方法 | |
CN115964347A (zh) | 一种市场监管监测中心数据的智能存储方法 | |
CN116338322A (zh) | 一种电网线路阻抗预测方法及系统 | |
CN115269679A (zh) | 一种多维时间序列整体复杂度评估方法 | |
CN114386485A (zh) | 一种建筑光纤光栅应力传感器的应力曲线聚类方法 | |
CN114665885A (zh) | 一种时序数据库自适应数据压缩方法 | |
CN112862816A (zh) | 一种hrtem图像中煤芳香烃晶格条纹的智能提取方法 | |
CN118199653B (zh) | 一种粮储安全监控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |