CN116032294A

CN116032294A - 一种用于大气监测数据的智能处理方法

Info

Publication number: CN116032294A
Application number: CN202310152538.3A
Authority: CN
Inventors: 赵宇廷
Original assignee: Shandong Anzhijie Technology Co ltd
Current assignee: Shandong Anzhijie Technology Co ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-04-28
Anticipated expiration: 2043-02-23
Also published as: CN116032294B

Abstract

本发明涉及数据处理领域，具体涉及一种用于大气监测数据的智能处理方法。采集设定时间周期的监测数据并构建数据矩阵；将每列元素中相似性连续相同的监测数据划分为一个相似数据组并由上到下进行编号；对数据矩阵逐行进行遍历，直至一行监测数据中存在不同的编号；获取该行的压缩必要性；若小于阈值，继续向下遍历；若大于阈值，将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组，并从该行开始以第二编号为目标数据重新向下遍历，依次遍历，直至获取数据矩阵的所有压缩组；对数据矩阵的每个压缩组进行压缩存储。本发明通过采用多位压缩的方法，能够有效提高压缩效果，从而减少对存储空间的使用。

Description

一种用于大气监测数据的智能处理方法

技术领域

本发明涉及数据处理领域，具体涉及一种用于大气监测数据的智能处理方法。

背景技术

随着科学技术的发展，对大气的探测越来越精细，探测周期越来越短，从而探测信息的数据量也随之越来越大，高频率采集产生的海量原生大气数据之中会存在庞大的相似数据，直接进行存储会导致大量的重复数据占用存储空间产生浪费，因此为达到数据的快速传输，以及减少数据存储空间，需要对其进行数据压缩。

现有技术中的数据压缩算法中，游程编码压缩算法是一种较为常用的无损压缩算法，在对重复的数据进行压缩存储具有不错的表现，然而该算法对于数据之间的波动处理效果较差，如大气数据中经常会存在不完全一致的数据波动，在对此类数据进行压缩时可能会造成压缩后的数据膨胀，使得数据的压缩效果并不理想，无法实现减少数据存储空间的目的。

发明内容

为了解决现有技术进行压缩时可能会造成压缩后的数据膨胀，使得数据的压缩效果并不理想的问题，本发明提供一种用于大气监测数据的智能处理方法，包括：采集设定时间周期的监测数据并构建数据矩阵；将每列元素中相似性连续相同的监测数据划分为一个相似数据组并由上到下进行编号；对数据矩阵逐行进行遍历，直至一行监测数据中存在不同的编号；获取该行的压缩必要性；若小于阈值，继续向下遍历；若大于阈值，将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组，并从该行开始以第二编号为目标数据重新向下遍历，依次遍历，直至获取数据矩阵的所有压缩组；对数据矩阵的每个压缩组进行压缩存储。

本发明采用如下技术方案，一种用于大气监测数据的智能处理方法，包括：

采集设定时间周期的监测数据，并根据每个时间周期的监测数据构建数据矩阵；

获取每个监测数据与数据矩阵中第一个监测数据的相似性，将数据矩阵的每列元素中相似性连续相同的监测数据划分为一个相似数据组，并由上到下对每列元素的相似数据组进行编号；

将每个相似数据组的编号赋值给对应相似数据组中的每个监测数据，以第一编号为目标数据对数据矩阵逐行进行遍历，直至一行监测数据中存在不同的编号；

将存在不同编号监测数据对应行中，其他编号对应的监测数据作为非目标数据，根据每个非目标数据的压缩关联度获取该存在不同编号监测数据对应行的压缩必要性；

判断该存在不同编号监测数据对应行监测数据的压缩必要性是否大于预设阈值，若大于阈值，继续向下遍历，直至存在不同编号监测数据对应行的压缩必要性小于阈值；

若小于阈值，将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组，并从该存在不同编号监测数据对应行开始，以第二编号为目标数据重新向下遍历，获取第二编号对应的第二压缩组，依次遍历，直至获取数据矩阵中每个编号对应的压缩组，得到数据矩阵的所有压缩组；

对数据矩阵的每个压缩组进行压缩，得到压缩完成的监测数据，并对压缩完成的监测数据进行存储。

进一步的，一种用于大气监测数据的智能处理方法，获取每个监测数据与数据矩阵中第一个监测数据的相似性的方法为：

获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数；

获取每个监测数据与数据矩阵中第一个监测数据之间数据值的差值绝对值，并以该差值绝对值构建以e为底的指数函数，其中，e为自然常数；

获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数，与构建的指数函数的比值，将归一化后的比值作为每个监测数据与数据矩阵中第一个监测数据的相似性。

进一步的，一种用于大气监测数据的智能处理方法，每个非目标数据的压缩关联度的获取方法如下：

获取每个非目标数据在数据矩阵对应行上目标数据的个数；

获取每个非目标数据与其四邻域内每个监测数据的差值绝对值的均值；

根据每个非目标数据在数据矩阵对应行上目标数据的个数，与该非目标数据和其四邻域内每个监测数据的差值绝对值的均值的比值，得到每个非目标数据的压缩关联度。

进一步的，一种用于大气监测数据的智能处理方法，获取该存在不同编号监测数据对应行的压缩必要性的方法为：

获取该存在不同编号监测数据对应行中非目标数据的压缩关联度均值，对该均值进行归一化得到该存在不同编号监测数据对应行的压缩必要性。

进一步的，一种用于大气监测数据的智能处理方法，对数据矩阵的每个压缩组进行压缩之前，还包括：

将每个编号对应的压缩组中，存在不同编号的监测数据对应行上的非目标数据替换为与其相邻的目标数据。

进一步的，一种用于大气监测数据的智能处理方法，对数据矩阵的每个压缩组进行压缩的方法为：

将每个压缩组中监测数据之间相同的二进制位数作为相同块；

对每个压缩组中监测数据的相同块进行合并压缩。

进一步的，一种用于大气监测数据的智能处理方法，根据每个时间周期的监测数据构建数据矩阵之后，还包括：将数据矩阵中的每个监测数据转化为二进制。

本发明的有益效果是：本发明首先对采集到的数据构建矩阵，为后续进行分组压缩提供了便利，同时结合压缩顺序，利用矩阵中每个数据与第一个数据之间的相似性进行分组，能够将相似的数据分为一组，并对每一列数据组进行编号，有利于提高编码压缩的效率；同时考虑到每列相同编号的数据组在矩阵中所占的行数不同，本发明在相同编号的数据组包含的最大行数范围内，对其中不属于该编号数据组的数据进行逐行分析，能够确定出进行压缩的最佳行高，避免波动数据对压缩造成的影响，实现自适应行高的多行编码压缩，最后对矩阵进行多行分组编码压缩，在极大程度上提升了压缩效率的同时，避免了压缩后的数据膨胀问题，有效减少了存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种用于大气监测数据的智能处理方法结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

某些行业对天气需要更准确预测结果，由此产生了高频次高精度的大气监测数据，而对大气监测数据进行存储时：同天时序上的数据存在测量结果波动、不同天数的时间跨度上也存在波动，传统的游程压缩算法（RLE算法）在进行大批量存在波动的数据压缩时通常压缩效果不佳。

如图1所示，给出了本发明实施例的一种用于大气监测数据的智能处理方法结构示意图，包括：

101.采集设定时间周期的监测数据并构建数据矩阵；

高精度的预测大气监测数据，需要高频率采集的历史监测数据做支撑，采集的数据类型为日期、时间、各种污染物浓度数据等等，大气监测设备采集数据后将数据传输至计算机，直接进行存储会耗费巨大的存储资源，因此需要进行压缩处理后再存储。

大气监测数据是时间跨度上采集的时序数据，因此将其进行排列，对大气监测数据进行分析是通过一定时间跨度上的数据集进行分析，因此压缩处理并不需要针对快速提取时序上某一时刻的数据进行着重处理。

本发明通过行方向为时间顺序、列方向为时间跨度，构建天气监测数据的样本矩阵：

即得到的数据矩阵为行列的矩阵，列方向为时间跨度，行方向为时间顺序，本发明为便于理解，以，为示例，即行方向的采集次数为60次，列方向的时间跨度为60分钟。

因为高频率采集的相似数据差别较小，在计算机存储数据时，常用八位二进制进行存储，因此通过判断数据之间二进制相同的位置，对数据之间衡量了二进制位的相似性，选取最大的相同二进制位进行压缩，便于最大化可压缩的数据范围，本发明在根据每个时间周期的监测数据构建数据矩阵之后，还包括：将数据矩阵中的每个监测数据转化为二进制。

数据矩阵中的不同行之间的元素也存在较高的相似性，因此对于常规游程编码在单行进行游程压缩，本发明通过数据相似性从而自适应获取压缩行高方法进行多行游程压缩，可以进一步的提升数据的压缩效果。

102.将每列元素中相似性连续相同的监测数据划分为一个相似数据组并进行编号；

对于不同的样本数据区域，其数据的相似性是不同的，例如一天之中不同时刻采集的大气监测数据不可能完全相同，因此本发明将相似的数据在矩阵中划为不同长度的相似列向量，以便进行分组压缩，且由于计算机存储数据采用二进制，而游程压缩是从第一个数据开始，因此，筛选与第一位数据二进制按位相减的位数长度来获取相似性，相似性越高，则说明变化的位数越小，而二进制数据一般为前半段位数数据几乎相同，仅是后半段位数数据在变化，选取最大化相似数据构成相似列向量进行分组压缩，更加贴合数据本身在计算机存储的方式，对数据之间的相似性能够进行更加准确的计算。

例如：样本矩阵中某一段为：，其存储的二进制为：，可以看出，高6位完全相同，因此，将该段数据的完全相同的高6位作为相同数据块，进行分块压缩，能够极大的提升存储效率。

获取数据矩阵中每个监测数据与第一个监测数据的相似性的方法为：

获取每个监测数据与数据矩阵中第一个监测数据之间数据值的差值绝对值，并以该差值绝对值构建以e为底的指数函数；

获取每个监测数据与数据矩阵中第一个监测数据之间二进制数相同的位数，与构建的指数函数的比值，将归一化后的比值作为每个监测数据与数据矩阵中第一个监测数据的相似性，表达式为：

其中，表示第矩阵中第k个监测数据与第一个监测数据的相似性，表示第一个监测数据的二进制数，函数用于获取二进制序列长度，即表示第一个监测数据的二进制位数，表示第k个监测数据的二进制数与第一个监测数据的二进制数按位相减后的二进制数，则表示第k个监测数据的二进制数与第一个监测数据的二进制数按位相减后的二进制数的位数，即第k个监测数据的二进制数与第一个监测数据的二进制数之间不同的二进制数位数，通过表示第k个监测数据与第一个监测数据之间二进制数相同的位数，该值越大则说明两个数据之间的相同位数越多，证明两元素的二进制位相似程度更高，表示数据矩阵中第k个监测数据的数据值，表示数据矩阵中第一个监测数据的数据值，表示以自然常数e为底的指数函数，通过对两个数据之间的差值绝对值进行映射，避免数据上下波动产生负值影响相似性计算，（）为现有的神经元的非线性作用函数，用于将变量值映射至0，1之间，即起到归一化的作用。

本发明通过计算数据矩阵中每个监测数据与第一个监测数据的相似性，对于数据的存储结构以及数据之间差距进行了综合衡量，将每个监测数据的相似性按照数据矩阵中数据的分布进行拜访，从而得到一个相似性矩阵，便于后续根据数据相似性进行相似组的分划构建，得到的相似性矩阵如下：

其中，表示数据矩阵中位置为的监测数据与第一个监测数据的相似性，此处即表示数据矩阵中第一个监测数据与其自身的相似性，相似性矩阵中其他元素同理，表示数据矩阵中对应位置上的监测数据与第一个监测数据的相似性。

本发明按照时序进行相似组的选取，即对于相似性矩阵中的每列元素，通过筛选不同行上元素的相似性，将相同相似性的元素划分为一组，按照行向量的顺序将每列元素中相似性相同的元素归为同一相似组，当相似性不一致时即截止当前相似组获取，从下一位元素开始重新分组，并对每列元素的分组由上到下依次进行编号，例如：

相似组，其含义为：在相似性矩阵的第2列元素中，第8-12行对应的元素是该列元素中的第二个相似组，具有相同的与数据矩阵中第一个元素按位相减的差值位数长度，即这些像素拥有同样的相似性。

由此，将相似性矩阵中的每列元素分为多个相似数据组，能够得到一个相似数据组构成的相似组矩阵：

其中，表示相似性矩阵中第一列的第一个相似数据组，表示相似性矩阵中第j列的第一个相似数据组，表示相似性矩阵中第一列元素的第i个相似数据组，则相似组矩阵中每个元素均表示在原相似性矩阵中每列元素中具有相同相似性的多个监测数据。

103.以第一编号为目标数据对数据矩阵逐行进行遍历，直至一行监测数据中存在不同的编号；

对于高频率采集的大气监测数据难免产生波动，导致元素间相似性不同，从而形成长短不一的相似数据组，即在划分相似数据组时，每列元素中的相似数据组的个数不同，每个相似数据组中监测数据的个数也不同，因此对于本发明中得到的相似组矩阵，其可能是一个不规则的矩阵，为了保证矩阵的构建，本发明中对矩阵中对应位置上不存在的数据用0代替，例如，相似性矩阵中第一列元素划分得到的相似数据组最多，数量为10，而第二列元素划分仅得到了6个相似数据组，则在构建相似组矩阵时，中i的取值为10，而中i只能取到6，因此构建矩阵时将中i的取值为7-10之间的元素用0代替。

本发明中进行游程压缩采取多行游程编码，即对每个相似数据组中的监测数据同时进行编码，可以显著增加压缩效率，由于每个相似数据组中包含的监测数据个数不同，即对数据矩阵进行多行游程编码压缩时，每一列的游程窗口的行高不同，若直接扩大缩小游程窗口的行高，反而会导致过多信息丢失、降低压缩效果，因此本发明需要对游程编码窗口的行高进行自适应统一。

对于相似组矩阵中，本发明根据每列元素的编号顺序，依次选取相同编号的相似数据组进行分析，例如：对于相似组矩阵的每列元素中编号为1的相似数据组，每个相似数据组在数据矩阵中对应包含的监测数据个数均不同，即每个相似数据组中的监测数据在数据矩阵中所占的行数范围不同，选取相似组矩阵中编号为1的相似数据组中，所占行数范围最大的相似数据组和所占行数范围最小的相似数据组，则最大行数范围与最小行数范围之间，存在不属于该编号为1的相似数据组的监测数据，即为非目标数据，而最大行数范围内所有属于编号为1的相似数据组均为目标数据，按照符合多行游程行高特点的先行后列的顺序，对于一个不属于编号为1的相似数据组的非目标数据，该非目标数据所在数据矩阵的对应行上存在目标数据的个数越多，该非目标数据与周围监测数据之间的差异越小，则对该非目标数据进行编码压缩的损失越小，由此本发明计算每一个非目标数据的压缩关联度。

104.根据每个非目标数据的压缩关联度获取存在不同编号监测数据对应行的压缩必要性；

获取每个非目标数据的压缩关联度的方法为：

获取每个非目标数据在数据矩阵对应行上目标数据的个数；

根据每个非目标数据在数据矩阵对应行上目标数据的个数，与该非目标数据和其四邻域内每个监测数据的差值绝对值的均值的比值，得到每个非目标数据的压缩关联度，表达式为：

其中，表示第b个非目标数据的压缩关联度，表示第b个非目标数据所在数据矩阵对应行上目标数据的个数，的值越大，说明该非目标数据所在行上目标数据的个数越多，则该非目标数据对游程窗口大小选取的影响越小，表示第b个非目标数据在数据矩阵中对应监测数据的数据值，表示第b个非目标数据的第l个邻域数据在数据矩阵中对应监测数据的值，本发明选取每个非目标数据上下左右四个邻域的数据，代表第b个非目标数据与邻域数据的平均数据差异，该值越小，则说明第b个非目标数据的信息越可能为异常部位，则该非目标数据在进行压缩时越需要保留，即对游程窗口大小选取的影响越大，为数学中无穷小符号，代表不为零的一个极小的正数，在不对分母中另一加数（平均数据差异）的计算结果产生误差影响的情况下，防止另一加数（平均数据差异）为零从而导致的计算异常。

由此对于编号为1的相似数据组在数据矩阵中所占最大行数范围内，每个非目标数据均得到对应的压缩关联度，而每一行元素中可能存在多个非目标数据，本发明通过累加筛选获取非目标数据所在行监测数据的压缩必要性，从而判断该行是否需要进行压缩，避免仅筛选元素的压缩必要性导致相似数据组依然长短不一，无法确定游程行高。

获取该存在不同编号监测数据对应行的压缩必要性的方法为：

获取该存在不同编号监测数据对应行中非目标数据的压缩关联度均值，对该均值进行归一化得到该存在不同编号监测数据对应行的压缩必要性，表达式为：

其中，表示第b个非目标元素在数据矩阵中对应行的压缩必要性，表示第b个非目标元素在数据矩阵中对应行上，非目标数据的个数，表示第b个非目标元素在数据矩阵中对应行上的第k个压缩关联度，（）为现有的神经元的非线性作用函数，本发明通过对第b个非目标元素在数据矩阵中对应行上非目标数据的压缩关联度累加求平均，并通过函数进行归一化操作，将第b个非目标元素在数据矩阵中对应行的压缩必要性落入区间，便于后续进行行高的自适应选择。

105.判断存在不同编号监测数据对应行监测数据的压缩必要性是否大于预设阈值；

若大于阈值，继续向下遍历，直至存在不同编号监测数据对应行的压缩必要性大于阈值；

若小于阈值，将该行监测数据以上的所有行监测数据作为第一编号对应的第一压缩组，并从该存在不同编号监测数据对应行开始，以第二编号为目标数据重新向下遍历，获取第二编号对应的第二压缩组，依次遍历，直至获取数据矩阵中每个编号对应的压缩组，得到数据矩阵的所有压缩组。

对于编号为1的相似数据组，在进行游程编码压缩时其最小游程窗口即为所占行数范围最小的相似数据组在数据矩阵中对应的行数，从该行开始依次向下遍历，获取每一行的压缩必要性，将压缩必要性大于预设阈值的行作为需要合并的行，直到得到某一行的压缩必要性小于阈值，或遍历达到编号为1的相似数据组所占的最大行数范围，将压缩必要性小于阈值对应行的上一行监测数据，作为编号为1的相似数据组的最大压缩行，即得到了对编号为1的相似数据组进行游程编码压缩的游程窗口大小，即本发明中第一编号对应的第一压缩组，对该压缩组在数据矩阵中进行多行编码压缩，对于第一压缩组内的每个非目标数据，本发明选取其所在行方向，距离最近的目标数据对其进行替换。

获取编号为1的相似数据组的最大压缩行后，依次获取相似组矩阵中每个编号对应的压缩组，从而实现对监测数据的自适应游程窗口的选取。

根据经验本发明设定预设阈值为0.7，即本发明选取压缩必要性大于0.7对应的行将作为进行游程压缩的行，在不产生较大信息丢失的同时提高压缩率，该预设阈值可根据实际情况自行设定，本发明仅为举例说明，对此不做任何限制。

本发明通过压缩必要性进行自适应行高的多行游程压缩，相比常规的单行游程压缩更能提高重复数据的压缩效率，并且将波动影响较小的数据进行数值覆盖后进行有损游程压缩，在不对样本数据产生较大数据损伤影响的情况下，进一步提升多行游程压缩的压缩效率。

106.对数据矩阵的每个压缩组进行压缩存储。

对数据矩阵的每个压缩组进行压缩的方法为：

对每个压缩组中监测数据的相同块进行合并压缩。

分块压缩为现有技术，其简要思想为：对于一个相似数据组中的监测数据，选取其相同的二进制位数作为相同块，不同的二进制位数作为差异块，将相同块进行一组存储，因其数据相同，只需很小的存储空间就能存储大量重复数据，因此差异块的数据大小大大降低，同时将每个相似数据组中相同块对应的二进制数进行合并，从而大大减少了重复数据的存储空间。

至此，完成了对大气监测数据的高效压缩，将压缩后的数据进行存储，当需要进行大气监测数据分析时，按照分跨压缩的方法进行对应的解压缩即可。

本发明首先对采集到的数据构建矩阵，为后续进行分组压缩提供了便利，同时结合压缩顺序，利用矩阵中每个数据与第一个数据之间的相似性进行分组，能够将相似的数据分为一组，并对每一列数据组进行编号，有利于提高编码压缩的效率；同时考虑到每列相同编号的数据组在矩阵中所占的行数不同，本发明在相同编号的数据组包含的最大行数范围内，对其中不属于该编号数据组的数据进行逐行分析，能够确定出进行压缩的最佳行高，避免波动数据对压缩造成的影响，实现自适应行高的多行编码压缩，最后对矩阵进行多行分组编码压缩，在极大程度上提升了压缩效率的同时，避免了压缩后的数据膨胀问题，有效减少了存储空间。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于大气监测数据的智能处理方法，其特征在于，包括：

2.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，获取每个监测数据与数据矩阵中第一个监测数据的相似性的方法为：

3.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，每个非目标数据的压缩关联度的获取方法如下：

获取每个非目标数据在数据矩阵对应行上目标数据的个数；

4.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，获取该存在不同编号监测数据对应行的压缩必要性的方法为：

5.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，对数据矩阵的每个压缩组进行压缩之前，还包括：

6.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，对数据矩阵的每个压缩组进行压缩的方法为：

对每个压缩组中监测数据的相同块进行合并压缩。

7.根据权利要求1所述的一种用于大气监测数据的智能处理方法，其特征在于，根据每个时间周期的监测数据构建数据矩阵之后，还包括：将数据矩阵中的每个监测数据转化为二进制。