CN117708755B - 基于生态环境的数据处理方法及装置 - Google Patents
基于生态环境的数据处理方法及装置 Download PDFInfo
- Publication number
- CN117708755B CN117708755B CN202311739468.8A CN202311739468A CN117708755B CN 117708755 B CN117708755 B CN 117708755B CN 202311739468 A CN202311739468 A CN 202311739468A CN 117708755 B CN117708755 B CN 117708755B
- Authority
- CN
- China
- Prior art keywords
- value
- data
- distribution
- parameter
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000007613 environmental effect Effects 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 17
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及基于生态环境的数据处理方法及装置,先基于环境参数值对多个数据帧进行排序,得到数据序列。然后根据数据序列建立参数分布坐标,参数分布坐标是传感器可能采集的所有值,本申请将数据帧中的环境参数值替换为参数分布坐标中的一维坐标。通过一维坐标来对所有的数据帧进行排序,使得取值接近或者相同的数据帧聚集在一起,最后将坐标相同的数据帧的位置数据合并,从可以将所有环境参数值相同的数据帧的重复信息进行合并,从而将数据帧进行压缩。本申请在不影响数据精度和数据检索速度的情况下,将数据帧进行压缩处理,从而节省大量存储空间。
Description
技术领域
本发明涉及环境监测技术领域,具体是基于生态环境的数据处理方法及装置。
背景技术
对于生态环境的监测,现有技术一般通过各种环境传感器进行基础数据采集。采集的基础数据一般会基于采集时间、传感器识别信息等构造结构化数据,得到每个采集时间点对应的结构化数据帧。每个单独的数据帧中均包含时间信息、传感器识别信息、环境参数取值等。这样的数据帧,可以在后续使用过程中,可以方便地被转换为数据表或者数据库文件,从而以便于通过时间信息和传感器识别信息进行快速检索。
但是如果是多个传感器长期使用后,会生成海量的数据帧,而这些数据帧中,也存在大量重复数据,例如重复的环境参数取值,从而占用大量的存储空间。
发明内容
有鉴于此,本发明的目的是提供基于生态环境的数据处理方法及装置,以解决现有技术中的技术问题。
为了实现上述目的,本发明采用了如下技术方案:
本发明的基于生态环境的数据处理方法,包括步骤:
获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
基于所述环境参数值对多个数据帧进行排序,得到数据序列;
提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;
基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。
在本申请一实施例中,还包括:
S1,以所述参数分布坐标的其中一个端点值作为当前基准值,其中,所述端点值为最大值或者最小值;
S2,从所述当前基准值为起点,并按照所述参数分布坐标的位置顺序对所有的中间数据帧进行逐一扫描,并将被扫描的中间数据帧的位置数据替换为与所述当前基准值的相对位置数据,其中,所述相对位置数据包括扫描序号、位置数据与所述当前基准值的差值,所述相对位置数据为二进制编码;
S3,在任意一个所述被扫描的中间数据帧的相对位置数据的大小超过预设阈值时,将该数据帧的位置数据的值作为当前基准值,并重复执行步骤S2,直至所有的中间数据帧的位置数据被替换为相对位置数据;
S4,将位置数据被替换为相对位置数据的中间数据帧作为目标数据帧,并保存所有的目标数据帧、参数分布坐标和当前基准值。
在本申请一实施例中,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,包括:
将位置数据相同的多个聚集的中间数据帧的位置数据合并,生成位置数据编码,其中,所述位置数据编码的头部包括用于表示开始的第一标志位,所述位置数据编码的尾部包括用于表示结束的第二标志位;
基于位置数据相同的、且聚集的每一个中间数据帧的传感器ID和采集时间生成对应的唯一信息编码,其中,所述唯一信息编码的头部包括用于表示开始的第三标志位,所述唯一信息编码的尾部包括用于表示结束的第四标志位;
基于所述位置数据编码和多个唯一信息编码构建压缩数据帧。
在本申请一实施例中,得到压缩数据帧之后,还包括:
当存在任意一个参数分布坐标中的坐标点没有对应的中间数据帧时,在对应位置填充空数据帧,得到包括多个中间数据帧和多个压缩数据帧的中间数据序列,其中,中间数据序列中数据帧的数量与所述参数分布坐标中的坐标点的数量一致;
去除中间数据序列中中间数据帧和压缩数据帧的位置数据,得到压缩数据序列;
保存所述压缩数据序列和所述参数分布坐标。
在本申请一实施例中,提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,包括:
提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;
基于所述分布范围和所述取值精度构建参数分布坐标,其中,所述参数分布坐标的取值范围为所述分布范围,所述参数分布坐标的相邻坐标点的差值为所述取值精度。
在本申请一实施例中,提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,包括:
提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;
计算所述环境参数值序列的平均值和标准差;
基于所述平均值和所述标准差构建所述环境参数值序列的正态分布概率函数,其中,所述正态分布概率函数表征了环境参数值与出现概率的对应关系;
基于所述正态分布概率函数确定所述分布范围中概率小于预设的概率阈值的目标区域,将所述目标区域的相邻坐标点的差值设定为所述取值精度的0.1倍,将所述分布范围中除所述目标区域以外的其他区域的相邻坐标点的差值设定为所述取值精度,得到参数分布坐标。
在本申请一实施例中,还包括:
在所述参数分布坐标中没有值为零的坐标点时,将所述参数分布坐标中的每一个坐标点都减去一个所述环境参数值序列的最小值,得到简化坐标点序列;
将所述简化坐标点序列添加至所述参数分布坐标中,得到简化后的参数分布坐标。
在本申请一实施例中,基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,包括:
在数据帧的环境参数值与所述参数分布坐标中的任何一个坐标点一致时,将该坐标点对应的简化坐标作为该数据帧的位置;
在数据帧的环境参数值与所述参数分布坐标中的所有坐标点均不一致时,去除数据帧的环境参数值的最后一位,以使得去除最后一位的环境参数值与所述参数分布坐标中的其中一个坐标点一致,并将该坐标点对应的简化坐标作为该数据帧的位置。
在本申请一实施例中,将每个数据帧中的环境参数值替换为位置数据,包括
将每个数据帧中的环境参数值替换为简化坐标。
本申请还提供基于生态环境的数据处理装置,包括:
获取模块,用于获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
排序模块,用于基于所述环境参数值对多个数据帧进行排序,得到数据序列;
坐标构建模块,用于提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;
替换模块,用于基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
扫描模块,用于按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
压缩模块,用于在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。本发明还提供一种存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现如上所述的基于生态环境的数据处理方法。
本发明还提供一种电子设备,包括:处理器、及存储器;其中,所述存储器用于存储计算机程序;所述处理器用于加载执行所述计算机程序,以使所述电子设备执行如上所述的基于生态环境的数据处理方法。
本发明的有益效果是:本发明的基于生态环境的数据处理方法及装置,先基于环境参数值对多个数据帧进行排序,得到数据序列。然后根据数据序列建立参数分布坐标,参数分布坐标是传感器可能采集的所有值,本申请将数据帧中的环境参数值替换为参数分布坐标中的一维坐标。通过一维坐标来对所有的数据帧进行排序,使得取值接近或者相同的数据帧聚集在一起,最后将坐标相同的数据帧的位置数据合并,从可以将所有环境参数值相同的数据帧的重复信息进行合并,从而将数据帧进行压缩。本申请在不影响数据精度和数据检索速度的情况下,将数据帧进行压缩处理,从而节省大量存储空间。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1是本申请一实施例中示出的基于生态环境的数据处理方法的流程图;
图2为本申请中的环境参数值序列的提取过程示意图;
图3为本申请一实施例中的压缩数据帧的结构示意图;
图4是本申请一实施例中示出的基于生态环境的数据处理装置的结构图;
图5示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的层而非按照实际实施时的层数目、形状及尺寸绘制,其实际实施时各层的型态、数量及比例可为一种随意的改变,且其层布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的。
图1是本申请一实施例中示出的基于生态环境的数据处理方法的流程图,如图1所示:本实施例的基于生态环境的数据处理方法,可以包括步骤S110至步骤S140:
步骤S110,获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
其中,传感器可以是温度传感器、湿度传感器、水体PH传感器、电导率传感器、光线传感器等用于采集生态环境参数的传感器。本实施例在此不作限制。现有技术中,为了便于数据传输,传感器采集的数据通过边缘处理器(单片机、PLC)处理后,生成结构化的数据帧,以便于将数据帧一帧一帧地将数据回传。这些数据帧由于经过结构化处理,因此包括帧头、帧尾、数据段等数据。回传存储后,存在大量重复数据,因此,本实施例中,基于回传存储的数据帧,进行压缩处理,以节省存储空间。
步骤S120,基于所述环境参数值对多个数据帧进行排序,得到数据序列;
其中,在对多个数据帧进行排序时,可以是从小到大进行排序,也可以是从大到小进行排序,本申请在此不作限定。
步骤S130,提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;
图2为本申请中的环境参数值序列的提取过程示意图,如图2所示,本申请先将数据帧进行排序,然后直接从每一个数据帧中提取其中的环境参数值,从而构建环境参数值序列。
本申请中的分布特征取值分布范围和取值精度,本申请需要将数据帧中的重复参数值去除,采用的做法是将传感器可能的取值全部列出,构建参数分布坐标。参数分布坐标的坐标精度取决于分布特征中的取值精度,参数分布坐标的取值范围则取决于分布特征中的分布范围。
本申请中采用如下两种方式来构建参数分布坐标:
(1)直接基于分布范围和取值精度直接构建参数分布坐标,具体为:
提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;
基于所述分布范围和所述取值精度构建参数分布坐标,其中,所述参数分布坐标的取值范围为所述分布范围,所述参数分布坐标的相邻坐标点的差值为所述取值精度。
例如,传感器为温度传感器,其最小位是0.0X,历史取值在5℃-25℃之间,那么取值精度为0.01,分布范围在5℃-25℃。那么直接在每个摄氏度范围内构建100个坐标点,从而得到参数分布坐标。
上述构建方式适用于数据帧中的参数值分布较为均匀的情况,这种情况下分布范围内的大部分取值都存在对应的数据帧。分布是否均匀可以通过计算数据帧中取值的方差来进行判定。方差小于阈值时则说明分布较为均匀。
(2)在数据帧中的参数值分布较为集中(不均匀)时,可以在分布集中的区域以最高精度来构建坐标点,在分布不集中的次要区域,降低精度,从而构建参数分布坐标,具体包括:
提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;
计算所述环境参数值序列的平均值和标准差;
基于所述平均值和所述标准差构建所述环境参数值序列的正态分布概率函数,其中,所述正态分布概率函数表征了环境参数值与出现概率的对应关系;
正态分布函数的数学表达式为:
其中,F(x)为环境参数值x的出现概率,σ为环境参数值序列的标准差,A为环境参数值序列的平均值。
基于所述正态分布概率函数确定所述分布范围中概率小于预设的概率阈值的目标区域,将所述目标区域的相邻坐标点的差值设定为所述取值精度的0.1倍,将所述分布范围中除所述目标区域以外的其他区域的相邻坐标点的差值设定为所述取值精度,得到参数分布坐标。
基本上所有的环境参数取值都是满足正态分布的,因此在概率比较小的边缘取值区间,进行精度降低处理,例如最高精度0.001的传感器,数据帧中的环境参数为0.001,对应地,参数分布坐标中的精度也应该是0.001。但是如果某取值范围内对应的数据帧数量较少(概率较低),如果还是采用0.001的精度,那么对应坐标点太多,反而会造成参数分布坐标占用太大的存储空间。因此,这种情况下,将对应区间的相邻坐标点的差值设定为所述取值精度的0.1倍,以减少坐标点数量。
此外,为了进一步减少坐标点的数据占用量,本申请还对参数分布坐标的坐标点进行进一步简化。具体包括:
在所述参数分布坐标中没有值为零的坐标点时,将所述参数分布坐标中的每一个坐标点都减去一个所述环境参数值序列的最小值,得到简化坐标点序列;
将所述简化坐标点序列添加至所述参数分布坐标中,得到简化后的参数分布坐标。
例如,参数分布坐标的分布范围是5℃-25℃,那么将所有的坐标点减去一个5℃,就可以将参数分布坐标的坐标点进行简化,并使得坐标点的取值从0开始。在存储时,在参数分布坐标中添加一个“-5”的编码,以便于后续对参数分布坐标进行还原。
步骤S140,基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
前文中构建了参数分布坐标,便可以基于数据帧中的环境参数值来确定每个数据帧在参数分布坐标中的一维坐标。具体包括:
在数据帧的环境参数值与所述参数分布坐标中的任何一个坐标点一致时,将该坐标点对应的简化坐标作为该数据帧的位置;
在数据帧的环境参数值与所述参数分布坐标中的所有坐标点均不一致时,去除数据帧的环境参数值的最后一位,以使得去除最后一位的环境参数值与所述参数分布坐标中的其中一个坐标点一致,并将该坐标点对应的简化坐标作为该数据帧的位置。
在本申请一实施例中,将每个数据帧中的环境参数值替换为位置数据,包括
将每个数据帧中的环境参数值替换为简化坐标。
上述过程将数据帧中的环境参数值全部替换为简化坐标,以便于后续进行重复值合并,此外,本申请中的简化坐标采用2-5个字节进行表示,从而将环境参数值简化至2-5个字节,从而压缩了每个数据帧的体积。
本申请中,还可以通过以下过程再进一步地对数据帧中的位置信息(及简化坐标)进行简化:
S1,以所述参数分布坐标的其中一个端点值作为当前基准值,其中,所述端点值为最大值或者最小值;
例如,上述参数分布坐标的分布范围是0.00-75.00,那么就以0.00为第一个当前基准值;
S2,从所述当前基准值为起点,并按照所述参数分布坐标的位置顺序对所有的中间数据帧进行逐一扫描,并将被扫描的中间数据帧的位置数据替换为与所述当前基准值的相对位置数据,其中,所述相对位置数据包括扫描序号、位置数据与所述当前基准值的差值,所述相对位置数据为二进制编码;
从坐标点0.00对中间数据帧进行逐一扫描,对任何一个被扫描到的中间数据帧将其位置数据替换为“X”,X为中间数据帧的环境参数值与0.00的差值。又例如,从坐标点10.00对中间数据帧进行逐一扫描,对任何一个被扫描到的中间数据帧将其位置数据替换为“X”,X为中间数据帧的环境参数值与10.00的差值。从而可以利用差值来降低简化位置数据的位数。
具体地,本实施例中的简化坐标共有四位数,分别为A、B、C、D,构成AB.CD,本申请可以每隔一个个位数的刻度来进行相对位置数据替换,从而省略“AB”,只保留CD,从而将四个字节的简化至两个字节。
S3,在任意一个所述被扫描的中间数据帧的相对位置数据的大小超过预设阈值时,将该数据帧的位置数据的值作为当前基准值,并重复执行步骤S2,直至所有的中间数据帧的位置数据被替换为相对位置数据;
在本实施例中,预设阈值可以设定为2个字节,如果相对位置数据(即差值)扩大至个位数,即自动切换当前基准值。在本实施例中,也可以将当前基准值直接设定为每个整数值。
S4,将位置数据被替换为相对位置数据的中间数据帧作为目标数据帧,并保存所有的目标数据帧、参数分布坐标和当前基准值。
上述过程进一步地简化了数据帧中的位置数据,从而减少了数据帧的存储所需空间。
步骤S150,按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
具体地,扫描方式采用逐一扫描,扫描顺序为从小到大或者从大到小,本实施例中,不作任何限制。
步骤S160,在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。
位置数据相同即为简化坐标相同,位置数据相同的多个数据帧在参数分布坐标中自动完成聚集,因此,本申请将重复的位置数据合并,得到压缩数据帧之后,就可以对数据进行进一步压缩。
图3为本申请一实施例中的压缩数据帧的结构示意图,如图3所示,经过压缩后的压缩数据帧包括一个位置数据编码和多个唯一信息编码,多个唯一信息编码是原有数据帧保留下来的传感器ID和采集时间信息。
具体地,合并压缩过程如下:
将位置数据相同的多个聚集的中间数据帧的位置数据合并,生成位置数据编码,其中,所述位置数据编码的头部包括用于表示开始的第一标志位,所述位置数据编码的尾部包括用于表示结束的第二标志位;
基于位置数据相同的、且聚集的每一个中间数据帧的传感器ID和采集时间生成对应的唯一信息编码,其中,所述唯一信息编码的头部包括用于表示开始的第三标志位,所述唯一信息编码的尾部包括用于表示结束的第四标志位;
基于所述位置数据编码和多个唯一信息编码构建压缩数据帧。
通过上述过程可以将存在重复取值的中间数据帧进行合并,可以极大地减少存储所需空间。
在本申请一实施例中,得到压缩数据帧之后,可以直接将数据帧的顺序固定下来,与参数分布坐标的坐标点一一对应,然后将内部的位置数据直接去除,包括:
当存在任意一个参数分布坐标中的坐标点没有对应的中间数据帧时,在对应位置填充空数据帧,得到包括多个中间数据帧和多个压缩数据帧的中间数据序列,其中,中间数据序列中数据帧的数量与所述参数分布坐标中的坐标点的数量一致;
去除中间数据序列中中间数据帧和压缩数据帧的位置数据,得到压缩数据序列;
保存所述压缩数据序列和所述参数分布坐标。
本实施例中,使用空数据帧对空位置进行填充,从而使得压缩数据序列与参数分布坐标中的坐标点数量相同,且一一对应。在存储参数分布坐标后,中间数据帧和压缩数据帧中便可以不用再存储位置数据,后续直接将参数分布坐标的坐标点合并至压缩数据序列中即可完成数据还原。因此,直接去除位置数据后,还可以进一步地对数据帧进行压缩。
本申请可以极大地压缩环境数据的体积,为环境传感器的长期工作提供存储环境支撑。
本发明的基于生态环境的数据处理方法,先基于环境参数值对多个数据帧进行排序,得到数据序列。然后根据数据序列建立参数分布坐标,参数分布坐标是传感器可能采集的所有值,本申请将数据帧中的环境参数值替换为参数分布坐标中的一维坐标。通过一维坐标来对所有的数据帧进行排序,使得取值接近或者相同的数据帧聚集在一起,最后将坐标相同的数据帧的位置数据合并,从可以将所有环境参数值相同的数据帧的重复信息进行合并,从而将数据帧进行压缩。本申请在不影响数据精度和数据检索速度的情况下,将数据帧进行压缩处理,从而节省大量存储空间。
如图4所示,本申请还提供基于生态环境的数据处理装置,包括:
获取模块,用于获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
排序模块,用于基于所述环境参数值对多个数据帧进行排序,得到数据序列;
坐标构建模块,用于提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;
替换模块,用于基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
扫描模块,用于按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
压缩模块,用于在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。本发明还提供一种存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现如上所述的基于生态环境的数据处理方法。
本发明的基于生态环境的数据处理装置,先基于环境参数值对多个数据帧进行排序,得到数据序列。然后根据数据序列建立参数分布坐标,参数分布坐标是传感器可能采集的所有值,本申请将数据帧中的环境参数值替换为参数分布坐标中的一维坐标。通过一维坐标来对所有的数据帧进行排序,使得取值接近或者相同的数据帧聚集在一起,最后将坐标相同的数据帧的位置数据合并,从可以将所有环境参数值相同的数据帧的重复信息进行合并,从而将数据帧进行压缩。本申请在不影响数据精度和数据检索速度的情况下,将数据帧进行压缩处理,从而节省大量存储空间。
图5示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图5示出的电子设备的计算机系统500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(Central Process ing Unit,CPU)501,其可以根据存储在只读存储器(Read-Only Memory,ROM)502中的程序或者从储存部分508加载到随机访问存储器(Random Access Memory,RAM)505中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(Input/Output,I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Di splay,LCD)等以及扬声器等的输出部分507;包括硬盘等的储存部分508;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入储存部分508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的方法。
以上实施例仅是为充分说明本申请而所举的较佳的实施例,本申请的保护范围不限于此。本技术领域的技术人员在本申请基础上所作的等同替代或变换,均在本申请的保护范围之内。
Claims (8)
1.基于生态环境的数据处理方法,其特征在于,包括步骤:
获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
基于所述环境参数值对多个数据帧进行排序,得到数据序列;
提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,包括:提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;基于所述分布范围和所述取值精度构建参数分布坐标,其中,所述参数分布坐标的取值范围为所述分布范围,所述参数分布坐标的相邻坐标点的差值为所述取值精度;或者包括:提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;计算所述环境参数值序列的平均值和标准差;基于所述平均值和所述标准差构建所述环境参数值序列的正态分布概率函数,其中,所述正态分布概率函数表征了环境参数值与出现概率的对应关系;基于所述正态分布概率函数确定所述分布范围中概率小于预设的概率阈值的目标区域,将所述目标区域的相邻坐标点的差值设定为所述取值精度的0.1倍,将所述分布范围中除所述目标区域以外的其他区域的相邻坐标点的差值设定为所述取值精度,得到参数分布坐标;
基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。
2.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,还包括:
S1,以所述参数分布坐标的其中一个端点值作为当前基准值,其中,所述端点值为最大值或者最小值;
S2,从所述当前基准值为起点,并按照所述参数分布坐标的位置顺序对所有的中间数据帧进行逐一扫描,并将被扫描的中间数据帧的位置数据替换为与所述当前基准值的相对位置数据,其中,所述相对位置数据包括扫描序号、位置数据与所述当前基准值的差值,所述相对位置数据为二进制编码;
S3,在任意一个所述被扫描的中间数据帧的相对位置数据的大小超过预设阈值时,将该数据帧的位置数据的值作为当前基准值,并重复执行步骤S2,直至所有的中间数据帧的位置数据被替换为相对位置数据;
S4,将位置数据被替换为相对位置数据的中间数据帧作为目标数据帧,并保存所有的目标数据帧、参数分布坐标和当前基准值。
3.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,包括:
将位置数据相同的多个聚集的中间数据帧的位置数据合并,生成位置数据编码,其中,所述位置数据编码的头部包括用于表示开始的第一标志位,所述位置数据编码的尾部包括用于表示结束的第二标志位;
基于位置数据相同的、且聚集的每一个中间数据帧的传感器ID和采集时间生成对应的唯一信息编码,其中,所述唯一信息编码的头部包括用于表示开始的第三标志位,所述唯一信息编码的尾部包括用于表示结束的第四标志位;
基于所述位置数据编码和多个唯一信息编码构建压缩数据帧。
4.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,得到压缩数据帧之后,还包括:
当存在任意一个参数分布坐标中的坐标点没有对应的中间数据帧时,在对应位置填充空数据帧,得到包括多个中间数据帧和多个压缩数据帧的中间数据序列,其中,中间数据序列中数据帧的数量与所述参数分布坐标中的坐标点的数量一致;
去除中间数据序列中中间数据帧和压缩数据帧的位置数据,得到压缩数据序列;
保存所述压缩数据序列和所述参数分布坐标。
5.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,还包括:
在所述参数分布坐标中没有值为零的坐标点时,将所述参数分布坐标中的每一个坐标点都减去一个所述环境参数值序列的最小值,得到简化坐标点序列;
将所述简化坐标点序列添加至所述参数分布坐标中,得到简化后的参数分布坐标。
6.根据权利要求5所述的基于生态环境的数据处理方法,其特征在于,基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,包括:
在数据帧的环境参数值与所述参数分布坐标中的任何一个坐标点一致时,将该坐标点对应的简化坐标作为该数据帧的位置;
在数据帧的环境参数值与所述参数分布坐标中的所有坐标点均不一致时,去除数据帧的环境参数值的最后一位,以使得去除最后一位的环境参数值与所述参数分布坐标中的其中一个坐标点一致,并将该坐标点对应的简化坐标作为该数据帧的位置。
7.根据权利要求6所述的基于生态环境的数据处理方法,其特征在于,将每个数据帧中的环境参数值替换为位置数据,包括
将每个数据帧中的环境参数值替换为简化坐标。
8.基于生态环境的数据处理装置,其特征在于,包括:
获取模块,用于获取基于传感器在历史时间采集的环境参数构造的多个结构化的数据帧,其中,每个数据帧包括传感器ID、采集时间点以及采集时间点对应的环境参数值;
排序模块,用于基于所述环境参数值对多个数据帧进行排序,得到数据序列;
坐标构建模块,用于提取所述数据序列中的环境参数值序列;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,其中,所述分布特征包括取值分布范围和取值精度;提取所述环境参数值序列的取值分布特征,并基于所述环境参数值序列的取值分布特征构建参数分布坐标,包括:提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;基于所述分布范围和所述取值精度构建参数分布坐标,其中,所述参数分布坐标的取值范围为所述分布范围,所述参数分布坐标的相邻坐标点的差值为所述取值精度;或者包括:提取所述环境参数值序列的最大值和最小值,得到分布范围;并提取所述环境参数值序列中每个取值的最小精度位,得到取值精度;计算所述环境参数值序列的平均值和标准差;基于所述平均值和所述标准差构建所述环境参数值序列的正态分布概率函数,其中,所述正态分布概率函数表征了环境参数值与出现概率的对应关系;基于所述正态分布概率函数确定所述分布范围中概率小于预设的概率阈值的目标区域,将所述目标区域的相邻坐标点的差值设定为所述取值精度的0.1倍,将所述分布范围中除所述目标区域以外的其他区域的相邻坐标点的差值设定为所述取值精度,得到参数分布坐标;
替换模块,用于基于环境参数值确定每个数据帧在所述参数分布坐标中的位置,并将每个数据帧中的环境参数值替换为位置数据,得到中间数据帧,其中,所述位置数据为数据帧在所述参数分布坐标中的一维坐标;
扫描模块,用于按照所述参数分布坐标的位置顺序对所有的所述中间数据帧进行扫描;
压缩模块,用于在任意两个相邻的中间数据帧的位置数据相同时,将位置数据相同的多个聚集的中间数据帧的位置数据合并,得到压缩数据帧,以保留唯一的位置数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311739468.8A CN117708755B (zh) | 2023-12-17 | 2023-12-17 | 基于生态环境的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311739468.8A CN117708755B (zh) | 2023-12-17 | 2023-12-17 | 基于生态环境的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708755A CN117708755A (zh) | 2024-03-15 |
CN117708755B true CN117708755B (zh) | 2024-06-21 |
Family
ID=90149395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311739468.8A Active CN117708755B (zh) | 2023-12-17 | 2023-12-17 | 基于生态环境的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708755B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530321A (zh) * | 2013-09-18 | 2014-01-22 | 上海交通大学 | 一种基于机器学习的排序系统 |
CN110121577A (zh) * | 2016-10-11 | 2019-08-13 | 基因组系统公司 | 使用参考序列表示和处理生物信息数据的方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482084B2 (en) * | 2016-08-16 | 2019-11-19 | Netscout Systems Texas, Llc | Optimized merge-sorting of data retrieved from parallel storage units |
CN109581324B (zh) * | 2018-10-31 | 2023-07-25 | 歌尔股份有限公司 | 异常帧数据的处理方法及装置 |
CN110196894B (zh) * | 2019-05-30 | 2021-06-08 | 北京百度网讯科技有限公司 | 语言模型的训练方法和预测方法 |
CN114869528A (zh) * | 2022-05-02 | 2022-08-09 | 先临三维科技股份有限公司 | 扫描数据处理方法、装置、设备及介质 |
-
2023
- 2023-12-17 CN CN202311739468.8A patent/CN117708755B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530321A (zh) * | 2013-09-18 | 2014-01-22 | 上海交通大学 | 一种基于机器学习的排序系统 |
CN110121577A (zh) * | 2016-10-11 | 2019-08-13 | 基因组系统公司 | 使用参考序列表示和处理生物信息数据的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117708755A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10116325B2 (en) | Data compression/decompression device | |
CN106557307B (zh) | 业务数据的处理方法及处理系统 | |
CN111291037A (zh) | 一种数据存储和查询方法、装置、设备及计算机存储介质 | |
CN108880559B (zh) | 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备 | |
CN110222046B (zh) | 列表数据的处理方法、装置、服务器和存储介质 | |
CN117708755B (zh) | 基于生态环境的数据处理方法及装置 | |
CN118013364A (zh) | 一种多维数据智能标识方法 | |
CN112700886A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN110288666B (zh) | 一种数据压缩方法及装置 | |
CN114491171A (zh) | 基于工业物联网的数据处理方法、系统、介质及电子设备 | |
CN115639966A (zh) | 一种数据写入方法、装置、终端设备及存储介质 | |
CN110797082A (zh) | 基因测序数据的存储读取方法及系统 | |
CN114490547A (zh) | 数据压缩方法、装置、设备及介质 | |
CN110990640B (zh) | 一种数据判定方法、装置、设备及计算机可读存储介质 | |
CN111752954B (zh) | 一种大规模特征数据存储的方法及装置 | |
CN114565086A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN114282559A (zh) | 一种光学代码定位方法、装置、图像传感器芯片 | |
CN113190551A (zh) | 特征检索系统的构建方法、特征检索方法、装置及设备 | |
CN113590581A (zh) | 数据传输方法、装置、设备及存储介质 | |
CN117708071B (zh) | 基于大数据的煤矿设备运行参数的处理方法及装置 | |
CN113127408A (zh) | 数据转换方法及装置 | |
CN116011551B (zh) | 优化数据加载的图采样训练方法、系统、设备及存储介质 | |
CN115001628B (zh) | 数据编码的方法及装置、数据解码的方法及装置和数据结构 | |
CN115828977B (zh) | 工业互联网标签编码方法、装置、介质及电子设备 | |
CN118132567B (zh) | 列式存储数据库的多流水线异构过滤加速方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |