CN117290671A - 一种数据预处理方法、装置、电子设备和计算机存储介质 - Google Patents
一种数据预处理方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN117290671A CN117290671A CN202311594139.9A CN202311594139A CN117290671A CN 117290671 A CN117290671 A CN 117290671A CN 202311594139 A CN202311594139 A CN 202311594139A CN 117290671 A CN117290671 A CN 117290671A
- Authority
- CN
- China
- Prior art keywords
- sampling
- sampling data
- data
- list
- data list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000007781 pre-processing Methods 0.000 title claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 1009
- 238000004140 cleaning Methods 0.000 claims abstract description 62
- 230000008859 change Effects 0.000 claims abstract description 56
- 238000007906 compression Methods 0.000 claims description 39
- 230000006835 compression Effects 0.000 claims description 36
- 238000013139 quantization Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002829 reductive effect Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 230000000670 limiting effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102100028175 Abasic site processing protein HMCES Human genes 0.000 description 1
- 101150046268 BCK1 gene Proteins 0.000 description 1
- 102100022210 COX assembly mitochondrial protein 2 homolog Human genes 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- -1 DC14 Proteins 0.000 description 1
- 101001006387 Homo sapiens Abasic site processing protein HMCES Proteins 0.000 description 1
- 101000900446 Homo sapiens COX assembly mitochondrial protein 2 homolog Proteins 0.000 description 1
- 101100533652 Homo sapiens SLIRP gene Proteins 0.000 description 1
- 101000885387 Homo sapiens Serine/threonine-protein kinase DCLK2 Proteins 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 101100509792 Oncorhynchus mykiss tck1 gene Proteins 0.000 description 1
- 102100025491 SRA stem-loop-interacting RNA-binding protein, mitochondrial Human genes 0.000 description 1
- 101100111303 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) BCK2 gene Proteins 0.000 description 1
- 101100169873 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) DCK1 gene Proteins 0.000 description 1
- 102100039775 Serine/threonine-protein kinase DCLK2 Human genes 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种数据预处理方法、装置、电子设备和计算机存储介质。所述数据预处理方法包括:对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;根据采样状态码变化规律,对中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;对新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。该方法能够对剔除同源和异源采样数据冗余值的采样数据进行数据清洗,从而实现对采样数据的高保真清洗,如此,可以降低同源和异源采样数据冗余信息对数据清洗的影响,从而能够提升数据预处理的准确性。
Description
技术领域
本发明实施例涉及数据预处理技术领域,尤其涉及一种数据预处理方法、装置、电子设备和计算机存储介质。
背景技术
数据预处理通常由数据清洗、数据集成、数据变换、数据规约等模块组成,就卫星平台遥测参数下行数据而言,对其进行预处理的工作主要是:数据冗余值的识别与删除;数据异常值的检测与清洗;数据噪声值的滤波与降解;数据缺失值的插补与拟合。显然数据冗余值的识别与删除是进行数据预处理第一步,如果不能正确有效地识别删去冗余值,排除冗余信息干扰,不仅会影响数据预处理方法的设计难度与实用效果,而且可能给数据预处理结果带来不可逆转的偏差或错误。
卫星在太空工作,对其进行跟踪、测量、控制的设备大多在地面,收发卫星参数数据的设备、传输卫星参数数据的通道需要经常切换,才能确保地面获取的卫星参数数据尽可能保持完整。由于收发卫星参数数据的设备性能不同、传输卫星参数数据的通道状态各异,且设备、通道的切换过程通常会持续一段长短不定的时间,所以卫星参数数据对应的状态码常常会在长短不定的时间内,在多个数值之间来回反复地变化。一旦这种情况发生,卫星参数数据的采样结果就会变成包含众多冗余信息的异源数据集合,在时域上随着状态码切换时而表现为毛刺状异常值,时而表现为不受影响的正常值。可以说,在收发设备、传输通道的切换过程中,无论卫星参数数据呈现为异常值,还是正常值,都必然包含大量的冗余信息。通常,反映卫星真实状态的参数数据对应的真正有效的切换次数,远远少于实际记录的切换次数。以某高轨卫星蓄电池某温度参数某年的采样数据为例,在其全年的8375496个采样点数据中,对应的状态码实际切换了972819次,其中真实有效的切换仅有2362次。
当前,剔除卫星多参数异源数据冗余值的方法通常是先查看设备、通道使用的时间窗口与工作状态,再比对参数数据记录时间与状态码,最后统筹分析,剔除冗余值,保留有效数据值。在异源数据采样结果中,大量毛刺状异常值被引进,使得已知的异常值检测与清洗方法(原则、箱型图、盖帽、分箱、聚类,回归等)的适用性大幅下降,数据预处理难度大幅增加甚至无法完成,导致数据预处理的准确性降低。
发明内容
本发明提供一种数据预处理方法、装置、电子设备和计算机存储介质,能够降低异源采样数据的干扰,提升数据预处理的有效性和准确性。
第一方面,本发明实施例提供一种数据预处理方法,包括:
对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;
根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;
对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
在一些实施例中,所述对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表包括:
根据所述原始采样数据列表中各采样数据的采样状态码、采样时间和采样幅值,确定所述原始采样数据列表中的重复采样数据;
剔除所述原始采样数据列表中的重复采样数据,得到第一采样数据列表;
根据所述第一采样数据列表中各采样数据的采样状态码和采样幅值,确定所述第一采样数据列表中的相邻同幅同码采样数据;
压缩所述第一采样数据列表中的相邻同幅同码采样数据,得到所述中间采样数据列表。
在一些实施例中,所述根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表包括:
读取所述中间采样数据列表中的采样数据,生成第二采样数据列表,其中,所述第二采样数据列表中前两行采样数据的采样状态码相同;
从所述第二采样数据列表中确定异源采样数据识别窗口;
根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理;
继续读取所述中间采样数据列表中的采样数据,并将读取的所述采样数据赋值至所述第二采样数据列表以更新所述第二采样数据列表,返回执行从所述第二采样数据列表中确定异源采样数据识别窗口,直至所述中间采样数据列表中的所有采样数据均赋值至所述第二采样数据列表,得到所述新压缩采样数据列表。
在一些实施例中,所述从所述第二采样数据列表中确定异源采样数据识别窗口包括:
若所述第二采样数据列表中的采样数据的行数大于或等于3且小于或等于5,确定所述异源采样数据识别窗口为所述第二采样数据列表中的所有采样数据;
若所述第二采样数据列表中的采样数据的行数大于5,确定所述异源采样数据识别窗口为所述第二采样数据列表中的最后五行采样数据。
在一些实施例中,所述根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理之前,还包括:
根据所述异源采样数据识别窗口中各采样数据的采样状态码,确定所述采样状态码变化规律;
根据所述采样状态码变化规律,识别所述异源采样数据识别窗口中的异源采样数据。
在一些实施例中,所述根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理包括:
根据所述采样状态码变化规律,确定所述异源采样数据中的异源采样数据有效值和异源采样数据冗余值;
保留所述异源采样数据识别窗口中的异源采样数据有效值,并删除所述异源采样数据识别窗口中的异源采样数据冗余值;
对所述异源采样数据识别窗口中的相邻同幅采样数据进行压缩处理。
在一些实施例中,所述对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表包括:
根据预设采样幅值、预设采样间隔和预设最小量化值,对所述新压缩采样数据列表中的采样数据进行初次清洗,得到粗清洗数据列表;
根据所述粗清洗数据列表中的采样数据的类型和采样幅值跳变规律,对所述粗清洗数据列表中的采样数据进行二次清洗,得到所述目标采样数据列表。
第二方面,本发明实施例提供一种数据预处理装置,包括:
压缩模块,用于对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;
所述压缩模块,用于根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;
数据清洗模块,用于对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
第三方面,本发明实施例提供一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面提供的方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一方法的步骤。
本发明实施例提供的技术方案,通过对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表,能够实现采样数据的无损压缩;根据采样状态码变化规律对中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表,能够剔除毛刺状异源采样数据,即剔除异源采样数据冗余值,实现采样数据的有损压缩;对新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表,能够对剔除同源和异源采样数据冗余值的采样数据进行数据清洗,从而能够实现采样数据的高保真清洗,如此,可以降低同源和异源采样数据中冗余信息对数据清洗的影响,提升数据预处理的有效性和准确性。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例提供一种数据处理方法的流程示意图;
图2为本发明实施例提供的一种第二采样数据列表的示意图;
图3为本发明实施例提供的一种中间采样数据列表、新压缩采样数据列表、粗清洗数据列表和目标采样数据列表的示意图;
图4为本发明实施例提供的一种异源采样数据压缩前后的波形对比示意图;
图5为本发明实施例提供的另一种异源采样数据压缩前后的波形对比示意图;
图6为本发明实施例提供的又一种异源采样数据压缩前后的波形对比示意图;
图7为本发明实施例提供的一种数据预处理方法的具体应用框架示意图;
图8为本发明实施例提供的另一种数据预处理方法的具体应用框架示意图;
图9为表1中参数是放电深度时数据预处理前后的参数曲线示意图;
图10为表1中参数是单体电压时数据预处理前后的参数曲线示意图;
图11为表1中参数是电池温度时数据预处理前后的参数曲线示意图;
图12为本发明实施例提供的一种数据预处理装置的结构示意图;
图13为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
本发明实施例提供的技术方案可以应用于卫星下行多遥测参数的采样数据,首先对卫星下行多遥测参数的采样数据进行同源采样数据压缩处理,实现采样数据的无损压缩;再进行异源采样数据压缩处理,剔除异源采样数据冗余值,避免将毛刺状冗余值引入后续数据预处理中;最后进行数据清洗,能够对去除毛刺状冗余值的采样数据进行清洁,可以降低同源和异源采样数据对数据清洗的影响,提升数据预处理的有效性和准确性。
图1为本发明实施例提供的一种数据预处理方法的流程示意图,如图1所示,具体包括:
S101,对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表。
示例性的,中间采样数据列表中包括多行采样数据,所有行采样数据按照采样时间的时间序列进行排列。每行采样数据包括采样状态码、采样幅值和采样时间,其中,采样时间为将原始采样数据列表中的“年、月、日、时、分和秒”换算为以当年1月1日0时0分0秒为0.00秒的积秒,采样状态码为将原始采样数据列表中的八进制状态码转换为十进制之后的状态码。中间采样数据列表的采样时间可以是采样绝对时间也可以是采样相对时间,在一些实施例中,每个采样数据可以包括两个采样时间,分别为采样相对时间和采样绝对时间。
其中,同源采样数据是采样状态码相同的采样数据。示例的,针对同一组同源采样数据,只保留相邻两行采样幅值不同的采样数据,和相邻两行采样幅值相同,但与前一行及后一行采样幅值均不相同的采样数据,本申请对于保留的采样数据的行数不做具体限制,凡是保留的采样数据的行数小于该组同源采样数据的数量的均在本发明实施例所保护的范围内。在其他实施方式中,还可以是对同一组的同源采样数据进行处理,且处理后的采样数据的行数小于该组同源采样数据的数量。
对原始采样数据列表中的所有同源采样数据进行压缩处理后可以得到中间采样数据列表,如此,中间采样数据列表中采样数据的行数小于原始采样数据列表中采样数据的行数,实现采样数据的无损压缩。例如,原始采样数据列表中采样数据行数为1395919,中间样数据列表中采样数据的行数为517289,图3中 a部分所示,图3中a部分所示为本发明实施例提供的一种中间样数据列表的示意图,需要说明的是,图3包括a、b、c、d四部分。
作为执行S101时的一种可能的实现方式的具体描述,如下:
S1011,根据原始采样数据列表中各采样数据的采样状态码、采样时间和采样幅值,确定原始采样数据列表中的重复采样数据。
示例性的,重复采样数据是连续两个或两个以上的采样时间、采样幅值、采样状态码均彼此对应相同的采样数据。
从原始采样数据列表的第一行开始到最后一行,根据任意相邻两行采样数据的采样时间,计算该两行采样数据的采样时间差,根据任意相邻两行采样数据的采样幅值,计算该两行采样数据的采样幅值差,根据任意相邻两行采样数据的采样状态码,计算该两行采样数据的采样状态码数值差。如果相邻两行采样数据的采样时间差、采样幅值差和采样状态码数值差均为0,则判定这两行采样数据为重复采样数据。
S1012,剔除原始采样数据列表中的重复采样数据,得到第一采样数据列表。
示例性的,判定两行采样数据为重复采样数据时,直接删除两行采样数据中的后一行采样数据。或者,直接删除两行采样数据中的前一行采样数据。遍历原始采样数据列表,剔除所有重复采样数据后即可得到第一采样数据列表。
S1013,根据第一采样数据列表中各采样数据的采样状态码和采样幅值,确定第一采样数据列表中的相邻同幅同码采样数据。
示例性的,相邻同幅同码采样数据是连续三个或三个以上采样时间递次增加、采样幅值完全相同、采样状态码也完全相同的采样数据。其中,不含两端采样点的采样数据也称为同源数据冗余值。
从第一采样数据列表的第一行开始到最后一行,滑动比对任意连续三行采样数据的采样幅值与采样状态码,如果三行采样数据的采样幅值完全相等且采样状态码也完全相等,则此三行采样数据为一组相邻同幅同码采样数据。
S1014,压缩第一采样数据列表中的相邻同幅同码采样数据,得到中间采样数据列表。
示例性的,只删除同一组相邻同幅同码采样数据中采样时间居中的采样数据,即删除同源数据冗余值。
遍历第一采样数据列表,压缩完所有相邻同幅同码采样数据后即可得到中间采样数据列表。
在一些实施例中,可以以采样相对时间的方式输出文件扩展名为“.XTXT”的中间采样数据列表,此文本文件只保留采样相对时间,方便后续数据预处理。此外,还可以以采样相对时间和采样绝对时间的方式输出文件扩展名为“.JTXT”的中间采样数据列表,此文本文件保留采样相对时间和采样绝对时间,方便后续数据比对分析。
S102,根据采样状态码变化规律,对中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表。
示例性的,异源采样数据是采样状态码不同的采样数据,采样状态码变化规律是多组、多层嵌套条件合并在一起形成的一系列判断基准,既可以判断中间采样数据列表中的采样数据是否为异源采样数据,又可以确定异源采样数据为异源采样数据有效值还是为异源采样数据冗余值。
作为执行S102时的一种可能的实现方式的具体描述:
S1021,读取中间采样数据列表中的采样数据,生成第二采样数据列表,其中,第二采样数据列表中前两行采样数据的采样状态码相同。
示例性的,从中间采样数据列表中的首行采样数据开始读取,对比两行采样数据的采样状态码,删除与第二行采样数据的采样状态码不同的首行采样数据,直至头两行采样数据的采样状态码完全相同。将中间采样数据列表的两行采样数据一一对应赋值给第二采样数据列表的头两行数据,如图2所示。图2为本发明实施例提供的一种第二采样数据列表的示意图,同源采样数据是采样状态码相同的采样数据,如图2所示,第二采样数据列表中前16行采样数据的采样状态码均为974455808,则第二采样数据列表中前16行采样数据均为同一组同源采样数据。
设定中间采样数据列表时间序列为,第/>点采样数据为/>,其中/>为中间采样数据列表中的采样数据序号,n为中间采样数据列表的采样数据总行数,/>为第/>行采样数据的采样时间,/>为第/>行采样数据的采样幅值,/>为第/>行采样数据的采样状态码,/>为第/>行采样数据与前一行采样数据的采样时间间隔,/>为第1个采样数据的采样时间,/>简记为/>,/>简记为/>。
将中间采样数据列表的头两行采样数据一一对应赋值给第二采样数据列表的头两行数据,设定第二采样数据列表第行采样数据为/>,时间序列为:。其中/>为第二采样数据列表中的采样数据序号,m为第二采样数据列表的采样数据总行数(m≤n),/>为第/>行采样数据的采样时间,/>为第/>行采样数据的采样幅值,/>为第/>行采样数据的采样状态码,/>为第/>行采样数据与前一行采样数据的采样时间间隔,/>为第二采样数据列表第1个采样数据的采样时间,/>简记为/>,/>简记为/>。
设定有效数据采样状态码默认值BZMR的初值为中间采样数据列表中首行采样数据的采样状态码数值BZSZ,显然该值也等于第二采样数据列表中首行采样数据的采样状态码数值。即BZMR=BZSZ==/>。设定采样状态码前后出现变化标记BZCB的初值为0。设定中间采样数据列表中采样数据的行数计数器I,第二采样数据列表中采样数据的行数计数器K,剔除冗余信息行数计数器J,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL,采样状态码有效段落计数器KV的初值均为1,第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL,采样状态码实际变化次数计数器KS,采样状态码重新连续等同首行采样状态码计数器KBZS的初值均为0。
设定采样状态码连续不变起始时间数组TBZS,采样状态码连续不变结束时间数组TBZE的初值均为中间采样数据列表中首行采样数据的采样时间,采样状态码连续不变段落数组BZDL,采样状态码连续不变累计时间数组TBZL的初值均为0。
当读取中间采样数据列表头两行采样数据后,中间采样数据列表中采样数据的行数计数器I,第二采样数据列表中采样数据的行数计数器K,剔除冗余信息行数计数器J,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL的值均更新为2,采样状态码有效段落计数器KV、第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL、采样状态码实际变化次数计数器KS、采样状态码重新连续等同首行采样状态码计数器KBZS的值保持不变。
读取中间采样数据列表的第三行采样数据,将该第三行采样数据作为当前采样数据,赋值给第二采样数据列表的最新采样数据,如此,第二采样数据列表中包括三行采样数据。
S1022,从第二采样数据列表中确定异源采样数据识别窗口。
示例性的,异源采样数据识别窗口用于识别异源采样数据,保留异源采样数据有效值,剔除异源采样数据冗余值,由连续采样数据构成的,可以逐点滑动的数据窗口。异源采样数据识别窗口的长度与第二采样数据列表中采样数据的行数相关,例如,若第二采样数据列表中采样数据的行数为3,则异源采样数据识别窗口的长度为3,若第二采样数据列表中采样数据的行数为4,则异源采样数据识别窗口的长度为4,若第二采样数据列表中采样数据的行数大于或等于5,则异源采样数据识别窗口的长度为5。
基于上述实施例,第二采样数据列表中包括三行采样数据,即、和/>,则此/>、/>和/>构成异源采样数据识别窗口。需要对有效数据采样状态码默认值进行再次确认。如果第二采样数据列表中最后两行采样数据的采样时间间隔大于600秒,即/>大于600秒,采样状态码数值相同且不等于有效数据采样状态码默认值,则将此时采样数据的采样状态码数值设定为新的有效数据采样状态码默认值,并将采样状态码重新连续等同首行采样状态码计数器KBZS清零。
S1023,根据采样状态码变化规律,对异源采样数据识别窗口中的异源采样数据进行压缩处理。
示例性的,首先,根据采样状态码变化规律,确定异源采样数据识别窗口中的异源采样数据是异源采样数据有效值还是异源采样数据冗余值。例如,将采样状态码变化规律与异源采样数据识别窗口中的异源采样数据的采样状态码进行比对,若异源采样数据识别窗口中的异源采样数据的采样状态码的变化规律符合采样状态码变化规律,则确定异源采样数据识别窗口中的异源采样数据是异源采样数据有效值。若异源采样数据识别窗口中的异源采样数据的采样状态码的变化规律不符合采样状态码变化规律,则确定异源采样数据识别窗口中的异源采样数据是异源采样数据冗余值。
另外,在中间采样数据列表中采样数据的行数计数器I与剔除冗余信息行数计数器J的值不相等时,进行同源采样数据识别和异源采样数据冗余值识别,不进行异源采样数据有效值识别。当J<I时,需要先直接将中间采样数据列表中采样数据的行数计数器I的值重新赋值给剔除冗余信息行数计数器J,让两计数器值保持相同,再让中间采样数据列表中采样数据的行数计数器I、第二采样数据列表中采样数据的行数计数器K、剔除冗余信息行数计数器J分别加1,然后读取中间采样数据列表的下一行采样数据,赋值给第二采样数据列表最新新增采样数据。
其次,保留异源采样数据识别窗口中的异源采样数据有效值,并删除异源采样数据识别窗口中的异源采样数据冗余值。
针对异源采样数据识别窗口中的异源采样数据有效值,将其保留在第二采样数据列表,同时,还需要进行如下操作:
先根据删除异源采样数据冗余值的个数,将第二采样数据列表中采样数据的行数计数器K、剔除冗余信息行数计数器J需要减少与采样数据冗余值的个数相同的数字;再根据删除异源采样数据冗余值后采样状态码数值是否出现变化,确定后续处理方式。
如果删除异源采样数据冗余值后采样状态码数值无变化,则采样状态码有效段落计数器KV和第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL保持不变,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL加1,且赋值给当前采样状态码连续不变段落数组BZDL。如果删除异源采样数据冗余值后采样状态码数值有变化,则采样状态码有效段落计数器KV减1,第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL值重新赋值给第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL,同时赋值给当前采样状态码连续不变段落数组BZDL,并在前一采样状态码连续不变段落数组BZDL存在的情况下,将该第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL。
针对异源采样数据识别窗口中的异源采样数据冗余值,将其从第二采样数据列表中删除。同时还进行如下操作:
先识别跳变的采样状态码数值是否重新与有效数据采样状态码默认值相等,且与前后采样状态码数值均不相等,再识别采样状态码数值是否从保持不变的数值跳变到新的数值,然后继续识别采样状态码数值跳变到新的数值后是否保持不变,最后根据识别结果,确定后续处理方式。
当异源采样数据识别窗口中某采样数据跳变的采样状态码数值满足重新与有效数据采样状态码默认值相等,且与前后采样状态码数值均不相等时,需要采样状态码有效段落计数器KV加1;第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL与第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL均赋值为1;第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL值赋值给采样状态码连续不变段落数组BZDL;用第二采样数据列表中最新新增采样数据更新采样状态码连续不变起始时间数组TBZS,采样状态码连续不变结束时间数组TBZE、采样状态码连续不变累计时间数组TBZL;采样状态码前后出现变化标记BZCB赋值为1。
当异源采样数据识别窗口中某采样数据跳变的采样状态码数值满足从保持不变的数值跳变到新的数值时,需要采样状态码有效段落计数器KV加1;第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL需要先赋值给第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL,再重新开始计数;BZOL值赋值给前一采样状态码连续不变段落数组BZDL;重新计数的第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL则赋值给当前采样状态码连续不变段落数组BZDL;用第二采样数据列表中最新新增采样数据更新采样状态码连续不变起始时间数组TBZS,采样状态码连续不变结束时间数组TBZE、采样状态码连续不变累计时间数组TBZL,采样状态码前后出现变化标记BZCB赋值为1。
当异源采样数据识别窗口中某采样数据跳变的采样状态码数值满足跳变到新的数值后保持不变时,需要第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL加1,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL值赋值给采样状态码连续不变段落数组BZDL,用第二采样数据列表中最新新增采样数据更新采样状态码连续不变结束时间数组TBZE与采样状态码连续不变累计时间数组TBZL,采样状态码前后出现变化标记BZCB赋值为0。
最后,对异源采样数据识别窗口中的相邻同幅采样数据进行压缩处理。
示例性的,相邻同幅采样数据连续是三个或三个以上的采样时间递次增加、采样幅值完全相同的采样数据。将异源采样数据识别窗口中的相邻同幅采样数据进行压缩处理,使采样幅值的跳变规律在时域继续保持特征化。
S1024,继续读取中间采样数据列表中的采样数据,并将读取的采样数据赋值至第二采样数据列表以更新第二采样数据列表,返回执行S1022,直至中间采样数据列表中的所有采样数据均赋值至第二采样数据列表,得到新压缩采样数据列表。
基于上述实施例,继续读取中间采样数据列表中的第四行采样数据,将第四行采样数据作为当前采样数据,赋值给第二采样数据列表的最新采样数据,如此,第二采样数据列表中包括四行采样数据,实现对第二采样数据列表的更新。
首次返回S1022时,第二采样数据列表中包括四行采样数据,分别为、、/>和/>,则/>、/>、/>和/>构成异源采样数据识别窗口,实现异源采样数据识别窗口的更新。基于新的异源采样数据识别窗口执行S1023。
若还未读取完中间采样数据列表中的所有采样数据,则继续读取中间采样数据列表中的第五行采样数据,将第五行采样数据作为当前采样数据,赋值给第二采样数据列表的最新采样数据,如此,第二采样数据列表中包括五行采样数据,实现对第二采样数据列表的更新。
第二次返回S1022时,第二采样数据列表中包括五行采样数据,分别为、、/>、/>和/>,则/>、/>、/>、和/>构成异源采样数据识别窗口,实现异源采样数据识别窗口的更新。基于新的异源采样数据识别窗口执行S1023。
若中间采样数据列表中的采样数据的行数大于5,即还未读取完中间采样数据列表中的所有采样数据,继续读取中间采样数据列表中的采样数据,将读取的采样数据作为当前采样数据,赋值给第二采样数据列表的最新采样数据。
至少返回三次S1022后,第二采样数据列表中采样数据的行数大于5,则将第二采样数据列表中的最后五行采样数据作为异源采样数据识别窗口,实现异源采样数据识别窗口的滑动。例如,第二采样数据列表中的最近采样数据为,且k为大于5的整数,则异源采样数据识别窗口包括/>、/>、/>、和/>。
如此,在第二采样数据列表中采样数据的总行数大于等于5时,选取连续5行采样数据作为固定长度的异源采样数据识别窗口,是为了在已经特征化的无损压缩数据中,用尽可能少的采样数据准确辨识采样状态码反复跳变的规律。因为针对特征化的无损压缩数据中,采样幅值、采样状态码最多只能出现连续2点两两均相同的情况,用5个连续采样数据就可以刻画出至少2次跳变,从而识别出采样幅值与采样状态码是否同时跳变回到上一次跳变之前的值,即是否出现来回跳变。
当读取中间采样数据列表中的最后一行采样数据时,得到的更新后的第二采样数据列表即为新压缩采样数据列表,如此,新压缩采样数据列表中采样数据的行数小于中间采样数据列表中采样数据的行数。例如,基于如图3中a部分所示的实施例,得到的新压缩采样数据列表的采样数据的行数为380768,如图3中b部分所示,图3中b部分所示为本发明实施例提供的一种新压缩采样数据列表的示意图。且为了进一步减少无用的数据信息,新压缩采样数据列表中可以不再输出采样状态码。
图4为本发明实施例提供的一种异源采样数据压缩前后的波形对比示意图,图5为本发明实施例提供的另一种异源采样数据压缩前后的波形对比示意图,图6为本发明实施例提供的又一种异源采样数据压缩前后的波形对比示意图,若采样状态码数值实际变化为160902次,有效变化为906次,可以得到异源采样数据压缩前后采样数据预处理结果的效果如图4至图6所示。
在一些实施例中,可以以采样相对时间的方式输出文件扩展名为“.XTXT”的新压缩采样数据列表,此文本文件只保留采样相对时间,方便后续数据预处理。此外,还可以以采样相对时间和采样绝对时间的方式输出文件扩展名为“.JTXT”的新压缩采样数据列表,此文本文件保留采样相对时间和采样绝对时间,方便后续数据比对分析。
S103,对新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
示例性的,数据清洗可以分为粗清洗和精细清洗,针对新压缩采样数据列表中的采样数据,可以对其先进行粗清洗,再进行精细清洗,可以提升采样数据的清洗效果。
作为执行S103时的一种可能的实现方式的具体描述,如下:
S1031,根据预设采样幅值、预设采样间隔和预设最小量化值,对新压缩采样数据列表中的采样数据进行初次清洗,得到粗清洗数据列表。
示例性的,读取多个新压缩采样数据列表的文本文件名,读取多个新压缩采样数据列表各种对应的参数数据的设计门限,可以理解为读取预设采样幅值,读取多个新压缩采样数据列表中各采样数据的预设采样间隔和预设最小量化值、多个新压缩采样数据列表可能对应多个参数,从各参数的历史数据或相关文献资料中获得各参数采样幅值跳变规律。
针对各新压缩采样数据列表,用子程序调用方式,逐一读取该参数数据去冗压缩结果,在满足采样数据存在的前提下,分别连续选取3、4、5、6、7、8、9个采样数据,设定采样数据异常值检验窗口,用窗口中采样数据的采样时间差、采样幅值差及对应参数数据的设计门限、预设采样间隔和预设最小量化值,构建异常值粗清洗逻辑判断准则,对该参数数据进行粗清洗,即删除粗大离群值,压缩高频量化噪声,压缩相邻同幅采样数据,输出粗清洗数据列表。
需要说明的是,粗大离群值是采样幅值超出预设采样幅值,且孤立出现的采样数据。高频量化噪声在此可以理解为两端采样时间间隔小于10倍初始采样数据正常采样间隔,采样幅值相同,中间所有采样幅值两两之间的变化量均小于1.5倍最小量化值,且呈现反复上下跳变的采样数据。
S1032,根据粗清洗数据列表中的采样数据的类型和采样幅值跳变规律,对粗清洗数据列表中的采样数据进行二次清洗,得到目标采样数据列表。
在粗清洗数据列表的基础上,分别连续选取3、4、5、6、7、8、9个采样数据,设定新的采样数据异常值检验窗口,按参数种类设定不同模块,依据该参数数据的预设采样间隔、预设最小量化值及预设采样幅值跳变规律,结合窗口中采样数据的采样时间差、采样幅值差,构建异常值精清洗逻辑判断准则,对参数数据进行精细清洗,即删除不同参数数据中的异常值,有针对性地压缩混合噪声,继续压缩相邻同幅采样数据。
需要说明的是,混合噪声可以理解为两端采样时间间隔小于100倍初始数据正常采样间隔,采样幅值相同,中间所有采样幅值变化不符合该参数正常跳变规律,且与两端采样幅值差的绝对值都恒定小于1.5倍预设最小量化值的采样数据。
例如,新压缩采样数据列表中读入380768行采样数据,如图3中b部分所示,通过粗清洗得到的粗清洗数据列表中采样数据为246034行,如图3中c部分所示,图3中c部分所示为本发明实施例提供的一种粗清洗数据列表。再经过精细清洗,得到的目标采样数据列表中采样数据为216184行,如图3中d部分所示,图3中d部分所示为本发明实施例提供的一种目标采样数据列表。
本发明实施例中,通过对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表,能够实现采样数据的无损压缩;根据采样状态码变化规律对中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表,能够剔除毛刺状异源采样数据,即剔除异源采样数据冗余值,实现采样数据的有损压缩;对新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表,能够对剔除同源和异源采样数据冗余值的采样数据进行数据清洗,从而能够实现采样数据的高保真清洗,如此,既可以降低同源和异源采样数据对数据清洗的影响,也可以进一步提升后续数据预处理的有效性和准确性。
在一些实施例中,在执行S1023之前还包括:
S201,根据异源采样数据识别窗口中各采样数据的采样状态码,确定采样状态码变化规律。
示例性的,在确保采样数据存在的前提下,计算异源采样数据识别窗口内所有采样数据任意两两之间的采样时间差的绝对值、采样幅值差的绝对值和采样状态码数值差的绝对值。例如,异源采样数据识别窗口包括、/>、、/>和/>,任意两两之间的采样时间差的绝对值如下:/>、/>、/>、/>、、/>、/>、/>、、/>;采样幅值差的绝对值如下:/>、、/>、/>、/>、、/>、/>、/>、;采样状态码数值差的绝对值如下:/>、、/>、/>、/>、、/>、/>、/>、。
计算第二采样数据列表中最近新增采样数据的采样状态码数值与第二采样数据列表中首行采样数据的采样状态码数值之差BZISJ=。
计算第二采样数据列表中最后4个采样数据的采样状态码数值分别与有效数据采样状态码默认值之差,即分别计算第二采样数据列表最新新增采样数据的状态码数值与有效数据采样状态码默认值之差BZICJ=+BZMR,倒数第二行采样数据的状态码数值与有效数据采样状态码默认值之差BZ1CJ=/>+BZMR,倒数第三行采样数据的状态码数值与有效数据采样状态码默认值之差BZ2CJ=/>+BZMR,倒数第四行采样数据的状态码数值与有效数据采样状态码默认值之差BZ3CJ=/>+BZMR。
有效数据采样状态码默认值BZMR=,中间采样数据列表中首行采样数据的采样状态码数值BZSZ=/>,采样状态码前后出现变化标记BZCB=0,中间采样数据列表中采样数据的行数计数器I=3,第二采样数据列表中采样数据的行数计数器K=3,剔除冗余信息行数计数器J=3,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL=2,采样状态码有效段落计数器KV=1,第二采样数据列表中新增采样数据之前与新增采样数据的采样状态码不同的有效采样数据对应的采样状态码连续不变个数计数器BZOL=0,采样状态码实际变化次数计数器KS=0,采样状态码重新连续等同首行采样状态码计数器KBZS=0。采样状态码连续不变起始时间数组TBZS(KV)=/>,采样状态码连续不变结束时间数组TBZE(KV)=/>,采样状态码连续不变段落数组BZDL(KV)=2,采样状态码连续不变累计时间数组TBZL=/>。
基于上述实施例中的DCK1、DCK2、DCK3、DCK4、DC12、DC13、DC14、DC23、DC24、DC34、TCK1、TCK2、TCK3、TCK4、TC12、TC13、TC14、TC23、TC24、TC34、BCK1、BCK2、BCK3、BCK4、BC12、BC13、BC14、BC23、BC24、BC34、BZISJ、BZICJ、BZ1CJ、BZ2CJ、BZ3CJ、BZMR、BZSZ、BZCB、I=3,J=3,K=3、BZNL=2,KV=1,BZOL=0,KS=0,KBZS=0。设定TBZS(KV)=,TBZE(KV)=/>,BZDL(KV)=2和TBZL=/>共同构建采样状态码变化规律。
S202,根据采样状态码变化规律,识别异源采样数据识别窗口中的异源采样数据。
示例性的,根据采样状态码变化规律,识别异源采样数据识别窗口中的异源采样数据和同源采样数据。若异源采样数据识别窗口中采样数据的采样状态码均完全相同,则确定这些采样数据为同源采样数据;若异源采样数据识别窗口中采样数据的采样状态码发生改变,则确定这些采样数据为异源采样数据。
针对异源采样数据识别窗口内的同源采样数据,若这些采样数据的采样幅值不同,则进一步认定这些数据为同源采样数据有效值,需要先保留这些采样数据,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL加1,采样状态码实际变化次数计数器KS,采样状态码有效段落计数器KV则保持不变,采样状态码前后出现变化标记BZCB保持为0,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL值赋值给状态码连续不变段落数组BZDL,用第二采样数据列表中最新新增采样数据更新采样状态码连续不变结束时间数组TBZE与采样状态码连续不变累计时间数组TBZL;再让中间采样数据列表中采样数据的行数计数器I、第二采样数据列表中采样数据的行数计数器K、剔除冗余信息行数计数器J分别加1,继续读取中间采样数据列表下一行采样数据,赋值给第二采样数据列表最新新增采样数据。
针对异源采样数据识别窗口内的同源采样数据,若这些采样数据的采样幅值出现连续3个相同的情况,则需要先删除同源采样数据冗余值,将第二采样数据列表中采样数据的行数计数器K、剔除冗余信息行数计数器J、采样状态码连续不变个数计数器BZNL减少与冗余值个数相同的数字,采样状态码实际变化次数计数器KS,采样状态码有效段落计数器KV则保持不变,采样状态码前后出现变化标记BZCB依旧保持为0,第二采样数据列表中新增采样数据的采样状态码连续不变个数计数器BZNL值赋值给采样状态码连续不变段落数组BZDL,用第二采样数据列表中最新新增采样数据更新采样状态码连续不变结束时间数组TBZE与采样状态码连续不变累计时间数组TBZL,再直接返回第二采样数据列表。
在使用采样状态码变化规律,识别完异源采样数据识别窗口内采样数据是否存在异源采样数据后,需要对有效数据采样状态码默认值进行再次确认。如果第二采样数据列表中新采样状态码数值与首行采样数据的采样状态码数值相同,但与有效数据采样状态码默认值不同,且采样幅值之间存在:,采样数据的采样时间之间存在:/>,则采样状态码重新连续等同首行采样状态码计数器KBZS加1。此时,暂时不认为有效数据采样状态码默认值已发生改变,但需要为有效数据采样状态码默认值发生改变积累判断依据。
如果第二采样数据列表最新的一段采样数据中,出现以下两种情况,则认为有效数据采样状态码默认值发生了改变。此时,将采样数据的采样状态码数值设定为新的有效数据采样状态码默认值,并将采样状态码重新连续等同首行采样状态码计数器KBZS清0。这两种情况分别是:第二采样数据列表中最新的采样状态码连续不变个数大于20,第二采样数据列表中最新的采样状态码数值与有效数据采样状态码默认值不相同,且采样状态码数值连续不变累计时间大于600秒且小于6000秒;第二采样数据列表中最新的采样状态码数值与第二采样数据列表首行采样数据的采样状态码数值相同,且最新采样状态码连续不变个数大于5。
图7为本发明实施例提供的一种数据预处理方法的具体应用框架示意图,如图7所示,包括:
S101’,单参数同源数据去重压缩。
S102’,单参数异源数据自识别与去冗压缩。
S103’,多参数多源数据分类洁化。
其中,作为S102’的一种可能的实现方式的具体描述如图8所示:
S1021’,逐行读入数据去重压缩结果,比较前两行采样数据状态码数值,删除状态码数值不同于第二个采样点的首个采样点,生成中间采样数据列表。
S1022’,从中间采样数据列表中逐行读取采样数据赋值给第二采样数据列表最新新增采样点。
S1023’,设定异源数据逻辑判断准则需要的初值。
S1024’,在采样点存在,且采样点总个数小于等于4的前提下,从第二采样数据列表中选取所有采样数据,设定异源数据识别窗口。
S1025’,以异源数据识别窗口内各采样点的各类数据及预先设定的初值为依托,获取各类计算结果,再用这些计算结果建立异源数据逻辑判断准则。
S1026’,用异源数据逻辑判断准则识别同源数据有效值、同源数据冗余值和异源数据有效值、异源数据冗余值。
S1027’,保留同源数据和异源数据有效值,删除同源数据和异源数据冗余值,更新异源数据逻辑判断准则需要的各类初值、计算器值、数组值。
S1028’,压缩相邻同幅采样点并输出数据去冗压缩结果。
S1029’,在采样点存在,且采样点总个数大于等于5的前提下,从第二采样数据列表的最新新增采样点开始,向前连续选取5个采样点,设定窗口长度固定且随新增采样点向后滑动的异源数据识别窗口。
S10210’,以窗口内各采样点的各类数据值及更新后的初值、计算器值、数组值为依托,获取新的计算结果,并建立新的异源数据逻辑判断准则。
S10211’,用新的异源数据逻辑判断准则继续识别同源数据、异源数据的有效值和冗余值、保留有效值,删除冗余值,压缩相邻同幅采样点,直至读取完中间采样数据列表中所有数据,且第二采样数据列表中不再有异源数据冗余值和相邻同幅采样点。
S10212’,输出数据洁化压缩结果,即新压缩采样数据列表。
示例性的,上述实施例中的采样数据可以为卫星部分参数某年采样数据。例如,可以是高轨卫星蓄电池组充电容量、放电深度、充电电流、放电电流、单体电压、电池压力、电池温度、开关状态和低轨卫星蓄电池组电压、姿轨控系统姿态角中至少一种。其中,若参数为高轨卫星蓄电池组充电容量、放电深度、充电电流、放电电流、单体电压、电池压力、电池温度和开关状态时,采样阶段各阶段处理数据量对比如表1。若参数为低轨卫星蓄电池组电压、姿轨控系统姿态角时,采样阶段各阶段处理数据量对比如表2。
表1 某高轨卫星蓄电池部分参数某年采样阶段各阶段处理数据量对比表
表2 某低轨卫星部分参数某年采样阶段各阶段处理数据量对比表
从表1和表2中可以看到有些数据在去重压缩过程中压缩比率大、有些数据在去冗压缩数据过程中压缩比率大、还有些数据在洁化压缩过程中压缩比率大,所有数据经过去重、去冗、洁化三步处理后,大致可以实现少则约10倍,多则约500倍的压缩比。表1中开关状态属于状态量参数,其压缩比可以高达3000多倍。
图9~图11为表1中部分参数数据预处理前后的参数曲线示意图。其中,若参数为放电深度,放电深度对应的中间采样数据列表、新压缩采样数据列表和目标采样数据列表的曲线图如图9所示。若参数为单体电压,单体电压对应的中间采样数据列表、新压缩采样数据列表和目标采样数据列表的曲线图如图10所示。若参数为电池温度,电池温度对应的中间采样数据列表、新压缩采样数据列表和目标采样数据列表的曲线图如图11所示。
上述本发明实施例提供的技术方案具有如下优点:
1、不需要查看设备、通道使用的时间窗口与工作状态,可以直接从采样数据状态码数值中获取所有异源数据出现与结束的时刻。
2、不需要比对卫星多遥测参数的变化,可以仅从卫星单遥测参数采样数据状态码数值就识别出所有因异源数据切换引起的毛刺状冗余值,从而保留异源数据有效值,删除异源数据冗余值。
3、可以排除卫星下行遥测参数数据中异源数据冗余值的干扰,实现对采样数据大比例压缩、高保真清洗的目标。
4、可以为快速绘制卫星各遥测参数数据的全时域形态曲线,自动辨识卫星下行遥测参数数据在任意时段的有效采样数据,准确获取卫星各遥测参数数据在时域变化的形态特征提供帮助。
5、可以用于准确辨识卫星多参数异源数据的干扰时段,提取实际有效的采样数据,为进一步分析判定卫星各遥测参数数据使用的有效采样源、深度挖掘卫星各参数数据中隐藏的特征信息提供支撑。
基于同样的发明构思,本发明实施例还提供了一种数据预处理装置,用于实现上述任一方法实施例。图12为本发明实施例提供的一种数据预处理装置的结构示意图,如图12所示,数据预处理装置包括:压缩模块110和数据清洗模块120。
其中,压缩模块110,用于对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;
压缩模块110,用于根据采样状态码变化规律,对中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;
数据清洗模块120,用于对新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
在一些实施例中,压缩模块110进一步用于根据原始采样数据列表中各采样数据的采样状态码、采样时间和采样幅值,确定原始采样数据列表中的重复采样数据;剔除原始采样数据列表中的重复采样数据,得到第一采样数据列表;根据第一采样数据列表中各采样数据的采样状态码和采样幅值,确定第一采样数据列表中的相邻同幅同码采样数据;压缩第一采样数据列表中的相邻同幅同码采样数据,得到中间采样数据列表。
在一些实施例中,压缩模块110进一步用于读取中间采样数据列表中的采样数据,生成第二采样数据列表,其中,第二采样数据列表中前两行采样数据的采样状态码相同;从第二采样数据列表中确定异源采样数据识别窗口;根据采样状态码变化规律,对异源采样数据识别窗口中的异源采样数据进行压缩处理;继续读取中间采样数据列表中的采样数据,并将读取的采样数据赋值至第二采样数据列表以更新第二采样数据列表,返回执行从第二采样数据列表中确定异源采样数据识别窗口,直至中间采样数据列表中的所有采样数据均赋值至第二采样数据列表,得到新压缩采样数据列表。
在一些实施例中,压缩模块110进一步用于若第二采样数据列表中的采样数据的行数大于或等于3且小于或等于5,确定异源采样数据识别窗口为第二采样数据列表中的所有采样数据;若第二采样数据列表中的采样数据的行数大于5,确定异源采样数据识别窗口为第二采样数据列表中的最后五行采样数据。
在一些实施例中,压缩模块110还用于根据异源采样数据识别窗口中各采样数据的采样状态码,确定采样状态码变化规律;根据采样状态码变化规律,识别异源采样数据识别窗口中的异源采样数据。
在一些实施例中,压缩模块110进一步用于根据采样状态码变化规律,确定异源采样数据中的异源采样数据有效值和异源采样数据冗余值;保留异源采样数据识别窗口中的异源采样数据有效值,并删除异源采样数据识别窗口中的异源采样数据冗余值;对异源采样数据识别窗口中的相邻同幅采样数据进行压缩处理。
在一些实施例中,数据清洗模块120进一步用于根据预设采样幅值、预设采样间隔和预设最小量化值,对新压缩采样数据列表中的采样数据进行初次清洗,得到粗清洗数据列表;根据粗清洗数据列表中的采样数据的类型和采样幅值跳变规律,对粗清洗数据列表中的采样数据进行二次清洗,得到目标采样数据列表。
本发明实施例提供的数据预处理装置可以执行上述任一方法实施例的步骤,具备方法实施例具有的有益效果和功能模块,这里不再赘述。
本发明实施例还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一方法实施例的步骤。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任一方法实施例的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric RandomAccess Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本申请描述的“包含”不排除存在未列在上述实施例中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中,这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序,可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
上述仅为本发明的较佳实施例及所运用的技术原理。本发明不限于这里的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例。
Claims (10)
1.一种数据预处理方法,其特征在于,包括:
对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;
根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;
对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
2.根据权利要求1所述的方法,其特征在于,所述对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表包括:
根据所述原始采样数据列表中各采样数据的采样状态码、采样时间和采样幅值,确定所述原始采样数据列表中的重复采样数据;
剔除所述原始采样数据列表中的重复采样数据,得到第一采样数据列表;
根据所述第一采样数据列表中各采样数据的采样状态码和采样幅值,确定所述第一采样数据列表中的相邻同幅同码采样数据;
压缩所述第一采样数据列表中的相邻同幅同码采样数据,得到所述中间采样数据列表。
3.根据权利要求1所述的方法,其特征在于,所述根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表包括:
读取所述中间采样数据列表中的采样数据,生成第二采样数据列表,其中,所述第二采样数据列表中前两行采样数据的采样状态码相同;
从所述第二采样数据列表中确定异源采样数据识别窗口;
根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理;
继续读取所述中间采样数据列表中的采样数据,并将读取的所述采样数据赋值至所述第二采样数据列表以更新所述第二采样数据列表,返回执行从所述第二采样数据列表中确定异源采样数据识别窗口,直至所述中间采样数据列表中的所有采样数据均赋值至所述第二采样数据列表,得到所述新压缩采样数据列表。
4.根据权利要求3所述的方法,其特征在于,所述从所述第二采样数据列表中确定异源采样数据识别窗口包括:
若所述第二采样数据列表中的采样数据的行数大于或等于3且小于或等于5,确定所述异源采样数据识别窗口为所述第二采样数据列表中的所有采样数据;
若所述第二采样数据列表中的采样数据的行数大于5,确定所述异源采样数据识别窗口为所述第二采样数据列表中的最后五行采样数据。
5.根据权利要求3所述的方法,其特征在于,所述根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理之前,还包括:
根据所述异源采样数据识别窗口中各采样数据的采样状态码,确定所述采样状态码变化规律;
根据所述采样状态码变化规律,识别所述异源采样数据识别窗口中的异源采样数据。
6.根据权利要求3所述的方法,其特征在于,所述根据所述采样状态码变化规律,对所述异源采样数据识别窗口中的异源采样数据进行压缩处理包括:
根据所述采样状态码变化规律,确定所述异源采样数据中的异源采样数据有效值和异源采样数据冗余值;
保留所述异源采样数据识别窗口中的异源采样数据有效值,并删除所述异源采样数据识别窗口中的异源采样数据冗余值;
对所述异源采样数据识别窗口中的相邻同幅采样数据进行压缩处理。
7.根据权利要求1所述的方法,其特征在于,所述对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表包括:
根据预设采样幅值、预设采样间隔和预设最小量化值,对所述新压缩采样数据列表中的采样数据进行初次清洗,得到粗清洗数据列表;
根据所述粗清洗数据列表中的采样数据的类型和采样幅值跳变规律,对所述粗清洗数据列表中的采样数据进行二次清洗,得到所述目标采样数据列表。
8.一种数据预处理装置,其特征在于,包括:
压缩模块,用于对原始采样数据列表中的同源采样数据进行压缩处理,得到中间采样数据列表;
所述压缩模块,用于根据采样状态码变化规律,对所述中间采样数据列表中的异源采样数据进行压缩处理,得到新压缩采样数据列表;
数据清洗模块,用于对所述新压缩采样数据列表中的采样数据进行数据清洗,得到目标采样数据列表。
9.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311594139.9A CN117290671B (zh) | 2023-11-27 | 2023-11-27 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311594139.9A CN117290671B (zh) | 2023-11-27 | 2023-11-27 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117290671A true CN117290671A (zh) | 2023-12-26 |
CN117290671B CN117290671B (zh) | 2024-02-09 |
Family
ID=89239454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311594139.9A Active CN117290671B (zh) | 2023-11-27 | 2023-11-27 | 一种数据预处理方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290671B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377666A (zh) * | 2019-07-26 | 2019-10-25 | 浪潮软件股份有限公司 | 基于cmsp消息中间件进行异源数据库间数据同步的方法 |
CN112464248A (zh) * | 2020-12-04 | 2021-03-09 | 中国科学院信息工程研究所 | 一种处理器漏洞利用威胁检测方法及装置 |
CN112667633A (zh) * | 2020-12-28 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种基于统计概率的数据压缩方法及系统 |
CN113630212A (zh) * | 2021-08-05 | 2021-11-09 | 深圳市思码逻辑技术有限公司 | 一种数字信号的降采样方法及降采样装置 |
US11556510B1 (en) * | 2022-02-18 | 2023-01-17 | Kpmg Llp | System and method for enriching and normalizing data |
CN115811457A (zh) * | 2022-12-01 | 2023-03-17 | 上海叠念信息科技有限公司 | 多源数据融合的一体化数据采集方法 |
CN115861595A (zh) * | 2022-11-18 | 2023-03-28 | 华中科技大学 | 一种基于深度学习的多尺度域自适应异源图像匹配方法 |
CN116470919A (zh) * | 2023-03-31 | 2023-07-21 | 深圳市善行医疗科技有限公司 | 数据压缩方法、装置、电子设备及存储介质 |
CN116521621A (zh) * | 2023-05-09 | 2023-08-01 | 北京有竹居网络技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN116775632A (zh) * | 2023-06-25 | 2023-09-19 | 陕西天行健车联网信息技术有限公司 | 一种基于车载终端采集数据的近实时清洗数据执行方法 |
CN116821208A (zh) * | 2023-03-03 | 2023-09-29 | 珠海漫漫科技有限公司 | 多源异构渔业资源数据处理方法、装置、电子设备及介质 |
-
2023
- 2023-11-27 CN CN202311594139.9A patent/CN117290671B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377666A (zh) * | 2019-07-26 | 2019-10-25 | 浪潮软件股份有限公司 | 基于cmsp消息中间件进行异源数据库间数据同步的方法 |
CN112464248A (zh) * | 2020-12-04 | 2021-03-09 | 中国科学院信息工程研究所 | 一种处理器漏洞利用威胁检测方法及装置 |
CN112667633A (zh) * | 2020-12-28 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种基于统计概率的数据压缩方法及系统 |
CN113630212A (zh) * | 2021-08-05 | 2021-11-09 | 深圳市思码逻辑技术有限公司 | 一种数字信号的降采样方法及降采样装置 |
US11556510B1 (en) * | 2022-02-18 | 2023-01-17 | Kpmg Llp | System and method for enriching and normalizing data |
CN115861595A (zh) * | 2022-11-18 | 2023-03-28 | 华中科技大学 | 一种基于深度学习的多尺度域自适应异源图像匹配方法 |
CN115811457A (zh) * | 2022-12-01 | 2023-03-17 | 上海叠念信息科技有限公司 | 多源数据融合的一体化数据采集方法 |
CN116821208A (zh) * | 2023-03-03 | 2023-09-29 | 珠海漫漫科技有限公司 | 多源异构渔业资源数据处理方法、装置、电子设备及介质 |
CN116470919A (zh) * | 2023-03-31 | 2023-07-21 | 深圳市善行医疗科技有限公司 | 数据压缩方法、装置、电子设备及存储介质 |
CN116521621A (zh) * | 2023-05-09 | 2023-08-01 | 北京有竹居网络技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN116775632A (zh) * | 2023-06-25 | 2023-09-19 | 陕西天行健车联网信息技术有限公司 | 一种基于车载终端采集数据的近实时清洗数据执行方法 |
Non-Patent Citations (3)
Title |
---|
FENGWEI ZOU: "Research on data cleaning in big data environment", 《3CBIT》, pages 145 - 148 * |
潘巍 等: "一种有效的多数据源RFID冗余数据清洗技术", 《西北工业大学学报》, vol. 29, no. 3, pages 435 - 442 * |
王健 等: "RFID数据清洗技术研究进展", 《计算机科学与探索》, vol. 16, no. 12, pages 2678 - 2694 * |
Also Published As
Publication number | Publication date |
---|---|
CN117290671B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180336256A1 (en) | Template based data reduction for security related information flow data | |
EP3289484B1 (en) | Method and database computer system for performing a database query using a bitmap index | |
US10452676B2 (en) | Managing database with counting bloom filters | |
CN111967509A (zh) | 一种对工业设备采集的数据进行处理和检测的方法及装置 | |
US20190095461A1 (en) | Columnar database compression | |
US8225060B2 (en) | Data de-duplication by predicting the locations of sub-blocks within the repository | |
CN108549078B (zh) | 一种雷达脉冲信号跨信道合并及检测方法 | |
CN112162860A (zh) | 基于if-emd-lstm的cpu负载趋势预测方法 | |
CN114665884B (zh) | 时序数据库自适应有损压缩方法、系统及介质 | |
CN110263291B (zh) | 一种工业数据趋势识别方法和系统 | |
CN117290671B (zh) | 一种数据预处理方法、装置、电子设备和计算机存储介质 | |
CN104077272A (zh) | 一种字典压缩的方法和装置 | |
CN113778964A (zh) | 用于储存多个暂存档案的记录装置及暂存档案的管理方法 | |
CN110084455B (zh) | 一种数据处理方法、装置及系统 | |
CN113922823B (zh) | 基于约束稀疏表征的社交媒体信息传播图数据压缩方法 | |
CN115660957A (zh) | 一种波形数据的重采样方法、装置、设备及介质 | |
CN115662523A (zh) | 面向群体基因组索引表示与构建的方法及设备 | |
CN114817645A (zh) | 时序数据的存储及读取方法、装置、设备及存储介质 | |
AU2013376200B2 (en) | Data compression device, data compression method, and program | |
CN111046012B (zh) | 巡检日志的抽取方法、装置、存储介质和电子设备 | |
KR101594346B1 (ko) | 빈발 패턴 마이닝 방법 및 이를 저장하는 기록매체 | |
US10762263B1 (en) | Searching for values of a bus in digital waveform data | |
WO2011021347A1 (ja) | ビット列データソート装置、ソート方法及びプログラム | |
CN117312350B (zh) | 钢铁行业碳排放数据管理方法及装置 | |
EP4235453A1 (en) | Method for creating an index for reporting large-scale variant clusterings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |