CN117785818A - 一种气相色谱仪数据优化存储方法及系统 - Google Patents
一种气相色谱仪数据优化存储方法及系统 Download PDFInfo
- Publication number
- CN117785818A CN117785818A CN202410208698.XA CN202410208698A CN117785818A CN 117785818 A CN117785818 A CN 117785818A CN 202410208698 A CN202410208698 A CN 202410208698A CN 117785818 A CN117785818 A CN 117785818A
- Authority
- CN
- China
- Prior art keywords
- data
- data segment
- value
- baseline
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006835 compression Effects 0.000 claims abstract description 113
- 238000007906 compression Methods 0.000 claims abstract description 113
- 238000004817 gas chromatography Methods 0.000 claims abstract description 85
- 238000011208 chromatographic data Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- UXFQFBNBSPQBJW-UHFFFAOYSA-N 2-amino-2-methylpropane-1,3-diol Chemical compound OCC(N)(C)CO UXFQFBNBSPQBJW-UHFFFAOYSA-N 0.000 claims description 4
- 101150035093 AMPD gene Proteins 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Landscapes
- Treatment Of Liquids With Adsorbents In General (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种气相色谱仪数据优化存储方法及系统,包括:采集样品的气相色谱数据;获取气相色谱数据的数据段;根据数据段中的电压值和时间得到若干峰值数据段和若干基线数据段;获取每个基线数据段的压缩权重;根据基线数据段的压缩权重和基线数据段中的电压值,获取气相色谱数据的若干最终基线数据段;根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储。本发明借助游程编码将非峰值基线数据进行有损压缩存储,将代表样品成分特征的峰值数据无损压缩存储以节省存储空间。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种气相色谱仪数据优化存储方法及系统。
背景技术
气相色谱仪是一种用于分离和分析混合物中各种成分的仪器。它通过将样品中的化合物分离成不同的组分,然后通过检测器来识别和量化这些组分。色谱图上的每个峰表示样品中的不同成分,其中峰的形状可以提供有关样品中可能存在的化合物的信息。
目前对于气相色谱仪的数据进行存储时一般会按照原始数据值大小进行顺序无损存储,但气相色谱仪中存在一些非峰值基线数据,它们对样品的成分分析影响不大,在无损存储时却占用较多的数据空间,且存储效率较慢。
发明内容
为解决上述问题,本发明提供一种气相色谱仪数据优化存储方法及系统。
本发明的一种气相色谱仪数据优化存储方法及系统采用如下技术方案:
本发明一个实施例提供了一种气相色谱仪数据优化存储方法,该方法包括以下步骤:
采集样品的气相色谱数据,所述气相色谱数据包含若干电压值,每个电压值对应一个时间;
根据气相色谱数据得到气相色谱数据的若干数据段;根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性;依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段;
根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重;根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围;
根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度;依据损失程度得到气相色谱数据的若干最终基线数据段;根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储。
进一步地,所述根据气相色谱数据得到气相色谱数据的若干数据段,包括的具体步骤如下:
根据残差计算方法获取气相色谱数据的残差,将气相色谱数据的残差中每个残差值取绝对值,将所有残差值的绝对值按照顺序进行排列,得到一个序列,记为残差绝对值序列;
将残差绝对值序列输入到AMPD算法中,输出得到残差绝对值序列的若干峰值;将残差绝对值序列中所有值按照顺序进行排列,得到一个行矩阵,记为第一矩阵,将残差绝对值序列的相邻峰值在第一矩阵中对应的元素区间,记为第一元素区间,将每个第一元素区间的中间元素及每个峰值对应的元素作为种子点;以生长步长为1,根据种子点和生长步长对第一矩阵进行区域生长,得到第一矩阵中的若干区域,每个区域对应残差绝对值序列中一个序列段,将每个序列段在气相色谱数据对应的数据区间,作为气相色谱数据的数据段。
进一步地,所述根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性,包括的具体步骤如下:
将气相色谱数据的任意一个数据段,记为目标数据段;
将目标数据段中所有电压值与目标数据段中所有电压值的平均值的差值绝对值的平均值,记为第一平均值,将目标数据段中电压值的最大值减去目标数据段中电压值的最小值的结果,记为第一差值;将目标数据段的终止时刻减去目标数据段的起始时刻的结果,记为第二差值;将第一差值与第二差值的比值,记为第一比值,将第一平均值与第一比值的乘积结果记为目标数据段作为峰值数据段的可能因子;
获取每个数据段作为峰值数据段的可能因子,将所有可能因子进行线性归一化处理,得到的结果作为每个数据段作为峰值数据段的可能性。
进一步地,所述依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段,包括的具体步骤如下:
预设一个第一阈值,将数据段作为峰值数据段的可能性大于或等于第一阈值的数据段,作为峰值数据段;将数据段作为峰值数据段的可能性小于第一阈值的数据段,作为基线数据段。
进一步地,所述根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;
将目标基线数据段作为峰值数据段的可能性减去所有基线数据段中数据段作为峰值数据段的可能性的最小值的结果,记为第三差值;将所有基线数据段中数据段作为峰值数据段的可能性的最大值减去所有基线数据段中基线数据段作为峰值数据段的可能性的最小值的结果,记为第四差值;将第三差值与第四差值的比值,记为第二比值;将目标基线数据段中所有电压值的标准差与目标基线数据段中所有电压值的平均值的比值,记为第三比值,将第三比值输入到以自然常数为底的指数函数中,输出的结果,记为第四比值;根据第二比值与第四比值的乘积,得到目标基线数据段的压缩权重。
进一步地,所述根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;
将目标基线数据段中电压值的最小值,记为,将目标基线数据段中电压值的最大值,记为/>,将/>作为目标基线数据段的初始压缩值取值范围;将/>与/>的乘积并向下取整的结果,记为/>,/>为预设一个第一数值,/>为目标基线数据段的压缩权重;将/>与/>的乘积并向下取整的结果,记为/>,将/>构成的范围,作为目标基线数据段的最终压缩值取值范围。
进一步地,所述根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;将目标基线数据段的最终压缩值取值范围,记为第一取值范围;
将第一取值范围中第个数值与第一取值范围中每个数值的差值绝对值累加求和,得到的结果,作为第一取值范围中第/>个数值的损失程度。
进一步地,所述依据损失程度得到气相色谱数据的若干最终基线数据段,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;将目标基线数据段的最终压缩值取值范围,记为第一取值范围;
获取第一取值范围中每个数值的损失程度,将损失程度的最小值对应的数值,记为目标基线数据段的最优压缩值,将目标基线数据段中每个电压值替换为目标基线数据段的最优压缩值,得到的结果,作为气相色谱数据的一个最终基线数据段。
进一步地,所述根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储,包括的具体步骤如下:
获取气相色谱数据的所有最终基线数据段和所有峰值数据段,将最终基线数据段和峰值数据段按照在气相色谱数据中的顺序进行游程编码压缩,得到气相色谱数据的压缩数据,将气相色谱数据的压缩数据进行存储。
本发明还提出了一种气相色谱仪数据优化存储系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现前述所述方法的步骤。
本发明的技术方案的有益效果是:本发明在采集到样品的气相色谱数据后,通过获取气相色谱数据的若干数据段,后续通过对数据段进行分析可以更好的判断峰值数据段和基线数据段,进而提高对气相色谱数据的压缩效率,通过数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性,进而依据可能性得到气相色谱数据的若干峰值数据段和若干基线数据段,而后针对基线数据段进行分析,通过分析基线数据段中的电压值波动特征以及数据损失情况得到气相色谱数据的若干最终基线数据段,最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储,改进了对气相色谱仪数据进行纯无损存储时由于其中的非峰值基线数据对样品成分分析意义不大却占用大量冗余存储空间的问题,提高对气相色谱数据的压缩效率和节省存储空间,优化气相色谱仪数据的存储。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种气相色谱仪数据优化存储方法的步骤流程图;
图2为本发明一个实施例所提供的一种气相色谱仪数据优化存储方法的气相色谱数据的示例图;
图3为本发明一个实施例所提供的气相色谱数据编码压缩流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种气相色谱仪数据优化存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种气相色谱仪数据优化存储方法及系统的具体方案。
请参阅图1及图3,其示出了本发明一个实施例提供的一种气相色谱仪数据优化存储方法的步骤流程图和气相色谱数据编码压缩流程图,该方法包括以下步骤:
步骤S001、采集样品的气相色谱数据。
需要说明的是,本实施例的目的是对气相色谱仪中非峰值基线数据进行有损压缩存储,对代表样品成分特征的峰值数据进行无损存储,从而优化了纯无损存储时非峰值基线数据占用大量冗余存储空间的问题,达到了不影响数据特征的同时节省存储空间的目的。
具体的,通过气相色谱仪采集某样品的气相色谱数据;需要说明的是,通过气相色谱仪获取某样品的气相色谱数据为现有方法,本实施例不再赘述;请参阅图2,图2为本实施例的气相色谱数据的示例图,图2中包含峰值数据和非峰值基线数据,气相色谱数据的横轴为时间,纵轴为电压。
需要说明的是,气相色谱数据上的峰表示样品中所包含的不同成分,峰的高度或面积直接反映了相应成分在样品中的相对浓度。基线是峰的下方非峰值数据,其存在较为平缓的波动。目前基于气相色谱数据一般对峰值数据进行分析,基线数据通常代表背景信号或仪器本身的噪音一般不进行分析,因此为了节省压缩空间本实施例对峰值数据段根据原始值采用无损存储从而不损失样品的组成成分特征,对于非峰值的基线数据段得到最优的压缩值进行替换从而借助游程编码进行有损压缩,最终达到节省存储空间的目的。
至此,得到样品的气相色谱数据。
步骤S002、根据气相色谱数据得到气相色谱数据的若干数据段;根据数据段中的电压值和时间得到若干峰值数据段和若干基线数据段。
需要说明的是,对于气相色谱数据,为了对非峰值基线数据进行有损压缩,首先需要筛选出属于非峰值基线数据的数据段,本实施例根据数据的波动相似性进行划分,由于数据残差代表了某一数据与平均水平的差异,因此可以通过数据的残差值来衡量波动程度,然后通过区域生长将波动程度相似的数据划分为一段,通过每个数据段的波动程度进行筛选,得到属于非峰值基线数据的数据段。后续压缩时对非峰值基线数据的数据段进行有损压缩,由于本实施例采用对数据段的数据通过同一压缩值替换后,借助游程编码进行有损压缩的方法,因此需要分析数据段的数据分布得到对应压缩值的取值范围,然后计算对应的数据损失情况,根据数据损失情况确定数据段的最优压缩值,进而进行有损压缩。
需要说明的是,为了获取气相色谱数据中需要进行有损压缩的非峰值基线数据,首先要将数据曲线划分为多个波动程度相似的数据段,然后基于每个数据段进行分析,通过峰值数据与非峰值数据的波动差异程度进行筛选,得到属于非峰值基线数据的数据段进行后续分析。
具体的,根据气相色谱数据得到气相色谱数据的若干数据段,具体如下:
根据现有残差计算方法获取气相色谱数据的残差,将气相色谱数据的残差中每个残差值取绝对值,将所有残差值的绝对值按照顺序进行排列,得到一个序列,记为残差绝对值序列;需要说明的是,根据现有残差计算方法获取气相色谱数据的残差为公知技术,本实施例不再赘述。
将残差绝对值序列输入到AMPD算法中,输出得到残差绝对值序列的若干峰值;需要说明的是,将残差绝对值序列输入到AMPD算法中,输出得到残差绝对值序列的若干峰值为现有方法,本实施例不再赘述;将残差绝对值序列中所有值按照顺序进行排列,得到一个行矩阵,记为第一矩阵,将残差绝对值序列的相邻峰值在第一矩阵中对应的元素区间,记为第一元素区间,将每个第一元素区间的中间元素及每个峰值对应的元素作为种子点;需要说明的是,若第一元素区间中元素值的个数为偶数,则选取第一元素区间中间两个元素值中左侧的元素为种子点;以生长步长为1,根据种子点和生长步长对第一矩阵进行区域生长,得到第一矩阵中的若干区域,每个区域对应残差绝对值序列中一个序列段,将每个序列段在气相色谱数据对应的数据区间,作为气相色谱数据的数据段;需要说明的是,根据种子点和生长步长对残差绝对值序列进行区域生长,得到若干序列段为现有方法,本实施例不再赘述。
需要说明的是,通过上述选取种子点的位置可以使得种子点的投放兼顾数据的波动特征,那么进行区域生长后矩阵中每个生长区域的数据即为一个数据段。
需要说明的是,在完成数据段的划分后,需要从所有数据段中筛选出非峰值基线数据段。由于气相色谱数据中峰值数据代表了样品的某个组成成分,而基线数据代表了背景信号及噪声,那么峰值数据的波动程度相对于基线部分的波动程度更加明显,且波动持续时间较短,因此可以根据此特征进行筛选。
具体的,根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性,具体如下:
将气相色谱数据的任意一个数据段,记为目标数据段。
式中,为目标数据段中第/>个电压值,/>为目标数据段中所有电压值的平均值,/>为取绝对值,/>为目标数据段中电压值的个数,/>为目标数据段中电压值的最大值,为目标数据段中电压值的最小值;/>为目标数据段的终止时刻,即目标数据段的最后一个时间;/>为目标数据段的起始时刻,即目标数据段的第一个时间;/>为目标数据段作为峰值数据段的可能因子。
获取每个数据段作为峰值数据段的可能因子,将所有可能因子进行线性归一化处理,得到的结果作为每个数据段作为峰值数据段的可能性;需要说明的是,若数据段只有一个电压值,不进行峰值数据段的可能性分析。
需要说明的是,代表了数据段中电压值的平均偏差,由于峰值数据所代表的数据段的波动程度相对于非峰值数据段大,因此其中电压值的差异会更大,即的值越大说明对应数据段的波动程度越大,那么对应数据段越有可能为峰值数据段;/>表示数据段中电压值的极差,由于峰值数据段的数据波动明显,那么极差的大小就可以衡量这个波动明显的程度,若/>越大则对应数据段的波动程度越大越明显,因此对应数据段越有可能为峰值数据段;/>表示数据段的持续时间,在样品的气相色谱数据中,由于各种组成成分的沸点有差异且蒸发过程较为迅速,因此一般情况下峰值数据所持续时间相对于基线数据的持续时间更短,因此/>的值越小则说明对应数据段的持续时间越短,因此越有可能为峰值数据段;最后将这些特征融合并归一化处理,得到每个数据段作为峰值数据段的可能性。
进一步地,依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段,具体如下:
预设一个第一阈值,本实施例以第一阈值为0.85进行叙述,将数据段作为峰值数据段的可能性大于或等于第一阈值的数据段,作为峰值数据段;将数据段作为峰值数据段的可能性小于第一阈值的数据段,作为基线数据段(非峰值基线数据段)。
至此,得到若干峰值数据段和若干基线数据段。
步骤S003、根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重;根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围。
需要说明的是,在得到基线数据段后,由于本实施例对于非峰值的基线数据进行有损压缩,即对基线数据段确定最优的压缩值去替代每个电压值,然后借助游程编码进行压缩存储。因此本步骤确定最优的压缩值。首先根据基线数据段的数据波动情况得到对应的压缩值取值范围,然后根据压缩值取值范围中的每个值计算对应的数据损失情况,根据数据损失情况的大小确定最优的压缩值。
需要说明的是,首先对于任意的基线数据段确定压缩值的取值范围。若直接将基线数据段的取值范围作为压缩值的取值范围,那么在进行后续计算数据损失情况时会产生较大的计算量,在此通过对基线数据段的整体数据的取值范围通过计算权重进行加权缩减的方式得到压缩值的取值范围。由于每个基线数据段的波动程度不同,对应的压缩值取值也不同,为了得到最优的压缩值,那么对应的压缩值取值范围也不同。同时基线数据段的波动程度越大,那么对应的压缩值取值范围也越大,对应的权重也越大,反之权重越小。因此可以结合步骤S002中的可能性即基于基线数据段的波动情况确定压缩值的权重。
具体的,根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重,具体如下:
将任意一个基线数据段,记为目标基线数据段。
式中,为目标基线数据段作为峰值数据段的可能性,/>为所有基线数据段中数据段作为峰值数据段的可能性的最小值,/>为所有基线数据段中数据段作为峰值数据段的可能性的最大值;/>为预设的一个超参数,目的是防止分母为0,本实施例以进行叙述;/>为目标基线数据段中所有电压值的标准差,/>为目标基线数据段中所有电压值的平均值,/>为以自然常数为底的指数函数;/>为/>函数,用于归一化;/>为目标基线数据段的压缩权重,用于对基线数据段的压缩值取值范围进行调整。
需要说明的是,目标基线数据段作为峰值数据段的可能性,其反映基线数据段内电压值的波动情况,因此通过/>表示目标基线数据段的相对波动程度,若此相对波动程度越大则表示目标基线数据段相对于其他基线数据段的波动程度越大,则目标基线数据段的压缩值取值范围的权重越大,即目标基线数据段的压缩权重越大;/>表示目标基线数据段中电压值的变异系数,其值越大说明目标基线数据段中电压值偏离平均水平的程度越大,代表了电压值更加波动,因此对应的目标基线数据段的压缩值取值范围的权重越大,即目标基线数据段的压缩权重越大,然后使用指数函数/>进行映射以拉伸差距;最后通过/>函数将计算结果归一化,得到基线数据段的压缩权重。
需要说明的是,上述针对基线数据段进行分析得到了每个基线数据段的压缩权重,然后基于这个压缩权重对基线数据段的压缩值取值范围进行加权缩减得到最终的压缩值取值范围。
具体的,根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围,具体如下:
将目标基线数据段中电压值的最小值,记为,将目标基线数据段中电压值的最大值,记为/>,将/>作为目标基线数据段的初始压缩值取值范围;将/>与/>的乘积并向下取整的结果,记为/>,/>为预设一个第一数值,本实施例以/>进行叙述,/>为目标基线数据段的压缩权重;将/>与/>的乘积并向下取整的结果,记为/>,将/>构成的范围,作为目标基线数据段的最终压缩值取值范围。
至此,得到每个基线数据段的最终压缩值取值范围。
步骤S004、根据最终压缩值取值范围中的数值,得到气相色谱数据的若干最终基线数据段;根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储。
需要说明的是,上述针对每个基线数据段进行分析得到每个基线数据段的最终压缩值取值范围,而后需要从这个取值范围中选取一个最优的数值对整个基线数据段的电压值进行替换,进而借助游程编码进行压缩,由于对电压值进行替换,因此对基线数据段的压缩为有损压缩。对于最终压缩值取值范围中最优的数值,最优就一定要使得整体的数据损失情况达到最小,因此本步骤对最终压缩值取值范围内任意的值计算对应的数据损失情况从而选取损失最小的值作为最优的数值。
具体的,根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度,具体如下:
将目标基线数据段的最终压缩值取值范围,记为第一取值范围。
式中,为第一取值范围中第/>个数值,/>为第一取值范围中第/>个数值,/>为第一取值范围中数值的个数;需要说明的是,本实施例的第一取值范围中相邻数值的最小差异为1,即第一取值范围中第/>个数值与第一取值范围中第/>个数值的差值绝对值等于1;/>为第一取值范围中第/>个数值的损失程度。
需要说明的是,通过最终压缩值取值范围中每个数值与其他数值的差异情况来反映每个数值替换基线数据段中电压值的损失程度,数值的损失程度越大则表示用数值替换基线数据段中电压值时与基线数据段中本来的电压值产生的误差越大,那么此数值越不可能成为最优的数值。
进一步地,依据损失程度得到气相色谱数据的若干最终基线数据段,具体如下:
获取第一取值范围中每个数值的损失程度,将损失程度的最小值对应的数值,记为目标基线数据段的最优压缩值,将目标基线数据段中每个电压值替换为目标基线数据段的最优压缩值,得到的结果,作为气相色谱数据的一个最终基线数据段;
进一步地,根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储,具体如下:
获取气相色谱数据的所有最终基线数据段和所有峰值数据段,将最终基线数据段和峰值数据段按照在气相色谱数据中的顺序进行游程编码压缩,得到气相色谱数据的压缩数据,将气相色谱数据的压缩数据进行存储。
至此,通过对气相色谱数据的最终基线数据段和峰值数据段进行编码压缩及存储,完成气相色谱仪数据的优化存储。
本发明的另一个实施例提供了一种气相色谱仪数据优化存储系统,所述系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序时,执行以下操作:
采集样品的气相色谱数据,所述气相色谱数据包含若干电压值,每个电压值对应一个时间;根据气相色谱数据得到气相色谱数据的若干数据段;根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性;依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段;根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重;根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围;根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度;依据损失程度得到气相色谱数据的若干最终基线数据段;根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种气相色谱仪数据优化存储方法,其特征在于,该方法包括以下步骤:
采集样品的气相色谱数据,所述气相色谱数据包含若干电压值,每个电压值对应一个时间;
根据气相色谱数据得到气相色谱数据的若干数据段;根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性;依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段;
根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重;根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围;
根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度;依据损失程度得到气相色谱数据的若干最终基线数据段;根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储。
2.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据气相色谱数据得到气相色谱数据的若干数据段,包括的具体步骤如下:
根据残差计算方法获取气相色谱数据的残差,将气相色谱数据的残差中每个残差值取绝对值,将所有残差值的绝对值按照顺序进行排列,得到一个序列,记为残差绝对值序列;
将残差绝对值序列输入到AMPD算法中,输出得到残差绝对值序列的若干峰值;将残差绝对值序列中所有值按照顺序进行排列,得到一个行矩阵,记为第一矩阵,将残差绝对值序列的相邻峰值在第一矩阵中对应的元素区间,记为第一元素区间,将每个第一元素区间的中间元素及每个峰值对应的元素作为种子点;以生长步长为1,根据种子点和生长步长对第一矩阵进行区域生长,得到第一矩阵中的若干区域,每个区域对应残差绝对值序列中一个序列段,将每个序列段在气相色谱数据对应的数据区间,作为气相色谱数据的数据段。
3.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据数据段中的电压值和时间得到每个数据段作为峰值数据段的可能性,包括的具体步骤如下:
将气相色谱数据的任意一个数据段,记为目标数据段;
将目标数据段中所有电压值与目标数据段中所有电压值的平均值的差值绝对值的平均值,记为第一平均值,将目标数据段中电压值的最大值减去目标数据段中电压值的最小值的结果,记为第一差值;将目标数据段的终止时刻减去目标数据段的起始时刻的结果,记为第二差值;将第一差值与第二差值的比值,记为第一比值,将第一平均值与第一比值的乘积结果记为目标数据段作为峰值数据段的可能因子;
获取每个数据段作为峰值数据段的可能因子,将所有可能因子进行线性归一化处理,得到的结果作为每个数据段作为峰值数据段的可能性。
4.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述依据数据段作为峰值数据段的可能性得到若干峰值数据段和若干基线数据段,包括的具体步骤如下:
预设一个第一阈值,将数据段作为峰值数据段的可能性大于或等于第一阈值的数据段,作为峰值数据段;将数据段作为峰值数据段的可能性小于第一阈值的数据段,作为基线数据段。
5.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据基线数据段中的电压值和数据段作为峰值数据段的可能性,得到每个基线数据段的压缩权重,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;
将目标基线数据段作为峰值数据段的可能性减去所有基线数据段中数据段作为峰值数据段的可能性的最小值的结果,记为第三差值;将所有基线数据段中数据段作为峰值数据段的可能性的最大值减去所有基线数据段中基线数据段作为峰值数据段的可能性的最小值的结果,记为第四差值;将第三差值与第四差值的比值,记为第二比值;将目标基线数据段中所有电压值的标准差与目标基线数据段中所有电压值的平均值的比值,记为第三比值,将第三比值输入到以自然常数为底的指数函数中,输出的结果,记为第四比值;根据第二比值与第四比值的乘积,得到目标基线数据段的压缩权重。
6.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据基线数据段的压缩权重和基线数据段中的电压值,得到每个基线数据段的最终压缩值取值范围,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;
将目标基线数据段中电压值的最小值,记为,将目标基线数据段中电压值的最大值,记为/>,将/>作为目标基线数据段的初始压缩值取值范围;将/>与/>的乘积并向下取整的结果,记为/>,/>为预设一个第一数值,/>为目标基线数据段的压缩权重;将/>与/>的乘积并向下取整的结果,记为/>,将/>构成的范围,作为目标基线数据段的最终压缩值取值范围。
7.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据最终压缩值取值范围中的数值,得到每个基线数据段的最终压缩值取值范围中每个数值的损失程度,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;将目标基线数据段的最终压缩值取值范围,记为第一取值范围;
将第一取值范围中第个数值与第一取值范围中每个数值的差值绝对值累加求和,得到的结果,作为第一取值范围中第/>个数值的损失程度。
8.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述依据损失程度得到气相色谱数据的若干最终基线数据段,包括的具体步骤如下:
将任意一个基线数据段,记为目标基线数据段;将目标基线数据段的最终压缩值取值范围,记为第一取值范围;
获取第一取值范围中每个数值的损失程度,将损失程度的最小值对应的数值,记为目标基线数据段的最优压缩值,将目标基线数据段中每个电压值替换为目标基线数据段的最优压缩值,得到的结果,作为气相色谱数据的一个最终基线数据段。
9.根据权利要求1所述一种气相色谱仪数据优化存储方法,其特征在于,所述根据最终基线数据段、峰值数据段及气相色谱数据对气相色谱数据进行编码压缩及存储,包括的具体步骤如下:
获取气相色谱数据的所有最终基线数据段和所有峰值数据段,将最终基线数据段和峰值数据段按照在气相色谱数据中的顺序进行游程编码压缩,得到气相色谱数据的压缩数据,将气相色谱数据的压缩数据进行存储。
10.一种气相色谱仪数据优化存储系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述一种气相色谱仪数据优化存储方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410208698.XA CN117785818B (zh) | 2024-02-26 | 2024-02-26 | 一种气相色谱仪数据优化存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410208698.XA CN117785818B (zh) | 2024-02-26 | 2024-02-26 | 一种气相色谱仪数据优化存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117785818A true CN117785818A (zh) | 2024-03-29 |
CN117785818B CN117785818B (zh) | 2024-05-10 |
Family
ID=90396744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410208698.XA Active CN117785818B (zh) | 2024-02-26 | 2024-02-26 | 一种气相色谱仪数据优化存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117785818B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243206A1 (en) * | 2007-03-26 | 2008-10-02 | Corndorf Eric D | Differential entropy based data compression for waveforms |
US20110246144A1 (en) * | 2010-04-02 | 2011-10-06 | Yugen Kaisha Suwa Torasuto | Time Series Data Analyzer, And A Computer-Readable Recording Medium Recording A Time Series Data Analysis Program |
CN107589182A (zh) * | 2016-07-07 | 2018-01-16 | 阿尔法莫斯公司 | 气相体色谱仪 |
US20190011408A1 (en) * | 2016-01-06 | 2019-01-10 | Shimadzu Corporation | Chromatogram data processing method and device |
CN111337606A (zh) * | 2020-03-19 | 2020-06-26 | 南通乐尔环保科技有限公司 | 一种应用于色谱分析的重叠峰处理办法及装置 |
US10873791B1 (en) * | 2019-07-29 | 2020-12-22 | Kcf Technologies, Inc. | Compression method for resource constrained local area networks |
CN115410090A (zh) * | 2022-07-21 | 2022-11-29 | 桂林电子科技大学 | 基于图像分割的空间外差光谱仪图像压缩感知重构方法 |
US20230041067A1 (en) * | 2019-12-23 | 2023-02-09 | Ariel Scientific Innovations Ltd. | Systems and methods of data compression |
CN115944303A (zh) * | 2023-01-05 | 2023-04-11 | 常熟理工学院 | 心电脉搏信号在线压缩方法、系统及存储介质 |
CN116242954A (zh) * | 2023-05-06 | 2023-06-09 | 精智未来(广州)智能科技有限公司 | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 |
WO2023130661A1 (zh) * | 2022-01-07 | 2023-07-13 | 乐普(北京)医疗器械股份有限公司 | 一种二维频谱多普勒超声心动图像的处理方法和装置 |
CN116503673A (zh) * | 2023-06-26 | 2023-07-28 | 亿慧云智能科技(深圳)股份有限公司 | 一种基于心电图的心律失常识别检测方法及系统 |
CN117040542A (zh) * | 2023-10-08 | 2023-11-10 | 广东佰林电气设备厂有限公司 | 一种智能综合配电箱能耗数据处理方法 |
CN117235557A (zh) * | 2023-11-14 | 2023-12-15 | 山东贺铭电气有限公司 | 基于大数据分析的电气设备故障快速诊断方法 |
CN117375630A (zh) * | 2023-12-07 | 2024-01-09 | 国网山东省电力公司莱芜供电公司 | 一种针对带电作业预警系统的监控数据压缩方法 |
-
2024
- 2024-02-26 CN CN202410208698.XA patent/CN117785818B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243206A1 (en) * | 2007-03-26 | 2008-10-02 | Corndorf Eric D | Differential entropy based data compression for waveforms |
US20110246144A1 (en) * | 2010-04-02 | 2011-10-06 | Yugen Kaisha Suwa Torasuto | Time Series Data Analyzer, And A Computer-Readable Recording Medium Recording A Time Series Data Analysis Program |
US20190011408A1 (en) * | 2016-01-06 | 2019-01-10 | Shimadzu Corporation | Chromatogram data processing method and device |
CN107589182A (zh) * | 2016-07-07 | 2018-01-16 | 阿尔法莫斯公司 | 气相体色谱仪 |
US10873791B1 (en) * | 2019-07-29 | 2020-12-22 | Kcf Technologies, Inc. | Compression method for resource constrained local area networks |
US20230041067A1 (en) * | 2019-12-23 | 2023-02-09 | Ariel Scientific Innovations Ltd. | Systems and methods of data compression |
CN111337606A (zh) * | 2020-03-19 | 2020-06-26 | 南通乐尔环保科技有限公司 | 一种应用于色谱分析的重叠峰处理办法及装置 |
WO2023130661A1 (zh) * | 2022-01-07 | 2023-07-13 | 乐普(北京)医疗器械股份有限公司 | 一种二维频谱多普勒超声心动图像的处理方法和装置 |
CN115410090A (zh) * | 2022-07-21 | 2022-11-29 | 桂林电子科技大学 | 基于图像分割的空间外差光谱仪图像压缩感知重构方法 |
CN115944303A (zh) * | 2023-01-05 | 2023-04-11 | 常熟理工学院 | 心电脉搏信号在线压缩方法、系统及存储介质 |
CN116242954A (zh) * | 2023-05-06 | 2023-06-09 | 精智未来(广州)智能科技有限公司 | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 |
CN116503673A (zh) * | 2023-06-26 | 2023-07-28 | 亿慧云智能科技(深圳)股份有限公司 | 一种基于心电图的心律失常识别检测方法及系统 |
CN117040542A (zh) * | 2023-10-08 | 2023-11-10 | 广东佰林电气设备厂有限公司 | 一种智能综合配电箱能耗数据处理方法 |
CN117235557A (zh) * | 2023-11-14 | 2023-12-15 | 山东贺铭电气有限公司 | 基于大数据分析的电气设备故障快速诊断方法 |
CN117375630A (zh) * | 2023-12-07 | 2024-01-09 | 国网山东省电力公司莱芜供电公司 | 一种针对带电作业预警系统的监控数据压缩方法 |
Non-Patent Citations (5)
Title |
---|
S.K. MUKHOPADHYAY 等: "An ECG data compression method via R-Peak detection and ASCII Character Encoding", IEEE, 2 May 2011 (2011-05-02), pages 136 - 141 * |
李刚, 刘蓉, 林凌: "一种基于复合编码的心电数据压缩算法", 中国生物医学工程学报, no. 06, 30 December 2002 (2002-12-30), pages 557 - 562 * |
王悦;蒋慧敏;汪洋;: "基于自适应字典学习的动态磁共振并行重建", 计算机应用与软件, no. 04, 12 April 2020 (2020-04-12), pages 203 - 207 * |
王瑞;张维戈;张言茹;吕亚军;: "基于动力电池海量数据的特性化压缩处理研究", 电测与仪表, no. 01, 25 November 2019 (2019-11-25), pages 99 - 105 * |
许冲冲;罗勋华;郭上华;辛锋;王志勇;杨志祥;: "基于时间序列压缩动态时间弯曲距离故障区段定位", 电测与仪表, no. 10, 10 December 2018 (2018-12-10), pages 127 - 133 * |
Also Published As
Publication number | Publication date |
---|---|
CN117785818B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038457B (zh) | 一种基于主分量信噪比的遥测数据压缩批处理方法 | |
CN116760908B (zh) | 基于数字孪生的农业信息优化管理方法及系统 | |
CN117131035B (zh) | 一种化工染料生产数据智能储存方法及系统 | |
CN116935384B (zh) | 一种细胞异常样本智能化检测方法 | |
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
CN116308963B (zh) | 一种政务数据分析方法及系统 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN117785818B (zh) | 一种气相色谱仪数据优化存储方法及系统 | |
JPWO2019229998A1 (ja) | 機器分析用データ処理方法及び装置 | |
CN117542488B (zh) | 一种用于脑肿瘤ct数据的智能处理方法 | |
CN117290364A (zh) | 一种市场调查数据智能存储方法 | |
CN117476247B (zh) | 一种疾病多模态数据智能分析方法 | |
US5682464A (en) | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values | |
CN117498735A (zh) | 一种步进电机动态平稳驱动方法及系统 | |
CN116934487A (zh) | 一种金融清算数据优化存储方法及系统 | |
CN115964347B (zh) | 一种市场监管监测中心数据的智能存储方法 | |
CN110830044B (zh) | 基于稀疏最小二乘优化的数据压缩方法 | |
CN114900190A (zh) | 一种多目标融合的差动保护数据压缩方法 | |
CN113076309A (zh) | 烟草生丝水分加水量预测系统及方法 | |
CN112801367A (zh) | 基于计及罕见变量的ARMret模型的故障预测方法 | |
CN116974258B (zh) | 基于多维数据的生产过程监测方法 | |
CN117804639B (zh) | 一种胶装机温控传感器的温度校准方法及系统 | |
CN117312255B (zh) | 一种电子文档拆分优化管理方法及系统 | |
CN116504314B (zh) | 基于细胞动态分化的基因调控网络构建方法 | |
CN117155402B (zh) | 基于rpa技术的公卫健康智能体检服务系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |