CN116242954A - 一种呼气分子分析气相色谱数据的自动化分析方法与系统 - Google Patents
一种呼气分子分析气相色谱数据的自动化分析方法与系统 Download PDFInfo
- Publication number
- CN116242954A CN116242954A CN202310499089.XA CN202310499089A CN116242954A CN 116242954 A CN116242954 A CN 116242954A CN 202310499089 A CN202310499089 A CN 202310499089A CN 116242954 A CN116242954 A CN 116242954A
- Authority
- CN
- China
- Prior art keywords
- peak
- fitting
- data
- point
- chromatogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000004817 gas chromatography Methods 0.000 title claims abstract description 33
- 238000007479 molecular analysis Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000003908 quality control method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000011002 quantification Methods 0.000 claims abstract description 28
- 238000011208 chromatographic data Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000004445 quantitative analysis Methods 0.000 claims 1
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 241000826860 Trapezium Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004587 chromatography analysis Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种呼气分子分析气相色谱数据的自动化分析方法与系统,所述方法包括:导入色谱图;质控处理,对数据集的数据进行预处理,去除谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;峰位置的识别,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位;分峰拟合,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置并输出峰形态信息;峰定量与定性,基于校正峰位置与峰形态信息,计算峰下面积获得对应呼气分子的定量,确定当前峰对应的呼气分子。提高了呼气分子气相色谱分析的精度和可靠性,分析方法具备独特性,并能通过最佳峰拟合结果自动判定采用的分峰拟合函数,实现自动判断最优的拟合方式。
Description
技术领域
本发明涉及呼气分子的分析和检测领域,尤其是一种呼气分子分析气相色谱数据的自动化分析方法与系统。
背景技术
气相色谱是一种分离和检测物质的方法,它利用气相色谱柱将样品中的不同组分分离,然后对不同组分的气相色谱进行数据分析,通过检测器检测每个组分的峰面积等参数,以确定样品中是否存在特定的成分或呼气分子。气相色谱的数据分析通常涉及气相色谱图和色谱峰数据,气相色谱图显示了气相色谱系统中样品在色谱柱中的流动情况和分离情况,气相色谱图通常由多个峰组成,每个峰表示一个特定的呼气分子,色谱峰数据包括每个峰的峰面积、峰高、峰宽、保留时间等信息,通过这些信息可以确定呼气分子的类型、含量和分离效果。
通过气相色谱的数据分析可以确定样品中不同组分的含量和纯度,也可以对色谱仪的运行状态进行评估和调试,但现有的气相色谱的数据分析仍存在一些问题,具体为,气相色谱谱图数据量巨大,通常包含数千个数据点,并且,气相色谱谱图非常复杂,通常包含多个色谱峰,每个色谱峰对应不同的组分,不同组分的移动速度和保留时间不同,因此在谱图中可能出现色谱峰重叠的情况,还可能出现色谱柱老化或损坏,导致色谱峰变形,可见处理数据存在数据量大、谱图解析困难、色谱峰重叠和色谱峰变形等问题,导致气相色谱分析的精度和可靠性不高。
发明内容
有鉴于此,本发明提供了一种呼气分子分析气相色谱数据自动化分析方法,达到提高呼气分子气相色谱分析的精度和可靠性的目的。具体为一种呼气分子分析气相色谱数据的自动化分析方法与系统,所述方法包括:
导入色谱图,获取导入色谱图的数据集;
质控处理,对数据集的数据进行预处理,去除色谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息,并输出峰形态信息;
峰定量与定性,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子。
进一步地,所述质控处理包括基线校准和降噪;
基线校准区分候选峰与噪音,基于谱图漂移右上方向的特性将候选峰的边界点设为锚点,将锚点进行连线,所述连线的组合为基线,根据基线找出候选峰和噪音;
基线校准后降噪,对色谱图进行高斯滤波,去除波动的噪音,完成降噪,输出质控处理后的色谱图。
进一步地,所述基线校准区分候选峰与噪音基于局部极值确定,包括:
对于导入的色谱图曲线上的每个数据点,检查所述每个数据点是否在一定范围中心点周围的局部点中是最大值或最小值,如果该数据点是最大值或最小值,则该数据点被标记为候选峰的顶点;
对于被标记为候选峰的顶点的数据点,检查该数据点是否符合候选峰值过滤选项中指定的约束条件,过滤选项中指定的约束条件设置为围绕当前顶点一定区间的标准差,阈值设置为当前顶点的切线斜率变化率;若候选峰的顶点一定区间标准差小于此阈值,该数据点将被过滤掉;若候选峰的区间标准差大于等于此阈值,该数据点将被保留,则该候选峰的顶点被设为锚点。
进一步地,所述峰位置的识别采用一阶导数法,基于一阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,其中一阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i-1处的一阶导数是正值,而位置i+1处的一阶导数是负值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置 i-1 处的导数是负值,而位置i+1 处的导数是正值。
进一步地,所述峰位置的识别采用二阶导数法,基于二阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,其中二阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i处的二阶导数为局部最小值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置i处的二阶导数为局部最大值。
进一步地,所述分峰拟合的过程采用非线性最小二乘法拟合算法,将一个非线性函数拟合到一个峰上获得拟合峰的拟合函数;针对每个峰,对比多个不同的拟合函数,找到最小拟合误差,确定误差最小的拟合峰,输出拟合后的新的峰位置信息,新的峰位置信息为校正峰位置信息。
进一步地,所述非线性函数为二次函数或多项式函数,所述非线性最小二乘法拟合算法为:
S1设置初始参数,初始参数包括超参数和非线性函数的系数,通过手动设置或者通过自动寻优算法来设置初始参数;
S2遍历数据点,遍历数据集中的所有数据点,对于每个数据点,计算出非线性函数在该点处的切线斜率;
S3确定非线性函数的零点,所述非线性函数的零点为拟合函数在该数据点处的切线与水平直线相交的点,所述零点通过二分法或搜索算法确定;
S4确定非线性函数的截距,所述非线性函数的截距为拟合函数在该数据点处的切线与水平直线的交点,所述截距通过二分法或搜索算法确定;
S5确定非线性函数的系数,根据所述零点和所述截距计算得到非线性函数的系数;
S6更新参数,根据步骤S5确定的系数更新该数据点处非线性函数的参数。
S7重复上述步骤,重复上述步骤S2-S6,直到更新参数后不再对拟合结果产生显著影响,所述显著影响为拟合误差的连续三次变化未超过3%;
S8输出拟合结果,将拟合结果输出,所述拟合结果包括非线性函数的系数、截距和零点。
进一步地,所述峰下面积基于梯形法则计算积分得到RT值,获得该峰对应呼气分子的定性RT。
进一步地,所述呼气分子对照表为系统自带或用户提供,将该峰对应呼气分子的定性RT与呼气分子对照表中呼气分子的RT区间比较,
若当前峰的RT仅被一个呼气分子区间包含,即当前峰的RT仅被呼气分子的RT区间包含,则此峰为呼气分子;
若当前峰的RT被两个呼气分子区间包含,即当前峰被呼气分子之间的RT区间包含,则计算当前峰的峰起点至终点区间与呼气分子之间的RT区间重合度,重合度高的呼气分子则判定为当前峰所对应的呼气分子;
若当前峰的RT被两个以上呼气分子区间包含,判定方法与当前峰被两个呼气分子区间包含相同。
还涉及一种基于上述的呼气分子分析气相色谱数据自动化分析方法的系统,所述系统包括:
色谱图导入模块,导入色谱图,获取导入色谱图的数据集;
质控处理模块,对数据集的数据进行预处理,去除谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别模块,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合模块,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息;
峰定量与定性模块,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子。
与现有技术相比,本发明的有益效果是:
1.本发明对色谱图的数据集先通过质控处理,对数据进行预处理和清洗,以去除噪声和去除不必要的数据点,质控处理后的色谱图进行解析,以确定每个色谱峰的组分和含量;进行分峰拟合,对色谱峰进行分离和解析,避免了由于色谱峰重叠和色谱峰变形带来的数据可靠性降低,能够准确辨别色谱峰重叠的情况,并对变形的色谱峰进行修正或重新分析,提高气相色谱分析的精度和可靠性。
2.本发明所提出的分析方法,包含的质控处理、峰位置的识别、分峰拟合以及峰定量与定性步骤,构成最佳实践流程;在分峰拟合模块,拟合函数类型可以由用户设置,也可以不由用户设置而是由分析系统自动选择,其通过最佳峰拟合结果自动判定采用的拟合函数,实现自动判断最优的拟合方式;并且能够自动判定峰和噪音,做好峰质控,提高信噪比。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明提供的呼气分子气相色谱数据自动化分析方法与系统流程图。
图2示出了本发明提供的呼气分子气相色谱数据自动化分析方法的数据处理流程图,图2中(a)为未处理的色谱图,(b)为质控处理后的色谱图,(c)峰位置的识别后的色谱图,(d)为分峰拟合的结果图,(e)峰面积定量结果图。
图3示出了本发明提供的呼气分子气相色谱数据自动化分析方法的峰位置的识别的一阶导数法和二阶导数法处理示意图。
图4示出了本发明提供的呼气分子气相色谱数据自动化分析方法的一实际分析案例,图4中(a)为未处理的色谱图,(b)为质控处理后的色谱图,(c)峰位置的识别后的色谱图,(d)为分峰拟合的结果图,(e)峰面积定量结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的呼气分子分析气相色谱数据自动化分析方法,参见图1-2,包括如下步骤,
首先,导入色谱图,获取导入色谱图的数据集;
然后对色谱图的数据集进行数据处理,包括质控处理、峰位置的识别、分峰拟合和峰定量与定性,具体如下,
质控处理,对数据集的数据进行预处理,去除色谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息,并输出峰形态信息;
峰定量与定性,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子;
最后,可以根据需要,输出色谱图分析报告。
其中,输出的色谱图分析报告具体包含以下内容:
(1)每个处理模块后谱图示意图展示,展示的谱图示意图为随机或用户挑选的一个样本;
(2)峰位置的识别信息,包含谱图中的峰位置信息展示,峰位置信息包括峰起点、顶点、终点等;
(3)分峰拟合信息,包含分峰拟合后的峰位置与形态信息展示以及拟合的误差定量展示;
(4)峰定性与定量信息,包含峰所属组分、峰面积、半峰宽和峰高等。
关于数据处理中的质控处理,质控处理主要作用是对数据进行精细的预处理,去除谱图存在的大量噪音以及普遍的基线漂移现象,保证后续分析的准确性与正确性,质控处理包括基线校准和降噪;
基线校准区分候选峰与噪音,基于谱图漂移右上方向的特性将候选峰的边界点设为锚点,将锚点进行连线,所述连线的组合为基线,根据基线找出候选峰和噪音;该步骤中所数据尚未质控完善,所以找出的峰仅用于区分候选峰与噪音,关于峰的精准的识别待后文详述。
所述基线校准区分候选峰与噪音基于局部极值确定,具体包括:
对于导入的色谱图曲线上的每个数据点,检查所述每个数据点是否在一定范围中心点周围的局部点中是极值,极值即最大值或最小值,如果该数据点是最大值或最小值,则该数据点被标记为候选峰的顶点;
对于被标记为候选峰的顶点的数据点,检查该数据点是否符合候选峰值过滤选项中指定的约束条件,过滤选项中指定的约束条件设置为围绕当前顶点一定区间的标准差,该一定区间通常为12个采样点,阈值设置为当前顶点的切线斜率变化率;若候选峰的顶点一定区间标准差小于此阈值,该数据点将被过滤掉;若候选峰的区间标准差大于等于此阈值,该数据点将被保留,则该候选峰的顶点被设为锚点。该部分过滤的原理为,在没有峰的地方,区间的标准差是很小的,波动代表了噪音的基础波动;在有峰的地方,会有较大的区间的标准差波动,但需要一个阈值来过滤,阈值设定为当前顶点的二阶导数,即一阶导数的变化率。
基线校准后降噪,对色谱图进行高斯滤波,去除波动的噪音,完成降噪,输出质控处理后的色谱图。
关于数据处理中的峰位置的识别,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息,针对峰的起点、顶点与终点位置信息的识别本发明提供一阶导数法或二阶导数法两种算法,参见图3。
其一,峰位置的识别采用一阶导数法,基于一阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,其中一阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i-1处的一阶导数是正值,而位置i+1处的一阶导数是负值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置 i-1 处的导数是负值,而位置i+1 处的导数是正值。
其二,峰位置的识别采用二阶导数法,基于二阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,该方法可以帮助找到隐藏的重叠峰,其中二阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i处的二阶导数为局部最小值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置i处的二阶导数为局部最大值。
在峰位置的识别时,一阶导数法或二阶导数法两种算法可以单独使用也可以联合使用,最佳方式为一阶导数法和二阶导数法联合使用,一阶导数定位普通峰更精准,二阶导数可以找出隐藏峰,两者联合使用能够进行更准确的分峰拟合。
关于数据处理中的分峰拟合,针对已定位好的峰位置,尤其是存在峰重叠或峰变形的场景下,峰拟合的步骤可以让后续的峰定量更加精准,避免因峰重叠或峰变形问题造成的无法定量或定量差异大的问题。其中,拟合的过程以最佳的峰面积还原程度为优化目标,若有多个重叠峰则以重叠峰总量为准,即计算拟合误差,
拟合误差 =(拟合后面积-原总面积)/ 原总面积*100%,
此拟合误差为越小越好。
所述分峰拟合的过程采用非线性最小二乘法拟合算法,将一个非线性函数拟合到一个峰上获得拟合峰的拟合函数,拟合峰包含对重叠峰和变形峰的拟合;针对每个峰,对比多个不同的拟合函数,找到最小拟合误差,确定误差最小的拟合峰,输出拟合后的新的峰位置信息,新的峰位置信息为校正峰位置信息。分峰拟合的结果,通常非重叠峰变化较小或无变化,但重叠与变形峰会有较大调整,校正后的位置信息用于后续峰定量会更加准确;对于隐藏峰,输出的峰形态信息是计算拟合出的正确的峰形态,以用于后续峰面积的计算,否则计算的面积并不准确。
所述非线性函数为二次函数或多项式函数,所述非线性最小二乘法拟合算法为:
S1设置初始参数,初始参数包括超参数和非线性函数的系数,通过手动设置或者通过自动寻优算法来设置初始参数,自动寻优算法可以为随机梯度下降法;
S2遍历数据点,遍历数据集中的所有数据点,对于每个数据点,计算出非线性函数在该点处的切线斜率,切线斜率即导数;
S3确定非线性函数的零点,所述非线性函数的零点为拟合函数在该数据点处的切线与水平直线相交的点,所述零点通过二分法或搜索算法确定;
S4确定非线性函数的截距,所述非线性函数的截距为拟合函数在该数据点处的切线与水平直线的交点,所述截距通过二分法或搜索算法确定;
S5确定非线性函数的系数,根据所述零点和所述截距计算得到非线性函数的系数;
S6更新参数,根据步骤S5确定的系数更新该数据点处非线性函数的参数。
S7重复上述步骤,重复上述步骤S2-S6,直到更新参数后不再对拟合结果产生显著影响,所述显著影响为拟合误差的连续三次变化未超过3%;
S8输出拟合结果,将拟合结果输出,所述拟合结果包括非线性函数的系数、截距和零点。
拟合的过程会对比多个不同的峰形态拟合函数,包含系统自带的预定义以及用户可自行定义的函数,包含但不限于高斯函数、洛伦兹函数等。不同的函数拟合的参数有所不同,但均可通过已知或可计算的峰信息进行预估,再逐步优化。
例如,高斯函数的函数中心值mu为峰顶点所在的位置,另外sigma值则可以通过半峰宽预估;
例如,洛伦兹函数的函数中心值x_0为峰顶点所在的位置,另外gamma值可通过峰宽预估。
以拟合高斯峰为例,拟合函数为高斯函数,具体步骤如下:
a-峰高;b-峰中心点位置;c-半峰宽;
关于数据处理中的峰定量与定性,其中,呼气分子对照表为系统自带或用户提供,将该峰对应呼气分子的定性RT与呼气分子对照表中呼气分子的RT区间比较,确定该峰所对应的呼气分子;其中,峰定量的峰下面积计算通常基于 Trapezoidal Rule(梯形法)计算积分实现,即将峰起点到峰终点之间的积分区间分为等长的n段(通常与采样率一致),则每段可以通过梯形面积计算求出接近于当前积分段的积分数值。
若当前峰的RT仅被一个呼气分子区间包含,即当前峰的RT仅被呼气分子的RT区间包含,则此峰为呼气分子;
若当前峰的RT被两个呼气分子区间包含,即当前峰被呼气分子之间的RT区间包含,则计算当前峰的峰起点至终点区间与呼气分子之间的RT区间重合度,重合度高的呼气分子则判定为当前峰所对应的呼气分子;
若当前峰的RT被两个以上呼气分子区间包含,判定方法与当前峰被两个呼气分子区间包含相同。
基于上述方法,本发明对色谱图的数据集先通过质控处理,对数据进行预处理和清洗,以去除噪声和去除不必要的数据点,质控处理后的色谱图进行解析,以确定每个色谱峰的组分和含量,并进行分峰拟合,对色谱峰进行分离和解析,避免了由于色谱峰重叠和色谱峰变形带来的数据可靠性降低,能够准确辨别色谱峰重叠的情况,并对变形的色谱峰进行修正或重新分析,提高气相色谱分析的精度和可靠性。本发明所提出的分析方法,包含的质控处理、峰位置的识别、分峰拟合以及峰定量与定性步骤,构成最佳实践流程;在分峰拟合模块,拟合函数类型可以由用户设置,也可以不由用户设置而是由分析系统自动选择,其通过最佳拟合结果自动判定采用的拟合函数,实现自动判断最优的拟合方式。
本发明还包括一种基于上述的呼气分子分析气相色谱数据自动化分析方法的系统,所述系统包括:
色谱图导入模块,导入色谱图,获取导入色谱图的数据集;
质控处理模块,对数据集的数据进行预处理,去除谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别模块,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合模块,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息;
峰定量与定性模块,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子;
报告输出模块,可以根据需要输出谱图分析报告。
图4为一实际分析案例的示图,图4中(a)为未处理的色谱图;(b)为质控处理后的色谱图,实线表示降噪和平滑后的数据;(c)峰位置的识别后的色谱图,实线所在的点为峰的顶点,虚线所在的点为峰的起点或终点;(d)分峰拟合的结果;每条虚线对应拟合出的峰;(e)峰面积定量结果AUC(AUC为Area Under the Curve的缩写)。可见,通过本发明提供的分析方法能够进行高精度和可靠的气相色谱分析。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,所述方法包括:
导入色谱图,获取导入色谱图的数据集;
质控处理,对数据集的数据进行预处理,去除色谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息,并输出峰形态信息;
峰定量与定性,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子。
2.根据权利要求1所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述质控处理包括基线校准和降噪;
基线校准区分候选峰与噪音,基于谱图漂移右上方向的特性将候选峰的边界点设为锚点,将锚点进行连线,所述连线的组合为基线,根据基线找出候选峰和噪音;
基线校准后降噪,对色谱图进行高斯滤波,去除波动的噪音,完成降噪,输出质控处理后的色谱图。
3.根据权利要求2所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述基线校准区分候选峰与噪音基于局部极值确定,包括:
对于导入的色谱图曲线上的每个数据点,检查所述每个数据点是否在一定范围中心点周围的局部点中是最大值或最小值,如果该数据点是最大值或最小值,则该数据点被标记为候选峰的顶点;
对于被标记为候选峰的顶点的数据点,检查该数据点是否符合候选峰值过滤选项中指定的约束条件,过滤选项中指定的约束条件设置为围绕当前顶点一定区间的标准差,阈值设置为当前顶点的切线斜率变化率;若候选峰的顶点一定区间标准差小于此阈值,该数据点将被过滤掉;若候选峰的区间标准差大于等于此阈值,该数据点将被保留,则该候选峰的顶点被设为锚点。
4.根据权利要求1所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述峰位置的识别采用一阶导数法,基于一阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,其中一阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i-1处的一阶导数是正值,而位置i+1处的一阶导数是负值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置 i-1 处的导数是负值,而位置i+1 处的导数是正值。
5.根据权利要求1所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述峰位置的识别采用二阶导数法,基于二阶导数法自动找到序列中一连串交替的峰顶点与峰谷,再通过遍历该序列,拆分出每个独立的峰,并输出每个独立的峰位置信息,其中二阶导数法具体为,
若一个正峰值位于一个位置i,所述正峰值处为峰顶点,则位置i处的二阶导数为局部最小值;
若一个负峰值位于一个位置i,所述负峰值处为峰谷或峰起终点,则位置i处的二阶导数为局部最大值。
6.根据权利要求1所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述分峰拟合的过程采用非线性最小二乘法拟合算法,将一个非线性函数拟合到一个峰上获得拟合峰的拟合函数;针对每个峰,对比多个不同的拟合函数,找到最小拟合误差,确定误差最小的拟合峰,输出拟合后的新的峰位置信息,新的峰位置信息为校正峰位置信息。
7.根据权利要求6所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,所述非线性函数为二次函数或多项式函数,所述非线性最小二乘法拟合算法为:
S1设置初始参数,初始参数包括超参数和非线性函数的系数,通过手动设置或者通过自动寻优算法来设置初始参数;
S2遍历数据点,遍历数据集中的所有数据点,对于每个数据点,计算出非线性函数在该点处的切线斜率;
S3确定非线性函数的零点,所述非线性函数的零点为拟合函数在该数据点处的切线与水平直线相交的点,所述零点通过二分法或搜索算法确定;
S4确定非线性函数的截距,所述非线性函数的截距为拟合函数在该数据点处的切线与水平直线的交点,所述截距通过二分法或搜索算法确定;
S5确定非线性函数的系数,根据所述零点和所述截距计算得到非线性函数的系数;
S6更新参数,根据步骤S5确定的系数更新该数据点处非线性函数的参数;
S7重复上述步骤,重复上述步骤S2-S6,直到更新参数后不再对拟合结果产生显著影响,所述显著影响为拟合误差的连续三次变化未超过3%;
S8输出拟合结果,将拟合结果输出。
8.根据权利要求1所述的一种呼气分子分析气相色谱数据的自动化分析方法,其特征在于,
所述峰下面积基于梯形法则计算积分得到RT值,获得该峰对应呼气分子的定性RT。
9.根据权利要求8所述的一种呼气分子分析气相色谱数据的自动化分析方法,
所述呼气分子对照表为系统自带或用户提供,将该峰对应呼气分子的定性RT与呼气分子对照表中呼气分子的RT区间比较,
若当前峰的RT仅被一个呼气分子区间包含,即当前峰的RT仅被呼气分子的RT区间包含,则此峰为呼气分子;
若当前峰的RT被两个呼气分子区间包含,即当前峰被呼气分子之间的RT区间包含,则计算当前峰的峰起点至终点区间与呼气分子之间的RT区间重合度,重合度高的呼气分子则判定为当前峰所对应的呼气分子;
若当前峰的RT被两个以上呼气分子区间包含,判定方法与当前峰被两个呼气分子区间包含相同。
10.一种基于权利要求1-9任一项所述的呼气分子分析气相色谱数据自动化定量分析方法的系统,其特征在于,所述系统包括:
色谱图导入模块,导入色谱图,获取导入色谱图的数据集;
质控处理模块,对数据集的数据进行预处理,去除谱图存在的噪音以及基线漂移,输出质控处理后的色谱图;
峰位置的识别模块,对质控处理后的色谱图的数据进行峰位置的识别,并输出每个峰的峰位置信息进行定位,所述峰位置信息包括峰的起点、顶点与终点位置信息;
分峰拟合模块,对峰位置的识别获得的峰进行峰形态的拟合,校正峰位置信息;
峰定量与定性模块,基于校正峰位置信息,计算峰下面积获得对应呼气分子的定量,与呼气分子对照表比对确定当前峰对应的呼气分子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310499089.XA CN116242954A (zh) | 2023-05-06 | 2023-05-06 | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310499089.XA CN116242954A (zh) | 2023-05-06 | 2023-05-06 | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116242954A true CN116242954A (zh) | 2023-06-09 |
Family
ID=86628085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310499089.XA Pending CN116242954A (zh) | 2023-05-06 | 2023-05-06 | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116242954A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117785818A (zh) * | 2024-02-26 | 2024-03-29 | 山东惠分仪器有限公司 | 一种气相色谱仪数据优化存储方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1712955A (zh) * | 2004-06-25 | 2005-12-28 | 中国科学院大连化学物理研究所 | 一种精确测定色谱峰形参数和重叠峰面积的方法 |
CN103718036A (zh) * | 2011-03-11 | 2014-04-09 | 莱克公司 | 在色谱系统中处理数据的方法 |
CN105593678A (zh) * | 2013-10-04 | 2016-05-18 | 株式会社岛津制作所 | 波形数据处理装置及波形数据处理用程序 |
US20170336370A1 (en) * | 2014-09-03 | 2017-11-23 | Shimadzu Corporation | Chromatogram data processing method and chromatogram data processing apparatus |
CN112903883A (zh) * | 2021-04-02 | 2021-06-04 | 江苏乐尔环境科技股份有限公司 | 一种应用于气相色谱的谱峰分析方法及装置 |
-
2023
- 2023-05-06 CN CN202310499089.XA patent/CN116242954A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1712955A (zh) * | 2004-06-25 | 2005-12-28 | 中国科学院大连化学物理研究所 | 一种精确测定色谱峰形参数和重叠峰面积的方法 |
CN103718036A (zh) * | 2011-03-11 | 2014-04-09 | 莱克公司 | 在色谱系统中处理数据的方法 |
CN105593678A (zh) * | 2013-10-04 | 2016-05-18 | 株式会社岛津制作所 | 波形数据处理装置及波形数据处理用程序 |
US20170336370A1 (en) * | 2014-09-03 | 2017-11-23 | Shimadzu Corporation | Chromatogram data processing method and chromatogram data processing apparatus |
CN112903883A (zh) * | 2021-04-02 | 2021-06-04 | 江苏乐尔环境科技股份有限公司 | 一种应用于气相色谱的谱峰分析方法及装置 |
Non-Patent Citations (3)
Title |
---|
刘永超: "气相色谱法环境大气VOCs监测技术及数据处理方法研究", 中国优秀硕士学位论文全文数据库工程科技Ⅰ辑, no. 12, pages 6 - 10 * |
朱晨超: "色谱工作站设计与谱图分析算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 6, pages 61 * |
缪华健 等: "化学谱图重叠峰检测及基线校正", 分析试验室, vol. 16, no. 2, pages 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117785818A (zh) * | 2024-02-26 | 2024-03-29 | 山东惠分仪器有限公司 | 一种气相色谱仪数据优化存储方法及系统 |
CN117785818B (zh) * | 2024-02-26 | 2024-05-10 | 山东惠分仪器有限公司 | 一种气相色谱仪数据优化存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10198630B2 (en) | Peak detection method | |
CN108603867B (zh) | 峰检测方法以及数据处理装置 | |
JP3998215B1 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
CN109239360B (zh) | 一种反应曲线异常检测方法及装置 | |
US10121643B2 (en) | Chromatography/mass spectrometry data processing device | |
US20060020401A1 (en) | Alignment and autoregressive modeling of analytical sensor data from complex chemical mixtures | |
CN116242954A (zh) | 一种呼气分子分析气相色谱数据的自动化分析方法与系统 | |
JP2005308741A (ja) | 少なくとも1つの成分および生成する生成物の観点でサンプルを特性付けし、特性付けデータを提供するための2つ以上の技術に基づいた少なくとも1つのサンプルの分析;方法、システムおよび指示プログラム | |
US20140129169A1 (en) | Chromatogram data processing method and device | |
US20080046447A1 (en) | Two-step method to align three dimensional LC-MS chromatographic surfaces | |
CN111537659A (zh) | 一种筛选生物标志的方法 | |
KR101958900B1 (ko) | 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 | |
CN105718723B (zh) | 一种质谱数据处理中谱峰位置检测方法 | |
CN113640445A (zh) | 基于图像处理的特征峰识别方法及计算设备、存储介质 | |
KR20220029722A (ko) | 자동 피크 통합을 위한 방법 및 장치 | |
CN115078616B (zh) | 基于信噪比的多窗口谱峰识别方法、设备、介质及产品 | |
CN115219618B (zh) | 一种噪声处理方法、装置、液质联用仪及可读存储介质 | |
JP7081385B2 (ja) | クロマトグラムの類似度の計算方法 | |
US20220373522A1 (en) | Waveform Analytical Method and Waveform Analytical Device | |
US10236167B1 (en) | Peak waveform processing device | |
CN113378755B (zh) | 基于等高线地图的气相离子迁移谱数据谱峰自动识别方法 | |
US20240210366A1 (en) | Data processing method and device for chromatogram, chromatographic device, and recording medium | |
Erny et al. | Introducing the concept of centergram. A new tool to squeeze data from separation techniques–mass spectrometry couplings | |
Schulz-Trieglaff et al. | Computational quantification of peptides from LC-MS data | |
Zhao et al. | Automatic peak integration and baseline correction for micro-scale gas chromatographs using continuous wavelet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230609 |
|
RJ01 | Rejection of invention patent application after publication |