发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种色谱谱图的检测分析方法及电子设备,基于模式匹配并结合色谱曲线的曲率来检测色谱峰,并基于检测出的色谱峰进行分析,该方式有助于弥补现有技术中的不足,实现综合性能更佳的谱图检测分析。
为实现以上目的,本申请采用如下技术方案:
第一方面,
本申请提供一种色谱谱图的检测分析方法,该方法包括:
获取待处理的原始谱图数据,并对所述原始谱图数据进行降噪处理,得到去噪谱图数据;
基于所述原始谱图数据计算色谱曲线上各点的曲率,将色谱曲线上曲率值大于第一阈值的点确定为临时峰顶点,其中,所述第一阈值基于对生成所述原始谱图数据的色谱仪器的空载输出信号的计算分析而确定;
以高斯波为匹配波对所述去噪谱图数据进行模式识别检测,并将识别检测结果中的峰顶点作为峰顶点参考点;
将各所述临时峰顶点与各所述峰顶点参考点进行两两对应比较,将纵坐标值较大的点确定为峰顶点;
针对所述去噪谱图数据所对应的色谱曲线,从该曲线上的各所述峰顶点处出发,分别向相应顶点两侧进行逐点扩展检测,根据检测过程中各点的曲率确定与相应顶点对应的峰起点及峰终点;
将各所述峰顶点及其对应的峰起点及峰终点所表征的色谱峰作为检测出的色谱峰,并基于检测出的色谱峰生成检测结果。
可选地,所述对生成所述原始谱图数据的色谱仪器的空载输出信号的计算分析过程包括:
对色谱仪器空载时输出基线的斜率变化进行统计分析,计算斜率变化的方差,并进而确定斜率变化的标准差;
将预设倍数的所述斜率变化的标准差作为所述第一阈值。
可选地,所述逐点扩展检测,包括针对每一峰顶点进行如下处理步骤:
确定该峰顶点两侧的曲率拐点;
以该峰顶点左侧的曲率拐点为基点向左侧进行逐点检测,当一点的曲率小于第二阈值且该点前一点的曲率大于第二阈值时,比较该两点的纵坐标值,将纵坐标值较小的点确定为该峰顶点所对应的峰起点;
以该峰顶点右侧的曲率拐点为基点向右侧进行逐点检测,当一点的曲率小于第三阈值且该点前一点的曲率大于第三阈值时,比较该两点的纵坐标值,将纵坐标值较小的点确定为该峰顶点所对应的峰终点。
可选地,所述第二阈值和第三阈值基于用户输入的值进行配置确定,且在无用户输入时两者的默认值为零。
可选地,所述以高斯波为匹配波对所述去噪谱图数据进行模式识别检测,并将识别检测结果中的峰顶点作为峰顶点参考点,包括:
以所述去噪谱图数据所对应的色谱曲线作为待检测曲线,将高斯波的波形在所述待检测曲线上从左端点向右端点滑动并同时进行两者相关系数的计算,基于计算结果得到所述待检测曲线的色谱数据相对高斯波的相关系数组;
将所述相关系数组中各相关系数与预定值进行比较分析,基于系数值大于所述预定值的相关系数确定高斯波峰位位置,将所述待检测曲线上该位置处的点确定为所述峰顶点参考点。
可选地,所述基于检测出的色谱峰生成检测结果,包括:
对检测出来的色谱峰进行积分,计算确定色谱峰的面积和高度。
可选地,还包括,
针对所述原始谱图数据采用参考色谱谱图检测算法进行检测处理,得到参考检测结果;
将所述检测结果与所述参考检测结果进行比对分析,生成检测评价报告并显示输出。
可选地,所述将所述检测结果与所述参考检测结果进行比对分析,包括:
将所述检测结果及所述参考检测结果中检测出的色谱峰进行匹配,确定匹配的色谱峰,基于匹配的色谱峰在检测出的色谱峰中的占比,以及匹配的色谱峰的差异生成检测评价报告。
第二方面
本申请提供一种电子设备,包括:
存储器,其上存储有可执行程序;
处理器,用于执行所述存储器中的所述可执行程序,以实现上述所述方法的步骤。
本申请采用以上技术方案,至少具备以下有益效果:
本申请的技术方案,基于模式匹配并结合色谱曲线的曲率来实际具体检测液相和气相色谱谱图,整体上提高了检测的可靠性。且方法中曲率检测方式中的阈值是基于仪器自身信号来自动计算确定的,模式匹配检测出的峰特征点只是作为参考点来校正基于曲率检测得到峰特征点,这也同时弥补了现有技术中两种方式所存在的缺陷。
本发明的其他优点、目标,和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
如背景技术中所述,在现有对色谱谱图进行检测分析的相关技术中,时间窗法、导数法及模式匹配等方法存在对多峰重叠识别好或泛用性不强等缺陷。
针对于此,本申请提出一种色谱谱图的检测分析方法,基于模式匹配并结合色谱曲线的曲率来检测色谱峰,该方式有助于弥补现有技术中的不足,实现综合性能更佳的谱图检测分析。
如图1所示,在一实施例中,本申请提出的色谱谱图的检测分析方法,包括:
步骤S110,获取待处理的原始谱图数据,并对原始谱图数据进行降噪处理,得到去噪谱图数据;
举例而言,这里可采用Savgol_filter滤波器对原始谱图数据进行过滤,以去除原始信号中的一些噪声得到去除噪声后的去噪谱图数据F。
步骤S120,基于原始谱图数据计算色谱曲线上各点的曲率,将色谱曲线上曲率值大于第一阈值的点确定为临时峰顶点,其中,第一阈值基于对生成原始谱图数据的色谱仪器的空载输出信号的计算分析而确定;
该步骤中不同于现有技术,在基于曲率进行检测的过程中,阈值不是人工设定的,而是基于对生成原始谱图数据的色谱仪器的空载输出信号的计算分析而确定,采用这种方式相比人为设置的阈值的方式,其可靠性更高,有利于保证识别的分辨率及提高识别正确率。
本领域技术人员容易理解的是,基于谱图数据的特点,步骤S120中得到的临时峰顶点,本质上其实是色谱曲线上的曲率局部极大值点,一般的,对于某一谱图数据而言,步骤S120中得到临时峰顶点为多个。
步骤S130,以高斯波为匹配波对去噪谱图数据进行模式识别检测,并将识别检测结果中的峰顶点作为峰顶点参考点,容易理解的是,这里的峰顶点参考点也为多个。
在确定临时峰顶点和峰顶点参考点后,进行步骤S140,将各临时峰顶点与各峰顶点参考点进行两两对应比较,将纵坐标值较大的点确定为峰顶点。
容易理解的,由于检测对象本质是同一谱图数据,步骤S120中得到多个临时峰顶点,以及步骤S130中得到多个峰顶点参考点是一一对应的(即在某一横座标X附近,存在相应的临时峰顶点(x1,y1)和峰顶点参考点(x2,y2));
步骤S140中的两两对应比较,即指针对多个临时峰顶点和峰顶点参考点,将各一一对应的临时峰顶点和峰顶点参考点分别进行比较,举例而言,一横座标X附近,存在相应的临时峰顶点(x1,y1)和峰顶点参考点(x2,y2),在步骤S140中进行的两两对应比较,即将(x1,y1)与(x2,y2)进行比较。
步骤S140之后,进行步骤S150,针对去噪谱图数据所对应的色谱曲线,从该曲线上的各峰顶点处出发,分别向相应顶点两侧进行逐点扩展检测,根据检测过程中各点的曲率确定与相应顶点对应的峰起点及峰终点;
容易理解的是,由于峰顶点可能不在曲线上,因此步骤S140中的峰顶点处指曲线上、顶点的横座标所对应的点。
最后进行步骤S160,将各峰顶点及其对应的峰起点及峰终点所表征的色谱峰作为检测出的色谱峰,并基于检测出的色谱峰生成检测结果。
具体的,步骤S160中,基于检测出的色谱峰生成检测结果包括,对检测出来的色谱峰进行积分,计算确定色谱峰的面积和高度。
本申请的技术方案,基于模式匹配并结合色谱曲线的曲率来实际具体检测液相和气相色谱谱图,整体上提高了检测的可靠性。且方法中曲率检测方式中的阈值是基于仪器自身信号来自动计算确定的,模式匹配检测出的峰特征点只是作为参考点来校正基于曲率检测得到峰特征点,这也同时弥补了现有技术中两种方式所存在的缺陷。
为便于理解本申请的技术方案,下面以另一实施例对本申请的技术方案进行介绍说明。
该实施例中,同样的,首先进行步骤S210,获取待处理的原始谱图数据,并对原始谱图数据进行降噪处理,得到去噪谱图数据F,之后进行步骤S220以及步骤S230;
步骤S220,基于原始谱图数据计算色谱曲线上各点的曲率,将色谱曲线上曲率值大于第一阈值的点确定为临时峰顶点,其中,第一阈值基于对生成原始谱图数据的色谱仪器的空载输出信号的计算分析而确定;
具体的,步骤S220中,对生成原始谱图数据的色谱仪器的空载输出信号的计算分析过程包括:
对色谱仪器空载时输出基线的斜率变化进行统计分析,计算确定斜率变化的方差,并进而确定斜率变化的标准差;
在分析仪器技术领域,一般认为随机噪声和基线漂移的斜率变化是服从正态分布的,且具有零均值的,因此,这里只需基于以下表达式(1)求其方差,
表达式(1),e2表示方差,e表示标准差,fi表示样本与均值的差,样本数量n一般大于100。
进而可将预设倍数的斜率变化的标准差e作为第一阈值Tapex,该实施例中,基于实际工程经验总结,作为顶点阈值,第一阈值Tapex可为标准差e的18倍,即Tapex=18*e,这时可实现较好的检测效果。
为得到峰顶点参考点,还需进行步骤S230,以高斯波为匹配波对去噪谱图数据进行模式识别检测,并将识别检测结果中的峰顶点作为峰顶点参考点。
具体的,该实施例中,以高斯波为匹配波对去噪谱图数据进行模式识别检测,并将识别检测结果中的峰顶点作为峰顶点参考点,与现有技术相似,该过程包括:
首先,以去噪谱图数据F所对应的色谱曲线作为待检测曲线,将高斯波的波形在待检测曲线上从左端点向右端点滑动并同时进行两者相关系数的计算,基于计算结果得到待检测曲线的色谱数据相对高斯波的相关系数组,其计算过程的公式表达为,
表达式(2),R表示相关系数,x
i,y
i分别表示当前计算相关度的色谱峰数据和匹配波数据,
分别表示两组数据的平均值。
之后,将相关系数组中各相关系数与预定值进行比较分析,基于系数值大于预定值的相关系数确定高斯波峰位位置,将待检测曲线上该位置处的点确定为峰顶点参考点。
举例而言,这里的预定值为0.8,当相关系数大于0.8表示两者强相关。确定高斯波峰位位置的过程与现有技术相同,本申请这里就不进行详述了。
在步骤S220和步骤S230之后,进行步骤S240,将各临时峰顶点与各峰顶点参考点进行两两对应比较,将纵坐标值较大的点确定为峰顶点,该步骤与前文实施例类似,这里就不进行赘述了。
步骤S240之后,进行步骤S250,针对去噪谱图数据所对应的色谱曲线,从该曲线上的各峰顶点处出发,分别向相应顶点两侧进行逐点扩展检测,根据检测过程中各点的曲率确定与相应顶点对应的峰起点及峰终点;
该实施例中,这里的逐点扩展检测,包括针对每一峰顶点进行如下处理步骤:
确定该峰顶点两侧的曲率拐点,具体的,如以Si表示i点的曲率,则在Si-1*Si<0或者Si=0时,则认为i点为曲率拐点;
以该峰顶点左侧的曲率拐点为基点向左侧进行逐点检测,当一点的曲率Si小于第二阈值Tstart且该点前一点的曲率Si-1大于第二阈值Tstart时(即Si-1>Tstart,Si<Tstart),比较该两点的纵坐标值,将纵坐标值较小的点确定为该峰顶点所对应的峰起点,即起点为min(Fi-1,Fi);
类似的,以该峰顶点右侧的曲率拐点为基点向右侧进行逐点检测,当一点的曲率Si小于第三阈值Tend且该点前一点的曲率Si-1大于第三阈值Tend时(即Si-1>Tend,Si<Tend),比较该两点的纵坐标值,将纵坐标值较小的点确定为该峰顶点所对应的峰终点,即终点为min(Fi-1,Fi)。
需要说明的是,在实际实现中,这里的第二阈值Tstart和第三阈值Tend基于用户输入的值进行配置确定,且在无用户输入时两者的默认值为零。
最后进行步骤S260,将各峰顶点及其对应的峰起点及峰终点所表征的色谱峰作为检测出的色谱峰,并基于检测出的色谱峰生成检测结果;
具体的,如对检测出来的色谱峰进行积分,计算确定色谱峰的面积和高度。
本申请的技术方案,基于模式匹配并结合色谱曲线的曲率来实际具体检测液相和气相色谱谱图,结合了两种方式的优点(如模式识别对于噪声、色谱峰宽、幅值的变化不敏感,具有非常好的抗干扰性、容错性和鲁棒性),整体上提高了检测的可靠性。且基于曲率的检测方式,对存在肩峰类型的色谱数据具有额外优势(相比基于斜率)。此外,方法中曲率检测方式中的阈值是基于仪器自身信号来自动计算确定的,模式匹配检测出的峰特征点只是作为参考点来校正基于曲率检测得到峰特征点,这也同时弥补了现有技术中两种方式所存在的缺陷。
此外,为方便用户能快速地了解及评估本申请检测分析方法的性能,在具体的应用场景下,在以上实施例的基础上,本申请的技术方案还包括:
针对原始谱图数据采用参考色谱谱图检测算法进行检测处理,得到参考检测结果;将检测结果与参考检测结果进行比对分析,生成检测评价报告并显示输出;这里的参考色谱谱图检测算法是指,除本申请检测分析方法之外的、实现功能目的与本申请方法相同的其他检测分析方法。
上述将检测结果与参考检测结果进行比对分析,包括:将检测结果及参考检测结果中检测出的色谱峰进行匹配,确定匹配的色谱峰(流程过程如图2所示),基于匹配的色谱峰在检测出的色谱峰中的占比,以及匹配的色谱峰的差异生成检测评价报告(流程过程如图3所示)。
换言之,本申请的评价分析过程,不是从时间序列上将结果进行一一对应进行比较,而是首先将检测出来的峰的结果按照峰高进行降序排列,其中峰的结果包括峰的起点、终点、峰高、面积、保留时间(峰顶点的对应的时间)、基线的起点、基线的终点,接着对排序后的结果进行比较匹配(一个峰结果对应一条数据,整条数据会随着峰高顺序的变动而变动)。
如图2所示,该实现中,首先考虑结合峰高和保留时间双重条件进行对比匹配。首先对峰高进行对比,若对比算法的峰高差值在一定范围内,则进行保留时间的对比,若其差值也在一定的范围内,则表示对比算法的这个对应的峰能对应匹配上,将对比结果进行保存用于后续计算它们指标值。
若不满足其中两个任何一个条件则认为当前的对比的数据没有匹配上,则一方索引固定,另一结果索引往后移动,直到找到能匹配上的数据或者另一方数据索引移动到最后一条。值得说明的是,不同的算法对同一个色谱数据的同一个峰的计算结果不一定是一模一样的,由于算法的差异,得出结果也存在着一定的差异,但是相差值不会很大,因此差值在某个范围内即可。当然,同一个色谱数据中可能存在峰高类似的情况。因此在结果对比时,本申请还会根据相应的情况增加保留时间的对比来确保结果的准确性。
匹配过程完成后,将匹配上的峰结果信息一一对应保存,然后根据每个峰结果信息来计算相应的指标,进入图3所示的检测评价报告可视化输出阶段,具体在该阶段中检测评价报告,包括:
A、查看大致的匹配结果
将匹配上和未匹配上峰的个数作图进行可视化的展示,如采用bar图进行展示,假设method1(本申请的检测分析方法)检测出来的峰个数为n,method2(参考色谱谱图检测算法)检测出来的峰个数为m,匹配上的峰的个数为s,其中s<min(n,m)。一个柱状图包含三个部分,下面method1是未匹配上峰的个数n-s,中间是两个算法匹配上峰的个数s,上面部分是method2未匹配上峰的个数m-s。如果中间部分所占比例比较大,说明两个算法的检测出来的峰的个数比较多,检测性能比较接近。
B、大多数情况下,色谱数据由于仪器和实验的条件都会产生一定的噪声,不同的算法对于噪声的敏感程度不一样。在匹配时,小峰时常会出现没有匹配上的情况,然而这种情况在一定程度上会误导上述A中得出的结果。因此这里添加了一个匹配上峰面积总和
占所有峰总面积
的百分比
的对比bar图。如果两个百分结果很接近且数值都比较大,则认为这两组结果大峰都匹配上了,这就从另一个指标来验证了两个算法的检测性能的差别。
C、查看匹配结果是否出现异常
具体的,举例而言,分别计算匹配上峰的起终点差值的std(均方根误差)。峰面积差值的std,如果std在某个范围内浮动,这时认为两个对比算法匹配上的峰在起终点上没有比较突出的异常。否则,则认为出现了异常点,此后则可根据出现异常的数据来排查检测算法出现了何种异常。
此外进一步的,容易理解的是,针对不同的原始数据,基于相应结果对算法进行对比分析,一个数据就可对应一个评价报告,根据这些报告对整体的数据结果形成一个全面的评价,来综合评价算法性能。
图4为本申请一个实施例提供的电子设备的结构示意图,如图4所示,该电子设备400包括:
存储器401,其上存储有可执行程序;
处理器402,用于执行存储器401中的可执行程序,以实现上述方法的步骤。
关于上述实施例中的电子设备400,其处理器402执行存储器401中的程序的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。