基于数据驱动的现场质谱仪稳定输出控制系统及方法
技术领域
本发明涉及质谱仪及信号处理的领域,特别是涉及一种基于数据驱动的现场质谱仪稳定输出控制系统及方法。
背景技术
质谱仪由于其较高的灵敏度和较高的宽容度使其成为化学分析中的经典方法。质谱仪是一种典型的质量分析精密仪器,通过对分子质量的定量分析可以对物质的浓度和成分进行鉴定。质谱仪具有强大的鉴定能力,较宽的分析范围,高灵敏度以及快速的分析能力。这些都使得质谱仪在食品安全分析、蛋白质组学研究、环境与地球科学以及药物与毒物检测等领域得到了广泛的应用。但是,环境检测和食品监管都需要现场对样品进行快速、批量的检测。现场检测往往无法实现专业的前处理和专业的实验操作,甚至操作人员也不一定是专业的仪器实验人员。显然,大质谱不再适应现场检测的需求。而小型化的现场质谱仪很好的满足这些条件。现场质谱仪是基于大型专业质谱仪,对硬件设备小型化,前处理一体化,信号处理智能化的改进,使其更加适应现场检测需求。
现场质谱信号由于仪器控制电压、倍增放大器、信噪比以及采样时序和电离程度等原因,导致质谱仪输出的信号不一定是正常干净的信号,恰恰相反,对采集到的的信号进行分析可知,约50%的信号需要重采样或者单独处理。因此,对异常信号进行分类、识别,根据产生异常的原因反馈仪器,通过调整仪器设定参数再采样,直到输出正常信号。这对提高仪器输出信号的稳定性具有重要意义。
对于现场质谱仪输出信号的稳定性目前多是在质谱仪上设置多个湿度、温度、压强等传感器,得到仪器工作条件下的环境参数以及与之对应的质谱图。通过分析进而得到谱峰强度与工作环境参数的相关曲线,以此作为控制仪器的上机位对仪器参数作出相应调整的依据,进而输出合理的质谱数据。
已有一些对于测试仪器信号进行故障诊断的方法。例如对于心电信号中的房颤信号检测,机械齿轮振动信号的故障识别等。现有的故障信号识别的方法多是统计信号的特征参数,对这些特征参数进行统计分类分析,识别出其中的异常信号。常用的统计特征主要分为两类,一个是线性统计特征,另一类是非线性统计特征。其中,线性统计特征主要分为时域信号统计特征和频域信号统计特征。时域信号统计多是一些多阶统计值,例如均方值、方差、偏度与峰度等。频域信号的统计特征参数主要是一些无量纲参数。非线性统计主要分为熵和分形维数两大类。其中熵是表征信号混乱度的特征参数,分形维数则是基于数据驱动得到的特征统计参数。这些统计特征在信号的分类优劣上多是通过实验确定,最终的分类模型只保留对正常信号和异常信号区分度较好的特征参数。
通过采集多个传感器参数作为仪器校准的依据,这对传感器整体工作环境参数的采集精度和完整度有较高的要求。例如,对局部温度采集不规范,对后面的谱峰强度和工作环境参数的相关性曲线绘制产生影响。且目前多变量的优化算法需要大量的实验数据支持,在复杂多变的现场检测环境中很难得到完整的支持决策库。这样会导致决策库无法为维护仪器稳定性提出正确合适的设定参数。
相比于生理信号异常检测,对于机械信号故障诊断,质谱信号作为非稳定的随机信号,谱峰位置、谱峰数量以及谱峰强度均未知,并且由于仪器自身不稳定性以及现场环境的影响,质谱信号的故障产生原因和类型多种多样。仅仅通过统计特征参数来实现对质谱信号所有类型的分类是不现实且计算量较大。而且,在实际的质谱信号的特征计算中,并不是所有的特征值能从所有的信号中计算出来。
总之,现有的现场质谱稳定性控制系统多是基于模型驱动来设计的,对于复杂多变的现场环境来说,模型普适性会受到较大的挑战。
发明内容
本发明的主要目的在于克服上述背景技术的不足,提供一种基于数据驱动的现场质谱仪稳定输出控制系统及方法,以实现对质谱仪输出稳定信号,并保存特定样品、特定工作环境下的系统最优参数,不仅能够给接下来的定性定量分析提供可靠的质谱信号,而且在下一次相似工作环境下,能够自动推荐相应的质谱仪初始化控制参数。
为实现上述目的,本发明采用以下技术方案:
一种基于数据驱动的现场质谱仪稳定输出控制系统,包括仪器控制参数设定与环境参数采集模块、多组分类器分类模块、反馈调参模块以及输出模块;所述仪器控制参数设定与环境参数采集模块在测试进样前设定仪器控制参数和采集当前仪器工作环境参数;所述多组分类器分类模块包括多个串联的分类器,所述多组分类器分类模块接收质谱仪检测得到的质谱信号,由每个分类器负责分类不同类型的故障信号或正常信号;所述反馈调参模块根据所述多组分类器分类模块分类出的故障信号类型选择对应的参数调整方案,反馈到所述仪器控制参数设定与环境参数采集模块,重新设定参数后由系统控制质谱仪进行重新采样;直到得到正常信号或达到设定的最大循环次数;所述输出模块输出所述多组分类器分类模块得到的正常信号。
进一步地:
所述多组分类器分类模块包括按先后顺序依次串联的第一至第三分类器,第一分类器基于输入信号统计特征进行针对纯噪声的分类,第二分类器进行针对谱峰形状异常故障信号的分类,第三分类器进行针对二级质谱信号母峰碎裂不充分故障信号的分类。
所述第一分类器为BP神经网络,所述第二分类器为SVM分类,所述第三分类器进行对比分析。
所述第一分类器利用BP神经网络基于所有输入信号统计特征进行分类,优选地,统计特征包括信号两种频域统计参数p1和p2,分别如下:
其中,y(k)是信号的频谱,k=1,2,…,K,K是谱线数;f
k是第k条谱线的频率值;
所述第二分类器基于SVM分类器对谱峰形状异常进行分类,实现对拖尾信号、谱峰饱和信号以及谱峰形状正常信号的分类;优选地,基于机理和模型的特征提取方法,提取一个二级谱图中的所有出峰段,对每一个谱峰完成中心化和归一化之后用高斯函数拟合,得到每个谱峰的拟合特征参数,将这些参数和按照谱峰形状类型做好的标记一起存入训练集中,利用SVM分类器分类得到超平面作为最终的分类模型。
所述第三分类器对所述第二分类器输出的谱峰正常质谱信号转换成柱状图之后与标准普图库比对,分析母离子峰是否实现较好的碎裂,以此实现对碎裂较好和碎裂较差信号的分类。
对于不同的故障信号类型,重新设定参数后进行重新采样的方式为:
对于噪声信号,在指定最大采样次数下,多次重采样,若依然是噪声信号,则默认是无进样,直接输出噪声信号;
对于拖尾信号,降低扫描速度或缩短进样时间然后重采样;
对于饱和信号,缩短进样时间和调整透镜电压然后重采样;
对于母峰碎裂不充分信号,修正碎裂频率和调整碎裂能量之后进行重采样;
对于所述拖尾信号、所述饱和信号以及所述母峰碎裂不充分信号,在重采样之前判断是否达到最大迭代次数,若达到则直接输出最后一次采样得到的信号。
记录当前仪器输出正常信号时的工作控制参数与环境参数,并基于记录的所述工作控制参数与环境参数,在以后当工作环境符合所述环境参数时推荐最优控制参数。
对于正常信号,计算其适应度函数,若此次进样的样品所产生的质谱信号在所述仪器工作环境下计算出的适应度函数值相对于之前同样进样样品和同样工作环境所得质谱信号的适应度函数值有所提高,则保存当前工作控制参数,以备之后初始化参数的推荐,所述适应度函数如下:
Y=φ1x1+φ2x2
其中x1是杂峰数量与目标峰数量的比值,x2是母离子峰峰强占比;φ1,φ2是配重系数,Y值是原始适应度函数系数,S方程是Sigmoid函数即最终适应度函数值。
一种基于数据驱动的现场质谱仪稳定输出控制方法,使用所述的控制系统进行质谱仪检测与输出的控制。
相比现有技术,本发明提供的基于数据驱动的质谱信号多分类多反馈控制系统和方法具有如下有益效果:
本发明中,仪器控制参数设定与环境参数采集模块在测试进样前设定仪器控制参数和采集当前仪器工作环境参数,多组分类器分类模块接收质谱仪检测得到的质谱信号,通过多个分类器分类出不同类型的故障信号或正常信号,反馈调参模块根据多组分类器分类模块分类出的故障信号类型选择对应的参数调整方案,反馈到仪器控制参数设定与环境参数采集模块,重新设定参数后由系统控制质谱仪进行重新采样,直到得到正常信号或达到设定的最大循环次数。通过对现场质谱输出信号按照故障类型进行分类,进而按照故障类型调整相应的仪器控制参数,重新采样,最终得到正常的信号,由此实现为接下来的定性定量分析提供可用的质谱信号。本发明的系统能够克服基于模型驱动的控制系统普适性较差的问题,基于数据驱动可以根据实际输出质谱信号完成分类与负反馈控制,直到仪器输出正常信号或达到最大循环次数。
进一步地,本发明通过记录当前仪器输出正常信号时的工作设定参数与环境参数,可录入数据库中,在下一次相似工作环境下推荐相应的质谱仪初始化控制参数,自动地实现最优的参数配置。优选地,同时记录每次正常输出信号的当前工作环境和当前进样时的仪器设定参数,通过计算输出质谱信号的适应度函数,保留最优控制参数,进而能辅助下次同样环境下的采样参数设定。
本发明的现场质谱稳定控制系统适应性强,包容性高,有利于使仪器稳定输出信号,并能不断学习储存最优控制参数,辅助操作人员,较少现场操作时间,有利于提高现场质谱仪的工作效率。
本发明的现场质谱稳定控制系统和方法,能够有效地实现质谱仪输出正常信号以及学习记录最优控制参数,减少现场操作,提高检测效率,进而提高仪器稳定性。
附图说明
图1是本发明实施例的现场质谱仪稳定控制系统的组成示意图。
图2是本发明实施例的现场质谱稳定控制系统和方法的处理流程图。
图3a、图3b展示了分类器1对噪声信号和其他信号统计特征参数的区分程度,从图中可以看到特征参数对两种信号实现了较好的分离。
图4展示了分类器1的BP神经网络对噪声的分离正确率达到了100%。
图5a展示了高斯函数估计回归系数对拖尾信号、饱和信号以及谱峰形状正常信号同样有较好的区分程度。
图5b展示了对三类信号分类的正确率达到了98%。
图6a、图6b分别是校正前和校正后母峰碎裂不充分信号的改善程度,可以得到反馈调参之后改善质谱信号有积极作用。
具体实施方式
以下对本发明的实施方式作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
参阅图1,在一种实施例中,一种基于数据驱动的现场质谱仪稳定输出控制系统,包括仪器控制参数设定与环境参数采集模块、多组分类器分类模块、反馈调参模块以及输出模块;所述仪器控制参数设定与环境参数采集模块在测试进样前设定仪器控制参数和采集当前仪器工作环境参数;所述多组分类器分类模块包括多个串联的分类器,所述多组分类器分类模块接收质谱仪检测得到的质谱信号,由每个分类器负责分类不同类型的故障信号或正常信号;所述反馈调参模块根据所述多组分类器分类模块分类出的故障信号类型选择对应的参数调整方案,反馈到所述仪器控制参数设定与环境参数采集模块,重新设定参数后由系统控制质谱仪进行重新采样;直到得到正常信号或达到设定的最大循环次数;所述输出模块输出所述多组分类器分类模块得到的正常信号。
在一些优选的实施例中,记录当前仪器输出正常信号时的工作控制参数与环境参数,并基于记录的所述工作控制参数与环境参数,在以后当工作环境符合所述环境参数时推荐最优控制参数。
参阅图1和图2,在另一种实施例中,一种基于数据驱动的现场质谱仪稳定输出控制方法,使用前述实施例的控制系统进行质谱仪检测与输出的控制。
图1示出了本发明实施例的现场质谱仪稳定控制系统主要组成模块。一种基于数据驱动的现场质谱仪稳定输出控制系统,以实现对质谱仪输出稳定信号,保存特定样品,特定工作环境下系统的最优控制参数。控制系统包括仪器控制参数设定与环境参数采集模块、多组分类器分类模块、反馈调参模块以及输出模块。仪器控制参数设定与环境参数采集模块主要在测试进样前,初始化仪器控制参数,自动记录当前仪器工作环境的温度、湿度与气压参数;多组分类器分类模块是由多个分类器串联而成,每个分类器负责分类不同类型的故障信号或正常信号;反馈调参模块根据多组分类器分类模块分类出的故障信号类型选择对应的参数调整方案,重新设定参数后完成再采样;输出模块则是输出分类模块中的正常信号并记录当前工作环境下的最优控制参数。
系统的核心模块包括多组分类器分类模块与反馈调参模块。在优选的实施例中,多组分类器分类模块针对三类不同的故障类型,设有三个分类器以分别分离故障信号,最后得到正常质谱信号。反馈调参模块可根据故障类型、与先验仪器调整经验,确定故障原因与故障消除方法,反馈到仪器控制参数设定与环境参数采集模块,直到仪器输出正常信号与最优控制参数或达到最大循环次数。
图2示出了优选实施例系统的控制方法的详细流程。
在初始化阶段,先按照仪器操作手册和待测物质种类设定控制参数,得到二级质谱图。
将二级质谱图输入到多组分类器分类模块中,即图2中的三个分类器中。
根据实际实验得到的结果,常见的质谱信号故障类型主要可以分为三大类,分别是纯噪声、谱峰形状异常信号、以及二级质谱信号母峰碎裂不充分。其中,谱峰形状异常信号又可以分为拖尾信号与谱峰饱和信号两类。
按照各类故障的特征参数提取的不同,设置合适的分类器,分别是分类器1:BP神经网络;分类器2:SVM分类;分类器3:对比分析。
分类器1是利用BP神经网络基于所有输入信号统计特征进行分类。神经网络分类模型的训练是根据现有标注好的训练数据训练得到。统计特征主要是信号两种频域统计参数,分别如下:
其中,y(k)是信号的频谱,k=1,2,…,K,K是谱线数;f
k是第k条谱线的频率值;
分类器2是基于SVM分类对谱峰形状异常的分类。训练集数据并不是基于信号的统计特征得到,因为统计特征已经无法反应出质谱信号谱峰形状的特点。本系统选择了基于机理和模型的特征提取方法。根据谱峰产生的原理,我们已知理想的质谱谱峰是一种类似于高斯分布或偏高斯分布的状态。因此,本系统首先提取一个二级谱图中的所有出峰段,对每一个谱峰完成中心化和归一化之后用高斯函数拟合,得到每个谱峰的拟合特征参数。将这些参数和按照谱峰形状类型做好的标记一起存入训练集中,利用SVM分类器分类得到超平面作为最终的分类模型。进而实现对拖尾信号、谱峰饱和信号以及谱峰形状正常信号的分类。
分类器3则是对分类器2输出的谱峰正常质谱信号转换成柱状图之后与标准普图库比对,分析母离子峰是否实现较好的碎裂,以此实现对碎裂较好和碎裂较差信号的分类。
如图2所示,在如上三个分类器按照产生故障的原因实现对信号的分类之后,则对相应的故障信号(原因)输入到反馈调参模块中。对于噪声信号,本系统在指定最大采样次数下,多次重采样,若依然是噪声信号,则默认是无进样,直接输出噪声信号。若是拖尾信号,则降低扫描速度或缩短进样时间然后重采样;对于饱和信号,通过缩短进样时间和调整透镜电压重新进行采样;对于母峰碎裂不充分信号,则选择修正碎裂频率和调整碎裂能量之后进行重采样。以上拖尾信号、饱和信号以及母峰碎裂不充分信号在重采样之前判断是否达到最大迭代次数,若达到则直接输出最后一次采样得到的信号。
图2中得到的正常信号、噪声信号或最大循环次数信号属于输出模块。对于正常信号,本系统计算其适应度函数,若此次进样的样品所产生的质谱信号在所述仪器工作环境下计算出的适应度函数值相对于之前同样进样样品和同样工作环境所得质谱信号的适应度函数值有所提高,则保存当前仪器设定参数,以备之后初始化参数的推荐。适应度函数定义如下:
Y=φ1x1+φ2x2
其中x1是杂峰数量与目标峰数量的比值,x2是母离子峰峰强占比;φ1,φ2是配重系数,Y值是原始适应度函数系数,S方程是Sigmoid函数即最终适应度函数值,其目的是将值域范围较大的Y值映射到(0,1)空间中,方便后期适应度函数值的比较。
实验测试
测试了多组分类器模块分类效果与反馈调参模块的矫正效果。结果分别介绍如下。
图3a,b展示了分类器1对噪声信号和其他信号统计特征参数的区分程度,从图中可以看到特征参数对两种信号实现了较好的分离。
图4的混淆矩阵展示了分类器1的BP神经网络对噪声的分离正确率达到了100%。
图5a展示了高斯函数估计回归系数对拖尾信号、饱和信号以及谱峰形状正常信号同样有较好的区分程度。图5b的混淆矩阵展示了对三类信号分类的正确率达到了98%。
图6a,b分别是校正前和校正后母峰碎裂不充分信号的改善程度,可以得到反馈调参之后改善质谱信号有积极作用。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。