CN115280143A - 用于识别质谱响应曲线中的至少一个峰的计算机实现的方法 - Google Patents

用于识别质谱响应曲线中的至少一个峰的计算机实现的方法 Download PDF

Info

Publication number
CN115280143A
CN115280143A CN202180024754.9A CN202180024754A CN115280143A CN 115280143 A CN115280143 A CN 115280143A CN 202180024754 A CN202180024754 A CN 202180024754A CN 115280143 A CN115280143 A CN 115280143A
Authority
CN
China
Prior art keywords
peak
mass spectral
spectral response
response curve
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180024754.9A
Other languages
English (en)
Inventor
C·古特
K·塔拉索夫
A·赖歇特
R·维努哥帕尔
D·鲁萨科夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Ventana Medical Systems Inc
Original Assignee
F Hoffmann La Roche AG
Ventana Medical Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG, Ventana Medical Systems Inc filed Critical F Hoffmann La Roche AG
Publication of CN115280143A publication Critical patent/CN115280143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8644Data segmentation, e.g. time windows
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提出了一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法(110)。所述方法包括以下步骤:a)通过使用至少一个质谱装置(114)提供(112)至少一条质谱响应曲线;b)通过使用至少一个经训练的模型评估(116)所述质谱响应曲线从而识别所述质谱响应曲线的至少一个峰的起点和终点,其中所述模型是使用深度学习回归架构(118)训练的。

Description

用于识别质谱响应曲线中的至少一个峰的计算机实现的方法
技术领域
本发明涉及一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法和一种用于监测样品中的至少一种分析物的装置。本发明所提出的方法和装置可用于质谱技术领域,具体地是用于液相色谱-质谱法。
背景技术
当前的液相色谱-质谱法 (LC-MS) 数据处理通常需要对所有采集的数据进行手动数据审查,并且由于错误率高,随后需要对大约 5% - 20% 的结果进行手动校正。上述操作由经训练的 LC-MS 操作员通过对数百个色谱图进行繁琐的目视分析来执行。
此外,用于识别和表征谱的谱峰的自动方法是已知的。
WO2012/047417 A1 和 US 8,428,889 B2 描述了一种自动识别和表征由分析装置产生的谱的谱峰的方法,该方法包括以下步骤:接收由分析装置产生的谱,从谱中自动减去基线以产生基线校正的谱,自动检测和表征基线校正的谱中的谱峰,并将检测和表征的谱峰报告给用户。从用户接收要对检测和表征步骤进行的调整的列表。基于调整列表,调整检测和表征步骤中使用的退出值。谱峰的自动检测和表征在相同的谱或在不同的谱中重复。
US 7,219,038 B2 描述了一种用于光谱数据中的分析和峰识别的协议。贝叶斯方法用于自动识别数据集中的峰。在识别出峰形后,该方法对于在任何给定数据窗口中都能找到给定数量的峰的假设进行了测试。如果在给定窗口内识别出峰,则将似然函数最大化以估计峰的位置和幅值。
US 7,720,612 B2 描述了使用峰分辨率值将色谱图中的卷积峰分解为一个或多个组成峰的方法。本发明的峰方法确定数据中“界限明确的”或“孤立的”峰的基于经验的峰分辨率值,然后将这些基于经验的分辨率值外推到相邻区域中的峰,以预测给定峰位置处的组成峰的数量。将预测的峰分辨率值与观察到的低分辨率或卷积峰的峰分辨率值进行比较,以确定卷积峰中组成峰的数量。
WO 2019/092836 A1 描述了在所学习的模型存储单元中,预先存储了通过使用准确的峰信息执行深度学习而构建的模型和通过对大量色谱图进行成像而获得的图像作为学习数据。当输入由 LC 测量单元获得的目标样本的色谱图数据时,图像生成单元对色谱图进行成像并生成输入图像,其中填充了所得图像中在色谱图曲线的任意一侧的两个区域之一,峰位置估计单元使用所学习的模型将输入图像的像素值输入到神经网络,并获得关于峰的起点和终点的位置信息以及峰检测精度作为输出。峰确定单元基于峰检测精度确定峰的起点和终点。
EP 3 467 493 Al 描述了在测量之前,作为贯穿输入单元的测量结束条件,分析人员选择峰检测目标的色谱图(在特定波长处或跨整个波长的色谱图)并针对该峰的数量指定确定值。在测量单元执行测量期间,色谱图生成单元基于收集的数据基本实时地生成色谱图,并且峰检测单元检测色谱图上的峰。测量结束条件确定单元对检测到的峰的数量进行计数,并在计数的数量达到峰数量的确定值时确定满足测量结束条件,并且测量结束定时确定单元指示分析控制单元当自确定起经过预定时间时结束测量。
Risum Anne Bech et al.: “Using deep learning to evaluate peaks inchromatographic data”, TALANTA, ELSEVIER, Amsterdam, NL, vol. 204, 22 May2019, pages 255-260, XP085747637, ISSN: 0039-9140, DOI: 10.1016/J.TALANTA.2019.05.053 描述了非目标气相色谱数据的分析非常耗时,并且在分析中仍然存在许多需要数据分析专业知识的手动步骤。其中之一是需要定义每个分解的组分是否代表适合积分的峰。由于在洗脱时间轴上,峰的形状和位置都可能发生变化,这提出了一个无法通过应用线性分类器轻松解决的问题,诸如 PLS-DA(用于判别分析的偏最小二乘回归)。描述了一种卷积神经网络分类器,用于处理这些移位和形状变化。
尽管已知方法和装置具有优点,但这些已知方法和装置仅给出峰是否存在的信息。然而,不能保证可靠地确定峰下面积。
待解决的问题
因此,希望提供一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法和一种用于监测样品中的至少一种分析物的装置,以解决以上所提到的技术挑战。具体地,应提供用于识别质谱响应曲线中的至少一个峰的方法和用于监测样品中的至少一种分析物的装置,其允许可靠且自动地确定色谱图中分析物峰的峰面积。
发明内容
该问题通过用于识别质谱响应曲线中的至少一个峰的计算机实现的方法和用于监测样品中的至少一种分析物的、具有独立权利要求特征的装置来解决。在从属权利要求中列出了可能以单独的方式或者以任何任意组合实现的有利实施方案。
如下文所用,术语“具有”、“包括”或“包含”或者它们的任何任意语法变化形式以非排他性方式使用。因此,这些术语既可指其中除了由这些术语引入的特征之外,在该上下文中描述的实体中不存在进一步特征的情况,也可指其中存在一个或多个进一步特征的情况。作为示例,表述“A 具有 B”、“A 包括 B”和“A 包含 B”既可指其中除 B 之外,A 中不存在其他要素的情况(即,其中 A 由 B 单独且唯一地组成的情况),也可指其中除 B 之外,实体 A 中还存在一个或多个进一步要素(诸如要素 C、要素 C 和要素 D 或甚至进一步要素)的情况。
进一步,应注意,指示特征或元素可存在一次或多次的术语“至少一个”、“一个或多个”或类似表述通常在引入相应特征或元素时仅使用一次。在下文中,在大多数情况下,当提及相应的特征或元素时,尽管相应的特征或元素可能只存在一次或多次,但不会重复使用表述“至少一个”或“一个或多个”。
进一步,如下文所使用的,术语“优选地”、“更优选地”、“特别地”、“更特别地”、“具体地”、“更具体地”或类似的术语与任选特征结合使用,而不限制替代性的可能性。因此,由这些术语引入的特征是任选特征,并且不旨在以任何方式限制权利要求的范围。如本领域技术人员将认识到的,本发明可通过使用替代性特征来执行。类似地,由“在本发明的一个实施方案中”引入的特征或类似表述旨在成为任选特征,而对本发明的替代性实施方案没有任何限制、对本发明的范围没有任何限制,并且对将以这种方式引入的特征与本发明的其他任选或非任选特征相组合的可能性也没有任何限制。
在本发明的第一方面,公开了一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法。
如本文所用,术语“计算机实现的方法”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于涉及至少一个计算机和/或至少一个计算机网络的方法。计算机和/或计算机网络可包括至少一个处理器,该处理器经配置用于执行根据本发明的方法的方法步骤中的至少一个。优选地,每个方法步骤由计算机和/或计算机网络执行。该方法可完全自动地(具体地,在没有用户交互的情况下)执行。如本文所用,术语“自动地”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于完全借助于至少一个计算机和/或至少一个计算机网络和/或至少一个机器来执行的过程,特别是,不需要手动操作和/或与用户交互。
如本文所用,术语“质谱”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于用于确定离子的质荷比的分析技术。可使用至少一个质谱装置执行质谱分析法。如本文所用,术语“质谱装置”,也称为“质量分析仪”,是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于经配置用于基于质荷比来检测至少一种分析物的分析仪。质量分析仪可为或可包括至少一台四极杆分析仪。如本文所用,术语“四极杆质量分析仪”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于包括至少一个四极杆作为滤质器的质量分析仪。四极杆质量分析仪可包括多个四极杆。例如,四极杆质量分析仪可为三重四极杆质谱仪。如本文所用,术语“滤质器”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于经配置用于根据离子的质荷比 m/z 来选择注入到滤质器的离子的装置。滤质器可包括两对电极。电极可为杆状的,特别是柱形的。在理想情况下,电极可为双曲线的。电极可被设计为相同的。电极可布置为沿公共轴例如 z 轴平行延伸。四极杆质量分析仪可包括至少一个电源电路,该至少一个电源电路经配置用于在滤质器的该两对电极之间施加至少一个直流 (DC) 电压和至少一个交流 (AC) 电压。电源电路可经配置用于保持每个相对电极对处于相同的电位。电源电路可经配置用于周期性地改变电极对的电荷符号,使得仅在一定的质荷比 m/z 范围内的离子才可能具有稳定的轨迹。滤质器内的离子的轨迹可通过 Mathieu 微分方程来描述。为了测量具有不同 m/z 值的离子,可及时调整 DC 电压和 AC 电压,使得可将具有不同 m/z 值的离子传输到检测器质谱装置。
质谱装置可进一步包括至少一个电离源。如本文所用,术语“电离源”,也称为“离子源”,是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于经配置用于例如从中性气体分子生成离子的装置。电离源可为或可包括选自由以下各项组成的组的至少一个源:至少一个气相电离源,诸如至少一个电子撞击 (EI) 源或至少一个化学电离 (CI) 源;至少一个解吸电离源,诸如至少一个等离子体解吸 (PDMS) 源、至少一个快速原子轰击 (FAB) 源、至少一个二次离子质谱 (SIMS) 源、至少一个激光解吸 (LDMS) 源以及至少一个基质辅助激光解吸 (MALDI) 源;至少一个喷雾电离源,诸如至少一个热喷雾 (TSP) 源、至少一个大气压化学电离 (APCI) 源、至少一个电喷雾 (ESI) 以及至少一个大气压电离 (API) 源。
质谱装置可包括至少一个检测器。如本文所用,术语“检测器”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于经配置用于检测输入离子的设备。检测器可经配置用于检测带电粒子。检测器可为或可包括至少一个电子倍增器。
质谱装置,特别是质谱装置的检测器和/或至少一个评估装置,可配置为确定检测到的离子的至少一个质谱。如本文所用,术语“质谱”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于信号强度相比荷质比 m/z 的二维表示,其中该信号强度对应于相应离子的丰度。质谱可为像素化的图像。为了确定质谱像素的所得强度,可对用检测器检测到的在一定的m/z 范围内的信号进行积分。样品中的分析物可由该至少一个评估装置来识别。具体地,评估装置可经配置用于将已知的质量与识别出的质量相关联或通过特征裂解模式来配置。
质谱装置可为或可包括液相色谱质谱装置。质谱装置可连接到和/或可包括至少一台液相色谱仪。液相色谱仪可用作质谱装置的样品制备。样品制备的其他实施例也是可行的,诸如至少一台气相色谱仪。如本文所用,术语“液相色谱质谱装置”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于液相色谱法与质谱法的组合。质谱装置可包括至少一台液相色谱仪。液相色谱质谱装置可为或可包括至少一种高性能液相色谱 (HPLC) 装置或至少一种微流液相色谱 (µLC) 装置。液相色谱质谱装置可包括液相色谱 (LC) 装置和质谱 (MS) 装置,在当前情况下为滤质器,其中 LC 装置和滤质器经由至少一个接口耦接。耦接 LC 装置和 MS 装置的接口可包括电离源,该电离源经配置用于生成分子离子以及将分子离子转移到气相中。接口可进一步包括布置在电离源与滤质器之间的至少一个离子迁移模块。例如,离子迁移模块可为高场不对称波形离子迁移谱 (FAIMS) 模块。
如本文所用,术语“液相色谱 (LC) 装置”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于分析模块,该分析性模块配置为将样品的一种或多种目标分析物与样品的其他组分进行分离,以用于使用质谱装置来检测所述一种或多种分析物。LC 装置可包括至少一个LC 柱。例如,LC 装置可为单柱 LC 装置或具有多个 LC 柱的多柱 LC 装置。LC 柱可具有固定相,流动相被泵送穿过该固定相,以便分离和/或洗脱和/或转移目标分析物。液相色谱质谱装置可进一步包括样品制备工位,该样品制备工位用于样品的自动化预处理和制备,每个样品包括至少一种目标分析物。
如本文所用,术语“样品”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于任意测试样品,诸如生物学样品和/或内标样品。样品可包括一种或多种目标分析物。例如,测试样品可选自由以下项组成的组:生理流体,包括血液、血清、血浆、唾液、眼晶状体液、脑脊液、汗液、尿液、乳液、腹水、粘液、滑膜液、腹膜液、羊水、组织、细胞等。样品可在从相应来源获得时直接使用,或者可经过预处理和/或样品制备工作流程。可通过加入内标和/或通过用另一种溶液来进行稀释和/或通过与试剂等进行混合来预处理该样品。例如,一般来讲,目标分析物可为维生素 D、滥用药物、治疗药物、激素和代谢物。内标样品可为包括至少一种具有已知浓度的内标物质的样品。关于样品的相应进一步细节,参考例如 EP 3 425 369 A1,其全部公开内容通过引用包含在本文中。其他目标分析物也是可能的。
该方法包括以下步骤,这些步骤作为示例可按照给定的顺序进行。然而,应当注意,不同的顺序也是可能的。进一步,还可一次或重复执行一个或多个方法步骤。进一步,可同时或以适时重合的方式执行两个或更多个方法步骤。该方法可包括未列出的进一步方法步骤。
所述方法包括以下步骤:
a) 通过使用至少一个质谱装置提供至少一条质谱响应曲线;
b) 通过使用至少一个经训练的模型评估质谱响应曲线,从而识别质谱响应曲线的至少一个峰的起点和终点,其中使用深度学习回归架构训练模型。
如本文所用,术语“质谱响应曲线”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于信号强度的一维表示。质谱响应曲线只有一个维度。具体地,术语“一维”可指时间轴,且时间是唯一的一个自变量。据此,如本文所用,术语“一维”可指数据中唯一的自变量是“时间”,因变量是“强度”这一事实。值得注意的是,本发明可能不需要两个自变量(例如,“时间”和“质荷比”),就像某些质谱数据处理技术的情况一样。通常,与根据本发明提出的仅使用一维表示相比,卷积神经网络用于二维数据和应用,诸如用于图像识别,其中存在两个自变量(图像的 x- 和 y- 方向)。如本文所用,术语“提供”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于确定和/或产生质谱响应曲线和/或使质谱响应曲线可用的过程,特别是通过用质谱装置执行至少一次测量。据此,如本文所用,术语“通过使用至少一个质谱装置提供至少一条质谱响应曲线”是广义的术语,且将赋予其对于本领域普通技术人员来说普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于在特定接收时检索从质谱装置获得的质谱响应曲线的数据和/或用质谱装置执行至少一次测量从而确定质谱响应曲线的数据,该数据可用于步骤 b) 中的进一步评估。
如本文所用,术语“评估质谱响应曲线”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于质谱响应曲线的分析。该评估可包括识别至少一个峰和/或确定峰的起点和终点和/或确定峰的峰面积。该评估可包括应用至少一种滤波器和/或使用本底扣除技术和/或使用至少一种拟合路由等。可使用至少一个评估装置来执行评估,如将在以下更详细描述的。
如本文所用,术语(质谱响应曲线的)“峰”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于质谱响应曲线的至少一个局部最大值。
如本文所用,术语峰的“起点”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于下峰边界。起点可为限定下峰边界的时间轴的点。在起点之后,质谱响应曲线上升到局部最大值。起点可为峰积分开始的点。如本文所用,术语(质谱响应曲线的)“终点”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于上峰边界。终点可为限定上峰边界的时间轴的点。质谱响应曲线在达到终点处噪音和/或本底水平之前下降。终点可为峰积分结束的点。起点和终点可为时间轴上被识别为峰界限的点。针对训练数据集的起点和终点的值(将在以下更详细地描述)可由经训练的用户通过手动评估来确定。经训练的模型可为进一步的数据提供起点和终点。峰面积通常可定义为起点和终点之间的响应曲线的积分。
如本文所用,术语“峰的识别”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于峰的定性确定(诸如存在或不存在)和/或峰的定量确定(诸如确定峰的峰面积)。峰面积的确定可包括峰积分,特别是通过使用至少一种数学运算和/或数学算法来确定由质谱响应曲线的峰包围的峰面积。具体地,峰的积分可包括质谱响应曲线的曲线特征的识别和/或测量。峰识别包括确定起点和/或终点。峰识别可进一步包括峰检测、峰发现、峰拟合、峰评估、本底确定和基线确定中的一项或多项。峰积分可允许确定以下项中的一项或多项:峰面积、保留时间、峰高和峰宽。峰识别可为自动的峰识别,即由至少一个计算机和/或计算机网络和/或机器执行的峰识别。具体地,可在无需手动操作或与用户进行交互的情况下执行自动峰识别。
如本文所用,术语“经训练的模型”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于用于识别质谱响应曲线中的峰的模型,该模型在至少一个训练数据集(也称为训练数据)上进行训练。特别是,经训练的模型是在专家先验分类的现有数据上进行训练。这使得能够提供具有增强的可靠性和更不易受变化和错误影响的自动化峰识别。经训练的模型可包括架构和由架构定义的各种滤波器或节点的一组权重。CNN 的架构可反映响应曲线的形状与峰的起点和终点位置之间的复杂关系。
该方法可包括至少一个训练步骤,其中,在训练步骤中,经训练的模型是在至少一个训练数据集上进行训练。训练步骤可为离线训练,而在所提出方法的步骤 b) 中的峰识别可为在线的峰识别。具体地,可在执行步骤 a) 和 b) 之前执行训练步骤。如本文所用,术语“在线的”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于在使用质谱装置的测量过程期间。
该模型使用深度学习回归架构进行了训练。如本文所用,术语“深度学习”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于至少一种与机器学习相关的方法。深度学习可基于至少一个人工神经网络。如本文所用,术语“深度学习回归架构”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于配置用于解决回归问题的深度学习架构。
深度学习回归架构可包括卷积神经网络。卷积神经网络可为多层卷积神经网络。卷积神经网络可包括多个卷积层。卷积层是一维层,即卷积应用于一维时域。通常,卷积层是卷积神经网络中的标准基本结构单元,并因此为本领域技术人员所熟知。在数学上,卷积层对应于将输入数据与卷积核进行卷积的运算(参见例如 en.wikipedia.org/wiki/Convolutional_
neural_network)。如本文所用,术语“卷积层”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于将输入数据与一维卷积核进行卷积的运算。卷积层之后可为多个全连接层。卷积神经网络可包括多个池化层。卷积神经网络的结构对于本领域技术人员而言通常是已知的,诸如来自 en.wikipedia.org/wiki/Convolutional_neural_network#Convolutional。将卷积神经网络用于图像中的对象识别对于本领域技术人员而言通常是已知的。然而,本发明提出了一种使用卷积神经网络进行一维信号分析的新方法。
卷积神经网络 (CNN) 可经配置用于解决回归问题。为了解决回归问题,卷积神经网络可包括作为最终层的回归层,特别是与通常的分类 softmax 层相反。回归层可为全连接层。回归层可具有线性或 sigmoid 激活。因此,本发明提出在回归框架中使用一维卷积神经网络。具体地,本发明提出使用卷积神经网络来拟合将输入映射到峰位置的复杂函数。然而,卷积神经网络可能不能用于将一维信号分类。
训练步骤可包括以下子步骤:
i) 提供至少一个训练数据集,该至少一个训练数据集包括多条输入质谱响应曲线和对应的真实标注值 (ground truth);
ii) 通过在训练数据集上使用深度学习回归架构来确定至少一个模型,其中模型的确定包括确定模型的模型架构和至少一个参数。
步骤 i) 可包括提供多于 100 条、优选多于 1000 条的输入质谱响应曲线。例如,可使用 1270 条维生素 D3 曲线训练模型。步骤 i) 中提供的多条输入质谱响应曲线可通过使用质谱装置执行多次测量来确定。例如,在步骤 i) 中提供的多条输入质谱响应曲线可为或可包括来自特定分析物的 LC-MS 数据,诸如来自维生素 D2 或来自维生素D3。如本文所用,术语“真实标注值”是广义的术语,且将被赋予对于本领域普通技术人员普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于对应的输入质谱响应曲线的峰的起点和终点的实际值或真值。真实标注值可指示峰的位置。例如,真实标注值可为峰位置或峰起点和终点的位置。真实标注值可由经训练的 LC-MS 操作员提供。
对质谱装置的进样可产生四条质谱响应曲线,即两条分析物质谱响应曲线和两条内标质谱响应曲线。训练数据集能够以包括聚合时间向量、两条分析物质谱响应曲线和两条内标质谱响应曲线的五通道向量的形式提供。四条响应曲线的原始时间向量包括从曲线到曲线至少稍微偏离的时间步长。术语“聚合时间向量”可指代四条响应曲线全都插值在同一时间网格上的时间向量。训练数据集可作为输入(也称为输入数据)提供给卷积神经网络。例如,给定长度为 N 的输入质谱响应曲线,输入可为 2xN 矩阵,其中第一行表示 N 个强度值,诸如色谱图的 y 值,且第二行可表示 N 个时间值,诸如色谱图的 x 值。聚合可使卷积神经网络能够在不同的质谱响应曲线之间传播信息,使得例如在给定分析物曲线上的峰特别弱的情况下,可使用其他曲线的峰位置来告知弱曲线的位置。
模型的训练可包括至少一个归一化步骤。归一化步骤可包括关于时间对输入数据进行归一化。归一化步骤可包括平移时间值,使得预期保留时间可在 t = 0 处。归一化步骤可包括将输入数据裁剪到围绕预期保留时间的固定时间窗口。归一化步骤可包括通过以下方式对强度值 Y 本身进行归一化:
Figure 499127DEST_PATH_IMAGE001
模型的训练可包括至少一个增强步骤。为了实现跨分析物的泛化,卷积神经网络可使用考虑质谱响应曲线数据中移位和缩放差异的增强数据进行训练。增强步骤可避免过度训练。增强步骤可包括位置增强和/或缩放增强。位置增强可包括将峰位置移位预定的常数值。位置增强可包括使用滑动窗口。这可考虑到峰变宽和变窄的可能性。缩放增强可包括将峰值缩放预定值,诸如 1.2。对于每个输入质谱响应曲线,可通过使用位置增强随机生成新数据集和使用缩放增强随机生成三个新数据集来补充训练数据集。
该方法可包括在归一化和/或增强的训练数据集上使用深度学习回归架构以及真实标注值。
深度学习回归架构可为由 Keras 库在 Python 中构建的以 TensorFlow 作为后端的卷积神经网络 (CNN)。对于带有 TensorFlow 的 Python 中的 Keras 库,请参阅https://www.tensorflow.org/、https://de.wikipedia.org/wiki/TensorFlow 和https://keras.io/ 或 https://de.wikipedia.org/wiki/Keras。例如,可使用以下设置:可使用自适应矩估计 (Adam) 作为优化器。损失函数可为均方误差。时期的数量可为 500,批量大小为 16,且耐心地提前停止可为 100。
训练步骤可进一步包括使用至少一个测试数据集的至少一个测试步骤。测试步骤可包括对经训练的模型的验证。如本文所用,术语“测试数据集”是一个广义术语且被赋予对本领域普通技术人员而言普通且惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于至少一条质谱响应曲线和未包括在训练数据集中的对应的真实标注值。测试步骤可包括使用经确定的模型确定测试数据集的质谱响应曲线的至少一个峰的起点和终点。经确定的模型的性能可基于测试数据集的质谱响应曲线的经确定的起点和终点以及真实标注值来确定。
该方法可包括通过使用识别出的起点和终点,确定特别是自动地确定在步骤 i)中提供的质谱响应曲线的峰的峰面积。
在本发明进一步的方面,公开了一种计算机程序或识别质谱响应曲线中的至少一个峰,该计算机程序包括指令,当该程序被执行时,这些指令使计算机或计算机网络完全或部分地执行根据本发明的方法的步骤 a) 和 b),诸如根据以上公开的实施例中的任一个和/或根据以下进一步详细公开的实施例中的任一个。步骤 a) 可包括可至少部分地由用户执行的步骤,诸如样品制备步骤。然而,实施例是可能的,其中根据本发明的方法的所有步骤都是全自动执行的。因此,具体地,可通过使用计算机或计算机网络,优选地通过使用计算机程序来执行如以上所指示的一个、多于一个或甚至所有方法步骤 a) 和 b)。具体地,计算机程序可存储在计算机可读数据载体上和/或计算机可读存储介质上。
类似地,公开了一种计算机可读存储介质,其包括指令,当执行这些指令时,使计算机或计算机网络完全或部分地执行根据本发明的方法的步骤 a) 和 b),诸如根据以上公开的实施例中的任一个和/或根据以下进一步详细公开的实施例中的任一个。
如本文所用,术语“计算机可读存储介质”具体地可指非暂时性数据存储装置,诸如其上存储有计算机可执行指令的硬件存储介质。计算机可读数据载体或存储介质具体地可为或可包括诸如随机存取存储器 (RAM) 和/或只读存储器 (ROM) 之类的存储介质。
计算机程序还可体现为计算机程序产品。如本文所用,计算机程序产品可指作为可交易产品的程序。该产品一般可任意格式(诸如纸质格式)存在,或存在于计算机可读数据载体和/或计算机可读存储介质上。具体地讲,计算机程序产品可分布在数据网络上。
本文进一步公开并提出了一种具有存储在其上的数据结构的数据载体,在加载到计算机或计算机网络中之后,诸如在加载到计算机或计算机网络的工作存储器或主存储器中之后,该数据载体可执行根据本文所公开的一个或多个实施例的方法。
本文进一步公开并提出了一种具有存储在机器可读载体上的程序代码工具的计算机程序产品,以便在计算机或计算机网络上执行该程序时,执行根据本文所公开的一个或多个实施例的方法。如本文所用,计算机程序产品是指作为可交易产品的程序。该产品一般可任意格式(诸如纸质格式)存在,或存在于计算机可读数据载体和/或计算机可读存储介质上。具体地讲,计算机程序产品可分布在数据网络上。
本文进一步公开并提出了一种包含可由计算机系统或计算机网络读取的指令的调制数据信号,用于执行根据本文所公开的一个或多个实施例的方法。
参考本发明的计算机实现的方面,可通过使用计算机或计算机网络来执行根据本文所公开的一个或多个实施例的方法的一个或多个方法步骤或甚至所有方法步骤。因此,一般来讲,可通过使用计算机或计算机网络来执行包括提供和/或处理数据的任何方法步骤。一般来讲,这些方法步骤可包括通常除需要手动操作(诸如提供样品和/或执行实际测量的某些方面)的方法步骤之外的任何方法步骤。
具体地,本文进一步公开了:
-计算机或计算机网络,该计算机或计算机网络包括至少一个处理器,其中该处理器适于执行根据本说明书中所描述的实施方案之一的方法,
-计算机可加载数据结构,该计算机可加载数据结构适于当在计算机上执行该数据结构时,执行根据本说明书中所述的实施方案之一的方法,
-计算机程序,其中该计算机程序适于当在计算机上执行该程序时,执行根据本说明书中所描述的实施方案之一的方法,
-计算机程序,该计算机程序包括程序工具,这些程序工具用于当在计算机上或在计算机网络上执行该计算机程序时,执行根据本说明书中所述的实施方案之一的方法,
-计算机程序,该计算机程序包括根据前述实施方案的程序装置,其中这些程序装置存储在计算机可读的存储介质上,
-存储介质,其中数据结构存储在该存储介质上并且其中该数据结构适于在被加载到计算机或计算机网络的主存储器和/或工作存储器中之后,执行根据本说明书中所描述的实施方案之一的方法,以及
-计算机程序产品,该计算机程序产品具有程序代码工具,其中该程序代码工具能够存储在存储介质上或存储在存储介质上,以用于当在计算机或计算机网络上执行该程序代码工具时,执行根据本说明书中所描述的实施方案之一的方法。
在本发明进一步的方面,公开了一种用于监测样品中的至少一种分析物的装置。该装置包括:
-至少一个质谱装置,其经配置用于提供至少一条质谱响应曲线;
-至少一个评估装置,其经配置用于通过使用至少一个经训练的模型来评估质谱响应曲线,从而识别质谱响应曲线的至少一个峰的起点和终点,其中模型是使用深度学习回归架构训练的。
该装置可经配置用于执行根据涉及方法的前述实施例中的任一个所述的用于识别质谱响应曲线中的至少一个峰的方法。对于该装置的特征的定义和该装置的任选特征,可参考如以上所公开的或如以下进一步详细公开的方法的实施例中的一个或多个。
如本文通常所用,术语“评估装置”是广义的术语且将被赋予对于本领域普通技术人员而言其普通和惯常的含义,并且不限于特殊或自定义的含义。该术语具体地可指但不限于经配置用于执行指定的操作的任意装置。评估装置可包括至少一个处理单元。处理单元可为任意逻辑电路,其经配置用于执行计算机或系统的基本操作;和/或通常来讲装置,其经配置用于执行计算或逻辑运算。特别是,处理单元可经配置用于处理驱动计算机或系统的基本指令。作为示例,处理单元可包括至少一个算术逻辑单元 (ALU)、至少一个浮点单元 (FPU)(诸如数学协处理器或数值协处理器)、多个寄存器(具体地是经配置用于向 ALU提供运算数并存储运算结果的寄存器)以及存储器(诸如 L1 和 L2 高速缓冲存储器)。特别是,处理单元可为多核处理器。具体地,处理单元可为或可包括中央处理单元 (CPU)。另外地或另选地,处理单元可为或可包括微处理器,因此,具体地,处理单元的元件可包含在一个单一集成电路 (IC) 芯片中。另外地或另选地,处理单元可为或可包括一个或多个专用集成电路 (ASIC) 和/或一个或多个现场可编程门阵列 (FPGA) 等。处理单元具体地可配置(诸如通过软件编程)用于执行一个或多个评估操作。
评估装置可经配置用于执行根据如以上详细描述或以下更详细描述的本发明的方法的步骤 b)。评估装置可进一步经配置用于执行以上详细描述的或以下更详细描述的训练步骤。
总结并且不排除进一步可能的实施例,可设想以下实施例:
实施例 1:一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法,该方法包括以下步骤:
a) 通过使用至少一个质谱装置提供至少一条质谱响应曲线;
b) 通过使用至少一个经训练的模型评估质谱响应曲线,从而识别质谱响应曲线的至少一个峰的起点和终点,其中使用深度学习回归架构训练模型。
实施例 2:根据前述实施例所述的方法,其中,该深度学习回归架构为卷积神经网络模型。
实施例 3:根据前述实施例所述的方法,其中,该卷积神经网络为多层卷积神经网络。
实施例 4:根据前述实施例所述的方法,其中,该卷积神经网络包括多个卷积层,其中该卷积层为一维层。
实施例 5:根据两个前述实施例中任一个所述的方法,其中,该卷积神经网络包括作为最终层的回归层,其中回归层具有线性或 sigmoid 激活。
实施例 6:根据前述三个实施例中任一个所述的方法,其中,该卷积神经网络包括多个池化层。
实施例 7:根据前述实施例中任一个所述的方法,其中该方法包括至少一个训练步骤,其中该训练步骤包括以下子步骤:
i) 提供至少一个训练数据集,该至少一个训练数据集包括多条输入质谱响应曲线和对应的真实标注值;
ii) 通过在训练数据集上使用深度学习回归架构来确定至少一个模型,其中模型的确定包括确定模型的模型架构和至少一个参数。
实施例 8:根据前述实施例所述的方法,其中该训练数据集是以包括聚合时间向量、两条分析物质谱响应曲线和两条内标质谱响应曲线的五通道向量的形式提供的。
实施例 9:根据两个前述实施例中任一个所述的方法,其中模型的训练包括至少一个归一化步骤和/或至少一个增强步骤。
实施例 10:根据两个前述实施例中任一个所述的方法,其中该训练步骤进一步包括使用至少一个测试数据集的至少一个测试步骤,其中该测试步骤包括使用经确定的模型确定测试数据集的质谱响应曲线的至少一个峰的起点和终点,其中经确定的模型的性能是基于测试数据集的质谱响应曲线的经确定的起点和终点以及真实标注值确定的。
实施例 11:根据前述实施例中任一个所述的方法,其中该方法包括通过使用识别出的起点和终点确定质谱响应曲线的峰的峰面积。
实施例 12:用于识别质谱响应曲线中的至少一个峰的计算机程序,其经配置用于当在计算机或计算机网络上执行时,使计算机或计算机网络完全地或部分地执行根据涉及方法的前述实施例中的任一个所述的用于识别质谱响应曲线中的至少一个峰的方法,其中计算机程序经配置以执行根据涉及方法的前述实施例中任一个所述的用于识别质谱响应曲线中的至少一个峰的方法的至少步骤 b)。
实施例 13:一种具有程序代码工具的计算机程序产品,其中该程序代码工具能够存储在存储介质上或存储在存储介质上,以用于当在计算机上或在计算机网络上执行所述程序代码工具时,执行根据涉及方法的前述实施例中任一个所述的用于识别质谱响应曲线中的至少一个峰的方法的至少步骤 b)。
实施例 14:一种用于监测样品中的至少一种分析物的装置,其包括:
- 至少一个质谱装置,其经配置用于提供至少一条质谱响应曲线;
- 至少一个评估装置,其经配置用于通过使用至少一个经训练的模型来评估质谱响应曲线,从而识别质谱响应曲线的至少一个峰的起点和终点,其中模型是使用深度学习回归架构训练的。
实施例 15:根据前述实施例所述的装置,其中该装置经配置用于执行根据涉及方法的前述实施例中的任一个所述的用于识别质谱响应曲线中的至少一个峰的方法。
附图说明
优选地结合从属权利要求,在随后的实施方案描述中将更详细地公开进一步任选特征和实施方案。其中,如本领域技术人员将认识到的,各个任选特征可按单独的方式以及按任何任意可行的组合来实现。本发明的范围不受优选实施方案的限制。在附图中示意性地描绘了实施方案。其中,这些附图中相同的附图标记是指相同或功能上相当的元件。
在附图中:
图 1 示出了根据本发明的用于识别质谱响应曲线中的至少一个峰的计算机实现的方法的实施例;
图 2 示出了根据本发明的用于监测样品中的至少一种分析物的装置的实施例;
图 3 示出了深度学习回归架构的实施例;
图 4 示出了根据本发明的训练步骤的实施例;
图 5A 至图 5C 示出了归一化和裁剪的实施例;以及
图 6A 和图 6C 示出了增强和缩放的实施例。
具体实施方式
图 1 高度示意性地示出了根据本发明的用于识别质谱响应曲线中的至少一个峰的计算机实现的方法 110 的实施例的流程图。该方法可包括以下步骤:
a) (用附图标记 112 表示)通过使用至少一个质谱装置 114 提供至少一条质谱响应曲线;
b) (用附图标记 116 表示)通过使用至少一个经训练的模型评估质谱响应曲线,从而识别质谱响应曲线的至少一个峰的起点和终点,其中使用深度学习回归架构训练模型118。
图 2 示出了根据本发明的用于监测样品中的至少一种分析物的装置 120(包括质谱装置 114)的实施例。质谱装置 114 可经配置用于基于质荷比来检测至少一种分析物。质谱装置 114 可为或可包括至少一台四极杆分析仪,该分析仪包括至少一个四极杆122 作为滤质器。四极杆质量分析仪可包括多个四极杆。例如,四极杆质量分析仪可为三重四极杆质谱仪。四极杆质量分析仪可包括至少一个电源电路(未示出),该至少一个电源电路经配置用于在四极杆的两对电极之间施加至少一个直流 (DC) 电压和至少一个交流(AC) 电压。电源电路可经配置用于保持每个相对电极对处于相同的电位。电源电路可经配置用于周期性地改变电极对的电荷符号,使得仅在一定的质荷比 m/z 范围内的离子才可能具有稳定的轨迹。滤质器内的离子的轨迹可通过 Mathieu 微分方程来描述。为了测量具有不同 m/z 值的离子,可及时调整 DC 电压和 AC 电压,使得具有不同 m/z 值的离子传输到质谱装置 114 检测器 124。
质谱装置 114 可进一步包括至少一个电离源 126。电离源 126 可经配置用于产生离子,例如来自中性气体分子。电离源 126 可为或可包括选自由以下各项组成的组的至少一个源:至少一个气相电离源,诸如至少一个电子撞击 (EI) 源或至少一个化学电离(CI) 源;至少一个解吸电离源,诸如至少一个等离子体解吸 (PDMS) 源、至少一个快速原子轰击 (FAB) 源、至少一个二次离子质谱 (SIMS) 源、至少一个激光解吸 (LDMS) 源以及至少一个基质辅助激光解吸 (MALDI) 源;至少一个喷雾电离源,诸如至少一个热喷雾(TSP) 源、至少一个大气压化学电离 (APCI) 源、至少一个电喷雾 (ESI) 以及至少一个大气压电离 (API) 源。
质谱装置 114 可包括至少一个检测器 124。检测器可以经配置用于检测输入离子。检测器 124 可经配置用于检测带电粒子。检测器 124 可为或可包括至少一个电子倍增器。
质谱装置 114,特别是质谱装置 114 的检测器 124 和/或至少一个评估装置128,其可经配置用于确定检测到的离子的至少一个质谱。质谱可为像素化的图像。为了确定质谱像素的所得强度,可对用检测器检测到的在一定的 m/z 范围内的信号进行积分。样品中的分析物可由该至少一个评估装置 128 来识别。具体地,评估装置 128 可经配置用于将已知质量与识别质量相关联,或通过特征碎片模式进行关联。
质谱装置 114 可以具体为或可以包括液相色谱质谱装置。质谱装置 114 可连接到和/或可包括至少一台液相色谱仪。液相色谱仪可用作质谱装置 114 的样品制备。样品制备的其他实施例也是可行的,诸如至少一台气相色谱仪。质谱装置 114 可包括至少一台液相色谱仪。液相色谱质谱装置可为或可包括至少一种高性能液相色谱 (HPLC) 装置或至少一种微流液相色谱 (µLC) 装置。液相色谱质谱装置可包括液相色谱 (LC) 装置和质谱(MS) 装置,在当前情况下为滤质器,其中 LC 装置和滤质器经由至少一个接口耦接。耦接LC 装置和 MS 装置的接口可包括电离源,该电离源经配置用于生成分子离子以及将分子离子转移到气相中。接口可进一步包括布置在电离源与滤质器之间的至少一个离子迁移模块。例如,离子迁移模块可为高场不对称波形离子迁移谱 (FAIMS) 模块。
LC 装置可经配置用于将样品的一种或多种目标分析物与样品的其他组分进行分离,以用于使用质谱装置 114 来检测所述一种或多种分析物。LC 装置可包括至少一个 LC柱。例如,LC 装置可为单柱 LC 装置或具有多个 LC 柱的多柱 LC 装置。LC 柱可具有固定相,流动相被泵送穿过该固定相,以便分离和/或洗脱和/或转移目标分析物。液相色谱质谱装置可进一步包括样品制备工位,该样品制备工位用于样品的自动化预处理和制备,每个样品包括至少一种目标分析物。
该样品可为任意测试样品,诸如生物学样品和/或内标样品。样品可包括一种或多种目标分析物。例如,测试样品可选自由以下项组成的组:生理流体,包括血液、血清、血浆、唾液、眼晶状体液、脑脊液、汗液、尿液、乳液、腹水、粘液、滑膜液、腹膜液、羊水、组织、细胞等。样品可在从相应来源获得时直接使用,或者可经过预处理和/或样品制备工作流程。可通过加入内标和/或通过用另一种溶液来进行稀释和/或通过与试剂等进行混合来预处理该样品。例如,一般来讲,目标分析物可为维生素 D、滥用药物、治疗药物、激素和代谢物。内标样品可为包括至少一种具有已知浓度的内标物质的样品。关于样品的相应进一步细节,参考例如 EP 3 425 369 A1,其全部公开内容通过引用包含在本文中。其他目标分析物也是可能的。
在步骤 a) 112 中提供的质谱响应曲线可为信号强度的一维表示。质谱响应曲线只有一个维度。可通过确定和/或产生质谱响应曲线和/或使质谱响应曲线可用,特别是通过用质谱装置 114 执行至少一次测量来提供质谱响应曲线。
在步骤 b) 116 中评估质谱响应曲线可包括执行质谱响应曲线的至少一次分析。评估 116 可包括识别至少一个峰和/或确定峰的起点和终点和/或确定峰的峰面积。评估116 可包括应用至少一种滤波器和/或使用本底扣除技术和/或使用至少一种拟合路由等。
质谱响应曲线的峰可为质谱响应曲线的至少一个局部最大值。峰的起点可为下峰边界。起点可为限定下峰边界的时间轴的点。在起点之后,质谱响应曲线上升到局部最大值。起点可为峰积分开始的点。质谱响应曲线的终点可为上峰边界。终点可为限定上峰边界的时间轴的点。质谱响应曲线在达到终点处噪音和/或本底水平之前下降。终点可为峰积分结束的点。起点和终点可为时间轴上被识别为峰界限的点。针对训练数据集的起点和终点的值(将在以下更详细地描述)可由经训练的用户通过手动评估来确定。经训练的模型可为进一步的数据提供起点和终点。峰面积通常可定义为起点和终点之间的响应曲线的积分。
步骤 b) 116 可包括峰的识别。峰的识别可包括峰的定性确定(诸如存在或不存在)和/或峰的定量确定(诸如确定峰的峰面积)。峰面积的确定可包括峰积分,特别是通过使用至少一种数学运算和/或数学算法来确定由质谱响应曲线的峰包围的峰面积。具体地,峰的积分可包括质谱响应曲线的曲线特征的识别和/或测量。峰识别包括确定起点和/或终点。峰识别可进一步包括峰检测、峰发现、峰拟合、峰评估、本底确定和基线确定中的一项或多项。峰积分可允许确定以下项中的一项或多项:峰面积、保留时间、峰高和峰宽。峰识别可为自动的峰识别,即由至少一个计算机和/或计算机网络和/或机器执行的峰识别。具体地,可在无需手动操作或与用户进行交互的情况下执行自动峰识别。
在步骤 b) 116 中使用的经训练的模型可为或可包括用于识别质谱响应曲线中的峰的模型,该模型是在至少一个训练数据集(也称为训练数据)上进行训练。特别是,经训练的模型是在专家先验分类的现有数据上进行训练。这使得能够提供具有增强的可靠性和更不易受变化和错误影响的自动化峰识别。经训练的模型可包括架构和由架构定义的各种滤波器或节点的一组权重。CNN 的架构可反映响应曲线的形状与峰的起点和终点位置之间的复杂关系。
方法 110 可包括至少一个训练步骤 130,其中,在训练步骤 130 中,经训练的模型是在至少一个训练数据集上训练。训练步骤 130 可为离线的训练,而所提出方法的步骤b) 116 中的峰的识别可为在线的峰的识别。具体地,可在执行步骤 a) 112 和 b) 116 之前执行训练步骤 130。
该模型使用深度学习回归架构 118 进行训练。深度学习回归架构 118 可为经配置用于解决回归问题的深度学习架构。
深度学习回归架构 118 可包括卷积神经网络。卷积神经网络可为多层卷积神经网络。图 3 示出了深度学习回归架构 118 的实施例。卷积神经网络可包括至少一个特征学习部分 132。特征学习部分可包括多个卷积层 134。卷积层 134 是一维层,即卷积应用于一维时域。每个卷积层 134 可包括至少一个整流线性单元,也称为 ReLU。卷积神经网络118 可包括多个池化层 136。卷积神经网络的结构对于本领域技术人员而言通常是已知的,诸如来自 https://en.wikipedia.org/wiki/Convolutional_neural_network#Convolutional。将卷积神经网络用于图像中的对象识别对于本领域技术人员而言通常是已知的。然而,本发明提出了一种使用卷积神经网络进行一维信号分析的新方法。
卷积神经网络 118 可经配置用于解决回归问题。为了解决回归问题,卷积神经网络 118 可包括作为最终层的回归层 138,特别是与通常的分类 softmax 层相反。卷积神经网络 118 可包括至少一个展平层 140。
回归层 138 可为全连接层 139。回归层 138 可具有线性或 sigmoid 激活。因此,本发明提出在回归框架中使用一维卷积神经网络。具体地,本发明提出使用卷积神经网络 118 来拟合将输入映射到峰值位置的复杂函数。然而,卷积神经网络 118 可能不能用于将一维信号分类。
图 4 示出了训练步骤 130 的实施例。训练步骤可包括以下子步骤:
i) (用附图标记 142 表示)提供至少一个训练数据集,其包括多条输入质谱响应曲线和对应的真实标注值;
ii) (用附图标记 144 表示)通过在训练数据集上使用深度学习回归架构 118来确定至少一个模型,其中模型的确定包括确定模型的模型架构和至少一个参数。
步骤 i) 142 可包括提供多于 100 条、优选多于 1000 条的输入质谱响应曲线。例如,可使用 1270 条维生素 D3 曲线训练模型。在步骤 i) 142 中提供的多条输入质谱响应曲线可通过使用质谱装置执行多次测量来确定。例如,在步骤 i) 142 中提供的多条输入质谱响应曲线可为或可包括来自特定分析物的 LC-MS 数据,诸如来自维生素 D2 或来自维生素 D3 的 LC-MS 数据。真实标注值可为对应的输入质谱响应曲线的峰的起点和终点的实际值或真值。真实标注值可指示峰的位置。真实标注值可由经训练的 LC-MS 操作员提供。
对质谱装置 114 的进样可产生四条质谱响应曲线,即两条分析物质谱响应曲线和两条内标质谱响应曲线。训练数据集能够以包括聚合时间向量、两条分析物质谱响应曲线和两条内标质谱响应曲线的五通道向量的形式提供。四条响应曲线的原始时间向量包括从曲线到曲线至少稍微偏离的时间步长。聚合时间向量可为四条响应曲线全都插值在同一时间网格上的时间向量。训练数据集可作为输入(也称为输入数据)提供给卷积神经网络。例如,给定长度为 N 的输入质谱响应曲线,输入可为 2xN 矩阵,其中第一行表示 N 个强度值,诸如色谱图的 y 值,且第二行可表示 N 个时间值,诸如色谱图的 x 值。聚合可使卷积神经网络能够在不同的质谱响应曲线之间传播信息,使得例如在给定分析物曲线上的峰特别弱的情况下,可使用其他曲线的峰位置来告知弱曲线的位置。
模型的训练 130 可包括至少一个归一化步骤 146。归一化步骤 146 可包括关于时间对输入数据进行归一化。归一化步骤 146 可包括平移时间值,使得预期保留时间可在t = 0 处,图 5B。归一化步骤 146 可包括将输入数据裁剪到围绕预期保留时间的固定时间窗口。归一化步骤 146 可包括通过以下方式对强度值 Y 本身进行归一化:
Figure 885109DEST_PATH_IMAGE002
图 5A 到 5C 示出了归一化和裁剪的实施例。图 5A 示出了强度 I 作为原始输入数据的时间(以分钟为单位)的函数。图 5B 示出了时间归一化后的输入数据,且图 5C示出了强度进一步归一化和裁剪后的输入数据。圆圈 148 表示针对峰起点的真实标注值,且相应地圆圈 150 表示峰结束位置的真实标注值。
模型的训练 130 可包括至少一个增强步骤 152。为了实现跨分析物的泛化,卷积神经网络可使用考虑质谱响应曲线数据中移位和缩放差异的增强数据进行训练。增强步骤152 可使避免过度训练。增强步骤 152 可包括位置增强和/或缩放增强。位置增强可包括将峰位置移位预定的常数值。位置增强可包括使用滑动窗口。这可考虑到峰变宽和变窄的可能性。缩放增强可包括将峰值缩放预定值,诸如 1.2。对于每个输入质谱响应曲线,可通过使用位置增强随机生成新数据集和使用缩放增强随机生成三个新数据集来补充训练数据集。图 6B 示出了具有真实标注值 148 和 150 的原始输入数据。图 6A 显示了位置增强,其中描绘了原始曲线 154 和增强曲线 156。图 6C 示出了 1.2 倍的缩放增强。
深度学习回归架构 118 可为由 Keras 库在 Python 中以 TensorFlow 作为后端构建的卷积神经网络 (CNN)。对于带有 TensorFlow 的 Python 中的 Keras 库,请参阅https://www.tensorflow.org/、https://de.wikipedia.org/wiki/TensorFlow 和https://keras.io/ 或 https://de.wikipedia.org/wiki/Keras。例如,可使用以下设置:可使用自适应矩估计 (Adam) 作为优化器。损失函数可为均方误差。时期的数量可为 500,批量大小为 16,且耐心地提前停止可为 100。
训练步骤 130 可包括在归一化和/或增强的训练数据集上使用深度学习回归架构 118 以及真实标注值。作为输出 158,可提供模型的模型架构和至少一个参数。
训练步骤 130 进一步可包括使用至少一个测试数据集的至少一个测试步骤160。测试步骤 160 可包括经训练的模型的验证。测试数据集可包括至少一条,优选地多条质谱响应曲线和未包括在训练数据集中的对应的真实标注值。测试步骤 160 可包括使用经确定的模型确定测试数据集的质谱响应曲线的至少一个峰的起点和终点。经确定的模型的性能可基于测试数据集的质谱响应曲线的经确定的起点和终点以及真实标注值来确定。
在实验设置中,深度学习回归架构 118 受到了来自 488 个不同样品的色谱图的1462 条曲线,特别是片段曲线的训练。色谱图包含真实标注值。对于测试步骤 160,为了最终验证,保留 10% 或 49 个样品。对于测试步骤 160,为了交叉验证,从 488 个样品中,选用 439 个样品来训练算法。为了交叉验证,将 439 个样品分为 5 组。5 组中有 4 组用于训练 130,一组用于测试 160。所有可能的排列都会发生。发现根据本发明的方法 110很好地概括了分析物并提高了 LC-MS 的准确性,从而有望增强自动峰识别的可靠性。
下表示出了当模型是在特定分析物和测量系统(表示为增强数据系统2)上进行训练并应用于另一个分析物和测量系统(表示为增强数据系统1)时的性能(峰位置 R2)。它含有相似的分析物,维生素 D2 和维生素 D3 以及一种完全不同的物质,睾酮。
结果 峰位置 R<sup>2</sup>
在增强数据系统2 上关于维生素 D3 的训练;在数据系统2 上关于睾酮的测试 0.91
在增强数据系统2 上关于维生素 D3 的训练。在数据系统1 上关于维生素 D3 的测试 0.95
在增强数据系统2 上关于维生素 D3 的训练。在数据系统1 上关于维生素 D2 的测试 0.95
附图标记列表
110 方法
112 步骤 a)
114 质谱装置
116 步骤 b)
118 深度学习回归架构
120 装置
122 四极杆
124 检测器
126 电离源
128 评估装置
130 训练步骤
132 特征学习部分
134 卷积层
136 池化层
138 回归层
139 全连接层
140 展平层
142 步骤 i)
144 步骤 ii)
146 归一化步骤
148 圆圈
150 圆圈
152 增强步骤
154 原始曲线
156 增强曲线
158 输出端
160 测试步骤。

Claims (14)

1. 一种用于识别质谱响应曲线中的至少一个峰的计算机实现的方法 (110),所述方法包括以下步骤:
a)通过使用至少一个质谱装置 (114) 提供 (112) 至少一条质谱响应曲线;
b)通过使用至少一个经训练的模型评估 (116) 所述质谱响应曲线从而识别所述质谱响应曲线的至少一个峰的起点和终点,其中所述模型是使用深度学习回归架构 (118) 训练的。
2. 根据前述权利要求所述的方法 (110),其中所述深度学习回归架构 (118) 包括卷积神经网络。
3. 根据前述权利要求所述的方法 (110),其中所述卷积神经网络为多层卷积神经网络。
4. 根据前述权利要求所述的方法 (110),其中所述卷积神经网络包括多个卷积层(134),其中所述卷积层 (134) 为一维层。
5. 根据两项前述权利要求中任一项所述的方法 (110),其中所述卷积神经网络包括作为最终层的回归层 (138),其中所述回归层 (138) 具有线性或 sigmoid 激活。
6. 根据前述权利要求中任一项所述的方法 (110),其中所述方法包括至少一个训练步骤 (130),其中所述训练步骤包括以下子步骤:
i)提供 (142) 至少一个训练数据集,所述训练数据集包括多条输入质谱响应曲线和对应的真实标注值;
ii) 通过在所述训练数据集上使用所述深度学习回归架构 (118) 来确定 (144) 至少一个模型,其中所述模型的确定包括确定所述模型的模型架构和至少一个参数。
7. 根据前述权利要求所述的方法 (110),其中所述训练数据集是以包括聚合时间向量、两条分析物质谱响应曲线和两条内标质谱响应曲线的五通道向量的形式提供的。
8. 根据两项前述权利要求中任一项所述的方法 (110),其中所述模型的训练 (130)包括至少一个归一化步骤 (146) 和/或至少一个增强步骤 (152)。
9. 根据两项前述权利要求中任一项所述的方法 (110),其中所述训练步骤 (130) 进一步包括使用至少一个测试数据集的至少一个测试步骤 (160),其中所述测试步骤 (160)包括使用经确定的模型来确定测试数据集的质谱响应曲线的至少一个峰的起点和终点,其中所述经确定的模型的性能是基于所述测试数据集的所述质谱响应曲线的经确定的起点和终点以及真实标注值确定的。
10. 根据前述权利要求中任一项所述的方法 (110),其中所述方法包括通过使用识别出的起点和终点来确定所述质谱响应曲线的所述峰的峰面积。
11. 用于识别质谱响应曲线中的至少一个峰的计算机程序,所述计算机程序经配置用于当在计算机或计算机网上执行时,使所述计算机或计算机网络完全地或部分地执行根据涉及方法的前述权利要求中任一项所述的用于识别质谱响应曲线中的至少一个峰的所述方法 (110),其中所述计算机程序经配置以执行根据涉及方法的前述权利要求中任一项所述的用于识别质谱响应曲线中的至少一个峰的所述方法的至少步骤 b)。
12. 一种具有程序代码工具的计算机程序产品,其中所述程序代码工具能够存储在存储介质上或存储在存储介质上,以用于当在计算机上或在计算机网络上执行所述程序代码工具时执行根据涉及方法的前述权利要求中任一项所述的用于识别质谱响应曲线中的至少一个峰的所述方法 (110) 的至少步骤 b)。
13. 一种用于监测样品中的至少一种分析物的装置 (120),所述装置包括:
-至少一个质谱装置 (114),所述至少一个质谱装置经配置用于提供至少一条质谱响应曲线;
-至少一个评估装置 (128),所述至少一个评估装置经配置用于通过使用至少一个经训练的模型来评估所述质谱响应曲线,从而识别所述质谱响应曲线的至少一个峰的起点和终点,其中所述模型是使用深度学习回归架构 (118) 训练的。
14. 根据前述权利要求所述的装置 (120),其中所述装置 (120) 经配置用于执行根据涉及方法的前述权利要求中任一项所述的用于识别质谱响应曲线中的至少一个峰的方法。
CN202180024754.9A 2020-03-27 2021-03-26 用于识别质谱响应曲线中的至少一个峰的计算机实现的方法 Pending CN115280143A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20166187 2020-03-27
EP20166187.3 2020-03-27
PCT/EP2021/057935 WO2021191421A1 (en) 2020-03-27 2021-03-26 Computer implemented method for identifying at least one peak in a mass spectrometry response curve

Publications (1)

Publication Number Publication Date
CN115280143A true CN115280143A (zh) 2022-11-01

Family

ID=70056863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180024754.9A Pending CN115280143A (zh) 2020-03-27 2021-03-26 用于识别质谱响应曲线中的至少一个峰的计算机实现的方法

Country Status (5)

Country Link
US (1) US20230003697A1 (zh)
EP (1) EP4127706A1 (zh)
JP (1) JP2023518353A (zh)
CN (1) CN115280143A (zh)
WO (1) WO2021191421A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114755357A (zh) * 2022-04-14 2022-07-15 武汉迈特维尔生物科技有限公司 一种色谱质谱自动积分方法、系统、设备、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0395481A2 (en) * 1989-04-25 1990-10-31 Spectra-Physics, Inc. Method and apparatus for estimation of parameters describing chromatographic peaks
US20120089344A1 (en) * 2010-10-07 2012-04-12 Wright David A Methods of Automated Spectral Peak Detection and Quantification Having Learning Mode
EP3467493A1 (en) * 2016-05-30 2019-04-10 Shimadzu Corporation Chromatograph device
WO2019092836A1 (ja) * 2017-11-09 2019-05-16 富士通株式会社 波形解析装置
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法
CN110838340A (zh) * 2019-10-31 2020-02-25 军事科学院军事医学研究院生命组学研究所 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
CN110895799A (zh) * 2018-09-13 2020-03-20 岛津分析技术研发(上海)有限公司 提高质谱谱图质量的方法、计算机存储介质、以及电子终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219038B2 (en) 2005-03-22 2007-05-15 College Of William And Mary Automatic peak identification method
EP1997050B1 (en) 2006-02-06 2016-08-10 Siemens Healthcare Diagnostics Inc. Methods for resolving convoluted peaks in a chromatogram
ES2894840T3 (es) 2017-07-04 2022-02-16 Hoffmann La Roche Sistema y procedimiento de diagnóstico clínico automatizado

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0395481A2 (en) * 1989-04-25 1990-10-31 Spectra-Physics, Inc. Method and apparatus for estimation of parameters describing chromatographic peaks
US20120089344A1 (en) * 2010-10-07 2012-04-12 Wright David A Methods of Automated Spectral Peak Detection and Quantification Having Learning Mode
WO2012047417A1 (en) * 2010-10-07 2012-04-12 Thermo Finnigan Llc Learned automated spectral peak detection and quantification
EP3467493A1 (en) * 2016-05-30 2019-04-10 Shimadzu Corporation Chromatograph device
WO2019092836A1 (ja) * 2017-11-09 2019-05-16 富士通株式会社 波形解析装置
CN110895799A (zh) * 2018-09-13 2020-03-20 岛津分析技术研发(上海)有限公司 提高质谱谱图质量的方法、计算机存储介质、以及电子终端
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法
CN110838340A (zh) * 2019-10-31 2020-02-25 军事科学院军事医学研究院生命组学研究所 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BECH RISUM ET.AL: ""using deep learning to evaluate peaks in chromatographic data"", 《TALANTA》, no. 204, pages 255 - 260 *

Also Published As

Publication number Publication date
WO2021191421A1 (en) 2021-09-30
JP2023518353A (ja) 2023-05-01
EP4127706A1 (en) 2023-02-08
US20230003697A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
CN104170052B (zh) 用于改进的质谱分析法定量作用的方法和装置
Sugimoto et al. Prediction of metabolite identity from accurate mass, migration time prediction and isotopic pattern information in CE‐TOFMS data
Gika et al. A QC approach to the determination of day-to-day reproducibility and robustness of LC–MS methods for global metabolite profiling in metabonomics/metabolomics
CN110214271B (zh) 分析数据解析方法以及分析数据解析装置
CN108982729A (zh) 用于提取质量迹线的系统和方法
WO2023031447A1 (en) Method for automated quality check of chromatographic and/or mass spectral data
CN112017734B (zh) 包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质
US20140361158A1 (en) Methods for Predictive Automatic Gain Control for Hybrid Mass Spectrometers
Yu et al. A chemometric-assisted method based on gas chromatography–mass spectrometry for metabolic profiling analysis
US20230003697A1 (en) Computer-implemented method for identifying at least one peak in a mass spectrometry response curve
Feng et al. Dynamic binning peak detection and assessment of various lipidomics liquid chromatography-mass spectrometry pre-processing platforms
Tong et al. A simpler method of preprocessing MALDI-TOF MS data for differential biomarker analysis: stem cell and melanoma cancer studies
Eisenhofer et al. Steroid metabolomics: machine learning and multidimensional diagnostics for adrenal cortical tumors, hyperplasias, and related disorders
Inglese et al. Mass recalibration for desorption electrospray ionization mass spectrometry imaging using endogenous reference ions
JP7334788B2 (ja) 波形解析方法及び波形解析装置
Woldegebriel et al. A new Bayesian approach for estimating the presence of a suspected compound in routine screening analysis
CN115004307A (zh) 用于在复杂生物学或环境样品中鉴定化合物的方法和系统
WO2024013240A1 (en) A method for quality check of at least one lc-ms measurement
EP3924730B1 (en) Apparatus and method for targeted compound analysis
JP2023553964A (ja) 少なくとも1つの質量分析装置のパラメータ設定を最適化するための方法
US20230335221A1 (en) Data-analyzing method, data-analyzing device, and sample analyzer
JP2023541926A (ja) 少なくとも1つのクロマトグラムにおける少なくとも1つの干渉および/または少なくとも1つのアーチファクトを検出するためのコンピュータ実装方法
JP2023506285A (ja) 複数の反復ハードウェア構成要素を有する少なくとも1つの分析装置を較正するための方法
JP2008224636A (ja) 質量分析システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination