CN117916590A

CN117916590A - 用于色谱和/或质谱数据的自动质量检查的方法

Info

Publication number: CN117916590A
Application number: CN202280059853.5A
Authority: CN
Inventors: K·塔拉索夫; A·赖歇特; M·胡梅尔; R·朗; M·瓦格纳
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2021-09-06
Filing date: 2022-09-05
Publication date: 2024-04-19
Also published as: WO2023031447A1; EP4399518A1; US20240385154A1; JP2024534939A

Abstract

本发明公开了一种用于色谱和/或质谱数据的自动质量检查的计算机实现方法。所述方法包括以下步骤：a)(110)提供通过至少一个质谱装置(112)获得的经处理的色谱和/或质谱数据；b)(114)通过将至少一个经训练的机器学习模型应用于所述色谱和/或质谱数据来对所述色谱和/或质谱数据的质量进行分类，其中所述经训练的机器学习模型使用至少一个回归模型(116)，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对所述经训练的机器学习模型进行训练，其中所述经训练的机器学习模型为分析物特定的经训练的机器学习模型。

Description

用于色谱和/或质谱数据的自动质量检查的方法

技术领域

本发明涉及一种用于色谱和/或质谱数据的自动质量检查的方法、一种测试系统、一种计算机程序和一种计算机程序产品。本发明所提出的方法和装置可用于质谱技术领域，具体地是用于液相色谱-质谱。

背景技术

当前的质谱(MS)数据处理通常需要对所有采集的数据进行手动数据检查，并且由于错误率高，随后需要对大约5％-20％的结果进行手动校正。上述操作由经训练的操作员通过对数百个图进行繁琐的目视分析来进行。对通过使用MS仪器(诸如液相色谱联用质谱(LC-MS)或串联质谱(LC-MS/MS))获得的不可信数据进行手动标记是耗时的。然而，只有少数解决方案可以标记由自动峰积分生成的不可信结果。建议方法的目的是通过专注于有问题的结果来减少人工检查的量。然而，仍有很大一部分数据需要修改，并且可能需要人工重新集成。

进一步地，这些方法中的一些方法依赖于机器学习方法。然而，由于这些方法取决于真实的训练数据集，因此它们是根据特定的实验室设置量身定制的，被主观地标记为“好”或“坏”，并且样品量有限。

例如，www.indigobio.com/ascent/描述了ASCENT的峰处理器，该处理器仍可能遇到需要人工检验的情况。ASCENT会通知您应该检查的峰，并为它们提供一组以峰为中心的标记。这种方法可能会减少但不能替换手动峰检查。同样，Yu M,Bazydlo LAL,Bruns DE,Harrison JH Jr.,"Streamlining Quality Review of Mass Spectrometry Data in theClinical Laboratory by Use of Machine Learning",Arch Pathol Lab Med.2019年8月；143(8):990-998.doi:10.5858/arpa.2018-0238-OA描述了确定使用标准机器学习算法创建的分类模型是否可以验证分析上可接受的MS结果，并且从而减少人工检查要求。所提出的技术可以减少但不能替换手动峰检查。Toghi Eshghi S,Auger P,Mathews WR,“Quality assessment and interference detection in targeted mass spectrometrydata using machine learning”,Clin Proteomics.2018年10月6日；15:33.doi:10.1186/s12014-018-9209-x描述了算法充分利用监督机器学习以基于已经由专家分析师注释的一组峰来识别带有干扰或色谱不良的峰。使用TargetedMSQC分析目标蛋白质组数据减少人工检验峰所花费的时间，并改善干扰检测的速度和准确性两者。同样，所提出的技术可以减少但不能替换手动峰检查。

待解决的问题

因此，本发明的目的是提供一种用于色谱和/或质谱数据的自动质量检查的方法、一种测试系统、一种计算机程序和一种计算机程序产品，其避免了已知方法、装置、计算机程序和计算机程序产品的上述缺点。特别地，应当提供允许替换人工峰检查的方法和装置。

发明内容

该问题通过具有独立权利要求的特征的一种用于色谱和/或质谱数据的自动质量检查的方法、一种测试系统、一种计算机程序和一种计算机程序产品来解决。在从属权利要求中以及整个说明书中，列出了可以以单独方式或以任意组合实现的有利实施例。

如下文所使用的，术语“具有”、“包括”或“包含”或它们的任意语法变化形式以非排他性方式使用。因此，这些术语既可以指除了由这些术语引入的特征之外，在此上下文中描述的实体中不存在其他特征的情况，也可以指存在一个或多个其他特征的情况。作为示例，表述“A具有B”、“A包括B”和“A包含B”既可以指其中除B之外，A中不存在其他要素的情况(即，其中A由B单独且唯一地组成的情况)，也可以指其中除B之外，实体A中还存在一个或多个其他要素(诸如要素C、要素C和要素D或甚至其他要素)的情况。

进一步地，应注意，指示特征或要素可存在一次或多于一次的术语“至少一个”、“一个或多个”或类似表述通常在引入相应特征或要素时仅使用一次。在下文中，在大多数情况下，当提及相应的特征或元素时，尽管相应的特征或元素可能只存在一次或多次，但不会重复使用表述“至少一个”或“一个或多个”。

此外，如下文所使用的，术语“优选地”、“更优选地”、“特别地”、“更特别地”、“具体地”、“更具体地”或类似的术语与任选特征结合使用，而不限制替代性的可能性。因此，由这些术语引入的特征是任选特征，并且不旨在以任何方式限制权利要求的范围。如技术人员将认识到的，本发明可以通过使用替代性特征来进行。类似地，由“在本发明的一个实施例中”引入的特征或类似表述旨在成为任选特征，而对本发明的替代性实施例没有任何限制、对本发明的范围没有任何限制，并且对将以这种方式引入的特征与本发明的其他任选或非任选特征相组合的可能性也没有任何限制。

在第一方面，提出了一种用于色谱和/或质谱数据的自动质量检查的计算机实现方法。

如本文所用，术语“计算机实现方法”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于涉及至少一台计算机和/或至少一个计算机网络的方法。计算机和/或计算机网络可以包括至少一个处理器，该至少一个处理器经配置用于进行根据本发明的方法的方法步骤中的至少一个方法步骤。优选地，每个方法步骤由计算机和/或计算机网络进行。该方法可完全自动地(具体地，在没有用户交互的情况下)进行。如本文所用，术语“自动地”和“自动”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于完全借助于至少一台计算机和/或至少一个计算机网络和/或至少一台机器来进行的过程，特别地，不需要手动操作和/或与用户交互。

如本文所用，术语“质谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于通过使用至少一个质谱装置(特别是至少一个质谱图)获得的数据。

如本文所用，术语“色谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于通过使用至少一个色谱装置(例如，至少一个液相色谱仪)获得的数据。色谱数据可以包括至少一个色谱图。

如本文所用，术语“质谱”是广义的术语，且将被赋予对于本领域普通技术人员普通和惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于用于确定离子的质荷比的分析技术。可使用至少一个质谱装置进行质谱分析法。如本文所用，术语“质谱装置”，也称为“质量分析仪”，是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于经配置用于基于质荷比来检测至少一种分析物的分析仪。质量分析仪可为或可包括至少一台四极杆分析仪。如本文所用，术语“四极杆质量分析仪”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于包括至少一个四极杆作为滤质器的质量分析仪。四极杆质量分析仪可包括多个四极杆。例如，四极杆质量分析仪可为三重四极杆质谱仪。如本文所用，术语“滤质器”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于经配置用于根据离子的质荷比m/z来选择注入到滤质器的离子的装置。滤质器可包括两对电极。电极可为杆状的，特别是柱形的。在理想情况下，电极可为双曲线的。电极可被设计为相同的。电极可布置为沿公共轴例如z轴平行延伸。四极杆质量分析仪可包括至少一个电源电路，该至少一个电源电路经配置用于在滤质器的该两对电极之间施加至少一个直流(DC)电压和至少一个交流(AC)电压。电源电路可经配置用于保持每个相对电极对处于相同的电位。电源电路可经配置用于周期性地改变电极对的电荷符号，使得仅在一定的质荷比m/z范围内的离子才可能具有稳定的轨迹。滤质器内的离子的轨迹可通过Mathieu微分方程来描述。为了测量具有不同m/z值的离子，可及时调整DC电压和AC电压，使得可将具有不同m/z值的离子传输到检测器质谱装置。

质谱装置可进一步包括至少一个电离源。如本文所用，术语“电离源”，也称为“离子源”，是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于经配置用于例如从中性气体分子生成离子的装置。电离源可为或可包括选自由以下项组成的组的至少一个源：至少一个气相电离源，诸如至少一个电子撞击(EI)源或至少一个化学电离(CI)源；至少一个解吸电离源，诸如至少一个等离子体解吸(PDMS)源、至少一个快速原子轰击(FAB)源、至少一个二次离子质谱(SIMS)源、至少一个激光解吸(LDMS)源以及至少一个基质辅助激光解吸(MALDI)源；至少一个喷雾电离源，诸如至少一个热喷雾(TSP)源、至少一个大气压化学电离(APCI)源、至少一个电喷雾(ESI)以及至少一个大气压电离(API)源。

质谱装置可包括至少一个检测器。如本文所用，术语“检测器”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于经配置用于检测输入离子的设备。检测器可经配置用于检测带电粒子。检测器可为或可包括至少一个电子倍增器。

质谱装置，特别是质谱装置的检测器和/或至少一个处理单元，可以经配置以确定经检测的离子的至少一个质谱图。如本文所用，术语“质谱图”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于信号强度相比荷质比m/z的二维表示，其中该信号强度对应于相应离子的丰度。质谱图可为像素化的图像。为了确定质谱图像素的所得强度，可对用检测器检测到的在一定的m/z范围内的信号进行积分。样品中的分析物可以通过处理单元来识别。具体地，处理单元可以经配置用于将已知的质量与经识别的质量相关联或通过特征裂解模式来配置。

质谱装置可为或可包括液相色谱质谱装置。质谱装置可连接到和/或可包括至少一台液相色谱仪。液相色谱仪可用作质谱装置的样品制备。样品制备的其他实施例也是可行的，诸如至少一台气相色谱仪。如本文所用，术语“液相色谱质谱装置”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于液相色谱与质谱的组合。质谱装置可包括至少一台液相色谱仪。液相色谱质谱装置可为或可包括至少一种高性能液相色谱(HPLC)装置或至少一种微流液相色谱(μLC)装置。液相色谱质谱装置可包括液相色谱(LC)装置和质谱(MS)装置，在当前情况下为滤质器，其中LC装置和滤质器经由至少一个接口耦接。耦接LC装置和MS装置的接口可包括电离源，该电离源经配置用于生成分子离子以及将分子离子转移到气相中。接口可进一步包括布置在电离源与滤质器之间的至少一个离子迁移模块。例如，离子迁移模块可为高场不对称波形离子迁移谱(FAIMS)模块。

如本文所用，术语“液相色谱(LC)装置”是广义的术语且被赋予其对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于分析模块，该分析性模块配置为将样品的一种或多种目标分析物与样品的其他组分进行分离，以用于使用质谱装置来检测所述一种或多种分析物。LC装置可包括至少一个LC柱。例如，LC装置可为单柱LC装置或具有多个LC柱的多柱LC装置。LC柱可具有固定相，流动相被泵送穿过该固定相，以便分离和/或洗脱和/或传输目标分析物。液相色谱质谱装置可进一步包括样品制备工位，该样品制备工位用于样品的自动化预处理和制备，每个样品包括至少一种目标分析物。

如本文所用，术语“质量检查”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不将限于特殊或自定义的含义。该术语具体可以指但不限于区分可信的和不可信的自动峰积分的过程。质量检查可以包括确定峰积分过程是否完成(即所计算的标称信号是否可用、数据质量是否适合自动峰积分以及所计算的标称信号和读数是否可信)的信息。

如本文所用，术语“质量”是广义的术语且将被赋予对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于对通过MS装置和/或LC装置提供的数据进行的自动峰积分的可靠性的计量。经分类的质量可以用于区分可接受的与不可接受的色谱和/或质谱数据。具体地，对于可靠的自动峰积分，质量可以被分类为好(可接受的)，并且对于不可靠的自动峰积分，质量可以被分类为坏(不可接受的)。质量的分类可以包括区分可靠的与不可靠的自动峰积分。质量可能取决于几种因素，诸如噪声水平、背景、无法从目标峰中分辨出的干扰、保留时间偏移、峰宽以及内标信号的存在或不存在。

该方法包括以下步骤，作为示例，可按照给定顺序进行以下步骤。然而，应当注意，不同的顺序也是可能的。此外，还可以一次或重复进行一个或多个方法步骤。此外，可以同时或以及时重叠的方式进行两个或更多个方法步骤。该方法可以包括未列出的其他方法步骤。

所述方法包括以下步骤：

a)提供通过至少一个质谱装置获得的经处理的色谱和/或质谱数据；

b)通过将至少一种经训练的机器学习模型应用于色谱和/或质谱数据来对该色谱和/或质谱数据的质量进行分类，其中经训练的机器学习模型使用至少一个回归模型，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对经训练的机器学习模型进行训练，其中该经训练的机器学习模型为分析物特定的经训练的机器学习模型。

如本文所用，术语“经处理的色谱和/或质谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于已经经历过自动峰积分的色谱和/或质谱数据。关于自动峰积分，参考WO 2021/023865 A1，其全部内容通过引用并入。

如本文所用，术语“提供”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于确定和/或生成经处理的色谱和/或质谱数据和/或使经处理的色谱和/或质谱数据可用的过程，特别是通过用质谱装置进行至少一次测量以及随后的数据处理。因此，如本文所用，术语“提供经处理的色谱和/或质谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于在特定接收时检索从质谱装置获得的经数据处理的色谱和/或质谱数据和/或利用质谱装置进行至少一次测量和处理从而确定经处理的色谱和/或质谱数据。

如本文所用的术语“分类”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于将色谱和/或质谱数据分类为至少两个类别的过程，诸如对于可靠的自动峰积分的好或可信的以及对于不可靠的自动峰积分的坏或不可信的。通过应用至少一个经训练的机器学习模型来进行分类。因此，根据本发明，至少一种机器学习模型用于预测峰积分的故障并且可以提供关于结果发布的完全自动化的决策。因此，所提出的方法允许消除人工检验数据的需要。

如本文所用，术语“机器学习模型”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于使用机器学习(具体地深度学习或其他形式的人工智能)在至少一个训练数据集上可训练的数学模型。如本文所用，术语“机器学习”是广义的术语且被赋予对本领域普通技术人员而言其普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于使用人工智能(AI)进行自动模型构建的方法。可以使用至少一个机器学习系统来进行训练。如本文所用，术语“机器学习系统”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于包括至少一个处理单元诸如处理器、微处理器或经配置用于机器学习，特别是用于执行给定算法中的逻辑的计算机系统的系统或单元。该机器学习系统可以经配置用于进行和/或执行至少一个机器学习算法，其中该机器学习算法经配置用于构建经训练的机器学习模型。机器学习系统可以是质谱装置的一部分和/或可以通过外部处理器(诸如，通过云)进行。

经训练的机器学习模型使用至少一个回归模型。如本文所用，术语“回归模型”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于经配置用于分析数据集中的目标变量与自变量之间的关系的预测模型。色谱数据的目标变量可以是与预期结果值的连续偏差。对于质谱数据，目标变量可以是关于结果是否有效的二分信息。回归模型可以为选自由以下项组成的组的至少一个回归模型：随机森林，例如如Breiman L.,Random forests,MachineLearning,2001,45(1):5-32中所述；梯度提升森林，如Friedman,J.H.(2001)中所述；贪心函数逼近，例如如"A Gradient Boosting Machine",The Annals of Statistics,29(5):1189-1232中所述；偏最小二乘回归，例如如Wold,H.(1985),Partial least squares,Kotz,Samuel；Johnson,Norman L.(编辑),Encyclopedia of statistical sciences,6.New York:Wiley.第581–591页中所述；套索回归，例如如Tibshirani,R.(1996),Regression Shrinkage and Selection via the lasso,Journal of the RoyalStatistical Society.Series B(methodological).Wiley.58(1):267–88中所述；逻辑回归，例如如Hosmer,D.,Lemeshow,S.:Applied logistic regression,Wiley,New York2000中所述；或贝叶斯回归，例如如Box,G.E.P.,Tiao,G.C.(1973),Bayesian Inference inStatistical Analysis.Wiley中所述。例如，回归模型选自梯度提升森林或随机森林。例如，回归模型为梯度提升森林。例如，回归模型为随机森林。

经训练的机器学习模型为分析物特定的经训练的机器学习模型。例如，分析物为选自由以下项组成的组的至少一种目标物质：维生素D、滥用药物、治疗药物、激素和代谢物，其应从样品中进行定量。如本文所用，术语“样品”是广义的术语且被赋予对于本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于任意测试样品，诸如生物学样品和/或内标样品。样品可包括有关的一个或多个分析物。例如，测试样品可选自由以下项组成的组：生理流体，包括血液、血清、血浆、唾液、眼晶状体液、脑脊液、汗液、尿液、乳液、腹水、粘液、滑膜液、腹膜液、羊水、组织、细胞等。样品可在从相应来源获得时直接使用，或者可经过预处理和/或样品制备工作流程。例如，可通过加入内部标准和/或通过用另一种溶液来进行稀释和/或通过与试剂等进行混合来预处理该样品。例如，一般来讲，目标分析物可为维生素D、滥用药物、治疗药物、激素和代谢物。内标样品可为包括至少一种具有已知浓度的内标物质的样品。关于样品的相应进一步细节，参考例如EP 3 425369A1，其全部公开内容通过引用包含在本文中。其他目标分析物也是可能的。

机器学习模型可以使用特征集。被认为对数据和峰积分质量提供信息的特征集可以包括标准MS质量参数(如峰不对称性或离子比)，不同跃迁之间的参数比(例如，分析物定量器和内标定量器之间的保留时间比)，用于评估峰拟合质量的特征(例如，残差比或峰拟合不确定性)，以及描述噪声、背景和峰形状的进一步工程化的特征。特征集包括选自由以下项组成的组的至少一个特征：峰面积、峰背景、相对背景、离子比、Q4比、保留时间比、峰不对称性、不对称性比、峰宽、峰宽比、积分残差面积、峰面积的置信区间、质量偏移、半峰全宽、信噪比、单循环比中值、单循环离子比中值、峰高、峰拟合均方误差、拟合-强度相关性、动土距离以及当从经处理的数据(例如，积分峰)和原始数据(例如，拟合峰与原始信号的保留时间之间的差异)得出时上述特征中的任何特征的偏差。峰背景可以指峰间隔中的估计背景强度。相对背景可以指峰背景与峰高的比。离子比可以指分析物或内标(ISTD)定量器的面积与分析物或ISTD定性器面积的比。Q4比可以通过Q4＝(分析物定量器的面积/分析物定性器的面积)/(ISTD定量器的面积/ISTD定性器的面积)给出。保留时间比可以指 RT_analyte_qualifier/RT_analyte_quantifier、RT_IStd_qualifier/RT_ISTD_quantifier或RT_analyte_quantifier/RT_ISTD_quantifier中的一者或多者，其中RT_analyte_qualifier是分析物定性器的保留时间，RT_analyte_quantifier是分析物定量器的保留时间，RT_ISTD_qualifier是ISTD定性器的保留时间，RT_ISTD_quantifier是ISTD定量器的保留时间。峰不对称性可以根据USP 40指南(本文也表示为USP 40)来定义，参见：http://pharmacopeia.cn/v29240/usp29nf24s0_c621_viewall.html，特别是图2 。不对称性比可以指asymmetry_analyte_qualifier/asymmetry_analyte_quantifier 、asymmetry_ISTD_qualifier/asymmetry_ISTD_quantifier 或asymmetry_analyte_quantifier/asymmetry_ISTD_quantifier中的一者或多者，其中asymmetry_analyte_qualifier是分析物定性器的峰的不对称性，asymmetry_analyte_quantifier是分析物定量器的峰的不对称性，asymmetry_ISTD_qualifier是ISTD定性器的峰的不对称性，asymmetry_ISTD_quantifier是ISTD定量器的峰的不对称性。峰宽比可以指 width_analyte_qualifier/width_analyte_quantifier、width_ISTD_qualifier/width_ISTD_quantifier 或width_analyte_quantifier/width_ISTD_quantifier中的一者或多者，其中width_analyte_qualifier是分析物定性器的峰宽，width_analyte_quantifier是分析物定量器的峰宽，width_ISTD_qualifier是ISTD定性器的峰宽，width_ISTD_quantifier是ISTD定量器的峰宽。可以根据USP 40定义信噪比。单循环比中值可以指分析物定量器的强度与ISTD定量器的强度的比的中值。单循环离子比中值可以指以下中的一者或多者的中值：分析物定量器的强度与分析物定性器的强度的比或ISTD定量器的强度与ISTD定性器的强度的比。峰拟合均方误差可以通过平均值[(平滑强度/拟合强度面积/面积)^2]给出。拟合-强度相关性可以指cor(平滑强度，拟合强度)或cor(预处理强度，拟合强度)中的一者或多者。关于动土距离，参考例如https://en.wikipedia.org/wiki/Earth_mover％27s_distance。一组丰富的特征可以从色谱和/或质谱数据得出，并可以用于构建回归模型。模型的训练可以包括确定特征排名。模型的训练可以包括选择特征。

特征集的特征可以组合在机器学习模型中，用于预测面积比偏差作为峰积分的故障的等价物。发现回归模型(例如，随机森林和梯度提升)在评估时间和所需磁盘空间方面表现出良好的性能和合理的模型复杂性。可以通过重采样技术来调整模型参数，如算法类型、特征数量、树的数量和大小。

对于随机森林，发现随机森林具有更好的性能和更多的特征。对于梯度提升森林，发现梯度提升森林在特征较少的情况下具有更好的性能。可以进行特征选择，使得选择在许多数据分割和/或模型上“稳定”的高排名的特征。该方法可以包括特征工程化，其包括对新创建的特征的评估。例如，对于梯度提升森林，50个特征可以与最小叶片大小50和400棵树一起使用。

步骤b)中的回归模型结果可以是面积比与已知真实值的百分比偏差。对于分类，可以使用至少一个阈值来生成用于分类的二元结果。如果回归模型结果大于阈值，则数据可以被分类为坏，否则，如果回归模型结果小于阈值，则数据可以被分类为好。例如，阈值可以是10％。

该方法可以包括步骤c)：至少一个训练步骤。训练步骤可以包括基于训练数据集来训练机器学习模型。

如本文所用，术语“训练”是广义的术语且被赋予对本领域普通技术人员而言普通且惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于构建经训练的机器学习模型，特别是确定模型的参数，特别是权重的过程。训练可以包括确定和/或更新模型的参数。经训练的机器学习模型可以至少部分地由数据驱动。如本文所用，术语“至少部分地由数据驱动的模型”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于以下事实：模型包括由数据驱动的模型部分和其他模型部分，诸如基于物理化学定律的模型部分。可以对历史和/或半合成色谱和/或质谱数据进行训练。训练可以包括重新训练经训练的模型，例如在获得额外的色谱和/或质谱数据之后，诸如在操作MS和/或LC-MS装置期间。

关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对经训练的机器学习模型进行训练。训练数据集可以通过将历史和/或半合成色谱和/或质谱数据手动分类为两类来生成。

训练步骤可以包括针对不同分析物训练机器学习模型。训练步骤可以在针对多种不同测定的测定开发期间进行，其中针对不同测定的经训练的机器学习模型存储在至少一个数据库中。数据库可以包括数据处理配置文件，使得能够在仪器上自动标记峰积分结果。该方法可以包括在步骤b)之前进行的至少一个选择步骤，其中在选择步骤中，从针对用于获得所提供的色谱和/或质谱数据的分析物进行训练的经训练的机器学习模型中选择一个经训练的机器学习模型。

经训练的机器学习模型可能适用于具有相似色谱的不同分析物。训练步骤可以包括训练针对不同色谱类型的机器学习模型。对于不同的色谱类型，可以使用单独的模型，例如，考虑其中可以应用峰拟合的标准色谱、其中需要应用边界检测的非标准色谱以及其中具有与分析物完全相同的保留时间的内标可用并且在分析物与ISTD之间存在保留时间偏移的情况。

如本文所用，术语“历史色谱和/或质谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于通过使用至少一个质谱装置获得的测量结果。历史数据可以是真实数据。历史色谱和/或质谱数据可以包括来自不同仪器、测量几种分析物并且具有不同场景的数据。历史训练数据集的示例可能包括在11周的时间段期间在来自一个系统的两个仪器和来自另一个系统的三个仪器上测量的大约500个色谱测量值，包括五种不同的分析物。

训练数据集包括半合成色谱和/或质谱数据，也表示为半合成数据集。如本文所用，术语“半合成色谱和/或质谱数据”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语具体可以指但不限于基于历史色谱和/或质谱数据模拟的色谱和/或质谱数据。半合成色谱和/或质谱数据可以通过将限定的干扰应用和/或模拟到真实测量的色谱和/或质谱数据来生成。半合成色谱和/或质谱数据可以包括经修改的历史色谱和/或质谱数据。历史色谱和/或质谱数据可以通过以下中的一者或多者被修改：引入至少一个干扰、引入背景、引入至少一个保留时间偏移、修改峰宽、用来自双空白样品的色谱图替换内标信号。半合成模拟方法将模拟研究中了解真相的优势与提供具有真实世界属性的数据集结合起来。与真实数据相比，使用模拟数据集进行模型训练有几个优点，诸如客观定义测量值的真实状态、可以探索罕见情况和“灰色区域”、在样品大小方面可扩展。为了尽可能接近真实数据，采用了半合成方法，其中以受控方式修改真实测量值。

半合成数据集可以如下生成。可以选择并随后修改具有清晰峰和可靠积分结果(手动策划)的真实色谱图，以便模拟峰积分的挑战性情况。半合成数据集的生成可以包括考虑以下情况中的一者或多者：干扰、背景、保留时间偏移、峰宽和内标信号的缺失。例如，为了考虑干扰，将针对真实内标峰的拟合强度添加到分析物峰旁边的原始强度中。通过峰之间的距离可以探索不同的分辨率。可以放大或缩小人工干扰峰的高度，以便模拟感兴趣峰与干扰峰之间不同的相对峰高。例如，为了考虑背景，为了模拟变化的背景信号，首先生成阶跃函数，其中阶跃高度是从均匀分布中得出的。通过最大阶跃高度，可以控制模拟背景的大小。接下来，将背景拟合应用到阶跃函数，并将所得曲线添加到真实色谱图强度中。背景拟合中的曲率参数允许操纵人造背景的曲率。例如，为了考虑保留时间偏移，可以通过沿时间尺度偏移真实信号来轻松模拟保留时间的变化。例如，为了考虑峰宽，通过改变拟合函数的各个参数来重新调整峰拟合。重新调整强度以便保持峰下的面积。然后将从原始数据中重新调整的噪声添加到新的峰拟合中。例如，考虑到内标信号的缺失，内标的色谱图由来自双空白样品的色谱图替换。

模拟数据(即半合成色谱和/或质谱数据)可能具有比真实数据(即历史合成色谱和/或质谱数据)更高比例的坏情况和更高比例的边界情况。当包含用于训练的真实数据的一部分时，可以获得更好的模型性能。真实数据的其他部分可以用于测试经训练的模型。真实数据可以是手动标记的真实数据集。

该方法可以包括至少一个测试步骤，其中该测试步骤包括测试经训练的模型。测试步骤可以包括关于至少一个测试数据集对经训练的模型进行测试。测试步骤可以包括获得经训练的模型的性能特征，例如准确率、假阳性率和假阴性率。为了评估预测性能，可以使用模拟数据和/或真实数据(特别是手动标记的真实数据集)来进行模型测试。测试数据集可以包括模拟数据和/或真实数据。

例如，训练数据集可以包括第一半合成数据集，诸如包括7062个测量值，并且测试数据集可以包括第二半合成数据集，诸如3638个测量值。

例如，训练数据集可以包括半合成数据集和被标记为“好”的真实数据的一部分。训练数据集可以包括被标记为“好”的真实数据的另一部分和被标记为“坏”的真实数据。

在半合成数据集上训练具有标准峰形状的分析物(例如睾酮)的示例机器学习模型。在241个手动标记的真实测量值对机器学习模型进行训练，真实测量值是从在不同仪器上运行的十个样品中检索到的。121个被手动标记为坏，并且120个被手动标记为好。使用经训练的机器学习模型对峰积分进行的质量检查正确分类所有120个“好”测量值。经训练的机器学习模型将121个“坏”测量值中的5个分类为“好”。确定准确度为0.9793，假阳性率为0.0000，并且假阴性率为0.0413。

然后可以部署经训练的机器学习模型用于预测新测量值的质量状态，如步骤b)中进行的。针对不同分析物和/或不同色谱类型的经训练的机器学习模型可以转移到数据处理配置文件。数据处理配置文件可以存储在质谱装置的至少一个数据存储器中。这可以允许在质谱装置上实现峰积分结果的自动标记。

该方法可以包括基于经分类的质量按照可接受的或不可接受的来将标记分配给色谱和/或质谱数据。对数据受引入的“干扰因素”影响的程度是多少的计量可以是面积比结果(如针对所创建的半合成数据计算的)与原始真实数据集中的面积比的百分比偏差。面积比偏差代表回归模型的连续结果。然后可以通过具有例如大于10％面积比偏差的标记测量值来定义用于错误处理的黄金标准。二元标记在评估预测性能的准确性和假阳性/阴性率方面充当真实状态。该方法可以包括经由至少一个用户界面向用户提供取决于色谱和/或质谱数据的标记的至少一个信息。如本文所用，术语“用户界面”是广义的术语且应被赋予对于本领域普通技术人员而言其普通且惯常的含义，并且不应限于特殊或自定义的含义。该术语可以指但不限于经配置用于与其环境交互的元件或单元，诸如为了单向或双向地交换信息的目的，诸如为了交换一个或多个数据或命令。例如，用户界面可以经配置以与用户共享信息并由用户接收信息。用户界面可以具有与用户进行视觉交互的特征，诸如显示器，或者具有与用户进行声学交互的特征。作为示例，用户界面可以包括以下一项或多项：图形用户界面；数据界面，诸如无线和/或有线数据界面。

在进一步的方面，提出了一种测试系统，其经配置用于进行根据本发明的方法。对于测试系统的特征的定义和测试系统的任选特征，可以参考如上所公开的或下文进一步详细公开的方法的实施例中的一者或多者。测试系统可以是质谱装置的一部分。

该测试系统包括

-至少一个通信接口，其经配置用于接收通过至少一个质谱装置获得的经处理的色谱和/或质谱数据，

-至少一个处理装置，其经配置用于通过将至少一个经训练的机器学习模型应用于色谱和/或质谱数据来对色谱和/或质谱数据的质量进行分类，其中经训练的机器学习模型使用至少一个回归模型，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对经训练的机器学习模型进行训练，其中该经训练的机器学习模型为分析物特定的经训练的机器学习模型；

-至少一个用户界面，其经配置用于向用户提供关于经分类的质量的信息。

测试系统可以经配置以实施根据本发明的方法的步骤a)至b)以及任选的步骤c)。

如本文所用，术语“通信接口”是广义的术语，且将被赋予对于本领域普通技术人员普通和惯常的含义，并且不限于特殊或自定义的含义。该术语具体可以指但不限于形成边界的物项或元件，该边界经配置用于传输信息。特别地，通信接口可经配置用于传输来自计算装置(例如计算机)的信息，诸如将信息发送或输出到例如另一装置上。附加地或另选地，通信接口可经配置用于将信息传输到计算装置上(例如传输到计算机上)，诸如，以便接收信息。通信接口可具体地提供用于传输或交换信息的途径。特别地，通信接口可提供数据传输连接，例如蓝牙、NFC、电感耦合等。作为示例，通信接口可以是或可以包括至少一个端口，该端口包括网络或互联网端口、USB端口和磁盘驱动器中的一者或多者。通信接口可为至少一个Web接口。

本文进一步公开并提出了一种计算机程序，其包括计算机可执行指令，当在计算机或计算机网络(特别是测试系统的计算机或计算机网络)上执行程序时，该计算机可执行指令用于在本文所附的一个或多个实施例中进行根据本发明的方法。具体地，计算机程序可以存储在计算机可读数据载体上和/或计算机可读存储介质上。

如本文所用，术语“计算机可读数据载体”和“计算机可读存储介质”具体地可以指非暂时性数据存储器件，诸如具有存储在其上的计算机可执行指令的硬件存储介质。计算机可读数据载体或存储介质具体地可以为或者可以包括诸如随机存取存储器(RAM)和/或只读存储器(ROM)等存储介质。

因此，具体地，可通过使用计算机或计算机网络，优选地通过使用计算机程序来进行如以上所指示的方法步骤a)至b)以及任选的步骤c)中一者、多于一者或甚至所有。

本文进一步公开并提出了一种计算机程序产品，其具有程序代码工具，以便在计算机或计算机网络(特别是测试系统的计算机或计算机网络)上执行程序时，在本文所附的一个或多个实施例中进行根据本发明的方法。具体地，程序代码工具可以存储在计算机可读数据载体上和/或计算机可读存储介质上。

本文进一步公开并提出了一种数据载体，其具有存储在其上的数据结构，该数据载体在加载到计算机或计算机网络中之后，诸如在加载到计算机或计算机网络的工作存储器或主存储器中之后，可以执行根据本文所公开的一个或多个实施例的方法。

本文进一步公开并提出了一种计算机程序产品，其具有存储在机器可读载体上的程序代码工具，以便在计算机或计算机网络(特别是测试系统的计算机或计算机网络)上执行程序时，进行根据本文所公开的一个或多个实施例的方法。如本文所用，计算机程序产品是指作为可交易产品的程序。产品一般可以任意格式(诸如以纸质格式)存在或者存在于计算机可读数据载体上和/或计算机可读存储介质上。具体地讲，计算机程序产品可以分布在数据网络上。

本文进一步公开并提出了一种包含可由计算机系统或计算机网络读取的指令的调制数据信号，用于进行根据本文所公开的一个或多个实施例的方法。

参考本发明的计算机实现的方面，可以通过使用计算机或计算机网络来进行根据本文所公开的一个或多个实施例的方法的一个或多个方法步骤或甚至所有方法步骤。因此，一般来讲，可以通过使用计算机或计算机网络来进行包括提供和/或操纵数据的任何方法步骤。一般来讲，这些方法步骤可以包括通常除需要手动操作(诸如提供样品和/或进行实际测量的某些方面)的方法步骤之外的任何方法步骤。

具体地，本文进一步公开以下内容：

-计算机或计算机网络，其包括至少一个处理器，其中处理器被适配成进行根据本说明书中所描述的实施例之一的方法，

-计算机可加载数据结构，其被适配成当在计算机上执行数据结构时，进行根据本说明书中所描述的实施例之一的方法，

-计算机程序，其中该计算机程序被适配成当在计算机上执行该程序时，进行根据本说明书中所描述的实施例之一的方法，

-计算机程序，其包括程序器件，该程序器件用于当在计算机上或在计算机网络上执行计算机程序时，进行根据本说明书中所描述的实施例之一的方法，

-计算机程序，其包括根据前述实施例的程序器件，其中程序器件存储在计算机可读存储介质上，

-存储介质，其中数据结构存储在存储介质上并且其中数据结构被适配成在被加载到计算机或计算机网络的主存储器和/或工作存储器中之后，进行根据本说明书中所描述的实施例之一的方法，以及

-计算机程序产品，其具有程序代码工具，其中程序代码工具可以被存储或被存储在存储介质上，以用于在计算机或计算机网络上执行程序代码工具的情况下，进行根据本说明书中所描述的实施例之一的方法。

总结并且不排除其他可能的实施例，可以设想以下实施例：

实施例1一种用于色谱和/或质谱数据的自动质量检查的计算机实现方法，其中所述方法包括以下步骤：

实施例2根据前述实施例所述的方法，其中所述分析物为选自由以下项组成的组的至少一种目标物质：维生素D、滥用药物、治疗药物、激素和代谢物，其应从样品中进行定量。

实施例3根据前述实施例中任一项所述的方法，其中所述回归模型为选自由以下项组成的组的至少一个回归模型：随机森林、梯度提升森林、偏最小二乘、套索回归、逻辑回归、贝叶斯回归。

实施例4根据前述实施例中任一项所述的方法，其中所述回归模型为选自由以下项组成的组的至少一个回归模型：梯度提升森林或随机森林。

实施例5根据前述实施例中任一项所述的方法，其中所述回归模型为梯度提升森林。

实施例6根据前述实施例中任一项所述的方法，其中所述回归模型为随机森林。

实施例7根据前述实施例中任一项所述的方法，其中所述方法完全自动地进行。

实施例8根据前述实施例中任一项所述的方法，其中经分类的质量用于区分可接受的与不可接受的色谱和/或质谱数据，其中所述方法包括基于所述经分类的质量按照可接受的或不可接受的来将标记分配给所述色谱和/或质谱数据。

实施例9根据前述实施例所述的方法，其中所述方法包括经由至少一个用户界面向用户提供取决于所述色谱和/或质谱数据的所述标记的至少一个信息。

实施例10根据前述实施例中任一项所述的方法，其中所述机器学习模型使用特征集，其中所述特征集包括选自由以下项组成的组的至少一个特征：峰面积、峰背景、相对背景、离子比、Q4比、保留时间比、峰不对称性、不对称性比、峰宽、峰宽比、积分残差面积、峰面积的置信区间、质量偏移、半峰全宽、信噪比、单循环比中值、单循环离子比中值、峰高、峰拟合均方误差、拟合-强度相关性、动土距离以及当从经处理的数据和原始数据得出时上述特征中的任何特征的偏差。

实施例11根据前述实施例中任一项所述的方法，其中所述方法包括

c)至少一个训练步骤，其中所述训练步骤包括基于所述训练数据集来训练所述机器学习模型。

实施例12根据前述实施例所述的方法，其中所述训练步骤包括针对不同分析物训练所述机器学习模型。

实施例13根据前述实施例所述的方法，其中所述训练步骤在针对多个不同测定的测定开发期间进行，其中针对所述不同测定的经训练的机器学习模型存储在至少一个数据库中。

实施例14根据前述两个实施例中任一项所述的方法，其中所述方法包括在步骤b)之前进行的至少一个选择步骤，其中在所述选择步骤中，从针对用于获得所提供的色谱和/或质谱数据的分析物进行训练的经训练的机器学习模型中选择一个经训练的机器学习模型。

实施例15根据前述实施例中任一项所述的方法，其中所述训练数据集是通过将所述历史和/或半合成色谱和/或质谱数据手动分类为两类来生成的。

实施例16根据前述实施例中任一项所述的方法，其中所述半合成色谱和/或质谱数据包括经修改的历史色谱和/或质谱数据，其中所述历史色谱和/或质谱数据通过以下中的一者或多者被修改：引入至少一个干扰；引入背景；引入至少一个保留时间偏移；修改峰宽；用来自双空白样品的色谱图替换内标信号。

实施例17一种测试系统，其经配置用于进行根据前述实施例中任一项所述的方法，其中所述测试系统包括

实施例18根据前述实施例所述的测试系统，其中所述测试系统经配置以实施根据涉及方法的前述实施例中任一项所述的方法的步骤a)至b)以及任选的步骤c)。

实施例19一种计算机程序，其包括指令，当所述程序由根据涉及测试系统的前述实施例中任一项所述的测试系统执行时，所述指令使所述测试系统实施根据涉及方法的前述权利要求中任一项所述的方法的步骤a)至b)以及任选的步骤c)。

实施例20一种计算机可读存储介质，其包括指令，所述指令当由根据涉及测试系统的前述权利要求中任一项所述的测试系统执行时，使所述测试系统实施根据涉及方法的前述权利要求中任一项所述的方法的步骤a)至b)以及任选的步骤c)。

附图说明

优选地结合从属权利要求，在随后的实施例描述中将更详细地公开其他任选特征和实施例。其中，如本领域技术人员将认识到的，各个任选特征可以按单独的方式以及按任何任意可行的组合来实现。本发明的范围不受优选实施例的限制。在附图中示意性地描绘了实施例。其中，这些附图中相同的附图标记是指相同或功能上相当的元件。

在附图中：

图1示出根据本发明的一种用于色谱和/或质谱数据的自动质量检查的方法的实施例；

图2示出经训练的机器学习模型的开发和部署草图；

图3a至3e示出不同的模拟场景；

图4示出通过与原始面积比的百分比偏差的回归模型结果的定义；

图5示出根据本发明的包括测试系统的质谱装置的实施例；以及

图6示出模型优化的示例。

具体实施方式

图1示出一种用于色谱和/或质谱数据的自动质量检查的计算机实现方法的流程图。该方法可包括以下步骤：

a)(用附图标记110表示)提供通过至少一个质谱装置112获得的经处理的色谱和/或质谱数据；

b)(用附图标记114表示)通过将至少一个经训练的机器学习模型应用于色谱和/或质谱数据来对色谱和/或质谱数据的质量进行分类，其中经训练的机器学习模型使用至少一个回归模型，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对经训练的机器学习模型进行训练，其中该经训练的机器学习模型为分析物特定的经训练的机器学习模型。

质谱数据可以是通过使用至少一个质谱装置112(特别是至少一个质谱图)获得的数据。色谱数据可以是至少一个色谱图。

质量检查可以是区分可信的和不可信的自动峰积分的过程。质量检查可以包括确定原始数据缩减过程是否完成、数据质量是否适合自动峰积分以及所计算的标称信号和读数是否可信的信息。质量可以是对通过MS装置和/或LC装置112提供的数据进行的自动峰积分的可靠性的计量。经分类的质量可以用于区分可接受的与不可接受的色谱和/或质谱数据。具体地，对于可靠的自动峰积分，质量可以被分类为好(可接受的)，并且对于不可靠的自动峰积分，质量可以被分类为坏(不可接受的)。质量的分类可以包括区分可靠的与不可靠的自动峰积分。质量可能取决于几种因素，诸如噪声水平、背景、干扰、保留时间偏移、峰宽以及内标信号的存在或不存在。

经处理的色谱和/或质谱数据可以是已经经过自动峰积分的色谱和/或质谱数据。关于自动峰积分，参考WO 2021/023865 A1，其全部内容通过引用并入。

步骤a)110中的提供可以包括确定和/或生成经处理的色谱和/或质谱数据和/或使经处理的色谱和/或质谱数据可用，特别是通过用质谱装置进行至少一次测量以及随后的数据处理。提供经处理的色谱和/或质谱数据可以包括在特定接收时检索从质谱装置112获得的数据处理的色谱和/或质谱数据和/或利用质谱装置112进行至少一次测量和处理从而确定经处理的色谱和/或质谱数据。

步骤b)114)中的分类可以包括将色谱和/或质谱数据分类为至少两个类别的过程，诸如对于可靠的自动峰积分的好或可信的以及对于不可靠的自动峰积分的坏或不可信的。通过应用至少一个经训练的机器学习模型来进行分类。因此，根据本发明，至少一种机器学习模型用于预测峰积分的故障并且可以提供关于结果发布的完全自动化的决策。因此，所提出的方法允许消除人工检验数据的需要。

经训练的机器学习模型使用至少一个回归模型116。回归模型116可以是经配置用于分析数据集中的目标变量与自变量之间的关系的预测模型。色谱数据的目标变量可以是与预期结果值的连续偏差。对于质谱数据，目标变量可以是关于结果是否有效的二分信息。回归模型116可以为选自由以下项组成的组的至少一个回归模型：随机森林，例如如Breiman L.,Random forests,Machine Learning,2001,45(1):5-32中所述；梯度提升森林，如Friedman,J.H.(2001)中所述；贪心函数逼近，例如如"AGradient BoostingMachine",The Annals of Statistics,29(5):1189-1232中所述；偏最小二乘回归，例如如Wold,H.(1985),Partial least squares,Kotz,Samuel；Johnson,Norman L.(编辑),Encyclopedia of statistical sciences,6.New York:Wiley.第581–591页中所述；套索回归，例如如Tibshirani,R.(1996),Regression Shrinkage and Selection via thelasso,Journal of the Royal Statistical Society.Series B(methodological).Wiley.58(1):267–88中所述；逻辑回归，例如如Hosmer,D.,Lemeshow,S.:Appliedlogistic regression,Wiley,New York2000中所述；或贝叶斯回归，例如如Box,G.E.P.,Tiao,G.C.(1973),Bayesian Inference in Statistical Analysis.Wiley中所述。例如，回归模型116选自梯度提升森林或随机森林。例如，回归模型116是梯度提升森林。例如，回归模型116是随机森林。

经训练的机器学习模型为分析物特定的经训练的机器学习模型。例如，分析物为选自由以下项组成的组的至少一种目标物质：维生素D、滥用药物、治疗药物、激素和代谢物，其应从样品中进行定量。该样品可以是任意测试样品，诸如生物学样品和/或内标样品。样品可包括有关的一个或多个分析物。例如，测试样品可选自由以下项组成的组：生理流体，包括血液、血清、血浆、唾液、眼晶状体液、脑脊液、汗液、尿液、乳液、腹水、粘液、滑膜液、腹膜液、羊水、组织、细胞等。样品可在从相应来源获得时直接使用，或者可经过预处理和/或样品制备工作流程。例如，可通过加入内部标准和/或通过用另一种溶液来进行稀释和/或通过与试剂等进行混合来预处理该样品。例如，一般来讲，目标分析物可为维生素D、滥用药物、治疗药物、激素和代谢物。内标样品可为包括至少一种具有已知浓度的内标物质的样品。关于样品的相应进一步细节，参考例如EP 3 425 369A1，其全部公开内容通过引用包含在本文中。其他目标分析物也是可能的。

机器学习模型可以使用特征集118。被认为对数据和峰积分质量提供信息的特征集118可以包括标准MS质量参数(如峰不对称性或离子比)，不同跃迁之间的参数比(例如，分析物定量器和内标定量器之间的保留时间比)，用于评估峰拟合质量的特征(例如，残差比或峰拟合不确定性)，以及描述噪声、背景和峰形状的进一步工程化的特征。特征集118包括选自由以下项组成的组的至少一个特征：峰面积、峰背景、相对背景、离子比、Q4比、保留时间比、峰不对称性、不对称性比、峰宽、峰宽比、积分残差面积、峰面积的置信区间、质量偏移、半峰全宽、信噪比、单循环比中值、单循环离子比中值、峰高、峰拟合均方误差、拟合-强度相关性、动土距离以及当从经处理的数据(例如，积分峰)和原始数据(例如，拟合峰与原始信号的保留时间之间的差异)得出时上述特征中的任何特征的偏差。峰背景可以指峰间隔中的估计背景强度。相对背景可以指峰背景与峰高的比。离子比可以指分析物或内标(ISTD)定量器的面积与分析物或ISTD定性器面积的比。Q4比可以通过Q4＝(分析物定量器的面积/分析物定性器的面积)/(ISTD定量器的面积/ISTD定性器的面积)给出。保留时间比可以指RT_analyte_qualifier/RT_analyte_quantifier、RT_ISTD_qualifier/RT_ISTD_quantifier或RT_analyte_quantifier/RT_ISTD_quantifier中的一者或多者，其中RT_analyte_qualifier是分析物定性器的保留时间，RT_analyte_quantifier是分析物定量器的保留时间，RT_ISTD_qualifier是ISTD定性器的保留时间，RT_ISTD_quantifier是ISTD定量器的保留时间。峰不对称性可以根据 USP 40定义。不对称性比可以指asymmetry_analyte_qualifier/asymmetry_analyte_quantifier 、asymmetry_ISTD_qualifier/asymmetry_ISTD_quantifier 或asymmetry_analyte_quantifier/asymmetry_ISTD_quantifier中的一者或多者，其中asymmetry_analyte_qualifier是分析物定性器的峰的不对称性，asymmetry_analyte_quantifier是分析物定量器的峰的不对称性，asymmetry_ISTD_qualifier是ISTD定性器的峰的不对称性，asymmetry_ISTD_quantifier是ISTD定量器的峰的不对称性。峰宽比可以指 width_analyte_qualifier/width_analyte_quantifier、width_ISTD_qualifier/width_ISTD_quantifier 或width_analyte_quantifier/width_ISTD_quantifier中的一者或多者，其中width_analyte_qualifier是分析物定性器的峰宽，width_analyte_quantifier是分析物定量器的峰宽，width_ISTD_qualifier是ISTD定性器的峰宽，width_ISTD_quantifier是ISTD定量器的峰宽。可以根据USP 40定义信噪比。单循环比中值可以指分析物定量器的强度与ISTD定量器的强度的比的中值。单循环离子比中值可以指以下中的一者或多者的中值：分析物定量器的强度与分析物定性器的强度的比或ISTD定量器的强度与ISTD定性器的强度的比。峰拟合均方误差可以通过平均值[(平滑强度/拟合强度面积/面积)^2]给出。拟合-强度相关性可以指cor(平滑强度，拟合强度)或cor(预处理强度，拟合强度)中的一者或多者。关于动土距离，参考例如https://en.wikipedia.org/wiki/Earth_mover％27s_distance。一组丰富的特征可以从色谱和/或质谱数据得出，并可以用于构建回归模型。模型的训练可以包括确定特征排名。模型的训练可以包括选择特征。

图2示出经训练的机器学习模型(在本例中为回归模型116)的开发和部署草图。特征集118的特征可以组合在回归模型116中，用于预测面积比偏差作为峰积分的故障的等价物。然后可以部署经训练的回归模型用于预测新测量值的质量状态，如步骤b)114中进行的。在图2中，从左到右示出了特征集118、示例性回归模型116以及经训练的回归模型116在示例性经处理的色谱和/或质谱数据上的应用。在右上图中，经处理的色谱和/或质谱数据在步骤b)中被分类为好，而在右下图中被分类为坏。

发现回归模型116(例如，随机森林和梯度提升)在评估时间和所需磁盘空间方面表现出良好的性能和合理的模型复杂性。可以通过重采样技术来调整模型参数，如算法类型、特征数量、树的数量和大小。

该方法可包括步骤c)120：至少一个训练步骤。训练步骤可以包括基于训练数据集来训练机器学习模型。

训练可以包括构建经训练的机器学习模型，特别是确定模型的参数，特别是权重的过程。训练可以包括确定和/或更新模型的参数。可以对历史和/或半合成色谱和/或质谱数据进行训练。训练可以包括重新训练经训练的模型，例如在获得额外的色谱和/或质谱数据之后，诸如在操作MS和/或LC-MS装置期间。

训练步骤120可以包括针对不同分析物训练机器学习模型。训练步骤120可以在针对多种不同测定的测定开发期间进行，其中针对不同测定的经训练的机器学习模型存储在至少一个数据库中。数据库可以包括数据处理配置文件，使得能够在仪器上自动标记峰积分结果。该方法可以包括在步骤b)之前进行的至少一个选择步骤，例如作为步骤c)的一部分，其中在选择步骤中，从针对用于获得所提供的色谱和/或质谱数据的分析物进行训练的经训练的机器学习模型中选择一个经训练的机器学习模型。

历史色谱和/或质谱数据可以包括通过使用至少一个质谱装置获得的测量结果。历史数据可以是真实数据。历史色谱和/或质谱数据可以包括来自不同仪器、测量几种分析物并且具有不同场景的数据。历史训练数据集的示例可能包括在11周的时间段期间在来自一个系统的两个仪器和来自另一个系统的三个仪器上测量的大约500个色谱测量值，包括五种不同的分析物。

训练数据集包括半合成色谱和/或质谱数据，也表示为半合成数据集。半合成色谱和/或质谱数据可以基于历史色谱和/或质谱数据来模拟。半合成色谱和/或质谱数据可以通过将限定的干扰应用和/或模拟到真实测量的色谱和/或质谱数据来生成。半合成色谱和/或质谱数据可以包括经修改的历史色谱和/或质谱数据。历史色谱和/或质谱数据可以通过以下中的一者或多者被修改：引入至少一个干扰、引入背景、引入至少一个保留时间偏移、修改峰宽、用来自双空白样品的色谱图替换内标信号。半合成模拟方法将模拟研究中了解真相的优势与提供具有真实世界属性的数据集结合起来。与真实数据相比，使用模拟数据集进行模型训练有几个优点，诸如客观定义测量值的真实状态、可以探索罕见情况和“灰色区域”、在样品大小方面可扩展。为了尽可能接近真实数据，采用了半合成方法，其中以受控方式修改真实测量值。

图3，a至e示出不同的模拟场景。上行示出真实数据，并且下行示出真实数据加上引入的干扰。在图3a中，通过改变跃迁、位置、分辨率和相对高度引入了至少一个干扰。在图3b中，通过改变偏移来引入保留时间偏移。在图3c中，通过改变高度和曲率引入背景。在图3d中，通过改变比例因子来改变峰宽。在图3e中，模拟了缺失的ISTD信号。

对数据受引入的“干扰因素”影响的程度是多少的计量可以是面积比结果(如针对所创建的半合成数据计算的)与原始真实数据集中的面积比的百分比偏差。面积比偏差代表回归模型的连续结果。然后可以通过具有例如大于10％面积比偏差的基于阈值的标记测量值来定义用于错误处理的黄金标准。二元标记在评估预测性能的准确性和假阳性/阴性率方面充当真实状态。图4示出通过与原始面积比的百分比偏差的回归模型结果的定义。图4的上排示出五个积分峰，表示为A到E。图4的下图示出A到E的面积比偏差百分比作为预测的连续结果。此外，还描述了>10％的阈值。

然后可以部署经训练的机器学习模型用于预测新测量值的质量状态，如步骤b)中进行的。针对不同分析物和/或不同色谱类型的经训练的机器学习模型可以转移到数据处理配置文件。数据处理配置文件可以存储在质谱装置112的至少一个数据存储器中。这可以允许在质谱装置112上实现峰积分结果的自动标记。

图5示出根据本发明的包括测试系统122的质谱装置112的实施例。测试系统122包括

-至少一个通信接口124，其经配置用于接收通过至少一个质谱装置112获得的经处理的色谱和/或质谱数据；

-至少一个处理装置126，其经配置用于通过将至少一个经训练的机器学习模型应用于所述色谱和/或质谱数据来对所述色谱和/或质谱数据的质量进行分类，其中所述经训练的机器学习模型使用至少一个回归模型116，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对所述经训练的机器学习模型进行训练，其中所述经训练的机器学习模型为分析物特定的经训练的机器学习模型；

-至少一个用户界面128，其经配置用于向用户提供关于经分类的质量的信息。

图6示出模型优化的示例。该表包含通过针对不同模型设置的数据重采样得出的曲线下面积(AUC)值：左框梯度提升森林(GBR)、右框随机森林回归(RFR)、列中的估计器数量(“num_est”＝树数量)、维度数量(“d”＝特征数)和行中的最小叶子大小(“msl”＝树大小)。颜色越深和值越大表示模型性能越好。

附图标记列表

110 步骤a)

112 质谱装置

114 步骤b)

116 回归模型

118 特征集

120 步骤c)

122 测试系统

124 通信接口

126 处理装置

128 用户界面

Claims

1.一种用于色谱和/或质谱数据的自动质量检查的计算机实现方法，其中所述方法包括以下步骤：

a)(110)提供通过至少一个质谱装置(112)获得的经处理的色谱和/或质谱数据；

b)(114)通过将至少一个经训练的机器学习模型应用于所述色谱和/或质谱数据来对所述色谱和/或质谱数据的质量进行分类，其中所述经训练的机器学习模型使用至少一个回归模型(116)，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对所述经训练的机器学习模型进行训练，其中所述经训练的机器学习模型为分析物特定的经训练的机器学习模型。

2.根据前述权利要求所述的方法，其中分析物为选自由以下项组成的组的至少一种目标物质：维生素D、滥用药物、治疗药物、激素和代谢物，其应从样品中进行定量。

3.根据前述权利要求中任一项所述的方法，其中所述回归模型(116)为选自由以下项组成的组的至少一个回归模型：随机森林、梯度提升森林、偏最小二乘、套索回归、逻辑回归、贝叶斯回归。

4.根据前述权利要求中任一项所述的方法，其中所述方法完全自动进行。

5.根据前述权利要求中任一项所述的方法，其中经分类的质量用于区分可接受的与不可接受的色谱和/或质谱数据，其中所述方法包括基于所述经分类的质量按照可接受的或不可接受的来将标记分配给所述色谱和/或质谱数据。

6.根据前述权利要求所述的方法，其中所述方法包括经由至少一个用户界面(128)向用户提供取决于所述色谱和/或质谱数据的所述标记的至少一个信息。

7.根据前述权利要求中任一项所述的方法，其中所述机器学习模型使用特征集(118)，其中所述特征集(118)包括选自由以下项组成的组的至少一个特征：峰面积、峰背景、相对背景、离子比、Q4比、保留时间比、峰不对称性、不对称性比、峰宽、峰宽比、积分残差面积、峰面积的置信区间、质量偏移、半峰全宽、信噪比、单循环比中值、单循环离子比中值、峰高、峰拟合均方误差、拟合-强度相关性、动土距离以及当从经处理的数据和原始数据得出时上述特征中的任何特征的偏差。

8.根据前述权利要求中任一项所述的方法，其中所述方法包括

c)(120)至少一个训练步骤，其中所述训练步骤(120)包括基于所述训练数据集来训练所述机器学习模型。

9.根据前述权利要求所述的方法，其中所述训练步骤(120)包括针对不同分析物训练机器学习模型。

10.根据前述权利要求中任一项所述的方法，其中所述训练数据集是通过将所述历史和/或半合成色谱和/或质谱数据手动分类为两类来生成的。

11.根据前述权利要求中任一项所述的方法，其中所述半合成色谱和/或质谱数据包括经修改的历史色谱和/或质谱数据，其中所述历史色谱和/或质谱数据通过以下中的一者或多者被修改：引入至少一个干扰；引入背景；引入至少一个保留时间偏移；修改峰宽；用来自双空白样品的色谱图替换内标信号。

12.一种测试系统(122)，其经配置用于进行根据前述权利要求中任一项所述的方法，其中所述测试系统(122)包括

-至少一个通信接口(124)，其经配置用于接收通过至少一个质谱装置(112)获得的经处理的色谱和/或质谱数据；

-至少一个处理装置(126)，其经配置用于通过将至少一个经训练的机器学习模型应用于所述色谱和/或质谱数据来对所述色谱和/或质谱数据的质量进行分类，其中所述经训练的机器学习模型使用至少一个回归模型(116)，其中关于包括历史和/或半合成色谱和/或质谱数据的至少一个训练数据集对所述经训练的机器学习模型进行训练，其中所述经训练的机器学习模型为分析物特定的经训练的机器学习模型；

-至少一个用户界面(128)，其经配置用于向用户提供关于所述经分类的质量的信息。

13.根据前述权利要求所述的测试系统(122)，其中所述测试系统(122)经配置以实施根据涉及方法的前述权利要求中任一项所述的方法的步骤a)至b)以及任选的步骤c)。

14.一种计算机程序，其包括指令，当所述程序由根据涉及测试系统的前述权利要求中任一项所述的测试系统(122)执行时，所述指令使所述测试系统实施根据涉及方法的前述权利要求中任一项所述的方法的步骤a)至b)以及任选的步骤c)。

15.一种计算机可读存储介质，其包括指令，所述指令当由根据涉及测试系统的前述权利要求中任一项所述的测试系统(122)执行时，使所述测试系统实施根据涉及方法的前述权利要求中任一项所述的方法的步骤a)至b)以及任选的步骤c)。