CN114858958B

CN114858958B - 质谱数据在质量评估中的分析方法、装置和存储介质

Info

Publication number: CN114858958B
Application number: CN202210781715.XA
Authority: CN
Inventors: 郭天南; 朱怡; 高欢欢; 胡一凡
Original assignee: West Lake Omi Hangzhou Biotechnology Co ltd
Current assignee: West Lake Omi Hangzhou Biotechnology Co ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-01
Anticipated expiration: 2042-07-05
Also published as: CN114858958A

Abstract

本发明公开了一种质谱数据在质量评估中的分析方法、装置和存储介质，涉及数据处理和质谱技术领域。质谱数据在质量评估中的分析方法包括：确定质谱文件的一个或多个LC特征和一个或多个MS特征；根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征；利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态。本发明能够从多个维度评估质谱文件，从而能够更合理地进行质量控制。该方案能够自动化地执行，从而实现了对质谱状态的自动化、高准确率的监测。并且，适用于多种质谱仪器产生的文件的评估。

Description

质谱数据在质量评估中的分析方法、装置和存储介质

技术领域

本发明涉及数据处理和质谱技术领域，特别涉及一种质谱数据在质量评估中的分析方法、装置和存储介质。

背景技术

基于质谱的定量蛋白质组学研究，通过表征蛋白质组丰度的动态变化规律，对生命科学及人类许多疾病的发生、发展的诊断有重大意义。相比于标记发现定量蛋白质组学技术，非标记的发现定量蛋白质组学技术中的样本前处理方法简单、通量高，更适合大队列发现蛋白质组学分析。而在非标记发现定量蛋白质组学中，基于数据非依赖模式（Dataindependent acquisition, DIA) 的定量蛋白质组学技术，相比于数据依赖模式（Datadependent acquisition, DDA）的定量蛋白质组学技术，在保证通量和样本前处理简单便捷的基础上，还具有较好的定量重现性和准确性。随着数据分析算法的提升，数据非依赖模式的定量蛋白质组学的数据分析复杂度较高的问题也逐渐改善，数据非依赖模式的定量蛋白质组学近几年开始逐渐应用在基于质谱的定量蛋白质组学中。基于质谱的大队列定量蛋白质组学的数据采集中，质谱仪器的稳定性和高灵敏度是保证质谱产生高质量数据的关键。虽然基于质谱的非标记定量蛋白质组学技术日新月异，但是在大队列的实验分析中，质谱运行异常也会带来原始文件重复性低的问题，因此建立自动化的仪器质量控制流程来保证仪器稳定性也显得尤为重要。

因数据非依赖模式产生的原始数据分析困难，目前多数实验室使用通过数据依赖模式的方法产生的原始文件的评估流程对非数据依赖模式产生的原始文件进行质量控制，例如，通过原始文件汇总肽段和蛋白鉴定数目。

目前，前人文献报道对基于数据依赖模式方法产生的原始文件的评价方案包含部分参数，但是存在输入参数过多导致用户使用不易上手现象。此外这些方法没有利用实际产出的结果形成一个定量结果，而这一定量结果是仪器性能状态变化的直接体现。

在相关技术中，“实时质量控制分析”（QC-ART）工具能够动态标记仪器状态或者样本的潜在问题，是对DDA原始文件建立的质控标准。在QC-ART技术中，研究人员提取DDA原始文件中的肽段鉴定数目、母离子质荷比/碎片离子质荷比的偏斜率、标记蛋白质组学中报告离子、鉴定到的肽段的TIC（Total Ion Chromatogram，总离子流图）数值中位数、二级谱图采集的四分位数等。然后，用户先自行定义一个基线参数作为标准，通过PCA的方式去除冗余的参数加快后续数据处理进程。最后使用rPCA（Robust Principal ComponentAnalysis，鲁棒的主成分分析）算法结合马氏距离对文件中每个参数给出一个具体的打分。该方式具有与标准人工分析方法类似的准确度，同时还具有实时分析的优势。

而对于DIA文件的质量控制，现阶段尚无公认的标准，因此很大程度上是依赖人工进行质量控制。

发明内容

发明人对相关技术进行分析后发现，QC-ART工具存在以下局限性：1）输入参数过多，限制了自身应用的推广；2）输入参数存在局限性，仅适用于Orbitrap仪器产生的数据；3）QC-ART的参数都是在质谱参数的基础上做一个简单的统计分析，并且其输出结果不包含任何的定量结果，这一结果是评价仪器状态的直接体现，因此使用QC-ART需要引入人工的二次评价，需要实验室技术人员具备强大的专业知识，而这有会限制这些指标对系统行能诊断的潜力。

对于DIA文件的质控，现阶段没有公认的标准，因此很大程度上是人工进行质控。

本发明实施例所要解决的一个技术问题是：如何更准确地评估质谱文件的状态。

根据本发明一些实施例的第一个方面，提供一种质谱数据在质量评估中的分析方法，包括：确定质谱文件的一个或多个液相色谱系统（Liquid Chromatography，简称：LC）特征和一个或多个质谱系统（Mass Spectrometer，简称：MS）特征；根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征；利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态。

在一些实施例中：LC特征包括总离子流图；或者，MS特征包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。

在一些实施例中：LC特征还包括目标肽段离子色谱峰保留时间；或者，MS特征还包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。

在一些实施例中：LC特征还包括目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽；或者，MS特征还包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种。

在一些实施例中，根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征包括：获取产生质谱文件的仪器对应的编码特征；对于LC特征和MS特征中的每个特征，利用特征和仪器对应的编码特征，生成特征对应的输入特征。

在一些实施例中，对于LC特征和MS特征中的每个特征：在特征的维度数为1的情况下，特征对应的预测模块包括一个第一全连接层；或者，在特征的维度数大于1的情况下，特征对应的预测模块包括多层感知机、或者包括LSTM网络和第二全连接层。

在一些实施例中，在特征为总离子流图的情况下，特征对应的预测模块包括LSTM网络和全连接层。

在一些实施例中，分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态包括：利用第三全连接层，对将每个LC特征对应的预测值进行拼接的结果进行处理，获得第三全连接层输出的、质谱文件的LC状态；利用第四全连接层，对将每个MS特征对应的预测值进行拼接的结果进行处理，获得第四全连接层输出的、质谱文件的MS状态。

在一些实施例中，分析方法还包括：利用训练文件，对每个特征对应的预测模块进行训练，其中，训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。

在一些实施例中，对每个特征对应的预测模块进行训练包括：利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差，计算损失值，其中，特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系；根据损失值，对每个特征对应的预测模块进行训练。

在一些实施例中：一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征；或者二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征；或者肽段鉴定数目和蛋白鉴定数目属于同一组特征。

在一些实施例中，在质谱文件的LC特征和MS特征中，第一部分的特征是根据质谱文件的整体确定的，第二部分的特征是根据质谱文件的目标肽段确定的。

在一些实施例中，将质谱文件的数据集中，缺失率低于预设阈值的肽段确定为目标肽段。

在一些实施例中，质谱文件是数据非依赖模式的文件。

根据本发明一些实施例的第二个方面，提供一种质谱数据在质量评估中的分析装置，包括：确定模块，被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征；输入特征生成模块，被配置为根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征；预测模块，被配置为利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，状态确定模块，被配置为分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态。

在一些实施例中，分析装置还包括：训练模块，被配置为利用训练文件，对每个特征对应的预测模块进行训练，其中，训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。

根据本发明一些实施例的第三个方面，提供一种质谱数据在质量评估中的分析装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种质谱数据在质量评估中的分析方法。

根据本发明一些实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种质谱数据在质量评估中的分析方法。

上述发明中的一些实施例具有如下优点或有益效果。本发明的实施例在评估质谱文件的过程中，能够从LC和MS两个维度评估质谱文件的质谱质量，也能够根据需要从更细致的LC特征和MS特征维度获得定量的评价结果，从而能够更合理地进行质量控制。该方案能够自动化地执行，从而更高效、准确。并且，上述实施例的通用性强，适用于多种质谱仪器产生的文件的评估。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的质谱数据在质量评估中的分析方法的流程示意图。

图2A示例性地示出了第一机器学习模型的结构示意图。

图2B示例性地示出了第二机器学习模型的结构示意图。

图3示出了根据本发明一些实施例的训练方法的流程示意图。

图4示出了根据本发明一些实施例的目标肽段筛选方法的流程示意图。

图5示出了根据本发明一些实施例的质谱数据在质量评估中的分析装置的结构示意图。

图6示出了根据本发明另一些实施例的质谱数据在质量评估中的分析装置的结构示意图。

图7示出了根据本发明又一些实施例的质谱数据在质量评估中的分析装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出了根据本发明一些实施例的质谱数据在质量评估中的分析方法的流程示意图。如图1所示，该实施例的质谱数据在质量评估中的分析方法包括步骤S102~S108。

在步骤S102中，确定质谱文件的一个或多个LC特征和一个或多个MS特征。

在一些实施例中，质谱文件是通过DIA方式采集的文件，即，是DIA模式的文件。

在一些实施例中，LC特征包括总离子流图；或者，MS特征包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。经过发明人的实验，总离子流图、肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值能够更好地评价质谱文件的状态。

在一些实施例中，LC特征包括目标肽段离子色谱峰保留时间；MS特征包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。经过发明人的实验，目标肽段离子色谱峰保留时间、目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积和目标肽段离子色谱峰二级质谱峰面积也能够较准确地评价质谱文件的状态。

在一些实施例中，LC特征包括目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽；MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种。经过发明人的实验，目标肽段离子色谱峰峰形、目标肽段离子色谱峰峰宽、离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度和一级质谱或二级质谱信号差异度也能够较准确地评价质谱文件的状态。

下面示例性地描述各个特征的含义。

F1：目标肽段离子色谱峰峰形表征（Peak shape of targeted peptideprecursor）。

提取目标离子的分析软件导出的结果，并根据该结果计算每个目标离子的峰形信息，例如不对称因子和拖尾因子。

特征F1在相关技术中并不应用于DIA领域。

F2：目标肽段离子色谱峰峰宽（Peak width of targeted peptide precursor）。

使用确定F1的流程获得母离子的轮廓图，并对该轮廓图进行峰检测，计算母离子半峰宽信息。

F3：目标肽段离子色谱峰保留时间（Retention time of targeted peptideprecursor）。

基于提取目标离子的分析软件与DIA数据分析工具软件的分析结果提取每个文件的目标肽段离子色谱图的保留时间。

F4：一级离子流图（MS1 chromatogram）。

通过质谱文件（mzXML格式）提取一级离子质子数与电荷数的比值（m/z）与强度（intensity），使用样条插值生成n维的离子数值，以生成一级离子流图。

在相关技术中，特征F4从未应用于现有的质谱文件质量评估中。

F5：鉴定到的离子电荷分布（Charge state distribution of identifiedpeptide precursors）。

提取DIA数据分析工具软件的分析结果，统计每个文件鉴定到的母离子数目、不同电荷数的母离子的数目、母离子的电荷平均值、不同电荷数的母离子的数目占总离子数目的比例。

F6：离子源喷雾稳定性（Stability of ionization）。

提取mzXML文件中的信息，统计所有连续间隔几张一级质谱信号超过n倍的次数，计算出现次数。

特征F6在相关技术中并不应用于DIA领域。

F7：肽段母离子质谱鉴定准确度(Mass accuracy of peptide precursor)。

通过DIA数据分析工具软件的分析结果统计每个文件的质荷比准确度的中位数值。

F8：一级质谱信号（MS1 signal）值。

对mzXML文件的数据进行插值，统计每个原始文件MS1信号的面积数值。

F9：目标肽段离子色谱峰采集点数（Data points of each identified peptideprecursor）。

从搜库软件中或根据采集质谱采集频率和色谱出峰时间计算目标离子在每个原始文件采集的点数。

F10：肽段碎片离子质谱鉴定准确度（Mass accuracy of peptide fragmention）。

通过DIA数据分析工具软件结果统计每个文件的所有肽段二级碎片离子的质荷比准确度的中位数值。

F11：二级质谱信号（MS2 signal）值。

对mzXML的数据进行插值，统计每个原始文件MS2信号的面积数值。

F12：一级质谱和二级质谱信号差异度（Ratio of MS1 signal to MS2 signal）。

每个文件鉴定的TIC MS1/TIC MS2比值，即F8/F11的数值。

特征F12在相关技术中并不应用于DIA领域。

F13：肽段鉴定数目（Number of identified peptide）。

通过DIA数据分析工具软件统计每个原始文件鉴定到的肽段数目。

F14：蛋白鉴定数目（Number of identified protein）。

通过DIA数据分析工具软件统计每个原始文件鉴定到的蛋白数目。

F15：目标肽段离子色谱峰一级质谱峰面积（MS1 signal of targeted peptideprecursor）。

统计每个原始文件鉴定到的目标肽段离子的一级质谱峰面积及在所有原始文件的分布。

F16：目标肽段离子色谱峰二级质谱峰面积（MS2 signal of targeted peptideprecursor）。

统计每个原始文件鉴定到的目标肽段离子的二级质谱峰面积及在所有原始文件的分布。

在步骤S104中，根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征。即，生成的输入特征既有原始特征的信息、又有仪器的信息。

在一些实施例中，获取产生质谱文件的仪器对应的编码特征；对于LC特征和MS特征中的每个特征，利用特征和仪器对应的编码特征，生成特征对应的输入特征。

仪器对应的编码特征例如通过独热（One-hot）编码方式表示。例如，对于仪器A、B和C，分别使用[1, 0, 0]、[0, 1, 0]、[0, 0, 1]表示。

在步骤S106中，利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值。预测模块为根据输入特征进行计算、并输出预测值的模块，其可以包括机器学习模型、子网络等等，例如包括全连接层（FC）、多层感知机（MLP）或神经网络模型等。

例如，将每个输入特征输入到相应的预测模块中，获得预测模块输出的结果，作为预测值。

在一些实施例中，在特征的维度数为1的情况下，特征对应的预测模块包括一个第一全连接层。

在一些实施例中，在特征的维度数大于1的情况下，特征对应的预测模块包括MLP、或者包括长短期记忆网络（Long Short-Term Memory，简称：LSTM）网络和第二全连接层。例如，在特征为总离子流图的情况下，特征对应的预测模块包括LSTM网络和全连接层。总离子流图包括时序信息，因此通过LSTM网络处理能够得到更准确的预测结果。

在步骤S108中，分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态。LC状态和MS状态能够用于评估质谱文件的质量，其状态值例如包括用于表示“合格的”“不合格的”的数值。根据需要，也可以采用其他的状态值，这里不再赘述。此外，步骤S106中获得的每个特征对应的预测值也能够作为质谱文件评估的定量结果。

在一些实施例中，利用第三全连接层，对将每个LC特征对应的预测值进行拼接（concat）的结果进行处理，获得第三全连接层输出的、质谱文件的LC状态；利用第四全连接层，对将每个MS特征对应的预测值进行拼接的结果进行处理，获得第四全连接层输出的、质谱文件的MS状态。

在一些实施例中，利用两个机器学习模型实现步骤S106和S108的处理，两个机器学习包括第一机器学习模型和第二机器学习模型。第一机器学习模型包括LC特征对应的预测模块和第三全连接层，第二机器学习模型包括MS特征对应的预测模块和第四全连接层。

图2A示例性地示出了第一机器学习模型的结构示意图。

在图2A中，特征F1、F2和F3各对应一个MLP，特征F4对应一个LSTM和FC。将特征F1~F4对应的输入特征输入到相应的预测模块后，分别获得对应的预测值O1~O4。然后，将O1~O4输入到FC中，获得输出的LC状态。

图2B示例性地示出了第二机器学习模型的结构示意图。

在图2B中，特征F5、F15和F16各对应一个MLP，特征F6~F14各对应一个FC。将特征F5~F16对应的输入特征输入到相应的预测模块后，分别获得对应的预测值O5~O16。然后，将O5~O16输入到FC中，获得MS状态。

本发明的实施例在评估的过程中，能够从LC和MS两个维度评估质谱文件的质谱质量，也能够根据需要从更细致的LC特征和MS特征维度获得定量的评价结果，从而能够更合理地进行质量控制。该方案能够自动化地执行，从而更高效、准确。并且，上述实施例的通用性强，适用于多种质谱仪器产生的文件的评估。

本发明的实施例能够应用于对DIA文件的评估，从而能够高效、准确地评估DIA文件。然而，本发明的实施例也能够对DDA文件进行质量评价。

在一些实施例中，可以预先对各个特征对应的预测模块进行训练：利用训练文件，对每个特征对应的预测模块进行训练，其中，训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。训练文件是指用于训练的质谱文件。下面参考图3描述本发明训练方法的实施例。

图3示出了根据本发明一些实施例的训练方法的流程示意图。如图3所示，该实施例的训练方法包括步骤S302~S310。

在步骤S302中，获取训练文件，训练文件为质谱文件，具有LC状态的标记值和MS状态的标记值、以及训练文件的一个或多个LC特征和一个或多个MS特征中每个特征对应的标记值。这些标记值可以是由有经验的从业者根据经验评估的。

在步骤S304中，根据训练文件的LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征。

在步骤S306中，将LC特征对应的输入特征输入到第一机器学习模型，将MS特征对应的输入特征输入到第二机器学习模型。第一机器学习模型和第二机器学习模型的架构可以参见前述实施例，这里不再赘述。根据需要，可以对第一机器学习模型和第二机器学习模型进行一些变形处理。

在第一机器学习模型和第二机器学习模型中，利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值。并且，第一机器学习模型还根据LC特征对应的预测值确定质谱文件的LC状态，第二机器学习模型还根据MS特征对应的预测值确定质谱文件的MS状态。

在步骤S308中，根据损失函数计算损失值。

在一些实施例中，利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差，计算损失值，其中，特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系。

一些特征对应的预测值在理论上应当是相同的。例如，设特征T1与T2属于同一组。理论上，如果T1的预测值为1，则T2的预测值也应当为1；如果T1的预测值为0，则T2的预测值也应当为0。

在一些实施例中，一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征；二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征；肽段鉴定数目和蛋白鉴定数目属于同一组特征。

一个示例性的损失函数如以下公式所示：

其中，

表示损失值，例如交叉熵损失（cross entropy loss）；

表示每个特征对应的预测误差的总和，

表示特征标识，

表示第

个特征对应的系数，

表示第

个特征对应的预测误差（例如为标记值和预测值的差距）；

表示一致性误差的总和，其中，

和

表示属于同一组的特征的特征标识，

表示第

个特征对应的系数，

表示属于同一组的特征的预测值的差异带来的损失，例如，第

个特征对应的预测值

和第

个特征对应的预测值

一致时，

为0，否则为1；

表示LC状态的预测误差、MS状态的预测误差的总和，LC状态和MS状态的预测误差例如分别根据相应状态的预测值和标记值直接的差距确定。

从而，可以从多个维度衡量模型的损失，使得训练后的模型具有更高的准确率。

在步骤S310中，根据损失值，对每个特征对应的预测模块进行训练。例如，通过反向传播算法对第一机器学习模型和第二机器学习模型的参数进行联合调整，则模型中的预测模块的参数也得到了调整。

通过上述实施例，能够通过预先进行的训练过程获得预测模块的参数，从而在利用预测模块确定质谱文件的状态时，能够具有更高的准确性。

在一些实施例中，在质谱文件的LC特征和MS特征中，第一部分的特征是根据质谱文件的整体确定的，第二部分的特征是根据质谱文件的目标肽段确定的。目标肽段是指通过筛选而确定的特定肽段，这些肽段相比于其他肽段更具有代表性，可以体现质谱文件的状态。

例如，在特征F1~F16中，F4~F14根据原始的质谱文件的整体确定，F1、F2、F15和F16根据该质谱文件的目标肽段确定。

图4示出了根据本发明一些实施例的目标肽段筛选方法的流程示意图。如图4所示，该实施例的目标肽段筛选方法包括步骤S402~S404。

在步骤S402中，获取质谱文件的数据集。

在一些实施例中，数据集中的质谱文件来自于目前常用于发现蛋白质组学的所有类型的质谱仪。从而，筛选的目标肽段能够适用于更多种类的质谱仪器。

在步骤S404中，将质谱文件的数据集中，缺失率低于预设阈值的肽段确定为目标肽段。

在一些实施例中，预设阈值为80%。

通过上述实施例，能够将出现频率高、有代表性的肽段确定为目标肽段，从而基于目标肽段提取的特征能够更准确地反映质谱文件的特点，使得预测的准确性得到了提升。

图5示出了根据本发明一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图5所示，该实施例的分析装置50包括：确定模块510，被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征；输入特征生成模块520，被配置为根据LC特征、MS特征和产生质谱文件的仪器的信息，生成每个特征对应的输入特征；预测模块530，被配置为利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，状态确定模块540，被配置为分别根据LC特征对应的预测值和MS特征对应的预测值，确定质谱文件的LC状态和MS状态。

在一些实施例中，输入特征生成模块520进一步被配置为获取产生质谱文件的仪器对应的编码特征；对于LC特征和MS特征中的每个特征，利用特征和仪器对应的编码特征，生成特征对应的输入特征。

在一些实施例中，状态确定模块540进一步被配置为利用第三全连接层，对将每个LC特征对应的预测值进行拼接的结果进行处理，获得第三全连接层输出的、质谱文件的LC状态；利用第四全连接层，对将每个MS特征对应的预测值进行拼接的结果进行处理，获得第四全连接层输出的、质谱文件的MS状态。

在一些实施例中，分析装置50还包括：训练模块550，被配置为利用训练文件，对每个特征对应的预测模块进行训练，其中，训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。

在一些实施例中，训练模块550进一步被配置为利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差，计算损失值，其中，特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系；根据损失值，对每个特征对应的预测模块进行训练。

在一些实施例中，分析装置50还包括：目标肽段确定模块660，被配置为将质谱文件的数据集中，缺失率低于预设阈值的肽段确定为目标肽段。

在一些实施例中，质谱文件是DIA模式的文件。

在一些实施例中，质谱数据在质量评估中的分析装置可以部署在后端，即服务器侧。用户通过前端设备输入原始的质谱文件，前端设备将质谱文件发送给后端的分析装置进行处理。然后，分析装置将对质谱文件的评估结果返回给前端设备。

图6示出了根据本发明另一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图6所示，该实施例的分析装置60包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一个实施例中的质谱数据在质量评估中的分析方法。

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序（Boot Loader）以及其他程序等。

图7示出了根据本发明又一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图7所示，该实施例的分析装置70包括：存储器710以及处理器720，还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730，740，750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种质谱数据在质量评估中的分析方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解为可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种质谱数据在质量评估中的分析方法，包括：

确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征，其中，所述LC特征包括总离子流图、目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽中的至少一种，所述MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种；

根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息，生成每个特征对应的输入特征；

利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，

分别根据所述LC特征对应的预测值和所述MS特征对应的预测值，确定所述质谱文件的LC状态和MS状态。

2.根据权利要求1所述的分析方法，其中，

所述MS特征还包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。

3.根据权利要求1所述的分析方法，其中：

所述LC特征还包括目标肽段离子色谱峰保留时间；或者

所述MS特征还包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。

4.根据权利要求1所述的分析方法，其中，所述根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息，生成每个特征对应的输入特征包括：

获取产生所述质谱文件的仪器对应的编码特征；

对于所述LC特征和所述MS特征中的每个特征，利用所述特征和所述仪器对应的编码特征，生成所述特征对应的输入特征。

5.根据权利要求1所述的分析方法，其中，对于所述LC特征和所述MS特征中的每个特征：

在所述特征的维度数为1的情况下，所述特征对应的预测模块包括一个第一全连接层；或者，

在所述特征的维度数大于1的情况下，所述特征对应的预测模块包括多层感知机、或者包括长短期记忆网络LSTM网络和第二全连接层。

6.根据权利要求5所述的分析方法，其中，在所述特征为总离子流图的情况下，所述特征对应的预测模块包括LSTM网络和全连接层。

7.根据权利要求1所述的分析方法，其中，所述分别根据所述LC特征对应的预测值和所述MS特征对应的预测值，确定所述质谱文件的LC状态和MS状态包括：

利用第三全连接层，对将每个LC特征对应的预测值进行拼接的结果进行处理，获得所述第三全连接层输出的、所述质谱文件的LC状态；

利用第四全连接层，对将每个MS特征对应的预测值进行拼接的结果进行处理，获得所述第四全连接层输出的、所述质谱文件的MS状态。

8.根据权利要求1~7中任一项所述的分析方法，还包括：

利用训练文件，对每个特征对应的预测模块进行训练，其中，所述训练文件具有LC状态的标记值和MS状态的标记值、以及所述训练文件中每个特征对应的标记值。

9.根据权利要求8所述的分析方法，其中，所述对每个特征对应的预测模块进行训练包括：

利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差，计算损失值，其中，所述特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系；

根据所述损失值，对每个特征对应的预测模块进行训练。

10.根据权利要求9所述的分析方法，其中：

一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征；或者

二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征；或者

肽段鉴定数目和蛋白鉴定数目属于同一组特征。

11.根据权利要求1所述的分析方法，其中，在所述质谱文件的所述LC特征和所述MS特征中，第一部分的特征是根据所述质谱文件的整体确定的，第二部分的特征是根据所述质谱文件的目标肽段确定的。

12.根据权利要求1所述的分析方法，还包括：

将质谱文件的数据集中，缺失率低于预设阈值的肽段确定为目标肽段。

13.根据权利要求1所述的分析方法，其中，所述质谱文件是数据非依赖模式的文件。

14.一种质谱数据在质量评估中的分析装置，包括：

确定模块，被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征，其中，所述LC特征包括总离子流图、目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽中的至少一种，所述MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种；

输入特征生成模块，被配置为根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息，生成每个特征对应的输入特征；

预测模块，被配置为利用每个特征对应的预测模块对相应的输入特征进行处理，获得每个特征对应的预测值；以及，

状态确定模块，被配置为分别根据所述LC特征对应的预测值和所述MS特征对应的预测值，确定所述质谱文件的LC状态和MS状态。

15.根据权利要求14所述的分析装置，还包括：

训练模块，被配置为利用训练文件，对每个特征对应的预测模块进行训练，其中，所述训练文件具有LC状态的标记值和MS状态的标记值、以及所述训练文件中每个特征对应的标记值。

16.一种质谱数据在质量评估中的分析装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1~13中任一项所述的质谱数据在质量评估中的分析方法。

17.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1~13中任一项所述的质谱数据在质量评估中的分析方法。