CN116106464B

CN116106464B - 质谱数据质量程度或概率的控制系统、评估系统及方法

Info

Publication number: CN116106464B
Application number: CN202310373091.2A
Authority: CN
Inventors: 郭天南; 朱怡; 高欢欢; 李艳涛; 聂忠祥
Original assignee: West Lake Omi Hangzhou Biotechnology Co ltd
Current assignee: West Lake Omi Hangzhou Biotechnology Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-25
Anticipated expiration: 2043-04-10
Also published as: CN116106464A

Abstract

本发明主要关于质谱数据质量程度或概率的控制系统、评估系统及方法，评估系统包括：输入模块，输入质谱文件的机器标签、液相色谱系统特征和质谱系统特征；预处理模块，对所述液相色谱系统特征和质谱系统特征进行预处理并获得LC特征和MS特征；分析模块，将预处理后的各特征输入完成训练的分类模型并进行预测分类；输出模块，输出分类结果和总体结果，表征原始文件质谱数据的LC质量和MS质量。可以快速的提升质谱生成数据的质量和精度，实现相同仪器或相同项目在不同时间段进行不同数据采集的原始文件评估，全面解决人为标记的原始文件评估的不确定性和时间成本高企的缺陷，为用户提供对应的仪器故障问题的排查思路，实质性解决问题。

Description

质谱数据质量程度或概率的控制系统、评估系统及方法

技术领域

本发明主要关于质谱数据质量控制技术领域，特别是关于质谱数据质量程度或概率的控制系统、评估系统及方法。

背景技术

DIA(Data independent acquisition)数据非依赖性采集模式，是在传统的DDA(DataDependent acquisition)数据依赖性采集模式基础上发展起来的一种全新的、全景式的质谱数据采集方式，它利用高分辨率的静电场轨道阱Orbitrap质谱仪，将质谱整个全扫描范围根据质荷比分布密度划分为若干个可变窗口，并将窗口内所有肽段母离子进行超高速、循环的破碎和检测，最大限度的扫描采集所有肽段离子的碎片信息，是一种高通量蛋白质鉴定技术。

蛋白质组学DIA技术摆脱了传统的DDA数据依赖性采集技术偏向性采集和碎裂高丰度肽段的特点，可以无遗漏地采集样本中所有离子的全部碎片信息，包括低丰度的肽段离子，大大减少了数据缺失值，提高了数据的利用度，是研究大样本量以及复杂体系蛋白质样品的首选技术。

基于质谱的定量蛋白质组学研究，通过表征蛋白质组丰度的动态变化规律，对生命科学及人类许多疾病的发生、发展的诊断有重大意义。非标记定量蛋白质组学技术，因实验操作简单等优势广泛应用。虽然基于质谱的非标记定量蛋白质组学技术日新月异，但是在大队列的实验分析中，质谱运行异常也会带来原始文件重复性低的问题，因此建立自动化的仪器质量控制流程来保证仪器稳定性在大队列分析过程中也显得尤为重要。基于非数据依赖模式的非标记定量蛋白质组学技术，因技术较好的定量准确性近几年逐渐流行。但因数据非依赖模式产生的数据分析的困难性，结合前人文献报道，目前多数实验室使用数据依赖模式方法产生的原始文件的分析结果，例如肽段和蛋白鉴定数目，评估正在进行非数据依赖模式采集的质谱仪器状态。这个过程中，缺少详细的色谱分离(LC，liquidchromatography)和质谱(MS，mass spectrometer)的定量层面的评估指标，例如色谱峰宽分布，保留时间分布，色谱峰容量，肽段丰度等定量结果。

目前前人文献报道基于数据依赖模式方法产生的原始文件的评价方案包含以上参数的部分内容，但是存在输入参数过多导致用户使用不易上手现象，此外这些方法没有利用实际产出的结果形成一个定量结果，而这一定量结果是仪器性能状态变化的直接体现。同时前人文献报道所使用的肽段主要是高丰度蛋白，可能存在一定的表达不全面性。

此外，是在大队列的实验分析中，质谱运行异常也会带来原始文件重复性低的问题，因此建立自动化的仪器质量控制流程来保证仪器稳定性在大队列分析过程中也显得尤为重要。截止到目前，在发表文献中提到的质量控制主要以手动方式为主。发明人的前期研究成果如公开号为CN114858958A、授权公告号为CN114858958B的中国发明专利，详细介绍了使用16个特征结合机器学习使用自动化方式完成原始文件的评估，然而其存在以下局限性：1、输入参数过多限制了自身应用的推广，并且在每个特征的信息提取上都需要花费更多的时间，此模型需要从多个方面：原始文件格式解析，原始文件的搜库分析等；2、发明人仅提起此模型适用于DIA采集的过程中的仪器评估，而对于相同仪器的不同时期或者相同项目的不同采集方法存在缺失，还无法实现仪器的连续监测评估和单个项目中不同采集状态的仪器质量监测；3、上述中国发明专利与前人报道的多数质量监控方法类似，未给用户提供对应的仪器故障问题的排查思路，因此无法实质性的解决相关问题；4、发明人的前述发明专利中并未包含离子淌度维度信息，对于近期具有高影响力的离子淌度质谱的评估存在缺失。

前述背景技术知识的记载旨在帮助本领域普通技术人员理解与本发明较为接近的现有技术，同时便于对本申请发明构思及技术方案的理解，应当明确的是，在没有明确的证据表明上述内容在本专利申请的申请日前已公开的情况下，上述背景技术不应当用于评价本申请技术方案的新创性。

发明内容

为解决上述记载中提及的至少一种技术问题，本发明提出一种筛选的代表性肽段母离子质谱数据结合机器学习的多种类型、非标记定量的原始文件采集过程中的仪器质量监测系统，可以快速的提升质谱生成数据的质量和精度，实现相同仪器或相同项目在不同时间段进行不同数据采集的原始文件评估，进一步全面解决人为标记的原始文件评估的不确定性和时间成本高企的缺陷。

质谱数据质量程度或概率的控制系统，包括：

输入模块，其被配置为输入质谱文件的机器标签、液相色谱系统特征和质谱系统特征；

预处理模块，其被配置为对所述液相色谱系统特征和质谱系统特征进行预处理并获得LC特征和MS特征；

分析模块，其被配置为将预处理后的各特征输入完成训练的分类模型并进行预测分类；

输出模块，其被配置为输出分类结果和总体结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量；

控制模块，其被配置为依据所述分类结果和总体结果的反馈信息反向调整生成质谱文件的仪器参数，实现对质谱仪器、质谱方法、质谱数据质量的控制。

质谱数据质量程度或概率的评估系统，包括：

输出模块，其被配置为输出分类结果和总体结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量。

部分具体实施方案中，所述质谱文件是通过DIA方式采集的文件，即DIA模式的文件。

部分具体实施方案中，所述液相色谱系统特征包括目标肽段离子色谱峰不对称因子、目标肽段离子色谱峰峰宽、目标肽段离子色谱峰保留时间或一级离子流图中的至少一种。

部分具体实施方案中，所述质谱系统特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、一级质谱信号值、目标肽段离子色谱峰采集点数、肽段碎片离子质谱鉴定准确度、二级质谱信号值、一级质谱和二级质谱信号差异度、肽段鉴定数目、蛋白鉴定数目、目标肽段离子色谱峰一级质谱峰面积、目标肽段离子色谱峰二级质谱峰面积或目标肽段的离子淌度准确度中的至少一种。

部分具体实施方案中，所述预处理模块还包括对液相色谱系统特征和质谱系统特征进行人工标注，为每个原始文件的每个特征标注赋予Qualified标签或Unqualified标签。

部分具体实施方案中，所述LC特征、MS特征分别是在预处理模块中由标记人员结合F1～F16特征对每个文件的液相色谱系统、质谱系统进行评价得出的。

部分具体实施方案中，所述分类模型以机器标签和经过预处理的各特征标签进行训练。

前述质谱数据质量程度或概率的评估系统的应用，包括：对质谱文件质量进行评估和/或对质谱方法进行质量控制。

质谱数据质量程度或概率的评估方法，包括：

1)、从质谱文件中提取得到机器标签、液相色谱系统特征和质谱系统特征；

2)、对所述液相色谱系统特征和质谱系统特征进行预处理；

3)、将预处理后的各特征输入完成训练的分类模型并进行预测分类；

4)、输出分类结果和总体结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量。

部分具体实施方案中，所述对所述液相色谱系统特征和质谱系统特征进行预处理还包括对液相色谱系统特征和质谱系统特征进行人工标注，为每个原始文件的每个特征标注赋予Qualified标签或Unqualified标签。

前述质谱数据质量程度或概率的评估方法的应用，包括：对质谱文件质量进行评估和/或对质谱方法进行质量控制。

质谱数据质量程度或概率的评估装置，

包括：前端A、预处理模块、分析模块和前端B，前端A接收用户输入的质谱文件信息，经过预处理模块、分析模块后对质谱文件信息进行分类，最后将分类结果和总体结果输出到前台B。

部分具体实施方案中，所述质谱文件信息包括前述具体实施方案中所述的F0～F17特征信息。

部分具体实施方案中，所述装置运行时执行前述具体实施方案中所述的质谱数据质量程度或概率的评估方法。

计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行前述质谱数据质量程度或概率的评估方法。

目前与本方案比较接近的现有技术是基于DDA原始文件的质控标准，与本方法相同的是研究人员将DDA原始文件中的肽段鉴定数目、蛋白鉴定数目、色谱峰宽信息，保留时间分布情况分别提取出来；然后用户先自行定义一个基线参数作为标准，通过PCA的方式去除冗余的参数加快后续数据处理进程；最后使用rPCA算法结合马氏距离对文件中每个参数给出一个具体的打分。而对于DIA文件的质控，现阶段没有公认的标准，因此很大程度上是人工进行质控。

基于此，本申请方案提供了一种质谱数据质量程度或概率的控制系统、评估系统、方法及装置，首先获取质谱文件的机器标签、液相色谱系统特征和质谱系统特征，各特征经过预处理及人工标注后训练分类模型，将预处理后的各特征输入完成训练的分类模型并进行预测分类，依据分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量，依据所述分类结果和总体结果的反馈信息反向调整生成质谱文件的仪器参数，实现对质谱仪器、质谱方法、质谱数据质量的控制。本申请技术首创了对DIA文件进行评估的标准，相较于DDA的评估标准，本方案更加详细的评估不同维度的质谱质量，从而能更加合理的对质谱质量进行评估；相较于人工评估，本方案提出了一套自动化评估的标准，能够更高效且准确的评估质谱质量，排除人为因素的干扰导致标准不统一；再次，由于参考了市面上大部分型号的质谱仪器作为训练集，本发明可以对大部分质谱进行有效而准确的判断，其他质谱也能提供相对准确的参考。

本申请的有益效果为：

首创了对DIA文件进行评估的标准，相较于DDA的评估标准，本方案更加详细的评估不同维度的质谱质量，从而能更加合理的对质谱质量进行评估；相较于人工评估，本方案提出了一套自动化评估的标准，能够更高效且准确的评估质谱质量，排除人为因素的干扰导致标准不统一；由于参考了市面上大部分型号的质谱仪器作为训练集，本发明可以对大部分质谱进行有效而准确的判断，其他质谱也能提供相对准确的参考。

本申请方案有助于快速提升质谱生成数据的质量和精度实现相同仪器或相同项目在不同时间段进行不同数据采集的原始文件评估，进一步全面解决人为标记的原始文件评估的不确定性和时间成本高企的缺陷，同时针对性的提供对应故障问题的维护方案的指导和建议，更加针对性的帮助用户解决故障问题。

附图说明

为让本发明的上述和/或其他目的、特征、优点与实例能更明显易懂，下面将对本发明的具体实施方式中所需要使用的附图进行简单的介绍，显然地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的情况下还可以根据这些附图获得其他的附图。

图1是质谱数据质量程度或概率的评估方法处理流程图；

图2是各特征信息在质谱检测系统中的分布示意图；

图3是分类架构设计示意图；

图4是质谱数据质量程度或概率的评估装置示意图。

具体实施方式

本领域技术人员可以借鉴本文内容，适当替换和/或改动工艺参数实现，然而特别需要指出的是，所有类似的替换和/或改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明所述产品和制备方法已经通过较佳实例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品和制备方法进行改动或适当变更与组合，来实现和应用本发明技术。

除非另有定义，本文所使用的技术和科学术语，具有本发明所属领域的普通技术人员通常所理解的相同的含义。本发明使用本文中所描述的方法和材料；但本领域中已知的其他合适的方法和材料也可以被使用。本文中所描述的材料、方法和实例仅是说明性的，并不是用来作为限制。所有出版物、专利申请案、专利案、临时申请案、数据库条目及本文中提及的其它参考文献等，其整体被并入本文中作为参考。若有冲突，以本说明书包括定义为准。

除非具体说明，本文所描述的材料、方法和实例仅是示例性的，而非限制性的。尽管与本文所述的那些方法和材料类似或等同的方法和材料可用于本发明的实施或测试，但本文仍描述了合适的方法和材料。

为了便于理解本发明的实施例，首先对本发明实施例中可能涉及的缩略语和关键术语进行解释说明或定义，对于其他未明确提及的缩略语、术语、参数等均以本领域公知常识进行理解。

DDA：Data dependant acquisition strategy，数据依赖模式；

DIA：Data independant acquisition strategy，数据非依赖模式；

SRM：Selecting reaction monitering，选择监测模式；

mzXML：质谱文件格式；

m/z：质荷比；

Random search with XGBoost：随机搜索XGBoost；

Qualified：合格的；

Unqualified：不合格的；

skyline：skyline是一个免费的开源Windows客户端应用程序，支持构建选择性反应监测(SRM)/多反应监测(MRM)、平行反应监测(PRM-目标MS/MS)，数据非依赖型采集(DIA/SWATH)和MS1定量(如label-free定量)的DDA，并对所得的质谱数据进行分析。

DIA-NN：英国弗朗西斯-克里克研究所Markus Ralser研究组开发的一种神经网络和干扰校正工具，能够在高通量下实现对蛋白组学的深度覆盖，其利用深度神经网络以及新的量化和信号校正策略来处理数据非依赖性采集(DIA)蛋白质组学实验数据；

DIA/SWATH：DIA(data-independent acquisition)/SWATH(Sequential WindowAcquisition of all Theoretical MassSpectra)，是一项区别于DDA采集的全新的、全息式的质谱技术，将扫描范围划分为以25Dalt为间隔的一系列区间，通过超高速扫描来获得扫描范围内全部离子的所有碎片信息，是MS/MS ALL技术的扩展；DIA/SWATH技术是一种真正全景式、高通量的质谱技术，同时也大大提高了定量的可重现性；

diaPASEF：将PASEF(ParallelAccumulation Serial Fragmentation，平行累积连续碎裂)与DIA(Data-Dependent Acquisition，数据依赖采集)的优势相结合，产生了一种新的采集模式，在diaPASEF扫描模式中，母离子在进入四级杆之前已经通过淌度进行了累积和分离，根据碰撞截面积(CCS)大小依次洗脱(与m/z有一定相关性)，这样四级杆就可以根据洗脱离子的m/z进行离子选择，并且每批PASEF都会有多个窗口进行扫描，从而提高离子的利用率，避免了传统DIA方法中离子利用率低的问题。

以下详细描述本发明。质谱数据质量程度或概率的评估系统，包括：

部分具体实施方案中，所述液相色谱系统特征包括：F1目标肽段离子色谱峰不对称因子、F2目标肽段离子色谱峰峰宽、F3目标肽段离子色谱峰保留时间或F4一级离子流图中的至少一种。经过发明人的实验证实，目标肽段离子色谱峰不对称因子、目标肽段离子色谱峰峰宽、目标肽段离子色谱峰保留时间、一级离子流图以及结合各特征对每个文件的液相色谱系统进行评价得出的LC特征能够更好的评价质谱文件的质量。

部分具体实施方案中，所述质谱系统特征包括：F5鉴定到的离子电荷分布、F6离子源喷雾稳定性、F7肽段母离子质谱鉴定准确度、F8一级质谱信号值、F9目标肽段离子色谱峰采集点数、F10肽段碎片离子质谱鉴定准确度、F11二级质谱信号值、F12一级质谱和二级质谱信号差异度、F13肽段鉴定数目、F14蛋白鉴定数目、F15目标肽段离子色谱峰一级质谱峰面积、F16目标肽段离子色谱峰二级质谱峰面积或F17目标肽段的离子淌度准确度中的至少一种。经过发明人的实验证实，鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、一级质谱信号值、目标肽段离子色谱峰采集点数、肽段碎片离子质谱鉴定准确度、二级质谱信号值、一级质谱和二级质谱信号差异度、肽段鉴定数目、蛋白鉴定数目、目标肽段离子色谱峰一级质谱峰面积、目标肽段离子色谱峰二级质谱峰面积、目标肽段的离子淌度准确度以及结合各特征对每个文件的质谱系统进行评价得出的MS特征能够更好的评价质谱文件的质量，此外，还考虑了近期具有高影响力的离子淌度质谱的评估，因此能够更加完整的评估质谱文件的状态和质量。

部分具体实施方案中，所述LC特征是在预处理模块中结合液相色谱系统特征和质谱系统特征对每个文件的液相色谱系统进行评价得出的。

部分具体实施方案中，所述MS特征是在预处理模块中结合液相色谱系统特征和质谱系统特征对每个文件的质谱系统进行评价得出的。

部分具体实施方案中，所述机器标签记为F0机器标签，是用于产生原始文件的分析仪器类型，分析仪器类型的信息来自于原始文件中的索引。

部分具体实施方案中，所述F1目标肽段离子色谱峰不对称因子，具体是原始文件中已鉴定的肽段的色谱峰的不对称因子。

部分具体实施方案中，所述F2目标肽段色谱峰峰宽，具体是原始文件中已经鉴定的肽段的色谱峰的半峰全宽。

部分具体实施方案中，所述F3目标肽段离子色谱峰保留时间，具体是在相同梯度方法下，鉴定到的所有肽段的出峰时间分布。

部分具体实施方案中，所述F4一级离子流图，具体是原始文件中MS1信号轮廓图。

部分具体实施方案中，所述F5鉴定到的离子电荷分布，具体是原始文件中已经鉴定到的所有肽段。

部分具体实施方案中，所述F6 离子源喷雾稳定性，具体是原始文件中离子源稳定性。

部分具体实施方案中，所述F7肽段母离子质谱鉴定准确度，具体是原始文件中鉴定到的所有肽段的定量信息。

部分具体实施方案中，所述F8一级质谱信号值，具体是原始文件中一级谱图信号。

部分具体实施方案中，所述F9目标肽段离子色谱峰采集点数，具体是原始文件中鉴定到的所有肽段的采集点数的统计。

部分具体实施方案中，所述F10肽段碎片离子质谱鉴定准确度，具体是原始文件中鉴定到的所有肽段的碎片离子质荷比准确度。

部分具体实施方案中，所述F11二级质谱信号值，具体是原始文件中二级谱图信号。

部分具体实施方案中，所述F12一级质谱和二级质谱信号差异度，具体是原始文件中二级碎裂的有效性。

部分具体实施方案中，所述F13肽段鉴定数目，具体是原始文件谱图通过与谱图库匹配，得到匹配到肽段数目。

部分具体实施方案中，所述F14蛋白鉴定数目，具体是原始文件谱图通过与谱图库匹配，得到匹配到蛋白质数目。

部分具体实施方案中，所述F15目标肽段离子色谱峰一级质谱峰面积，具体是原始文件中已经鉴定到的目标肽段离子一级信号。

部分具体实施方案中，所述F16目标肽段离子色谱峰二级质谱峰面积，具体是原始文件中已经鉴定到的目标肽段离子二级信号。

部分具体实施方案中，所述F17目标肽段的离子淌度准确度，具体是原始文件中鉴定到的离子的目标肽段准确度。

部分具体实施方案中，所述LC特征是原始文件在液相色谱层面的信息，具体通过结合各特征对每个质谱文件的液相色谱系统评价得出。LC特征的获取具体是标记人员通过结合F1～F17各特征对每个质谱文件的液相色谱系统评价得出，因此广义来说LC特征与F1～F4相同也属于液相色谱系统特征，本申请为方便描述将LC特征独立于液相色谱系统特征之外。

部分具体实施方案中，所述MS 特征是原始文件在质谱层面的信息，具体通过结合各特征对每个质谱文件的质谱系统评价得出。MS特征的获取具体是标记人员通过结合F1～F17各特征对每个质谱文件的质谱系统评价得出，因此广义来说MS特征与F5～F17相同也属于质谱系统特征，本申请为方便描述将MS特征独立于质谱系统特征之外。

部分具体实施方案中，示例性的描述各特征的预处理操作，具体如下。

F1目标肽段离子色谱峰不对称因子

基于skyline导出的结果，每个文件根据Precursor.Id去重，取Total Area 最大行的retention time和Intensity分别作为横坐标、纵坐标。

不对称因子AS计算：获取峰高10%处的峰宽，在RT上是T1和T2，然后再计算最高信号的峰高位置T3；进行峰检测，若不满足则为缺失值，缺失值不做填充；若满足，左右寻找T1、T2，不对称因子AS=(T2-T3)/(T3-T1)。

F2目标肽段离子色谱峰峰宽

使用F1的流程获得母离子的轮廓图，进行峰检测，峰宽按50%，FWHM=T2-T1。

F3目标肽段离子色谱峰保留时间

基于skyline与DIA-NN结果提取每个文件的目标肽段离子色谱图的保留时间。

F4一级离子流图

通过mzXML提取一级离子m/z与强度，使用样条插值生成1000维离子数值。

F5鉴定到的离子电荷分布

提取DIA-NN结果，统计每个文件鉴定到的母离子数目，文件鉴定到的不同电荷数的母离子的数目，文件鉴定到的母离子的电荷平均值，文件鉴定到的不同电荷数的母离子的数目占总离子数目的比例。

F6离子源喷雾稳定性

提取mzXML，统计所有连续间隔三张一级质谱信号超过5倍的次数占所有比较次数的比值，比值≤1%，喷雾很好，记为good；1%<比值<3%，喷雾一般，记为routine；比值≥3%，喷雾较差，记为bad。

F7肽段母离子质谱鉴定准确度

通过DIA-NN结果统计每个文件的质荷比准确度中位数值。

F8一级质谱信号值

通过mzXML插值，统计每个原始文件MS1信号的面积数值。

F9目标肽段离子色谱峰采集点数

统计目标离子在每个原始文件采集的点数，首先按照skyline给出的保留时间和每个峰值的数据点的对应关系，确定采集的频率。然后按照F2(FWHM)数字，计算在FWHM数值内有多少个点产生。

计算公式=(FWHM*每个峰值的数据点)/(结束时间-开始时间)。

F10肽段碎片离子质谱鉴定准确度

通过DIA-NN结果统计每个文件的所有肽段二级碎片离子的质荷比准确度中位数值。

F11二级质谱信号值

通过mzXML插值，统计每个原始文件MS2信号的面积数值。

F12一级质谱和二级质谱信号差异度

每个文件鉴定的TIC MS1/TIC MS2比值，即F8/F11。

F13肽段鉴定数目

通过DIA-NN统计每个原始文件鉴定到的肽段数目。

F14蛋白鉴定数目

通过DIA-NN统计每个原始文件鉴定到的蛋白数目。

F15目标肽段离子色谱峰一级质谱峰面积

统计每个原始文件鉴定到的目标肽段离子的一级质谱峰面积及在所有原始文件的分布。

F16目标肽段离子色谱峰二级质谱峰面积

统计每个原始文件鉴定到的目标肽段离子的二级质谱峰面积及在所有原始文件的分布。

F17离子淌度质谱中离子淌度的准确度

统计每个原始文件鉴定到的目标肽段离子的一级质谱的离子淌度的准确度。

部分具体实施方案中，所述人工标注具体包括：

获得液相色谱系统特征和质谱系统特征，并将原始数据分发到不同有经验的质谱从业者中，保证每个原始文件的每个特征都经过5人投票评价，基于这一结果确定每个文件中每个特征的标签结果；

标记人员再结合F1～F17特征对每个文件的液相色谱系统和质谱系统进行评价，分别获得LC特征和MS特征，最终每个文件的19个特征(F1～F17、LC特征和MS特征)共对应19个标签(F1～F17标签、LC标签和MS标签)；标签类别是Qualified标签或Unqualified标签。所有人工标记人员对每个特征的标记逻辑来自于前人文献报道及行业评估经验，每个原始文件的每个特征被评估成1种标签：Qualified标签或Unqualified标签。其中Qualified标签表示当前文件的此特征属于可接受状态，Unqualified标签表示当前文件的此特征属于不可接受状态。

部分具体实施方案中，所述Random search with XGBoost模型以机器标签和经过预处理的各特征标签进行训练。

部分具体实施方案中，所述分类模型是Random search with XGBoost模型。

以下结合具体实施方案和前述详细描述对本发明做进一步说明。

第一部分，建立训练数据集

为验证本申请方案的有效性，共收集了2638个使用小鼠标准肝脏样本的采集的DIA数据文件，其中按仪器和收集机构划分出579例作为独立测试集，剩余数据2059例拆分开来80%作为训练集，20%作为验证集，进行方法可靠性验证，其中训练集2059例原始文件来自于17台质谱仪器，另外测试集579例DIA原始文件来自于4个合作实验室的4台高分辨质谱仪器产生的数据，训练集涵盖了本领域的大多数类型机器，因此本申请系统或方法在建立机器学习模型后可以独立的验证同类型的其他仪器。

第二部分，质谱数据质量程度或概率的评估系统的构建

处理流程图如图1所示，具体包括下述步骤一至步骤五。

步骤一，输入包括质谱文件的机器标签F0、液相色谱系统特征(F1～F4)和质谱系统特征(F5～F17)在内的F0～F17共计18个特征信息，在质谱检测系统中的分布如图2所示，具体编号和名称如表1所示。

表1、特征信息

特征编号	特征名称	预处理计算方式
			F0	机器标签	用于产生原始文件的分析仪器类型
F1	目标肽段离子色谱峰不对称因子	AS=(T2-T3)/(T3-T1)
			F2	目标肽段离子色谱峰峰宽	FWHM=T2-T1
F3	目标肽段离子色谱峰保留时间	基于skyline与DIA-NN结果提取
			F4	一级离子流图	通过mzXML提取m/z与强度，插值
F5	鉴定到的离子电荷分布	根据DIA-NN结果统计
			F6	离子源喷雾稳定性	根据mzXML统计
F7	肽段母离子质谱鉴定准确度	通过DIA-NN结果统计每个文件的质荷比准确度中位数值
			F8	一级质谱信号值	通过mzXML插值，统计每个原始文件MS1信号的面积数值
F9	目标肽段离子色谱峰采集点数	计算公式=(FWHM*每个峰值的数据点)/(结束时间-开始时间)
			F10	肽段碎片离子质谱鉴定准确度	通过DIA-NN结果统计
F11	二级质谱信号值	通过mzXML插值，统计每个原始文件MS2信号的面积数值
			F12	一级质谱和二级质谱信号差异度	TIC MS1/TIC MS2比值
F13	肽段鉴定数目	通过DIA-NN统计每个原始文件鉴定到的肽段数目
			F14	蛋白鉴定数目	通过DIA-NN统计每个原始文件鉴定到的蛋白数目
F15	目标肽段离子色谱峰一级质谱峰面积	统计一级质谱峰面积及在所有原始文件的分布
			F16	目标肽段离子色谱峰二级质谱峰面积	统计二级质谱峰面积及在所有原始文件的分布
F17	离子淌度质谱中离子淌度的准确度	目标肽段离子的离子淌度的准确度
			LC	原始文件在液相色谱层面的信息	原始文件在液相色谱层面的评价
MS	原始文件在质谱层面的信息	原始文件在质谱层面的评价

步骤二，如表1所示，对所述液相色谱系统特征和质谱系统特征进行预处理；将原始数据分发到有经验的不同质谱从业者中，保证每个原始文件的每个特征都经过5人投票评价进行人工标注，基于这一结果确定每个文件中每个特征的标签结果为Qualified标签或Unqualified标签；结合各特征对每个质谱文件的液相色谱系统评价得出LC特征；结合各特征对每个质谱文件的质谱系统评价MS特征。对最终每个文件的19个特征(F1～F17、LC特征和MS特征)共标注19个标签(F1～F17标签、LC标签和MS标签)，每个原始文件的每个特征被评估成1种标签：Qualified标签和Unqualified标签。

步骤三，机器学习部分使用了Random search with XGBoost的方法进行数据建模，具体分类架构设计示意图如图3所示，以2059例DIA数据文件的80%作为训练集对模型进行训练，以20%作为验证集进行验证，获得完成训练的Random search with XGBoost模型。

步骤四，如图3所示，将预处理后的各特征输入完成训练的Random search withXGBoost模型并进行预测分类。

步骤五，最后获得了最重要的20个特征，输出分类结果和总体结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量，对测试集数据进行了评价准确度分析，结果如表2所示。

表2、测试评价准确度

特征编号	AUC结果
		F1	0.84
F2	0.94
		F3	0.95
F4	0.91
		F5	0.99
F6	0.99
		F7	1
F8	0.98
		F9	0.88
F10	0.99
		F11	0.96
F12	0.95
		F13	0.95
F14	0.96
		F15	0.91
F16	0.88
		F17	1
LC	0.91
		MS	0.96

通过表2可以看出，本申请应用F1～F17特征、LC特征和MS特征在内的多种特征对质谱数据的质量程度和概率进行评估，且前述多种特征的特异性均不低于0.88，相较于DDA的评估标准，本申请方案可以评估多种不同维度的质谱质量，对质谱数据的质量评估更加全面、合理、精准；能够对由相同仪器或相同项目在不同时间段进行不同数据采集的原始文件进行评估，全面解决了人为标记的原始文件评估的不确定性和时间成本高企的缺陷。

质谱数据质量程度或概率的控制系统，包括：

控制模块，其被配置为依据所述分类结果和总体结果的反馈信息反向调整生成质谱文件的仪器参数，实现对质谱仪器、质谱方法、质谱数据质量的控制。在前述具体实施方案的基础上，所述反馈信息包括基于液相色谱系统特征(F1～F4)和/或质谱系统特征(F5～F17)中的至少一种出现Unqualified标签时的仪器故障问题排查策略，实质性的解决相关问题，具体包括Orbitrap系统、TimsTOF系统、TimsTOF Pro系统，应当明确的是，本发明可以对目前市场上常用的质谱仪器进行有效而准确的判断，其他质谱也能提供相对准确的参考。

Orbitrap系统：

F1/F2/F3/F15/F16：分析柱连接异常、柱温箱异常、分析柱连接异常；

F1/F2/F3/F4/F13/F14/F15/F16：离子源或探头安装异常、喷雾电压异常；

F2/F3/F4：分离系统中的堵塞或泄漏、分析柱堵塞或泄漏、注射器中存在气泡、C-捕集器污染；

F4/F11/F12/F13/F14/F15/F16：质谱系统污染、电气故障、活塞连接的死容量增大；

F4/F5/F6/F8/F11/F13/F14/F15/F16：装载泵泄漏、阀门转子或活塞泄露；

F4/F8/F11/F13/F14/F15/F16：阀门转子、密封圈或活塞泄漏、质量分析仪污染、质量偏差、质谱系统污染、分析柱效率差、分析柱性能差、四极杆隔离性能差、样品溶解度差、捕集柱性能差；

F5/F6：传输缓冲区用完、S-透镜或离子漏斗污染；

F7/F10/F12/F13/F14：样品降解、流量不稳定。

TimsTOF系统：

F1/F2/F3/F15/F16：分析柱连接异常、柱温箱异常、喷针连接异常；

F1/F2/F3/F4/F13/F14/F15/F16：离子源安装异常、离子源或探头安装异常、喷雾电压异常；

F2/F3/F4：分离系统堵塞或泄漏、分离模块堵塞或泄漏、注射器中存在气泡、自动进样器堵塞或泄漏；

F4/F11/F12/F13/F14/F15/F16：碰撞池污染、质谱系统污染、探测器污染；

F4/F5/F6/F8/F11/F13/F14/F15/F16：电气故障、连接死容量增大；

F4/F8/F11/F13/F14/F15/F16：阀门转子或活塞泄露、质量偏差、质谱系统污染、分析柱效率差、分析柱性能差、探测器性能差、样品溶解度差、捕集柱性能差、Q-trap污染、四极杆污染；

F5/F6：填充缓冲液用完、样品降解；

F7/F10/F12/F13/F14：流量不稳定、溶剂错误。

TimsTOF Pro系统：

F1/F2/F3/F15/F16：分析柱连接异常、色谱柱入口接地连接异常、离子源或探头安装异常；

F1/F2/F3/F4/F13/F14/F15/F16：流动相异常、柱温箱异常、分析柱异常；

F2/F3/F4/F13/F14：喷雾电压异常、B阀块堵塞、疏水阀堵塞、分离系统堵塞或泄漏、注射器中存在气泡、装载管道堵塞、自动进样器管道堵塞或泄漏、碰撞池污染、质谱系统污染；

F4//F11/F12/F13/F14/F15/F16：探测器污染、电气故障、玻璃毛细管入口堵塞、ITI污染；

F4/F5/F6/F8/F11/F13/F14/F15/F16：装载泵泄漏、阀门或活塞泄露、水泵泄露；

F4/F8/F11/F13/F14/F15/F16：阀门转子泄露、阀门转子或活塞泄露、B泵堵塞或泄露、A泵堵塞或泄露、质量偏差、移动率偏差、质谱系统污染、分析柱性能差、探测器性能差、样品溶解度差；

F5/F6：四级杆污染、传输缓冲区用完；

F7/F10/F12/F13/F14：样品降解、喷针污染、流量不稳定。

在前述具体实施方案的基础上，如图4所示，提供质谱数据质量程度或概率的评估装置，

包括：前端A、预处理模块、分析模块和前端B，前端A接收用户输入的质谱文件信息，经过预处理模块、分析模块后对质谱文件信息进行分类，最后将分类结果和总体结果输出到前台B；

所述质谱文件信息包括前述具体实施方案中所述的F0～F17特征信息；

所述装置运行时执行前述具体实施方案中所述的质谱数据质量程度或概率的评估方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

在前述具体实施方案的基础上，提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行前述具体实施方案中所述的质谱数据质量程度或概率的评估方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PR AM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

上述实施例中的常规技术为本领域技术人员所知晓的现有技术，故在此不再详细赘述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管对本发明已作出了详细的说明并引证了一些具体实施例，但是对本领域熟练技术人员来说，只要不离开本发明的精神和范围可作各种变化或修正是显然的。

虽然上述具体实施方式已经显示、描述并指出应用于各种实施方案的新颖特征，但应理解，在不脱离本公开内容的精神的前提下，可对所说明的装置或方法的形式和细节进行各种省略、替换和改变。另外，上述各种特征和方法可彼此独立地使用，或可以各种方式组合。所有可能的组合和子组合均旨在落在本公开内容的范围内。上述许多实施方案包括类似的组分，并且因此，这些类似的组分在不同的实施方案中可互换。虽然已经在某些实施方案和实施例的上下文中公开了本发明，但本领域技术人员应理解，本发明可超出具体公开的实施方案延伸至其它的替代实施方案和/或应用以及其明显的修改和等同物。因此，本发明不旨在受本文优选实施方案的具体公开内容限制。

本发明未尽事宜均为公知技术。

Claims

1.质谱数据质量程度或概率的控制系统，其特征在于包括：

预处理模块，其被配置为对所述液相色谱系统特征和质谱系统特征进行预处理并获得LC特征和MS特征，对每个特征进行人工标注，为每个原始文件的每个特征标注赋予Qualified标签或Unqualified标签，用于对分类模型进行训练和验证；

分析模块，其被配置为将预处理后的所述液相色谱系统特征、质谱系统特征、LC特征和MS特征输入完成训练的分类模型Random search with XGBoost模型并进行预测分类；

输出模块，其被配置为输出分类结果和总体结果，所述分类结果包括将各特征输入分类模型后得到的各特征结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量；

控制模块，其被配置为依据所述分类结果和总体结果的反馈信息反向调整生成质谱文件的仪器参数，实现对质谱仪器、质谱方法、质谱数据质量的控制；

所述液相色谱系统特征包括目标肽段离子色谱峰不对称因子、目标肽段离子色谱峰峰宽、目标肽段离子色谱峰保留时间和一级离子流图；

所述质谱系统特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、一级质谱信号值、目标肽段离子色谱峰采集点数、肽段碎片离子质谱鉴定准确度、二级质谱信号值、一级质谱和二级质谱信号差异度、肽段鉴定数目、蛋白鉴定数目、目标肽段离子色谱峰一级质谱峰面积、目标肽段离子色谱峰二级质谱峰面积和目标肽段的离子淌度准确度；

所述LC特征、MS特征分别是在预处理模块中由标记人员结合液相色谱系统特征及质谱系统特征对每个文件的液相色谱系统、质谱系统进行评价得出；

所述分类模型Random search with XGBoost模型以机器标签和经过预处理的各特征标签进行训练，并且完成验证；

所述反馈信息包括基于各液相色谱系统特征和/或各质谱系统特征中的至少一种出现Unqualified标签时的仪器故障问题排查策略。

2.权利要求1所述质谱数据质量程度或概率的控制系统的应用，其特征在于包括：对质谱文件质量进行评估和/或对质谱方法进行质量控制。

3.质谱数据质量程度或概率的控制方法，其特征在于：

所述控制方法基于权利要求1所述质谱数据质量程度或概率的控制系统，

所述控制方法包括：

2)、对所述液相色谱系统特征和质谱系统特征进行预处理；

4)、输出分类结果和总体结果，依据所述分类结果和总体结果即可表征原始文件质谱数据的LC质量和MS质量；

5)、依据所述分类结果和总体结果的反馈信息反向调整生成质谱文件的仪器参数，实现对质谱仪器、质谱方法、质谱数据质量的控制。

4.质谱数据质量程度或概率的评估装置，其特征在于包括：前端A、预处理模块、分析模块和前端B，前端A接收用户输入的质谱文件信息，经过预处理模块、分析模块后对质谱文件信息进行分类，最后将分类结果和总体结果输出到前台B；

所述装置运行时执行权利要求3所述质谱数据质量程度或概率的控制方法。

5.计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时运行权利要求3所述质谱数据质量程度或概率的控制方法。