CN114858958B - 质谱数据在质量评估中的分析方法、装置和存储介质 - Google Patents
质谱数据在质量评估中的分析方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114858958B CN114858958B CN202210781715.XA CN202210781715A CN114858958B CN 114858958 B CN114858958 B CN 114858958B CN 202210781715 A CN202210781715 A CN 202210781715A CN 114858958 B CN114858958 B CN 114858958B
- Authority
- CN
- China
- Prior art keywords
- feature
- mass spectrum
- file
- peptide fragment
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001819 mass spectrum Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 9
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 116
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 22
- 108010033276 Peptide Fragments Proteins 0.000 claims description 91
- 102000007079 Peptide Fragments Human genes 0.000 claims description 91
- 238000004811 liquid chromatography Methods 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 17
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 15
- 238000001303 quality assessment method Methods 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 13
- 102000004169 proteins and genes Human genes 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000014759 maintenance of location Effects 0.000 claims description 8
- 239000007921 spray Substances 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003556 assay Methods 0.000 claims 5
- 238000004255 ion exchange chromatography Methods 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 150000002500 ions Chemical class 0.000 description 88
- 238000010586 diagram Methods 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 22
- 238000003908 quality control method Methods 0.000 description 10
- 238000007405 data analysis Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 101800001442 Peptide pr Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 229940074200 diamode Drugs 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- PGYPOBZJRVSMDS-UHFFFAOYSA-N loperamide hydrochloride Chemical compound Cl.C=1C=CC=CC=1C(C=1C=CC=CC=1)(C(=O)N(C)C)CCN(CC1)CCC1(O)C1=CC=C(Cl)C=C1 PGYPOBZJRVSMDS-UHFFFAOYSA-N 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
- G01N30/8637—Peak shape
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种质谱数据在质量评估中的分析方法、装置和存储介质,涉及数据处理和质谱技术领域。质谱数据在质量评估中的分析方法包括:确定质谱文件的一个或多个LC特征和一个或多个MS特征;根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征;利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态。本发明能够从多个维度评估质谱文件,从而能够更合理地进行质量控制。该方案能够自动化地执行,从而实现了对质谱状态的自动化、高准确率的监测。并且,适用于多种质谱仪器产生的文件的评估。
Description
技术领域
本发明涉及数据处理和质谱技术领域,特别涉及一种质谱数据在质量评估中的分析方法、装置和存储介质。
背景技术
基于质谱的定量蛋白质组学研究,通过表征蛋白质组丰度的动态变化规律,对生命科学及人类许多疾病的发生、发展的诊断有重大意义。相比于标记发现定量蛋白质组学技术,非标记的发现定量蛋白质组学技术中的样本前处理方法简单、通量高,更适合大队列发现蛋白质组学分析。而在非标记发现定量蛋白质组学中,基于数据非依赖模式(Dataindependent acquisition, DIA) 的定量蛋白质组学技术,相比于数据依赖模式(Datadependent acquisition, DDA)的定量蛋白质组学技术,在保证通量和样本前处理简单便捷的基础上,还具有较好的定量重现性和准确性。随着数据分析算法的提升,数据非依赖模式的定量蛋白质组学的数据分析复杂度较高的问题也逐渐改善,数据非依赖模式的定量蛋白质组学近几年开始逐渐应用在基于质谱的定量蛋白质组学中。基于质谱的大队列定量蛋白质组学的数据采集中,质谱仪器的稳定性和高灵敏度是保证质谱产生高质量数据的关键。虽然基于质谱的非标记定量蛋白质组学技术日新月异,但是在大队列的实验分析中,质谱运行异常也会带来原始文件重复性低的问题,因此建立自动化的仪器质量控制流程来保证仪器稳定性也显得尤为重要。
因数据非依赖模式产生的原始数据分析困难,目前多数实验室使用通过数据依赖模式的方法产生的原始文件的评估流程对非数据依赖模式产生的原始文件进行质量控制,例如,通过原始文件汇总肽段和蛋白鉴定数目。
目前,前人文献报道对基于数据依赖模式方法产生的原始文件的评价方案包含部分参数,但是存在输入参数过多导致用户使用不易上手现象。此外这些方法没有利用实际产出的结果形成一个定量结果,而这一定量结果是仪器性能状态变化的直接体现。
在相关技术中,“实时质量控制分析”(QC-ART)工具能够动态标记仪器状态或者样本的潜在问题,是对DDA原始文件建立的质控标准。在QC-ART技术中,研究人员提取DDA原始文件中的肽段鉴定数目、母离子质荷比/碎片离子质荷比的偏斜率、标记蛋白质组学中报告离子、鉴定到的肽段的TIC(Total Ion Chromatogram,总离子流图)数值中位数、二级谱图采集的四分位数等。然后,用户先自行定义一个基线参数作为标准,通过PCA的方式去除冗余的参数加快后续数据处理进程。最后使用rPCA(Robust Principal ComponentAnalysis,鲁棒的主成分分析)算法结合马氏距离对文件中每个参数给出一个具体的打分。该方式具有与标准人工分析方法类似的准确度,同时还具有实时分析的优势。
而对于DIA文件的质量控制,现阶段尚无公认的标准,因此很大程度上是依赖人工进行质量控制。
发明内容
发明人对相关技术进行分析后发现,QC-ART工具存在以下局限性:1)输入参数过多,限制了自身应用的推广;2)输入参数存在局限性,仅适用于Orbitrap仪器产生的数据;3)QC-ART的参数都是在质谱参数的基础上做一个简单的统计分析,并且其输出结果不包含任何的定量结果,这一结果是评价仪器状态的直接体现,因此使用QC-ART需要引入人工的二次评价,需要实验室技术人员具备强大的专业知识,而这有会限制这些指标对系统行能诊断的潜力。
对于DIA文件的质控,现阶段没有公认的标准,因此很大程度上是人工进行质控。
本发明实施例所要解决的一个技术问题是:如何更准确地评估质谱文件的状态。
根据本发明一些实施例的第一个方面,提供一种质谱数据在质量评估中的分析方法,包括:确定质谱文件的一个或多个液相色谱系统(Liquid Chromatography,简称:LC)特征和一个或多个质谱系统(Mass Spectrometer,简称:MS)特征;根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征;利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态。
在一些实施例中:LC特征包括总离子流图;或者,MS特征包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。
在一些实施例中:LC特征还包括目标肽段离子色谱峰保留时间;或者,MS特征还包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。
在一些实施例中:LC特征还包括目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽;或者,MS特征还包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种。
在一些实施例中,根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征包括:获取产生质谱文件的仪器对应的编码特征;对于LC特征和MS特征中的每个特征,利用特征和仪器对应的编码特征,生成特征对应的输入特征。
在一些实施例中,对于LC特征和MS特征中的每个特征:在特征的维度数为1的情况下,特征对应的预测模块包括一个第一全连接层;或者,在特征的维度数大于1的情况下,特征对应的预测模块包括多层感知机、或者包括LSTM网络和第二全连接层。
在一些实施例中,在特征为总离子流图的情况下,特征对应的预测模块包括LSTM网络和全连接层。
在一些实施例中,分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态包括:利用第三全连接层,对将每个LC特征对应的预测值进行拼接的结果进行处理,获得第三全连接层输出的、质谱文件的LC状态;利用第四全连接层,对将每个MS特征对应的预测值进行拼接的结果进行处理,获得第四全连接层输出的、质谱文件的MS状态。
在一些实施例中,分析方法还包括:利用训练文件,对每个特征对应的预测模块进行训练,其中,训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。
在一些实施例中,对每个特征对应的预测模块进行训练包括:利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差,计算损失值,其中,特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系;根据损失值,对每个特征对应的预测模块进行训练。
在一些实施例中:一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征;或者二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征;或者肽段鉴定数目和蛋白鉴定数目属于同一组特征。
在一些实施例中,在质谱文件的LC特征和MS特征中,第一部分的特征是根据质谱文件的整体确定的,第二部分的特征是根据质谱文件的目标肽段确定的。
在一些实施例中,将质谱文件的数据集中,缺失率低于预设阈值的肽段确定为目标肽段。
在一些实施例中,质谱文件是数据非依赖模式的文件。
根据本发明一些实施例的第二个方面,提供一种质谱数据在质量评估中的分析装置,包括:确定模块,被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征;输入特征生成模块,被配置为根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征;预测模块,被配置为利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,状态确定模块,被配置为分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态。
在一些实施例中,分析装置还包括:训练模块,被配置为利用训练文件,对每个特征对应的预测模块进行训练,其中,训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。
根据本发明一些实施例的第三个方面,提供一种质谱数据在质量评估中的分析装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种质谱数据在质量评估中的分析方法。
根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种质谱数据在质量评估中的分析方法。
上述发明中的一些实施例具有如下优点或有益效果。本发明的实施例在评估质谱文件的过程中,能够从LC和MS两个维度评估质谱文件的质谱质量,也能够根据需要从更细致的LC特征和MS特征维度获得定量的评价结果,从而能够更合理地进行质量控制。该方案能够自动化地执行,从而更高效、准确。并且,上述实施例的通用性强,适用于多种质谱仪器产生的文件的评估。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一些实施例的质谱数据在质量评估中的分析方法的流程示意图。
图2A示例性地示出了第一机器学习模型的结构示意图。
图2B示例性地示出了第二机器学习模型的结构示意图。
图3示出了根据本发明一些实施例的训练方法的流程示意图。
图4示出了根据本发明一些实施例的目标肽段筛选方法的流程示意图。
图5示出了根据本发明一些实施例的质谱数据在质量评估中的分析装置的结构示意图。
图6示出了根据本发明另一些实施例的质谱数据在质量评估中的分析装置的结构示意图。
图7示出了根据本发明又一些实施例的质谱数据在质量评估中的分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出了根据本发明一些实施例的质谱数据在质量评估中的分析方法的流程示意图。如图1所示,该实施例的质谱数据在质量评估中的分析方法包括步骤S102~S108。
在步骤S102中,确定质谱文件的一个或多个LC特征和一个或多个MS特征。
在一些实施例中,质谱文件是通过DIA方式采集的文件,即,是DIA模式的文件。
在一些实施例中,LC特征包括总离子流图;或者,MS特征包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。经过发明人的实验,总离子流图、肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值能够更好地评价质谱文件的状态。
在一些实施例中,LC特征包括目标肽段离子色谱峰保留时间;MS特征包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。经过发明人的实验,目标肽段离子色谱峰保留时间、目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积和目标肽段离子色谱峰二级质谱峰面积也能够较准确地评价质谱文件的状态。
在一些实施例中,LC特征包括目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽;MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种。经过发明人的实验,目标肽段离子色谱峰峰形、目标肽段离子色谱峰峰宽、离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度和一级质谱或二级质谱信号差异度也能够较准确地评价质谱文件的状态。
下面示例性地描述各个特征的含义。
F1:目标肽段离子色谱峰峰形表征(Peak shape of targeted peptideprecursor)。
提取目标离子的分析软件导出的结果,并根据该结果计算每个目标离子的峰形信息,例如不对称因子和拖尾因子。
特征F1在相关技术中并不应用于DIA领域。
F2:目标肽段离子色谱峰峰宽(Peak width of targeted peptide precursor)。
使用确定F1的流程获得母离子的轮廓图,并对该轮廓图进行峰检测,计算母离子半峰宽信息。
F3:目标肽段离子色谱峰保留时间(Retention time of targeted peptideprecursor)。
基于提取目标离子的分析软件与DIA数据分析工具软件的分析结果提取每个文件的目标肽段离子色谱图的保留时间。
F4:一级离子流图(MS1 chromatogram)。
通过质谱文件(mzXML格式)提取一级离子质子数与电荷数的比值(m/z)与强度(intensity),使用样条插值生成n维的离子数值,以生成一级离子流图。
在相关技术中,特征F4从未应用于现有的质谱文件质量评估中。
F5:鉴定到的离子电荷分布(Charge state distribution of identifiedpeptide precursors)。
提取DIA数据分析工具软件的分析结果,统计每个文件鉴定到的母离子数目、不同电荷数的母离子的数目、母离子的电荷平均值、不同电荷数的母离子的数目占总离子数目的比例。
F6:离子源喷雾稳定性(Stability of ionization)。
提取mzXML文件中的信息,统计所有连续间隔几张一级质谱信号超过n倍的次数,计算出现次数。
特征F6在相关技术中并不应用于DIA领域。
F7:肽段母离子质谱鉴定准确度(Mass accuracy of peptide precursor)。
通过DIA数据分析工具软件的分析结果统计每个文件的质荷比准确度的中位数值。
F8:一级质谱信号(MS1 signal)值。
对mzXML文件的数据进行插值,统计每个原始文件MS1信号的面积数值。
F9:目标肽段离子色谱峰采集点数(Data points of each identified peptideprecursor)。
从搜库软件中或根据采集质谱采集频率和色谱出峰时间计算目标离子在每个原始文件采集的点数。
F10:肽段碎片离子质谱鉴定准确度(Mass accuracy of peptide fragmention)。
通过DIA数据分析工具软件结果统计每个文件的所有肽段二级碎片离子的质荷比准确度的中位数值。
F11:二级质谱信号(MS2 signal)值。
对mzXML的数据进行插值,统计每个原始文件MS2信号的面积数值。
F12:一级质谱和二级质谱信号差异度(Ratio of MS1 signal to MS2 signal)。
每个文件鉴定的TIC MS1/TIC MS2比值,即F8/F11的数值。
特征F12在相关技术中并不应用于DIA领域。
F13:肽段鉴定数目(Number of identified peptide)。
通过DIA数据分析工具软件 统计每个原始文件鉴定到的肽段数目。
F14:蛋白鉴定数目(Number of identified protein)。
通过DIA数据分析工具软件 统计每个原始文件鉴定到的蛋白数目。
F15:目标肽段离子色谱峰一级质谱峰面积(MS1 signal of targeted peptideprecursor)。
统计每个原始文件鉴定到的目标肽段离子的一级质谱峰面积及在所有原始文件的分布。
F16:目标肽段离子色谱峰二级质谱峰面积(MS2 signal of targeted peptideprecursor)。
统计每个原始文件鉴定到的目标肽段离子的二级质谱峰面积及在所有原始文件的分布。
在步骤S104中,根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征。即,生成的输入特征既有原始特征的信息、又有仪器的信息。
在一些实施例中,获取产生质谱文件的仪器对应的编码特征;对于LC特征和MS特征中的每个特征,利用特征和仪器对应的编码特征,生成特征对应的输入特征。
仪器对应的编码特征例如通过独热(One-hot)编码方式表示。例如,对于仪器A、B和C,分别使用[1, 0, 0]、[0, 1, 0]、[0, 0, 1]表示。
在步骤S106中,利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值。预测模块为根据输入特征进行计算、并输出预测值的模块,其可以包括机器学习模型、子网络等等,例如包括全连接层(FC)、多层感知机(MLP)或神经网络模型等。
例如,将每个输入特征输入到相应的预测模块中,获得预测模块输出的结果,作为预测值。
在一些实施例中,在特征的维度数为1的情况下,特征对应的预测模块包括一个第一全连接层。
在一些实施例中,在特征的维度数大于1的情况下,特征对应的预测模块包括MLP、或者包括长短期记忆网络(Long Short-Term Memory,简称:LSTM)网络和第二全连接层。例如,在特征为总离子流图的情况下,特征对应的预测模块包括LSTM网络和全连接层。总离子流图包括时序信息,因此通过LSTM网络处理能够得到更准确的预测结果。
在步骤S108中,分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态。LC状态和MS状态能够用于评估质谱文件的质量,其状态值例如包括用于表示“合格的”“不合格的”的数值。根据需要,也可以采用其他的状态值,这里不再赘述。此外,步骤S106中获得的每个特征对应的预测值也能够作为质谱文件评估的定量结果。
在一些实施例中,利用第三全连接层,对将每个LC特征对应的预测值进行拼接(concat)的结果进行处理,获得第三全连接层输出的、质谱文件的LC状态;利用第四全连接层,对将每个MS特征对应的预测值进行拼接的结果进行处理,获得第四全连接层输出的、质谱文件的MS状态。
在一些实施例中,利用两个机器学习模型实现步骤S106和S108的处理,两个机器学习包括第一机器学习模型和第二机器学习模型。第一机器学习模型包括LC特征对应的预测模块和第三全连接层,第二机器学习模型包括MS特征对应的预测模块和第四全连接层。
图2A示例性地示出了第一机器学习模型的结构示意图。
在图2A中,特征F1、F2和F3各对应一个MLP,特征F4对应一个LSTM和FC。将特征F1~F4对应的输入特征输入到相应的预测模块后,分别获得对应的预测值O1~O4。然后,将O1~O4输入到FC中,获得输出的LC状态。
图2B示例性地示出了第二机器学习模型的结构示意图。
在图2B中,特征F5、F15和F16各对应一个MLP,特征F6~F14各对应一个FC。将特征F5~F16对应的输入特征输入到相应的预测模块后,分别获得对应的预测值O5~O16。然后,将O5~O16输入到FC中,获得MS状态。
本发明的实施例在评估的过程中,能够从LC和MS两个维度评估质谱文件的质谱质量,也能够根据需要从更细致的LC特征和MS特征维度获得定量的评价结果,从而能够更合理地进行质量控制。该方案能够自动化地执行,从而更高效、准确。并且,上述实施例的通用性强,适用于多种质谱仪器产生的文件的评估。
本发明的实施例能够应用于对DIA文件的评估,从而能够高效、准确地评估DIA文件。然而,本发明的实施例也能够对DDA文件进行质量评价。
在一些实施例中,可以预先对各个特征对应的预测模块进行训练:利用训练文件,对每个特征对应的预测模块进行训练,其中,训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。训练文件是指用于训练的质谱文件。下面参考图3描述本发明训练方法的实施例。
图3示出了根据本发明一些实施例的训练方法的流程示意图。如图3所示,该实施例的训练方法包括步骤S302~S310。
在步骤S302中,获取训练文件,训练文件为质谱文件,具有LC状态的标记值和MS状态的标记值、以及训练文件的一个或多个LC特征和一个或多个MS特征中每个特征对应的标记值。这些标记值可以是由有经验的从业者根据经验评估的。
在步骤S304中,根据训练文件的LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征。
在步骤S306中,将LC特征对应的输入特征输入到第一机器学习模型,将MS特征对应的输入特征输入到第二机器学习模型。第一机器学习模型和第二机器学习模型的架构可以参见前述实施例,这里不再赘述。根据需要,可以对第一机器学习模型和第二机器学习模型进行一些变形处理。
在第一机器学习模型和第二机器学习模型中,利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值。并且,第一机器学习模型还根据LC特征对应的预测值确定质谱文件的LC状态,第二机器学习模型还根据MS特征对应的预测值确定质谱文件的MS状态。
在步骤S308中,根据损失函数计算损失值。
在一些实施例中,利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差,计算损失值,其中,特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系。
一些特征对应的预测值在理论上应当是相同的。例如,设特征T1与T2属于同一组。理论上,如果T1的预测值为1,则T2的预测值也应当为1;如果T1的预测值为0,则T2的预测值也应当为0。
在一些实施例中,一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征;二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征;肽段鉴定数目和蛋白鉴定数目属于同一组特征。
一个示例性的损失函数如以下公式所示:
其中,表示损失值,例如交叉熵损失(cross entropy loss);表示每个特征对应的预测误差的总和,表示特征标识,表示第个特征对应的系数,表示第个特征对应的预测误差(例如为标记值和预测值的差距);表示一致性误差的总和,其中,和表示属于同一组的特征的特征标识,表示第个特征对应的系数,表示属于同一组的特征的预测值的差异带来的损失,例如,第个特征对应的预测值和第个特征对应的预测值一致时,为0,否则为1;表示LC状态的预测误差、MS状态的预测误差的总和,LC状态和MS状态的预测误差例如分别根据相应状态的预测值和标记值直接的差距确定。
从而,可以从多个维度衡量模型的损失,使得训练后的模型具有更高的准确率。
在步骤S310中,根据损失值,对每个特征对应的预测模块进行训练。例如,通过反向传播算法对第一机器学习模型和第二机器学习模型的参数进行联合调整,则模型中的预测模块的参数也得到了调整。
通过上述实施例,能够通过预先进行的训练过程获得预测模块的参数,从而在利用预测模块确定质谱文件的状态时,能够具有更高的准确性。
在一些实施例中,在质谱文件的LC特征和MS特征中,第一部分的特征是根据质谱文件的整体确定的,第二部分的特征是根据质谱文件的目标肽段确定的。目标肽段是指通过筛选而确定的特定肽段,这些肽段相比于其他肽段更具有代表性,可以体现质谱文件的状态。
例如,在特征F1~F16中,F4~F14根据原始的质谱文件的整体确定,F1、F2、F15和F16根据该质谱文件的目标肽段确定。
图4示出了根据本发明一些实施例的目标肽段筛选方法的流程示意图。如图4所示,该实施例的目标肽段筛选方法包括步骤S402~S404。
在步骤S402中,获取质谱文件的数据集。
在一些实施例中,数据集中的质谱文件来自于目前常用于发现蛋白质组学的所有类型的质谱仪。从而,筛选的目标肽段能够适用于更多种类的质谱仪器。
在步骤S404中,将质谱文件的数据集中,缺失率低于预设阈值的肽段确定为目标肽段。
在一些实施例中,预设阈值为80%。
通过上述实施例,能够将出现频率高、有代表性的肽段确定为目标肽段,从而基于目标肽段提取的特征能够更准确地反映质谱文件的特点,使得预测的准确性得到了提升。
图5示出了根据本发明一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图5所示,该实施例的分析装置50包括:确定模块510,被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征;输入特征生成模块520,被配置为根据LC特征、MS特征和产生质谱文件的仪器的信息,生成每个特征对应的输入特征;预测模块530,被配置为利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,状态确定模块540,被配置为分别根据LC特征对应的预测值和MS特征对应的预测值,确定质谱文件的LC状态和MS状态。
在一些实施例中:LC特征包括总离子流图;或者,MS特征包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。
在一些实施例中:LC特征还包括目标肽段离子色谱峰保留时间;或者,MS特征还包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。
在一些实施例中:LC特征还包括目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽;或者,MS特征还包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种。
在一些实施例中,输入特征生成模块520进一步被配置为获取产生质谱文件的仪器对应的编码特征;对于LC特征和MS特征中的每个特征,利用特征和仪器对应的编码特征,生成特征对应的输入特征。
在一些实施例中,对于LC特征和MS特征中的每个特征:在特征的维度数为1的情况下,特征对应的预测模块包括一个第一全连接层;或者,在特征的维度数大于1的情况下,特征对应的预测模块包括多层感知机、或者包括LSTM网络和第二全连接层。
在一些实施例中,在特征为总离子流图的情况下,特征对应的预测模块包括LSTM网络和全连接层。
在一些实施例中,状态确定模块540进一步被配置为利用第三全连接层,对将每个LC特征对应的预测值进行拼接的结果进行处理,获得第三全连接层输出的、质谱文件的LC状态;利用第四全连接层,对将每个MS特征对应的预测值进行拼接的结果进行处理,获得第四全连接层输出的、质谱文件的MS状态。
在一些实施例中,分析装置50还包括:训练模块550,被配置为利用训练文件,对每个特征对应的预测模块进行训练,其中,训练文件具有LC状态的标记值和MS状态的标记值、以及训练文件中每个特征对应的标记值。
在一些实施例中,训练模块550进一步被配置为利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差,计算损失值,其中,特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系;根据损失值,对每个特征对应的预测模块进行训练。
在一些实施例中:一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征;或者二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征;或者肽段鉴定数目和蛋白鉴定数目属于同一组特征。
在一些实施例中,在质谱文件的LC特征和MS特征中,第一部分的特征是根据质谱文件的整体确定的,第二部分的特征是根据质谱文件的目标肽段确定的。
在一些实施例中,分析装置50还包括:目标肽段确定模块660,被配置为将质谱文件的数据集中,缺失率低于预设阈值的肽段确定为目标肽段。
在一些实施例中,质谱文件是DIA模式的文件。
在一些实施例中,质谱数据在质量评估中的分析装置可以部署在后端,即服务器侧。用户通过前端设备输入原始的质谱文件,前端设备将质谱文件发送给后端的分析装置进行处理。然后,分析装置将对质谱文件的评估结果返回给前端设备。
图6示出了根据本发明另一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图6所示,该实施例的分析装置60包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的质谱数据在质量评估中的分析方法。
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图7示出了根据本发明又一些实施例的质谱数据在质量评估中的分析装置的结构示意图。如图7所示,该实施例的分析装置70包括:存储器710以及处理器720,还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种质谱数据在质量评估中的分析方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种质谱数据在质量评估中的分析方法,包括:
确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征,其中,所述LC特征包括总离子流图、目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽中的至少一种,所述MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种;
根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息,生成每个特征对应的输入特征;
利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,
分别根据所述LC特征对应的预测值和所述MS特征对应的预测值,确定所述质谱文件的LC状态和MS状态。
2.根据权利要求1所述的分析方法,其中,
所述MS特征还包括肽段鉴定数目、蛋白鉴定数目、一级质谱信号值或二级质谱信号值中的至少一种。
3.根据权利要求1所述的分析方法,其中:
所述LC特征还包括目标肽段离子色谱峰保留时间;或者
所述MS特征还包括目标肽段离子色谱峰采集点数、目标肽段离子色谱峰一级质谱峰面积或目标肽段离子色谱峰二级质谱峰面积中的至少一种。
4.根据权利要求1所述的分析方法,其中,所述根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息,生成每个特征对应的输入特征包括:
获取产生所述质谱文件的仪器对应的编码特征;
对于所述LC特征和所述MS特征中的每个特征,利用所述特征和所述仪器对应的编码特征,生成所述特征对应的输入特征。
5.根据权利要求1所述的分析方法,其中,对于所述LC特征和所述MS特征中的每个特征:
在所述特征的维度数为1的情况下,所述特征对应的预测模块包括一个第一全连接层;或者,
在所述特征的维度数大于1的情况下,所述特征对应的预测模块包括多层感知机、或者包括长短期记忆网络LSTM网络和第二全连接层。
6.根据权利要求5所述的分析方法,其中,在所述特征为总离子流图的情况下,所述特征对应的预测模块包括LSTM网络和全连接层。
7.根据权利要求1所述的分析方法,其中,所述分别根据所述LC特征对应的预测值和所述MS特征对应的预测值,确定所述质谱文件的LC状态和MS状态包括:
利用第三全连接层,对将每个LC特征对应的预测值进行拼接的结果进行处理,获得所述第三全连接层输出的、所述质谱文件的LC状态;
利用第四全连接层,对将每个MS特征对应的预测值进行拼接的结果进行处理,获得所述第四全连接层输出的、所述质谱文件的MS状态。
8.根据权利要求1~7中任一项所述的分析方法,还包括:
利用训练文件,对每个特征对应的预测模块进行训练,其中,所述训练文件具有LC状态的标记值和MS状态的标记值、以及所述训练文件中每个特征对应的标记值。
9.根据权利要求8所述的分析方法,其中,所述对每个特征对应的预测模块进行训练包括:
利用LC状态的预测误差、MS状态的预测误差、每个特征对应的预测误差以及预设一组或多组特征的一致性误差,计算损失值,其中,所述特征一致性误差与同一组中的特征对应的预测值之间的差异成正相关关系;
根据所述损失值,对每个特征对应的预测模块进行训练。
10.根据权利要求9所述的分析方法,其中:
一级质谱信号值和目标肽段离子色谱峰一级质谱峰面积属于同一组特征;或者
二级质谱信号值和目标肽段离子色谱峰二级质谱峰面积属于同一组特征;或者
肽段鉴定数目和蛋白鉴定数目属于同一组特征。
11.根据权利要求1所述的分析方法,其中,在所述质谱文件的所述LC特征和所述MS特征中,第一部分的特征是根据所述质谱文件的整体确定的,第二部分的特征是根据所述质谱文件的目标肽段确定的。
12.根据权利要求1所述的分析方法,还包括:
将质谱文件的数据集中,缺失率低于预设阈值的肽段确定为目标肽段。
13.根据权利要求1所述的分析方法,其中,所述质谱文件是数据非依赖模式的文件。
14.一种质谱数据在质量评估中的分析装置,包括:
确定模块,被配置为确定质谱文件的一个或多个液相色谱系统LC特征和一个或多个质谱系统MS特征,其中,所述LC特征包括总离子流图、目标肽段离子色谱峰峰形、或者目标肽段离子色谱峰峰宽中的至少一种,所述MS特征包括鉴定到的离子电荷分布、离子源喷雾稳定性、肽段母离子质谱鉴定准确度、肽段碎片离子质谱鉴定准确度或一级质谱或二级质谱信号差异度中的至少一种;
输入特征生成模块,被配置为根据所述LC特征、所述MS特征和产生所述质谱文件的仪器的信息,生成每个特征对应的输入特征;
预测模块,被配置为利用每个特征对应的预测模块对相应的输入特征进行处理,获得每个特征对应的预测值;以及,
状态确定模块,被配置为分别根据所述LC特征对应的预测值和所述MS特征对应的预测值,确定所述质谱文件的LC状态和MS状态。
15.根据权利要求14所述的分析装置,还包括:
训练模块,被配置为利用训练文件,对每个特征对应的预测模块进行训练,其中,所述训练文件具有LC状态的标记值和MS状态的标记值、以及所述训练文件中每个特征对应的标记值。
16.一种质谱数据在质量评估中的分析装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~13中任一项所述的质谱数据在质量评估中的分析方法。
17.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~13中任一项所述的质谱数据在质量评估中的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210781715.XA CN114858958B (zh) | 2022-07-05 | 2022-07-05 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210781715.XA CN114858958B (zh) | 2022-07-05 | 2022-07-05 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114858958A CN114858958A (zh) | 2022-08-05 |
CN114858958B true CN114858958B (zh) | 2022-11-01 |
Family
ID=82626725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210781715.XA Active CN114858958B (zh) | 2022-07-05 | 2022-07-05 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114858958B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116106464B (zh) * | 2023-04-10 | 2023-07-25 | 西湖欧米(杭州)生物科技有限公司 | 质谱数据质量程度或概率的控制系统、评估系统及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8467988B1 (en) * | 2013-01-02 | 2013-06-18 | Biodesix, Inc. | Method and system for validation of mass spectrometer machine performance |
CN106415558A (zh) * | 2014-06-13 | 2017-02-15 | 塞莫费雪科学(不来梅)有限公司 | 数据处理装置和用于质谱法数据的评估的方法 |
CN109416926A (zh) * | 2016-04-11 | 2019-03-01 | 迪森德克斯公司 | 质谱数据分析工作流程 |
CN109863558A (zh) * | 2016-10-17 | 2019-06-07 | 布鲁克道尔顿有限公司 | 质谱数据的评估方法和质谱法以及maldi tof质谱仪 |
CN110763784A (zh) * | 2019-11-12 | 2020-02-07 | 北京行健谱实科技有限公司 | 基于数据挖掘的高纯多肽中肽段杂质分析方法 |
CN111370067A (zh) * | 2020-02-28 | 2020-07-03 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 |
CN111370072A (zh) * | 2020-03-04 | 2020-07-03 | 西湖大学 | 基于数据非依赖性采集技术的生物分子组学质谱数据结构及其实现方法 |
CN111812190A (zh) * | 2019-04-12 | 2020-10-23 | 布鲁克道尔顿有限公司 | 生物样品的复杂质谱数据的评估方法 |
CN113284563A (zh) * | 2021-04-20 | 2021-08-20 | 厦门大学 | 一种蛋白质质谱定量分析结果的筛选方法及系统 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
WO2021185727A1 (en) * | 2020-03-16 | 2021-09-23 | F. Hoffmann-La Roche Ag | Quality control tools for lc-ms |
CN114283884A (zh) * | 2021-08-17 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 原始谱图处理方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015040381A1 (en) * | 2013-09-23 | 2015-03-26 | Micromass Uk Limited | Peak assessment for mass spectrometers |
CN106290684B (zh) * | 2016-06-01 | 2017-09-05 | 谱天(天津)生物科技有限公司 | 一种对非数据依赖型采集模式质谱数据的分析方法及其应用 |
JP2020183931A (ja) * | 2019-05-06 | 2020-11-12 | 株式会社島津製作所 | クロマトグラフ質量分析用データ処理方法、クロマトグラフ質量分析装置、及びクロマトグラフ質量分析データ処理用プログラム |
-
2022
- 2022-07-05 CN CN202210781715.XA patent/CN114858958B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8467988B1 (en) * | 2013-01-02 | 2013-06-18 | Biodesix, Inc. | Method and system for validation of mass spectrometer machine performance |
CN106415558A (zh) * | 2014-06-13 | 2017-02-15 | 塞莫费雪科学(不来梅)有限公司 | 数据处理装置和用于质谱法数据的评估的方法 |
CN109416926A (zh) * | 2016-04-11 | 2019-03-01 | 迪森德克斯公司 | 质谱数据分析工作流程 |
CN109863558A (zh) * | 2016-10-17 | 2019-06-07 | 布鲁克道尔顿有限公司 | 质谱数据的评估方法和质谱法以及maldi tof质谱仪 |
CN111812190A (zh) * | 2019-04-12 | 2020-10-23 | 布鲁克道尔顿有限公司 | 生物样品的复杂质谱数据的评估方法 |
CN110763784A (zh) * | 2019-11-12 | 2020-02-07 | 北京行健谱实科技有限公司 | 基于数据挖掘的高纯多肽中肽段杂质分析方法 |
CN111370067A (zh) * | 2020-02-28 | 2020-07-03 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 |
CN111370072A (zh) * | 2020-03-04 | 2020-07-03 | 西湖大学 | 基于数据非依赖性采集技术的生物分子组学质谱数据结构及其实现方法 |
WO2021185727A1 (en) * | 2020-03-16 | 2021-09-23 | F. Hoffmann-La Roche Ag | Quality control tools for lc-ms |
CN113284563A (zh) * | 2021-04-20 | 2021-08-20 | 厦门大学 | 一种蛋白质质谱定量分析结果的筛选方法及系统 |
CN113362899A (zh) * | 2021-04-20 | 2021-09-07 | 厦门大学 | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 |
CN114283884A (zh) * | 2021-08-17 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 原始谱图处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
Quality Control Analysis in Real-time (QC-ART): A Tool for Real-time Quality Control Assessment of Mass Spectrometry-based Proteomics Data;Bryan A.Stanfill et al.;《Technological Innovation and Resources》;20180417;第17卷(第9期);第1824-1836页 * |
一种基于卷积神经网络的DIA数据预处理模型;陈冲等;《北京生物医学工程》;20200229;第39卷(第01期);第58-60页 * |
基于数据非依赖采集的蛋白质组质谱数据解析方法研究进展;侯鑫行等;《生物化学与生物物理进展》;20220323;第1-25页 * |
跨平台的质谱蛋白回归定量和质量控制的参数方法;魏来等;《质谱学报》;20171130;第38卷(第06期);第611-619页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114858958A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1690713B (zh) | 对样本进行分析以提供表征数据的方法、系统 | |
Lee et al. | Megavariate data analysis of mass spectrometric proteomics data using latent variable projection method | |
US11681778B2 (en) | Analysis data processing method and analysis data processing device | |
CN107328842B (zh) | 基于质谱谱图的无标蛋白质定量方法 | |
CN107729721B (zh) | 一种代谢物鉴定及紊乱通路分析方法 | |
Ahmed et al. | Enhanced feature selection for biomarker discovery in LC-MS data using GP | |
WO2021174901A1 (zh) | 基于数据非依赖采集质谱的分子组学数据结构的实现方法 | |
KR101958900B1 (ko) | 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 | |
CN103884806B (zh) | 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 | |
CN104170052A (zh) | 用于改进的质谱分析法定量作用的方法和装置 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
CN114858958B (zh) | 质谱数据在质量评估中的分析方法、装置和存储介质 | |
CN114755357A (zh) | 一种色谱质谱自动积分方法、系统、设备、介质 | |
CN117461087A (zh) | 用于鉴别质谱中的分子种类的方法和装置 | |
CN117523869B (zh) | 基于车流量的交通信号灯智能控制系统及方法 | |
CN115380212A (zh) | 用于比较群组内和群组间数据的方法、介质和系统 | |
CN114184599A (zh) | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 | |
KR101311412B1 (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 | |
CN115171790A (zh) | 质谱的数据序列在质量评估中的分析方法、装置和存储介质 | |
CN114139643B (zh) | 一种基于机器视觉的单甘酯质量检测方法及系统 | |
CN114694771A (zh) | 样品分类方法、分类器的训练方法、设备和介质 | |
CN109145887B (zh) | 一种基于光谱潜变量混淆判别的阈值分析方法 | |
Xu et al. | Peak Detection On Data Independent Acquisition Mass Spectrometry Data With Semisupervised Convolutional Transformers | |
Gopalakrishnan et al. | Proteomic data mining challenges in identification of disease-specific biomarkers from variable resolution mass spectra | |
CN117095743B (zh) | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |