CN112017734B - 包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质 - Google Patents

包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质 Download PDF

Info

Publication number
CN112017734B
CN112017734B CN202010465120.4A CN202010465120A CN112017734B CN 112017734 B CN112017734 B CN 112017734B CN 202010465120 A CN202010465120 A CN 202010465120A CN 112017734 B CN112017734 B CN 112017734B
Authority
CN
China
Prior art keywords
mass
data
intensity
channel
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465120.4A
Other languages
English (en)
Other versions
CN112017734A (zh
Inventor
R·马雷克
F·伯格
K·弗里策迈耶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thermo Fisher Scientific Bremen GmbH
Original Assignee
Thermo Fisher Scientific Bremen GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thermo Fisher Scientific Bremen GmbH filed Critical Thermo Fisher Scientific Bremen GmbH
Publication of CN112017734A publication Critical patent/CN112017734A/zh
Application granted granted Critical
Publication of CN112017734B publication Critical patent/CN112017734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Biotechnology (AREA)
  • Cell Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Electrochemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

一种用于对所测量的质谱数据进行反卷积的方法,所述方法包含:接收表示各自具有相应同位素模式的至少两个分子部分的所测量的质谱数据,其中所述同位素模式中的至少两个重叠;迭代填充一组质量通道以产生所述质谱数据的近似版本,所述迭代填充包含多个迭代,每一迭代包含根据选用于所述迭代的两个或更多个分子部分中的相应一个的所述同位素模式,用强度数据块填充所述质量通道中的一个或多个;当满足指示所述质谱数据的所述近似版本符合所述所测量的质谱数据的适合性标准时,终止所述迭代填充;并根据所述分子部分的所述相应同位素模式,基于总填充量确定产生所述测量的质谱数据的每个分子部分的量。

Description

包含重叠的同位素模式的质谱数据反卷积分析方法和计算机 可读介质
技术领域
本发明涉及用于分析和反卷积质谱数据的获取后方法。确切地说,质谱数据包含重叠的同位素模式。本发明适用于如蛋白质组学、蛋白质分析、肽分析、代谢组学、核酸分析、化合物识别和疾病检测、药物和毒理学标记物的领域中的质谱数据的定量分析。本发明尤其(但非排他地)适用于已使用质量标签(例如串联质量标签(TMT))获取的质谱数据的分析。
背景技术
最近,质谱领域中使用可裂解地附接到所关注的相关分子的质量标签(也称为质量标记)已得以发展。标签用于识别和定量生物大分子,如蛋白质、肽和核酸。使用串联质量标签(TMT)的方法描述于WO01/68664和Thompson等人《分析化学(Anal.Chem.)》2003,75,1895-1904。TMT含有四个区或部分,即质量报告子区或部分(M)、可裂解连接子区或部分(F)、质量标准化区或部分(N)和蛋白质反应性基团(R)。所有标签的化学结构均相同,但各自含有在不同位置处经取代的同位素,使得质量报告子和质量标准化区在每一标签中具有不同分子质量。标签的组合M-F-N-R区具有相同的总分子量和结构,使得在色谱或电泳分离期间和在单一MS模式下,无法区分标记有不同标签的分子。在MS/MS模式下片段化后,由肽骨架的片段化获得序列信息且同时由标签的片段化获得定量数据,得到质量报告离子(https://en.wikipedia.org/w/index.php?title=Tandem_mass_tag&oldid=882091680)。
实际的质量标签试剂由于制造过程而具有杂质,例如由于制造中标记不完全或分离不完全所致。因此,质量标签不仅具有单一质量,而且通常具有可能干扰(即,重叠)同一实验中所用的其它质量标签的“卫星”,因为质量可能相同,例如特定质量标签的同位素变异体(同位素体)的质量可能与不同质量标签的(主要)质量相同。
一系列商业质量标签的实例可能具有以下组成(表1):
每标称质量具有超过一个标签离子的一系列商业标签系统的实例可能具有以下组成(表2):
大多数标记在主峰外部仅具有较小组分,但在130N报告离子的情况下,存在高达四个卫星。取决于制备方法,可能仅在某些子集之间存在关系(即,“N”标记具有“N型”卫星且“C”标记具有“C型”卫星)。
通常已知可以解析这种质谱特征的重叠的方式,例如如比曼(Biemann),《质谱有机化学应用(MASS SPECTROMETRY Organic Chemical Applications)》,McGRAW-HILL1962;Goraczko,《计算化学杂志(Journal of Computational Chemistry)》,第22卷,第3号,354-365(2001);US7193705(施吕特尔(Schlüter));和US7105806(帕潘(Pappin))所述。举例来说,US7105806公开了用于重叠的串联质量标签的同位素反卷积和减除相邻质量标签的卫星的影响的算法。以上参考文献中所述的共同算法为由个别质量标签的已知同位素分布和所测量的光谱Mp构建线性方程组和对质量标签的量(或浓度)Cq求解的所有基本方式,即
随后使用已知线性代数方法(例如高斯算法(Gaussian algorithm)、SV或LU分解或各种近似法,包括在US7105806中经略微调整的托马斯算法(Thomas-Algorithm))求解此方程组。可以通过略去任一侧的第一个卫星峰以外的所有分量并使用托马斯算法(https://en.wikipedia.org/w/index.php?title=Tridiagonal_matrix_algorithm&oldid=880475866)找到快速近似法。实际上,诸多因素让求解变得复杂。举例来说,所测量的光谱可能具有来自仪器或化学噪声的额外强度分量,其对数值解的精确度具有不利影响(尤其是在“朴素”高斯或托马斯方法的情况下);所述分析可能需要应用于LC/MS实验中的数千个光谱;且对于具有大量不同标签(例如,10个或更多个标签)的质量标签试剂盒,卫星峰的量可能相当高。
发明内容
根据本发明的一个方面,提供一种用于对所测量的质谱数据进行反卷积的方法,所述质谱数据包含至少两个分子部分的重叠的同位素模式。
根据本发明的第一方面,提供一种用于对所测量的质谱数据进行反卷积的方法,所述方法包含:接收表示各自具有相应同位素模式的至少两个分子部分的所测量的质谱数据,其中所述同位素模式中的至少两个重叠;迭代填充一组质量通道以产生所述质谱数据的近似版本,所述迭代填充包含多个迭代,每一迭代包含根据选用于所述迭代的两个或更多个分子部分中的相应一个的所述同位素模式,用强度数据块填充所述质量通道中的一个或多个;当满足指示所述质谱数据的近似版本符合所述所测量的质谱数据的适合性标准时,终止所述迭代填充;并根据所述分子部分的所述相应同位素模式,基于总填充量确定产生所述所测量的质谱数据的每个分子部分的量。
在一些实施例中,对于每一迭代(a),所述强度数据块包含各自对应于相应质量通道的强度组,其中根据所述强度数据的所述同位素模式按比例调整所述强度组;或(b)所述强度数据块是相应质量通道的强度,其中根据基于所述强度数据的所述同位素模式的概率分布选择所述相应质量通道。
可以基于在所述迭代处的所测量的质谱数据与所述质谱数据的近似版本之间的偏差的量度来选择选用于每一迭代的所述分子部分。
质谱数据通常是质谱。在另一方面,所述方法可以包含接收所测量的质谱数据,即,由质谱实验得到质谱数据。质谱数据可以从实验直接得到,或可以从由早先质谱实验产生的存储质谱数据的库得到。所述方法可以包含识别质谱数据内的多个质量通道1......n。质量通道可以对应于(即,表示)分子部分的质量(即,标称或单同位素质量)和/或质量通道可以对应于所测量的质谱数据的峰。所述方法可以包含通过用质谱数据块(确切地说,同位素数据块)迭代填充质量通道来形成模拟质谱数据(产生模拟质谱),即执行所测量的质谱数据的模拟,其中每一块包含分子部分中的一个的同位素模式。因此,同位素数据块通常包含分子部分中的一个的单同位素质量和每一同位素卫星质量(同位素质量)的强度。每一块的大小或量值(即,强度)是指表示分子部分的质量通道中块的大小(即,强度)。块大小优选地大于所测量的质谱数据中确定的噪声。取决于所述方法的期望精确度选择每一块的大小或量值(即,总强度),愈小(强度较低)的块通常提供更准确的反卷积但也使过程更长。块大小可以是固定的或可变化的,如下文所述。
在优选实施例中,在每一迭代处,用于填充的同位素数据块包含具有对应于质量通道的质量的分子部分的同位素模式,所述质量通道在模拟质谱数据与所测量的质谱数据之间具有最大(强度)差异。然而,在其它实施例中,可以根据另一标准(例如,按其质量通道升序(或降序))用分子部分的同位素数据块填充模拟光谱。如果质谱同位素数据块的填充导致模拟质谱数据的质量通道的强度高于所测量的质谱数据的质量通道的强度超过限定容差,那么拒绝用质谱同位素数据块填充。容差优选地不超过质量通道中的块大小,且通常低于块大小。在一些情况下,容差可以是零。此处的块大小是指在块大小可变化时使用的最小块大小。例如,根据差异标准,随后对下一质量通道继续迭代。当满足适合性标准时,可以终止迭代过程(即,终止模拟)。当拒绝填充所有质量通道时,即当拒绝包含分子部分中的任一个的同位素模式的块时,可以满足适合性标准。当同位素数据块分布的总强度等于所测量的质谱数据或光谱的强度的总和(即,对于所有质量通道)时,可以满足另一适合性标准。当质量通道在模拟与大于或等于所使用的最小块大小的所测量的质谱数据或光谱之间不具有差异时,可以满足另一适合性标准。当模拟的所有质量通道的强度与所测量的质谱数据或光谱相比在限定容差内时,可以满足另一适合性标准。
可以追踪或记录(每个分子部分或表示所述部分的质量通道的)每一同位素模式的填充量,且可以将每一同位素模式的填充量的总和确定为分子部分的量或浓度。换句话说,所述方法包含基于用每个分子部分的同位素模式进行模拟的总填充量确定产生所测量的质谱数据的每个分子部分的量。当所有块的块大小或量值固定时,每个分子部分的同位素模式的填充量可能单只是所述部分的填充数。然而,当使用可变化的块大小(或固定的块大小)时,如下所述,填充量可以是每个分子部分的所有填充所提供的总强度(即,每个分子部分的所有填充的块大小的总和)。可以将所述方法的结果(例如分子部分的量或浓度)输出和/或存储在数据库中。
通常已知分子部分的身份且因此已知其同位素模式。同位素模式意味着分子部分的每一同位素峰的相对强度。
分子部分可以是质量标签或源于质量标签(例如质量标签的片段),优选串联质量标签(TMT)。确切地说,分子部分可以是质量标签的片段,如TMT的质量报告子部分。在此类实施例中,每一标签的同位素模式通常主要源于质量标签的制造过程,且通常是已知的,例如,如上文在表1和2中所指出。
在其它情况下,分子部分可以是具有已知或大致已知的相对同位素强度的其它实体(例如,非质量标签),例如对于带多电荷肽的重叠的同位素模式进行的反卷积,可以使用基于肽的平均同位素组成的相对强度(M.W.Senko、S.C.Beu和F.W.McLafferty,“由解析的同位素分布确定大型生物分子的单同位素质量和离子群(Determination ofMonoisotopic Masses and Ion Populations for Large Biomolecules from ResolvedIsotopic Distributions),”《美国质谱学会杂志(J.Am.Soc.Mass Spectrom.)》,第6卷,第229-233页,2017年6月)。
本发明提供用于对质谱数据,确切地说,包含重叠的同位素模式的质谱数据进行反卷积的方法。在某些方面,本发明提供用于对质谱数据中的质量标签,尤其串联质量标签(TMT)进行反卷积的方法。
因此,本发明适用于分析使用质谱得到的数据,以检测可裂解地附接到所关注的相关分子的质量标签(也称为质量标记)。此类使用串联质量标签(TMT)的质谱的方法描述于WO01/68664和Thompson等人《分析化学(Anal.Chem.)》2003,75,1895-1904。本发明提供了用于分析质谱数据的获取后方法。
本发明通常可以用于对质谱数据中重叠的同位素模式进行反卷积,确切地说当所贡献的同位素模式(子模式)已知时。
质谱数据可以例如由MS、GC/MS、LC/MS、IMS/MS、DIMS/MS之一获得,其中“MS”统一表示质谱,包括MS/MS或MSn法,“GC”表示气相色谱,“LC”表示液相色谱,“IMS”表示离子迁移谱,且“DIMS”表示差示离子迁移谱。可以呈组合,例如,LC/IMS/MS等。
数据通常由质谱仪以输出形式得到。因此,本发明的实施例可以包含使用质谱仪执行一个或多个样品(确切地说,生物样品)的质量分析,得到所测量的质谱数据。生物样品可以含有一种或多种所关注的分子,如一种或多种蛋白质、肽或核酸。所关注的分子可以例如使用TMT进行质量标注。优选地,所关注的分子使用同量异位质量标签(如TMT)进行标注。一个或多个样品可以包含质量标签或已从所关注的分子裂解的质量标签的部分。在一些实施例中,可以通过质量标签(例如TMT)的片段化得到质谱数据。质量标签可能已从一个或多个所关注的分子裂解。质量标签的片段化可以通过使质量标签和/或经质量标注的所关注的分子经历解离能(例如,以碰撞诱导解离(CID)形式)进行。优选地,分析已从所关注的分子裂解的质量标签,但替代地,可以用质量标记剂的其它部分对肽执行定量分析。
本发明的另一方面提供一种计算机程序,当由一个或多个处理器执行时,所述计算机程序使得一个或多个处理器执行根据本发明的方法。计算机程序可以存储在计算机可读介质上。
本发明可以使用计算机执行(即,经电脑实施)。在实施例中,计算机可以包含:存储介质、存储器、处理器、一个或多个接口(例如,用户输出接口、用户输入接口和网络接口),其例如经由一个或多个通信总线连接在一起。
存储介质可以是任何形式的非易失性数据存储装置,例如硬盘驱动器、磁盘、光盘、ROM等中的一种或多种。存储介质可以存储一个或多个计算机程序,包括根据本发明的程序。
存储器可以是适合于存储数据的任何随机存取存储器(存储单元或易失性存储介质)和/或计算机程序。
处理器可以是适合于执行一个或多个计算机程序(例如,存储在存储介质上和/或存储器中的那些)的任何数据处理单元,其中的一些可以包含根据本发明的实施例的一个或多个计算机程序或在由所述处理器执行时,使得所述处理器执行根据本发明的实施例的方法的计算机程序。处理器可以包含单一数据处理单元或并行、分开或彼此协同操作的多个数据处理单元。处理器在执行本发明实施例的数据处理操作时可以将数据存储到存储介质和/或存储器中和/或从其读取数据。
可以提供接口,其为用于在计算机与计算机外部或可以从计算机去除的装置之间提供接口的任何单元。外部装置可以是数据存储装置,例如,光盘、磁盘、固态存储装置等中的一个或多个。接口因此可以根据从处理器接收的一个或多个命令而从外部装置存取数据,或将数据提供到外部装置,或与外部装置介接。
用户输入接口可以被布置成从用户或操作者接收输入。用户可以通过与用户输入接口连接或通信的系统的一个或多个输入装置提供此输入,例如鼠标(或其它指向装置)和/或键盘。然而,应了解,用户可经由一个或多个额外或替代的输入装置(如触摸屏)向计算机提供输入。计算机可以将通过用户输入接口从输入装置接收的输入存储在存储器中供处理器随后访问和处理,或者可以将其直接传送到处理器,以便处理器能够对用户输入相应地作出响应。
关于同位素模式的信息可以通过用户经由以上装置输入,或可以呈机器可读形式使计算装置可用,例如通过QR或条形码(其可以通过经由网络下载进行扫描或读取)、通过附接到含有TMT或其它标记剂的瓶的RFID标签或通过其组合(例如,响应于通过用户手动扫描或通过实验室自动化设备自动扫描的产品包装上的QR码来下载关于标签和其相应质量和杂质/卫星峰的信息)或可用于信息传送的任何其它方式。
用户输出接口可以被布置成向用户或操作者提供图形/视觉输出。因而,处理器可以被布置成发指令给用户输出接口以形成表示期望图形输出的图像/视频信号,且将此信号提供到连接于用户输出接口的视频显示单元(VDU),例如监视器(或显示屏或显示单元)。
网络接口可以被布置成向计算机提供从一个或多个数据通信网络下载数据和/或将数据上传到一个或多个数据通信网络的功能。
可以产生或提供本地或分布式计算系统(包括例如云存储装置)内的任何地方的输出信息,以备在移动装置上显示直接或推导结果,或呈机器可读形式或作为数据流传送到其它处理后工具。
应了解,上文所述的计算机系统的架构仅为示范性的,且可以使用具有不同架构的其它计算机系统(例如,具有较少组件或具有可以使用的额外和/或替代组件)。举例来说,计算机可以包含以下中的一个或多个:个人计算机;服务器计算机;膝上型计算机等。
鉴于上文,本发明的某些优选实施例包括:
一种用于对所测量的质谱数据进行反卷积的方法,所述质谱数据包含至少两个分子部分的重叠的同位素模式,所述方法包含:识别质谱数据内对应于分子部分的质量的多个质量通道;通过用同位素数据块迭代填充质量通道来产生对所测量的质谱数据的模拟,其中每一块包含分子部分中的一个的同位素模式;当质量通道满足指示模拟符合所测量的质谱数据的适合性标准时,终止所述模拟;和基于用每个分子部分的同位素模式进行模拟的总填充量确定产生所测量的质谱数据的每个分子部分的量。
优选地,在每一迭代处,用于填充的同位素数据块包含具有对应于质量通道的质量的分子部分的同位素模式,所述质量通道在模拟质谱数据与所测量的质谱数据之间具有最大强度差异。
优选地,所述方法进一步包含如果来自模拟的填充导致模拟质谱数据的质量通道的强度高于所测量的质谱数据的质量通道的强度超过限定容差,那么拒绝填充。
优选地,适合性标准由以下中的任一个满足:
(i)当拒绝填充所有质量通道时;
(ii)当由所述同位素数据块贡献的总强度等于所述所测量的质谱数据或光谱中所有质量通道的强度的总和时;
(iii)当质量通道在模拟与等于或大于最小块大小的所测量的质谱数据之间不具有差异时;
(iv)当模拟的所有质量通道的强度与所测量的质谱数据相比在预限定最大容差内时。
优选地,取决于所述方法的期望精确度选择每一块的大小。
优选地,每一块的大小为Mp所测量的质谱数据中最强的测量峰的0.1%到1%。
优选地,模拟包含用大小更大的同位素数据块开始填充,且当模拟接近所测量的质谱数据时减小块大小。
优选地,所测量的质谱数据的噪声水平用于测定在模拟的适合性标准中使用的限定容差。
优选地,在用同位素数据块迭代填充质量通道之前,用所测量的质谱数据的已知背景强度预填充模拟。
优选地,分子部分为质量标签或源于质量标签的片段。优选地,分子部分为串联质量标签或源于串联质量标签的片段。优选地,分子部分为串联质量标签的质量报告子部分。
本发明的某些优选实施例可以提供存储在计算机可读介质上的计算机程序,当由一个或多个处理器执行时,所述计算机程序使得一个或多个处理器执行根据任一前述技术方案所述的方法。
根据本发明的另一方面,提供一种被布置成执行根据如上文所述的本发明的任何实施例的方法的设备。
附图说明
图1a展示呈质谱形式的质谱数据的实例图形表示。
图1b展示单一分子部分的质谱数据的实例图形表示。
图1c展示以个别部分的重叠的质谱数据的形式的图1a的质谱数据。
图2示意性地说明实例分析系统的逻辑布置。
图3a示意性地说明可以由图2所示的分析系统执行(或由其实施)的对所测量的质谱数据进行反卷积的方法。
图3b示意性地说明图3a所示的方法的迭代填充步骤的变化形式
图4展示两个定量通道的同位素比。
图5展示根据已知通道比所测量的质谱的强度。
图6展示用于用可变化的块大小进行模拟的实例,使用关于来自相邻通道的干扰的最坏情况假设来近似前两个块。
图7展示用相同大小的另外四个步骤继续图6的模拟的结果。
图8为具有串联质量标签(TMT)的定量实验的简化概述。
图9展示标签区中单一MS2光谱的实例(从图8的右下方放大)。
图10展示对校正过程进行建模的马尔可夫决策过程(Markov Decision Process,MDP)。
图11展示用于三个通道实验的马尔可夫决策过程结构。
图12展示马尔可夫链结构。
图13展示另一马尔可夫决策过程结构。
具体实施方式
所测量的质谱数据通常包含质谱,所述术语包括覆盖有限质量范围的部分质谱,且将参考所测量的质谱描述所述方法。在某些方面,所述方法是基于使用用于形成接近固有地满足以下条件的所测量的质谱Mp的近似(或模拟)质谱的迭代(或迭代的)过程:
-所有解Cq(分子部分的量或浓度)为正(或零),即不产生负解。
-通过添加假定的组件来形成近似模拟光谱(/>为个别分子部分i的质量通道j上的已知同位素分布,亦即/>对于具有Ci的定量通道的部分,在质量通道处给出相对预期强度Mj)
-所述方法对噪声或背景是稳定的,即不因分子部分影响所测量的质谱Mp
图1a展示呈质谱形式的质谱数据101的实例图形表示。
质谱数据101可以表示成一个或多个质量通道130i的形式(其中i仅是1到n的索引)。每一质量通道对应于相应质量值(或质荷比,在本文中被称作m/z值),在质谱实验中在所述质量值处检测到相同质量(或质荷比)的离子物质。由给定质量通道130I的质谱设备测量的强度(或相对丰度)Mi与具有由质谱设备检测到的质量(或m/z值)的离子物质的相对丰度相关。
应了解,在具有相同质量(或m/z值)的给定质谱实验中可以检测到超过一种离子物质。因而,给定质量通道的强度值可以表示在给定质谱实验中检测到的所有离子物质的丰度的总和,质量(或m/z值)对应于所述特定质量通道。
例如质谱数据101中的实验质谱可以以由虚线指示的连续曲线和由垂直实线指示的质心图的形式绘制。用虚线指示的峰的宽度表示质量分辨能力的极限,它能够区分m/z比接近的两种不同离子物质。以此方式,将理解,质量通道可以包括在质谱设备的给定分辨率(或实验自身)内所有检测到的具有与质量通道的m/z值相同的m/z值的离子物质的强度。换句话说,当本文中提及m/z值相同(或相等)时,技术人员将了解,这可以在相关质谱实验的给定分辨率内相同。
然而,应了解,不需要以图形的形式绘制质谱数据101。实际上,质谱可以表示成任何合适的形式。举例来说,质谱可以表示为包含一个或多个强度值和一个或多个m/z值的列表。在一些情况下,质谱可以仅表示为质心(或局部极大值)的列表,每一质心表示为m/z值和强度值对。
因为本领域中存在利用质谱数据获得此类质心的许多常用技术,因此这些在本文中将不进一步论述。然而,应了解,本文所述的技术可以针对形成质谱数据101的质心列表,或针对利用合适的技术识别强度极大值(或质心)的原始质谱数据101执行。在一些情况下,此类质心或“棒光谱”可以是来自色谱峰的多个光谱上的信息的汇总结果。
图1b展示如先前所述的单一分子部分的质谱数据151的实例图形表示。再次,质谱数据151的图形表示呈质谱的形式。
如先前所述,特定分子部分可以在质谱实验中具有主要同位素(具有主要质量(或m/z值))和具有一个或多个其它同位素(具有不同相应质量(或m/z值))(通常称为卫星或卫星同位素)。这可以产生具有多个m/z强度峰的特定分子部分的质谱,如图1b中质谱151所示。通常,在质量标注中,给定部分的具有最高强度的质量被视为所述部分或标签的主要质量(或报告子质量或标签质量)。其余强度峰的质量随后通常被视为卫星质量。本领域中的常见记法是将主要质量标记为“0”,具有较高质量的邻近卫星标记为“+1”,具有更高质量的卫星标记为“+2”等等。类似地,较低质量(相对于主要质量)的邻近卫星标记为“-1”,更低质量卫星标记为“-2”等等。
在此特定实例中,图1b的质谱数据151展示具有非零强度的四个质量通道。主要质量通道在102处且具有强度M3。“-1”卫星在质量通道101处产生强度M2。“-2”卫星在质量通道100处产生强度M1。最后,“+1”卫星在质量通道103处产生强度M4
部分的总浓度(或丰度或强度)与主要质量通道与卫星质量通道的强度的总和成比例。在此特定实例中,部分的浓度由给出。给定部分(或被分配或用于标记)的质量通道通常被称为部分的“定量通道”(具有强度或浓度Cj),且通常对应于部分的主要质量通道(具有强度Mj))。此定量通道填充有部分的总浓度。可以绘制分子部分的“校正”质谱,其由在定量通道处绘制为单一峰的部分的总浓度组成。
还应了解,给定部分的同位素的强度表示(或提供或包含)同位素模式。同位素模式将理解为特定分子部分的多个同位素的相对丰度的模式。因而,同位素模式可以允许计算特定分子部分的一个同位素相对于特定分子部分的另一同位素的相对丰度。因此,分子部分的同位素模式可以包含(或表示)许多质量通道,每一质量通道对应于分子部分的相应同位素。同位素模式进一步包含用于同位素模式的每一质量通道的相应强度(或丰度)。
同位素模式可以由(或可以包含)一组系数Sp表示,所述系数与给定分子部分的总浓度在给定质量通道处的预期强度MpC有关。换句话说,系数可以遵从关系Mp∝SpC。在对系数标准化以使其求和的情况下,将遵从更强的关系Mp=SpC。同位素模式的另一共同标准化是按比例调整系数,使得Sj=1,其中Mj是主要或报告子质量通道(即,浓度通道是Cj)。应了解,存在可以取决于用于各种量的单位和/或所使用的标准化方案来构造这些系数的许多数学上等效方式。
以此方式,应了解,可以通过同位素模式按比例调整分子部分的总浓度得到包含所述部分的同位素的质量通道的预期强度的预期质谱数据。
图1c展示以个别部分的重叠的质谱数据的形式的图1a的质谱数据101。上文关于图1a陈述的质谱数据101的论述此处同样适用。为了增强可读性,省略了展示图1a的连续曲线的虚线。
另外,图1c展示通过多个分子部分产生(或表示或存在)的质谱数据101。图1c展示在质量102处具有主要质量通道的第一部分(由菱形符号表示)的存在,所述主要质量通道对应于质谱数据101的强度的质量通道M3。展示了在质量103处具有对应于质谱数据101的强度M4的质量通道的主要质量通道的第二部分(由方形符号表示)。最后,展示了在质量104处具有对应于质谱数据101的强度M4的质量通道的主要质量通道的第三部分(由三角形符号表示)。如图1a中,实际所测量的质心由交叉符号表示,且在此情况下,这些质心仅为每一质量通道处的部分的强度的总和。在实际世界数据中,应了解,噪声和设备误差的影响通常也将存在于所测量的质心中的质量通道中。
如从图1c可以看出,三个分子部分的同位素模式重叠。换句话说,一个部分的至少一个同位素具有与另一部分的同位素相同的质量。应了解,在此情况下,参考质谱数据的分辨率定义了相同的质量,即,无法单独解析两个同位素。以此方式,质谱数据的质量通道中的至少一些的强度包括不同部分的贡献。确切地说,
·具有质量101的质量通道的强度M2为第二部分的“-2”卫星的强度与第一部分的“-1”卫星的强度的总和;
·具有质量102的质量通道的强度M3为第三部分的“-2”卫星的强度、第二部分的“-1”卫星的强度与第一部分的主要同位素的强度的总和;
·具有质量103的质量通道的强度M4为第一部分的“+1”卫星的强度、第三部分的“-1”卫星的强度与第二部分的主要同位素的强度的总和;
·具有质量104的质量通道的强度M5为第一部分的“+2”卫星的强度、第二部分的“+1”卫星的强度与第三部分的主要同位素的强度的总和;和
·具有质量105的质量通道的强度M6为第二部分的“+2”卫星的强度与第三部分的“+1”卫星的强度的总和;
图2示意性地说明实例分析系统300的逻辑布置。分析系统300包含接收器模块310、质谱数据生成(或近似)模块320和浓度确定模块330。
接收器模块310被布置成接收质谱数据101。典型地,接收器模块310被布置成接收来自与分析系统300耦接(或连接)的质谱仪的质谱数据。然而,应了解,接收器模块310可以被布置成从任何合适的源(包括数据存储装置、云计算服务、测试数据生成程序等)接收质谱数据101。如先前所陈述,质谱数据101具有各自具有(或填充有)相应强度(或强度值)的多个质量通道。
质谱数据生成(或近似)模块320被布置成产生质谱数据101的近似版本301。质谱数据的近似版本301包含一组质量通道。质谱数据101的近似版本301的所述组的质量通道通常对应于质谱数据101的质量通道。确切地说,对于质谱数据101的每一质量通道,在近似版本301的所述组的质量通道中可能存在相同质量的质量通道。然而,应了解,在一些情况下,不考虑质谱数据中的所有质量通道。举例来说,如上文所述,每个分子部分具有对应于所述部分的同位素模式的主要质量的相应定量通道。在已识别质谱数据的一组预期部分(且因此相应定量通道)的情况下,质谱数据的近似版本301的所述组的质量通道可以仅包含对应于所识别的定量通道的那些质量通道。
在产生近似版本301时,质谱数据生成(或近似)模块320被布置成用强度数据块迭代填充所述组的质量通道。对于给定迭代,根据选用于所述迭代的分子部分的同位素模式执行所述组的质量通道的填充。每一强度数据块包含(或表示)待分布到质量通道的强度。迭代填充由质谱数据生成模块320引导,以便使得近似版本301质谱数据向质谱数据101汇聚。通常,基于在所述迭代处的质谱数据与质谱数据的近似版本301之间的偏差的量度来确定给定迭代处的填充。确切地说,选用于给定迭代的分子部分可以是减少质谱数据101与质谱数据的近似版本301之间的偏差的量度的分子部分。
质谱数据生成模块320经配置以一旦满足适合性标准便终止质谱数据的近似版本301的产生。适合性标准指示质谱数据的近似版本301符合所测量的质谱数据101。应了解,可以由用户基于质谱的近似版本301的期望精确度来调整(或设置)适合性标准。另外或替代地,可以基于所测量的质谱数据101的已知或估测的精确度来设置适合性标准。
浓度确定模块330被布置成确定在所测量的质谱数据101中存在(或表示)的分子部分中的至少一者的量(或浓度)。给定分子部分的确定是基于根据所述分子部分的相应同位素模式的总填充量(或填充的强度数据块的强度的总量)。
图3a示意性地说明可以由分析系统300执行(或由其实施)的对所测量的质谱数据101进行反卷积的方法350。
步骤360包含接收器模块320,其接收质谱数据101。
任选的步骤365包含接收器模块320,其识别表示于(或存在于或贡献)所接收的质谱数据101中的分子部分。技术人员将了解可以实现此的许多不同方式。通常,如例如在质量标注实验中,通过执行实验的方式将已知或预定所述部分。另外或替代地,可以基于质谱数据的强度峰确定存在的部分。应了解,识别分子部分可以被视为等效于识别定量通道,因为给定分子部分的报告子质量将为已知量。
步骤370包含质谱数据生成(或近似)模块320迭代填充一组质量通道,以产生质谱数据的近似版本。对于给定迭代,根据选用于所述迭代的分子部分的同位素模式执行所述组的质量通道的填充。每一强度数据块包含(或表示)待分布到质量通道的强度。迭代填充由质谱数据生成模块320引导,以便使得近似版本301质谱数据向质谱数据101汇聚。通常,基于在所述迭代处的质谱数据101与质谱数据的近似版本301之间的偏差的量度来确定给定迭代处的填充。确切地说,选用于给定迭代的分子部分可以是减少质谱数据101与质谱数据的近似版本301之间的偏差的量度的分子部分。在某些实施例中,选用于给定迭代的分子部分可以是具有对应于质量通道的质量的分子部分,所述质量通道在质谱数据的近似版本与所测量的质谱数据之间具有最大强度差异。
步骤380包含浓度确定模块330,其基于根据所述分子部分的相应同位素模式的总填充量确定产生所测量的质谱数据101的每个分子部分的量。一般来说,填充特定所选部分的所有强度数据块的总强度的总和是所述部分的浓度(或与其成比例)。
应了解,这可以以许多不同方式中的任一个确定。举例来说,每次在步骤370中对质谱数据的近似版本301执行填充作为每一填充的一部分(或与其同时)时,可以更新一组定量通道。这可以采取累积总计的形式(如Ci=Ci+Δa),其中Δa为在给定填充步骤时强度块的总强度,所述强度块是具有Cj的定量通道的部分。或者,可以保留填充的记录且通过分析记录来确定步骤380处的浓度Ci。举例来说,可以保留每一部分的填充的数目和每一总强度。随后可以对每一部分的这些计数进行求和(根据相应总强度进行加权),得到每一部分的浓度。
步骤370可以包含多个子步骤,如下文参考图3b所陈述。图3b示意性地说明图3a所示的方法350的步骤370的变化形式。步骤370可以包含如下多个子步骤。
任选的子步骤372包含初始化质谱数据的近似版本301的所述组的质量通道。子步骤372可以包含将已知或估测的背景和/或噪声纳入所述组的质量通道中。确切地说,已知或估测的背景和/或噪声数据可以包含所述组的质量通道的质量通道中的一个或多个的相应(估测)噪声强度。所述组的质量通道可以填充有所述噪声数据,即,具有添加到相应质量通道的强度值的噪声强度。在以下论述中,将了解,背景通常是指恒定(或合理恒定)的外部信号。这可以从其它信息(例如,在色谱-MS中,存在于所有光谱中的信号)直接确定。噪声通常是指可变化的或波动的干扰。通常仅可获得噪声的统计信息。因而,在所述的预填充中,优选地,可以将噪声的统计平均值与完全预测的背景一起使用。
应了解,此类子步骤具有使方法350考虑到所测量的光谱数据101的已知或估测的噪声的优势。
子步骤374包含从质谱数据的近似版本301的所述组的质量通道选择质量通道。可以基于在所述迭代处的所测量的质谱数据101与质谱数据的近似版本301之间的偏差的量度来选择质量通道。通常,选择对应于所测量的质谱数据101的强度与质谱数据的近似版本301的强度之间的最大偏差的质量通道。应了解,可以使用任何数目的偏差的量度。确切地说,可以使用相对于质量是局部的所测量的质谱数据101与质谱数据的近似版本301之间的偏差的任何合适的量度。实例将为按质量通道计的所测量的质谱数据101的强度与质谱数据的近似版本301的强度之间的算术差。在此情况下,可以选择在质谱数据的近似版本301与所测量的质谱数据101之间具有最大强度差异的质量通道。
应了解,子步骤374可以被视为等效于基于上文所论述的标准选择分子部分。确切地说,可以直接选择具有对应于所选质量通道的主要质量(或报告子质量)的部分自身。如上文所论述,在一些情况下,质谱数据的近似版本301的所述组的质量通道中可能存在不具有相应分子部分的质量通道(即,不具有相应定量通道)。在此类情况下,可以修改子步骤374,使得可以使用仅具有相应定量通道的所述子组的质量通道。
尽管本文中对方法350的描述并非根据回报函数进行转换,但应当理解,可以以这种方式想到本发明的一些实施例。确切地说,可以将在每一填充步骤中提供与填充通道中所测量的强度和估测的强度之间的距离成比例的回报的回报方案视为等效于始终填充质量通道,所述质量通道在所述迭代处的所测量的质谱数据101与质谱数据的近似版本301之间具有最大偏差。替代地,在所述迭代处的所测量的质谱数据101与质谱数据的近似版本301之间的距离减小作为回报回馈的回报方案可以开始随机地填充,且可能导致单一通道被过度填充且只有“反向填充”(即减法)可以导致最小距离的情形。可以通过通常或确切地说在相邻通道中处罚过度填充来修改先前回报函数。
子步骤376包含根据所选择的分子部分的同位素模式用强度数据块填充所述组的质量通道。如先前所陈述,强度数据块通常具有根据所选择的分子强度的同位素模式分布到质量通道的总强度。可以在所有迭代中固定每一强度数据块的总强度。替代地,可以基于相应子步骤374中测定的偏差来设置每一强度数据块的总强度。下文将简述这种变型的特定实例。然而,应了解,如果强度数据块的总强度相对于较低所确定的偏差单向减小,那么可以提高迭代填充的汇聚速度。这允许在质谱数据向所测量的质谱数据101汇聚时,使用相对较大强度数据块(即,具有相对较大总强度的强度数据块)填充质谱数据的近似版本的每一质量通道的大部分。
通过基于近似301与所测量的101质谱数据之间的偏差选择分子部分,且因此控制子步骤376中的填充的同位素模式,可以促使近似质谱数据301向所测量的质谱数据101汇聚。这是因为可以避免在近似质谱数据已经接近所测量的质谱数据的情况下过度填充质量通道。另外或替代地,填充可以完全或部分地回缩(或减去)来补偿检测到的过度填充。当结合可变化的块大小和准许过度填充质量通道的终止标准使用时,这种填充的回缩可能是特别有利的,因为可以随后使用较大块大小来促进更快的汇聚。子步骤378包含当满足指示质谱数据的近似版本符合所测量的质谱数据的适合性标准时,终止步骤370。应了解,可以存在超过一个适合性标准,且当满足任何或所有时可能出现终止。终止标准可以包含满足以下中的任何一个或多个:由同位素数据块贡献的总强度等于所测量的质谱数据101中所有质量通道的强度的总和时(通常,在容差内);质量通道在近似版本301与等于或大于预定阈值(其可以是最小块大小(或强度))的所测量的质谱数据101之间不具有偏差量度(例如差异)时;模拟的所有质量通道的强度与所测量的质谱数据相比在预限定最大容差内时。应了解,最大容差可以根据质量通道而变化。另外或替代地,基于已知或估测的噪声水平设置最大容差。
可以迭代或重复子步骤374、376,直至子步骤378出现终止。
在一些变化形式中,可以包括额外接受/拒绝测试作为填充子步骤374的一部分。确切地说,如果填充将致使质谱数据的近似版本301的质量通道中的任一个的强度超出所测量的质谱数据101中的质量通道的相应强度一个预定量,那么可以拒绝填充。在此类拒绝的情况下,可以使用较低的强度数据块大小来尝试填充。另外地或可替代地,可以使用对应于具有的次高偏差量度(相对于所测量的质谱数据101)的质量通道的部分来尝试填充。在此类变化形式中,额外终止标准还可以用于子步骤378中,其中如果所有质量通道或部分拒绝填充,那么出现终止。
本发明的方法可以作为一个或多个算法实施。算法可以在计算机上运行。可能存在许多优化方案来提高方法的效率,例如,基于所测量的质谱101中峰M1到Mn通常是对解的合理良好近似Cg
鉴于一般化算法的以上论述,优选优化过程形成了近似如下所测量的光谱的光谱:
-通过用同位素块迭代填充光谱来形成近似(或模拟)光谱301(即,增加与在引入到质谱中的那些相应质量处的额外同位素的影响相当的多个质量通道的强度),其中每一块具有分子部分中的一个的同位素模式或组成即对应于所述质量通道之一的分子部分中的一个。块的大小或强度取决于所述方法的期望精确度。通常,0.1%到1%的最强测量峰Mp的块大小(或总强度)是足够的,但块大小可能更低或更高,例如低到最强测量峰的0.01%或高达3%,或甚至10%Mp。块大小可以比这高,尤其在使用可变化的块大小的实施例中,但最小大小通常是最强测量峰Mp的至少0.01%或0.1%。块大小可以是可变化的,例如所述方法可以取决于所测量的光谱101中分子部分的强度而对于相应分子部分采用不同块大小,和/或可以随着模拟的进行而采用不同块大小(例如以较大块大小开始且随着填充模拟光谱而减小大小)。
-在以上步骤374(或在步骤370中填充的每一迭代)处,选择在模拟光谱301与所测量的光谱Mp101之间具有最大差异的质量通道进行下一次填充,即,在所述步骤中用具有对应于所述质量通道的分子部分的同位素模式或组成的同位素块填充光谱301。如果在填充之后近似(或模拟)光谱中峰的所得强度(或将)高于峰的所测量的强度一个预定容差t以上,那么可以拒绝填充尝试,所述容差t可以被定义为个别所测量的峰Mp或全部Mp。的绝对或相对值。如上文所陈述,此预定容差可以基于已知或预期噪声水平,且可以指定每一质量通道。
-当所有质量通道尝试添加另一块无效(即,拒绝)时和/或当块中分布的强度的总量等于所测量的光谱101的强度的总和加上任选的容差时,或当质量通道在模拟(即,质谱数据的近似版本301)与大于或等于所使用的最小块大小的所测量的质谱数据101或光谱之间不具有差异时或当所有质量通道的强度与所测量的质谱数据101或光谱相比在预限定最大变化内时,或当满足这些标准中的任何两个或更多个时,算法停止。
根据对应于个别定量通道中的每一者的填充量或填充数进行追踪或记录,且随后假设每一通道的填充的总和为结果,即,对应于所述质量通道的分子部分的浓度或量。Cq
任选地,模拟光谱可以用表示背景的噪声的已知贡献的块“预填充”(其随后可能无法追踪确定浓度Cg)。
在一些实施例中,所述算法的优选优化包括从所测量的峰强度中估测“良好”的第一填充值Mp[例如(Max(Mp-2Max(li,ri),0)],其中li、ri是从左侧或右侧干扰,基于假定相邻Mq等于具有同位素模式的对应Cq。应了解,“左侧干扰”是指具有对应于紧邻左侧的质量通道的主要质量的部分的+1卫星对给定质量通道的贡献。举例来说,针对Mi的质量通道,左侧干扰将是/>类似地,右侧干扰将是/>在实例优化中进行的假设是使用邻近所测量的强度Mi-1和Mi+1,如同其分别为部分浓度Ci-1和Ci+1
在一些实施例中,优选优化可以包括用较大块大小(或总强度)开始填充且当模拟光谱接近所测量时减小块大小。当确定结果(即分子部分的浓度或量Cg)时,较大块大小的权重大于较小块大小。举例来说,比较小块大小大3倍的块大小将是浓度计数的3倍,即,其将有效地对3个较小块计数来确定结果,即分子部分的浓度或量。
所述方法可以提供以下优势:所述方法的计算量与n*F*Q,成比例,其中n是所贡献的模式/部分的数目,F是每部分的峰的最大数目且Q是质量,即对于最高信号的分布步骤的预期数目。由于Q和F是常数,这意味着“大写O记法”的计算量约是On(也写成O(n)),即贡献(即,部分)的数目增长,考虑到计算量随着贡献/部分的数目线性增长,相对于例如使用高斯-约当(Gauss-Jordan)方法进行矩阵求逆的常规求解或奇异值分解,其计算量随贡献者数量的增加而成比例增加到三者的幂,即(也写成O(n3))。这有利于例如对来自大量部分的峰的质谱进行反卷积,例如具有大量标签(例如6、10、11、16或更多个标签)的TMT组;所述方法保证不产生小于零的结果,这是在使用通用数学求解时的共同问题;所述方法对质谱中的噪声具有耐受性,且已知的噪声水平可以用于测定合理的终止标准(例如,容差t),即,所测量的质谱数据的噪声水平可以用于测定在模拟的终止标准中使用的限定容差;可以通过在开始本发明的迭代方法之前用背景强度预填充模拟光谱来容易地适应所测量的光谱或数据中的已知背景强度。
在某些实施例中,可以将本发明视为有效地解译质谱实验,例如质量标签定量实验,作为马尔可夫模型(Markovian model)。可以定义含有定量实验的所有参数的非确定性马尔可夫链(马尔可夫决策过程,MDP),即,
-定量通道(质量通道)的数目
-来自实验中其它通道的每一通道的“杂质”
-由于当前实验中不存在的通道而导致的杂质
-任何噪声源
随后,使用质谱的测量以及例如在实验室中执行的肽的化学标记步骤等的步骤可以被视为执行根据马尔可夫决策过程(MDP)的概率分布和连接的精确地表示实验的模拟。下文更详细地描述此类方法的其他细节。
由于当前实验中不存在的通道而导致的杂质可能是:
-已定量的通道的卫星,但这些卫星不会干扰到其它通道
-样品中存在的通道(因此,卷积所述光谱)但未在当前的反卷积方法中定量。
类似于随时间推移收集离子以形成光谱,其可以被看作泊松过程(Poissonprocess),其中每次根据标签的同位素比以一定概率收集离子且强度比通过相对浓度给出,马尔可夫链根据标签的同位素比在每一步骤中将强度组放入不同的质量,且基于到所测量的光谱的最大距离选择通道,以确保将强度添加到通道的概率与泊松过程中的相同。
虽然以到所测量的光谱的最大距离始终填充通道的方法首先是特别有利的,且确保优化始终从“底部”接近恰当的浓度,但其它方案,例如循环方案(以任何次序访问峰,例如以质量数访问),且当所测量的数据与模拟数据之间的差小于预定量时,不添加任何块也将起作用,但可能需要去除过程中的块,以使得模拟光谱向正确的解“振动(oscillate)”。振动近似愈快,但因精确度和稳定性所致通常较不优选。本发明的优选方法为非负优化的特殊情况。
为了能够更详细地理解本发明,现将描述各种实施例。应理解,本发明的范围不限于这些实施例,所述实施例仅是实例。
因为本发明涉及质谱数据,所以本文的术语质量是指质量(m)与电荷(z)之比(m/z),其为与单一带电离子的质量相同的值。
作为本发明的说明,首先描述极简单的假设实例:
假设定量通道具有以下特性,为简单起见仅使用标称质量:
定量通道1(例如,表示第一质量标签(Tag 1)的质量):主要质量:100,在质量101处具有一个卫星,卫星的强度:10%。换句话说,部分标签1的同位素模式可以写成
定量通道2(例如,表示第二质量标签(Tag 2)的质量):主要质量:101,在质量100处具有一个卫星,这种“左”或“-1”卫星的强度:5%,和在质量102处具有另一卫星,这种“右”或“+1”卫星的强度:7%。换句话说,部分标签2的同位素模式可以写成
符号化成条形图,这些定量通道展示于图4中。
在此情况下,对定量通道进行标准化,使得每一通道的最强信号具有100%的强度(或“1.0”)。也就是说,通道中所有质量/离子的总和是100%(来自主要质量100)+10%(对于标签1通道,质量101处的杂质=110%,以m/z 100为中心和对于标签2(通道2),5%+100%+7%=112%,主要质量m/z 101;相对于通道中的最强m/z的强度。这是用于商业标签的随附文件中质量标签(例如由赛默飞世尔科技公司发布的TMT标签)的杂质的常见表示。替代标准化使得所有峰的总和为100%(或尤其对于软件程序中的表示,标准化使得通道中所有质量峰的强度的总和的计算单位为1.0)。重要的是,正确定量要记住所有峰的总和表示样品中标记的物质的量。
图5展示了来自质谱实验的测量,其中两个样品已分别标记有定量通道(标签)1和2。
所测量的强度在质量(或质量通道)100处是405、在质量(或质量通道)101处是140和在质量(或质量通道)102处是7。
虽然此假设实例测量不含噪声,且由于102质量通道中的杂质可以立即求解(方程1)类型的方程组,但其并非实验的一部分,必须-如图4中可以看出-归因于定量通道2,这可以通过本发明方法近似:
立即可以看出定量通道将如何通过例如用其大小各自在其主峰处为1.0的块来填充而增加,因此,为简洁起见,此实例直接说明加速方法:
所述方法首先包含以下优选的方法:始终填充在模拟与所测量之间具有最大差异的峰。这可以在用较大块进行快速填充时容易地看到,所述较大块有利地在最大测量信号处开始。
在第一步骤中,基于对相邻峰的最大干扰的估测,算法可以插入快速开始块:
在质量通道100处,预期来自定量通道1的主要信号(或强度)。仅相邻者在质量通道101处。在最坏情况下,来自定量通道2的干扰的近似将假定在质量通道101处的所有强度来自定量通道2。随后,质量100处的干扰将是140(在质量101处的所测量的强度)乘以5/100(定量通道2的左侧峰的相对强度)=7。任选地,可以应用例如1.5倍、2倍、3倍或4倍的安全容限,但在此情况下,已知从另一侧对m/z 100处的测量不存在干扰,且因此不应用额外安全性容限,且预期最坏情况的干扰仅舍入到10.0,且定量通道1(连同相应质量通道)可能预先填充有第一较大块:
所测量的强度为405,估测的最坏情况干扰为10,因此:
来自定量通道1的块1在质量100处是395和在质量101处是39.5。
类似地,我们现在可以寻找定量通道2,其在质量101处所测量的强度为140。
我们考虑到来自定量通道1的质量通道101已经预填充有39.5的强度。因此,对于此通道中的任何预填充的上限是140-39.-5=100.5。
可以通过查看可能的干扰找到另一上限:我们知道来自m/z 100质量通道的“+1”峰仅存在可能的干扰。因此,对于任何预填充的另一上限是m/z 100处信号的10%,即405,因此上限是140-40.5=99.5,其可以向下舍入到99。
因此,我们可以用块填充定量通道2(连同相应质量通道):
块2在质量101处是99和在质量100处是4.95且在102处是6.93。
模拟(或近似)光谱现在看起来如图6所示且在m/z 100处具有399.95的强度,在m/z 101处具有138.5的强度且在m/z 102处具有6.93的强度。
到目前为止所收集的强度为
定量通道1:395+39.5=434.5(来自块1)
定量通道2:99+4.95+6.93=110.88(来自块2)
现在,可以在步骤1中继续迭代,且例如直到总计光谱的容差是1。
在m/z 100处所测量和模拟之间的差异为5.05,且在m/z 101处所测量和模拟之间的差异为1.5。因此,在主要信号处大小是1的下一块进入通道1:
块3(定量通道1)在质量100处是1,在质量101处是0.1。
因此,在m/z 100处差异仍是最大的,因此
块4(定量通道1)在质量100处是1,在质量101处是0.1
块5(定量通道1)在质量100处是1、在质量101处是0.1,
块6(定量通道1)在质量100处是1、在质量101处是0.1,
给出以下模拟光谱:
在m/z 100处是403.95,在m/z 101处是138.9,且在m/z 102处是6.93。(图7)
现在,与在m/z 100处的1.05相比,在m/z 101处所测量的最大差异为1.1。
因此:
块7(定量通道2)在质量101处是1、在质量100处是0.05且在102处是0.07,
给出以下模拟光谱:
在m/z 100处是404,在m/z 101处是139.9,且在m/z 102处是7.00。
最终块进入定量通道1:
块8(定量通道1)在质量100处是1、在质量101处是0.1,
精确地给出所测量的光谱结果。
我们现在可以收集块的强度:
定量通道1:块1、3、4、5、6、8:434.5+5*1.1=440
定量通道2:块2、7:110.88+1.12=112
给出3.93的输入比(舍入到2个数值)。
第二实例现在说明串联质量标签标记工作流程。
预处理一组样品,例如从细胞或组织中分离的蛋白质提取物,包括消化蛋白质且随后使每一样品与标记中的一个反应,如图8所示。在标记之后,将样品混合且通过高分辨率OrbitrapTM LC-MS/MS分析。
图9展示使用TMT10plex试剂的10-plex相对定量的实例。用TMT10plex试剂(TMT10126-131Da)标记的BSA胰蛋白酶消化混合16:8:4:2:1:1:2:4:8:16且通过高分辨率(Orbitrap LC-MS)分析。通过比较由不同质量标签的MS/MS片段化产生的报告离子与第一实例中所说明的本发明的方法,使用如表1中所说明的标签信息来测量十个不同样品中目标蛋白质或肽片段的相对丰度。
测量可以通过数据相关性或数据独立性分析进行。在数据相关性分析中,例如可以对任何时间步骤处的最强前驱子离子进行片段化,且处理后方法可以在所得MS2光谱中寻找到可识别的肽和标记离子,其可以例如在标记区中如图9所示所见。
随后可以对来自具有标记信息的每个识别肽的每个MS2光谱执行不同样品的肽比率的评估,每一样品表示一个通道。随后可以经由完全色谱运行收集来自肽的信息且用已知方法将其汇总为蛋白质信息。蛋白质比率可以例如是与蛋白质相关的肽的比率的中值。
通常,如以上实例,实验的目标为比率确定,但当通道中的一个具有已知浓度时可以得到绝对量。具有“内部标准”的此类实验例如从EPA方法1613已知用于二恶英分析和许多其他类似方法。本发明的方法适用于此类实验。
下文展示描述为马尔可夫模型(马尔可夫决策过程,MDP)且具有伪码的本发明的实例:
定义实验-MDP
假设M={M1,M2,......,Mn}为所测量的光谱,其中Mi表示光谱的第i峰的强度。我们认为这种所测量的峰对应于报告子定量通道i。此外,假设IM是光谱中所有峰上的总计(总)强度。因此,假设C={C1,C2......Cn}为校正光谱的强度(即,Ci为在质量通道i处具有其主要质量的部分的浓度),和IC所述校正光谱的对应的总计强度。为了易于论述,我们假设每一质量通道具有相应定量通道的情境,即,略去或舍弃仅由卫星同位素产生的所测量的光谱中的强度。技术人员将了解,MDP也将适用于此情况,即,其中M={M1,M2......Mm}和
可以通过如图10所示的MDP对标记实验建模。在此马尔可夫决策过程MDP=(S,Act->s0)中,状态S={M1......Mn,C1......Cn}表示质量通道1......n的所测量强度和校正强度。此外,质量通道通过转换关系->:S x Act->Distr(S)相关联,所述关系可以是非确定性的或概率性的。在MDP中具有不确定性步骤和概率步骤两者时,需要采取所述组的操作,但此处不对这些操作命名。在MDP作为定量实验的解释中,通过由根据概率函数P(i,j)(0≤P(i,j)≤1)表示的概率分布对通道i与j之间的杂质建模。应注意,P(i,j)对应于以上方程1的系数
对所述反卷积问题的解决方案随后意味着计算校正峰强度的组\{Ci:1≤i≤n},使得所测量的强度相对于所有j的约束变成\{Mj;1≤j≤n}
实例:
考虑具有以下杂质的三个通道实验:
-2 -1 0 +1 +2
定量通道#1 5% 10% 83% 2% -
定量通道#2 2% 4% 92% 1% 1%
定量通道#3 2% 3% 92% 1% 2%
随后,相应马尔可夫决策过程具有图11所示的结构。因此,光谱C={C1、C2、C3},强度C1=100.0,C2=200.0,C3=500.0,将暗示所测量的峰M={M1、M2、M3}
其中
M1=C1*0.83+C2*0.04+C3*0.02
M2=C1*0.02+C2*0.92+C3*0.03
M3=C2*0.01+C3*0.92。
现在描述可以用以模拟具有上文所定义的MDP的定量实验的方案:
方案1:模拟报告子定量实验
在步骤2中,仅需要使用存在于实际样品中的那些质量,且在步骤6中的骰子为任意选择过程的符号,其在根据分布P(i,.)选择目的地通道j的意义上是概率性的。
此类型的概率方案可以在如上文所论述的方法350的变化形式中实施。确切地说,在子步骤376处的此方案中,强度数据块包含(或是)单一强度值。强度值可以是分子部分的一个或多个分子的强度。基于(或包含)所选择的分子部分的同位素模式,将强度值填充(或添加到)根据概率分布(如概率质量函数)选择的单一质量通道中。因而,单一质量函数的选择可以被视为随机选择,且使得在填充相同分子部分的总体上,质谱数据的近似版本的质量通道的所得强度增加将反映(或包含或以其它方式遵循)同位素模式。还将了解,当实施子步骤376时,不需要真实熵源,且替代地,可以使用合适的计算机系统的适当地稳健伪随机数产生器。
求解算法
在更实际的情形下现在用足够的精度来描述有效地近似模拟方案1的算法。对此,将方案1修改为与一定量的分子/肽而不是单个肽分子的“块”一起作用。应注意,根据模拟方案,其认为IM=IC,即,光谱M的总计强度等于光谱C的总计强度。这在以下程序中产生了简单的终止标准(第2行):
可以容易地示出,对于步骤3,可以选择极峰C'i,所述峰的特征在于M的最大相应其余差,即|Mi-M'i|中的i在所有i上是极大值。上文参考图3a和图3b详细地论述这一点。
此外,Δa的适合值(强度数据块的总强度)取决于近似解应与可以通过标准矩阵求逆确定的精确解的接近程度。举例来说,如果Δa=IM/1e06,那么解的总精确度将是总光谱强度的1ppm。应注意,关于实际实验中的各种噪声源,解的精确度不需要超出实验的固有噪声水平。
从程序1显而易见,所有解C'i Cq为正(或零)。通过仅将值添加到峰强度C'i和M'i来构建近似光谱。此外,所述方法对于噪声源是稳定的,因为终止标准仅旨在使用所测量的光谱M的整个强度量,且对噪声误差具有耐受性,因为其始终用最大电流误差来改良峰。
此类确定性方案可以在如上文所论述的方法350的另一变化形式中实施。确切地说,在子步骤376处的此方案中,强度数据块包含各自对应于相应质量通道的强度组。根据强度数据的同位素模式按比例调整所述强度组。换句话说,给定质量通道的强度包含(或等于或与其成比例)由对应于同一质量通道的同位素模式的组件按比例调整的强度数据块的总强度。使用先前给定质量通道i陈述的记法,强度可以遵循其中ΔCj为强度数据块的总强度(先前写成Δa),其对应于用于所述特定填充的Cj的定量通道的增加。
所述方法的许多改良或变化形式是可能的,例如步长可以连续地变化,已知背景或其它离子可以在迭代开始之前使用,步长可以通过了解峰的信噪比(S/N)的方式选择,例如,当最大信号的S/N为20时,不必具有显著小于噪声水平的步长(即,最大信号的第1/20),因为更高的模拟分辨率无法通过光谱的信息内容来证明。
概率方法与用于离子收集的模型很好地吻合。
本发明的实施例提供一种对质谱数据进行反卷积的方法,所述质谱数据包含具有较高容差的重叠的同位素分布和对存在噪声和背景的情形的调整,所述方法很好地按比例调整且因此适合于具有大量同时的质量标签的实验。
应了解,本发明的实施例可以用于蛋白质组学实验。具有TMT定量的典型蛋白质组学实验含有在标记和其它样品制备步骤之后的LC-MS实验。在典型定量实验中,可以执行识别潜在地标记的肽(通常通过假定所有都是标记的肽并且按强度选择离子)、选择所述肽进行片段化且执行片段离子“扫描”的数据相关性机制。在大多数TMT数据评估中,在光谱的质量标签区中测量质量标签自身,且对于每一单一(假定)肽光谱,确定标签之间的比率。数据相关性策略通常适合于尽可能多的不同肽的测量。由于测量的目标为蛋白质的定量,随后收集所测量的肽的所确定的个别比率,得到包含所测量的肽的蛋白质的总体比率。这些方法在此项技术中众所周知且此处未论述。
在数据独立性分析(DIA)的情况下,所述方法通常旨在色谱峰上每肽具有超过一个片段光谱。在此类情况下,有利的是(但不需要)使用色谱峰面积来确定标记比率。
虽然标记强度的确定通常在“标记片段区”中执行,但有可能在光谱的剩余部分中寻找到标记的“另一半”。当超过一种肽意外地被分离和片段化时,这是尤其有利的。
本发明的实施例可以用于以高分辨率光谱形式对带多电荷分子的电荷状态进行反卷积。
以下中描述了用于电喷射光谱的反卷积的通常已知算法:D.M.Horn、R.A.Zubarev和F.W.McLafferty,“自动还原和解析较大分子的高分辨率电喷射质谱(Automatedreduction and interpretation of high resolution electrospray mass spectra oflarge molecules)”《美国质谱学会杂志(Journal of the American Society for MassSpectrometry)》,第11卷,第4号,第320-332页,2000。
这是我们称为减法算法的实例:在所测量的数据中识别出预测模式,按比例调整,且随后从所测量的数据减去所识别的部分。重复此程序直至消耗掉原始数据。在此情况下,使潜在同位素模式近似为平均(即,平均肽)离子。检查质量和电荷匹配的平均离子的符合质量,如果匹配,则起始减法。
此类减法方法的主要缺点在于将第一匹配常比例调整得太高,其余的则愈来愈倾向于错误地符合噪声,且一次仅将一个候选者与数据进行比较。
为了提高精确性,此类减法方法(如在Horn等人中)可以用作输入到本发明的方法,从而产生可以随后用于本发明的迭代方法的候选部分列表。虽然TMT反卷积通常是充分定义的过程,但电喷射数据的反卷积可能在较高质量处具有歧义(通常是正/负一个误差)。在此情况下,优选的是更高概率方法,而非针对TMT反卷积优选的纯粹确定性方法,且多个非确定性模拟可能是有利的,其平均质量在根据由精确质量的距离和分布的符合确定的质量和电荷估测的周围随机变化。如果需要确定性方法,那么可以完全估测所有可能组合。随后将具有最高相似性得分的估测选择作为最终估测。
本文中提供的任何和所有实例或示例性语言(“举例来说”、“诸如”、“例如”以及类似语言)的使用意图仅更好地说明本发明,并且除非另外要求,否则并不指示本发明的范围上的限制。本说明书中的任何语言均不应理解为指示实施本发明所必需的任何未要求保护的要素。
如本文所用(包含在权利要求书中),除非上下文以其它方式指示,否则本文中的术语的单数形式应被解释为包含复数形式,且反之亦然。举例来说,除非上下文另外指示,否则在本文中(包括在权利要求书中)一个单数参考物,如“一个(a)”或“一个(an)”意指“一个或多个”。
在整个本说明书的描述和权利要求书中,词语“包含”、“包括”、“具有”和“含有”以及所述词的变化形式(例如“包含(comprising)”和“包含(comprises)”等)意指“包括但不限于”,并且并不意图(并且并不)排除其它成分。
本发明还涵盖精确术语、特征、值和范围等,以防这些术语、特征、值和范围等与例如“约”、“周围”、“通常”、“基本上”、“基本上”、“至少”等术语结合使用。(即“约3”也应涵盖刚好3或“基本上恒定”也应涵盖精确恒定)。
术语“至少一个”应理解为意指“一个或多个”,并且因此包括包括一个或多个组件的两个实施例。此外,参考用“至少一个”描述特征的独立权利要求的附属权利要求项在所述特征称为“所述”以及“所述至少一个”时均具有相同含义。
除非另外规定或上下文另外要求,否则本说明书中描述的任何步骤可按任何次序执行或同时执行。
本说明书中所公开的全部特征可以任何组合形式组合,但此类特征和/或步骤中的至少一些会互斥的组合除外。确切地说,本发明的优选的特征适用于本发明的所有方面且可以任何组合形式使用。同样,可单独地使用(不以组合形式)以非必需组合形式描述的特征。
应了解,可对本发明的上述实施例作出变化,但这些变化仍属于本发明的范围内。除非另外说明,否则本说明书中所公开的每一特征都可以被用于相同、等效或类似目的的替代特征替换。因此,除非另外说明,否则所公开的每一特征仅是一系列通用等效或类似特征的一个实例。
将了解,所描述的方法已展示为按特定次序进行的个别步骤。然而,技术人员将了解,这些步骤可以不同次序组合或执行,同时仍然获得所期望的结果。
将了解,可使用多种不同信息处理系统来实施本发明的实施例。确切地说,尽管图和其论述提供了示例性的计算系统和方法,但这些仅为了在论述本发明的多个方面时提供有用参考而呈现。本发明的实施例可以在任何合适的数据处理装置上执行,例如个人计算机、膝上型计算机、个人数字助理、移动电话、机顶盒、电视、服务器计算机等。当然,出于论述的目的,对系统和方法的描述已经简化,且它们仅仅是可用于本发明实施例的许多不同类型的系统和方法之一。应了解,逻辑块之间的界限仅具说明性并且替代实施例可以合并逻辑块或元件,或可以将功能的替代分解应用于各种逻辑块或元件上。
将了解,上述功能性可以作为硬件和/或软件实施为一个或多个对应模块。举例来说,上述功能可以作为由系统的处理器执行的一个或多个软件组件实施。替代地,上述功能性可以作为如在一个或多个现场可编程栅极阵列(FPGA)上的硬件,和/或一个或多个特殊应用集成电路(ASIC)和/或一个或多个数字信号处理器(DSP)和/或其它硬件布置实施。按照本文所含的流程图实施的或如上所述的方法步骤可以各自由对应的相应模块实施;按照本文所含的流程图实施的或如上所述的多个方法步骤可以通过单一模块一起实施。
将了解,在本发明的实施例由计算机程序实施的范围内,那么携载计算机程序的存储介质和传输介质形成本发明的方面。所述计算机程序可以具有一个或多个程序指令或程序代码,其当由计算机执行时执行本发明的实施例。如本文所用,术语“程序”可以是被设计成在计算机系统上执行的指令序列,并且可以包括子程序、功能、程序、模块、目标方法、目标实施方案、可执行应用程序、小程序、服务器小程序、源代码、目标代码、共享库、动态链接库,和/或被设计成在计算机系统上执行的其它指令序列。存储介质可以是磁盘(如硬盘驱动器或软盘)、光盘(如CD-ROM、DVD-ROM或BluRay磁盘)或存储器(如ROM、RAM、EEPROM、EPROM、闪速存储器或便携式/可拆卸存储器装置)等。传输介质可以是通信信号、数据广播、在两个或更多个计算机之间链接的通信等。
附录
为了进一步辅助理解本发明及其数学基础,下文提供上文所论述的马尔可夫链的替代性推导。此替代性推导是参考“杂质”(下文简短地定义)描述,但应了解,此替代性推导等效于上文所论述的推导。
首先,再次应注意,可以将所测量的光谱S测量(在前一论述中被称作M)写成:
S测量={M1,M2......Mn}
其中Mj是所述光谱的峰且1≤j≤n。报告子峰M1......Mn的丰度值表示为A(Mj),其中在此论述中,我们将报告子通道(如先前所论述)称为c,其中c∈{1......n}
假设is,d是所谓的杂质通道s(源)到通道d(目的地),从某种意义上说其反映了从通道s的瓶随机选取的报告分子实际上来自通道d的概率,即根据通道s中具有主要质量的质量标签的随机选择的报告分子是在通道d中具有质量的同位素体的概率。如将了解,杂质的这种概率解释类似于上文在背景部分中所论述的解释,其中杂质实际上被视为质量标签的同位素分布。
同样地,理论峰的光谱和其丰度(可以被定义为)
STheo={T1,T2......Tn}
其中Tj是光谱和1≤j≤n的峰。理论峰T1......Tn的丰度值表示为A(Tj),即对应于每一报告子通道的每一质量标签的估测的丰度,其中应了解,这些丰度可以被视为等效于(在恒定比例因素内)先前所述的质量标签的浓度Cj
理论峰可以随后与如下所测量的光谱相关:
如前所述,可以将其重铸为矩阵方程:
IT=M
其中
如上文关于方程1所论述,此矩阵方程可以通过使用例如高斯算法、SV或LU分解等已知方法或各种近似法求解为理论峰的向量T——估测的通道丰度(或质量标签浓度)。
替代地,根据本发明的改良方法可以使用马尔可夫链形式化遵循以下推导。
我们从实际实验环境建构马尔可夫链,其重新产生用于单一光谱的报告离子定量实验作为马尔可夫链。此马尔可夫链含有来自实验的参数,即,
肽来自实验中特定通道c∈{1......n}的概率,由于杂质此肽已经用不同通道c′∈{1......n},c′≠c的标签不正确地标记的概率。
其因此含有在实验室中执行的肽的化学标记步骤,且允许实际上选取逐个分子(标记的肽)在质谱仪中进行测量,从而计算理论光谱以及所测量的光谱的相应丰度值的总数。
完全实验马尔可夫链
如前所述,我们假设n个通道的实验。我们定义马尔可夫链其中
·S是一组状态s={s0,T1,T2,...,Tn,M1M2,...,Mn},
·s0∈S是开始状态,
·Pur:{s0}→Dist,({T1,T2,...,Tn})是反映了纯标记的概率转换函数。
·Imp:{T1,T2,...,Tn}→Distr({M1,M2,...,Mn})是反映了杂质的转换函数。
对于达到具有Pur或Imp特定状态的实际概率,我们写成例如Pur(s0,Tj)或Imp(Tj,Mk)。在图12中可以看出状态转换的图形表示。如上所述,我们定义通用丰度函数其向S中的每个状态(峰)分配一个丰度值。
应注意,在开始状态s0与理论峰Ti之间存在概率分布Pur,且概率分布Imp是理论峰向测量峰的过渡。我们根据质谱仪测量的实际样品中通道的真实分布选择Pur根据杂质选择Imp。对此考虑以下实例。
假设以下定量实验:
·n=3(3个通道),
·75%的分子标记有通道1,
·20%标记有通道2,和
·5%标记有通道3。
随后,如果我们根据上文给出的百分比值相应地使用概率分布Pur(s0,T1)=0.75、Pur(s0,T2)=0.2和Pur(s0,T3)=0.05,且将A(s0)=100的总丰度(即,样品中标记分子的总量)分配到开始状态。
随后我们可以通过应用概率定律计算马尔可夫链中的峰T1......T3的预期丰度,得到
A(T1)=A(s0)·Pur(s0,T1)=100·0.75=75
A(T2)=A(s0)·Pur(s0,T2)=100·0.2=20
A(T3)=A(s0)·Pur(s0,T3)=100·0.05=5
此外,将任意杂质I的信息添加到计算中,可以将丰度值A(T1)......A(T3)用作概率转移Imp(Tj,Mj),如下所示:
A(M1)=Imp(T1,M1)·A(T1)+Imp(T2,M1)·A(T2)+Imp(T3,M1)·A(T3)
A(M2)=Imp(T1,M2)·A(T1)+Imp(T2,M2)·A(T2)+Imp(T3,M2)·A(T3)
A(M3)=Imp(T1,M3)·A(T1)+Imp(T2,M3)·A(T2)+Imp(T3,M3)·A(T3)
此处is,d等于Imp(Ts,Md)。
应注意,这还类似于上文先前所解释的线性方程组。
我们现在描述一种逐步算法,所述算法可以用于模拟具有“逐个分子”的定量实验。/>
应了解,在模拟结束时,我们有
即,开始状态中的初始丰度完全分布到理论(或估测)和所测量的光谱。
此特定算法依赖于已知的M完全,其中分布Pur(s0)立即反映了定量。然而,如下文所陈述,我们可以构造出这种分布为实际上未知的第二算法。
部分知识的马尔可夫链
如上文所提及,在实验设置中,仅给出所测量的峰M连同影响实验的杂质系数I。理论峰T在此之前是未知的。T的计算仍是有待解决的问题。由于概率分布Pur(s0)现在将是未知的,因此出于建模起见,将其替换成非确定性决策,从而产生部分知识的马尔可夫链或马尔可夫决策过程。
我们定义了马尔可夫决策过程其中S={s0,T1,T2,...,Tn,M1,M2,...,Mn}为所述组的状态,Pur:{s0}→Distr({T1,T2,...,Tn})为分配每个理论峰概率转换函数,因杂质而进入M中的特定后续状态的概率,s0为开始状态且Unkn为在s0开始时非确定性地选择理论峰的函数。此马尔可夫决策过程的结构以图形方式展示于图13中。此特定结构将已知的杂质因素建模为概率分布,但在s0开始时,现在未知的理论峰值为T1......Tn的非确定性选择。
的算法求解
我们现在可以构造出类似于方案1但在的情形下的算法,同时仍提供充分的精确度。对此,我们修改方案1以与丰度的“块”而非与单一分子一起作用。
应了解,以上算法中的步骤2和3一起形成Unkn操作。可以如何进行这些的实例如下。假设观测到的光谱SObs={O1,O2,...,On}具有其观测到的丰度A(Oj)。可以选择通道j,其中|Mj-Oj|是在算法的任何状态下所有通道上的极大值。步骤3中Δa的适合值可以取决于近似解应与可以通过求解线性方程组确定的精确解的接近程度。举例来说,如先前所陈述,如果Δa=A全部/1e06,那么解的精确度将为总光谱强度的1ppm。应了解,关于实际实验中的各种噪声源,解的精确度不需要超出实验的固有噪声水平。
下文在以下编号的段落(NP)中陈述各种实例
NP1:一种用于对所测量的质谱数据进行反卷积的方法,所述质谱数据包含至少两个分子部分的重叠的同位素模式,所述方法包含:
识别质谱数据内对应于分子部分的质量的多个质量通道;
通过用同位素数据块迭代填充质量通道来产生对所测量的质谱数据的模拟,其中每一块包含分子部分中的一个的同位素模式;
当质量通道满足指示模拟符合所测量的质谱数据的适合性标准时,终止模拟;和
基于用每个分子部分的同位素模式进行模拟的总填充量确定产生所测量的质谱数据的每个分子部分的量。
NP2:根据NP1的方法,其中在每一迭代处,用于填充的同位素数据块包含具有对应于质量通道的质量的分子部分的同位素模式,所述质量通道在模拟质谱数据与所测量的质谱数据之间具有最大强度差异。
NP3:根据NP1或NP2的方法,进一步包含如果填充导致模拟质谱数据的质量通道的强度高于所测量的质谱数据的质量通道的强度超过限定容差,那么拒绝来自模拟的填充。
NP4:根据任一前述NP的方法,其中所述适合性标准由以下中的任一个满足:
(i)当拒绝填充所有质量通道时;
(ii)当由同位素数据块贡献的总强度等于所测量的质谱数据或光谱中所有质量通道的强度的总和时;
(iii)当质量通道在模拟与等于或大于最小块大小的所测量的质谱数据之间不具有差异时;
(iv)当模拟的所有质量通道的强度与所测量的质谱数据相比在预限定最大容差内时
NP5:根据任一前述NP的方法,其中取决于所述方法的期望精确度选择每一块的大小。
NP6:根据任一前述NP的方法,其中每一块的大小为所测量的质谱数据中最强的测量峰Mp的0.1%到1%。
NP7:根据任一前述NP的方法,其中模拟包含用大小更大的同位素数据块开始填充,且当模拟接近所测量的质谱数据时减小块大小。
NP8:根据NP4的方法,其中所测量的质谱数据的噪声水平用于测定在模拟的适合性标准中使用的限定容差。
NP9:根据任一前述NP的方法,其中在用同位素数据块迭代填充质量通道之前,用所测量的质谱数据的已知背景强度预填充模拟。
NP10:根据任一前述NP的方法,其中分子部分为质量标签或源于质量标签的片段。
NP11:根据NP10的方法,其中分子部分为串联质量标签或源于串联质量标签的片段。
NP12:根据NP11的方法,其中分子部分为串联质量标签的质量报告子部分。
NP13:一种存储在计算机可读介质上的计算机程序,当由一或多个处理器执行时,所述计算机程序使得所述一或多个处理器执行任一前述NP的方法。

Claims (14)

1.一种包含重叠的同位素模式的质谱数据反卷积分析方法,其特征在于,所述方法包含:
接收表示各自具有相应同位素模式的至少两个分子部分的所测量的质谱数据,其中所述同位素模式中的至少两个重叠;
迭代填充一组质量通道以产生所述质谱数据的近似版本,所述迭代填充包含多个迭代,每一迭代包含根据选用于所述迭代的两个或更多个分子部分中的相应一个的所述同位素模式,用强度数据块填充所述质量通道中的一个或多个;
当满足指示所述质谱数据的所述近似版本符合所述所测量的质谱数据的适合性标准时,终止所述迭代填充,其中所述适合性标准由以下中的任一个满足:
(i)当拒绝填充所有质量通道时;
(ii)当由所述同位素数据块贡献的总强度等于所述所测量的质谱数据或光谱中所有质量通道的强度的总和时;
(iii)当质量通道在所述质谱数据的近似版本与等于或大于最小块大小的所述所测量的质谱数据之间不具有差异时;
(iv)当所述质谱数据的近似版本的所有质量通道的强度与所述所测量的质谱数据相比在预限定最大容差内时;并且
根据所述分子部分的所述相应同位素模式,基于总填充量确定产生所述所测量的质谱数据的每个分子部分的量。
2.根据权利要求1所述的方法,其中对于每一迭代,所述强度数据块包含各自对应于相应质量通道的强度组,其中根据所述强度数据的所述同位素模式按比例调整所述强度组。
3.根据权利要求1所述的方法,其中对于每一迭代,所述强度数据块是相应质量通道的强度,其中根据基于所述强度数据的所述同位素模式的概率分布选择所述相应质量通道。
4.根据权利要求1-3中任一项所述的方法,其中基于在所述迭代处的所述所测量的质谱数据与所述质谱数据的所述近似版本之间的偏差的量度来选择选用于每一迭代的所述分子部分。
5.根据权利要求1-3中任一项所述的方法,其中在每一迭代处,选择具有对应于所述质量通道的质量的所述分子部分,所述质量通道在所述质谱数据的所述近似版本与所述所测量的质谱数据之间具有最大强度差异。
6.根据权利要求1-3中任一项所述的方法,其进一步包含如果填充导致所述质谱数据的所述近似版本的质量通道的强度高于所述所测量的质谱数据的质量通道的强度超过限定容差,那么拒绝填充。
7.根据权利要求6所述的方法,其中所述所测量的质谱数据的噪声水平用于测定所述适合性标准中使用的所述限定容差。
8.根据权利要求1-3中任一项所述的方法,其中取决于所述方法的期望精确度选择每一块的大小。
9.根据权利要求1-3中任一项所述的方法,其中所述每一块的大小为所述所测量的质谱数据中最强的测量峰的0.1%到1%。
10.根据权利要求1-3中任一项所述的方法,其中当所述质谱数据的所述近似版本接近所述所测量的质谱数据时,每一迭代处的所述同位素数据块的大小减小。
11.根据权利要求1-3中任一项所述的方法,其中在用同位素数据块迭代填充所述质量通道之前,用所述所测量的质谱数据的已知背景强度预填充质量通道所述质谱数据的近似版本。
12.根据权利要求1-3中任一项所述的方法,其中所述分子部分为质量标签或源于质量标签的片段。
13.根据权利要求12所述的方法,其中所述分子部分为串联质量标签或源于串联质量标签的片段,任选地其中所述分子部分为串联质量标签的质量报告子部分。
14.一种计算机可读介质,其特征在于,包括在其上存储的计算机程序,当由一个或多个处理器执行时,所述计算机程序使得所述一个或多个处理器执行根据任一前述权利要求所述的方法。
CN202010465120.4A 2019-05-31 2020-05-27 包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质 Active CN112017734B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1907792.4 2019-05-31
GBGB1907792.4A GB201907792D0 (en) 2019-05-31 2019-05-31 Deconvolution of mass spectromerty data
EP19189886.5 2019-08-02
EP19189886.5A EP3745443A1 (en) 2019-05-31 2019-08-02 Deconvolution of mass spectrometry data

Publications (2)

Publication Number Publication Date
CN112017734A CN112017734A (zh) 2020-12-01
CN112017734B true CN112017734B (zh) 2023-12-12

Family

ID=67385944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465120.4A Active CN112017734B (zh) 2019-05-31 2020-05-27 包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质

Country Status (4)

Country Link
US (2) US11295940B2 (zh)
EP (1) EP3745443A1 (zh)
CN (1) CN112017734B (zh)
GB (1) GB201907792D0 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201907792D0 (en) * 2019-05-31 2019-07-17 Thermo Fisher Scient Bremen Gmbh Deconvolution of mass spectromerty data
US20210215651A1 (en) * 2020-01-15 2021-07-15 Chevron U.S.A. Inc. Estimating unknown proportions of a plurality of end-members in an unknown mixture
CN115662500B (zh) * 2022-10-21 2023-06-20 清华大学 通过计算机模拟替换相近质量同位素区分聚糖结构异构体的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103718036A (zh) * 2011-03-11 2014-04-09 莱克公司 在色谱系统中处理数据的方法
CN104237364A (zh) * 2013-06-07 2014-12-24 塞莫费雪科学(不来梅)有限公司 同位素模式识别
CN104807875A (zh) * 2014-01-29 2015-07-29 布鲁克道尔顿有限公司 混合物中生物聚合物碎片离子质谱采集
CN107807198A (zh) * 2016-09-09 2018-03-16 塞莫费雪科学(不来梅)有限公司 用于鉴定各种分子的单同位素质量的方法
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0006141D0 (en) 2000-03-14 2000-05-03 Brax Group Ltd Mass labels
DE10344239A1 (de) 2003-09-23 2005-04-14 Thermo Electron (Bremen) Gmbh Verfahren zur Bestimmung von atomaren Isotopenmassen
US7105806B2 (en) 2003-11-26 2006-09-12 Applera Corporation Method and apparatus for de-convoluting a convoluted spectrum
US7781729B2 (en) * 2006-05-26 2010-08-24 Cerno Bioscience Llc Analyzing mass spectral data
EP2558979B1 (en) * 2010-04-15 2021-01-13 Micromass UK Limited Method and system of identifying a sample by analyising a mass spectrum by the use of a bayesian inference technique
CA2887908C (en) * 2012-10-22 2022-06-21 President And Fellows Of Harvard College Accurate and interference-free multiplexed quantitative proteomics using mass spectrometry
US20160181076A1 (en) * 2014-12-18 2016-06-23 Thermo Finnigan Llc Tuning a Mass Spectrometer Using Optimization
GB201907792D0 (en) * 2019-05-31 2019-07-17 Thermo Fisher Scient Bremen Gmbh Deconvolution of mass spectromerty data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103718036A (zh) * 2011-03-11 2014-04-09 莱克公司 在色谱系统中处理数据的方法
CN104237364A (zh) * 2013-06-07 2014-12-24 塞莫费雪科学(不来梅)有限公司 同位素模式识别
CN104807875A (zh) * 2014-01-29 2015-07-29 布鲁克道尔顿有限公司 混合物中生物聚合物碎片离子质谱采集
CN107807198A (zh) * 2016-09-09 2018-03-16 塞莫费雪科学(不来梅)有限公司 用于鉴定各种分子的单同位素质量的方法
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Craig R. Braun等.Generation of Multiple Reporter Ions from a Single Isobaric Reagent Increases Multiplexing Capacity for Quantitative Proteomics.analytical chemistry.2015,第87卷(第19期),9855-9863. *
Ryan Peckner等.Specter: linear deconvolution for targeted analysis of data-independent acquisition mass spectrometry proteomics.nature methods.2018,第15卷(第5期),1-8. *

Also Published As

Publication number Publication date
US20220277944A1 (en) 2022-09-01
US20200381232A1 (en) 2020-12-03
US11764044B2 (en) 2023-09-19
GB201907792D0 (en) 2019-07-17
US11295940B2 (en) 2022-04-05
CN112017734A (zh) 2020-12-01
EP3745443A1 (en) 2020-12-02

Similar Documents

Publication Publication Date Title
CN112017734B (zh) 包含重叠的同位素模式的质谱数据反卷积分析方法和计算机可读介质
Domingo-Almenara et al. Annotation: a computational solution for streamlining metabolomics analysis
Ràfols et al. Signal preprocessing, multivariate analysis and software tools for MA (LDI)‐TOF mass spectrometry imaging for biological applications
Karpievitch et al. Normalization and missing value imputation for label-free LC-MS analysis
Dowsey et al. Image analysis tools and emerging algorithms for expression proteomics
EP1745500B1 (en) Mass spectrometer
CN113785362A (zh) 质谱数据中边界的自动检测
Sun et al. BPDA-a Bayesian peptide detection algorithm for mass spectrometry
Sun et al. BPDA2d—a 2D global optimization-based Bayesian peptide detection algorithm for liquid chromatograph–mass spectrometry
CN109964300B (zh) 用于实时同位素识别的系统和方法
Yuan et al. Features‐based deisotoping method for tandem mass spectra
Agten et al. A compositional data model to predict the isotope distribution for average peptides using a compositional spline model
Ranjbar et al. Bayesian normalization model for label-free quantitative analysis by LC-MS
EP4102509A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
Li Dpnovo: A deep learning model combined with dynamic programming for de novo peptide sequencing
CN117007724B (zh) 一种基于云计算的高效液相串联质谱分析系统
US11796518B2 (en) Apparatus and method for processing mass spectrum
Sellers et al. Feature detection techniques for preprocessing proteomic data
TAECHAWATTANANANT Peak identification and quantification in proteomic mass spectrograms using non-negative matrix factorization
Goldfarb ANALYSIS AND SIMULATION OF TANDEM MASS SPECTROMETRY DATA
Bossenbroek Automatic Proteoform Detection in Top-Down Mass Spectrometry
CN116741280A (zh) 基于数据微调的深度质谱预测方法、系统、设备及介质
Hu Regression models to Detect and Quantify Peptides from Mass Spectra
Sun Model-based biomarker detection and systematic analysis in translational science
Noy et al. Robust estimation and graph-based meta clustering for LC-MS feature extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant