CN105606742A - 用于色谱-质谱数据集的时间对准的方法 - Google Patents

用于色谱-质谱数据集的时间对准的方法 Download PDF

Info

Publication number
CN105606742A
CN105606742A CN201510779121.5A CN201510779121A CN105606742A CN 105606742 A CN105606742 A CN 105606742A CN 201510779121 A CN201510779121 A CN 201510779121A CN 105606742 A CN105606742 A CN 105606742A
Authority
CN
China
Prior art keywords
data
point
data set
feature
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510779121.5A
Other languages
English (en)
Other versions
CN105606742B (zh
Inventor
S·库什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thermo Fisher Scientific Bremen GmbH
Original Assignee
Thermo Fisher Scientific Bremen GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thermo Fisher Scientific Bremen GmbH filed Critical Thermo Fisher Scientific Bremen GmbH
Publication of CN105606742A publication Critical patent/CN105606742A/zh
Application granted granted Critical
Publication of CN105606742B publication Critical patent/CN105606742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8665Signal analysis for calibrating the measuring apparatus
    • G01N30/8668Signal analysis for calibrating the measuring apparatus using retention times
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Engineering & Computer Science (AREA)
  • Plasma & Fusion (AREA)

Abstract

本发明涉及一种用于调整色谱-质谱数据集、特别是液相色谱-质谱数据集的时间标度的方法,其中第一数据集的时间标度用作参比时间标度并且其中至少一个第二数据集的时间标度被适配于该参比时间标度,该方法包括以下步骤:通过评价该第一数据集的连续点的强度识别该第一数据集中的特征组,这些特征组包括至少两个特征,通过评价该第二数据集的连续点的强度识别该第二数据集中的特征组,这些特征组包括至少两个特征,将该第一数据集的特征组与该第二数据集的特征组匹配,并且基于该第一数据集中的特征组与该第二数据集中的匹配特征组之间的时间差值确定该第二数据集的修正的时间标度。

Description

用于色谱-质谱数据集的时间对准的方法
发明领域
本发明涉及用于调整色谱-质谱数据集的时间标度的方法。此外,本发明涉及数据处理装置和质谱系统。
发明背景
电离法的发展如电喷雾离子化由溶剂流携带的样品允许将质谱法应用到生物学并且特别是处于细胞水平的详细的过程分析,如在Patterson和Aebersold的文章(自然遗传学增刊(naturegeneticssuppl.),33,311(2003))中讨论的。对于含有多种单独的分子的复杂样品的分析,液相色谱法经常用于分离不同的分子(根据它们的保留时间,即,从将该样品注入色谱柱到洗脱相应的分子的时间(保留时间也可以称为洗脱时间))。
生物质谱法中的单一的实验总体上要求测量大量的色谱-质谱数据集,这些数据集含有具有不同的质荷比(m/z)和保留时间的离子的强度或丰度。这些二维谱通过以有规律的保留时间间隔进行质量扫描来测量;示例数据集在图2a)中示出;为了简单起见,仅绘制了离散的数据点的二维场的水平迹线。二维谱的水平切片产生质量色谱图,表明在特定的质/荷范围内作为保留时间的函数的离子的测量的强度,而二维光谱的垂直切片是质谱图,表明在特定的保留时间间隔下具有不同的质荷比的离子的测量的强度。化合物的存在由强度的局部极大值,称为特征(或峰)表明。单一特征可以跨越若干个保留时间扫描间隔和若干个质/荷值(至少对于高分辨率质谱仪)。
尤其在代谢组学中,其中检测药物对有机体的影响,需要总结或比较多个色谱-质谱数据集,例如样品谱与参比谱的比较,或在给予特定的药物之后在不同的时间下测量的谱的比较。对应的谱之间的这些比较由于以下而变得困难:在总体上相同的实验设置下测量的谱的保留时间由于多种原因偏移,如柱化学随时间推移的变化、仪器漂移或样品组分之间的相互作用。
为了补偿时间标度上的这些漂移,用于调整色谱-质谱数据集的时间标度的多种方法是已知的。总体上,这些方法包括以下步骤:在有待对准的两个数据集中找到类似的特征,将第一数据集的特征与第二数据集的特征进行匹配,针对在匹配特征之间的保留时间的差值调整偏移函数,并且根据该偏移函数相对于该第一数据集偏移该第二数据集的数据点以便使这些保留时间同步。
WO03/095978A2披露了用于将至少两个色谱-质谱数据集(每个包括多个质量色谱图)进行时间对准的计算机实施的方法,通过依靠来自每个数据集的至少两个质量色谱图计算在所述数据集之间的距离函数并且对准所述数据集(通过最小化所述距离函数以便获得对准的数据集)。
与保留时间对准类似的方法也描述于Mueller等人的蛋白质组学(Proteomics)7(2007),3470-3480和Silva等人的分析化学(Anal.Chem.)77(2005),2187-2200的文章中。
这些方法依靠考虑大量的匹配的特征,这使得它们是计算上昂贵的;它们还仍然易于系统误差。
针对此背景,本发明的目标是提供对应的色谱-质谱数据集的时间标度的可靠调整。
发明概述
根据本发明的一个方面,提供一种用于调整色谱-质谱数据集、特别是液相色谱-质谱数据集的时间标度的方法,其中第一数据集的时间标度用作参比时间标度并且其中至少一个第二数据集的时间标度被适配于该参比时间标度,该方法包括以下步骤
通过评价该第一数据集的连续点的强度识别该第一数据集中的特征组,每个特征组包括至少两个特征,
通过评价该第二数据集的连续点的强度识别该第二数据集中的特征组,每个特征组包括至少两个特征,
将该第一数据集的识别的特征组与该第二数据集的识别的特征组匹配,并且
基于该第一数据集中的特征组与该第二数据集中的匹配特征组之间的时间差值确定该第二数据集的修正的时间标度。
连续点之间的时间差值优选地位于给定的时间间隔内;最小的时间间隔特别由测量速率的倒数给出,而最大的时间间隔可以例如基于使用的样品、溶剂或色谱柱进行选择。数据集优选地含有在质荷比区间和保留时间区间内的数据点阵列。该数据集可以含有轮廓模式(profilemode)谱,即在预定义的保留时间区间内进行的质量扫描,或预处理的数据,特别是质心模式谱,其中在用于固定的保留时间位置的质量扫描中,局部最大值的强度通过针对质/荷比扫描调整质心来确定以便确定峰的中心来确定;具体地,对于每个保留时间区间可以给出峰清单。在该清单中的峰总体上是在固定的保留时间间隔下在定义的质荷比范围内的强度上的局部最大值。当质荷比差值和/或强度差值或相邻峰之间的强度比符合一个或多个条件时,出现在相同保留时间的若干特征(在给定的公差内)可以形成特征组。优选地,第一数据集中的特征组与第二数据集中的匹配特征组之间的时间差值基于相应的数据集中的特征组的时间位置来确定。特征组的位置可以特别地基于该组中的特征的平均位置来确定。
当确定包括多个相关特征的匹配特征组时,与单特征的匹配相比假阳性的可能性显著降低。其结果是,每个找到的匹配是更可靠的,并且稳健的回归函数可以基于较少的点。相比之下,当尝试自动地对准不同的数据集时,当保留时间差值超出预定义的容许区间的范围发生时,单独特征的匹配可能导致失败。与所有发现的单一特征或峰的强力匹配相比,基于特征组的匹配的保留时间对准是更稳健的并且更计算上有效的。
优选地,识别特征组包括通过确定数据集中的最陡上升的点来识别特征,尤其基于三个或更多个连续数据点之间的强度差值,其中特别地所考虑的数据点通过总和或平均在给定的质荷比间隔和给定的保留时间内的数据点的强度来确定。有利地,最陡上升的点的位置对抗小的信号波动是稳健的。原则上,其他峰识别方法可以用于识别特征,如本领域已知的。
根据本发明的优选实施例,这些数据点在给定的质荷比间隔的连续数据点的迹线中进行评价,优选地通过总和或平均在该给定的质荷比间隔内的这些数据点,其中特别地并行评价覆盖整个数据集的迹线以识别特征。当预处理的数据集含有峰清单时,求和不是必需的;为了检测特征,连续峰是其中心位置的差值小于给定的公差的那些峰。
在本发明的优选的实施例中,当满足以下标准中的一个或多个、优选地全部时,识别特征和/或将点确定为最陡上升的点:
·该最陡上升的点与该紧接着的上一个点之间的每保留时间差值的强度差值以及该紧接着的下一个点与该最陡上升的点之间的每保留时间差值的强度差值二者都大于预定阈值
·对于在该最陡上升的点之前的预定义的第一时间间隔内的数据点,强度高于预定义的阈值和/或单调地上升
·对于该数据集中的至少一个随后的点,强度小于或等于在该最陡上升的点处的强度。
该预定义的第一时间间隔可能局限于连续数据点之间的保留差值的一倍或两倍。
可能优选的是需要满足另外的标准或条件以便识别特征;具体地,仅当与前一识别的特征的时间差值高于预定义的阈值时可以识别特征。此外,可以定义特征的最小宽度,特别是最陡上升的点与具有较低或相等强度的返回点之间的数据点的最小数目。优选地,对于包括多个具有相同斜率的相邻点的数据集,基于具有最早时间位置的最陡上升的点识别特征。
优选地,基于由该最陡上升的点和返回点界定的时间间隔内的一个或更多个点确定该特征的时间位置,其中该返回点是在该最陡上升的点之后的第一个点,该点的强度在给定的公差内等于该最陡上升的点的强度。具体地,特征的时间位置或保留时间位置基于该特征的最陡上升的点与返回点之间的间隔内的点的平均值或中值确定。可替代地,该时间位置可以基于将质心与那个时间间隔进行拟合或通过选择最大强度的点作为该特征的时间位置来确定。为了确定该返回点,可以进行具有比该最陡上升的点更高和更低强度的相邻点之间的内插。在另一个替代方案中,可以将具有比该最陡上升的点更低强度的第一随后的点视为该返回点。
优先地,识别数据集中的特征组的步骤包括将特征分组,其中当满足一个或多个预定义的条件时,将在预定义的时间间隔内具有位置的特征分组在特征组中。在特别优选的实施例中,特征组对应于分子的同位素模式。
尤其优先地,当在该预定义的时间间隔内识别至少三个特征并且从第一特征到第二特征的质荷比差值在给定的公差内等于从该第二特征到第三特征的质荷比差值时,满足预定义的条件。质量差值的公差允许识别出对应的峰,尽管稍微不同的质量亏损。对于给定的公差,可以选择固定值;可替代地,该给定的公差可以改变,取决于归因于对应于该特征组的离子的电荷。
尤其优先地,当在该预定义的时间间隔内识别至少三个特征并且至少三个特征的强度比对应于预定义的模式时,满足预定义的条件。可以例如将该预定义的模式选择为使得对应于最低质量的特征具有最高的强度;中间的特征优选具有中等的强度并且对应于最高质量的特征具有最低的强度。因此,已知的同位素模式可以被考虑在内以便避免假阳性,即无关特征的分组。
尤其优先地,将特征分组包括识别在该预定义的时间间隔内具有最大强度的特征和识别具有较高或较低质荷比的一个或多个特征,这样使得该质荷比的差值在给定的公差内是在预定义的质荷比间隔内。可以根据1/z选择间隔,其中z指示离子的电荷状态;具体地,当搜寻具有比具有最大强度的特征更高或更低质荷比的另外的特征时,测试对应于最高达例如3的z最大的电荷状态的所有间隔。
优选地,确定修正的时间标度包括针对该第一数据集中发现的特征组与该第二数据集中发现的特征组之间的时间差值调整预定义的函数。该预定义的函数可以是线性函数;可替代地,对于每个数据点可以给出单独的修正值。
尤其优选地,该预定义的函数由局部定义的函数构成和/或该预定义的函数的调整方法是支持向量回归或局部加权散点图平滑。局部定义的适合的函数允许灵活的调整并且在给定的间隔内可以经受平滑。优选地,该预定义的函数是无模式的。样条函数(spline)可以用于表示该预定义的函数。
优选地,使多于两个数据集对准,并且该对准是至少部分地或最初成对地进行,这样使得在第一步骤中,使从属的数据集与中间的参比数据集对准,并且在进一步的步骤中,包括该中间参比数据集和该从属的数据集的多个数据集与主要的参比数据集对准。多个从属数据集可以参考该中间的参比数据集;在随后的步骤中,中间的参比数据集和该多个从属数据集二者参考该主要的参比数据集。可以使用多于一个中间的参比数据集。可替代地,多个从属数据集可以直接参考该主要的参比数据集。
尤其优选地,根据该数据集的测量时间和/或用于比较两个数据集的相似性指数选择该成对对准的顺序。具体地,随后的数据集可以与紧接着的上一个数据集对准,因为这增加了对应特征的可能性。相似性指数可以例如基于匹配特征或特征组的数目和/或数据集中的对应特征之间累积的谱距离确定。
根据本发明的另一个方面,提供一种数据处理装置,该装置包括适配为处理色谱-质谱数据集的处理器单元、用于保存和/或检索色谱-质谱数据集的存储单元和非易失性存储器,该非易失性存储器含有用于该处理器单元的指令以便进行本发明的方法。该数据处理装置可以作为单一计算机来实现或呈分布的形式,该分布的形式具有通过无线和/或有线和/或基于光纤的网络互连的多个处理装置。进一步,该处理器单元可以含有多个合为一体的处理器核或若干个互连的单元。
根据本发明的另一个方面,提供一种质谱系统,该系统包括液相色谱柱、具有联接到该液相色谱柱的电喷雾离子源的质谱仪、以及数据处理装置。
实施例的详细说明
为了进一步理解本发明,现在将参考附图通过举例详细地描述实施例,这些实施例仅用于说明并且不旨在并且不会限制本发明的范围。
附图清单
图1示出质谱系统的示意图,该系统包括联接到液相色谱-电喷雾离子源和数据处理装置的质谱仪。
图2a)示出数据集的简化图,该图表示由质谱装置测量的二维谱,并且图2b)示出测量的质量色谱图的示例细节。
图3示出具有根据本发明的方法的优选实施例的步骤的示意图。
图4a)示出有待对准的两个示例数据集的抽取部分(extracts)的简化图,并且图4b)示出强度模式的对应实例。
图5a)示出两个数据集中的匹配特征之间的保留时间的偏差的示例图并且图5b)示出对准前后第一数据集与第二数据集的对应迹线之间的直接比较。
参考图1,示出了质谱系统的优选实施例,该系统包括质谱仪1(利用静电阱20,呈OrbitrapTM轨道俘获质量分析器的形式)、数据处理装置30和液相色谱装置21(连接到在大气压下运行的电喷雾离子源2);将从色谱柱洗脱的样品注入该电喷雾离子源。
来自电喷雾离子源2的离子通过转移毛细管3到达堆叠环形离子导向器(S-透镜)4并且然后通过注射flatapole6和弯曲的flatapole8。中性团簇和液滴可能不受阻碍地飞过该弯曲的flatapole的杆之间的间隙并且因此对被测信号没有贡献。该S-透镜到该弯曲的flatapole的区域中的压力典型地是1-10毫巴,这样使得一定程度的碰撞冷却发生在该弯曲的flatapole中。呈快速分裂透镜(splitlens)形式的离子门10控制离子进入仅RF传输多极杆12,该多极杆在示出的实施例中是八极杆并且典型地保持在小于10-4毫巴的压力下。在优选的替代性实施例中,传输多极杆12是至少部分地实施为四极滤质器,因此允许非常快的质量选择,并且可能进一步包括一个或两个另外的透镜和/或另外的flatapole。
从该传输多极杆,这些离子进入C-阱14,该C-阱典型地在其中具有(0.1-4.0)×10-3毫巴(例如5×10-4毫巴)的压力。任选地,为了进一步冷却,这些离子可能通入气体填充的死端更高能碰撞解离(HCD)池16,该池包括RF多极杆,典型地具有(1-20)×10-3毫巴(例如5×10-3毫巴)的压力。从那里,这些离子返回进入该C-阱。为此目的,该HCD池配备有轴向场,例如通过在HCD背后提供减速电压。该HCD池通过单一隔膜与该C-阱隔开,这允许容易调整该HCD池。如果需要,施加到该HCD池的RF和轴向场可以设置为在其中提供离子的碎裂。该HCD池允许更好的俘获同时维持该C-阱以及因此轨道阱质量分析器中的一定压力,因为该HCD池是i)更长的并且ii)处于比该C-阱更高的压力下。将离子从该C-阱注入轨道阱质量分析器20中。
该轨道阱隔室中的真空优选地低于7×10-10毫巴,尽管可以使用最高达2×10-9毫巴的压力。更大、更慢的离子的m/z可以在该轨道阱质量分析器中的此类压力下确定,这可能由于总的行进道路随着质量降低得比平均自由道路随着质量增加得快。在该轨道阱质量分析器中的离子数优选地通过以下来自动地控制(自动增益控制):在分析扫描之前使用短的预扫描测量总的离子电荷并且从该总的离子电荷计算用于分析扫描的离子注入时间。对于高的扫描速率,先前的分析扫描可以用作预扫描以便优化扫描周期时间。另外或可替代地,离子收集器17可以置于HCD碰撞池后面并且用于独立的电荷检测,其周期性地(例如每5-10秒)检查并且调整该自动增益控制的精确度。通过在该轨道阱质量分析器中的镜像电流检测的瞬态在数据处理装置中使用傅里叶变换将瞬态信号转化成频率分量以及然后m/z来进行处理。
虽然上述质谱装置含有轨道捕获型的质量分析器,将领会的是也可以使用其他质量分析器,例如基于飞行时间测量或在扇形场中的不同质量的物理分离或质量依赖损失如在四极杆仪器中。进一步,滤质器、碰撞池和质量分析器的确切的设置或组合可以改变;对于一些静电阱仪器,连续应用适当的电压可能替代质谱分析的不同阶段,这些阶段在其他仪器中是物理上分开的。
液相色谱装置包括样品储器22、高压泵23和柱24。为了简单起见,液相色谱装置的另外的元件如自动进样器或阀未示出。
数据处理装置30包括仪器接口,处理器单元和存储单元,该仪器接口被适配为对质谱仪1和液相色谱装置21发送命令或对其进行操作并且接收来自该仪器的测量的数据或状态信息。数据处理装置30与质谱仪1和/或液相色谱装置21之间的连接可以通过电线或玻璃纤维建立或无线地经由无线通信建立。优选地,该数据处理装置进一步包括可视化器件,特别是显示器和/或印刷机,以及交互器件,特别是键盘和/或鼠标,这样使得用户可以查看和输入信息。
该数据处理装置可以作为标准个人计算机来实现或呈分布的形式,该分布的形式具有通过有线网络或无线网络互连的多个处理装置,这样使得该处理器单元可以含有多个合为一体的处理器核或若干个互连的单元。用于处理这些数据的功能优选地用面向对象的编程语言如C#或C++实施;框架如.Net可以使用。将存储单元被适配为存储测量的数据集并且优选地包括以电荷形式保存信息的存储器装置,如随机存取存储器,和/或以磁畴形式保存信息的存储器装置,如硬盘驱动器。优选地,色谱-质谱数据集存储为在存储单元的文件系统中的文件夹的单一文件。当该数据处理装置包括可视化器件和交互器件时,该质谱装置的操作优选地通过图形用户界面(GUI)控制。
图2a)示出色谱-质谱数据集的简化图,该图表示如以上所描述的质谱装置中测量的二维谱。该数据集以投影的形式绘制,其中质荷比m/z沿着y轴变化并且保留时间RT沿着x轴变化;检测器信号的强度作为沿着z轴的高度示出。为了简单起见,仅示出预定义的m/z间隔的积分强度的迹线。在测得的数据集中,相邻迹线之间的距离可以通过仪器质量分辨率Δm/z给出。
在图2b)中,示出了测得的质量色谱图的示例细节,其中信号强度(对应于离子的丰度)作为保留时间RT的函数示出。为了表明质谱的离散测量,该迹线作为一系列离散点示出。可以预处理色谱-质谱数据集,这样使得它们含有对于每个保留时间间隔处于不同质荷比的峰的清单。
特征,即迹线中的洗脱峰,是基于连续点的评价检测的。优选地,特征的识别和其位置的确定是基于最陡上升的点进行的。最陡上升的点可以通过评价连续点之间的强度差值迭代地确定。
具体地,当满足以下标准中的一个或多个、优选地全部时,可以识别特征和/或可以将点确定为最陡上升的点:
·该最陡上升的点与该紧接着的上一个点之间的强度的差值以及该紧接着的下一个点与该最陡上升的点之间的强度的差值二者都大于在固定的光栅中的点的预定阈值;对于具有可变距离的数据点,优选地评价每时间距离的强度差值。
将紧接着该最陡上升的点之前的斜率和直接在该最陡上升的点之后的斜率与预定阈值进行比较。优选地,该预定阈值具有恒定值;具体地,该值可以是零。根据本发明的特别优选的实施例,迭代地评价整条迹线。满足此斜率标准的第一点选作最陡上升的点;当在满足其他标准之前发现具有较高前一斜率和较高随后斜率二者的点时,此点选作最陡上升的点。
·对于在该最陡上升的点之前的预定义的第一时间间隔内的数据点,强度高于预定义的阈值和/或不含有局部最小值。
检查在最陡上升的点之前的足够的信号强度减少在迹线的低强度区域中由于统计噪音造成的错误峰检测的可能性。在图2b)的实例中,该预定义的阈值由I0表示。在迹线中绘制的第一峰不被识别为特征,因为该峰之前的强度太低。强度标准的预定义的时间间隔可以不同于单调上升条件的时间间隔;具体地,它可以是更长的。
排除接近于该强度的局部最小值的区域限制了识别的特征的密度;在示出的实例中,此标准不适用(进行检查)。
·对于该数据集中的至少一个随后的点,强度小于或等于在该最陡上升的点处的强度。
为了确定返回点,即具有与该最陡上升的点相同强度的点,相邻点之间的强度的内插可能是有利的。可替代地,当后一个点具有较低的强度时,具有比该最陡上升的点的强度更高的强度的最后一个点可以选作返回点。在图2b)的实例中,点201被确定为最陡上升的点;此点的时间位置由Tp指示并且强度由Ip表示。返回点202具有相同的强度(在给定的公差内)和时间位置Tr
特征的位置可以被确定为该最陡上升的点的时间坐标。可替代地,该特征的位置可以基于该最陡上升的点和该返回点的位置来确定。在示出的实例中,该特征的位置Tf通过平均Tp和Tr来确定。
图3示出具有根据本发明的方法的优选实施例的步骤的示意图。
在步骤301中,确定对准顺序。根据本发明的一个实施例,该对准顺序由用户确定并且以树形式存储;当将这些数据集与共同的时间标度对准时,这允许将用户关于不同数据集之间的关系的知识考虑在内。具体地,可以提供图形用户界面用于输入希望的对准顺序。
根据本发明的可替代的实施例,进行对准顺序的自动确定;优选地,对于在连续时间段T1至TN中测量的数据集,将数据集TN与紧接着的上一个数据集TN-1对准。然后将组合的数据集与紧接着的上一个数据集TN-2对准。优选地,该对准程序迭代地进行直到所有的文件与第一数据T1对准。此策略特别适用于仪器的慢漂移,其中数据集TN相对于数据集TN-1仅稍微偏移,但是可能相对于第一数据集T1显著偏移。
根据本发明的另一个可替代的实施例,基于这些文件的相似性指数和/或另外的研究变量如用于测量该数据集的样品或仪器的特性确定该对准顺序。相似性指数可以例如基于两个数据集之间的匹配的数目确定。优选地,对准具有最高匹配特征组数目的数据集。
在步骤302中,基于该确定的对准顺序,选择一对数据集用于对准。不同的色谱-质谱数据集可以在数据处理装置的文件系统中存储为单独的文件。
在所选择的数据集中的特征组的识别在步骤303中进行。可以如上讨论的确定特征(参考图2b))。对具有相同保留时间(在给定的公差内)的特征进行特征分组。具体地,可以通过位置和最大强度(如在质量-峰-清单中给出的)识别特征。优选地,具有预定义的质荷比差值和预定义的强度模式的特征被分组;这样的组可以具体地对应于分子/离子的同位素模式。
同位素模式中的相邻特征之间的差值取决于该离子的电荷状态z。优选地,对于具有预定义的质荷比差值(在给定的公差内)的特征扫描识别的特征的清单。此差值可以由1/z给出,并且可以预定义该电荷状态的最大值(如3)。
根据本发明的特别优选的实施例,从具有最小质荷比的特征开始,将具有对应的质荷比差值的特征的强度与同位素模式的预期强度进行比较。优先地,选择该同位素模式,使得具有最低m/z值的特征具有最高的强度,并且具有较高m/z值的对应特征具有较小的强度。原则上,任意的同位素模式/强度比可以被预定义;这允许将特定元素的同位素模式考虑在内。
根据本发明的可替代的特别优选的实施例,从具有最高强度的特征开始,可以搜寻具有预定义的强度比(相对于最强特征)的邻近特征。
在步骤304中,使该选定对中的第一数据集的特征组与第二数据集的特征组匹配。以下将结合图4给出特征组匹配的详细讨论。
基于这些匹配的特征组,对于第二数据集的时间标度的修正在步骤305中确定。优选地,确定并且存储该第一和第二数据集中的匹配特征组之间的时间差值。针对所存储的差值调整预定义的函数。该预定义的函数可能是多项式、局部定义的函数或可能对于单独的点给出,优选地与点之间的内插组合。针对所确定的差值调整预定义的函数可以使用原则上任意已知的用于散点图曲线拟合的算法进行。在本发明的优选的实施例中,支持向量回归算法可以用于该调整;示例性实施方式呈现在例如http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf中。可替代地,算法如局部加权散点图平滑可以使用。原则上,可以使用任意拟合算法和预定义的函数。
在步骤306中,根据所确定的修正偏移第二数据集的时间标度。基于调整过的预定义的函数计算该第二数据集中的数据点的新的时间坐标。此外,可以基于具有调整过的时间标度的第一数据集和第二数据集的总和强度或平均强度计算合并的数据集。
步骤307含有检查对准是否是完全的;当所有的数据集与主要的参考数据集对准时就是这种情况。否则,在步骤302中选择新的数据集对并且该方法继续直到所有的数据集具有修正的时间标度。
总体上,可以使用这些步骤的不同顺序;例如在这些数据集之一或全部中的特征可以在第一步骤中识别并且对于每个数据集可以存储特征清单。使用该选定的数据集对的特征清单成对地进行匹配。这最小化了计算开支和已经计算的结果的重新计算。
参考图4,第一与第二数据集之间的特征组的匹配将进行讨论;第一数据集的细节绘制在该图的左侧,而第二数据集的细节绘制在该图的右侧。图4a)示出有待对准的两个示例数据集的抽取部分的简化图,并且图4b)示出对应于分子的同位素模式的相应强度模式的实例。第二数据集的时间标度总体上相对于第一数据集偏移未知量。
在图4a)中,示出质荷比m/z和保留RT的间隔,其含有多个识别的特征;每个特征绘制为矩形,该矩形由最陡上升的点和对应的返回点界定。该第一数据集的抽取部分401包括与该第二数据集的抽取部分402相同的质荷比间隔和类似的(但是可能是偏移的)保留时间间隔。四个特征,F11、F21、F31和F41存在于该第一数据集中并且共享共同的保留时间间隔。
图4b)示出识别的特征的强度I,取决于其质/荷(m/z)中心位置。对应于401中指示的切割绘制该第一数据集的抽取部分403。特征F11具有最低的m/z值和最高的强度I11;特征F21具有较高的m/z值和较低的强度I21;特征F31和F41具有相应的较高的m/z值和较低的I31和I41;特征F11与F21之间的m/z值差值是1/z(在δ的公差内),表明单电荷离子。在±δ的容许区间内,特征F31也在相对于F11的1/z距离内;其结果是,两个特征中的任一个可能是同位素模式的一部分。特征F41与F21或F31之间的m/z值的差值也是1/z(在给定的公差内);可替代地,人们可以确定特征F41与F11之间的m/z值的差值是2/z或总体上n/z(其中n为整数)。因此,特征F11、F21、F31和F41关于质荷比差值符合预定义的条件。此外,它们关于强度比(即强度随着增加质荷比单调地降低)符合预定义的条件。其结果是,这四个特征被分组在特征组中(由图4a)中的环绕的虚线矩形表示)。
图4a)中的第二数据集的抽取部分402含有三个识别的特征F12、F22和F32,这些特征绘制为矩形,这些矩形由最陡上升的点和相应的返回点限定。在下面,示出对应于402中指示的切割的该第二数据集的抽取部分404。对于单电荷离子,在给定的公差δ内,m/z值的差值符合1/z标准。进一步,强度I12(特征F12的)、I22(特征F22的)和I32(特征F32的)遵守随着质/荷值增加强度降低的预定义的标准。其结果是,特征F12、F22和F32被分组(该分组的特征由图4a)中的虚线矩形表示)。
为了确定第一数据集和第二数据集的匹配特征组,将该第一数据集的组中的特征的质/荷中心位置与该第二数据集的组中的特征的质/荷中心位置进行比较。确定这些特征组的相似性的优选的得分。具体地,相似性得分可以基于具有相同位置(在预定义的容许区间内)的峰的数目得到。对于当前的实例,3的相似性得分将产生自这些特征组的比较,因为发现F11和F12、F21和F22、F41和F32具有相同的位置,而没有对应于F31的特征存在于第二数据集中。
优选地,将该相似性得分与预定义的阈值,特别是2进行比较。对于当前实例,该得分高于该阈值;其结果是,在该第一和第二数据集中的特征组被确定为匹配特征组。对于确定修正的时间标度,将在该第一和第二数据集中的匹配特征组之间的保留时间位置的差值考虑在内。
在可以识别出特征组的匹配之前可以检查另外的条件。具体地,该第二数据集中的峰之间的强度比的值可能需要与该第一数据集中的峰(具有对应的m/z距离)之间的强度比的值是相同的(在给定的公差内)。
图5a)示出两个数据集中的匹配特征之间的保留时间上的偏差的示例图。在该图中,该第一数据集中的特征组与该第二数据集中的匹配特征组之间的保留时间的差值以保留时间的函数示出。针对匹配特征组的确定的位置差值的散点图调整预定义的函数。该预定义的函数是连续的和光滑的,呈现出负的保留时间差值(在约5分钟保留时间附近具有最大绝对值);对于7分钟及以后的时间,该函数接近于零。从该图可以看出,大部分的点接近该调整函数并且离群值的数目是相对小的。其结果是,修正很好地表示数据,并且可以进行修正的时间标度的稳健和可靠的确定。
图5b)示出了对准前后的第一数据集和第二数据集的对应的迹线之间的直接比较。在该图中,强度作为在5分钟与8分钟保留之间的保留时间的函数绘图,即在上图中的强负偏差的区域中。第一数据集(参比数据集)的迹线作为实线示出;在该第二数据集的时间标度与该第一数据集的时间标度对准之前,第二数据集的对应迹线作为点线示出并且在对准之后作为短划线示出。数据集的对应的特征示出显著改进的匹配。这允许更好的视觉比较和/或对应特征的更有意义的评价。
如在此(包括在权利要求书中)所用,除非上下文另外指示,否则在此术语的单数形式应理解为包括复数形式,反之亦然。
贯穿本说明书的描述和权利要求书,词“包含”、“包括”、“具有”和“含有”以及这些词的变化形式(例如“包含着(comprising)”和“包含了(comprises)”等)意指“包括但不限于”,并且并不打算(并且并不)排除其他部件。
应了解,可以对本发明的上述实施例作出变化,但这些变化仍落在本发明的范围内。除非另外说明,否则本说明书中所披露的每个特征可以被用于相同、等效或类似目的的替代性特征替换。因此,除非另外说明,否则所披露的每个特征仅是一个通用系列的等效或类似特征的一个实例。
在此提供的任何和所有实例或示例性语言(“举例来说”、“如”、“例如”以及类似语言)的使用仅旨在更好地说明本发明并且不指示对本发明的范围进行限制,除非另外要求。本说明书中的语言不应被解释为表示任何未提出权利要求的元素对于本发明的实施是必不可少的。
本说明书中描述的任何步骤可以按照任何顺序来进行或同时进行,除非另有说明或上下文要求。
本说明书中披露的所有特征可以以任意组合形式进行组合,除了这类特征和/或步骤中的至少一些相互推斥的组合形式。具体而言,本发明的优选特征适用于本发明的所有方面并且可以以任何组合方式使用。同样,非本质的组合形式中描述的特征可以单独使用(不进行组合)。

Claims (15)

1.用于调整色谱-质谱数据集、特别是液相色谱-质谱数据集的时间标度的方法,其中第一数据集的时间标度用作参比时间标度并且其中至少一个第二数据集的时间标度被适配于该参比时间标度,该方法包括以下步骤
·通过评价该第一数据集的连续点的强度识别该第一数据集中的特征组,每个特征组包括至少两个特征,
·通过评价该第二数据集的连续点的强度识别该第二数据集中的特征组,每个特征组包括至少两个特征,
·将该第一数据集的识别的特征组与该第二数据集的识别的特征组匹配,并且
·基于该第一数据集中的特征组与该第二数据集中的匹配特征组之间的时间差值确定该第二数据集的修正的时间标度。
2.如权利要求1所述的方法,其中识别特征组包括通过确定数据集中的最陡上升的点来识别特征,优选地基于三个或更多个连续数据点之间的强度差值。
3.如权利要求2所述的方法,其中这些数据点在给定的质荷比间隔的连续数据点的迹线中进行评价,优选地通过总和或平均在该给定的质荷比间隔内的这些数据点,其中特别是并行评价覆盖整个数据集的迹线以识别特征。
4.如权利要求2或3所述的方法,其中,当满足以下标准中的一个或多个、优选地全部时,识别特征和/或将点确定为最陡上升的点:
·该最陡上升的点与该紧接着的上一个点之间的每保留时间差值的强度差值以及该紧接着的下一个点与该最陡上升的点之间的每保留时间差值的强度差值二者都大于预定阈值
·对于在该最陡上升的点之前的预定义的第一时间间隔内的数据点,强度高于预定义的阈值和/或单调地上升
·对于该数据集中的至少一个随后的点,强度小于或等于在该最陡上升的点处的强度。
5.如权利要求2至4中任一项所述的方法,其中基于由该最陡上升的点和返回点界定的时间间隔内的一个或更多个点确定该特征的时间位置,其中该返回点是在该最陡上升的点之后的第一个点,该点的强度在给定的公差内等于该最陡上升的点的强度。
6.如权利要求1至5中任一项所述的方法,其中识别在数据集中的特征组的步骤包括将特征分组,其中当满足一个或多个预定义的条件时,将定位在预定义的时间间隔内的特征分组在特征组中。
7.如权利要求6所述的方法,其中当在该预定义的时间间隔内识别至少三个特征并且从第一特征到第二特征的质荷比的差值在给定的公差内等于从该第二特征到第三特征的质荷比差值时,满足预定义的条件。
8.如权利要求6或7所述的方法,其中当在该预定义的时间间隔内识别至少三个特征并且至少三个特征的强度比对应于预定义的模式、优选地分子的同位素模式时,满足预定义的条件。
9.如权利要求6至8中任一项所述的方法,其中将特征分组包括识别在该预定义的时间间隔内具有最大强度的特征和识别具有较高和/或较低质荷比的一个或多个特征,这样使得该质荷比的差值在给定的公差内是在预定义的质荷比间隔内。
10.如权利要求1至9中任一项所述的方法,其中确定修正的时间标度包括针对在该第一数据集与该第二数据集中发现的匹配特征组之间的时间差值调整预定义的函数。
11.如权利要求10所述的方法,其中该预定义的函数由局部定义的函数构成和/或该预定义的函数的调整方法是支持向量回归或局部加权散点图平滑。
12.如权利要求1至11中任一项所述的方法,其中使多于两个数据集对准,并且其中该对准是至少部分地或最初成对地进行,这样使得在第一步骤中,使从属的数据集与中间的参比数据集对准,并且在进一步的步骤中,包括该中间参比数据集和该从属的数据集的多个数据集与主要的参比数据集对准。
13.如权利要求12所述的方法,其中根据该数据集的测量时间和/或用于比较两个数据集的相似性指数选择该成对对准的顺序。
14.一种数据处理装置,包括适配为处理色谱-质谱数据集的处理器单元、用于保存和/或检索色谱-质谱数据集的存储单元和非易失性存储器,该非易失性存储器含有用于该处理器单元的指令以便进行根据权利要求1至13中任一项所述的方法。
15.一种质谱系统,包括液相色谱柱、具有联接到该液相色谱柱的电喷雾离子源的质谱仪、以及根据权利要求14所述的数据处理装置。
CN201510779121.5A 2014-11-18 2015-11-13 用于色谱-质谱数据集的时间对准的方法 Active CN105606742B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1420466.3 2014-11-18
GB1420466.3A GB2532430B (en) 2014-11-18 2014-11-18 Method for time-alignment of chromatography-mass spectrometry data sets

Publications (2)

Publication Number Publication Date
CN105606742A true CN105606742A (zh) 2016-05-25
CN105606742B CN105606742B (zh) 2019-03-29

Family

ID=52248521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510779121.5A Active CN105606742B (zh) 2014-11-18 2015-11-13 用于色谱-质谱数据集的时间对准的方法

Country Status (4)

Country Link
US (1) US11573213B2 (zh)
CN (1) CN105606742B (zh)
DE (1) DE102015014754A1 (zh)
GB (1) GB2532430B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106248844A (zh) * 2016-10-25 2016-12-21 中国科学院计算技术研究所 一种肽段液相色谱保留时间预测方法及系统
CN108020491A (zh) * 2016-11-02 2018-05-11 厦门格林德智能精仪科技有限公司 一种实现雾霾在线监测的大数据处理方法
WO2020199866A1 (zh) * 2019-03-22 2020-10-08 深圳碳云智能数字生命健康管理有限公司 生物代谢组学数据处理方法、分析方法及装置和应用

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3285190A1 (en) * 2016-05-23 2018-02-21 Thermo Finnigan LLC Systems and methods for sample comparison and classification
US10319574B2 (en) * 2016-08-22 2019-06-11 Highland Innovations Inc. Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
US20180052893A1 (en) * 2016-08-22 2018-02-22 Eung Joon JO Database management using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
US11454617B2 (en) 2019-01-31 2022-09-27 Thermo Finnigan Llc Methods and systems for performing chromatographic alignment
WO2021122784A1 (en) * 2019-12-17 2021-06-24 Roche Diagnostics Gmbh Method and device for multiple transition monitoring

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5119315A (en) * 1989-04-28 1992-06-02 Amoco Corporation Method of correlating a record of sample data with a record of reference data
US20040113062A1 (en) * 2002-05-09 2004-06-17 Surromed, Inc. Methods for time-alignment of liquid chromatography-mass spectrometry data
GB2404193A (en) * 2003-07-21 2005-01-26 Amersham Biosciences Ab Automated chromatography/mass spectrometry analysis
US20070112534A1 (en) * 2004-12-15 2007-05-17 Rainer Jaeger Peak pattern calibration
US20140129169A1 (en) * 2012-11-05 2014-05-08 Shimadzu Corporation Chromatogram data processing method and device

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6787761B2 (en) * 2000-11-27 2004-09-07 Surromed, Inc. Median filter for liquid chromatography-mass spectrometry data
US7680606B2 (en) * 2006-02-08 2010-03-16 Thermo Finnigan Llc Two-step method to align three dimensional LC-MS chromatographic surfaces
JP4602374B2 (ja) * 2007-03-30 2010-12-22 株式会社日立ハイテクノロジーズ クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
US8631057B2 (en) * 2009-08-25 2014-01-14 International Business Machines Corporation Alignment of multiple liquid chromatography-mass spectrometry runs
US8975575B2 (en) * 2011-04-04 2015-03-10 Shimadzu Corporation Mass spectrometer and mass spectrometric method
JP5541415B2 (ja) 2011-06-29 2014-07-09 株式会社島津製作所 分析データ処理方法及び装置
US9812306B2 (en) * 2011-08-17 2017-11-07 Smiths Detection Inc. Shift correction for spectral analysis
US20130131998A1 (en) * 2011-11-18 2013-05-23 David A. Wright Methods and Apparatus for Identifying Mass Spectral Isotope Patterns
JP5811023B2 (ja) * 2012-05-07 2015-11-11 株式会社島津製作所 クロマトグラフ質量分析用データ処理装置
JP6020314B2 (ja) * 2013-04-04 2016-11-02 株式会社島津製作所 クロマトグラフ質量分析データ処理装置
GB2514836B (en) * 2013-06-07 2020-04-22 Thermo Fisher Scient Bremen Gmbh Isotopic Pattern Recognition
GB201415273D0 (en) * 2014-08-28 2014-10-15 Thermo Fisher Scient Bremen Data processing device and method for the evaluation of mass spectrometry data
US10121643B2 (en) * 2014-07-24 2018-11-06 Shimadzu Corporation Chromatography/mass spectrometry data processing device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5119315A (en) * 1989-04-28 1992-06-02 Amoco Corporation Method of correlating a record of sample data with a record of reference data
US20040113062A1 (en) * 2002-05-09 2004-06-17 Surromed, Inc. Methods for time-alignment of liquid chromatography-mass spectrometry data
GB2404193A (en) * 2003-07-21 2005-01-26 Amersham Biosciences Ab Automated chromatography/mass spectrometry analysis
US20070112534A1 (en) * 2004-12-15 2007-05-17 Rainer Jaeger Peak pattern calibration
US20140129169A1 (en) * 2012-11-05 2014-05-08 Shimadzu Corporation Chromatogram data processing method and device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106248844A (zh) * 2016-10-25 2016-12-21 中国科学院计算技术研究所 一种肽段液相色谱保留时间预测方法及系统
CN108020491A (zh) * 2016-11-02 2018-05-11 厦门格林德智能精仪科技有限公司 一种实现雾霾在线监测的大数据处理方法
WO2020199866A1 (zh) * 2019-03-22 2020-10-08 深圳碳云智能数字生命健康管理有限公司 生物代谢组学数据处理方法、分析方法及装置和应用

Also Published As

Publication number Publication date
GB2532430A (en) 2016-05-25
GB201420466D0 (en) 2014-12-31
DE102015014754A1 (de) 2016-06-02
GB2532430B (en) 2019-03-20
US20160141164A1 (en) 2016-05-19
US11573213B2 (en) 2023-02-07
CN105606742B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN105606742A (zh) 用于色谱-质谱数据集的时间对准的方法
CN108389772B (zh) 基于高分辨率ms1的量化
US10217619B2 (en) Methods for data-dependent mass spectrometry of mixed intact protein analytes
EP2617052B1 (en) Data independent acquisition of production spectra and reference spectra library matching
US11378560B2 (en) Mass spectrum data acquisition and analysis method
CN108987239A (zh) 混合质谱仪
CN108987238A (zh) 飞行时间质谱仪中由热漂移导致的质量差错校正
CN105122051B (zh) 分析系统
CN103109346B (zh) 用于通过质谱分析快速筛选样本的系统及方法
US11699578B2 (en) Method of mass spectrometry
US10535507B2 (en) Data processing device and data processing method
US10347478B2 (en) Systems and methods for extracting mass traces
CN103392220A (zh) 校正飞行时间质谱仪中的飞行时间漂移
CN114965728A (zh) 用数据非依赖性采集质谱分析生物分子样品的方法和设备
EP3218703B1 (en) Determining the identity of modified compounds
JP6738816B2 (ja) 曲線減算を介する類似性に基づく質量分析の検出
EP3308154B1 (en) Method for deconvolution
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
EP3335236B1 (en) Library search tolerant to isotopes
CN107743649B (zh) 基于概率的库搜索算法(prols)
CN115440568A (zh) 利用质谱数据库搜索进行化合物识别的质谱仪
JP6896830B2 (ja) イオン種の質量を判定するためのシステムおよび方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant