CN104813324B - 用于从质谱法输出识别聚合物物种的方法及设备 - Google Patents

用于从质谱法输出识别聚合物物种的方法及设备 Download PDF

Info

Publication number
CN104813324B
CN104813324B CN201380042377.7A CN201380042377A CN104813324B CN 104813324 B CN104813324 B CN 104813324B CN 201380042377 A CN201380042377 A CN 201380042377A CN 104813324 B CN104813324 B CN 104813324B
Authority
CN
China
Prior art keywords
candidate
chemical formula
mass
neutral
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380042377.7A
Other languages
English (en)
Other versions
CN104813324A (zh
Inventor
B·塞尔达
V·S·拉科夫
H·E·克罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Revvity Health Sciences Inc
Original Assignee
PerkinElmer Health Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PerkinElmer Health Sciences Inc filed Critical PerkinElmer Health Sciences Inc
Publication of CN104813324A publication Critical patent/CN104813324A/zh
Application granted granted Critical
Publication of CN104813324B publication Critical patent/CN104813324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T436/00Chemistry: analytical and immunological testing
    • Y10T436/24Nuclear magnetic resonance, electron spin resonance or other spin effects or mass spectrometry

Abstract

本发明提供用于从对应于未识别化合物的质谱法数据识别一或多个候选化学式的方法及设备。通过以规定限制将候选公式的生成约束为具有重复单元及/或末端单元的公式,所述方法及设备可更加有效地反复搜索具有阈值容差内的匹配质谱法输出的化学式。在另一方面中,提供用于至少部分基于中性丢失(neutral loss)从质谱法数据识别一或多个候选化学式的方法及设备。

Description

用于从质谱法输出识别聚合物物种的方法及设备
相关申请案
本申请案主张标题是“用于从质谱法输出识别聚合物物种的方法及设备(Methodsand Apparatus for Identification of Polymeric Species from Mass SpectrometryOutput)”且申请于2012年8月9日的第61/681,575号美国临时专利申请案及标题是“用于从质谱法输出识别聚合物物种的方法及设备(Methods and Apparatus for Identificationof Polymeric Species from Mass Spectrometry Output)”且申请于2012年8月31日的第61/696,071号美国临时专利申请案的优先权及权利,所述申请案中的每一者的内容全部是以引用方式并入本文中。
背景技术
质谱法(MS)是测量带电粒子的质量-电荷比的分析工具且广泛用于化合物的定性及定量分析,包含化合物识别以及化合物结构、选择反应性、稳定性等等的询问。商用现代质谱仪不但采用离子分离的不同方法,而且蒸发/离子化技术以及检测方案不断改变。此导致基于或关于质谱测量的科学应用的范围越来越广。
用于分析化学性质的第一代商用质谱仪使用电子撞击离子化技术,所述技术在其70eV电子能量的最优模式中通常过度激发分析物分子,因而导致大部分母体离子进行快速气相单分子分解。此产生典型的分析物“签名”频谱-母体离子的峰值及其碎片的混合物。这些频谱被快速记录且被组织到所谓的MS库中,所述MS库直到今天一直用作质谱法的识别工具。然而,电子撞击、气相离子化技术依赖于样本的前期蒸发,这只对于易失性低-中等质量范围分析物分子来说容易实现。对于300Da以上的分析物,不但蒸发成问题,而且电子撞击诱导的碎片化也变得更加复杂。
产生“冷”分析物分子离子的现代“软”离子化技术(开始于化学离子化)的发现解决了后离子化离解及即时频谱的复杂性的问题,但是也增加了母体离子同一性指派的不确定性。在无背景解离的情况下,分析物分子离子的“签名”特征消失。但是化学离子化的唯一真正发展是消除了后离子化解离。因为其是软技术的开始,所以科学家大致上用了十年去寻找重新引入解离到质谱法中的方式-希望恢复“签名”特征作为解决分析物识别的问题的工具。其呈现商业开发的串联质谱分析仪的形式:其中分析物分子离子的产生(在空间或时间上)与其碎片化的事件分离的装置。
在新的离子化技术的优点开创分析质谱法的新纪元之前的1975年与1985年之间的大约十年中见证了化学(电荷转移)离子化的复兴。快速原子轰击(FAB)、电喷射离子化(ESI)及基质辅助激光解吸离子化(MALDI)已结合质谱法分析中涉及的两个基本步骤:蒸发及离子化,因此允许大分子的质谱分析。科学界用了大约十年来赶上所述技术,以分析合成化学、药物学、生态学、生物学、食品科学等等中的基于质谱法的应用的当前剧增达到巅峰。
无论具有最终科学兴趣的化合物的物理或化学性质为何,质谱法的首要目标是建立化合物的同一性。在最基本级别的识别下,需要确定离子的分子式(元素组合物成分)。通过多阶段质谱法实验中的气相化学过程及/或结合“正交”技术(例如色谱法、电泳、离子迁移、光谱学等等)可显示更高阶信息(分子结构、构造、稳定性等等)。对于相对较小的分子,对同位素的确切质量及相对丰度的了解可能足以显示分子式信息,即使缺少背景碎片化也是如此。在任何情况下,需要从先前建立的列表(数据库)参考潜在候选分子式或由嵌套循环加法产生潜在候选分子式,因而实现不同类型的原子数的可能组合(碳、氧、氢等等)以尝试匹配实验观察的质量与所需精确度。从历史观点来看,产生作为原子组合的公式的后一种方法是唯一可用的方法。虽然所谓的“已知的未知”目标分析的前一种方法随着已知化合物的数据库可为公众使用且继续增长而越来越流行,但是直到今天,在例如大的聚合物合成的特殊应用中,由公共数据库提供的信息可能仍然不足以提供研究人员需要的识别基础。在此类情况下,质谱法专家仍然需要重新访问旧的公式生成方法以尝试将分子式指派给实验观察的质谱峰值。不幸的是,当前公式生成器算法是基于嵌套循环且固有地具有计算成本对以下项的指数相依性:(a)被假设包括潜在公式的原子类型的数目,及(b)目标离子的质量。
分子式生成模型的算法改善直到今天仍然极为相关,所述分子式生成模型作为一种潜在方式来改善质谱调查的第一步骤:离子物种的原子成分的识别。
发明内容
本发明提供一种软件工具,其用于从对应于未识别化合物的质谱法数据识别一或多个候选化学式。通过以规定限制将候选公式的生成约束为具有重复单元及/或末端单元的公式,所述软件工具可更加有效地反复搜索具有阈值容差内的匹配质谱法输出的化学式。在另一方面中,提供一种软件工具,其用于至少部分基于中性丢失从质谱法数据识别一或多个候选化学式。
为辅助从质谱法数据识别未知聚合物化合物的速度及准确度,当未知化合物包含重复单元及一或多个末端单元时,提供一种用于化学式识别的软件工具,所述软件工具根据质谱法数据及额外数据识别一或多个候选结构,所述识别包含:(i)一或多个候选重复单元的识别;(ii)所述一或多个末端单元中的化学元素的集合的识别;及/或(iii)所述一或多个末端单元中的最大数目的化学元素的识别(例如,每一化学元素的最大值或最大总数的化学元素)。在一些实施方案中,软件工具提供一种用于执行以上识别的图形用户接口。在一些实施方案中,软件工具用于识别具有重复至少三次的重复单元的未知聚合物物种。通过以规定限制将候选公式的生成约束成具有重复单元及/或末端单元的公式,所述软件工具可更加有效地反复搜索包含匹配阈值容差内的质谱法输出的重复单元加末端单元结构的化学式。
在一些实施方案中,软件工具接受重复单元结构(或其确切质量)及对一个或两个末端单元的结构或成分的限制两者。例如,用户可将构成一个或两个末端单元的元素数目限制为元素的最大数目(例如10)。在另一实例中,用户可将元素类型(例如元素物种)限制为特定集合。
在另一实施方案中,提供一种用于化学式识别的软件工具,其用于至少部分基于中性丢失(两个质谱峰值之间归因于例如导致分子式丢失的前端化学过程或气相碎片化的处理而出现的质量差)从质谱法数据识别化学式。此软件工具可增加准确度或关于以下实例缩减化学式的潜在候选库:TOF质谱仪的毛细管-分离器区域中的碰撞诱导解离;成块代谢物;前端化学反应(例如,质谱法之前的样本中的反应);及关于重复单元的确切质量的聚合物同一性。在一些实施方案中,软件工具提供一种用于执行以上识别的图形用户接口。
在另一实施方案中,提供一种用于化学式识别的软件工具,其用于通过以规定限制将候选公式的生成约束成具有重复单元及/或末端单元的公式及通过识别和使用中性丢失的测量缩减化学式的潜在候选库来从质谱法数据识别聚合物化合物。
在一个方面中,本发明是针对一种识别包含两个或两个以上重复结构单元的未识别化合物的物种的方法,所述方法包含存取质谱法数据的至少一部分,其中质谱法数据的所述部分与包含所述未识别化合物的样本有关,其中所述未识别化合物包含(a)所述两个或两个以上重复结构单元,及(b)至少一个末端单元。所述方法可包含确定以下项中的至少一者:(a)所述重复结构单元的化学式,及(b)所述两个或两个以上重复结构单元的估计分子量;及由计算装置的处理器至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的一或多个候选化学式:(a)所述重复结构单元的所述化学式,及(b)所述估计分子量。
在某些实施例中,所述两个或两个以上重复结构单元中的每一重复结构单元具有相同化学式,且所述至少一个末端单元具有不同于所述两个或两个以上重复结构单元的所述化学式的化学式。
在某些实施例中,所述方法包含确定候选化学元素的集合,其中所述至少一个末端单元中的任何末端单元的所述化学式是由候选化学元素的所述集合中的一或多个元素组成。所述方法可包含确定候选化学元素的所述集合中的每一化学元素的最大数目,其中所述至少一个末端单元中的任何末端单元的所述化学式是由不超过候选化学元素的所述集合中的每一化学元素的最大数目的化学元素组成。识别用于所述未识别化合物的所述一或多个候选化学式可包含进一步部分基于候选化学元素的所述集合识别用于未识别化合物的所述一或多个候选化学式。
在某些实施例中,所述方法包含从所述质谱法数据的所述部分识别所述未识别化合物的估计分子量,其中识别用于所述未识别化合物的所述一或多个候选化学式包含进一步部分基于所述未识别化合物的所述估计分子量识别用于所述未识别化合物的所述一或多个候选化学式。识别用于所述未识别化合物的所述一或多个候选化学式可包含反复地添加可能元素类型的组合以识别用于所述一或多个末端单元的多个潜在元素组合,其中所述多个潜在元素组合中的每一潜在元素组合的计算分子量在与所述两个或两个以上重复单元的所述估计分子量相加之后是在所述未识别化合物的所述估计分子量的阈值分子量内。所述方法可进一步包含计算所述两个或两个以上重复单元的所述估计分子量。计算所述估计分子量可包含计算所述一或多个候选化学式中的第一候选化学式的分子量及使所述第一候选化学式的所述分子量乘以最大潜在的重复次数。
在某些实施例中,所述方法包含在识别所述未识别化合物的所述一或多个候选化学式之后,对于所述一或多个候选化学式中的每一候选化学式:获得用于所述相应候选化学式的质谱法数据;及比较用于所述相应候选化学式的所述质谱法数据的理论频谱数据与质谱法数据的所述部分的实验频谱数据。所述方法可进一步包含部分基于比较所述一或多个候选化学式中的每一候选化学式的所述质谱法数据的所述理论频谱数据与质谱法数据的所述部分的所述理论频谱数据的至少一个相应结果,排序所述一或多个候选化学式。所述方法可进一步包含对于所述一或多个候选化学式中的至少一个候选化学式,部分基于比较所述至少一个候选化学式的所述质谱法数据的所述理论频谱数据与质谱法数据的所述部分的所述实验频谱数据的相应结果,丢弃所述至少一个候选化学式中的第一候选化学式。
在某些实施例中,所述方法进一步包含在图形用户接口内向用户呈现所述一或多个候选化学式。
在一个方面中,本发明是针对一种系统,其包含处理器;及存储器,其上存储指令,其中所述指令在执行时使得所述处理器存取质谱法数据的至少一部分,其中质谱法数据的所述部分与包含未识别化合物的样本有关,其中所述未识别化合物包含(a)两个或两个以上重复结构单元,及(b)至少一个末端单元。所述指令可使得处理器确定以下项中的至少一者:(a)所述重复结构单元的化学式,及(b)所述两个或两个以上重复结构单元的估计分子量。所述指令可使得处理器至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的一或多个候选化学式:(a)所述重复结构单元的所述化学式,及(b)所述估计分子量。
在某些实施例中,所述两个或两个以上重复结构单元中的每一重复结构单元具有相同化学式,且所述至少一个末端单元具有不同于所述两个或两个以上重复结构单元的所述化学式的化学式。
在某些实施例中,所述指令进一步使得所述处理器确定所述一或多个候选化学式中的第一候选化学式是到所述未识别化合物的中性丢失匹配,所述中性丢失匹配的所述确定包含存取用于所述第一候选化学式的频谱数据,且对于所述频谱数据的多个频谱峰值中的每一者来说:计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。所述频谱数据可包含碰撞诱导解离(CID)质谱。识别至少所述第一候选化学式可包含识别第二候选化学式,所述指令进一步使得所述处理器:确定所述第二候选化学式是到所述未识别化合物的中性丢失匹配;及部分基于中性丢失匹配的类似度按到未知化合物的匹配排序所述第一候选化学式及所述第二候选化学式。识别所述一或多个候选中性分子成分可包含识别所述一或多个候选中性分子成分中的每一候选中性分子成分包含所述频谱峰值的所述相应实验质量的质量测量准确度的范围内的相应质量。
在某些实施例中,确定所述第一候选化学式是到所述未识别化合物的中性丢失匹配可包含识别所述第一候选化学式的理想配比法允许所述一或多个候选中性分子成分中的至少第一候选中性分子成分。识别所述第一候选化学式的理想配比法允许所述第一候选中性分子成分可包含对于所述第一候选中性分子成分确定所述第一候选化学式中的每一类型的原子数目大于所述候选中性丢失成分中的每一对应类型的原子数目。
在一个方面中,本发明是针对一种其上存储指令的非暂时性计算机可读媒体,所述指令在由处理器执行时使得所述处理器执行包含存取质谱法数据的至少一部分的操作,其中质谱法数据的所述部分与包含未识别化合物的样本有关,其中所述未识别化合物包含(a)两个或两个以上重复结构单元,及(b)至少一个末端单元。所述指令可使得处理器确定以下项中的至少一者:(a)所述重复结构单元的化学式,及(b)所述两个或两个以上重复结构单元的估计分子量。所述指令可使得处理器至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的一或多个候选化学式:(a)所述一或多个候选化学式,及(b)所述估计分子量。
在一个方面中,本发明是针对一种用于识别未识别化合物的物种的方法,所述方法包含由计算装置的处理器存取包含所述未识别化合物的样本的质谱法数据、由所述处理器至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式、由所述处理器存取用于所述第一候选化学式的频谱数据;及由所述处理器确定所述第一候选化学式是到所述未识别化合物的中性丢失匹配。所述中性丢失匹配的所述确定对于所述频谱数据的多个频谱峰值中的每一者来说可包含:计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
在某些实施例中,所述频谱数据包含碰撞诱导解离(CID)质谱。识别至少所述第一候选化学式可包含识别第二候选化学式。所述方法可进一步包含由所述处理器确定所述第二候选化学式是到所述未识别化合物的中性丢失匹配;及由所述处理器部分基于中性丢失匹配的类似度按到所述未知化合物的匹配排序所述第一候选化学式及所述第二候选化学式。
在某些实施例中,识别所述一或多个候选中性分子成分包含识别所述一或多个候选中性分子成分中的每一候选中性分子成分包含所述频谱峰值的所述相应实验质量的质量测量准确度的范围内的相应质量。
在某些实施例中,确定所述第一候选化学式是到所述未识别化合物的中性丢失匹配进一步包含识别所述第一候选化学式的理想配比法允许所述一或多个候选中性分子成分中的至少第一候选中性分子成分。识别所述第一候选化学式的理想配比法允许所述第一候选中性分子成分可包含对于所述第一候选中性分子成分确定所述第一候选化学式中的每一类型的原子数目大于所述候选中性丢失成分中的每一对应类型的原子数目。
在某些实施例中,识别所述第一候选化学式包含:确定以下项中的至少一者:(a)重复结构单元的化学式,及(b)所述两个或两个以上重复结构单元的估计分子量,其中所述未识别化合物包含(i)两个或两个以上重复结构单元,及(ii)至少一个末端单元;及至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的所述第一候选化学式:(a)所述重复结构单元的所述化学式,及(b)所述估计分子量。
在一个方面中,本发明是针对一种系统,其包含处理器;及存储器,其上存储指令,其中所述指令在由所述处理器执行时使得所述处理器:存取包含未识别化合物的样本的质谱法数据;至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式;存取用于所述第一候选化学式的频谱数据;及确定所述第一候选化学式是到所述未识别化合物的中性丢失匹配。所述中性丢失匹配的所述确定对于所述频谱数据的多个频谱峰值中的每一者来说可包含:计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
在一个方面中,本发明是针对一种其上存储指令的非暂时性计算机可读媒体,其中所述指令在由处理器执行时使得所述处理器:存取包含未识别化合物的样本的质谱法数据;至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式;存取用于所述第一候选化学式的频谱数据;及确定所述第一候选化学式是到所述未识别化合物的中性丢失匹配。所述中性丢失匹配的所述确定对于所述频谱数据的多个频谱峰值中的每一者来说可包含:计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
关于本发明的其它方面描述的实施例的特征也可在本发明的此方面中使用。
附图说明
通过结合附图参考以下描述将更加明白且更好地了解本发明的前述及其它目标、方面、特征及优点,其中:
图1是用于从质谱法输出识别化学式的实例系统的图;
图2A到2C是用于从质谱法输出识别聚合物物种的实例方法的流程图;
图3A到3F是用于从质谱法输出识别聚合物物种的系统的实例用户接口的屏幕截图;
图4A及4B是至少部分基于中性丢失识别化学式的实例方法的流程图;
图5A及5B是用于使用中性丢失方法识别化合物的系统的实例用户接口的屏幕截图;
图6是用于从质谱法输出识别聚合物物种的实例网络环境的方框图;
图7是实例计算装置及实例移动计算装置的方框图;及
图8A到8D是表明使用中性丢失方法识别化合物的系统的实例使用的一系列屏幕截图。
从下文结合附图说明的详述将更加明白本发明的特征及优点,其中相同参考字符识别全部对应元件。在图中,相同参考数字大体上指示等同、功能上类似及/或结构上类似的元件。
具体实施方式
在所述描述中,当设备、装置及系统被描述为具有、包含或包括特定组件时或当过程及方法被描述为具有、包含或包括特定步骤时,预期此外本发明存在本质上由或由所叙述组件组成的设备、装置及系统且存在根据本发明的本质上由或由所叙述步骤组成的过程及方法。
应了解,只要本发明保持可操作,步骤次序或用于执行某个动作的次序便无关紧要。此外,可同时进行两个或两个以上步骤或动作。
如本文中所使用,术语“聚合物”是指高的相对分子质量的分子,所述聚合物的结构包含实际上或概念上源自于原子的多个重复单元。在一些实施例中,聚合物具有大于约100Da的平均分子量。在一些实施例中,聚合物具有大于约250Da的平均分子量。在一些实施例中,聚合物具有大于约500Da的平均分子量。在一些实施例中,聚合物具有大于约1,000Da的平均分子量。在一些实施例中,聚合物具有大于约10,000Da的平均分子量。
如本文中所使用,术语“重复单元”是指聚合物分子中发生至少一次的一部分。在一些实施例中,聚合物中的重复单元具有与用于形成聚合物的单体相同的分子量。
如本文中所使用,术语“末端基团”是指包含聚合物分子但是不在重复单元内的化学式。在一些实施例中,末端基团是线型聚合物的末端基团,在其它实施例中,当前上下文的末端基团可表示线型或环状聚合物的侧链。末端基团可小于或大于重复单元。
作为使用质谱法数据建立化合物的同一性的部分,一些现有软件包涉及在分析候选分子式时参考所建立的数据库。例如,申请人的AxION EC ID(元素成分识别)软件包允许用户从样本分析确定已知(“已知的未知”)及未知(“未知的未知”)化合物的成分。所述程序基于所观察分子离子的测量确切质量及分子离子同位素分布中的同位素比的相对丰度计算分析物的元素成分。AxION EC ID接着计算分析物的潜在分子式、链接到PubChem化合物数据库,且列出所述成分的所有可能化合物(及相关结构)。
在某些实施例中,本发明涵盖以下发现:虽然用于相对较低分子量(例如小于1000Da)的分子的现有元素成分识别软件实现了优越的结果,但是仍然极为希望能够有效地识别较高分子量(例如,聚合物)的分子。如本文中描述,除了其它以外,本发明还提供一种包含预测聚合物分子的结构或确切质量的步骤的方法,其中所述方法包含聚合物分子中的一或多个已知重复单元的用户输入。虽然无法已知聚合物末端基团的精确同一性,但是一或多个已知重复单元的输入足以依高准确度预测母体分子的结构或确切质量。
可根据所提供方法使用含有一或多个重复单元的任何聚合物分子。在一些实施例中,由所提供方法分析的聚合物是只包含一个重复单元的均聚物。在一些实施例中,由所提供方法分析的聚合物是包含两个或两个以上不同重复单元的共聚物。
在某些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组:多糖苷、多核甙酸、多肽、聚碳酸酯、聚酰胺、聚烯烃、聚醚、硅氧烷、聚缩醛、聚缩酮、聚原酸酯、聚酯、聚芳酰胺及其衍生物。
在某些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组:多糖、糖肽、糖脂、及其衍生物。在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组的同多糖:纤维素、淀粉糖、葡聚糖、果聚糖、岩藻多糖、鹿角菜胶、菊糖、果胶、支链淀粉、肝糖及里瑟南(lixenan)。在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组的杂多糖:琼脂糖、透明质酸、硫酸软骨素、硫酸皮肤素、角质素、海藻酸及肝素。在某些实施例中,可改质此类多糖(例如,载有保护基团或含有来自经氧化剂处理的开环单元)。
在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组:聚(碳酸乙烯酯)、聚(碳酸丙烯酯)、聚(碳酸丙烯酯)-共聚(碳酸乙烯酯)、聚(碳酸丁烯酯)、聚(碳酸环己烯)、聚(柠檬烯碳酸)及聚(1,2己烯碳酸)。
在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组的聚酰胺:尼龙-6、尼龙-6,6、尼龙-12、尼龙-12,12及尼龙-11。
在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组:聚乙烯、聚(四氟乙烯)、聚丙烯、聚异丁烯、聚苯乙烯、聚丙烯腈、聚(氯乙烯)、聚(丙烯酸甲脂)、聚(甲基丙烯酸甲酯)、聚丁二烯、聚氯丁二烯、顺聚-1,4-异戊间二烯及反聚-1,4-异戊二烯。
在一些实施例中,由所提供方法分析的聚合物是选自由以下项组成的群组:聚(乳酸)、热塑性淀粉、聚(3-羧基丁酸)、聚(4-羧基丁酸)、聚(3-羧基丙酸)、聚羟辛酸盐、聚(3-羟基戊酸酯)、聚(3-羟基丁酸-co-3-羟基缬草酸)、聚(对苯二甲酸乙二酯)(PET)、聚(丁烯对苯二酸酯)、如聚(己二酸丁二酯)的生物降解聚酯、聚(己二酸乙烯)、聚(丁二酸丁二醇酯)、聚(对苯二甲酸丁二醇-co-己二酸对苯二甲酸乙二醇酯)、聚(对苯二甲酸丁二醇酯-co-聚己二酸丁二醇酯)、聚(对苯二甲酸丁二醇-co-己二酸对苯二甲酸乙二醇酯)、其它脂肪及芳香烃、聚(乙烯醇)、聚(醋酸乙烯酯)、乙烯乙烯醇聚合物(EVOH)、聚(己内酯)、聚(乙二醇)、聚(丙二醇)、聚甲醛、聚二醚酮、聚(四亚甲基醚)二醇及聚酰胺酯。
在一些实施例中,由所提供方法分析的聚合物是线型聚合物。在一些实施例中,由所提供方法分析的聚合物是环状聚合物。在一些实施例中,由所提供方法分析的聚合物是支(化)聚(合)物。在一些实施例中,由所提供方法分析的聚合物是球状聚合物。在一些实施例中,由所提供方法分析的聚合物是接枝共聚物。在一些实施例中,由所提供方法分析的聚合物是梳状聚合物。
可根据所提供方法使用聚合物的任何重复单元。在一些实施例中,上述聚合物中含有此重复单元。在某些实施例中,重复单元是形成聚合物的单体的最小可能单元。例如,聚二甲基硅氧烷的重复单元是-Si(CH3)2O-。在某些实施例中,重复单元可包含例如共聚物聚碳酸亚乙基酯中的两个或两个以上单体单元,其中重复单元可为-OC(O)O(CH2)2-,或重复单元可进一步被分解为单体-OC(O)-及-O(CH2)2-。
在一些实施方案中,本发明可针对一种用于从质谱法输出识别聚合物物种的系统及方法。为辅助识别包含重复一或多次的单元的化合物(例如聚合物结构)的速度及准确度,可提供一种使用一或多个候选重复单元作为输入的用于化学式识别的软件工具。在一些实施方案中,软件工具可用来识别具有重复至少三次的重复单元的聚合物物种。使用重复单元,软件工具可反复地搜索包含重复单元加末端单元结构的化学式,所述结构在阈值容差内匹配质谱法输出。
在一些实施方案中,软件工具接受重复单元结构及对一个或两个末端单元的结构的限制两者。例如,用户可将构成每一末端单元的元素的数目限制为最大元素数目(例如10)。在另一实例中,用户可将元素类型限制成特定集合。
在一些实施方案中,本发明可针对一种用于至少部分基于中性丢失来识别样本化合物的化学式的系统及方法。在本文中,中性丢失是指两个质谱峰值之间归因于例如导致分子式丢失的前期化学过程或气相碎片化的处理而出现的质量差。分子式丢失可归属于至少一个现有且已报告的中性稳定分子。与离子导向器或离子源中的离子活化的大多数气相碰撞诱导的解离反应(例如经由在飞行时间(TOF)质谱法的动能尺度方面稍微大于表观活化能垒的单分子衰变而进行)将表明中性丢失。在这些反应中,例如,产物与反应物之间的质量差等于某个已知(例如,化学式数据库中报告且存储的)中性分子的质量。在确定候选化学式与通过质谱法数据识别的化学式的特征之间的匹配程度时,中性丢失分析仪对于质谱法数据内的每一频谱峰值比较所观察质量差(例如,频谱峰值与相邻频谱峰值之间)与化学式的数据库内的质量分子成分。例如,中性丢失分析的方法可增加准确度或关于以下实例缩减化学式的潜在候选库:TOF质谱仪的毛细管-分离器区域中的碰撞诱导解离;成块代谢物;前期化学反应(例如,质谱法之前的样本中的反应);及关于重复单元的确切质量的聚合物同一性。
参考图1,说明用于从质谱法输出识别化学式的实例系统100。系统100包含质谱法数据分析服务器102,所述质谱法数据分析服务器102经配置以分析由质谱仪104生成的质谱法数据110的集合以基于源自于质谱法数据110的信息与化学式数据存储区106内含有的信息的比较来识别一或多个化学式。用户可经由计算装置108(例如,本地或远程连接到数据分析服务器102的计算装置或直接连接到质谱法数据分析服务器102的输入/输出(I/O)外围装置)与质谱法数据分析服务器102介接。
在一些实施方案中,操作计算装置108的用户存取在质谱法数据分析服务器102上执行的质谱法数据分析仪112。在一些实施方案中,用户将由质谱仪104生成的质谱法数据110供应给质谱法数据分析仪112。在其它实施方案中,用户从可用质谱法数据(例如,由质谱仪104先前下载、传送或以其它方式可用于数据分析服务器102)选择质谱法数据110。在一些实施方案中,质谱仪104包含数据分析服务器。例如,数据分析服务器102可被实施为在质谱仪系统内运行的一或多个计算机处理器。
在一些实施方案中,质谱法数据分析仪112从质谱法数据110计算额外数据,例如,基于质谱法数据110内含有的实验信息、离子的质量-电荷比(例如,被计算为所谓的“轮廓”频谱中的峰值的几何中心)、峰值的相对强度及/或电荷(例如,基于被视为表示相同同位素群集的峰值的相对位置)。
在一些实施方案中,除了质谱法数据110以外,用户给质谱法数据分析仪112供应设置数据116。在一些实例中,设置数据116包含质谱法数据分析仪112的一或多个功能的选择,例如在一些实例中,化学式识别器112a、公式生成器112b及中性丢失计算器112c。
例如,化学式识别器112a可分析质谱法数据110以确定包含类似于质谱法数据110的特征(例如,在相距所述特征的阈值距离内)的质谱法特征的一或多个化学式。在一些实例中,被提供给化学式识别器112a的设置数据116可包含单同位素峰值的准确质量、电荷载子、同位素丰度及/或用于识别候选化学式的化学式的数据库。用户可例如通过导入质谱法数据或通过手动输入数据提供单同位素峰值的准确质量。例如,单同位素峰值的准确质量可被视为质谱法输出的轮廓峰值的几何中心。基于质谱法输出,在一些实施方案中,可选择默认电荷载子。在其它实施方案中,用户可(例如基于实验数据或实验化合物的预期含量)选择电荷载子。在一些实施方案中,同位素丰度(例如,频谱中的相应峰值的相对或绝对强度)是由来自质谱法数据110的化学式识别器112a导入。在一些实例中,化学式数据库可包含由国家生物技术信息中心(NCBI)维护的PubChem化合物数据库或由国家标准技术局(NIST)维护的分子频谱数据库。在一些实施方案中,质谱法数据分析仪112可设置默认化学式数据库(例如,内置数据库或特定公共数据库)。
在一些实施方案中,阈值方差设置限制候选化学式的数目。在一些实施方案中,用户可设置百万分率(ppM)误差截止。在一些实例中,ppM误差截止可被设置成20ppM、10ppM、5ppM或3ppM。在一些实施方案中,ppM截止是基于所执行的质谱法分析的类型而选择。例如,对于飞行时间质谱仪,可输入3ppM的合理ppM截止。在一些实施方案中,化学式识别器112a例如基于质谱法数据110内含有的信息确定ppM截止。在其它实施方案中,用户可设置ppM截止误差。
在一些实施方案中,化学式识别器112a反复地搜索化学式以识别包含类似于质谱法数据110的数据(例如,相对原子质量、类似同位素总数、类似同位素的相对强度等)的结构。例如,被提供给化学式识别器112a的设置数据可包含元素子集,其中任何候选化学式被限制成由所述元素子集构成的化学式。代替元素子集或除了元素子集以外,在另一实例中,设置数据116可包含元素的最大数目,其中候选化学式被限制成由小于或等于元素的最大数目的总数个元素构成的化学式。在另一实例中,设置数据116可包含用于化学式的候选电荷载子。
在一些实施方案中,化学式识别器112a基于实验化合物的质量(例如,如从质谱法数据110确定)及元素(例如,C、H、F、O、N、Si等等)的预定集合识别一或多个候选化学式。例如,使用此信息,候选化学式的质量可被计算为元素的预定集合的子集的原子质量的和,其中元素子集中的每一者可一或多次包含在候选化学式内。在一些实施方案中,使用嵌套循环加法来反复访问元素的所有可能组合以识别具有实验化合物的质量的阈值距离内的质量的组合。
在一些实施方案中,设置数据116可包含候选部分。在一些实施方案中,候选部分是由用户选自例如源自于从化学式数据存储区106检索的化学式数据118的候选部分120的集合。例如,化学式数据存储区106可包含例如由国家生物技术信息中心(NCBI)维护的PubChem化合物数据库的数据库,所述数据库含有约2600万种化合物及130万个独特分子式。在另一实例中,化学式数据存储区106可包含例如由国家标准技术局(NIST)维护的分子频谱数据库的数据库。在其它实施方案中,用户输入(例如,键入、绘制化学式、拖放化学式等等)候选化学部分。
在一些实施方案中,候选部分是由用户指定为用于由重复单元加末端单元构成的化学式的重复单元。例如,重复单元可为已知聚合物的重复单元。响应于识别质谱法数据110为包含重复单元(例如,在设置数据116或由计算装置108的用户提供的先前数据中),在一些实施方案中,可基于重复单元的估计分子量推导出候选部分120。例如,已知样本包含具有重复单元的聚合物物种,可从质谱法数据估计聚合物物种的重复单元部分的相对质量。在特定实例中,质谱仪输出包含具有具备近似76道尔顿(Da)的分子质量的重复单元的聚合物的频谱图案特性。手动或部分自动识别方法可用来匹配76Da的分子质量与聚二甲基硅氧烷(例如C2H6SiO)的候选重复单元。
在识别重复单元的候选部分的情形中,在一些实施方案中,可调用公式生成器112b以确定包含候选重复单元加末端单元结构的一或多个匹配化学式。在一些实施方案中,用户被提供机会来限制末端单元的化学式以(例如)增加由软件工具识别化学式的速度及/或准确度。在一个实例中,用户将末端单元限制为最大数目的化学元素(例如,如由设置数据116指定)。在一些实施方案中,公式生成器112b假设每一末端单元具有相似化学成分。在其它实施方案中,每一末端单元的化学成分可不断改变。
公式生成器112b部分基于候选部分120确定一或多个候选化学式122(例如,候选聚合物结构)。类似于化学式识别器112a的功能,公式生成器112b在一些实施方案中基于实验化合物的质量(例如,如从质谱法数据110确定)及元素(例如,C、H、F、O、N、Si等等)的预定集合识别一或多个候选化学式。然而,因为立即基于候选部分120解释大部分实验化合物的质量,所以只需要确定实验化学式的末端基团中的每一者的成分。在一些实施方案中,用户识别包含在实验化合物内的候选部分120的估计反复次数。在其它实施方案中,公式生成器112b确定候选部分120的默认反复次数(例如,不超过实验化合物的质量的候选部分120的质量的最大反复次数,如经由质谱法数据110确定)。在一些实施方案中,公式生成器112b被提供重复单元的估计质量或重复单元的总质量(例如,包含实验化合物内涉及的所有反复),而不是识别候选部分。以任一方式,基于所提供信息,公式生成器112b可以已知质量的“超级原子”开始识别过程。
此外,因为公式生成器112b识别建置在候选部分120上的潜在末端基团组合,所以与由化学式识别器112a使用的算法相比,可大幅减小元素的预定集合中的元素的每一类型的最大数目。例如,大的生物分子(例如聚合物)的末端基团可被假设化学元素的预定集合中的每一者含有的元素不超过X个,其中X可基于已知化学性质而在不同元素之间有所变化。在一些实施方案中,用户被提供机会来设置包含在候选化学式的末端基团内的每一化学元素的最大数目。在一些实施方案中,元素的预定集合的每一元素的最大数目可被识别为公式生成器112b内的默认设置。
在一些实施方案中,除了基于重复单元确定候选化学式以外或代替基于重复单元确定候选化学式的是,质谱法数据分析仪112经配置以基于中性丢失估计来识别一或多个候选化学式。在一些实施方案中,中性丢失计算器112c可根据质谱法数据110分析候选化学式以基于中性丢失理论识别潜在匹配。在本文中,中性丢失是指两个质谱峰值之间归因于例如导致分子式丢失的前期化学过程或气相碎片化的处理而出现的质量差。分子式丢失可归属于至少一个现有且已报告的中性稳定分子。在一些实施方案中,中性丢失计算器112c从化学式识别器112a或公式生成器112b接收一或多个候选化学式。例如,中性丢失计算器112c可用来完善所得候选化学式。在基于中性丢失计算分析候选化学式时,例如,候选化学式的初始列表可经缩减以提供更准确结果及/或经重新排定优先级以促进候选化学式关于中性丢失概念最佳地匹配质谱法数据110。
中性丢失计算器112c原则上可基于任何两个质谱峰值之间的质量差针对与质谱法数据110的潜在匹配而分析候选化学式。在一些实施方案中,中性丢失计算器从化学式识别器112a或公式生成器112b接收一或多个候选化学式。在一些实施方案中,用户选择候选化学式以用于中性丢失计算。在一些实例中,可从经由化学式识别器112a或公式生成器112b提供的结果列表、通过从数据库选择化学式及/或通过手动输入候选化学式来选择候选化学式。
开始于实验化合物(例如,如质谱法数据110内识别)及特定候选化学式,在一些实施方案中,中性丢失计算器112c识别与候选化学式相关的频谱数据。例如,频谱数据可通过化学结构数据118而获得。在一些实施方案中,中性丢失计算器112c搜索包含在质谱法数据110内的频谱的峰值列表,因而计算候选化学式频谱的理论质量与获自质谱法数据110的所有其它频谱峰值的实验质量之间的质量差。对于每一频谱峰值,例如,中性丢失计算器112c可比较(例如,候选分子式频谱与获自质谱法数据110的所观察质量之间计算的)差与已知分子成分的质量。例如,分子成分可被识别为中性分子成分。在一些实施方案中,分子成分是获自数据库,例如由NCBI维护的PubChem化合物数据库或由NIST维护的分子频谱数据库。在一些实施方案中,用户提供中性分子成分的列表或缩减中性分子成分的初始列表。
在一些实施方案中,由于中性丢失计算器112c实施的比较,可识别一或多个潜在中性丢失匹配。例如,可基于特定分子成分的实验中性丢失与理论质量之间的差小于质量测量准确度阈值来识别中性丢失匹配。例如,质量测量准确度阈值可包含默认设置或由用户供应的设置。此外,在一些实施方案中,中性丢失计算器112c可确定特定分子成分的理想配比法允许所提出的中性丢失候选。例如,此确定可基于构成特定分子成分的元素的每一类型的元素数目小于或等于发生在候选化学式中的此类型元素的原子数目。
在一些实施例中,代替尝试指派化学式候选给峰值列表中的所有频谱峰值的是,中性丢失计算器112c尝试指派中性丢失给特定分子成分与所观察(潜在)碎片之间的质量差。
在识别一或多个候选化学式122之后,在一些实施方案中,质谱法数据分析仪112即刻向用户呈现候选化学式122。例如,用户可在计算装置108的图形用户接口内被提供一系列可选择化学式,例如第一聚合物结构122a。除了化学式的列表以外,在一些实施方案中,质谱法数据分析仪112提供质谱法数据与候选化学式的质谱法值的数值及/或图形比较。在选择候选化学式中的一者后,例如,关于选定化学式的数据可覆盖在质谱法数据的图形分析上。在另一实例中,度量可被呈现给用户,说明质谱法数据110及候选化学式122的频谱特征之间的误差的裕度。关于图3A到3F说明用于提供设置数据116且查看候选化学式122的实例用户接口。
图2A到2C是用于从质谱法输出识别聚合物物种的实例方法的流程图。在一些实施方案中,实例方法可由关于图1描述的公式生成器112b执行。
参考图2A,用于从质谱法输出识别聚合物物种的第一方法200涉及部分基于实验聚合物化合物的重复单元部分的质量确定一或多个候选化合物。
在一些实施方案中,方法200开始于获得实验化合物的质谱法数据(202)。
在一些实施方案中,识别实验化合物的质量(204)。
在一些实施方案中,确定重复单元的质量(206)。
在一些实施方案中,识别一或多个候选化合物(208)。
在一些实施方案中,提供所述一或多个候选化合物以显示于用户(210)。
虽然方法200被说明为特定步骤系列,但是在一些实施方案中,可包含更多或更少步骤。此外,在一些实施方案中,可以不同于上述次序的次序执行步骤中的一或多者。在不违背方法200的精神及范围的情况下,其它修改是可能的。
参考图2B及2C,用于从质谱法输出识别聚合物物种的第二方法220涉及识别聚合物的末端单元的可能原子类型及计算原子组合以识别实验化合物的实验质量的阈值距离内的候选聚合物公式。
在一些实施方案中,方法220开始于接收设置数据(222)。
在一些实施方案中,识别包含于候选化学式的末端单元中的可能原子类型的集合(224)。
在一些实施方案中,识别与可能原子类型的集合的每一原子类型相关的最大数目(226)。
在一些实施方案中,识别实验化合物的目标质量(228)。
如果重复单元的化学式被提供作为方法220的输入(230),那么在一些实施方案中,计算重复单元部分的理论质量(232)。在一些实施方案中,所述计算可涉及使重复单元的质量乘以重复单元的反复次数。如果重复次数没有被规定作为输入,那么在一些实施方案中,方法220可识别初始重复次数。
如果没有提供重复单元的化学式(230),那么识别重复单元部分的质量(234)。在此情形中,重复单元部分的质量识别重复单元的总质量,包含重复单元的所有重复。
在一些实施方案中,可能原子类型的组合反复相加以识别实验化合物的目标质量的阈值内的具有总质量(包含重复单元部分的质量)的末端类型的所有潜在组合(236)。
在一些实施方案中,如果最初基于所提供化学式计算重复单元的估计质量(238)且在反复的一或多者中超过实验化合物的目标质量(240),那么使重复单元的目标化学式的重复次数递减(242)。
此时,方法220返回到使用减小的重复次数计算重复单元部分的理论质量(232)。例如,如果在第一循环中,使用重复单元化学式质量的7个实例计算重复单元部分的理论质量,那么第二循环将涉及基于重复单元化学式质量的6个实例计算理论质量。
参考图2C,在完成所有反复后,在一些实施方案中,从潜在组合的集合识别候选化学式(244)。
在一些实施方案中,获得实验化合物的质谱法数据(246)。
在一些实施方案中,识别候选化学式的理论质谱数据(248)。
在一些实施方案中,比较候选化学式的理论质谱数据与质谱法数据(250)。
如果识别额外候选化合物(252),那么对于每一候选化合物重复步骤(248)及(250)。
在一些实施方案中,至少部分基于所述比较排序候选化学式(254)。
在一些实施方案中,向用户呈现候选化学式(256)。
虽然方法220被说明为特定步骤系列,但是在一些实施方案中,可包含更多或更少步骤。此外,在一些实施方案中,可以不同于上述次序的次序执行步骤中的一或多者。在不违背方法220的精神及范围的情况下,其它修改是可能的。
图3A到3F是用于从质谱法输出识别聚合物物种的系统的实例用户接口的屏幕截图。所述屏幕截图描绘一系列用户交互,涉及匹配已知含有重复单元C2H6SiO的聚合物的实验化学式。
在一些实例中,重复单元C2H6SiO可由用户选择(例如,选自由所述程序提供以供选择的常见化学式的列表或先前由用户输入到系统中的用户专用化学式的列表等等)、由用户从单独模块拖放或由用户输入(例如,在文本输入控制中)。在一些实施方案中,用户具有输入重复单元的质量的选择权,而不是具有输入重复单元的化学式的选择权。重复单元的输入方法可取决于情形而改变。例如,在例如合成产物的分析研究的许多情况下,研究人员足够了解样本历史(例如,合成设计)以仅仅使用所述程序来验证已建置预期聚合物或确定已知(或疑似)聚合物重复单元的末端单元的成分。
参考图3A,主窗口300说明候选化学式302的第一集合。候选化学式302的第一集合最初是通过设置质子(H+)的电荷载子304及选择“找出公式”控制306而选择。例如,候选化学式302的第一集合可能已使用如关于图1描述的化学式识别器112a而推导。在一些实施方案中,候选化学式302的第一集合中的每一候选公式302是基于实验化合物的质量Mexperimental及K个元素(例如,C、H、F、O、N、Si等等)的预定集合而识别。在一些实施方案中,用户可规定K个元素的预定集合。例如,通过选择元素控制314,可向用户呈现元素选择接口以识别包含在候选化学式中的化学元素的子集。例如,元素控制314的选择可导致呈现周期表的图形表示。通过选择个别元素,用户可允许及/或不允许来自包含在候选化学式内的特定元素。
使用实验化合物的质量及K个元素的预定集合,例如候选分子的质量Mi可被计算为K个元素的子集的原子质量个别地乘以每一类型的元素(例如,C、H、F、O、N、Si等等)的数目nk的和。在一些实施方案中,嵌套循环加法(例如,n=0、1……N,k=0、1……K)用于反复通过元素的所有可能组合以识别具有质量Mexperimental的阈值距离内的质量的组合。在一些实例中,各种算法实施方案可涉及确定反复结构之前的硬循环、递归及/或按原子类型质量排序。
在一些实施方案中,算法可涉及例如基于一般化学过程的多种规则及/或限制以约束候选化学式选择中涉及的反复次数。例如,K个元素的集合可被约束成某些元素或元素类型。在另一实例中,一个元素类型可与另一元素类型有关(例如,如果使用元素X,那么不考虑涉及元素Y的化学式,或反之亦然)。
无论化学式候选识别算法的特定实施方案如何,基于实验化合物的质量Mexperimental及K个元素的预定集合识别候选的反复方法均固有地具有所涉及计算步骤对以下项的相依性的指数本质:(1)目标离子,及(2)允许考虑的原子类型的数目。图3A内说明的所得候选公式说明此方法对候选公式识别的限制。例如其中选自“化合物(PC)”数据库的候选化学式302的第一集合是在化学式数据库下拉菜单312内选择。候选化学式302的第一集合含有C40H32CINOS的第一候选化学式302a及C38H25N5Ni的第二候选化学式302b。如由第一候选化学式302的第一集合可知,第一候选化学式302均不含有聚合物的重复单元(例如C2H6SiO)。因此,图3A说明当尝试使用严格意义上的反复匹配解决方案确定大质量聚合物时出现误差的可能。
在一些实施方案中,候选化学式302可以所排序的次序显示,例如所述次序是基于频谱图案、质量及实验化学式的质谱法数据内的其它信息以及关于每一候选化学式的数据(例如由下拉菜单312内选择的数据库供应)之间的最接近类似度。如说明,每一候选化学式302与相应分数303及相应百万分率误差(ppM-误差)305相关。例如,ppM-误差305可基于单同位素峰值的用户规定的实验观察质量与候选化学式质量数据(例如,如获自化学式数据库)的比较而确定。在一些实施方案中,ppM-误差305在计算之后接着可即刻由系统(例如,关于图1描述的质谱法数据分析仪112)使用以缩减所得候选。例如,可从结果列表丢弃具有在ppM误差截止307以外的ppM-误差305的每一候选化学式。
在一些实施方案中,以某种方式计算相应分数303以分离候选的价值与对由特定数据库提供的数据的相依性。例如,相应分数303最初可基于根据以缩放成单位一的质量误差分布函数中的质量准确度截止(例如,如由系统默认设置或如由用户提供,例如在主窗口300的ppM误差截止栏307内)的单同位素峰值的实验观察质量。换句话来说,相应分数303将具有值1以指示实验数据与候选化学式之间的完全匹配。具有除了零以外的质量残差的候选化学式在此实例中将被给予小于1的相应分数303。
在一些实施方案中,相应分数303进一步通过相对于同位素丰度构造第二分数值而完善。例如,累加绝对误差截止(例如,由系统提供的默认值或由用户在同位素累加西格玛(sigma)数据栏309内规定的值)可用作单侧缩放为单位1的以零为中心的正态分布的西格玛参数。根据所述分布取得的相对同位素丰度的差可提供候选分子式的理论计算相对同位素丰度与实验相对同位素丰度之间的相对测量匹配。结合基于质量的分数值及基于同位素丰度的分数值两者,在一些实施方案中,获得相应分数303。例如,所述两个值可被视为正交坐标以依据缩放为单位1的欧几里得(Euclidian)距离计算最终分数。
在一些实施方案中,默认控制313的选择可导致设置默认电荷载子、默认ppM误差截止307及/或默认同位素累加西格玛百分数309中的一或多者。
在图形比较窗格308中,实验频谱图案310a被候选图案310b覆盖。例如,候选图案310b说明C40H32CINOS的第一候选化学式302a的频谱图案(例如,在候选化学式302的列表内上方以高亮显示说明)。
在一些实施方案中,实验频谱图案310a的值与图形比较窗格308上方说明的同位素丰度311的集合有关。在一些实施方案中,同位素丰度311可例如基于被提供给系统的质谱法数据而自动识别。例如,对于所提供频谱内的每一同位素峰值,系统(例如,如关于图1描述的质谱法分析仪112)可导入相应同位素丰度311。在一些实施方案中,用户可被提供机会来手动输入或手动调整同位素丰度311。
除了图形比较窗格308内提供的图形说明以外,在一些实施方案中,还提供关于C40H32CINOS的实验频谱图案310a与候选图案310b的比较的详细信息。例如,参考图3B,紧邻主窗口300呈现公式统计窗口316。公式统计窗口316提供绝对误差距离图表318、ppM-分数图表320及同位素-分数图表322。如上文关于图3A的分数303讨论,在一些实施方案中,分数303说明质量误差分数及同位素丰度误差分数的组合。例如,绝对误差距离图表318可说明分数303a的第一部分(例如,同位素误差)的相对值,而ppM-分数图表320可说明分数303a的第二部分(例如,质量误差)的相对值。在此实例中,同位素-分数图表322可说明分数303a(例如,0.655)的图形表示。
参考图3C,在一些实施方案中,公式生成器窗口330用于供应关于涉及重复单元加末端单元的化学式的设置数据。例如,公式生成器窗口330可用于将设置数据116提供给如关于图1描述的公式生成器112b。公式生成器窗口330包含用于选择重复单元的下拉菜单332。例如,下拉菜单332的内容可部分基于重复单元的目标质量(例如下拉菜单332上说明的目标质量334)而选择。在一些实施方案中,目标质量334是源自于关于实验化学式的质谱法数据。虽然被说明为下拉菜单332,但是在一些实施方案中,用户具有手动输入重复单元的化学式的选择权。
在下拉菜单332下方,说明一系列化学元素336,包含最小数目338、最大数目340及TypMax 342。最小数目338及最大数目340可经设置以规定实验化学式的末端单元可含有的每一元素的数目的范围。例如,用户已选择末端单元可含有以下元素中的每一者的0个元素与2个元素之间:碳336a、氟336b、氢336c、氮336d、氧336e、硫336f、氯336g、溴336h、碘336i、磷336j及硅336k。没有选择以下元素且因此以下元素可能不会包含在任一末端单元内:钠336l、钾336m及钙336n。在一些实施方案中,TypMax342列内说明的值识别每一化学元素的典型最大值,最大值是例如通过基于化学过程的约束而推导(例如,经由关于已知聚合物化合物的末端单元的成分的化学文献推导出的限制)。例如,在识别关于每一化学元素的最大数目时,TypMax 342值可被用户用作指南。
如说明,基于公式生成器窗口330内的设置,主窗口300含有候选化学式302的新集合,包含(C2H6OSi)8H1O1的第一候选化学式302a及(C2H6OSi)7C2F2H1N2的第二候选化学式302b。如上文关于图3A讨论,每一候选化学式302与相应分数303及相应ppM-误差305相关。不幸的是,每一分数303及ppM-误差305如果没有比关于图3A呈现的候选化学式更糟糕,那么便与所述候选化学式一样具有缺陷。在此情形中,用户可重新访问设置数据以继续与所述程序交互以识别具有高匹配可能性的候选化学式。
因为候选化学式302仍然不在取得“匹配”资格的范围内,所以参考图3D,用户可倾向于单独确定关于重复单元的统计数据以更好地识别适当末端单元的化学式。用户可运行关于实验化学式的多个重复单元的比较。如公式生成器窗口330中说明,化学式输入栏350含有(C2H6SiO)8的化学式。换句话来说,用户确定8次重复的重复单元是否接近实验化学式的质量。例如,用户可选择“检查”控制352以获得关于(C2H6SiO)8的化学式的结果。如图形比较窗格308上方说明,响应于激活“检查”控制352,8次重复的重复单元结构的质量354被计算为592.1503Da。基于此信息,用户可推理:胺基(NH4+)的电荷载子可比质子(H+)的先前尝试的电荷载子更加合适。在典型的情形中,电荷载子是样本化学性质(例如,盐度、酸度等等)、离子化技术类型及模式的特性。当作用于已知分析物时,例如立即显示电荷载子。在图3D中说明的特定实例中,用户可能已进行文献搜索以识别NH4+作为电荷载子的可能性。
参考图3E,电荷载子304已变为胺基(NH4+)。如主窗口300内说明,候选化学式302的列表包含氨化八聚物(C2H6OSi)8的排名第一的候选化学式302a。
在一些实施方案中,在选择候选化学式302中的一者后,即刻显示化学结构选择器370,因而提供一或多个候选化学结构372。参考图3F,基于氨化八聚物(C2H6OSi)8的候选化学式302a,说明两个候选化学结构372。在一些实施方案中,化学结构选择器370呈现在单独浏览单元内。例如,当主窗口300、公式统计窗口316及公式生成器窗口330可由质谱法数据分析仪112呈现时,化学结构选择器370可由凭借化学结构数据存储区106(例如商用数据库系统、政府数据库系统或标准组织数据库系统)提供的引擎呈现。候选化学结构372无需以特定次序排序。例如,除非候选化学结构372之间的相异(例如缺少碎片化或保留时间)可用来推导候选化学结构372之间的优先级,否则候选化学结构372可被视为各自同等可行。例如,用户可就关于实验化合物的额外信息(例如在一些实例中,气相化学性质、色谱及离子迁移)查看关于候选化合物的结构的其它类型的信息。
在一些实施方案中,候选化学结构是至少部分基于中性丢失估计。中性丢失实用程序基于匹配于数据库的母体离子的单同位素质量及同位素图案输出母体离子的候选分子式的列表。用户可设置测量的质量准确度的容差以及同位素比测量中的置信度。这些容差使得用户能够筛选出所提出分子式。在选择候选分子式中的一者后,中性丢失实用程序搜索频谱的峰值列表,因而计算所提出公式的理论质量与多个频谱峰值中的每一者的实验质量之间的质量差。对于每一频谱峰值,比较所观察质量差与数据库中的分子成分的质量。报告潜在中性丢失匹配,前提是(i)分子的实验中性丢失与理论质量之间的差小于由用户设置的质量测量准确度,及(ii)选定母体离子候选分子的理想配比法允许所提出中性丢失候选,即,包括中性丢失候选的每一类型的原子的数目在当前母体离子候选中是相等或更大的。
图4A及4B说明用于部分基于中性丢失识别化学式的实例方法400的流程图。
在一些实施方案中,方法400开始于获得候选化学式(402)。
在一些实施方案中,获得实验化合物的质谱法数据(404)。
在一些实施方案中,识别用于候选化学式的理论质谱数据(406)。
在一些实施方案中,计算候选化学式的单同位素峰值的理论质量与所有其它频谱峰值的实验质量之间的质量差(408)。
在一些实施方案中,对于每一频谱峰值,比较所计算质量差与多个中性分子成分的质量(410)。
如果在比较期间确定关于特定中性分子成分的质量差小于质量测量准确度设置(412)且进一步确定中性分子成分的理想配比法与候选化学式匹配(414),那么在一些实施方案中,特定中性分子成分被识别为中性丢失匹配(416)。在一些实施方案中,两个或两个以上中性分子成分可被识别为与特定候选化学式的中性丢失匹配。
在一些实施方案中,如果关于两个或两个以上候选化学式执行方法400(418),那么对于每一候选化学式,可重复步骤406到416。
参考图4B,在推论出识别所述一或多个中性丢失匹配后,在一些实施方案中,可即刻部分基于中性丢失匹配的结果排序候选化学式(420)。并非部分基于中性匹配结果排序或除了部分基于中性匹配结果排序以外,在一些实施方案中,可基于没有识别中性丢失匹配而从候选化学式丢弃一或多个候选化学式。
在一些实施方案中,可向用户呈现候选化学式(422)。在一些实施方案中,中性丢失匹配信息可包含在所述呈现内。
虽然方法400被说明为特定步骤系列,但是在一些实施方案中,可包含更多或更少步骤。此外,在一些实施方案中,可以不同于上述次序的次序执行步骤中的一或多者。在不违背方法400的精神及范围的情况下,其它修改是可能的。
图5A及5B是用于使用中性丢失方法识别化合物的系统的实例用户接口的屏幕截图。在一些实施方案中,屏幕截图可由关于图1描述的质谱法数据分析仪112产生。例如,屏幕截图中呈现的信息的一部分可由关于图1描述的中性丢失计算器112c产生。
参考图5A,主窗口500说明用于基于质谱法数据的分析识别一或多个候选化学式的实例用户接口。在一些实施方案中,候选化学式的识别包含例如如关于图1的化学式识别器112a描述的直接反复分析。在一些实施方案中,候选化学式的识别包含基于重复单元部分的质量的分析及潜在末端单元成分(例如如关于就图1描述的公式生成器112b描述)的识别。在选择主窗口500内的“找出公式”控制502时,例如,可识别一或多个候选化学式。如说明,识别一个候选公式504。
在右上角中,已激活CID(碰撞诱导解离)复选框506。归因于CID复选框506的激活,在一些实施方案中,中性丢失匹配过程可关于质谱法数据分析候选化学式504。例如,所述分析可包含类似于关于图4A描述的方法400的一部分的过程。
基于潜在中性丢失匹配的识别,在一些实施方案中,向用户呈现频谱接口。参考图5B,中性丢失频谱分析屏幕520包含一系列峰值522。关于峰值522,可以相应中性丢失公式524识别匹配中性分子成分的任何所识别碎片。注意,峰值522g与3个中性丢失公式(即,524d到524f)相关。
以下实例检查TOF(飞行时间)质谱的毛细管-分离器区域中的碰撞诱导解离。获得具有CID碎片化的未知化合物的质谱。使用上文关于图2A到2C描述的设施,识别未知化合物的候选。呈现选定候选的碰撞诱发解离(CID)质谱(例如,理论质谱数据)。通过搜索数据库预测并显示质谱中的每一峰值的中性丢失的元素成分。通过从母体(候选)元素成分减去中性丢失所提出的元素成分,可指派测量的质谱峰值中的每一者的元素成分。质量及理想配比法的检查可接着导致将候选识别为未知化合物的中性丢失匹配。
在图8A中,图表800说明具有具备304.1547的质量测量及所观察的碰撞诱导解离(CID)碎片化的化学式C17H21NO4的化合物的质谱信息。图表800包含多个频谱峰值,每一频谱峰值与特定幅度802及特定质量804相关。在不知道具有图表800中说明的质谱信息的化合物的化学式的情况下,使用中性丢失分析,可确定匹配的化学式候选。
例如,参考图8B,类似于关于图5A描述的主窗口500,主窗口810说明用于基于质谱法数据的分析识别一或多个候选化学式814的实例用户接口。在右上角中,已激活CID(碰撞诱导解离)复选框812。归因于CID复选框812的激活,在一些实施方案中,中性丢失匹配过程可关于图8A的图表800中说明的质谱法数据分析候选化学式814。例如,所述分析可包含类似于关于图4A描述的方法400的一部分的过程。
通过中性丢失分析,参考图8C,实例方框图820说明可通过针对分子式丢失而搜索数据库来预测图表800的每一峰值的中性丢失的元素成分,分子式丢失导致具有包含候选化学式814a的原子的一部分的化学成分的中性稳定分子。第一中性丢失匹配图表822中说明图表800的峰值的实例中性分子匹配。选自中性丢失匹配图表822的第一实例区段824a包含具有表示C7H6O2828b的中性丢失分子匹配的峰值802e。第一实例区段824a此外包含具有表示丢失C7H3NO2828a的中性丢失分子匹配的峰值802c。参考第二实例区段824b,峰值802l具有表示丢失CH4O 828c的中性丢失分子匹配。
通过从母体元素成分(例如,C17H21NO4814a)减去中性丢失所提出的元素成分(例如,828a、828b、828c),可指派对应于测量的质谱峰值的元素成分。参考图8D,结果图840包含被比较表842覆盖的图表800。对于4个实例峰值802a、802e、802l及802o中的每一者,提出的公式844已匹配所观察的质量804。在峰值802l的实例中,在从母体成分C17H21NO4814a减去CH4O 828c(如图8C的峰值802e处识别)中,确定公式C16H17NO3844b。类似地,对于峰值802e,通过从母体成分C17H21NO4814a减去(图8C的)化合物C7H6O2828b确定公式C10H15NO2844c,且通过从母体成分C17H21NO4814a减去化合物C8H10NO3(没有说明)确定公式C9H11NO 844d。
在计算所提出公式844的分子量时,计算相应期望质量846。在比较期望质量846与所观察质量804时,计算百万分率差848。参考图8B,可注意到每一情况中的ppM差848是在规定的ppM误差范围816内。
在某些实施例中,本文中描述的方法使用由具有多种质量分析仪(例如,飞行时间分析仪、扇形场质量分析仪、四极质量分析仪及/或离子阱)中的任何一或多者的质谱仪产生的数据。在某些实施例中,方法采用串联质谱法,且例如使用碰撞诱导解离(CID)、电子捕捉解离(ECD)、电子转移解离(ETD)、红外线多光子解离(IRMPD)、黑体红外线辐射解离(BIRD)、电子剥离解离(ED)及/或表面诱导解离(SID)执行分子碎片化。在某些实施例中,本文中描述的方法可结合色谱法(例如,GC-MS、LC-MS及/或IMMS)而使用。
如图6中所示,展示且描述用于从质谱法输出识别聚合物物种的示范性云计算环境600的实施方案。云计算环境600可包含一或多个资源供应商602a、602b、602c(统称为602)。每一资源供应商602可包含计算资源。在一些实施方案中,计算资源可包含用来处理数据的任何硬件及/或软件。例如,计算资源可包含能够执行算法、计算机程序及/或计算机应用程序的硬件及/或软件。在一些实施方案中,示范性计算资源可包含具有存储及检索能力的应用程序服务器及/或数据库。每一资源供应商602可连接到云计算环境600中的任何其它资源供应商602。在一些实施方案中,资源供应商602可通过计算机网络608连接。每一资源供应商602可通过计算机网络608连接到一或多个计算装置604a、604b、604c(统称为604)。
云计算环境600可包含资源管理器606。资源管理器606可通过计算机网络608连接到资源供应商602及计算装置604。在一些实施方案中,资源管理器606可促进通过一或多个资源供应商602将计算资源提供给一或多个计算装置604。资源管理器606可从特定计算装置604接收对计算资源的请求。资源管理器606可识别能够提供由计算装置604请求的计算资源的一或多个资源供应商602。资源管理器606可选择资源供应商602以提供计算资源。资源管理器606可促进资源供应商602与特定计算装置604之间的连接。在一些实施方案中,资源管理器606可在特定资源供应商602与特定计算装置604之间建立连接。在一些实施方案中,资源管理器606可使特定计算装置604改向到具有所请求计算资源的特定资源供应商602。
图7展示可用来实施本发明中描述的技术的计算装置700及移动计算装置750的实例。计算装置700旨在表示各种形式的数字计算机,例如膝上型计算机、桌上型计算机、工作站、个人数字助理、服务器、刀片服务器、大型计算机及其它适当的计算机。移动计算装置750旨在表示各种形式的移动装置,例如个人数字助理、蜂窝式电话、智能电话及其它类似计算装置。这里所示的组件、其连接及关系以及其功能意指只是实例,且并无限制之意。
计算装置700包含处理器702、存储器704、存储装置706、连接到存储器704及多个高速扩展端口710的高速接口708以及连接到低速扩展端口714及存储装置706的低速接口712。处理器702、存储器704、存储装置706、高速接口708、高速扩展端口710及低速接口712中的每一者是使用各种总线互连,且可酌情安装在共同母板上或以其它方式安装。处理器702可处理用于在计算装置700内执行的指令,包含存储在存储器704中或存储装置706上的指令以在外部输入/输出装置(例如耦合到高速接口708的显示器716)上显示GUI的图形信息。在其它实施方案中,可酌情使用多个处理器及/或多个总线以及多个存储器及存储器类型。此外,可连接多个计算装置,其中每一装置提供必要操作的部分(例如,作为服务器组、刀片服务器群组或多处理器系统)。
存储器704将信息存储在计算装置700内。在一些实施方案中,存储器704是易失性存储器单元。在一些实施方案中,存储器704是非易失性存储器单元。存储器704还可为另一形式的计算机可读媒体,例如磁盘或光盘。
存储装置706能够提供用于计算装置700的大容量存储。在一些实施方案中,存储装置706可为或含有计算机可读媒体,例如软盘装置、硬盘装置、光盘装置或磁带装置、快闪存储器或其它类似固态存储器装置或装置阵列,包含存储区域网络或其它配置中的装置。指令可存储在信息载体中。指令在由一或多个处理装置(例如处理器702)执行时执行例如上述一或多种方法。指令还可由一或多个存储装置(例如计算机或机器可读媒体(例如存储器704、存储装置706或处理器702上的存储器))存储。
高速接口708管理用于计算装置700的带宽密集型操作,而低速接口712管理较低带宽密集型操作。此功能分配只是实例。在一些实施方案中,高速接口708(例如通过图形处理器或加速器)耦合到存储器704、显示器716且耦合到高速扩展端口710,所述高速扩展端口710可接受各种扩展卡(未展示)。在实施方案中,低速接口712耦合到存储装置706及低速扩展端口714。可包含各种通信端口(例如,USB、以太网、无线以太网)的低速扩展端口714可例如通过网络适配器耦合到一或多个输入/输出装置,例如键盘、指向装置、扫描仪或联网装置,例如交换机或路由器。
计算装置700可以如图中所示的多种不同形式实施。例如,其可实施为标准服务器720或多次在此类服务器的群组中实施。此外,其可实施于个人计算机(例如膝上型计算机722)中。其还可被实施为机架式服务器系统724的部分。替代地,来自计算装置700的组件可与例如移动计算装置750的移动装置(未展示)中的其它组件组合。此类装置中的每一者可含有计算装置700及移动计算装置750中的一或多者,且整个系统可由彼此通信的多个计算装置组成。
除了其它组件以外,移动计算装置750还包含处理器752、存储器764、输入/输出装置(例如显示器754)、通信接口766及收发器768。移动计算装置750还可具有存储装置(例如微型驱动或其它装置)以提供额外存储。处理器752、存储器764、显示器754、通信接口766及收发器768中的每一者是使用各种总线互连,且多个组件可酌情安装在共同母板上或以其它方式安装。
处理器752可执行移动计算装置750内的指令,包含存储在存储器764中的指令。处理器752可被实施为包含单独及多个模拟及数字处理器的芯片的芯片组。处理器752可提供(例如)移动计算装置750的其它组件的协作,例如用户接口、由移动计算装置750运行的应用程序及由移动计算装置750进行的无线通信的控制。
处理器752可通过耦合到显示器754的控制接口758及显示接口756与用户通信。显示器754可为例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其它适当的显示技术。显示接口756可包含用于驱动显示器754以向用户呈现图形及其它信息的适当电路。控制接口758可从用户接收命令并转换所述命令以提交给处理器752。此外,外部接口762可提供与处理器752的通信以使得移动计算装置750能够与其它装置进行近区域通信。外部接口762可在一些实施方案中提供例如有线通信,或在其它实施方案中提供无线通信,且还可使用多个接口。
存储器764将信息存储在移动计算装置750内。存储器764可被实施为计算机可读媒体、易失性存储器单元或非易失性存储器单元中的一或多者。还可提供扩展存储器774且其可通过扩展接口772连接到移动计算装置750,所述扩展接口772可包含例如SIMM(单列直插式存储器模块)卡接口。扩展存储器774可提供额外存储空间用于移动计算装置750,或还可存储用于移动计算装置750的应用程序或其它信息。具体来说,扩展存储器774可包含用于实行或增补上述过程的指令,且还可包含安全信息。因此,例如,扩展存储器774可被提供作为用于移动计算装置750的安全模块,且可用允许安全使用移动计算装置750的指令而编程。此外,可经由SIMM卡提供安全应用程序以及额外信息,例如以不可侵入方式将识别信息置于SIMM卡上。
存储器可包含例如如下文讨论的快闪存储器及/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方案中,指令存储在信息载体中。指令在由一或多个处理装置(例如处理器752)执行时执行例如上述一或多种方法。指令还可由一或多个存储装置(例如一或多个计算机或机器可读媒体(例如存储器764、扩展存储器774或处理器752上的存储器))存储。在一些实施方案中,指令可例如通过收发器768或外部接口762接收于传播信号中。
移动计算装置750可通过通信接口766无线地通信,所述通信接口766必要时可包含数字信号处理电路。通信接口766可提供用于在各种模式或协议下的通信,除了其它以外,所述模式或协议例如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息接发服务)或MMS消息接发(多媒体消息接发服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝式)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线业务)。此通信可通过(例如)使用射频的收发器768而发生。此外,短程通信可使用(例如)Wi-FiTM或其它此收发器(未展示)而发生。此外,GPS(全球定位系统)接收器模块770可将额外导航及位置相关无线数据提供给移动计算装置750,所述无线数据可酌情由在移动计算装置750上运行的应用程序使用。
移动计算装置750还可使用音频编解码器760以语音通信,所述音频编解码器760可从用户接收口头信息且将所述口头信息转换成可用数字信息。音频编解码器760可同样地例如通过例如移动计算装置750的手持机中的扬声器产生用于用户的可听声音。此声音可包含来自语音电话呼叫的声音,可包含录音声音(例如语音消息、音乐文件等等),且还可包含由在移动计算装置750上操作的应用程序生成的声音。
移动计算装置750可以如图中所示的多种不同形式实施。例如,其可被实施为蜂窝式电话780。其还可被实施为智能电话782、个人数字助理或其它类似移动装置的部分。
这里描述的系统及技术的各种实施方案可实现于数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件及/或其组合中。这些各种实施方案可包含一或多个计算机程序中的实施方案,所述计算机程序可在包含至少一个可编程处理器(可为专用或通用的)的可编程系统上执行及/或解译,所述可编程处理器经耦合以从存储系统、至少一个输入装置及至少一个输出装置接收数据及指令以及将数据及指令发射到存储系统、至少一个输入装置及至少一个输出装置。
这些计算机程序(还被视为程序、软件、软件应用程序或代码)包含用于可编程处理器的机器指令,且可以高级程序及/或面向对象编程语言及/或汇编/机器语言实施。如本文中所使用,术语机器可读媒体及计算机可读媒体是指用于将机器指令及/或数据提供给可编程处理器的任何计算机程序产品、设备及/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包含接收机器指令作为机器可读信号的机器可读媒体。术语机器可读信号是指用于将机器指令及/或数据提供给可编程处理器的任何信号。
为提供与用户的交互,这里描述的系统及技术可实施于具有向用户显示信息的显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)及键盘及指向装置(例如鼠标或轨迹球)的计算机上,用户可通过键盘及指向装置将输入提供给计算机。其它种类的装置也可用于提供与用户的交互;例如,被提供给用户的反馈可为任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);及来自用户的输入可以任何形式(包含声波、语音或触觉输入)接收。
这里描述的系统及技术可实施于计算系统中,所述计算系统包含后端组件(例如,作为数据服务器)或包含中间件组件(例如,应用程序服务器)或包含前端组件(例如具有图形用户接口或网络浏览器的客户端计算机,用户可通过网络浏览器与这里描述的系统及技术的实施方案交互)或此类后端、中间件或前端组件的任何组合。系统的组件可由任何形式或媒体的数字数据通信(例如通信网络)互连。通信网络的实例包含局域网(LAN)、广域网(WAN)及因特网。
计算系统可包含客户端及服务器。客户端及服务器通常彼此远离且通常通过通信网络而交互。客户端及服务器的关系凭借在相应计算机上运行且彼此具有客户端-服务器关系的计算机程序而出现。
根据这里描述的系统及方法的结构、功能及设备,在一些实施方案中,提供一种用于从质谱法输出识别聚合物物种的系统及方法。在描述用于支持从质谱法输出识别聚合物物种的方法及设备的某些实施方案之后,所属领域的一般技术人员现在将明白可使用并入有本发明的概念的其它实施方案。因此,本发明不应限于某些实施方案,而是应只受限于所附权利要求书的精神及范围。

Claims (21)

1.一种系统,其包括:
处理器;及
存储器,其上存储指令,其中所述指令在由所述处理器执行时使得所述处理器:
存取包括未识别化合物的样本的质谱法数据;
至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式;
存取用于所述第一候选化学式的频谱数据;及
确定所述第一候选化学式是对于所述未识别化合物的中性丢失匹配,所述中性丢失匹配的所述确定对于所述质谱法数据的多个频谱峰值中的每一者来说包括:
计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及
比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
2.根据权利要求1所述的系统,其中所述频谱数据包括碰撞诱导解离CID质谱。
3.根据权利要求1或2所述的系统,其中
识别至少所述第一候选化学式包括识别第二候选化学式;及
所述指令在由所述处理器执行时进一步使得所述处理器:
确定所述第二候选化学式是对于所述未识别化合物的中性丢失匹配,及
部分基于中性丢失匹配的类似度按到未知化合物的匹配排序所述第一候选化学式及所述第二候选化学式。
4.根据权利要求1到2中的任一权利要求所述的系统,其中识别所述一或多个候选中性分子成分包括识别所述一或多个候选中性分子成分中的每一候选中性分子成分具有所述频谱峰值的所述相应实验质量的质量测量准确度的范围内的相应质量。
5.根据权利要求1到2中的任一权利要求所述的系统,其中确定所述第一候选化学式是对于所述未识别化合物的中性丢失匹配进一步包括识别所述第一候选化学式的理想配比法允许所述一或多个候选中性分子成分中的至少第一候选中性分子成分。
6.根据权利要求5所述的系统,其中识别所述第一候选化学式的理想配比法允许所述第一候选中性分子成分包括对于所述第一候选中性分子成分确定所述第一候选化学式中的每一类型的原子数目大于所述候选中性丢失成分中的每一对应类型的原子数目。
7.根据权利要求1到2中的任一权利要求所述的系统,其中所述未识别化合物包括重复结构单元以及,可选地,一个或多个末端单元,且识别所述第一候选化学式包括:
确定以下项中的至少一者:(a)所述重复结构单元的化学式,及(b)由所述重复结构单元组成的所述未识别化合物的一部分的估计质量;及
至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的所述第一候选化学式:(a)所述重复结构单元的所述化学式,及(b)由所述重复结构单元组成的所述未识别化合物的所述部分的所述估计质量。
8.一种用于识别未识别化合物的物种的方法,所述方法包括:
由计算装置的处理器存取包括所述未识别化合物的样本的质谱法数据;
由所述处理器至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式;
由所述处理器存取用于所述第一候选化学式的频谱数据;及
由所述处理器确定所述第一候选化学式是对于所述未识别化合物的中性丢失匹配,所述中性丢失匹配的所述确定对于所述质谱法数据的多个频谱峰值中的每一者来说包括:
计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及
比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
9.根据权利要求8所述的方法,其中所述频谱数据包括碰撞诱导解离CID质谱。
10.根据权利要求8或9所述的方法,其中识别至少所述第一候选化学式包括识别第二候选化学式,所述方法进一步包括:
由所述处理器确定所述第二候选化学式是对于所述未识别化合物的中性丢失匹配;及
由所述处理器部分基于中性丢失匹配的类似度按到所述未知化合物的匹配排序所述第一候选化学式及所述第二候选化学式。
11.根据权利要求8到9中的任一权利要求所述的方法,其中识别所述一或多个候选中性分子成分包括识别所述一或多个候选中性分子成分中的每一候选中性分子成分具有所述频谱峰值的所述相应实验质量的质量测量准确度的范围内的相应质量。
12.根据权利要求8到9中的任一权利要求所述的方法,其中确定所述第一候选化学式是对于所述未识别化合物的中性丢失匹配进一步包括识别所述第一候选化学式的理想配比法允许所述一或多个候选中性分子成分中的至少第一候选中性分子成分。
13.根据权利要求12所述的方法,其中识别所述第一候选化学式的理想配比法允许所述第一候选中性分子成分包括对于所述第一候选中性分子成分确定所述第一候选化学式中的每一类型的原子数目大于所述候选中性丢失成分中的每一对应类型的原子数目。
14.根据权利要求8到9中的任一权利要求所述的方法,其中所述未识别化合物包括重复结构单元以及可选地一个或多个末端单元,且识别所述第一候选化学式包括:
确定以下项中的至少一者:(a)所述重复结构单元的化学式,及(b)由所述重复结构单元组成的所述未识别化合物的一部分的估计质量;及
至少部分基于所述质谱法数据且进一步部分基于以下项中的至少一者识别所述未识别化合物的所述第一候选化学式:(a)所述重复结构单元的所述化学式,及(b)由所述重复结构单元组成的所述未识别化合物的所述部分的所述估计质量。
15.一种用于识别未识别化合物的物种的装置,所述装置包括:
用于存取包括未识别化合物的样本的质谱法数据的构件;
用于至少部分基于所述质谱法数据识别用于所述未识别化合物的至少第一候选化学式的构件;
用于存取用于所述第一候选化学式的频谱数据的构件;及
用于确定所述第一候选化学式是对于所述未识别化合物的中性丢失匹配的构件,所述中性丢失匹配的所述确定对于所述质谱法数据的多个频谱峰值中的每一者来说包括:
计算所述第一候选化学式的理论质量与对应于所述频谱峰值的相应实验质量之间的相应质量差,及
比较所述相应质量差与一或多个对应中性分子成分中的每一者的质量以识别对应于所述频谱峰值的一或多个候选中性分子成分。
16.根据权利要求8所述的方法,其包括产生针对包括所述未识别化合物的所述样本的所述质谱法数据。
17.根据权利要求8所述的方法,其中识别用于所述未识别化合物的至少第一候选化学式包括比较由所述质谱法数据确定的单同位素质量与一个或多个候选母体离子的每一者的单同位素质量。
18.根据权利要求17所述的方法,其中所述第一候选化学式对应于具有在由所述质谱法数据确定的所述单同位素质量的阈值距离内的单同位素质量的母体离子的化学式。
19.根据权利要求9所述的方法,其中所述质谱法数据的所述多个频谱峰值中的每一者为所述碰撞诱导解离CID质谱的峰值。
20.根据权利要求1所述的系统,其包括用以产生针对包括所述未识别化合物的所述样本的所述质谱法数据的质谱仪。
21.根据权利要求20所述的系统,其中所述质谱仪为串联质谱分析仪。
CN201380042377.7A 2012-08-09 2013-01-28 用于从质谱法输出识别聚合物物种的方法及设备 Active CN104813324B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261681575P 2012-08-09 2012-08-09
US61/681,575 2012-08-09
US201261696071P 2012-08-31 2012-08-31
US61/696,071 2012-08-31
PCT/US2013/023442 WO2014025378A1 (en) 2012-08-09 2013-01-28 Methods and apparatus for identification of polymeric species from mass spectrometry output

Publications (2)

Publication Number Publication Date
CN104813324A CN104813324A (zh) 2015-07-29
CN104813324B true CN104813324B (zh) 2017-09-05

Family

ID=47741264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380042377.7A Active CN104813324B (zh) 2012-08-09 2013-01-28 用于从质谱法输出识别聚合物物种的方法及设备

Country Status (4)

Country Link
US (2) US9410926B2 (zh)
EP (1) EP2883175B1 (zh)
CN (1) CN104813324B (zh)
WO (1) WO2014025378A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9410926B2 (en) 2012-08-09 2016-08-09 Perkinelmer Health Sciences, Inc. Methods and apparatus for identification of polymeric species from mass spectrometry output
WO2014144074A1 (en) * 2013-03-15 2014-09-18 Smiths Detection Inc. Mass spectrometry (ms) identification algorithm
US9640376B1 (en) 2014-06-16 2017-05-02 Protein Metrics Inc. Interactive analysis of mass spectrometry data
WO2016002047A1 (ja) * 2014-07-03 2016-01-07 株式会社島津製作所 質量分析データ処理装置
US9385751B2 (en) 2014-10-07 2016-07-05 Protein Metrics Inc. Enhanced data compression for sparse multidimensional ordered series data
US10354421B2 (en) 2015-03-10 2019-07-16 Protein Metrics Inc. Apparatuses and methods for annotated peptide mapping
US10607723B2 (en) * 2016-07-05 2020-03-31 University Of Kentucky Research Foundation Method and system for identification of metabolites using mass spectra
US10319573B2 (en) 2017-01-26 2019-06-11 Protein Metrics Inc. Methods and apparatuses for determining the intact mass of large molecules from mass spectrographic data
US10615015B2 (en) * 2017-02-23 2020-04-07 Thermo Fisher Scientific (Bremen) Gmbh Method for identification of the elemental composition of species of molecules
US11626274B2 (en) 2017-08-01 2023-04-11 Protein Metrics, Llc Interactive analysis of mass spectrometry data including peak selection and dynamic labeling
US10546736B2 (en) 2017-08-01 2020-01-28 Protein Metrics Inc. Interactive analysis of mass spectrometry data including peak selection and dynamic labeling
US10510521B2 (en) 2017-09-29 2019-12-17 Protein Metrics Inc. Interactive analysis of mass spectrometry data
JP6994921B2 (ja) * 2017-12-05 2022-01-14 日本電子株式会社 質量分析データ処理装置および質量分析データ処理方法
US20210257046A1 (en) * 2018-06-11 2021-08-19 Merck Sharp & Dohme Corp. Cut Vertex Method for Identifying Complex Molecule Substructures
EP3584007A1 (en) * 2018-06-18 2019-12-25 Covestro Deutschland AG Method and computer system for determining production parameters for the production of a polymeric product
US11640901B2 (en) * 2018-09-05 2023-05-02 Protein Metrics, Llc Methods and apparatuses for deconvolution of mass spectrometry data
US11346844B2 (en) 2019-04-26 2022-05-31 Protein Metrics Inc. Intact mass reconstruction from peptide level data and facilitated comparison with experimental intact observation
EP4163841A1 (en) * 2020-06-09 2023-04-12 Preferred Networks, Inc. Estimation device, training device, estimation method, training method, and program
JP2023544647A (ja) 2020-08-31 2023-10-24 プロテイン・メトリクス・エルエルシー 多次元時系列データのためのデータ圧縮
CN116297794B (zh) * 2023-05-11 2023-10-31 深圳大学 基于超高分辨质谱仪的有机物确定方法及终端设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398417A (zh) * 2008-10-29 2009-04-01 中国药科大学 一种中药复杂组分快速检出与结构鉴定的通用性方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0212470D0 (en) * 2002-05-30 2002-07-10 Shimadzu Res Lab Europe Ltd Mass spectrometry
US7510880B2 (en) * 2002-06-26 2009-03-31 Gross Richard W Multidimensional mass spectrometry of serum and cellular lipids directly from biologic extracts
US20050164324A1 (en) * 2003-06-04 2005-07-28 Gygi Steven P. Systems, methods and kits for characterizing phosphoproteomes
GB0811298D0 (en) * 2008-06-19 2008-07-30 Trillion Genomics Ltd Characterising polypeptides
US9273339B2 (en) * 2011-01-03 2016-03-01 University Of Maryland, Baltimore Methods for identifying bacteria
US9410926B2 (en) 2012-08-09 2016-08-09 Perkinelmer Health Sciences, Inc. Methods and apparatus for identification of polymeric species from mass spectrometry output

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398417A (zh) * 2008-10-29 2009-04-01 中国药科大学 一种中药复杂组分快速检出与结构鉴定的通用性方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mass Spectrometry and Protein Analysis;Bruno Domon;《science》;20060414;第312卷(第5771期);全文 *
气相色谱-质谱定性定量分析新方法研究;张良晓;《中国博士学位论文全文数据库工程科技Ⅰ辑》;20111215;全文 *

Also Published As

Publication number Publication date
CN104813324A (zh) 2015-07-29
WO2014025378A1 (en) 2014-02-13
EP2883175B1 (en) 2023-07-12
EP2883175A1 (en) 2015-06-17
US10068063B2 (en) 2018-09-04
US20170004289A1 (en) 2017-01-05
US20140045273A1 (en) 2014-02-13
US9410926B2 (en) 2016-08-09

Similar Documents

Publication Publication Date Title
CN104813324B (zh) 用于从质谱法输出识别聚合物物种的方法及设备
Böcker et al. Towards de novo identification of metabolites by analyzing tandem mass spectra
US9305755B2 (en) Mass analysis data processing method and mass analysis data processing apparatus
CA2843648C (en) Chemical identification using a chromatography retention index
US9595426B2 (en) Method and system for mass spectrometry data analysis
US9299547B2 (en) Use of mass spectral difference networks for determining charge state, adduction, neutral loss and polymerization
Kou et al. A new scoring function for top-down spectral deconvolution
Mancuso et al. Data extraction from proteomics raw data: an evaluation of nine tandem MS tools using a large Orbitrap data set
US20140260536A1 (en) Mass spectrometry (ms) identification algorithm
CN109964300A (zh) 用于实时同位素识别的系统和方法
WO2022032002A1 (en) Mass spectrometry based systems and methods for implementing multistage ms/ms analysis
Barbarini et al. A new approach for the analysis of mass spectrometry data for biomarker discovery
US20230298706A1 (en) Methods, mediums, and systems for determining variation relating to compound structures
EP4102509A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
US20230384274A1 (en) Methods, mediums, and systems for targeted isotope clustering
Griffiths et al. New Scans and Resources in Lipidomics
Shi et al. PolyCut: a computer programme for assignments of MS n signals of metallo-biomolecules by considering the entire isotope patterns
EP4356386A1 (en) Methods, mediums, and systems for predicting molecule modifications
EP4356385A1 (en) Comparing a modeled molecule fragmentation to an experimental molecule fragmentation
Gavard Addressing the challenge of petroleomics data
Agarwal Topics in mass spectrometry based structure determination
Yu et al. An ion transformation approach for de novo peptide sequencing via tandem mass spectra
Brancia Meeting review: the 50th ASMS conference on mass spectrometry and allied topics: Orlando, Florida, USA, 2–6 June 2002
Lu Algorithmic study on mass spectrometry and proteomics
Ji Using peak intensity and fragmentation patterns in peptide sequence identification (SQID): A Bayesian learning algorithm for tandem mass spectra

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant