CN117999605A - 谱比较 - Google Patents
谱比较 Download PDFInfo
- Publication number
- CN117999605A CN117999605A CN202280062491.5A CN202280062491A CN117999605A CN 117999605 A CN117999605 A CN 117999605A CN 202280062491 A CN202280062491 A CN 202280062491A CN 117999605 A CN117999605 A CN 117999605A
- Authority
- CN
- China
- Prior art keywords
- sample
- quality
- spectral
- background
- rms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 119
- 238000001819 mass spectrum Methods 0.000 claims abstract description 153
- 150000001875 compounds Chemical class 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 101
- 238000012360 testing method Methods 0.000 claims description 63
- 239000000126 substance Substances 0.000 claims description 53
- 238000001228 spectrum Methods 0.000 claims description 50
- 238000004949 mass spectrometry Methods 0.000 claims description 28
- 230000015556 catabolic process Effects 0.000 claims description 15
- 238000006731 degradation reaction Methods 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 239000007857 degradation product Substances 0.000 claims description 14
- 239000012535 impurity Substances 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 11
- 239000000356 contaminant Substances 0.000 claims description 7
- 238000001214 thermospray mass spectrometry Methods 0.000 claims description 4
- 238000011491 transcranial magnetic stimulation Methods 0.000 claims description 4
- 125000000026 trimethylsilyl group Chemical group [H]C([H])([H])[Si]([*])(C([H])([H])[H])C([H])([H])[H] 0.000 claims description 4
- 238000001303 quality assessment method Methods 0.000 abstract description 16
- 239000000523 sample Substances 0.000 description 211
- 238000004458 analytical method Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 41
- 150000002500 ions Chemical class 0.000 description 39
- 230000015654 memory Effects 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 14
- 238000003908 quality control method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000000513 principal component analysis Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 239000002609 medium Substances 0.000 description 9
- 239000002904 solvent Substances 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000013467 fragmentation Methods 0.000 description 7
- 238000006062 fragmentation reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 239000012491 analyte Substances 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- -1 urine Substances 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 229940000406 drug candidate Drugs 0.000 description 3
- 238000000132 electrospray ionisation Methods 0.000 description 3
- 230000000155 isotopic effect Effects 0.000 description 3
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 3
- 238000000491 multivariate analysis Methods 0.000 description 3
- 238000004885 tandem mass spectrometry Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000005040 ion trap Methods 0.000 description 2
- 239000002207 metabolite Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 239000012496 blank sample Substances 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000006143 cell culture medium Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006258 combinatorial reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002540 product ion scan Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
- G01N30/8686—Fingerprinting, e.g. without prior knowledge of the sample components
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
公开了用于谱比较和品质评估的方法和系统。在一个示例中,提供了一种用于评估样品的质谱(MS)的品质的方法。该方法包括:参照目标化合物预定义指示样品品质的一个或多个特征或属性;以及关于所选择的特征或属性计算MS的品质评分。
Description
相关申请的交叉引用
本申请于2022年9月15日作为PCT国际专利申请提交,其要求于2021年9月15日提交的美国临时申请No.63/244,424的优先权和利益,该申请整体通过引用并入本文。
背景技术
化学化合物库通常用在药物发现、组合化学/反应筛选、临床筛选、库存品质控制等领域中。在使用化学化合物库中的所选择的成员化学品之前评估和确保该成员化学品的品质和性质是重要的。例如,在通过使用生物反应系统的药物发现中,评估药物候选物的性质(例如每种药物结构对蛋白质功能、吸收、分布、代谢和排泄性质的抑制作用等)要求将来自大型(高达数百万级规模)药物候选物库中的每个单独的库成员配量和培育在生物反应系统中。每个库成员的储备溶液中标准化合物的品质直接关系到测定读出——标准化合物的杂质和/或降解可能导致假阳性/阴性结果。因此,期望在配量至测定反应之前确认药物候选物库的每个库成员的品质(化合物品质控制)。然而,由于通量限制和/或时间效率低,没有合适的平台可以处理百万级规模化学品库的化合物品质控制(QC)。
传统上,通过使用质谱对样品进行品质评估是基于有限的属性的,例如,以目标离子强度或积分的m/z峰面积作为唯一的度量,而不将样品的质谱与参照谱或数据集进行比较。在缺乏谱比较的情况下,传统方法缺乏描述杂质分布或干扰化合物的能力,尤其是当样品具有复杂的样品基质或源自复杂的生物来源或环境时。有限的谱比较或没有谱比较的缺陷可能导致目标化合物的识别、假阳性或假阴性结果、高估或低估样品效力等问题,尤其是在大型化学品库的化合物QC的背景下。
发明内容
在一个方面中,本公开涉及一种用于评估样品的质谱(MS)的品质的方法。在一个示例中,方法包括:参照目标化合物预定义指示样品品质的一个或多个特征或属性;以及关于所选择的特征或属性计算MS的品质评分。
在一些实施例中,预定义的特征选自以下的组:目标化合物的预期m/z值;目标化合物的在预期m/z值处的峰的强度;目标化合物的指纹谱特征、指示干扰和/或干扰量的谱特征、指示目标化合物的降解或劣化的谱特征、或其组合。
在一些实施例中,该方法还包括:从样品的MS中提取谱特征;比较所提取的特征与指示样品量的预定义特征;可选地生成比较度量,该比较度量包括所提取的特征与对应的预定义特征之间的比较;以及计算指示至少一个样品品质状态的组合品质评分。
在一些实施例中,该方法还包括:从样品的MS中识别非预期的谱特征;以及基于非预期的谱特征确定干扰化合物的存在或不存在或量,其中干扰化合物选自以下的组:背景噪声、杂质、污染物、目标化合物的降解产物、目标化合物的劣化产物、或其任何组合。
在一些实施例中,样品是化学品库或组合库中的成员化合物的样品。
在一些实施例中,样品的MS用作关于目标化合物的参照质谱(RMS),其中RMS具有确定的谱品质评分。在一些实施例中,样品的RMS是在第一时间处获得的。在一些实施例中,该方法还包括:在第二时间处获得样品的测试质谱(TMS);关于指示样品品质的预定义特征比较TMS与RMS;参照目标化合物计算TMS的谱品质评分;以及确定样品在第二时间处的品质状态。
在一些实施例中,该方法还包括:识别MS的背景或(一个或多个)背景信号;以及从MS中减去背景或(一个或多个)背景信号。在一些实施例中,该方法还包括计算减去背景的MS的品质评分。
在一些实施例中,该方法还包括:识别RMS和/或TMS中的每个的背景或(一个或多个)背景信号;以及从RMS和/或TMS中减去所识别的背景或(一个或多个)背景信号。在一些实施例中,该方法还包括:比较减去背景的RMS与减去背景的TMS,以计算谱品质评分。
在一些实施例中,该方法还包括:构建化学品库的参照谱库,其中化学品库包括至少一种成员化合物,以及其中参照谱库包括所选择的或所有(一个或多个)成员化合物的RMS。
在一些实施例中,使用探试法(heuristic method)来计算MS的品质评分。在其他实施例中,使用机器学习方法来计算MS的品质评分。
在另一方面中,本公开涉及评估样品的品质的方法。在一个示例中,该方法包括:比较样品的测试质谱(TMS)与样品的对应的参照质谱(RMS);比较从TMS中提取的谱特征与源自RMS的预定义的特征或属性,其中预定义的特征或属性关于样品的目标化合物指示样品品质;可选地生成比较度量,该比较度量包括每个提取的谱特征与对应的预定义特征之间的比较;基于比较计算组合品质评分,其中组合品质评分指示样品的至少一个品质状态。在一些实施例中,样品的品质状态选自以下的组:杂质水平、污染物、目标化合物的降解、目标化合物的劣化。
在一些实施例中,该方法还包括:识别RMS和/或TMS中的每个的背景或(一个或多个)背景信号;以及从RMS和/或TMS中减去所识别的背景或(一个或多个)背景信号。在一些实施例中,该方法还包括:比较减去背景的RMS与减去背景的TMS,以计算谱品质评分。
在又一个方面中,本公开涉及一种确定样品的品质状态的方法。在一个示例中,方法包括:比较样品的测试质谱(TMS)的谱品质与样品的对应的参照质谱(RMS)的谱品质;其中关于编码谱和元数据比较TMS和RMS。
在另一方面中,本公开涉及用于化学品库的化合物QC的方法。在一个示例中,方法包括:参照目标化合物获得所选择的感兴趣的库成员的参照质谱(RMS),库成员来自化学品库;在一时间处分析所选择的库成员的样品,以获得代表该样品在该时间处的品质状态的测试质谱(TMS);关于每个所选择的库成员从RMS和/或TMS中减去背景;关于每个所选择的库成员进行TMS与RMS的全谱比较;生成比较度量,该比较度量包括谱和谱特征的比较;以及确定所选择的库成员在该库成员被分析时的品质状态。
在另一示例中,一种用于化学品库的化合物QC的方法包括:构建化学品库的参照谱库,该参照谱库包括关于化学品库的每个库成员的参照质谱;构建测试谱库,该测试谱库包括关于每个库成员的对应的测试质谱和提取的谱特征;关于每个所选择的库成员从RMS和/或TMS中减去背景;关于每个库成员进行测试谱库与参照谱库的全谱比较;生成比较度量,该比较度量包括关于每个库成员的谱和谱特征的比较;确定每个所选择的库成员在该库成员被分析时的品质状态;以及可选地确定化学品库的整体品质。
一种或多种技术的细节在附图和下面的描述中被阐述。这些技术的其他特征、目标和优点将根据说明书、附图和权利要求而变得清楚。
附图说明
图1是图示了根据本公开的各种方面和实施例的一个示例性质量分析系统100的示意图。
图2描绘了组合了声学液滴喷射(ADE)系统与开放端口接口(OPI)和离子源的示例系统的示意视图。
图3是图示了根据本公开的各种方面和实施例的计算装置200的一个具体示例的示意图。
图4是图示了根据本公开的各种方面和实施例的数据处理系统300的一个具体示例的示意图。
图5是图示了根据本公开的各种方面和实施例的数据处置模块310及其各种操作功能的一个具体示例的示意图。
图6是图示了根据本公开的各种方面和实施例的质谱分析模块320及其各种操作功能的一个具体示例的示意图。
图7是图示了根据本公开的各种方面和实施例的谱特征提取模块330及其各种操作功能的一个具体示例的示意图。
图8是图示了根据本公开的各种方面和实施例的谱比较模块340及其各种操作功能的一个具体示例的示意图。
图9是图示了根据本公开的各种方面和实施例的品质评估模块350及其各种操作功能的一个具体示例的示意图。
图10图示了根据本公开的各种方面和实施例的示出了根据谱比较生成的结果的GUI屏幕的一个示例。
图11图示了根据图10的谱比较的PCA结果的示例。
图12(a)图示了根据本公开的各种方面和实施例的根据谱比较计算出的相似性评分的一个示例。
图12(b)图示了根据本公开的各种方面和实施例的根据谱比较计算出的相似性评分的另一示例。
图13图示了根据本公开的各种方面和实施例的用于评估样品的质谱的品质的方法的流程图。
图14图示了根据本公开的各种方面和实施例的图13的操作450的具体示例的流程图。
图15图示了根据本公开的各种方面和实施例的图13的操作470的具体示例的流程图。
图16图示了根据本公开的各种方面和实施例的用于确定样品的品质状态的一个示例方法的流程图。
图17图示了根据本公开的各种方面和实施例的图16的操作510的具体示例的流程图。
图18图示了根据本公开的各种方面和实施例的用于化学品库的品质控制的一个示例方法的流程图。
图19图示了根据本公开的各种方面和实施例的用于化学品库的品质控制的另一示例方法的流程图。
在详细描述本教导的一个或多个实施例之前,本领域技术人员将理解的是,本教导不将其应用限制于在下面的详细描述中阐述或者在附图中图示的结构细节、部件布置和步骤布置。此外,要理解的是,本文中使用的术语是为了描述的目的而不应被视为限制。
具体实施方式
所选择的术语的定义和解释
为了解释本说明书的目的,将应用以下定义,并且只要适当的时候,单数使用的术语也将包括复数,且反之亦然。下面阐述的定义应取代通过引用并入本文的任何文件中的任何冲突定义。
如本文中所使用的,单数形式的“一(a/an)”和“该”既包括单数也包括复数所指对象,除非上下文另外明确指出。
如本文所使用的术语“包括(comprising/comprises/comprised of)”与“包含(including/includes)”或“含有(containing/contains)”同义,并且是包容性的或开放式的并且不排除额外的、未列举的成员、要素或方法步骤。将理解的是,如本文所使用的术语“包括(comprising/comprises/comprised of)”包括术语“由...构成(consisting of/consists/consists of)”。
通过端点列举的数值范围包括纳入在相应范围内的所有数字和小数以及所列举的端点。
尽管术语“一个或多个”或“至少一个”,诸如一组成员中的一个或多个成员或至少一个成员之类,本身是清楚的,但以进一步示例的方式,该术语除其他外还涵盖对所述成员中的任何一个成员或对所述成员中的任何两个或更多个成员,诸如例如所述成员中的任何≥3、≥4、≥5、≥6或≥7个等成员,以及多至所有所述成员的引用。
除非另外定义,本公开中使用的所有术语,包括技术和科学术语,具有本公开所属领域的普通技术人员通常理解的含义。以进一步指导的方式,包括了术语定义以更好地理解本公开的教导。
遍及本说明书对“一个实施例”或“一实施例”的引用意味着结合该实施例描述的具体特征、结构或特性被包括在本公开的至少一个实施例中。因此,遍及本说明书在各种地方出现的短语“在一个实施例中”或“在一实施例中”不一定都指代相同的实施例,但可以指代相同的实施例。此外,在一个或多个实施例中,如对于本领域技术人员根据本公开将清楚的是,可以以任何合适的方式组合具体特征、结构或特性。此外,虽然本文描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征,但是不同实施例的特征的组合意味着在本公开的范围内,并且形成不同的实施例,如本领域技术人员将理解的。
此外,在描述各种实施例时,说明书可以将方法和/或过程呈现为特定序列的步骤。然而,就该方法或过程不依赖于本文阐述的步骤的特定顺序而言,该方法或过程不应限于所描述的步骤的特定顺序。如本领域普通技术人员将理解的,其他步骤顺序可以是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。另外,针对方法和/或过程的权利要求不应限于按所写顺序执行它们的步骤,并且本领域技术人员可以容易地理解,顺序可以改变并且仍然保持在各种实施例的精神和范围内。
用于质量分析的系统
本公开一般地涉及通过使用质谱用于样品分析的系统、方法和工作流程,具体地涉及质谱的品质评估、谱比较、样品品质的评估、谱库构建、化学品库的品质控制。
在一个方面中,本公开提供了用于分析样品以评估从样品分析获得的质谱的品质并确定样品的品质状态的系统和方法。图1图示了本系统的一个具体示例的示意图。在所图示的示例中,系统100包括样品源102、样品制备和传送系统105、质量分析系统110、计算系统130、以及可选地包括网络140。
图1的样品源102包括一个或多个样品。在一些示例中,样品源是样品的集合或池,每个样品被容纳在孔板的孔中。在一些示例中,样品源包含多个样品集合,这些样品包含从化学品库中选择的感兴趣的成员。如本文所使用的“化学品库”是指由通常最终用在筛选或工业生产中的所存储的成员化学品的集合构成的化学化合物库。简单来说,化学品库可以由一系列所存储的化学品构成。每个成员化学品具有相关联的信息,诸如目标化合物、目标化合物的化学名称和结构、目标化合物的初始纯度、初始量和物理化学特性之类。化学品库可以根据用于筛选特定化学反应的反应条件的组合反应系统建立,其中每个库成员包括在各种设计的反应条件下源自相同试剂的反应混合物。在这样的实施例中,库成员可以与共同的目标化合物相关联,诸如反应的预期产物之类。
由图1的系统100分析的样品可以通过常规技术制备。样品可以包含一种或多种分析物。样品的分析物可以包括一种或多种目标化合物或感兴趣的化合物。在一些示例中,样品还可以包括包含除目标化合物之外的一切的样品基质。例如,样品基质可以包含溶剂、杂质、污染物、来自样品所源自的环境(例如,血液、尿液、细胞培养基等)的一种或多种化合物、干扰化合物、目标化合物的降解产物、目标化合物的劣化产物、内部参考或标准品、添加到样品中以协助样品分析的一种或多种助剂。在一些示例中,样品不含生物或环境基质。样品的品质可以参照(一个或多个)目标化合物来确定。
图1的样品制备和传送系统105可操作为接收来自样品源的样品,并以适当的形式将样品运输和传送至质量分析系统110。在具体示例中,样品制备和传送系统105包括声学液滴喷射(ADE)、开放端口接口(OPI)、质谱(MS)系统(后文中称为ADE-OPI-MS)。ADE-OPI技术依赖于直接从在分析的板的孔中进行液滴的声学分配。声学地分配的液滴(其在纳升级,具有精确控制且与样品溶剂无关)从喷射样品中被声学地喷射并被引入OPI的开口处的涡流,并被直接传送至MS的电喷雾电离(ESI)源用于检测。所需要的是极小的样品,加上该方法的处理未纯化样品的弹性,使这个技术理想地适合于从孔板直接采样。ADE-OPI-MS系统和方法还提供显著的速度优势:其中每个样品的平均分析时间为1-2s,使得可以在15min内分析典型的384孔板。最后,ADE-OPI与标称质谱仪和高分辨率质谱仪兼容,从而允许使用前者进行快速定量,以及使用后者进行广泛的分析物识别。
图2图示了示例ADE-OPI-MS系统的总体方案。简而言之,声学能的脉冲将样品液滴(1-10nL)向上喷射到倒置的OPI采样接口中。流体泵将载体溶剂(100-2,000μL/min)传送到配备有流稳定涡流接口的样品捕获区域;样品被捕获并稀释到流动的载体溶剂的涡流中。喷雾毛细管处的高电压(HV)电源和雾化气体(氮气)驱动诸如ESI之类的电离。ADE-OPI-MS的更多示例可以在美国专利No.10,770,277中找到,该专利的公开内容通过引用整体并入本文。
图1的质量分析系统110包括离子源115、质量分析器120和离子检测器125。质量分析系统110可以例如通过使用(一个或多个)离子源或(一个或多个)发生器115来操作以产生样品离子,以及通过使用离子检测器125过滤和检测来自样品离子的所选择的感兴趣的离子。质量分析器120可操作为分析样品离子并产生包括来自样品离子的所有m/z信号的质谱数据集。生成的质谱数据集可以是总离子流(TIC)色谱的形式。
由本领域技术人员以及根据本文的教导还将理解的是,质量分析器120可以具有各种配置。一般地,质量分析器120被配置为处理(例如,过滤、分类、解离、检测等)由离子源115生成的样品离子。以非限制性示例的方式,质量分析器120可以是三重四极质谱仪,或本领域已知的以及根据本文的教导修改的任何其他质量分析器。可以根据本文公开的系统、装置和方法的各种方面进行修改的其他非限制性示例性质谱仪系统可以在例如下列文献中找到:由James W.Hager和J.C.Yves Le Blanc撰写并发表于Rapid Communications inMass Spectrometry(《质谱快讯》)(2003;17:1056-1064)的标题为“Product ion scanningusing a Q-q-Q linear ion trap(Q TRAP)mass spectrometer(使用Q-q-Q线性离子阱(QTRAP)质谱仪的产物离子扫描)”的文章;以及标题为“Collision Cell for MassSpectrometer(用于质谱仪的碰撞室)”的美国专利No.7,923,681,其公开内容在此通过引用整体并入本文。
其他配置,包括但不限于本文描述的配置以及本领域技术人员已知的其他配置,也可以与本文公开的系统、装置和方法结合使用。例如,其他合适的质谱仪包括单四极、三重四极、ToF、阱和混合分析器。还将理解的是,系统100中可以包括任何数量的附加元件,包括例如离子迁移率谱仪(例如,微分迁移率谱仪),该离子迁移率谱仪设置在电离源115和质量分析器检测器120之间并且被配置为基于离子在高场和低场之间的迁移率差异来分离离子)。另外,将理解的是,质量分析器120可以包括离子检测器125,该离子检测器125可以检测穿过分析器120的离子并且可以例如提供指示每秒检测到的离子数量的信号。
图1的计算系统130包括可操作为执行各种功能的计算资源、部件和模块,这些功能包括但不限于:与系统100的其他部件通信,与其他部件接收和发送电信号,接收、响应和执行用户指令,执行计算,处理从质量分析系统110接收的原始质谱数据,分析质谱数据,生成和分析样品的质谱,识别、注释和分配质谱的MS峰,从质谱中提取谱特征,进行谱比较,识别分析物,计算质谱的品质评分,确定样品的品质状态,以及向最终用户输出分析报告。
计算系统130包括计算装置200、控制器135和数据处理系统300。计算装置200可以是电子信号处理器的形式并且可操作为执行各种计算功能。控制器135可以是电子信号处理器的形式并且与系统100内的其他子系统电通信。控制器135还被配置为协调系统100的多个各种部件的一些或全部操作。数据处理系统300可以包括可操作为处理质谱数据的各种部件和模块。
网络140可以可操作地连接到系统100中的任何一个或所有子系统或部件。网络140是通信网络。在示例性实施例中,网络140是无线局域网(WLAN)。网络140可以是任何合适类型的网络和/或网络的组合。网络140可以是有线的或无线的以及具有任何通信协议。网络104可以包括但不限于互联网、局域网(LAN)、广域网(WAN)、无线LAN(WLAN)、网状网络、虚拟专用网络(VPN)、蜂窝网络、和/或允许计算系统130如本文所述进行操作的任何其他网络。
现在参照图3,将图示和描述根据图1的计算装置200的示例。注意,系统100的计算系统130可以包括单个计算装置200或者可以包括与质量分析系统110的部件可操作地通信的多个分布式计算装置200。在图3的图示示例中,(一个或多个)计算装置200可以包括总线202或用于传送信息的类似功能的其他通信机构,以及与总线202耦合以用于处理信息的至少一个处理元件204。如相关领域技术人员将理解的,这样的至少一个处理元件204可以包括多个处理元件或核,其可以被封装为单个处理器或分布式地布置。此外,多个虚拟处理元件204可以被包括在计算装置200中,以为质量分析系统110提供控制或管理操作。
计算装置200还可以包括一个或多个易失性存储器206,其例如可以包括(一个或多个)随机存取存储器(RAM)或(一个或多个)其他动态存储器部件,耦合到一条或多条总线202以供至少一个处理元件204使用。计算装置200还可以包括诸如只读存储器(ROM)或其他静态存储器部件之类的(一个或多个)静态非易失性存储器208,耦合到总线202以用于存储供至少一个处理元件204使用的信息和指令。可以提供诸如存储盘或存储存储器之类的存储部件210,用于存储供至少一个处理元件204使用的信息和指令。如将理解的,计算装置200可以包括分布式存储部件212,诸如网络盘或计算装置200可用的其他存储资源之类。
计算装置200可以耦合到一个或多个显示器214,以向计算机用户显示信息。可选的用户输入装置216(诸如键盘和/或触摸屏之类)可以耦合到总线,用于将信息和命令选择传送到至少一个处理元件204。可选的图形输入装置218(诸如鼠标、轨迹球或光标方向键之类)用于将图形用户界面信息和命令选择传送到至少一个处理元件。计算装置200还可以包括输入/输出(I/O)部件,诸如串行连接、数字连接、网络连接、或用于允许与质量分析系统110的各种部件和其他计算部件彼此通信的其他输入/输出部件。
在各种实施例中,计算装置200可以通过网络连接到一个或多个其他计算机系统以形成联网系统。这样的网络可以例如包括一个或多个专用网络、或诸如互联网之类的公共网络。在联网系统中,一个或多个计算机系统可以存储数据并将数据提供给其他计算机系统。在云计算场景中,存储和提供数据的一个或多个计算机系统可以被称为服务器或云。例如,一个或多个计算机系统可以包括一个或多个网络服务器。例如,向服务器或云发送数据和从服务器或云接收数据的其他计算机系统可以被称为客户端或云装置。质量分析系统110的各种操作可以由分布式计算系统的操作支持。
计算装置200可以可操作为通过通信接口220控制样品制备和传送系统105以及质量分析系统110的部件的操作,并通过数据处理系统300处理由质量分析系统110的部件生成的数据。在一些示例中,由计算装置200响应于至少一个处理元件204执行存储器206或208中包含的指令并对从质量分析系统110接收的数据执行操作来提供分析结果。由至少一个处理元件204对包含在存储器206或208中的指令的执行可以使得质量分析系统110和相关联的样品传送部件可操作为执行本文描述的方法。
如本文所使用的术语“计算机可读介质”是指参与向处理器204提供指令以供执行的任何介质。这样的介质可以采用许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,诸如盘存储器210之类。易失性介质包括动态存储器,诸如存储器206之类。传输介质包括同轴线缆、铜线和光纤,包括构成总线202的线。
计算机可读介质或计算机程序产品的通常形式包括例如软盘、柔性盘、硬盘、磁带或任何其他磁性介质、CD-ROM、数字视频盘(DVD)、蓝光光盘、任何其他光学介质、拇指驱动器、存储卡、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带,或计算机可以从中读取的任何其他有形介质。
各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器204以供执行。例如,指令最初可以被携带在远程计算机的磁盘上。远程计算机可以将指令加载到其动态存储器中并使用调制解调器通过电话线发送指令。计算装置200本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换成红外信号。耦合到总线202的红外检测器可以接收红外信号中携带的数据并将该数据放置在总线202上。总线202将数据携带到存储器206,处理器204从该存储器206取回指令并执行指令。由存储器206接收的指令可以可选地在由处理器204执行之前或之后被存储在存储装置210上。
根据各种实施例,被配置为由处理器执行以执行方法的指令被存储在计算机可读介质上。计算机可读介质可以是存储数字信息的装置。例如,计算机可读介质包括本领域已知的用于存储软件的光盘只读存储器(CD-ROM)。计算机可读介质由适合于执行被配置为要执行的指令的处理器访问。
为了说明和描述的目的,呈现了本教导的各种实施方式的以下描述。要注意的是,所描述的实施方式包括软件,但是本教导可以实施为硬件和软件的组合。本教导既可以用面向对象也可以用非面向对象的编程系统来实现。
用于谱比较和品质评估的数据处理系统
在另一方面中,本公开涉及数据处理系统和使用该数据处理系统进行谱比较和样品的品质评估的方法。如上面所讨论的,本系统100可以包括数据处理系统300,该数据处理系统300可操作为处理从样品分析生成的质谱数据并进行质谱分析和比较。本系统100可以可操作为通过使用ADE-OPI-MS以高通量方式分析从大型化学品库中选择的大量样品或成员。因此,本文描述的数据处理系统300可以可操作为进行谱分析,从而以高通量方式评估大量样品的样品品质。
现在参照图4-图9,将详细描述和图示数据处理系统300及其各种方面的具体示例。图4图示了根据图1的数据处理系统300的一个示例的示意图。在图示的示例中,数据处理系统300包括以下模块中的一个或多个或全部:数据处置模块310、质谱分析模块320、谱特征提取模块330、谱比较模块、品质评估模块350、谱库构建模块360、数据存储模块370、机器学习模块380、可视化模块390以及输出模块395。数据处理系统300中包括的各种模块可以可操作地连接或彼此互连。数据处理系统300的每个模块可以可操作地连接到根据图1的系统100的子系统或其他部件。
图5图示了图4的数据处置模块310的一个具体示例。在图示的示例中,数据处置模块310可操作为进行操作311-319中的一个或多个或全部。操作311包括引入从质量分析系统110接收的原始质谱数据。如上面所讨论的,由质量分析系统110生成的原始质谱数据可以是单个大数据集(诸如TIC之类)的形式,该数据集包括源自所有样品的全扫描的样品离子的所有m/z信号。一旦质量分析系统110内的样品分析完成,原始质谱数据集就被发送至计算系统130并被数据处理系统300接收。
在312处数据处置模块310还可以可操作为引入样品信息文件。样品信息文件可以包括:样品制备信息(溶剂、浓度等);样品起源信息(化学品库中样品的库成员ID、批量编号、运行编号等);每个样品的测试/仪器条件、扫描编号、每个样品的时间信息(样品喷射的时间、样品引入的时间、扫描的时间等)、每个样品的孔位置(样品ID)等。在一些示例中,样品信息文件与原始质谱数据相关联,在311处该样品信息文件可以一起被引入。
在313处数据处置模块310还可以可操作为引入关于每个测试样品的化合物文件。化合物文件可以包括关于每个样品的标准或参照质谱、化学式、理论分子质量、预期m/z峰、预期质谱特征、内部碎裂特征、指纹特征、MS/MS特征或与目标化合物相关的其他化学知识。化合物文件还可以包括关于与目标化合物相关的可能的干扰化合物的信息,包括但不限于样品基质化合物、降解产物、劣化产物、代谢物、衍生物、反应副产物等。
在314处数据处置模块310还可以可操作为引入目标化合物的预定义的谱特征或属性。预定义的谱特征或属性参照目标化合物指示样品的品质状态。预定义的特征的非限制性示例包括:目标化合物的预期m/z值;目标化合物的在预期m/z值处的峰的强度;目标化合物的指纹谱特征、指示干扰和/或干扰量的谱特征、指示目标化合物的降解或劣化的谱特征。谱特征或属性可以通过目标化合物的标准或参照谱、或来自先前分析的先验知识、或来自先前品质评估的已有数据等来定义或建立。
在315处数据处置模块310还可操作为针对每个样品引入一个或多个参照质谱。参照质谱可以通过分析在高纯度或高品质状态的样品来获得。
在316处数据处置模块310可以可操作为自动地处理原始质谱数据以生成对应于每个样品的数据子集。如上面所讨论的,当分析大量样品或样品池时,所得到的原始质谱数据可以是单个大的且未分割的数据集。在这样的情况下,数据处置模块可以可操作为将数据集分割成数据子集,其中每个数据子集对应于每个样品。
在317处数据处置模块310还可以可操作为将生成的每个数据子集与对应的样品相关联。样品-数据集相关性可以基于记录在日志中的时间信息。时间信息包括但不限于:每个测试样品从孔板喷射的时间、将喷射的样品液滴引入质量分析系统的时间、以及m/z扫描的开始和结束的时间等。在312处这样的时间信息可以被引入到数据处理系统中。
数据处置模块310还可以可操作为在318处生成每个样品的参照MS数据集和/或在319处生成每个样品的测试MS数据集。参照MS数据集可以包括关于每个样品的以下信息中的一项或多项或全部:目标化合物信息、参照质谱(RMS)、指示样品品质的预定义谱特征。测试MS数据集可以包括关于每个样品的以下中的一项或多项或全部:样品信息、化合物文件、测试质谱、从测试质谱提取的谱特征。
图6图示了图4的质谱分析模块320的一个具体示例。在图示的示例中,质谱分析模块320可操作为进行操作321-328中的一个或多个或全部。在321处质谱分析模块320可以可操作为生成每个样品的质谱。例如,从数据处置模块310生成的分割数据子集可以被直接转换成相关样品的质谱。每个质谱包括在整个m/z范围上源自相关样品的所有电离产物的m/z信号。
质谱分析模块320可以可操作为生成背景质谱。如上面所讨论的,原始质谱数据集(诸如TIC之类)可以包含源自测试样品的信号和背景或噪声。在一些示例中,数据处理系统300可操作为从质谱中去除背景或背景信号。背景质谱可以源自对例如空白孔、溶剂或不含测试样品或目标化合物的对照品的空白样品的分析。背景质谱可以包括已知为背景或噪声信号的所选择的m/z峰、或来自载体流离子的m/z峰、或来自溶剂的m/z峰、来自杂质的m/z峰、来自样品基质的m/z峰、来自干扰化合物、与样品相关联的目标化合物的降解产物和劣化产物的m/z峰。背景信号还可以通过在未检测到样品离子且信号主要源自移动相时在采集离子时间处采集的数据点来确定。
质谱分析模块320还可以可操作为从每个样品的原始质谱中减去背景质谱或背景信号以获得每个测试样品的减去背景的质谱。背景减去可以有利地改善质谱的品质以及峰分配和分析物识别的准确性。
要注意的是,大多数已有的谱分析算法基于使用液相色谱质谱(LC-MS)的MS2谱的数据依赖采集(DDA)分析。所以,有假设LC将分离背景信号和杂质,且即使存在,也假设杂质离子将在比与目标化合物相关的离子更低的强度水平,因为DDA将触发靠近目标化合物LC峰的顶点的MS2,此处杂质LC峰有望关于目标离子处于最低丰度。
如本文所描述的,本系统可以采用ADE-OPI-MS系统来进行对样品的高通量分析。由于OPI的性质,来自流载体和溶剂离子的噪声的存在是不可能避免的。然而,来自这些离子类型的背景噪声可以通过背景减去被有效地去除。例如,载体溶剂背景可以根据感兴趣的峰之前和之后的局部最小值来估计,以避免窗口分割的可能缺陷。在这样的数据中,“空白孔”不被采集,但在将来的样品分析中,可以根据测试质谱表征和识别样品背景。所得的减去背景的质谱可以主要包括与目标化合物或感兴趣的化合物相关的峰,并且可以提供化合物降解和/或劣化以及内部或源内碎裂的信息。
在其他示例性实施例中,质谱分析模块还可操作为进行以下操作:在324处注释所得的质谱的m/z峰、在325处分配m/z峰、在326处识别感兴趣的m/z峰的离子名称和类型、在327处计算中性质量(包括但不限于平均质量、单同位素质量、最丰度质量、质量偏移或差异、电荷态);在328处评估/量化感兴趣的峰的同位素分布。
图7图示了图4的谱特征提取模块330的具体示例。在图示的示例中,谱特征提取模块330可操作为执行操作331-337中的一个或多个或全部。模块330可以可操作为在331处根据样品的质谱识别目标化合物的预期m/z值;和/或在332处识别目标化合物的在预期m/z值处的峰强度。目标化合物可以具有肯定目标化合物的存在的一个特征m/z峰(例如,锚峰)。目标化合物可以具有指示目标化合物的存在的集合中的一系列特征m/z峰。在一些示例中,预期m/z峰可以具有指示目标化合物的存在的峰强度的特征比。
在操作333-337处谱特征提取模块330还可以可操作为从样品的质谱中提取谱特征。例如,可以在333处从样品的质谱中提取指示目标化合物的指纹特征。可以从以下中的一项或多项或全部中提取指纹特征:注释的m/z峰,峰之间或之中的质量或m/z差异关系,MS峰的相对强度,或者离子类型、离子种类或离子产物之间或之中的任何特征关系,共享共同中性质量的在不同电荷状态的同位素簇,同位素分布模式,内部碎裂,源内碎裂等。指纹特征可以指示样品中目标化合物的存在、不存在、相对量、相对纯度或品质状态。
模块330还可以可操作为进行以下操作中的一个或多个或全部:在334处提取指示干扰化合物的谱特征;在335处提取指示目标化合物的降解产物的谱特征;在336处提取指示目标化合物的劣化产物的谱特征;在337处从质谱中提取其他非预期的谱特征。如本文所述从质谱中提取各种谱特征有利地为用户提供对样品的全面分析,不仅包括目标化合物的特征或预期m/z峰,而且还包括关于背景和样品基质的更多细节,其有助于用户更准确地评估样品的品质。另外,从质谱中提取谱特征有助于用户例如通过使用下面将描述的谱比较模块340在质谱之间或之中进行综合比较。
图8图示了图4的谱比较模块340的具体示例。根据本公开的谱比较模块340有利地为用户提供了在关于样品的谱之间或之中进行全面地比较、映射(map)和分析品质的手段。如先前所讨论的,参照质谱(RMS)可以从对与样品相关联的目标化合物的分析或从对参照目标化合物确定的具有高纯度或高品质的样品的分析获得。当要确定样品的品质时,可以通过在一时间处分析样品来获得测试质谱(TMS)。通过将测试质谱与参照质谱进行比较,可以确定当样品被分析时该样品的品质状态。
在图8的图示示例中,谱比较模块340可操作为执行操作341-348中的一个或多个或全部。操作341包括关于测试样品将测试质谱(TMS)与参照质谱(RMS)进行比较。测试质谱可以是原始测试质谱或如上所述的减去背景的测试质谱。类似地,参照质谱可以是原始质谱或减去背景的参照质谱。要注意的是,通过使用本文描述的ADE-OPI-MS系统,可以通过消除质谱中的背景或样品基质信号、主要留下特征m/z峰来显著改善质谱的品质。因此,对减去背景的质谱的比较可以在没有背景噪声的情况下向用户提供关于指示样品的品质变化的特征m/z峰的变化的直接信息。在一些示例中,将多于一个测试质谱与参照质谱进行比较,每个测试质谱通过在不同时间分析相同样品而获得。因此,谱之中的比较可以为用户提供同一样品随时间的品质变化。使用本文描述的系统和方法进行质谱之中的谱比较的能力可以有利地为用户提供有时效性的解决方案,以监测百万级规模的化学品库中的所选择的感兴趣的化学品成员的品质变化。
操作342包括将样品的所提取的谱特征与指示样品品质的预定义的谱特征进行比较。如上面所讨论的,可以关于每个样品从参照质谱和测试质谱中提取各种谱特征。因此,提取的谱特征可以直接与例如目标化合物的预期m/z值、指示目标化合物的存在或不存在或相对量的指纹特征等的预定义的谱特征进行比较。指示目标化合物或其品质的预定义的谱特征或属性可以从已建立的化学知识、来自先前分析的先验信息、或来自权威来源的标准质谱信息获得。
操作343包括在谱比较中识别匹配的m/z峰对。谱比较可以包括关于样品的参照质谱和测试参照质谱之间的比较,或者样品的质谱与预定义的谱特征之间的比较。在一些示例中,在预期m/z值处匹配的m/z峰对的存在决定了目标化合物的存在和/或样品的品质状态。在其他示例中,需要匹配的一系列特征m/z峰对来确认样品中目标化合物的存在或不存在。
操作344包括基于如上所述的样品的测试质谱与其参照质谱的比较来确定每个测试样品中目标化合物的存在或不存在。
操作345包括确定测试样品中是否存在干扰化合物。在一些示例中,345处的确定是基于关于由谱特征提取模块330生成的指示干扰化合物、降解化合物、劣化产物或样品基质的提取特征的对测试质谱与参照质谱的比较的。
操作346包括基于对关于测试样品的所提取的谱特征的比较来确定测试样品的样品基质分布。样品基质分布可以包括以下中的一项或多项或全部:指示样品所源自的环境的周围化合物、杂质、污染物、内部碎裂、源内碎裂、干扰化合物、目标化合物的降解产物、目标化合物的劣化产物、目标化合物的代谢物、目标化合物的衍生物等。
操作347包括识别测试样品中与样品品质相关或无关的其他分析物。操作348包括生成比较度量,该比较度量包括从谱比较模块340生成的任何结果。
图9图示了图4的品质评估模块350的具体示例。在图示的示例中,品质评估模块350包括操作351-355中的一个或多个或全部。操作351包括关于预定义的特征来计算样品的质谱的品质评分,该预定义的特征参照目标化合物指示样品的至少一个品质状态。如果针对质谱计算出足够高的品质评分,则可以将样品的质谱指定为该样品的参照质谱。操作352包括关于样品计算测试质谱与参照质谱进行比较的相似性评分。相似性评分可以反映样品相对于参照质谱的品质变化。在一些示例中,可以关于样品的原始质谱和减去背景的质谱这两者来计算各种相似性评分。可以使用特定的算法用参照谱的最大峰强度或目标m/z的归一化峰强度减谱对。可以考虑各种强度变换来平衡强度权重以及对数归一化步骤。可以考虑各种距离度量,包括正常尺度和对数尺度的已处理谱的信号的平方距离(“欧几里得”)之和;已处理谱的信号的绝对值之和;正常尺度和对数尺度的“DotProd”;正常尺度和对数尺度的“切比雪夫(Chebychev)”距离;考虑了m/z重叠百分比并忽略了强度(存在/不存在)的“海明(Hamming)”方法。在一些示例中,模块350的任何操作还可以包括计算“信噪”比(S/N),作为关于背景信号(或背景谱)以及关于减去背景之后的剩余离子(例如,关于碎裂离子或其他化合物相关离子的化合物离子强度)的感兴趣的离子的m/z强度的度量。
操作353包括基于通过使用谱比较模块340生成的比较度量来计算指示至少一个样品品质状态的组合品质评分。组合品质评分可以是包括在比较度量中的所有比较的加权平均评分,诸如目标化合物的预期m/z峰的存在、指示目标化合物的指纹特征的相似性等。
操作354包括生成包括样品随时间的品质评分的品质控制图,其中针对在特定时间点处分析的样品的对应测试质谱计算每个品质评分。操作354有利地为用户提供了一种有时效性且方便的方式来监测大型化学品库中的每个成员化学品的品质变化。操作355包括计算包括大量成员化学品的组合库的总体品质评分。
现在返回参照图4,数据处理系统300可以包括谱库构建模块360,该谱库构建模块360可操作为编译从系统300的各种模块生成的MS数据集和谱比较结果以构建谱库。模块360可以可操作为生成参照谱库,该参照谱库包括化学品库的每个成员的参照MS数据集(包括参照质谱和从中提取的谱特征)。模块360还可以可操作为生成测试谱库,该测试谱库包括化学品库的每个对应成员的测试MS数据集(包括测试质谱和从中提取的谱特征)。谱库的谱信息可以是由用户或根据指令可检索的、可搜索的和可处理的。数据处理系统300还可以包括数据存储模块370,该数据存储模块370可操作为存储来自谱分析比较的各种类型的数据或结果,以及如本文所述的谱库。
数据处理系统300还可以包括机器学习模块380,该机器学习模块380可操作为以监督方式或无监督方式执行数据处理系统300中包括的模块的任何操作。机器学习模块可以包括一个或多个机器学习分类器,该一个或多个机器学习分类器可操作为从输入数据提取关键特征以生成分类模型。通过使用机器学习模块,数据处理系统300可操作为关于不同谱特征进行谱比较和品质评估,以及将分类模型应用于未来的分析数据组。机器学习分类器可以根据所提取的谱特征和(一个或多个)谱注释来构造。机器学习分类器可以包括可以应用于分析数据的已知分类器。例如,可以使用碎裂来生成指示目标化合物的存在或测试样品的品质状态的更稳健的分析数据。因此,可以基于对从样品产生的母离子和/或子离子的检测来训练分类器模型。这样的分类器模型可以用于未来在不同时间点处对相同或相似样品的谱分析。
为了生成足够的数据以使分类模型有效,将需要通过数据处理系统对许多提取的谱特征进行分析和比较。这些多种形式的提取谱特征可以通过分析大量样品(例如,来自化学品库)来生成。通过数据处理系统对大量样品中的每个样品进行的多次分析提供了数据,该数据然后可以被分组并经过其中数据可以被预处理的谱特征缩减单元。预处理单元的输出与同指示样品的品质状态的特征相关的其他元数据组合。然后,该数据被传递到机器学习分类器,该机器学习分类器能够从输入数据中提取关键特征并生成能够对不同形式进行分类的模型。机器学习分类器可以采用任何形式的分类器,并且还利用多个级别的分类器或预测算法来生成稳健的系统可能是谨慎的。
所训练的机器学习分类器可以可操作为预测分析物的识别或结构并确定其是否是目标化合物、或干扰化合物、或化合物的混合物、或属于样品基质的其他化合物。所训练的机器学习分类器还可以可操作为基于比较来计算样品的整体谱相似性或品质评分。
数据处理系统300还可以包括可视化模块390,该可视化模块390可操作为可视化从系统300的各种模块生成的处理数据或结果,诸如质谱、减去背景的质谱、提取特征的汇总表、比较度量等之类。可视化结果可以显示在诸如图形用户界面(GUI)之类的用户界面中以供用户查看。图10图示了GUI屏幕的一个示例,其示出了根据谱比较生成的结果。在图示的示例中,使用提取的谱特征的多变量分析支持结果审查。数据处理系统300可以可选地包括输出模块395,该输出模块395可操作为输出由数据处理系统300生成的任何分析结果和所处理的数据。
本文描述的谱比较和品质评估可以使用主成分分析(PCA)技术来执行和可视化。主成分分析是一种多变量分析(MVA)工具,其广泛用于帮助可视化和分类数据。PCA是一种统计技术,其可以用于降低多维数据集的维数,同时保留数据集的对其方差贡献最大的特征。
PCA可以通过使用将原始变量集的本征向量变换成表示原始集中的大部分信息的小得多的主成分(PC)变量集,减少大量相关变量的维数。新的变量集被排序,使得前几个保留所有原始变量中存在的大部分变化。更具体地,每个PC是所有原始测量变量的线性组合。第一个是所观察的变量的最大方差的方向上的向量。选择后续的PC来表示测量数据的最大变化,并与之前计算的PC正交。因此,PC按重要性降序排列。由PCA提取的(一个或多个)PC的数量(n)不能超过样品数量或变量数量中的较小者。
图11图示了PCA结果的示例。图11的图示示例示出了根据图10的关于特定样品的所有谱相似性的PCA图。每个化合物用点表示。点的灰度级反映了谱相似性,如灰度表中所示。在图示的示例中,关于所选择的样品比较两个谱库即库1和库2。如可以看到的,具有相对高灰度级的点反映了库1和库2两者中具有好的谱相似性的样品。相比而言,库2中具有相对浅颜色的点反映了具有差的相似度的样品。其他点对应于具有由PC1解释的谱相似性和由PC2解释的品质的样品。PCA还可以识别在库1和库2的两谱中具有低S/N的样品。还在图11中图示了分别呈现“好”的相似性、“差”的相似性和“低S/N”的质谱比较的三个示例。
图12(a)和图12(b)图示了根据谱比较计算的相似性评分的示例。图12(a)示出了样品关于化合物“C17H26N2O”的两个谱之间相对“好”的谱相似性(评分=0.87)。图12(b)示出了样品关于化合物“C17H16N2O3S”的两个谱之间相对“差”的谱相似性(评分=0.2)。
根据本公开的谱比较的方法可以包括直接将样品的测试质谱与来自编码谱和元数据的对应参照质谱进行比较,以产生指示至少一个样品品质状态的组合评分,而不计算谱的品质评分。
用于谱比较、品质评估、化学品库QC的方法
在另一方面中,本公开涉及用于测试样品和质谱的品质评估和谱比较的方法。本文描述的任何方法可以通过使用根据本公开的系统100和/或计算系统130和/或数据处理系统300来实现。
如上面所讨论的,本方法可以利用ADE-OPI-MS系统,该ADE-OPI-MS系统优于传统的基于LC-MS的系统。尽管LC-MS可以将样品基质或背景与感兴趣的化合物分离,但通常花费相对长的时间(例如几分钟)以从单个孔传送样品。当分析例如来自大型化学品库的大量样品时,数百种化合物的集合可能需要几个小时或甚至几天来分析高密度实验,因此显著限制了通量或生产率。
此外,ADE-OPI-MS系统有利地允许以有时效性的方式捕获样品的全背景质谱并从获取的样品谱中减去背景质谱或背景信号。可以对比参照谱对未来的测试样品进行评估,以使用ADE-OPI-MS系统准确地过掉以高速或高通量方式采样的测试样品。
现在参照图13-图15,将图示和描述用于评估样品的质谱的品质的方法及其各种方面的示例。图13图示了方法400的流程图。方法400包括操作410和450。在410处,参照目标化合物预定义指示样品品质的一个或多个特征或属性。如上面所讨论的,预定义特征可以选自以下的组:目标化合物的预期m/z值;目标化合物的在预期m/z值处的峰的强度;目标化合物的指纹谱特征、指示干扰和/或干扰量的谱特征、指示目标化合物的降解或劣化的谱特征。
操作450包括关于预定义特征或属性计算样品的质谱的品质评分。图14图示了图13的操作450的一个具体示例的流程图。在图示的示例中,操作450还包括操作452、454、456、458、460、470和490中的一个或多个或全部。在操作452处,例如通过使用系统100来通过分析样品获得感兴趣的样品的质谱。在454处,例如通过使用谱特征提取模块330从样品的质谱中提取谱特征。在456处,例如通过使用谱比较模块340来将所提取的特征与指示样品品质的预定义特征进行比较。在458处,例如通过使用品质评估模块350来生成比较度量。在460处,例如通过使用品质评估模块350来计算指示至少一个样品品质状态的组合品质评分。在470处,基于组合品质评分确定样品的品质状态。在490处,如果谱的品质评分足够高,则可以将该质谱指定为样品的参照质谱。参照质谱可以用于未来对同一样品的分析中。
图15图示了图14的操作470的一个具体示例的流程图。在图示的示例中,操作470还包括操作472和474。在472处,从样品的质谱中提取非预期的谱特征。如上面所描述的,非预期的谱特征可以包括指示(一种或多种)干扰化合物的特征、指示降解产物的特征、指示劣化产物的谱特征、样品的基质的特性特征、或与目标化合物无关的其他谱特征。在474处,可以基于从质谱中提取的非预期的谱特征来确定干扰化合物的存在或不存在或量。如所图示的,操作474还可以包括以下中的一个或多个或全部:在476处识别质谱的背景噪声,在478处识别样品的杂质,在480处识别样品的污染物,在482处识别目标化合物的降解产物,在484处识别目标化合物的劣化产物,以及在486处生成样品基质分布。方法400或其任何操作的采用允许用户关于预定义特征准确和全面地评估质谱的品质和/或评估样品的品质状态。
现在参照图16-图17,将图示和描述用于确定样品的品质的方法及其各种方面的示例。本文描述的方法可以通过使用系统100或其任何子系统/部件来实现。图16图示了示例方法500的流程图。方法500包括操作502、504、510、520、522、524和526中的一个或多个或全部。
在502处,获得感兴趣的样品的参照质谱。参照质谱用作参照(例如,基础事实)来关于目标化合物确定样品的品质状态。如上面所讨论的,参照质谱可以通过分析已知为标准的相关样品或通过指定具有高品质评分的样品的质谱来获得。
在504处,在一时间处分析样品以获得测试质谱,该测试质谱表示在分析样品时样品的品质状态。例如,在分析化学品库的化学品成员时,可以通过分析新制作的化学品成员的样品(具有高纯度)来获得参照质谱。可以在一段时间(例如,一个月)后获得测试质谱以监测同一化学品成员的品质状态。
在510处,如前所述获得测试样品的减去背景的质谱。在520处,关于指示样品量的预定义特征进行测试质谱与参照质谱的全谱比较。在522处,为样品生成比较度量。在524处,基于比较度量来计算指示至少一个样品品质状态的组合品质评分。在526处,基于比较度量来确定在分析样品时样品的品质状态。
图17图示了图16的操作510的一个具体示例。可以通过使用上述质谱分析模块320来执行操作510。在图示的示例中,操作510还包括操作512、514和516。在512处,获得样品的背景质谱。在514处,识别测试和/或参照质谱的背景或(一个或多个)背景信号。在516处,从测试和/或参照质谱中减去所识别的背景或(一个或多个)背景信号以生成对应的减去背景的质谱。
现在参照图18,将图示和描述通过使用质谱分析来用于化学品库的品质控制的一个具体示例方法600及其各种方面。方法600可以由本系统100或其任何子系统/部件来执行。在图示的示例中,方法600包括操作610、620、630、640、650和660中的一个或多个或全部。在610处,参照目标化合物获得所选择的感兴趣的库成员的参照质谱,其中库成员选自化学品库。
在620处,在一时间处分析所选择的库成员的样品以获得表示在分析样品时样品的品质状态的测试质谱。在630处,关于每个所选择的库成员从测试和/或参照质谱中减去背景或(一个或多个)背景信号。在640处,关于每个所选择的库成员进行测试质谱与参照质谱的全谱比较。在650处,生成比较度量,该比较度量包括谱和/或从谱中提取的谱特征的比较。在660处,基于比较度量来确定所选择的库成员的在该库成员被分析时的品质状态。
现在参照图19,将图示和描述用于化学品库的品质控制的另一具体示例方法及其各种方面。方法700可以由本系统100或其任何子系统/部件来执行。在图示的示例中,方法700包括操作710、720、730、740、750、760和770中的一个或多个或全部。在710处,例如通过使用谱库构建模块360来构建化学品库的参照谱库。参照谱库包括关于化学品库的每个库成员的参照质谱。
在720处,例如通过使用模块360构建测试谱库。测试谱库包括关于每个库成员的对应的测试质谱和提取的谱特征。在730处,关于每个所选择的库成员从测试和/或参照质谱中减去背景或(一个或多个)背景信号。在740处,关于每个库成员进行测试谱库与参照谱库的全谱比较。在750处,为化学品库生成包括关于每个库成员的谱和谱特征的比较的比较度量。在760处,确定每个所选择的库成员的在该库成员被分析时的品质状态。在770处,例如基于库成员的品质评分的加权平均来确定化学品品质的总体品质。
尽管本文描述了各种实施例和示例,但是本领域普通技术人员将理解的是,可以在本公开的范围内对其进行许多修改。因此,本公开的范围不旨在以任何方式被所提供的示例限制。
Claims (21)
1.一种用于基于样品的质谱来评估样品的品质的方法,所述方法包括:
参照目标化合物预定义指示样品品质的一个或多个特征或属性;以及
关于所选择的特征或属性计算MS的品质评分。
2.根据权利要求1所述的方法,其中预定义的特征选自以下的组:目标化合物的预期m/z值;目标化合物的在预期m/z值处的峰的强度;目标化合物的指纹谱特征、指示干扰和/或干扰量的谱特征、指示目标化合物的降解或劣化的谱特征或其组合。
3.根据权利要求1-2中任一项所述的方法,还包括:
从样品的MS中提取谱特征;
比较所提取的特征与指示样品量的预定义特征;
可选地生成比较度量,所述比较度量包括所提取的特征与对应的预定义特征之间的比较;以及
计算指示至少一个样品品质状态的组合品质评分。
4.根据权利要求1-3中任一项所述的方法,还包括:
从样品的MS中识别非预期的谱特征;以及
基于非预期的谱特征确定干扰化合物的存在或不存在或量,其中干扰化合物选自以下的组:背景噪声、杂质、污染物、目标化合物的降解产物、目标化合物的劣化产物或其任何组合。
5.根据权利要求1-4中任一项所述的方法,其中样品是化学品库或组合库中的成员化合物的样品。
6.根据权利要求1-5中任一项所述的方法,其中样品的MS用作关于目标化合物的参照质谱(RMS),其中RMS具有确定的谱品质评分。
7.根据权利要求6所述的方法,其中样品的RMS是在第一时间处获得的。
8.根据权利要求7所述的方法,还包括:
在第二时间处获得样品的测试质谱(TMS);
关于指示样品品质的预定义特征比较TMS与RMS;
参照目标化合物计算TMS的谱品质评分;以及
确定样品在第二时间处的品质状态。
9.根据权利要求1-5中任一项所述的方法,还包括:
识别MS的背景或一个或多个背景信号;以及
从MS中减去所述背景或一个或多个背景信号。
10.根据权利要求9所述的方法,还包括计算减去背景的MS的品质评分。
11.根据权利要求7-8中任一项所述的方法,还包括:
识别RMS和/或TMS中的每个的背景或一个或多个背景信号;以及
从所述RMS和/或TMS中减去所识别的背景或一个或多个背景信号。
12.根据权利要求11所述的方法,还包括:
比较减去背景的RMS与减去背景的TMS,以计算谱品质评分。
13.根据权利要求7-8中任一项所述的方法,还包括构建化学品库的参照谱库,其中所述化学品库包括至少一个成员化合物,以及其中所述参照谱库包括所选择的或所有一个或多个成员化合物的RMS。
14.根据权利要求1-13中任一项所述的方法,其中使用探试法来计算MS的品质评分。
15.根据权利要求1-14中任一项所述的方法,其中使用机器学习方法来计算MS的品质评分。
16.一种评估样品的品质的方法,所述方法包括:
比较样品的测试质谱(TMS)与样品的对应的参照质谱(RMS);
比较从TMS中提取的谱特征与源自RMS的预定义的特征或属性,其中预定义的特征或属性关于样品的目标化合物指示样品品质;
可选地生成比较度量,所述比较度量包括每个提取的谱特征与对应的预定义特征之间的比较;
基于所述比较计算组合品质评分,其中所述组合评分指示样品的至少一个品质状态。
17.根据权利要求16所述的方法,其中所述预定义特征选自以下的组:目标化合物的预期m/z值;目标化合物的在预期m/z值处的峰的强度;目标化合物的指纹谱特征、指示干扰和/或干扰量的谱特征、指示目标化合物的降解或劣化的谱特征。
18.根据权利要求16-17中任一项所述的方法,其中样品的品质状态选自以下的组:杂质水平、污染物、目标化合物的降解、目标化合物的劣化。
19.根据权利要求16-18中任一项所述的方法,还包括:
识别RMS和/或TMS中的每个的背景或一个或多个背景信号;以及
从所述RMS和/或TMS中减去所识别的背景或一个或多个背景信号。
20.根据权利要求16-19中任一项所述的方法,还包括:
比较减去背景的RMS与减去背景的TMS,以计算谱品质评分。
21.一种确定样品的品质状态的方法,所述方法包括:
比较样品的测试质谱(TMS)的谱品质与样品的对应的参照质谱(RMS)的谱品质;
其中关于编码的谱和元数据比较TMS和RMS。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163244424P | 2021-09-15 | 2021-09-15 | |
US63/244,424 | 2021-09-15 | ||
PCT/IB2022/058735 WO2023042127A1 (en) | 2021-09-15 | 2022-09-15 | Spectral comparison |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117999605A true CN117999605A (zh) | 2024-05-07 |
Family
ID=84053185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280062491.5A Pending CN117999605A (zh) | 2021-09-15 | 2022-09-15 | 谱比较 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117999605A (zh) |
WO (1) | WO2023042127A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7923681B2 (en) | 2007-09-19 | 2011-04-12 | Dh Technologies Pte. Ltd. | Collision cell for mass spectrometer |
WO2017153727A1 (en) * | 2016-03-07 | 2017-09-14 | Micromass Uk Limited | Spectrometric analysis |
US10607723B2 (en) * | 2016-07-05 | 2020-03-31 | University Of Kentucky Research Foundation | Method and system for identification of metabolites using mass spectra |
US10347480B2 (en) * | 2017-09-25 | 2019-07-09 | Bruker Daltonik, Gmbh | Method for evaluating the quality of mass spectrometric imaging preparations and kit-of-parts therefor |
US10950424B2 (en) * | 2017-09-25 | 2021-03-16 | Bruker Daltonik, Gmbh | Method for monitoring the quality of mass spectrometric imaging preparation workflows |
CA3081369A1 (en) | 2017-11-22 | 2019-05-31 | Labcyte, Inc. | System and method for the acoustic loading of an analytical instrument using a continuous flow sampling probe |
US11500352B2 (en) * | 2019-05-01 | 2022-11-15 | Dh Technologies Development Pte. Ltd. | System and method for monitoring a production process |
-
2022
- 2022-09-15 CN CN202280062491.5A patent/CN117999605A/zh active Pending
- 2022-09-15 WO PCT/IB2022/058735 patent/WO2023042127A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023042127A1 (en) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Domingo-Almenara et al. | Metabolomics data processing using XCMS | |
Shao et al. | Tandem mass spectral libraries of peptides and their roles in proteomics research | |
Sadygov et al. | Large-scale database searching using tandem mass spectra: looking up the answer in the back of the book | |
US9305755B2 (en) | Mass analysis data processing method and mass analysis data processing apparatus | |
US20040159783A1 (en) | Data management system and method for processing signals from sample spots | |
US11423331B2 (en) | Analytical data analysis method and analytical data analyzer | |
WO2021174901A1 (zh) | 基于数据非依赖采集质谱的分子组学数据结构的实现方法 | |
US9437407B2 (en) | Mass spectrometry for multiplexed quantitation using multiple frequency notches | |
JP2006528339A (ja) | クロマトグラフィー/質量分析における生体分子パターンのアノテーション法及びシステム | |
JP2015500466A (ja) | 質量分析法により微生物を特定するための方法 | |
JPWO2019240289A1 (ja) | 化合物の構造を同定するための方法およびシステム | |
CN110579554A (zh) | 3d质谱预测分类 | |
Lowe et al. | Predicting compound amenability with liquid chromatography-mass spectrometry to improve non-targeted analysis | |
US20140336951A1 (en) | Identification of related peptides for mass spectrometry processing | |
Koo et al. | Analysis of Metabolomic Profiling Data Acquired on GC–MS | |
CN115380212A (zh) | 用于比较群组内和群组间数据的方法、介质和系统 | |
CN117999605A (zh) | 谱比较 | |
Kim et al. | An ensemble regularization method for feature selection in mass spectral fingerprints | |
Zhou | Computational analysis of LC-MS/MS data for metabolite identification | |
US11373735B2 (en) | Results dependent analysis—iterative analysis of SWATH data | |
US11990327B2 (en) | Method, system and program for processing mass spectrometry data | |
Chen et al. | Random Forest model for quality control of high resolution mass spectra from SILAC labeling experiments | |
WO2023100118A1 (en) | High throughput mass spectral data generation | |
Ryu | Measuring Pairwise Similarity of Tandem Mass Spectra Using Pair Hidden Markov Model | |
US20230298706A1 (en) | Methods, mediums, and systems for determining variation relating to compound structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |