CN115380212A - 用于比较群组内和群组间数据的方法、介质和系统 - Google Patents
用于比较群组内和群组间数据的方法、介质和系统 Download PDFInfo
- Publication number
- CN115380212A CN115380212A CN202180030485.7A CN202180030485A CN115380212A CN 115380212 A CN115380212 A CN 115380212A CN 202180030485 A CN202180030485 A CN 202180030485A CN 115380212 A CN115380212 A CN 115380212A
- Authority
- CN
- China
- Prior art keywords
- computer
- target molecules
- mass spectrum
- spectrum
- mass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000001228 spectrum Methods 0.000 claims abstract description 147
- 238000001819 mass spectrum Methods 0.000 claims abstract description 89
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 61
- 239000002131 composite material Substances 0.000 claims abstract description 25
- 238000002474 experimental method Methods 0.000 claims abstract description 22
- 150000002500 ions Chemical class 0.000 claims description 225
- 239000002243 precursor Substances 0.000 claims description 54
- 238000000926 separation method Methods 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000013467 fragmentation Methods 0.000 claims description 16
- 238000006062 fragmentation reaction Methods 0.000 claims description 16
- 238000007619 statistical method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 13
- 230000014759 maintenance of location Effects 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000010828 elution Methods 0.000 claims description 7
- 230000000155 isotopic effect Effects 0.000 claims description 7
- 230000004304 visual acuity Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000004811 liquid chromatography Methods 0.000 abstract description 3
- 238000011208 chromatographic data Methods 0.000 abstract 1
- 238000004611 spectroscopical analysis Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 30
- 150000001793 charged compounds Chemical class 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 14
- 239000000203 mixture Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 108090000765 processed proteins & peptides Proteins 0.000 description 10
- 238000010606 normalization Methods 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 150000002632 lipids Chemical class 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 7
- 238000004587 chromatography analysis Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 230000037361 pathway Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 102000004196 processed proteins & peptides Human genes 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 description 3
- 239000002207 metabolite Substances 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000004885 tandem mass spectrometry Methods 0.000 description 3
- XKRFYHLGVUSROY-UHFFFAOYSA-N Argon Chemical compound [Ar] XKRFYHLGVUSROY-UHFFFAOYSA-N 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 108010019160 Pancreatin Proteins 0.000 description 2
- 102000001708 Protein Isoforms Human genes 0.000 description 2
- 108010029485 Protein Isoforms Proteins 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 2
- 102000004142 Trypsin Human genes 0.000 description 2
- 108090000631 Trypsin Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000000065 atmospheric pressure chemical ionisation Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000000132 electrospray ionisation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229940055695 pancreatin Drugs 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 229910052719 titanium Inorganic materials 0.000 description 2
- 239000010936 titanium Substances 0.000 description 2
- 239000012588 trypsin Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 101800001442 Peptide pr Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000003570 air Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 229910052786 argon Inorganic materials 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 229940088598 enzyme Drugs 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005040 ion trap Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005372 isotope separation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8603—Signal analysis with integration or differentiation
- G01N30/8617—Filtering, e.g. Fourier filtering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8603—Signal analysis with integration or differentiation
- G01N2030/862—Other mathematical operations for data preprocessing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N2030/8648—Feature extraction not otherwise provided for
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8665—Signal analysis for calibrating the measuring apparatus
- G01N30/8672—Signal analysis for calibrating the measuring apparatus not depending on an individual instrument, e.g. retention time indexes or calibration transfer
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
示例性实施方案提供了用于分析光谱和/或色谱数据的方法、介质和系统,并且尤其涉及改善光谱和/或色谱实验的结果的再现性的技术。例如,一些实施方案提供了用于跨不同实验设备对质谱(MS)和/或液相色谱(LC)数据进行归一化的技术,从而允许直接比较来自不同群组的数据。为此,示例性实施方案提供了能够跨不同平台、实验室和用户使用的可靠的、可再现的目标库。一个实施方案利用统计技术以选择实验参数,该实验参数被配置为减小或最小化误识别目标分子的机会。另一个实施方案利用大数定律以产生能够跨不同实验使用的复合产物离子谱。该复合产物离子谱允许生成回归曲线,其中该回归曲线可用于对实验质谱进行归一化。
Description
相关申请的交叉引用
本申请与于2020年4月24日提交的名称为“通用工作流:启用LC-MS和LC-MS/MS数据大群组全局协作的软件(Universal Workflow: Software to Enable GlobalCollaboration of Large Cohorts of LC-MS and LC-MS/MS Data)”的美国临时专利申请第63/014,858号相关,并且要求其优先权。
背景技术
在质谱(MS)或液相色谱/质谱(LC-MS)实验中,前体离子分解成产物离子。然后分析前体离子和产物离子以试图识别它们。MS或LC-MS实验的结果通常是质谱(分子的强度与其质荷比的曲线图,如通过离子检测器所测量的)。
问题在于,由MS或LC-MS设备生成的质谱会根据设备的特性(诸如年限、校准设定、环境条件等)而变化,这些特性会因实验室与实验室、用户与用户、甚至实验与实验的不同而变化。因此,比较跨不同采集事件的数据(即使在单个设备上生成时)可能是艰巨的任务。由于这种挑战,现有的MS/LC-MS数据处理软件通常受到样品类型、器械平台和采集方法的限制。
发明内容
下面将对示例性实施方案进行简要概述。这些实施例可体现为方法、存储在非暂态计算机可读存储介质上的指令、执行所述动作的设备等。除非另有说明,否则预期所述实施方案可以单独或以任何组合一起使用以实现协同效应。
根据第一实施方案,计算设备可以经由用户界面接收在样品中的待识别的两个或更多个目标分子的列表,以根据由多个参数限定的实验方法通过质谱装置进行分析。该设备可以基于所述两个或更多个目标分子的列表执行统计分析,该统计分析被配置为确定误识别列表中的目标分子中的一个或多个目标分子的概率。该设备可以选择针对多个参数的值的集合,该值的集合将概率减小到预先确定的阈值以下,并且可以在用户界面上呈现所选择的值的集合。
根据可以与第一实施方案一起使用的第二实施方案,可以基于列表中目标分子的子集来执行统计分析,该子集表示来自目标分子中的一组相对较少的共同标记物。
根据可以与第一实施方案至第二实施方案中的任一个一起使用的第三实施方案,实验方法的多个参数可包括洗脱位置、碰撞横截面、漂移位置和/或质量准确度。
根据可以与第一实施方案至第三实施方案中的任一个一起使用的第四实施方案,可以基于目标分子中的一个目标分子的已知三维定位、目标分子中的一个目标分子的已知碎断图案和/或目标分子中的两个目标分子之间的已知关系来选择针对多个参数的值。
根据可以与第一实施方案至第四实施方案中的任一个一起使用的第五实施方案,计算设备可以在用户界面上呈现分数以表示在给定所选择的值的集合的情况下,在样品中将正确识别两个或更多个目标分子的存在或不存在的可能性。
根据可以与第五实施方案一起使用的第六实施方案,分数可以通过以下项来计算:(a)查询包括光谱特征的不可变属性的共有库;(b)对该共有库中存在目标分子中的一个目标分子的频率进行计数;(c)将该频率计数转化为概率分数;针对多个目标分子重复步骤(a)至(c);以及将针对该多个目标分子的该概率分数相乘在一起。
根据可以与第五实施方案或第六实施方案一起使用的第七实施方案,分数可以被配置为作为由所应用的采集方法所确定的可用的分离维度的数量的函数而增加。
根据可以与第五实施方案至第七实施方案一起使用的第八实施方案,分数可以被配置为根据质谱装置的分辨力而增加。
根据可以与第五实施方案至第八实施方案一起使用的第九实施方案,分数可以基于两个或更多个目标分子的质荷比、保留时间和漂移时间的组合来计算。
根据可以与第五实施方案至第九实施方案一起使用的第十实施方案,分数可以基于跨多个光谱装置的光谱标准的测量中的波动来计算。
根据第十一实施方案,其可以分离使用或与第一实施方案至第十实施方案中的任一个一起使用,计算设备可以应用采集方法来接收由质谱装置生成的质谱,该采集方法确定该质谱中可用的分离维度的数量。计算设备可以限定质谱的推定产物离子谱,并且可以访问存储与推定产物离子谱匹配的复合产物离子谱的储存库。对于分离维度中的每个分离维度,计算设备可以检索基于复合产物离子谱生成的回归曲线,并且可以通过应用相应的回归曲线来生成归一化的质谱,以对对应的分离维度的值进行归一化。
根据可以与第十一实施方案一起使用的第十二实施方案,可以将相应的回归曲线应用于质谱中的原始峰值检测以对时间、质荷比或漂移中的至少一个的变化进行校正。
根据可以与第十一实施方案至第十二实施方案中的任一个一起使用的第十三实施方案,质谱可以是第一质谱,并且质谱装置可以是第一质谱装置。计算设备可以进一步接收由与第一质谱装置不同的第二质谱装置生成的第二质谱,使用复合产物离子谱对第二质谱进行归一化,并且通过将归一化的第二质谱与第一归一化的质谱进行比较来验证第二质谱再现第一质谱。
根据可以与第十一实施方案至第十三实施方案中的任一个一起使用的第十四实施方案,第一质谱装置可以是与第一质谱装置不同类型的器械平台。
根据可以与第十一实施方案至第十四实施方案中的任一个一起使用的第十五实施方案,第一质谱装置可以是与第一质谱装置不同类型的器械平台。
根据可以与第十一实施方案至第十五实施方案中的任一个一起使用的第十六实施方案,可以将推定产物离子谱聚集成离子簇,并且计算设备可以基于归一化值重新聚集推定产物离子谱。
根据可以与第十六实施方案一起使用的第十七实施方案,推定生产离子谱可以通过以下项来聚集:计算推定产物离子谱的理论同位素分布;基于该理论同位素分布来聚集推定产物离子谱;确定质谱中存在的同位素的强度超过预先确定的阈值量;从过量的该同位素形成虚拟离子;以及将该虚拟离子聚集成新同位素组。
根据可以与第十一实施方案至第十七实施方案中的任一个一起使用的第十八实施方案,计算设备可以接收在样品中待识别的生成质谱的两个或更多个目标分子的列表。计算设备可以进一步选择针对样品定制的目标库,该目标库包括用于识别两个或更多个目标分子的前体离子和产物离子的集合,其中该目标库由质谱中表示的前体离子和产物离子的子集组成。计算设备可以使用目标库来确定样品中是否存在目标分子。
根据可以与第十一实施方案至第十八实施方案中的任一个一起使用的第十九实施方案,前体离子和产物离子的子集可以是识别质谱中的目标分子所必要的最小子集。
根据可以与第十一实施方案至第十九实施方案中的任一个一起使用的第二十实施方案,针对分离维度的归一化的值可以各自与匹配公差相关联,该匹配公差限定窗口,通过该窗口该归一化的质谱将被认为与目标光谱匹配。
附图说明
为了轻松地识别对任何特定元素或动作的论述,参考标号中的单个最有效数位或多个数位是指首先引入该元素的附图标号。
图1示出了根据示例性实施方案的质谱系统的实施例。
图2示出了根据一个实施方案的对获取的数据进行操作的工作流的实施例。
图3示出了根据一个实施方案的数据流程图。
图4示出了根据一个实施方案的示例性目标发现和验证环境。
图5示出了根据一个实施方案的示例性目标验证环境。
图6示出了根据一个实施方案的示例性值选择逻辑600的流程图。
图7示出了根据一个实施方案的示例性光谱归一化和验证逻辑700的流程图。
图8示出了可以用于操作本文描述的示例性实施方案的例示性计算机系统架构。
具体实施方式
常规地,液相色谱-质谱(LC-MS)实验的群组的生命周期由处理、判读和得出结论组成,之后将信息存储在未联机存储介质中。通常,数据处理软件受到样品类型、器械平台和采集方法的限制。使用不同的样品制备方法、器械平台、采集方法和梯度来比较和对比实验室内和实验室之间的相似数据集是具有挑战性的。
然而,无论样品如何制备或使用哪种器械平台和采集方法,分子的质量和疏水性都是不可变的特性。此外,在比较中使用的器械采用类似的碎断机制(例如,碰撞单元)并根据制造商的说明书来操作的前提下,分子的碎断图案在器械上非常类似。
通过利用这些见解,示例性实施方案提供可以将群组内和群组之间获取的光谱数据与多个实验室和/或不同类型的多个实验设备进行比较的方法、介质和系统;实施方案不确定样品类型、器械平台和采集方法。这些实施方案可以增加识别速率,同时减少错误发现率。
为了实现这些改进,示例性实施方案可以检测离子、创建光谱、执行交叉样品和交叉群组聚集、进行光谱验证、搜索多个数据库、提取匹配的前体离子和产物离子、在匹配和不匹配的光谱中创建未联机推定库和在线推定库、验证所识别的光谱以及使用验证的分子离子谱来筛选所有目标化合物的归一化的峰检测。使用连续近似、迭代分析和大数定律的原理,示例性实施方案将来自多个器械平台的数据转化为一连串的验证的目标分子离子谱。
为了帮助理解,在描述下面的具体实施的具体实施方式之前,首先将提供一连串的实施例。需注意,这些实施例仅为解释说明,并且本发明不限于示出的实施方案。
现在参见附图,其中相类似的附图标号通篇用于指代类似的元素。在以下具体实施方式中,出于解释的目的,阐列出了许多具体细节以便提供对其的透彻理解。然而,新型实施方案可以在没有这些具体细节的情况下操作。在其他情况下,熟知的结构和装置以框图形式示出,以便于其描述。其目的在于涵盖符合所要求保护的主题的所有修改、当量和另选方案。
在附图和随附具体实施方式中,名称“a”、“b”和“c”(以及类似的指示词)是表示任何正整数的变量。因此,例如,如果实施方式设定a=5的值,则作为成分122-1至122-a示出的成分122完整集合可包括成分122-1、122-2、122-3、122-4和122-5。实施方案不限于该上下文。
出于例证目的,图1是可以结合本文的技术使用的系统的示意图。尽管图1描绘了特定LCMS配置中的特定类型的设备,但是本领域普通技术人员将理解,也可以结合本公开使用不同类型的色谱设备(例如,MS、串联MS等)。
样品102通过进样器106被进样到液相色谱仪104中。泵108泵送样品通过柱110,以根据通过柱的保留时间分离混合物到组成部分中。
柱的输出被输入到质谱仪112中用于分析。初始,样品通过脱溶/电离设备114脱溶并且电离。脱溶可以是任何脱溶技术,包括例如加热器、气体,与气体或其他脱溶技术结合的加热器。电离可以采用任何电离技术,包括例如电喷电离(ESI)、大气压化学电离(APCI)、基质辅助激光解吸(MALDI)或其他电离技术。通过施加电压梯度到离子引导件116,由电离引起的离子被喂予至碰撞单元118。碰撞单元118可以用于传递离子(低能量)或碎断离子(高能量)。
可以使用不同的技术(包括在授予Bateman等人的美国专利第6,717,130号,中所述的技术,其以引用方式并入本文),其中可以跨碰撞单元118应用交替电压来引起碎断化。收集低能量下的前体(无碰撞)以及高能量下的碎片(碰撞的产物)的光谱。
碰撞单元118的输出被输入到质量分析器120。质量分析器120可以是任何质量分析器,包括四极杆、飞行时间(TOF)、离子捕集器、扇形磁场质量分析器以及它们的组合。检测器122检测从质量分析器122发出的离子。检测器122可以与质量分析器120成为整体。例如,在TOF质量分析器的情况下,检测器122可以是对离子强度进行计数(即,对照射其的离子进行计数)的微通道板检测器。
原始数据存储库124可以为存储用于分析的离子计数提供永久性存储。例如,原始数据存储库124可以是内部或外部计算机数据存储设备,诸如磁盘、闪存存储装置等。分析设备126分析所存储的数据。还可以实时分析数据,而不需要存储在存储介质124中。在实时分析中,检测器122将要分析的数据直接传递到计算机126,而不是首先将其存储到永久性存储中。
碰撞单元118执行前体离子的碎断化。可以使用碎片化来确定肽的一级序列,随后识别起源蛋白质。碰撞单元118包括气体,诸如氦气、氩气、氮气、空气或甲烷。当带电前体与气体原子相互作用时,所得的碰撞可以通过将前体分解成所得的碎断离子而使前体碎断化。此类碎断化可以使用Bateman中所述的技术,通过将碰撞单元中的电压在低电压状态(例如,低能量,<5V)和高电压状态(例如,高能量或升高能量,>15V)之间切换来实现,其中低电压状态用于获得肽前体的MS光谱,高电压状态用于获得前体的碰撞诱导碎断的MS光谱。高电压和低电压可以被称为高能量和低能量,因为分别使用高电压或低电压来将动能赋予离子。
可以使用各种规程来确定何时以及如何切换用于这种MS/MS采集的电压。例如,常规方法以目标或数据依赖模式(数据相依赖分析,即DDA)触发电压。这些方法还包括目标前体的耦联的气相隔离(或预选)。低能量光谱由软件实时获取并检查。当所需的质量达到低能量光谱中的规定强度值时,碰撞室中的电压切换到高能量状态。然后获得针对预选的前体离子的高能量光谱。这些光谱包含在低能量下看到的前体肽的碎片。在收集到足够的高能量光谱之后,数据采集回到低能量,继续寻找用于高能量碰撞分析的合适强度的前体质量。
不同的合适的方法可以与如本文所述的系统一起使用来获得离子信息,诸如结合对用于分析样品的质谱的前体离子和产物离子。尽管可以采用传统的切换技术,但是实施方案可以使用Bateman中描述的技术,其可以被表征为以简单的交替循环来切换电压的碎断化规程。这种切换是在足够高的频率下完成的,以便在单一色谱峰内容纳多个高能量光谱和多个低能量光谱。与传统的切换规程不同,该循环与数据的内容无关。在Bateman中描述的此类切换技术提供前体离子和产物离子两者的有效地同时质量分析。在Bateman中,使用高能量和低能量切换规程可作为肽混合物单次进样的LC/MS分析的一部分来应用。在从单次进样或实验运行采集的数据中,低能量光谱包括主要来自未碎断化前体的离子,而高能量光谱包括主要来自碎断化前体的离子。例如,可将前体离子的一部分碎断化以形成产物离子,并且基本上同时分析前体离子和产物离子,或者同时地,或者例如接连不断地在低电压(例如,生成主要前体)和高电压或升高电压(例如,生成主要碎断)之间通过应用程序对MS模块的碰撞单元的快速切换或交替电压来调节碎断化。根据上述Bateman的技术,采用在高(或升高)能量和低能量之间交替的快速演替的MS操作在本文中也可以被称为Bateman技术和高-低规程。
由高-低规程采集的数据允许准确确定在低能量模式和高能量模式两者下收集的所有离子的保留时间、质荷比和强度。一般来讲,在两种不同的模式中看到不同的离子,并且在每种模式下采集的光谱可以单独或组合地被进一步分析。如在一种或两种模式中看到的来自共同前体的离子将基本上具有相同的保留时间(并因此具有基本相同的扫描时间)和峰形。高-低规程允许在单个模式内和在模式之间对离子的不同特征进行有意义的比较。该比较然后可以用来将在低能量光谱和高能量光谱中看到的离子分组。
总之,诸如当使用Bateman技术来操作系统时,样品102被进样到LC/MS系统中。LC/MS系统产生两组光谱:一组低能量光谱和一组高能量光谱。一组低能量光谱包括与前体相关联的主要离子。一组高能量光谱包括与碎断相关联的主要离子。这些光谱被存储在原始数据存储库124中。数据采集之后,可以从原始数据存储库124中提取这些光谱并且由分析设备126中的采集后算法显示和处理。
描述与数据采集有关的各种参数的元数据可以与原始数据一起生成。该信息可以包括液相色谱仪104或质谱仪112(或其他获取数据的其他色谱装置)的配置,其可以限定数据类型。被配置为解码数据的编解码器的识别(例如,密钥)也可以作为元数据的一部分和/或与原始数据一起存储。元数据可以存储在文档存储库128中的元数据目录130中。
分析设备126可以根据工作流操作,在每个工作流步骤处向分析员提供数据的可视化,并且允许分析员通过执行对工作流步骤特定的处理来生成输出数据。可以经由客户端浏览器132生成和提取工作流。当分析设备126执行工作流的步骤时,它可以从位于原始数据存储库124中的数据流中读取原始数据。当分析设备126执行工作流的步骤时,它可以生成存储在文档存储库128中的元数据目录130中的经处理的数据;另选地或除此之外,经处理的数据可以存储在由分析设备126的用户指定的不同位置中。它还可以生成可以存储在审查日志134中的审查记录。
本文描述的示例性实施方案可以在多个位置处执行,诸如客户端浏览器132和分析设备126。图8中描绘了适合用作分析设备126和/或客户端浏览器132以及各种数据存储装置的装置的实施例。
针对上下文,图2描绘了可由图1的分析设备126应用的工作流202的简化的实施例。工作流202被设计成采取一组输入204,将多个工作流步骤或级应用于输入以在每个级生成输出,并在后续级继续处理输出以生成实验结果。需注意,工作流202是工作流的具体示例,并且包括以特定次序执行的特定级。然而,本发明不限于图2中所描绘的特定工作流。其他合适的工作流可以具有以不同次序执行的更多、更少或不同的级。
输入204的初始集可以包括样品集206,该样品集206包括从色谱实验装置所接收的原始(未处理)数据。这可以包括(诸如质荷比)的测量值或读数。最初存在于样品集206中的测量可以是尚未处理的测量,例如执行峰值检测或其他分析技术。样品集206可以包括流形式的数据(例如,以稳定的连续的流从实验装置所接收的数据值的顺序列表)。
在本申请的上下文中,样品集206可以表示存储在原始数据存储库124中并由端值接口返回的原始数据。样品集206可以表示为数据流的模型(例如,包括对应于由色谱装置采集的数据点的数据结构)。工作流202可以通过在分析设备126上运行和/或在数据生态系统内运行的应用程序在样品集206上执行数据。
初始输入组204还可以包括处理方法208,该处理方法可以是应用于(并且从而嵌入)工作流202的模板方法(如上所述)。处理方法208可以包括待应用于工作流202的各种级的设定。
输入204的初始集还可以包括结果集210。创建时,结果集210可以包括来自样品集206的信息。在一些情况下,当复制到结果集210中时,可以以一定初始方式处理样品集206,例如,MS数据可能需要在提供给工作流202之前抽取和平滑滤波等。应用于初始结果集210的处理可以基于所使用的工作流202而逐个确定。一旦从样品集206复制原始数据来创建结果集210,则结果集210可以完全独立于其使用周期的其余部分的样品集206。
工作流202可以分为级组。每个级可以与执行与该级相关的执行计算的一个或多个级处理器相关联。每个级处理器可以与影响处理器如何从给定输入生成输出的级设定相关联。
级可以通过步骤边界238彼此分离。步骤边界238可以表示输出已由级生成并且存储在结果集中的点,在此处处理可以进入到下一级。一些级边界可能需要特定类型的输入以便穿越(例如,在给定级生成的数据可能需要由一个或多个审查员进行审查,审查员需要提供其授权以便穿越步骤边界238到下一级)。步骤边界238可以在用户从一个级移动到不同级的任何时间、任何方向来应用。例如,当用户从初始化级212移动到信道处理级214时,存在步骤边界238,而且当用户尝试从定量级222向后移动回到积聚级216时也存在步骤边界238。步骤边界238可以是非门控的,这意味着一旦用户确定移动到下一级,则无需进一步输入(或仅需要粗略输入),或者可以是门控的,这意味着用户必须提供一些确认,指示他们希望进入到所选级(可能响应于分析设备126的警告)或移动到级的原因或授权工作流202进入到所选择的级的凭证。
在初始化级212中,每个级处理器可以通过清除其生成的结果来响应。例如,用于信道处理级214的级处理器可以清除所有其得到的信道和峰表(参见下文)。在任何时间点,清除级设定可以清除当前级和任何后续级的级跟踪。在该实施例中,初始化级212不生成任何输出。
在穿越步骤边界238之后,处理可以进入到信道处理级214。如上所述,色谱检测器可以与可收集数据的一个或多个信道相关联。在信道处理级214处,分析设备126可以得出在结果集210中的数据中存在的处理信道的集合,并且可以输出经处理的信道226的列表。经处理的信道226的列表可以存储在与信道处理级214相关联的版本子文档中,其可以包括在结果集210中。
在穿越步骤边界238之后,处理可以进入到积聚级216,该积聚级基于经处理的信道226的列表来识别结果集210中的数据中的峰值。积聚级216可以使用在积聚级216的设定中指定的技术来识别峰值,可以在处理方法208中限定该积聚级216。积聚级216可以输出峰值表228并且将峰值表228存储在与积聚级216相关联的版本子文档中。子文档可以包括在结果集210中。
在穿越步骤边界238之后,处理可以进入到识别级218。在此级中,分析设备126可以基于峰值表228中的信息来识别由色谱装置分析的混合物中的成分。识别级218可以输出成分表230,其包括混合物中存在的成分列表。成分表230可以存储在与识别级218相关联的版本化子文档中。子文档可以包括在结果集210中。
在穿越步骤边界238之后,处理可以进入到校准级220。在色谱实验期间,校准化合物可被进样到色谱装置中。该过程允许分析员考虑在整个实验中电子器件、表面清洁度、实验室中的环境条件等的细微变化。在校准级220中,分析关于这些校准化合物获得的数据并用于生成校准表232,该校准表允许分析设备126对数据进行校正以确保其是可靠的且可再现的。校准表232可以存储在与校准级220相关联的版本子文档中。子文档可以包括在结果集210中。
在穿越步骤边界238之后,处理可以进入到定量级222中。定量是指确定样品中分析物量的数值的过程。分析设备126可以使用来自先前级的结果,以便定量成分表230中包括的成分。定量级222可以更新234带有定量结果的存储在结果集210中的成分表230。更新的成分表230可以存储在与定量级222相关联的版本子文档中。子文档可以包括在结果集210中。
在每个离子的元数据中包括两个质量的半高度的全宽度,并且在采用离子率迁移分离的情况下。这些半高度用于计算质量和漂移分辨率。然后将这些分辨率分到m/z箱。对于每个箱,计算平均分辨率以及在该箱中每个离子的标准差和变化系数。这允许离子检测算法计算每个离子纯度分数。基本上,该过程识别去卷积的干扰物。这确保了高精度定量测量。这种技术既能获得高度准确的定量前体离子区域也能获得高度准确的归一化产物离子谱。
在穿越步骤边界238之后,处理可以进入到总结级224。在总结级224中,可以分析先前级中的每个级的结果并将其结合到总结结果236的记录中。总结结果236可以存储在与总结级224相关联的版本子文档中。子文档可以包括在结果集210中。
如本文所用,步骤可以对应于上述级。或者,单个级可以包括多个步骤,或者多个级可以组织成单个步骤。在任何情况下,在给定步骤中执行的所有活动应该由相同的用户或用户组执行,并且每个步骤与描述步骤的配置选项组的一个或多个页面相关联(例如,可视化选项、审查选项、步骤配置设定等)。
在步骤边界238的一些或全部可能存在转变,尽管不是每个步骤边界238都需要转变。转变可以表示从第一用户或用户组到第二不同用户或用户组的数据组负责的改变。
分子离子储存库的概述(MIR)
质谱仪在预设的采集时间内获取和重心离子。采集时间通常是色谱峰宽度的函数。具有足够的横跨峰值的扫描以准确确定其区域和过多的扫描之间的平衡,这可能会对文件大小产生不利影响。每次扫描包括三个数字,或者在离子率迁移分离(IMS)是可用的情形下,包括四个数字。这些数字是指扫描数、质荷比(m/z)、强度和漂移时间。定性和定量结果来自这些数字的一连串的算法判读,包括峰值检测、去同位素、电荷状态还原、前体离子和产物离子对准、数据库搜索和定量。此外,存在模型同位素分配和计算峰宽(m/z、时间和漂移)以校正干扰物的算法。
算法具有被称为“95%规则”的固有错误程度。在此,假设“正确”结果为100%,误差可以等同于效率百分比。例如,为了示出95%规则,如果将两个连续算法应用于数据,并且每个算法产生95%正确的结果,则累积效率为:0.95*0.95*100=90.25%正确。添加到处理步骤序列中的算法越多,误差就越大且特异性越低。对相同数据的多个算法的串行应用将反映累积误差。应用的算法越多,结果就越不准确。
样品复杂性指示成功识别和量化跨最宽动态范围的最大化合物数量所需的可用分离维度的分辨率要求。如果可用的分离维度和其相应分辨力的数量不与样品复杂度相称,则干扰物将随着组合算法误差而增加,导致结果显著受损。作为实施例,存在分离色谱的许多同位素脂质,提供正确的梯度。梯度长度具有对样品通量的深刻影响。增大梯度斜率增加了通量,不利于同位素分离。同位素脂质具有相同的m/z,并且如果它们没有色谱分离,则记录的强度是复合的。如果可获得IMS并且两个同种型的碰撞横截面(CCS)是独特的并且在IMS分辨力内,那么增加梯度斜率和通过延伸样品通量,则对计算的每个同种型的强度几乎没有影响。IMS的添加维度提供了增加通量而不影响检测和准确定量同位素物质的能力的方法。
干扰物可以是非常普遍的,但它们也可以通过跨独立样品和/或数据集的重复和验证来正确处理。考虑胰酶钛和脂质的情况。20个天然存在的氨基酸仅包含六个元素并且相似地分布在所有蛋白质中。赖氨酸和精氨酸是胰蛋白酶的优选裂解位点,都以约6%存在。如果所有氨基酸均匀分布,那么用胰蛋白酶消化酶将平均产生一连串的10个残基肽,每个肽具有类似的组成。相似长度和组成的分子倾向于具有类似的疏水性。由于共洗,说明类似m/z和疏水性的分子离子的高浓度会导致离子干扰的增加。
示例性实施方案创建了经识别的化学成分的列表,其相对强度、前体和产物跨样品集对准。这通过连续的精化来实现。逐个扫描光谱与逐个样品复合物相关。然后将来自每个样品的复合物与共有光谱相关。这些共有光谱用于创建库,然后用于筛选归一化的峰值列表。
共有不是从单个实验室或单个样品生成的,而是由多个不同数据集生成的。此外,实施方案不仅在所识别的内容上创建目标库,而且通过不断完善,在未识别的内容上构建共有光谱。
此外,测量准确度是信噪比的函数。选择顶点扫描作为参考允许示例性实施方案在洗脱期间监测离子峰形。通过监测m/z中的变化率和逐个扫描波动,算法识别干扰物。在LC-MS或LC-MS/MS分析中,每个离子在每次扫描中都被干扰的可能性很小。
在发现模式(下文将更详细地论述)中,示例性实施方案可以在少至一次无负担的低能量和高能量扫描的情况下进行识别。将始终存在一些受损产物离子谱;从产物离子谱转变为共有光谱在很大程度上依赖于n(其中n是表示样品数量的整数)。按照大数定律,从大量样品中得到的产物离子谱(推定)的平均值应该接近预期值(复合),并且随着群组数量的增加,将趋于更加接近(共有)。实际上,示例性实施方案利用复制来消除假阳性,并将真阳性聚集到共有光谱中。
在一些实施方案中,计算设备可以检索来自众多实验室的公开可用的LC-MS和LC-MS/MS数据,运行不同的器械平台和采集方法。该数据可用于创建和验证分子离子储存库318(MIR;参见图3)。MIR可以分离成:
• 推定部分320
• 复合部分322
• 共有部分324
• 目标部分326。
推定部分320包括来自每个样品的所有匹配和不匹配的产物离子谱。复合部分322包括发现期间在相同前体离子上获取的相关逐个扫描光谱。共有部分324含有相关复合光谱,该复合光谱已经被减小到只有最特定的产物离子或联结特征(例如,类或路径的脂质或蛋白质的肽)的LC-MS数据集。目标部分326部分包括正确识别共有光谱所需的那些最小数目的产物离子。
驻留在MIR中的分子可以分组为:
• 肽到蛋白质
• 蛋白质到路径
• 脂质到类
• 脂质到路径
• 代谢物到路径
• 代谢物到药物。
下面结合图3提供了MIR及其操作的更详细的解释。图3描绘了通过一个示例性实施方案的数据路径,其中使用示例性MIR对MS数据进行验证。数据路径被划分为发现环330、可选的数据库搜索、转变环332和目标验证。需注意,这些子划分主要主要是组织性的,下面就每个分组中执行的各种动作进行描述(尽管在其他实施方案中也可以使用其他分组)。
发现环
以下部分描述了适合与示例性实施方案一起使用的示例性发现环330。
峰值检测逻辑302在所有可用的分离维度中逐个扫描中心离子事件。定心过程确定实验m/z和漂移分辨率。
离子筛选逻辑304可以根据所计算的m/z分辨率将离子筛选过滤器(ISF)应用到箱原始峰值检测。每个分箱m/z值可以跨时间跟踪。峰值可以通过以下项来选择:找到局部最大值;确保在最大值邻域中随时间推移的最小扫描连续性;确保该邻域内的扫描之间的最小变化速率;以及确认具有中心强度的最小扫描数至少等于所有相邻扫描的平均值。
通过ISF的离子可以被提供给z确定逻辑306,其执行电荷测定和去同位素。这些离子可以从低m/z至高m/z分类,假设最低的m/z同位素簇是A0。从最低m/z开始并且使用如先前所描述的相同电荷确定算法,可以将每个离子分配到电荷状态。
一旦分配了电荷,则离子的分子量(Mr)可以通过加合物和变体逻辑308来计算。一些分子可以支持多个电荷状态,其中多个加合物支持每个电荷。说明相同Mr的前体可以分为成分组,该组中的最强成员被标记为主要成员。
一旦离子已经组装成同位素组,聚集逻辑310就可以应用平均值(所有氨基酸的平均元素组成)作为同位素模型。聚集逻辑310可以计算和比较所计算的理论同位素分布与实验。如果同位素组中任何一个同位素的实验强度超过了理论值的125%,算法可从过量中创建“虚拟”离子。这个过程不断重复,直到所有虚拟离子聚集成新的同位素组或被放弃。
一旦峰值已被验证,并且所有相关的电荷状态和加合物被组装成了成分组,示出相同元数据的产物离子可以通过逐个扫描与它们的相应前体配对。聚集逻辑310可以以每次扫描中每个前体离子簇的产物离子谱结束。可以计算出每个对准的产物离子与前体的归一化区域强度比(AR3):
AR 3 =产物离子强度/S产物离子强度。
在聚集逻辑310结束时,单次扫描产物离子谱可以直接存入分子离子储存库318的推定部分320,送至去多路复用光谱生成逻辑312,或直接送至数据库搜索引擎应用数据库搜索逻辑314。
可选的复合生成和数据库搜索
复合产物离子谱可以使用去多路复用光谱生成逻辑312,通过对整个峰值的产物离子光谱进行求和来生成。只有这些产物离子以最少n/2+1扫描说明类似的变化速率,因为该前体可以保持为复合离子,其中n是表示扫描总数的整数。类似地,归一化强度比AR 3 可以针对通过最小匹配标准的每个产物离子计算。可以根据整个峰值的所有单次扫描产物离子AR 3 值计算出标准误差。去多路复用光谱生成逻辑312还可以在构成复合光谱的前体离子和产物离子两者的逐个扫描同位素分布上计算标准误差。这些统计值为该算法提供了识别干扰物的手段。变化系数小于30%的产物离子可以被保留下来,存入分子离子储存库318的推定部分320,或者如果可以搜索,则发送到数据库搜索引擎。
在执行可选的数据库搜索的样品中,数据库搜索逻辑314可以保留所有匹配的离子并计算新的AR 3 比率。然后将匹配的光谱沉积到分子离子储存库318的推定部分320中。在数据非依赖采集(DIA)的采集中,产物离子通常与多于一个前体共享。为此,将匹配的产物离子从未匹配的光谱中去除,并且使用剩余的产物离子来计算新的AR 3 比率。然后将未匹配的光谱上传到分子离子储存库318的推定部分320中,其中它们被聚集,然后重新搜索,同时继续处理直到没有新识别。去除匹配的产物离子可以增加每个AR 3 值的准确度。
转变环
转变环332应用去多路复用共有验证逻辑316,以连续查询分子离子储存库318的推定部分320,用于表现出最小匹配计数达到或超过预先确定的阈值m(例如,50)的产物离子谱。如果采用IMS,超过最小计数的光谱可以被提取出来(图4的框402),它们的碎断图案可以通过m/z、AR 3 比率和漂移进行关联(图4的框404)。在初始关联之后,标准误差可根据所有匹配的产物离子m/z值、AR 3 比率、保留和漂移时间来计算(图4的框406)。如果产物离子匹配计数达到或超过预先确定的阈值(例如,38),并且AR3标准误差达到或低于预先确定的值(例如,0.35),则生成复合光谱(图4的框408)。与每个过渡复合光谱相关联的元数据包括:前体和产品的理论m/z值(用于确定目标);每个产物离子的平均AR 3 比率;平均保留时间;平均漂移时间,如果IMS是可用的;用于每个产物离子的变化系数;以及平均产物离子强度。
提取的未能转变的光谱被重新存放,以便将来通过(图4的框408处的“失败”)。当推定光谱的初始失败组的匹配率增加20%时,触发事件会导致不同的随机的m个产物离子光谱被提取出来,这个过程重复进行。转变环是连续的,每次刷新MIR的推定部分都会循环。根据处理速率,刷新可以是每小时、每天、每周或每月。诸如疏水性标记、等电点和元素组成等分子属性可被提取并用于更新保留时间和CCS预测算法。
一旦保留最低数量(即,高于预先确定的最小阈值)的复合光谱(图4的框408处的“通过”),去多路复用共有验证逻辑316可以从复合部分322提取复合光谱(图4的框410)。复合光谱可以与仅减少对该分子最特定的那些产物离子的数量相关。那些为通过了从复合部分322到分子离子储存库318的共有部分324的转变。
分子离子储存库(MIR)
在分子离子储存库318中存在五个不同的产物离子谱和LC/MS特征。
• 推定(初始逐个扫描对准光谱),
• 推定(相关逐个扫描光谱),
• 复合物(跨样品相关推定光谱),
• 共有(跨群组相关复合物),和
• 目标(最小的高度选择性共有光谱)。
在发现环330的端部处,单次扫描和复合产物离子谱有两条向前路线:首先,进入分子离子储存库318的推定部分320,并随后直接进入到数据库搜索引擎中。对于LC/MS处理,所有特征可以直接转移到分子离子储存库318。取代产物离子谱,伪光谱由该扫描中的所有离子制成。只要柱基质和缓冲液的成分相似,洗脱次序就可以被保留,从而产生类似于推定产物离子谱的联结特征组。然后将这些联结特征与先前描述的MS/MS光谱进行类似地处理。当位于分子离子储存库318时,每个样品的推定产物离子谱或LC/MS特征按强度排序。在蛋白质组学样品中,可以将所识别的肽分组为蛋白质并且按强度降序排序。然后对肽强度求和,并且对所识别的蛋白质按强度降序排序。可以将类似的分组和排序过程应用于小分子。尽管肽被分组为蛋白质,但脂质是通过路径或药物分组的代谢物的类或路径来分组的。因此,无论样品类型如何,分子离子储存库318都含有每个样品的所有推定产物离子谱或LC/MS特征的强度等级顺序。
发现归一化
从每个群组生成的复合产物离子谱或LC/MS特征可以与来自该群组的每个单独样品的推定产物离子谱或LC/MS特征匹配。一旦匹配,发现归一化逻辑可以针对可用的分离维度中的每个分离维度来生成回归曲线。将每个回归应用于离子筛选的原始离子检测。归一化的m/z、保留时间和漂移时间可以用于跨群组重新聚集推定产物离子谱或LC/MS特征。发现归一化逻辑还计算用于跨后续目标环的群组的每个分离维度的匹配公差。
目标验证
目标验证逻辑328连续查询分子离子储存库318的共有部分324以用于新的共有光谱。目标验证逻辑328进行比较匹配产物离子的归一化产物离子强度的相关分析。对LCMS数据中的联结特征执行相同的相关分析。保留所有复合产物离子谱和联结特征,其说明相关系数>0.7并提供>n/2+1的通过计数速率,初始共有光谱或联结特征列表生成并存储在MIR中。
目标产物离子的数量可以由以下前体属性确定:
• 分子量M r ,
• 排序强度,以及
• 电荷z。
产物离子选择的标准包括:
• 匹配速率,
• 强度
• 频率以及
• AR3变化。
可以将四个选择标准中的每个分配分数(图4中的框412):
• 匹配速率/特征ID的最大速率,
• 强度/特征ID的最大强度,以及
• 频率–在共有库中发现产物离子的次数。
将四个分数相乘,并且按分数降序排序产物离子(图4的框414)。可以验证的产物离子的数量是分子的质量、强度和离解动力学的函数。小分子通常是单电荷的并且具有较低的M r。另外,碎断动力学使得许多产物离子的强度比初级片段低得多。可以验证的产物离子的数量的主要是前体离子强度的函数。例如,关于胰酶钛,目标产物离子的数量可以是最小的(例如)5至最大的(例如)10。当分辨率和/或分离维度的数值增大,每个产物离子的频率随着分数的增加而减小,从而使频率成为产物离子选择中的主要因素。相反,随着维度和/或分辨率的数值减小,匹配速率、强度和联结特征的数量具有更大的影响。
可以将每个频率计数转化为概率分数(图4的框416)。概率分数反映了发现每个目标离子作为随机事件的机会(例如,误识别目标离子的概率)。概率的倍增提供了找到所有目标离子和前体作为随机事件的可能性。这种可能性可以转换成PPM FDR,并且如果FDR小于预先确定的阈值(图4中框416处的“通过”),则分析中的目标产物离子可以被选为群组。
一旦已经针对群组选择目标产物离子,就可以将目标光谱转变为分子离子储存库318的目标部分326。目标选择是动态的,因为其能根据样品复杂性、分辨率和/或正在分析的群组可用的分离维度的数量变化自动调整。该过程最终形成目标列表,该列表由存在在分子离子储存库318中的每个共有产物离子谱的最可再现、最低频率、最低概率的产物离子或联结特征组成。
图4中示出了目标产物离子谱或联结特征组(路径、类、蛋白质)的路径,并且已经在上文详细描述。简而言之,示例性实施方案的连续精化环最终形成为该样品唯一选择的目标库。目标库包括最小数量的产物离子和/或联结特征,该联结特征对于识别具有超低的FDR速率的任何样品、群组或系列群组中驻留在库中的所有目标化合物是必要的。
图5示出了分子离子储存库318的目标部分326如何可以应用于目标环中的传入数据。
在收集数据之后,可以通过发现后归一化来生成归一化的峰值列表502。为实验中应用的分离维度和分辨率的数量而唯一选择的目标离子数可以和归一化的峰值列表502一起输入目标识别逻辑504。可以通过扫描对匹配的归一化的峰值检测进行聚集和评分。例如,归一化和目标离子可以组装成一连串的独立网格或立方体。所用的分离方法是采集方法和可用的分离维度的数量的函数。网格或立方体每面的时间、漂移和m/z的宽度是由发现归一化逻辑决定的。
当配对网格或立方体匹配时,目标离子必须不仅与单个扫描匹配,而且必须与限定洗脱成分的一连串的扫描匹配。连续匹配扫描的数量也必须与顶点扫描的强度相称。更复杂或较低分辨率样品可能需要更多的维度,如AR3,联结特征和额外的产物离子。确保高度准确结果所需的维度的数量是所需覆盖度深度和每个可用分离维度的分辨率的直接结果。随着维度和/或分辨率数值的增加,目标识别概率被误标识或作为随机事件减少。目标环计算每个网格或立方体中的用于前体离子和产物离子m/z值的频率。将原始数据中的目标前体离子和产物离子m/z值(+/-10ppm)的计算概率(频率/计数)相乘,可以得到在完全相同的扫描中找到所有六个离子的两个比较概率测量值。两个比较概率来自分组的归一化的峰值检测和共有库。通过使用保留时间和/或漂移时间(CCS)公差来约束每个m/z值的频率计数,可以进一步提高特异性。因此,将这些离子随机对准的概率是m/z、保留时间和漂移时间的函数。
在蛋白质组学中,一旦识别了目标肽,目标算法就会产生所有其他可能的产物离子m/z值,并针对匹配扫描进行筛选。额外的产物离子匹配通过允许目标算法从归一化的峰值检测中删除它们来增加选择性。如先前所提及的,质量分析器能很好地测量同位素分布。了解每个分子的元素组成和A0强度,就可以使目标算法对任何干扰物进行矫正。去除前体离子和产物离子的每个同位素的拟合区域强度。剩余的强度用于创建虚拟离子,并且与未匹配的峰值检测一起通过第二轮聚集。新生成的光谱通过与之前相同的发现环进行研究,当没有发现新的识别时,就会终止研究。
如其他推定识别所示,目标识别可以通过去多路复用目标验证逻辑506来验证,通过使用上述转变环332进行关联,以确保在群组中的所有样品中的可再现性。然后如前所述对经验证的目标识别进行分组并且转移以通过多变量统计/机器学习508进行分析。
在如上文所论述生成MIR和目标库之后,它们可以用于各种目的,诸如验证由不同装置、不同用户、不同实验室等生成的质谱是否彼此重复,用于将来比较的归一化数据,确定样品中是否存在目标分子,以及其他应用。图6是描绘一个此类应用的示例性逻辑的流程图:设计实验以最大限度地提高发现目标分子(如果它们存在于样品中)的机会。例如,给定目标分子的特定组合,逻辑可以输出装置应该配置有X分钟梯度、Y psi和Z PPM质量准确度的指示。
在其他可能性中,图6的逻辑块可以被实现为存储在非暂态计算机可读介质上的指令、由计算设备执行的方法或者被实现为用指令编程以执行该动作的计算设备。
在框602处,计算设备可以经由用户界面接收在样品中待识别的两个或更多个目标分子的列表,以根据由多个参数限定的实验方法通过质谱装置进行分析。例如,参数可以包括实验装置的梯度斜率、压力值和/或质量准确度。
在框604处,设备可以基于两个或更多个目标分子的列表执行统计分析,该统计分析被配置为确定误识别该列表中的目标分子中的一个或多个目标分子的概率。
统计分析可以基于如存储在MIR中的通过在不同机器上多次运行已知标准而收集的数据。因为不同的机器将固有地具有一些差异,所以不同机器之间的保持时间将可能不同。
因此,可以从每个机器检索一连串的光谱,其中光谱包括前体(LCMS和LCMSMS)和产物离子(LCMSMS)。可以通过强度对离子检测进行排序,使得跨n个样品,最强烈的离子检测应当位于每个样品的顶部。然后,n次最强烈的检测按质量升序排列。可选地,可以将质量分箱(例如,以10ppm)。
计算设备确定跨样品的群组发现每种质量的次数。目标是将数据汇编成n组,这将指示每个样品发生一次离子检测并且离子检测可以因此彼此对准。
如果次数大于n(样品数量),这意味着质量以不同保持时间存在于数据中。计算设备可以通过分箱质量和随后保持时间对离子检测进行排序。也可以分箱保持时间(例如,在1分钟、5分钟等内)。
如果在通过质量和时间进行排序时离子检测为n组,则每个样品发生一次检测并且因此可以对准。例如,如果n=15并且给定质量的15次检测发生在5分钟内、15次检测发生在10分钟内以及15次检测发生在15分钟内,则每个样品发生一次检测并且可以对准。
在每个步骤处,可以确定数据是否基于当前维度集(质量、时间、漂移等)对准。如果检测数量在给定步骤处不能被布置成n组,可以添加另一维度,并且可以基于新维度对检测进行排序。
在离子检测被布置成n组之后,可以绘制检测中的每次检测的时间的变化(因为相同分子应该在相同时间点出现在数据中)。漂移时间的波动可以通过映射回归线上的差异并将其对准来解释。通过测量归一化的时间的变化,可以测量波动。然后可以使用波动来限定匹配公差。可以确定提供给维度中的每个维度的公差,因为原始样品是标准,所以实验者知道样品的组成。例如,如果样品可以在X ppm、Y分钟和Z漂移箱内匹配,则这些值可以限定所需用于以高精确度检测所识别的目标分子的实验装置的参数。
在一些实施方案中,统计分析是基于列表中目标分子的子集来执行的,该子集表示来自该目标分子中的一组相对较少的共同标记物。因为许多分子包括大量共同标记物,因此找到这些共同标记物可能不会提供关于样品中分子的许多信息(因为许多不同的分子可以形成该共同标记物)。通过基于哪些标志物是相对较少共同的来选择目标分子的子集,可以更快速地进行更准确的识别。
在框606处,设备可以选择针对多个参数的值的集合,该值的集合将概率减小到预先确定的阈值以下,并且在用户界面上呈现所选择的值的集合。
在一些实施方案中,可以基于目标分子中的一个或多个目标分子的已知多维定位和/或目标分子之间的已知关系来选择针对多个参数的值。
在框608处,计算设备可以在用户界面上呈现分数以表示在给定所选择的值的集合的情况下,在样品中将正确识别两个或更多个目标分子的存在或不存在的可能性。
基于上述变化,计算设备可以在给定这些参数的情况下针对给定参数集确定目标分子将被识别的可能性。这种可能性可以被归一化并被转换成上述分数。
在一些实施方案中,分数可以通过以下项来计算:(a)查询包括光谱特征的不可变属性的共有库;(b)对该共有库中存在目标分子中的一个目标分子的频率进行计数;(c)将该频率计数转化为概率分数;针对多个目标分子重复步骤(a)至(c);以及将针对该多个目标分子的该概率分数相乘在一起。可以将分数配置为作为由所应用的采集方法所确定的可用的分离维度的数量的函数和/或根据所采用的所有可用的分离系统的分辨力而增加。分数可以基于两个或更多个目标分子的质荷比、保持时间和漂移时间的组合和/或基于跨多个光谱装置的光谱标准的测量中的波动来计算。换句话讲,分数反映了以给定归一化的时间和漂移反射给定质量的频率,然后该频率被转换成概率。跨所有感兴趣分子组合该概率限制了识别到的特征将被偶然或作为随机事件检测的可能性。
图7是描绘针对上述MIR的另一应用的示例性逻辑的流程图,其归一化所获取的数据用于各种目的。
在其他可能性中,图7的逻辑块可以被实现为存储在非暂态计算机可读介质上的指令、由计算设备执行的方法或者被实现为用指令编程以执行所述动作的计算设备。
在框702处,计算设备可以应用采集方法来接收由质谱装置生成的质谱,该采集方法确定该质谱中可用的分离维度的数量。
在框704处,计算设备可以使用类似于结合生成MIR的推定部分在上文描述的那些的技术来限定针对质谱的推定产物离子谱。
在框706处,计算设备可以访问存储与推定产物离子谱匹配的复合产物离子谱的储存库。此类储存库的示例是上述MIR。
在框708处,计算设备可以检索要考虑的下一分离维度。对于该分离维度中的每个分离维度,计算设备可以(在框710处)检索基于复合产物离子谱生成的回归曲线,以及可以通过应用相应的回归曲线(在框712处)来生成归一化的质谱,以对对应的分离维度的值进行归一化。结合图3中的发现归一化过程已经在上文描述了回归曲线。可以将相应的回归曲线应用于质谱中的原始峰值检测,以对时间、质荷比或漂移中的至少一者的变化进行校正。
如上所述,归一化光谱可以包括:将推定产物离子谱聚集成离子簇,然后基于归一化的值重新聚集推定产物离子谱。聚集可以通过以下项来执行:计算针对推定产物离子谱的理论同位素分布;基于该理论同位素分布聚集推定产物离子谱;确定质谱中存在的同位素的强度超过预先确定的阈值量;从过量的该同位素形成虚拟离子;以及将该虚拟离子聚集成新同位素组。
在框714处,系统确定是否要考虑更多分离维度。如果是,则处理返回至框708,并且检索下一分离维度。否则,处理前进至决策框716。
在一些实施方案中,计算设备可以检索多个质谱,并且可以验证质谱以确定质谱是否彼此再现。为此,在决策框716处,设备可以确定是否要分析更多光谱。如果是,则处理返回至框702,并且选择和归一化下一光谱,如上所述。
在已经分析所有光谱(在框716处“无”)之后,处理可以前进至框718,其中设备可以验证光谱彼此再现。为此,可以对如在框712的每次迭代处创建的归一化的光谱进行比较;因为已经使用本文所述的技术归一化光谱,该光谱现在应当时直接可比的(例如,在预定可接受的公差内)。为此,针对分离维度的归一化的值可以各自与匹配公差相(如结合图6在上文所述)关联,该匹配公差限定窗口,通过该窗口该归一化的质谱将被认为与目标光谱匹配。这允许将由不同类型的不同质谱装置生成的光谱(例如,采用不同采集方法的不同平台)彼此进行比较。
在一些实施方案中,计算设备可以进一步确定在生成质谱的样品中是否存在目标分子。为此,在框720处,计算设备可以接收在生成质谱的样品中待识别的两个或更多个目标分子的列表。在框722处,计算设备可以选择针对样品定制的目标库,该目标库包括用于识别两个或更多个目标分子的一组前体离子和产物离子,其中该目标库由质谱中表示的前体离子和产物离子的子集组成。在一些实施方案中,前体离子和产物离子的子集是识别质谱中的目标分子所必要的最小子集。可以根据上述技术针对MIR生成目标库。在框724处,计算设备可以使用目标库以确定在样品中是否存在目标分子(使用上述“目标定位”技术),并且可以在用户界面上输出对分子的存在的指示。
图8示出了可以用于在独立和/或联网环境中实现本文所述的一个或多个例示性方面的系统架构和数据处理设备的一个示例。各种网络节点(诸如数据服务器810、web服务器806、计算机804和膝上型电脑802)可以经由诸如互联网的广域网808(WAN)互连。也可以或可以另选地使用其他网络,包括私有内联网、公司网络、LAN、城域网(MAN)无线网络、个人网络(PAN)等。网络808用于示意性的说明并且可以被更少或附加的计算机网络替代。局域网(LAN)可以具有任何已知LAN拓扑中的一个或多个任何已知LAN拓扑,并且可以使用各种不同方案中的一种或多种不同方案,诸如以太网。设备数据服务器810、web服务器806、计算机804、膝上型电脑802和其他设备(未示出)可以经由双绞线、同轴电缆、光纤、无线电波或其他通信介质连接到网络中的一个或多个网络。
计算机软件、硬件和网络可以用在各种不同的系统环境中,包括独立环境、联网环境、远程访问(也被称为远程桌面)环境、虚拟化环境和/或基于云的环境等。
如本文所用并且在附图中描绘的术语“网络”不仅指其中远程存储设备经由一个或多个通信路径耦接在一起的系统,而且还指可能不时耦接到具有存储能力的此类系统的独立设备。因此,术语“网络”不仅包括“物理网络”,而且包括“内容网络”,该内容网络包括驻留在各种物理网络上(可归因于单个实体)的数据。
部件可以包括数据服务器810、web服务器806和客户端计算机804、膝上型电脑802。数据服务器810提供了对用于执行本文所述的一个或多个例示性方面的数据库和控制软件的总体访问、控制和管理。数据服务器810可以连接到web服务器806,用户通过该web服务器与所请求的数据进行交互并获得数据。另选地,数据服务器810可以充当web服务器本身并且直接连接到互联网。数据服务器810可以通过网络808(例如,互联网)经由直接连接或间接连接或经由一些其他网络连接到web服务器806。用户可以使用远程计算机804、膝上型电脑802与数据服务器810交互,例如,使用web浏览器经由在web服务器806托管的一个或多个外部公开的网站连接到数据服务器810。客户端计算机804、膝上型电脑802可以与数据服务器810一起使用以访问存储在其中的数据,或者可以用于其他目的。例如,从客户端计算机804,用户可以使用如本领域已知的互联网浏览器来访问网络服务器806,或者通过在计算机网络(诸如互联网)上执行与web服务器806和/或数据服务器810通信的软件应用程序来访问该web服务器。
服务器和应用程序可以在同一物理机器上组合,并保留独立的虚拟或逻辑地址,或者可以驻留在独立的物理机器上。图8仅示出了可以使用的网络架构的一个示例,并且本领域技术人员将理解,所用的特定网络架构和数据处理设备可以不同,并且其提供的功能是次要的,如本文进一步所述。例如,由web服务器806和数据服务器810提供的服务可以组合在单个服务器上。
每个部件数据服务器810、web服务器806、计算机804、膝上型电脑802可以是任何类型的已知计算机、服务器或数据处理设备。数据服务器810例如可以包括控制数据服务器810的整体操作的处理器812。数据服务器810还可以包括RAM 816、ROM 818、网络接口814、输入/输出接口820(例如,键盘、鼠标、显示器、打印机等)和存储器822。输入/输出接口820可以包括用于读取、写入、显示和/或打印数据或文件的各种接口单元和驱动器。存储器822还可以存储:用于控制数据服务器810的整体操作的操作系统软件824、用于指示数据服务器810执行本文所述方面的控制逻辑部件826以及提供可以与或可以不与本文所述方面结合使用的次要、支持和或其他功能的其他应用软件828。控制逻辑部件在本文中也可以被称为数据服务器软件控制逻辑部件826。数据服务器软件的功能可以指基于编码到控制逻辑部件中的规则而自动做出、由用户提供输入到系统中而手动做出的操作或决策和/或基于用户输入(例如,查询、数据更新等)的自动处理的组合。
存储器1122还可以存储用于执行本文所述的一个或多个方面的数据,该存储器包括第一数据库832和第二数据库830。在一些实施方案中,第一数据库可以包括第二数据库(例如,作为单独的表、报告等)。也就是说,取决于系统设计,可以将信息存储在单个数据库中或将其分成不同的逻辑数据库、虚拟数据库或物理数据库。Web服务器806、计算机804、膝上型电脑802可以具有相似或不同的架构,如关于数据服务器810所述。本领域技术人员应当理解,如本文所述的数据服务器810(或web服务器806、计算机804、膝上型电脑802)的功能可以跨多个数据处理设备扩展,例如,以跨多个计算机分配处理负载,以基于地理位置、用户访问级别、服务质量(QoS)等来分离交易。
一个或多个方面可以在被一个或多个计算机或如本文所述的其他设备执行的计算机可用或可读数据和/或计算机可执行指令中(诸如在一个或多个程序模块中)实现。通常,程序模块包括在被计算机或其他设备中的处理器执行时执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。可以用随后被编译用于执行的源代码编程语言编写模块或用脚本语言(诸如(但不限于)HTML或XML)编写模块。计算机可执行指令可以存储在计算机可读介质上,诸如非易失性存储设备。可以利用任何合适的计算机可读存储介质,包括硬盘、CD-ROM、光学存储设备、磁性存储设备和/或它们的任何组合。此外,表示如本文所述的数据或事件的各种传输(非存储)介质可以在源和目的之间以电磁波经过信号传导介质(诸如金属线、光纤)和/或无线传输介质(例如,空气和/或空间)的形式进行传输。本文所述的各个方面可以被实现为方法、数据处理系统或计算机程序产品。因此,各种功能可以整体或部分地在软件、固件和/或硬件或硬件等同物中,诸如集成电路、现场可编程门阵列(FPGA)等中实现。特定数据结构可以用于更有效地实现本文所述的一个或多个方面,并且此类数据结构被设想在本文所述的计算机可执行指令和计算机可用数据的范围内。
可以使用离散电路、专用集成电路(ASIC)、逻辑门和/或单个芯片架构来实现上述设备的部件和特征。另外,可以使用微控制器、可编程逻辑阵列和/或微处理器或前述的任何组合来实现设备的特征。应当注意,硬件元件、固件元件和/或软件元件在本文中可以被统称为或被单独称为“逻辑”或“电路”。
应当理解,上述框图所示的示例性设备可以表示许可能的具体实施的功能描述性示例。因此,省略或包括在附图中所描绘的块功能并不意味着在实施方案中必须分割、省略或包括用于实现这些功能的硬件部件、电路、软件和/或元件。
至少一种计算机可读存储介质可以包括指令,该指令在被执行时使系统执行本文所述的计算机实现的方法中的任何计算机实现的方法。
可以使用表述“一个实施方案”和“实施方案”以及其派生词来描述一些实施方案。这些术语表示结合实施方案描述的特定特征、结构或特性包括在至少一个实施方案中。短语“在一个实施方案中”在说明书中各个位置中的出现不一定都指相同的实施方案。此外,除非另有说明,否则上述特征被认为可以在任何组合中一起使用。因此,单独讨论的任何特征可以彼此组合使用,除非注意到特征彼此不相容。
通常参考本文使用的注释和符号,可以根据在计算机或计算机的网络上执行的程序来呈现本文的详细描述。本领域技术人员使用这些程序描述和表示来最有效地将其工作的实质传达给本领域的其他技术人员。
这里的程序通常被认为是导致期望结果的自相一致的操作序列。这些操作是需要物理量的物理操作的那些。通常但不一定,这些量采用可以被存储、被传输、被组合、被比较和以其他方式被操作的电信号、磁性信号或光学信号的形式。证明主要出于常见使用的原因将这些信号称为位、值、元素、符号、字符、术语、数字等有时是很方便的。然而,应当注意,所有这些和类术语都与适当的物理量相关联,并且仅仅是应用于那些量的方便标签。
另外,所执行的操作通常以例如添加或比较等术语来表示,这些术语通常与由操作员执行的心理操作相关联。在大多数情况下,在本文所述的形成一个或多个实施方案的一部分的操作中的任何操作中,不需要操作员的此类能力。相反,操作是机器操作。用于执行各种实施方案的操作的有用机器包括通用数字计算机或类似设备。
可使用表述“耦接”和“连接”以及其派生词来描述一些实施方案。这些术语不一定旨在互为同义词。例如,可使用术语“连接”和/或“耦接”来描述一些实施方案,以指示两个或更多个元件彼此直接物理或电接触。然而,术语“耦接”还可表示两个或更多个元件不彼此直接接触,但是仍然彼此协作或相互作用。
各种实施方案还涉及用于执行这些操作的装置或系统。此装置可以专门为所需目的构造或者其可以包括通用计算机,该通用计算机由存储在计算机中的计算机程序选择性地激活或重新配置。本文呈现的程序不固有地与特定计算机或其他装置相关。各种通用机器可以与根据本文教导编写的程序一起使用或者可以证明构建更专业的装置以执行所需方法步骤是方便的。针对各种这些机器的所需结构将从给出的描述出现。
应当强调的是,提供本公开的摘要以允许读者快速地确定技术公开的性质。应当理解,所提交的摘要将不会被用于解释或限制权利要求的范围或含义。另外,在前述具体实施方式中,可以看出,可以出于简化本公开目的,各种特征在单一实施方案中被分组在一起。本公开的该方法不应被解释为反映要求保护的实施方案要求比每项权利要求中明确地表述的特征更多的特征的意图。相反,如以下权利要求所反映,本发明的主题比单个公开的实施方案的所有特征少。因此,以下权利要求在此结合到具体实施方式中,其中每项权利要求将其自身作为单独的实施方案。在所附权利要求中,术语“包括(including)”和“其中(inwhich)”分别用作相应术语“包括(comprising)”和“其中(wherein)”的通俗英文等效用语。此外,术语“第一”、“第二”和“第三”等仅用作标签,而不旨在对它们的对象强加数字要求。
上文已经描述的内容包括架构的示例。当然,不可能描述部件和/或方法的每个可想到的组合,但是本领域普通技术人员应当理解,许多另外的组合和排列是可能的。因此,新颖架构旨在涵盖落入所附权利要求的精神和范围内的所有此类改变、修改和变化。
Claims (60)
1.一种计算机实现的方法,包括:
经由用户界面接收在样品中待识别的两个或更多个目标分子的列表,以根据由多个参数限定的实验方法通过质谱装置进行分析;
基于所述两个或更多个目标分子的列表执行统计分析,所述统计分析被配置为确定误识别所述列表中的所述目标分子中的一个或多个目标分子的概率;
选择针对所述多个参数的值的集合,所述值的集合将所述概率减小到预先确定的阈值以下;以及
在所述用户界面上呈现所选择的值的集合。
2.根据权利要求1所述的计算机实现的方法,其中所述统计分析是基于所述列表中目标分子的子集来执行的,所述子集表示来自所述目标分子中的一组相对较少的共同标记物。
3.根据权利要求1所述的计算机实现的方法,其中所述实验方法的所述多个参数包括洗脱位置、碰撞横截面、漂移位置或质量准确度中的一者或多者。
4.根据权利要求1所述的计算机实现的方法,其中针对所述多个参数的所述值是基于以下项中的至少一项选择的:
所述目标分子中的一个目标分子的已知三维定位,
所述目标分子中的一个目标分子的已知碎断图案,或
所述目标分子中的两个目标分子之间的已知关系。
5.根据权利要求1所述的计算机实现的方法,还包括在所述用户界面上呈现分数,所述分数表示在给定所选择的值的集合的情况下,在所述样品中将正确识别所述两个或更多个目标分子的存在或不存在的可能性。
6.根据权利要求5所述的计算机实现的方法,其中所述分数是通过以下项来计算的:
(a) 查询包括光谱特征的不可变属性的共有库;
(b) 对所述共有库中存在所述目标分子中的一个目标分子的频率进行计数;
(c) 将所述频率计数转化为概率分数;
针对多个所述目标分子重复步骤(a)至(c);以及
将针对所述多个目标分子的所述概率分数相乘在一起。
7.根据权利要求5所述的计算机实现的方法,其中所述分数作为由所应用的采集方法所确定的可用的分离维度的数量的函数而增加。
8.根据权利要求5所述的计算机实现的方法,其中所述分数根据所述质谱装置的分辨力而增加。
9.根据权利要求5所述的计算机实现的方法,其中所述分数是基于所述两个或更多个目标分子的质荷比、保持时间和漂移时间的组合计算的。
10.根据权利要求5所述的计算机实现的方法,其中所述分数是基于跨多个光谱装置的光谱标准的测量中的波动计算的。
11.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在被计算机执行时使所述计算机:
经由用户界面接收在样品中待识别的两个或更多个目标分子的列表,以根据由多个参数限定的实验方法通过质谱装置进行分析;
基于所述两个或更多个目标分子的列表执行统计分析,所述统计分析被配置为确定误识别所述列表中的所述目标分子中的一个或多个目标分子的概率;
选择针对所述多个参数的值的集合,所述值的集合将所述概率减小到预先确定的阈值以下;以及
在所述用户界面上呈现所选择的值的集合。
12.根据权利要求11所述的计算机可读存储介质,其中所述统计分析是基于所述列表中目标分子的子集来执行的,所述子集表示来自所述目标分子中的一组相对较少的共同标记物。
13.根据权利要求11所述的计算机可读存储介质,其中所述实验方法的所述多个参数包括洗脱位置、碰撞横截面、漂移位置或质量准确度中的一者或多者。
14.根据权利要求11所述的计算机可读存储介质,其中针对所述多个参数的所述值是基于以下项中的至少一项选择的:
所述目标分子中的一个目标分子的已知三维定位,
所述目标分子中的一个目标分子的已知碎断图案,或
所述目标分子中的两个目标分子之间的已知关系。
15.根据权利要求11所述的计算机可读存储介质,其中所述指令进一步配置所述计算机以在所述用户界面上呈现分数,所述分数表示在给定所选择的值的集合的情况下,在所述样品中将正确识别所述两个或更多个目标分子的存在或不存在可能性。
16.根据权利要求15所述的计算机可读存储介质,其中所述分数是通过以下项来计算的:
(a) 查询包括光谱特征的不可变属性的共有库;
(b) 对所述共有库中存在所述目标分子中的一个目标分子的频率进行计数;
(c) 将所述频率计数转化为概率分数;
针对多个所述目标分子重复步骤(a)至(c);以及
将针对所述多个目标分子的所述概率分数相乘在一起。
17.根据权利要求15所述的计算机可读存储介质,其中所述分数作为由所应用的采集方法所确定的可用的分离维度的数量的函数而增加。
18.根据权利要求15所述的计算机可读存储介质,其中所述分数根据所述质谱装置的分辨力而增加。
19.根据权利要求15所述的计算机可读存储介质,其中所述分数是基于所述两个或更多个目标分子的质荷比、保持时间和漂移时间的组合计算的。
20.根据权利要求15所述的计算机可读存储介质,其中所述分数是基于跨多个光谱装置的光谱标准的测量中的波动计算的。
21. 一种计算装置,包括:
处理器;和
存储指令的存储器,所述指令在被所述处理器执行时配置所述装置以:
经由用户界面接收在样品中待识别的两个或更多个目标分子的列表,以根据由多个参数限定的实验方法通过质谱装置进行分析;
基于所述两个或更多个目标分子的列表执行统计分析,所述统计分析被配置为确定误识别所述列表中的所述目标分子中的一个或多个目标分子的概率;
选择针对所述多个参数的值的集合,所述值的集合将所述概率减小到预先确定的阈值的以下;以及
在所述用户界面上呈现所选择的值的集合。
22.根据权利要求21所述的计算装置,其中所述统计分析是基于所述列表中目标分子的子集来执行的,所述子集表示来自所述目标分子中的一组相对较少的共同标记物。
23.根据权利要求21所述的计算装置,其中所述实验方法的所述多个参数包括洗脱位置、碰撞横截面、漂移位置或质量准确度中的一者或多者。
24.根据权利要求21所述的计算装置,其中所述多个参数的所述值是基于以下项中的至少一项选择的:
所述目标分子中的一个目标分子的已知三维定位,
所述目标分子中的一个目标分子的已知碎断图案,或
所述目标分子中的两个目标分子之间的已知关系。
25.根据权利要求21所述的计算装置,其中所述指令进一步配置所述装置以在所述用户界面上呈现分数,所述分数表示在给定所选择的值的集合的情况下,在所述样品中将正确识别所述两个或更多个目标分子的存在或不存在的可能性。
26.根据权利要求25所述的计算装置,其中所述分数是通过以下项来计算的:
(a) 查询包括光谱特征的不可变属性的共有库;
(b) 对所述共有库中存在所述目标分子中的一个目标分子的频率进行计数;
(c) 将所述频率计数转化为概率分数;
针对多个所述目标分子重复步骤(a)至(c);以及
将针对所述多个目标分子的所述概率分数相乘在一起。
27.根据权利要求25所述的计算装置,其中所述分数作为由所应用的采集方法所确定的可用的分离维度的数量的函数而增加。
28.根据权利要求25所述的计算装置,其中所述分数根据所述质谱装置的分辨力而增加。
29.根据权利要求25所述的计算装置,其中所述分数是基于所述两个或更多个目标分子的质荷比、保持时间和漂移时间的组合计算的。
30.根据权利要求25所述的计算装置,其中所述分数是基于跨多个光谱装置的光谱标准的测量中的波动计算的。
31.一种计算机实现的方法,包括:
应用采集方法来接收由质谱装置生成的质谱,所述采集方法确定所述质谱中可用的分离维度的数量;
限定针对所述质谱的推定产物离子谱;
访问存储与所述推定产物离子谱匹配的复合产物离子谱的储存库;以及
对于所述分离维度中的每个分离维度,
检索基于所述复合产物离子谱生成的回归曲线,以及
通过应用相应的回归曲线来生成归一化的质谱,以对对应的分离维度的值进行归一化。
32.根据权利要求31所述的计算机实现的方法,其中将所述相应的回归曲线应用于所述质谱中的原始峰值检测以对时间、质荷比或漂移中的至少一者的变化进行校正。
33.根据权利要求31所述的计算机实现的方法,其中所述质谱是第一质谱,并且所述质谱装置是第一质谱装置,并且所述方法还包括:
接收由与所述第一质谱装置不同的第二质谱装置生成的第二质谱;
使用所述复合产物离子谱对所述第二质谱进行归一化;以及
通过将所归一化的第二质谱与所述第一归一化的质谱进行比较来验证所述第二质谱再现所述第一质谱。
34.根据权利要求31所述的计算机实现的方法,其中所述第一质谱装置是与所述第一质谱装置不同类型的器械平台。
35.根据权利要求31所述的计算机实现的方法,其中所述第一质谱装置应用与所述第一质谱装置不同的采集类型。
36.根据权利要求31所述的计算机实现的方法,其中将所述推定产物离子谱聚集成离子簇,并且所述方法还包括基于所归一化的值重新聚集所述推定产物离子谱。
37.根据权利要求36所述的计算机实现的方法,其中所述推定生产离子谱是通过以下项来聚集的:
计算针对所述推定产物离子谱的理论同位素分布;
基于所述理论同位素分布来聚集所述推定产物离子谱;
确定所述质谱中存在的同位素的强度超过预先确定的阈值量;
从过量的所述同位素形成虚拟离子;以及
将所述虚拟离子聚集成新同位素组。
38.根据权利要求31所述的计算机实现的方法,还包括:
接收在生成所述质谱的样品中待识别的两个或更多个目标分子的列表;
选择针对所述样品定制的目标库,所述目标库包括用于识别所述两个或更多个目标分子的一组前体离子和产物离子,其中所述目标库由所述质谱中表示的前体离子和产物离子的子集组成;以及
使用所述目标库以确定在所述样品中是否存在所述目标分子。
39.根据权利要求31所述的计算机实现的方法,其中所述前体离子和产物离子的子集是识别所述质谱中的所述目标分子所必要的最小子集。
40.根据权利要求31所述的计算机实现的方法,其中针对所述分离维度的所归一化的值各自与匹配公差相关联,所述匹配公差限定窗口,通过所述窗口所述归一化的质谱将被认为与目标光谱匹配。
41.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在被计算机执行时使所述计算机:
应用采集方法来接收由质谱装置生成的质谱,所述采集方法确定所述质谱中可用的分离维度的数量;
限定针对所述质谱的推定产物离子谱;
访问存储与所述推定产物离子谱匹配的复合产物离子谱的储存库;以及
对于所述分离维度中的每个分离维度,
检索基于所述复合产物离子谱生成的回归曲线,以及
通过应用相应的回归曲线来生成归一化的质谱,以对对应的分离维度的值进行归一化。
42.根据权利要求41所述的计算机可读存储介质,其中将所述相应的回归曲线应用于所述质谱中的原始峰值检测以对时间、质荷比或漂移中的至少一者的变化进行校正。
43.根据权利要求41所述的计算机可读存储介质,其中所述质谱是第一质谱,并且所述质谱装置是第一质谱装置,并且其中所述指令进一步配置所述计算机以:
接收由与所述第一质谱装置不同的第二质谱装置生成的第二质谱;
使用所述复合产物离子谱对所述第二质谱进行归一化;以及
通过将所归一化的第二质谱与所述第一归一化的质谱进行比较来验证所述第二质谱再现所述第一质谱。
44.根据权利要求41所述的计算机可读存储介质,其中所述第一质谱装置是与所述第一质谱装置不同类型的器械平台。
45.根据权利要求41所述的计算机可读存储介质,其中所述第一质谱装置应用与所述第一质谱装置不同的采集类型。
46.根据权利要求41所述的计算机可读存储介质,其中将所述推定产物离子谱聚集成离子簇,并且其中所述指令进一步配置所述计算机以基于所归一化的值重新聚集所述推定产物离子谱。
47.根据权利要求46所述的计算机可读存储介质,其中所述推定生产离子谱是通过以下项来聚集的:
计算针对所述推定产物离子谱的理论同位素分布;
基于所述理论同位素分布来聚集所述推定产物离子谱;
确定所述质谱中存在的同位素的强度超过预先确定的阈值量;
从过量的所述同位素形成虚拟离子;以及
将所述虚拟离子聚集成新同位素组。
48.根据权利要求41所述的计算机可读存储介质,其中所述指令进一步配置所述计算机以:
接收在生成所述质谱的样品中待识别的两个或更多个目标分子的列表;
选择针对所述样品定制的目标库,所述目标库包括用于识别所述两个或更多个目标分子的一组前体离子和产物离子,其中所述目标库由所述质谱中表示的前体离子和产物离子的子集组成;以及
使用所述目标库以确定在所述样品中是否存在所述目标分子。
49.根据权利要求41所述的计算机可读存储介质,其中所述前体离子和产物离子的子集是识别所述质谱中的所述目标分子所必要的最小子集。
50.根据权利要求41所述的计算机可读存储介质,其中针对所述分离维度的所归一化的值各自与匹配公差相关联,所述匹配公差限定窗口,通过所述窗口所述归一化的质谱将被认为与目标光谱匹配。
51. 一种计算装置,包括:
处理器;和
存储指令的存储器,所述指令在被所述处理器执行时配置所述装置以:
应用采集方法来接收由质谱装置生成的质谱,所述采集方法确定所述质谱中可用的分离维度的数量;
限定针对所述质谱的推定产物离子谱;
访问存储与所述推定产物离子谱匹配的复合产物离子谱的储存库;以及
对于所述分离维度中的每个分离维度,
检索基于所述复合产物离子谱生成的回归曲线,以及
通过应用相应的回归曲线来生成归一化的质谱,以对对应的分离维度的值进行归一化。
52.根据权利要求51所述的计算装置,其中将所述相应的回归曲线应用于所述质谱中的原始峰值检测以对时间、质荷比或漂移中的至少一者的变化进行校正。
53.根据权利要求51所述的计算装置,其中所述质谱是第一质谱,并且所述质谱装置是第一质谱装置,并且其中所述指令进一步配置所述装置以:
接收由与所述第一质谱装置不同的第二质谱装置生成的第二质谱;
使用所述复合产物离子谱对所述第二质谱进行归一化;以及
通过将所归一化的第二质谱与所述第一归一化的质谱进行比较来验证所述第二质谱再现所述第一质谱。
54.根据权利要求51所述的计算装置,其中所述第一质谱装置是与所述第一质谱装置不同类型的器械平台。
55.根据权利要求51所述的计算装置,其中所述第一质谱装置应用与所述第一质谱装置不同的采集类型。
56.根据权利要求51所述的计算装置,其中将所述推定产物离子谱聚集成离子簇,并且其中所述指令进一步配置所述装置以基于所归一化的值重新聚集所述推定产物离子谱。
57.根据权利要求56所述的计算装置,其中所述推定生产离子谱是通过以下项来聚集的:
计算针对所述推定产物离子谱的理论同位素分布;
基于所述理论同位素分布来聚集所述推定产物离子谱;
确定所述质谱中存在的同位素的强度超过预先确定的阈值量;
从过量的所述同位素形成虚拟离子;以及
将所述虚拟离子聚集成新同位素组。
58.根据权利要求51所述的计算装置,其中所述指令进一步配置所述装置以:
接收在生成所述质谱的样品中待识别的两个或更多个目标分子的列表;
选择针对所述样品定制的目标库,所述目标库包括用于识别所述两个或更多个目标分子的一组前体离子和产物离子,其中所述目标库由所述质谱中表示的前体离子和产物离子的子集组成;以及
使用所述目标库以确定在所述样品中是否存在所述目标分子。
59.根据权利要求51所述的计算装置,其中所述前体离子和产物离子的子集是识别所述质谱中的所述目标分子所必要的最小子集。
60.根据权利要求51所述的计算装置,其中针对所述分离维度的所归一化的值各自与匹配公差相关联,所述匹配公差限定窗口,通过所述窗口所述归一化的质谱将被认为与目标光谱匹配。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063014858P | 2020-04-24 | 2020-04-24 | |
US63/014,858 | 2020-04-24 | ||
PCT/IB2021/053381 WO2021214728A1 (en) | 2020-04-24 | 2021-04-23 | Methods, mediums, and systems to compare data within and between cohorts |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115380212A true CN115380212A (zh) | 2022-11-22 |
Family
ID=75746975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180030485.7A Pending CN115380212A (zh) | 2020-04-24 | 2021-04-23 | 用于比较群组内和群组间数据的方法、介质和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210333251A1 (zh) |
EP (1) | EP4139673A1 (zh) |
CN (1) | CN115380212A (zh) |
WO (1) | WO2021214728A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220042957A1 (en) * | 2020-08-04 | 2022-02-10 | Dionex Corporation | Peak Profile for Identifying an Analyte in a Chromatogram |
CN116829940A (zh) * | 2020-12-18 | 2023-09-29 | 沃特世科技爱尔兰有限公司 | 用于构建和执行色谱工作流的方法、介质和系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5668373A (en) * | 1996-04-26 | 1997-09-16 | Trustees Of Tufts College | Methods and apparatus for analysis of complex mixtures |
CA2340150C (en) | 2000-06-09 | 2005-11-22 | Micromass Limited | Methods and apparatus for mass spectrometry |
ATE327512T1 (de) * | 2001-12-08 | 2006-06-15 | Micromass Ltd | Massenspektrometrie-verfahren |
EP1553515A1 (en) * | 2004-01-07 | 2005-07-13 | BioVisioN AG | Methods and system for the identification and characterization of peptides and their functional relationships by use of measures of correlation |
WO2006133016A2 (en) * | 2005-06-01 | 2006-12-14 | Invitrogen Corporation | Method for analyzing biological data sets |
CN101680872B (zh) * | 2007-04-13 | 2015-05-13 | 塞昆纳姆股份有限公司 | 序列比较分析方法和系统 |
WO2014116711A1 (en) * | 2013-01-22 | 2014-07-31 | The University Of Chicago | Methods and apparatuses involving mass spectrometry to identify proteins in a sample |
CN108140060B (zh) * | 2015-05-29 | 2022-06-28 | 沃特世科技公司 | 用于处理质谱数据的技术 |
EP3293754A1 (en) * | 2016-09-09 | 2018-03-14 | Thermo Fisher Scientific (Bremen) GmbH | Method for identification of the monoisotopic mass of species of molecules |
-
2021
- 2021-04-23 CN CN202180030485.7A patent/CN115380212A/zh active Pending
- 2021-04-23 EP EP21722559.8A patent/EP4139673A1/en active Pending
- 2021-04-23 US US17/238,540 patent/US20210333251A1/en active Pending
- 2021-04-23 WO PCT/IB2021/053381 patent/WO2021214728A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP4139673A1 (en) | 2023-03-01 |
US20210333251A1 (en) | 2021-10-28 |
WO2021214728A1 (en) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9312110B2 (en) | System and method for grouping precursor and fragment ions using selected ion chromatograms | |
Zhang et al. | Review of peak detection algorithms in liquid-chromatography-mass spectrometry | |
JP4515819B2 (ja) | 質量分析システム | |
US7851742B2 (en) | Method and apparatus for identifying proteins in mixtures | |
US9395341B2 (en) | Method of improving the resolution of compounds eluted from a chromatography device | |
US9146213B2 (en) | Method and apparatus for performing retention time matching | |
US8592752B2 (en) | Techniques for performing retention-time matching of precursor and product ions and for constructing precursor and product ion spectra | |
CN111902719B (zh) | 自动的质谱分析方法和仪器 | |
US20090215103A1 (en) | Generation and use of a catalog of polypeptide-related information for chemical analyses | |
CN108982729A (zh) | 用于提取质量迹线的系统和方法 | |
CN115380212A (zh) | 用于比较群组内和群组间数据的方法、介质和系统 | |
US7529630B2 (en) | Method of analyzing mass analysis data and apparatus for the method | |
EP4078600B1 (en) | Method and system for the identification of compounds in complex biological or environmental samples | |
JP2007121134A (ja) | タンデム質量分析システム | |
Needham et al. | i, United States Patent (10) Patent No.: US 7,800,055 B2 | |
LaMarche | Methods for comparing metaproteomic data in the absence of metagenomic information | |
Grognuz et al. | A Common Processing and Statistical Frame for Label-Free Quantitative Proteomic Analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |