CN116438625A - 用于在调谐质谱设备时选择参数值的方法、介质和系统 - Google Patents
用于在调谐质谱设备时选择参数值的方法、介质和系统 Download PDFInfo
- Publication number
- CN116438625A CN116438625A CN202180052165.1A CN202180052165A CN116438625A CN 116438625 A CN116438625 A CN 116438625A CN 202180052165 A CN202180052165 A CN 202180052165A CN 116438625 A CN116438625 A CN 116438625A
- Authority
- CN
- China
- Prior art keywords
- parameter
- parameters
- computer
- data
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004949 mass spectrometry Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 98
- 238000009826 distribution Methods 0.000 claims description 59
- 238000004422 calculation algorithm Methods 0.000 claims description 49
- 238000003860 storage Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 36
- 230000010076 replication Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000035772 mutation Effects 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 16
- 238000013480 data collection Methods 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 abstract description 13
- 150000002500 ions Chemical class 0.000 description 35
- 239000000523 sample Substances 0.000 description 32
- 230000006870 function Effects 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 20
- 239000002243 precursor Substances 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- 238000013467 fragmentation Methods 0.000 description 9
- 238000006062 fragmentation reaction Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000004807 desolvation Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000001819 mass spectrum Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- XKRFYHLGVUSROY-UHFFFAOYSA-N Argon Chemical compound [Ar] XKRFYHLGVUSROY-UHFFFAOYSA-N 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000000065 atmospheric pressure chemical ionisation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000132 electrospray ionisation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011985 exploratory data analysis Methods 0.000 description 2
- 238000001802 infusion Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004885 tandem mass spectrometry Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108010022337 Leucine Enkephalin Proteins 0.000 description 1
- 101800001442 Peptide pr Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 239000003570 air Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000000538 analytical sample Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229910052786 argon Inorganic materials 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005040 ion trap Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- URLZCHNOLZSCCA-UHFFFAOYSA-N leu-enkephalin Chemical compound C=1C=C(O)C=CC=1CC(N)C(=O)NCC(=O)NCC(=O)NC(C(=O)NC(CC(C)C)C(O)=O)CC1=CC=CC=C1 URLZCHNOLZSCCA-UHFFFAOYSA-N 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0031—Step by step routines describing the use of the apparatus
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
- G01N30/7233—Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/004—Combinations of spectrometers, tandem spectrometers, e.g. MS/MS, MSn
- H01J49/0045—Combinations of spectrometers, tandem spectrometers, e.g. MS/MS, MSn characterised by the fragmentation or other specific reaction
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
示例性实施方案提供了用于自动调谐质谱(MS)设备的方法、介质和系统。该MS设备可包括多个部件,该多个部件中的每个部件可与影响该部件的性能的可调节参数相关联。人工智能可确定被预测为在用该MS设备执行实验时降低数据可变性的参数的值。通过降低数据可变性,用该MS设备运行的实验更有可能可在不同装置上、在不同实验室中、由不同操作者以及在不同时间重复。
Description
相关申请的交叉引用
本申请要求2021年3月15日提交的美国临时申请号63/161,092和2020年8月26日提交的名称为“METHODS,MEDIUMS,AND SYSTEMS FOR SELECTING VALUES FOR PARAMETERSWHEN TUNING A MASS SPECTROMETRY APPARATUS”的美国临时申请号63/070,582的权益,这些申请的全部公开内容以引用方式并入本文。
背景技术
质谱(MS)和液相色谱-质谱(LCMS)设备用于分析化学样品以研究样品的特性、质量或结构。非常希望即使在不同实验室中、由不同操作者、在不同机器上和/或在不同时间进行测试,对相同样品的分析也产生相同结果。
然而,MS装置是由许多不同部件构成的高度复杂的仪器。可调节每个部件来影响仪器的性能。由于可调节的变量的绝对数量以及这些变量的相互依赖性,非专家人员很难成功地调谐仪器。例如,调节可以是相互依赖的,使得应当结合对一个部件的相应调节来进行对另一个部件的调节。此外,对于任何给定部件,都没有客观的“最佳”设置,因为差的强度或分辨率可能会受到部件的老化、清洁度或甚至温度的影响。更进一步地,随着机器变得更精确,需要甚至更精确的调谐。因此,调谐MS仪器可以是通常由专家执行的高度主观的过程。
因为非常难以调谐MS仪器,所以能够进行这些调节的专家非常抢手。并且因为调谐在某种程度上是一种艺术形式,所以不同的专家可以不同方式调谐相同的MS仪器。因此,调谐过程是数据可变性的主要原因。
发明内容
根据第一实施方案,调谐系统可访问一组参数。每个参数可与质谱(MS)设备的部件相关联,并且可在数据收集过程期间控制该部件的操作。该组参数可共同形成搜索空间。
可使用人工智能(AI)来搜索搜索空间,该人工智能被配置为选择被预测为在数据收集过程期间降低数据可变性的参数的一组值。数据可变性可指实验在给定相同输入的情况下产生不同输出的趋势。当在不同环境条件下测试输入时,或者当实验设备随时间表现出不同性质时,可能出现数据可变性。
由AI选择的参数的值可被传输到MS设备。在MS设备应用这些值并分析参考材料之后,调谐系统可接收分析的结果。基于这些结果,调谐系统可确定所选择的值实际上是否降低数据可变性,并且基于该确定,可更新由人工智能应用来选择参数的该组值的模型。
因为AI被专门配置为搜索降低数据可变性的参数组合(而不是例如优化MS设备总体上或相对于特定样品的性能),所以MS设备的用户可确信实验将可跨不同操作者、不同实验室、不同仪器和不同时间重复。例如,如果MS设备被设置为确定样品是否包括针对给定疾病或病症的标记,则重要的是,分析的结果不取决于哪个机器被用于运行分析或者哪个操作者正在运行该机器。优选地,分析中唯一的可变性应来自被分析的样品。换句话说,在两个不同机器上、在两个不同时间、由两个不同操作者分析的相同样品仍然应产生相同的谱。否则,可能难以确定是否出现两个不同结果,因为一个样品具有疾病标记而另一个样品没有疾病标记,或者因为使用了不同机器来分析样品。
在其他实施方案中,AI可被配置为搜索针对强度、分辨率、稳定性或某一其他目标进行优化的参数。
根据第二实施方案,人工智能可被配置为基于结果的再现性或运行MS设备的结果的稳定性中的一者或多者来选择参数的值。当在不同时间、不同仪器中、不同实验室中或由不同操作者分析相同样品并产生基本上类似的结果时,可指示改善的再现性。当对该组参数的相对较小的改变基本上不降低结果的质量时,可指示结果的稳定性;因为实验设备将具有因实验而略微变化的趋势,改善稳定性意味着结果将不太可能通过这些自然波动而显著改变。这两个指标(再现性和稳定性)提供了测量数据可变性的直接方式。
根据第三实施方案,人工智能可被配置为基于来自MS设备的数据中的数据分辨率、数据强度或峰形中的一者或多者来选择参数的值。分辨率是指数据中的峰被精细地分辨的程度。当峰未被精细分辨时,不清楚数据中的给定峰是否天然地相当宽,或者峰是否由多个重叠峰组成。强度是指峰有多高。更大强度指示来自MS设备的强信号(因此指示更低信噪比)。峰形是指峰对称的程度,而不是在一个方向上具有尾部。因为峰下面的面积将被积分以识别与峰相关联的物质的量,所以具有长尾部的峰可能是有问题的,因为它们更可能与其他峰重叠(因此使基础物质的测量结果偏移)。本发明人已经认识到,这些指标提供了测量数据是否更加可再现和更少变化的间接方式。
根据第四实施方案,人工智能可被配置为选择被预测为跨不同样品产生改善结果的参数的值。因此,MS设备可被调谐成通用,并且不用太担心该设备将被调谐成对于特定样品取得特别好的结果而对于其他样品取得更差的结果。因为MS设备可用于在长时间内分析许多样品,所以针对一般性能进行调谐而不管被分析的样品如何可允许较不频繁地调谐装置,从而提供可测试样品的更多正常运行时间。
根据第五实施方案,人工智能可被配置为基于要由MS设备分析的特定样品来选择参数的值。特别是当AI应用试探法来允许高效地搜索搜索空间时,可能可相对快速地在逐个样品的基础上调谐机器。这具有以下优点:以在调谐上花费更多时间(因此具有更少正常运行时间用于样品分析)为折衷来产生更好的总体性能。一般而言,AI可被配置为在结果的再现性、性能和速度之间达到用户指定的平衡。
根据第六实施方案,人工智能可被配置为限定每个参数的概率分布,并且基于该概率分布来对参数的值进行采样。概率分布可描述相应参数的值的范围以及所选择的值优化数据可变性的可能性。以这种方式使用概率分布提供了几个优点。例如,概率分布允许以基于实验数据、建模、研究和专家意见描述对哪些参数影响数据可变性的当前理解的先验的形式将专门知识注入到系统中。这允许更高效地搜索搜索空间。此外,通过在搜索期间采样时调节概率分布的标准偏差,可更宽地(在更大的可能参数值范围内)或更窄地(在更集中于最可能产生最佳结果的解的有限范围内)引导搜索。因此,系统可在探索搜索空间以识别潜在的意外结果与利用搜索空间的已被识别为解的最佳竞争者的目标区域之间进行调节。
根据第七实施方案,调谐系统可限定并应用被配置为基于参数之间的关系来限制搜索空间的样品生成模型或试探法,诸如协方差矩阵。该模型/试探法可限定将一个参数与另一个参数相联系的限制、公式、关系等。例如,如果已知某个变量不能取大于另一个变量的值的两倍的值,则模型/试探法可将这两个参数捆绑在一起,使得在不将一个参数保持在可接受范围内的情况下不能调节另一个参数。这允许排除考虑搜索空间的某些部分(因为在那些区域中选择参数配置将违反在模型/试探法中设定的约束),因此允许更快速且高效地执行搜索。
根据第八实施方案,MS设备可以是多个MS设备中的一个MS设备,并且MS设备的参数可被作为一组进行调谐。特别是当已知几个装置将被用于测量一组样品时(例如,当给定实验室使用多个装置时),将装置作为一组进行调谐,而不是在逐个机器的基础上进行调谐,允许降低整个组中的数据可变性。该过程可利用可能尚未对单个机器做出的调节(例如,因为一个机器比组中的其他机器更受约束)。因此,可改善跨该组装置的结果的再现性。
例如,根据第九实施方案,该多个MS设备中的第一MS设备可胜过多个MS设备中的其余MS设备。单独地调谐第一MS设备以降低其可变性可能涉及导致相当高性能的参数设置。然而,当将第一MS设备作为组的一部分进行调谐时,可选择第一MS设备的参数以降低第一MS设备的性能,使得降低整个组的数据可变性。
根据第十实施方案,AI可应用进化算法,该进化算法被配置为:限定第一代参数配置,限定参数配置中的复制技术,限定参数配置中的突变技术,并且应用复制技术和突变技术来创建第二代参数配置。进化算法(诸如遗传算法)特别适合于调谐仪器以降低数据可变性的难题,因为所选择的突变可在整个过程中被控制来在搜索空间探索与利用阶段之间变化,从而高效地搜索参数之间有可能的相互依赖性的复杂搜索空间。
例如,根据第十一实施方案,复制技术可涉及确定彼此相关的参数中的两个或更多个参数,并且将相关参数作为一组进行交换。这是表示由模型/试探法捕获到的相对复杂的分析的高效方式。
根据第十二实施方案,可使用一个或多个先验来执行确定第一代参数配置。这允许将专门知识整合到系统中,从而带来与上文所述的第六实施方案类似的优点。
然而,进化算法并不是特别适于该特定难题的唯一类型的AI。例如,根据第十三实施方案,其他合适的技术包括马尔科夫决策过程、贝叶斯优化和/或强化学习。
根据第十四实施方案,调谐系统可呈现用户界面,该用户界面被配置为显示哪些参数配置已被确定以降低数据可变性和/或参数中的两个或更多个参数之间的关系。这允许与装置的用户共享AI例如在概率分布和模型/试探法中捕获的对问题的理解(从而教他们如何更好地调谐MS设备本身)。这还允许用户看到在数据可变性、性能和时间方面正在进行哪些折衷,并且潜在地调节调谐过程来根据需要平衡这些因素。
以上实施方案中的任一实施方案可被实现为存储在非暂态计算机可读存储介质上的指令并且/或者被体现为具有存储器和被配置为执行上文所述的动作的处理器的设备。
附图说明
为了使对任何特定元件或动作的讨论易于识别,参考标号中的一个或多个最高有效数位是指首先引入元件的图标号。
图1示出了根据示例性实施方案的质谱系统的示例。
图2示出了根据一个实施方案的示例性预部署过程。
图3示出了根据一个实施方案的示例性调谐过程。
图4A至图4F示出了根据一个实施方案的用于协方差矩阵自适应算法的生成自适应范例。
图5A示出了根据一个实施方案的通过网格搜索生成的强度的实验概率密度函数(PDF)。
图5B示出了根据一个实施方案的通过网格搜索生成的分辨率的实验概率密度函数(PDF)。
图5C示出了根据一个实施方案的通过网格搜索生成的强度的实验累积分布函数(CDF)。
图5D示出了根据一个实施方案的通过网格搜索生成的分辨率的实验累积分布函数(CDF)。
图6示出了根据一个实施方案的限定峰形的适应度值的效用函数的示例。
图7示出了适于与示例性实施方案一起使用的示例性人工智能/机器学习(AI/ML)系统。
图8示出了根据一个实施方案的调谐例程800。
图9示出了适于与示例性实施方案一起使用的示例性进化算法。
图10描绘了可用于实践本文所述的示例性实施方案的例示性计算机系统架构。
具体实施方式
本文所述的示例性实施方案提供用人工智能以编程方式调谐质谱(MS)设备的技术,该人工智能被专门配置为在数据收集过程期间降低数据可变性。其他实施方案可针对其他目标进行调谐,诸如仪器性能、强度、分辨率、稳定性等。
出于说明的目的,图1是可结合本文的技术使用的系统的示意图。尽管图1描绘了处于特定LCMS配置的特定类型的装置,但本领域的普通技术人员将理解,不同类型的装置(例如,MS、串联MS等)也可结合本公开进行使用。还应注意,当本公开涉及调谐“MS设备”时,与质谱仪112(诸如液相色谱仪104)结合使用的系统的任何部分可涵盖在该术语内。
通过注射器106将样品102注射到液相色谱仪104中。泵108将样品泵送通过柱110以根据通过柱的保留时间将混合物分离成组成部分。
将柱的输出输入到质谱仪112中进行分析。最初,通过去溶剂化/离子化装置114将样品去溶剂化和离子化。去溶剂化可以是任何去溶剂化技术,包括例如加热器、气体、与气体组合的加热器或其他去溶剂化技术。离子化可通过任何离子化技术实现,包括例如电喷射离子化(ESI)、大气压化学离子化(APCI)、基质辅助激光解吸(MALDI)或其他离子化技术。由离子化产生的离子通过施加到离子引导装置116的电压梯度馈送到碰撞室118。碰撞室118可用于使离子通过(低能量)或使离子碎裂(高能量)。
可使用不同的技术(包括Bateman等人在美国专利号6,717,130中描述的技术,该专利以引用方式并入本文),其中可在碰撞室118两端施加交流电压来引起碎裂。收集低能量下的前体(无碰撞)和高能量下的碎片(碰撞的结果)的谱。
碰撞室118的输出被输入到质量分析器120。质量分析器120可以是任何质量分析器,包括四极杆、飞行时间(TOF)、离子阱、扇形磁性质量分析器和它们的组合。检测器122检测从质量分析器122发出的离子。检测器122可与质量分析器120集成。例如,就TOF质量分析器而言,检测器122可以是对离子的强度进行计数(即,对撞击它的离子的数量进行计数)的微通道板检测器。
存储装置124可提供用于存储用于分析的离子计数的永久性存储装置。例如,存储装置124可以是内部或外部计算机数据存储装置,诸如磁盘、基于闪存的存储装置等。分析计算机126分析所存储的数据。数据还可被实时分析而不需要存储在存储介质124中。在实时分析中,检测器122将要分析的数据直接传递给计算机126,而不首先将其存储到永久性存储装置中。
碰撞室118执行前体离子的碎裂。碎裂可用于确定肽的一级序列,随后用于鉴定起始蛋白。碰撞室118包括气体诸如氦、氩、氮、空气或甲烷。当带电前体与气体原子相互作用时,所产生的碰撞可通过将前体分解成所产生的碎片离子而使前体碎裂。可使用Bateman所描述的技术通过在获得肽前体的MS谱的低电压状态(例如,低能量,<5V)与获得前体的碰撞所致碎片的MS谱的高电压状态(例如,高能量或升高的能量,>15V)之间切换碰撞室中的电压来完成此类碎裂。高电压和低电压可被称为高能量和低能量,因为高电压或低电压分别用于向离子赋予动能。
可使用各种协议来确定何时以及如何切换用于这种MS/MS采集的电压。例如,常规方法在目标模式或数据依赖模式(数据依赖分析,DDA)下触发电压。这些方法还包括目标前体的偶联、气相分离(或预选择)。通过软件实时地获得和检查低能量谱。当期望的质量达到低能量谱中的指定强度值时,碰撞室中的电压被切换为高能量状态。然后获得预选择的前体离子的高能量谱。这些谱包含在低能量下看到的前体肽的碎片。在收集到足够的高能量谱之后,在继续寻找用于高能量碰撞分析的适当强度的前体质量时,数据采集恢复到低能量。
不同的适当方法可与如本文所述的系统一起使用以结合分析样品的质谱获得离子信息,诸如前体离子和产物离子的离子信息。尽管可采用常规切换技术,但实施方案也可使用Bateman所描述的技术,其可被表征为以简单交替循环的方式切换电压的碎裂协议。这种切换以足够高的频率进行,使得多个高能量谱和多个低能量谱包含在单个色谱峰内。与传统的切换协议不同,循环与数据的内容无关。Bateman所描述的此类切换技术提供对前体离子和产物离子两者的有效同时质量分析。在Bateman中,使用高能量和低能量切换协议可作为对单次注射的肽混合物的LC/MS分析的一部分而进行应用。在从单次注射或实验运行获得的数据中,低能量谱包含主要来自未碎裂前体的离子,而高能量谱包含主要来自碎裂前体的离子。例如,前体离子的一部分可被碎裂以形成产物离子,并且前体和产物离子基本上同时被分析,或者在同一时间被分析,或者例如通过向MS模块的碰撞室施加在低电压(例如,主要生成前体)与电压高或升高的电压(例如,主要生成碎片)之间的快速切换或交流电压以控制碎裂而快速连续地被分析。根据Bateman的前述技术,通过在高能量(或升高的能量)和低能量之间快速连续地交替来操作MS在本文中也可被称为Bateman技术和高低协议。
总之,诸如当使用Bateman技术来操作系统时,将样品102注射到LC/MS系统中。LC/MS系统产生两组谱,一组低能量谱和一组高能量谱。该组低能量谱主要包含与前体相关联的离子。该组高能量谱主要包含与碎片相关联的离子。这些谱被存储在存储介质124中。在数据采集之后,可从存储介质中提取这些谱,并通过分析计算机126中的采集后算法进行显示和处理。
通过高低协议获得的数据允许精确确定在低能量和高能量模式下收集的所有离子的保留时间、质荷比和强度。通常,在两种不同模式下看到不同离子,然后可分别或组合地进一步分析在每种模式下获得的谱。
如在一种或两种模式下看到的来自共同前体的离子将共享相同的保留时间(并且因此具有基本上相同的扫描时间)和峰形。高低协议允许在单个模式内和在模式之间有意义地比较离子的不同特性。然后,这种比较可用于对在低能量和高能量谱中看到的离子进行分组。
如上文可见,MS系统可由许多部件构成。这些部件中的每个部件都可通过改变与该部件相关联的参数来进行调节。例如,在质量反射式MS设备中,金属网格通常放置在离子镜内。有可能调节网格的位置,这可能影响MS设备的性能。可调节参数的其他示例包括但不限于MS设备的采样锥、离子加速度、离子聚焦、入口透镜值、推进器偏移、孔径、拉晶机、离子能量、推进器和管透镜值。
为了调谐这些部件,可使用调谐装置128。调谐装置128可访问描述可用于调节的MS设备的参数的参数集130。调谐装置128可通过部署模型132来选择这些参数的值,如下文更详细地描述的。模型132可采取许多形式。
在一个实施方案中,模型132包括一个或多个概率分布134,该一个或多个概率分布表示当与所选择的概率分布相关联的给定参数取某个值时数据可变性将被降低的概率。概率分布134可被表示为最佳拟合等式、一系列数据点、曲线图或另外的合适表示。概率分布134可通过实验或基于专门知识、基于建模或一些其他合适的技术来确定。
模型132还可包括协方差矩阵136或可用于捕获参数之间的关系的其他样品生成模型或试探法。无论使用协方差矩阵还是其他类型的模型/试探法,该模型/试探法都可根据某种模型或试探法来生成新一代个体。就CMA而言,可以有“生成”步骤和“自适应”步骤两者,其中协方差矩阵本身被更新以反映算法用上一代获得的成功。在遗传算法中,自适应步骤可简单地是排除低性能个体使得高性能个体可被重新组合的过程。
在一些情况下,参数受益于作为一组一起被调节,或者参数的值可约束其他参数的值。这些关系可被捕获为模型/试探法136中的等式、公式、限制、约束或其他表示。在下面描述的协方差矩阵自适应算法中,关系可以被捕获为矩阵。模型/试探法136可以是将约束参数的值或值范围(例如,存储在协方差矩阵136的第一行或列中)映射到一个或多个受约束参数的值或值范围(例如,存储在模型/试探法136的第二、第三等行或列中)的数据结构。模型/试探法可与协方差相关联,该协方差描述约束参数与受约束参数之间的关系的强度。
根据一个实施方案,模型132可由人工智能训练或者可表示人工智能。例如,可使用进化算法诸如遗传算法、马尔科夫决策过程、贝叶斯学习或强化学习来训练模型132。
可使用下文相对于图7所述的示例性调谐过程来完成参数的调谐。图7中所示的调谐过程是主动学习的示例,其中训练实时发生。然而,其他实施方案可应用技术诸如监督学习,以便生成稍后可应用来传入数据的模型。在此类离线算法中,在实验装置上可操作地部署该过程之前,结合预部署过程(诸如图2所示的预部署过程)可能是有帮助的。
在框202处,调谐系统可收集数据源和技术规范。数据源可包括来自数据库的实验数据、基于基于计算机的模型生成的模拟数据、来自学术研究的实验结果等。实验数据可包括提供给MS设备的输入和由MS设备生成的输出的标识。任选地,数据源可指定产生输出的MS设备的配置。除了参数设置之外,还可提供关于设备的其他信息,包括关于操作环境(例如,温度、湿度)、装置的寿命、装置的操作历史(例如,装置是否已被一直用于采样脏材料或一直在脏环境中使用)等的细节。技术规范可包括关于各种MS设备的部件的细节以及可被改变以影响部件的性能的可调节参数。
在框204处,调谐系统可进行探索性数据分析以确定MS设备的参数的设置与由MS设备生成的输出之间的关系。例如,系统可检查由彼此相似的两个不同设备生成的结果,并且识别设备的配置的任何差异。基于该信息,系统可确定在配置之间不同的参数可能对数据可变性(至少在配置中使用的范围中)没有显著贡献。另一方面,如果在两个不同实验中分析相同样品但产生不同结果,则系统可推断装置配置确实对数据可变性有贡献。
系统没有必要比较在两个不同背景中生成的结果来评估数据可变性。数据可变性的趋势还可使用测量结果诸如峰分辨率或强度、结果中的信噪比、峰形、碎裂效率和其他量度来进行间接检测。
在框206处,调谐系统可使用在框204中探究出的理解来开发和评估将参数设置与数据可变性相关联的模型。例如,基于如数据源和/或技术规范中所指定的由MS设备生成的输出,调谐系统可计算如上文所述的概率分布和/或协方差矩阵。
调谐仪器参数以降低数据可变性可直接进行,或者可以是调谐不同仪器以实现目标值而不是简单地调谐不同仪器以实现最佳可能值的结果。例如,如果预期仪器的信号将在仪器为新的时起的一段时间(例如,几个月)内变差,则可将仪器调谐到将最可能是其在该段时间结束时能够实现的最大值的目标值。以这种方式,即使当仪器的部件老化时,仪器也将在该时间段内产生一致的结果。
此外,可基于一组仪器中性能最差的仪器可实现的最大性能来选择目标值。当考虑到该目标值对该组中的每个仪器执行调谐过程时,该组仪器能够彼此更一致地执行。
框202、框204和框206可在反馈回路中重复。例如,如果框204处的探索性数据分析是不确定的(例如,其不能知晓具有大于预定义置信水平的参数与MS设备的输出之间的关系),则处理可返回到框202以识别附加数据源。如果在框206处不能开发合理的模型,则处理可返回到框204以进一步分析数据。
在框206处开发合理模型之后,可部署该模型以供与MS设备一起使用。如上所述,采用主动或在线学习的其他实施方案可能不需要使用先前定义的模型。例如,调谐装置128可在MS设备执行实验之前(或时)使用该模型来调谐MS设备。
在预部署过程中开发模型之后,可使用该模型来调谐MS设备。图3提供了根据一个实施方案的示例性调谐过程的高级概述。结合图8和图9更详细地描述了该过程。
MS设备的可用参数设置的总和(例如,设备的所有可能配置)可共同形成搜索空间。可搜索该空间以找到被预测为导致最小(或至少低)数据可变性的配置。为此,在(A)处,系统可访问上述概率分布并选择参数组以供考虑。在选择参数时,系统可基于模型/试探法来约束可用选项。例如,系统可识别最可能影响数据可变性的第一参数并为该参数选择值。然后,系统可应用模型/试探法根据在该模型/试探法中反映的任何约束来修改参数;这有效地从搜索空间中排除了一些配置(或者降低了将搜索到搜索空间的与这些配置对应的区域的概率)。然后,系统可进行到下一个最可能降低数据可变性的第二参数并为该参数选择值。系统可重复该选择值并确定如何约束剩余参数的过程,直到已为所有参数选择值为止;另选地,可同时修改多个参数。
接下来,在(B)处,调谐系统可使用参数的所选择的值来调谐MS设备。调谐系统可通过指示MS设备改变参数的值来直接调谐MS设备,或者通过生成配置规范并将该规范传输到另一个装置或配置MS设备的用户来间接调谐MS设备。MS设备然后可用所识别的设置来运行以生成实验结果。例如,可将已知的校准物或源材料注射到MS设备中以产生实验数据,并且可将该实验数据与关于校准物或源材料的已知信息进行比较。
在(C)处,调谐系统可接收MS设备的指示分析的结果(例如,摄谱仪)的输出。这些结果可与指示数据可变性的预定义标准(例如,上述识别的测量结果,包括信噪比、碎裂效率、峰形、强度、分辨率、结果的再现性、结果的稳定性等)进行比较。基于结果是满足还是未能满足这些标准以及满足或未能满足这些标准的程度,系统可在(D)处以与上文在框206处描述的方式类似的方式调节模型(例如,通过修改概率分布和/或模型/试探法)。
已用示例性实施方案证明是成功的进化算法的一个示例是协方差矩阵自适应(CMA)算法。接下来参考图4A至图7详细描述了将该算法应用于本文所述的技术的示例(已删除)。
CMA属于进化算法类。因为它本质上是随机的并且使用了几代个体候选解,所以它学习如何自适应以找到新的更好的候选,在这种情况下是MS设备的设置。与其他进化算法诸如粒子群优化(PSO)相比,CMA可更可靠且更快速地收敛到最佳设置,这是因为其学习范例—CMA生成新的候选解,但是也自适应其超参数,这影响了其在每一代对搜索空间进行搜索的方式。
在该实施方案中,协方差矩阵限定了多维高斯分布。当在多个维度(即,正被调谐的每个仪器设置一个维度)中定义高斯时,除了多维平均值和方差之外,还存在定义一个设置如何与另一设置相关的非对角线协方差项。当非对角项接近0时,该分布是当沿z轴向下看时沿两个维度上的轴对准的椭圆。当设置之间存在相关性时,非对角项不为零,并且分布变得偏斜。该高斯定义从中提取下一代候选的采样分布。
CMA遵循两步生成自适应范例。生成步骤是从该分布中对下一代点进行采样的过程。自适应步骤是从前一代学习的过程。基于所评估的点,生成指向有利函数值的方向的向量。然后,在该向量的方向上移动高斯,并且更新其协方差结构。如果适应度值改变较大值,则协方差增大。如果适合度值改变较小值,则协方差缩小。当算法开始收敛于最佳值时,移动平均值的向量和限定其探索程度的协方差收敛到0。
图4A至图4F中描绘了这种生成自适应范例的示例。对于表示目标函数的盘404,协方差矩阵限定高斯采样分布402。每一代在平均值(向下移动)和协方差(扩展,然后收缩)方面更新分布的参数。
在优化问题中,除了具有基本算法之外,该方法还通常由目标函数的定义、对在目标函数中使用的数据的处理、对要操作的设置的选择以及与那些设置相关的先验信息的构造来定义。
首先,正如许多优化问题一样,目标函数的定义可能是相当复杂的,并且执行成本高。本文所述的应用的一个困难在于,目标函数是对从MS仪器实时生成的数据执行的;在一些情况下,这可包括共同标准,诸如在MS仪器中输注亮氨酸脑啡肽(leu enk)。从这个观点来看,将真实化合物输注通过真实MS仪器应该是目标函数的一部分。
因此,一个目标是使标准(例如,leu enk)峰的分辨率、灵敏度和峰形最大化。这可通过优化三个参数来完成—反射器栅极电压、转向电压和推进器偏移电压,这三个参数调谐质谱仪的飞行时间部分。在一个实施方案中,这三个设置可通过内部消息传递接口以编程方式进行访问。通过该编程接口,一旦CMA算法生成新的候选设置值,就可将这些新的候选设置值发送到仪器。
在此之后,允许仪器在很短的时间段内以新的电压稳定下来,然后接收由仪器产生的质谱。因为仪器上的电喷射源具有一些可变性,所以信号从一次扫描到下一次扫描是变化的。为了克服这种可变性,可收集预先确定次数(例如,5次)的扫描并且将其一起平均。然后在聚合扫描上分离标准峰,并计算分辨率、峰强度的积分以及其尾部权重的量度。分辨率被计算为质量除以峰的半极大处全宽度或M/FWHM,并且积分强度是峰的离子计数的积分。为了确定尾部权重,使用Nelder Mead优化算法将峰数据回归到Pearson IV函数上。所得到的形状和不对称性的参数可用于对尾部进行积分来确定尾部的权重,并且该权重被最小化以获得最佳峰形。
在该示例中,存在3个目标—两个目标是最大化,一个目标是最小化。这些参数的单位不同并且每一者的数量级不同,因此为了开发组合所有三个目标的单个目标,执行归一化和聚合步骤。可使用多种方法。例如,可为我们的目标中的每个目标定义最小值xmin和最大值xmax,然后基于等式1进行归一化:
以使每个目标在范围[0,1]内。该方法的一个可能的限制是最小值和最大值随每个仪器而变化,甚至对于相同仪器随时间而变化。在这些情况下,实际值可能落在所指定的界限之外。一种简单的补救方法是,如果最终值在界限之外,则将其强制到边界上。但是如果这发生在针对适应度评估的多个设置上,则对于这些设置,得分将相等,并且算法可能不会学习。
相反,可挑选非常大的界限,使得值永远不会落在界限之外。但是在分辨率(例如)方面,对界限的选择将实际仪器分辨率的动态范围置于范围[0.2,0.85]内,并且对强度界限的选择将其动态范围设置为[0.1,0.95]。由于两个分辨率将具有不大于0.65的差异,但是两个强度将具有0.85的差异,因此如果例如通过加法或乘法将强度维度组合成一个适应度得分,则该强度维度将被无意中加权得高于分辨率。这可使得目标函数在其维度的处理中是任意的。
评估多目标函数的另选方法是通过执行Pareto优化。这里,实际值无关紧要,重要的仅是它们在每个维度中的等级。当这样做了时,不是达到单个最佳值,而是形成最佳值的整个“边界”,这些最佳值由所有非主导的点组成。如果不存在在所有维度中排名更高的其他点,则该点是非主导的。这是找到最佳点的最终集合的有效方式,但是为了挑选单个最佳点,仍然必须使用其他标准。这需要对维度进行加权或归一化。在这种情况下,增大一个结果的值的设置可减小另一个结果的值,使得单个最佳值的计算意义重大。
为了克服上述方法的问题,可将称为直方图均衡的技术应用于目标。这允许利用概率方法来解决该问题。
第一步是生成表示域中的目标值的分布的实验直方图。表1示出了用于使用沿着由主题专家定义的界限内的感兴趣的三个仪器设置的网格搜索来生成这样的直方图的参数的示例:
表1:用于生成实验直方图的网格搜索参数
由于网格是均匀的,因此通过仪器运行它产生结果(分辨率和强度)的网格,对于每个分辨率r和灵敏度s,这些结果近似于在所有设置状态上被边缘化的概率分布P[r,s]。该实验概率分布被积分到其累积分布函数(CDF)中,然后除以最大值以产生范围[0,1]内的值。这些用于将分辨率和强度加权或归一化到相同的尺度。
在CMA运行中,当评估个体时,针对这些CDF评估来自平均扫描的灵敏度和分辨率,并且将CDF值用作适应度得分(如图5A至图5D中所示)。例如,如果存在产生4000和4500的分辨率的两个设置,其中CDF是陡峭的,则它们的得分将相差更大的量,这是由于存在具有该范围内的分辨率的许多设置的事实而造成的(因此5000的差异是重要的)。另一方面,如果两个设置产生靠近CDF的最右侧的10500和11000的分辨率,则它们的得分将非常类似,因为它们存在于仪器的可能分辨率范围的边缘处。换句话说,在该范围内的任何地方都被认为是良好的分辨率,并且进一步增大没有大的额外价值。
利用以这种方式归一化的灵敏度和分辨率,可将它们组合。质谱中的分辨率和强度在搜索空间的某些部分中(例如,沿着Pareto边界)是相关的,但是可被近似为独立的,而没有统计意义上显著的结果差异(如例如等式2中所示)。
接下来,用高斯核密度估计器对CDF进行平滑,其中协方差矩阵因子为0.2,以消除来自网格搜索的仪器误差。这确保了值相近的任何两个结果的适应度得分的变化不是不连续的或有噪声的。
对于每个r(和类似地,对于每个s):
其中带宽h为0.2,N是标准正态分布,并且n是点数。
目标函数还有一个维度,即,峰形。目标是找到使leu enk峰的尾部最小化的设置。为此,将峰归一化以积分为1并以0为中心,然后使用最小二乘回归法将其拟合到PearsonIV函数。Pearson IV类似于司徒顿T分布,但是具有非对称性的额外参数。尾部被定义为与质谱上的平均值相距一定距离,如等式5中那样进行积分:
其中md是限定尾部尺寸的参数的值。如果两个尾部积分的平均值高,则这些设置得分低,如果该平均值低,则这些设置得分高。通过将峰形维度的适应度得分建模为反向sigmoid来实施该试探法,如等式6所示:
其中
v=100·(w-0.04)
等式7
这产生了图6的曲线图中所描绘的值。
这是效用函数而不是概率,但是它确实产生了范围[0,1]内的值。根据等式8计算最终的适应度得分:
f适应度(xr,xs,xp)=P[xr]P[s]fp(xp)
等式8
这定义了目标函数。
为了将设置彼此归一化(由于例如反射器栅极电压的动态范围比转向电压或推进器偏移电压的动态范围小2个数量级),每个设置的最大值和最小值可用于将值缩放到范围0-10。搜索算法可在该尺度下操作。一旦在该尺度下对新一代后代进行采样,则可将这些值缩放回到其原始动态范围,然后将其发送到仪器用于评估。当返回并评估结果时,可使用人工缩放来生成用于CMA更新步骤的向量。
在所述实施方案的测试中定义用于CMA算法的超参数时,元优化的示例性实施方案产生群体大小(λ)、生存大小(μ)和初始标准偏差(σ)的值-λ=8、μ=3和σ=2.0。
在模型运行中,代数被设置为50,因为这是测试运行中收敛行为的上限。然后,如下得出收敛标准。将仪器设置为其默认设置,并且连续获得由此计算适应度值的强度和分辨率的10个数据点。这些适应度得分的标准偏差被认为是仪器噪声的表示,因为这是信号的可变性,而无需修改设置或任何其他输入。在运行优化算法的每一代期间,存储该代中的最佳个体的适应度值。当最后10个最大得分的标准偏差小于计算的仪器噪声时,认为该算法是收敛的。
当在图3(A)处搜索搜索空间时,可应用人工智能/机器学习(AI/ML)。为此,图7描绘了适于与示例性实施方案一起使用的AI/ML环境700。将在图8和图9中更详细地描述AI/ML环境700的操作。
AI/ML环境700可包括AI/ML系统702,诸如应用AI/ML算法的计算装置,该AI/ML算法被配置为搜索被预测为降低数据可变性的参数的搜索空间值。
AI/ML系统702可利用实验数据708,该实验数据可源自实验仪器。在一些情况下,实验数据708可包括来自数据库、库、储存库等的预先存在的实验数据。实验数据708可包括MS设备的配置(例如,指定MS设备的可调节部分的参数的值)的标识以及指示当使用参数在MS设备上运行实验时的数据可变性的测量结果。实验数据708可与AI/ML系统702并置(例如,存储在AI/ML系统702的存储装置710中),可远离AI/ML系统702,并且经由网络接口704进行访问,或者可以是本地和远程数据的组合。在训练数据712中,从实验设备返回的实验数据可由通过软件中的建模和模拟以及通过解析科学和学术文献而获得关于关系的信息而学习的数据来补充。
如上所述,AI/ML系统702可包括存储装置710,该存储装置可包括硬盘驱动器、固态存储装置和/或随机存取存储器。存储装置可保存训练数据712,该训练数据可比较不同的测试结果以识别用于生成训练数据712(例如,参数值714)的MS设备的配置以及通过这些设置得到的数据的测量结果。在一个示例中,这些测量结果可包括数据的再现性716和/或稳定性718、数据分辨率720、数据强度722和/或峰形724,但可根据应用测量其他属性。
训练数据712可被应用于训练AI模型730。根据特定应用,不同类型的AI模型730可能适于使用。例如,在一个实施方案中,AI模型730可表示用于进化算法诸如遗传算法的群体。群体中的每个成员可被表示为MS设备的可能配置,并且群体中的成员可根据复制规则进行复制以创建新的后代。新的后代可表示每个父成员的参数设置的混合,其中附加变化的可能性由突变规则指定。在每个进化阶段,可选择“最佳”群体成员(例如,最有可能降低数据可变性的群体成员)以供进一步复制,直到选择最终群体成员作为配置MS设备的候选为止。
本发明不限于与进化算法一起使用;可使用任何合适的AI算法726。适于与本文所述的实施方案一起使用的其他AI构造的示例包括马尔科夫决策过程、贝叶斯优化和强化学习。可使用其他类型的AI构造,这取决于设计者的目标、可用资源、可用输入数据量等。所使用的特定AI算法726和AI模型730取决于所选择的AI构造。例如,在强化学习场景中,MS设备配置可由AI模型730实时调节,并且由模拟配置对数据可变性的影响的另一个模型评估(或者可进行实际实验以收集该信息)。AI/ML系统702可尝试通过AI算法726的迭代来最小化数据可变性。
AI算法726可使用处理器电路706来进行应用,该处理器电路可包括对存储装置710中的逻辑和结构进行操作的合适的硬件处理资源。AI算法726和/或经训练的AI模型730的开发可至少部分地取决于模型超参数728;在示例性实施方案中,超参数728可基于超参数优化逻辑736来自动选择,该超参数优化逻辑可包括适于所选择的AI模型730和要使用的AI算法726的任何已知超参数优化技术。所使用的超参数728可取决于所选择的AI构造的类型;例如,在进化算法中,超参数728可包括复制规则、突变规则、群体大小、用于确定哪些群体成员在下一轮进化中存活的评分机制等。
任选地,AI模型730可随时间而再培训,以便容纳关于MS设备配置和所执行的新实验的新知识。
在一些实施方案中,训练数据712中的一些训练数据可用于初始训练AI模型730,并且一些训练数据可被保留作为验证子集。训练数据712的不包括验证子集的部分可用于训练AI模型730,而验证子集可被保留并用于测试经训练的AI模型730以核实AI模型730能够将其预测推广到新数据。
一旦训练了AI模型730,就可(由处理器电路706)将其应用于新的输入数据。新的输入数据可包括当前MS设备配置问题。到AI模型730的该输入可根据反映训练数据712被提供给AI模型730的方式的预定义输入结构732来格式化。AI模型730可生成输出结构734,该输出结构可以是例如对被预测为在用于运行实验时降低数据可变性的参数值的选择。输出结构734可作为推荐配置提供给MS设备。
以上描述涉及特定种类的AI/ML系统702。然而,本发明不限于与特定AI/ML范例一起使用,并且可使用其他类型的AI/ML技术。
图8描绘了根据示例性实施方案的示例性调谐例程800。
在框802中,调谐例程800访问一组参数。每个参数可与质谱(MS)设备的部件相关联,并且可在数据收集过程期间控制该部件的操作。该组参数可被存储在调谐装置128上,并且/或者可从MS设备本身或从存储在第三方设备上的技术规范中检索。
在框804中,调谐装置128可基于该组参数来限定搜索空间。搜索空间可以是N维空间,其中N是与参数的数量对应的整数。每个参数可取一个值,并且每个值可被表示在搜索空间中。因此(例如),如果第一参数可取从0至a的任何值,则第二参数可取从0至b的任何值,……,并且第N参数可取从0至n的任何值,搜索空间可具有为a×b×...×n的大小。表示搜索空间中的单个点的特定配置可被指定为集合{值1,值2,……,值N}。
在框806中,调谐装置128可任选地限定协方差矩阵以限制搜索空间。协方差矩阵可以是呈定义参数之间的关系的矩阵(或其他合适的结构)形式的数据结构。这些关系可被捕获为协方差关系、数学等式、公式、可接受值的对应范围等。协方差矩阵可使用实验数据、模型、专家意见、学术研究等来进行构建。
在框808中,调谐装置128可任选地限定参数的概率分布。概率分布可表示参数的值与当MS设备用于进行实验时该值降低数据可变性(或实现一些其他目标,诸如提高性能、分辨率、强度等)的概率之间的关系。
在一些实施方案中,协方差矩阵和概率分布可以是被配置为对于宽范围的应用而言是准确的通用构造。在其他实施方案中,协方差矩阵和概率分布可以是应用特定的(例如,特定于所研究的特定类型的样品或特定装置)。当这些构造特定于特定类型的样品时,其可允许在逐个样品的基础上调谐MS设备,从而导致性能更好和/或每个所测试样品的可变性降低。当这些构造特定于特定装置时,调谐装置128可组合与一组装置相关联的概率分布,以便尝试最小化跨该组的数据可变性。这可能涉及降低MS设备中的一个或多个MS设备的性能,以便使这些MS设备的性能与该组中的其他MS设备一致。
在一些情况下,不是根据降低特定装置上的数据可变性的可能性,而是根据使该装置的数据可变性性能特性与所限定的组中的其他装置一致,可限定特定装置的模型/试探法和/或概率分布。因此,例如,分配给特定装置的参数值的概率可能不一定表示包括该值的配置在作为个体应用于该装置时将导致最小数据可变性的概率,而是表示该配置将使该装置的数据可变性更接近该组中的其他装置的性能的概率。这可通过测试在测试样品的第一装置上的参数配置和在测试相同样品的第二装置上的参数配置来实现,并且如果装置给出不同结果,则惩罚配置(或者,在另选方案中,当装置给出相同结果时,强化配置)。
在框810中,调谐装置128可使用人工智能来搜索搜索空间,该人工智能被配置为选择被预测为在数据收集过程期间降低数据可变性的参数的一组值。人工智能可利用来自框806的模型/试探法和/或框808的概率分布(如果可用的话)。图9提供了将概率分布和模型/试探法与进化人工智能算法结合使用的特定示例,但是如上文所论述,其他类型的人工智能算法也非常适合于搜索搜索空间。
在一些实施方案中,可以降低跨一组仪器的数据可变性为目标来搜索搜索空间。人工智能可应用特定于来自该组的每个装置的概率分布和/或协方差矩阵和/或集体概率分布/模型/试探法。当在框818中更新模型(在下文)时,系统可惩罚/强化被确定在测试相同样品时产生不同/相同结果的配置。
在框812中,调谐装置128可将参数的所选择的值传输到MS设备。在一些实施方案中,调谐装置128可通过直接设置参数值来用配置去配置MS设备,而在其他实施方案中,调谐装置128可输出配置数据结构或文件。配置数据结构或文件可被发送到可对其自身进行配置的MS设备,发送到配置MS设备的第三方装置,或者发送到手动配置MS设备的用户。
MS设备可接着使用在框812中传输的配置来运行对已知样品的分析。在框814中,调谐装置128可接收用参数的所选择的值运行MS设备的结果(例如,样品的摄谱仪)。
在框816中,调谐装置128可使用结果(例如,摄谱仪)来确定参数的值是否降低数据可变性。这可例如通过评估结果的再现性(MS设备是否能够跨多个实验运行在不同背景下产生相同结果)或结果的稳定性(当MS设备略微改变设置时,改变超过预先确定阈值量的结果是否改变小于预先确定阈值量)来完成。这还可通过考虑数据可变性的标志(诸如,峰形、强度、数据分辨率和/或碎裂效率)来实现。可基于使用上述因素在结果中测量到多少数据可变性而向候选配置分配得分。
在框818中,调谐装置128可基于来自框816的结果来更新由人工智能应用来选择参数的一组值的模型。例如,如果给定配置导致相对较低的数据可变性,则可增加与概率分布中的那些值相关联的概率。另一方面,如果配置导致相对较高的数据可变性,则可降低与概率分布中的那些值相关联的概率。在一些情况下,可基于框816中分配给配置的得分来对调节量进行加权(使得指示低数据可变性的高得分致使概率分布朝向配置值显著移位,指示高数据可变性的低得分致使概率分布远离配置值显著移位,并且这些极值之间的得分致使概率分布在适当方向上但以较小程度移位)。
在一些实施方案中,当两个类似配置产生显著不同(例如,相差超过预先确定阈值)的结果时,这可能是因为在配置之间不同的参数中的一些参数以尚未被模型/试探法捕获的方式与其他参数相关。因此,调谐装置128可通过以下方式来更新模型/试探法:将参数组约束到在不产生显著数据可变性的配置中使用的范围,同时排除考虑来自确实产生显著数据可变性的配置的值组合。
在框820中,调谐装置128可在用户界面(UI)上显示在框816和/或框818处获得的结果。例如,当特定参数值或参数值组被确定在被设置为给定范围时降低数据可变性时,系统可在UI上示出这些参数值以便向用户提供关于AI已确定是有生产力的配置的洞察。另一方面,如果确定给定的参数值或参数值组不是极为奏效的(即,会增加数据可变性),则也可呈现该信息,使得用户可避免在将来应用这种配置。
图9描绘了根据示例性实施方案的进化算法的示例性逻辑。如上所述,进化算法仅是适于与示例性实施方案一起使用的AI算法726的一个示例;其在此处仅作为对本文所述的技术的说明而进行描绘。
在框902中,调谐装置128可限定初代参数配置。为了进化算法的目的,每个参数配置可对应于群体中的成员。每个成员可包括参数中的每个参数的值,并且对于初代,参数中的每个参数的值可通过对该参数的概率分布进行采样来确定。在一个实施方案中,概率分布可采取钟形曲线的形式,其中最有可能降低数据可变性的参数值接近钟形曲线的中心而存在。本领域的普通技术人员将理解,还存在其他类型的概率分布,包括指数分布、二项式分布、泊松分布等。通过选择用于采样的适当标准偏差,调谐装置128可调节值是否更有可能从具有降低数据可变性的最高概率的区域中进行选择(利用阶段的相对较小的标准偏差),或者值是否分布在更宽的可能性范围上(相对较大的标准偏差,其允许系统结合考虑中的值并且在探索阶段中潜在地定位令人惊喜的候选)。当系统考虑不同配置时,该系统可更新概率分布,从而允许其在其探索参数的搜索空间时进行学习。
当对每个参数的概率分布进行采样时,可基于在模型/试探法中捕获的关系来约束调谐装置128。当为每个参数选择值时,系统可通过查找模型/试探法中的约束参数并滤除用于与模型/试探法中的关系不一致的约束参数的选项来锁定其他相关联参数的值。因此,调谐装置128可在确定参数的值时减小搜索空间。
在框904中,调谐装置128可限定重组技术。这可涉及从存储装置中检索预先确定的复制技术、接收用户配置的复制技术或使用超参数优化逻辑736来动态地生成复制技术,以及其他可能操作。复制技术可指定细节,诸如如何选择和/或匹配群体中的成员用于复制(例如,随机地、基于适应度度量等)、所得到的群体的子成员如何从其父成员继承参数值(被称为交叉或重组)。就(例如)遗传算法而言,复制技术可指定,作为交叉的一部分,某些参数值必须作为一组被保持在一起(这些参数值分组的特性可在模型/试探法中指定)。因此,当选择子可继承的参数值的组合时,可约束复制技术,使得当已知导致数据可变性增加的参数被独立地更改时,这些参数被一起保持在可接受范围内。在使用协方差矩阵的实施方案中,对新参数值的选择可以是相关的,而不明确地将参数值强制分组。
在框906中,调谐装置128可限定突变技术。这可涉及从存储装置中检索预先确定的突变技术、接收用户配置的突变技术或使用超参数优化逻辑736来动态地生成突变技术,以及其他可能操作。除了从其父继承参数值之外,子的参数值可被允许改变(例如,随机地)以便在搜索空间中探索更宽范围的解。该突变技术可涉及基于对参数的概率分布进行采样以生成新值来为子成员中的参数确定新值,该新值不同于子成员的任何父的参数值。在一些实施方案中,突变技术可以与复制技术类似的方式进行约束,使得某些参数不能孤立地改变;这些参数必须作为一组基于模型/试探法中的关系来改变,或者根本不改变。在一些实施方案中,可使个体仅经历突变,而不使用重组/复制。
在框908中,调谐装置128可应用复制技术和突变技术来生成群体中的新一代子成员。在一些实施方案中,群体中的父成员可保留在群体内,而在其他实施方案中,群体中的一些成员可被去除。在一些实施方案中,协方差矩阵中的值可被更新,以跟上生成的执行。
在决策框910中,系统确定是否满足预定义停止条件。该停止条件可以是任何合适的条件,诸如当已过去一定量的时间时、当已创建特定的代数时,或者当群体中的成员取得高于预先确定阈值的适应度得分时(其中,适应度得分表示对由群体成员表示的配置将降低数据可变性的可能性的估计)。如果决策框910处的决策为“否”,则处理可返回到框908,并且可生成另外一代群体成员。如果决策框910处的决策为“是”,则系统可选择要由MS设备测试的一个或多个候选配置(例如,具有最高适应度得分的前m个候选配置、群体中的所有候选配置、候选配置的随机抽样等)。这些候选配置可由该算法返回。然后,处理可进行到框912并终止。
图10示出了可用于在独立和/或联网环境中实现本文所述的一个或多个例示性方面的系统架构和数据处理装置的一个示例。各种网络节点诸如数据服务器1010、web服务器1006、计算机1004和膝上型计算机1002可经由广域网1008(WAN)诸如因特网互连。也可或可另选地使用其他网络,包括专用内联网、公司网络、LAN、城域网(MAN)、无线网络、个人网络(PAN)等。网络1008用于说明目的,并且可用更少或更多的计算机网络来代替。局域网(LAN)可具有任何已知LAN拓扑中的一个或多个LAN拓扑,并且可使用各种不同协议中的一者或多者,诸如以太网。装置数据服务器1010、web服务器1006、计算机1004、膝上型计算机1002和其他装置(未示出)可经由双绞线、同轴电缆、光纤、无线电波或其他通信介质连接到网络中的一个或多个网络。
计算机软件、硬件和网络可用于各种不同的系统环境中,包括独立的、联网的、远程访问的(也被称为远程桌面)、虚拟化的和/或基于云的环境等。
本文所用并在附图中描绘的术语“网络”不仅指其中远程存储装置经由一个或多个通信路径耦接在一起的系统,而且还指可有时耦接到具有存储能力的此类系统的独立装置。因此,术语“网络”不仅包括“物理网络”,而且还包括“内容网络”,其由驻留在所有物理网络上的数据(可归属于单个实体)组成。
这些组件可包括数据服务器1010、web服务器1006以及客户端计算机1004、膝上型计算机1002。数据服务器1010提供数据库和控制软件的总体访问、控制和管理,以执行本文所述的一个或多个例示性方面。数据服务器1010可连接到web服务器1006,用户通过该web服务器与数据交互并获得所请求的数据。另选地,数据服务器1010可充当web服务器本身并且直接连接到互联网。数据服务器1010可通过网络1008(例如,因特网)、经由直接或间接连接或经由某一其他网络连接到web服务器1006。用户可使用远程计算机1004、膝上型计算机1002与数据服务器1010交互,例如,使用web浏览器经由web服务器1006所托管的一个或多个对外公开的网站连接到数据服务器1010。客户端计算机1004、膝上型计算机1002可与数据服务器1010一致地用来访问存储在其中的数据,或者可用于其他目的。例如,用户可从客户端计算机1004使用因特网浏览器(如本领域已知的)或通过执行通过计算机网络(诸如因特网)与web服务器1006和/或数据服务器1010通信的软件应用程序来访问web服务器1006。
服务器和应用程序被组合在相同的物理机器上,并且保留单独的虚拟或逻辑地址,或者可驻留在单独的物理机器上。图10仅示出了可使用的网络架构的一个示例,并且本领域的技术人员将理解,所使用的特定网络架构和数据处理装置可变化,并且对于它们所提供的功能来说是次要的,如本文进一步描述的。例如,由web服务器1006和数据服务器1010提供的服务可被组合在单个服务器上。
每个组件数据服务器1010、web服务器1006、计算机1004、膝上型计算机1002可以是任何类型的已知计算机、服务器或数据处理装置。数据服务器1010例如可包括控制数据服务器1010的总体操作的处理器1012。数据服务器1010还可包括RAM 1016、ROM 1018、网络接口1014、输入/输出接口1020(例如,键盘、鼠标、显示器、打印机等)和存储器1022。输入/输出接口1020可包括用于读取、写入、显示和/或打印数据或文件的各种接口单元和驱动器。存储器1022还可存储用于控制数据服务器1010的总体操作的操作系统软件1024、用于指示数据服务器1010执行本文所述的方面的控制逻辑1026,以及提供可结合或可不结合本文所述的方面使用的辅助、支持和/或其他功能的其他应用软件1028。控制逻辑在本文中还可被称为数据服务器软件控制逻辑1026。数据服务器软件的功能可指基于被编码到控制逻辑中的规则自动做出的、由向系统提供输入的用户手动做出的以及/或者基于用户输入(例如,查询、数据更新等)的自动处理的组合做出的操作或决策。
存储器1122还可存储在执行本文所述的一个或多个方面时使用的数据,包括第一数据库1032和第二数据库1030。在一些实施方案中,第一数据库可包括第二数据库(例如,作为单独的表、报告等)。也就是说,信息可被存储在单个数据库中,或被分离到不同的逻辑、虚拟或物理数据库中,这取决于系统设计。web服务器1006、计算机1004、膝上型计算机1002可具有如相对于数据服务器1010所述的类似或不同的架构。本领域的技术人员将了解,如本文所述的数据服务器1010(或网络服务器1006、计算机1004、膝上型计算机1002)的功能可散布于多个数据处理装置上,例如,以将处理负载分布于多个计算机上,从而基于地理位置、用户访问级别、服务质量(QoS)等来分离交易。
一个或多个方面可体现于由如本文所述的一个或多个计算机或其他装置执行的计算机可用或可读数据和/或计算机可执行指令中,诸如一个或多个程序模块中。一般来讲,程序模块包括当由计算机或其他装置中的处理器执行时执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。这些模块可用随后被编译以供执行的源代码编程语言来编写,或者可用脚本或标记语言诸如(但不限于)HTML或XML来编写。计算机可执行指令可被存储在计算机可读介质诸如非易失性存储装置上。可利用任何合适的计算机可读存储介质,包括硬盘、CD-ROM、光存储装置、磁存储装置和/或它们的任何组合。另外,如本文所述的表示数据或事件的各种传输(非存储)介质可以通过信号传导介质诸如金属线、光纤和/或无线传输介质(例如,空气和/或空间)行进的电磁波的形式在源与目的地之间进行传送。本文所述的各个方面可被体现为方法、数据处理系统或计算机程序产品。因此,各种功能可全部或部分地体现于软件、固件和/或硬件或硬件等同物(诸如,集成电路、现场可编程门阵列(FPGA)等)中。可使用特定数据结构更有效地实现本文所述的一个或多个方面,并且预期此类数据结构在本文所述的计算机可执行指令和计算机可用数据的范围内。
可使用离散电路、专用集成电路(ASIC)、逻辑门和/或单芯片架构的任何组合来实现上文所述的装置的组件和特征。此外,在适当的情况下,可使用微控制器、可编程逻辑阵列和/或微处理器或前述的任何组合来实现装置的特征。注意,硬件、固件和/或软件元件在本文中可被共同地或单独地称为“逻辑”或“电路”。
应当理解,上文所述的框图中示出的示例性装置可表示许多潜在具体实施的一个功能描述示例。因此,在附图中描绘的块功能的划分、省略或包括无法推断出用于实现这些功能的硬件组件、电路、软件和/或元件将必定在实施方案中被划分、省略或包括。
至少一个计算机可读存储介质可包括当被执行时使得系统执行本文所述的计算机实现的方法中的任一种方法的指令。
一些实施方案可使用表述“一个实施方案”或“实施方案”以及它们的派生词来描述。这些术语意味着结合该实施方案描述的特定特征、结构或特性包括在至少一个实施方案中。在说明书中各处出现短语“在一个实施方案中”不一定全部指同一实施方案。此外,除非另有说明,否则上文所述的特征被认为可以任何组合一起使用。因此,除非注意到单独讨论的任何特征彼此不相容,否则可彼此组合地使用这些特征。
在一般参考本文所使用的符号和命名的情况下,本文的详细描述可根据在计算机或计算机网络上执行的程序过程来呈现。本领域的技术人员使用这些程序性描述和表示来最有效地向本领域的其他技术人员传达其工作的实质。
过程在这里通常被认为是导致期望结果的操作的自相一致序列。这些操作是需要对物理量进行物理操纵的那些操作。通常,尽管不是必须的,但是这些量采取能够被存储、传送、组合、比较和以其他方式操纵的电、磁或光信号的形式。事实证明,有时,主要出于常用的原因,将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。然而,应当注意,所有这些和类似的术语都将与适当的物理量相关联,并且仅是应用于这些量的方便标记。
此外,所执行的操纵通常用术语诸如添加或比较(这通常与由人类操作者执行的脑力操作相关联)来指代。在形成一个或多个实施方案的一部分的本文所述的任何操作中,在大多数情况下,人类操作者的这种能力不是必需的或期望的。相反,这些操作是机器操作。用于执行各种实施方案的操作的有用机器包括通用数字计算机或类似装置。
一些实施方案可使用表述“耦接”和“连接”以及它们的派生词来描述。这些术语不一定旨在作为彼此的同义词。例如,一些实施方案可使用术语“连接”和/或“耦接”来描述,以指示两个或更多个元件彼此直接物理或电接触。然而,术语“耦接”还可意味着两个或更多个元件彼此不直接接触,但是仍然彼此协作或交互。
各种实施方案还涉及用于执行这些操作的设备或系统。该设备可被专门构造用于所需目的,或者其可包括由存储在计算机中的计算机程序来选择性地激活或重新配置的通用计算机。本文所呈现的过程并非固有地与特定计算机或其他设备相关。各种通用机器可与根据本文教导编写的程序一起使用,或者事实证明,构造更专用的设备来执行所需的方法步骤是方便的。各种这些机器的所需结构将从所给出的描述中呈现。
要强调的是,提供本公开的摘要是为了允许读者快速地确定技术公开的性质。所提交的摘要应理解为其将不用于解释或限制权利要求的范围或含义。另外,在前述具体实施方式中,可以看出,出于简化本公开的目的,各种特征在单个实施方案中被分组在一起。本公开的方法不应被理解为反映所要求保护的实施方案需要比每项权利要求中明确列举的特征更多的特征的意图。相反,如以下权利要求所反映的,发明主题在于少于单个所公开实施方案的所有特征。因此,以下权利要求在此并入具体实施方式中,每项权利要求自身作为单独的实施方案。在所附权利要求书中,术语“包括”和“在……中”分别用作相应术语“包含”和“其中”的通俗英语等同物。此外,术语“第一”、“第二”、“第三”等仅用作标记,并不旨在对其对象施加数值要求。
上文已经描述的内容包括所公开的架构的示例。当然,不可能描述组件和/或方法的每一种可想到的组合,但是本领域的普通技术人员可认识到许多另外的组合和排列是可能的。因此,新颖的架构旨在涵盖落入所附权利要求书的精神和范围内的所有此类变更、修改和变型。
Claims (43)
1.一种计算机实现的方法,包括:
访问一组参数,每个参数与质谱(MS)设备的部件相关联并且在数据收集过程期间控制所述部件的操作,所述一组参数共同形成搜索空间;
使用人工智能来搜索所述搜索空间,所述人工智能被配置为选择被预测为在所述数据收集过程期间降低数据可变性的所述参数的一组值;
将所述参数的所选择的值传输到所述MS设备;
接收用所述参数的所选择的值来运行所述MS设备的结果;
基于所述结果,确定所述参数的所述值是否降低数据可变性;以及
基于所述确定,更新由所述人工智能应用来选择所述参数的所述一组值的模型。
2.根据权利要求1所述的计算机实现的方法,其中所述人工智能被配置为基于以下项中的一项或多项来选择所述参数的所述值:
所述结果的再现性,其中当在不同时间、不同仪器中、不同实验室中或由不同操作者分析相同样品并产生基本上类似的结果时,指示改善的再现性;或
运行所述MS设备的所述结果的稳定性,其中当对所述一组参数的相对较小的改变基本上不降低所述结果的质量时,指示改善的稳定性。
3.根据权利要求1所述的计算机实现的方法,其中所述人工智能被配置为基于来自所述MS设备的数据中的数据分辨率、数据强度或峰形中的一者或多者来选择所述参数的所述值。
4.根据权利要求1所述的计算机实现的方法,其中所述人工智能被配置为选择被预测为跨不同样品产生改善结果的所述参数的值。
5.根据权利要求1所述的计算机实现的方法,其中所述人工智能被配置为基于要由所述MS设备分析的特定样品来选择所述参数的值。
6.根据权利要求1所述的计算机实现的方法,其中所述人工智能被配置为:
限定每个参数的概率分布,所述概率分布描述了相应参数的值的范围以及所选择的值优化所述数据可变性的可能性;以及
基于所述概率分布来对所述参数的值进行采样。
7.根据权利要求1所述的计算机实现的方法,还包括限定协方差矩阵,所述协方差矩阵被配置为基于所述参数之间的关系来限制所述搜索空间。
8.根据权利要求1所述的计算机实现的方法,其中所述MS设备是多个MS设备中的一个MS设备,并且所述MS设备的参数被作为一组进行调谐以降低跨所述组的数据可变性。
9.根据权利要求8所述的计算机实现的方法,其中所述多个MS设备中的第一MS设备胜过所述多个MS设备中的其余MS设备,并且选择用于所述第一MS设备的所述参数以降低所述第一MS设备的性能。
10.根据权利要求1所述的计算机实现的方法,其中所述人工智能应用进化算法,所述进化算法被配置为:
限定第一代参数配置;
限定所述参数配置中的复制技术;
限定所述参数配置中的突变技术;以及
应用所述复制技术和所述突变技术来创建第二代参数配置。
11.根据权利要求10所述的计算机实现的方法,其中应用所述复制技术包括确定所述参数中彼此相关的两个或更多个参数,并且将所述相关参数作为一组进行交换。
12.根据权利要求10所述的计算机实现的方法,其中使用一个或多个先验来执行确定所述第一代参数配置。
13.根据权利要求1所述的计算机实现的方法,其中所述人工智能应用贝叶斯优化或强化学习。
14.根据权利要求1所述的计算机实现的方法,其中所述人工智能应用协方差矩阵自适应(CMA)算法。
15.根据权利要求1所述的计算机实现的方法,还包括呈现用户界面,所述用户界面被配置为显示以下项中的一项或多项:哪些参数配置已被确定以降低数据可变性或所述参数中的两个或更多个参数之间的关系。
16.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令当由计算机执行时,使得所述计算机:
访问一组参数,每个参数与质谱(MS)设备的部件相关联并且在数据收集过程期间控制所述部件的操作,所述一组参数共同形成搜索空间;
使用人工智能来搜索所述搜索空间,所述人工智能被配置为选择被预测为在所述数据收集过程期间降低数据可变性的所述参数的一组值;
将所述参数的所选择的值传输到所述MS设备;
接收用所述参数的所选择的值来运行所述MS设备的结果;
基于所述结果,确定所述参数的所述值是否降低数据可变性;以及
基于所述确定,更新由所述人工智能应用来选择所述参数的所述一组值的模型。
17.根据权利要求16所述的计算机可读存储介质,其中所述人工智能被配置为基于以下项中的一项或多项来选择所述参数的所述值:
所述结果的再现性,其中当在不同时间、不同仪器中、不同实验室中或由不同操作者分析相同样品并产生基本上类似的结果时,指示改善的再现性;或
运行所述MS设备的所述结果的稳定性,其中当对所述一组参数的相对较小的改变基本上不降低所述结果的质量时,指示改善的稳定性。
18.根据权利要求16所述的计算机可读存储介质,其中所述人工智能被配置为基于来自所述MS设备的数据中的数据分辨率、数据强度或峰形中的一者或多者来选择所述参数的所述值。
19.根据权利要求16所述的计算机可读存储介质,其中所述人工智能被配置为选择被预测为跨不同样品产生改善结果的所述参数的值。
20.根据权利要求16所述的计算机可读存储介质,其中所述人工智能被配置为基于要由所述MS设备分析的特定样品来选择所述参数的值。
21.根据权利要求16所述的计算机可读存储介质,其中所述人工智能被配置为:
限定每个参数的概率分布,所述概率分布描述了相应参数的值的范围以及所选择的值优化所述数据可变性的可能性;以及
基于所述概率分布来对所述参数的值进行采样。
22.根据权利要求16所述的计算机可读存储介质,其中所述指令还将所述计算机配置为限定协方差矩阵,所述协方差矩阵被配置为基于所述参数之间的关系来限制所述搜索空间。
23.根据权利要求16所述的计算机可读存储介质,其中所述MS设备是多个MS设备中的一个MS设备,并且所述MS设备的参数被作为一组进行调谐以降低跨所述组的数据可变性。
24.根据权利要求23所述的计算机可读存储介质,其中所述多个MS设备中的第一MS设备胜过所述多个MS设备中的其余MS设备,并且选择用于所述第一MS设备的所述参数以降低所述第一MS设备的性能。
25.根据权利要求16所述的计算机可读存储介质,其中所述人工智能应用进化算法,所述进化算法被配置为:
限定第一代参数配置;
限定所述参数配置中的复制技术;
限定所述参数配置中的突变技术;以及
应用所述复制技术和所述突变技术来创建第二代参数配置。
26.根据权利要求25所述的计算机可读存储介质,其中应用所述复制技术包括确定所述参数中彼此相关的两个或更多个参数,并且将所述相关参数作为一组进行交换。
27.根据权利要求25所述的计算机可读存储介质,其中使用一个或多个先验来执行确定所述第一代参数配置。
28.根据权利要求16所述的计算机可读存储介质,其中所述人工智能应用贝叶斯优化或强化学习。
29.根据权利要求16所述的计算机可读存储介质,其中所述指令还将所述计算机配置为呈现用户界面,所述用户界面被配置为显示以下项中的一项或多项:哪些参数配置已被确定以降低数据可变性或所述参数中的两个或更多个参数之间的关系。
30.一种计算设备,包括:
处理器;和
存储器,所述存储器存储指令,所述指令当由所述处理器执行时将所述设备配置为:
访问一组参数,每个参数与质谱(MS)设备的部件相关联并且在数据收集过程期间控制所述部件的操作,所述一组参数共同形成搜索空间;
使用人工智能来搜索所述搜索空间,所述人工智能被配置为选择被预测为在所述数据收集过程期间降低数据可变性的所述参数的一组值;
将所述参数的所选择的值传输到所述MS设备;
接收用所述参数的所选择的值来运行所述MS设备的结果;
基于所述结果,确定所述参数的所述值是否降低数据可变性;以及
基于所述确定,更新由所述人工智能应用来选择所述参数的所述一组值的模型。
31.根据权利要求30所述的计算设备,其中所述人工智能被配置为基于以下项中的一项或多项来选择所述参数的所述值:
所述结果的再现性,其中当在不同时间、不同仪器中、不同实验室中或由不同操作者分析相同样品并产生基本上类似的结果时,指示改善的再现性;或
运行所述MS设备的所述结果的稳定性,其中当对所述一组参数的相对较小的改变基本上不降低所述结果的质量时,指示改善的稳定性。
32.根据权利要求30所述的计算设备,其中所述人工智能被配置为基于来自所述MS设备的数据中的数据分辨率、数据强度或峰形中的一者或多者来选择所述参数的所述值。
33.根据权利要求30所述的计算设备,其中所述人工智能被配置为选择被预测为跨不同样品产生改善结果的所述参数的值。
34.根据权利要求30所述的计算设备,其中所述人工智能被配置为基于要由所述MS设备分析的特定样品来选择所述参数的值。
35.根据权利要求30所述的计算设备,其中所述人工智能被配置为:
限定每个参数的概率分布,所述概率分布描述了相应参数的值的范围以及所选择的值优化所述数据可变性的可能性;以及
基于所述概率分布来对所述参数的值进行采样。
36.根据权利要求30所述的计算设备,其中所述指令还将所述设备配置为限定协方差矩阵,所述协方差矩阵被配置为基于所述参数之间的关系来限制所述搜索空间。
37.根据权利要求30所述的计算设备,其中所述MS设备是多个MS设备中的一个MS设备,并且所述MS设备的参数被作为一组进行调谐以降低跨所述组的数据可变性。
38.根据权利要求37所述的计算设备,其中所述多个MS设备中的第一MS设备胜过所述多个MS设备中的其余MS设备,并且选择用于所述第一MS设备的所述参数以降低所述第一MS设备的性能。
39.根据权利要求30所述的计算设备,其中所述人工智能应用进化算法,所述进化算法被配置为:
限定第一代参数配置;
限定所述参数配置中的复制技术;
限定所述参数配置中的突变技术;以及
应用所述复制技术和所述突变技术来创建第二代参数配置。
40.根据权利要求39所述的计算设备,其中应用所述复制技术包括确定所述参数中彼此相关的两个或更多个参数,并且将所述相关参数作为一组进行交换。
41.根据权利要求39所述的计算设备,其中使用一个或多个先验来执行确定所述第一代参数配置。
42.根据权利要求30所述的计算设备,其中所述人工智能应用贝叶斯优化或强化学习。
43.根据权利要求30所述的计算设备,其中所述指令还将所述设备配置为呈现用户界面,所述用户界面被配置为显示以下项中的一项或多项:哪些参数配置已被确定以降低数据可变性或所述参数中的两个或更多个参数之间的关系。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063070582P | 2020-08-26 | 2020-08-26 | |
US63/070582 | 2020-08-26 | ||
US202163161092P | 2021-03-15 | 2021-03-15 | |
US63/161092 | 2021-03-15 | ||
PCT/IB2021/057841 WO2022043920A1 (en) | 2020-08-26 | 2021-08-26 | Methods, mediums, and systems for selecting values for parameters when tuning a mass spectrometry apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116438625A true CN116438625A (zh) | 2023-07-14 |
Family
ID=77595599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180052165.1A Pending CN116438625A (zh) | 2020-08-26 | 2021-08-26 | 用于在调谐质谱设备时选择参数值的方法、介质和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11728149B2 (zh) |
EP (1) | EP4205161A1 (zh) |
CN (1) | CN116438625A (zh) |
WO (1) | WO2022043920A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790030B2 (en) * | 2020-06-04 | 2023-10-17 | Promoted.ai, Inc. | Creating an effective product using an attribute solver |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2340150C (en) | 2000-06-09 | 2005-11-22 | Micromass Limited | Methods and apparatus for mass spectrometry |
GB0513047D0 (en) * | 2005-06-27 | 2005-08-03 | Thermo Finnigan Llc | Electronic ion trap |
WO2008100941A2 (en) * | 2007-02-12 | 2008-08-21 | Correlogic Systems Inc. | A method for calibrating an analytical instrument |
EP2774169A2 (en) * | 2011-10-31 | 2014-09-10 | Brooks Automation, Inc. | Method and apparatus for tuning an electrostatic ion trap |
US9666422B2 (en) * | 2013-08-30 | 2017-05-30 | Atonarp Inc. | Analyzer |
JP7095809B2 (ja) * | 2019-08-07 | 2022-07-05 | 株式会社島津製作所 | 質量分析装置及び質量分析装置用プログラム |
-
2021
- 2021-08-26 EP EP21763414.6A patent/EP4205161A1/en active Pending
- 2021-08-26 WO PCT/IB2021/057841 patent/WO2022043920A1/en unknown
- 2021-08-26 US US17/446,088 patent/US11728149B2/en active Active
- 2021-08-26 CN CN202180052165.1A patent/CN116438625A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4205161A1 (en) | 2023-07-05 |
WO2022043920A1 (en) | 2022-03-03 |
US20220084802A1 (en) | 2022-03-17 |
US11728149B2 (en) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6729455B2 (ja) | 分析データ解析装置及び分析データ解析方法 | |
WO2018134952A1 (ja) | 分析データ解析方法および分析データ解析装置 | |
JP7346685B2 (ja) | 信号サンプリング品質の判定方法および装置、サンプリング品質分類モデルのトレーニング方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
Mao et al. | Mitigating the missing-fragmentation problem in de novo peptide sequencing with a two-stage graph-based deep learning model | |
CN116438625A (zh) | 用于在调谐质谱设备时选择参数值的方法、介质和系统 | |
US8372288B2 (en) | Precision peak matching in liquid chromatography-mass spectroscopy | |
CN111508565B (zh) | 用于确定分析物中是否存在化学元素的质谱法 | |
WO2021214728A1 (en) | Methods, mediums, and systems to compare data within and between cohorts | |
Halloran et al. | Learning peptide-spectrum alignment models for tandem mass spectrometry | |
Foldager et al. | On the role of model uncertainties in Bayesian optimisation | |
US20230410947A1 (en) | Systems and methods for rapid microbial identification | |
CN109964300A (zh) | 用于实时同位素识别的系统和方法 | |
Ben-David et al. | The role of a layer in deep neural networks: a Gaussian Process perspective | |
US11854780B2 (en) | Methods, mediums, and systems for identifying samples of interest by vector comparison | |
US20220375738A1 (en) | Methods, mediums, and systems for providing assisted calibration for a mass spectrometry apparatus | |
CN111052301A (zh) | 用以改进ms/ms动态范围的动态平衡时间计算 | |
US20230366863A1 (en) | Automated Modeling of LC Peak Shape | |
US20220197252A1 (en) | Methods, mediums, and systems for storing and retrieving chromatography data | |
EP3545292B1 (en) | System and method for determining set of mass to charge ratios for set of gases | |
US20230298706A1 (en) | Methods, mediums, and systems for determining variation relating to compound structures | |
McKetney et al. | Deep Learning Predicts Non-Normal Peptide FAIMS Mobility Distributions Directly from Sequence | |
WO2023100118A1 (en) | High throughput mass spectral data generation | |
Hauchamps et al. | A Bayesian Approach combining Peptide Intensity and Missingness Modelling to analyse Label Free Mass Spectrometry based Proteomics Data | |
Lu | Optimal peptide quantification via machine learning enhanced fragment ion ranking in DIA-MS proteomics | |
Hinneburg | Text mining and applications in life sciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |