CN117554545B - 基于弱监督在线学习的质谱校正方法和装置 - Google Patents
基于弱监督在线学习的质谱校正方法和装置 Download PDFInfo
- Publication number
- CN117554545B CN117554545B CN202311504032.0A CN202311504032A CN117554545B CN 117554545 B CN117554545 B CN 117554545B CN 202311504032 A CN202311504032 A CN 202311504032A CN 117554545 B CN117554545 B CN 117554545B
- Authority
- CN
- China
- Prior art keywords
- attention
- mask
- calibrated
- vector
- posterior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012937 correction Methods 0.000 title claims abstract description 36
- 238000001819 mass spectrum Methods 0.000 title claims abstract description 30
- 238000005070 sampling Methods 0.000 claims abstract description 53
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 150000002500 ions Chemical class 0.000 claims description 37
- 238000004949 mass spectrometry Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000009897 systematic effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000065 atmospheric pressure chemical ionisation Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 238000000132 electrospray ionisation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004164 analytical calibration Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000010894 electron beam technology Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003891 environmental analysis Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000037427 ion transport Effects 0.000 description 1
- 238000005040 ion trap Methods 0.000 description 1
- 238000000752 ionisation method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009420 retrofitting Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8665—Signal analysis for calibrating the measuring apparatus
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8693—Models, e.g. prediction of retention times, method development and validation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8696—Details of Software
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Pathology (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明实施例公开了一种基于弱监督在线学习的质谱校正方法和装置,该方法包括:将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;依据仪器分辨率特性进行相位注意力编码,形成相位注意力向量空间;利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;使用期望最大化算法对待校准质谱图的期望偏移进行估计,得到期望偏移量;根据期望偏移量最终决策移动相位获得待校准质谱图的校正谱。本发明实施例可以实时对质谱质量偏移进行校准。
Description
技术领域
本发明实施例涉及质谱数据处理技术领域,具体涉及一种基于弱监督在线学习的质谱校正方法和装置。
背景技术
质谱仪是一种用于分析样品中化合物的仪器。它通过将样品中的分子离子化,并根据它们的质量-电荷比(m/z)分离和检测来进行工作。质谱仪广泛应用于许多领域,包括生物化学、药物研发、环境分析和食品安全等。
质谱仪的工作原理涉及以下几个关键步骤:
离子化:样品通常通过电离源进行离子化。最常用的电离技术是电子轰击电离(EI),其中电子束撞击样品分子并使其电离。其他常见的电离技术包括电喷雾电离(ESI)和大气压化学电离(APCI)等。
分离:离子化的分子根据它们的质量-电荷比在质谱仪的质量分析器中进行分离。常见的质谱仪类型包括飞行时间质谱仪(TOF)、离子阱质谱仪和四极质谱仪等。这些仪器使用磁场、电场或一系列离子过滤器来将离子按照它们的质量-电荷比进行分离。
检测:分离后的离子被检测器探测,并转换为电信号。检测器通常是具有高灵敏度的器件,如离子倍增器或光电倍增管。通过测量信号的强度和时间,可以确定离子的种类和数量。
在质谱仪中,质量偏移是指实际检测到的离子质量与其理论质量之间的差异。质量偏移可能由多种因素引起,包括:
仪器校准问题:质谱仪需要进行定期校准以确保准确的质量测量。如果校准不正确或不精确,就会导致质量偏移。
离子化效率变化:不同样品或不同的离子化方法可能导致离子化效率的变化。这可能会导致相同化合物的离子产量有所不同,从而引起质量偏移。
离子传输损失:离子在进入质谱仪的过程中可能会与气体分子发生碰撞,并丧失一部分能量。这可能导致离子在质量分析器中的行为发生变化,进而引起质量偏移。
仪器老化和维护问题:随着时间的推移,质谱仪的各个组件可能会发生磨损或老化,例如离子源、质量分析器和检测器等。这可能导致仪器的性能下降,进而影响质量测量的准确性。
为了减小质量偏移的影响,质谱仪通常需要进行定期校准和维护,并在可能的情况下使用内部或外部标准物质进行校准。
现有对质量偏移的校准或者优化主要包括硬件方面和软件方面,其中:
硬件方面针对质谱仪的仪器参数和设计进行了优化。例如,改进激光系统的稳定性和对准度,优化采集器的采样效率和传输效果,以减小峰抖动和质量测量偏差的影响。这需要复杂的仪器改装或调整,对实际应用的可行性有一定限制。
软件方面主要包括基于先验知识设定一组参考离子质量数的理论值。然后,通过在采集到质谱中寻峰等方法计算参考离子质量数测量值。用理论值与测量值进行线性回归或者多项式拟合等方法校准其它的质量数。这类方法需要事先知道采集到谱图中一定存在的离子,且对应参考离子处需要存在峰(谱图在参考离子处的信号强度大于一定阈值),最关键的是这种方法需要准确得到真实测量值,这在校准谱图时需要正确的找峰并计算峰信息,当参考离子为平顶峰且峰宽较大时会存在较大误差,导致不能正确的计算回归方程或拟合多项式方程等。
以及通过标准样品中已知的参考离子的质量数及其对应的飞行时间,拟合一个质量数随飞行时间变化的方程。然后将质谱仪器采集到谱图的横坐标飞行时间代入到这个方程中进行质量校准。这类方法对于拟合方程的准确度要求较高,且未考虑由于仪器稳定性等各种原因导致的实际测量值与标样拟合方程可能存在误差的情况,当质谱中的峰抖动较大时,由于标样拟合的方程和引入了无法消除的抖动偏差,实际的质量偏移校准效果不佳。
另外,实际应用中采集到谱图中参考离子可能只有1个存在理论值和测量值,前述方法都无法进行正确的方程拟合或回归。
发明内容
为了克服现有技术的不足,本发明实施例的目的在于提供一种基于弱监督在线学习的质谱校正方法和装置,其可以对质谱质量偏移进行实时校准。
为解决所述问题,本发明实施例第一方面公开一种基于弱监督在线学习的质谱校正方法,包括:
将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;
依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间;
利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;
基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;
将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量;
根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱。
在本发明实施例第一方面中,作为一种优选的实施方式,将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量,包括:
根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码;
利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量。
在本发明实施例第一方面中,作为一种优选的实施方式,根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码,包括:
初始化生成一个与所述待校准质谱图大小相同的全0向量Smask;
当仪器分辨率大于给定阈值RS时,采用迭代剥峰算法进行二进制编码,在预设的迭代次数内逐步标记当前最大值以及其前后给定的Nt个点,根据所述逐步标记当前最大值以及其前后给定的Nt个点将待校准质谱图中对应位置设置为0,将Smask中对应位置设置为1;当迭代次数大于指定次数或者当前标记区间的最大值小于第一给定阈值时终止迭代;
当仪器分辨率小于等于给定阈值RS时,采用分位数阈值进行二进制编码,所述分位数阈值包括给定下分位数和给定上分位数,所述给定上分位数大于所述给定下分位数,先将待校准质谱图中小于给定下分位数的点设置为0,再将待校准质谱图中大于给定上分位数的点的索引进行标记;根据所述索引进行的标记将Smask中对应位置设置为1;
得到对所述全0向量Smask进行设置后的基础采样掩码,即得到所述待校准质谱图的二进制编码。
在本发明实施例第一方面中,作为一种优选的实施方式,利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量,包括:
将读码框注意力设置为所述二进制编码中间不为0的区域,得到一个初始读码框;
根据所述初始读码框截取所述二进制编码的中间区域;
将读码框注意力重新设置为所述中间区域的多个小段,以将所述初始读码框分割为多个小段的读码框,记为采样读码框;
用所述采样读码框对所述二进制编码的中间区域进行编码,得到所述采样掩码向量。
在本发明实施例第一方面中,作为一种优选的实施方式,利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜,包括:
将当前的采样掩码向量更新到后验概率潜空间中,形成更新后的后验概率潜空间向量;
根据所述采样读码框设置当前后验读码框注意力编码;
根据所述后验读码框注意力编码将所述后验概率潜空间向量编码成所述后验注意力掩膜。
在本发明实施例第一方面中,作为一种优选的实施方式,基于给定的初始先验向量,二值化后用当前谱的读码框注意力更新成先验注意力掩膜,包括:
初始化一个全为0的向量,记为初始先验注意力掩膜向量;
根据所述初始先验向量对仪器进行预校准,得到所述初始先验向量的初始横坐标;
当所述初始先验向量的参考离子数量大于预设数量时,则将在所述初始横坐标中标记所述参考离子的索引,根据所述参考离子的索引将所述初始先验注意力掩膜向量对应位置设置为1;
当所述参考离子的数量小于或等于预设数量时,如果参考离子的数量大于0,则将所述初始先验注意力掩膜向量中参考位置的索引进行标记,所述参考位置包括参考峰位置以及大于第二给定阈值的离子峰位置;
在给定的容差范围内,根据参考位置的索引对标记的索引位置进行校准,并记录校准后的索引;
根据所述校准后的索引将所述初始先验注意力掩膜向量对应位置设置为1,得到先验注意力掩膜编码;
根据所述采样读码框设置当前先验读码框注意力编码;
根据所述先验读码框注意力编码将所述先验注意力掩膜编码更新成所述后验注意力掩膜。
在本发明实施例第一方面中,作为一种优选的实施方式,将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量,包括:
对每个读码框,分别计算相位注意力区间任意位置与对应的先验注意力掩膜和后验注意力掩膜的期望值,以所述期望值中的最大值对应的参数作为每个读码框的先验期望基础偏移量和先验期望基础偏移量;
遍历所有读码框,通过投票机制,分别以出现次数最多的先验期望基础偏移量和先验期望基础偏移量作为先验期望偏移量和先验基础偏移量。
在本发明实施例第一方面中,作为一种优选的实施方式,根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱,包括:
根据先验知识的置信度对所述先验期望偏移量和后验期望偏移量进行决策,对所述待校准质谱图进行校正,得到待校准质谱图的校正谱。
在本发明实施例第一方面中,作为一种优选的实施方式,根据先验知识的置信度对所述先验期望偏移量和后验期望偏移量进行决策,对所述待校准质谱图进行校正,包括:
当先验知识的置信度大于或等于给定的置信上限时,采用所述先验期望偏移量校准随机误差,采用所述后验期望偏移量校准系统误差;
当先验知识的置信度小于给定的置信上限且大于给定的置信下限时,根据对所述随机误差和系统误差的关注情况确定校准偏移量,采用所述校准偏移量对所述待校准质谱图进行校正,其中,如果更关注所述随机误差,则采用所述先验期望偏移量作为校准偏移量对所述待校准质谱图进行校正,如果更关注所述系统误差,则采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正;
当先验知识的置信度小于或等于给定的置信下限时,仅采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正。
本发明实施例第二方面公开了一种基于弱监督在线学习的质谱校正装置,包括:
第一编码单元,用于将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;
第二编码单元,用于依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间;
第一更新单元,用于利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;
第二更新单元,用于基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;
计算单元,用于将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量;
校正单元,用于根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱。
本发明实施例第三方面公开一种电子设备,包括存储器、处理器以及存储在所述存储器中并能在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述本发明实施例第一方面公开的基于弱监督在线学习的质谱校正方法的步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储有计算机程序,其中,所述计算机程序使得计算机执行所述本发明实施例第一方面公开的基于弱监督在线学习的质谱校正方法的步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行所述本发明实施例第一方面公开的基于弱监督在线学习的质谱校正方法的步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行所述本发明实施例第一方面公开的基于弱监督在线学习的质谱校正方法的步骤。
与现有技术相比,本发明实施例的有益效果在于:
本发明实施例提出了基于弱监督在线学习的质谱校正方法。该方法利用二值编码、读码框和偏移量注意力机制构建先验相位注意力向量空间和后验相位注意力向量空间,并通过在线学习的策略实时跟踪仪器变化状态,以实现质谱的在线校正算法构造先验注意力掩膜和后验注意力掩膜。对待校准质谱图进行二值编码,引入读码框注意力增强相对丰度抗干扰能力,使用相位注意力向量空间匹配实际仪器分辨率;依据在线学习的谱图偏移量估计期望最大化算法,用于估计谱图的分段期望偏移量,并决策式地预测谱图相位实现校准。由于采样掩码向量和初始先验向量都是经过特定编码的,引入了注意力机制进行降维,并涵盖了信息蒸馏特性,能够更好适配质谱仪器的工作原理。
对于先验注意力掩膜的提取,通常仅需一张相关的校正质谱,减少校正工作量;由于利用在线机器学习策略进行后验注意力掩膜提取,其内容隐含了质谱仪本身硬件特性导致的谱图波动函数关系,不需要根据实际仪器进行复杂的参数设置,算法适应性较强。
本发明实施例大部分功能实现建立在短时窗口、有限值域的加乘操作基础上,实时性较好,对质谱仪的输入数据品质要求更宽。
附图说明
图1是本发明实施例提供的一种基于弱监督在线学习的质谱校正方法的流程示意图一;
图2是本发明实施例提供的一种基于弱监督在线学习的质谱校正方法的流程示意图二;
图3是本发明实施例提供的质谱质量校准前后的效果图;
图4是本发明实施例提供的一种基于弱监督在线学习的质谱校正阻值的结构框图;
图5是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
本具体实施方式仅仅是对本发明实施例的解释,其并不是对本发明实施例的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明实施例的权利要求范围内都受到专利法的保护。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本申请的说明书和权利要求书中的术语“包括”以及它的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
质谱仪在实际应用中,其质量精度受到多方面因素的影响。其中,随机误差主要由仪器系统漂移以及离子化效率的波动等造成,这些因素造成每次测量数据出现波动和不确定性,降低测量结果的可重复性和准确性。另一方面,系统误差主要由参数设置误差、校准误差、以及数据处理的误差引起,这些误差可能源自仪器设计、操作流程或者数据分析算法。上述误差在长时间使用中可能逐步积累,会导致测量结果偏离真实值。因此需采取硬件和软件综合方法对质量偏移进行稳定和校正,使测量结果的随机误差和系统误差最小化。
本方案将质量漂移带来的误差分为系统误差与随机误差,两类误差分别对应两类误差消除方法。
本发明实施例通过构造先验注意力掩膜和后验注意力掩膜,依据在线学习的谱图偏移量估计期望最大化算法,用于估计谱图的分段期望偏移量,并决策式地预测谱图相位实现校准,以下结合附图进行详细描述。
实施例一
请参照图1所示,第一方面公开一种基于弱监督在线学习的质谱校正方法,其可以包括以下步骤:
S110、将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量。
首先,我们初始化生成一个与采集得到的待校准质谱图S大小相同的全0向量Smask。然后,我们根据仪器分辨率采用不同策略对待校准质谱图S进行掩码编码,获得待校准质谱图的二进制编码。
可以采用迭代剥峰算法或者分位数阈值法对待校准质谱图S进行掩码编码。
示例性地,当仪器分辨率大于给定阈值RS时,我们采用迭代剥峰算法对待校准质谱图S进行掩码编码。具体地,在一定迭代次数内逐步标记当前最大值以及其前后Nt个点,根据该标记将待校准质谱图S中对应位置设置为0,将Smask中对应位置设置为1。当迭代步数大于指定步数Imax或者当前标记区间的最大值小于给定阈值Hmin时终止迭代。得到对所述全0向量Smask进行设置后的基础采样掩码,即得到所述待校准质谱图的二进制编码。
当仪器分辨率小于等于给定阈值RS时,我们采用分位数阈值对待校准质谱图S进行掩码编码。具体地,先将待校准质谱图中小于给定下分位数的点设置为0,再将待校准质谱图中大于给定上分位数点的索引进行标记。最后,根据标记将Smask中对应位置设置为1。得到对所述全0向量Smask进行设置后的基础采样掩码,即得到所述待校准质谱图的二进制编码。
基础采样掩码编码的伪代码可以如下所示:
在对待校准质谱图S进行二值编码后,再进行读码框注意力编码。将注意力设置为二进制编码中间不为0的区域,得到一个大的初始读码框,根据这个初始读码框截取二进制编码的中间区域。然后,将读码框注意力设置为中间区域的多个小段,将初始读码框分割为多个小段的读码框,记为采样读码框,用这些小段的采样读码框对二进制编码的中间区域进行编码,得到所述采样掩码向量。
S120、依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间。
可以根据谱图偏移量,分别设置用于先验估计和后验估计的相位注意力区间,分别记为先验相位注意力向量空间和后验相位注意力向量空间。一般来说,根据质谱仪的分辨率或抖动分布初始化一组相位搜索空间,即相位注意力空间。一般地,高分辨率质谱仪应设定相位注意力区间较小,相反则适当增大;用于先验估计的先验相位注意力向量空间较小,用于后验估计的后验相位注意力向量空间较大。
S130、利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜。
首先创建一个全零的后验掩膜谱向量,而后将当前的采样掩码编码更新到后验概率潜空间中。
更新的方式可以采用递推公式(1)实现:
其中,λ(n)为线性学习率,Ln+1为第n+1个后验潜空间向量,Ln为第n个后验潜空间向量,L1即对应创建的全零后验掩膜谱向量,Vmask为采样掩码编码向量,n为迭代次数,根据需要进行设置。为了简化流程,我们目前使用的是线性学习率策略λ(n)≡1。即每次更新都使用当前后验掩膜向量与后验潜空间的无加权线性加和后求概率。
根据步骤S120得到的采样读码框注意力编码,设置当前后验读码框注意力编码;再根据所述后验读码框注意力编码将所述后验概率潜空间向量编码成所述后验注意力掩膜,将上述更新后的后验潜空间向量编码成后验注意力掩膜Ppost。
S140、基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜。
根据人工知识蒸馏给定一个初始的先验向量,这个初始的先验向量可能是人为规定、模糊逻辑、综合标样平均谱、SVD、PCA或CUR等技术得到的。
然后,初始化一个全0的初始先验注意力掩膜向量Pprior和误差估计下限et,并对仪器进行预校准(校准参数为A和B)得到谱图初始横坐标。当参考离子Iref的数量大于Np时,我们在初始横坐标中标记Iref的索引,根据该索引将Pprior对应位置设置为1。
当仪器目前使用环境中已知离子峰的参考值时较少时,即参考离子Iref的数量小于等于Np时,如果Iref的数量大于0,则将后验注意力掩膜编码Ppost中参考峰位置的索引以及其它大于一定阈值Hmin的索引进行标记,然后在给定的容差范围tol内,根据参考位置的索引对标记的索引位置进行校准,并记录校准后的索引。再根据校准后的索引将初始先验注意力掩膜向量对应位置设置为1。
当离子峰的参考值全部未知时,我们很难只依靠后验注意力掩膜编码对仪器的系统误差进行校准,此时,原则上仅需要采集一张标准谱来对仪器当前的系统误差进行估计。由于标准谱中离子理论值和测量值已知,采集标准谱后,构造初始先验注意力掩膜向量的方法与前述相同。构造先验注意力掩膜编码伪代码如下所示。
Iref=k(mass,Sstd),代表人为定义参考离子的流程;
Vg=g(mass,Sstd,Iref),代表人为定义先验标准谱的流程;
Vg:=Ppost代表用后验估计作为先验标准谱;
Mass:=f(A,B)对应其中,Mass为离子峰质量数,t为飞行时间,A和B为校准系数。
根据步骤S120得到的采样读码框注意力编码,设置当前先验读码框注意力编码;再根据所述先验读码框注意力编码将所述后验概率潜空间向量编码成所述后验注意力掩膜,将上述设置后的初始先验注意力掩膜向量(即先验注意力掩膜编码)更新成先验注意力掩膜Pprior。
S150、将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量。
本发明实施例使用期望最大化算法对待校准质谱图的期望偏移进行估计,首先将先验注意力掩膜Pprior和后验注意力掩膜Ppost作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法(EM Methods)进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量。
对每一个读码框注意力,计算相位注意力区间一个位置与对应的先验注意力掩膜Pprior和后验注意力掩膜Ppost的期望值,即计算这一个读码框在θ(随机变量)情况下的条件概率期望。取最大期望对应的参数作为校正的期望基础偏移量,分别记为先验期望基础偏移量和先验期望基础偏移量。
在得到每个读码框的期望基础偏移量后,遍历所有读码框,分别以出现次数最多的先验期望基础偏移量和先验期望基础偏移量作为先验期望偏移量和先验基础偏移量。
S160、根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱。
可以根据先验知识的置信度对所述先验期望偏移量和后验期望偏移量进行决策,对所述待校准质谱图进行校正,得到待校准质谱图的校正谱。
其具体可以包括:
当先验知识的置信度大于或等于给定的置信上限时,采用所述先验期望偏移量校准随机误差,采用所述后验期望偏移量校准系统误差;
当先验知识的置信度小于给定的置信上限且大于给定的置信下限时,根据对所述随机误差和系统误差的关注情况确定校准偏移量,采用所述校准偏移量对所述待校准质谱图进行校正,其中,如果更关注所述随机误差,则采用所述先验期望偏移量作为校准偏移量对所述待校准质谱图进行校正,如果更关注所述系统误差,则采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正;
当先验知识的置信度小于或等于给定的置信下限时,仅采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正。
步骤S150和步骤S160对应的伪代码如下所示:
综上所述,在本发明实施例的一种弱监督在线学习的谱图校正方法,不依赖寻峰算法,理论上不存在其对校正精度的影响。算法通过构造先验相位注意力向量空间和后验相位注意力向量空间,待校准质谱图进行二值编码,引入读码框注意力增强相对丰度抗干扰能力,使用相位注意力向量空间匹配实际仪器分辨率;使用概率统计方法在线学习构建后验权重掩码潜空间,具备对质谱仪的测量波动进行动态更新的能力,最终实现较好的跟踪校正性能。图3示出了质谱质量校准前后的效果图。
实施例二
请参阅图4,图4是本发明实施例公开的一种基于弱监督在线学习的质谱校正装置的结构示意图。如图4所示,该基于弱监督在线学习的质谱校正装置,可以包括:
第一编码单元310,用于将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;
第二编码单元320,用于依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间;
第一更新单元330,用于利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;
第二更新单元340,用于基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;
计算单元350,用于将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量;
校正单元360,用于根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱。
实施例三
请参阅图5,图5示出了可以用来实施本发明实施例的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的或/和者要求的本发明实施例的实现。
如图5所示,电子设备包括至少一个处理器410,以及与至少一个处理器410通信连接的存储器,如ROM(只读存储器)420、RAM(随机访问存储器)430等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器410可以根据存储在ROM 420中的计算机程序或者从存储单元680加载到随机访问存储器RAM 430中的计算机程序,来执行各种适当的动作和处理。在RAM 430中,还可存储电子设备操作所需的各种程序和数据。处理器410、ROM420以及RAM 430通过总线440彼此相连。I/O(输入/输出)接口450也连接至总线440。
电子设备中的多个部件连接至I/O接口450,包括:输入单元460,例如键盘、鼠标等;输出单元470,例如各种类型的显示器、扬声器等;存储单元480,例如磁盘、光盘等;以及通信单元490,例如网卡、调制解调器、无线通信收发机等。通信单元490允许电子设备通过诸如因特网的计算机网络或/和各种电信网络与其他设备交换信息/数据。
处理器410可以是各种具有处理和计算能力的通用或/和专用处理组件。处理器410的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器410执行上文实施例一描述的一种基于弱监督在线学习的质谱校正方法的一个或多个步骤。
在一些实施例中,一种基于弱监督在线学习的质谱校正方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元480。在一些实施例中,计算机程序的部分或者全部可以经由ROM 420或/和通信单元490而被载入或/和安装到电子设备上。当计算机程序加载到RAM 430并由处理器410执行时,可以执行上文实施例一描述的一种基于弱监督在线学习的质谱校正方法的一个或多个步骤。备选地,在其他实施例中,处理器410可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种基于弱监督在线学习的质谱校正方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、或/和它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行或/和解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明实施例的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图或/和框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明实施例的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者所述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或所述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
以上对本发明公开的一种基于弱监督在线学习的质谱校正方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种基于弱监督在线学习的质谱校正方法,其特征在于,其包括:
将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;
依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间;
利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;
基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;
将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量;
根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱;
将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量,包括:
根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码;
利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量;
根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码,包括:
初始化生成一个与所述待校准质谱图大小相同的全0向量Smask;
当仪器分辨率大于给定阈值RS时,采用迭代剥峰算法进行二进制编码,在预设的迭代次数内逐步标记当前最大值以及其前后给定的Nt个点,根据所述逐步标记当前最大值以及其前后给定的Nt个点将待校准质谱图中对应位置设置为0,将Smask中对应位置设置为1;当迭代次数大于指定次数或者当前标记区间的最大值小于第一给定阈值时终止迭代;
当仪器分辨率小于等于给定阈值RS时,采用分位数阈值进行二进制编码,所述分位数阈值包括给定下分位数和给定上分位数,所述给定上分位数大于所述给定下分位数,先将待校准质谱图中小于给定下分位数的点设置为0,再将待校准质谱图中大于给定上分位数的点的索引进行标记;根据所述索引进行的标记将Smask中对应位置设置为1;
得到对所述全0向量Smask进行设置后的基础采样掩码,即得到所述待校准质谱图的二进制编码;
利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量,包括:
将读码框注意力设置为所述二进制编码中间不为0的区域,得到一个初始读码框;
根据所述初始读码框截取所述二进制编码的中间区域;
将读码框注意力重新设置为所述中间区域的多个小段,以将所述初始读码框分割为多个小段的读码框,记为采样读码框;
用所述采样读码框对所述二进制编码的中间区域进行编码,得到所述采样掩码向量。
2.根据权利要求1所述的基于弱监督在线学习的质谱校正方法,其特征在于,利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜,包括:
将当前的采样掩码向量更新到后验概率潜空间中,形成更新后的后验概率潜空间向量;
根据所述采样读码框设置当前后验读码框注意力编码;
根据所述后验读码框注意力编码将所述后验概率潜空间向量编码成所述后验注意力掩膜。
3.根据权利要求1所述的基于弱监督在线学习的质谱校正方法,其特征在于,基于给定的初始先验向量,二值化后用当前谱的读码框注意力更新成先验注意力掩膜,包括:
初始化一个全为0的向量,记为初始先验注意力掩膜向量;
根据所述初始先验向量对仪器进行预校准,得到所述初始先验向量的初始横坐标;
当所述初始先验向量的参考离子数量大于预设数量时,则将在所述初始横坐标中标记所述参考离子的索引,根据所述参考离子的索引将所述初始先验注意力掩膜向量对应位置设置为1;
当所述参考离子的数量小于或等于预设数量时,如果参考离子的数量大于0,则将所述初始先验注意力掩膜向量中参考位置的索引进行标记,所述参考位置包括参考峰位置以及大于第二给定阈值的离子峰位置;
在给定的容差范围内,根据参考位置的索引对标记的索引位置进行校准,并记录校准后的索引;
根据所述校准后的索引将所述初始先验注意力掩膜向量对应位置设置为1,得到先验注意力掩膜编码;
根据所述采样读码框设置当前先验读码框注意力编码;
根据所述先验读码框注意力编码将所述先验注意力掩膜编码更新成所述后验注意力掩膜。
4.根据权利要求1-3任一项所述的基于弱监督在线学习的质谱校正方法,其特征在于,将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量,包括:
对每个读码框,分别计算相位注意力区间任意位置与对应的先验注意力掩膜和后验注意力掩膜的期望值,以所述期望值中的最大值对应的参数作为每个读码框的先验期望基础偏移量和先验期望基础偏移量;
遍历所有读码框,通过投票机制,分别以出现次数最多的先验期望基础偏移量和先验期望基础偏移量作为先验期望偏移量和先验基础偏移量。
5.根据权利要求1-3任一项所述的基于弱监督在线学习的质谱校正方法,其特征在于,根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱,包括:
根据先验知识的置信度对所述先验期望偏移量和后验期望偏移量进行决策,对所述待校准质谱图进行校正,得到待校准质谱图的校正谱。
6.根据权利要求5所述的基于弱监督在线学习的质谱校正方法,其特征在于,根据先验知识的置信度对所述先验期望偏移量和后验期望偏移量进行决策,对所述待校准质谱图进行校正,包括:
当先验知识的置信度大于或等于给定的置信上限时,采用所述先验期望偏移量校准随机误差,采用所述后验期望偏移量校准系统误差;
当先验知识的置信度小于给定的置信上限且大于给定的置信下限时,根据对所述随机误差和系统误差的关注情况确定校准偏移量,采用所述校准偏移量对所述待校准质谱图进行校正,其中,如果更关注所述随机误差,则采用所述先验期望偏移量作为校准偏移量对所述待校准质谱图进行校正,如果更关注所述系统误差,则采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正;
当先验知识的置信度小于或等于给定的置信下限时,仅采用所述后验期望偏移量作为校准偏移量对所述待校准质谱图进行校正。
7.一种基于弱监督在线学习的质谱校正装置,其特征在于,其包括:
第一编码单元,用于将实时采样的一个待校准质谱图使用读码框注意力编码获得分段注意力,形成采样掩码向量;
第二编码单元,用于依据仪器分辨率特性进行相位注意力编码,形成先验相位注意力向量空间和后验相位注意力向量空间;
第一更新单元,用于利用获得的采样掩码向量在线学习更新后验潜空间,用当前谱的读码框注意力更新成后验注意力掩膜;
第二更新单元,用于基于给定的初始先验向量,二值化后用当前初始先验向量的读码框注意力更新成先验注意力掩膜;
计算单元,用于将先验注意力掩膜和后验注意力掩膜作为观测值,以平移相位空间作为隐变量,以期望偏移量作为估计参数,并基于期望最大化方法进行修改和简化,用注意力策略缩小解空间的方法来估计期望偏移量,得到先验期望偏移量和后验期望偏移量;
校正单元,用于根据所述先验期望偏移量和后验期望偏移量最终决策移动相位获得所述待校准质谱图的校正谱;
所述第一编码单元,包括:
根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码;
利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量;
其中,根据仪器分辨率采用不同策略对待校准质谱图进行掩码编码,获得待校准质谱图的二进制编码,包括:
初始化生成一个与所述待校准质谱图大小相同的全0向量Smask;
当仪器分辨率大于给定阈值RS时,采用迭代剥峰算法进行二进制编码,在预设的迭代次数内逐步标记当前最大值以及其前后给定的Nt个点,根据所述逐步标记当前最大值以及其前后给定的Nt个点将待校准质谱图中对应位置设置为0,将Smask中对应位置设置为1;当迭代次数大于指定次数或者当前标记区间的最大值小于第一给定阈值时终止迭代;
当仪器分辨率小于等于给定阈值RS时,采用分位数阈值进行二进制编码,所述分位数阈值包括给定下分位数和给定上分位数,所述给定上分位数大于所述给定下分位数,先将待校准质谱图中小于给定下分位数的点设置为0,再将待校准质谱图中大于给定上分位数的点的索引进行标记;根据所述索引进行的标记将Smask中对应位置设置为1;
得到对所述全0向量Smask进行设置后的基础采样掩码,即得到所述待校准质谱图的二进制编码;
利用读码框注意力对所述待校准质谱图的二进制编码,得到所述采样掩码向量,包括:
将读码框注意力设置为所述二进制编码中间不为0的区域,得到一个初始读码框;
根据所述初始读码框截取所述二进制编码的中间区域;
将读码框注意力重新设置为所述中间区域的多个小段,以将所述初始读码框分割为多个小段的读码框,记为采样读码框;
用所述采样读码框对所述二进制编码的中间区域进行编码,得到所述采样掩码向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311504032.0A CN117554545B (zh) | 2023-11-10 | 2023-11-10 | 基于弱监督在线学习的质谱校正方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311504032.0A CN117554545B (zh) | 2023-11-10 | 2023-11-10 | 基于弱监督在线学习的质谱校正方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117554545A CN117554545A (zh) | 2024-02-13 |
CN117554545B true CN117554545B (zh) | 2024-05-24 |
Family
ID=89815883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311504032.0A Active CN117554545B (zh) | 2023-11-10 | 2023-11-10 | 基于弱监督在线学习的质谱校正方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117554545B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114303228A (zh) * | 2019-08-30 | 2022-04-08 | 英国质谱公司 | 质谱仪校准 |
CN116758983A (zh) * | 2023-08-23 | 2023-09-15 | 山东大学 | 一种赖氨酸磷酸甘油化位点识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030175722A1 (en) * | 2001-04-09 | 2003-09-18 | Matthias Mann | Methods and systems for searching genomic databases |
-
2023
- 2023-11-10 CN CN202311504032.0A patent/CN117554545B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114303228A (zh) * | 2019-08-30 | 2022-04-08 | 英国质谱公司 | 质谱仪校准 |
CN116758983A (zh) * | 2023-08-23 | 2023-09-15 | 山东大学 | 一种赖氨酸磷酸甘油化位点识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117554545A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6310431B2 (ja) | 飛行時間型質量分析計での飛行時間ドリフトの補正 | |
US7202473B2 (en) | Mass spectrometer | |
US6983213B2 (en) | Methods for operating mass spectrometry (MS) instrument systems | |
CN114303228B (zh) | 质谱仪校准 | |
US10438782B2 (en) | Systems and methods for mass calibration | |
CN110287537B (zh) | 用于频标输出跳变检测的抗野值自适应卡尔曼滤波方法 | |
CA2464004C (en) | Mass spectrometer | |
CN117554545B (zh) | 基于弱监督在线学习的质谱校正方法和装置 | |
EP2483641B1 (en) | Systems and methods for maintaining the precision of mass measurement | |
US10522335B2 (en) | Mass spectrometry data processing apparatus, mass spectrometry system, and method for processing mass spectrometry data | |
Tyler | The accuracy and precision of the advanced Poisson dead‐time correction and its importance for multivariate analysis of high mass resolution ToF‐SIMS data | |
JP4950029B2 (ja) | 質量分析計 | |
Afef et al. | Fast dictionary-based approach for mass spectrometry data analysis | |
JP6833731B2 (ja) | 確率に基づくライブラリ検索アルゴリズム(prols) | |
Gonçalves et al. | Performance of Optimal Linear Filtering Methods for Signal Estimation in High-Energy Calorimetry | |
US20230386811A1 (en) | A method of calibrating a mass spectrometer | |
CN116798851A (zh) | 一种提升离子在四级杆中运动轨迹稳定性方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |