CN112908428A - 一种特征交叉融合的时间序列峰簇精确定位方法 - Google Patents

一种特征交叉融合的时间序列峰簇精确定位方法 Download PDF

Info

Publication number
CN112908428A
CN112908428A CN202110293557.9A CN202110293557A CN112908428A CN 112908428 A CN112908428 A CN 112908428A CN 202110293557 A CN202110293557 A CN 202110293557A CN 112908428 A CN112908428 A CN 112908428A
Authority
CN
China
Prior art keywords
peak
peak cluster
cluster
ion
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110293557.9A
Other languages
English (en)
Inventor
冯筠
陆柯迪
孙士生
胡陟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202110293557.9A priority Critical patent/CN112908428A/zh
Publication of CN112908428A publication Critical patent/CN112908428A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8679Target compound analysis, i.e. whereby a limited number of peaks is analysed
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8696Details of Software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Library & Information Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r‑Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果根据粗校准结果得到最佳匹配峰簇CPeak‑b,本发明中的模型所使用的随机扰动函数有利于模型快速收敛,避免模型陷入局部最小;构建了峰特征交叉融合公式进行相关值计算,得到最佳匹配峰簇,完成峰簇精确定位,解决了现有技术峰簇定位不够精准的问题。

Description

一种特征交叉融合的时间序列峰簇精确定位方法
技术领域
本发明属于生物信息/信号处理领域,涉及质谱学中的峰簇精确定位,具体涉及一种特征交叉融合的时间序列峰簇精确定位方法。
背景技术
在质谱数据的分析研究中,通常有气相色谱,液相色谱LC等。这些仪器和方法都能够进行生物质谱分析生成丰富的光谱信息。因此,高质量数据的获取是实际应用的关键,但这一步往往受仪器条件和人工操作变化的影响。为了更好应用数据,必须对数据中由于仪器漂移、温度、压力波动,注入延迟,分离株老化等因素引起的峰簇漂移等问题进行处理。因此在质谱数据的后续分析研究中,首先要解决的问题是针对峰簇漂移的定位算法研究。
针对这个问题,科学界进行了数十年的研究与探讨,针对二维洗脱时间峰簇对准后定位,提出了众多计算方法,例如,动态时间规划算法、相关优化扭曲算法、参数时间扭曲方法、使用减少组映射的峰对齐方法、波束搜索的自动峰值对准方法、模糊扭曲方法、实用简便的峰值对准方法、多尺度峰对齐方法和自动时移算法等,这些算法在解决二维洗脱时间峰簇对准上确实有一定的效果。然而,这些方法都只能够实现峰簇对准后定位,但在具体定位过程都没有考虑峰簇的全部特征,导致最终峰簇定位不够精准。
此外,在离子峰簇的精确定位中,离子峰簇正确定位过程,不仅与色谱图中的洗脱时间相关,与离子本身的特征如电荷,质量,同位素峰型等亦息息相关,而且,在根据实际质谱计算离子信息的过程中发现,离子峰簇还会存在混叠现象。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种特征交叉融合的时间序列峰簇精确定位方法,解决现有技术中峰簇的定位不够精准的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行:
步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;
所述的糖肽质谱数据集为多个原始质谱文件;
所述的鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集;
所述的重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;所述的未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;
步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;
所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示:
Ttarget=Slope*Ttemplate+offset 公式2-1
其中:
Ttemplate表示作为模板的原始质谱文件的洗脱时间;
Ttarget表示作为目标的原始质谱文件的洗脱时间;
Slope表示原始质谱文件间的洗脱时间平均变化率;
offset表示原始质谱文件间的洗脱时间偏移;
所述的粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值;
步骤三,根据粗校准结果得到最佳匹配峰簇CPeak-b,采用峰特征交叉融合公式3-3计算模板峰簇和候选峰簇的相关值S,比较相关值S与临界值Scv的大小,判定最佳匹配峰簇CPeak-b是否为精确定位结果;
所述的峰特征交叉融合公式3-3为:
Figure BDA0002983407800000031
f(s′,z1⊙z2,MA1⊙MA2)=s′+(z1⊙z2)+(MA1⊙MA2) 公式3-4
其中:
z1表示模板峰簇对应糖肽离子的电荷;
z2表示候选峰簇对应糖肽离子的电荷;
MA1表示模板峰簇对应糖肽离子的质量;
MA2表示候选峰簇对应糖肽离子的质量;
s′为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数;
所述的判定最佳匹配峰簇CPeak-b是否为精确定位结果具体过程为:当相关值S小于Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配不正确,重复步骤3.2~3.4,再计算候选峰簇与模板峰簇之间的相关值S,直至满足相关值S大于设定的临界值Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配正确,则判定定位成功,此时,对应的CPeak-b即为精确定位的结果;
若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值Scv时,则判定定位失败。
本发明还具有以下技术特征:
具体的,所述的粗校准结果得到最佳匹配峰簇CPeak-b的具体过程为:
步骤3.1,根据粗校准结果,在原始质谱数据中提取模板色谱流图TXIC,候选色谱流图CXIC;
步骤3.2,采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b;
步骤3.3,将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中,得到模板峰簇相关信息TPeak,候选峰簇相关信息CPeak;
所述的峰簇相关信息包括糖肽离子质量、电荷、同位素峰和洗脱时间。
具体的,所述的动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b具体包括以下步骤:
步骤3.2.1,根据公式3-1计算TXIC与CXIC的匹配矩阵D[i,j];
D[i,j]=min(D[i-1,j]+d(i,j),D[i,j-1]+d(i,j),D[i-1,j-1]+2d(i,j)) 公式3-1
其中:
d(i,j)=|TXICi-CXICj|表示TXICi与CXICj的强度值差的绝对值;
i表示模板色谱流图的强度值的序号;
j表示候选色谱流图的强度值的序号;
TXICi表示模板色谱流图的第i个强度值;
CIXCj表示候选色谱流图的第j个强度值;
步骤3.2.2,选取矩阵D[i,j]中TXIC与CXIC的最佳匹配路径,根据最佳匹配路径中TXIC对应的模板峰簇在洗脱时间段内与CXIC对应的匹配峰簇的对应关系,得到最佳匹配峰簇CPeak-b。
具体的,所述的三维信息差异下的多电荷混叠峰簇分离提取方法为:
步骤3.3.1,提取原始质谱数据的离子的在单个时间点的一级离子峰簇,采用公式3-2计算离子的峰间距WP;
WP={Im-In|Im,In∈(I1,...IN)}∩{1/z|z∈{2,3,4,5,6,7}} 公式3-2
其中:
In和Im表示离子峰簇中第n个和第m个峰强度;
m和n表示不同峰的序号;
(I1,I2,...IN)表示该时刻下的一级离子峰簇的强度序列;
N表示峰簇中峰的个数;
Z表示离子可能对应的电荷;
WP表示最后得到的峰间距;
步骤3.3.2,根据步骤3.3.1中得到的峰间距WP,提取离子同位素峰簇C,即完成一级谱图下的重叠峰分离;
步骤3.3.3,提取离子在洗脱时间段内的离子色谱流,完成3-D峰簇构建,并使用三维混合高斯函数完成三维重叠峰分离提取。
具体的,所述的用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型具体包括以下步骤:
步骤2.1,根据重复鉴定离子数据集r-Set,初始化权重种群M,使得种群M中的每一个个体为重复鉴定离子数据集r-Set中数据的一组权重;
步骤2.2,使用公式2-2和公式2-3计算每一个权重个体下原始质谱数据间基于随机扰动的时间加权全局粗校准模型的参数Slope′和offset′,并代价函数公式2-4分别计算种群中每一个权重个体ω的代价;
Figure BDA0002983407800000061
Figure BDA0002983407800000062
Figure BDA0002983407800000063
其中:
Figure BDA0002983407800000064
表示重复鉴定离子数据集r-Set中的第
Figure BDA0002983407800000065
组映射关系;
Figure BDA0002983407800000066
表示权重个体中第
Figure BDA0002983407800000067
组映射关系
Figure BDA0002983407800000068
的权重;
Figure BDA0002983407800000069
表示映射关系的组号,取值范围为
Figure BDA00029834078000000610
Figure BDA00029834078000000611
表示重复鉴定离子数据集r-Set的规模;
步骤2.3,对种群M进行选择、交叉和变异操作,生成子代种群;
步骤2.4,将种群M和子代种群进行合并,生成新的种群,种群大小为2*|M|,
步骤2.5,用随机扰动接受函数计算权重个体的扰动值r,根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体;
步骤2.6重复步骤2.2~2.5的操作,每重复一次,迭代次数G增加1,直到满足迭代次数G大于最大迭代次数g时终止,迭代终止时,种群中代价J的值最小的权重个体对应的参数Slope′和offset′作为原始质谱数据间基于随机扰动的时间加权全局粗校准模型的最佳Slope和offset,此时得到训练好的基于随机扰动的时间加权粗校准模型。
具体的,步骤2.5中计算扰动值r并根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体的具体过程为:
步骤2.5.1,根据每个个体代价J的值从小到大进行排序,选择排序后处于后2/3的权重个体,根据公式2-5对于每一个权重个体进行随机扰动接受函数计算;
Figure BDA0002983407800000071
其中:
K表示初始设定的常数;
Pno表示个体对应排序后的次序;
r表示最终个体计算得到的随机扰动值;
M表示权重种群;
|M|表示权重种群M的规模;
步骤2.5.2,当扰动值r大于计算机生成的在[0,1]之内的随机值时,接受该权重个体作为下一代种群中的一个权重个体;当扰动值r小于计算机生成的在[0,1]之内的随机值时,舍弃该权重个体;
步骤2.5.3,将随机选择出来的权重个体与代价J的值的排序前1/3的数据合并,最终构建大小为|M|的下一代种群。
本发明与现有技术相比,有益的技术效果是:
(Ⅰ)本发明采用三维信息差异的多电荷混叠峰簇分离方法、基于随机扰动的时间加权全局校准模型的粗校准方法和构建峰特征交叉融合公式方式,考虑多种情况下的峰簇重叠情况,在三维信息下,完成混叠峰簇分离提取,得到糖肽离子的完整信息;构建的基于随机扰动的时间加权全局粗校准模型,有效避免了特殊值对全局模型影响,该模型所使用的随机扰动函数有利于模型快速收敛,避免模型陷入局部最小;构建了峰特征交叉融合公式进行相关值计算,得到最佳匹配峰簇,完成峰簇精确定位,解决了现有技术峰簇定位不够精准的问题。
(II)本发明在离子峰簇全局校准方面,构建了基于随机扰动的时间加权粗校准模型,该模型相对于其他方法能够稳定地完成离子峰簇粗校准,减小了特殊值对于全局模型本身的影响,该模型所使用的随机扰动函数,有利于模型快速收敛,避免模型陷入局部最小。
(III)本发明在离子峰簇的精确定位方面,构建了峰特征交叉融合公式,该公式通过融合峰簇自身的多维特征计算峰簇之间的相关值,确定最佳匹配峰簇,完成峰簇精确定位,避免了因为峰簇特征考虑不足,带来的峰簇定位假阳性问题。
附图说明
图1(a)原始质谱数据中的某一个混叠峰簇。
图1(b)为某一洗脱时间下混叠峰簇一级质谱图。
图1(c)为峰簇1在洗脱时间内的三维离子峰簇。
图1(d)为峰簇2在洗脱时间内的三维离子峰簇。
图2(a)为某一仍存在混叠的三维离子峰簇。
图2(b)为混叠的三维离子峰簇的提取结果。
图3(a)为某一质荷比下糖肽离子的色谱流图。
图3(b)为粗校准之后糖肽离子的色谱流图。
图3(c)为精确定位之后的糖肽离子的色谱流图。
图3(d)为模板峰簇,粗校准步骤结果和精确定位结果三者效果对比图。
图4为基于随机扰动的时间加权全局粗校准模型对比结果图。
图5为本发明与现有峰簇定位方法的对比结果图。
以下结合实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
本发明中的相关名词解释:
产出结果率(PR):结果的总数(v)/所有样本数(u),即针对所有的样本,能够有精确定位结果的比例。
真阳率(TPR):正确的个数(TP)/所有样本数(u),即所有样本中精确定位正确的比例。
结果阳性率(PPV):结果正确的个数(TP)/结果的总数(v),即正确定位的样本在有定位结果中的比例
调和平均F1:真阳率和结果阳性率的调和平均值,计算过程为:
Figure BDA0002983407800000091
需要说明的是,本发明中的pGlyco2.0方法现有技术中的常规方法。
需要说明的是,本发明中的⊙是现有技术中一种常规的同或逻辑运算符号。
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例:
本实施例给出了一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行:
步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;
糖肽质谱数据集为多个原始质谱文件;
鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集;
重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;
本实施例中,采用pGlyco2.0方法糖肽质谱数据集进行鉴定,选择两个原始质谱文件进行实验;鉴定数据集是两个质谱文件的鉴定结果数据集。
下表给出本实施例中重复鉴定离子数据集和未匹配离子数据集部分示例。
表1重复鉴定离子数据集关键信息示例
ID GID PID z YN_1 MA_1 RT_1 YN_2 MA_2 RT_2
1 16 ACQFJR 2 Y 1849.73 27.07 Y 1849.73 20.23
2 267 AJATIEVK 3 Y 2614.11 32.28 Y 2614.11 24.69
780 818 AJATIEVK 2 Y 3020.27 29.97 Y 3020.17 22.93
表2未匹配离子数据集关键信息示例
Figure BDA0002983407800000101
Figure BDA0002983407800000111
对表格1和表格2中的关键属性进行介绍如表3:
表3数据集中关键属性解释表
Figure BDA0002983407800000112
Figure BDA0002983407800000121
步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;
原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示:
Ttarget=Slope*Ttemplate+offset 公式2-1
其中:
Ttemplate表示作为模板的原始质谱文件的洗脱时间;
Ttarget表示作为目标的原始质谱文件的洗脱时间;
Slope表示原始质谱文件间的洗脱时间平均变化率;
offset表示原始质谱文件间的洗脱时间偏移;
在本实施例中,以公式2-1中各参数的取值情况如表4所示:
表4公式2-1中各参数的取值说明
Figure BDA0002983407800000122
Figure BDA0002983407800000131
粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值;
在本实施例中,选取图3(a)所示的某一质荷比下糖肽离子的色谱流图,粗校准之后糖肽离子的色谱流图如图3(b)所示;
本实施例中,未匹配离子数据集经过粗校准之后的结果如表5所示:
表5粗校准结果关键属性示例
Figure BDA0002983407800000132
步骤三,根据粗校准结果得到最佳匹配峰簇CPeak-b,采用峰特征交叉融合公式3-3计算模板峰簇和候选峰簇的相关值S,比较相关值S与临界值Scv的大小,判定最佳匹配峰簇CPeak-b是否为精确定位结果:
峰特征交叉融合公式3-3为:
Figure BDA0002983407800000133
f(s′,z1⊙z2,MA1⊙MA2)=s′+(z1⊙z2)+(MA1⊙MA2) 公式3-4
其中:
z1表示模板峰簇对应糖肽离子的电荷;
z2表示候选峰簇对应糖肽离子的电荷;
MA1表示模板峰簇对应糖肽离子的质量;
MA2表示候选峰簇对应糖肽离子的质量;
s′为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数;
在本实施例中,峰特征交叉融合公式的参数的取值情况如表6所示:
临界值Scv取值范围一般为1.7~10,本实施例中设置为2.5。
表6公式3-3与3-4中各参数情况具体说明
Figure BDA0002983407800000141
本实施例中,模板峰簇的同位素峰簇和候选峰簇簇的同位素峰间的皮尔逊相关系数的计算公式如下:
Figure BDA0002983407800000142
其中:
s′表示模板峰簇的同位素峰簇IX和候选峰簇的同位素峰簇IY的间的皮尔逊相关系数;
IX表示模板峰簇的同位素峰簇;
IY表示候选峰簇的同位素峰簇;
Figure BDA0002983407800000151
表示同位素峰簇IX中第
Figure BDA0002983407800000152
个峰强度;
Figure BDA0002983407800000153
表示同位素峰簇IY中第
Figure BDA0002983407800000154
个峰强度;
Figure BDA0002983407800000155
表示同位素峰簇IX中峰的序号;
Figure BDA0002983407800000156
分别同位素峰簇IY中峰的序号;
N″表示同位素峰簇中峰的个数。
判定最佳匹配峰簇CPeak-b是否为精确定位结果具体过程为:当相关值S小于Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配不正确,重复步骤3.2~3.4,再计算候选峰簇与模板峰簇之间的相关值S,直至满足相关值S大于设定的临界值Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配正确,则判定定位成功,此时,对应的CPeak-b即为精确定位的结果;
若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值Scv时,则判定定位失败。
在本实施例中,选取粗校准结果中的第二条数据进行上述步骤,得到最终的精确定位结果如表7所示:
表7最终的精确定位结果
Figure BDA0002983407800000157
Figure BDA0002983407800000161
在本实施例中,精确定位之后的糖肽离子的色谱流图如图3(c)所示。
作为本实施例的一种优选方案,粗校准结果得到最佳匹配峰簇CPeak-b的具体过程为:
步骤3.1,根据粗校准结果,在原始质谱数据中提取模板色谱流图TXIC,候选色谱流图CXIC;
在本实施例中,使用第二条粗校准结果数据得到的TXIC与CXIC的结果如表8所示;
表8根据校准中第二数据得到的TXIC与CXIC
Figure BDA0002983407800000162
步骤3.2,采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b;
在本实施例中,采用动态规划方法得到的最佳匹配峰簇CPeak-b的属性信息如表9所示:
表9 CPeak-b的属性信息
属性 具体值
MA 2417.93
RT 19.88
z 3
步骤3.3,将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中,得到模板峰簇相关信息TPeak,候选峰簇相关信息CPeak;
峰簇相关信息包括糖肽离子质量、电荷、同位素峰和洗脱时间。
作为本实施例的一种优选方案,动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b具体包括以下步骤:
步骤3.2.1,根据公式3-1计算TXIC与CXIC的匹配矩阵D[i,j];
D[i,j]=min(D[i-1,j]+d(i,j),D[i,j-1]+d(i,j),D[i-1,j-1]+2d(i,j)) 公式3-1
其中:
d(i,j)=|TXICi-CXICj|表示TXICi和CXICj的强度值差的绝对值;
i表示模板色谱流图的强度值的序号;
j表示候选色谱流图的强度值的序号;
TXICi表示模板色谱流图的第i个强度值;
CIXCj表示候选色谱流图的第j个强度值;
本实施例中,公式3-1相关参数的取值如表10所示:
表10公式3-1相关参数的取值
Figure BDA0002983407800000171
Figure BDA0002983407800000181
步骤3.2.2,选取矩阵D[i,j]中TXIC与CXIC的最佳匹配路径,根据最佳匹配路径中TXIC对应的模板峰簇在洗脱时间段内与CXIC对应的匹配峰簇的对应关系,得到最佳匹配峰簇CPeak-b。
作为本实施例的一种优选方案,三维信息差异下的多电荷混叠峰簇分离提取方法为:
步骤3.3.1,提取原始质谱数据的离子的在单个时间点的一级离子峰簇,采用公式3-2计算离子的峰间距WP;
WP={Im-In|Im,In∈(I1,...IN)}∩{1/z|z∈{2,3,4,5,6,7}} 公式3-2
其中:
In和Im表示离子峰簇中第n个和第m个峰强度;
m和n表示不同峰的序号;
(I1,I2,...IN)表示该时刻下的一级离子峰簇的强度序列;
N表示峰簇中峰的个数;
Z表示离子可能对应的电荷;
WP表示最后得到的峰间距;
在本实施例中,为了更清楚说明上述过程,选取图1(a)所示的离子混叠峰簇进行分离提取,展示这个过程,在这一步中,公式3-2中的参数的具体取值情况如表11所示:
表11峰间距计算具体参数值表
Figure BDA0002983407800000191
步骤3.3.2,根据步骤3.3.1中得到的峰间距WP,提取离子同位素峰簇C,即完成一级谱图下的重叠峰分离;
步骤3.3.3,提取离子在洗脱时间段内的离子色谱流,完成3-D峰簇构建,并使用三维混合高斯函数完成三维重叠峰分离提取。
在本实施例中,将如图1(a)所示的混叠峰簇经过分离提取,得到三维离子峰簇结果如图1(c)和图1(d)所示。
作为本实施例的一种优选方案,用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型具体包括以下步骤:
步骤2.1,根据重复鉴定离子数据集r-Set,初始化权重种群M,使得种群M中的每一个个体为重复鉴定离子数据集r-Set中数据的一组权重;
在本实施例中,种群M的相关参数设置如表12所示
表12种群M相关参数设置
Figure BDA0002983407800000201
步骤2.2,使用公式2-2和公式2-3计算每一个权重个体下原始质谱数据间基于随机扰动的时间加权全局粗校准模型的参数Slope′和offset′,并代价函数公式2-4分别计算种群中每一个权重个体ω的代价;
Figure BDA0002983407800000202
Figure BDA0002983407800000211
Figure BDA0002983407800000212
其中:
Figure BDA0002983407800000213
表示重复鉴定离子数据集r-Set中的第
Figure BDA0002983407800000214
组映射关系;
Figure BDA0002983407800000215
表示权重个体中第
Figure BDA0002983407800000216
组映射关系
Figure BDA0002983407800000217
的权重;
Figure BDA0002983407800000218
表示映射关系的组号,取值范围为
Figure BDA0002983407800000219
Figure BDA00029834078000002110
表示重复鉴定离子数据集r-Set的规模;
在本实施例中,公式2-2、公式2-3和公式2-4中参数的具体设置如表13所示:
表13参数说明表
Figure BDA00029834078000002111
步骤2.3,对种群M进行选择、交叉和变异操作,生成子代种群;
步骤2.4,将种群M和子代种群进行合并,生成新的种群,种群大小为2*|M|;
步骤2.5,用随机扰动接受函数计算权重个体的扰动值r,根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体;
步骤2.6重复步骤2.2~2.5的操作,每重复一次,迭代次数G增加1,直到满足迭代次数G大于最大迭代次数g时终止,迭代终止时,种群中代价J的值最小的权重个体对应的参数Slope′和offset′作为原始质谱数据间基于随机扰动的时间加权全局粗校准模型的最佳Slope和offset,此时得到训练好的基于随机扰动的时间加权粗校准模型。
最大迭代次数g在一般情况下的取值范围为20~100次,本实施例中设置为50次。
作为本实施例的一种优选方案,步骤2.5中计算扰动值r并根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体的具体过程为:
步骤2.5.1,根据每个个体代价J的值从小到大进行排序,选择排序后处于后2/3的权重个体,根据公式2-5对于每一个权重个体进行随机扰动接受函数计算;
Figure BDA0002983407800000221
其中:
K表示初始设定的常数;
Pno表示个体对应排序后的次序;
r表示最终个体计算得到的随机扰动值;
M表示权重种群;
|M|表示权重种群M的规模;
在本实施例中,计算随机扰动值时,带入的参数的具体取值如表14所示:
表14参数设置表
Figure BDA0002983407800000231
步骤2.5.2,当扰动值r大于计算机生成的在[0,1]之内的随机值时,接受该权重个体作为下一代种群中的一个权重个体;当扰动值r小于计算机生成的在[0,1]之内的随机值时,舍弃该权重个体;
步骤2.5.3,将随机选择出来的权重个体与代价J的值的排序前1/3的数据合并,最终构建大小为|M|的下一代种群。
实测例1:
遵循上述技术方案,本实测例给出一种特征交叉融合的时间序列峰簇精确定位方法,采用上述步骤一至步骤二的过程进行,得到如图4所示,其中横坐标表示粗校准的误差范围,纵坐标表示的是真阳率,图中曲线展示的是在不同误差范围下真阳率的变化情况,从图4中可以看出,随着误差范围增加,本申请的方法真阳率明显高于传统OLS方法。因此,本申请的方法相比于传统方法,整体稳定性更佳。
实测例2:
遵循上述技术方案,本实测例给出一种特征交叉融合的时间序列峰簇精确定位方法,该方法采用上述步骤一至步骤三,本申请的方法Mine与传统的PTW,DTW,SFA-MS方法在四种评价指标上的效果如图5所示,从图中可以看出来,在产出结果率、真阳率、结果阳性率和调和平均这几个评价指标上,本发明都明显优于其他三种方法,并且相较于其他三种中最好的方法,本发明在结果率、真阳率、结果阳性率和调和平均上效果分别提升了0.4%,5.7%,4.3%,5.4%,因此,可以看出本申请的精确定位方法相比于传统方法定位的精确度更高。

Claims (6)

1.一种特征交叉融合的时间序列峰簇精确定位方法,其特征在于,该方法按照以下步骤进行:
步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;
所述的糖肽质谱数据集为多个原始质谱文件;
所述的鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集;
所述的重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;所述的未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;
步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;
所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示:
Ttarget=Slope*Ttemplate+offset 公式2-1
其中:
Ttemplate表示作为模板的原始质谱文件的洗脱时间;
Ttarget表示作为目标的原始质谱文件的洗脱时间;
Slope表示原始质谱文件间的洗脱时间平均变化率;
offset表示原始质谱文件间的洗脱时间偏移;
所述的粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值;
步骤三,根据粗校准结果得到最佳匹配峰簇CPeak-b,采用峰特征交叉融合公式3-3计算模板峰簇和候选峰簇的相关值S,比较相关值S与临界值Scv的大小,判定最佳匹配峰簇CPeak-b是否为精确定位结果:
所述的峰特征交叉融合公式3-3为:
Figure FDA0002983407790000021
f(s′,z1⊙z2,MA1⊙MA2)=s′+(z1⊙z2)+(MA1⊙MA2) 公式3-4
其中:
z1表示模板峰簇对应糖肽离子的电荷;
z2表示候选峰簇对应糖肽离子的电荷;
MA1表示模板峰簇对应糖肽离子的质量;
MA2表示候选峰簇对应糖肽离子的质量;
s′为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数;
所述的判定最佳匹配峰簇CPeak-b是否为精确定位结果具体过程为:当相关值S小于Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配不正确,重复步骤3.2~3.4,再计算候选峰簇与模板峰簇之间的相关值S,直至满足相关值S大于设定的临界值Scv时,则最佳匹配峰簇CPeak-b的正确性为峰簇匹配正确,则判定定位成功,此时,对应的CPeak-b即为精确定位的结果;
若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值Scv时,则判定定位失败。
2.如权利要求1所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的粗校准结果得到最佳匹配峰簇CPeak-b的具体过程为:
步骤3.1,根据粗校准结果,在原始质谱数据中提取模板色谱流图TXIC,候选色谱流图CXIC;
步骤3.2,采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b;
步骤3.3,将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中,得到模板峰簇相关信息TPeak,候选峰簇相关信息CPeak;
所述的峰簇相关信息包括糖肽离子的质量、糖肽离子的电荷、糖肽离子的同位素峰簇和糖肽离子的洗脱时间。
3.如权利要求2所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b具体包括以下步骤:
步骤3.2.1,根据公式3-1计算TXIC与CXIC的匹配矩阵D[i,j];
D[i,j]=min(D[i-1,j]+d(i,j),D[i,j-1]+d(i,j),D[i-1,j-1]+2d(i,j)) 公式3-1
其中:
d(i,j)=|TXICi-CXICj|表示TXICi与CXICj的强度值差的绝对值;
i表示模板色谱流图的强度值的序号;
j表示候选色谱流图的强度值的序号;
TXICi表示模板色谱流图的第i个强度值;
CIXCj表示候选色谱流图的第j个强度值;
步骤3.2.2,选取矩阵D[i,j]中TXIC与CXIC的最佳匹配路径,根据最佳匹配路径中TXIC对应的模板峰簇在洗脱时间段内与CXIC对应的匹配峰簇的对应关系,得到最佳匹配峰簇CPeak-b。
4.如权利要求2所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的三维信息差异下的多电荷混叠峰簇分离提取方法为:
步骤3.3.1,提取原始质谱数据的离子的在单个时间点的一级离子峰簇,采用公式3-2计算离子的峰间距WP;
WP={Im-In|Im,In∈(I1,...IN)}∩{1/z|z∈{2,3,4,5,6,7}} 公式3-2
其中:
In和Im表示离子峰簇中第n个和第m个峰强度;
m和n表示不同峰的序号;
(I1,I2,...IN)表示该时刻下的一级离子峰簇的强度序列;
N表示峰簇中峰的个数;
Z表示离子可能对应的电荷;
WP表示最后得到的峰间距;
步骤3.3.2,根据步骤3.3.1中得到的峰间距WP,提取离子同位素峰簇C,即完成一级谱图下的重叠峰分离;
步骤3.3.3,提取离子在洗脱时间段内的离子色谱流,完成3-D峰簇构建,并使用三维混合高斯函数完成三维重叠峰分离提取。
5.如权利要求1所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的用重复鉴定离子数据集r-Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型具体包括以下步骤:
步骤2.1,根据重复鉴定离子数据集r-Set,初始化权重种群M,使得种群M中的每一个个体为重复鉴定离子数据集r-Set中数据的一组权重;
步骤2.2,使用公式2-2和公式2-3计算每一个权重个体下原始质谱数据间基于随机扰动的时间加权全局粗校准模型的参数Slope′和offset′,并代价函数公式2-4分别计算种群中每一个权重个体ω的代价;
Figure FDA0002983407790000051
Figure FDA0002983407790000052
Figure FDA0002983407790000053
其中:
Figure FDA0002983407790000054
表示重复鉴定离子数据集r-Set中的第
Figure FDA0002983407790000055
组映射关系;
Figure FDA0002983407790000056
表示权重个体中第
Figure FDA0002983407790000057
组映射关系
Figure FDA0002983407790000058
的权重;
Figure FDA0002983407790000059
表示映射关系的组号,取值范围为
Figure FDA00029834077900000510
Figure FDA00029834077900000511
表示重复鉴定离子数据集r-Set的规模;
步骤2.3,对种群M进行选择、交叉和变异操作,生成子代种群;
步骤2.4,将种群M和子代种群进行合并,生成新的种群,种群大小为2*|M|,
步骤2.5,用随机扰动接受函数计算权重个体的扰动值r,根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体;
步骤2.6重复步骤2.2~2.5的操作,每重复一次,迭代次数G增加1,直到满足迭代次数G大于最大迭代次数g时终止,迭代终止时,种群中代价J的值最小的权重个体对应的参数Slope′和offset′作为原始质谱数据间基于随机扰动的时间加权全局粗校准模型的最佳Slope和offset,此时得到训练好的基于随机扰动的时间加权粗校准模型。
6.如权利要求5所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,步骤2.5中计算扰动值r并根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体的具体过程为:
步骤2.5.1,根据每个个体代价J的值从小到大进行排序,选择排序后处于后2/3的权重个体,根据公式2-5对于每一个权重个体进行随机扰动接受函数计算;
Figure FDA0002983407790000061
其中:
K表示初始设定的常数;
Pno表示个体对应排序后的次序;
r表示最终个体计算得到的随机扰动值;
M表示权重种群;
|M|表示权重种群M的规模;
步骤2.5.2,当扰动值r大于计算机生成的在[0,1]之内的随机值时,接受该权重个体作为下一代种群中的一个权重个体;当扰动值r小于计算机生成的在[0,1]之内的随机值时,舍弃该权重个体;
步骤2.5.3,将随机选择出来的权重个体与代价J的值的排序前1/3的数据合并,最终构建大小为|M|的下一代种群。
CN202110293557.9A 2021-03-19 2021-03-19 一种特征交叉融合的时间序列峰簇精确定位方法 Pending CN112908428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110293557.9A CN112908428A (zh) 2021-03-19 2021-03-19 一种特征交叉融合的时间序列峰簇精确定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110293557.9A CN112908428A (zh) 2021-03-19 2021-03-19 一种特征交叉融合的时间序列峰簇精确定位方法

Publications (1)

Publication Number Publication Date
CN112908428A true CN112908428A (zh) 2021-06-04

Family

ID=76105563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110293557.9A Pending CN112908428A (zh) 2021-03-19 2021-03-19 一种特征交叉融合的时间序列峰簇精确定位方法

Country Status (1)

Country Link
CN (1) CN112908428A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088762A1 (en) * 2000-07-20 2004-05-06 Oriedo J. Vincent B. Nucleic acids compositions conferring dwarfing phenotype
EP2484166A1 (en) * 2009-10-02 2012-08-08 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for initial ranging for establishing a time reference for a predefined signature signal
US20180356425A1 (en) * 2015-11-23 2018-12-13 Sun Jet Biotechnology Inc. Method for verifying the primary structure of protein
CN109030489A (zh) * 2018-07-11 2018-12-18 华中科技大学鄂州工业技术研究院 一种气体的格鲁尼森参数测量方法及系统
CN109187724A (zh) * 2018-11-13 2019-01-11 北京理工大学 差动共焦Raman-LIBS-质谱探测的飞秒激光加工监测方法与装置
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法
CN111261229A (zh) * 2020-01-17 2020-06-09 广州基迪奥生物科技有限公司 一种MeRIP-seq高通量测序数据的生物分析流程

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088762A1 (en) * 2000-07-20 2004-05-06 Oriedo J. Vincent B. Nucleic acids compositions conferring dwarfing phenotype
EP2484166A1 (en) * 2009-10-02 2012-08-08 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for initial ranging for establishing a time reference for a predefined signature signal
US20180356425A1 (en) * 2015-11-23 2018-12-13 Sun Jet Biotechnology Inc. Method for verifying the primary structure of protein
CN109781917A (zh) * 2017-11-14 2019-05-21 中国科学院大连化学物理研究所 一种基于分子地图的生物样本智能识别方法
CN109030489A (zh) * 2018-07-11 2018-12-18 华中科技大学鄂州工业技术研究院 一种气体的格鲁尼森参数测量方法及系统
CN109187724A (zh) * 2018-11-13 2019-01-11 北京理工大学 差动共焦Raman-LIBS-质谱探测的飞秒激光加工监测方法与装置
CN111261229A (zh) * 2020-01-17 2020-06-09 广州基迪奥生物科技有限公司 一种MeRIP-seq高通量测序数据的生物分析流程

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TSUNG-HENG TSAI: "Bayesian Alignment Model for LC-MS Data", 《2011 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 *
李玉叶: "三类神经元网络的时空动力学行为研究", 《中国博士学位论文全文数据库》 *

Similar Documents

Publication Publication Date Title
Sim et al. 207 new open star clusters within 1 kpc from Gaia data release 2
CN105243388B (zh) 基于动态时间规整和划分算法的波形分类方法
CN107729721B (zh) 一种代谢物鉴定及紊乱通路分析方法
CN111126471A (zh) 微地震事件检测方法及系统
CN104040561A (zh) 通过质谱术和分数规整识别微生物的方法
US20100100577A1 (en) Methods and systems for analysis of multi-sample, two-dimensional data
CN105447844A (zh) 一种复杂多变量数据的特征选择新方法
Sun et al. An optimized approach on applying genetic algorithm to adaptive cluster validity index
CN105824785A (zh) 基于惩罚回归的快速异常点检测方法
CN112908428A (zh) 一种特征交叉融合的时间序列峰簇精确定位方法
CN106709501A (zh) 一种图像匹配系统的景象匹配区域选择与基准图优化方法
CN116976665A (zh) 一种基于改进topsis模型的风险评估方法
EP3971567A1 (en) Apparatus and method for processing mass spectrum
CN112464804B (zh) 一种基于神经网络框架的肽段信号匹配方法
CN114200048A (zh) Lc-ms下机数据的处理方法及处理装置
WO2021004355A1 (zh) 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
CN114818845A (zh) 一种噪声稳健的高分辨距离像特征选择方法
US10636636B2 (en) Systems and methods for sample comparison and classification
CN113011446A (zh) 一种基于多源异构数据学习的智能目标识别方法
CN103744789B (zh) 一种三维曲面表示的软件错误定位方法
JP7390270B2 (ja) 質量分析システム及び変換式補正方法
Brubaker et al. Updated Measurement of the Top Quark Mass in the Lepton+ Jets Channel
Ciach Algorithms for computational mass spectrometry based on the optimal transport theory
Rottensteiner et al. An empirical isochrone archive for nearby open clusters
Garvin et al. Machine Learning for Exoplanet Detection in High-Contrast Spectroscopy: Revealing Exoplanets by Leveraging Hidden Molecular Signatures in Cross-Correlated Spectra with Convolutional Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230707