CN112908428A

CN112908428A - 一种特征交叉融合的时间序列峰簇精确定位方法

Info

Publication number: CN112908428A
Application number: CN202110293557.9A
Authority: CN
Inventors: 冯筠; 陆柯迪; 孙士生; 胡陟
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-04

Abstract

本发明公开了一种特征交叉融合的时间序列峰簇精确定位方法，该方法按照以下步骤进行，对糖肽质谱数据集进行鉴定，得到鉴定结果数据集；建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型，用重复鉴定离子数据集r‑Set进行模型参数训练，得到基于随机扰动的时间加权粗校准模型；使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准，得到粗校准结果根据粗校准结果得到最佳匹配峰簇CPeak‑b，本发明中的模型所使用的随机扰动函数有利于模型快速收敛，避免模型陷入局部最小；构建了峰特征交叉融合公式进行相关值计算，得到最佳匹配峰簇，完成峰簇精确定位，解决了现有技术峰簇定位不够精准的问题。

Description

一种特征交叉融合的时间序列峰簇精确定位方法

技术领域

本发明属于生物信息/信号处理领域，涉及质谱学中的峰簇精确定位，具体涉及一种特征交叉融合的时间序列峰簇精确定位方法。

背景技术

在质谱数据的分析研究中，通常有气相色谱，液相色谱LC等。这些仪器和方法都能够进行生物质谱分析生成丰富的光谱信息。因此，高质量数据的获取是实际应用的关键，但这一步往往受仪器条件和人工操作变化的影响。为了更好应用数据，必须对数据中由于仪器漂移、温度、压力波动，注入延迟，分离株老化等因素引起的峰簇漂移等问题进行处理。因此在质谱数据的后续分析研究中，首先要解决的问题是针对峰簇漂移的定位算法研究。

针对这个问题，科学界进行了数十年的研究与探讨，针对二维洗脱时间峰簇对准后定位，提出了众多计算方法，例如，动态时间规划算法、相关优化扭曲算法、参数时间扭曲方法、使用减少组映射的峰对齐方法、波束搜索的自动峰值对准方法、模糊扭曲方法、实用简便的峰值对准方法、多尺度峰对齐方法和自动时移算法等，这些算法在解决二维洗脱时间峰簇对准上确实有一定的效果。然而，这些方法都只能够实现峰簇对准后定位，但在具体定位过程都没有考虑峰簇的全部特征，导致最终峰簇定位不够精准。

此外，在离子峰簇的精确定位中，离子峰簇正确定位过程，不仅与色谱图中的洗脱时间相关，与离子本身的特征如电荷，质量，同位素峰型等亦息息相关，而且，在根据实际质谱计算离子信息的过程中发现，离子峰簇还会存在混叠现象。

发明内容

针对现有技术存在的不足，本发明的目的在于，提供一种特征交叉融合的时间序列峰簇精确定位方法，解决现有技术中峰簇的定位不够精准的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

一种特征交叉融合的时间序列峰簇精确定位方法，该方法按照以下步骤进行：

步骤一，对糖肽质谱数据集进行鉴定，得到鉴定结果数据集；

所述的糖肽质谱数据集为多个原始质谱文件；

所述的鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集；

所述的重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成；所述的未匹配离子数据集包括糖肽质量，电荷，二级质谱图编号，糖肽结构编号和肽链组成；

步骤二，建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型，用重复鉴定离子数据集r-Set进行模型参数训练，得到基于随机扰动的时间加权粗校准模型；使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准，得到粗校准结果；

所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示：

T_target＝Slope*T_template+offset 公式2-1

其中：

T_template表示作为模板的原始质谱文件的洗脱时间；

T_target表示作为目标的原始质谱文件的洗脱时间；

Slope表示原始质谱文件间的洗脱时间平均变化率；

offset表示原始质谱文件间的洗脱时间偏移；

所述的粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值；

步骤三，根据粗校准结果得到最佳匹配峰簇CPeak-b，采用峰特征交叉融合公式3-3计算模板峰簇和候选峰簇的相关值S，比较相关值S与临界值S_cv的大小，判定最佳匹配峰簇CPeak-b是否为精确定位结果；

所述的峰特征交叉融合公式3-3为：

f(s′,z₁⊙z₂,MA₁⊙MA₂)＝s′+(z₁⊙z₂)+(MA₁⊙MA₂) 公式3-4

其中：

z₁表示模板峰簇对应糖肽离子的电荷；

z₂表示候选峰簇对应糖肽离子的电荷；

MA₁表示模板峰簇对应糖肽离子的质量；

MA₂表示候选峰簇对应糖肽离子的质量；

s′为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数；

所述的判定最佳匹配峰簇CPeak-b是否为精确定位结果具体过程为：当相关值S小于S_cv时，则最佳匹配峰簇CPeak-b的正确性为峰簇匹配不正确，重复步骤3.2～3.4，再计算候选峰簇与模板峰簇之间的相关值S，直至满足相关值S大于设定的临界值S_cv时，则最佳匹配峰簇CPeak-b的正确性为峰簇匹配正确，则判定定位成功，此时，对应的CPeak-b即为精确定位的结果；

若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值S_cv时，则判定定位失败。

本发明还具有以下技术特征：

具体的，所述的粗校准结果得到最佳匹配峰簇CPeak-b的具体过程为：

步骤3.1，根据粗校准结果，在原始质谱数据中提取模板色谱流图TXIC，候选色谱流图CXIC；

步骤3.2，采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b；

步骤3.3，将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中，得到模板峰簇相关信息TPeak，候选峰簇相关信息CPeak；

所述的峰簇相关信息包括糖肽离子质量、电荷、同位素峰和洗脱时间。

具体的，所述的动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b具体包括以下步骤：

步骤3.2.1，根据公式3-1计算TXIC与CXIC的匹配矩阵D[i,j]；

D[i,j]＝min(D[i-1,j]+d(i,j),D[i,j-1]+d(i,j),D[i-1,j-1]+2d(i,j)) 公式3-1

其中：

d(i,j)＝|TXIC_i-CXIC_j|表示TXIC_i与CXIC_j的强度值差的绝对值；

i表示模板色谱流图的强度值的序号；

j表示候选色谱流图的强度值的序号；

TXIC_i表示模板色谱流图的第i个强度值；

CIXC_j表示候选色谱流图的第j个强度值；

步骤3.2.2，选取矩阵D[i,j]中TXIC与CXIC的最佳匹配路径，根据最佳匹配路径中TXIC对应的模板峰簇在洗脱时间段内与CXIC对应的匹配峰簇的对应关系，得到最佳匹配峰簇CPeak-b。

具体的，所述的三维信息差异下的多电荷混叠峰簇分离提取方法为：

步骤3.3.1，提取原始质谱数据的离子的在单个时间点的一级离子峰簇，采用公式3-2计算离子的峰间距WP；

WP＝{I_m-I_n|I_m,I_n∈(I₁,...I_N)}∩{1/z|z∈{2,3,4,5,6,7}} 公式3-2

其中：

I_n和I_m表示离子峰簇中第n个和第m个峰强度；

m和n表示不同峰的序号；

(I₁,I₂,...I_N)表示该时刻下的一级离子峰簇的强度序列；

N表示峰簇中峰的个数；

Z表示离子可能对应的电荷；

WP表示最后得到的峰间距；

步骤3.3.2，根据步骤3.3.1中得到的峰间距WP，提取离子同位素峰簇C，即完成一级谱图下的重叠峰分离；

步骤3.3.3，提取离子在洗脱时间段内的离子色谱流，完成3-D峰簇构建，并使用三维混合高斯函数完成三维重叠峰分离提取。

具体的，所述的用重复鉴定离子数据集r-Set进行模型参数训练，得到基于随机扰动的时间加权粗校准模型具体包括以下步骤：

步骤2.1，根据重复鉴定离子数据集r-Set，初始化权重种群M，使得种群M中的每一个个体为重复鉴定离子数据集r-Set中数据的一组权重；

步骤2.2，使用公式2-2和公式2-3计算每一个权重个体下原始质谱数据间基于随机扰动的时间加权全局粗校准模型的参数Slope′和offset′，并代价函数公式2-4分别计算种群中每一个权重个体ω的代价；

其中：

表示重复鉴定离子数据集r-Set中的第

组映射关系；

表示权重个体中第

组映射关系

的权重；

表示映射关系的组号，取值范围为

表示重复鉴定离子数据集r-Set的规模；

步骤2.3，对种群M进行选择、交叉和变异操作，生成子代种群；

步骤2.4，将种群M和子代种群进行合并，生成新的种群，种群大小为2*|M|，

步骤2.5，用随机扰动接受函数计算权重个体的扰动值r，根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体；

步骤2.6重复步骤2.2～2.5的操作，每重复一次，迭代次数G增加1，直到满足迭代次数G大于最大迭代次数g时终止，迭代终止时，种群中代价J的值最小的权重个体对应的参数Slope′和offset′作为原始质谱数据间基于随机扰动的时间加权全局粗校准模型的最佳Slope和offset，此时得到训练好的基于随机扰动的时间加权粗校准模型。

具体的，步骤2.5中计算扰动值r并根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体的具体过程为：

步骤2.5.1，根据每个个体代价J的值从小到大进行排序，选择排序后处于后2/3的权重个体，根据公式2-5对于每一个权重个体进行随机扰动接受函数计算；

其中：

K表示初始设定的常数；

P_no表示个体对应排序后的次序；

r表示最终个体计算得到的随机扰动值；

M表示权重种群；

|M|表示权重种群M的规模；

步骤2.5.2，当扰动值r大于计算机生成的在[0,1]之内的随机值时，接受该权重个体作为下一代种群中的一个权重个体；当扰动值r小于计算机生成的在[0,1]之内的随机值时，舍弃该权重个体；

步骤2.5.3，将随机选择出来的权重个体与代价J的值的排序前1/3的数据合并，最终构建大小为|M|的下一代种群。

本发明与现有技术相比，有益的技术效果是：

(Ⅰ)本发明采用三维信息差异的多电荷混叠峰簇分离方法、基于随机扰动的时间加权全局校准模型的粗校准方法和构建峰特征交叉融合公式方式，考虑多种情况下的峰簇重叠情况，在三维信息下，完成混叠峰簇分离提取，得到糖肽离子的完整信息；构建的基于随机扰动的时间加权全局粗校准模型，有效避免了特殊值对全局模型影响，该模型所使用的随机扰动函数有利于模型快速收敛，避免模型陷入局部最小；构建了峰特征交叉融合公式进行相关值计算，得到最佳匹配峰簇，完成峰簇精确定位，解决了现有技术峰簇定位不够精准的问题。

(II)本发明在离子峰簇全局校准方面，构建了基于随机扰动的时间加权粗校准模型，该模型相对于其他方法能够稳定地完成离子峰簇粗校准，减小了特殊值对于全局模型本身的影响，该模型所使用的随机扰动函数，有利于模型快速收敛，避免模型陷入局部最小。

(III)本发明在离子峰簇的精确定位方面，构建了峰特征交叉融合公式，该公式通过融合峰簇自身的多维特征计算峰簇之间的相关值，确定最佳匹配峰簇，完成峰簇精确定位，避免了因为峰簇特征考虑不足，带来的峰簇定位假阳性问题。

附图说明

图1(a)原始质谱数据中的某一个混叠峰簇。

图1(b)为某一洗脱时间下混叠峰簇一级质谱图。

图1(c)为峰簇1在洗脱时间内的三维离子峰簇。

图1(d)为峰簇2在洗脱时间内的三维离子峰簇。

图2(a)为某一仍存在混叠的三维离子峰簇。

图2(b)为混叠的三维离子峰簇的提取结果。

图3(a)为某一质荷比下糖肽离子的色谱流图。

图3(b)为粗校准之后糖肽离子的色谱流图。

图3(c)为精确定位之后的糖肽离子的色谱流图。

图3(d)为模板峰簇，粗校准步骤结果和精确定位结果三者效果对比图。

图4为基于随机扰动的时间加权全局粗校准模型对比结果图。

图5为本发明与现有峰簇定位方法的对比结果图。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

本发明中的相关名词解释：

产出结果率(PR)：结果的总数(v)/所有样本数(u)，即针对所有的样本，能够有精确定位结果的比例。

真阳率(TPR)：正确的个数(TP)/所有样本数(u)，即所有样本中精确定位正确的比例。

结果阳性率(PPV)：结果正确的个数(TP)/结果的总数(v)，即正确定位的样本在有定位结果中的比例

调和平均F1：真阳率和结果阳性率的调和平均值，计算过程为：

需要说明的是，本发明中的pGlyco2.0方法现有技术中的常规方法。

需要说明的是，本发明中的⊙是现有技术中一种常规的同或逻辑运算符号。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例：

本实施例给出了一种特征交叉融合的时间序列峰簇精确定位方法，该方法按照以下步骤进行：

糖肽质谱数据集为多个原始质谱文件；

鉴定结果数据集包括重复鉴定离子数据集r-Set和未匹配离子数据集；

重复鉴定离子数据集r-Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成；未匹配离子数据集包括糖肽质量，电荷，二级质谱图编号，糖肽结构编号和肽链组成；

本实施例中，采用pGlyco2.0方法糖肽质谱数据集进行鉴定，选择两个原始质谱文件进行实验；鉴定数据集是两个质谱文件的鉴定结果数据集。

下表给出本实施例中重复鉴定离子数据集和未匹配离子数据集部分示例。

表1重复鉴定离子数据集关键信息示例

ID	GID	PID	z	YN_1	MA_1	RT_1	YN_2	MA_2	RT_2
										1	16	ACQFJR	2	Y	1849.73	27.07	Y	1849.73	20.23
2	267	AJATIEVK	3	Y	2614.11	32.28	Y	2614.11	24.69
										…	…	…	…	…	…	…	…	…	…
780	818	AJATIEVK	2	Y	3020.27	29.97	Y	3020.17	22.93

表2未匹配离子数据集关键信息示例

对表格1和表格2中的关键属性进行介绍如表3：

表3数据集中关键属性解释表

原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2-1所示：

T_target＝Slope*T_template+offset 公式2-1

其中：

T_template表示作为模板的原始质谱文件的洗脱时间；

T_target表示作为目标的原始质谱文件的洗脱时间；

Slope表示原始质谱文件间的洗脱时间平均变化率；

offset表示原始质谱文件间的洗脱时间偏移；

在本实施例中，以公式2-1中各参数的取值情况如表4所示：

表4公式2-1中各参数的取值说明

粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值；

在本实施例中，选取图3(a)所示的某一质荷比下糖肽离子的色谱流图，粗校准之后糖肽离子的色谱流图如图3(b)所示；

本实施例中，未匹配离子数据集经过粗校准之后的结果如表5所示：

表5粗校准结果关键属性示例

步骤三，根据粗校准结果得到最佳匹配峰簇CPeak-b，采用峰特征交叉融合公式3-3计算模板峰簇和候选峰簇的相关值S，比较相关值S与临界值S_cv的大小，判定最佳匹配峰簇CPeak-b是否为精确定位结果：

峰特征交叉融合公式3-3为：

其中：

z₁表示模板峰簇对应糖肽离子的电荷；

z₂表示候选峰簇对应糖肽离子的电荷；

MA₁表示模板峰簇对应糖肽离子的质量；

MA₂表示候选峰簇对应糖肽离子的质量；

在本实施例中，峰特征交叉融合公式的参数的取值情况如表6所示：

临界值S_cv取值范围一般为1.7～10，本实施例中设置为2.5。

表6公式3-3与3-4中各参数情况具体说明

本实施例中，模板峰簇的同位素峰簇和候选峰簇簇的同位素峰间的皮尔逊相关系数的计算公式如下：

其中：

s′表示模板峰簇的同位素峰簇IX和候选峰簇的同位素峰簇IY的间的皮尔逊相关系数；

IX表示模板峰簇的同位素峰簇；

IY表示候选峰簇的同位素峰簇；

表示同位素峰簇IX中第

个峰强度；

表示同位素峰簇IY中第

个峰强度；

表示同位素峰簇IX中峰的序号；

分别同位素峰簇IY中峰的序号；

N″表示同位素峰簇中峰的个数。

判定最佳匹配峰簇CPeak-b是否为精确定位结果具体过程为：当相关值S小于S_cv时，则最佳匹配峰簇CPeak-b的正确性为峰簇匹配不正确，重复步骤3.2～3.4，再计算候选峰簇与模板峰簇之间的相关值S，直至满足相关值S大于设定的临界值S_cv时，则最佳匹配峰簇CPeak-b的正确性为峰簇匹配正确，则判定定位成功，此时，对应的CPeak-b即为精确定位的结果；

在本实施例中，选取粗校准结果中的第二条数据进行上述步骤，得到最终的精确定位结果如表7所示：

表7最终的精确定位结果

在本实施例中，精确定位之后的糖肽离子的色谱流图如图3(c)所示。

作为本实施例的一种优选方案，粗校准结果得到最佳匹配峰簇CPeak-b的具体过程为：

在本实施例中，使用第二条粗校准结果数据得到的TXIC与CXIC的结果如表8所示；

表8根据校准中第二数据得到的TXIC与CXIC

在本实施例中，采用动态规划方法得到的最佳匹配峰簇CPeak-b的属性信息如表9所示：

表9 CPeak-b的属性信息

属性	具体值
		MA	2417.93
RT	19.88
		z	3

峰簇相关信息包括糖肽离子质量、电荷、同位素峰和洗脱时间。

作为本实施例的一种优选方案，动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak-b具体包括以下步骤：

步骤3.2.1，根据公式3-1计算TXIC与CXIC的匹配矩阵D[i,j]；

D[i,j]＝min(D[i-1,j]+d(i,j),D[i,j-1]+d(i,j),D[i-1,j-1]+2d(i,j)) 公式3-1

其中：

d(i,j)＝|TXIC_i-CXIC_j|表示TXIC_i和CXIC_j的强度值差的绝对值；

i表示模板色谱流图的强度值的序号；

j表示候选色谱流图的强度值的序号；

TXIC_i表示模板色谱流图的第i个强度值；

CIXC_j表示候选色谱流图的第j个强度值；

本实施例中，公式3-1相关参数的取值如表10所示：

表10公式3-1相关参数的取值

作为本实施例的一种优选方案，三维信息差异下的多电荷混叠峰簇分离提取方法为：

WP＝{I_m-I_n|I_m,I_n∈(I₁,...I_N)}∩{1/z|z∈{2,3,4,5,6,7}} 公式3-2

其中：

I_n和I_m表示离子峰簇中第n个和第m个峰强度；

m和n表示不同峰的序号；

(I₁,I₂,...I_N)表示该时刻下的一级离子峰簇的强度序列；

N表示峰簇中峰的个数；

Z表示离子可能对应的电荷；

WP表示最后得到的峰间距；

在本实施例中，为了更清楚说明上述过程，选取图1(a)所示的离子混叠峰簇进行分离提取，展示这个过程，在这一步中，公式3-2中的参数的具体取值情况如表11所示：

表11峰间距计算具体参数值表

在本实施例中，将如图1(a)所示的混叠峰簇经过分离提取，得到三维离子峰簇结果如图1(c)和图1(d)所示。

作为本实施例的一种优选方案，用重复鉴定离子数据集r-Set进行模型参数训练，得到基于随机扰动的时间加权粗校准模型具体包括以下步骤：

在本实施例中，种群M的相关参数设置如表12所示

表12种群M相关参数设置

其中：

表示重复鉴定离子数据集r-Set中的第

组映射关系；

表示权重个体中第

组映射关系

的权重；

表示映射关系的组号，取值范围为

表示重复鉴定离子数据集r-Set的规模；

在本实施例中，公式2-2、公式2-3和公式2-4中参数的具体设置如表13所示：

表13参数说明表

步骤2.4，将种群M和子代种群进行合并，生成新的种群，种群大小为2*|M|；

最大迭代次数g在一般情况下的取值范围为20～100次，本实施例中设置为50次。

作为本实施例的一种优选方案，步骤2.5中计算扰动值r并根据扰动值r判断是否接受该权重个体为下一代种群中的权重个体的具体过程为：

其中：

K表示初始设定的常数；

P_no表示个体对应排序后的次序；

r表示最终个体计算得到的随机扰动值；

M表示权重种群；

|M|表示权重种群M的规模；

在本实施例中，计算随机扰动值时，带入的参数的具体取值如表14所示：

表14参数设置表

实测例1：

遵循上述技术方案，本实测例给出一种特征交叉融合的时间序列峰簇精确定位方法，采用上述步骤一至步骤二的过程进行，得到如图4所示，其中横坐标表示粗校准的误差范围，纵坐标表示的是真阳率，图中曲线展示的是在不同误差范围下真阳率的变化情况，从图4中可以看出，随着误差范围增加，本申请的方法真阳率明显高于传统OLS方法。因此，本申请的方法相比于传统方法，整体稳定性更佳。

实测例2：

遵循上述技术方案，本实测例给出一种特征交叉融合的时间序列峰簇精确定位方法，该方法采用上述步骤一至步骤三，本申请的方法Mine与传统的PTW，DTW，SFA-MS方法在四种评价指标上的效果如图5所示，从图中可以看出来，在产出结果率、真阳率、结果阳性率和调和平均这几个评价指标上，本发明都明显优于其他三种方法，并且相较于其他三种中最好的方法，本发明在结果率、真阳率、结果阳性率和调和平均上效果分别提升了0.4％，5.7％，4.3％，5.4％，因此，可以看出本申请的精确定位方法相比于传统方法定位的精确度更高。