CN114639445A

CN114639445A - 一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法及其应用

Info

Publication number: CN114639445A
Application number: CN202210150460.7A
Authority: CN
Inventors: 徐巨才; 刘万顺; 陈雅君; 梁姚顺; 严嘉慧; 郭素琴; 黄峻洪; 范丽琪; 黄其丽
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-06-17
Anticipated expiration: 2042-02-18
Also published as: CN114639445B

Abstract

本发明公开了一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法。该方法包括以下步骤：对样品的质谱检测数据中的各离子进行离子标准化，并进行过滤；针对样品所属的蛋白质序列库中的待检索序列逐一建立待检索多肽序列库，并逐一鉴定待检索多肽序列库中的序列，得到候选鉴定多肽，对候选鉴定多肽进行评分，得到鉴定结果。该多肽组学鉴定方法简单，鉴定效率高，大大降低了分析过程对电脑硬件的要求，有利于实现计算机的多核心并行处理，可同时提供多个候选鉴定多肽供分析者选择，适用于分析食品蛋白质酶解产物、生物医学样本(如血液、体液等)等的多肽组学结果。

Description

一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法及其应用

技术领域

本发明涉及蛋白质二级质谱鉴定领域，特别涉及一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法及其应用。

背景技术

生物活性多肽因其突出的安全性、营养性和功能特性，备受科研学者、生产企业和消费者的青睐。目前，市场上涌现了一大批功能性多肽产品，如降尿酸多肽、改善记忆肽、弹性蛋白肽、大豆肽等，受到广大消费者的喜爱和追捧。但这些多肽产品大多为食源性蛋白质的酶促水解产物，是由成千上万种多肽组成的复杂混合物，而非单一多肽。

由于食源性蛋白酶大多作用位点广泛，故酶解产物中短肽的组成占比相对较高。明晰食源性蛋白质酶解产物中多肽的组成对于揭露酶解过程中多肽的释放规律，并进一步指导酶解产物中目标活性多肽的靶向释放具有重要意义。目前，多肽组学分析大多借鉴于蛋白质组学分析的方法与工具，如Mascot、Maxquant、Sequest等。这些方法和工具由于缺乏对多肽组学分析的专业性适配支持，在进行食源性多肽鉴定，尤其是短肽鉴定时，常表现出一定的不足。其中，Mascot无法鉴定长度小于6的短肽；Maxquant在进行非特异酶解产物的多肽鉴定时，耗时极长，可长达数月；Sequest由于自身限制，无法鉴定长度小于4的短肽，且可供筛选分析的短肽鉴定结果较少。

因此，亟需提供一种适用于分析短肽的多肽组学分析工具。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法，可同时鉴定长肽和短肽，该方法简单，鉴定效率高，大大降低了分析过程对电脑硬件的要求，有利于实现计算机的多核心并行处理，可同时提供多个候选鉴定多肽供分析者选择，适用于分析食品蛋白质酶解产物、生物医学样本(如血液、体液等)等的多肽组学结果。

本发明的第一个方面，提供一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法，包括以下步骤：

(1)对样品的质谱检测数据中的各离子进行离子标准化，并根据一级母离子信号响应强度和二级子离子覆盖率对所述样品的质谱检测数据进行过滤，得到各待鉴定物质集合C2；

(2)从所述样品所属的蛋白质序列库中获取一条待检索序列，并进行模拟酶解，建立待检索多肽序列库；

(3)对步骤(2)中的所述待检索多肽序列库中的序列进行鉴定，得到候选鉴定多肽；

(4)重复步骤(2)-(3)，直至所述蛋白质序列库中的待检索序列均已完成检索；

(5)对所述候选鉴定多肽进行评分，得到鉴定结果；

步骤(3)中，所述鉴定的具体步骤为：

S1：从所述待检索多肽序列库中，获取一条待检索多肽片段；

S2：获取在所述各待鉴定物质集合C2中，与所述待检索多肽片段的一级离子质荷比偏差绝对值小于一级离子质荷比偏差阈值的各物质的集合F1，检查所述集合F1是否为空；

若所述集合F1为空，则标记该待检索多肽片段为已检索；

若所述集合F1不为空，则根据子离子匹配率对所述集合F1进行筛选，得到与所述待检索多肽片段所匹配的待鉴定物质，标记所述待检索多肽片段为所述匹配的待鉴定物质的候选鉴定多肽，并标记所述待检索多肽片段为已检索；

S3：重复步骤S1-S2，直至所述待检索多肽序列库中的待检索多肽片段全部被标记为已检索。

在本发明的一些实施方式中，步骤(1)中，所述对样品的质谱检测数据中的各离子进行离子标准化的具体步骤是：将所述质谱检测数据中的多电荷离子和未标识电荷的离子换算为成带单位正电荷的离子。

在本发明的一些实施方式中，步骤(1)中，所述对样品的质谱检测数据中的各离子进行离子标准化的具体步骤是：将所述质谱检测数据中的多电荷离子和未标识电荷的离子通过质荷比计算转换成带单位正电荷的离子。

在本发明的一些实施方式中，步骤(1)中，根据一级母离子信号响应强度和二级子离子覆盖率对样品的质谱检测数据进行过滤具体包括以下步骤：

S11：去除一级母离子质谱图中一级母离子信号响应强度低于一级母离子信号响应强度阈值的物质，得到各待鉴定物质集合C1；

S12：针对所述集合C1中各物质对应的子离子，去除二级子离子质谱图中二级子离子覆盖率低于二级子离子覆盖率阈值的物质，得到各待鉴定物质集合C2。

在本发明的一些实施方式中，所述步骤S11中，所述一级母离子信号响应强度阈值为用于多肽组学检测的仪器的背景噪音的3倍。

在本发明的一些实施方式中，所述步骤S11中，所述一级母离子信号响应强度阈值为用于多肽组学检测的仪器的背景噪音的5倍。

在本发明的一些实施方式中，所述步骤S11中，所述一级母离子信号响应强度阈值为用于多肽组学检测的仪器的背景噪音的100倍。可以理解的是，本领域技术人员可以按需调整一级母离子信号响应强度阈值。一级母离子信号响应强度阈值为用于多肽组学检测的仪器的背景噪音的3倍以上的任意值。

在本发明的一些实施方式中，所述步骤S12中，所述二级子离子覆盖率阈值的范围为20％-100％。

在本发明的一些实施方式中，所述步骤S12中，所述二级子离子覆盖率阈值的范围为30％-70％。

在本发明的一些实施方式中，所述步骤S12中，所述二级子离子覆盖率阈值为30％。

在本发明的一些实施方式中，所述步骤S12中，所述二级子离子覆盖率阈值为70％。

在本发明的一些实施方式中，步骤(2)中，建立待检索多肽序列库的具体步骤是：

S111：根据预设的蛋白酶确定酶切位点，在所述待检索序列的任意1或2个所述酶切位点进行断裂，收集形成的所有多肽片段，得到多肽片段集合D1；

S112：去除所述集合D1中的重复多肽片段，得到多肽片段集合D2；

S113：根据预设的待检索多肽片段长度范围对所述集合D2进行过滤，得到待检索多肽序列库。

在本发明的一些实施方式中，所述步骤S3中，根据预设的待检索多肽片段长度范围对所述集合D2进行过滤的具体步骤为：去除不在预设的待检索多肽片段长度范围内的多肽片段。

在本发明的一些实施方式中，所述步骤(2)中，建立待检索多肽库时，去除标记为已检索的多肽片段。

在本发明的一些实施方式中，所述预设的待检索多肽片段长度范围为2-100。

在本发明的一些实施方式中，所述预设的待检索多肽片段长度范围为2-30。

在本发明的一些实施方式中，所述预设的待检索多肽片段长度范围为2-15。

在本发明的一些实施方式中，高分辨质谱的一级离子质荷比偏差阈值的范围为0-80ppm或0-0.02Da。

在本发明的一些实施方式中，高分辨质谱的一级离子质荷比偏差阈值的范围为0-40ppm或0-0.01Da。

在本发明的一些实施方式中，高分辨质谱的一级离子质荷比偏差阈值的范围为0-20ppm或0-0.005Da。

在本发明的一些实施方式中，低分辨质谱的一级离子质荷比偏差阈值的范围为0-0.8Da。

在本发明的一些实施方式中，低分辨质谱的一级离子质荷比偏差阈值的范围为0-0.5Da。

在本发明的一些实施方式中，低分辨质谱的一级离子质荷比偏差阈值的范围为0-0.25Da。

在本发明的一些实施方式中，高分辨质谱的二级离子质荷比偏差阈值的范围为0-0.05Da。

在本发明的一些实施方式中，高分辨质谱的二级离子质荷比偏差阈值的范围为0-0.02Da。

在本发明的一些实施方式中，低分辨质谱的二级离子质荷比偏差阈值的范围为0-4Da。

在本发明的一些实施方式中，低分辨质谱的二级离子质荷比偏差阈值的范围为0-2Da。

在本发明的一些实施方式中，低分辨质谱的二级离子质荷比偏差阈值的范围为0-1Da。

在本发明的一些实施方式中，所述步骤S2中，根据子离子匹配率对集合F1进行筛选的筛选标准为：子离子匹配率小于子离子匹配率阈值。

在本发明的一些实施方式中，所述步骤S2中，所述子离子匹配率的的计算方法为：在一定质荷比偏差范围内，所述待检索多肽片段的理论二级离子簇质荷比集合中的各离子可在所匹配的待鉴定物质的二级离子谱图中实现匹配的数量与待检索多肽片段残基数量的百分比。

在本发明的一些实施方式中，所述子离子匹配率的的计算方法中，所述待检索多肽片段的理论二级离子簇质荷比集合中的各离子可在所匹配的待鉴定物质的二级离子谱图中实现匹配的判断标准为：待检索多肽片段与所匹配的待鉴定物质的二级离子质荷比偏差绝对值小于二级离子质荷比偏差阈值，则判断为匹配。

在本发明的一些实施方式中，所述预设的离子簇类型包括a离子簇、b离子簇和y离子簇。

在本发明的一些实施方式中，所述子离子匹配率阈值的范围为10％-100％。

在本发明的一些实施方式中，所述子离子匹配率阈值的范围为20％-100％。

在本发明的一些实施方式中，所述子离子匹配率阈值为30％。

在本发明的一些实施方式中，步骤(5)中，所述评分的方法具体如下：

式中，S为候选鉴定多肽，MS₁为一级母离子质谱图，MS₂为二级子离子质谱图，m为所述候选鉴定多肽S的氨基酸残基数量，Pr(S|MS₁,MS₂)为所述候选鉴定多肽S的评分值，P(MS₁,MS₂|S)为所述候选鉴定多肽S的子离子匹配率，P(S)为所述候选鉴定多肽S在蛋白质序列库中出现的概率，P(MS₁,MS₂)为1，A代指氨基酸残基，

为氨基酸残基平均概率

的m次幂；

P(A_i|A₁,A₂…A_i-1)＝C(A₁,A₂…A_i)/C(A₁,A₂…A_i-1)；

P(A_i|A_i-n+1,A_i-n+2…A_i-n+n-1)＝C(A_i-n+1,A_i-n+2…A_i-n+n-1,A_i)/C(A_i-n+1,A_i-n+2…A_i-n+n-1)；

其中，n为预设窗宽，A_i为候选鉴定多肽S的氨基酸序列中的第i位氨基酸残基(即候选鉴定多肽S的氨基酸序列为A₁A₂A₃…A_m)，C指残基片段频次库中显示的相应氨基酸残基片段出现的频次；

所述残基片段频次库基于所述样品所属的蛋白质序列库建立。

在本发明的一些实施方式中，所述预设窗宽n为2-50中的任意整数。当然，本领域技术人员也可以按需调整n，一般设置为2-10中的任意整数，且n小于或等于预设的残基片段长度范围的上限。预设窗宽n与候选鉴定多肽在残基片段频次库的出现概率的准确性有关，预设窗宽n越长，准确性越高。

在本发明的一些实施方式中，步骤(5)还包括对所述鉴定结果进行质量控制，所述质量控制的步骤具体为：去除评分值小于评分值阈值的候选鉴定多肽。

在本发明的一些实施方式中，步骤(1)中，所述建立残基片段频次库的具体步骤是：在所述蛋白质序列库中，对各序列中的在预设的残基片段长度范围内的非重复性残基片段进行频次统计。

在本发明的一些实施方式中，所述残基片段长度范围为1-10。

在本发明的一些实施方式中，所述残基片段长度范围为1-6。

在本发明的一些实施方式中，所述残基片段长度范围的上限不小于所述预设窗宽n。

在本发明的一些实施方式中，所述评分值阈值为20分。

在本发明的一些实施方式中，所述评分值阈值为36分。

上述评分值为相对评分值。根据候选鉴定多肽在残基片段频次库中的频次不同和相应子离子覆盖率的不同，不同候选鉴定多肽的评分值不一样。评分值可达100以上。对于同一待鉴定多肽，一般来说，其候选鉴定多肽的评分值越高，鉴定结果越可信。通常，科研人员比较接受评分值在36分以上的鉴定结果。当然，本领域技术人员也可以根据分析需求和分析结果对评分值阈值进行调整。

鉴定结果中，对于同一待鉴定多肽的多个候选鉴定多肽，一般认为评分值最高的候选鉴定多肽为最终鉴定结果。当然，本领域技术人员可以根据样品性质和经验进一步分析鉴定结果，选择评分值较低的候选鉴定多肽作为鉴定结果。

本发明的第二方面，提供本发明第一方面的基于贝叶斯评价和序列搜库的多肽组学鉴定方法在多肽组学鉴定中的应用。

本发明的有益效果是：

本发明提供了一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法。该方法可用于分析样本的蛋白质来源及酶解过程中，多肽的释放规律，进而为靶向多肽组制备提供理论和实践指导。该方法适用于分析食品蛋白质酶解产物、生物医学样本(如血液、体液等)等的多肽组学检测结果。

在数据标准化过程中，该方法将所有多电荷离子和未标识电荷的离子数据均转换为带单位正电荷的离子，简化了鉴定过程，提高了鉴定效率；在前期数据过滤中，该方法基于一级母离子信号响应强度和二级子离子覆盖率充分过滤样本原始数据中不合格的物质谱图，大大减轻了后期鉴定的工作量。

该方法使用循环鉴定方法，从蛋白序列库中逐一获取序列，并逐一获取序列中符合要求的多肽片段进行匹配处理，避免了一次性加载大型蛋白数据库或一次性生成大型多肽片段库的需要，大大降低了分析过程对电脑硬件的要求，有利于实现计算机的多核心并行处理，大大提升了效率。

该方法采用的评分方法可根据序列库中残基片段出现的频率给出最大可能的多肽鉴定结果，同时，还可实现多肽长度(氨基酸残基数量)超过1以上任意长度多肽的鉴定处理，不存在短肽歧视的问题，可同时鉴定短肽和长肽。并且，该方法可同时提供多个候选鉴定多肽供分析者选择，提供足够的灵活度，简化了分析人员的负担，提升了分析效率。

附图说明

图1为本发明基于贝叶斯评价和序列搜库的多肽组学鉴定方法流程图。

图2为本发明实施例1提供的方法对谷胱甘肽标准品的质谱检测数据的鉴定结果(a1和a2为a离子簇离子；b1、b2、b3离子为b离子簇离子；y2和y3为y离子簇离子)。

图3为本发明实施例2提供的方法对大豆蛋白的酶解产物的鉴定结果。

图4为本发明对比例1中的方法对大豆蛋白的酶解产物的鉴定结果。

图5为本发明实施例2和对比例1中的方法的单条多肽平均鉴定耗时长的比较图。

具体实施方式

为了让本领域技术人员更加清楚明白本发明所述技术方案，现列举以下实施例进行说明。需要指出的是，以下实施例对本发明要求的保护范围不构成限制作用。

下述实施例和对比例中所用液质联用仪为Acquity UPLC I-class(美国Waters)-ESI-Q-TOF(德国bruker)，流动相A为乙腈，流动相B为0.1％甲酸水(体积分数)，梯度洗脱程序为：在0-60min时，流动相B的体积分数由95％变为60％；在60-64min时，流动相B的体积分数由60％变为95％；在64-70min时，流动相B的体积分数保持95％；色谱柱为1.0mm×100mmHSS T3(1.8μm，

美国Waters)，进样量1μL，流速为0.05mL/min，柱温为40℃。质谱ESI-Q-TOF工作于正离子扫描模式下，针对前4个母离子采取自动二级检测，质谱检测范围为50-1200m/z，分析时的采集频率为10Hz。

一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法

本实施例提供了一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法。参见图1所示，该多肽组学鉴定方法包括以下步骤：

(1)获取样品所属的蛋白质序列库和样品中各物质的质谱检测数据(包括一级母离子质谱图和二级子离子质谱图)。

(2)对步骤(1)中的样品所属的蛋白质序列库中，各序列中的在预设的残基片段长度范围内的非重复性残基片段进行频次统计，建立残基片段频次库(简称频次库)。

其中，残基片段频次范围为1-6。本领域技术人员可以根据实际需求对残基片段频次范围进行调整，如将残基片段频次范围调整为1-3。

(3)获取一级母离子质谱图和二级子离子质谱图中各离子的电荷信息，并对上述离子进行离子标准化。

其中，离子标准化具体是指将质谱检测数据中的多电荷离子通过质荷比计算转换成带单位正电荷的离子。未知电荷离子默认为单电荷离子。计算转换过程举例如下：

将带z个正电荷，质荷比实际测量值为X的物质转换为带单位正电荷的离子，其转换后所得的带单位正电荷离子的质荷比为(X×z-z×H+H)/1，其中H为单位正电荷氢离子摩尔质量。

(4)根据一级母离子信号响应强度对样品中各物质进行过滤，仅保留一级母离子信号响应强度高于一级母离子信号响应强度阈值的物质，得到各待鉴定物质集合C1(简称集合C1)。

其中，一级母离子信号响应强度阈值为用于多肽组学检测的仪器的背景噪音的3倍及以上。当然，本领域技术人员可以根据实际需求对一级母离子信号响应强度阈值进行调整，如将一级母离子信号响应强度阈值调整为多肽组学检测的仪器的背景噪音的5倍甚至50倍。

(5)根据二级子离子覆盖率对各待鉴定物质集合C1中的物质进行过滤，仅保留二级子离子覆盖率高于二级子离子覆盖率阈值的物质，得到各待鉴定物质集合C2(简称集合C2)。从样品中各物质的质谱检测数据中获取待鉴定物质的子离子数量。

其中，二级子离子覆盖率＝待鉴定物质的子离子数量/母离子预估残基数量×100％；

母离子预估残基数量为单电荷母离子质荷比与氨基酸残基平均相对分子质量(即110)的比值，该比值向下取整。二级子离子覆盖率阈值的范围为20％-100％。

(6)从蛋白序列库中任意获取一条待检索序列X，并进行模拟酶解，得到待检索多肽序列库。

其中，进行模拟酶解，得到待检索多肽序列库的具体步骤如下：

1)根据预设的蛋白酶确定酶切位点，在所述待检索序列X的任意1或2个所述酶切位点进行断裂，收集形成的所有多肽片段，得到多肽片段集合D1(简称集合D1)。

例如：待检索序列X为LNKVDENGTPKPSSLGRALY，预设的蛋白酶为胰蛋白酶，则其酶切位点为赖氨酸(K)和精氨酸(R)的羧基端，待检索序列X中的赖氨酸羧基端和精氨酸羧基端均为酶切位点，那么，集合D1中含有多肽片段“LNK”、“LNKVDENGTPK”、“LNKVDENGTPKPSSLGR”、“ALY”、“VDENGTPK、“VDENGTPKPSSLGR”、“VDENGTPKPSSLGRALY”、“PSSLGR”和“PSSLGRALY”。

若预设的蛋白酶为广谱性酶，则多肽序列中所有氨基酸残基均为酶切位点。

2)去除集合D1中的重复多肽片段，得到多肽片段集合D2(简称集合D2)。

3)去除集合D2中多肽长度不在预设的待检索多肽片段长度范围内的多肽片段，得到多肽片段集合D3，即为待检索多肽序列库。其中，预设的待检索多肽片段长度范围为2-100。

例如：预设的待检索多肽片段长度范围为2-10，那么，上述集合D1中的多肽片段“LNKVDENGTPK”、“LNKVDENGTPKPSSLGR”、“VDENGTPKPSSLGR”、“VDENGTPKPSSLGRALY”需去除，得到的待检索多肽序列库中含有待检索多肽片段“LNK”、“ALY”、“VDENGTPK”、“PSSLGR”和“PSSLGRALY”。

若预设的蛋白酶为广谱性酶，则在预设的待检索多肽片段长度范围内的任意多肽片段均为待检索多肽片段。

(7)从步骤(6)得到的待检索多肽序列库中，获取一条待检索多肽片段P。

(8)计算步骤(7)获取的待检索多肽片段P的理论一级离子质荷比MH+Tre，计算一级离子质荷比偏差绝对值(一级离子质荷比偏差绝对值为待检索多肽片段P的理论一级离子质荷比与样品中各物质的实际一级母离子质荷比之差的绝对值)，获取集合C2中一级离子质荷比偏差小于一级离子质荷比偏差阈值的各物质的集合F1，检查集合F1是否为空；

若集合F1为空，则标记该待检索多肽片段P为已检索；

若集合F1不为空，则根据预设的离子簇类型计算该待检索多肽片段P的理论二级离子簇质荷比集合T，将其与集合F1中各物质的实际二级离子谱进行比较，计算子离子匹配率(R_M，简称匹配率)，标记子离子匹配率小于子离子匹配率阈值的待检索多肽片段为所匹配物质的候选鉴定多肽，同时标记该待检索多肽片段P为已检索。

本步骤中的离子簇类型主要包括a离子簇、b离子簇和y离子簇。理论二级离子簇质荷比的计算方法如下：

式中：mz(a_k)、mz(b_k)、mz(y_k)为对应a_k、b_k、y_k离子的质荷比；L为待检索多肽片段长度；k为离子序号：从1-L的整数；M(H⁺)为氢离子摩尔质量，M(A_j)表示多肽片段中第j个氨基酸残基(A_j)的摩尔质量，M(CO)为CO(羰基)的摩尔质量；M(H₂O)为水分子的摩尔质量。

本步骤中，子离子匹配率指在一定质荷比偏差范围内，理论二级离子簇质荷比集合T中的各离子在集合F1中所匹配的物质的实际二级离子谱图中实现匹配(二级离子质荷比偏差绝对值小于二级离子质荷比偏差阈值，即判断为匹配；其中，二级离子质荷比偏差绝对值为理论二级离子质荷比与集合F1中物质的实际二级子离子质荷比之差的绝对值)的数量与该待检索多肽片段P残基数量的百分比。

其中，高分辨质谱的一级离子质荷比偏差阈值的范围为0-40ppm或0-0.01Da，二级离子质荷比偏差阈值的范围为0-0.05Da；低分辨质谱的一级离子质荷比偏差阈值的范围为0-0.5Da，二级离子质荷比偏差阈值的范围为0-2Da。子离子匹配率阈值的范围为20％-100％。

(9)重复步骤(7)-(8)，直至该待检索多肽序列库中所有待检索多肽片段均已完成检索，并标记步骤(6)中从蛋白序列库中获取得到的该条待检索多肽片段为已检索。

(10)重复步骤(6)-(9)，直至该样品所属的蛋白质序列库中的所有待检索序列均已完成检索。

(11)根据步骤(2)建立的残基片段频次库，计算样品中各物质的每一条候选鉴定多肽的评分，并根据评分对样品中各物质的候选鉴定多肽进行排序，同时去除评分值小于评分值阈值的多肽片段，得到鉴定结果。其中，评分值阈值为20分。具体评分方法如下：

式中，S为候选鉴定多肽，MS₁为一级母离子质谱图，MS₂为二级子离子质谱图，m为候选鉴定多肽S的氨基酸残基数量，Pr(S|MS₁,MS₂)为候选鉴定多肽S的评分值，P(MS₁,MS₂|S)为候选鉴定多肽S的子离子匹配率，P(S)为残基片段频次库中显示的候选鉴定多肽S的出现概率，P(MS₁,MS₂)为1，A代指氨基酸残基，

为氨基酸残基平均概率(

氨基酸残基平均概率为1/N，其中，N为残基片段频次库中总的氨基酸残基种类)的m次幂；

P(A_i|A₁,A₂…A_i-1)＝C(A₁,A₂…A_i)/C(A₁,A₂…A_i-1)；

P(A_i|A_i-n+1,A_i-n+2…A_i-n+n-1)＝C(A_i-n+1,A_i-n+2…A_i-n+n-1,A_i)/C(A_i-n+1,A_i-n+2…A_i-n+n-1),；

其中，n为预设窗宽，指评分计算时，局部概率计算窗口所能容纳氨基酸残基的最大长度(即窗口宽度)；A_i为候选鉴定多肽S的氨基酸序列中的第i位氨基酸残基(即候选鉴定多肽S的氨基酸序列为A₁A₂A₃…A_m)，C指残基片段频次库中显示的相应氨基酸残基片段出现的频次。

在进行很长或很大的数据计算时，由于无法进行整体一次性处理，于是设定一个窗口，单次数据处理时仅处理在该窗口的宽度内的数据。例如：上述预设窗宽即是指每次计算概率时，只考虑这个窗口内的序列片段，处理完窗口内的序列再向右移动窗口一次，重复进行，以降低计算复杂程度。上述预设窗宽n为2-50中的任意整数。当然，本领域技术人员也可以按需调整n。预设窗宽n与候选鉴定多肽在残基片段频次库的出现概率的准确性有关，预设窗宽n越长，准确性越高。

根据评分结果，按评分值的高低对同一物质鉴定得到的各候选鉴定多肽进行排序，默认选择最大评分值对应的候选鉴定多肽为鉴定结果。当然，本领域技术人员也可以根据经验和图谱鉴定情况从鉴定结果中挑选其他评分较低的候选鉴定多肽作为鉴定结果。

实施例1

分析对象为通过高分辨液质联用仪检测谷胱甘肽标准品(氨基酸序列为：ECG)所采集到的质谱检测数据。分析方法同上述实施例。其中具体检测参数设置如下：

蛋白质序列库为大豆蛋白序列库(下载自UniProt，搜索关键词“soybean”)。步骤(2)中，预设的残基片段长度范围为1-3；步骤(4)中，一级母离子信号响应强度阈值为1000；步骤(5)中，二级子离子覆盖率阈值为70％；步骤(6)中，模拟酶解所用酶为Alcalase广谱性碱性蛋白酶，对酶切位点不做限制，预设的待检索多肽片段长度范围为2-10；步骤(8)中，一级离子质荷比偏差阈值为0.005Da，预设的离子簇类型为a、b和y离子簇，二级离子质荷比偏差阈值为0.02Da，子离子匹配率阈值为30％；步骤(11)中，预设窗宽为3，评分值阈值为40。

实施例2

分析对象为通过高分辨液质联用仪检测大豆蛋白的酶解产物(大豆蛋白由临沂山松生物制品有限公司提供，所用酶为Alcalase广谱性碱性蛋白酶)所采集到的的质谱检测数据。分析方法同上述实施例。其中具体检测参数设置如下：

蛋白质序列库为大豆蛋白序列库(下载自UniProt，搜索关键词“soybean”)。步骤(2)中，预设的残基片段长度范围为1-3；步骤(4)中，一级母离子信号响应强度阈值为1000；步骤(5)中，二级子离子覆盖率阈值为30％；步骤(6)中，模拟酶解所用酶为Alcalase广谱性碱性蛋白酶，对酶切位点不做限制，预设的待检索多肽片段长度范围为2-15；步骤(8)中，一级离子质荷比偏差阈值为10ppm，预设的离子簇类型为a、b和y离子簇，二级离子质荷比偏差阈值为0.02Da，子离子匹配率阈值为30％；步骤(11)中，预设窗宽为3，评分值阈值为50。

对比例1

分析对象与实施例2相同。采用美国thermo公司的Protein Discovery软件(版本2.4，内置Sequest引擎)进行分析。分析过程中所设置的具体参数如下：

一级母离子信号响应强度阈值为1000，预设的待检索多肽片段长度范围为4-15，一级离子质荷比偏差阈值为10ppm，二级离子质荷比偏差阈值为0.02Da，预设的离子簇类型为a、b和y离子簇，其他参数设置采用软件默认设置。

分析结果

通过实施例1提供的方法分析谷胱甘肽标准品的质谱检测数据，得到的评分前五的候选鉴定多肽如表1所示，其中评分第一的候选鉴定多肽的鉴定结果如图2所示。表1中，多个氨基酸组成相同的多肽被列入候选鉴定结果，其中ECG(默认排序第一的多肽)的评分值明显大于其他候选鉴定多肽，被列为默认鉴定结果，这与谷胱甘肽标准品实际序列结果相一致。且实施例1提供的方法准确地从质谱谱图中匹配到了谷胱甘肽的完整b离子簇离子(b1、b2、b3离子均被检测到，标注为绿色)，并给出了匹配序列ECG，且还有部分y离子簇和a离子簇匹配，所得结果与标准品已知序列高度一致，如图2所示。以上结果充分说明了本实施例提供的方法用于多肽鉴定具有很好的准确性。

表1：

其中，△MS₁为一级离子质荷比偏差；△MS₂为候选鉴定多肽的各离子的二级离子质荷比偏差绝对值的平均值；物质来源表示质谱仪器数据采集过程中的谱图来源编号。

图3和图4分别为实施例2和对比例1提供的方法针对同一大豆蛋白的酶解产物的鉴定结果，其中，图3所示的鉴定结果均为鉴定到的多肽的评分排序第一的默认鉴定结果。实施例2提供的方法共鉴定到99条多肽长度为2的多肽，597条多肽长度为3的多肽，498条多肽长度为4的多肽，319条多肽长度为5的多肽，268条多肽长度为6的多肽，55条多肽长度为7的多肽，37条多肽长度为8的多肽，31条多肽长度为9的多肽，10条多肽长度为10的多肽，如图3所示；对比例1提供的方法无法鉴定多肽长度为2和3的多肽，仅鉴定到1条多肽长度为4的多肽，21条多肽长度为5的多肽，24多肽长度为6的多肽，12条多肽长度为7的多肽，9条多肽长度为8的多肽，7条多肽长度为9的多肽，2条多肽长度为10的多肽，错误发现率1％，如图4所示。实施例2提供的方法对长度在2-15的多肽片段的鉴定表现非常良好，尤其在多肽片段长度在2-10的短肽的鉴定上，远优于对比例1，且整体多肽鉴定数量显著高于对比例1中的方法。

实施例2和对比例1提供的方法针对同一大豆蛋白的酶解产物的质谱检测数据进行分析，分别耗时45min和13min。分别计算实施例2和对比例1提供的方法的单条多肽平均鉴定耗时长，以比较实施例2和对比例1提供的方法的分析效率。实施例2和对比例1提供的方法的单条多肽平均鉴定耗时长分别为1.33秒和10秒，实施例2提供的方法的单条多肽平均鉴定耗时长仅为对比例1提供的方法的13.3％，如图5所示。因此，实施例2提供的方法的鉴定效率远高于对比例1中的方法。

以上实施例和对比例充分说明上述实施例提供的方法用于多肽鉴定，具有很好的准确性，且分析效率高，能够用于样品质谱检测数据的分析。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，包括以下步骤：

(5)对所述候选鉴定多肽进行评分，得到鉴定结果；

步骤(3)中，所述鉴定的具体步骤为：

若所述集合F1为空，则标记该待检索多肽片段为已检索；

2.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，步骤(1)中，所述对样品的质谱检测数据中的各离子进行离子标准化的具体步骤是：

将所述质谱检测数据中的多电荷离子和未标识电荷的离子换算成带单位正电荷的离子；

优选地，将所述质谱检测数据中的多电荷离子和未标识电荷的离子通过质荷比计算转换成带单位正电荷的离子。

3.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，所述步骤(1)中，根据一级母离子信号响应强度和二级子离子覆盖率对样品的质谱检测数据进行过滤具体包括以下步骤：

4.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，步骤(2)中，建立所述待检索多肽序列库的具体步骤是：

5.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，步骤S2中，根据子离子匹配率对集合F1进行筛选的筛选标准为：子离子匹配率小于子离子匹配率阈值。

6.根据权利要求5所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，所述子离子匹配率的计算方法为：

在一定质荷比偏差范围内，所述待检索多肽片段的理论二级离子簇质荷比集合中的各离子可在所匹配的待鉴定物质的二级离子谱图中实现匹配的数量与待检索多肽片段残基数量的百分比；

优选地，所述匹配的判断标准为：待检索多肽片段与所匹配的待鉴定物质的二级离子质荷比偏差绝对值小于二级离子质荷比偏差阈值，则判断为匹配；

优选地，所述预设的离子簇类型包括a离子簇、b离子簇和y离子簇。

7.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，步骤(5)中，所述评分的方法具体如下：

为氨基酸残基平均概率

的m次幂；

P(A_i|A₁,A₂…A_i-1)＝C(A₁,A₂…A_i)/C(A₁,A₂…A_i-1)；

其中，n为预设窗宽，A_i为候选鉴定多肽S的氨基酸序列中的第i位氨基酸残基，C指残基片段频次库中显示的相应氨基酸残基片段出现的频次；

8.根据权利要求7所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，建立所述残基片段频次库的具体步骤为：在所述样品所属的蛋白质序列库中，对各序列中的在预设的残基片段长度范围内的非重复性残基片段进行频次统计；优选地，所述残基片段长度范围为1-50；优选地，所述残基片段长度范围为1-6。

9.根据权利要求1所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法，其特征在于，步骤(5)还包括对所述鉴定结果进行质量控制，所述质量控制的步骤具体为：去除评分值小于评分值阈值的候选鉴定多肽；优选地，所述评分值阈值为20分；优选地，所述评分值阈值为36分。

10.权利要求1-9任一项所述的基于贝叶斯评价和序列搜库的多肽组学鉴定方法在多肽组学鉴定中的应用。