CN116465992B

CN116465992B - 一种检测蛋白末端氨基酸序列的方法

Info

Publication number: CN116465992B
Application number: CN202310422124.8A
Authority: CN
Inventors: 汪兵; 汤琦; 刘京京
Original assignee: Shanghai Kuaixu Biotechnology Co ltd
Current assignee: Shanghai Kuaixu Biotechnology Co ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2024-02-09
Anticipated expiration: 2043-04-19
Also published as: CN116465992A

Abstract

本发明公开了一种检测蛋白末端氨基酸序列的方法。所述方法包括：用化学消化法或酶消化法对待测蛋白质进行消化，得到适于质谱分析的肽段；用质谱分析技术分析所述肽段，得到质谱结果，根据质谱结果对所述肽段进行序列分析，得到肽段库；根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记，标记N末端肽和C末端肽，获得末端候选肽库；将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分，得分最高的肽段序列即为蛋白的N末端或C末端序列。本发明的方法不依赖化学衍生化修饰，规避蛋白末端的修饰的影响，可有效应用于完全未知蛋白末端序列检测。

Description

一种检测蛋白末端氨基酸序列的方法

技术领域

本发明属于蛋白质测序技术领域，涉及一种检测蛋白末端氨基酸序列的方法。

背景技术

蛋白质的末端序列与该蛋白质的生物学功能和稳定性密切相关，获悉这些序列信息有利于帮助分析蛋白质的结构和生物学功能，尤其是未知蛋白。但是蛋白质从翻译到最后执行生物学功能，经历了复杂的翻译后修饰、信号肽切除、蛋白质水解等过程，例如很多直接执行生物学功能的激素与其蛋白质前体的末端序列完全不一致。因此，很难直接从基因组数据准确推断该蛋白的末端序列信息。近年来得益于质谱技术和蛋白质组学技术的发展，相关研究手段层出不穷。

传统的蛋白末端测序采用的策略是通过酶解法或化学试剂裂解法逐级获得末端序列，例如埃德曼降解用于蛋白N端测序、羧肽酶法获得C端序列。但是这些方法不能解决N端封闭的测序问题，例如谷氨酰胺环化或者乙酰基化修饰，此外，该方法要求蛋白或多肽的纯度在95％以上，且灵敏度较低。蛋白质组非常复杂，目前基于“自下而上”策略产生的大量非末端肽会严重干扰末端肽的鉴定，因此衍生出通过在蛋白的末端引入可富集的靶标修饰，随后利用靶标的识别对蛋白质的末端肽进行富集和鉴定。

如CN101042376公开一种用于快速测定蛋白质N端序列的方法和试剂盒，该方法包括：(1)对蛋白质的氨基进行化学修饰；(2)用还原剂打开蛋白质分子中的二硫键，破坏其高级结构；用烷基化试剂封闭巯基，防止其重新形成二硫键；(3)用化学消化或酶消化法对蛋白质进行消化，产生适于质谱分析的肽段；(4)用质谱分析技术分析蛋白质末端肽段，使其裂解产生碎片离子的质谱图；通过对N端氨基的选择性磺化修饰，在质谱上既容易确定N端肽段，又可以很方便地进行测序。CN101042374公开了一种用于蛋白质末端肽段富集与测序的方法和试剂盒，该方法涉及蛋白质末端氨基的修饰、还原烷基化和胰蛋白酶酶切、末端肽段的色谱富集与质谱测序，通过对酶切肽段混合物中末端肽段的富集与测序，获得蛋白质的末端序列信息以进行蛋白质的鉴定及末端分析。但这些方法中末端羧基或氨基的未知修饰会影响富集修饰，其次羧基的反应活性较差，且仅适用于已知数据库蛋白的末端确定，无法用于未知序列蛋白的从头测序分析。

综上所述，开发高效的检测蛋白质末端氨基酸序列的方法，尤其针对未知蛋白质，对于蛋白质研究领域具有重要意义。

发明内容

针对现有技术的不足和实际需求，本发明提供一种检测蛋白末端氨基酸序列的方法，本发明开发一种新型的检测蛋白末端氨基酸序列的方法，尤其针对未知蛋白质，能够进行高效、准确地检测。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种检测蛋白末端氨基酸序列的方法，所述方法包括：

用化学消化法或酶消化法对待测蛋白质进行消化，得到适于质谱分析的肽段；

用质谱分析技术分析所述肽段，得到质谱结果，根据质谱结果对所述肽段进行序列分析，得到肽段库；

根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记，标记N末端肽和C末端肽，获得末端候选肽库；

将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分，得分最高的肽段序列即为蛋白的N末端或C末端序列。

本发明中，流程图如图1所示，为了得到蛋白质末端序列，直接从蛋白样本进行分析，对待测蛋白进行消化，基于串联质谱技术以及从头测序算法，获得多肽序列，通过多肽序列之间的重叠度，构建N末端以及C末端候选肽库，最后通过候选肽库的理论序列离子与完整蛋白的“自顶而下”数据进行匹配打分，最终同时得到蛋白的N末端和C末端序列。

可以理解，本领域通用的蛋白消化方法均适用于本发明，不作特殊限制。

可选地，所述酶消化法包括：

将待测蛋白质与酶混合进行反应。

可选地，所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。

可以理解，本领域通用的蛋白质的质谱分析方法均适用本发明，不作特殊限制。

优选地，所述质谱结果包括分子量和质谱图。

优选地，所述序列分析的方法包括：

基于所述质谱结果使用从头测序软件进行检索，得到对应打分最高的肽段，和/或，基于所述质谱结果使用Uniprot数据库进行检索，得到相应匹配的肽段。

可以理解，本发明中基于质谱结果，使用从头测序软件检索以及对Uniprot数据库检索，以寻找相应匹配肽段，属于本领域技术人员公知的常规操作手段，不作特殊限制。

本发明中，所述使用从头测序软件进行检索具体可包括：

1)上传质谱原始raw文件；2)设置仪器类型及碎裂方式，质量偏差容忍范围；3)设置多肽产生的酶切方式，例如胰蛋白酶，设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da)，某些氨基酸的氧化修饰等。

本发明中，使用Uniprot数据库进行检索可包括：

1)上传质谱原始raw文件及下载好的蛋白质组数据库；2)设置仪器类型及碎裂方式，质量偏差容忍范围；3)设置多肽产生的酶切方式，例如胰蛋白酶；4)设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da)，某些氨基酸的氧化修饰等。

优选地，所述从头测序软件包括Novo、pNovo、DeepNovo或SMSNet中任意一种。

本发明中，可将从头测序软件进行检索和Uniprot数据库进行检索得到的肽段进行合并，共同作为肽段库。

优选地，所述序列分析后还包括筛选的步骤。

优选地，所述筛选的方法包括：

对肽段信号强度进行筛选，删除一级谱图中(MS1)相对强度低于5％的肽段；

对从头测序得到的肽段，根据得分信息，删除可信度低于50％的肽段；

对Uniprot数据库检索结果，删除来自已知的污染蛋白库的肽段；优选地，删除来自已知的污染蛋白库的可信度高于50％的肽段，例如酶自身降解肽段，角蛋白，牛血清白蛋白等。

本发明中，对肽段库进行筛选，进一步提高肽段库的可信度，利于后续检测。

优选地，所述筛选标记的方法包括：

在筛选标记之前给所述肽段库中每个肽段赋予一个N标记和一个C标记，筛选标准包括：

a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸)，且重叠不位于肽段2的N末端，去除肽段1的N标记，重叠度低于3个的，仍保留其作为末端序列的标签；例如：肽段1为ACKLCA，肽段2为LNMACK，则去除肽段1的N标记；

b.若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸)，且重叠不位于肽段2的C末端，去除肽段1的C标记，重叠度低于3个的，仍保留其作为末端序列的标签；例如：肽段1为LNMACK，肽段2为ACKLCA，则去除肽段1的C标记；

c.如果一个肽段被另一个肽段完全包含，去除较短的序列的所有标记，保留较长的序列；例如：肽段1为LNMACK，肽段2为LNMACKLCA，则去除肽段1的N标记和C标记，肽段2不做处理；

按所述筛选标准对所述肽段库中的每一个肽段进行遍历，对肽段的标记进行更新，遍历完成后，删除所有N标记和C标记都被去除的肽段，得到末端候选肽库。

优选地，所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。

优选地，所述匹配打分的标准包括：

a.完整待测未知蛋白的质谱结果与N末端肽和/或C末端肽对应的理论质荷比匹配的峰越多，该候选肽的得分越高；具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分，在5ppm～20ppm范围内匹配得分为8分，超出20ppm得分为0；

b.完整待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高，得分越高；具体标准为完整蛋白的质谱图中匹配的峰相对强度在50％以上得5分，在10％～50％得3分，其他不得分。

c.存在连续匹配的b和/或y序列离子，得分越高；具体标准为存在连续的离子依次加5分，例如连续b2/b3加5分，连续b2/b3/b4加10分，出现断续的序列离子例如b2，b4，在本次的打分中不加分；

d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时，可以将质荷比进行整体平移，继续进行匹配打分，平移的分子量为蛋白末端修饰带来的影响，在蛋白未知得情况下，可根据本领域常用的翻译后修饰及其精确分子量信息表，人工从中遍历筛选，获取末端修饰的种类和分子量。

本发明中，所述质荷比进行整体平移指增加或者减少因某个修饰带来的整体分子分子量迁移，例如当蛋白的N端存在乙酰化修饰的时候，将N端候选肽的b序列离子，整体分子量增加42.0106Da。

本发明中，对末端候选肽库中的每个N标记肽段，基于b离子质荷比信息，构建蛋白N端序列“刻度尺”，对每个C标记肽段，基于y离子质荷比信息，构建蛋白C端序列“刻度尺”，“刻度尺”可以是一个数组，其中记录了对应的b离子或者y离子的质荷比。例如N标记肽段LNMACK，其“刻度尺”就是[X，X，X，X，X，X]，其中各“X”依次对应肽段中“L”、“N”、“M”、“A”、“C”、“K”这些氨基酸的C末端断裂产生的b离子质荷比。这些“刻度尺”就组成了蛋白末端理论谱库。本发明基于bottom-up的酶切多肽序列构成了完整蛋白解析的数据库，充分利用了两点信息，1)top-down产生的碎片主要是N、C端序列离子；2)bottom-up酶切产生的N端肽或C端肽，其N端序列或C端序列与其它酶切肽段没有重叠，可以把这一类肽段作为蛋白候选的N端或C端，这些序列产生的b离子或y离子，作为“刻度尺”去匹配top-down数据，吻合程度最高的候选序列，即确定为蛋白的N端序列或C端序列。

作为优选的技术方案，所述检测蛋白末端氨基酸序列的方法包括以下步骤：

(1)用化学消化或酶消化法对待测蛋白质进行消化，得到适于质谱分析的肽段；

(2)用质谱分析技术分析所述肽段，得到质谱结果，基于所述质谱结果使用从头测序软件进行检索，得到对应打分最高的肽段，和/或，基于所述质谱结果使用Uniprot数据库进行检索，得到相应匹配的肽段，得到肽段库；

(3)根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记，在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记，筛选标准包括：

a.若肽段1的N末端与肽段2重叠，且重叠不位于肽段2的N末端，去除肽段1的N标记；

b.若肽段1的C末端与肽段2重叠，且重叠不位于肽段2的C末端，去除肽段1的C标记；

c.如果一个肽段被另一个肽段完全包含，去除较短的序列的所有标记，保留较长的序列；

按所述筛选标准对所述肽段库中的每一个肽段进行遍历，对肽段的标记进行更新，遍历完成后，删除所有N标记和C标记都被去除的肽段，得到末端候选肽库；

(4)将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分：

a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多，质量偏差越小，得分越高；

b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高，得分越高；

c.存在连续匹配的b和/或y序列离子，得分越高；

d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时，将质荷比进行整体平移，继续进行匹配打分；

得分最高的N末端肽或C末端肽即为该蛋白的末端序列。

与现有技术相比，本发明具有以下有益效果：

本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法，对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记，并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对，巧妙基于质荷比信息进行匹配打分，能够高效、准确地确定N端肽和C端肽，不依赖化学衍生化修饰，规避蛋白末端的修饰的影响，可有效应用于完全未知蛋白末端序列检测。

附图说明

图1为本发明流程图；

图2为实施例1中N端候选肽的碎裂谱图；

图3为实施例1中C端候选肽的碎裂谱图；

图4为实施例1中完整蛋白的碎裂谱图；

图5为实施例2中完整蛋白的碎裂谱图；

图6为实施例2中完整蛋白的碎裂谱图m/z：400-700区域局部放大浏览图；

图7为实施例3中完整蛋白的碎裂谱图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

实施例1

本实施例以蛋白(MDIGINSQVQLQESGGGLVQAGGSLRLSCAASGRTHGMYAMGWFRQAPGKEREFVAV QDLTASNTHYSSAVK)为例，验证本发明检测蛋白末端氨基酸序列的方法。

(1)进行多种酶酶切并进行质谱数据采集，完整蛋白的top-down数据采集，包含完整分子量和MS/MS谱图，包括以下步骤：

1)将蛋白样本稀释至1mg/mL，取100μL蛋白，加入2μL浓度为1M的DTT，于95℃孵化15min；

2)加入6μL浓度为0.5M的IAM，黑暗条件下，37℃反应半30min；

3)在离心管中加入2.5μLPNGaseF(10U/μL)，在37℃孵化90min；

4)丙酮沉淀：加入1mL的-20℃丙酮，然后置于-20℃冰箱1h；

5)离心23,000rpm，4℃离心10min，沉淀抗体；

6)小心倒掉上清的丙酮溶液，来回倒置离心管5min，通过空气使沉淀颗粒干燥；

7)用10μL 4M尿素溶液复溶蛋白，用移液枪吹打，保证样品完全溶解。将离心管放置在37℃静置10min进一步溶解样品，加入90μL超纯水至终体积100μL；

8)胃蛋白酶酶解，37℃反应45min，体系：

9)剩余6×酶解(胰蛋白酶，糜蛋白酶，天冬氨酸内切酶，赖氨酸内切酶，谷氨酸内切酶)，体系：

10)涡旋，震荡，离心；

11)37℃孵化19h；

12)质谱数据采集

取除盐后的样品进行分离(喷雾电压为2.0kV)然后将分离后的样品于275℃条件下通过毛细管柱并进入质谱仪进行相关的质谱鉴定分析。我们采用DDA，top20模式对质谱数据进行收集，其中一级谱采集的相关参数为：分辨率为70000，自动增益控制(AGC)为3*10⁶，二级质谱MS/MS采用HCD碎裂模式，其相关参数设定为：分辨率为7500，Isolationwindow为1.8m/z，目标值为50000离子，最大累积时间为50ms。进行碎片化标准碰撞的能量为27％，调查扫描中20个最强信号的离子被选择做二级碎裂。动态排除持续时间设定为40秒，触发MS/MS的最小MS信号设定为5000个计数。

Top-down实验

待测蛋白样本不经过酶切，直接在evotip上进行除盐上样，并收集数据。

(2)数据处理：质谱数据从头测序，获得肽段；肽段之间进行重叠度拼接，获得N端和C端候选序列；候选序列根据候选序列构建完整蛋白的理论末端序列离子；理论库与实验谱图匹配打分。

1)获得多肽序列库：

将多酶酶切的数据通过质谱产生的Raw文件使用从头测序软件Novo进行检索，得到谱图及其对应打分最高的肽段；同时将数据用Uniprot数据库进行检索，得到谱图相应匹配的肽段；对两种处理方式得到的肽段进行筛选，得到可信肽段库，具体筛选方法如下：

a.对肽段信号强度进行筛选，删除相对强度过低的肽段，筛选阈值为5％；

b.对从头测序得到的肽段，根据得分信息，去除可信度过低的肽段，筛选阈值为50％；

c.对搜库结果，删掉来自已知的污染蛋白库的高可信度肽段，筛选阈值为50％；

d.对上述两种方式得到的肽段进行合并，从而获得样本可信肽段库，其中包含筛选之后留下的肽段以及对应的谱数据，得到肽段145个，及其对应的谱图数871个，由于多肽呈现不同电荷状态因此谱图匹配数多于肽段数量。

2)获得候选末端肽库：

基于上述步骤得到未知蛋白可能的肽库，根据多肽之间的序列重叠(两条肽段之间有连续N个相同氨基酸时，认为它们重叠，一个可行的N的取值为3)情况进行筛选，获得末端候选肽库，在筛选之前给肽库里面的每个肽段赋予一个N标记和一个C标记，筛选标准与流程如下：

a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸)，且重叠不位于肽段2的N末端，那么肽段1不会是蛋白的N末端肽，将肽段1去除N标记，重叠度低于3个的，仍保留其作为末端序列的标签；示例：肽段1GINSQVQL与肽段2MDIGINS重叠，且重叠部分GINS不位于肽段2的N末端，那么肽段1不可能是N末端序列；

b.与第一条类似，若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸)，且重叠不位于肽段2的C末端，那么肽段1不会是蛋白的C末端肽，将肽段1去除C标记，重叠度低于3个的，仍保留其作为末端序列的标签；

c.如果一个肽段被另一个肽段完全包含，即其序列为另一序列的子列，去除较短的序列的所有标记，保留较长的序列，示例肽段SSAVK被肽段LTASNTHYSSAVK完全包含；

对肽库中的每一个肽段进行遍历，根据肽段序列之间的重叠关系，对肽段的标记进行更新。遍历完成后，把所有N标记和C标记都被去除的肽段进行删除，留下的肽段就组成了蛋白的末端候选肽库，共包含47个肽段，参考肽段匹配谱图数、谱图解析质量进行评分(也就是说这些肽段的PSMs数量多，MS1的相对强度也高)，得分排名靠前的肽段拥有较高的谱图质量及从头测序得分，示例性展示得分前3名肽段：N端候选肽(得分前3名)：MDIGINSQ，RLSCAASGRTHGMY，FRQAPGKEREF；C端候选肽(得分前3名)：LTASNTHYSSAVK，SGSYNSAR，GMYAMGWF。

3)构建蛋白末端理论谱库：

对末端候选肽库中的每个N标记肽段，基于b离子质荷比信息，构建蛋白N端序列“刻度尺”，对每个C标记肽段，基于y离子质荷比信息，构建蛋白C端序列“刻度尺”，“刻度尺”为一个数组，其中记录了对应的b离子或者y离子的质荷比，参考每个氨基酸残基的分子量信息(表1)，示例如表2和表3所示。

表1

氨基酸	简写	分子式	精确分子量
				甘氨酸	G	C₂H₃NO	57.02146
丙氨酸	A	C₃H₅NO	71.03711
				丝氨酸	S	C₃H₅NO₂	87.03203
脯氨酸	P	C₅H₇NO	97.05276
				缬氨酸	V	C₅H₉NO	99.06841
苏氨酸	T	C₄H₇NO₂	101.0477
				半胱氨酸	C	C₃H₅NOS	103.0092
亮氨酸	L	C₆H₁₁NO	113.0841
				异亮氨酸	I	C₆H₁₁NO	113.0841
天冬酰胺	N	C₄H₆N₂O₂	114.0429
				天冬氨酸	D	C₄H₅NO₃	115.0269
谷氨酰胺	Q	C₅H₈N₂O₂	128.0586
				赖氨酸	K	C₆H₁₂N₂O	128.095
谷氨酸	E	C₅H₇NO₃	129.0426
				甲硫氨酸	M	C₅H₉NOS	131.0405
组氨酸	H	C₆H₇N₃O	137.0589
				苯丙氨酸	F	C₉H₉NO	147.0684
精氨酸	R	C₆H₁₂N₄O	156.1011
				酪氨酸	Y	C₉H₉NO₂	163.0633
色氨酸	W	C₁₁H₁₀N₂O	186.0793

4)匹配打分：

基于步骤3)中的理论谱库与完整蛋白的top-down实验MS/MS谱图进行匹配(匹配质量偏差阈值为10ppm)，理论谱库中得分最高的“刻度尺”对应的序列即为蛋白末端序列，匹配打分的基准为：

a.完整的待测未知蛋白的质谱结果在与N末端肽和/或C末端肽对应的理论质荷比检测到匹配的峰越多，该候选肽的得分越高；具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分，可认为是高匹配，在5ppm～20ppm范围内匹配得分为8分，可认为是中匹配；超出20ppm得分为0；

b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高，得分越高；具体标准为完整蛋白的质谱图中匹配的峰相对强度在50％以上得5分，在10％～50％得3分，其它不得分；

d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时，可以将质荷比进行整体平移，继续进行匹配打分，平移的分子量为蛋白末端修饰带来的影响。

N端/C端候选肽与完整蛋白的序列离子匹配最优结果如图2，图3所示，图2为N段候选肽(MDIGINS)的碎裂谱图中质荷比信息，具体见表2，图3为C端候选肽(LTASNTHYSSAVK)的碎裂谱图中质荷比信息，具体见表3，图4为完整蛋白的碎裂谱图中质荷比信息，与候选肽对比匹配及打分结果如表4和表5所示，可见，通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息，表明本发明能够对蛋白的末端氨基酸序列进行准确检测，其它候选肽段的打分结果远低于这些最优匹配，在此不一一赘述。

表2

表3

表4

表5

实施例2

本实施例以某已知蛋白核呼吸因子-1(NRF1)的重组表达片段为例，验证本发明检测蛋白末端氨基酸序列的方法，该蛋白序列如下所示：

GGIPVSVDKMTQAQLRAFIPEMLKYSTGRGKPGWGKESCKPIWWPEDIPWANVRSDVRTEEQKQRVSWTQALRTIVKNCYKQHGREDLLYAFED。

具体检测方法参照实施例1。

图5为完整蛋白的碎裂谱图中质荷比信息，其中m/z：400-700区域局部放大浏览图如图6所示，与候选肽对比匹配及打分结果如表6和表7所示，可见，通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息，表明本发明能够对蛋白的末端氨基酸序列进行准确检测，其它候选肽段的打分结果远低于这些最优匹配，在此不一一赘述。

表6

表7

实施例3

本实施例对实际生产的抗体的Fab端样本为例进行检测，验证本发明检测蛋白末端氨基酸序列的方法，该抗体的Fab端的序列如下所示：

AVLTQTPSPVSAAVGGTVTISITCRASQDIGNRLAYQQKPGQPPKLLIYLASTLASGVPDRFSGSNFGNTATISGVQYYCGRALLYCAHLGGGDDDADSAFGGGTEVVVK。

具体检测方法参照实施例1。

图7为完整蛋白的碎裂谱图中质荷比信息，与候选肽对比匹配及打分结果如表8和表9所示，可见，通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息，表明本发明能够对蛋白的末端氨基酸序列进行准确检测，其它候选肽段的打分结果远低于这些最优匹配，在此不一一赘述。

表8

表9

综上所述，本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法，对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记，并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对，巧妙基于质荷比信息进行匹配打分，能够高效、准确地确定N端肽和C端肽，不依赖化学衍生化修饰，规避蛋白末端的修饰的影响，可有效应用于完全未知蛋白末端序列检测。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种检测蛋白末端氨基酸序列的方法，其特征在于，所述方法包括：

用质谱分析技术分析所述肽段，得到质谱结果，对肽段信号强度进行筛选，删除一级谱图中相对强度低于5%的肽段，基于所述质谱结果使用从头测序软件进行检索，对从头测序得到的肽段，根据软件从头测序给出序列的得分信息，删除可信度低于50%的肽段，得到对应打分最高的肽段，和/或，基于所述质谱结果使用Uniprot数据库进行检索，删除来自已知的污染蛋白库的肽段，得到相应匹配的肽段，得到肽段库；

将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分，得分最高的肽段序列即为蛋白的N末端或C末端序列；

所述筛选标记的方法包括：

所述匹配打分的标准包括：

a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多，且质量偏差越小，得分越高；

c.存在连续匹配的b和/或y序列离子，得分越高；

d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时，将质荷比进行整体平移，继续进行匹配打分。

2.根据权利要求1所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述酶消化法包括：

将待测蛋白质与酶混合进行反应。

3.根据权利要求2所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。

4.根据权利要求1所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述质谱结果包括分子量和质谱图。

5.根据权利要求1所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种。

6.根据权利要求1所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。

7.根据权利要求1所述的检测蛋白末端氨基酸序列的方法，其特征在于，所述方法包括以下步骤：

（1）用化学消化法或酶消化法对待测蛋白质进行消化，得到适于质谱分析的肽段；

（2）用质谱分析技术分析所述肽段，得到质谱结果，对肽段信号强度进行筛选，删除一级谱图中相对强度低于5%的肽段，基于所述质谱结果使用从头测序软件进行检索，对从头测序得到的肽段，根据软件从头测序给出序列的得分信息，删除可信度低于50%的肽段，得到对应打分最高的肽段，和/或，基于所述质谱结果使用Uniprot数据库进行检索，对Uniprot数据库检索结果，删除来自已知的污染蛋白库的肽段，得到相应匹配的肽段，得到肽段库；

（3）根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记，在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记，筛选标准包括：

（4）将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分：

c.存在连续匹配的b和/或y序列离子，得分越高；

得分最高的N末端肽或C末端肽即为该蛋白的末端序列；

所述酶消化法包括：将待测蛋白质与酶混合进行反应；

所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合；

所述质谱结果包括分子量和质谱图；

所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种；

所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。