CN116465992B - 一种检测蛋白末端氨基酸序列的方法 - Google Patents

一种检测蛋白末端氨基酸序列的方法 Download PDF

Info

Publication number
CN116465992B
CN116465992B CN202310422124.8A CN202310422124A CN116465992B CN 116465992 B CN116465992 B CN 116465992B CN 202310422124 A CN202310422124 A CN 202310422124A CN 116465992 B CN116465992 B CN 116465992B
Authority
CN
China
Prior art keywords
peptide
terminal
protein
mass
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310422124.8A
Other languages
English (en)
Other versions
CN116465992A (zh
Inventor
汪兵
汤琦
刘京京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuaixu Biotechnology Co ltd
Original Assignee
Shanghai Kuaixu Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuaixu Biotechnology Co ltd filed Critical Shanghai Kuaixu Biotechnology Co ltd
Priority to CN202310422124.8A priority Critical patent/CN116465992B/zh
Publication of CN116465992A publication Critical patent/CN116465992A/zh
Application granted granted Critical
Publication of CN116465992B publication Critical patent/CN116465992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/04Preparation or injection of sample to be analysed
    • G01N30/06Preparation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N2030/022Column chromatography characterised by the kind of separation mechanism
    • G01N2030/027Liquid chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/04Preparation or injection of sample to be analysed
    • G01N30/06Preparation
    • G01N2030/067Preparation by reaction, e.g. derivatising the sample

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种检测蛋白末端氨基酸序列的方法。所述方法包括:用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;用质谱分析技术分析所述肽段,得到质谱结果,根据质谱结果对所述肽段进行序列分析,得到肽段库;根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列。本发明的方法不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。

Description

一种检测蛋白末端氨基酸序列的方法
技术领域
本发明属于蛋白质测序技术领域,涉及一种检测蛋白末端氨基酸序列的方法。
背景技术
蛋白质的末端序列与该蛋白质的生物学功能和稳定性密切相关,获悉这些序列信息有利于帮助分析蛋白质的结构和生物学功能,尤其是未知蛋白。但是蛋白质从翻译到最后执行生物学功能,经历了复杂的翻译后修饰、信号肽切除、蛋白质水解等过程,例如很多直接执行生物学功能的激素与其蛋白质前体的末端序列完全不一致。因此,很难直接从基因组数据准确推断该蛋白的末端序列信息。近年来得益于质谱技术和蛋白质组学技术的发展,相关研究手段层出不穷。
传统的蛋白末端测序采用的策略是通过酶解法或化学试剂裂解法逐级获得末端序列,例如埃德曼降解用于蛋白N端测序、羧肽酶法获得C端序列。但是这些方法不能解决N端封闭的测序问题,例如谷氨酰胺环化或者乙酰基化修饰,此外,该方法要求蛋白或多肽的纯度在95%以上,且灵敏度较低。蛋白质组非常复杂,目前基于“自下而上”策略产生的大量非末端肽会严重干扰末端肽的鉴定,因此衍生出通过在蛋白的末端引入可富集的靶标修饰,随后利用靶标的识别对蛋白质的末端肽进行富集和鉴定。
如CN101042376公开一种用于快速测定蛋白质N端序列的方法和试剂盒,该方法包括:(1)对蛋白质的氨基进行化学修饰;(2)用还原剂打开蛋白质分子中的二硫键,破坏其高级结构;用烷基化试剂封闭巯基,防止其重新形成二硫键;(3)用化学消化或酶消化法对蛋白质进行消化,产生适于质谱分析的肽段;(4)用质谱分析技术分析蛋白质末端肽段,使其裂解产生碎片离子的质谱图;通过对N端氨基的选择性磺化修饰,在质谱上既容易确定N端肽段,又可以很方便地进行测序。CN101042374公开了一种用于蛋白质末端肽段富集与测序的方法和试剂盒,该方法涉及蛋白质末端氨基的修饰、还原烷基化和胰蛋白酶酶切、末端肽段的色谱富集与质谱测序,通过对酶切肽段混合物中末端肽段的富集与测序,获得蛋白质的末端序列信息以进行蛋白质的鉴定及末端分析。但这些方法中末端羧基或氨基的未知修饰会影响富集修饰,其次羧基的反应活性较差,且仅适用于已知数据库蛋白的末端确定,无法用于未知序列蛋白的从头测序分析。
综上所述,开发高效的检测蛋白质末端氨基酸序列的方法,尤其针对未知蛋白质,对于蛋白质研究领域具有重要意义。
发明内容
针对现有技术的不足和实际需求,本发明提供一种检测蛋白末端氨基酸序列的方法,本发明开发一种新型的检测蛋白末端氨基酸序列的方法,尤其针对未知蛋白质,能够进行高效、准确地检测。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种检测蛋白末端氨基酸序列的方法,所述方法包括:
用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
用质谱分析技术分析所述肽段,得到质谱结果,根据质谱结果对所述肽段进行序列分析,得到肽段库;
根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;
将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列。
本发明中,流程图如图1所示,为了得到蛋白质末端序列,直接从蛋白样本进行分析,对待测蛋白进行消化,基于串联质谱技术以及从头测序算法,获得多肽序列,通过多肽序列之间的重叠度,构建N末端以及C末端候选肽库,最后通过候选肽库的理论序列离子与完整蛋白的“自顶而下”数据进行匹配打分,最终同时得到蛋白的N末端和C末端序列。
可以理解,本领域通用的蛋白消化方法均适用于本发明,不作特殊限制。
可选地,所述酶消化法包括:
将待测蛋白质与酶混合进行反应。
可选地,所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。
可以理解,本领域通用的蛋白质的质谱分析方法均适用本发明,不作特殊限制。
优选地,所述质谱结果包括分子量和质谱图。
优选地,所述序列分析的方法包括:
基于所述质谱结果使用从头测序软件进行检索,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,得到相应匹配的肽段。
可以理解,本发明中基于质谱结果,使用从头测序软件检索以及对Uniprot数据库检索,以寻找相应匹配肽段,属于本领域技术人员公知的常规操作手段,不作特殊限制。
本发明中,所述使用从头测序软件进行检索具体可包括:
1)上传质谱原始raw文件;2)设置仪器类型及碎裂方式,质量偏差容忍范围;3)设置多肽产生的酶切方式,例如胰蛋白酶,设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da),某些氨基酸的氧化修饰等。
本发明中,使用Uniprot数据库进行检索可包括:
1)上传质谱原始raw文件及下载好的蛋白质组数据库;2)设置仪器类型及碎裂方式,质量偏差容忍范围;3)设置多肽产生的酶切方式,例如胰蛋白酶;4)设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da),某些氨基酸的氧化修饰等。
优选地,所述从头测序软件包括Novo、pNovo、DeepNovo或SMSNet中任意一种。
本发明中,可将从头测序软件进行检索和Uniprot数据库进行检索得到的肽段进行合并,共同作为肽段库。
优选地,所述序列分析后还包括筛选的步骤。
优选地,所述筛选的方法包括:
对肽段信号强度进行筛选,删除一级谱图中(MS1)相对强度低于5%的肽段;
对从头测序得到的肽段,根据得分信息,删除可信度低于50%的肽段;
对Uniprot数据库检索结果,删除来自已知的污染蛋白库的肽段;优选地,删除来自已知的污染蛋白库的可信度高于50%的肽段,例如酶自身降解肽段,角蛋白,牛血清白蛋白等。
本发明中,对肽段库进行筛选,进一步提高肽段库的可信度,利于后续检测。
优选地,所述筛选标记的方法包括:
在筛选标记之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的N末端,去除肽段1的N标记,重叠度低于3个的,仍保留其作为末端序列的标签;例如:肽段1为ACKLCA,肽段2为LNMACK,则去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的C末端,去除肽段1的C标记,重叠度低于3个的,仍保留其作为末端序列的标签;例如:肽段1为LNMACK,肽段2为ACKLCA,则去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;例如:肽段1为LNMACK,肽段2为LNMACKLCA,则去除肽段1的N标记和C标记,肽段2不做处理;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库。
优选地,所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
优选地,所述匹配打分的标准包括:
a.完整待测未知蛋白的质谱结果与N末端肽和/或C末端肽对应的理论质荷比匹配的峰越多,该候选肽的得分越高;具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分,在5ppm~20ppm范围内匹配得分为8分,超出20ppm得分为0;
b.完整待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;具体标准为完整蛋白的质谱图中匹配的峰相对强度在50%以上得5分,在10%~50%得3分,其他不得分。
c.存在连续匹配的b和/或y序列离子,得分越高;具体标准为存在连续的离子依次加5分,例如连续b2/b3加5分,连续b2/b3/b4加10分,出现断续的序列离子例如b2,b4,在本次的打分中不加分;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,可以将质荷比进行整体平移,继续进行匹配打分,平移的分子量为蛋白末端修饰带来的影响,在蛋白未知得情况下,可根据本领域常用的翻译后修饰及其精确分子量信息表,人工从中遍历筛选,获取末端修饰的种类和分子量。
本发明中,所述质荷比进行整体平移指增加或者减少因某个修饰带来的整体分子分子量迁移,例如当蛋白的N端存在乙酰化修饰的时候,将N端候选肽的b序列离子,整体分子量增加42.0106Da。
本发明中,对末端候选肽库中的每个N标记肽段,基于b离子质荷比信息,构建蛋白N端序列“刻度尺”,对每个C标记肽段,基于y离子质荷比信息,构建蛋白C端序列“刻度尺”,“刻度尺”可以是一个数组,其中记录了对应的b离子或者y离子的质荷比。例如N标记肽段LNMACK,其“刻度尺”就是[X,X,X,X,X,X],其中各“X”依次对应肽段中“L”、“N”、“M”、“A”、“C”、“K”这些氨基酸的C末端断裂产生的b离子质荷比。这些“刻度尺”就组成了蛋白末端理论谱库。本发明基于bottom-up的酶切多肽序列构成了完整蛋白解析的数据库,充分利用了两点信息,1)top-down产生的碎片主要是N、C端序列离子;2)bottom-up酶切产生的N端肽或C端肽,其N端序列或C端序列与其它酶切肽段没有重叠,可以把这一类肽段作为蛋白候选的N端或C端,这些序列产生的b离子或y离子,作为“刻度尺”去匹配top-down数据,吻合程度最高的候选序列,即确定为蛋白的N端序列或C端序列。
作为优选的技术方案,所述检测蛋白末端氨基酸序列的方法包括以下步骤:
(1)用化学消化或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
(2)用质谱分析技术分析所述肽段,得到质谱结果,基于所述质谱结果使用从头测序软件进行检索,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,得到相应匹配的肽段,得到肽段库;
(3)根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
(4)将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分;
得分最高的N末端肽或C末端肽即为该蛋白的末端序列。
与现有技术相比,本发明具有以下有益效果:
本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法,对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记,并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对,巧妙基于质荷比信息进行匹配打分,能够高效、准确地确定N端肽和C端肽,不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。
附图说明
图1为本发明流程图;
图2为实施例1中N端候选肽的碎裂谱图;
图3为实施例1中C端候选肽的碎裂谱图;
图4为实施例1中完整蛋白的碎裂谱图;
图5为实施例2中完整蛋白的碎裂谱图;
图6为实施例2中完整蛋白的碎裂谱图m/z:400-700区域局部放大浏览图;
图7为实施例3中完整蛋白的碎裂谱图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道购买获得的常规产品。
实施例1
本实施例以蛋白(MDIGINSQVQLQESGGGLVQAGGSLRLSCAASGRTHGMYAMGWFRQAPGKEREFVAV QDLTASNTHYSSAVK)为例,验证本发明检测蛋白末端氨基酸序列的方法。
(1)进行多种酶酶切并进行质谱数据采集,完整蛋白的top-down数据采集,包含完整分子量和MS/MS谱图,包括以下步骤:
1)将蛋白样本稀释至1mg/mL,取100μL蛋白,加入2μL浓度为1M的DTT,于95℃孵化15min;
2)加入6μL浓度为0.5M的IAM,黑暗条件下,37℃反应半30min;
3)在离心管中加入2.5μLPNGaseF(10U/μL),在37℃孵化90min;
4)丙酮沉淀:加入1mL的-20℃丙酮,然后置于-20℃冰箱1h;
5)离心23,000rpm,4℃离心10min,沉淀抗体;
6)小心倒掉上清的丙酮溶液,来回倒置离心管5min,通过空气使沉淀颗粒干燥;
7)用10μL 4M尿素溶液复溶蛋白,用移液枪吹打,保证样品完全溶解。将离心管放置在37℃静置10min进一步溶解样品,加入90μL超纯水至终体积100μL;
8)胃蛋白酶酶解,37℃反应45min,体系:
9)剩余6×酶解(胰蛋白酶,糜蛋白酶,天冬氨酸内切酶,赖氨酸内切酶,谷氨酸内切酶),体系:
10)涡旋,震荡,离心;
11)37℃孵化19h;
12)质谱数据采集
取除盐后的样品进行分离(喷雾电压为2.0kV)然后将分离后的样品于275℃条件下通过毛细管柱并进入质谱仪进行相关的质谱鉴定分析。我们采用DDA,top20模式对质谱数据进行收集,其中一级谱采集的相关参数为:分辨率为70000,自动增益控制(AGC)为3*106,二级质谱MS/MS采用HCD碎裂模式,其相关参数设定为:分辨率为7500,Isolationwindow为1.8m/z,目标值为50000离子,最大累积时间为50ms。进行碎片化标准碰撞的能量为27%,调查扫描中20个最强信号的离子被选择做二级碎裂。动态排除持续时间设定为40秒,触发MS/MS的最小MS信号设定为5000个计数。
Top-down实验
待测蛋白样本不经过酶切,直接在evotip上进行除盐上样,并收集数据。
(2)数据处理:质谱数据从头测序,获得肽段;肽段之间进行重叠度拼接,获得N端和C端候选序列;候选序列根据候选序列构建完整蛋白的理论末端序列离子;理论库与实验谱图匹配打分。
1)获得多肽序列库:
将多酶酶切的数据通过质谱产生的Raw文件使用从头测序软件Novo进行检索,得到谱图及其对应打分最高的肽段;同时将数据用Uniprot数据库进行检索,得到谱图相应匹配的肽段;对两种处理方式得到的肽段进行筛选,得到可信肽段库,具体筛选方法如下:
a.对肽段信号强度进行筛选,删除相对强度过低的肽段,筛选阈值为5%;
b.对从头测序得到的肽段,根据得分信息,去除可信度过低的肽段,筛选阈值为50%;
c.对搜库结果,删掉来自已知的污染蛋白库的高可信度肽段,筛选阈值为50%;
d.对上述两种方式得到的肽段进行合并,从而获得样本可信肽段库,其中包含筛选之后留下的肽段以及对应的谱数据,得到肽段145个,及其对应的谱图数871个,由于多肽呈现不同电荷状态因此谱图匹配数多于肽段数量。
2)获得候选末端肽库:
基于上述步骤得到未知蛋白可能的肽库,根据多肽之间的序列重叠(两条肽段之间有连续N个相同氨基酸时,认为它们重叠,一个可行的N的取值为3)情况进行筛选,获得末端候选肽库,在筛选之前给肽库里面的每个肽段赋予一个N标记和一个C标记,筛选标准与流程如下:
a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的N末端,那么肽段1不会是蛋白的N末端肽,将肽段1去除N标记,重叠度低于3个的,仍保留其作为末端序列的标签;示例:肽段1GINSQVQL与肽段2MDIGINS重叠,且重叠部分GINS不位于肽段2的N末端,那么肽段1不可能是N末端序列;
b.与第一条类似,若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的C末端,那么肽段1不会是蛋白的C末端肽,将肽段1去除C标记,重叠度低于3个的,仍保留其作为末端序列的标签;
c.如果一个肽段被另一个肽段完全包含,即其序列为另一序列的子列,去除较短的序列的所有标记,保留较长的序列,示例肽段SSAVK被肽段LTASNTHYSSAVK完全包含;
对肽库中的每一个肽段进行遍历,根据肽段序列之间的重叠关系,对肽段的标记进行更新。遍历完成后,把所有N标记和C标记都被去除的肽段进行删除,留下的肽段就组成了蛋白的末端候选肽库,共包含47个肽段,参考肽段匹配谱图数、谱图解析质量进行评分(也就是说这些肽段的PSMs数量多,MS1的相对强度也高),得分排名靠前的肽段拥有较高的谱图质量及从头测序得分,示例性展示得分前3名肽段:N端候选肽(得分前3名):MDIGINSQ,RLSCAASGRTHGMY,FRQAPGKEREF;C端候选肽(得分前3名):LTASNTHYSSAVK,SGSYNSAR,GMYAMGWF。
3)构建蛋白末端理论谱库:
对末端候选肽库中的每个N标记肽段,基于b离子质荷比信息,构建蛋白N端序列“刻度尺”,对每个C标记肽段,基于y离子质荷比信息,构建蛋白C端序列“刻度尺”,“刻度尺”为一个数组,其中记录了对应的b离子或者y离子的质荷比,参考每个氨基酸残基的分子量信息(表1),示例如表2和表3所示。
表1
氨基酸 简写 分子式 精确分子量
甘氨酸 G C2H3NO 57.02146
丙氨酸 A C3H5NO 71.03711
丝氨酸 S C3H5NO2 87.03203
脯氨酸 P C5H7NO 97.05276
缬氨酸 V C5H9NO 99.06841
苏氨酸 T C4H7NO2 101.0477
半胱氨酸 C C3H5NOS 103.0092
亮氨酸 L C6H11NO 113.0841
异亮氨酸 I C6H11NO 113.0841
天冬酰胺 N C4H6N2O2 114.0429
天冬氨酸 D C4H5NO3 115.0269
谷氨酰胺 Q C5H8N2O2 128.0586
赖氨酸 K C6H12N2O 128.095
谷氨酸 E C5H7NO3 129.0426
甲硫氨酸 M C5H9NOS 131.0405
组氨酸 H C6H7N3O 137.0589
苯丙氨酸 F C9H9NO 147.0684
精氨酸 R C6H12N4O 156.1011
酪氨酸 Y C9H9NO2 163.0633
色氨酸 W C11H10N2O 186.0793
4)匹配打分:
基于步骤3)中的理论谱库与完整蛋白的top-down实验MS/MS谱图进行匹配(匹配质量偏差阈值为10ppm),理论谱库中得分最高的“刻度尺”对应的序列即为蛋白末端序列,匹配打分的基准为:
a.完整的待测未知蛋白的质谱结果在与N末端肽和/或C末端肽对应的理论质荷比检测到匹配的峰越多,该候选肽的得分越高;具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分,可认为是高匹配,在5ppm~20ppm范围内匹配得分为8分,可认为是中匹配;超出20ppm得分为0;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;具体标准为完整蛋白的质谱图中匹配的峰相对强度在50%以上得5分,在10%~50%得3分,其它不得分;
c.存在连续匹配的b和/或y序列离子,得分越高;具体标准为存在连续的离子依次加5分,例如连续b2/b3加5分,连续b2/b3/b4加10分,出现断续的序列离子例如b2,b4,在本次的打分中不加分;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,可以将质荷比进行整体平移,继续进行匹配打分,平移的分子量为蛋白末端修饰带来的影响。
N端/C端候选肽与完整蛋白的序列离子匹配最优结果如图2,图3所示,图2为N段候选肽(MDIGINS)的碎裂谱图中质荷比信息,具体见表2,图3为C端候选肽(LTASNTHYSSAVK)的碎裂谱图中质荷比信息,具体见表3,图4为完整蛋白的碎裂谱图中质荷比信息,与候选肽对比匹配及打分结果如表4和表5所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表2
表3
表4
表5
实施例2
本实施例以某已知蛋白核呼吸因子-1(NRF1)的重组表达片段为例,验证本发明检测蛋白末端氨基酸序列的方法,该蛋白序列如下所示:
GGIPVSVDKMTQAQLRAFIPEMLKYSTGRGKPGWGKESCKPIWWPEDIPWANVRSDVRTEEQKQRVSWTQALRTIVKNCYKQHGREDLLYAFED。
具体检测方法参照实施例1。
图5为完整蛋白的碎裂谱图中质荷比信息,其中m/z:400-700区域局部放大浏览图如图6所示,与候选肽对比匹配及打分结果如表6和表7所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表6
表7
实施例3
本实施例对实际生产的抗体的Fab端样本为例进行检测,验证本发明检测蛋白末端氨基酸序列的方法,该抗体的Fab端的序列如下所示:
AVLTQTPSPVSAAVGGTVTISITCRASQDIGNRLAYQQKPGQPPKLLIYLASTLASGVPDRFSGSNFGNTATISGVQYYCGRALLYCAHLGGGDDDADSAFGGGTEVVVK。
具体检测方法参照实施例1。
图7为完整蛋白的碎裂谱图中质荷比信息,与候选肽对比匹配及打分结果如表8和表9所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表8
表9
综上所述,本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法,对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记,并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对,巧妙基于质荷比信息进行匹配打分,能够高效、准确地确定N端肽和C端肽,不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (7)

1.一种检测蛋白末端氨基酸序列的方法,其特征在于,所述方法包括:
用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
用质谱分析技术分析所述肽段,得到质谱结果,对肽段信号强度进行筛选,删除一级谱图中相对强度低于5%的肽段,基于所述质谱结果使用从头测序软件进行检索,对从头测序得到的肽段,根据软件从头测序给出序列的得分信息,删除可信度低于50%的肽段,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,删除来自已知的污染蛋白库的肽段,得到相应匹配的肽段,得到肽段库;
根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;
将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列;
所述筛选标记的方法包括:
在筛选标记之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
所述匹配打分的标准包括:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,且质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分。
2.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述酶消化法包括:
将待测蛋白质与酶混合进行反应。
3.根据权利要求2所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。
4.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述质谱结果包括分子量和质谱图。
5.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种。
6.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
7.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述方法包括以下步骤:
(1)用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
(2)用质谱分析技术分析所述肽段,得到质谱结果,对肽段信号强度进行筛选,删除一级谱图中相对强度低于5%的肽段,基于所述质谱结果使用从头测序软件进行检索,对从头测序得到的肽段,根据软件从头测序给出序列的得分信息,删除可信度低于50%的肽段,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,对Uniprot数据库检索结果,删除来自已知的污染蛋白库的肽段,得到相应匹配的肽段,得到肽段库;
(3)根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
(4)将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分;
得分最高的N末端肽或C末端肽即为该蛋白的末端序列;
所述酶消化法包括:将待测蛋白质与酶混合进行反应;
所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合;
所述质谱结果包括分子量和质谱图;
所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种;
所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
CN202310422124.8A 2023-04-19 2023-04-19 一种检测蛋白末端氨基酸序列的方法 Active CN116465992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310422124.8A CN116465992B (zh) 2023-04-19 2023-04-19 一种检测蛋白末端氨基酸序列的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310422124.8A CN116465992B (zh) 2023-04-19 2023-04-19 一种检测蛋白末端氨基酸序列的方法

Publications (2)

Publication Number Publication Date
CN116465992A CN116465992A (zh) 2023-07-21
CN116465992B true CN116465992B (zh) 2024-02-09

Family

ID=87174848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310422124.8A Active CN116465992B (zh) 2023-04-19 2023-04-19 一种检测蛋白末端氨基酸序列的方法

Country Status (1)

Country Link
CN (1) CN116465992B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014052331A (ja) * 2012-09-10 2014-03-20 Shimadzu Corp アミノ酸配列解析方法及び装置
CN104483374A (zh) * 2014-12-02 2015-04-01 北京大学 一种用maldi-tot-tof质谱对蛋白质n端序列进行从头测序的方法和试剂盒
JP2015230262A (ja) * 2014-06-05 2015-12-21 株式会社島津製作所 質量分析データ解析方法及び装置
CN112986570A (zh) * 2019-12-02 2021-06-18 中国科学院大连化学物理研究所 基于肽段两末端准等重双标记用于氨基酸序列测定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543929B2 (ja) * 2005-01-04 2010-09-15 日本電気株式会社 タンパク質の解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014052331A (ja) * 2012-09-10 2014-03-20 Shimadzu Corp アミノ酸配列解析方法及び装置
JP2015230262A (ja) * 2014-06-05 2015-12-21 株式会社島津製作所 質量分析データ解析方法及び装置
CN104483374A (zh) * 2014-12-02 2015-04-01 北京大学 一种用maldi-tot-tof质谱对蛋白质n端序列进行从头测序的方法和试剂盒
CN112986570A (zh) * 2019-12-02 2021-06-18 中国科学院大连化学物理研究所 基于肽段两末端准等重双标记用于氨基酸序列测定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
互补多酶解法在蛋白质C末端质谱检测中的应用;杨洁;姚树森;赵永强;薛燕;李萍;;分析化学;第39卷(第04期);486-490 *

Also Published As

Publication number Publication date
CN116465992A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Yan et al. Mass spectrometry-based quantitative proteomic profiling
US7783429B2 (en) Peptide sequencing from peptide fragmentation mass spectra
JP4290003B2 (ja) 質量標識体
Quadroni et al. Analysis of global responses by protein and peptide fingerprinting of proteins isolated by two‐dimensional gel electrophoresis: application to the sulfate‐starvation response of Escherichia coli
US8643274B2 (en) Methods for Chemical Equivalence in characterizing of complex molecules
US9476888B2 (en) Method and antibodies for the identification of ubiquitinated proteins and sites of ubiquitination
US7163803B2 (en) Method for characterizing polypeptides
CN112986570B (zh) 基于肽段两末端准等重双标记用于氨基酸序列测定方法
US8497630B2 (en) Methods of analyzing peptide mixtures
EP1617223A2 (en) Serial derivatization of peptides for "de Novo" sequencing using tandem mass spectrometry
CN109187783A (zh) 鹿胶特征肽及鉴定待测样品中是否包含鹿胶的方法
van Striena et al. Identification of POMC processing products in single melanotrope cells by matrix-assisted laser desorption/ionization mass spectrometry
CN116465992B (zh) 一种检测蛋白末端氨基酸序列的方法
Longuespée et al. Spectroimmunohistochemistry: a novel form of MALDI mass spectrometry imaging coupled to immunohistochemistry for tracking antibodies
Yamamoto et al. Middle-Down and Chemical Proteomic Approaches to Reveal Histone H4 Modification Dynamics in Cell Cycle Label-Free Semi-Quantification of Histone Tail Peptide Modifications Including Phosphorylation and Highly Sensitive Capture of Histone PTM Binding Proteins Using Photo-Reactive Crosslinkers
US7244411B2 (en) Method of selective peptide isolation for the identification and quantitative analysis of proteins in complex mixtures
Conrotto et al. Sulfonation chemistry as a powerful tool for MALDI TOF/TOF de novo sequencing and post-translational modification analysis
Schweigert Characterisation of protein microheterogeneity and protein complexes using on-chip immunoaffinity purification-mass spectrometry
CN111735891A (zh) 家禽源的特征性胶原肽及在胶原水解物和其制品检测中的应用
CN117417405B (zh) 一种基于酪氨酸衍生化的肽段标记方法及其在蛋白质检测中的应用
US20040121477A1 (en) Method for improving data dependent ion selection in tandem mass spectroscopy of protein digests
CN112763644B (zh) 一种用于检测驴奶粉中掺入牛奶粉的特征肽组合物及检测方法
Yagüe et al. Oxidation of carboxyamidomethyl cysteine may add complexity to protein identification
CN117607307A (zh) 一种单克隆抗体从头测序的方法及其应用
KR20110121842A (ko) 펩티드 아미노기 치환용 화합물 엔-메틸피페라진 아세트산의 동위 이성질체 및 질량 분석기를 이용한 펩티드 정량 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200120, Room 801, 8th Floor, No. 1, Lane 795, Kangwei Road, Pudong New Area, Shanghai

Applicant after: Shanghai Kuaixu Biotechnology Co.,Ltd.

Address before: 200120, Building B, 5th Floor, No. 1, Lane 1238, Zhangjiang Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant before: Shanghai Kuaixu Biotechnology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant