CN115326945A

CN115326945A - 一种基因突变相关蛋白质n-糖基化的结构特异分析方法

Info

Publication number: CN115326945A
Application number: CN202210736371.0A
Authority: CN
Inventors: 马浩伟
Original assignee: Hanno Biotechnology Suzhou Co ltd
Current assignee: Hanno Biotechnology Suzhou Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-11

Abstract

本发明公开了一种基因突变相关蛋白质N‑糖基化的结构特异分析方法，包括如下步骤：基于现有的理论蛋白质数据库中被注释突变位点的蛋白质，筛选和建立基因突变相关N‑糖肽理论数据库；基于该基因突变相关N‑糖肽理论数据库，对待测样本N‑糖肽通过液相色谱‑质谱联用分析方法获得的数据组进行数据库定性定量搜索；基于串级质谱结构指纹信息对所鉴定的N‑糖肽的N‑糖基化位点和N‑连接糖序列结构进行确认；基于所确认的特征多肽序列筛选基因突变相关N‑糖蛋白。该方法大大提高了基因突变相关N‑糖蛋白的分析速度和准确度，为相关结构和功能研究提供了基础。

Description

一种基因突变相关蛋白质N-糖基化的结构特异分析方法

技术领域

本发明属于蛋白结构特异分析技术领域，尤其涉及一种基因突变相关蛋白质N-糖基化的结构特异分析方法。

背景技术

N-糖基化是蛋白质上一种常见的翻译后修饰；糖链选择性修饰在序列子N-X-S/T/C(X≠P)中的N上，其中N、S、T、C和P分别代表天冬酰胺、丝氨酸、苏氨酸、半胱氨酸和脯氨酸。基因突变引起的对应的氨基酸的变化如果发生在N-糖基化序列子上则会导致该N-糖基化的丢失和/或带来新的N-糖基化；基因突变引起的对应的氨基酸的变化如果发生在非N-糖基化序列子上但产生了新的N-糖基化的序列子，则会带来新的N-糖基化。对这些基因突变相关丢失或获得的N-糖基化进行分析，则可以研究基因突变相关N-糖蛋白的结构和功能。

现有方法采用生化点突变的方法，每次将一个位点上的N突变成其他不可糖基化修饰的氨基酸(如A，丙氨酸)，然后判定相应的糖基化变化；这种分析方法分析通量低，成本高。针对上述问题，有必要提出进一步的解决方案。

发明内容

为解决上述技术问题，本发明的目的在于提供一种基因突变相关蛋白质N-糖基化的结构特异分析方法，该方法大大提高了基因突变相关N-糖蛋白的分析速度和准确度，为相关结构和功能研究提供了基础。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基因突变相关蛋白质N-糖基化的结构特异分析方法，包括如下步骤：

(1)基于现有的理论蛋白质数据库中被注释突变位点的蛋白质，筛选和建立基因突变相关N-糖肽理论数据库；

(2)基于该基因突变相关N-糖肽理论数据库，对待测样本N-糖肽通过液相色谱-质谱联用分析方法获得的数据组进行数据库定性定量搜索；

(3)基于串级质谱结构指纹信息对所鉴定的N-糖肽的N-糖基化位点和N-连接糖序列结构进行确认；

(4)基于所确认的特征多肽序列筛选基因突变相关N-糖蛋白。

进一步的，步骤(1)的具体过程为：基于现有的理论蛋白质数据库文件，遴选出被注释突变位点的蛋白质；将已突变氨基酸替换原始氨基酸并生成带突变氨基酸的新氨基酸序列；对新氨基酸序列进行N-糖基化序列子的筛选；将新氨基酸序列的N-糖基化序列子与原氨基酸序列的N-糖基化序列子进行对比，筛选出基因突变相关N-糖蛋白，建立基因突变相关N-糖肽理论数据库。

更进一步的，基因突变相关N-糖肽理论数据库的建立依据蛋白质酶切规则，并结合理论N-连接糖数据库。

进一步的，基因突变形式包括但不限于MUTAGEN、VAR_SEQ以及VARIANT。

进一步的，所述串级质谱结构指纹信息包括特征氨基酸序列碎片离子、翻译后修饰位点决定性碎片离子和翻译后修饰结构诊断碎片离子

进一步的，在进行数据库定性定量搜索时，前体离子和碎片离子质谱允许偏差20ppm，并基于靶向-诱饵搜索控制假阳性不大于1％。

进一步的，在进行数据库定性定量搜索时，控制基于位点决定性碎片离子的位点打分和基于结构诊断碎片离子的结构打分均不小于1。

进一步的，所述理论蛋白质数据库为UniProt蛋白质数据库。

本发明的有益效果是：

1)本发明预先筛选基因突变相关N-糖基化，并建立相应的N-糖肽理论数据库，用于待测样本N-糖肽液相色谱-质谱数据组的靶向搜索，大大缩小搜索空间，提高搜索通量；

2)本发明基于串级质谱结构指纹信息对所鉴定的N-糖肽的N-糖基化位点和N-连接糖序列结构进行确认，有助于明确区分邻近的多个潜在N-糖基化位点以及一个单糖组成对应的多个可能单糖序列结构；

3)本发明基于特征多肽序列有助于明确区分基因突变相关N-糖蛋白，为下游正交验证提供了准确的验证目标。

本发明通过上述优势的综合最终大大提高了基因突变相关N-糖蛋白分析的速度和准确度，为相关结构和功能研究提供了基础。

本发明的方法可适用于任何生物体基因突变相关N-糖蛋白的分析；

本发明的方法可适用于任何能带来氨基酸变化的基因突变(如在UniProt(www.uniprot.org)蛋白质数据库中，包括但不局限于MUTAGEN、VARIANT和VAR_SEQ)；

本发明的方法适用于基因突变相关N-糖蛋白的定性和定量分析，同时适用于任何能在N-连接糖、N-糖肽和N-糖蛋白分子水平上对基因突变相关N-糖基化进行定性定量搜索的搜索工具。

本发明的方法适用于基因突变相关N-糖蛋白在N-连接糖，N-糖肽和N-糖蛋白分子水平上的分析，同时适用于基因突变相关N-糖蛋白N-糖基化和其他共存的蛋白质信息(如氨基酸变化、其他翻译后修饰、人为标记等)的全面分析。

附图说明

图1为本发明分析方法的流程示意图。

具体实施方式

下面将结合具体实施例对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基因突变相关蛋白质N-糖基化的结构特异分析方法，包括如下步骤：

(4)基于所确认的特征多肽序列筛选基因突变相关N-糖蛋白。

其中，步骤(1)的具体过程为：基于现有的理论蛋白质数据库文件，遴选出被注释突变位点的蛋白质；将已突变氨基酸替换原始氨基酸并生成带突变氨基酸的新氨基酸序列；对新氨基酸序列进行N-糖基化序列子的筛选；将新氨基酸序列的N-糖基化序列子与原氨基酸序列的N-糖基化序列子进行对比，筛选出基因突变相关N-糖蛋白，建立基因突变相关N-糖肽理论数据库。

其中，基因突变相关N-糖肽理论数据库的建立依据蛋白质酶切规则，并结合理论N-连接糖数据库。

其中，基因突变形式包括但不限于MUTAGEN、VAR_SEQ以及VARIANT。

所述串级质谱结构指纹信息包括特征氨基酸序列碎片离子、翻译后修饰位点决定性碎片离子和翻译后修饰结构诊断碎片离子

步骤(2)中，在进行数据库定性定量搜索时，前体离子和碎片离子质谱允许偏差20ppm，并基于靶向-诱饵搜索控制假阳性不大于1％；在进行数据库定性定量搜索时，控制基于位点决定性碎片离子的位点打分和基于结构诊断碎片离子的结构打分均不小于1。

其中，所述理论蛋白质数据库优选为UniProt蛋白质数据库。

实施例

下面将结合人类耐药乳腺癌细胞中基因突变相关蛋白质N-糖基化在N-糖肽水平上的定性鉴定为例。

基于现有的UniProt(https://www.uniprot.org)人体理论蛋白质数据库文件，遴选出被注释突变位点的蛋白质；将已突变氨基酸替换原始氨基酸并生成带突变氨基酸的新氨基酸序列；对新氨基酸序列进行N-糖基化序列子N-X-S/T/C(X≠P)的筛选；将新氨基酸序列的N-糖基化序列子与原氨基酸序列的N-糖基化序列子进行对比，并按照蛋白质酶切规则(如胰蛋白酶酶切赖氨酸和精氨酸的C端)，结合人体理论N-连接糖数据库筛选出基因突变相关N-糖蛋白，建立基因突变相关人体N-糖肽理论数据库。

基于当前(2022年6月7日)Uniprot蛋白质数据库以homo sapiens为物种名进行筛选并限制，经过人工确认(reviewed)共有20386条蛋白序列；考虑MUTAGEN、VAR_SEQ以及VARIANT三种突变形式，使用胰蛋白酶酶切并允许一个漏切位点，共筛选出8130条上述三种突变带来的新增的理论N-糖肽，部分代表列举于表1。

表1

基于上述基因突变相关N-糖肽理论数据库，使用N-糖肽搜索引擎GPSeekerPro对公开的人耐药乳腺癌细胞N-糖肽液相色谱-质谱联用分析数据组(Quantitative N-glycoproteomics study of cell-surface N-glycoprotein markers of MCF-7/ADRcancer stem cells.Analytical and Bioanalytical Chemistry,2020,412,2423–2432)进行数据库搜索；设置前体离子和碎片离子质谱允许偏差20ppm，并基于靶向-诱饵搜索控制假阳性不大于1％；控制基于位点决定性碎片离子的位点打分和基于结构诊断碎片离子的结构打分均不小于1。共获得了42条基因突变相关N-糖肽，如表2所示；该42条基因突变相关N-糖肽对应于14个N-糖蛋白(包括P10242、Q6PHR2、P02671、Q14524、P23193、Q96FC9、Q8N6H7、Q14BN4、O95834、Q86SQ6、Q8NCG7、Q13362、Q9Y2K7、P05155)。以P10242为例，多肽骨架FNGTSIR中的基因突变相关660号N-糖基化位点N-G-T来自于原蛋白序列中567到640号氨基酸的VAR_SEQ型氨基酸变化(NILTSSVLMAPASEDEDNVLKAFTVPKNRSLASPLQPCSSTWEPASCGKMEEQMTSSSQARKYVNAFSARTLVM->TGVQWHDFGSLQPLPPGFKRFSCLSLPRSWDYRHPPPRPANFEFLVETGFLHVGQAGLELLTSGDLPASASQSARITGVSHRARPEYSYKLRFNGTSIRR)。

表2

本发明的分析方法基于基因突变相关N-糖基化的筛选，基于N-糖肽搜索引擎建立基因突变相关N-糖肽理论数据库，并基于该数据库对待测样本N-糖肽液相色谱-质谱数据组进行靶向定性定量搜索，基于串级质谱结构指纹信息对所鉴定N-糖肽的N-糖基化位点和N-连接糖序列结构进行确认，基于特征多肽序列筛选基因突变相关N-糖蛋白，有效提高了基因突变相关蛋白质N-糖基化的鉴定准确度和效率。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，包括如下步骤：

(4)基于所确认的特征多肽序列筛选基因突变相关N-糖蛋白。

2.根据权利要求1所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，步骤(1)的具体过程为：基于现有的理论蛋白质数据库文件，遴选出被注释突变位点的蛋白质；将已突变氨基酸替换原始氨基酸并生成带突变氨基酸的新氨基酸序列；对新氨基酸序列进行N-糖基化序列子的筛选；将新氨基酸序列的N-糖基化序列子与原氨基酸序列的N-糖基化序列子进行对比，筛选出基因突变相关N-糖蛋白，建立基因突变相关N-糖肽理论数据库。

3.根据权利要求2所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，基因突变相关N-糖肽理论数据库的建立依据蛋白质酶切规则，并结合理论N-连接糖数据库。

4.根据权利要求2所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，基因突变形式包括但不限于MUTAGEN、VAR_SEQ以及VARIANT。

5.根据权利要求1所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，所述串级质谱结构指纹信息包括特征氨基酸序列碎片离子、翻译后修饰位点决定性碎片离子和翻译后修饰结构诊断碎片离子。

6.根据权利要求5所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，在进行数据库定性定量搜索时，前体离子和碎片离子质谱允许偏差20ppm，并基于靶向-诱饵搜索控制假阳性不大于1％。

7.根据权利要求5所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，在进行数据库定性定量搜索时，控制基于位点决定性碎片离子的位点打分和基于结构诊断碎片离子的结构打分均不小于1。

8.根据权利要求1所述的一种基因突变相关蛋白质N-糖基化的结构特异分析方法，其特征在于，所述理论蛋白质数据库为UniProt蛋白质数据库。