CN115112778B

CN115112778B - 一种疾病蛋白质生物标志物鉴定方法

Info

Publication number: CN115112778B
Application number: CN202110297187.6A
Authority: CN
Inventors: 刘晓慧; 熊悦婷; 杨芃原
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-08-04
Anticipated expiration: 2041-03-19
Also published as: CN115112778A

Abstract

本发明涉及一种疾病蛋白质生物标志物鉴定方法，包括以下步骤：S1、针对单一或复杂疾病筛选候选蛋白；S2、通过确认疾病靶蛋白，进而预测靶肽段以及其保留时间和可检出性；S3、通过预测靶肽段以及其保留时间和可检出性信息构建靶向蛋白组学方法列表；S4、进行靶向蛋白组学验证。与现有技术相比，本发明的方法可用于复杂疾病相关蛋白的独特性肽段筛选、保留时间预测以及可检出性信息获取，在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。采用本发明的方法，一次PRM分析(60min)可同时采集300‑400条靶肽段，极大地缩短了时间成本与经济成本，说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作，具有广泛适用性。

Description

一种疾病蛋白质生物标志物鉴定方法

技术领域

本发明属于生物技术领域，尤其是涉及一种疾病蛋白质生物标志物鉴定方法。

背景技术

随着质谱技术的快速发展，蛋白质组学研究产生了数以千计的候选蛋白标志物(Polanski M,Anderson N L.A List of Candidate Cancer Biomarkers for TargetedProteomics[J].Biomarker Insights,2006,1(2):1-48.；Lee B T K,Liew L,Lim J,etal.Candidate List of yoUr Biomarker(CLUB):A Web-based Platform to Aid CancerBiomarker Research[J].Biomarker insights,2008,3(3):65-71.)。遗憾的是，寥寥无几的候选标志物能成功转化为FDA批准的临床标志物(Anderson N L.The Clinical PlasmaProteome:A Survey of Clinical Assays for Proteins in Plasma and Serum[J].Clinical Chemistry,2010,56(2):177.；Anderson,Leigh.Six decades searching formeaning in the proteome[J].Journal of Proteomics,2014,107:24-30.)。一个重要的原因是缺乏强大的蛋白质定量工具，无法在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。

近年来，靶向蛋白质组学技术已成为一种功能强大的蛋白质定量工具，诸如选择反应监测(Selected Reaction Monitoring，SRM)，多反应监测(Multiple ReactionMonitoring，MRM)以及平行反应监测(Parallel Reaction Monitoring，PRM)之类的靶向蛋白质组学方法越来越受欢迎，因为它们可以对预先选择的蛋白质进行灵敏而快速的分析(Shi T,Song E,Nie S,et al.Advances in targeted proteomics and applications tobiomedical research[J].other,2016,16(15-16).；Peterson A C,Russell J D,BaileyD J,et al.Parallel Reaction Monitoring for High Resolution and High MassAccuracy Quantitative,Targeted Proteomics[J].Molecular&Cellular ProteomicsMcp,2012,11(11):1475.；Picotti P,Aebersold R.Selected reaction monitoring-based proteomics:workflows,potential,pitfalls and future directions[J].NatureMethods,2012,9(6):555.)。然而，SRM和MRM两种方法都需要根据先前的实验、科学文献或以往的知识来预先选择目标蛋白的目标肽段和最佳母子离子，优化分析参数，而后进行分析检测与定量蛋白质。

尽管目前有诸多蛋白质组学数据库可供用户选择最佳母子离子，如SRMAtlas(Kusebauch U,Campbell D,Deutsch E,et al.Human SRMAtlas:A Resource of TargetedAssays to Quantify the Complete Human Proteome[J].Cell,2016,166(3):766-778.)和ProteomeTools(Zolg D P,Wilhelm M,Schnatbaum K,et al.Building ProteomeToolsbased on a complete synthetic human proteome[J].Nature Methods,2017,14(3):259-262.)，然而这二者无法用于提取特定蛋白质的相关数据。PRM与上述两种方法唯一的区别是在质量分析器中每种母离子都获得了完整的MS/MS谱图，有效地解决了SRM/MRM仅能监测预定义子离子的局限性。但是，这三种方法均受到定量规模(即多路复用能力)的限制。于复杂样品而言，一次SRM/MRM/PRM分析至多可监测50条肽段(未知保留时间时)，这极大地增加了大规模样品靶向定量的时间成本和经济成本。

因此，亟需开发一种经济有效、通量高且适用于所有实验室的靶向蛋白组学技术。

发明内容

为了克服目前基于传统SRM/MRM/PRM质谱检测技术成本高、耗时长、通量低等问题，本发明提供一种疾病蛋白质生物标志物鉴定方法。

本发明的疾病蛋白质生物标志物鉴定方法具有低成本、高效率、且适用于所有实验室的优势，具有广泛适用性，为一种新型靶向蛋白质组技术(DeepPRM)。

本发明疾病蛋白质生物标志物鉴定方法，主要通过机器学习方法预测靶蛋白的靶肽段，且同时获取靶肽的保留时间和可检出性，极大地缩减了时间成本并提高通量；同时该方法无需合成标准肽段来确证靶肽的真实性，极大地降低了经济成本。因此该方法特别适用于复杂疾病(如颅内动脉瘤，intracranial aneurysm，IA)的大规模样本的靶向蛋白质组学研究。

本发明的目的可以通过以下技术方案来实现：

本发明提供一种疾病蛋白质生物标志物鉴定方法，包括以下步骤：

S1、针对单一或复杂疾病筛选候选蛋白；

S2、通过确认疾病靶蛋白，进而预测靶肽段以及其保留时间和可检出性；

S3、通过预测靶肽段以及其保留时间和可检出性信息构建靶向蛋白组学方法列表；

S4、进行靶向蛋白组学验证。

在本发明的一个实施方式中，步骤S1中，联合基于疾病组织样本的潜在蛋白标志物、基于疾病血清样本的潜在蛋白标志物及基于文献调研筛选的潜在蛋白标志物来综合确定单一或复杂疾病的候选蛋白。

在本发明的一个实施方式中，步骤S1中，基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物。

在本发明的一个实施方式中，步骤S1中，基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物。

在本发明的一个实施方式中，步骤S1中，基于爬虫技术发现公开的文献，筛选与疾病相关的潜在蛋白标志物。

在本发明的一个实施方式中，步骤S1中，疾病组织蛋白组、疾病血清蛋白组候选蛋白的筛选方法包括但不限于质谱检测、试剂盒检测、芯片检测、试纸检测或其他高通量测序平台。

在本发明的一个实施方式中，步骤S2中，通过Uniprot数据库获取靶蛋白的fasta(.fasta)文件，输入到深度神经网络中，得到靶蛋白的特异性靶肽段以及其保留时间和可检出性信息；其中，靶蛋白的数量无限制。

在本发明的一个实施方式中，步骤S3中，通过预测得到的靶肽段以及其质荷比、电荷数、保留时间、可检出性等信息构建后续靶向蛋白组学方法列表，以供更加快速便捷的进行靶向蛋白组学验证。

在本发明的一个实施方式中，步骤S4中，靶向蛋白组学验证方法包括但不限于基于三重四极杆质谱仪(QqQ MS)的选择反应监测(Selected Reaction Monitoring，SRM)和多反应监测(Multiple Reaction Monitoring，MRM)、基于高分辨Orbitrap质谱仪的平行反应监测(Parallel Reaction Monitoring，PRM)以及基于tims-TOF Pro的平行反应监测-同步累积连续碎裂(PRM-PASEF)。

在本发明的一个实施方式中，基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物的方法如下：

(1)蛋白提取、还原烷基化、酶解以及肽段除盐：使用市售的iST试剂盒(PreOmicsGmbH,Germany)对疾病组织进行蛋白提取；

(2)质谱检测：

仪器型号：Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA)；

色谱柱型号：25cm C18色谱分离柱(2μm,75μm,x 500mm，Thermo FisherScientific,USA)；

流速：300nL；

分离总时间：130min。

(3)搜库分析与定量：

获得的各组分原始谱图使用Proteome discoverer软件(v2.4)加工处理进行数据库检索鉴定蛋白和相对定量分析，Protein假阳性率FDR设定为1％，其余搜库参数如下：数据库为Uniprot蛋白质数据库，胰酶酶切、一级质谱质量误差为10ppm，二级质谱质量误差为0.02Da；将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估，将定量结果进行t-test统计分析；将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白，从而得到疾病组与比较组表达的变化情况。

(4)生物信息学分析：将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析，确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。

在本发明的一个实施方式中，基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物的方法如下：

(1)血清样品去除高丰度蛋白；

(2)蛋白定量、还原烷基化、酶解：取上步所得样品使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定样品蛋白浓度，然后取蛋白，用TEAB稀释，加入二硫苏糖醇，进行还原反应；而后向上述混合物中加入碘乙酰胺进行烷基化反应，室温避光反应，还原和烷基化的蛋白混合物洗涤、离心后用TEAB稀释，加入Lys-C，酶解，加入胰蛋白酶(Trypsin)，酶解；次日，向酶解后的肽段溶液中加入三氟乙酸以终止酶解，干燥；

(3)TMT标记定量：采用TMT-6标试剂对样品进行标记反应；

(4)高pH反相分馏：为了增加蛋白质鉴定的深度，采用高pH反相液相色谱法对肽段进行分离；

(5)质谱检测：

仪器型号：Orbitrap Fusion质谱仪(Thermo Fisher Scientific,USA)

色谱柱型号：25cm C18色谱分离柱(2μm,75μm,x 250mm，Thermo FisherScientific,USA)

流速：300nL

分离总时间：120min；

(6)搜库分析与定量：

获得的各组分原始谱图使用Proteome discoverer软件(v1.4)加工处理进行数据库检索鉴定蛋白和相对定量分析，Protein假阳性率FDR设定为1％，其余搜库参数如下：数据库为Uniprot蛋白质数据库，胰酶酶切、一级质谱质量误差为10ppm，二级质谱质量误差为0.05Da；将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估，将定量结果进行t-test统计分析；将差异倍数≥1.5倍及≤0.67倍同时统计检验p值≤0.05的蛋白定义为差异蛋白，从而得到颅内动脉瘤组(UR&R)与正常组表达的变化情况，以及破裂动脉瘤组(R)独有的差异蛋白情况(R vs.UR&NC)；

(7)生物信息学分析：将上步所得到的差异蛋白导入String数据库(https://string-db.org/)进行GO功能注释和Pathway分析，确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。

与现有技术相比，本发明具有以下优点及有益效果：

本发明的方法为了生成一个合适的血清谱图库，将获得的目标蛋白的fasta(.fasta)文件输入到深度神经网络中，用于预测靶蛋白的独特性肽段，以及其保留时间信息和碎片离子强度信息。本发明建立一个合适的谱图库模型，不受同一实验室或同一仪器的限制。本发明实施中以胰蛋白酶和胰蛋白酶/P为酶解酶，无漏切，保留氨基酸长度为7-50，质量为≤6000Da的肽段。

采用本发明的方法，一次PRM分析(60min)可同时采集300-400条靶肽段，极大地缩短了时间成本与经济成本，说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。

本发明的方法可用于复杂疾病相关蛋白的独特性肽段筛选、保留时间预测以及可检出性信息获取，在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。

本发明的技术优势在于：1)通量高且减少时间成本：通过机器学习预测目的肽段保留时间信息，使得单针PRM可以同时检测300-400个目的肽段，优于在未知保留时间情况下，传统PRM单针只能检测约10-20个目的肽段；2)降低经济成本：不需要依赖昂贵的标准品合成来获取目的肽段的保留时间信息，进而验证靶肽段真实性，极大地降低了科研经济成本；3)适用范围广：此方法适用于所有实验室的任何一种型号的质谱仪，只需要用以往在此台仪器上测试过的样本进行模型训练即可建立预测模型以用于后续目的肽段的保留时间预测及可检出性信息获取。

附图说明

图1颅内动脉瘤组织蛋白组丰度跨越图；

图2颅内动脉瘤组织蛋白组火山图；

图3颅内动脉瘤血清蛋白组丰度跨越图；

图4颅内动脉瘤血清蛋白组火山图：(A)为IA(UR&R)vs.NC；(B)为R vs.(UR&NC)；

图5颅内动脉瘤候选蛋白生物标志物库；

图6 DeepPRM方法示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例1

构建颅内动脉瘤候选生物标志物库

为了构建一个全面的IA候选生物标志物，本发明系统地分析了疾病器官和循环系统的蛋白质组变化，并对文献报道的候选生物标志物进行了总结。血清/血浆蛋白生物标志物是应用最广泛的生物标志物，适用于疾病分类和治疗决策，并具有最广泛的诊断潜力。血清蛋白组可以分为三类：第一类是血清中的功能蛋白、第二类是组织泄漏蛋白、第三类是信号分子。对于IA组织中的失调蛋白，选择组织泄漏到血清中的差异蛋白作为候选的生物标志物。为此，联合GO数据库和SignalP数据库分析IA组织中的失调蛋白，得到373个潜在的组织泄露蛋白，被纳入IA候选生物标志物库。同样地，来源于文献调研的446个蛋白中，有239个被预测为组织泄露蛋白，并被纳入IA候选生物标志物库。

因此，373个来源于IA组织蛋白组的潜在组织泄露蛋白，144个来源于IA血清蛋白组的循环蛋白以及239个来源于文献的潜在组织泄漏蛋白共同构建为含717个候选蛋白的IA生物标志物库。

具体实验步骤如下：

1、基于Lable free技术发现颅内动脉瘤组织样本的潜在蛋白标志物

(1)蛋白提取、还原烷基化以、酶解以及肽段除盐：使用市售的iST试剂盒(PreOmics GmbH,Germany)对五例颅内动脉瘤组织(IA)和五例与之匹配的颞浅动脉组织(STA,作为正常对照)进行蛋白提取；简单地说，将0.83-2mg的微量组织装载至1.5mL EP管中，加入iST试剂盒中的Lyse缓冲液，放入95℃中反应10分钟，而后进行超声操作(30s,10个循环)，然后将样品转移至StageTips中，加入iST试剂盒自带的Digest缓冲液，在37℃条件下酶解3h；之后加入Stop缓冲液以停止酶解，然后使用试剂盒中自带的两种Wash缓冲液进行肽段除盐，洗脱后的肽段经过真空离心干燥，然后使用LC-Loading缓冲液复溶样品，等待后续质谱上机检测。

(2)质谱检测：

仪器型号：Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA)

色谱柱型号：25cm C18色谱分离柱(2μm,75μm,x 500mm，Thermo FisherScientific,USA)

流速：300nL

分离总时间：130min

(3)搜库分析与定量：

获得的各组分原始谱图使用Proteome discoverer软件(v2.4)加工处理进行数据库检索鉴定蛋白和相对定量分析，Protein假阳性率FDR设定为1％，其余搜库参数如下：数据库为Uniprot蛋白质数据库，胰酶酶切、一级质谱质量误差为10ppm，二级质谱质量误差为0.02Da；将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估，将定量结果进行t-test统计分析；将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白，从而得到颅内动脉瘤组与颞浅动脉组表达的变化情况。

(4)生物信息学分析：将上步所得到的差异蛋白导入String数据库(https://string-db.org/)进行GO功能注释和Pathway分析，确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。

2、基于TMT标记定量技术发现颅内动脉瘤血清样本的潜在蛋白标志物

(1)血清样品去除高丰度蛋白：为了更加全面地研究颅内动脉瘤血清蛋白质组的变化，我们使用60例血清样品，每10例混合设置了6个组别：10例破裂动脉瘤组(R1)、10例破裂动脉瘤组(R2)、10例未破裂动脉瘤组(UR1)、10例未破裂动脉瘤组(UR2)、10例正常人组(NC1)以及10例正常人组(NC2)。使用市售的去高丰度旋转小柱(High-Select^TM TOP12Abundant Protein Depletion Spin Columns,Thermo Fisher Scientific,USA)分别去除6组样品(R1、R2、UR1、UR2、NC1、NC2)中的高丰度蛋白。

(2)蛋白定量、还原烷基化、酶解：取上步所得6个样品使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定样品蛋白浓度，然后分别取等量(100μg)蛋白，用100mM TEAB稀释至1μg/μL，加入终浓度为15mM二硫苏糖醇(DTT)，在37℃条件下进行还原反应1h。而后向上述混合物中加入终浓度为30mM碘乙酰胺(IAA)进行烷基化反应，室温避光30min。还原和烷基化的蛋白混合物用100mM TEAB洗涤三次，4℃，12000g离心20分钟。然后用100mM TEAB稀释样品至1μg/μL，以质量比1:100(酶:蛋白)加入Lys-C，37℃酶解2h，以质量比1:50(酶:蛋白)加入胰蛋白酶(Trypsin)，37℃过夜酶解。次日，向酶解后的肽段溶液中加入三氟乙酸(TFA，终浓度为0.5％)以终止酶解，然后在旋转真空浓缩器(Christ，德国)上干燥。

(3)TMT标记定量：采用TMT-6标试剂对上述6组样品进行标记反应(126-NC1、127-UR1、128-R1、129-NC2、130-UR2、131-R2)。具体操作如下：取0.8mg TMT试剂溶解于41μL无水乙腈中，然后加入90μg肽(溶解于100μL100 mM TEAB中)，使最终乙腈浓度约为30％(v/v)。室温孵育1h后，加入8μL 5％羟胺，孵育15分钟以终止标记反应。而后将6组标记的肽段混合在一起，然后在旋转真空浓缩器(Christ，德国)上干燥，最后进行C18固相萃取脱盐(WAT023590,Waters,Milford,MA)。

(4)高pH反相分馏：为了增加蛋白质鉴定的深度，采用高pH反相液相色谱法对肽段进行分离。采用高pH RPLC柱(Waters,Xbridge C18 3.5μm,150×2.1mm)，流速为200μL/min,UPLC系统(Waters,Milford,MA,USA)对540μg TMT 6-标标记肽进行分离。采用溶剂A(2％乙腈，pH 10.0)和溶剂B(98％乙腈，pH 10.0)进行多肽分离。设置70min梯度，0％-5％B,6min；5％-25％B 44min；25％-35％B 7min；35％-50％B在4分钟；50％-90％B在1分钟内；90％B,2分钟；90％-0％B在0.1min内；收集60个组分，混合到30个组分中进行蛋白质组学分析。

(5)质谱检测：

仪器型号：Orbitrap Fusion质谱仪(Thermo Fisher Scientific,USA)

流速：300nL

分离总时间：120min；

(6)搜库分析与定量：

3、基于文献调研筛选颅内动脉瘤潜在蛋白标志物

为了筛选与颅内动脉瘤相关的候选诊断标志物，系统地搜索了Web of Science和PubMed数据库，关键词包括“intracranial aneurysms”和“proteins”或“genes”。基于爬虫技术发现在2000-2020年间共发表406篇英文论文或综述，与IA相关的蛋白或基因有446个。

实验结果如图1-5所示：

图1为颅内动脉瘤组织蛋白组丰度跨越图。基于严格的质控(FDR1％)，颅内动脉瘤组织蛋白组共鉴定到5915个蛋白，定量到5677个蛋白，这些蛋白的丰度跨越了六个数量级，显示出大脑动脉的深层蛋白组图谱。

经缺失值填充后，对数据集进行了统计分析(Student’s t test)。图2为颅内动脉瘤组织蛋白组火山图。当P value<0.05,Fold-change(IA/STA)>2时，在IA和STA组别中，总共得到724个差异蛋白，占据总蛋白鉴定量的12.2％，其中497(68.6％)个蛋白在IA组下调，227(31.4％)个蛋白在IA组上调。

图3为颅内动脉瘤血清蛋白组丰度跨越图。基于严格的质控(FDR1％)，颅内动脉瘤血清蛋白组共鉴定到1557个蛋白，跨越11个数量级，最低丰度蛋白如MEGF8(4.3pg/mL)；最高丰度的达到了50mg/mL(如血红蛋白和白蛋白)。

经缺失值填充后，对三组数据集进行了两次比较：一次比较是IA(UR&R)versusNC，旨在找出在颅内动脉瘤组中产生变化的蛋白；另一组是R vs.(UR&NC)，旨在找出破裂动脉瘤独有的差异蛋白。图4为颅内动脉瘤血清蛋白组火山图。结果表明，在IA vs.NC中，得到103个差异蛋白(P.adjust<0.05)，其中26个蛋白在IA中上调，74个蛋白在IA中下调(A)；而在R vs.(UR&NC)中，得到53个差异蛋白，其中32个在R组中单独上调，21个在R组中下调(B)。

为了构建一个全面的IA候选生物标志物，系统地分析了疾病器官和循环系统的蛋白质组变化，并对文献报道的候选生物标志物进行了总结。血清/血浆蛋白生物标志物是应用最广泛的生物标志物，适用于疾病分类和治疗决策，并具有最广泛的诊断潜力。血清蛋白组可以分为三类：第一类是血清中的功能蛋白、第二类是组织泄漏蛋白、第三类是信号分子。对于IA组织中的失调蛋白，选择组织泄漏到血清中的差异蛋白作为候选的生物标志物。为此，联合GO数据库和SignalP数据库分析IA组织中的失调蛋白，得到373个潜在的组织泄露蛋白，被纳入IA候选生物标志物库。同样地，来源于文献调研的446个蛋白中，有239个被预测为组织泄露蛋白，并被纳入IA候选生物标志物库。图5为颅内动脉瘤生物标志物库。系统分析了疾病器官和循环系统的蛋白质组变化，并总结了文献报道的候选生物标志物，构建了一个综合性的IA候选生物标志物库(373来自IA组织蛋白组的组织泄漏蛋白，144来自IA血清蛋白组，239来自文献调研的组织泄漏蛋白)。

值得注意的是，上述实施例主要针对筛选颅内动脉瘤的候选生物标志物，有关其他疾病的候选生物标志物筛选方法同样属于本专利的保护范围内。

实施例2 DeepPRM方法

为了克服目前基于传统SRM/MRM/PRM质谱检测技术成本高、耗时长、通量低等问题，本发明提出一种低成本、高效率、且适用于所有实验室的新型靶向蛋白质组技术(DeepPRM)。通过机器学习方法预测靶蛋白的靶肽段，且同时获取靶肽的保留时间和可检出性，极大地缩减了时间成本并提高通量；同时该方法无需合成标准肽段来确证靶肽的真实性，极大地降低了经济成本。因此该方法特别适用于复杂疾病(如颅内动脉瘤，intracranial aneurysm，IA)的大规模样本的靶向蛋白质组学研究。

具体实验步骤如下：

(1)确定靶蛋白：如上述实施例颅内动脉瘤候选生物标志物库中提到的717个靶蛋白；

(2)预测靶肽段：通过Uniprot数据库获取靶蛋白的fasta(.fasta)文件，输入到深度神经网络中，得到靶蛋白的特异性靶肽段；

(3)预测保留时间：同第(2)步；

(4)预测可检出性：同第(2)步；

(5)构建PRM列表：将最终得到的特异性肽段、保留时间信息、质荷比信息、电荷数信息等等整合成PRM列表，为后续PRM验证提供必要信息；

(6)血清样品制备：(1)每个血清样本在4℃，14000g离心30min，去除血清中的脂质分子；(2)使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定212例血清样品的蛋白浓度；(3)取第(2)中所述的每例样品各100μg蛋白，用100mM四乙基溴化铵(TEAB)稀释至1μg/μL；(4)蛋白酶解：向100ug蛋白中加入终浓度为15mM二硫苏糖醇(DTT)，在37℃条件下进行还原反应1h。而后向上述混合物中加入终浓度为30mM碘乙酰胺(IAA)进行烷基化反应，室温避光30min。还原和烷基化的蛋白混合物用100mM TEAB洗涤三次，4℃，12000g离心20分钟。然后用100mM TEAB稀释样品至1μg/μL，以质量比1:100(酶:蛋白)加入Lys-C，37℃酶解2h，以质量比1:50(酶:蛋白)加入胰蛋白酶(Trypsin)，37℃过夜酶解。次日，向酶解后的肽段溶液中加入三氟乙酸(TFA，终浓度为0.5％)以终止酶解，然后在旋转真空浓缩器(Christ，德国)上干燥。

(7)质谱仪器：Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA)；

色谱柱型号：50cm C18色谱分离柱(2μm,75μm,x 500mm，Thermo FisherScientific,USA)；

流速：200nL；

梯度：A相：0.1％FA水溶液；B相：80％ACN。分离梯度0-50％的B相，分离总时间：65min。

(8)数据分析：通过Skyline-daily软件进行数据收集与分析。

将上述717个蛋白的fasta(.fasta)文件输入到深度神经网络中，得到5740个特异性的靶肽段对应712个靶蛋白，如图6。图6为DeepPRM方法，包括预测靶蛋白的靶肽段，以及靶肽段的可检出信息和保留时间信息。

去除含有蛋氨酸、半胱氨酸或其他翻译后修饰位点的多肽，并优先选择具有更高可检出性的多肽，总共1996个独一无二的靶肽经后续PRM验证。结果表明，在混合血清(IA和NC)中最终验证出367条靶肽对应134个靶蛋白，如表1所示。

结果表明，在混合血清(IA和NC)中最终验证出367条靶肽对应134个靶蛋白。说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。后续一针PRM分析(60min)可同时采集367条靶肽段，极大地缩短了时间成本与经济成本，说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。

表1通过DeepPRM方法验证得到的134个蛋白(367条肽段)

值得注意的是，上述实施例主要描述运用DeepPRM方法验证颅内动脉瘤的候选生物标志物，有关其他疾病的候选生物标志物使用DeepPRM验证方法同样属于本专利的保护范围内。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种疾病蛋白质生物标志物鉴定方法，其特征在于，包括以下步骤：

S1、针对单一或复杂疾病筛选候选蛋白；

S4、进行靶向蛋白组学验证；

步骤S2中，通过Uniprot数据库获取靶蛋白的fasta文件，输入到深度神经网络中，得到靶蛋白的特异性靶肽段以及其保留时间和可检出性信息；其中，靶蛋白的数量无限制。

2.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，联合基于疾病组织样本的潜在蛋白标志物、基于疾病血清样本的潜在蛋白标志物及基于文献调研筛选的潜在蛋白标志物来综合确定单一或复杂疾病的候选蛋白。

3.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物。

4.根据权利要求3所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物的方法如下：

（1）蛋白提取、还原烷基化、酶解以及肽段除盐：使用iST试剂盒对疾病组织进行蛋白提取；

（2）质谱检测：

（3）搜库分析与定量：

获得的各组分原始谱图使用Proteome discoverer 软件加工处理进行数据库检索鉴定蛋白和相对定量分析，Protein假阳性率FDR设定为1%，其余搜库参数如下：数据库为Uniprot蛋白质数据库，胰酶酶切、一级质谱质量误差为10ppm，二级质谱质量误差为0.02Da；将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估，将定量结果进行t-test统计分析；将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白，从而得到疾病组与比较组表达的变化情况；

（4）生物信息学分析：将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析，确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。

5.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物。

6.根据权利要求5所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物的方法如下：

（1）血清样品去除高丰度蛋白；

（2）蛋白定量、还原烷基化、酶解：取上步所得样品使用市售的BCA定量试剂盒测定样品蛋白浓度，然后取蛋白，用TEAB稀释，加入二硫苏糖醇，进行还原反应；而后向上述混合物中加入碘乙酰胺进行烷基化反应，室温避光反应，还原和烷基化的蛋白混合物洗涤、离心后用TEAB 稀释，加入Lys-C，酶解，加入胰蛋白酶，酶解；次日，向酶解后的肽段溶液中加入三氟乙酸以终止酶解，干燥；

（3）TMT标记定量：采用TMT-6标试剂对样品进行标记反应；

（4）高pH反相分馏：采用高pH反相液相色谱法对肽段进行分离；

（5）质谱检测；

（6）搜库分析与定量：

获得的各组分原始谱图使用Proteome discoverer 软件加工处理进行数据库检索鉴定蛋白和相对定量分析，Protein假阳性率FDR设定为1%，其余搜库参数如下：数据库为Uniprot蛋白质数据库，胰酶酶切、一级质谱质量误差为10ppm，二级质谱质量误差为0.05Da；将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估，将定量结果进行t-test统计分析；将差异倍数≥1.5倍及≤0.67倍同时统计检验p值≤0.05的蛋白定义为差异蛋白，从而得到颅内动脉瘤组与正常组表达的变化情况，以及破裂动脉瘤组独有的差异蛋白情况；

（7）生物信息学分析：将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析，确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。

7.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S1中，疾病组织蛋白组、疾病血清蛋白组候选蛋白的筛选方法包括但不限于质谱检测、试剂盒检测、芯片检测、试纸检测或其他高通量测序平台。

8.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S3中，通过预测得到的靶肽段以及其质荷比、电荷数、保留时间、可检出性信息构建后续靶向蛋白组学方法列表。

9.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法，其特征在于，步骤S4中，靶向蛋白组学验证方法包括基于三重四极杆质谱仪的选择反应监测和多反应监测、基于高分辨Orbitrap质谱仪的平行反应监测以及基于tims-TOF Pro的平行反应监测-同步累积连续碎裂。