CN113774074A

CN113774074A - 一种基于肽段的靶向蛋白质组精确定量方法

Info

Publication number: CN113774074A
Application number: CN202010507012.9A
Authority: CN
Inventors: 丁琛; 戴俊彪; 秦兆宇; 程莉; 岳雪彤
Original assignee: Fudan University; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Fudan University; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-10
Also published as: WO2021244001A1

Abstract

本发明公开了一种基于肽段的靶向蛋白质组精确定量方法，设计了一系列包含亲和标签且具有相似理化性质的相同氨基酸长度的多肽序列，包括亲和标签序列、标记蛋白的特征氨基酸序列、蛋白酶的酶切位点。将编码这些序列的核苷酸序列添加到不同基因的开放阅读框的5’端或3’端表达后作为质谱检测的优化肽段进行蛋白定量。由于每个序列都包含同样的亲和标签，因此可以用相同的抗体对这些肽段进行富集，避免因抗体富集效率的差异造成的信号差异，并可以实现低浓度肽段的检测，从而在靶向蛋白质组学中实现蛋白的精确定量。

Description

一种基于肽段的靶向蛋白质组精确定量方法

技术领域

本发明涉及靶向蛋白质组学领域，特别涉及一种基于肽段的靶向蛋白质组定量方法。

背景技术

靶向蛋白质组学，即只选取和检测目标蛋白相关的信号，忽略其他无关信号，以此实现对目标蛋白定量的高特异性和高准确性的鉴定。目前，靶向蛋白质组学技术主要包括SRM/MRM(Selected/Multiple reaction monitoring，选择/多反应监测)和PRM(Parallelreaction monitoring，平行反应监测)两种方法。其中，PRM结合了四级杆的高选择性以及Orbitrap的高分辨、高精度特性，能够对二级图谱进行独立的鉴定，方法流程更加便捷。相比SRM/MRM，它能在更复杂的背景下具有更好的抗干扰能力和检测灵敏度。

目前蛋白质定量的方法主要是依据特异性肽段的质谱强度或者谱图数目来计算蛋白质的质谱强度。肽段在质谱中的响应受到多个因素的影响。一方面，肽段的信号强度受到蛋白本身表达强度的影响，另一方面，其信号强度也与自身的物理化学性质和质谱检测效率有很大的关系。之前有报道即使来自于同一个蛋白的酶解肽段，它们的质谱信号强度能达到100倍的差异。对于一些没有合适的特异性肽段的蛋白或者本身表达量很低的蛋白，质谱难以检测其在样本中的丰度，由此造成在蛋白质组范围内肽段的动态范围很大。同时，由于质谱对不同肽段的响应不同，在蛋白质组层面难以实现不同蛋白之间拷贝数差异的准确定量。因此，选择合适的肽段对于蛋白的精确定量是十分关键的。

目前，已有一些方法从实验方面和算法层面分别对蛋白质组的定量方法进行矫正。通过对目的蛋白的特异性肽段进行线性范围优化，并针对特异性肽段获得其亲和抗体，通过抗体亲和富集的方法增加肽段的线性检测范围。同时，要比较蛋白质组中不同蛋白的拷贝数关系，针对单个蛋白所选取的特异性肽段需要满足两个条件，一是特异性肽段在蛋白浓度变化范围内的质谱检测信号需是线性变化的，二是这些蛋白的肽段需要具有类似的理化性质从而保证不是由于质谱检测效率本身造成的信号差异。基于此，SCRIPT-MAP数据库提供了11,404个蛋白的用于质谱定量的肽段，通过算法优化，可以实现在一定浓度范围内的线性检测。

目前已有的质谱定量技术主要依赖于蛋白质本身的序列，筛选出合适的肽段，通过质谱检测后的算法优化，从而给出一定浓度范围内的蛋白定量关系。现有技术主要的缺点包括以下几点：

(1)对于没有合适的酶切位点的蛋白或者是分子量小的蛋白无法筛选出合适的肽段；

(2)对于拷贝数低的蛋白不通过富集可能不能使质谱检测信号在肽段的线性范围内；

(3)即使针对蛋白筛选出了合适的肽段，获得了抗体，也可能存在不同蛋白的肽段抗体的富集效率不一致的问题，需要逐个优化；

(4)目前要针对蛋白质组实现每个蛋白的优化肽段筛选需要的成本高，需要通过后期数据分析实现蛋白质之间的定量比较，且寻找的优势肽需保持相似的理化性质。

发明内容

针对现有技术中的缺陷，本发明设计了一系列包含亲和标签且具有相似理化性质的相同氨基酸长度的多肽序列，将编码这些多肽序列的核苷酸序列添加到不同基因的开放阅读框的5’端或3’端表达后作为质谱检测的优化肽段进行蛋白定量。由于每个序列都包含相同的亲和标签，因此可以用相同的抗体对这些肽段进行富集，避免了抗体富集效率的差异造成的信号差异，也可以实现低浓度肽段的检测。

一种用于靶向蛋白质组精确定量的核苷酸序列，包括编码亲和标签的核苷酸序列、标记蛋白的特征核苷酸序列、蛋白酶的酶切位点序列，所述蛋白酶的酶切位点序列不在编码亲和标签的核苷酸序列和标记蛋白的特征核苷酸序列之间。

其中，亲和标签序列用于亲和富集，标记蛋白的特征核苷酸序列基本能够满足大部分物种所有蛋白的测定，蛋白酶的酶切位点序列用于获得所有蛋白的酶解肽段。

进一步的，所述亲和标签包括流感病毒血凝素表位HA、FLAG、GFP、His、GST、链霉亲和素结合肽段、Myc、V5中的任一种，优选为流感病毒血凝素表位HA。HA标签蛋白只有9个氨基酸，对外源靶蛋白的空间结构影响小，容易构建成标签蛋白融合到靶蛋白的N端或者C端。

进一步的，所述标记蛋白的特征核苷酸序列编码1-8个氨基酸，优选为3-5个氨基酸。不同的氨基酸数目取决于一次要分析的蛋白种类多少。需要分析的蛋白多，则选用的氨基酸数目就相应增加。

一种基于肽段的靶向蛋白质组精确定量方法，包括以下步骤：

(1)针对每个靶标蛋白设计对应的肽段序列；

(2)将编码肽段的核苷酸序列导入细胞表达体系中表达；

(3)将所用的细胞裂解，获得细胞裂解液后，酶解，获得所有蛋白的酶解肽段；

(4)用亲和标签对应的特异性抗体对酶解后的细胞裂解液中的肽段序列进行亲和富集；

(5)对亲和富集后的肽段序列进行质谱检测及定量。

进一步的，所述步骤(1)中的肽段序列包括亲和标签序列、标记蛋白的特征氨基酸序列、蛋白酶的酶切位点。

其中，亲和标签序列用于亲和富集，标记蛋白的特征氨基酸序列基本能够满足大部分物种所有蛋白的测定，蛋白酶的酶切位点用于获得所有蛋白的酶解肽段。

进一步的，所述亲和标签序列包括流感病毒血凝素表位HA、FLAG、GFP、His、GST、链霉亲和素结合肽段、Myc、V5中的任一种，优选为流感病毒血凝素表位HA。HA标签蛋白只有9个氨基酸，对外源靶蛋白的空间结构影响小，容易构建成标签蛋白融合到靶蛋白的N端或者C端。

进一步的，所述标记蛋白的特征氨基酸序列选用1-8个氨基酸，优选为3-5个氨基酸。不同的氨基酸数目取决于一次要分析的蛋白种类多少。需要分析的蛋白多，则选用的氨基酸数目就相应增加。

进一步的，所述步骤(2)中将合成的编码肽段的核苷酸序列通过同源重组的方法以质粒的形式添加到细胞表达体系中，或者通过基因编辑的方法将肽段序列原位添加到基因的开放阅读框的5’端或3’端。同源重组的方式为传统的手段，现如今基因编辑技术日趋完善，通过基因编辑将肽段序列原位添加到基因的开放阅读框的5’端或3’端也是可以实现的。

进一步的，所述步骤(2)中所述的细胞表达体系包括酵母细胞、大肠杆菌、人类细胞系、小鼠细胞系中的任一种。选用的细胞表达体系与待检测的靶蛋白的来源相关。

进一步的，所述步骤(3)中酶解所用的蛋白酶包括胰蛋白酶、Glu-C、Lys-N、Lys-C、Asp-N、胰凝乳蛋白酶、TEV蛋白酶、凝血酶Thrombin中的任一种，优选为胰蛋白酶。胰蛋白酶水解赖氨酸和精氨酸的羧基所形成的肽键，酶解效率高。

进一步的，所述步骤(5)中采用PRM的采集方式进行质谱鉴定。如可采用蛋白胶内酶解，也可采用MRM的采集方式进行质谱鉴定。

综上，与现有技术相比，本发明达到了以下技术效果：

1.通过外部加入肽段代替从蛋白本身去寻找优势肽段，外部加入肽段的表达量即代表蛋白的表达量。这种设计与以前的方法相比，有以下3点优势：第一，对于没有合适的酶切位点的蛋白或者是分子量小的蛋白，通过该设计可以获得用于定量的肽段；第二，这些用于定量的肽段，它们的理化性质更趋于一致，增加了定量的准确性，可以用于不同蛋白拷贝数差异的比较；第三，由于肽段序列是人为添加的，因此对其理化性质的调整较简单，节省了大量筛选优势肽段的成本，同时后期数据处理也比较容易。

2.采用一种抗体即可对所有外部加入肽段进行富集。肽段的设计中加入了一段用于亲和富集的标签序列，可以用一种标签抗体无偏差的富集所有的外部加入肽段，对所有外部加入肽段的富集效率相同，避免了以前方法中需要针对单个肽段免疫特异性的抗体，降低了时间和经济成本。

3.采用标签抗体对外部加入肽段进行富集，一方面可以降低了质谱检测样本的复杂度，提高靶标肽段的检出率；另一方面也增加了质谱的检测限度，对于低丰度的蛋白能更高效的检出。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法主要实验流程图。

图2为靶基因在合成质粒上的分布示意图。

图3为Tpi1p和Erg11p在不进行富集和富集后质谱的检测结果。

图4为Pfk2p在不进行富集和富集后质谱的检测结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的主要目的在于提供一种靶向蛋白质组的定量检测方法，具体方案如下：

(1)设计每个蛋白的ID肽段序列

针对所要检测的靶标蛋白设计合适的含有亲和标签的氨基酸密码序列，这个序列和蛋白具有一一对应的关系，所以把它称之为这个蛋白的ID肽段。每个蛋白ID肽段的构成为亲和标签序列、标记蛋白的特征氨基酸序列、蛋白酶的酶切位点。亲和标签序列选用流感病毒血凝素表位HA标签，其序列为YPYDVPDYA。标记蛋白的特征氨基酸序列为4个氨基酸，以XXXX表示，为ID肽段的特征氨基酸序列。蛋白酶的酶切位点选用胰蛋白酶的酶切位点，精氨酸R，用于蛋白酶解过程中将ID肽段序列从蛋白上酶解下来。以HA标签为例，单个蛋白的ID肽段序列构成共14个氨基酸，为YPYDVPDYAXXXXR，其中X理论上可为任意氨基酸，但因为ID肽段中只能含有一个酶切位点，所以X不能为精氨酸或赖氨酸，这两种氨基酸可以被胰蛋白酶切开，而亮氨酸和异亮氨酸在质谱上不易分开，因此只算一种，所以20种氨基酸去除上述3种氨基酸后可以选取的ID肽段理论个数为17×17×17×17＝83,521。所以基于以上原因，选用的标记蛋白的特征氨基酸序列优选为3-5个氨基酸，基本能够满足大部分物种所有蛋白的测定。如果需要测定的蛋白质数量少，可以适当减少标记蛋白的氨基酸数量，如果需要测定的蛋白数量多，则适当增加标记蛋白的氨基酸数量。

亲和标签序列除了流感病毒血凝素表位HA之外，还可选用FLAG、GFP、His、GST、链霉亲和素结合肽段、Myc、V5中的任一种，选用不同的标签序列作为用于亲和富集的标签序列在实际应用中都是可行的，因为HA标签蛋白只有9个氨基酸，对外源靶蛋白的空间结构影响小，容易构建成标签蛋白融合到N端或者C端，故优选HA作为亲和富集的标签序列。

(2)合成需检测的靶蛋白组的基因序列

将设计的ID肽段序列转译成核酸序列，添加到编码靶蛋白的核苷酸序列的5’端或3’端。添加到5’端即增加到ORF(Open Reading Frame，开放阅读框)序列的起始密码子后面，或添加到3’端即添加到ORF序列的终止密码子前面。全基因合成时应同时包含该基因的启动子区域和终止子区域，以酵母为例，即截取ORF上游500bp和下游200bp的序列。同时，各基因序列之间添加一定长度的随机序列作为同源重组序列，可用于后续其他序列的同源替换。

(3)通过分子生物学方法将所有合成的序列拼接到细胞中

体外合成的基因序列以质粒的形式或者PCR产物的形式存在，利用酵母高效的同源重组能力，将包含所有基因序列的多个片段和能够在酵母体内稳定存在且能自主复制的低拷贝质粒骨架片段同时转入酵母体内，组装成包含所有基因序列的完整质粒。以上同源重组的方式为传统的手段，现如今基因编辑技术日趋完善，通过基因编辑将肽段序列原位添加到基因的开放阅读框的5’端或3’端也是可以实现的。

(4)质谱检测获得蛋白定量结果

通过培养获得一定量的细胞，通过物理法或者化学法裂解获得全蛋白的裂解液。采用FASP法获得全蛋白经胰蛋白酶消化后的所有肽段。除胰蛋白酶外，裂解所用的蛋白酶还可选用Glu-C、Lys-N、Lys-C、Asp-N、胰凝乳蛋白酶、TEV蛋白酶、凝血酶Thrombin中的任一种。胰蛋白酶水解赖氨酸和精氨酸的羧基所形成的肽键，酶解效率高，所以优选为胰蛋白酶。以全部肽段为样本，采用DDA(Data Dependent Acquisition，数据依赖性采集)扫描模式进行蛋白的质谱数据采集，获得靶向蛋白所有ID肽段的母离子信息列表。用标签抗体对全部肽段样本中的ID肽段进行富集，例如设计ID肽段时采用的是HA标签作为亲和标签，则在进行免疫沉淀时采用抗HA标签的抗体。免疫沉淀后洗脱的样本作为蛋白定量检测的样本，进行PRM采集模式进行定量。如可采用蛋白胶内酶解，也可采用MRM的采集方式进行质谱鉴定。

实施例1选取酵母代谢通路中的40个蛋白，利用本发明的方法检测这些蛋白的表达情况。

(1)设计40个蛋白对应的ID肽段序列

ID肽段中的亲和标签序列为HA标签，序列为YPYDVPDYA，酶切位点为胰蛋白酶酶切位点精氨酸R。ID肽段的设计如表1所示：

表1 40个蛋白对应的ID肽段的氨基酸序列及DNA序列

(2)全基因合成需检测的40个蛋白组的基因序列

将ID肽段的序列添加到对应基因ORF的起始密码子后面，通过体外合成，将3-4个基因合成到一个pMV质粒上，每个基因包含ORF序列上游500bp和下游200bp的序列。同时在每个基因之间添加100bp的随机同源重组序列。最终得到12个质粒(质粒A-L)，包含所检测的40个基因。同时，为了利用同源重组将所有的序列拼接到酵母中，在序列合成时，每个质粒上的两端基因的同源重组序列由100bp增加到250bp，同时添加Not I的酶切位点用于后续序列片段的获取。质粒A和质粒L分别添加与能在酵母中自主复制的pRS系列质粒同源的200bp序列。所有基因的设计分布如图2所示。

(3)通过分子生物学方法将所有合成的序列拼接到酿酒酵母细胞中

每种质粒在大肠杆菌中获得足够的量后，提取相应的质粒，同时提取载体质粒pRS413。每种质粒各取2μg用Not I进行酶切，琼脂糖电泳后切胶回收大的片段。以摩尔比2：1将所有片段和载体片段转到酵母细胞中，通过PCR鉴定获得拼接正确的菌株用于后续质谱鉴定的实验。此步骤也可采取基因编辑的手段实现。

(4)质谱检测获得40种蛋白的定量结果

菌株在半乳糖培养基生长至OD₆₀₀为1.0左右时收集菌体，后以低温物理碾磨的方法获得全蛋白裂解液。取200μg总蛋白以FASP法进行胰蛋白酶酶解，获得全蛋白的酶解肽段。取5％的体积用于DDA全谱扫描，获得所有ID肽段的质谱检测信息。经过多次DDA全谱扫描，对质谱数据进行Proteome Discoverer^TM软件处理，随后进行Skyline软件处理，获得的ID肽段的质谱检测信息，如表2所示。

表2 ID肽段的质谱检测信息

取80μg总蛋白酶解的肽段通过HA抗体对酶解肽段中的ID肽段进行富集，后用0.2％的三氟乙酸洗脱，旋转蒸干，50％上样检测。PRM扫描预设的ID肽段，质谱结果经Skyline软件分析后得到各ID肽段的信号强度即各蛋白的表达情况，如表3所示。同时，用PRM的采集方式对80μg总蛋白酶解的所有肽段进行ID肽段的检测，对比富集和不富集检测的效果，但因为未进行富集的肽段总量太高，检测限度超过质谱上限，因此不能进行50％上样检测，仅5％上样检测，结果如表3所示。

从上述获得的ID肽段Tpi1p和Erg11p的质谱结果可以看出，如图3所示，进行免疫沉淀富集后，一方面肽段信号强度有了明显的增强，另一方面质谱检测到的子离子信号也更可靠，保留时间窗口变小，峰图更加规整，因为进行免疫沉淀后样品复杂度降低，共洗脱肽段的干扰变小，因此检测到的信号也更加可靠。从图4的Pfk2p的质谱结果可以看出在未进行免疫沉淀直接上样时靶标肽段的丰度很低，会被附近共洗脱的高峰度的肽段信号掩盖，而进行免疫沉淀富集后，尽管信号强度没有显著的增加，但能够特异性的检测到子离子的信号，增加了信号的可信度。因此，可以说明本发明的方法可以用于靶蛋白的定量检测，并且相较于传统方法灵敏度、准确性更好。

表3 40个蛋白对应的ID肽段的质谱信号强度在富集和不富集条件下的对比

综上，与现有技术相比，本发明达到了以下技术效果：

1.通过外部加入ID肽段代替从蛋白本身去寻找优势肽段，ID肽段的表达量即代表蛋白的表达量。这种设计与以前的方法相比，有以下三点优势：第一，对于没有合适的酶切位点的蛋白或者是分子量小的蛋白，通过该设计可以获得用于定量的肽段；第二，这些用于定量的ID肽段，它们的理化性质更趋于一致，增加了定量的准确性，可以用于不同蛋白拷贝数差异的比较；第三，由于ID肽段序列是人为添加的，因此对其理化性质的调整较简单，节省了大量筛选优势肽段的成本，同时后期数据处理也比较容易；

2.采用一种抗体即可对所有ID肽段进行富集。ID肽段的设计中加入了一段用于亲和富集的标签序列，可以用一种标签抗体无偏差的富集所有的ID肽段，对所有ID肽段的富集效率相同，避免了以前方法中需要针对单个肽段免疫特异性的抗体，降低了时间和经济成本；

3.采用标签抗体对ID肽段进行富集，一方面可以降低了质谱检测样本的复杂度，提高靶标肽段的检出率；另一方面也增加了质谱的检测限度，对于低丰度的蛋白能更高效的检出。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于靶向蛋白质组精确定量的核苷酸序列，其特征在于，包括编码亲和标签的核苷酸序列、标记蛋白的特征核苷酸序列、蛋白酶的酶切位点序列，所述蛋白酶的酶切位点序列不在编码亲和标签的核苷酸序列和标记蛋白特征核苷酸序列之间。

2.根据权利要求1所述的用于靶向蛋白质组精确定量的核苷酸序列，其特征在于，所述亲和标签包括流感病毒血凝素表位HA、FLAG、GFP、His、GST、链霉亲和素结合肽段、Myc、V5中的任一种。

3.根据权利要求1所述的用于靶向蛋白质组精确定量的核苷酸序列，其特征在于，所述标记蛋白的特征核苷酸序列编码1-8个氨基酸，优选为3-5个氨基酸。

4.一种基于肽段的靶向蛋白质组精确定量方法，其特征在于，包括以下步骤：

(1)针对每个靶标蛋白设计对应的肽段序列；

(2)将编码肽段的核苷酸序列导入细胞表达体系中表达；

(5)对亲和富集后的肽段序列进行质谱检测及定量。

5.根据权利要求4所述的靶向蛋白质组精确定量方法，其特征在于，所述步骤(1)中的肽段序列包括亲和标签序列、标记蛋白的特征氨基酸序列、蛋白酶的酶切位点。

6.根据权利要求5所述的靶向蛋白质组精确定量方法，其特征在于，所述亲和标签序列包括流感病毒血凝素表位HA、FLAG、GFP、His、GST、链霉亲和素结合肽段、Myc、V5中的任一种。

7.根据权利要求5所述的靶向蛋白质组精确定量方法，其特征在于，所述标记蛋白的特征氨基酸序列选用1-8个氨基酸，优选为3-5个氨基酸。

8.根据权利要求4所述的靶向蛋白质组精确定量方法，其特征在于，所述步骤(2)中将合成的编码肽段的核苷酸序列通过同源重组的方法以质粒的形式添加到细胞表达体系中，或者通过基因编辑的方法将编码肽段的核苷酸序列原位添加到基因的开放阅读框的5’端或3’端。

9.根据权利要求4所述的靶向蛋白质组精确定量方法，其特征在于，所述步骤(2)中所述的细胞表达体系包括酵母细胞、大肠杆菌、人类细胞系、小鼠细胞系中的任一种。

10.根据权利要求4所述的靶向蛋白质组精确定量方法，其特征在于，所述步骤(3)中酶解所用的蛋白酶包括胰蛋白酶、葡萄球菌蛋白酶Glu-C、胞内蛋白酶Lys-N、胞内蛋白酶Lys-C、胞内蛋白酶Asp-N、胰凝乳蛋白酶、TEV蛋白酶、凝血酶Thrombin中的任一种。