CN115436495A

CN115436495A - 一种交联多肽的分析鉴定方法

Info

Publication number: CN115436495A
Application number: CN202110619926.9A
Authority: CN
Inventors: 张耀阳; 强佳丽
Original assignee: Shanghai Institute of Organic Chemistry of CAS
Current assignee: Shanghai Institute of Organic Chemistry of CAS
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-06

Abstract

本发明公开了一种交联多肽的分析鉴定方法。所述的分析鉴定方法包括对二硫键、异肽键和交联剂交联的多肽等交联肽段进行富集，数据采集；以及建立线性化数据库并使用常规蛋白质组学搜索引擎鉴定交联位点等步骤。本发明将CADI法应用于多个体系中，首先在标准交联多肽数据集上验证了该方法的可行性，并检验了方法的灵敏度和富集效率，之后利用该方法鉴定了抗体及多个血清蛋白的二硫键位点，成功鉴定到了这些蛋白多个已知二硫键位点。

Description

一种交联多肽的分析鉴定方法

技术领域

本发明属于生物技术领域，具体涉及一种交联多肽的分析鉴定方法，特别是羧肽酶 Y依赖的交联多肽的分析鉴定方法。

背景技术

目前二硫键等交联多肽的质谱鉴定仍存在一定的难度。交联形式的多样，含量低且缺乏合适的富集方法，以及二级质谱解析复杂是其鉴定困难的主要原因。虽然已有研究人员为交联多肽开发了多个算法，但这些算法易用性较差，通常鉴定规模小，搜索耗时等缺点。此外，由于缺乏合适的富集方法，二硫键位点在复杂样品中鉴定一直不能成功进行。因此在复杂样品中特别是组学水平上鉴定二硫键仍具有极大挑战。

发明内容

本发明所要解决的技术问题是为克服现有技术中缺乏合适的富集方法以及相应的难以鉴定二硫键的缺陷，提供一种交联多肽的分析鉴定方法，所述方法包括交联多肽的富集方法和交联多肽的简单鉴定，特别是一种羧肽酶Y依赖的二硫键的分析鉴定方法(CADI)；本发明利用羧肽酶Y首次实现了对二硫键交联多肽进行富集，为二硫键的大规模发现奠定了基础，对生物体内二硫键的动态研究具有重要的意义。

CADI法富集二硫键的方法基于以下两个条件，一是形成二硫键的多肽不被羧肽酶Y 完全酶解，其二硫键位点被完整保留。二是样品中线性多肽能尽量被完全去除。因此合适的羧肽酶Y酶解条件至关重要。本课题分别在交联多肽样品和线性多肽样品上设置了羧肽酶Y的酶切时间梯度实验，以得到最佳的酶解时间。

本发明主要通过如下技术方案解决上述技术问题。

本发明的技术方案之一为：一种富集交联多肽的方法，所述方法包括：

(1)将待鉴定的未还原的交联蛋白样品与蛋白内切酶混合、孵育；

(2)将外切酶与待鉴定的交联多肽混合孵育；所述外切酶包括羧肽酶Y和/或氨肽酶。

关于步骤(1)中确定蛋白内切酶种类的方法可为本领域常规，例如可在酶切前确定交联多肽的序列，以此确定进行酶切时所需蛋白内切酶的种类。

常用的蛋白内切酶包括胰蛋白酶、糜蛋白酶、Lys-C蛋白酶、Glu-C蛋白酶和Lys-N蛋白酶中的一种或多种，例如胰蛋白酶和/或Lys-C蛋白酶；

当所述蛋白内切酶为胰蛋白酶和Lys-C蛋白酶时：

步骤(1)中所述的蛋白内切酶与所述交联多肽的相对用量优选1:50～1:100(w/w)，酶切体系中优选还包含1M～2M尿素；或者所述的孵育条件优选10～16h。

步骤(2)中外切酶与所述待鉴定的交联多肽混合孵育以进行交联多肽的外切，其中所述的混合孵育的时间优选4～16小时，例如12小时。

步骤(2)中所述的外切酶与所述待鉴定的交联多肽的相对用量优选1:10～1:100(w/w)，例如1:50(w/w)。

本发明的技术方案之二为：一种交联多肽的分析鉴定方法，所述的分析鉴定方法包括如下步骤：

1)使用LC-MS/MS对通过技术方案之一所述的方法获得的产物进行数据采集；

2)建立线性化数据库：所述线性数据库包括正序数据库和诱饵数据库；其中：

所述正序(FF)数据库包括线性化的序列，所述线性化的序列是通过将酶切后的两条交联多肽的其中一条肽段反序后，将两条肽段的羧基端拼接在一起形成的；

所述诱饵数据库包括正向-反向(FR)数据库、反向-正向(RF)数据库和反向-反向(RR)数据库，所述FR数据库即所述FF数据库中交联多肽的第二条肽段序列反序后到的线性化序列；

所述RF数据库为所述FF数据库中交联多肽的第一条肽段序列反序后得到的线性化序列；

所述RR数据库为所述FF数据库中交联多肽的两条肽段序列均反序后得到的线性化序列；

3)使用常规蛋白质组学搜索软件和线性化数据库对交联多肽谱图进行分析。

本发明中所述的交联多肽包括二硫键交联多肽、异肽键交联多肽或者交联剂交联的多肽。

在本发明一优选实施方案中，步骤2)中所述建立线性数据库包括：

a)若是蛋白序列，则先根据所使用的蛋白内切酶进行模拟模切，得到对应蛋白的多肽序列，若是多肽序列直接进行步骤b)；

b)在上述多肽中筛选含有交联位点的肽段(其中二硫键交联位点为半胱氨酸)，将其按顺序进行两两组合，获得交联肽段序列；

c)根据羧肽酶Y的酶切特征对所述交联多肽中的多肽序列进行模拟酶切，交联氨基酸位点后留有0-2个氨基酸，即每个交联多肽存在9个含有不同数量的C-end AA的序列；将交联位点的氨基酸简称换成20中常见氨基酸字母简称之外的字母O，例如，鉴定二硫键位点，就将交联的半胱氨酸位点由字母C改为字母O，其他位置的半胱氨酸仍由字母C代表；

d)构建正序数据库：将步骤c)得到的交联多肽的两条多肽的通过将其中一条肽段反序后，将两条肽段的羧基端拼接在一起，形成一条线性化的序列；在可编辑新氨基酸的软件中，如Mascot，添加虚拟氨基酸J，含有不同数量的C-end AA的序列之间用字母 J分隔开，得到正序数据库，在不可编辑氨基酸的软件中，如MaxQuant，有不同数量的 C-end AA的序列之间用字母U分隔开，得到正序数据库；

e)构建诱饵数据库。

在本发明一优选实施方案中，步骤b)中的所述数据采集使用Thermo Q-ExactiveHF 质谱、采用DDA模式进行。

在更优选的实施方案中，分析柱用1.9μm的C18填料制备，柱长为150mm。

在更优选的实施方案中，流动相A为98％H₂O，2％ACN，0.1％FA；流动相B为 98％ACN，2％H₂O，0.1％FA；且液相梯度共60min，流动相B的浓度在53分钟由4％升到30％。

在更优选的实施方案中，一级质谱的扫描范围为：350-1500m/z，分辨率60000，AGC为3e⁶。

在更优选的实施方案中，二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为15000，离子最大注入时间，150ms，AGC为2e⁵。

步骤3)所使用的分析软件可为包括Mascot、MaxQuant或者Proteome Discovery等线性蛋白搜索软件。

在本发明一较佳实施方案中，步骤3)所使用的分析方法采用软件已有打分和FDR阈值筛选结果。其中FDR的计算方法为本领域常规，

(NFR为Forward-Reverse交联多肽的PSM数目，NRF为Reverse-Forward交联多肽的PSM数目，NRR为Reverse-Reverse交联多肽的PSM数目，NFF为Forward-Forward交联多肽的PSM数目)。

在本发明一具体实施方案中，在Mascot结果中，根据pep_expect≤0.05，pep_isbold＝1， pep_rank＝1筛选后再对FR及RF位点进行再次分析，通过计算FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，根据length≤3或者ions与length的比值≤0.32的规则，将FR或RF转换为FF；之后再将所有结果按PEP 从小到大排序，计算FDR，根据FDR阈值0.05筛选的结果；

或者，在MaxQuant软件结果中筛选出PEP小于0.05的肽段，计算FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，根据length≤3或者ions与length的比值≤0.32的规则，将FR或RF转换为FF；之后再将所有结果按PEP从小到大排序，按相同公式计算FDR，FDR阈值为0.05。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实施例。

本发明所用试剂和原料均市售可得。

本发明的积极进步效果在于：

本发明的CADI法鉴定交联多肽的一个特色是不需要开发专门的算法，仅需要建立一个线性化的数据库就可以使用蛋白质组学常规的搜库软件进行二硫键鉴定。在一个较佳实施方案中，经羧肽酶Y酶切后，交联多肽的复杂程度有所降低，其位点的羧基端仅剩余极少的氨基酸，本发明根据其特征建立了一个线性化的二硫键位点数据库，线性化后的数据库其理论谱图可以和实际的交联多肽的理论谱图匹配。常规鉴定软件的使用进一步降低了二硫键鉴定的门槛，使二硫键的质谱鉴定更为普遍。另一方面本发明也采取了目前较为严格的适用于交联多肽的target-decoy策略计算FDR，控制假阳性发现率。

本发明将CADI法应用于多个体系中，首先在标准交联多肽数据集上验证了该方法的可行性，并检验了方法的灵敏度和富集效率，之后利用该方法鉴定了抗体及多个血清蛋白的二硫键位点，成功鉴定到了这些蛋白多个已知二硫键位点。最后本发明利用该方法鉴定了HeLa细胞的二硫键。

附图说明

图1为羧肽酶Y依赖的二硫键富集方法流程图。

图2为二硫键交联的多肽和线性化多肽碎裂模式示意图。

图3为二硫键交联的多肽和线性化多肽碎裂离子示意图；(A)当裂解发生在交联多肽的前段peptideα和时的碎片特征，bα1＝b1’，yα5＝y1’；(B)当碎裂发生在后一条多肽peptideβ时的碎片特征，y1’＝bβ1，b11’＝yβ5；(C)当断裂发生在二硫键位置。

图4为二硫键交联多肽的羧肽酶Y酶切特征；标准交联多肽经羧肽酶Y酶切16小时后，形成二硫键的半胱氨酸的羧基端主要保留0个、1个和2个氨基酸。横坐标为肽段后不经过羧肽酶Y酶切的情况下Cys羧基端氨基酸的数量。

图5为二硫键位点数据库的组成；(A)目标和诱饵数据库的构建示意图。完整数据库有FF，FR，RF和RR组成，两条肽段羧基端相连组成FF，FR和RF则分别是其中一条肽段序列与FF相反，而RR则是两条序列都与FF相反。

图6为标准交联多肽数据集数据库随机匹配结果；(A)线性多肽在大肠杆菌二硫键位点数据库中的小提琴分布图。(B)图A四个匹配结果间的两两KS-试验比较累积分数图。样品为标准交联多肽数据，羧肽酶Y酶切16小时；数据库为大肠杆菌的二硫键位点，构建参数如下：KR为内切酶酶切位点，二硫键位点后氨基酸保留0-2个。

图7为交联多肽数据库的特异性匹配结果；(A)线性多肽在二硫键位点数据库中的小提琴分布图；(B)线性多肽在4个交联数据库中的KS-试验比较累积分数图；样品为标准交联多肽数据，羧肽酶Y酶切16小时；数据库为大肠杆菌的二硫键位点，构建参数如下：KR为内切酶酶切位点，二硫键位点后氨基酸保留0-2个。

图8为交联多肽在FF，RF，FR 3个数据库中交叉匹配的结果。

图9为碎裂仅发生在交联多肽的一条肽段上时同一张谱图会同时匹配FF位点和FR\RF；(A)二硫键交联的两条肽段上均发生碎裂，则该MS2仅匹配FF；(B)二硫键交联的两条肽段上仅其中一条肽段发生碎裂，则该MS2可以同时匹配FF和FR，且两者的得分相同。

图10为交联多肽肽链上碎片离子分布情况；(A)交联多肽在FF，RF，FR 3个数据库中交叉匹配的结果；(B)图A韦恩图中A、B、C三个部分肽链的上的碎片离子与肽链长度的比值分布情况；(C)图A韦恩图中A、B、C三个部分肽链的上的碎片离子分布情况。

图11为标准交联多肽的MS2；(A)Mascot低分(13.29)的碎片离子谱图。(B) Mascot高分(96)碎片离子谱图。

图12为二硫键位点不被羧肽酶Y酶解；羧肽酶Y1:10(w/w)加入标准交联多肽样品，数据库为羧基端保留0-2个氨基酸的Mascot线性化数据库。

图13为羧肽酶Y酶解线性多肽样品；图A、B和C分别蛋白数目、肽段数目和肽段强度随羧肽酶Y酶切时间的变化，图D和E是tryptic peptide的数目和强度随羧肽酶 Y酶切时间的变化，图F和G是semi-tryptic peptide的数目和强度随羧肽酶Y酶切时间的变化。

图14为线性多肽经羧肽酶Y酶切后的motif；羧肽酶Y1:10(w/w)加入线性肽段样品中，25度环境下分别酶切0h，1h，6h，12h，20h，24h；图中展示的是肽段羧基末端 8个氨基酸的motif。

图15为对CPY具有不同敏感性的肽段之间的比较；比较了四组对CPY敏感性不同的肽的亲水性指数(GRAVY，Grand average of hydropathicity)(A)，等电点(pI)(B) 和长度(C)的总平均值。不同组之间没有观察到显着差异。GRAVY为正值且越大表示越疏水，负值越大表示越亲水。

图16为标准交联多肽Spike-in实验；将不同量的标准多肽按比例(1:10，1:100，1:1000，1:10000，w:w)混合到等量的线性多肽中，羧肽酶Y酶解后，按线性多肽的量上样2μg。Rituximab抗体的二硫键鉴定。

图17为Rituximab二硫键位点；(A)Rituximab中鉴定到的轻重链内的二硫键，pep_expect值为该位点最佳值，缺失值为灰色。(B)Rituximab中鉴定到的所有二硫键位点二级谱图。

图18为标准蛋白中已知的二硫键位点；羧肽酶Y酶切6小时，CADI-Mascot数据库中Cys的羧基端保留0-2个氨基酸，每组4个重复。

图19为标准蛋白中未知的二硫键位点；不同酶切条件下标准蛋白的鉴定情况，CADI-Mascot筛选位点的标准为pep_expect<0.001且PSM≥2，pLink 2筛选位点的标准为E_value<0.001且PSM≥2。

图20为合成多肽验证RNase A中鉴定到的二硫键位点；A、B为未经UniProt注释的二硫键位点，C未已知位点；左侧是蛋白混合物中鉴定到的谱图，右侧为合成的肽段仅羧肽酶Y酶切后鉴定到的谱图。

图21为CADI-Mascot鉴定到的HeLa细胞二硫键位点。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。

实施例1 CADI方法的建立

1、标准多肽间二硫键的交联方法

人工合成10条标准多肽，这些肽段各含有一个半胱氨酸，末端模拟胰蛋白酶酶切特征，以赖氨酸或者精氨酸结尾，且每条肽段半胱氨酸的羧基端留有的氨基酸数目不等，分别为1-10个氨基酸，具体序列见表1，将肽段溶于ddH₂O中，将等质量的多肽混合在一起，在含有20％DMSO的100mM Tris-HCl溶液(pH8.5)中37℃，震荡孵育17h。加入10mM碘乙酰胺(IAA)将未形成二硫键的肽段烷基化，25℃避光孵育15min。用0.1％甲醛(FA)溶液稀释DMSO浓度至5％以下，使用Thermo Fisher Pierce^TMC18 Tips 除盐，真空旋干后储存于-80℃。

表1标准多肽序列

2、确认羧肽酶Y酶切特征

1)取10μg成功交联的标准多肽，加入10μL的100mM醋酸铵溶液，pH为5，加入0.5unit的羧肽酶Y(185unit/mg，Thermo)，25℃酶切16h，除盐旋干。取1μg处理后的样品按下述LC-MS/MS方法采集数据。

2)数据采集在Thermo Q-Exactive HF质谱上完成，采用DDA模式进行。分析柱用1.9μm的C18填料制备，柱长150mm。流动相A为98％H₂O，2％ACN，0.1％FA；流动相B为98％ACN，2％H₂O，0.1％FA。液相梯度共60min，流动相B的浓度在53分钟由4％升到30％。一级质谱的扫描范围为：350-1500m/z，分辨率60000，AGC为3e⁶；二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为15000，离子最大注入时间,150ms， AGC为2e⁵。

3)标准多肽二硫键正序数据库的建立方法

应用于Mascot软件的标准多肽数据库的建库思路如下：

a)将所有肽段进行两两组合，10条肽段共产生55对交联肽段。

b)根据羧肽酶Y的酶切特征对这些多肽序列进行模拟酶切。半胱氨酸的羧基端考虑保留不同数量的氨基酸，这些氨基酸称为C-end氨基酸。标准多肽在考察羧肽酶Y酶切特征实验中考虑所有可能，即半胱氨酸后留有0-10个氨基酸(C-end AA)。

c)将交联的半胱氨酸位点由字母C改为字母O，其他位置的半胱氨酸仍由字母C代表；

d)构建正序数据库(Target Database)，即Forward–Forward database(FF)：将步骤 c)得到的交联多肽的两条多肽的通过将其中一条肽段反序后，将两条肽段的羧基端拼接在一起，形成一条线性化的序列。在可编辑新氨基酸的软件中，如Mascot，可添加虚拟氨基酸J，含有不同数量的C-end AA的序列之间用字母J分隔开，得到正序数据库，在不可编辑氨基酸的软件中，如MaxQuant，有不同数量的C-end AA的序列之间用字母U 分隔开，得到正序数据库；

4)CADI二硫键数据分析方法

质谱原始数据格式经ProteoWizard msconvert转换为mgf格式后用Mascot(version 2.5.0)进行搜库。首先修改氨基酸“O”的化学组成为C(3)H(6)N O(2)S，monoisotopic: 120.011924。设置羧肽酶Y酶切位点为在氨基酸J的羧基端和氨基端。数据库为经R语言线性化的相应物种蛋白的二硫键位点数据库。MS1质量精度设为10ppm，MS2为0.02 Da，羧肽酶Y酶切无漏切位点，固定修饰为羧基端减去一分子水(H₂O，monoisotopic：-18.010565)的质量，可变修饰包括Nethylmaleimide(+125.047678Da,C)和oxidation (+15.994915Da,M)，不勾选decoy database选项。搜库结果先按significance threshold p小于0.05，Ions score or expect cut-off小于0.05过滤，将结果导出为csv格式，选择rank 1 且pep_isbold的肽段。

以下为羧肽酶Y对交联多肽的酶切特征：

羧肽酶Y由于交联多肽空间位阻的存在停止酶切，但是其停止酶切的位置仍是未知的，为了解羧肽酶Y对交联多肽的酶切特征，本发明进行了10条标准多肽的交联和酶解实验，10条多肽各自含有一个半胱氨酸(cysteine，Cys)，且每一条肽段的半胱氨酸的羧基端均留有不同数量的氨基酸。这些多肽经交联后会产生55种不同的交联形式。本发明通过对10条标准多肽之间形成二硫键的55个交联多肽的酶切产物进行定性分析，统计羧肽酶Y所有酶切状态，即二硫键交联位置即半胱氨酸的羧基端的氨基酸数目保留所有可能性，本发明发现：在所有交联形式中，二硫键交联位置之后主要保留一个氨基酸，保留0个或2个氨基酸的情况也有发生，这三种情况占了90％左右(图4)。

3、Decoy数据库的建立

由于交联多肽的特殊情况，虽然本发明采取类线性的方法鉴定二硫键位点，但是decoy数据库和FDR估算方法需要针对交联多肽进行变化。Ruedi Aebersold¹和董梦秋²等人提出了一个类似的适用与交联多肽的target-decoy策略计算FDR，本发明据此构建了适用于CADI法的诱饵数据库(Decoy database)，由Forward-Reverse(FR)数据库，Reverse -Forward(RF)数据库和Reverse-Reverse(RR)数据库组成。FR和RF分别是其中一个二硫键位点的序列与FF中的氨基酸序列相反，而RR则是两个二硫键位点的序列都与FF 中的氨基酸序列相反(示意图见图5)。根据羧肽酶Y酶切特征，此次数据库构建仅保留 0-2个C-end氨基酸。

获得交联多肽的质谱数据后，在Mascot上分别使用目标及3个诱饵数据库进行分析， Mascot软件设置参数同上，搜库结果先按significance threshold p小于0.05，Ionsscore or expect cut-off小于0.05过滤，将结果导出为csv格式，选择rank 1且pep_isbold的肽段。统计FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，若length≤3或者ions与length的比值≤0.32，则认为该FR或RF为FF。之后再将所有结果按pep_expect从小到大排序，按下面的公式计算FDR。FDR阈值为0.05。

注：N_FR为Forward-Reverse交联多肽的PSM数目，N_RF为Reverse-Forward交联多肽的 PSM数目，N_RR为Reverse-Reverse交联多肽的PSM数目，N_FF为Forward-Forward交联多肽的 PSM数目。

以下为Decoy数据库构结果：

为验证数据库建立是否合理，本发明进行了随机匹配试验，当使用大肠杆菌序列搜索标准交联多肽数据时，匹配到的二硫键位点数量很少，且其数目在4个database中大致呈现1:1:1:1分布，基本与理论相符，但是也发现FR和RF匹配的结果略多(图6-A)。因此还对每一个匹配的数据集进行了柯尔莫诺夫-斯米尔诺夫检验(Kolmogorov-Smirnovtest，KS检验)，比较这两个数据集是否存在显著差异，KS结果中，两两之间的数据集间的p值均大于0.05，说明这四个数据集之间并没有显著差异，也就是说，当目标位点的序列不在其中时，其结果的确为随机匹配的结果(图6-B)。

当在数据库中加入目标序列即标准交联多肽形成的二硫键位点时，由10条标准交联肽段交联形成的二硫键位点，即正确的目标匹配(FF)显著升高了，由之前的21张谱图增加到了1373张谱图，而其他3种匹配结果，即诱饵数据库的匹配结果，没有发生明显的变化(图7-A)，该结果说明本发明建立的数据库的确是交联肽段特异性数据库，同样的本发明也对这几个结果进行了两两KS检验分析，目标数据库匹配结果(FF)与其他三个诱饵数据库的匹配结果p值均小于0.05，而FR与RF之间的p值大于0.05，这个结果也说明此时目标数据库FF与其他数据库的匹配结果之间存在显著差异(图7-B)。

另外，本发明发现目前使用3个decoy数据库的方法中，在鉴定结果中出现了很多的RF和FR鉴定结果，且这些decoy匹配打分并没有很低，对这些谱图进行进一步观察发现，他们中的大部分都能匹配正确的FF位点(图8)，例如RF数据库中仅5张谱图是单独匹配到RF的，其余108个谱图能同时匹配到FF和RF。FR也是如此。对这些谱图进行分析，发现FF为唯一匹配结果的交联多肽其两条肽段的碎裂信息均较为丰富(图9- A)。而既匹配FF又匹配FR或者RF的交联肽段的碎裂大部分都发生在正序的肽段部分，或者其中一条肽段在羧肽酶Y切除后剩余的肽段非常短，自然的在这条短肽上发生的碎裂也非常少。以HSAILASPNPDCEK和LLYCPPETGLFLVR这两条肽段的交联肽段为例 (图9-B)，LLYCPPETGLFLVR被羧肽酶Y酶切后在半胱氨酸的羧基端没有剩余氨基酸，整条肽段组成才4个氨基酸。而FR和FF的MS2上的差别就在这条reverse肽段上，且在这条reverse肽段上未匹配到碎片离子，因此该条肽段的鉴定并不是很准确。此外，还有64张谱图同时匹配到了3个数据库，这些谱图的匹配大部分是由两条相同的肽段形成的二硫键交联多肽造成的。

由于上述情况的存在，因此希望确立一些筛选条件来排除掉这些不准确的匹配结果。 Mascot软件会对每个匹配结果给出一个分值，匹配结果越好，得分越高。理论上正确的交联多肽的得分应该是最高的，但是由于交联多肽由两条链组成，其中一条是正序的情况时，也能匹配到许多离子，此时这张decoy的谱图也会有较高的打分，所以仅仅凭借打分不能很好地将decoy和target分开。需要自己找到一个合适的值来区分。分析图10-A 仅匹配FF的谱图(A部分)，同时匹配FF和FR(B部分)的谱图以及同时匹配FF和 RF的谱图(C部分)这三部分的肽段，对交联多肽的每一条肽段上匹配到的离子与这条肽段的长度比值进行统计比较。结果表明，forward肽链上(即正确的hit)的离子长度比值较大程度高于decoy肽链上的离子长度比值。计算得到包括95％的A部分肽段的最低分值为0.32，发现离子长度比值大于0.32时，包含了大部分的forward肽链，将绝大多数的decoy肽链排除在外(图10-B)。本发明还统计了forward肽链和reverse肽链上鉴定到的二级离子数(b，y离子)。结果表明forward肽链上的碎裂离子数明显高于decoy链上的，同样的本发明选择包括95％的A部分肽段的最低离子数3作为阈值(图10-C)。也就是说当这条肽链上的碎裂离子数大于等于3且其二级离子长度比大于0.32时，这不是一个随机的匹配，不满足这个条件的肽链则是一个不正确的匹配。

4、CADI-Mascot和CADI-MaxQuant鉴定标准交联多肽

本发明首先将CADI法应用于标准多肽数据集，并将其与目前鉴定二硫键数量较多的pLink 2软件进行比较。

1)样品处理：使用同批次交联的样品，分两组，其中一组用羧肽酶Y进行富集，另一组不经羧肽酶Y处理，分别取1μg处理后的样品于Thermo QE-HF质谱仪上采集数据，数据采集方法如下述步骤2)。经羧肽酶Y富集的样品分别使用CADI-Mascot法和 CADI-MaxQuant法建库进行二硫键的鉴定分析。

2)LC-MS/MS数据采集方法：数据采集在Thermo Q-Exactive HF质谱上完成，采用DDA模式进行。分析柱用1.9μm的C18填料制备，柱长150mm。流动相A为98％H₂O， 2％ACN，0.1％FA；流动相B为98％ACN，2％H₂O，0.1％FA。液相梯度共60min，流动相B的浓度在53分钟由4％升到30％。一级质谱的扫描范围为：350-1500m/z，分辨率60000，AGC为3e⁶；二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为15000，离子最大注入时间,150ms，AGC为2e⁵。

3)构建数据库：Mascot建库思路同上，根据羧肽酶Y酶切特征实验结果，此处建库仅考虑0-2个C-end氨基酸。MaxQuant数据库构建思路同Mascot，但是由于MaxQuant 软件中不能在氨基酸列表中自主添加新的氨基酸或修改氨基酸的组成，因此本发明构建MaxQuant数据库时要利用标准氨基酸之外的次要编码氨基酸，即硒半胱氨酸(U)和吡咯赖氨酸(O)来构建二硫键数据库(目前仅鉴定到了25个含硒蛋白，且人源蛋白中不含有吡咯赖氨酸)。

4)分析方法：

本次使用的Mascot搜索参数同上，结果分析方法如下：

根据pep_expect≤0.05，pep_isbold＝1，pep_rank＝1筛选结果后再对FR及RF位点进行再次分析，通过计算FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，根据length≤3或者ions与length的比值≤0.32的规则，将 FR或RF转换为FF。之后再将所有结果按PEP从小到大排序，按相同公式计算FDR， FDR阈值为0.05。

MaxQuant版本号为1.6.0.1，进行CADI数据分析时，需先在enzymes.xml文件中按规定的文件格式添加羧肽酶Y，酶切位点为氨基酸U的羧基端和氨基端，且不设羧肽酶 Y酶切的漏切位点。固定修饰包括羧基端减去一分子水，化学组成为H(-2)O(-1)，monoisotopic为-18.010565Da和氨基酸O上的质量差，化学组成为H(-13)C(-9)N(-2)S，monoisotopic为-117.1358027Da，可变修饰包括oxidation(+15.994915Da,M)和Nethylmaleimide(+125.047678Da,C)，match between run为5min，一级质谱的质量精度设为10ppm，二级的质量精度设为0.05Da，在PSM，protein层面上的FDR均设为1。在结果中筛选出PEP小于0.05的肽段，计算FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，根据length≤3或者ions与length的比值≤0.32的规则，将FR或RF转换为FF。之后再将所有结果按PEP从小到大排序，按相同公式计算FDR，FDR阈值为0.05。

pLink软件版本为2.3.7，二硫键鉴定选择Disulfide Bond(HCD-SS)模块，linker设置为SS，酶切位点按使用的蛋白内切酶设置，设置3个漏切位点，一级和二级质谱的质量精度均为20ppm。可变修饰为Nethylmaleimide(+125.047678Da,C)，PSM水平的FDR 设置为0.01，并计算E-value值。选取E-value小于0.01且PSM数至少有两个的位点为可信位点。

以下为CADI-Mascot和CADI-MaxQuant鉴定标准交联多肽的结果：

CADI-Mascot法55个理论位点中鉴定到了53个，CADI-MaxQuant法和pLink 2都只鉴定到了51个(表2)。

CADI-Mascot比pLink 2多鉴定2个二硫键位点，可见CADI法相比传统的直接鉴定法更具优势。

表2不同软件得到的标准多肽二硫键数量

为进一步确认鉴定到的位点的可靠性，本发明查看了鉴定到的肽段的二级谱图，其中分值最低的为：LNEQASEOEVOAV，得分为13.29。因为该条肽段产生的二级离子较少，因此分值较低，但是交联的两条肽段上均发生了碎裂，且每条肽段上均有包含另一条肽段质量的离子(图11-A)，与打分高的谱图(得分96)离子特征类似(图11-B)，因此，该谱图的鉴定是可靠的。

实施例2羧肽酶Y依赖的二硫键富集条件的优化

1、线性多肽样品的制备

此步骤获取的是线性多肽样品，因此采用常规的蛋白酶解过程。样品来源于HEK293T细胞，以下实施例中所涉及的线性多肽样品均采取此方法获得。

蛋白提取所有步骤在在冰上进行操作。HEK293T细胞用预冷的PBS清洗3次后，RIPA裂解液裂解细胞，超声30s，18000g离心10min后收取上清液，BCA法进行蛋白浓度测定。选取10μg蛋白，用4倍体积的已预冷的丙酮沉淀蛋白，8M尿素溶液(pH 8.5)重新溶解后进行下一步实验。加入1M TCEP(终浓度为5mM)室温反应20min还原二硫键，加入500mM IAA(终浓度为10mM)室温避光反应25min，100mM Tris- HCL溶液(pH 8.5)稀释样品至2M尿素后加入胰酶(Trypsin，1:50，w/w)及终浓度为 1mM CaCl₂，37℃孵育16h后，加入90％的甲酸(终浓度5％)终止酶切，18000g离心 10min取上清液除盐。使用C18 tip除盐后真空旋干，保存在-80℃。

2、羧肽酶Y时间梯度实验

Sigma-Aldrich产的羧肽酶Y酶活为72unit/mg，此方法用来优化Sigma产的羧肽酶Y酶切条件。

1)取10μg来源于HEK293T的线性多肽或交联的标准多肽样品，将肽段溶于100 mM，pH为5的醋酸铵溶液中，肽段浓度为1μg/μL，加入羧肽酶Y，25℃孵育16h，羧肽酶的量与肽段间的比例为1：10(w/w)分别设置1h，6h，12h，20h和24h，共5个时间点，其中0h为未加入羧肽酶Y。酶切完成后，除盐，取1μg处理好的样品按下述 LC-MS/MS参数采集数据。

2)数据采集在Thermo Q-Exactive HF质谱上完成，采用DDA模式进行。分析柱用1.9μm的C18填料制备，柱长150mm。流动相A为98％H₂O，2％ACN，0.1％FA；流动相B为98％ACN，2％H₂O，0.1％FA。标准交联多肽采集参数同实施例1，线性肽段采集参数如下：液相梯度共60min，流动相B的浓度梯度与标准交联多肽的梯度一致，在53分钟由4％升到30％。一级质谱的扫描范围为：350-1500m/z，分辨率60000，AGC 为3e⁶；二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为30000，离子最大注入时间，45ms，AGC为1e⁵。

3)采集的CADI二硫键数据分别由Masscot和MaxQuant分析，羧肽酶Y酶切线性多肽的数据由MaxQunat进行非标记定量分析。

线性多肽数据使用MaxQuant软件进行分析鉴定。人源数据库为2019年7月从SwissProt上下载，蛋白酶为胰酶，羧基端半酶切形式(Semispecific free C-terminus)，半胱氨酸上的脲甲酰化(+57.021464Da,C)设为固定修饰，甲硫氨酸上的氧化(+15.994915Da,M)和蛋白氨基端乙酰化(+42.010564)设为可变修饰。match between run为2min，一级质谱的质量精度设为10ppm，二级的质量精度设为0.05Da，在PSM，protein层面上的FDR均设为0.01。

4)构建CADI数据库。根据实施例1的结论，实施例2使用的CADI数据库仅需保留0-2个C-end氨基酸，其余构建方法同实施例1。

以下为羧肽酶Y时间梯度实验结果：

在交联多肽样品中，酶切1小时，符合羧肽酶Y酶切特征的谱图数就显著增加，酶切12小时，此时的二硫键位点谱图数目最多，之后慢慢减少，但是其数量也1小时相当，说明随着羧肽酶Y酶切时间的增加，有部分含有二硫键的肽段没有抵抗住羧肽酶Y的酶解，其二硫键位点或者完整序列被完全酶解消化了。本发明统计了二硫键位点鉴定数目随时间变化的情况，发现酶解6小时，得到的二硫键位点数最多，有51个二硫键位点被鉴定到，之后数量逐渐减少(图12)。

同样的，在线性多肽样品中(由HEK293细胞全蛋白裂解液经胰酶消化后肽段混合物)也进行了羧肽酶Y酶解实验，随着酶切时间的增加，线性多肽样本中的肽段数量和强度均逐渐下降，虽然这些肽段鉴定到的蛋白数目仅下降17％(图13-A)，但是肽段强度下降93％左右，酶切12小时后，相比初始状态下降有1个数量级，另外肽段数目下降约 50％(图13-B和C)，蛋白数目下降不明显是由于质谱的高灵敏性造成的，即使一个蛋白中大部分肽段都被酶切，但是只要有属于其的肽段被鉴定，该蛋白仍能被鉴定到。本发明还分别分析tryptic peptide(肽段羧基端为K或者R)和semi-tryptic peptide(氨基端符合胰酶酶切特征，羧基端为任意氨基酸)，发现羧肽酶Y酶解1小时后，tryptic peptide数量的减少(图13-D和E)，与之相对应的是semi-tryptic peptide数量迅速上升(图13-F和 G)，说明羧肽酶Y开始发挥作用，之后两者数量和强度都逐渐下降，但是羧肽酶Y酶解 24小时后，仍有5000多条tryptic peptide，占剩余多肽的50％左右。

本发明对每个时间段的肽段的motif进行了分析，发现即使酶切24小时后，这些肽段中还存在大量的以KR结尾的未被酶切的肽段，说明还存在大量肽段未被羧肽酶Y酶切(图14)，这也与图13的结论一致。将这部分蛋白以最后一位氨基酸为基准分为K,R 结尾的肽段，和不以KR结尾的肽段分别分析其肽段氨基酸组成，发现羧肽酶Y对脯氨酸和甘氨酸的酶切效率较低，对羧基端是赖氨酸，且前一位是脯氨酸这样的肽段酶切活性较低，这个酶切特征与目前对羧肽酶Y酶切活性的报道一致³为了减少羧基端是PK结尾的肽段，还尝试联合Lys-N和trypsin一起使用，但是效果有限，羧肽酶Y仍不能完全酶解线性多肽。

为了分析这些肽段不易被酶切的原因，统计了易于被羧肽酶Y切除的肽段和不易被羧肽酶Y酶切的肽段的部分生化属性，发现这两部分在等电点、长度、亲疏水性上均没有明显的差异(图15)。

CADI富集二硫键的效率与羧肽酶Y的酶切条件密切相关，综合以上结果，确认了CADI方法富集二硫键的基本策略。若样品比较简单为多肽或纯蛋白混合物，此时的背景信号，即线性多肽的量较少，那么羧肽酶Y酶切时间可减少，如本实验标准多肽中二硫键的仅羧肽酶Y酶切时间仅需要1小时就能得到约88％的位点。若样品如细胞裂解液等复杂样品，那么应尽量增加羧肽酶Y酶切时间，根据酶活，以12-16小时为佳。

实施例3 CADI方法富集效率检测

为了检测CADI方法的富集效率，本发明利用标准交联多肽数据集做了Spike-in实验，将10条标准多肽之间形成的交联多肽按不同比例混合在线性交联多肽样品中，统计了标准交联多肽和线性多肽在不同混合比例的检测限，方法流程图如图16所示。

1)样品处理：分别将线性多肽和标准交联多肽样品溶于100mM，pH为5的醋酸铵溶液中，肽段浓度为1μg/μL，按1:10，1:100，1:1000和1:1000的比例分别往10μg线性多肽中加入标准交联多肽，25℃酶切12h后，除盐旋干。分别取2μg处理后的样品在 Thermo QE-HF上采集数据。另取等量的未经羧肽酶Y处理过的交联多肽和线性多肽数据直接上样，采集的数据使用pLink分析。

2)LC-MS/MS数据采集：数据采集方法如下：液相梯度共60min，流动相B的浓度梯度与标准交联多肽的梯度一致，在53分钟由4％升到30％。一级质谱的扫描范围为： 350-1500m/z，分辨率60000，AGC为3e⁶；二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为30000，离子最大注入时间，45ms，AGC为1e⁵。

3)分析鉴定：采集的数据分别使用CADI-Mascot及pLink分析，CADI-Mascot数据库建库方法及软件参数同实施例1，未经羧肽酶Y处理的数据采用pLink2.3.7鉴定交联多肽，二硫键鉴定选择Disulfide Bond(HCD-SS)模块，linker设置为SS，酶切位点按使用的蛋白内切酶设置，设置3个漏切位点，一级和二级质谱的质量精度均为20ppm。可变修饰为Nethylmaleimide(+125.047678Da,C)，PSM水平的FDR设置为0.01，并计算E- value值。选取E-value小于0.01且PSM数至少有两个的位点为可信位点。pLink软件参数同实施例1。

以下为CADI方法富集效率的结果：

在标准交联多肽和线性多肽的混合比例为1:10和1:100时，pLink 2和CADI-Mascot 法鉴定的二硫键数目没有明显差距，CADI-Mascot法略多于pLink 2，但是当交联多肽仅在样品中含有0.01％时，CADI-Mascot法在小库鉴定上优于pLink 2(表3)。

表3 Spike-in实验中标准交联多肽的二硫键鉴定数目

注：将不同量的标准多肽按比例(1:10，1:100，1:1000，1:10000，w:w)混合到等量的线性多肽中，羧肽酶Y酶解后，按线性多肽的量上样2μg，各组有2个重复。线性多肽样品为HEK293T细胞裂解液经胰酶消化的多肽混合物。

实施例4 CADI方法灵敏度检测

取10μg标准交联多肽，溶于10μL 100mM pH为5的醋酸铵溶液中，按1:10(w/w) 加入羧肽酶Y，25℃酶切1h后，除盐旋干。将经过羧肽酶Y酶切的标准交联多肽样品分别稀释10，100，1000和10000倍，质谱上样量为0.1μg，0.01μg，0.001μg和0.0001 μg。

数据采集方法及CADI-Mascot数据库建库方法同实施例2，Mascot软件参数同实施例2，pLink软件参数同实施例1。

以下为CADI方法灵敏度检测结果：

随着上样量的减少二硫键的鉴定数量逐渐减少，直接稀释的样品在稀释1000倍时pLink鉴定数量有显著的减少，从38个位点到仅6个位点，而经过CADI方法富集的样品稀释1000倍时仍能鉴定到33个位点，稀释到最高倍数时还能鉴定到6个位点(表4)。当在数据库中添加大肠杆菌的序列后，两个方法均仍能鉴定到二硫键位点,同时两个方法也都能得到非目标的二硫键位点，即大肠杆菌的二硫键位点。

表4标准交联多肽的二硫键位点数目

注：pLink搜索样品：标准多肽数据集(55个二硫键位点)分别上样0.1μg，0.01μg，0.001μg 和0.0001μg；CADI-Mascot样品，羧肽酶酶切6h后稀释肽段上样，上样量为初始肽段量，分别为0.1μg，0.01μg，0.001μg和0.0001μg；P10X为标准交联多肽二硫键位点数据库，CADI-Mascot 和CADI-MaxQuant数据库中半胱氨酸的羧基端保留0-2个氨基酸；各个稀释梯度有4个重复。

实施例5 CADI方法鉴定简单蛋白样品中二硫键

1、Rituximab中二硫键的鉴定分析

取10μg Rituximab抗体，加入4倍体积的预冷的丙酮，沉淀30min后溶于8M尿素溶液(pH 6.5)，加入终浓度为2mM的NEM，37度反应2h使游离的半胱氨酸烷基化，再使用不同的蛋白内切酶组合进行酶切，酶切条件见表5。蛋白内切酶完成后除盐旋干后，将样品重新溶于加入10μL的100mM醋酸铵溶液，pH为5，加入1μg的羧肽酶 Y，25℃酶切16h，除盐旋干。质谱采集方法同实施例3，使用CADI-Mascot法分析数据，获得抗体序列后，建库方法，Mascot软件参数及分析方法同实施例1。

表5 Rituximab的蛋白内切酶组合及酶切条件

以下为Rituximab中二硫键的鉴定分析结果：

抗体中的二硫键对维持其结构和功能十分重要，Rituximab是一种作用于人类CD20 的人鼠嵌合单克隆抗体，主要用于治疗非霍奇金淋巴瘤(non-Hodgkin lymphomas，NHL)，慢性淋巴细胞白血病(Chroniclymphocyticleukemia，CLL)，类风湿性关节炎(Rheumatoid arthritis，RA)等疾病。Rituximab共有15对二硫键，其中重链有8对二硫键，轻链有4 对，铰链区有2对，重链和轻链间有1对，两条重链和轻链上的二硫键相同。

为得到尽量多的二硫键位点，本发明对Rituximab分别用Trypsin，Chymotrypsin单酶切和Trypsin，Chymotrypsin联合使用，成功得到了所有的链内二硫键位点(图17-A)。仅使用Trypsin或Chymotrypsin单酶切得到二硫键的数量少于两者联用所鉴定到的二硫键数量，原因可能是因为仅使用一个蛋白内切酶不能得到的合适长度的含单个二硫键的交联肽段，两个蛋白内切酶双酶切得到的交联多肽长度更适合质谱检测。利用Trypsin和Chymotrypsin联用得到的二硫键数量包括了Rituximab中所有的链内二硫键，铰链区的半胱氨酸由于仅相差两个氨基酸，无法得到单一的二硫键交联多肽，因此难以检测，重链和轻链间的二硫键不在此次的database中。图17-B展示了Rituximab中所有二硫键位点二级谱图。

2、标准蛋白样品的二硫键的鉴定分析

分别将albumin，lysozyme，transferrin和RNase A四种标准蛋白溶于8M尿素溶液(pH6.5)，蛋白浓度均为2μg/μL，等体积混合后，取20μg蛋白混合液，加入终浓度为 2mM的NEM，37℃反应2h，使游离的半胱氨酸烷基化，再使用不同的蛋白内切酶组合进行酶切，酶切条件见表6。

表6标准蛋白蛋白内切酶组合及酶切条件

蛋白内切酶完成后除盐旋干，等量分成两组，一组将处理后的样品重新溶于加入10 μL的100mM醋酸铵溶液，pH为5，加入1μg的羧肽酶Y(Sigma)，25℃酶切12h，除盐旋干，根据如下的质谱采集参数及CADI-Mascot分析方法进行二硫键鉴定。另一组样品直接进行质谱采集，利用pLink软件按进行二硫键鉴定

以下为标准蛋白样品的二硫键的鉴定分析结果：

本发明选取Albumin，Lysozyme，和Transferrin和RNase A四种蛋白作为标准蛋白，同时应用pLink和CADI-Mascot对其二硫键位点进行鉴定。此次实验也采取了多个蛋白内切酶组合，分别使用了Trypsin，Lys-N和Glu-C。使用CADI本发明一共鉴定到了14 个已知的二硫键位点(图18)，除此之外，本发明还在Albumin，Lysozyme，和Transferrin 和RNaseA上鉴定到了9，3，63，30个未经报道的二硫键(图19)。

3、体外合成多肽验证RNase A中二硫键位点

人工合成RNase A蛋白上三条符合Lys-N，Glu-C，Trypsin酶切位点的肽段，具体序列见表7，这三条肽段相互交联可形成3个二硫键位点，分别包括上CADI-Mascot鉴定到的1已知位点RNase A C2-C7(66-12)，2个未知位点包括RNase AC1-C7(52-12)和RNase A C1-C2(52-66)。三条肽段在20％的DMSO中交联17小时(交联方法同实施例1)，交联完成后加入羧肽酶Y处理(1:10，w/w，6h)，之后质谱上样。经CADI-Mascot搜库后确立该位点的二级谱图。

表7体外合成的用于验证鉴定到的RNase A 二硫键的肽段序列

以下为RNase A中二硫键位点的验证结果：

本发明合成了三条肽段，其中其相互交联可形成3个位点，经交联后其产生的二级谱图与蛋白混合物中得到的谱图相类似，说明这三个位点均存在(图20)。

实施例6 CADI方法鉴定HeLa细胞中二硫键

1、分步烷基化标记可还原的半胱氨酸

将待标记的蛋白样品50μg溶于含有2mM NEM且pH为6.5的8M尿素中，37℃ 孵育2小时，封闭游离的半胱氨酸，将溶液转移到10kD超滤管中，14000g离心30min，去除滤液，重复3次，过滤掉未反应的NEM，之后加入5mM TCEP还原30min，加入 200μL 8M尿素pH为8.5，14000g离心30min，重复3次去除未反应的TCEP后，加入终浓度为10mM的IAA，25℃避光孵育30min之后进入蛋白酶解部分，将溶液稀释至 2M尿素，加入胰酶(1:100，w/w)，37度孵育16小时后，加入100μL 2M尿素，14000 g离心30min，重复3次，收集所有滤液。除盐旋干后可保存在-80℃。

Q-Exactive HF质谱进行数据采集。MaxQuant软件(version 1.6.01)进行Label-free 定量，人源数据库为2019年7月从SwissProt上下载，蛋白酶为胰酶，漏切位点为2个，可变修饰包括甲硫氨酸上的氧化(+15.994915Da，M)、蛋白氨基端乙酰化(+42.010564)、半胱氨酸上的脲甲酰化(+57.021464Da，C)和半胱氨酸上N-乙基马来酰亚胺化 (+125.047679，C)。match between run为2min，一级质谱的质量精度设为10ppm，二级的质量精度设为0.05Da，在PSM，protein层面上的FDR均设为0.01。

以下为分步烷基化标记可还原的半胱氨酸结果：

本发明通过分步烷基化的方法，共标记了2488个可还原的半胱氨酸，分别位于1142 个蛋白上。根据该结果，本发明构建了一个缩小的人源二硫键位点CADI数据库，该库中的二硫键至少包含一个可还原的半胱氨酸(其中FF database包含32724条序列)，且保留0-2个C-end氨基酸。

2、CADI方法鉴定HeLa细胞二硫键位点

将适量的HeLa细胞种于10cm培养皿中，待细胞长满后，吸去培养基，加入3mL 的PBS，重复两次，小心将残余培养基洗涤干净。加入5mL PBS，分别往对照组和实验组中加入等体积的DMSO和1M的四甲基偶氮二甲酰胺(diamide)，diamide终浓度为1 mM，37℃处理15min后小心吸走该溶液，在冰上加入5mL的PBS，洗涤三次后，加入 20％的三氯乙酸(TCA)2mL，4℃孵育20min，细胞刮收集细胞于2mL离心管中， 20000g 4℃离心30min，移除上清，分别加入1mL 10％TCA溶液和5％TCA溶液洗涤沉淀，最后再用预冷的丙酮洗涤沉淀两次，吸取丙酮后，开盖将剩余的丙酮挥发干净后将样品重溶于含有2mM NEM的8M尿素溶液(pH6.5)中。BCA法测定蛋白浓度。取 6mg HeLa细胞裂解液，用100mM pH 6.5的Tris-HCl溶液稀释样品至2M尿素，加入胰酶(1:100，w/w)，37℃酶切16h后，用100mM pH 6.5的Tris-HCl溶液稀释样品至 1M尿素，加入Glu-C(1:100，w/w)25℃酶切10h后，除盐旋干。使用强阳离子分离法 (Strong Cation Exchange，SCX)分离多肽。

将除盐后的肽段溶解在10％的甲酸溶液中，肽段分离在安捷伦1260HPLC仪器上进行，使用强阳离子交换柱(Luna，250×4.6mm)分离。流动相A：0.05％甲酸，20％乙腈溶液，流动相B：0.05％甲酸，0.5M NaCl,20％乙腈溶液。一共收集60min，每2分钟收集一次，一共收集30个组分，液相梯度见表。选取后10个含有高电荷的组分，将临近的两个组分混合后，得到5个组分，除盐悬干后可保存在-80℃。

表8用于肽段预分离的强阳离子交换色谱的流动相梯度

SCX分离后的样品再重新溶于100mM醋酸铵溶液，pH为5，加入30μg的羧肽酶 Y(Sigma)，25℃酶切12h，除盐旋干。

分别取上述处理好的样品2μg于Thermo QE-HF质谱仪上采集数据，采集方法同实施例5。数据库采用上述构建的缩小的人源二硫键数据库，Mascot参数及分析方法同实施例6。

以下为CADI方法鉴定HeLa细胞二硫键位点结果：

本发明利用CADI-Mascot法来鉴定HeLa细胞内的二硫键，为提高二硫键鉴定效率，本发明使用了上述构建的缩小的人源二硫键数据库。该库中的二硫键至少包含一个可还原的半胱氨酸(其中FF database包含32724条序列)，利用强阳离子交换色谱，选择带有高电荷肽段的组分进行CADI富集及鉴定，在三个重复组中一共鉴定到102个二硫键(图 21)。

CADI方法概述

本发明开发了一种羧肽酶Y依赖的二硫键鉴定方法(CADI)，羧肽酶Y是一种肽链外切酶，可以从肽链的羧基端逐个降解，释放出游离氨基酸。首先本发明利用Lys-C，trypsin，Glu-C等蛋白内切酶将非还原状态的蛋白酶解成多肽，尽量使每个交联的多肽中仅含有一个二硫键位点，此时样品中的大部分是线性多肽，二硫键交联的多肽在其中的比例非常低。然后加入羧肽酶Y，当羧肽酶Y水解至二硫键附近时，由于二硫键交联形成的空间位阻使酶无法与肽段有效结合，从而阻止继续酶切。而线性多肽由于不存在该空间位阻，在一定时间内，将被完全降解，由此达到富集二硫键的目的。经羧肽酶Y酶切后的交联多肽中的两条肽段交联位点的羧基端后的氨基酸基本被酶解，此时将交联多肽的其中一条肽段反序，则可视为一条类线性化的肽段，重构数据库后便可利用传统的线性多肽的搜库软件鉴定二硫键(见图1)。

线性化交联多肽的碎裂模式

二硫键交联的多肽在HCD/CID裂解模式下，两条肽段均可以发生碎裂，因此有两组b，y离子，但是其谱图比常规的两条线性多肽共同裂解产生的碎片离子更加复杂。这是由于母离子发生裂解后，碎片离子通过交联键连接在一起，改变了对应碎片离子的m/z。如图2，经羧肽酶Y酶切后的一对二硫键交联的肽段，其peptideα和peptideβ上均可以发生碎裂，且y离子包含了另一条肽段的质量。而经过本发明的方法线性化的肽段也能产生这些离子，只需要按照交联多肽的碎片特征重构数据库，使重构后肽段的碎片离子质量与实际情况相匹配，就可以鉴定该由二硫键交联的多肽。交联多肽被成功鉴定需要理论数据库产生的肽段MS1和MS2均能和实际谱图匹配。

首先保持两者母离子质量一致，即使MS1匹配。两条肽段序列拼接成一条多肽序列后，会少出一个氧原子(O)的分子量。为保证交联多肽线性化后母离子质量不变，需要对线性化的多肽进行修饰。在两个形成二硫键的半胱氨酸上各加上一个OH，再在线性化肽段的羧基端减去一个水分子的质量(H₂O)，这样两者的母离子质量一致，且可以区分形成二硫键的半胱氨酸和其他半胱氨酸(图2)。

其次保持两者碎片离子一致，即使MS2匹配。要准确鉴定该条肽段，除了保持线性化肽段的母离子质量和实际要一致外，还需保证两者的碎片离子相匹配。当裂解发生在交联多肽的前段(peptideα)时，交联多肽和相同序列的普通线性多肽碎裂方式完全一致，此时不需要经过线性化处理也能够被mascot正确的解析，再经过本发明的线性化修饰后，两者产生的碎片离子类型和质量也能完全的匹配，图3-A中交联多肽中的b_α1和y_α5离子分别和数据库中线性化多肽的b₁’和y₁’相对应。当碎裂发生在后一条多肽时，实际产生了另一组离子(如b_β1和y_β5)。这一组碎片离子和未经修饰的线性化的多肽序列产生的离子质量不同，而经过修饰的线性化肽段产生的y₁’与b_β1质量一致，b₁₁’与y_β5质量一致(图 3-B)。

参考文献

Walzthoeni,T.et al.False discovery rate estimation for cross-linkedpeptides identified by mass spectrometry.Nature methods 9,901-903(2012).

Yang,B.et al.Identification of cross-linked peptides from complexsamples.Nature methods 9, 904-906(2012).

Klemm,P.in Proteins.(ed.J.M.Walker)255-259(Humana Press,Totowa,NJ；1984)。

Claims

1.一种富集交联多肽的方法，其特征在于，所述方法包括：

(1)将待鉴定的未还原的蛋白样品与蛋白内切酶混合、孵育后获得交联多肽；

2.如权利要求1所述的方法，其特征在于，步骤(1)中所述的蛋白内切酶根据交联蛋白的序列选定；优选包括胰蛋白酶、糜蛋白酶、Lys-C蛋白酶、Glu-C蛋白酶和Lys-N蛋白酶中的一种或多种，例如胰蛋白酶和/或Glu-C蛋白酶；

当所述蛋白内切酶为胰蛋白酶和Glu-C蛋白酶时：

步骤(1)中所述的蛋白内切酶与所述交联蛋白的相对用量为1:50～1:100(w/w)；

和/或，步骤(1)中的酶切体系中还包含1M～2M尿素；

和/或，步骤(1)中所述的孵育条件为10～16h。

3.如权利要求1或2所述的方法，其特征在于，步骤(2)中所述的混合孵育的时间为4～16小时，例如12小时；

和/或，步骤(2)中所述的外切酶与所述待鉴定的交联多肽的相对用量为1:10～1:100(w/w)，例如1:50(w/w)。

4.一种交联多肽的分析鉴定方法，其特征在于，所述的分析鉴定方法包括如下步骤：

1)使用LC-MS/MS对通过权利要求1～3任一项所述的方法获得的产物进行数据采集；

2)建立线性化数据库：所述线性化数据库包括正序数据库和诱饵数据库；其中：

所述正序数据库包括线性化的序列，所述线性化的序列是通过将酶切后的两条交联多肽的其中一条肽段反序后，将两条肽段的羧基端拼接在一起形成的；

所述诱饵数据库包括正向-反向数据库、反向-正向数据库和反向-反向数据库，所述正向-反向数据库即所述正序数据库中交联多肽的第二条肽段序列反序后到的线性化序列；

所述反向-正向数据库为所述正序数据库中交联多肽的第一条肽段序列反序后得到的线性化序列；

所述反向-反向数据库为所述正序数据库中交联多肽的两条肽段序列均反序后得到的线性化序列；

5.如权利要求4所述的分析鉴定方法，其特征在于，所述交联多肽包括二硫键交联多肽、异肽键交联或者交联剂交联的多肽。

6.如权利要求4或5所述的分析鉴定方法，其特征在于，步骤2)中所述建立线性数据库包括：

b)在上述多肽中筛选含有交联位点的肽段，将其按顺序进行两两组合，获得交联肽段序列；

d)构建正序数据库：将步骤c)得到的交联多肽的两条多肽的通过将其中一条肽段反序后，将两条肽段的羧基端拼接在一起，形成一条线性化的序列；在可编辑新氨基酸的软件中，如Mascot，添加虚拟氨基酸J，含有不同数量的C-end AA的序列之间用字母J分隔开，得到正序数据库，在不可编辑氨基酸的软件中，如MaxQuant，有不同数量的C-end AA的序列之间用字母U分隔开，得到正序数据库；

e)构建诱饵数据库。

7.如权利要求6所述的分析鉴定方法，其特征在于，步骤b)中的所述数据采集使用Thermo Q-Exactive HF质谱、采用DDA模式进行；较佳地：

分析柱用1.9μm的C18填料制备，柱长为150mm；

和/或，流动相A为98％H₂O，2％ACN，0.1％FA；流动相B为98％ACN，2％H₂O，0.1％FA；且液相梯度共60min，流动相B的浓度在53分钟由4％升到30％；

和/或，一级质谱的扫描范围为：350-1500m/z，分辨率60000，AGC为3e⁶；

和/或，二级质谱碎裂模式为HCD，碎裂能量为27，分辨率为15000，离子最大注入时间，150ms，AGC为2e⁵。

8.如权利要求4或5所述的分析鉴定方法，其特征在于，步骤3)所使用的分析软件为Mascot、MaxQuant或者Proteome Discovery。

9.如权利要求4或5所述的分析鉴定方法，其特征在于，步骤3)所使用的分析方法采用软件已有打分和FDR阈值筛选结果。

10.如权利要求9所述的方法，其特征在于，在Mascot结果中，根据pep_expect≤0.05，pep_isbold＝1，pep_rank＝1筛选后再对FR及RF位点进行再次分析，通过计算FR和RF部分reverse肽段的长度即氨基酸数目(length)和匹配上的b，y离子的数目(ions)，根据length≤3或者ions与length的比值≤0.32的规则，将FR或RF转换为FF；之后再将所有结果按PEP从小到大排序，计算FDR，根据FDR阈值0.05筛选的结果；