CN113583982B

CN113583982B - 确定长链非编码核糖核酸相互作用蛋白的新方法

Info

Publication number: CN113583982B
Application number: CN202010367970.0A
Authority: CN
Inventors: 张亮; 严健; 李靖宇; 易文凯; 樊立刚
Original assignee: City University of Hong Kong CityU
Current assignee: City University of Hong Kong CityU
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-06-27
Anticipated expiration: 2040-04-30
Also published as: CN113583982A; US20210340592A1

Abstract

本发明提供了一种确定长链非编码核糖核酸相互作用蛋白的新方法。本发明提供了由BASU和dCasRx形成的融合蛋白、用于表达所述融合蛋白的哺乳动物表达载体。本发明确定lncRNA相互作用蛋白的方法包括：通过将表达所述融合蛋白的哺乳动物表达载体和特异的靶向目标lncRNA的gRNA共转染到靶细胞中，使BASU对附近的效应蛋白进行特异的生物素化标记；使用链霉素亲和偶联的磁珠分离生物素化的蛋白质，然后进行洗脱，胰蛋白酶消化和质谱的无标记定量分析。本发明可以高度可信地确定与lncRNA相互作用的蛋白质。

Description

确定长链非编码核糖核酸相互作用蛋白的新方法

技术领域

本发明是关于一种确定长链非编码核糖核酸相互作用蛋白的新方法。

背景技术

尽管人类基因组中只有2％的蛋白质编码序列，但在不同的发育阶段，超过70％的基因组DNA可被转录为RNA。几十年来，这些数量巨大的非编码RNA(ncRNA)，其功能仍待开发。这些ncRNA，尤其是长链非编码核糖核酸(long non-coding RNAs，lncRNA，定义为长度超过200个核苷酸的ncRNA)近期引起了人们的兴趣，这些RNA被普遍认为是参与表观遗传调控的重要组成部分。例如，各种lncRNA参与细胞周期控制和增殖，其失调与多种癌症的进展和转移有关。

XIST(X-inactivation specific transcript)是第一个被广泛研究的lncRNA，它指导雌性哺乳动物的X染色体失活(XCI)，从而平衡了XY雄性和XX雌性之间的基因剂量。其束缚染色质结合蛋白的能力使等位基因标记和顺式调控转录成为可能。今天，XCI和XIST已成为了解lncRNA的表观遗传调控的典范模型。

lncRNA与RNA结合蛋白(RBP)之间的相互作用决定了RNA分子的功能和命运。整个人类蛋白质组中高达8.5％被预测具有RNA结合特性，进一步表明了lncRNA在各种生物学事件中的多种功能。lncRNA转录物中的突变或lncRNA丰度的变化可能会改变其相关的蛋白质组，从而导致健康问题。lncRNA相关蛋白的鉴定将揭示复杂人类疾病中其细胞功能的分子机制。

尽管人们越来越认识到RBP的功能重要性，但目前在阐明活细胞中lncRNA-蛋白质相互作用方面存在重大技术限制。当前的方法主要取决于RNA和蛋白质分子之间化学或UV介导的交联，以实现有效的复合物富集和分离。这样的程序可能会在生理情况下产生非系统性偏倚并掩盖相互作用的蛋白质。

最近，Ramanathan,M.等人开发了一种RaPID方法，该方法将混杂但高效的生物素连接酶BASU与识别RNA BoxB茎环的λN肽导航系统整合在一起。与其他生物素连接酶变体相比，BASU保持失活直到被培养基中高浓度的外源生物素快速激活，从而在较短的反应时间和较小的标记半径(～10nm)内标记附近的蛋白质。这样的特性极大地降低了非特定背景噪声。但是，需要用靠近RBP结合区的BoxB茎环人工改造目标RNA，并且还需要在细胞中异位表达。因此，RaPID必须在三个重要因素上做出折衷：首先，异位表达的目标RNA的丰度大大超过了转录本的内源水平，导致RNA与RBP之间相互作用的非生理平衡；第二，将发夹结构BoxB掺入靶RNA可能会干扰转录本的天然结构，从而改变其结合蛋白；第三，BASU只能标记在RNA的5'或3'末端与BoxB茎环相邻的RBP，因此可能会错过一些重要的RBP，特别是对于长转录本，例如XIST(～19kb)。简而言之，潜在的缺点，包括细胞背景的丧失、大量的分子工程改造以及RNA天然结构的可能破坏，大大限制了这种方法的广泛应用。

发明内容

本发明的一个目的在于提供一种确定长链非编码核糖核酸(lncRNA)相互作用蛋白的新方法。

本发明提供了一种CRISPR辅助的RNA-蛋白质相互作用检测(CRISPR-AssistedRNA-Protein Interaction Detection，CARPID)的方法，整合了基于CRISPR/CasRx的RNA靶向和邻近标记来识别天然状态细胞内特定lncRNAs的结合蛋白。

本发明的CRISPR辅助的RNA-蛋白质相互作用检测技术，可作为一种新颖而强大的方法来发现活细胞内lncRNA的相互作用蛋白。该方法应用了融合到混杂但高效的BioID工具BASU的高度特异性的CRISPR/CasRx系统。与各种蛋白质的相互作用在lncRNA的调节活性中起着核心作用。本发明涉及BASU与dCasRx的融合蛋白，它包含紧凑型Type VI-D CRISPR单效应系统的dCasRx，其可以通过共转染到靶细胞中的特异的gRNA靶向目标lncRNA。一旦与目标lncRNA相结合，它可以使BASU对附近的效应蛋白进行特异的生物素化标记。使用链霉素亲和偶联的磁珠分离生物素化的蛋白质，然后进行洗脱，胰蛋白酶消化和质谱的无标记定量分析。作为对照组，转染了BASU-dCasRx但没有gRNA的细胞用来作为背景。

在结果分析时，将特定gRNA组中鉴定出的蛋白与对照组(无gRNA)进行富集或减低的统计学比较。Rank product是一种非参数统计方法，用于计算富集的错误发现率(FDR)。为了生成特异的相互作用蛋白列表，临界值定为富集≥2倍并且FDR≤0.05。得到的蛋白质可以用于基因本体论分析或是蛋白质相互作用网络分析。此外，使用靶向不同区域的gRNA对目标蛋白进行综合分析，可以得到目标lncRNA相互作用蛋白的高分辨率图。

从而，一方面，本发明提供了一种由BASU和dCasRx形成的融合蛋白。

根据本发明的具体实施方案，所述的融合蛋白，其可以为BASU-dCasRx，也可以为dCasRx-BASU。

另一方面，本发明还提供了一种用于表达所述由BASU和dCasRx形成的融合蛋白的表达载体。优选为哺乳动物表达载体。

另一方面，本发明还提供了一种组合物，其包括：本发明所述的由BASU和dCasRx形成的融合蛋白和/或表达所述由BASU和dCasRx形成的融合蛋白的表达载体，以及靶向目标lncRNA的gRNA。

另一方面，本发明还提供了一种确定lncRNA相互作用蛋白的试剂盒，其中包括：本发明所述的由BASU和dCasRx形成的融合蛋白和/或本发明所述的表达所述由BASU和dCasRx形成的融合蛋白的表达载体，以及靶向目标lncRNA的gRNA。优选地，所述试剂盒进一步包括无gRNA的对照组试剂(例如共转染了gRNA空载体和BASU-dCasRx融合蛋白表达载体)。

另一方面，本发明还提供了一种确定lncRNA相互作用蛋白的方法，该方法包括：

将用于表达所述由BASU和dCasRx形成的融合蛋白的哺乳动物表达载体与特异的靶向目标lncRNA的gRNA共转染到靶细胞中，使BASU对附近的效应蛋白进行特异的生物素化标记；

分离生物素化的蛋白质，进行分析以确定lncRNA相互作用蛋白。

根据本发明的具体实施方案，本发明的确定lncRNA相互作用蛋白的方法中，具体地，可以使用链霉素亲和偶联的磁珠分离生物素化的蛋白质，然后进行洗脱，胰蛋白酶消化和质谱的无标记定量分析。

根据本发明的具体实施方案，本发明的确定lncRNA相互作用蛋白的方法，其是用于确定活细胞内lncRNA的相互作用蛋白。

根据本发明的具体实施方案，本发明的确定lncRNA相互作用蛋白的方法还包括：将特定gRNA组中鉴定出的蛋白与无gRNA对照组进行富集或减低的统计学比较。

根据本发明的具体实施方案，本发明的确定lncRNA相互作用蛋白的方法还包括：采用Rank product计算富集的错误发现率；优选地，临界值定为富集≥2倍并且FDR≤0.05。

根据本发明的具体实施方案，本发明的确定lncRNA相互作用蛋白的方法还包括：

得到的蛋白质用于基因本体论分析或是蛋白质相互作用网络分析；和/或

使用靶向不同区域的gRNA对目标蛋白进行综合分析，得到目标lncRNA相互作用蛋白的高分辨率图。

另一方面，本发明还提供了一种用于目标lncRNA特定区域的富集的相互作用蛋白的分析方法，该方法包括：

对检测到一个以上肽段的蛋白质进行富集分析；其中所述蛋白质优选包括人类角蛋白；

对各组的LFQ丰度进行归一化并进行对数化；

用代表质谱仪检测限度的最低值替换缺失值；

应用rank product确定与转染gRNA空载体的对照组相比在gRNA转染组的样品中统计上富集的蛋白质；

调整后的p值≤0.05和丰度变化≥2倍的蛋白质被认为是目标lncRNA的RBP。

另一方面，本发明还提供了一种为目的lncRNA定义相互作用蛋白的高分辨率图谱的蛋白质组学方法，应用针对目标lncRNA的不同区域，应用特异的gRNA，可以得到特异区域的相互作用蛋白。

另一方面，本发明还提供了一种确定lncRNA相互作用蛋白的分析系统(装置)，其包括数据分析单元，所述数据分析单元是用于对本发明所检测到一个以上肽段的蛋白质进行富集分析，并进一步分析确定lncRNA相互作用蛋白。具体地，所检测到一个以上肽段的蛋白质包括人类角蛋白。具体的分析过程包括：对各组的LFQ丰度进行归一化并进行对数化；用代表质谱仪检测限度的最低值替换缺失值；应用rank product确定与转染gRNA空载体的对照组相比在gRNA转染组的样品中统计上富集的蛋白质；调整后的p值≤0.05和丰度变化≥2倍的蛋白质被认为是目标lncRNA的RBP。

在本发明的一些具体实施方案中，本发明将CARPID应用于三个lncRNA，即XIST、DANCR和MALAT1，并且可靠地识别了它们已知的相互作用蛋白。值得注意的是，这三组的相互作用蛋白几乎没有重叠，显示出本发明方法的强大特异性。

在本发明的一些具体实施方案中，本发明的CRISPR辅助系统CARPID技术以无交联的方式系统检测lncRNA XIST结合蛋白组。使用CARPID，本发明不仅检测了多个先前报道的XIST结合蛋白，而且还鉴定了许多新的因子，其中本发明通过生化和功能验证了本研究中的TAF15和SNF2L。本发明的数据支持目前的共识，即XIST RNA通过募集染色质重塑剂用于染色体浓缩和隔离转录机制以进一步抑制基因来调控XCI。

为了最大程度地提高本发明的可信度，并避免错误的阳性信号，本发明在实验和统计水平上都控制了变化。首先，使用了可自我切割的GFP融合物来监测细胞中BASU酶的表达，并最大限度地减少了有效生物素标记所需的反应时间。其次，采用了一种多位点靶向策略，以特异性靶向XIST上的三个不同基因座，并且在本发明中进一步验证了用至少两个gRNA对鉴定的新蛋白。第三，对于每组gRNA，至少重复了三个重复CARPID实验。此外，使用了三重模拟控件来评估富集的统计意义。

本发明还证明了CARPID可以被普遍用于检测lncRNA的结合蛋白质组。本发明专门针对另外两个具有不同长度表达水平和亚细胞定位的lncRNA DANCR和MALAT1。DANCR和MALAT1的表达失调与多种恶性肿瘤有关，包括肝癌、乳腺癌、神经胶质瘤、结直肠癌、胃癌和肺癌。本发明的研究表明，DANCR可以与胞外外泌体中大量富集的蛋白质相互作用。有趣的是，多项研究报道癌症患者血清中的DANCR水平升高。此外，本发明还鉴定了DANCR和Ezrin(细胞皮质的重要结构蛋白)之间的相互作用。这样的发现指出了lncRNA在肿瘤发展中的新功能。

无标记质谱法是应用CARPID的直接且经济高效的方法。另外，它对技术的要求较低，因此确保了广泛的适用性。本发明已经显示出CARPID是检测RNA结合蛋白的强方法，具有高特异性和可重复性。为了进一步提高分辨率，可以将具有不同标记策略(例如TMT和其他同量异位化学标记以及SILAC标记)的定量质谱法纳入CARPID渠道。

综上所述，本发明将CARPID、标记定量质谱法和非参数富集分析相结合，可以高度可信地在活细胞中使用蛋白质组学方法来识别特定lncRNA相互作用蛋白质。本发明的CARPID技术可以绘制涉及人类疾病的各种lncRNA的相互作用蛋白的高分辨率图谱，此类图谱可为干扰特定lncRNA功能的疗法提供指导。

附图说明

图1a至图1e显示使用CARPID识别活细胞中与lncRNA XIST相关的蛋白。其中：

图1a为CARPID工作流程示意图。目标lncRNA被一组gRNA靶向。与工程化生物素连接酶(BASU)融合的无核酸酶活性的RNA核酸酶CRISPR/CasRx(dCasRx)被募集到特定位点。生物素处理后，相邻的RNA结合蛋白(RBP)将被BASU生物素化。红色阴影表示BASU-dCasRx的标记半径。生物素化蛋白通过链霉素亲和偶联的磁珠(MyOne T1)富集，用于随后的质谱(MS)鉴定和蛋白质印迹(WB)分析。

图1b显示三组针对人lncRNA XIST基因座的gRNA(以不同颜色突出显示)。每个实验仅表达一组gRNA。

图1c显示用CARPID识别XIST相关蛋白质组。火山图显示了HEK293T细胞中XIST相关蛋白的富集。x轴表示相对于对照，结合所有三组XIST gRNA的CARPID结果中蛋白质水平倍数变化log2转化的值。y轴显示负对数转换后的p值(非参数rank product检验)。显著富集的蛋白质被标记为橙色点。先前经过验证可与XIST相互作用并由CARPID识别的蛋白质以橙色字体标记。蓝色字体指示SNF2L和TAF15，这是两个新识别的与XIST相关的蛋白质。

图1d显示通过CARPID识别的XIST-蛋白质相互作用网络。白色节点表示只在一组gRNA识别的蛋白质。粉色节点代表用两组gRNA识别的蛋白质。红色结点显示了所有三组gRNA中均识别到的蛋白质。在评估相互作用(STRING相互作用得分≥0.40)的两种蛋白质之间连线。线的宽度与STRING相互作用分数成比例。带有紫色边缘的节点突出显示了与染色质重塑有关的蛋白质。与XIST相关的蛋白质以橙色粗体突出显示(19种蛋白质)。蓝色字体表示SNF2L和TAF15，这是两个新识别的与XIST相关的蛋白质。

图1e显示与XIST相关的蛋白质的前五个重要的基因本体论(GO)语义。

图2a至图2h显示验证与XIST相关的蛋白质的分析结果。其中：

图2a显示使用WB和immunoFISH验证XIST-TAF15相互作用。上图显示了CARPID后使用抗人TAF15的抗体进行了蛋白质印迹。用链霉素亲和偶联的磁珠，从pre-gRNA(对照)，特异靶向基因座1(XIST-L1)，基因座2(XIST-L2)和基因座3(XIST-L3)的gRNA分别与BASU-dCasRx共转染的HEK293T细胞裂解液中沉淀生物素化的蛋白质。该实验进行了三次生物重复，并展示了代表性结果。下图显示了TAF15和XIST的immunoFISH检测结果。固定HEK293T细胞，并与抗TAF15抗体和带CF 488A(绿色)的相应二抗一起孵育。使用标记为Cy3(红色)的特定寡核苷酸探针检测XIST。细胞核用DAPI(蓝色)复染。左侧图像中的方框区域被放大并显示在右侧。显示比例尺。该图像是来自三次生物学独立实验的代表。

图2b显示利用基因组浏览器视图展示了小鼠脑组织的taf15 CLIP-seq数据结果。该图显示了TAF15与XIST RNA特异性结合。两条链的非冗余读数分别显示。RefSeq基因还用不同颜色指示链信息：红色，正向链；蓝色，反向链。

图2c显示柱状图显示了XIST转录本上TAF15结合峰的数量与基于10,000次随机混洗的峰位点的预期峰数量(平均值±SD)相比。峰位点直接从Kapeli等人文章中提取。p值基于单尾泊松检验。

图2d显示在HEK293T细胞中使用TAF15抗体并以IgG作为对照，使用甲醛辅助的RIP验证XIST-TAF15相互作用。使用XIST三个不同区域的和MALAT1两个不同区域的RT-qPCR进行定量富集。GAPDH作为内部对照。数据表示为平均值±SD，n＝3；**表示使用非配对的学生t检验的p<0.01。右上图显示了TAF15抗体和IgG免疫沉淀实验结果。

图2e显示使用HTR-SELEX验证XIST-TAF15相互作用。蓝色曲线显示了沿XIST转录本预测的TAF15结合亲和力。x轴表示人类XIST转录本(

)的相对位置。y轴显示从XIST中相应位置开始的7个单体的gkm-SVM得分。请注意，gkm-SVM得分的值越大，表明TAF15的亲和力越高。三个彩色竖线表示XIST的基因座1-3。蓝色曲线显示了广义加性模型的拟合值，而灰色区域则显示了95％的置信区间。作为基因组背景，橙色曲线显示了从人类基因组(hg19)中随机采样的1,000个序列的平均gkm-SVM得分。

图2f显示使用WB和immunoFISH验证XIST-SNF2L相互作用。上图显示了CARPID后使用抗人SNF2L抗体进行Western印迹。用链霉素亲和偶联的磁珠，从pre-gRNA(对照)，特异靶向基因座1(XIST-L1)，基因座2(XIST-L2)和基因座3(XIST-L3)的gRNA分别与BASU-dCasRx共转染的HEK293T细胞裂解液中沉淀生物素化的蛋白质。该实验进行了三个生物复制，并显示了代表性的结果。下图显示SNF2L和XIST的immunoFISH检测结果。固定HEK293T细胞，并先后与抗SNF2L抗体和带CF 488A(绿色)的相应二抗一起孵育。使用标记为Cy3(红色)的特定寡核苷酸探针检测XIST。细胞核用DAPI(蓝色)复染。左侧图像中的方框区域被放大并显示在右侧。该实验进行了三个生物复制，并显示了代表性的结果。

图2g显示在HEK293T细胞中用SNF2L抗体并以IgG作为对照，使用甲醛辅助的RIP验证XIST-TAF15相互作用。使用XIST三个不同区域的和MALAT1两个不同区域的RT-qPCR进行定量富集。GAPDH作为内部对照。数据表示为平均值±SD，n＝3；**表示使用非配对的学生t检验的p<0.01。右上图显示了SNF2L抗体和IgG免疫沉淀实验结果。

图2h显示TAF15和SNF2L在小鼠X连锁抑制中的作用。雌性iMEF细胞(E2C4)在灭活X染色体上包含GFP转基因，其表达被完全抑制(NT)。经5-aza处理(NT+5-aza)后，GFP被去阻遏。使用各种shRNA进行SmcHD1，TAF15和SNF2L的敲除，并通过RT-qPCR确定GFP表达水平。数据表示为平均值±SD，n＝3，*p<0.05，**p<0.01，学生t检验。

图3a至图3e显示在活细胞中通过CARPID鉴定lncRNA DANCR和MALAT1相关蛋白。其中：

图3a显示鉴定与CARPID相关的DANCR相关蛋白质组。火山图显示HEK293T细胞中DANCR相关蛋白的富集。x轴表示相对于对照，结合两组DANCR gRNA的CARPID中蛋白质水平的倍数变化的log2转化。y轴显示负对数转换后的p值(非参数rank product检验)。显著富集的蛋白质标记为橙色点。

图3b显示通过CARPID识别的DANCR-蛋白质相互作用网络。白色节点表示只在一组gRNA识别的蛋白质。粉色节点代表在两组gRNA识别到的蛋白质。在评估相互作用(STRING相互作用得分≥0.40)的两种蛋白质之间连线。线的宽度与STRING相互作用分数成比例。

图3c显示通过CARPID识别的与MALAT1相关的蛋白质组。火山图显示了HEK293T细胞中MALAT1相关蛋白的富集。x轴表示相对于对照，结合两组MALAT1 gRNA的CARPID中蛋白质水平倍数变化的log2转化。y轴显示负对数转换后的p值(非参数rank product检验)。显著富集的蛋白质标记为橙色点。

图3d显示通过CARPID识别的MALAT1蛋白相互作用网络。白色节点表示在一组gRNA识别到的蛋白质。粉色节点代表在两组gRNA均识别到的蛋白质。在评估相互作用(STRING相互作用得分≥0.40)的两种蛋白质之间连线。线的宽度与STRING相互作用分数成比例。

图3e显示不同lncRNA之间CARPID结果的比较。韦恩图说明了三个lncRNA(XIST，DANCR和MALAT1)中的每两个之间的独特且特异的RBP。

图4a至图4e为CARPID的优化示意图。其中：

图4a显示XIST上三组gRNA的位置。不同的颜色表示不同的gRNA组。请注意，每组的两个单独的gRNA的间隔约为15nt。

图4b显示BASU-dCasRx构建体的方案。将BASU从BASU RaPID质粒(Addgene#107250)中亚克隆，并按框克隆到EF1a-dCasRx-2A-EGFP质粒(Addgene#109050)中。LTR，长终端重复；T2A，自切割肽；eGFP，增强型GFP。

图4c显示用BASU-dCasRx或dCasRx-BASU转染HEK293T细胞。48小时后，将细胞用200μM生物素处理指定的时间。使用螯合HRP的链菌素抗体对全细胞裂解物进行免疫印迹实验。该实验进行了3个生物学重复，并显示了代表性结果)。

图4d为散点图显示了在野生型HEK293T细胞或转染了不同gRNA(XIST-L1/XIST-L2/XIST-L3)的HEK293T细胞中基因表达水平的比较。每个图中的x轴代表野生型HEK293T细胞中log2转化的基因表达水平。y轴分别代表在CARPID实验中用gRNA转染的HEK293T细胞的log2转化基因表达水平。每个图中标示了XIST基因的表达水平。

图4e显示CRISPR/CasRx系统在XIST上的特异性。HEK293T细胞分别与CasRx和单个gRNA(空载体对照，XIST-L1，XIST-L2和XIST-L3)共转染。从处理过的细胞中提取总RNA，然后进行逆转录和qPCR分析以定量XIST特异性位点的水平。GADPH用于标准化XIST的水平。请注意，CasRx与gRNA共转染特异性降低了其靶向基因座处的RNA转录水平。数据表示为平均值±SD，n＝3，***p<0.001，非配对的学生t检验。

图5为XIST gRNA的二级结构定位图。Lu等人在XIST发夹结构信息上的XIST-L1/L2/L3基因组浏览器视图使用黑色字符串代表具有互补配对的区域。不同颜色的垂直线突出显示了XIST lncRNA上靶向基因座的不同gRNA集的位置。还指出了已知结构域(A-H)的位置。

图6a至图6c显示XIST的CARPID结果。其中：

图6a显示利用韦恩图说明了三组不同XIST gRNA(XIST-L1/XIST-L2/XIST-L3)CARPID质谱鉴定结果的重叠性/重复性。

图6b显示利用韦恩图说明了三组不同XIST gRNA(XIST-L1/XIST-L2/XIST-L3)CARPID质谱鉴定结果中显著富集蛋白的重叠性。

图6c显示利用CARPID鉴定XIST结合蛋白。火山图显示了HEK293T细胞中XIST相关蛋白的富集。x轴表示相对于对照，结合所有三组XIST gRNA的CARPID结果中蛋白质水平倍数变化log2转化的值。y轴显示负对数转换后的p值(非参数rank product检验)。显著富集的蛋白质标记为橙色点。先前已知与XIST相互作用并由CARPID识别的蛋白质以橙色字体标记。蓝色字体表示SNF2L和TAF15，这是两个新识别的XIST相关蛋白质。

图7显示CARPID-WB的定量分析。利用免疫印迹实验检验CARPID结果，使用TAF15和SNF2L抗体。通过将链霉素亲和偶联的磁珠添加到转染了BASU-dCasRx，以及pre-gRNA(对照)、基因座1(XIST-L1)、基因座2(XIST-L2)或基因座3(XIST-L3)的HEK293T细胞的裂解物中来进行生物素化蛋白的沉淀。该实验进行了三次生物学重复，并显示了代表性的结果。使用ImageJ软件(版本1.8.0_172)来量化WB信号。

图8a至图8d显示TAF15 HTR-SELEX。其中：

图8a显示HTR-SELEX的寡核苷酸设计方案。这些寡核苷酸包含T7启动子，Illumina衔接子(P5/P7)和40-nt随机序列。

图8b为HTR-SELEX实验的示意图。首先，将合成的DNA模板文库转录为RNA，并在大肠杆菌Rosetta P3 DE LysS菌株中表达TAF15蛋白。结合，洗涤和洗脱后，将剩余的(结合的)RNA进行逆转录和PCR扩增，以获得NGS测序文库。通过Illumina Hiseq4000对DNA文库进行测序以进行分子计数，并将该文库的一部分用作下一轮HTR-SELEX的输入(有关详细信息，请参见方法)。

图8c显示从HTR-SELEX分析中富集的TAF15的RNA结合基序。

图8d显示机器学习方案。本发明采用了基于空位k-mer的机器学习算法(gkm-SVM)来训练带有HTR-SELEX数据的预测模型，以评估TAF15的RNA序列偏好性。由于计算能力的原因，正序列和负序列都随机下采样到100,000个序列。为了寻找最佳模型，本发明考虑了gkm-SVM的三个关键参数：l，整个单词长度包括空格；k，每个单词中信息量(即无间隙)位置的数量；d，允许的最大不匹配数。本发明使用5倍交叉验证进行参数组合搜索，当l＝7，k＝3，d＝4时，交叉验证的最高准确度为87.3％。最后，本发明使用最佳模型对XIST中出现的所有7-mer进行评分，并沿XIST成绩单绘制平滑的gkm-SVM预测评分。

图9a至图9f显示TAF15和SNF2L在XCI上的功能验证。其中：

图9a显示细胞用3％PFA溶液固定，然后进行DAPI染色。在FITC通道下的荧光显微镜上观察到GFP信号。

图9b显示验证shRNA的敲低效率。用携带所示shRNA的慢病毒感染iMEF细胞。通过RT-qPCR检测基因表达水平。β-肌动蛋白用于标准化不同条件下的RNA表达。数据表示为平均值±SD，n＝3，**p<0.01，非配对的学生t检验。

图9c显示TAF15敲低回复实验。利用包装好的Taf15特异性shRNA(shTaf15-44)和抗shRNA的Taf15病毒感染iMEF细胞。用RT-qPCR检测Taf15的表达水平，其中β-肌动蛋白用作内部对照。数据表示为平均值±SD，n＝3，非配对的学生t检验。

图9d显示回补X连锁的GFP抑制表型。通过RT-qPCR测定在与图c相同的实验条件下的GFP表达。数据表示为平均值±SD，n＝3，非配对的学生t检验。

图9e显示TAF15在小鼠常染色体基因转录中的作用。使用两种不同的shRNA构建体(shTaf15-07和shTaf15-44)在雌性iMEF细胞(E2C4)中进行TAF15的敲除，与图1相同。2小时从不同的染色体中随机选择了五个常染色体基因。通过RT-qPCR确定表达水平并标准化为β-肌动蛋白。数据表示为平均值±SD，n＝3，*p<0.05，**p<0.01，非配对的学生t检验，ns＝不显著。图9e还显示利用等位基因RNA-seq证明TAF15在XCI上的作用。5-aza处理后表现出显著等位基因表达变化的基因(NT+5-aza vs.NT)被分组为X染色体(chrX)基因和常染色体基因。通过定义处理前次要和主要等位基因之间的表达比例为0(不平衡)，处理后后将次要和主要等位基因的表达比例定为1(平衡)，分别总结了X染色体(蓝色)基因和常染色体基因(灰色)的Taf15基因敲除的等位基因比率。数据表示为平均值±SE，并且显示了在两个生物学重复中测量的单个基因的数据点。P值使用非配对的学生t检验计算。

图9f显示了XIST lncRNA在介导XCI中的双重作用的工作模型。

图10a至图10d显示lncRNA DANCR的CARPID结果。其中：

图10a的散点图显示了在CARPID实验中野生型HEK293T细胞或转染有pre-gRNA表达质粒的HEK293T细胞中基因表达水平的比较。x轴代表处理组HEK293T细胞的log2转化后基因表达水平。y轴代表野生型HEK293T细胞中log2转化后的基因表达。XIST，DANCR和MALAT1的表达水平以红色突出显示。注意，HEAT293T细胞中MALAT1丰富，并且DANCR的表达水平比XIST和MALAT1低得多。

图10b显示CARPID中使用的DANCR的gRNA集的位置(上：DANCR-L1/2；下：MALAT1-L1/L2)和qPCR引物(上：DANCR：P1/P2；下：MALAT1：P1/P2)。F，正向引物；R，反向链引物。括号内的数字表示从1nt开始的gRNA集在相应RNA转录物中的位置。

图10c显示LncRNA DANCR将蛋白质组鉴定与CARPID结合，然后进行MS。火山图显示，在表达BASU-dCasRx的HEK293T细胞中，每组gRNA中的lncRNA DANCR相关蛋白的富集程度都超过了对照(空gRNA表达载体)。x轴表示相对于对照，每组DANCR gRNA的CARPID中蛋白质水平的对数倍变化。y轴显示负log10转换后的p值(非参数rank product检验)。显著富集的蛋白质标记为橙色点。

图10d显示与DANCR相关的蛋白质的前六个重要的基因本体论(GO)术语。

图11a至图11d显示验证外泌体中DANCR的存在。其中：

图11a为从培养的人类细胞中分离外来体的示意图。用于DANCR检测的外来体以红色字体突出显示。

图11b显示免疫印迹检查外泌体的纯化。在SDS-PAGE凝胶上分离5μg或10μg细胞裂解物和外泌体部分，并进行所示蛋白的Western印迹分析。请注意，CD81在纯化的外泌体中高度富集。

图11c显示细胞裂解液和外泌体中DANCR水平的比较。从全细胞裂解物和HEK293T细胞的外来体中提取总RNA，并通过反转录随后qPCR定量DANCR转录水平。使用了两组qPCR引物。y轴表示分离的外泌体(Exosome)或全细胞裂解液(Cell Lysate)中DANCR RNA的相对含量，以等量的总RNA表示。p值是使用非配对的学生的t检验计算的。请注意，相对于整个细胞裂解物，DANCR在外泌体中富集。

图11d显示HEK293T全细胞裂解液和外泌体中XIST水平的比较。总RNA分别从全细胞裂解物和外来体中提取。然后，将同等数量的RNA反转录为cDNA，以进行以下qPCR分析。XIST：P1/P2代表用于XIST检测的两组不同的qPCR引物。p值使用非配对的学生t检验计算。

图12a至图12b显示MALAT1的CARPID结果。其中：

图12a显示使用甲醛辅助的RIP测定法在HEK293T细胞中以Ezrin抗体和IgG作为对照验证XIST-Ezrin相互作用。使用两个不同区域中的DANCR和两个不同区域中的MALAT1的RT-qPCR定量富集。实验利用GAPDH作为内部对照。数据表示为平均值±SD，n＝3；**表示使用非配对的学生t检验的p<0.01。右上图显示了输入样品中和免疫沉淀中Ezrin的丰度，然后使用Ezrin抗体或IgG进行了蛋白质印迹。

图12b显示鉴定与CARPID相关的MALAT1相关蛋白质组。火山图显示了HEK293T细胞中MALAT1相关蛋白的富集。x轴表示相对于对照，结合所有三组XIST gRNA的CARPID结果中蛋白质水平倍数变化log2转化的值。y轴显示负对数转换后的p值(非参数rank product检验)。显著富集的蛋白质标记为橙色点。

具体实施方式

为了对本发明的技术特征、目的和有益效果有更加清楚的理解，现对本发明的技术方案进行以下详细说明，但不能理解为对本发明的可实施范围的限定。实施例中未注明具体条件的实验方法为所属领域熟知的常规方法和常规条件，或按照制造商所建议的条件。

实施例1、CARPID技术的建立

请参见图1a所示，本发明提供了一种称为CRISPR辅助的RNA-蛋白质相互作用检测(CARPID)的方法，可用于检测与活细胞中内源性lncRNA转录物结合的RBP。本发明设计了一个向导RNA(guide RNA，gRNA)阵列，该阵列由两个gRNA序列组成，这些序列由一个30nt的直接重复序列(direct repeat，DR)隔开，以靶向同一lncRNA转录本上的两个相邻基因座(图4a)。从理论上讲，这可以提高靶向特异性，从而降低背景噪音。

为了鉴定与靶lncRNA结合的RBP，本发明将dCasRx与工程化的生物素连接酶BASU融合在一起。为了监测并最小化由BASU酶在细胞之间异质表达引起的变化，本发明用自切割T2A肽和eGFP cDNA在读框内克隆了BASU-dCasRx(图4b)。为了优化反应条件，尝试了各种诱导时间(图4c)。本发明还通过颠倒融合蛋白中的BASU和dCasRx的顺序来比较酶促活性，没有观察到明显的差异(图4c)。本发明选择了BASU-dCasRx，并在随后的分析中将细胞用200μM生物素处理15分钟，作为最短但足够的反应时间。通过将BASU-dCasRx融合蛋白与靶向lncRNA(XIST)特定区域的gRNA共表达，诱导生物素化并随后富集生物素化蛋白以进行质谱分析介导的蛋白鉴定和定量(图1a)，来进行CARPID。本发明没有观察到BASU-dCasRx和gRNA过表达的细胞中基因表达的显著变化，证实CARPID不会改变转染细胞的生理功能(图4d)。

实施例2、CARPID的性能评估

XIST是最有趣和研究最深入的哺乳动物lncRNA基因之一。它位于人类基因组中X染色体的长(q)臂上，仅从无活性的X染色体(Xi)表达，以调节分化女性细胞中顺式XCI。现有技术研究已经揭示了多种XIST结合蛋白，并逐渐揭示了潜在的分子途径。本实施例中专注于XIST来评估CARPID的性能。

本发明用表达BASU-dCasRx的载体和靶向XIST不同区域的三组不同的gRNA转染HEK293T细胞(图1b；三组gRNA参见表1)。

表1

XIST L1-1	TGAAAAGACCTTGAAAACACCTGGTGTACC(SEQ ID No.1)
		XIST L1-2	AGGAGGGGACAAATAAGAGGGGACAGAGGT(SEQ ID No.2)
XIST L2-1	TATGTGGAGAGGACCCTCCTTTTCTAGTGC(SEQ ID No.3)
		XIST L2-2	AGTCTTATGGAGTGGGCACTCCCTGCTGGA(SEQ ID No.4)
XIST L3-1	AGTAGAGGGGTTCATGTATAATGGGTGGGA(SEQ ID No.5)
		XIST L3-2	AGAAGGGGCTTTGGGTAGTCAGCATACTCA(SEQ ID No.6)
DANCR L1-1	TAAGAGACGAACTCCTGGAGCTCAAGGTCG(SEQ ID No.7)
		DANCR L1-2	GCTGCCTCAGTTCTTAGCGCAGGTTGACAA(SEQ ID No.8)
DANCR L2-1	TTCCTATTGTAACTGAAGGGATAGTTGGCT(SEQ ID No.9)
		DANCR L2-2	CCAAATATGCGTACTAACTTGTAGCAACCA(SEQ ID No.10)
MALAT1 L1-1	AGTTGCGGGGCCCCAGTCCTTTACAGAAGT(SEQ ID No.11)
		MALAT1 L1-2	TTCTGCGTTGCTAAAATGGCGCTGCGCTTA(SEQ ID No.12)
MALAT1 L2-1	AATCTTAGAAACGTGAAAACCCACTCTTGG(SEQ ID No.13)
		MALAT1 L2-2	TTGCTTTTTTGTTCGAGAAATCGGAGCAGC(SEQ ID No.14)

这些gRNA组的特异性通过与活性CasRx共转染得到证实，该CasRx转染表明目标区域具有特异性消化，而不会影响其他区域(图4e)。由于XIST的结构高度有序，本发明也避免了靶向预期的XRNA发夹结构(图5)。

本发明对每组gRNA进行了生物学三次重复，以进一步“稀释”随机结合产生的非特异性噪声。为确定背景生物素化的基线，本发明用空的gRNA载体进行了对照CARPID，基于质谱(MS)的蛋白质鉴定表明，检测到的绝大多数具有至少两个肽的蛋白质(447个蛋白质)在不同的gRNA组之间以及每组的一式三份之间共享，表明CARPID具有强大的可重复性(图6a，图6b)。

对于富集分析，本发明应用了无标记的MS定量和非参数秩和检验(non-parametric rank product test)，富集截止值>2倍，调整后的p值<0.05。结果显示，与载体对照组相比，至少有一组gRNA显著富集了73种XIST相互作用蛋白(图1c)。此外，在73种蛋白质中，有23种被发现具有至少两组不同的gRNA，其中13种蛋白质被所有三对gRNA对共享(图1d；图6c)。以前的研究已经报道了这些强的XIST相互作用蛋白的四分之一以上(19/73)(图1d)，包括多种经过功能验证的结合物：粘着蛋白亚单位(Cohesin subunits)RAD21和SMC1A，一种依赖于ATP的解旋酶ATRX，SWI/SNF染色质重塑剂BRG1。本发明还注意到，一些已知的XIST交互RBP，例如SPEN和RBM15不在此列表中。本发明人为它们与XIST的结合在活细胞中可能是弱的或动态的，难以富集。

对显著富集的候选蛋白质的基因本体论(GO)分析表明，与XIST相互作用的蛋白质在很大程度上参与了共价染色质修饰和染色质重塑(图1e)。在CARPID中发现的ATP依赖解旋酶ATRX属于这些类别。在一项独立研究中也报告了该基因，声称其在将多梳复合物PRC2引导至X染色体以失活和基因沉默中发挥作用。本发明的这些发现强烈表明，CARPID是确定RBP的高度可靠的方法。

除了已知的XIST相互作用子外，CARPID还鉴定了多种新型因子，包括转录起始因子TFIID亚单位TAF15(图1c，图1d)。已知TAF15与TATA-box结合蛋白(TBP)和RNA聚合酶II相互作用，并充当识别核心启动子和促进转录起始的共激活因子。本发明首先使用Westernblotting(WB)和免疫FISH证实了TAF15与XIST lncRNA的关联(图2a，图7)。据报道，TAF15是小鼠组织中的一种RNA结合蛋白。因此，本发明重新研究了在小鼠脑中进行的TAF15 CLIP-seq数据，发现TAF15确实与XIST lncRNA显著结合，结合簇富集程度超过预期的9倍(图2b，图2c)。为了研究TAF15的结合是否依赖于其对XIST lncRNA序列特征的生化结合亲和力，本发明使用包含40-nt RNA转录本和随机序列的文库对TAF15进行了HTR-SELEX实验(图8a，图8b)。HTR-SELEX鉴定出TAF15的RNA序列基序显著富集(图8c)，与先前的报道相似。鉴于XISTlncRNA中丰富的发夹结构可能导致二核苷酸相互依赖性，因此简单的位置权重矩阵模型无法完全描述RNA序列对TAF15结合的影响。因此，本发明采用了基于k-mer的机器学习算法(gkm-SVM)，利用HTR-SELEX数据对人TAF15蛋白的RNA结合特异性进行建模(图8d)。与WB和MS结果一致，HTR-SELEX结果进一步支持TAF15与XIST lncRNA结合的基因座1和2的亲和力高于基因座3(图2e)。

在CARPID中也发现了经过充分研究的染色质重塑剂SNF2L(图1c)，并通过WB和免疫FISH进行了确认(图2f)。一致地，RIP-qPCR结果显示XIST lncRNA与SNF2L显著相关(图2g)。SNF2L和SNF2H是属于ISWI(仿制开关)家族的两个旁系ATP依赖的染色质重塑酶，可沿DNA移动核小体。十多年来，已知IWSI与人细胞中的粘着蛋白复合物相关。与此相符，本发明鉴定了两个与XIST相互作用的粘着蛋白亚单位SMC1A和RAD21(图1c)。

为了验证这两个新的RBP在哺乳动物XCI中的作用，本发明采用了带有Xi连接的GFP报告基因转基因的雌性小鼠胚胎成纤维细胞系。Xi连接的GFP被多种表观遗传机制沉默。因此，没有检测到GFP转录物(图2h)，也没有观察到任何荧光信号(图9a)。相反，当用5'-氮杂胞嘧啶(5-aza)抑制DNA甲基化时，GFP mRNA和荧光信号均显著增加。为了阐明它们在XCI中的功能重要性，本发明在存在5-aza处理的情况下耗尽了TAF15和SNF2L(图9b)。令人惊讶的是，TAF15沉默后，5-aza增强的GFP水平显著降低，这可以通过异位表达RNAi抵抗性TAF15 cDNA来部分挽救(图9c，图9d)。为了排除TAFl5相关XCI对敲入的GFP基因座特异的可能性，本发明在MAF和Cast杂种遗传背景下的雌性小鼠胚胎成纤维细胞系中TAF15耗尽后进行了RNA测序基因。基因的等位基因表达可以通过两种不同遗传背景之间SNP的可用性来确定。正如预期的那样，X染色体上的基因显示出比常染色体基因更强的等位基因耗竭(图9e)，这证明了TAF15在拮抗XCI中的作用。另一方面，在5-aza处理的细胞中，SNF2L的敲低导致GFP的进一步抑制(图2h，图9a)，表明SNF2L与XIST RNA协同作用以促进XCI。

在功能上，SNF2L和TAF15分别属于转录阻遏物和激活物。本发明发现SNF2L作为XIST RBP，表明ISWI家族蛋白可能通过其已知的调节染色质高阶结构的功能来促进XCI。TAF15与XIST的结合表明XIST RNA可以排斥TAF15和可能的其他转录激活因子与Xi-linked基因的启动子结合，从而阻止靶基因的表达。这种现象支持一个多任务模型，该模型募集了抑制因子(例如SNF2L)和逐出转录激活因子(例如TAF15)都可能是XIST介导的X染色体失活的基础(图9f)。

实施例3、CARPID的应用

为了概括CARPID的应用并将其应用扩展到非核lncRNA，本发明设计了针对两个其他lncRNA DANCR(分化拮抗非蛋白编码RNA)和MALAT1(与转移相关的肺腺癌转录本1)的gRNA组。据报道，DANCR转录物主要存在于细胞质中，其过表达与多种癌症的不良预后显著相关，包括乳腺癌、肝癌、结直肠癌和骨肉瘤。但是，分子机理尚未阐明。重要的是要注意DANCR的长度为～1000个核苷酸，比XIST短得多。这以及其在细胞中的低丰度(图10a)，使得使用目前可用的方法(例如ChlRP-MS)进行研究在技术上具有挑战性，该方法需要跨越数十种不同的RNA探针才能充分捕获。

在HEK293T细胞中将CARPID与两组gRNA一起应用(图10b)，本发明检测到640个与DANCR lncRNA相关的蛋白(≥2个肽)，其中35个和26个蛋白分别显著富集于基因座1和基因座2(图3a，图3b，图10c)。

值得注意的是，GO-term分析显示，绝大多数DANCR相关蛋白富含细胞外囊泡，这表明DANCR定位在这个专门的细胞区室中(图10d)。为了验证这一点，本发明从HEK293T细胞中纯化了囊泡，并检查了外泌体和全细胞裂解物的总RNA(图11a，图11b)。的确，定量RT-PCR分析显示，DANCR在外泌体中的富集程度是细胞裂解物的5倍(图11c)。相比之下，XIST在外泌体中被大量消耗(图11d)。本发明还注意到了一种有趣的DANCR结合蛋白Ezrin(EZR)(图10d)，一种膜结合的细胞骨架连接蛋白，与许多癌症的不良预后相关。RIP-qPCR验证了Ezrin与DANCR lncRNA的结合，与IgG对照相比，在Ezrin下拉列表中观察到DANCR lncRNA大约富集了2倍，但没有用于MALAT1 lncRNA(图12a)。

本发明还对另一个已知在细胞核中丰富但也存在于细胞质中的lncRNA MALAT1进行了CARPID。用于人MALAT1的两组不同的gRNA能够捕获484种蛋白质(≥2个肽)，其中43种蛋白质被显著富集(图3c，图3d，图12b)。

在这项研究中，在三个测试的lncRNA中，部分共享亚细胞分布的CARPID结果的比较导致了几乎没有重叠的候选物，证明了CARPID方法的高度特异性(图3e)。总之，这些数据支持CARPID是研究各种长度和表达水平在各种亚细胞定位中的lncRNA的有力工具。

序列表

<110> 香港城市大学深圳研究院

<120> 确定长链非编码核糖核酸相互作用蛋白的新方法

<130> GAI20CN2022

<160> 14

<170> PatentIn version 3.5

<210> 1

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 1

tgaaaagacc ttgaaaacac ctggtgtacc 30

<210> 2

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 2

aggaggggac aaataagagg ggacagaggt 30

<210> 3

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 3

tatgtggaga ggaccctcct tttctagtgc 30

<210> 4

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 4

agtcttatgg agtgggcact ccctgctgga 30

<210> 5

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 5

agtagagggg ttcatgtata atgggtggga 30

<210> 6

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 6

agaaggggct ttgggtagtc agcatactca 30

<210> 7

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 7

taagagacga actcctggag ctcaaggtcg 30

<210> 8

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 8

gctgcctcag ttcttagcgc aggttgacaa 30

<210> 9

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 9

ttcctattgt aactgaaggg atagttggct 30

<210> 10

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRAN

<400> 10

ccaaatatgc gtactaactt gtagcaacca 30

<210> 11

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 11

agttgcgggg ccccagtcct ttacagaagt 30

<210> 12

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 12

ttctgcgttg ctaaaatggc gctgcgctta 30

<210> 13

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 13

aatcttagaa acgtgaaaac ccactcttgg 30

<210> 14

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> gRNA

<400> 14

ttgctttttt gttcgagaaa tcggagcagc 30

Claims

1.由BASU和dCasRx形成的融合蛋白，其为BASU-dCasRx或dCasRx-BASU。

2.一种用于表达权利要求1所述融合蛋白的表达载体。

3.一种组合物，其包括：权利要求1所述的融合蛋白或权利要求2所述的表达载体，以及靶向目标lncRNA的gRNA。

4.根据权利要求3所述的组合物，其中，所述目标lncRNA为XIST、DANCR或MALAT1。

5.一种确定lncRNA相互作用蛋白的试剂盒，其中包括：权利要求1所述的融合蛋白或权利要求2所述的表达载体，以及靶向目标lncRNA的gRNA。

6.根据权利要求5所述的试剂盒，其中，所述试剂盒进一步包括无gRNA的对照组试剂。

7.一种确定lncRNA相互作用蛋白的方法，该方法包括：

将权利要求2所述的表达载体与特异的靶向目标lncRNA的gRNA共转染到靶细胞中，使BASU对附近的效应蛋白进行特异的生物素化标记；

8.根据权利要求7所述的方法，其是用于确定活细胞内lncRNA的相互作用蛋白。

9.根据权利要求7所述的方法，该方法还包括：

将特定gRNA组中鉴定出的蛋白与无gRNA对照组进行富集或减低的统计学比较。

10.根据权利要求9所述的方法，其中，所述方法还包括：

采用Rank product计算富集的错误发现率；其中，临界值定为富集≥2倍并且FDR≤0.05。

11.根据权利要求10所述的方法，其中，所述方法还包括：

12.一种用于目标lncRNA特定区域的富集的相互作用蛋白的分析方法，该方法包括：

对按照权利要求7的方法检测到一个以上肽段的蛋白质进行富集分析；

对各组的LFQ丰度进行归一化并进行对数化；

用代表质谱仪检测限度的最低值替换缺失值；

13.根据权利要求12所述的方法，其中，进行富集分析的蛋白质包括人类角蛋白。