CN108351915B

CN108351915B - 通过调节子富集测定进行的蛋白质活性的虚拟推断

Info

Publication number: CN108351915B
Application number: CN201680062241.6A
Authority: CN
Inventors: 马里亚诺·贾维尔·阿尔瓦雷茨; 安德里亚·卡利法诺
Original assignee: Columbia University in the City of New York
Current assignee: Columbia University in the City of New York
Priority date: 2015-08-28
Filing date: 2016-08-26
Publication date: 2022-09-09
Anticipated expiration: 2036-08-26
Also published as: US10790040B2; EP3341498A1; HK1257698A1; EP3341498B1; CN115410647A; WO2017040315A1; EP3341498A4; US20170076035A1; US20210327537A1; CN108351915A

Abstract

本文公开了用于测定基因表达标记中的调节子富集的方法。实例性方法可包括获得调节子的一组转录靶标。所述方法可包括通过将测试样品的基因表达谱与代表对照表型的多个样品的基因表达谱进行比较来获得基因表达标记。所述方法可包括计算所述基因表达标记中每一调节子的调节子富集得分。所述方法可包括确定所述对照表型中的对照样品的数目是否高于预定阈值以支持使用重排测定来评估统计显著性。所述方法可包括，响应于确定所述对照样品的数目高于所述预定阈值，通过将每一调节子富集得分与空模型进行比较来计算显著性值。

Description

通过调节子富集测定进行的蛋白质活性的虚拟推断

相关申请的交叉参考

本申请要求2015年8月28日提交的美国临时申请序列号62/211,373、2015年8月28日提交的美国临时申请序列号62/211,562及2015年11月10日提交的美国临时申请序列号62/253,342号的优先权，所述申请的全部内容以引用方式并入本文。

关于联邦政府资助的研究的声明

本发明是在各自由美国国立卫生研究院(NIH)授予的批准号5U54CA121852-08和1U01CA168426-01下在政府支持下作出的。政府拥有本发明的某些权利。

背景

癌症的引发和进展可能是由致癌蛋白的异常活性驱动的，所述致癌蛋白协同调节关键的肿瘤标志程序。对异常活化的致癌蛋白的药理学抑制可引发致癌基因依赖性，此可激励在精准癌症医学中研发和使用靶向抑制剂。尽管活化遗传改变可允许鉴别候选药物靶标，但活化突变可能仅代表几种使致癌蛋白的活性失调的技术之一。同源结合配体、竞争性内源RNA和上游调节因子中的遗传和表观遗传事件可能导致致癌蛋白的异常活性。因此，尽管在特定致癌基因中已活化突变的细胞通常可能对相应的靶向抑制剂更敏感，但缺乏此类突变的细胞可能呈现等同的敏感性。

相反，由于自动调节机制和表观遗传等位基因沉默，活化突变无法保证会诱导异常蛋白质活性。因此，本领域需要一种更加普遍且系统的方法来准确且可重复地评估蛋白质活性，以补充基于突变测定鉴别靶向疗法响应者的能力，尤其是因为许多癌症患者没有可操作的致癌基因突变。

另外，用微扰处理组织后蛋白质活性的变化可能与确定所述微扰是否在所述特定组织背景下具有治疗价值密切相关。微扰可包括(但不限于)小分子、生物制剂、生物物理学扰动和抗体。例如，确定小分子A可抑制可能在癌症C中异常活化或突变的蛋白激酶B，可用作研发A作为肿瘤C的靶向药物的基础。

尽管基因表达数据在癌症研究中无处不在。基于阵列或质谱技术测量蛋白质丰度的某些方法可能是劳动密集型、昂贵的，并且覆盖蛋白质组学景观的一小部分或需要大量的组织。更重要的是，这些方法仅提供蛋白质活性的间接测量，因为所述蛋白质活性是通过复杂的事件级联(包括蛋白质合成、降解、翻译后修饰、复合物形成和亚细胞定位)来测定。毕竟不清楚蛋白质活性是否可通过某些个别测定来直接且系统地评估。

一个问题是缺乏某些实验验证的方法来基于个别样品中任意蛋白质的调节子基因的表达来准确地评估所述蛋白质的活性。此情况的原因包括缺乏准确的和背景特异性的蛋白质调节子模型、转录调节的主要多效性质以及缺乏评估单一样品的统计显著性的方法。这可能限制了如下能力：理解突变对蛋白质活性的功能效应，和基于异常蛋白质活性而不是突变来鉴别针对靶向抑制剂的候选响应者。

因此，本领域需要研发一种实验验证的方法，以基于其调节子基因的表达来准确评估个别样品中任意蛋白质的活性。

发明内容

所公开的标的物提供了从基因表达谱数据推断蛋白质活性的系统和方法。这可用于(a)确定基因突变的功能影响，(b)鉴别负责实施在生理学(例如，组织分化或重编程)和/或病理学中两种表型状态之间转变(例如，正常状态与疾病相关状态之间的转变)的关键调节因子，(c)鉴别癌症中非致癌基因驱动基因(既针对单一患者也针对单细胞水平)，以及(d)表征不同类型的扰动(且特别是那些由微扰(例如小分子化合物、抗体、营养素和其它生物制剂)实施的扰动)对细胞的细胞背景特异性作用机制。

根据一个实例性实施方案，所公开的标的利用背景特异性的转录调节模型来根据蛋白质的调节子基因的差异表达来估计所述蛋白质的差异活性。调节子可定义为特定蛋白质的大量靶基因。例如，转录因子和信号转导蛋白的蛋白质活性可通过使用其调节子基因的转录丰度作为基因报告测定来估计。通过根据组织特异性基因表达数据来系统地推断调节子，可在某些感兴趣的组织背景中针对某些感兴趣的蛋白质生成调节子模型。为了估计信号传导蛋白和其它翻译后调节因子的差异活性，可鉴别高信息路径靶标，从而允许鉴别可预测这些蛋白质活性的调节子。

在一些实施方案中，所公开的标的物可包括用于测试在特定基因表达标记中差异表达的基因中的调节子富集的系统框架。可通过比较代表不同表型和/或处理的两组样品的基因表达谱(GEP)来确定基因表达标记(GES)，以使用(例如)司徒登氏T测试统计来评估所述谱中每一基因差异表达的统计学显著性。另外或另一选择为，可通过比较样品GEP中每一基因的表达水平与来自参考(例如对照)样品的一组GEP中所述同一基因的表达水平来确定基于单样品的基因表达标记。可通过使用基于解析秩的富集测定技术(aREA)和/或用于测量基因集富集测定的其它等效方法的多个不同实施来确定在GES中差异表达的基因中的每一调节子的富集。aREA技术可测试每一调节子基因在投影于秩分选的基因表达标记上时的位置的总体位移。可通过比较每一调节子富集得分与通过对样品进行随机且均匀地重排以进行多次不同的迭代而生成的空模型来估计统计显著性(例如，p值和正规化的富集得分)。在替代实施方案中，如果确定样品的数目不足以支持重排，则可使用基因表达标记中的基因重排和/或其解析近似法。

所公开的标的物还可根据相应的基因表达谱评估样品中调节蛋白的活性，由此产生信息性蛋白活性谱。例如，所公开的标的物可基于下游转录靶标(例如，蛋白质调节子)的丰度来推断蛋白质活性，所述丰度可最佳地反映调节活性蛋白质同种型的活性，包括翻译后修饰、适当的亚细胞定位和与辅助因素的相互作用的效应。

在一些实施方案中，所公开的标的物可使用考虑靶标方向性、置信度和/或多效性调节的严格概率框架，从而使得根据单样品和多样品数据集进行的活性预测的准确度、特异度和再现度较高。另外，通过建立最少间接调节的靶标并通过测定其差异表达，可推断出信号转导蛋白和其它非转录调节因子的活性。

在一个实例性实施方案中，所公开的标的物可应用于鉴别实施和维持单一肿瘤的转录状态所必需的关键调节蛋白。例如，所公开的标的物可用于推断来自单一鼠类神经胶瘤肿瘤的85个个别细胞的细胞状态的调节因子。

在一些实施方案中，所公开的标的物可应用于检测遗传突变(包括编码和非编码突变)对蛋白质活性的功能影响。例如，所公开的标的物可用于对罕见和私有性非同义突变(如减效等位基因、超效等位基因或中性事件)的功能相关性进行优先级排序。在另一实例性实施方案中，所公开的标的物可用于区分转录和翻译后介导的突变效应。在另一实例性实施方案中，所公开的标的物可用于阐明如下蛋白质：介导微扰(例如小分子化合物、抗体、营养素和其它生物制剂(即其作用机制))的药理学活性，并且在因果上负责实施由用所述化合物或生物制剂处理组织而产生的转录细胞状态。

这里的描述仅仅阐释了所公开标的物的原理。所属领域技术人员根据本文的教示将明了对所描述实施方案的各种修改和变更。因此，本文的公开旨在进行说明，而不是限制所公开的标的物的范围。

图式简单说明

图1A图解说明所剖析分子层和用于基于蛋白质的调节子推断蛋白质活性的根据所公开标的物的实例性方法(在本文中称作VIPER)的示意图。

图1B图解说明生成调节模型的VIPER工作流程。

图1C图解说明aREA测定的三种可能情况，所述情况为三种调节蛋白的活性增加、降低或没有变化。

图1D图解说明所进行的多效性校正。

图1E图解说明用VIPER进行的基准实验的准确度和特异度数据。

图2图解说明用于测试基因表达标记上调节子富集的VIPER技术。

图3图解说明进行基于解析秩的富集测定(aREA)的方法。

图4A-F图解说明网络和标记质量对VIPER结果的效应。

图4A-C图解说明当使用非组织匹配的相互作用组学时网络质量对VIPER准确度的效应。

图4D图解说明通过添加高斯噪声(Gaussian noise)获得的渐进式标记退降的VIPER准确度结果。

图4E图解说明通过随机去除基因获得的减少的标记覆盖的VIPER准确度结果。

图4F图解说明VIPER推断的蛋白质活性标记与根据较低深度RNA测序确定的相应标记之间的平均相关性结果。

图5A-C图解说明指示VIPER结果的再现性的数据。

图6A-C图解说明检测由非沉默体细胞突变引起的蛋白质活性变化的数据。

图7A-B图解说明突变表型得分和其与药物敏感性的关联。

图8A-B图解说明特定非沉默体细胞突变变体对VIPER推断的蛋白质活性的效应。

图9A-C图解说明基因表达的热图(图9A和图9C)和VIPER推断的蛋白质活性(图9B)。

图10A-D图解说明基于B细胞U133的相互作用组学的TF调节模式的结果。

图11A-H图解说明推断调节模式的结果。

图12A-B图解说明从多个样品(图12A)和单个样品(图12B)确定的用于GES的VIPER的准确度和特异度结果。

图13图解说明通过不同算法推断的蛋白质活性的准确度和特异度。

图14图解说明通过VIPER鉴别的具有差异活性的调节因子的基因集富集测定结果。

图15A-B图解说明检测遗传扰动后蛋白质活性的变化。图15C图解说明蛋白质活性降低的统计学显著性。图15D图解说明表示为所估计调节因子的位置百分比的准确度数据。图15D图解说明特异度，其表示为推断为差异活性的调节因子的比例(％)。

图16A-B图解说明遗传扰动后蛋白质活性的变化检测结果。

图17图解说明药理学扰动后蛋白质活性的变化检测结果。

图18图解说明VIPER推断的蛋白质活性和蛋白质同种型丰度之间的关联。

图19图解说明单样品基因表达，蛋白质丰度和VIPER蛋白质活性特征的再现性。

图20说明了由非沉默体细胞突变诱导的蛋白质活性的变化检测结果。

图21显示所有基因的MPS得分，其显示突变与总体活性(G活性)或残差翻译后活性的显著关联。

图22图解说明特定的非沉默体细胞突变(NSSM)变体对蛋白质活性的影响。

图23图解说明非沉默体细胞突变(NSSM)变体对所编码蛋白质活性的差异影响的总结。

图24A-B图解说明沉默基因的差异表达。

图25A-B图解说明由单尾FET(25A)和双尾FET(25B)推断的差异活性标记中的秩位置(y轴)随被认为差异表达的基因的数目(x轴)而变化。

图26A-C图解说明B细胞U95(26A)、B细胞U133plus2(图26B)和GBM U133A(图26C)相互作用组学中相互作用置信度(y轴)随相互作用互信息(x轴)而变化。

图27A-C图解说明多效性指数参数(PI)对用基准数据评估的VIPER结果的效应。

图28图解说明VIPER推断的蛋白质活性与编码基因mRNA水平之间的相关性。

实施方式

本文所提出的方法和系统可用于通过系统地测定蛋白质调节子的表达来推断蛋白质活性。将结合在本文称作通过富集调节子测定进行蛋白质活性的虚拟推断的实例性方法(下文为“VIPER”)来解释所公开的标的物，以根据基因表达数据进行蛋白质活性的准确评估。所公开的标的物可使用VIPER来估计不同样品间调节蛋白中遗传改变的功能相关性。调节蛋白可定义为直接控制多个基因(例如转录调节因子)的表达或染色质状态(例如表观遗传调节因子)或多种其它蛋白质的翻译后修饰(例如信号转导调节因子)的蛋白质。

VIPER也可用于鉴别尽管缺乏突变但具有可成药致癌蛋白异常活性的肿瘤，并且反之亦然。体外和体内测定可证实VIPER推断的蛋白质活性在预测对靶向抑制剂的敏感性方面可能胜过突变测定。

出于图解说明而不是限制的目的，图1图解说明通过VIPER技术剖析的分子层的示意图。在一些实施方案中，统称作调节子的蛋白质的转录靶标的表达可代表各别蛋白质活性的最佳多工报告子。

尽管调节子测定可帮助鉴别肿瘤中异常活化和失活的蛋白质，但调节子测定可能需要多个代表相同肿瘤表型的样品，并且不能用于评估来自个别样品的异常蛋白质活性。为了解决此挑战，已研发出VIPER来根据单一基因表达谱推断蛋白质活性。VIPER可用于系统地评估高亲和力抑制剂对其可用的致癌蛋白的异常活性，而不依赖于所述致癌蛋白的突变状态，从而将所述致癌蛋白确立为基于个别患者的有价值的治疗靶标。基于VIPER的测定可能完全通用，并且可轻易地扩展以研究生殖细胞系变体在使蛋白质活性失调中的作用。

图1a图解说明所剖析分子层的示意图：用于测量稳态mRNA水平的转录组学，和用于量化蛋白质水平(包括一些确定的翻译后同种型)的蛋白质组学。图1a还图解说明VIPER可用于基于蛋白质调节子来推断蛋白质活性，反映活性蛋白质同种型的丰度，包括翻译后修饰，适当的亚细胞定位和与辅因子的相互作用。图1b图解说明VIPER工作流程，其中从ARACNe推断的背景特异性相互作用组学生成调节模型，并且可根据调节子与靶基因之间的相关性来确定调节模式(MoR)。可根据全基因组表达数据确定单样品基因表达标记(GES)，并且通过aREA算法转变成调节蛋白活性谱。|GES|是GES的绝对值，并且NES是正规化的富集得分。图1c图解说明aREA测定的三种可能情况：三种调节蛋白(R1、R2和R3)活性的(1)增加、(2)减少或(3)没有变化。图1d图解说明多效性校正，其是通过估计给定调节子(R4)的富集是否由第二调节子(R1)共同调节的基因驱动来进行。图1e图解说明六次基准实验(表2所示)的准确度(例如，沉默蛋白的相对秩)和特异度(例如，推断为在P<0.05时差异活性的蛋白质的分数)，所述实验利用基于多样品基因表达标记(msVIPER)和单样品基因表达标记(VIPER)的VIPER。aREA算法的不同实施可包括双尾(2T)和三尾(3T)、相互作用置信度(IC)和多效性校正(PC)。

在一些实施方案中，VIPER可用于通过系统地测定蛋白质调节子的表达来推断蛋白质活性，其是肿瘤背景依赖性的(图1b)。因此，VIPER使用准确的细胞网络，所述细胞网络可使用反向工程技术(例如ARACNe技术)来重建，以系统地使用根据组织特异性基因表达数据推断出的调节子(图1b和表1)。表1图解说明相互作用组学和可用于反向改造所述细胞网络的数据集。

表1

虽然准确、组织特异性地评估蛋白质调节子的各种技术或实验测定可能有效，但结果指示，ARACNe可胜过某些从全基因组染色质免疫沉淀(ChIP)数据库中获得调节子的其它技术，包括ChIP富集测定(ChEA)、DNA元件百科全书(ENCODE)和文献精选的Ingenuity网络。ARACNe可用于检测最大信息路径目标，以允许鉴别报告代表转录靶标表达间接调节因子(例如信号传导蛋白)的蛋白质的活性的调节子。

在一些实施方案中，VIPER可基于直接整合靶标‘调节模式’(例如靶标是否被活化或抑制)以计算蛋白质调节子在差异表达基因中的富集的概率框架(图1b、10和11)。在一些实施方案中，VIPER还可基于直接整合调节因子-靶标相互作用的统计置信度以确定蛋白质调节子在差异表达基因中的富集的概率框架(图1b)。在一些实施方案中，VIPER还可基于直接整合不同调节因子之间的靶标重叠(例如多效性)以确定差异表达基因中蛋白质调节子的富集的概率框架(图1d)。可使用几种方法来评估在特定基因表达标记方面差异表达的基因中多个基因(例如，基因集)的富集。这些方法可包括费希尔精确测试(Fisher’s exacttest)、T-profiler和基因集富集测定(GSEA)，其在下文中也统称作基因富集测定方法。在每一基因富集测定方法中，个别基因对标记富集的贡献可以是二元的(例如0或1)。相比之下，VIPER可使用完全概率性但高效的富集测定框架，以支持对具有代表被活化、被抑制或未确定的靶标的不同似然的基因进行无缝整合，并且可对低对高似然的蛋白质靶标进行概率加权。为了实现这一点，可使用为基于秩平均值的统计测定的基于解析秩的富集测定(在下文也称作“aREA”)(图1c)并且在下文中对其进行更详细描述。可使用aREA来计算正规化富集得分以定量推断差异蛋白质活性。

图2出于图解说明而非限制的目的显示测试基因表达标记上调节子富集的方法200(在本文中称作VIPER)。在202，所述方法可包括通过比较代表不同表型或处理的两组样品来获得基因表达标记。可使用生成各组间差异的定量测量的任何适宜方法(例如倍数变化、司徒登氏t测试、曼-惠特尼U测试(Mann-Whitney U test)等)。或者，可通过任何适宜方法(包括例如司徒登氏t测试、Z得分转变或倍数变化)相对于一组参考样品比较每一样品中每一特征的表达水平来获得基于单样品的基因表达标记；或当明确参考样品不可用时，相对于所有样品的平均表达水平进行。在204，可使用如下文关于图3更详细描述的aREA的不同实施来计算基因表达标记上每一调节子的富集。在206，所述方法可包括确定样品的数目是否高于预定的阈值以支持具有复位的重排。例如，在一个实例性实施方案中，阈值可被设置为每组至少五个样品。在208，响应于确定样品的数目高于阈值以支持具有复位的重排，可通过将每一调节子富集得分与通过将样品随机且均匀地重排1,000次而生成的空模型进行比较来估计显著性(包括P值和正规化的富集得分)。在210，响应于确定样品的数目不足以支持具有复位的重排，可使用基因表达标记中的基因重排或其解析近似法来估计显著性。

出于图解说明而非限制的目的，图3显示进行基于解析秩的富集测定(例如，aREA)的方法300。aREA方法可测试每一调节子基因在投影于秩分选的基因表达标记上时的位置的总体位移。四分位数转变的秩位置的平均值可用作测试统计量(例如，富集得分)。富集得分可确定两次。在302，可通过使用单尾法基于基因表达标记的绝对值来确定第一富集得分(例如，可从组间较差不变性到最差异表达对基因进行秩分选，不论变化的方向如何)。在304，可通过使用双尾法来计算第二富集得分，其中可在确定富集得分之前在基因表达标记中倒置表达可被调节因子抑制的基因的位置(R-)。在306，可整合第一和第二富集得分，同时经由“三尾”法技术基于所估计的调节模式来对其贡献进行加权。在308，可基于调节因子-靶标基因相互作用置信度对来自给定调节子的每一靶基因对富集得分的贡献进行加权。在310，可通过与空模型相比较来计算和/或估计富集得分的统计显著性，所述空模型可通过对样品进行随机均匀地重排或通过等效于对标记中的基因进行随机均匀改组的解析方法生成。

在一些实施方案中，基于算术平均值的富集得分可能会在代数层面上(通过使靶标对富集得分的加权贡献对于公式化微不足道)以及在计算层面上具有几个所需的性质。考虑到基于平均值的富集得分的线性特性，在生成空模型所需的重排数目增加的情况下所述富集得分的计算可通过矩阵运算来有效地进行。另外，使用算术平均值作为富集得分可允许解析方法来估计其统计显著性，这等效于对标记中的基因进行随机均匀地改组。在一些实施方案中，通过这两种替代方法测试的空假设可以是不同的和/或不等效的。例如，在样品改组的情况下，可以确定针对给定的基因表达标记(例如对于与表型相关的基因表达谱)计算的富集得分是否显著高于当表型与基因表达谱之间不存在关联时获得的富集得分。相反，可使用基因改组和/或其解析近似法来确定富集得分是否高于当待测基因的集合均匀分布在基因表达标记中时获得的富集得分。基因改组可如下来解析地近似。根据中心极限定理，足够大数目的独立随机变量的平均值可能接近正态分布。空假设的富集得分可满足此条件，并且对于空假设下的富集得分，通过在确定富集得分之前将基于正态分布的四分位数转变应用于秩转变的基因表达标记，零和方差的平均值等于1。在空假设下，富集得分可以是正态分布，其中平均值等于零并且方差是1/n，其中n是调节子大小。当使用加权平均值时，可通过以下公式来推广此定义：

其中w_i是靶标i的权重。

在一些实施方案中，可基于调节因子与靶标表达之间的斯皮尔曼相关系数(Spearman’s correlation coefficient，SCC)来确定调节模式(MoR)，所述相关系数是根据用于反向改造网络的数据集来确定。然而，对于复杂的非单调依赖性(例如，针对背景特异性重新布线)，评估MoR可能不那么容易。为了解决这个问题，可使用三高斯混合针对网络中的所有调节因子-靶标相互作用模制SCC概率密度(图10)，所述三高斯混合代表(i)明确抑制的靶标(MoR-)、(ii)明确活化的靶标(MoR+)和(iii)MoR无法可靠估计的非单调调节的靶标(MoRNM)。例如，图10a图解说明拟合至3高斯混合模型的TF靶标斯皮尔曼相关系数分布，并且可图解说明每一分布的估计平均值(m)和标准偏差(s)以及拟合的最终对数似然。图10b-d图解说明TF(x轴)和靶基因(y轴)的散点图，其显示最负(图10b)、最弱(图10c)和最正(图10d)的斯皮尔曼相关系数。可估计三高斯混合模型的参数。不是基于SCC的符号来定义MoR+或MoR-靶标，而是每一靶标可与三个权重(例如，pA、pR、pNM)相关，所述三个权重代表在给定其SCC的情况下可活化、抑制和/或非单调调节的概率。这些概率可被确定为拟由这三个模型中的任何一个描述的给定调节因子-靶标相互作用的相对似然，并且被确定为活化的累积分布(CDF(G2))与抑制的CDF(CDF(G1))之间的差异除以总CDF：CDF(G1右尾)+CDF(G2左尾)+CDF(G0左尾(对于Rho<0)或G0右尾(对于Rho>0))(图11a-f)。图11a-c分别图解说明B细胞U95、U133plus2和GBM U133A相互作用组学中TF-靶标斯皮尔曼相关系数的直方图和分布密度(虚线)。图11a-c还图解说明拟合至数据的三高斯分布(对于抑制的靶标为G1、对于诱导的靶标为G2，并且对于MoR无法确定的靶标为G0)，其参数如图所示。图11d-f图解说明每一相互作用组学中G1、G0和G2高斯分布相对于所有三种分布的比例。图11g-h图解说明G1和G2中的‘平均’参数对VIPER推断的相对蛋白质活性(显示为NES)(图11g)和沉默TF的秩位置(图11h))的效应。每条线都可代表不同基准实验的结果。

aREA-3T方法可在VIPER中实施，可使用MoR来将基于单尾和双尾的富集得分的贡献加权为：ES＝|MoR|ES2+(1-|MoR|)ES1，其中ES1和ES2是富集得分的单尾aREA和双尾aREA估计(图1c)。所述概率公式可避免选择用于确定靶标MoR的任意阈值，减少参数选择并且因此减少数据过拟合的风险。aREA-3T方法可证明三高斯混合模型参数估计的变化具有显著的稳健性。例如，在扫描‘平均’参数空间时，可在宽范围内(例如，对于G1为-0.3到-0.6，并且对于G2为0.3到0.6)扫描，aREA对所有基准实验中所估计的正规化富集得分和P值的均匀响应都可被发现，其中只有秩位置受到轻微影响(图11g、图11h)。

调节因子-靶标置信度

在一些实施方案中，调节因子与靶基因mRNA水平之间的互信息(MI)或斯皮尔曼相关性或统计独立性的其它测量值的统计显著性可用作调节因子-靶标相互作用置信度的度量。为了计算调节因子-靶标相互作用置信度得分，可通过从所有所剖析基因中随机选择靶基因，同时排除实际调节子中的那些(例如，ARACNe推断出的)，针对每一调节因子生成相互作用的空集合。可选择空调节子的靶基因的数目以匹配实际调节子中的那些靶基因。可针对ARACNe调节子(CDF1)和空调节子(CDF2)中的MI来确定CDF。给定调节因子-靶标相互作用(相互作用置信度或IC)的置信度得分可估计为比率：IC＝CDF1/(CDF1+CDF2)。IC可用于对每一靶基因对富集得分的贡献进行加权(图26)。图26图解说明B细胞U95(图26a)、B细胞U133plus2(图26b)和GBM U133A(图26c)相互作用组学中相互作用置信度(y轴)随相互作用互信息(x轴)而变化。图26还图解说明随机相互作用(2610)和通过ARACNe推断的相互作用(2620)的分布密度的核函数估计。两条曲线都可缩放，因此其最大值为1。曲线2630可图解说明IC。

多效性

在一些实施方案中，如果非活性调节因子与真正的活性调节因子共享其显著比例的调节子，则基因表达(例如，通过几种不同转录因子调节的基因)的多效性调节可导致假阳性结果(图1d和表10)。为了说明此效应，可使用阴影测定程序来充分利用VIPER所使用的概率框架。可生成满足两个条件的所有可能的调节因子对AB，第一个条件是A和B调节子都显著富集基因表达标记(P<0.05)，并且第二个条件是其共调节(A∩B)至少十个基因。每对中的调节子是否富集基因表达标记可被确定为共调节基因的结果。此类确定可通过确定仅代表A(pA)和B(pB)中基因的基因表达标记的子集上共调节基因(A∩B)的富集来进行，其中pA和pB代表通过aREA确定的富集的估计P值。多效性差分可被确定为PDE＝log10(pB)-log10(pA)。如果pA<pB，则共调节基因会因A而受到PDE PI/NT的惩罚，其中多效性指数(PI)是常数并且NT是涉及调节子A的测试对的数目。相反，如果pA>pB，则共调节基因会因B而受到|PDE|PI/NT的惩罚。VIPER结果证明对于多效性指数的不同值具有稳健性(图27)。基于基准数据(表2)，可将PI设置为值20，以达到准确度与特异度之间的折中(图27)。图27a图解说明VIPER预测的准确度，表示为对于不同PI值由沉默基因编码的蛋白质的秩位置。图27图解说明相对于未应用多效性校正(PI＝0)时获得的预测的相对特异度，其表示为对于不同PI值通过VIPER推断的差异活性蛋白质的数目。不同沉默实验的结果是通过图27a-b所指示的线2710、2720、2730、2740、2750和2760来显示。线2770显示所有实验的平均值。图27c图解说明所有基准实验的准确度和特异度的整合。表2图解说明基准实验数据。

表2基准实验

^a差异表达的基因。^b短发卡RNA。^c小的干扰RNA。

表2

费希尔精确测试

在一些实施方案中，可通过费希尔精确测试(FET)确定在每一基因的RNAi介导的沉默之后差异表达(P<0.01)的基因的子集与其调节子中的基因之间的重叠是否具有统计学显著性。常规FET方法可同等地考虑所有差异表达的基因，不论所述基因是上调还是下调，并且因此，FET不能推断调节活性是通过扰动增加还是减少。为了解决这个问题，使用改进的FET方法来独立地计算分别上调基因和下调基因上调节因子被活化和被抑制的靶标(其调节子的正性和负性部分)的富集。具体来说，每一调节子中的基因可分为两个子集：(i)转录活化的(R₊)和(ii)转录抑制的(R-)靶标。斯皮尔曼相关性的符号可在调节因子的mRNA表达水平与其调节子中的每一基因之间使用以将其分类为R₊或R-的部分。此相关性测定可在用于通过ARACNe推断网络的相同数据集上进行。可在每一基因表达标记的两个尾上针对R₊和R-独立地进行FET测定。活性增加的调节因子可分别显示过表达基因中R₊靶标和低表达基因中R-靶标的富集。活性降低的调节因子可显示相反的效应。通过FET使用离散基因清单会导致在阈值选择方面不够稳健的富集(图25)。图25a-b图解说明通过单尾(图25a)和双尾FET(图25b)推断的差异活性标记中的秩位置(y轴)随被认为差异表达的基因的数目(x轴)而变化。

基因集富集测定(GSEA)

在一些实施方案中，可进行单尾GSEA。在一些实施方案中，可使用双尾GSEA，其中查询调节子可被分成两个子集：(1)含有预测将被调节因子转录活化的基因的正性子集(R₊)，和(2)涵盖预测被调节因子抑制的靶基因的负性子集(R-)。基于靶基因的mRNA水平是与调节因子mRNA水平正相关还是负相关(例如，斯皮尔曼相关性)，可将所述靶基因分类为R₊或R-子集的部分。基因表达标记可从最上调基因到最下调基因(例如标记A)进行分选，并且可确定R₊的秩位置。可根据从最下调基因到最上调基因(例如，标记B)分选的基因表达标记来确定R-的秩位置。使用所确定的R₊和R-子集的秩位置并且仅从标记A获得加权得分值，可确定富集得分。

在一些实施方案中，可确定残差翻译后(RPT)活性。在一些实施方案中，可发现VIPER推断的蛋白质活性与编码基因mRNA水平之间的强关联(图28)。图28图解说明VIPER推断的蛋白质活性与编码基因mRNA水平之间的相关性。图28图解说明显示每一肿瘤类型的斯皮尔曼相关系数的密度分布的小提琴图。

在一些实施方案中，由于编码基因的表达水平引起的VIPER推断的蛋白质活性的差异可通过将线性模型拟合至秩转变的数据来计算。去除表达效应后，此类拟合的残差可构成蛋白质活性的其余变化。此残差翻译后蛋白质活性(RPT活性)和编码基因的表达水平可解耦合。

在一些实施方案中，非沉默体细胞突变与三种定量特性之间的关联可通过使用aREA技术测定每一特性上突变样品的富集来估计。定量特性可以是：(i)突变基因的mRNA水平，(ii)VIPER推断的总体蛋白质活性(G活性)和(iii)VIPER推断的残差翻译后RPT活性。通过确定这些特性之间的最大关联(例如，最小P值)可获得整合关联。通过整合给定G活性水平和RPT活性水平的相对突变似然可确定突变表型得分。对于在至少10个样品中突变的基因，突变和非突变(WT)样品的分布密度可通过高斯核函数来估计。可通过推导出的累积分布函数确定的概率可用于计算每一特性的相对似然，如下所示：

其中pM和pwt是在所评估特性(G或RPT活性)的给定值x处的突变和WT表型的估计概率。突变表型得分(MPS)可被定义为在两个评估的特性中如等式(2)中所定义的相对似然(RL)与零的最大偏差。

调节网络

在一些实施方案中，调节网络可通过ARACNe从20个不同数据集(例如分别在Affymetrix HG-U95Av2和HG-U133plus2平台上剖析的两个B细胞背景数据集；在Affymetrix HG-U133A阵列上剖析的高级别神经胶瘤数据集；以及由来自TCGA的通过RNA测序剖析的17个人类癌症组织数据集(表1))中的任何一个来反向改造。在一个实例性实施方案中，Affymetrix平台数据集可通过使用通过‘清洁器’技术¹生成的探针簇来总结。清洁器技术¹可通过测定映射到相同基因的探针之间的相关结构并丢弃可能代表杂交不良或交叉杂交探针的非相关探针来生成“信息性”探针簇。当使用RNA测序数据时，可对原始计数进行正规化以说明不同的库大小，并且可通过将分散拟合为负二项分布来使方差稳定。ARACNe网络可使用映射到下列作为候选调节因子的集合的所有探针簇利用100个自举迭代来执行：1,813种转录因子(例如，在基因本体论分子功能数据库(GO)55中标注为GO:0003700、‘转录因子活性’或标注为GO:0004677、‘DNA结合’和GO:0030528、‘转录调节因子活性’或标注为GO:0004677和GO:0045449、‘转录的调节’)、969种转录辅因子(手动策划的清单，不与转录因子清单重叠，建立在标注为GO:0003712、‘转录辅因子活性’或GO:0030528或GO:0045449的基因的基础上)或3,370种信号传导路径相关基因(在GO生物过程数据库中标注为GO:0007165‘信号转导’并且在GO细胞组分数据库中标注为GO:0005622、‘细胞内’或GO:0005886、‘质膜’)。可将参数设置为0DPI，其对应于数据处理不等公差和互信息(MI)P值阈值10-8。可从ChEA和ENCODE数据中收集基于ChIP实验证据的调节网络。可基于转录因子与靶基因表达之间的相关性来确定调节模式，如下文所描述。

基准实验

在一些实施方案中，可进行基准实验。在人类B细胞中的MEF2B32、FOXM1、MYB17(GSE17172)和BCL6(GSE45838)沉默和人类神经胶瘤细胞系SNB19(GSE19114，表2)中的STAT3沉默之后可使用基因表达谱数据。可在OCI-Ly7和Pfeiffer GCB-DLBCL细胞系中进行BCL6敲低实验。两种细胞系都可在10％FBS补充的IMDM中维持，并且可用BCL6特异性或非靶标对照siRNA寡核苷酸一式三份来瞬时转染。可在转染后48小时分离总RNA(可观察到BCL6蛋白敲低的时间)，如图24a中所图解说明。可遵循制造商的方案(例如，Affymetrix Inc.)在H-GU133plus2Affymetrix基因芯片上剖析基因表达。

在一个实例性实施方案中，所有实验都可显示沉默基因在mRNA水平的降低(如通过表达谱所量化)，如图24b所图解说明。基因表达标记可通过基因表达谱的t测试测定获得(表2)。

VIPER性能的评估

在一些实施方案中，可确定VIPER正确推断RNA干扰(RNAi)介导的基因沉默后蛋白质活性丧失的能力。例如，可在淋巴瘤细胞中使MEF2B32、FOXM1、MYB17和BCL6基因沉默，并且可通过RNAi介导的沉默使神经胶母细胞瘤细胞中的STAT3沉默(表2)。可包括多个细胞系、不同的RNAi沉默方案和剖析平台，以避免与这些变量相关的偏误。所述数据可用于对不同的调节模型属性和富集方法进行基准化。

在一些实施方案中，可计算三个度量以确定VIPER性能：(i)沉默基因的基于P值的秩(例如，准确度度量)、(ii)通过VIPER推断的统计学上显著的调节因子的总数(例如特异度度量)和(iii)沉默基因的总体P值。所测试的富集测定方法可包括aREA、费希尔精确测试(单尾FET)和单尾GSEA。另外，还可测试FET和GSEA的扩展以说明靶基因的调节模式(例如，双尾FET和双尾GSEA)。使用说明靶标调节模式、置信度和多效调节的三尾aREA(aREA-3T)可证明所述技术可系统地胜过所有其它已知方法(图1e、12a和13以及表4)。因此，可选择aREA-3T方法作为VIPER技术的选择方法。由MYB、BCL6、STAT3、FOXM1、MEF2B和BCL6基因编码的实验沉默的蛋白质在所有所测试的那些蛋白质中可分别排序为第1、第1、第1、第2、第3和第3最显著失活的蛋白质(图12a和表4)。通过aREA推断的少量额外转录因子可在差异表达的基因中富集，并且因此可代表沉默的调节子的下游靶标或RNAi脱靶效应(图14)。图12a-d图解说明VIPER对于从多样品(msVIPER，图12a)和单样品VIPER(图12b)计算的GES的准确度和特异度。图12a-b的条形图可显示6个基准实验的准确度(沉默基因的相对秩)和显示特异度的点(p<0.05时显著调节因子的分数)。条中的数值指示由沉默基因编码的蛋白质的秩位置。图12a显示了如以前在MARINa中实施的FET和GSEA的单尾和双尾型式所获得的结果。所显示的VIPER结果包括aREA算法的单尾(1T)、双尾(2T)和三尾(3T)实施，包括相互作用置信度(IC)测定和多效性校正(PC)。小图中各条下方的盒(图12b)显示相对蛋白质活性的单样品估计。*p<0.05，**p<0.01，其是通过如方法中所述的重排测定估计的。图12c图解说明6个基准实验中基于替代调节模型(ARACNe、ChEA和ENCODE)的msVIPER以及Ingenuity上游调节因子测定的准确度。图12d图解说明来自TCGA数据的通过ARACNe反向改造的17个组织背景特异性网络的调节子功能保守性(表2)。调节子保守性是如Aytes等[1]中所述来计算的并且表示为-log10(p值)。

图13图解说明通过不同算法推断的蛋白质活性的准确度和特异度，所述算法包括单尾(1T)和双尾(2T)费希尔精确测试(FET)、单尾和双尾基因集富集测定(GSEA)，以及aREA的单尾、双尾、三尾实施(含有相互作用置信度(IC)和多效性校正(PC))。图13中的盒状图图解说明六个基准实验的准确度(沉默基因的相对秩)和特异度(p<0.05时显著调节因子的分数)(参见表2)。

图14图解说明每一基准实验中相应的实验基因表达标记上通过VIPER鉴别为具有差异活性(p<0.05)的调节因子的基因集富集测定。沉默基因和细胞系示于每一图的顶部。水平轴代表从最下调(左侧)到最上调(右侧)分选的剖析基因。只有在调节网络中代表的基因可用于此测定，所述基因包括P3HR1和ST486的6,403个基因、Ly7和Pfeiffer的13,007个以及SNB19的8,263个基因。垂直轴指示调节因子的GSEA富集得分，其显示VIPER推断的蛋白质活性降低(线1410)或增加(线1420)。

表4显示用于检测编码基因沉默后蛋白质活性降低的费希尔精确测试(FET)、基因集富集测定(GSEA)和msVIPER的准确度和特异度。表4列出了准确度(沉默基因的秩)、特异度(P<0.05时显著调节因子的数目)和沉默基因的p值，其是通过单尾(1T)和双尾(2T)FET和GSEA以及通过msVIPER的单尾、双尾和三尾实施(包括相互作用置信度(IC)测定和多效性校正(PC))推断出来的。

在一些实施方案中，为了评估ARACNe推断的调节子在VIPER中使用的适宜性，可利用非背景特异性调节子来对VIPER性能进行基准化，如从ChEA和ENCODE中的ChIP测序(ChIP-seq)数据中所收集。还可针对Ingenuity路径分析的上游调节因子模组对VIPER进行基准化。基于ARACNe的VIPER可胜过这些方法(图12c)。替代方法/模型可正确地评估出蛋白质活性仅在FOXM1沉默后降低。在五种所测试转录因子中，FOXM1可以是唯一代表核心细胞周期调节因子的转录因子，其调节子在多种组织背景中高度保守(图12d)，因此不需要使用背景特异性调节模型。

从每个实验中，可使用基于对照样品的Z转变来生成标记以允许测定个别样品(表2)。单样品测定的结果与使用VIPER的多样品型式获得的那些结果可能实际相同(图1e、图12b和表5)，这表明单样品测定产生稳健且高度可再现的结果。表5显示VIPER在编码基因沉默后检测蛋白质活性降低的准确度和特异度。所述表列出了准确度(沉默基因的秩)、特异度(P<0.05时显著调节因子的数目)和沉默基因的p值，其是由VIPER的单尾(1T)、双尾(2T)和3尾(3T)实施(包括相互作用置信度(IC)测定和多效性校正(PC))推断出来的。

可进行其它基准来评估与GSEA相比由于aREA概率测定引起的特定改良，并且评估所述技术正确鉴别活性受RNAi和小分子扰动来调节或丰度可通过反相蛋白质阵列来量化的蛋白质的总体能力(图15-18和表6-8)。

表6显示所剖析的样品以及来自TCGA的RPPA数据集中的每一样品所剖析的蛋白质和同种型的数目。表7显示RPPA剖析的蛋白质的数目，以及转录物(mRNA表达)和VIPER推断的总体蛋白质活性(G活性)水平(P<0.05，斯皮尔曼相关系数测定)的显著关联。表8显示RPPA剖析的蛋白同种型的数目，以及转录物(mRNA表达)、VIPER推断的总体蛋白质活性(G活性)、残差翻译后VIPER推断的活性(RPT活性)和其整合(整合活性)与蛋白质同种型水平的显著关联(p<0.05，斯皮尔曼相关系数测定)。

基于基准化结果，可响应于短期药理学扰动而生成蛋白质活性失调的综合图谱。在一些实施方案中，可在CMAP33中选择166种化合物，所述化合物在重复间诱导可再现的扰动特征(FDR<0.05)并且可影响2,956种调节蛋白的活性。

技术稳健性

由于生物学重复间的再现性较差，因此基因表达测定尚未广泛用于临床测试。在一些实施方案中，由于多种技术和生物噪声的来源，可严格评估VIPER推断的再现性(图4)。

图4a-c图解说明在下列情况下网络质量对VIPER准确度(沉默基因的秩位置)的效应：当使用非组织匹配的相互作用组学、通过利用B细胞相互作用组学(B细胞)或神经胶瘤相互作用组学(GBM)来计算蛋白质活性时(图4a)；当网络因调节因子部分地随机化而退降时(图4b)；或者当调节子大小渐进减小时(图4c)。六个基准实验中的准确度显示为条形图(图4a)或中值(黑线)IQR，并且最低和最高数据点仍位于离四分位数1.5倍的IQR内，类似于盒须图(连续盒状图；图4b、4c)。(图4d)通过添加高斯噪声获得的渐进式标记退降的VIPER准确度(连续盒状图)。概率密度图显示六个基准数据集(密度)的基因表达差异分布。图4e图解说明通过随机去除基因获得的降低的标记覆盖率的VIPER准确度(连续盒状图)。图4f图解说明基于30M映射读数的基因表达(表达)或VIPER推断的蛋白质活性标记与由较低深度RNA测序计算的相应标记之间的平均相关性。可从通过TCGA剖析的100个乳腺癌样品中获得标记。插图显示放大率。

调节子可通过使调节相互作用渐进地随机化来退降，同时维持网络拓扑结构。尽管VIPER的性能取决于组织特异性调节子的可用性(图4a)，但VIPER可容忍大部分假阳性相互作用，只有当>60％的调节子相互作用被随机化时才观察到显著的性能降低(图4b)。假定通过ARACNe的假阳性率为约30％，此表明只要调节子中>28％的基因可代表真正的调节相互作用，就可准确地推断蛋白质差异活性。

在一个实例性实施方案中，可确定蛋白质活性的VIPER评估对于减少的调节子表现是稳健的，如通过测定基于网络的细胞标记整合库(LINCS)数据(图16)所证实。图16图解说明显示在编码基因表达敲低之后TF蛋白活性(图16a)和信号传导蛋白活性(图16b)的VIPER推断的变化的热图。所展现的结果对应于来自LINCS的MCF7乳腺癌细胞中的沉默实验，其显示对照样品的mRNA水平降低至少2个标准偏差。通过单样品NES的Stouffers积分来估计统计显著性。穿过条形图的垂直黑线指示p＝0.05的显著性阈值。在p<0.05时显示蛋白质活性的统计学显著变化的条以较浅的灰阶度(蛋白质活性降低，即NES<0)和较深的灰阶度(蛋白质活性增加，NES>0)突出显示。高于轴刻度的值示于每一条的右侧。

渐进式靶标去除可从具有最低互信息的靶标开始，进一步提高准确度，且在n＝50个靶标时达到最佳准确度，并且仅仅适度退降到n＝25个靶标(图4c)。少于25个靶标的调节子可显示准确度显著降低(图4c)。

在一些实施方案中，VIPER可能对基因表达标记退降高度不敏感。所述结果可通过在增加的差异(例如，与基准数据集差异相比)的情况下添加零中心的高斯噪声来观察(图4d)。在增加的差异的情况下添加零中心的高斯噪声使得VIPER数据非常适合于从嘈杂的单样品基因表达谱中评估蛋白质活性，其中VIPER推断的活性的差异小于基因表达的差异(图5a、5b和图19)。例如，考虑到B细胞表型，基于VIPER的蛋白质活性标记较基因表达标记可能显著更相关(例如，P<10-15，魏氏带符号的秩测试(Wilcoxon signed-rank test))(图5a和图19a)。

图5图解说明VIPER结果的再现性。图5a图解说明在相同B细胞表型的样品中所有可能的基因表达标记或VIPER蛋白活性标记对之间计算的相关系数的分布，所述表型包括正常表型(用星号指示；GC，生发中心反应；M，记忆；和N，外周血B细胞)和病理表型(B-CLL，B细胞慢性淋巴细胞性白血病；BL，伯基特淋巴瘤(Burkitt lymphoma)；HCL，毛细胞白血病；PEL，原发性渗出性淋巴瘤；MCL，套膜细胞淋巴瘤；FL，滤泡性淋巴瘤)。每一表型的样品的数目示于顶部。图5b图解说明在所有其余所剖析样品中，在每一所剖析基底乳腺癌样品中鉴别的最上调基因(mRNA)、相对丰富的蛋白质(RPPA)或活化蛋白质(VIPER)的相对秩位置的概率密度。其下方的水平线和数值指示分布模式。图5c图解说明从相应FFPE样品上的新鲜冷冻样品中鉴别的前十个最上调的基因或VIPER推断的活化蛋白质的相对秩位置的概率密度。

图19图解说明单样品基因表达、蛋白质丰度和VIPER蛋白质活性标记的再现性。图19a图解说明小提琴图，其显示相同B细胞表型的样品的基因表达标记或VIPER蛋白活性标记之间计算的相关系数的分布，所述表型包括正常表型(由星号指示；GC，生发中心反应；M，记忆；和N，外周血B细胞)和病理表型(B-CLL，B细胞慢性淋巴细胞性白血病；BL，伯基特淋巴瘤；HCL，毛细胞白血病；PEL，原发性渗出性淋巴瘤；MCL，套膜细胞淋巴瘤；FL，滤泡性淋巴瘤)。此测定对应于图3a中所示的测定，但将表达标记限于VIPER测定中代表的调节因子。每一表型的样品的数目示于所述图的顶部。图19b图解说明在将不同水平的高斯噪声(在x轴中以标准偏差(SD)单位指示)添加至表达谱中之后，所有可能的GC B细胞单样品基因表达和VIPER蛋白质活性标记对之间的相关性的小提琴图。灰色概率密度图显示原始数据中样品间差异的分布。图19c图解说明在新鲜冷冻和FFPE衍生的表达与VIPER推断的蛋白质活性标记之间计算的相关系数的概率密度。图19d图解说明小提琴图，其显示对应于通过TCGA剖析的基底亚型乳腺癌肿瘤、在所有可能的基因表达、RPPA蛋白丰度和VIPER推断的蛋白活性标记对之间计算的相关系数的概率密度。图19e图解说明两个数据集之间的生发中心B细胞基因表达标记、两个数据集之间或两个不同B细胞背景特异性网络之间的相应VIPER推断的蛋白质活性标记的相关性。小提琴图中的水平线指示主要的分布模式。有关数据集和网络的信息参见表2。

添加高斯噪声可降低基于表达的样品间相关性，且对VIPER推断的活性相关性仅有极小的效应(图19b)。当从测定中去除标记多达90％的基因时(图4e)或当从3000万个(M)读数到0.5M个读数中对RNA测序谱二次取样时(图4f)，VIPER活性可能会高度适应减少的转录组表现，显示最小的准确度降低，使得VIPER适合于低深度RNA序列特征的测定。当将从新鲜冷冻样品与匹配的福尔马林固定石蜡包埋的(FFPE)样品中推断的蛋白质活性谱相比较时，此可得到进一步证明(图5c和图19c)。FFPE样品结果的再现性可能代表精准医学应用的关键先决条件。

在一些实施方案中，为了评估生物变异性的效应，可计算173个TCGA基底乳腺癌的VIPER活性标记。VIPER推断的活性标记在样品间可能显著更相关(对于相关系数，通过魏氏带符号的秩测试测定，P<10-15)(图19d)，并且与基于相关基因的差异表达时相比，基于差异活性时在样品之间顶级异常活化的蛋白质可能更为保守(图5b)。总的来说，与基因表达相比，样品间的差异可减少250倍以上(图5b)。因此，在代表相同肿瘤亚型的不同样品之间，VIPER推断的差异活化的蛋白质可能比差异表达的基因或差异丰富的蛋白质(例如基于RPPA测量)更为保守(图5b)。

对癌症的体细胞突变景观进行功能化

在一些实施方案中，VIPER可用于系统地测试频发突变对相应蛋白质活性的效应。可使用代表14种肿瘤类型的3,912个TCGA样品的泛癌集合来测试频发突变对相应蛋白质活性的效应。可计算每一测定样品中每一转录因子和信号传导蛋白的VIPER推断的活性。可确定携带频发突变的样品是否富集受影响蛋白质中具有高的经VIPER推断的差异活性的那些蛋白质。表9图解说明COSMIC基因中携带非沉默体细胞突变的样品的数目。从COSMIC中的150个频发突变基因中，可选择89个基因，所选基因在至少一种肿瘤类型的至少10个样品中突变并且匹配的调节模型可用(表9)，导致总共342个基因对(例如多形性神经胶母细胞瘤GBM中的EGFR)，其中特定的致癌蛋白可在特定的肿瘤队列中测试。

在一些实施方案中，由于蛋白质活性可基于总蛋白质丰度或特定的差异活性同种型的丰度变化，因此可通过去除转录差异分量来计算总体VIPER活性和残差翻译后(RPT)VIPER活性(例如，不能是由差异表达说明的活性分量)。RPT活性可能在统计学上独立于基因表达，并且应当考虑对蛋白质活性的翻译后贡献。大概30％的携带亚型特异性变异的蛋白质(92/342)可能与统计学显著的差异蛋白质活性相关，如分别通过总体活性测定进行的VIPER所评估((P<0.05)：65/342(19％))和通过RPT活性测定所评估(51/342(15％))(图20)。

图20图解说明检测由非沉默体细胞突变诱导的蛋白质活性的变化。显示了癌症体细胞突变目录(COSMIC)中列出的所有基因，其中突变与以下各项相关：(图20a)蛋白质活性而不是mRNA表达、(图20b)推断出蛋白质活性和mRNA表达以及(图20c)mRNA表达而不是蛋白质活性。一些条指示突变对编码基因表达或蛋白质活性的效应的整合统计学显著性。每组富集图和条形图都指示在编码蛋白的VIPER推断的总体活性(G活性)和残差翻译后活性(RPT活性)以及差异基因表达方面携带非沉默体细胞突变(NSSM)的样品的富集，如图中所示。每一肿瘤类型的样品可根据G活性(左富集图)、RPT活性(中心富集图)和基因表达(右富集图)进行秩分选，并且携带NSSM的样品用垂直线指示。关联性的显著性水平显示为-log₁₀(p)(条形图)，其中对于与高活性或表达相关的突变来说关联性显著(p<0.05)，并且条针对与低活性或表达相关的突变。在P<10^-4时相关的基因的值在各条旁边显示。图中指示肿瘤类型、基因名称和突变样品的比例。

所述总体活性测定和RPT活性测定可包括绝大多数已建立的致癌基因和肿瘤抑制因子(图6和图20a、20b)，表明此综合测定提供了捕获致癌基因和肿瘤抑制因子活性的突变依赖性失调的有效手段(图20)。

图6图解说明检测由非沉默体细胞突变诱导的蛋白质活性的变化。图6a-c图解说明以下各种疾病中仅与蛋白质活性相关(图6a)、与蛋白质活性和mRNA表达相关(图6b)和仅与mRNA表达相关(图6c)的变化：GBM、COAD、乳腺癌(BRCA)、肺鳞状细胞癌(LUSC)、头颈部鳞状细胞癌(HNSC)、胃腺癌(STAD)、肺腺癌(LUAD)、肾透明细胞癌(KIRC)、子宫体子宫内膜癌(UCEC)、膀胱癌(BLCA)和前列腺腺癌(PRAD)。图20中提供了所评估蛋白质的完整清单。对于每一指示携带非沉默体细胞突变的基因，指示所述肿瘤类型的突变样品的比例。小提琴图指示通过mRNA表达和VIPER推断的蛋白质活性进行秩分选的所有样品上的突变样品的分布密度。条形图显示通过aREA算法计算的关联性的显著性。条指示分别在低表达或蛋白质活性中以及在高水平表达或蛋白质活性中突变样品的富集。

VIPER推断的RPT活性可有效消除反馈环路对相应基因表达的效应，从而鉴别仅导致翻译后效应的突变(图20a、20b)。可观察到，与VIPER推断的差异活性相关的45％的突变(例如，41/92突变)不会诱导相应基因的显著差异表达(图6a和图20a)，所述突变包括已确立的致癌基因和肿瘤抑制因子(尤其例如TP53、PTEN、NFE2L2、ARID1A、CARD11、BRCA2、CTNNB1、MLH1、VHL和SMAD4)的突变(图6a和图20a)。

在一些实施方案中，为了评估药理学可靶向的蛋白质是否可独立于样品的突变状态在肿瘤样品中异常活化，可生成样品的突变表型得分(MPS)。MPS可指示在具有相等或更高总VIPER活性的样品中观察到突变的概率(图21)。

图7图解说明突变表型得分和其与药物敏感性的关联。图7a图解说明对于六个可操作突变来说基于MPS的未突变和突变样品的概率密度(图21中的完整清单)。右图显示按MPS秩分选的所有样品的MPS(y轴)；垂直线指示突变的样品。图7b显示肺癌细胞系上针对EGFR的MPS测定。散点图显示随MPS而变化的靶EGFR药物的药物敏感性(表示为似然比)，其是通过滴定曲线下面积(AUC)来量化的。水平实线和虚线分别指示化学耐药细胞系的平均值和超过所述平均值的2.33标准偏差。药物敏感性与MPS之间的关联性通过皮尔森相关系数(Pearson’s correlation coefficient)(R)和相关P值显示在每一图的顶部。小提琴图显示根据MPS显示EGFR WT或突变表型的细胞系的药物敏感性(AUC)的概率密度；水平线指示分布平均值，其与司徒登氏t测试(插图中的P值)形成对比。

图21图解说明显示突变与总体活性(G活性)或残差翻译后活性(RPT活性)的显著关联的所有基因的清单。每行显示肿瘤类型、基因和突变样品的比例、针对每一特性的wt和突变样品的概率密度估计的直方图：VIPER推断的G活性和VIPER推断的RPT活性。整合概率密度直方图显示针对所计算MPS的wt和突变样品的分布。最右边的图显示按MPS(x轴)秩分选的样品的MPS值(y轴)，其中突变样品用垂直线指示。

MPS可计算为特定蛋白质和肿瘤类型的突变对野生型(WT)样品的分数。基于我们先前在上文描述的测定，对于突变样品富集差异活化的蛋白质的92种蛋白质/肿瘤类型对中的每一种，可基于样品的MPS对所述样品进行排序。虽然大多数突变样品具有较高MPS，但少数具有较低MPS，与WT样品相当，表明无功能突变或亚克隆突变或其效应的调节补偿(图7a和图21)，包括可操作蛋白质(如由EGFR、ERBB2、BRAF和PI3 K编码的那些)中携带活化突变的样品，其中MPS≤-0.5(例如，具有WT活性的可能性高出三倍)(图7a)，表明对靶向抑制剂的反应在平均水平以下。许多WT样品的MPS≥0.5(即，具有突变活性的可能性高出三倍)(图7a)，表明其可对靶向抑制剂作出反应。

验证药物敏感性

在一些实施方案中，为了评估MPS是否是药物敏感性的良好预测物，可对79个肺腺癌细胞系进行EGFR特异性MPS测定，所述细胞系的基因表达谱、EGFR状态和对EGFR抑制剂(包括萨拉米尼(saracatinib)(AZD0530)、埃罗替尼(erlotinib)和拉帕替尼(lapatinib))的化学敏感性可自癌症细胞系百科全书获得。在具有低EGFR MPS(例如，<-0.5)但仍携带EGFR突变的细胞系中，可观察到分别0/2、1/2和1/2的细胞系对AZD0530、埃罗替尼和拉帕替尼敏感。相反，可观察到MPS>0.5的那些细胞系的5/6、5/6和4/6的细胞系分别对那些药物敏感(图7b)，表明在MPS与EGFR突变的细胞系的化学敏感性之间具有强关联。另外，仅考虑EGFR WT细胞系，与MPS<-0.5的那些细胞系相比，在MPS>0.5的那些细胞系中响应EGFR抑制剂的分数可能更高(分别地，对于AZD0530为50％对33％，对于埃罗替尼为43％对33％，对于拉帕替尼为36％对27％)(图7b)。通过皮尔森相关性测定(例如，对于三种药物中的每一种，P<10-5)(图7b)，并且通过比较具有MPS>0.5和MPS<-0.5的细胞的敏感性、通过司徒登氏t测试(例如对于AZD0530和埃罗替尼分别为P<0.01和P<0.05)(图7b)，MPS可能与化学敏感性显著相关，不论EGFR突变状态如何。

评估位点特异性突变的作用

在一些实施方案中，可确定VIPER是否也可用于评估与特定蛋白质位点突变相关的差异活性。所述差异活性评估可能有助于阐明罕见或私有性突变的功能效应。具体来说，可确定相同基因的不同突变(例如，对于KRAS产物的p.Gly12Val对p.Gly12Asp变化)是否可对蛋白质活性产生数量上不同的效应。影响在同一肿瘤类型的至少两个样品中检测到的的COSMIC基因的突变可基于以下四种定量测量来鉴别：(i)其VIPER推断的总体活性、(ii)其VIPER推断的RPT活性、(iii)其差异基因表达和(iv)其MPS(对于影响至少10个样品的突变)。在一个实例性实施方案中，在12种肿瘤类型中在49个不同基因中测定648个基因座特异性突变(图22)。

图8图解说明特定非沉默体细胞突变变体对VIPER推断的蛋白质活性的效应。图8a图解说明非沉默体细胞突变变体与VIPER推断的蛋白质活性和mRNA表达的关联。小提琴图指示通过编码基因mRNA水平或VIPER推断的蛋白质活性进行秩分选的所有样品上的突变样品的概率密度。如通过aREA(条形图)来估计关联统计水平，其中阴影指示与增加(暗灰色)或减少(浅灰色)的表达或蛋白质活性相关联。最右侧的条形图显示突变变体与MPS定义的突变表型的关联性的显著性水平(似然比>3)。错义突变表示为p.XnY，其中X代表在n位突变为Y的1个字母的氨基酸；*，无义突变；移码突变表示为p.Xnfs。与各条交叉的垂直线指示0.05的P值阈值。图8b图解说明在不同的肿瘤类型中整合的非沉默变体的效应。MPS可针对所有12种肿瘤类型(3,343个样品)来整合，并且在图的左侧显示为x轴，而相对于WT样品具有至少三倍的突变似然(似然比>3)的样品中每一变体的富集通过条形图指示为-log₁₀(P)。虚线指示0.05的P值阈值。

图22图解说明特定的非沉默体细胞突变(NSSM)变体对蛋白质活性的影响。图22显示所测定的12种肿瘤类型中的任何一种中至少2个样品中存在的所有NSSM变体。当根据以下四种定量特性进行秩分选时，条形码状图指示携带每一突变的样品：(1)VIPER推断的G活性(最左边的图)、(2)VIPER推断的RPT活性、(3)突变基因的mRNA表达水平和(4)MPS(最右边的图)。各条指示在四种所评估的定量特性中的每一种上突变样品的富集的统计显著性(显示为-log10(p))。富集‘侧’由各条的阴影指示，且过表达或高反应性是由深灰色条指示，并且低表达或低活性是由浅灰色条指示。最左边的条形图指示在整合VIPER推断的总体活性(G活性)和残差翻译后活性(RPT活性)之后的统计显著性。最右边的条形图指示在MPS定义的突变表型(似然比>3)或wt表型(似然比>3)中突变样品的富集的统计学显著性。所述图中指示出肿瘤类型、基因名称、突变类型和突变样品的比例。错义突变指示为p.XnY，其中X代表在n位被Y取代的氨基酸。无义突变用‘*’指示，而移码突变用p.Xnfs指示。

图8图解说明具有足够的统计检定力的情况。仔细检查可显示这些突变的功能影响具有变体特异性(例如KRAS：结肠腺癌(COAD)中的p.Gly12Val对p.Gly12Asp)(图8a)和肿瘤特异性(例如KRAS：COAD中的p.Gly12Ala对肺腺癌(LUAD))(图8a)。另外，尽管一些突变可诱导等效于差异表达的效应，但其它突变可产生只能通过RTP活性预测的精巧的翻译后效应(例如，KRAS：LUAD中的p.Gly12Val对COAD中的p.Gly13Asp)(图8a和图22)。

在一些实施方案中，虽然不同的突变可能对蛋白质活性具有类似的影响(例如，所有TP53功能变体都可能与所推断的TP53蛋白质活性的降低相关)，但其对基因表达的效益可能是高度异质的。例如，TP53中的无义和移码突变可始终降低mRNA水平(图8a)，此可能归因于无义和不停止介导的mRNA衰变。相比之下，错义突变可能与mRNA水平增加始终相关，此可能归因于反馈环路尝试补偿突变诱导的TP53蛋白活性丧失(图8a)。当将所有变体一起考虑时，TP53体细胞变体效应中的所述二分法可解释突变与基因表达之间缺乏关联性。

在一些实施方案中，为了补偿由潜在少量的携带基因座特异性突变的样品(图22)导致的统计检定力的缺乏，可在所有肿瘤类型间进行整合测定。肿瘤类型之间的异质性可通过在蛋白质活性水平上聚集样品来解释，其最初是使用组织匹配的相互作用组学推断的。基于对12种肿瘤类型的3,343个样品的测定，所述解释可产生功能相关体细胞变体的泛癌症谱系，其中每一基因座特异性突变与其MPS之间的统计学关联以及泛癌症VIPER P值图解说明于图8b和图23中。

图23图解说明非沉默体细胞突变(NSSM)变体对所编码蛋白质活性的不同影响的总结。最左边的图显示当12种肿瘤类型的所有样品都根据MPS进行秩分选时，突变样品的秩(垂直线)。中心条形图显示MPS定义的突变表型(似然比>3，通过中心图中的盒突出显示)或wt表型(似然比>3)中的突变样品的富集的统计显著性(表示为-log₁₀(p))。最右边的条形图显示每一特定变体与VIPER推断的蛋白质活性、条件性蛋白质活性或mRNA水平的关联，其是在12种肿瘤类型中整合的。条指示存在于至少两个样品中的每一NSSM的统计显著性(表示为-log₁₀(p))。所述图中显示了基因名称、突变和携带突变的样品的比例。

在一些实施方案中，常规的精准癌症医学可能以来可操作突变的鉴别。所述可操作突变可从肿瘤组织的全基因组和外显子组测定中可再现地鉴别，并且可证明临床相关性。大约地，约有25％的成人癌症患者可能存在潜在的可操作突变。由于VIPER可独立于突变状态，因此VIPER可补充并且大大扩展可用的基因组方法。遗传突变可能既不必要也不足以诱导蛋白质同种型的异常活性和肿瘤必需性。最近几年来，出现了越来越多的非致癌基因依赖性目录，其异常活性取决于间接遗传改变，例如上游路径中的那些和同源结合蛋白。因此，如癌症细胞系百科全书中的大规模剂量反应研究和最近对功能肿瘤驱动子上游路径的测定所显示，即使在不存在活化突变的情况下，几种肿瘤细胞也可对靶向所确立致癌蛋白(例如EGFR)的抑制剂作出反应。

在一些实施方案中，VIPER可具有三种不同的作用。第一，VIPER可帮助阐明由直接或路径介导的突变导致的异常蛋白质活性。第二，VIPER可帮助对罕见和私有性非同义突变(例如减效等位基因、超效等位基因或中性事件)的功能相关性进行优先级排序。TCGA队列的系统测定可显示，27％的非同义突变可诱导异常的VIPER推断的蛋白质活性，考虑到并非所有的突变都显著地影响规范靶标上的蛋白质活性，包括那些导致全新蛋白质功能的突变(例如新效等位基因)，并且不考虑突变克隆性，所述分数可能是显著分数。第三，VIPER可帮助区分转录和翻译后介导的突变效应(图4a-c和图6)。

在一些实施方案中，TCGA样品的基于VIPER的系统性测定(图7a)可图解说明，虽然遗传改变可能与异常的VIPER推断的致癌蛋白活性强烈共分离，但几个WT样品可具有相当于甚至大于携带可操作突变的那些样品的VIPER推断的活性。所述结果可能与药理学可操作的致癌基因(尤其例如BRAF、EGFR、ERBB2和FGFR3)的改变有关，并且可指示VIPER可用于鉴别可得益于靶向疗法的其它患者。类似地，VIPER可用于鉴别没有相应致癌蛋白的异常活性的具有可操作突变的样品。使用癌症细胞系百科全书验证VIPER推断的活性的预测值以推断靶向抑制剂反应可指示VIPER技术可在精准癌症医学中提供有价值的见解。

已经提出了几种方法来根据基因表达标记估计路径活性、基因表达模组的共调节或所选蛋白质的活性。然而，这些方法不能预测任意蛋白质的活性，缺乏肿瘤特异性，并且不能用于测定个别样品。为酵母和其它模式生物研发的其它方法从未扩展到哺乳动物细胞。早期基于根据启动子序列测定或根据基于文献的专有网络推断的转录因子靶标的尝试尚未得到系统验证。VIPER是第一个得到验证的方法，其可系统地预测个别样品中所有信号转导和转录因子蛋白质的活性。

在一些实施方案中，VIPER可利用根据原发性肿瘤样品数据反向改造的蛋白质调节子来定量评估个别样品中的差异蛋白质活性，而无需任何手动标注或策划的基因集。至关重要的是，VIPER的性能可能极其稳健并且可适应标记噪声、调节子二次取样和样品质量。实际上，VIPER可使用来自LINCS微扰标记的<1,000个基因准确地推断所有调节蛋白的约50％的蛋白质活性(图16)。此外，即使相应的基因表达数据的相关性可能较低，对来自相同组织的新鲜冷冻或FFPE样品的差异活性蛋白的推断也可能高度相关。VIPER预测在属于相同分子肿瘤亚型的样品中可显著再现，此对于精准医学应用可能是有用的。

在一些实施方案中，蛋白质-靶标的组织特异性可以是VIPER测定的组成方面。由于谱系特异性染色质重塑、多种转录因子的组合调节和翻译后修饰，表达受蛋白质活性变化影响的基因可能具有高度背景特异性。使用不正确的调节模型推断蛋白质活性会产生显著退降的结果(图4a)。

在一些实施方案中，VIPER可构成准确测量哺乳动物样品中的蛋白质活性的贡献。实验结果指示，调节模型的准确度和覆盖率的改良可进一步提高这些预测的质量和广度，从而帮助确定哪些蛋白质驱动关键的病理生理学表型。所公开的标的物描述了使用VIPER来挖掘现有数据集(包括TCGA和LINCS中的表达谱)。VIPER能够将相对蛋白质活性推断为额外的信息层，为经典遗传学和功能基因组学数据提供另外的证据，以评估非沉默突变的效应。

图9A-C图解说明单细胞基因表达(图9A和9C)和VIPER推断的蛋白质活性(图9B)的热图。可基于基因表达(图9A)或VIPER推断的蛋白质活性(图9B和9C)进行无监督的聚类测定。尽管基于基因表达没有检测到明确的分层(图9A)，但基于VIPER推断的蛋白质活性的测定可显示出两个亚群中细胞的强烈分离，此可通过先前表征的原神经和间质亚型的调节因子的差异蛋白质活性来定义(在图9B的小图中突出显示)。图9C显示与图9B相同的细胞(列)和基因(行)的排列，指示子群和相关基因不能直接从基因表达谱数据中鉴别。

测试在VIPER中实施的不同技术的增量值

在一些实施方案中，为了评估其他优化的增量值，所述技术的简单实施可用作起始点，其可评估针对通过绝对差异表达排序的基因表达标记(GES)的靶基因的富集(例如，单尾法)。此只能评估蛋白质活性的绝对变化而不能评估其符号(例如，活性增加或降低)。评估6种沉默蛋白中的4种的显著活性变化，其中的两种(BCL6和MEF2B)是在10种活性差异最大的蛋白质中推断的(图12a和表4)。

在一些实施方案中，为了区分活性增加和降低，可整合预测正性(斯皮尔曼相关系数(SCC)≥0)和负性(SCC<0)靶标(双尾测定)的贡献。所述整合可正确地推断出所有沉默蛋白的活性都显著降低(p<0.05)，并且可显示相比于单尾测定，大多数测定的精确度和灵敏度都有改良(图12a和图13和表4)。然而，在所有测定中，调节模型(例如三尾测定)的概率模式可胜过单尾和双尾方法(图1e、12a和13以及表4)。所有六种沉默TF都可在10种最显著的TF中推断，其中FOXM1、MYB、BCL6(Ly7)、STAT3、MEF2B和BCL6(Pfeiffer)分别排在第1、第1、第1、第1、第5和第9(图12a和表4)。

在一些实例性实施方案中，在三尾测定中纳入相互作用置信度(IC)权重不能进一步改良准确性，因为几乎没有改进的余地(图1e和图12a)。然而，IC权重可改良大多数双尾测定结果的准确度(图1e、图12a和表4)，表明IC权重提供独立信息并且改良技术性能。基于这些结果，可选择利用IC校正的三尾法(3T/IC)作为最佳进行方法。

在一些实施方案中，这些结果的详细测定可揭示调节子与沉默TF的那些调节子重叠的蛋白质可能具有比偶然预期更高的富集。例如，与MEF2B的重叠最显著(例如，通过费希尔精确测试)的MYBL1可以是MEF2B沉默之后第二最显著的TF(具有重叠程序的TF的清单参见表10)。这些观察结果可表明差异活性的预测可能是与真正的差异活性蛋白具有显著调节子重叠的结果。实际上，多效性校正(PC)测定可显著改良特异度(P<0.02，通过成对的U测试，图1e、图12a和表4)。

VIPER与其它方法的比较

在一些实施方案中，可测试费希尔精确测试(单尾FET)和其扩展以明确说明靶基因的调节模式(双尾FET)，如最初在主调节因子测定(MRA)技术中实施。所述双尾FET可独立地说明被调节因子活化(例如，SCC≥0)或抑制(例如，SCC<0)的靶标。在一个实例性实施方案中，可将VIPER结果与主调节因子推断技术(例如MARINa)的结果进行比较，所述主调节因子推断技术的结果可基于单尾和双尾GSEA来计算富集。由于MRA和MARINA可能需要多个样品(N≥6)，所以这些比较可能限于VIPER的多样品型式(msVIPER)。

在一些实施方案中，对于一些实验来说FET方法可产生良好准确度，但在FOXM1和STAT3蛋白质的编码基因已经沉默之后可能无法捕获所述蛋白质的活性的变化(图12a和表4)。在所有实验中缺乏一致性可能与FET使用小的离散基因清单有关，所述FET产生的富集在阈值选择方面通常不稳健(图25)。尽管GSEA消除了阈值选择的问题，但其可部分地改良先前通过FET获得的结果(图12a和表4)。基于FET和GSEA的方法都阐释降低的准确度，并且在GSEA的情况下，在与VIPER相比时，还阐释极其差的特异度(图12a和表4)。

在一些实施方案中，当使用从实验支持的相互作用中收集的组织背景独立性调节子时，可测试VIPER的性能。基于ChIP的ChEA和ENCODE数据库可用于从组织匹配的表达谱数据中推断MoR。与大多数TF调节程序的背景特异性相一致(图4a)，当与针对所有TF(但程序在组织间似乎较为保守的FOXM1除外)的基于ARACNe背景特异性的msVIPER测定进行比较时，可发现此测定的性能更弱(图12c和图13a)。在一个实例性实施方案中，MEF2B和BCL6无法评估，因为其转录程序无法在ChEA和ENCODE模型中代表，所述模型分别仅包括189个和172个调节程序。

在一些实施方案中，可将msVIPER性能与Ingenuity路径测定(IPA)的上游调节因子测定模组进行比较。在一个实例性实施方案中，在我们的基准实验中，对于所有测试的调节因子来说msVIPER都可胜过IPA。IPA可正确地推断仅FOXM1的敲低的TF蛋白活性下降，而MEF2B无法评估，因为其无法在IPA结果中代表(图12c)。

使用遗传扰动无偏置式验证VIPER推断的蛋白质活性

在一些实施方案中，为了对所述技术进行进一步基准化，可将基因敲低数据的组扩展到在乳腺癌细胞中进行的沉默实验，所述沉默实验覆盖19个基因和12种不同的细胞系，所述细胞系的谱可从GeneExpression Omnibus获得。对于此测定，可使用乳腺癌特异性调节子通过1,037个TCGA乳腺癌基因表达谱的ARACNe测定来推断(表1)。使用完整概率模型的VIPER测定可通过aREA技术来实施，并且可用于检测23个沉默实验中的20个的显著蛋白质活性失调(87％，P<0.05)。17种蛋白质的活性可推断为响应于编码基因敲低显著降低，而3种可推断为被显著活化(图15a)。

图15图解说明遗传扰动后检测到的蛋白质活性变化。图15a-b图解说明基于aREA(图15a)和双尾GSEA(图15b)富集方法的显示VIPER推断的TF蛋白活性变化的热图。所展现的结果对应于乳腺癌细胞中的沉默实验。统计显著性可通过单样品NES的Stouffer整合来估计。与条形图交叉的垂直黑线指示p＝0.05时的显著性阈值。在p<0.05时显示统计学显著的蛋白质活性变化的条是以浅灰色(蛋白质活性降低，即NES<0)和深灰色(蛋白质活性增加，NES>0)突出显示。高于轴刻度的值示于每一条的右侧。(c-e)使用aREA(浅灰色)或双尾GSEA(深灰色)作为基因富集方法在乳腺癌细胞中进行23个沉默实验的VIPER测定。图15c图解说明用于蛋白质活性降低的统计学显著性(表示为-log₁₀(p值))。图15d图解说明准确度，其表示为所评估调节因子的秩位置百分比。图15e图解说明特异度，其表示为被推断为差异活性的调节因子的比例(％)。

在一些实施方案中，使用双尾GSEA进行VIPER测定的灵敏度和准确度可能始终比aREA更差，检测到在p<0.05时23种所评估蛋白质中的14种(61％)显著失调(图15)。另外，GSEA的计算要求可能比aREA要高得多(例如，aREA实施的计算机时间为6.7min，而双尾GSEA实施的计算机时间为23天6小时，以8Gb RAM×86 64 1.2GHz计算机节点测得)。

在一些实施方案中，此测定可通过利用来自基于网络的细胞标记整合库(LINCS)在MCF7细胞中在234种调节蛋白的shRNA介导的沉默后生成的基因表达谱来扩展。LINCS可代表3,680个基因的shRNA沉默后的大量表达谱。然而，为了确保沉默基因的适当敲低，可基于以下两个准则来选择实验：(1)沉默基因必须在978个实验评估的基因中，以便可评估其沉默，和(2)与对照间的平均值相比，所述沉默基因的表达可降低至少2个标准偏差(SD)。SD≥2可作为在选择具有有效基因沉默的测定与具有用于代表性测定的足够样品之间的合理折衷出现。由于LINCS表达谱可基于多工Luminex技术(L1000)仅978个基因(即，平均起来，<5％的调节子基因)，因此对此数据集的性能测定应被视为极其保守的下界。VIPER测定可检测到87个沉默TF中的44个(50％，P<0.05)具有统计学显著的蛋白活性降低(图16a)，而只有4个TF可被预测为在沉默后显著活化(图16a)。类似地，VIPER可检测到147种沉默的信号传导蛋白中的57种(39％，P<0.05)具有统计学显著的蛋白活性降低，而只有7种可被预测为在沉默后显著活化(图16b)。有趣的是，一些基因的MoR可能会被错误地推断出来，因为调节反馈环路会在少量蛋白质的基因表达与蛋白质活性之间诱导逆相关，此在信号转导蛋白中更加频繁。所述观察可能与约10％的沉默蛋白一致，推断其活性显著增加。MoR倒转可在特定的组织环境下进行实验评估。

药理学扰动后蛋白质活性的变化

靶向抑制剂的短期扰动可调节蛋白质活性，而不影响相关的基因表达。含有MCF7细胞的3,095个基因表达谱的MCF7连结图(CMAP)数据集可在用1,294种化合物扰乱后使用。在所靶向的TF中，根据药物库(包括氟维司群(fulvestrant)、他莫昔芬(tamoxifen)和氯米芬(clomifene))，在此数据集中雌激素受体(ESR1)可具有最高数目的样品(n＝27)和抑制剂多样性。使用乳腺癌特异性ARACNe网络(表1)可确定这些化合物对ESR1的抑制是否可通过VIPER测定有效地重现。用雌激素抑制剂处理的样品中VIPER推断的ESR1差异活性可根据其相对于所匹配的DMSO处理后对照的差异基因表达标记来确定。重复样品的P值可通过Stouffer方法进行整合。VIPER可推断出在所有三种靶向抑制剂的情况下雌激素受体蛋白质活性都有统计学显著、剂量依赖性的降低(图17)。

图17图解说明检测药理学扰动后蛋白质活性的变化。图17的条形图图解说明在用氟维司群、他莫昔芬和氯米芬(靶向ESR1)和西罗莫司(sirolimus)(靶向FKBP1A和MTOR)进行药理学扰动之后通过VIPER推断的蛋白质活性变化的统计学显著性。水平虚线指示p＝0.05时的阈值。对于氟维司群和氯米芬可观察到剂量依赖性反应(对于每一条，浓度是以μM单位指示)。

为了将所述测定扩展到信号传导蛋白，可将西罗莫司(FKBP1A和MTOR蛋白的抑制剂)的效应评估为具有最高处理重复次数(n＝25)的效应。一致地，VIPER可推断对于FKBP1A和MTOR具有显著的蛋白质活性降低(图17)。这些结果可显示，VIPER可有效地检测响应于短期药理学扰动的蛋白质活性失调，并且可用于将此测定扩展到其余的剖析化合物，通过添加蛋白质活性层而以此方式补充MCF7-CMAP数据集。

在一些实施方案中，为了使结果的可靠性最大化，仅包括至少一式两份进行的扰动，并且对于所述扰动我们可验证基因表达标记之间的显著相关性(FDR<0.05，斯皮尔曼相关性测定)。可计算每一样品k∈P的平均相关性，其中P是一组重复扰动条件，作为所有样品对k×jj∈P之间的平均皮尔森相关系数。相关性可在秩转变的标记之间确定。统计显著性可通过与在每一秩转变的标记与其余不匹配的药物扰动标记之间获得的相关系数的经验分布进行比较来估计(例如，

)。

在一些实施方案中，可将VIPER与乳腺癌背景特异性相互作用组学(表1)一起使用以将满足再现性条件的573个基因表达标记转变为推断的蛋白质活性标记。重复样品的平均值和标准偏差报告于表9中并且可代表166个独特的扰动条件(涵盖156种不同的小分子化合物)对2,956种调节蛋白活性的效应的无偏置描写。

VIPER结果与反相蛋白质阵列数据的比较

在一些实施方案中，为了使用实验测量基因表达和蛋白质丰度的金标准对VIPER进行基准化，可利用17种肿瘤类型中的4,417个肿瘤样品的样品匹配的RNAseq和RPPA数据。RPPA阵列监测每一肿瘤类型平均135种蛋白质和60个磷酸特异性同种型(表6)。蛋白质调节子可通过相应的基因表达谱数据集的ARACNe测定来推断(表1)。对于1,359个肿瘤特异性蛋白质丰度谱中的875个(64.4％，P<0.05，表7)，VIPER推断的活性可能与基于RPPA的蛋白质丰度显著相关。虽然也可观察到基因表达与蛋白质丰度之间的类似相关性(表7)，但所述蛋白质丰度在个别样品水平上可具有大得多的差异(图5b)。表7图解说明RPPA剖析的蛋白质的数目以及转录物(mRNA表达)与VIPER推断的总体蛋白活性(G活性)水平的显著关联(P＜0.05，斯皮尔曼相关性测定)。

在一些实施方案中，为了使用RPPA数据来估计与翻译后蛋白质修饰相关的蛋白质活性的变化，可测量443种个别同种型的RPPA测量的丰度与其总蛋白质丰度之间的比率。总的来说，蛋白质活性可取决于总蛋白质丰度或取决于特定的差异活性的同种型的丰度。为了区分这两个贡献，可以通过去除转录差异分量(RPT活性)来计算总体VIPER活性以及残差翻译后VIPER活性(例如，不能由差异表达说明的活性分量)。RPT活性可在统计学上独立于基因表达，并且可说明对蛋白质活性的纯粹的翻译后贡献。值得注意的是，当结合在一起时，总体活性和RPT活性可针对105种蛋白同种型的丰度来预测(例如，24％，P<0.05，斯皮尔曼相关性测定)，此可显著胜过通过mRNA的表达预测的38种同种型(8.6％)(p＝8×10-10，通过X2测试进行)。个别地，RPT活性可针对77种同种型来预测(17.4％，p＝7×10-5)，其中只有19种还可通过总体活性来预测，而总体活性可针对47种同种型来预测(10.6％)，表明总体和RPT活性可有效地说明大部分互补效应(表8)。表8图解说明RPPA剖析的蛋白同种型的数目以及转录物(mRNA表达)、VIPER推断的总体蛋白质活性(G活性)、残差翻译后VIPER推断的活性(RPT活性)和其整合(整合活性)与蛋白质同种型水平的显著关联(p<0.05，通过斯皮尔曼相关性测定)。

由于并非所有的翻译后修饰同种型都可能具有不同的蛋白质活性(图1a)，所以并非所有同种型特异性抗体都可提供准确的RPPA测量，并且在TCGA队列中大多数同种型几乎不会呈现丰度变化，此代表大部分(>24％)的RPPA监测的蛋白质。总的来说，在105种VIPER相关同种型中，74种(70.5％)可能无法通过差异表达来检测，而通过差异表达捕获的同种型中只有7种可能无法通过VIPER实现(图18)。图18图解说明VIPER推断的蛋白质活性与蛋白质同种型丰度之间的关联。条显示特定蛋白质同种型丰度与VIPER活性或编码基因mRNA水平之间的斯皮尔曼相关性的显著性水平(表示为-log10(p值))。VIPER活性显示特定蛋白质同种型丰度与总体活性(G活性)或残差翻译后VIPER推断的蛋白质活性(RPT活性)之间的最大关联性(相关性)。

表3提供本公开中通篇使用的首字母缩略词的定义。

表3

表4

表5

表6

表7

表8

表9

表10

OncoTarget

在一些实施方案中，可将VIPER扩展到不需要药物扰动数据库的应用，所述应用在下文中称作“OncoTarget”。OncoTarget可鉴别在肿瘤中异常活化的所有可成药蛋白，无论所述可成药蛋白是否携带活化突变。这可能包括关键的可成药蛋白质，例如拓扑异构酶和HDAC，所述蛋白质很少在癌症中发生突变，但仍然代表证实可用于癌症治疗中的显著可成药靶标。

在一些实施方案中，OncoTarget可基于致癌基因成瘾概念的扩展，其可代表靶向疗法的基础。根据致癌基因成瘾，肿瘤会变得对突变的致癌基因的活性成瘾。用特定抑制剂靶向这些突变的基因可诱导肿瘤细胞死亡。所述现象的实例可包括慢性骨髓性白血病(CML)，其中药物伊马替尼(imatinib)靶向源自两种蛋白质(BCR和ABL)的融合的突变蛋白；乳腺癌，其中药物曲妥珠单抗(trastuzumab)靶向HER2(ErbB2)受体的扩增或突变；肺癌，其中例如埃罗替尼/阿法替尼(erlotiniv/afatinib)和克唑替尼(crizotinib)等药物靶向EGFR或ALK激酶的突变；以及几个其它实例。

OncoTarget可通过以下扩展致癌基因成瘾：假设肿瘤成瘾既不会因为携带活化突变的致癌基因也不会因为由于肿瘤细胞的完全突变负担而异常活化的任何一种或多种致癌蛋白而表现。因此，致癌基因突变可以是诱导相应蛋白质的异常活性的许多可能方式之一。

在一些实施方案中，OncoTarget可如下来进行。首先，可使用VIPER来评估与多个“对照样品”相比肿瘤样品中的所有“可成药蛋白质”(例如，可使用FDA批准的药物和/或研究化合物有效抑制的蛋白质)的差异活性，自此生成平均基因表达谱(对照谱)。视特定应用而定，可通过对许多类型样品的基因表达求平均来生成对照谱，所述类型包括(但不限于)(a)特定肿瘤亚型的所有肿瘤(例如luminal A型乳腺癌)、(b)所有亚型的所有肿瘤、(c)代表肿瘤正常对应物(例如正常乳腺导管上皮)的样品、(d)代表转移进展研究所用原发性肿瘤的样品，和(e)代表耐药性研究所用药物敏感性肿瘤的样品。例如，为了鉴别在特定的三阴性乳腺癌中控制耐药性的蛋白质，可在所述样品中推断与对药物敏感的所有三阴性乳腺癌样品相比的蛋白质的差异活性。生成这些参考基因表达谱的有用数据集是癌症基因组图谱(TCGA)，其可含有来自>25种人类恶性肿瘤的>12,000个肿瘤样品。

接下来，通过相对于所有可用对照样品的分布来比较特定样品，可将统计学显著性归因于每一测试蛋白质的差异活性。在优选实施中，可使用代表肿瘤特异性亚型(例如乳腺腺癌)的平均值以及所有肿瘤亚型(例如泛癌)的平均值的两种对照样品来确定统计学显著性(p值)。通过相对于来自相同恶性肿瘤的或所有肿瘤(泛癌)间的所有剖析样品的表达分布来比较每一基因的表达水平，可确定每一样品基因表达标记。个别样品基因表达标记上每一调节子基因的富集的统计学显著性可被确定为当从所有剖析基因中随机均匀地选择调节子中的基因时发现相等或更高富集的概率。

第三，使用预定义的显著性阈值(例如p＝0.001)作为特定患者的潜在相关药理学靶标，以个别患者为基础可对具有统计学显著的异常表达的可成药蛋白进行优先级排序。可使用各种准则来对特定药物和靶标进行优先级排序，所述准则包括(但不限于)：(a)特定化合物对特定靶致癌蛋白的亲和力和IC50、(b)针对所有亚型肿瘤的异常致癌蛋白差异活性的p值、(c)针对所有亚型的所有肿瘤的异常致癌蛋白差异活性的p值、(d)化合物的毒性、(e)化合物是FDA批准后的还是处于研究中的、(f)药物是否被批准用于患者的特定肿瘤亚型、(g)是否存在任何表明特定药物在特定肿瘤亚型中具有一些活性的文献或临床试验结果。

上述内容仅仅阐释了所公开标的物的原理。所属领域的技术人员根据本文的教示将明了对所描述实施方案的各种修改和变更。因此，将了解，所属领域的技术人员将能够设想出虽然本文中未明确描述但体现所公开标的物的原理且因此在精神和范围内的众多技术。

参考文献清单

1.Alvarez，M.J.et al.Correlating measurements across samples improvesaccuracy of large-scale expression profile experiments.Genome Biol.10(12)：R143(2009)。

Claims

1.优先级排序具有缺乏突变的可成药致癌蛋白的方法，所述方法包括：

(a)通过将患者的肿瘤样品与代表对照表型的多个样品进行比较来获得基因表达标记；

(b)通过组合使用单侧法计算的第一调节子富集得分和使用双侧法计算的第二调节子富集得分来计算所述基因表达标记中每一调节子的调节子富集得分；

(c)通过将每一调节子富集得分与空模型进行比较来计算显著性值，和测定多种可成药蛋白质中的每一可成药蛋白的差异蛋白活性；

(d)通过将特定样品与所有可用对照样品的分布进行比较来为差异活性分配统计显著性值；和

(e)使用预定义的显著性阈值作为所述特定样本的潜在相关药理学靶标，以个别患者为基础，对具有统计学显著异常活性的所述多种可成药蛋白质中的每一可成药蛋白进行优先级排序，所述每一可成药蛋白包括缺乏突变的可成药致癌蛋白。

2.如权利要求1所述的方法，其中基于所述基因表达标记的绝对值来计算所述第一调节子富集得分；或者

其中使用(c)中的所述显著性值以根据基因表达数据来评估蛋白质活性；或者

其中使用(c)中的所述显著性值来鉴别小分子、抗体和干扰素中的至少一种的作用机制；或者

其中使用(c)中的所述显著性值来评估不同样品间调节蛋白的遗传改变的功能相关性。

3.如权利要求1所述的方法，其中(d)中分配所述统计显著性值包括通过将每一基因的表达水平与所有所剖析的具有相同恶性肿瘤的样品的表达分布进行比较来计算样品基因表达标记；或者

其中分配所述统计显著性值包括通过计算当从所有所剖析基因中随机均匀地选择所述调节子中的所述基因时发现相等或更高富集的概率，来确定个别样品基因表达标记上每一调节子的富集得分的统计显著性。

4.如权利要求1所述的方法，其中对所述多种可成药蛋白中的每一可成药蛋白进行优先级排序包括使用以下标准中的一个或多个：特定化合物对特定靶标致癌蛋白的亲和力、针对亚型中所有肿瘤的异常致癌蛋白差异活性的p值、针对所有亚型的所有肿瘤的异常致癌蛋白差异活性的p值、所述可成药蛋白的毒性、所述可成药蛋白是否被FDA批准、所述可成药蛋白是否被批准用于特定肿瘤亚型，以及是否存在指示特定药物在所述特定肿瘤亚型中具有活性的文献或临床试验结果。