CN107430588B

CN107430588B - 用于确定不同细胞亚群的比例的方法和系统

Info

Publication number: CN107430588B
Application number: CN201680006263.0A
Authority: CN
Inventors: A·M·纽曼; A·A·阿里扎德
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2015-01-22
Filing date: 2016-01-22
Publication date: 2021-12-31
Anticipated expiration: 2036-01-22
Also published as: CN107430588A; US20160217253A1; US20190338364A1; US11802314B2; EP3248110A1; AU2016209128A1; US20190233898A1; WO2016118860A1; CA2971129A1; AU2016209128B2; JP2023153771A; US10167514B2; JP2021019641A; JP6791598B2; EP3248110A4; JP2018512071A

Abstract

本文提供了对物理系统的特征图谱进行去卷积的方法。本方法可以包括：优化a)第一多个不同组分的特征图谱与b)第二多个不同组分的特征标记的参考矩阵之间的回归，其中所述特征图谱被建模为所述参考矩阵的线性组合，并且其中所述优化包括求解所述回归的一组回归系数，其中所述解使以下最小化：1)线性损失函数和2)L₂范数惩罚函数；以及基于所述一组回归系数估计样品中存在的所述第二多个不同组分中的一个或多个不同组分的分数表示。还提供了用于执行主题方法的系统和计算机可读介质。

Description

用于确定不同细胞亚群的比例的方法和系统

相关申请的交叉引用

根据35 U.S.C.§119(e)，本申请要求于2015年1月22日提交的美国临时专利申请号62/106,601的权益，该申请的全部内容通过引用并入本文。

政府权力

本发明是在美国国立卫生研究院(NIH)授予的基金拨款号5T32 CA09302-35(A.M.N.)和国防部授予的基金拨款号W81XWH-12-1-0498(A.M.N.)下、由政府支持进行的。政府对本发明享有一定的权利。

背景技术

细胞组成的变化是后生动物及其复合组织的不同生理状态的基础。例如，在恶性肿瘤中，浸润性免疫细胞的水平与肿瘤生长、癌症进展和患者最后结果相关联。研究细胞异质性的常见方法(例如免疫组织化学法和流式细胞术)依赖于有限种类的表型标志物，流式细胞术之前的组织解聚可导致细胞丢失或损伤，改变结果。

最近，报导了用于预测基因表达图谱(GEP)中多种细胞类型的分数的计算方法。虽然这类方法对具有严格定义的组成的混合物(例如血液)效果准确，但是它们对于具有未知内容物和噪声的混合物(例如实体肿瘤)以及对于区分密切相关的细胞类型(例如，原初B细胞与记忆B细胞)不太有效。此外，在以前的方法中没有统计学显著性检验使得其结果难以解释。

发明内容

本文提供了对物理系统的特征图谱进行去卷积的方法。本方法可以包括：优化a)第一多个不同组分的特征图谱与b)第二多个不同组分的特征标记的参考矩阵之间的回归，其中所述特征图谱被建模为所述参考矩阵的线性组合，并且其中所述优化包括求解所述回归的一组回归系数，其中所述解使以下最小化：1)线性损失函数和2)L₂范数惩罚函数；以及基于所述一组回归系数估计所述样品中存在的所述第二多个不同组分中的一个或多个不同组分的分数表示。

本公开的方法可以包括：i)获得包含第一多个不同组分的物理样品；ii)根据所述样品产生特征图谱m，其中所述特征图谱包括与所述第一多个不同组分相关联的特征的组合；iii)优化m与特征标记的参考矩阵B之间的回归，每个特征标记表示第二多个不同组分中的不同组分，其中m被建模为B的线性组合，其中所述优化包括求解包含所述回归的一组回归系数的f，其中所述解使以下最小化：线性损失函数；和L₂范数惩罚函数；以及iv)基于所述一组回归系数估计所述样品中存在的所述第二多个不同组分中的一个或多个不同组分的分数表示。

在任何实施例中，所述求解f可以包括在B的特征标记的多个不同子集中选择B中的特征的子集以使所述线性损失函数最小化。

在任何实施例中，线性损失函数可以是线性ε不敏感损失函数。

在任何实施例中，所述优化可以包括使用支持向量回归(SVR)。在一些实施例中，支持向量回归是ε-SVR。在一些实施例中，支持向量回归是ν(nu)-SVR。在一些实施例中，所述方法进一步包括使用不同的ν值迭代所述方法，以针对每个不同的ν值产生f的不同解。在一些实施例中，所述方法进一步包括在f的不同解中识别在以下两项之间具有最小误差的解：a)所述特征图谱m；与b)f和所述参考矩阵B的乘积。在一些实施例中，所述最小误差使用皮尔逊积矩相关系数、斯皮尔曼等级相关、均方根误差(RMSE)、欧几里得距离或者平均绝对偏差(MAD)获得。

在任何实施例中，所述方法可以进一步包括通过以下方式确定用于估计细胞亚群的相对比例的显著性值：a)产生包括从父级特征图谱中随机选择的特征的随机特征图谱m*，其中所述父级特征图谱包括所述特征图谱，并且其中m和m*具有相同的欧几里得范数；b)优化m*与所述参考矩阵B之间的回归，其中m*被建模为B的线性组合，其中所述优化包括求解包括所述回归的一组回归系数的f*，其中所述解使以下最小化：线性损失函数；和L₂范数惩罚函数；c)计算f*和所述参考矩阵B的乘积以产生重构特征图谱；d)确定所述随机特征图谱与所述重构特征图谱之间的差异测量；以及e)基于由步骤a)-d)的i次迭代确定的差异测量的分布确定显著性值，其中i是大于1的数值。在一些实施例中，所述差异测量是皮尔逊积矩相关系数、斯皮尔曼等级相关、均方根误差(RMSE)、欧几里得距离或者平均绝对偏差(MAD)。在一些实施例中，所述显著性值是p值。在一些实施例中，i在10与1000之间。

在任何实施例中，所述样品可以包括以所述特征标记表示的、占所述样品中存在的所述第二多个不同组分的总量的10％或更少的至少一个不同组分。

在任何实施例中，以所述特征标记表示的不同组分在所述样品中的存在量可以为所述样品中的不同组分的总量的50％或更少。

在任何实施例中，所述参考矩阵B可以包含存在于所述第二多个不同组分的两个或更多个不同组分的特征图谱中的至少一个不同特征。

在任何实施例中，所述参考矩阵B可以是特征标记的初始参考矩阵的子集或超集，所述特征标记的初始参考矩阵包括与B中的特征数量不同的多个特征，并且其中B中的特征数量提供比所述初始参考矩阵低的条件数。

在任何实施例中，所述方法可以进一步包括通过将与所述第二多个不同组分的不同组分相关联的所有特征的中值除以所述样品中的所有特征的中值计算所述物理样品中存在的所述第二多个不同组分的所有不同组分相对于所述第一多个不同组分的所有不同组分的量。

在任何实施例中，所述样品可以是生物样品。在一些实施例中，所述第一多个不同组分是不同的细胞亚群。在一些实施例中，所述细胞亚群包括脑细胞亚群。在一些实施例中，所述脑细胞亚群包括神经元细胞、星形胶质细胞、少突神经胶质细胞和小神经胶质细胞中的至少一种的亚群。在一些实施例中，所述细胞亚群包括基质细胞、干细胞、神经细胞和祖细胞中的至少一种的亚群。在一些实施例中，所述细胞亚群包括肿瘤细胞亚群。在一些实施例中，所述细胞亚群包括白细胞亚群。在一些实施例中，所述细胞亚群包括肿瘤浸润性白细胞的亚群。在一些实施例中，所述细胞亚群包括淋巴细胞的亚群。在一些实施例中，所述白细胞亚群包括选自由以下组成的群组的两种或更多种细胞类型：原初B细胞、记忆B细胞、浆细胞、CD8 T细胞、原初CD4 T细胞、CD4记忆RO未活化的T细胞、CD4记忆RO活化的T细胞、滤泡辅助性T细胞、调节性T细胞、γδT细胞、未受刺激的NK细胞、受刺激的NK细胞、单核细胞、巨噬细胞M0、巨噬细胞M1、巨噬细胞M2、未受刺激的树突细胞、受刺激的树突细胞、未受刺激的肥大细胞、受刺激的肥大细胞、嗜酸性粒细胞和嗜中性粒细胞。在一些实施例中，所述细胞亚群包括在不同的细胞周期阶段的细胞的亚群。在一些实施例中，所述在不同的细胞周期阶段的细胞的亚群包括在分裂间期、有丝分裂期或胞质分裂期的细胞的多个亚群之一。在一些实施例中，所述在不同的细胞周期阶段的细胞的亚群包括在前期、中期、后期或末期的细胞的多个亚群之一。在一些实施例中，所述在不同的细胞周期阶段的细胞的亚群包括在G₀、G₁、G₂或S期的细胞的多个亚群之一。在一些实施例中，所述第一多个不同组分是不同的细胞信号传导途径、基因调节途径或代谢途径。在一些实施例中，所述不同的细胞信号传导途径包括细胞因子信号传导、死亡因子信号传导、生长因子信号传导、存活因子信号传导、激素信号传导、Wnt信号传导、Hedgehog信号传导、Notch信号传导、细胞外基质信号传导、胰岛素信号传导、钙信号传导、G蛋白偶联受体信号传导、神经递质信号传导和其组合。在一些实施例中，所述不同的代谢途径包括糖酵解、糖异生、柠檬酸循环、发酵、尿素循环、脂肪酸代谢、嘧啶生物合成、谷氨酸氨基酸合成、卟啉代谢、天冬氨酸氨基酸合成、芳香族氨基酸合成、组氨酸代谢、支链氨基酸合成、戊糖磷酸途径、嘌呤生物合成、葡糖醛酸代谢、肌醇代谢、纤维素代谢、蔗糖代谢、淀粉和糖原代谢以及其组合。在一些实施例中，所述特征图谱包括基因表达图谱、蛋白质-蛋白质相互作用图谱、蛋白质磷酸化图谱、细胞电活性图谱、染色质修饰图谱、染色体结合图谱、酶活性图谱、代谢物图谱或其组合。在一些实施例中，所述特征图谱包括表示所述生物样品中的细胞的RNA转录组的基因表达图谱。在一些实施例中，所述生物样品是归档组织样品。在一些实施例中，所述生物样品是血液样品。在一些实施例中，所述生物样品来自实体组织样品。在一些实施例中，所述实体组织样品是肿瘤样品。在一些实施例中，所述实体组织样品是福尔马林固定、石蜡包埋(FFPE)的样品。在一些实施例中，所述生物样品是纯化样品。在一些实施例中，所述生物样品是富含白细胞的样品。在一些实施例中，所述方法进一步包括从个体获得所述样品。

在任何实施例中，所述第一多个不同组分可以是不同的化学化合物。在一些实施例中，所述不同的化学化合物包括有机化合物、无机化合物、毒素、微生物、代谢物、变应原和其组合。在一些实施例中，所述特征图谱包括核磁共振(NMR)光谱、电磁辐射吸收和/或发射光谱、圆二色光谱、拉曼光谱、质谱、色层分离谱和其组合。在一些实施例中，所述样品是生物样品、环境样品或食物样品。在一些实施例中，所述样品是环境样品，并且其中所述环境样品是空气样品、水样品或土壤样品。在一些实施例中，所述样品是环境样品，并且所述环境样品是从河流、海洋、湖泊、雨水、积雪、污水、污水处理径流、农业径流、工业径流、自来水、饮用水、排气系统、填注池、城市发展场所或农田获得的。

本文还提供了一种用于对物理系统的特征图谱进行去卷积的计算机实现的方法，其包括：获得物理系统中的第一多个不同组分的组合的第一特征图谱m；以及计算处理所述第一特征图谱m，其中所述计算处理包括：i)优化m与所述物理系统的第二多个不同组分的特征标记的参考矩阵B之间的回归，其中m被建模为B的线性组合，其中所述优化包括求解包括所述回归的一组回归系数的f，其中所述解使以下最小化：线性损失函数，和L₂范数惩罚函数；以及iii)基于所述一组回归系数估计所述物理系统中存在的所述第二多个不同组分中的一个或多个不同组分的分数表示。在一些实施例中，所述第一特征图谱m包括表示电力使用、电信使用或流量模式的数据。在一些实施例中，所述方法进一步包括收集所述数据以生成所述第一特征图谱m。

在任何实施例中，所述第一特征图谱m可以由包括第一多个不同组分的物理样品生成。

在任何实施例中，所述物理样品可以是生物样品、环境样品或食物样品。

本文还提供了一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行如本文所述的对样品的特征图谱进行去卷积的方法的实施例的至少一部分的指令。

本文还提供了一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行如本文所述的对物理系统的特征图谱进行去卷积的计算机实现的方法的实施例的指令。

本文还提供了一种系统，其包括一个或多个处理器；和存储一个或多个程序的存储器，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行如本文所述的对样品的特征图谱进行去卷积的方法的实施例的至少一部分的指令。

本文还提供了一种系统，其包括一个或多个处理器；和存储一个或多个程序的存储器，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行如本文所述的对物理系统的特征图谱进行去卷积的计算机实现的方法的实施例的指令。

本文还提供了一种评估个体疾病的方法，其包括：i)从患有或怀疑患有疾病的个体获得生物样品；ii)通过执行如本文所述的根据对样品的特征图谱进行去卷积的方法的实施例所述的方法估计所述样品中存在的多个不同组分中的一个或多个不同组分的分数表示；以及iii)基于所述样品中的一个或多个不同组分的估计的分数表示与一个或多个参考样品中的一个或多个不同组分的参考分数表示之间的比较确定所述疾病的预后和/或诊断，其中所述参考样品源自患有所述疾病的个体群组，并且其中所述一个或多个不同组分诊断和/或预后所述疾病。在一些实施例中，所述方法进一步包括以物理或电子形式提供报告，其中所述报告指示针对所述个体确定的所述预后和/或诊断。

本文还提供了一种评估临床样品特征的预测、预后和/或诊断价值的方法，其包括：i)从患有疾病的个体群组中获得生物样品；ii)通过执行如本文所述的根据对样品的特征图谱进行去卷积的方法的实施例所述的方法估计所述样品中存在的多个不同组分中的一个或多个不同组分的分数表示；iii)基于一个或多个不同组分的分数表示与所述个体群组的疾病的临床结果之间的相关性确定与生物样品中的不同组分相关联的针对所述疾病的预测、预后和/或诊断价值。

本文还提供了一种预测疾病治疗的临床结果的方法，其包括：i)通过执行如本文所述的根据对样品的特征图谱进行去卷积的方法的实施例所述的方法估计从已经接受了疾病治疗的个体获得的样品中存在的多个不同组分中的一个或多个不同组分的分数表示；和ii)基于所述样品中的一个或多个不同组分的估计的分数表示与所述一个或多个不同组分与所述治疗的临床结果的预定关联之间的比较预测所述治疗的临床结果。在一些实施例中，已经对所述群组中的个体施用了所述疾病的治疗。在一些实施例中，所述一个或多个不同组分与所述治疗的临床结果的关联通过如本文所述的根据评估临床样品特征的预测、预后和/或诊断价值的方法的实施例所述的方法来确定。在一些实施例中，所述方法进一步包括以物理或电子形式提供报告，其中所述报告指示对个体进行的治疗的预测的临床结果。在一些实施例中，所述报告进一步包括基于治疗的预测的临床结果针对所述疾病向个体施用治疗的推荐的未来行动方案。

本文还提供了通过计算处理生物样品的特征图谱估计生物样品中细胞亚群的相对比例的方法。计算处理包括使用细胞亚群特征标记的参考矩阵将支持向量回归应用于生物样品的特征图谱以估计生物样品中细胞亚群的相对比例。细胞亚群特征标记中的每一个可以对应于不同的细胞亚群。所述方法可以进一步包括确定用于识别多个细胞亚群的显著性值。还提供了用于执行所述主题方法的系统和计算机可读介质。

附图说明

当结合附图阅读时，可以最佳地理解以下详细描述的某些方面。要强调的是，按照惯例，附图的各个特征不是按比例的。相反，为了清楚起见，各个特征的尺寸被任意地扩大或缩小。附图中包括以下各图：

图1a-1d：CIBERSORT的概述和在白细胞去卷积方面的应用。(图1a)所述方法的示意图。(图1b-1c)白细胞标记矩阵(即，LM22)在对(图1b)208个阵列的不同的纯化或富集的白细胞亚群(图17)和(图1c)3,061种不同的人类转录组进行去卷积，分裂成非细胞系和细胞系方面的应用。c中的敏感性(Sn)和特异性(Sp)被定义为与方法中描述的阳性组和阴性组有关。AUC，曲线下方的面积。(图1d)与由Coulter计数器¹¹测量的相应比例相比，淋巴细胞、单核细胞和嗜中性粒细胞的全血样品的CIBERSORT分析。图1b中的CIBERSORT分数表示通过CIBERSORT分配给每个白细胞亚群的相对分数。图1b中静息的和活化的亚群分别用‘+’和‘-’表示。

图2a-2i：对来自复合组织的不同RNA混合物的效果评估。(图2a-2c)CIBERSORT对模拟组织中白细胞亚群分辨率的准确性，关于(图2a)在添加的肿瘤内容物(x轴)和噪声(y轴)的情况下的效果，(图2b)图2a中的混合物与其初始的、未修改的值的偏差，以及(图2c)作为增加肿瘤内容物的函数的给定细胞类型的检测限(针对每个数据点，n＝5种随机混合物)。(图2d)相对于图2a-2c所示的分析，利用CIBERSORT进行的六种GEP去卷积方法的比较(图7、8)。(图2e)添加到乳腺组织的全血的体外混合物的分析。左图：报告的血液比例与基因表达数据一致(LM22归一化免疫指数；方法)。右图：在各种方法的情况下白细胞去卷积的稳定性。(图2f)在独立研究的情况下在癌症类型之内和之间的CIBERSORT一致性(对于白细胞缩写，参见图16j-16k)。(图2g-2i)在(图2g)配对冷冻的样品与FFPE DLBCL样品之间进行比较的CIBERSORT效果，以及与(图2h)正常肺组织和(i)滤泡性淋巴瘤肿瘤的流式细胞术分析进行比较的CIBERSORT效果。i中的星号表示来自同一患者的可能的界外值。图2h和图2i中用于定量的表面标志物用括号表示。图2e-2i中的结果使用LM22获得，并且然后在分析之前分解为11种主要的白细胞类型(图16a-16i)。图2c和图2h中的值以中值±95％置信区间表示。

图3a-3d：41名人类受试者的个体细胞亚群的深度去卷积和计数。(图3a-3c)CIBERSORT与流式细胞术之间的直接比较，关于(图3a)来自20名受试者的PBMC中的8个免疫细胞亚群，(图3b)来自另一组7名受试者的PBMC中的FOXP3+Treg，以及(图3c)来自患有FL的14名受试者的肿瘤活检物中的三个免疫细胞亚群，包括恶性B细胞。(图3d)对图3a-3c中分析的数据集的5种基于表达的去卷积方法的比较。阴影灰色区域表示与流式细胞术显著相关的去卷积细胞类型(P<0.05)。在图13a-13b、14中提供了所有方法的散点图。在三种情况下，无法确定相关系数；将这些设值为零，以便包含在该屏面中(图19a-19d；图13a-13b)。数据以平均值±标准偏差表示。所有数据，包括RMSE值，均在图19a-19d中提供。

图4a-4c：LM22标记矩阵以及与Abbas等进行的比较。(图4a)描绘了22个白细胞亚群之中的每个基因的相对表达(图16a-16i)的LM22标记矩阵的热图。基因表达水平通过单位方差法归一化，并且使用欧几里得距离将细胞亚群和基因分层结簇(较高表达，红色；较低表达，蓝色)。(图4b)相对于所使用的基因、细胞亚群和表达阵列，LM22与先前公布的标记矩阵(Abbas等，2009)⁵之间的重叠。对于Abbas等与LM22之间的基因重叠，我们将所有Affymetrix探针集视为‘基因’，包括不能解析为HUGO基因符号的探针集(n＝36)。关于LM22细节，参见图16a-16k。(图4c)比较LM22中每个细胞亚群的参考图谱的相关系数(Pearson)的一对一热图(基因如方法中描述的那样归一化；与图16a-16i相同)。

图5a-5b：通过分析纯化的白细胞验证LM22。(图5a)由CIBERSORT调用的每个LM22细胞亚群在包含分布在LM22中的纯化/富集的白细胞的验证阵列中的分数(与图1b相关；也参见图17a-17b)。给定细胞亚群的阵列的结果被总结为中值分数。在图16j-16k中定义了颜色键中的细胞亚群缩写。(图5b)左图：B和T淋巴细胞从五个人类扁桃体中流式分选至分别超过95％和98％的平均纯度水平，并且然后通过微阵列分布。右图：这些B/T细胞的分数表示，以及任何剩余的白细胞含量，如由CIBERSORT推断出来的。

图6a-6c：利用CIBERSORT拆分明确定义的混合物。使用应用于不同混合物(下图)的不同的标记矩阵(上图)分析CIBERSORT效果。上图：对于(图6a)GSE11103⁵中纯化的血液癌细胞系表达图谱、(图6b)GSE19380⁶中的神经基因表达图谱和(图6c)LM22(图16a-16k)的细胞群参考表达标记。下图：(图6a)血液癌细胞系(GSE11103⁵)和(图6b)神经细胞类型(GSE19380⁶)的定义的混合物的已知和推断的分数的比较。(图6c)使用LM22(为了清楚而合并为11个白细胞类型；参见图16a-16k)对来自四个非霍奇金淋巴瘤患者的利妥昔单抗治疗前后的PBMC样品(包括一个配对样品)进行CIBERSORT分析。

图7a-7b：对具有添加的噪声的模拟肿瘤的去卷积方法的比较分析(与图2a、2b相关)。(图7a)每种方法相对于添加的肿瘤内容物(x轴)和非对数线性噪声(y轴)的效果状况(关于细节，参见方法)。(图7b)每种方法的准确性，作为每种混合物与其初始、未修饰的值的偏差(在x轴上表示为1-R)的函数进行评估。关于图7a中已知的细胞类型比例的性能被表示为皮尔逊相关系数，其中下限为零。为了说明估计偏差，已知的与预测的细胞类型比例(以百分比表示)之间的差异在图7b中以均方根误差(RMSE)表示，其中上限为40。

图8：关于具有未知内容物的模拟混合物中的检测限进行去卷积方法的比较(与图2c、2d相关)。每种颜色表示给定细胞类型(这里为Jurkat)的定义的输入浓度，并且每条线表示其通过GEP去卷积预测的浓度。在具有不同浓度的结肠癌细胞系的四种血液细胞系的五个模拟混合物中，在一定范围的添加的肿瘤内容物的情况下测量已知的Jurkat浓度(参见方法)。数据以中值(n＝5种混合物)±95％置信区间表示。

图9a-9b：LM22中的每个细胞亚群的检测限的分析。(图9a)与图8相同，除了这里，使用添加到来自LM22的剩余21种细胞类型的模拟混合物中的原初B细胞的定义输入来评估检测限(图16a-16k)。通过添加通过随机置换原初B细胞基因产生的模拟GEP来评估未知内容物对检测限的影响。数据以中值(n＝4种混合物)±95％置信区间表示。(图9b)与图9a相同，但针对LM22中的所有细胞类型。为了防止更高幅度的spike-in推进相关性，我们使用非参数斯皮尔曼等级相关性来总结效果，并且比较所有spike-in和所有水平的所测试的未知内容物的已知的和预测的分数。总的来说，考虑到这些结果，CIBERSORT显著优于所测试的其它方法(P<0.0001；配对双侧威氏符号秩次检验；n＝22个细胞亚群)。值得注意的是，CIBERSORT还优于与线性拟合相关的其它方法，如由皮尔逊相关性测量的。关于进一步的细节，参见方法。

图10a-10c：定义的混合物中特征(基因)选择的分析。(图10a)将CIBERSORT应用于尖峰序列的结果，其中将CD8 T细胞的LM22参考图谱以均匀增量(n＝21)掺入到静息的肥大细胞(MC-)的相应参考图谱中。(注意，两种细胞类型在LM22中具有非常不同的表达向量；参见图4c。)(图10b)对100％静息的肥大细胞去卷积而对CD8T细胞没有去卷积以及对100％静息的肥大细胞没有去卷积而对CD8T细胞去卷积的通过支持向量回归(SVR)选择的基因之间的比较。对于每个独特的基因亚群，进一步比较静息的肥大细胞与CD8T细胞之间LM22标记矩阵中的表达水平。在组内和组比较之间分别使用配对和未配对的双侧威氏符号秩次检验。数据以中值±四分位差表示。虽然针对100％CD8 T细胞样品独特选择的基因比静息的肥大细胞在CD8 T细胞中显著更多地表达，但其幅度较小。此外，在100％静息的肥大细胞样品中，针对静息的肥大细胞基因没有观察到相反的情况，表明SVR基因选择与混合物中特定细胞亚群的存在与否并不是密切相关。(图10c)LM22中的基因表达水平与频率之间的比较，如果有的话，通过SVR从具有>0％CD8 T细胞和>0％静息的肥大细胞的19种混合物的组中选择每个基因(参见组图10a)。上图：与(左)CD8 T细胞或(右)静息的肥大细胞的表达水平的比较。下图：与LM22中的(左)CD8 T细胞和静息的肥大细胞或(右)所有细胞亚群的平均表达水平的比较。无论spike-in组成如何，当考虑LM22中的所有细胞类型时，观察到表达与基因选择频率之间的最高相关性。

图11a-11d：多重共线性对基于标记矩阵的方法的影响。(图11a-11d)针对具有未知内容物(图11a-图11c)或添加到标记矩阵的噪声(图11d)的混合物示出了多重共线性对去卷积效果的影响。每组被组织如下：上图：在宽范围的多重共线性值(x轴；方法)下的特征矩阵GEP的平均互相关系数(左y轴)和相应的平均条件数κ⁵(右y轴)，平均互相关指示标记矩阵参考图谱的一对一相关比较(Pearson)的平均值，而κ是标记矩阵稳定性的度量(方法)。两个度量捕获标记矩阵中的多重共线性(或参考图谱之间的相似度)。左下图：四种去卷积方法对模拟混合物的相对效果，比较已知的和预测的细胞分数(y轴)。显示了通过增加多重共线性(从左到右)排序的来自20个水平的多重共线性的结果。每个水平的多重共线性被模拟10次，并且所总结的值以平均值±s.e.m表示。右下图：将每种方法的效果总结为盒须图，其中四分位差包含在盒中，并且最小和最大点由晶须表示。使用配对双侧威氏符号秩次检验进行CIBERSORT与其它方法之间的分组比较。所有标记矩阵和混合向量在分析之前通过单位方差法归一化。关于其它细节，参见方法。

图12a-12b：18个个体DLBCL肿瘤(GSE18377⁷)中冷冻样品与FFPE样品之间白细胞去卷积结果的比较。(图12a)显示了与图2g相关的每个肿瘤中分辨出的22个白细胞亚群的结果。数据点(圆圈)如图2g所示着色并且指示细胞类型。样品ID 11和14的去卷积结果在FFPE与冷冻条件(NS)之间并不显著相关。(图12b)所有18个肿瘤中代表性的细胞类型的散点图。

图13a-13b：用于计数PBMC中9个白细胞亚群(与图3a、3b相关)的去卷积方法的比较。(图13a)比较流式细胞术与用于计数20个PBMC样品中的8个白细胞亚群的5种去卷积方法的散点图。(图13b)与图13a相同，但是针对7个PBMC样品的单独群组中分布的Treg。在分析的10个总共的表型亚群(方法)中，这里显示的9个亚群通过相关系数为至少0.5的至少1种方法去卷积。在图19a-19d中提供了所有10个亚群(包括γδT细胞)的详细性能度量。

图14：用于计数FL肿瘤活检物中3个白细胞亚群(与图2i、3c相关)的去卷积方法的比较。比较流式细胞术与用于计数在分解的FL淋巴结活检物中的3个白细胞亚群(包括恶性B细胞)的5种去卷积方法的散点图。关于各个细胞亚群的RMSE值，参见图19a-19d。

图15：应用于复合混合物的五种去卷积方法的基准测试结果总结。使用两种性能度量(R和RMSE)，CIBERSORT显著优于其它基于基因表达的方法(配对双侧威氏符号秩次检验)，并且对复合混合物通常比所有其它方法效果更好(图2d)。在图19a-19d中的“复合混合物”中提供了原始数据。关于去卷积方法的细节，参见图18和方法。

图16a-16k：白细胞标记矩阵(LM22)。示出了区分22种免疫细胞类型彼此以及其它细胞类型的基因标记的归一化表达水平(Affymetrix强度)(图16a-16i)。如方法中所述，针对其它正常和癌细胞类型将基因进行过滤，以增强其特异性。在相邻的表中提供源数据(样品)。在图16j和16k中提供在附带的手稿中给出的白细胞缩写。

图17a-17b：LM22对纯化造血干细胞群体的外部数据集的验证。将CIBERSORT应用于包含纯化样品的外部数据集以估计每个样品中包括在其标记矩阵中的细胞类型的分数。将由CIBERSORT预测的具有最高分数的细胞类型的类型与已知的纯化的细胞类型进行比较，如果它们匹配，则将其计数为正确。

图18：GEP去卷积方法的特征比较。显示的所有方法都需要有标志基因、标记GEP或细胞分数的先验知识，并且以任意数量的细胞类型作为输入。关于细节，参见方法。“a”表示这项工作是否显示(例如图6a-6c、7a-7b和8)。“b”表示在这项工作中显示(图9a-9b，方法)。

图19a-19d：每种算法对理想化混合物的效果。根据对每项分析的相对效果对细胞进行着色。对于相关系数，红色＝最高，蓝色＝最低。对于RMSE，蓝色＝最高，红色＝最低。LM22被拆分成3种主要的白细胞类型(淋巴细胞、单核细胞和嗜中性粒细胞)，以与基本真实的混合比例(GSE20300)进行比较。“a”表示统计量是源自单个实验(即，直接)还是使用中值进行聚合。图19a提供了块组织的相关系数(R)。图19b提供了块组织的RMSE。图19c提供了理想化混合物的相关系数(R)。图19d提供了理想化混合物的RMSE。

图20：根据一个实施例的本发明的系统的示意图。该系统包括具有被配置成执行所述主题方法的支持向量回归应用程序的存储器。

图21是示出支持向量回归的说明性实例的一组图形。

图22a-22e是根据本公开的实施例的示出标志基因对去卷积的影响的一组图和表。

图23a-23d是根据本公开的实施例的示出25种人类癌症中推断的白细胞频率和预后关联的一组图形。

图24a-24e是根据本公开的实施例的示出浸润性PMN与浆细胞的比例在各种实体肿瘤中是预后的一组图形。

图25a-25c是根据本公开的实施例的示出在癌症类型和数据集的情况下的估计的白细胞分数的相关性分析的一组图形。

图26a-26d是根据本公开的实施例的示出22个白细胞亚群与25个癌症组织学之间的预后关联的一组图形。

图27a-27h是根据本公开的实施例的示出非小细胞肺癌和相邻的正常组织中的浆细胞水平的一组图形和图像。

图28a-28e是根据本公开的实施例的示出对组织微阵列(TMA)标志物和染色定量的评估，以及在延伸出的表达数据集中的推断的多形核(PMN)/浆细胞(PC)水平的预后意义的一组图形和图像。

定义

除非本文另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。尽管与本文所述类似或等同的任何方法和材料可以用于本发明的实践或测试中，但是描述了优选的方法和材料。

本文提及的所有专利和出版物，包括在这些专利和出版物中公开的所有序列，明确地引入作为参考。

数值范围包括定义所述范围的数值。

本文提供的标题不是本发明的各个方面或实施例的限制。因此，以下紧接着定义的术语通过参考整个说明书被更完整地定义。

除非另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。然而，为了清楚和易于参考，下面定义了某些术语。

“多个”包含至少2个成员。在某些情况下，多个可以具有至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或者至少10⁹个或更多个成员。

如本文所使用的，“物理系统”可以指元素(分子、细胞、组织、生物体、电路、装置、器具、计算机、车辆、建筑物等)的任何集合，其中所述元素在功能上彼此直接或间接地相关(例如，系统的一个元素的存在、位置或活动直接或间接地影响系统中的另一个元素的存在、位置或活动)。在一些情况下，所述物理系统是物理样品。

如本文所使用的，“物理样品”可以指物质(例如，液体、固体或气体形式)的任何集合，所述物质可以从获得所述集合的环境中物理隔离为相干单元。如本文所使用的，术语“生物样品”是指从生物体获得或者包含生物体或其一部分的任何生物样品(例如，固体或液体形式)(例如，组织样品、活检物、生物体的细胞样品)。所述生物样品可以从细胞培养物或从生物体获得。所述生物样品可以通过去除该生物样品的一个或多个组分而被纯化。

如本文所使用的，“不同组分”可以指基于一个或多个经验确定的性质和/或功能关系被分为一组的任何形式的物质(例如，分子、化合物、蛋白质、核酸、细胞等)或其集合。每个不同组分可以具有一个或多个成员，所述一个或多个成员彼此间共享一个或多个经验确定的性质和/或功能关系。

如本文所使用的，术语“细胞亚群”是指生物样品中的任何一组细胞，其存在的特征在于一个或多个特征，例如RNA水平上的基因表达、蛋白质表达、基因组突变、生物标志物等。细胞亚群可以是例如细胞类型或细胞子类型。

如本文所使用的，术语“细胞亚群的估计的相对比例”或“细胞亚群的相对比例的向量”是指每个细胞亚群的相对比例(例如，如通过所述主题方法的实施例所估计的)。因此，每个细胞亚群的相对比例可以被理解为向量(其中每个细胞亚群是所述向量的不同维度)。如本文所使用的，“细胞亚群的相对比例”是指细胞亚群与其相对比例正被估计的另一个细胞亚群、与其它细胞亚群或与所有细胞亚群的比例(例如，丰度)。

如本文所使用的，术语“特征”是指物理样品或物理系统(例如，物理样品、生物样品等)的任何经验确定的性质。在一些情况下，特征的丰度(即，值)可以指示样品或物理系统中不同组分的丰度(例如，指示生物样品中一个或多个细胞亚群的丰度)。在一些情况下，特征包括mRNA上的基因表达、蛋白质表达、特异性基因型、生物标志物或其组合。

如本文所使用的，“特征图谱”可以指物理样品(例如，生物样品)中或物理系统中的特征集合的一组测量值。在物理样品或物理系统包含多个不同组分的情况下，任何给定特征的测量值可以是根据存在的每个不同组分的量的每个不同组分对特征的贡献的组合(例如总和，如线性和)。特征图谱可以由向量m表示，向量m的元素对应于每个特征的测量值。

如本文所使用的，术语“生物样品的特征图谱”是指生物样品的特征集合的测量值。样品特征图谱的实例包括“基因表达图谱”或“GEP”(例如，如通过微阵列分析获得的)、蛋白质表达图谱、基因型图谱(例如，具有异质肿瘤细胞的样品的基因型图谱)、生物标志物图谱(例如，样品中的游离生物标志物或样品的细胞上/中的生物标志物的生物标志物图谱)等等。

如本文所使用的，“特征标记”可以指特征在于(或代表)基本上纯的或高度富集的不同组分的成员的集合的特征图谱。多个不同元素的一组特征标记可以由矩阵B表示。矩阵中的一个不同元素可以具有或可以不具有与另一个不同元素相同的特征标记中的一组特征。

如本文所使用的，术语“细胞亚群参考图谱”或“细胞亚群特征图谱”是指与特定细胞亚群相关联的特征图谱(例如，特征的值)。可以通过测量纯化或富集的细胞亚群的特征来获得参考图谱。在一些情况下，如本文所使用的，术语“细胞亚群特征标记的参考矩阵”是指多个细胞亚群的预期的特征值的矩阵。一些参考图谱表现出“多重共线性”，它是一种不同细胞亚群的参考图谱高度相关的现象，其可以防止可靠的去卷积。

如本文所使用的，术语“去卷积”是指识别(即估计)细胞亚群混合物中的细胞亚群的相对比例的过程。

“分数表示”、“相对比例”和“贡献”可互换使用来指可归于不同组分的特征的测量值相对于可归于包括在特征标记的参考矩阵中的所有不同组分的特征的总值的部分。

如本文所使用的，术语“子集”是指通过减少向量的初始矩阵(例如，初始特征图谱)的一个或多个维度(例如，特征的数量)而获得的矩阵或向量(例如，特征图谱)。如本文所使用的，“超集”可以指通过增加初始矩阵或向量的一个或多个维度而获得的矩阵或向量。“父级矩阵”或“父级向量”可以指矩阵或向量(即，“子”矩阵或向量)的超集。在一些情况下，父级特征图谱与父级是通过具有更多特性的超集的特征图谱不同。

术语“重构特征图谱”或“去卷积结果”是指基于不同组分(例如，细胞亚群)的估计的相对比例(或分数表示)和已知的参考矩阵计算出来的特征图谱。具体地，可以通过不同组分(例如，细胞亚群)的估计的相对比例(或“细胞亚群的相对比例的向量”)和参考矩阵的乘积计算重构特征图谱。

如本文所使用的，术语“支持向量回归”或“SVR”是指支持向量机(SVM)的一个实例，所述支持向量机是一类用于二进制分类问题的优化方法，其中发现最大程度地分离两个类别的超平面。支持向量是确定超平面边界的输入数据的子集。与标准SVM不同，SVR将超平面拟合到输入数据点，从而执行回归，并且在误差ε的容限和唯一的线性误差惩罚(即，ε不敏感损失函数)内如此操作，使其对界外值和过度拟合具有较强的鲁棒性。SVR的两种主要类型是“nu-支持向量回归”(或“ν-SVR”)和“ε-支持向量回归”(或ε-SVR)。在ν-SVR中，ν参数方便地控制训练误差ε的上限和支持向量的稀疏性。

如本文所使用的，术语“通过估计RNA转录体的相对子集进行细胞类型识别”或“CIBERSORT”是指一种基于参考基因表达标记的输入矩阵估计感兴趣的每种细胞类型的相对比例的nu-SVR方法。

如本文所使用的，术语“蒙特卡罗采样”是指重复随机采样以获得在未知概率实体上的分布。

如本文所使用的，术语“显著性值”是指假设零假设为真的情况下获得结果的概率。在某些实施例中，零假设是在生物样品的给定特征图谱中没有表示特征矩阵中的细胞亚群。在某些方面，显著性值可以是“p值”，如在本文中使用的，它是假设零假设为真的情况下获得至少与实际观察到的一样极端或接近的测试统计结果的概率。

如本文所使用的，术语“差异测量”是指两个值或向量之间的关系(例如，差异、相关性、偏差等)的任何测量。

如本文所使用的，术语“误差”是指一个或多个计算的值与一个或多个预期的值的偏差。术语“均方根误差”或“RMSE”是指由估计器预测的值与估计的数量不同的量。估计器相对于估计的参数的RMSE被定义为均方误差的平方根。

如本文所使用的，术语“相关系数”是指线性拟合的度量。“皮尔逊积矩相关系数”或“Pearson's R”是两个变量之间的线性关系的强度和方向的度量，并且被定义为变量的协方差除以它们的标准偏差的乘积。

如本文所使用的，术语“RNA转录组”是指生物样品中细胞的聚合RNA表达水平。

如本文所使用的，术语“白细胞”或“白血球”是指任何免疫细胞，包括单核细胞、嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞和淋巴细胞。如本文所使用的，术语“淋巴细胞”是指通常在淋巴中发现的细胞，并且包括自然杀伤细胞(NK细胞)、T细胞和B细胞。本领域技术人员将理解的是，以上列出的免疫细胞类型可以被分为另外的亚群。

如本文所使用的，术语“肿瘤浸润性白细胞”是指存在于实体肿瘤中的白细胞。

如本文所使用的，术语“血液样品”是指由血液制备的任何样品，例如血浆、从血液中分离的血细胞等等。

如本文所使用的，术语“实体组织样品”是指从实体组织获得的样品，例如淋巴结、所采集的器官、活检物(例如，肿瘤活检物)等等。样品本身可以被重构和悬浮。

如本文所使用的，术语“归档组织样品”是指已经经历长期存储的组织样品。

如本文所使用的，术语“纯化样品”是指其中富含一个或多个细胞亚群的任何样品。可以通过基于诸如大小、蛋白质表达等等特征去除或分离细胞来纯化样品。

具体实施方式

如上概述，本公开包括一种对样品或物理系统的特征图谱进行去卷积的方法。所述物理样品或物理系统可以包括多个组分的混合物(即，异质物理样品或异质物理系统)，其中各个组分与混合物的相对比例是未知的。所公开的方法提供一种通过测量物理系统的多个特征并且使用感兴趣的组分的集合的标记图谱对所测量的特征进行去卷积估计如本文所述的物理样品或物理系统中的不同组分对组分的总集合的相对贡献或至少对感兴趣的组分的集合的贡献的方法。本方法将测量的特征建模为标记图谱的线性组合，而测量的特征可以包括来自在标记图谱中未表示的组分的贡献。通过优化测量的特征与标记图谱之间的回归实现去卷积，其中所述优化导致1)线性损失函数和2)L₂-范数惩罚函数的最小化。通过优化获得的解包括回归系数的向量，其可以用于导出标记矩阵的不同组分在特征图谱中的标记矩阵的所有不同组分中的分数表示。本方法还包括计算标记矩阵中表示的不同组分相对于所有不同组分的量，而不管其在标记矩阵中存在或不存在，如本文所描述的。

在一些实施例中，估计生物样品中的细胞亚群的相对比例的本方法包括通过使用细胞亚群特征标记的参考矩阵将支持向量回归应用于生物样品的特征图谱以估计生物样品中的细胞亚群的相对比例来计算处理生物样品的特征图谱。细胞亚群特征标记中的每一个可以对应于不同的细胞亚群。所述方法可以进一步包括确定用于识别多个细胞亚群的显著性值。还提供了用于执行所述主题方法的系统和计算机可读介质。

在进一步描述本公开的方法、系统和计算机可读介质之前，下文提供物理样品(例如，生物样品)、物理系统、不同组分(例如，细胞亚群)、特征和相关概念的描述。

物理样品和物理系统

本公开包括一种用于对物理系统(例如，异质物理系统)的特征图谱进行去卷积的方法。感兴趣的物理系统可以包括任何物理系统，其中多个组分存在于物理系统内并且贡献(例如，以可以由线性模型近似的方式贡献)到物理系统的特征图谱。物理系统可以包括或可以不包括感兴趣的组分。物理系统可以包括任何数量的组分。在一些情况下，物理系统包括就经验确定的性质而言彼此不同的5个或更多个，例如10个或更多个、20个或更多个，包括100个或更多个，例如10³个或更多个、10⁴个或更多个(例如15,000；20,000或25,000或更多个)不同(即不一样的)组分。

在一些情况下，物理系统是包含多个不同组分的物理样品，如下文进一步描述的。在一些实施例中，物理系统是体内或离体的细胞的集合(例如，组织样品中的细胞的集合)、生物体中的组织的集合、生态系统或社会中的生物体的集合等。在一些实施例中，物理系统是设备中的电路的集合、房间中的设备的集合、网络上的计算机的集合、建筑物中的器具的集合、城市或其一部分中的建筑物的集合、道路或公路系统上的车辆的集合等。

在本公开中，物理样品可以是包含不同组分的混合物的任何合适的样品，其中多个不同组分贡献(例如，以可以由线性模型近似的方式贡献)物理样品的特征图谱。在一些实施例中，物理样品是生物样品，如下文进一步描述的。在一些情况下，物理样品是环境样品，例如空气样品、水样品或土壤样品。环境样品可以从任何合适的来源获得，例如但不限于河流、海洋、湖泊、雨水、积雪、水库、污水、污水处理径流、农业径流、工业径流、自来水、饮用水、排气系统(例如工业排气、车辆排气等)、堆肥、填注池、城市发展场所或农田。在一些情况下，物理样品是食物样品，即适合或准备供动物(例如人、狗、猫、鸟、鱼等)食用的材料。在一些情况下，物理样品是合成化学混合物，例如商业化销售的化学混合物，例如肥料、涂料(例如油漆、清漆等)、药物、洗涤剂等。

生物样品

在一些实施例中，生物样品可以在体外从细胞培养物或从生物体获得。在某些方面，生物体可以是动物，例如灵长类动物(例如，人)、啮齿动物(例如，小鼠、大鼠、仓鼠、豚鼠)、兔子或任何其它合适的动物。从生物体采集的生物样品可以是组织样品，例如血液、来自脑、淋巴结、胸腺、骨髓、脾脏、骨骼肌、心脏、结肠、胃、小肠、肾、肝、肺等等的实体组织。组织样品可以通过采集器官或通过进行本领域已知的活检来获得。在某些方面，生物样品是血液样品，例如全血、血浆或从血液获得的细胞。

在某些方面，生物样品可以是肿瘤活检物。活检物是指从受试者(例如，通过切除、针抽吸等)获得的含有癌细胞的任何组织样品。活检物可以是细胞悬浮液、薄切片(例如，置于载玻片上的组织切片)的形式或任何其它合适的形式。

在某些方面，生物样品可以是溶液中的细胞分散体或悬浮体。溶液可以是平衡的盐溶液，例如，生理盐水、PBS、汉克斯平衡盐溶液等，它们适宜地补充有胎牛血清、人血小板裂解物或其它因子，以及低浓度(例如5-25mM)的可接受缓冲液。适宜的缓冲液包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。分离的细胞可以被收集在保持细胞活力的任何合适的培养基中。各种培养基是可商购的，并且可以根据细胞的性质使用，包括经常补充有胎牛血清或人血小板裂解物的dMEM、HBSS、dPBS、RPMI、Iscove's培养基等。在其它方面，活检物可以是组织切片。例如，活检物可以是置于显微镜载玻片上的薄组织切片。以上实施例中的任何一个的生物样品可以如本领域技术人员已知的固定和/或透化。

所述样品可以是例如粗制形式的整个样品。可选地，所述样品可以在分析之前例如通过密度梯度离心、淘选、磁珠分选、荧光活化细胞分选(FACS)等进行分级分离，以富集一种或多种感兴趣的细胞类型。

在一些情况下，生物样品是无细胞样品，例如细胞或组织匀浆。在一些情况下，生物样品包括单细胞。

在某些方面，所述主题方法包括在估计生物样品中细胞亚群的相对比例之前获得样品，例如生物样品(例如，如上所讨论的)。

不同组分

根据本公开的物理系统的物理样品的不同组分可以是贡献物理系统的物理样品的特征图谱的任何不同组分。在一些情况下，不同组分是不同的细胞亚群，如下文进一步描述的。

在一些实施例中，不同组分包括在不同的细胞周期阶段的细胞的不同亚群。细胞的亚群可以包括在任何合适的细胞周期阶段的细胞，包括但不限于分裂间期、有丝分裂期或胞质分裂期。在一些实施例中，细胞的亚群中的细胞处于前期、中期、后期或末期。在一些情况下，细胞的亚群中的细胞是静止的(G₀期)、在G₁关卡处(G₁期)、DNA被复制但在有丝分裂之前(G₂期)或正在经历DNA复制(S期)。

在一些实施例中，不同组分包括在一个或多个细胞内的不同功能性途径。感兴趣的功能性途径包括但不限于细胞信号传导途径、基因调节途径或代谢途径。因此，在一些实施例中，本公开的方法可以是一种通过测量信号传导途径或代谢途径的多个特征(例如，测量信号传导途径中的蛋白质的活化状态；测量基因调节网络中的基因的表达水平；测量代谢途径中的代谢物的水平等)来估计细胞、细胞集合、组织等中的不同的信号传导途径或代谢途径的相对活性的方法。感兴趣的细胞信号传导途径包括任何合适的信号传导途径，例如但不限于细胞因子信号传导、死亡因子信号传导、生长因子信号传导、存活因子信号传导、激素信号传导、Wnt信号传导、Hedgehog信号传导、Notch信号传导、细胞外基质信号传导、胰岛素信号传导、钙信号传导、G蛋白偶联受体信号传导、神经递质信号传导和其组合。所述代谢途径可以包括任何合适的代谢途径，例如但不限于糖酵解、糖异生、柠檬酸循环、发酵、尿素循环、脂肪酸代谢、嘧啶生物合成、谷氨酸氨基酸合成、卟啉代谢、天冬氨酸氨基酸合成、芳香族氨基酸合成、组氨酸代谢、支链氨基酸合成、戊糖磷酸途径、嘌呤生物合成、葡萄糖醛酸代谢、肌醇代谢、纤维素代谢、蔗糖代谢、淀粉和糖原代谢以及其组合。

在一些实施例中，不同组分包括不同的化学化合物。不同组分可以包括贡献特征图谱的任何合适的化学化合物。合适的化学化合物包括但不限于有机化合物、无机化合物(例如，盐、金属、离子等)、毒素、微生物(例如，细菌、病毒、真菌、原生生物等)、代谢产物、变应原等。

细胞亚群

在一些实施例中，细胞亚群可以是生物样品中的任何一组细胞，其存在的特征在于一个或多个特征(例如RNA水平上的基因表达、蛋白质表达、基因组突变、生物标志物等等)。细胞亚群可以是例如细胞类型或细胞子类型。

在某些方面，一个或多个细胞亚群可以是白细胞(即，白血球或WBC)。潜在的白细胞细胞亚群包括单核细胞、树突细胞、嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞和淋巴细胞。这些白细胞亚群可以被进一步细分，例如，淋巴细胞细胞亚群包括天然杀伤细胞(NK细胞)、T细胞(例如，CD8 T细胞、CD4原初T细胞、CD4记忆RO未活化的T细胞、CD4记忆RO活化的T细胞、滤泡辅助性T细胞、调节性T细胞等等)和B细胞(原初B细胞、记忆B细胞、血浆细胞)。可以基于活化(或刺激)状态进一步分离免疫细胞亚群。

在某些方面，白细胞可以来自白细胞异常(例如血癌、自身免疫性疾病、轮状循环综合征等等)的个体。血液疾病的实例包括急性淋巴细胞白血病(ALL)、急性骨髓性白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性骨髓性白血病(CML)、急性单核细胞白血病(AMoL)、霍奇金淋巴瘤、非霍奇金淋巴瘤以及骨髓瘤。自身免疫性疾病的实例包括斑秃、自身免疫性溶血性贫血、自身免疫性肝炎、皮肌炎、糖尿病(1型)、肾小球性肾炎、格雷夫斯病、格林巴利综合征、特发性血小板减少性紫癜、重症肌无力、某些形式的心肌炎、多发性硬化、天疱疮/类天疱疮、恶性贫血、结节性多动脉炎、多发性肌炎、原发性胆汁性肝硬化、牛皮癣、类风湿性关节炎、硬皮病/系统性硬化症、干燥综合征和系统性红斑狼疮。

在某些方面，一个或多个细胞亚群可以包括肿瘤浸润性白细胞。肿瘤浸润性白细胞可以与生物样品中的癌细胞混合，或者可以通过以上描述或本领域已知的任何方法富集。

在某些方面，一个或多个细胞亚群可以包括癌细胞，例如血癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、尿路癌、甲状腺癌、肾癌、癌、黑素瘤和脑癌。

感兴趣的细胞亚群还包括脑细胞，包括神经元细胞、星形胶质细胞、少突神经胶质细胞和小神经胶质细胞及其祖细胞。感兴趣的其它细胞亚群包括任何生物组织(包括血液、来自脑、淋巴结、胸腺、骨髓、脾、骨骼肌、心脏、结肠、胃、小肠、肾、肝、肺等等的实体组织)的干细胞、多能干细胞和祖细胞。

特征

感兴趣的特征包括可以指示存在一个或多个不同组分(例如，细胞亚群)的物理样品(例如，生物样品)或者物理系统的任何特征。在某些方面，特征的丰度(即，值)可以指示一个或多个不同组分(例如，细胞亚群)的丰度。特征可以是样品(例如，生物样品)的聚合特征，例如mRNA的总量、蛋白质、特异性基因型、生物标志物等等。

诸如基因表达和/或细胞基因型的特征可能是令人感兴趣的。例如，可以通过基因表达来区分细胞类型和/或状态。在另一个实例中，可以基于由突变导致的遗传异质性来区分癌细胞。这些特征可以通过本领域已知的任何方法测量，包括PCR方法(例如，由RNA合成的cDNA的定量PCR)、RNA-Seq、DNA-seq、DNA微阵列、嵌合阵列、

Northern印迹、基因表达系列分析(SAGE)等等。诸如蛋白质表达的特征可以通过本领域已知的任何方法测量，包括Western印迹、蛋白质微阵列、ELISA、其它免疫测定、质谱分析法等等。

在一些实施例中，特征图谱包括通过任何合适的方法获得的不同化学化合物的合适的测量性质。在一些情况下，特征包括核磁共振(NMR)(例如¹H、¹³C、²H、⁶Li、¹⁰B、¹¹B、¹⁴N、¹⁵N、¹⁷O、¹⁹F、²³Na、²⁹Si、³¹P、³⁵Cl、¹¹³Cd、¹²⁹Xe或¹⁹⁵Pt NMR)光谱、电磁辐射(例如，紫外线、可见光、红外辐射)吸收和/或发射光谱、圆二色光谱、拉曼光谱、质谱以及色谱(例如，通过亲和色谱法、液相色谱法、尺寸排阻色法等)。

特征(例如无细胞生物标志物)可以通过本领域已知的任何方法测量，包括Westerm印迹、ELISA、质谱法、色谱法(例如，薄层色谱法、气相色谱法、液相色谱法等等)。例如，特征可以是在色谱或质谱上观察到的峰的强度。

在某些方面，所述方法可以包括从物理样品(例如，生物样品)或物理系统获得特征测量。在其它方面，所述方法可以包括从数据库获得特征测量，所述数据库例如但不限于公开可用的DNA微阵列数据库、RNA-seq数据库和/或DNA-seq数据库，或者任何其它合适的特征测量数据库。

可以通过测量纯化或富集的不同组分(例如，不同的细胞亚群)的特征来获得特征标记的参考图谱。例如，可以通过密度梯度离心、淘选、磁珠分选、荧光活化细胞分选(FACS)等纯化细胞亚群，如上所述。可选地，可以在体外例如通过刺激和/或分化前体细胞来培养细胞亚群。在分离细胞亚群之后，可以测量该细胞亚群的特征(例如，如上所述或如本领域技术人员已知的)。在某些方面，可以(例如，通过DNA微阵列分析)测量细胞亚群的基因表达以获得该细胞亚群的基因表达图谱(GEP)。

在一些情况下，为信号传导途径的不同组分的特征标记通过测量包括信号传导途径的组分的功能性无细胞系统中的特征、通过在药理学上或可诱导地选择性活化细胞环境中的信号传导途径等而获得。在一些情况下，为化学化合物的不同组分的特征标记通过测量化学化合物的基本上纯化或富集的样品中的特征而获得。

在某些方面，标记矩阵包括上述细胞亚群中的任何一个的特异性mRNA的水平、蛋白质、基因型和/或生物标志物。标记矩阵在以前的研究中通常被称为“基本或基础矩阵”，并且可以例如通过纯化或富集的细胞群体的差异表达分析来获得。通过最小化被称为条件数的固有矩阵性质，可以使基因标记矩阵更加具有鲁棒性，所述被称为条件数的固有矩阵性质测量线性系统的稳定性以输入变量或噪声。在某些方面，标记矩阵稳定性可以通过2-范数条件数来测量，所述2-范数条件数利用κ函数计算，例如以R表示。

相同标记矩阵中的一些参考图谱可以表现出“多重共线性”，它是一种其中多个不同组分(例如，细胞类型)的参考图谱高度相关的现象。多重共线性可以防止去卷积，或降低在物理样品(例如，生物样品)中的不同组分(例如，细胞亚群)的相对量的去卷积的可信度，如可通过所述主题方法中的显著性值报告的。如通过方差膨胀因子(VIF)测量的本发明的标记矩阵中的两个参考图谱之间的多重共线性的严重性可以是1或更大，例如2或更大、5或更大、10或更大、15或更大、包括20或更大，并且在一些情况下可以是50或更小，例如40或更小、30或更小、20或更小、15或更小，包括10或更小。

在一些情况下，参考矩阵具有1或更大，例如2或更大、5或更大、8或更大、10或更大、15或更大、20或更大、50或更大、100或更大、500或更大，包括1,000或更大的2-范数条件数，并且在一些实施例中，具有10⁴或更小，例如10³或更小、500或更小、250或更小、200或更小、150或更小、100或更小、50或更小、30或更小、20或更小、15或更小、8或更小，包括5或更小的2-范数条件数。在一些实施例中，参考矩阵具有在1至5，例如5至8、8至10、8至15、10至15、15至20、20至30、20至50、50至100、100至150、100至200、100至250、100至500、500至1,000，包括1,000至10,000范围内的2-范数条件数。

可以使用任何合适的方法调整参考矩阵的条件数。在一些情况下，通过从矩阵中添加或去除一个或多个特征来减少初始参考矩阵的条件数，从而生成具有更低条件数的初始参考矩阵的超集或子集。该过程可以重复，直到获得最终参考矩阵的足够低的条件数。

在某些方面，参考矩阵可以包括与两个或更多个，例如，5个或更多个、10个或更多个，包括15个或更多个不同组分(例如，细胞亚群)，并且在一些情况下，20个或更少，例如15个或更少、12个或更少、10个或更少，包括8个或更少的不同组分相关联(例如，被其表达)的至少一个特征(例如，基因)，例如，至少2个、至少3个、至少5个、至少10个、至少20个、至少50个，包括至少100个特征。在一些情况下，参考矩阵可以包括与2至20，例如，2至15、2至12，包括5至10个不同组分(例如，细胞亚群)相关联(例如，由其表达)的至少一个特征(例如，基因)，例如，至少2个、至少3个、至少5个、至少10个、至少20个、至少50个，包括至少100个特征。在一些情况下，参考矩阵可以包括与多个不同组分(例如，细胞亚群)相关联(例如，由其表达)的10,000个或更少，例如5,000个或更少、1,000个或更少、500个或更少、200个或更少，包括100个或更少的特征(例如，基因)。

在某些方面，可以对包含在标记矩阵中的候选特征进行过滤。在某些实施例中，可以从标记矩阵中过滤具有低的值和/或方差的特征。例如，与其它候选特征相比，具有低于90％、低于80％、低于75％、低于50％或低于25％内的值和/或方差的特征可以被过滤掉。在另一个实例中，与其它候选特征相比，具有高于90％、80％、75％、50％或25％的值和/或方差的特征可以包括在标记矩阵中。在一些实施例中，富集在标记矩阵中未表示的不同组分中的特征不包括在标记矩阵中。在一些实施例中，在标记矩阵中未表示的不同组分中具有比阈值高的值的特征不包括在标记矩阵中。

对感兴趣的不同组分(例如，细胞亚群)更具预测性的特征可以包括在标记矩阵中。例如，所述方法可以包括基于来自给定特征与其它不同组分(例如，细胞亚群)或物理样品/物理系统的所有配对比较的线性模型系数的总和来计算给定的不同组分(例如，细胞亚群)或物理样品/物理系统中的给定特征的富集得分(ES)。在某些方面，可以基于一种不同组分(例如，细胞亚群)的特征的值与其它不同组分(例如，细胞亚群)相比的倍数变化来选择特征包括在标记矩阵中。例如，可以将在一种不同组分(例如，细胞亚群)是在任何其它不同组分(例如，细胞亚群)中2倍或更高、5倍或更高、10倍或更高或者20倍或更高的特征选择包括在标记矩阵中。相反，可以从标记矩阵中排除特征以降低多重共线性。

在某些方面，所述主题方法包括分离一个或多个不同组分(例如，细胞亚群)，以及测量一个或多个不同组分(例如，细胞亚群)的特征以获得特征矩阵。例如，第一生物样品中的细胞可以通过FACS被分成单独的细胞亚群。可以通过DNA微阵列分析单独的细胞亚群以获得单独的细胞亚群中的每一个细胞亚群的基因表达图谱(GEP)。然后可以对每个细胞亚群的GEP进行编译以生成具有用于每个细胞亚群的多个基因的表达的值的标记矩阵(例如，如图16所示)。

样品特征图谱的实例包括“基因表达图谱”或“GEP”(例如，如通过微阵列分析获得的)、蛋白质表达图谱、基因型图谱(例如，具有异质肿瘤细胞的样品的基因型图谱)、生物标志物图谱(例如，样品中的游离生物标志物或样品的细胞上/中的生物标志物的生物标志物图谱)或其组合。可以如上所述获得样品的特征图谱(例如，特征可以直接由生物样品测量，或者可以从数据库(例如公开可用的DNA微阵列数据库)获得所述特征图谱)。如上所讨论的，生物样品可以包括任何细胞类型。在某些实施例中，样品的特征图谱可以是基准数据集。

本方法可以提供一种估计物理样品或物理系统中不同组分的分数表示的敏感方法，其中所述不同组分以低分数存在。在一些实施例中，物理样品或物理系统包括以特征标记表示的、浓度为样品中存在的第二多个不同组分的总量的10％或更小，例如，8.0％或更小、6.0％或更小、4.0％或更小、2.0％或更小，包括1.0％或更小的至少一种不同组分，并且在一些情况下，浓度为样品中存在的第二多个不同组分的总量的0.01％或更大，例如，0.05％或更大、0.1％或更大、0.5％或更大，包括1.0％或更大的至少一种不同组分。在一些实施例中，物理样品或物理系统包括以特征标记表示的、浓度范围为样品中存在的第二多个不同组分的总量的0.01％至10％，例如，0.05％至8.0％、0.1％至6.0％、0.1％至4.0％，包括0.1％至2.0％的至少一种不同组分。

本方法可以提供对在存在在标记矩阵中未表示的不同组分的情况下物理样品或物理系统中的不同组分的分数表示的鲁棒性估计。在一些实施例中，以特征标记表示的不同组分在样品中的存在量为样品中不同组分的总量的50％或更少，例如，45％或更少、40％或更少、35％或更少、30％或更少、25％或更少、20％或更少、10％或更少，包括5％或更少，并且在一些情况下为样品中不同组分的总量的1％或更多，例如，5％或更多、10％或更多、20％或更多、30％或更多、35％或更多，包括40％或更多。在一些实施例中，以特征标记表示的不同组分在样品的存在量的范围为1至50％，例如，5至50％、10至50％，包括20至45％。

在某些方面，生物样品可以包括没有由标记矩阵表示的细胞。例如，生物样品中5％或更多、10％或更多、25％或更多、50％或更多、75％或更多、5％至50％、5％或更少、10％或更少、25％或更少，或者50％或更少的细胞可以没有由标记矩阵中的细胞亚群表示。

可选地或另外，生物样品可以包括由标记矩阵表示的、少量(例如10％或更少、5％或更少、2％或更少、1％或更少、0.5％或更少、0.25％或更少、0.1％或更少、0.1％至10％之间、0.25％至2％之间等等)存在的细胞亚群。

对特征图谱进行去卷积的方法

一般来说，本公开的方法可以包括获得包括不同组分的集合的物理样品，例如，生物样品。例如通过测量多个特征的值根据物理样品生成特征图谱m。通过回归m和包含具有线性函数的感兴趣的不同组分的特征标记的参考矩阵B对特征图谱m进行去卷积，并且优化所述回归，从而使得解使以下最小化：1)线性损失函数和2)L₂-范数惩罚函数。去卷积求解f，f是包含回归系数的向量。基于f中的回归系数估计参考矩阵中的不同组分在特征图谱中的参考矩阵中表示的所有不同组分中的分数表示。

一般来说，线性损失函数根据其到回归超平面的距离或在ε不敏感线性损失函数的情况下根据与超平面的固定距离ε来惩罚数据点。因此，在一些实施例中，线性损失函数是线性ε不敏感损失函数。L₂-范数惩罚函数惩罚模型复杂性并且使分配给高度相关的预测量(例如，参考矩阵中的不同组分)的权重的方差最小化。

在一些情况下，估计物理样品中存在的不同组分的分数表示包括将f中的负回归系数设置为零，并且将剩余的非零回归系数进行归一化总计为1。

本文还提供了一种用于对物理系统的特征图谱进行去卷积的计算机实现的方法。所述计算机实现的方法可以包括获得物理系统中的不同组分的集合的特征图谱m，并且使用特征标记的参考矩阵B和使m与B相关的线性模型的回归计算处理所述特征图谱以求解f，如上所述。特别地，当所述回归的优化使以下最小化时获得所述解：1)线性损失函数和2)L₂-范数惩罚函数。然后使用f中的回归系数导出在参考矩阵中表示的不同组分在特征图谱中的参考矩阵中表示的所有不同组分中的分数表示的估计。

在一些实施例中，例如使用利用合适的算法编程的通用计算机使用合适的算法进行优化。可以使用使线性损失函数和L₂-范数惩罚函数最小化的任何合适的优化算法。在一些情况下，使用支持向量回归(SVR)进行优化。在一些实施例中，SVR是ε-SVR或ν(nu)-SVR。

本文还提供了通过计算处理生物样品的特征图谱估计生物样品中的细胞亚群的相对比例的方法。计算处理包括使用细胞亚群特征标记的参考矩阵将支持向量回归应用于生物样品的特征图谱以估计生物样品中的细胞亚群的相对比例。如上所述，细胞亚群特征标记中的每一个对应于不同的细胞亚群。在以上部分中描述了生物样品、细胞亚群、生物样品的特征图谱、细胞亚群特征标记的参考矩阵(即，标记矩阵)以及获得它们的方法。

支持向量回归或“SVR”是支持向量机(SVM)的一个实例，所述支持向量机是一类用于二进制分类问题的优化方法，其中发现最大限度地分离两个类别的超平面。支持向量是确定超平面边界的输入数据的子集。与标准SVM不同，SVR将超平面拟合到输入数据点，从而执行回归，并且在误差ε的容限和唯一的线性误差惩罚(即，ε不敏感的损失函数)内如此操作，使其对界外值和过度拟合具有较强的鲁棒性。SVR通过(i)经由特征选择(例如，参考矩阵中的不同组分的选择)来实现对回归的稀疏紧凑解决方案，以及(ii)通过最小化在噪声样品中优于其它常见损失函数(例如，LLSR中使用的平方误差)的线性误差模型(即，ε不敏感损失函数)而对噪声和未知内容物具有鲁棒性。在某些方面，可以在非对数线性空间中执行支持向量回归。

与以前的方法不同，SVR执行特征选择，其中自适应地选择来自标记矩阵的不同组分(例如，基因)以对给定混合物(即，特征图谱)进行去卷积。在某些方面，支持向量回归可以仅使用生物样品的特征图谱的一部分和不同组分(例如，细胞亚群)特征标记的参考矩阵来估计物理样品(例如，生物样品)或物理系统中的不同组分(例如，细胞亚群)的相对比例。例如，支持向量回归可以使用物理样品(例如，生物样品)或物理系统的特征图谱中存在的80％或更少，例如，60％或更少、50％或更少、25％或更少、10％或更少、5％或更少，包括1％或更少的特征以及参考矩阵来估计物理样品(例如，生物样品)或物理系统中的不同组分(例如，细胞亚群)的相对比例。

SVR的两种主要类型是由

等描述(Neural Comput.12,1207-1245(2000))的“nu-支持向量回归”(或“ν-SVR”)和由Drucker等描述(MIT Press，Vol.9(1997))的“ε-支持向量回归”(或ε-SVR)。在某些方面，SVR可以是ε-SVR。

可选地，SVR可以是ν-SVR。在ν-SVR中，ν参数适宜地控制训练误差ε的上限和支持向量的稀疏性。ν-SVR可以与线性核一起应用来求解(估计)物理样品(例如，生物样品)或物理系统中不同组分(例如，细胞亚群)的相对比例。在某些方面，所述方法包括对不同的值nu(ν)进行迭代以获得不同的结果(在物理样品(例如，生物样品)或物理系统中的不同组分(例如，细胞亚群)的相对比例的不同估计)。所述方法可以包括对2个或更多个、3个或更多个、4个或更多个、5个或更多个、10个或更多个或者20个或更多个nu值进行迭代。nu的值可以在0与1之间。例如，所述方法可以包括对0.25、0.5和0.75的nu值进行迭代。所述方法可以进一步包括选择所获得的结果，该所获得的结果在物理样品(例如，生物样品)或物理系统的特征图谱与所述结果和细胞亚群特征标记的参考矩阵的乘积之间具有最小误差。在某些方面，最小误差是最小均方根误差(RMSE)。RMSE可以被计算为物理样品(例如，生物样品)或物理系统的特征图谱与所述结果与和不同组分(例如，细胞亚群)特征标记的参考矩阵的乘积之间的均方误差的平方根。在一些情况下，通过使用皮尔逊积矩相关系数、斯皮尔曼等级相关、欧几里得距离或平均绝对偏差(MAD)或任何其它合适的误差测量获得最小误差。

标记矩阵中的特征的数量应该等于或大于标记矩阵中的不同组分(例如，细胞亚群)的数量。在某些方面，特征的数量可以基本上大于不同组分(例如，细胞亚群)的数量，并且因此系统可以为超定的。例如，标记矩阵中的特征的数量可以是标记矩阵中的不同组分(例如，细胞亚群)的数量的2倍或更多、3倍或更多、5倍或更多、10倍或更多、20倍或更多、50倍或更多、或者100倍或更多。

在某些方面，应用支持向量回归以估计细胞亚群的相对比例的步骤包括强制执行非负约束。例如，在支持向量回归之后，可以将估计为负的丰度或比例(低于零)的任何细胞亚群设置为零。

不同组分(例如，细胞亚群)的比例可以是不同组分(例如，细胞亚群)的相对比例。因此，在应用支持向量回归并且可选地强制执行非负约束之后，可以将每个不同组分(例如，细胞亚群)的计算的丰度(例如，系数)进行归一化总计为1，以便获得每个不同组分(例如，细胞亚群)的相对丰度。

为了减少运行时间并且促进更好的总体性能，可以对物理样品(例如，生物样品)或物理系统的特征图谱和/或不同组分(例如，细胞亚群)特征标记的参考矩阵进行归一化以在运行CIBERSORT之前将均值和单位方差置零，或以其它方式转换为减少运行时间。

所述方法可以进一步包括确定用于识别和估计不同组分(例如，细胞亚群)的相对比例的显著性值。在某些实施例中，可以使用蒙特卡罗采样来确定用于去卷积的经验定义的全局p值。所述显著性值可以指示在物理样品(例如，生物样品)或物理系统的给定特征图谱中不存在标记矩阵中的不同组分(例如，细胞类型)的零假设的可能性。

如在实验部分所述的，标记矩阵(由B表示)和由各个不同组分(例如，细胞类型)的未知分数组成的向量(由f表示)的乘积对物理样品(例如，生物样品)或物理系统的特征图谱(m)建模，如下式所示：m＝fxB。

在某些方面，所述方法进一步包括通过以下方式确定用于估计不同组分(例如，细胞亚群)的相对比例的显著性值：a)生成包含从父级特征图谱随机选择的特征的随机特征图谱m*，其中所述父级特征图谱包括所述特征图谱，并且其中m和m*具有相同的欧几里得范数(即，|m|＝|m*|)；b)优化m*与参考矩阵B之间的回归，其中m*被建模为B的线性组合，其中所述优化包括求解包括所述回归的一组回归系数的f*，其中所述解使以下最小化：线性损失函数，和L₂范数惩罚函数；c)计算f*和参考矩阵B的乘积以产生重构特征图谱；d)确定所述随机特征图谱m*与所述重构特征图谱之间的差异测量；以及e)基于由步骤a)-d)的i次迭代确定的差异测量的分布确定显著性值，其中i是大于1的数值。

在某些方面，步骤d)的差异度量可以是相关系数，例如皮尔逊积矩相关系数。可选地，可以使用另一种差异度量来代替皮尔逊积矩相关系数。其它距离度量的实例包括RMSE、拟合优度度量标准、标准偏差、斯皮尔曼等级相关性、欧几里得距离或者平均绝对偏差(MAD)等等。

父级特征图谱可以是更大(即，具有更多的不同元素)的任何合适的特征图谱。

在某些方面，步骤e)的显著性值可以是p值。步骤e)中的分布可以是零分布。

迭代次数i可以是任何合适的整数，并且可以是2或更大、5或更大、10或更大、25或更大、50或更大、100或更大、200或更大、500或更大、1000或更大、10,000或更大，并且在一些情况下可以是10,000或更小，例如，1,000或更小、800或更小、600或更小，包括500或更小。在一些情况下，i可以在2与10,000之间、在10与1,000之间、在50与500之间，包括在200与600之间，等等。

在某些方面，所述方法可以包括筛选候选参考矩阵和/或特征图谱以识别那些提供低的显著性值的候选参考矩阵和/或特征图谱。

特征图谱可以是任何合适的特征图谱，如上所述，取决于感兴趣的物理样品或物理系统。在某些方面，生物样品的特征图谱可以是基因表达图谱(GEP)，例如，如以上部分的实施例中所述的。基因表达图谱可以表示生物样品中的细胞的RNA转录组。

不同组分可以是任何合适的不同组分，如上所述。在一些情况下，不同组分是不同的细胞亚群。细胞亚群(例如，标记矩阵的细胞亚群和/或其相对丰度由SVR估计的细胞亚群)可以是以上部分中描述的细胞亚群中的任何一个。在某些方面，细胞亚群可以包括脑细胞亚群。例如，细胞亚群可以包括神经元细胞、星形胶质细胞、少突神经胶质细胞和小神经胶质细胞中的一种或多种。在某些方面，细胞亚群可以包括基质细胞、干细胞、神经细胞和祖细胞中的一种或多种。在某些方面，细胞亚群可以包括肿瘤细胞，例如血癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、尿路癌、甲状腺癌、肾癌、癌、黑色素瘤和/或脑癌细胞。

在某些方面，细胞亚群包括白细胞，例如，如以上部分中所述的。白细胞可能是肿瘤浸润性白细胞(例如，与癌细胞混合或从癌细胞纯化)。白细胞细胞亚群可以包括淋巴细胞，例如，原初B细胞和记忆B细胞中的一种或多种，并且例如CD8 T细胞、CD4原初T细胞、CD4记忆RO未活化的T细胞、CD4记忆RO活化的T细胞、滤泡辅助性T细胞和调节性T细胞中的一种或多种。在某些方面，白细胞细胞亚群可以包括B细胞、浆细胞、CD8 T细胞、CD4 T细胞、γδT细胞、NK细胞、单核细胞、巨噬细胞、树突细胞、肥大细胞、嗜酸性粒细胞以及嗜中性粒细胞细胞亚群中的一种或多种。

在某些方面，细胞亚群可以包括以下细胞亚群中的两种或更多种、5种或更多种、10种或更多种，或者15种或更多种或全部：原初B细胞、记忆B细胞、浆细胞、CD8 T细胞、原初CD4 T细胞、CD4记忆RO未活化的T细胞、CD4记忆RO活化的T细胞、滤泡辅助性T细胞、调节性T细胞、γδT细胞、未受刺激的NK细胞、受刺激的NK细胞、单核细胞、巨噬细胞M0、巨噬细胞M1、巨噬细胞M2、未受刺激的树突细胞、受刺激的树突细胞、未受刺激的肥大细胞、受刺激的肥大细胞、嗜酸性粒细胞和嗜中性粒细胞。

如上所述，物理样品(例如，生物样品)可以是多个物理样品(例如，生物样品)中的任何一种。在某些方面，生物样品是归档组织样品、血液样品、实体组织样品、肿瘤样品、纯化样品、富含白细胞的样品或其组合。

本方法可以提供对贡献特征图谱的不同组分的相对比例的准确估计。在一些情况下，当与独立确定的不同组分的相对比例的估计相比时，通过本方法获得的估计可以具有0.50或更大，例如，0.60或更大、0.70或更大、0.80或更大、0.85或更大、0.90或更大、0.95或更大、0.97或更大，包括0.99或更大的统计学上显著的R值(例如，皮尔逊积矩相关系数)，并且在一些情况下可以具有0.99或更小，例如，0.98或更小、0.96或更小、0.94或更小、0.92或更小、0.90或更小，包括0.85或更小的统计学上显著的R值。在一些情况下，当与独立确定的不同组分的相对比例的估计相比时，通过本方法获得的估计可以具有在0.50-0.99，例如，0.60-0.98、0.70-0.96，包括0.80-0.94范围内的统计学上显著的R值。独立确定的不同组分的相对比例的估计可以是任何合适的独立估计。在一些情况下，所述独立估计是添加到样品中的不同组分的已知量。在一些情况下，所述独立估计是通过流式细胞术(例如，荧光活化细胞分选(FACS))分析获得的估计。

计算机系统和计算机可读存储介质

图20是根据某些实施例的计算机系统2000的框图。

如图20所示，系统2000包括一个或多个处理单元(本文也称为“处理器”)2002、存储器2004(即，计算机可读存储介质)、输入/输出(I/O)接口2006和网络通信接口2008。这些部件通过一根或多根通信总线或信号线彼此连通。在一些实施例中，存储器2004或存储器2004的计算机可读存储介质存储操作系统2012、程序、模块、指令和所存储的数据。一个或多个处理器2002耦合到存储器2004并且可操作以执行这些程序、模块和指令，以及从所存储的数据读取/写入。

在一些实施例中，处理单元2002包括一个或多个微处理器，例如单核或多核微处理器。在一些实施例中，处理单元2002包括一个或多个通用处理器。在一些实施例中，处理单元2002包括一个或多个专用处理器。

在一些实施例中，存储器2004包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备。在一些实施例，存储器2004包括例如一个或多个磁盘存储设备、光盘存储设备、快闪存储器设备的非易失性存储器，或者其它非易失性固态存储设备。在一些实施例中，存储器2004包括位于处理单元2002远处的一个或多个存储设备。存储器2004，或可选地存储器2004内的非易失性存储器设备包括计算机可读存储介质。在一些实施例中，存储器2004包括非暂时性计算机可读存储介质。

在一些实施例中，I/O接口2006耦合到一个或多个输入/输出设备，例如一个或多个显示器、键盘、触敏表面(例如轨迹板或者触敏显示器的触敏表面)、扬声器和麦克风。I/O接口2006可以被配置成从用户接收用户输入(例如，语音输入、键盘输入等)并且对它们进行相应地处理。I/O接口2006还可以被配置成根据在系统2000上实现的各种程序指令向用户呈现输出(例如，声音、图像、文本等)。

在一些实施例中，网络通信接口2008包括有线通信端口和/或无线发送和接收电路。有线通信端口经由一个或多个有线接口(例如，以太网、通用串行总线(USB)、FIREWIRE等)接收和发送通信信号。无线电路从通信网络和其它通信设备接收和向其发送RF信号和/或光信号。无线通信可以使用多种通信标准、协议和技术中的任何一种，例如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX或任何其它合适的通信协议。网络通信接口2008能够利用(例如因特网、内联网和/或无线网络(例如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))使系统2000与其它设备之间进行通信。网络通信接口2008被配置成便于经由网络在系统2000与其它设备之间进行通信。

在一些方面，计算机2000可以是个人设备(例如，膝上型计算机、台式计算机、工作场所计算机、便携式设备等)。为个人设备的计算机2000可能不需要连接到网络。

在一些方面，计算机2000是服务器或服务器的集合，并且可能不需要I/O接口。例如，计算机2000可以是服务器，并且本公开的去卷积程序，例如SVR应用程序2020可以由用户通过网站访问。

在一些实施例中，操作系统2012(例如，LINUX、UNIX、OS X、WINDOWS或嵌入式操作系统)包括用于控制和管理通用系统任务(例如，存储器管理、存储设备控制、电源管理等)的各种软件部件和/或驱动器，并且促进各种硬件、固件和软件部件之间的通信。

应当注意，系统2000仅是一个实例，并且系统2000可以具有比所示更多或更少的部件，可以组合两个或更多个部件，或者可以具有不同配置或布置的部件。图20中所示的各种部件可以在包括一个或多个信号处理和/或专用集成电路或其组合的硬件、软件、固件中实现。

在图20中，去卷积程序(例如，支持向量回归(SVR)应用程序2020)包括存储在存储器2004中的一个或多个程序，并且包括执行根据以上方法部分的一个或多个实施例所述的方法的指令。去卷积程序(例如，SVR应用程序2020)可以包括以下示例性模块中的任何一个或其子集或超集。

在一些情况下，去卷积模块(例如，SVR模块2022)可以被配置成根据以上方法部分中描述的实施例使用不同组分(例如，细胞亚群)特征标记的参考矩阵将支持向量回归或使线性损失函数和L₂范数惩罚函数最小化的任何其它回归算法应用于物理样品(例如，生物样品)或物理系统的特征图谱以估计物理样品(例如，生物样品)或物理系统中的不同组分(例如，细胞亚群)的相对比例。

选择模块2024可以被配置成根据以上方法部分中描述的实施例中的任何一个选择(或过滤)特征以包括在标记矩阵中和/或选择特征图谱。

RMSE模块2026可以被配置成根据以上方法部分中描述的实施例中的任何一个确定不同的nu值下具有最小误差的结果。

显著性值模块2028可以被配置成通过选择特征图谱的子集通过以下方式来确定用于估计细胞亚群的相对比例的显著性值：a)生成包含从父级特征图谱随机选择的特征的随机特征图谱m*，其中所述父级特征图谱包括所述特征图谱，并且其中m和m*具有相同的欧几里得范数；b)优化m*与所述参考矩阵B之间的回归，其中m*被建模为B的线性组合，其中所述优化包括求解包括所述回归的一组回归系数的f*，其中所述解使以下最小化：线性损失函数，和L₂范数惩罚函数；c)计算f*和参考矩阵B的乘积以产生重构特征图谱；d)确定所述随机特征图谱m*与所述重构特征图谱之间的差异测量；以及e)基于由步骤a)-d)的i次迭代确定的差异测量的分布确定显著性值，其中i是大于1的数值。在步骤b)中，显著性值模块2028可以采用去卷积模块，例如，SVR模块。显著性值模块2028可以进一步被配置成执行以上方法部分中描述的其它实施例中的任何一个。

去卷积程序(例如，SVR应用程序2020)可以进一步包括执行以上方法部分中描述的其它实施例中的任何一个的附加模块。在某些方面，去卷积程序(例如，SVR应用程序2020)可以被存储在与计算机2000分离的便携式计算机可读存储介质中。

在一些实施例中，存储器2004存储以上方法部分的实施例中的任何一个的特征图谱2030。在一些实施例中，存储器2004存储以上方法部分的实施例中的任何一个的标记矩阵2032。在一些实施例中，存储器2004存储以上方法部分的实施例中的任何一个的估计的细胞亚群比例2034。

本文描述的方法由计算机系统2000执行。在一些实施例中，计算机系统2000是分布式计算机系统。例如，计算机系统2000包括位于第二组一个或多个处理器远处的第一组一个或多个处理器。在一些实施例中，计算机系统2000包括被配置成提供网络接口的网络服务器。在一些实施例中，网络接口被配置成接收数据。在一些实施例中，网络接口被配置成显示结果。

在某些方面，去卷积程序(例如，SVR应用程序2020)可由用户配置。例如，去卷积程序(例如，SVR应用程序2020)可以包括用户接口模块(未示出)，所述用户接口模块被配置成使得用户能够确定一个或多个设置，例如特征图谱2030和/或标记矩阵2032以将去卷积算法(例如，SVR)应用到nu的值、由选择模块2024选择特征的标准、将由显著性值模块2028运行迭代的次数，或者将允许以上方法部分中描述的一个或多个实施例的任何其它设置。

实用性

本公开的其它方面包括基于生物样品的特征图谱准确地计数生物样品中的细胞亚群的方法和系统。特征图谱包括基因表达图谱、蛋白质表达图谱、肿瘤基因型图谱和生物标志物图谱。本系统和方法代表了利用潜在的应用(包括免疫监测和新型生物标志物和治疗靶标发现)分析混合生物材料的其它细胞亚群去卷积方法的进步。

在一些情况下，本方法准确地解出来自复合组织的GEP中不同细胞亚群的相对分数，并且提供每个结果的统计置信度的度量。本方法显示出对具有(i)噪声或未知内容物和(ii)密切相关的细胞类型(图15)的混合物进行分析的准确性的显著提高。此外，当与统计过滤一起应用时，本方法允许对细胞亚群的高度敏感性和特异性鉴别(图1b、c)。

在某些方面，提供了一种通过其基因表达图谱表征复合组织的细胞组成的方法。当应用于来自新鲜、冷冻和固定的组织(包括实体肿瘤)的RNA混合物中造血干细胞亚群的计数时，所述主题方法在噪声、未知混合内容物和密切相关的细胞类型方面优于其它方法。所述主题系统和方法应该能够对细胞生物标志物和治疗靶标的RNA试样进行大规模分析。因此，准确地计数来自全组织的RNA混合物中的细胞亚群的方法可以促进对疾病相关的细胞变异的新见解。

在一些实施例中，所述主题方法提供了一种分析源自新鲜、冷冻和固定的临床试样的微阵列或RNA-Seq数据中的细胞异质性的方法，从而补充需要活细胞作为输入的方法。

本方法和系统用于希望估计系统内的多个不同组分的分布的各种应用中。在一些情况下，本方法和系统用于环境监测、食品质量和安全检查、电气使用监测、交通拥堵监测、消费者产品安全等，其中对物理样品或物理系统的特征图谱进行去卷积可以提供各个组分对许多组分的复合混合物的贡献。

本方法和系统还可用于基于如通过本公开的方法确定的来自患有疾病的个体的样品中的一个或多个不同组分的相对比例与临床结果之间的关联评估个体中的疾病、评估疾病中临床样品特征的预测、预后和/或诊断价值，和/或预测疾病治疗的临床结果。

因此，本文提供了一种包括从患有疾病的个体获得生物样品，并且通过执行如本文所述的对特征图谱进行去卷积的方法估计样品中存在的多个不同组分中的一个或多个不同组分的分数表示的方法。一个或多个不同组分的估计的分数表示可以用于基于不同组分的估计的分数表示与疾病的临床结果的相关性来确定其用于预后和/或诊断疾病和/或预测对治疗的反应的价值。因此，本方法为疾病的预后或诊断和/或为预测疾病治疗的结果提供了新的生物标志物。然后，可以基于新的生物标志物预测疾病治疗的临床结果。

如本文所使用的，“预测”是指在事件或结果发生之前确定特定事件将发生或可能发生或者结果将实现或可能实现的过程。在一些情况下，在对患者施用治疗之前预测治疗的结果。

所述疾病可以是任何合适的疾病，例如但不限于癌症、糖尿病、炎性疾病、自身炎性疾病、传染病、神经系统疾病(例如，阿尔茨海默病、帕金森病、多发性硬化、痴呆、抑郁症、精神病等)、代谢疾病、心血管疾病、肌肉营养不良症、亨廷顿氏病等。

在一些情况下，所述疾病是癌症，其可以是任何合适的癌症，例如但不限于人肉瘤和癌，例如，纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏肉瘤、平滑肌肉瘤、横纹肌肉瘤、结肠癌、胰腺癌、乳腺癌、卵巢癌、前列腺癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、囊腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯肿瘤、宫颈癌、睾丸肿瘤、肺癌、小细胞肺癌、膀胱癌、上皮癌、胶质瘤、星形细胞瘤、成神经管细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质细胞瘤、脑膜瘤、黑色素瘤、神经母细胞瘤、视网膜母细胞瘤；白血病，例如，急性淋巴细胞白血病和急性髓细胞白血病(成髓细胞、早幼粒细胞、髓单核细胞、单核细胞和红白血病)；慢性白血病(慢性髓细胞(粒细胞性)白血病和慢性淋巴细胞性白血病)；以及红细胞增多症、淋巴瘤(霍奇金病和非霍奇金病)、多发性骨髓瘤、瓦尔登斯特伦球蛋白血症、滤泡性淋巴瘤和重链疾病。

个体可以是任何合适的患者。在一些情况下，患者已被诊断为患有疾病。在一些情况下，患者已经接受了该疾病的治疗。在一些实施例中，样品从患有相同或相似疾病的个体群组中获得，其中所述群组可以包括1个或更多个、例如，2个或更多个、3个或更多个、5个或更多个、10个或更多个、20个或更多个、50个或更多个、100个或更多个、200个或更多个，包括400个或更多个的个体。

治疗可以是任何合适的治疗。在一些情况下，所述治疗包括向个体施用药物组合物，其中所述药物组合物可以包括天然衍生和/或合成的药物，例如，小分子药物、抗生素、抗体、疫苗等。在一些情况下，所述治疗是免疫治疗。

本公开的方法还可以包括产生指示对治疗的诊断、预后和/或预测响应的物理/有形报告和/或电子报告。所述报告可以以任何合适的格式提供，例如但不限于纸张、非瞬时性计算机可读介质(例如，光盘、通用串行总线驱动器等)、电子邮件等。在一些实施例中，所述报告包含给医务人员(例如，医师、护士、药剂师等)和/或个体的一个或多个推荐的行动方案(例如，是否继续或停止治疗、进行哪种治疗等)。

本说明书中引用的所有出版物和专利申请通过引用并入本文，如同具体和单独地指明每个单独的出版物或专利申请通过引用并入一样。任何出版物的引用均指其申请日之前的公开，并且不应被解释为承认本发明无权由于先前的发明而先于此类出版物。

为了进一步说明本发明，给出以下具体实施例，需理解的是，提供它们是为了说明本发明，而不应以任何方式被解释为限制本发明的范围。

实验

实例1：通过复合组织的表达图谱强化计数细胞亚群

CIBERSORT使用参考基因表达标记的输入矩阵来估计感兴趣的每种细胞类型的相对比例。然而，对于每个基因而言，不需要细胞类型特异性表达模式(方法)。为了对混合物进行去卷积，采用线性支持向量回归(SVR)的新颖应用，机器学习方法对噪声具有很强的鲁棒性⁹。与许多其它方法不同，SVR执行特征选择，其中来自标记矩阵的基因被自适应地选择以对给定混合物进行去卷积。然后确定用于去卷积的经验定义的全局P值(图1a，方法)。

作为初步应用，确定来自块肿瘤的白细胞去卷积的可行性，并且因此确定所设计和验证的白细胞标记矩阵。定义的LM22，该标记矩阵由547个基因组成，所述547个基因准确地区分22个成熟人类造血细胞群和活化状态，包括7种T细胞类型、原初和记忆B细胞、浆细胞、NK细胞和骨髓亚群(图16、图4、方法)。细胞亚群可以基于造血层次结构中的共同谱系被进一步分为11个主要的白细胞类型(图16)。使用CIBERSORT，首先针对分析可变纯化白细胞亚群的其它数据集验证LM22，确定整合基因的细胞类型特异性，并且将93％的数据集正确分类为不同的细胞表型(图1b、图5a、图17)。作为进一步的验证，CIBERSORT产生与从五个人类扁桃体流式分选的高纯度的T和B细胞一致的结果(图5b)。

为了针对敏感性和特异性评估CIBERSORT经验P值度量，应用LM22对3,061个人类转录组进行去卷积¹⁰。采用基于蒙特卡罗的随机基因采样产生“无效”混合物(方法)，然后使用CIBERSORT通过作为“阳性”和“阴性”样品的已知造血细胞和非造血细胞来源计分表达图谱。对于可变纯化的原代组织试样(n＝总计1,801，阳性＝1，425，阴性＝376)和转化的细胞系(n＝总计1,260，阳性＝118，阴性＝1,142)分别考虑了这种区别。在这两组中，在经验P值阈值为～0.01处，CIBERSORT达到≥94％的敏感性和≥95％的特异性，用于区分阳性样品与阴性样品(AUC≥0.98；图1c)。值得注意的是，使用独立衍生的白细胞标记矩阵⁴代替LM22的结果类似(数据未显示)，支持该方法的一般性。

接下来，在具有明确定义的组成的理想化混合物上对CIBERSORT进行基准测试，其中所述混合物的大部分可以通过纯化的细胞类型的非常不同的(不相关)参考图谱进行说明，并且来自未知细胞内容物和噪声的贡献为最小^4,11,12。将CIBERSORT结果与六种GEP去卷积方法进行比较——四种GEP去卷积方法将参考表达图谱作为输入：PERT⁶、二次规划(QP)⁵、线性最小二乘回归(LLSR)⁴和鲁棒线性回归(RLR)；以及两种GEP去卷积方法将给定细胞类型中唯一表达的基因(即，标志物基因)作为输入：MMAD⁷和DSA⁸(图18)。据我们所知，应该注意，在这项工作中，首先将RLR应用于GEP去卷积。CIBERSORT与其它方法一样，在理想化混合物上获得了准确的结果，无论是针对血癌细胞系⁴和神经细胞类型¹²(图6a、b)的体外混合物还是针对全血¹¹(图1d)(图19)。因此，我们想知道CIBERSORT是否可用于利用LM22进行免疫监测，以及在接受非霍奇金淋巴瘤的利妥昔单抗单药治疗之前和之后立即分析患者的外周血。利用LM22对治疗后外周血单核细胞(PBMC)进行CIBERSORT分析显示四个患者中利妥昔单抗靶向的B细胞的选择性消耗(图6c)，表明免疫治疗期间免疫监测的实用性，特别是当不能立即处理试样时。

然后在具有未知内容物的混合物上将CIBERSORT的技术效果与其它方法进行比较，采用由四个混合的血癌细胞系组成的常用基准数据集⁴，每个混合的血癌细胞系具有高度不同的参考图谱(方法)。通过将这些混合物与结肠癌细胞系结合，用不同的白细胞浸润(1％至100％)模拟人类实体肿瘤。还测试了非对数线性噪声的增加，以模拟样品处理、随机基因表达变化和平台与平台的差异。虽然这种模拟框架不能完全反映实体肿瘤的生物混杂，但是它提供了一种合理的模型，其中可以对免疫内容物和添加的噪声进行微调和测试。此外，每种方法的效果在更复杂的混合物中不太可能有显著改善。

几乎所有的方法降低了作为信号损失的函数的效果(图7、图19)，显示出准确性显著降低50％免疫内容物以下。只有CIBERSORT在几乎整个肿瘤内容物(高达～95％)和噪音(高达～70％)范围(图2a)内准确地解出已知的混合物比例，在与其初始组成相差很大的混合物上表现出强烈的效果(Pearson's R低至～0.05；图2b)。此外，由于许多实体肿瘤类型由少于50％的浸润性免疫细胞组成¹³，所以CIBERSORT优于其它方法的参数范围与块肿瘤分析高度相关。

为了评估用于块组织中的稀有细胞类型的每种方法的检测限，创建了相同细胞系的第二合成数据集，但是其中将一个血液细胞系掺入到其它三个血液亚群的随机混合物中。CIBERSORT在含有高达50％肿瘤内容物的混合物中检测到低至0.5％的细胞分数，并且在具有超过50％肿瘤内容物的混合物中检测到低至1％的细胞分数(图2c)。虽然所有方法都高估了具有较高肿瘤内容物的spike-in，但对CIBERSORT而言，效果最不明显(图8)。在单独的分析中，高估是较不常见的，其中LM22中的每个细胞类型被掺入到在未知内容物范围内剩余的21个免疫亚群的随机组合中(图9)。总体来说，大致在一些情况下，CIBERSORT始终优于其它方法(图2d、图7-9和图19)。

CIBERSORT的一个方面是标记矩阵基因的环境相关分析，称为特征选择。此过程增加了CIBERSORT对噪声的容限¹⁴；然而，如果特征选择受到混合物中细胞亚群的标识的影响，则不存在一种细胞类型会影响密切相关的细胞类型的计数。为了测试这一点，使用来自LM22的两个不相关参考图谱(肥大细胞和CD8 T细胞)的样品尖峰系列来确定所选择的特征(即，基因)是否与定义的混合物组成相关(图10a)。出乎意料的是，没有发现这种关系(图10b、c)，表明在标记矩阵中存在但在混合物中不存在的细胞类型的标志基因不一定被丢弃；相反，它们可能通过限制回归用于CIBERSORT(例如，选择CD8A，而无论CD8 T细胞是否存在，可能通知其不存在；方法)。

因此，CIBERSORT对细胞类型的鉴别能力用高度相关的参考图谱(例如，原初与记忆B细胞)进行调查。这类图谱呈现多重共线性，它是一种不能可靠地确定类似细胞类型的比例的现象¹⁵。以前的方法通过要求具有细胞类型特异性表达的标志基因^7,8,12或者通过使用高度不同的基因表达标记^4,5来避免这个问题，因此限制了去卷积的可能的细胞谱。通过对10种日益相关的模拟细胞类型的合成混合物进行去卷积将CIBERSORT与其它方法进行比较。发现CIBERSORT最准确地进行，无论是否存在未知内容物或增加的噪声(图11)，证明了不同组织中的许多细胞亚群的深度去卷积³的潜力。

测试对模拟混合物、体外和体内实体组织(包括块肿瘤)的混合物的基准测试的CIBERSORT。LM22用于所有后续分析，并且因此将我们的比较评估限于基于表达的方法(即RLR、PERT、QP、LLSR)。首先，测试在掺入到乳腺组织中的全血的定义的混合物中白细胞去卷积的稳定性。通过与免疫相关的基因表达的比较验证相对spike-in比例(图2e，左图)之后，发现CIBERSORT与其它方法显著更一致(P<0.02；n＝9个具有<100％血液的样品；配对双侧威氏符号秩次检验；图2e，右图；图19)。另外，通过独立研究，由CIBERSORT计数的白细胞分数在癌症类型中比在癌症中更相似(图2f)。这些结果表明，未知内容物和实验室特定的因素只会轻微影响CIBERSORT效果。

接下来，我们想知道，CIBERSORT是否可以应用于在临床实验室中常规产生进行长期存储的福尔马林固定、石蜡包埋(FFPE)的样品。使用由匹配的FFPE和冷冻的DLBCL肿瘤(n＝18)组成的公开可用的GEP，发现由CIBERSORT估计的白细胞分数在所有肿瘤中显著相关(图2g)，并且比其它方法更协调(图19)。事实上，CIBERSORT结果在18个个体肿瘤中的16个(P<0.05；图12a)和在特异性细胞亚群(图12b)中也显著相关，这意味着对FFPE试样中细胞组成的大规模分析的潜在实用性。

为了针对实体组织中白细胞含量的基础真实性测量评估CIBERSORT，使用流式细胞术计数两种组织类型中的免疫亚群：在早期非小细胞肺癌(NSCLCs)手术切除期间获得的肺试样和来自滤泡性淋巴瘤(FL)患者的分解的淋巴结活检物。无论是应用于(i)正常肺组织的独立微阵列研究还是应用于(ii)来自14个配对块FL样品的GEP，结果与相应的流式细胞术测量显著相关(分别为P≤0.005，分别为图2h和2i)并且在这两种组织类型中，比以前的方法更密切地反映实验值(图19)。

为了评估个体细胞亚群的性能，使用流式细胞术计数LM22的表型谱的近50％(22个细胞亚群中的10个)，并且评估CIBERSORT在初级人类样品(包括血液和肿瘤活检物)中进行深度去卷积的能力。来自27名成年受试者的血液样品被分析为PBMC中LM22中捕获的10种不同的细胞表型(20名受试者被分析为9种细胞类型，并且7名受试者被分为FOXP3+Treg；参见流式细胞术方法部分)。在这10种表型中，一半在LM22中高度共线(例如，原初和记忆B细胞；图4c)，一半在PBMC中具有低频率(<5％)(原初和记忆B细胞、活化的记忆CD4 T细胞，γδT细胞和Treg)。尽管所分析的表型的差异，但是CIBERSORT与流式细胞术之间90％的不同白细胞亚群显著相关(P≤0.02；图3a)，其中5个亚群中的4个的中值分数低于5％(例如，Treg；图3b)。只有γδT细胞不显著(尽管正相关；R＝0.29)，可能是由于流式细胞术的技术问题或次优参考图谱的使用(图5a)。另外，通过流式细胞术和微阵列检查和分析来自14名FL患者的肿瘤活检物中的CD4/CD8 T细胞和恶性B细胞的水平(即，图2i)。由CIBERSORT估计的所有三个亚群的比例与流式细胞术显著相关(P≤0.02；图3c)。

当应用于相同的数据集时，其它基于表达的方法通常不太准确，并且对于>50％的分析的表型，没有产生出显著相关性(图3d、图13-14、图19)。此外，可能由于多重共线性，当由其它方法计数时，某些亚群易于完成“脱离”(例如，由PBMC中的QP和LLSR估计的在PBMC中的原初CD4 T细胞水平；图3d、图13-14)。此外，在FL肿瘤活检物的情况下，当一起考虑所有三种表型，而不是单个亚群(除了通过RLR推断的CD8 T细胞之外；图14)时，只能通过其它方法实现显著相关性。方法中讨论了这些效果差异的潜在原因。总而言之，这些结果进一步证明了CIBERSORT对于具有复杂组成的组织中的细胞亚群的深度去卷积和计数的优点。

实验方法

针对实例1使用以下方法。

患者样品

本研究中的所有患者样品均由斯坦福机构审查委员会根据赫尔辛基宣言进行审查和批准。对于图5b，在知情同意以供研究使用的情况下，在斯坦福大学的Lucile Packard儿童医院，收集扁桃体，作为常规扁桃体切除手术的一部分，并且然后在细胞悬浮液冷冻保存之前对其进行机械分解。对于图6c中所示的“患者1”，在没有可测量的循环疾病的受试者中，在对于结外边缘区淋巴瘤(EMZL)每周4次剂量的输注利妥昔单抗(375mg m-2)单一疗法之前和立即之后从试样中分离外周血单核细胞(PBMC)。对于图6c中的患者2和3，分别从用于治疗DLBCL的4周期和6周期RCHOP免疫化学治疗后立即采集的试样中分离PBMC。对于图6c中的患者4，在用于治疗FL的4周期的利妥昔单抗之后从受试者中分离PBMC；所述受试者在诊断时具有～2％循环淋巴瘤细胞，所述～2％循环淋巴瘤细胞在4次利妥昔单抗输注后，通过CIBERSORT和流式细胞术检测不到。对于图2h，在早期非小细胞肺肿瘤的手术切除期间获得相邻的正常肺组织试样。对于图2i和图3c，从参加III期临床试验(NCT00017290¹⁷)的未经处理的FL患者获得手术组织活检物。对于图3a和图3b，分别从20名和7名成年受试者获得PBMC。前者包括接受流感免疫接种(NCT01827462)的不同年龄的成年，后者由图6c中的“患者4”和6名健康受试者组成(参见流式细胞术方法部分)。

流式细胞术

以下详细说明了所有组，其中抗体克隆以方括号表示(所有试剂均获自BDBiosciences)。与图3a相关的组使用冻干试剂板(Lyoplates，BD Biosciences，San Diego，CA)构建，除了作为液体抗体加入的圆括号中的试剂之外。

对于图5b，将扁桃体衍生的细胞悬浮液解冻、洗涤、计数，并且随后用单克隆抗体(上表)染色，以标记B细胞(CD19+)和T细胞(CD5+)，而没有刺激。使用FACSAria II仪器(BDBiosciences)对每个群体进行分选，纯度达到>95％，用于随后的表达分析。

对于图2h，将新鲜的正常肺组织样品切成小块，并且通过胶原酶I(STEMCELLTechnologies)消化45分钟将其解离成单细胞悬浮液。解离的单细胞在染色缓冲液(具有2％热灭活的小牛血清的HBSS)中以1×107/mL悬浮。用10μg/μL大鼠IgG阻断10分钟后，用以上表格中显示的抗体将细胞染色至少10分钟。洗涤后，用1μg/mL DAPI将染色的细胞重新悬浮于染色缓冲液中，并且使用FACSAria II仪器(BD Biosciences)对以下群体计数：总的白细胞(CD45+)、单核细胞(CD14+)、CD8 T细胞(CD8+)、CD4 T细胞(CD4+)、NK细胞(CD56+)以及B细胞(CD19+)。

对于图2i和3c(以及图14)，诊断的FL肿瘤细胞悬浮液用单克隆抗体(上表)染色以标记CD4 T细胞(CD4+)、CD8 T细胞(CD8+)和B细胞(CD20+)。在FACSCalibur或LSR II 3激光细胞仪(BD Biosciences)上检测染色的细胞。

对于图3a(以及图13a)，使用冻干试剂板(Lyoplates，BD Biosciences)对来自健康成年的PBMC进行流式细胞术表型分析。所述板被构建有以上表格中所示的染色混合物以计数以下细胞亚群：原初B细胞(CD3-CD19+CD20+CD24-CD38+)、记忆B细胞(CD3-CD19+CD20+CD24+CD38-)、CD8 T细胞(CD3+CD8+)、原初CD4 T细胞(CD3+CD4+CD45RA+CD27+)、记忆CD4 T细胞(CD3+CD4+CD45RA-)、γδT细胞(TCRgd+)、NK细胞(CXCR3+CD16+CD56+)以及单核细胞(经由前向和侧向散射特性通过大小识别)。根据公布的Lyoplates方案在LSRII流式细胞仪(BD Biosciences)¹上进行染色。将在以上表格的括号中的试剂作为液体抗体添加，并且它们不是Lyoplate本身的一部分。

基因表达的特征变化伴随着从原初(CDR45RA+CD45RO-)到记忆(CD45RO+CDR45RA-)T细胞的表型转变。两个这样的基因分布在活化的T细胞组(上表)中：HLA-DR、主要在记忆CD4 T细胞上表达的典型T细胞活化标志物(与原初亚群相反)和CD38，主要在原初CD4 T细胞上表达的另一种已知的活化标志物^3,4。尽管活化T细胞组不包括CD45RA或CD45RO，但先前的发现通过分析来自独立研究的数据(数据未显示)来确认，其中使用包括αCD3、αCD4、αCD45RA、αHLA-DR和αCD38的组对PBMC进行分析。在6名健康受试者的CD3+CD4+细胞中，证实了总HLA-DR+细胞与HLA-DR+CD45RA-(活化记忆)细胞之间的强相关性(R＝0.97，P＝0.001；RMSE＝0.7％)。相反，总HLA-DR-CD38+计数与HLA-DR-CD38+CD45RA+(原初)细胞显著相关(R＝0.87；P＝0.001；RMSE＝11.9％)，表明CD3+CD4+HLA-DR+表型表示健康成年PBMC中的活化记忆CD4 T细胞的合理替代。因此，为了比较流式细胞术数据与本研究中的活化和静息的记忆CD4亚群(来自LM22)，使用CD3+CD4+HLA-DR+细胞的计数来估计活化的记忆CD4 T细胞的水平，并且从总的记忆CD4 T细胞(CD3+CD4+CD45RA-)中减去这些值来估计静息的记忆CD4 T细胞。

最后，对于图3b(和图13b)中的调节性T细胞(Treg)的计数，通过静脉穿刺到K2EDTA真空管(BD Biosciences)中从6名健康成年男性获得外周血并且立即处理。利用使用Ficoll-Paque Plus(GE Healthcare)分离的PBS和单核细胞(PBMC)将全血稀释两倍。用PBS将PBMC洗涤两次，计数，并且用αCD3和αCD4(参见上表)对每个个体的1×106个细胞，以及来自从图6c中的患者4获得的存活地保存的PBMC的1×106个细胞进行染色。将细胞在PBS中洗涤，再悬浮于Fix/Perm缓冲液(eBiosciences)中，并且在冰上培养20分钟。将细胞在Perm/Wash缓冲液(eBiosciences)中洗涤两次，并且用αFOXP3染色。将细胞在Perm/Wash缓冲液中洗涤一次，并且使用LSRFortessa流式细胞仪(BD Biosciences)收集数据。Treg被定义为CD3+CD4+FOXP3+非双联体细胞，并且计数为所有完整的PBMC的一部分。

基因表达图谱分析

使用AllPrep DNA/RNA Mini试剂盒(Qiagen)从扁桃体试样(图5b)和PBMC(图6c中的患者1到3)中提取核酸。对于FL试样(图2i、图3c)，使用TRIzol和RNeasy Midi试剂盒(Qiagen，Valencia，CA)制备和存储总RNA和基因组DNA。在对这些患者的亚群进行品质控制评估后，证实80％的归档FL试样具有足够的核酸。在微阵列杂交之前，将来自FL样品的总RNA线性扩增(3'IVT Express，Affymetrix)。对于所有以上样品，评估总细胞RNA(至少300ng)的产量(NanoDrop 2000，Thermo Scientific)和品质(2100生物分析仪，Agilent)，并且根据制造商的方案将cRNA杂交到HGU133 Plus 2.0微阵列(Affymetrix)。

在本研究中分析了两个附加群组的PBMC(图3a、b)。对于第一个群组(n＝20名受试者；图3a)，在1mL TRIzol(Invitrogen)中收集PBMC(约1×106个活细胞/mL)，并且在-80℃存储直到使用。根据TRIzol方案(Invitrogen)分离总RNA。使用Thermo ScientificNanoDrop 1000微量分光光度计(在260nm处的吸光度以及260/280和260/230的比率)评估总RNA产量。使用生物分析仪NANO Lab-on-a-Chip仪器(Agilent)评估RNA完整性。使用Illumina RNA扩增试剂盒(Applied Biosystems/Ambion)由200到250ng总RNA制备生物素化的扩增反义互补RNA(cRNA)靶标，并且将750ng标记的cRNA与Human HT-12V4微珠芯片阵列(Illumina)杂交过夜。然后按照制造商的方案，将阵列洗涤、阻断、染色并且在IlluminaBeadStation 500上扫描。使用BeadStudio/GenomeStudio软件版本1.9.0(Illumina)从所述扫描中产生信号强度值。对于第二群组(图3b)，从6名健康男性成年中分离并制备PBMC(1.4×106至4.0×106个细胞/mL)，如流式细胞术方法部分所述，并且然后在-80℃下冷冻直至使用。使用RNeasy Mini试剂盒(Qiagen)从这6名受试者中分离总细胞RNA(≥300g)以及从患者4(图6c)中分离存活地保存的PMBC，并且评估产量(NanoDrop 2000，ThermoScientific)和品质(2100生物分析仪，Agilent)。将总RNA线性扩增(3'IVT Express，Affymetrix)，根据制造商的方案，将cRNA与HGU133A微阵列(Affymetrix)杂交。

CIBERSORT：方法

提出了一种通过估计RNA转录体的相对样品进行细胞类型识别(CIBERSORT)的新方法。这种策略基于nu-支持向量回归(ν-SVR)⁹的新颖应用，是一种在基准测试实验中优于其它方法的机器学习方法(图15，图19)。SVR是支持向量机(SVM)的一个实例，它是一类用于二进制分类问题的优化方法，其中发现最大限度地分离两个类别的超平面。支持向量是确定超平面边界的输入数据的子集。与标准SVM不同，SVR将超平面拟合到输入数据点面，从而执行回归(图21)。ε(称为“ε-管”)内的所有数据点被忽略(图21中的空心圆圈，左图)，而位于ε-管之外的所有数据点根据线性ε不敏感损失函数进行评估。这些界外值数据点(称为“支持向量”(图21中的实心圆圈))定义了ε-管的边界，并且足以完全指定线性回归函数。以这种方式，支持向量可以为过度拟合最小化(一种类型特征选择)的回归提供稀疏解。值得注意的是，支持向量表示在这项工作中从标记矩阵中选择的基因。

图21.利用线性ν-SVR分析的简单的二维数据集，其中针对两个ν值显示结果(注意，这两组显示相同的数据点)。如方法中所详述的，线性SVR识别在恒定距离ε内尽可能地拟合许多数据点(空心圆圈)(给定其目标函数¹⁰)的超平面(在该二维实例中为线)。位于该“ε-管”之外的数据点被称为“支持向量”(红色圆圈)，并且根据它们与ε-管的距离通过线性松弛变量(ζ_i)来惩罚。重要的是，单独的支持向量足以完全指定线性函数，并且提供减少过度拟合的机会的回归的稀疏解。在ν-SVR中，ν参数确定支持向量的下限和训练误差的上限。因此，较高的ν值导致较小的ε-管和更多数量的支持向量(右图)。对于CIBERSORT，支持向量表示从用于分析给定混合物样品的标记矩阵中选择的基因，并且回归超平面的方向确定混合物中估计的细胞类型比例。

给定一组定义好的约束，SVR的原始目标是使损失函数和惩罚函数最小化。前者测量与拟合数据相关的误差，而后者确定模型复杂性。更具体地说，SVR解决了最小化以下两个量的优化问题：(1)线性ε不敏感损失函数，其在噪声样品中优于其它常见损失函数(例如，LLSR中使用的平方误差)，以及(2)L₂范数惩罚函数(与脊回归中使用的相同)，其惩罚模型复杂性，同时使分配给高度相关的预测变量(例如，紧密相关的细胞类型)的权重的方差最小化，从而抵消多重共线性(例如，图11a-11d、图3d)。

已经描述了两种主要类型的SVR，即ε-SVR和ν-SVR，然而ν-SVR被应用于CIBERSORT，因为ν参数适宜地控制训练误差ε的上限和支持向量的稀疏性⁹。较高的ν值产生较窄的ε-管，并且因此产生更多的支持向量(图21)。对于CIBERSORT，ν-SVR与线性核一起应用来求解f，并且保存从三个ν值＝{0.25,0.5,0.75}获得的最佳结果，其中最好被定义为m与去卷积结果之间的最小均方根误差RMSEmin，f x B。CIBERSORT的当前实现使用R包中的“svm”函数(‘el071’)执行ν-SVR。利用以下R命令提取回归系数：

coef<-t(model$coefs)％*％model$SV

随后将负SVR回归系数设置为零(如对于LLSR所做的那样)，并且将剩余的回归系数归一化总计为1，得到细胞类型分数的最终向量f(特别地，f表示来自m中的B的每个细胞类型的相对、而不是绝对的分数)。为了减少运行时间并且促进更好的总体效果，在运行CIBERSORT之前将B和m均归一化为零均值和单位方差。如先前针对其它线性去卷积方法所建议的，CIBERSORT对非对数线性空间中的表达值效果最佳¹⁹。

综合来说，如由CIBERSORT实现的线性ν-SVR独特地解决了基因表达去卷积的关键突出问题，包括(1)由于线性损失函数和来自标记矩阵的基因的特征选择，对噪声和过度拟合的鲁棒性，以及(2)通过利用L₂范数惩罚函数容对多重共线性的耐受性。此外，CIBERSORT不需要每个基因的细胞类型特异性表达模式，允许构建具有比其它方法更多的细胞类型和表型状态的标记矩阵(图22a-22e)。

图22a-22e.(图22a)标记矩阵1(SMI)的热图，其仅包含细胞类型特异性标志基因。(图22b)标记矩阵2(SM2)的热图，其仅包含非细胞类型特异性标志基因。(图22c)对使用SM1创建的十种混合物的CIBERSORT和DSA去卷积效果。(图22d、22e)对使用SM2创建的十种混合物的去卷积效果。(图22d)CIBERSORT和RLR，(e)QP、LLSR和PERT。关于细节，参见在线方法。通过线性回归(虚线)和皮尔逊相关(R)确定已知的与观察到的细胞类型比例之间的统计学一致性。

P值估计。与先前的方法相比，CIBERSORT还使用蒙特卡罗采样产生去卷积的经验P值。该方法允许CIBERSORT测试在给定GEP混合物m中不存在标记矩阵(例如，LM22)中的细胞类型的零假设。为此，使用m与f×B之间计算的皮尔逊积矩相关R作为检验统计量，但是也可以使用其它距离度量。为了导出经验P值，CIBERSORT首先导出零分布R*。因为与整个转录组相比，标记矩阵B仅含有一小部分基因g，所以从m的父级GEP随机抽取g表达值以产生随机混合物m*_i，使得|m|＝|m*_i|。然后对m*_i运行CIBERSORT以产生估计的细胞分数的向量f*_i。CIBERSORT确定了随机混合物m*_i与重构混合物f*_i×B之间的相关系数R*_i。重复该过程I次(在这项工作中＝500)，以产生R*。

CIBERSORT运行时间

使用同时处理三个ν值(＝0.25、0.5和0.75；见上文)的3个线程，以及具有8GB RAM的2.3GHz Intel Core i7 CPU，在计算出经验P值后利用LM22以每混合样品大约1.7秒的速度对CIBERSORT运行时间进行计时。后者取决于所选择的置换次数，对于100x，将需要-170秒或额外的2.75分钟。

CIBERSORT实施

CIBERSORT是用Java开发的，并且具有简单的命令行界面R用于处理表示不同细胞类型的混合物的基因表达数据，以及对定义每种细胞类型的标记表达图谱的基因进行计数的标记基因文件。给定这些数据，该工具生成混合物中存在的每种细胞类型的分数表示，并且将其返回到网站以热图表和堆栈条形图表示呈现。当提供有参考细胞群体的基因表达图谱和这些群体的类别比较表时，该应用还可以产生自定义标记基因文件。

CIBERSORT的后端网站是用PHP构建的。交互式用户界面由jQuery JavaScript库和各种开放源代码库(包括phpMailer、idiorm、blueimp jQuery-File-Upload、DataTables、phpExcel和mPDF)提供支持，其中网站的图形用户界面由Twitter Bootstrap2.3.2提供支持。该站点在虚拟机上的Apache服务器上运行，并且将用户和作业数据存储在MySQL数据库中。值得注意的是，用户可以完全控制其数据，并且可以随意删除它们。

GEP去卷积方法

分别使用统计(lm函数)、二次规划优化函数、MASS(rim函数，100次最大迭代)和DSA⁸包在R中运行LLSR、QP、RLR和DSA。将来自LLSR的负系数设置为零，以接近Abbas等⁴使用的方法，并且QP以非负性运行，并总计为Gong等^5,16使用的1个约束。MMAD和PERT在Matlab中使用作者提供的代码^6,7(PERT使用Matlab转换器从Octave转换，oct2ml)运行。值得注意的是，使用与用于其它基于表达的方法相同的标记基因矩阵来评估PERT。仅使用标志基因评估MMAD，因为当与基于表达的去卷积相比，该方法产生优异的结果(图3c与图3a，在Liebner等⁷中)。然而，对于LM22中的所有细胞类型，无法确定细胞特异性标志基因，并且因此，MMAD和DSA不在应用LM22的数据集上运行。所有方法都运行在非对数线性空间中。

微阵列数据集和预处理

在图1b(和图17)中在Illumina或Agilent平台上分析的样品作为归一化矩阵从公共存储库(NCBI、EBI或文献；在图17中参考的)下载，并且使用可从NCBI基因表达综合数据库(GEO)获得的芯片组定义文件将探针转化为HUGO基因符号。来自图1c的人类转录组数据作为RMA归一化阵列(E-MTAB-62，EBI ArrayExpress)下载。所有其它Affymetrix阵列(包括在图1b中分析的那些以及在这项工作中产生的那些)都作为CEL文件获得，MAS5使用Bioconductor中的affy包进行归一化，使用定制的芯片定义文件(Brainarray版本16；brainarry(dot)mbni(dot)med(dot)umich(dot)edu/Brainarray/)映射到NCBI Entrez基因标识符，并且转化为HUGO基因符号。使用利用阴性对照(neqc功能)校正的normexp背景利用Limma v3.20.8(Bioconductor)对图3a中分析的Illumina微珠芯片阵列进行归一化。对于非Affymetrix平台，映射到>1基因的探针在基因水平上根据所有样品中具有最高平均表达的探针而被拆分。所有微阵列研究在分析前分位点归一化。对于图2h中的正常肺组织，分析GEO数据集、GSE7670和GSE10072，并且对于图2g中的DLBCL肿瘤的配对冷冻和FFPE样品，分析GSE18377。

LM22标记矩阵

获得在HGU133A平台上分布的22个白细胞亚群的公共域的GEP数据(图16)。如上所述对探针集进行预处理。使用双侧不等方差t检验来识别每个群体与所有其它群体之间的显著差异表达的基因。q值<0.3(错误发现率²¹)的基因被认为是重要的。

对于每个白细胞亚群，与其它细胞亚群相比，通过减少倍数变化来排序重要基因，并且将来自每个细胞亚群的顶部G标志基因组合成标记矩阵B^G。对所有亚群G迭代50到200次，并且保留具有最低条件数(条件数＝11.4；G＝102；n＝547个不同基因)的标记矩阵(图16a-16k)。值得注意的是，由于相关细胞类型的一致性和给定细胞类型的活化状态，该标记矩阵的条件数高于其它标记矩阵的条件数(下文)。

为了防止在非造血细胞类型上表达的基因混淆去卷积结果，使用了两种基因过滤策略。首先，使用基因富集分布调节器(Gene Enrichment Profiler)，在HGU133A(xavierlab2(dot)mgh(dot)harvard(dot)edu/EnrichmentProfiler/)²²上分布的不同细胞和组织的在线纲要来识别非造血细胞或组织中富集表达的基因。基因富集分布调节器基于来自该基因与其它样品的所有配对比较的线性模型系数的总和，计算给定基因在给定细胞/组织类型中的富集得分(ES)。对于ES>0的每种基因和细胞/组织类型，确定基因富集分布调节器数据库中非造血细胞/组织样品的分数，并且从非造血分数>0.05的标记矩阵中排除基因。作为第二过滤步骤，省略了在癌细胞系百科全书(CCLE)中描绘的所有非造血癌细胞系中来自进一步分析的、平均log₂表达水平≥7的所有基因(从由Broad Institute下载的CCLE_Expression_Entrez_2012-09-29(dot)txt中提取了预归一化的基因表达数据)。该标记矩阵称为“LM22”。

为了验证用于区分LM22中的每个白细胞亚群的基因标记，将CIBERSORT应用于各种外部数据集，每个外部数据集包含同样存在于标记矩阵中的一个纯化群体。测试来自三个微阵列平台的GEP，Affymetrix HGU133A和HGU133 Plus 2.0以及Illumina Human-6v2表达微珠芯片。如针对标记矩阵GEP所描述的一样，对Affymetrix平台进行归一化和处理。微珠芯片数据集作为处理的归一化矩阵从ArrayExpress(E-TABM-633)下载，对于映射到多个探针的基因，进一步分析所有样品中与最高表达相关的探针。对于每个样品，将具有最高CIBERSORT推断的分数的群体与已知的细胞类型进行比较，以评估CIBERSORT准确性(图17)。

对于图1c所示的分析，将阵列分组成1,801个原始人类试样，其由包含在LM22中的至少1个成熟造血细胞亚群的1,425个“阳性”样品和包含不完全分化的非造血细胞试样、正常脑组织(其通常包含小神经胶质细胞，但通常不包含LM22中的细胞类型)以及造血干细胞和祖细胞(不在LM22中)的376个“阴性”样品组成。将阵列分别分组成1,260个转化细胞系，其被分为118个“阳性”造血细胞样品和1,142个“阴性”样品，后者由非造血细胞样品和K562红细胞样芽胞细胞系组成，这些细胞系来源于造血细胞，但与LM22中存在的亚群明显不同。从该分析中排除了注解不足的阵列。虽然在比较CIBERSORT与其它方法中没有应用显著性过滤，但是在图2f中对块肿瘤的去卷积施加了P值截止值(≤0.005；参见图1c)。

其它标记矩阵

除了LM22(上文)外，还为人类造血细胞系和神经群体的混合物设计了自定义特征矩阵，如图6a、b所示。在这两种情况下，从GEO下载先前归一化的系列矩阵数据集(GSE11103和GSE19380)，并且进行分位点归一化。随后使用与针对LM22(上文)描述的相同的条件数最小化算法构建标记矩阵，省略非造血细胞基因过滤和验证步骤。GSE11103和GSE19380的最终标记矩阵分别由584个探针组(条件号＝1.86)和280个探针组(条件数＝1.8)组成。为了将CIBERSORT效果与基于标志基因的方法(如图19所示)进行比较，通过选择与其它基因相比，在一种细胞类型中具有至少5倍以上表达的所有基因来定义来自每个标记矩阵的标志基因(如在参考文献7中)。

统计学分析

在大多数情况下，通过皮尔逊相关系数(R)和均方根误差(RMSE)来确定已知的与预测的细胞类型比例之间的一致性，从而分别测量线性拟合和估计偏差。重要的是，后者根据以百分数表示的细胞类型比例计算。使用双侧威氏符号秩次检验(根据需要配对或不配对)确定分组比较。P<0.05的所有结果被认为是重要的。利用R、GraphPad Prism v6.0d或自定义代码进行统计学分析。

具有添加的噪声的模拟肿瘤的分析

通过比较六种GEP去卷积方法对具有不同水平的未知内容物(即，肿瘤)和噪声的混合物的结果，针对所述六种GEP去卷积方法(RLR和五种其它方法^4-8)对CIBERSORT进行基准测试。为了便于公平比较，使用先前定义的四种血液细胞系(GSE11103)的体外混合物(n＝12)，其中每一种血液细胞系都是明显不同的并且容易去卷积的(图6a)。为了评估基于表达的方法，使用具有近600个有区别的基因的标记矩阵(上文所述并且在图6a中应用)，而对于基于标志物的去卷积，选择如上所述的标志基因(n＝500个基因)。为了模拟具有浸润性白细胞的肿瘤，我们将细胞系混合物与来自结肠癌细胞系(HCT116)的GEP的定义输入组合，所述定义输入以两个重复阵列(GSM269529和GSM269530；GSE10650)的平均值计算。GSE11003和GSE10650数据集均为MAS5，并且在分析之前分位点归一化。为了引入噪声，添加从以下分布2^N(0，f×σ)中随机抽取的值，其中f的范围为0到1(即，在图2a和图7a中的y轴)，以及σ为以log2空间(＝11.6)表示的初始混合物的全局标准偏差。由于GSE11103由四种不同的混合物组成，其中每种重复三次，因此对整个12个混合物集合测量每个算法的效果(R和RMSE；图7、图19)。此外，这以30个有规律的空间间隔针对肿瘤内容物(0％至<100％)和噪声(f，0至1)独立地迭代，从而一起分析900组混合物。

细胞类型特异性标志基因的分析。细胞类型特异性标志基因可能难以在紧密相关的细胞类型之间进行确定(如果不是不可能的话)。因此，测试标记矩阵中由>1个细胞类型表达的标志基因是否仍然可用于CIBERSORT，假设标记矩阵中的每个参考图谱保持唯一。创建代表相反极端的两个人造标记矩阵(每个含有10个基因和5个细胞类型)：一个仅包含细胞类型特异性基因(称为SMI；图22a)，而另一个不含任何细胞类型特异性基因(称为SM2；图22b)。值得注意的是，与源自实际表达数据的标记矩阵不同，SMI和SM2是完全定义的，并且因此非常适合于此分析。此外，SM2中的参考图谱是高度相互关联的，正如对于没有唯一标志基因的亚群可能预期的。根据均匀分布产生随机混合比例，并且将每个标记矩阵中的细胞类型组合以产生十种混合物。然后通过在其中一种混合物中随机重排基因并且将所得向量的5％与十种混合物中的每一种的95％组合而添加低水平噪声。使用SM1比较CIBERSORT和DSA(图22c)，并使用SM2比较CIBERSORT、RLR、QP、LLSR和PERT(图22d、22e)。虽然针对SM1而言CIBERSORT与DSA效果相同，但是针对SM2而言CIBERSORT比其它方法基本上更为准确，更接近于针对SM1而言的效果(图22d、22e)。该分析表明，CIBERSORT对细胞类型特异性标记矩阵基因的较软依赖，是深度去卷积的重要要求。

细胞亚群检测限的分析

进行两次计算机实验以评估不同去卷积算法的检测限。在第一个实验(图8)中，使用上述相同的细胞系GEPs比较CIBERSORT和RLR与5种其它GEP去卷积方法^4-8。使用Jurkat细胞(spike-in浓度为0.5％、1％、2.5％、5％、7.5％和10％)评估检测限，其参考GEP(GSE11103中三次重复的中值)被添加到其它三种血液细胞系的随机产生的背景混合物中。针对每个spike-in浓度产生五种混合物。在存在差异肿瘤内容物的情况下评估预测的Jurkat分数，这通过以10个偶数增量(从0％至90％)添加HCT116(上文所述)来模拟。值得注意的是，所描述的相同标志物/标记基因也用于模拟肿瘤(上文)。在第二个实验(图9a)中，将CIBERSORT与QP⁵、LLSR⁴、PERT⁶和RLR进行比较。来自白细胞标记矩阵的原初B细胞GEP被掺入到标记矩阵中剩余的21个白细胞亚群的四个随机背景混合物中。对于每个spike-in使用相同的背景混合物。还通过从原初B细胞参考转录组(来自用于构建LM22的样品的中值表达图谱，图16)中添加定义比例(0至90％)的随机置换的表达值来测试未知内容物的添加。然后对LM22中剩余的白细胞亚群中的每一个重复该分析(图9b)。

多重共线性的分析

针对多重共线性对具有未知组分(即，在标记矩阵中未被记录的混合物的部分)以及添加到B或m中的噪声的混合物的影响(即，标记矩阵中样品间相关性的程度)，将CIBERSORT与三种基于标记基因表达的去卷积方法(QP⁵、LLSR⁴和RLR进行比较(这项工作)。通过随机选择和置换来自41个基因的初始非随机组的P个基因表达值，由41个原初B细胞标记基因(衍生自GSE22886²³)产生随机标记矩阵，从而维持现实的基因表达分布(n＝10个群体)。基因的数量P用于控制标记矩阵内的多重共线性(较高的P＝较小的共线，反之亦然)，并且对于每个P，产生10个随机标记矩阵。通过从标记矩阵中随机分配群体创建模拟混合物。为了模拟未知内容物(图11a-c)，将三个浓度(5％、25％和50％)的10个另外的细胞群体随机组合并且添加到每种混合物中。通过从2^N(0，j)中随机采样(指数表示平均值为零和标准偏差为j的正态分布)，将非对数线性噪声附加地引入到模拟混合中(图11d)。在所测试的所有条件下，CIBERSORT优于其它三种方法。

去卷积一致性的分析

将LM22应用于公开可用的数据集(GSE29832)以测量对与乳腺组织混合的定义水平的血液的去卷积结果的稳定性。为了确认与乳腺组织混合的血液的报告的分数，将这些比例与LM22归一化免疫指数进行比较，所述LM22归一化免疫指数针对每个样品定义为LM22中所有基因的中值基因表达值(图16)除以转录组的中值表达水平，并且归一化为跨数据集的已知白细胞含量的范围(图2e，左图)。作为一致性度量，将每个样品的去卷积结果与具有最高免疫纯度的样品的结果进行比较(图2e，右图)。

参考文献

1.Hanahan,D.&Weinberg,R.A.Cell 144,646-674(2011).

2.Coussens,L.M.,Zitvogel,L.&Palucka,A.K.Science 339,286-291(2013).

3.Shen-Orr,S.S.&Gaujoux,R.Curr.Opin.Immunol.25,571-578(2013).

4.Abbas,A.R.,Wolslegel,K.,Seshasayee,D.,Modrusan,Z.&Clark,H.F.PLoSOne 4,e6098(2009).

5.Gong,T.et al.PLoS One 6,e27156(2011).

6.Qiao,W.et al.PLoS Comput.Biol.8,el002838(2012).

7.Liebner,D.A.,Huang,K.&Parvin,J.D.Bioinformatics(2013).

8.Zhong,Y.,Wan,Y.-W.,Pang,K.,Chow,L.&Liu,Z.BMC Bioinformatics 14,89(2013).

9.

B.,Smola,A.J.,Williamson,R.C.&Bartlett,P.L.NeuralComput.12,1207-1245(2000).

10.Lukk,M.et al.Nat.Biotechnol.28,322-324(2010).

11.Shen-Orr,S.S.et al.Nat.Methods 7,287-289(2010).

12.Kuhn,A.,Thu,D.,Waldvogel,H.J.,Faull,R.L.M.&Luthi-Carter,R.Nat.Methods 8,945-947(2011).

13.Yoshihara,K.et al.Nat.Commun.4,2612(2013).

14.Cherkassky,V.&Ma,Y.Neural Netw.17,113-126(2004).

15.Farrar,D.E.&Glauber,R.R.Rev.Econ.Stat.49,92-107(1967).

16.Gong,T.&Szustakowski,J.D.Bioinformatics 29,1083-1085(2013).

17.Levy,R.et al.J.Clin.Oncol.32,1797-1803(2014).

18.Lu,P.,Nakorchevskiy,A.&Marcotte,E.M.Proc.Natl.Acad.Sci.U.S.A.100,10370-10375(2003).

19.Zhong,Y.&Liu,Z.Nat.Methods 9,8-9(2012).

20.Drucker,H.,Burges,C.J.C.,Kaufman,L.,Smola,A.&Vapnik,V.SupportVector Regression Machines,Vol.9.(MIT Press,1997).

21.Storey,J.D.&Tibshirani,R.Proc.Natl.Acad.Sci.U.S.A.100,9440-9445(2003).

22.Benita,Y.et al.Blood 115,5376-5384(2010).

23.Abbas,A.R.et al.Genes Immun.6,319-331(2005).

实例2：使用CIBERSORT在25种人类癌症中推测的白细胞频率和预后关联

材料和方法

针对实例2和3使用以下材料和方法。

基因组图谱的临床结果预测(PRECOG)组合和品质控制。为了识别具有相应患者结果数据的癌症基因表达数据集，针对术语存活、预后、预后的或结果查询NCBI基因表达综合数据库(GEO)、EBI ArrayExpress、NCI caArray和斯坦福微阵列数据库。实施了Perl脚本来下载已处理的原始数据以及相关的注释。对于NCBI中的数据，从SOFT格式文件确定阵列平台，并且从GEO中检索相应的注释文件。通过这些，基于SOFT注释文件的内部标题提取ProbeID、Genbank登录号、HUGO基因符号和基因描述。如果该自动化过程失败，则手动指定所需字段。对于较老的平台，例如cDNA微阵列，其中注释最近没有更新，通过NCBI Entrez基因标识符经由Genbank或Refseq登录号将探针序列重新映射到HUGO基因符号。在没有可用的登录号，但是具有探针的DNA序列的情况下，使用BLAT进行映射，以将探针与Refseq参考进行比较，并且寻找独特的最高得分命中。

编写脚本以从GEO SOFT格式文件中提取样品注释信息并且将其解析成表格。由于注释字段的内容在语义上没有实现，所以样品数据可以包含在各种字段中，包括样品_标题、样品_特征、样品_描述和样品_来源。此外，并没有为每个样品指定所有字段。为了将此信息解析成表格格式，通过搜索样品中的公共子字符串来估计正确的变量名称(列标题)。在一些情况下，数据集显然具有存活信息，但是没有存放基因组数据。在这类情况下，首先在相应文献的补充信息中搜索遗漏的信息。如果不能如此，联系相应的第一作者，其中大约一半提供了所请求的数据。

进一步检查和手动绘制临床注释的所有表格。该过程包括通过将Kaplan-Meier图和时间尺度与相应原文出版物中的那些，以及研究中预后基因的一致性进行直接比较，对所选研究中的结果进行验证。另外，通过将注释的性别与微阵列归一化后RPS4Y1与XIST(男性：女性)表达水平的比值进行比较，估计由于技术问题或策展过程引起的错误，如下详述。此外，使用针对Affymetrix数据的MD5校验并且通过表达向量的互相关分析来识别存在于不止一个数据集中的相同样品，因此相应地消除了冗余样品。

应用以下基因表达归一化策略，以便统一PRECOG中不同微阵列平台的数据。对于Affymetrix基因芯片数据，尽可能获得原始CEL文件，并且使用MAS5算法(R 2.15.1中的Bioconductor v.1.8的affy package v.1.26)，使用自定义CDF(芯片定义文件)进行归一化以便探针集汇总，这将阵列寡核苷酸更新并且映射到Entrez基因标识符(brainarray(dot)mbni(dot)med(dot)umich(dot)edu/Brainarray/)。每个数据集，无论平台如何，分别进行分位点归一化。此外，如果每个基因没有在对数空间中则对其进行log2转换，并且然后在给定数据集中的样品之间对其进行单位均值/方差标准化。已经提出了可替代的微阵列归一化方法(例如，RMA、gcRMA、fRMA、SCAN-UPC)，对于存活率分析，在比较如上所述归一化的Affymetrix数据与可替代的归一化策略时没有观察到显著的益处。TCGA RNA-seq和临床数据使用TCGA汇编器从TCGA数据协调中心下载。基因水平的RNA-seq数据使用TCGA汇编器的ProcessRNASeqData函数进行预处理。通过TCGA提供的患者条形码对RNA-seq和临床数据进行匹配。

对于每项研究，使用R存活率包(v.2.37)的coxph函数经由Cox比例风险回归来评估阵列平台上的每个探针与存活率结果的关联。针对每个阵列探针，获得Cox系数、具有95％置信区间的风险比、P值和z得分。对于没有利用产生独特的每个基因表达值的CustomCDF处理的数据集，通过对匹配到相同HUGO基因符号的探针的z得分进行平均将探针的存活率z得分收缩到基因水平。使用

的加权meta-z检验，在每个恶性肿瘤的所有数据集中总结了每个基因的z得分，其中权重设置为样品大小的平方根。为了识别具有癌症组预后意义的基因，并且避免由于具有不同样品大小的癌症引起的偏差，使用Stouffer方法(未加权)将加权的meta-z得分进一步合并成每个基因的单个全局meta-z得分。

PRECOG中z统计量的验证。使用肺腺癌作为检验病例，评估加权meta-z得分度量与标准z得分之间的关系，其中后者源自由PRECOG中肺腺癌研究的GEP组成的合并表达矩阵。为此，选择具有至少40个I级样品的数据集。为了减轻批次效应，每个数据集中的每个基因都被标准化，使得其在I级样品中具有单位均值和方差。基于TNM(肿瘤-节点-转移)信息，手动审查样品注释，以确保分级符合美国癌症联合委员会(AJCC)第6版(2002年)。许多数据集先于AJCC的第7版，并且不包含用于注释到该标准的必要细节。这些改进和标准化允许从包括不同阵列平台的不同数据集的样品和跨群组的肿瘤分期的不同分布合并。总共比较n＝1,106名患者的肺腺癌GEP，并且发现加权的meta-z得分与合并的z得分显著相关(Spearman's R＝0.9，P<2.2×10^-16)。当比较5项AML研究的纲要的meta-z在和合并的z统计量时，观察到类似的结果，从而验证了meta-z统计量的使用。值得注意的是，尽管在计算交叉研究z得分之前应用批量校正程序来合并表达数据集，但是这些步骤对于meta-z度量是不必要的，因为来自个体研究的z-得分被直接整合。这表明meta-z方法有效地克服了数据集之间的批次差异。

使用Combat(Johnson，W.E.，Li，C.&Rabinovic，A.使用经验贝叶斯方法调节微阵列表达数据中的批次效应(Adjusting batch effects in microarray expression datausing empirical Bayes methods).Biostatistics 8,118-127(2007))进一步评估各个数据集中批次效应的影响。在四项AML研究中应用于微阵列处理日期，观察到对预后z得分只有适度影响，因为批次校正前后的数据均高度相关(R≥0.92，P<2.2x 10^-16)。为了检验由不同研究点分析的样品的批次校正是否会提高数据质量，将来自NCI所长的挑战肺腺癌数据集(ca00182)的批次纠正前后的表达数据与由来自一小组关于PRECOG的所有剩余的19项肺腺癌研究的预后meta-z得分组成的对照数据集进行比较。观察到大多数预后基因的性能差异不大，其中主要影响与存活率结果相关的基因的变化是微妙的。

PRECOG错误发现率。虽然在这项工作中分析了z得分和meta-z得分，但是使用Storey和Tibshirani(Storey,JD&Tibshirani，R.基因组研究的统计学意义(Statisticalsignificance for genomewide studies).Proc.Natl.Acad.Sci.U.S.A.100,9440-9445(2003))的错误发现率(FDR)方法估计全局未加权的meta-z和加权的癌症特异性meta-z得分的Q值，并且所述Q值可用于在线的所有经分析的z-得分矩阵(precogf(dot)Stanford (dot)edu)。值得注意的是，在PRECOG时的23,288个HUGO基因符号中，4,385(19％)个在Q<0.05处具有全局meta-z显著性(|meta-z|>2.6)，而在Q<0.01处时显著的|meta-z|>3.22)。

盲法和样品选择标准。在这项工作中没有使用盲法。从分析中排除重复和非诊断(复发)样品。

在块肿瘤GEP中推测TAL水平。在PRECOG中分析的样品主要代表块诊断性治疗前肿瘤试样，其通常包含多种细胞类型，包括多种TAL。鉴于淋巴细胞标志物在PRECOG中有利的预后基因的富集，在PRECOG时对块肿瘤GEP进行系统地“去混合”或去卷积的方法可揭示对肿瘤免疫生物学的新见解。最近研发了一种通过估计RNA转录体相对亚群(CIBERSORT)进行细胞类型识别的新方法，该方法是一种在基准测试实验中优于其它方法的机器学习方法。CIBERSORT使用蒙特卡罗取样产生去卷积的经验P值。像其它线性去卷积方法一样，CIBERSORT只对非对数线性空间中的表达值进行操作。

TAL异质性和预后关联。将CIBERSORT应用于来自Affymetrix HGU133平台(57项研究和25种癌症)的所有归一化PRECOG GEP。总共对5,782个肿瘤GEP进行成功去卷积(CIBERSORT P<0.005)。对于每一个数据集，每个白细胞亚群的估计的mRNA分数与使用单变量Cox回归的存活率相关。使用与针对PRECOG描述的相同的方法来确定加权的meta-z得分，以便构建免疫中心版本的PRECOG(iPRECOG，图26a)，并且在图23c中使用未加权的全局meta-z得分来总结泛癌白细胞关联。

免疫PRECOG错误发现率。为了区分推断的白细胞预后关联中的真实与随机变异，首先在免疫PRECOG时比较P值和meta-z得分(图26b)，因为在绘制统计学结论时必须考虑到与标准正态分布的任何偏离。通过(1)重排针对每个数据集推断出的细胞类型分数以及(2)计算z-得分和相应的meta-z得分以捕获与总体存活率的关系，生成1000个空的meta-z矩阵。发现零meta-z得分的分布与标准正态分布之间的紧密对应关系(图26b)。验证了meta-z得分的当量，然后使用一系列统计学显著性阈值过滤图26a，并且在每个截止值下，比较所有白细胞预后关联的观察到的分数与预期的分数(图26c)。在双侧P值阈值为0.05(|z|>1.96)时，发现是随机机会预期的预后关系几乎三倍；在P<0.01时，富集浓度为5倍，其随P值截止值的降低而继续增加(图26c)。

另外，对图23c中所示的全局meta-z得分进行类似的分析。这里，来自图26c的零meta-z得分被整合到零全局meta-z得分中，并且重新计算针对泛癌白细胞预后关联(绘制为在不同显著性阈值下保留的白细胞亚群的分数；图26d)所示的分析。总而言之，这些结果明确量化了在不同统计学截止值下白细胞预后关联的显著性与随机变异，并且允许其它人微调标称统计学阈值以达到所需的错误发现率。

相对PMN水平与坏死组织含量。由CIBERSORT推断的PMN的相对RNA分数与肺鳞状细胞癌(TCGA；R²＝0.01；P＝NS)或黑色素瘤(微阵列数据集GSE8401⁷⁶；R²～0；P＝NS)中注释的坏死含量无相关性。

流式细胞仪与CIBERSORT。如下所述进行非小细胞肺癌肿瘤(n＝13)试样的流式细胞术分析，并且用总体CD45⁺含量对CD4⁺、CD8⁺、CD19⁺、CD56⁺和CD14⁺群体的中值分数进行归一化(图23a)。为了与CIBERSORT进行比较，将白细胞标记矩阵群体分组为同一组的区分类别：CD14⁺、单核细胞、巨噬细胞和树突细胞；CD4⁺、除CD8和γδT细胞外的所有T细胞亚群；CD8⁺、CD8 T细胞；CD19⁺、原初和记忆性B-细胞、CD56⁺、静息的和活化的NK细胞。在图23a中示出的针对肺腺癌GEP由CIBERSORT推断的中值分数通过两个公开可用的微阵列数据集GSE7670⁷⁷TM和GSE10072⁷⁸确定。

患者样品。这项研究的所有方面均由斯坦福机构审查委员会根据道德行为研究的赫尔辛基宣言进行批准，并且所有患者均提供知情同意书。对于图23a，从斯坦福组织库获得新鲜的人类肺肿瘤样品。对于组织微阵列分析(图24c、24e、27c-27h)，从斯坦福病理系的外科病理档案中检索患者样品，并且使用斯坦福的癌症中心数据库和STRIDE数据库工具将所述患者样品与临床数据库相关联。

人类肺解离和流式细胞术。将新鲜的人类肺肿瘤样品切成小块，并且通过胶原酶I(STEMCELL Technologies)消化45分钟将其解离成单细胞悬浮液。解离的单细胞在染色缓冲液(具有2％热灭活的小牛血清的HBSS)中以1×10⁷/mL悬浮。用10μgμl^-1的大鼠IgG阻断10分钟后，用以下列出的抗体将细胞染色至少10分钟。洗涤后，将染色的细胞再悬浮于含有1μg/ml DAPI的染色缓冲液中，进行分析，并且用FACS Aria II细胞分选仪(BD Biosciences)进行分选。用于与图23a相关的实验的抗体：CD45-A700、CD14-PE、CD8-APC、CD4-FITC、CD56-PE-cy7和CD19-PerCP-cy5.5。用于计数浆细胞性细胞的抗体：CD45-PE-cy7、CD20-PerCP-cy5.5、CD138-PE、CD38-APC、CD19-A700和CD27-FITC。所有抗体均获自BioLegend。

组织微阵列(TMA)群组。审查患有肺癌的患者以识别从1995年至2010年6月期间具有手术治疗疾病和石蜡包埋样品的患者，以便纳入其中。仅排除具有复发或转移性疾病样品的患者。审查医学图表以采用人口统计学、手术程序、成像数据和随访临床注释肿瘤试样。审查病理报告以确定样品类型、部位、病理、阶段、组织学、入侵状态和手术程序。排除所治疗的样品(新辅助治疗)，导致最终分析了187个经预处理的肺腺癌肿瘤试样的群组与随访数据。

TMA群组随访。复发由成像或活检物定义，并且对患有晚期疾病或没有至少6个月的随访的患者进行审查以做进一步分析。国家死亡指数(NDI)用于定义截至2010年10月30日的生命状况。由于NDI依赖于用于生命状况评估的社会安全号码，所以除了已经离开国家或来自其它国家(被审查者)的那些患者之外，未死亡的患者被认为是活着的。随着时间的推移切除的同步肿瘤适于两名原发性患者的预后评估。

TMA构建。斯坦福肺癌TMA是从包含来自由委员会认证的病理学家审查的一式两份载玻片中的存活肿瘤的手术试样开发出来的。病理学家对样品编号并不陌生。肿瘤含量最高的区域被标志为对应于载玻片的取芯块。使用2mm的芯来构建组织微阵列。这些芯通过组织学和阶段进行比对，并且阴性对照取自West Lab，并且包括各种良性和恶性组织(65个芯)，所述各种良性和恶性组织(65个芯)包括正常的非肺组织(12个芯)、异常的非肺组织(13个芯)、胎盘标志物(23个芯)和正常的肺(17个芯)。正常的肺由1995年至2010年期间与肿瘤相邻但不同的试样组成，以评估按年染色的变化性。在目标IHC分析之前，在完成的阵列上进行OligoDT分析以评估所选芯的结构和组织含量的充分性。同样使用共同注册的苏木精和曙红(H&E)载玻片，以验证初步检查时肿瘤位置不清楚的病例的肿瘤位置。

TMA免疫组织化学法。使用Ventana BenchMark XT自动免疫染色平台(VentanaMedical Systems/Roche，Tucson，AZ)在4mm切片上进行MPO(DAKO)和CD20(克隆L26，DAKO)免疫组织化学法。

TMA RNA原位杂交。使用引物5'-CTG TTG TGT GCC TGC TGA AT-3'(SEQ ID NO：1)和T7启动子标记的引物5'-CTA ATA CGA CTC ACT ATA GGG TTA AAG CCA AGG AGG AGGAG-3'(SEQ ID NO：2)针对chr2：88,937,790-88,938,290(hgl8)设计用于IGKC的RNA原位杂交探针。如前所述，在TA369上进行RNA原位杂交。

TMA显微镜检查。在Ariol成像分析系统(最初由Applied Imaging建立)上以20倍扫描所有载玻片。

TMA染色定量和分析。为了促进定量TMA染色模式的一致性和重复性，评估Gemldent(一种有监督计算机图像分割系统)的效果。作为初步的练习，在单一肺腺癌试样上对Gemldent进行训练，以识别出IGKC染色和非组织背景(白色空间)。然后将Gemldent应用于10个TMA试样，以产生IGKC定位和非组织背景(即，“空白空间”)的单独的图像掩模。使用自定义Perl脚本处理每个图像掩膜，并且对每个样品的IGKC的染色区域进行量化(通过首先去除非组织白色空间以计算每个组织的表面积)。为了测试这种方法的实用性，委员会认证的病理学家(RBW)对相同的10个试样进行了IGKC评分。病理学家不了解自动染色的结果，但对样品编号并不陌生。两种评估高度相关(R²＝0.98；图28c)。在另一项练习中，两名独立的操作者对不同的CD20染色试样进行Gemldent训练。然后在整个TMA(n＝187个肺腺癌)中定量CD20染色的分数，并且如上所述处理结果。独立的操作者之间的一致性非常高(R²～1；图28d)。这些数据支持与图像后处理结合的Gemldent的实用性，用于TMA试样的自动评分。将该方法应用于对所有肺腺癌TMA试样进行定量评分IGKC、CD20和MPO(例如，参见图28a)。

TAL与循环白细胞之间的比较。在具有可能的围手术期循环白细胞(淋巴细胞和PMN)的患者中计数，在-120至+28天内分析最接近手术日期(DOP)的样品，其中优先考虑术前样品(总n＝48名肺腺癌患者)。发现循环白细胞(CL)水平与在TMA上定量的TAL之间没有关系。此外，虽然MPO与IGKC水平的比值在该患者亚群中保持显著预后(P＝0.02)，但是CL水平与存活率没有显著关系。

结果

块肿瘤中的白细胞组成

通过特异性白细胞细胞亚群(例如CD8⁺和CD45RO⁺记忆T淋巴细胞)浸润肿瘤很大程度上与不同癌症的有利结果相关，而其它(例如调节性T细胞和巨噬细胞)则可以根据环境导致良好或差的预后。为了系统全面地绘制TAL中的组成差异及其与存活率的关系，应用了通过估计已知RNA转录体的相对亚群(或CIBERSORT)进行细胞类型识别的新型机器学习框架。在统计学上估计来自复合组织(例如，块肿瘤)的表达图谱的细胞亚群的相对比例时，CIBERSORT在噪声、未知混合内容物和密切相关的细胞类型方面优于先前的去卷积方法。作为输入，使用了22种不同白细胞亚群的纯化表达图谱，以及强化区分这些细胞类型而不需要细胞类型特异性标志基因的定义的基因表达标记的“条形码”。在|meta-z得分|>3.3(相当于双侧P<0.001)处，28％的这些条形码基因(547个中的152个)在PRECOG时是个体显著的，在相同的显著性阈值处，超过2,851个总泛癌预后基因。这比随机机率(P<0.001，卡方检验)预期的高。无论是直接还是间接地比较流式细胞术和免疫组织化学，CIBERSORT对实体肿瘤表现出强化效果，准确地估计结肠直肠癌和肺腺癌(图23a)和滤泡性淋巴瘤中白细胞亚群的相对分数。

应用于PRECOG，CIBERSORT揭示了造血肿瘤、脑癌和非脑实体肿瘤之间相对白细胞组成的显著差异(图23b)。在相同癌症类型(包括，实体肿瘤)的独立研究中，TAL含量的变化也是一致的和可再生的(图25a)。值得注意的是，尽管PRECOG中所分析的大部分肿瘤在肿瘤内容物方面未被纯化和不受控制，但CIBERSORT正确地推断了富含多发性骨髓瘤的试样中浆细胞的高分数(图23b)。此外，如预期的那样，发现B细胞标记在B细胞恶性肿瘤中占主导地位(图23b)，这表明CIBERSORT在不同癌症中具有识别细胞起源的一般实用性。

图23a-23d：25种人类癌症中推测的白细胞频率和预后关联。(图23a)在独立样品上通过CIBERSORT与免疫组织化学(IHC)或流式细胞术(FACS)在实体肿瘤中计数的相对白细胞分数。CRC、结肠直肠癌；LUAD，肺腺癌。为了近似CRC活检物中的基础真实比例，通过对来自107名患者的肿瘤中心和侵入性边缘的先前报告的白细胞计数进行平均来推断各水平。通过FACS(n＝13个肿瘤；数据以中值表示；细节在方法中)对LUAD活检物中的基线白细胞分数进行计数。CIBERSORT结果以相应组织学的平均白细胞分数表示。(图23b)25种癌症中的22个白细胞亚群的估计的mRNA分数(仅Affymetrix平台；参见方法)，为了清楚起见，将其合并成11个免疫群体。(图23c)根据未加权的meta-z得分分级的25种癌症(n＝5,782个肿瘤；左图)和14种实体非脑肿瘤(n＝3,238个肿瘤；右图)的22个白细胞类型的全局预后关联，针对每幅图指示的错误发现率(FDR)阈值为25％。对于个体癌症，参见图26a。(图23d)乳腺癌与肺腺癌之间的TAL预后关联的一致性和差异(针对FDR，参见图26c)。图23c、23d中静息的和活化的亚群分别由-和+表示。

图25a-25c：癌症类型和数据集中估计的白细胞分数的相关性分析。(图25a)显示应用于白细胞组合向量的质心分层聚类的结果的树状图(n＝22个亚群/数据集)。使用中心相关作为距离度量。来自独立研究的相同类型的癌症的聚类说明了CIBERSORT对相对免疫浸润水平的估计的再生性。(图25b)在免疫PRECOG时分析的所有57项研究中，KLRB1表达与每个免疫亚群的推断的水平之间的皮尔逊相关系数。数据以中值显示。(图25c)癌症的白细胞预后关联的相关性分析。在免疫PRECOG时的免疫群体的meta-z得分之间的所有配对皮尔逊相关性(图26a)，以热图进行说明。

TAL的预后关联

为了补充以基因为中心的存活率分析，组合了人类恶性肿瘤的22个免疫群体的预后关联的全局图(图26a)。观察到细胞亚群与癌症特异性结果之间的相当大的变化，并且这些关联中的许多在统计学上是显著的(图26b-26d)。合并的癌症产生显著的全局白细胞预后模式，其中发现较高水平的估计的T细胞分数通常与优良存活率相关，同时增加骨髓群体的水平主要与较差的存活率相关。肿瘤内γδT细胞 ^37,38 和多形核白细胞(PMN) ^39,40 标记分别显现为最显著有利和不利的癌症相关预后群体(图23c，左图)。此外，当将推断的白细胞分数与癌症中的KLRBI表达进行比较时，γδT细胞和CD8 T细胞标记最高度相关(图25b)，表明与该基因的预后意义有关。在具有注释的坏死组织含量(方法)的数据集中没有发现估计的PMN水平之间的关系，这表明肿瘤内PMN不仅仅是组织坏死的相关物。此外，与先前的报告一致，发现肿瘤相关的M2巨噬细胞的标记预测比促发炎性Ml巨噬细胞更差的结果，并且抗CD3/抗CD28-共刺激但不是静息的CD45RO⁺记忆辅助性T细胞与优异的结果相关。

图26a-26d：22个白细胞亚群与25个癌组织学之间的预后关联。(图26a)描绘造血亚群与存活率之间的关系的热图，表示为meta-z得分矩阵。红色单元表示不利的结果，并且绿色单元表示有利的结果。(图26b)白细胞预后关联的错误发现率。将免疫PRECOG时的细胞类型分数(虚线黑线)重排获得的z得分的零分布与标准正态分布比较显示出高度的一致性。(图26c)在各个z得分截止值处，细胞类型比例与通过过滤图26a中的结果获得的结果之间的统计学上显著关联的预期的与观察到的分数。针对每个z得分值显示P值和估计的FDR。截止值越严格，观察到的与预期的显著关联的比例越高(在P<0.05时为3倍，在P<0.01时为5倍)，表明免疫PRECOG捕获统计学上强有力的关联)。(图26d)与图26b类似，但应用于通过组合25个癌组织学或非脑实体肿瘤(与图23c相关)的个体癌症meta-z得分获得的全局meta-z得分。在方法中提供图26b-26d的细节。

实体肿瘤中的预后TAL

通过比较乳腺癌和肺癌中的白细胞存活标记，识别与存活率具有意想不到的强大但互反的关系的两个群体——PRECOG中分布最高的癌症中的两种——PMN细胞和浆细胞(PC)(图23d)。PC标记一般是实体肿瘤有利生存的重要预测因素(图23c，右图)，并且在人类癌症之间的互相关分析中全局评估时(图25c)，是PMNs的最负相关的预后群体(图24a)。估计的PC水平与肿瘤分期无相关性(图27a)。由于发现PC标记在肿瘤中比在相邻正常组织中高(图27b)，所以肿瘤浸润性PC的预后价值不可能代表一般的免疫学健康，支持其克隆扩增所需的抗原驱动过程的作用和急性体液免疫反应。此外，发现估计的PMN与PC水平的简单比例在不同的实体肿瘤中是显著预后的(图24b)。

图24：浸润性PMN与浆细胞的比例在不同的实体肿瘤中是预后的。(图24a)推断的PMN与浆细胞(PC)频率之间的预后关联在癌症景观方面显著负相关(Pearson R＝-0.46，P＝0.02)。每个点表示个体癌症：三角形，血癌；正方形，脑癌；圆形，剩余的癌症。(图24b)针对不同的实体肿瘤，Meta-z得分描述将PMN和PC水平组合成比率指数的预后意义。(图24c)针对肺腺癌中PC、B细胞和PMN频率而言，CIBERSORT与组织微阵列分析之间的比较，分别使用IGKC、CD20和MPO作为TMA的替代标志物(n＝187个试样)。利用CIBERSORT(n＝85个肿瘤)分析来自公开可用的数据集(GSE7670和GSE10072)的肺腺癌阵列。(d、e)Kaplan-Meier曲线图描绘了通过(图24d)肺腺癌微阵列研究中推断的PMN与PC分数的中值水平(P＝0.0005，对数秩次检验；n＝453名高位患者和453名低位患者)和(图24e)肺腺癌组织切片中MPO/IGKC染色阳性的中值水平(P＝0.028，对数秩次检验；n＝94名高位患者和93名低位患者)分层的患者。针对图24d，风险比为1.5(1.2-1.9，95％CI)，以及针对图24e，风险比为1.7(1.1-2.6，95％CI)。在图24d(P＝0.003，Z＝2.98)和e(P＝0.0005，Z＝3.46)中通过单变量Cox回归评估的连续模型中，推测的PMN与PC水平也是显著预后的。c中的数据以平均值±s.e.m表示。在图24d和图24e中，所有患者在5年后被正确检查。

图27a-27h：非小细胞肺癌和相邻正常组织中的浆细胞水平。(图27a)通过CIBERSORT推断的浆细胞的相对RNA分数与肺腺癌分期无关。(图27b)在包含肺腺癌肿瘤和相邻正常试样的两个独立的微阵列数据集(GSE7670和GSE10072)之间比较如通过CIBERSORT推断的22个白细胞亚群的相对分数。(图27c、27d)肺腺癌组织试样的代表性H&E染色。染色的肺腺癌肿瘤切片显示形态学上类似于(图27c)浆细胞和(图27d)嗜中性粒细胞的细胞(箭头所示)。(图27e-27h)肺癌中的浆细胞性细胞的流式细胞术分析和形态学评估。(图27e)用于来自肺腺癌肿瘤的CD38^高/CD45^高/CD138^低/CD27⁺/CD19⁺/CD20^-细胞的富集的门控策略。如针对浆细胞性细胞所预期的，通过前向和侧向散射，CD38^高/CD45^高/CD138^低/CD27⁺/CD19⁺/CD20^-细胞大于CD38^-/CD45^高/CD138^-/CD27^-/CD19⁺/CD20⁺细胞(B细胞)。(图27f)使用在e中描述的门控策略，从新鲜的肺腺癌肿瘤中分选出浆细胞性细胞，并且通过细胞离心进行分离用于显微镜检查。示出了具有浆细胞性细胞的形态特征的代表性细胞(100×油物镜)。与正常的相邻组织相比，代表性的流式细胞术结果显示肺鳞状细胞癌(图27g)和肺腺癌(图27h)中浆细胞性细胞的显著增加。

为了实验评估PMN和PC标记的相互存活关联，使用组织微阵列(TMA)分析来评估其187个肺腺癌的浸润。通过组织切片的H&E染色观察两种细胞类型的特征(图27c、27d)，并且使用流式细胞术(图27e)和形态学评估(图27f)证实在新鲜肿瘤试样中肿瘤浸润性浆细胞性细胞(即，浆母细胞或浆细胞)的存在。此外，与正常的相邻组织相比，我们证实了非小细胞肺癌(NSCLC)肿瘤中浆细胞性细胞增多的存在(图27g、27h)。在连续的肺腺癌组织切片中，我们分别针对MPO(髓过氧化物酶)和IGKC(免疫球蛋白κ常数)的存在、PMN和PC的标志物进行染色(图28a)。由于B细胞表达不同水平的IGKC，所以我们还针对CD20进行了测试，CD20是一种成熟B细胞而不是PC的表面标志物(图27e)。我们发现与CD20具有<10％的重叠，表明IGKC对PC具有高度特异性(图28b；方法)。接下来，我们定量组织阵列中每个标志物的染色面积(Methods；图28c、28d)。当在不同的规模上进行操作并且在独立的肿瘤试样上测量时，在TMA上原位测量的这三个标志物的分数水平与通过CIBERSORT推断的相对浸润水平相当(图24c)。此外，在连续模型和二进制模型中，我们发现，无论是在PRECOG(图24d)中，还是在显示的微阵列验证数据集(图28e)中，或者通过组织微阵列试样中的替代标志物(图24e)测量，在肺腺癌中较低的存活率与PMN和PC水平的较高比例之间具有密切的关系。此外，TMA结果在包含相关临床参数的多变量模型中仍然显著。同时，这些数据验证了计算方法，并且证明肿瘤相关的PMN和PC与总体存活率呈现相反的关联。

图28a-28e：显示的表达数据集中TMA标志物的评估和染色定量以及推断的PMN/PC水平的预后意义。(图28a)通过靶向IGKC的RNA原位探针或靶向CD20或MPO的抗体染色的代表性肺腺癌组织切片。上图：其中IGKC和CD20为高而MPO为低的连续切片。下图：其中MPO为高而IGKC/CD20为低的连续切片。通过Gemldent图像分析软件⁴和后处理(方法)量化染色。(图28b)相邻肺腺癌组织切片中IGKC与CD20染色之间空间重叠的直方图(中值重叠率为-4.8％)。(图28c)病理学家(R.W.)和Gemldent(方法)对10个随机选择的肺腺癌试样进行IGKC染色评估之间的一致性。(图28d)训练Gemldent以通过两个不同的操作者识别出CD20染色，并且对所有肺腺癌试样绘制结果。(图28e)对显示的肺腺癌数据集中的PMN与PC的比例的存活率分析。使用通过CIBERSORT估计的浆细胞性细胞和嗜中性粒细胞分数计算其在未包括在PRECOG中的三个肺癌数据集中的比例。基于每个数据集中的PMN：PC比率的中值，将患者分为高组或低组。这允许将三个群组合并成一个足够大小的组合的数据集以便进行存活率分析。示出了具有95％置信区间的风险比(HR)和Cox回归(对数秩次检验)中的P值。

包括PMN和B淋巴细胞在内的循环白细胞有助于肿瘤微环境，并且外周血中先天性和适应性效应因子的白细胞频率可具有预后价值。因此，利用可用的手术期间的全血计数检查来自TMA的NSCLC患者的亚群，以评估循环白细胞的水平与TAL之间的一致性。虽然在该亚群中肿瘤内PMN与PC的比例保持显著预后，但是在循环和浸润部分之间没有发现显著相关性，并且没有发现循环白细胞水平的预后价值。

尽管已经参考本公开的具体实施例描述了本公开，但是本领域技术人员应当理解，在不脱离本公开的真实精神和范围的情况下，可以进行各种改变并且可以替换等同物。另外，可以进行许多修改以使特定情况、材料、物质的组成、过程、工艺步骤或步骤适应于本公开的目标、精神和范围。所有这些修改旨在处于所附权利要求的范围内。

Claims

1.一种对样品的特征图谱进行去卷积的方法，其包括：

i)获得包括第一多个不同组分的物理样品；

ii)由所述物理样品产生特征图谱m，其中所述特征图谱包括与所述第一多个不同组分相关联的特征的组合；

iii)优化m与第二多个不同组分的特征标记的参考矩阵B之间的回归，其中m被建模为B的线性组合，

其中所述优化包括求解包括所述回归的一组回归系数的f，其中所述解使以下最小化：

线性损失函数；和

L₂范数惩罚函数；

iv)基于所述一组回归系数估计所述物理样品中存在的所述第二多个不同组分中的一个或多个不同组分的相对比例；以及

v)通过以下方式确定用于估计的显著性值：

a)产生包括从父级特征图谱中随机选择的特征的随机特征图谱m*，其中所述父级特征图谱包括所述特征图谱，并且其中m和m*具有相同的欧几里得范数；

b)优化m*与所述参考矩阵B之间的回归，其中m*被建模为B的线性组合，

其中所述优化包括求解包括所述回归的一组回归系数的f*，其中所述解使以下最小化：

线性损失函数；和

L₂范数惩罚函数；

c)计算f*和所述参考矩阵B的乘积以产生重构特征图谱；

d)确定所述随机特征图谱与所述重构特征图谱之间的差异测量；以及

e)基于由步骤a)-d)的i次迭代确定的差异测量的分布确定显著性值，其中i是大于1的数值。

2.根据权利要求1所述的方法，其中求解f包括在B的特征标记的多个不同子集中选择B中的特征的子集以使所述线性损失函数最小化。

3.根据权利要求1或2所述的方法，其中，所述线性损失函数是线性ε不敏感损失函数。

4.根据权利要求1所述的方法，其中，所述优化包括使用支持向量回归(SVR)。

5.根据权利要求4所述的方法，其中，所述支持向量回归是ε-SVR。

6.根据权利要求4所述的方法，其中，所述支持向量回归是ν(nu)-SVR。

7.根据权利要求6所述的方法，其进一步包括使用不同的ν值迭代所述方法，以针对每个不同的ν值产生f的不同解。

8.根据权利要求7所述的方法，其进一步包括在f的所述不同解中识别在以下两项之间具有最小误差的解：

a)所述特征图谱m；与

b)f和所述参考矩阵B的乘积。

9.根据权利要求8所述的方法，其中，所述最小误差使用皮尔逊积矩相关系数、斯皮尔曼等级相关、均方根误差(RMSE)、欧几里得距离或者平均绝对偏差(MAD)获得。

10.根据权利要求1所述的方法，其中，所述差异测量是皮尔逊积矩相关系数、斯皮尔曼等级相关、均方根误差(RMSE)、欧几里得距离或者平均绝对偏差(MAD)。

11.根据权利要求1或10所述的方法，其中，所述显著性值是p值。

12.根据权利要求1所述的方法，其中，i在10与1000之间。

13.根据权利要求1所述的方法，其中，所述物理样品包括以所述特征标记表示的、占所述物理样品中存在的所述第二多个不同组分的总量的10％或更少的至少一个不同组分。

14.根据权利要求1所述的方法，其中，以所述特征标记表示的不同组分在所述物理样品中的存在量为所述物理样品中不同组分的总量的50％或更少。

15.根据权利要求1所述的方法，其中，所述参考矩阵B包括存在于所述第二多个不同组分的两个或更多个不同组分的特征图谱中的至少一个不同特征。

16.根据权利要求1所述的方法，其中，所述参考矩阵B是特征标记的初始参考矩阵的子集或超集，所述特征标记的初始参考矩阵包括与B中的特征数量不同的多个特征，并且其中B中的所述特征数量提供比所述初始参考矩阵低的条件数。

17.根据权利要求1所述的方法，其进一步包括通过以下方式计算所述物理样品中存在的所述第二多个不同组分的所有所述不同组分相对于所述第一多个不同组分的所有所述不同组分的量：

将与所述第二多个不同组分的所述不同组分相关联的所有特征的中值除以所述物理样品中的所有特征的中值。

18.根据权利要求1所述的方法，其中，所述物理样品是生物样品。

19.根据权利要求18所述的方法，其中，所述第一多个不同组分是不同的细胞亚群。

20.根据权利要求19所述的方法，其中，所述细胞亚群包括脑细胞亚群。

21.根据权利要求20所述的方法，其中，所述脑细胞亚群包括神经元细胞、星形胶质细胞、少突神经胶质细胞和小神经胶质细胞中的至少一种的亚群。

22.根据权利要求19到21中任一项所述的方法，其中，所述细胞亚群包括基质细胞、干细胞、神经细胞和祖细胞中的至少一种的亚群。

23.根据权利要求19所述的方法，其中，所述细胞亚群包括肿瘤细胞亚群。

24.根据权利要求19所述的方法，其中，所述细胞亚群包括白细胞亚群。

25.根据权利要求24所述的方法，其中，所述细胞亚群包括肿瘤浸润性白细胞的亚群。

26.根据权利要求24所述的方法，其中，所述细胞亚群包括淋巴细胞的亚群。

27.根据权利要求24所述的方法，其中，所述白细胞亚群包括选自由以下组成的群组的两种或更多种细胞类型：原初B细胞、记忆B细胞、浆细胞、CD8T细胞、原初CD4 T细胞、CD4记忆RO未活化的T细胞、CD4记忆RO活化的T细胞、滤泡辅助性T细胞、调节性T细胞、γδT细胞、未受刺激的NK细胞、受刺激的NK细胞、单核细胞、巨噬细胞M0、巨噬细胞M1、巨噬细胞M2、未受刺激的树突细胞、受刺激的树突细胞、未受刺激的肥大细胞、受刺激的肥大细胞、嗜酸性粒细胞和嗜中性粒细胞。

28.根据权利要求19所述的方法，其中，所述细胞亚群包括在不同的细胞周期阶段的细胞的亚群。

29.根据权利要求28所述的方法，其中，所述在不同的细胞周期阶段的细胞的亚群包括在分裂间期、有丝分裂期或胞质分裂期的细胞的多个亚群之一。

30.根据权利要求28或29所述的方法，其中，所述在不同的细胞周期阶段的细胞的亚群包括在前期、中期、后期或末期的细胞的多个亚群之一。

31.根据权利要求28或29所述的方法，其中，所述在不同的细胞周期阶段的细胞的亚群包括在G₀、G₁、G₂或S期的细胞的多个亚群之一。

32.根据权利要求18所述的方法，其中，所述第一多个不同组分是不同的细胞信号传导途径、基因调节途径或代谢途径。

33.根据权利要求32所述的方法，其中，所述不同的细胞信号传导途径包括细胞因子信号传导、死亡因子信号传导、生长因子信号传导、存活因子信号传导、激素信号传导、Wnt信号传导、Hedgehog信号传导、Notch信号传导、细胞外基质信号传导、胰岛素信号传导、钙信号传导、G蛋白偶联受体信号传导、神经递质信号传导和其组合。

34.根据权利要求32所述的方法，其中，所述不同的代谢途径包括糖酵解、糖异生、柠檬酸循环、发酵、尿素循环、脂肪酸代谢、嘧啶生物合成、谷氨酸氨基酸合成、卟啉代谢、天冬氨酸氨基酸合成、芳香族氨基酸合成、组氨酸代谢、支链氨基酸合成、戊糖磷酸途径、嘌呤生物合成、葡糖醛酸代谢、肌醇代谢、纤维素代谢、蔗糖代谢、淀粉和糖原代谢以及其组合。

35.根据权利要求18所述的方法，其中，所述特征图谱包括基因表达图谱、蛋白质-蛋白质相互作用图谱、蛋白质磷酸化图谱、细胞电活性图谱、染色质修饰图谱、染色体结合图谱、酶活性图谱、代谢物图谱或其组合。

36.根据权利要求35所述的方法，其中，所述特征图谱包括表示所述生物样品中的细胞的RNA转录组的基因表达图谱。

37.根据权利要求18所述的方法，其中，所述生物样品是归档组织样品。

38.根据权利要求18所述的方法，其中，所述生物样品是血液样品。

39.根据权利要求18所述的方法，其中，所述生物样品源自实体组织样品。

40.根据权利要求39所述的方法，其中，所述实体组织样品是肿瘤样品。

41.根据权利要求39所述的方法，其中，所述实体组织样品是福尔马林固定、石蜡包埋(FFPE)的样品。

42.根据权利要求18所述的方法，其中，所述生物样品是纯化样品。

43.根据权利要求18所述的方法，其中，所述生物样品是富含白细胞的样品。

44.根据权利要求18所述的方法，其进一步包括从个体获得所述生物样品。

45.根据权利要求1所述的方法，其中，所述第一多个不同组分是不同的化学化合物。

46.根据权利要求45所述的方法，其中，所述不同的化学化合物包括有机化合物、无机化合物、毒素、微生物、代谢物、变应原和其组合。

47.根据权利要求45所述的方法，其中，所述特征图谱包括核磁共振(NMR)光谱、电磁辐射吸收和/或发射光谱、圆二色光谱、拉曼光谱、质谱、色层分离谱和其组合。

48.根据权利要求45所述的方法，其中，所述物理样品是生物样品、环境样品或食物样品。

49.根据权利要求48所述的方法，其中，所述物理样品是环境样品，并且其中所述环境样品是空气样品、水样品或土壤样品。

50.根据权利要求48所述的方法，其中，所述物理样品是环境样品，并且其中所述环境样品是从河流、海洋、湖泊、雨水、积雪、污水、污水处理径流、农业径流、工业径流、自来水、饮用水、排气系统、填注池、城市发展场所或农田获得的。

51.一种用于对物理系统的特征图谱进行去卷积的计算机实现的方法，其包括：

获得物理系统中的第一多个不同组分的组合的第一特征图谱m；以及

计算处理所述第一特征图谱m，其中所述计算处理包括：

i)优化m与所述物理系统中的第二多个不同组分的特征标记的参考矩阵B之间的回归，其中m被建模为B的线性组合，

线性损失函数；和

L₂范数惩罚函数；

iii)基于所述一组回归系数估计所述物理系统中存在的所述第二多个不同组分中的一个或多个不同组分的相对比例；以及

iv)通过以下方式确定用于估计的显著性值：

线性损失函数；和

L₂范数惩罚函数；

c)计算f*和所述参考矩阵B的乘积以产生重构特征图谱；

52.根据权利要求51所述的计算机实现的方法，其中，所述第一特征图谱m包括表示电力使用、电信使用或流量模式的数据。

53.根据权利要求52所述的计算机实现的方法，其进一步包括收集所述数据以生成所述第一特征图谱m。

54.根据权利要求51所述的计算机实现的方法，其中，所述第一特征图谱m是由包括第一多个不同组分的物理样品生成的。

55.根据权利要求54所述的计算机实现的方法，其中，所述物理样品是生物样品、环境样品或食物样品。

56.根据权利要求51所述的计算机实现的方法，其中，求解f包括在B的特征标记的多个不同子集中选择B中的特征的子集以使所述线性损失函数最小化。

57.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1到50中任一项所述的方法的至少一部分的指令。

58.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求51到56中任一项所述的方法的指令。

59.一种系统，其包括一个或多个处理器；和存储一个或多个程序的存储器，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1到50中任一项所述的方法的至少一部分的指令。

60.一种系统，其包括一个或多个处理器；和存储一个或多个程序的存储器，所述一个或多个程序包括当由计算机系统的一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求51到56中任一项所述的方法的指令。

61.一种用于鉴定样品中多个细胞群中一个细胞群的方法，所述方法为所述鉴定产生显著性值，并且包括：

a)提供包含所述多个细胞群的样品；

b)从所述样品中生成特征图谱；和

c)通过执行权利要求1-48中任一项所述的方法，对所述特征图谱进行计算处理以识别所述样品中的所述多个细胞群体中的该细胞群体并生成所述识别的所述显著性值。

62.如权利要求61所述的方法，其中所述方法在以0.01的显著性值阈值识别所述多个细胞群体中的该细胞群体时具有至少94％的灵敏度和至少95％的特异性。

63.根据权利要求61所述的方法，其中所述多个细胞群体包含下述的两种或更多种：

a)原初B细胞；

b)记忆B细胞；

c)浆细胞；

d)CD8 T细胞；

e)CD4原初T细胞；

f)CD4静息的记忆T细胞；

g)CD4活化的记忆T细胞；

h)滤泡辅助性T细胞；

i)γδT细胞；

j)T调节细胞；

k)静息的NK细胞；

l)活化的NK细胞；

m)单核细胞；

n)M0巨噬细胞；

o)M1巨噬细胞；

p)M2巨噬细胞；

q)静息的树突状细胞；

r)活化的树突细胞；

s)静息的肥大细胞；

t)活化的肥大细胞；

u)嗜酸性粒细胞；和

v)嗜中性粒细胞。

64.根据权利要求63所述的方法，其中所述方法能够在显著性值阈值0.01以至少94％的灵敏度和至少95％的特异性区分选自a)-c)的两种或更多种细胞类型。

65.根据权利要求63所述的方法，其中所述方法能够在显著性值阈值0.01以至少94％的灵敏度和至少95％的特异性区分选自d)-j)的两种或更多种细胞类型。

66.根据权利要求61所述的方法，其中所述样品是血液样品或源自实体组织样品。

67.根据权利要求66所述的方法，所述实体组织样品是肿瘤活检样品。

68.如权利要求61所述的方法，其中所述特征图谱是基因表达图谱。

69.根据权利要求68所述的方法，所述基因表达图谱代表样品中细胞的RNA转录组。

70.根据权利要求68所述的方法，其中所述基因表达图谱是多个基因的基因表达图谱。

71.根据权利要求68所述的方法，其中计算处理所述基因表达图谱包括优化所述基因表达图谱与用于第二基因表达图谱的特征标记的参考矩阵之间的回归，其中所述基因表达图谱被建模为所述特征标记的参考矩阵的线性组合，其中所述优化包括求解包括所述回归的一组回归系数的f，其中所述解使以下最小化：线性损失函数；和L₂范数惩罚函数。

72.根据权利要求71所述的方法，其特征在于，所述样品包含一个或多个未知细胞群，所述未知细胞群(a)包含在所述特征标记的参考矩阵中未被计及的所述特征图谱的成分，和(b)占所述样品中的所述多个细胞群体的不超过50％。

73.根据权利要求71所述的方法，其中所述样品包括一个或多个未知细胞群体，所述未知细胞群体(a)包括在所述特征标记的参考矩阵中未被计及的所述特征图谱的成分，和(b)占所述样品中的所述多个细胞群体的至少50％。

74.根据权利要求61所述的方法，其中识别所述多个细胞群中的该细胞群包括估计所述多个细胞群中的一个的相对比例。

75.根据权利要求70所述的方法，其中识别所述多个细胞群体中的该细胞群包括估计所述多个细胞群体中的该细胞群体的归一化指数。

76.根据权利要求61所述的方法，其中所述特征图谱包括基因表达图谱，蛋白质-蛋白质相互作用图谱，蛋白质磷酸化图谱，细胞电活动图谱，染色质修饰图谱，染色体结合图谱，酶活性图谱，代谢物图谱，核磁共振(NMR)光谱，电磁辐射吸收和/或发射光谱，圆二色谱，拉曼光谱，质谱，色谱或其组合。

77.根据权利要求61所述的方法，其中所述样品是存档的组织样品。

78.一种能够产生显著性值并且被配置为通过执行权利要求1-48中任一项所述的方法区分选自以下的两种或更多种细胞类型的系统：

a)原初B细胞；

b)记忆B细胞；

c)浆细胞；

d)CD8 T细胞；

e)CD4原初T细胞；

f)CD4静息记忆T细胞；

g)CD4激活的记忆T细胞；

h)滤泡辅助性T细胞；

i)γδT细胞；

j)T调节细胞；

k)静息NK细胞；

l)活化的NK细胞；

m)单核细胞；

n)M0巨噬细胞；

o)M1巨噬细胞；

p)M2巨噬细胞；

q)静息树突状细胞；

r)活化的树突细胞；

s)静息肥大细胞；

t)活化的肥大细胞；

u)嗜酸性粒细胞；和

v)嗜中性粒细胞；

其中所述显著性值是所述两种或更多种细胞类型之间的所述区分的显著性值。

79.如权利要求78所述的系统，其特征在于，所述系统配置为在0.01的显著性值阈值以至少94％的灵敏度、至少95％的特异性区分选自a)-v)的两种或更多种细胞类型。

80.如权利要求78所述的系统，其特征在于，所述系统配置为在0.01的显著性值阈值以至少94％的灵敏度、至少95％的特异性区分选自a)-c)的两种或更多种细胞类型。

81.如权利要求78所述的系统，其特征在于，所述系统配置为在0.01的显著性值阈值以至少94％的灵敏度、至少95％的特异性区分选自d)-j)的两种或更多种细胞类型。

82.根据权利要求78所述的系统，其中区分所述两种或更多种细胞类型包括估计所述两种或更多种细胞类型的相对比例。

83.根据权利要求78所述的系统，其中区分所述两种或更多种细胞类型包括估计所述两种或更多种细胞类型中的每一种的归一化指数。

84.一种包含机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时实现用于在包含多个细胞群体的样品中鉴定所述多个细胞群体中的一个细胞群体的方法，所述机器可执行代码能够产生显著性值，所述方法包括：

a)从包含所述多个细胞群的所述样品接收基因表达数据；

b)根据所述数据生成特征图谱；和

c)通过执行权利要求1-48中任一项所述的方法，计算处理所述特征图谱以识别所述样品中的多个细胞群体中的该细胞群体并生成所述识别的所述显著性值。

85.根据权利要求84所述的非暂时性计算机可读介质，其中所述机器可执行代码能够在以0.01的显著性值阈值识别所述多个细胞群中的该细胞群体时产生至少94％的灵敏度和至少95％的特异性。

86.根据权利要求84所述的非暂时性计算机可读介质，其中所述特征图谱是基因表达图谱。

87.根据权利要求86所述的非暂时性计算机可读介质，其中所述基因表达图谱代表样品中细胞的RNA转录组。

88.根据权利要求86所述的非暂时性计算机可读介质，其中所述基因表达图谱是多个基因的基因表达图谱。

89.根据权利要求84所述的非暂时性计算机可读介质，其中所述样品是血液样品或源自实体组织样品。

90.根据权利要求89所述的非暂时性计算机可读介质，其中所述实体组织样品是肿瘤活检样品。

91.根据权利要求88所述的非暂时性计算机可读介质，其中计算处理所述基因表达图谱包括优化所述基因表达图谱与用于第二基因表达图谱的特征标记的参考矩阵之间的回归，其中所述基因表达图谱建模为特征标记的所述参考矩阵的线性组合，其中所述优化包括求解包含所述回归的一组回归系数的f，其中所述解使得以下最小化：线性损失函数；和L₂范数惩罚函数。

92.根据权利要求91所述的非暂时性计算机可读介质，其中所述样品包括一个或多个未知细胞群体，所述一个或多个未知细胞群体(a)包含在所述特征标记的所述参考矩阵中未被计及的所述特征图谱的成分，并且(b)不超过所述样品中的所述多个细胞群体的50％。

93.根据权利要求91所述的非暂时性计算机可读介质，其中所述样品包含一个或多个未知细胞群体，所述一个或多个未知细胞群体(a)包括在所述特征标记的所述参考矩阵中未被计及的所述特征图谱的成分，并且(b)占所述样品中的所述多个细胞群体的至少50％。

94.根据权利要求84所述的非暂时性计算机可读介质，其中所述方法能够在显著性值阈值为0.01以至少94％的灵敏度和至少95％的特异性区分选自a)-c)的两种或更多种细胞类型。

95.如权利要求84所述的非暂时性计算机可读介质，其中所述方法能够在显著性值阈值为0.01以至少94％的灵敏度和至少95％的特异性区分选自d)-j)的两种或更多种细胞类型。

96.根据权利要求84所述的非暂时性计算机可读介质，其中识别所述多个细胞群中的该细胞群包括估计所述多个细胞群中的该细胞群的相对比例。

97.根据权利要求84所述的非暂时性计算机可读介质，其中识别所述多个细胞群体中的该细胞群体包括估计所述多个细胞群体中的该细胞群体的归一化指数。

98.一种用于鉴定来自受试者的样品中的多个细胞群体中的一个细胞群体的方法，其中所述鉴定能够估计参考样品中多个免疫细胞群体中一个免疫细胞群体的丰度的定量测量值，其相对于所述参考样品中所述多个免疫细胞群中的该免疫细胞群的丰度的已知定量测量值具有0.50或更大的相关系数，所述方法包括：

a)提供包含所述多个细胞群的所述样品；

b)从所述样品产生特征图谱；和

c)通过执行权利要求1-48中任一项所述的方法，计算处理所述特征图谱以识别所述样品中所述多个细胞群中的该细胞群。

99.根据权利要求98所述的方法，其中每个所述丰度定量测量值包括相对比例，并且其中每个所述已知的丰度定量测量值包括相对比例。

100.根据权利要求98所述的方法，其中每个所述丰度定量测量值包括归一化指数，并且其中所述已知丰度定量测量值中的每一个包括归一化指数。

101.根据权利要求98所述的方法，其中所述已知的丰度定量测量值通过流式细胞术确定。

102.根据权利要求98所述的方法，其中所述多个免疫细胞群体中的该免疫细胞群体包含所述多个免疫细胞群体中的每个免疫细胞群体。

103.根据权利要求98所述的方法，其中所述参考样品包含外周血单个核细胞(PBMC)，并且其中所述多个免疫细胞群包含以下的三种或更多种：

原初B细胞群，记忆B细胞群，CD8 T细胞群，原初CD4 T细胞群，静息记忆CD4 T细胞群，活化的记忆CD4 T细胞群，自然杀伤(NK)细胞群，和单核细胞群。

104.如权利要求98所述的方法，其中所述参考样品包含外周血单个核细胞(PBMC)，其中所述多个免疫细胞群包含FOXP3+调节性T细胞群(Tregs)，并且其中所述识别能够对所述参考样品中所述多个免疫细胞群中该免疫细胞群估计定量测量值，其相对于所述参考样品中的所述多个免疫细胞群中该免疫细胞群的丰度的已知定量测量值具有0.86或更大的相关系数。

105.根据权利要求98所述的方法，其中所述参考样品是来自患有滤泡性淋巴瘤(FL)的受试者的淋巴结活组织检查或肿瘤活组织检查，其中所述多个免疫细胞群包含B细胞、CD8T细胞和CD4 T细胞，并且其中所述鉴定能够针对所述参考样品中所述多个免疫细胞群中的该免疫细胞群估计丰度的定量测量值，其相对于所述参考样品中的所述多个免疫细胞群中该免疫细胞群中的每一个的丰度的已知定量测量值具有0.65或更大的相关系数。

106.一种用于鉴定来自受试者的多个样品的每一个中的多个细胞群体中的一个细胞群体的方法，所述多个样品的每个从受试者获得，其中所述鉴定能够对多个参考样品中每一个内的多个白细胞群中该白细胞群估计丰度的定量测量值，其相对于所述多个参考样品中所述多个白细胞群中的该白细胞群的丰度的所述定量测量值具有0.50或更大的相关系数，所述方法包括：

a)提供所述多个样品，每个样品包含所述多个细胞群；

b)从所述多个样品中的每个样品生成特征图谱；和

c)通过执行权利要求1-48中任一项所述的方法，计算处理所述特征图谱以识别所述多个样品中的所述多个细胞群中的该白细胞群。

107.根据权利要求106所述的方法，其中每个所述丰度定量测量值包括相对比例。

108.根据权利要求106所述的方法，其中每个所述丰度定量测量值包括归一化指数。

109.根据权利要求106所述的方法，其中所述多个白细胞群中的该白细胞群包含所述多个白细胞群中的每个白细胞群。

110.根据权利要求106所述的方法，其中来自所述受试者的所述多个样品包含福尔马林固定石蜡包埋(FFPE)样品和存档或冷冻的实体组织样品。

111.根据权利要求106所述的方法，其中所述多个白细胞群体包含以下中的三种或更多种：

原初B细胞，记忆B细胞，浆细胞，CD8 T细胞，原初CD4 T细胞，记忆RO未激活的CD4 T细胞，记忆RO激活CD4 T细胞，滤泡辅助T细胞，调节性T细胞(Tregs)，γδT细胞，未受刺激的天然杀伤细胞，受刺激的天然杀伤细胞，单核细胞，M0巨噬细胞，M1巨噬细胞，M2巨噬细胞，未受刺激的树突细胞，刺激的树突细胞，未受刺激的肥大细胞，刺激的肥大细胞，嗜酸性粒细胞和嗜中性粒细胞。

112.根据权利要求106所述的方法，其中所述多个白细胞群体包含B细胞，滤泡辅助T细胞和M0巨噬细胞，并且其中所述鉴定能够针对所述多个参考样品中的每一个中的所述多个白细胞群中的该白细胞群估计丰度的定量测量值，其相对于所述多个参考样品中的所述多个白细胞群中一个白细胞群中的每一个的丰度的已知定量测量值具有0.73或更大的相关系数。

113.一种用于鉴定来自受试者的样品中的多个细胞群体中的一个细胞群体的方法，其中所述样品包含肿瘤成分，所述肿瘤成分占所述样品的至少50％，其中所述鉴定能够针对参考样品中多个白细胞群中的一个白细胞群估计丰度的定量测量值，其相对于所述参考样品中所述多个白细胞群中的该白细胞群的丰度的已知定量测量值的均方根误差(RMSE)为10或更小，所述方法包括：

a)提供包含所述多个细胞群的所述样品；

b)从所述样品产生特征图谱；和

c)通过执行权利要求1-48中任一项所述的方法，计算处理所述特征图谱以识别所述样品中的所述多个细胞群中的该细胞群。

114.根据权利要求113所述的方法，其中，每个所述丰度定量测量值包括相对比例，并且其中每个所述已知的丰度定量测量值包括相对比例。

115.根据权利要求114所述的方法，其中，每个所述丰度定量测量值包括归一化指数，并且其中所述已知丰度定量测量值中的每一个包括归一化指数。