CN111164700A

CN111164700A - 使用下一代测序的免疫-肿瘤学应用

Info

Publication number: CN111164700A
Application number: CN201880060006.4A
Authority: CN
Inventors: 赖安·J·布鲁姆; 乔恩·R·阿姆斯特朗
Original assignee: Cofactor Genomics Inc
Current assignee: Cofactor Genomics Inc
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2020-05-15
Anticipated expiration: 2038-07-13
Also published as: EP3652663A4; CA3069828A1; WO2019014647A1; EP3652663A1; CN111164700B; AU2018301704A1

Abstract

本文提供了用于从生物样品生成免疫‑肿瘤学概况的系统和方法。该免疫‑肿瘤学概况可以包括免疫细胞的比例或百分比、免疫逃逸基因的表达和/或突变负荷。该免疫‑肿瘤学概况可允许生成用于作出预后或诊断预测的分类器。

Description

使用下一代测序的免疫-肿瘤学应用

交叉引用

本申请要求2017年7月14日提交的第62/532,921号美国临时专利申请和2018年4月16日提交的第62/658,418号美国临时专利申请的权益，这两个临时申请均通过引用整体并入本文。

背景技术

癌症是复杂的一组疾病，其涉及异常细胞生长，具有侵袭或扩散到身体其他部位的潜力。全球每年发生数百万例新的癌症病例。了解免疫和肿瘤概况可能有助于诊断和治疗。

发明内容

在一方面，本文公开了使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；以及(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况。在一些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的每一个的至少一个基因。在一些情况下，所述多个表达特征基因包括来自表2、3或4的至少10、20、30、40、50、60、70、80、90或100个基因。在一些情况下，所述免疫-肿瘤学概况包含预测的对治疗性干预的反应。在一些情况下，所述预测的反应是对治疗性干预的阳性反应或阴性反应。在一些情况下，阳性反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。在一些情况下，阴性反应包括肿瘤进展、对治疗性干预缺乏反应或其组合。在一些情况下，所述治疗性干预包括免疫疗法。在一些情况下，所述治疗性干预进一步包括放疗、化疗、手术或其组合。在一些情况下，所述方法进一步包括基于免疫-肿瘤学概况提供建议。在一些情况下，所述建议是开始、停止、改变或继续治疗性干预。在一些情况下，所述方法进一步包括使用所述概况为所述受试者提供治疗性干预。在一些情况下，所述治疗性干预是主动免疫疗法、被动免疫疗法或其组合。在一些情况下，所述治疗性干预是癌症疫苗、细胞因子治疗、免疫细胞治疗、抗体治疗或其组合。在一些情况下，所述抗体治疗包括引入靶向肿瘤的单克隆抗体、激活免疫细胞的抗体或其组合。在一些情况下，所述免疫-肿瘤学概况包含基于在(d)中鉴定的一种或多种癌症基因表达特征而预测的对一种或多种治疗剂的抗性水平。在一些情况下，在(c)中，所述去卷积算法向所述RNA测序数据应用去卷积矩阵，以量化所述样品中存在的一种或多种细胞类型。在一些情况下，所述去卷积矩阵包含多个免疫细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多个肿瘤细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述样品中存在的一种或多种细胞类型。在一些情况下，在(c)中，在至少500个基因中计算突变负荷。在一些情况下，在(c)中，在至少1000个基因中计算突变负荷。在一些情况下，在(c)中，在至少2000个基因中计算突变负荷。在一些情况下，在(c)中，所述多个基因包括至少500个基因。在一些情况下，在(c)中，所述多个基因包括至少1000个基因。在一些情况下，在(d)中，所述多个表达特征基因包括至少100个细胞表达特征基因。在一些情况下，在(d)中，所述多个表达特征基因包括至少200个细胞表达特征基因。在一些情况下，在(d)中，所述多个表达特征基因包括在至少两种细胞类型之间具有双峰表达特征的基因，各模式之间的重叠不超过50％。在一些情况下，在(d)中，所述去卷积算法需要不超过200个细胞表达特征基因来鉴定并量化所述一种或多种细胞类型，对于100个独立样品具有至少90％的准确度。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少一种白细胞细胞类型、基质细胞类型、肿瘤细胞类型或其组合。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少10种白细胞类型。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少20种白细胞类型。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少1种肿瘤细胞类型。在一些情况下，(a)包括从所述样品中获得RNA分子，并测定所述RNA分子上的基因表达水平。在一些情况下，(a)包括从所述样品中获得RNA分子，并对所述RNA分子进行逆转录聚合酶链反应以生成互补脱氧核糖核酸(cDNA)分子，并对所述cDNA分子进行测序。在一些情况下，所述cDNA分子用独特分子标识符进行标记，并在测序前通过聚合酶链反应进行扩增。在一些情况下，(a)包括对从所述样品生成的cDNA文库进行下一代RNA测序。在一些情况下，所述至少一种免疫调节分子是CTLA-4、PD-L1、LAG-3、KIR、TIM-3、CECAM1、VISTA、TIGIT、CD73或其组合。在一些情况下，所述样品是肿瘤活检物。在一些情况下，所述样品是至少一个福尔马林固定、石蜡包埋的(FFPE)卷曲切片(curl)。在一些情况下，所述样品的RNA完整性指数(RIN)不超过6.0。在一些情况下，所述样品的RNA完整性指数(RIN)不超过2.0。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过90％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过60％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过30％。在一些情况下，所述样品获自皮肤、血液、脑、膀胱、骨骼、骨髓、乳房、结肠、胃、食道、卵巢、子宫、胆囊、输卵管、睾丸、肾脏、肝脏、胰腺、肾上腺、子宫颈、子宫内膜、头或颈、肺、前列腺、胸腺、甲状腺、淋巴结或膀胱。在一些情况下，所述受试者患有癌症。在一些情况下，所述方法进一步包括以报告的形式呈现所述免疫-肿瘤学概况，所述报告具有表示在(b)中确定的基因表达水平、在(c)中计算的突变负荷以及在(d)中鉴定并量化的一种或多种细胞类型的图形元素。在一些情况下，在(b)中确定的基因表达水平与参考表达水平组合显示在所述报告中。在一些情况下，在(c)中计算的突变负荷沿着单轴显示，其范围在低突变负荷与高突变负荷之间。在一些情况下，在(d)中鉴定并量化的所述一种或多种细胞类型以饼图显示，该饼图指示所述样品中每种细胞类型的百分比。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据推荐治疗性干预的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况；以及(f)基于所述免疫-肿瘤学概况推荐治疗性干预。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据预测临床结果的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况；以及(f)基于所述免疫-肿瘤学概况对治疗性干预的临床结果进行预测，该预测对于至少100个独立样品具有至少90％的阳性预测值。

在另一方面，本文公开了基于核糖核酸(RNA)测序数据提供治疗性干预的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况；以及(f)基于所述免疫-肿瘤学概况提供治疗性干预。

在另一方面，本文公开了用于使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的系统，该系统包含：包含来自从受试者获得的样品的RNA测序数据的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(b)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(c)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；以及(d)基于在(a)中确定的基因表达水平、在(b)中计算的突变负荷和在(c)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况。在一些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的每一个的至少一个基因。在一些情况下，所述多个表达特征基因包括来自表2、3或4的至少10、20、30、40、50、60、70、80、90或100个基因。在一些情况下，所述免疫-肿瘤学概况包含预测的对治疗性干预的反应。在一些情况下，所述预测的反应是对治疗性干预的阳性反应或阴性反应。在一些情况下，阳性反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。在一些情况下，阴性反应包括肿瘤进展、对治疗性干预缺乏反应或其组合。在一些情况下，所述治疗性干预包括免疫疗法。在一些情况下，所述治疗性干预进一步包括放疗、化疗、手术或其组合。在一些情况下，所述一个或多个计算机处理器被编程为基于所述免疫-肿瘤学概况提供建议。在一些情况下，所述建议是开始、停止、改变或继续治疗性干预。在一些情况下，使用所述概况为所述受试者提供治疗性干预。在一些情况下，所述治疗性干预是主动免疫疗法、被动免疫疗法或其组合。在一些情况下，所述治疗性干预是癌症疫苗、细胞因子治疗、免疫细胞治疗、抗体治疗或其组合。在一些情况下，所述抗体治疗包括引入靶向肿瘤的单克隆抗体、激活免疫细胞的抗体或其组合。在一些情况下，所述免疫-肿瘤学概况包含基于在(d)中鉴定的一个或多个癌症基因表达特征而预测的对一种或多种治疗剂的抗性水平。在一些情况下，在(c)中，所述去卷积算法向所述RNA测序数据应用去卷积矩阵，以量化所述样品中存在的一种或多种细胞类型。在一些情况下，所述去卷积矩阵包含多个免疫细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多个肿瘤细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归(SVR)来鉴定并量化所述样品中存在的一种或多种细胞类型。在一些情况下，在(c)中，在至少500个基因中计算突变负荷。在一些情况下，在(c)中，在至少1000个基因中计算突变负荷。在一些情况下，在(c)中，在至少2000个基因中计算突变负荷。在一些情况下，在(c)中，所述多个基因包括至少500个基因。在一些情况下，在(c)中，所述多个基因包括至少1000个基因。在一些情况下，在(d)中，所述多个表达特征基因包括至少100个细胞表达特征基因。在一些情况下，在(d)中，所述多个表达特征基因包括至少200个细胞表达特征基因。在一些情况下，在(d)中，所述多个表达特征基因包括在至少两种细胞类型之间具有双峰表达特征的基因，各模式之间的重叠不超过50％。在一些情况下，在(d)中，所述去卷积算法需要不超过200个细胞表达特征基因来鉴定并量化所述一种或多种细胞类型，对于至少100个独立样品具有至少90％的准确度。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少一种白细胞细胞类型、基质细胞类型、肿瘤细胞类型或其组合。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少10种白细胞类型。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少20种白细胞类型。在一些情况下，在(d)中，所述一种或多种细胞类型包括至少1种肿瘤细胞类型。在一些情况下，(a)包括从所述样品中获得RNA分子，并测定所述RNA分子上的基因表达水平。在一些情况下，(a)包括从所述样品中获得RNA分子，并对所述RNA分子进行逆转录聚合酶链反应以生成互补脱氧核糖核酸(cDNA)分子，并对所述cDNA分子进行测序。在一些情况下，所述cDNA分子用独特分子标识符进行标记，并在测序前通过聚合酶链反应进行扩增。在一些情况下，(a)包括对从所述样品生成的cDNA文库进行下一代RNA测序。在一些情况下，所述至少一种免疫调节分子是CTLA-4、PD-L1、LAG-3、KIR、TIM-3、CECAM1、VISTA、TIGIT、CD73或其组合。在一些情况下，所述样品是肿瘤活检物。在一些情况下，所述样品是至少一个福尔马林固定、石蜡包埋的(FFPE)卷曲切片。在一些情况下，所述样品的RNA完整性指数(RIN)不超过6.0。在一些情况下，所述样品的RNA完整性指数(RIN)不超过2.0。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过90％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过60％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过30％。在一些情况下，所述样品获自皮肤、血液、脑、膀胱、骨骼、骨髓、乳房、结肠、胃、食道、卵巢、子宫、胆囊、输卵管、睾丸、肾脏、肝脏、胰腺、肾上腺、子宫颈、子宫内膜、头或颈、肺、前列腺、胸腺、甲状腺、淋巴结或膀胱。在一些情况下，所述受试者患有癌症。在一些情况下，所述免疫-肿瘤学概况以报告的形式呈现，所述报告具有表示在(b)中确定的基因表达水平、在(c)中计算的突变负荷以及在(d)中量化的一种或多种细胞类型的图形元素。在一些情况下，在(b)中确定的基因表达水平与参考表达水平组合显示在所述报告中。在一些情况下，在(c)中计算的突变负荷沿着单轴显示，其范围在低突变负荷与高突变负荷之间。在一些情况下，在(d)中鉴定并量化的所述一种或多种细胞类型以饼图显示，该饼图指示所述样品中每种细胞类型的百分比。

在另一方面，本文公开了用于使用核糖核酸(RNA)测序数据推荐治疗性干预的系统，该系统包含：包含来自从受试者获得的样品的RNA测序数据的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(b)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(c)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；(d)基于在(a)中确定的基因表达水平、在(b)中计算的突变负荷和在(c)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况；以及(e)基于所述免疫-肿瘤学概况推荐治疗性干预。

在另一方面，本文公开了用于使用核糖核酸(RNA)测序数据预测临床结果的系统，该系统包含：包含来自从受试者获得的样品的RNA测序数据的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(b)分析所述RNA测序数据的至少一个子集，以基于来自表5的多个基因计算突变负荷；(c)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于来自表1A-1E的多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型；(d)基于在(a)中确定的基因表达水平、在(b)中计算的突变负荷和在(c)中量化的一种或多种细胞类型，生成免疫-肿瘤学概况；以及(e)基于所述免疫-肿瘤学概况对治疗性干预的临床结果进行预测，该预测对于至少100个独立样品具有至少90％的阳性预测值。

在另一方面，本文公开了分析核糖核酸(RNA)测序数据的方法，该方法包括：(a)从受试者的样品获得包含多个RNA分子的文库；(b)使所述文库与被配置用于富集对应于靶基因的RNA分子的诱饵组接触，所述靶基因包括选自表1A-1E和表5的多个基因；(c)对所述靶基因进行RNA测序以生成RNA测序数据；以及(d)分析所述RNA测序数据以生成免疫-肿瘤学概况，该免疫-肿瘤学概况包含：至少一个免疫调节基因的基因表达、突变负荷和细胞类型定量。在一些情况下，所述免疫-肿瘤学概况包含预测的对治疗性干预的反应。在一些情况下，所述预测的反应是对治疗性干预的阳性反应或阴性反应。在一些情况下，阳性反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。在一些情况下，阴性反应包括肿瘤进展、对治疗性干预缺乏反应或其组合。在一些情况下，所述治疗性干预包括免疫疗法。在一些情况下，所述治疗性干预进一步包括放疗、化疗、手术或其组合。在一些情况下，所述方法进一步包括基于免疫-肿瘤学概况提供建议。在一些情况下，所述建议是开始、停止、改变或继续治疗性干预。在一些情况下，所述方法进一步包括使用所述概况为所述受试者提供治疗性干预。在一些情况下，所述治疗性干预是主动免疫疗法、被动免疫疗法或其组合。在一些情况下，所述治疗性干预是癌症疫苗、细胞因子治疗、免疫细胞治疗、抗体治疗或其组合。在一些情况下，所述抗体治疗包括引入靶向肿瘤的单克隆抗体、激活免疫细胞的抗体或其组合。在一些情况下，所述免疫-肿瘤学概况包含基于在(d)中鉴定的一个或多个癌症基因表达特征而预测的对一种或多种治疗剂的抗性水平。在一些情况下，在(d)中，去卷积算法向所述RNA测序数据应用去卷积矩阵，以量化所述样品中存在的一种或多种细胞类型。在一些情况下，所述去卷积矩阵包含多个免疫细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多个肿瘤细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述样品中存在的一种或多种细胞类型。在一些情况下，所述多个表达特征基因包括至少200个细胞表达特征基因。在一些情况下，所述多个表达特征基因包括在至少两种细胞类型之间具有双峰表达特征的基因，各模式之间的重叠不超过50％。在一些情况下，所述去卷积算法需要不超过200个细胞表达特征基因来鉴定并量化所述一种或多种细胞类型，对于100个独立样品具有至少90％的准确度。在一些情况下，所述一种或多种细胞类型包括至少一种白细胞细胞类型、基质细胞类型、肿瘤细胞类型或其组合。在一些情况下，所述一种或多种细胞类型包括至少10种白细胞类型。在一些情况下，所述一种或多种细胞类型包括至少20种白细胞类型。在一些情况下，所述一种或多种细胞类型包括至少1种肿瘤细胞类型。在一些情况下，在(d)中，在至少500个基因中计算突变负荷。在一些情况下，在(d)中，在至少1000个基因中计算突变负荷。在一些情况下，在(d)中，在至少2000个基因中计算突变负荷。在一些情况下，在(d)中，所述多个基因包括至少500个基因。在一些情况下，在(d)中，所述多个基因包括至少1000个基因。在一些情况下，在(d)中，所述多个表达特征基因包括至少100个细胞表达特征基因。在一些情况下，(c)包括测定靶基因的基因表达水平。在一些情况下，(a)包括从所述样品中获得RNA分子，并对所述RNA分子进行逆转录聚合酶链反应以生成互补脱氧核糖核酸(cDNA)分子，并对所述cDNA分子进行测序。在一些情况下，所述至少一种免疫调节分子是CTLA-4、PD-L1、LAG-3、KIR、TIM-3、CECAM1、VISTA、TIGIT、CD73或其组合。在一些情况下，所述样品是肿瘤活检物。在一些情况下，所述样品是至少一个福尔马林固定、石蜡包埋的(FFPE)卷曲切片。在一些情况下，所述样品的RNA完整性指数(RIN)不超过6.0。在一些情况下，所述样品的RNA完整性指数(RIN)不超过2.0。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过90％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过60％。在一些情况下，所述样品包含大小至少为200个核苷酸的RNA分子，这些RNA分子占所述样品中总RNA的不超过30％。在一些情况下，所述样品获自皮肤、血液、脑、膀胱、骨骼、骨髓、乳房、结肠、胃、食道、卵巢、子宫、胆囊、输卵管、睾丸、肾脏、肝脏、胰腺、肾上腺、子宫颈、子宫内膜、头或颈、肺、前列腺、胸腺、甲状腺、淋巴结或膀胱。在一些情况下，所述受试者患有癌症。在一些情况下，所述方法进一步包括以报告的形式呈现所述免疫-肿瘤学概况，所述报告具有表示在(b)中确定的基因表达水平、在(c)中计算的突变负荷以及在(d)中量化的一种或多种细胞类型的图形元素。在一些情况下，在(b)中确定的基因表达水平与参考表达水平组合显示在所述报告中。在一些情况下，在(c)中计算的突变负荷沿着单轴显示，其范围在低突变负荷与高突变负荷之间。在一些情况下，在(d)中鉴定并量化的一种或多种细胞类型以饼图显示，该饼图指示所述样品中每种细胞类型的百分比。

在另一方面，本文公开了分析数据集的方法，该数据集包含来自单个来源的多个组分的信息，该方法包括：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；以及(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况。在一些情况下，所述输出概况包含预测的对程序(procedure)的反应。在一些情况下，所述预测的反应是对所述程序的阳性反应或阴性反应。在一些情况下，所述方法进一步包括基于所述输出概况提供建议。在一些情况下，所述建议是开始、停止、改变或继续程序。在一些情况下，所述方法进一步包括使用所述概况提供程序。在一些情况下，在(d)中，所述去卷积算法向所述数据集的子集应用去卷积矩阵，以鉴定并量化构成所述多个组分的所述一个或多个组分。在一些情况下，所述去卷积矩阵包含用于多个组分的多个数据成员特征。在一些情况下，所述去卷积矩阵包含多个组分，每个组分包含多个数据成员特征，其中每个数据成员特征在所述多个组分中进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述多个组分。在一些情况下，在(d)中，在至少500个数据成员中计算变异指标。在一些情况下，在(d)中，在至少1000个数据成员中计算变异指标。在一些情况下，在(d)中，在至少2000个数据成员中计算变异指标。在一些情况下，在(d)中，所述多个数据成员包括至少500个数据成员。在一些情况下，在(d)中，所述多个数据成员包括至少1000个数据成员。在一些情况下，在(d)中，所述多个数据成员特征包括至少100个数据成员特征。在一些情况下，所述多个数据成员特征包括至少200个数据成员特征。在一些情况下，所述多个数据成员特征包括在至少两个组分之间具有双峰表达特征的数据成员特征，各模式之间的重叠不超过50％。在一些情况下，所述去卷积算法需要不超过200个数据成员特征来鉴定并量化所述一个或多个组分，对于100个独立数据集具有至少90％的准确度。在一些情况下，所述方法进一步包括以报告的形式呈现所述输出概况，所述报告具有表示在(b)中确定的至少一个数据成员的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的一个或多个组分的图形元素。在一些情况下，在(b)中确定的至少一个数据成员的数值量化器与参考数值量化器组合显示在所述报告中。在一些情况下，在(c)中计算的变异指标沿着单轴显示，其范围在低变异与高变异之间。在一些情况下，在(d)中鉴定并量化的一个或多个组分以饼图显示，该饼图指示每个组分的百分比。

在另一方面，本文公开了基于数据集进行推荐的方法，该数据集包含来自单个来源的多个组分的信息，该方法包括：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况；以及(f)基于所述输出概况推荐程序。

在另一方面，本文公开了基于数据集进行推荐的方法，该数据集包含来自单个来源的多个组分的信息，该方法包括：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况；以及(f)基于所述输出概况对程序的结果进行预测，对于至少100个独立数据集，该预测具有至少90％的阳性预测值。

在另一方面，本文公开了用于分析数据集的系统，该数据集包含来自单个来源的多个组分的信息，该系统包含：包含该数据集的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；以及(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况。在一些情况下，所述输出概况包含预测的对程序的反应。在一些情况下，所述预测的反应是对所述程序的阳性反应或阴性反应。在一些情况下，所述输出概况用来提供建议。在一些情况下，所述建议是开始、停止、改变或继续程序。在一些情况下，所述输出概况用来提供程序。在一些情况下，在(d)中，所述去卷积算法向所述数据集的子集应用去卷积矩阵，以鉴定并量化构成所述多个组分的所述一个或多个组分。在一些情况下，所述去卷积矩阵包含用于多个组分的多个数据成员特征。在一些情况下，所述去卷积矩阵包含多个组分特征，每个组分特征包含多个数据成员特征，其中每个数据成员特征在所述多个组分特征中进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述多个组分。在一些情况下，在(d)中，在至少500个数据成员中计算变异指标。在一些情况下，在(d)中，在至少1000个数据成员中计算变异指标。在一些情况下，在(d)中，在至少2000个数据成员中计算变异指标。在一些情况下，在(d)中，所述多个数据成员包括至少500个数据成员。在一些情况下，在(d)中，所述多个数据成员包括至少1000个数据成员。在一些情况下，在(d)中，所述多个数据成员特征包括至少100个数据成员特征。在一些情况下，所述多个数据成员特征包括至少200个数据成员特征。在一些情况下，所述多个数据成员特征包括在至少两个组分特征之间具有双峰表达特征的数据成员特征，各模式之间的重叠不超过50％。在一些情况下，所述去卷积算法需要不超过200个数据成员特征来鉴定并量化所述一个或多个组分，对于100个独立数据集具有至少90％的准确度。在一些情况下，所述输出概况以报告的形式呈现，所述报告具有表示在(b)中确定的至少一个数据成员的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分的图形元素。在一些情况下，在(b)中确定的至少一个数据成员的数值量化器与参考数值量化器组合显示在所述报告中。在一些情况下，在(c)中计算的变异指标沿着单轴显示，其范围在低变异与高变异之间。在一些情况下，在(d)中鉴定并量化的所述一个或多个组分以饼图显示，该饼图指示每个组分的百分比。

在另一方面，本文公开了用于分析数据集的系统，该数据集包含来自单个来源的多个组分的信息，该系统包含：包含该数据集的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况；以及(f)基于所述输出概况推荐程序。

在另一方面，本文公开了用于分析数据集的系统，该数据集包含来自单个来源的多个组分的信息，该系统包含：包含该数据集的数据库；以及耦合至所述数据库的一个或多个计算机处理器，其中所述一个或多个计算机处理器被单独地或共同地编程为用来：(a)获得数据集，该数据集包含所述多个组分中多个数据成员的序列和数量信息；(b)评价所述数据集的至少一个子集，以确定至少一个数据成员的数值量化器；(c)分析所述数据集的至少一个子集，以基于所述序列信息计算变异指标；(d)向所述数据集的至少一个子集应用去卷积算法，以基于多个数据成员特征来鉴定并量化构成所述多个组分的一个或多个组分；(e)基于在(b)中确定的数值量化器、在(c)中计算的变异指标和在(d)中鉴定并量化的所述一个或多个组分来生成输出概况；以及(f)基于所述输出概况对程序的结果进行预测，对于至少100个独立数据集，该预测具有至少90％的阳性预测值。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于多个基因计算突变负荷，其中用与突变负荷金标准的至少约80％的相关性计算所述突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型，其中用与去卷积金标准的至少约80％的相关性鉴定并量化所述一种或多种细胞类型；以及(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的所述一种或多种细胞类型，生成免疫-肿瘤学概况。在一些情况下，用与突变负荷金标准的至少约90％的相关性计算所述突变负荷。有时，用与去卷积金标准的至少约90％的相关性鉴定并量化所述一种或多种细胞类型。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于多个基因计算突变负荷，其中以至少约80％的准确度计算所述突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型，其中以至少约80％的准确度鉴定并量化所述一种或多种细胞类型；以及(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的所述一种或多种细胞类型，生成免疫-肿瘤学概况。在一些情况下，以至少约90％的特异性计算所述突变负荷。有时，以至少约90％的特异性鉴定并量化所述一种或多种细胞类型。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于多个基因计算突变负荷，其中以至少约80％的特异性计算所述突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型，其中以至少约80％的特异性鉴定并量化所述一种或多种细胞类型；以及(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的所述一种或多种细胞类型，生成免疫-肿瘤学概况。在一些情况下，以至少约90％的特异性计算所述突变负荷。有时，以至少约90％的特异性鉴定并量化所述一种或多种细胞类型。

在另一方面，本文公开了使用核糖核酸(RNA)测序数据生成免疫-肿瘤学概况的方法，其包括：(a)从获自受试者的样品获得RNA测序数据；(b)评价所述RNA测序数据的至少一个子集，以确定至少一个免疫调节基因的基因表达水平；(c)分析所述RNA测序数据的至少一个子集，以基于多个基因计算突变负荷，其中以至少约80％的灵敏度计算所述突变负荷；(d)对所述RNA测序数据的至少一个子集应用去卷积算法，以基于多个表达特征基因鉴定并量化所述样品中存在的一种或多种细胞类型，其中以至少约80％的灵敏度鉴定并量化所述一种或多种细胞类型；以及(e)基于在(b)中确定的基因表达水平、在(c)中计算的突变负荷和在(d)中量化的所述一种或多种细胞类型，生成免疫-肿瘤学概况。有时，以至少约90％的灵敏度计算所述突变负荷。在某些情况下，以至少约90％的灵敏度鉴定并量化所述一种或多种细胞类型。

在另一方面，本文公开了鉴定包含多种细胞类型的生物样品中的至少一种细胞类型的方法，其包括：(a)从受试者获得生物样品，并富集对应于去卷积矩阵中存在的多个表达特征基因的核糖核酸(RNA)，该去卷积矩阵被定制用于基于样品类型鉴定所述生物样品中存在的细胞类型；(b)对所述RNA进行测序以获得RNA测序数据；(c)确定从所述生物样品中富集的所述RNA的基因表达水平；(d)应用去卷积矩阵，以评价所述RNA测序数据的至少一个子集和基因表达水平，从而以至少90％的准确度鉴定多种细胞类型和所述多种细胞类型的比例。在一些情况下，所述多种细胞类型包括至少两种细胞类型。有时，所述多种细胞类型包括至少三种细胞类型。在多个方面，所述生物样品为非癌症样品。在某些情况下，所述生物样品为癌症样品。所述生物样品常常是非癌症样品。在一些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少两个的至少一个基因。有时，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少三个的至少一个基因。在多个方面，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少四个的至少一个基因。在某些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的每一个的至少一个基因。在一些情况下，所述多个表达特征基因包括来自表2、3或4的至少10、20、30、40、50、60、70、80、90或100个基因。通常，所述方法进一步包括基于多种细胞类型和所述多种细胞类型的比例来预测疾病诊断。在某些情况下，对RNA进行测序包括对RNA进行逆转录以生成互补DNA(cDNA)。有时，所述方法进一步包括对cDNA或其衍生物进行测序以获得RNA测序数据。

在一些方面，本文公开了鉴定包含多种细胞类型的生物样品中的至少一种细胞类型的方法，其包括：(a)从受试者获得生物样品，并富集对应于去卷积矩阵中存在的多个表达特征基因的核糖核酸(RNA)，该去卷积矩阵被定制用于基于样品类型鉴定所述生物样品中存在的细胞类型；(b)对所述RNA进行测序以获得RNA测序数据；(c)确定从所述生物样品中富集的所述RNA的基因表达水平；(d)应用去卷积矩阵，以评价所述RNA测序数据的至少一个子集和基因表达水平，从而以至少90％的特异性鉴定多种细胞类型和所述多种细胞类型的比例。在一些情况下，所述多种细胞类型包括至少两种细胞类型。有时，所述多种细胞类型包括至少三种细胞类型。在多个方面，所述生物样品为非癌症样品。在某些情况下，所述生物样品为癌症样品。所述生物样品常常是非癌症样品。在一些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少两个的至少一个基因。有时，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少三个的至少一个基因。在多个方面，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少四个的至少一个基因。在某些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的每一个的至少一个基因。在一些情况下，所述多个表达特征基因包括来自表2、3或4的至少10、20、30、40、50、60、70、80、90或100个基因。通常，所述方法进一步包括基于多种细胞类型和所述多种细胞类型的比例来预测疾病诊断。在某些情况下，对RNA进行测序包括对RNA进行逆转录以生成互补DNA(cDNA)。有时，所述方法进一步包括对cDNA或其衍生物进行测序以获得RNA测序数据。

在另一方面，本文公开了鉴定包含多种细胞类型的生物样品中的至少一种细胞类型的方法，其包括：(a)从受试者获得生物样品，并富集对应于去卷积矩阵中存在的多个表达特征基因的核糖核酸(RNA)，该去卷积矩阵被定制用于基于样品类型鉴定所述生物样品中存在的细胞类型；(b)对所述RNA进行测序以获得RNA测序数据；(c)确定从所述生物样品中富集的所述RNA的基因表达水平；(d)应用去卷积矩阵，以评价所述RNA测序数据的至少一个子集和基因表达水平，从而以至少90％的灵敏度鉴定多种细胞类型和所述多种细胞类型的比例。在一些情况下，所述多种细胞类型包括至少两种细胞类型。有时，所述多种细胞类型包括至少三种细胞类型。在多个方面，所述生物样品为非癌症样品。在某些情况下，所述生物样品为癌症样品。所述生物样品常常是非癌症样品。在一些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少两个的至少一个基因。有时，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少三个的至少一个基因。在多个方面，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的至少四个的至少一个基因。在某些情况下，所述多个表达特征基因包括来自表1A、1B、1C、1D和1E中的每一个的至少一个基因。在一些情况下，所述多个表达特征基因包括来自表2、3或4的至少10、20、30、40、50、60、70、80、90或100个基因。通常，所述方法进一步包括基于多种细胞类型和所述多种细胞类型的比例来预测疾病诊断。在某些情况下，对RNA进行测序包括对RNA进行逆转录以生成互补DNA(cDNA)。有时，所述方法进一步包括对cDNA或其衍生物进行测序以获得RNA测序数据。

本公开还提供了用于分析从患有疾病或病况的受试者获得的生物样品的计算机实现的方法，该方法包括：(a)从所述生物样品获得包含至少一个免疫调节基因的表达的基因表达数据；(b)基于多个表达特征基因鉴定并量化所述生物样品中存在的至少一种细胞类型的百分比；以及(c)使用分类器分析所述至少一个免疫调节基因的表达和所述至少一种细胞类型的百分比，以便对所述样品进行分类。在一些情况下，将所述样品分类为至少两组之一。在一些情况下，所述至少两组包括对所述疾病或病况的治疗性干预具有阳性反应的组和对该治疗性干预具有阴性反应的组。在一些情况下，阳性反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。在一些情况下，阴性反应包括肿瘤进展、对治疗性干预缺乏反应或其组合。在一些情况下，所述治疗性干预包括免疫疗法。在一些情况下，所述免疫疗法包括癌症疫苗、细胞因子治疗、免疫细胞治疗、抗体治疗或其组合。在一些情况下，所述治疗性干预包括放疗、化疗、手术或其组合。在一些情况下，所述方法进一步包括提供开始、停止、改变或继续所述治疗性干预的指令。在一些情况下，所述疾病或病况是癌症。在一些情况下，所述至少一种细胞类型包括至少一种免疫细胞类型。在一些情况下，所述至少一种免疫细胞类型选自CD4+记忆T细胞、CD4+幼稚T细胞、CD4+T细胞、中央记忆T(Tcm)细胞、效应记忆T(Tem)细胞、CD4+Tcm、CD4+Tem、CD8+T细胞、CD8+幼稚T细胞、CD8+Tcm、CD8+Tem、调节性T细胞(Treg)、T辅助(Th)1细胞、Th2细胞、γδT(Tgd)细胞、自然杀伤(NK)细胞、自然杀伤T(NKT)细胞、B细胞、幼稚B细胞、记忆B细胞、类别转换记忆B细胞、原B细胞和浆细胞。在一些情况下，所述至少一种免疫细胞类型选自M1巨噬细胞、M2巨噬细胞、CD19+B细胞、CD14+单核细胞、CD56+NK细胞、CD8+T细胞、Treg细胞和CD4+T细胞。在一些情况下，所述至少一个免疫调节基因选自CTLA4、OX40、PD-1、IDO1、CD47、PD-L1、TIM-3、BTLA、ICOS和ARG1。在一些情况下，所述至少一种细胞类型包括至少2、3、4、5、6、7或8种细胞类型。在一些情况下，所述至少一个免疫调节基因包括至少2、3、4、5、6、7、8、9或10个基因。在一些情况下，使用机器学习算法生成所述分类器。在一些情况下，所述机器学习算法是随机森林算法。在一些情况下，使用来自不超过50个样品的数据训练所述分类器。在一些情况下，所述生物样品包含癌症或癌前期组织。在一些情况下，对所述受试者的结果预测是对治疗性干预的阳性反应或阴性反应。在一些情况下，对所述受试者的结果预测是疾病或病况的预后。在一些情况下，使用去卷积算法生成所述至少一种细胞类型的百分比，该算法向所述生物样品的RNA测序数据应用去卷积矩阵。在一些情况下，所述去卷积算法向所述基因表达数据应用去卷积矩阵，以鉴定并量化所述至少一种细胞类型的百分比。在一些情况下，所述去卷积矩阵包含多个免疫细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多个肿瘤细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述生物样品中存在的至少一种细胞类型。在一些情况下，所述去卷积算法进行RNA归一化步骤，以补偿所述至少一种细胞类型之间的RNA量的变化，以便提高所量化的百分比的准确度。在一些情况下，所述去卷积算法是使用包含所述至少一种细胞类型的实际百分比的比较数据训练的机器学习算法。在一些情况下，所述实际百分比是使用流式细胞术生成的。在一些情况下，所述方法进一步包括对所述生物样品进行下一代RNA测序，以获得RNA表达数据和多个表达特征基因。在一些情况下，所述方法进一步包括获得所述生物样品的突变负荷数据，并将该突变负荷数据输入到分类器中进行分析，以便增强所述生物样品的分类。在一些情况下，所述分类器在来自不超过15、20、25、30、35、40、45或50个样品的数据上进行训练，并且提供至少70％、75％、80％、85％、90％或95％的准确度。在一些情况下，使用留一法交叉验证方法计算准确度。在一些情况下，所述基因表达数据是RNA测序数据。在一些情况下，使用下一代测序获得所述基因表达数据。

本公开还公开了用于分析从患有疾病或病况的受试者获得的生物样品的系统，该系统包含：包含数据集的数据库；以及耦合至所述数据库的至少一个计算机处理器，其中所述至少一个计算机处理器被编程为进行包括以下步骤的步骤：(a)从所述生物样品获得至少一个免疫调节基因的基因表达数据；(b)基于多个表达特征基因鉴定并量化所述生物样品中存在的至少一种细胞类型的百分比；以及(c)使用分类器分析所述至少一个免疫调节基因的表达和所述至少一种细胞类型的百分比，以便对所述样品进行分类。在一些情况下，将所述样品分类为至少两组之一。在一些情况下，所述至少两组包括对所述疾病或病况的治疗性干预具有阳性反应的组和对该治疗性干预具有阴性反应的组。在一些情况下，阳性反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。在一些情况下，阴性反应包括肿瘤进展、对治疗性干预缺乏反应或其组合。在一些情况下，所述治疗性干预包括免疫疗法。在一些情况下，所述免疫疗法包括癌症疫苗、细胞因子治疗、免疫细胞治疗、抗体治疗或其组合。在一些情况下，所述治疗性干预包括放疗、化疗、手术或其组合。在一些情况下，所述至少一个处理器进一步被编程为提供开始、停止、改变或继续所述治疗性干预的指令。在一些情况下，所述疾病或病况是癌症。在一些情况下，所述至少一种细胞类型包括至少一种免疫细胞类型。在一些情况下，所述至少一种免疫细胞类型选自CD4+记忆T细胞、CD4+幼稚T细胞、CD4+T细胞、中央记忆T(Tcm)细胞、效应记忆T(Tem)细胞、CD4+Tcm、CD4+Tem、CD8+T细胞、CD8+幼稚T细胞、CD8+Tcm、CD8+Tem、调节性T细胞(Treg)、T辅助(Th)1细胞、Th2细胞、γδT(Tgd)细胞、自然杀伤(NK)细胞、自然杀伤T(NKT)细胞、B细胞、幼稚B细胞、记忆B细胞、类别转换记忆B细胞、原B细胞和浆细胞。在一些情况下，所述至少一种免疫细胞类型选自M1巨噬细胞、M2巨噬细胞、CD19+B细胞、CD14+单核细胞、CD56+NK细胞、CD8+T细胞、Treg细胞和CD4+T细胞。在一些情况下，所述至少一个免疫调节基因选自CTLA4、OX40、PD-1、IDO1、CD47、PD-L1、TIM-3、BTLA、ICOS和ARG1。在一些情况下，所述至少一种细胞类型包括至少2、3、4、5、6、7或8种细胞类型。在一些情况下，所述至少一个免疫调节基因包括至少2、3、4、5、6、7、8、9或10个基因。在一些情况下，使用机器学习算法生成所述分类器。在一些情况下，所述机器学习算法是随机森林算法。在一些情况下，使用来自不超过50个样品的数据训练所述分类器。在一些情况下，所述生物样品包含癌症或癌前期组织。在一些情况下，对所述受试者的结果预测是对治疗性干预的阳性反应或阴性反应。在一些情况下，对所述受试者的结果预测是疾病或病况的预后。在一些情况下，使用去卷积算法生成所述至少一种细胞类型的百分比，该算法向所述生物样品的RNA测序数据应用去卷积矩阵。在一些情况下，所述去卷积算法向所述基因表达数据应用去卷积矩阵，以鉴定并量化所述至少一种细胞类型的百分比。在一些情况下，所述去卷积矩阵包含多个免疫细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多个肿瘤细胞表达特征基因。在一些情况下，所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。在一些情况下，所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来鉴定并量化所述生物样品中存在的至少一种细胞类型。在一些情况下，所述去卷积算法进行RNA归一化步骤，以补偿所述至少一种细胞类型之间的RNA量的变化，以便提高所量化的百分比的准确度。在一些情况下，所述去卷积算法是使用包含所述至少一种细胞类型的实际百分比的比较数据训练的机器学习算法。在一些情况下，所述实际百分比是使用流式细胞术生成的。在一些情况下，使用下一代RNA测序从所述生物样品获得所述RNA表达数据和所述多个表达特征基因。在一些情况下，所述至少一个处理器进一步被编程为获得所述生物样品的突变负荷数据，并将该突变负荷数据输入到分类器中进行分析，以便增强所述生物样品的分类。在一些情况下，所述分类器在来自不超过15、20、25、30、35、40、45或50个样品的数据上进行训练，并且提供至少70％、75％、80％、85％、90％或95％的准确度。在一些情况下，使用留一法交叉验证方法计算准确度。在一些情况下，所述基因表达数据是RNA测序数据。在一些情况下，使用下一代测序获得所述基因表达数据。

本公开的另一方面提供了一种非暂时性计算机可读介质，其包含在被一个或多个计算机处理器执行时实现上文或本文别处所述的任何方法的机器可执行代码。

本公开的另一方面提供了一种系统，其包含一个或多个计算机处理器和与之耦合的计算机存储器。所述计算机存储器包含在被一个或多个计算机处理器执行时实现上文或本文别处所述的任何方法的机器可执行代码。

基于仅示出并描述了本公开的说明性实施方案的以下详细描述，本公开的其他方面和优点对本领域技术人员而言将变得显而易见。应当认识到，本公开能够具有其他不同的实施方案，并且其若干细节能够在各个明显的方面进行修改，所有这些都不脱离本公开内容。因此，附图和说明书在本质上将被视为说明性的，而非限制性的。

援引并入

本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文，其程度犹如具体地且单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

附图说明

本专利或申请文件包含至少一张以彩色绘制的附图。在请求并支付必要的费用后，专利局将会提供具有彩图的该专利或专利申请公布文本的副本。

本发明的新颖特征在所附权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述以及附图(在本文中也称为“图”)，将会对本发明的特征和优点获得更好的理解，在这些附图中：

图1描绘了用于表征肿瘤微环境的示例工作流程。

图2描绘了用于细胞类型和比例去卷积的示例工作流程。

图3描绘了归一化的示意图。

图4A、图4B、图4C和图4D描绘了鉴定肿瘤突变负荷的方法。

图5A和图5B描绘了胶质母细胞瘤中的基因表达水平。

图6描绘了结直肠癌和血液癌症中的基因表达水平。

图7描绘了显示免疫调节分子表达、突变负荷和细胞去卷积结果的报告。

图8示意性地示出了被编程或以其他方式配置用于实现本文提供的方法的计算机系统。

图9显示了对于每种免疫细胞类型，每个细胞的总RNA的平均量。

图10A显示了通过去卷积在不同稀释点计算的M1巨噬细胞的观察、预期和校正数目的图。

图10B显示了通过去卷积在不同稀释点计算的M2巨噬细胞的观察、预期和校正数目的图。

图10C显示了通过去卷积在不同稀释点计算的M1巨噬细胞的观察、预期和校正数目的另一幅图。

图10D显示了通过去卷积在不同稀释点计算的M2巨噬细胞的观察、预期和校正数目的另一幅图。

图10E显示了通过去卷积在不同稀释点计算的M1巨噬细胞的观察、预期和校正数目的另一幅图。

图10F显示了通过去卷积在不同稀释点计算的M2巨噬细胞的观察、预期和校正数目的另一幅图。

图11示出的图描绘了已知细胞百分比与使用本文所述的去卷积方法获得的估计细胞百分比的比较。

图12A显示了指示“逃逸”生物标志物、“免疫”生物标志物和多分析物“paragon”分类器的预测准确度的条形图。

图12B显示了箱须图，其针对预测性最强的“逃逸”生物标志物对样品组的统计数据进行了可视化。

图12C显示了箱须图，其针对预测性最强的“免疫”生物标志物对样品组的统计数据进行了可视化。

图13描绘了示例流程图，其示出了如实施例7所述生成单分析物和多分析物分类器的方法。

具体实施方式

除非另有说明，否则本公开采用在本领域技术范围内的常规分子生物学技术。除非另有定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。

贯穿本公开内容，多个实施方案以范围格式给出。应当理解，范围格式的描述只是为了方便和简明，而不应被解释为对任何实施方案的范围的硬性限制。因此，除非上下文另有明确规定，否则对范围的描述应被认为明确公开了所有可能的子范围以及该范围内精确到下限单位十分之一的各个数值。例如，对诸如从1至6的范围的描述应被认为已经明确公开了诸如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等子范围，以及该范围内的各个值，例如，1.1、2、2.3、5和5.9。无论范围的宽度如何，这都是适用的。这些中间范围的上限和下限可独立地包括在较小的范围内，并且也被涵盖于本公开内容中，受所述范围中任何具体排除的限值所约束。除非上下文另有明确规定，否则在所述范围包括限值之一或两者的情况下，排除了这些所包含的限值中的任一个或两者的范围也被包括在本公开内容中。

本文使用的术语仅用于描述特定实施方案的目的，而非旨在限制任何实施方案。除非上下文另有明确规定，否则如本文所用的单数形式“一个”、“一种”和“该”也意欲包括复数形式。进一步应当理解，术语“包括”和/或“包含”在本说明书中使用时指代所述特征、整数、步骤、操作、元件和/或组分的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组分和/或其群体。如本文所用的，术语“和/或”包括一个或多个相关所列项目的任何及所有组合。

如本文所用的术语“核糖核酸”或“RNA”是指包含至少一个核糖核苷酸残基的分子。RNA可包括转录物。“核糖核苷酸”是指在β-D-核糖-呋喃糖部分的2’位置具有羟基的核苷酸。术语RNA包括但不限于mRNA、核糖体RNA、tRNA、非蛋白质编码RNA(npcRNA)、非信使RNA、功能性RNA(fRNA)、长非编码RNA(lncRNA)、前体mRNA和主要miRNA(pri-miRNA)。术语RNA包括，例如，双链(ds)RNA；单链RNA；分离的RNA，如部分纯化的RNA、基本上纯的RNA、合成RNA、重组RNA，以及通过一个或多个核苷酸的添加、缺失、置换和/或改变而与天然存在的RNA不同的改变RNA。这类改变可包括将非核苷酸物质添加至例如siRNA的末端或内部，例如RNA的一个或多个核苷酸处。本文所述的RNA分子中的核苷酸还可包括非标准核苷酸，如非天然存在的核苷酸或化学合成的核苷酸或脱氧核苷酸。这些改变的RNA可被称为类似物或天然存在的RNA的类似物。

除非特别说明或从上下文中可以明显看出，否则如本文所用的，关于数字或数字范围的术语“约”应被理解为表示所述数字及其+/-10％的数字，或者对于范围列出的值，表示低于所列下限的10％至高于所列上限的10％。

如本文所用的术语“样品”通常是指受试者的生物样品。该生物样品可以是受试者的组织或体液，如血液(例如全血)、血浆、血清、尿液、唾液、粘膜排泄物、痰、粪便和眼泪。该生物样品可以来源于受试者的组织或体液。该生物样品可以是肿瘤样品或非均质组织样品。该生物样品可以具有或疑似具有病变组织。该组织可以经处理以获得生物样品。该生物样品可以是细胞样品。该生物样品可以是无细胞(或不含细胞的)样品，如无细胞DNA或RNA。该生物样品可以包含癌细胞、非癌细胞、免疫细胞、非免疫细胞或其任意组合。该生物样品可以是组织样品。该生物样品可以是液体样品。该液体样品可以是癌症或非癌症样品。液体生物样品的非限制性实例包括滑液、全血、血浆、淋巴、骨髓、脑脊液、血清、精液、尿液和羊水。

如本文所用的术语“变体”通常是指遗传变体，如受试者的核酸样品或基因组中的改变、变异或多态性。这样的改变、变异或多态性可能是相对于参考基因组的，该参考基因组可以是所述受试者或其他个体的参考基因组。单核苷酸多态性(SNP)是多态性的一种形式。在一些实例中，一个或多个多态性包括一个或多个单核苷酸变异(SNV)、插入、缺失、重复、小插入、小缺失、小重复、结构变体接合、可变长度串联重复和/或侧翼序列。拷贝数变异(CNV)、颠换和其他重排也是遗传变异的形式。基因组改变可以是碱基变化、插入、缺失、重复、拷贝数变异或颠换。

如本文所用的术语“受试者”通常是指动物，如哺乳动物物种(例如，人)，或禽类(例如，鸟)物种，或其他生物体，如植物。更具体地，该受试者可以是脊椎动物、哺乳动物、小鼠、灵长类动物、猿猴或人。动物包括但不限于家畜、竞技动物和宠物。该受试者可以是健康的个体，患有或疑似患有疾病或有患病倾向的个体，或需要治疗或疑似需要治疗的个体。该受试者可以是患者。该受试者可以患有或疑似患有疾病。

免疫-肿瘤学概况的生成

本文提供了用于使用测序数据生成免疫-肿瘤学概况的系统和方法。免疫-肿瘤学概况通常包含给定样品的免疫调节分子表达、细胞类型和比例以及突变负荷中的至少一种。在一些情况下，使用测序数据来确定免疫调节分子表达、细胞类型和比例以及突变负荷中的至少一种。用于确定细胞类型和比例的系统和方法可包括去卷积方法。包含免疫调节分子表达、细胞类型和比例以及突变负荷的免疫-肿瘤学概况可用于治疗应用。例如，在确定免疫调节分子表达、细胞类型和比例以及突变负荷之后，可以为诊断或治疗提供信息。

图1中描绘了第一示例工作流程过程。在第一步中，提供福尔马林固定、石蜡包埋(FFPE)的样品101。进行RNA提取103，随后是测序文库生成105。然后进行靶基因富集107，随后进行测序。生成原始测序数据109，然后用其确定免疫调节分子表达111、细胞类型和比例去卷积113，并进行突变负荷计算115。然后使用免疫调节分子表达111、细胞类型和比例去卷积113以及突变负荷计算115来生成免疫-肿瘤学概况的报告117。图7中示出了报告的示例，其显示免疫调节分子表达、突变负荷以及细胞类型和比例去卷积结果。免疫调节或免疫逃逸基因的表达在图7中的报告的顶部示出，其包括PD-1、PD-L1、CTLA-4、OX-40、TIM-3、BTLA、ICOS、CD47、IDO1和ARG1。该报告的“免疫去卷积”部分包括一个饼图，其显示了在样品中鉴定的细胞类型大类的百分比，包括30％的免疫细胞、60％的肿瘤细胞和5％的基质细胞。免疫细胞类型的更具体细分及其百分比显示在左侧。细胞类型进一步分为几个类别，包括T细胞(CD4+、CD8+、幼稚CD4+、幼稚CD8+、中央记忆CD4+、效应记忆CD4+、中央记忆CD8+、效应记忆CD8+和Treg)、CD4+亚型(Th1、Th2、Thl7)、髓样细胞(单核细胞、粒细胞、巨噬细胞、树突细胞、MDSC、M1巨噬细胞、M2巨噬细胞)、NK细胞和B细胞(幼稚B细胞、记忆B细胞、活化B细胞和血浆B细胞)。该报告的底部是突变负荷读数。在该实例中，突变负荷以图形形式提供，显示了在左侧的较低突变负荷(左端点＝0MutMB)至右侧的渐增突变负荷(右端点＝2000MutMB)之间的标度，用圆圈在该标度上标出样品的突变负荷位置。

本文提供了用于从受试者的样品生成免疫-肿瘤学概况的系统和方法。在一些情况下，该受试者患有或疑似患有疾病或病症。在一些情况下，该免疫-肿瘤学概况用于诊断患有疾病或病症的受试者。替代地或组合地，该免疫-肿瘤学概况用于确定或预测受试者对治疗性干预的反应。

如本文所述的免疫-肿瘤学概况的生成包括首先从受试者获得样品。在一些情况下，该样品是来源于正常或患病受试者的身体的任何体液或其他物质，包括但不限于血液、血清、血浆、淋巴、尿液、唾液、眼泪、脑脊液、乳汁、羊水、胆汁、腹水、器官或组织提取物，以及其中已经培养了来自受试者的任何细胞或组织制品的培养液。在一些情况下，该样品获自皮肤、血液、脑、膀胱、骨骼、骨髓、乳房、结肠、胃、食道、卵巢、子宫、胆囊、输卵管、睾丸、肾脏、肝脏、胰腺、肾上腺、子宫颈、子宫内膜、头或颈、肺、前列腺、胸腺、甲状腺、淋巴结或膀胱。在一些情况下，该样品是癌症样品。该癌症样品一般是实体瘤样品或液体肿瘤样品。例如，该癌症样品从切除的组织获得。在一些情况下，该样品是新鲜的、冷冻的或固定的。在一些情况下，固定的样品包括石蜡包埋的或用福尔马林、甲醛或戊二醛固定的。在一些情况下，该样品是福尔马林固定、石蜡包埋的。

在一些情况下，所述样品在收集之后但在进行另外的步骤之前储存。在一些情况下，该样品被储存在低于8℃下。在一些情况下，该样品被储存在低于4℃下。在一些情况下，该样品被储存在低于0℃下。在一些情况下，该样品被储存在低于-20℃下。在一些情况下，该样品被储存在低于-70℃下。在一些情况下，该样品被储存在包含甘油、二醇、二甲基亚砜、生长培养基、营养肉汤或其任意组合的溶液中。该样品可以储存任何合适的时间段。在一些情况下，该样品被储存任何时间段，并且仍然适用于下游应用。例如，该样品在核酸(例如，核糖核酸(RNA)或脱氧核糖核酸(DNA))提取之前储存任何时间段。在一些情况下，该样品被储存至少或大约1天、2天、3天、4天、5天、6天、7天、1周、2周、3周、4周、1个月、2月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、12个月或超过12个月。在一些情况下，该样品被储存至少1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、11年、12年或超过12年。

如本文所述的方法和系统包括从受试者的样品生成免疫-肿瘤学概况，其中该样品包含核酸分子。在一些情况下，该核酸分子是RNA、DNA、片段或其组合。在一些情况下，在获得样品后，该样品在分析前进一步处理。在一些情况下，处理该样品以从该样品中提取核酸分子。在一些情况下，不对样品进行提取或处理程序。在一些情况下，使用不干扰后续分析的任何技术提取核酸。提取技术包括，例如，使用乙醇、甲醇或异丙醇的醇沉淀。在一些情况下，提取技术使用苯酚、氯仿或其任意组合。在一些情况下，提取技术使用基于柱或树脂的核酸纯化方案，如通常在商业上出售的那些。在一些情况下，在提取后，对核酸分子进行纯化。在一些情况下，对核酸分子进行进一步处理。例如，在提取并纯化后，将RNA进一步逆转录为cDNA。在一些情况下，核酸的处理包括扩增。在一些情况下，在提取或处理后，在后续分析前，将核酸储存在水、Tris缓冲液或Tris-EDTA缓冲液中。在一些情况下，该样品被储存在低于8℃下。在一些情况下，该样品被储存在低于4℃下。在一些情况下，该样品被储存在低于0℃下。在一些情况下，该样品被储存在低于-20℃下。在一些情况下，该样品被储存在低于-70℃下。在一些情况下，该样品被储存至少或大约1天、2天、3天、4天、5天、6天、7天、1周、2周、3周、4周、1个月、2月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、12个月或超过12个月。

从样品获得的核酸分子可以通过诸如核酸分子的完整性或核酸分子的大小等因素来表征。在一些情况下，该核酸分子是DNA。在一些情况下，该核酸分子是RNA。在一些情况下，该RNA或DNA具有特定的完整性。例如，该RNA的RNA完整性指数(RIN)不大于约2。在一些情况下，样品中的RNA分子的RIN为约2至约10。在一些情况下，样品中的RNA分子的RIN至少约为2。在一些情况下，样品中的RNA分子的RIN至多约为10。在一些情况下，样品中的RNA分子的RIN为约2至约3、约2至约4、约2至约5、约2至约6、约2至约7、约2至约8、约2至约9、约2至约10、约3至约4、约3至约5、约3至约6、约3至约7、约3至约8、约3至约9、约3至约10、约4至约5、约4至约6、约4至约7、约4至约8、约4至约9、约4至约10、约5至约6、约5至约7、约5至约8、约5至约9、约5至约10、约6至约7、约6至约8、约6至约9、约6至约10、约7至约8、约7至约9、约7至约10、约8至约9、约8至约10或约9至约10。样品中的RNA分子可以通过大小来表征。在一些情况下，样品中至少10％、20％、30％、40％、50％、60％、70％、80％或90％或更多的RNA分子为至少150、175、200、225、250、275、300、325、350、375、400个或超过400个核苷酸的大小。在一些情况下，样品中的RNA分子为至少200个核苷酸的大小。在一些情况下，大小至少为200个核苷酸的RNA分子具有一定的相对于样品的百分比(DV200)。例如，该百分比是至少或大约40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或大于95％。在一些情况下，样品中的RNA分子的DV200值为约10％至约90％。在一些情况下，样品中的RNA分子的DV200值为至少约10％。在一些情况下，样品中的RNA分子的DV200值为至多约90％。在一些情况下，样品中的RNA分子的DV200值为约10％至约20％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％或约80％至约90％。

在一些情况下，在获得样品并分离核酸分子后，该核酸分子准备用于测序。在一些情况下，制备测序文库。已经描述了许多文库生成方法。在一些情况下，文库生成方法包括添加测序衔接子。可以通过连接将测序衔接子添加至核酸分子。在一些情况下，文库生成包括末端修复反应。

有时，用于测序的文库生成包括富集步骤。例如，对mRNA的编码区进行富集。在一些情况下，该富集步骤用于基因的子集。在一些情况下，该富集步骤包括使用诱饵组。该诱饵组可用来富集用于特定下游应用的基因。诱饵组通常是指针对选定的一组感兴趣的基因组区域的一组诱饵。例如，可以针对与免疫调节分子表达、细胞类型和比例或突变负荷中的至少一种有关的基因组区域选择诱饵组。在一些情况下，一个诱饵组用于确定免疫调节分子表达，第二诱饵组用于确定细胞的类型和比例，而第三诱饵组用于确定突变负荷。在一些情况下，同一诱饵组用于确定免疫调节分子表达、细胞类型和比例、突变负荷或其组合。在一些情况下，诱饵组包含至少一个独特分子标识符(UMI)。如本文所用的术语“独特分子标识符(UMI)”或“UMI”是指具有可用来标识和/或区分与UMI缀合的一个或多个第一分子与一个或多个第二分子的序列的核酸。在一些情况下，UMI缀合至一个或多个感兴趣的靶分子或其扩增产物。UMI可以是单链或双链的。

本文公开的系统和方法提供对许多基因的测序。在一些情况下，基因的数目为至少约200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000个或超过10000个基因。在一些情况下，待测序的基因的数目在约500个至约1000个基因的范围内。在一些情况下，待测序的基因的数目在大约至少200个的范围内。在一些情况下，待测序的基因的数目在大约至多10,000个的范围内。在一些情况下，待测序的基因的数目在约200至500、200至1,000、200至2,000、200至4,000、200至6,000、200至8,000、200至10,000、500至1,000、500至2,000、500至4,000、500至6,000、500至8,000、500至10,000、1,000至2,000、1,000至4,000、1,000至6,000、1,000至8,000、1,000至10,000、2,000至4,000、2,000至6,000、2,000至8,000、2,000至10,000、4,000至6,000、4,000至8,000、4,000至10,000、6,000至8,000、6,000至10,000或8,000至10,000的范围内。待测序的基因的实例在表1A-1E或表5中示出。

可以使用任何适当的测序技术进行测序。测序方法的实例包括但不限于单分子实时测序、聚合酶克隆(Polony)测序、连接测序、可逆终止子测序、质子检测测序、离子半导体测序、纳米孔测序、电子测序、焦磷酸测序、Maxam-Gilbert测序、链终止(例如，Sanger)测序、+S测序或合成测序。

测序方法可以包括但不限于以下一种或多种：高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Digital Gene Expression)(Helicos)、下一代测序、单分子合成测序(SMSS)(Helicos)、大规模平行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxim-Gilbert测序和引物步移法。测序可以生成测序读段(reads)(“读段”)，可以对读段进行处理(例如比对)以产生更长的序列，如共有序列。例如，可以将这类序列与参考(例如参考基因组或对照)进行比较以鉴定变体。

测序的平均读取长度可能会有所不同。在一些情况下，平均读取长度为至少约100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000个或超过80000个碱基对。在一些情况下，平均读取长度在约100至80,000的范围内。在一些情况下，平均读取长度在大约至少100的范围内。在一些情况下，平均读取长度在大约至多80,000的范围内。在一些情况下，平均读取长度在约100至200、100至300、100至500、100至1,000、100至2,000、100至4,000、100至8,000、100至10,000、100至20,000、100至40,000、100至80,000、200至300、200至500、200至1,000、200至2,000、200至4,000、200至8,000、200至10,000、200至20,000、200至40,000、200至80,000、300至500、300至1,000、300至2,000、300至4,000、300至8,000、300至10,000、300至20,000、300至40,000、300至80,000、500至1,000、500至2,000、500至4,000、500至8,000、500至10,000、500至20,000、500至40,000、500至80,000、1,000至2,000、1,000至4,000、1,000至8,000、1,000至10,000、1,000至20,000、1,000至40,000、1,000至80,000、2,000至4,000、2,000至8,000、2,000至10,000、2,000至20,000、2,000至40,000、2,000至80,000、4,000至8,000、4,000至10,000、4,000至20,000、4,000至40,000、4,000至80,000、8,000至10,000、8,000至20,000、8,000至40,000、8,000至80,000、10,000至20,000、10,000至40,000、10,000至80,000、20,000至40,000、20,000至80,000或40,000至80,000的范围内。

在一些情况下，被测序的核苷酸的数目为至少或大约5、10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、2000、2500、3000个或超过3000多个核苷酸。在一些情况下，被测序的核苷酸的数目为约5个至约3,000个核苷酸。在一些情况下，被测序的核苷酸的数目为至少5个核苷酸。在一些情况下，被测序的核苷酸的数目为至多3,000个核苷酸。在一些情况下，被测序的核苷酸的数目为5至50、5至100、5至200、5至400、5至600、5至800、5至1,000、5至1,500、5至2,000、5至2,500、5至3,000、50至100、50至200、50至400、50至600、50至800、50至1,000、50至1,500、50至2,000、50至2,500、50至3,000、100至200、100至400、100至600、100至800、100至1,000、100至1,500、100至2,000、100至2,500、100至3,000、200至400、200至600、200至800、200至1,000、200至1,500、200至2,000、200至2,500、200至3,000、400至600、400至800、400至1,000、400至1,500、400至2,000、400至2,500、400至3,000、600至800、600至1,000、600至1,500、600至2,000、600至2,500、600至3,000、800至1,000、800至1,500、800至2,000、800至2,500、800至3,000、1,000至1,500、1,000至2,000、1,000至2,500、1,000至3,000、1,500至2,000、1,500至2,500、1,500至3,000、2,000至2,500、2,000至3,000或2,500至3,000个核苷酸。

测序方法可以包括条形码化或“标记”步骤。在一些情况下，条形码化(或“标记”)可以允许生成核酸样品群体，其中可以鉴定出每个核酸源自哪个样品。在一些情况下，条形码包含连接至所述核酸的寡核苷酸。在一些情况下，使用酶连接条形码，该酶包括但不限于大肠杆菌连接酶、T4连接酶、哺乳动物连接酶(例如，DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV)、热稳定连接酶和快速连接酶。

可以使用各种类型的条形码或标签进行条形码化或标记。条形码或标签的实例包括但不限于放射性条形码或标签、荧光条形码或标签、酶、化学发光条形码或标签以及比色条形码或标签。在一些情况下，该条形码或标签是荧光条形码或标签。在一些情况下，该荧光条形码或标签包含荧光团。在一些情况下，该荧光团是芳族或杂芳族化合物。在一些情况下，该荧光团是芘、蒽、萘、吖啶、茋、苯并噁唑、吲哚、苯并吲哚、噁唑、噻唑、苯并噻唑、花青(canine)、羰花青、水杨酸酯、邻氨基苯甲酸酯、呫吨染料、香豆素。呫吨染料的实例包括，例如，荧光素和罗丹明染料。荧光素和罗丹明染料包括但不限于6-羧基荧光素(FAM)、2′7′-二甲氧基-4′5′-二氯-6-羧基荧光素(JOE)、四氯荧光素(TET)、6-羧基罗丹明(R6G)、N,N,N；N′-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)。在一些情况下，荧光条形码或标签还包括在α或β位具有氨基的萘胺染料。例如，萘基氨基化合物包括1-二甲基氨基萘基-5-磺酸酯、1-苯胺基-8-萘磺酸盐和2-对甲苯胺基-6-萘磺酸酯、5-(2'-氨基乙基)氨基萘-1-磺酸(EDANS)。香豆素的实例包括，例如，3-苯基-7-异氰酸香豆素；吖啶类，如9-异硫氰酸基吖啶和吖啶橙；N-(对-(2-苯并噁唑基)苯基)马来酰亚胺；花青类，例如，吲哚二羰花青3(Cy3)、吲哚二羰花青5(Cy5)、吲哚二羰花青5.5(Cy5.5)、3-(-羧基-戊基)-3'-乙基-5,5'-二甲基氧杂羰花青(CyA)；1H,5H,11H,15H-氧杂蒽并[2,3,4-ij:5,6,7-i'j']二喹嗪-18-鎓，9-[2(或4)-[[[6-[2,5-二氧代-1-吡咯烷基)氧基]-6-氧代己基]氨基]磺酰基]-4(或2)-磺苯基]-2,3,6,7,12,13,16,17-八氢-内盐(TR或德克萨斯红)；或BODIPYTM染料。

在一些情况下，向包含核酸的样品提供不同的条形码或标签。条形码长度的实例包括这样的条形码序列，其在长度上包含但不限于约1、2、3、4、5、6、7、8、9、10、15、20、25个或更多个碱基。条形码长度的实例包括这样的条形码序列，其在长度上包含但不限于1-5、1-10、5-20或1-25个碱基。条形码系统可以采用碱基1、2、3、4、5、6、7、8、9或10或类似的编码方案。在一些情况下，条形码的数目为至少或大约1、2、3、4、5、6、7、8、9,10、11、12、13、14、15、16、17、18、19、20、25、50、100、200、300、400、500、600、700、800、900、1000、2000、4000、6000、8000、10000、12000、14000、16000、18000、20000、25000、30000、40000、50000、100000、500000、1000000个或超过1000000个条形码。在一些情况下，条形码的数目在1-1000000个条形码的范围内。在一些情况下，条形码的数目在约1-10、1-50、1-100、1-500、1-1000、1-5,000、1-10000、1-50000、1-100000、1-500000、1-1000000、10-50、10-100、10-500、10-1000、10-5,000、10-10000、10-50000、10-100000、10-500000、10-1000000、50-100、50-500、50-1000、50-5,000、50-10000、50-50000、50-100000、50-500000、50-1000000、100-500、100-1000、100-5,000、100-10000、100-50000、100-100000、100-500000、100-1000000、500-1000、500-5,000、500-10000、500-50000、500-100000、500-500000、500-1000000、1000-5,000、1000-10000、1000-50000、1000-100000、1000-500000、1000-1000000、5,000-10000、5,000-50000、5,000-100000、5,000-500000、5,000-1000000、10000-50000、10000-100000、10000-500000、10000-1000000、50000-100000、50000-500000、50000-1000000、100000-500000、100000-1000000或500000-1000000个条形码的范围内。

在样品测序后，本文所述的测序数据可以用于以下至少一项：确定免疫调节分子表达、进行细胞类型和比例去卷积以及计算突变负荷。工作流程的示例可见图2。参见图2，使用测序数据来确定肿瘤表达计数201和免疫细胞表达特征203。然后对肿瘤表达计数201和免疫细胞表达特征203运行去卷积算法205，以计算免疫细胞百分比207。

本文提供的测序数据用来确定基因表达。在一些情况下，该测序数据是通过对来自样品的RNA进行测序获得的。在一些情况下，该基因表达是免疫调节分子如免疫检查点分子或免疫抑制分子的基因表达。免疫调节分子的实例包括但不限于2B4(CD244)、A2aR、B7H3(CD276)、B7H4(VTCN1)、B7H6、B7RP1、BTLA(CD272)、嗜乳脂蛋白(butyrophilins)、CD103、CD122、CD137(4-1BB)、CD137L、CD160、CD2、CD200R、CD226、CD26、CD27、CD28、CD30、CD39、CD40、CD48、CD70、CD73、CD80(B7.1)、CD86(B7.2)、CEACAM1、CGEN-15049、CTLA-4、DR3、GAL9、GITR、GITRL、HVEM、ICOS、ICOSL(B7H2)、IDO1、IDO2、ILT-2(LILRB1)、ILT-4(LILRB2)、KIR、KLRG1、LAG3、LAIR1(CD305)、LIGHT(TNFSF14)、MARCO、NKG2A、NKG2D、OX-40、OX-40L、PD-1、PDL-1(B7-H1、CD 274)、PDL-2(B7-DC、CD 273)、PS、SIRPalpha(CD47)、SLAM、TGFR、TIGIT、TIM1、TIM3(HAVCR2)、TIM4或VISTA中的一种或多种。

在一些情况下，将样品的基因表达与参考样品进行比较。有时，本文公开的系统和方法生成包含免疫调节分子基因表达的视觉表示的免疫-肿瘤学概况。在一些情况下，该视觉表示呈现相对于参考表达水平的一种或多种免疫调节分子的基因表达。在一些情况下，该参考表达水平是从参考样品获得的。有时，该参考样品包含与正在评价基因表达的样品相同的细胞或组织类型。有时，将样品的基因表达与平均的或多个参考样品进行比较。例如，将正在评价基因表达的癌症样品与参考数据库(例如TCGA数据库)中与该癌症样品相同癌症类型的参考样品的平均基因表达进行比较。

本文提供了用于生成免疫-肿瘤学概况的系统和方法，其包括使用测序数据确定样品中的细胞类型和比例。该样品通常包含不同细胞类型和/或亚型的非均质组合物。有时，该样品是肿瘤样品。构成该样品的细胞类型和/或亚型包括癌细胞、非癌细胞和/或免疫细胞中的一种或多种。非免疫细胞的实例包括唾液腺细胞、乳腺细胞、泪腺细胞、耵聍腺细胞、外泌汗腺细胞、顶泌汗腺细胞、皮脂腺细胞、鲍曼氏腺细胞、布鲁纳氏腺细胞、前列腺细胞、精囊细胞、尿道球腺细胞、角化上皮细胞、毛干细胞、上皮细胞、外分泌分泌上皮细胞、子宫内膜细胞、呼吸道和消化道的分离杯形细胞、胃衬粘膜细胞、激素分泌细胞、垂体细胞、肠道和呼吸道细胞、甲状腺细胞、肾上腺细胞、嗜铬细胞、莱迪希细胞、卵泡内膜细胞、肾脏致密斑细胞、肾脏极周细胞、肾脏系膜细胞、肝细胞、白色脂肪细胞、褐色脂肪细胞、肝脏脂细胞、肾细胞、肾小球壁细胞、肾小球足细胞、肾近端小管刷缘细胞、Henle薄段环细胞、肾远端小管细胞、内皮有孔细胞、血管内皮连续细胞、滑膜细胞、浆膜细胞、鳞状细胞、具微绒毛的内淋巴囊的柱状细胞、无微绒毛的内淋巴囊的柱状细胞、前庭膜细胞、血管纹基底细胞、血管纹边缘细胞、脉络丛细胞、呼吸道纤毛细胞、输卵管纤毛细胞、子宫内膜纤毛细胞、睾丸网纤毛细胞、输精小管纤毛细胞、中枢神经系统纤毛室管膜细胞、齿间Corti器上皮细胞、疏松结缔组织成纤维细胞、角膜成纤维细胞、肌腱成纤维细胞、骨髓网状组织成纤维细胞、其他非上皮成纤维细胞、周细胞、骨骼肌细胞、红色骨骼肌细胞、白色骨骼肌细胞、中间骨骼肌细胞、肌梭的核袋细胞、肌梭的核链细胞、卫星细胞、心肌细胞、普通心肌细胞、结节性心肌细胞、浦肯野纤维细胞、平滑肌细胞、虹膜的肌上皮细胞、外分泌腺的肌上皮细胞、红细胞、巨核细胞、单核细胞、表皮朗格汉斯细胞、破骨细胞、感觉神经元、嗅觉感受器神经元、疼痛敏感的初级感觉神经元、眼中视网膜的感光细胞、光感受器视杆细胞、本体感受性初级感觉神经元(各种类型)、触敏的初级感觉神经元、味蕾细胞、自主神经元细胞、许旺细胞、卫星细胞、神经胶质细胞、星形细胞、少突胶质细胞、黑素细胞、生殖细胞、抚育细胞、间质细胞和胰管细胞。可以使用本文所述的方法确定样品的各种细胞类型，包括但不限于淋巴样细胞、基质细胞、干细胞和髓样细胞。淋巴样细胞的实例包括但不限于CD4+记忆T细胞、CD4+幼稚T细胞、CD4+T细胞、中央记忆T(Tcm)细胞、效应记忆T(Tem)细胞、CD4+Tcm、CD4+Tem、CD8+T细胞、CD8+幼稚T细胞、CD8+Tcm、CD8+Tem、调节性T细胞(Treg)、T辅助(Th)1细胞、Th2细胞、γδT(Tgd)细胞、自然杀伤(NK)细胞、自然杀伤T(NKT)细胞、B细胞、幼稚B细胞、记忆B细胞、类别转换记忆B细胞、原B细胞和浆细胞。在一些情况下，所述细胞是基质细胞，例如，间充质干细胞、脂肪细胞、前脂肪细胞、基质细胞、成纤维细胞、周细胞、内皮细胞、微血管内皮细胞、淋巴管内皮细胞、平滑肌细胞、软骨细胞、成骨细胞、骨骼肌细胞、肌细胞。干细胞的实例包括但不限于造血干细胞、普通淋巴样祖细胞、普通髓样祖细胞、粒细胞-巨噬细胞祖细胞、巨核细胞-红系祖细胞、多能祖细胞、巨核细胞、红细胞和血小板。髓样细胞的实例包括但不限于单核细胞、巨噬细胞、巨噬细胞M1、巨噬细胞M2、树突细胞、常规树突细胞、浆细胞样树突细胞、未成熟树突细胞、嗜中性粒细胞、嗜酸性粒细胞、肥大细胞和嗜碱性粒细胞。可以使用本文所述的方法来确定其他细胞类型，例如，上皮细胞、皮脂细胞、角质形成细胞、系膜细胞、肝细胞、黑素细胞、角膜细胞、星形细胞和神经元。

在一些情况下，使用测序数据来确定免疫细胞表达。将要通过本文所述方法检测的免疫细胞的实例包括但不限于CD4+记忆T细胞、CD4+幼稚T细胞、CD4+T细胞、中央记忆T(Tcm)细胞、效应记忆T(Tem)细胞、CD4+Tcm、CD4+Tem、CD8+T细胞、CD8+幼稚T细胞、CD8+Tcm、CD8+Tem、调节性T细胞(Treg)、T辅助(Th)1细胞、Th2细胞、γδT(Tgd)细胞、自然杀伤(NK)细胞、自然杀伤T(NKT)细胞、B细胞、幼稚B细胞、记忆B细胞、类别转换记忆B细胞、原B细胞和浆细胞。在一些情况下，使用测序数据来确定包括但不限于基质细胞、干细胞或肿瘤细胞的非免疫细胞的表达。

用于确定细胞类型和比例的方法和系统可包括确定基因表达。在一些情况下，确定细胞类型和比例可以进一步包括与去卷积有关的方法。在一些情况下，使用去卷积矩阵。去卷积矩阵一般包含一种或多种细胞类型的基因表达。在一些情况下，该矩阵用于RNA测序基因表达数据的复杂数据集，以允许鉴定该数据中的细胞类型以及每种细胞类型的相对比例。参见图3。在一些情况下，使用去卷积矩阵从测序数据确定单个细胞类型/亚型以及这些单个细胞类型/亚型的相对比例。在一些情况下，使用去卷积矩阵从测序数据确定至少2种细胞类型/亚型、至少3种细胞类型/亚型、至少4种细胞类型/亚型、至少5种细胞类型/亚型、至少6种细胞类型/亚型、至少7种细胞类型/亚型、至少8种细胞类型/亚型、至少9种细胞类型/亚型、至少10种细胞类型/亚型、至少11种细胞类型/亚型、至少12种细胞类型/亚型、至少13种细胞类型/亚型、至少14种细胞类型/亚型、至少15种细胞类型/亚型、至少16种细胞类型/亚型、至少17种细胞类型/亚型、至少18种细胞类型/亚型、至少19种细胞类型/亚型、至少20种细胞类型/亚型、至少21种细胞类型/亚型、至少22种细胞类型/亚型、至少23种细胞类型/亚型或至少24种细胞类型的相对比例。矩阵方程说明了矩阵之间的数学关系，该矩阵包含单个细胞类型的表达特征、每种细胞类型的百分比和批量(bulk)表达计数。在一些情况下，矩阵方程是Ax＝b，其中A是细胞表达指纹(即去卷积矩阵)，x是细胞百分比，而b是批量表达计数。在一些情况下，矩阵方程通过诸如矩阵代数、回归分析和/或机器学习等方法来求解。替代地或组合地，去卷积方法包括线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归(DSA)。在一些情况下，去卷积包括归一化步骤。参见图3，归一化可以在行中或沿列向下进行。例如，归一化在行中进行，其中该行包括不同的细胞类型，或者沿列向下进行，其中该列包括针对特定细胞类型的细胞的基因表达。在一些情况下，归一化在行中进行。在一些情况下，在确定基因表达时考虑细胞分数(fractions)(图3)。在一些情况下，为所分析的每种样品类型生成去卷积矩阵。例如，取决于局部组织环境，某些细胞类型具有不同的基因表达特征。结果，通用型去卷积矩阵有时不如为特定样品类型“定制”的去卷积矩阵准确。在一些情况下，去卷积算法维持包含多个去卷积矩阵的数据库。在一些情况下，去卷积算法基于样品类型选择用于分析样品的基因表达数据的去卷积矩阵。使用定制的去卷积矩阵使得能够使用较窄的基因集对样品进行去卷积。较窄的基因集可以提高分析速度和一次处理的样品数。在一些情况下，使用较小的捕获或诱饵组来富集较窄的基因集以供下游分析(例如，RNA-Seq)。

用于确定细胞类型和比例的方法和系统，包括与去卷积有关的方法，可以进一步包括对RNA含量进行归一化。在一些情况下，基于细胞类型对RNA含量进行归一化或校正。例如，基于单个细胞类型中RNA的量对RNA含量进行归一化。在一些情况下，RNA含量的归一化包括确定用来生成RNA的细胞数。在一些情况下，通过流式细胞术、手动细胞计数、自动细胞计数、显微术或分光光度法确定细胞数。在一些情况下，细胞数为至少或大约30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、100万、200万、300万、400万或超过400万个细胞。

在确定单个细胞类型的RNA含量后，可以确定校正值。在一些情况下，该细胞是免疫细胞。免疫细胞的实例包括但不限于CD4+T细胞、CD8+T细胞、单核细胞、B细胞、自然杀伤细胞(NK)、M1巨噬细胞或M2巨噬细胞。在一些情况下，该免疫细胞是CD4+T细胞。在一些情况下，确定每种单个细胞类型的校正值。例如，CD4+T细胞的细胞校正值约为1.00。有时，CD4+T细胞的细胞校正值为0.9至1.1。在一些情况下，CD8+T细胞的细胞校正值约为1.03。有时，CD8+T细胞的细胞校正值为0.93至1.13。在一些情况下，单核细胞的细胞校正值约为1.35。有时，单核细胞的细胞校正值为1.25至1.45。在一些情况下，B细胞的细胞校正值约为0.53。有时，B细胞的细胞校正值为0.43至0.63。在一些情况下，自然杀伤细胞(NK)的细胞校正值约为0.47。有时，NK细胞的细胞校正值为0.37至0.57。在一些情况下，M1巨噬细胞的细胞校正值约为7.59。有时，M1巨噬细胞的细胞校正值为6.59至8.59。在一些情况下，M2巨噬细胞的细胞校正值约为12.26。有时，M2巨噬细胞的细胞校正值为11.26至13.26。

可以使用校正值来确定单个细胞类型的细胞百分比。在一些情况下，校正值与去卷积方法结合使用，以确定单个细胞类型的细胞百分比。在一些情况下，在去卷积方法之前应用校正值。例如，在RNA序列数据的支持向量回归之前应用校正值。在一些情况下，在支持向量回归并且已对细胞类型进行了去卷积之后应用校正值。

用于确定细胞类型和比例的方法和系统，包括与去卷积和RNA含量归一化有关的方法，可导致准确确定样品中免疫细胞类型的百分比。在一些情况下，与未对RNA含量进行归一化的方法和系统相比，使用本文所述的方法和系统使准确度改善了至少或大约20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、95％或大于95％。

免疫-肿瘤学概况可以包含利用多个基因的表达数据的去卷积确定的、在样品中存在的细胞类型和比例。这些基因一般在使用去卷积评价的至少两种细胞类型中表现出差异表达。在一些情况下，这些基因在癌细胞与非癌细胞之间、在不同类型的癌细胞之间、在免疫细胞与非免疫细胞之间、在不同类型的免疫细胞之间、在不同类型的非癌细胞之间表现出差异表达，或其任意组合。去卷积矩阵中包含的基因的实例包括表1A-1E中列出的那些基因。在一些情况下，去卷积矩阵包含至少约10、20、30、40、50、100、150、200、250、300、350、400、450、500、650、700、750、800、850、900、950、1000、1500、2000、2500、3000个或超过3000个基因。在一些情况下，去卷积矩阵包含不超过约10、20、30、40、50、100、150、200、250、300、350、400、450、500、650、700、750、800、850、900、950、1000、1500、2000、2500个或约3000个基因。在一些情况下，去卷积矩阵包含的基因数在约50至100、50至200、50至300、50至400、50至500、50至600、50至700、50至800、50至900、50至1,000、50至1,500、100至200、100至300、100至400、100至500、100至600、100至700、100至800、100至900、100至1,000、100至1,500、200至300、200至400、200至500、200至600、200至700、200至800、200至900、200至1,000、200至1,500、300至400、300至500、300至600、300至700、300至800、300至900、300至1,000、300至1,500、400至500、400至600、400至700、400至800、400至900、400至1,000、400至1,500、500至600、500至700、500至800、500至900、500至1,000、500至1,500、600至700、600至800、600至900、600至1,000、600至1,500、700至800、700至900、700至1,000、700至1,500、800至900、800至1,000、800至1,500、900至1,000、900至1,500或1,000至1,500个基因的范围内。在一些情况下，去卷积矩阵包含来自表1A-1E的至少约10、20、30、40、50、60、70、80、90、100、110个或约120个基因。在一些情况下，去卷积矩阵包含来自表1A-1E的不超过约10、20、30、40、50、60、70、80、90、100、110个或约120个基因。

表1A-用于CD4+T细胞的去卷积基因

表1B-用于CD8+T细胞的去卷积基因

FLT4	TRBV4-2	TRBV6-4	SPRY2
				S100B	TNIP3	CD248	ROBO1
CD8B	TRBV2	CYP4F22	PZP
				LAG3	KLRC4-KLRK1	CRTAM	SHANK1
ANAPC1P1	NRCAM	JAKMIP1	KLRC2
				KLRC3	CD8A	TRAV4	FBLN2

表1C-用于单核细胞的去卷积基因

DES	HLX	FPR3	FCGR1B
				LOXHD1	EPHB2	LPL	LIPN
AQP9	MILR1	RETN	GPNMB
				CYP2S1	PDK4	LILRA6	SEPT10
PLA2G4A	FOLR2	FOLR3	C1QB
				SLC6A12	SLC22A16	DOCK1	NRG1
RXFP2	RIN2	ARHGEF10L
				LPAR1	CES1	FPR2

表1D-用于NK细胞的去卷积基因

表1E-用于B细胞的去卷积基因

UGT8	IGKV1OR2-108	IGHE	SCN3A
				IGLV2-8	IGKV1D-16	MYO5B	ENAM
RP11-148O21.2	IGLC7	IGHV1-2	IGKJ5
				SOX5	TNFRSF13B	IGKV2D-29	IGKV1-17
IGLV2-18	IGHV2-70	CHL1
				IGKV3D-20	IGLV8-61	IGKV6-21

来自转录组可能有大约19,700种可能的基因标识符可以用于生成基础或去卷积矩阵。在一些情况下，如果基因在成对细胞类型差异表达分析中差异表达，则选择这些基因进行去卷积。在一些情况下，如果基因在样品间的某细胞类型内以一致的水平表达，则选择这些基因进行去卷积。本公开已经鉴定出转录组的一小部分，其可用于进行免疫细胞类型的去卷积。表2显示了293个总基因的列表，以及在15个差异表达基因的列表中相应的Ensembl基因标识符。表2中的基因是通过对每种细胞类型进行成对比较并在每个比较中挑出前15个差异表达的基因而生成的。表3和表4显示了使用该相同方法生成的基因，其中表3显示了10个差异表达基因的列表(232个总基因)，表4显示了5个差异表达基因的列表(134个总基因)。表2具有最长的列表，因为它包括前15个差异表达的基因。表3的基因列表是表2的子集。同样，表4的基因列表是表3的子集。在一些情况下，去卷积矩阵包含来自表2的至少约10、20、30、40、50、60、70、80、90、100、150、200个或约250个基因。在一些情况下，去卷积矩阵包含来自表2的不超过约10、20、30、40、50、60、70、80、90、100、150、200个或约250个基因。在一些情况下，去卷积矩阵包含来自表3的至少约10、20、30、40、50、60、70、80、90、100、150个或约200个基因。在一些情况下，去卷积矩阵包含来自表3的不超过约10、20、30、40、50、60、70、80、90、100、150个或约200个基因。在一些情况下，去卷积矩阵包含来自表4的至少约10、20、30、40、50、60、70、80、90、100、110、120个或约130个基因。在一些情况下，去卷积矩阵包含来自表4的不超过约10、20、30、40、50、60、70、80、90、100、110、120个或约130个基因。

表2-前15个差异表达的基因

本文提供了用于确定免疫-肿瘤学概况的系统和方法，其包括使用去卷积方法确定细胞类型和比例，其中在去卷积之后，可以确定免疫细胞的百分比。在一些情况下，可以基于共有谱系对免疫细胞进一步分组，并基于谱系确定免疫细胞的百分比。例如，将免疫细胞分为T细胞、CD4+亚型、髓样细胞和自然杀伤细胞。在一些情况下，确定非免疫细胞的百分比。在一些情况下，确定免疫细胞的百分比和非免疫细胞的百分比。有时，免疫-肿瘤学概况包括确定免疫细胞和非免疫细胞如肿瘤细胞和/或基质细胞的百分比。

在去卷积后，可以确定各种免疫和非免疫细胞类型的细胞类型数目。在一些情况下，去卷积鉴定至少或大约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或超过20种免疫细胞类型。在一些情况下，去卷积鉴定约5种至约20种免疫细胞类型。在一些情况下，去卷积鉴定至少或大约5至10、5至15、5至20、10至15、10至20或15至20种免疫细胞类型。去卷积可用来鉴定非免疫细胞类型。在一些情况下，去卷积鉴定至少或大约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或超过20种非免疫细胞类型。在一些情况下，去卷积鉴定约5种至约20种非免疫细胞类型。在一些情况下，去卷积鉴定至少或大约5至10、5至15、5至20、10至15、10至20或15至20种非免疫细胞类型。在一些情况下，通过与金标准进行比较来评价去卷积结果。有时，金标准是通过对通过去卷积评价的样品进行分选而生成的。例如，将样品分成两部分，其中一部分通过核酸测序和去卷积进行评价，而另一部分通过分选(例如流式细胞术或FACS)进行评价，以获得金标准。然后将去卷积的结果与金标准进行比较，以评价准确度、特异性、灵敏度、与金标准的相关性或其任意组合。

本文提供了用于生成免疫-肿瘤学概况的系统和方法，该免疫-肿瘤学概况包含使用测序数据确定的突变负荷。在一些情况下，计算体细胞突变的突变负荷。在一些情况下，通过排除种系变异来计算突变负荷。种系变异可以基于频率来排除。在一些情况下，排除是基于至少0.01％、0.05％、0.1％、0.5％、1％、2％、5％、10％、15％、20％、25％或大于25％的频率。在一些情况下，使用种系变异数据库确定种系变异。

突变负荷可以使用多个基因来确定。用来确定突变负荷的基因的实例在表5中示出。在一些情况下，用于确定突变负荷的基因的数目为至少或大约250至5,000个基因。在一些情况下，用于确定突变负荷的基因的数目为至少或大约250个基因。在一些情况下，用于确定突变负荷的基因的数目至多为5,000个基因。在一些情况下，用于确定突变负荷的基因的数目为至少或大约250至500、250至750、250至1,000、250至1,500、250至2,000、250至2,500、250至3,000、250至3,500、250至4,000、250至4,500、250至5,000、500至750、500至1,000、500至1,500、500至2,000、500至2,500、500至3,000、500至3,500、500至4,000、500至4,500、500至5,000、750至1,000、750至1,500、750至2,000、750至2,500、750至3,000、750至3,500、750至4,000、750至4,500、750至5,000、1,000至1,500、1,000至2,000、1,000至2,500、1,000至3,000、1,000至3,500、1,000至4,000、1,000至4,500、1,000至5,000、1,500至2,000、1,500至2,500、1,500至3,000、1,500至3,500、1,500至4,000、1,500至4,500、1,500至5,000、2,000至2,500、2,000至3,000、2,000至3,500、2,000至4,000、2,000至4,500、2,000至5,000、2,500至3,000、2,500至3,500、2,500至4,000、2,500至4,500、2,500至5,000、3,000至3,500、3,000至4,000、3,000至4,500、3,000至5,000、3,500至4,000、3,500至4,500、3,500至5,000、4,000至4,500、4,000至5,000或4,500至5,000个基因。

如本文确定的突变负荷可以被确定为低突变负荷与高突变负荷之间的范围。在一些情况下，突变负荷被确定为低、中或高突变负荷。有时，突变负荷被确定为外显子组中每兆碱基的非同义体细胞突变数。在一些情况下，将突变负荷与使用配对正常DNA分析计算出的金标准突变负荷进行比较。具体而言，金标准突变负荷使用从样品获得的DNA序列数据来测量体细胞突变，方法是在正常和肿瘤样品比对中比较等位基因频率，注释所鉴定的突变，并汇总所述突变。

表5-突变负荷基因

本文提供了用于计算样品中的突变负荷和/或细胞类型身份和比例的去卷积的系统和方法。在一些情况下，突变负荷和/或去卷积的细胞类型是在统计阈值或统计阈值以上计算的。例如，可以通过针对一组独立的样品运行测定，来确定突变负荷和/或去卷积测定的准确度、特异性、灵敏度、阳性预测值、阴性预测值或其任意组合。真阳性是在某状况存在时检测到该状况的阳性检测结果。真阴性是在某状况不存在时检测不到该状况的阴性检测结果。假阳性是在某状况不存在时检测到该状况的检测结果。假阴性是在某状况存在时检测不到该状况的检测结果。准确度被定义为真阳性与真阴性之和除以真阳性、真阴性、假阳性和假阴性之和。特异性被定义为真阴性除以真阴性与假阳性之和。灵敏度被定义为真阳性除以真阳性与假阴性之和。阳性预测值被定义为真阳性除以真阳性和假阳性。阴性预测值被定义为真阴性除以真阴性与假阴性之和。

在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的准确度计算样品中去卷积的细胞身份和比例(身份的比例)。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的准确度计算去卷积。在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的灵敏度计算样品中去卷积的细胞身份和比例(身份的比例)。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的灵敏度计算去卷积。在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的特异性计算样品中去卷积的细胞身份和比例(身份的比例)。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的特异性计算去卷积。在一些情况下，去卷积与金标准的相关性至少为0.5、0.6、0.7、0.8、0.9、0.95、0.99或更高。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，去卷积与金标准的相关性至少为0.5、0.6、0.7、0.8、0.9、0.95、0.99或更高。

在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的准确度计算样品中的突变负荷。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的准确度计算突变负荷。在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的灵敏度计算样品中的突变负荷。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的灵敏度计算突变负荷。在一些情况下，以至少50％、60％、70％、80％、90％、95％、99％或更高的特异性计算样品中的突变负荷。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，以至少50％、60％、70％、80％、90％、95％、99％或更高的特异性计算突变负荷。在一些情况下，突变负荷与金标准的相关性至少为0.5、0.6、0.7、0.8、0.9、0.95或0.99或更高。在一些情况下，对于至少100、200、300、400或500个或更多个独立的样品，突变负荷与金标准的相关性至少为0.5、0.6、0.7、0.8、0.9、0.95或0.99或更高。

治疗应用

本文提供了用于使用测序数据确定免疫-肿瘤学概况的方法和系统，其中该概况可以用于治疗应用。在一些情况下，该概况包含免疫调节分子表达、细胞类型和比例以及突变负荷。在一些情况下，确定概况以用于诊断疾病或病症。在一些情况下，确定概况以用于治疗目的。例如，该概况用来确定治疗方案的效力。在一些情况下，该概况用来推荐治疗性干预。

在一些情况下，在治疗之前、治疗期间或治疗之后进行免疫-肿瘤学概况的确定。在一些情况下，在治疗之前、治疗期间或治疗之后的一个或多个时间点进行免疫-肿瘤学概况的确定。用于本文提供的监测和治疗反应方法的时间点包括任何时间间隔。在一些情况下，该时间点是相隔1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、2年或更长时间。在一些情况下，在任意数目的时间点获得样品，包括2、3、4、5、6、7、8、9、10、11、12个或更多个时间点。

在一些情况下，免疫-肿瘤学概况用来确定针对疾病或病症受试者的具体治疗。在一些情况下，样品是在第一时间点从受试者获得的第一样品。在一些情况下，所述方法进一步包括通过从在第二时间点从患有相关疾病或病症的受试者获得的第二样品确定免疫调节分子表达、细胞类型和比例以及突变负荷来确定免疫-肿瘤学概况；以及比较来自第一时间点与第二时间点的免疫-肿瘤学概况。有时，在多个时间点为受试者生成免疫-肿瘤学概况，其中将所述概况进行比较，以评价疾病或病症的进展和/或对治疗的反应。

在一些情况下，本文所述的方法和系统用于诊断或治疗疾病或病症，其中该疾病或病症是癌症。在一些情况下，该癌症是实体癌或造血系统癌症。有时，本文针对的癌症是复发性和/或难治性癌症。在一些情况下，该癌症是急性癌症或慢性癌症。在一些情况下，该癌症是加速的难治性癌症。在一些情况下，该癌症处于缓解期。在一些情况下，该癌症是I期、II期、III期或IV期癌症。在一些情况下，该癌症是青少年癌症或成年癌症。癌症的实例包括但不限于乳腺癌，如导管癌、髓样癌、胶质癌、小管癌和炎性乳腺癌；卵巢癌，包括上皮性卵巢肿瘤和卵巢中的腺癌；子宫癌；宫颈癌，如宫颈上皮中的腺癌、鳞状细胞癌和腺癌；前列腺癌，包括腺癌；胰腺癌，包括胰管组织中的上皮样癌和胰管中的腺癌；膀胱癌，包括移行细胞癌、尿路上皮癌、尿路上皮细胞中的肿瘤、鳞状细胞癌、腺癌和小细胞癌；白血病，包括急性髓样白血病(AML)、急性淋巴细胞白血病、慢性淋巴细胞白血病、慢性髓样白血病、毛细胞白血病、脊髓发育不良、骨髓增生性疾病、急性髓性白血病(AML)、慢性髓性白血病(CML)、肥大细胞增多症、慢性淋巴细胞白血病(CLL)、多发性骨髓瘤(MM)和骨髓增生异常综合征(MDS)；骨癌；肺癌，包括非小细胞肺癌(NSCLC)，如鳞状细胞癌、腺癌和大细胞未分化癌，以及小细胞肺癌；皮肤癌，包括基底细胞癌、黑素瘤和鳞状细胞癌；眼睛视网膜母细胞瘤；皮肤或眼内黑素瘤；原发性肝癌；肾癌；自身免疫缺陷综合征相关淋巴瘤，包括弥漫性大B细胞淋巴瘤、B细胞免疫母细胞性淋巴瘤和小无裂细胞淋巴瘤；卡波西肉瘤；病毒诱发的癌症，包括乙型肝炎病毒(HBV)、丙型肝炎病毒(CBV)和肝细胞癌；1型人嗜淋巴细胞病毒(HTLV-1)和成年T细胞白血病/淋巴瘤；以及人乳头瘤病毒(HPV)和宫颈癌；中枢神经系统(CNS)癌，包括原发性脑肿瘤，如星形细胞瘤、间变性星形细胞瘤或多形性胶质母细胞瘤、少突神经胶质瘤、室管膜瘤、脑膜瘤、淋巴瘤、神经鞘瘤和髓母细胞瘤；周围神经细胞(PNS)癌，包括听神经瘤和恶性周围神经鞘瘤(MPNST)，如神经纤维瘤和神经鞘瘤、恶性纤维细胞瘤、恶性纤维组织细胞瘤、恶性脑膜瘤、恶性间皮瘤和恶性混合Müllerian瘤；口腔癌和口咽癌，如下咽癌、喉癌、鼻咽癌和口咽癌；胃癌，包括淋巴瘤、胃基质瘤和类癌瘤；睾丸癌，如生殖细胞肿瘤(GCT)(其包括精原细胞瘤和非精原细胞瘤)和性腺基质细胞瘤(其包括莱迪希细胞瘤和塞尔托利细胞瘤)；胸腺癌，包括胸腺瘤、胸腺癌、霍奇金病、非霍奇金淋巴瘤类癌瘤或类癌瘤；直肠癌；以及结肠癌。

在一些情况下，本文公开的用于确定免疫调节分子表达、细胞类型和比例以及突变负荷的方法和系统用于治疗癌症。例如，在癌症治疗之前确定免疫调节分子表达、细胞类型和比例以及突变负荷中的至少一种。在一些情况下，测定样品中的免疫调节分子表达、细胞类型和比例以及突变负荷中的至少一种。在一些情况下，该样品从肿瘤组织获得。在一些情况下，该样品从非肿瘤组织获得。在一些情况下，该样品从患有癌症或已被诊断出患有癌症的受试者获得。在一些情况下，该样品从尚未被诊断出患有癌症的受试者获得。在一些情况下，该样品从处于缓解期的受试者获得。在基于免疫调节分子表达、细胞类型和比例以及突变负荷中的至少一种确定免疫-肿瘤学概况之后，可以应用癌症治疗。癌症治疗的实例包括但不限于化疗、放疗、手术或免疫疗法。

在一些情况下，免疫-肿瘤学概况的确定与手术一起进行。例如，免疫-肿瘤学概况的确定在肿瘤手术之前和/或肿瘤手术之后进行。在一些情况下，免疫-肿瘤学概况指示手术的效力。可以在手术后的任何时间确定免疫-肿瘤学概况。在一些情况下，在手术后1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、2年或超过2年确定免疫-肿瘤学概况。在一些情况下，在任意数目的时间点确定免疫-肿瘤学概况，包括2、3、4、5、6、7、8、9、10、11、12个或更多个时间点。

在一些情况下，免疫-肿瘤学概况的确定与化疗一起进行。例如，免疫-肿瘤学概况的确定在化疗之前和化疗之后进行。在一些情况下，免疫-肿瘤学概况的确定指示化疗的效力。化疗的实例包括但不限于环磷酰胺、紫杉醇、5-氟尿嘧啶、5-氮杂-2'-脱氧胞苷、丝裂霉素、多柔比星和米托蒽醌。可以在化疗后的任何时间确定免疫-肿瘤学概况。在一些情况下，在化疗后1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、2年或超过2年确定免疫-肿瘤学概况。在一些情况下，在任意数目的时间点确定免疫-肿瘤学概况，包括2、3、4、5、6、7、8、9、10、11、12个或更多个时间点。

在一些情况下，免疫-肿瘤学概况的确定与放疗一起进行。例如，免疫-肿瘤学概况的确定在放疗之前和/或放疗之后进行。在一些情况下，免疫-肿瘤学概况指示放疗的效力。可以在放疗后的任何时间确定免疫-肿瘤学概况。在一些情况下，在放疗后1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、2年或超过2年确定免疫-肿瘤学概况。在一些情况下，在任意数目的时间点确定免疫-肿瘤学概况，包括2、3、4、5、6、7、8、9、10、11、12个或更多个时间点。

替代性地或与手术、化疗或放疗相组合，免疫-肿瘤学概况的确定与免疫疗法一起进行。在一些情况下，免疫疗法包括施用免疫检查点调节剂。免疫检查点靶标的实例包括但不限于2B4(CD244)、A2aR、B7H3(CD276)、B7H4(VTCN1)、B7H6、B7RP1、BTLA(CD272)、嗜乳脂蛋白(butyrophilins)、CD103、CD122、CD137(4-1BB)、CD137L、CD160、CD2、CD200R、CD226、CD26、CD27、CD28、CD30、CD39、CD40、CD48、CD70、CD73、CD80(B7.1)、CD86(B7.2)、CEACAM1、CGEN-15049、CTLA-4、DR3、GAL9、GITR、GITRL、HVEM、ICOS、ICOSL(B7H2)、IDO1、IDO2、ILT-2(LILRB1)、ILT-4(LILRB2)、KIR、KLRG1、LAG3、LAIR1(CD305)、LIGHT(TNFSF14)、MARCO、NKG2A、NKG2D、OX-40、OX-40L、PD-1、PDL-1(B7-H1、CD 274)、PDL-2(B7-DC、CD 273)、PS、SIRPalpha(CD47)、SLAM、TGFR、TIGIT、TIM1、TIM3(HAVCR2)、TIM4或VISTA。在一些情况下，免疫检查点调节剂是小分子、抗体、编码抗体的核酸、抗原结合片段、RNA干扰剂、肽、拟肽、合成配体和适体中的至少一种。在一些情况下，施用免疫检查点抑制剂。免疫检查点抑制剂的实例有Enoblituzumab(例如MGA271)、伊匹木单抗(例如BMS-734016、MDX-010)、曲美木单抗(例如CP-675、CP-675,206)、Lirilumab(例如BMS-986015、IPH2102)、BMS986016、派姆单抗(Pembrolizumab)(例如MK-3475、SCH 900475)、纳武单抗发(Nivolumab)(例如BMS-936558、MDX-1106、ONO-4538)、Pidilizumab(例如CT-011、MDV9300)、阿特珠单抗(Atezolizumab)(例如MPDL3280A、RG7446、RO5541267)、BMS-936559(例如，MDX-1105)、Durvalumab、Avelumab和巴维昔单抗(Bavituximab)。在一些情况下，所述免疫疗法是CAR T细胞或T细胞受体疗法。

本文提供的用于确定免疫-肿瘤学概况的方法和系统可以用于预测响应于治疗的临床结果。在一些情况下，该治疗是手术、放疗、化疗或免疫疗法。在一些情况下，免疫-肿瘤学概况用来预测对一种或多种化疗剂的抗性水平。在一些情况下，基于免疫-肿瘤学概况对临床结果的预测对于反应类型而言具有一定的准确度、特异性、灵敏度、阳性预测值(PPV)、阴性预测值(NPV)或其组合。在一些情况下，该反应类型是阳性反应。在一些情况下，阳性反应是肿瘤的部分缓解(例如，癌症/肿瘤已变小)或完全缓解(例如，癌症的所有指征均消失)。在一些情况下，阳性反应是癌症已经停止生长或扩展。在一些情况下，阳性反应是与未接受治疗的受试者群体相比，接受治疗的受试者群体在统计学上更长的生存期。在一些情况下，该生存期是1年、2年、3年、4年、5年、6年、7年、8年、9年或10年生存期。在一些情况下，该反应类型是阴性反应。在一些情况下，阴性反应是不存在阳性反应。在一些情况下，阴性反应是持续的癌症进展或生长。在一些情况下，阴性反应是持续存在癌症。在一些情况下，阴性反应是对于未接受治疗的受试者群体，以预测的速率持续癌症进展或生长。在一些情况下，对于一组独立的样品，临床结果(例如阳性或阴性反应)的预测具有阳性预测值。在一些情况下，对于至少100个独立的样品，对治疗的反应的PPV为至少或大约90％。可以在至少100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000个独立样品中的至少约50％、60％、70％、80％、90％、95％或99％中准确确定阳性预测值。

在一些情况下，使用分类器生成预测。在一些情况下，通过去卷积、突变负荷、免疫调节分子表达或其任意组合确定的细胞类型/亚型的比例与结果，例如临床结果、疾病的诊断和/或对治疗的反应相关。在一些情况下，使用包含细胞类型/亚型比例、突变负荷和免疫调节分子表达中的一种或多种以及相关结果的数据来训练分类器。在一些情况下，分类器包含一组预测结果的细胞类型/亚型比例。在一些情况下，分类器包含一组预测结果的免疫调节分子。在一些情况下，分类器包含一组预测结果的突变负荷。

在一些情况下，本文公开了用于生成和/或使用分类器来进行结果预测的系统和方法。该分类器可以是使用来自免疫-肿瘤学概况的数据训练的机器学习算法或模型。所使用的来自免疫-肿瘤学概况的数据可以包括细胞类型/亚型比例或百分比(例如，肿瘤样品中的免疫细胞类型和百分比)。细胞类型或亚型的实例包括M1巨噬细胞、M2巨噬细胞、CD19+B细胞、CD14+单核细胞、CD56+NK细胞、CD8+T细胞、Treg细胞、CD4+T细胞或其任意组合。细胞类型或亚型的其他实例可见于整个本公开内容中。在一些情况下，所述数据包括免疫抑制基因或免疫逃逸基因的表达，例如，所述基因可包括CTLA4、OX40、PD-1、IDO1、CD47、PD-L1、TIM-3、BTLA、ICOS、ARG1或其任意组合。在某些情况下，所述数据还可以包括关于样品的突变负荷信息。

本公开的分类器或经过训练的算法可以用来进行预测。该预测可以基于来自样品的免疫-肿瘤学概况的信息，例如细胞类型/亚型的百分比、免疫抑制或逃逸基因的水平或突变负荷中的至少一种。该预测可以包括将样品分层为两个或更多个类别。该预测可以涉及诊断和/或预后。该预测还可以基于监测疾病治疗的成功与否。预测也可以基于生活质量或有症状的反应。举例来说，对从受试者获得的肿瘤样品的预测包括将该样品阳性鉴定为胰管腺癌(PDA)。该预测任选地还包括相应的预测，其基于包括高PD-L1表达水平和浸润肿瘤样品的高Treg细胞百分比的免疫-肿瘤学概况数据将样品分类为具有较差的存活。类别或组可以对应于各种预测结果，例如预测的治疗结果或对治疗的反应性。

用来生成预测的分类器包括一个或多个选定的特征空间，如细胞类型/亚型比例/百分比、免疫抑制基因表达水平和突变负荷。可以将从样品获得的这些特征的值输入到分类器或经过训练的算法中，以生成一个或多个预测。在一些情况下，本文公开的方法例如通过挑选特征以生成用于在最终分类器或模型中生成预测的特征子集，来选择具有预测价值的变量。可以从非限制性的一组算法中选择减少变量或特征数目的方法，这些算法包括主成分分析(PCA)、偏最小二乘(PLS)回归和独立成分分析(ICA)。在一些情况下，本文公开的方法直接分析众多变量，并且选自非限制性的一组算法，包括基于机器学习过程的方法。机器学习过程可以包括随机森林算法、装袋(bagging)技术、提升(boosting)方法或其任意组合。方法可以是统计方法。统计方法可包括惩罚逻辑回归、微阵列的预测分析、基于收缩质心的方法、支持向量机分析或正则化线性判别分析。

如本文所述的本公开的分类器或经过训练的算法可包含一个特征空间。如本文所述的本公开的分类器或经过训练的算法可包含两个或更多个特征空间。所述两个或更多个特征空间可以彼此不同。每个特征空间可以包含关于样品的信息类型，如细胞类型/亚型百分比、免疫抑制分子或基因的表达或突变负荷。通过将两个或更多个特征空间组合在分类器中而不是使用单个特征空间，可以提高分类的准确度。在一些情况下，将细胞类型/亚型百分比和免疫抑制基因表达两者组合起来比单独使用这些特征具有更高的准确度。有时，通过并入突变负荷进一步提高准确度。各个特征空间可具有不同的动态范围。特征空间之间动态范围的差异可以是至少1、2、3、4或5个数量级。作为非限制性实例，细胞亚型百分比特征空间可具有0至100之间的动态范围，并且免疫抑制基因表达特征空间可具有0至约20之间的动态范围。

特征空间可以包含一组细胞类型/亚型及其在样品中的百分比或比例。特征空间可以包含一组免疫抑制基因及其表达水平。特征空间可以包含突变负荷的一种或多种表示。一组单个特征空间可以与结果，例如对治疗的反应性相关。例如，对免疫疗法的阳性反应可与肿瘤样品内某些免疫细胞类型超过阈值百分比相关。再例如，对免疫疗法的阴性反应可与肿瘤样品内免疫抑制基因如PD-L1超过阈值表达水平相关。在一些情况下，分类器或经过训练的算法包含一组细胞类型/亚型百分比，其包括至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种、至少11种、至少12种、至少13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少19种、至少20种或至少20种细胞类型/亚型。分类器可以包含一组免疫抑制基因，其包括至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个或至少24个基因。

本公开的分类器可以用从受试者获得的一组样品来训练。一组样品可以包括来自至少5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、2000、3000、4000、5000个或更多个受试者的样品。在一些情况下，分类器在具有不超过5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个样品的有限样品集上训练。分类器可以在具有不超过15-20个样品或不超过20-30个样品的有限样品集上训练。当样本量较小时，分类器的准确度就显得尤为重要。分类器准确度的一个重要因素是输入分类器中以生成预测或分类的数据参数的质量。同样，用来训练分类器的数据输入的质量对其预测能力也至关重要。例如，在具有不准确确定的细胞亚型百分比的训练数据集上训练的分类器将在训练过程中并入这种不准确性，这会损害其对新样品的预测能力。当样本量较大时，少许不佳的数据点不会对所得到的分类器产生重大影响。然而，在样本量较小(例如约15-25个样品)的情况下，少许不佳的数据点会在很大程度上负面影响分类器的预测能力。因此，利用说明不同细胞类型之间RNA含量的定量差异的RNA归一化技术的本文公开的方法，有助于生成高度准确的细胞类型/亚型百分比，这进而又允许生成尽管在小数据集(例如不超过15、20、25、30、35、40、45、50或60个样品)上进行训练但仍能有效地产生预测的分类器。这种能力对于小规模研究，例如通常需要小样本量的I/II期临床试验至关重要。实际上，较大的II期临床试验可能有60名受试者，但考虑到对照，实验组可能仍然只有15-20名(例如，20例阴性安慰剂对照，20人接受传统治疗，20人接受实验性治疗)。

此外，在某些情况下，本文公开的方法利用端到端样品处理和分析进行质量控制。举例来说，在连续的工作流程中，获得、处理从肿瘤组织获得的FFPE卷曲切片，并通过下一代测序进行测序。在该实例中，分类器使用的特征均从测序数据中挖掘。例如，将RNA表达数据(RNASeq)输入到去卷积算法中，以确定细胞类型/亚型百分比。同样，免疫抑制基因的表达水平也从测序数据获得。突变负荷也可以从测序数据确定。

在每次给予新的样品数据时，分类器可以生成不同的预测。在每次运行分类器时，在同一分类器上使用不同的样品可以生成不同的或独特的输出。在每次运行分类器时，在同一分类器上使用相同的样品可以生成不同的或独特的输出。分类器可以通过将样品与预测结果或反应的一组特征进行比较来分析该样品。在一些情况下，分类器执行比较、统计分析、下游分析或其任意组合。

在一些情况下，使用特征选择技术分析特征(例如，细胞类型百分比、免疫逃逸基因表达和突变负荷)。特征选择技术可以包括用于通过检查数据属性来评价特征相关性的过滤器，将模型假设嵌入特征子集搜索内的包装器(wrapper)，或者将最佳特征集搜索内建到分类器算法中的嵌入式协议。在一些情况下，本文所述的方法包括特征选择步骤，其中选择相关特征以包含在最终分类器中，并且/或者从最终分类器中剔除或去除不相关的或低相关性的特征。

可以有利于供本公开的方法使用的过滤器的实例包括参数方法，如双样本t检验、方差分析(ANOVA)、伽马分布模型或贝叶斯模型。过滤器可以包括无模型方法，如Wilcoxon秩和检验、秩积法、随机排列法、类间-类内平方和检验或误分类阈值数。在一些情况下，过滤器包括多变量法，如双变量分析、基于相关性的特征选择法、最小冗余最大相关性、马尔可夫毯式过滤器和不相关收缩质心法。

可以有利于供本公开的方法使用的包装器可以包括顺序搜索法、分布估计算法或遗传算法。可以有利于供本公开的方法使用的嵌入式协议可以包括随机森林算法、逻辑回归权重算法或支持向量机权重向量算法。

从本文所述方法获得的统计结果可以提供预测准确的可能性。在一些情况下，预测与准确度的可能性一起呈现为诊断，例如，对治疗性癌症治疗的阳性反应的预测以及至少70％、75％、80％、85％、90％或95％的估计准确度。可以使用统计工具对预测进行分析，该工具包括students T检验、双侧T检验、皮尔森秩和分析、隐马尔可夫模型分析、q-q图分析、主成分分析、单向方差分析(ANOVA)、双向ANOVA和其他统计方法。

计算机系统

本公开提供了计算机系统，其被编程用于实现本公开的方法。图8显示了计算机系统801，其被编程或以其他方式配置用于执行可执行的指令。计算机系统可以被编程为处理核酸测序信息，以通过将核酸测序信息与对化疗的不良反应相关联，生成包含一组预测对化疗的不良反应的遗传变异的分类器。计算机系统可以用用于分析遗传信息的分类器进行编程，以生成对一种或多种化疗剂的不良反应的预测。计算机系统801可以调节本公开的方法的各个方面，例如，用一组样品的核酸测序信息来训练算法，以生成经过训练的算法或分类器。计算机系统801可以通过用分类器分析一组独立的样品，并将不良反应的实际事件与不良反应的预测风险进行比较，来确定该分类器的阳性预测值。计算机系统801可以是用户的电子设备，或者是相对于该电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。

计算机系统801包括中央处理单元(CPU，本文中也称为“处理器”和“计算机处理器”)805，中央处理单元805可以是单核或多核处理器，或者用于并行处理的多个处理器。计算机系统801还包括存储器或存储器位置810(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元815(例如，硬盘)、用于与一个或多个其他系统通信的通信接口820(例如，网络适配器)和外围设备825，如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器810、存储单元815、接口820和外围设备825通过诸如主板的通信总线(实线)与CPU 805通信。存储单元815可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统801可以借助于通信接口820可操作地耦合至计算机网络(“网络”)830。网络830可以是因特网、互联网和/或外联网，或者与因特网通信的内联网和/或外联网。网络830在一些情况下是电信和/或数据网络。网络830可以包括能够实现分布式计算如云计算的一个或多个计算机服务器。在一些情况下，网络830借助于计算机系统801可以实现对等网络，这可以使得耦合至计算机系统801的设备能够起到客户端或服务器的作用。

CPU 805可以执行一系列可以在程序或软件中体现的机器可读指令。所述指令可以存储在诸如存储器810的存储器位置中。所述指令可被导向CPU 805，其随后可对CPU 805进行编程或以其他方式进行配置，以实现本公开的方法。由CPU 805执行的操作的实例可以包括获取、解码、执行和写回。

CPU 805可以是电路如集成电路的一部分。系统801中的一个或多个其他组件可被包括在该电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元815可以存储文件，如驱动程序、文库和保存的程序。存储单元815可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统801可以包括位于计算机系统801外部(诸如位于通过内联网或因特网与计算机系统801通信的远程服务器上)的一个或多个附加数据存储单元。

计算机系统801可以通过网络830与一个或多个远程计算机系统通信。例如，计算机系统801可与用户的远程计算机系统(例如，笔记本电脑或智能电话)进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、平板或平板PC(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、支持Android的设备、

)或个人数字助理。用户可以通过网络830访问计算机系统801。

如本文所述的方法可通过存储在计算机系统801的电子存储位置上(例如存储器810或电子存储单元815上)的机器(例如，计算机处理器)可执行代码来实现。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，该代码可以由处理器805执行。在一些情况下，该代码可从存储单元815中检索并存储在存储器810上，以备处理器805访问。在一些情况下，可以不包括电子存储单元815，而将机器可执行指令存储在存储器810上。

可将该代码预编译并配置用于与具有适于执行该代码的处理器的机器一起使用，或者可以在运行过程中对其进行编译。该代码可以以编程语言的形式提供，该编程语言可以被选择为使得该代码能够以预编译或实时编译的方式执行。

本文提供的系统和方法的各方面，如计算机系统801，可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”，其一般为在某种类型的机器可读介质中携带或体现的机器(或处理器)可执行代码和/或关联数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或全部有形存储器，或其相关模块，如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可以随时为软件编程提供非暂时性存储。软件的全部或部分可以不时地通过因特网或各种其他电信网络进行通信。例如，这样的通信可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器，例如，从管理服务器或主机加载到应用服务器的计算机平台。因此，可以承载软件元件的另一类型的介质包括光波、电波和电磁波，诸如跨越本地设备之间的物理接口、通过有线和光学陆线网络以及经由各种空中链路所使用的。携带这类波的物理元件，如有线或无线链路、光学链路等，也可以被认为是承载软件的介质。除非局限于非暂时性有形“存储”介质，否则如本文所用的诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质，如计算机可执行代码，可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如，光盘或磁盘，如任何计算机中的任何存储设备等，例如可用来实现附图中所示的数据库或其他组件。易失性存储介质包括动态存储器，如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括计算机系统内包含总线的电线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式，诸如在射频(RF)和红外线(IR)数据通信期间生成的那些信号或波。因此，计算机可读介质的常见形式包括，例如：软盘、柔性盘、硬盘、磁带、其他任何磁性介质、CD-ROM、DVD或DVD-ROM、其他任何光学介质、穿孔卡片纸带、其他任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、其他任何存储器芯片或匣盒、传输数据或指令的载波、传输这类载波的线缆或链路，或者计算机可以从中读取编程代码和/或数据的其他任何介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列运载到处理器以供执行。

计算机系统801可以包括电子显示器835或与电子显示器835通信，电子显示器835包括用于提供例如样品的核酸测序信息的风险分层分析报告或结果的用户界面(UI)840。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开的方法和系统可以通过一个或多个算法来实现。算法可以通过软件在由中央处理单元805执行时实现。例如，该算法可以分析从样品获得的核酸测序信息，以针对从其获得样品的受试者，对化疗(例如，一种或多种化疗剂)不良反应风险进行分层。

虽然本文已经示出并描述了本发明的优选实施方案，但对于本领域技术人员明显的是，这些实施方案仅以示例的方式提供。并非打算用本说明书中提供的具体实例来限制本发明。尽管已经参照上述说明书对本发明进行了描述，但并不意味着对本文实施方案的描述和说明以限制性的意义来解释。本领域技术人员在不脱离本发明的情况下现将想到许多变化、改变和替代。此外，应当理解，本发明的所有方面均不限于本文所阐述的具体描述、配置或相对比例，其取决于多种条件和变量。应当理解，在实施本发明中可以采用本文所述本发明实施方案的各种替代方案。因此可以预期，本发明还应涵盖任何这类替代、改变、变化或等同物。旨在以所附权利要求书限定本发明的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

实施例

给出以下实施例是为了说明本公开的多种实施方案的目的，而不是意图以任何方式限制本发明。这些实施例以及目前代表某些实施方案的本文所述方法并非旨在限制本公开的范围。本领域技术人员将会想到其变化以及包含在由权利要求的范围所限定的本公开的精神之内的其他用途。

实施例1：肿瘤微环境的分类

通过确定免疫调节分子表达水平、细胞类型和比例以及肿瘤突变负荷来表征肿瘤微环境。

RNA提取

使用RNeasy试剂盒(Qiagen)，根据制造商的说明，从福尔马林固定、石蜡包埋的(FFPE)样品中提取RNA。

测序文库的生成

在RNA提取后，根据制造商的说明(Illumina)生成用于下一代测序的测序文库。使用Illumina Access试剂盒捕获编码区。

下一代测序

富集的基因在Illumina的NextSeq测序仪上进行测序，以生成测序数据和表达数据。

抑制性分子表达

使用测序和表达数据来确定所选的免疫调节分子的表达水平，该免疫调节分子包括PD-1、PD-L1、CTLA-4、OX40、TIM-3、BTLA、ICOS、CD47、IDO1和ARG1。

细胞类型和比例去卷积

在下一代测序后，针对细胞类型并通过比例去卷积来分析测序数据。如本文所述，使用下一代测序来生成用于细胞类型/亚型去卷积的测序和表达数据是一种新方法，与例如常规基因表达系统如使用微阵列的系统相比，该方法提供了优越的性能。另外，着眼于组织中的免疫细胞百分比的常规研究采用利用微阵列表达数据的公共数据库的传统方法，该方法可能能够鉴定不同样品之间的细胞比例的变化，但无法准确地确定给定样品中细胞类型/亚型的真实百分比。

使用包含一组细胞表达特征或“指纹”的去卷积矩阵进行比例去卷积。使用从基本上由特定细胞类型组成的样品获得的测序数据生成细胞表达特征或“指纹”(例如，从纯化的CD4+幼稚细胞群体获得的CD4+幼稚细胞指纹)。然后将细胞特异性指纹置于去卷积矩阵中。然后将该矩阵应用于RNA测序和基因表达数据的复杂数据集，以允许鉴定该数据中的细胞类型以及每种细胞类型的相对比例。细胞表达特征或指纹中包括在成对细胞类型差异表达分析中显著差异表达的基因，以及在生物学复制物之间在某细胞类型内以一致的水平表达的那些基因。

还进行了比例去卷积。通过求解以下矩阵方程来完成从批量测序和表达概况确定单个组分的过程：Ax＝b，其中A是细胞表达指纹，x是细胞百分比，而b是批量表达计数。进行使用数据归一化的向量回归方法。参见图3。简言之，为了使用M个基因对具有N种细胞类型的混合物进行去卷积，根据图3建立了该问题。确定细胞分数并进行跨行归一化。在每种细胞类型和所讨论的样品如细胞混合物中，将每个基因的表达计数归一化到0至1的范围内。无论其绝对表达值如何，所有基因均同样地加权。

肿瘤突变负荷计算

计算肿瘤突变负荷。在RNA测序后，如图4A所示，确定了包括体细胞和种系在内的所有变体，其中沿着代表性的基因序列用深色正方形指示所述变体。因此，不使用配对的正常样品即确定了总的体细胞突变负荷。然后将一组基因(约4000个)用于后续分析，因为确定它们与整个基因组的突变负荷相关。该概念在图4B中示出，其中相关的基因A、C和F被圈出。使用若干种系变异数据库，基于大于0.01％的频率来鉴定作为种系变体的初始判定，然后将鉴定的种系变体从突变负荷分析中排除。如图4C所示，排除的种系变体用“X”划掉。从基因图上的剩余变体(在图4D中圈出)推算出总的体细胞突变负荷。

肿瘤微环境总结报告

然后编译来自免疫调节分子表达、细胞类型和比例去卷积以及肿瘤突变负荷计算的数据，以生成肿瘤微环境中这些指标的总结。该总结以免疫-肿瘤学概况的形式呈现，该概况以图形输出的形式显示所述信息。免疫调节分子表达与参考或对照表达水平一起显示在条形图中。已测序样品中细胞类型(免疫细胞、肿瘤细胞和基质细胞)的类别细分及其占总细胞群体的相对百分比/比例在饼图中显示。样品中基于特定细胞类型(T细胞、CD4+细胞、髓样细胞、NK细胞和B细胞)和细胞亚型(例如CD4+和CD8+T细胞)百分比的更具体细分以图形方式显示。最后，突变负荷作为指标或标记在轴上显示，范围从低突变负荷(每兆碱基0个突变)到高突变负荷(每兆碱基2000个突变)。

实施例2：突变负荷分析

确定了提高突变负荷分析的分辨率和准确度的基因。采用来自公共数据库的数据，利用它们被突变的可能性的加权平均值，以及根据它们在多个组织之间的表达一致性，对所有人类基因进行了排序。分析了三种不同的癌症类型，每种癌症约50个样品。采用数目逐渐增加的来自表5的基因确定了准确度。

从表6中可以看出，采用约2000个基因时，与金标准突变负荷的相关性增加，然后开始趋于平稳。将突变负荷与使用配对正常DNA分析计算出的金标准突变负荷进行比较。具体而言，金标准突变负荷使用从样品获得的DNA序列数据来测量体细胞突变，方法是在正常和肿瘤样品比对中比较等位基因频率，注释所鉴定的突变，并汇总所述突变。

表6.

实施例3：胶质母细胞瘤肿瘤微环境的表征

使用与实施例1-2中所述类似的方法，表征了胶质母细胞瘤肿瘤微环境。如图5A所示，不同的细胞类型在y轴上，而基因在x轴上。基因表达水平按颜色呈现，较深的紫色表示相对较高的表达。在黑白图中，较深的阴影表示较高的表达，而较浅的阴影表示较低的表达。基因406被鉴定为能够区分胶质母细胞瘤癌细胞类型与免疫细胞类型。

还使用约800个基因生成了类似的基因矩阵(图5B)。参见图5B，确定多个基因的表达水平，并用其表征胶质母细胞瘤肿瘤微环境。在图5B中的y轴上列出的基因从上到下包括gbm(胶质母细胞瘤)、gMDSC、DC、mMDSC、B细胞、Th2、Th17、Th1、幼稚CD4-pos、幼稚CD8-pos、CM-CD4-pos、Treg、CM-CD8-pos、EM-CD8-pos、基质细胞、M1、M2a、M2b和M2c。图5B中的图例显示了用蓝色表示的表达降低，用红色/橙色表示的表达升高，白色是中性的或表达无变化。大多数可见的表达数据表明表达没有变化或表达增加。

实施例4：针对各种癌症类型的肿瘤微环境的表征

为各种癌症类型确定了肿瘤微环境。使用与实施例1-2中所述类似的方法，在结直肠癌和血液癌症中鉴定了多个基因的表达水平(图6)。使用基因表达水平来表征结直肠癌和血液癌症微环境。对于结直肠癌在图6中的y轴上列出的基因从上到下包括B细胞、CD4-pos、CD8-pos、gMDSC、巨噬细胞、DC、mMDSC和基质细胞。对于血液癌症在图6中的y轴上列出的基因从上到下包括gbm、gMDSC、DC、mMDSC、B细胞、Th2、Th17、Th1、幼稚CD4-pos、幼稚CD8-pos、CM-CD4-pos、Treg、CM-CD8-pos、EM-CD8-pos、基质细胞、M1、M2a、M2b和M2c。图6中的图例显示了用蓝色表示的表达降低，用红色/橙色表示的表达升高，白色是中性的或表达无变化。大多数可见的表达数据表明表达没有变化或表达增加。

实施例5：RNA测序数据的转化

确定了每种免疫细胞类型的RNA量。

每个细胞的RNA的计算

通过流式细胞术从多个外周血单核细胞(PBMC)供体中纯化免疫细胞类型(CD4+T细胞、CD8+T细胞、B细胞、单核细胞、Treg和自然杀伤细胞)。巨噬细胞M1和M2在细胞培养中从单核细胞供体分化而来，并使用荧光激活细胞分选术(FAC)纯化，以获得纯的M1和M2群体。从纯化的细胞中提取RNA并测序。记录从FACS获得的细胞的数目以及从每个细胞中提取的RNA的量，从而能够对每种细胞类型计算出每个细胞的RNA量。图9显示了对于每种免疫细胞类型，每个细胞的总RNA的平均量。

细胞校正方法

当不同细胞类型包含不同量的总RNA时，通过使用SVM(支持向量机)进行去卷积计算出细胞百分比和比例，确定对该细胞百分比和比例的影响。一式两份地从以递减的比例掺入到外周血单核细胞(PBMC)样品中的巨噬细胞M1和M2生成细胞混合物。这些细胞混合物代表“金标准”或样品，其中真实答案(混合物中细胞类型的百分比)在去卷积之前已知。表7显示了包含500,000个细胞的PBMC样品的细胞混合物比例。

表7.

样品名称	％巨噬细胞	％PBMC
			M1-100	100	0
M1-50	50	50
			M1-25	25	75
M1-10	10	90
			M1-5	5	95
M1-2	2	98
			M1-0	0	100
M2-100	100	0
			M2-50	50	50
M2-25	25	75
			M2-10	10	90
M2-5	5	95
			M2-2	2	98
M2-0	0	100
			*M1M2-100	100	0
M1M2-50	50	50
			M1M2-25	25	75
M1M2-10	10	90
			Ivi1M2-5	5	95
M1M2-2	2	98
			M1M2-0	0	100

*M1M2＝50％M1+50％M2混合物

从细胞混合物中提取总RNA并测序。测序后，使用本文所述的基于SVM的去卷积，分析所得数据的M1和M2细胞百分比，并将计算出的细胞类型百分比与已知百分比(基本事实)进行比较。如图10A-10F所示，由于巨噬细胞中所含的总RNA量比其他免疫细胞中所观察到的量要高得多，因此去卷积方法导致计算出与事实相比更高百分比的巨噬细胞。当观察作为非彩色附图的图10A时，在图上最左侧的数据点处，M1比例数据从上到下以“预期”、“观察”和“校正”的顺序示出。在图10B中，最高的M2比例为“观察”，随后是“校正”，再然后是“预期”。在图10C中，在图上最左侧的数据点处，最高数据点对应于预期值，随后是观察值，再然后是校正值。在图10D中，最高的M2比例为“观察”，随后是“校正”，再然后是“预期”。在图10E中，在图上最左侧的数据点处，最高数据点对应于“预期”，随后是“观察”，再然后是“校正”。在图10F中，在图上最左侧的数据点处，最高数据点对应于“预期”，随后是“观察”，再然后是“校正”。基于这些结果，开发了根据细胞RNA量按需要校正任何细胞类型的细胞百分比的方法。以下方程是一种在去卷积后校正细胞百分比的方法：

方程1：(1–o_k)i_km_k-∑o_km_ji_j＝0

j≠k

方程2：∑i_k＝1

方程1用于k种细胞类型中的每一种。参见该方程，o_k是观察到的输出，i_k是实际输出(actuation output)，而m_k是乘数。对于每个细胞类型方程，减去的总和超过“其他”细胞类型的o、m、i值。将方程1的所有k个方程设为l。第二个方程是所有输入加到1的约束。

巨噬细胞M1和M2百分比的校正

由于巨噬细胞中的RNA量远高于其他免疫细胞类型中所见的量，因此所述分析算法将这种增加的RNA量计算为比预期值更高的细胞百分比。为了使巨噬细胞百分比与预期百分比一致，使用了方程1和方程2。这种校正通过基于每个细胞的RNA(转录物)量应用校正，将百分比从“转录物空间”转换为“细胞空间”。一旦将方程应用于M1和M2细胞百分比，该百分比就高度类似于预期百分比。此处使用的校正因数为12X。使用本文所述方法的结果在表8中示出。

表8.

实施例6-细胞百分比准确度

将根据本文公开的方法生成的估计细胞百分比与使用流式细胞术计算的已知细胞百分比进行比较，以确定去卷积算法的准确度，如图11所示。使用流式细胞术测量复杂混合物中免疫细胞的百分比(y轴＝已知％)，并将其与根据复杂混合物的RNA测序数据得出的免疫细胞类型的估计百分比(x轴＝估计％)进行比较。如图所示，与已知百分比相比，细胞百分比估计值显示出高真实性、精确度、准确度和相关性。

该实验估计细胞百分比并使用流式细胞术计算真实细胞百分比，并且一式三份进行，并且与流式细胞术获得的已知百分比相比，使用重复样品之一进行训练以供细胞校正。图11中所示的数据代表使用测试数据(使用训练校正)对经过训练的模型的评估。因此，该方法通过训练该模型来校正与真实细胞百分比的偏差，这与使用基于每个细胞的RNA含量/量的细胞校正相反。该模型的高准确度由图11中所示的偏差表示，其也在下面的表9中示出。

表9-估计细胞百分比与真实细胞百分比的偏差

实施例7-用于诊断和预后的临床样品分类

根据本文所述的方法，针对15-20个从人类受试者获得的生物样品，确定了包括8种细胞类型的相对量和10个免疫抑制基因(例如“逃逸基因”)的表达水平的免疫-肿瘤学概况。预先将样品分类为两组：对所述治疗有反应的受试者和对该治疗无反应的受试者。

使用所述免疫-肿瘤学概况，基于用作预测生物标志物的一种分析物或分析物的组合来了解两组样品之间的差异。具体而言，使用所述免疫-肿瘤学概况分析物信息来训练机器学习算法，以将样品分类为两组。

使用机器学习算法基于单个分析物和多种分析物生成分类器。使用单分析物生物标志物来解出同时使灵敏度和特异性最大化的阈值。对于足够大(正态)的样品分布，该标准可以使准确度最大化。基于在许多研究如早期临床试验中典型的小样品集(每组约10个)，该优化指标最佳地估算出在有更多样品可用时最大准确度可能是多少。

通过优化相同的统计数据，发现了多分析物生物标志物。代替对单分析物使用线性阈值，优化了随机森林模型，以使上述预测统计数据最大化。该算法选择具有最佳单个分析物集和最佳超参数集的随机森林模型(例如随机森林技术的调节旋钮)。

针对预测性最强的逃逸基因(“逃逸”)和预测性最强的免疫细胞类型(“免疫”)计算预测准确度。还显示了在Paragon分析(“PARAGON”)中使用一种或多种分析物的预测准确度。通过学习并入来自一种或多种分析物的信息的机器学习模型来创建该“标志物”。这些结果在图12A的预测准确度条形图中示出。“逃逸”生物标志物和“免疫”生物标志物都生成了略低于75％的预测准确度。同时，“paragon”多分析物分类器导致85％的预测准确度，这证明了在小样本量的情况下，多分析物方法如何产生更高的准确度。

图12B显示了箱须图，其针对2种预测性最强的分析物对样品组的统计数据进行了可视化。箱的左侧和右侧指示相应数据集的第一和第三个四分位数。中位数由箱内的白线指示。最小和最大的群内值(inlier)数据点由须的末端表示，而离群值显示为空圆圈。给定分析物的最佳阈值显示为垂直虚线。Wilcoxon秩和检验用来检验这两组从相同分布中采样的零假设。对于<0.05、<0.01和<0.001的p值，分别用1星、2星和3星表示拒绝该假设的显著性。

在这种情况下，在通过算法评估的10个免疫抑制基因的列表中被确定为预测性最强的“逃逸”生物标志物是CTLA4，当用来基于阈值CTLA4表达水平对样品进行分组时，其产生略低于75％的预测准确度。如图12B所示，虚线表示将两组或两类样品分开的约5TPM(每百万kb碱基的转录物)的阈值。同样，被鉴定为预测性最强的“免疫”生物标志物的细胞类型是CD19+B细胞。如图12C所示，略高于30％的阈值将两个样品类别分开。图13中示出了说明单分析物分类器和多分析物分类器的生成的流程图。在单分析物/生物标志物分析中，通过确定使灵敏度和特异性最大化的阈值来评估单个分析物(图13中的步骤1-4)。为每种分析物生成单独的预测器或分类器。在多分析物分析中，将预测性最强的分析物组合在一起，以基于多种分析物(例如，多个免疫逃逸基因和/或浸润肿瘤样品的免疫细胞百分比)生成组合预测器或分类器(步骤5-10)。

使用留一法交叉验证对这些模型的统计性能进行测试，以针对每种分析物计算准确度、阳性预测值(ppv)和阴性预测值(npv)。对于大小有限的数据集，留一法(leave-one-out)交叉验证最好地估算出估算器(estimator)将如何推广到将来的独立样品。该过程的工作方式是迭代n次(其中有n个数据点)，每次考虑n-1个点学习阈值，并检验第n个排除点的预测。然后，考虑所有n个预测来计算预测统计数据。通过使用所有样品均等地优化灵敏度和特异性来确定阈值。对于正态分布的数据点，该阈值可能是针对准确度进行优化的相同阈值。下面的表10中显示了模型和/或分析物性能的统计评估结果。

表10

虽然本文已经示出并描述了本公开的优选实施方案，但对于本领域技术人员明显的是，这些实施方案仅以示例的方式提供。在不脱离本公开内容的情况下，本领域技术人员将会想到许多变化、改变和替换。应当理解，在实施本公开中可以采用本文所述本公开的实施方案的各种替代方案。旨在以所附权利要求书限定本公开的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种用于分析从患有或疑似患有疾病或病况的受试者获得的生物样品的计算机实现的方法，其包括：

(a)从所述生物样品获得基因表达数据，该基因表达数据包含(i)至少一个免疫调节基因的表达水平，和(ii)多个表达特征基因的表达水平；

(b)使用去卷积算法来处理所述多个表达特征基因的所述表达水平，以鉴定并量化所述生物样品中存在的至少一种细胞类型的百分比；以及

(c)使用分类器分析所述至少一个免疫调节基因的表达水平和来自(b)的所述至少一种细胞类型的百分比，以确定所述受试者对治疗有反应或无反应的可能性。

2.根据权利要求1所述的方法，其中对治疗有反应包括肿瘤消退、肿瘤进展减慢或肿瘤进展停止。

3.根据权利要求1所述的方法，其中对治疗无反应包括肿瘤进展、肿瘤进展增加、对治疗性干预缺乏反应或其组合。

4.根据权利要求1所述的方法，其中所述治疗包括免疫疗法。

5.根据权利要求1所述的方法，其进一步包括提供开始、停止、改变或继续所述治疗的指令。

6.根据权利要求1所述的方法，其中所述疾病或病况是癌症，并且其中(c)包括确定所述受试者对所述癌症的所述治疗有反应或无反应的所述可能性。

7.根据权利要求1所述的方法，其中所述至少一种细胞类型包括至少一种免疫细胞类型。

8.根据权利要求7所述的方法，其中所述至少一种免疫细胞类型选自M1巨噬细胞、M2巨噬细胞、CD19+B细胞、CD14+单核细胞、CD56+NK细胞、CD8+T细胞、Treg细胞和CD4+T细胞。

9.根据权利要求1所述的方法，其中所述至少一个免疫调节基因选自CTLA4、OX40、PD-1、IDO1、CD47、PD-L1、TIM-3、BTLA、ICOS和ARG1。

10.根据权利要求1所述的方法，其中所述至少一种细胞类型包括至少2、3、4、5、6、7或8种细胞类型。

11.根据权利要求1所述的方法，其中所述至少一个免疫调节基因包括至少2、3、4、5、6、7、8、9或10个基因。

12.根据权利要求1所述的方法，其中使用机器学习算法生成所述分类器。

13.根据权利要求12所述的方法，其中所述机器学习算法是随机森林算法。

14.根据权利要求1所述的方法，其中所述生物样品包含癌症或癌前期组织。

15.根据权利要求1所述的方法，其中(b)中的去卷积算法应用去卷积矩阵来处理所述多个表达特征基因的所述表达水平，以鉴定并量化所述至少一种细胞类型的百分比。

16.根据权利要求15所述的方法，其中所述去卷积矩阵包含多个免疫细胞表达特征基因。

17.根据权利要求15所述的方法，其中所述去卷积矩阵包含多个肿瘤细胞表达特征基因。

18.根据权利要求17所述的方法，其中所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。

19.根据权利要求17所述的方法，其中所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来处理所述多个表达特征基因的所述表达水平。

20.根据权利要求17所述的方法，其中所述去卷积算法进行RNA归一化步骤，以补偿所述至少一种细胞类型之间的RNA量的变化，以便提高所述至少一种细胞类型的百分比的准确度。

21.根据权利要求17所述的方法，其中所述去卷积算法是使用包含所述至少一种细胞类型的实际百分比的比较数据训练的机器学习算法。

22.根据权利要求21所述的方法，其中所述实际百分比是使用流式细胞术生成的。

23.根据权利要求1所述的方法，其进一步包括对所述生物样品进行下一代RNA测序，以获得所述基因表达数据。

24.根据权利要求1所述的方法，其进一步包括处理所述基因表达数据，以确定所述生物样品的突变负荷，并将所述突变负荷输入到所述分类器中进行分析，以便增强所述生物样品的分类。

25.根据权利要求1-24中任一项所述的方法，其中所述分类器在来自不超过15、20、25、30、35、40、45或50个样品的数据上进行训练，并且提供至少70％、75％、80％、85％、90％或95％的准确度。

26.根据权利要求25所述的方法，其中使用留一法交叉验证方法计算所述准确度。

27.一种用于分析从患有或疑似患有疾病或病况的受试者获得的生物样品的系统，其包含：

包含来自所述生物样品的基因表达数据的数据库，该基因表达数据包含(i)至少一个免疫调节基因的表达水平，和(ii)多个表达特征基因的表达水平；以及

至少一个耦合至所述数据库的计算机处理器，其中所述至少一个计算机处理器被编程为：

(a)使用去卷积算法来处理所述多个表达特征基因的所述表达水平，以鉴定并量化所述生物样品中存在的至少一种细胞类型的百分比；

(b)使用分类器分析所述至少一个免疫调节基因的表达水平和来自(a)的所述至少一种细胞类型的百分比，以确定所述受试者对治疗有反应或无反应的可能性。

28.根据权利要求27所述的系统，其中所述治疗包括免疫疗法。

29.根据权利要求27所述的系统，其中所述至少一个处理器进一步被编程为提供开始、停止、改变或继续治疗性干预的指令。

30.根据权利要求27所述的系统，其中所述疾病或病况是癌症。

31.根据权利要求27所述的系统，其中所述至少一种细胞类型包括至少一种免疫细胞类型。

32.根据权利要求31所述的系统，其中所述至少一种免疫细胞类型选自CD4+记忆T细胞、CD4+幼稚T细胞、CD4+T细胞、中央记忆T(Tcm)细胞、效应记忆T(Tem)细胞、CD4+Tcm、CD4+Tem、CD8+T细胞、CD8+幼稚T细胞、CD8+Tcm、CD8+Tem、调节性T细胞(Treg)、T辅助(Th)1细胞、Th2细胞、γδT(Tgd)细胞、自然杀伤(NK)细胞、自然杀伤T(NKT)细胞、B细胞、幼稚B细胞、记忆B细胞、类别转换记忆B细胞、原B细胞和浆细胞。

33.根据权利要求31所述的系统，其中所述至少一种免疫细胞类型选自M1巨噬细胞、M2巨噬细胞、CD19+B细胞、CD14+单核细胞、CD56+NK细胞、CD8+T细胞、Treg细胞和CD4+T细胞。

34.根据权利要求27所述的系统，其中所述至少一个免疫调节基因选自CTLA4、OX40、PD-1、IDO1、CD47、PD-L1、TIM-3、BTLA、ICOS和ARG1。

35.根据权利要求27所述的系统，其中使用机器学习算法生成所述分类器。

36.根据权利要求35所述的系统，其中所述机器学习算法是随机森林算法。

37.根据权利要求27所述的系统，其中使用来自不超过50个样品的数据训练所述分类器。

38.根据权利要求27所述的系统，其中所述生物样品包含癌症或癌前期组织。

39.根据权利要求27所述的系统，其中(a)中的去卷积算法应用去卷积矩阵来处理所述多个表达特征基因的所述表达水平，以鉴定并量化所述至少一种细胞类型的百分比。

40.根据权利要求39所述的系统，其中所述去卷积矩阵包含多个免疫细胞表达特征基因。

41.根据权利要求39所述的系统，其中所述去卷积矩阵包含多个肿瘤细胞表达特征基因。

42.根据权利要求39所述的系统，其中所述去卷积矩阵包含多种细胞类型，每种细胞类型包含多个表达特征基因，其中每个表达特征基因的表达计数在所述多种细胞类型之间进行归一化。

43.根据权利要求39所述的系统，其中所述去卷积算法使用线性最小二乘回归(LLSR)、二次规划(QP)、基因表达去卷积的摄动模型(PERT)、鲁棒线性回归(RLR)、具有差异分析的微阵列显微切割(MMAD)、数字分类算法(DSA)或支持向量回归来处理所述多个表达特征基因的所述表达水平。

44.根据权利要求39所述的系统，其中所述去卷积算法进行RNA归一化步骤，以补偿所述至少一种细胞类型之间的RNA量的变化，以便提高所述至少一种细胞类型的百分比的准确度。

45.根据权利要求39所述的系统，其中所述去卷积算法是使用包含所述至少一种细胞类型的实际百分比的比较数据训练的机器学习算法。

46.根据权利要求27所述的系统，其中使用下一代RNA测序从所述生物样品获得所述基因表达数据和所述多个表达特征基因。

47.根据权利要求27所述的系统，其中所述至少一个处理器进一步被编程为获得所述生物样品的突变负荷数据，并将该突变负荷数据输入到分类器中进行分析，以便增强所述生物样品的分类。

48.根据权利要求27-47中任一项所述的系统，其中所述分类器在来自不超过15、20、25、30、35、40、45或50个样品的数据上进行训练，并且提供至少70％、75％、80％、85％、90％或95％的准确度。

49.根据权利要求48所述的系统，其中使用留一法交叉验证方法计算所述准确度。