CN112735513B

CN112735513B - 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法

Info

Publication number: CN112735513B
Application number: CN202110005009.1A
Authority: CN
Inventors: 郭昊; 徐炳祥; 葛明晖; 颜林林; 李诗濛; 任用
Original assignee: Jiangsu Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Devices Co ltd
Current assignee: Jiangsu Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Devices Co ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-11-19
Anticipated expiration: 2041-01-04
Also published as: WO2022141775A1; CN112735513A

Abstract

本发明提供了一种DNA甲基化特征位点筛选方法以及基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法。

Description

基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法

技术领域

本发明涉及生物信息学分析领域，特别是涉及一种基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法。

背景技术

近年来，以免疫检查点抑制剂治疗为代表的一系列肿瘤免疫治疗技术被引入至多种肿瘤类型的治疗过程中，尤其在在黑色素瘤、肾细胞癌、非小细胞肺癌、头颈部癌、尿路上皮癌、霍奇金淋巴瘤、麦克尔细胞癌等众多晚期恶性肿瘤的治疗中具有显著疗效，极大地提高了部分晚期肿瘤患者的生存时间和生活质量。这些肿瘤免疫疗法不直接针对于肿瘤细胞，而是通过促进人体的免疫反应和提高免疫细胞识别能力来对抗并清除肿瘤细胞以达到治疗目的。

但临床统计结果显示，免疫检查点抑制剂治疗只在部分患者中有效，仍有许多患者无法通过免疫检查点抑制剂治疗获益。甚至有部分患者因自身非特异性免疫反应过度加强而导致出现一系列包括皮肤、胃肠、肝脏、内分泌在内的免疫相关不良事件(immune-related adverse event,irAE)的副作用，有时甚至危及生命。因此，识别能对免疫检查点抑制剂做出良好反应的患者病例是提高其治疗有效性，安全性以及拓展其应用边界的重要手段。

目前，研究者已经发现多种免疫检查点抑制剂有效性评估的生物标志物，其中包括肿瘤突变负荷(tumor mutation burden，TMB)、新抗原(neoantigens)、微卫星不稳定性(microsetellate instability,MSI)、程序性死亡受体配体1(PD-L1)表达水平和肿瘤免疫浸润程度等。但以上标志物的检测普遍需要通过手术的侵入性采样，难以高效追踪。并且具有肿瘤类型特异性，需要对各肿瘤类型进行单独设计评估模型和模型验证。而泛肿瘤水平上的免疫检查点抑制剂治疗有效性评估模型普遍以基因表达谱数据为基础，但RNA提取含量低和RNA自身的不稳定性使得肿瘤组织的基因表达谱检测存在诸多限制。因此，现有技术中亟求一种基于稳定且便于检测的生物标志物来开发在泛肿瘤水平上的免疫检查点抑制剂治疗有效性评估的方法。

鉴于此，提出本发明。

发明内容

本发明的目的是寻求一种基于稳定且便于检测的生物标志物来开发在泛肿瘤水平上的免疫检查点抑制剂治疗有效性的评估方法或模型。为实现上述目的，本发明提供如下技术方案：

本发明首先提供了一种DNA甲基化特征位点筛选方法，其特征在于，包括如下步骤：

步骤1)，在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析，聚类的类别数设置为2，得到在每个癌肿上的两类免疫细胞浸润模式的样本队列；

步骤2)，根据免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；

步骤3)，对上述指标所筛选出的肿瘤类型分析两类免疫细胞浸润模式的样本队列在各甲基化位点上甲基化率的差异程度，构建特征甲基化位点集合。

近一步的，所述步骤2)是根据3种免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；

更进一步的，所述3种免疫检查点抑制剂治疗有效性间接评估指标为预后生存时间(OS)评估指标、肿瘤突变负荷(TMB)评估指标和PD-L1表达水平评估指标；

优选的，按照如下方式选出与之有显著关联的肿瘤类型：针对预后生存时间(OS)评估指标，使用时序检验(log rank test)筛选两类样本中预后生存时间显著差异的肿瘤类型；针对肿瘤突变负荷(TMB)评估指标，用曼-惠特尼U检验(Mann Whitney U test)筛选两类样本突变负荷存在显著差异的肿瘤类型；针对PD-L1表达水平评估指标，使用R软件的DESeq2包在两类样本之间的表达差异进行刻画，选取PD-L1基因的表达水平存在显著差异的肿瘤类型；

更优选的，上述检验的pvalue均经过FDR校正，并存在显著性差异，adj.p-value小于0.05。

近一步的，所述步骤3)分别使用missMethyl软件包来分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，并定义经FDR校正后的显著性adj.p-value值小于0.05为显著的差异甲基化位点；

优选的，在每种指标的筛选结果中，保留在与其关联的肿瘤类型上均为显著性差异且在一半以上的肿瘤类型中其甲基化率的差异方向一致的甲基化位点，定义为与该指标显著关联的特征甲基化位点；将三个特征甲基化位点集合合并为最终筛选的特征甲基化位点集合；

更优选的，在特征甲基化位点集合基础上加入公开报道中检测到的与肿瘤免疫浸润相关的甲基化位点作为最终特征甲基化位点集合。

进一步的，上述方法还包括：步骤4)，采用公开报道中证实与免疫治疗疗效相关的特征来间接定义免疫检查点抑制剂治疗的有效性：

优选的，所述定义在患者队列中同时满足如下条件病例为免疫检查点抑制剂治疗有效病例：1)肿瘤突变负荷(TMB)值高于所有样本的上四分位点值；2)公开报道中的TGF-β相关免疫评分(TGFB score 21050467)低于所有样本中位数值；通过上述定义，将数据集分为对免疫检查点抑制剂有效和无效组。

本发明还提供一种基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法，其特征在于，所述方法包括：

上述方法获得的最终特征甲基化位点集合的甲基化率为自变量，根据上述方法中定义的免疫检查点抑制剂有效性为因变量，进行模型训练。

进一步的，可以使用支持向量分类器(support vector machine classifier，SVM)构建免疫检查点抑制剂治疗有效性评估模型，通过用交叉验证(cross validation)方法选择模型中的超参数；

优选的，在模型训练过程中使用随机过抽样(random oversampling)解决模型面临的严重类不均衡(class imbalance)问题；使用F_1值(F_1)或马修斯相关系数(MCC)来衡量模型预测性能；

更优选的，通过训练得到模型超参数后，将原始队列随机划分两个子集，在前一个子集中，根据得到的超参数进行训练并在后一个子集上计算其预测性能。

本发明还提供一种基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估方法，包括如上任一所述的模型构建方法，随后基于模型对样本进行评估。

本发明进一步提供一种DNA甲基化特征位点筛选系统或基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建，其特征在于，包括如下模块：

1)免疫浸润分析模块：该模块在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析，聚类的类别数设置为2，得到在每个癌肿上的两类免疫细胞浸润模式的样本队列。

2)肿瘤类型筛选模块：该模块根据免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；

3)特征甲基化位点构建模块：该模块对上述指标所筛选出的肿瘤类型分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，构建特征甲基化位点集合。

近一步的，所述模块2)是根据3种免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；

近一步的，所述模块3)分别使用missMethyl软件包来分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，并定义经FDR校正后的显著性adj.p-value值小于0.05为显著的差异甲基化位点；

进一步的，上述模块还包括：模块4)，该模块通过采用公开报道中证实与免疫治疗疗效相关的特征来间接定义免疫检查点抑制剂治疗的有效性：

本发明还提供一种装置，其特征在于，包括：至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行上述方法。

本发明还提供一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现上述方法。

本发明还提供一种上述检测装置或存储介质在肿瘤免疫检查点抑制剂治疗有效性评估模型构建中的应用。

本发明有益的技术效果：

1)本发明所使用的DNA甲基化信号是稳定且具有足够的肿瘤类型和细胞类型特异性。同时，相对于已有免疫检查点抑制剂治疗有效性生物标志物，DNA甲基化谱的获取是便捷且低成本的。其获取既不需要如肿瘤突变负荷(TMB)，微卫星不稳定性(MSI)等借助高成本，长周期的高通量测序技术，也不同于基因表达谱那样受到RNA自身的不稳定性及RNA环境污染等问题的困扰。

2)本发明的模型是在泛肿瘤(pan-cancer)尺度上构建的。特征选择和模型构建过程中均综合考虑了多个肿瘤类型，模型性能验证也显示，在泛肿瘤水平和多个单独的肿瘤类型中，模型均具有较高性能。

3)本发明的特征筛选和模型构建工作可以在未实际经过免疫治疗但具有丰富高通量数据的肿瘤队列中开展。由于目前经过免疫检查点抑制剂治疗的大规模肿瘤队列尚比较匮乏，本发明中采用了大量与免疫检查点抑制剂治疗密切相关的指标衡量其有效性。这使得模型可以在未实际经过免疫治疗，但具有丰富的高通量基因组，转录组和表观遗传学数据的队列中建立。极大地拓展了免疫治疗标志物筛选的可能边界。

4)根据本发明特征筛选和模型构建方法，实例应用于TCGA队列之上，构建了基于DNA甲基化水平的肿瘤免疫检查点抑制剂治疗疗效预测模型，并且该模型在泛肿瘤水平上有与其他模型具有相似的预测性能。同时与基于基因表达谱构建的模型具有互补性，为整合其他组学数据以进一步提升模型预测效能提供了可能。

5)基于本发明专利中的方法，利用TCGA泛肿瘤队列构建的肿瘤免疫检查点抑制剂治疗有效性评估模型不仅在泛肿瘤水平上有良好的预测效果，且在单个肿瘤类型水平上均具有较高的预测性能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：基于DNA甲基化谱的特征选择方法在TCGA队列中能高效选出与免疫检查点抑制剂治疗有效性密切相关的DNA甲基化特征位点；

图2:基于本发明专利描述的模型构建方法在TCGA队列中构建的免疫检查点抑制剂治疗有效性评估模型在泛肿瘤水平上具有良好性能；

图3:基于DNA甲基化谱的免疫检查点抑制剂治疗有效性评估模型在TCGA队列上与基于基因表达谱的泛肿瘤模型有相似的性能且二者具有互补性；

图4:基于DNA甲基化谱的免疫检查点抑制剂治疗有效性评估模型在单个肿瘤类型水平上具有较高性能。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围，并且所述实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

部分术语定义

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

以下描述仅是为了帮助理解本发明而提供。这些描述不应被理解为具有小于本领域技术人员所理解的范围。

本发明专利核心旨在构建一套可基于DNA甲基化谱数据，在泛肿瘤水平和单一肿瘤类型水平上均有较高预测精度的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法。为此，本发明设计了一套基于使用DNA甲基化谱数据进行免疫浸润分析的结果来筛选肿瘤免疫检查点抑制剂治疗有效性特征甲基化位点的方法，并基于特征筛选结果和已知免疫治疗标志物来构建肿瘤免疫检查点抑制剂有效性评估模型。

具体的，本发明设计了一套基于背景知识的DNA甲基化特征位点筛选方法。该方法基于公开报道中所陈述的如下事实：基于DNA甲基化谱的免疫浸润分析显示，大部分肿瘤类型的肿瘤样本均可以被分为浸润水平较高和浸润水平较低两类，同时有证据表明在部分肿瘤类型中以上两类浸润水平的样本在免疫检查点抑制剂治疗的有效性上存在显著差异。通过检出这些肿瘤类型并分析其中两类样本的差异甲基化位点，便可获得特征甲基化位点集合。

在一些实施方式中，本发明具体提供了一种DNA甲基化特征位点筛选方法以及基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法，包括如下步骤：

步骤1)，在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析；优选的，所述聚类的类别数设置为2，得到在每个癌肿上的两类免疫细胞浸润模式的样本队列；

在一些实施方式中，所述步骤2)是根据3种免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型，所述3种免疫检查点抑制剂治疗有效性间接评估指标为预后生存时间(OS)评估指标、肿瘤突变负荷(TMB)评估指标和PD-L1表达水平评估指标；优选的，按照如下方式选出与之有显著关联的肿瘤类型：针对预后生存时间(OS)评估指标，使用时序检验(log rank test)筛选两类样本中预后生存时间显著差异的肿瘤类型；针对肿瘤突变负荷(TMB)评估指标，用曼-惠特尼U检验(Mann Whitney U test)筛选两类样本突变负荷存在显著差异的肿瘤类型；针对PD-L1表达水平评估指标，使用R软件的DESeq2包在两类样本之间的表达差异进行刻画，选取PD-L1基因的表达水平存在显著差异的肿瘤类型；更优选的，上述检验的pvalue均经过FDR校正，并存在显著性差异，adj.p-value小于0.05。

在一些实施方式中，所述步骤3)分别使用missMethyl软件包来分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，并定义经FDR校正后的显著性adj.p-value值小于0.05为显著的差异甲基化位点；优选的，在每种指标的筛选结果中，保留在与其关联的肿瘤类型上均为显著性差异且在一半以上的肿瘤类型中其甲基化率的差异方向一致的甲基化位点，定义为与该指标显著关联的特征甲基化位点；将三个特征甲基化位点集合合并为最终筛选的特征甲基化位点集合；更优选的，在特征甲基化位点集合基础上加入公开报道中检测到的与肿瘤免疫浸润相关的甲基化位点作为最终特征甲基化位点集合。

在一些实施方式中，由于免疫治疗样本队列较难获取，因此所述方法进一步包括：步骤4)，采用公开报道中证实与免疫治疗疗效相关的特征来间接定义免疫检查点抑制剂治疗的有效性：优选的，所述定义在患者队列中同时满足如下条件病例为免疫检查点抑制剂治疗有效病例：1)肿瘤突变负荷(TMB)值高于所有样本的上四分位点值；2)公开报道中的TGF-β相关免疫评分(TGFB score 21050467)低于所有样本中位数值。

通过上述定义，将数据集分为对免疫检查点抑制剂有效和无效组，并且此定义使得该模型可建立于未实际经过免疫检查点抑制剂治疗，但具有丰富的多组学数据的肿瘤队列之上。

最终模型根据最终特征甲基化位点集合的甲基化率为自变量，上述定义的免疫检查点抑制剂有效性为因变量进行模型训练，使用支持向量分类器(support vectormachine classifier，SVM)构建免疫检查点抑制剂治疗有效性评估模型，并通过用5折交叉验证(5-fold cross validation)方法选择模型中的超参数。在模型训练过程中使用随机过抽样(random oversampling)解决模型面临的严重类不均衡(class imbalance)问题。使用F₁值(F₁)和马修斯相关系数(MCC)来衡量模型预测性能。通过训练得到模型超参数后，将原始队列以8：2的比例随机划分两个子集，在前一个子集种，根据上述得到的超参数进行训练并在后一个子集上计算其预测性能。重复此随机化模型评估过程100次以获得模型构建方法性能的全面评估。

在一些实施例中，本发明专利方法按照上述流程，在来自TCGA的由22个肿瘤类型的6381个样本组成的泛肿瘤队列上进行建模，最后识别了由3143个甲基化位点构成的最终特征集合，并基于此特征集合构建了在泛肿瘤水平上和在单一肿瘤类型水平上都具备较高性能的肿瘤免疫检查点抑制剂治疗有效性评估模型。

本发明通过附图和如下实施例进一步描述，所述的附图和实施例只是为了例证本发明的特定实施方案，不应理解为以任何方式限制本发明范围之意。除非另外说明，本发明中所公开的实验方法均采用本技术领域常规技术，实施例中所用的试剂和原材料均可由市场购得。

实施例1方法建立

本发明专利设计了一套基于使用DNA甲基化谱数据进行免疫浸润分析的结果来筛选肿瘤免疫检查点抑制剂治疗有效性特征甲基化位点的方法，并基于特征筛选结果和已知免疫治疗标志物来构建肿瘤免疫检查点抑制剂有效性评估模型。

1.基于背景知识的DNA甲基化特征位点的筛选方法建立

鉴于DNA甲基化芯片可一次性获取大量位点的甲基化水平数据，位点数目远超临床队列所能承载的样本数目，且不同位点甲基化水平之间往往存在显著的共线性。这些特点使得绝大部分现有的以数据为驱动的模型选择方法变得效率低下。因此本实施例设计了一套基于背景知识的DNA甲基化特征位点筛选方法。

该方法基于公开报道中所陈述的如下事实：基于DNA甲基化谱的免疫浸润分析显示，大部分肿瘤类型的肿瘤样本均可以被分为浸润水平较高和浸润水平较低两类，同时有证据表明在部分肿瘤类型中以上两类浸润水平的样本在免疫检查点抑制剂治疗的有效性上存在显著差异。通过检出这些肿瘤类型并分析其中两类样本的差异甲基化位点，便可获得特征甲基化位点集合。

由于接受免疫治疗的样本获取比较困难，本发明专利采用一系列相对容易获取且有证据支持的生物标志物间接评估肿瘤免疫检查点抑制剂治疗的效性。基于公有开报道所列举的事实，选取了预后总生存时间(overall survival time，OS)，肿瘤突变负荷(tumormutation burden，TMB)和程序性死亡受体配体1(PD-L1)基因的表达水平作为免疫检查点抑制剂治疗有效性的评估指标。DNA甲基化特征位点筛选的具体实施细节如下：

第一步，在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测得的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析，聚类的类别数设置为2,得到在每个癌肿上的两类免疫细胞浸润模式的样本队列。

第二步，根据3种免疫检查点抑制剂治疗有效性间接评估指标，分别照如下方式选出与之有显著关联的肿瘤类型：针对预后生存时间(OS)评估指标，使用时序检验(log ranktest)筛选两类样本中预后生存时间显著差异的肿瘤类型；针对TMB评估指标，用曼-惠特尼U检验(Mann Whitney U test)筛选两类样本突变负荷存在显著差异的肿瘤类型；针对PD-L1表达水平评估指标，使用R软件的DESeq2包在两类样本之间的表达差异进行刻画，选取PD-L1基因的表达水平存在显著差异的肿瘤类型。以上检验的pvalue均经过FDR校正，并存在显著性差异(adj.p-value小于0.05)。

第三步，对以上3种指标所筛选出的肿瘤类型分别使用missMethyl软件包来分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，并定义经FDR校正后的显著性adj.p-value值小于0.05为显著的差异甲基化位点。在每种指标的筛选结果中，保留在与其关联的肿瘤类型上均为显著性差异且在一半以上的肿瘤类型中其甲基化率的差异方向一致的甲基化位点，定义为与该指标显著关联的特征甲基化位点。将三个特征甲基化位点集合合并为最终筛选的特征甲基化位点集合。最后在此基础上加入公开报道中检测到的与肿瘤免疫浸润相关的甲基化位点作为最终特征甲基化位点集合。

第四步，由于免疫治疗样本队列较难获取，因此采用公开报道中证实与免疫治疗疗效相关的特征来间接定义免疫检查点抑制剂治疗的有效性。定义在患者队列中同时满足如下条件病例为免疫检查点抑制剂治疗有效病例：

1)肿瘤突变负荷(TMB)值高于所有样本的上四分位点值；

2)公开报道中的TGF-β相关免疫评分(TGFB score 21050467)低于所有样本中位数值。

2.构建肿瘤免疫检查点抑制剂有效性评估模型

上述筛选的最终模型根据最终特征甲基化位点集合的甲基化率为自变量，上述定义的免疫检查点抑制剂有效性为因变量进行模型训练，使用支持向量分类器(supportvector machine classifier，SVM)构建免疫检查点抑制剂治疗有效性评估模型，并通过用5折交叉验证(5-fold cross validation)方法选择模型中的超参数。在模型训练过程中使用随机过抽样(random oversampling)解决模型面临的严重类不均衡(class imbalance)问题。使用F₁值(F₁)和马修斯相关系数(MCC)来衡量模型预测性能。通过训练得到模型超参数后，将原始队列以8：2的比例随机划分两个子集，在前一个子集中，根据上述得到的超参数进行训练并在后一个子集上计算其预测性能。重复此随机化模型评估过程100次以获得模型构建方法性能的全面评估。

实施例2临床样本验证

本发明专利将上述特征筛选和模型构建方法运用于一个来自TCGA的，由22种肿瘤类型和6381例患者组成的泛肿瘤队列。并在该队列上展示其优良性(附表1列出了所有肿瘤类型及每肿瘤类型所包含样本数量)。

从公开数据中获取上述队列Illumina Infinium HumanMethylation450BeadChip测得的约48万个位点的甲基化率(β值)，由RNA-seq测得的基因表达谱，由基因组测序获得的体细胞突变图谱和生存时间数据。并按通行定义计算了每一个样本的肿瘤突变负荷和TGF-β分值。

在此队列上，通过特征选择算法得到一个包含2083个DNA甲基化位点的最终特征集合，附表2示例性的列出了最终特征集合甲基化位点以及筛选过程信息，如下。

该特征集合能高效区分免疫检查点抑制剂治疗有效和无效的样本。这一点从如下几个方面得以说明：

a)观察可知免疫检查点抑制剂治疗有效和无效的样本在最终特征集合中各位点上的甲基化率存在显著差异(附图1A)。此外，与从所有检测的甲基化位点中随机挑选的，与最终特征集合有相同数目甲基化位点的随机阴性对照相比，如果将样本按照特征位点的甲基化率无监督聚类为两组，则分组情况与样本是否免疫检查点抑制剂治疗有效之间存在更密切的相关性(在100次对比中，若分别以F₁值和MCC衡量其相关性，则基于最终特征集合的聚类分别高于96和92组对照特征集合，附图1B)。

b)与上述随机选取的，和最终特征集合由相同数目甲基化位点的阴性对照特征集合相比，最终特征集合包含更多的在对比免疫检查点抑制剂治疗有效与否的两组样本中展现出甲基化水平差异的甲基化位点。即使忽略肿瘤类型，直接对比所有免疫检查点抑制剂治疗有效和无效样本的甲基化率时，最终特征集合中75.56％的甲基化位点被报告为存在甲基化差异，而此数值在对照特征集合中最高为70.28％(附图1C)。

c)在基于基因本体论(Gene ontopology，GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes，KEGG)的基因功能富集分析中，最终特征集合中甲基化位点所在基因富集大量与免疫和肿瘤相关的功能项。例如GO中"immuneresponse","immune system process"和"regulation of immune system process"等，以及KEGG中的"Th17 cell differentiation"等(附图1D)。此外，相比对照特征集合，最终特征集合中甲基化位点所在基因在基因富集分析中富集显著更多的功能项。例如在基于GO和KEGG的基因功能富集分析中，最终特征集合中甲基化位点所在基因共分别富集得347和9个功能项，而100次随机对照特征集合中最多仅分别富集95和8个功能项。

基于所选最终特征集合所包含甲基化位点的甲基化水平构建的预测模型能以较高准确度和灵敏度在泛肿瘤水平区分免疫检查点抑制剂治疗有效和无效的样本。此项可通过如下几点加以论证：

a)在此队列上，基于上述最终特征集合，本发明专利测试了一系列常见机器学习预测模型的效果，其中包括带L₁正则项的逻辑斯蒂回归模型(logistic regression，LR)支持向量分类器(support vector machine classifier，SVM)，随机森林分类器(randomforest classifier，RF)和k近邻分类器(k nearest neighbor classifier，KNN)。按照上述模型性能评估策略，无论以F₁值还是MCC衡量模型性能，SVM模型均明显优于其他模型(附图2A)。此外，所有机器学习模型的预测性能均显著高于将每一肿瘤类型中聚类结果中具有较高平均肿瘤突变负荷的一类样本报告为免疫检查点抑制剂治疗有效所形成的背景模型(附图2A)。

b)上述SVM模型的预测能力显著高于基于随机对照特征集合所构建的模型。本示例对比了基于最终特征集合的模型与100个基于不同随机对照特征集合建立的模型的预测能力。结果显示，在绝大多数SVM模型的超参数设定下，基于最终特征集合的模型均一致优于基于随机对照特征集合的模型(附图2B)。

c)基于最终特征集合的模型所具有的预测能力不来自于过拟合。为证实此论断，随机重排样本所具有的治疗有效性标签，并基于上述最终特征集合构建对重排后的标签的预测模型。结果显示，在100次上述随机化评估中，随机化模型的预测性能均较原模型有显著下降。这些随机化模型的预测能力均仅略高于随机猜测时。说明在此队列中，最终特征集合尚不至于过大以致出现过拟合现象(附图2C)。

d)众多与免疫检查点抑制剂治疗有效性相关的指标变量在模型预测为免疫检查点抑制剂治疗有效和无效的两组样本之间存在差异。在所有100次随机化模型性能评估中，被模型预测为免疫检查点抑制剂治疗有效的样本均具有比被模型预测为无效的样本更高的肿瘤突变负荷(附图2D)。在其中99此评估中，被模型预测为有效的样本有比模型预测为无效者更高的PD-L1基因平均表达水平(附图2E)。此外，在其中66次评估中，此PD-L1基因表达水平的差异是显著的(以FDR校正后的显著性水平小于0.01为阈值，附图2E)。

基于DNA甲基化的免疫检查点抑制剂治疗有效性评估模型的预测准确度与基于基因表达谱的模型在泛肿瘤水平上相近且二者存在互补性。此项可通过如下几个方面加以论证：

a)基于DNA甲基化的模型有与基于基因表达谱的模型相似的预测性能。此处基于基因表达谱的模型按照公开报道，基于肿瘤免疫相关基因的表达水平(log₂(FPKM+1))用SVM方法构建。与公开报道不同，模型训练时同样采用随机过抽样方法解决类不均衡问题。如此构建的预测模型预测性能明显高于公开报道中的模型(在100次随机化评估中，平均MCC分值达到0.463，而公开报道中仅0.296)。在100次随机化评估中，若以F₁值衡量模型预测性能，则基于DNA甲基化的模型显著优于基于基因表达谱的模型(附图3A)；若以MCC值衡量模型的预测性能，则二者无显著差异(附图3B)；若以AUC(受试者操作特性曲线下面积,area under receiver operating characteristic curve)衡量模型预测性能，则基于基因表达谱的模型显著优于基于DNA甲基化的模型(附图3C)。综合以上三个指标，可以认为两个模型对肿瘤样本免疫检查点抑制剂治疗有效性的预测效能是近似的。这一结论也可通过检视二者的受试者操作特性曲线(receiver operating characteristic curve，ROC)得出(附图3D)。

b)基于DNA甲基化的模型与基于基因表达谱的模型存在互补性。此结论通过如下几个方面得以论证：

a)基于DNA甲基化的模型中所选择的甲基化位点所在基因与基于基因表达谱的模型所涉及的基因有较大差异。在前者所涉及的1660个基因中，仅有384个与后者相同(后者共包含2614个基因)。上述两个集合在基因本体论富集分析中所富集的功能项也存在明显差异(附图3E)。

b)同时基于DNA甲基化谱和基因表达谱的模型在本队列中有比单独基于DNA甲基化水平或基因表达谱的模型更高的预测性能。此处为使DNA甲基化率与基因表达水平可比，使用极差标准化方法将同一样本的所有基因表达水平(log₂(FPKM+1))标准化至区间[0,1]，继而使用与前述完全相同的策略在合并DNA甲基化水平和基因表达水平的特征集合上构建预测模型。100次随机化评估结果显示，无论使用何种模型预测性能评估方法，合并两组特征后的模型对肿瘤免疫检查点抑制剂治疗有效性的预测性能均优于仅考虑DNA甲基化水平或基因表达水平的模型(附图3A-C)。此结论也可通过检视三个模型的ROC曲线获得(附图3D)。

综上，依本发明专利所列方法在TCGA泛肿瘤队列中构建的基于DNA甲基化水平的肿瘤免疫检查点抑制剂治疗有效性评估模型在泛肿瘤水平上与公开报道中基于基因表达谱构建者有类似的预测精度。

基于本发明专利中所列方式在TCGA队列上构建的免疫检查点抑制剂治疗有效性评估模型在单个肿瘤类型水平上也具有较高预测精度。此结论通过考察模型在TCGA队列中5％以上样本标记为免疫检查点抑制剂治疗有效的肿瘤类型(共10种)上的预测精度得以论证。

a)基于DNA甲基化水平的模型在肿瘤类型水平上正确的反映了不同肿瘤类型样本免疫检查点抑制剂治疗的有效率差异。为此，在上述100次随机化评估中，计算了模型在每一肿瘤类型中预测的免疫检查点抑制剂治疗有效率，并与对应的有效率真值进行比较。结果显示，虽然由于存在较高假阳性率，模型预测的有效率普遍高于真值，但二者变化趋势高度一致(在100次随机化模型评估中二者平均斯皮尔曼相关系数达到0.73，附图4A)。

b)与基于随机选择的，与最终特征集合有相同数目的甲基化位点构建的预测模型相比，基于最终特征集合构建的预测模型在公开报道中确认的，与免疫逃逸密切相关且有可能从免疫检查点抑制剂治疗中获益的肿瘤类型中有更高的预测精度。无论使用F₁值还是MCC值衡量模型预测精度，在100次随机化模型评估中，基于最终特征集合的模型始终在上述10个肿瘤类型中的5个上有显著更高的预测精度(用配对样本t检验衡量模型预测精度的差异，取显著性水平阈值为0.1)。且在所有10个肿瘤类型中，基于最终特征集合的模型预测精度均不显著弱于基于随机对照特征集的模型(附图4B)。

基于DNA甲基化水平的模型在实际接受免疫检查点抑制剂治疗的肿瘤队列中预测了治疗的有效性。为此，考察了一个公开报道的，由58位接受过免疫检查点抑制剂治疗的非小细胞肺癌患者组成的队列(SMC队列)。用基于TCGA队列所有样本训练的疗效评估模型对每一位患者治疗的有效性进行了评估并与真是结果进行了比较。结果显示预测精度的F₁值，MCC值和AUC值分别达到了0.42，0.21和0.70。模型的ROC曲线也显示其具有较好的预测准确度和灵敏度(附图4C)。需注意，此队列未包含于TCGA队列，非小细胞肺癌也不在参与模型构建的22个肿瘤类型之中，模型在此完全独立于TCGA队列的肿瘤队列中仍有较高的预测性能这一事实进一步论证了模型构建方法和基于此方法构建的模型的有效性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种DNA甲基化特征位点筛选方法，其特征在于，包括如下步骤：

步骤1），在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析；所述聚类的类别数设置为2，得到在每个癌肿上的两类免疫细胞浸润模式的样本队列；

步骤2），根据免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；所述免疫检查点抑制剂治疗有效性间接评估指标为：预后生存时间(OS) 评估指标、肿瘤突变负荷（TMB）评估指标和PD-L1表达水平评估指标；

所述选出与之有显著关联的肿瘤类型为：针对预后生存时间(OS)评估指标，筛选两类样本中预后生存时间显著差异的肿瘤类型；针对肿瘤突变负荷（TMB）评估指标，筛选两类样本突变负荷存在显著差异的肿瘤类型；针对PD-L1表达水平评估指标，在两类样本之间的表达差异进行刻画，选取PD-L1基因的表达水平存在显著差异的肿瘤类型；

步骤3），对上述指标所筛选出的肿瘤类型分析两类免疫细胞浸润模式的样本队列在各甲基化位点上甲基化率的差异程度，构建特征甲基化位点集合。

2.权利要求1所述的DNA甲基化特征位点筛选方法，其特征在于：

所述步骤2）中，选出与之有显著关联的肿瘤类型具体为：针对预后生存时间(OS)评估指标，使用时序检验（log rank test）筛选两类样本中预后生存时间显著差异的肿瘤类型；针对肿瘤突变负荷（TMB）评估指标，用曼-惠特尼U检验（Mann Whitney U test）筛选两类样本突变负荷存在显著差异的肿瘤类型；针对PD-L1表达水平评估指标，使用R软件的DESeq2包在两类样本之间的表达差异进行刻画，选取PD-L1基因的表达水平存在显著差异的肿瘤类型；检验的pvalue均经过FDR校正，并存在显著性差异，adj.p-value小于0.05。

3.权利要求1所述的DNA甲基化特征位点筛选方法，其特征在于：

所述步骤3）分别使用missMethyl软件包来分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，并定义经FDR校正后的显著性adj.p-value值小于0.05为显著的差异甲基化位点。

4.权利要求3所述的DNA甲基化特征位点筛选方法，其特征在于：所述分析为：在每种指标的筛选结果中，保留在与其关联的肿瘤类型上均为显著性差异且在一半以上的肿瘤类型中其甲基化率的差异方向一致的甲基化位点，定义为与该指标显著关联的特征甲基化位点；将三个特征甲基化位点集合合并为最终筛选的特征甲基化位点集合；在特征甲基化位点集合基础上加入检测到的与肿瘤免疫浸润相关的甲基化位点作为最终特征甲基化位点集合。

5.权利要求1所述的DNA甲基化特征位点筛选方法，其特征在于，所述方法进一步包括：

步骤4），采用证实与免疫治疗疗效相关的特征来间接定义免疫检查点抑制剂治疗的有效性；所述定义在患者队列中同时满足如下条件病例为免疫检查点抑制剂治疗有效病例：1) 肿瘤突变负荷（TMB）值高于所有样本的上四分位点值；2) TGF-β相关免疫评分低于所有样本中位数值；通过上述定义，将数据集分为对免疫检查点抑制剂有效和无效组。

6.一种基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法，其特征在于，所述方法包括：

根据权利要求1-5任一所述方法获得的最终特征甲基化位点集合的甲基化率为自变量，根据权利要求1-5任意所述方法中定义的免疫检查点抑制剂有效性为因变量，进行模型训练。

7.权利要求6所述的基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法，其特征在于，所述模型训练具体：使用支持向量分类器（support vectormachine classifier，SVM）构建免疫检查点抑制剂治疗有效性评估模型，通过用交叉验证（cross validation）方法选择模型中的超参数。

8.一种DNA甲基化特征位点筛选系统或基于DNA甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建系统，其特征在于，包括如下模块：

1）免疫浸润分析模块：该模块在给定的包含多个肿瘤类型样本的肿瘤队列中，基于检测的DNA甲基化谱数据对每个肿瘤样本进行免疫浸润分析，计算得到每个样本中各类型免疫细胞的相对浸润含量，基于各个肿瘤类型队列样本中的免疫细胞浸润含量进行聚类分析，聚类的类别数设置为2，得到在每个癌肿上的两类免疫细胞浸润模式的样本队列；

2）肿瘤类型筛选模块：该模块根据免疫检查点抑制剂治疗有效性间接评估指标，选出与之有显著关联的肿瘤类型；

所述免疫检查点抑制剂治疗有效性间接评估指标为：预后生存时间(OS) 评估指标、肿瘤突变负荷（TMB）评估指标和PD-L1表达水平评估指标；

3）特征甲基化位点构建模块：该模块对上述指标所筛选出的肿瘤类型分析两类肿瘤样本在各甲基化位点上甲基化率的差异程度，构建特征甲基化位点集合。

9.一种装置，其特征在于，包括：至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行如权利要求1-7任一项所述的方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述的方法。

11.一种在肿瘤免疫检查点抑制剂治疗有效性评估模型构建中的应用，其特征在于，所述应用使用权利要求9所述的装置或权利要求10所述的存储介质。