CN115132273B

CN115132273B - 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统

Info

Publication number: CN115132273B
Application number: CN202210914112.2A
Authority: CN
Inventors: 李冰思; 许佳悦; 邱福俊; 汉雨生; 张之宏
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2023-07-28
Anticipated expiration: 2042-08-01
Also published as: WO2024027032A1; CN115132273A

Abstract

提供了一种肿瘤风险评估方法及其系统。具体地提供了一种评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的方法和/或系统。采用DNA或RNA寡核苷酸序列对多种不同癌症的甲基化变异区域，以及各种器官的特定甲基化特征区域进行捕获，并对于血液游离DNA(cfDNA)中的肿瘤组分(ctDNA)存在进行判断，并对样本与肿瘤组织来源相关性进行评估。提供了一种低成本、高精确度的方法，有助于对多种癌症的风险进行准确预测和评估。

Description

一种肿瘤形成风险与肿瘤组织来源的评估方法及系统

技术领域

本申请涉及生物医学领域，具体涉及一种肿瘤形成风险与肿瘤组织来源的评估方法及系统。

背景技术

DNA甲基化已知在基因表达调控中起着重要的作用。异常的DNA甲基化标记在多种疾病发生发展中过程中都被报道过，包括癌症。DNA甲基化测序作为一种高分辨率，高通量的技术，其作用在癌症筛查，诊断，以及监控的作用越来越被认识。全基因组重亚硫酸盐测序(WGBS,whole genome bisulfite sequencing)是甲基化测序的金标准，但是因为处理过程中对DNA的严重破坏和过高的测序成本，成为临床应用的困难。更重要的是，人类基因组的大部分区域在癌症发生发展过程中并不活跃，癌症相关的变异往往集中在某些特定区域，如CpG岛(CpG island)，这就为靶向测序提供了很好的机会。

尽管如此，癌症相关的甲基化差异区域(Differentially Methylated Regions，DMR)的发现和筛选是有挑战的，因为人群异质性，包括疾病，年龄等状态会带来甲基化谱的非特异变化，所以癌症检测DOC(Detection Of Cancer)模型建立过程中需要对这些非癌症但是异常的信号进行处理。最后，对于多种癌种的检测的应用，组织溯源TOO(Tissue OfOrigin)模型的建立对于追溯癌症变异可能的来源器官，对下游诊疗路径确定，节省医疗成本有重要辅助意义。

发明内容

本申请建立了一种低成本，高精确度的方法，采用DNA或RNA寡核苷酸序列对多种不同癌症的甲基化变异区域，以及各种器官的特定甲基化特征区域进行捕获，并对于血液游离DNA(cfDNA)中的肿瘤组分(ctDNA)存在进行判断，并对样本与肿瘤组织来源相关性进行评估。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的方法，其包含：(1)差异甲基化区域DMR划分步骤：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定多个用于评估的目标DMR；(2)肿瘤形成风险评估步骤：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性；(3)任选地包含肿瘤组织来源评估步骤：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。

一方面，本申请提供了一种差异甲基化区域DMR的确定方法，所述方法包含差异甲基化区域DMR划分步骤：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定差异甲基化区域DMR。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险相关性的方法，其包含肿瘤形成风险评估步骤：基于待测样本的所述DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性，其中，包含降低受试者的年龄因素对评估结果的影响的步骤，所述待测样本来源于所述受试者。

一方面，本申请提供了一种评估待测样本与肿瘤组织来源相关性的方法，其包含肿瘤组织来源评估步骤：基于待测样本的所述DMR的甲基化水平，通过多分类方法以及逻辑回归，评估待测样本与肿瘤组织来源的相关性。

一方面，本申请提供了一种储存介质，其记载可以运行本申请所述的方法的程序。

一方面，本申请提供了一种设备，所述设备包含本申请所述的储存介质，以及所述设备任选地包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请所述的方法。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的系统，其特征在于，包含：(1)差异甲基化区域DMR划分模块：用于基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定多个用于评估的目标DMR；(2)肿瘤形成风险评估模块：用于基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性；(3)任选地包含肿瘤组织来源评估模块：用于基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。

一方面，本申请提供了一种用于确定差异甲基化区域DMR的系统，其特征在于，包含差异甲基化区域DMR划分模块，用于基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定差异甲基化区域DMR。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险相关性的系统，其特征在于，包含肿瘤形成风险评估模块：用于基于待测样本的所述DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性，其中，包含用于降低受试者的年龄因素对评估结果的影响的模块，所述待测样本来源于所述受试者。

一方面，本申请提供了一种评估待测样本与肿瘤组织来源相关性的系统，其特征在于：包含肿瘤组织来源评估模块：用于基于待测样本的所述DMR的甲基化水平，通过多分类方法以及逻辑回归，评估待测样本与肿瘤组织来源的相关性。

本申请提供了一种低成本、高精确度的方法，有助于对多种癌症的风险进行准确预测和评估。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1显示的是，一种示例性的情况(一种理论上的示例性展示，不用于表示实际的测序情况)。

图2显示的是，另一种示例性的情况(一种理论上的示例性展示，不用于表示实际的测序情况)。

图3A-3C显示的是，另一种示例性的情况(一种理论上的示例性展示，不用于表示实际的测序情况)。

图4显示的是，在5倍交叉验证中，可以实现98％(95％CI：96-99％)的组织溯源准确性。

图5显示的是混淆相关特征在本申请的Salmon-DOC模型的权重配置的控制结果。

图6显示的是，本申请Salmon-DOC模型在肿瘤组模型可以高效的实现6个癌种不同分期的检出。

图7显示的是，在健康组本申请Salmon-DOC模型克服了既往甲基化假阳性随着年龄增高的弱点，在各个年龄段中保持平衡(横轴为年龄，纵轴为模型癌症概率打分)。

图8A-8D显示的是本申请Salmon-TOO双层模型溯源准确性在交叉验证和独立验证中均优于单层模型。

图9显示的是，基于103个TOO相关DMR区域，得到的组织溯源评估结果。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“二代基因测序(NGS)”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展，本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如，二代基因测序可以具有高灵敏度、通量大、测序深度高、或低成本的优势。根据发展历史、影响力、测序原理和技术不同等，主要有以下几种：大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNA nano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。例如，本申请的方法同样可以应用于一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。

在本申请中，术语“待测样本”通常是指需要进行检测的样本。例如，可以检测待测样本上的一个或者多个基因区域是否存在有修饰状态。

术在本申请中，语“多核苷酸”、“核苷酸”、“核酸”和“寡核苷酸”是可互换使用的。它们表示具有任何长度的核苷酸(脱氧核糖核苷酸或者核糖核苷酸)的多聚形式，或其类似物。多核苷酸可以具有任何立体结构，并且可以发挥任何功能，无论是已知的还是未知的。以下是多核苷酸的非限制性实例：基因或基因片段的编码或非编码区、根据连锁分析所限定的基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短-发夹RNA(shRNA)、微小RNA(miRNA)、核糖酶、cDNA、重组多核苷酸、分枝多核苷酸、质粒、载体、具有任何序列的分离的DNA、具有任何序列的分离的RNA、核酸探针、引物和接头。多核苷酸可以包括一个或多个修饰的核苷酸，如甲基化核苷酸和核苷酸类似物。

在本申请中，术语“甲基化”通常是指本申请中基因片段、核苷酸或其碱基具有的甲基化状态。例如，本申请中基因所在的DNA片段可以在一条链或多条链上具有甲基化。例如，本申请中基因所在的DNA片段可以在一个位点或多个位点上具有甲基化。

在本申请中，术语“人类参考基因组”通常是指可以在基因测序中发挥参照功能的人类基因组。所述人类参考基因组的信息可以参考UCSC。所述人类参考基因组可以有不同的版本，例如，可以为hg19、GRCH37或ensembl 75。

在本申请中，术语“机器学习模型”通常是指被配置为实现算法、过程或数学模型的系统或程序指令和/或数据的集合。在本申请中，所述算法、过程或数学模型可以基于给定的输入来评估和提供期望的输出。在本申请中，所述机器学习模型的参数可以没有被明确地编程，并且在传统意义上，所述机器学习模型可以没有被明确地设计成遵循特定的规则以便为给定的输入提供期望的输出。例如，所述机器学习模型的使用可以意味着机器学习模型和/或作为机器学习模型的数据结构/一组规则是由机器学习算法训练的。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

为了实现对肺癌，肠癌，肝癌，卵巢癌，胰腺癌，食管癌6个高发病率高致死率癌种的的检测，本申请采用公共数据库(TCGA)和内部数据挖掘结合的方式，采用一种新的算法，对基因组的甲基化变异和空间位置同时进行比较，共筛选出2536个和癌症高度相关的变异区域(differentially methylated region,DMR)

发明详述

一方面，本申请提供了一种评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的方法，其可以包含：(1)差异甲基化区域DMR划分步骤：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定多个用于评估的目标DMR；(2)肿瘤形成风险评估步骤：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性；(3)任选地包含肿瘤组织来源评估步骤：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。例如，本申请的评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的方法可以包含：(1)基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定多个用于评估的目标DMR；(2)基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性；(3)任选地包含基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。

一方面，本申请提供了一种差异甲基化区域DMR的确定方法，所述方法可以包含差异甲基化区域DMR划分步骤：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定差异甲基化区域DMR。

例如，所述方法可以包含基于甲基化位点的测序覆盖深度以及甲基化位点与其相邻的甲基化位点的甲基化水平差异度，确定所述DMR。例如，所述甲基化水平差异度可以是指甲基化水平差值。例如，所述甲基化水平差异度可以是指甲基化水平差值的绝对值。例如，本申请可以通过甲基化位点与其相邻的甲基化位点的甲基化水平差异度，确定甲基化水平基本一致的DMR区域。例如，本申请可以通过甲基化位点的测序覆盖深度，使得DMR区域的划分更准确。例如，覆盖深度更高的位点的数据信息更加可靠。

例如，所述方法可以包含确定甲基化位点与其相邻的甲基化位点的甲基化水平差值的绝对值，以及根据所述差值的绝对值确定所述甲基化位点与其相邻的甲基化位点是否划分至同一个DMR。例如，所述方法可以包含确定所述差值的绝对值的权重，所述差值的绝对值的权重根据甲基化位点的测序覆盖深度确定。例如，所述权重可以为其中，d_ij是第i个样本第j个位点的测序覆盖深度。

例如，所述方法可以包含，确定甲基化位点与其相邻的甲基化位点的甲基化水平差值的绝对值，以及确定所述差值的绝对值的权重，从而确定甲基化水平差异度；所述差值的绝对值的权重根据甲基化位点的测序覆盖深度确定。

例如，所述甲基化水平差异度β_ij根据下式确定：

其中，M_ij是第i个样本第j个位点的甲基化水平，e表示自然常数，P_ij根据下式确定：

其中，d_ij是第i个样本第j个位点的测序覆盖深度。

例如，所述甲基化位点的所述甲基化水平差异度β_ij小于或等于约0.25时，确定所述甲基化位点与其相邻的甲基化位点划分至同一个DMR。

例如，所述方法还可以包含基于DMR中的甲基化位点与DMR中间位置甲基化位点的甲基化水平差异度的差值，确定所述DMR的甲基化水平波动程度。例如所述中间位置是指物理位置上的中间位置。例如当M为奇数，DMR有M个甲基化位点时，中间位置可以指从上游到下游第(M+1)/2个左右的甲基化位点。例如当M为偶数，DMR有M个甲基化位点时，中间位置可以指从上游到下游第M/2个或第M/2+1个左右的甲基化位点。

例如，通过判断候选DMR中各个甲基化位点的甲基化差异度与中间位置的甲基化位点的甲基化差异度的波动程度，筛选候选DMR中更加优选的DMR。

例如，所述DMR的甲基化水平波动程度B_ij根据下式确定：

所述β_ij是第i个样本第j个位点的甲基化水平差异度，μ_j是DMR区域中间位置甲基化位点的甲基化水平差异度。例如，确定B_ij小于约1的DMR用于评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性。

例如，所述方法可以包含基于待测样本的DMR的甲基化水平，通过二元分类模型，评估待测样本有肿瘤形成的风险，所述评估方法降低受试者的年龄因素对待测样本与肿瘤形成风险和/或肿瘤组织来源相关性评估结果的影响，所述待测样本所来源于所述受试者。

例如，所述二元分类模型可以包含支持向量机SVM模型。例如，所述方法可以包含在所述SVM模型中引入基于所述年龄因素的惩罚项。例如，所述方法可以包含在所述SVM模型中以希尔伯特-施密特独立准则的方式引入基于所述年龄因素的惩罚项。例如，本申请可以用于机器学习的惩罚项的引入方式，都可以在本申请中用于降低年龄因素的影响。

例如，所述方法可以包含根据下式对已知有无肿瘤形成的训练样本进行机器学习训练：

f(x；w,b)＝sgn(wTx+b)

如果a<0，则sgn(a)＝-1；如果a≥0，则sgn(a)＝1

采用如下方程用于确定训练参数：

受限制于y_i(wTx+b)≥1-ξ_i

ξ_i≥0

C、w、λ、b表示训练参数，sgn()表示符号函数，ξ_i表示样本z_i违背等式的程度，x表示样本的甲基化水平，样本为癌组织与肿瘤形成相关时y表示为+1，样本为非癌与肿瘤形成不相关组织时y表示为-1，L_H(P_h(x)h(z))由下式确定：

h(y)和h(z)分别是Y和Z的核函数，F和G分别表示X和Z的再生核希尔伯特空间，P_h(x)h(z)表示h(y)和h(z)的概率分布。

例如，所述方法可以包含基于待测样本的DMR的甲基化水平，通过多分类方法确定分类概率，以及通过逻辑回归对所述分类概率进行拟合，评估待测样本与肿瘤组织来源相关性。例如，所述方法通过成对二分类投票pairwise voting确定分类概率。例如，所述方法可以通过本领域各种多分类方法确定分类概率。例如，所述方法通过多元线性回归MLR对所述分类概率进行拟合。

例如，所述方法可以包含根据下式对已知组织来源的训练样本进行回归分析：

二分类确定的分类概率根据下式确定：

μ_ij≡P(y＝i|y＝i或j,x)

其中I(x)是目标方程：如果x为真则I_{x}＝1，如果x为假则I_{x}＝-1，r_ij为成对的分类概率μ_ij的估计，k为组织类别的总数；i和j分别表示第i和第j个类别，x表示样本的DMR的甲基化水平；

多元线性回归MLR拟合的权重β_j根据下式确定：

其中，X′_i表示二分类投票得到分类概率，Y_ij表示样本的组织来源类别。

例如，所述方法基于所述样本有肿瘤形成的概率，校正所述训练样本的组织来源。例如，所述方法可以包含在所述成对二分类投票得到分类概率前，进行所述校正。例如，所述方法可以包含在所述成对二分类投票得到分类概率之后，所述多元线性回归分析前，进行所述校正。例如，所述方法可以包含基于拟极大似然估计方法进行所述校正。

例如，所述方法可以包含根据下式进行校正：

y_i表示样本的组织来源类别，w_i表示校正的权重，π_i表示所述样本有肿瘤形成的概率。例如通过最大化该式的期望，确定权重以使得组织来源类别可以根据样本是否有肿瘤形成进行校正。例如，评估有肿瘤形成的样本，其组织来源的信息可以更为可靠。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性的系统，其可以包含：(1)差异甲基化区域DMR划分模块：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定多个用于评估的目标DMR；(2)肿瘤形成风险评估模块：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性；(3)任选地包含肿瘤组织来源评估模块：基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。

一方面，本申请提供了一种确定差异甲基化区域DMR的系统，所述系统可以包含差异甲基化区域DMR划分模块：基于甲基化位点的测序覆盖深度和/或相邻甲基化位点的甲基化水平差异度，确定差异甲基化区域DMR。

一方面，本申请提供了一种评估待测样本与肿瘤形成风险相关性的系统，其包含肿瘤形成风险评估模块：基于待测样本的所述DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性，其中，包含降低受试者的年龄因素对评估结果的影响的模块，所述待测样本来源于所述受试者。

一方面，本申请提供了一种评估待测样本与肿瘤组织来源相关性的系统，其包含肿瘤组织来源评估模块：基于待测样本的所述DMR的甲基化水平，通过多分类方法模块以及逻辑回归，评估待测样本与肿瘤组织来源的相关性。

例如，所述系统可以包含基于甲基化位点的测序覆盖深度以及甲基化位点与其相邻的甲基化位点的甲基化水平差异度，确定所述DMR。例如，所述甲基化水平差异度可以是指甲基化水平差值。例如，所述甲基化水平差异度可以是指甲基化水平差值的绝对值。例如，本申请可以通过甲基化位点与其相邻的甲基化位点的甲基化水平差异度，确定甲基化水平基本一致的DMR区域。例如，本申请可以通过甲基化位点的测序覆盖深度，使得DMR区域的划分更准确。例如，覆盖深度更高的位点的数据信息更加可靠。

例如，所述系统可以包含确定甲基化位点与其相邻的甲基化位点的甲基化水平差值的绝对值，以及根据所述差值的绝对值确定所述甲基化位点与其相邻的甲基化位点是否划分至同一个DMR。例如，所述系统可以包含确定所述差值的绝对值的权重，所述差值的绝对值的权重根据甲基化位点的测序覆盖深度确定。例如，所述权重可以为其中，d_ij是第i个样本第j个位点的测序覆盖深度。

例如，所述系统可以包含，确定甲基化位点与其相邻的甲基化位点的甲基化水平差值的绝对值，以及确定所述差值的绝对值的权重，从而确定甲基化水平差异度；所述差值的绝对值的权重根据甲基化位点的测序覆盖深度确定。

例如，所述甲基化水平差异度β_ij根据下式确定：

其中，d_ij是第i个样本第j个位点的测序覆盖深度。

例如，所述系统还可以包含基于DMR中的甲基化位点与DMR中间位置甲基化位点的甲基化水平差异度的差值，确定所述DMR的甲基化水平波动程度。例如所述中间位置是指物理位置上的中间位置。例如当M为奇数，DMR有M个甲基化位点时，中间位置可以指从上游到下游第(M+1)/2个左右的甲基化位点。例如当M为偶数，DMR有M个甲基化位点时，中间位置可以指从上游到下游第M/2个或第M/2+1个左右的甲基化位点。

例如，所述DMR的甲基化水平波动程度B_ij根据下式确定：

例如，所述系统可以包含基于待测样本的DMR的甲基化水平，通过二元分类模型，评估待测样本有肿瘤形成的风险，所述评估系统降低受试者的年龄因素对待测样本与肿瘤形成风险和/或肿瘤组织来源相关性评估结果的影响，所述待测样本所来源于所述受试者。

例如，所述二元分类模型可以包含支持向量机SVM模型。例如，所述系统可以包含在所述SVM模型中引入基于所述年龄因素的惩罚项。例如，所述系统可以包含在所述SVM模型中以希尔伯特-施密特独立准则的方式引入基于所述年龄因素的惩罚项。例如，本申请可以用于机器学习的惩罚项的引入方式，都可以在本申请中用于降低年龄因素的影响。

例如，所述系统可以包含根据下式对已知有无肿瘤形成的训练样本进行机器学习训练：

f(x；w,b)＝sgn(wTx+b)

如果a<0，则sgn(a)＝-1；如果a≥0，则sgn(a)＝1

采用如下方程用于确定训练参数：

受限制于y_i(wTx+b)≥1-ξ_i

ξ_i≥0

C、w、λ、b表示训练参数，sgn()表示符号函数，ξ_i表示样本x_i违背等式的程度，x表示样本的甲基化水平，样本为癌组织与肿瘤形成相关时y表示为+1，样本为非癌与肿瘤形成不相关组织时y表示为-1，L_H(P_h(x)h(z))由下式确定：

例如，所述系统可以包含基于待测样本的DMR的甲基化水平，通过多分类方法模块确定分类概率，以及通过逻辑回归对所述分类概率进行拟合，评估待测样本与肿瘤组织来源相关性。例如，所述系统通过成对二分类投票pairwise voting确定分类概率。例如，所述系统可以通过本领域各种多分类方法模块确定分类概率。例如，所述系统通过多元线性回归MLR对所述分类概率进行拟合。

例如，所述系统可以包含根据下式对已知组织来源的训练样本进行回归分析：

二分类确定的分类概率根据下式确定：

μ_ij≡P(y＝i|y＝i或j,x)

多元线性回归MLR拟合的权重β_j根据下式确定：

例如，所述系统基于所述样本有肿瘤形成的概率，校正所述训练样本的组织来源。例如，所述系统可以包含在所述成对二分类投票得到分类概率前，进行所述校正。例如，所述系统可以包含在所述成对二分类投票得到分类概率之后，所述多元线性回归分析前，进行所述校正。例如，所述系统可以包含基于拟极大似然估计方法模块进行所述校正。

例如，所述系统可以包含根据下式进行校正：

一方面，本申请提供了一种储存介质，其记载可以运行本申请所述的方法的程序。例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

实施例

实施例1

对于样本进行示例性的重亚硫酸盐处理的二代测序，得到的测序数据包含对于甲基化位点CpG的甲基化水平和测序覆盖深度。任选地，对于基因组甲基化信号CpG和噪音区CHH/CHG位点进行噪音去除。然后，对于“肿瘤”(C)和“正常”(N)组计算加权逻辑回归(weighted logistic regression)得到的p-value，逻辑回归的解释变量采用连续变量，也就是每个CpG点的甲基化水平，反应变量采取二元输出，即(0，1)，对应C和N。加权逻辑回归(weighted logistic regression)对每个CpG位点区分C和N做检验，零假设(nullhypothesis)是C和N在该CpG位点的区别无统计显著性.权重则是根据每个CpG位点的覆盖深度来决定的。

DMR划分

基于甲基化位点CpG的甲基化水平和测序覆盖深度，确定DMR各个区域如何划分。具体地，将甲基化位点CpG的甲基化水平和测序覆盖深度按照下式进行计算：

/>

此处d_ij是C组第i个样本第j个位点的有效覆盖深度，M_ij是C组第i个样本第j个位点的甲基化水平，对基因组空间连续位点的甲基化水平相似度进行评估。覆盖深度越深，参数P取值越大，则同组内相邻CpG位点间的甲基化水平近似度越高。

对于区域内的第一个CpG位点，样本A和样本B分别获得了500条有效序列的覆盖，样本C获得了200条有效序列的覆盖。对于样本A而言，该CpG位点的甲基化水平为0.2。样本A第二个CpG位点的甲基化水平为0。针对三例样本计算该组第一个CpG位点的覆盖深度参数值P为0.617。此时，β_ij＝|0.2-0|*e^(1-0.617)＝0.29。同时鉴于前后两个CpG位点的甲基化水平差异小于0.25为可将该两个相邻位点划分进同一个DMR的必要条件之一，则该示例中的第一、二个CpG位点将不被划分进同一个DMR。

若将上述样本替换为A、B、D(其中样本D在第一个CpG位点获得了400条有效序列的覆盖)。同样地，对于样本A而言，该CpG位点的甲基化水平为0.2。样本A第二个CpG位点的甲基化水平为0。然而由于本示例中样本D的测序覆盖深度提高，三例样本计算该组第一个CpG位点的覆盖深度参数值P为0.962。此时，β_ij＝|0.2-0|*e^(1-0.962)＝0.21，小于划分进同一个DMR的阈值0.25，则此时根据样本A该示例中的第一、二个CpG位点具备被划分进同一个DMR的前提条件。

因此，通过本申请的方法引入CpG位点的覆盖深度，能够显著提高DMR区域划分的准确性。

进一步任选地，对于一个区域内的B_ij，计算方式如下

图3A-3C显示的是，另一种示例性的情况(一种理论上的示例性展示，不用于表示实际的测序情况)。当DMR区域包含10个CpG位点时，将所有样本的B_ij合并在一起，取平均的方法计算，每个DMR的得分。

其中组A所示DMR区域内的B值计算步骤如下表所示：

B值得分为0.1，即

类似地，组B所示DMR内的B值得分为0.7，即，组C所示DMR内的B值得分为1.233，即，/>

通过此方法筛选出的DMR区域不仅包含各种癌种的癌症变异信息，也包含了组织特异的特征，并且在区域边界具有更好的分割效应。

图4显示的是，对于6种癌症：肺癌(LC，Lung Carcinoma)、肠癌(CRC，ColorectalCarcinoma)、肝癌(LIHC、Liver Hepatocellular Carcinoma)、卵巢癌(OVCA，OvarianCarcinoma)、胰腺癌(PAAD，Pancreatic Adenocarcinoma)，和食管癌(ESCA，EsophagealCarcinoma)，在5倍交叉验证中，可以实现98％(95％CI：96-99％)的组织溯源准确性。

实施例2

癌症评估(DOC)模型建立

不同癌症的不同发展时段，在血液中的ctDNA含量差别很大，容易受实验批次效应影响。此外甲基化变异和年龄，疾病，人种等有关，这些如果不加以处理，作为混淆变量(confounding variable)对分类模型的准确性可能会造成影响。本申请采用了一种叫Salmon的模型构建方法，首先对混淆变量带来的偏倚进行量化(量化方式可采用但不局限于希尔伯特-施密特独立准则)，然后嵌入模型的正则化项(regularization)进行矫正，增加模型准确性和可泛化能力。

算法建立

假设m个样本，设定特征矢量X(x₁,…,x_m)，分类标签Y(y₁,…,y_m)，混淆变量Z(z₁,…,z_m)，其中x_i是一个n维矢量，代表样本i的甲基化特征，y_i是x_i的分类标签，y_i∈{-1,+1},z_i是样本i的某种混淆变量。

此处L_H指希尔伯特-施密特独立系数(Hilbert-Schmidt independencecriterion)，用于衡量变量X和Z的独立程度，h(y)和h(z)是Y和Z的核函数(Kernelfunction),P_h(x)h(z)表示h(y)和h(z)的概率分布，F和G分别表示X和Z的再生核希尔伯特空间(reproducing kernel Hilbert space)，可以理解为对X和Z的非线性处理后映射的域，C_h(x)h(z)指代这两个核函数的相关系数(correlation coefficient),HS即希尔伯特空间(Hilbert Space)。

||C_h(y)h(z)||²＝(E_h(x)h(z)-E_h(x)E_h(z))²＝(E_h(x)h(z))²+(E_h(x)E_h(z))²-2E_h(x)h(z)E_h(x)E_h(z)

采用支持向量机(SVM,support vector machine)作为主分类器

f(x；w,b)＝sgn(wTx+b)

sgn(a)＝1(-1)if a≥0(<0)

分类界面的确定是采用解决如下目标方程确定的，

s.t.y_i(wTx+b)≥1

对于不可分数据，软间隔支持向量机(soft-margin SVM)则引入对训练错误的惩罚项

s.t.y_i(wTx+b)≥1-ξ_i

ξ_i≥0

此处C控制最小化训练错误和最大化分类间隔(margin)的平衡，而ξ_i指代样本x_i违背等式的程度。

Salmon为了对混淆因素进行控制，在SVM求解的目标方程中添加正则项，参数λ控制训练中混淆因素错误和最大化边界宽度的平衡，目标方程为

s.t.y_i(wTx+b)≥1-ξ_i

ξ_i≥0

此处C和λ控制最小化训练错误，最小化混淆变量与解释变量的相关性，和最大化分类间隔的平衡。

每个数据点代表一个用于Salmon-DOC模型构建的血液样本，横轴为对应样本的confunding factor，纵轴分别为原始未经校正的variable coef(图A)和校正后的variable coef(图B)。对比校正前后，表明混淆相关特征在Salmon-DOC中，权重得到控制。

回顾队列数据

本申请采用了6个癌种的回顾性临床样本，分为训练集(Training set)和验证集(Validation set),对Salmon的二元分类器(癌vs非癌)准确性进行评估。

实施例3

组织溯源(TOO)模型建立

第一层TOO模型构建

TOO模型本质是一个多分类问题，对于每一个类别(class)的概率计算，可以简化为对成对的二分类(pairwise)结果进行投票(voting)，然后选取的票最多的结果。然而对于组织溯源模型的可能的临床应用，仅仅产生一个分类结果是不够的，只有产生分类的概率，才能使模型的叠加(assembly)成为可能。

所以本申请Salmon-TOO模型的第一步，是对于二分类投票(voting)结果进行量化。这个量化可以通过概率计算证明。如果定义某个数据点x和标签y，我们假设成对的分类概率μ_ij是存在的，那么从训练集中第i和第j个类别，我们可以得到一个模型，只要输入任何新的数据点x，即可用计算的r_ij作为μ_ij的近似估计。问题可以简化为用所有的r_ij来估计第i个类别的概率

p_i＝P(y＝i|x),i＝1,…,k

定义r_ij为μ_ij的估计，假设μ_ij+μ_ji＝1.对于多分类问题采用“投票”制，

μ_ij≡P(y＝i|y＝i or j,x)

定义I是目标方程：I_{x}＝1如果x为真，否则为假。概率计算可以写为

第二层TOO模型构建

Salmon-TOO模型的第二层，是对于不同类别(class)进行MLR拟合

假设需要对组织来源进行概率计算，则根据第一层可以得到个量化后的二分类概率，取值范围为(∞,-∞)。由于每对二分类概率的实际分布不一致，因此可以进一步将量化后的个二分类概率作为逻辑回归的解释变量，反应变量采取多元输出，对应建模过程中已知的组织来源。

如上表所示，每一列代表逻辑回归的一个特征变量即两两组织类别的二分类评估概率；每一行代表一个反应变量y₁，即组织类别(class)。

为用于解释二分类概率的特征变量，假定共存在J个非连续反映变量，则将评估结果转化为Y_i1，…，Y_iJ，β_j为基于每个反映变量的特征权重。

/>

由于在Salmon-DOC模型中，我们可以得到，在部分癌种中被判为阴性，而在部分癌种中被判为阳性，所以针对这一判断，在进行溯源建模时，对组织类别(class)进行了基于拟极大似然估计方法的权重矫正，以二元逻辑回归为例可解释为：

回顾队列数据

回顾队列的全部数据被随机1：1拆分为训练集和验证集。首先，通过训练集进行交叉验证得到溯源评估结果，在该过程中不断优化模型参数并最终锁定。最后，验证集的全部数据均以锁定后的模型评估其溯源结果。在溯源模型训练集中，六癌种样本量共计300例，各癌种各分期数量相对平衡：肺癌36例(I～IV期例数分别为4/12/5/15)，肠癌62例(I～IV期例数分别为8/18/18/18)，肝癌74例(I～IV期例数分别为25/14/22/13)，卵巢癌48例(I～IV期例数分别为1/4/38/5)，胰腺癌40例(I～IV期例数分别为3/6/13/18)，食管癌42例(I～IV期例数分别为5/10/15/12)。溯源模型验证集共224例样本，包含：肺癌31例(I～IV期例数分别为4/5/12/10)，肠癌52例(I～IV期例数分别为7/15/13/17)，肝癌55例(I～IV期例数分别为17/11/20/7)，卵巢癌27例(I～IV期例数分别为3/4/8/12)，胰腺癌25例(I～IV期例数分别为4/6/6/9)，食管癌34例(I～IV期例数分别为4/7/8/15)。

图8A、8B为六癌种训练集中六癌种数据交叉验证的溯源评估结果。其中，图8A为仅构建了第一层TOO模型后输出的结果，溯源准确性为0.87(260/300)，若纳入次优的溯源结果，准确性为0.93(279/300)；图8B为在第一层TOO模型基础上补充了第二层MLR模型后的输出结果，溯源准确性提升至0.90(270/300)，若纳入次优的溯源结果，准确性可进一步提升至0.95(284/300)。类似的，图8C、8D为上述验证集中六癌种数据独立验证的溯源评估结果。其中，图8C为仅构建了第一层TOO模型后输出的结果，溯源准确性为0.77(173/224)，若纳入次优的溯源结果，准确性为0.87(194/224)；图8D为在第一层TOO模型基础上补充了第二层MLR模型后的输出结果，溯源准确性提升至0.84(187/224)，若纳入次优溯源结果，准确性可进一步提升至0.89(199/224)。

综上所述，本申请Salmon-TOO双层溯源模型的评估准确性在训练集交叉验证和独立验证中均优于单层模型。

实施例4

DOC癌症检出模型

表1A显示的是用于DOC癌症检出模型的94个DMR区域

/>

基于94个DOC相关DMR区域，对独立验证集1中的100例健康人样本和318例六癌阳性样本进行评估，整体敏感性为80.5％(256/318)，整体特异性为95％(95/100)。在保持特异性在90％水平下，具体癌种及分期敏感性如下表：

/>

接着进行重复测试，每次测试采纳94个DOC区域中的随机50个。在保持特异性在90％(90/100)水平下，六癌阳性样本在五次重复检测中的敏感性结果如下表所示：

实施例5

TOO组织溯源模型

表1B显示的是用于TOO组织溯源模型的103个DMR区域

/>

基于103个TOO相关DMR区域，对独立验证集2中的473例六癌阳性样本进行溯源评估，第一溯源准确性为63.0％(298/473)，若纳入次优溯源结果，准确性可提升至71.5％(338/473)。

接着进行四轮重复测试，每次采纳103个TOO区域中的随机50个，四轮评估中溯源准确性结果如下表所示：

实施例6

222个DMR同时进行DOC以及TOO评估结果：

表1C显示的是用于DOC以及TOO评估模型的222个DMR区域

/>

在独立验证集中，对473例阴性样本以及473例阳性六癌样本，在标志物marker数量为222个的情况下，计算在统一特异性95.1％(450/473)下的敏感性和溯源准确性。评估的肿瘤检测以及组织溯源结果如下表所示：

前述详细说明是以解释和举例的方式提供的，并非要限制所附权利要求的范围。目前本申请所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的，且保留在所附的权利要求和其等同方案的范围内。

Claims

1.一种差异甲基化区域DMR的确定方法，其特征在于，所述方法包含：对于待测样本进行二代测序，得到的测序数据包含对于甲基化位点CpG的甲基化水平和测序覆盖深度；差异甲基化区域DMR划分步骤：确定甲基化位点CpG与其相邻的甲基化位点CpG的甲基化水平差值的绝对值，以及根据甲基化位点CpG的测序覆盖深度确定所述差值的绝对值的权重，进而确定相邻甲基化位点CpG的甲基化水平差异度；基于甲基化水平差异度，确定所述甲基化位点CpG与其相邻的甲基化位点CpG是否划分至同一个差异甲基化区域DMR，并由此确定多个差异甲基化区域DMR。

2.如权利要求1所述的方法，其特征在于，所述甲基化水平差异度β_ij根据下式确定：

其中，M_ij是第i个样本第j个CpG位点的甲基化水平，e表示自然常数，P_ij根据下式确定：

其中，d_ij是第i个样本第j个CpG位点的测序覆盖深度。

3.如权利要求2所述的方法，其特征在于，所述甲基化位点CpG的所述甲基化水平差异度β_ij小于或等于0.25时，确定所述甲基化位点CpG与其相邻的甲基化位点CpG划分至同一个DMR。

4.如权利要求1所述的方法，其特征在于，还包含基于DMR中的甲基化位点CpG与DMR中间位置甲基化位点CpG的甲基化水平差异度的差值，确定所述DMR的甲基化水平波动程度。

5.如权利要求4所述的方法，其特征在于，所述DMR的甲基化水平波动程度B_ij根据下式确定：

所述β_ij是第i个样本第j个CpG位点的甲基化水平差异度，μ_j是DMR区域中间位置甲基化位点CpG的甲基化水平差异度。

6.一种储存介质，其特征在于，其记载可以运行权利要求1所述的方法的程序。

7.一种计算机设备，其特征在于，所述设备包含权利要求6所述的储存介质，以及所述设备包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现权利要求1-4中任一项所述的方法。

8.一种评估待测样本与受试者肿瘤形成风险和/或肿瘤组织来源相关性的系统，其特征在于，包含：(1)差异甲基化区域DMR划分模块：用于确定甲基化位点CpG与其相邻的甲基化位点CpG的甲基化水平差值的绝对值，以及根据甲基化位点CpG的测序覆盖深度确定所述差值的绝对值的权重，进而确定相邻甲基化位点CpG的甲基化水平差异度；基于甲基化水平差异度，确定所述甲基化位点CpG与其相邻的甲基化位点CpG是否划分至同一个差异甲基化区域DMR，并由此确定多个用于评估的目标DMR；(2)肿瘤形成风险评估模块：用于基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤形成风险的相关性，其中，包含用于降低受试者的年龄因素对评估结果的影响的模块，所述待测样本来源于所述受试者。

9.如权利要求8所述的系统，其特征在于，还包含(3)肿瘤组织来源评估模块：用于基于待测样本的所述目标DMR的甲基化水平，评估待测样本与肿瘤组织来源的相关性。

10.如权利要求9所述的系统，其特征在于，所述(3)肿瘤组织来源评估模块，基于待测样本的所述目标DMR的甲基化水平，通过多分类方法以及逻辑回归，评估待测样本与肿瘤组织来源的相关性。

11.一种用于确定差异甲基化区域DMR的系统，其特征在于，包含差异甲基化区域DMR划分模块：用于确定甲基化位点CpG与其相邻的甲基化位点CpG的甲基化水平差值的绝对值，以及根据甲基化位点CpG的测序覆盖深度确定所述差值的绝对值的权重，进而确定相邻甲基化位点CpG的甲基化水平差异度；基于甲基化水平差异度，确定所述甲基化位点CpG与其相邻的甲基化位点CpG是否划分至同一个差异甲基化区域DMR，并由此确定多个差异甲基化区域DMR。

12.如权利要求8-11中任一项所述的系统，其特征在于，所述甲基化水平差异度β_ij根据下式确定：

其中，d_ij是第i个样本第j个CpG位点的测序覆盖深度。

13.如权利要求12所述的系统，其特征在于，所述甲基化位点CpG的所述甲基化水平差异度β_ij小于或等于0.25时，确定所述甲基化位点CpG与其相邻的甲基化位点CpG划分至同一个DMR。

14.如权利要求8-11中任一项所述的系统，其特征在于，还包含基于DMR中的甲基化位点CpG与DMR中间位置甲基化位点CpG的甲基化水平差异度的差值，确定所述DMR的甲基化水平波动程度。

15.如权利要求14所述的系统，其特征在于，所述DMR的甲基化水平波动程度B_ij根据下式确定：

16.如权利要求15所述的系统，其特征在于，确定B_ij小于1的DMR用于评估待测样本与肿瘤形成风险和/或肿瘤组织来源相关性。

17.如权利要求8-11中任一项所述的系统，其特征在于，包含基于待测样本的DMR的甲基化水平，通过二元分类模型，评估待测样本与肿瘤形成风险的相关性，所述评估降低受试者的年龄因素对待测样本与肿瘤形成风险和/或肿瘤组织来源相关性评估结果的影响，所述待测样本所来源于所述受试者。

18.如权利要求17所述的系统，其特征在于，所述二元分类模型包含支持向量机SVM模型。

19.如权利要求18所述的系统，其特征在于，包含在所述SVM模型中引入基于所述年龄因素的惩罚项。

20.如权利要求19所述的系统，其特征在于，包含在所述SVM模型中以希尔伯特-施密特独立准则的方式引入基于所述年龄因素的惩罚项。

21.如权利要求8-11中任一项所述的系统，其特征在于，包含根据下式对已知有肿瘤形成或已知为无肿瘤形成的训练样本进行机器学习训练：

f(x；w,b)＝shn(wTx+b)

如果a<0，则sgn(a)＝-1

如果a≥0，则sgn(a)＝1

采用如下方程用于确定训练参数：

受限制于y_i(wTx+b)≥1-ξ_i

ξ_i≥0

C、w、λ、b表示训练参数，sgn()表示符号函数，ξ_i表示样本x_i违背等式的程度，x表示样本的甲基化水平，样本与肿瘤形成相关时y表示为+1，样本与肿瘤形成不相关时y表示为-1，L_H(P_h(x)h(z))由下式确定：

||C_h(y)h(z)||²＝(E_h(x)h(z)-E_h(x)E_h(z))²

＝(E_h(x)h(z))²+(E_h(x)E_h(z))²-2E_h(x)h(z)E_h(x)E_h(z)

h(y)和h(z)分别是Y和Z的核函数，F和G分别表示X和Z的再生核希尔伯特空间，

P_h(x)h(z)表示h(y)和h(z)的概率分布。

22.如权利要求8-11中任一项所述的系统，其特征在于，包含基于待测样本的DMR的甲基化水平，通过多分类方法确定分类概率，以及通过逻辑回归对所述分类概率进行拟合，评估待测样本与肿瘤组织来源相关性。

23.如权利要求22所述的系统，其特征在于，通过成对二分类投票(pairwise voting)确定分类概率。

24.如权利要求23所述的系统，其特征在于，通过多元线性回归MLR对所述分类概率进行拟合。

25.如权利要求24所述的系统，其特征在于，包含根据下式对已知组织来源的训练样本进行回归分析：

二分类确定的分类概率根据下式确定：

μ_ij≡P(y＝i|y＝i或j,x)

多元线性回归MLR拟合的权重β_j根据下式确定：

26.如权利要求25所述的系统，其特征在于，基于所述样本有肿瘤形成的概率，校正所述训练样本的组织来源。

27.如权利要求26所述的系统，其特征在于，包含在所述成对二分类投票得到分类概率之后，所述多元线性回归分析之前，基于所述样本有肿瘤形成的概率，校正所述训练样本的组织来源。

28.如权利要求26所述的系统，其特征在于，包含基于拟极大似然估计方法进行所述校正。

29.如权利要求28所述的系统，其特征在于，包含根据下式进行校正：

y_i表示样本的组织来源类别，w_i表示校正的权重，π_i表示所述样本有肿瘤形成的概率。