CN114446386A

CN114446386A - 一种血液ctDNA的检测方法

Info

Publication number: CN114446386A
Application number: CN202210051351.XA
Authority: CN
Inventors: 朱律韵; 李明; 谢斯思; 朱凌云; 匡静宇; 邵彤; 张海洋; 鲁晨瑜
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-05-06
Anticipated expiration: 2042-01-17
Also published as: CN114446386B

Abstract

本发明公开了一种血液ctDNA的检测方法，包括以下步骤：对TCGA数据库中基于全外显子测序的HNSC、DLBC和SARC数据集中的突变进行迭代，生成初始的捕获器；过滤良性突变频发的基因组区域获得背景噪音优化的捕获器；采用所述背景噪音优化的捕获器对ctDNA进行捕获。本发明在保证提高ctDNA捕获率和抑制背景噪音的同时，开发一种不依赖于并行WBC测序的ctDNA捕获方法，并通过使用一种比现有指标更能真实反映肿瘤基因组突变负荷的评估指标，提高ctDNA的临床适用性。

Description

一种血液ctDNA的检测方法

技术领域

本发明涉及基因工程技术领域，尤其涉及一种血液ctDNA的检测方法。

背景技术

液体活检(Liquid biopsy)是一种微创、可重复的肿瘤检测方法。该技术通过对肿瘤患者的体液样本的检查，以非侵入的方式实时、可靠地监测患者体内的肿瘤相关状态，是对组织活检技术的有效补充。循环肿瘤DNA(circulating tumor DNA，ctDNA)是肿瘤细胞在发生凋亡、坏死、自噬等的时候所释放到体内循环系统的DNA片段，这些ctDNA携带着来自于肿瘤基因组的信息，比如突变信号或者异常甲基化图谱信息，反映着肿瘤产生、发展、转移、复发等生物学过程，可用于肿瘤的早期诊断、治疗预后监测和基于循环标志物的肿瘤筛查，具有很高的临床应用价值。比如，基于ctDNA检测的肿瘤突变负荷(blood tumor mutationburden,bTMB)和平均突变等位基因频率(mean variant allele frequency,mVAF)等指标，代表着肿瘤基因组的突变密度和频率，能够用于预测免疫疗法或靶向疗法对癌症患者的疗效。

研究表明，相较于外周血中所有的细胞游离DNA(cell-free DNA，cfDNA)，ctDNA约仅占cfDNA的1％。cfDNA能够被巨噬细胞等免疫细胞清理回收，避免cfDNA引起的慢性炎症。由于癌症患者体内慢性炎症的发生、免疫系统的弱化和细胞的大量死亡，ctDNA的浓度得以显著上升。大量研究表明，ctDNA可以在多种恶性肿瘤中检测到，其丰度可用于治疗前的生物标志物。虽然如此，ctDNA的低占比导致ctDNA检测难以忽略背景噪音的影响，尤其是克隆性造血来源的突变。随着年龄增长，造血干细胞会积聚大量的突变，且由于白细胞是cfDNA的主要释放来源，克隆性造血来源的突变(clonal hematopoietic variances，CHV)会严重干扰ctDNA对肿瘤突变检测结果的真实性。

因此，放大ctDNA的突变信号和抑制克隆造血相关背景噪音，能够克服ctDNA检测的强大背景噪音对ctDNA检测精度的影响。最近的研究方法设计了不同的捕获器，覆盖了肿瘤中常见的突变驱动基因或外显子，以描述大量cfDNA背景中的少量的ctDNA信号。另一方面，采用并行血细胞(white blood cell,WBC)测序的方法也被用于去除CHV等背景噪音，提高ctDNA检测的灵敏度。虽然如此，这些方法增加了ctDNA检测系统的成本，将ctDNA检测技术更加复杂化，使得ctDNA检测更加难以适应于广泛的临床应用。从另一个角度尝试，Newman等人基于统计学分布和计算机模拟，通过模拟健康人的血液背景分布来抑制ctDNA背景噪音，降低了检测成本，但该方法使用的模拟健康人的血液背景信息深度较低，ctDNA检测的精度仍有待提升。因此，进一步采用生物信息学的理念和临床大数据信息，优化捕获器、充分过滤克隆性造血等背景信息、设计更优的分析指标，以较低的检测成本和系统复杂度，提升ctDNA的检测精度，对于实现更准确的肿瘤诊断、预后分析和疗效预测，促进ctDNA这一重要生物标志物的临床应用具有重要意义。

发明内容

本发明要解决的技术问题是克服现有技术的不足，在保证提高ctDNA捕获率和抑制背景噪音的同时，开发一种不依赖于并行WBC测序的ctDNA捕获方法，并通过使用一种比现有指标更能真实反映肿瘤基因组突变负荷的评估指标，提高ctDNA的临床适用性。

为了实现上述目的，本发明提供了一种血液ctDNA的检测方法(ctDNA捕获方法)，所述ctDNA捕获方法包括以下步骤：

S1、对TCGA数据库中基于全外显子测序的HNSC、DLBC和SARC数据集中的突变进行迭代，生成初始的捕获器；

S2、过滤良性突变频发的基因组区域获得背景噪音优化的捕获器；

S3、采用所述背景噪音优化的捕获器对ctDNA进行捕获；

S4、设计抑制假阳性的肿瘤突变负荷密度估计指标KMR。

上述的血液ctDNA的检测方法，进一步的，所述良性突变频发的基因组区域为CHV突变频发的基因组区域。

上述的血液ctDNA的检测方法，进一步的，所述S2的具体步骤为：

S2-1、去除所述初始的捕获器中平均每千碱基上发生1个及以上突变的或者产生WBC背景噪音的概率大于千分之一的外显子，获得背景噪音优化的捕获器；

S2-2、摒弃捕获器VAF<1％的cfDNA突变，将NMR计数转换为只求取关键NMR的计数。

上述的血液ctDNA的检测方法，进一步地，所述S1的具体步骤为：

S1-1、从所获取的驱动基因的外显子区域中筛选出那些有5个及以上患者突变的外显子；

S1-2、根据频发数从高到低遍历这些外显子，如果该外显子上有未被覆盖到的患者，就纳入该外显子，同时更新患者覆盖情况；如果两个外显子都有未覆盖到的患者，且具有相同的频发数，则较优的外显子是：该外显子上的病人与已经覆盖到的病人集的重叠度最小；重复进行该步骤，直到遍历完成；

S1-3、对于突变外显子库中还没纳入的外显子，将那些频发数≥30且有3个以上的患者在其上突变的外显子取出，进行该步骤的迭代；

S1-4、对于突变外显子库中还没纳入的外显子，将那些频发数≥20且有3个以上的患者在其上突变的外显子取出，进行该步骤的迭代。

上述的血液ctDNA的检测方法，进一步的，所述S1-3和S1-4中，挑选最能降低只具有一个突变的患者数目的外显子；如果能够降低的数目相同，就去选择频发数最高的那一个外显子。

上述的血液ctDNA的检测方法，进一步的，肿瘤基因组突变密度估计指标采用KMR指标。

上述的血液ctDNA的检测方法，进一步的，所述KMR指标摒弃VAF<1％的cfDNA突变，只对关键NMR计数。

与现有技术相比，本发明的优点在于：

本发明提供了一种不依赖于并行WBC测序的血液ctDNA的检测方法，并通过开发一种比现有指标更能真实反映肿瘤基因组突变负荷的评估指标，提高ctDNA的临床适用性。

本发明提供了一种不依赖于并行WBC测序的血液ctDNA的检测方法，首先设计了一个能够富集ctDNA突变信号的捕获器Catcher，并通过拟合健康人的血液背景分布，来探索CHV等良性突变频发的基因组区域。而后，这些良性突变区域被创新性地用于过滤初始Catcher中的良性突变频发区域，提高Catcher对肿瘤信号的特异性，使得我们的Catcher具有远超其他已建立的捕获器的信噪比，且能够捕获肺癌、乳腺癌等在内的多种恶性肿瘤的ctDNA。同时，为了提高Catcher的临床适用性，我们在现有的肿瘤基因组突变密度估计指标bTMB的基础上，开发了具有更低噪音的KMR指标，更能真实地反映患者的肿瘤突变负荷，具有很高的临床价值。综上，我们的发明能够以一种不依赖并行WBC测序的方式提升ctDNA检测的信噪比，并通过KMR指标作为输出，方便估计患者肿瘤突变负荷，指导临床实践。

附图说明

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

图1为本发明实施例一中Catcher在HNSC、DLBC和SARC数据集中患者捕获结果。图中，DLBC：大淋巴瘤；HNSC：头颈癌；SARC：肉瘤。

图2为本发明实施例一中良性突变散点图。横轴表示在WBC中突变的概率，纵轴表示在健康人中产生突变的能力，十字符号表示全基因组的外显子，而三角符号和圆点则分别表示Catcher被过滤掉的外显子和通过过滤的外显子。图中，cfDNA：细胞游离DNA；WBC，白细胞。

图3为本发明实施例一中信号与噪音密度图。图中，ctDNA：循环肿瘤DNA；Catcher为我们设计和优化了的捕获器。

图4为本发明实施例一中Catcher与其他已经建立的捕获器的噪音对比结果。

图5为本发明实施例一中Catcher在多种癌症中的捕获能力图。五条折线分别代表患者被捕获1次以上、2次以到5次以上的百分比。

图6为本发明实施例一中Catcher捕获率达到20％，40％，60％和80％的时候，癌症类型的个数。

图7为本发明实施例一中NMR在各个数据集之间的分布。

图8为本发明实施例一中在血液中患者检测到的SNV个数高于组织活检样本的。图中，SNV：单核苷酸变异。

图9为本发明实施例一中在所有患者检测到的所有突变的外显子中，包含一个以上突变的外显子的百分比结果图。A图，在所有患者检测到的所有突变的外显子中，绝大部分只包含一个突变；B图，在所有患者检测到的所有突变的外显子中，包含一个以上突变的外显子的百分比。

图10为本发明实施例一中在组织样本和ctDNA检测结果中，检测到的突变外显子个数。

图11为本发明实施例一中ctDNA检测到的突变的各个来源的百分比。

图12为本发明实施例一中ctDNA检测到的突变的各个来源具有不同的VAF分布。

图13为本发明实施例一中在去除VAF小于1的突变后，ctDNA检测到的突变的各个来源的百分比。去除VAF小于1的突变前后的信噪比。

图14为本发明实施例一中各个指标之间的皮尔逊相关系数热图。

图15为本发明实施例一中各个指标与tTMB的皮尔孙相关系数条形图。图中，SNV：单核苷酸；ctDNA：循环肿瘤DNA；WBC：白细胞；VAF：突变等位基因频率；NMR：突变区域个数；KMR：关键突变区域个数；tTMB：基于组织活检样本的肿瘤突变负荷估计；bTMB：基于血液样本的肿瘤突变负荷估计。

图16为本发明实验一中三个指标在多个数据及之中均值的分布。

图17为本发明实验一中三个指标在多个数据及之中均值的大小。

图18为本发明实验一中KMR、TMB和mVAF等三个指标的OS和PFS分析的P值显著性热图。图中，OS：总体生存期；PFS：疾病无进展生存期。

图19为本发明实验一中以KMR分组的患者的生存曲线图。

图20为本发明实验一中本发明实验一中KMR的阈值选择与分类效果。

图21为本发明实验一中三个指标OS和PFS分析的P值显著性条形图。

图22为本发明实验一中分别基于各捕获器KMR的OS和PFS显著性统计图。

图23为本发明实验二中VAF分布的数据考察结果。

图24为本发明实验二中患者mVAF数据考察结果。

图25为本发明实验二中KMR数据考察结果。

图26为本发明实验二中bTMB数据分析结果。

图27为本发明实验二中分别基于第一次化疗前样本、第一次化疗后的样本和第一次化疗前后的样本，KMR，bTMB和mVAF等三个指标对预测患者化疗疗效的ROC曲线图。

具体实施方式

以下结合具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

实施例

以下实施例中所采用的材料和仪器均为市售。

实施例1：

一种不依赖于并行WBC测序的血液ctDNA的检测方法，包括以下步骤：

(1)设计一个能够富集ctDNA突变信号的捕获器Catcher。

为了富集ctDNA信号、捕获患者的最常突变的外显子区域，我们对TCGA数据库中基于全外显子测序的HNSC、DLBC和SARC数据集中的突变进行迭代，生成初始的捕获器(命名为Catcher)。首先，我们获取了癌症基因图谱(The Cancer Genome Atlas,TCGA)数据库中的TCGA-HNSC，TCGA-DLBC和TCGA-SARC(共计781名患者)的突变数据集，并将其比对到全外显子。然后，将这些突变的外显子被作为接下来迭代算法的突变外显子库。为库中的每个突变外显子计算了频发数，用于比较每个外显子的频发程度。

频发数＝在该外显子上突变的患者人数÷该外显子在千碱基单位下的长度。

而后，我们按照如下迭代算法从突变外显子库中选取外显子，生成Catcher：

1.1、纳入国际基因组联盟(ICGC)的PANCANCER计划所获取的驱动基因的外显子区域。

1.2、筛选出那些有5个及以上患者突变的外显子。而后，根据频发数从高到低遍历这些外显子，如果该外显子上有未被覆盖到的患者，就纳入该外显子，同时更新患者覆盖情况。如果两个外显子都有未覆盖到的患者，且具有相同的频发数，则较优的外显子是：该外显子上的病人与已经覆盖到的病人集的重叠度最小。重复进行该步骤，直到遍历完成。

1.3、对于突变外显子库中还没纳入的外显子，将那些频发数≥30且有3个以上的患者在其上突变的外显子取出，进行该步骤的迭代。每选择一个外显子则进行一次循环。循环中，挑选最能降低只具有一个突变的患者数目的外显子。如果能够降低的数目相同，就去选择频发数最高的那一个外显子。

1.4、对于突变外显子库中还没纳入的外显子，将那些频发数≥20且有3个以上的患者在其上突变的外显子取出，进行该步骤的迭代。每选择一个外显子则进行一次循环。循环中，挑选最能降低只具有一个突变的患者数目的外显子。如果能够降低的数目相同，就去选择频发数最高的那一个外显子。

直到算法达到终止条件，初始Catcher一共纳入了902个基因组区域。我们计算了Catcher捕获每个患者的携带突变的外显子的个数(NMR)，并以一个数据集之中，NMR大于等于1的患者数占总患者数的百分比来表示捕获率。

图1是Catcher在HNSC、DLBC和SARC数据集中患者捕获结果：图中A为迭代过程中Catcher靶向的基因组区域与患者捕获百分比的关系，从图中看出，随着迭代的进行，Catcher纳入了更多的基因组区域，且对患者的捕获率也逐步上升。图中B为Catcher在三个初始数据集之中患者捕获次数的百分比柱状图。从图中看出初始Catcher对三个数据集的捕获率都达到90％以上，整体捕获率达到97.7％。

(2)去除高背景噪音的基因组区域。

我们分析了背景噪音发生在这些已选择的外显子上的概率，将抑制背景噪音纳入到Catcher设计的考虑中。WBC是cfDNA释放的主要来源，且其所携带的CHV限制着ctDNA检测精度的提升。表明CHV发生在个体身上的概率很低，但是该概率随着年龄的增加而上升，暗示着CHV的发生服从于特定的生物学过程，因此可能在一些特定区域上发生的概率高于其他区域。由此，我们假设由WBC所衍生的背景噪音，包括却不限于CHV，在蛋白质编码基因上是不均匀的。随后，我们使用了2504名健康供体的WBC样本(来自于1000基因组计划)的全外显子测序(WES)数据来拟合WBC衍生的背景噪音的分布。因为CHV是一种稀有突变(raremutation)，所以我们过滤掉了在群体中发生频率大于1％的突变，并将剩下的突变比对到全外显子组，并使用外显子在群体中突变的频率，即P_w，来估计该外显子上产生背景噪音的概率。此外，为了拟合血浆cfDNA检测中遇到的血液背景噪音，我们探索了9个健康个体的cfDNA的WES测序数据中的突变情况。我们计算了患者们发生在一个外显子上的突变个数的平均数，并除以该外显子的长度(每千碱基)，即m^-，用于评估该外显子在血液中产生背景噪音的能力。

2.1、Catcher的背景噪音优化的步骤。

我们比较了初始Catcher的背景噪音与全外显子组上的背景噪音，并去除了初始Catcher中平均每千碱基上发生1个及以上突变的(即m^->1)或者产生WBC背景噪音的概率大于千分之一(即P_w>0.001)的外显子，从而获取了优化后的靶向676个基因组区域的、长约301k的Catcher。

图2为良性突变散点图。横轴表示在WBC中突变的概率，纵轴表示在健康人中产生突变的能力。十字符号表示全基因组的外显子，而三角符号和圆点则分别表示Catcher被过滤掉的外显子和通过过滤的外显子。我们考虑从m^-和WBC两个角度优化Catcher。从图2中可以看出，初始Catcher所靶向的外显子在WBC中出现突变的概率较低(都小于0.05)。而通过m^-来评估这些外显子在健康人cfDNA上出现突变的能力，发现较为分散。这为我们对Catcher的优化指引了方向。

2.2、检测背景噪音优化后的Catcher的信噪比。

为了验证Catcher的信噪比，我们通过华大基因在泛癌级别上的cfDNA靶向捕获结果来计算m^-，以此估计来自于癌症患者的cfDNA的信号分布，并将其与Catcher的背景噪音分布相比较。图3为信号与噪音密度图。从图中可以看出：ctDNA信号值具有更高的m^-，而Catcher的背景噪音主体都在m^-为0的区域，且在信号值分布密度高的区域具有很低的密度，说明Catcher能够以较高的信噪比来捕获ctDNA。

之后，我们还拿前人建立的捕获器与Catcher做了比较。

其中Newman’s来自文献NEWMAN A M,LOVEJOY A F,KLASS D M,et al.Integrateddigital error suppression for improved detection of circulating tumor DNA[J].Nat Biotechnol,2016,34(5):547-55。

Grand360来自文献CHENG D T,MITCHELL T N,ZEHIR A,et al.Memorial SloanKettering-Integrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT):A Hybridization Capture-Based Next-Generation Sequencing ClinicalAssay for Solid Tumor Molecular Oncology[J].J Mol Diagn,2015,17(3):251-64。

Plasma SELECT来自文献MURPHY D.Comprehensive Analyses of CirculatingCell-Free Tumor DNA[J].28。

Burgener’s来自文献BURGENER J M,ZOU J,ZHAO Z,et al.Tumor-

Multimodal Profiling of Circulating Tumor DNA in Head and Neck Squamous CellCarcinoma[J].Clinical Cancer Research,2021:1078-0432.CCR-21-110。

NCC150来自文献WANG Z,DUAN J,CAI S,et al.Assessment of Blood TumorMutational Burden as a Potential Biomarker for Immunotherapy in Patients WithNon-Small Cell Lung Cancer With Use of a Next-Generation Sequencing CancerGene Panel[J].JAMA Oncol,2019,5(5):696-702。

MSK-IMPACT来自文献KIM S T,BANKS K C,LEE S H,et al.ProspectiveFeasibility Study for Using Cell-Free Circulating Tumor DNA-Guided Therapy inRefractory Metastatic Solid Cancers:An Interim Analysis[J].JCO Precis Oncol,2017,1(1):1-15。

F1CDx来自文献SHARAF R,PAVLICK D C,FRAMPTON G M,et al.FoundationOneCDx testing accurately determines whole arm 1p19q codeletion status ingliomas[J].Neurooncol Adv,2021,3(1):vdab017。

图4为本实施例的捕获其于其他捕获其的性能对比。图中A为各个捕获器对同一cfDNA突变数据进行模拟捕获，并分别计算各个捕获器的m^-值，发现不同的捕获器中，Catcher具有显著低的m^-值。图中B为考察的是各个捕获器在模拟噪音分布中，模拟噪音为0的基因组区域百分比。结果发现Cather具有最高百分比的0背景噪音外显子区域。这都说明与其他已经建立的捕获器相比，Catcher具有更低的噪音。

2.3、Catcher的捕获能力测试。

由于背景噪音优化过滤了很多初始Catcher所靶向的基因组区域，为了验证Catcher在优化后还具有良好的捕获能力，我们使用TCGA的全外显子组数据用于测试。我们计算了Catcher捕获每个患者的NMR，以此来模拟一个患者被探针捕获到的次数。理论上，患者队列的整体NMR表征着Catcher对这群患者的捕获能力和鲁棒性，且这个分布越高，捕获性能就越好。

图5为捕获器在多种癌症中的捕获能力图。五条折线分别代表患者被捕获1次以上、2次以上、3次以上到5次以上的百分比。图6为捕获率(即捕获一次以上的患者百分比)达到20％，40％，60％和80％的时候，数据集的个数。

从图中可以看出：Catcher在33中癌症中，有10种癌症的捕获率高于80％，包括肺癌、食管癌、胃癌、膀胱癌和子宫癌等恶性癌症。

图7为NMR的分布对应于Catcher在每种癌症中的捕获次数，即NMR分布。可以看出：恶性的癌症，比如肺癌、子宫癌和膀胱癌，比那些恶性程度更低的癌症，如眼癌、睾丸癌和胆管癌等，具有更高的NMR分布。

从上述结果可以看出：本发明的Catcher能够对多种恶性癌症具有良好的捕获能力。

(3)肿瘤基因组突变密度的评估指标优化。

3.1、NMR比bTMB更审慎地进行突变计数。

研究表明，肿瘤突变负荷(tumor mutation burden，TMB)反映了肿瘤细胞在基因组上的突变密度，能够预测患者的预后，具有很高的临床价值。而使用ctDNA检测所获取的突变数来估计肿瘤突变负荷，即bTMB，也被证明与免疫疗法的疗效显著相关。然后，本发明分别考察了患者血液和组织活检样本中SNV个数。结果参见图8：患者血液检测到的SNV个数高于组织活检样本的；基于组织活检技术的肿瘤突变负荷(tTMB)，显著低于bTMB值。说明ctDNA检测的结果中仍有很多假阳性突变，暗示着目前ctDNA检测中仍有较大的背景噪音，需要改进bTMB以抑制背景噪音。

而以突变的区域数为评估指标，比如NMR(Number of Mutated Region，即突变的(基因组)区域个数)，可能是一个更优的选择。我们统计了TCGA数据库中统一个数据集内患者在每个外显子上具有的平均突变数，基本为1，暗示着一个患者在某个外显子上检测出多个突变的情况更可能是由于背景噪音导致的。

图中A显示：在所有患者检测到的所有突变的外显子中，绝大部分只包含一个突变；B显示：在所有患者检测到的所有突变的外显子中，包含一个以上突变的外显子的百分比。图9表明对于一个患者来说，在检测结果中出现一个外显子上具有多个突变的，是小概率事件，而该事件的发生则极有可能是假的突变导致的。相比于bTMB是将所有检测到的突变都纳入了计算、从而纳入了更多的假突变，NMR通过将一个突变的外显子只计数为1，而不管该外显子携带多少个突变，因而能比bTMB更加审慎地进行突变计算，能够更准确地估计肿瘤突变负荷。

3.2、ctDNA检测到的突变蕴含着大量的背景噪音。

而后，我们注意到，基于ctDNA的检测比基于组织的检测获取了更多的突变的外显子，尤其是突变数等于1的外显子个数，暗示着ctDNA检测在突变数目等于1的外显子中有很多的假阳性突变。

图10为在组织样本和ctDNA检测结果中，检测到的突变外显子个数。从图中可以看出，无论是在组织活检中，还是在ctDNA检测中，检测结果中只携带一个突变的外显子是占大多数的，即使ctDNA检测的NMR比组织活检的高很多。这说明NMR虽然能够抑制一个外显子携带多个突变的这种假阳性，但是由于检测结果中一个外显子只携带一个突变的这种情况更加常见，因而需要对NMR优化，提高假阳性抑制能力。

为了抑制CHV对cfDNA检测结果中的1个突变外显子的影响，我们首先分析了由ctDNA检测到的突变的来源。为了保证分析的一致性，我们将ctDNA检测得到的突变比对到外显子组，并只留取仅携带了一个突变的外显子。而组织活检得到的突变和WBC配对测序得到的突变也都同样比对到外显子组，而后将这些患者和外显子进行比对，以追寻突变外显子的来源。理论上，ctDNA突变所比对上的外显子中，与组织配对的代表着真阳性的突变，与WBC配对的则代表着假阳性突变，而未知来源的突变外显子可能源自于肿瘤异质性或者其他的血液背景噪音。

图11为ctDNA检测到的突变的各个来源的百分比。结果表明，在ctDNA所检测到的突变中，有大量的WBC来源的突变，尤其是在肺癌和胰腺癌中，表明在ctDNA检测结果中，蕴含着大量的背景噪音。

3.3、通过VAF获取KMR，以抑制NMR的假阳性计数。

我们发现，这些不同来源的cfDNA的突变，具有不同的VAF分布：与组织相匹配的突变的VAF显著高于与WBC匹配的和未知来源的突变的VAF。

参见图12：图中A为ctDNA所携带的不同来源突变的VAF分布小提琴图，图中B为A图的密度分布图。从图中看出，ctDNA检测到的突变的各个来源具有不同的VAF分布。并且在VAF大于1％之后，tissue-matched突变是优势群体。这说明可以通过设定VAF的阈值来抑制WBC来源的突变对cfDNA检测的影响。因此，我们摒弃了VAF<1％的cfDNA突变，将NMR计数转换着只求取关键NMR(Key NMR,KMR)的计数。

图13为去除VAF小于1％的突变后，ctDNA检测到的突变结果，图中A为去除VAF小于1％的突变后，ctDNA检测到的突变的各个来源的百分比，图中B为去除VAF小于1％的突变前后的信噪比。可以看出：ctDNA检测到的突变中与组织配对的突变外显子百分比大幅度上升，从而扩大了信噪比，抑制了NMR的假阳性计数。

3.4、KMR更能表征肿瘤基因组突变密度。

为了进一步验证KMR的合理性，我们使用Razavi等人的数据计算了KMR在ctDNA检测和组织活检中的Pearson相关性。同时，我们也尝试着在计算NMR之前直接去除经典CHV基因，包括ASXL1，ATM，CBL，CHEK2，DNMT3A，KMT2D，PPM1D，RUNX1，SF3B1，SRSF2，TET2和TP53，记作cNNR，并用于与KMR的比较。为了方便表述，分别使用t(tissue)和b(Blood)表示指标所使用的数据来源分别为组织活检、ctDNA检测。据此，我们绘制了Pearson相关性热图。

图14为各个指标之间的皮尔逊相关系数热图。结果表明，tTMB和tNMR具有极强的相关性(皮尔孙相关系数为0.999)，说明NMR在组织活检中能够代表TMB。而在ctDNA检测中，NMR、cNMR和KMR与bTMB的皮尔孙相关性都很高(分别为0.998，0.996，0.892)，说明NMR计数是不弱于bTMB的。去除了经典CHV后，cNMR和tTMB的相关性与bNMR和tTMB的相关性接近、但是都高于bTMB和tTMB的相关性，说明血液中bNMR性能优于bTMB，但是去除经典CHV不能提高bNMR的性能。这些结果说明NMR能表示肿瘤突变负荷的程度不输于TMB。

图15各个指标与tTMB的皮尔孙相关系数条形图。从图15可以看出：KMR与tTMB的相关性最高，其次是cNMR和NMR，而bTMB与tTMB的相关性最低(皮尔孙相关系数分别为0.899，0.821，0.820，0.798)。值得注意的是，在去除VAF不大于1％的突变后，KMR和bTMB以及bNMR的相关性接近于0.9，远高于其他指标，说明通过VAF来获取的KMR具有远比bTMB以及其他NMR指标更加良好的性能。

实验1：基于组织活检样本的患者预后分析

(1)患者预后情况分组。

为了验证KMR对Catcher的临床意义，我们使用Catcher对TCGA中多种癌症的突变进行捕获，并进行生存分析。因为在组织活检样本中无需考虑CHV突变的影响，所以这里KMR等价于NMR。为了保证称呼的统一，这一节中使用KMR。考虑到突变是导致癌症的一大起因，即癌症患者必然携带突变，对于未捕获到突变的患者(即KMR＝0)所携带的突变，可能与捕获到突变的患者所携带的突变在基因组上具有不同的分布。据此，我们假设KMR为0的患者与KMR大于0的患者具有不同的生存期。虽然如此，考虑到不同的数据集的KMR分布可能不同，为了避免以0为分界值所划分的分组太过于绝对化，我们为KMR大于0的患者设定了阈值，小于该阈值的为KMR-Middle组，作为KMR-High(KMR>该阈值)和KMR-Low(KMR＝0)组之间的缓冲。同时，为了保证对基于Catcher的KMR的性能验证的合理性，我们采用了具有很大临床意义的TMB和mVAF指标作为对照。为了能够均衡地比较这三个指标，我们计算了TCGA中每一个项目的这三个变量的平均值，并分别尝试使用它们这些平均值的中位数或者上四分位数作为阈值。

图16，三个指标在多个数据及之中均值的分布，从左到右依次为均值的最小值、下四分位数、中位数、上四分位数和最大值，红色部分(即中位数和上四分位数)表示被用于设定阈值。其中，三种变量的平均值在不同癌症患者类型之间的分布表明，恶性程度更高的癌症，比如世界前十大癌症，更趋向于具有更高的平均值。多数癌症类型的KMR均值在1到4之间，而肺癌、结直肠癌、皮肤癌、胃癌和子宫癌等的KMR的均值则在4以上。值得注意的是，KMR和TMB在不同癌症类型之间具有类似的趋势，但是KMR比TMB的值要小2倍以上。

图17为三个指标在多个数据及之中均值的大小；最右方的子图为Catcher在各个数据集之间的捕获率。从图中可以看出平均mVAF的整体变化趋势与Catcher的捕获率较为接近，这可能暗示着VAF越高，该突变越容易被捕获。

(2)KMR能够指示患者生存期。

对OS和PFS的分析结果，参见图18。图18为KMR、TMB和mVAF等三个指标的OS和PFS分析的P值显著性热图。从图中可以看出：KMR能够对多种癌症患者的生存期和预后做出分类，具有很高的临床价值，并不输于TMB和mVAF。

图19列出了一些癌症类型的OS和PFS分析图。不同的KMR分组预示着不同的OS或者PFS结局。图中A表明，对于血癌患者，设定阈值为上四分位数，则KMR-Middle组和KMR-High组具有类似的OS结局(P＝0.344)，而KMR-Low的患者则与KMR-High和KMR-Middle的患者之间的OS差异显著(P＝0.003，0.001)。图中B表明，对于膀胱癌患者，设定阈值同样为上四分位数，则KMR为Low和High的患者具有更长的无病生存期(P均小于0.001)。而且，KMR的高低分组在不同的癌症中可能具有相反的指示效果。图中C和D表明，在宫颈癌和头颈癌中，KMR低的预示着更长的生存期，而根据A图，在血癌中，KMR低则预示着更短的生存期。此外，虽然KMR-Middle组是KMR-Low和KMR-High之间的过渡组，因此会如图E所示，呈现像结直肠癌那样在阈值为上四分位数时，KMR-High组与KMR-Low组具有类似的分类结果(P＝0.902)，但是更多地是如F图所示，像食管癌那样出现与其他分组具有显著差异的结果。

值得注意的是，虽然，但是如果并且随着癌症的不同，不同的阈值选择将更具有临床价值。参见图20，从图中可与看出：在子宫癌患者的KMR-High和KMR-low的比较中，采用上四分位数比中位数更能显著地区分患者OS(P＝0.001，0.029)。

而在整体中，TMB与KMR对相同癌症类型的预后和整体生存期具有类似的分类能力，图21，三个指标OS和PFS分析的P值显著性条形图(缩写：KMR，关键突变区域个数；TMB，肿瘤突变负荷估计；mVAF，平均突变等位基因频率；OS，总体生存期；PFS，疾病无进展生存期)表示了在世界前10大致死性癌症之中显著的癌症个数。结合图18，可以看出：对那些TMB和KMR区分能力较弱的癌症中，比如胰腺癌中，mVAF能够作为有益的补充。

(3)基于Catcher的KMR比在其他捕获器下更稳定。

而为了验证Catcher对KMR性能的支撑，我们比较了已经建立的背景噪音比较低的捕获器，包括Newman的捕获器，Burgener的捕获器以及MSK-IMPACT，对世界上致死率最高的10中癌症的预后分类能力。

图22为分别基于各捕获器KMR的OS和PFS显著性统计图。通过比较P值显著性，我们发现，Catcher对所有癌症的多个分组，尤其是在KMR-Low与KMR-High的比较、KMR-Middle与KMR-Low的比较中，具有强大的分类能力。重要的是，Catcher无论是在中值还是上四分位数作为阈值，亦或者无论是在OS还是PFS中，其分类能力都比较稳定，说明基于Catcher的KMR对恶性肿瘤具有很好的分类性能。

实验2：基于ctDNA检测的患者预后分析

为了验证基于Catcher的KMR的临床适用性，我们收集了20名晚期鼻咽癌患者的血清样本。这些患者都经历了两次化疗和随后的一次放疗，但是化疗可能对一些患者没有疗效，因此对这些患者尽早实施放疗会更加符合精准医疗的理念。为了将那些对化疗无反应的患者尽早区分出来，我们使用Catcher合成的捕获探针对来自20例鼻咽癌患者的第一次化疗前后的血清样本进行了ctDNA捕获，并经过生物信息学处理以去除背景噪音，从而得到肿瘤特异性的突变。

(1)VAF分布的数据考察。

具体参见图23，图中A为患者在第一次化疗前后的VAF分布。图中B为对化疗有反应的患者与无反应的患者在第一个化疗前后的VAF分布。图中C为第一次化疗前后对化疗有反应的患者与无反应的患者的VAF分布。

从图23的结果可以看出：根据B图，在治疗前后，对化疗有反应的患者的整体VAF无显著差异，而无效患者的VAF则有显著差异(P＝0.54，0.035)。但是根据C图，有效和无效患者之间不存在差异性(P＝0.9，0.98)。

同样的，根据图24中A可以看出：无论是否对化疗有反应，患者mVAF在治疗前后也没有显著差异(P＝0.053)。根据图24中B可以看出有效患者在第一次治疗前后的mVAF变化不大，而无效患者在第一次治疗后mVAF略有上升，但是根据图24中C可以看出：我们不能从mVAF来判断患者是否是有效患者。具体参见图24：图24A为治疗前后患者的mVAF分布。图24中B为第一次化疗前后对化疗有反应的患者与无反应的患者的mVAF分布。图24C为对化疗有反应的患者与无反应的患者在第一个化疗前后的mVAF分布。

(2)KMR数据考察。

图25为KMR数据考察结果：图25中A为治疗前后患者的KMR分布。图25中B第一次化疗前后对化疗有反应的患者与无反应的患者的KMR分布。图25中C为对化疗有反应的患者与无反应的患者在第一个化疗前后的KMR分布。

根据图25中A，患者整体的KMR在治疗后显著降低(P＝0.04)，但是根据图25中B，对化疗有效的患者在第一次化疗前后KMR变化不大，而无效患者的KMR则显著降低(P＝0.2，0.002)。重要的是，根据图25中C，虽然有效患者和无效患者的KMR在第一次化疗前差异不大(P＝0.69)，但是在第一次化疗后，有效患者的KMR显著高于无效患者(P＝0.028)，这说明我们可能根据第一次化疗后的KMR的高低来区分第二次化疗疗效。

(3)bTMB数据分析。

图26为bTMB数据分析结果：图中A为治疗前后患者的bTMB分布。图中B为第一次化疗前后对化疗有反应的患者与无反应的患者的bTMB分布。图26C为对化疗有反应的患者与无反应的患者在第一个化疗前后的bTMB分布。

从图中可以看出：bTMB则难以对患者疗效进行区分，患者的bTMB在治疗前后、有反应和无反应的患者之间无显著差异。

(4)比较三个指标对患者疗效的预测能力。

为了检测三个变量对患者疗效的预测能力，我们还计算了患者的治疗前后的变量差值，而后我们尝试根据患者的ctDNA捕获结果所计算的三个变量值对患者的疗效进行区分，并绘制了ROC图，参见图27。

图27分别基于第一次化疗前样本、第一次化疗后的样本和第一次化疗前后的样本，KMR，bTMB和mVAF等三个指标对预测患者化疗疗效的ROC曲线图。缩写：VAF，突变等位基因频率；mVAF，平均突变等位基因频率；KMR，关键突变区域个数；bTMB，基于血液样本的肿瘤突变负荷估计；ROC，受试者工作曲线；AUC，曲线下面积。

图中的结果表明，仅根据化疗前的样本，三个指标均难以对患者进行区分。根据治疗后的样本，如图27中B所示，KMR具有远高于bTMB和mVAF的区分能力(AUC＝0.84，0.607，0.68)。而对治疗前后的样本所计算的三个指标分别取差值后，如图27中C，KMR具有更高的预测性能(AUC＝0.953)。这说明，我们不仅可以采用第一次化疗后的样本、依托KMR对患者的第二次化疗疗效进行预测，如果第一次化疗前的样本也是可以获得的话，KMR将具有更高的预测能力。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明的精神实质和技术方案的情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种血液ctDNA的检测方法，其特征在于，所述血液ctDNA的检测方法包括以下步骤：

S3、采用所述背景噪音优化的捕获器对ctDNA进行捕获。

2.根据权利要求1所述的血液ctDNA的检测方法，其特征在于，所述良性突变频发的基因组区域为CHV突变频发的基因组区域。

3.根据权利要求2所述的血液ctDNA的检测方法，其特征在于，所述S2的具体步骤为：去除所述初始的捕获器中平均每千碱基上发生1个及以上突变的或者产生WBC背景噪音的概率大于千分之一的外显子，获得背景噪音优化的捕获器。

4.根据权利要求1所述的血液ctDNA的检测方法，其特征在于，所述S1的具体步骤为：

S1-1、从所获取的驱动基因的外显子区域中筛选出有5个及以上患者突变的外显子；

5.根据权利要求4所述的血液ctDNA的检测方法，其特征在于，所述S1-3和S1-4中，挑选最能降低只具有一个突变的患者数目的外显子；如果能够降低的数目相同，就去选择频发数最高的那一个外显子。

6.根据权利要求1至5中任一项所述的血液ctDNA的检测方法，其特征在于，肿瘤基因组突变密度估计指标采用KMR指标。

7.根据权利要求6所述的血液ctDNA的检测方法，其特征在于，所述KMR指标摒弃VAF<1％的cfDNA突变，只对关键NMR计数。