CN114502744B

CN114502744B - 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置

Info

Publication number: CN114502744B
Application number: CN201980101069.4A
Authority: CN
Inventors: 倪帅; 王春丽; 薛思鸣; 周剑文; 杨柯; 邵林; 张盼; 吴慧子; 石太平
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Shanghai Huada Medical Laboratory Co ltd; BGI Shenzhen Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-06-23
Anticipated expiration: 2039-12-11
Also published as: WO2021114139A1; CN114502744A

Abstract

一种基于血液循环肿瘤DNA的拷贝数变异检测方法和装置，拷贝数变异检测方法包括：获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，其包括待测区域的测序深度信息；计算待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；将待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与拷贝数变异检测模型进行比较并计算显著性；根据显著性的计算结果，确定待测样本的待测区域的拷贝数变异情况。每个待测CNV基因对应的捕获区域寻找若干个锚点区域，在计算待测CNV区域的相对深度时，用锚点区域代替整体区域，有效降低了待测区域的拷贝数在不同训练样本间的差异，对小片段CNV的检测灵敏度大大提高。

Description

一种基于血液循环肿瘤DNA的拷贝数变异检测方法和装置

技术领域

本发明涉及基因突变检测技术领域，尤其涉及一种基于血液循环肿瘤DNA的拷贝数变异检测方法和装置。

背景技术

循环肿瘤DNA(ctDNA)是游离于外周血中的肿瘤来源的DNA片段，大多数情况下，肿瘤来源的DNA会携带与正常DNA不同的突变，其中一种重要的突变类型是拷贝数变异(CNV)。CNV是基因组中某个片段线性重复拷贝的现象。这种拷贝可以发生在若干bp到上百万bp的区间内，拷贝数从两倍到十几倍不等。正常人群中有10％以上的基因组区域都有CNV现象，但是通常不会有任何表型，而某些关键基因上的CNV变异被确定与致病或者特定肿瘤的发生相关。然而在大多数情况下，ctDNA只占到正常外周血中游离DNA的极小部分，因此对ctDNA中拷贝数变异(CNV)的检测是目前肿瘤伴随诊断试剂盒的难点之一。

CNV检测的基本原理是发现某些片段由于拷贝数变异而在基因组中呈现出的含量变化。传统的CNV检测是利用qPCR的方法实现的。首先对待测基因的特定区域进行PCR扩增，在每个扩增循环后检测该扩增片段对应的荧光强度。理论上来说，起始DNA含量越多，所需扩增循环数越小，起始DNA含量越少，所需扩增循环数越大。因此荧光强度在一定程度上反映了待测基因特定区域在PCR反应前的DNA含量。特别地，在检测特定基因的CNV时，会与另一个参照基因在每个扩增循环后对应的荧光强度对比进行相对定量，确定待测基因的CNV情况。参照基因通常是在细胞中拷贝数稳定不变的基因，如核酸酶基因、肌动蛋白基因等。

近年来，DNA测序技术飞速发展。二代测序技术由于价格较低、通量巨大而成为癌症基因组测序方法的首选。二代靶向测序技术可以同时对基因组中多个区域进行测序，并且根据不同区域的测序深度信息对CNV进行检测。在二代测序中，含量变化会直观地体现在基因组不同区域测序深度的差异上。因此，CNV检测通常的做法是对比肿瘤样品与正常对照之间的测序深度差异。在ctDNA中，肿瘤来源的DNA通常只占总体DNA的10％以下。有研究发现，在NSCLC中，有大约80％的患者肿瘤来源的DNA占比小于10％。在这种情况下，肿瘤来源的CNV信号往往会被正常的测序深度误差所掩盖。但是研究发现，在很多肿瘤类型中，用全基因组低深度测序结合隐马尔可夫的方法可以较精确地检测ctDNA占比大于10％的患者中若干Mbp长度级别的CNV，这在一定程度上解决了ctDNA中CNV检测的问题。

由于qPCR方法受到实验可操作性的限制，无法同时检测大量基因的CNV。另外，由于待测基因的参照基因只有一个，qPCR方法会在一些程度上受到参照基因CNV检测波动的影响。而全基因组低深度测序方法在检测其他突变类型时，灵敏度会大大降低。然而目前根据二代靶向测序技术设计的肿瘤伴随诊断试剂盒的靶向区域大小常常在若干Mbp，甚至1Mbp以下，不能达到在血液中检测CNV的精确度要求。

发明内容

鉴于现有方法中存在的问题，本发明的目的在于提供一种基于血液循环肿瘤DNA的拷贝数变异检测方法和装置，解决在血液中用Mbp级别大小的靶向测序试剂盒对ctDNA上携带的CNV进行检测的技术难点，满足肿瘤临床ctDNA靶向测序应用中对CNV检测的需求。

根据本发明的第一方面，本发明提供一种建立血液循环肿瘤DNA的拷贝数变异检测模型的方法，包括：

获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，测序数据包括目标捕获区域的测序深度信息；

根据正常对照样本中每个探针区域的相对测序深度将捕获区域划分成若干子捕获区域；

对每个子捕获区域，选出在所有正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域；

记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模；

保存每个子捕获区域和与其对应的锚点区域以及建模的结果作为拷贝数变异检测模型，以便用于对同类型样本的对应捕获区域进行拷贝数变异检测。

在优选实施例中，将捕获区域划分成若干子捕获区域包括：

首先，根据所有正常对照样本的平均测序深度将捕获区域划分为设定大小的多个小区域；然后，根据相邻小区域之间测序深度的相似性和区域大小对相邻小区域进行合并得到子捕获区域。

在优选实施例中，用循环二进制分割(circular binary segmentation，CBS)算法，实现根据所有正常对照样本的平均测序深度将捕获区域划分为设定大小的多个小区域；设定大小是100bp±10bp。

在优选实施例中，对每个子捕获区域选取其对应的锚点区域的步骤还包括：

对每个子捕获区域，从若干锚点区域中寻找使正常对照样本间方差最小的锚点区域个数，使该子捕获区域的拷贝数变化范围最小。

在优选实施例中，对子捕获区域的测序深度和与其对应的锚点区域的测序深度的比值进行建模的步骤包括：

假定子捕获区域与其对应的锚点区域的平均深度的比值服从正态分布，计算对正态分布进行描述的相关参数。

根据本发明的第二方面，本发明提供一种建立血液循环肿瘤DNA的拷贝数变异检测模型的装置，包括：

测序数据获取单元，用于获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，测序数据包括目标捕获区域的测序深度信息；

捕获区域划分单元，用于根据正常对照样本中每个探针区域的相对测序深度将捕获区域划分成若干子捕获区域；

锚点区域选取单元，用于对每个子捕获区域，选出在所有正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域；

深度比值建模单元，用于记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模；

检测模型保存单元，用于保存每个子捕获区域和与其对应的锚点区域以及建模的结果作为拷贝数变异检测模型，以便用于对同类型样本的对应捕获区域进行拷贝数变异检测。

根据本发明的第三方面，本发明提供一种计算机可读存储介质，其包括程序，程序能够被处理器执行以实现如第一方面的方法。

根据本发明的第四方面，本发明提供一种基于血液循环肿瘤DNA的拷贝数变异检测方法，包括：

获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，测序数据包括待测区域的测序深度信息；

根据第一方面的方法或第二方面的装置提供的信息，计算待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；

将待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与拷贝数变异检测模型进行比较并计算显著性；

根据显著性的计算结果，确定待测样本的待测区域的拷贝数变异情况。

根据本发明的第五方面，本发明提供一种基于血液循环肿瘤DNA的拷贝数变异检测装置，包括：

测序数据获取单元，用于获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，测序数据包括待测区域的测序深度信息；

深度比值计算单元，用于根据第一方面的方法或第二方面的装置提供的信息，计算待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；

显著性计算单元，用于将待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与拷贝数变异检测模型进行比较并计算显著性；

拷贝数变异确定单元，用于根据显著性的计算结果，确定待测样本的待测区域的拷贝数变异情况。

根据本发明的第六方面，本发明提供一种计算机可读存储介质，其包括程序，程序能够被处理器执行以实现如第四方面的方法。

本发明的有益效果包括：

本发明根据正常对照样品中每个探针区域的相对捕获效率(即相对测序深度)对捕获区域(panel)重新进行片段划分，对捕获效率相似的捕获区域进行合并，从而更精确地反映每个捕获区域的测序深度，提高了原有算法的鲁棒性。

本发明为每个待测CNV基因对应的捕获区域寻找若干个锚点区域，使锚点区域的测序深度与待测CNV区域的测序深度在正常对照样品中的差异最小。在计算待测CNV区域的相对深度时，用锚点区域代替整体区域，有效降低了待测区域的拷贝数在不同训练样本间的差异，与同类算法相比，本发明对小片段CNV的检测灵敏度大大提高。

本发明支持在500bp左右的捕获区域内检测一个基因的CNV情况，这使得小于1M捕获区域的靶向测序试剂盒对ctDNA上携带的CNV进行检测成为可能，解决了在血液中用Mbp级别大小的靶向测序试剂盒对ctDNA上携带的CNV进行检测的技术难点，满足了ctDNA靶向测序应用中对CNV检测的需求。

附图说明

图1为本发明实施例中建立血液循环肿瘤DNA的拷贝数变异检测模型的方法流程图。

图2为本发明实施例中根据每个探针区域的相对捕获效率，应用CBS算法和相似度合并算法对一段捕获区域进行片段划分的示例图，x轴表示探针区域的前2000bp的区域，y轴表示平均深度，用黑色竖线之间的区域代表一个相似捕获率的探针区域。

图3为本发明实施例中MET基因376bp区域在同一个训练样本集中原始深度，用整体区域作为参照区域和用锚点区域代替整体区域的相同区域的波动情况对比图，其中x轴代表MET基因的376bp的区域，y轴表示不同单位下位点深度的比较结果。图3A为未经过处理的原始深度信息，某些探针的覆盖度的变化与样本总体覆盖度的变化并非呈线性关系；图3B显示用锚点区域代替整体区域前，参照深度是整个捕获区域平均深度，相同的探针与参照深度的比值在训练样本集中差异较大；图3C显示用锚点区域代替整体区域后，参照深度是各自对应的锚点区域的平均深度，相同的探针与参照深度的比值在训练样本集中差异变小。

图4为本发明实施例中建立血液循环肿瘤DNA的拷贝数变异检测模型的装置结构框图。

图5为本发明实施例中基于血液循环肿瘤DNA的拷贝数变异检测方法流程图。

图6为本发明实施例中基于血液循环肿瘤DNA的拷贝数变异检测装置结构框图。

图7为本发明实施例中使用华大基因华翡悦试剂盒在ERBB2、MET和EGFR基因上的CNV检测结果图。x轴为三例不同基因CNV的标准品，y轴为CNV相对于正常拷贝数的倍数变化。在每个标准品集合的检测结果中，从左往右依次为EGFR、ERBB2和MET基因的CNV检测结果。其中，EGFR基因在三个标准品中都没有CNV变异。其中Gain_1样本包含了ERBB2基因和MET基因的CNV变异分别为1.24倍和1.09倍。Gain_2样本包含了ERBB2基因和MET基因的CNV变异分别为1.81倍和1.26倍。而Loss样本包含了ERBB2基因和MET基因的CNV变异分别为0.76倍和0.91倍。在所有的样本中均准确检出CNV变异，并且相应的CNV变异倍数也稳定在理论范围内。

图8为本发明实施例中使用华大基因华翡悦试剂盒检测在高度稀释的标准品中三个基因的CNV变化结果。其中实线对应的三个样本为12.5倍稀释，虚线对应的三个样本为32倍稀释。其中EGFR基因没有CNV变化。在12.5倍稀释后，MET基因和ERBB2对应的CNV分别为1.06倍和1.2倍；32倍稀释后分别为1.024倍和1.078倍。

图9为本发明实施例中使用华大基因华梵安试剂盒在两个临床样本中检测到ATM基因和ERBB2基因的CNV变化。x轴代表不同的基因区域，y轴代表CNV相对于正常拷贝数的倍数变化。在A样本中，ATM基因检测到0.90倍的缺失，在B样本中，ERBB2基因检测到了1.18倍的扩增。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本发明中采用的术语具体含义如下。

参考基因组：物种参考的标准基因组序列。

gDNA：正常拷贝数的物种(例如人类)基因组DNA。

BWA mem：一种将测序后所得到的基因组序列片段在原基因组上进行序列相似性比对，寻找匹配位点的软件。

BAM：一种用于存储比对信息的标准二进制文件格式。

Pileup：一种记录每个位点测序深度信息的文件。

CNV阴性标准品：没有混合任何基因拷贝数变异的正常gDNA标准品样本。

训练数据：阴性标准品样本经过测序生成的深度信息文件。

测试数据：不同拷贝数变异的标准品样本经过测序生成的深度信息文件。

综合考虑靶向测序试剂盒的探针捕获区域大小和预期测序深度等因素，本发明提出了一种基于血液循环肿瘤DNA的拷贝数变异检测方法，即CESAR(CNV Estimation withSegmentation and Anchor Recalibration)方法。CESAR方法会根据每个探针区域的相对捕获效率对目标捕获区域进行区域划分，然后为区域划分后的每个待测CNV区域在整个捕获区域内寻找若干个锚点区域，使锚点区域的测序深度与待测CNV区域的测序深度在对照样品之间的变化最为相似。在计算待测区域的CNV时，用对应锚点区域的平均深度代替整体捕获区域的深度作为参考深度，使靶向测序试剂盒对ctDNA中的CNV检测的灵敏度提高了一个数量级。总体来说，CESAR方法包括学习阶段和检测阶段两个阶段。在学习阶段，CESAR方法对所有样本进行训练学习，来确定捕获区域的正常拷贝数的变化范围；在检测阶段，CESAR方法会根据训练结果对同类型样本的CNV进行检测。

CESAR方法的学习阶段，在本发明中就是建立血液循环肿瘤DNA的拷贝数变异检测模型的方法，如图1所示，包括如下步骤：

S101：测序数据获取

获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，测序数据包括目标捕获区域的测序深度信息。

本发明中，多个正常对照样本构成正常对照样本集，正常对照样本是指在血液循环肿瘤DNA的目标捕获区域内不存在CNV，或CNV变异倍数在预设范围(例如0.8～1.2倍)之内的样本。目标捕获区域也被称为“panel”，是指在血液循环肿瘤DNA上的一组感兴趣的序列区域，这组序列区域可能与一种表型相关。

S102：捕获区域划分

根据正常对照样本中每个探针区域的相对测序深度将捕获区域划分成若干子捕获区域。

图2示出了一种根据每个探针区域的相对捕获效率，应用CBS算法和相似度合并算法对一段捕获区域进行片段划分的示例，x轴表示探针区域的前2000bp的区域，y轴表示平均深度，用黑色竖线之间的区域代表一个相似捕获率的探针区域。

在本发明的一个实施例中，根据正常对照样本中每个探针区域的相对捕获效率对捕获区域(panel)重新进行片段划分，对捕获效率相似的捕获区域进行合并，从而更精确地反应每个捕获区域的测序深度，提高了原有算法的鲁棒性。一种典型但非限定性的实施例是，在进行区域划分时，本发明先用CBS(circular binary segmentation)算法根据所有正常对照样本的平均测序深度将已知目标捕获区域划分为100bp左右(例如100bp±10bp)的小区域，然后根据相邻区域之间测序深度的相似性和区域大小对相邻区域进行合并，并将分段结果以bed文件输出供后续使用。

由于每个探针的效率不同，在二代测序中反映在每个探针所对应的捕获区域的覆盖度上。当样本总体覆盖度上升时，每个探针的覆盖度理论上都会上升。发明人发现，某些探针的覆盖度的变化与样本总体覆盖度的变化并非呈线性关系。例如，在某些区域，当样本总体深度增加1倍时，某些探针区域的测序深度会增加超过2倍(图3A)。这也许与每个探针的捕获效率或实验条件有关。因此，以整体靶向测序区域的平均测序深度作为单个探针测序深度变化的参照会在多数情况下引起系统性的误差。

然而，本发明的方法，根据正常对照样品中每个探针区域的相对捕获效率对捕获区域(panel)重新进行片段划分，对捕获效率相似的捕获区域进行合并，从而更精确地反映每个捕获区域的测序深度，提高了原有算法的鲁棒性，降低系统误差，提高检测灵敏度。

S103：锚点区域选取

对每个子捕获区域，根据所有子捕获区域在训练样本(即正常对照样本)中的测序深度变化差异，选出在所有正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域，所有锚点区域的平均覆盖度作为每个CNV待测片段的参照深度。

在本发明的一个实施例中，对于每一个子捕获区域，本发明的方法会自动从若干个锚点区域中在一定范围内寻找使样本间方差最小的锚点区域个数，使该子捕获区域的拷贝数变化范围最小，以达到降低背景噪音的目的。值得注意的是，每个子捕获区域对应的锚点区域和锚点区域个数都不相同。

S104：深度比值建模

记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模。

在本发明的一个实施例中，建模的方法是假定子捕获区域与其对应的锚点区域的平均深度的比值服从正态分布，计算对正态分布进行描述的相关参数。

S105：检测模型保存

本发明实施例中，同类型样本是指与正常对照样本是同一物种(例如人)的其他个体的血液循环肿瘤DNA的同一目标捕获区域的样本。

本发明的方法输出三个结果供检测阶段使用，它们分别为：1)子捕获区域划分结果；2)每个子捕获区域对应的锚点区域；3)子捕获区域及其锚点区域之间测序深度比值的统计分布模型，其中，统计分布模型用描述该统计分布模型的若干参数代替。

对应于本发明的建立血液循环肿瘤DNA的拷贝数变异检测模型的方法，本发明还提供一种建立血液循环肿瘤DNA的拷贝数变异检测模型的装置，如图4所示，包括：测序数据获取单元401，用于获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，测序数据包括目标捕获区域的测序深度信息；捕获区域划分单元402，用于根据正常对照样本中每个探针区域的相对测序深度将捕获区域划分成若干子捕获区域；锚点区域选取单元403，用于对每个子捕获区域，选出在所有正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域；深度比值建模单元404，用于记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模；检测模型保存单元405，用于保存每个子捕获区域和与其对应的锚点区域以及建模的结果作为拷贝数变异检测模型，以便用于对同类型样本的对应捕获区域进行拷贝数变异检测。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的一种实施例中提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本发明的建立血液循环肿瘤DNA的拷贝数变异检测模型的方法。

本发明的CESAR方法的检测阶段，即一种基于血液循环肿瘤DNA的拷贝数变异检测方法，如图5所示，包括如下步骤：

S501：测序数据获取

获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，测序数据包括待测区域的测序深度信息。

本发明中的待测样本即与正常对照样本同类型的样本，就是指与正常对照样本是同一物种(例如人)的其他个体的血液循环肿瘤DNA的同一目标捕获区域的样本。本发明中的待测区域就是待测样本的血液循环肿瘤DNA的待测CNV区域。

S502：深度比值计算

根据本发明的建立血液循环肿瘤DNA的拷贝数变异检测模型的方法或建立血液循环肿瘤DNA的拷贝数变异检测模型的装置提供的信息，计算待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值。

S503：显著性计算

将待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与拷贝数变异检测模型进行比较并计算显著性。

本发明中，拷贝数变异检测模型就是本发明的建立血液循环肿瘤DNA的拷贝数变异检测模型的方法中得到的模型。该模型中包含如下信息：1)子捕获区域划分结果；2)每个子捕获区域对应的锚点区域；3)子捕获区域及其锚点区域之间测序深度比值的统计分布模型，其中，统计分布模型用描述该统计分布模型的若干参数代替。

S504：拷贝数变异确定

本发明中，显著性的计算结果一般是指，待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值，相对于正常对照样本经学习训练得到的拷贝数变异检测模型的差异程度。例如，用数值1表示没有差异，不存在CNV；而大于或小于1的数值表示存在CNV。

本发明中，拷贝数变异情况一般包括拷贝数扩增(增加)或缺失(减少)两种情况。对于一个特定的待测CNV区域，CNV一般要么是扩增，要么是缺失。然而，同一个待测样本的不同待测CNV区域可能发生不同的拷贝数变异情况，例如，有的待测CNV区域检测到扩增，而有的待测CNV区域检测到缺失。

对应于本发明的基于血液循环肿瘤DNA的拷贝数变异检测方法，本发明还提供一种基于血液循环肿瘤DNA的拷贝数变异检测装置，如图6所示，包括：测序数据获取单元601，用于获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，测序数据包括待测区域的测序深度信息；深度比值计算单元602，用于根据本发明的建立血液循环肿瘤DNA的拷贝数变异检测模型的方法或建立血液循环肿瘤DNA的拷贝数变异检测模型的装置提供的信息，计算待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；显著性计算单元603，用于将待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与拷贝数变异检测模型进行比较并计算显著性；拷贝数变异确定单元604，用于根据显著性的计算结果，确定待测样本的待测区域的拷贝数变异情况。

本发明的一种实施例中提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本发明的基于血液循环肿瘤DNA的拷贝数变异检测方法。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明的限制。

实施例1：

将24例基因拷贝数变异标准品用正常人类双倍体gDNA标准品样本以不同比例稀释，得到与正常双倍体拷贝数差异更小的CNV样本进行CNV检测。在24例样本中，6例为阴性标准品，这6例样本作为背景CNV用来进行模型训练。而剩下的18例样本被分为三组，每组6例，分别命名为CNV扩增1组、CNV扩增2组和CNV缺失组(表1)。CNV扩增1组包含的ERBB2基因和MET基因的CNV变异分别为正常双倍体基因组的1.24倍和1.09倍，用Gain_1表示。CNV扩增2组包含的ERBB2基因和MET基因的CNV变异分别为正常双倍体基因组的1.81倍和1.26倍，用Gain_2表示。CNV缺失组包含的ERBB2基因和MET基因的CNV变异分别为正常双倍体基因组的0.76倍和0.91倍，用Loss表示。

表1各组样本中EGFR基因、ERBB2基因和MET基因的CNV变异情况

将所有标准品样本经过华大基因肺癌ctDNA靶向测序试剂盒华翡悦的DNA捕获标准进行DNA捕获后，用MGI-SEQ2000测序平台进行DNA测序。测序所得的基因组序列片段使用BWA mem用默认参数与人类参考基因组进行比对，得到BAM格式文件的比对结果。然后利用测序文库片段中所加入的分子标签对BAM格式文件进行去重处理。最后用Samtools的mpileup工具将BAM格式文件转换为包含位点深度信息的Pileup格式文件，Pileup格式文件包含了目标捕获区域的深度信息，作为本发明(CESAR方法)的输入文件进行目标区域拷贝数变异的检测。

然后用6例阴性标准品样本对CESAR进行训练，在训练阶段，CESAR根据正常对照样品中每个探针区域的相对捕获效率对捕获区域(panel)重新进行区域划分，并且为每个待测CNV基因对应的捕获区域寻找若干个锚点区域。训练结果输出为三个文件，分别为bed区间区域划分结果、每个捕获区域对应的锚点区域集合，以及它们之间测序深度比值的统计分布模型。其中统计分布模型用描述该分布模型的若干参数代替。

训练完成后，CESAR根据训练模型的结果对上述三批CNV拷贝数异常的样本组数据进行了测试，结果如图7所示。结果显示，本发明(CESAR方法)在所有稀释倍数的CNV标准品组共18例样本中均成功地检出了MET基因和ERBB2基因上的超低倍数的CNV扩增与缺失，并且相应的CNV扩增与缺失倍数也稳定在理论范围内。虽然在EGFR基因上有1例假阳性检出，但是假阳性检出的倍数为1.03倍，可以用提高阈值的方式消除该假阳性。

实施例2：

本实施例的目的是将样本进一步稀释以检测更低倍数的CNV。因此，用基因拷贝数变异标准品与正常人类双倍体gDNA样本以更低的比例混合，以得到与正常双倍体拷贝数差异更小的CNV样本进行检测。

在基因拷贝数变异标准品中，MET基因原始拷贝数为3.5，ERBB2基因原始拷贝数为7.0。将3例基因拷贝数变异标准品样本用CNV阴性标准品稀释12.5倍，使其中包含的ERBB2基因和MET基因CNV变异分别为正常双倍体基因组的1.2倍和1.06倍。将另外3例基因拷贝数变异标准品样本用CNV阴性标准品稀释32倍，使其包含的ERBB2基因和MET基因的CNV变异分别为正常双倍体基因组的1.078倍和1.024倍(表2)。将上述CNV稀释后的标准品和8例阴性标准品经过与实施例1完全相同的处理方式进行处理得到Pileup格式文件，作为CESAR方法的输入文件进行目标区域拷贝数变异的检测。

表2各组样本中EGFR基因、ERBB2基因和MET基因的CNV变异情况

在实施例2中，用8例阴性标准品样本进行学习，对上述两批共6例CNV拷贝数异常的样本组数据进行了测试，结果如图8所示。结果显示，本发明(CESAR方法)在所有稀释倍数的CNV标准品组中的所有6例样本中均成功地检出了MET基因和ERBB2基因上的超低倍数的CNV扩增与缺失，并且相应的CNV扩增与缺失倍数也稳定在理论范围内。而在EGFR基因上没有假阳性检出。

实施例3：

为了检测CESAR在真实临床样本中的CNV检测性能，取40例肿瘤患者的血浆样本进行CNV检测。将40例临床样本经过华大基因靶向测序试剂盒华梵安的DNA捕获标准进行DNA捕获。然后用MGI-SEQ2000测序平台进行DNA测序。测序所得的基因组序列片段使用BWA mem用默认参数与人类参考基因组进行比对，得到BAM格式文件的比对结果。然后利用测序文库片段中所加入的分子标签对BAM格式文件进行去重处理。最后用Samtools的mpileup工具将BAM格式文件转换为包含位点深度信息的Pileup格式文件，Pileup格式文件包含了目标捕获区域的深度信息，作为CESAR方法的输入文件进行目标区域拷贝数变异的检测。

本实施例中，由于事先未知所有样本的CNV情况，因此，用所有40例样本作为训练样本，对CESAR进行训练，在训练阶段，CESAR根据正常对照样品中每个探针区域的相对捕获效率对捕获区域(panel)重新进行区域划分，并且为每个待测CNV基因对应的捕获区域寻找若干个锚点区域。训练结果输出为三个文件，分别为bed区间区域划分结果、每个区域对应的锚点集合，以及它们之间测序深度比值的统计分布模型。其中统计分布模型用描述该分布模型的若干参数代替。训练完成后，CESAR根据上述训练模型的结果对所有40例样本的CNV变异进行检测。结果如图9所示，发现在2例样本分别在ATM基因和ERBB2基因上存在比较可靠的CNV现象。其中，ATM基因存在0.90倍缺失，而ERBB2基因存在1.18倍扩增。

综合以上实施例，本方法克服了在ctDNA中用小区域探针捕获CNV变异的检测灵敏性的问题，大大提高了在临床样本中检测CNV变异的灵敏度，使小于1M捕获区域的靶向测序试剂盒对ctDNA上携带的CNV检测成为可能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种建立血液循环肿瘤DNA的拷贝数变异检测模型的方法，其特征在于，所述方法包括：

获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，所述测序数据包括所述目标捕获区域的测序深度信息；

根据所述正常对照样本中每个探针区域的相对测序深度将所述捕获区域划分成若干子捕获区域；

对每个所述子捕获区域，选出在所有所述正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域；

记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有所述正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模；

保存每个子捕获区域和与其对应的锚点区域以及所述建模的结果作为拷贝数变异检测模型，以便用于对同类型样本的对应捕获区域进行拷贝数变异检测。

2.根据权利要求1所述的方法，其特征在于，所述将所述捕获区域划分成若干子捕获区域包括：

首先，根据所有所述正常对照样本的平均测序深度将所述捕获区域划分为设定大小的多个小区域；然后，根据相邻小区域之间测序深度的相似性和区域大小对相邻小区域进行合并得到所述子捕获区域。

3.根据权利要求2所述的方法，其特征在于，用循环二进制分割算法，实现根据所有所述正常对照样本的平均测序深度将所述捕获区域划分为设定大小的多个小区域；所述设定大小是100bp±10bp。

4.根据权利要求1所述的方法，其特征在于，所述对每个所述子捕获区域选取其对应的锚点区域的步骤还包括：

对每个所述子捕获区域，从若干所述锚点区域中寻找使所述正常对照样本间方差最小的锚点区域个数，使该子捕获区域的拷贝数变化范围最小。

5.根据权利要求1所述的方法，其特征在于，所述对子捕获区域的测序深度和与其对应的锚点区域的测序深度的比值进行建模的步骤包括：

假定所述子捕获区域与其对应的锚点区域的平均深度的比值服从正态分布，计算对所述正态分布进行描述的相关参数。

6.一种建立血液循环肿瘤DNA的拷贝数变异检测模型的装置，其特征在于，所述装置包括：

测序数据获取单元，用于获取多个正常对照样本的血液循环肿瘤DNA的目标捕获区域的测序数据，所述测序数据包括所述目标捕获区域的测序深度信息；

捕获区域划分单元，用于根据所述正常对照样本中每个探针区域的相对测序深度将所述捕获区域划分成若干子捕获区域；

锚点区域选取单元，用于对每个所述子捕获区域，选出在所有所述正常对照样本中与该子捕获区域的测序深度变化趋势最为吻合的若干其它子捕获区域作为该子捕获区域对应的锚点区域；

深度比值建模单元，用于记录每个子捕获区域和与其对应的锚点区域，并且将该子捕获区域在所有所述正常对照样本中的测序深度和与其对应的锚点区域的测序深度的比值进行建模；

检测模型保存单元，用于保存每个子捕获区域和与其对应的锚点区域以及所述建模的结果作为拷贝数变异检测模型，以便用于对同类型样本的对应捕获区域进行拷贝数变异检测。

7.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-5中任一项所述的方法。

8.一种基于血液循环肿瘤DNA的拷贝数变异检测方法，其特征在于，所述方法包括：

获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，所述测序数据包括所述待测区域的测序深度信息；

根据权利要求1-5所述的方法或权利要求6所述的装置提供的信息，计算所述待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；

将所述待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与所述拷贝数变异检测模型进行比较并计算显著性；

根据所述显著性的计算结果，确定所述待测样本的所述待测区域的拷贝数变异情况，

所述拷贝数变异检测方法用于非疾病诊断治疗目的。

9.一种基于血液循环肿瘤DNA的拷贝数变异检测装置，其特征在于，所述装置包括：

测序数据获取单元，用于获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，所述测序数据包括所述待测区域的测序深度信息；

深度比值计算单元，用于根据权利要求1-5所述的方法或权利要求6所述的装置提供的信息，计算所述待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值；

显著性计算单元，用于将所述待测样本中每个子捕获区域与其相应的锚点区域的平均测序深度的比值与所述拷贝数变异检测模型进行比较并计算显著性；

拷贝数变异确定单元，用于根据所述显著性的计算结果，确定所述待测样本的所述待测区域的拷贝数变异情况。

10. 一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现以下方法，所述方法包括：获取待测样本的血液循环肿瘤DNA的待测区域的测序数据，所述测序数据包括所述待测区域的测序深度信息；

根据所述显著性的计算结果，确定所述待测样本的所述待测区域的拷贝数变异情况。