CN112435711B

CN112435711B - 一种改善小panel数据中大型cnv检测效果的方法

Info

Publication number: CN112435711B
Application number: CN202011256424.6A
Authority: CN
Inventors: 鲍远亮; 梁萌萌; 余伟师; 姜玥; 张斯佳
Original assignee: Saifu Decoding Beijing Gene Technology Co ltd
Current assignee: Saifu Decoding Beijing Gene Technology Co ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-04-01
Anticipated expiration: 2040-11-11
Also published as: CN112435711A

Abstract

本发明公开了一种改善小PANEL数据中大型CNV检测效果的方法，通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因(如常见的管家基因)，使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小，优选小于Panel总设计长度的20％，从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响，使得大型CNV可以被正常检出。

Description

一种改善小PANEL数据中大型CNV检测效果的方法

技术领域

本发明涉及生物学与精准医学基因组变异检测技术领域，具体涉及一种改善小PANEL数据中大型CNV检测效果的方法。

背景技术

基因检测Panel是指用于检测与某种特定疾病相关的基因或基因组区域的基因突变的生物检测试剂盒及相应的分析方法。高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology，NGS)，以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。近年来，随着高通量测序技术的飞速发展以及测序成本的逐年降低，医学领域越来越多的通过设计基于NGS测序平台检测特定基因的Panel试剂盒来检测或筛查相应的疾病。这些Panel通常包含若干个基因或基因区域，具有测序深度高(1000X以上)、成本低等优点，主要检测的变异类型包括单核苷酸多态性(single nucleotide polymorphism,SNP)、插入缺失(insertion-deletion,InDel)、拷贝数变异(Copy number variation,CNV)、结构变异(structuralvariation,SV)等；其常见的处理流程如下：

1)根据目标基因的序列设计捕获探针，进行DNA捕获和高通量测序。

2)对高通量数据进行数据质控、比对分析。

3)根据比对结果使用各类分析工具检测样本中的单核苷酸突变，插入缺失及拷贝数变异。

目前的小Panel(指检测的基因组范围较小)数据可以较好地解决单核苷酸突变、插入缺失以及小型拷贝数变异的检测，但是面对大型(拷贝数变异区间长度大于Panel设计总长度的20％)拷贝数变异则会遇到困难，具体如下：

1)拷贝数变异检测基本原理是通过对比目标样本和对照样本集合的覆盖度变化，获得两者不一致的区间，从而发现潜在的拷贝数变异区域。

2)在全基因组测序(WGS)和全外显子测序(WES)分析中，拷贝数变异影响的区域通常小于数据覆盖区域的1％。但是在小Panel中，由于设计总长度有限，容易出现高占比的拷贝数变异。例如，设计了两个长度相似基因的小Panel，当一个基因发生整体删除时，拷贝数变异影响区域长度与设计总长度的比值就会达到50％左右。

3)大型拷贝数变异的存在会导致测序数据在小Panel设计区域上的分布发生明显变化，破坏存在拷贝数变异的目标样本与不存在拷贝数变异的参考样本间的覆盖度相关性，从而对拷贝数变异的检测造成困难。

4)在一种极端的情况下，如果小Panel中设计的基因发生整体性删除，拷贝数变异在数据中的信号将会消失，基于覆盖度差异的拷贝数变异检测方法将会彻底失效。这种极端情况在全基因组和全外显子组测序中几乎不会出现，但是在小Panel中是有可能出现的。

图1展示了当出现大比例CNV时，reads(图中的横向箭头)覆盖度分布会因为CNV长度占Panel总长度过长而导致CNV检测软件产生错误信号，出现假阳性的问题。比如当覆盖度都是8000X时，在正常情况下，由于没有CNV出现，reads能够均匀覆盖到TSC1基因和TSC2基因上，CNV检测软件基于此产生正常的拷贝数信号，认为reads覆盖度达到8000X左右的区域是拷贝数正常区域。但是当出现较大长度的插入缺失时，如图1中TSC2基因上出现的DEL，由于CNV区域过大，使得reads分布平衡状态被打破，CNV检测软件错误的把reads覆盖度5000X认为是拷贝数正常状态，而TSC1基因和TSC2基因部分区域由于覆盖度在5000X以上，CNV检测软件错误的认为出现了DUP假阳性。

发明内容

本发明的目的是提供一种改善小PANEL数据中大型CNV检测效果的方法，以解决现有技术的不足。

本发明采用以下技术方案：

一种改善小PANEL数据中大型CNV检测效果的方法，通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因，使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小，从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响，使得大型CNV可以被正常检出。

进一步地，使得加入对照基因后预计出现的CNV区间小于Panel总设计长度的20％。

进一步地，对照基因为管家基因。

进一步地，对照基因总长度和待检测基因总长度相当，或者数倍于待检测基因总长度，使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小。

进一步地，对照基因为管家基因。

本发明的有益效果：

本发明创造了一种改善小Panel中大型拷贝数变异检测的方法，通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因(如常见的管家基因)，使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小，优选小于Panel总设计长度的20％，从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响，使得大型CNV可以被正常检出。

附图说明

图1是大比例CNV导致reads覆盖度分布异常示意图(横向箭头：表示测序数据中的短序列片段，覆盖度可以通过这种短序列片段在单位区间内的数量来表示；正常情况：分析结果中拷贝数正常的区域；DEL：分析结果中，发生拷贝数变异的区域，DEL代表Deletion，表示拷贝数减少；DUP：分析结果中，发生拷贝数变异的区域，DUP代表Duplication，表示拷贝数增加)。

图2是测试样本和对照样本的TSC1基因和TSC2基因校正后覆盖度示意图(TSC1和TSC2：表示TSC1基因和TSC2基因区间，后续的图中类同；CASE COV：表示测试样本TSC1基因和TSC2基因校正后覆盖度，如粗线条，后续的图中类同；CONTROL COV：表示对照样本TSC1基因和TSC2基因校正后覆盖度，如细线条，后续的图中类同；A/B/C/D/E：用于标记区间，后续的图中类同)。

图3是TSC1基因和TSC2基因覆盖度校正方式一。

图4是TSC1基因和TSC2基因覆盖度校正方式二。

图5是TSC1基因和TSC2基因覆盖度校正方式三。

图6是PANELCN.MOPS检测的测试样本(图中的test样本)和对照样本(图中的control1-control10样本)校正后覆盖度分布(TSC1和TSC2：表示TSC1基因和TSC2基因区间，后续的图中类同；纵坐标表示校正后的覆盖度数值，横坐标表示TSC1基因和TSC2基因分成的bin，后续的图中类同)。

图7是CNVKIT检测的测试样本和对照样本校正后覆盖度分布。

图8是PANELCN.MOPS检测的测试样本和对照样本校正后覆盖度分布(2个对照)。

图9是PANELCN.MOPS的Normalization结果与CNV长度的关系。

图10是CNVKIT的Normalization结果与CNV长度的关系。

图11是大比例DEL对CNV检测软件提取的覆盖度信号造成影响。

图12是增加对照基因后CNV检测软件提取的覆盖度信号示意图(对照基因A和对照基因B：表示在Panel中增加的对照基因)。

图13是增加对照基因后，测试样本和对照样本的对照基因、TSC1基因和TSC2基因校正后覆盖度示意图。

图14是增加对照基因前后的TSC基因拷贝数情况(“原版panel”表示没有对照基因的结果)。

图15是增加对照基因后的TSC基因发生长DEL后的覆盖度信号示意图(箭头：表示测序数据中的短序列片段，覆盖度可以通过这种短序列片段在单位区间内的数量来表示；NORMAL：分析结果中拷贝数正常的区域；DEL：分析结果中，发生拷贝数变异的区域，DEL代表Deletion，表示拷贝数减少)。

图16是增加对照基因后的TSC基因发生整个基因DEL后覆盖度信号示意图。

具体实施方式

下面结合实施例和附图对本发明做更进一步地解释。下列实施例仅用于说明本发明，但并不用来限定本发明的实施范围。

本发明能够提升小Panel中大型CNV的检测精度，下面将以检测TSC1基因和TSC2基因拷贝数的案例阐述本发明的方案原理。

1.根据目标基因的序列设计捕获探针。

例如，一个检测结节性硬化症(Tuberous Sclerosis Complex,TSC)基因拷贝数的Panel中(以下简称为TSC基因Panel)，针对TSC1基因和TSC2基因设计捕获探针时，可以根据2个基因的坐标信息(表1)，设计能够扩增出整个TSC1和TSC2基因的探针序列。

表1 TSC1和TSC2基因信息

基因名称	坐标(hg38)	基因信息
			TSC1	chr9:132,891,348-132,944,633	位于9q34，含有23个外显子，长度是53,286bp
TSC2	chr16:2,047,985-2,089,491	位于16p13.3，含有42个外显子，长度是41,507bp

2.根据合适的对照基因(Control Gene)序列设计捕获探针。

在检测目的基因的拷贝数时，是否选择合适的对照基因会对检测结果产生极大影响。对照基因是一种基因表达量在不同样本之间相对稳定的基因，如管家基因。利用对照基因的reads覆盖度可以对目标基因的覆盖度进行校正，能较大程度消除样本间的批次效应导致的reads覆盖度较大波动。在人类基因组中，常用的对照基因名称如表2。根据Panel中待检测的目标基因CNV的大小，从表2中选择合适的对照基因，并设计探针扩增出对照基因的区域。

表2人类基因组中常用的对照基因

基因名称	坐标(hg38)	基因长度(bp)
			ACTB	chr7:5527148-5530601	3453
GAPD	chr12:6534517-6538371	3854
			PGK1	chrX:78104248-78129295	25047
PPIA	chr7:44795960-44803117	7157
			RPL13A	chr19:49487608-49492308	4700
RPLP0	chr12:120196699-120201111	4412
			B2M	chr15:44711492-44718145	6653
YWHAZ	chr8:100916523-100954068	37545
			SDHA	chr5:218320-257082	38763
TFRC	chr3:196018694-196082123	63429
			ALAS1	chr3:52198083-52214327	16244
GUSB	chr7:65960684-65982230	21546
			HMBS	chr11:119084864-119093549	8685
HPRT1	chrX:134460165-134500668	40503
			TBP	chr6:170554369-170572859	18490
TUBB	chr6:30720352-30725422	5070

3.进行DNA捕获和高通量测序，并对高通量数据进行比对分析。

基于NGS平台、检测基因或基因组区域中SNP、InDel、CNV类型的Panel，完成NGS测序后，基本处理方案是对原始fastq文件做常规流程的数据质控、序列比对、原始Bam文件排序、局部重新比对、碱基质量值校正等操作，得到可用于后续分析的Bam文件。这一部分的主要操作过程如下：

(1)数据质控。本发明使用cutadapt软件。

(2)比对分析。使用bwa比对到参考基因组，并进行局部重新比对、碱基质量值校正等操作，比对过程中不去冗余reads，统计比对率、覆盖度、均一性等统计数据，后续用于数据质量判定的依据，最终得到可用于变异检测的Bam文件。

4.根据比对结果使用各类分析工具检测样本中的SNP、InDel、CNV。

Panel数据的变异检测流程类似于全外显子组测序测序(Whole ExomeSequencing,WES)数据的分析流程，需要注意的是Panel数据是对目标基因区域的捕获，因此不需要在数据处理中标记冗余reads。对于WES数据，常规检测SNP和InDel使用的软件有GATK的HaplotypeCaller模块和UnifiedGenotyper模块等；检测CNV的工具有CNVKIT、PanelCN.MOPS、ExomeDepth等。Panel数据由于其在目标区域内的覆盖度很高(1000X以上)，因此其对SNP和InDel的检测效果与WES数据没有明显差异。本发明使用Haplotyper模块检测SNP、InDel位点，并执行硬过滤指标，最终生成VCF文件。

但是对于CNV的检测会受到Panel捕获区间大小的影响，如果拷贝数变异区间长度占Panel设计总长度的比例太大(大于Panel设计总长度的20％)，则拷贝数变异则会遇到困难。

下面以检测TSC基因拷贝数的Panel为例，通过增加对照基因使得TSC基因拷贝数检测的精确度显著提升。

采用上述的策略，我们在原始TSC基因Panel中，通过选取2个与TSC临床表型无关的、样本间基因表达量比较稳定的管家基因TFRC(hg38:chr3:196018694-196082123,63429bp)和HPRT1(hg38:chrX:134460165-134500668,40503bp)作为对照基因(只要发生拷贝数变异就会引发其他明显表型的基因)，且使对照基因总长度与待检测的TSC基因总长度相当(其他Panel中亦是相当或数倍于)，本发明中加入的对照基因总长度是103932bp，TSC1基因和TSC2基因总长度是94793bp，故对照基因总长度是TSC基因总长度的1.1倍，基于这种条件构建了一个测试Panel，并用此测试Panel进行TSC基因拷贝数检测，然后与原始TSC基因Panel的检测结果进行比较，发现本方明构建的测试Panel检测结果更可靠。本发明的支持证据和解决方案如下：

4.1常规Panel检测CNV的问题：在未增加对照基因时，CNV检测软件并不能正确识别TSC基因的CNV。

使用常规方法检测CNV拷贝数，会出现假阳性问题：

4.1.1如果目标基因的CNV区间过长，即便使用对照样本做覆盖度校正，也会使检测结果出现差异。图2是测试样本(图中的CASE样本)和对照样本(图中的CONTROL样本)的TSC1基因和TSC2基因校正后覆盖度示意图，根据图示可知测试样本的TSC2基因部分区域出现了覆盖度下降的趋势；而对照样本中的TSC1基因和TSC2基因的覆盖度是均匀的。

4.1.2从图2中可以发现，测试样本的TSC2基因中发生的CNV长度占TSC1和TSC2基因总长度的比例太大(大于20％)，因此在使用对照样本的覆盖度做校正后，理论上会出现3种校正结果，分别是：

①与对照样本相比，CNV检测软件把测试样本的TSC2基因的B区间的覆盖度认为是正常拷贝数，而A区间和C区间发生了DUP(拷贝数增加)，则校正后的效果示意图如图3所示。

②与对照样本相比，CNV检测软件把测试样本的A区间和C区间的覆盖度认为是正常拷贝数，而B区间发生了DEL(拷贝数缺失)，则校正后的效果示意图如图4所示。

③基因覆盖度校正方式三：与对照样本相比，CNV检测软件认为D区间和E区间的覆盖度是正常拷贝数，则测试样本的A区间和C区间发生了DUP，而B区间发生了DEL，则校正后的效果示意图如图5所示。

4.1.3因此，本发明使用主流的CNV检测工具PANELCN.MOPS、CNVKIT检测一批测试样本，发现2种软件的检测结果一致，但都不是测试样本的真实CNV情况。

①软件PANELCN.MOPS的覆盖度校正结果如图6所示，测试样本TSC2基因的部分区间出现了DEL，TSC2基因余下部分和整个TSC1基因都发生了DUP，如上述基因覆盖度校正方式三。图中test为测试样本，control1-control10是10个不同批次的对照样本。

②软件CNVKIT的覆盖度校正结果如图7所示，测试样本TSC2基因的部分区间出现了DEL，TSC2基因余下部分和整个TSC1基因都发生了DUP，如上述基因覆盖度校正方式三。图中test为测试样本，control1-control10是10个不同批次的对照样本。

③为了排除是样本间批次效应导致的校正误差，特别选择了与测试样本同一批次上机测序的2个样本作为对照，用①中相同的分析流程检测测试样本的TSC基因拷贝数，结果发现检测结果出现了与多对照样本相同的CNV，如图8所示，即都是在TSC2基因部分区间出现了DEL，TSC2基因余下部分和整个TSC1基因都发生了DUP。图中test为测试样本，control1和control2是2个同一批次的对照样本。

4.1.4软件PANELCN.MOPS的Normalization方法在CNV长度较小时是没有问题的，但是随着CNV长度的增加，其计算的覆盖度比值会增加，在测试样本中这将导致DUP假阳性。如图9所示，Normalization之后的测试样本(随机选择3个DEL长度依次增大的样本作为测试样本，分别是test2、test3、test4)校正后覆盖度和对照样本(图中的control样本)校正后覆盖度比值，当无CNV时应该在1附近；1拷贝删除时应在0.5附近；1拷贝重复时，在1.5附近。从图9中可以发现，当CNV区间较长时，软件PANELCN.MOPS标准化后的覆盖度会出现变化。当TSC2基因只发生exon23-26的DEL时，测试样本test2和对照样本标准化后的覆盖度非常吻合；当TSC2基因只发生exon1-15的DEL时，测试样本test3和对照样本标准化后的覆盖度出现了分离，但是分离幅度还在拷贝数变化范围内；当TSC2基因只发生exon1-30的DEL时，测试样本test4和对照样本标准化后的覆盖度出现了明显分离，导致检测到的拷贝数出现了DUP的假阳性。

测试样本的这个CNV在使用CNV检测软件时发生的假阳性是由于DEL过长或者说PANEL过小造成的，导致软件无法根据对照样本和测试样本的coverage数据覆盖度生成正确的CNV信号值。图10是CNVKIT软件Normalization之后的测试样本校正后覆盖度和对照样本校正后覆盖度比值示意图，结果与PANELCN.MOPS软件的结果类似。

4.2针对常规CNV检测方法问题的原因分析。

大型拷贝数变异的存在会对测序数据在Panel设计区域上的分布发生明显变化，破坏存在拷贝数变异的目标样本与不存在拷贝数变异的参考样本间的覆盖度相关性，从而对拷贝数变异的检测造成困难。如图11所示，由于TSC基因Panel中仅含有TSC1基因和TSC2基因，当TSC2基因出现长度占Panel总覆盖区间长度的比例过大的CNV时(大于Panel总覆盖区间长度的20％)，reads的覆盖度信号出现异常，导致假阳性DUP出现。

4.3针对常规CNV检测方法问题的解决方案。

在Panel中增加对照基因(不是增加对照样本)，增长panel数据覆盖基因组的总长度，使得Normalization算法可以准确地对齐。这种对齐是基于“基因组变异的部分应当远小于正常的部分”的假设的。使用这种方法后能够正确检出TSC基因的CNV。

4.3.1解决方案的原理：在Panel中增加对照基因后，“正常拷贝数”的基因组区域延长，使得“基因组变异的部分应当远小于正常的部分”的假设成立，在使用CNV软件检测时，算法可以准确对齐。如图12所示。

4.3.2使用真实数据验证解决方案可行性论述：

(1)向Panel数据中添加2个对照基因(TFRC和HPRT1，分别对应图13中的Control-Gene1和Control-Gene2，图13中为示意图，不代表基因的真实长度)，并计算reads覆盖度，使用常规的CNV检测方法分析TSC1基因和TSC2基因的拷贝数；增加2个对照基因后，使得TSC2的DEL不再是“主要”的。

(2)表3是使用1个测试样本和10个对照样本的覆盖度统计的相关性。统计测试样本和对照样本之间覆盖度的相关性，发现增加对照基因后的相关性明显高于未增加对照基因的，说明本发明中采用增加对照基因的方法是可以消除样本间因各种因素导致的覆盖度波动性的，从而间接增加真实CNV的检出率。

表3测试样本和对照样本覆盖度的相关性值

(3)使用软件PANELCN.MOPS检测增加对照基因后的测试样本的TSC基因拷贝数，如图14所示，增加对照基因后仅仅是exon1-exon30发生了DEL，对应的拷贝数是1，其他区域的拷贝数是2，这与真实结果相符。而无对照基因(图中的原版panel)时，TSC1基因出现了假阳性的DUP。

(4)同样使用软件CNVKIT检测，发现增加对照基因后的假阳性也被消除。如表4中的结果，未增加对照基因时，TSC1基因的拷贝数是3，出现了假阳性DUP；TSC2基因的chr16:2047984-2088720区域的拷贝数是1，出现了DEL；当增加了对照基因后，TSC1基因的假阳性DUP被消除，拷贝数恢复到了2拷贝，TSC2基因的chr16:2047984-2088720区域的DEL也被正常检测出。因此，增加对照基因后，CNVKIT软件也能够正确识别真实的CNV。

表4增加对照基因后CNVKIT软件的检测结果

表头说明：

chromosome、start、end：表示区间坐标

cn：表示软件检测出的拷贝数；2表示二拷贝，即拷贝数正常；1表示单拷贝即拷贝数缺失，发生了DEL；3表示三拷贝，即拷贝数增加，发生了DUP

probes：表示探针数量

Gene：表示基因名称

本发明通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因(如常见的管家基因)，使得加入对照基因后预计出现的最大CNV区间占Panel总设计长度的的比例变小，优选小于Panel总设计长度的20％(根据经验值把阈值设置为20％)，从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响，使得大型CNV可以被正常检出。

如图15所示，通过在Panel中增加对照基因，使对照基因总长度与Panel待检测基因总长度相当或数倍于待检测基因总长度，即便待检测基因中出现了长CNV(CNV长度大于待检测基因总长度的20％)，在进行CNV检测时也可以避免reads覆盖度信号异常的情况，避免假阳性。

如图16所示，通过在Panel中增加对照基因，使对照基因总长度与Panel待检测基因总长度相当或数倍于待检测基因总长度，即便待检测基因中出现了整个待检测基因的CNV(TSC1基因和TSC2基因同时发生DEL)，在进行CNV检测时也可以避免reads覆盖度信号异常的情况，避免假阳性。

Claims

1.一种改善小PANEL数据中大型CNV检测效果的方法，其特征在于，通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因，使得加入对照基因后预计出现的CNV区间小于Panel总设计长度的20%，从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响，使得大型CNV可以被正常检出；其中，所述对照基因为管家基因，所述管家基因为完整基因；对照基因总长度和待检测基因总长度相当，或者数倍于待检测基因总长。