CN113257353B

CN113257353B - 基于reads深度进行目的基因外显子水平缺失检测的方法及装置

Info

Publication number: CN113257353B
Application number: CN202110707070.0A
Authority: CN
Inventors: 曹善柏; 马纪香; 王晓林; 张萌萌; 郭璟; 孙宏; 楼峰
Original assignee: Tianjin Xiangxin Biotechnology Co ltd; Tianjin Xiangxin Medical Instrument Co ltd; Beijing Xiangxin Biotechnology Co ltd
Current assignee: Tianjin Xiangxin Biotechnology Co ltd; Tianjin Xiangxin Medical Instrument Co ltd; Beijing Xiangxin Biotechnology Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-10-15
Anticipated expiration: 2041-06-24
Also published as: CN113257353A

Abstract

本发明公开了一种基于reads深度进行目的基因外显子水平缺失检测的方法及装置。该方法包括：S1，将参考基因组划分为多个bin，将reads比对到参考基因组上，并分别计算target区域和off‑target区域的每个bin内的平均reads深度和深度的log2值；S2，合并target区域和off‑target区域reads深度统计，并将其标准化；S3，对S2中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据第二阈值进行定义目的基因的缺失状态。应用本发明的技术方案，能够对目的基因外显子水平的缺失进行检测，还可以精确的检测出目的基因是杂合缺失或者是纯合缺失。

Description

基于reads深度进行目的基因外显子水平缺失检测的方法及装置

技术领域

本发明涉及生物技术领域，具体而言，涉及一种基于reads深度进行目的基因外显子水平缺失检测的方法及装置。

背景技术

IKZF1最常见的变异类型是大片段缺失，大多数情况下会导致IKZF1蛋白功能异常，不同外显子缺失导致不同异构体的形成。IKZF1基因缺失常见于B-ALL患者，尤其常见于Ph阳性ALL患者和Ph样(Ph-like)ALL患者，在儿童患者发生率约为15%，在成人患者发生率约为40%。大部分研究认为存在IKZF1基因缺失的B-ALL患者预后不良，这一不良预后影响也存在于接受伊马替尼治疗的Ph阳性ALL患者。根据国内外对IKZF1大量的研究，目前认为IKZF1为儿童ALL重要不良预后因素，而且这一指标已被纳入中国儿童ALL诊疗建议及NCCN指南。

有越来越多的证据表明，BCP-ALL中存在的复发性染色体畸变（例如BCR-ABL1融合或CRLF2重排）驱动白血病早期的发生发展。在BCR-ABL1阳性和CRLF2重排的BCP-ALL中经常观察到基因损伤导致淋巴样转录因子IKZF1失活。BCR-ABL1阳性和CRLF2重排的BCP-ALL与JAK1和JAK2激活突变相关。同样，IKZF1变异在具有激酶激活损伤的BCR-ABL1样ALL发生率较高，其中涉及ABL1/ ABL2，CSF1R，EPOR，JAK2和PDGFRB的重排，或影响FLT3，IL7R或SH2B3突变。总体而言，这些发现表明IKZF1功能的丧失与活化的酪氨酸激酶信号通路密切相关，后者与祖细胞B细胞增殖不凋亡有关。另外，IKZF1基因缺失和突变导致IKZF1功能丧失，从而影响多种途径，包括前B细胞受体信号转导，细胞粘附和增殖，代谢途径以及信号转导子和细胞表面受体。

目前临床上检测IKZF1缺失使用的方法多为多重连接探针依赖性扩增（MLPA）技术和比较基因组杂交技术（comparative genomic hybridization, CGH）。比较基因组杂交技术（comparative genomic hybridization, CGH）是检测DNA拷贝数的分子细胞遗传学方法，是检测整个基因重排情况的有效方法，但并不能检测出拷贝数正常的染色体突变类型。多重链接依赖探针扩增技术（multiplex ligation-dependent drobe amplification,MLPA）是应用最广泛的检测基因DNA序列拷贝数异常的方法，是检测IKZF1外显子水平的缺失最常用的方法。

随着高通量测序技术的发展，NGS技术可以一次测序同时实现点突变、缺失等多维度变异类型的检测。亟待开发基于测序技术的外显子水平缺失检测方法。

发明内容

本发明旨在提供一种基于reads深度进行目的基因外显子水平缺失检测的方法及装置，以提供一种能够准确检测目的基因外显子水平的缺失的方法或装置。

为了实现上述目的，根据本发明的一个方面，提供了一种基于reads深度进行目的基因外显子水平缺失检测的方法。该方法包括：S1，将参考基因组划分为多个bin，根据目的基因分为target区域的bin和off-target区域的bin，将reads比对到参考基因组上，并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；S2，合并target区域和off-target区域reads深度统计，并将其标准化；S3，对S2中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据第二阈值进行定义目的基因的缺失状态。

进一步地，基于reads深度进行目的基因外显子水平缺失检测的方法还包括：S4，筛选划分不同bin中的目的基因的区域，进行过滤其他bin，合并目的基因的检测结果，利用标准化后的reads深度分布进行可视化展示。

进一步地，bin为外显子水平的bin。

进一步地，S2中的标准化包括：利用搭建好的PON数据库进行标准化，校正测序基因组GC含量和重复序列从而校正bin 深度。

进一步地，PON数据库是用N个健康人比对软件的输出结果Bam文件构建的，包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和外显子边界深度的正态分布情况，N≥20。

进一步地，S2中的标准化中，利用如下公式校正bin深度，减去PON数据库的深度的log2值，滑动居中log2比率；

，其中，第i个bin标准化后的reads数量定义为Ai，Ci是血液样本数据中第i个bin中的read的数量，M是具有正常拷贝数的bin的预期reads计数，αi为GC不同含量评估值，βi为mappability评估值。

进一步地，目的基因为IKZF1，S3中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括：Log2值小于-1.1定义为cn=0，为纯合缺失；Log2值小于-0.4定义为cn=1，为杂合缺失；Log2值为-0.4到0.7 是正常范围。

根据本发明的另一个方面，提供一种基于reads深度进行目的基因外显子水平缺失检测的装置。该装置包括：reads深度计算模块，设置为将参考基因组划分为多个bin，分为target区域的bin和off-target区域的bin，将reads比对到参考基因组上，并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；标准化模块，设置为合并target区域和off-target区域reads深度统计，并将其标准化；判断模块，设置为对标准化模块中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据第二阈值进行定义目的基因的缺失状态。

进一步地，装置还包：可视化展示模块，设置为筛选划分不同bin中的目的基因的区域，进行过滤其他bin，合并目的基因的检测结果，利用标准化后的reads深度分布进行可视化展示。

进一步地，bin为外显子水平的bin。

进一步地，标准化模块中的标准化包括：利用搭建好的PON数据库进行标准化，校正测序基因组GC含量和重复序列从而校正bin 深度。

进一步地，PON数据库是用N个人健康人比对软件的输出结果Bam文件构建的，包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和外显子边界深度的正态分布情况，N≥20。

进一步地，标准化模块中，利用如下公式校正bin深度，减去PON数据库的深度的log2值，滑动居中log2比率；

，其中，第i个bin标准化后的reads数量定义为Ai，Ci是血液样本数据中第i个bin中的read的数量，M是具有正常拷贝数的bin的预期reads计数,αi为GC不同含量评估值，βi为mappability评估值。

进一步地，目的基因为IKZF1，判断模块中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括：Log2值小于-1.1定义为cn=0，为纯合缺失；Log2值小于-0.4定义为cn=1，为杂合缺失；Log2值为-0.4到0.7 是正常范围。

应用本发明的技术方案，能够对目的基因外显子水平的缺失进行检测，还可以精确的检测出目的基因是杂合缺失或者是纯合缺失，并可以进一步将最终结果即目的基因基因的不同外显子缺失水平进行可视化，使结果更加清晰明了。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明一实施方式的基于reads深度进行目的基因外显子水平缺失检测的方法的流程示意图；

图2示出了实施例1中每一个样本结果的可视化展示示意图；以及

图3示出了实施例1的ROC曲线。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

名词解释

IKZF1：IKZF1基因编码转录因子IKAROS，在淋巴细胞的分化和发育过程中起着重要的调控作用，IKZF1基因位于7号染色体的短臂上7p12.2，它由8个外显子组成，编码519个氨基酸，外显子4到6编码四个N末端与DNA结合的锌指，而外显子8则带有两个C端结构域锌指，对于同二聚或异源二聚化是必需的。

B-ALL：B细胞急性淋巴细胞白血病。

DNA panel：DNA的靶向杂交捕获测序。

NGS技术：高通量测序（High-Throughput Sequencing）又名下一代测序（NextGeneration Sequencing，NGS），是相对于传统的桑格测序（Sanger Sequencing）而言的，目前高通量测序的主要平台代表有罗氏公司（Roche）的454测序仪（Roch GS FLXsequencer），Illumina公司的Solexa基因组分析仪（Illumina Genome Analyzer）和ABI的SOLiD测序仪（ABI SOLiD sequencer）。

hg19 fasta：人类参考基因组，版本是hg19，本申请中又记为参考基因组fa。

target bed（本申请中又叫target区域）：一种bed格式文件，是DNA的靶向杂交捕获区域。

off-target bed（本申请中又叫off-target区域）：一种bed格式文件，是非DNA的靶向杂交捕获区域。

Bwa：输入fastq输出Bam文件的一款比对软件。

测序深度或者覆盖度（coverage or depth）是指参考序列一个碱基上比对的reads的数目；计算公式为：测序深度= reads长度×比对的reads数目/参考序列长度。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式例如能够以除了在这里描述的那些以外的顺序实施。

本发明的是一种基于测序reads深度，利用健康人数据搭建PON数据库进行检测目的基因外显子缺失的方法，主要包括：在DNA panel 芯片测序中基于测序深度进行的缺失检测，为了有更高的灵敏度和特异性，通过hg19 fasta 和target bed获得off-target 区域。同时使用目标区域的reads和非特异捕获的非目标区域的reads来推断整个基因组中的缺失或扩增状态（大量的非目标区域DNA保留在文库中，这些DNA被测序并代表了相当大一部分的reads），因此，除了在目标区域获得的高覆盖测序外，非目标区域reads提供了整个基因组的低覆盖测序。虽然单靠非目标区域的reads不能提供足够的覆盖率来证明单核苷酸变异（SNVs）和其他小的变异（small variants，indel，CNV），但它们可以在更大范围内提供关于拷贝数的有用信息。

利用健康人数据对target bed区域和off-target 区域进行划分bin上的reads平均深度统计，并且根据fasta统计序列GC，序列重复情况打分，得到PON数据库。如果没有健康人数据搭建的PON数据库，也可以使用患者的配对样本来进行矫正标准化肿瘤样本的数据，只是没有人群平均值统计，因而检测结果相比搭建PON数据库略差。

根据本发明一种典型的实施方式，以IKZF1基因为例，参考图1：

首先，第一步将基因组划分为多个bin，分为target区域的bin和off-target区域的bin，将read比对到参考基因组上，并分别计算使用target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；

其次，合并target区域和off-target区域reads深度统计，并将其标准化。在本发明一典型的实施方式中，标准化主要是利用搭建好的PON数据库进行标准化，来矫正基因组GC含量、重复序列，矫正外显子边界深度呈正态分布带来的影响，矫正bin深度。又如，在本发明一实施例中，PON数据库是用26个人健康人bwa软件的输出结果Bam文件构建的一套包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列、外显子边界深度呈正态分布。利用如下公式矫正Bin depth，减去reference的深度的log2值，滑动居中log2比率。

，第i个bin标准化后的read数量定义为Ai，Ci是血液样本数据中第i个bin中的read的数量，M是具有正常拷贝数的bin的预期read计数，例如所有bin的中位数。分母为相同GC含量，相同mappability bin的中值。

最后，第三步对标准化的结果根据阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据不同阈值进行定义是杂合缺失还是纯合缺失。Log2值小于-1.1定义为cn=0,为纯合缺失，Log2值小于-0.4定义为cn=1，为杂合缺失。Log2值为-0.4到0.7 是正常范围。筛选划分好不同bin中的IKZF1的区域，进行过滤其他Bin，合并IKZF1的结果，并且利用矫正后的深度分布进行可视化展示。

为了更方便上述方法的实施，本发明还提供了一种基于reads深度进行目的基因外显子水平缺失检测的装置。

reads深度计算模块，设置为将参考基因组划分为多个bin，分为target区域的bin和off-target区域的bin，将reads比对到参考基因组上，并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；

标准化模块，设置为合并target区域和off-target区域reads深度统计，并将其标准化；

判断模块，设置为对标准化模块中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据第二阈值进行定义目的基因的缺失状态。

优选的，装置还包：可视化展示模块，设置为筛选划分不同bin中的目的基因的区域，进行过滤其他bin，合并目的基因的检测结果，利用标准化后的reads深度分布进行可视化展示。其中，“目的基因的区域”是要报出缺失的基因，“target区域”是指芯片设计中测序捕获的区域，off-target指芯片设计中测序不捕获的区域，也就是说，“target区域”包含“目的基因的区域”。在本发明一实施例中，可以是先统计target区域和off-target区域，并合并，然后标准化之后再过滤其他Bin，只留下含有目的基因的bin。

在本发明一典型的实施方式中，bin为外显子水平的bin。

在本发明一典型的实施方式中，标准化模块中的标准化包括：利用搭建好的PON数据库进行标准化，校正测序基因组GC含量和重复序列，校正外显子边界深度呈正态分布带来的影响和校正bin 深度。也就是，校正测序数据由于GC含量不同、重复序列程度带来的影响。

优选的，PON数据库是用N个人健康人比对软件的输出结果Bam文件构建的，包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和外显子边界深度的正态分布情况，其中，N≥20。

优选的，标准化模块中，利用如下公式校正bin深度，减去PON数据库的深度的log2值，滑动居中log2比率；

，其中，第i个bin标准化后的reads数量定义为Ai，Ci是血液样本数据中第i个bin中的read的数量，M是具有正常拷贝数的bin的预期reads计数，αi为GC不同含量评估值，βi为mappability评估值，M_αiβi代表一个值，是相同GC含量，相同mappability的bins中的GC评估和mappability评估的合并的后取得中值。

在本发明一典型的实施方式中，目的基因为IKZF1，判断模块中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括：Log2值小于-1.1定义为cn=0，为纯合缺失；Log2值小于-0.4定义为cn=1，为杂合缺失；Log2值为-0.4到0.7 是正常范围。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

目标：对血液病的患者样本，尤其是儿童患者进行IKZF1缺失状态检测。

步骤：

1. 对30例没有送检配对样本的血液病患者，进行IKZF1 缺失状态的检测。

2. 对使用本文算法检测生成的中间输出文件作为输入，进行可视化展示。

3. 对这30例患者进行MLPA技术实验验证。

其中，IKZF1 缺失状态的检测主要包括以下步骤：

结果见表1：

结果文件第一列为样本名称，第二列为本算法检出的IKZF1不同外显子缺失状态结果，第三列为用MLPA技术实验验证的检测结果。

表1

对于传统的MLPA技术可以检测整个外显子是否有缺失或者重复，无法区分缺失是杂合缺失还是纯合缺失，所以上述结果的比较是基于整个外显子水平的缺失，不比较杂合纯合的一致性。

对每一个样本进行可视化展示，例如图2（图中从上之下第一条虚线和第二条虚线之间的样本表示阴性，第二条虚线之下的样本表示缺失阳性）。

ROC曲线如图3所示，可以得知AUC值为0.981，算法模型比较准确。

从以上的描述中，可以看出，本发明上述的实施例解决了如下技术问题：1）解决IKZF1外显子水平的缺失检测；2）可以检测出IKZF1是杂合缺失或者是纯合缺失；3）可视化展示IKZF1基因的不同外显子缺失水平图。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于reads深度进行目的基因外显子水平缺失检测的方法，其特征在于，包括：

S1，将参考基因组划分为多个bin，根据目的基因分为target区域的bin和off-target区域的bin，将reads比对到所述参考基因组上，并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；

S2，合并target区域和off-target区域reads深度统计，并将其标准化；

S3，对所述S2中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2值根据第二阈值进行定义目的基因的缺失状态；

所述S2中的标准化包括：利用搭建好的PON数据库进行标准化，校正测序基因组GC含量和重复序列从而校正bin 深度；

所述S2中的标准化中，利用如下公式校正bin深度，减去PON数据库的深度的log2值，滑动居中log2比率；

2.根据权利要求1所述的方法，其特征在于，所述基于reads深度进行目的基因外显子水平缺失检测的方法还包括：S4，筛选划分不同bin中的目的基因的区域，进行过滤其他bin，合并目的基因的检测结果，利用所述标准化后的reads深度分布进行可视化展示。

3.根据权利要求1所述的方法，其特征在于，所述bin为外显子水平的bin。

4.根据权利要求1所述的方法，其特征在于，所述PON数据库是用N个健康人比对软件的输出结果Bam文件构建的，包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和外显子边界深度的正态分布情况，所述N≥20。

5.根据权利要求1所述的方法，其特征在于，所述目的基因为IKZF1，所述S3中对于标准化后得到的log2值根据阈值进行定义目的基因的缺失状态包括：Log2值小于-1.1定义为cn=0，为纯合缺失；Log2值小于-0.4定义为cn=1，为杂合缺失；Log2值为-0.4到0.7是正常范围。

6.一种基于reads深度进行目的基因外显子水平缺失检测的装置，其特征在于，包括：

reads深度计算模块，设置为将参考基因组划分为多个bin，分为target区域的bin和off-target区域的bin，将reads比对到所述参考基因组上，并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值；

判断模块，设置为对所述标准化模块中标准化的结果根据第一阈值范围划分外显子水平的缺失结果，对于标准化后得到的log2根据第二阈值进行定义目的基因的缺失状态；

所述标准化模块中的标准化包括：利用搭建好的PON数据库进行标准化，校正测序基因组GC含量和重复序列从而校正bin 深度；

所述标准化模块中，利用如下公式校正bin深度，减去PON数据库的深度的log2值，滑动居中log2比率；

7.根据权利要求6所述的装置，其特征在于，所述装置还包：可视化展示模块，设置为筛选划分不同bin中的目的基因的区域，进行过滤其他bin，合并目的基因的检测结果，利用所述标准化后的reads深度分布进行可视化展示。

8.根据权利要求6所述的装置，其特征在于，所述bin为外显子水平的bin。

9.根据权利要求6所述的装置，其特征在于，所述PON数据库是用N个人健康人比对软件的输出结果Bam文件构建的，包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和外显子边界深度的正态分布情况，所述N≥20。

10.根据权利要求6所述的装置，其特征在于，所述目的基因为IKZF1，所述判断模块中对于标准化后得到的log2值根据阈值进行定义目的基因的缺失状态包括：Log2值小于-1.1定义为cn=0，为纯合缺失；Log2值小于-0.4定义为cn=1，为杂合缺失；Log2值为-0.4到0.7是正常范围。