CN111180013A

CN111180013A - 检测血液病融合基因的装置

Info

Publication number: CN111180013A
Application number: CN201911339846.7A
Authority: CN
Inventors: 张萌萌; 郭璟; 楼峰; 曹善柏
Original assignee: Beijing Xiangxin Medical Technology Co Ltd; Tianjin Xiangxin Biotechnology Co Ltd; Beijing Xiangxin Biotechnology Co Ltd
Current assignee: Beijing Xiangxin Medical Technology Co Ltd; Tianjin Xiangxin Biotechnology Co Ltd; Beijing Xiangxin Biotechnology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-19
Anticipated expiration: 2039-12-23
Also published as: CN111180013B

Abstract

本发明公开了一种检测血液病融合基因的装置。该装置包括：测序模块，用于通过二代测序获得肿瘤样本的测序数据；数据预处理模块，用于将测序模块中获得的测序数据进行预处理；候选k‑mers识别模块，用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k‑mers进行识别；局部组装比对识别融合模式模块，用于提取肿瘤样本的候选k‑mers集合所在的reads以及其配对reads进行局部组装获取contigs；融合基因可信度预测模块，用于对融合基因可信度进行预测；以及融合结果注释模块，用于将融合基因可信度预测模块中得到的断点分别注释。应用本发明的技术方案，能够精准识别多个基因的多种融合变异类型。

Description

检测血液病融合基因的装置

技术领域

本发明涉及生物学技术领域，具体而言，涉及一种检测血液病融合基因的装置。

背景技术

人类基因组由23对染色体组成，其中包括22对体染色体、1条X染色体和1条Y染色体，基因组共含有约30亿个DNA碱基对，其中包含约2.5万个基因，这些基因各自行使不同的功能。融合基因是指在自然或外援环境因素影响下，基因组中原本不相邻的两个基因进行了拼接，形成了新的基因片段。融合基因的发生往往导致序列异常或蛋白质功能异常，进而导致或促进肿瘤的发生发展。人类的许多疾病都有可能是基因融合引起的，包括一些遗传病、癌症以及血液肿瘤，某些基因融合是血液肿瘤的重要临床特征和预后因素。

血液肿瘤中，有多种基因融合在疾病的发生发展中起到重要的作用，BCR-ABL1融合在95％的成人慢性髓系白血病(CML)患者，20-25％的儿童急性淋巴细胞白血病(AML)患者中被检测到，被应用于慢性髓系白血病患者的临床诊断和疾病亚型分类，酪氨酸激酶抑制剂(TKI)可以有效抑制CML患者中融合BCR-ABL1融合蛋白的活性，IRIS临床研究推荐了伊马替尼作为CML的一线治疗，证实了BCR-ABL1检测以及MRD监测对于CML诊断和治疗的重要性；携带RUNX1-RUNX1T1融合的AML患者经常显现特有的临床病理特征，这类患者往往具有较好的预后生存；PML-RARA融合基因在急性早幼粒细胞白血病的发病机制中扮演重要角色。

二代测序技术(Next-Generation Sequencing)又称下一代测序技术，其核心思想是边合成边测序，可同时对几十G到几百G的数据进行测序。近年来随着二代测序技术的快速发展，逐渐应用于血液肿瘤方向的临床医学检测和科学研究。目标序列捕获可以有选择性的分离或富集基因组特定的片段，因此可以利用更低的成本获取更高的测序深度，为低频检测，大数据积累等奠定了良好的基础。基于二代测序技术获取的数据，可以一次性同时进行单核苷酸变异(single nucleotide variation)、短序列插入和缺失(shortinsertion and deletion)、拷贝数变异(copy number variation)和基因融合(Fusion)等多种变异检测。基于目标区域捕获测序获取数据，可以利用算法或软件，对测序数据进行检测，同时获取多个基因的多种变异信息。

现有的血液肿瘤融合检测方法大部分基于多重PCR或者凝胶电泳技术对RNA模版进行反转录扩增来确定融合基因类型。首先多重PCR或者凝胶电泳技术只能检测已知的设计好的融合类型，对于没有设计引物的融合类型无法检测；其次，相对双链的DNA来说，样本的RNA已单链形式存在，半衰期短容易降解，因此更加的不稳定，那么样本的保存和运输都会存在一定的难度。

学习是人类具有的一种重要的智能行为。在1996年Langley定义了机器学习(Machine learning)是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习的发展主要经历了3个阶段，80年代，感知机和神经网络为代表性的方法；90年代，统计学习逐渐迎来春天，比如支持向量机、贝叶斯算法和随机森林等成为当时的主流应用方法；进入21世纪以后，深度神经网络被提出，随着计算技术的迅猛发展，大数据的快速积累，数据量和计算能力不断提升，以深度学习为基础的各大AI应用逐渐崭露头角。

发明内容

本发明旨在提供一种检测血液病融合基因的装置，以利用二代测序技术进行融合基因高通量检测，识别多个基因的多种融合变异类型。

为了实现上述目的，根据本发明的一个方面，提供了一种检测血液病融合基因的装置。该装置包括：测序模块，用于通过二代测序获得肿瘤样本的测序数据；数据预处理模块，用于将测序模块中获得的测序数据进行预处理，去除非基因组测序数据得到基因组数据，并将基因组数据与参考基因组进行比对排序；候选k-mers识别模块，用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别，获得特异存在于肿瘤样本的候选k-mers集合；局部组装比对识别融合模式模块，用于提取肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs，识别contigs在染色体上的绝对位置；融合基因可信度预测模块，用于利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点；以及融合结果注释模块，用于将融合基因可信度预测模块中得到的断点分别注释，获取到断点所在的基因以及外显子或内含子区域，得到融合模式注释。

进一步地，测序模块检测文库为杂交捕获得到的测序文库，测序文库包括下表所示的区域：

进一步地，数据预处理模块包括：数据预处理子模块，用于去除测序数据中的接头序列数据和低质量数据，得到基因组数据；比对排序子模块，用于将基因组数据与参考基因组进行比对并排序，获取比对结果，数据格式为bam；以及重复读取数据去除子模块，用于将比对排序子模块中得到的bam文件进行重复读取数据识别，去除重复读取数据，得到经过数据预处理模块处理的测序数据。

进一步地，候选k-mers识别模块，用于以模式增长的方式进行k-mers识别，假设给定一个长度为N的序列M，k-mer代表长度为k的序列，k-mer是M的子序列，一个序列R如果包含断点，则会有最多k-1个跨越断点的k-mers，分别针对参考基因组、肿瘤样本的所有reads进行候选k-mers识别，获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。

进一步地，局部组装比对识别融合模式模块中使用BWA-mem进行比对识别contigs在染色体上的绝对位置。

进一步地，融合基因可信度预测模块包括：特征选择子模块，用于特征的设定；随机森林定量模型子模块，用于利用特征选择子模块中设定的特征训练随机森林定量模型，并利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点。

进一步地，特征选择子模块中设定的特征包括：融合左右断点位置、融合左右长度、融合序列特征、融合周围序列特征、NGS融合检测频率、融合所在重复读取数据readsduplication比率、融合所在位置测序深度和融合序列比对质量。

进一步地，随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如下：

Gain(A)＝Info(D)-Info_A(D)

其中，D为数据集，i＝{1,2,...,m}，p_i为任意样本分类C_i的概率，C_i为某分类标号；A为属性，信息增益大的优先选择的属性。

进一步地，随机森林定量模型子模块中执行如下命令：a.训练集样本量定义为N，采用Bootstrap sampling随机选取n个样本，其中n∈N；b.属性集合定义为K，随机选取k个属性，采用上述公式确定属性和构建决策树，其中k∈K；c.重复步骤a和步骤b m次，建立m颗决策树；d.应用决策树集合形成随机森林投票获取分类预测结果。

应用本发明的技术方案，输入高通量测序数据，通过识别可能包含断点候选k-mers，建立序列簇，对每一个簇进行局部组装的方式，获得候选融合基因集合，之后通过输入经过训练的随机森林模型，准确判断出高度可信的融合基因，能够精准识别多个基因的多种融合变异类型。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明一实施方式的检测血液病融合基因的装置的命令执行流程图；以及

图2示出了实施例1中检测到的融合的可视化结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

根据本发明一种典型的实施方式，提供一种检测血液病融合基因的装置。该装置包括测序模块、数据预处理模块、候选k-mers识别模块、局部组装比对识别融合模式模块、融合基因可信度预测模块和融合结果注释模块，其中，测序模块用于通过二代测序获得肿瘤样本的测序数据；数据预处理模块用于将测序模块中获得的测序数据进行预处理，去除非基因组测序数据得到基因组数据，并将基因组数据与参考基因组进行比对排序；候选k-mers识别模块用于对经过数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别，获得特异存在于肿瘤样本的候选k-mers集合；局部组装比对识别融合模式模块用于提取肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs，识别contigs在染色体上的绝对位置；融合基因可信度预测模块用于利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点；融合结果注释模块用于将融合基因可信度预测模块中得到的断点分别注释，获取到断点所在的基因以及外显子或内含子区域，得到融合模式注释。

通过对cosmic、chimerDB等开源数据库进行融合模式调研，发明人设计捕获了如下表1所示的区域，芯片内的任意融合模式均可被检测到：

表1

根据本发明一种典型的实施方式，数据预处理模块包括数据预处理子模块、比对排序子模块和重复读取数据去除子模块，其中，数据预处理子模块用于去除测序数据中的接头序列数据和低质量数据(本申请中，低质量数据是指序列含N量>5或序列中Q15以下碱基占比>40％)，得到基因组数据；比对排序子模块用于将基因组数据与参考基因组进行比对并排序，获取比对结果，数据格式为bam；重复读取数据去除子模块用于将比对排序子模块中得到的bam文件进行重复读取数据识别，去除重复读取数据，得到经过数据预处理模块处理的测序数据。经过上述预处理的基因组数据能够为后续数据的分析提供更加准确的数据分析基础，提高最总基因融合检测的准确率。

优选的，候选k-mers识别模块，用于以模式增长的方式进行k-mers识别，假设给定一个长度为N的序列M，k-mer代表长度为k的序列，k-mer是M的子序列，一个序列R如果包含断点，则会有最多k-1个跨越断点的k-mers，分别针对参考基因组、肿瘤样本的所有reads进行候选k-mers识别，获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。因为基因融合是原本不相邻的基因区段连接到一起，所以通过候选k-mers识别模块可以进行分离读取(split read)和断点来寻找可能是发生了融合的候选区域。

在本发明一种典型的实施方式中，局部组装比对识别融合模式模块中使用BWA-mem进行比对识别contigs在染色体上的绝对位置。

根据本发明一种典型的实施方式，融合基因可信度预测模块包括特征选择子模块和随机森林定量模型子模块，其中，特征选择子模块用于特征的设定；随机森林定量模型子模块用于利用特征选择子模块中设定的特征训练随机森林定量模型并利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点。

典型的，特征选择子模块中设定的特征包括：融合左右断点位置、融合左右长度、融合序列特征(即检测到的k-mers序列)、融合周围序列特征(例如：临近末端位置的5bp序列)、NGS融合检测频率、融合所在重复读取数据(reads duplication)比率(其中，duplication是指由于PCR扩增引入的重复序列)、融合所在位置测序深度和融合序列比对质量，从而可以从多个角度来帮助识别融合的可信度。

优选的，随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如下：

Gain(A)＝Info(D)-Info_A(D)

构建肿瘤筛查模型进行样本预测是属于监督学习中的分类问题，本发明中选取的某些特征之间可能存在一定的关联性；随机森林算法中对于抽样和构建决策树过程随机性的引入，使得算法不易陷入过拟合以及具有更好的抗噪能力；并且采取随机森林算法可以进行特征选择，所以，特别适合用于构建肿瘤筛查模型。上述随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如上，可以提高融合基因可信度预测模块预测的准确。

根据本发明一种典型的实施方式，随机森林定量模型子模块中执行如下命令：a.训练集样本量定义为N，采用Bootstrap sampling随机选取n个样本，其中n∈N；b.属性集合定义为K，随机选取k个属性，采用上述公式确定属性和构建决策树，其中k∈K；c.重复步骤a和步骤b m次，根据需求建立m颗决策树；d.应用决策树集合形成随机森林投票获取分类预测结果。随机森林定量模型子模块中执行如下命令可以提高分类预测的准确性。

下面将结合实施例进一步说明本发明的有益效果，下列实施例中未详细写明的技术手段或试剂，均可采用本领域常规的技术手段或试剂实现，不影响技术方案的最终结果。

实施例1

样本：已知样本，临床检测到BCR-ABL1融合阳性。

运用本发明的装置(执行命令参考图1所示)：

1.输入数据为二代测序下机原始数据，数据格式为fastq。

1)对原始下机数据进行预处理，包括去除adapter，低质量数据(序列含N量>5或序列中Q15以下碱基占比>40％)。

2)对处理后原始下机数据与参考基因组进行比对并排序，获取比对结果，数据格式为bam。

3)对bam文件进行duplication reads识别，去除duplication reads。

2.对处理后比对数据识别可能包含断点的候选k-mers。

以模式增长的方式进行k-mers识别，假设给定一个长度为N的序列M，k-mer是指长度为k的序列，这个序列是M的子序列(k<L)，一个序列R如果包含断点，就会有最多k-1个跨越断点的k-mers，分别针对人类参考基因组、待检的肿瘤样本(如果有配对的正常样本也包含在内)的所有reads进行候选k-mers识别，最终特异存在于肿瘤样本的就是候选的k-mers集合。

3.局部组装比对识别融合模式

提取每一个k-mers集合所在的reads以及其配对reads，利用这样的集合进行局部组装获取contigs，每个contig使用BWA-mem进行比对，识别这一融合模式在染色体上的绝对位置。

4.融合基因可信度预测

1)特征选择：

a.融合左右断点位置

b.融合左右长度

c.融合序列特征

d.融合周围序列特征

e.NGS融合检测频率

f.融合所在reads duplication比率

g.融合所在位置测序深度

h.融合序列比对质量

2)随机森林定量模型

信息增益进行属性选择：

Cain(A)＝Info(D)-Info_A(D)

其中，D为数据集，i＝{1,2,...,m}，p_i为任意样本分类C_i的概率，C_i为某分类标号。A为属性，信息增益大的优先选择的属性。

a.训练集样本量定义为N，采用Bootstrap sampling随机选取n个样本，其中n∈N。

b.属性集合定义为K，随机选取k个属性，采用上述公式确定属性和构建决策树，其中k∈K。

c.重复以上两步m次，建立m颗决策树。

d.应用决策树集合形成随机森林投票获取分类预测结果。

5.融合结果注释

将上述得到的断点分别注释，获取到断点所在的基因以及外显子或内含子区域，得到融合模式注释。

利用上述算法，对融合阳性已知样本进行检测，结果如下表2所示：

表2

图2是对表2中检测到的融合的可视化结果图。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测血液病融合基因的装置，其特征在于，包括：

测序模块，用于通过二代测序获得肿瘤样本的测序数据；

数据预处理模块，用于将所述测序模块中获得的测序数据进行预处理，去除非基因组测序数据得到基因组数据，并将所述基因组数据与参考基因组进行比对排序；

候选k-mers识别模块，用于对经过所述数据预处理模块处理的测序数据进行可能包括断点的候选k-mers进行识别，获得特异存在于肿瘤样本的候选k-mers集合；

局部组装比对识别融合模式模块，用于提取所述肿瘤样本的候选k-mers集合所在的reads以及其配对reads进行局部组装获取contigs，识别所述contigs在染色体上的绝对位置；

融合基因可信度预测模块，用于利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点；以及

融合结果注释模块，用于将所述融合基因可信度预测模块中得到的断点分别注释，获取到断点所在的基因以及外显子或内含子区域，得到融合模式注释。

2.根据权利要求1所述的装置，其特征在于，所述测序模块检测文库为杂交捕获得到的测序文库，所述测序文库包括下表所示的区域：

3.根据权利要求1所述的装置，其特征在于，所述数据预处理模块包括：

数据预处理子模块，用于去除所述测序数据中的接头序列数据和低质量数据，得到所述基因组数据；

比对排序子模块，用于将所述基因组数据与参考基因组进行比对并排序，获取比对结果，数据格式为bam；以及

重复读取数据去除子模块，用于将所述比对排序子模块中得到的bam文件进行重复读取数据识别，去除重复读取数据，得到经过所述数据预处理模块处理的测序数据。

4.根据权利要求1所述的装置，其特征在于，所述候选k-mers识别模块，用于以模式增长的方式进行k-mers识别，假设给定一个长度为N的序列M，k-mer代表长度为k的序列，所述k-mer是M的子序列，一个序列R如果包含断点，则会有最多k-1个跨越断点的k-mers，分别针对所述参考基因组、所述肿瘤样本的所有reads进行候选k-mers识别，获得特异存在于肿瘤样本的k-mers就是候选k-mers集合。

5.根据权利要求1所述的装置，其特征在于，所述局部组装比对识别融合模式模块中使用BWA-mem进行比对识别所述contigs在染色体上的绝对位置。

6.根据权利要求1所述的装置，其特征在于，所述融合基因可信度预测模块包括：

特征选择子模块，用于特征的设定；

随机森林定量模型子模块，用于利用所述特征选择子模块中设定的特征训练随机森林定量模型，并利用经过训练的随机森林定量模型对融合基因可信度进行预测，确定断点。

7.根据权利要求6所述的装置，其特征在于，所述特征选择子模块中设定的特征包括：融合左右断点位置、融合左右长度、融合序列特征、融合周围序列特征、NGS融合检测频率、融合所在重复读取数据比率、融合所在位置测序深度和融合序列比对质量。

8.根据权利要求6所述的装置，其特征在于，所述随机森林定量模型子模块中随机森林定量模型的信息增益进行属性选择如下：

Gain(A)＝Info(D)-Info_A(D)

9.根据权利要求8所述的装置，其特征在于，所述随机森林定量模型子模块中执行如下命令：

a.训练集样本量定义为N，采用Bootstrap sampling随机选取n个样本，其中n∈N；

b.属性集合定义为K，随机选取k个属性，采用权利要求8中所示的公式确定属性和构建决策树，其中k∈K；

c.重复所述步骤a和步骤b m次，建立m颗决策树；

d.应用决策树集合形成随机森林投票获取分类预测结果。