CN115662520A

CN115662520A - Bcr/abl1融合基因的检测方法及相关设备

Info

Publication number: CN115662520A
Application number: CN202211324573.0A
Authority: CN
Inventors: 唐驻景; 孙明明; 赵纤纤; 邓俊豪; 胡昌明; 郭慈琳; 段学成; 张鹏博; 谢滨姣
Original assignee: Heilongjiang Jinyu Medical Laboratory Co ltd
Current assignee: Heilongjiang Jinyu Medical Laboratory Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-31
Anticipated expiration: 2042-10-27
Also published as: CN115662520B

Abstract

本发明实施例公开了一种BCR/ABL1融合基因的检测方法及相关设备，其中方法包括：将目标基因对应的各个序列片段比对到BCR/ABL1参考序列集得到各个初始融合点位和其对应的支持片段数；根据标准基因组和各个初始融合点位对应的各个序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和初始融合点位的筛选，得到筛选结果；根据序列片段的总数、筛选结果对应的各个序列片段及各个支持片段数计算目标片段支持频率和目标平均碱基质量；将目标片段支持频率和目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果。准确的预测融合对读码框的影响，预测了融合点位是否具有功能意义，提高结果的准确性。

Description

BCR/ABL1融合基因的检测方法及相关设备

技术领域

本发明涉及数字医疗技术领域，尤其涉及一种BCR/ABL1融合基因的检测方法及相关设备。

背景技术

BCR/ABL1融合基因是一种抗细胞凋亡的基因，具有高度酪氨酸激酶活性，使细胞过度增殖而使细胞调控发生紊乱。慢性粒细胞白血病(Chronic Myelogenous Leukemia，CML)是一种发生于造血干细胞的血液系统恶性克隆增生性疾病，在受累的细胞系中可找到Ph标记染色体(衍生的染色体)或/和BCR/ABL1融合基因的重排。传统检测基因融合的工具，例如Jan Schroder等人开发的Socrates，需要将基因进行全基因组比对，比对后的数据进行重比对，输出的结果较随机，由于序列存在重复区域，故在结果上无法给出确切的融合点位的信息，需要人工进行核对，并且无法预测融合对读码框的影响，输出的数据格式无法直接展示基因融合的功能意义，降低了结果的准确性。

发明内容

基于此，有必要针对现有的检测基因融合的工具，在结果上无法给出确切的融合点位的信息，需要人工进行核对，并且无法预测融合对读码框的影响，输出的数据格式无法直接展示基因融合的功能意义，降低了结果的准确性的技术问题，提出了一种BCR/ABL1融合基因的检测方法及相关设备。

一种BCR/ABL1融合基因的检测方法，所述方法包括：

将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数；

根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果；

根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量；

将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果。

进一步地，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，还包括：

采用二代测序技术，对所述目标基因进行测序，得到序列初始片段，其中，所述序列初始片段包括：碱基序列、碱基质量、片段名称和片段方向；

采用预设的格式转换工具，将每个所述序列初始片段的格式从fastq格式转换成fasta格式，得到所述序列片段。

进一步地，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，包括：

从所述标准基因组中提取BCR基因的外显子序列，作为BCR外显子序列；

从所述标准基因组中提取ABL1基因的外显子序列，作为ABL1外显子序列；

将任一个所述BCR外显子序列和任一个所述ABL1外显子序列进行拼接，得到参考序列，其中，在拼接的过程中，将所述BCR外显子序列设于5‘端，并将所述ABL1外显子序列设于3‘端；

将各个所述参考序列作为所述BCR/ABL1参考序列集。

进一步地，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤，包括：

基于BLAST序列比对技术，将所述目标基因对应的各个所述序列片段比对到所述BCR/ABL1参考序列集，得到各个候选融合点位和每个所述候选融合点位对应的所述支持片段数，所述候选融合点位表述的是所述BCR/ABL1参考序列集中的参考序列的断裂点；

根据各个所述候选融合点位对应的各个所述支持片段数计算候选支持片段总数；

若所述候选支持片段总数大于或等于预设的支持总数阈值，则将各个所述候选融合点位按所述支持片段数进行倒序排序，采用从头开始提取的方法，从排序后的各个所述候选融合点位中筛选出预设数量的所述候选融合点位，得到各个所述初始融合点位和每个所述初始融合点位对应的所述支持片段数；

若所述候选支持片段总数小于所述支持总数阈值，则根据各个所述候选融合点位对应的各个所述序列片段进行片段组装，得到组装后序列，将所述组装后序列比对到所述标准基因组，得到组装后比对结果，根据所述组装后比对结果获取审核端发送的所述融合点位预测结果。

进一步地，所述根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果的步骤，包括：

将每个所述初始融合点位对应的各个所述序列片段比对到所述标准基因组，得到单类型比对结果，其中，所述单类型比对结果包括：比对质量、比对上的基因位置、比对序列和比对片段碱基质量；

根据所述单类型比对结果进行变异数据计算，作为单类型变异数据；

判断所述单类型变异数据是否存在插入缺失；

若不存在，则根据所述单类型变异数据对应的各个所述序列片段，判断读码框的各个翻译方式是否出现终止密码子；

若存在，则根据所述单类型变异数据，判断缺失长度是否为所述读码框的宽度的倍数，若否，则确定单类型判断结果为有影响，若是，则根据所述单类型变异数据对应的各个所述序列片段，判断所述读码框的各个翻译方式是否出现终止密码子；

若出现终止密码子，则确定所述单类型判断结果为有影响；

若不出现终止密码子，则确定所述单类型判断结果为无影响；

将所述单类型判断结果为无影响的各个所述初始融合点位作为所述筛选结果。

进一步地，所述根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量的步骤，包括：

对所述筛选结果对应的各个所述支持片段数进行求和计算，得到目标支持片段总数；

将所述目标支持片段总数除以所述序列片段的总数，得到所述目标片段支持频率；

对所述筛选结果对应的各个所述序列片段中的碱基质量进行求和计算，得到碱基总质量；

将所述碱基总质量除以所述目标支持片段总数，得到所述目标平均碱基质量。

进一步地，所述将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果的步骤之前，还包括：

获取多个训练样本、初始模型和预设的最近邻数量；

采用各个所述训练样本和所述最近邻数量，对所述初始模型进行分类训练，将训练结束的所述初始模型作为所述分类预测模型；

其中，所述初始模型是基于KNN算法得到的模型，所述训练样本包括：样本片段支持频率、样本平均碱基质量、融合点位标签，所述样本片段支持频率和所述样本平均碱基质量均是根据序列样本片段集和所述BCR/ABL1参考序列集提取得到的数据，所述序列样本片段集是基于一代测序技术对样本基因测序得到的序列样本片段的集合。

一种BCR/ABL1融合基因的检测装置，所述装置包括：

比对模块，用于将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数；

筛选结果确定模块，用于根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果；

特征提取模块，用于根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量；

分类预测模块，用于将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

本申请的BCR/ABL1融合基因的检测方法及相关设备，其中方法最终输出融合点位预测结果，从而在结果上给出了确切的融合点位的信息，而且整个检测过程不需要人工进行核对；根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果，通过读码框影响的检测，准确的预测融合对读码框的影响，通过终止密码子的检测，预测了融合点位是否具有功能意义，从而提高了融合点位预测结果的准确性；因BCR/ABL1参考序列集是针对BCR/ABL1融合基因构建的集合，通过比对到BCR/ABL1参考序列集，减少了比对到标准基因组其他位置消耗的时候，提高了检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中BCR/ABL1融合基因的检测方法的流程示意图；

图2为一个实施例中BCR/ABL1融合基因的检测方法的全流程示意图；

图3为一个实施例中BCR/ABL1融合基因的检测装置的结构框图；

图4为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种BCR/ABL1融合基因的检测方法。该方法既可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该BCR/ABL1融合基因的检测方法具体包括如下步骤：

S1：将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数；

具体而言，获取目标基因对应的各个序列片段；将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到BCR/ABL1参考序列集中的每个参考序列支持的序列片段的数量，将每个参考序列支持的序列片段的数量作为该参考序列对应的支持片段数；从BCR/ABL1参考序列集中对应的各个融合点位中筛选出支持片段数靠前的融合点位作为所述初始融合点位，将所述初始融合点位对应的参考序列对应的支持片段数，作为该所述初始融合点位对应的支持片段数。

其中，支持，就是比对的对应关系，比对到某个位置的reads(也就是序列片段)，也可以说支持这个位置比对的reads。

可选的，采用基于BLAST序列比对技术得到的类BLAST比对工具(BLAST-likealignment tool)，将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集。

可以理解的是，融合点位与BCR/ABL1参考序列集中的参考序列一一对应。

BCR/ABL1参考序列集中包括多个参考序列。参考序列中包括一个所述BCR外显子序列和一个所述ABL1外显子序列。BCR外显子序列是BCR基因的外显子序列。BCR基因，是BCR/ABL1融合基因的组成部分。ABL1外显子序列，是ABL1基因的外显子序列。ABL1基因，是BCR/ABL1融合基因的组成部分。

所述融合点位表述的是所述BCR/ABL1参考序列集中的参考序列的断裂点。比如，参考序列为BCR exon14与ABL1 exon2的拼接，则所述融合点位为：B14A2，其中，BCR exon14是所述BCR外显子序列，ABL1 exon2是所述ABL1外显子序列。

所述序列片段包括：碱基序列、碱基质量、片段名称和片段方向。碱基序列，DNA的组成成分，序列由单个碱基组成，DNA(脱氧核糖核酸)的碱基组成成分为ATCG(含氮碱基)四种碱基。碱基质量，用于衡量测序的错误率，其中，碱基质量越高错误率越低。片段名称，每一条碱基序列会得到一条固定的代码标识，即为片段名称。片段方向，测序方式为正负链双向测序，故碱基序列有正负方向，也是属于碱基序列的标识之一。

S2：根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果；

具体而言，将所述初始融合点位对应的各个所述序列片段比对到所述标准基因组，得到BAM文件(也就是单类型比对结果)，根据BAM文件计算该所述初始融合点位的变异情况，根据变异情况判断读码框影响的检测，根据所述初始融合点位对应的各个所述序列片段进行终止密码子的检测；将读码框影响的检测和终止密码子的检测同时无影响的各个所述初始融合点位作为筛选结果。

读码框，开放读码框的简称，不含终止密码子、由编码氨基酸的三联体组成的连续DNA序列，能翻译成蛋白质。

BAM文件，也就是比对后的压缩文件，会记录：比对质量、比对上的基因位置、比对序列和比对片段碱基质量。BAM文件是SAM文件的二进制格式，SAM文件产生于比对之后的数据输出，记录了比对的具体情况。

标准基因组，也就是指人类的hg19基因组。人类的hg19基因组，在NCBI(NationalCenter for Biotechnology Information，美国国家生物技术信息中心)的版本中编号为GRCh37。

S3：根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量；

具体而言，根据所述筛选结果对应的各个所述序列片段对应的各个碱基质量及各个所述支持片段数，计算支持片段的平均碱基质量，作为目标平均碱基质量；根据所述序列片段的总数、所述筛选结果对应的各个所述支持片段数计算，计算支持片段的频率，作为目标片段支持频率。

S4：将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果。

具体而言，将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，将分类预测得到的向量作为融合点位预测结果。

可以理解的是，将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测时，将所述目标片段支持频率作为x轴坐标，将所述目标平均碱基质量作为y轴坐标。

融合点位预测结果中的每个向量元素对应一个融合点位。

可选的，所述将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果的步骤之后，还包括：从融合点位预测结果中提取值为最大的向量元素，作为命中向量元素，将命中向量元素对应的融合点位作为目标基因针对BCR/ABL1融合基因的目标融合点位。

可选的，所述分类预测模型是基于KNN算法训练得到的模型。KNN(K-NearestNeighbor)算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类,也能用于回归。KNN通过测量不同特征值之间的距离来进行分类。

可选的，本申请的所述分类预测模型是可以通过测量不同特征值欧氏距离来进行分类。

本实施例最终输出融合点位预测结果，从而在结果上给出了确切的融合点位的信息，而且整个检测过程不需要人工进行核对；根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果，通过读码框影响的检测，准确的预测融合对读码框的影响，通过终止密码子的检测，预测了融合点位是否具有功能意义，从而提高了融合点位预测结果的准确性；因BCR/ABL1参考序列集是针对BCR/ABL1融合基因构建的集合，通过比对到BCR/ABL1参考序列集，减少了比对到标准基因组其他位置消耗的时候，提高了检测效率。

如图2所示，在一个实施例中，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，还包括：

S111：采用二代测序技术，对所述目标基因进行测序，得到序列初始片段，其中，所述序列初始片段包括：碱基序列、碱基质量、片段名称和片段方向；

二代测序技术，又称为下代测序技术(Next-generation Sequencing,NGS)具有生成广泛数据的巨大优势，能同时进行数百种基因的突变检测，而更深的测序深度也保证了下代测序可检出突变率低至1％的位点，是一种高通量、快速、经济的突变检测手段。

相比一代测序技术，二代测序技术具有效率高、成本低的优点，以及准确率没一代测序技术的高导致可能出现假阳、假阴的缺点。

具体而言，采用二代测序技术，对所述目标基因进行测序，将测序得到的每个片段作为一个序列初始片段。

S112：采用预设的格式转换工具，将每个所述序列初始片段的格式从fastq格式转换成fasta格式，得到所述序列片段。

具体而言，采用预设的格式转换工具，将每个所述序列初始片段的格式从fastq格式转换成fasta格式，将转换后的每个所述序列初始片段作为一个所述序列片段。

格式转换工具可以采用fastx_toolkit。

fastq格式，存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。

fasta格式，是基于文本用于表示核酸序列或多肽序列的格式。

本实施例通过采用二代测序技术对所述目标基因进行测序，基于二代测序技术效率高、成本低的优点，降低了BCR/ABL1融合基因的检测的成本，提高了BCR/ABL1融合基因的检测的效率。

如图2所示，在一个实施例中，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，包括：

S121：从所述标准基因组中提取BCR基因的外显子序列，作为BCR外显子序列；

具体而言，从所述标准基因组中提取BCR基因的外显子序列，将提取的每个外显子序列作为一个BCR外显子序列。

从所述标准基因组中提取BCR基因的外显子序列的方法可以从现有技术中选择，在此不做赘述。

外显子序列，是外显子的表达序列。外显子(expressed region)是真核生物基因的一部分。它在剪接(Splicing)后会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。

S122：从所述标准基因组中提取ABL1基因的外显子序列，作为ABL1外显子序列；

具体而言，从所述标准基因组中提取ABL1基因的外显子序列，将提取的每个外显子序列作为一个ABL1外显子序列。

从所述标准基因组中提取ABL1基因的外显子序列的方法可以从现有技术中选择，在此不做赘述。

S123：将任一个所述BCR外显子序列和任一个所述ABL1外显子序列进行拼接，得到参考序列，其中，在拼接的过程中，将所述BCR外显子序列设于5‘端，并将所述ABL1外显子序列设于3‘端；

具体而言，将任一个所述BCR外显子序列和任一个所述ABL1外显子序列进行拼接，将拼接得到的序列作为一个参考序列。也就是说，每个参考序列中包括一个所述BCR外显子序列和一个所述ABL1外显子序列。

因在拼接的过程中，将所述BCR外显子序列设于5‘端，并将所述ABL1外显子序列设于3‘端，从而为BCR外显子序列位于参考序列的上游，ABL1外显子序列位于参考序列的下游。

S124：将各个所述参考序列作为所述BCR/ABL1参考序列集。

BCR基因有23个外显子序列，ABL1基因有11个外显子序列，从而使所述BCR外显子序列和所述ABL1外显子序列有253种组合，因此，所述BCR/ABL1参考序列集中有253个参考序列。

本实施例通过从将任一个所述BCR外显子序列和任一个所述ABL1外显子序列进行拼接，得到参考序列，为比对到BCR/ABL1参考序列集提供了基础。

在一个实施例中，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤，包括：

S131：基于BLAST序列比对技术，将所述目标基因对应的各个所述序列片段比对到所述BCR/ABL1参考序列集，得到各个候选融合点位和每个所述候选融合点位对应的所述支持片段数，所述候选融合点位表述的是所述BCR/ABL1参考序列集中的参考序列的断裂点；

具体而言，采用基于BLAST序列比对技术得到的类BLAST比对工具，将所述目标基因对应的各个所述序列片段比对到所述BCR/ABL1参考序列集，得到BCR/ABL1参考序列集中的每个参考序列支持的序列片段的数量，作为该参考序列对应的支持片段数；将每个参考序列对应的融合点位作为候选融合点位，将候选融合点位对应的参考序列对应的支持片段数作为该所述候选融合点位对应的所述支持片段数。

S132：根据各个所述候选融合点位对应的各个所述支持片段数计算候选支持片段总数；

具体而言，对各个所述候选融合点位对应的各个所述支持片段数进行求和计算，将求和计算得到的数据作为所述候选支持片段总数。

S133：若所述候选支持片段总数大于或等于预设的支持总数阈值，则将各个所述候选融合点位按所述支持片段数进行倒序排序，采用从头开始提取的方法，从排序后的各个所述候选融合点位中筛选出预设数量的所述候选融合点位，得到各个所述初始融合点位和每个所述初始融合点位对应的所述支持片段数；

具体而言，若所述候选支持片段总数大于或等于预设的支持总数阈值，意味着支持的序列片段的数量足够，因此，首先将各个所述候选融合点位按所述支持片段数进行倒序排序，然后采用从头开始提取的方法，从排序后的各个所述候选融合点位中筛选出预设数量的所述候选融合点位，将筛选出的每个所述候选融合点位作为一个所述初始融合点位；将所述初始融合点位对应的所述候选融合点位的所述支持片段数作为该所述初始融合点位对应的所述支持片段数。从而首先了对融合点位的初筛。

S134：若所述候选支持片段总数小于所述支持总数阈值，则根据各个所述候选融合点位对应的各个所述序列片段进行片段组装，得到组装后序列，将所述组装后序列比对到所述标准基因组，得到组装后比对结果，根据所述组装后比对结果获取审核端发送的所述融合点位预测结果。

具体而言，若所述候选支持片段总数小于所述支持总数阈值，意味着支持的序列片段的数量不足够，此时需要手动比对，不需要执行步骤S2至步骤S4，因此，将各个所述候选融合点位对应的各个所述序列片段切成等长为3的碱基，得到初始碱基集，对初始碱基集进行碱基的去重处理，得到目标碱基集，将目标碱基集中的碱基作为目标碱基，然后将各个目标碱基相连，如遇到分叉则从分叉的各个目标碱基中选择在初始碱基集中出现最多次数最多的目标碱基，最后将相连得到的序列作为组装后序列；基于BLAST序列比对技术，将所述组装后序列比对到所述标准基因组，将比对得到的数据作为组装后比对结果；将组装后比对结果发送给审核端；审核人员在审核端，根据组装后比对结果确定融合点位预测结果；基于与审核端的通信连接，根据所述组装后比对结果获取审核端发送的所述融合点位预测结果。

将各个目标碱基相连时，相连的相邻两个目标碱基中的第一个目标碱基的后面两个字符，与相连的相邻两个目标碱基中的第二个目标碱基的前面两个字符相同。比如，目标碱基CGA与目标碱基GAT可以相连，CGA的后面两个字符GA与GAT的前面两个字符GA相同，因此可以连接为“CGA-GAT”。

如遇到分叉则从分叉的各个目标碱基中选择在初始碱基集中出现最多次数最多的目标碱基，比如，目标碱基ATT遇到的分叉的各个目标碱基包括：TTC和TTG，其中，TTC在初始碱基集中出现次数为2，TTG在初始碱基集中出现次数为1，选择在初始碱基集中出现最多次数最多的目标碱基TTC作为相连的目标碱基，因此，将ATT和TTG连接。

可以理解的是，碱基还可以采用3个以上的字符，在此不做限定。

因在临床有的融合点位比较重要，如果候选支持片段总数较少，步骤S2至步骤S4确定的融合点位预测结果的准确性较低，为了解决该问题，本实施例在所述候选支持片段总数大于或等于预设的支持总数阈值时，从各个所述候选融合点位中筛选出预设数量的所述候选融合点位，有利于提高确定的融合点位预测结果的准确性，在所述候选支持片段总数小于所述支持总数阈值时，得到组装后序列，将所述组装后序列比对到所述标准基因组，得到组装后比对结果，根据所述组装后比对结果获取审核端发送的所述融合点位预测结果，从而实现了基于组装后比对结果获取人工确定的融合点位预测结果。

在一个实施例中，所述根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果的步骤，包括：

S21：将每个所述初始融合点位对应的各个所述序列片段比对到所述标准基因组，得到单类型比对结果，其中，所述单类型比对结果包括：比对质量、比对上的基因位置、比对序列和比对片段碱基质量；

具体而言，因基于Bwa(Burrows-Wheeler-Alignment Tool，Bwa是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包)序列比对技术得到的结果可以用于寻找变异，因此，基于Bwa序列比对工具，将每个所述初始融合点位对应的各个所述序列片段比对到所述标准基因组，将比对得到的比对质量、比对上的基因位置、比对序列和比对片段碱基质量作为单类型比对结果。

也就是说，单类型比对结果与所述初始融合点位一一对应。

比对质量，英文全称为mapping quality，对于每一条read(碱基)，在将其比对到基因组后会得到多个比对位置，根据打分确定其中的最佳比对位置。对于每一个比对位置而言，通过计算错配碱基(整条片段并非完全和标准基因组一致)的碱基质量之和，记为SUM_BASE_Q，最佳比对位置的为SUM_BASE_Q(best)，其余位置为SUM_BASE_Q(i)。比对质量用来衡量该条read比对到标准基因组上的位置的专一性，该值越高比对的位置越唯一，越可信。比如：如果测序得到的read非常短(比如只有一个碱基)，那么它很有可能比对几乎每个位置，这个值就可以将其过滤。

比对上的基因位置，每一条read会比对到固定的染色体位置，例如：chr1 1：表示1号染色体的第一位碱基。

比对序列，是比对成功的所述序列片段。

比对片段碱基质量，比对上的所述序列片段的每一个碱基质量之和。

S22：根据所述单类型比对结果进行变异数据计算，作为单类型变异数据；

具体而言，根据所述单类型比对结果进行基因的变异数据计算，将计算得到的数据作为单类型变异数据。

根据所述单类型比对结果进行基因的变异数据计算的方法可以从现有技术中选择，比如，Pisces(变异计算)软件，在此不做赘述。

S23：判断所述单类型变异数据是否存在插入缺失；

S24：若不存在，则根据所述单类型变异数据对应的各个所述序列片段，判断读码框的各个翻译方式是否出现终止密码子；

具体而言，若不存在，也就是所述单类型变异数据不存在插入缺失，此时意味着对读码框没有影响，需要继续进行终止密码子的检测，因此，采用读码框的每种翻译方式，从根据所述单类型变异数据对应的各个所述序列片段移动读码，判断在移动读码的过程中是否会出现终止密码子。

终止密码子又称“无意义密码子”。不编码任何氨基酸的密码子，比如，UAA、UAG和UGA。当肽链延长到这3个密码子的任何一个时，即行停止，从而使已合成的多肽链释放出来，因此终止密码子相当于1个停止信号。

比如，读码框的宽度为3，则读码框的翻译方式包括三种，分别从所述序列片段的第一位、第二位、第三位开始移动读码框。

S25：若存在，则根据所述单类型变异数据，判断缺失长度是否为所述读码框的宽度的倍数，若否，则确定单类型判断结果为有影响，若是，则根据所述单类型变异数据对应的各个所述序列片段，判断所述读码框的各个翻译方式是否出现终止密码子；

具体而言，若存在，也就是所述单类型变异数据存在插入缺失，此时意味着对读码框可能有影响，因插入缺失将会影响融合后的长度，若插入缺失不为所述读码框的宽度的倍数，则会造成读码框位移，影响基因表达，若为插入缺失为所述读码框的宽度的倍数，则会认为影响不大，所以，根据所述单类型变异数据，判断缺失长度是否为所述读码框的宽度的倍数，以此判断对读码框是否有影响；若否，也就是缺失长度不为所述读码框的宽度的倍数，此时意味着会造成读码框位移，影响基因表达，因此，确定单类型判断结果为有影响；若是，也就是缺失长度为所述读码框的宽度的倍数，此时意味着影响不大，因此，采用读码框的每种翻译方式，从根据所述单类型变异数据对应的各个所述序列片段移动读码，判断在移动读码的过程中是否会出现终止密码子。

所述读码框的宽度为3。

S26：若出现终止密码子，则确定所述单类型判断结果为有影响；

具体而言，若出现终止密码子，也就是根据所述单类型变异数据对应的各个所述序列片段，所述读码框的各个翻译方式出现终止密码子，此时融合基因不会表达翻译，因此，确定所述单类型判断结果为有影响。

S27：若不出现终止密码子，则确定所述单类型判断结果为无影响；

具体而言，若不出现终止密码子，也就是根据所述单类型变异数据对应的各个所述序列片段，所述读码框的各个翻译方式不出现终止密码子，此时融合基因能表达翻译，因此，确定所述单类型判断结果为无影响。

可以理解的是，重复执行步骤S21至步骤S27，即可确定每个所述初始融合点位对应的所述单类型判断结果。

S28：将所述单类型判断结果为无影响的各个所述初始融合点位作为所述筛选结果。

具体而言，将所述单类型判断结果为无影响的各个所述初始融合点位作为所述筛选结果，从而使所述筛选结果中的每个融合点位对应的各个所述序列片段都能够表达，使所述筛选结果中的每个融合点位都具有功能意义。

本实施例根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果，通过读码框影响的检测，准确的预测融合对读码框的影响，通过终止密码子的检测，预测了融合点位是否具有功能意义，从而提高了融合点位预测结果的准确性。

在一个实施例中，所述根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量的步骤，包括：

S31：对所述筛选结果对应的各个所述支持片段数进行求和计算，得到目标支持片段总数；

具体而言，对所述筛选结果对应的各个所述支持片段数进行求和计算，将求和得到的数据作为目标支持片段总数。

S32：将所述目标支持片段总数除以所述序列片段的总数，得到所述目标片段支持频率；

具体而言，将所述目标支持片段总数除以所述序列片段的总数，将相除得到的数据作为所述目标片段支持频率。

S33：对所述筛选结果对应的各个所述序列片段中的碱基质量进行求和计算，得到碱基总质量；

具体而言，对所述筛选结果对应的各个所述序列片段中的碱基质量进行求和计算，将求和得到的数据作为碱基总质量。

S34：将所述碱基总质量除以所述目标支持片段总数，得到所述目标平均碱基质量。

具体而言，将所述碱基总质量除以所述目标支持片段总数，将相除得到的数据作为所述目标平均碱基质量。

本实施例通过将所述目标支持片段总数除以所述序列片段的总数，得到所述目标片段支持频率，将所述碱基总质量除以所述目标支持片段总数，得到所述目标平均碱基质量，提取出了具有功能意义并且能够表达的序列片段的特征，为基于两个特征进行分类预测提供了基础。

在一个实施例中，所述将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果的步骤之前，还包括：

S41：获取多个训练样本、初始模型和预设的最近邻数量；

具体而言，可以从数据库中获取多个训练样本、初始模型和预设的最近邻数量，也可以从第三方应用系统中获取多个训练样本、初始模型和预设的最近邻数量，还可以获取用户输入的多个训练样本、初始模型和预设的最近邻数量。

预设的最近邻数量是一个大于1的整数。

可选的，最近邻数量设为30。可以理解的是，最近邻数量还可以是其他数值，在此不做限定。

S42：采用各个所述训练样本和所述最近邻数量，对所述初始模型进行分类训练，将训练结束的所述初始模型作为所述分类预测模型；

具体而言，采用各个所述训练样本对所述初始模型进行分类训练，在分类训练时，所述最近邻数量作为所述初始模型中的KNN算法的k值。

将达到预设结束条件的所述初始模型作为训练结束的所述初始模型。

可选的，预设结束条件为所述初始模型的损失值收敛于预设数值。

可选的，对所述初始模型进行分类训练，通过测量不同特征值欧氏距离来进行分类。可以理解的是，还可以采用其他距离算法测量不同特征值之间的距离来进行分类，比如，余弦相似度，在此不做限定。

样本片段支持频率，是根据序列样本片段集和所述BCR/ABL1参考序列集得到的片段支持频率。所述样本平均碱基质量，是根据序列样本片段集和所述BCR/ABL1参考序列集提取得到的平均碱基质量。融合点位标签，是样本片段支持频率、样本平均碱基质量对应的融合点位的准确结果。

本实施例的训练样本是基于一代测序技术得到的，基于一代测序技术准确率高的优点，从而提高了训练出的分类预测模型的预测准确性。

如图3所示，在一个实施例中，提供了一种BCR/ABL1融合基因的检测装置，所述装置包括：

比对模块801，用于将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数；

筛选结果确定模块802，用于根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果；

特征提取模块803，用于根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量；

分类预测模块804，用于将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果。

图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现BCR/ABL1融合基因的检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行BCR/ABL1融合基因的检测方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种BCR/ABL1融合基因的检测方法，所述方法包括：

2.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，还包括：

3.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤之前，包括：

将各个所述参考序列作为所述BCR/ABL1参考序列集。

4.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述将获取的目标基因对应的各个序列片段比对到预设的BCR/ABL1参考序列集，得到各个初始融合点位和每个所述初始融合点位对应的支持片段数的步骤，包括：

5.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述根据预设的标准基因组和各个所述初始融合点位对应的各个所述序列片段分别进行变异的检测、读码框影响的检测、终止密码子的检测和所述初始融合点位的筛选，得到筛选结果的步骤，包括：

判断所述单类型变异数据是否存在插入缺失；

若出现终止密码子，则确定所述单类型判断结果为有影响；

6.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述根据所述序列片段的总数、所述筛选结果对应的各个所述序列片段及各个所述支持片段数，计算目标片段支持频率和目标平均碱基质量的步骤，包括：

7.根据权利要求1所述的BCR/ABL1融合基因的检测方法，其特征在于，所述将所述目标片段支持频率和所述目标平均碱基质量输入预设的分类预测模型进行分类预测，得到融合点位预测结果的步骤之前，还包括：

获取多个训练样本、初始模型和预设的最近邻数量；

8.一种BCR/ABL1融合基因的检测装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。