CN116959560A

CN116959560A - 基于第三代测序的基因组短变异深度学习检测方法及系统

Info

Publication number: CN116959560A
Application number: CN202310257362.8A
Authority: CN
Inventors: 祖建; 黄丽娟; 孙晋楠
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-10-27

Abstract

本发明公开了一种基于第三代测序的基因组短变异深度学习检测方法及系统，通过对第三代测序平台所产生的基因组序列的图像编码方式进行设定，并根据真实变异集及对应的序列比对数据建立训练集、验证集和测试集；构建卷积神经网络和双向长短期记忆神经网络集成的深度学习多任务分类器，使用训练集和验证集对深度学习分类器进行训练和验证，使用测试集测试深度学习分类器的准确性；基于训练好的深度学习分类器对由序列比对或真实变异集生成的堆积图像进行分类预测；根据堆积图像的分类预测结果对序列比对数据进行变异位点检测，得到完整的候选变异信息，实现基因组SNP和INDEL短变异的自动检测。

Description

基于第三代测序的基因组短变异深度学习检测方法及系统

技术领域

本发明属于生物信息学和深度学习技术领域，具体涉及一种基于第三代测序的基因组短变异深度学习检测方法及系统。

背景技术

变异检测是一种通过将测序序列和人类参考基因组进行比较，对候选突变位点的变异类型、基因型和变异长度进行推断的方法。研究人员可以利用变异检测工具分析出患者及其家属的DNA序列突变信息，并结合临床诊断的信息，帮助医生对致病原因进行探究与分析。生成测序序列的技术有很多，随着下一代测序技术的发展，测序序列的长度从最初的短读长(Short Reads)发展为现在的长读长序列(Long Reads)。相较于第一代测序技术，第二代测序技术产生的数据具有高通量、高准确性、成本低等优点，而第三代测序又进一步发展，特点是无需测序前的PCR扩增步骤，成本更低、测序时间短以及产生的数据超长。三代测序的代表测序技术有PacBio公司的单分子实时测序技术和ONT(Oxford Nanopore Tech)公司的纳米孔单分子测序技术。虽然短读序列具有较高的基本精度，但经常无法在重复区域中明确对齐，通常也无法提供大量的基于读取的相位信息，而长读序列克服了短读的基本限制。基于第三代测序数据，研究者可以进行短变异和结构变异的检测，其中短变异包括点突变(SNP)、插入或缺失(INDEL)。目前短变异检测的主要方法分为两种：一种是基于统计推断，另一种基于深度学习。基于统计推断的变异算法以GATK团队开发的GATKHaplotypeCaller为代表，其通过活跃区域识别、候选单倍型组装、计算每个单倍型被观测到的可能性等操作，最终实现进行基因分型。另一类基于深度学习的方法，如DeepVariant、Clair等，因为研究门槛低、检测效率快、检测精度高等特点深受研究者们的关注，这些方法主要是将序列比对信息和真实变异信息用于特征编码，从而将变异检测问题转换为图像分类问题。

这些方法尽管具有上述特点，但仍具有以下几个缺陷：

1)使用传统方法对基因组中的短变异检测时，不仅耗时久，且即使经过变异过滤，候选变异集中也仍存在大量假阳或假阴性的信息。

2)在短变异的检测方法中，部分工具仅对SNP可用，而另一部分工具虽然能对SNP和INDEL同时进行检测，但INDEL的检测效果却与SNP的相比有一定差距，甚至检测效果较差。

3)虽然目前有很多基因突变的相关研究，但由于在人类基因组中只有一小部分的区域会发生基因变异，所以在构建数据集的时候，难免会出现样本不平衡问题，这类问题不仅是变异和非变异之间存在，在变异各种类型之间也存在。这一问题在目前基于深度学习的方法中未能得到很好解决。

随着深度学习的发展，研究者希望将深度学习算法应用于基因组的变异检测领域，目前主要面临两个挑战：

1)变异检测时间和检测精度的兼顾。网络结构与变异检测问题的时间复杂度和空间复杂度密切相关，众多研究者追求着在时间消耗和检测精度之间取得一个更好的平衡。然而，在变异检测问题上，现有的算法仍有进步的空间。

2)INDEL变异检测效果的提升。为了降低变异检出集中的假阳和假阴率，研究者利用各种深度学习方法提高了检出变异集整体的质量，尤其是SNP。然而，现有的算法在图像编码方式和损失函数等方面存在不足，从而使得INDEL在检测效果提升上有所限制。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于第三代测序的基因组短变异深度学习检测方法及系统，用于解决传统变异检测方法耗时长、高假阳率或假阴率的技术问题。

本发明采用以下技术方案：

基于第三代测序的基因组短变异深度学习检测方法，包括以下步骤：

S1、构建监督学习数据集，并将监督学习数据集划分为训练集、验证集和测试集；

S2、构建以卷积神经网络和双向长短期记忆神经网络为核心的多任务多分类深度学习集成分类器，使用步骤S1得到的训练集、验证集和测试集分别用作深度学习分类器的训练、验证和测试，得到训练好的深度学习分类器；

S3、利用步骤S2得到的深度学习分类器对来自不同样本的各堆积图像进行分类预测，每张堆积图像的分类预测结果为一个1×90维的概率分布向量，选择堆积图像每个子任务的最大概率分布预测结果，得到对应堆积图像的各任务分类结果；

S4、使用步骤S3得到的各位点的分类结果，结合各堆积图像的碱基类型和变异长度，以及对应的染色体和位置信息，依照变异在染色体上的位置顺序按行构建最终的变异集，实现基因组变异检测。

具体的，步骤S1具体为：

S101、按照染色体截取分别获得瓶中基因组项目中某参考基因组版本refver的sample.refver.pacbio.bam序列比对数据集中HG002样本第1至5号的序列比对数据sample.refver.pacbio.chr1_5.bam，以及第20号染色体的序列比对数据sample.refver.pacbio.chr20.bam，sample.refver.pacbio.chr1_5.bam用于模型训练和验证，sample.refver.pacbio.chr20.bam用于模型测试，对bam比对数据中每条染色体上的序列比对提取CIGAR字符串，并过滤；统计染色体、位置、突变前碱基数量、各突变后的碱基数量，插入标记为I，缺失标记为D，跳过参考序列的标记N，按照染色体计入文件can_fn_chri，i＝1，2，3，4，5，20；

S102、按照染色体截取分别获得瓶中基因组项目中某参考基因组版本refver的sample.refver.vcf真实数据集和sample.refver.highconfi.bed高置信度变异区间数据集中HG002样本第1至5号的真实变异数据sample.refver.chr1_5.vcf，以及第20号的真实变异数据sample.refver.chr20.vcf，对vcf真实变异数据中每条染色体上各位点统计染色体、位置、突变前后碱基类型和基因型，信息按照染色体计入文件var_fn_chr i；

S103、对步骤S101和步骤S102中can_fn_chr i和var_fn_chr i里的每一个位点，以0初始化一个101×8×4的张量x，101代表一个变异的起始位置和两侧50个bp的碱基，8代表来自两个不同链的四个可能的碱基计数，4代表用4种不同的计数方式分别对参考、插入、删除和点突变对应的碱基序列进行计数；然后简化碱基的编码方式，并根据IUPAC2Num规则将对经过碱基编码方式简化后的碱基进行数字编码，并按位点和碱基类型累计后写入张量x，对于can_fn_chr i和var_fn_chr i中变异统计信息生成的张量信息tensor_can_chr i和tensor_var_chr i，视为堆积图像，最终对1-5号染色体上的堆积图像按照染色体进行数据合并，得到堆积图像数据tensor_can_chr 1_5、tensor_var_chr 1_5、tensor_can_chr20和tensor_var_chr 20；

S104、保留tensor_var_chr 1_5中所有真实变异对应的张量，并通过与tensor_var_chr 1_5进行比较，从tensor_can_chr 1_5中随机抽取非变异位点的堆积图像，初始化非变异与变异的比例为2:1，最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为1617250的训练集；保留tensor_var_chr 20中所有真实变异对应的张量，并通过与tensor_var_chr 20进行比较，从tensor_can_chr 20中随机抽取非变异位点的堆积图像，初始化非变异与变异的比例为2:1，最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为139098的测试集；

S105、将步骤S104得到的数据集划分为训练集、验证集和测试集，训练集与验证集的比例为8:2。

具体的，步骤S103中，按位点和碱基类型累计后写入张量x的计数方式如下：

某位点标签是参考，则分别将该位点及前后50bp范围内参考等位基因的碱基计数写入x第三维的第一通道；

某位点标签是插入，则将插入序列的插入碱基readbase信息写入x第三维的第二通道；

某位点标签是删除，则将缺失序列的缺失碱基refbase信息写入x第三维的第三通道；

某位点标签是点突变，则将变异位点变换前后的碱基信息写入x第三维的第四通道。

具体的，步骤S104中，对堆积图像进行标注，标签为1×90的向量，前21位数表示由碱基构成的21种基因型作为任务1；第22-24位数代表3种合子类型作为任务2；第25-57位数代表INDEL一等位基因的33种变异长度1，作为任务3；第58-90位数代表INDEL另一等位基因的33种变异长度2，作为任务4，任务3或任务4中的33种变异长度属于以下三类情况的一种，即删除超过15bp为一类、删除或插入-15bp到15bp之间的任何数量含31bp为一类、插入超过15bp为一类。

具体的，步骤S2具体为：

S201、构建用于堆积图像特征提取的卷积神经网络，以及用于序列特征提取的双向长短期记忆神经网络，并使用这两个网络进行集成得到集成网络；

S202、将步骤S201构建的卷积神经网络与双向长短期记忆神经网络得到的特征展平为一维，再经全连接层后输出1×90维的概率分布向量，代表4个任务的预测变异类型概率分布；

S203、根据焦点损失函数，通过自适应矩估计及反向传播算法优化和更新卷积神经网络与双向长短期记忆神经网络的参数；

S204、将步骤S203训练好的深度学习模型分别运用于对应的测试集中，使用分类精确率和召回率的加权值F1-score指标评价深度学习分类器的分类准确度，得到训练好的深度学习分类器。

进一步的，步骤S203中，优化过程使用的多任务损失函数Loss为：

其中，Loss_t为任务t的损失。

具体的，步骤S3具体为：

将大小为D的序列比对数据中CIGAR比对字符串等信息编码成一个101×8×4的张量；使用深度学习分类器对步骤S1编码后的张量进行预测，得到1×90的概率分布结果。

进一步的，在预测过程中，对预测位点堆积图像的基因型、合子类型和变异长度进行组合，组合后的变异形式如下：

纯合参考HomRef、纯合点突变HomSNP、杂合点突变HetSNP、纯合插入HomIns、杂合插入HetOneIns、杂合插入HetTwoIns、纯合缺失HomDel、杂合缺失HetOneDel、杂合缺失HetTwoDel、杂合插入和缺失HetInsDel。

具体的，步骤S4具体为：

利用步骤S3得到的各位点分类结果，结合各位点的碱基类型和变异长度，以及对应的染色体和位置信息，依照变异在染色体上的位置顺序按行构建最终的变异集，实现基因组变异检测。

第二方面，本发明实施例提供了一种基于第三代测序的基因组短变异深度学习检测系统，包括：

数据模块，构建监督学习数据集，并将监督学习数据集划分为训练集、验证集和测试集；

模型构建与训练模块，构建以卷积神经网络和双向长短期记忆神经网络为核心的多任务多分类深度学习集成分类器，使用数据模块得到的训练集、验证集和测试集分别用作深度学习分类器的训练、验证和测试，得到训练好的深度学习分类器；

分类预测模块，利用训练模块得到的深度学习分类器对来自不同样本的各堆积图像进行分类预测，每张堆积图像的分类预测结果为一个1×90维的概率分布向量，选择堆积图像每个子任务的最大概率分布预测结果，得到对应堆积图像的各任务分类结果；

变异集构建模块，使用分类模块得到的各位点的分类结果，结合各堆积图像的碱基类型和变异长度，以及对应的染色体和位置信息，依照变异在染色体上的位置顺序按行构建最终的变异集，实现基因组变异检测。

与现有技术相比，本发明至少具有以下有益效果：

基于第三代测序的基因组短变异深度学习检测方法，对第三代测序平台PacBio所产生的生物序列的图像编码方式进行设定，并根据真实变异集及对应的序列比对数据制作训练集、验证集和测试集；构建以卷积神经网络和双向长短期记忆神经网络为核心的深度学习多任务分类器，使用训练集和验证集对深度学习分类器进行训练和验证，损失函数曲线训练过程中逐渐收敛；基于训练好的深度学习分类器对由序列比对或真实变异集生成的堆积图像进行分类预测；根据堆积图像的分类预测结果对序列比对数据进行变异位点检测，得到完整的候选变异信息。

进一步的，利用图像编码，通过深度学习算法推断堆积图像对应位点的基因型、合子类型、变异长度，进而对序列数据进行变异检测，构建候选变异集，并可以对特定测序技术测出的新数据集，训练新深度学习分类器来实现定制用于特定测序技术的基因组短变异检测工具。

进一步的，按位点和碱基类型累计后写入张量x，能将潜在变异位点及其左右50bp长度范围内的序列比对情况和碱基类型同时考虑在内，这样的方法可以对INDEL进行更好地展示和检测，通过这种简洁明了的编码方式，能够过滤掉序列比对数据中一些不必要的信息，使得深度学习分类器能够更好地获取堆积图像里的特征，从而使得模型具有更好的性能。

进一步的，对堆积图像进行标注，使用监督学习的方法构建深度学习分类器，能够让分类器清晰地知道自己的目标，通过训练让分类器找到特征和标签之间的联系，从而在没有标签的基因组序列比对数据上，也能够更准确地对其变异情况进行预测，并且本发明中的标注同时结合了基因型、合子类型和变异长度等多方面的信息，充分考虑了短变异各种可能存在的形式，更加符合实际生物意义。

进一步的，训练获得的深度学习分类器具有鲁棒性和普适性，可应用于不同第三代测序技术生成的基因组数据。相对于传统的短变异检测方法，提取了更多的特征，如序列特征，更有利于检测精度的提高。

进一步的，使用焦点损失函数作为分类损失函数，该损失函数的值越小说明深度学习分类器的误差越小。并且，在训练的过程中，本发明建立循环迭代，使用自适应矩估计优化算法来优化深度学习分类器中的神经网络参数，使得焦点损失函数逐渐降低，并最终收敛到一个极小值处，得到最终的深度学习分类器。

进一步的，对于此变异检测问题中101×8×4输入张量，若仅仅基于卷积神经网络，并企图通过增加卷积层的方式来提高模型分类的效果，这是很难实现的，但通过与双向长短期记忆神经网络进行结合，最后集成的网络具有更好的检测效果，并同时解决了由于图像编码方式从33×8×4转变为101×8×4所造成的SNP变异检测效果下降的问题，这样的网络输入尺寸和结构设计，不仅满足了一般INDEL变异的现实需求，同时还能整体降低检出变异集的假阳率和假阴率，使得本发明的短变异检测方法可以应用到更多的基因变异分析中去。

进一步的，结合基因型、合子类型、变异长度的组合，定义10类不同的变异变量；根据基因型和等位基因上变异长度是否一致将变异变量区分为杂合或纯合变量，根据变异长度将变异变量区分为Ref、SNP和INDEL。上述10类不同的变异变量的设定期望能够涵盖大多数实际的短变异场景，进而训练出能够处理绝大多数常用序列比对数据的深度学习分类器。同时，例如本发明通过查阅文献，参考一般的插入或缺失长度来使得本发明的图像编码方式更贴切现实的INDEL变异，INDEL的检测效果也有大幅提升。

进一步的，采用的深度学习网络结构虽然与简单卷积网络相比参数量有所增加，但在对序列比对数据进行变异检测时仍能保证良好的时间效率。

可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

综上所述，本发明提出了全新的、面向第三代测序技术的基因组短变异深度学习检测方法，可以实现对长读长序列比对数据进行高效地变异检测，不仅如此，本发明也适用于短读长序列比对数据。本发明设计了涵盖绝大多数短变异突变类型，针对不同的分类任务进行深度学习分类器的训练，训练好的深度学习分类器可以对不同样本进行变异检测，并且该分类器可以较好地处理类别不平衡的情况，且能够对INDEL检测效果的提升有一定的帮助。为了处理提取特征单一的问题，本发明整合了卷积神经网络和双向长短期记忆神经网络，最终集成网络对候选位点进行预测，来实现短变异检测效果，尤其是INDEL变异检测效果的有效提升。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例中基于第三代测序的基因组短变异深度学习检测方法和系统的流程图；

图2为本发明中序列比对数据解析流程示意图；

图3为本发明中真实变异数据解析流程示意图；

图4本发明中图像编码流程示意图；

图5为本发明中IUPAC命名法编码规则简化及其数字编码示意图；

图6为本发明中杂合SNP堆积图像示意图；

图7为本发明中纯合Insertion堆积图像示意图；

图8为本发明中多等位基因杂合Deletion堆积图像示意图；

图9为本发明中深度学习分类器CLNN-Caller的网络框架图；

图10为本发明中训练时数据集洗牌示意图；

图11为本发明中基于HG002 PacBio Chr1-Chr5的训练损失变化图；

图12为本发明中分类时10类可能的变异变量示意图；

图13为本发明中深度学习分类器和其他方法在NCBI数据库HG002 PacBio GRCh37序列比对数据集第20号染色体上变异检测效果示意图，其中，(a)为各方法在HG002第20号染色体上SNP和INDEL变异的整体检测效果，(b)为各方法在HG002第20号染色体上INDEL变异的检测效果；

图14为本发明中深度学习分类器和其他方法在NCBI数据库HG001 PacBio GRCh37序列比对数据集第20号染色体上变异检测效果示意图，其中，(a)为各方法在HG001第20号染色体上SNP和INDEL变异的整体检测效果，(b)为各方法在HG001第20号染色体上INDEL变异的检测效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于第三代测序的基因组短变异深度学习检测方法，基于卷积神经网络和双向长短期记忆神经网络，提供一个新的面向第三代测序技术的基因组短变异深度学习检测框架，为短变异检测的日常应用提供一个可重新训练的工具包；开发了一个Python命令行软件包CLNN-Caller；可对输入序列比对数据进行基因组的SNP和INDEL变异进行检测；同时，可以对不同测序技术下的数据，设定新的训练参数，得到新的深度学习分类器来定制用于特定测序技术下的基因组短变异检测方法；本发明有效解决基因组变异检测问题；同时，相对于传统的深度学习方法，本发明兼顾检测耗时和检测精度，改进了图形编码方式且同时结合时序和图像特征，从而能够更好地检测基于PacBio的第三代测序数据中的INDEL变异，因此对于特定场景有更大的应用潜力。

请参阅图1，本发明一种基于第三代测序的基因组短变异深度学习检测方法，对序列比对数据和真实变异进行特征编码，通过深度学习算法推断基因组潜在突变位点的变异类型等信息，进而对序列比对数据进行变异检测，构建变异检出集，并可以对特定测序技术生成的数据集设定新的参数，训练新的深度学习分类器得到定制的、用于短变异检测的深度学习网络；具体步骤如下：

S1、解析序列比对BAM数据集和真实变异VCF数据集中的信息，统计各位点的变异相关信息，定义10类不同的变异变量，将变异基因型、合子类型、变异长度进行组合，基于各样本第三代测序技术的序列比对数据及其对应真实变异数据，将序列比对和真实变异信息编码后的堆积图像作为监督学习的数据，对应的变异基因型、合子类型以及变异长度的类别作为监督学习的分类标签，构成监督学习数据集，最后将监督学习数据集划分为训练集、验证集和测试集；

S101、从美国国立生物技术信息中心(National Center of BiotechnologyInformation，NCBI)数据库中下载瓶中基因组(Genome in a Bottle，GIAB)项目中参考基因组版本refver为GRC37的HG002.GRC37.pacbio.bam序列比对数据(ftp://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/)，使用Samtools软件按照染色体截取分别获得HG002样本第1至5号的序列比对数据HG002.GRC37.pacbio.chr1_5.bam，以及第20号染色体的序列比对数据HG002.GRC37.pacbio.chr20.bam，其中HG002.GRC37.pacbio.chr1_5.bam用于模型训练和验证，HG002.GRC37.pacbio.chr20.bam用于模型测试，对bam比对数据中每条染色体上的序列比对提取CIGAR字符串，并过滤低质量的序列。然后统计染色体、位置、突变前碱基数量、各突变后的碱基数量，对于插入或者缺失，标记为I或D，对于跳过参考序列的标记N，如实一同按照染色体计入文件can_fn_chr i(i＝1，2，3，4，5，20)，如图2所示；

S102、从NCBI上下载GIAB项目中参考基因组版本refver为GRC37的HG002.GRC37.vcf真实数据集和HG002.GRC37.highconfi.bed高置信度变异区间数据集，使用Bcftools软件按照染色体截取分别获得HG002样本第1至5号的真实变异数据HG002.GRC37.chr1_5.vcf，以及第20号的真实变异数据HG002.GRC37.chr20.vcf，对vcf真实变异数据中每条染色体上各位点统计染色体、位置、突变前后碱基类型和基因型，信息按照染色体计入文件var_fn_chr i(i＝1，2，3，4，5，20)，如图3所示；

S103、对于can_fn_chr i和var_fn_chr i(i＝1，2，3，4，5，20)里的每一个位点，以0初始化一个101×8×4的张量x，101代表一个变异的起始位置和两侧50个bp的碱基，8代表来自两个不同链的四个可能的碱基计数，4代表用4种不同的计数方式分别对参考(Ref)、插入(Insertion)、删除(Deletion)和点突变(SNP)这4种变异情况对应的碱基序列进行计数，以突出每个位点的Ref、Insertion、Deletion和SNP。然后使用由国际纯粹与应用化学联合会确立的IUPAC命名法对碱基的编码方式进行简化，并根据IUPAC2Num规则将对经过碱基编码方式简化后的碱基进行数字编码，并按位点和碱基类型累计后写入张量x，写入的方式采用根据上述所提及的4种不同计数方式，计数方式为：如果某位点标签是Ref，则分别将该位点及前后50bp范围内参考等位基因的碱基计数写入x第三维的第一通道；如果某位点标签是Insertion，则将插入序列的插入碱基readbase信息写入x第三维的第二通道；如果某位点标签是Deletion，则将缺失序列的缺失碱基refbase信息写入x第三维的第三通道；如果某位点标签是SNP，则将变异位点变换前后的碱基readbase信息写入x第三维的第四通道，对于can_fn_chr i和var_fn_chr i(i＝1，2，3，4，5，20)中变异统计信息生成的张量信息tensor_can_chr i和tensor_var_chr i(i＝1，2，3，4，5，20)，可视为堆积图像，最终对1-5号染色体上的堆积图像按照染色体进行数据合并，得到堆积图像数据tensor_can_chr 1_5、tensor_var_chr 1_5、tensor_can_chr 20和tensor_var_chr 20，x编码流程如图4所示；

请参阅图5，根据IUPAC命名法，将命名规则简化并将IUPAC碱基转换为数字。

请参阅图6、图7和图8，可视化图像编码规则生成的x。

S104、首先，对于用于模型训练和验证的tensor_var_chr 1_5和tensor_can_chr1_5，保留tensor_var_chr 1_5中所有真实变异对应的张量，并通过与tensor_var_chr 1_5进行比较，从tensor_can_chr 1_5中随机抽取一些非变异位点的堆积图像，初始化非变异与变异的比例为2:1，最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为1617250的训练集(验证集)；其次，对于用于模型测试的tensor_var_chr 20和tensor_can_chr 20，保留tensor_var_chr 20中所有真实变异对应的张量，并通过与tensor_var_chr20进行比较，从tensor_can_chr 20中随机抽取一些非变异位点的堆积图像，初始化非变异与变异的比例为2:1，最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为139098的测试集；然后，对这些堆积图像进行标注，标签为1×90的向量，其中前21位数表示由碱基构成的21种基因型(AA、AC、AG、AT、CC、CG、CT、GG、GT、TT、AI、CI、GI、TI、AD、CD、GD、TD、II、DD和ID)，其为任务1；第22-24位数代表3种合子类型(参考0/0、杂合子0/1、纯合子1/1)，其为任务2；第25-57位数代表INDEL一等位基因的33种变异长度1，其为任务3；第58-90位数代表INDEL另一等位基因的33种变异长度2，其为任务4，其中任务3或任务4中的33种变异长度可能属于以下三类情况的一种，即删除超过15bp(<-15bp)为一类、删除或插入-15bp到15bp之间的任何数量含31bp为一类、插入超过15bp(>15bp)为一类；

S105、对得到的数据集划分为训练集(1293800张)、验证集(323450张)和测试集(139098张)，其中训练集与验证集比例为8：2。

上述技术方案的有益效果是：

将序列比对编码信息简化的同时，利用不同任务不同分类结果的组合充分讨论了各种可能的变异变量，有助于提高分类任务的准确性。

S2、使用建立的监督学习数据集，构建以卷积神经网络和双向长短期记忆神经网络为核心的多任务多分类深度学习集成分类器，使用步骤S1的训练集、验证集、测试集分别用作深度学习分类器的训练、验证和测试，得到训练好的深度学习分类器；

S201、构建用于堆积图像特征提取的卷积神经网络，以及用于序列特征提取的双向长短期记忆神经网络，并使用这两个网络进行集成得到集成网络，将集成的网络命名为CLNN，网络框架如图9所示；

S202、构建的卷积神经网络与双向长短期记忆神经网络得到的特征展平为一维，再经全连接层后输出1×90维的概率分布向量，代表4个任务的预测变异类型概率分布；

S203、根据焦点损失函数，通过自适应矩估计及反向传播算法优化和更新卷积神经网络与双向长短期记忆神经网络的参数，针对4个任务，分别训练对应的深度学习分类器，设置初始学习率lr＝1×10^-3，训练批大小BatchSize＝10000，数据块大小BlockSize＝500，训练时数据集洗牌方式如图10所示，训练过程中训练损失变化如图11所示；

S204、将训练好的深度学习模型分别运用于对应的测试集中，使用分类F1-score指标评价深度学习分类器的分类准确度，得到训练好的深度学习分类器。

优化过程的损失函数具体为：

设有N个样本，Loss_t为任务t的损失，γ为聚焦系数，α为样本平衡参数，被用于解决样本不平衡问题，α_cg为基因型分类任务中第cg类的样本平衡参数，α_cz代表合子类型分类任务中第cz类的样本平衡参数，代表变异长度1分类任务中第cl₁类的样本平衡参数，代表变异长度2分类任务中第cl₂类的样本平衡参数，优化过程的损失函数Loss为：

其中，

训练时设置γ＝2。

上述技术方案的有益效果是：

通过建立集成网络，提取其他类型的特征以用来检测图像分类，从而进一步提高变异检测的效果，使用焦点损失函数，解决了数据集中类别不平衡的问题。

S3、对来自不同样本的堆积图像数据，利用得到的多任务多分类深度学习集成分类器对其进行分类预测，每张堆积图像的分类预测结果为一个1×90维的概率分布向量，选择堆积图像每个子任务的最大概率分布预测结果，得到该堆积图像的各任务分类结果；

S301、对于大小为D的基因组序列比对bam数据，如步骤S101中的HG002.GRCh37.pacbio.bam和另一序列比对数据HG001.GRCh37.pacbio.bam(ftp://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/)，按照20号染色体对各样本进行截取，根据步骤S101的CIGAR比对信息统计方法，将bam中比对信息进行解析统计，利用步骤S103中的IUPAC2Num规则和堆积图像编码方式，将各位点的比对信息其编码成一个101×8×4的张量，即堆积图像；

S302、对步骤S301中编码后的张量使用深度学习分类器进行预测，得到1×90的结果。

在预测过程中，对预测位点堆积图像的基因型、合子类型和变异长度进行组合，组合后的变异形式包括以下10类：

纯合参考HomRef、纯合点突变HomSNP、杂合点突变HetSNP、纯合插入HomIns、杂合插入HetOneIns(等位基因1发生碱基变换、等位基因2发生插入)、杂合插入HetTwoIns(等位基因1和2均发生插入)、纯合缺失HomDel、杂合缺失HetOneDel(等位基因1发生碱基变换、等位基因2发生缺失)、杂合缺失HetTwoDel(等位基因1和2均发生缺失)、杂合插入和缺失HetInsDel(等位基因1发生插入、等位基因2发生缺失)，根据深度学习分类器给出的每个任务的概率分布值，选择可能性最大的组合，从而决定变异的形式，如图12所示。

S4、使用步骤S3得到的各位点的变异分类结果，结合各堆积图像的碱基类型和变异长度，以及对应的染色体和位置信息，依照变异在染色体上的位置顺序按行构建最终的变异集，实现基因组变异检测；最后结合变异集评估工具的评估结果对模型的变异检测效果进行一个综合的评价。

S401、对于HG002.GRCh37.pacbio.chr20.bam序列比对数据预测后结合位点位置等信息生成的变异集HG002.pacbio.chr20.call.vcf，使用Rtg-tools变异评估工具对其进行评估，以F1-score为判断标准，同时与Longshot、GATK和Clair的检测结果进行比较，判断本发明的性能，整体结果如图13所示，短变异检测效果整体优于另外三种算法；

S402、对于HG001.GRCh37.pacbio.chr20.bam序列比对数据预测后结合位点位置等信息生成的变异集HG001.pacbio.chr20.call.vcf，同样使用Rtg-tools对其进行评估；

请参阅图14，并与Longshot、GATK和Clair算法进行比较，以判断变异检测模型的泛化能力。

本发明实施例利用深度学习分类器，不仅对INDEL的变异检测效果有较好的性能，也有效地提高了真实数据中SNP和INDEL的整体检测效果。

本发明再一个实施例中，提供一种基于第三代测序的基因组短变异深度学习检测系统，该系统能够用于实现上述基于第三代测序的基因组短变异深度学习检测方法，具体的，该基于第三代测序的基因组短变异深度学习检测系统包括数据模块、模型构建与训练模块、分类预测模块以及变异集构建模块。

其中，数据模块，构建监督学习数据集，并将监督学习数据集划分为训练集、验证集和测试集；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于第三代测序的基因组短变异深度学习检测方法的操作，包括：

构建监督学习数据集，并将监督学习数据集划分为训练集、验证集和测试集；构建以卷积神经网络和双向长短期记忆神经网络为核心的多任务多分类深度学习集成分类器，使用训练集、验证集和测试集分别用作深度学习分类器的训练、验证和测试，得到训练好的深度学习分类器；利用深度学习分类器对来自不同样本的各堆积图像进行分类预测，每张堆积图像的分类预测结果为一个1×90维的概率分布向量，选择堆积图像每个子任务的最大概率分布预测结果，得到对应堆积图像的各任务分类结果；使用各位点的分类结果，以及各堆积图像的碱基类型和变异长度，结合对应的染色体和位置信息，依照变异在染色体上的位置顺序按行构建最终的变异集，实现基因组变异检测。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于第三代测序的基因组短变异深度学习检测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基因组短变异检测结果的优势可以从以下几个方面中看出。

第一，对于基因组的短变异检测问题，深度学习算法可以将其视为一个多任务多分类问题，对此本发明训练了自己的深度学习分类器，该分类器的INDEL变异分类效果在测试的两个真实数据集上高于之前的方法。本发明使用NCBI数据库中的HG001和HG002两个样本的第20号染色体序列比对数据进行了变异检测测试。由于Longshot仅适用于SNP变异检测，在INDEL的变异检测问题上，本发明在实验中仅使用包含本发明在内的三种方法进行了比较实验，使用F1-score作为评价指标，得到的结果如图13(b)和图14(b)所示。可以看出，在INDEL变异检测效果上，本发明的方法相较于其他两种具有更高的F1-score，说明本发明CLNN-Caller的检测方法在INDEL变异检测上的效果更好。

第二，对于同一数据源，本发明比较了本发明与其他传统检测工具的效果。证明了本发明方法具有更好地处理真实第三代测序生物学数据的短变异检测问题的能力，不仅是在INDEL变异的检测上，本发明的方法在短变异检测上整体都具有更好的效果。本发明使用NCBI数据库中的HG001和HG002两个样本的第20号染色体序列比对数据进行了变异检测测试，不仅在INDEL变异检测上与其他方法进行了比较，在SNP和INDEL整体变异检测上也进行了包含本发明在内的四种方法进行了比较实验，如图13(a)和图14(a)所示。在整体上，本发明相较于其他三种具有更高的F1-score，说明本发明CLNN-Caller在短变异SNP和INDEL整体上具有更好的检测效果，证明了本发明方法具有更好地处理长读长基因组序列短变异检测问题的能力。

综上所述，本发明一种基于第三代测序的基因组短变异深度学习检测方法及系统，对第三代测序平台所产生的生物序列的图像编码方式进行设定，并根据真实变异集及对应的序列比对数据制作训练集、验证集和测试集；构建以卷积神经网络和双向长短期记忆神经网络为核心的深度学习多任务分类器，使用训练集和验证集对深度学习分类器进行训练和验证，使用测试集测试深度学习分类器的准确性；基于训练好的深度学习分类器对由序列比对或真实变异集生成的堆积图像进行分类预测；根据堆积图像的分类预测结果对序列比对数据进行变异位点检测，得到完整的候选变异信息，实现基因组短变异的自动检测，并具有稳定且优异的性能；最后基于真实的序列数据对短变异SNP和INDEL检测算法进行检验。将模型应用到现实场景下，检验了本发明的准确性和可行性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等，需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于第三代测序的基因组短变异深度学习检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S1具体为：

S103、对步骤S101和步骤S102中can_fn_chr i和var_fn_chr i里的每一个位点，以0初始化一个101×8×4的张量x，101代表一个变异的起始位置和两侧50个bp的碱基，8代表来自两个不同链的四个可能的碱基计数，4代表用4种不同的计数方式分别对参考、插入、删除和点突变对应的碱基序列进行计数；然后简化碱基的编码方式，并根据IUPAC2Num规则将对经过碱基编码方式简化后的碱基进行数字编码，并按位点和碱基类型累计后写入张量x，对于can_fn_chr i和var_fn_chr i中变异统计信息生成的张量信息tensor_can_chr i和tensor_var_chr i，视为堆积图像，最终对1-5号染色体上的堆积图像按照染色体进行数据合并，得到堆积图像数据tensor_can_chr 1_5、tensor_var_chr 1_5、tensor_can_chr 20和tensor_var_chr 20；

3.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S103中，按位点和碱基类型累计后写入张量x的计数方式如下：

4.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S104中，对堆积图像进行标注，标签为1×90的向量，前21位数表示由碱基构成的21种基因型作为任务1；第22-24位数代表3种合子类型作为任务2；第25-57位数代表INDEL一等位基因的33种变异长度1，作为任务3；第58-90位数代表INDEL另一等位基因的33种变异长度2，作为任务4，任务3或任务4中的33种变异长度属于以下三类情况的一种，即删除超过15bp为一类、删除或插入-15bp到15bp之间的任何数量含31bp为一类、插入超过15bp为一类。

5.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S2具体为：

6.根据权利要求5所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S203中，优化过程使用的多任务损失函数Loss为：

其中，Loss_t为任务t的损失。

7.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S3具体为：

8.根据权利要求7所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，在预测过程中，对预测位点堆积图像的基因型、合子类型和变异长度进行组合，组合后的变异形式如下：

9.根据权利要求1所述的基于第三代测序的基因组短变异深度学习检测方法，其特征在于，步骤S4具体为：

10.一种基于第三代测序的基因组短变异深度学习检测系统，其特征在于，包括：