CN114664379A

CN114664379A - 一种基于深度学习的第三代测序数据的自校正纠错方法

Info

Publication number: CN114664379A
Application number: CN202210380222.5A
Authority: CN
Inventors: 张艳菊; 王鹤杰; 陈嘉豪; 蓝小斌
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-06-24

Abstract

本发明公开了一种基于深度学习的第三代测序数据的自校正纠错方法，该方法是通过对第三代DNA测序数据进行质量控制，得到高质量的测序序列；将高质量测序序列与其对应的参考基因组进行比对，得到比对序列MSA；对高质量测序序列生成的MSA进行定长的切片，对于每个片段，提取其中的有用特征，并将其编码成图像；将图像视为训练集，训练深度学习模型；对未纠错的序列uncorrected reads执行自我比对，得到比对序列uncorrected MSA进行定长的切片，对于每个片段，提取其中的有用特征，并将其编码成图像；将uncorrected reads编码成的图像，输入训练完成的深度学习模型中进行分类，若分类结果与真实图像中心位置碱基种类不匹配，则纠正真实图像；对纠正后的图像进行反编码，生成纠错后的corrected reads。

Description

一种基于深度学习的第三代测序数据的自校正纠错方法

技术领域

本发明涉及生物信息技术领域，具体是一种基于深度学习的第三代测序数据的自校正纠错方法。

背景技术

近年来，第三代测序技术突飞猛进，其最主要的优势是能够提供平均长度超过10kbp的长读段。这种长读段可以解决第二代测序技术由于自身的读长限制(通常小于200bp)造成的瓶颈。例如，小于200bp的读段很难组装出跨越大结构变异的基因区域，也很难检测出RNA水平上的基因融合和可变剪接事件。而第三代测序技术产生的长读段通常足以完整地覆盖这些变异区域，这使得它在组装的质量和连续性上都超过二代测序数据。除此之外，与第一代和第二代测序平台不同，第三代测序平台不再需要PCR扩增，这可以减少GC偏差，并加快测序时间。

但第三代测序技术存在一个明显的缺点。由于信噪比较低，导致其测序结果的错误率相对较高。由于测序工作流程中使用了不同的技术，不同公司推出的测序平台拥有特定的错误模式。Oxford公司推出的Nanopore链测序平台的错误率为6-15%，PacBio公司推出的单分子实时测序(SMRT)平台的错误率通常为13-15%。较高的错误率不利于组装和SNP分析等下游应用，因此降低测序数据的错误率通常是不可或缺的步骤。

目前针对第三代DNA测序数据的计算性纠错方法主要有两种，分别为混合校正策略和自校正策略。混合校正策略使用低错误率的二代测序数据来提高三代测序数据的准确率，但由于其需要同时拥有一个样本的二代和三代测序数据，在测序实验步骤往往会花费更多的时间和成本。

自校正策略避免使用二代测序数据，仅使用三代测序数据自身序列中包含的信息来校正自身。目前存在两种不同的自校正策略：(1)多序列比对：使用三代测序的长读段自身进行比对，比对成功后通过计算读段的一致性序列来执行校正；(2)使用长读段的k-mers构建de Bruijn图。这种方法先使用部分高质量的长读段构建图，之后将其余长读段逐步锚定在图中，通过遍历寻找允许将长读段锚定区域链接在一起的路径，来校正未锚定区域。

以上现有技术存在如下缺陷：通常导致读长缩短，削弱三代测序的长读长带来的优势；纠错时通常会舍弃难以矫正的片段，导致部分测序结果丢失；在大规模基因组上的纠错效果不好，不能大幅降低错误率；序列比对和一致性计算的步骤耗时长，导致整个纠错过程速度慢；自校正策略需要测序数据满足一定深度的限制才能生效。

发明内容

本发明的目的在于克服背景技术中所述的问题，减少输出读段的错误率，而提供一种基于深度学习的第三代测序数据的自校正纠错方法。

实现本发明目的的技术方案是：

一种基于深度学习的第三代测序数据的自校正纠错方法，包括如下步骤：

1）对第三代DNA测序数据进行质量控制，得到高质量的测序序列，具体是：

1-1）获取原始测序数据的碱基质量分数和序列质量分数，并利用统计分析手段计算其GC含量、序列重复级别；

1-2）对各项条件设定最低阈值，筛选出高于阈值部分的序列，视为高质量的测序序列；

2）将步骤1）得到的高质量测序序列与其对应的参考基因组进行比对，得到比对序列MSA；

3）对高质量测序序列生成的MSA进行定长的切片，对于每个片段，提取其中的有用特征，并将其编码成图像；具体是：

3-1）对高质量测序序列生成的MSA进行定长切片，且仅保留范围内比对序列数量大于规定阈值的切片；

3-2）对于每个切片片段，提取其中的碱基频率、测序质量、比对质量三个特征，每种特征作为图片的一个通道；

4）将步骤3）得到的图像视为训练集，训练深度学习模型；具体是：

4-1）将每张高质量测序序列生成的图像，取其中心位置处参考基因组的碱基种类作为其标签；

4-2）使用卷积神经网络对图像进行特征提取和分类，分类结果含义为每张图像中心位置处参考基因组的碱基种类；

5）对未纠错的序列uncorrected reads执行自我比对，得到比对序列uncorrectedMSA；

6）对步骤5）中序列uncorrected reads生成的uncorrected MSA，采用步骤3）的方法进行定长的切片，对于每个片段，提取其中的有用特征，并将其编码成图像；

7）对uncorrected reads编码成的图像，输入步骤4）训练完成的深度学习模型中进行分类，若分类结果与真实图像中心位置碱基种类不匹配，则纠正真实图像；具体是：

7-1）对uncorrected reads编码成的图像，使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测；

7-2）若预测出的碱基种类与真实图像中心位置碱基种类不匹配，则将真实图像的中心位置修正为预测的种类；

8）对纠正后的图像进行反编码，生成纠错后的corrected reads。

本发明提供的一种基于深度学习的第三代测序数据的自校正纠错方法，该方法实现了第三代DNA测序序列的纠错，有效降低了三代测序技术在大规模基因组上的错误率；提升了三代测序技术在大规模基因组上的纠错效率，减少了所需速度和计算资源需求；测序序列较低的错误率，有助于保障下游分析得出结论的正确性，也有助于提升后续组装的质量。

附图说明

图1为一种基于深度学习的第三代测序数据的自校正纠错方法的流程图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示：

具体地可以使用FastQC软件对下机数据进行统计分析和过滤筛选。

2）将步骤1）得到的高质量测序序列与其对应的参考基因组进行比对，得到比对序列MSA；具体可以使用比对软件Minimap2将高质量测序序列比对到其对应的参考基因组上，得到它的比对文件。

3-1）对高质量测序序列生成的MSA进行长度为15个碱基的定长切片，且仅保留范围内比对序列数量大于10条的切片；

3-2）对于每个切片片段，提取其中的碱基频率、测序质量、比对质量等特征，每种特征作为图片的一个通道。最终，每个切片片段生成一张3×15×4的图片，并将图片等比拉伸至3×255×255的大小；

4-1）将每张高质量测序序列生成的图像，取其中心位置处参考基因组的碱基种类作为其标签，共A、T、C、G四种标签；

4-2）使用卷积神经网络inception_v4对图像进行特征提取和分类，分类结果含义为每张图像中心位置处参考基因组的碱基种类，该任务为四分类任务，将中心位置处碱基分类为A、T、C、G四种中的一种；

使用比对软件Minimap2将uncorrected reads比对到自身，得到它的比对文件。

6）对步骤5）中序列uncorrected reads生成的uncorrected MSA，采用步骤3）的方法进行定长的切片，对于每个片段，提取其中的有用特征，并将其编码成图像；具体是：

6-1）对uncorrected reads生成的MSA进行长度为15个碱基的定长切片，且仅保留范围内比对序列数量大于10条的切片，记录切片中心位置碱基在原MSA上的坐标；

6-2）对于每个切片片段，提取其中的碱基频率、测序质量、比对质量等特征，每种特征作为图片的一个通道，最终，每个切片片段生成一张3×15×4的图片，并将图片等比拉伸至3×255×255的大小；

7-1）对uncorrected reads编码成的图像，使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测，该任务为四分类任务，将中心位置处碱基分类为A、T、C、G四种中的一种；

8）对纠正后的图像进行反编码，生成纠错后的corrected reads；具体是：

8-1）对每张图片，若经过步骤7）后图片被修正，则根据切片中心位置碱基在原MSA上的坐标，对原MSA上的对应碱基进行修正；

8-2）输出一致性序列，作为纠错后的corrected reads。

Claims

1.一种基于深度学习的第三代测序数据的自校正纠错方法，其特征在于，包括如下步骤：

8）对纠正后的图像进行反编码，生成纠错后的corrected reads。