CN108595915A

CN108595915A - 一种基于dna变异检测的三代数据校正方法

Info

Publication number: CN108595915A
Application number: CN201810336881.2A
Authority: CN
Inventors: 高敬阳; 高峰; 陈禹保
Original assignee: BEJING COMPUTING CENTER; Beijing University of Chemical Technology
Current assignee: BEJING COMPUTING CENTER; Beijing University of Chemical Technology
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-09-28
Anticipated expiration: 2038-04-16
Also published as: CN108595915B

Abstract

本发明提供了属于生物信息技术领域的一种基于DNA变异检测的三代数据校正方法，首先将三代测序数据处理后作为参考序列数据，然后将二代测序数据处理后与其进行比对，得到比对文件。对比对文件进行变异分析检测，可以得到二代测序数据相对于三代测序数据的变异信息，利用变异信息完成对三代测序数据的校正。将DNA变异检测方法应用到三代测序数据纠错中，联合使用二代测序数据与三代测序数据，降低三代数据校正的成本，程序采用多线程的思想，加快三代数据的校正速度。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题，为后续的三代测序数据变异检测方面奠定基础。

Description

一种基于DNA变异检测的三代数据校正方法

技术领域

本发明属于生物信息技术领域，具体来说，涉及一种基于DNA变异检测的三代数据校正方法。

背景技术

随着三代测序技术的发展，测序数据的片段长度不断提高，同时随着精准医疗的提出与发展，测序数据的规模呈现爆炸性的增长。现阶段正是二代测序技术向三代测序技术的过渡阶段，由于三代测序技术中存在的一些缺陷，制约着三代测序技术的发展与应用。现在采用的是三代测序数据校正软件主要有FALCON和PBcR两种，它们使用三代数据自纠错的方法对测序数据进行校正，主要分为两步：

①将参考模板序列与候选序列进行两两比对获得参考模板序列的多重比对结果；

②通过多重序列比对结果推断正确结果。

三代数据自纠错方法对测序深度有较高要求，增大了测序的成本，而且这两款软件进行自纠错时所需要的时间较长，这主要是由于自比对算法Daligner和MHAP导致的。

发明内容

为解决上述技术问题，本发明提供了一种基于DNA变异检测的三代数据校正方法，首先将三代测序数据处理后作为参考序列数据，然后将二代测序数据处理后与其进行比对，得到比对文件。对比对文件进行变异分析检测，可以得到二代测序数据相对于三代测序数据的变异信息，利用变异信息完成对三代测序数据的校正。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题，为后续的三代测序数据变异检测方面奠定基础。

一种基于DNA变异检测的三代数据校正方法，其特征在于，包括以下步骤：

(a)数据格式转换，包括并行的线程1和线程2：

线程1：将原始三代fastq数据进行处理转换为fasta格式数据并保存，并对其建立索引得到三代fasta参考序列集合；

线程2：得到作为数据比对的二代fastq初始序列集合；

(b)DNA变异检测：

将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对，得到比对结果所生产的bam文件；对bam文件进行质量控制，根据bam文件中的序列质量信息，去除低质量的序列，然后进行序列去重；对去重后的文件进行Indel Realigner，对到indel附近的reads进行局部重新比对；对bam文件中的reads进行碱基质量值的重新校正，使最后输出的bam文件中reads的质量值接近真实值，以此作为三代数据校正所使用的数据集合；使用DNAseq对此数据进行变异检测，得到二代Illumina数据与三代数据之间的变异信息，即三代数据中存在的测序错误的位置；

(c)mapping区域碱基校正。

优选的，所述线程1中，将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。

优选的，所述线程2中，具体过程为：去除二代Illumina测序数据中的primer和adapter，并且根据read的质量信息，将低质量的read去除。

优选的，所述步骤(b)DNA变异检测中，对bam文件进行序列去重是去除PCR扩增中被过量扩增，非基因组中存在且不能作为校正的依据的序列。

优选的，所述步骤(c)mapping区域碱基校正具体过程为：提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存，对三代数据每条序列根据每个变异位点的三代和二代碱基序列，进行替换，将三代碱基序列替换为二代碱基序列，完成三代数据的校正。

本发明的技术优势：

1、本发明将DNA变异检测方法应用到三代测序数据纠错中，联合使用二代测序数据与三代测序数据，降低三代数据校正的成本，程序采用多线程的思想，加快三代数据的校正速度。

2、由于三代测序技术的准确度较低，测序数据的可信度偏小，同时，三代测序的成本较高，制约着三代测序技术的应用前景。使用二代测序数据对三代测序数据进行校正，有利于提高三代测序的准确度，降低三代测序的成本，方便进行后续的数据分析。

3、通过本发明可实现快速高效的三代数据校正，解决了现有技术中三代测序数据错误率高和后续研究需求大之间的矛盾，提高三代测序数据在拼接和变异检测方面的可用性。

附图说明

图1是实施例1中基于DNA变异检测的三代数据校正方法的逻辑流程图。

具体实施方式

下面结合具体的实施例对本发明所述的一种基于DNA变异检测的三代数据校正方法做进一步说明，但是本发明的保护范围并不限于此。

针对三代测序技术中存在的高成本高错误率方面的问题，利用二代测序数据成本低准确度高方面的优势，提出了如图1所示的一种三代测序数据的校正方法，包括如下三个模块：

(a)数据格式转换模块：将原始三代fastq数据进行处理，去除低质量序列和接头序列，然后转换为fasta格式数据并保存，并对其建立索引，作为二代Illumina测序数据的参考基因组，去除二代Illumina测序数据中的primer和adapter，并且根据read的质量信息，将低质量的read去除，作为数据比对的序列集合。

(b)DNA变异检测模块：将二代Illumina测序数据与三代测序数据数据生成的fasta数据使用bwa-mem算法进行比对，得到比对结果所生产的bam文件。对bam文件进行质量控制，根据bam文件中的序列质量信息，去除低质量的序列，然后进行序列去重。由于PCR扩增会使一些序列被过量扩增，这些扩增的序列会比对到相同的位置上，二这些过量扩增的序列并非基因组中存在的序列，不能作为校正的依据，所以需要去除此类序列。由于在indel附近的比对会存在大量的碱基错配，容易在校正过程被认为是测序错误所产生的错误碱基，需要对去重后的文件进行Indel Realigner，即对比对到indel附近的reads进行局部重新比对，将错误率降到最低。为了进一步精确查找到三代测序数据中错误测序所在的位置，需要对bam文件中的reads进行碱基质量值的重新校正，使最后输出的bam文件中reads的质量值接近真实值，以此作为三代数据校正所使用的数据集合。使用DNAseq对此数据进行变异检测，得到二代Illumina数据与三代数据之间的变异信息，即三代数据中存在的测序错误的位置。

(c)mapping区域碱基校正模块：提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存，对三代数据每条序列根据每个变异位点的三代和二代碱基序列，进行替换，将三代碱基序列替换为二代碱基序列，即可完成三代数据的校正。

实施例1

测试所用的三代数据是由PacBio公司提供的85X大肠杆菌(Escherichia coliK12MG1655Methylome)测序数据(下载地址：https://github.com/PacificBiosciences/DevNet/wiki/Datasets)，所用二代数据是从NCBI的sra数据库下载的编号为ERR022075的290X的大肠杆菌Illumina(Escherichia coli K12MG1655Methylome)测序数据，所选的参考基因组是从NCBI的Genome数据库下载的Escherichia coli K12MG1655的标准参考基因，(下载地址：https://www.ncbi.nlm.nih.gov/genome/167？genome_assembly_id＝161521)。

设置PacBio数据的覆盖度梯度分别为10X，20X，30X三组，设置Illumina数据的覆盖度为30X。首先将PacBio数据比对到参考基因组，统计sam文件中第6列的mapping信息中插入和缺失的碱基数量，计算其测序错误率。然后对二代测序数据和三代测序数据运用上述方法进行数据校正，计算校正后的三代数据错误率。具体实施过程如下：

1.提取85X的三代测序数据中的约八分之一，八分之二，八分之三组成10X、20X和30X的不同三代数据覆盖度梯度；提取290X的约十分之一组成30X的二代数据测试集。

2.将所有的测试所用的二代和三代fastq数据使用NGSQCToolkit去除引物、连接头和低质量的数据；将不同深度的三代测序PacBio数据转为fasta数据，作为二代数据的参考序列，同时是待纠错的数据集。

3.将处理后的二代数据使用bwa-mem比对到fasta格式的三代数据上，得到bam文件，去除bam文件中低质量序列后进行序列去重；然后对Indel附近的reads重新进行局部比对，将错误率降到最低；最后对bam文件中reads进行碱基质量的重新校正，使bam文件中reads的质量值接近真实值，以此作为三代数据校正所使用的序列集合。使用DNAseq对此数据进行变异检测，得到二代数据相对于三代数据的变异信息，保存在vcf文件中，即三代数据中存在的测序错误位置。

4.提取上一步产生的vcf文件中第一列三代数据序列名称，第二列变异所在的位点，第四列三代数据在此位点的碱基序列，第五列二代数据在此位点的碱基序列，按照序列名称分别保存；然后对每条序列根据变异位点将三代碱基序列替换为二代碱基序列，即可完成三代数据的校正。

汇总校正前后三代数据的错误率结果如下表1：

表1

根据上述步骤使用大肠杆菌数据进行测试，对校正前后的数据精确度进行比较，可以看出本方法稳定地可以提高三代数据的准确度。

使用85X的三代测序数据和30X的二代测序数据在相同的集群(2.5G Hz CPU,64GB内存)中进行数据校正，本方法在处理速度上优于其他方法，结果如下表2：

表2

名词解释：

FALCON：Falcon是PacBio开发的一款用于三代基因组devono拼接软件，其中的校正程序是FC_consensus，使用Daligner比对算法进行比对后校正。

PBcR：一款三代测序数据的组装软件，在其中使用了一种自纠错算法，纠错算法核心是MHAP比对算法。

MHAP：一种三代数据的序列自比对算法。

Daligner：一种三代数据的序列自比对算法。

Fastq：一种测序数据的存储格式，每个序列通常有四行：第一行，序列标识以及相关的描述信息，以‘@’开头；第二行是序列；第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加；第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

！”*((((***+))％％％++)(％％％％).1***-+*”))**55CCF＞＞＞＞＞＞CCCCCCC65

Fasta：Fasta格式首先以大于号“＞”开头，接着是序列的标识符；换行后是序列的描述信息；换行后是序列信息。

＞gi|46575915refNM_008261.2|Mus musculus hepatic nuclear factor 4，alpha(Hnf4a)，mRNA

GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG

CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC

CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG

CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG

GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA

CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT

Primer、adapter：引物、连接头。在进行测序过程中人为增加到待测序片段上的物质，在分析数据阶段需要去除。

Read：测序片段。

Illumina：一家生物科技公司，旗下有Illumina系列测序仪，这些测序仪产生的数据称为Illumina测序数据。此为二代数据，读长较短，200bp左右，准确率高

PacBio：加州太平洋生物科学公司Pacific Biosciences of California的缩写，旗下有PacBio系列的测序仪，这些测序仪产生的测序数据成为PacBio数据。此为三代数据，读长长，几kb～几十kb之间，错误率高。

Bwa-mem：一种健壮的序列比对算法。

PCR：聚合酶链式反应，一种用于放大扩增特定的DNA片段的分子生物学技术，它可看作是生物体外的特殊DNA复制，PCR的最大特点，是能将微量的DNA大幅增加。

Indel：insertion-deletion的缩写，小片段的插入和缺失。

Indel Realigner：对比对到indel附近的reads进行局部重新比对。

DNAseq：Sentieon公司开发的一款用于检测单碱基变异和Indel的软件。

Base Recalibration：碱基重新校正，DNAseq软件中的一个步骤，提高变异检测的准确度。

Call vcf：进行变异检测。

Vcf：Variant Call Format，用于记录variants(SNP/InDel)的文件格式。

85/290X：测序深度的表示方式，85X代表测序深度为85。

NCBI：NCBI(National Center for Biotechnology Information)是指美国国立生物技术信息中心。提供多种数据库的查询与下载。

Sra：NCBI中提供的一种数据库，其中的数据都为sra格式，可以转换为fastq格式或者bam格式的数据。

ERR022075：sra库中的一个索引号。

NGSQCToolkit：用于进行质量检查和高质量数据的过滤的一款软件。

以上例子结合附图本发明的实施方式做了说明。尽管只对本发明的一些具体实施方式和技术要点做出了描述，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明的宗旨前提下做出各种变化。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种基于DNA变异检测的三代数据校正方法，其特征在于，包括以下步骤：

(a)数据格式转换，包括并行的线程1和线程2：

线程2：得到作为数据比对的二代fastq初始序列集合；

(b)DNA变异检测：

(c)mapping区域碱基校正。

2.根据权利要求1所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述线程1中，将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。

3.根据权利要求1或2所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述线程2中，具体过程为：去除二代Illumina测序数据中的primer和adapter，并且根据read的质量信息，将低质量的read去除。

4.根据权利要求3所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述步骤(b)DNA变异检测中，对bam文件进行序列去重是去除PCR扩增中被过量扩增，非基因组中存在且不能作为校正的依据的序列。

5.根据权利要求1、2或4中任意一条所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述步骤(c)mapping区域碱基校正具体过程为：提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存，对三代数据每条序列根据每个变异位点的三代和二代碱基序列，进行替换，将三代碱基序列替换为二代碱基序列，完成三代数据的校正。