CN108733974A

CN108733974A - 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法

Info

Publication number: CN108733974A
Application number: CN201710265077.5A
Authority: CN
Inventors: 王尧峰; 薛金会; 郭海燕; 王伟伟; 程恩泽
Original assignee: As An International Polytron Technologies Inc (liaoning) Gene
Current assignee: As An International Polytron Technologies Inc (liaoning) Gene
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2018-11-02
Anticipated expiration: 2037-04-21
Also published as: CN108733974B

Abstract

本发明属于基因组学技术领域，具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。本发明包括对总DNA进行高通量测序；测序数据的质控；基于类似宏基因组的序列拼接；线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装，具有实验简单，样本质量要求低，拼接完整度好，可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。

Description

一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法

技术领域

本发明属于基因组学技术领域，具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。

背景技术

线粒体是真核生物细胞中提供能量的细胞器，在生物体的能量转换和新陈代谢过程中占有核心地位。

线粒体内部含有DNA，称为线粒体DNA(mitochondrial DNA,mtDNA)，mtDNA组成了与细胞核不同的基因组，即线粒体基因组。线粒体基因组大小远小于核基因组，通常后生动物的线粒体基因组只有十几kb大小，植物线粒体基因组则稍大，为数百kb左右。

不同细胞中线粒体DNA拷贝数量差异很大，如肝脏细胞中可有1000-2000个线粒体，而红细胞内则没有线粒体。在不同个体间同样的组织中，线粒体数量的差异与个体间的健康状况有关，线粒体数量较少的个体表现得更加孱弱，线粒体数量的改变也与部分肿瘤的恶性转化、肿瘤进展、转移以及预后密切相关。

对线粒体基因组进行测序的方法主要分为两种：Sanger测序法和高通量测序法。目前大多数的线粒体测序工作由Sanger法完成，通过对线粒体的一些区域设计十几对引物进行PCR反应，再对PCR产物逐段进行测序。该法有着成本高、实验周期长和不能测定线粒体拷贝数和变异的缺点。

近年来随着技术的进步，高通量测序已经广泛地应用在生物学和医学的多个领域之中，其中也包括线粒体基因组的测序。利用高通量测序测定线粒体基因组序列遇到的主要问题是线粒体基因组在细胞总DNA中的占比很小，需要通过一定的手段将其放大。目前主流的方法一是通过设计多条引物，利用PCR或等温扩增的方法来增加线粒体基因组的比例；二是对样本进行处理，将线粒体从细胞中提取出来，再提取线粒体中的DNA。第一种方法仍然需要设计多对引物和进行扩增，具有设计麻烦和操作繁琐的缺点。第二种方法对样本质量要求较高，一些在酒精中保存的标本不能应用该方法。

发明内容

有鉴于此，针对上述的问题，本发明提供一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。

为实现上述目的，本发明采用技术方案为：

一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法，1)利用高通量测序技术对线粒体进行组装拼接；

2)测序数据与上述组装拼接进行比对；

3)使用Reseqtools软件计算经过质量控制数据的总碱基数，记为N_total；

4)计算拼接后的线粒体DNA总长度，记为S_mito；

5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数，记为N_mito；

6)归一化计算样本的拷贝数M＝(N_mito/S_mito)/N_total。

所述对线粒体进行组装拼接为：

(1)利用高通量测序技术对样本进行测序；

(2)对高通量测序数据进行质量控制；

(3)基于类似宏基因组方法的序列拼接；

(4)从拼接数据中筛选出线粒体序列。

所述步骤(1)中用作测序的样本不需要专门的线粒体分离或线粒体DNA分离。测序实验包括DNA提取、pair-end测序文库库的的构建和高通量测序。所有实验均可使用市售试剂盒进行。

进一步地，所述步骤1中高通量测序的测序量应不低于所测样本基因组大小的25％。优选地，与所测样本基因组大小相等。

根据本发明的技术方案，所述步骤2中，测序数据的质量控制包括去除测序接头、无插入片段序列和低质量数据等不需要的数据。

进一步的说所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。

所述步骤(3)基于类似宏基因组方法使用SPAdes软件进行序列拼接；并且使用宏基因组拼接模式。

所述使用SPAdes软件进行序列拼接时使用--meta参数开启宏基因组模式；拼接的kmer值选择33，55，77，优选为55。

所述步骤(4)从拼接数据中筛选出线粒体序列的具体方法为：

①对在所述步骤(3)中给出的拼接结果，按照输出的kmer覆盖度排序；

②使用blast软件将覆盖度较大的序列与已知的线粒体DNA序列进行比对，alignment length大于7kb者可确定为线粒体DNA序列(因为线粒体的拷贝数远大于基因组，因此结果中覆盖度较大的scaffold即可能为线粒体DNA序列)。

所述所述步骤2)中使用bowtie，bowtie2或bwa软件将原始样本测试数据reads比对到拼接好的线粒体序列上并输出bam格式文件。优选地，使用bowtie2将原始reads比对到拼接好的线粒体序列上。

所述所述步骤6)中归一化拷贝数M的量纲为copy/bp；对于来源于同一物种的样本，该数值可以直接进行比较。

本发明所具有的优点：本发明使用高通量测序的方法进行线粒体DNA测序，实验周期较一代测序短，单位成本低；与其它线粒体高通量测序方法相比，本方法在不需要进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装。本方法实验简单，样本质量要求低，对于长时间保存的样本也能获得完整度较好的拼接结果。同时，由于不进行扩增，可以保持样本中线粒体DNA含量信息，因此可以计算样本的线粒体相对含量。本发明的技术方案在中华绒螯蟹上进行了验证，而本发明之方法在理论上可以适用于所有真核生物。因此，本发明可以在一定程度上满足科研及应用需求。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了更好的说明本发明，下面结合具体实施方式做进一步说明。除有特殊说明外，本发明中所用的试剂、设备或方法等都是本领域技术人员所熟知的，在此不再赘述。

本发明包括对总DNA进行高通量测序；测序数据的质控；基于类似宏基因组的序列拼接；线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装，具有实验简单，样本质量要求低，拼接完整度好，可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。

实施例1

三例中华绒螯蟹的线粒体DNA测序与拼接，包括以下步骤：

1.对3只中华绒螯蟹的肌肉组织总DNA，进行超声打断至500-700bp，并使用DNA文库构建试剂盒构建高通量测序文库。

2.对构建高通量测序文库并使用NextSeq500高通量测序仪进行测序，每个样本测序量为2G。并使用bcl2fastq软件将测序结果转化为fastq格式。

3.使用Trimmomatic软件对测序数据进行质量控制，具体关键参数为：LEADING:5TRAILING:5SLIDINGWINDOW:4:15MINLEN:30，得到高质量的测序数据。

4.使用SPAdes软件对上述高质量的测序数据进行拼接，具体关键参数为：--meta-k 55(参见表1)。

5.对照组使用velvet软件对上述高质量的测序数据进行拼接，具体关键参数为：-cov_cutoff 30-ins_length 700-ins_length_sd 100-exp_cov auto-min_contig_lgth100。拼接结果在contigs.fa中，之后使用blast软件与已知序列比对，其比对e-value最小者为拼接的线粒体DNA序列(参见表1)。

6.对照组使用bowtie2软件对上述高质量测序数据比对到已公开的中华绒螯蟹线粒体DNA序列上，再将比对成功的序列使用velvet软件进行拼接，具体关键参数同步骤5。拼接结果在contigs.fa中(参见表1)。

7.在SPAdes拼接结果的scaffold.fasta文件中找到kmer覆盖度最高的序列，使用blast软件与已知序列比对，结果证明其时线粒体序列。

三个样本的序列拼接结果如下：

拼接结果表明，本方法较之于其它方法，对于有线粒体DNA参考序列可以先行进行比对的情况，拼接长度长约100-700bp，覆盖度高一倍。与已公布的中华绒螯蟹线粒体基因组大小16353bp相比，本方法仅有100-200bp未能拼接，可以结合1次sanger测序反应即可补完。对于无线粒体DNA参考序列可以比对的情况，其它方法不能完成序列的拼接，只能在测序前样本的处理处理中采用更加复杂的技术路线。

实施例2

不同测序量及线粒体DNA序列占比对拼接效果的影响，步骤如下：

1.模拟不同测序量及线粒体DNA序列比例的数据。使用实施例1中样本的高质量测序数据，随机选取其中1/3，1/6及1/12的数据，并使用不含线粒体DNA的数据与前述随机选取的数据合并，至总数据量达到2G，1G及0.5G。

2.使用SPAdes软件对模拟数据进行拼接，拼接过程参照上述实施例1中步骤4进行操作。

3.在拼接结果中找到拼接出的线粒体DNA序列，方法与实施例1中步骤7相同。

模拟结果的拼接结果如下：

样本	数据大小(bp)	样本1序列占比	拼接长度(bp)	kmer覆盖度
					E1	2G	1/3	16096	127.98
E2	1G	1/6	16096	64.34
					E3	0.5G	1/12	16091	31.79

结果表明，即使数据中线粒体DNA含量降至原数据的1/12，依然能够得到较长的拼接结果，且仍具有一定得覆盖度。这表明本方法亦适用于更加不理想的样本处理。

实施例3

测序数据中线粒体拷贝数的计算，步骤如下：

1.测序及拼接数据为实施例1使用的数据及拼接结果。使用Reseqtools软件查看高质量数据的总碱基数，记为N_total。

2计算拼接后的线粒体DNA总长度，记为S_mito。

3使用bowtie2软件将高质量数据比对到线粒体拼接结果序列上，并生成sam数据文件。使用samtools的flagstat功能对上述sam文件进行计算，得到能够比对到线粒体DNA序列的reads的总碱基数，记为N_mito。

4计算样本的归一化拷贝数M＝(N_mito/S_mito)/N_total。结果如下：

样本	N_total(bp)	S_mito(bp)	N_mito(bp)	M(copy/Mbp)
					1	2076738069	16218	131503653	3.90
2	1521214422	16134	130161045	5.30
					3	2075858406	16169	130726365	3.89

Claims

1.一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：

1)利用高通量测序技术对线粒体进行组装拼接；

2)测序数据与上述组装拼接进行比对；

4)计算拼接后的线粒体DNA总长度，记为S_mito；

6)归一化计算样本的拷贝数M＝(N_mito/S_mito)/N_total。

2.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述对线粒体进行组装拼接为：

(1)利用高通量测序技术对样本进行测序；

(2)对高通量测序数据进行质量控制；

(3)基于类似宏基因组方法的序列拼接；

(4)从拼接数据中筛选出线粒体序列。

3.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述步骤(1)中高通量测序的测序量应不低于所测样本基因组大小的25％。

4.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。

5.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述步骤(3)基于类似宏基因组方法使用SPAdes软件进行序列拼接；并且使用宏基因组拼接模式。

6.按权利要求5所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述使用SPAdes软件进行序列拼接时使用--meta参数开启宏基因组模式；拼接的kmer值选择33，55，77。

7.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述步骤(4)从拼接数据中筛选出线粒体序列的具体方法为：

②使用blast软件将覆盖度较大的序列与已知的线粒体DNA序列进行比对，alignmentlength大于7kb者可确定为线粒体DNA序列。

8.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述所述步骤2)中使用bowtie，bowtie2或bwa软件将原始样本测试数据reads比对到拼接好的线粒体序列上并输出bam格式文件。

9.按权利要求1所述的基于高通量测序测定的线粒体序列拼接及拷贝数测定的方法，其特征在于：所述所述步骤6)中归一化拷贝数M的量纲为copy/bp。