CN108733974B - 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法 - Google Patents

一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法 Download PDF

Info

Publication number
CN108733974B
CN108733974B CN201710265077.5A CN201710265077A CN108733974B CN 108733974 B CN108733974 B CN 108733974B CN 201710265077 A CN201710265077 A CN 201710265077A CN 108733974 B CN108733974 B CN 108733974B
Authority
CN
China
Prior art keywords
splicing
sequencing
mitochondrial
sequence
throughput sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710265077.5A
Other languages
English (en)
Other versions
CN108733974A (zh
Inventor
王尧峰
薛金会
郭海燕
王伟伟
程恩泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinan International Liaoning Gene Technology Co ltd
Original Assignee
Yinan International Liaoning Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinan International Liaoning Gene Technology Co ltd filed Critical Yinan International Liaoning Gene Technology Co ltd
Priority to CN201710265077.5A priority Critical patent/CN108733974B/zh
Publication of CN108733974A publication Critical patent/CN108733974A/zh
Application granted granted Critical
Publication of CN108733974B publication Critical patent/CN108733974B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明属于基因组学技术领域,具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。本发明包括对总DNA进行高通量测序;测序数据的质控;基于类似宏基因组的序列拼接;线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装,具有实验简单,样本质量要求低,拼接完整度好,可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。

Description

一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
技术领域
本发明属于基因组学技术领域,具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。
背景技术
线粒体是真核生物细胞中提供能量的细胞器,在生物体的能量转换和新陈代谢过程中占有核心地位。
线粒体内部含有DNA,称为线粒体DNA(mitochondrial DNA,mtDNA),mtDNA组成了与细胞核不同的基因组,即线粒体基因组。线粒体基因组大小远小于核基因组,通常后生动物的线粒体基因组只有十几kb大小,植物线粒体基因组则稍大,为数百kb左右。
不同细胞中线粒体DNA拷贝数量差异很大,如肝脏细胞中可有1000-2000个线粒体,而红细胞内则没有线粒体。在不同个体间同样的组织中,线粒体数量的差异与个体间的健康状况有关,线粒体数量较少的个体表现得更加孱弱,线粒体数量的改变也与部分肿瘤的恶性转化、肿瘤进展、转移以及预后密切相关。
对线粒体基因组进行测序的方法主要分为两种:Sanger测序法和高通量测序法。目前大多数的线粒体测序工作由Sanger法完成,通过对线粒体的一些区域设计十几对引物进行PCR反应,再对PCR产物逐段进行测序。该法有着成本高、实验周期长和不能测定线粒体拷贝数和变异的缺点。
近年来随着技术的进步,高通量测序已经广泛地应用在生物学和医学的多个领域之中,其中也包括线粒体基因组的测序。利用高通量测序测定线粒体基因组序列遇到的主要问题是线粒体基因组在细胞总DNA中的占比很小,需要通过一定的手段将其放大。目前主流的方法一是通过设计多条引物,利用PCR或等温扩增的方法来增加线粒体基因组的比例;二是对样本进行处理,将线粒体从细胞中提取出来,再提取线粒体中的DNA。第一种方法仍然需要设计多对引物和进行扩增,具有设计麻烦和操作繁琐的缺点。第二种方法对样本质量要求较高,一些在酒精中保存的标本不能应用该方法。
发明内容
有鉴于此,针对上述的问题,本发明提供一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。
为实现上述目的,本发明采用技术方案为:
一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法,1)利用高通量测序技术对线粒体进行组装拼接;
2)测序数据与上述组装拼接进行比对;
3)使用Reseqtools软件计算经过质量控制数据的总碱基数,记为Ntotal
4)计算拼接后的线粒体DNA总长度,记为Smito
5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数,记为Nmito
6)归一化计算样本的拷贝数M=(Nmito/Smito)/Ntotal
所述对线粒体进行组装拼接为:
(1)利用高通量测序技术对样本进行测序;
(2)对高通量测序数据进行质量控制;
(3)基于类似宏基因组方法的序列拼接;
(4)从拼接数据中筛选出线粒体序列。
所述步骤(1)中用作测序的样本不需要专门的线粒体分离或线粒体DNA分离。测序实验包括DNA提取、pair-end测序文库库的的构建和高通量测序。所有实验均可使用市售试剂盒进行。
进一步地,所述步骤1中高通量测序的测序量应不低于所测样本基因组大小的25%。优选地,与所测样本基因组大小相等。
根据本发明的技术方案,所述步骤2中,测序数据的质量控制包括去除测序接头、无插入片段序列和低质量数据等不需要的数据。
进一步的说所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。
所述步骤(3)基于类似宏基因组方法使用SPAdes软件进行序列拼接;并且使用宏基因组拼接模式。
所述使用SPAdes软件进行序列拼接时使用--meta参数开启宏基因组模式;拼接的kmer值选择33,55,77,优选为55。
所述步骤(4)从拼接数据中筛选出线粒体序列的具体方法为:
①对在所述步骤(3)中给出的拼接结果,按照输出的kmer覆盖度排序;
②使用blast软件将覆盖度较大的序列与已知的线粒体DNA序列进行比对,alignment length大于7kb者可确定为线粒体DNA序列(因为线粒体的拷贝数远大于基因组,因此结果中覆盖度较大的scaffold即可能为线粒体DNA序列)。
所述所述步骤2)中使用bowtie,bowtie2或bwa软件将原始样本测试数据reads比对到拼接好的线粒体序列上并输出bam格式文件。优选地,使用bowtie2将原始reads比对到拼接好的线粒体序列上。
所述所述步骤6)中归一化拷贝数M的量纲为copy/bp;对于来源于同一物种的样本,该数值可以直接进行比较。
本发明所具有的优点:本发明使用高通量测序的方法进行线粒体DNA测序,实验周期较一代测序短,单位成本低;与其它线粒体高通量测序方法相比,本方法在不需要进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装。本方法实验简单,样本质量要求低,对于长时间保存的样本也能获得完整度较好的拼接结果。同时,由于不进行扩增,可以保持样本中线粒体DNA含量信息,因此可以计算样本的线粒体相对含量。本发明的技术方案在中华绒螯蟹上进行了验证,而本发明之方法在理论上可以适用于所有真核生物。因此,本发明可以在一定程度上满足科研及应用需求。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了更好的说明本发明,下面结合具体实施方式做进一步说明。除有特殊说明外,本发明中所用的试剂、设备或方法等都是本领域技术人员所熟知的,在此不再赘述。
本发明包括对总DNA进行高通量测序;测序数据的质控;基于类似宏基因组的序列拼接;线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装,具有实验简单,样本质量要求低,拼接完整度好,可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。
实施例1
三例中华绒螯蟹的线粒体DNA测序与拼接,包括以下步骤:
1.对3只中华绒螯蟹的肌肉组织总DNA,进行超声打断至500-700bp,并使用
Figure BDA0001275814270000031
DNA文库构建试剂盒构建高通量测序文库。
2.对构建高通量测序文库并使用
Figure BDA0001275814270000032
NextSeq500高通量测序仪进行测序,每个样本测序量为2G。并使用bcl2fastq软件将测序结果转化为fastq格式。
3.使用Trimmomatic软件对测序数据进行质量控制,具体关键参数为:LEADING:5TRAILING:5SLIDINGWINDOW:4:15MINLEN:30,得到高质量的测序数据。
4.使用SPAdes软件对上述高质量的测序数据进行拼接,具体关键参数为:--meta-k 55(参见表1)。
5.对照组使用velvet软件对上述高质量的测序数据进行拼接,具体关键参数为:-cov_cutoff 30-ins_length 700-ins_length_sd 100-exp_cov auto-min_contig_lgth100。拼接结果在contigs.fa中,之后使用blast软件与已知序列比对,其比对e-value最小者为拼接的线粒体DNA序列(参见表1)。
6.对照组使用bowtie2软件对上述高质量测序数据比对到已公开的中华绒螯蟹线粒体DNA序列上,再将比对成功的序列使用velvet软件进行拼接,具体关键参数同步骤5。拼接结果在contigs.fa中(参见表1)。
7.在SPAdes拼接结果的scaffold.fasta文件中找到kmer覆盖度最高的序列,使用blast软件与已知序列比对,结果证明其时线粒体序列。
三个样本的序列拼接结果如下:
Figure BDA0001275814270000041
拼接结果表明,本方法较之于其它方法,对于有线粒体DNA参考序列可以先行进行比对的情况,拼接长度长约100-700bp,覆盖度高一倍。与已公布的中华绒螯蟹线粒体基因组大小16353bp相比,本方法仅有100-200bp未能拼接,可以结合1次sanger测序反应即可补完。对于无线粒体DNA参考序列可以比对的情况,其它方法不能完成序列的拼接,只能在测序前样本的处理处理中采用更加复杂的技术路线。
实施例2
不同测序量及线粒体DNA序列占比对拼接效果的影响,步骤如下:
1.模拟不同测序量及线粒体DNA序列比例的数据。使用实施例1中样本的高质量测序数据,随机选取其中1/3,1/6及1/12的数据,并使用不含线粒体DNA的数据与前述随机选取的数据合并,至总数据量达到2G,1G及0.5G。
2.使用SPAdes软件对模拟数据进行拼接,拼接过程参照上述实施例1中步骤4进行操作。
3.在拼接结果中找到拼接出的线粒体DNA序列,方法与实施例1中步骤7相同。
模拟结果的拼接结果如下:
样本 数据大小(bp) 样本1序列占比 拼接长度(bp) kmer覆盖度
E1 2G 1/3 16096 127.98
E2 1G 1/6 16096 64.34
E3 0.5G 1/12 16091 31.79
结果表明,即使数据中线粒体DNA含量降至原数据的1/12,依然能够得到较长的拼接结果,且仍具有一定得覆盖度。这表明本方法亦适用于更加不理想的样本处理。
实施例3
测序数据中线粒体拷贝数的计算,步骤如下:
1.测序及拼接数据为实施例1使用的数据及拼接结果。使用Reseqtools软件查看高质量数据的总碱基数,记为Ntotal
2计算拼接后的线粒体DNA总长度,记为Smito
3使用bowtie2软件将高质量数据比对到线粒体拼接结果序列上,并生成sam数据文件。使用samtools的flagstat功能对上述sam文件进行计算,得到能够比对到线粒体DNA序列的reads的总碱基数,记为Nmito
4计算样本的归一化拷贝数M=(Nmito/Smito)/Ntotal。结果如下:
样本 N<sub>total</sub>(bp) S<sub>mito</sub>(bp) N<sub>mito</sub>(bp) M(copy/Mbp)
1 2076738069 16218 131503653 3.90
2 1521214422 16134 130161045 5.30
3 2075858406 16169 130726365 3.89

Claims (7)

1.一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:
1)利用高通量测序技术对线粒体进行组装拼接;
2)测序数据与上述组装拼接进行比对;
3)使用Reseqtools软件计算经过质量控制数据的总碱基数,记为Ntotal
4)计算拼接后的线粒体DNA总长度,记为Smito
5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数,记为Nmito
6)归一化计算样本的拷贝数M=(Nmito/Smito)/Ntotal
所述对线粒体进行组装拼接为:
(1)利用高通量测序技术对样本进行测序;
(2)对高通量测序数据进行质量控制;
(3)基于类似宏基因组方法的序列拼接;
(4)从拼接数据中筛选出线粒体序列。
2.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(1)中高通量测序的测序量不低于所测样本基因组大小的25%。
3.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。
4.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(3)基于类似宏基因组方法使用SPAdes软件进行序列拼接;并且使用宏基因组拼接模式。
5.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(4)从拼接数据中筛选出线粒体序列的具体方法为:
①对在所述步骤(3)中给出的拼接结果,按照输出的kmer覆盖度排序;
②使用blast软件将覆盖度较大的序列与已知的线粒体DNA序列进行比对,alignmentlength大于7kb者可确定为线粒体DNA序列。
6.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤2)中使用bowtie,bowtie2或bwa软件将原始样本测试数据reads比对到拼接好的线粒体序列上并输出bam格式文件。
7.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤6)中归一化拷贝数M的量纲为copy/bp。
CN201710265077.5A 2017-04-21 2017-04-21 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法 Expired - Fee Related CN108733974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710265077.5A CN108733974B (zh) 2017-04-21 2017-04-21 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710265077.5A CN108733974B (zh) 2017-04-21 2017-04-21 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法

Publications (2)

Publication Number Publication Date
CN108733974A CN108733974A (zh) 2018-11-02
CN108733974B true CN108733974B (zh) 2021-12-17

Family

ID=63933872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710265077.5A Expired - Fee Related CN108733974B (zh) 2017-04-21 2017-04-21 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法

Country Status (1)

Country Link
CN (1) CN108733974B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110241191A (zh) * 2019-06-28 2019-09-17 中国人民解放军第四军医大学 一种基于NGS同时检测mtDNA拷贝数和突变的方法
CN110982888B (zh) * 2019-12-31 2023-01-13 中国医学科学院药用植物研究所 一种基于全基因组测序技术的多种动物源性掺假鉴别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198238A (zh) * 2012-01-06 2013-07-10 深圳华大基因科技有限公司 药物相关基因型别数据库、基因分型及药物反应检测
CN103547681A (zh) * 2011-08-01 2014-01-29 深圳华大基因科技有限公司 目标区域捕获方法及其生物信息处理方法和系统
WO2015066485A2 (en) * 2013-10-31 2015-05-07 The Children's Hospital Of Philadelphia Mitochondrial disease genetic diagnostics
CN104694384A (zh) * 2015-03-20 2015-06-10 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN105492668A (zh) * 2013-05-30 2016-04-13 加利福尼亚大学董事会 基本无偏差的基因组扩增
CN105653899A (zh) * 2014-09-30 2016-06-08 深圳华大基因研究院 同时确定多种样本的线粒体基因组序列信息的方法和系统
WO2016149418A1 (en) * 2015-03-18 2016-09-22 Cellular Research, Inc. Methods and compositions for labeling targets and haplotype phasing
CN106520758A (zh) * 2016-10-27 2017-03-22 塔里木大学 一种萨能奶山羊胎儿成纤维细胞miRNA的筛选与鉴定方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103547681A (zh) * 2011-08-01 2014-01-29 深圳华大基因科技有限公司 目标区域捕获方法及其生物信息处理方法和系统
CN103198238A (zh) * 2012-01-06 2013-07-10 深圳华大基因科技有限公司 药物相关基因型别数据库、基因分型及药物反应检测
CN105492668A (zh) * 2013-05-30 2016-04-13 加利福尼亚大学董事会 基本无偏差的基因组扩增
WO2015066485A2 (en) * 2013-10-31 2015-05-07 The Children's Hospital Of Philadelphia Mitochondrial disease genetic diagnostics
CN105653899A (zh) * 2014-09-30 2016-06-08 深圳华大基因研究院 同时确定多种样本的线粒体基因组序列信息的方法和系统
WO2016149418A1 (en) * 2015-03-18 2016-09-22 Cellular Research, Inc. Methods and compositions for labeling targets and haplotype phasing
CN104694384A (zh) * 2015-03-20 2015-06-10 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106520758A (zh) * 2016-10-27 2017-03-22 塔里木大学 一种萨能奶山羊胎儿成纤维细胞miRNA的筛选与鉴定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Computational Approach to Detect CNVs Using High-throughput Sequencing;Myungjin Moon,et al;《2009 Ninth IEEE International Conference on Bioinformatics and Bioengineering》;20090821;2135-2137页 *
肺癌线粒体 DNA 拷贝数改变和微卫星不稳定性;戴纪刚等;《第三军医大学学报》;20101015;266-271页 *

Also Published As

Publication number Publication date
CN108733974A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
US11898206B2 (en) Systems and methods for clonotype screening
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
CN104899474B (zh) 基于岭回归矫正MB‑seq甲基化水平的方法及系统
CN103984879B (zh) 一种测定待测基因组区域表达水平的方法及系统
US20210332354A1 (en) Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution
GB2590197A (en) Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
CN110739027A (zh) 一种基于染色质区域覆盖深度的癌症组织定位方法及系统
CN109337997B (zh) 一种山茶属多态性叶绿体基因组微卫星分子标记引物及筛选和甄别近缘种的方法
US20190139628A1 (en) Machine learning techniques for analysis of structural variants
Paulson et al. Reply to:" a fair comparison"
CN110621785A (zh) 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
CN108733974B (zh) 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
CN107475449A (zh) 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法
Dixon et al. Spatially resolved transcriptomics and the kidney: many opportunities
de Sá et al. Next-generation sequencing and data analysis: strategies, tools, pipelines and protocols
CN115862740B (zh) 一种面向大规模病毒基因组数据的快速分布式多序列比对方法
CN116612817A (zh) 一种对多样本混合的单细胞数据混样拆分的方法
CN114005489B (zh) 基于三代测序数据检测点突变的分析方法和装置
KR101841265B1 (ko) Nmf를 이용한 표적 염기 서열 해독에서의 바이어스 제거 방법
CN117980502A (zh) 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法
US20210324465A1 (en) Systems and methods for analyzing and aggregating open chromatin signatures at single cell resolution
Torsson et al. Field-adapted full genome sequencing of Peste-des-Petits-ruminants virus using Nanopore sequencing
Huffman et al. Single cell genomics applications in forensic science: Current state and future directions
CN110684830A (zh) 一种石蜡切片组织rna分析方法
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211217

CF01 Termination of patent right due to non-payment of annual fee