CN104017883B - 组装基因组序列的方法和系统 - Google Patents

组装基因组序列的方法和系统 Download PDF

Info

Publication number
CN104017883B
CN104017883B CN201410272988.7A CN201410272988A CN104017883B CN 104017883 B CN104017883 B CN 104017883B CN 201410272988 A CN201410272988 A CN 201410272988A CN 104017883 B CN104017883 B CN 104017883B
Authority
CN
China
Prior art keywords
sequence
splicing
high precision
short
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410272988.7A
Other languages
English (en)
Other versions
CN104017883A (zh
Inventor
詹东亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201410272988.7A priority Critical patent/CN104017883B/zh
Publication of CN104017883A publication Critical patent/CN104017883A/zh
Application granted granted Critical
Publication of CN104017883B publication Critical patent/CN104017883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子测序所得的长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。该方法具体包括:利用第二代测序技术对样品进行测序,获得样品的高精度短片段序列;对获得的高精度短片段序列进行拼接,获得第一拼接序列;利用单分子测序技术对与同样来源的样品进行测序,获得同样来源样品的长片段序列;对获得的长片段序列进行拼接,获得第二拼接序列;将第一拼接序列定位到第二拼接序列上;利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列。

Description

组装基因组序列的方法和系统
技术领域
本发明涉及生物信息技术领域,尤其涉及一种组装基因组序列的方法和装置。
背景技术
第二代测序技术极大地推动了生物信息学的发展,已经有大量物种的基因组被测序。但目前第二代测序技术产生的都是长约100bp~150bp左右的小片段序列,仅100~150bp的读长(reads)相比庞大的基因组,使得完成拼接工作变得无比艰巨,不少用户虽然获得了大量的测序数据,测序覆盖深度达到了几十倍甚至上百倍,但仍然没法完成基因组的拼接。如何将这些测序得到的海量小片段序列数据还原为样品中的大片段数据给后续的信息分析工作提出了极大的挑战,需要通过非常大的运算量才有可能完成对大片段数据的还原。而且,基因组DeNovo组装(从头组装)还会遇到如何跨越高重复区域(复杂动植物及真菌)、高GC(微生物)和高AT含量区域的难题,这些区域结构极其复杂,含有大量串联重复,现有的第二代测序技术的短读长,无法获得这些高度重复区域的准确的序列,难以获得整个基因组的完美拼接。就好象把一幅图打成非常小的碎片,然后做拼图,由于碎片太小,因此碎片数目很多,而且许多小碎片非常相似,看起来都差不多,要拼出一副完整的图难度很大。此外,第二代测序技术文库制备时必须要先进行PCR扩增,PCR过程中的偏向(bias)或者错配(mismatch)等将无法在测序时修正,也就意味着这些错误会变成系统误差,且无法通过增加测序覆盖深度来消除。
第三代测序平台正在迅速发展中,PacificBiosciences公司的PacBioRS单分子实时测序系统自2011年4月底推出以来,立刻成为广大研究者的热点,被誉为最有前途的第三代测序平台。PacificBiosciences公司在2012年度发布了最新的PacBioRSII测序仪,并且升级了最新的试剂以及测序酶,结合最新的C2试剂和P4酶,PacBioRSII将平均读长提升至5kb,最长读长可以达到20kb以上,在测序所得的序列拼接、定位以及跨越重复区域的应用中有着极大优势,可以完全克服第二代测序技术的困难。相当于同样的一幅拼图,用大的碎片来做拼图,碎片的数目会减少,而且大碎片比小碎片的识别度要高,因此完成拼图的难度就可以大幅降低,组装获得的图质量会大大提高,这对DeNovo组装,特别是复杂细菌以及复杂动植物基因组的图谱组装质量的提升是空前的。而且,在PacBio平台上,文库制备时无需PCR扩增,因此避免了PCR产生的bias等。
但是,两年多过去了,研究人员对采用第三代单分子实时测序技术一直保持慎重。其主要原因在于单分子实时测序的错误率相对较高,单次测序错误率15%,循环测序误差8%左右,其准确度与第二代测序技术有很大的差距,无法进行正常的后续分析。PacBio平台上目前的错误主要是插入和缺失。缺失错误源自于有时候碱基掺入速度过快,超过了PacBio相机的拍摄帧数。插入错误源自于有的时候酶随机的选择一些碱基,但并未将这些碱基真的掺入合成链中。
发明内容
针对现有技术中存在的问题,本发明的主要目的在于提供一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。
一方面,本发明提供了一种组装基因组序列的方法,包括:
利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列;
对获得的所述高精度短片段序列进行拼接,获得第一拼接序列;
利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的长片段序列;
对获得的所述长片段序列进行拼接,获得第二拼接序列;
将所述第一拼接序列定位到所述第二拼接序列上;
利用所述第一拼接序列中的所述高精度短片段序列对所述第二拼接序列中的所述长片段序列进行局部纠错,获得第三拼接序列。
在本发明的一个实施例中,上述方法还包括使用LSC软件和所述高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错。
在本发明的另一个实施例中,第二代测序技术采用的是HiSeq测序仪,单分子测序技术采用的是PacBioRSII测序仪。
在本发明的又一个实施例中,使用SOAPdenovo软件对获得的高精度短片段序列进行拼接。
在本发明的又一个实施例中,使用SOAPdenovo软件对获得的高精度短片段序列进行拼接包括以下步骤:
A.将原始reads读入到内存中,用deBruijin图数据结构表示reads之间的overlap;
B.简化deBruijin图,所述简化包括剪去短末端,移除低覆盖度的边,解决reads路径中的微小重复和/或合并茎环;
C.基于所述简化的deBruijin图,在其重复边界上打断连接,输出高精度的序列作为contigs;
D.重新用所述reads和所述contigs进行比对,使用配对双末端resds数据把单一的所述contigs连接成scaffolds;
E.使用配对双末端resds填补所述scaffolds内部的gap,即可获得所述的第一拼接序列。
在本发明的又一个实施例中,对获得的所述长片段序列进行拼接包括以下步骤:
A.先利用BLASR软件找出可能的连接区域,再对所述可能的连接区域进行详细比对;
B.利用步骤A所获得的详细比对信息进行去冗余和拼接,获得所述的第二拼接序列。
另一方面,本发明还提供了一种组装基因组序列的系统,包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与接收模块Ⅰ相连,用于对获得的样品的高精度短片段序列进行拼接,获得第一拼接序列;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
拼接模块Ⅱ,与接收模块Ⅱ相连,用于对获得的样品的长片段序列进行拼接,获得第二拼接序列;
定位模块,与接收模块Ⅰ和接收模块Ⅱ相连,用于将第一拼接序列定位到第二拼接序列上;
纠错模块Ⅰ,与定位模块相连,用于利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列。
在本发明的一个实施例中,该系统还包括纠错模块Ⅱ,与纠错模块Ⅰ相连,用于使用LSC软件和高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错。
本发明的方法结合了第二代测序技术数据组装的结果和第三代测序技术数据组装的结果,利用第二代测序技术数据组装的高准确度纠正单分子测序数据组装的高错误率,使单分子测序的错误率不再是基因组装配的障碍,实现了整个基因组的完美拼接。而且,本发明的方法能够节省数据整理的时间。此外,由于单分子测序技术能够识别RNA碱基修饰,可直接获取功能信息,将第二代技术的序列密集数据与中度覆盖的单分子技术数据相结合,可获得基因组的甲基化模式,有望更广泛地应用于真核基因组的组装。
附图说明
图1是本发明组装基因组序列方法的一个实施例的流程示意图。
图2是利用第二代测序数据结合SOAPdenovo软件组装的一个实施例的流程示意图。
图3是PacBio所得的长片段序列拼接的一个实施例示意图。
图4是将第一拼接序列定位到第二拼接序列上的示意图。
图5是本发明组装基因组序列方法的另一个实施例的流程示意图。
图6是利用第二代reads对第三拼接序列上未被第一拼接序列覆盖的地方进行局部纠错的示意图。
图7是本发明组装基因组序列装置的一个实施例的结构示意图。
图8是本发明组装基因组序列装置的另一个实施例的结构示意图。
具体实施方式
以下结合附图和优选实施例对本发明进行更全面地描述,应当理解的是,本文所描述的优选实施例仅用于说明和解释本发明,并不构成对本发明的限制。
除非另有说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为本说明的一部分。
高效快速的denovo拼接有助于发现大片段的结构变异,对理解疾病相关基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。高质量的基因组装配对于基因组注释和比较基因组分析也非常重要。本发明的方法充分利用了第三代测序仪PacBioRSII的读长优势,将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起,使得基因组装配结果准确性大幅提高,拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。
图1是本发明组装基因组序列方法的一个实施例的流程示意图。
如图1所示,该实例包括以下步骤:
S101,利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列。其中,随即打散样品基因组,扩增片段长度在150~500bp之间的短克隆,并直接进行双末端测序。第二代测序技术平台454、Illumina和SOLID均可用于本本发明。本发明的样品没有限制,可以是基因组较大的植物、动物、真菌,也可以是基因组较小的物种,例如微生物和病毒,还可以是需要检测突变的基因组的一部分。
本发明一个实施例中,优选第二代的HiSeq测序仪进行DNA测序,HiSeq测序仪是illumina公司推出的高通量测序仪,测序通量可达300Gb/run,一次运行可独立测试16个样品,其原理是基于DNA单分子簇的边合成边测序技术和专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flowcell),这些DNA片段经过延伸和桥式扩增后,在Flowcell上形成了数以亿计的Cluster(簇),每个Cluster是具有数千份相同模板DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的SBS(边合成边测序)技术对待测的模板DNA进行测序。这种新方法确保了高精确度和真实的一个碱基接一个碱基的测序,为同聚物和重复序列的测序提供了一个很好的解决方案。
S102,对S101获得的高精度短片段序列进行拼接。基于第二代测序数据的基因组序列拼接,通常包括以下几个部分:1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基;2)基因组连续片段(contigs)生成阶段,该阶段将reads拼接成contigs;3)超长序列片段(scaffoldings)组装阶段,该阶段使用配对数据,确定conntigs之间的方向和位置关系,生成scaffoldings。目前,基于第二代测序数据的全基因组从头测序拼接主要的策略有贪心(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus,OLC)与DeBruijn图。
本发明一个实施例中,优选使用SOAPdenovo软件进行高精度短序列的拼接。SOAPdenovo软件对于短读长组装起来速度快,消耗的内存相对较少,且拼接的连续性好。图2所示为利用SOAPdenovo软件对HiSeq测序仪测序数据进行拼接的流程图,结合图中步骤可以得出具体流程分为A到F的过程:A.随即打散基因组,扩增长度在150~500bp之间的短克隆,并进行双末端直接测序。B.将未处理(或者未经纠正的)reads读入到内存中,并且用deBruijin图数据结构来表示reads间的Overlap(重叠)。C.通过:a.剪去短末端;b.移除低覆盖度的边;c.解决reads路径中得微小重复;d.合并茎环,来简化deBruijin图。D.在简化deBruijin图的基础上,在重复边界上打断连接,输出明确的序列作为contigs。E.重新用reads和contigs进行比对,使用双末端信息来把单一的contigs连接成scaffolds。F.最后使用配对双端resds来填补scaffolds内部可能是由重复序列所造成的Gap(缺口)。通过图示流程即得到第二代数据拼接的结果。SOAPdenovo的软件在官网上http://soap.genomics.org.cn可以下载和使用。
S103,利用单分子测序技术获得样品的长片段序列。单分子测序技术利用DNA聚合酶合成与模板互补的DNA链,在三围空间中记录模板位置和核苷酸序列信息,再反向构建DNA模板的序列。除了DNA合成反应的三大要素(模板、酶、核苷酸)之外,模板所处位置和反应循环中单色荧光标记的核苷酸顺序(如A、C、G、T)也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光,则每一次反应循环就需要切换不同波长的光以记录不同的碱基。单分子测序技术具有测序速度快、产出序列长、成本低的巨大优势,目前的缺陷和不足在于测序准确度。目前已经开发或正在开发中的单分子测序平台有:1.单分子即时DNA测序(singlemoleculerealtimeDNAsequencing),简称SMRT;2.HeliScope单分子测序(HeliScopesinglemolecularsequencing);3.基于荧光共振能量转移的即时DNA测序(real-timeDNAsequencingusingfluorescenceresonanceenergytransfer);4.纳米孔单分子测序(nanoporesinglemolecularsequencing);5.离子流半导体测序(ionsemiconductorsequencing)。
在本发明的一个实施例中,优选PacificBiosciences公司的最新发布的PacBioRSII测序仪,且采用该公司测序系统升级了的最新的C2试剂和P4酶。PacBioRSII的平均读长为5kb,最长读长可以达到20kb以上。另外,PacBioRSII系统测序速度较快,目前PacBioRSII上所使用的DNA聚合酶的合成速度大概是1~3个碱基/秒,从样品制备到获得碱基序列的全部流程可在1天内完成。现阶段PacBioRSII每天可运行8个SMRTcell,每天可获得8×200M=1600Mb的有效数据,为基因组DeNovo组装提供了可靠数据供应。
S104,对S103单分子测序拼接长片段序列进行拼接。长序列片段的拼接相对于短序列的拼接更容易进行。图3示出了对PacBio数据进行组装。在该实施例中,所用的拼接软件为Assemble,该软件通过序列比对找到可能的连接区域,再将这些区域进行拼接和去冗余。软件中包含了2个关键模块:(1)比对:先利用BLASR软件找出可能的连接区域,再对这些区域进行全局比对。其中,可能的连接区域包括含有锚点、比对率高的区域;(2)组装:利用上步的详细全局比对信息进行拼接和去除冗余序列。
S105,将第二代测序获得高精度短片段序列定位到单分子测序技术获得的长片段序列上。图4示出了以PacBio数据拼接结果为基础,将第二代测序数据拼接结果定位到该基础上的构架搭建示意图,其中上面的横线部分为第二代数据拼接结果,下面的横线部分为PacBio数据拼接结果,将第二代的测序拼接结果比对回PacBio的测序拼接结果上,可以得到高准确度和完整的组装结果。该定位步骤采用的软件是Align,具体包括以下两部分操作:(1)序列比对;(2)根据比对结果找匹配锚点。
S106,利用第二代测序获得高精度短片段序列对单分子测序技术获得的长片段序列中被高精度短片段序列覆盖到的区域进行局部纠错,获得所述样品基因组的初步基因组序列。所谓局部纠错,即通过Replace函数(标识替换的函数)将同区域中的单分子测序技术获得的长片段序列替换为第二代测序获得的高精度短片段序列。
在本发明中,高精度短片段的获取和拼接步骤与长片段的获取和拼接步骤并无固定的顺序,可以先进行高精度短片段的获取和拼接,后进行长片段的获取和拼接;也可以先进行长片段的获取和拼接,后进行高精度短片段的获取和拼接;或者两者同时进行。
图5是本发明组装基因组序列方法的另一个实施例的流程示意图。该实施例的前面步骤与图1所示的实施例相同,但是该实施例增加了利用LSC软件和第二代reads对长片段拼接结果上未被短片段拼接结果覆盖的区域进行纠错的步骤。图5示出了使用LSC软件和第二代测序的原始reads,对PacBio拼接结果中未被第二代拼接结果覆盖到的区域进行纠错,得到高质量的PacBio组装结果图谱。此处纠错使用LSC软件,主要步骤包括:将第二代测序的原始reads比对至PacBio拼接结果;根据比对结果找到PacBio拼接结果上第二代高精度短片段序列的覆盖区域;将覆盖区域的PacBio拼接结果替换为第二代高精度短片段序列。
图7是本发明组装基因组序列装置的一个实施例的结构示意图。
如图7所示,该实例可以包括:
接收模块11,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块12,与接收模块11相连,用于对获得的样品的高精度短片段序列进行拼接,获得第一拼接序列;
接收模块13,用于接收利用单分子测序技术获得的样品的长片段序列;
拼接模块14,与接收模块13相连,用于对获得的样品的长片段序列进行拼接,获得第二拼接序列;
定位模块15,与拼接模块12和拼接模块14相连,用于将第一拼接序列定位到第二拼接序列上;
纠错模块16,与定位模块15相连,用于利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错,获得初步的样品基因组序列。
该实施例结合了第二代测序技术数据组装的结果和第三代测序技术数据组装的结果,利用第二代测序技术数据组装的高准确度纠正单分子实时测序数据组装的高错误率,使单分子实时测序的错误率不再是基因组装配的障碍,实现了整个基因组的完美拼接。而且,本发明的方法能够节省数据整理的时间。此外,由于单分子实时测序技术能够识别RNA碱基修饰,可直接获取功能信息,将第二代技术的序列密集数据与中度覆盖的单分子技术数据相结合,可获得基因组的甲基化模式,有望更广泛地应用于真核基因组的组装。
图8是本发明组装基因组序列装置的另一个实施例的结构示意图。
如图8所示,与图7中的实施例相比,该实例的还可以包括:
纠错模块17,纠错模块16相连,用于使用LSC软件和高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错,获得准确度更高的样品基因组序列。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种组装基因组序列的方法,其特征在于,包括:
利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列;
对获得的所述高精度短片段序列进行拼接,获得第一拼接序列;
利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的长片段序列;
对获得的所述长片段序列进行拼接,获得第二拼接序列;
将所述第一拼接序列定位到所述第二拼接序列上;
利用所述第一拼接序列中的所述高精度短片段序列对所述第二拼接序列中的所述长片段序列进行局部纠错,获得第三拼接序列。
2.一种如权利要求1所述的组装基因组序列的方法,其特征在于:所述方法还包括使用LSC软件和所述高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。
3.一种如权利要求1所述的组装基因组序列的方法,其特征在于:所述的第二代测序技术采用的是HiSeq测序仪,所述的单分子测序技术采用的是PacBioRSII测序仪。
4.一种如权利要求1所述的组装基因组序列的方法,其特征在于:使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接。
5.一种如权利要求4所述的组装基因组序列的方法,其特征在于:所述的使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接包括以下步骤:
A.将原始读长读入到内存中,用deBruijin图数据结构表示读长之间的overlap;
B.简化deBruijin图,所述简化包括剪去短末端,移除低覆盖度的边,解决读长路径中的微小重复和/或合并茎环;
C.基于所述简化的deBruijin图,在其重复边界上打断连接,输出高精度的序列作为基因组连续片段;
D.重新用所述读长和所述基因组连续片段进行比对,使用配对双末端读长数据把单一的所述基因组连续片段连接成超长序列片段;
E.使用配对双末端读长填补所述超长序列片段内部的缺口,即可获得所述的第一拼接序列。
6.一种如权利要求1所述的组装基因组序列的方法,其特征在于,所述的对获得的所述长片段序列进行拼接包括以下步骤:
A.先利用BLASR软件找出可能的连接区域,再对所述可能的连接区域进行详细比对;
B.利用步骤A所获得的详细比对信息进行去冗余和拼接,获得所述第二拼接序列。
7.一种组装基因组序列的系统,其特征在于,包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与所述接收模块Ⅰ相连,用于对所获得的样品的高精度短片段序列进行拼接,获得第一拼接序列;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
拼接模块Ⅱ,与所述接收模块Ⅱ相连,用于对所获得的样品的长片段序列进行拼接,获得第二拼接序列;
定位模块,与所述接收模块Ⅰ和所述接收模块Ⅱ相连,用于将所述第一拼接序列定位到所述第二拼接序列上;
纠错模块Ⅰ,与所述定位模块相连,用于利用所述第一拼接序列中的高精度短片段序列对所述第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列。
8.一种如权利要求7所述的组装基因组序列的系统,其特征在于:所述系统还包括纠错模块Ⅱ,与所述纠错模块Ⅰ相连,用于使用LSC软件和高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。
CN201410272988.7A 2014-06-18 2014-06-18 组装基因组序列的方法和系统 Active CN104017883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410272988.7A CN104017883B (zh) 2014-06-18 2014-06-18 组装基因组序列的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410272988.7A CN104017883B (zh) 2014-06-18 2014-06-18 组装基因组序列的方法和系统

Publications (2)

Publication Number Publication Date
CN104017883A CN104017883A (zh) 2014-09-03
CN104017883B true CN104017883B (zh) 2015-11-18

Family

ID=51434877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410272988.7A Active CN104017883B (zh) 2014-06-18 2014-06-18 组装基因组序列的方法和系统

Country Status (1)

Country Link
CN (1) CN104017883B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989249B (zh) * 2014-09-26 2019-03-15 南京无尽生物科技有限公司 用于组装基因组序列的方法、系统及装置
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN104573409B (zh) * 2015-01-04 2017-07-25 杭州和壹基因科技有限公司 基因定位的多重检验方法
CN105483244B (zh) * 2015-12-28 2019-10-22 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测方法及检测系统
WO2017143585A1 (zh) * 2016-02-26 2017-08-31 深圳华大基因研究院 对分隔长片段序列进行组装的方法和装置
CN106022002B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的补洞方法
CN106021997B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN106022003B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的scaffold构建方法
CN106021985B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种基因组数据压缩方法
CN107841542A (zh) * 2016-09-19 2018-03-27 深圳华大基因科技服务有限公司 一种基因组重叠群二代序列组装方法和系统
CN106778076A (zh) * 2016-11-15 2017-05-31 上海派森诺生物科技股份有限公司 一种高效的针对于放线菌基因组拼接的方法
CN108629156B (zh) * 2017-03-21 2020-08-28 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN110313033A (zh) * 2017-04-01 2019-10-08 深圳华大基因科技服务有限公司 一种二代序列和三代序列基因组联合的组装方法和系统
CN108660197A (zh) * 2017-04-01 2018-10-16 深圳华大基因科技服务有限公司 一种二代序列基因组重叠群的组装方法和系统
CN107590363B (zh) * 2017-08-21 2019-11-08 武汉菲沙基因信息有限公司 一种将多个重叠组装结果合并的方法
CN108753765B (zh) * 2018-06-08 2020-12-08 中国科学院遗传与发育生物学研究所 一种构建超长连续dna序列的基因组组装方法
CN109326323B (zh) * 2018-09-13 2022-03-18 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN109801679B (zh) * 2019-01-15 2021-02-02 广州柿宝生物科技有限公司 一种用于长链分子的数学序列重建方法
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法
CN111564182B (zh) * 2020-05-12 2024-02-09 西藏自治区农牧科学院水产科学研究所 一种高重复原鮡属鱼类的染色体级别组装的方法
CN111968706B (zh) * 2020-10-20 2021-02-12 安诺优达基因科技(北京)有限公司 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360057A (zh) * 2001-11-16 2002-07-24 北京华大基因研究中心 一种基于重复序列识别的全基因组测序数据的拼接方法
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360057A (zh) * 2001-11-16 2002-07-24 北京华大基因研究中心 一种基于重复序列识别的全基因组测序数据的拼接方法
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统

Also Published As

Publication number Publication date
CN104017883A (zh) 2014-09-03

Similar Documents

Publication Publication Date Title
CN104017883B (zh) 组装基因组序列的方法和系统
CN104531848A (zh) 一种组装基因组序列的方法和系统
Yuan et al. Advances in optical mapping for genomic research
Slatko et al. Overview of next‐generation sequencing technologies
Zhang et al. Unzipping haplotypes in diploid and polyploid genomes
Burton et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions
Holley et al. Ratatosk: hybrid error correction of long reads enables accurate variant calling and assembly
EP2834762B1 (en) Sequence assembly
US10839940B2 (en) Method, computer-accessible medium and systems for score-driven whole-genome shotgun sequence assemble
Song et al. Rascaf: improving genome assembly with RNA sequencing data
CN101504697B (zh) 一种片段连接支架的构建方法和系统
US20120116688A1 (en) Method, computer-accessible medium and system for base-calling and alignment
Wilson et al. Genotype specification language
Schwartz et al. A composite genome approach to identify phylogenetically informative data from next-generation sequencing
US11940413B2 (en) Methods and devices for sequencing nucleic acids in smaller batches
Osborne et al. Sympatric speciation in mountain roses (Metrosideros) on an oceanic island
Guan et al. Efficient iterative Hi-C scaffolder based on N-best neighbors
Yan et al. Scaling logical density of DNA storage with enzymatically-ligated composite motifs
Torma et al. An integrated sequencing approach for updating the pseudorabies virus transcriptome
Zhou et al. SEQdata-BEACON: a comprehensive database of sequencing performance and statistical tools for performance evaluation and yield simulation in BGISEQ-500
Xiao et al. Highly multiplexed single-cell In situ RNA and DNA analysis by consecutive hybridization
CN103699819B (zh) 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
Liu et al. Positive correlation of the gene rearrangements and evolutionary rates in the mitochondrial genomes of thrips (Insecta: Thysanoptera)
Uzilov et al. High-throughput nuclease probing of RNA structures using FragSeq
Lee et al. Karyotypic evolution of sauropsid vertebrates illuminated by optical and physical mapping of the painted turtle and slider turtle genomes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant