CN104531848A - 一种组装基因组序列的方法和系统 - Google Patents

一种组装基因组序列的方法和系统 Download PDF

Info

Publication number
CN104531848A
CN104531848A CN201410758244.6A CN201410758244A CN104531848A CN 104531848 A CN104531848 A CN 104531848A CN 201410758244 A CN201410758244 A CN 201410758244A CN 104531848 A CN104531848 A CN 104531848A
Authority
CN
China
Prior art keywords
genome
generations
sequencing
sequence
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410758244.6A
Other languages
English (en)
Inventor
詹东亮
张姝
蔡庆乐
何荣军
郝美荣
梁倩
韩雪莲
刘三阳
王军一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU HEYI GENE TECHNOLOGY Co Ltd filed Critical HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority to CN201410758244.6A priority Critical patent/CN104531848A/zh
Publication of CN104531848A publication Critical patent/CN104531848A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1027Mutagenizing nucleic acids by DNA shuffling, e.g. RSR, STEP, RPR

Landscapes

  • Genetics & Genomics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。该方法,包括以下步骤:(1)利用第二代测序技术对样品进行测序,获得高精度短片段序列;(2)对高精度短片段序列进行拼接,获得高精度的框架图;(3)利用单分子测序技术对与上述同样来源的样品进行测序,获得三代测序数据;(4)将三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息;(5)利用详细对比信息对三代测序数据进行聚类并构建基因组骨架,对基因组骨架进行纠错,得到基因组精细图。

Description

一种组装基因组序列的方法和系统
技术领域
本发明涉及生物信息技术领域,尤其涉及一种组装基因组序列的方法和系统。
背景技术
Illumina的二代测序技术,以其高能量和准确性,成为了很多科研工作地的首选平台,目前它的平均读长为100bp~300bp,由于它的高能量、较低成本,极大地推进了生物信息学的发展,有非常多的基因组是基于这个平台进行研究的。但是由于读长的局限性,同时复杂基因组中包含着许多高GC,高度重复的区域,Illumina在这些基因组的组装上表现并不理想。
PacBio RSII是目前市场上应用最成熟的三代测序平台,它的平均测序读长从一开始的2k到目前的14k,可以跨越大部分的重复区域,在基因组的组装中有极大的优势,极大地克服了二代读长短的缺点,目前它非常成熟地运用在微生物完成图的拼接中。
但是,由于于单分子实施测序的错误率相对较高,单次测序错误率15%,循环测序误差8%左右,其准确度与第二代测序技术有很大的差距,传统的纠错方法非常耗计算资源,大基因组的计算量非常巨大,使得目前只有少数机构能承能使用这种技术。
发明内容
本发明的目的是解决以上提出的问题,提供一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。
一方面,本发明提供了一种组装基因组序列的方法,包括以下步骤:
(1)利用第二代测序技术对样品进行测序,获得高精度短片段序列;
(2)对获得的所述高精度短片段序列进行拼接,获得一个高精度的框架图;
(3)利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的三代测序数据;
(4)将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息;
(5)利用步骤(4)获得的详细对比信息对所述三代测序数据进行聚类并构建基因组骨架,对所述基因组骨架进行纠错,利用高精度短片段序列的大片断构建scaffold,小片断数据进行补洞,得到基因组精细图。
作为优选,所述步骤(4)包括:利用BWT和LCS算法,将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息。
作为优选,所述步骤(5)中对所述基因组骨架进行纠错包括:
A、使用HGAP中自带的纠错模块,使用所述三测序代数据进行自纠错;
B、使用LoRDEC软件利用Illumina第二代测序技术获得的高精度短片段序列来纠正所述基因组骨架。
作为优选,所述的第二代测序技术采用的是HiSeq测序仪,所述的单分子测序技术采用的是PacBio RSII测序仪。
作为优选,所述步骤(2)采用的是SOAPdenovo2软件对获得的所述高精度短片段序列进行拼接。
作为优选,所述步骤(5)使用SSPACE软件来构建scaffold,最后使用GapCloser来进行补洞。
另一方面,本发明还提供了一种组装基因组序列的系统,包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与接收模块Ⅰ相连,用于对获得的样品的高精度短片段序列进行拼接,获得高精确度的框架图;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
定位模块,与所述拼接模块Ⅰ和所述接收模块Ⅱ相连,用于将所述三代测序数据比对回所述框架图上;
骨架模块,利用所述三代测序数据与所述框架图的详细对比信息系对所述三代测序数据进行聚类构图,搭建基因组骨架;
纠错模块Ⅰ,与骨架模块相连,利用骨架模块中的聚类关系,使用HGAP纠错和三代测序数据进行自纠错。
作为优选,该系统还包括:
纠错模块Ⅱ,所述的纠错模块Ⅱ与纠错模块Ⅰ相连,用于使用LoRDEC软件和所述高精度短片段序列对所述基因组骨架进行纠错;
Scaffold&补洞模块,利用高精度短片段序列进行scaffold构建和补洞,生成最终的基因组精细图。
本发明的有益效果如下:
1、本发明利用二代测序得到的高精度短片段序列进行组装,再结合10X的三代数据
(http://blog.pacificbiosciences.com/2014/02/data-release-54x-long-read-coverage-for.html),contig N50达到279k,与二代测序组装的技术方案相比,contig N50提高了10多倍,组装效果显著提升;
2、本发明结合了第二代测序数据组装的框架图和三代测序数据,利用第二代测序技术的高准确度纠正单分子实时测序数据组装的高错误率,效果显著,而且,本发明的方法能够节省数据整理的时间;
3、将三代测序数据先比对回框架图中,利用三代测序数据和框架图的详细对比信息进行聚类并构建基因组骨架;
4、三代测序数据和框架图比对时利用BWT和LCS算法,与目前常用的blasr软件相比,可以大大提高比对的准确度和速度;
5、采用HGAP和LoRDEC进行纠错,能够对基因组骨架进行全面的纠错,并且应用起来更加有效、方便。
附图说明
图1是本发明组装基因组序列方法的流程示意图;
图2是本发明组装基因组序列方法的一个实施例的流程示意图;
图3是利用第二代测序数据结合SOAPdenovo2软件组装的一个实施例的流程示意图;
图4是PacBio与二代的框架图进行比对,构建骨架,并进行纠错的示意图;
图5是本发明组装基因组序列装置的一个实施例的结构示意图。
具体实施方式
下面结合附图对本发明的实施例进行进一步详细说明:
高效快速的de novo拼接有助于发现大片段的结构变异,对理解疾病相关基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。高质量的基因组装配对于基因组注释和比较基因组分析也非常重要。本发明的方法充分利用了第三代测序仪PacBio RSII的读长优势,将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起,使得基因组装配结果准确性大幅提高,拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。
图1是本发明组装基因组序列方法的流程示意图。
如图1所示,该流程包括A、B、C、D、E五个步骤:
A、对同样来源的样品分别进行二代测序和三代测序(即单分子测序),对二代测序得到的高精度短片段序列进行组装成框架图;
B、将二代测序得到的高精度短片段序列组装的框架图定位到三代测序数据中;
C、处理框架图和三代测序数据的详细对比信息,进行聚类和构图;
D、得到基因组骨架;
E、对基因组骨架进行纠错。
图2是本发明组装基因组序列方法的一个实施例的流程示意图。
如图2所示,该实施例包括以下步骤:
S101,利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列。其中,随即打散样品基因组,扩增片段长度在150~500bp之间的短克隆,并直接进行双末端测序。第二代测序技术平台454、Illumina和SOLID均可用于本本发明。本发明的样品没有限制,可以是基因组较大的植物、动物、真菌,也可以是基因组较小的物种,例如微生物和病毒,还可以是需要检测突变的基因组的一部分。
本发明一个实施例中,优选二代的HiSeq测序仪进行DNA测序,HiSeq测序仪是illumina公司推出的高通量测序仪,测序通量可达300Gb/run,一次运行可独立测试16个样品,其原理是基于DNA单分子簇的边合成边测序技术和专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell),这些DNA片段经过延伸和桥式扩增后,在Flow cell上形成了数以亿计的Cluster,每个Cluster是具有数千份相同模板DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的SBS(边合成边测序)技术对待测的模板DNA进行测序。这种新方法确保了高精确度和真实的一个碱基接一个碱基的测序,为同聚物和重复序列的测序提供了一个很好的解决方案。
S102,对S101获得的高精度短片段序列进行拼接,获得一个高精度的框架图。基于第二代测序数据的基因组序列拼接,通常包括以下几个部分:1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基;2)基因组连续片段(contigs)生成阶段。该阶段将reads拼接成contigs;3)超长序列片段(scaffoldings)组装阶段。该阶段使用配对数据,确定conntigs之间的方向和位置关系,生成scaffoldings。目前,基于第二代测序数据的全基因组从头测序拼接主要的策略有贪心(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus,OLC)与DeBruijn图。
本发明优选使用SOAPdenovo2软件进行高精度短序列的拼接。OAPdenovo2软件对于短读长组装起来速度快,消耗的内存相对较少,且拼接的连续性好。图3所示为利用SOAPdenovo2软件对HiSeq测序仪测序数据进行拼接的流程图,结合图中步骤可以得出具体流程分为A到F的过程:A.随即打散基因组,扩增长度在150~500bp之间的短克隆,并进行双末端直接测序。B.将未处理(或者未经纠正的)reads读入到内存中,并且用deBruijin图数据结构来表示reads间的Overlap。C.通过:a.剪去短末端;b.移除低覆盖度的边;c.解决reads路径中得微小重复;d.合并茎环,来简化deBruijin图。D.在简化deBruijin图的基础上,在重复边界上打断连接,输出明确的序列作为contigs。E.重新用reads和contigs进行比对,使用双末端信息来把单一的contigs连接成scaffolds。F.最后使用配对双端resds来填补scaffolds内部可能是由重复序列所造成的Gap。通过图示流程即得到第二代数据拼接的结果。SOAPdenovo的软件在官网上可以下载和使用:http://soap.genomics.org.cn。
S103,利用单分子测序技术获得样品的三代测序数据(长片段序列)。单分子测序技术利用DNA聚合酶合成与模板互补的DNA链,在三围空间中记录模板位置和核苷酸序列信息,再反向构建DNA模板的序列。除了DNA合成反应的三大要素(模板、酶、核苷酸)之外,模板所处位置和反应循环中单色荧光标记的核苷酸顺序(如A、C、G、T)也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光,则每一次反应循环就需要切换不同波长的光以记录不同的碱基。单分子测序技术具有测序速度快。产出序列长、成本低的巨大优势,目前的缺陷和不足在于测序准确度。目前已经开发或正在开发中的单分子测序平台有:1.单分子即时DNA测序(single molecule real time DNAsequencing),简称SMRT;2.HeliScope单分子测序(HeliScope single molecular sequencing);3.基于荧光共振能量转移的即时DNA测序(real-time DNA sequencing using fluorescenceresonance energy transfer);4.纳米孔单分子测序(nanopore single molecularsequencing);5.离子流半导体测序(ion semiconductor sequencing)。
本发明优选Pacific Biosciences公司的最新的发布的PacBio RSII测序仪,PacBio RSII的最新数据平均读长为14kb,最长读长可以达到20kb以上。另外,PacBio RSII系统测序速度较快,目前PacBio RSII上所使用的DNA聚合酶的合成速度大概是1~3个碱基/秒,从样品制备到获得碱基序列的全部流程可在1天内完成。现阶段PacBio RSII每天可运行8个SMRT cell,每天可获得8×400M=3,200Mb的有效数据,为基因组De Novo组装提供了可靠数据供应。
S104,将S103测序的三代测序数据比对S102组装的框架图。目前发表的三代的比对程序有BLASR和DALIGN,这两款软件都非常优秀,但是在由于基因组中存在重复序列,比对上的序列可能是重复序列,从而导致连接错误,为了尽量使组装的结果准确,本方法重新开发了一个比对软件,先利用二代的数据进行建模,得到高精度短片段序列的框架图,从三代测序数据中取出关键的DNA序列,结合这些关键的DNA序列和BWT,LCS算法进行比对,得到三代测序数据和框架图的详细对比信息,大大提高了比对的准确度和速度。
S105,利用S104中二代的框架图与三代测序数据的详细对比信息,对三代测序数据进行聚类和整理,得到一个三代的基因组骨架。
S106,在105的构建基因组骨架过程中,会记录构建的基因组骨架和与其对应的三代测序数据,使用这些聚类数据和利用HGAP软件包中的纠错模块,对基因组骨架进行第一次纠错。
S107利用第二代测序获得高精度短片段序列对S106的输出结果再次进行纠正,使用已经发布的LoRDEC,能方便和高效地应用在这方面。
图4是PacBio与二代的框架图进行比对,构建骨架,并进行纠错的示意图。
如图4所示,包括以下步骤:
1、将二代测序得到的高精度短片段序列组装的框架图比对到三代测序数据中(红点指框架图,蓝线是三代测序数据);
2、通过框架图和三代测序数据的详细对比信息,可以知道框架图和三代测序数据的连接关系图;
3、生成基因组骨架;
4、利用高精度短片段序列和/或三代测序数据来对组装的基因组骨架进行纠错。
图5是本发明组装基因组序列装置的一个实施例的结构示意图。
如图5所示,该实施例的系统可以包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与接收模块Ⅰ相连,用于对获得的样品的高精度短片段序列进行拼接,获得高精确度的框架图;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
定位模块,与所述拼接模块Ⅰ和所述接收模块Ⅱ相连,用于将所述三代测序数据比对回所述框架图上;
骨架模块,利用所述三代测序数据与所述框架图的详细对比信息系对所述三代测序数据进行聚类构图,搭建基因组骨架;
纠错模块Ⅰ,与骨架模块相连,利用骨架模块中的聚类关系,使用HGAP纠错和三代测序数据进行自纠错。
在本发明的一个实施例中,该系统还包括:
纠错模块Ⅱ,所述的纠错模块Ⅱ与纠错模块Ⅰ相连,用于使用LoRDEC软件和所述高精度短片段序列对所述基因组骨架进行纠错;
Scaffold&补洞模块,利用高精度短片段序列进行scaffold构建和补洞,生成最终的基因组精细图。
该实施例结合了第二代测序技术数据组装的结果和第三代测序技术数据,利用第二代测序技术的高精度纠正单分子实时测序数据组装的高错误率。而且,本发明的方法能够节省数据整理的时间。
以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种组装基因组序列的方法,其特征在于,包括以下步骤:
(1)利用第二代测序技术对样品进行测序,获得高精度短片段序列;
(2)对获得的所述高精度短片段序列进行拼接,获得一个高精度的框架图;
(3)利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的三代测序数据;
(4)将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息;
(5)利用步骤(4)获得的详细对比信息对所述三代测序数据进行聚类并构建基因组骨架,对所述基因组骨架进行纠错,利用步骤(1)中的高精度短片段序列的大片断构建scaffold,小片断数据进行补洞,得到基因组精细图。
2.根据权利要求1所述的组装基因组序列的方法,其特征在于,所述步骤(4)包括:利用BWT和LCS算法,将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息。
3.根据权利要求1或2所述的组装基因组序列的方法,其特征在于,所述步骤(5)中对所述基因组骨架进行纠错包括:
A、使用HGAP中自带的纠错模块,使用所述三测序代数据进行自纠错;
B、使用LoRDEC软件利用Illumina第二代测序技术获得的高精度短片段序列来纠正所述基因组骨架。
4.根据权利要求1或2所述的组装基因组序列的方法,其特征在于,所述的第二代测序技术采用的是HiSeq测序仪,所述的单分子测序技术采用的是PacBioRSII测序仪。
5.根据权利要求1或2所述的组装基因组序列的方法,其特征在于,所述步骤(2)采用的是SOAPdenovo2软件对获得的所述高精度短片段序列进行拼接。
6.根据权利要求1或2所述的组装基因组序列的方法,其特征在于,所述步骤(5)使用SSPACE软件来构建scaffold,最后使用GapCloser来进行补洞。
7.一种组装基因组序列的系统,其特征在于,包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与接收模块Ⅰ相连,用于对获得的样品的高精度短片段序列进行拼接,获得高精确度的框架图;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
定位模块,与所述拼接模块Ⅰ和所述接收模块Ⅱ相连,用于将所述三代测序数据比对回所述框架图上;
骨架模块,利用所述三代测序数据与所述框架图的详细对比信息系对所述三代测序数据进行聚类构图,搭建基因组骨架;
纠错模块Ⅰ,与骨架模块相连,利用骨架模块中的聚类关系,使用HGAP纠错和三代测序数据进行自纠错。
8.根据权利要求7所述的组装基因组序列的系统,其特征在于,还包括:
纠错模块Ⅱ,所述的纠错模块Ⅱ与纠错模块Ⅰ相连,用于使用LoRDEC软件和所述高精度短片段序列对所述基因组骨架进行纠错;
Scaffold&补洞模块,利用高精度短片段序列进行scaffold构建和补洞,生成最终的基因组精细图。
CN201410758244.6A 2014-12-11 2014-12-11 一种组装基因组序列的方法和系统 Pending CN104531848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410758244.6A CN104531848A (zh) 2014-12-11 2014-12-11 一种组装基因组序列的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410758244.6A CN104531848A (zh) 2014-12-11 2014-12-11 一种组装基因组序列的方法和系统

Publications (1)

Publication Number Publication Date
CN104531848A true CN104531848A (zh) 2015-04-22

Family

ID=52847467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410758244.6A Pending CN104531848A (zh) 2014-12-11 2014-12-11 一种组装基因组序列的方法和系统

Country Status (1)

Country Link
CN (1) CN104531848A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574364A (zh) * 2015-12-18 2016-05-11 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
CN106022003A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的scaffold构建方法
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN106022002A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的补洞方法
CN106021985A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基因组数据压缩方法
CN106682393A (zh) * 2016-11-29 2017-05-17 北京荣之联科技股份有限公司 基因组序列比对方法及装置
CN106778076A (zh) * 2016-11-15 2017-05-31 上海派森诺生物科技股份有限公司 一种高效的针对于放线菌基因组拼接的方法
CN106778060A (zh) * 2016-10-09 2017-05-31 南京双运生物技术有限公司 一种利用原核生物基因组高质量草图制作完成图的方法
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107273716A (zh) * 2017-05-03 2017-10-20 武汉菲沙基因信息有限公司 一种基于长片段进行骨架组装的方法
CN107563151A (zh) * 2017-09-18 2018-01-09 杭州和壹基因科技有限公司 一种PacBio测序数据组装得到的基因组序列的纠错方法
CN107784201A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN107784198A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN107841542A (zh) * 2016-09-19 2018-03-27 深圳华大基因科技服务有限公司 一种基因组重叠群二代序列组装方法和系统
CN108460245A (zh) * 2017-02-21 2018-08-28 深圳华大基因科技服务有限公司 使用三代序列优化二代组装结果的方法和装置
WO2018176474A1 (zh) * 2017-04-01 2018-10-04 深圳华大基因科技服务有限公司 一种二代序列和三代序列基因组联合的组装方法和系统
CN108629156A (zh) * 2017-03-21 2018-10-09 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置
CN109817280A (zh) * 2016-04-06 2019-05-28 晶能生物技术(上海)有限公司 一种测序数据组装方法
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法
CN111292805A (zh) * 2020-03-19 2020-06-16 山东大学 一种三代测序数据重叠检测方法及系统
CN111816249A (zh) * 2020-06-01 2020-10-23 上海派森诺生物科技股份有限公司 一种基因组的环化分析方法
CN115691673A (zh) * 2022-10-25 2023-02-03 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20140255931A1 (en) * 2012-04-04 2014-09-11 Good Start Genetics, Inc. Sequence assembly
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574364B (zh) * 2015-12-18 2018-11-09 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
CN105574364A (zh) * 2015-12-18 2016-05-11 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
CN109817280B (zh) * 2016-04-06 2023-04-14 晶能生物技术(上海)有限公司 一种测序数据组装方法
CN109817280A (zh) * 2016-04-06 2019-05-28 晶能生物技术(上海)有限公司 一种测序数据组装方法
CN106022003A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的scaffold构建方法
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN106022002A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的补洞方法
CN106021985A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种基因组数据压缩方法
CN106021997B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN106022003B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的scaffold构建方法
CN107784198A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN107784198B (zh) * 2016-08-26 2021-06-15 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN107784201A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN107841542A (zh) * 2016-09-19 2018-03-27 深圳华大基因科技服务有限公司 一种基因组重叠群二代序列组装方法和系统
CN106778060B (zh) * 2016-10-09 2019-05-21 南京双运生物技术有限公司 一种利用原核生物基因组高质量草图制作完成图的方法
CN106778060A (zh) * 2016-10-09 2017-05-31 南京双运生物技术有限公司 一种利用原核生物基因组高质量草图制作完成图的方法
CN106778076A (zh) * 2016-11-15 2017-05-31 上海派森诺生物科技股份有限公司 一种高效的针对于放线菌基因组拼接的方法
CN106682393B (zh) * 2016-11-29 2019-05-17 北京荣之联科技股份有限公司 基因组序列比对方法及装置
CN106682393A (zh) * 2016-11-29 2017-05-17 北京荣之联科技股份有限公司 基因组序列比对方法及装置
CN108460245A (zh) * 2017-02-21 2018-08-28 深圳华大基因科技服务有限公司 使用三代序列优化二代组装结果的方法和装置
CN108629156A (zh) * 2017-03-21 2018-10-09 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN108629156B (zh) * 2017-03-21 2020-08-28 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
WO2018176474A1 (zh) * 2017-04-01 2018-10-04 深圳华大基因科技服务有限公司 一种二代序列和三代序列基因组联合的组装方法和系统
CN110313033A (zh) * 2017-04-01 2019-10-08 深圳华大基因科技服务有限公司 一种二代序列和三代序列基因组联合的组装方法和系统
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107103206B (zh) * 2017-04-27 2019-10-18 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107273716A (zh) * 2017-05-03 2017-10-20 武汉菲沙基因信息有限公司 一种基于长片段进行骨架组装的方法
CN107273716B (zh) * 2017-05-03 2020-04-28 武汉菲沙基因信息有限公司 一种基于长片段进行骨架组装的方法
CN107563151B (zh) * 2017-09-18 2020-09-22 杭州和壹基因科技有限公司 一种PacBio测序数据组装得到的基因组序列的纠错方法
CN107563151A (zh) * 2017-09-18 2018-01-09 杭州和壹基因科技有限公司 一种PacBio测序数据组装得到的基因组序列的纠错方法
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法
CN111292805A (zh) * 2020-03-19 2020-06-16 山东大学 一种三代测序数据重叠检测方法及系统
CN111292805B (zh) * 2020-03-19 2023-08-18 山东大学 一种三代测序数据重叠检测方法及系统
CN111816249A (zh) * 2020-06-01 2020-10-23 上海派森诺生物科技股份有限公司 一种基因组的环化分析方法
CN111816249B (zh) * 2020-06-01 2023-12-08 上海派森诺生物科技股份有限公司 一种基因组的环化分析方法
CN115691673A (zh) * 2022-10-25 2023-02-03 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法
CN115691673B (zh) * 2022-10-25 2023-08-15 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法

Similar Documents

Publication Publication Date Title
CN104531848A (zh) 一种组装基因组序列的方法和系统
CN104017883B (zh) 组装基因组序列的方法和系统
Ghurye et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly
Giani et al. Long walk to genomics: History and current approaches to genome sequencing and assembly
US20240021272A1 (en) Systems and methods for identifying sequence variation
Gremme et al. Engineering a software tool for gene structure prediction in higher organisms
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
AU2013344340B2 (en) Digital analysis of molecular analytes using single molecule detection
Korpelainen et al. RNA-seq data analysis: a practical approach
Bocklandt et al. Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery
Song et al. Rascaf: improving genome assembly with RNA sequencing data
CN104711250A (zh) 一种长片段核酸文库的构建方法
CN105989249A (zh) 用于组装基因组序列的方法、系统及装置
US20180247012A1 (en) Bioinformatics data processing systems
ES2861477T3 (es) Método para determinar la clonalidad celular
CN109801679B (zh) 一种用于长链分子的数学序列重建方法
CN103699819B (zh) 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
Torma et al. An integrated sequencing approach for updating the pseudorabies virus transcriptome
Wolfien et al. Workflow development for the functional characterization of ncRNAs
US20150120204A1 (en) Transcriptome assembly method and system
CN111292806A (zh) 一种利用纳米孔测序的转录组分析方法
CN103177197A (zh) 基于高通量测序检测差异表达与可变剪切分析的方法
Zhao et al. Novel phylogeny of angiosperms inferred from whole-genome microsynteny analysis
Tierney et al. Ribosome decision graphs for the representation of eukaryotic RNA translation complexity
Hu et al. Biocatalytic amplification of UV signal in capillary electrophoresis of microRNA

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150422

RJ01 Rejection of invention patent application after publication