CN107858408A - 一种基因组二代序列组装方法和系统 - Google Patents

一种基因组二代序列组装方法和系统 Download PDF

Info

Publication number
CN107858408A
CN107858408A CN201610831202.XA CN201610831202A CN107858408A CN 107858408 A CN107858408 A CN 107858408A CN 201610831202 A CN201610831202 A CN 201610831202A CN 107858408 A CN107858408 A CN 107858408A
Authority
CN
China
Prior art keywords
sequence
genome
reading
contig
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610831202.XA
Other languages
English (en)
Inventor
邓天全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201610831202.XA priority Critical patent/CN107858408A/zh
Publication of CN107858408A publication Critical patent/CN107858408A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基因组二代序列组装方法和系统,所述方法包括:将样品基因组DNA打断至第一预定长度范围;对打断的DNA片段选择第二预定长度范围;对第二预定长度范围的DNA片段进行双末端测序,得到具有重叠的第一读长序列和第二读长序列;对第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;根据读间对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及对骨架序列中无效碱基进行补洞填充。本发明的方法通过实验建库和测序读长选取,并结合拼接以实现延长序列读长,最后用延长后的序列进行组装,得到重叠群,能够提高基因组重叠群组装的指标和准确性。

Description

一种基因组二代序列组装方法和系统
技术领域
本发明涉及基因测序技术领域,尤其涉及一种基因组二代序列组装方法和系统。
背景技术
目前,基因组组装项目以全基因组鸟枪法测序(Whole-genome shotgunsequencing,WGS)为主流设计方案,它主要根据基因组的重复序列的具体特点,搭配不同长度的DNA插入片段进行双末端测序,在全基因组的平均测序深度足够的情况下可保证单碱基的准确性和基因组的完整性。随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及,测序成本大大降低,基于第二代测序技术的全基因组鸟枪法测序成为各种基因组项目测序的主流方案。而是否能组装出一个高质量的重叠群往往关系到基因组骨架序列组装效果好坏的一个重要影响因素。
把组装出的重叠群(Contig)和骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群的大小即为Contig N50的大小,最后一个骨架序列的大小即为Scaffold N50的大小,Contig N50和Scaffold N50对评价基因测序的完整性有重要意义。N60即把组装出的重叠群和骨架序列从大到小排列,当其累计长度刚刚超过全部组装序列总长度60%时,最后一个重叠群(Contig)和骨架序列(Scaffold)的大小即为N60的大小。N10、N20、N30、N40、N70、N80、N90以此类推。
发明内容
序列读长(reads)对基因组组装效果有重要影响,本发明的方法和系统通过实验建库和测序读长选取,并结合拼接以实现延长序列读长,最后用延长后的序列进行组装,得到重叠群序列,并将二代序列比对到重叠群序列上,根据读间对关系(paired end)建立重叠群序列间的相对位置和方向关系,从而形成骨架序列(Scaffold)。
根据本发明的第一方面,本发明提供一种基因组二代序列组装方法,包括:将样品基因组DNA打断至第一预定长度范围;对打断的DNA片段切胶选择第二预定长度范围,以构建不同插入片段的文库;对上述第二预定长度范围的DNA片段进行双末端测序,针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列;对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及利用读间对关系,对骨架序列中无效碱基进行补洞填充,获得基因组的组装结果。
进一步地,上述样品基因组DNA采用超声打断。
进一步地,上述第一预定长度范围是100bp-600bp或100bp-500bp。
进一步地,上述第二预定长度范围是170bp-180bp、260bp-280bp、450bp-470bp或550bp-570bp。
进一步地,上述第一读长序列和第二读长序列的序列长度是100-300bp。
进一步地,上述第一读长序列和第二读长序列的序列长度是100bp、150bp、250bp或300bp。
进一步地,上述对各个文库拼接后的序列进行序列组装具体是:将二代测序序列依次截取出长度为K的短序列K-mer;将K-mer存储到散列表中,形成德布鲁因图的顶点;在测序序列上前后相继的K-mer相连,形成德布鲁因图的边;将所有测序序列都处理完得到整个德布鲁因图;去除德布鲁因图中由测序错误、杂合位点引起的路径;将线性的K-mer路径连接起来形成第一级的重叠群。
进一步地,上述短序列K-mer的长度是30bp-500bp。
进一步地,上述方法还包括:在上述拼接之前,通过过滤去除含接头的序列以及低质量序列。
根据本发明的第二方面,本发明提供一种基因组二代序列组装系统,包括:打断模块,用于将样品基因组DNA打断至第一预定长度范围;选择模块,用于对打断的DNA片段切胶选择第二预定长度范围,以构建不同插入片段的文库;测序模块,用于对上述第二预定长度范围的DNA片段进行双末端测序,针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列;拼接模块,用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;组装模块,用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;骨架模块,用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及利用读间对关系,对骨架序列中无效碱基进行补洞填充,获得基因组的组装结果。
本发明的方法和系统通过实验建库和测序读长选取,并结合拼接以实现延长序列读长,最后用延长后的序列进行组装,得到重叠群序列,并将二代序列比对到重叠群序列上,根据读间对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列,能够提高基因组重叠群组装的指标和准确性。
附图说明
图1示出本发明的基因组二代序列组装方法的一个实施例流程图;
图2示出本发明切胶后的DNA分子利用第一读长序列和第二读长序列测通并进行拼接,获得更长序列的一个实施例流程图;
图3示出本发明的基因组二代序列组装系统的一个实施例结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
在本发明的一个实施例中,提供一种基于第二代测序技术和实验建库、切胶技术相结合,旨在提高基因组重叠群组装效果的方法和系统。
图1示出本发明基于第二代测序技术和实验建库、切胶技术相结合,组装基因组的一个实施例流程图。
如图1所示,在步骤102中,结合二代测序序列读长,将样品进行DNA打断到某一个长度范围(即第一预定长度范围)。在本发明的一个实施例中,样品基因组DNA采用超声打断,第一预定长度范围是100bp-600bp或100bp-500bp。
在步骤104中,根据需要选择双末端测序的序列读长,确定切胶的长度范围(即第二预定长度范围),表1中给出了一个实施例中相应的例子。
表1
在步骤106中,根据步骤104切胶的长度范围,选取相应读长进行双末端测序,并保证读1和读2(即第一读长序列和第二读长序列)有重叠,如表1中给出了一个实施例中相应的例子。
在步骤108中,在步骤106获得序列后,对读1末端和读2前端进行比对,如能比对上就进行拼接,获得拼接后的序列。此步骤可以采用PEAR比对拼接软件,可从http://sco.h-its.org/exelixis/web/software/pear/获得。
在步骤110中,用步骤108获得的拼接序列进行组装,获得重叠群序列。将二代序列进行组装,将读长(测序序列)依次截取出长度为K的短序列,称为K-mer,K-mer前后互相重叠K-1个碱基。将K-mer存储到散列表中,形成德布鲁因图的顶点;在读上前后相继的K-mer认为这两个K-mer相连,形成德布鲁因图的边。将所有读长都处理完后,可以得到整个德布鲁因图,去除图中由测序错误、杂合位点引起的路径,将线性的K-mer路径连接起来即可形成第一级的Contig(重叠群)序列。将这些K-mer碱基连接起来即形成第一级的重叠群序列。这个阶段的组装可以使用拼接软件SOAPdenovo或Platanus。SOAPdenovo组装软件参考文献Li,R.et al.De novo assembly of human genomes with massively parallel shortread sequencing.Genome Res(2009)。此软件可以从网上免费获得,网址为http://soap.genomics.org.cn/soapdenovo.html。或者可从网上http://platanus.bio.titech.ac.jp/platanus/获得Platanus组装软件。
在步骤112中,将序列比对到重叠群序列上,根据读1和读2(即第一读长序列和第二读长序列)的对关系(paired end)建立重叠群序列间的相对位置和方向关系,从而形成Scaffold(骨架序列)。并利用读间对关系,对骨架序列中无效碱基N进行补洞填充,最终获得基因组的组装结果。
图2示出本发明基于第二代测序技术和实验建库、切胶技术相结合,获得更长序列读长的一个实施例流程图。
在步骤202中,示出了通过切胶后获得的一个DNA分子。
在步骤204中,示出了结合切胶范围,选取相应测序读长技术,获得读1和读2有重叠区域的序列。
在步骤206中,示出了读1和读2比对拼接后的序列。
对应于图1所示的基因组二代序列组装方法,本发明还提供一种基因组二代序列组装系统,如图3所示,包括:打断模块310,用于将样品基因组DNA打断至第一预定长度范围;选择模块320,用于对打断的DNA片段切胶选择第二预定长度范围,以构建不同插入片段的文库;测序模块330,用于对上述第二预定长度范围的DNA片段进行双末端测序,针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列;拼接模块340,用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;组装模块350,用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;骨架模块360,用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及利用读间对关系,对骨架序列中无效碱基进行补洞填充,获得基因组的组装结果。
下面提供本发明方法的一个藻苔植物基因组大小约为400MB具体应用例。在该例子中,实现基因组重叠群测序组装,具体步骤如下:
(一)建库测序
1)提取样本的DNA并随机打断,经电泳后,分别切取170bp-180bp和250bp-260bp范围的凝胶纯化。纯化后的DNA片段连接测序接头,PCR扩增,然后分别使用二代测序仪进行双末端100bp和150bp序列读长的测序。
2)建立500bp、800bp、2k、5k、10k、20k大小的文库并测序。
(二)数据过滤
某些原始序列带有接头序列,或含有少量低质量序列。我们首先使用软件经过一系列数据处理以去除杂质数据,得到有效数据。过滤步骤具体包括:
1)去除含接头的序列;
2)去除低质量序列(质量值小于等于20的碱基数占整个序列的20%以上);
3)获得过滤后的序列。
(三)序列拼接
通过PEAR软件分别对过滤后的插入片段为170bp-180bp和250bp-260bp序列进行比对拼接,获得拼接后的序列。
(四)建立重叠群。
将拼接后序列用Platanus软件进行组装,得到大小约为419Mb的重叠群序列。Contig N50为1881bp。表2为读1和读2拼接和不拼接进行比较的重叠群组装效果比较表。拼接的比不拼接的效果提升十分明显。
表2
(五)建立基因组骨架序列与补洞
将序列比对到重叠群序列上,根据500bp、800bp、2k、5k、10k、20k文库序列读1和读2的对关系(paired end)建立重叠群序列间的相对位置和方向关系,从而形成Scaffold(骨架序列)。这个阶段的组装可以使用拼接软件SOAPdenovo或Platanus。
例如,这个阶段的组装可以使用华大基因研究院研发的拼接软件SOAPdenovo进行拼接,基于德布鲁因图进行短序列组装,得到一级骨架序列(scaffold)。或者使用Platanus软件。
骨架序列完成后,利用读间对关系,对骨架序列中无效碱基N进行填充,例如,采用华大基因研究院研发的软件KGF进行补洞,也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞工具Gapclose进行此阶段工作。
用Platanus软件完成补洞后,得到大小约为419M的基因组组装序列。ScaffoldN50为701kb。表3为读1和读2拼接和不拼接进行比较的组装效果比较表,拼接后ScaffoldN50为701kb比不拼接的477kb提高了46%,组装提升效果非常明显。而且拼接的最终组装结果基因组大小为340MB比不拼接的326MB更加完整,更接近预测的基因组大小。
表3
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基因组二代序列组装方法,其特征在于,所述方法包括:
将样品基因组DNA打断至第一预定长度范围;
对打断的DNA片段切胶选择第二预定长度范围,以构建不同插入片段的文库;
对所述第二预定长度范围的DNA片段进行双末端测序,针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列;
对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;
对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;
根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及利用读间对关系,对骨架序列中无效碱基进行补洞填充,获得基因组的组装结果。
2.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述样品基因组DNA采用超声打断。
3.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述第一预定长度范围是100bp-600bp或100bp-500bp。
4.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述第二预定长度范围是170bp-180bp、260bp-280bp、450bp-470bp或550bp-570bp。
5.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述第一读长序列和第二读长序列的序列长度是100-300bp。
6.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述第一读长序列和第二读长序列的序列长度是100bp、150bp、250bp或300bp。
7.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述对各个文库拼接后的序列进行序列组装具体是:将二代测序序列依次截取出长度为K的短序列K-mer;将K-mer存储到散列表中,形成德布鲁因图的顶点;在测序序列上前后相继的K-mer相连,形成德布鲁因图的边;将所有测序序列都处理完得到整个德布鲁因图;去除德布鲁因图中由测序错误、杂合位点引起的路径;将线性的K-mer路径连接起来形成第一级的重叠群。
8.根据权利要求7所述的基因组二代序列组装方法,其特征在于,所述短序列K-mer的长度是30bp-500bp。
9.根据权利要求1所述的基因组二代序列组装方法,其特征在于,所述方法还包括:在所述拼接之前,通过过滤去除含接头的序列以及低质量序列。
10.一种基因组二代序列组装系统,其特征在于,所述系统包括:
打断模块,用于将样品基因组DNA打断至第一预定长度范围;
选择模块,用于对打断的DNA片段切胶选择第二预定长度范围,以构建不同插入片段的文库;
测序模块,用于对所述第二预定长度范围的DNA片段进行双末端测序,针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列;
拼接模块,用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接,获得各个文库拼接后的序列;
组装模块,用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列;
骨架模块,用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系,从而形成骨架序列;以及利用读间对关系,对骨架序列中无效碱基进行补洞填充,获得基因组的组装结果。
CN201610831202.XA 2016-09-19 2016-09-19 一种基因组二代序列组装方法和系统 Pending CN107858408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610831202.XA CN107858408A (zh) 2016-09-19 2016-09-19 一种基因组二代序列组装方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610831202.XA CN107858408A (zh) 2016-09-19 2016-09-19 一种基因组二代序列组装方法和系统

Publications (1)

Publication Number Publication Date
CN107858408A true CN107858408A (zh) 2018-03-30

Family

ID=61698140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610831202.XA Pending CN107858408A (zh) 2016-09-19 2016-09-19 一种基因组二代序列组装方法和系统

Country Status (1)

Country Link
CN (1) CN107858408A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置
CN109097458A (zh) * 2018-09-12 2018-12-28 山东省农作物种质资源中心 基于ngs读段搜索实现序列延伸的虚拟pcr方法
CN110273028A (zh) * 2019-06-27 2019-09-24 深圳市海普洛斯生物科技有限公司 病毒整合型dna的富集方法、测序数据分析方法和装置
CN112133371A (zh) * 2019-06-25 2020-12-25 深圳华大生命科学研究院 基于单管长片段测序数据进行骨架组装的方法和装置
CN112634989A (zh) * 2020-12-29 2021-04-09 山东建筑大学 基于片段重叠群的双面基因组片段填充方法及装置
CN115862744A (zh) * 2022-12-28 2023-03-28 哈尔滨因极科技有限公司 一种基于关系图建立的全基因组并行拼接方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101921840A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN101967684A (zh) * 2010-09-01 2011-02-09 深圳华大基因科技有限公司 一种测序文库及其制备方法、一种末端测序方法和装置
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
CN102560688A (zh) * 2010-12-15 2012-07-11 深圳华大基因科技有限公司 一种新的基于illumina测序平台的文库构建方法
CA2823815A1 (en) * 2011-01-14 2012-07-19 Keygene N.V. Paired end random sequence based genotyping
CN102831331A (zh) * 2012-07-04 2012-12-19 上海美吉生物医药科技有限公司 基于酶切建库双末端测序的长度多态性标记的引物设计开发方法
CN103761453A (zh) * 2013-12-09 2014-04-30 天津工业大学 一种基于簇图结构的并行基因拼接算法
WO2014171898A2 (en) * 2013-04-17 2014-10-23 Agency For Science, Technology And Research Method for generating extended sequence reads
CN104695027A (zh) * 2013-12-06 2015-06-10 中国科学院北京基因组研究所 测序文库及其制备和应用
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101921840A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN101967684A (zh) * 2010-09-01 2011-02-09 深圳华大基因科技有限公司 一种测序文库及其制备方法、一种末端测序方法和装置
CN102560688A (zh) * 2010-12-15 2012-07-11 深圳华大基因科技有限公司 一种新的基于illumina测序平台的文库构建方法
CA2823815A1 (en) * 2011-01-14 2012-07-19 Keygene N.V. Paired end random sequence based genotyping
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
CN102831331A (zh) * 2012-07-04 2012-12-19 上海美吉生物医药科技有限公司 基于酶切建库双末端测序的长度多态性标记的引物设计开发方法
WO2014171898A2 (en) * 2013-04-17 2014-10-23 Agency For Science, Technology And Research Method for generating extended sequence reads
CN104695027A (zh) * 2013-12-06 2015-06-10 中国科学院北京基因组研究所 测序文库及其制备和应用
CN103761453A (zh) * 2013-12-09 2014-04-30 天津工业大学 一种基于簇图结构的并行基因拼接算法
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDRE P MASELLA等: "PANDAseq: paired-end assembler for illumina sequences", 《BMC BIOINFORMATICS》 *
LIU B等: "COPE: an accurate k-mer-based pair-end reads connection tool to facilitate genome assembly.", 《BIOINFORMATICS》 *
TANJA MAGO等: "FLASH: fast length adjustment of short reads to improve genome assemblies", 《BIOINFORMATICS》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置
CN109097458A (zh) * 2018-09-12 2018-12-28 山东省农作物种质资源中心 基于ngs读段搜索实现序列延伸的虚拟pcr方法
WO2020052101A1 (zh) * 2018-09-12 2020-03-19 山东省农作物种质资源中心 基于ngs读段搜索实现序列延伸的虚拟pcr方法
CN112133371A (zh) * 2019-06-25 2020-12-25 深圳华大生命科学研究院 基于单管长片段测序数据进行骨架组装的方法和装置
CN112133371B (zh) * 2019-06-25 2024-02-23 深圳华大生命科学研究院 基于单管长片段测序数据进行骨架组装的方法和装置
CN110273028A (zh) * 2019-06-27 2019-09-24 深圳市海普洛斯生物科技有限公司 病毒整合型dna的富集方法、测序数据分析方法和装置
CN112634989A (zh) * 2020-12-29 2021-04-09 山东建筑大学 基于片段重叠群的双面基因组片段填充方法及装置
CN115862744A (zh) * 2022-12-28 2023-03-28 哈尔滨因极科技有限公司 一种基于关系图建立的全基因组并行拼接方法
CN115862744B (zh) * 2022-12-28 2023-07-04 哈尔滨因极科技有限公司 一种基于关系图建立的全基因组并行拼接方法

Similar Documents

Publication Publication Date Title
CN107858408A (zh) 一种基因组二代序列组装方法和系统
Gordon et al. Gradual polyploid genome evolution revealed by pan-genomic analysis of Brachypodium hybridum and its diploid progenitors
You et al. Chromosome‐scale pseudomolecules refined by optical, physical and genetic maps in flax
CN103080333B (zh) 一种基因组结构性变异检测方法和系统
CN105303068B (zh) 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
Dumschott et al. Oxford Nanopore sequencing: new opportunities for plant genomics?
CN102206704B (zh) 组装基因组序列的方法和装置
Coombe et al. Assembly of the complete Sitka spruce chloroplast genome using 10X Genomics’ GemCode sequencing data
CN113808668B (zh) 提升基因组组装完整性的方法、装置及其应用
CN107784201A (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN105989249A (zh) 用于组装基因组序列的方法、系统及装置
Steinberg et al. Building and improving reference genome assemblies
CN103761453A (zh) 一种基于簇图结构的并行基因拼接算法
CN106939344A (zh) 用于二代测序的接头
Fernandes et al. CSA: an efficient algorithm to improve circular DNA multiple alignment
CN107841542A (zh) 一种基因组重叠群二代序列组装方法和系统
CN108660197A (zh) 一种二代序列基因组重叠群的组装方法和系统
US20140114584A1 (en) Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN108866173A (zh) 一种标准序列的验证方法、装置及其应用
Morrissey et al. Low-cost assembly of a cacao crop genome is able to resolve complex heterozygous bubbles
WO2019204702A1 (en) Error-correcting dna barcodes
CN103699819B (zh) 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
JP3675521B2 (ja) Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置
US20150120204A1 (en) Transcriptome assembly method and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1250754

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330