CN108460245A - 使用三代序列优化二代组装结果的方法和装置 - Google Patents

使用三代序列优化二代组装结果的方法和装置 Download PDF

Info

Publication number
CN108460245A
CN108460245A CN201710093627.XA CN201710093627A CN108460245A CN 108460245 A CN108460245 A CN 108460245A CN 201710093627 A CN201710093627 A CN 201710093627A CN 108460245 A CN108460245 A CN 108460245A
Authority
CN
China
Prior art keywords
sequence
generations
result
assembling
gap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710093627.XA
Other languages
English (en)
Other versions
CN108460245B (zh
Inventor
贺丽娟
邓天全
刘亚斌
杨林峰
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201710093627.XA priority Critical patent/CN108460245B/zh
Publication of CN108460245A publication Critical patent/CN108460245A/zh
Application granted granted Critical
Publication of CN108460245B publication Critical patent/CN108460245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种使用三代序列优化二代组装结果的方法和装置。该方法包括:获取二代组装结果和三代组装结果;以三代组装结果为参考序列,将二代组装结果比对到参考序列;获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列;将未比对到参考序列的序列替换为间隙序列,得到新的间隙序列;对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。本发明能够提高基因组组装指标和拼接的准确性。

Description

使用三代序列优化二代组装结果的方法和装置
技术领域
本发明涉及测序序列组装技术领域,尤其涉及一种使用三代序列优化二代组装结果的方法和装置。
背景技术
目前,基因组组装主要基于全基因组鸟枪法(WGS)的Illumina测序平台得到的二代测序数据进行组装,其主要特点是测序通量高、速度快、精确度高、成本低,并且可以测量不同插入大小的DNA片段文库,尤其是大于1k的DNA片段文库。这种测序方法在简单基因组和部分比较复杂的基因组组装上有较好的应用效果,在平均测序深度足够深的情况下基本可以保证组装结果的准确性和基因组的完整性,因此二代测序是目前基因组组装的主流测序方法。但是这种测序方法由于测序片段短,采用双末端测序方法,对于大多数高重复、高杂合基因组,测序数据很难正确处理基因组具有很高复杂度的区域。因此在这些基因组组装过程中,仅用二代测序方法得到的数据容易导致组装结果精确度低,从而使最终装配的基因组组装指标不够高,而且由于无法识别的高杂合区域或者无法跨越的高重复区域而导致错误的连接及大量冗余序列的存在,会对后续的生物学分析造成很大的干扰。
随着基于第三代单分子实时测序技术(SMRT)的Pacbio数据的出现,其具有超长读长的测序特点已成为目前高重复、高杂合基因组组装的研究热点。但是由于Pacbio测序对样品要求高、测序产量低、测序成本高、单碱基错误率高等缺点,使三代数据进行全基因组组装的发展受到很大的限制。但是要提高测序的准确性,就需要较高的数据乘数才能修正其碱基错误,而高的数据乘数又需要承担高昂的测序费用,这对于大基因组的组装是一个很大的挑战。所以处理含较高复杂区域的大基因组的组装问题,用较低深度的Pacbio数据通过对Illumina组装结果进行修正及补洞处理,可有效应用于基因组的组装,尤其提高组装的Contig N50的指标。Contig N50是指将组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当累计长度超过组装序列总长度的50%时,最后一个重叠群或骨架序列的长度即为对应的N50的大小,N50对评价基因组组装的完整性有很重要的意义。
发明内容
本发明提供一种使用三代序列优化二代组装结果的方法和装置,能够提高基因组组装指标和拼接的准确性。
根据本发明的第一方面,本发明提供一种使用三代序列优化二代组装结果的方法,包括:
获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
获取上述二代组装结果的间隙序列两侧的重叠群序列中比对到上述参考序列和未比对到上述参考序列的序列;
将上述未比对到上述参考序列的序列替换为间隙序列,使得上述二代组装结果的间隙序列延长,得到新的间隙序列;
对上述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,所述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
根据本发明的第二方面,本发明提供一种用于使用三代序列优化二代组装结果的装置,包括:
第一获取装置,用于获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
比对装置,用于以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
第二获取装置,用于获取上述二代组装结果的间隙序列两侧的重叠群序列中比对到上述参考序列和未比对到上述参考序列的序列;
替换装置,用于将上述未比对到上述参考序列的序列替换为间隙序列,使得上述二代组装结果的间隙序列延长,得到新的间隙序列;
补洞装置,用于对上述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,所述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
根据本发明的第三方面,本发明提供一种用于使用三代序列优化二代组装结果的装置,包括:
一存储器,
一个或多个处理器,以及
一个或多个程序,上述一个或多个程序存储在上述存储器中,并且用于由上述一个或多个处理器执行,上述程序包括用于实现如下方法的指令:
获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
获取上述二代组装结果的间隙序列两侧的重叠群序列中比对到上述参考序列和未比对到上述参考序列的序列;
将上述未比对到上述参考序列的序列替换为间隙序列,使得上述二代组装结果的间隙序列延长,得到新的间隙序列;
对上述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,上述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,包括程序,上述程序能够被处理器执行实现如下的方法:
获取二代组装结果和三代组装结果,其中上述二代组装结果包括重叠群序列和上述重叠群序列之间的间隙序列;
以上述三代组装结果为参考序列,将上述二代组装结果比对到上述参考序列;
获取上述二代组装结果的间隙序列两侧的重叠群序列中比对到上述参考序列和未比对到上述参考序列的序列;
将上述未比对到上述参考序列的序列替换为间隙序列,使得上述二代组装结果的间隙序列延长,得到新的间隙序列;
对上述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,上述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
本发明提供的对二代组装结果进行优化的方法和装置,使用高质量的二代组装数据及超长读长的三代组装数据联合组装。通过用一定深度的超长读长的三代组装数据与二代组装结果比对,对间隙序列两侧的重叠群序列进行修正,再用三代数据进行补洞,有效解决了二代组装结果由于间隙序列两侧的重叠群序列异常导致Contig序列延伸困难,ContigN50长度短等情况,而且弥补了二代短读长对一些高杂合区域无法识别或者高重复区域无法跨越的缺点,从而提高了组装结果的准确性和完整性。
附图说明
图1示出二代Illumina序列组装的实施例流程图;
图2示出三代Pacbio序列自纠错及组装的实施例流程图;
图3示出三代Pacbio序列优化二代Illumina组装结果的实施例流程图;
图4示出使用三代序列优化二代组装结果的方法一个实施例的流程图;
图5示出使用三代序列优化二代组装结果的装置一个实施例的结构框图;
图6示出使用三代序列优化二代组装结果的装置另一个实施例的结构框图;
图7示出计算机可读存储介质一个实施例的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本发明中二代序列可以来自任何二代测序平台,现有的技术平台主要包括Roche/454FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system等,优选来自Illumina测序平台。三代序列来自第三代单分子实时测序技术(SMRT)中的Pacbio测序平台。
在本发明的一个实施例中,提供一种基于二代Illumina测序技术和三代Pacbio测序技术相结合的组装测序方案,目的在于解决复杂基因组组装指标不够高、组装准确性低等组装问题。
本发明的方法使用三代序列优化二代组装结果,其起始数据是二代组装结果和三代组装结果,其中图1示出二代Illumina序列组装的实施例流程图。
如图1所示,在步骤102,Illumina测序得到原始序列数据,过滤掉接头、低质量碱基含量高的序列、N含量高的序列及重复(duplication)序列,获得高质量值的Illumina序列数据。
在步骤104,对Illumina的小片段文库进行纠错,并对有重叠(overlap)的文库片段进行连接,得到二代纠错和连通数据。对重叠的比对拼接连通可以使用PEAR软件,此软件可以从http://sco.h-its.org/exelixis/web/software/pear/获得。
在步骤106,对Illumina的数据进行组装,得到二代骨架序列。可以使用SoapDenovo和Sspace组装软件或者用Platanus组装软件,其中Soap Denovo可从http://soap.genomics.org.cn/获得;Sspace组装参考文献Boetzer,M.,et al.,Scaffoldingpre-assembled contigs using SSPACE.Bioinformatics,2011.27(4):p.578-9.;Platanus组装软件可由http://platanus.bio.titech.ac.jp/platanus/?page_id=14获得。
在步骤108,对二代骨架序列进行间隙序列填充,得到二代组装结果。可以采用华大基因研究院研发的软件krskgf和SOAPdenovo配套的补洞软件GapCloser进行。
作为起始数据的三代组装结果,可以按照图2示出的三代Pacbio序列自纠错及组装的实施例流程图获得。
在步骤202,Pacbio原始序列数据通过过滤接头、低质量碱基含量较高的序列、短序列数据,最终得到质量较高的长序列数据。Pacbio的下机数据中通常含有接头、含低质量碱基的读长以及片段较短数据,而实际应用中需要挑选质量较高的长读长序列。本实施例中的过滤软件可使用SMRT流程自带的过滤程序,相关程序可在网址https://github.com/PacificBiosciences中找到。也可自己手动进行过滤。
在步骤204,对Pacbio过滤后数据进行纠错。由于Pacbio序列一般平均的错误率高达15%,为了提高所用数据的准确性,需要在使用之前对Pacbio数据进行纠错。本实施例中的纠错软件可以使用MHAP的纠错模块或者Falcon中具有纠错功能的模块。纠错软件MHAP的参考文献:Berlin,K.,S.Koren,and C.S.Chin,Assembling large genomes with single-molecule sequencing and locality-sensitive hashing.Nat Biotechnol,2015.33(6):p.623-30.。组装软件FALCON的下载网址:https://github.com/PacificBiosciences/FALCON。
在步骤206,对Pacbio的纠错结果进行简单组装,得到Pacbio的初级骨架序列。一般来讲,Pacbio数据超过15X就可以进行组装,但是由于测序深度不够或者基因组的复杂性,拼接结果会比较短小。本实施例中的组装软件可以使用Celera Assemble组装软件或者Falcon组装中的组装模块。
图3示出三代Pacbio序列优化二代Illumina组装结果的实施例流程图。
在步骤302,二代Illumina组装结果与三代Pacbio组装结果进行比对,以三代Pacbio组装结果作为参考序列。二代组装结果的骨架序列是由重叠群序列与重叠群序列之间填充的间隙序列构成。在本实施例中,将Pacbio的初级骨架序列作为参考序列,使用Blasr软件对二代组装结果进行比对得到Blasr的m0格式的比对结果。Blasr的m0格式的比对结果提供了序列比对较为全面的比对信息,包括比对的总体统计信息,包括插入删除(Indel)、错配(Mismatch)的统计信息,比对的参考序列和比对序列的起始位置信息,以及两条序列比对的碱基一一对应关系(包括错配和插入删除的对应关系)。
在步骤302的比对过程中,虽然可以直接使用Pacbio原始数据或者纠错之后的数据,但本实例中使用了Pacbio的初级骨架序列数据,有以下有益效果:能够排除数据本身由于接头序列处理不当导致嵌合等情况从而使分析结果引入新的错误;Pacbio数据更长,更接近基因组序列,作为参考序列对二代组装结果修正更为精确;降低比对时间和资源的消耗;降低操作的复杂度。
在步骤304,获得二代组装结果间隙序列两侧的重叠群序列比对到参考序列的信息。选定比对块长度和容错率,基于blasr的m0格式的比对结果对间隙序列两侧的重叠群序列比对碱基进行上游和下游延伸。设定比对块长度和容错率,一方面考虑到三代测序数据随机错误率高的特点,虽然数据在拼接前已完成纠错,但是可能还会有一定比例的单碱基错误引入到组装结果中,从而防止间隙两侧重叠群序列为真实的基因组序列的情况被替换成间隙序列;另一方面考虑到如果靠近间隙处的单个碱基与参考序列是匹配的,但是间隙上游重叠群序列或者下游重叠群序列实际上有大量碱基并未匹配到参考序列,从而遗漏了对间隙两侧这种可能错误的重叠群序列的修正。在实际应用中,为了使结果更为精确,可以设置容错率为0或者1,比对块长度可根据需要自行设定,但由于间隙之间重叠群长度的限制及单碱基错误的随机性,该长度不宜设置过大,通常设置5-10bp为宜。在容错允许的条件下延伸至比对块长度内的碱基完全比对到参考序列,则停止延伸。步骤304的UR区域为延伸后间隙序列上游的重叠群序列未比对区域,DR区域为延伸后间隙序列下游的重叠群序列未比对区域。记录上游和下游未比对到参考序列的重叠群序列与比对到参考序列的重叠群序列分界处的位置坐标,步骤304的S1为间隙序列上游重叠群序列比对与未比对区域的分界处未比对的碱基位置,记为新的间隙序列的起始坐标,E1为间隙序列下游重叠群序列比对与未比对区域的分界处未比对的碱基位置,记为新的间隙序列的终止坐标。
通过304步骤对间隙序列比对结果的处理,可以判断间隙序列两侧的重叠群序列可能存在的错误连接区域,而正是这些错误连接区域导致二代骨架序列不能更好地延伸,无法获得更好的组装指标。
在步骤306,二代组装结果间隙序列附近重叠群序列未比对到参考序列区域碱基替换为间隙序列。具体地,根据记录的重叠群序列比对区域与未比对区域分界处的位置坐标(S1和E1),将起始坐标和终止坐标范围内的重叠群碱基替换为间隙序列。若经过替换后的新间隙序列大于Pacbio数据的测序平均长度(第一预设长度),替换后三代序列数据并不能很好地解决该间隙区域,则该替换是不可靠的,原始二代组装结果更为可靠。这种情况下,将替换的间隙序列还原为原二代组装结果的重叠群序列。若经过替换后的新间隙序列的长度小于一定长度(第二预设长度),Pacbio数据将无法很好地识别间隙区域。这种情况下,设定间隙序列的最小长度,并将间隙长度小于该最小长度的间隙序列延长至设定的最小长度。
在步骤308,使用三代Pacbio数据补洞。对修正后的二代组装结果使用三代Pacbio数据进行补洞,三代数据可以是原始数据、纠错数据、组装结果或者经过其他处理的数据,本实施例中使用三代纠错数据进行补洞。补洞软件可以使用Pbjelly,从而得到最终基因组序列。PBJelly补洞软件可通过网站http://www.fileguru.com/PBJelly/download获得。
通过306步骤和308步骤的修正,有利于补洞过程更加准确地定位间隙序列处的碱基,从而完善基因组的骨架序列,得到最终的组装结果。
以上以三代Pacbio序列优化二代Illumina组装结果为例说明了本发明的方法的具体实施过程。应当理解,本发明并不限于上述具体实施过程,尤其是二代组装结果并不限于Illumina测序序列的组装结果。
因此,本发明还提供使用三代序列优化二代组装结果的方法一个更广泛的实施例。在该更广泛的实施例中,不局限于以三代Pacbio序列优化二代Illumina组装结果。如图4所示,该实施例包括:
步骤410:获取二代组装结果和三代组装结果,其中二代组装结果包括重叠群序列和重叠群序列之间的间隙序列。
步骤420:以三代组装结果为参考序列,将二代组装结果比对到参考序列。
步骤430:获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列。具体地,该步骤包括:选定比对块长度和容错率,对间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至比对块长度内的碱基完全比对到参考序列,则停止延伸,得到未比对到参考序列的序列。
步骤440:将未比对到参考序列的序列替换为间隙序列,使得二代组装结果的间隙序列延长,得到新的间隙序列。
步骤450:对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
作为进一步改进的方案,在步骤440和步骤450之间可以包括:验证新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持新的间隙序列;优选地,第一预设长度为三代测序平均长度。优选地,还可以包括:验证新的间隙序列的长度是否小于第二预设长度,若是则延长至第二预设长度,若否则保持新的间隙序列;优选地,第二预设长度是补洞步骤450中能够识别的最短间隙长度。
本发明实施例还提供一种用于使用三代序列优化二代组装结果的装置,如图5所示,该装置包括:
第一获取装置510,用于获取二代组装结果和三代组装结果,其中二代组装结果包括重叠群序列和重叠群序列之间的间隙序列。
比对装置520,用于以三代组装结果为参考序列,将二代组装结果比对到参考序列。
第二获取装置530,用于获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列。具体地,包括:选定比对块长度和容错率,对间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至比对块长度内的碱基完全比对到参考序列,则停止延伸,得到未比对到参考序列的序列。
替换装置540,用于将未比对到参考序列的序列替换为间隙序列,使得二代组装结果的间隙序列延长,得到新的间隙序列。
补洞装置550,用于对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
作为进一步改进的方案,还可以包括验证装置,用于在替换处理和补洞处理之间进行验证新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持新的间隙序列;优选地,第一预设长度为三代测序平均长度。优选地,验证装置还用于验证新的间隙序列的长度是否小于第二预设长度,若是则延长至第二预设长度,若否则保持新的间隙序列;优选地,第二预设长度是补洞装置能够识别的最短间隙长度。
本发明实施例还提供一种用于使用三代序列优化二代组装结果的装置,如图6所示,该装置包括:
一存储器610,
一个或多个处理器620,以及
一个或多个程序611,其中一个或多个程序611存储在存储器610中,并且用于由一个或多个处理器620执行,程序611包括用于实现如下方法的指令:
获取二代组装结果和三代组装结果,其中二代组装结果包括重叠群序列和重叠群序列之间的间隙序列;
以三代组装结果为参考序列,将二代组装结果比对到参考序列;
获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列;具体地,该步骤包括:选定比对块长度和容错率,对间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至比对块长度内的碱基完全比对到参考序列,则停止延伸,得到未比对到参考序列的序列;
将未比对到参考序列的序列替换为间隙序列,使得二代组装结果的间隙序列延长,得到新的间隙序列;
对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
作为进一步改进的方案,程序611还包括用于实现如下步骤的指令:在替换步骤和补洞步骤之间,验证新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持新的间隙序列;优选地,第一预设长度为三代测序平均长度;优选地,还包括:验证新的间隙序列的长度是否小于第二预设长度,若是则延长至第二预设长度,若否则保持新的间隙序列;优选地,第二预设长度是补洞步骤中能够识别的最短间隙长度。
如图7所示,本发明实施例还提供一种计算机可读存储介质710,包括程序711,程序711能够被处理器执行实现如下的方法:
获取二代组装结果和三代组装结果,其中二代组装结果包括重叠群序列和重叠群序列之间的间隙序列;
以三代组装结果为参考序列,将二代组装结果比对到参考序列;
获取二代组装结果的间隙序列两侧的重叠群序列中比对到参考序列和未比对到参考序列的序列;具体地,该步骤包括:选定比对块长度和容错率,对间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至比对块长度内的碱基完全比对到参考序列,则停止延伸,得到未比对到参考序列的序列;
将未比对到参考序列的序列替换为间隙序列,使得二代组装结果的间隙序列延长,得到新的间隙序列;
对新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
作为进一步改进的方案,程序711能够被处理器执行实现如下的步骤:在替换步骤和补洞步骤之间,验证新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持新的间隙序列;优选地,第一预设长度为三代测序平均长度;优选地,还包括:验证新的间隙序列的长度是否小于第二预设长度,若是则延长至第二预设长度,若否则保持新的间隙序列;优选地,第二预设长度是补洞步骤中能够识别的最短间隙长度。
本发明实施例中的计算机可读存储介质710可以包括:只读存储器、随机存储器、磁盘或光盘等。
以下通过实施例详细说明本发明的技术方案和技术效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。以下实施例是一个具体的基因组组装实施例。基因组为藻类植物,基因组大小约为400Mb。在此实施例中,用三代Pacbio测序数据优化二代组装结果,具体步骤如下:
(一)Illumina数据组装
对原始的Illumina数据进行数据去接头、过滤低质量碱基序列、过滤N含量较高序列;对小片段有重叠(overlap)的数据,基于重叠方式进行连接。用处理后的数据Platanus组装,再用krskgf和Gapcloser软件对小片段文库数据进行补洞处理,得到二代组装结果。基因组利用Platanus软件进行二代序列组装,得到基因组大小约为339.91Mb,ScaffoldN50约为719.55Kb,Contig N50约为14.54Kb,间隙数量为76,125个,间隙长度为27,702,435。
对上述得到的组装结果用华大基因研究院研发的软件KGF进行补洞,得到基因组为339.79M,Scaffold N50约为719.14Kb,Contig N50约为43.99Kb,间隙数量为19,774个,间隙长度为16,624,356。
对KGF的补洞结果使用Soap Denovo自带的Gapcloser补洞软件进行补洞,得到的基因组大小约为339.75Mb,Scaffold N50约为718.84Kb,Contig N50约为76.15Kb,间隙数量为8,193个,间隙长度为12,451,049。
(二)Pacbio数据处理
将原始下机数据去除接头序列、小于500bp的短序列及RQ值小于0.8的序列,得到过滤之后的数据,数据量约为16.65Gb。
使用MHAP软件的纠错模块对过滤后的Pacbio序列进行自纠错,获得自纠错后的Pacbio序列,数据量为8.82Gb。参考文献:Assembling Large Genomes with Single-MoleculeSequencing and Locality Sensitive Hashing。
对纠错后的Pacbio数据过滤短读长,过滤长度为5k,过滤后数据量为7.34G,并对纠错后保留的长读长使用MHAP软件的组装模块进行组装。组装后的重叠群总长度为435M,Contig N50为117k,Scaffold N50为117k。
(三)Pacbio数据结果处理优化二代组装结果
将三代组装结果作为参考序列,与二代组装结果进行blasr比对,输出m0格式的比较结果。
根据m0的比对结果,二代组装结果间隙序列上下游重叠群序列与三代组装结果碱基有差异的区域,将该区域的序列替换成间隙序列。具体实施方法如下:
二代序列的读长测序方式采用双末端测序方法,所以得到的读长相对较短,尽管测序的精确性高,可以测量不同的插入片段文库,但是对于较大的重复区域及杂合区域还是很难识别和跨越,因此会在这些区域用间隙序列填充或者直接断开,从而导致组装的Contig指标不好。而具有超长读长的Pacbio数据恰好可以解决这一难题,尤其在本实施例中,将Pacbio数据进行初级组装后再与二代组装结果比对,可以更为准确地识别二代组装结果中间隙序列附近的异常区域。
本实例中通过对间隙序列两侧的重叠群序列比对结果的识别,替换间隙序列两侧的重叠群序列中可能的错配区域(包括比对区域为插入(Insertion)、删除(Deletion)及错配(Mismatch))为间隙序列。但是对于替换之后间隙序列长度过长的情况,则保留原间隙序列的长度。这是因为如果替换之后间隙序列的长度过长,用长读长的Pacbio数据可能也无法跨越,所以此处会保留原始二代组装结果的信息,在该实施例中,长度上限设置为10K(约为Pacbio数据的平均长度)。此外,为了更有利于三代Pacbio数据补洞,需要对经过替换处理过的二代组装结果再次进行间隙序列处理,将间隙序列少于最短间隙长度的数据变为最短间隙长度,在该实施例中,最短间隙长度设置为30bp(约为补洞软件所能识别的最短间隙长度)。
最后用超长读长的Pacbio纠错数据采用三代补洞软件PBJelly进行补洞。得到最终的二代基因组组装结果:基因组大小约为343.58Mb,Scaffold N50约为718.49Kb,ContigN50约为197.12Kb,间隙数量为2,881个,间隙长度为8,852,561。
经过Pacbio数据优化二代组装结果,详细指标见表1。其中Contig总长指组装结果中不含间隙的序列统计结果,Scaffold总长指组装中包含间隙序列的所有序列的总长度,与二代补洞后结果比较表示与表中二代Illumina序列补洞后的比较增量百分比,负值表示减少,正值表示增加。相比Illumina补洞后的结果,补洞后的最终Contig N50提升158.86%,间隙大小减少28.91%,间隙数量减少64.84%,对二代组装结果的Contig指标提升效果十分明显。
表1基因组序列补洞过程中指标变化表
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种使用三代序列优化二代组装结果的方法,其特征在于,所述方法包括:
获取二代组装结果和三代组装结果,其中所述二代组装结果包括重叠群序列和所述重叠群序列之间的间隙序列;
以所述三代组装结果为参考序列,将所述二代组装结果比对到所述参考序列;
获取所述二代组装结果的间隙序列两侧的重叠群序列中比对到所述参考序列和未比对到所述参考序列的序列;
将所述未比对到所述参考序列的序列替换为间隙序列,使得所述二代组装结果的间隙序列延长,得到新的间隙序列;
对所述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,所述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述未比对到所述参考序列的序列包括:选定比对块长度和容错率,对所述间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至所述比对块长度内的碱基完全比对到所述参考序列,则停止延伸,得到所述未比对到所述参考序列的序列。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:验证所述新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持所述新的间隙序列,优选地,所述第一预设长度为三代测序平均长度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:验证所述新的间隙序列的长度是否小于第二预设长度,若是则延长至所述第二预设长度,若否则保持所述新的间隙序列;优选地,所述第二预设长度是所述补洞步骤中能够识别的最短间隙长度。
5.一种用于使用三代序列优化二代组装结果的装置,其特征在于,所述装置包括:
第一获取装置,用于获取二代组装结果和三代组装结果,其中所述二代组装结果包括重叠群序列和所述重叠群序列之间的间隙序列;
比对装置,用于以所述三代组装结果为参考序列,将所述二代组装结果比对到所述参考序列;
第二获取装置,用于获取所述二代组装结果的间隙序列两侧的重叠群序列中比对到所述参考序列和未比对到所述参考序列的序列;
替换装置,用于将所述未比对到所述参考序列的序列替换为间隙序列,使得所述二代组装结果的间隙序列延长,得到新的间隙序列;
补洞装置,用于对所述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果,优选地,所述三代数据包括原始数据、纠错数据、组装结果或者经过其他处理的数据。
6.根据权利要求5所述的装置,其特征在于,所述获取所述未比对到所述参考序列的序列包括:选定比对块长度和容错率,对所述间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至所述比对块长度内的碱基完全比对到所述参考序列,则停止延伸,得到所述未比对到所述参考序列的序列。
7.根据权利要求5所述的装置,其特征在于,还包括验证装置,用于在替换处理和补洞处理之间,验证所述新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持所述新的间隙序列;优选地,所述第一预设长度为三代测序平均长度。
8.根据权利要求7所述的装置,其特征在于,所述验证装置还用于验证所述新的间隙序列的长度是否小于第二预设长度,若是则延长至所述第二预设长度,若否则保持所述新的间隙序列;优选地,所述第二预设长度是所述补洞步骤中能够识别的最短间隙长度。
9.一种用于使用三代序列优化二代组装结果的装置,其特征在于,所述装置包括:
一存储器,
一个或多个处理器,以及
一个或多个程序,所述一个或多个程序存储在所述存储器中,并且用于由所述一个或多个处理器执行,所述程序包括用于实现如权利要求1至4任一项所述的方法的指令。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行实现如权利要求1至4任一项所述的方法。
CN201710093627.XA 2017-02-21 2017-02-21 使用三代序列优化二代组装结果的方法和装置 Active CN108460245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710093627.XA CN108460245B (zh) 2017-02-21 2017-02-21 使用三代序列优化二代组装结果的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710093627.XA CN108460245B (zh) 2017-02-21 2017-02-21 使用三代序列优化二代组装结果的方法和装置

Publications (2)

Publication Number Publication Date
CN108460245A true CN108460245A (zh) 2018-08-28
CN108460245B CN108460245B (zh) 2020-11-06

Family

ID=63221719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710093627.XA Active CN108460245B (zh) 2017-02-21 2017-02-21 使用三代序列优化二代组装结果的方法和装置

Country Status (1)

Country Link
CN (1) CN108460245B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN109411020A (zh) * 2018-11-01 2019-03-01 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN111583997A (zh) * 2020-05-06 2020-08-25 西安交通大学 杂合变异下校正第三代测序数据中测序错误的混合方法
CN111968706A (zh) * 2020-10-20 2020-11-20 安诺优达基因科技(北京)有限公司 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法
CN111986729A (zh) * 2019-05-21 2020-11-24 深圳华大基因科技服务有限公司 对骨架序列进行优化的方法和系统及应用
CN112397149A (zh) * 2020-11-11 2021-02-23 天津现代创新中药科技有限公司 无参考基因组序列的转录组分析方法及系统
CN113782099A (zh) * 2021-10-27 2021-12-10 北京诺禾致源科技股份有限公司 修补基因组序列组装缺口的方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140025312A1 (en) * 2012-07-13 2014-01-23 Pacific Biosciences Of California, Inc. Hierarchical genome assembly method using single long insert library
WO2015027245A1 (en) * 2013-08-23 2015-02-26 Complete Genomics, Inc. Long fragment de novo assembly using short reads
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN104965999A (zh) * 2015-06-05 2015-10-07 西安交通大学 一种中短基因片段测序的分析拼接方法及设备
US20150344973A1 (en) * 2012-04-23 2015-12-03 Pathogenica, Inc. Method and System for Detection of an Organism
WO2016007870A2 (en) * 2014-07-11 2016-01-14 Iogenetics, Llc Immune recognition motifs
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
EP3020826A1 (en) * 2013-07-10 2016-05-18 Huazhong Agricultural University Whole-genome sequencing method based on dna cloning mixing pool
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
US20160378913A1 (en) * 2011-02-01 2016-12-29 The Regents Of The University Of California Scar-less multi-part dna assembly design automation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378913A1 (en) * 2011-02-01 2016-12-29 The Regents Of The University Of California Scar-less multi-part dna assembly design automation
US20150344973A1 (en) * 2012-04-23 2015-12-03 Pathogenica, Inc. Method and System for Detection of an Organism
US20140025312A1 (en) * 2012-07-13 2014-01-23 Pacific Biosciences Of California, Inc. Hierarchical genome assembly method using single long insert library
EP3020826A1 (en) * 2013-07-10 2016-05-18 Huazhong Agricultural University Whole-genome sequencing method based on dna cloning mixing pool
WO2015027245A1 (en) * 2013-08-23 2015-02-26 Complete Genomics, Inc. Long fragment de novo assembly using short reads
WO2016007870A2 (en) * 2014-07-11 2016-01-14 Iogenetics, Llc Immune recognition motifs
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN104965999A (zh) * 2015-06-05 2015-10-07 西安交通大学 一种中短基因片段测序的分析拼接方法及设备
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DMITRY ANTIPOV等: "HYBRIDSPADES: an algorithm for hybrid assembly of short and long reads", 《BIOINFORMATICS》 *
KONSTANTIN BERLIN等: "Assembling large genomes with single-molecule sequencing and locality-sensitive hashing", 《NATURE BIOTECHNOLOGY》 *
柳延虎等: "单分子实时测序技术的原理与应用", 《遗传HEREDITAS (BEIJING)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN109411020A (zh) * 2018-11-01 2019-03-01 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN109411020B (zh) * 2018-11-01 2022-02-11 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN111986729A (zh) * 2019-05-21 2020-11-24 深圳华大基因科技服务有限公司 对骨架序列进行优化的方法和系统及应用
CN111583997A (zh) * 2020-05-06 2020-08-25 西安交通大学 杂合变异下校正第三代测序数据中测序错误的混合方法
CN111583997B (zh) * 2020-05-06 2022-03-01 西安交通大学 杂合变异下校正第三代测序数据中测序错误的混合方法
CN111968706A (zh) * 2020-10-20 2020-11-20 安诺优达基因科技(北京)有限公司 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法
CN112397149A (zh) * 2020-11-11 2021-02-23 天津现代创新中药科技有限公司 无参考基因组序列的转录组分析方法及系统
CN113782099A (zh) * 2021-10-27 2021-12-10 北京诺禾致源科技股份有限公司 修补基因组序列组装缺口的方法和装置
CN113782099B (zh) * 2021-10-27 2022-03-04 北京诺禾致源科技股份有限公司 修补基因组序列组装缺口的方法和装置

Also Published As

Publication number Publication date
CN108460245B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN108460245A (zh) 使用三代序列优化二代组装结果的方法和装置
Narzisi et al. Comparing de novo genome assembly: the long and short of it
Wick et al. Benchmarking of long-read assemblers for prokaryote whole genome sequencing
Gordon et al. Gradual polyploid genome evolution revealed by pan-genomic analysis of Brachypodium hybridum and its diploid progenitors
Walker et al. Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement
Treangen et al. Next generation sequence assembly with AMOS
Dessimoz et al. Phylogenetic assessment of alignments reveals neglected tree signal in gaps
Blackburne et al. Class of multiple sequence alignment algorithm affects genomic analysis
Volz et al. Phylodynamic inference across epidemic scales
US9547749B2 (en) Visualization, sharing and analysis of large data sets
San et al. Transmission dynamics of SARS-CoV-2 within-host diversity in two major hospital outbreaks in South Africa
Shangguan et al. Evaluation of genome sequencing quality in selected plant species using expressed sequence tags
CN106795568A (zh) 测序读段的de novo组装的方法、系统和过程
Wernicke On the algorithmic tractability of single nucleotide polymorphism (SNP) analysis and related problems
Wildschutte et al. Discovery and characterization of Alu repeat sequences via precise local read assembly
Chrisman et al. Indels in SARS-CoV-2 occur at template-switching hotspots
Wang et al. Genomic evidence for homoploid hybrid speciation between ancestors of two different genera
Müller et al. Recombination patterns in coronaviruses
Yan et al. Maximum parsimony inference of phylogenetic networks in the presence of polyploid complexes
Margoliash et al. Polymorphic short tandem repeats make widespread contributions to blood and serum traits
Michaeli et al. Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing
US20220301672A1 (en) Computing device with improved user interface for interpreting and visualizing data
Sanders et al. Widespread extinctions of co-diversified primate gut bacterial symbionts from humans
Song et al. Insight into higher-level phylogeny of Neuropterida: Evidence from secondary structures of mitochondrial rRNA genes and mitogenomic data
CN107784198A (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant