CN107784201B - 一种二代序列和三代单分子实时测序序列联合补洞方法和系统 - Google Patents

一种二代序列和三代单分子实时测序序列联合补洞方法和系统 Download PDF

Info

Publication number
CN107784201B
CN107784201B CN201610741836.6A CN201610741836A CN107784201B CN 107784201 B CN107784201 B CN 107784201B CN 201610741836 A CN201610741836 A CN 201610741836A CN 107784201 B CN107784201 B CN 107784201B
Authority
CN
China
Prior art keywords
sequence
generation
time sequencing
molecule real
gap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610741836.6A
Other languages
English (en)
Other versions
CN107784201A (zh
Inventor
邓天全
贺丽娟
杨林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201610741836.6A priority Critical patent/CN107784201B/zh
Publication of CN107784201A publication Critical patent/CN107784201A/zh
Application granted granted Critical
Publication of CN107784201B publication Critical patent/CN107784201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种二代序列和三代单分子实时测序序列联合补洞方法和系统,该方法包括:基因组参考序列建库;将三代单分子实时测序序列比对到基因组参考序列;获得间隙序列支持;提取间隙序列支持;组装,建立一致的间隙填充序列;使用一致的间隙填充序列修补基因组参考序列的间隙;使用二代序列和修补后的基因组参考序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新基因组参考序列;用二代序列对新基因组参考序列进行补洞,获得最终基因组参考序列。本发明的方法采用二代序列与三代单分子实时测序序列相结合的方法进行分级补洞,提高了基因组完整性和准确性。

Description

一种二代序列和三代单分子实时测序序列联合补洞方法和 系统
技术领域
本发明涉及核苷酸序列组装技术领域,尤其涉及一种二代序列和三代单分子实时测序序列联合补洞方法和系统。
背景技术
目前,基因组组装项目以全基因组鸟枪法测序(Whole-genome shotgunsequencing,WGS)为主流设计方案,它主要根据基因组的重复序列的具体特点,搭配不同长度的DNA插入片段进行双末端测序,在全基因组的平均测序深度足够的情况下可保证单碱基的准确性和基因组的完整性。随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及,测序成本大大降低,基于第二代测序技术的全基因组鸟枪法测序成为各种基因组项目测序的主流方案。
然而对于复杂基因组,其具有高杂合性(杂合性即在同源染色体上的一个或多个位点上有不同等位基因存在的状态)与重复序列等各种问题,上述的解决方案易受这些问题的干扰,组装结果无法达标,导致数据分析及组装困难,不适用于复杂基因组。同时由于重复序列比较长,二代短序列无法跨越此区域,用二代序列补洞效果不是很理想。
将组装出的重叠群或骨架序列从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N50的大小,N50对评价基因测序的完整性有重要意义。
目前三代——Pacbio单分子实时测序(SMRT)技术由于具有超长读长的特点,能对高重复序列、转座子区域及高度变异区域等基因组复杂区域进行高水平组装或补洞,使得Contig N50和Scaffold N50长度更长,组装和补洞结果更完整准确,三代测序技术用于全基因组组装和补洞的物种越来越多。但其由于样品要求高、成本昂贵、单碱基错误率高(比如Pacbio RSII平台序列平均15%的错误率),如果只用Pacbio单分子实时测序序列进行全基因组装或补洞,组装和补洞后的某些区域可能会存在碱基错误,影响组装和补洞结果的准确性。
发明内容
本发明提供一种二代序列和三代单分子实时测序序列联合补洞方法和系统,能够提高基因组组装结果的指标和准确性。
根据本发明的第一方面,本发明提供一种二代序列和三代单分子实时测序序列联合补洞方法,包括:进行基因组参考序列建库;将三代单分子实时测序序列比对到上述基因组参考序列;获得间隙序列支持,确定支持每个间隙的三代单分子实时测序序列;提取间隙序列支持,获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中;对上述同一个文件夹中的序列进行组装,建立一致的间隙填充序列;使用上述一致的间隙填充序列修补上述基因组参考序列的间隙并输出修补结果;使用二代序列和经过上述三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新基因组参考序列;用二代序列对上述新基因组参考序列进行补洞,获得最终基因组参考序列。
进一步地,上述进行基因组参考序列建库包括:对上述基因组参考序列的每条骨架序列命名、建索引、及统计间隙信息。
进一步地,上述方法还包括:上述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
进一步地,上述方法还包括:上述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
进一步地,上述将三代单分子实时测序序列比对到上述基因组参考序列的步骤中使用的上述三代单分子实时测序序列是自纠错前的序列。
进一步地,上述将三代单分子实时测序序列比对到上述基因组参考序列的步骤中使用的上述三代单分子实时测序序列是自纠错后的序列。
进一步地,上述获得无效比对区域并用无效序列对该区域进行替换的步骤具体包括:二代序列比对到经过上述三代单分子实时测序序列修补后的基因组参考序列,获得比对结果;计算基因组参考序列的覆盖度,获得基因组参考序列有效区域无覆盖的情况;用无效序列替换无覆盖的有效序列区域,获得新基因组参考序列。
根据本发明的第二方面,本发明提供一种二代序列和三代单分子实时测序序列联合补洞系统,包括:参考序列建库单元,用于进行基因组参考序列建库;三代序列比对单元,用于将三代单分子实时测序序列比对到上述基因组参考序列;间隙序列支持获取单元,用于获得间隙序列支持,确定支持每个间隙的三代单分子实时测序序列;间隙序列支持提取单元,用于提取间隙序列支持,获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中;间隙填充序列建立单元,用于对上述同一个文件夹中的序列进行组装,建立一致的间隙填充序列;间隙修补单元,用于使用上述一致的间隙填充序列修补上述基因组参考序列的间隙并输出修补结果;比对替换单元,用于使用二代序列和经过上述三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新基因组参考序列;二代序列补洞单元,用于二代序列对上述新基因组参考序列进行补洞,获得最终基因组参考序列。
进一步地,上述系统还包括:三代序列自纠错单元,用于上述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
进一步地,上述系统还包括:三代序列筛选单元,用于上述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
本发明提供的基因组补洞方法和系统,采用二代序列与三代单分子实时测序序列相结合的方法进行分级补洞,提高了基因组完成性和准确性。
附图说明
图1示出三代单分子实时测序序列(例如Pacbio序列)自纠错的一个实施例的流程图;
图2示出本发明的基因组补洞方法的一个实施例的流程图;
图3示出本发明的基因组补洞方法中的基因组无效序列获取的一个实施例的流程图;
图4示出本发明的基因组补洞系统的一个实施例的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
在本发明的一个实施方案中,提供一种基于第二代测序技术和第三代(例如Pacbio)单分子实时测序技术(SMRT)所得测序序列联合补洞方法和系统,采用基于第二代测序技术的全基因组鸟枪法与第三代(例如Pacbio)单分子实时测序技术相结合的方法进行测序,旨在解决简单基因组和复杂基因组的补洞问题。
本发明中涉及到的术语说明如下:
二代序列,是指基于第二代测序技术得到的测序序列。
三代单分子实时测序序列,是指基于第三代测序技术得到的测序序列,尤其是以Pacbio测序为代表的单分子实时测序序列,在本发明中,也可以称为“三代序列”。
基因组参考序列,作为本发明方法起始使用的基因组参考序列可以是第一代或第二代测序序列组装的基因组结果。本发明的方法,对于那些第一代或第二代测序的基因组中存在的间隙,使用少量三代单分子实时测序序列并且联合二代序列,即可实现良好的补洞效果。
本发明中涉及三代单分子实时测序序列的自纠错,例如Pacbio序列的自纠错。图1示出三代单分子实时测序(例如Pacbio测序)序列自纠错的实施例流程图,包括:
在步骤102中,将使用三代单分子实时测序(例如Pacbio测序)得到的原始序列数据,过滤掉接头、短序列和质量值过低的序列,最终获得质量值比较高的三代单分子实时测序(例如Pacbio测序)序列数据。
在步骤104中,由于三代单分子实时测序(例如Pacbio测序)序列一般平均的错误率高达15%,为了提高接下来的图2中步骤208补洞的效率和步骤210拼接的准确性,将步骤102过滤后的三代单分子实时测序(例如Pacbio测序)序列利用序列间的比对关系进行自纠错,最终获得自纠错后的三代单分子实时测序(例如Pacbio测序)序列,例如可以使用纠错软件MHAP(参考文献:Assembling Large Genomes with Single-MoleculeSequencing andLocality Sensitive Hashing)。又比如可以使用FALCON组装软件中的纠错功能。FALCON下载网址https://github.com/PacificBiosciences/FALCON。经过自纠错以后的序列错误率下降,准确率提高,数据量变小,比对时间变短,提高了效率,有很大优势。
图2示出本发明的基因组补洞方法的一个实施例的流程图,具体包括:
在步骤202中,进行基因组参考序列建库。
具体可以包括:对基因组参考序列每条骨架序列重新命名、建索引、及统计间隙信息。
在步骤204中,将三代单分子实时测序序列比对到基因组参考序列。
例如,可以使用blasr比对软件将三代单分子实时测序序列(例如Pacbio序列)比对到基因组参考序列,获得三代单分子实时测序序列(例如Pacbio序列)和基因组参考序列的比对结果。
该步骤中,采用的三代单分子实时测序序列(例如Pacbio序列)可以为图1中步骤102的过滤后获得的三代单分子实时测序序列(例如Pacbio序列),也可以是步骤104的三代单分子实时测序序列(例如Pacbio序列)自纠错后获得的序列。经过自纠错以后的序列错误率下降,准确率提高,数据量变小,比对时间变短,提高了效率,有很大优势。
在步骤206中,获得间隙序列支持,确定支持每个间隙的三代单分子实时测序序列。
该步骤,根据比对结果(例如blasr的比对结果),确定哪些三代单分子实时测序序列(例如Pacbio序列)支持哪些间隙。
在步骤208中,提取间隙序列支持,获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中。
在步骤210中,对同一个文件夹中的序列进行组装,建立一致的间隙填充序列。
在步骤212中,使用一致的间隙填充序列修补基因组参考序列的间隙并输出修补结果。
上述步骤202至步骤212是使用三代单分子实时测序序列对基因组进行补洞的过程。上述过程可以采用替代性的补洞软件进行,例如采用PBJelly补洞软件,参考文献:Mindthe Gap:Upgrading Genomes with Pacific Biosciences RS Long-Read SequencingTechnology。
在步骤214中,使用二代序列和经过三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新基因组参考序列。
该步骤的具体实施步骤可以如图3所示,首先在步骤302中,二代序列比对到经过三代单分子实时测序序列修补后的基因组参考序列,获得比对结果;其次在步骤304中,计算基因组参考序列的覆盖度,获得基因组参考序列有效区域无覆盖的情况;最后在步骤306中,用无效序列替换无覆盖的有效序列区域,获得新基因组参考序列。
在步骤216中,用二代序列对新基因组参考序列进行补洞,获得最终基因组参考序列。
该步骤可以利用读间对关系(paired end),对骨架序列中无效碱基N进行填充。例如,采用华大基因研究院的软件KGF进行补洞,也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞软件Gapclose进行此阶段工作。SOAPdenovo可以从网上免费获得,网址为http://soap.genomics.org.cn/soapdenovo.html。Platanus可以从网址http://platanus.bio.titech.ac.jp/platanus/获得。
对应于上述基因组补洞方法,本发明一个实施例还提供一种基因组补洞系统,如图4所示,该系统包括:
参考序列建库单元402,用于进行基因组参考序列建库;三代序列比对单元404,用于将三代单分子实时测序序列比对到基因组参考序列;间隙序列支持获取单元406,用于获得间隙序列支持,确定支持每个间隙的三代单分子实时测序序列;间隙序列支持提取单元408,用于提取间隙序列支持,获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中;间隙填充序列建立单元410,用于对同一个文件夹中的序列进行组装,建立一致的间隙填充序列;间隙修补单元412,用于使用一致的间隙填充序列修补基因组参考序列的间隙并输出修补结果;比对替换单元414,用于使用二代序列和经过三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新基因组参考序列;二代序列补洞单元416,用于二代序列对新基因组参考序列进行补洞,获得最终基因组参考序列。
作为进一步改进,上述系统还包括:三代序列筛选单元418,用于三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
作为进一步改进,上述系统还包括:三代序列自纠错单元420,用于三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
下面提供本发明方法的一个藻类植物基因组大小约为400Mb具体应用例。基因组利用二代序列进行组装,组装后基因组大小约为342Mb,Scaffold N50约为787Kb,ContigN50约为11Kb,间隙大小约为35Mb,间隙数量为93269个。在该实施例中,实现基因组利用Pacbio单分子实时测序和二代测序联合补洞,具体步骤如下:
(一)Pacbio数据处理
1)将原始下机数据(Raw data)中的接头序列去除,同时去除小于500bp的短序列,RQ值小于0.75的序列,得到过滤后的序列数据,数据量约为22Gb。
2)使用MHAP软件对过滤后的Pacbio序列进行自纠错,获得自纠错后的Pacbio序列,数据量为7.5Gb。参考文献:Assembling Large Genomes with Single-MoleculeSequencing and Locality Sensitive Hashing。
(二)自纠错后的Pacbio序列对二代基因组骨架进行补洞
使用7.5Gb自纠错后Pacbio序列和PBJelly补洞软件对基因组序列进行补洞,获得补洞后的新基因组序列。
经过PBJelly软件补洞后可以得到大小约为365Mb的新基因组序列,Scaffold N50约为836Kb,Contig N50约为95Kb,间隙大小约为19Mb,间隙数量为34442。
(三)获取基因组骨架序列无效比对区域并用无效序列替换
由于Pacbio测序错误率比较高,经过自纠错后,错误率会大幅降低,但有些区域如果测序深度比较低,可能还会存在错误,所以可以通过二代序列比对将其挑出,采用华大基因研究院的软件SOAPaligner软件将二代序列比对到新的基因组序列,重复序列比对结果设置为全部输出,获得比对结果并统计基因组序列的覆盖度;挑选出无覆盖的有效序列区域;最后,用无效序列替换无覆盖度的有效序列区域,获得新的基因组序列。SOAPaligner软件可以在soap.genomics.org.cn免费获得。
通过替换可得到大小约为365Mb的新的基因组序列,Scaffold N50约为836Kb,Contig N50约为34Kb,间隙大小约为26Mb,间隙个数为87777个。
(四)二代序列对基因组骨架进行补洞
利用双端读中只有一端或者只有一部分比对到重叠群上,另一端则可以根据插入片段大小定位到骨架序列中的“N”区域中,这样就可以把骨架序列中的无效碱基转变为有效碱基。此步采用华大基因研究院的软件KGF进行补洞,同时使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。
经过KGF软件补洞可以得到大小约为365Mb的新骨架序列,Scaffold N50约为834Kb,Contig N50约为55Kb,间隙大小为约19Mb,间隙个数为79462个。
经过Gapcloser软件补洞可以得到大小为365Mb的最终基因组组装序列,ScaffoldN50约为834Kb,Contig N50约为98Kb,间隙大小约为11Mb,间隙个数为29359个。
经过Pacbio序列和二代序列的联合补洞,从表1可以看出,相比原始组装结果,补洞后的最终基因组大小提升6.7%,Scaffold N50提升6%,Contig N50提升790.9%,间隙大小减少68.5%,间隙数量减少68.5%,补洞效果提升十分明显。
表1基因组序列补洞过程中指标变化表
Figure BDA0001094458080000091
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种二代序列和三代单分子实时测序序列联合补洞方法,其特征在于,所述方法包括:
进行二代基因组序列建库;
将三代单分子实时测序序列比对到所述二代基因组序列;
获得间隙序列支持,具体步骤为:确定支持每个间隙的三代单分子实时测序序列;
提取间隙序列支持,具体步骤为:获取支持每个间隙的所有三代单分子实时测序序列并放到同一个文件夹中;
对所述同一个文件夹中的序列进行组装,建立一致的间隙填充序列;
使用所述一致的间隙填充序列修补所述二代基因组序列的间隙并输出修补结果;
使用二代序列和经过所述三代单分子实时测序序列修补后的二代基因组序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新二代基因组序列;
用二代序列对所述新二代基因组序列进行补洞,获得最终二代基因组序列。
2.根据权利要求1所述的联合补洞方法,其特征在于,所述进行二代基因组序列建库包括:对所述二代基因组序列的每条骨架序列命名、建索引、及统计间隙信息。
3.根据权利要求1所述的联合补洞方法,其特征在于,所述方法还包括:
所述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
4.根据权利要求3所述的联合补洞方法,其特征在于,所述方法还包括:
所述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
5.根据权利要求1所述的联合补洞方法,其特征在于,所述将三代单分子实时测序序列比对到所述二代基因组序列的步骤中使用的所述三代单分子实时测序序列是自纠错前的序列。
6.根据权利要求1所述的联合补洞方法,其特征在于,所述将三代单分子实时测序序列比对到所述二代基因组序列的步骤中使用的所述三代单分子实时测序序列是自纠错后的序列。
7.根据权利要求1所述的联合补洞方法,其特征在于,所述获得无效比对区域并用无效序列对该区域进行替换的步骤具体包括:
二代序列比对到经过所述三代单分子实时测序序列修补后的二代基因组序列,获得比对结果;
计算二代基因组序列的覆盖度,获得二代基因组序列有效区域无覆盖的情况;
用无效序列替换无覆盖的有效序列区域,获得新二代基因组序列。
8.一种二代序列和三代单分子实时测序序列联合补洞系统,其特征在于,所述系统包括:
参考序列建库单元,用于进行二代基因组序列建库;
三代序列比对单元,用于将三代单分子实时测序序列比对到所述二代基因组序列;
间隙序列支持获取单元,用于获得间隙序列支持,确定支持每个间隙的三代单分子实时测序序列;
间隙序列支持提取单元,用于提取间隙序列支持,获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中;
间隙填充序列建立单元,用于对所述同一个文件夹中的序列进行组装,建立一致的间隙填充序列;
间隙修补单元,用于使用所述一致的间隙填充序列修补所述二代基因组序列的间隙并输出修补结果;
比对替换单元,用于使用二代序列和经过所述三代单分子实时测序序列修补后的二代基因组序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得新二代基因组序列;
二代序列补洞单元,用于二代序列对所述新二代基因组序列进行补洞,获得最终二代基因组序列。
9.根据权利要求8所述的联合补洞系统,其特征在于,所述系统还包括:
三代序列自纠错单元,用于所述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
10.根据权利要求8所述的联合补洞系统,其特征在于,所述系统还包括:
三代序列筛选单元,用于所述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
CN201610741836.6A 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合补洞方法和系统 Active CN107784201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610741836.6A CN107784201B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合补洞方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610741836.6A CN107784201B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合补洞方法和系统

Publications (2)

Publication Number Publication Date
CN107784201A CN107784201A (zh) 2018-03-09
CN107784201B true CN107784201B (zh) 2021-05-28

Family

ID=61440768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610741836.6A Active CN107784201B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合补洞方法和系统

Country Status (1)

Country Link
CN (1) CN107784201B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595915B (zh) * 2018-04-16 2021-06-22 北京化工大学 一种基于dna变异检测的三代数据校正方法
CN108763871B (zh) * 2018-06-05 2022-05-31 北京诺禾致源科技股份有限公司 基于第三代测序序列的补洞方法及装置
CN109411020B (zh) * 2018-11-01 2022-02-11 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN111986729B (zh) * 2019-05-21 2024-07-12 深圳华大基因科技服务有限公司 对骨架序列进行优化的方法和系统及应用
CN111724858B (zh) * 2020-05-14 2024-06-07 东北林业大学 利用软件运行基因组序列比对修补gap的方法
CN113077842A (zh) * 2021-03-25 2021-07-06 北京百迈客生物科技有限公司 一种三代全长转录组辅助基因预测的方法
CN113782099B (zh) * 2021-10-27 2022-03-04 北京诺禾致源科技股份有限公司 修补基因组序列组装缺口的方法和装置
CN114708911B (zh) * 2022-03-15 2024-10-29 北京基石生命科技有限公司 一种三代测序数据的比对方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1884575A (zh) * 2005-06-21 2006-12-27 中国农业大学 构建bac亚克隆库的方法
CN102277351A (zh) * 2010-06-10 2011-12-14 中国科学院上海生命科学研究院 从无基因组参考序列物种获得基因信息及功能基因的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9512477B2 (en) * 2012-05-04 2016-12-06 Boreal Genomics Inc. Biomarker anaylsis using scodaphoresis
US20140005055A1 (en) * 2012-06-29 2014-01-02 Los Alamos National Security, Llc Methods for improving genome assemblies
CN103805689B (zh) * 2012-11-15 2015-08-19 深圳华大基因科技服务有限公司 一种基于特征kmer的异型性染色体序列组装方法及其应用
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN105303068B (zh) * 2015-10-27 2017-11-21 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN105483034B (zh) * 2016-02-23 2019-08-06 天津大学 一种转换酵母交配型的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1884575A (zh) * 2005-06-21 2006-12-27 中国农业大学 构建bac亚克隆库的方法
CN102277351A (zh) * 2010-06-10 2011-12-14 中国科学院上海生命科学研究院 从无基因组参考序列物种获得基因信息及功能基因的方法

Also Published As

Publication number Publication date
CN107784201A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
You et al. Chromosome‐scale pseudomolecules refined by optical, physical and genetic maps in flax
Souza et al. Assembly of the 373k gene space of the polyploid sugarcane genome reveals reservoirs of functional diversity in the world's leading biomass crop
Hoang et al. A survey of the complex transcriptome from the highly polyploid sugarcane genome using full-length isoform sequencing and de novo assembly from short read sequencing
Yin et al. Genome of an allotetraploid wild peanut Arachis monticola: a de novo assembly
Zimin et al. Hybrid assembly of the large and highly repetitive genome of Aegilops tauschii, a progenitor of bread wheat, with the MaSuRCA mega-reads algorithm
Gordon et al. Gradual polyploid genome evolution revealed by pan-genomic analysis of Brachypodium hybridum and its diploid progenitors
Staňková et al. BioNano genome mapping of individual chromosomes supports physical mapping and sequence assembly in complex plant genomes
Marchant et al. The C-Fern (Ceratopteris richardii) genome: insights into plant genome evolution with the first partial homosporous fern genome assembly
Wang et al. Assembly of chloroplast genomes with long-and short-read data: a comparison of approaches using Eucalyptus pauciflora as a test case
Kosugi et al. GMcloser: closing gaps in assemblies accurately with a likelihood-based selection of contig or long-read alignments
Kim et al. Complete chloroplast and ribosomal sequences for 30 accessions elucidate evolution of Oryza AA genome species
Neves et al. Whole‐exome targeted sequencing of the uncharacterized pine genome
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
Conte et al. An improved genome reference for the African cichlid, Metriaclima zebra
Aury et al. Long-read and chromosome-scale assembly of the hexaploid wheat genome achieves high resolution for research and breeding
CN104164479B (zh) 杂合基因组处理方法
CN108573127B (zh) 一种核酸第三代测序原始数据的处理方法及其应用
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统
Navrátilová et al. Prospects of telomere‐to‐telomere assembly in barley: Analysis of sequence gaps in the MorexV3 reference genome
CN101233509A (zh) 对双标记序列进行处理和/或基因组定位的方法
Wu et al. De novo genome assembly of Populus simonii further supports that Populus simonii and Populus trichocarpa belong to different sections
CN105512514B (zh) 一种mhc补全数据库、其构建方法和应用
Espinosa et al. Advancements in long-read genome sequencing technologies and algorithms
Hoang et al. De novo assembly and characterizing of the culm-derived meta-transcriptome from the polyploid sugarcane genome based on coding transcripts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1250537

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant