CN110021359A - 一种二代序列和三代序列联合组装结果去冗余的方法和装置 - Google Patents

一种二代序列和三代序列联合组装结果去冗余的方法和装置 Download PDF

Info

Publication number
CN110021359A
CN110021359A CN201710606833.6A CN201710606833A CN110021359A CN 110021359 A CN110021359 A CN 110021359A CN 201710606833 A CN201710606833 A CN 201710606833A CN 110021359 A CN110021359 A CN 110021359A
Authority
CN
China
Prior art keywords
sequence
assembling
result
generation
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710606833.6A
Other languages
English (en)
Other versions
CN110021359B (zh
Inventor
邓天全
高强
杨林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201710606833.6A priority Critical patent/CN110021359B/zh
Publication of CN110021359A publication Critical patent/CN110021359A/zh
Application granted granted Critical
Publication of CN110021359B publication Critical patent/CN110021359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供一种二代序列和三代序列联合组装结果去冗余的方法和装置,所述方法包括如下步骤:(1)根据基因组组装结果,划分和获取短序列和长序列;(2)将所述短系列和长序列进行比对,获得比对结果;(3)整合短序列比对结果,获得冗余序列;(4)去除冗余序列,获得组装结果。本发明方法和装置用于克服现有技术冗余序列去除不完全,基因组组装结果不完整、不准确的缺点,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。

Description

一种二代序列和三代序列联合组装结果去冗余的方法和装置
技术领域
本发明属于生物技术领域,涉及一种测序组装结果去冗余的方法,尤其涉及一种二代序列和三代序列联合组装结果去冗余的方法和装置。
背景技术
目前,基因组组装项目以全基因组鸟枪法测序(whole-genome shotgunsequencing,WGS)为主流设计方案,它主要根据基因组具有大量重复序列的特点,搭配不同长度的DNA插入片段进行双末端测序,在全基因组的平均测序达到足够深度的情况下,可保证单碱基的准确性和基因组的完整性。随着第二代序列技术(next-generationsequencing,NGS)的成熟和普及,测序成本得以降低,基于第二代序列技术的全基因组鸟枪法测序成为各种基因组测序项目的主流方案。
第三代PacBio单分子实时测序(single molecule real time,SMRT)技术具有超长读长的特点,可以对高重复序列、转座子区域与高度变异区域等基因组复杂区域进行高水平组装,获得的contigs(Contig)N50和骨架序列(Scaffold)N50长度更长,组装结果完整准确,得到越来越广泛的应用。
其中,contigs(Contig)N50或骨架序列(Scaffold)N50是指:把组装出的Contig或Scaffold从大到小排列,当其累计长度刚刚超过全部组装序列总长度的50%时,最后一个Contig或Scaffold的大小即为N50,同理可知N60、N70、N80、N90的含义,N50、N90等对评价基因测序的完整性具有重要的意义。
目前,三代序列技术联合二代序列技术用于全基因组组装的应用越来越多,然而,其也会产生一些冗余的组装结果。
二三代序列技术联合组装中冗余结果的产生过程,如图1所示,包括:步骤102所示为基因组序列的结构,其中白色区域为重复序列;步骤104所示为二代序列组装的Contigs结果,由于白色区域为重复序列部分,因此只组装出一份;步骤106所示为不同大小的Contigs片段利用双末端序列关系链接组装成Scaffolds序列,其中白色Scaffold序列由于满足多种距离关系,并未被链接上,进行单独保留;步骤108所示为利用三代序列补洞后的组装结果,步骤106中的间隙N被三代序列补上,但冗余的白色Scaffold序列仍然存在。
201410137420.4公开了一种杂合基因组处理方法,该方法将采用WGS获得的有效的读长短序列Reads进行组装并构建Scaffold,得到带有冗余序列的基因组图谱,通过k-mer分布图识别杂合区域,从而基于组装的长度来去除杂和区域中冗余的Scaffold。该方法不能确定冗余Scaffold的去除程度,无法实现完整而精确的基因组组装。
201410272988.7公开了一种组装基因组序列的方法和系统,该方法将第二代序列技术获得的高精度短片段序列进行拼接,获得第一拼接序列;将单分子测序技术获得的长片段序列进行拼接,获得第二拼接序列;将第一拼接序列定位到第二拼接序列上,利用第一拼接序列的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列,达到组装基因组序列的目的。然而,对于在拼接过程中产生的冗余序列,该方法仅利用全局比对信息进行去除,冗余片段的去除程度与去除效果并未讨论,无法得到完整而准确的基因组组装结果。
201510706400.9公开了一种基于参考基因组和从头组装相结合的二代序列数据组装方法,该方法采用AMOS软件对得到的Contig进行进一步组装,去除冗余区域,然而,该软件在一些较短的简单重复序列区域,不能完整地将该区域组装出来,于是也不能将冗余区域完全去除。
因此,找到一种可以准确去除组装基因组的冗余序列的方法,提高二代序列和三代序列联合组装结果的可靠性,对提高全基因组测序序列的完整性和准确性具有重要意义。
发明内容
针对现有技术的不足及实际需求,本发明提供一种二代序列和三代序列联合组装结果去冗余的方法和装置,以克服现有技术冗余序列去除不完全,基因组组装结果不完整、不准确的缺点。
一种二代序列和三代序列联合组装结果去冗余的方法,其特征在于,包括如下步骤:
(1)根据基因组组装结果,划分和获取短序列和长序列;
(2)将所述短系列和长序列进行比对,获得比对结果;
(3)整合短序列比对结果,获得冗余序列;
(4)去除冗余序列,获得组装结果。
本发明中,所述二代序列为通过二代测序得到的序列,所述三代序列为通过三代测序得到的序列。
根据本发明,步骤(1)所述划分短序列和长序列根据本物种组装结果情况,将序列划分为大于一定长度的序列和小于等于一定长度的序列,长度的大小本领域技术人员可以根据物种的组装结果而定,本发明中,步骤(1)所述划分短序列和长序列以500-1000bp为阈值进行划分,例如可以是500bp、510bp、520bp、530bp、540bp、550bp、560bp、580bp、600bp、620bp、650bp、680bp、700bp、720bp、750bp、780bp、800bp、820bp、850bp、880bp、900bp、920bp、950bp、980bp或1000bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
根据本发明,步骤(2)所述比对采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
根据本发明,步骤(3)所述整合短序列比对结果具体包括:筛选小于等于设定错配数的短序列。
根据本发明,所述设定错配数本领域技术人员可以根据具体的物种的组装结果而定,本发明中所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3。
根据本发明,步骤(3)所述的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
根据本发明,所述基因组组装包括采用二代序列组装、三代序列补洞和二代序列补洞。
根据本发明,所述二代序列组装具体包括:使用软件对二代序列进行contigs(重叠群)和Scaffold(一级骨架序列)组装,用二代序列对Scaffold进行补洞。
根据本发明,所述软件为SOAPdenovo和/或Platanus。
根据本发明,三代序列补洞和二代序列补洞具体包括:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞。
根据本发明,所述系统的使用方法包括如下步骤:
第二方面,本发明提供一种二代序列和三代序列联合组装结果去冗余的系统,包括:
划分模块,用于根据基因组组装结果,划分和获取短序列和长序列;
比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果;
整合模块,与所述比对模块相连,用于整合短序列比对结果,获得冗余序列;
输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
根据本发明,所述划分模块中划分短序列和长序列可以根据本物种组装结果情况,将序列划分为大于一定长度的序列和小于等于一定长度的序列,长度的大小本领域技术人员可以根据物种的组装结果而定,本发明中,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分,例如可以是500bp、510bp、520bp、530bp、540bp、550bp、560bp、580bp、600bp、620bp、650bp、680bp、700bp、720bp、750bp、780bp、800bp、820bp、850bp、880bp、900bp、920bp、950bp、980bp或1000bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
根据本发明,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
根据本发明,所述整合模块进行比对具体包括:筛选小于等于设定错配数的短序列。
根据本发明,所述设定错配数本领域技术人员可以根据具体的物种的组装结果而定,本发明中所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3。
根据本发明,所述整合模块中得到的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
根据本发明,所述系统还包括组装模块和补洞模块。
根据本发明,所述组装模块用于使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞。
根据本发明,所述补洞模块与所述组装模块相连,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
根据本发明,所述系统的使用方法,包括如下步骤:
(1)二代序列组装:使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞
(2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞;
(3)根据基因组组装结果,以500-1000bp为阈值划分和获取短序列和长序列;
(4)将所述短系列和长序列采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对,获得比对结果;
(5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,所述筛选得到的小于等于设定错配数的短序列为获得冗余序列;
(6)去除冗余序列,获得组装结果。
与现有技术相比,本申请具有的有益效果:
本发明方法和装置用于克服现有技术冗余序列去除不完全,基因组组装结果不完整、不准确的缺点,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。
附图说明
图1为现有技术二三代序列组装冗余序列产生过程的一个实施例的流程图;
图2是本发明二代序列和三代序列联合组装结果去除冗余序列的一个实施例的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例1一种二代序列和三代序列联合组装结果去冗余的系统
一种二代序列和三代序列联合组装结果去冗余的系统的组装,包括:
组装模块,用于使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对scaffold进行补洞;
补洞模块,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞;
划分模块,用于根据基因组组装结果,划分和获取短序列和长序列,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分;
比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对;
整合模块,与所述比对模块相连,用于整合短序列比对结果。具体包括:筛选小于等于设定错配数的短序列,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,获得所述筛选得到的小于等于设定错配数的短序列为冗余序列;
输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
所述系统的使用方法,包括如下步骤:
(1)二代序列组装:使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞,如图1中的102、104和106步骤所示;
(2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞,如图1中的108所示;
(3)根据基因组组装结果,以500-1000bp为阈值划分和获取短序列和长序列,如图2中的202所示;
(4)将所述短系列和长序列采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对,获得比对结果,如图2中的204所示;
(5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,所述筛选得到的小于等于设定错配数的短序列为获得冗余序列,如图2中的206所示;
(6)去除冗余序列,获得组装结果,如图2中的208所示。
实施例2苦苣苔二代序列和三代序列联合组装结果去冗余的方法
所述苦苣苔基因组大小约为950MB,实现基因结果去除容易具体包括如下步骤:
(1)二代序列组装:使用Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞,得到基因组Scaffold N50约为1.33MB,Contig N50约为52Kb;
(2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞,得到基因组Scaffold N50约为1.33MB,Contig N50约为107Kb;
(3)根据基因组组装结果,以500bp为阈值划分和获取短序列和长序列,将二三代组装结果943MB的Scaffold以小于等于500bp长度划分为短序列、以大于500bp的Scaffold划分为长序列,其中长序列大小为884.4MB,短序列为58.6MB;
(4)将所述短系列和长序列采用SOAPAligner软件进行比对,获得比对结果;
(5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,把小于等于1个错配的短序列筛选出来,得到28.5MB冗余的短序列;
(6)去除冗余序列,获得组装结果:从组装结果中去除上一步筛选出来的短序列,获得最终914.5MB组装结果,具体如表1和表2所示:
表1
表2
Scaffold N50为1.39MB,Contig N50为111KB,如表1所示,其中二三代联合组装结果去冗余前后Scaffold组装结果大小,N50、N90的大小和数量的变化,其中短的冗余序列大幅降低28.5MB,条数减少170555条。ScaffoldN90也显著从3KB提高到112KB,增长了36倍。如表2所示,其中二三代联合组装结果去冗余前后Contig组装结果大小,N50、N90的大小和数量的变化,其中短的冗余序列大幅降低28.5MB,条数降低170555条。Contig N90也显著从1.5KB现在提高到11.8KB,提高了6.85倍。
综上所述,本发明方法和装置,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种二代序列和三代序列联合组装结果去冗余的方法,其特征在于,包括如下步骤:
(1)根据基因组组装结果,划分和获取短序列和长序列;
(2)将所述短系列和长序列进行比对,获得比对结果;
(3)整合短序列比对结果,获得冗余序列;
(4)去除冗余序列,获得组装结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述划分短序列和长序列以500-1000bp为阈值进行划分。
3.根据权利要求1或2所述的方法,其特征在于,步骤(2)所述比对采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
4.根据权利要求1-3中任一项所述的方法,其特征在于,步骤(3)所述整合短序列比对结果具体包括:筛选小于等于设定错配数的短序列;
优选地,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
优选地,步骤(3)所述的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基因组组装包括采用二代序列组装、三代序列补洞和二代序列补洞;
优选地,所述二代序列组装具体包括:使用软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
优选地,所述软件为SOAPdenovo和/或Platanus;
优选地,三代序列补洞和二代序列补洞具体包括:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
6.一种二代序列和三代序列联合组装结果去冗余的系统,其特征在于,包括:
划分模块,用于根据基因组组装结果,划分和获取短序列和长序列;
比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果;
整合模块,与所述比对模块相连,用于整合短序列比对结果,获得冗余序列;
输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
7.根据权利要求6所述的系统,其特征在于,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分。
8.根据权利要求6或7所述的系统,其特征在于,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
9.根据权利要求6-8中任一项所述的系统,其特征在于,所述整合模块进行比对具体包括:筛选小于等于设定错配数的短序列;
优选地,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
优选地,所述整合模块中得到的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
10.根据权利要求6-9中任一项所述的系统,其特征在于,所述系统还包括组装模块和补洞模块;
优选地,所述组装模块用于使用SOAPdenovo和/或Platanus软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
优选地,所述补洞模块与所述组装模块相连,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
CN201710606833.6A 2017-07-24 2017-07-24 一种二代和三代序列联合组装结果去冗余的方法和装置 Active CN110021359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710606833.6A CN110021359B (zh) 2017-07-24 2017-07-24 一种二代和三代序列联合组装结果去冗余的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710606833.6A CN110021359B (zh) 2017-07-24 2017-07-24 一种二代和三代序列联合组装结果去冗余的方法和装置

Publications (2)

Publication Number Publication Date
CN110021359A true CN110021359A (zh) 2019-07-16
CN110021359B CN110021359B (zh) 2021-05-04

Family

ID=67185837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710606833.6A Active CN110021359B (zh) 2017-07-24 2017-07-24 一种二代和三代序列联合组装结果去冗余的方法和装置

Country Status (1)

Country Link
CN (1) CN110021359B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN117238376A (zh) * 2023-09-27 2023-12-15 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
US20130085681A1 (en) * 2011-10-06 2013-04-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN103080333A (zh) * 2010-09-14 2013-05-01 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
US20140297196A1 (en) * 2013-03-15 2014-10-02 Pico Computing, Inc. Hardware Acceleration of Short Read Mapping for Genomic and Other Types of Analyses
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103080333A (zh) * 2010-09-14 2013-05-01 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
US20130085681A1 (en) * 2011-10-06 2013-04-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20140297196A1 (en) * 2013-03-15 2014-10-02 Pico Computing, Inc. Hardware Acceleration of Short Read Mapping for Genomic and Other Types of Analyses
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JASON R. MILLER 等: ""Hybrid assembly with long and short reads improves discovery of gene family expansions"", 《BMC GENOMICS》 *
张欣园: ""多核环境下的生物信息序列比对并行优化方法的研究"", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN113496760B (zh) * 2020-04-01 2024-01-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN117238376A (zh) * 2023-09-27 2023-12-15 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法
CN117238376B (zh) * 2023-09-27 2024-04-30 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法

Also Published As

Publication number Publication date
CN110021359B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN108573127B (zh) 一种核酸第三代测序原始数据的处理方法及其应用
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
Barrett et al. Resolving ancient radiations: can complete plastid gene sets elucidate deep relationships among the tropical gingers (Zingiberales)?
CN110021359A (zh) 一种二代序列和三代序列联合组装结果去冗余的方法和装置
US20090298064A1 (en) Genomic Sequencing
CN104531848A (zh) 一种组装基因组序列的方法和系统
RU2010130458A (ru) Обнаружение ошибок в машине логического вывода системы поддержки принятия клинического решения
CN108629156B (zh) 三代测序数据纠错的方法、装置和计算机可读存储介质
US20160125128A1 (en) Accurate typing of hla through exome sequencing
JP2010517539A (ja) ショートリード配列決定を用いたインデル識別のためのシステムおよび方法
CN105303068A (zh) 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN104200133A (zh) 一种基于读数和距离分布的基因组De novo序列拼接方法
CN108460245B (zh) 使用三代序列优化二代组装结果的方法和装置
CN107858408A (zh) 一种基因组二代序列组装方法和系统
CN105989249A (zh) 用于组装基因组序列的方法、系统及装置
Ojeda et al. Utilization of tissue ploidy level variation in de novo transcriptome assembly of Pinus sylvestris
CN110021355A (zh) 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统
US20140121983A1 (en) System and method for aligning genome sequence
CN102789553A (zh) 利用长转录组测序结果装配基因组的方法及装置
JP2003530631A (ja) ショットガンデータ集合を用いた全ゲノムのアセンブリのための方法及びシステム
US20150120204A1 (en) Transcriptome assembly method and system
CN103646101B (zh) 查找内容项中是否存在标志的方法及装置
CN107841542A (zh) 一种基因组重叠群二代序列组装方法和系统
CN114464260A (zh) 染色体水平基因组的组装方法和组装装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant