CN102206704B - 组装基因组序列的方法和装置 - Google Patents

组装基因组序列的方法和装置 Download PDF

Info

Publication number
CN102206704B
CN102206704B CN2011100498850A CN201110049885A CN102206704B CN 102206704 B CN102206704 B CN 102206704B CN 2011100498850 A CN2011100498850 A CN 2011100498850A CN 201110049885 A CN201110049885 A CN 201110049885A CN 102206704 B CN102206704 B CN 102206704B
Authority
CN
China
Prior art keywords
sequence
short
movie section
reads
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011100498850A
Other languages
English (en)
Other versions
CN102206704A (zh
Inventor
韩长磊
陈文彬
张秀清
杨焕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Qinglan Biotechnology Wuxi Co ltd
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN2011100498850A priority Critical patent/CN102206704B/zh
Publication of CN102206704A publication Critical patent/CN102206704A/zh
Priority to PCT/CN2012/071876 priority patent/WO2012116658A2/zh
Priority to HK12102918.1A priority patent/HK1162614A1/xx
Application granted granted Critical
Publication of CN102206704B publication Critical patent/CN102206704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种组装基因组序列的方法和装置。其中,该方法包括对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;将过滤后的短片段序列与参考基因组序列进行比对;根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。

Description

组装基因组序列的方法和装置
技术领域
本发明涉及生物信息技术领域,特别地,涉及一种组装基因组序列的方法和装置。
背景技术
随着新一代测序技术454(Roche)、Solexa(Illumina)和SOLiD(ABI)的诞生,使得测序通量迅速提升的同时测序成本反而急剧下降。新一代测序技术上的这种突破极大地推动了基因组科学的发展,大量物种的全基因组序列被发表,包括James Watson的个人基因组、第一个亚洲人的基因组、大熊猫、黄瓜等。
新一代测序仪的每一轮测序都能获得百万计的短片段序列,对一个基因组进行完全测序则需要进行好几轮这样的测序工作,这也就意味着要想获得一份完整的全基因组图谱必须对数百万甚至是数十亿的短小片段进行作图、定位和拼接。
目前利用新一代测序技术进行测序时,测序仪在测序后产生的都是长约25bp~100bp左右的小片段序列,这些小片段都是待测样品大片段的某一部分,如何将测序得到的海量小片段序列数据还原为样品中的大片段数据给后续的信息分析工作提出了极大的挑战。在现有技术中,由于测序时产生的片段序列非常短,所以需要通过非常大的运算量才能完成对大片段数据的还原。
同时,作为衡量基因组图谱质量之一的片段长度N50(N50为将所有的组装得到的序列从大到小排列起来并按长度相加,当相加得到的长度为所有组装得到的序列总长的百分之五十时的那条组装序列的长度,可以参考Miller et al.2010.Assembly algorithms for next generationsequencing data.Genomics.95(6):315-327)指标也由于受到实验中所能构建文库的插入片段长度的限制一直存在着明显的瓶颈。
发明内容
本发明要解决的一个技术问题是提供一种组装基因组序列的方法和装置,能够利用长插入片段文库末端测序后的短片段序列进行基因组序列的组装,以提高组装效率和效果。
根据本发明的一方面,提出了一种组装基因组序列的方法,包括对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;将过滤后的短片段序列与参考基因组序列进行比对;根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
根据本发明方法的一个实施例,该方法还包括在进行序列比对之前,将过滤后的短片段序列截取为设定长度的短片段序列。
根据本发明方法的另一实施例,不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。
根据本发明方法的又一实施例,soap reads序列包括唯一成对比对上参考基因组序列的同一片段的soap reads序列和多次成对比对上参考基因组序列的同一片段的soap reads序列,利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离的步骤包括利用唯一成对比对上参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离。
根据本发明方法的再一实施例,该方法还包括构建长插入片段文库;对长插入片段文库末端进行测序。
根据本发明的另一方面,还提出了一种组装基因组序列的装置,包括序列过滤模块,用于对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;序列比对模块,与序列过滤模块相连,用于将过滤后的短片段序列与参考基因组序列进行比对;序列分类模块,与序列比对模块相连,用于根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;序列长度统计模块,与序列分类模块相连,用于利用soapreads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;序列组装模块,与序列分类模块和序列长度统计模块相连,用于在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
根据本发明装置的一个实施例,该装置还包括序列截取模块,与序列过滤模块和序列比对模块相连,用于在进行序列比对之前,将过滤后的短片段序列截取为设定长度的短片段序列。
根据本发明装置的另一实施例,不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。
根据本发明装置的又一实施例,soap reads序列包括唯一成对比对上参考基因组序列的同一片段的soap reads序列和多次成对比对上参考基因组序列的同一片段的soap reads序列,序列组装模块在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的同一片段的soapreads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离。
根据本发明装置的再一实施例,该装置还包括序列接收模块,与序列过滤模块相连,用于接收长插入片段文库末端测序后的序列。
本发明提供的组装基因组序列的方法和装置,由于对长插入片段文库末端进行测序,使得测序得到的短片段序列长度相对于现有技术有了显著的增加,所以可以有效提高基因组序列的组装效率。同时,由于采用了长插入片段文库,因而能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段,进而提高了基因组组装的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中:
图1是本发明组装基因组序列方法的一个实施例的流程示意图。
图2是本发明组装基因组序列方法的另一实施例的流程示意图。
图3是本发明组装基因组序列方法的又一实施例的流程示意图。
图4是本发明组装基因组序列方法的再一实施例的流程示意图。
图5是本发明组装基因组序列方法的再一实施例中的文库质量评估示意图。
图6是本发明组装基因组序列装置的一个实施例的结构示意图。
图7是本发明组装基因组序列装置的又一实施例的结构示意图。
图8是本发明组装基因组序列装置的再一实施例的结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
fosmid和细菌人工染色体(Bacterial Artificial Chromosome,BAC)是基因组研究中可用的大片段克隆,BAC通常可以插入大约100kb-200kb的片段,fosmid通常可以插入大约40kb的片段,BAC和fosmid不仅具有插入片段长的特点,而且还具有非常好的稳定性,因而他们是基因组学研究的重要工具,在基因图位克隆、基因分析、结构性变异和基因组组装中有重要的作用。
图1是本发明组装基因组序列方法的一个实施例的流程示意图。
如图1所示,该实施例可以包括以下步骤:
S102,对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;
其中,不合格的序列可以包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列(即,从同一个短片段序列的两端分别向内侧测序,这两个相向的序列被称为成对短片段序列)有重叠区域的短片段序列、以及重复测到的短片段序列;
S104,将过滤后的短片段序列与参考基因组序列进行比对,例如,可以采用soap、bwa等方法进行比对;
S106,根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;
其中,soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列;single reads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列;unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列;
S108,由于soap reads序列为成对存在且都能比对到参考基因组序列的同一组装片段上的短序列,所以可以利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离(即,计算soap reads序列的长度),并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布情况;
S110,在距离分布满足阈值要求(例如,用fosmid构建文库时,距离在30kb-50kb之间的序列数目大于85%)时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装;
具体地,可以利用唯一成对比对上参考基因组序列的不同组装片段的single reads序列、按照测序文库的内在序列长度和空间关系,连接相邻的基因组序列片段,以提升基因组组装效果。
该实施例由于对长插入片段文库末端进行测序,使得测序得到的短片段序列长度相对于现有技术有了显著的增加,所以可以有效提高基因组序列的组装效率。同时,由于采用了长插入片段文库,因而能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段,进而提高了基因组组装的效果。
图2是本发明组装基因组序列方法的另一实施例的流程示意图。
如图2所示,该实施例可以包括以下步骤:
S202,对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;
具体地,可以将测序后的短片段序列与实验引入的外源序列(例如,各种接头序列)比对,若序列中存在外源序列,则认为是不合格序列,并将不合格的短片段序列去除,此外,不合格的序列还包括:碱基为N的碱基数达到一定比例的短片段序列、为polyA结构的短片段序列、低质量碱基数目达到一定程度(例如,40个碱基)的短片段序列、有接头污染(例如,与接头序列至少10bp比对上,且错配数不多于3个)的短片段序列、测序中成对的短片段序列有重叠区域(例如,测序中成对的短片段序列的重叠区域至少为10bp,且错配比例低于10%)的短片段序列、重复测到的短片段序列(测序中成对的短片段序列完全一样被确定为重复的短片段序列),最后对于头部或者末端质量比较差的短片段序列将直接截掉;
S204,将过滤后的短片段序列截取为设定长度的短片段序列;
具体地,为了提高比对的准确性,进行比对的片段的长度应基本相同,允许有一定的浮动范围(其中,浮动范围可根据需求自行设置),针对长度在正常范围内的测序片段测序所获得的短片段序列被称为正常短序列,反之被称为异常短序列,进行比对的短片段序列的最低比对长度为40bp(如果进行比对的序列长度过长,则比对上的序列数目偏少,在一定程度上影响基因组组装的效果;如果进行比对的序列长度过短,一方面降低了比对的效率,另一方面会使N50性能降低),比对时一条短序列上允许的最大不匹配数要尽量小,以保证比对的精确性;
S206,将过滤后的短片段序列与参考基因组序列进行比对,例如,可以采用各种短序列比对软件(诸如soap、bwa等)进行比对;
S208,根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;
S210,依据比对结果,提取只有一条与参考基因组序列比对上,并且只比对到参考基因组序列上一次的single reads,以保证比对结果的特异性;
S212,利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;
S214,在距离分布满足阈值要求时,利用S210中提取出的唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
该实施例对待比对的片段长度进行了一定的限定,要求待比对序列的长度在设定范围内,以保证比对的精度和效率。
图3是本发明组装基因组序列方法的又一实施例的流程示意图。
如图3所示,该实施例可以包括以下步骤:
S302,对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;
S304,将过滤后的短片段序列与参考基因组序列进行比对;
S306,根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量,其中,soap reads序列又可以包括唯一成对比对上参考基因组序列的同一片段的soap reads序列和多次成对比对上参考基因组序列的同一片段的soap reads序列;
S308,利用唯一成对比对上参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;
S310,在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
该实施例利用唯一成对比对上参考基因组序列的同一片段的soapreads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,可以准确地统计出长插入片段文库的质量,以为基因组的组装作好准备工作。
图4是本发明组装基因组序列方法的再一实施例的流程示意图。
如图4所示,该实施例可以包括以下步骤:
S402,为了利用新一代测序技术并结合fosmid或BAC文库的信息实现基因组片段的组装,在进行组装之前需要构建长插入片段文库;
具体地,可以包括以下几个部分:
(1)随机打断:
将插入有待测DNA的载体进行随机打断处理,以获得大于载体长度的随机打断片段,然后将得到的随机打断片段进行末端修复,使末端平端化,其中,载体是质粒,具体地,可以是fosmid质粒、BAC质粒或cosmid质粒等;
(2)分离:
将(1)中的末端修复后的被随机打断的片段进行分离,得到大于载体长度的随机打断片段;
(3)环化:
将(2)中得到的随机打断片段进行自身连接,形成环形分子,然后清除未自身连接的片段;
(4)扩增:
根据载体序列设计引物,扩增环形分子中存留的待测基因的核酸片段,即,(1)中所述的待测核酸片段的末端序列。
S404,对长插入片段文库末端进行测序;
具体地,将上述(4)中得到的扩增产物进行末端修复,以使末端平端化,然后加上测序用接头,选择新一代测序平台进行测序,为了保证所需的基因组覆盖度,测序得到的碱基总量需在基因组大小的3倍以上。
S406,对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列。
S408,将过滤后的短片段序列与参考基因组序列进行比对。
S410,根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量。
S412,利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布。
S414,在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
该实施例结合长插入片段文库(例如,fosmid,BAC等)的文库构建方法以及新一代测序技术有效地利用新一代测序技术在构建基因组上的速度快和廉价的特点、利用fosmid及BAC文库插入片段长度远远大于普通建库方法的优势、以及利用测序数据中包含的更远距离的序列拓扑关系构建出更长的基因组序列片段,显著提高基因组图谱的质量。
在本发明组装基因组序列方法的再一实施例中,以果蝇基因组的X染色体为例,其参考基因组序列的来源为:The National Center forBiotechnology Information,网址为:http://www.ncbi.nlm.nih.gov/,基因组编号为:gi|116010291|ref|NC_004354.3|Drosophila melanogasterchromosome X,complete sequence。
可以利用Maq simulate软件对果蝇基因组X染色体进行模拟测序,测序得到的结果作为测序数据。其中,需要为Maq simulate设置如下参数:-d,-N,-1,-2,fq1,fq2和simupars.dat。
下面对各个参数做详细的说明:-d参数为测序片段长度,分别设置为500、2000、5000、40000;-N参数表示测序所要获得的短片段序列总数,该参数根据测序深度(Sequencing Depth)来确定,测序深度是评价测序质量的指标之一,表示测序得到的碱基总量(bp)与基因组大小(Genome)的比值,利用公式:N=测序深度×参考基因组总长度/(2×reads长度)来计算。该实施例的模拟测序深度为50乘(即,50倍的参考基因组序列长度),参考基因组总长度为22M,短片段序列长度设为100bp;-1,-2参数为进行比对的双末端短片段序列1和短片段序列2的长度,本例中设为100bp;fq1,fq2为输出文件,将模拟测序后的测序数据(即,短片段序列1和短片段序列2)分别以fasta格式存入fa1,fa2文件中;simupars.dat为maq simulate软件的系统文件,决定短片段序列的长度和质量值。
该实施例可以使用各种常见短序列比对软件(如soap、bwa等)将这些序列与物种的参考基因组序列进行相似性比对,进行比对的测序片段的长度应基本相同,允许有一定的浮动范围(浮动范围可根据需求自行设置),针对长度在正常范围内的测序片段测序所获得的短片段序列被称为正常短序列,反之被称为异常短序列,进行比对的短片段序列的最低长度为40bp,比对时一条短序列上允许的最大不匹配数要尽量小,以保证精确比对。
在本实施例中,进行比对时使用的软件为soap2,在进行比对时需要设置如下参数:-p,-a,-b,-D,-o,-2,-u,-m,-x,-s,-l,-v。
下面对各个参数做详细的说明:-p参数表示该脚本运行时所需要的内存;-a参数表示双末端测序时输入文件为重测序得到的fq1文件(短片段序列1所在的文件);-b参数表示双末端测序时输入文件为重测序得到的fq2文件(短片段序列2所在的文件);-D参数表示参考基因组序列以fasta文件格式输入(其中,fasta序列文件的第一行是由大于号″>″或分号″;″开头的任意文字说明,用于序列标记;从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号);输出参数有三项,-o参数,输出的结果为比对到参考基因组上的成对短片段序列,其输出文件以.soap为后缀;-2参数,其输出结果为成对的短片段序列中只有一条比对到参考基因组序列上,输出文件以.single作为后缀;-u参数,其输出结果是未比对到参考基因组序列的成对短片段序列,输出文件以.unmap作为后缀;不设置-t参数以保留短片段序列的原始ID号;-m,-x参数为插入片段的浮动范围,-m参数指测序片段的浮动下限,即,负百分数×测序片段长度,-x参数指测序片段的浮动上限,即,正百分数×测序片段长度。在该实施例中,为了最大范围的找到符合条件的短片段序列,将测序片段的浮动范围放宽,-m,-x参数分别设置为测序片段长度±0.88×测序片段长度;-s参数为最小比对长度,设置为40;-l参数为初始比对上的种子序列(长片段序列的3’端错误率高,从5’端设定一定长度的序列作为种子序列)长度,设置为32;-v参数表示比对时一条短片段序列上允许的最大不匹配数,在该实施例中该参数设置要尽量小,以保证精确比对。此外,需要注意对soap参数设置的一致性。
如图5所示,横坐标“insert size(kb)”表示“插入片段的长度”,纵坐标“Uniq PE Reads”表示“唯一的成对末端测序结果”,使用这些数据进行文库插入片段大小的分析,结果显示插入片段大小正常,波动范围在可接受范围内。利用定位到参考基因组序列的不同组装片段上的序列信息进行基因组的辅助组装,将果蝇基因组的模拟组装结果的N50从0.32M提高到1.48M。
在本发明组装基因组序列方法的再一实施例中,首先,随机打断云岭黑山羊基因组DNA,确保被打断的DNA大小不低于36Kb,通过分离、环化、扩增过程得到云岭黑山羊的fosmid文库。然后,使用新一代测序技术得到14.4M对原始测序短序列,其中,高通量测序技术可以为Illumina GA测序技术,也可以为现有的其他高通量测序技术。
接下来,利用生物信息学方法除去测序时的接头序列以及末端质量较差数据,随后去掉重复测到的序列,最终得到2,611,182对具有唯一特征的序列。在具有唯一特征的序列中,共有1,589,054对具有唯一匹配位点定位到同一个scaffold(参考基因组序列的组装片段)上。其中,定位到同一个scaffold上且距离小于500bp的数目为338,255对,定位到同一个scaffold上且距离大于10kb的数目为232,544对,其中30kb-50kb的有206,697对,占86.42%。使用这些数据进行文库插入片段大小的分析,结果显示插入片段大小正常,波动范围在可接受范围内。定位到不同scaffold上的有18,255对,利用这18,255对进行基因组的辅助组装,可以将云岭黑山羊的组装结果的N50从2.2M提高到3.1M。
在本发明组装基因组序列方法的再一实施例中,首先,随机打断北极熊基因组DNA,确保被打断的DNA大小不低于36Kb,通过分离、环化、扩增过程得到北极熊的fosmid文库。然后,使用新一代测序技术得到14.4M对原始测序短序列,其中,高通量测序技术可以为Illumina GA测序技术,也可以为现有的其他高通量测序技术。
接下来,利用生物信息学方法除去测序时的接头序列以及末端质量较差数据,随后去掉重复测到的序列,最终得到15,225,082对序列,在15,225,082对序列中,共有2,865,235对具有唯一匹配位点定位到同一个scaffold上,其中,距离小于500bp的数目为209,600对,定位到同一个scaffold上且距离大于10kb的数目为531,028对,其中30kb-50kb的有520,897对,占98.09%,定位到不同scaffold上的有185,888对,利用这185,888对进行基因组的辅助组装,可以将N50从2.3M提高到6.5M。
图6是本发明组装基因组序列装置的一个实施例的结构示意图。
如图6所示,该实施例的装置10可以包括:
序列过滤模块11,用于对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列,其中,不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列;
序列比对模块12,与序列过滤模块11相连,用于将过滤后的短片段序列与参考基因组序列进行比对;
序列分类模块13,与序列比对模块12相连,用于根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量,其中,soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列;singlereads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列;unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列;
序列长度统计模块14,与序列分类模块13相连,用于利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;
序列组装模块15,与序列分类模块13和序列长度统计模块14相连,用于在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列,按照测序文库的内在序列长度和空间关系连接相邻的基因组序列片段进行基因组序列的组装。
该实施例由于对长插入片段文库末端进行测序,使得测序得到的短片段序列长度相对于现有技术有了显著的增加,所以可以有效提高基因组序列的组装效率。同时,由于采用了长插入片段文库,因而能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段,进而提高了基因组组装的效果。
可选地,在另一实施例中,soap reads序列可以包括唯一成对比对上参考基因组序列的同一片段的soap reads序列和多次成对比对上参考基因组序列的同一片段的soap reads序列,序列组装模块还用于在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离。
该实施例利用唯一成对比对上参考基因组序列的同一片段的soapreads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,可以准确地统计出长插入片段文库的质量,以为基因组的组装作好准备工作。
图7是本发明组装基因组序列装置的又一实施例的结构示意图。
如图7所示,与图6中的实施例相比,该实施例的装置20还可以包括:
序列截取模块21,与序列过滤模块11和序列比对模块12相连,用于在进行序列比对之前,将过滤后的短片段序列截取为设定长度的短片段序列,其中,最低比对长度为40bp。
该实施例对待比对的片段长度进行了一定的限制,要求待比对序列的长度在设定范围内,以保证比对的精度和效率。
图8是本发明组装基因组序列装置的再一实施例的结构示意图。
如图8所示,与图6中的实施例相比,该实施例的装置30还可以包括:
序列接收模块31,与序列过滤模块11相连,用于接收长插入片段文库末端测序后的序列。
上述组装基因组序列装置的具体实例可以参照前述组装基因组序列方法的具体实例,在此不再重复。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (6)

1.一种组装基因组序列的方法,其特征在于,包括:
对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列,其中,所述不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列;
将过滤后的短片段序列与参考基因组序列进行比对;
根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量,其中,所述soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列;所述single reads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列;所述unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列,所述soap reads序列包括唯一成对比对上所述参考基因组序列的同一片段的soap reads序列和多次成对比对上所述参考基因组序列的同一片段的soap reads序列;
利用唯一成对比对上所述参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布;
在所述距离分布满足阈值要求时,利用唯一成对比对上所述参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在进行序列比对之前,将所述过滤后的短片段序列截取为设定长度的短片段序列。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建长插入片段文库;
对所述长插入片段文库末端进行测序。
4.一种组装基因组序列的装置,其特征在于,包括:
序列过滤模块,用于对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列,其中,所述不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列;
序列比对模块,与所述序列过滤模块相连,用于将过滤后的短片段序列与参考基因组序列进行比对;
序列分类模块,与所述序列比对模块相连,用于根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量,其中,所述soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列;所述single reads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列;所述unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列,所述soapreads序列包括唯一成对比对上所述参考基因组序列的同一片段的soapreads序列和多次成对比对上所述参考基因组序列的同一片段的soapreads序列;
序列长度统计模块,与所述序列分类模块相连,用于利用唯一成对比对上所述参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布;
序列组装模块,与所述序列分类模块和所述序列长度统计模块相连,用于在所述距离分布满足阈值要求时,利用唯一成对比对上所述参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
序列截取模块,与所述序列过滤模块和所述序列比对模块相连,用于在进行序列比对之前,将所述过滤后的短片段序列截取为设定长度的短片段序列。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
序列接收模块,与所述序列过滤模块相连,用于接收长插入片段文库末端测序后的序列。
CN2011100498850A 2011-03-02 2011-03-02 组装基因组序列的方法和装置 Active CN102206704B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011100498850A CN102206704B (zh) 2011-03-02 2011-03-02 组装基因组序列的方法和装置
PCT/CN2012/071876 WO2012116658A2 (zh) 2011-03-02 2012-03-02 组装基因组序列的方法和装置
HK12102918.1A HK1162614A1 (en) 2011-03-02 2012-03-22 Method and devices for genome sequence assembly

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100498850A CN102206704B (zh) 2011-03-02 2011-03-02 组装基因组序列的方法和装置

Publications (2)

Publication Number Publication Date
CN102206704A CN102206704A (zh) 2011-10-05
CN102206704B true CN102206704B (zh) 2013-11-20

Family

ID=44695763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100498850A Active CN102206704B (zh) 2011-03-02 2011-03-02 组装基因组序列的方法和装置

Country Status (3)

Country Link
CN (1) CN102206704B (zh)
HK (1) HK1162614A1 (zh)
WO (1) WO2012116658A2 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103160937B (zh) * 2011-12-15 2015-02-18 深圳华大基因科技服务有限公司 对高等植物复杂基因组基因进行富集建库和snp分析的方法
CN102682226B (zh) * 2012-04-18 2015-09-30 盛司潼 一种核酸测序信息处理系统及方法
CN102789553B (zh) * 2012-07-23 2015-04-15 中国水产科学研究院 利用长转录组测序结果装配基因组的方法及装置
CN102867134B (zh) * 2012-08-16 2016-05-18 盛司潼 一种对基因序列片段进行拼接的系统和方法
KR101508817B1 (ko) * 2012-10-29 2015-04-08 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
CN105849284B (zh) * 2013-11-01 2021-08-10 奥基诺公司 序列数据中分离质量等级和测序较长读段的方法和设备
CN105874460B (zh) 2013-11-01 2018-10-02 精赛恩公司 识别靶序列的至少一个碱基的方法、可读介质及设备
CN103810402B (zh) * 2014-02-25 2017-01-18 北京诺禾致源生物信息科技有限公司 用于基因组的数据处理方法和装置
CN105989249B (zh) * 2014-09-26 2019-03-15 南京无尽生物科技有限公司 用于组装基因组序列的方法、系统及装置
CN104484558B (zh) * 2014-12-08 2018-04-24 深圳华大基因科技服务有限公司 生物信息项目的分析报告自动生成方法及系统
CN105219765A (zh) * 2015-11-09 2016-01-06 中国水产科学研究院 利用蛋白质序列构建基因组的方法和装置
WO2017143585A1 (zh) * 2016-02-26 2017-08-31 深圳华大基因研究院 对分隔长片段序列进行组装的方法和装置
CN109817280B (zh) * 2016-04-06 2023-04-14 晶能生物技术(上海)有限公司 一种测序数据组装方法
CN107858408A (zh) * 2016-09-19 2018-03-30 深圳华大基因科技服务有限公司 一种基因组二代序列组装方法和系统
CN108629156B (zh) * 2017-03-21 2020-08-28 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN108866173A (zh) * 2017-05-16 2018-11-23 深圳华大基因科技服务有限公司 一种标准序列的验证方法、装置及其应用
CN110021359B (zh) * 2017-07-24 2021-05-04 深圳华大基因科技服务有限公司 一种二代和三代序列联合组装结果去冗余的方法和装置
WO2020023893A1 (en) * 2018-07-27 2020-01-30 Seekin, Inc. Reducing noise in sequencing data
CN111564182B (zh) * 2020-05-12 2024-02-09 西藏自治区农牧科学院水产科学研究所 一种高重复原鮡属鱼类的染色体级别组装的方法
CN113724788B (zh) * 2021-07-29 2023-09-12 哈尔滨医科大学 一种鉴定肿瘤细胞的染色体外环状dna组成基因的方法
CN115273984B (zh) * 2022-09-30 2022-11-29 北京诺禾致源科技股份有限公司 鉴定基因组串联重复区域的方法及装置
CN116403647B (zh) * 2023-06-08 2023-08-15 上海精翰生物科技有限公司 一种检测慢病毒整合位点的生物信息检测方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
CN101894211A (zh) * 2010-06-30 2010-11-24 深圳华大基因科技有限公司 一种基因注释方法和系统
CN101967684A (zh) * 2010-09-01 2011-02-09 深圳华大基因科技有限公司 一种测序文库及其制备方法、一种末端测序方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
CN101894211A (zh) * 2010-06-30 2010-11-24 深圳华大基因科技有限公司 一种基因注释方法和系统
CN101967684A (zh) * 2010-09-01 2011-02-09 深圳华大基因科技有限公司 一种测序文库及其制备方法、一种末端测序方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Assembly Algorithms for Next-Generation Sequencing Data;Jason R. Miller等;《Genomics》;20100630;第95卷(第6期);315-327 *
De novo assembly of human genomes with massively parallel short read sequencing;Ruiqiang Li等;《Genome Research》;Cold Spring Harbor Laboratory Press;20101231;第20卷;265-272 *
Jason R. Miller等.Assembly Algorithms for Next-Generation Sequencing Data.《Genomics》.2010,第95卷(第6期),315-327.
Ruiqiang Li等.De novo assembly of human genomes with massively parallel short read sequencing.《Genome Research》.Cold Spring Harbor Laboratory Press,2010,第20卷265-272.

Also Published As

Publication number Publication date
CN102206704A (zh) 2011-10-05
WO2012116658A2 (zh) 2012-09-07
HK1162614A1 (en) 2012-08-31

Similar Documents

Publication Publication Date Title
CN102206704B (zh) 组装基因组序列的方法和装置
Leger et al. RNA modifications detection by comparative Nanopore direct RNA sequencing
Dumschott et al. Oxford Nanopore sequencing: new opportunities for plant genomics?
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
US11694764B2 (en) Method for large scale scaffolding of genome assemblies
CN104272311B (zh) Dna序列的数据分析
US11898141B2 (en) High-throughput assembly of genetic elements
WO2015149719A1 (zh) 杂合基因组处理方法
CN103388025B (zh) 基于克隆dna混合池的全基因组测序方法
JP2021153588A (ja) Rna転写産物バリアントを定量するための方法及び製品
CN103080333A (zh) 一种基因组结构性变异检测方法和系统
CN107798216B (zh) 采用分治法进行高相似性序列的比对方法
CN110114472A (zh) 将线性测序文库转换为环状测序文库的方法
Masoudi-Nejad et al. Next generation sequencing and sequence assembly: methodologies and algorithms
Guo et al. Miniature inverted-repeat transposable elements drive rapid microRNA diversification in angiosperms
US20130345095A1 (en) Method and device for assembling genome sequence
CN102841988B (zh) 一种对核酸序列信息进行匹配的系统和方法
CN103270175A (zh) 检测转基因外源片段插入位点的方法和系统
CN108595914B (zh) 一种烟草线粒体rna编辑位点高精度预测方法
US20230136342A1 (en) Systems and methods for detecting cell-associated barcodes from single-cell partitions
Li et al. sRNAminer: A multifunctional toolkit for next-generation sequencing small RNA data mining in plants
Yu et al. Pervasive misannotation of microexons that are evolutionarily conserved and crucial for gene function in plants
Pan et al. Whole genome mapping with feature sets from high-throughput sequencing data
CN107841542A (zh) 一种基因组重叠群二代序列组装方法和系统
CN111808935A (zh) 一种植物内源siRNA转录调控关系的鉴定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1162614

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130715

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130715

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130715

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Applicant after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI SHENZHEN Co.,Ltd.

Applicant before: BGI SHENZHEN

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1162614

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20221220

Address after: No. 128, Hengtong Road, huankeyuan, Yixing, Wuxi, Jiangsu, 214205

Patentee after: Huada Qinglan Biotechnology (Wuxi) Co.,Ltd.

Patentee after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: 518083 science and Technology Pioneer Park 201, Beishan Industrial Park, Yantian District, Shenzhen City, Guangdong Province

Patentee before: BGI TECH SOLUTIONS Co.,Ltd.

TR01 Transfer of patent right