CN101504697B - 一种片段连接支架的构建方法和系统 - Google Patents

一种片段连接支架的构建方法和系统 Download PDF

Info

Publication number
CN101504697B
CN101504697B CN2008102183425A CN200810218342A CN101504697B CN 101504697 B CN101504697 B CN 101504697B CN 2008102183425 A CN2008102183425 A CN 2008102183425A CN 200810218342 A CN200810218342 A CN 200810218342A CN 101504697 B CN101504697 B CN 101504697B
Authority
CN
China
Prior art keywords
fragment
group
connects
contig
scaffold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102183425A
Other languages
English (en)
Other versions
CN101504697A (zh
Inventor
朱红梅
单杲
倪培相
阮珏
王明伟
李瑞强
方晓东
王俊
杨焕明
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2008102183425A priority Critical patent/CN101504697B/zh
Publication of CN101504697A publication Critical patent/CN101504697A/zh
Priority to US13/132,027 priority patent/US20110288845A1/en
Priority to PCT/CN2009/001428 priority patent/WO2010066116A1/zh
Priority to JP2011539875A priority patent/JP2012511753A/ja
Priority to EP09831393.5A priority patent/EP2377949B1/en
Application granted granted Critical
Publication of CN101504697B publication Critical patent/CN101504697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Abstract

本发明适用于基因工程领域,提供了一种片段连接支架的构建方法和系统,所述方法包括下述步骤:将测序得到的正反向信息映射到片段连接群上;根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建scaffold,得到完整的scaffold图。本发明实施例由于根据多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小,从而大大提高了scaffold构建中片段连接群之间的空位大小的估计精度,可适用于测序读长较短的基因组测序技术以完成测序片段的拼接任务。

Description

一种片段连接支架的构建方法和系统
技术领域
本发明属于基因工程领域,尤其涉及一种片段连接支架的构建方法和系统。
背景技术
基因组学研究是对生物全套遗产信息进行比较分析,以在总体上把握生物全套遗产信息的机制和功能。基因组学研究最基础的一个环节是如何获得生物的全套基因组序列。现有技术提供了以全基因组鸟枪法测序技术(Sanger测序技术)为代表的第一代测序技术和以Solexa、Solid以及454为代表的第二代测序技术来获取生物的全套基因组序列。
其中Sanger测序技术的过程简述如下:先将整个基因组打断成不同大小的DNA片段构建Shotgun文库,对Shotgun文库进行随机测序,最后运用生物信息学方法将测序片段拼接成全基因组序列,其特点是测序读长较长。
Solexa测序技术的过程简述如下:先将整个基因组打断到约100-200bp大小的DNA片段,再将接头连接到DNA片段上,经聚合酶链反应(PolymeraseChain Reaction,PCR)扩增后制成Library,随后在含有接头的芯片(flow cell)上将已加入接头的DNA片段绑定在flow cell上,经反应,将不同DNA片段扩增。在下一步反应中,四种荧光标记的染料应用边合成边测序(SequencingBy Synthesis)。Solexa测序技术的特点是通量高、成本低、测序错误率低,测序读长短。
片段连接支架(scaffold)的构建方法一直是de novo拼接流程中的重要环节,它主要是用于确定片段连接群(contig)之间的位置关系,为基因组组装搭建基本骨架,该方法的优劣直接影响到全基因组序列的最终结果。现有的scaffold构建方法是通过将测序得到的有重叠(overlap)的测序片段连接起来,以完成拼接任务。而当测序读长较短时,则测序片段之间的overlap相对来说也较短,从而导致现有的scaffold构建方法的准确率低。由于以Solexa、Solid以及454为代表的第二代测序技术的测序读长明显较第一代测序技术短,导致现有的scaffold构建方法难以适用于第二代测序技术来完成基因组测序片段的拼接任务。
发明内容
本发明的目的在于提供一种片段连接支架构建方法,旨在解决现有的片段连接支架构建方法难以适用于第二代测序技术来完成基因组测序片段的拼接任务的问题。
本发明是这样实现的,一种片段连接支架构建方法,所述方法包括下述步骤:
将测序得到的正反向信息映射到片段连接群上;
根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;
根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
本发明的另一目的在于提供一种片段连接支架构建系统,所述系统包括:
正反向映射单元,用于将测序得到的正反向信息映射到片段连接群上;
空位大小计算单元,用于根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;
Scaffold构建单元,用于根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
在本发明实施例中,通过将测序得到的正反向信息映射到片段连接群上,再根据各片段连接群之间的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小,从而大大提高了片段连接支架构建中片段连接群之间的空位大小的估计精度,最后再根据计算得到的片段连接群之间的空位大小和正反向关系即可将各片段连接群构建成完整的片段连接支架图,从而当采用的基因组测序技术的测序读长较短时,也可以通过上述片段连接支架构建方法完成测序片段的拼接任务,且降低了测序片段拼接的出错率。
附图说明
图1是本发明实施例提供的scaffold构建方法的实现流程图;
图2是本发明实施例提供的利用映射到contig片段上的正反向信息构建scaffold图的示意图;
图3是本发明实施例提供的重复片段的屏蔽示意图;
图4a和图4b是本发明实施例提供的线性化scaffold图的示意图;
图5是本发明实施例提供的重复contig片段的恢复示意图;
图6是本发明实施例提供的scaffold构建系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,通过将测序得到的正反向信息映射到片段连接群上,根据多对正反向信息计算片段连接群之间的平均长度,再根据计算得到的片段连接群之间的平均长度和正负关系即可将各片段连接群构建成完整的scaffold图。
图1示出了本发明实施例提供的片段连接支架(scaffold)构建方法的实现流程,详述如下:
在步骤S101中,将测序得到的正反向信息(也称为正反向reads)映射到片段连接群(contig片段)上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLAT等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息在contig片段上的位置和方向。
假设采用第二代测序技术得到的正反向信息为reads1和reads1’,reads2和reads2’以及reads3和reads3’,则将上述正反向信息映射到contig片段上后的效果如图2所示。
在步骤S102中,根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小。
在本发明实施例中,记录跨过两contig片段的正反向信息的数目,标记作为权重,根据实际情况选择特定阏值,并设置权重大于特定阈值的连接为有效连接,以提高连接关系准确度。
在本发明实施例中,根据contig片段之间的多对正反向信息计算contig片段之间空位的平均值,作为contig片段之间的空位大小。请参阅图2,当映射后contig1片段和contig2片段之间有3对正反向信息时,则根据contig1片段和contig2片段之间的3对正反向信息计算contig1片段和contig2片段之间空位的平均长度,并将计算得到的平均长度作为contig1片段和contig2片段之间的空位大小。在计算contig片段之间空位的平均长度时,计算所有有正反向连接关系的contig片段之间空位的平均长度,作为各contig片段之间的空位大小。同时记录contig1片段和contig2片段之间的正反向信息的数目3,将其标记为权重,且当该权重大于预设的特定阀值时,才认为contig1片段和contig2片段之间的连接为有效连接,以提高连接关系准确度
如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为
Figure GSB00000115141200051
则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
在步骤S103中,根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S104中,检测构建的scaffold图中的重复contig片段,并屏蔽检测到的重复contig片段。
在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。在检测到重复contig片段时,将检测到的重复contig片段屏蔽。
如果构建的scaffold图如图3所示,则由于contig片段R在反方向上分别连接到contig片段A和B,且contig片段A和B之间有交叠,同时contig片段R在正方向上分别连接到contig片段D、E、F,且contig片段E和F之间有交叠,因此contig片段R为重复的contig片段,将此重复的contig片段R屏蔽。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S 105中,根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。
在本发明实施例中,当经步骤S103构建的scaffold图中包括重复片段,则先通过步骤S104屏蔽重复片段,再对屏蔽了重复片段的scaffold图进行线性化,而当经步骤S103构建的scaffold图中未包括重复片段时,则直接对构建的scaffold图进行线性化。其中线性化的步骤具体如下:
根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
如果scaffold图如图4a所示,其中已知contig片段A和B之间的空位大小和正反向关系、contig片段E和D之间的空位大小和正反向关系、contig片段A和E之间的空位大小和正反向关系、以及contig片段E和C之间的空位大小和正反向关系,则根据上述片段之间的空位大小以及正反向关系,可以直接得到线性结构关系为AEBCD,即可以直接将图4a所示的scaffold图线性化为图4b所示的scaffold图。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig片段的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AC、EC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系后,各contig片段之间的空位大小由原先的已算得空位大小直接加减获得。如AE之间的空位大小可以简单表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建方法还包括下述步骤:
在步骤S106中,当被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
图6示出了本发明实施例提供的scaffold构建系统结构,为了便于说明,仅示出了与本发明实施例相关的部分。该scaffold构建系统可以是内置于基因组测序设备中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的挂件集成到基因组测序设备或者基因组测序设备的应用系统中。其中:
正反向映射单元61将测序得到的正反向信息映射到contig片段上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLA等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息的位置和方向。将测序得到的正反向信息映射到contig片段上后的效果如图2所示。
空位大小计算单元62根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小,并记录跨过两contig片段的正反向信息的数目,标记作为权重。
在本发明实施例中,如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
Scaffold构建单元63根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定。
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建系统还包括重复片段屏蔽单元64。该重复片段屏蔽单元64检测构建的scaffold图中的重复片段,并屏蔽检测到的重复片段。在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建系统还包括线性化单元65。该线性化单元65根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。其具体过程如下:根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,空位大小计算单元62重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,从而将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AE、AC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系。而线性化之后各contig片段之间的空位大小由原先的已算得的空位大小直接加减获得。如AE之间的空位大小表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建系统还包括重复片段恢复单元66。该重复片段恢复单元66在被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S 104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
在本发明实施例中,通过将测序得到的正反向信息映射到contig片段上,再根据各contig片段之间的多对正反向信息计算各contig片段之间的平均长度,作为各contig片段之间的空位大小,从而大大提高了scaffold构建中contig片段之间的空位大小的估计精度,最后再根据计算得到的contig片段之间的空位大小和正反向关系即可将各contig片段构建成完整的scaffold图,从而当采用的基因组测序技术的测序读长较短时,也可以通过上述scaffold构建方法完成测序片段的拼接任务,且降低了测序片段拼接的出错率。同时本发明实施例通过对构建的scaffold图进行重复片段屏蔽处理,从而避免了由于重复片段的影响而导致的scaffold错拼的问题,大大提高了构建scaffold的准确度;通过对构建的scaffold图进行线性化处理,从而确定了contig片段之间的位置关系,提高scaffold的覆盖长度;通过恢复被屏蔽的重复片段,从而充分利用重复片段的信息,尽可能使scaffold的内部空位被填充。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种片段连接支架构建方法,其特征在于,所述方法包括下述步骤:
将测序得到的正反向信息映射到片段连接群上;
根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的空位大小平均长度,作为各片段连接群之间的空位大小;
根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
2.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
检测所述片段连接支架图中的重复片段连接群,并屏蔽检测到的重复片段连接群。
3.如权利要求2所述的方法,其特征在于,所述重复片段连接群为在同一方向上连接到多个有交叠的片段连接群的片段连接群。
4.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
根据所述片段连接支架图中各片段连接群之间的空位大小以及各片段连接群之间的正反向关系线性化所述片段连接支架图。
5.如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤:
重新计算线性化后片段连接支架图中各片段连接群之间的空位大小。
6.如权利要求2或3所述的方法,其特征在于,所述方法还包括下述步骤:
当被屏蔽的重复片段连接群位于两个唯一片段连接群之间时,恢复被屏蔽的重复片段连接群。
7.一种片段连接支架构建系统,其特征在于,所述系统包括:
正反向映射单元,用于将测序得到的正反向信息映射到片段连接群上;
空位大小计算单元,用于根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的空位大小平均长度,作为各片段连接群之间的空位大小;
Scaffold构建单元,用于根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
8.如权利要求7所述的系统,其特征在于,所述系统还包括:
重复片段屏蔽单元,用于检测所述片段连接支架图中的重复片段连接群,并屏蔽检测到的重复片段连接群。
9.如权利要求8所述的系统,其特征在于,所述系统还包括:
线性化单元,用于根据所述片段连接支架图中各片段连接群之间的空位大小以及各片段连接群之间的正反向关系线性化所述片段连接支架图。
10.如权利要求9所述的系统,其特征在于,所述空位大小计算单元还用于重新计算线性化后的片段连接支架图中各片段连接群之间的空位大小。
11.如权利要求8所述的系统,其特征在于,所述系统还包括:
重复片段恢复单元,用于在被屏蔽的重复片段连接群位于两个唯一片段连接群之间时,恢复被屏蔽的重复片段连接群。
CN2008102183425A 2008-12-12 2008-12-12 一种片段连接支架的构建方法和系统 Active CN101504697B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2008102183425A CN101504697B (zh) 2008-12-12 2008-12-12 一种片段连接支架的构建方法和系统
US13/132,027 US20110288845A1 (en) 2008-12-12 2009-12-11 Construction method and system of fragments assembling scaffold, and genome sequencing device
PCT/CN2009/001428 WO2010066116A1 (zh) 2008-12-12 2009-12-11 一种片段连接支架的构建方法、系统和基因组测序设备
JP2011539875A JP2012511753A (ja) 2008-12-12 2009-12-11 断片アセンブリングスキャフォールドの構築方法及びシステム、並びにゲノム配列決定装置
EP09831393.5A EP2377949B1 (en) 2008-12-12 2009-12-11 Construction method and system of fragments assembling scaffold

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102183425A CN101504697B (zh) 2008-12-12 2008-12-12 一种片段连接支架的构建方法和系统

Publications (2)

Publication Number Publication Date
CN101504697A CN101504697A (zh) 2009-08-12
CN101504697B true CN101504697B (zh) 2010-09-08

Family

ID=40976941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102183425A Active CN101504697B (zh) 2008-12-12 2008-12-12 一种片段连接支架的构建方法和系统

Country Status (5)

Country Link
US (1) US20110288845A1 (zh)
EP (1) EP2377949B1 (zh)
JP (1) JP2012511753A (zh)
CN (1) CN101504697B (zh)
WO (1) WO2010066116A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504697B (zh) * 2008-12-12 2010-09-08 深圳华大基因研究院 一种片段连接支架的构建方法和系统
CN102206704B (zh) * 2011-03-02 2013-11-20 深圳华大基因科技服务有限公司 组装基因组序列的方法和装置
US10395757B2 (en) 2011-12-02 2019-08-27 Bgi Tech Solutions Co., Ltd. Parental genome assembly method
CN102982252A (zh) * 2012-12-05 2013-03-20 北京诺禾致源生物信息科技有限公司 一种高杂合二倍体基因组支架序列组装策略
CN104850761B (zh) * 2014-02-17 2017-11-07 深圳华大基因科技有限公司 核酸序列拼接方法及装置
CN104017883B (zh) * 2014-06-18 2015-11-18 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统
CN104239750B (zh) * 2014-08-25 2017-07-28 北京百迈客生物科技有限公司 基于高通量测序数据的基因组从头组装方法
SG10202000731WA (en) 2015-02-17 2020-03-30 Dovetail Genomics Llc Nucleic acid sequence assembly
CN106021978B (zh) * 2016-04-06 2019-03-29 晶能生物技术(上海)有限公司 基于光学图谱平台Irys的一种de novo测序数据组装方法
CN111180014A (zh) * 2020-01-03 2020-05-19 中国检验检疫科学研究院 一种基于低深度siRNA数据的病毒序列组装方法
CN112349350B (zh) * 2020-11-09 2022-07-19 山西大学 基于一种杜氏藻核心基因组序列进行品系鉴定的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1285390A2 (en) * 2000-02-22 2003-02-26 PE Corporation (NY) Method and system for the assembly of a whole genome using a shot-gun data set
CN1169967C (zh) * 2001-11-16 2004-10-06 北京华大基因研究中心 一种基于重复序列识别的全基因组测序数据的拼接方法
CN101504697B (zh) * 2008-12-12 2010-09-08 深圳华大基因研究院 一种片段连接支架的构建方法和系统

Also Published As

Publication number Publication date
EP2377949A4 (en) 2014-12-17
EP2377949B1 (en) 2018-11-21
JP2012511753A (ja) 2012-05-24
EP2377949A1 (en) 2011-10-19
US20110288845A1 (en) 2011-11-24
CN101504697A (zh) 2009-08-12
WO2010066116A1 (zh) 2010-06-17

Similar Documents

Publication Publication Date Title
CN101504697B (zh) 一种片段连接支架的构建方法和系统
Wenger et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome
US20240120021A1 (en) Methods and systems for large scale scaffolding of genome assemblies
CN104017883B (zh) 组装基因组序列的方法和系统
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
Walker et al. Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement
Mavromatis et al. The fast changing landscape of sequencing technologies and their impact on microbial genome assemblies and annotation
Al-Ghalith et al. SHI7 is a self-learning pipeline for multipurpose short-read DNA quality control
Fan et al. SMOOTH-seq: single-cell genome sequencing of human cells on a third-generation sequencing platform
Smadbeck et al. C opy number variant analysis using genome‐wide mate‐pair sequencing
CN106715711A (zh) 确定探针序列的方法和基因组结构变异的检测方法
Gordon et al. A bioinformatics tool for ensuring the backwards compatibility of Legionella pneumophila typing in the genomic era
Hård et al. Conbase: a software for unsupervised discovery of clonal somatic mutations in single cells through read phasing
Huang et al. Transforming genomes using MOD files with applications
Lang et al. Mitochondrial genome annotation with MFannot: a critical analysis of gene identification and gene model prediction
Li et al. Recovery of non-reference sequences missing from the human reference genome
Zhang et al. GAEP: a comprehensive genome assembly evaluating pipeline
Dobson et al. De novo assembly and annotation of the North American bison (Bison bison) reference genome and subsequent variant identification
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统
Bayer et al. Exome capture for variant discovery and analysis in barley
Li et al. A novel scaffolding algorithm based on contig error correction and path extension
Petri et al. isONform: reference-free transcriptome reconstruction from Oxford Nanopore data
JP5946277B2 (ja) アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出)
CN103699819A (zh) 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
Soh et al. Genome annotation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130826

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518083 SHENZHEN, GUANGDONG PROVINCE TO: 518000 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130826

Address after: 518000 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Patentee after: BGI Technology Solutions Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen