CN107615283A

CN107615283A - 从头二倍体基因组组装和单倍型序列重建

Info

Publication number: CN107615283A
Application number: CN201680030485.6A
Authority: CN
Inventors: C·金; P·佩鲁索; D·兰克
Original assignee: Pacific Biosciences of California Inc
Current assignee: Pacific Biosciences of California Inc
Priority date: 2015-05-26
Filing date: 2016-05-23
Publication date: 2018-01-19
Anticipated expiration: 2036-05-23
Also published as: EP3304383B1; US20160350478A1; EP3304383A4; CN107615283B; WO2016191380A1; EP3304383A1; US10783984B2

Abstract

示例性实施方案提供了用于二倍体基因组组装和单倍型序列重建的方法和系统。所述示例性实施方案的各方面包括：从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群，从而产生单倍型特异重叠群。

Description

从头二倍体基因组组装和单倍型序列重建

相关申请的交叉引用

本国际PCT专利申请要求于2015年5月26日提交的美国临时专利申请号62/166,605的优先权的权益，并且涉及于2014年12月18日提交的名为“String Graph Assemblyfor Polyploid Genomes”的美国专利申请序列号14/574,887，所述专利申请已被转让给本申请的受让人并且以引用的方式并入本文。

发明背景

生物分子序列测定尤其是相对于核酸和蛋白质样品的进步已彻底改变了细胞和分子生物学领域。受到自动化测序系统的发展的推动，现在已经有可能对样品核酸的混合群体进行测序。然而，必须谨慎地监测序列信息的质量，并且所述质量可能会因与生物分子本身或所使用的测序系统相关的许多因素而受损，所述因素包括生物分子的组成(例如，核酸分子的碱基组成)、实验和系统噪声、观察到的信号强度的变化以及反应效率的差异。因此，必须实施过程来分析和改进来自这类测序技术的数据的质量。

除了会影响所产生的序列读段的总准确度之外，这些因素还会使碱基调用作为真正变体或可替代地误调用(例如，序列读段中的插入、缺失或失配错误)的指定复杂化。例如，在二倍体生物中，染色体可以具有在序列上不同于同源染色体的基因座。当对这些基因座进行测序时，碱基调用在同源染色体之间会出现差异。重要的是能够确定在同源染色体之间有所不同的碱基调用是同源物之间的真正变异，还是仅为测序错误。此外，个体中的病毒群体在所述群体中，尤其是在高突变性病毒诸如HIV中的个别病毒基因组之间可能会具有许多变异。能够鉴别具有不同来源(例如，不同染色体或基因组来源)的不同测序读段对于能够准确地表征核酸的混合群体来说是至关重要的。在产生100％准确的读段的理论测序平台上，读段可以简单地用简单的字符串匹配算法来进行相互比较。读段之间的任何差异都指示真正变异以及因此不同来源。然而，任何真实世界原始测序数据都可能含有误差，因此简单的字符串匹配算法方法是不够的。

字符串图是可以用于对基因组建模，例如以帮助从测序数据组装基因组的数据结构。用字符串图对基因组进行建模通常具有优于用重叠图或de Brujin图进行建模的优点。例如，可以改进序列和/或共有误差的校正以及对异源区域的注释。有关字符串图构建的进一步的细节请参见Fragment assembly string graph，Myers,E.W.(2005)Bioinformatics21(期，增刊2):ii79-ii85)，所述参考文献以引用的方式并入本文。

在字符串图内，顶点(又称为节点)是序列片段的起点和/或终点，并且连线是两个顶点之间的序列片段。字符串图算法的核心是将两个片段之间的每个“适当的重叠”(其中两个读段的每一个当中只有一部分彼此重叠，即，第一读段在3’端延伸超出重叠并且第二读段在5’端延伸超出重叠)转换为字符串图结构。这个过程包括鉴别处于重叠区域边缘处的顶点；以及将连线延伸至重叠片段的非重叠部分。根据序列的方向来标记连线，并且通过传递规约来去除冗余的连线以产生字符串图。对于双链单倍体样品，例如大肠杆菌基因组，这种梳理会产生两个互补的重叠群，一个是关于正向链并且一个是关于反向链，它们可以进一步简化为表示基因组组件的单一重叠群。

字符串图结构中观察到的其他特征包括分支、结点和泡状物。分支或分支点通常会在读段例如因基因组中存在重复区域而含有一些重复序列时产生。结点(其中许多连线连接至同一个节点)会因为许多读段含有基因组中的相同重复而产生。简单的“最佳重叠逻辑”通常用于“梳理”简单的结点。简单的泡状物通常会在存在局部结构变异时观察到，并且通常很容易解决。然而，简单的泡状物还会因为原始序列读段中和/或在读段的预组装期间执行的共有序列测定中出现错误而产生。此外，如果重叠鉴别步骤无法检测出适当的重叠，则会在字符串图中呈现泡状物。

还可能会观察到通常可能因单倍型内或之间的更复杂的重复而引起的复杂的泡状物。常规的图遍历算法通常会停止围绕这类复杂的泡状物的节点延伸重叠群，而这往往会导致片段化的组装。一种选择是使用蚕食图遍历算法，所述算法可以遍历泡状物来产生更大的重叠群，但是这些重叠群不太可能真正地代表原始样品核酸。

重要的是了解如何检测和去除字符串图中因这些假象而引起的泡状物，以及如何将人为泡状物与因同源序列之间的真正结构变异而引起的泡状物区分开来，连同如何对所述真正变异进行注释。因此，需要改进从头二倍体组装，所述二倍体组装为适当的单倍型序列重建结合了介于SNP之间的定相以及结构变异。

发明内容

参考以下具体实施方式和附图可更好地理解本发明以及各个特定方面和实施方案，其中就各个特定方面和实施方案描述了本发明。这些方面和实施方案仅出于清楚目的而提供并且不应视为对本发明进行限制。本发明以及其方面可以应用于本文未确切公开的各种类型的方法、装置和系统。

在某些方面，本发明提供用于从头二倍体基因组组装和单倍型序列重建的方法，所述方法由在至少一个处理器上执行的至少一个软件部件执行。在某些实施方案中，这类方法包括若干步骤，包括从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；使用已定相的读段和已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；将融合组装图和单倍型特异组装图合并来产生合并的组装单倍型图；从合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及从最终单倍型已分辨的组装图重建单倍型特异单体群。

根据本文公开的方法，示例性实施方案提供了能够将多个变体类型整合为综合组装的单倍型的算法。

附图简述

图1是示出用于实施从头二倍体基因组组装和单倍型序列重建的过程的计算机系统的一个实施方案的图。

图2是示出用于从头二倍体基因组组装和单倍型序列重建的一个示例性实施方案过程的流程图。

图3A是进一步详细地示出图2所示用于重建单倍型序列的过程方框的方框图。

图3B和图3C是示出从已比对序列之间的重叠和传递规约创建字符串图的方法的实施方案的图。

图4是示出针对双链单倍体样品，例如大肠杆菌基因组产生的示例性字符串图的图形图。

图5是示出字符串图结构中观察到的其他特征可以包括缠绕区域，诸如分支、结点和泡状物的图。

图6是示出对大肠杆菌字符串图应用最佳重叠规则的结果的图。

图7是以图形方式示出从字符串图的无分支部分鉴别统一群以产生统一群图的图。

图8A是以图形方式示出可以具有准线性结构和泡状物的字符串图的图。

图8B是示出简单的泡状物还可能因原始序列读段中和/或在读段的预组装期间执行的共有序列测定中出现错误而产生的图。

图9是示出二倍体组装的一个挑战是确定字符串图中的遗传序列基础复杂结构的图，其中字符串图中的相同结构可能因重复或存在同源序列而引起。

图10A和图10B是以图形方式示出统一群图的示例性大规模和小规模拓扑特征的图。

图11A是示出由二倍体重叠群发生器对多倍体基因组执行的字符串图组装的过程的流程图。

图11B是示出对字符串束的处理的图形图，所述字符串束包括泡状物以及“无泡状物”部分。

图12A是示出用于确定统一群图中的顶点处的接合点是从属于字符串束还是从属于分支路径的过程的图。

图12B是示出根据第二实施方案的对字符串束的处理的图形图。

图13是以图形方式示出基于主要重叠群和相关重叠群而构建最终共有序列的图。

图14是示出对同一性较高的区域中的SNP和读段进行定相的实例的图形实例。

图15是示出通过字符串图产生来产生的单倍型特异组装图的图。

图16是示出融合组装图和单倍型特异组装图的图。

图17是示出融合组装图和单倍型特异组装图的合并的图。

图18是示出从合并的组装单倍型图去除面向交叉的连线以产生最终单倍型已分辨的组装图的图。

图19是示出从最终单倍型已分辨的组装图产生单体群的图。

图20是示出从头二倍体基因组组件和单倍型序列重建过程的可能的输出选项的图。

具体实施方式

本发明的各种实施方案和组成部分采用多个技术领域中熟悉的信号和数据分析技术。为了清楚地描述，本文并不提供已知分析技术的细节。在许多可获得的参考工具书中论述了这些技术，诸如：R.B.Ash.Real Analysis and Probability.Academic Press,NewYork,1972；D.T.Bertsekas和J.N.Tsitsiklis.Introduction to Probability.2002；K.L.Chung.Markov Chains with Stationary Transition Probabilities,1967；W.B.Davenport和W.L Root.An Introduction to the Theory of Random Signals andNoise.McGraw-Hill,New York,1958；S.M.Kay,Fundamentals of StatisticalProcessing，第1至2卷，(1998年精装版)；Monsoon H.Hayes,Statistical Digital SignalProcessing and Modeling,1996；Introduction to Statistical Signal Processing，R.M.Gray和L.D.Davisson；Modern Spectral Estimation:Theory and Application/Bookand Disk(Prentice-Hall Signal Processing Series)，Steven M.Kay(1988年1月精装版)；Modern Spectral Estimation:Theory and Application，Steven M.Kay(1999年3月平装版)；Spectral Analysis and Filter Theory in Applied Geophysics，BurkhardButtkus(2000年5月11日精装版)；Spectral Analysis for Physical Applications，Donald B.Percival和Andrew T.Walden(1993年6月25日平装版)；Astronomical Imageand Data Analysis(Astronomy and Astrophysics Library)，J.L.Starck和F.Murtagh(2006年9月25日精装版)；Spectral Techniques In Proteomics，Daniel S.Sem(2007年3月30日精装版)；Exploration and Analysis of DNA Microarray and Protein ArrayData(Wiley Series in Probability and Statistics)，Dhammika Amaratunga和JavierCabrera(2003年10月21日精装版)。

计算机实现方式

图1是示出用于实施从头二倍体基因组组装和单倍型序列重建的过程的计算机系统的一个实施方案的图。在特定实施方案中，本发明可以整体或部分地体现为记录在固定介质上的软件。计算机100可以是具有至少一个处理器102(例如，CPU等等)、存储器103、输入端/输出端(I/O)104以及数据储存库106的任何电子装置。CPU 100、存储器102、I/O 104和数据储存库106可以经由一条或多条系统总线，或可替代地使用任何类型的通信连接来连接。虽然未示出，但是计算机100还可以包括用于有线和/或无线通信的网络接口。在一个实施方案中，计算机100可以包括个人计算机(例如，台式计算机、膝上型计算机、平板计算机等)、服务器、客户端计算机或穿戴式装置。在另一个实施方案中，计算机100可以包括用于与远程数据应用程序交互的任何类型的信息设备，并且可以包括诸如可接入互联网的电视机、手机等等的装置。

处理器102控制计算机100的操作并且可以从存储器103和/或数据储存库106读取信息(例如，指令和/或数据)，并且相应地执行指令来实施示例性实施方案。术语处理器102意在包括一个处理器、多个处理器或者具有多个核心的一个或多个处理器。

I/O 104可以例如包括任何类型的输入装置，诸如键盘、鼠标、麦克风等，以及任何类型的输出装置，诸如显示器和打印机。在计算机100包括服务器的实施方案中，输出装置可以耦合至本地客户端计算机。

存储器103可以包括任何类型的静态或动态存储器，包括闪存、DRAM、SRAM等等。存储器103可以存储数据和软件部件，包括序列比对器/重叠检测器(overlapper)110、字符串图发生器112、二倍体重叠群发生器114、单倍型图发生器117以及单倍型图合并器以及单体群聚合器119。这些部件用在如本文所述的序列组装的过程中，并且通常被统称为“组装工具”。

数据储存库106可以存储若干个数据库，包括存储以下各项的一个或多个数据库：核酸序列读段(下文称为“序列读段”)116、已比对序列117、字符串图118、统一群图120、主要重叠群122、相关重叠群124、融合组装图126、单倍型特异字符串图128、合并的组装单倍型图130、最终单倍型已分辨的组装图132以及已重建单体群134。

在一个实施方案中，数据储存库106可以驻留在计算机100内。在另一个实施方案中，数据储存库106可以经由网络端口或外部驱动器而连接至计算机100。数据储存库106可以包括单独的服务器或任何类型的存储器存储装置(例如，盘式光学或磁性介质、固态动态或静态存储器等等)。数据储存库106可以任选地包括多个辅助存储器装置，例如，以用于单独存储输入序列(例如，序列读段、参考序列等)、序列信息、字符串图产生结果(例如，字符串图中的连线和节点、组装图中的重叠和分支点)、传递规约结果和/或其他信息。计算机100之后可以像本领域中所理解的那样使用所述信息来引导服务器或客户端逻辑以体现本发明的各方面。

在操作中，操作者可以经由显示屏幕(未示出)上呈现的用户界面来与计算机100进行交互，以指定序列读段116和各种软件程序所要求的其他参数。一旦被调用，就由处理器102执行存储器103中的软件部件以实施本发明的方法。

序列比对器/重叠检测器110从数据储存库106读取选定序列读段116并且对选定序列读段116执行序列比对，以鉴别具有相似性的区域，所述相似性可以是序列读段116之间的结构或功能或其他关系作用的结果。序列读段116通常是高准确度读段，例如，至少约98％或99％是准确的，并且可以是来自提供这类高质量读段的测序技术的原始读段，或如本文在其他位置所描述可以是由低质量的测序读段数据构成的预组装好的高质量共有读段。已比对序列117在序列比对期间由序列比对器/重叠检测器110产生。在某些实施方案中，序列比对器/重叠检测器110以C、C++、Java、C#、F#、Python、Perl、Haskell、Scala、Lisp、Python/C组合以及本领域中已知的其他语言实施。

字符串图发生器112接收所得的已比对序列117并且可以从已比对序列117产生字符串图118以及统一群图120。二倍体重叠群发生器114对字符串图118和统一群图120进行分析并确定主要重叠群122和相关重叠群124，并且使用来自两个单倍型的读段来产生融合组装图126。

单倍型图发生器117可以产生单倍型特异字符串图128。单倍型图合并器和单体群分离器119如下文进一步所解释通过根据示例性实施方案将融合组装图126和单倍型特异字符串图128进行合并和处理来重建单体群134。

在以上过程期间并在此之后，此处理的结果可以保存到存储器103和数据储存库106和/或通过I/O 104输出来显示在显示装置上和/或保存到其他存储装置(例如，CD、DVD、蓝光光碟、闪存卡等)，或进行打印。处理的结果可以包括以下各项的任何组合：主要重叠群122、相关重叠群124和字符串图118、融合组装图126、单倍型特异字符串图128、合并的组装单倍型图130、最终单倍型已分辨的组装图132以及单体群134。结果还可以包括质量信息、技术信息(例如，峰特性、期望误差率)、供替换的(例如，第二或第三最佳)融合组装图126、置信度度量等等。

组装二倍体或多倍体基因组过程中的主要挑战之一是往往很难区分不同染色体上的同源序列，例如以鉴别同源染色体的个别单倍型，或分析重复区域的大小，例如以确定每个同源物的重复数目。标准组装算法假定序列读段全部来自同一个原始核酸分子(例如，染色体)。常规组装算法往往会创建图结构。因此，当分析来自多个不同但相似的核酸(例如，同源染色体)的一组读段时，常规组装算法通常会因同源物之间的序列差异而使所得重叠群中断于组装图(例如，统一群图、重叠图、字符串图、De Bruijn图等等)中存在分叉的接合点处。这些序列差异使得关于如何构建组装重叠群方面的知识一直模糊不清并且会导致产生许多短的重叠群。参见例如，Kececioglu等人(1995)Algorithmica 13(1-2):7-51；以及Myers,E.W.(2005)Bioinformatics 21(期，增刊2):ii79-ii85)，所述参考文献两者出于所有目的均以引用的方式整体并入本文。

这使得二倍体或多倍体基因组到长重叠群的组装变得更为困难。在二倍体基因组中，介于两个同源拷贝之间的差异和相似性可以产生与由基因组中的重复所引起的那些相似的图模体，并且会很难区分来自同源模板，尤其是重复区域中的序列。这些复杂性使得在遍历图时重叠群布局存在许多问题。理想的布局方法需要能够区分图中的不同类型的顶点，并且相应地处理所述顶点来以全面而简洁的数据结构/表示产生长重叠群，所述长重叠群可以将基因组信息保持在一起。

因此，示例性实施方案通常涉及使用长读段来进行多倍体基因组的字符串图组装的强大而灵活的方法和系统，所述长读段产生包括结构差异的长重叠群，所述结构差异能区分来自多个不同核酸分子的同源序列、单一核酸分子内的重复序列和同源序列内的重复序列。示例性实施方案进一步涉及从头组装二倍体基因组的方法，其中结构变异和已定相的SNP均被用来重建单倍型序列(被称为单体群)。

图2是示出用于从头二倍体基因组组装和单倍型序列重建的一个示例性实施方案过程的流程图。在一个实施方案中，所述方法在由处理器102执行时可以由图1所示的软件部件中的一个或多个执行。如本领域技术人员将显而易见的是，图1中的软件部件的功能可以被配置到更少或更多数目的模块/部件中。

所述过程可以开始于从两个单倍型的读段产生融合组装图(方框200)，从而产生具有所鉴别的主要重叠群和相关重叠群的融合组装图201。在一个实施方案中，鉴别主要和相关重叠群的步骤可以由二倍体重叠群发生器114执行。

所述过程还包括使用已定相的读段和已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图(方框202)，从而产生单倍型特异组装图203。在一个实施方案中，已定相的读段可以包括与参考序列比对的单核苷酸多态性(SNP)，所述SNP任选地可以包括融合组装图201的主要重叠群。所述读段与参考序列的感知到有单倍型的重叠可带来单倍型特异组装图203的构建。在一个实施方案中，这个步骤可以由单倍型图发生器117执行。

将融合组装图201和单倍型特异字符串图203合并(方框204)来产生合并的组装单倍型图205。从合并的组装单倍型图205去除交叉定相的连线以产生最终单倍型已分辨的组装图207(方框206)。之后从最终单倍型已分辨的组装图207重建单倍型特异重叠群(方框208)，从而产生单倍型特异重叠群(或单体群)209。在一个实施方案中，单倍型特异重叠群209包括已连接的定相区块。在一个实施方案中，方框204、206和208可以由单倍型图合并器和单体群分离器119执行。下文将进一步详细地描述以上步骤。

图3A是进一步详细地示出图2所示用于重建单倍型序列的过程方框的方框图。图3A的处理方框200、202、204-206和208对应于图2的处理方框200、202、204-206和208。虚线框示出图1的哪个软件部件可以被配置用来执行根据一个特定实施方案示出的处理方框。

从两个单倍型产生融合组装图的过程(方框200)包括组装过程，其中序列比对器/重叠检测器110对原始测序读段进行比对(方框300)以鉴别序列之间具有相似性的区域。之后对已比对序列进行误差校正(方框302)以获得一组经过误差校正的读段，并且再次对经过误差校正的读段进行比对(方框304)。重叠过滤(方框306)可找出重叠的读段序列并且可以舍弃其他重叠读段内所含有的读段。字符串图发生器112从重叠读段产生字符串图。

示例性实施方案的以上方法的优点是能有效地将多个变体类型整合到单一组装中。

紧接着下文进一步详细地描述从两个单倍型产生融合组装图的过程并且在图13的论述之前一直进行所述过程。接下来是图3A的开始于产生单倍型特异字符串图(方框202)的其余步骤的细节。

用于字符串图构建的序列读段

如上文相对于图1所描述，字符串图118可以由字符串图发生器112产生，所述字符串图发生器反过来将由序列比对器/重叠检测器110从序列读段116产生的已比对序列117用作输入。在另一个实施方案中，可以在另一个计算机上产生字符串图118或因随后对二倍体重叠群发生器114进行输入而从第三方接收所述字符串图，而不是在本地产生字符串图118。

根据示例性实施方案的一个方面，用作输入来产生字符串图118的序列读段116被视作是长测序读段，长度范围为约0.5至1、2、3、5、10、15、20、60或100kb。在优选实施方案中，这些长测序读段使用单一聚合酶来产生，所述聚合酶使与单一模板分子互补的初生链聚合。例如，长测序读段可以使用Pacific Biosciences的单分子实时测序技术，或通过另一种长读段测序技术，诸如纳米孔测序来产生。本文提供的方法可用于分析长序列读段，所述方法可以遍历重复区域以在每端，即在重复区域外侧提供独特的序列“锚定物”。在重复区域的相对端或“在其两侧”存在两个锚定序列允许用户了解重复区域的精确长度，并且因此将有关一种同源物的重复区域与有关另一种同源物的相同区域区分开来，其中区域的大小或者一个或两个锚定序列可区分两种同源物。另外，长重复并不总是完美的，并且往往具有中断共有重复序列的序列变体。使包括重复区域的读段中具有侧接序列允许从业者准确地将这些序列变体映射在重复区域内。这对于短序列读段来说是困难的或不可能的，尤其是在远离侧接序列之处出现变体的情况下。

在一个实施方案中，序列读段116可以使用单分子测序技术来产生，使得每个读段都来源于对单模板分子的测序。单分子测序方法在本领域中是已知的，并且优选的方法被提供于美国专利号7,315,019、7,476,503、7,056,661、8,153,375和8,143,030；于2009年12月10日提交的U.S.S.N.12/635,618；以及于2010年4月26日提交的U.S.S.N.12/767,673，所述专利全部出于所有目的以引用的方式整体并入本文。在某些优选实施方案中，所使用的技术包括零模式波导(ZMW)。ZMW的制作及其在生物化学分析中的应用以及在ZMW内执行的测序应用中调用碱基的方法，例如掺入测序法被描述于例如美国专利号6,917,726、7,013,054、7,056,661、7,170,050、7,181,122和7,292,742、美国专利公布号20090024331和U.S.S.N.13/034,199(于2011年2月24日提交)以及Eid等人(Science 323:133-138(2009))和Korlach等人(Methods Enzymol 472:431-455(2010))，所述文献的全部公开内容出于所有目的以引用的方式整体并入本文。在优选实施方案中，序列读段被提供于FASTA文件。

可以由本文呈现的方法分析来自各种生物分子(例如，多核苷酸和多肽)的序列读段。生物分子可以是天然存在的或合成的，并且可以包括经过化学和/或自然修饰的单元，例如乙酰化氨基酸、甲基化核苷等。检测这类经过修饰的单元的方法被提供于例如于2009年12月10日提交的U.S.S.N.12/635,618；以及于2010年11月12日提交的12/945,767，所述专利出于所有目的以引用的方式整体并入本文。在某些实施方案中，生物分子是核酸，诸如DNA、RNA、cDNA或其衍生物。在一些优选实施方案中，生物分子是基因组DNA分子。生物分子可以来源于任何活的或曾是活的生物体，包括但不限于：原核生物、真核生物、植物、动物和病毒以及合成和/或重组生物分子。另外，每个读段还可以包括除了序列数据(例如，碱基调用)之外的信息，诸如对每个位置精确度的估计、基础测序技术的输出特征(例如，迹线特性(每个峰的综合计数、峰的形状/高度/宽度、相邻峰的距离、相邻峰的特性)、信噪比、功率噪声比、背景度量、信号强度、反应动力学等)等等。

在一个实施方案中，序列读段116可以使用基本上能够从生物分子产生序列数据的任何技术来产生，例如Maxam-Gilbert测序、链终止法、基于PCR的方法、基于杂合的方法、基于连接酶的方法、基于显微术的技术、边合成边测序(例如，焦磷酸测序、测序、SOLiD^TM测序(Life Technologies)、半导体测序(Ion Torrent Systems)、tSMS^TM测序(Helicos BioSciences)、测序(Illumina公司)、基于纳米孔的方法(例如，BASE^TM、MinION^TM、STRAND^TM)等)。序列读段116可以通过超过一种测序技术来产生。例如，读段中的一些可以使用如上所述的长读段测序技术来产生，而其他读段可以使用例如具有较高准确度的短读段测序技术来产生。例如，这类短读段可以使用由Illumina或LifeTechnologies开发的测序仪来产生。将具有较低准确度的长读段与具有较高准确度的短读段组合可以提供非常长且非常准确的最终组装。然而，如果有足够高倍数的长读段覆盖度，则仅使用长读段也可以实现极高的准确度。相比之下，在高覆盖度下仅使用短读段不太可能显著增加最终组装中的重叠群的长度并且通常会导致高度片段化的组装。

在某些实施方案中，所分析的序列信息可以包括复制的序列信息。例如，复制的序列读段可以通过以下方式来产生：对相同分子重复进行测序，对包括靶序列的多个拷贝的模板进行测序，对多个个别生物分子(所述个别生物分子全部含有感兴趣的序列或“靶”序列)进行测序或者这类方法的组合。复制的序列读段并不需要开始和终止于生物分子序列中的相同位置，只要所述序列读段含有靶序列的至少一部分即可。例如，在某些边合成边测序应用中，圆形模板可以用于通过以下方式来产生靶序列的复制的序列读段：允许聚合酶在多次经过模板分子时连续产生初生链来合成线性串联体。从单一模板分子产生的复制的序列对于测定所述模板分子的共有序列来说是特别有用的。这种“单分子共有序列”测定法不同于从多个模板分子的读段测定共有序列的常规方法，并且对于鉴别来自多个模板的大量序列读段中的罕见变体来说是特别有用的，所述罕见变体否则可能会被错过。从单一分子产生复制的序列信息的方法的实例被提供于例如美国专利号7,476,503；美国专利公布号20090298075；美国专利公布号20100075309；美国专利公布号20100075327；美国专利公布号20100081143；于2008年9月5日提交的U.S.S.N.61/094,837；以及于2008年9月24日提交的U.S.S.N.61/099,696，所述专利全部转让给本申请的受让人并且出于所有目的以引用的方式整体并入本文。

在一些实施方案中，最初由上文论述的测序技术产生的序列读段数据的准确度可以是大约70％、75％、80％、85％、90％或95％。由于有效的字符串图构建优选使用高准确度的序列读段，例如，优选至少98％是准确的，因此在由测序技术产生的序列读段数据具有较低准确度的情况下，可以对序列读段数据进行进一步分析，例如进行重叠检测、误差校正等，以提供用于字符串图发生器112的序列读段116。例如，如本文其他位置进一步所描述，可以对序列读段数据进行预组装步骤以产生高准确度的预组装读段。

为了便于论述，将相对于对多核苷酸序列的分析来描述本发明的各个方面，但是应理解，本文提供的方法和系统并不限于用于多核苷酸序列数据，并且可以用于其他类型序列数据，例如来自多肽测序反应的序列数据。

产生预组装读段

在某些实施方案中，序列读段数据用于产生具有足够的质量/准确度的“预组装读段”以供用作字符串图发生器112中的序列读段116，从而构建字符串图118。预组装序列比对器(其又可以被称为聚合器)可以对从测序技术(例如，测序或基于纳米孔的测序)产生的序列读段数据执行预组装以提供序列读段116。优选地，预组装序列比对器是非常有效的，并且某些优选的比对器/聚合器以及用于产生预组装读段的实施方案被详细描述于2013年7月12日提交的美国专利申请号13/941,442；于2013年3月14日提交的61/784,219；以及于2012年7月13日提交的13/671,554，所述专利出于所有目的以引用的方式整体并入本文。

在预组装期间使用的比对和共识算法优选地是快速的，例如使用简单的排序和计数。在一些实施方案中，比对操作包括从核酸序列读段数据选择最佳匹配序列读段来作为种子序列，接着是对序列读段数据中的其余读段与种子序列进行比对以产生预组装的已比对序列组。

在特定实施方案中，产生或以其他方式提供感兴趣区域或“靶”区域(任选地来自混合群体)的一组序列读段，并且将这些序列读段(例如，优选地存在于FASTA文件中)相互比对以形成一组序列比对。在特定实施方案中，选择一组“种子”序列读段，并且这些种子读段通常选自该组中的最长序列读段，例如长度为至少3、4、5、6、8、10或20kb的读段。对该组中的所有序列读段与种子读段中的每一个进行比对，以产生介于所述读段与种子读段之间的一组比对，并且由此将该组中的读段的每一个映射至至少一个种子读段。比对和共识过程用于使用映射至所述种子读段的所有读段来为种子读段中的每一个构建单一“预组装长读段”。首先，将用种子读段产生的序列比对组归一化并且使用所述序列比对组来构建类似于多个序列比对的序列比对图(SAG)。接着，从SAG获得映射至所述种子读段的序列读段组的共有序列，并且这个共有序列可以被视作为表示来自映射至所述种子读段的混合群体的读段的“平均”序列。在不同种子读段映射至彼此的情况下，所述种子读段和映射至所述种子读段的所有序列可以组合在单一比对中以获得所得的预组装长读段的单一共有序列。在优选实施方案中，预组装使用基于按照有向非循环图对多个序列比对进行编码以找出最佳共有序列的最佳路径的算法来执行，并且这种方法是用于去除存在于原始序列读段中的随机插入和遗漏错误的有效策略。

任选地，诸如当在预组装步骤期间且在字符串图分析之前分辨出同源序列时，基于序列比对图的结构而将所述图中的序列读段分区或“分组”以产生序列读段组的多个子组。针对每个子组，对组成序列读段进行比对并且使用所述组成序列读段来构建序列比对图，所述序列比对图用于产生共有序列。任选地，(例如，通过比对和标准统计分析)将新的共有序列与参考序列进行比较，以鉴别从中获得共有序列的序列读段的子组中的序列读段的来源。例如，可以将子组的共有序列与感兴趣的基因组区域的多个不同的参考单倍型序列进行比较，并且与子组共有序列最佳匹配的参考序列指示被测序来产生子组中的序列读段的原始模板核酸的单倍型。这个实施方案对于在预组装步骤期间分辨SNP水平二倍体序列变体来说是特别有用的。

在对序列读段进行预组装并测定预组装共有序列之后，共有序列的准确度通常为至少99％，并且经常为至少99.5％。因此，这些高度准确的共有序列适合于用作此处描述的字符串图组装方法的输入(例如，序列读段116)。

产生字符串图

一旦提供了序列读段116，就通过序列比对器/重叠检测器110对所述序列读段进行比对和重叠检测，从而产生已比对序列117。优选地，序列比对器/重叠检测器110是高效率而快速度的，例如，使用简单的排序和计数，并且某些优选的比对器/聚合器在本领域中是已知的和/或在上文已相对于预组装步骤进行描述。字符串图发生器112通过下文进一步描述的一系列步骤而从已比对序列117产生字符串图118。

图3B和图3C是示出从已比对序列之间的重叠和传递规约创建字符串图的方法的实施方案的图。总体上看，字符串图发生器112可以通过基于读段彼此在何处重叠而从已比对的重叠序列117构建连线350来产生字符串图118。字符串图算法的核心是将两个已比对序列之间的每个“适当重叠”转换为字符串图结构。在图3B中，两个重叠读段(已比对序列117)被提供用来说明关于重叠读段的顶点和连线的概念。确切地说，正好处在重叠的边界的顶点是g:E和f:E，它们被鉴别为处于有待构建的新的连线的“顶点内侧”。连线351通过从内部顶点延伸至已比对读段的非重叠部分的端部来产生，它们被鉴别为“顶点外侧”，例如f:E至g:B(顶点外侧)和g:E至f:B(顶点外侧)。如果序列方向与连线的方向相同，则用序列读段中的呈原本形式的序列标记所述连线。如果序列方向与连线的方向相反，则用所述序列的反向补体标记所述连线。

在图3C中，四个已比对的重叠读段352用于创建初始图354，并且对初始图354实施传递规约356和图规约，例如通过“最佳重叠”来产生字符串图118。检测已比对序列117中的重叠(又被称为重叠读段)可以使用能快速运作的重叠检测代码，例如使用基于k-mer的匹配来执行。

将重叠读段352转换成初始图354可以包括鉴别处于重叠区域的边缘处的顶点，并且将所述顶点延伸至重叠片段的非重叠部分的端部。根据序列的方向来标记连线中的每一个(在初始图354中示出为箭头)。之后，通过传递规约356来去除冗余的连线以产生字符串图118。有关字符串图构建的另外的细节被提供于Myers,E.W.(2005)Bioinformatics 21，增刊2，第ii79页至第ii85页，所述文献出于所有目的以引用的方式整体并入本文。

图4是示出针对双链单倍体样品，例如大肠杆菌基因组使用10X10,000个碱基对(bp)读段(从而导致字符串图包括9278个节点和9536条连线)产生的示例性字符串图400的图形图。

图5是示出字符串图结构500中观察到的其他特征可以包括缠绕区域，诸如分支、结点和泡状物的图。分支或分支点通常会因为已比对序列117中存在重复序列502而产生，但是也可能会是因为存在同源序列(例如，在样品是二倍体的情况下)，并且序列读段数据中的嵌合体还会模拟重复区域，从而产生图中的不必要的分支。在重叠区域完全落在重复区域中时会引起结点。简单的“最佳重叠规则”通常用于“梳理”结点。

图6是示出对大肠杆菌字符串图400应用最佳重叠规则的结果的图。如图所示，在将最佳重叠规则应用于字符串图400之后，这种“梳理”将产生两个互补重叠群，一个是关于正向链600并且一个是关于反向链602。

产生统一群图

一旦已经产生字符串图，就可在字符串图中鉴别统一群并且产生统一群图。在一个实施方案中，鉴别字符串图内的无分支的统一群来形成统一群图，其中统一群表示可以明确从字符串图构建，并且对应于字符串图中不具有由重复或测序误差诱导的任何分支的线性路径的重叠群。

图7是以图形方式示出从字符串图700的无分支部分鉴别统一群来产生统一群图702的图，这将初始字符串图简化为具有简单路径的统一群图，其中所有连线和不具有任何分支节点的路径都形成为单一连线。对统一群图702执行图遍历以产生重叠群704，所述重叠群如图所示是一组连续的重叠序列。灵活的图构建和图遍历方法是优选的，并且例如可以如本文其他位置所列以Python或其他计算机语言实施。

有关常规字符串图组装的问题

图8A是以图形方式示出具有准线性结构和泡状物802的字符串图800的图。通常可能会在字符串图800中单倍型之间存在局部结构变异(SV)之处观察到简单的泡状物802。如图8B所示，简单的泡状物802还会因为原始序列读段中和/或在读段的预组装期间执行的共有序列测定中出现错误而产生。如果重叠鉴别步骤无法检测出介于读段之间的适当重叠804(例如，归因于结构变异或测序误差)，则泡状物806会被呈现在字符串图中。

重要的是了解如何检测和分辨由这些假象引起的泡状物，以及如何将人为泡状物(例如，因测序误差而引起)与因同源序列之间的真正结构变异而引起的泡状物区分开来，连同如何对所述真正变异进行注释。简单的泡状物通常很容易分辨，但是复杂的泡状物会很难分辨。复杂的泡状物通常由单倍型内或所述单倍型之间的更复杂的重复或者其他大规模结构变异引起。

图9是示出二倍体组装的一个挑战是区分字符串图中因基因组中的两种不同类型的基础核苷酸序列结构而引起的相似的拓扑结构的图。具有不同类型的核苷酸序列结构的序列900可以具有字符串图表示902，所述字符串图表示具有相同的局部拓扑结构并且因此很难被常规组装工具区分，所述常规组装工具集中于局部拓扑结构，而不是在图的较大部分上延伸的区域性拓扑结构。字符串图表示902示出由深色箭头指示的区域在用于产生所述图的序列中多次出现，并且所述字符串图表示的任一侧上的序列都是不同的(例如，归因于序列变异、突变、染色体上的不同位置等)。

这个字符串图表示并未区分基础核苷酸序列是在单一核酸链上(例如，在单一染色体链或其片段上)的不同位置处包括相同序列(如针对重复序列904(又被称为重复R)所示)，还是在不同核酸链，例如同源染色体上包括相同序列(如针对相同的同源序列906所示)。例如，单倍型1和单倍型2可以来自不同的同源染色体，例如一个母本染色体和一个父本染色体，并且深色箭头指示两种同源物之间相同的染色体区域。在两种情况下，字符串图组装在图中将匹配区域(例如，重复(R)或相同的同源区域(H))组合到单一区段中。因此，所得的字符串图表示902具有相同的拓扑结构，而不管基础序列结构如何。对真正的基础序列结构的确定可能甚至更难分辨同源区域内何处存在重复序列(未示出)。

重复序列904和相同的同源序列906两者的字符串图表示902如图所示基本上具有相同的局部结构，这可能是字符串图中存在复杂的泡状物的一个潜在原因。在组装期间，希望区分这两种类型的核苷酸序列结构，以便于构建序列组件，所述序列组件可准确地表示由其产生序列读段数据的原始样品核酸的序列。

图10A和图10B是以图形方式示出统一群图1000的示例性大规模和小规模拓扑特征的图。如在实施例中所描述，图10A中的图根据来自拟南芥(Arabidopsis thaliana)的基因组序列数据而产生。字符串图1000的放大部分1002示出由介于同源拷贝之间的结构变异引起的泡状物1006，以及因序列读段中存在重复而引起的分支点1004两者。

如图10B所示，字符串图1000中的这类拓扑特征所呈现的一个问题是常规的图遍历算法通常会停止围绕图中的这类复杂的泡状物的节点延伸重叠群，并且仅鉴别无分支的简单路径，这是因为常规方法并不分析大规模字符串图结构。连续性可以通过执行融合字符串图组装来改进，所述融合字符串图组装利用来自两个单倍型的最长路径以创建融合组装图1012。

再次参考图2，二倍体重叠群发生器114通过从字符串图鉴别主要和相关重叠群310来解决由大规模结构变异引起的问题。与常规图遍历算法相对比，示例性实施方案的二倍体重叠群发生器114能够区分字符串图中的不同的大规模拓扑结构，例如由重复或同源区域引起的复杂的泡状物或者真正的分支点，而不要求使用其他读段。

图11A是示出根据示例性实施方案的由二倍体重叠群发生器114对多倍体基因组执行的字符串图组装的过程的流程图。所述过程可以开始于接收由长度为至少0.5kb，更优选地为至少1kb的序列读段产生的字符串图和统一群图(方框1100)。根据示例性实施方案，二倍体重叠群发生器114使用长读段来产生字符串图，从所述字符串图构建统一群图，而不是仅鉴别统一群图中的无分支的简单路径。在一个实施方案中，统一群图可以由字符串图发生器112产生。可替代地，统一群图可以由二倍体重叠群发生器114产生。

在统一群图或字符串图中鉴别字符串束(方框1102)。在一个实施方案中，字符串束可包括一组无分支的连线，所述连线形成可能含有来自两个单倍型的序列的复合路径。之后如下所述处理所鉴别的字符串束中的每一个。方框1102可以包括两个子步骤。

首先，从字符串束中的每一个或字符串图确定主要重叠群(方框1102A)。在一个实施方案中，主要重叠群1102是不具有延伸统一群图或字符串图的长度的分支的单一路径。主要重叠群可以表示单一模板分子，或可以表示超过一个同源模板分子，从而至少处于同源物的序列不存在差异的区域中。

接着，确定相关重叠群(方框1102B)，所述相关重叠群相较于主要重叠群而言含有结构变异和其他SNP或突变(其可以由比对器确定)。在一个实施方案中，相关重叠群是字符串束的泡状物区域中平行于主要重叠群的路径。例如，在二倍体样品中，相关重叠群往往表示其中同源模板包括序列差异，例如SNP、结构变异、突变等的区域。

在另外的实施方案中，所述过程还可以包括鉴别主要重叠群中的候选断点；以及使相应的主要重叠群在断点处中断。下文将进一步详细地描述以上步骤。

根据示例性实施方案的一个方面，存在用于鉴别字符串束的两个实施方案。在第一实施方案中，统一群图中的单一路径用于找出统一群图中的主要路径，所述主要路径用于限定字符串束以及主要重叠群。从主要重叠群开始出现分支并之后再结合主要重叠群的路径可以被指定为相关重叠群并且用于限定字符串束的泡状物区域。

在用于鉴别字符串束的第二实施方案中，泡状物区域首先被鉴别为字符串图中的复合路径，这意味着这种实现方式并不受首先尝试找出所述图中的一个路径的限制。之后产生新的统一群图，其中复合路径中的每一个由复合连线替换，并且连接原始统一群图中的一对复合路径的每组简单路径在新的统一群图中被简单的连线替换。这个新的统一群图用于找出主要和相关重叠群。

实施方案1-鉴别字符串束并确定主要和相关重叠群

图11B是示出对字符串束的处理的图形图，所述字符串束包括泡状物以及“无泡状物”部分。过程可以包括对字符串束1110中的每一个进行分析以确定每个字符串束1110的主要重叠群1112(图11A，方框1102A)。在一个实施方案中，确定主要重叠群包括将相应的字符串束中的连线指派给主要重叠群，此形成延伸字符串束的长度的连续的端对端“最佳路径”序列。因此，主要重叠群是字符串束中解释了大部分读段重叠的路径，并且可以表示样品核酸的用于产生序列读段数据的特定链的序列。用于遍历图来找出重叠群的最佳路径的规则可以由普通从业者基于广为接受的统计模型和方法而确定。

还确定相关重叠群1104(图11A，方框1102B)，所述相关重叠群相较于主要重叠群1102而言包括结构变异和主要重叠群重叠检测器可以检测到的其他变异。如图11B所示，在一个实施方案中，确定相关重叠群包括将字符串束1110的泡状物区域中平行于主要重叠群1112的路径中的连线指派为相关重叠群。在一个实施方案中，相关重叠群1114可以表示两个同源序列之间有所不同的序列。相关重叠群1114可以沿着相应的主要重叠群1112的路径迭代地构建，并且所述过程继续进行直到字符串束1110中的每条连线都与主要重叠群1112中的一个或相关重叠群1114中的一个相关联为止。这个过程的结果是字符串束1110包括主要重叠群1112加上局部相关重叠群1114。

在操作中，对字符串束1110的每一个中的重叠群进行分析以将相应的字符串束中因存在具有结构变异的同源区域而引起的接合点与指示真正的分支路径的例如因核酸序列内存在重复序列904而引起的接合点区分开来。。对重叠群进行分析以鉴别主要重叠群1112中的候选分支点。使主要重叠群中断于这些分支点以提供经过校正的主要重叠群1112以及其局部相关重叠群1114。

示例性实施方案的一个方面是认识到以下内容的重要性：将统一群图中的接合点辨别为从属于字符串束的顶点或主要重叠群1112和相关重叠群1114与之岔开的分支路径的顶点。因此，二倍体重叠群发生器114确定顶点是指示可能保留在字符串束内的两个同源序列之间的微小结构变异，还是指示导致分支路径的主要结构拓扑，所述分支路径无法保留在字符串束内并且要求组件中断于该点。

图12A是示出用于确定统一群图1200中的顶点1202处的接合点是从属于字符串束1204还是指示分支路径1206的过程的图。在一个实施方案中，这可以通过对顶点的两个下游路径再结合时经过的距离进行分析来完成，其中路径中的一个可以限定主要重叠群1208并且另一个路径可以限定候选相关重叠群1210。例如，考虑到顶点U处的接合点，以及两个下游路径V和W，可确定V和W在距离顶点U的预定半径R内是否相遇。如果两个下游路径(例如，V和W)在预定半径内再结合，则两个路径被鉴别为单一字符串束1204的一部分。

然而，在顶点U’处，如果下游路径V’和W’在预定半径R内并未再结合，则使字符串束1204中断于所述接合点(例如，由重复引起)，并且分支路径的相关重叠群将被舍弃且不被包括在字符串束1204内。

在一个实施方案中，半径是可以由操作者调整的可选择的参数，因为它取决于基因组结构。然而，作为参考点，半径在以上实施例中可以具有大约10个碱基调用的长度。在一个实施方案中，可以在组装之前基于样品核酸中的结构变异的已知特性(例如，大小)而选择半径。更确切地说，半径的长度应被选择为使得泡状物完全含有结构变异并且允许泡状物的两个下游路径在所述半径内再结合以避免中断所述束。此外，在组装之后，可以使用结果来确定随后执行的组装的半径。具体而言，如果从组装获得的重叠群短于所希望的重叠群，从而导致过于片段化的组装，则可以增大半径并且再次进行组装过程以尝试增大最终组装中的重叠群长度。在替代实施方案中，如果最终组装看起来似乎含有未被正确地鉴别为分支点的重复区域和所产生的错误组装，则可以选择具有更短长度的半径。

虽然在示例性实施方案中，字符串束是在确定主要重叠群和相关重叠群之后中断于分支点，但是在替代实施方案中，字符串束可以在处理期间的更早阶段中断于分支点。

实施方案2-鉴别字符串束并确定主要和相关重叠群

图12B是示出根据第二实施方案的对字符串束的处理的图形图。在用于鉴别字符串束并确定主要和相关重叠群的第二实施方案中，目标是首先将泡状物区域鉴别为复合路径。这样做的一个目的是尝试将字符串图分解为简单路径和简单泡状物。然而，具有复杂的杂合结构变异或重复结构的二倍体基因组的字符串图因可能的子图模体而无法轻易分解为简单路径和简单泡状物。

例如，有可能具有嵌套的泡状物、环路、缠结的泡状物以及介于源节点与汇聚节点之间的长分支，在这类情况下，代替介于单倍型之间的局部结构变异，分支点处可能会引起泡状物的一些重复。下文是解决这种问题的一种方法。

在步骤1中，将初始字符串图简化为例如具有简单路径的图UG₀，其中不具有任何分支节点的路径中的连线由单一连线表示。

在步骤2中，找出UG₀中具有多条外侧连线的节点1250，并且针对这些节点中的每一个，启动搜索来找出局部连线“束”。在此搜索期间，将示踪剂或标记指派给具有多条外侧连线的节点1250以追踪从源节点到汇聚节点的每个分支。指派的示踪剂可以是活性的或失活的。找出局部连线束包括以下子步骤。

1.在每个分支迭代步骤中，检查具有活性示踪剂的每个节点以确定所述节点的所有内部节点是否具有指派的示踪剂。如果都有，则将活性示踪剂指派给所有下级节点并且使父本节点的示踪剂失活。如果只有左侧上有活性示踪剂，则所有被追踪的节点和其间的连线被指定为复合路径1252。

2.响应于确定已具有活性示踪剂的父本节点的任何下级节点都具有指派的示踪剂而检测到环路。当检测到环路时，停止搜索并且不产生复合路径。

3.在基因组的一些复杂的重复部分中，活性示踪剂的量会快速增加。因此，仅指派预定量的活性示踪剂。当所指派的活性示踪剂的量超过预定量时，停止搜索。

4.在每个步骤中，将节点的数目和路径的长度计算为从源节点到具有活性示踪剂的所有节点的序列碱基的数目。当节点的数目和路径的长度超过预定阈值时，停止搜索。

在步骤3中，针对彼此重叠的复合路径1252，或针对嵌套的复合路径(例如，较小复合路径是较大复合路径的一部分)，选择最长复合路径并且忽略较小复合路径。

在步骤4中，产生新的统一群图UG₁，其中在UG₀中鉴别的复合路径1252中的每一个被单一复合连线1256替换；并且UG₀中连接复合路径1252的简单路径1254中的每一个被简单连线1258替换。所得的统一群图UG₁含有由简单连线1258连接的复合连线1256，并且如上所述用于鉴别字符串束、主要重叠群和相关重叠群。

以上处理的结果是字符串束1204，所述字符串束包括经过校正的主要重叠群122以及其局部相关重叠群124(图1)。来自二倍体重叠群发生器114的输出可以包括主要重叠群122、相关重叠群124和/或包括主要和相关重叠群的融合组装图126。

图13是以图形方式示出基于主要重叠群和相关重叠群而构建最终共有序列的图。主要和相关重叠群组装1300被示出包括大结构变异(SV)1302(示出为矩形)以及还有单核苷酸多态性(SNP)和小SV1304。大SV 1302中的两个从属于一个核酸分子1308，并且另外两个大SV 1302从属于另一个核酸分子1310。这提供了需要分辨来提供个别样品核酸分子1308和1310，例如两个同源染色体的序列的一般结构。

再次参考图3A，根据示例性实施方案的另一方面，在从两个单倍型产生融合组装图(方框200)之后，单倍型图发生器117以及单倍型图合并器和单体群分离器119应用逻辑来确定哪些等位基因一起结合在单一核酸中以提供所述分子的单倍型，以便于对结构变异和SNP两者进行定相。这可以通过以下方式来完成：检查序列读段116(图1)的等位基因构成以确定单一序列读段是否含有超过一个的这些变异位置(大SV或SNP)。当确定单一读段(其有必要来自单一分子)包括关于超过一个的变异位置的基因座时，这些基因座处的等位基因被鉴别为是相连的，由此来源于单一原始核酸分子。一旦已相对于主要和相关重叠群组装1300确定长序列读段116的等位基因构成，就可以确定每个变异位置的哪种形式来源于哪个核酸分子1308和1310，并且由此确定原始核酸分子的最终共有序列。

在图13中，一个链的所有等位基因被示出处于主要和相关重叠群组装1300的顶部上，并且另一个链的所有等位基因被示出处于底部上，但是实际上并不知道每个等位基因的来源。根据示例性实施方案的另一方面，单倍型图发生器117以及单倍型图合并器和单体群分离器119检查与长序列读段116相关联的信息以确定哪些等位基因一起结合在哪个单倍型上。

如图2和图3A所描述，这包括使用已定相的读段和已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图(方框202)，从而产生单倍型特异组装图203。将融合组装图201和单倍型特异组装图203合并(方框204)来产生合并的组装单倍型图205。从合并的组装单倍型图205去除交叉定相的连线以产生最终单倍型已分辨的组装图207(方框206)。之后从最终单倍型已分辨的组装图207构建单倍型特异单体群，从而产生具有已连接的定相区块的单倍型特异重叠群209。

现将解释使用对读段进行定相并使用感知有单倍型的重叠的过程(方框202)来产生单倍型特异组装图的过程。所述过程可以包括针对每个融合单倍型的重叠群，鉴别从属于所述融合单倍型的重叠群的原始读段的子组(方框311)。接着，对读段进行定相(方框313)，这使用SNP信息将读段分类为表示不同单倍型的组。最终，执行融合单倍型的重叠群319到单倍型特异重叠群的分解。

在一个实施方案中，鉴别从属于融合单倍型的重叠群的原始读段的子组可以通过以下方式来执行：使用用于产生组装的重叠数据来收集来源于重叠群的相同基因组区域的读段，接着是按照区块和相位(这要求两个指数)对来自相同重叠群的读段进行定相。对于例如人来说，所述过程将产生大约5000个重叠群，并且这个过程可以将初始读段分割为对应于重叠群的大约5000个组。然而，在所有读段都来源于一个区域的靶向测序期间，重叠群的数目可能会显著变少。

再次参考图13，SNP可以结合为通过统计方法可明确确定的单倍型的重叠群的区域被称为定相区块1312。每个定相区块1312具有两个不同的相位，即相位0和相位1，它们对应于两个不同的单倍型。在分割期间，被鉴别为从属于单一重叠群的所有读段都被指派给特定区块，并且在稍后的过程中，会将相位中的一个指派给所述读段。每个核酸分子1308和1310或单倍型表示所有SNP相对于彼此都已定相的区域，并且在此处被称为单倍型重叠群定相区块1314。根据示例性实施方案，涉及SNP之间的定相和结构变异的信息被组合来提供从头二倍体基因组组装和单倍型序列重建。

再次参考图3A，对读段进行定相(方框313)包括通过局部比对312过程来对与每个主要重叠群相关联的读段进行比对。这个过程通常包括对读段与参考序列进行比对。参考序列可以是例如来自公共数据库的已知参考序列。可替代地，在某些实施方案中，参考序列是来自融合组装图的主要重叠群。在将读段比对之后，执行鉴别SNP的杂合SNP(hetSNP)调用314过程，接着是定相hetSNP 316过程，所述过程对具有共享的SNP的读段进行分组。

图14是示出对同一性较高的区域中的SNP和读段进行定相的实例的图形实例。这个特定实例示出9Mbp重叠群组装1400的跨越经过二倍体人基因组的MHC区域的一部分。从概念上讲，重叠群组装1400含有与线性路径混合的泡状物。在线性路径中，一些类型的标志物或信号可以用于将读段分为表示不同单倍型的不同组。在一个实施方案中，SNP用作标志物或信号，但是在另一个实施方案中，可以使用其他标志物或信号，诸如与读段相关联的动力学信息。例如，尽管读段序列可能非常相似，但是反映分子水平差异，例如甲基化的动力学信息可以用于鉴别一组读段，所述读段具有指示经过修饰的碱基的特性以显示经过修饰的碱基应与一个单倍型或另一个单倍型相关联。

在这个过程中，从头使用主要重叠群来鉴别杂合SNP以作为参考，并且对读段与这个参考进行比对。对所鉴别的任何SNP进行定相，以基于其在单一读段内的存在而确定哪些等位基因(由变体SNP指示)一起存在于相同染色体上。与至少一个SNP重叠且还包括重叠区域外侧的至少一个SNP的重叠读段用于连接处于不同读段中的SNP等位基因。在图14中，一个单倍型的所有等位基因/SNP 1404被示出处于主要和相关重叠群组装1402的顶部上，并且另一个单倍型的所有等位基因被示出处于底部上。使用已定相的SNP 1404，可以将读段与所述SNP位置进行比较。如果读段含有单倍型1中的SNP，则所述读段与单倍型1相关联。通过对SNP 1404进行定相，如图所示还可以根据单倍型对含有所述SNP 1404的读段进行定相。

通过同时对SNP和读段进行分组，获得了有关哪些读段从属于相同相位中的相同区块的信息，从而产生一组已定相的读段318，所述已定相的读段可以用于重建仅因小变异而(例如，1％至6％)不同的单倍型。

再次参考图3A，在对读段进行定相之后，序列比对器/重叠检测器110(或一些其他部件)执行相位特异组装，在本文中被称为对重叠群进行分解(方框319)。当对重叠群进行分解时，序列比对器/重叠检测器110对测序读段进行比对(方框320)以鉴别序列之间具有相似性的区域。之后对已比对序列进行误差校正(方框322)以获得一组经过误差校正的读段，并且对经过误差校正的读段进行比对(方框324)。这个过程类似于从两个单倍型产生融合组装图组装所使用的步骤，例外的是重叠阶段(方框326)期间的过程，已定相的读段318用于确保只有相同相位的已比对的经过误差校正的读段彼此重叠(其他重叠读段内所含有的读段被舍弃)。这产生了每个单倍型的一组重叠读段，所述重叠读段之后由单倍型图发生器117使用来产生单倍型特异字符串图(方框328)。分解过程可以包括方框320至326、328和204至206。

图15是示出通过字符串图产生328而产生的单倍型特异组装图的图。来自两个单倍型的重叠读段已根据单倍型分成组。字符串图产生328之后产生单独的单倍型图，即单倍型0图和单倍型1图。每组读段中发现的结构变异1500通常会停止围绕图中的这类复杂的泡状物的节点延伸重叠群，并且仅鉴别无分支的简单路径，因为常规方法并不分析大规模字符串图结构。因此，简单地根据单倍型将读段分成组并针对单倍型中的每一个执行组装会因结构变异1502而在两个单倍型的图中岔开路径相遇之处出现中断，从而导致单倍型0图和单倍型1图的片段化的组装。SV 1500是SNP定相可能无效并且定相区块可能出现中断的一个实例。另一个实例是如果单倍型之间存在高度同源区域，其中SNP密度如此低以致于它们无法通过读段来连接，则单倍型重叠群也会出现中断，从而同样会导致片段化的单倍型图。

再次参考图2和图3A，在产生单倍型特异组装图之后，在合并图过程(方框204)期间由单倍型图合并器和单体群分离器119将融合组装图和单倍型特异组装图合并来提高图连续性并且提供完整的分辨。

图16是示出输入至单倍型图合并器和单体群分离器119的融合组装图1012和单倍型特异组装图(单倍型0图和单倍型1图)的图。

图17是示出将融合组装图1012和单倍型特异组装图(方框204)合并来产生合并的组装单倍型图205的图。合并的组装单倍型图205包括一些新的节点和一些新的连线，并且含有来自最初三个图的信息，此时其中一些信息可能会被舍弃。图中的一些连线连接来自相同单倍型的节点，并且其他连线连接来自不同单倍型的节点，它们是交叉定相的连线。

再次参考图2和图3A，在产生合并的组装单倍型图205之后，从合并的组装单倍型图205去除交叉定相的连线(方框206)以产生最终单倍型已分辨的组装图207。

图18是示出从合并的组装单倍型图去除面向交叉的连线以产生最终单倍型已分辨的组装图207，从而留下对应于每个单倍型的两个不同路径的图。将图18所示的最终单倍型已分辨的组装图207与图16所示的原始的单倍型特异组装图和融合组装图进行比较，可以看到，最终单倍型已分辨的组装图207中的路径一直延伸到图16中的三个原始图中所示的初始中断和分支点。

在一个实施方案中，创建合并的组装单倍型图205并去除面向交叉的连线的过程可以如图2所示作为两个单独的过程，或可替代地如图3A所示作为一个过程执行。

再次参考图2和图3A，在产生最终单倍型已分辨的组装图207之后，从具有结构变异和SNP的最终单倍型已分辨的组装图产生单倍型特异重叠群，在本文中被称为单体群(方框208)。在一个实施方案中，单体群可以包括已连接的定相区块。

图19是从最终单倍型已分辨的组装图207产生单体群(单倍型0重叠群和单倍型1重叠群)的图。如图13所示，单体群使用定相区块1312来连接SNP，并且将SNP定相区块1312连接至结构变异1302以产生单倍型重叠群定相区块1314。本文公开的方法和系统的结果可以用于从生物分子序列数据进行共有序列测定。

再次参考图2和图3A，例如，任选的最终步骤可以是将已定相的读段318和单倍型特异重叠群输入至单倍型特异共有序列调用过程330。由于已了解哪些读段对应于哪个单倍型，并且所述读段从属于不同的定相区块，因此单倍型特异共有序列调用过程330应该会获得每个单倍型的最佳准确度。

可以针对由字符串图发生器112产生的每个重叠群执行处理方框202、204、206和208。在另一个实施方案中，可以一次性而不是逐个地处理所有重叠群。

图20是示出从头二倍体基因组组件和单倍型序列重建过程的可能的输出选项的图。在一个实施方案中，输出选项可以包括1)未定相的重叠群和已定相的变体调用，2)未定相的主要重叠群和已定相的序列(单倍型区块)，以及3)具有带注释的已定相的区块的主要重叠群和替代的已定相的序列。任何选定输出选项可以如由从业者所确定全部或部分地存储或显示出来。

已公开了用于从头二倍体基因组组装和单倍型序列重建的方法，所述方法能有效地将多个变体类型整合为综合组装的单倍型。在一些实施方案中，所述系统包括操作性地耦合至处理器的计算机可读介质，所述计算机可读介质存储可由处理器执行的指令。指令可以包括以下一项或多项：相对于图2所描述的用于接收序列读段(以及任选地参考序列信息)的输入的指令、用于构建预组装读段的指令、用于对序列读段进行比对的指令、用于产生字符串图的指令、用于产生统一群图的指令、用于鉴别字符串束的指令、用于确定主要重叠群的指令、用于确定相关重叠群的指令、用于校正读段的指令、用于产生共有序列的指令、用于产生单倍型序列的指令、计算/存储与所述方法的各种步骤相关的信息(例如，字符串图中的连线和节点、字符串图中的重叠和分支点、主要重叠群和相关重叠群)的指令以及记录所述方法的结果的指令。

在某些方面，所述方法是由计算机实施的方法。在某些方面，算法和/或结果(例如，所产生的共有序列)存储在计算机可读介质上，和/或显示在屏幕上或打印出的纸张上。在某些方面，对结果进行进一步分析，例如以鉴别遗传变体，以鉴别序列信息的一个或多个来源，以鉴别在个体或物种之间保守的基因组区域，以确定两个个体之间的相关性，以向个体提供诊断或预后，或者向健康护理专业人员提供可用于为患者确定适当的治疗策略的信息。

另外，如本领域普通技术人员将理解，在计算机或者其他逻辑处理系统或回路上实施的本发明的功能方面可以使用任何适当的实施环境或编程语言，诸如C、C₊₊、Cobol、Pascal、Java、Java脚本、HTML、XML、dHTML、汇编或机器代码编程、RTL、python、scala、perl等来实施或完成。

在某些实施方案中，计算机可读介质可以包括以下各项的任何组合：硬盘驱动器、辅助存储器、外部存储器、服务器、数据库、便携式存储器装置(CD-R、DVD、ZIP盘、闪存卡等)等等。

在一些方面，本发明包括一种用于二倍体基因组组装和单倍型序列重建的制品，所述制品包括机器可读介质，所述机器可读介质含有一个或多个程序，所述程序在执行时实施如本文所述的本发明的步骤。

实施例-本文描述的方法用于对120Mb拟南芥基因组进行序列分析。策略包括通过使用两个近交品系的拟南芥(Ler-0和Col-0)来产生“合成的”二倍体数据集。对两个品系进行单独测序，之后将针对每个品系产生的测序读段集中在一起并且进行预组装，接着实施本文描述的字符串图二倍体组装策略以确定这个策略是否可以从所集中的读段数据正确地组装两个品系。

在预组装之后，将范围为约10kb至约22kb的序列读段用作二倍体组装过程中的输入，其中大部分读段是介于10与15kb之间。从使用所集中的测序读段产生的字符串图构建图10A所示的统一群图。下一个步骤是找出统一群图中建立字符串束可以沿循的端对端路径。字符串束的复合路径含有来自两个“单倍型”(在这种情况下是两个品系)的序列。字符串束包括主要重叠群和局部相关重叠群，其中主要重叠群是字符串束中从起点到终点的解释了大部分重叠的路径，并且相关重叠群是存在于字符串束中的泡状物中平行于主要重叠群的路径。继续进行所述过程直到没有连线留下为止，并且使字符串束随后中断于被认为是因重复而引起的分支点，以提供经过校正的主要重叠群和局部相关重叠群。

最终，将字符串束中的顶点与分支点处的顶点区分开来。确切地说，针对下游路径在半径内相遇的顶点，将所述下游路径保留在束内。下游路径在所述预定半径内未相遇的顶点指示分支点，并且使主要重叠群中断于所述顶点。有关所得组件的数据被提供于2013年12月18日提交且出于所有目的以引用的方式整体并入本文的美国临时申请号61/917,777。

应理解，以上描述意在是说明性的而不是限制性的。对于本领域技术人员而言应当容易显而易见的是，可以对本申请中公开的发明进行各种修改，而不脱离本发明的范围和精神。因此，本发明的范围不应参考以上描述来确定，而是应当参考随附权利要求，连同这类权利要求授权的等效形式的全部范围来确定。贯穿本公开，引用了各种参考文献、专利、专利申请和公布。除非另外指明，否则它们各自出于所有目的以引用的方式整体并入本文。本文提及的所有公布是出于描述和公开可以与本发明结合使用的试剂、方法和概念的目的而引用的。本文的任何内容都不应被解释为承认这些参考文献是与本文描述的发明相关的现有技术。

Claims

1.一种用于二倍体基因组组装和单倍型序列重建的方法，所述方法由在处理器上执行的至少一个软件部件执行，所述方法包括：

从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；

使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；

将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；

从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及

从所述最终单倍型已分辨的组装图重建单倍型特异重叠群，从而产生单倍型特异重叠群。

2.如权利要求1所述的方法，其中使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生所述单倍型特异组装图还包括：

针对每个融合单倍型的重叠群，鉴别从属于所述融合单倍型的重叠群的原始读段的子组；

对所述读段进行定相以使用单核苷酸多态性(SNP)信息来将所述读段分类为表示不同单倍型的组；以及

将所述融合单倍型的重叠群分解为单倍型特异重叠群。

3.如权利要求2所述的方法，其中鉴别从属于所述重叠群的原始读段的所述子组还包括：

使用用于产生所述组装的所述重叠数据来收集来源于重叠群的相同基因组区域的读段；以及

按照区块和相位对来自相同重叠群的所述读段进行定相。

4.如权利要求2所述的方法，其中对所述读段进行定相还包括：

通过局部比对过程来对与每个重叠群相关联的所述读段进行比对；

执行杂合SNP(hetSNP)调用过程，所述杂合SNP调用过程鉴别SNP；以及

执行定相hetSNP 316过程，所述定相hetSNP过程对具有共享的SNP的读段进行分组。

5.如权利要求2所述的方法，所述方法还包括：同时对SNP和读段进行分组以获得有关哪些读段从属于相同相位中的相同区块的信息，从而产生一组已定相的读段，所述已定相的读段用于重建仅因小变异而不同的单倍型。

6.如权利要求2所述的方法，其中对所述重叠群进行分解还包括：

对测序读段进行比对以鉴别在序列之间具有相似性的区域，从而产生已比对序列；

对所述已比对序列进行误差校正以产生经过误差校正的读段；

对所述经过误差校正的读段进行比对；以及

在重叠阶段期间使用所述已定相的读段来确保只有相同相位的所述已比对的经过误差校正的读段彼此重叠，从而产生每个单倍型的一组重叠读段。

7.如权利要求6所述的方法，所述方法还包括使用每个单倍型的所述重叠读段组来产生所述单倍型特异组装图。

8.如权利要求1所述的方法，其中所述合并的组装单倍型图包括连接来自相同单倍型的节点的连线，以及连接来自不同单倍型的节点的连线，所述连线是所述交叉定相的连线。

9.如权利要求1所述的方法，其中所述单倍型特异重叠群包括已连接的定相区块。

10.如权利要求9所述的方法，其中产生融合组装图还包括：

接收从长度为至少.5kb的序列读段产生的字符串图和统一群；

鉴别所述统一群图中的字符串束；

从所述字符串束中的每一个确定主要重叠群；以及

确定相较于所述主要重叠群而言含有结构变异的相关重叠群。

11.如权利要求9所述的方法，所述方法还包括：

鉴别所述主要重叠群中的候选分支点；以及

使所述相应的主要重叠群在所述分支点处中断。

12.如权利要求9所述的方法，其中所述序列读段包括长度范围为约0.5至1、2、3、5、10、15、20kb的长测序读段。

13.如权利要求9所述的方法，其中鉴别所述统一群图中的字符串束还包括：

遍历所述统一群图以鉴别形成无分支的复合路径的一组连线。

14.如权利要求9所述的方法，其中从所述字符串束中的每一个确定主要重叠群还包括：

将所述相应的字符串束中的连线指派给所述主要重叠群，此形成延伸所述字符串束的长度的连续的端对端最佳路径序列。

15.如权利要求14所述的方法，其中所述相关重叠群包括所述字符串束的泡状物区域中平行于所述主要重叠群的路径。

16.如权利要求9所述的方法，其中确定相较于所述主要重叠群而言含有结构变异的相关重叠群还包括：

沿着相应的主要重叠群的路径迭代地构建相关重叠群，直到所述字符串束中的每条连线都与所述主要重叠群中的一个或所述相关重叠群中的一个相关联为止。

17.如权利要求9所述的方法，所述方法还包括：对所述字符串束的每一个中的重叠群进行分析，以将相应的字符串束中因存在具有结构变异的同源区域而引起的接合点与因重复序列而引起的接合点区分开来。

18.如权利要求17所述的方法，所述方法还包括：通过对所述统一群图中的顶点的两个下游路径再结合时经过的距离进行分析来确定所述顶点处的接合点是从属于字符串束还是从属于分支路径，其中所述路径中的一个限定所述主要重叠群，并且另一个路径限定候选相关重叠群。

19.如权利要求18所述的方法，所述方法还包括：

响应于确定所述两个下游路径在预定半径内再结合，将所述两个下游路径鉴别为单一字符串束的一部分；以及

响应于确定所述两个下游路径在预定半径内并未再结合，使所述字符串束中断于因重复而引起的所述接合点处，并且舍弃所述分支路径的所述相关重叠群。

20.如权利要求9所述的方法，所述方法还包括：

响应于确定所述主要重叠群和所述相关重叠群，检查所述序列读段的等位基因构成以确定单一序列读段是否含有超过一个的变异位置，包括泡状物和单核苷酸多态性(SNP)；

响应于确定所述单一读段含有超过一个的所述变异位置并且因此确定那些基因座处的等位基因是相连的，将所述基因座鉴别为来源于单一原始核酸分子；以及确定每个变异位置的哪种形式来源于哪个核酸分子，从而确定所述核酸分子的最终共有序列。

21.如权利要求9所述的方法，其中接收所述字符串图还包括：

通过比对和组装来对序列读段进行预组装，包括：从序列读段数据选择最佳匹配序列读段来作为种子序列，接着是对所述序列读段数据中的其余读段与所述种子序列进行比对以产生一组已比对序列；以及

从所述已比对序列产生所述字符串图。

22.一种可执行软件产品，所述可执行软件产品存储在计算机可读介质上，所述计算机可读介质含有用于二倍体基因组组装和单倍型序列重建的程序指令，所述程序指令在至少一个处理器上执行，所述程序指令包括：

将字符串组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；

23.一种用于二倍体基因组组装和单倍型序列重建的系统，所述系统包括：

存储器；以及

处理器，所述处理器耦合至所述存储器，所述处理器被配置用来：