CN108611399A

CN108611399A - 长dna片段的多重标记

Info

Publication number: CN108611399A
Application number: CN201810436392.4A
Authority: CN
Inventors: 罗多吉·德尔马纳茨; 布罗克·A·彼得斯; 安德烈·阿列克谢耶夫
Original assignee: Callida Genomics Inc
Current assignee: Callida Genomics Inc
Priority date: 2013-03-15
Filing date: 2014-03-17
Publication date: 2018-10-02
Anticipated expiration: 2034-03-17
Also published as: HK1219709A1; US20190002970A1; EP2969847A2; US20140323316A1; CN108611399B; CN105189308B; US9328382B2; CA2902882C; HK1218412A1; US20160046985A1; US20190002969A1; US20180355421A9; ES2794021T3; WO2014145820A2; US10557166B2; US20170022554A1; EP2969847A4; CN105189308A; WO2014145820A3; EP2969847B1

Abstract

本发明提供了用于标记靶核酸的长片段以对所得到的序列信息进行测序并分析的方法和组合物，以例如减少错误并执行单倍型定相。

Description

长DNA片段的多重标记

本申请是申请日为2014年3月17日、中国专利申请号为201480016181.5(国际申请号为PCT/US2014/030649)、发明名称为“长DNA片段的多重标记”的发明专利申请的分案申请。

相关申请

本发明的公开内容要求2014年3月11日提交的美国专利申请号为14/205,145以及2013年3月15日提交的美国临时申请号为61/801,052的优先权。每一项申请为了所有目的在此通过引用整体并入本文。

技术领域

本发明的公开内容涉及核酸例如基因组DNA的分析，包括测序和单倍型的测定。

背景技术

需要改进的方法用于测定亲本对高等生物体基因组的贡献，即基因组的单倍型定相(phasing)。单倍型定相的方法，包括计算方法和试验定相，在Browning and Browning,Nature Reviews Genetics 12:703-7014,2011中进行了论述。

大多数哺乳动物包括人类都是二倍体，其中一半同源染色体来自于每一位亲本。许多植物含有多倍体基因组。例如，小麦(小麦属(Triticum spp.))具有多倍性，从二倍体(一粒小麦)到四倍体(二粒小麦和硬粒小麦)到六倍体(斯佩尔特小麦和普通小麦[T.aestivum])。

其中每一个染色体均出现变异的情形可能对基因和基因组的其它转录区的表达和的调控具有极大的影响。此外，确定基因的一个或两个等位基因是否出现两种潜在的有害的突变是有至关重要的临床意义的。对于植物种类，亲本遗传贡献知识对繁殖具有理想性状的后代有帮助。

当前用于全基因组测序的一些方法缺乏以具有成本效益的方式单独组装亲本染色体并描述变异同时出现的情形(单倍型)的能力。模拟实验表明染色体水平的单倍型分析需要一系列至少70-100kb的等位基因连锁信息。

如果处理这么长的分子是可行的，如果单分子测序的准确度高并且检测/仪器的成本低的话，那么用于大于100kb的DNA片段的单分子测序将对单倍型分析有用，这对于产量高的短分子而言很难实现，更别说100kb的片段。

最近的人类基因组测序已经用于从数百纳克DNA开始的短读数长度(<200bp)、高度平行的体系。这些技术擅长快速并经济地产生大量数据。不幸的是，短读数通常与小的匹配间距尺寸(500bp-10kb)配对，消除了大于几千对碱基的大多数SNP相位信息(McKernan等人，Genome RES 19：1527，2009)。此外，由于剪切，导致非常难以在多个处理步骤中保持为长DNA片段而不分裂。

直到最近，仅大约3种人类基因组已被测序并组装为二倍体：克雷格·文特尔(Levy等人,PLoS Biol.5:e254,2007)、印度古吉拉特邦(HapMap sample NA20847；Kitzman等人,Nat.Biotechnol.29:59,2011)和两名欧洲人(Max Planck One[MP1]；Suk等人,Genome Res.,2011和HapMap Sample NA 12878；Duitama等人,Nucl.Acids Res.40:2041-2053,2012)的那些。所有均涉及到以类似于在构建人类参照基因组过程中使用的细菌人工染色体(BAC)测序的方法将长DNA片段克隆到构建体内(Venter等人，Science 291:1304,2001；Lander等人，Nature 409：860,2001)。虽然这些方法产生长的定相重叠群(350kb的N50s[Levy等人，PLoS Biol.5：e254,2007]，386kb[Kitzman等人，Nat Biotechnol.29:59-63,2011]和1Mb[Suk等人，Genome RES 21：1672-1685,2011])，但它们需要大量的初始DNA，广泛的文库加工并且太昂贵以至于不能在常规临床环境中使用。

此外，全染色体的单倍型分析已经通过直接分离中期染色体而证明(Zhang等人，Nat.Genet.38:382-387,2006；Ma等人,Nat.Methods 7:299-301,2010；Fan等人，Nat.Biotechnol 29：51-57，2011；Yang等人，Proc.Natl.Acad.Sci.USA 108:12-17，2011)。这些方法可用于长程单倍型分析，但还没有被用于全基因组测序；它们需要制备和分离中期全染色体，可能对于某些临床样品而言具有挑战性。

还需要用于从生物体混合物获得序列信息的改进方法，例如宏基因组学(例如肠道细菌或其他微生物)。还需要用于基因组测序和组装的改进方法，包括不使用或极少使用参考序列从头组装，或包含各种类型的重复序列的基因组的组装，包括假基因的分离、拷贝数变化和结构变化，特别是在癌症基因组中。

我们已经描述了长片段读数(LFR)方法，其提供使二倍体基因组中的亲本染色体(即完整的单倍型)的单独序列准确组装，显著降低了实验和计算成本而并没有克隆到载体和基于细胞的复制内。LFR是基于长的基因组DNA(或其它核酸)片段在许多不同的等份试样中的物理分离，使得母系和父系两者的组分的基因组中任何指定区域以相同等份试样表示的概率很低。通过在每份等份试样中放置独特的标识符并对聚集体中许多等份试样进行分析，DNA序列数据可被组装成二倍体基因组，例如，可测定每一个亲本染色体的序列。LFR不需要将复杂核酸的克隆片段插入载体中，如在利用大片段(例如BAC)文库的单倍型分析方法中。LFR也不需要直接分离生物体的单个染色体。此外，LFR可以对单个生物体执行并且不要求生物群以实现单倍型定相。

LFR方法已在美国专利申请号12/329,365和13/447,087、美国专利公开US2011-0033854和2009-0176234以及美国专利号7,901,890、7,897,344、7,906,285、7,901,891和7,709,197中进行了描述，所有这些在此通过引用整体并入本文。

发明内容

本发明提供了用于单个长DNA片段的多重标记(本文中缩写称为多重标记或MT)的方法和组合物。MT用于核酸例如基因组DNA的分析，包括测序和用于分析所得的序列信息以尽可能减少错误而进行单倍型定相，此外并准确读出变体，尤其是杂合子。

本发明公开内容提供了用于通过以下步骤对靶核酸进行测序的方法：(a)在单个反应容器中合并(i)多个靶核酸长片段和(ii)多核苷酸群体，其中每种多核苷酸包含标签并且大多数多核苷酸包含不同的标签；(b)将来自所述多核苷酸群体的含标签序列引入到大多数所述的长片段以制备标记长片段，其中各标记长片段在选定的平均间距内包含多个含标签序列，并且各含标签序列包含标签；以及(c)由各标记长片段制备多个亚片段，其中所述亚片段各包含一个或更多个标签。这样的方法适用于制备用于核酸测序的靶核酸，并且可包括对所述亚片段进行测序以制备多个序列读数；将大多数序列读数分配到相应的长片段中；并且组装所述序列读数以制备组装的靶核酸序列。

通过这样的方法制备标记亚片段，可包括进行扩增反应以由各长片段制备多个扩增子。每个扩增子可包含来自各相邻引入序列的标签以及在相邻引入序列之间的长片段的区域。这样的方法可包括将长片段与过量的含标签序列群体合并；和/或将长片段与含标签的溶液在适于将含标签的单序列引入到大多数长片段中的条件下进行合并。

这样的方法可包括在适于将不同的含标签序列引入到大多数长片段中的条件下将长片段与含标签的溶液合并。含标签序列的群体可包括珠子群体，其中各珠子包含多个拷贝的含标签单序列或含有多个拷贝的含标签单序列的多联体。在这样的方法中，所述含标签的序列通常包含转座子末端，所述方法通常包括在适于将含标签的序列转座到每个长片段中的条件下将长片段和含标签的序列合并。替代地，所述含标签的序列可以是发夹序列。所述靶核酸可以是复杂核酸，例如生物体的基因组。这样的方法可用于确定基因组的单倍型或用于任何其它有价值的目的。

除非另外说明或要求，否则根据本发明的用于分析或测序的任何方法可包括扩增部分靶核酸以制备初始片段。这可以例如通过将转座子插入靶核酸中实施；并利用结合在转座子内的引物复制所述靶核酸，由此制备初始片段。因此，所述扩增可包括以下步骤：将接头(adapter)寡核苷酸连接到多个切口或间隔中；并利用结合在所述接头寡核苷酸内的引物复制靶核酸，由此制备初始片段。所述扩增可利用引入到靶多核苷酸中的转座子、切口或间隔以约每3-20kb中一个的频率进行，或者在本发明公开内容的其它地方举例说明。

所述靶核酸可以是复杂核酸，例如生物体的基因组。所述分析可包括确定基因组的单倍型、测定基因组的甲基化模式；和/或测定细胞样品，例如取自癌症患者的活组织检查样品中存在的拷贝数变异。本发明的方法可用于诊断或评估患者的癌症，或用于移植前基因诊断。

本发明还提供了用于实施本发明方法的产品。这样的产品包含下文所述或附图中示出的任意新的核酸构建体或复合物，任选地与用于复杂DNA测序或分析的其它组分相组合。这样的组分可包含本发明方法的初始基底或试剂、中间体或最终产品，如下文所述。例如，本发明提供了用于靶核酸测序或分析的系统。该系统包含(a)特定尺寸的靶核酸片段(例如长度为约2-5或约5-750个碱基对)，其中多个各包含多个拷贝的插入序列或用其退火，该插入序列包含特定的标签，其中不同片段包含具有不同标签和共用引物序列的插入序列；以及(b)成组的引物，其包含特异性退火至共有引物序列的序列。

在一个方面，本发明提供了用于靶核酸的序列分析的方法，其包括：(a)合并多个靶核酸长DNA片段与含标签序列的群体，其中所述群体包含至少1000个不同的标签序列；(b)制备标记长片段，其中各标记长片段包含靶核酸序列和多个散在标签序列，其中单个标记长片段的多个散在标签序列可以相同或不同；(c)由各标记长片段制备多个标记亚片段，其中所述标记亚片段各包含一个或更多个标签序列；(d)获得单个标记亚片段的序列，其中所获得的序列包含靶核酸序列和至少一个标签序列；(e)组合(d)中获得的序列以制备组装的靶核酸序列，其中所述组合包括：(i)确定(d)中获得的源自相同的长DNA片段的序列，如果所述序列包含相同的标签序列，和/或(ii)确定作为靶核酸中的相邻序列的序列对，如果所述序列对包含相同的标签序列。在一个方面，步骤(a)-(c)在单个容器或混合物中进行。在一个方面，步骤中多个长DNA片段是基因组DNA序列。在一个方面，步骤中多个长DNA片段的长度为至少50kb，任选地至少100kb，或者在50kb至200kb的范围内。在一些实施方案中，标记长片段在选定的平均间距内包含多个含标签序列。在一些实施方案中，所述平均间距的范围为100-5000个碱基。在一些实施方案中，所述平均间距的范围为200-1500个碱基。在一些实施方案中，所述平均间距的范围为250-1000个碱基。

在一个方面，步骤(a)-(c)在单个容器或混合物中进行，并且所述单个容器或混合物包含大于单倍体(N)量的基因组DNA。在一些实施例中，所述基因组DNA来自单个生物体。在一些实施例中，所述基因组DNA包含胎儿DNA和母体DNA。在一些实施例中，所述基因组DNA是1-100个真核细胞的DNA。在一些实施例中，所述基因组DNA是2-10个真核细胞的DNA。在一些实施例中，所述基因组DNA是多于50个真核细胞的DNA。在一些实施例中，所述基因组DNA从包含多于一种细胞类型的混合物获得。在一些实施方案中，所述DNA从包含来自相同物种的多于一种细胞类型的混合物获得。在一些实施方案中，所述细胞是(i)胎儿细胞和母体细胞或(ii)肿瘤细胞和正常细胞。

在一些实施方案中，所述长DNA片段是染色体DNA的片段。在一些实施方案中，所述长DNA片段是细胞DNA的扩增子。在一些实施方案中，所述长DNA片段是全基因组扩增的产物。在一些实施方案，包括扩增靶核酸的部分以形成步骤(a)中使用的长DNA片段。

在一个方面，含标签的序列是克隆的标签，含标签序列的群体是克隆标签源的群体。在一些实施方案中，所述克隆标签源包括珠子或其它载体，其中各珠子或载体包含固定在其上的多个拷贝的单标签序列。在一些实施方案中，所述克隆标签源各包含至少1000个拷贝的单标签序列。在一些实施方案中，所述含标签序列的群体包含多联体群体，各多联体包含多个拷贝的含标签单序列。在一些实施方案中，所述含标签序列包含转座子末端。在一些实施方案中，所述含标签序列包含转座子末端。在一些实施方案中，所述含标签序列是含有发夹构象的寡核苷酸。在一些实施方案中，每个寡核苷酸包含两个标签序列。在一些实施方案中，这两个标签序列相同。在一些实施方案中，所述群体的含标签序列包含引物结合序列。在一些实施方案中，所述群体的每个含标签序列包含相同的引物结合序列或引物结合序列组合。

在一个方面，步骤(a)包括在适于将标签序列转座到长DNA片段中的条件下合并长DNA片段和含标签序列。在一个相关的方面，步骤(a)包括合并长DNA片段和克隆标签源的群体。在一些实施方案中，所述方法包括合并长DNA片段和过量的含标签序列或含标签序列源。

在一个方面，本发明包括在适于将多个拷贝的单标签序列引入到长DNA片段中的条件下合并长DNA片段和含标签序列，其中至少20％的长DNA片段仅包含一个标签序列。在一些实施方案中，所述条件是使其中引入了标签序列的大多数长DNA片段包含独特的引入标签序列。

在一个方面，平均来说，包含散在标签序列的每个标记长片段包含至少10个标签序列。在一些实施方案中，单个标记长片段中的多个散在标签序列相同。在一些实施方案中，长DNA片段的大于10％的DNA长度代表标记亚片段。

在一些实施方案中，步骤(b)包括使多个发夹寡核苷酸退火至多个长DNA初始片段上，其中每个发夹包含至少两个拷贝的标记序列。在一些实施方案中，插入到初始片段的一个中的不同发夹包含不同的标签序列。在一些实施方案中，步骤(b)包括(i)使多个发夹寡核苷酸退火至多个长DNA片段的单链上；(iii)通过聚合酶延伸和连接填补退火至单链的发夹寡核苷酸之间的间隔。

在一些实施方案中，步骤(b)和(c)包括：(i)在产生游离3’末端的长DNA片段中构建切口或间隔，(ii)将3’共有接头序列连接至所述游离3’末端上，(iii)使寡核苷酸退火至3’共有接头序列上，其中所述寡核苷酸各包含标签序列；并且然后(iv)延伸所述第一寡核苷酸以形成标记亚片段。在一些实施方案中，在步骤(b)中，转座子、切口或间隔以约每300-1000个碱基中一个的频率被引入到长DNA片段中。

在一个方面，制备亚片段包括进行扩增反应以由标记长片段制备扩增子。在一些实施方案中，所述扩增反应是PCR。在一些实施方案中，每个扩增子包含来自每个相邻导入序列的标签以及在相邻引入序列之间的标记长片段的区域。

在一些实施方案中，步骤(c)包括形成多个标记亚片段，各包含标签转座子的一部分和长DNA片段的一部分。在一些实施方案中，标记转座子的一个末端或其附近包含标签序列，该标签序列与另一个末端或其附近的标签或序列相同。

在一个方面，标记亚片段使用退火至含标签序列内的一个或更多个序列上的一个或更多个引物通过扩增形成。

在一个方面，所述方法包括：(i)提供引物，其各包含标签序列和随机的探针序列；(ii)通过其各自的探针序列使引物退火至长DNA片段上；以及(iii)延伸引物以形成多个标记亚片段。在一些实施方案中，步骤(i)包括：使多个拷贝的共有接头寡核苷酸退火至多个多联体或珠子中每一个上的标签序列上，该标签序列不同于其它多联体或珠子上的标签序列；和退火该拷贝至多个不同的随机探针序列上；以及延伸拷贝以形成所述引物。在一些实施方案中，切口或间隔的形成以及标签序列从多联体或珠子中释放出来是在相同的反应混合物中进行的。

在一个方面，标记亚片段是通过在相同含标签序列中存在的两个条形码之间的裂开而形成。

在本发明的一个方面，单个标记亚片段的序列是通过杂交测序、连接测序、合成测序、单分子测序、光学序列检测、电磁序列检测或电压变化序列检测获得的。

在一些实施方案中，步骤(e)中的组合包括测定(d)中获得的源自相同的长DNA片段的序列，如果所述序列包含相同的标签序列的话。在一些实施方案中，步骤(e)中的组合包括识别出作为靶核酸中的相邻序列的序列对，如果所述序列对包含相同的标签序列的话。

在本发明的方面，所述方法包括确定所述基因组的单倍型。在本发明的方面中，所述方法包括基因组的甲基化分析。在本发明的方面中，所述方法包括测定癌细胞中的拷贝数变异。在本发明的方面，所述方法包括移植前基因诊断。

在本发明的方面中，所述靶核酸是生物体的基因组DNA。在一些实施方案中，所述基因组DNA来自植物或动物。在一些实施方案中，所述动物是哺乳动物。在一些实施方案中，所述动物是人。

在一个方面，本发明提供了用于一个或更多个靶核酸分子的序列分析的方法，包括：(a)制备靶核酸的单个标记长片段的亚片段的群体，其中所述标记长片段包含靶核酸序列和多个散在标签序列，其中大多数亚片段包含靶核酸序列和至少一个标签序列；(b)获得单个的标记亚片段的序列，其中所获得的序列包括靶核酸序列和至少一个标签序列；(c)合并(d)中获得的序列以制备组装的靶核酸序列，其中所述合并包括：(i)测定(d)中获得的源自相同的长DNA片段的序列，如果所述序列包含相同的标签序列，和/或(ii)识别出作为靶核酸中的相邻序列的序列对，如果所述序列对包含相同的标签序列。

在一个方面，本发明提供了用于一个或更多个靶核酸分子的序列分析的方法，包括：(a)获得靶核酸的标记长片段的亚片段的群体，其中所述标记长片段包含靶核酸序列和多个散在标签序列，其中大多数亚片段包含靶核酸序列和至少一个标签序列；(b)获得单个的标记亚片段的序列，其中所获得的序列包括靶核酸序列和至少一个标签序列；(c)合并(d)中获得的序列以制备组装的靶核酸序列，其中所述合并包括：(i)测定(d)中获得的源自相同的长DNA片段的序列，如果所述序列包含相同的标签序列，和/或(ii)识别出作为靶核酸中的相邻序列的序列对，如果所述序列对包含相同的标签序列。

在一个方面，本发明提供了用于一个或更多个靶核酸分子的序列分析的方法，包括：(a)由靶核酸的标记长片段的亚片段获得序列读数，其中作为获得序列读数的来源的亚片段包含靶核酸序列和标签序列；(b)组装所述序列读数以制备组装的靶核酸序列，其中所述组装包括基于对应于相邻靶序列对的读数对中的共有标签序列对的存在组装相邻的靶序列。

在一个方面，本发明提供了对靶核酸进行测序的方法，包括：在单个反应容器中合并(i)多个靶核酸长片段和(ii)多核苷酸群体，其中每种多核苷酸包含标签并且大多数多核苷酸包含不同的标签；将来自所述多核苷酸群体的含标签序列引入到大多数所述的长片段以制备标记长片段，其中所述各标记长片段在选定的平均间距内包含多个含标签序列，并且各含标签序列包含标签。在一个方面，本发明提供了用于靶核酸分子的序列分析的方法，包括：(a)合并多个靶核酸长DNA片段与含标签序列的群体；(b)制备标记长片段，其中各标记长片段包含靶核酸序列和多个散在标签序列，其中单个标记长片段的多个散在标签序列可以相同或不同。在一些实施方案中，步骤(a)和(b)在单个管或混合物中进行。在一个方面，所述方法包括(c)由各标记长片段制备多个亚片段，其中所述标记亚片段各包含一个或更多个标签序列。

在一个方面，本发明提供了对靶核酸进行测序的方法，包括：在单个反应容器中合并(i)多个靶核酸长片段，和(ii)多核苷酸群体，其中各多核苷酸包含标签并且大多数多核苷酸包含不同的标签；将来自所述多核苷酸群体的含标签序列引入到大多数所述的长片段中以制备标记长片段，其中各标记长片段在选定的平均间隔内包含多个含标签序列，并且各含标签序列包含标签；由各标记长片段制备多个亚片段，其中各亚片段包含一个或更多个标签；对所述亚片段进行测序以制备多个序列读数；将大多数序列读数分配至相应的长片段；以及组装所述序列读数以制备组装的靶核酸序列。在一些实施方案中，制备所述亚片段包括进行扩增反应以由各长片段制备多个扩增子。在一些实施方案中，每个扩增子包含来自各相邻引入序列的标签与在相邻引入序列之间的长片段的区域。在一些实施方案中，所述方法包括将长片段与过量的含标签序列群体合并。在一些实施方案中，所述方法包括在适于将含标签的单序列引入到大多数长片段中的条件下将长片段与含标签的溶液合并。在一些实施方案中，所述方法包括在适于将不同的含标签的序列引入到大多数长片段中的条件下将长片段与含标签的溶液合并。在一些实施方案中，含标签序列的群体包括珠子群体，其中各珠子包含多个拷贝的含标签单序列。在一些实施方案中，所述含标签序列的群体包括多联体的群体，各多联体包含多个拷贝的含标签单序列。在一些实施方案中，所述含标签序列包含转座子末端，所述方法包括在适于将含标签序列转座到各长片段中的条件下将长片段和含标签序列合并。在一些实施方案中，所述含标签序列包含发夹序列。在一些实施方案中，所述靶核酸是复杂核酸。在一些实施方案中，所述靶核酸是生物体的基因组。在一些实施方案中，所述方法包括确定基因组的单倍型。在一些实施方案中，所述含标签序列的群体包括至少10000个不同的标签序列。在一些实施方案中，所述含标签序列的群体包括至少100000个不同的标签序列。

在一个方面，本发明提供了包含至少10³个不同含标签的核酸元件以及(i)基因组DNA和(ii)结合所述含标签的核酸元件的引物中至少一种的组合物。在一些实施方案中，所述组合物包含基因组DNA的至少5个基因组当量。在一些实施方案中，所述组合物包含基因组DNA和引物两者。在一些实施方案中，所述组合物包含含有基因组核酸序列和多个散在标签序列的标记长片段。

在一个方面，本发明提供了包含含有10³个或更多个不同条形码或克隆条形码源的文库的试剂盒：i)与转座子末端以及任选的接头序列缔合的条形码文库；ii)克隆条形码文库，任选地含有接头序列，其包含多个10⁴个或更多个不同克隆条形码源；iii)包含单体的多联体文库，其中所述单体包含条形码；iv)适用于滚环扩增的模板文库，其中所述模板包含(iii)中所述的单体；和/或v)发夹寡核苷酸文库，各寡核苷酸包含两个拷贝的条形码序列，其中所述文库包含多个至少约10⁴个条形码。在一些实施方案中，所述试剂盒包含选自转座子、聚合酶、连接酶、核酸内切酶和外切核酸酶的酶。在一些实施方案中，所述试剂盒包含至少约10⁴、至少约10⁵、至少约10⁶或至少约10⁷个不同的条形码。在一些实施方案中，所述试剂盒包含至少约10⁴、至少约10⁵、至少约10⁶或至少约10⁷个不同条形码或克隆条形码源。在一些实施方案中，所述文库成员包含用于引物结合的一个或两个共有序列。在一些实施方案中，所述试剂盒包含退火至含标签序列内的一个或更多个序列的一种或更多种引物。

通过下面的描述，本发明的其它方面将变得显而易见。

附图说明

图1A和1B示出了利用转座子介导的条形码对靶核酸长片段进行标记和分段的方法。

图2A和2B示出了利用发夹介导的条形码对靶核酸长片段进行标记和分段的方法。

图3示出了对靶核酸长片段进行转座子介导的标记和分段的方法。

图4A示出了利用标记接头对靶核酸长片段进行标记的方法。切口酶和克列诺酶3-5’核酸外切酶(不含dNTP)用于沿长双链DNA构建随机位点，用于连接3’共有接头。利用任何其它切口酶和/或核酸外切酶活性均可得到相似的结果。加入含有多个拷贝的标签并与3’共有接头互补的DNB或珠子，并用限制性内切酶分段。DNB或珠子靠近双链DNA，因此大多数标签拷贝不会散开，而是与3’接头杂交。长双链DNA和DNB或珠子都可以在一个末端被标记以增强相互作用，如果有必要的话。引物延伸产生标记的基因组DNA片段。其它的引物延伸产生可被连接的双链DNA以及PCR扩增和测序。电子组装(in-silico assembly)成长DNA片段与图3相似。

图4B示出了利用标记接头对靶核酸长片段进行标记的替代方法。

图4C和4D示出了利用标记接头对靶核酸长片段进行标记的又一个可替代的方法。

图4E和4F示出了利用长DNA片段的越来越短的区域构建一系列标记亚片段的方法。

图4G示出了利用可控的切口平移对靶核酸长片段进行标记的方法。

图5A和5B示出了测序系统的实例。

图6示出了可用于测序仪和/或计算机系统的计算装置或可与测序仪和/或计算机系统组合使用的计算装置的实例。

图7示出了MT算法的一般体系结构。

图8示出了附近杂合SNP的成对分析。

图9示出了对假设和假设分数分配进行选择的实例。

图10示出了图构造。

图11示出了曲线图优化。

图12示出了重叠群序列比对。

图13示出了亲本辅助通用定相。

图14示出了天然重叠群的分离。

图15示出了通用定相。

图16示出了利用MT进行错误检测。

图17示出了减少假阴性数的方法的实例，其中可能进行可信的杂合SNP读出，尽管只有少数读数。

具体实施方式

如本文和所附权利要求书中所用的单数形式“一个”、“一种”和“所述”包括复数形式，除非上下文另有明确说明。因此，例如，提及“一种聚合酶”是指一种酶或这类酶的混合物，提及“所述方法”包括提及本领域技术人员公知的等同的步骤和/或方法等等。

除非另有定义，否则本文使用的所有技术和科学术语具有相同的含义，如本发明所属领域中普通技术人员通常理解的那样。本文提及的所有出版物均通过引用并入本文，用于描述和公开在出版物中描述的并且可与当前描述的本发明组合使用的设备、组合物、制剂和方法的目的。

当以数值范围提供时，应当理解的是在该范围的上限和下限之间的每个中间值至下限单位的十分之一(除非上下文另有明确规定)和任何其它所述的范围内的所述值或者中间值都涵盖在本发明内。这些较小范围的上限和下限可独立地包含在较小范围内，也落在本发明内，服从于所述范围内任何具体排除的界限。当所述范围包括一个或两个界限时，不包含这两个界限中任何一个的范围也落在本发明中。

在下面的描述中，阐述了许多具体细节以提供对本发明的更全面的理解。然而，对于本领域技术人员而言将显而易见的是，可以在没有一个或更多个这些具体细节的情形下实施本发明。在其他情形下，为了避免模糊本发明，未描述本领域技术人员众所周知的特征和步骤。

虽然主要参照具体实施方案描述了本发明，但是当阅读本发明公开内容时，对于本领域技术人员而言还设想其它实施方案将变得显而易见，并且这样的实施方案旨在被包括在本发明的方法中。

除非另有说明，否则本发明可以采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学中落在本领域技术范围内的常规技术和描述。这样的常规技术包括聚合物阵列合成、杂交、连接和利用标记物进行杂交检测。合适的技术的具体说明可参考下文实施例。然而，其它相同的常规方法当然也可以使用。这些常规的技术和描述可见于标准实验室手册，例如Genome Analysis:A Laboratory Manual Series(Vols.I-IV),Using Antibodies:A Laboratory Manual,Cells:A Laboratory Manual,PCR Primer:A Laboratory Manual,and Molecular Cloning:A Laboratory Manual(allfrom Cold Spring Harbor Laboratory Press),Stryer,L.(1995)Biochemistry(4thEd.)Freeman,New York,Gait,“Oligonucleotide Synthesis:A Practical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,Principles ofBiochemistry 3rd Ed.,W.H.Freeman Pub.,New York,N.Y.以及Berg et al.(2002)Biochemistry,5th Ed.,W.H.Freeman Pub.,New York,N.Y.，所有这些为了所有目的在此通过引用整体并入本文。

概况

根据本发明的一个方面，提供了用于对靶核酸或多核苷酸包括但不限于复杂核酸的单个长片段进行多重标记的方法。通过将标签或条形码引入到每个长片段的多个位点中的方法对靶核酸或多核苷酸的长片段进行标记。原则上，各片段可能其中已引入一个独特的标签(片段特异性标签)或插入多个标签的独特模式(片段特异性标记模式)的多个拷贝。然而，这不是必需的。如下面所讨论的，在一些实施方案中，一些长片段可能没有插入标签。此外，在一些实施方案中，长片段可能已插入多于一个不同的标签，而两个或更多个片段可能已插入相同的标记。

“长片段”是长度大于10kb，更通常长度大于20kb，甚至更通常长度大于50kb，并且更通常大于100kb或更长的多核苷酸。就单倍型而言，100kb或更长的长片段是特别有用的。

标记后，制备长片段的亚片段。原则上，每个亚片段可包含至少一个标签。再次，这不是必需的。如下面所讨论的，在一些实施方案中，一些亚片段可以未插入标签。

通常，含标签的亚片段被扩增(例如通过PCR)。然后对所述亚片段(包括是各亚片段一部分的标签)测序。标签序列允许将从各亚片段获得的序列数据分配给作为亚片段来源的长片段。这有利于序列映射和组装以及等位基因(或hets)按顺序进入靶核酸的单倍型中。

将条形码附着或插入到长DNA片段中可以单一混合物或容器(例如单管或多孔板中的单孔)中进行并且该过程可以是自动的。利用MT，其中进行标记的单一混合物包含多于一个基因组当量。在多个不同的实施方案中，所述混合物可包含至少5个基因组当量、至少10个基因组当量、至少25个基因组当量、至少50个基因组当量、至少100个基因组当量、至少500个基因组当量或至少1000个基因组当量，例如5-20个基因组当量，例如5-100个基因组当量，例如50-1000个基因组当量。

在一些应用中，单个细胞可以在单一MT混合物中进行分析，仅提供两条互补链(即两个基因组当量)，用于区分天然变异与通过DNA加工例如亚片段扩增引入的错误。

根据一个实施方案，大多数亚片段或60％、70％、80％、90％或更多或基本上所有的亚片段均包含标签序列。在一个方面，本发明提供了利用克隆条形码对长DNA片段进行标记的系统。正如下面描述的，“克隆条形码”是指具有共有序列并且物理上彼此缔合(而不是物理上分开并且例如可以自由分散在溶液中)的多个条形码或标签。在该方法中，克隆标签源可以与单个长DNA片段缔合。结果是多个可识别出的克隆的标签或条形码可与一个DNA片段缔合，而不是与其它的都缔合。克隆的标签或条形码可以以多联体、树枝状聚合物形式(但不限于此)保持在一起，或在载体上，例如聚合物(例如DNA片段)或微珠。利用克隆条形码能以相对适中的费用制备几百万种不同的条形码，在“单管”MT中使用。

在一个方面，MT包括：(a)提供(i)克隆条形码文库和(ii)长DNA片段；(b)制备(通过切口-间隔，随机引物延伸或转座子插入)长DNA片段用于连接条形码(例如在长DNA片段上的预定平均间隔内)；(c)连接每个长DNA分子的多个条形码拷贝(例如在预定的平均间隔内)；(d)由利用相同条形码拷贝进行标记的长DNA片段制备(通过引物延伸或PCR或DNA分段)多个短DNA片段。在步骤(c)之前，由例如从多联体(DNB)或支持物(即珠子或其它载体)来制备(释放)单个条形码拷贝。

在另一个方面，MT包括：(a)提供(i)条形码文库和(ii)长DNA片段；(b)将所述条形码序列掺入到长DNA序列(例如在长DNA片段上的预定平均间隔内)中；(c)制备多个亚片段，其中来自相同的长片段的序列，例如在长片段序列中彼此相邻的序列，利用相同的条形码拷贝进行标记。在一种方法中，含有条形码的复制-粘贴转座子文库用于获得每个长DNA片段的多个条形码拷贝。含有连接到长DNA片段末端的条形码的复制-粘贴转座子能在所述长片段的多个地方插入条形码拷贝及缔合的序列。

为了通过少数细胞对个体人类基因组进行准确的临床测序和单倍型分析，长基因组片段(～100kb或更长)是优选的，尽管也可以使用更短的片段。假定是100kb片段，人类基因组的每个细胞将含有约6×10⁴个片段，并且约18个细胞将产生约100万个片段。12个碱基(12聚体)或更长的DNA标签具有足够的序列多样性(1600万至超过十亿)以利用独特的标签标记每个片段。

我们提供了几种举例说明的方法用于将相同的长标签拷贝与无任何物理间隔(例如乳液中的液滴)的均相反应中约100kb基因组片段的数百个约1kb的子区域缔合。应当认识到，MT不限于这些特定的方法。

在本发明的一些实施方案中，这样的方法导致大多数(例如50％)或60％、70％、80％、90％或更多的靶核酸长片段被多个包含相同标签序列的含标签序列标记。这样的方法尽可能减少被不同的标签序列标记，例如：选择含标签序列与长片段的适当的比例，选择适当的稀释或DNA浓度；尽可能减少初始标记过程后的分子运动，例如通过在低温下混合DNA片段、含标签序列和酶以及缓冲液，等待液体运动停止，然后提高混合物的温度酶以激活酶过程来实现；通过共价或非共价结合将含标签单序列与单个长DNA片段相连接；以及其它技术。有几种方法使含有多个拷贝的特定含标签序列的单个珠子或纳米球与单个靶核酸长片段相附着或相连。例如，通过末端转移可将均聚物序列(例如和A-尾)加入到长片段中，或者含有选定序列的接头可连接至长片段的一个或更多个末端。互补序列可被加入到所述末端或包含在含标签序列或纳米球中，使得在选定的适当条件下利用长片段上相应的互补序列使含标签序列或标签组件退火。优选地，长片段可退火至仅一个含标签序列或标签组件上。

MT避免复杂核酸片段亚克隆到载体中并随后在宿主细胞中复制或者需要分离单个染色体(例如中期染色体)。它也不需要将靶核酸片段分成等份试样。MT可以完全自动化，使其适用于高通量、具有成本效益的应用。利用相同的独特标签标注长基因组片段(～100kb或更长)的～1kb子区域具有许多应用，包括二倍体或多倍体基因组的单倍型分析，有效的从头测序基因组序列组件，解析基因组重复序列，准确的变体读出和错误修正。

MT的优点包括：

·几乎无限量的单个DNA片段可以被独特标记，例如，为从头测序组件提供最多信息。

·MT可以在单个反应容器中进行(例如管、多孔板的孔等等)，步骤少并且易于放大和自动化；不需要大量的等份试样或纳米微滴。

·一种MT方法，其采用切口和引物-连接过程，使用双链DNA的两条链，从而每个片段的序列覆盖率倍增(相同的读数-长度的较长配对)

·MT降低计算要求和序列映射和组装的相关成本。

·实质性减少错误或有问题的碱基读出，这可能是由于当前的测序技术引起的，包括例如系统误差，其是指定测序平台或DNA扩增引入突变的特征。因此，MT提供了高度精确的人类基因组序列或其它复杂核酸序列，从而使对所检测变体的后续确认的需求最小化并便于利用人类基因组测序用于诊断应用。MT可用作任何已知测序技术的预处理方法，包括短读数和较长读数的方法。例如，1-10kb的标记亚片段可利用单个分子的方法进行测序，而不需要制备配对，并用在精确的基因组组装或基因变异检测中，尽管原始读数的错误率高。MT还可以与各种类型的分析相组合，包括例如转录组的分析、甲基化组的分析等等。因为它需要非常少的输入DNA，因此MT可用于一个或少量细胞的测序和单倍型分析，它可以尤其用于癌症、产前诊断和个体化用药。这可有利于家族遗传疾病等的鉴定。由于能够区分来自二倍体样品中的两组染色体的读出，MT还能可信度更高地读出低覆盖率的变体和非变体的位置。MT的其它应用包括对癌症基因组的广泛重排的解析和可选的剪接转录物的全长测序。

MT可用于处理和分析复杂核酸，包括但不限于基因组DNA，即纯化的或未纯化的，包括细胞和组织，其被轻轻破碎以释放这种复杂核酸而不进行剪切并使这种复杂核酸过度分段。

在一个方面，例如MT产生约100-1000kb或更长的虚拟(virtual)读数长度。

除了适用于所有测序平台之外，基于MT的测序适用于各种应用，包括但不限于癌症基因组的结构重排研究、全甲基化组分析(包括甲基化位点的单倍型分析)、和从头组装应用，该从头组装应用用于个体人类基因组，宏基因组学或新颖的基因组测序，甚至用于复杂多倍体基因组(例如在植物中发现的那些)的个体人类基因组，宏基因组学或新颖的基因组测序。

MT提供刚好相对于亲本或相关染色体的共有序列而言获得个体染色体的真实序列的能力(尽管它们的高相似性以及长重复序列和区段性重复的存在)。为了形成这种类型的数据，通常在长DNA范围内创建序列的连续性。

本发明的另一方面包括有效利用MT数据的软件和算法，用于全染色体单倍型和结构变异映射和假阳性/阴性误差校正。

可控的引物延伸和可控的切口平移可用于使通过标记DNA初始扩增产生的克隆片段的末端随机化。

一个或更多个下述特征可能是MT协议的一部分：

1)通过选择合适浓度(即适当的稀释度)的克隆条形码和长DNA片段使得小于0.1％、小于1％或小于10％的长DNA片段被多个条形码序列标记，从而使其中多于一种的不同条形码被插入到每个长DNA片段的情形最小化。最佳的稀释度将取决于多种因素，例如可用的靶DNA量。例如，当不限制DNA(例如使用血液或唾液样品)时，长DNA片段相对于条形码可过量使用，而当原材料被限定于少数细胞并且期望标记每个片段时，条形码相对于DNA可过量使用。当不限制DNA(例如反应混合物中含有大于20、大于50、大于100或大于500个基因组当量)时，没必要最佳标记每一个片段。可替代地，牺牲一些产率以尽可能减少DNA片段被不同条形码标记可能是有利的。在一种方法中，DNA片段相对于克隆条形码过量存在。相对于不同的克隆条形码的数量而言过量使用DNA片段增加了仅一个或几个DNA片段靠近任何一个条形码进行标记的可能性。还允许克隆条形码之间具有更大的空间以尽可能减少每一个DNA片段具有两个不同的条形码的情形。过量约3倍、10倍、30倍、100倍或甚至300倍可用在不同的反应构型中。可使用大于10000、大于100000或者大于1000000个不同的条形码。

2)凝胶状介质(例如低熔点琼脂糖凝胶块或其它聚合物，例如PEG)可用于尽可能减少液体运动，限制不同克隆条形码和不同长DNA分子相混合和相互作用。

3)利用预间隔的DNA，其中，在DNA与克隆条形码混合之前，例如通过转座子在DNA中引入间隔并备用于条形码连接。在这种方法中，制备被间隔的DNA(例如通过切口和间隔)，随后加入条形码并在预间隔的DNA上进行标记(连接)步骤。这种方法降低了反应混合物的酶复杂性。

4)利用2-8个简并碱基使间隔中接头-条形码连接至3’DNA末端而不需与靶DNA或5’末端互补；和/或

5)长DNA间隔，释放单个条形码拷贝并使条形码附着到DNA上是作为一个反应(即开始孵育之前所有均需要存在于混合中的酶、克隆条形码和长DNA)进行的。或者，只有条形码释放和附着是作为一个反应进行的；DNA间隔是作为前一步骤进行的。

6)当使用复制-粘贴转座子时，DNA浓度应适当低以尽可能减少长DNA片段之间的“跳跃”转座子。含有条形码序列的复制-粘贴转座子的分子提供了长DNA片段内而不是其它DNA片段内的克隆条形码，如果这样的DNA片段分隔开足以防止转座子从一个DNA跳跃至其它DNA上的话。

在一种方法中，少量的DNA(例如来自10个细胞的)在单个容器中标记。克隆标签与小体积DNA相互作用以使几乎所有长DNA片段将出现在克隆条形码(DNB或含有DNB的珠子或含有克隆扩增接头-条形码寡核苷酸的珠子)中的可能性高。过量DNA结合能力由克隆条形码和缔合的载体提供。DNA结合能力由DNB或珠子或其它载体的数量以及每个DNB或珠子或其它载体可结合的DNA片段的数量来决定。举例而言，10个人细胞基因组相当于100万个60kb片段。如果使用过量的克隆条形码DNB，例如1000万个DNB，这将相当于每约10μl反应液中DNB数量标记约1000万个片段(如在使用过量100倍的DNA或10亿个片段的实施例中所述的)。要注意的是，即使对于含有过量DNA并需要标记1000万个片段的情形，如果载体可以结合多个DNA片段，那么约10⁶个克隆标签可能是足够的。

有限量的DNA(例如3-30个人细胞)的几乎所有长DNA片段均可利用每个长DNA片段中多个拷贝的相同条形码进行标记。可以这样做：(a)提供>10K或100K或1M的克隆条形码和少量的长DNA片段，其中“克隆条形码实体”的总DNA结合能力大于所提供量的DNA；(b)使几乎所有高浓度的长DNA片段与克隆条形码或改性克隆条形码实体的载体缔合(对于某些应用而言，每个克隆条形码实体具有<100kb、<300kb、小于1MB的有限的DNA结合能力)；(c)在条形码切口/释放和DNA标记之前稀释或间隔克隆条形码实体(尽可能减小每个DNA具有大于一个的不同条形码的情形)；(d)利用来自缔合的克隆条形码实体的条形码拷贝标记长DNA片段(以预定的平均间隔)。在一些实施方案中，较长序列读数例如2×100-300个碱基或整个1-3kB的亚片段是优选的，从而使每个长片段中更多的碱基被读数。

使用过量的克隆条形码微粒或过量的总结合能力可帮助确保几乎所有DNA片段被使用并且要么(i)多于一个片段结合至相同的克隆-条形码载体上是罕见的，要么(ii)预定的平均数量的片段结合至相同的克隆条形码实体上。克隆的或合成的条形码可附着在表面上，使得在DNA结合至条形码区域上之后不用稀释。结合间隔的克隆条形码的表面可如下布置：1cm²芯片含有10⁶个不同标签，结合至尺寸为～0.5-2μm和间隔为10um的区域上，总结合能力>66pg DNA，优选>100pg、大于300pg或>为1ng。DNA负载在10个细胞中，体积为5-10μl。孵育时间适当，并且任选混合的最多DNA片段可结合至克隆条形码区域上。这种芯片上的条形码可以通过寡核苷酸合成制备，而不是通过克隆方法制备。对表面进行构建使得长DNA不会附着在区域之间的表面上。

本发明提供了用于先进DNA条形码的产品。这样的产品包括条形码DNA文库(任选地在单个反应中制备)，其包含>10K、>100K、>1M或>10M个条形码并且平均>15％、>20％、>25％、>30％、40％或>50％的长DNA片段序列表示为条形码片段(任选地，所述长DNA片段未扩增)。所述长片段表示为标记相同的条形码拷贝的短DNA片段。标记的DNA片段可以扩增并且任选地片段的一个或两个末端均被随机化。少到100、50、30、20或10个或更少的细胞被用于制备所述文库。

制备长核酸片段

靶核酸(包括但不限于复杂核酸)可利用常规技术进行分离，如上文所引用的Sambrook和Russell的分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)中所公开的。在一些情形下，特别是如果少量核酸被用在特定的步骤中，那么将有益的是提供载体DNA，例如，不相关的圆形的合成双链DNA，其与样品核酸相混合并一起使用，无论何时仅少量的样品核酸可被利用并且通过非特异性结合至例如容器壁上等等而有损失的危险。

根据本发明的一些实施方案，基因组DNA或其它复杂核酸是通过任何已知的方法由单个细胞或少量细胞进行或不进行纯化而获得的。

长片段是本发明的方法所希望的。基因组DNA的长片段可以通过任何已知的方法从细胞中进行分离。用于从人类细胞分离基因组DNA长片段的方案在例如Peters等人的Nature 487:190-195(2012)中进行了描述。在一个实施方案中，将细胞裂解并利用温和的离心步骤使完整的细胞核沉淀。然后通过蛋白酶K和RNA酶消化数小时释放基因组DNA。可以例如通过透析一段时间(即2-16小时)和/或稀释等处理该物质以降低剩余细胞废物的浓度。因为这样的方法不需要采用许多破坏性过程(例如乙醇沉淀、离心和涡旋)，所以所述基因组核酸仍大部分完整，得到的大多数片段的长度大于15万个碱基。在一些实施方案中，所述片段的长度为约0.5万个碱基至约75万个碱基。在进一步的实施方案中，所述片段的长度为约15万个碱基至约60万个碱基、约20万个碱基至约50万个碱基、约25万个碱基至约40万个碱基以及约30万个碱基至约35万个碱基。可用于单倍型分析的最小片段包含至少两个hets(约2-5kb)；没有最大理论尺寸，但片段长度可以通过由操纵初始核酸制备而导致的剪切进行限制。

在其它实施方案中，以尽可能减少DNA被容器剪切或吸收的方式进行分离和处理长DNA片段，该方式包括例如在琼脂糖凝胶块或油中分离细胞，或者使用具有特殊涂层的管和板。

控制使用5’核酸外切酶(扩增之前或期间)可以促进原始DNA从单个细胞进行多次复制，并因此通过复制拷贝而尽可能减少早期错误的传播。

来自单个细胞的片段化DNA可通过连接接头和单链引发突出端并利用接头特异性引物和phi29聚合酶复制两份以由各长片段制备两份拷贝。这可以由单个细胞产生四个细胞价值的DNA。

根据本发明的一个实施方案，利用比测序所需片段更多的片段开始能获得足够的序列覆盖率并且仅标记仅一部分包含有限数量的含标签序列或者标签组件的长片段(其包括一个标签序列的许多或许数百个拷贝)以增加独特标记长片段的可能性。未标记亚片段缺乏提供引物结合或捕获寡结合(capture-oligo binding)并可能在下游加工时被消除的导入序列。这样的标签组件包括例如通过滚环复制构建的含标签序列的端至端多联体(DNA纳米球)、连接含标签序列的许多拷贝的珠子，或其它实施方案。

根据另一个实施方案，为了获得均匀的基因组覆盖率，在样品含有少量细胞(例如1、2、3、4、5、10、10、15、20、30、40、50或100个细胞，例如来自微活检或循环肿瘤或胎儿的细胞)的情况下，从所述细胞获得的所有长片段均被标记。

保留片段末端

一旦分离出DNA，避免丢失每个片段末端的序列将是有益的，因为这样的物质的丢失会导致最终的基因组组件中存在间隔。在一个实施方案中，使用不常用的切口酶避免序列丢失，所述切口酶在彼此约100kb的距离构建聚合酶起始位点，例如phi29聚合酶。由于所述聚合酶构建新的DNA链，取代了旧链，从而在聚合酶起始位点附近构建重叠序列。结果，很少序列缺失。

可以利用克隆条形码包括合成制得的克隆条形码进行MT

术语“条形码”、“标签”、“条形码序列”、“标签序列”及其显而易见的改变可互换使用，具有本领域中的标准含义，并且通常指可识别出的(通常是独特的)或与靶序列异源的核苷酸序列。在标签的群体或文库中，独特的条形码有时与共有接头序列缔合，在条形码的一侧或两侧，可以由所述群体或文库的许多或所有成员共享。

“标记”是指使标签序列缔合于(例如插入)多核苷酸。标记长片段包括将包含标签的多个拷贝序列(接头、转座子等)引入到长片段中。这样的“导入序列”在片段上分隔开。通常，对相邻的导入序列之间的平均间隔进行选择以允许构建长片段的含标签亚片段。亚片段可以通过任何合适的方法制备，例如通过利用相邻导入序列中含有引物结合位点的引物进行PCR扩增；通过限制性消化；或通过本领域已知的其它方法制备。随后，通过对标记长片段的亚片段进行测序生成序列读数。这样的序列读数可被分配到个体长片段中，这样的序列读数最终来源于该个体长片段。

在MT的一些实施方案中，使用克隆标签或条形码源。“克隆”意指包含(即含有)相同序列并物理上彼此缔合(而不是分开的并可自由地扩散在溶液中)的标签或条形码，使得克隆标签源可与单个长DNA片段缔合。结果是多个可识别出的克隆标签或条形码可与一个DNA片段缔合，而不与其它片段缔合。所述克隆标签或条形码可以多联体、树枝状聚合物的形式保持在一起，或保持在载体例如聚合物(例如DNA片段)或微珠上。本发明公开内容中还用的术语“微粒”、“克隆条形码源”是指多个拷贝的标签序列的递送系统。

克隆条形码源的实例是多联体，其单体包含条形码和任选的其它缔合的序列，例如转座子序列或限制酶识别位点。在一种方法中，所述多联体是利用RCR制备，例如如下文所述。所述多联体可以是单链的或双链的。可例如通过单链多联体的引物延伸制备双链多联体。序列可以通过例如使用以下处理从多联体中释放出来：(1)用识别各单体中位点的限制性或切口酶处理；(2)利用转座子处理；(3)利用例如各单体中的引物结合位点进行扩增(例如PCR扩增)；(4)将切割剂(例如限制性或切口酶的化学基团或结合位点，其在结合位点下游切割)递送至完全或部分互补的寡核苷酸上，或(5)利用非特异性核酸内切酶随机分段(这将产生仅一小部分可用的条形码)。

克隆条形码源的另一个实例是上面固定有多个寡核苷酸的微粒(例如珠子或其它载体结构)。在一种方法中，所述寡核苷酸例如通过可切割的连接体共价连接到所述载体上。在另一种方法中，所述寡核苷酸非共价连接到所述载体上。所述寡核苷酸可通过任何合适的方法(例如利用释放附着的寡核苷酸片段的限制性酶处理)从所述载体中释放出来。可替代地，连接体可被切割。在一种方法中，连接体可以是含有可通过酶或化学方式进行切割的修饰碱基(例如尿嘧啶)的核酸。可以使用任何数量的解离寡核苷酸的方法。

还考虑的是，使用含有少数(例如2或3个)不同标签序列的来源，例如使用与“序列a”和“序列b”缔合的珠子。在这种情况下，应当认识到“序列a”和“序列b”将被插入到相同的长片段中，并且“序列a”和“序列b”在序列组装过程中将被同样处理。

制备克隆标签或条形码的来源

标签/转座子序列的多联体(例如DNA纳米球)

克隆标签(尤其是包含转座子序列或与其缔合的标签)的一个来源是多联体，其单体包含克隆序列。环状或环化(例如利用锁式探针)DNA模板可通过滚环复制(RCR)进行扩增。RCR利用高进行性phi29DNA聚合酶。新合成的链从所述环状模板中释放出来，从而产生包含许多头尾拷贝的环状DNA模板的长单链DNA多联体。所述多联体折叠成基本上球形的DNA，被称为DNA纳米球(DNB)。DNB的长度和DNA模板的拷贝数可以由RCR反应物的长度来控制。所述纳米球在溶液中保持彼此分开。

与珠子或其他载体缔合的标签/转座子序列

与多个拷贝的标签缔合的克隆条形码的来源例如珠子或其它载体可以通过乳液PCR或CPG(可控孔度玻璃)或通过制备含有多个拷贝的接头-条形码的其它微粒的化学合成制备。含标签的DNA序列的群体可以通过已知的方法通过PCR在油包水型(w/o)乳液中的珠子上进行扩增，参见例如Tawfik和Griffiths的Nature Biotechnology 16:652-656(1998)；Dressman等人的Proc.Natl.Acad.Sci.USA 100:8817-8820,2003和Shendure等人的Science 309:1728-1732(2005)。这导致每个珠子上含有许多拷贝的各含标签单序列。

用于制备克隆条形码源的另一种方法是在“混合和划分”组合方法中在微珠或CPG上通过寡核苷酸合成。使用该方法可以创建成组的珠子，各自含有条形码拷贝的群体。例如，为了制备所有的B₂₀N₁₅B₂₀，其中每个约十亿以每100个珠子上约1000+个拷贝数表示，平均来说，可以以约1000亿个珠子开始，在所有它们上合成B₂₀共有序列(接头)，然后将它们分在1024个合成柱中以在每一个柱中制备不同的五聚体，然后将它们混合并分在1024个柱子中以制备其它的五聚体，然后再重复一次完成N₁₅，然后将它们混合并在一个大柱子中合成最后的B₂₀用作第二接头。因此，在3050合成一个可制备与含有约10000亿个珠子(1¹²个珠子)的一个大的仿真PCR反应中相同的“克隆样”组条形码，因为只有1/10的珠子将会具有初始模板(其它9个将没有)以防止每个珠子中有两个模板含有不同的条形码。

标签特征

根据一个实施方案，使用含条形码或标签的序列，其包含两个、三个或更多个区段，其中一个例如是条形码序列。例如，引入序列可包含已知序列的一个或更多个区域和简并序列的一个或更多个区域，其用作条形码或标签。已知序列(B)可包括例如PCR引物结合位点、转座子末端、限制性内切酶识别序列(例如稀有的切割位点，例如Not I、Sac II、MluI、BssH II等)或其他序列。用作标签的简并序列(N)足够长，以提供不同的序列标签的群体，其等于或优选大于待分析的靶核酸片段的数目。

根据一个实施方案，含标签序列包含任何选定长度的已知序列的一个区域。根据另一实施方案，所述含标签序列包含选定长度的已知序列的两个区域，其侧翼为选定长度的简并序列的一个区域，即B_nN_nB_n，其中N可具有任何足以用于标记靶核酸长片段的长度，包括但不限于N＝10、11、12、13、14、15、16、17、18、19或20，并且B可具有任何长度，其容纳所需序列，例如转座子末端、引物结合位点等。例如，这样的实施方案可以是B₂₀N₁₅B₂₀。

在一个实施方案中，两个或三个段设计被用于用来标记长片段的条形码。通过使不同的条形码段连接在一起形成完整的条形码段或通过使用段作为寡核苷酸合成中的试剂而产生的组合条形码区段，这种设计使可能的条形码的范围更宽。这种组合设计提供了可能的条形码的较大范围，同时减少了制备所需的全尺寸条形码数。在进一步的实施方案中，每个长片段的独特标识是利用8-12个碱基对(或更长)的条形码来实现的。

在一个实施方案中，使用两个不同的条形码区段。A区段和B区段易于修饰成各自包含不同的半条形码序列以得到数千组合。在进一步的实施方案中，所述条形码序列被掺入到同一接头上。这可以通过将B接头分成两个部分来实现，各自包含通过用于连接的共有重叠序列隔开的半条形码序列。这两个标签组分各含有4-6个碱基。8个碱基(2×4个碱基)的标签组能独特地标记65000个序列。2×5个碱基和2×6个碱基的标签两者都可包括使用简并碱基(即“通配符”)以达到最佳的解码效率。

在进一步的实施方案中，每个序列的独特标识是利用8-12个碱基对的纠错条形码来实现的。为了举例说明而不是限制，条形码的长度可以为5-20个信息碱基，通常为8-16个信息碱基。

标记单个长片段

本发明的方法采用各种方法以沿靶核酸长片段(例如100kb或更长)在多个隔开位点引入多个拷贝的标签，而无需将长片段分成等份试样(如在长片段读数技术中)：整个过程可以在单个管或微量滴定板的单个孔中进行。

根据本发明的一个实施方案，标签是沿片段在约300bp至1000bp之间的间隔引入的。这个间隔可以更短或更长，这取决于后续处理例如文库构建和测序所需的片段的尺寸。标记后，可将长片段的每个亚片段和由其衍生的任何序列信息分配到单个长片段中。

含相同标签或条形码的长片段

根据本发明的一个实施方案，这样的方法导致大多数(例如50％、60％、70％、80％、90％或更多)靶核酸长片段被多个包含相同标签序列的含标签序列标记。可采取这样的步骤尽可能减少被不同的标签序列标记，例如：选择含标签序列与长片段的适当比例，选择适当的稀释或DNA浓度；尽可能减少初始化标记过程后的分子运动，例如通过在低温下混合DNA片段、含标签序列和酶以及缓冲液，等待液体运动停止，然后提高混合物的温度以激活酶过程来进行；通过共价或非共价结合和其它技术将含标签单序列与单个长DNA片段相连接。

含有独特的指纹的长片段

在本发明的其它实施方案中，除了尽可能使包含沿长片段在多个位置插入的单个标签序列的长片段的数量最大化之外，MT包括提供将包含不同序列的多个标签插在多个位置的条件，为每个长片段创建独特的模式或“指纹”，所述独特模式是通过插入所述不同序列标签而提供的。

用于标记单个片段的示例性方法如下文所述。

(1)利用转座子进行标记

MT利用转座子序列和/或转座酶的几种方法。任何合适的转座子/转座酶或转座子/整合酶系统均可用于引入标记转座子。实例包括体外Mu转座(Haapa等人，Nucl.AcidsRes.,27:2777-2784,1999；Savilahti等人，EMBO J.14:4893-4903,1995)；Tyl(Devine和Boeke,Nucl.Acids Res.,22:3765-3772,1994；国际专利申请WO 95/23875)；Tn7(Craig,Curr.Topics Microbiol.Immunol.204:27-48,1996)；TN 10和IS 10(Kleckner等人，Curr.Top.Microbiol.Immunol.204:49-82,1996)；Mariner(Lampe等人，EMBO J.15:5470-5479,1996)；Tcl(Vos等人，Genes Dev.,10:755-761,1996)Tn5(Park等人，TaehanMisaengmul Hakhoechi 27:381-389,1992)；P元素(Kaufman和Rio,Cell 69:27-39,1992)；Tn3(Ichikawa和Ohtsubo,J.Biol.Chem.265:18829-18832,1990)；细菌插入序列(Ohtsubo和Sekine,Curr.Top.Microbiol.Immunol.,204:1-26,1996)；逆转录病毒(Varmus和Brown,“Retroviruses,”in Mobile DNA,Berg and Howe,eds.,American Society forMicrobiology,Washington,DC,pp.53-108,1989)；和酵母逆转录转座子(Boeke,“Transposable elements in Saccharomyces cerevisiae,”in Mobile DNA,Berg andHowe,eds.,American Society for Microbiology,Washington,DC,pp.53-108,1989)。其它已知的转座子包括但不限于AC7、Tn5SEQ1、Tn916、Tn951、Tn1721、TN2410、Tn1681、Tn1、Tn2、Tn4、Tn6、Tn9、Tn30、Tn101、Tn903、Tn501、Tn1000(γ6)、Tn1681、Tn2901、AC转座子、Mp转座子、Spm转座子、En座子、斑点转座子(Dotted transposon)、Ds转座子、dSpm转座子和I转座子。可使用转座子末端和/或转座酶的修饰形式，例如Nextera^TM技术(EpicentreBiotechnologies,Madison,WI)中的经修饰的Tn5转座酶。

许多转座酶识别出不同的插入序列，因此应当理解的是基于转座酶的载体将包含由特定转座酶识别出的插入序列，所述特定转座酶还存在于基于转座酶的载体中。来自真核细胞基于转座子的载体的转座酶和插入序列可被修饰和包括使用。然而，非真核细胞的基于转座子的元件降低了接收者生物体(例如人受试者)中真核细胞转座酶将识别出原核细胞插入序列(所述转基因)的可能性。

第一种方法包括体外转座(参见图1A和1B)。使用标记转座子的群体21a、21b、21c、21d。标签转座子是DNA构建体，其包含转座子末端24和邻近的各末端、独特标签(条形码)的序列对22a、22b、22c、22d(两个末端附近的相同标签序列)和共有PCR引物结合位点23。转座子群体与靶核酸长片段1结合。转座酶的加入导致几个标记转座子在体外转座到长片段2中。每个长片段具有独特的转座子插入模式，并且每个插入转座子具有独特的标签序列(条形码)。此外，转座子的作用是在转座子的每个末端复制9bp碱基序列，其进一步区分每个插入转座子事件(可能被认为是“标记”的另一种形式)。

使用结合每个插入转座子的PCR引物结合位点23的引物进行PCR扩增。所得PCR扩增子3包含位于相邻转座子部分32a、32b、32c、32d之间的长片段部分31a、31b、31c、31d。扩增子的每个末端(即侧翼为靶片段、序列或长片段、序列)是相邻转座子的末端序列，包括转座子22a、22b、22c、22d的独特标签(条形码)序列。

对PCR扩增子进行测序之后，可能不但映射参照基因组的序列读数，假定这样是可行的，而且使用标签来构建重叠群以指导从头组装。每个序列读数42a至42h与标签序列22a、22b、22c、22d缔合。特定的标签序列(或标签模式，例如标签对或标签链)对应单个片段。因此，应当在靶核酸同一区域内映射相同片段的序列读数。一般情况下，两个不同的扩增子(例如31a和31b)具有来自其末端的1个转座子的相同独特标签22b，并因此在它们所来源的长片段中彼此相邻。

使用匹配的相邻条形码组装所述序列读数以创建长读数，各自包含标签序列21a至21d与初始片段42a、42b、42c、42d、42e部分的序列。序列读数是连续的或不连续的，具体取决于序列读数长度。如果分析长片段的多于一个的基因组当量(例如2、3、4、5、10或20个或更多个基因组当量)时，创建来自重叠长片段的序列读数之外的重叠群是明确的。

(2)利用发夹进行标记

该方法利用靶核酸1的长片段开始，所述长片段被变性以形成来自每个片段11、12的两个互补单链，参见图2A和2B。还使用形成发夹的寡核苷酸群体(25a、25b、25c、25d)，各包含环中的标签序列22a、22b、22c、22d，所述环的侧翼为PCR引物结合位点，并且每个末端都具有随机碱基(例如3-5个碱基)26a至26h的短延伸物。发夹寡核苷酸被退火2a至例如被约300-1000bp隔开的初始长片段的单链形式11上。每个长片段都具有独特模式的退火发夹。退火之后，利用没有链置换的5’→3’聚合酶填充2b相邻发夹之间的单链区，然后利用连接酶处理封上剩余切口2c。

使用与每个发夹条形码序列之间的PCR结合位点23结合的引物进行的PCR扩增3创建扩增子，该扩增子具有位于相邻发夹寡核苷酸的结合位点之间的长片段部分31a、31b、31c、31d。在每个末端，这样的扩增子包含来自相邻发夹寡核苷酸环的序列，包括寡核苷酸22a、22b、22c、22d的独特标签序列。以与上述方法(1)相同的方式，PCR扩增子末端的条形码序列可用于构建重叠群4以从头映射和组装。

(3)利用DNA纳米球或珠子上的转座子进行标记

本文讨论的这种方法和几种其它方法使用含有多个拷贝的相同标签序列的微粒(例如DNB或珠子)。在一些情况下，所述标签包含转座子序列。含有珠子的多核苷酸的关联是本领域中众所周知的并在上文进行了简要描述。同样地，DNA多联体(例如DNA纳米球或DNB)的制备是本领域中众所周知的并在下文进行简要描述。

图3中举例说明的方法使用可释放转座子序列的微粒15：例如被转座子序列覆盖的珠子，或者通过包含所述转座子序列的环状DNA(转座子纳米球)的滚环复制创建的转座子序列的多联体。如上述方法(1)，所述“转座子序列”是DNA构建体，其包含(i)转座子末端24和(ii)在选定的位置，转座子末端(每个转座子末端附近)、标签序列22(任选地，相同的标签序列可以在两个末端附近)之间的所述转座子序列31a至31e，和(iii)共有PCR引物结合位点23。

所述含转座子的珠子或纳米球15与双链靶核酸的长片段1相组合。对条件进行选择以促进仅一个标签组件即包含单个转座子序列的珠子或纳米球与每个长片段的相互作用。例如，在适当的稀释中，在大多数情况下仅一个珠子或纳米球15与每个长片段相互作用，因为扩散慢并且大多数转座子距离长片段不远。可替代地，所述转座子序列或所述转座子组件的另一个序列(例如连接到所述转座子序列或多联体的末端的接头；通过末端转移酶加入的均聚物序列)可用于通过杂交结合代表一个转座子分子的含有一个条形码序列的一个寡核苷酸上。加入转座酶时，发生转座(未示出)。在大多数情况下，每个片段接收多个拷贝的相同转座子序列。少数长片段可接收多于一个转座子的拷贝。另外，在少数情况下，含有特定标签的转座子可转座到多于一个的长片段中。

如在方法(1)中，使用结合每个插入转座子的PCR引物结合位点23的引物进行PCR扩增。所得PCR扩增子3(长度为约300bp至1000bp)包含位于相邻转座子之间的长片段31a、31b、31c、31d、31e的部分。在每个末端，这样的扩增子包含相邻转座子32a、32b末端的序列，包括转座酶部分32a和32b任一个或两个中的转座子22的独特标签序列(条形码)。对所述构建体进行扩增和测序。测序后，映射和组装序列读数42a、42b、42c、42d、42e。所述条形码22是特定长片段1的标签。

在此方法中，因为利用多个拷贝的单个转座子标记大多数长片段，所以所得扩增子的每个末端具有相同的标签。所述标签允许每个序列读数与相同的长片段缔合，尽管不可能单独基于所述标签序列的顺序创建重叠群，如方法(1)和(2)。如果多于一个的转座子被插入到单个长片段中，那么最可能的是插入到一个长片段中的所有转座子仅插入到那一个长片段中，而不是插入到其它片段中。结果，与每个插入标签缔合的序列读数一起紧密地映射在基因组(或其它靶核酸)中。即使不是这种情况并且相同的转座子跳跃到多于一个片段中，可插入这样的转座子的片段是不重叠的可能性高，在这种情况下，所得序列读数映射到基因组中广泛分开的区域中。映射和组装软件可解释这些事件，并且将所述序列读数正确地映射和组装到基因组序列中并使序列多态性(hets)顺序进入单倍型中。

(4)利用标记接头进行标记

在此方法中，使用试剂在基因组的双链长片段1的两条链上的随机位置切口，所述试剂是例如切开DNA双链的DNA酶I(即“切口酶”)和保留聚合和3’→5’核酸外切酶活性但已失去5’→3’核酸外切酶活性的DNA聚合酶I大片段(Klenow)。参见图4A。反应中不包括dNTP。3’共有接头27连接到每条链的3’末端切口上。在允许3’共有接头与互补序列杂交的条件下加入含有多个拷贝的序列(例如寡核苷酸)的微粒15(例如珠子或DNA)，其包含(i)所述标签序列22和(ii)与3’共有接头27互补的序列28。例如，所述DNB可被分段(例如利用限制性内切酶或切口酶)或者寡核苷酸可以从所述珠子中释放出来。

如本文其它地方还描述的，在长片段和珠子或纳米球的适当比例以及在适当的稀释下，大多数片段在空间上与1个(或较不频繁地为2个或更多个)珠子或纳米球缔合，并且3’共有接头拷贝与单个珠子或纳米球上的互补序列杂交，由于单个杂交事件导致长片段和珠子或纳米球之间的物理相互作用，使其它互补序列紧密靠近。换句话说，微粒接近双链DNA片段，所以大多数标签拷贝不扩散，而是与3’接头杂交。

或者，并且还如下文所述，如果必要时，双链DNA长片段和纳米球或珠子的一个末端均可被标记以增强相互作用。例如，可以使用互补DNA序列，例如长片段的A-尾和含标签序列上的T尾或聚-T区域或者其它相互作用的部分，以增强所述长片段和所述含标签序列的相互作用，从而增加每个长片段已引入多个拷贝的单个含标签序列的可能性。接着，例如利用限制性核酸内切酶将珠子或纳米球上的含标签核酸分段，这导致共有接头连接到与从珠子或纳米球释放出来的核酸中所含的互补序列杂交的长片段。使用DNA聚合酶I大片段(Klenow)或类似DNA聚合酶的引物延伸物导致在长片段上创建以每300-1000bp分隔开的3’标记分子。

然后，长DNA分子可变性并且寡核苷酸可与3’共有接头杂交；含有Klenow片段或类似聚合酶的延伸物导致获得平末端双链DNA分子，其可连接到5’共有接头上并进行PCR扩增。然后以与方法(3)中所述相似的方式对所得PCR扩增子(长DNA片段的有效标记亚片段)进行测序、映射和组装。

因此，根据本发明的这一方法，MT方法可包括：

i)条形码模板和所需接头的“克隆”拷贝，例如通过(a)滚环复制(RCR)以制备含有数百个拷贝的相同标签的多联体，或者通过(b)珠子上乳液PCR以创建数千个拷贝进行的。任选地，所述拷贝单元可代表转座子。

ii)将基因组长片段和标签-接头多联体或珠子以适当比例和适当浓度混合以使大部分、大多数或几乎所有的基因组片段在空间上与一个多联体以及不经常地两个或更多个多联体缔合。

iii)通过以下方式将通用引物加入到基因组DNA中：(a)以预定频率(例如1kb)通过频繁切割或其它方法进行部分切口而为基因组DNA做切口；可控的切口平移可用于进一步使片段起始位点随机化；任选地，例如通过Pol I或不含dNTP的Klenow的外切酶活性可在切口位点创建小的间隔；(b)通过提供5’末端与短的互补双脱氧寡核苷酸杂交的引物，使引物5’末端连接至切口DNA的3’末端；此引物与紧挨着条形码的接头互补。任选地，这一步可在步骤ii)或混合基因组DNA和克隆标签之前进行。

iv)利用标签模板通过引物延伸复制来自标签供体(DNA纳米球或珠子)的标签和另一个接头。DNA变性之后，这导致得到约1kb的单链DNA片段，其3’末端含有接头-条形码-接头延伸物。这些片段通过与3’末端接头互补的引物可用作测序模板，或在测序之前，通过相同引物在双链DNA中转化并进一步处理(例如连接接头的另一个末端、扩增、环化)。

任选地，如果多联体或珠子代表标记转座子克隆，那么步骤3和4可以被转座子插入并分段或扩增来替代。

(5)无切口插入-方法1

插入含标签序列的可替代方法不依赖于切口。参见图4B。长片段1变性(例如通过加热)产生互补单链。随机引物(N聚体)29a、29b、29c退火至单链并通过聚合酶延伸。加入碱性磷酸酶(例如虾的碱性磷酸酶，SAP)，并且具有3’→5’核酸外切酶功能的聚合酶(例如Klenow)用于创建间隔。如上文和图4A中所述处理所得的包含待测序长片段部分31a、31b、31c之间的随机N聚体29a、29b、29c的部分双链产物，从共有接头的3’连接开始。

(6)无切口插入-方法2

无切口插入含标签序列的另一种可替代方法利用微粒。参见图4C和4D。在该方法中，在微粒15例如珠子或单体单元的DNA多联体或纳米球上使两个寡核苷酸退火至含标签序列上：(i)共有引物23，其在所述标签或条形码序列22的上游退火，和(ii)共有接头27，其在所述标签下游退火。所述引物延伸并加入连接酶以使引物延伸产物连接至共有接头27上。因此该连接产物包含所述标签序列22和3’末端的共有接头27。

寡核苷酸群体包含(i)5’末端的简并序列(随机N聚体)29a和(ii)与共有接头互补的序列28以及(iii)非互补序列(图4C中未示出)，使该群体退火至来自之前步骤的连接产物，并且进行引物延伸，向连接产物的3’末端加入与每个寡核苷酸上的序列互补的简并序列29a(其随后被移除，例如通过消化被移除)。然后使所得产物(“标签接头”群体，各自的3’末端具有简并序列29a)从珠子或纳米球15中释放出来，例如通过热变性释放出来。所述标签接头退火至长片段1的单链(通过双链长片段变性产生的)上；如图4D所示，各标记接头29a、29b末端的不同简并序列退火至沿长片段1分隔开的互补序列上。如上文所述，加入聚合酶使标记接头延伸，并且延伸产物包含与长片段的区域31a、31b互补的序列。所得的包含连接至长片段序列上的标记接头的分子然后可用于创建长片段的标记亚片段，如上文所述(图4A)。

(7)利用可控的切口平移进行插入

图4G举例说明了类似于上述(4)的方法。长双链DNA被切口，然后将切口打开形成短的间隔，以促进接头随后连接至所述间隔的3’末端上。切口可利用任何切口核酸内切酶(切口酶)进行部分消化来完成。一种合适的切口酶是Nt.CviPII。Nt.CviPII的识别位点是短序列CCD，其中D＝A、G或T。所述间隔可通过以下方式被打开：利用校正聚合酶Klenow的3’核酸外切酶活性，将其结合至切口上，并且在没有核苷酸的情形下切口链沿3’至5’方向降解而留下短的间隔；或利用可控的切口平移(CNT)，它使用切口平移聚合酶Pol I和有限量的核苷酸使切口短距离平移。该反应留下了短的间隔(1-3个碱基)，而不是一个切口。

这种切口方法为每个长DNA片段提供了良好的读数覆盖率，因为使用两条DNA链。在一些实施方案中，所述过程可以在凝胶块(或其它聚合物嵌段或填充在管或微量滴定板的孔的底部)中进行，任选地进行一系列酶促步骤。例如，如果长DNA片段和DNB被截留在凝胶块上，并且然后控制切口例如通过Vvn进行，随后洗出切口酶，则然后可进行20-100个碱基(例如约20个碱基)的CNT反应，以创建小的间隔(并且进一步使切口位点的位置随机化)，随后洗出聚合酶。创建间隔的其它方法包括使用Klenow或核酸外切酶。这个阶段所得的产物将是备用于“间隔内”接头连接的DNA，并且大多数DNB仍然保持完整。DNA将被分段成～10kb的区段，但它们不能在凝胶块中明显移动。这种凝胶内法单管LFR的最后步骤是：a)将DNB分段，通过加入到溶液中的组分的杂交/连接来创建接头；以及b)在基因组DNA中制得的间隔中连接这样的条形码接头。这一步需要混合用于DNB分段的特定切口酶和连接酶。所述反应可以通过洗出酶和/或杀死还将会从凝胶块中释放的DNA而停止。含有克隆条形码的珠子可用于代替该方法中DNB。DNB或珠子可以平均间隔为2-40μm使用，优选5-20μm。长DNA分子通常占据体积约0.5-2μm³或更多的3D空间，可以以创建平均间隔为1-3μm或甚至4-10μm的浓度使用。

亚片段系列

(4)、(5)和(6)的方法(如图4A至4D所示)导致PCR扩增子是长DNA片段的有效标记亚片段。如果使用短读数测序方法时这是有益的。有多种方法可创建这样的一系列片段。

例如，利用长DNA片段的越来越短的区域可创建一系列这样的亚片段，如图4E所示。这从来自PCR扩增的平末端的引物延伸的标记亚片段开始，包括长片段的部分31a连接至标签序列22上。3’接头27连接至所述标记亚片段。所述接头的一个末端包含突出；另一个末端是包含封端核苷酸(例如ddNTP)的平末端。连接至3’接头之后，使亚片段变性，并使用可控的切口平移进行另一轮引物延伸。引物延伸在完成之前停止，使得所述引物不会一直延伸到互补链的末端。3’接头27连接至所述延伸链的末端。这个过程可以如引物延伸程度的变化所期望的那样重复多次，以为了创建一系列具有正常的5’末端而3’端被缩短的片段33。例如，美国专利申请12/329365(以US 2012-0100534 A1公开)和12/573697(以US-2010-0105052-A1公开)提供了封端接头策略和可控的切口平移的细节。

利用长DNA片段的越来越短的区域创建一系列这样的亚片段的另一种方法如图4F所示。这种方法也使用可控的切口平移。亚片段被环化，然后分到两个或更多个单孔中。在各孔中进行不同程度的可控的切口平移，以为了创建具有共有5’末端而3’末端被各种程度地缩短的亚片段。然后可以合并所述亚片段并且继续进行所述过程。另一种方法使用核酸外切酶III或其他核酸外切酶。

获得高比例的被恰好一个标签序列标记的长片段的策略

当大多数长片段已被标记时呈现它们的最佳利用。如果大多数或所有长片段上的多个拷贝的单个标签序列不同于其它长片段上的标签序列，则将读数组装到全长序列中或对基因组相邻区域的分析通常更容易。因此，每个标记亚片段进行扩增之后，含有相同标签序列的两个读数将来自相同的长片段。在上文描述对克隆条形码使用过量DNA片段或过量DNA结合能力的部分，描述了如何调整长DNA片段与引入的克隆标签序列反应的稀释和比例来优化标记。

一种获得高比例的被恰好一个标签序列标记的长片段的策略包括连接微粒和单长片段和使微粒和单长片段缔合的其它方式。有几种方法使含有多个拷贝的特定含标签序列的单个珠子或DNA纳米球(DNB)附着或连接至靶核酸的单个长片段上。例如，可使用末端转移酶，将均聚物序列(例如A尾)加入到所述长片段中，或者含有选定序列的接头可连接到所述长片段的一个末端或两个末端上。互补序列可被加入到含标签序列或纳米球的末端上或包含在其内，使得在选定的适当条件下，利用长片段上对应的互补序列使所述含标签序列或标签组件退火。优选地，长片段可退火至仅含有一个标签的序列或标签组件上。

用于接头-条形码-接头寡核苷酸的克隆扩增的多个珠子可另外具有弱的临时的DNA结合能力：例如带正电荷的表面或者表面结合DNA碱基。不同尺寸的珠子可用于提供足够的条形码拷贝以及足够的表面用于结合长DNA片段。通过滚环复制以多联体(DNB)形式产生的克隆条形码和缔合的接头(例如Ad1-条形码-Ad2)可通过使修饰的寡核苷酸与接头片段杂交而进行修饰。替代物是提供足够数量正电荷的分支结构或提供足够的长DNA片段结合能力的其它化学基团。

标记长片段的特征

在一个方面，本发明提供包含基因组序列(G)和多个离散引入序列(IS)的DNA分子，其中所述引入序列与所述基因组DNA序列不是天然重叠的。所述DNA分子是单链的或双链的。在一些实施方案中，DNA的长度为至少2kb、5kb、至少7.5kb或至少10kb，例如长度范围为5-20kb、7.5-15kb或10-12.5kb。在一些实施方案中，DNA的长度为至少50kb、至少75kb或至少100kb，例如长度范围为50-200kb、75-150kb或100-125kb。通常，每个片段包含至少5个、至少10个、至少25个或至少50个引入序列，其中每个引入序列包含相同的序列或包含共有子序列。

引入序列之间的平均间隔为100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1500bp、2000bp、2500bp、3000bp、3500bp、4000bp或5000bp。根据另一个实施方案，所述平均间隔为约100bp至约5000bp，或约200bp至约4000bp，或约300bp至约3000bp，或约300bp至约2000bp，或约300bp至约1000bp。

DNA长度、N是50-150kb和引入序列的数目，IS是范围[(N×1)至(N×4)]。可替代地，DNA长度、N是50-150kb和引入序列的数目，IS是范围[(N×2)至(N×10)]。可替代地，DNA长度、N是50-150kb和引入序列的数目，IS是范围[(N×1)至(N×0.2)]。

在一些实施方案中，DNA长度、N是5-15kb和引入序列的数目，IS是范围[(N×1)至(N×4)]。可替代地，DNA长度、N是5-15kb和引入序列的数目，IS是范围[(N×2)至(N×10)]。可替代地，DNA长度、N是5-15kb和引入序列的数目，IS是范围[(N×1)至(N×0.2)]。

所述基因组DNA序列可以例如来自动物例如哺乳动物(例如人)、植物、真菌或细菌。

所述引入序列可包含转座子序列和/或引物结合序列。

在一个方面，本发明提供了包含DNA分子群体的组合物，如上文所述。所述群体可以是聚集体，代表生物体的基本上所有(例如至少80％、至少90％、至少95％或至少99％)基因组序列。所述组合物可进一步包含(i)转座子，(ii)DNA聚合酶，和/或(iii)扩增引物，其结合引入序列的序列或引入序列的序列的互补序列。

在一个方面，本发明提供了包含标签长片段群体的组合物，如上文所述，其中所述群体为聚集体，包含至少约10⁴个、至少约10⁵个、至少约10⁶个或至少约10⁷个不同的插入条形码。

在一个方面，所述群体中大多数或基本上所有(例如至少50％、至少80％、至少90％、至少95％或至少99％)DNA分子包含独特的引入序列(即不与其它分子共享的引入序列)。在一些情况下，所述独特的导入序列共享共有序列。共有子序列可以是引物结合序列。

在一些实施方案中，长片段中大于10％、大于20％、大于30％或大于50％的DNA长度可以表示为利用相同的条形码拷贝标记的短DNA片段。例如，使用100kb的长片段产生100个平均长度为1kb的亚片段，将导致获得20-50个可用的标记片段。其它片段将会由于未被标记而丢失或过短或过长。

在一些实施方案中，组合物中的实质数量(大于25％)或大多数(大于50％)长DNA片段被标记多于一个(例如两个或三个)的不同标签。

制备标记长片段的亚片段

标记之后，通过扩增(例如通过PCR、引物延伸、RCA)、限制性酶消化(例如使用引入到长片段中的含标签序列内具有识别位点的稀有切割酶)或通过其他常规技术包括酶消化、剪切、超声等等将所述靶核酸的长片段分成所需尺寸的亚片段。

亚片段尺寸可以有所不同，具体取决于靶核酸源和所用的文库构建方法，但是对于标准全基因组测序而言，这样的片段的长度范围通常为50-2000个核苷酸。在另一个实施方案中，所述片段的长度为300-600个核苷酸、200-2000个核苷酸或1000-5000个核苷酸。在又一个实施方案中，所述片段的长度为10-100个、50-100个、50-300个、100-200个、200-300个、50-400个、100-400个、200-400个、300-400个、400-500个、400-600个、500-600个、50-1000个、100-1000个、200-1000个、300-1000个、400-1000个、500-1000个、600-1000个、700-1000个、700-900个、700-800个、800-1000个、900-1000个、1500-2000个、1750-2000个和50-2000个核苷酸。

在进一步的实施方案中，分离特定尺寸或特定尺寸范围的片段。这样的方法是本领域中公知的。例如，凝胶分馏可用于制备例如500个碱基对+50个碱基对的碱基对范围内的特定尺寸的片段群体。

取决于对标记和后处理条件的选择以及从约5至约1000000个基因组当量的DNA长片段开始的不同序列读数长度，确保长片段群体覆盖整个基因组。包含由这样的重叠片段群体产生的核酸模板的文库将提供整个基因组的大多数或所有序列。

亚片段的特征

在一个方面，本发明提供了包含多核苷酸群体的组合物，各自包含：(1)对应于基因组DNA区段的序列；(2)一个或两个末端中的导入序列(例如克隆条形码)，其中所述群体包含多个不同的基因组DNA序列区段，并且所述引入序列为聚集体形式，包含多个不同的标签或条形码序列，使得包含不同基因组DNA区段的一些多核苷酸包含至少一个共有的标签或条形码序列；和(3)所述多核苷酸群体包含至少10⁴个不同的条形码序列、至少10⁵个不同的条形码序列、至少10⁶个不同的条形码序列或至少10⁷个不同的条形码序列。在一些实施方案中，所述多核苷酸的平均尺寸(以碱基或碱基对表示)范围为50-5000，例如50-100、100-200、200-300、300-500、500-700、700-1000、1000-1500、1500-2000、2000-3000、3000-4000或4000-5000。在一些实施方案中，至少一对包含共有的标签或条形码的DNA区段在基因组中相邻。在一些实施方案中，包含至少一个共有的标签或条形码序列的多核苷酸仅包含不重叠的基因组DNA区段，其中“不重叠”意指基因组中区段不重叠。有时，所述组合物包含多个(例如至少10个、至少100个或至少500个)多核苷酸，其在具有相同的标签或条形码并在基因组相邻的一个或更多个拷贝中。有时，所述组合物包含多个(例如至少10个、至少100个或至少500个)多核苷酸对，其具有相同的标签或条形码并在靶序列(例如基因组)中相邻。所述标签序列可包含与转座子序列和/或引物结合位点的组合的条形码。所述引入序列与所述基因组DNA片段不是天然重叠。

所述基因组DNA可来自植物、动物(例如哺乳动物，比如人)、细菌或真菌。细菌可以是混合物(宏基因组(meta-genomes)，通过菌株允许组装菌株和物种基因组而不需要培养菌株)或分离的菌株或物种。所述多核苷酸可以是扩增子。

扩增

在本文所述的任何步骤之前或之后，扩增步骤可用于确保足够的核酸可用于后续步骤。

根据本发明的一个实施方案，提供了用于对少量复杂核酸进行测序的方法，所述复杂核酸包括高等生物的那些，其中对这样的复杂核酸进行扩增以产生足够的核酸而用于通过本文所述的方法进行测序。单个人细胞包含约6.6皮克(pg)基因组DNA。高等生物的复杂核酸的测序可以如下完成：使用1pg、5pg、10pg、30pg、50pg、100pg或1ng或更多的复杂核酸作为初始物料，通过本领域中已知的任何核酸扩增方法进行扩增，产生例如200ng、400ng、600ng、800ng、1μg、2μg、3μg、4μg、5μg、10μg或更大量的复杂核酸。我们还公开了最大限度地减小GC偏好性(GC bias)的核酸扩增方案。然而，对扩增的需求和随后的GC偏好性能够通过以下步骤进一步简单地降低：分离一个细胞或少量细胞，在本领域中已知的适合培养的条件下将它们培养足够的时间，并使用初始细胞的子代进行测序。

这样的扩增方法包括但不限于：多重置换扩增(MDA)、聚合酶链式反应(PCR)、连接链式反应(有时被称为寡核苷酸连接酶扩增OLA)、循环探针技术(CPT)、链置换测定法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及侵入性切割技术。

扩增可在分段之后或者本文所述的任何步骤之前或之后进行。全基因组扩增方案

本发明开发过程中已使用的具体扩增方案包括以下内容。

第一个扩增方案是转座子介导插入接头用于长PCR扩增。为了最大限度地覆盖使用短读数测序的基因组，我们扩增了相对较大的基因组片段。这允许产生较短的重叠片段，然后可进行测序。以3-20kb的频率将转座子插入到长基因组DNA中。然后可以进行几轮单个引物或两个引物的PCR，以产生>10倍的扩增。在此过程中的一个版本中，仅进行一轮长PCR，随后通过在扩增(CoRE)过程中掺入尿嘧啶、超声分段、核酸酶消化、转座子分段或其它合适的方法进行分段以重叠～300bp至～1.5kb。

在此过程的另一个版本中，首先产生尺寸为～10kb的长PCR产物并进行<100倍的扩增。以～3kb的频率进行第二轮转座子插入。进行其它轮的PCR扩增以产生>1000倍的扩增。现在可如上文所述进行分段。

第二个方案是将接头插入到所述长片段中产生的间隔中。首先以3-20kb的频率引入切口。在缓冲液中不存在核苷酸的情形下，使用核酸酶或聚合酶将所述切口打开形成>1bp的间隔。然后将接头连接至所述间隔的3’-OH和5’-PO₄上。3’侧上，未与间隔中的碱基杂交是必需的。5’侧上的接头与3’侧上的N6将是必需的，以在连接之前首先在邻近5’-PO₄进行杂交。一旦连接完毕，可进行1个或2个引物的PCR。将长PCR引物再次分段成更小的重叠300-1.5kb的片段，如上所述。

GC偏好性减小的MDA扩增

在一个方面，本发明提供了核酸扩增的方法，其中所述核酸被忠实扩增，例如约30000倍，具体取决于初始DNA的量。

根据本发明的MT方法的一个实施方案，MT以基因组核酸(通常是基因组DNA)的处理开始，利用5’核酸外切酶来创建3’单链突出。这样的单链突出起到MDA起始位点的作用。使用核酸外切酶还省去了扩增之前对热或碱变性步骤的需求，而不将偏好性引入到片段群体中。在另一个实施方案中，碱变性与5’核酸外切酶处理相组合，这使偏好性减小的程度大于单独处理所看到的。所述片段然后被扩增。

在一个实施方案中，使用基于phi29的多重置换扩增(MDA)。许多研究已经考察了不希望的扩增偏好性范围、背景产物的形成以及通过基于phi29的MDA引入的嵌合假象，但是许多这些缺点已在极端扩增条件下出现(大于100万倍)。通常，MT采用实质上低水平的扩增并以长DNA片段(例如～100kb)开始，从而获得有效的MDA和更可接收水平的扩增偏好性以及其它扩增相关的问题。

我们已经开发了一种改进的MDA方案来克服与使用各种添加剂(例如DNA修饰酶、糖类和/或化学品，比如DMSO)的MDA相关的问题，和/或减少、增加或取代用于MDA的反应条件的不同要素，以进一步改善所述方案。为了尽可能减少嵌合体，也可包含试剂以减少取代单链DNA作为不正确的模板用于DNA链延伸，这是嵌合体形成的常见机制。由MDA诱导的覆盖偏好性的一个重要原因是由于富含GC的区域对比富含AT的区域之间的扩增差异所致。这可以通过在MDA反应中使用不同的试剂和/或通过调整引物浓度以创建甚至沿基因组所有GC％区域引发的环境下来校正。在一些实施方案中，随机六聚体被用于引发MDA。在其它实施方案中，其它引物设计用于减小偏好性。在进一步的实施方案中，在MDA之前或过程中使用5’核酸外切酶可帮助启动低偏好性成功引发，特别是利用较长(即200kb至1Mb)片段，该较长(即200kb至1Mb)片段用于对特征在于长区段性复制(即在一些癌细胞中)和复杂重复序列的区域进行测序。

在一些实施方案中，利用改进的、更有效的分段和连接步骤，使制备样品所需的MDA扩增圈数减少多达10000倍，这进一步降低由MDA引起的偏好性和嵌合体的形成。

在一些实施方案中，所述MDA反应被设计成将尿嘧啶引入到扩增产物中以准备CoRE分段。在一些实施方案中，利用随机六聚体的标准MDA反应被用于扩增各孔中的片段；可替代地，随机八聚体引物可用于减小片段群体中的扩增偏好性(例如GC偏好性)。在进一步的实施方案中，也可将几种不同的酶加入到MDA反应中，以减小扩增偏好性。例如，低浓度的非进行性5’核酸外切酶和/或单链结合蛋白可用于创建八聚体的结合位点。化学试剂例如甜菜碱、DMSO和海藻糖也可用于减小偏好性。

样品中的核酸扩增之后，扩增产物可任选地被分段。在一些实施方案，CoRE法用于扩增之后进一步对所述片段分段。在这样的实施方案中，片段的MDA扩增被设计为将尿嘧啶掺入到MDA产物中。所述MDA产物然后用尿嘧啶DNA糖基化酶(UDG)、DNA糖基化酶-裂解酶核酸内切酶VIII和T4多核苷酸激酶的混合物处理以切除尿嘧啶碱基并创建含有5’磷酸和3’羟基官能团的单个碱基间隔。通过使用聚合酶例如Taq聚合酶的切口平移导致双链平头端断裂，形成一定尺寸范围的可连接片段，具体取决于加入到MDA反应中的dUTP浓度。在一些实施方案中，所用的CoRE法包括通过聚合除去尿嘧啶和通过phi29进行链置换。也可以通过超声处理或酶处理来实现所述MDA产物分段。可用在该实施方案中的酶处理包括但不限于DNA酶I、T7核酸内切酶I、微球菌核酸酶等等。

在MDA产物分段之后，所得片段的末端可被修复。许多分段技术可导致末端具有突出并且末端具有不能用在后面的连接反应中的官能团，例如3’和5’羟基和/或3’和5’磷酸基团。它可用于含有被修复以具有平末端的片段。还希望可对末端进行修饰以加入或去除磷酸基团和羟基基团，从而防止靶序列“聚合”。例如，磷酸酶可用于去除磷酸基团而使所有末端含有羟基。然后每个末端可被选择性修饰，以允许所期望的组分之间相连接。所述片段的一个末端然后可通过用碱性磷酸酶处理而“活化”。

核酸测序

本文中所述的MT法可用作使用本领域中已知的任何测序方法对二倍体基因组进行测序的预处理步骤，所述测序方法包括例如但不限于基于聚合酶的边合成边测序(例如HiSeq 2500系统，Illumina，圣地亚哥，加利福尼亚州)、基于连接的测序(例如SOLiD 5500，Life Technologies，卡尔斯巴德，加利福尼亚州)、离子半导体测序(例如Ion PGM或IonProton测序仪，Life Technologies，卡尔斯巴德，加利福尼亚州)、零模式波导孔(例如PacBio RS测序仪，Pacific Biosciences,，门洛帕克，加拿大)、纳米孔测序(例如OxfordNanopore Technologies Ltd，牛津，英国)，焦磷酸测序(例如454 Life Sciences，布兰福德，CT)或其它测序技术。这些测序技术中的一些是短读技术，但其他人制备了较长的读数，例如GS FLX+(454 Life Sciences，高达1000bp)、PacBio RS(Pacific Biosciences；约1000bp)和纳米孔测序(Oxford Nanopore Technologies Ltd；100kb)。对于单倍型定相，更长的读数是有利的，需要少得多的计算，尽管它们往往具有较高的错误率并且这样的长读数中的误差可能需要根据本文阐述的方法在单倍型定相之前确定并校正。

根据一个实施方案，使用组合探针锚定连接(cPAL)进行测序，例如在美国专利申请出版物2010/0105052；US2007099208；US2009/0264299；US2009/0155781；US2009/0005252；US2009/0011943；US2009-0118488；US2007/0099208；US2008/0234136；US2009/0137404；US2009/0137414；US2007/0072208；US2010/0081128；US2008/0318796；US2009/0143235；US2008/0213771；US2008/0171331；US2007/0037152；US2009/0005259；US2009/0036316；US2009/0011416；US2009/0075343；US2009/0111705；US2009/0111706；US2009/0203551；US2009/0105961；US2008/0221832；US2009/0318304；US2009/0111115；US2009/0176652；US2009/0311691；US2009/0176234；US2009/0263802；US2011/0004413和12/329365；公开的国际专利申请号WO2007120208、WO2006073504和WO2007133831以及美国专利申请号13/448279(公开号为US20140051588)、13/447087，(公开号为20130124100)中所描述，所有这些为了所有目的在此通过引用整体并入本文。

读出多核苷酸序列相比于参考多核苷酸序列的变异和多核苷酸序列组装(或重组)的示例性方法在例如美国专利公开号2011-0004413(申请号12/770089)中提供，其为了所有目的通过引用整体并入本文。还参见Drmanac等人，Science 327,78-81，2010。还为了所有目的通过引用整体并入本文的共同未决的相关申请号61/623876，标题为“Identification Of DNA Fragments And Structural Variations”；申请号为13/649966，公开号为美国专利公开2013-0096841；以及申请号为13/447087，标题为““Processing and Analysis of Complex Nucleic Acid Sequence Data”，公开号为美国专利公开2013/0124100。

通过对50％的每个～1kb的片段进行测序，每个基因组片段将生成～1倍的序列覆盖率，因为标记片段是从双链DNA的两条链中产生的。如果一个序列为25％(每个片段为1/2读数覆盖率)，人们会观察到两个区域在25％片段中连接。对于相同的读数预算，我们可以将片段数量增加至两倍并且所观察到的连接仅减少了两倍。对于25％读数(125个碱基构成1kb片段的每个末端)和36个初始细胞，人们将会观察到18个细胞具有9个连接而不是～18个连接，如果一个读数为50％DNA(250个碱基来自～1kb片段的每个末端)的话。如果每个片段可读数仅～60个碱基，则最好使用仍形成非常有用的配对的300-500bp的片段。

如果对来自每个～1kb片段的DNA级分进行测序，需要更多的初始片段。例如，如果一个序列为二分之一，那么多于4倍的片段是必需的。

降低复杂性

在进一步的方面，本发明的MT技术降低了待测序DNA的复杂性，以集中在目的序列上，例如不同疾病的基因靶面板、外显子组(exome)或罕见的细菌菌株。>100kb的长DNA中复杂性降低和单倍型分离在人类和其他二倍体和多倍体基因组中或细菌和其它基因组(宏基因组)的混合物中可有助于更有效和成本效益的序列组装和序列变异检测。一种降低标记DNA片段复杂性的方法是使用捕获用于目的基因组序列的寡核苷酸，例如编码序列(例如为获得“相位”外显子组变体，对外显子组进行选择)。

目的DNA片段可通过以下措施富集：(a)提供由多个条形码标记的DNA片段的混合物，(b)使用与目的条形码序列至少部分互补的寡核苷酸捕获DNA片段，(c)丢弃未捕获的DNA，优先是无条形码匹配的捕获寡核苷酸，从而丰富目的DNA片段。所述混合物可以包含来自多于30、100或1000个细菌菌株或物种的DNA片段，以变量表示。条形码可用于标记来自一个或几个细菌细胞的DNA。可使用多于10、30、50、100或300个不同的捕获寡核苷酸，每个对一个条形码具有特异性。在替代阳性选择的两种方法中，阴性选择可用于去除不想要的、通常常见的序列，例如Alu重复序列在人类基因组或微生物中常见的细菌。

定义

如本文所用的靶核酸的“片段”或亚片段例如基因组DNA的片段、染色体DNA的片段、长片段或亚片段(长片段的、靶DNA的等等)是指序列的相互关系，而不是必然指直接的物理衍生。较长序列的“片段”(例如“靶核酸分子的片段”或“标记长片段的亚片段”)包括较长序列一部分的序列，或可替代地，包括较长序列的一部分的恰好互补序列，而与该片段是如何产生的无关。例如，靶核酸或长片段的“亚片段”可以通过对靶核酸的一部分进行扩增或复制而制得，从而产生包含与所述靶核酸序列相同的或恰好互补的序列的新分子。在其它实例中，靶核酸或长片段的“亚片段”可以通过对靶核酸或长片段进行物理或酶促分段而制得。

本说明书中所用的术语“长片段”是指在本发明的方案中用于标记、测序、分析或进一步处理的初始核酸聚合物。该术语并不要求所述核酸从任何特定来源或通过任何特定方法获得。所述核酸可以是任何长度并且具有与所述方案相兼容的任何特征。所述方案的初始步骤之前，它可以之前已被扩增、分段、重组或另外处理。在本公开内容中所提供的一些说明中，初始“长片段”为约3-20kb，其它为10-100kb或30-300kb，或大多数或最多数大于10kb或大于20kb或大于30kb或50kb。

如本文所用的核酸“扩增”是指其中通过数个循环的聚合或连接以几何或经验速率产生多核苷酸拷贝的方法，如与模板复制进行区分，其中制备单个拷贝的模板，或其中一个或多个拷贝的模板是通过RCR获得的。

待测序和分析的靶核酸片段有时被称为“初始片段”。该术语仅用于表示具有特定特性的片段是在特定方案早期使用的产品。

如本文所用的“插入”、“引入”和“合并”不限于物理地将一个多核苷酸(例如含有条形码的寡核苷酸)引入到另一个多核苷酸(例如长DNA)中。例如，如上文所述，条形码序列可通过随同散在标签序列复制所有或一部分长DNA片段序列而引入到长DNA片段中(参见例如图2A)。条形码序列可通过将条形码序列物理地转座到长DNA分子中而引入到长DNA片段中(参见例如图1A)。

如本文所用的“散在”具有本领域中的标准含义。例如，含有“靶核酸序列和多个散在标签序列”的标记长片段是包含靶核酸序列例如基因组序列的多核苷酸，其被多个标签序列(例如，多个拷贝的标签序列)打断，使得标签序列位于在靶核酸中是连续的靶序列之间。如上文所述，相邻的引入标签序列之间的平均间隔可以为例如100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1500bp、2000bp、2500bp、3000bp、3500bp、4000bp或5000bp。

如本文所用的术语“转座子”是指被转座酶或整合酶识别出并能够转座的核酸区段。

如本文所用的术语“转座酶”是指一种酶，这种酶是能够转座并介导转座的功能性核酸-蛋白质复合物的组分。术语“转座酶”还指来自逆转录病毒来源的逆转录转座子的整合酶。

如本文所用的表述“转座反应”是指将转座子插入到靶核酸中的反应。转座反应中的主要组分是转座子和转座酶或整合酶。

如本文所用的术语“转座子末端序列”或“转座子末端”是指转座子远末端的核苷酸序列。所述转座子末端序列负责确定用于转座的转座子；它们是需要转座酶以形成转座体复合物并且进行转座反应的DNA序列。可转座的DNA可以只包含一个转座子末端序列或多于一个的转座子末端序列。所述可转座的DNA序列中的转座子末端序列因此不通过核苷酸序列与另一个转座子末端序列连接，即可转座的DNA仅包含一个转座酶结合序列。因此，所述可转座的DNA包含“转座子末端”(参见例如Savilahti等人，EMBO J.14:4893-4903,1995)。

如本文所用的术语“转座酶结合序列”或“转座酶结合位点”是指总是位于转座子末端序列内的核苷酸序列，当介导转座时转座酶与其特异性结合。所述转座酶结合序列可包含多于一个的用于结合转座酶亚基的位点。

如本文所用的术语“转座子连接链”或“连接末端”意指双链转座子DNA的那条链的末端，其通过转座酶在插入位点连接至靶DNA。

转座子复合物在转座酶和双链DNA片段之间形成，其中所述双链DNA片段包含用于所述酶的特异性结合序列，称为“转座子末端”。所述转座子结合位点的序列可以使用其它碱基在某些位置进行修饰，而不会影响到转座子复合物形成可有效地转座到靶DNA中的稳定结构的能力。通过操纵所述转座子末端序列，所述方法为所述分段的靶DNA提供可以用在下游应用中的性能，特别是当在测序之前使用该方法用于文库制备时。

如本文所用的术语“接头”或“接头尾巴”是指非靶核酸组分(通常是DNA)，其提供解决其所连接的核酸片段的手段。例如，在实施方案中，接头包含允许鉴定、检出和/或分子或生物化学地操纵所述接头所连接的DNA的核苷酸序列(例如通过为退火寡核苷酸(例如引物)以用于通过DNA聚合酶延长或寡核苷酸以用于捕获或用于连接反应提供位点)。

如本公开内容所用的术语“微粒”是指用于多个拷贝的小寡核苷酸例如转座子或引物的递送系统。所述寡核苷酸以使其可释放的方式连接至或引入至微粒中，为了参与反应或重组的目的，例如使用限制性核酸酶。非限制性实例包括作为寡核苷酸的多联体的DNB(纳米球)，以及与多个拷贝的寡核苷酸连接的纳米球。微粒上的寡核苷酸拷贝数通常包含与其它微粒上的标签序列不同的标签序列。当本公开内容是指参与反应的多联体或珠子时，除非另有说明或要求，否则该描述应当被认为广泛地是指含有可释放的寡核苷酸并与所述方案相兼容的任何性质的微粒，例举但不限于用于举例说明目的的颗粒类型。

如本文所使用的术语“复杂核酸”是指不相同核酸或多核苷酸的大群体。在某些实施方案中，所述靶核酸是基因组DNA；外显子组的DNA(富含转录序列的全基因组DNA亚组，其包含基因组中该组外显子)；转录组(即细胞或细胞群中产生的所有mRNA转录物或由这样的mRNA产生的cDNA的组)；甲基化组(即甲基化位点的群体和基因组中甲基化形式)；外显子组(即由外显子捕获或富集方法选择的编码蛋白质的区域；微生物组；不同生物体的基因组混合物；生物体的不同细胞类型的基因组混合物以及包含大量不同核酸分子的其它复杂核酸混合物(实例包括但不限于微生物组、异种移植物、包含正常和肿瘤细胞的固体肿瘤活检等等)，包括上述类型复杂核酸的亚组。在一种实施方案中，这样的复杂核酸具有完整的序列，其包含至少一个千兆碱基(Gb)(二倍体人类基因组包含约6Gb个序列)。

复杂核酸的非限制性实例包括“循环核酸”(CNA)，其是人类血液或其他体液中循环的核酸，其他体液包括但不限于淋巴液、酒、腹水、牛奶、尿液、粪便和支气管灌洗液，例如，可区分为细胞游离(CF)或细胞相关的核酸(在Pinzani等人,Methods 50:302-307,2010中进行了综述)，例如孕妇血流中的循环胎儿细胞(参见例如Kavanagh et al.,J.Chromatol.B 878:1905-1911,2010)或癌症患者血流中的循环肿瘤细胞(CTC)(参见例如Allard et al.,Clin Cancer Res.10:6897-6904,2004)。另一个实例是来自单个细胞或少量细胞例如来自活组织检查(例如来自胚泡的滋养外胚层活检的胎儿细胞；来自实体瘤针穿刺的癌细胞等等)的基因组DNA。另一个实例是病原体，例如细菌细胞，病毒或组织、血液或其它体液中的其它病原体等等。

如本文所使用的术语“靶核酸”(或多核苷酸)或“目的核酸”是指适于通过本文所述的方法处理和测序的任何核酸(或多核苷酸)。所述核酸可以是单链的或双链的，并且可以包括DNA、RNA或其它已知的核酸。所述靶核酸可以是任何生物体的那些，包括但不限于病毒、细菌、酵母、植物、鱼、爬行类、两栖类、鸟类和哺乳动物(包括但不限于小鼠、大鼠、狗、猫、山羊、绵羊、牛、马、猪、兔、猴和其它非人类灵长类动物和人类)。靶核酸可以从个体或从多个个体(即群体)获得。从中获得所述核酸的样品可以包括来自细胞或甚至生物体的混合物的核酸：例如人的唾液样品，包括人细胞和细菌细胞；小鼠异种移植物，其包括小鼠细胞和由移植人肿瘤获得的细胞等等。

靶核酸可以是未扩增的或者它们可以通过本领域中已知的任何合适的核酸扩增方法进行扩增。靶核酸可根据本领域中已知的方法进行纯化以去除细胞和亚细胞的污染物(除了待测序的那些之外的脂质、蛋白质、碳水化合物、核酸等等)，或者它们可以是未纯化的，即包括至少一些细胞和亚细胞的污染物，包括但不限于被破坏以释放其核酸进行处理和测序的完整细胞。可以使用本领域已知的方法从任何合适样品中获得靶核酸。这样的样品包括但不限于：组织、分离的细胞或细胞培养物、体液(包括但不限于血液、尿、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液)；空气、农作物、水和土壤的样品等等。

高覆盖率的鸟枪法测序是所希望的，因为它可以克服碱基读出和组装的误差。对于组装序列中任何指定的位置，如本文所用的术语“序列覆盖冗余”、“序列覆盖率”或简称为“覆盖”意指代表该位置的读数的数量。它可以由初始基因组(G)的长度、读数的数量(N)和平均读数长度(L)以N×L/G来计算。覆盖率还可以通过制备每个参考位置的碱基计分来直接计算。对于全基因组序列，覆盖率以组装序列中所有碱基的平均数表示。序列覆盖率是所读碱基的平均次数(如上文所述)。它通常以“倍数覆盖率”表示，例如以“40倍(或40×)覆盖率”表示，这意味着最终组装序列中的每个碱基以40个读数平均值表示。

如本文所用的术语“读出率”意指全称为复杂核酸的碱基百分率的对比，通常参照合适的参考序列，比如例如参考基因组。因此，对于人类全基因组而言，所述“基因组读出率”(或简称为“读出率”)是所读出的全部人类基因组相比于人类全基因组参考物的碱基百分比。所述“外显子组读出率”是所读出的全部外显子组相比于外显子组参考物的碱基百分比。外显子组序列可以通过对通过各种已知方法富集的基因组的一部分进行测序来获得，其在测序之前选择性地从DNA样品捕获目的基因组区域。可替代地，外显子组序列可以通过对包含外显子组序列的人类全基因组进行测序来获得。因此，人类全基因组序列可能同时具有“基因组读出率”和“外显子组读出率”。还有一个“原始读数读出率”，其反映的是得到指定为与试图碱基总数相反的A/C/G/T碱基的数量。(有时，使用术语“覆盖率”代替“读出率”，但意思将从上下文显而易见)。

如本文所使用的术语“单倍型”意指染色体上相邻位置(基因座)的等位基因组合，其同时传递或者交替传递统计学上相关的染色体对上单个染色体上的一组序列变体。每个人类个体有两组染色体，一组来自父亲，另一组来自母亲。通常，DNA测序仅形成基因型信息，沿DNA区段的无序等位基因序列。推断基因型的单倍型将每个无序对中的等位基因分在两个单独的序列中，每个称为单倍型。单倍型的信息是许多不同类型的遗传分析所必需的，遗传分析包括疾病相关研究和推断人类祖先。

如本文所用的术语“定相”(或分辨率)意指将序列数据分成亲本染色体或单倍型两组。单倍型定相涉及以下问题：接收作为输入的一组个体或群体(即多于一个个体)的基因型，并输出每个个体的一对单倍型，一个是父亲的并且另一个母亲的。定相可以包括解析超出基因组区域的序列数据，或在读数或重叠群中的仅仅两个序列变体，其可被称为本地定相或微定相(microphasing)。它也可以包括更长的重叠群定相，通常包括大于约10个的序列变体，或甚至整个基因组序列，其可被称为“通用定相”。任选地，定相序列变体在基因组组装期间发生。

如本文所用的术语“转座子”或“转座元件”意指可以改变其在基因组内的位置的DNA序列。在典型的转座反应中，转座酶对切除转座子随机插入到靶DNA中进行催化。在切割-粘贴转座过程中，转座酶使靶DNA中进行随机的交错双链断裂并使转移的转座子链的3’末端通过共价键连接到靶DNA的5’末端上。所述转座酶/转座子复合物在转座子插入到靶核酸的位置上插入到任意DNA序列中。随机插入到靶核酸序列中的转座子是优选的。几个转座子已经被描述并用在体外转座系统中。例如，在NextEra^TM技术(Nature Methods 6,November 2009；Epicentre Biotechnologies,Madison,WI)中，完整的复合物对于插入而言是没必要的；游离转座子末端足以整合。当使用游离转座子末端时，所述靶DNA分段并且所述转座子末端寡核苷酸的转移链共价连接至靶片段的5’端上。所述转座子末端可以通过加入所希望的序列，例如PCR引物结合位点、条形码/标签等等进行修饰。所述片段的大小分布可通过改变转座酶和转座子末端的量来控制。利用转座子与所附序列得到DNA文库，其可以用在高通量测序中。转座子末端的长度可以有所不同，但通常是9-40个碱基长。转座子末端对可以彼此反向互补(即转座子末端可以是反向末端重复序列)。

如本文所使用的术语“发夹”(还称为茎环)具有其在本领域中的标准含义并且是指核酸确认，其中当读数方向相反时核苷酸序列中相同链的两个区域通常互补，碱基对形成在未配对的环中结束的双螺旋。

本公开内容有时指本发明的特定特征为“实施方案”。建议读者可将这种方式中所谓的特征一起放在可操作的任何组合中，并且这些特征的各种组合落入本发明的范围之内。

微液滴和乳剂的用途

在一些实施方式中,在乳剂或微液体设备中进行本发明的方法。

体积减小至皮升水平可取得试剂甚至更大的减少和计算成本甚至更大的降低。在一些实施方式中，这种水平的降低成本是通过MT工艺与乳液或微流型器件的结合来完成的。在相同的反应中不需要DNA纯化而进行全部酶学步骤的能力促进小型化和自动化这个过程的能力，并导致对多样的平台和样品制备方法的适应性。

最近的研究还提出在扩增(例如通过MDA)后改善GC偏好性以及通过减小反应体积至纳升的大小而减小背景扩增。

目前有数种微流体装置(例如Advanced Liquid Logic,Morrisville,NC销售的装置)或皮/纳米液滴(例如RainDance Technologies,Lexington,MA)，它们具有形成皮/纳米滴、熔融(3000/秒)和收集功能，并可用在MT的这样的实施方式中。

扩增

根据一个实施方式，MT工艺以用5’核酸外切酶短时处理基因组DNA起始，以产生用作MDA起始位点的3’单链突出。核酸外切酶的使用消除了在扩增前对加热或碱变形步骤的需要，而未引入偏好性到片段的群体中。碱变性可与5’核酸外切酶处理结合，导致偏好性的进一步减小。例如，使用MDA法扩增片段。在某些实施方式中，MDA反应是基于修改的phi29聚合酶的扩增反应，但是可以使用另一种已知的扩增方法。

在一些实施方式中,设计MDA反应以引入尿嘧啶到扩增产物中。在一些实施方式中，使用利用随机的六聚体的标准MDA反应扩增每个孔中的片段。在许多实施方式中，使用随机的8-mer引物而非随机的六聚体来减小片段群体中的扩增偏好性。在其它实施方式中，还加入数种不同的酶到MDA反应中，以减小扩增偏好性。例如，可使用低浓度的非进行性的5’核酸外切酶和/或单链结合蛋白来产生8-mer的结合位点。还可使用例如甜菜碱、DMSO和海藻糖之类的化学试剂以通过相似的机制减小偏好性。

片段

根据一个实施方式，在DNA的DNA扩增后，扩增产物或扩增子进行一轮的片段化。在一些实施方式中，CoRE方法用于在扩增后于每个孔中的片段进一步片段化。为了使用CoRE方法，设计MDA反应用于在每个孔中扩增片段，以包含尿嘧啶到MDA产物中。还可通过超声降解或酶处理进一步实现MDA产物的片段化。

如果CoRE方法用于片段化MDA产物，则用尿嘧啶DNA糖基化酶(UDG)、DNA糖苷酶裂解酶核酸内切酶VIII和T4多核苷酸激酶的混合物处理扩增的DNA，以切除尿嘧啶碱基，并产生具有功能5’磷酸和3’羟基的单碱基间隔。通过使用例如Taq聚合酶之类的聚合酶的切口平移导致双链的钝的末端断裂，产生依赖于加到MDA反应中的dUTP浓度的大小范围的可连接的片段。在一些实施方式中，使用的CoRE方法涉及通过聚合去除尿嘧啶和通过phi29的链置换。

在片段化MDA产物后，可修复产生的片段的末端。这样的修复是必要的，因为许多的片段化技术可产生突出端部的末端和具有在后来的连接反应中无用的官能基团(例如3’和5’羟基和/或3’和5’磷酸基团)的末端。在本发明的许多方面，具有修复以具有钝的末端的片段是有用的，并且在许多情形下，可合适地改变末端的化学性质，使得不存在磷酸和羟基的正确取向，从而防止靶序列的“聚合”。可使用本领域中已知的方法提供对末端化学性质的控制。例如，在一些情形下，磷酸酶的使用消除了全部的磷酸基团，使得全部的末端包含羟基。然后，可选择地改变每个末端，以允许期望成分的连接。然后，可“活化”片段的一个末端，在一些实施方式中，该“活化”通过用碱性磷酸酶处理来进行。

MT使用小数目的细胞中的一个作为复合核酸的来源

根据一个实施方式，MT方法用于分析单个细胞或小数目的细胞(或从细胞分离的相似数目的核酸)的基因组。在这种情况下分离DNA的工艺与上述方法相同，但是可以更小的体积发生。

如上述，可通过一些不同的方法完成从细胞分离基因组核酸的长片段。在一个实施方式中，裂解细胞，并用温和的离心步骤使得完整的核酸成丸状。然后，通过蛋白酶K释放基因组DNA，并RNase消化几个小时。在一些实施方式中，然后可处理材料，以减小剩余的细胞废物的浓度–本领域中熟知这样的处理，并可包括但不限于透析一段时间(例如，2至16个小时)和/或稀释。由于这样的分离核酸的方法不包括许多破坏性过程(例如乙醇沉淀、离心和涡旋)，所以基因组核酸大部分保持完整，产生多数具有超过150千碱基长度的片段。在一些实施方式中,片段的长度为从约100至约750千碱基。在其它实施方式中，片段的长度从约150至约600、约200至约500、约250至约400，以及约300至约350千碱基。

一旦分离，可仔细地片段化基因组DNA，以避免材料的损失，尤其是避免每个片段末端序列的损失，因为这样的损失将导致最终基因组装配中的间隔。在一些情况下，通过使用不常见的切口酶避免序列损失，所述切口酶为聚合酶(例如phi29聚合酶)在彼此大约100kb的距离产生起始位点。当聚合酶产生新的DNA链时，它取代旧链，最终结果是在接近聚合酶起始位点有重叠序列，导致序列非常少的删除。

在一些实施方式中，5’核酸外切酶的控制使用(在MDA反应前或期间)可促进来自单细胞的原始DNA的多重复制，从而通过拷贝的拷贝而使早期错误的增值最小化。

在一个方面，本发明的方法产生来自单细胞的有质量的基因组数据。假定无DNA损失，则用小数目的细胞(10个或更少)起始而非使用来自大量制剂的等价量的DNA有优点。以少于10个细胞起始确保了基因组的任何给定区域的均匀的覆盖。以5个或更少细胞起始允许每个100kb DNA片段的四倍或更大的覆盖，而没有将读数总量增大到120Gb(6Gb二倍体基因组的20倍的覆盖)以上。然而，大数目的更长DNA片段(100kb或更长)甚至更有益于从少数细胞测序，因为对于任何给定的序列，只有与起始细胞的数目一样多的重叠片段，并且来自两个亲本染色体的重叠片段的出现会造成大量信息的损失。

MT中的第一步通常对于整个基因组扩增为低的偏好性，其尤其可用于单细胞基因组分析。由于操作中的DNA链的断裂和DNA损失，所以甚至单分子测序方法可能需要一些水平的来自单细胞的DNA扩增。单细胞测序的困难来自试图扩增整个基因组。使用MDA对细菌的研究一直受困于最终拼接的序列中约一半的基因组的缺失，在整个这些测序的区域的覆盖率中有相当大的量的变化。这可以部分地解释为具有缺口的起始基因组DNA以及链断裂的结果，其在末端不能被复制，从而在MDA工艺中缺失。MT通过在MDA前产生基因组的长的重叠片段而提供了对该问题的解决方法。为了实现这个，根据本发明的一个实施方式，使用温和的工艺从细胞分离基因组DNA。然后，用常用的切口酶轻轻地处理大部分完整的基因组DNA，产生半随机的带切口的基因组。然后，phi29的链取代能力用于聚合缺口，产出非常长(>200kb)的重叠片段。然后，这些片段用作用于MT的起始模板。

使用MT的甲基化分析

在其它方面，本发明的方法和组合物用于基因组甲基化分析。目前，有几种通常可用于整体基因组甲基化分析的方法。一种方法涉及硫酸氢盐处理基因组DNA，以及对通过甲基化特异的限制酶切片段获得的重复原件或基因组片段测序。该技术产生总甲基化的信息，但是未提供位点特异的数据。下一代更高水平的分辨率使用DNA矩阵，并且受限于芯片上特征的数目。最终，最高分辨率和最昂贵的方法需要在测序整个基因组前的硫酸氢盐处理。使用MT可以测序基因组全部的碱基，并用人基因组的每个胞嘧啶位点的甲基化水平的数字信息组装完整的二倍体基因组(即，5碱基测序)。此外，MT允许将100kb或更大的甲基化序列的块连接到序列单倍体，从而提供甲基化单倍型分析，用当前可用的任何方法不可能获得的信息。

在一个非限制的示例实施方式中，用其中基因组DNA首先用MDA变性的方法获得甲基化状态。然后，用重亚硫酸盐处理DNA(该步骤需要变性DNA)。剩余的制备遵循例如2006年6月13日申请的美国申请序列No.11/451,692(公开为US 2007/0072208)和2008年12月15日申请的美国申请序列No.12/335,168(公开为US 2009/0311691)中描述的那些方法，它们的每个通过引用合并于此以用于所有的目的，并且尤其根据长片段读取技术的教导用于与片段混合物的核酸分析相关的全部教导。

在一个方面，MDA将扩增特定片段的每条链，从而对于任何指定的胞嘧啶位点独立地产生未受重亚硫酸盐影响的50％的读数(即与胞嘧啶相反的碱基，鸟嘌呤未受重亚硫酸盐的影响)以及提供甲基化状态的50％的读数。降低的DNA复杂度有助于精确地映射以及较少的信息量的组装，主要为3-碱基(A、T、G)读数的组装。

已经报道重亚硫酸盐处理使DNA片段化。然而，小心地滴定变性缓冲液及重亚硫酸盐缓冲液可避免基因组DNA过度片段化。MT中允许50％的胞嘧啶转变为尿嘧啶，从而使得减少DNA暴露于重亚硫酸盐能让片段化最小化。在一些实施方式中，可接收某种程度的片段化，因为它不影响单倍型分析。

使用MT分析癌症基因组

已经提出超过90％的癌症在人基因组区域中具有显著的减少或增加，称为非整倍性，已经观察到一些个体的癌症包含一些染色体的过量的四个拷贝。这增加了染色体的拷贝数复杂性，并且染色体内的区域使得实质上更难于对癌症基因组测序。MT测序和组装基因组的非常长的片段(>100kb)的能力使得其很好地适于对完整的癌症基因组测序。

通过测序靶核酸减小错误

根据一个实施方式，即使不进行基于MT的定相，并且使用标准的测序方法，则靶核酸被片段化(如果必要)，并且在扩增前标记片段。MT的优点为可识别由扩增(或其它步骤)引入的错误，并且通过比较从多个重叠的长片段获得的序列而矫正。例如，如果序列数据在特定位点的碱基读出(例如识别特定的碱基，例如A、C、G或T)(例如，参照对照)以两个或更长的片段(或其它阈值数目)或实质上大多数的长片段(例如至少51、60、70或80％)的序列数据存在，其中可限定分母为在特定位置具有碱基读出的片段，那么可接收该碱基读出为真。碱基读出可包括改变het或潜在的het的一个等位基因。如果在特定位点的碱基读出在仅仅一个长的片段(或长片段的其它阈值数目)存在，或以实质上少数的长片段(例如小于10、5或3个片段，或者以相对的数目测量为，例如20或10％)存在，则接收该在特定位点的碱基读出为假。可基于序列数据预先确定或动态确定阈值。如果在特定位置的碱基读出未以基本上少数和基本上大多数的预期的片段(例如40～60％)存在，则可转变/接收该在特定位置的碱基读出为“未读出”。在一些实施方式和实现方案中，可使用各种参数(例如，分布、可能性和/或其它函数或统计)表征可认为是实质上少数或实质上多数的片段。这样的参数的实例包括但不限于下面的一个或多个：识别特定碱基的碱基读出的数目、在特定位置读出的碱基的覆盖率或总数；包括特定碱基读出的产生序列数据的独特片度的数目和/或识别；在特定位置包含至少一个碱基读出的产生序列数据的独特片度的数目；在特定位置的参考碱基以及其它。在一个实施方式中，对于特定碱基读出的上述参数的组合可输入函数，以确定对于特定碱基读出的分值(例如概率)。可比较得分与一个或多个阈值，以部分确定碱基读出是否可接收(例如大于阈值)、错误(例如小于阈值)或未读出(例如，如果对于碱基读出的全部分值小于阈值)。确定碱基读出可依赖于其它碱基读出的分值。

作为一个基本的例子，如果在超过35％(分值的实例)的包含在目的位点的读数的片段中发现碱基读出A，并且在35％的这些片段中发现碱基读出C，并且其它碱基读出各自具有小于20％的分值，那么可认为该位点为由A和C组成的het，可能服从其它标准(例如，在目的位点包含读数的片段的最小数目)。因此，每个分值可输入其它函数(例如，可使用比较或模糊逻辑的直观推断)，以提供对于上述位置的碱基读出的最终确定。

作为另一个实例，包含碱基读出的特定数目的片段可用作阈值。例如，当分析癌症样品时，可能有低流行的体细胞突变。在这样的情况下，碱基读出可在少于10％的覆盖上述位置的片段中出现，但是仍然可认为碱基读出正确，可能服从其它标准。因此，各种实施方式可使用绝对数目或相对数目，或者两者(例如，作为比较或模糊逻辑的输入)。并且，这样数目的片段可输入函数(如上述)，以及对应于每个数的阈值，并且函数可提供分值，分值也可与一个或多个阈值比较，以做出在特定位置的碱基读出的最终确定。

误差矫正函数的另一个实例涉及原始读数中的测序错误，导致与其它变化的读出和它们的单倍型不一致的假定的变化的读出。如果在9个和8个属于各自单倍型的片段中发现20个变体A的读数，并且在6个孔中发现变体G的7个读数(其中5个或6个与具有A读出的片段共享)，逻辑可将变体G作为序列错误排除，因为对于二倍体基因组，在每个单倍型的位置仅能存在一个变化。变体A支持实质上更多的读数，并且G读数基本上遵循A读数的片段，表明它们它们最可能通过错误读取G而不是读取A。如果读数G几乎独特在来自A的单独的片段中，这表明读数G被错误地定位，或者它们来自污染的DNA。

用短的串联重复识别区域中的扩增

DNA中的短的串联重复(STR)是具有强的周期模式的DNA片段。当两个或更多个核酸的模式重复，并且重复的序列直接彼此邻近时，发生STR；重复可以是完整的或不完整的，即可以有少数不匹配周期基序的碱基对。模式长度通常为2～5个碱基对(bp)。STR通常位于非编码区，例如内含子中。当同源STR位点在个体间重复的数目不同时，出现短的串联重复多态性(STRP)。STR分析通常用于确定法医鉴定目的的遗传图谱。在基因的外显子中出现的STR可表示与人的疾病相关的高突变区域(Madsen et al,BMC Genomics 9:410,2008)。

在人基因组(以及其它有机体的基因组)中，STR包括三核苷酸重复，例如CTG或CAG重复。在DNA复制过程中由滑动引起的还称为三重复扩增的三核苷重复扩增，并且与某些归类为三核苷重复疾病(例如亨廷顿疾病)的某些疾病相关。通常，扩增越大，越可能引起疾病，或者提高疾病的严重性。该性质导致在三核苷重复疾病中看到的“预期”的特征，即疾病发生的年龄减小的趋势，并且通过由于这些重复的扩增导致的受影响家族的连续产生，提高了症状的严重性。识别三核苷重复中的扩增可用于精确地预测三核苷重复疾病的发生年龄和疾病的发展。

难于使用下一代的测序方法识别例如三核苷重复的STR的扩增。这样的扩增不可以映射，并在文库中缺失或不充分。使用MT可能看到STR区域中序列覆盖的显著下降。例如，与不具有这样的重复的区域相比，具有STR的区域将特征性地具有较低水平的覆盖度，并且如果所述区域扩增，则在所述区域中将有覆盖度的显著下降，可在相对于基因组中的位置在覆盖率的图中观察到。

例如，如果序列覆盖平均为约20，则如果影响的单倍型在扩增区域中具有零覆盖，那么具有扩增区域的区域将具有显著的下降，例如下降至10。因此，发生50％的下降。然而，如果比较两个单倍型的序列覆盖，在正常单倍型中的覆盖为10，并且在受影响的单倍型中为0，下降为10，而且总体100％的百分比下降。或者，可分析相对量，对于组合的序列覆盖为2:1(正常相对于扩增区域的覆盖)，但是为10:0(单倍型1相对于单倍型2)，其为无限大或零(依赖于如何形成比例)，因此差别大。

序列数据的诊断用途

使用本发明的方法产生的序列数据用于各种目的。根据一个实施方式，本发明的测序方法用于识别复杂核酸的序列(例如整个基因组序列)中的序列变化，即关于患者或胚胎或胎儿的特征或疾病状态的信息，例如胚胎或胎儿的性别，或者具有遗传组成的疾病的存在或预测，包括，例如囊性纤维化、镰状细胞性贫血、马凡氏综合症、亨廷顿病和血色素沉着症或各种癌症，例如乳腺癌。根据另一个实施方式，本发明的测序方法用于提供来自患者的一个和20个细胞之间开始的序列信息(包括但不限于胎儿或胚胎)，并基于序列拼接患者的特征。

癌症诊断

全基因组测序在疾病遗传基础的评估中是有价值的工具。已知许多疾病有遗传基础，例如囊性纤维化。

全基因组测序的一个应用为理解癌症。下一代测序对癌症基因组的最显著影响为具有再测序、分析并比较单个患者以及指定癌症类型的多个患者的匹配的肿瘤和正常基因组能力。使用全基因组测序，可考虑序列变化的整个谱，包括生殖细胞的易感位点、单核苷酸多态性(SNP)、小的插入和缺失(indel)突变、拷贝数变异(CNVs)和结构变异(SVS)。

通常，癌症基因组包括患者的种系DNA，根据种系DNA，其体细胞基因组变化叠加。通过测序识别的体细胞突变可分类为“驱动”突变或“过客”突变。所谓的驱动突变为通过给予生长或存活优点给细胞而直接有助于肿瘤演化的的那些。过客突变包括在细胞分裂、DNA复制和修复的错误期间获得的中性体细胞突变；可在细胞表型正常的同时或在肿瘤变化的迹象后获得这些突变。

历史上，已经尝试说明癌症的分子机制，并且已经鉴别几个“驱动”突变或生物标记，例如HER2/neu2。基于这些基因，开发了治疗方案，以特异地靶向具有已知的基因变化的肿瘤。该方法最好限定的实例为在乳腺癌细胞中通过trastuzumab(Herceptin)靶定HER2/neu。然而，癌症不是简单的单基因遗传病，而是反而由个体间可以不同的基因改变的组合表征。因此，对基因组的这些另外的扰乱可对某些个体产生一些给药方案的无效。

可从整个肿瘤的活组织(包括少量细胞的显微活组织检查)、从患者的血液或其它体液分离的癌细胞、或从本领域中已知的任何其它来源获得全基因组测序的癌症细胞。

植入前遗传学诊断

本发明的方法的一个应用为植入前遗传诊断。约2～3％的出生的婴儿具有一些类型的主要出生缺陷。由于反常地分离遗传材料(染色体)，一些问题的危险随母亲的年龄而上升。约50％的时间，这些类型的问题是由于Down综合症导致的，其是第三拷贝的染色体21(Trisomy 21)。另一半时间，产生于其它类型的染色体反常，包括三体、点突变、结构变异，拷贝数变异等。这些染色体问题的许多导致严重受影响的婴儿或者甚至不会存活到分娩。

在医学和(临床)遗传学中，植入前遗传诊断(PGD或PIGD)(还称为胚胎筛查)是指在植入前对胚胎(有时甚至在受孕前对卵母细胞)进行的方法。PGD可允许患者避免选择性的妊娠终止。术语植入前遗传筛查(PGS)用于表示不是查找特定的疾病而是使用PGD技术识别由于例如可导致疾病的遗传状况而有风险的胚胎的方法。在受孕前对性细胞进行的方法可替代地称为卵母细胞或精子选择的方法，虽然所述方法和目的部分地与PGD重叠。

胚胎植入前的基因分析(PGP)是辅助生殖技术以对看来具有成功妊娠的最大机会的胚胎进行选择的方法。当用于高龄产妇年龄的妇女以及用于具有重复的体外受精(IVF)失败的患者，进行PGP主要筛查检测染色体异常，例如非整倍体、相互和罗伯逊易位以及其他异常如染色体倒位或缺失。此外，PGP可检查特征的遗传标记，包括各种疾病状态。使用PGP的原理为，因为已知许多染色异常解释了多数受孕失败的情况，并且大比例的人胚胎为非整倍性，整倍性胚胎的选择替换应提高成功IVF治疗的几率。全基因组测序提供了如阵列比较基因组杂交(aCGH)，定量PCR和SNP微阵列等全面染色体分析方法的替代。例如，整体的全基因组测序可提供关于单碱基变化、插入、删除、结构变化和拷贝数目的变化的信息。

由于可对来自不同发育阶段的细胞进行PGD，所以活组织检查的方法可相应地变化。可在所有植入前进行活组织检查，包括但不限于受精或未受精的卵膜细胞(对于极性体，PB)、第三天分裂胚胎(对于卵裂球)以及囊胚(对于滋养层细胞)。

测序系统和数据分析

在一些实施方式中，可通过测序系统进行DNA样品的测序(例如，表示整个人染色体的样品)。图5A和图5B描述了测序系统的两个样本。

图5A和图5B为根据文中描述的实施方式配置以进行用于核酸序列分析的技术和/或方法的示例测序系统190的方框图。测序系统190可包括或关联于多个子系统，例如，一个或多个测序仪，如测序仪191，一个或多个计算系统，例如计算系统197，以及一个或多个数据库，例如数据存储195。在图5A中描述的实施方式中，系统190的各子系统可通过一个或多个网络193通信地连接，网络193可包括包交换或其它类型的网络基础设备(例如，路由器、开关等)，其可配置以促进远程系统之间的信息交换。在图5B描述的实施方式中，测序系统190为一种测序仪，其中各种系统(例如测序仪191、计算系统197以及可能的数据存储195)通信地和/或有效连接并在测序仪中集成的部件。

在一些操作环境中，可在云运算环境196下配置图5A和图5B中描述的数据存储195和/或数据存储195的实施方式。在云运算环境下，可配置或示例化包括数据库的存储装置和/或包括计算系统的计算设备用于功用和需要；因此，提供云计算环境以服务基础设施(例如物理和虚拟机、原始/块存储，防火墙，负载平衡器，聚合器，网络，存储集群)，平台(例如，计算设备和/或软件栈，其可包括操作系统、编程语言执行环境、数据服务器、网络服务器、应用服务器等)，以及执行存储相关和/或计算任务必需的软件(例如，应用、应用程序界面或API等)。

注意到各种实施方式中，可在通过包括一些或全部上述各种配置和形态因子的子系统和部件执行文中描述的技术(例如，测序系统、计算系统和数据库)；因此，以说明而非限制的意义上考虑图5A和5B中描述的示例性实施方式和配置。

配置测序仪191，使其可接收来自生物样品的片段的靶核苷酸192，并对靶核苷酸进行测序。可使用任何可进行测序的任何合适的仪器，这样的仪器可使用各种测序技术，包括但不限于杂交测序、连接法测序、合成测序、单分子测序、光学序列检测、电磁序列检测、电压变化测序检测以及任何其它用于从DNA产生序列读数的目前已知或将来发展的技术。在各种实施方式中，测序仪可以测序靶核酸，并可产生包括或不包括间隔或者可为或可不为匹配对(配对端)读数的测序读数。如图5A和5B中描述，测序仪191对靶核苷酸192测序，并获得测序读数194，为存储(临时和/或长期地)到而传输其一个或多个数据存储195和/或用于被一个或多个计算系统197处理。

数据存储195可在一个或多个存储装置(例如硬盘驱动器、光盘、固态硬盘等)上实施，存储装置可配置为系列的磁盘(例如SCSI阵列)、存储集群或任何其它合适的存储设备组织。可配置数据库的存储装置为系统190的内部/不可分部件，或作为连接到系统190的外部部件(例如外部硬盘驱动或磁盘阵列)(例如，图5B中描述)，以及/或者以合适的方式通信地相互连接例如网格、存储集群、存储区域网络(SAN)和/或网络附加存储(NAS)(例如图5A中描述)。在各种实施方式和实现方案中，数据存储可在存储设备上实施作为一种或多种存储信息为文件的文件系统，作为在数据记录中存储信息的一个或多个数据库，以及/或者作为其它任何合适的数据存储结构。

计算系统197可包括一个或多个计算设备，包括通用处理器(例如中央处理器或CPU)、存储器和计算逻辑199，其与配置数据和/或操作系统(OS)软件一起可执行一些或全部的文中描述的技术和方法，和/或控制测序仪191的操作。例如，可通过包括处理器的计算设备完全或部分地执行本文中所述的任何方法(例如错误矫正、单倍型分型等)，可配置处理器来执行逻辑199,从而执行方法的各个步骤。此外，虽然方法步骤可表现为编号的步骤，但应理解可在相同的时间(例如被一群计算设备平行地)或以不同顺序执行文中描述的方法的步骤。计算逻辑199的功能可实施为单集成模块(例如以逻辑集成)或可与两个或更多个可提供一些另外的功能的软件模块结合。

在一些实施方式中，计算系统197可为单一计算设备。在其它实施方式中，计算系统197可包括多个在网格、集群或云计算环境中通信地和/或有效连接的计算设备。可以不同的形态因子(例如计算节点、叶片(blade)或其它任何合适的硬件配置)配置这样的多计算设备。由于这些原因，认为图5A和5B中的计算系统197为示例性，而非限制性的。

图6为可被配置以执行用于实现各种数据处理和/或控制功能的作为测序仪和/或计算系统的一部分的指令的示例计算设备200的框图。

图6中，计算设备200包括几个直接连接或通过一条或多条例如总线275之类的系统总线间接连接的组件。这样的组件包括但不限于键盘278、永久存储设备279(例如固定磁盘、固态硬盘、光盘等)，以及可连接一个或多个显示装置(例如LCD监视器、平板监视器、等离子体屏幕等)的显示适配器282。连接到输入/输出(I/O)控制器271的外围和I/O装置可通过任何数目的本领域中已知的装置连接到计算设备200，包括但不限于一个或多个串行端口，一个或多个并行端口以及一个或多个通用串行总线(USB)。外部接口281(其可包括网络接口卡和/或串行端口)可用于连接计算设备200到网络(例如互联网或局域网(LAN))。外部接口281还可包括许多可从各种外部装置接收信息的输入接口，例如测序仪或其任何组件。通过系统总线275的连接允许一个或多个处理器(例如CPU)273与每个连接的组件通信，并执行来自系统存储272和/或来自存储设备279的指令(和/或控制其执行)，以及在各种组件间交换信息。系统存储器272和/或存储设备279可实现为一个或多个存储由处理器273执行的指令序列以及其它数据的计算机可读的永久存储介质。这样的计算机可读的永久存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电磁介质(例如如硬盘驱动器、固态驱动器、U盘、软盘等)，光学介质，如光盘(CD)或数字通用光盘(DVD)、闪存等。各种数值和其它结构化或未结构化的信息可从一个组件或子系统输出到另一个组件或子系统，可通过显示适配器282和合适的显示装置呈现给用户，并可通过网络经外部界面281发送到远程装置或远程数据存储，或者可(临时和/或长久地)存储在存储装置279上。

可以模块或集成的模式使用硬件和/或计算机软件，以逻辑形式实施由计算设备200进行的任何方法和功能。如文中使用，“逻辑”是指一组指令，该指令当被一个或多个计算设备的一个或多个处理器(例如CPU)执行时，可操作以进行一个或多个功能和/或返回一种或多种结果形态的数据或被其它逻辑元件使用的数据。在各种实施方式和实现方式中，任何指定的逻辑可实施为可被一个或多个处理器(例如CPU)实施的一个或多个软件组件，实施为一个或多个硬件，例如专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)，或者实施为一个或多个软件组或一个或多个硬件组件的任何组合。可无限制地将任何特定逻辑的软件组件实施作为：独立的软件应用，客户服务器系统中的客户，客户服务器系统中的服务器，一个或多个软件模块，一个或多个函数库，以及一个或多个静态和/或动态连接的文库。在执行期间，任何特定逻辑的指令可实施为一个或多个计算机过程、线程、纤维，以及任何其它的合适的可在一个或多个计算设备的硬件上实施并可分配计算资源的时间运行的实体，可包括但不限于存储、CPU时间、存储空间和网络带宽。

用于MT过程的技术和算法

碱基读出

在一些实施方式中，数据提取可依赖于两种类型的图像数据：亮场图像以划分全部DNB在表面上的位置，以及在每个测序循环获得的荧光图像组。数据提取软件可用于识别具有亮场图像的全部目标，然后对于每个这样的目标，软件用于计算每个测序循环的平均荧光值。对于任何指定的循环，有四个数据点，对应于在不同的波长拍摄的四个图像，以查询碱基是否为A、G、C或T。合并这些原始数据点(文中还称为“碱基读出”)，对于每个DNB产生不连续的序列读出。

计算设备可组装识别的碱基群体，提供靶核酸的序列信息和/或鉴别靶核酸中特定序列的存在。例如，计算设备可根据文中描述的技术和算法通过执行各种逻辑而组装所识别的碱基群体；这样的逻辑的实例为以任何合适的编程语言编写的软件代码，编程语言如Java、C++、Perl、Python和其它任何合适的常规的和/或面向对象的编程语言。当以一种或多种计算机进程的形态实施时，这样的逻辑可读、可写以及/或者说处理可以各种结构存储在永久存储器和/或非永久存储器上的结构化或非结构化的数据；这样的存储结构的实例包括但不限于文件、表格、数据库记录、阵列、列表、向量、变量、内存和/或处理寄存器、从面向对象的实例化的长久和/或存储的数据对象以及其它任何合适的数据结构。在一些实施方式中，通过比对从在多个DNB上进行的多个测序循环获得的重叠序列，从而组装识别的碱基成完整的序列。如文中使用，术语“完整的序列”是指部分或全部基因组的序列，以及部分或全部靶核酸的序列。在其它实施方式中，一个或多个计算设备或其计算逻辑进行的组装方法使用可用于“拼接”重叠序列到一起的算法，以提供完整的序列。在另一些实施方式中，对照表用于辅助拼接识别的序列成完整的序列。可使用现有的选择的有机体的测序数据编译对照表。例如，可通过在ftp.ncbi.nih.gov/refseq/release上的国家生物信息中心或通过J.Craig Venter Institute获取人基因组数据。全部或部分人基因组信息可用于构建特定测序查询的对照表。此外，可由来自特定群体的实验数据构建具体的参考表，包括具有特定种族、地理遗传、宗教或文化限定的群体的人的遗传序列，因为人基因组中的变异可倾向参考数据，具体取决于其中包含的信息的来源。

在文中公开的本发明的任一实施方式中，核酸模板和/或DNB的群体可包括许多靶核酸，基本覆盖整个基因组或整个靶多核苷酸。如文中使用，“基本覆盖”意思是分析的核苷酸(即靶序列)的量包含当量的至少两个拷贝的靶多核苷酸，或者在另一方面，至少10个拷贝，或者再另一方面，至少20个拷贝，或者在另一方面，至少100个拷贝。靶多核苷酸可包括DNA片段，包括基因组DNA片段和cDNA片段，以及RNA片段。重构靶核酸的步骤的指南可以在以下通过引用并入本文的参考文献找到：Lander et al,Genomics,2:231-239(1988)、Vingron et al,J.Mol.Biol.,235：1-12(1994)；以及相似的文献。

在一些实施方式中，对测序的复合核苷酸的每个查询位点产生对于四种图像，每种颜色颜料对应一种图形。通过调节颜料和背景强度之间的串扰可确定每个位点在图像中的位置以及对于四种颜色中的每种的产生的强度。定量模型适于生成的四维数据集。对于指定的位点读出碱基，具有反应四种强度多大强度上符合模型的质量分值。

可通过一个或多个计算设备或其计算逻辑系统以几个步骤进行每个区域的四个图像的碱基读出。首先，使用矫正的图形“图像打开”操作矫正图像强度的背景。由于DNB的位置与相机像素位置对齐，所以进行强度提取作为从背景矫正图像简单读出的像素强度。然后，如下述，针对光学和生物信号串扰的几个来源矫正这些强度。然后，传输矫正的强度到预测模型，最终对每个DNB产生可能的四个碱基读出结果的成组的四个概率。然后，结合几个度量，以使用预装的逻辑回归计算碱基读出分值。

强度矫正

使用可实施为被一个或多个计算设备执行的计算逻辑的线性回归模型矫正生物和光学串扰的几个来源。线性回归模型优于计算地更昂贵且产生相似质量结果的卷积方法。光学串扰的来源包括四种荧光燃料谱之间的滤波带重叠，以及由于在它们紧邻的光衍射导致的相邻DNB之间的横向串扰。串扰的生物来源包括前面循环的不完全洗涤、探针合成错误和相邻位置的探针“滑动”污染信号、当从锚询问“外面”(更远)的碱基时不完全的锚延伸。线性回归用于确定可使用相邻DNB的强度或前面循环或其它DNB位置的强度预测的DNB强度的部分。然后，从最初提取的强度减去可被这些串扰源解释的强度的部分。为确定回归系数，线性回归模型左侧的强度需要主要仅由“背景”强度(即，执行回归的未读出指定碱基的DNB的强度)组成。这需要使用最初强度进行的预读出步骤。一旦选择不具有特定碱基读出的DNB(具有合理的置信度)，计算设备和/或其计算逻辑执行串扰源的同时回归分析：

使用上述回归矫正相邻的DNB串扰。同样，使用在全部可用的DNB位置涉及全部相邻者的线性模型矫正每个DNB特定的邻居。

碱基读出可能性

使用最大强度的碱基读出未导致对于四种碱基的背景强度分布的不同形状。为解决这样的可能的差异，基于背景强度的经验概率分布开发了概率模型。一旦矫正强度，计算设备和/或其计算逻辑使用最大的强度预读出一些DNB(具有某些置信度阈值的DNB)，并使用这些预读出的DNB导出背景强度分布(未读出指定碱基的DNB的强度的分布)。当获得这样的分布时，计算设备可计算每个DNB在上述分布下的尾概率，描述了作为背景强度的强度的经验概率。因此，对于每个DNB以及四种强度中的每种，计算设备或其逻辑可获得或存储它们的作为背景的概率然后，计算设备可使用这些概率计算全部可能的碱基读出的概率。还需要可能的碱基读出结果描述可加倍的点或通常被DNB多重占据或未占据的点。组合计算的概率与它们先前的概率(对于多重占据或空白的点较小)产生了16种可能结果的概率：

然后可组合这16个概率，以获得对于四种可能的碱基读出的四个概率的缩减集。即：

分值计算

使用逻辑回归导出分值计算公式。计算设备和/或其计算逻辑拟合逻辑回归分析，以使用几个量度作为输入映射碱基读出的结果。量度包括读出的碱基与接下来的最高碱基之间的概率值、读出的碱基强度，指示碱基读出身份的变量，并且描述字段的总的聚类质量的量度。转变全部量度以与不一致与一致的读出之间的对数差异比共线。使用交叉验证改善模型。使用具有最终逻辑回归系数的logit函数计算生产中的分值。

映射和组装

在其它实施方式中，读取数据以紧凑的二进制格式进行编码，并且同时包括读出的碱基和质量分值。质量分值与碱基精确性相关。包括序列组装软件的分析软件逻辑可使用分值，以确定读出的单个碱基的证据贡献。

由于DNB的结构，读数可有“缺口”。由于酶消化的内在可变性，缺口的大小变化(通常+/-1个碱基)。由于cPAL的随机可存取的性质，读数有时在其它高质量的DNB中可具有未读出的碱基(“未读出”)。配对读出的对。

可使用能够对齐读出数据到参照序列的映射软件逻辑映射上述测序方法产生数据。当被一个和多个计算设备执行时，这样的映射逻辑通常能耐受相对于参照序列的小的变化，例如单个基因组的变化、读出错误或未读出的碱基引起的那些。该性质通常允许SNP的直接重建。为支持包括大范围的结构变化或密度变化区域的较大的变异体的组装，可在对齐后用配对约束单独映射DNB的每条臂。

如本文中使用的，术语“序列变体”或简单地“变体”包括任何变体，包括但不限于一个或多个碱基的取代或替换、一个或多个碱基的插入或删除(还称为“indel”)、转位、转换、复制或拷贝数的变化(CNV)、三核苷酸重复扩增、结构变化(SV，例如染色体内重排或染色体间重排，例如易位)等。在二倍体基因组中，“杂合”或“het”是基因对的特定基因的两个不同的等位基因。两个不同的等位基因可为不同的突变或与突变配对的野生型等位基因。该方法还可用于分析非二倍体生物，无论这样的生物是单倍体(haploid/monoploid，N＝1，其中，N＝染色体的单倍体数目)、或多倍体或非整倍体。

序列读数的组装可使用支持DNB读出结构的软件(具有未读出碱基的配对的、有缺口的读数)，以产生二倍体基因组装，从而对于定相杂合位点，可提供本发明的产生序列信息MT方法。

本发明的方法可用于重构参照序列中不存在的新片段。在一些实施方式中，可使用利用证据推理(Bayesian)和基于Bruijin graph的算法的组合的算法。在一些实施方式中，可使用每个数据集经验校准统计模型，从而允许使用全部读出数据，不需要预过滤或数据整理。还可使用杠杆成对读数检测大规模结构变化(包括但不限于删除、易位等)以及拷贝数的变化。

定相MT数据

图7描述了定相MT数据的主要步骤。这些步骤如下：

(1)使用MT数据构造图形：一个或多个计算设备或其逻辑产生无向图，其中，顶点表示杂合的SNP，并且边缘表示这些杂合的SNP之间的联系。边缘包括连接的方向和强度。一个或多个计算设备可在存储结构中存储这样的图，包括但不限于文件、表、数据库记录、阵列、列表、向量、变量、内存和/或处理器寄存器、从面向对象类实例化的永久和/或内存数据对象，以及任何其它合适的短暂和/或永久的数据结构。

(2)使用配对数据构建图形：步骤2与步骤1相似，其中与MT数据相反，基于配对数据构建连接。对于连接的制造，发现DNB在相同读数(相同的臂或配对的臂)中具有两个杂合的目的SNP。

(3)图形组合：计算设备和/或其计算逻辑通过NxN稀疏矩阵表示上述图形中的每个，其中N是在上述染色体上的候选杂合SNP的数目。两个节点在上述方面的每种中仅具有一个连接。当两种方法结合时，对两个节点具有高达两个节点。因此，计算设备和/或其计算逻辑可使用选择算法，以选择一个连接作为选择的连接。配对数据的质量显著地低于MT数据的质量。因此，仅使用MT衍生的连接。

(4)图形修整：通过计算设备设计和应用一系列的直观推断法，以存储图形数据，以去除一些错误的连接。更具体地，节点可满足在一个方向至少两个连接和在其它方向一个连接的条件；否则，淘汰。

(5)图形优化：计算设备和/或其计算逻辑通过产生最小跨度树(MST)优化图形。设定能量函数为-|strength|。在该方法中，可能时，由于与更强的路径竞争，因而消除低强度边缘。因此，MST提供了对于最强和最可靠连接的天然选择。

(6)构建重叠群：一旦最小生成树产生以及/或存储在计算机可读的介质中，计算设备或其逻辑可用取得的一个节点(这里，第一个节点)常数重定向全部的节点。该第一个节点是锚节点。然后，对于每个节点，计算设备发现到锚节点的路径。实验节点的方向是路径边缘的方向的集合。

(7)通用定相：在上述步骤后，计算设备或其逻辑定相在前述步骤中构建的每个重叠群。这里，该部分的结果称为预定相，与定相相反，表示这不是最终定相。由于任意地选择第一节点为锚节点，因此整个重叠群的定相不必与亲本染色体一致。对于通用定相，使用在可使用trio信息的重叠群的少数杂合SNP。然后，这些trio杂合SNP用于识别重叠群的比对。在通用定相步骤结束时，合适地标记了全部的重叠群，因此可认为是遍及染色体的重叠群。

做出重叠群

为了做出重叠群，对于每个杂合的SNP对，计算设备和/或其计算逻辑检测两个假设：正向取向和反向取向。正向取向意思是两个杂合SNP以它们最初列出(最初的字母顺序)的方式相同的方式连接。反向取向意思是两个杂合的SNP以它们最初列出的的顺序相反的顺序连接。图8描述了相邻杂合SNP的配对分析，涉及分配正向取向和反向取向到杂合的SNP对。

每个方向具有数字支持，显示了相应假设的有效性。该支持是图9中显示的连接矩阵的16个细胞的函数，显示了假设的选择的实例，并给它赋值。为简化函数，变量16简化为3：能量1、能量2和掺杂。能量1和能量2为对应于每个假设的两个最大的值。掺杂是全部其它细胞(除了相应于假设的两个)的和与矩阵中细胞的总的和之间的比。基于相应细胞的和进行两个假设之间的选择。具有最高值的假设是取胜的假设。下面的计算仅用于分配假设的强度。强的假设为对于能量1和能量2具有高的值以及对于掺杂具有较小的值的一个。

三个度量能量1、能量2和掺杂输入模糊推理系统(图10)，以减小它们的效果为单一的值–分值–在0和1之间(并且包括0和1)。模糊干扰系统(FIS)实施为可被一个或多个计算设备执行的计算逻辑。

对在达到预期重叠群长度(例如20～50Kb)的合理距离内的每个杂合的SNP对进行连接操作。图6显示了图形构造，描述了三个附近的杂合SNP的一些示例的连接和强度。

模糊推理机的规则定义如下：

(1)如果能量1小，并且能量2小，则分值非常小。

(2)如果能量1为中等，并且能量2小，则分值小。

(3)如果能量1为中等，并且能量2为中等，则分值为中等。

(4)如果能量1为大，并且能量2小，则分值为中等。

(5)如果能量1为大，并且能量2为中等，则分值为大。

(6)如果能量1为大，并且能量2为大，则分值为非常大。

(7)如果掺杂小，则分值大。

(8)如果掺杂为中等，则分值小。

(9)如果掺杂大，则分值非常小。

对于每个变量，对小、中等和大的定义是不同的，并且由其具体的从属函数支配。

在应用模糊推理系统(FIS)于每个变量组后，通过模糊推理系统传送输入集合对规则的贡献，并且在输出产生单个(解模糊化)数--分值。该分值限于0和1之间，1显示最高的质量。

在应用FIS到每个节点对之后，计算设备和/或其计算逻辑构建完整的图。图11显示了这样的图的实例。根据获胜假说的方向着色节点。由对目的杂合SNP对应用FIS而推导每个连接的强度。一旦构建初步的图(图11上部的图)，计算设备和/或其计算逻辑优化所述图(图11下部的图)，并还原其为树。通过由最初的图做出最小生成树(MST)而进行该优化过程。MST保证了每个节点对于任何其它节点的独特的路径。

图11显示了图形的优化。在该应用中，在每个重叠群上的第一个节点用作锚节点，并且全部其它的节点导向所述节点。依赖于取向，每个命中将具有交换(flip)或不具有flip，以便匹配锚节点的取向。图12显示了对于指定实例的重叠群的对齐方法。在该方法结束时，可使用定相的重叠群。

在定相过程的这个点，分离两种单倍型。虽然已知这些单倍型的一个来自母亲，并且一个来自父亲，但是不能确切地知道哪一个来自哪一个亲本。在下一步的定相中，计算设备和/或其计算逻辑尝试分配正确的亲本标签(母亲/父亲)给每个单倍型。该方法称为通用定相。为了这样做，需要知道至少一些杂合SNP(在重叠群上)与亲本的关联。可通过进行Trio(母亲-父亲-孩子)定相而获得该信息。使用trio's测序基因组，识别了一些具有已知的亲本关联的基因座–当至少一个亲本是纯和时更特异。然后，计算设备和/或其计算逻辑使用这些关联，以分配矫正的亲本标签(母亲/父亲)到整个重叠群，即，进行亲本辅助的通用定相(图13)。

为了保证高的准确率，执行如下步骤：(1)当可能时(例如，在NA19240的情形下)，从多个来源获得三倍的信息，并使用这些来源的组合；(2)要求重叠群包括至少两个已知的三定相基因座；(3)消除在行中具有一系列的trio不匹配的重叠群(表示分段错误)；和(4)消除在trio基因座的末端具有单trio不匹配的重叠群(表示潜在的分段错误)。

图14显示了天然的重叠群分离。无论是否使用亲本数据，重叠群自然经常不持续超过某个点。重叠群分离的原因为：(1)在某些区域超过通常的DNA片段或缺少扩增、(2)低的杂合SNP密度、(3)对照基因组上的聚N序列以及(4)DNA重复区域(易于错误地绘制)。

图15显示了通用定相。通用定相的一个主要优点为能够获得全基因组“重叠群”的能力。这可能是因为每个重叠群(在通用分相后)携带单倍型，具有正确的亲本标签。因此，携带标签母亲的全部的重叠群可在相同的单倍型上；并且对于父亲的重叠群可进行相似的操作。

MT方法的另一个主要优点为其能够显著地提高杂合SNP读出精确性的能力。图16显示了由MT方法产生的误差检测的两个实例。图16(左侧)显示了第一个实例，其中连接矩阵未支持任何预期的假设。这表明杂合SNP中的一个实际上不是杂合的SNP。在这个实例中，A/C杂合SNP实际上是杂合的基因座(A/A)，由装配器错误标记为杂合的基因座。可鉴别该错误，并且消除或矫正(在这个情形下)。图17显示了第二个实例(右侧)，其中对于该情形的连接矩阵同时支持两个假设。这是杂合SNP读出不真实的信号。

“健康”的杂合SNP连接矩阵仅具有两个高的孔(在预期的杂合SNP位置，即不在直线上)。全部其它的可能性指向潜在的问题，并且可被消除，或者可用于做出对目的基因座的交替的碱基读出。

MT方法的另一个优点为能够读出具有弱的支撑的杂合SNP(例如，由于偏好性或错配率难于绘制DNB)。由于MT方法需要杂合SNP的额外约束，因此可减小杂合SNP读出在非MT汇编程序中需要的阈值。图17显示了该情形的实例，其中尽管小数目的读数，仍可做出置信的杂合SNP读出。图17(右侧)在正常情况下，小数目的支持读数将阻止任何组装器确信地读出相应的杂合SNP。然而，由于连接矩阵是“干净”，可更确信地分配杂合SNP读出到这些基因组。

注释剪接位点的SNP

转录的RNA在变成mRNA之前，需要剪切掉内含子。剪接的信息包含在这些RNA的序列中，并且基于一致序列。剪接位点一致序列的突变引起许多人类疾病(Faustino andCooper,Genes Dev.17:419-437,2011)。大多数剪接位点符合在外显子周围的固定位置的简单一致。在这方面，开发程序以注释剪接位点突变。在这个程序中，使用一致的剪接位置模型(可从College of Computer,Mathematical and Natural Sciences website,perSteve Mount获得)。对模式进行查找：外显子的5’端区域的CAG|G(“|”表示外显子的开始)和相同外显子的3‘末端区域中的MAG|GTRAG(“|”外显子的结束)。这里，M＝{A,C},R＝{A,G}。此外，剪接一致位置分类成两个类型：类型I，需要模型的一致性为100％；以及类型II，在>50％的情况下保持模型的一致性。假定地，类型I位置的SNP突变将引起剪接的缺失，而类型II位置中的SNP仅减小剪接事件的效率。

注释剪接位点突变的程序逻辑包括两部分。部分I，从输入的对照基因组产生包含模块位置序列的文件。部分2，来自测序计划的SNP与这些模块位置序列比较，并报道任何类型I和类型II的突变。程序逻辑以外显子为中心而非以内含子为中心(例如方便解析基因组)。对于指定的外显子，我们在其5’末端寻找一致的“cAGg”(位置-3、-2、-1、0，0意味着外显子的开始)。大写字母表示类型I的位置，并且小写字母表示类型II的位置)。在外显子的3’末端，查找一致的“magGTrag”(对于位置序列-3、-2、-1、0、1、2、3、4)。简单地忽略未确认这些要求的来自基因组发布的外显子(全部的情况的～5％)。这些外显子落入其它较小类别的剪切位点一致序列，并且未被程序逻辑研究。来自测序的基因组的任何SNP在这些基因组位点与模式序列相比较。报道了类型I中的任何错配。如果突变偏离了一致序列，则报道类型II位置的错配。

上述程序逻辑检测大多数差的剪接位点突变。报道的差的SNP肯定是有问题的。但是，有许多其它引起该程序不能检测的剪接问题的差的SNP。例如，在人基因组内有许多未确认上述一致的内含子。同样，内含子中间的分支点的突变还可引起剪接问题。未报道这些剪接位点的突变。

注释影响转录因子结合位点(TFBS)的SNP

JASPAR模块用于从发布的人基因组序列发现TFBS(build 36或build 37)。JASPARCore为脊椎动物的130TFBS位置频率数据的集群，建模为矩阵(Bryne et al.,Nucl.AcidsRes.36:D102-D106,2008；Sandelin et al.,Nucl.Acids Res.23:D91-D94,2004)。这些模块从JASPAR网站(http://jaspar.genereg.net/cgi-bin/jaspar_db.pl？rm＝browse&db＝core&tax_group＝vertebrates)下载。使用下面的公式转变这些模块成Position WeightMatrices(PWMs)：wi＝log2[(fi+p Ni1/2)/(Ni+Ni1/2)/p]，其中：fi为观察到的在位置I的特定碱基的频率；Ni是在位置的总的观察数；并且p是目前核苷酸的背景频率，默认为0.25(Wasserman and Sandelin,Nature Reviews,Genetics 5:P276-287,2004)。特定的程序mast(meme.sdsc.edu/meme/mast-intro.html)用于搜索TFBS位点的基因组的序列片段。运行程序以从参考基因组中提取TFBS位点。步骤概述如下：(i)对于每个基因，利用mRNA，从基因组提取[-5000,1000]推定含TFBS区域，0为mRNA的起始位置。(ii)为推定的含TFBS的序列运行全部PWM模型的mast检索；(iii)选择大于指定阈值的那些命中。(iv)对于多个或重叠命中的区域，仅选择一个命中，这个命中具有最高的mast检索分值。

使用在合适的计算机可读介质中产生和/或存储的对照基因组的TFBS模型命中，计算设备和/或其计算逻辑可识别位于命中区域中的SNP。这些SNP将影响模块以及命中分值的变化。编写第二个程序以计算命中分值中这样的变化，因为包含SNP的片段两次运行到PWM模型中，对于对照运行1次，并且对于具有SNP取代的那些运行第二次。识别引起片段命中分值下降超过3的SNP为差的SNP。

选择具有两个差的SNP的基因。分类具有差的SNP的基因为两个类别：(1)影响AA序列转录的哪些；和(2)影响转录结合位点的那些。对于AA测序的影响，包括下面的SNP分类：

(1)无义或非终止变异体。这些突变引起截短的蛋白质或延长的蛋白质。在任一情形下，蛋白产物的功能完全丧失或更少地无效。

(2)剪接位点变异体。这些突变引起内含子的剪接位点被破坏(对于所述模型，这些位置需要100％的某些核苷酸)或严重地减弱(对于所述模型，这些位置需要>50％的某些核苷)。SNP引起剪接位点核苷酸突变为另一核苷酸，通过剪接位点一致序列模型预测小于50％的一致性)。这些突变可能产生截短、缺失外显子或严重地减小蛋白产物数量的蛋白产物。

(3)Polyphen2注释AA变异体。对于引起蛋白的氨基酸序列变化的SNP，但是不是其长度变化，Polyphen2(Adzhubei et al.,Nat.Methods 7:248-249,2010)用于主要的注释工具。Polyphen2注释SNP为“良性”、“未知”、“可能破坏性”和“很可能破坏性”。识别“可能破坏性”和“很可能破坏性”为差的SNP。这些Polyphen2的类别分配基于Polyphen2软件的结构预测。

对于转录结合位点突变，模型的75％的maxScore基于对照基因组，用作筛选结合TFBS的位点。去除该区域中的<＝75％的任何模型命中，如果SNP引起命中分值减小3或更多，则认为它是有害的SNP。

报道了两类基因。类别1的基因为具有至少2个差AA影响的突变的那些。这些突变可全部在单个等位基因上(Class 1.1)，或者在2个不同的等位基因上传播(Class 1.2)。Class 2基因为类别Class 1集的超集。Class 2基因为包含至少2个差的SNP的基因，无论其受AA影响还是受TFBS位点影响。但是，要求为至少1个SNP受AA影响。Class 2基因或者为Class 1中的那些，或者为具有1个有害的AA突变和1个或多个有害的TFBS影响的变异体的那些。Class 2.1意思是全部这些有害的突变来自单个等位基因，而Class 2.2意思是有害的SNP来自两个不同的等位基因。

上述技术和算法是能用于测序复杂核酸的方法，可选择地在测序前与MT处理结合(MT与测序组合可称为“MT测序”)，如下面详细描述。可通过一个或多个执行计算逻辑的计算设备进行这样测序复合核酸的方法。这样的逻辑的实例为以任何合适的编码语言编写的软件编码，例如Java、C++、Perl、Python和其它任何合适的常规和/或面向对象的编程语言。当以一种或多种计算机程序的形态执行时，这样的逻辑可读、写和/或以其他方式处理可存储于各种在长期存储器和/或非永久存储器上的各种结构中的结构化或未结构化数据；这样的存储结构的实例包括但不限于文件、表格、数据库记录、数组、列表、向量、变量、存储和/或处理器寄存器、从面向对象的类别实例化的持久性和/或存储数据和任何其他合适的数据结构。

改善长读出测序的精确性

在使用某些长读出的技术(例如纳米孔测序)的DNA测序中，可使用长(例如10～100kb)读出长度，但是通常具有高的假阴性和假阳性速率。可根据下面通用的方法使用单倍型信息(完全的或部分的定相)显著地增强这样的长读出技术的序列的最终精确度。

首先，计算设备和/或其计算逻辑使读数相互比对。预期大数目的杂合的读出存在于重叠中。例如，如果两个至五个100kb片段重叠最少10％，这导致>10kb的重叠，将大略地翻译10个杂合基因座。替代地，比对每条长的读出与对照基因组，由此隐含地获得读数的多个比对。

一旦获得多个读数比对，可考虑重叠区域。重叠包括大数目(例如N＝10)的het基因座的事实可被杠杆化以考虑het的组合。该组合的形态对于单倍型导致大空间(4^N或4^N；如果N＝10，则4^N＝～1百万)的可能性。在N-二维空间中的全部这些4^N点中，仅预期两个点包含生物可变的信息，即相应于两个单倍型的那些。换句话说，有4^N/2(这里10⁶/2或～500,000)的噪音抑制比。实际上，该4^N空间的多数是退化的，尤其是因为已经比对序列(并且因此看起来相似)，以及还因为每个基因座实际上携带超过多于两个可能的碱基(如果它实际为het)。因此，该空间的下边界实际上为2^N(如果N＝10，那么2^N＝～1000)。因此，噪音抑制比仅为2^N/2(这里1000/2＝500)，仍然十分令人印象深刻。由于这些假阳性或假阴性的数目的增加，空间的大小由2^N扩大到4^N，从而导致更高噪音抑制比。换句话说，随着噪音增加，将更自动地被抑制。因此，预期输出产物仅保持非常小的量(而非恒定)的噪音，几乎独立于输入噪音。(折中是更嘈杂情况下的产出的损失)。当然，如果(1)误差是系统的(或者其它数据性质)、(2)算法不是最优的、(3)重叠部分更短或者(4)重叠冗余较少，则改变这些抑制速度。N是大约1的整数，例如2、3、5、10或更大。

下面的方法用于提高成读出长测序方法的精确性，其可具有大的初始错误速率。

首先，计算设备和/或其计算逻辑比对上述读数，例如5个读数。假定读数为～100kb，则共享的重叠为10％，这在5个读数，或更多(例如10～20个读数)中产生10kb的重叠。还假定每1Kb有het。因此，在该公共区域有总计10个het。

接下来，计算设备和/或其计算逻辑对于上述10个候选het填充部分(例如正好非零个元件)或全部α¹⁰可能性的矩阵(α在2和4之间)。在一个实施方式中，该矩阵的α¹⁰个细胞中的仅2个是高密度的(例如，通过可以是预先确定的或动态的阈值测量)。这些是对应于实际het的细胞。可认为这两个细胞为基本无噪音的中心。剩余的多数包含0个并且有时1个成员，尤其是如果错误是非系统性的。如果错误是系统性的，则可有群集事件(例如，第3个细胞正好超过0或1)，其使得任务更困难。然而，即使在该情形下，对于假的组的组成员应比两个预期的组显著地弱(例如，通过绝对量或相对的量测量)。该情形下的权衡为起始点应包括更多多个序列比对，其与更长的读出或更大覆盖度的冗余相关。

上述步骤假定在重叠的读数中观察到两个有活力的组。对于大量的假阳性，将不是这样的情况。如果是这个情况，则在α-二维空间中，预期的两个组将被模糊，即取代具有高密度的单个点，它们将在目的细胞周围扰乱M点的类群，这些目的细胞是作为类群的中心的无噪音的中心。这使得群集方法获得预期的点的位置，尽管事实是精确的序列不存在于每条读数中。当类群不清楚(即可能有两个以上的中心)时，也可发生类群事件，但是是以上述相似的方式，分值(例如类群的细胞的总数)可用于区分较弱的类群与两个实际的类群(对于二倍体生物)。两个实际的类群可用于产生重叠群，如文中所述，对于各种区域，并且聚集群可匹配到两个群组，以便为大区域的复杂核酸形成单倍型。

最终，计算设备或其计算逻辑，基于群体(已知的)单倍型可用于提高置信度和/或在寻找实际类群中提供另外的指南。能够进行该方法的一个途径是提供每个观察到的单倍型重量，并提供较小但非零的值给未观察到的单倍型。通过这样做，可获得在目的群体中观察到的与天然单倍型的偏差。

转变长的读数为虚拟的MT

设计用于MT的算法(包括定向算法)可通过分配随机虚拟标签(具有均匀的分布)到每个长的片段而用于长的读数。虚拟标签具有使得每个密码能真的均匀分布的优点。由于密码库的差异以及密码子的解码效率的差异，因此MT不能获得这个水平的均匀度。在MT的任两个密码的表示中不易于观察到3:1(以及高达10:1)的比率。然而，虚拟的MT方法产生任两个密码之间的真实的1:1的比例。

考虑到上述描述，根据本发明的一个方面，提供了用于确定一个或多个有机体(即单个有机体或一群有机体)的复杂核酸(例如整个基因组)的序列的方法。这样的方法包括：(a)在一个或多个计算设备上接收复杂核酸的多个读数；和(b)用计算设备从所述读数产生复杂核酸的组装的序列，组装的序列包括少于1.0、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1、0.08、0.07、0.06、0.05或0.04的假的单核苷酸变化/巨碱基，读出速率为70、75、80、85、90或95％或更大，其中，一个或多个计算设备执行上述方法。在一些方法中，计算机可读的永久存储介质存储一条或多条序列指令，包括当由一个或多个计算设备执行时使一个或多个计算设备执行这样的方法的步骤的指令。

根据一个实施方式，其中这样的方法包括单倍型定相，所述方法进一步包括识别组装的序列中的多个序列变化，并定相序列变化(例如70、75、80、85、90、95％或更大的序列变化)，以产生定相序列，即其中序列变化被定相的序列。这些定相信息可用于错误矫正的条件下。例如，根据一个实施方式，这样的方法包括识别与至少两个(或三个或更多个)定相序列变化的定相不一致的序列变化为错误。

根据另一个这样的实施方式，在这样的方法中，接收复杂核酸的多个读数的步骤包括：计算设备和/或其计算逻辑从复杂核酸的多个长片段的每个接收多个读数。关于这一片段的信息用于矫正误差或用于读出碱基，否则为“无读出”。根据一个这样的实施方式，这样的方法包括计算设备和/或其计算逻辑基于从两条或更多长的片段的位置的初步碱基读出，而在所述组装的序列的位置读出碱基。例如，方法可包括基于从至少两个、至少3个、至少4个或超过4个长的片段的初步碱基读出而读出在所述组装的序列的位置的碱基。在一些实施方式中，这样的方法可包括如果存在至少两个、至少三个、至少四个长片段或超过4个长片段，则识别碱基读出为真。在一些实施方式中，这样的方法可包括：如果在组装的序列中存在对所述位置做出初步的碱基读出的片段的至少大多数(或至少60％、至少75％或至少80％)，则识别碱基读出为真。根据另一个这样的实施方式，这样的方法包括如果在两个更多个长的片段中碱基存在两倍或更多倍，那么计算设备和/或其计算逻辑识别碱基读出为真。

根据另一个这样的实施方式，通过识别与片段缔合的标签(或标签的独特模式)而确定作为读数来源的长的片段。这样的标签可选择地包括错误矫正或错误检测代码(例如Reed-Solomon错误矫正代码)。根据本发明的一个实施方式，测序片段和标签时，产生的读数包括标签序列和片段序列数据。

根据另一个实施方式，这样的方法进一步包括：计算设备和/或其计算逻辑提供复杂核酸在包括短的串联重复的区域中产生第一定相序列；计算设备和/或其计算逻辑比较该区域的第一定相序列的读数(例如规则或配对的读数)与该区域的第二相序列的读数(例如使用序列覆盖)；以及计算设备和/或其计算逻辑基于比较识别在第一定相序列或第二定相序列中短的串联重复的扩增。

根据另一个实施方式，所述方法进一步包括：从至少一个亲本有机体获得基因型数据并从读数和基因型数据产生复杂核酸的组装的序列的计算设备和/或其计算逻辑。

根据另一个实施方式，所述方法进一步包括执行步骤的计算设备和/或其计算逻辑，所述步骤包括：对齐多个复杂核酸的第一个区域的读数，从而在比对的读数之间产生重叠；识别重叠区内的N候选het；群集2^N至4^N可能性的空间，或其选择的子空间，从而产生多个类群；鉴别具有最高密度的两个类群，每个鉴别的类群包括基本无噪音的中心：以及对复杂核酸的一个或多个另外的区域重复上述步骤。

根据另一个实施方式，这样的方法进一步包括提供一定量的复杂核酸，并且测序所述复杂核酸，以产生读数。

根据另一个实施方式，在这样的方法中，复杂核酸选自由基因组、外显子组、转录组、甲基化组、不同有机体的基因组的混合物以及有机体的不同细胞类型的基因组混合物组成的群组中。

根据本发明的另一方面，提供了通过上述任何方法产生组装的人基因组序列。例如，一个或多个计算机可读的永久的存储介质存储通过任一上述方法产生的组装的人基因组序列。根据另一方面，计算机可读的永久存储介质存储一个或多个序列的指令，该指令包括当由一个或多个计算设备执行时使一个或多个计算设备执行上述方法的任一个、一些或全部的指令。

根据本发明的另一方面，提供了用于确定整个人基因组序列的方法，这样的方法包括：(a)在一个或多个计算设备接收基因组的多个读数；以及(b)用一个或多个计算设备产生来自读数的基因组的组装的序列，其包括少于至少600个假的杂合的单核苷变化/千兆碱基，基因组读出速率为70％或更大。根据一个实施方式，基因组的组装序列具有70％或更大的基因组的读出速率，以及70％或更大的外显子组读出速率。在一些方面，计算机可读的永久的存储介质存储一个或多个序列的指令，该指令包括当被一个或多个计算设备执行时使一个或多个计算设备执行本发明中公开的本发明的任何方法的指令。

根据本发明的另一个方面，提供了确定整个人类基因组序列的方法，这样的方法包括：(a)在一个或多个计算设备接收多个来自长的片段中的每个的读数，每个长的片段包括基因组的一个或多个片段；以及(b)用一个或多个计算设备以70％或更大的基因组读出速率产生来自读数的基因组的定相的、组装的序列，其包括少于1000个假的单核苷酸变化/千兆碱基。在一些方面，计算机可读的永久的存储介质存储一条或多条序列的指令，该指令包括当被一个或多个计算设备执行时使一个或多个计算设备执行这样的方法的指令。

试剂盒

在一个方面，本发明提供了用于实施文中所述的MT的试剂盒。试剂盒可包括一种、两种、三种或多种下面的组分：

A.文库

i)条形码文库，其两侧是转座子末端(即标记的转座子的文库)。在一些实施方式中，转座子末端为末端反向重复。在一些实施方式中，转座子末端为9～40碱基的长度。在一些实施方式中，条形码为6～20个碱基的长度。在一些实施方式中，标记的转座子还包括扩增引物结合位点(例如其中多数或整个文库具有相同的引物结合位点)。在一些实施方式中，标记的转座子包括至少两个引物结合位点。在一些实施方式中，两种扩增引物结合位点杂交到相同的引物序列。在一些实施方式中，试剂盒包括可杂交到标记的转座子上的引物结合序列的扩增引物。

ii)克隆条形码的文库，其包括多个10⁴或更多不同来源的克隆条形码。在一些实施方式中，克隆的条形码为如(i)所述的标记的转座子。在一些实施方式中，克隆条形码固定于载体或支架，例如聚合物、珠子、树枝状大分子或磁性颗粒。在一些实施方式中，通过乳剂PCR产生克隆条形码的来源。在一些实施方式中，使用混合及分开的组合合成产生克隆条形码的来源。在一些实施方式中，用连接子连接克隆条形码到支架上(例如，其中多数或整个文库具有相同的连接子)。在一些实施方式中，连接子可被裂解，使得可通过用断裂剂处理而从支架释放条形码序列。在一些实施方式中，断裂剂为限制性内切酶或切口酶。

iii)串联体文库，其包括单体，其中单体包括条形码。在一些实施方式中，单体包括引物结合位点和/或转座子末端序列和/或限制性内切酶识别位点(例如，其中大多数或全部文库共享相同的位点或序列)。在一些实施方式中，单体包括如(i)所述的标记的转座子。

iv)适于滚环扩增的模板的文库，其中，所述模板包括如(iii)所述单体。在一些实施方式中，试剂盒包括适于转变模板成多联体的酶(例如phi29聚合酶)。

v)发夹或颈环寡核苷酸文库，其中，该文库包括多个至少约10⁴个条形码,每个寡核苷酸包括条形码序列的两个拷贝(其可在寡核苷酸的环部分中)。在一些实施方式中，每条寡核苷酸包括两个位于条形码序列的拷贝之间的扩增引物结合位点。在一些实施方式中，寡核苷酸在5’和3’末端包括随机或半随机序列。在一些实施方式中，序列为3～8个碱基的长度或3～5个碱基的长度。

在一些实施方式中，文库(i)-(v)包含至少约10⁴、至少约10⁵、至少约10⁶或至少约10⁷个不同的条形码。在一些实施方式中，文库(i)-(iv)包括至少约10⁴、至少约10⁵、至少约10⁶或至少约10⁷个不同来源的克隆类别。

B.酶

i)转座酶，例如作用于条形码文库的转座酶；

ii)DNA聚合酶(例如DNA聚合酶I、Klenow片段、Taq I)；

iii)phi29聚合酶；

iv)核酸外切酶(例如核酸外切酶III)；

v)限制性内切酶；

vi)DNA连接酶；

vii)碱性磷酸酶；

viii)切口酶；

ix)核酸内切酶(例如Vvn)；

x)基于尿嘧啶或者基于核糖的DNA裂解组分(例如尿嘧啶DNA糖基化酶)。

试剂盒还可包含一个或多个管、流动限制剂(例如琼脂糖或PEG)以及用于从真核细胞分离高分子量DNA的试剂。试剂盒组分还可包装到一起，并且包装可包括或附有用于使用试剂盒的说明。

组合物

在一个方面，本发明提供了包括上述文库(i)-(v)中的任一种以及如上述的基因组DNA的组合物(例如单个管或容器中的混合物)。基因组DNA可例如来自动物，如哺乳动物(例如人)、植物、真菌。组合物可包括多于一个的基因组DNA的基因组当量。在各种实施方式中，混合物可包括至少5个基因组当量，至少10个基因组当量、至少25个基因组当量、至少50个基因组当量、至少100个基因组当量、至少500个基因组当量或至少1000基因组当量，例如5～20个基因组当量，例如5～100个基因组当量，例如50～1000个基因组当量。在一些实施方式中，基因组DNA仅包括天然产生的序列，并且不包括接头或连接子。组合物还可包括一种或多种独立地选自转座酶、DNA聚合酶、限制性内切酶、DNA连接酶和碱性磷酸酶中的酶。

***

虽然已经参考具体的方面和实施方式公开了本发明，但是本领域技术人员显然可设计本发明的其它实施方式和变化方案，而不背离本发明的真实精神和范围。

在美国，为了所有的目的，本公开中引用的每个和每一公开和专利文献通过引用的方式合并于此，如同每篇这样的公开或文献具体地且单独地表明通过引用整合于本发明。引用公开和专利文献不旨在表明任何这样的文献为相关的现有技术，且不构成对其内容或日期的认可。

Claims

1.一种试剂盒，其包含含有10³个或更多个不同条形码或克隆条形码源的文库：

i)与转座子末端相关的条形码文库，以及任选的接头序列；

ii)克隆条形码文库，任选地含有接头序列，其包含多个10⁴个或更多个不同克隆条形码源；

iii)包含单体的多联体文库，其中所述单体包含条形码；

iv)能适用于滚环扩增的模板文库，其中所述模板包含(iii)中所述的单体；和/或

v)发夹寡核苷酸文库，每个寡核苷酸包含两个拷贝的条形码序列，其中所述文库包含多个至少约10⁴个条形码。