CN108486236B

CN108486236B - 用于确定单倍型和定相单倍型的方法和系统

Info

Publication number: CN108486236B
Application number: CN201810250540.3A
Authority: CN
Inventors: 罗伯托·里加蒂; 乔纳森·鲍特尔
Original assignee: Illumina Cambridge Ltd
Current assignee: Illumina Cambridge Ltd
Priority date: 2012-07-18
Filing date: 2013-05-20
Publication date: 2022-05-03
Anticipated expiration: 2033-05-20
Also published as: JP2015522289A; EP2875150B1; WO2014013218A1; US20180322243A1; US9977861B2; US20220180970A1; CN108486236A; US11257568B2; US11605446B2; CA2873327A1; US20140024537A1; CN104508144A; CN104508144B; AU2013291816B2; AU2013291816A1; EP2875150A1; JP6091613B2; US20220180969A1; CA2873327C

Abstract

本申请涉及用于确定单倍型和定相单倍型的方法和系统。本公开内容提供了用于确定和/或表征核酸样品中一种或更多种单倍型和/或定相(phasing)单倍型的方法和系统。特别地，本公开内容提供了用于通过以下确定核酸样品中的单倍型和/或定相单倍型的方法：掺入合成的多态性到核酸样品的片段中并利用合成的多态性来确定一种或更多种单倍型和/或定相单倍型。

Description

用于确定单倍型和定相单倍型的方法和系统

本申请是申请日为2013年5月20日，申请号为201380029854.6，发明名称为“用于确定单倍型和定相单倍型的方法和系统”的申请的分案申请。

本申请要求2012年7月18日提交的美国临时专利申请序列号61/673,052的优先权，其通过引用全文并入本文。

技术领域

本公开内容涉及用于确定单倍型和定相单倍型的方法和系统。

背景技术

人类基因组项目的成果为人类基因组打开了更宽的窗户。进一步解锁人类基因组的工作正在进行。HapMap(单倍型绘图(Haplotype Map))项目是针对通过比较来自无特定疾病的人们的基因组信息与带有该疾病的那些基因组信息而发现导致疾病的遗传变体的世界科研工作(scientific effort)。等位基因，是特定基因的DNA序列的一种或更多种形式，可包含一种或更多种不同的遗传变体。鉴定在特定染色体上不同位置或基因座处的单倍型或等位基因的组合是HapMap项目的主要焦点。当两组不同时，鉴定的单倍型可能与导致疾病的遗传异常的位置相关。如此，HapMap结果将有助于描述人类中遗传变异的共同模式以及这些变异是否潜在地与疾病相关。确定单倍型方面的研究成果将有助于阐释人类中遗传变异的共同模式以及这些变异是否潜在地与特定疾病相关。事实上，许多研究者同意，对基因组单倍分型在将遗传变异与表型和疾病关联方面如果不是必需的，也将是有利的。另外，特定单倍型可与治疗方案的成功或失败关联，并且如此可用于辅助临床医师针对特定个体作出可能在该个体中具有最高的疾病根治成功度的治疗方案的决定。

然而，存在与对基因组单倍分型有关的许多技术挑战。例如，下一代测序技术尽管增加了测序工作的容量和准确性，但在许多情形中产生短的序列读段(read)，例如数个商业平台目前输出长度小于400核苷酸的读段每片段。如果位于染色体上的两种或更多种遗传变体间隔比序列读段长度还远，即使该读段长度是数千碱基对长，界定单倍型如果不是不可能的也可以是困难的。

发明内容

如此，需要允许单倍分型特别是对在染色体上间隔比其所被发现的DNA段(apiece of DNA)的测序长度远的遗传变体单倍分型的方法和组合物。

与下一代测序关联的测序技术可产生短序列读段，从而使得当感兴趣的序列位于染色体上间隔足够远，使得它们在序列读段的长度提供的窗口之外时，难以确定基因组的单倍型定相(phasing)。

本公开内容提供了用于利用掺入核酸中的合成的多态性对基因组样品单倍分型和/或确定单倍型的定相的方法和组合物。如本文描述的，可修饰核酸片段以转化天然核苷酸为合成或人工多态性诸如单核苷酸多态性(SNP)或其他遗传异常，从而在待测序的核酸片段中产生工程化的多态性的模式。测序后，可在片段之间比对合成的多态性的模式且单倍型可作为比对的结果被确定(例如，可确定单倍型含量或相)。以这种方式，即使用于单倍分型的等位基因位于不同基因组片段上也可对衍生自基因组样品的修饰的片段的群体单倍分型。

本文提供的在核酸序列中产生人工多态性的方法和组合物在单倍型确定和表征和/或单倍型定相中特别有用；然而它们还可以对其他目的是有益的。例如，本文描述的方法还可用于帮助从头序列(de novo sequence)组装。另外，几乎相同的重复区域，例如用于法医DNA指纹印迹的重复核苷酸区域诸如短串联重复序列(short tandem repeats)、中度串联重复序列(intermediate tandem repeats)等，可通过人工引入的多态性的独特模式彼此区分，且因此实现更准确的序列组装。例如，对于法医测序，如果重复区域足够长使得它们在单末端或成对末端的序列读段中不能被完全测序，则确定核苷酸重复区域的长度、混杂重复区域的顺序、和/或重复序列(即，短串联重复序列、中度串联重复序列等)的数目可使用本文方法进行。

对单倍型确定和/或单倍型定相、从头测序、法医目的等实施本文公开的方法可提供对例如疾病和治疗方案相关性有用的关键信息。特别地，当个体的单倍型不仅可与疾病关联，还可与对特定个体的治疗方案成功性等等关联时，单倍型及其相确定在个体化用药中可变得关键。

在一个实施方案中，本公开内容提供一种确定核酸样品序列的方法，包括提供第一长度的多个核酸片段，所述核酸片段被修饰以包含多个合成的多态性；制备包含第二长度的包含多个合成的多态性的第二多个核酸片段的核酸文库，所述第二长度小于来自所述第一多个核酸片段的片段的所述第一长度(preparing a nucleic acid librarycomprising a second plurality of fragments of nucleic acids of a secondlength less than that of the first length of fragments from said firstplurality of nucleic acid fragments comprising a plurality of syntheticpolymorphisms)；测序所述核酸文库；和比对测序的片段之间的所述多个合成的多态性以基于所述比对确定所述核酸样品的序列。在一些情形中，合成的多态性是在特定位置代替天然核苷酸的多个修饰的核苷酸，且所述修饰的核苷酸选自由以下组成的组：8-氧鸟嘌呤、dPTP、异胞嘧啶和异鸟嘌呤。在其他情形中，对核酸的修饰包括所述多个核酸片段中胞嘧啶的部分和不完全亚硫酸氢盐转化。在一些情形中，合成的多态性比对包括将第一核酸片段序列中合成的多态性的模式与第二核酸片段序列中合成的多态性的相似模式匹配(即，通过计算机实现的方法)，并以多个核酸片段序列重复所述匹配，从而基于多个核酸片段中多个合成的多态性产生序列比对。在一些情形中，核酸文库利用选自由以下组成的组的方法来测序：合成测序、杂交测序、连接测序、单分子测序、纳米孔测序、焦磷酸测序和聚合酶链式反应。在一些情形中，序列通过荧光检测确定。在优选的情形中，确定的序列包括一种或更多种单倍型并还包括确定核酸样品中两种或更多种单倍型的相。通常，用于定相的单倍型位于不同的测序片段上。以上公开的方法还可用于从头测序。

在另一个实施方案中，本申请公开了用于表征核酸样品的一种或更多种单倍型的方法，包括提供片段化的核酸的集合(pool)；在所述集合的片段化的核酸中引入多个合成的多态性诸如单核苷酸多态性以产生包含多个合成的多态性的片段；制备长度比原始集合的片段短的包含多个修饰的核酸的核酸片段的文库(preparing a library of nucleicacid fragments that are shorter in length than the original pool of fragmentscomprising a plurality of modified nucleic acids)；测序文库中的核酸片段；比对测序的核酸片段的合成的多态性；和从测序的片段的比对的合成的多态性表征所述核酸样品的一种或更多种单倍型。在一些情形中，多个合成的单核苷酸多态性在掺入的位点代替天然核苷酸并包含多个修饰的核苷酸。在一些情形中，修饰的核苷酸选自由以下组成的组：8-氧鸟嘌呤、异胞嘧啶、异鸟嘌呤和dPTP。在一些情形中，合成的多态性的引入通过核酸片段中胞嘧啶的部分和不完全亚硫酸氢盐转化来实现。在一些情形中，合成的多态性通过以下比对：将第一核酸片段序列中合成的多态性的模式与第二核酸片段序列中合成的多态性的相似模式匹配(即，通过计算机实现的程序)，并在多个核酸片段序列中重复所述匹配，从而从所测序的核酸片段中合成的多态性产生序列比对。在一些情形中，测序通过合成测序、杂交测序、连接测序、单分子测序、纳米孔测序、焦磷酸测序和聚合酶链式反应方法之一进行。在一些情形中，序列通过荧光检测确定。在一些情形中，序列用于确定核酸样品中两种或更多种单倍型的相。通常，用于定相的单倍型位于不同的测序片段上。在其他情形中，以上描述的方法可用于从头测序。

在另一个实施方案中，本公开内容描述了用于鉴定核酸样品的一种或更多种单倍型的方法，包括提供具有多个核苷酸的核酸分子；修饰核酸分子中的多个核苷酸，从而产生包含天然核苷酸和修饰的核苷酸的修饰的核酸分子；扩增修饰的核酸分子以产生第一长度的多个修饰的核酸拷贝；在产生第二长度的核酸片段的文库的条件下片段化扩增的修饰的核酸拷贝，其中文库中的个体核酸片段具有与文库中至少一个其他核酸片段序列重叠的区域(region of sequence overlap)且其中序列重叠的区域包括至少一个修饰的核苷酸；确定文库的核酸片段的序列；和通过序列重叠的区域中修饰的核苷酸的位置比对核酸片段的序列以鉴定核酸分子的一种或更多种单倍型(aligning the sequence of nucleic acidfragments by the locations of the modified nucleotides in the regions ofsequence overlap to identify one or more haplotypes of the nucleic acidmolecule)。在一些情形中，核酸分子包括沿着序列长度的数个不同核苷酸类型且在修饰的核酸中核苷酸类型的一种类型可被修饰或在修饰的核酸中一种类型的所有核苷酸可被修饰。在一些情形中，在修饰的核酸中仅一种类型的核苷酸的亚组被修饰。在一些情形中，用于鉴定单倍型的方法还包括确定核酸分子中至少两种单倍型的相。通常，用于定相的单倍型位于不同的测序片段上。在一些情形中，对于单倍分型，核酸分子包含沿着序列长度的数个不同核苷酸类型，其中至少两种单倍型对所述核苷酸类型的两种是双等位基因的(bi-allelic for two of the nucleotide types)，且其中在修饰的核酸中第三核苷酸类型被修饰。在其他情形中，至少两种单倍型对选自由以下组成的组的核苷酸类型是双等位基因的：A、T和G，且其中在修饰的核酸中C被修饰为U。在其他情形中，至少两种单倍型对T和G是双等位基因的，且其中在修饰的核酸中C被修饰为U。在另外的实施方案中，至少两种单倍型对选自由以下组成的组的核苷酸类型是双等位基因的：A、T和C，且其中在修饰的核酸中G被修饰为8-oxo-G。在其他情形中，至少两种单倍型对C和T是双等位基因的，且另外，修饰的核酸中G被修饰为8-oxo-G。

本申请提供了以下内容：

项目1.一种用于确定核酸样品的序列的方法，所述方法包括：

a)提供第一长度的第一多个核酸片段，所述第一多个核酸片段被修饰以包含多个合成的多态性，

b)制备包含第二长度的包含多个合成的多态性的第二多个核酸片段的核酸文库，所述第二长度小于来自所述第一多个核酸片段的片段的所述第一长度，

c)测序所述核酸文库，和

d)比对测序的片段之间的所述多个合成的多态性以基于所述比对确定所述核酸样品的序列。

项目2.如项目1所述的方法，其中所述多个合成的多态性是在特定位置代替天然核苷酸的多个修饰的核苷酸。

项目3.如项目2所述的方法，其中所述修饰的核苷酸选自由以下组成的组：8-氧鸟嘌呤、dPTP、异胞嘧啶和异鸟嘌呤。

项目4.如项目1至3中任一项所述的方法，其中所述修饰包括所述第一多个核酸片段中胞嘧啶的部分和不完全亚硫酸氢盐转化。

项目5.如前述任一项目所述的方法，其中所述比对包括将第一核酸片段序列中合成的多态性的模式与第二核酸片段序列中合成的多态性的相似模式匹配，并以多个核酸片段序列重复所述匹配，从而基于多个核酸片段中所述多个合成的多态性产生序列比对。

项目6.如前述任一项目所述的方法，其中所述测序是选自由以下组成的组的方法：合成测序、杂交测序、连接测序、单分子测序、纳米孔测序、焦磷酸测序和聚合酶链式反应。

项目7.如前述任一项目所述的方法，其中所述确定包括荧光检测。

项目8.如项目5所述的方法，其中所述匹配通过计算机实现的方法进行。

项目9.如前述任一项目所述的方法，其中所述核酸样品的序列包括一种或更多种单倍型并还包括确定所述核酸样品中两种或更多种单倍型的相。

项目10.如项目9所述的方法，其中用于定相的单倍型位于不同的测序片段上。

项目11.一种用于表征核酸样品的一种或更多种单倍型的方法，所述方法包括：

a)提供片段化的核酸的集合，

b)在所述集合的所述片段化的核酸中引入多个合成的多态性以产生包含多个合成的多态性的片段，

c)制备长度比所述集合的片段短的包含多个修饰的核酸的核酸片段的文库，

d)测序所述文库中的核酸片段，

e)比对测序的核酸片段的合成的多态性，和

f)从所述测序的核酸片段的比对的合成的多态性表征所述核酸样品的一种或更多种单倍型。

项目12.如项目11所述的方法，其中所述多个合成的多态性是单核苷酸多态性。

项目13.如项目12所述的方法，其中所述单核苷酸多态性在掺入的位点代替天然核苷酸。

项目14.如项目12或13所述的方法，其中所述单核苷酸多态性包含多个修饰的核苷酸。

项目15.如项目14所述的方法，其中所述修饰的核苷酸选自由以下组成的组：8-氧鸟嘌呤、异胞嘧啶、异鸟嘌呤和dPTP。

项目16.如项目11至15中任一项所述的方法，其中所述引入包括所述片段化的核酸中胞嘧啶的部分和不完全亚硫酸氢盐转化。

项目17.如项目11至16中任一项所述的方法，其中所述比对包括将第一核酸片段序列中合成的多态性的模式与第二核酸片段序列中合成的多态性的相似模式匹配，并在多个核酸片段序列中重复所述匹配，从而从测序的核酸片段中所述合成的多态性产生序列比对。

项目18.如项目11至17中任一项所述的方法，其中所述测序选自由以下组成的组：合成测序、杂交测序、连接测序、单分子测序、纳米孔测序、焦磷酸测序和聚合酶链式反应。

项目19.如项目11至18中任一项所述的方法，其中所述表征包括荧光检测。

项目20.如项目11至19中任一项所述的方法，还包括确定所述核酸样品中两种或更多种单倍型的相。

项目21.如项目20所述的方法，其中用于定相的单倍型位于不同的测序片段上。

项目22.一种用于鉴定核酸样品的一种或更多种单倍型的方法，所述方法包括：

a)提供具有多个核苷酸的核酸分子；

b)修饰所述核酸分子中的多个核苷酸，从而产生包含天然核苷酸和修饰的核苷酸的修饰的核酸分子；

c)扩增所述修饰的核酸分子以产生第一长度的多个修饰的核酸拷贝；

d)在产生第二长度的核酸片段的文库的条件下片段化所扩增的修饰的核酸拷贝，其中所述文库中的个体核酸片段具有与所述文库中至少一个其他核酸片段序列重叠的区域且其中所述序列重叠的区域包括至少一个修饰的核苷酸；

e)确定所述文库的核酸片段的序列，和

f)通过所述序列重叠的区域中修饰的核苷酸的位置比对所述核酸片段的序列以鉴定所述核酸分子的一种或更多种单倍型。

项目23.如项目22所述的方法，其中所述核酸分子包括沿着序列长度的数个不同核苷酸类型。

项目24.如项目23所述的方法，其中在所述修饰的核酸分子中所述数个不同核苷酸类型的仅一种类型被修饰。

项目25.如项目24所述的方法，其中在所述修饰的核酸分子中所述一种类型的所有核苷酸被修饰。

项目26.如项目24所述的方法，其中在所述修饰的核酸分子中所述一种类型的核苷酸的亚组被修饰。

项目27.如项目22至26中任一项所述的方法，还包括确定所述核酸分子中至少两种单倍型的相。

项目28.如项目27所述的方法，其中用于定相的单倍型位于不同的测序片段上。

项目29.如项目27或28所述的方法，其中所述核酸分子包含沿着序列长度的数个不同核苷酸类型，其中所述至少两种单倍型对所述数个不同核苷酸类型的两种是双等位基因的，且其中在所述修饰的核酸分子中第三核苷酸类型被修饰。

项目30.如项目29所述的方法，其中所述至少两种单倍型对选自由以下组成的组的核苷酸类型是双等位基因的：A、T和G，且其中在所述修饰的核酸分子中C被修饰为U。

项目31.如项目30所述的方法，其中所述至少两种单倍型对T和G是双等位基因的，且其中在所述修饰的核酸分子中C被修饰为U。

项目32.如项目29所述的方法，其中所述至少两种单倍型对选自由以下组成的组的核苷酸类型是双等位基因的：A、T和C，且其中在所述修饰的核酸分子中G被修饰为8-oxo-G。

项目33.如项目32所述的方法，其中所述至少两种单倍型对C和T是双等位基因的，且其中在所述修饰的核酸分子中G被修饰为8-oxo-G。

附图说明

图1显示掺入修饰的核苷酸8-氧鸟嘌呤(8-oxo G)到DNA中从而转化序列中的天然核苷酸为序列中的合成的多态性的实施方案。

图2显示通过部分亚硫酸氢钠转化DNA中的胞嘧啶为尿嘧啶来掺入合成的多态性到多核苷酸中的实施方案。

图3描绘通过掺入修饰的核苷酸异胞嘧啶和异鸟嘌呤到DNA中代替天然核苷酸来掺入合成的多态性到多核苷酸中的实施方案。

图4展示了其中靶DNA包含利用亚硫酸氢钠转化方法产生的人工多态性的实施方案。A图等位基因1上天然存在的SNP(加粗和加大的)G和C以及B图等位基因2上天然存在的SNP(加粗和加大的)T和A被大于典型插入片段(insert)文库尺寸的距离分隔并因此SNP定相是不可确定的，而可通过部分亚硫酸氢盐转化被掺入核酸的人工C至T多态性可用于比对测序片段，从而可对两个等位基因确定单倍型。

图5显示单倍型重构的实例。掺入的人工SNP被描绘为线性DNA片段等位基因1和等位基因2上的垂直线。将DNA片段化、测序并基于掺入的合成的SNP的独特模式比对测序读段(来自图4的等位基因2在该图中被描绘)。重叠片段中人工SNP的比对允许重建原始基因组片段序列且可确定等位基因2的单倍型的重构。

图6显示“第一链延伸反应”的实施方案如何可用于掺入合成的多态性到DNA靶中的实例。

图7的A)-D)图显示掺入流动池(flowcell)泳道1、2、3和4的phiX模板DNA延伸产物中的修饰的核苷酸的百分比(％错误率)的测序数据。

图8的A)-D)图显示phiX测序读段百分比对具有0、<1、<2、<3或<4个掺入的修饰的核苷酸的循环的测序数据。Y轴是具有X个错误或更少的读段％，0-100％，X轴是循环数0-100。

图9显示在第一链延伸期间引入每个流动池泳道的phiX模板DNA的合成的多态性的类型和频率(错误率)的复合(composite)。

图10的A)-D)图代表引入phiX模板DNA的人工多态性的分布或覆盖。

图11显示代表三个克隆图A-克隆A、图B-克隆B和图C-克隆D的测序数据的覆盖图(coverage plot)。图代表掺入来源于Yoruban男性(NA18507)的DNA的p53基因序列的合成的和天然杂合SNP的覆盖和位置。每个图都报告了每个克隆的p53基因的近似相同区域中的序列且星号标出随机分布的引入的合成的SNP之间天然杂合SNP的近似位置。具有峰的上方水平线代表参考调用(reference call)，且具有水平线下的垂直峰的连续基线代表非参考调用。

具体实施方式

确定基因组中一起遗传的紧密连锁的等位基因的组，或单倍分型的能力，可有助于绘制人类疾病基因的图谱。疾病图谱可用于对患者诊断、预后和/或鉴定疾病或疾病的风险以及确定任何一个人特有的潜在治疗疗法。这是个体化医疗的目标之一。然而，这也适用于植物和动物物种，例如经济上有关的植物和动物物种，其中序列知识诸如单倍分型在兽医和植物科学中也可有利地使用。如此，确定单倍型和/或定相单倍型从生物和临床二者的角度来讲是重要的。测序样品提供了序列信息，研究者可以以此开始以解开和确定此类相关性。

如本文使用的，术语“单倍型”是指单倍体基因型，见于染色体上不同位置或基因座处的等位基因或DNA序列的组合或组，其例如在重组事件过程中通常作为单元遗传并是连锁的。单倍型可提供个体的独特的遗传模式。单倍型可对一个基因座、数个基因座、跨染色体的部分或对整个染色体确定。术语“等位基因”与其在生物学领域中的含义一致地使用。等位基因是见于染色体上特定位置、或基因座处的基因、遗传序列或单核苷酸(例如，单核苷酸多态性或SNP)的一种或更多种替代形式。术语“基因座”与其在生物学领域中的含义一致地使用。基因座(locus)(复数形式“基因座(loci)”)是指染色体上鉴定具有基因、遗传序列或单核苷酸的特定位置或地方。如此，例如，对于特定基因的一种或更多种等位基因，可见于染色体上特定基因座处。不同的基因可被鉴定具有染色体上不同的基因座，其中每个基因，例如，可与一种或更多种不同的等位基因序列关联。等位基因不限于任何特定类型并可包括，例如正常遗传序列或变异遗传序列。例如，单核苷酸多态性(SNP)、短串联重复序列(STR)等可被包括作为变体和遗传序列。术语“定相的等位基因(phased alleles)”是指特定等位基因在染色体上的分布。因此两个等位基因的“相(phase)”可以是指等位基因是位于单个染色体或是两个分别的染色体(例如，母系或父系遗传的染色体)的表征或确定。

尽管测序技术可产生非常大数目的序列读段，读段长度可相对短。尽管下一代测序技术可增加测序的准确度并可用于调用变体，当期望相或单倍型信息时该技术可具有有限的用途。此前，来源于短序列读段的定相信息非常难以确定，除非感兴趣的两个多态性彼此如此接近以致它们存在于DNA的同一测序片段上，或可能处于以下情形：其中一个多态性从第一序列读段被确定存在且第二多态性在同一对核酸片段的第二序列读段中被检测到。由第二种情形导致的情况被认为是罕见的，因为人类基因组平均每1000个核苷酸具有一个多态性。如此，包含多态性的特定读段的概率可以是大约15％(序列读段长度/多态性频率为每1000个核苷酸一个多态性)。属于各具有一个多态性的一对序列的两个读段的合并概率是单独概率的乘积(15％x 15％)。因此预期，片段读段对的小亚组，例如大约2.25％的短片段读段对，可包含形成单倍型的两个变体序列。当考虑到典型测序文库的平均插入片段尺寸分布时这进一步复杂化，例如为下一代测序技术产生的文库范围可从大约<50bp(例如，Life Technologies SOLiD测序以伴侣配对测序(mate paired sequencing))至大约<400bp(例如，454Life Sciences GS FLX Titanium测序)。如此，如果两个多态性处于彼此例如>400bp的距离，被来源于文库的成对读段连锁的可能性几乎是零。对于长于400bp的读段也是这样，因为假设测序读段的长度在未来可增加，然而公开的方法仍将适用，因为如果两个多态性处于比序列读段大的距离，本方法可用于从位于不同读段上的多态性确定单倍型。

本公开内容提供了表征基因组单倍型(例如，单倍型含量或相)的解决方案，其当处理短读段长度序列信息时特别有用。本公开内容提供了使得能够从序列信息，特别是当感兴趣的等位基因位于不同测序核酸片段上时进行单倍型表征的方法和组合物。

本文的实施方案公开了用于产生“人工多态性”或“合成的多态性”诸如人工或合成的单核苷酸多态性或“人工SNP”(“合成的SNP”)的方法，其可在测序之前诸如通过用修饰的核苷酸代替天然核苷酸，或通过经由亚硫酸氢盐转化将一个核苷酸转化为另一个被掺入核酸中。如本文使用的，除非另外指明，术语“合成的多态性”或“人工多态性”是同义的。合成的或人工多态性代表核酸样品中并非核酸样品天然存在的，而是通过方法手段掺入核酸样品中的序列。合成的多态性可被插入基因组序列中，或合成的多态性可代替核酸样品的序列。合成的多态性的实例包括但不限于，单核苷酸多态性(即，人工或合成的SNP)、二核苷酸多态性、核酸(例如，一个或更多个核酸等)的插入和核酸(例如，一个或更多个核酸等)的缺失。用于掺入天然核酸或多核苷酸样品中的人工序列包括修饰的核苷酸，包括但不限于，2-硫代胸苷三磷酸、5-(2’-脱氧-D-呋喃核糖基)-3-甲基-2-吡啶酮-5’三磷酸、8-氧鸟嘌呤(8-羟基鸟嘌呤、8-氧-7,8-二氢鸟嘌呤或2-氨基-7,9-二氢-1H-嘌呤-6,8-二酮)、8-氧-2’-脱氧鸟苷-5’-三磷酸、2’-脱氧-P-核苷-5’三磷酸(dPTP)、d^5mCTP例如，m7G(5’)ppp(5’)；P1-5’-(7-甲基)-鸟苷-P3-5”-鸟苷三磷酸、甲基5-dCTP、羟甲基dCTP、异胞嘧啶、异鸟嘌呤、及其衍生物，诸如此类。

人工或合成的多态性可例如以一定频率掺入，使得它们甚至从短序列读段或读段对可被比对和定相。在一个实施方案中，用于在核酸链中产生人工多态性的方法包括在核酸链中掺入多个核酸类似物，例如鸟嘌呤类似物诸如8-氧鸟嘌呤(8-oxo G)。通常见于哺乳动物DNA中的修饰的核苷酸8-氧鸟嘌呤(8-羟基鸟嘌呤、8-氧-7,8-二氢鸟嘌呤或2-氨基-7,9-二氢-1H-嘌呤-6,8-二酮(IUPAC))的量在DNA中增加，例如由于由氧自由基物质和/或电离辐射导致的氧化损伤而被损害(1992,Cheng等,J Biol Chem 267:166-172，通过引用全文并入本文)。在复制期间，8-oxo G可经由Hoogsteen碱基配对与胞嘧啶(C)和/或腺嘌呤(A)碱基配对(LePage等,Nucl Acids Res,1998,26:1276-1281，通过引用全文并入本文)。8-oxo G(例如，通过在8-Oxo-2’-脱氧鸟苷-5’-三磷酸或8OxodGTP的延伸反应期间掺入)可通过多种手段掺入多核苷酸，例如通过电离辐射或氧化胁迫细胞DNA的另一方式。可选地，修饰的核苷酸可被加入dNTP混合物，且在多核苷酸的一条或两条链的延伸反应期间，可被掺入延伸的DNA链，从而以一定频率代替正常掺入的非修饰的核苷酸。掺入8-oxo G到多核苷酸链中之后，可通过DNA复制步骤期间亲本链中8-oxo G相对复制链中的腺嘌呤的配对实现腺嘌呤错配。

在一个实施方案中，8-oxo G可在用于测序的文库制备之前掺入多核苷酸。例如，基因组DNA样品可被片段化，片段末端被修复，腺嘌呤经由A-加尾被添加至末端且引物接头被添加至末端用于复制和扩增，例如。在片段复制期间，8OxodGTP可与规范的dNTP混合物(dATP、dTTP、dGTP和dCTP)一起被加入，这将导致DNA片段中多个8-oxo G鸟嘌呤类似物以随机方式代替多个鸟嘌呤。8OxodGTP的百分比可由经验确定。在一些实施方案中，8OxodGTP的百分比是片段复制期间可用于掺入的鸟嘌呤(例如，作为dGTP的代替)的至少10％、至少20％、至少30％、至少30％、至少50％、至少60％、至少70％、至少80％、至少90％或至少100％。鸟嘌呤类似物与规范的dGTP相比的百分比以及因此的比例可针对使用者期望的代替的量由经验确定。将理解的是，例如为了引入人工SNP，对于使用本文列出的方法和组合物掺入核酸的其他核苷酸(或修饰的核苷酸)可使用相似的百分比或比例。继续进行8-oxoG的实例，包含8-oxo G的基因组片段随后可与缺少8-oxo G的那些片段分离。包含8-oxo G的片段的分离可以通过任何手段进行。例如，复制期间使用的引物可与结合用于分离目的的结合伴侣的结合分子复合。这样的结合伴侣对包括但不限于，半抗原、小分子、染料和抗体，诸如例如生物素/链霉亲和素、生物素/抗生物素蛋白、生物素/中性亲和素、DNP/抗DNP、DIG/抗DIG等。包含8-oxo G的DNA的分离还可通过用8-oxo G特异性抗体诸如氧鸟嘌呤8抗体[2Q2311](ab64548，来自AbCam)捕获来分离。包含8-oxo G的DNA还可通过变性和洗涤或例如用甲酰胺基嘧啶DNA糖基化酶(Fpg)(还称为8-氧鸟嘌呤DNA糖基化酶，NEB)消化从下游单倍分型方法中消除。

图1示例了在用于掺入合成的多态性到基因组DNA中的方法中使用8OxodGTP的实施方案。在图1中，基因组DNA可被随机片段化为大片段。原始大片段的尺寸可以是至少500bp、至少750bp、至少1000bp、至少1500bp、至少2000bp、至少3000bp、至少4000bp、至少5000bp。原始片段的尺寸可由经验确定并可在具有不同频率的鸟嘌呤的基因组的不同区域之间变化，不同频率的鸟嘌呤将影响下游鸟嘌呤类似物掺入的量。片段化可以通过任何手段，例如声处理、水剪切、雾化、机械剪切和转座子方法等。片段可被末端修复、加A尾和接头连接。核苷酸8-oxo G可通过引物延伸和包含8OxodGTP的dNTP混合物被掺入基因组片段的链中。用于DNA延伸和修饰的核苷酸掺入的引物可与生物素复合，随后生物素可被链霉亲和素分子捕获用于分离包含8-oxo G的链。捕获的包含8-oxo G的模板可被复制，产生8-oxo G与腺嘌呤的错配，从而产生双链DNA分子，其中模板包含鸟嘌呤类似物且拷贝链包含错配的腺嘌呤。为了除去包含8-oxo G的链，从而留下包含腺嘌呤的链，用于第二链复制的引物可附着于捕获部分诸如生物素并可进行被链霉亲和素的捕获。

剩余的包含腺嘌呤的多核苷酸可被进一步扩增和加工以产生片段的文库用于测序。片段中产生的合成的腺嘌呤SNP是随机的，且由于鸟嘌呤被8-oxo G取代的随机性，引入的合成的SNP的模式可用于独特地鉴定亲本片段。测序后，人工SNP模式可在所有片段之间被比对，从而以原始基因组顺序组合片段序列用于单倍型确定，诸如确定单倍型含量或相。

在另一个实施方案中，用于在基因组DNA中引入人工多态性用于测序的方法包括用亚硫酸氢盐修饰DNA，从而产生人工多态性的模式。在一个实例中，向核酸样品应用低浓度的亚硫酸氢盐或持续短时间段应用亚硫酸氢盐，可通过不完全和部分转化未甲基化的胞嘧啶残基的亚组为尿嘧啶并其后转化尿嘧啶为胸腺嘧啶，以在基因组DNA的多个位置处产生人工胸腺嘧啶多态性来修饰DNA。当用亚硫酸氢盐处理哺乳动物DNA时，甲基化的胞嘧啶(例如，5-甲基胞嘧啶)保持不变而未甲基化的胞嘧啶残基被转化为尿嘧啶。因此，通过利用基因组DNA样品的甲基化状态并用亚硫酸氢盐处理基因组DNA，可产生人工T SNP(C至U至T)的模式，其可在测序后的片段之间比对以重构基因组DNA染色体序列用于随后的单倍型表征(例如，单倍型含量或相的鉴定)。在优选的实施方案中，当实施本文公开的方法用于产生多核苷酸中合成的多态性的模式时，甲基化胞嘧啶残基的部分和不完全转化是优选的。

可以是部分亚硫酸氢盐转化的靶的天然胞嘧啶序列构型的实例包括但不限于CG甲基化二核苷酸(1994,Clark等,Nucl Acids Res 22:2990-2997，通过引用全文并入本文)、CpT和CpA二核苷酸区域(2000,Lyko等,Nature 408:538-540；2000,Ramsahoye等,ProcNat Acad Sci 97:5237-5242；2001,Haines等,Dev Biol 240:585-598，通过引用全文并入本文)、和干细胞中的CHG和CHH，其中H可以是腺嘌呤(A)、胞嘧啶(C)或胸腺嘧啶(T)(2009,Lister等,Nature 462:315-322，通过引用全文并入本文)。

可利用扩增步骤以在文库制备之前产生带有新整合的人工SNP的各亲本片段的多个拷贝。如此，见于母系和父系染色体上的甲基化模式之间的差异可按照本文公开的方法来研究。

在其他实施方案中，DNA可被体外修饰以包括甲基化的核苷酸(例如，为非天然甲基化核苷酸的修饰的核苷酸)。例如，甲基化的核苷酸可通过在规范的dNTP存在下的扩增，诸如核酸的扩增被掺入多核苷酸中的多个位置，其中dNTP之一全部、优先地部分被包括但不限于以下的甲基化的dNTP代替：d^5mCTP、m7G(5’)ppp(5’)；P1-5’-(7-甲基)-鸟苷-P3-5”-鸟苷三磷酸(Roche Applied Science)、甲基5-dCTP(Zymo Research)、或羟甲基dCTP(Bioline)。另外，在规范的dNTP的背景中，甲基化的dNTP可被间插入(spike into)扩增反应。然后，如本文描述的，可对体外修饰的DNA进行部分亚硫酸氢盐转化用于在核酸样品中产生合成的多态性的模式。

使用基因组DNA样品的天然甲基化状态以产生人工SNP用于单倍分型和/或单倍型定相确定在图2中示例。在图2中，将基因组DNA如以上所述的片段化，并利用本领域已知方法将片段末端修复和加A尾(例如参见Molecular Cloning；A Laboratory Manual,Eds.Sambrook,Fritsch和Maniatus,Cold Spring Harbor Laboratory Press)，如此前在图1中示例的。可将制备的基因组片段连接于接头用于随后的片段扩增。用于与亚硫酸氢盐转化方法一起使用以产生人工SNP的接头可被设计使得它们在亚硫酸氢盐处理后是可延伸的和可扩增的。例如，接头可被预甲基化(即，甲基化接头)，或接头可被设计为当引物结合发生时缺少胞嘧啶核苷酸。接头连接的片段可在文库制备之前使用dTTP代替尿嘧啶来扩增和拷贝。在文库制备和测序后，片段化的序列中的人工SNP模式可被比对以重构原始基因组DNA，其然后可被单倍分型。胞嘧啶通过亚硫酸氢盐转化的部分转化在片段中产生合成的SNP，其中由于转化的随机性，合成的SNP的模式可用于独特地鉴定亲本片段。

可选地，在一些实施方案中，胞嘧啶向尿嘧啶的部分转化可在基因组DNA片段化和/或接头连接之前进行，在这种情形中，连接的接头不需要被甲基化或另外设计以抵抗对胞嘧啶的亚硫酸氢盐处理。

在另一个实施方案中，用于确定基因组序列的单倍型的方法包括使用修饰的核苷酸诸如isoC和isoG。异胞嘧啶(isoC，iC)和异鸟嘌呤(isoG，iG)，是与标准胞嘧啶和鸟嘌呤核苷酸相比具有倒置的胺和酮基团的修饰的核苷酸，可被错掺入DNA链，产生人工多态性的随机放置。在isoC和isoG的情形中，产生的多态性可在随后的步骤中利用正确的互补的非天然伴侣拷贝或测序。在这一实施方案中，在最初DNA复制步骤中错掺入isoC和isoG并改变条件用于随后的扩增步骤(即，诸如文库制备方法中使用的那些)以最小化或优先终止进一步的错掺入(2005,Sismour和Benner,Nucl Acids Res 33:5640-5646，通过引用全文并入本文)以忠实复制新形成的人工多态性是有利的。

图3是用于在DNA中产生人工多态性的方法中使用修饰的核苷酸的示例。例如，可将基因组DNA如前所述地片段化。可将接头如前所述地连接于随机片段的末端。示例性天然存在的SNP A和T被描绘在片段之一上；这些SNP被靶向作为单倍分型的实例。在延伸期间，修饰的核苷酸，在这一实例中是iC，可被掺入延伸的链，其被附着于延伸引物的结合部分进一步末端标记，所述结合部分在这一实例中是生物素。修饰的核苷酸脱氧异胞嘧啶diCTP可以是延伸dNTP混合物中以界定的比例或百分比计的部分。这样的比例或百分比可针对研究者期望的合成的多态性掺入的量由经验确定。包含修饰的核苷酸的链可以用结合伴侣捕获，所述结合伴侣在这一情形中是链霉亲和素，且随后的链加倍(strand duplication)可掺入伴侣到修饰的核苷酸，所述伴侣在这一情形中是如针对iC描述的iG。可扩增在一条链上包含iC且在另一条链上包含iG的双链片段，从而产生含两种修饰的核苷酸的多个片段，用于在文库制备中使用。

在另一个实施方案中，合成的多态性可替代地被掺入片段文库制备下游的基因组文库片段。例如，基因组文库产生后(通过本领域技术人员已知的任何手段，例如如本文讨论的)，合成的多态性可在文库制备和测序之间的步骤被掺入。在一个非限制性实例中，合成的多态性可在集落形成期间、合成测序方法之前被掺入。在这一情形中，DNA文库可与附着在基质上的引物杂交且第一链延伸反应可被用于掺入修饰的核苷酸到片段文库中。这一“第一链延伸反应”格式在图6中示例。简要地，与附着于DNA文库片段末端的引物同源的两个引物(P1和P2)被结合到基质诸如流动池(例如，流动池上的泳道或孔)、孔、板、和类似物上的位置。模板DNA文库片段可与基质结合的引物杂交且互补DNA链可在修饰的核苷酸存在下合成(例如，图6上的第1链延伸)。可进行聚类、测序和比对来比对掺入的人工多态性以提供可用于单倍型确定的序列。

对于本文描述的掺入人工多态性到基因组DNA中用于测序的所有实施方案，用于测序的文库可利用与下游测序仪器相容的方法制备。例如当序列读段的长度比用于单倍型确定的两个等位基因之间的距离短时，片段的序列，在确定后，可基于片段中存在的合成的SNP比对，且单倍型可基于该比对构建和确定。

图4的A图和B图中的第一序列显示包含天然存在多态性的两个示例性等位基因(等位基因1和2)，所述多态性在这一实例中是SNP，其被多于400个核苷酸分隔(等位基因1中的G-C和等位基因2中的T-A)。由于这些SNP之间的距离大于用于测序的文库制备方法的平均插入片段尺寸，利用未修饰的核苷酸对两个SNP的定相或单倍分型将是不可确定的。图4的A图和B图中的第二序列显示实践本公开内容的方法，例如实践在测序之前部分亚硫酸氢盐转化亲本基因组片段的方法之后，来自示例性等位基因1和2的相同区域。两个修饰的等位基因序列展示了人工多态性的独特模式的实例，其可通过如本文公开的亚硫酸氢盐转化产生。

测序后，短长度序列读段将基于人工多态性被比对以对每个等位基因再生独特的模式，从而重构原始基因组DNA片段(图5)。利用图5中的等位基因2对两个等位基因的单倍型重构，在基于合成的多态性模式的片段比对之后确定。如此，在测序之前掺入合成的多态性到核酸分子中允许独特的合成模式，其随后可在测序后在不同序列片段之间被比对，从而提供在天然存在的SNP之间的距离架桥的手段以确定其单倍型含量或相。

另外，本文公开的方法提供用于确定测序片段来源的手段。例如，人工多态性产生的相对频率及其随机性质使得能够确定两个DNA测序群体(例如，两种或更多种DNA簇、来源于一个模板的DNA扩增子的分离群体等)是否来源于同一原始亲本DNA分子。如果两个或更多个群体共有人工多态性的相同重叠模式，预期它们来源于同一染色体并且因此群体中存在的所有天然SNP可以是单倍型或定相在一起。

因此，在靶基因组序列中产生人工多态性的方法可用于连锁靶序列中天然存在的SNP，所述人工多态性被设计为在靶基因组DNA中以比天然存在的SNP的频率(或邻近)高的多的频率(或更邻近)出现，而由于靶中天然存在的SNP之间的分隔距离相对于序列读段长度，此前这是不可能的。而且，如本文公开的在靶基因组DNA中产生人工多态性的实施方案不要求被单倍分型的序列的现有知识。尽管人工多态性的产生的确根本地改变了被评价的序列，通过与无人工多态性的第2文库比较，或通过忽略人工位置并使用来自其他片段的序列数据以覆盖那些碱基(例如，如果人工多态性以覆盖特定位置的片段的例如5-10％存在，则其可被鉴定并忽略)从区域的最终共有序列除去人工多态性是可能的。

在另一个实施方案中，用于确定核酸样品单倍型的方法包括通过偏倚扩增掺入人工多态性到核酸中。用于进行偏倚扩增的示例性方法可见于例如，WO2011/106368(通过引用全文并入本文)。偏倚扩增(即，增加多核苷酸的数目的过程，其可以是线性或指数的)可包括扩增靶序列，其中所述扩增导致脱氧核糖核苷酸三磷酸(dNTP)以比另一个核苷酸低的效率被掺入核酸链。该方法可使用dNTP的集合，其中并非所有的dNTP(即，dATP、dTTP、dCTP、dGTP)在集合中都以相同浓度存在。核苷酸的集合还可包括修饰的核苷酸诸如此前提到的那些，其比规范的核苷酸较不有效(或较少)地掺入。

例如，在本文所列的方法中进行的步骤诸如扩增反应步骤中，一种或更多种dNTP可以以小于任何其他核苷酸的合并浓度的一半的浓度存在。任何一种类型的dNTP的浓度可以是，例如，小于其他合并的核苷酸的浓度的1/4、小于其他合并的核苷酸的浓度的1/5、小于其他合并的核苷酸的浓度1/10的等。可选地，与用于扩增反应的存在的其余dNTP的浓度(例如，200uM)相比，扩增反应中特定类型的dNTP的浓度可以是小于20uM、小于10uM、小于0.2uM。可选地，本文所列组合物或方法中特定类型的dNTP的浓度可以比存在的其余dNTP的浓度小至少5倍、小至少10倍、小至少20倍、小至少50倍。在这样的偏倚混合物中，可加入一种或更多种佐剂。例如，乙二醇、聚乙二醇、1,2-丙二醇、二甲基亚砜、甘油、甲酰胺、7-脱氮-GTP、乙酰胺、四甲基氯化铵、羧甲基三甲基铵的盐。一种或更多种佐剂的浓度可以在例如，2至5M之间。本领域技术人员将理解，条件可在反应之间变化；如此对任何特定体系的一些优化被预期到(例如，扩增反应条件可根据WO2011/106368优化，其通过引用全文并入本文)。

出于多种原因，预期在文库制备之前掺入如本文描述的合成的多态性到感兴趣的靶核酸中是有利的。例如，不论何种检验仪器，用于如本文所述的掺入合成的多核苷酸到核酸中的方法可联合任何文库制备方法进行(例如，用于在测序仪器中使用的文库制备方案包括但不限于，Illumina,Inc.、Applied

Ion

454LifeSciences、Complete Genomics、Pacific Biosciences、Oxford Nanopore Technology等的那些)。另外，在文库制备方案上游实践本文描述的方法允许合成的多态性在文库制备之前被固定且可确定。另外，实践本文描述的方法提供了将基因组DNA最初片段化为较长片段，例如多于100bp、多于300bp、多于500bp、多于1000bp、多于2000bp、多于10,000bp等。尽管对于下一代测序通常不是有利的，较长片段比较短片段(例如，<300bp)允许掺入更多合成的多态性；如此提供合成的多态性的模式，其在将较长片段另外片段化为较短片段后，在测序后可以是容易辨别的和可比对的。较长片段的另一优点是，较长片段具有包含大于一个天然SNP的可能性，如此使用较少片段可鉴定和比对更多SNP。

在一些实施方案中，合成的核苷酸可在核酸片段化之前掺入核酸中。例如，修饰的核苷酸可在细胞培养期间掺入细胞核酸中。修饰的核苷酸可例如通过以足以导致修饰的核苷酸掺入细胞DNA中的浓度包含修饰的核苷酸修饰培养基被掺入细胞核酸中。

在其他实施方案中，可使得基因组DNA成为包含修饰的核苷酸的较小基因组分子，而不需要在修饰的核苷酸掺入后的机械、化学或生物片段化。例如，randomers(例如，随机序列六聚体)可用于产生来源于基因组DNA模板的多个核酸分子，而不是通过例如机械或生物方法(例如，转座子相关方法)初始片段化基因组DNA。例如，randomers可与基因组DNA杂交并延伸(例如，通过滚环扩增)从而产生DNA的长链，其将用于本文公开的片段化的其他形式的相同目的(例如，产生较小的多核苷酸用于文库制备，用于测序)。延伸产生的延伸产物随后可用在亚硫酸氢盐转化方法中用于转化天然核苷酸为合成的多态性。在其他实施方案中，修饰的核苷酸(例如，pPTP、8-oxo-G、isoC、isoG等)可在延伸反应期间掺入，产生包含修饰的核苷酸的延伸产物，从而连接(concatenating)从包含修饰的核苷酸的基因组DNA产生较短分子的步骤，其然后可用于进一步的文库制备方法。

不论用于掺入合成的多态性到核酸分子中的方法是哪一种，所得的包含合成的多态性的多核苷酸都可用于下游检验。例如，修饰的核酸分子可用于测序。包含合成的多态性的核酸分子对于确定或表征样品的单倍型特别有用。包含合成的多态性的核酸分子还对于从头测序特别有用，其中较短的序列读段可被比对并组装以产生全长、且有时是新的序列。当对基因组中包含高发生率的重复区域的区域测序时，所述区域由于其重复性质可以是难以比对的，包含合成的多态性的核酸分子也特别有用。

利用本文公开的方法掺入合成的多态性的随机性质提供了具有掺入的多态性的模式的修饰的核酸分子，其随机模式在被确定后，可被比对和报告用于确定样品单倍型(例如，单倍型含量或相)、从头序列，验证样品序列、此前视为难以确定的基因组位置的序列等。通过实践本文公开的方法确定的序列例如确定的单倍型，可被诊断医生、临床医生、研究者或其他方使用，例如用于将序列与疾病状态(例如，癌症、神经紊乱、退化性紊乱等)信息关联，其转而可用于诊断和预测个体是否可患有或不患有特定疾病或紊乱、或可具有或不具有特定疾病或紊乱的倾向。另外，某些序列例如单倍型，可被与特定疾病或紊乱的优先治疗方案关联，这可被健康护理专业人士用于确定任何特定个体特异性的治疗方案。另外，方法可用于确定基因组中重复区域的类型和数目，例如为了法医目的。

在一些实施方案中，包含合成的多态性的修饰的核酸分子在测序中特别有用，例如用于确定单倍型、用于从头测序等。包含合成的多态性的修饰的核酸分子可通过任何手段被测序。靶核酸，例如基因组DNA，通常在测序之前从样品提取并分离。可选地，RNA可从样品收获且cDNA从分离的RNA产生，其中cDNA可用于测序。术语“核酸”和“多核苷酸”是指脱氧核糖核酸(DNA)、核糖核酸(RNA)、互补DNA(cDNA)或DNA、cDNA或RNA的类似物。核酸可以是单链或双链分子。核酸或多核苷酸可以呈单链形式来源，诸如ssDNA或RNA，或它们可以呈双链形式(dsDNA)来源，诸如在基因组DNA、扩增产物、和/或其片段等等中所见的。不论什么链形式的核酸或多核苷酸，可来源于包括但不限于以下的多个来源的任一个：来自生物体的完整基因组互补序列的样品、生物体的完整基因组互补序列的片段。核酸可包括内含子和外显子序列或任何数目的调节和/或非调节序列。

样品可来自任何来源，例如，原核生物、古细菌或真核生物。此外，样品可以是液体(即，血液、血清、血浆、脑脊液、尿等)或固体(即，细胞、组织等)。如本文使用的，术语“样品”与其在生物学和化学领域中的含义一致地使用。在某种意义上，它意图包括来自从任何来源诸如生物和环境样品获得的样本或培养物的核酸或多核苷酸或其片段。生物样品可获自动物，包括但不限于人类、非人类灵长类、和非人类动物，包括但不限于，脊椎动物诸如啮齿类、羊、牛、反刍类、兔类、猪、山羊、马、犬、猫、鸟纲等。生物样品包括但不限于，液体诸如血液制品、组织、细胞等等。生物样品还可以是植物来源的，单子叶或双子叶、每年落叶或常绿植物、草本或木本，包括但不限于农业植物、园林植物、苗圃植物等等。环境样品可以是细菌、病毒、真菌等等来源的。优选的样品是真核生物来源的。特别有用的样品是来源于具有多于一组单倍体染色体(该组是一个或更多个不同的染色体)的生物体的那些。例如，样品可来源于二倍体、三倍体或多倍体的生物体。基本上，在确定序列信息方面研究者感兴趣的任何生物体核酸样品来源都适用于本方法。样品还可包括合成的核酸或其片段。还包括核酸的衍生物或产物诸如扩增的拷贝或化学修饰的物质。在优选的实施方案中，样品来源于哺乳动物，例如人类。

如本领域技术人员已知的，多种方法和方案可用于从样品分离核酸(诸如基因组DNA或RNA)，例如如Molecular Cloning:A Laboratory Manual(Eds.,Sambrook,Fritsch和Maniatus,Cold Spring Harbor Laboratory)，Current Protocols in MolecularBiology,John Wiley&Sons,Inc.(The Red Book)和Short Protocols in MolecularBiology,Eds.,Ausubel等,John Wiley&Sons,Inc中描述的。还存在无数市售可得的产品和试剂盒可用于从多种样品类型分离DNA和RNA。本公开内容不意图受从样品分离核酸的方式限制。

从样品提取和分离核酸后，核酸可在测序之前例如按照文库制备方案被进一步加工。加工可依据研究者使用的哪种测序仪器和技术而不同。本文公开的方法和系统不必限于任何特定文库制备方法或技术。图1-3示例了在实践文库制备之前，例如在一些实施方案中实践公开的方法。尽管在典型文库方案之前进行本文公开的方法存在益处，其中基因组DNA的较小片段是期望的，方法可被并入典型文库制备方法的工作流程中。例如，本文公开的方法还可被并入在测序样品之前的任何文库制备步骤中。如此，在一些实施方案中，用于掺入合成的多态性到靶DNA的方法可被并入样品的文库片段化之后和测序样品DNA之前的文库工作流程中。作为一个实例，本文所述方法可被并入用于PACBIO RS DNA模板制备试剂盒(Pacific Biosciences,Inc.,Menlo Park,CA)的样品制备工作流程中、或与其联合使用，该试剂盒使用SMRTbell^(TM)技术文库格式，其中用于测序的插入片段长度可以在250和6000bp之间。研究者可使用PCR相关的方法用于文库制备或可替代地采用基于非PCR的方法用于文库制备。

如图1-3中示例的，在一些实施方案中，表示为一对同源染色体的基因组DNA可被随机片段化为DNA片段的长段，例如至少300bp、至少500bp、至少750bp、至少1000bp、至少2000bp、至少3000bp、至少5000bp长的片段。随机片段化可通过本领域技术人员已知的多种手段实现。例如，在一些实施方案中，机械和/或声剪切可用于片段化基因组DNA，诸如通过重复地迫使基因组DNA样品通过小孔注射器、通过雾化、通过水剪切或通过声处理。

核酸的初始片段化可与用于多种文库制备方案的那些相同或不同。雾化实现的DNA片段化的实例描述在Illumina,Inc的Paired-End Sample制备试剂盒和由454LifeSciences的GS Junior and GS FLX测序系统(Branford,CT)采用的用于产生文库DNA的试剂盒中。在一些实施方案中，DNA的剪切通过水动力例如由

HydroShear技术仪器提供的以及描述在SOLiD^TMMate Paired文库试剂盒(Applied

LifeTechnologies,Carlsbad,CA)的工作流程中的那些实现。在一些实施方案中，DNA的剪切通过声/机械手段诸如由

adaptive focused acoustics(AFA)方法提供的那些实现。在一些实施方案中，声处理也可用于片段化基因组DNA，例如在SOLiD^TM片段文库构建试剂盒(Applied

Life Technologies,Carlsbad,CA)的工作流程中示例的，其中

声处理技术用于剪切基因组DNA。在一些实施方案中，基于转座子的技术可用于片段化DNA，例如如Nextera^TMDNA样品制备试剂盒(Illumina,Inc.)的工作流程中示例的，其中基因组DNA可通过将输入DNA同时片段化和加标签(“加标签(tagmentation)”)的工程化的转座体(transposome)被片段化，从而产生片段化的核酸分子的群体，其在片段的末端包含独特的接头序列。当期望长核酸片段时，基于转座子的方法是特别有利的。在一些实施方案中，酶促片段化可用于片段化基因组DNA，例如如在Ion Plus and Ion Xpress^TM Plus和片段化文库试剂盒(Ion Torrent^TM Life Technologies,Carlsbad,CA)的工作流程中采用的。如展示的，存在用于片段化大核酸分子诸如基因组DNA的无数方法，且技术人员将理解，方法可基于特定检验技术和仪器来确定。

在一些实施方案中，用于检验的核酸被如前所述地初始片段化为长片段后，可进行样品的进一步加工。如在图1-3中示例的，一些实施方案包括在核酸片段的末端附着另外的序列诸如接头序列。接头序列可用于另外的下游方法诸如扩增、聚合酶链式反应、分子捕获方法等等。此类接头序列可以是引物序列，其可与下游文库制备试剂盒和方法中使用的接头序列相同或不同。接头可以是双链、单链、叉状(即，接头的一部分为双链，且接头的一部分为两个单链)或呈发夹构型(即，接头的一部分为双链，且一部分为单链环结构)。接头还可包括独特的序列，诸如条形码，其可用于鉴定特定靶DNA。本文公开的方法不必限于接头的任何特定用途或序列，且本领域技术人员将理解，接头的使用可基于被使用的检验和仪器来选择。

图1-3显示掺入合成的多态性到核酸中的示例性实施方案。例如，如图1-3中所示的，修饰的核苷酸(例如，8-oxo G)的掺入、亚硫酸氢盐转化C为U、以及修饰的核苷酸(例如，iC)的掺入可分别进行用于在核酸中产生合成的多态性。在一些实施方案中，修饰的核苷酸8-oxo G可通过将核酸片段暴露于氧自由基物质和/或电离辐射被掺入双链DNA中。可选地，在规范的核苷酸dATP、dTTP、dCTP以及一定比例的dGTP与类似物8OxodGTP的存在下，8-oxoG可通过引物在核酸上退火和延伸被掺入核酸中。在一些实施方案中，dGTP与8OxodGTP的比例是至少1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:30、1:40、1:50、1:75、1:99。在其他实施方案中，8OxodGTP在用于掺入合成的多态性的方法中的百分比是100％(即，无dGTP被加入反应)。可按照相同或相似的方法用于修饰的核苷酸诸如iC和iG的掺入，如图3中示例的。对于部分亚硫酸氢盐转化，可按照技术人员已知的用于亚硫酸氢盐转化的常规方法，用于将DNA中的胞嘧啶部分转化为尿嘧啶，如图2中示例的。

在一些实施方案中，用于结合接头序列的一种或更多种引物可进一步与结合部分缔合，用于实现修饰的核酸链从非修饰的链(即，无掺入的合成的多态性的核酸链)的捕获和纯化，所述接头序列用于通过引物的退火和延伸掺入修饰的核苷酸。如图1和3中示例的，半抗原生物素可与引物缔合，用于随后通过其结合伴侣链霉亲和素的捕获，从而将其从非修饰的核酸纯化。然而，本方法不必限于结合伴侣或捕获系统的特定类型或组。在一些实施方案中，当包含修饰的核苷酸的链被捕获并从非修饰的链纯化后，通过例如结合附着于核酸末端的接头的引物、随后加倍，修饰的链可被加倍且合成的多态性被复制，以产生具有掺入的合成的多态性的双链核酸分子。

在一些实施方案中，不存在链的选择性捕获。例如，图2展示了用于掺入合成的多态性的方法，其中未进行选择性捕获。这证明，尽管链选择是有利的，它并不总是必须的。在一些实施方案中，在包含修饰的核苷酸的核酸链被纯化和/或从不包含修饰的核苷酸的其互补链选择后，选择的链可通过例如引物延伸方法被复制，其中此类复制或加倍相对亲本链中其中修饰的核苷酸驻留的位置掺入合成的多态性。如图1中示例的，包含8-oxo G的模板核酸链的加倍产生相对模板链中8-oxo G核苷酸的位置包含新掺入的腺嘌呤(A)或偶尔地胞嘧啶(C)的互补链。然而，腺嘌呤是与8-oxo G错配的核苷酸的示例。胞嘧啶也可与修饰的核苷酸8-oxo G配对。如此，在一些实施方案中，其中8-oxo G被用作用于掺入合成的多态性的修饰的核苷酸，腺嘌呤和/或胞嘧啶可被掺入作为合成的多态性。当利用其他修饰的核苷酸时，所得的被掺入的合成的多态性可以是与该特定修饰的核苷酸配对的核苷酸。

图1展示了在测序之前除去示例性修饰的核苷酸8-oxo G。核苷酸8-oxo G可与腺嘌呤或胞嘧啶配对，如此8-oxo G在用于测序的片段中的保持将是优先的。在一些实施方案中，修饰的核苷酸被保持在用于测序的核酸片段中。例如，掺入isoC(图3)到核酸片段中，其中在加倍后，核苷酸伴侣isoG也被掺入，从而提供包含isoC和isoG二者作为合成的多态性的用于测序的核酸。

在本申请的实施方案中，包含合成的多态性的核酸片段可被扩增。此类扩增可富集文库中仅在两末端包含接头的那些核酸片段以及增加片段集合中进入文库制备过程的DNA的量。例如，掺入合成的多态性到核酸片段中后，可利用退火到连接于核酸片段末端的接头的引物进行聚合酶链式反应(PCR)扩增。如本文使用的接头可提供许多功能，其中之一是用于与附着于基质的同源序列杂交，例如为了进行乳液PCR(emPCR)或用于在合成测序方法中使用的克隆产生。

在靶核酸已被修饰以包含多个合成的多态性后，可例如通过进行由特定测序方法和仪器推荐的方法产生用于测序的文库制品。例如，如用于在包括但不限于以下的许多测序系统的任一种中使用的方案和手册中描述的：Illumina,Inc.(例如，HiSeq 1000、HiSeq2000、HiSeq 2500、MiSeq、Genome Analyzer系统等)、454Life Sciences(例如，GS Junior,GS FLX+等)、Applied

Life Technologies(例如，SOLiD^TM测序系统)和IonTorrent^TM Life Technologies(例如，Ion PGM^TM Sequencer、Ion Proton^TM Sequencer等)。还可通过例如多重链置换扩增(MDA)技术扩增DNA文库样品用于测序。技术人员将认识到用于产生核酸文库的另外的方法和技术，其也可与本文描述的方法联合使用用于掺入合成的多态性到核酸片段中。如此，除了在特定实施方案中，在那些方法之前或之中掺入或产生合成的多态性以外，本文描述的实施方案不必限于用于产生文库的任何特定方法。

包含合成的多态性的核酸文库用于在测序检验，例如用于确定单倍型、从头序列确定和法医核苷酸应用(即，核苷酸重复区域等)、诸如此类中使用是有利的。在一些实施方案中，包含合成的多态性的DNA文库可被固定在流动池上。固定的核酸可利用单分子解析技术(single molecule resolution techniques)测序或固定的核酸可例如经由桥式扩增被扩增用于基于系综的(ensemble-based)检测。可在测序之前对固定的多核苷酸进行桥式扩增，例如用于合成测序方法。在桥式扩增中，固定的多核苷酸(例如，来自DNA文库)与固定的寡核苷酸引物杂交。固定的多核苷酸分子的3’末端为聚合酶催化的、模板引导的从固定的寡核苷酸引物延伸的延长反应(例如，引物延伸)提供模板。所得的双链产物“桥接”两个引物且两条链共价附接于支持物。在下一循环中，在产生固定于固体支持物的一对单链(固定的模板和延伸的引物产物)的变性后，两条固定的链可用作新的引物延伸的模板。如此，第一和第二部分可被扩增以在称为“聚类”的过程中产生多个簇。簇和集群可互换使用，并是指附接于表面的多个拷贝的核酸序列和/或其互补序列。通常，簇包含经由其5’末端附接于表面的多个拷贝的核酸序列和/或其互补序列。示例性桥式扩增和聚类方法在例如，PCT专利公布号WO00/18957和WO98/44151、美国专利号5,641,658；美国专利公布号2002/0055100；美国专利号7,115,400；美国专利公布号2004/0096853；美国专利公布号2005/0100900、美国专利公布号2004/0002090；美国专利公布号2007/0128624；和美国专利公布号2008/0009420中描述，其每一个都通过引用全文并入本文。如本文描述的组合物和方法在利用包含簇的流动池的合成测序方法中特别有用。

用于在测序之前扩增核酸的乳液PCR(emPCR)方法也可联合如本文描述的方法和组合物使用。乳液PCR包括在油包水乳液中PCR扩增接头侧翼的shotgun DNA文库。PCR是多模板PCR；在特定实施方案中仅使用单引物。PCR引物之一被拴系于微尺度珠表面(5’附接)。低模板浓度导致大多数具有零个或一个模板分子存在的包含珠的乳液微泡。在生产性乳液微泡(其中珠和模板分子二者存在的乳液微泡)中，PCR扩增子可被捕获到珠表面上。破坏乳液后，带有扩增产物的珠可被选择性地富集。每个克隆扩增的珠将在其表面带有对应来自模板文库的单分子扩增的PCR产物。珠然后可在流动池表面上成阵列用于测序。乳液PCR方法的多种实施方案列在Dressman等,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、PCT专利公布号WO 05/010145、美国专利公布号2005/0130173、2005/0064460和2005/0042648中，其每一个都通过引用全文并入本文。

DNA纳米球也可联合如本文描述的方法和组合物使用。用于产生和利用DNA纳米球用于基因组测序的方法可见于，例如，美国专利和公布7,910,354、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488并如例如，Drmanac等,2010,Science327(5961):78-81中描述的；其所有都通过引用全文并入本文。简要地，在基因组文库DNA片段化后，将接头与片段连接，接头连接的片段通过以环连接酶连接被环化并进行滚环扩增(如Lizardi等,1998.Nat.Genet.19:225-232和US2007/0099208A1中描述的，其每一个都通过引用全文并入本文)。扩增子的延伸的连环体结构(concatameric structure)促进卷曲，从而产生紧密的DNA纳米球。DNA纳米球可被捕获到基质上，优选以产生有序的或模式化的阵列，从而保持每个纳米球之间的距离，从而允许测序单独的DNA纳米球。在一些实施方案诸如Complete Genomics(Mountain View,CA)使用的那些中，在环化之前进行接头连接、扩增和消化的连续轮以产生具有由接头序列分隔的数个基因组DNA片段的头至尾构建物。

当在测序，例如下一代(“nexgen”)合成测序(SBS)技术中使用时，用于通过掺入合成的多态性到多核苷酸或其片段中用于确定单倍型、从头序列等的公开的方法特别有用。合成测序通常包括利用聚合酶向以5’至3’方向渐增的多核苷酸链顺序添加一个或更多个核苷酸。延伸的多核苷酸链与附着于基质(例如，流动池、芯片、载玻片等)的核酸模板互补；靶序列包含合成的多态性。

当在连接测序、杂交测序和其他测序技术中使用时，通过掺入合成的多态性到多核苷酸或其片段中用于确定单倍型、从头序列等的公开的方法也特别有用。示例性的连接测序方法是由Applied Biosystems’SOLiD^TM测序系统使用的二碱基编码(例如，颜色空间测序)(Voelkerding等,2009,Clin Chem 55:641-658；通过引用全文并入本文)。杂交测序包括使用核苷酸探针的短序列的阵列，向其加入片段化的、标记的靶DNA(Drmanac等,2002,Adv Biochem Eng Biotechnol 77:75-101；Lizardi等,2008,Nat Biotech 26:649-650，美国专利7,071,324；通过引用全文并入本文)。杂交测序的进一步改进可见于，例如，美国专利申请公布2007/0178516、2010/0063264和2006/0287833(通过引用全文并入本文)。组合杂交和连接生物化学的测序方法已被开发并商业化，诸如由Complete Genomics,MountainView,CA实践的基因组测序技术。例如，复合探针-锚定分子连接或cPAL^TM(Drmanac等,2010,Science 327(5961):78-81)利用了连接生物化学，同时利用杂交测序的益处。本文公开的用于单倍分型、从头测序等的方法可用在复合探针-锚定分子连接测序技术中。预料的是，如本文描述的使用合成的多态性确定单倍型、从头序列等的方法不限于任何特定的测序方法。另外的测序技术包括但不限于，由polony测序技术(Dover Systems)、杂交测序荧光平台(Complete Genomics)和sTOP技术(Industrial Technology Research Institute)的一种或更多种实践的那些。

单分子测序也可与本文公开的方法一起使用。例如，用于测序的非扩增DNA文库可如前所述地制备。文库片段可被杂交并捕获在基质诸如流动池上，并在例如，HeliScope^TMSingle Molecule Sequence仪器上检验。单分子测序的进一步描述可见于，例如，Puchkarev等(2009,Nat.Biotechnol.27:847-52,通过引用全文并入本文)和Thompson和Steinmann(2010,Curr.Prot.Mol.Biol.Cpt 7,Unit 7.10，通过引用全文并入本文)。

本文列出的方法可联合核酸检测系统诸如由以下提供的那些使用：

Inc.(HiSeq 1000、HiSeq 2000、HiSeq 2500、Genome Analyzers、MiSeq、HiScan、iScan、BeadExpress系统)、Applied Biosystems^TM Life Technologies(ABI

Sequence检测系统、SOLiD^TM System)、Ion Torrent^TM Life Technologies(Ion PGM^TM、Ion Proton^TM)454 Life Sciences(GS Junior、GS FLX+)、PacBio RS(Pacific

)、OxfordNanopore

(GridION、MinION)或其他测序仪器，进一步如例如，美国专利和专利申请5,888,737、6,175,002、5,695,934、6,140,489、5,863,722、2007/007991、2009/0247414、2010/0111768和PCT申请WO2007/123744以及美国专利申请序列号61/431,425、61/431,440、61/431,439、61/431,429、61/438,486中描述的那些，其每一个都通过引用全文并入本文。

来自测序仪器的输出结果(output)可以是任何类型。例如，一些当前技术利用产生可读输出结果的光，诸如荧光或发光(luminescence)。其他技术利用基于在测序期间在核苷酸掺入过程中释放的氢离子检测离子释放并数字输出序列的半导体。然而，本方法不限于可读输出结果的类型，只要感兴趣的特定序列的输出信号中的差异是潜在可确定的。

可被使用或调整以表征来源于本文所述的实践方法的输出结果的分析软件的实例包括但不限于，Pipeline、CASAVA和GenomeStudio数据分析软件(

Inc.)、SOLiD^TM、

和

Genomics Suite^TM数据分析软件(Life Technologies)、Feature Extraction and Agilent Genomics Workbench数据分析软件(Agilent Technologies)、Genotyping Console^TM、Chromosome Analysis Suite数据分析软件

预料的是，与本文公开的方法和组合物一起使用的一种或更多种软件程序将具有以下能力：识别片段序列数据中存在的掺入的合成的多态性模式、比对片段序列数据中鉴定的多态性、以及基于该比对输出序列。在一些实施方案中，输出结果可包括靶样品的单倍型(例如，单倍型含量或相)。在其他实施方案中，输出结果可包括靶样品的从头序列信息。在其他实施方案中，输出结果可包括法医核苷酸重复信息，诸如类型(即，重复序列的序列、重复序列的位置、短或中度串联重复序列的数目等。

在一些实施方案中，序列分析和比对包括对参考基因组比对序列读段，或例如通过引入文库片段中用于测序的条形码从头组装可比对区域，如技术人员已知的。取决于人工SNP的密度，预料的是，可使用标准比对软件工具。例如，如果合成的SNP密度是高的，则比对程序可被修改使得比对充分地足够允许放置序列读段。作为一个实例，当合成的SNP通过亚硫酸氢盐转化方法被掺入时，用于亚硫酸氢盐测序的现有的修改的比对pipelines可被使用(例如，如www.bioinformatics.babraham.ac.uk/projects/bismark中描述的)。对于从头组装，预料的是，当读取来源于实践本文公开的方法的序列时，可对标准短读段组装器(assemblers)禁用内置错误校正模块(2008,Zerbino和Birney,2008,Genome Res 18:821-829，通过引用全文并入本文)。

用于从短-序列读段建立单倍型块的算法可与本文公开的方法一起使用(Bansal和Bafna,2008,Bioinformatics 24:i153-i159)。然而，可修改此类算法偏离两个分离的单倍型的标准假设，如当测序正常二倍体人类DNA分子时将预计的。例如，引入的合成的SNP将产生对应每个原始序列片段的更大数目的表观或人工单倍型并因此将在算法中进行修改以适应这一非标准信息。

可以以许多方式从正常核苷酸序列鉴定合成的SNP。例如，未被修饰的原始序列可用作参考序列并因此用作不含合成的SNP的对照。以这种方法，原始序列中不存在的多态性可被鉴定并与修饰的序列中的那些位置关联，从而鉴定修饰的序列中掺入合成的SNP的位置。随后，可利用那些鉴定的修饰的核苷酸进行比对。对于共有序列调用(consensuscalling)，将预计合成的多态性是对原始序列独特的。如此，通过在特定基因组位置测序原始片段，多态性跨合成的单倍型的频率可被估计并与正常二倍体人类样品中预计的频率比较。

在一些实施方案中，人工单倍型的合并可通过被修改以鉴定合成的多态性的算法诸如HapCUT或其修改形式进行(2009,Bansal和Bafna)。可修改算法以合并被鉴定为非合成的SNP但来源于不同的合成的单倍型的SNP，从而产生真正潜在的单倍型比对的图谱。

在一些实施方案中，来自包含天然和合成的多态性二者的比对的序列的输出结果可包括重构的单倍型中天然多态性的位置和合成的多态性的位置二者。可选地，输出结果可仅包括重构的单倍型中天然多态性，合成的多态性被筛选出。可以以多种方式，例如可使用标准基因组浏览器诸如整合基因组学查看器(integrative genomics viewer，IGV)实现可视化(2011,Robinson等,Nat Biotech 29:24-26，通过引用全文并入本文)。重构的单倍型可在基因组浏览器中被注释以高亮真正的、天然多态性和/或合成的多态性(例如，如果输出结果中存在)的位置。然而，其他可视化工具也可使用，如技术人员已知的。本方法不必限于用于比对和输出或可视化来源于实践本文公开的方法的序列的算法、方法或系统。

实施例

提供以下实施例以展示并进一步阐释公开的方法和组合物的某些优选的实施方案和方面，且不应被解释为限制其范围。

在文库制备之前，基因组DNA可被修饰以包括人工多态性。基因组DNA可被最初片段化为大的段(例如数千碱基)。较大的片段尺寸最大化了两个或更多个人工SNP在同一片段中的出现，同时最大化了更杂合的SNP的出现。转座子介导的核酸片段化和水剪切是用于产生例如，1,000-40,000bp之间的初始DNA片段的方法的实例。

实施例1--合成的多态性掺入phiX基因组

进行测序实验以评价修饰的核苷酸掺入DNA链用于下游测序的频率。使用噬菌体参考基因组phi X 174或phiX，因为phiX具有5386个碱基的小的、充分界定的基因组序列。两种修饰的核苷8OxodGTP和dPTP以与正常dNTP的不同组合掺入。dPTP可与A和G二者碱基配对，而8OxoG可与A和C二者碱基配对。

按照制造商的方案将标准配对的末端Illumina流动池接种2pM的浓度的标准phiX文库。在文库与流动池结合的寡核苷酸杂交后，通过在DNA聚合酶和如见于表1的多种核苷酸混合物(天然和非天然的)的存在下在40℃培养流动池1小时，DNA分子在流动池泳道中利用第一链延伸方法被复制。

表1以脱氧核苷浓度的phiX第一延伸检验

泳道1

[dATP]

[dCTP]

[dGTP]

[dTTP]

[8oxo-dGTP]

[dPTP]

1

100μM

2

100μM

10μM

100μM

3

100μM

4

100μM

10μM

100μM

10μM

90μM

5

100μM

6*

100μM

10μM

90μM

7

100μM

8

100μM

10μM

100μM

10μM

90μM

*μM浓度被四舍五入到最接近的整数

在第一延伸反应(在图6中示例的)之后，按照制造商的方案通过35个循环的等温扩增克隆扩增单分子以产生扩增簇，将其在Illumina Genome Analyzer上测序。读段是100个循环且数据利用标准系统软件分析，随后利用PhageAlign系统软件与phi X参考序列比对用于配对末端分析。

表2显示流动池的每个泳道的测序运行的概述。泳道1是对照泳道并代表来自使用正常dNTP的正常测序运行的测序输出。泳道2-6显示当在第一链延伸期间联合或代替正常dNTP掺入一个或两个修饰的核苷酸时的测序运行输出(dNTP浓度来自表1)。％错误率(PF)报道了比对的读段中与参考基因组不匹配的调用的碱基的百分比，在这一实验中，其反映了修饰的核苷酸向靶phiX DNA的掺入。如在表2中观察到的，其中反应条件掺入修饰的核苷酸到phiX DNA中的所有泳道都显示比正常对照(泳道1)更高的错误率。

表2-phiX修饰的DNA的测序运行

图7显示对于对照(A))泳道与泳道2(B))、3(C))和4(D))相比(泳道6结果基本上与泳道4相同)，循环相对于错误率的图。如图7中展示的，其中第一链延伸掺入了修饰的核苷酸的泳道(泳道2、3和4)显示比对照泳道1升高的错误率。此外，错误率没有升高而是保持稳定，如此，在第一延伸反应后似乎未掺入另外的合成的核苷酸，从而除去由于在簇形成和随后测序期间意外的合成的核苷酸掺入引起的针对准确测序确定的可能变量。

来自phiX未修饰的DNA的测序数据显示，大多数序列读段具有最少的或无测序错误，而来源于掺入修饰的核苷酸的第一链延伸反应的那些序列读段具有高数目的错误。图8显示，掺入修饰的核苷酸到第一链延伸中产生相对于对照包含1、2、3、4或更多个合成的SNP的大量的测序片段，这将允许合成的SNP的片段比对以及因此允许单倍型确定。

进一步确定了如表1中所见的天然和修饰的不同组合导致合成的SNP的哪些类型和频率。图9显示了掺入期间使用dPTP导致的突变和在测序读段中的普遍性(错误率)的泳道间比较。如此前陈述的，dPTP可与A和G二者碱基配对，从而当dPTP被掺入第一链延伸产物中时允许发生以下突变；A→G、G→A、T→C和C→T。当dPTP在dCTP和dTTP不存在的情况下掺入时(图9中的泳道3和7)，G→A突变相对于其他类型的突变占主导地位。相反，当掺入反应期间存在少量的dCTP和dTTP时(泳道4、6和8)，该突变的主导地位是最低的。

另外，评价了掺入的人工SNP的分布模式。如图10中展示的，8OxoG(泳道2)和dPTP(泳道3和4)二者的掺入跨整个基因组是一致的。图中的尖峰是人工产物，且不代表在这一位置不成比例的量的合成的SNP。

预料的是，泳道5的反应条件过于极端，导致这一泳道的测序失败。

实施例2-合成的核苷酸掺入p53基因

p53基因的一个区域在测序之前使用插入基因的PTP修饰的核苷酸被进一步测序。p53基因的一个区域使用寡核苷酸TP53外显子1 3.1F(尾-GAAACTTTCCACTTGATAAGAGGTC)和TP53外显子4 8.1R(尾-GCCCCTGTCATCTTCTGTCC)扩增。PCR混合物由1X Thermopol缓冲液、26U/ml Taq DNA聚合酶、0.52μM每种寡核苷酸组成。反应1包含200μM的每种天然核苷酸(dATP、dCTP、dGTP、dTTP)。反应2包含大约200uM的dATP和dGTP、198μM的dCTP和dTTP以及2μM的dPTP。反应3包含大约200μM的dATP和dGTP、180μM的dCTP和dTTP以及20μM的dPTP。扩增利用以下条件进行：94℃3分钟，随后是94℃30秒、50℃30秒、72℃5分钟的38个循环。循环后，将样品在72℃温育5分钟，并将温度降低到4℃。p53靶模板是来自在主混合物(1X终浓度)中使用Phusion聚合酶的样品NA18507(人类1)扩增的PCR产物的等份。还包括了阴性对照(无模板)。

将PCR反应1和3上样到在TAE中预染色的

Safe 1％琼脂糖凝胶，并使用QIAQuick Gel提取试剂盒按照制造商的方案切下预计尺寸的凝胶条带。DNA在30μl洗脱缓冲液中洗脱。第二轮扩增以Phusion聚合酶在HiFi缓冲液中以此前描述的引物进行。将1μl此前洗脱的DNA用作第二PCR反应(100μl总体积)的模板。PCR条件如下：98℃1分钟，随后是98℃10秒、50℃30秒、72℃5分钟的38个循环。循环后，将样品在72℃温育5分钟并在4℃储存。将PCR反应上样到在TAE中预染色的

Safe 1％琼脂糖凝胶，并使用QIAQuickGel提取试剂盒切下预计尺寸的DNA条带。DNA在30μl EB中洗脱。

按照标准方案，将洗脱的DNA在每样品10μl的总体积的1X Thermopol缓冲液中以dATP和Taq于74℃加A尾30分钟。使用Quick连接酶(New England Biolabs)将加A尾的DNA的3.5μl等份连接到

-T Easy载体(Promega)中。将连接产物转化到XL10Gold感受态细胞(Stratagene)中。于37℃在包含抗生素的琼脂平板上培养过夜后，挑取单菌落并接种到Luria Broth中。使用QIAprep Spin Miniprep试剂盒(QIAGEN)从来自每个克隆的大约3ml细菌培养物制备质粒DNA。质粒DNA在50μl EB中洗脱。通过用EcoRI的限制酶消化筛选克隆中插入片段的存在。用与

-T Easy载体序列同源的SP6和T7引物以及还使用对p53序列插入片段特异性的内部引物通过毛细管测序对阳性克隆(来自以天然dNTP的PCR的三个克隆和来自在dPTP存在下的PCR的6个克隆)进行测序，以验证修饰的核苷酸掺入。

图11显示来自三个随机克隆A、B和D的SBS测序结果。序列代表来自p53基因的一个区域的序列运行，证明天然SNP穿插着掺入的合成的SNP。天然杂合SNP的大致位置由图中的星号表示。垂直线代表SNP的位置并展示了合成的SNP掺入的随机和空间分布性质。

基于测序数据，确定了天然存在的SNP在来自p53基因的测序区段中被正确鉴定并比对，平均序列读段长度为大约800bp的可确定序列。

本申请中提到的所有出版物和专利通过引用并入本文。对本公开内容描述的方法和组合物的多种修改和变化对于本领域技术人员将是明显的，而不偏离本发明的范围和精神。

已经描述了许多实施方案。尽管本发明已经结合具体优选实施方案被描述，应理解的是，请求保护的本发明不应不适当地限于此类具体实施方案。事实上，对如本文公开的描述的方法的对于相关领域中的技术人员明显的多种修改意图在所附权利要求书的范围内。

Claims

1.一种用于确定核酸样品的序列的方法，所述方法包括：

a)提供第一长度的第一多个核酸片段，所述核酸片段被修饰以包含多个合成的多态性，所述合成的多态性形成单独片段上的一种或更多种模式，其中所述多个合成的多态性是在特定位置代替天然核苷酸的多个修饰的核苷酸，并且其中所述修饰的核苷酸选自由8-氧鸟嘌呤、2’-脱氧-P-核苷-5’三磷酸、异胞嘧啶和异鸟嘌呤组成的组；

b)制备包含第二长度的第二多个核酸片段的核酸文库，其中所述制备包括扩增所述第一多个核酸片段和在产生第二长度的所述第二多个核酸片段的核酸文库的条件下将扩增产物随机地片段化以产生所述第二多个核酸片段，其中所述核酸文库中的单独片段：(i)比所述第一多个核酸片段的片段短，和(ii)具有与所述核酸文库中的至少一个其他片段的序列重叠区域，其中所述序列重叠区域包括至少一种模式的所述合成的多态性，

c)测序所述核酸文库的核酸片段，其中所述测序是选自由以下组成的组的方法：合成测序、杂交测序、连接测序、单分子测序、纳米孔测序和焦磷酸测序；和

d)比对测序的片段之间的模式以确定所述核酸样品的序列，其中所述比对包括将第一核酸片段序列中合成的多态性的单独模式与第二核酸片段序列中合成的多态性的相似模式匹配，并以多个核酸片段序列重复所述匹配，从而基于多个核酸片段中由所述多个合成的多态性形成的模式产生序列比对。

2.如权利要求1所述的方法，其中所述确定包括荧光检测。

3.如权利要求1所述的方法，其中所述匹配通过计算机实现的方法进行。

4.如权利要求1所述的方法，其中所述核酸样品的序列包括一种或更多种单倍型并且所述方法还包括确定所述核酸样品中两种或更多种单倍型的相。

5.如权利要求4所述的方法，其中用于定相的单倍型位于不同的测序片段上。

6.一种用于表征核酸样品的一种或更多种单倍型的系统，所述系统包括：

测序设备，所述测序设备被构造为测序修饰的核酸分子的单独片段以产生序列数据；和

装置，所述装置被编程以：

接收所述修饰的核酸分子的单独片段的序列数据，所述修饰的核酸分子包括天然存在的多态性和多个合成的多态性，所述多个合成的多态性形成单独片段上的不同模式，其中所述多个合成的多态性是在特定位置代替天然核苷酸的多个修饰的核苷酸，并且所述修饰的核苷酸选自由8-氧鸟嘌呤、2’-脱氧-P-核苷-5’三磷酸、异胞嘧啶和异鸟嘌呤组成的组，或者所述多个合成的多态性通过核酸分子的片段中胞嘧啶的部分和不完全亚硫酸氢盐转化产生；

比对不同模式的测序的核酸片段的多个合成的多态性，其中所述比对包括将第一核酸片段序列中合成的多态性的模式与第二核酸片段序列中合成的多态性的相似模式匹配，并在多个核酸片段序列中重复所述匹配，从而从测序的核酸片段中所述合成的多态性产生序列比对；和

从测序的核酸片段的比对的合成的多态性表征所述核酸样品的一种或更多种单倍型。

7.如权利要求6所述的系统，其中所述修饰的核酸分子的单独片段包括母系片段的集合和父系片段的集合，且其中所述一种或更多种单倍型被表征为仅在所述母系片段的集合或所述父系片段的集合之一上。

8.如权利要求6所述的系统，其中所述测序设备被构造为进行以下：合成测序、杂交测序、连接测序、单分子测序、纳米孔测序、焦磷酸测序或聚合酶链式反应。

9.如权利要求6所述的系统，其中所述表征包括荧光检测。

10.如权利要求6所述的系统，其中所述系统还被编程以确定所述核酸样品中两种或更多种单倍型的相。

11.如权利要求10所述的系统，其中用于定相的单倍型位于不同的测序片段上。

12.一种用于确定核酸样品的序列的系统，所述系统包括：

装置，所述装置被编程以：

比对具有不同模式中的相同模式的单独片段的子集，其中所述比对包括将单独片段序列中合成的多态性的模式与另一单独片段序列中合成的多态性的相似模式匹配，并在多个核酸片段序列中重复所述匹配，从而从测序的核酸片段中所述合成的多态性产生序列比对；和

至少部分地基于所述比对组装所述修饰的核酸分子的序列。

13.如权利要求12所述的系统，其中所述装置被编程以接收所述核酸分子的单独片段的序列数据作为参考，所述核酸分子不包括所述多个合成的多态性。

14.如权利要求12所述的系统，其中所述装置被编程以基于所述比对鉴定所述单独片段的子集的相。