CN110191961B

CN110191961B - 制备经不对称标签化的测序文库的方法

Info

Publication number: CN110191961B
Application number: CN201880007464.1A
Authority: CN
Inventors: B·J·皮特; D·陶西格; B·阿雷齐; R·A·阿科; N·M·桑帕斯
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2017-01-18
Filing date: 2018-01-16
Publication date: 2024-01-19
Anticipated expiration: 2038-01-16
Also published as: US20180201924A1; EP3571318A4; CN110191961A; WO2018136397A1; EP3571318A1; US10711269B2

Abstract

提供了用于制备经不对称标签化的测序文库的方法。在一些实施方案中，所述方法可包括：获得cDNA或基因组DNA片段的经对称标签化的文库，将带尾的第一引物与所述文库的3'序列标签杂交并延伸其产生引物延伸产物，并使用带尾引物对扩增所述引物延伸产物以产生经不对称标签化的文库。

Description

制备经不对称标签化的测序文库的方法

背景技术

许多下一代测序(NGS)平台需要经不对称标签化的片段，即侧翼为不同衔接子序列的DNA片段。衔接子序列对于流动细胞表面上的克隆扩增是必需的，并且还可以用作插入物或条码或样品索引序列的引发位点。例如，在Illumina的系统中，片段的一个末端是P5序列，另一个末端是P7序列。这些分子不能直接有效地生产，很大程度上是因为用于向片段添加衔接子序列的大多数方法以随机方式进行。如果以随机方式添加衔接子序列，则只有50％的经标记的片段被正确的序列不对称地标记(例如，片段在一个末端具有P5而在另一个末端具有P7)；另外50％的经标记的序列是经对称标记的(例如，片段在两个末端具有P5或在两个末端具有P7)。只有不对称片段适合在许多测序平台上进行测序。

当对单个细胞或少量细胞的基因组进行测序时，由衔接子附接的随机性引起的50％的覆盖损失是严重的问题。因此，需要制定新的策略。

发明内容

本公开内容尤其提供了用于从经对称标签化的测序文库制备经不对称标签化的测序文库的方法。在一些实施方案中，所述方法可包括：获得cDNA或基因组DNA的片段的经对称标签化文库，将带尾的第一引物与所述文库的3'序列标签杂交并延伸其产生引物延伸产物，并使用先前的带尾引物扩增所述引物延伸产物以产生经不对称标签化的文库。

在一些实施方案中，所述方法可包括：(a)获得cDNA或基因组DNA片段的经对称标签化文库，其中所述文库的至少一些成员包含含有5'序列标签和3'序列标签的顶链，其中所述5'和3'序列标签具有互补序列；(b)使第一引物与所述文库的3'序列标签杂交，其中所述第一引物包含与所述文库的3'序列标签互补的3'区和5'非互补尾；(c)延伸所述第一引物以产生引物延伸产物，所述引物延伸产物从5'至3'包含所述第一引物的序列、片段的序列和(a)的5'序列标签的互补序列；以及(d)使用以下来扩增(c)的引物延伸产物：i.式A4-A3的正向引物，其中序列A4是5'尾，序列A3包含在所述第一引物的序列中；和ii.式A5-A2的反向引物，其中序列A5是5'尾，并且序列A2包含在(a)的5'序列标签中；以产生经不对称标签化的文库，其中至少一些成员包含顶链，所述顶链包含i.包含序列A5的第一末端，ii.片段的序列，和iii.包含序列A4的互补序列的第二末端。

在检查以下附图和详细描述后，本发明的其他组合物、系统、方法、特征和优点对于本领域技术人员将是清楚的或将变得清楚。据预期，所有此类附加的系统、方法、特征和优点都应包括在本说明书中，并且在本发明的范围内。

附图说明

技术人员将理解，下面描述的附图仅用于说明目的。附图不旨在以任何方式限制本发明传授内容的范围。

图1的小图A和B示意性地示出了本方法的实施方案的一些原理。

图2示意性地说明了基于示例性转座酶的文库制备方法。

图3示意性地说明了使用分子条码的基于示例性转座酶的文库制备方法。

图4示意性地说明了基于示例性连接的文库制备方法。

图5示意性地说明了使用分子条码的基于示例性连接的文库制备方法。

图6示意性地说明了涉及加A尾的基于示例性连接的文库制备方法。该实验方案也适用于条码衔接子(见图5)。

图7示意性地说明了使用发夹寡核苷酸的基于示例性连接的文库制备方法。

图8示意性地说明了使用“V”寡核苷酸的基于示例性连接的文库制备方法。

图9示意性地说明了使用夹板寡核苷酸的基于示例性连接的文库制备方法。

定义

在更详细地描述示例性实施方案之前，阐述以下定义以说明并且定义说明书中使用的术语的含义和范围。

数值范围包括定义该范围的数字。除非另有说明，否则分别地，核酸以5'至3'方向从左向右书写；氨基酸序列以氨基至羧基方向从左至右书写。

除非另有说明，本发明的实践可采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和描述，这些都在本领域的技术范围内。这些常规技术包括聚合物阵列合成、杂交、连接和使用标记的杂交检测。通过参考下文的实施例可以得到合适技术的具体说明。但是，当然也可以使用其他等同的传统程序。这些传统技术和描述可以在标准实验室手册中找到，例如Genome Analysis:A LaboratoryManual Series(Vols.I-IV),Using Antibodies:A Laboratory Manual,Cells:ALaboratory Manual,PCR Primer:A Laboratory Manual,and Molecular Cloning:ALaboratory Manual(都来自Cold Spring Harbor Laboratory Press),Stryer,L.(1995)Biochemistry(4th Ed.)Freeman,New York,Gait,“Oligonucleotide Synthesis:APractical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,A.,Principles of Biochemistry 3^rd Ed.,W.H.Freeman Pub.,New York,N.Y.以及Berg等人(2002)Biochemistry,5^th Ed.,W.H.Freeman Pub.,New York,N.Y.，所有这些文献出于所有目的通过引用整体并入本文。

必须指出的是，除非上下文另外清楚地指出，否则如在本文以及在所附权利要求书中所用的，单数形式“一个/一种(a)”、“一个/一种(an)”以及“该(the)”包括复数指示物。例如，术语“引物”是指一个或多个引物，即单一引物和多个引物。还应注意，可以起草权利要求以排除任何任选要素。因此，本陈述旨在用作与权利要求要素的叙述有关的诸如“单独”、“仅”等排他性术语或使用“否定”限制的先行基础。

如本文所用的术语“样品”涉及材料或材料的混合物，其通常是但不一定是液体形式，含有一种或多种目标分析物。在一个实施方案中，所述术语在其最广泛使用意义上是指任何含有DNA或RNA的植物、动物或病毒材料，例如从个体(包括但不限于血浆、血清、脑脊液、淋巴、泪液、唾液和组织切片)、从保存的组织(例如作为FFPE部分)或从体外细胞培养成分分离的组织或液体，以及来自环境的样品。

如本文所用的术语“核酸样品”表示含有核酸的样品。本文使用的核酸样品可以是复合的，因为它们含有多个含有序列的不同分子。来自哺乳动物(例如小鼠或人)的基因组DNA样品是复合样品的类型。复合样品可以含有超过10⁴、10⁵、10⁶或10⁷个不同的核酸分子。此外，复合样品可以仅包含少数分子，其中所述分子共同具有多于10⁴、10⁵、10⁶或10⁷个或更多个核苷酸。DNA靶标可以源自任何来源，例如基因组DNA，或人工DNA构建体。可以使用任何含有核酸(例如由组织培养细胞或组织样品制成的基因组DNA)的样品。

如本文所用，术语“混合物”是指散置且不以任何特定顺序排列的要素的组合。混合物是不均匀的并且在空间上不可分离成其不同的成分。要素混合物的实例包括溶解在相同水溶液中的许多不同要素和在随机位置(即，没有特定顺序)附接于固体载体的许多不同要素。混合物不可寻址。为了举例说明，如本领域公知的，空间分离的、表面结合的多核苷酸阵列不是表面结合的多核苷酸的混合物，因为表面结合的多核苷酸的种类在空间上是不同的并且阵列是可寻址的。

术语“核苷酸”旨在包括那些不仅含有已知嘌呤和嘧啶碱基，还含有已经被修饰的其它杂环碱基的部分。这些修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其他杂环。此外，术语“核苷酸”包括含有半抗原或荧光标记的那些部分，并且不仅可以含有常规的核糖和脱氧核糖，还可以含有其他糖。经修饰的核苷或核苷酸还包括对糖部分的修饰，例如，其中一个或多个羟基被卤素原子或脂族基团替代，被官能化为醚、胺等。

术语“核酸”和“多核苷酸”在本文中可互换使用以描述由核苷酸例如脱氧核糖核苷酸或核糖核苷酸构成的任何长度的聚合物，例如，多于约2个碱基，多于约10个碱基，多于约100个碱基，多于约500个碱基，多于1000个碱基，多至约10,000个或更多个碱基，并且可以酶促或合成产生(例如，如美国专利号5,948,902和其中引用的参考文献中所述的PNA)，其能以与两个天然存在的核酸类似的序列特异性方式与天然存在的核酸杂交，例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶、尿嘧啶(分别为G、C、A、T和U)。DNA和RNA分别具有脱氧核糖和核糖糖骨架，而PNA的骨架由通过肽键连接的重复N-(2-氨基乙基)-甘氨酸单元构成。在PNA中，各种嘌呤和嘧啶碱基通过亚甲基羰基键与骨架连接。锁核酸(LNA)，通常称为不可接近的RNA，是经修饰的RNA核苷酸。LNA核苷酸的核糖部分用连接2'氧和4'碳的额外桥修饰。所述桥将核糖“锁定”在3'-内(北)构象中，这通常在A型双链体中发现。只要需要，LNA核苷酸可以与寡核苷酸中的DNA或RNA残基混合。术语“非结构化核酸”或“UNA”是含有非天然核苷酸的核酸，所述非天然核苷酸以降低的稳定性彼此结合。例如，非结构化核酸可含有G'残基和C'残基，其中这些残基对应于G和C的非天然存在形式，即类似物，它们以降低的稳定性彼此配对，但保留分别与天然存在的C和G残基碱基配对的能力。非结构化核酸描述于US 200S0233340中，其通过引用并入本文以用于UNA的披露。

如本文所用的术语“寡核苷酸”表示核苷酸的单链多聚体，其长度为约2至200个核苷酸，多达500个核苷酸。寡核苷酸可以是合成的或可以酶促制备，并且在一些实施方案中，长度为30至150个核苷酸。寡核苷酸可含有核糖核苷酸单体(即，可以是寡核糖核苷酸)或脱氧核糖核苷酸单体，或核糖核苷酸单体和脱氧核糖核苷酸单体两者。例如，寡核苷酸的长度可以是10至20、11至30、31至40、41至50、51-60、61至70、71至80、80至100、100至150或150至200个核苷酸。

术语“引物”是指天然或合成的寡核苷酸，其在与多核苷酸模板形成双链体后能够充当核酸合成的起始点并且从其3'末端沿着模板延伸，由此形成经扩展的双链体。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列确定。通常引物通过DNA聚合酶延伸。引物通常具有与其在引物延伸产物的合成中的用途相容的长度，并且通常在8至100个核苷酸的长度范围内，例如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40等等，更通常在18-40、20至35、21-30个核苷酸长的范围内，以及所述范围之间的任何长度。典型的引物可以在10-50个核苷酸长的范围内，例如15-45、18-40、20-30、21-25等，以及所述范围之间的任何长度。在一些实施方案中，引物长度通常不超过约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65或70个核苷酸。

引物通常是单链的，以获得最大的扩增效率，但也可以是双链的。如果是双链的，通常在用于制备延伸产物之前首先处理引物以分离其链。这一变性步骤通常通过加热进行，但备选地也可以使用碱进行，然后中和。因此，“引物”与模板互补，并通过氢键或与模板杂交而复合，以产生引物/模板复合物，用于通过聚合酶引发合成，在DNA合成过程中，引物通过在其与模板互补的3'末端连接的共价键合的碱基的添加而延伸。

术语“杂交(hybridization)”或“杂交(hybridizes)”是指核酸链在正常杂交条件下与第二互补核酸链退火并形成稳定双链体(同源双链体或异源双链体)并且在相同的正常杂交条件下不与不相关核酸分子形成稳定双链体的过程。通过在杂交反应中使两条互补核酸链退火来完成双链体的形成。通过调节发生杂交反应的杂交条件(通常称为杂交严格性)可以使杂交反应高度特异，使得两条核酸链之间的杂交不会形成稳定的双链体，例如，在正常严格条件下保留双链区的双链体，除非两条核酸链在特定序列中含有一定数量的基本上或完全互补的核苷酸。对于任何给定的杂交反应，容易确定“正常杂交或正常严格条件”。参见，例如，Ausubel等人,Current Protocols in Molecular Biology,John Wiley&Sons,Inc.,New York,或Sambrook等人,Molecular Cloning:A Laboratory Manual,ColdSpring Harbor Laboratory Press。如本文所用，术语“杂交(hybridizing)”或“杂交(hybridization)”是指核酸链通过碱基配对与互补链结合的任何过程。

如果两个序列在中度至高度严格杂交和洗涤条件下彼此特异性杂交，则认为核酸与参考核酸序列“可选择性杂交”。中度和高度严格杂交条件是已知的(参见例如，Ausubel,等人,Short Protocols in Molecular Biology,第三版,Wiley&Sons 1995和Sambrook等人,Molecular Cloning:A Laboratory Manual,第三版,2001Cold Spring Harbor,N.Y.))。高严格条件的一个实例包括在约42℃下在50％甲酰胺、5X SSC、5X Denhardt溶液、0.5％SDS和100ug/ml变性载体DNA中杂交，然后在室温下在2X SSC和0.5％SDS中洗涤两次，并且在42℃下在0.1X SSC和0.5％SDS中再洗涤两次。

本文所用的术语“双链体”或“双链体的”描述了碱基配对即杂交在一起的两个互补多核苷酸。

如本文所用的术语“扩增”是指合成与模板核酸的一条链或两条链互补的核酸分子的过程。扩增核酸分子可以包括使模板核酸变性，在低于引物的解链温度的温度下使引物退火至模板核酸，并酶促地从引物延伸以生成扩增产物。变性、退火和延长步骤各自可进行一次或多次。在某些情况下，变性、退火和延长步骤进行多次，使得扩增产物的量通常以指数方式增加，尽管本方法不需要指数扩增。扩增典型地需要存在脱氧核糖核苷三磷酸、DNA聚合酶和对于该聚合酶的最佳活性而言适当的缓冲液和/或辅因子。术语“扩增产物”是指核酸序列，其由本文定义的扩增方法产生。

术语“确定”、“测量”、“评价”、“评估”、“测定”和“分析”在本文中可互换使用以指代任何形式的测量，并且包括确定要素是否存在。这些术语包括定量和/或定性测定。评估可以是相对的或绝对的。“评估存在”包括确定存在的事物的数量，以及确定它是否存在。

术语“使用”具有其常规含义，并且因此意味着采用例如投入服务、方法或组合物来达到目的。例如，如果程序用于创建文件，则执行程序以生成文件，该文件通常是程序的输出。在另一个实例中，如果使用计算机文件，则通常访问、读取信息，并且将其存储在文件中用于达到目的。类似地，如果使用唯一标识符，例如条码，则通常读取唯一标识符以鉴定例如与唯一标识符相关联的对象或文件。

在某些情况下，本文所述方法中使用的寡核苷酸可以使用参考基因组区设计，即已知核苷酸序列的基因组区，例如染色体区，其序列保存在例如NCBI的GenBank数据库或其他数据库中。这种寡核苷酸可用于使用含有测试基因组的样品的测定中，其中所述测试基因组含有针对寡核苷酸中序列的结合位点。

“多个”含有至少2个成员。在某些情况下，多个可具有至少10、至少100、至少100、至少10,000、至少100,000、至少10⁶、至少10⁷、至少10⁸或至少10⁹个或更多个成员。

如果两个核酸是“互补的”，它们在高严格条件下彼此杂交。术语“完全互补”用于描述双链体，其中核酸之一的每个碱基与另一个核酸中的互补核苷酸碱基配对。在许多情况下，互补的两个序列具有至少10个，例如至少12个或15个核苷酸的互补性。

“寡核苷酸结合位点”是指寡核苷酸在靶多核苷酸中杂交的位点。如果寡核苷酸“提供”引物的结合位点，则所述引物可以与该寡核苷酸或其互补序列杂交。

如本文所用，术语“基因分型”是指核酸序列的任何类型的分析，并且包括测序、多态性(SNP)分析和分析以鉴定重排。

如本文所用，术语“测序”是指通过其鉴定获得的多核苷酸的至少10个连续核苷酸的身份(例如，至少20个，至少50个，至少100个或至少200个或更多个连续核苷酸的身份)的方法。

术语“下一代测序”是指Illumine,Life Technologies,Pacific Bio和Roche等目前采用的所谓的平行化合成测序或连接测序平台。下一代测序方法也可包括纳米孔测序方法或基于电子检测的方法，例如Life Technologies公司商业化的Ion Torrent技术。

如本文所用，术语“延伸”是指通过使用聚合酶添加核苷酸来延伸引物。如果延伸与核酸退火的引物，则所述核酸充当延伸反应的模板。

如本文所用，术语“条码序列”或“分子条码”是指用于a)鉴定和/或追踪反应中多核苷酸来源(不同的样品可以共享条码或索引序列的共同特征，例如长度，序列或GC含量，其可以用作“样品标识符序列”)和/或b)区分已添加条码的片段(例如，可以是“分子标识符序列”)的核苷酸序列。在使用中，分子条码通常是在每个位置由2、3或4个碱基的混合物构成的“简并的”或随机的序列，因此产生非常多样化的条码序列库。随着分子条码序列被添加到测序模板中，池的高度多样性确保每个模板分子接收不同的条码，因此可以使用条码来区分各个模板分子。分子标识符序列允许将从初始分子的拷贝获得的序列读段分组，这可用于模板分子的精确计数，或检测扩增期间出现的错误。条码序列的长度可以为4至36个核苷酸，或6至30个核苷酸，或8至20个核苷酸。

术语“样品标识符序列”、“样品索引”或“样品条码”是可以附加到靶多核苷酸的一个类型的条码，其中序列鉴定靶多核苷酸的来源(即，靶多核苷酸所衍生自的样品)。样品条码或索引通常是已知序列(例如，96个不同的正交的8核苷酸的序列可用于区分池化到一个反应中的96个样品)。在使用中，每个样品可以用不同的样品标识符序列标签化(例如，将一个序列附加到每个样品，其中将不同的样品附加到不同的序列)，并池化经标签化的样品。在对池化的样品进行测序后，样品标识符序列可用于鉴定序列的来源。

术语“分子标识符序列”是指一个类型的分子条码，其复杂性足以帮助区分已添加条码的片段。用分子标识符序列标签化的片段可以被扩增和测序。分子标识符序列允许人们确定哪个序列读段来自相同的初始片段。在一些实施方案中，可以使用高复杂性分子条码(例如，由至少10,000或100,000个序列构成的条码)。在其他实施方案中，一些片段可以用相同的分子条码标签化，但是那些片段仍然可以通过以下的任何组合来区分：i.分子条码序列，ii.片段的序列，iii.片段的末端的序列，和/或iv.将分子条码插入片段的位置。在一些实施方案中，至少95％，例如至少96％、至少97％、至少98％、至少99％或至少99.5％的靶多核苷酸与不同的分子条码序列相关联。在一些实施方案中，分子条码可包含选自R、Y、S、W、K、M、B、D、H、V、N(由IUPAC代码定义)中的一个或多个(例如，至少2个、至少3个、至少4个、至少5个，或5至30个或更多个)核苷酸。在一些实施方案中，分子条码可以包含简并或随机序列(例如，具有4-10个“N”的寡核苷酸)。条码序列的大小和组成可以变化很大；以下参考文献提供了用于选择适合于特定实施方案的条码序列组的指导：Casbon(Nuc.AcidsRes.2011,22e81),Brenner,U.S.Pat.No.5,635,400；Brenner等人,Proc.Natl.Acad.Sci.,97:1665-1670(2000)；Shoemaker等人,Nature Genetics,14:450-456(1996)；Morris等人,European patent publication 0799897A1；Wallace,U.S.Pat.No.5,981,179；等等。

如本文所用的术语“链”是指由通过共价键例如磷酸二酯键共价连接在一起的核苷酸构成的核酸。在细胞中，DNA通常以双链形式存在，并且因此具有两条互补的核酸链(在本文中称为“顶”和“底”链)。在某些情况下，染色体区的互补链可以称为“加”和“减”链、“第一”和“第二”链、“编码”和“非编码”链、“沃森”和“克里克”链或“有义”和“反义”链。将链分配为顶链或底链是任意的，并不暗示任何特定的取向、功能或结构。若干个示例性哺乳动物染色体区(例如，BAC、集合体、染色体等)的第一链的核苷酸序列是已知的，并且可以在例如NCBI的GenBank数据库中找到。

如本文所用，术语“顶链”是指核酸的任一链，但不是核酸的两条链。当寡核苷酸或引物“仅与顶链”结合或退火时，它仅结合一条链而不结合另一条链。如本文所用，术语“底链”是指与“顶链”互补的链。当寡核苷酸“仅与一条链”结合或退火时，它仅与一条链结合，例如第一链或第二链，而不与另一条链结合。

术语“反向引物”和“正向引物”是指与双链DNA分子中的不同链杂交的引物，其中引物通过聚合酶的延伸是朝向另一引物的方向。

术语“经对称标签化”是指在两个末端具有相同衔接子的片段。在经对称标签化文库中，顶链5'末端的衔接子序列与顶链3'末端的衔接子序列互补。经对称标签化片段可以使用与衔接子杂交的单个正向引物通过PCR扩增，但扩增通常效率较低，因为模板分子可以自身折回，这允许末端序列杂交，并与引物竞争结合。在一些情况下，可以通过改变PCR条件以实现更好的引物结合，增加引物浓度或改变引物或引物结合序列的相对长度或序列含量来克服这种“PCR抑制”效应。术语“两条链上的相同条码”及其语法等同物是指双链分子，其具有在一条链的5'末端共价连接的条码序列和在另一条链的3'末端共价连接的条码序列的互补序列。

术语“衔接子”是指可以通过连接酶、转座酶或其他化学或酶促反应共价连接至双链DNA分子的至少一条链的核酸。术语“衔接子”是指至少部分双链的分子。衔接子的长度可以是40至150个碱基，例如50至120个碱基，尽管可以设想在该范围之外的衔接子。

如本文所用，术语“衔接子标签化的”是指已被衔接子标签化的核酸。衔接子可以连接到核酸分子的5'末端和/或3'末端。

本文所用的术语“标签化的DNA”是指具有添加的衔接子序列即合成来源的“标签”的DNA分子。可以通过连接酶或转座酶添加(即“附加”)衔接子序列。

术语“5'序列标签”和“3'序列标签”是指已经添加(即，通过连接酶或转座酶附加)到片段末端的序列。标签序列的长度通常在12-100个核苷酸的范围内，并且如显而易见的，不与研究的基因组或cDNA样品中的其他序列交叉杂交。例如，序列标签不含有与所研究的基因组或cDNA样品中的序列互补的至少10个、至少12个或至少15个连续核苷酸的序列。

术语“经不对称标签化的”是指在每个末端具有不同衔接子序列的片段。在经不对称标签化的文库中，顶链5'末端的衔接子序列不与顶链3'末端的衔接子序列互补。经不对称标记的片段可以通过两个引物扩增：一个与添加到链的3'末端的第一标签序列杂交，另一个与添加到链的5'末端的第二标签序列的互补序列杂交。经不对称标签化的片段可以通过将它们连接到“Y-衔接子”或发夹环衔接子(可以在连接后切割，产生“Y-衔接子”)来制备，其中这些术语是指包含以下的衔接子：双链区和其中相对序列不互补的单链区。双链区的末端可以或能与靶分子例如基因组DNA的双链片段连接，例如通过连接酶或转座酶催化的反应。已连接到Y衔接子的经衔接子标签化的双链DNA的每条链都是不对称标签化的，因为它在一个末端具有Y-衔接子的一条链的序列，在在另一个末端具有Y-衔接子的另一条链的序列。经不对称标签化的片段可以通过标签化(tagmentation)来制备，使用已经加载了两个转座子末端的混合物的转座子，第一转座子末端添加一个标签序列，第二转座子添加另一个标签序列。也可以通过将靶片段连接到两个或更多个衔接子序列来制备经不对称标签化的片段。

术语“尾”是指引物的5'区中的序列，其不与引物的3'区相同的序列(即，引物的3'末端的至少10个、至少12个或至少15个核苷酸)杂交。含有5'尾的引物包含至少两个区：引物的3'末端的第一区，其与靶序列杂交；处于3'区的5'的第二区，其不与靶序列杂交。如下面将更详细描述的，5'尾可以提供引物结合位点，从而允许含有引物的延伸产物被另一个引物扩增。尾是“非互补的”，因为它们被设计成与研究中的基因组或cDNA中的任何其他序列不互补。

在两个或更多个可变核酸序列的上下文中，术语“可变的”和“变化的”是指两个或更多个相对于彼此具有不同序列的核酸。换句话说，如果群体的多核苷酸具有可变序列，则群体的多核苷酸分子的核苷酸序列在不同分子之间变化。术语“可变的”不应被理解为要求群体中的每个分子具有与群体中的其他分子不同的序列。

术语“复杂性”是指群体中不同序列的总数。例如，如果群体有4种不同的序列，那么时尚群体的复杂度为4。根据期望的结果，群体可具有至少4、至少8、至少16、至少100、至少1,000、至少10,000或至少100,000或更高的复杂性。

如本文所用，术语“条码序列”是指构成条码的核苷酸序列。条码的序列长度可以是至少3个核苷酸，更通常是5-30个或更多个核苷酸。

术语“标签化(tagmentation和tagmenting)”是指同时进行双链DNA样品的转座酶催化的片段化和标签化，如例如Picelli等人,Genome Res.201424:2033-40；Adey等人,Genome Biol.2010 11:R119和Caruccio等人,Methods Mol.Biol.2011 733:241-55,US20100120098和US20130203605)描述的。用于进行标签化的试剂盒由Illumina(SanDiego，CA)以商品名NEXTERA^TM商业销售。

本文描述的某些多核苷酸可以通过式(例如，“A4-A3”)引用。除非另有说明，否则由式定义的多核苷酸以5'至3'方向取向。式的组分，例如“A4”，“A3”等，是指多核苷酸内可单独定义的核苷酸序列，除非从上下文中暗示，否则所述序列共价连接在一起，使得由所述式描述的多核苷酸是单个分子。在许多情况下，式的组分在单个分子中彼此紧邻。按照惯例，式中所示序列的互补序列将用撇号(')表示，使得序列“A2”的互补序列为“A2'”。此外，除非另有说明或从上下文暗示，否则由式定义的多核苷酸通过式可以在其3'末端、5'末端或3'和5'末端具有另外的序列、引物结合位点、分子条码、启动子或间隔子等。显而易见的是，多核苷酸(例如，A2、A3、A4等)的各种组分序列可以独立地具有任何期望的长度，只要它们能够执行期望的功能(例如，与另一序列杂交)即可。例如，多核苷酸的各种组分序列可独立地具有8-80个核苷酸范围的长度，例如10-50个核苷酸或12-30个核苷酸。

在整个说明书中可以出现术语的其他定义。

具体实施方式

在描述各种实施方案之前，应当理解的是本公开文本的传授内容并不限于所描述的具体实施方案，因为这些当然可以改变。还应当理解的是，因为本发明传授内容的范围将仅由所附权利要求限制，所以本文所用的术语仅是出于描述具体实施方案的目的，而不旨在是限制性的。

本文所用的章节标题仅用于组织目的，而不应解释为以任何方式限制所描述的主题。虽然结合各种实施方案描述了本发明传授内容，但是并不意味着本发明传授内容限于此类实施方案。相反，如本领域技术人员将理解的，本发明传授内容涵盖各种替代、修改和等同物。

除非另外定义，否则本文中使用的所有技术术语和科学术语具有与本公开文本所属领域的普通技术人员通常所理解的相同的含义。尽管类似于或等同于本文所述的方法和材料的任何方法和材料也可以用于对本发明传授内容的实践或测试，但是现在将对一些示例性方法和材料进行描述。

对任何出版物的引用是针对其在申请日之前的公开内容，并且不应当解释为承认本发明权利要求由于在先发明而不能获得比这种出版物更早的申请日。另外，所提供的出版物的日期可能不同于实际公开日期，实际公开日期可以需要独立确认。

在阅读本公开文本之后，如对于本领域技术人员将显而易见的是，本文描述和说明的单独实施方案中的每个实施方案具有不连续的组成部分和特征，所述组成部分和特征可以在不偏离本发明传授内容的范围或精神的情况下容易地与任何其他若干实施方案的特征分离或组合。可以按所叙述的事件的顺序或按逻辑上可能的任何其他顺序来执行所叙述的任何方法。

本文提及的所有专利和出版物(包括在此类专利和出版物内披露的所有序列)都明确地通过引用而并入。

本文提供了对经对称标签化的基因组DNA或cDNA文库进行不对称地标签化的方法。所述方法可用于分析来自几乎任何生物(包括但不限于植物、动物(例如，爬行动物、哺乳动物、昆虫、蠕虫、鱼等)、组织样品，细菌、真菌(例如酵母)、噬菌体、病毒、尸体组织、考古学/古代样品)的DNA(基因组DNA或cDNA)。在某些实施方案中，所述方法中使用的DNA可以衍生自哺乳动物，其中在某些实施方案中，哺乳动物是人。在示例性实施方案中，样品可含有来自哺乳动物细胞例如人、小鼠、大鼠或猴细胞的基因组DNA或cDNA。样品可以由培养的细胞或临床样品的细胞(例如组织活检、刮擦或灌洗)或法医样品的细胞(即在犯罪现场收集的样品的细胞)制成。在特定的实施方案中，核酸样品可以从生物样品中获得，例如细胞、组织、体液和粪便。感兴趣的体液包括但不限于血液、血清、血浆、唾液、粘液、痰、脑脊髓液、胸膜液、泪液、乳管液、淋巴液、唾液、关节液、尿液、羊水和精液。在特定的实施方案中，样品可以从受试者例如人获得。

在一些实施方案中，样品包含从临床样品获得的DNA片段，例如患有或怀疑患有疾病或病症例如癌症、炎性疾病或妊娠的患者。在一些实施方案中，可以通过从存档的患者样品(例如，福尔马林固定的石蜡包埋的组织样品)中提取片段化的DNA来制备样品。在其他实施方案中，患者样品可以是来自体液(例如外周血)的无细胞循环DNA的样品。在所述方法的初始步骤中使用的DNA片段可以是未经预先变性的非扩增DNA。在一些情况下，可以机械地(例如，通过超声处理、雾化或剪切)或使用双链DNA片段酶(New England BioLabs，IpswichMA)酶促地对样品进行片段化。在其他实施方案中，初始样品中的DNA可能已经被片段化(例如，如FFPE样品和循环无细胞DNA(cfDNA)例如ctDNA的情况)。所述方法特别适用于分析具有有限量DNA的样品，例如含有来自单个细胞或少数细胞(例如，2至100个细胞、2至50个细胞或2至10个细胞)的DNA的样品。

如上所述，本文提供了从cDNA或基因组DNA片段的经对称标签化的文库制备cDNA或基因组DNA片段的经不对称标签化的文库的方法。参考图1，小图A，在一些实施方案中，所述方法可以包括：(a)获得cDNA或基因组DNA片段的经对称标记的文库，其中所述文库的至少一些成员包含含有5'序列标签4和3'序列标签6的顶链或插入序列2，其中所述5'和3'序列标签具有互补序列。在一些实施方案中，这一文库中的DNA片段可具有低于1kb的中值大小(例如，在50bp至500bp、80bp至400bp、或100bp至1,000bp的范围内)，尽管可以使用具有该范围之外的中值尺寸的片段。5'和3'序列标签中的互补序列在图1中称为A2和A2'。这些序列可以是任何长度，但在许多实施方案中，它们的长度可以独立地为12至100个核苷酸。

接下来，所述方法包括(b)将第一引物8与文库的3'序列标签6杂交，其中第一引物8包含3'区10(长度为至少10个、至少12个或至少15个核苷酸，其与文库的3'序列标签6互补)以及5'非互补尾12，即与3'或5'标签序列中的任一个(或文库中的其他序列)不互补的尾。尾可具有任何合适的长度，例如，长度为至少10、至少12或至少15个核苷酸。

接下来，步骤(c)包括延伸第一引物8以产生引物延伸产物14，所述引物延伸产物从5'至3'包含第一引物8的序列、片段16的序列和步骤(a)的5'序列标签的互补序列18；引物延伸产物14的扩增显示在图1的小图B中。参考图1，小图B，所述方法的步骤(d)包括使用以下来扩增(c)的引物延伸产物：i.式A4-A3的正向引物20，其中序列A4是5'尾，序列A3包含在所述第一引物8的序列中；和ii.式A5-A2的反向引物22，其中序列A5是5'尾，并且序列A2包含在(a)的5'序列标签4中；所述扩增步骤包括经不对称标签化的文库，其中至少一些成员包含顶链24，所述顶链包含i.包含序列A5的第一末端26，ii.片段的序列，和iii.包含序列A4的互补序列的第二末端28。插入序列16的虚线表示mis是原始链2的拷贝，可用于区分这些链。例如，在一些实施方案中，引物延伸产物14可以用脱氧尿苷代替脱氧胸苷或用其他经修饰的核苷酸来合成，使得能够随后消化、检测或分离合成的链用于去污或其他目的。

本发明的一个特征是它从靶片段产生经不对称标签化的文库，但是与插入序列直接相邻的衔接子序列(例如，图1中的A2和A2'，或图2中的A1)保持对称。在大多数情况下，插入序列2本身不是对称的，这意味着它在5'和3'末端具有不同的序列信息。在一些实施方案中，靶标片段2两个末端的序列信息可以通过将测序引物(其可以与图1中表示区10的序列同源)退火至对称的衔接子序列来确定。在这些实施方案中，可以从双链体的顶链和底链中的每一个形成单独的簇，并且可以通过将引物退火至对称的衔接子序列(例如，图2-5中通过将引物退火至序列A1')来测量顶链和底链中的每一个的5'末端的序列。以这种方式，可以用单个测序引物从靶标片段的两个末端获得配对末端序列信息。

所述方法可以以各种不同的方式实现，其示例在图2-9中示出。例如，步骤(a)的文库可以通过使用加载有单一类型转座子末端(其可以具有或不具有可变分子条码序列)的转座酶(例如Tn5或Mu或Vibhar转座酶)(即，不是加载有多个转座酶末端的转座酶)进行标签化来制备。备选地，(a)的文库可以通过将单个衔接子(其可以具有或不具有样品索引序列或可变分子条码序列)连接至cDNA或基因组片段的群体来制备。这种cDNA或基因组片段可以通过物理、化学或酶促方法使初始cDNA或基因组样品片段化来制备。其他样品(例如cfDNA)可以是经天然地片段化的。在这些实施方案中，在连接到具有T突出端的衔接子之前，可以对片段进行末端修复、钝化和加A尾(参见图6)。在转座反应的情况下，直接附加到靶片段的A1序列可以包含转座酶识别序列，并且可以具有最小所需长度。在连接实施方案中，A1序列可以显着更短，并且可以仅包含实现有效连接所需的最小序列或长度。在一些实施方案中，靶片段连接至A1和A1'链两者。在一些实施方案中，衔接子的5'末端未被磷酸化并且不能连接，从而抑制衔接子-衔接子连接。所述方法可以使用不包含分子条码的序列标签来实现(如图2和4所示)。图2说明了实施方案，其中通过用含有单一类型寡聚物标签的转座酶进行标签化来制备对称文库，其中A1(及其互补序列A1')包含转座酶识别序列，并且A2包含含有与引物A2相同序列的单链尾。在一些实施方案中，A1序列可包含样品索引。在一些实施方案中，Α1'序列可以在3'末端修饰(例如，用3'双脱氧核苷酸修饰，或在3'OH上用阻断化学基团修饰)以防止聚合酶延伸。靶片段或插入物的互补顶链和底链以黑色和灰色显示。在用引物5'A3-A1进行单轮引物延伸后，产生一对双链体分子，其具有一个双链体末端和一个未配对的Y形末端。虽然这两个双链体分子在结构上相似，但它们在插入序列的方向上不同，因为A3-A1位于一个双链体分子中顶链(黑色)的5'末端，并且A3-A1位于另一分子中底链(灰色)5'末端。在一些实施方案中，可以使用有限量的A3-A1引物，或者可以在随后的PCR步骤之前去除或破坏A3-A1引物。然而，必须注意确保A3-A1引物能够竞争A1序列与A1'序列的分子内退火(类似于称为PCR抑制的效应)。调节PCR抑制的效应或使引物侵入双链体的发夹部分的方法是本领域已知的，并且包括诸如调节引物浓度、调节引物序列、使用核苷酸(例如非结构化核酸或锁核酸)的经修饰的碱基、调节盐浓度、增加模板长度，如J Am Chem Soc.2013Apr 17；135(15):5612-9中所述的立足点引物、等等。此外，在本发明中，引物延伸反应仅是一步(与通常具有许多循环的PCR相反)，并且即使该引物延伸步骤不是100％有效，也将产生有用的文库。

在引物延伸步骤后，可以使用包含序列A2和A3的一对引物扩增文库。在一些实施方案中，引物仅含有A2和A3序列。在其他实施方案中(如图2所示)，A2和A3序列可以与其他引物或衔接子序列A4和A5连接。在一些实施方案中，A4和A5可包含文库的克隆扩增(例如通过桥式扩增，或在乳液PCR中)所必需的序列。在一些实施方案中，PCR引物可包含对应于起源样品的样品索引序列。PCR引物A2或A5-A2将与含有A2'序列的模板结合，如图2所示，这些链中的一些也含有A2序列。因此，可以在PCR中形成一些“发夹”分子，其一个末端具有A2而另一个末端具有A2'。然而，在标准PCR条件下(例如，由Agilent Technologies商业化的PfuUltra酶的Herculase II手册中描述的条件)，这些具有自退火末端的分子将比具有不对称末端的分子效率更低地扩增。在PCR反应的指数扩增条件下，具有不对称末端的分子将容易地胜过对称地标签化的分子。在图2中PCR扩增结束时，形成两个可测序分子：一个在顶链(黑色)的5'末端具有衔接子A5，在顶链(黑色)的3'末端具有衔接子A4'，第二个在底链(灰色)的5'末端具有衔接子A5，在底链(灰色)的3'末端具有衔接子A4'。

在其他实施方案中，所述方法可以使用含有分子条码的序列标签来实施(如图3和5中的“NNNNNN”和“ZZZZZZ”序列所示)。在这些实施方案中，(a)的5'和3'序列标签各自包含在文库中序列变化的分子条码。在大多数情况下，添加到分子的每个末端的条码是不同的，即“NNNNNN”与“nnnnnn”互补，不同于“ZZZZZZ”，“ZZZZZZ”与“zzzzzz”互补。包括分子条码序列的一个潜在优点是因为NNN条码序列不可能与同一链的另一个末端的zzz序列同源，所以分子内发夹形成可能不太有利，或者发夹可能更容易被引物侵入。在一些实施方案中，分子条码可各自具有随机序列，例如长度为4至12个核苷酸，然而在许多情况下可使用更低或更高复杂性的条码。在一些实施方案中，可以通过使用与相邻序列退火的不同测序引物对样品索引、分子条码和靶序列或插入物进行测序。在其他实施方案中，这些特征中的一个或多个可以通过从单个位置引发的长测序读段来测序。

在一些实施方案中，(b)的第一引物的5'尾可以还包含序列变化的分子条码或样品索引(如图3和5中的“XXXXXX”序列所示)。同样，这一分子条码可以具有随机序列，例如长度为4至12个核苷酸，或者它可以包括用于区分不同来源样品的一组已知序列，或这些类型条码的组合；在许多情况下可以使用更低或更高复杂性的条码。备选地，可以使用不含分子或样品条码的单一引物序列。在这些实施方案中，扩增步骤(d)的一些产物可具有顶链，所述顶链从5'至3'含有(b)的第一引物的5'尾中的分子条码/样品索引(即，“XXXXXX”序列)，条码序列“NNNNNN”，片段的序列，以及5'序列标签中的条码的互补序列(“zzzzzz”序列)。此外，扩增步骤的一些产物可具有底链，所述底链从5'至3'含有(b)的第一引物的5'尾中的分子条码样品索引(即“XXXXXX”序列)，条码序列“ZZZZZZ”，与顶链互补的片段的序列，以及5'序列标签中的条码的互补序列(“nnnnnn”序列)。值得注意的是，这两种类型的片段可以在克隆扩增(例如桥式PCR、野火扩增(Wildfire amplification)、乳液PCR等)中扩增或复制，并单独测序。然而，在测序后，双分子条码NNNNNN和ZZZZZZ及其互补序列nnnnnn和zzzzzz可用于确定模板的原始沃森和克里克链的序列。相关方法和优点被SR Kennedy等人.NatProtoc 2014Oct 9；9(11):2586-606描述为双链体测序。

任何分子条码的复杂性可以是至少4、至少5、至少6、至少8、至少10、至少12、至少24、至少96、至少384、至少10³、至少10⁴或至少10⁵。在一个模板分子上使用多于一个分子条码的实施方案中(例如，图3中的ZZZ和NNN序列)，可以选择一个或两个单独条码的复杂性较低，同时通过多个条码的组合保持复杂性。

引物延伸步骤(c)可以进行一次，或者在一些实施方案中进行两次(例如，使用热稳定聚合酶并热循环反应)，并且在一些实施方案中，所述方法可以包括在步骤(c)和(d)之间除去、灭活或破坏任何未延伸的第一引物。例如，这可以通过使反应通过尺寸排阻柱，阻断引物和片段的3'末端以防止进一步延伸，或用单链DNA特异性核酸酶消化来方便地完成，尽管有无数的备选方法可用。在其他实施方案中，可以使用有限量的第一引物，并且因此，可以在步骤(c)和(d)之间不除去、灭活或破坏任何未延伸的第一引物的情况下进行所述方法。

在一些实施方案中，步骤(a)的文库可以通过以下来制备：(i)制备包含cDNA或基因组DNA的片段(其在两个末端包含序列标签)的经初始地标签化的文库，其中序列标签包含单链区(例如，通过用部分单链的衔接子序列使片段标签化)。参见，例如图6。在这些实施方案中，如所示，3'末端可以通过聚合酶延伸，从而使单链区成为双链。取决于如何实施所述方法，可以使用链置换聚合酶或非链置换聚合酶延伸3'末端。在一些实施方案中，由聚合酶制成双链的单链区可含有单链分子条码。在这些实施方案中，延伸可以将单链分子条码转化为双链分子条码。以这些方式制备的双链条码允许片段的底链用相同片段的顶链的条码的互补序列标签化，这可用于鉴定来自相同双链片段的顶链和底链的序列读段。通常用于文库构建的双链的复杂或随机条码可能难以通过其他方法制备(例如，通过与寡核苷酸一起退火)。

图7至9显示了采用发夹寡核苷酸的方法的备选实施方式。图7显示了实施方案，其中第一引物具有两个与3'序列标签杂交的由发夹(例如序列A3)分开的区。图8显示了实施方案，其中使用与3'序列标签和第一引物杂交的“V”寡核苷酸。图9显示了采用夹板寡核苷酸的实施方案。在这些实施方案的一些中，在杂交步骤(b)期间添加另外的序列A2和与A3互补的序列。在一些实施方案中，另外的序列是相同寡核苷酸的一部分。在这些实施方案中，另外的序列的3'末端中的一个或多个不能通过聚合酶延伸。

显而易见的是，在制备不对称文库后，可以分析文库，例如，对文库进行测序。在一些实施方案中，这可以包括使文库与含有与A4和A5序列或其互补序列杂交的引物的底物杂交，通过桥式PCR扩增底物上的至少一些杂交序列，然后对桥式PCR产物进行测序。在这些实施方案中，A4和A5序列可以是Illumina测序平台中使用的P5和P7序列，或其互补序列。在一些实施方案中，文库可以用另一对有尾引物扩增，与含有与那些引物的尾杂交或具有那些引物的尾的序列的引物的底物杂交，通过桥式PCR扩增杂交序列，然后对桥式PCR产物进行测序。在一些实施方案中，A4和A5序列序列可以通过乳液PCR进行扩增。在一些实施方案中，A4和A5序列可以与用于测序文库的下一代测序平台相容。备选地，可以使用具有尾序列的引物扩增，所述尾序列与用于对文库测序的下一代测序平台相容。可以使用任何合适的方法对产物进行测序，包括但不限于Illumina的可逆终止子方法。

在某些实施方案中，被分析的初始DNA可以衍生自单一来源(例如，单个细胞、生物体、病毒、组织、细胞、受试者等)，而在其他实施方案中，核酸样品可以是从多个来源提取的核酸的池(例如，来自多个单细胞、生物体、组织、细胞、受试者等的核酸池)，其中“多个”是指两个或更多个。因此，在某些实施方案中，经标签化的样品可以与来自其他来源的经标签化的样品组合，例如2个或更多个来源，3个或更多个来源，5个或更多个来源，10个或更多个来源，50个或更多来源，100个或更多个来源，500个或更多个来源，1000个或更多个来源，5000个或更多个来源，多至并包括约10,000个或更多个来源，其中标签的分子条码允许来自不同来源的序列在被分析后被区分。

实施例

进行了图1中概述的实验的变化。在该版本中，使用多重PCR策略，并且使用一组多个PCR引物进行扩增。然而，从经对称标签化的文库产生不对称测序文库的本发明的主要特征不依赖于该多重PCR策略的使用。将50ng人基因组DNA与100ng纯化的加载双链体DNA的哈维氏弧菌转座酶在来自Agilent SureSelectQXT文库制备试剂盒(目录号G9682A)的片段缓冲液中一起孵育。我们使用等量混合的六种不同的转座酶双链体。双链体序列由一条短的19聚体链(CTGTCTCTTGATCACAAGT；SEQ ID NO：20)构成，其与长度为47或48个碱基的六条不同长链中的每一条杂交。长链的序列是：

SEQ ID NO.1:

5'TAGCTTGGCTATCGACACCATAAGGCGAACTTGTGATCAAGAGACAG

SEQ ID NO.2:

5'CTAATCTGATGGACGGACACACGTACTAGACTTGTGATCAAGAGACAG

SEQ ID NO.3:

5'CGATAGTTATGCGAGCACCACTAGGCATGACTTGTGATCAAGAGACAG

SEQ ID NO.4:

5'GATGTGATCGTACCGACACAGGACTCCTACTTGTGATCAAGAGACAG

SEQ ID NO.5:

5'AGTTCATGACGTGTGACCACCTCTCTATACTTGTGATCAAGAGACAG

SEQ ID NO.6:

5'CAGGAGTCCGTTATCACACATATCCTCTACTTGTGATCAAGAGACAG

基因组DNA与六种不同加载的转座酶的标签化反应在45℃孵育10分钟，然后在4℃孵育2分钟。通过添加1.6体积的终止缓冲液(Agilent SureSelectQXT文库试剂盒，#G9682A)终止反应。根据制造商的方案使用AMPure珠(Beckman Coulter)纯化经标签化的基因组DNA，并在11μl水中洗脱。然后使用两个引物延伸循环将第一衔接子(衔接子A)添加到基因组片段的一个末端。将10μl上述标签化产物与0.5μl Herculase II融合酶(AgilentTechnologies)、5μl 5x Herculase II反应缓冲液、0.25μl dNTP(各25mM)、1.25μl DMSO、6μl Adapter A引物混合物和2μl水混合。衔接子A引物混合物由六个引物序列(组合的15μM)构成：

SEQ ID NO.7:

5'ATTCAGTGAGATGCACCACACAGAGTAAGGCGAACTTGTGATCAAGA GACAG

SEQ ID NO.8:

5'ATTCAGTGAGATGCACCACACAGAGCGTACTAGACTTGTGATCAAGA GACAG

SEQ ID NO.9:

5'ATTCAGTGAGATGCACCACACAGAGTAGGCATGACTTGTGATCAAGA GACAG

SEQ ID NO.10:

5'ATTCAGTGAGATGCACCACACAGAGGGACTCCTACTTGTGATCAAGA GACAG

SEQ ID NO.11:

5'ATTCAGTGAGATGCACCACACAGAGCTCTCTATACTTGTGATCAAGAG ACAG

SEQ ID NO.12:

5'ATTCAGTGAGATGCACCACACAGAGTATCCTCTACTTGTGATCAAGAG ACAG

反应在68℃下进行2分钟，然后在98℃下进行30秒，然后进行两个循环(98℃ 30秒；56℃ 30秒；72℃ 1分钟)，接着是在72℃下孵育3分钟，然后冷却至4℃。根据制造商的方案，在AMPure珠(Beckman Coulter)上纯化所得产物，并在11μl水中洗脱。

然后将10μl引物延伸反应用于PCR反应以添加P5和P7引物序列。向10μl反应产物中添加1μl Herculase II融合酶(Agilent Technologies)、10μl 5xHerculase II反应缓冲液、0.5μl dNTP(各25mM)、2.5μl DMSO、3μl引物混合物B(6个引物，组合总浓度为15μM)、3μl(15μM)引物C(SEQ ID NO.13:5'CAAGCAGAAGACGGCATACGAGATAGTCCGACGATCATTCAGTGAGATGCACCACACAGAG)，和20μl水。引物混合物B包含以下序列：

SEQ ID NO.14:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGTAGCTTGGCTATCGACACCATAAG

SEQ ID NO.15:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGCTAATCTGATGGACGGACACACGTA

SEQ ID NO.16:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGCGATAGTTATGCGAGCACCACTAGG

SEQ ID NO.17:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGGATGTGATCGTACCGACACAGGAC

SEQ ID NO.18:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGAGTTCATGACGTGTGACCACCTCT

SEQ ID NO.19:

5'AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGCAGGAGTCCGTTATCACACATATC

然后通过在98℃下加热反应30秒进行PCR，然后进行四个循环(98℃ 30秒，56℃30秒和72℃ 1分钟)，接着在72℃下3分钟，然后保持在4℃。

PCR后，在高灵敏度生物分析仪芯片(Agilent Technologies)上分析反应的等分试样。生物分析仪分析显示产生平均长度为600个碱基的片段的文库。然后根据制造商的说明书，使用150v3Illumina MiSeq试剂盒(2x75个循环)对11.5飞摩尔的反应进行测序。测序结果发现，98.8％的人基因组DNA读段是独特的，这与使用Agilent SureSelectQXT文库试剂盒获得的98.5％的独特读段相似。我们实现了56.5％人基因组覆盖率/1000万读段，略高于使用Agilent SureSelectQXT文库试剂盒实现的53.4％覆盖率。

实施方案

实施方案1.一种制备经不对称标签化的测序文库的方法，所述方法包括：

(a)获得cDNA或基因组DNA片段的经对称标签化文库，其中所述文库的至少一些成员包含含有5'序列标签和3'序列标签的顶链，其中所述5'和3'序列标签具有互补序列；

(b)使第一引物与所述文库的3'序列标签的区杂交，其中所述第一引物包含与所述文库的3'序列标签的所述区互补的3'区和5'非互补尾；

(c)延伸所述第一引物以产生引物延伸产物，所述引物延伸产物从5'至3'包含所述第一引物的序列、片段的序列和(a)的5'序列标签的互补序列；以及

(d)使用以下来扩增(c)的引物延伸产物：

i.包含序列A4的正向引物，例如式A4-A3的正向引物，其中序列A4是5'尾，序列A3包含在所述第一引物的序列中；和

ii.式A5-A2的反向引物，其中序列A5是5'尾，并且序列A2包含在(a)的5'序列标签中；

以产生经不对称标签化的文库，其中至少一些成员包含顶链，所述顶链包含i.包含序列A5的第一末端，ii.片段的序列，和iii.包含序列A4的互补序列的第二末端。

实施方案2.实施方案1的方法，其中(a)的5'和3'序列标签各自包含在文库中序列变化的双链分子条码。

实施方案3.任何前述实施方案的方法，其中所述分子条码是随机序列。

实施方案4.任何前述实施方案的方法，其中(b)的第一引物的5'尾包含序列变化的样品索引。

实施方案4A.任何前述实施方案的方法，其进一步包括分析步骤(d)的产物。

实施方案4B.实施方案4A的方法，其中所述分析包括对步骤(d)的产物进行测序。

实施方案5.实施方案4的方法，其中所述分子条码是随机序列。

实施方案6.实施方案4的方法，其中所述5'序列标签的分子条码而不是所述3'序列标签的条码在引物延伸步骤(c)中复制，并且其中扩增步骤(d)的产物含有(b)的第一引物的5'尾中的分子条码、片段的序列、以及所述5'序列标签中条码的互补序列。

实施方案7.任何前述实施方案的方法，其中所述方法包括在步骤(c)和(d)之间除去、灭活或破坏任何未延伸的第一引物。

实施方案8.任何前述实施方案的方法，其中(a)的文库通过标签化制备。

实施方案9.任何前述实施方案的方法，其中使用Tn5、Mu或Vibhar转座酶完成所述标签化。

实施方案10.任何前述实施方案的方法，其中(a)的文库是通过将衔接子连接到cDNA或基因组片段的群体来制备。

实施方案11.实施方案10的方法，其中所述cDNA或基因组片段可以通过物理、化学或酶促方法使初始cDNA或基因组样品片段化来制备。

实施方案12.任何前述实施方案的方法，其中步骤(a)的文库通过以下来制备：(i)制备包含cDNA或基因组DNA的片段的经初始标签化的文库，所述cDNA或基因组DNA的片段在两个末端包含序列标签，其中所述序列标签包含单链区，和(ii)延伸所述经初始标签化的文库的3'末端中的至少一些以使单链区成为双链。

实施方案13.实施方案12的方法，其中所述单链区含有单链分子条码，并且其中所述延伸将所述单链分子条码转化为双链分子条码。

实施方案14.实施方案13的方法，其中使用链置换聚合酶完成所述延伸。

实施方案15.实施方案13的方法，其中使用非链置换聚合酶完成所述延伸。

实施方案16.任何前述实施方案的方法，其进一步确定同一分子上的两个或更多个分子条码的序列。

实施方案17.实施方案16的方法，其中所述分析包括对步骤(d)的产物进行测序。

实施方案17A.任何前述实施方案的方法，其进一步包括使用所述分子条码序列将来自双链体顶链的测序读段与来自互补链的测序读段相关联。

实施方案17B.任何前述实施方案的方法，其中序列信息是从双链体的顶链和底链两者获得。

实施方案18.任何前述实施方案的方法，其中在杂交步骤(b)期间添加另外的序列A2和与A3互补的序列。

实施方案19.实施方案18的方法，其中所述另外的序列是相同寡核苷酸的一部分。

实施方案20.实施方案18的方法，其中所述另外的序列的3'末端中的一个或多个不能通过聚合酶延伸。

实施方案21.任何前述实施方案的方法，其中所述标签长度范围为4至12个核苷酸。

实施方案22.任何前述实施方案的方法，其中所述方法包括在步骤(d)之前重复步骤(b)和(c)。

实施方案23.任何前述实施方案的方法，其中所述方法包括使用两个或更多个分子条码。

实施方案24.任何前述实施方案的方法，其中所述方法包括将一个或多个分子条码与一个或多个样品索引序列组合使用。

实施方案25.任何前述实施方案的方法，其中所述方法包括使用一个或多个分子条码的序列及其互补序列来校正测序错误和/或确定原始双链体模板的序列。

实施方案26.任何前述实施方案的方法，其中所述方法包括将一个或多个序列读段鉴定为对应于靶片段的顶链，并鉴定一个或多个序列读段为对应于靶片段的底链。

实施方案27.任何前述实施方案的方法，其中所述方法包括将来自顶链的测序信息与来自底链的测序信息相关联，以提供对应于靶片段的两个末端的序列信息。

实施方案28.任何前述实施方案的方法，其中所述方法包括使用来自顶链和底链两者的序列信息来校正聚合酶错误，检测稀有突变，或检测插入、缺失、倒位或易位。

Claims

1.一种制备经不对称标签化的测序文库的方法，所述方法包括：

(a)获得cDNA或基因组DNA片段的经对称标签化的文库，其中所述文库的至少一些成员包含含有5'序列标签和3'序列标签的顶链，其中所述5'和3'序列标签包含互补序列；

(d)使用以下来扩增(c)的引物延伸产物：

i包含序列A4的正向引物；和

ii式A5-A2的反向引物，其中序列A5是5'尾，并且序列A2包含在(a)的5'序列标签中；

2.根据权利要求1的方法，其中(a)的5'和3'序列标签各自包含在所述文库中序列变化的双链分子条码。

3.根据权利要求2的方法，其中所述分子条码是随机序列。

4.根据权利要求1的方法，其中(b)的第一引物的5'尾包含序列变化的样品索引。

5.根据权利要求1的方法，其进一步包括：分析步骤(d)的产物。

6.根据权利要求5的方法，其中所述分析包括对步骤(d)的产物进行测序。

7.根据权利要求1的方法，其中所述方法包括在步骤(c)和(d)之间除去、灭活或破坏任何未延伸的第一引物。

8.根据权利要求1的方法，其中(a)的文库是通过标签化来制备。

9.根据权利要求1的方法，其中所述标签化是使用Tn5或Vibhar转座酶来完成。

10.根据权利要求1的方法，其中(a)的文库是通过将衔接子连接到cDNA或基因组片段的群体来制备。

11.根据权利要求10的方法，其中所述cDNA或基因组片段是通过物理、化学或酶促方法使初始cDNA或基因组样品片段化来制备。

12.根据权利要求1的方法，其中步骤(a)的文库通过以下来制备：(i)制备包含cDNA或基因组DNA的片段的经初始标签化的文库，所述cDNA或基因组DNA的片段在两个末端包含序列标签，其中所述序列标签包含单链区，和(ii)延伸所述经初始标签化的文库的3'末端中的至少一些以使单链区成为双链。

13.根据权利要求12的方法，其中所述单链区含有单链分子条码，并且其中所述延伸将所述单链分子条码转化为双链分子条码。

14.根据权利要求13的方法，其中使用链置换聚合酶完成所述延伸。

15.根据权利要求13的方法，其中使用非链置换聚合酶完成所述延伸。

16.根据权利要求6的方法，其进一步确定同一分子上的两个或更多个分子条码的序列。

17.根据权利要求16的方法，其进一步包括：使用所述分子条码序列将来自双链体顶链的测序读段与来自互补链的测序读段相关联。

18.根据权利要求1的方法，其中在杂交步骤(b)期间添加另外的序列A2和与A3互补的序列。

19.根据权利要求6的方法，其中序列信息是从双链体的顶链和底链两者获得。

20.根据权利要求18的方法，其中所述另外的序列的3'末端中的一个或多个不能通过聚合酶延伸。