CN110268059B

CN110268059B - 单细胞全基因组文库及制备其的组合索引方法

Info

Publication number: CN110268059B
Application number: CN201780044234.8A
Authority: CN
Inventors: 安德鲁·C·阿迪; 莎拉·A·维塔克; 弗兰克·J·斯蒂莫斯
Original assignee: Oregon Health Science University; Illumina Inc
Current assignee: Oregon Health Science University; Illumina Inc
Priority date: 2016-07-22
Filing date: 2017-07-21
Publication date: 2024-01-12
Anticipated expiration: 2037-07-21
Also published as: ES2873723T3; IL263920B2; AU2017299803B2; DK3488002T3; US11535883B2; EP3488002A1; US20230323426A1; JP7155021B2; KR20230003255A; SG11201811504PA; CA3026773C; AU2023222858A1; EP3488002B1; AU2017299803A1; NZ749719A; JP2019520828A; CN117822128A; EP3904514A1; JP2022169578A; US20180023119A1

Abstract

本文提供了用于制备包括来自多个单细胞的核酸的测序文库的方法。在一个实施方案中，测序文库包括来自多个单细胞的全基因组核酸。在一个实施方案中，方法包括通过化学处理生成核小体耗尽的细胞核，同时维持细胞核的完整性。本文还提供了组合物，诸如包含经化学处理的核小体耗尽的分离的细胞核的组合物。

Description

单细胞全基因组文库及制备其的组合索引方法

相关申请的交叉引用

本申请要求2016年7月22日提交的美国临时申请序列第62/365,916号和2017年1月27日提交的美国临时申请序列第62/451,305号的权益，所述临时申请的每一项通过引用并入本文。

序列表

本申请含有作为ASCII文本文件的经由EFS-Web以电子方式提交至美国专利及商标局的序列表，所述序列表被命名为“1592SeqListing_ST25.txt”，具有27千字节的大小并且创建于2017年7月18日。包含在该序列表中的信息通过引用并入本文。

领域

本公开内容的实施方案涉及核酸测序。特别地，本文提供的方法和组合物的实施方案涉及产生加索引的单细胞测序文库和从所述加索引的单细胞测序文库获得序列数据。

背景

单细胞测序已经揭示各种背景的细胞之间遗传异质性的广度，包括哺乳动物脑中的体细胞非整倍性(McConnell，M.J.等人，Science(80.).342，632-637(2013)，Cai，X.等人，Cell Rep.8，1280-1289(2014)，Knouse，K.A.等人，Proc Natl Acad Sci U S A 111，13409-13414(2014)，Rehen，S.K.等人，Proc.Natl.Acad.Sci.U.S.A.98，13361-6(2001))和肿瘤内异质性(Navin，N.等人，Nature 472，90-94(2011)，Eirew，P.等人，Nature 518，422-6(2014)，Gawad，C.等人，Proc.Natl.Acad.Sci.U.S.A.111，17947-52(2014)，Gao，R.等人，Nat.Genet.1-15(2016).doi：10.1038/ng.3641)。研究已经采用以下两种方案中的一种：用于单核苷酸变体检测的每个细胞的高深度测序(Cai，X.等人，Cell Rep.8，1280-1289(2014)，Zong，C.等人，Science(80-.).338，1622-1626(2012))，或鉴定拷贝数变体(CNV)和非整倍性的低通测序(McConnell，M.J.等人，Science(80.).342，632-637(2013)，Baslan，T.等人，Genome Res.125，714-724(2015)，Knouse，K.A.等人，Genome Res.gr.198937.115-(2016).doi：10.1101/gr.198937.115)。在后一种方案中，缺少产生大量单细胞文库的有效的、具有成本效益的方法，使得难以在群体规模上量化携带CNV的细胞的频率，或者难以在癌症的情况下提供异质性的稳健分析(Gawad，C.等人，Nat.Rev.Genet.17，175-88(2016))。

最近，建立了保留邻近性转座(contiguity-preserving transposition)(CPT-seq)，这是一种使用基于转座酶的组合索引(combinatorial indexing)策略产生数千个单独加条形码的连接的序列读段文库的方法(Adey，A.等人，Genome Biol.11，R119(2010)，Amini，S.等人，Nat.Genet.46，1343-9(2014)，Adey，A.等人，Genome Res.24，2041-2049(2014))。我们将CPT-seq应用于基因组单倍型分辨的问题(Amini，S.等人，Nat.Genet.46，1343-9(2014))和从头基因组组装(Adey，A.等人，Genome Res.24，2041-2049(2014))。然后将此概念整合到染色质可及性测定(chromatin accessibility assay)ATAC-seq中(Buenrostro，J.D.等人，Nat.Methods 10，1213-8(2013))，以产生数千个单细胞中活性调控元件的谱(Cusanovich，D.a等人，Science 348，910-4(2015))(sciATAC-seq，图4A)。在组合索引中，首先通过转座酶掺入96个加索引的测序衔接子中的一个来对细胞核加条形码。然后组合96个反应，并将这些随机加索引的细胞核中的15-25个通过荧光激活细胞核分选(FANS，图5A-5F)放置到PCR板的每个孔中。因此，任何两个细胞核具有相同转座酶条形码的概率是低的(6-11％)(Cusanovich，D.a等人，Science 348，910-4(2015))。然后使用加索引的引物对每个PCR孔独特地加条形码。在此过程结束时，每个序列读段含有两个索引：来自转座酶板的索引1和来自PCR板的索引2，这促进单细胞区分。作为原理证明，Cusanovich及同事产生了超过15,000个sciATAC-seq谱，并用将它们用于经由两种细胞类型的可及的染色质形貌来分开所述两种细胞类型的混合物(Cusanovich，D.a等人，Science 348，910-4(2015))。

尽管高细胞计数单细胞测序已示出其经由转录组、染色质可及性和突变差异在复杂组织内的群体分开中的效力，但直到现在也不可能获得包括单细胞的全基因组的序列信息。

本申请的概述

本文提供用于制备包括来自多个单细胞的核酸的测序文库的方法。在一个实施方案中，该方法包括提供来自多个细胞的分离的细胞核；使分离的细胞核经受化学处理以生成核小体耗尽的细胞核，同时维持分离的细胞核的完整性；将核小体耗尽的细胞核的子集分布到第一多个隔室中并使每个子集与转座体复合物接触，其中每个隔室中的转座体复合物包含转座酶和与其他隔室中的第一索引序列不同的第一索引序列；将核小体耗尽的细胞核的子集中的核酸片段化成多个核酸片段并将第一索引序列掺入核酸片段的至少一条链中以生成包括加索引的核酸片段的加索引的细胞核，其中加索引的核酸片段保持附接至转座酶；组合加索引的细胞核以生成合并的加索引的细胞核；将合并的加索引的细胞核的子集分布到第二多个隔室中；将第二索引序列掺入每个隔室中的加索引的核酸片段中以生成双索引片段，其中每个隔室中的第二索引序列与其他隔室中的第二索引序列不同，以及组合双索引片段，从而产生包括来自多个单细胞的全基因组核酸的测序文库。

在一个实施方案中，化学处理包括用能够破坏核酸-蛋白相互作用的离液剂(诸如3，5-二碘水杨酸锂)处理。在一个实施方案中，化学处理包括用能够破坏核酸-蛋白相互作用的洗涤剂(诸如十二烷基硫酸钠(SDS))处理。

在一个实施方案中，在使分离的细胞核经受化学处理之前，用交联剂诸如甲醛处理细胞核。交联剂可以处于从约0.2％至约2％的浓度，并且在一个实施方案中浓度为约1.5％。在一个实施方案中，通过甲醛的交联在分布合并的加索引的细胞核的子集之后且在将第二索引序列掺入每个隔室中的加索引的核酸片段中之前被逆转。在一个实施方案中，交联的逆转包括在约55℃至约72℃孵育。在一个实施方案中，在交联的逆转之前，转座酶与加索引的核酸片段解离。在一个实施方案中，使用十二烷基硫酸钠(SDS)使转座酶与加索引的核酸片段解离。

在一个实施方案中，在将核小体耗尽的细胞核的子集中的核酸片段化为多个核酸片段并掺入第一索引序列之前，用限制酶处理细胞核。在一个实施方案中，在用限制酶处理后，用连接酶处理细胞核。

在一个实施方案中，分布核小体耗尽的细胞核的子集、分布合并的加索引的细胞核的子集或其组合通过荧光激活细胞核分选来执行。在一个实施方案中，核小体耗尽的细胞核的子集包含大致相等数量的细胞核，并且在一个实施方案中，核小体耗尽的细胞核的子集包含从1至约2000个细胞核。在一个实施方案中，合并的加索引的细胞核的子集包含大致相等数量的细胞核，并且在一个实施方案中，合并的加索引的细胞核的子集包含从1至约25个细胞核。在一个实施方案中，合并的加索引的细胞核的子集包含为核小体耗尽的细胞核的子集的至多1/10的细胞核，或者为核小体耗尽的细胞核的子集的至多1/100的细胞核。

在一个实施方案中，第一多个隔室、第二多个隔室或其组合是多孔板，诸如96孔板或384孔板。

在一个实施方案中，在将核小体耗尽的细胞核的子集分布到隔室中之后，将转座体复合物添加到隔室中。在一个实施方案中，转座体复合物中的每个包含转座子，并且转座子中的每个包含转移链。在一个实施方案中，转移链包含第一索引序列和第一通用序列。

在一个实施方案中，将第二索引序列掺入加索引的核酸片段包括使每个隔室中的加索引的核酸片段与第一通用引物和第二通用引物接触，每个引物包含索引序列并且每个引物包含与第一通用序列的一部分相同或互补的序列；和执行指数式扩增反应。在一个实施方案中，指数式扩增反应可为聚合酶链式反应(PCR)，并且在一个实施方案中，PCR可包括15至30个循环。在一个实施方案中，第一通用引物的索引序列是第二通用引物的索引序列的反向互补物，并且在另一个实施方案中，第一通用引物的索引序列不同于第二通用引物的索引序列的反向互补物。在一个实施方案中，第一通用引物还包含第一捕获序列和与双索引片段的3′末端的通用序列互补的第一锚定序列，并且在一个实施方案中，第一捕获序列包含P5引物序列。在一个实施方案中，第二通用引物还包含第二捕获序列和与双索引片段的5′末端的通用序列互补的第二锚定序列，并且在一个实施方案中，第二捕获序列包含P7引物序列的反向互补物。

方法还可包括使用对双索引片段具有特异性的多个捕获寡核苷酸富集双索引片段。在一个实施方案中，捕获寡核苷酸固定在固体基材的表面上，并且在一个实施方案中，捕获寡核苷酸包括通用结合对的第一成员，并且结合对的第二成员固定在固体基材的表面上。

方法还可包括对双索引片段进行测序以确定来自多个单细胞的核酸的核苷酸序列。在一个实施方案中，方法可包括提供包括多个扩增位点的表面，其中扩增位点包括具有游离3′末端的附接的单链捕获寡核苷酸的至少两个群体，以及在适于产生其中每个扩增位点包含来自个体双索引片段的扩增子的克隆群体的多个扩增位点的条件下，使包括扩增位点的表面与双索引片段接触。在一个实施方案中，双索引片段的数量超过扩增位点的数量，其中双索引片段具有对扩增位点的流体可及性，并且其中扩增位点中的每个包含用于测序文库中几个双索引片段的容量。在一个实施方案中，接触包括同时地(i)以平均转运速率将双索引片段转运至扩增位点，和(ii)以平均扩增速率扩增扩增位点处的双索引片段，其中平均扩增速率超过平均转运速率。

本文还提供了组合物。在一个实施方案中，组合物包含经化学处理的核小体耗尽的分离的细胞核，其中分离的细胞核包含加索引的核酸片段。在一个实施方案中，分离的细胞核包含非天然交联。在一个实施方案中，组合物包含在含有突出端的裂解的限制性位点终止的加索引的核酸片段。在一个实施方案中，分离的细胞核包含重排的基因组DNA。在另一个实施方案中，组合物包含多孔板，其中多孔板的孔包括经化学处理的核小体耗尽的分离的细胞核，其中分离的细胞核包含加索引的核酸片段。

附图简述

当结合以下附图阅读时，可最好地理解本公开内容的说明性实施方案的以下详细描述。

图1示出了根据本公开内容的用于单细胞组合索引的一般说明性方法的总体框图。

图2示出了加索引的核酸片段的说明性实施方案的示意图。

图3示出双索引片段的说明性实施方案的示意图。

图4A-4C示出在核小体耗尽情况下的单细胞组合索引。(图4A)单细胞组合索引的工作流程。(图4B)通过标准分离，随后使用锂辅助的核小体耗尽(LAND)或使用交联和SDS处理(xSDS)的核小体耗尽生成的完整细胞核的相衬图像。比例尺：100μm。(图4C)核小体耗尽产生了不限于染色质可及性的位点的全基因组均匀覆盖。

图5A-5F示出荧光激活细胞核分选(FANS)。来自单细胞核的FANS分选的代表性图。除非另有说明，否则所有图均来自对第二(PCR)板的分选。(图5A)ATAC-seq细胞核，(图5B)LAND，(图5C)HeLa S3和3T3，(图5D)xSDS，(图5E)PDAC分选1转座酶板，(图5F)PDAC分选2PCR板。

图6示出使用混合模型的SCI-seq单细胞确定。HeLa.LAND3示出R包混合工具(Rpackage mixtools)的normalmixEM用于识别每个分布：噪声索引组合(左峰)和单细胞文库(右峰)。将索引组合视为单细胞文库的读段计数阈值是比单细胞分布的平均值低1个标准偏差(在log10空间中)，或者比噪声分布的平均值大2(在log10空间中，因此大100倍)中的较大值，并且至少为1,000。对于示出的文库，低于单细胞组分的平均值的一个标准偏差更大并且因此用作读段计数阈值。

图7示出使用SCI-seq的LAND和xSDS核小体耗尽方法的比较。(图7a)GM12878的六种LAND SCI-seq制备物中的一个的复杂度。右，示出读段计数的分布的直方图。虚线表示单细胞读段截止值。(图7b)如图7a所示，但是三个PCR板中的一个的xSDS核小体耗尽。(图7c)左，GM12878xSDS制备物的建立在降采样读段上并且被用于预测全覆盖深度的模型。右，LAND制备物中的一个和完整xSDS制备物的预测。阴影代表多个模型的s.d.。点代表测序的实际深度。(图7d)使用LAND或xSDS的SCI-seq和拟随机引发(QRP)和简并寡核苷酸PCR(DOP)的覆盖均匀性得分。(图7e)在施加和不施加方差滤波器的情况下所有制备物中显示在染色体臂水平的非整倍性的细胞百分比的总结。(图7f)50个GM12878细胞的染色体组分型结果。(图7g、图7h)使用LAND(图7g)或xSDS(图7h)产生的GM12878单细胞的窗口拷贝数调用和聚类的总结。在每个图中，上图代表所有细胞的染色体臂级别的获得或丢失频率的总结；下图是含有至少一个CNV调用的细胞的聚类模式。

图8示出所有制备物的SCI-seq文库复杂度和索引读段计数分布。对于每个制备物，示出两个图。左：每个点表示独特索引组合，x轴是分配给该索引组合的独特读段的分数，y轴是索引组合的log10独特读段计数。等值线代表点密度。右：每个索引组合的log10独特读段计数的直方图。我们预期大多数潜在的索引组合不代表单细胞文库，并且因此包含非常少的独特读段(最左侧分布)，单细胞文库具有大得多的读段计数(右分布，或在较低性能文库中的尾部)。由于图是log10标度，所以噪声分布实际上仅占总读段计数的一小部分。

图9示出人类和小鼠细胞的混合物的SCI-seq。对于所有图，基于与人类参考基因组或小鼠参考基因组比对的计数来绘制每个索引组分的读段的数量。(图9a，图9b)人类(GM12878)和小鼠(3T3)的LAND核小体耗尽，(图9c，图9d)人类(HeLa S3)和小鼠(3T3)的LAND核小体耗尽，(图9e)人类(HeLa S3)和小鼠(3T3)的xSDS核小体耗尽。

图10示出进行更深度测序后的SCI-seq文库复杂度和索引读段计数分布。对于每个制备物，示出两个图，如S2中所示，左图示出独特读段的分数与每个索引组合的独特读段计数。而右图示出每个索引组合的读段计数的直方图。来自被更深度地测序的孔的细胞与那些孔所属的板的剩余部分一起示出。复杂度较低的细胞群体(更靠近左侧)是已被更深度地测序的群体。

图11示出在同一单细胞中通过测序相邻转座事件观察到的9bp读段重叠。(图11a)来自转座事件的9bp复制如何发生的图。(图11b)通过虚线示出在9bp处的所有扩增子重叠的大小的代表性单细胞。

图12示出用于HMM和CBS的拷贝数调用计算工作流程。在调用之后，CBS和HMM的调用集与Ginkgo相交在一起，并且只有所有三个集中存在的调用被保留作为最终调用集。

图13示出使用标准单细胞测序方法对GM12878进行的CNV评估。上图：染色体臂扩增和缺失的总结，下图：细胞的层次聚类。

图14示出所有方法的窗口大小和读段计数截止值的方差。图示出MAD或MAPD得分随着窗口大小和读段计数/细胞的变化而变化。

图15示出GM12878非整倍性比率与方差得分截止值之间的关系。每个点是通过在给定得分截止值(x轴)处包括的细胞数量缩放的细胞群的非整倍性比率(y轴)。

图16示出使用拟随机引发(QRP)的恒河猴额叶皮质个体1的CNV谱。(图16a)Ginkgo调用，(图16b)CBS调用，(图16c)HMM调用，(图16d)所有三个的相交，以及(图16e)仅CBS和HMM的相交。

图17示出使用简并寡核苷酸引物PCR(DOP)的恒河猴额叶皮质个体1的CNV谱。(图17a)Ginkgo调用，(图17b)CBS调用，(图17c)HMM调用，(图17d)所有三个的相交，以及(图17e)仅CBS和HMM的相交。

图18示出在LAND核小体耗尽情况下使用SCI-seq的恒河猴额叶皮质个体1的CNV谱。(图18a)Ginkgo调用，(图18b)CBS调用，(图18c)HMM调用，(图18d)所有三个的相交，以及(图18e)仅CBS和HMM的相交。

图19示出在xSDS核小体耗尽情况下使用SCI-seq的恒河猴额叶皮质个体1的CNV谱。(图19a)Ginkgo调用，(图19b)CBS调用，(图19c)HMM调用，(图19d)所有三个的相交，以及(图19e)仅CBS和HMM的相交。

图20示出恒河猴脑中的体细胞CNV。(图20a)示出拷贝数变体的三个单细胞实例和用于SCI-seq制备物(HMM)的一个代表性整倍体细胞。(图20b)在具有和没有过滤情况下通过每种方法测定的非整倍性的频率。

图21示出恒河猴额叶皮质个体1的覆盖均匀性的比较。均匀性测量与GM12878制备物的测量(图7b)非常相似。

图22示出恒河猴非整倍性比率与方差得分截止值之间的关系。每个点是通过在给定得分截止值(x轴)处包括的细胞数量缩放的细胞群的非整倍性比率(y轴)。

图23示出在xSDS核小体耗尽情况下使用SCI-seq的恒河猴额叶皮质个体2的CNV谱。(图23a)Ginkgo调用，(图23b)CBS调用，(图23c)HMM调用，(图23d)所有三个的相交，以及(图23e)仅CBS和HMM的相交。

图24示出III期人胰腺导管腺癌(PDAC)的SCI-seq分析。(图24a)SCI-seq文库复杂度。右图，示出读段计数的分布的直方图。虚线表示单细胞读段截止值。(图24b)断点调用(上图)和log2序列深度比率的断点窗口矩阵。(图24c)对断点矩阵进行的主成分分析和k均值聚类。(图24d)对来自每个簇的聚集的细胞进行的100kbp分辨率CNV调用。(图24e)所有簇中存在的簇特异性CNV和CEBPA扩增(示出k4)。

图25示出对胰腺导管腺癌进行的使用基于xSDS的核小体耗尽的SCI-seq。对于分析中使用的拷贝数调用的三种方法的2.5Mbp窗口的拷贝数调用总结：(图25a)Ginkgo、(图25b)CBS和(图25c)HMM。

图26示出使用xSDS SCI-seq对原发PDAC进行的单细胞CNV调用。代表性的单细胞信号图。

图27示出断点分析工作流程的示意图。首先，分析个体细胞的断点。来自所有细胞的断点被归并，并且在高于阈值时进行局部求和。定义局部共享的断点之间的间隔，并且在每个间隔内找到平均比率得分。

图28示出使用用于拷贝数变体调用的隐马尔可夫模型方法对HeLavS3进行使用基于LAND的核小体耗尽的SCI-seq。细胞的窗口(2.5Mbp)调用和分层聚类的总结。CBC拷贝数调用引起对亚染色体调用的严重偏差，并且Ginkgo未能正确识别许多细胞中的倍性，导致大多数细胞被调用为完全扩增。

图29示出使用隐马尔可夫模型方法对单细胞中的HeLa S3拷贝数变体调用进行的使用基于LAND的核小体耗尽的SCI-seq。代表性单细胞信号图。信号1对应于2.98的平均倍性。

图30示出HeLa的断点分析。(图30a)使用2.5Mbp窗口通过HMM分析在HeLa细胞系中鉴定的断点。(图30b)针对GM12878归一化的细胞的HeLa断点窗口的Log2矩阵。

图31示出HeLa断点窗口上的PCA。HeLa产生单一群体，如基于细胞系的稳定性预期的。红色点和蓝色点表示不同的制备物。

图32示出对库存的II期直肠癌样品进行的使用基于xSDS的核小体耗尽的SCI-seq。2.5Mbp窗口的相交的拷贝数调用总结。

图33示出被用于使用前向散射、侧向散射和DAPI强度参数在用转座酶处理后分离单个细胞核的门控方案。

图34示出根据本公开内容的用于单细胞组合索引和基因组和染色体构象的一般例示性方法的一个实施方案的一般性框图。

图35示出通过使用各种甲醛浓度和交联逆转时间的方法获得的文库复杂度和独特读段计数。

图36示出对HeLa进行的使用sci-GCC的单细胞文库的实例。嵌合连接接合读段产生的信号在10Mbp窗口中在基因组远端区域之间示出，其中第一窗口在x轴上并且链接窗口(linked window)在y轴上。突出的是HeLa中存在的已知易位，其中易位-染色体(trans-chromosomal)3C信号升高。

示意图不一定按比例绘制。图中使用的相似数字指代相似的组件、步骤等。然而，应当理解，使用数字来指代给定附图中的组件并不旨在限制在另一个图中用相同数字标记的组件。另外，使用不同数字来指代组件并不旨在表示不同编号的组件不能与其他编号组件相同或相似。

说明性实施方案的详细描述

如本文所用，术语“生物体”、“受试者”可互换使用并且是指动物和植物。动物的实例是哺乳动物，诸如人。

如本文所用，术语“细胞类型”旨在基于形态学、表型、发育起源或其他已知或可识别的区分细胞特征来鉴定细胞。可从单个生物体(或从相同物种的生物体)获得多种不同的细胞类型。示例性细胞类型包括但不限于膀胱细胞、胰腺上皮细胞、胰腺α细胞、胰腺β细胞、胰腺内皮细胞、骨髓淋巴母细胞、骨髓B淋巴母细胞、骨髓巨噬细胞、骨髓成红血细胞、骨髓树突细胞、骨髓脂肪细胞、骨髓骨细胞、骨髓软骨细胞、早幼粒细胞、骨髓成巨核细胞、膀胱细胞、脑B淋巴细胞、脑胶质细胞、神经细胞、脑星形胶质细胞、神经外胚层细胞、脑巨噬细胞、脑小胶质细胞、脑上皮细胞、皮质神经细胞、脑成纤维细胞、乳腺上皮细胞、结肠上皮细胞、结肠B淋巴细胞、乳腺上皮细胞、乳腺肌上皮细胞、乳腺成纤维细胞、结肠肠细胞、子宫颈上皮细胞、卵巢上皮细胞、卵巢成纤维细胞、乳腺导管上皮细胞、舌上皮细胞、扁桃体树突细胞、扁桃体B淋巴细胞、外周血淋巴母细胞、外周血T淋巴母细胞、外周血皮肤T淋巴细胞、外周血自然杀伤细胞、外周血B淋巴母细胞、外周血单核细胞、外周血成髓细胞、外周血单核细胞、外周血早幼粒细胞、外周血巨噬细胞、外周血嗜碱性粒细胞、肝内皮细胞、肝肥大细胞、肝上皮细胞、肝B淋巴细胞、脾内皮细胞、脾上皮细胞、脾B淋巴细胞、肝脏肝细胞、肝成纤维细胞、肺上皮细胞、支气管上皮细胞、肺成纤维细胞、肺B淋巴细胞、肺施万细胞、肺鳞状细胞、肺巨噬细胞、肺成骨细胞、神经内分泌细胞、肺泡细胞、胃上皮细胞和胃成纤维细胞。

如本文所用，术语“组织”旨在意指一起起作用以在生物体中执行一种或更多种具体功能的细胞的集合(collection)或聚集(aggregation)。细胞可任选地在形态学上相似。示例性组织包括但不限于眼、肌肉、皮肤、肌腱、静脉、动脉、血液、心脏、脾、淋巴结、骨、骨髓、肺、支气管、气管、肠、小肠、大肠、结肠、直肠、唾液腺、舌、胆囊、阑尾、肝脏、胰腺、脑、胃、皮肤、肾、输尿管、膀胱、尿道、性腺、睾丸、卵巢、子宫、输卵管、胸腺、垂体、甲状腺、肾上腺或甲状旁腺。组织可源自人或其他生物体的各种器官中的任一种。组织可为健康组织或不健康组织。不健康组织的实例包括但不限于肺、乳腺、结肠直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨、卵巢、肝脏、血液组织、胰腺、子宫、肾、淋巴组织等中的恶性肿瘤。恶性肿瘤可为多种组织学亚型的，例如癌、腺癌、肉瘤、纤维腺癌、神经内分泌型或未分化型。

如本文所用，术语“核小体”是指染色质的基本重复单元。人基因组由压缩在平均直径为～10μm的细胞核内的几米DNA组成。在真核细胞细胞核中，DNA被包装到称为染色质的核蛋白复合物中。核小体(染色质的基本重复单元)通常包括约146个碱基对的DNA，围绕核心组蛋白八聚体缠绕约1.7次。组蛋白八聚体由组蛋白H2A、H2B、H3和H4中的每个的两个拷贝组成。核小体以在线上的珠的方式沿着DNA规则地间隔开。

如本文所用，术语“隔室”旨在意指将某物与其他物分开或隔离的区域或体积。示例性隔室包括但不限于小瓶、管、孔、液滴、团块、珠、容器、表面特征，或由诸如流体流、磁力、电流等物理力分开的区域或体积。在一个实施方案中，隔室是多孔板诸如96孔板或384孔板的孔。

如本文所用，“转座体复合物”是指整合酶(integration enzyme)和包含整合识别位点的核酸。“转座体复合物”是能够催化转座反应的由转座酶和转座酶识别位点形成的功能性复合物(参见，例如，Gunderson等人，WO 2016/130704)。整合酶的实例包括但不限于整合酶(integrase)或转座酶。整合识别位点的实例包括但不限于转座酶识别位点。

如本文所用，术语“核酸”旨在与其在本领域中的用途一致，并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性方式与核酸杂交或能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有含有磷酸二酯键的骨架。类似物结构可具有替代骨架链接，包括本领域已知的那些各种骨架连接中的任一种。天然存在的核酸通常具有脱氧核糖(例如发现于脱氧核糖核酸(DNA)中)或核糖(例如发现于核糖核酸(RNA)中)。核酸可含有本领域已知的这些糖部分的多种类似物中的任一种。核酸可包含天然或非天然碱基。在这方面，天然脱氧核糖核酸可具有选自由腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤组成的组的一个或更多个碱基，并且核糖核酸可具有选自由腺嘌呤、尿嘧啶、胞嘧啶或鸟嘌呤组成的组的一个或更多个碱基。可包括在核酸中的有用的非天然碱基是本领域已知的。非天然碱基的实例包括锁核酸(LNA)和桥接核酸(BNA)。LNA和BNA碱基可掺入到DNA寡核苷酸中并且增加寡核苷酸杂交强度和特异性。LNA和BNA碱基以及这些碱基的用途是本领域技术人员已知的并且是常规的。

如本文所用，“核酸酶”是指裂解核酸的任何酶。核酸酶属于称为水解酶的一类酶，并且通常在所用方面具有特异性，核糖核酸酶优先作用于核糖核酸(RNA)，且脱氧核糖核酸酶优先作用于脱氧核糖核酸(DNA)。

如本文所用，术语“靶”当用于指核酸时旨在作为本文所述的方法或组合物的上下文中用于核酸的语义标识符，并且不一定限制核酸的结构或功能，除了另外明确指出之外。靶核酸可基本上是具有已知或未知序列的任何核酸。它可为例如基因组DNA或cDNA的片段。测序可引起确定整个靶分子或靶分子的一部分的序列。靶可源自初级核酸样品，诸如细胞核。靶还可通过逆转录成cDNA从初级RNA样品中获得。在一个实施方案中，靶可通过在每个靶片段的末端处放置通用序列而被加工成适于扩增的模板。

如本文所用，当用于描述核苷酸序列时，术语“通用的”是指两个或更多个核酸分子共有的序列区域，其中所述分子还具有彼此不同的序列区域。存在于分子的集合的不同成员中的通用序列可允许使用通用捕获核酸群体(例如与通用序列的一部分互补的捕获寡核苷酸，例如通用捕获序列)捕获多种不同的核酸。通用捕获序列的非限制性实例包括与P5引物和P7引物相同或互补的序列。类似地，存在于分子的集合的不同成员中的通用序列可允许使用与通用序列的一部分互补的通用引物(例如通用锚定序列)的群体来扩增或复制(例如测序)多种不同核酸。因此，捕获寡核苷酸或通用引物包括可与通用序列特异性杂交的序列。杂交的两个通用序列被称为通用结合对。例如，杂交的捕获寡核苷酸和通用捕获序列是通用结合对。

当提及通用捕获序列或捕获寡核苷酸时，可使用术语“P5”和“P7”。术语“P5”’(P5端)和“P7”’(P7端)分别是指P5和P7的互补物。将理解，任何合适的通用捕获序列或捕获寡核苷酸可用于本文呈现的方法中，并且P5和P7的使用仅是示例性实施方案。在流通池上使用捕获寡核苷酸诸如P5和P7或它们的互补物是本领域已知的，如由WO 2007/010251、WO2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容例证的。例如，任何合适的正向扩增引物，无论是固定的还是在溶液中，都可用于本文呈现的方法中用于与互补序列杂交和扩增序列。类似地，任何合适的反向扩增引物，无论是固定的还是在溶液中，都可用于本文呈现的方法中用于与互补序列杂交和扩增序列。本领域技术人员将理解如何设计和使用适合于捕获和/或扩增如本文所呈现的核酸的引物序列。

如本文所用，术语“引物”及其衍生物通常是指可与感兴趣的靶序列杂交的任何核酸。通常，引物作为底物起作用，核苷酸可通过聚合酶在底物上聚合；然而，在一些实施方案中，引物可掺入到合成的核酸链中并提供位点，另一引物可与该位点杂交以引发合成与所合成的核酸分子互补的新链。引物可包括核苷酸或其类似物的任何组合。在一些实施方案中，引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换使用，以指任何长度的聚合形式的核苷酸，并且可包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语应理解为包括由核苷酸类似物制成的DNA或RNA的类似物(作为等同物)，并且适用于单链(诸如有义链或反义链)和双链多核苷酸。如本文使用的术语还涵盖cDNA，所述cDNA是例如通过逆转录酶的作用由RNA模板产生的互补或拷贝DNA。此术语仅指分子的一级结构。因此，术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。

如本文所用，术语“衔接子”及其派生词(例如通用衔接子)通常是指可连接至本公开内容的核酸分子的任何线性寡核苷酸。在一些实施方案中，衔接子与样品中存在的任何靶序列的3′末端或5′末端基本上不互补。在一些实施方案中，合适的衔接子长度在约10-100个核苷酸、约12-60个核苷酸或约15-50个核苷酸的长度的范围内。通常，衔接子可包括核苷酸和/或核酸的任何组合。在一些方面中，衔接子可包括在一个或更多个位置处的一个或更多个可裂解基团。在另一个方面中，衔接子可包括与引物(例如通用引物)的至少一部分基本上相同或基本上互补的序列。在一些实施方案中，衔接子可包括条形码(本文中也称为标签或索引)以辅助下游错误校正、识别或测序。术语“衔接子(adaptor)”和“衔接子(adapter)”可互换使用。

如本文所用，在用于指项目的集合时，术语“每个”旨在识别集合中的单个项目，但不一定是指集合中的每个项目，除非上下文另外清楚规定。

如本文所用，术语“转运”是指分子通过流体的移动。术语可包括被动转运，诸如分子沿其浓度梯度的移动(例如，被动扩散)。术语还可包括主动转运，藉此分子可沿其浓度梯度或逆着其浓度梯度移动。因此，转运可包括施加能量以使一种或更多种分子在期望的方向上移动或移动到期望的位置，诸如扩增位点。

如本文所用，“扩增(amplify)”、“扩增(amplifying)”或“扩增反应”及其派生词通常是指至少一部分核酸分子藉此复制或拷贝到至少一个另外的核酸分子中的任何作用或过程。另外的核酸分子任选地包括与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可为单链或双链的，并且另外的核酸分子可独立地是单链或双链的。扩增任选地包括核酸分子的线性复制或指数复制。在一些实施方案中，这类扩增可使用等温条件执行；在其他实施方案中，这类扩增可包括热循环。在一些实施方案中，扩增是包括在单个扩增反应中同时扩增多个靶序列的多重扩增。在一些实施方案中，“扩增”包括单独或组合地扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链式反应(PCR)。

如本文所用，“扩增条件”及其派生词通常是指适合于扩增一种或更多种核酸序列的条件。这类扩增可为线性式或指数式。在一些实施方案中，扩增条件可包括等温条件，或者可选地可包括热循环条件，或等温和热循环条件的组合。在一些实施方案中，适合于扩增一种或更多种核酸序列的条件包括聚合酶链式反应(PCR)条件。通常，扩增条件是指足以扩增核酸(诸如侧接通用序列的一个或更多个靶序列)或扩增与一个或更多个衔接子连接的经扩增的靶序列的反应混合物。通常，扩增条件包括用于扩增或用于核酸合成的催化剂例如聚合酶；与待扩增核酸具有一定程度互补性的引物；和核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，其一旦与核酸杂交，就能促进引物的延伸。扩增条件可需要引物与核酸的杂交或退火，引物的延伸和变性步骤，其中延伸的引物与经历扩增的核酸序列分开。通常但非必要地，扩增条件可包括热循环；在一些实施方案中，扩增条件包括多个循环，其中重复退火、延伸和分开的步骤。通常，扩增条件包括阳离子诸如Mg²⁺或Mn²⁺，并且还可包括各种离子强度的改性剂。

如本文所用，“再扩增”及其派生词通常是指经扩增的核酸分子的至少一部分藉此经由任何合适的扩增过程被进一步扩增(在一些实施方案中称为“二级”扩增)，从而产生再扩增的核酸分子的任何过程。二级扩增不需要与藉此产生经扩增的核酸分子的原始扩增过程相同；也不需要再扩增的核酸分子与经扩增的核酸分子完全相同或完全互补；所需要的只是再扩增的核酸分子包括经扩增的核酸分子的至少一部分或其互补物。例如，再扩增可涉及使用不同的扩增条件和/或不同的引物，包括与初级扩增不同的靶特异性引物。

如本文所用，术语“聚合酶链式反应”(“PCR”)是指Mullis美国专利第4,683,195和4,683,202号的方法，所述专利描述了在不进行克隆或纯化的情况下增加基因组DNA的混合物中感兴趣的多核苷酸的区段的浓度的方法。用于扩增感兴趣的多核苷酸的此方法包括将大量过量的两种寡核苷酸引物引入含有所需的感兴趣的多核苷酸的DNA混合物中，然后在DNA聚合酶存在下进行一系列热循环。两种引物与其感兴趣的双链多核苷酸的相应链互补。首先在较高温度使混合物变性，并且然后将引物退火至感兴趣的多核苷酸分子内的互补序列。退火后，用聚合酶延伸引物以形成一对新互补链。变性、引物退火和聚合酶延伸的步骤可重复多次(称为热循环)以获得高浓度的所需的感兴趣的多核苷酸的扩增区段。所需的感兴趣的多核苷酸的扩增区段(扩增子)的长度由引物相对于彼此的相对位置确定，因此，此长度是可控参数。通过重复该过程，方法被称为“聚合酶链式反应”(下文中称为“PCR”)。因为感兴趣的多核苷酸的期望的扩增区段成为混合物中的主要核酸序列(就浓度而言)，所以它们被称为“PCR扩增的”。在对以上论述的方法的修改中，靶核酸分子可使用多种不同引物对来PCR扩增，在一些情况中，每个感兴趣的靶核酸分子具有一个或更多个引物对，从而形成多重PCR反应。

如本文所定义的，“多重扩增”是指使用至少一种靶特异性引物来选择性和非随机扩增样品内的两种或更多种靶序列。在一些实施方案中，执行多重扩增，使得一些或所有靶序列在单个反应容器内扩增。给定多重扩增的“丛(plexy)”或“重(plex)”通常是指在所述单个多重扩增期间扩增的不同靶特异性序列的数量。在一些实施方案中，丛可为约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更高。还可通过几种不同的方法检测经扩增的靶序列(例如，凝胶电泳，然后进行光密度测定，使用生物分析仪或定量PCR定量，与标记的探针杂交；掺入生物素化的引物，然后进行抗生物素蛋白-酶缀合物检测；将³²P标记的脱氧核苷酸三磷酸掺入经扩增的靶序列中)。

如本文所用，“经扩增的靶序列”及其派生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的核酸序列。经扩增的靶序列相对于靶序列可为相同的意义(即正链)或反义的(即负链)。

如本文所用，术语“连接(ligating)”、“连接(ligation)”及其派生词通常是指将两个或更多个分子共价链接在一起的过程，例如将两个或更多个核酸分子彼此共价链接。在一些实施方案中，连接包括联接核酸的相邻核苷酸之间的缺口。在一些实施方案中，连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中，连接可包括在一个核酸的5′磷酸基团和第二个核酸的3′羟基基团之间形成共价键，从而形成连接的核酸分子。通常，为了本公开内容的目的，经扩增的靶序列可以连接至衔接子以生成衔接子连接的经扩增的靶序列。

如本文所用，“连接酶”及其派生词通常是指能够催化两个底物分子连接的任何剂。在一些实施方案中，连接酶包括能够催化核酸的相邻核苷酸之间的缺口联接的酶。在一些实施方案中，连接酶包括能够催化在一个核酸分子的5′磷酸与另一个核酸分子的3′羟基之间形成共价键，从而形成连接的核酸分子的酶。合适的连接酶可包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌DNA连接酶。

如本文所用，“连接条件”及其派生词通常是指适于将两个分子彼此连接的条件。在一些实施方案中，连接条件适合于封闭核酸之间的缺口或空位。如本文所用，术语缺口或空位与本领域使用的术语的一致。通常，缺口或空位可在适当的温度和pH在酶诸如连接酶的存在下连接。在一些实施方案中，T4 DNA连接酶可在约70℃-72℃的温度联接核酸之间的缺口。

如本文所用的术语“流通池”是指包含固体表面的腔室，一个或更多个流体试剂可流动穿过该腔室。可容易地在本公开内容的方法中使用的流通池和相关的流体系统和检测平台的实例描述于例如Bentley等人，Nature 456：53-59(2008)、WO 04/018497；US 7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082。

如本文所用，当用于指核酸时，术语“扩增子”意指拷贝核酸的产物，其中产物具有与核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种产生，包括例如聚合酶延伸、聚合酶链式反应(PCR)、滚环扩增(RCA)、连接延伸或连接链式反应。扩增子可为具有特定核苷酸序列的单拷贝(例如PCR产物)或核苷酸序列的多个拷贝(例如RCA的多联(concatameric)产物)的核酸分子。靶核酸的第一扩增子通常是互补拷贝。随后的扩增子是在生成第一个扩增子后，从靶核酸或第一个扩增子创建的拷贝。随后的扩增子可具有与靶核酸基本上互补或与靶核酸基本上相同的序列。

如本文所用，术语“扩增位点”是指阵列中或阵列上可生成一个或更多个扩增子的位点。扩增位点可进一步被配置为含有、保持或附接在该位点处生成的至少一个扩增子。

如本文所用，术语“阵列”是指根据相对位置可彼此区分的位点的群体。根据在阵列中位点的位置，可将位于阵列的不同位点的不同分子彼此区分。阵列的单个位点可包括一个或更多个特定类型的分子。例如，位点可包括具有特定序列的单个靶核酸分子，或者位点可包括具有相同序列(和/或其互补序列)的几个核酸分子。阵列的位点可为位于相同基材上的不同特征。示例性特征包括但不限于基材中的孔、基材中或基材上的珠(或其他颗粒)、来自基材的突起、基材上的脊或基材中的通道。阵列的位点可为分开的基材，每个基材携带不同的分子。附接至分开的基材的不同分子可根据基材在与基材缔合的表面上的位置或根据基材在液体或凝胶中的位置来鉴定。其中分开的基材位于表面上的示例性阵列包括但不限于在孔中具有珠的那些。

如本文所用，术语“容量”当用于指位点和核酸材料时意指可占据该位点的核酸材料的最大量。例如，该术语可指在特定条件下可占据位点的核酸分子的总数。也可使用其他衡量方式，包括例如可在特定条件下占据位点的核酸材料的总质量或特定核苷酸序列的总拷贝数。通常，用于靶核酸的位点的容量将基本上等价于用于靶核酸扩增子的位点的容量。

如本文所用，术语“捕获剂”是指能够附接、保留或结合靶分子(例如靶核酸)的材料、化学物质、分子或其部分。示例性捕获剂包括但不限于与靶核酸的至少一部分互补的捕获核酸(在本文中也称为捕获寡核苷酸)、能够与靶核酸(或与其附接的链接部分)结合的受体-配体结合对的成员(例如抗生物素蛋白、链霉亲和素、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)、或能够与靶核酸(或与其附接的链接部分)形成共价键的化学试剂。

如本文所用，术语“克隆群体”是指相对于特定核苷酸序列是同源的核酸群体。同源序列通常至少10个核苷酸长，但可甚至更长，包括例如至少50、100、250、500或1000个核苷酸长。克隆群体可源自单个靶核酸或模板核酸。通常，克隆群体中的所有核酸都具有相同的核苷酸序列。将理解，在不脱离克隆性的情况下，在克隆群体中可发生少量突变(例如由于扩增伪像(amplification artifact))。

如本文所用，在组合物、制品、核酸或细胞核的上下文中“提供”意指制得组合物、制品、核酸或细胞核，购买组合物、制品、核酸或细胞核，或以其他方式获得化合物、组合物、制品或细胞核。

术语“和/或”意指所列要素中的一个或全部，或所列要素中的任何两个或更多个的组合。

词语“优选的”和“优选地”是指在某些情况下可提供某些益处的本公开内容的实施方案。然而，在相同或其他情况下，其他实施方案也可为优选的。此外，对一个或更多个优选实施方案的引述并不意味着其他实施方案是不可用的，并且不旨在将其他实施方案排除在本公开内容的范围之外。

术语“包括”及其变体在这些术语出现在说明书和权利要求书中时不具有限制性含义。

应当理解，在本文中用“包括(include)”、“包括(includes)”或“包括(including)”等语言描述实施方案的任何地方，也提供以“由...组成”和/或“基本上由...组成”描述的其他类似实施方案。

除非另有说明，否则“一(a)”、“一个(an)”“该(the)”和“至少一个”可互换使用并且表示一个或多于一个。

同样在本文中，通过端点列举的数值范围包括该范围内包括的所有数字(例如，1至5包括1、1.5、2、2.75、3、3.80、4、5等)。

对于包括离散步骤的本文公开的任何方法，步骤可以任何可行的顺序进行。并且，适当地，两个或更多个步骤的任何组合可同时进行。

贯穿本说明书提及“一个实施方案”、“实施方案”、“某些实施方案”或“一些实施方案”等意指结合该实施方案描述的特定特征、配置、组成或特性包括在本公开内容的至少一个实施方案中。因此，贯穿本说明书在各个地方出现的这些短语不一定是指本公开内容的相同实施方案。此外，特定特征、配置、组成或特性可在一个或更多个实施方案中以任何合适的方式组合。

本文提供的方法可用于产生包括多个单细胞的全基因组的测序文库。在一个实施方案中，方法可用于检测拷贝数变体(CNV，例如细胞基因型中特定序列(诸如基因)的拷贝数)。例如，方法可用于量化来自生物体的体细胞样品中携带CNV的细胞核的频率，或在某些状况诸如癌症的背景下提供关于异质性的信息。

本文提供的方法包括提供来自多个细胞的分离的细胞核(图1，框12；图34框12)。细胞可来自任何一个或更多个生物体，并且来自一个或更多个生物体的任何细胞类型或任何组织。方法可进一步包括解离细胞和/或分离细胞核。用于从细胞分离细胞核的方法是本领域技术人员已知的并且是常规的。细胞核的数量可为至少两个。上限取决于在本文描述的方法的其他步骤中使用的设备(例如，多孔板)的实际限制。例如，在一个实施方案中，细胞核的数量可不大于1,000,000,000、不大于100,000,000、不大于10,000,000、不大于1,000,000、不大于100,000、不大于10,000或不大于1,000。技术人员将认识到每个细胞核中的核酸分子代表生物体的整个遗传套组(complement)(也称为生物体的全基因组)，并且是包括内含子和外显子序列两者以及非编码调节序列，诸如启动子和增强子序列的基因组DNA分子。

分离的细胞核可不含核小体，或者可经受使细胞核耗尽核小体，生成核小体耗尽的细胞核的条件(图1，框13；图34框13)。核小体耗尽的细胞核可用于确定细胞的全基因组的DNA序列的方法。

在一个实施方案中，用于核小体耗尽的条件维持分离的细胞核的完整性。通常，核小体耗尽的方法在单细胞的团块(pellet)或悬浮液中使用，因此在粘连细胞培养物或组织被用作细胞来源的那些实施方案中，来源被处理以得到单细胞的团块或悬浮液。

在一个实施方案中，用于核小体耗尽的条件包括用能够破坏核酸-蛋白相互作用的离液剂进行化学处理。有用的离液剂的实例包括但不限于3，5-二碘水杨酸锂。用于使用3，5-二碘水杨酸锂的条件包括将其加入细胞的团块中并在冰上孵育。

在另一个实施方案中，条件包括用能够破坏核酸-蛋白相互作用的洗涤剂进行化学处理。有用的洗涤剂的实例包括但不限于十二烷基硫酸钠(SDS)。用于使用SDS的条件包括将其加入细胞团块中并在升高的温度诸如42℃孵育，并且然后加入非离子洗涤剂诸如Triton^TMX-100并在升高的温度诸如42℃孵育。

在一些实施方案中，当使用洗涤剂诸如SDS时，在核小体耗尽之前将细胞核暴露于交联剂。在一个实施方案中，细胞核在细胞内部时暴露于交联剂(图34，框11)，并且在另一个实施方案中，分离的细胞核暴露于交联剂。交联剂的有用的实例包括但不限于甲醛(Hoffman等人，2015，J.Biol.Chem.，290：26404-26411)。用甲醛处理细胞可包括将甲醛加入细胞的悬浮液中并在室温孵育。在一个实施方案中，甲醛的浓度可为从0.2％至2％，诸如大于0.2％且不大于1.5％。在甲醛处理之后，细胞核可暴露于甘氨酸和非离子型非变性洗涤剂诸如如果细胞在分离细胞核之前交联，则交联可以并且通常由在55℃至72℃(诸如68℃)孵育30分钟至16小时(诸如1小时)逆转(图34，框19)。逆转通常在将合并的加索引的细胞核的子集分布到第二多个隔室中(图34，框18)之后并且在生成双索引片段之前(图34，框20)发生。本文描述了分布子集和生成双索引片段。

在其中使用交联剂的一些实施方案中，方法还可包括提供关于细胞核内染色体结构的信息的操作，诸如染色质折叠分析和基因组重排(诸如但不限于易位)的检测。这种类型的分析在本领域中称为染色体构象捕获(3C)和相关方法(4C、5C和Hi-C)。操作通常包括消化细胞核内的基因组DNA(图34，框14)，然后连接紧密接近的基因组片段的末端(图34，框15)。这些步骤产生嵌合片段，其中嵌合片段可能在细胞核内物理上接近，该细胞核通常也在序列空间中靠近(Nagano等人，2013，Nature，502：59-64)。通常，在细胞核暴露于交联剂之后并且在使核酸片段化之前，存在于细胞核中的基因组DNA用核酸酶诸如限制性内切核酸酶消化(图34，框14)。可使用任何限制性内切核酸酶，并且在一个实施方案中，限制性内切核酸酶裂解核酸以产生两个突出端，本领域技术人员也称其为粘性末端。在用限制性内切核酸酶消化基因组DNA后，将细胞核暴露于连接酶以联接基因组DNA的片段(图34，框15)。

在使分离的细胞核中的核小体耗尽的过程中(图1，框13；图34，框13)，维持分离的细胞核的完整性。在暴露于用于使核小体耗尽的条件后细胞核是否保持完整可通过常规方法(诸如相差成像)来使细胞核的状态可视化来确定。在一个实施方案中，在核小体耗尽后，至少100,000个细胞核是完整的。

本文提供的方法包括将核小体耗尽的细胞核的子集分布到第一多个隔室中(图1，框14；图34，框16)。子集中以及因此在每个隔室中存在的细胞核的数量可为至少1。在一个实施方案中，子集中存在的细胞核的数量不大于1,000,000、不大于100,000、不大于10,000、不大于4,000、不大于3,000、不大于2,000，或不大于1,000。在一个实施方案中，子集中存在的细胞核的数量可为1至1,000、1,000至10,000、10,000至100,000或100,000至1,000,000。在一个实施方案中，每个子集中存在的细胞核的数量大致相等。用于将细胞核分布到子集中的方法是本领域技术人员已知的并且是常规的。实例包括但不限于荧光激活细胞核分选(FANS)。

每个隔室包括转座体复合物。转座体复合物可在将细胞核的子集加入到隔室之前、之后或同时加入到每个隔室中。转座体复合物，与转座酶识别位点结合的转座酶可在有时称为“加标签(tagmentation)”的过程中将转座酶识别位点插入细胞核内的靶核酸中。在一些这类插入事件中，转座酶识别位点的一条链可转移到靶核酸中。这类链被称为“转移链(transferred strand)”。在一个实施方案中，转座体复合物包含具有两个亚基的二聚体转座酶和两个非连续的转座子序列。在另一个实施方案中，转座酶包括具有两个亚基的二聚体转座酶和连续的转座子序列。

一些实施方案可包括使用高活性Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff，J.Biol.Chem.，273：7367(1998))，或MuA转座酶和包含R1和R2末端序列的Mu转座酶识别位点(Mizuuchi，K.，Cell，35：785，1983；Savilahti，H等人，EMBO J.，14：4893，1995)。Tn5嵌合末端(ME)序列也可由技术人员优化地使用。

可与本文提供的组合物和方法的某些实施方案一起使用的转座系统的更多实例包括金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio 等人，J.Bacteriol.，183：2384-8，2001；Kirby C等人，Mol.Microbiol.，43：173-86，2002)、Ty1(Devine&Boeke，Nucleic Acids Res.，22：3765-72，1994和国际公布WO 95/23875)、转座子Tn7(Craig，N L，Science.271：1512，1996；Craig，N L，Review in：Curr Top Microbiol Immunol.，204：27-48，1996)、Tn/O和IS10(Kleckner N，等人，Curr Top Microbiol Immunol.，204：49-82，1996)、Mariner转座酶(Lampe D J等人，EMBO J.，15：5470-9，1996)、Tc1(Plasterk R H，Curr.Topics Microbiol.Immunol.，204：125-43，1996)、P元件(Gloor，G B，MethodsMol.Biol.，260：97-114，2004)、Tn3(Ichikawa&Ohtsubo，J Biol.Chem.265：18829-32，1990)、细菌插入序列(Ohtsubo&Sekine，Curr.Top.Microbiol.Immunol.204：1-26，1996)、逆转录病毒(Brown等人，Proc Natl Acad Sci USA，86：2525-9，1989)和酵母的逆转录转座子(Boeke&Corces，Annu Rev Microbiol.43：403-34，1989)。更多实例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的工程化版本(Zhang等人，(2009)PLoS Genet.5：e1000689.Epub 2009Oct 16；Wilson C.等人(2007)J.Microbiol.Methods 71：332-5)。

可与本文提供的方法和组合物使用的整合酶的其他实例包括逆转录病毒整合酶和用于这类逆转录病毒整合酶的整合酶识别序列，诸如来自HIV-1、HIV-2、SIV、PFV-1、RSV的整合酶。

可用于本文描述方法和组合物的转座子序列在美国专利申请公布第2012/0208705号、美国专利申请公布第2012/0208724和国际专利申请公布第WO 2012/061832中提供。在一些实施方案中，转座子序列包含第一转座酶识别位点、第二转座酶识别位点和存在于两个转座酶识别位点之间的索引序列。

可用于本文的一些转座体复合物包含具有两个转座子序列的转座酶。在一些这类实施方案中，两个转座子序列彼此不连接，换句话说，转座子序列彼此不连续。这类转座体的实例是本领域已知的(参见例如美国专利申请公布第2010/0120098号)。

在一些实施方案中，转座体复合物包含结合两个转座酶亚基以形成“环状复合物”或“环状转座体”的转座子序列核酸。在一个实例中，转座体包括二聚体转座酶和转座子序列。环状复合物可确保转座子插入靶DNA，同时维持原始靶DNA的有序信息并且不会使靶DNA片段化。如将理解的，环状结构可将所需的核酸序列(诸如索引)插入靶核酸中，同时维持靶核酸的物理连接性。在一些实施方案中，环状转座体复合物的转座子序列可包括片段化位点，使得转座子序列可被片段化以创建包含两个转座子序列的转座体复合物。这类转座体复合物可用于确保转座子插入其中的相邻靶DNA片段接收可在测定的后期被明确组装的编码组合。

转座体复合物还包括至少一个索引序列，也称为转座酶索引。索引序列作为转座子序列的一部分存在。在一个实施方案中，索引序列可存在于转移链(转移到靶核酸中的转座酶识别位点的链)上。索引序列(也称为标签或条形码)可用作其中存在特定靶核酸的隔室的特征的标志物。每个隔室的转座体复合物的索引序列是不同的。因此，在此实施方案中，索引是附接至存在于特定隔室中的每一个靶核酸的核酸序列标签，该核酸序列标签的存在指示或被用于鉴定在此方法的此阶段细胞核群体存在于其中的隔室。

索引序列可高达20个核苷酸长，例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸长。四核苷酸标签给出在同一阵列上进行256个样品的多重化的可能性，并且六碱基标签使得能够在同一阵列上处理4096个样品。

在一个实施方案中，转移链还可包括通用序列。通用序列在本文中描述。因此，在其中转移链被转移至靶核酸的一些实施方案中，靶核酸包括转座酶索引、通用序列或其组合。

方法还包括生成加索引的细胞核(图1，框15；图34，框17)。在一个实施方案中，生成加索引的细胞核包括将存在于核小体耗尽的细胞核的子集中的核酸(例如存在于每个隔室中的核酸)片段化成多个核酸片段。在核酸片段化后，转座酶保持与核酸片段附接，使得源自相同基因组DNA分子的核酸片段保持物理链接(Adey等人，2014，Genome Res.，24：2041-2049)。

在一个实施方案中，使核酸片段化通过使用核酸中存在的片段化位点完成。通常，片段化位点通过使用转座体复合物引入到靶核酸中。例如，环状转座体复合物可包括片段化位点。片段化位点可用于裂解已插入靶核酸的索引序列之间的物理关联，而非信息关联。裂解可通过生物化学、化学或其他手段进行。在一些实施方案中，片段化位点可包括可通过各种手段片段化的核苷酸或核苷酸序列。片段化位点的实例包括但不限于限制性内切核酸酶位点、至少一个用RNA酶可裂解的核糖核苷酸、在某种化学剂存在下可裂解的核苷酸类似物、用高碘酸盐处理可裂解的二醇链接、用化学还原剂可裂解的二硫化物基团、可经受光化学裂解的可裂解部分和被肽酶或其他合适的手段可裂解的肽(参见例如，美国专利申请公布第2012/0208705号、美国专利申请公布第2012/0208724号和WO 2012/061832)。片段化的结果是加索引的细胞核的群体，其中每个细胞核含有加索引的核酸片段。加索引的核酸片段可并且通常确实在至少一个链上包括指示特定隔室的索引序列。加索引的核酸片段的一个实例在图2中示出。加索引的核酸片段20的单链包括源自转座体复合物的转移链的核苷酸21和22，转座体复合物包含可用于扩增和/或测序的转座酶索引和通用序列。加索引的核酸片段还包括源自细胞核23的基因组DNA的核苷酸。

来自多个隔室的加索引的细胞核可被组合(combined)(图1，框16；图34，框18)。例如来自2至96个隔室(当使用96孔板时)的加索引的细胞核或来自2至384个隔室(当使用384孔板时)的加索引的细胞核被组合。然后这些被组合的加索引的细胞核(在本文中称为合并的(pooled)加索引的细胞核)的子集被分布到第二多个隔室中。存在于子集中并且因此存在于每个隔室中的细胞核的数量部分地基于减少索引冲突(indexcollision)的需求，索引冲突是在方法的此步骤中具有相同转座酶索引的两个细胞核最终存在于同一隔室中。存在于此实施方案的子集中的细胞核的数量可从2至30，诸如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30。在一个实施方案中，存在于子集中的细胞核的数量为从20至24，诸如22。在一个实施方案中，存在于每个子集的细胞核的数量大致相等。在一个实施方案中，存在于每个子集的细胞核的数量为存在于核小体耗尽的细胞核的子集的细胞核的数量的至多1/10的细胞核(图1，框14；图34，框16)。在一个实施方案中，存在于每个子集中的细胞核的数量为存在于核小体耗尽的细胞核的子集的细胞核的数量的至多1/100的细胞核(图1，框14；图34，框16)。用于将细胞核分布到子集中的方法是本领域技术人员已知的并且是常规的。实例包括但不限于荧光激活细胞核分选(FANS)。

将细胞核分布到子集中，然后将第二索引序列掺入每个隔室中的加索引的核酸片段以生成双索引片段，其中每个隔室中的第二索引序列不同于其他隔室中的第二索引序列。这引起在固定化和测序之前进一步索引所述加索引的核酸片段(图1，框17；图34，框20)。在其中细胞通过交联剂交联的那些实施方案中，与加索引的核酸片段附接的转座酶与所述加索引的核酸片段解离。在一个实施方案中，在交联被逆转之前解离附接的转座酶(图34，框19)。洗涤剂可用于解离转座酶，并且在一个实施方案中，洗涤剂是十二烷基硫酸钠(SDS)。

在一个实施方案中，掺入通常通过指数式扩增反应诸如PCR进行。存在于加索引的核酸片段的末端的通用序列可用于结合可用作引物并在扩增反应中延伸的通用锚定序列。通常，使用两种不同的通用引物。一个引物与加索引的核酸片段的一条链的3′末端处的通用序列杂交，并且第二引物与加索引的核酸片段的另一条链的3′末端处的通用序列杂交。因此，每种引物的锚定序列可为不同的。合适的引物可各自包括另外的通用序列诸如通用捕获序列，和另一种索引序列。因为每种引物可包括索引，所以此步骤引起添加一个或两个索引序列，例如第二索引和任选的第三索引。具有第二索引和任选第三索引的加索引的核酸片段称为双索引片段。第二索引和第三索引可为彼此的反向互补物，或者第二索引和第三索引可具有不是彼此的反向互补物的序列。此第二索引序列和任选的第三索引对于其中放置分布的加索引的细胞核的每个隔室是唯一的(图1，框16；图34，框18)。

在一个实施方案中，第二索引序列的掺入包括使每个隔室中的加索引的核酸片段与第一通用引物和第二通用引物接触。第一通用引物包括与第一通用序列的一部分相同的序列，并且第二通用引物包括与第一通用序列的一部分互补的序列。每个引物包括索引序列。在一个实施方案中，第一通用引物的索引序列是第二通用引物的索引序列的反向互补物。在另一个实施方案中，第一通用引物的索引序列不同于第二通用引物的索引序列的反向互补物。

在一个实施方案中，第一通用引物还包含第一捕获序列和与双索引片段的3′末端处的通用序列互补的第一锚定序列。在一个实施方案中，第一捕获序列包含P5引物序列。在一个实施方案中，第二通用引物还包含第二捕获序列和与双索引片段的5′末端处的通用序列互补的第二锚定序列。在一个实施方案中，第二捕获序列包含P7引物序列的反向互补物。

在另一个实施方案中，掺入包括使加索引的核酸片段经受引起另外的序列连接到片段两端的条件。在一个实施方案中，可使用平末端连接。在另一个实施方案中，通过例如某些类型的DNA聚合酶诸如Taq聚合酶或Klenow无外切酶活性聚合酶的活性制备具有单个突出核苷酸的片段，所述聚合酶具有将单个脱氧核苷酸例如脱氧腺苷(A)添加到加索引的核酸片段的3′末端的非模板依赖性末端转移酶活性。这类酶可用于将单个核苷酸‘A’添加到片段的每条链的平端3′末端。因此，通过与Taq或Klenow无外切酶活性聚合酶的反应，可将‘A’添加到双链靶片段的每条链的3′末端，而待添加到片段的每个末端的额外序列可包括在待被添加的双链核酸的每个区域的3′末端上存在相容的‘T’突出端。此末端修饰还阻止核酸的自连接，使得存在偏向于形成侧接在此实施方案中加入的序列的加索引的核酸片段。

通过本文描述的方法使核酸分子片段化可产生具有平端和3′-及5′-突出末端的异质混合物的片段。因此，在一些实施方案中，期望使用本领域已知的方法或试剂盒(诸如Lucigen DNA终止子末端修复试剂盒)修复片段末端以生成最适于插入，例如插入到克隆载体的平端位点(blunt site)的末端。在一个具体实施方案中，核酸群体的片段末端是平端的。更具体地，片段末端是平端的并且是磷酸化的。磷酸酯部分可通过酶处理，例如使用多核苷酸激酶引入。

在一个实施方案中，加索引的核酸片段首先通过将相同的通用衔接子(也称为“错配衔接子”，其一般特征描述于Gormley等人，US 7,741,463和Bignell等人，US 8,053,192中)连接到加索引的核酸片段的5′末端和3′末端来处理，以形成双索引片段。在一个实施方案中，通用衔接子包括测序所需的所有序列，包括一个或两个索引序列和用于将双索引片段固定在阵列上的序列。因为待测序的核酸来自单细胞，所以进一步扩增双索引片段有助于实现足够数量的双索引片段用于测序。

在一个实施方案中，第二索引序列的掺入包括将通用衔接子与每个隔室中的加索引的核酸片段连接。通用衔接子包括两条核酸链，其中每条链包含第二索引序列。在一个实施方案中，通用衔接子的一条链的第二索引序列是该通用衔接子的第二条链的第二索引序列的反向互补物。在其他实施方案中，通用衔接子的一条链的第二索引序列不同于该通用衔接子的第二条链的第二索引序列的反向互补物。

在一个实施方案中，通用衔接子还包括第一捕获序列和第一锚定序列。在一个实施方案中，第一捕获序列包含P5引物序列。在一个实施方案中，通用衔接子还包括第二捕获序列和第二锚定序列。在一个实施方案中，第二捕获序列包含P7引物序列的反向互补物。

在另一个实施方案中，当连接到加索引的核酸片段的通用衔接子不包括测序所需的所有序列时，则可使用指数式扩增步骤诸如PCR以在固定和测序之前进一步修饰每个加索引的核酸片段中存在的通用衔接子。例如，初始引物延伸反应使用与加索引的核酸片段中存在的通用序列互补的通用锚定序列进行，其中形成与每个单独的加索引的核酸片段的两条链互补的延伸产物。通常，PCR添加另外的通用序列诸如通用捕获序列，和另一个索引序列。因为每个引物可包括索引，所以此步骤引起添加一个或两个索引序列，例如，第二索引和任选的第三索引，并通过衔接子连接来索引加索引的核酸片段(图1，框17；图34，框20)。

添加通用衔接子后，通过连接包括测序所需的所有序列的通用衔接子的单步方法，或通过连接通用衔接子以及然后指数式扩增以进一步修改通用衔接子的两步法，最终的双索引片段将包括通用捕获序列、第二索引序列和任选的第三索引序列。第二索引和第三索引可为彼此的反向互补物，或者第二索引和第三索引可具有不是彼此的反向互补物的序列。这些第二索引序列和任选的第三索引序列对于在通过加标签添加第一索引之后将分布的加索引的细胞核放置其中的每个隔室是唯一的(图1，框17；图34，框20)。向每端添加通用衔接子的结果是具有与图3中示出的双索引片段30类似或相同的结构的多个双索引片段或双索引片段的文库。双索引片段30的单链分别包括捕获序列31和38，也分别被称为3′流通池衔接子(例如，P5)和5′流通池衔接子(例如，P7′)，以及索引32和37，诸如i5和i7。双索引片段30还包括源自转座体复合物33的转移链的核苷酸，其包括转座酶索引34和可用于扩增和/或测序的通用序列35。双索引片段还包括源自细胞核36的基因组DNA的核苷酸。

所得的双索引片段共同地提供可被固定并且然后被测序的核酸文库。术语文库(在本文中也称为测序文库)是指来自单细胞的在其3′和5′末端含有已知通用序列的核酸片段的集合。文库包括来自一个或更多个分离的细胞核的全基因组核酸。

双索引片段可经受选择预定大小范围诸如从150至400个核苷酸的长度诸如从150至300个核苷酸的条件。将所得的双索引片段合并，并且任选地使其经受净化(clean-up)过程，以通过去除至少一部分未掺入的通用衔接子或引物来增加DNA分子的纯度。可使用任何合适的净化方法，诸如电泳、尺寸排阻色谱等。在一些实施方案中，固相可逆固定化顺磁珠可用于将所需DNA分子与未附接的通用衔接子或引物分开，并基于大小选择核酸。固相可逆固定化顺磁珠粒从Beckman Coulter(Agencourt AMPure XP)、Thermofisher(MagJet)、Omega Biotek(Mag-Bind)、Promega Beads(Promega)和Kapa Biosystems(Kapa PureBeads)可商购获得。

可制备多个双索引片段用于测序。在合并双索引片段后，通常通过固定和/或扩增使它们富集，然后进行测序(图1，框18；图34，框21)。用于将来自一个或更多个来源的双索引片段附接至基材的方法是本领域已知的。在一个实施方案中，使用对双索引片段具有特异性的多个捕获寡核苷酸富集双索引片段，并且捕获寡核苷酸可被固定在固体基材的表面上。例如，捕获寡核苷酸可包括通用结合对的第一成员，并且其中结合对的第二成员固定在固体基材的表面上。同样，用于扩增固定的双索引片段的方法包括但不限于桥式扩增和动力学排除。在测序之前用于固定和扩增的方法在例如Bignell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中描述。

合并的样品可以被固定以准备测序。测序可对单分子的阵列执行，或者所述单分子可在测序之前进行扩增。扩增可使用一种或更多种固定的引物进行。一种或更多种固定的引物可为例如平面上或珠池上的坪(lawn)。珠池可被分离成乳液，在乳液的每个“隔室”中具有单个珠。以每个“隔室”仅一个模板的浓度，每个珠上仅单个模板被扩增。

如本文所用的术语“固相扩增”是指在固体支持物上或与固体支持物结合进行的任何核酸扩增反应，使得全部或部分扩增产物在它们形成时被固定在固体支持物上。特别地，术语涵盖固相聚合酶链式反应(固相PCR)和固相等温扩增，固相等温扩增是类似于标准溶液相扩增的反应，不同之处在于正向扩增引物和反向扩增引物中的一个或两个被固定在固体支持物上。固相PCR涵盖诸如乳液的系统，其中一种引物锚定至珠，且另一种引物在游离溶液中；以及在固相凝胶基质中的集群形成，其中一种引物锚定至表面，且一种引物处于游离溶液中。

在一些实施方案中，固体支持物包含图案化表面。“图案化表面”是指在固体支持物的暴露层内或暴露层上的不同区域的排列。例如，区域中的一个或更多个可为其中存在一种或更多种扩增引物的特征。特征可通过其中不存在扩增引物的间隙区域分开。在一些实施方案中，图案可为呈行和列的x-y格式的特征。在一些实施方案中，图案可为特征和/或间隙区域的重复排列。在一些实施方案中，图案可为特征和/或间隙区域的随机排列。可用于本文阐述的方法和组合物中的示例性图案化表面在美国专利第8,778,848号、第8,778,849号和第9,079,148号以及美国公布第2014/0243224号中描述。

在一些实施方案中，固体支持物包括表面中的孔或凹陷的阵列。这可使用各种技术如本领域众所周知的那样制造，包括但不限于光刻、冲压技术、模制技术和微蚀刻技术。如本领域技术人员将理解的，所使用的技术将取决于阵列基材的组成和形状。

图案化表面中的特征可为在玻璃、硅、塑料或其他合适的固体支持物上的孔阵列(例如微孔或纳米孔)中的孔，所述孔具有图案化的共价连接的凝胶诸如聚(N-(5-叠氮基乙酰氨基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见，例如美国公布第2013/184796号、WO2016/066586和WO 2015/002813)。方法产生用于测序的凝胶垫，所述凝胶垫可在具有大量循环的测序运行中稳定。聚合物与孔的共价连接促进在各种用途期间在结构化基材的整个寿命期间将凝胶维持在结构化特征中。然而，在许多实施方案中，凝胶不需要与孔共价连接。例如，在某些条件下，可使用不与结构化基材的任何部分共价附接的不含硅烷的丙烯酰胺(SFA，参见例如美国专利第8,563,477号)作为凝胶材料。

在特定实施方案中，结构化基材可通过以下制成：用孔(例如微孔或纳米孔)来使固体支持物材料图案化，用凝胶材料(例如PAZAM、SFA或其化学修饰变体，诸如SFA的叠氮化物形式(叠氮基-SFA))涂覆图案化支持物以及例如经由化学或机械抛光来抛光凝胶涂覆的支持物，从而在孔中保留凝胶，但是从孔之间的结构化基材的表面上的间隙区域去除或失活基本上所有的凝胶。引物核酸可附接至凝胶材料。然后可使双索引片段的溶液与抛光的基材接触，使得单个双索引片段将经由与附接至凝胶材料的引物的相互作用接种(seed)单个孔；然而，由于不存在凝胶材料或凝胶材料无活性，靶核酸不会占据间隙区域。双索引片段的扩增将限于孔中，因为间隙区域中凝胶的不存在或无活性阻止生长的核酸集群的向外迁移。该方法可方便地被制造、可扩大规模并利用常规微米或纳米制造方法。

尽管本公开内容涵盖其中仅固定一种扩增引物(另一种引物通常存在于游离溶液中)的“固相”扩增方法，但在一个实施方案中，优选固体支持物具有被固定的正向引物和反向引物两者。在实践中，由于扩增过程需要过量的引物来维持扩增，所以将存在固定在固体支持物上的“多个”相同正向引物和/或“多个”相同反向引物。除非上下文另外指明，否则本文中提及正向引物和反向引物应相应地解释为涵盖“多个”这类引物。

如技术读者将理解的，任何给定的扩增反应需要针对待扩增的模板的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可包括相同序列的模板特异性部分，并且可具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话说，可仅使用一种类型的引物进行固相扩增，并且这类单引物方法涵盖在本公开内容的范围内。其他实施方案可使用含有相同的模板特异性序列但在一些其他结构特征上不同的正向引物和反向引物。例如，一种类型的引物可含有非核苷酸修饰，这种核苷酸修饰不存在于另一种类型的引物中。

在本公开内容的所有实施方案中，用于固相扩增的引物优选通过单点共价附接而固定至引物的5′末端处或附近的固体支持物上，使引物的模板特异性部分自由地与其同源模板退火并且使3′羟基可用于引物延伸。本领域已知的任何合适的共价附接手段可用于此目的。所选择的附接化学方式将取决于固体支持物的性质，以及应用于固体支持物的任何衍生化或官能化。引物本身可包括可以是非核苷酸化学修饰的部分，以促进附接。在具体实施方案中，引物可包含在5′末端处的含硫亲核物质，诸如硫代磷酸酯或硫代磷酸盐。在固体支持的聚丙烯酰胺水凝胶的情况中，这种亲核物质将结合存在于水凝胶中的溴乙酰胺基团。将引物和模板附接到固体支持物上的更具体的手段是经由5′硫代磷酸酯附接到由聚合的丙烯酰胺和N-(5-溴乙酰氨基戊基)丙烯酰胺(BRAPA)组成的水凝胶，如WO05/065814中所述。

本公开内容的某些实施方案可利用包括已经例如通过施加中间材料(包括允许共价附接至生物分子诸如多核苷酸的反应基团)的层或涂层来“官能化”的惰性基材或基质的固体支持物(例如载玻片、聚合物珠等)。这样的支持物的实例包括但不限于惰性基材如玻璃上支持的聚丙烯酰胺水凝胶。在这样的实施方案中，生物分子(例如多核苷酸)可直接共价附接至中间材料(例如水凝胶)，但是中间材料本身可非共价附接至基材或基质(例如玻璃基材)。术语“与固体支持物共价附接”应相应地解释为涵盖此种类型的排列。

合并的样品可在珠上扩增，其中每个珠含有正向扩增引物和反向扩增引物。在具体的实施方案中，双索引片段文库用于通过固相扩增以及更具体地固相等温扩增来制备核酸集群的成簇阵列，与美国公开第2005/0100900号、美国专利第7,115,400号、WO 00/18957和WO 98/44151中描述的那些类似。术语“簇”和“集群”在本文中可互换使用，以指固体支持物上的离散位点，所述离散位点包括多个相同的固定化核酸链和多个相同的固定化互补核酸链。术语“成簇阵列”是指由这样的簇或集群形成的阵列。在此上下文中，术语“阵列”不被理解为需要有序排列的簇。

术语“固相”或“表面”用于意指平面阵列，其中引物附接至平坦表面，例如玻璃、二氧化硅或塑料显微镜载玻片或类似的流通池装置；珠，其中一个或两个引物附接至珠并且珠被扩增；或者在珠被扩增后在表面上的珠阵列。

成簇阵列可使用热循环方法(如WO 98/44151中所述)或将温度维持为常数的方法制备，并且延伸和变性的循环使用试剂的变化执行。这样的等温扩增方法在专利申请第WO02/46456号和美国公布第2008/0009420号中描述。由于在等温过程中可用的较低温度，在一些实施方案中这是特别优选的。

应当理解，本文描述的或本领域通常已知的任何扩增方法可与通用或靶特异性引物一起使用以扩增固定的DNA片段。合适的扩增方法包括但不限于聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中描述的。以上扩增方法可用于扩增一种或更多种感兴趣的核酸。例如，PCR(包括多重PCR)、SDA、TMA、NASBA等可用于扩增固定的DNA片段。在一些实施方案中，将具体针对感兴趣的多核苷酸的引物包括在扩增反应中。

用于扩增多核苷酸的其他合适方法可包括寡核苷酸延伸和连接，滚环扩增(RCA)(Lizardi等人，Nat.Genet.19：225-232(1998))和寡核苷酸连接测定(OLA)(一般参见美国专利第7,582,420号、第5,185,243号、第5,679,524号和第5,573,907号；EP 0 320 308 B1；EP 0 336 731 B1；EP 0 439 182 B1；WO 90/01069；WO 89/12696；和WO 89/09835)技术。将理解，这些扩增方法可被设计为扩增固定的DNA片段。例如，在一些实施方案中，扩增方法可包括含有具体针对感兴趣的核酸的引物的连接探针扩增或寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括含有具体针对感兴趣的核酸的引物的引物延伸-连接反应。作为可具体设计来扩增感兴趣的核酸的引物延伸和连接引物的非限制性实例，扩增可包括用于GoldenGate测定的引物(Illumina，Inc.，San Diego，CA)，如美国专利第7,582,420号和第7,611,869号所示例的。

可在本公开内容的方法中使用的示例性等温扩增方法包括但不限于如例如由Dean等人，Proc.Natl.Acad.Sci.USA 99：5261-66(2002)示例的多重置换扩增(MDA)，或由例如美国专利第6,214,587号所示例的等温链置换核酸扩增。可在本公开内容中使用的其他基于非PCR的方法包括例如在例如Walker等，Molecular Methods for VirusDetection，Academic Press，Inc.，1995；美国专利第5,455,166号和第5,130,238号，以及Walker等人，Nucl.Acids Res.20：1691-96(1992)中描述的链置换扩增(SDA)，或在例如Lage等人，Genome Res.13：294-307(2003)中描述的超支化链置换扩增。等温扩增方法可与例如链置换Phi 29聚合酶或Bst DNA聚合酶大片段5′-＞3′exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10-20kb的片段。如上所述，较小的片段可在等温条件下使用具有低持续合成能力和链置换活性的聚合酶诸如Klenow聚合酶产生。扩增反应、条件和组分的另外的描述在美国专利第7,670,810号的公开内容中详细阐述。

可用于本公开内容的另一种多核苷酸扩增方法是加标签的PCR(Tagged PCR)，加标签的PCR使用具有恒定5′区域，随后是随机3′区域的双结构域引物群体，如例如在Grothues等人，Nucleic Acids Res.21(5)：1321-2(1993)中描述的。进行第一轮扩增以允许基于来自随机合成的3′区域的个体杂交而在热变性DNA上的多次启动。由于3′区域的性质，预期起始位点在整个基因组中是随机的。此后，可去除未结合的引物，并且可使用与恒定5′区域互补的引物进一步复制。

在一些实施方案中，等温扩增可使用动力学排除扩增(KEA)(也称为排除扩增(ExAmp))进行。本公开内容的核酸文库可使用包括以下步骤的方法来制备：使扩增试剂反应以产生多个扩增位点，每个扩增位点包括来自已经接种该位点的个体靶核酸的扩增子的大量克隆群体。在一些实施方案中，扩增反应进行直至生成足够数量的扩增子以填充相应扩增位点的容量。以这种方式将已接种的位点填充至容量抑制靶核酸在该位点着陆和扩增，从而在该位点产生扩增子的克隆群。在一些实施方案中，即使在第二靶核酸到达该位点之前扩增位点未被填充至容量，也可实现表观克隆性(apparent clonality)。在一些条件下，第一靶核酸的扩增可进行到产生足够数量的拷贝来有效地超过或压倒来自转运至该位点的第二靶核酸产生拷贝的程度。例如，在对直径小于500nm的圆形特征使用桥式扩增过程的实施方案中，已经确定在第一靶核酸的14个指数式扩增循环后，在同一位点处来自第二靶核酸的污染将产生不足数量的不利地影响Illumina测序平台上的合成测序分析的污染扩增子。

在一些实施方案中，阵列中的扩增位点可以但不必是完全克隆的。相反，对于一些应用，单个扩增位点可主要由来自第一双索引片段的扩增子填充，并且还可具有来自第二靶核酸的低水平的污染扩增子。阵列可具有一个或更多个具有低水平的污染扩增子的扩增位点，只要污染水平对阵列的随后使用不具有不可接受的影响。例如，当阵列待用于检测应用时，可接受的污染水平将是不会以不可接受的方式影响信噪比或检测技术的分辨率的水平。因此，表观克隆性通常与通过本文阐述方法制得的阵列的特定用途或应用相关。对于特定应用，在单个扩增位点可接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可包括具有这些示例性水平的污染扩增子的一个或更多个扩增位点。例如，阵列中高达5％、10％、25％、50％、75％或甚至100％的扩增位点可具有一些污染扩增子。将理解，在位点的阵列或其他集合中，至少50％、75％、80％、85％、90％、95％或99％或更多的位点可以是克隆的或表观地克隆的。

在一些实施方案中，当过程以足够快的速率发生以有效地排除另一事件或过程发生时，可发生动力学排除。例如，制得核酸阵列，其中阵列的位点用来自溶液的双索引片段随机接种，并且在扩增过程中生成双索引片段的拷贝以将每个接种位点填充至容量。根据本公开内容的动力学排除方法，接种和扩增过程可以在扩增速率超过接种速率的条件下同时进行。这样，在已被第一靶核酸接种的位点处进行拷贝的相对快的速率将有效地排除第二核酸接种位点用于扩增。动力学排除扩增方法可如美国申请公布第2013/0338042号的公开内容中详细描述的那样执行。

动力学排除可利用与用于制得双索引片段(或双索引片段的第一拷贝的)后续拷贝的相对快速的速率相比的相对慢的起始扩增速率(例如，制得双索引片段的第一拷贝的慢速率)。在前一段的实例中，由于与发生扩增以用双索引片段种子的拷贝填充位点的相对快速的速率相比的双索引片段接种的相对慢速率(例如相对慢的扩散或转运)，发生动力学排除。在另一个示例性实施方案中，由于与制得后续拷贝以填充位点的相对快速的速率相比的已经接种位点的双索引片段的第一拷贝的形成延迟(例如延迟或慢活化)，可以发生动力学排除。在此实例中，可用几种不同的双索引片段接种单个位点(例如，在扩增之前，几种双索引片段可存在于每个位点处)。然而，用于任何给定的双索引片段的第一拷贝形成可以被随机活化，使得第一拷贝形成的平均速率与生成后续拷贝的速率相比是相对慢的。在这种情况中，尽管单个位点可已经接种了几种不同的双索引片段，但动力学排除将仅允许那些双索引片段中的一个扩增。更具体地，一旦第一双索引片段被活化用于扩增，该位点将迅速由它的拷贝填充至容量，从而防止在该位点制得第二个双索引片段的拷贝。

在一个实施方案中，进行该方法以同时地(i)以平均转运速率将双索引片段转运至扩增位点，和(ii)以平均扩增速率扩增扩增位点处的双索引片段，其中平均扩增速率超过平均转运速率(美国专利第9,169,513号)。因此，在这样的实施方案中，动力学排除可以通过使用相对慢的转运速率实现。例如，可选择足够低浓度的双索引片段以实现所需的平均转运速率，较低的浓度产生较慢的平均转运速率。可选择地或另外地，高粘度溶液和/或溶液中的分子拥挤试剂(crowding reagent)的存在可用于降低转运速率。有用的分子拥挤试剂的实例包括但不限于聚乙二醇(PEG)、水溶性聚蔗糖、葡聚糖或聚乙烯醇。示例性的分子拥挤试剂和制剂在美国专利第7,399,590号中阐述，所述美国专利通过引用并入本文。可被调节以实现期望的转运速率的另一个因素是靶核酸的平均大小。

扩增试剂可以包括促进扩增子形成并且在一些情况中可以增加扩增子形成的速率的另外的组分。实例是重组酶。重组酶可通过允许重复侵占(invasion)/延伸来促进扩增子形成。更具体地，重组酶可促进聚合酶侵占双索引片段和使用双索引片段作为扩增子形成的模板通过聚合酶延伸引物。此过程可作为链式反应重复进行，其中每轮侵占/延伸产生的扩增子在随后的轮次中充当模板。该过程可比标准PCR更快地发生，因为不需要变性循环(例如经由加热或化学变性)。这样，重组酶促进的扩增可等温地进行。通常希望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在某些情况中，其不可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用，因为SSB可进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge，UK)作为TwistAmp试剂盒商业销售的那些。重组酶促进的扩增试剂的有用组分和反应条件在US 5,223,414和US 7,399,590中阐述。

可包含在扩增试剂中以促进扩增子形成并且在一些情况中增加扩增子形成速率的组分的另一个实例是解旋酶。通过允许扩增子形成的链式反应，解旋酶可促进扩增子形成。该过程可比标准PCR更快地发生，因为不需要变性循环(例如经由加热或化学变性)。这样，解旋酶促进的扩增可以等温地进行。解旋酶和单链结合(SSB)蛋白的混合物特别有用，因为SSB可进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelix(Beverly，MA)作为IsoAmp试剂盒商业销售的那些。另外，包含解旋酶蛋白的有用制剂的实例在US 7,399,590和US 7,829,284中描述。

可包含在扩增试剂中以促进扩增子形成并且在一些情况中增加扩增子形成速率的组分的另一个实例是起点结合蛋白。

在将双索引片段附接至表面后，测定固定的和扩增的双索引片段的序列。测序可使用任何合适的测序技术进行，并且用于确定固定的和扩增的双索引片段的序列的方法(包括链重新合成)是本领域已知的，并且在例如Bignell等人(US 8,053，192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中描述。

本文描述的方法可与各种核酸测序技术一起使用。特别适用的技术是其中核酸附接至阵列中的固定位置使得核酸的相对位置不改变并且其中阵列被重复成像的那些技术。其中在不同颜色通道中获得图像(例如，与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分的不同标记物一致)的实施方案尤其适用。在一些实施方案中，确定双索引片段的核苷酸序列的过程可为自动化过程。优选的实施方案包括合成测序(“SBS”)技术。

SBS技术通常涉及通过相对于模板链反复添加核苷酸的新生核酸链的酶促延伸。在传统SBS方法中，可在聚合酶存在下在每次递送中将单个核苷酸单体提供至靶核苷酸。然而，在本文描述的方法中，可在聚合酶存在下在递送中将一种以上类型的核苷酸单体提供至靶核酸。

在一个实施方案中，核苷酸单体包括锁核酸(LNA)或桥接核酸(BNA)。在核苷酸单体中使用LNA或BNA增加核苷酸单体和在固定的双索引片段上存在的测序引物序列之间的杂交强度。

SBS可使用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序，如本文进一步详细阐述的。在使用缺少终止子的核苷酸单体的方法中，每个循环中添加的核苷酸的数量通常是可变的并且取决于模板序列和核苷酸递送的模式。对于利用具有终止子部分的核苷酸单体的SBS技术，终止子可在使用的测序条件下有效地不可逆，如利用双脱氧核苷酸的传统Sanger测序的情况那样，或终止子可以是可逆的，如由Solexa(现为Illumina，Inc.)开发的测序方法的情况那样。

SBS技术可使用具有标记物部分的核苷酸单体或缺少标记物部分的核苷酸单体。因此，掺入事件可基于以下来检测：标记物的特征，诸如标记物的荧光；核苷酸单体的特征，诸如分子量或电荷；核苷酸掺入的副产物，诸如焦磷酸的释放；等等。在其中测序试剂中存在两种或更多种不同核苷酸的实施方案中，不同的核苷酸可彼此区分，或者可选择地两种或更多种不同的标记物可在所使用的检测技术下不可区分。例如，存在于测序试剂中的不同核苷酸可具有不同的标记物，并且它们可使用合适的光学器件来区分，如由Solexa(现为Illumina Inc.)开发的测序方法所示例的。

优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测到特定的核苷酸被掺入到新生链中时无机焦磷酸(PPi)的释放(Ronaghi，M.，Karamohamed，S.，Pettersson，B.，Uhlen，M.和Nyren，P.(1996)“Real-time DNA sequencing using detection ofpyrophosphate release”.Analytical Biochemistry 242(1)，84-9；Ronaghi，M.(2001)“Pyrosequencing sheds light on DNA sequencing.”Genome Res.11(1)，3-11；Ronaghi，M.，Uhlen，M.和Nyren，P.(1998)“A sequencing method based on real-timepyrophosphate.”Science 281(5375)，363；美国专利第6,210,891号；第6,258,568号和第6,274,320号)。在焦磷酸测序中，释放的PPi可通过ATP硫酸化酶立即转化为三磷酸腺苷(ATP)来检测，并且生成的ATP水平经由荧光素酶产生的光子检测。待测序的核酸可附接至阵列中的特征，并且阵列可以被成像以捕获由于在阵列的特征处掺入核苷酸而产生的化学发光信号。在用特定核苷酸类型(例如A、T、C或G)处理阵列后，可获得图像。添加每种核苷酸类型后获得的图像将相对于检测的阵列中的所述特征不同。图像中的这些差异反映阵列上的特征的不同序列内容。但是，每个特征的相对位置在图像中将保持不变。可使用本文阐述的方法存储、处理和分析图像。例如，在用每种不同核苷酸类型处理阵列后获得的图像可以与本文示例的针对基于可逆终止子的测序方法由不同检测通道获得的图像的相同方式处理。

在另一种示例性SBS类型中，通过逐步添加可逆终止子核苷酸来完成循环测序，所述可逆终止子核苷酸含有例如可裂解或可光漂白的染料标记物，如例如在WO 04/018497和美国专利第7,057,026号中描述的。此方法由Solexa(现为Illumina，Inc.)商业化，并且也在WO 91/06678和WO 07/123,744中描述。其中终止可被逆转并且荧光标记物可被裂解的荧光标记的终止子的可得性促进有效的循环可逆终止(CRT)测序。聚合酶还可共同工程化以有效地掺入这些修饰的核苷酸和从这些修饰的核苷酸延伸。

在一些基于可逆终止子的测序实施方案中，标记物基本上不抑制在SBS反应条件下的延伸。然而，检测标记物可以是例如通过裂解或降解可去除的。图像可以在将标记物掺入阵列化核酸特征后捕获。在特定实施方案中，每个循环涉及将四种不同核苷酸类型同时递送至阵列，并且每种核苷酸类型具有光谱上不同的标记物。然后可获得四个图像，每个图像使用对四种不同标记物中的一种具有选择性的检测通道。可选择地，不同的核苷酸类型可以被依序添加，并且阵列的图像可以在每个添加步骤之间获得。在这样的实施方案中，每个图像将示出已经掺入特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容，在不同图像中将存在或不存在不同的特征。然而，特征的相对位置将在图像中保持不变。从这样的可逆终止子-SBS方法获得的图像可如本文所阐述地储存、处理和分析。在图像捕获步骤之后，标记物可以被去除并且可逆终止子部分可以被去除用于随后的核苷酸添加和检测循环。在标记物已经在特定循环中被检测之后且在后续循环之前去除标记物可提供减少背景信号和循环之间串扰的优点。有用的标记物和去除方法的实例在本文中阐述。

在特定实施方案中，核苷酸单体中的一些或所有可包括可逆终止子。在这样的实施方案中，可逆终止子/可裂解的荧光团可包括经由3′酯键与核糖部分连接的荧光团(Metzker，Genome Res.15：1767-1776(2005))。其他方法已将终止子化学方法与荧光标记物的裂解分开(Ruparel等人，Proc Natl Acad Sci USA 102：5932-7(2005))。Ruparel等人描述了可逆终止子的开发，该可逆终止子使用小的3′烯丙基基团阻断延伸，但是可通过用钯催化剂短暂处理而容易地去阻断。荧光团经由光可裂解的接头附接至碱基，该接头可通过暴露于长波长UV光30秒而容易地被裂解。因此，二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用在dNTP上放置大体积染料后的自然终止。在dNTP上存在带电的大体积染料可通过空间和/或静电阻碍充当有效的终止子。除非染料被去除，否则一个掺入事件的存在阻止另外的掺入。染料的裂解去除荧光团并有效地逆转终止。修饰的核苷酸的实例也在美国专利第7,427,673号和第7,057,026号中描述。

可与本文描述的方法和系统一起使用的另外的示例性SBS系统和方法在美国公布第2007/0166705号、第2006/0188901号、第2006/0240439号、第2006/0281109号、第2012/0270305号和第2013/0260372号、美国专利第7,057,026号、PCT公布第WO 05/065814号、美国专利申请公布第2005/0100900号和PCT公布第WO 06/064199号和第WO 07/010,251号。

一些实施方案可使用采用少于四种不同标记物的四种不同的核苷酸的检测。例如，SBS可使用美国公布第2013/0079232号的并入材料中描述的方法和系统来执行。作为第一个实例，一对核苷酸类型可在相同波长处检测，但是基于该对的一个成员与另一个成员相比的强度差异，或者基于该对的一个成员的变化(例如经由化学修饰、光化学修饰或物理修饰)来区分，所述变化引起与对该对的另一成员检测到的信号相比的明显的信号出现或消失。作为第二个实例，四种不同核苷酸类型中的三种可在特定条件下检测，而第四种核苷酸类型缺少在这些条件下是可检测的标记物，或者在这些条件下被最低程度地检测(例如，由于背景荧光等的最低程度检测等)的标记物。前三种核苷酸类型在核酸中的掺入可基于它们各自的信号的存在来确定，并且第四种核苷酸类型在核酸中的掺入可基于任何信号的不存在或最低程度检测来确定。作为第三个实例，一种核苷酸类型可包括在两个不同通道中被检测的一个或更多个标记物，而其他核苷酸类型在所述通道的不多于一个通道中被检测。上述三个示例性配置不被认为是相互排斥的，并且可以各种组合使用。组合所有三个实例的示例性实施方案是基于荧光的SBS方法，所述方法使用在第一通道中被检测的第一核苷酸类型(例如具有在被第一激发波长激发时在第一通道中被检测的标记的dATP)、在第二通道中被检测的第二核苷酸类型(例如具有在被第二激发波长激发时在第二通道中被检测的标记的dCTP)、在第一和第二通道二者中被检测的第三核苷酸类型(例如具有在被第一激发波长和/或第二激发波长激发时在两个通道中被检测的至少一个标记的dTTP)和缺少在任一通道中未被检测或被最低限度检测的标记的第四核苷酸类型(例如，不具有标记的dGTP)。

此外，如美国公布第2013/0079232号的并入材料中描述的，测序数据可使用单通道获得。在这类被称为的单染料测序方法中，第一核苷酸类型被标记，但标记物在生成第一图像后被去除，并且仅在生成第一图像后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记物，并且第四核苷酸类型在两个图像中都保持未标记。

一些实施方案可使用通过连接测序技术。这样的技术使用DNA连接酶来掺入寡核苷酸并鉴定这类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中特定核苷酸的身份相关的不同标记物。与其他SBS方法一样，图像可在用标记的测序试剂处理核酸特征的阵列后获得。每个图像将示出已经掺入特定类型标记物的核酸特征。由于每个特征的不同序列内容，不同的特征将存在或不存在于不同图像中，但是特征的相对位置将在图像中保持不变。从基于连接的测序方法获得的图像可如本文所阐述的那样存储、处理和分析。可与本文描述的方法和系统一起使用的示例性SBS系统和方法在美国专利第6,969,488号、第6,172,218号和第6,306,597号中描述。

一些实施方案可使用纳米孔测序(Deamer，D.W.&Akeson，M.“Nanopores andnucleic acids：prospects for ultrarapid sequencing.”Trends Biotechnol.18，147-151(2000)；Deamer，D.和D.Branton，“Characterization of nucleic acids by nanoporeanalysis”，Acc.Chem.Res.35：817-825(2002)；Li，J.，M.Gershow，D.Stein，E.Brandin和J.A.Golovchenko，“DNA molecules and configurations in a solid-state nanoporemicroscope”Nat.Mater.2：611-615(2003))。在这样的实施方案中，双索引片段通过纳米孔。纳米孔可为合成的孔或生物膜蛋白，诸如α-溶血素。当双索引片段通过纳米孔时，每个碱基对可通过测量孔的电导率的波动来识别。(美国专利第7,001,792号；Soni，G.V.&Meller，“A.Progress toward ultrafast DNA sequencing using solid-statenanopores.”Clin.Chem.53，1996-2001(2007)；Healy，K.“Nanopore-based single-molecule DNA analysis.”Nanomed.2，459-481(2007)；Cockroft，S.L.，Chu，J.，Amorin，M.&Ghadiri，M.R.“A single-molecule nanopore device detects DNA polymeraseactivity with single-hueleotide resolution.”J.Am.Chem.Soc.130，818-820(2008))。通过纳米孔测序获得的数据可如本文阐述的那样存储、处理和分析。特别地，数据可以根据本文阐述的光学图像和其他图像的示例性处理被处理为图像。

一些实施方案可使用涉及DNA聚合酶活性的实时监测的方法。核苷酸掺入可通过在携带荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测(如例如美国专利第7,329,492号和第7,211,414号中描述的)，或者核苷酸掺入可用零模式波导(如例如美国专利第7,315,019号中描述的)并且使用荧光核苷酸类似物和工程化聚合酶(如美国专利第7,405,281号和美国公布第2008/0108082号中描述的)来检测。照射可以限制在表面束缚的聚合酶周围的仄升级(zeptoliter-scale)体积，使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene，M.J.等人.“Zero-mode waveguides forsingle-molecule analysis at high concentrations.”Science 299，682-686(2003)；Lundquist，P.M.等人，“Parallel confocal detection of single molecules in realtime.”Opt.Lett.33，1026-1028(2008)；Korlach，J.等人，Selective aluminumpassivation for targeted immobilization of single DNA polymerase molecules inzero-mode waveguide nano structures.”Proc.Natl.Acad.Sci.USA 105，1176-1181(2008))。从这样的方法获得的图像可如本文所阐述的那样存储、处理和分析。

一些SBS实施方案包括检测在将核苷酸掺入延伸产物后释放的质子。例如，基于检测释放的质子的测序可使用从Ion Torrent(Guilford，CT，Life Technologies子公司)商购可得的电子检测器和相关技术，或美国公布第2009/0026082号；第2009/0127589号；第2010/0137143号；和第2010/0282617号中描述的测序方法和系统。本文阐述的用于使用动力学排除来扩增靶核酸的方法可容易地应用于用于检测质子的底物。更具体地，本文所阐述的方法可用于产生用于检测质子的扩增子的克隆群体。

以上SBS方法可有利地以多重格式进行，使得同时操作多个不同的双索引片段。在特定的实施方案中，不同的双索引片段可在共同的反应容器中或在特定基材的表面上处理。这允许方便地递送测序试剂、去除未反应的试剂和以多重方式检测掺入事件。在使用表面结合的靶核酸的实施方案中，双索引片段可处于阵列格式。在阵列格式中，双索引片段可通常以空间上可区分的方式结合至表面。双索引片段可通过直接共价附接、与珠或其他颗粒附接、或与附接于表面的聚合酶或其他分子结合而结合。阵列可包括在每个位点(也称为特征)处的双索引片段的单个拷贝，或者可存在于每个位点或特征处的具有相同序列的多个拷贝。多个拷贝可通过扩增方法(诸如本文进一步详细描述的桥式扩增或乳液PCR)产生。

本文阐述的方法可使用具有处于各种密度中任一种的特征的阵列，该密度包括例如至少约10个特征/cm²、100个特征/cm²、500个特征/cm²、1,000个特征/cm²、5,000个特征/cm²、10,000个特征/cm²、50,000个特征/cm²、100,000个特征/cm²、1,000,000个特征/cm²、5,000,000个特征/cm²或更高。

本文阐述的方法的一个优点是它们提供并行地快速且有效地检测多个cm²。因此，本公开内容提供能够使用本领域已知的技术(诸如本文示例的那些)制备和检测核酸的集成系统。因此，本公开内容的集成系统可包括能够将扩增试剂和/或测序试剂递送至一个或更多个固定的双索引片段的流体组件，该系统包括诸如泵、阀、储液器(reservoir)、流体管线等的组件。可在集成系统中配置和/或使用流通池以检测靶核酸。示例性的流通池在例如美国公布第2010/0111768号和美国序列第13/273,666号中描述。如针对流通池所示例的，集成系统的流体组件中的一个或更多个可用于扩增方法和用于检测方法。以核酸测序实施方案为例，集成系统的流体组件中的一个或更多个可用于本文阐述的扩增方法和用于在诸如上文示例的那些测序方法中递送测序试剂。可选择地，集成系统可包括单独的流体系统以进行扩增方法和进行检测方法。能够创建扩增的核酸并且还确定核酸序列的集成测序系统的实例包括但不限于MiSeqTM平台(Illumina，Inc.，San Diego，CA))和在美国序列第13/273,666号中描述的装置。

本文还提供了组合物。在实践本文描述的方法的期间，可得到各种组合物。例如，可得到包含经化学处理的核小体耗尽的分离的细胞核的组合物，其中分离的细胞核包含加索引的核酸片段。还提供多孔板，其中多孔板的孔包括具有加索引的核酸片段的分离的细胞核。在一个实施方案中，分离的细胞核可包括非天然交联，诸如由交联剂例如甲醛形成的交联类型。在一个实施方案中，加索引的核酸片段在具有突出端的裂解的限制性位点终止。在一个实施方案中，分离的细胞核包含重排的基因组DNA。

实施方案

实施方案1.一种制备包含来自多个单细胞的核酸的测序文库的方法，所述方法包括：

(a)提供来自多个细胞的分离的细胞核；

(b)使所述分离的细胞核经受化学处理以生成核小体耗尽的细胞核，同时维持所述分离的细胞核的完整性；

(c)将所述核小体耗尽的细胞核的子集分布到第一多个隔室中并使每个子集与转座体复合物接触，其中每个隔室中的所述转座体复合物包含转座酶和与在其他隔室中的第一索引序列不同的第一索引序列；

(d)将核小体耗尽的细胞核的所述子集中的核酸片段化成多个核酸片段，并将所述第一索引序列掺入所述核酸片段的至少一条链中以生成包含加索引的核酸片段的加索引的细胞核，其中所述加索引的核酸片段保持附接于所述转座酶；

(e)将所述加索引的细胞核组合以生成合并的加索引的细胞核；

(f)将所述合并的加索引的细胞核的子集分布到第二多个隔室中；

(g)将第二索引序列掺入每个隔室中的所述加索引的核酸片段中以生成双索引片段，其中每个隔室中的所述第二索引序列与其他隔室中的第二索引序列不同；

(h)组合所述双索引片段，从而产生包含来自所述多个单细胞的全基因组核酸的测序文库。

实施方案2.如实施方案1所述的方法，其中所述化学处理包括用能够破坏核酸-蛋白相互作用的离液剂处理。

实施方案3.如实施方案2或3所述的方法，其中所述离液剂包括3，5-二碘水杨酸锂。

实施方案4.如实施方案1至3中任一项所述的方法，其中所述化学处理包括用能够破坏核酸-蛋白相互作用的洗涤剂处理。

实施方案5.如实施方案1至4中任一项所述的方法，其中所述洗涤剂包括十二烷基硫酸钠(SDS)。

实施方案6.如实施方案1至5中任一项所述的方法，其中所述细胞核在步骤(b)之前用交联剂处理。

实施方案7.如实施方案1至6中任一项所述的方法，其中所述交联剂是甲醛。

实施方案8.如实施方案1至7中任一项所述的方法，其中甲醛的浓度的范围为从约0.2％至约2％。

实施方案9.如实施方案1至8中任一项所述的方法，其中甲醛的浓度不大于约1.5％。

实施方案10.如实施方案1至9中任一项所述的方法，其中通过甲醛的交联在步骤(f)之后且在步骤(g)之前被逆转。

实施方案11.如实施方案1至10中任一项所述的方法，其中所述交联的逆转包括在约55℃至约72℃孵育。

实施方案12.如实施方案1至11中任一项所述的方法，其中在所述交联的逆转之前，将所述转座酶与所述加索引的核酸片段解离。

实施方案13.如实施方案1至12中任一项所述的方法，其中使用十二烷基硫酸钠(SDS)使所述转座酶与所述加索引的核酸片段解离。

实施方案14.如实施方案1至13中任一项所述的方法，其中所述细胞核在步骤(d)之前用限制酶处理。

实施方案15.如实施方案1至14中任一项所述的方法，其中所述细胞核在用所述限制酶处理后用连接酶处理。

实施方案16.如实施方案1至15中任一项所述的方法，其中步骤(c)和步骤(f)中的所述分布通过荧光激活细胞核分选来执行。

实施方案17.如实施方案1至16中任一项所述的方法，其中所述核小体耗尽的细胞核的所述子集包含大致相等数量的细胞核。

实施方案18.如实施方案1至17中任一项所述的方法，其中所述核小体耗尽的细胞核的所述子集包含从1至约2000个细胞核。

实施方案19.如实施方案1至18中任一项所述的方法，其中所述第一多个隔室是多孔板。

实施方案20.如实施方案1至19中任一项所述的方法，其中所述多孔板是96孔板或384孔板。

实施方案21.如实施方案1至20中任一项所述的方法，其中所述合并的加索引的细胞核的所述子集包含大致相等数量的细胞核。

实施方案22.如实施方案1至21中任一项所述的方法，其中所述合并的加索引的细胞核的所述子集包含从1至约25个细胞核。

实施方案23.如实施方案1至22中任一项所述的方法，其中所述合并的加索引的细胞核的所述子集包含为所述核小体耗尽的细胞核的所述子集的至多1/10的细胞核。

实施方案24.如实施方案1至23中任一项所述的方法，其中所述合并的加索引的细胞核的所述子集包含为所述核小体耗尽的细胞核的所述子集的至多1/100的细胞核。

实施方案25.如实施方案1至24中任一项所述的方法，其中所述第二多个隔室是多孔板。

实施方案26.如实施方案1至25中任一项所述的方法，其中所述多孔板是96孔板或384孔板。

实施方案27.如实施方案1至26中任一项所述的方法，其中步骤(c)包括在核小体耗尽的细胞核的所述子集被分布后将所述转座体复合物添加至隔室。

实施方案28.如实施方案1至27中任一项所述的方法，其中所述转座体复合物中的每个包含转座子，所述转座子中的每个包含转移链。

实施方案29.如实施方案1至28中任一项所述的方法，其中所述转移链包含所述第一索引序列和第一通用序列。

实施方案30.如实施方案1至29中任一项所述的方法，其中步骤(g)中所述第二索引序列的掺入包括使每个隔室中的所述加索引的核酸片段与第一通用引物和第二通用引物接触，每个引物包含索引序列并且每个引物包含与所述第一通用序列的一部分相同或互补的序列；以及执行指数式扩增反应。

实施方案31.如实施方案1至30中任一项所述的方法，其中所述第一通用引物的索引序列是所述第二通用引物的索引序列的反向互补物。

实施方案32.如实施方案1至31中任一项所述的方法，其中所述第一通用引物的索引序列不同于所述第二通用引物的索引序列的反向互补物。

实施方案33.如实施方案1至32中任一项所述的方法，其中所述第一通用引物还包含第一捕获序列和与所述双索引片段的3′末端的通用序列互补的第一锚定序列。

实施方案34.如实施方案1至33中任一项所述的方法，其中所述第一捕获序列包含P5引物序列。

实施方案35.如实施方案1至34中任一项所述的方法，其中所述第二通用引物还包含第二捕获序列和与所述双索引片段的5′末端的通用序列互补的第二锚定序列。

实施方案36.如实施方案1至35中任一项所述的方法，其中所述第二捕获序列包含P7引物序列的反向互补物。

实施方案37.如实施方案1至36中任一项所述的方法，其中所述指数式扩增反应包括聚合酶链式反应(PCR)。

实施方案38.如实施方案1至37中任一项所述的方法，其中所述PCR包含15至30个循环。

实施方案39.如实施方案1至38中任一项所述的方法，所述方法还包括使用对双索引片段具有特异性的多个捕获寡核苷酸富集所述双索引片段。

实施方案40.如实施方案1至39中任一项所述的方法，其中所述捕获寡核苷酸固定在固体基材的表面上。

实施方案41.如实施方案1至40中任一项所述的方法，其中所述捕获寡核苷酸包含通用结合对的第一成员，并且其中所述结合对的第二成员固定在固体基材的表面上。

实施方案42.如实施方案1至41中任一项所述的方法，所述方法还包括对所述双索引片段进行测序以确定来自所述多个单细胞的核酸的核苷酸序列。

实施方案43.如实施方案1至42中任一项所述的方法，所述方法还包括：

提供包含多个扩增位点的表面，其中所述扩增位点包括具有游离3′末端的附接的单链捕获寡核苷酸的至少两个群体，和

在适于产生其中每个扩增位点包含来自个体双索引片段的扩增子的克隆群体的多个扩增位点的条件下使包含扩增位点的所述表面与所述双索引片段接触。

实施方案44.如实施方案1至43中任一项所述的方法，其中所述双索引片段的数量超过扩增位点的数量，其中所述双索引片段具有对所述扩增位点的流体可及性，并且其中所述扩增位点中的每个包含用于所述测序文库中几个双索引片段的容量。

实施方案45.如实施方案1至44中任一项所述的方法，其中所述接触包括同时地(i)以平均转运速率将所述双索引片段转运至所述扩增位点，和(ii)以平均扩增速率扩增所述扩增位点处的所述双索引片段，其中所述平均扩增速率超过所述平均转运速率。

实施方案46.一种组合物，所述组合物包含经化学处理的核小体耗尽的分离的细胞核，其中所述分离的细胞核包含加索引的核酸片段。

实施方案47.如实施方案46所述的组合物，其中所述分离的细胞核包含非天然交联。

实施方案48.如实施方案46或47中任一项所述的组合物，其中所述组合物包含在含有突出端的裂解的限制性位点终止的加索引的核酸片段。

实施方案49.如实施方案46至48中任一项所述的组合物，其中所述分离的细胞核包含重排的基因组DNA。

实施方案50.一种多孔板，其中所述多孔板的孔包含如实施方案46-49中任一项所述的组合物。

通过以下实施例说明本发明。应理解，具体实例、材料、量和程序将根据如本文所阐述的本公开内容的范围和精神进行广义解释。

实施例1

使用组合索引生成和测序数千个单细胞基因组

单细胞基因组测序已证明对于检测体细胞变异是有价值的，特别是在肿瘤进化的背景下。当前的技术受限于高的文库构建成本，这限制了可被评估的细胞数量，并且因此对测量组织内的异质性的能力造成限制。这里，提出单细胞组合索引测序(SCI-seq)作为同时生成数千个低通单细胞文库用于体细胞拷贝数变体检测的一种方式。通过培养的细胞系、灵长类动物额叶皮质组织和两种人腺癌的组合构建16,698个单细胞的文库，包括胰腺肿瘤内亚克隆变异的详细评估。此实施例也可以从Vitak等人(2017，Nature Methods，14，302-308，doi：10.1038/nmeth.4154)可得。

方法

样品制备和细胞核分离。

如果贴壁，则使组织培养细胞系经受胰蛋白酶消化并随后使其沉淀(HeLa S3，ATCC CCL-2.2；NIH/3T3，ATCC CRL-1658)或如果组织培养细胞系在悬浮液中生长则使其沉淀(GM12878，Coriell；在OHSU研究细胞遗传学实验室进行染色体组分型)，然后用冰冷PBS洗涤一次。然后，使组织培养细胞系进行交联(用于xSDS方法)或直接进入使用细胞核分离缓冲液(Nuclei Isolation Buffer)(NIB，10mM TrisHCl pH7.4、10mM NaCl、3mM MgCl₂、0.1％1x蛋白酶抑制剂(Roche，Cat.11873580001)的细胞核制备，具有或不具有核小体耗尽。将组织样品(RhesusFcx1、RhesusFcx2、PDAC、CRC)在NIB中进行dounce均质化，然后通过35μm细胞滤网，然后进行核小体耗尽。冷冻的恒河猴(RhesusFcx1(4岁，雌性)和RhesusFcx2(9岁，雌性))额叶皮质样品从俄勒冈州国家灵长类动物研究中心获得，作为其老化的非人灵长类动物资源的一部分。

标准单细胞文库构建

使用拟随机引发(QRP)和简并寡核苷酸引物PCR(DOP)构建的单细胞文库从不具有核小体耗尽的分离的细胞核制备，并且被增加至(brought up to)1mL的NIB，用5μL的5mg/ml DAPI(Thermo Fisher，Cat.D1306)染色，然后在单细胞模式下在Sony SH800上进行FANS分选。将一个细胞核放置到含有相应样品缓冲液的每个单孔中。根据制造商的方案并使用试剂盒中提供的加索引的PCR引物，使用PicoPlex DNA-seq试剂盒(Rubicon Genomics，Cat.R300381)制备QRP文库。使用SeqPlex DNA扩增试剂盒(Sigma，Cat.SEQXE-50RXN)根据制造商的方案制备DOP文库，但使用含有10bp索引序列的定制PCR索引引物。为了避免过度扩增，所有QRP和DOP文库在BioRad CFX热循环仪上通过加入0.5μL 100XSYBR Green(FMCBioProducts，Cat.50513)扩增，以监测扩增和抽出已达到中期指数扩增(midexponentialamplification)的反应。

核小体耗尽

锂辅助的核小体耗尽(LAND)：使制备的细胞核沉淀，并在冰上重悬于补充有200μL的12.5mM 3，5-二碘水杨酸锂(在正文中称为二碘水杨酸锂，Sigma，Cat.D3635)的NIB中持续5分钟，然后加入800μL NIB，并且然后直接进入流式分选。

交联和SDS核小体耗尽(xSDS)：通过将细胞在含有1.5％甲醛的10mL培养基(细胞培养物)或将细胞核在含有1.5％甲醛的10mL的HEPES NIB(20mM HEPES、10mM NaCl、3mMMgCl₂、0.1％igepal、1x蛋白酶抑制剂(Roche，Cat.118873580001))(组织样品)中在室温孵育持续10分钟来实现交联。交联反应通过将反应与200mM甘氨酸(Sigma，Cat.G8898-500G)接触并在冰上孵育持续5分钟来中和。将细胞培养物样品交联，并且然后将其用10ml冰冷的1x PBS洗涤一次，并通过在冰上在NIB缓冲液中孵育持续20分钟分离细胞核并再次沉淀。然后将细胞核重新悬浮于含有0.3％SDS(Sigma，Cat.L3771)的800uL 1xNEBuffer 2.1(NEB，Cat.B7202S)中，并在42℃在热混合器(Eppendorf)中在剧烈振荡下孵育持续30分钟。然后通过加入200μL的10％Triton-X100(Sigma，Cat.9002-93-1)并在42℃在剧烈振荡下孵育持续30分钟来猝灭SDS。

经由加标签和PCR的组合索引

将细胞核用5μL的5mg/ml DAPI(Thermo Fisher，Cat.D1306)染色，并通过35μm细胞滤网。制备96孔板，每孔中含有用NIB稀释的来自DNA样品制备试剂盒(Illumina，Cat.FC-121-1031)的10μL的1x/>Tagment DNA(TD)缓冲液。SonySH800流式分选仪被用于以快速分选模式将2,000个单细胞核分选到96孔加标签板的每个孔中。接下来，向每个孔中加入1μL独特地加索引的2.5μM转座酶-衔接子复合物(转座体)。这些复合物和相关序列在Amini等人(Amini，S.等人.Nat.Genet.46，1343-9，2014)中描述。将反应在55℃孵育持续15分钟。冷却至室温后，将所有孔合并并如之前描述地用DAPI染色。制备第二个96孔板或第二组96孔板，每个孔含有8.5μL的0.058％SDS、8.9nM BSA溶液和2.5μL 10μM的2个独特地加条形码的引物。然后将来自96个反应物的合并物的22个加标签后的细胞核在相同仪器上但以单细胞分选模式流式分选到第二个板的每个孔中，并且然后在SDS溶液中于55℃孵育持续5分钟，以破坏核支架并解离转座酶。通过在68℃孵育持续1小时(xSDS)来逆转交联。然后通过加入7.5μL的/>PCR主混合物(Illumina，Cat.FC-121-1031)以及0.5μL的100X SYBR Green(FMC BioProducts，Cat.50513)和4μL水来稀释SDS。然后，通过首先将反应在72℃孵育持续5分钟，然后在98℃孵育持续3分钟和进行15-20个循环的[98℃20秒，63℃15秒和72℃25秒]而在BioRad CFX热循环仪上执行实时PCR。监测反应并且在大多数孔中观察到指数式扩增后停止反应。然后合并每个孔的5μL并将其使用Qiaquick PCR纯化柱(Qiagen，Cat.28104)纯化并在30μL EB中洗脱。

文库量化和测序

在高灵敏度生物分析仪试剂盒(Agilent，Cat.5067-4626)上，在200bp和1kbp的范围之间定量文库。使用Amini等人(Amini，S.等人.Nat.Genet.46，1343-9，2014)描述的定制测序引物，将文库在装载0.8pM的Illumina500上用定制测序化学方案(读段1:50成像的循环；索引读段1:8成的循环，27个暗循环，10个成像的循环；索引读段2:8成像的循环，21个暗循环，10个成像的循环；读段2:50成像的循环)进行测序。使用具有双索引的高容量75循环试剂盒，使用标准引物在/>500上对QRP和DOP文库进行测序。对于QRP，还有存在另外的挑战，即读段的前15bp高度富集“G”碱基，所述“G”碱基用/>双色化学物质为非荧光的，并且因此仪器上的簇识别失败。因此，使用跳过此区域的定制测序方案对文库进行测序(读段1:15暗循环，50个成像的循环；索引读段1:10成像的循环；索引读段2:10成像的循环)。

序列读段处理

用于处理SCI-seq原始读段的软件可在万维网上在sci-seq.sourceforge.net处获得。使用bcl2fastq(Illumina Inc.，版本2.15.0)处理序列运行，用--create-fastq-for-index-reads和--with-failed-reads选项来产生fastq文件。索引读段被连接(总共36bp)并用作读段名称，其中独特的读段数字附加至末尾。然后将这些索引与相应的索引参考集匹配，允许四个索引组分(i7-转座酶(8bp)、i7-PCR(10bp)、i5-转座酶(8bp)和i5-PCR(10bp))中的每一个的汉明距离(hamming distance)为二，然后将匹配四个索引组合的读段重新命名为精确索引(并保留独特的读段数)，随后将精确索引用作细胞标识符。然后对读段进行衔接子修剪，然后用Bowtie2将配对的读段和未配对的读段与参考基因组比对并归并。将人类制备物与GRCh37比对，将恒河猴制备物与RheMac8比对，并将人类/小鼠混合物制备物与组合的人类(GRCh37)和小鼠(mm10)参考物比对。使用定制脚本使比对的bam文件经受PCR重复去除，该定制脚本基于每个条形码去除具有相同比对坐标的读段，以及如Bowtie2报告的具有比对得分小于10的读段。

单细胞辨别

对于每个PCR板，总计9,216个独特索引组合是可能的(12个i7-转座酶索引×8个i5-转座酶索引×12个i7-PCR索引×8个i5-PCR索引)，其中只有少数应具有大量读段计数，因为索引组合中的大多数应该不存在——即，细胞核的转座酶索引组合没有被分选到给定PCR孔中。这些“空”索引通常含有非常少的读段(运行的1-3％)，大多数读段落入真实的单细胞索引组合(运行的97-99％)。所得的索引组合的log₁₀独特读段计数的直方图(图6)产生两种正态分布的混合：噪声分量和单细胞分量。然后将R包“mixtools(混合工具)”用于拟合混合模型(normalmixEM)以鉴定每个分量的比例(λ)、平均值(μ)和标准偏差(σ)。符合单细胞文库的读段计数阈值被认为是log₁₀空间中比单细胞分量的平均值低一个标准偏差，或者比噪声分量的平均值(log₁₀空间+2)大100倍中的较大者，并且必须为至少1,000个独特的读段。

人类-小鼠混合实验

采用两种方法中的一种来混合人类(GM12878或HeLa S3)和小鼠(3T3)细胞：i)在细胞阶段混合(HumMus.LAND1和HumMus.LAND2)或ii)在细胞核阶段混合(HumMus.LAND3、HumMus.LAND4和HumMus.xSDS)。采用后者来控制可引起双峰的交联或聚集在一起的细胞核。如本文描述地构建文库，例如其中在流式分选期间观察到两个不同的DAPI阳性群体，包括相同门中的两个群以便不使比例倾斜。如在其他实验中那样处理读段，除了将读段与由GRCh37(hg19)和mm10组成的参考物比对。映射质量10过滤器有效地去除与两个基因组中的保守区域比对的读段，并且然后对于每个鉴定的单细胞，对每个物种的读段进行记录(tallied)并用于估计冲突频率。对于早期LAND制备物，每个PCR孔分选25个加索引的细胞核，并产生28.1％和10.4％的总冲突率(即，人类-小鼠冲突率的两倍)。对于另外的两个LAND制备物，我们分选了22个细胞核/PCR孔，一个制备物产生了4.3％的总冲突率，并且另一个制备物中没有可检测的冲突。我们还测试了用于我们的xSDS制备的两种FANS分选条件，一种是允许的(permissive)并且允许更宽范围的DAPI荧光，而另一种是更为限制性的，并且我们在同一个PCR板的独立侧上进行两种制备。对于允许的门控，我们观察到23.6％的总冲突率，对于更为限制性的门控，总冲突率显著降低，为8.1％。基于这些结果，我们决定使用更为限制性的FANS继续分选22个细胞核/PCR孔。

文库深度预测

如果文库池被测序至更大的深度或在文库池被测序至更大的深度时，为了估计文库池的性能，从所有索引组合的每个SCI-seq制备物中增量地采样随机读段，包括未比对的读段和低质量读段，而不进行总原始读段的每百分之一的更换。对于每个点，我们鉴定了以分配给每个单细胞索引的高质量(MQ≥10)比对的总读段数量，和独特的无PCR重复的那些读段的分数，以及分配至该索引的采样的总读段的相应分数。使用这些点，我们拟合了非线性模型和Hanes-Woolfe转换模型，以预测池内每个个体单细胞文库的另外的测序，并预测出细胞中5％的中位数独特读段百分比。为了确定模型的准确性，我们确定了每个文库的降采样的原始读段的数量，其将达到其中每个细胞的中位数独特读段百分比为90％的点，这比对于以低覆盖率测序的文库所实现的百分比略低。然后，我们对预定数量的读段进行30次迭代的子采样，并且在每次迭代时为每个细胞构建新模型，并且然后预测每个细胞的独特读段计数，试图达到所实现的真实测序深度。然后计算所有细胞的所有迭代的真实读段计数的标准偏差。

基因组窗口

使用定制工具在每个库的基础上确定基因组窗口。对于每个染色体，将整个染色体的大小除以靶窗口大小以产生每个染色体的窗口数。然后，将在所有单细胞(GM12878，对于其中了确定绝对拷贝数的所有人类样品，以及对于其中确定了相对于平均拷贝数的扩增或缺失的每个合并的样品)的池中总结的染色体的总读段计数除以窗口计数以确定每个窗口的平均读段计数。然后使染色体步移并且来自池的比对的读段被记录，并且在达到每个窗口的靶读段计数后就中断窗口。如果窗口含有超过该染色体的平均读段/窗口的限制的75％，则仅包括在染色体边界处的窗口。通过使用动态窗口，我们解释了在固定大小的箱体²²的情况中可导致读段中途退出(dropout)的偏倚，诸如高度重复区域、着丝粒和其他复杂区域。

GC偏倚校正

将读段放入可变大小的箱体中，并且基于个体读段GC含量而不是动态窗口的GC含量来校正GC。我们假设单细胞分析所需的大箱体大小平均达到较小规模的GC含量变化。此外，SCI-seq不涉及其中扩增大的基因组区域的预扩增，因此GC偏倚仅源自PCR并且是扩增子特异性的。为了计算读段的校正权重，我们将具有给定GC的所有读段的分数与具有相同GC分数的平均插入物大小的总模拟读段的分数进行比较。然后使用此权重代替读段计数并在给定窗口中的所有读段之间求和。DAC作废区域中存在的所有区域都被排除在人类样品分析的分析之外(http://genome.ucsc.edu/cgi-bin/hgFileUi？db＝hg19&g＝wgEncodeMapability)¹⁹。GC校正后，所有读段均通过基因组中每个箱体的平均读段数量来归一化。最后，对于每个窗口，我们采用每个细胞的归一化读段计数，并将其除以合并的样品基线以产生比率得分。

数据变异的度量

为了测量数据质量，我们计算两种不同的覆盖分散度量：中位数绝对偏差(MAD)、中位数绝对成对差异(MAPD)。对于每个得分，我们计算相邻箱体之间所有成对差异的绝对值的中位数，所述成对差异已经通过细胞内的平均箱体计数而归一化(MAPD得分的log₂归一化比率)。这些得分测量由于技术噪声而不是由于较低频率的拷贝数状态变化引起的归一化分箱读段(normalized binned reads)的分散^2，22。

拷贝数变体调用

CNV调用在窗口化GC校正和批量样品归一化读段上使用采用两个不同的分割策略的两个可得的R包执行：隐马尔可夫模型方法(HMMcopy，版本3.3.0，Ha，G.等人，GenomeRes.22，1995-2007，2012)和循环二元分割(DNAcopy，版本1.44.0，Olshen等人，Biostatistics 5，557-572，2004)。将值Log₂转换为输入(对于CBS，2*log₂)，并基于来自Knouse等人，2016(Knouse等人，Genome Res.gr.198937.115，2016，doi：10.1101/gr.198937.115)的优化参数进行拷贝数调用。为了检测大小≥5Mb的拷贝数调用的最佳灵敏度和特异性，对于HMM，我们将区段延伸的概率(E)设置为0.995，并且对于CBS，我们选择接受拷贝数变化的显著性水平(α)为0.0001。对于HMM，用于调用丢失或获得的Log₂截止值为0.4和-0.35，并且对于CBS，用于调用丢失或获得的Log₂截止值为1.32和0.6。作为CNV调用的另外的工具，我们使用Ginkgo²²，其使用用于数据归一化的可选择的方法。我们上传用于每个细胞的bed文件和我们用Picard工具创建的批量降采样的bed文件(我们使用0.1的降采样概率)。对于分析，我们选择了用降采样的批量bed文件分割单细胞，并且当已知样品倍性时，我们创建FACS文件以迫使Ginkgo来归一化至所述倍性。用于三种方法的调用在每个窗口的基础上相交，或者被过滤为仅包括跨越≥80％的染色体臂的调用，并且然后相交以用于非整倍性分析。

肿瘤断点分析

与偶发性非整倍性的评估不同，肿瘤结构变异复杂得多，伴随染色体中的大比例的断点。此外，肿瘤的任何给定亚克隆内的偶发性非整倍性与存在的亚群的准确谱相关性较小。因此，我们使用HMM和CBS分区段的比率得分矩阵通过计算跨细胞的分割区域的边界的得分来鉴定断点。然后，我们使用在基因组中共享的染色体断点的所得分布来鉴定局部最大值以解释在哪个特定窗口进行调用的可变性，并且然后保留存在于至少5％的细胞中的那些。然后我们归并每个断点跨度内的所有窗口并且计算每个非整倍体细胞与整倍体群体的平均值的新log₂比率。然后，我们在k-平均值聚类之前进行主成分分析，其中k值由Silhouette分析确定。为了使可以解释约10％的推定单细胞的双峰的影响最小化，并且还为了排除低性能细胞，我们只保留那些靠近它们各自中心的那些细胞。然后，我们归并每个簇内所有细胞的序列读段，并且然后使用HMM策略，然后进行绝对拷贝数状态鉴定进行更高分辨率的CNV分析(靶窗口大小为100kbp)，并使用滑动窗口异常值策略来鉴定局灶扩增和缺失²⁰。肿瘤内克隆关系通过共享的断点，而不是基于涉及DNA断裂的结构变化对细胞的影响更大的假设的区段拷贝数的漂移而被最准确地捕获。因此，我们通过评估断点之间的区段的比例来比较细胞，该断点使用总区段数中的至少90％重叠的高分辨率(100kbp)CNV分析识别(以解释称为拷贝数变化的确切窗口中的噪声)。

结果

用于均匀基因组覆盖的核小体耗尽

改变组合索引以产生均匀分布的序列读段的障碍是去除与基因组DNA结合的核小体而不损害细胞核完整性。sciATAC-seq方法在天然染色质上进行，这允许DNA仅在开放染色质区域(基因组的1-4％)内转化为文库分子¹⁸。此限制对于表观遗传表征是期望的；然而，对于CNV检测，它引起生物学偏倚和严重限制的读段计数(每个细胞约3,000个)¹⁷。因此，为了SCI-seq文库构建，我们开发了两种策略来从基因组DNA中拆解核小体，同时保留细胞核完整性。第一，锂辅助的核小体耗尽(LAND)利用离液剂二碘水杨酸锂来破坏细胞中的DNA-蛋白相互作用，从而从组蛋白释放DNA。第二，用SDS(xSDS)交联使用洗涤剂SDS使组蛋白变性并使它们不能结合DNA。然而，SDS对细胞核完整性具有破坏性影响，因此在变性之前需要进行交联步骤以维持完整的细胞核。

为了测试这些策略的可行性，我们对其中染色质可及性和基因组结构已被广泛描述^19，20的HeLa S3细胞系执行批量(30,000个细胞核)制备，并且与标准对照一起进行LAND或xSDS处理。在所有三种情况中，细胞核保持完整——用于SCI-seq工作流程的关键要求(图4B)。然后将制备的细胞核用于通过标准ATAC-seq文库构建¹⁶。由未处理的细胞核制备的文库产生预期的ATAC-seq信号，其具有10.8倍的与注释的HeLa S3可及性位点比对的序列读段富集。LAND和xSDS制备物二者分别具有2.8倍和2.2倍的显著较低的富集，接近于针对鸟枪测序观察到的1.4倍(图4C，表1)。此外，LAND和xSDS制备物中存在的独特序列读段的映射数量分别为17亿和7.98亿，比标准文库的1.7亿高得多，表明更大比例的基因组被转化为可用的测序分子。

表1.批量文库统计学。关于构建用于评价核小体耗尽的批量细胞文库的信息。*SHOT文库是从登陆号phs000640.v4.p1的HeLa dbGaP储库获得的60M读段的随机采样(TheENCODE Project Consortium.An integrated encyclopedia of DNA elements in thehuman genome.Nature 489，57-74(2012))。文库大小估计使用Picard工具函数“EstimateLibraryComplexity”生成。对于鸟枪测序，使用的读段被去除了重复，并且因此未确定重复率和文库大小估计。

伴随核小体耗尽的SCI-seq

为了用我们的单细胞组合索引工作流程来评估核小体耗尽的性能，我们首先关注深度表征的整倍体的类淋巴母细胞细胞系GM12878^14，15，19。我们用各种LAND条件产生了总计六个SCI-seq文库，每个在PCR索引阶段使用单个96孔板，以及使用3×96孔PCR板产生单个xSDS文库。为了用作与现有方法的比较，我们使用拟随机引发(QRP)制备42个单细胞文库(40个通过QC)，并且使用简并寡核苷酸引发的PCR(DOP)制备51个单细胞文库(45个通过QC)。最后，我们对50个细胞进行染色体组分型，以用作非整倍性测量的非测序手段(表2)。

/>

对于每个SCI-seq制备物，潜在的索引组合的数量是96(转座酶索引)×N(PCR索引，96个/板)；然而，并非所有索引组合都代表单细胞文库，因为每个PCR孔仅含有15-25个转座酶索引的细胞核。为了识别非空索引组合，我们为每个潜在的索引组合生成唯一(即，非PCR重复)、高质量(MQ≥10)比对读段的log₁₀转换的直方图。这产生双峰分布，其包括以50和200个读段之间为中心的低读段计数噪声分量，和以10,000和100,000个读段之间为中心的高读段计数单细胞分量(图7a、图7b、图8)。然后我们使用混合模型来鉴定落入此高读段计数分量的索引(图6)，这产生在使用LAND进行核小体耗尽的6个SCI-seq制备物中的4,643个单细胞文库，和对于xSDS制备物的3,123个单细胞文库。

为了确认大多数假定的单细胞文库含有真正的单细胞，我们使用LAND针对人类和小鼠细胞的混合物(总计2,369个细胞)制备四个SCI-seq文库制备物，具有22个细胞核/PCR孔或25个细胞核/PCR孔，以及使用xSDS在两种FANS条件之间分开的一种制备物(总计1,367个细胞；图9)。对于每个实验，我们分析了≥90％的推定的单细胞的读段仅与人类或小鼠基因组比对的推定的单细胞的比例。剩余的细胞代表人类-小鼠的冲突(即，双峰)并且构成总冲突率的大约一半(剩下的一半是人类-人类或小鼠-小鼠)。总冲突率在0-23.6％之间变化，并且被用于对具有限制性分选条件的22个细胞核/孔的靶双峰频率作出决定为＜10％，与sciATAC-seq¹⁷或高通量单细胞RNA-seq技术²¹相当。

对于SCI-seq制备物中的每个文库产生的独特读段计数随着文库复杂度和测序深度的变化而变化。由于在开发期间对每个制备物进行深度测序的抑制成本，我们实施模型以预测可通过增加的测序深度实现的预期读段计数和PCR重复百分比(图7c，方法)。作为质量评估的手段，我们鉴定了深度以及其他几个度量(metrics)(表3)，在该深度处，所有细胞中中位数50％的读段是PCR重复(M50)，表示另外的测序变得过度的点(即，大于50％的额外读段不提供新的信息)。来自测序读段的子集的模型预测准确地预测出所有文库的实际中位数独特读段计数在中位数0.02％内(最大值2.25％，平均值0.41％)。作为进一步确认，来自几个制备物的PCR孔的子集的另外的测序产生每个细胞的独特读段计数，所述独特读段计数在由我们的模型预测的中位数0.13％内(最大值3.56％，平均值0.72％)(图10)。

/>

使用平均绝对偏差(MAD)²²和平均绝对成对偏差(MAPD)²评估覆盖均匀性，这表明使用xSDS比LAND实质上更好的均匀性(MAD：平均1.57倍改善，p＝＜1x10^-15；MAPD：1.70倍改善，p＝＜1x10^-15，Welch t检验)。使用xSDS的偏差类似于多置换扩增方法，但仍然大于QRP和DOP(图7d)²²。虽然LAND制备物具有较高的覆盖偏倚，但与xSDS相比(例如对于GM12878制备物，M50为63,223)时，它们还产生每个细胞更高的独特读段计数(例如，对于三种HeLaLAND制备物中一个，M50为763,813)。对于所有文库，我们观察到由于转座机制引起的相邻读段对的特征性9碱基对重叠^13，23，表明我们能够在转座酶插入事件的任一侧对分子进行测序(图11)。

使用SCI-seq的拷贝数变体调用

对于任何单细胞基因组测序研究，确定如何过滤掉失败的文库而不去除真正的非整倍体细胞是一个重要挑战。我们最初在没有任何过滤的情况下对我们SCI-seq制备物进行CNV调用以便与其他方法直接地进行比较。对于所有制备物，我们使用具有至少50,000个独特高质量比对读段的细胞(在所有LAND文库中868个，对于xSDS文库，1,056个)，应用Ginkgo²²、循环二元分割(CBS)²⁴和隐马尔可夫模型(HMM)²⁵，其中可变大小的基因组窗口(靶中位数为250万bp)用于CNV调用(图12)并且保守地保留所有三种方法的交集。为了将我们基于测序的调用与染色体组分型的细胞进行比较，我们关注染色体臂水平的事件(图7e、图7f)。与覆盖均匀性差异一致，我们的LAND SCI-seq制备物产生高非整倍性比率(61.9％)，这表明由于缺少覆盖均匀性而存在大量假阳性(图7e、图7g)。然而，具有SCI-seq的xSDS核小体耗尽策略引起22.6％的非整倍性频率，与染色体组分型结果(图7e、图7h)以及DOP和QRP(分别为15.0％和13.5％)接近得多(图13)。

接下来，我们基于在各种分辨率和读段计数阈值中的MAD和MAPD得分来确定过滤标准(图14)。此分析揭示我们的SCI-seq制备物的分辨率的更大范围的可变性，这主要是由于与标准方法相比，每个细胞的独特读段的更广的范围。通过在所有方法中应用0.2的MAD方差滤波器，xSDS、DOP和QRP的非整倍性比率分别降至12.2％、9.7％和10.5％，全部低于通过染色体组分型确定的比率，但是比过滤前彼此更接近(图15)。

恒河猴脑中的拷贝数变异

哺乳动物脑中非整倍性和大规模CNV频率的估计差别很大，从＜5％到33％^1-4。此不确定性很大程度上源于无法分析足够数量的单细胞来产生定量测量。恒河猴是用于量化脑中非整倍性丰度的理想模型，因为人类样品难以获得并且因终生环境暴露的高度可变性而难以弄清。此外，与啮齿动物相比，恒河猴脑在系统发育上、在结构和生理上更相似于人类²⁶。

为了证明我们的平台的多功能性，我们将LAND和xSDS SCI-seq应用于存档的额叶皮质组织(个体1)，以及使用QRP的38个细胞(35个通过QC)，和使用DOP的35个细胞(30个通过QC)。我们的低容量LAND制备物(16个PCR索引)产生340个单细胞文库，中位数独特读段计数为141,449(248个细胞≥50,000个独特读段)，并且我们的xSDS制备物生成171个单细胞文库，中位数独特读段计数为55,142(92个细胞≥50,000个独特读段)。在我们的xSDS制备物中产生的细胞数量低于预期，主要是由于分选过程中的细胞核聚集，其可通过额外的细胞分散(dis-aggregation)步骤来补救。

在所有文库构建方法中，我们观察到三种CNV调用方法之间的差异比人分析中更大(图16-19)，可能是由于恒河猴参考基因组质量较低(284,705个重叠群＜1Mbp)，强调需要“铂”质量参考基因组²⁷。因此，我们关注于亚染色体调用的HMM结果(图20a)，并使用CBS和HMM调用的相交执行非整倍性分析。与我们的细胞系结果一致，LAND制备物产生高得多的非整倍性比率(95.1％)，表明由覆盖不均匀性引起的假阳性(图21-22)。xSDS SCI-seq未过滤的非整倍性比率(25.0％)接近DOP制备物(18.5％)，而QRP产生低得多的率(3.1％；图20b)。对MAD得分为0.2或更低的细胞施加方差滤波器后，xSDS制备物的非整倍性比率降至12.0％，DOP的非整倍性比率降至8.7％，并且QRP制备物的非整倍性比率保持在3.1％。这些率与通过xSDS SCI-seq在来自第二个体的额叶皮质的200mm³切片(381个单细胞，中位数读段计数62,731,213个细胞≥50,000个独特读段)上产生的率相似，该第二个体产生未过滤的非整倍性比率和过滤的非整倍性比率分别为12.1％和10.3％(图23)。

原发肿瘤样品上的SCI-seq揭示克隆群

单细胞基因组测序的主要应用之一是分析肿瘤异质性和理解癌症中的克隆进化，因为它涉及治疗抗性^5-8。我们对新近获得的III期胰腺导管腺癌(PDAC)样品进行单次xSDSSCI-seq制备，测量大约250mm³，产生测序的1,715个单细胞文库的中位数独特读段计数为每个细胞49,272个(M50为71,378；在文库测序的深度处，846个细胞≥50,000个独特读段；图24a)。我们首先使用我们的GM12878文库作为用于比较的整倍体基线来执行CNV调用，以鉴定一组高置信度的整倍体细胞(298个，35.2％)，然后将该细胞用作对个体和制备物具有特异性的新基线(图23、图25、图26)。假设亚染色体拷贝数量变化(由基因组不稳定性引起)比整个染色体非整倍性(由于细胞分裂期间的错误)对于鉴定亚克隆群更具信息性，我们开发策略来在低分辨率下识别待用作新窗口边界的假定拷贝数断点(方法，图27)，然后通过主成分分析(PCA)和k平均值聚类进行分层。我们最初将此方法应用于我们的HeLa文库(总计2,361个单细胞)，揭示没有明显的异质性并且进一步支持HeLa细胞系的稳定性²⁰(图28-31)，并且然后将此方法应用于我们的主要PDAC样品，这揭示通过轮廓分析(silhouetteanalysis)的最佳簇计数为4(图24b、图24c)。

这些簇中的第一个(k3)是整倍体细胞群，其在初始分析中不被认为是高置信度的整倍体群，并且因此未被去除。当包括这些时，整倍体群上升至389，最终肿瘤细胞纯度为46.0％，在PDAC的预期范围内²⁸。对于剩余的簇k1(199个细胞)、k2(115个细胞)和k4(91个细胞)，我们聚集来自每个中心近端细胞的所有读段(方法)，并使用100kbp窗口进行CNV调用，相比于初始分析25倍更大的分辨率，并且然后确定绝对拷贝数状态²⁰(图24d)。

在三个肿瘤簇中，共有大部分拷贝数区段(44.8％)，表明它们来自共同的祖细胞群。这包括高度重排的染色体19，其在拷贝数7携带编码增强子结合蛋白的CEBPA的局灶扩增，该拷贝数7经常在AML中突变²⁹，并且最近已示出具有胰腺肿瘤中的更改的表观遗传调节³⁰(图24e)。全部成对比较揭示簇k2和k4最相似，共享65.9％的拷贝数区段，其次是k1和k4为58.3％，并且k1和k2为55.0％。几种簇特异性CNV含有潜在功能相关的基因(图24e)。这些包括簇k1中拷贝数6IKBKB的局灶扩增，该IKBKB编码在NF-κB信号传导途径中重要的丝氨酸激酶³¹；在含有基因DSC 1、2、3和DSG 1、2、3、4的簇k1中拷贝数5的另一个局灶扩增，所有这些都编码参与细胞-细胞粘附和细胞定位的蛋白，并且在癌症中经常被错误调节³²；以及含有对簇k2特异的PDGRFB的区域的缺失，该PDGRFB编码参与细胞增殖信号传导的酪氨酸激酶细胞表面受体，并且经常在癌症中突变³³。

最后，我们将xSDS SCI-seq应用于冷冻的II期直肠腺癌，测量500mm³。在制备期间，我们注意到高丰度的核碎片和破裂的细胞核，这可归因于146个单细胞文库的制备物的产率(16个PCR索引)下降(中位数独特读段计数为71,378；M50为352,168；111个细胞≥5,000独特读段)。我们进行了与PDAC样品相同的CNV调用方法；然而，未观察到高频断点，并且未能鉴定亚克隆群(图32)。这可能是由于辐射(直肠癌的常见治疗)引起的核衰退的结果，强调产生由所有单细胞方法共享的高质量单细胞或细胞核悬浮液的挑战¹²。

讨论

我们开发了SCI-seq，利用组合索引工作流程中的核小体耗尽来产生数千个单细胞基因组测序文库的方法。使用SCI-seq，我们从无数样品中产生16,698个单细胞文库(其中5,395个被测序到足以进行CNV调用的深度)，包括代表单细胞基因组研究的两个主要领域的原代组织分离物：体细胞非整倍性和癌症。除了通量的优点外，平台不需要专门的微流体设备或液滴乳化技术。使用我们更均匀的核小体耗尽策略xSDS，我们能够实现大约250kbp数量级的分辨率，但我们猜想进一步的优化(诸如可选择的交联剂)可提供足够的深度以改进分辨率。我们还证实通过将此策略应用于胰腺导管腺癌来鉴定可聚集以促进高分辨率CNV调用的克隆群的能力，这揭示可影响增殖、迁移或可能驱动其他分子亚型的亚克隆特异性CNV³⁴。

有可能使用此技术在SCI-seq之前在细胞核支架内原位预扩增或在体外转录中在诸如THS-seq³⁵(ATAC-seq变体)中掺入T4，以增强所得覆盖并促进单核苷酸变体检测。尽管优化是可能的，但与任何新方法一样，我们相信SCI-seq提供的通量将为哺乳动物体细胞基因组稳定性的深度定量打开大门，以及用作评估单细胞的其他特性(包括DNA甲基化和染色质结构)的平台。

登记代码

NCBI BioProject ID：PRJNA326698

HeLa dbGaP登记：phs000640

数据可得性

GM12878和恒河猴序列数据通过BioProject ID：PRJNA326698下的NCBI SequenceRead Archive(SRA)可访问，用于不受约束的访问。HeLa序列数据作为登录号phs000640的子研究通过Genotypes and Phenotypes的数据库(dbGaP)可访问。人肿瘤样品正在提交给dbGaP并且正在等待研究登记分配。专为此项目开发的软件在万维网上的sci-seq.sourceforge.net处可获得。

实施例1中引用的参考文献

1.McConnell，M.J.et al.Mosaic Copy Number Variation in HumanNeurons.Science(80.).342，632-637(2013).

2.Cai，X.et al.Single-Cell，Genome-wide Sequencing Identifies ClonalSomatic Copy-Number Variation in the Human Brain.Cell Rep.8，1280-1289(2014).

3.Knouse，K.A.，Wu，J.，Whittaker，C.A.&Amon，A.Single cell sequencingreveals low levels of aneuploidy across mammalian tissues.Proc Natl Acad SciUSA111，13409-13414(2014).

4.Rehen，S.K.et al.Chromosomal variation in neurons ofthe developingand adult mammalian nervous system.Proc.Natl.Acad.Sci.U.S.A.98，13361-6(2001).

5.Navin，N.et al.Tumour evolution inferred by single-cellsequencing.Nature 472，90-94(2011).

6.Eirew，P.et al.Dynamics of genomic clones in breast cancer patientxenografts at single-cell resolution.Nature 518，422-6(2014).

7.Gawad，C.，Koh，W.&Quake，S.R.Dissecting the clonal origins ofchildhood acute lymphoblastic leukemia by single-cell genomics.Proc.Natl.Acad.Sci.U.S.A.111，17947-52(2014).

8.Gao，R.et al.Punctuated copy number evolution and clonal stasis intriple-negative breast cancer.Nat.Genet.1-15(2016).doi：10.1038/ng.3641

9.Zong，C.，Lu，S.，Chapman，A.R.&Xie，X.S.Genome-Wide Detection of SingleNucleotide and Copy Number Variations of a Single Human Cell.Science(80-.).338，1622-1626(2012).

10.Baslan，T.et al.Optimizing sparse sequencing of single cells forhighly multiplex copy humber profiling.GenomeRes.125，714-724(2015).

11.Knouse，K.A.，Wu，J.&Amon，A.Assessment of megabase-scale somatic copynumber variation using single cell sequencing.Genome Res.gr.198937.115-(2016).doi：10.1101/gr.198937.115

12.Gawad，C.，Koh，W.&Quake，S.R.Single-cell genome sequencing：currentstate of the science.Nat.Rev.Genet.17，175-88(2016).

13.Adey，A.et al.Rapid，low-input，low-bias construction of shotgunfragment libraries by high-density in vitro transposition.Genome Biol.11，R119(2010).

14.Amini，S.et al.Haplotype-resolved whole-genome sequencing bycontiguity-preserving transposition and combinatorial indexing.Nat.Genet.46，1343-9(2014).

15.Adey，A.et al.In vitro，long-range sequence information for de novogenome assembly via transposase contiguity.Genome Res.24，2041-2049(2014).

16.Buenrostro，J.D.，Giresi，P.G.，Zaba，L.C.，Chang，H.Y.&Greenleaf，W.J.Trahsposition of uative chromatin for fast and sensitive epigenomicprofiling of open chromatin，DNA-binding proteins and nucleosomeposition.Nat.Methods 10，1213-8(2013).

17.Cusanovich，D.a et al.Epigenetics.Multiplex single-call profilingof chromatin accessibility by combinatorial cellular indexing.Science 348，910-4(2015).

18.Stergachis，A.B.et al.Developmental fate and cellular maturityencoded in human regulatory DNA landscapes.Cell 154，888-903(2013).

19.The ENCODE Project Consortium.An integrated encyclopedia of DNAelements in the human genome.Nature 489，57-74(2012).

20.Adey，A.et al.The haplotype-resolved genome and epigenome of theaneuploid HeLa cancer cell line.Nature 500，207-211(2013).

21.Macosko，E.Zet al.Highly Parallel Genome-wide Expression Profilingof Individual Cells Using Nanoliter Droplets.Cell 161，1202-1214(2015).

22.Garvin，T.et al.Interactive analysis and quality assessment ofsingle-cell copy-number variatiohs.bioRxiv 11346(2014).doi：10.1101/011346

23.GORYSHIN，I.Y.，MILLER，J.A.，KIL，Y.V.，LANZOV，V.A.&REZNIKOFF，W.S.Tn5/IS50 target recognition.Proc.Natl.Acad.Sci.USA 95，10716-10721(1998).

24.Olshen，A.B.，Venkatraman，E.S.，Lucito，R.&Wigler，M.Circular binarysegmentation for the analysis of array-based DNA copy numberdata.Biostatistics 5，557-572(2004).

25.Ha，G.et al.Integrative analysis of genome-wide loss ofheterozygosity and monoallelic expression at nucleotide resolution revealsdisrupted pathways in triple-negative breast cancer.Genome Res.22，1995-2007(2012).

26.Rosenkrantz，J.&Carbone，L.Investigating somatic aneuploidy in thebrain：why we need a new model.Chromosoma(2016).

27.Callaway，E.‘Platinum’genome takes on disease.Nat.News 515，323(2014).

28.Waddell，N.et al.Whole genomes redefine the mutational landscape ofpancreatic cancer.Nature 518，495-501(2015).

29.De Kouchkovsky，I.&Abdul-Hay，M.‘Acute myeloid leukemia：acomprehensive review and 2016update’.Blood Cancer J.6，e441(2016).

30.Kumagai，T.et al.Epigenetic regulation and molecularcharacterization of C/EBPalpha in pancreatic cancer cells.Int J Cancer 124，827-833(2009).

31.Perkins，N.D.Integrating cell-signalling pathways with NF-kappaBand IKK function.Nat.Rev.Mol.Cell Biol.8，49-62(2007).

32.stahley，S.N.&Kowalczyk，A.P.Desmosomes in acquired disease.CellTissue Res.360，439-56(2015).

33.Forbes，S.A.et al.COSMIC：Exploring the world’s knowledge of somaticmutations in human cancer.Nucleic Acids Res.43，D805-D811(2015).

34.Bailey，P.et al.Genomic analyses identify molecular subtypes ofpancreatic cancer.Nature 531，47-52(2016).

35.Sos，B.et al.Characterization of chromatin accessibility with atransposome hypersensitive sites sequencing(THS-seq)assay.Genome Biol 17，20(2016).

实施例2

实施例2中使用的试剂

·磷酸盐缓冲盐水(PBS，Thermo Fisher，Cat.10010023)

·0.25％胰蛋白酶(Thermo Fisher，Cat.15050057)

·Tris(Fisher，Cat.T1503)

·HCl(Fisher，Cat.A144)

·NaCl(Fisher，Cat.M-11624)

·MgCl₂(Sigma，Cat.M8226)

·CA-630(Sigma，I8896)

·蛋白酶抑制剂(Roche，Cat.11873580001)

·3，5-二碘水杨酸锂(Sigma，Cat.D3635)-仅LAND

·甲醛(Sigma，Cat.F8775)-仅xSDS

·甘氨酸(Sigma，Cat.G8898)-仅xSDS

·HEPES(Fisher，Cat.BP310)-仅xSDS

·NEBuffer 2.1(NEB，Cat.B7202)-仅xSDS

·SDS(Sigma，Cat.L3771)-仅xSDS

·Triton^TM-X100(Sigma，Cat.9002-93-1)-仅xSDS

·DAPI(Thermo Fisher，Cat.D 1306)

·来自试剂盒的TD缓冲液和NPM(Illumina，Cat.FC-121-1031)

·96个加索引的转座体(使用公布的方法组装或从Illumina获得，寡核苷酸在表4中示出)

·加索引的i5 PCR引物和i7 PCR引物(表5)

·SYBR Green(FMC BioProducts，Cat.50513)

·PCR纯化试剂盒(Qiagen，Cat.28104)

·dsDNA高灵敏度qubit(Thermo Fisher，Cat.Q32851)

·高灵敏度生物分析仪试剂盒(Agilent，Cat.5067-4626)

·NextSeq测序试剂盒(高或中等150-循环)

·测序引物(表6)

实施例中使用的设备

·Dounce均质器

·35μM细胞滤网(BD Biosciences，Cat.352235)

·Sony SH800细胞分选仪(Sony Biotechnology，Cat.SH800)或能够进行基于DAPI的单细胞核分选的其他FACS仪器

·CFX Connect RT热循环仪(Bio-Rad，Cat.1855200)或其他实时热循环仪

·2.0荧光计(Thermo Fisher，Cat.Q32866)

·2100生物分析仪(Agilent，Cat.G2939A)

·500(Illumina，Cat.SY-415-1001)/>

表5：PCR引物

/>

表6：测序引物

名称	序列(5′-＞3′)	SEQ ID NO
			读段1测序引物	GCGATCGAGGACGGCAGATGTGTATAAGAGACAG	142
读段2测序引物	CACCGTCTCCGCCTCAGATGTGTATAAGAGACAG	143
			索引1测序引物	CTGTCTCTTATACACATCTGAGGCGGAGACGGTG	144
索引2测序引物	CTGTCTCTTATACACATCTGCCGTCCTCGATCGC	145

I.使用3，5-二碘水杨酸(LAND)或SDS(xSDS)制备细胞核

A.细胞核制备和核小体耗尽的LAND法

如果细胞处于悬浮细胞培养物中，则将培养物轻轻研磨以破碎细胞团块，通过在4℃以500xg旋转5分钟使细胞沉淀，并将细胞用500μL冰冷PBS洗涤。

如果细胞处于贴壁细胞培养物中，则吸出培养基并将细胞在37℃用10mL PBS洗涤，并且然后加入37℃的足够的0.25％胰蛋白酶以覆盖单层。在37℃孵育5分钟或直至90％细胞不再粘附于表面后，以1∶1的比率加入37℃的培养基以猝灭胰蛋白酶。通过在4℃以500xg旋转5分钟使细胞沉淀，然后将细胞用500μL冰冷PBS洗涤。

如果使用组织，则将组织样品置于冰上的2mL dounce均质器中。将2ml NIB缓冲液(10mM TrisHCl pH7.4、10mM NaCl、3mM MgCl₂、0.1％1x蛋白酶抑制剂)加入到样品中并在冰上孵育5分钟。将样品用松散的研杵研磨5次，然后用紧杵研磨15下(15spokes)，并且然后通过35μM细胞滤网，并且根据需要使用另外的滤网。

将来自悬浮细胞培养物、贴壁细胞培养物或组织样品的细胞通过以500xg旋转5分钟沉淀，并然后重悬于200μL的在NIB缓冲液中的12.5mM LIS(2.5μL 1M LIS+197.5μL NIB缓冲液)中。在冰上孵育5分钟后，加入800μL NIB缓冲液和5μL DAPI(5mg/m1)。将细胞轻轻地通过35μM细胞滤网。

B.细胞核制备和核小体耗尽的xSDS法

如果细胞处于悬浮细胞培养物中，则将培养基轻轻研磨以破碎细胞团块。向培养基中的10mL细胞中加入406μL 37％甲醛，并在室温在温和振荡下孵育10分钟。向细胞中加入800微升2.5M甘氨酸，并且在冰上孵育5分钟，并且然后在4℃以550xg离心8分钟。用10mL冰冷PBS洗涤后，将细胞重悬于5mL冰冷NIB(10mM TrisHCl pH7.4、10mM NaCl、3mM MgCl₂、0.1％1x蛋白酶抑制剂)中，并在温和搅拌下在冰上孵育20分钟。

如果细胞处于贴壁细胞培养物中，则吸出培养基并用将细胞用10mL37℃的PBS洗涤，并且然后加入37℃的足够的0.25％胰蛋白酶以覆盖单层。在37℃孵育5分钟或直至90％细胞不再粘附于表面后，以1∶1的比率加入37℃培养基以猝灭胰蛋白酶，并用培养基使体积达到10ml。将细胞重悬于10mL培养基中，并且加入406μL 37％甲醛，并在室温在温和振荡下孵育10分钟。向细胞中加入800微升2.5M甘氨酸，并在冰上孵育5分钟。将细胞在4℃以550xg离心8分钟，并用10mL冰冷PBS洗涤。在将细胞重悬于5mL冰冷NIB中后，在温和混合下将它们在冰上孵育20分钟。

如果使用组织，则将组织样品置于冰上的2mL Dounce均质器中。将2mL HEPES NIB(20mM HEPES、10mM NaCl、3mM MgCl₂、0.1％igepal、1x蛋白酶抑制剂)缓冲液加入到样品中并在冰上孵育5分钟。用松散的研杵将样品研磨5次，然后用紧杵研磨15下，并且然后使样品通过35μM细胞滤网，并根据需要使用另外的滤网。用HEPES-NIB将体积调至10ml，并向10mL体积加入406μL 37％甲醛。加入800微升2.5M甘氨酸并在冰上孵育5分钟。

将来自悬浮细胞培养物或贴壁细胞培养物的细胞或细胞核通过以500xg旋转5分钟沉淀，并用900μL的1x NEBuffer 2.1洗涤。在以500xg旋转5分钟后，将沉淀重悬于具有12μL 20％SDS的800μL 1x NEBuffer 2.1中，并在42℃在剧烈振荡孵育下30分钟，并且然后加入200μL的10％Triton^TM X-100并在42℃在剧烈振荡下孵育30分钟。将细胞轻轻通过35μM细胞滤网，并加入5μL DAPI(5mg/m1)。

II.细胞核分选和加标签

用10μL 1x TD缓冲液制备加标签板(对于1个板：500μL NIB缓冲液+500μL TD缓冲液)，并将2000个单细胞核分选到加标签板的每个孔中。在此步骤中，只要每个孔的细胞核数量对于整个板是一致的，那么每个孔的细胞核数量可稍微变化。由于转座酶索引将被保留，因此还可将不同的样品多重化到板的不同孔中。根据图33对细胞进行门控。使板旋转减慢后，向每个孔中加入1μL 2.5nM独特索引的转座体。密封后，将板在55℃在温和振荡下孵育15分钟。然后将板恢复至室温，并且然后置于冰上。合并所有孔，加入5μl DAPI(5mg/ml)，并且然后使细胞通过35μM细胞滤网。

III.第二分选和PCR索引

用0.25μL 20mg/mL BSA、0.5μL 1%SDS和7.75μL H₂O为每个孔制备主混合物。将主混合物(8.5μL)和2.5μL每种(i5和i7)的10μM引物加入96孔板的每个孔。使用最严格的分选设置将单细胞核(15-22个)分选到每个孔中。然后使板旋转减慢。将使用LAND法制备的那些细胞核在55℃孵育5分钟以使转座酶变性。将使用xSDS法制备的那些细胞核在68℃孵育45分钟以使转座酶变性和使交联逆转。

制备缓冲液(对于1个板：750μL NPM、400μL H₂O和50μL 100x SYBR Greem)，并将12μL缓冲液加入到条带管的每个孔中。进行以下PCR循环：72℃持续5分钟，98℃持续30秒，然后连续循环(98℃持续10秒，63℃持续30秒，72℃持续1分钟，然后进行板读数并在72℃持续另外10秒)。重复这些循环直至大多数孔显示由SYBR绿色荧光确定的指数式扩增。

IV.文库净化和量化

使用PCR板中每孔的5uL来合并文库，然后使用PCR纯化柱，并在30μL的10mM Tris-Cl、pH 8.5(EB)中洗脱来纯化文库。根据制造商的方案，使用2微升来用dsDNA高灵敏度/>2.0荧光计来量化DNA浓度。按照制造商的方案，使用/>读出将文库稀释至～4ng/uL，并在高灵敏度生物分析仪2100上运行1uL。然后将文库定量为200bp-1kbp范围，以将池(pool)稀释至1nM用于Illumina测序。

V.测序

根据制造商对1nM样品的说明设置500以进行运行，不同之处在于以下变化。将文库池以0.8pM的浓度和1.5mL的总体积上样，并沉积到柱位置10；通过将9μL的100μM储备测序引物1稀释到总共1.5mL的HT1缓冲液中，进入柱位置7来设置定制引物；通过将9μL的100μM储备测序引物2稀释到总共1.5mL的HT1缓冲液中，进入柱位置8来设置测序引物；并且通过将18μL的在100μM储备浓度的每种定制索引测序引物稀释到总共3mL的HT1缓冲液中，进入柱位置9来设置定制索引测序引物(参见表7)。/>500以独立模式运行；选择SCIseq定制化学配方(Amini等人，2014，Nat.Genet.46，1343-1349)；选择双索引；输入适当的读段循环数量(推荐50个)，并且每个索引18个循环；选择所有读段和索引的自定义复选框。

表7

实施例3

单细胞组合索引以及基因组和染色体构象

限制性核酸内切酶消化分离的细胞核然后连接可以用于获取关于细胞核内染色体结构的信息，诸如染色质折叠分析和基因组重排的检测。这种类型的分析在本领域中称为染色体构象捕获(3C)和相关方法(4C、5C和Hi-C)。

可与实施例1和实施例2中描述的方法结合使用的单细胞组合索引和基因组和染色体构象(sci-GCC)的方法描述于图34中。具体地，单细胞组合索引和基因组及染色体构象的方法包括如图34所示的框12、13、14和19。与单细胞的基因组和染色体构象分析的其他方法(Nagano等人，2013，Nature，502：59-64)不同，本文所述的方法不需要生物素填充或生物素下拉，以获得基因组和染色质构象序列数据。

评价用于交联细胞的条件以确定交联细胞和维持细胞核完整性所需的甲醛的最小浓度。通过将HeLa细胞暴露于0.2％、0.35％、1.5％的甲醛或无甲醛使细胞交联，并且进行图34中描述的方法的缩略版本并确定所得细胞核的数量。

从未暴露于甲醛或暴露于0.2％甲醛的细胞中未分离出完整的细胞核。暴露于0.35％甲醛的细胞得到具有正常形态的3.8×10⁵个细胞核，并且暴露于1.5％甲醛的细胞得到具有正常形态的6.4×10⁵个细胞核。

还评价了用于逆转交联的条件。通过将HeLa细胞暴露于0.35％、0.75％、1.5％的甲醛或无甲醛使细胞交联，并进行图34中描述的方法的缩略版本。通过将分离的细胞核在68℃孵育1小时或16小时来逆转交联(图35)。

数据表明，使用0.35％甲醛以及在68℃孵育1小时的逆转条件是最佳的。

从测序的sci-GCC文库中获得与实施例1和2以及图35中描述的方法相当的基因组范围的独特读段计数。除了基因组序列读段之外，5％和15％之间的序列读段含有嵌合连接接合，所述嵌合连接接合为染色质构象信号的特征，如Nagano等人，(2013，Nature，502：59-64)中描述的。平均而言，与现有的单细胞HiC策略相比(参见，例如，Nagano等人，2013，Nature，502：59-64)，我们获得增加的独特嵌合连接接合读段计数，在交联优化的制备物中平均独特嵌合连接接合读段计数为每细胞超过40,000个。在HeLa上，这些文库产生足够的嵌合连接接合读段以清楚地识别染色质结构，包括HeLa中已知的易位(图36)。

本文引用的所有专利、专利申请和出版物的完整公开，以及电子可得材料(包括，例如GenBank和RefSeq中提交的核苷酸序列，以及在例如SwissProt、PIR、PRF、PDB中提交的氨基酸序列和来自GenBank和RefSeq中的注释编码区的翻译)以其整体通过引用并入。出版物中引用的补充材料(诸如补充表、补充数字、补充材料和方法，和/或补充实验数据)同样以其整体通过引用并入。如果本申请的公开内容与以通过引用并入本文的任何文件的公开内容之间存在任何不一致，则以本申请的公开内容为准。前述详细描述和实施例仅为了清楚理解的目的而给出。不应从中理解不必要的限制。本发明不限于所示出的和所描述的确切细节，对于本领域技术人员明显的变型将包括在由权利要求限定的本发明内。

除非另外指明，否则在说明书和权利要求中使用的表示组分的量、分子量等的所有数字应理解为在所有情况下均由术语“约”修饰。因此，除非另外相反指明，否则说明书和权利要求书中列出的数值参数是可根据本发明寻求获得的所需性质而变化的近似值。至少，并且不试图将等同原则限制于权利要求的范围内，每个数值参数至少应该根据报告的有效数字的数量并通过应用常用舍入技术来解释。

尽管阐述本发明广泛范围的数值范围和参数是近似值，但具体实施例中列出的数值尽可能精确地报告。然而，所有数值固有地含有必然由其相应测试测量方式中发现的标准偏差产生的范围。

除非另有说明，否则所有标题都是为了方便读者并且不应用于限制标题后面文本的含义。

序列表

<110> 伊鲁米那股份有限公司

俄勒冈健康与科学大学

<120> 单细胞全基因组文库及制备其的组合索引方法

<130> IP-1592-PCT/531.15920201

<150> US 62/451,305

<151> 2017-01-27

<150> US 62/365,916

<151> 2016-07-22

<160> 145

<170> PatentIn version 3.5

<210> 1

<211> 19

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 1

ctgtctctta tacacatct 19

<210> 2

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 2

tcgtcggcag cgtctccacg ctatagcctg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 3

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 3

tcgtcggcag cgtctccacg catagaggcg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 4

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 4

tcgtcggcag cgtctccacg ccctatcctg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 5

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 5

tcgtcggcag cgtctccacg cggctctgag cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 6

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 6

tcgtcggcag cgtctccacg caggcgaagg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 7

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 7

tcgtcggcag cgtctccacg ctaatcttag cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 8

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 8

tcgtcggcag cgtctccacg ccaggacgtg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 9

<211> 63

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 9

tcgtcggcag cgtctccacg cgtactgacg cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 10

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 10

gtctcgtggg ctcggctgtc cctgtcccga gtaatcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 11

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 11

gtctcgtggg ctcggctgtc cctgtcctct ccggacaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 12

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 12

gtctcgtggg ctcggctgtc cctgtccaat gagcgcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 13

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 13

gtctcgtggg ctcggctgtc cctgtccgga atctccaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 14

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 14

gtctcgtggg ctcggctgtc cctgtccttc tgaatcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 15

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 15

gtctcgtggg ctcggctgtc cctgtccacg aattccaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 16

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 16

gtctcgtggg ctcggctgtc cctgtccagc ttcagcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 17

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 17

gtctcgtggg ctcggctgtc cctgtccgcg cattacaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 18

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 18

gtctcgtggg ctcggctgtc cctgtcccat agccgcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 19

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 19

gtctcgtggg ctcggctgtc cctgtccttc gcggacaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 20

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 20

gtctcgtggg ctcggctgtc cctgtccgcg cgagacaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 21

<211> 69

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 加标签寡核苷酸

<400> 21

gtctcgtggg ctcggctgtc cctgtcccta tcgctcaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 22

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 22

caagcagaag acggcatacg agataatgcc gcttgtctcg tgggctcgg 49

<210> 23

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 23

caagcagaag acggcatacg agattataga cgcagtctcg tgggctcgg 49

<210> 24

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 24

caagcagaag acggcatacg agattcaatc gcatgtctcg tgggctcgg 49

<210> 25

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 25

caagcagaag acggcatacg agatttctta ataagtctcg tgggctcgg 49

<210> 26

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 26

caagcagaag acggcatacg agatgtccta gagggtctcg tgggctcgg 49

<210> 27

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 27

caagcagaag acggcatacg agatatattg atacgtctcg tgggctcgg 49

<210> 28

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 28

caagcagaag acggcatacg agatccgctg ccaggtctcg tgggctcgg 49

<210> 29

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 29

caagcagaag acggcatacg agatcctagt acgtgtctcg tgggctcgg 49

<210> 30

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 30

caagcagaag acggcatacg agatcaatta ccgtgtctcg tgggctcgg 49

<210> 31

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 31

caagcagaag acggcatacg agatggccgt agtcgtctcg tgggctcgg 49

<210> 32

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 32

caagcagaag acggcatacg agatcgatta cggcgtctcg tgggctcgg 49

<210> 33

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 33

caagcagaag acggcatacg agattaatga acgagtctcg tgggctcgg 49

<210> 34

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 34

caagcagaag acggcatacg agatccgttc cttagtctcg tgggctcgg 49

<210> 35

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 35

caagcagaag acggcatacg agatggtacc atatgtctcg tgggctcgg 49

<210> 36

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 36

caagcagaag acggcatacg agatccgatt cgcagtctcg tgggctcgg 49

<210> 37

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 37

caagcagaag acggcatacg agatatggct ctgcgtctcg tgggctcgg 49

<210> 38

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 38

caagcagaag acggcatacg agatgtataa tacggtctcg tgggctcgg 49

<210> 39

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 39

caagcagaag acggcatacg agatatcagc aagtgtctcg tgggctcgg 49

<210> 40

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 40

caagcagaag acggcatacg agatggcgaa ctcggtctcg tgggctcgg 49

<210> 41

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 41

caagcagaag acggcatacg agatttaatt gaatgtctcg tgggctcgg 49

<210> 42

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 42

caagcagaag acggcatacg agatttagga ccgggtctcg tgggctcgg 49

<210> 43

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 43

caagcagaag acggcatacg agataagtaa gagcgtctcg tgggctcgg 49

<210> 44

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 44

caagcagaag acggcatacg agatccttgg tccagtctcg tgggctcgg 49

<210> 45

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 45

caagcagaag acggcatacg agatcatcag aatggtctcg tgggctcgg 49

<210> 46

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 46

caagcagaag acggcatacg agatttatag cagagtctcg tgggctcgg 49

<210> 47

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 47

caagcagaag acggcatacg agatttactt ggaagtctcg tgggctcgg 49

<210> 48

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 48

caagcagaag acggcatacg agatgctcag ccgggtctcg tgggctcgg 49

<210> 49

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 49

caagcagaag acggcatacg agatacgtcc gcaggtctcg tgggctcgg 49

<210> 50

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 50

caagcagaag acggcatacg agatttgact gacggtctcg tgggctcgg 49

<210> 51

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 51

caagcagaag acggcatacg agatttgcga ggcagtctcg tgggctcgg 49

<210> 52

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 52

caagcagaag acggcatacg agatttccaa ccgcgtctcg tgggctcgg 49

<210> 53

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 53

caagcagaag acggcatacg agattaacct tcgggtctcg tgggctcgg 49

<210> 54

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 54

caagcagaag acggcatacg agattcaagc cgatgtctcg tgggctcgg 49

<210> 55

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 55

caagcagaag acggcatacg agatcttgca acctgtctcg tgggctcgg 49

<210> 56

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 56

caagcagaag acggcatacg agatccatcg cgaagtctcg tgggctcgg 49

<210> 57

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 57

caagcagaag acggcatacg agattagact tcttgtctcg tgggctcgg 49

<210> 58

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 58

caagcagaag acggcatacg agattgcgcg atgcgtctcg tgggctcgg 49

<210> 59

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 59

caagcagaag acggcatacg agatattgag attggtctcg tgggctcgg 49

<210> 60

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 60

caagcagaag acggcatacg agatttgata tattgtctcg tgggctcgg 49

<210> 61

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 61

caagcagaag acggcatacg agatcggtag gaatgtctcg tgggctcgg 49

<210> 62

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 62

caagcagaag acggcatacg agataccagc gcaggtctcg tgggctcgg 49

<210> 63

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 63

caagcagaag acggcatacg agatcgaatg agctgtctcg tgggctcgg 49

<210> 64

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 64

caagcagaag acggcatacg agatagttcg agtagtctcg tgggctcgg 49

<210> 65

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 65

caagcagaag acggcatacg agatttggac gctggtctcg tgggctcgg 49

<210> 66

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 66

caagcagaag acggcatacg agatatagac tagggtctcg tgggctcgg 49

<210> 67

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 67

caagcagaag acggcatacg agattatagt aagcgtctcg tgggctcgg 49

<210> 68

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 68

caagcagaag acggcatacg agatcggtcg ttaagtctcg tgggctcgg 49

<210> 69

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 69

caagcagaag acggcatacg agatatggcg gatcgtctcg tgggctcgg 49

<210> 70

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 70

caagcagaag acggcatacg agatctctga tcaggtctcg tgggctcgg 49

<210> 71

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 71

caagcagaag acggcatacg agatggccag tccggtctcg tgggctcgg 49

<210> 72

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 72

caagcagaag acggcatacg agatcggaag atatgtctcg tgggctcgg 49

<210> 73

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 73

caagcagaag acggcatacg agattggctg atgagtctcg tgggctcgg 49

<210> 74

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 74

caagcagaag acggcatacg agatgaaggt tgccgtctcg tgggctcgg 49

<210> 75

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 75

caagcagaag acggcatacg agatgttgaa ggatgtctcg tgggctcgg 49

<210> 76

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 76

caagcagaag acggcatacg agatccattc gtaagtctcg tgggctcgg 49

<210> 77

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 77

caagcagaag acggcatacg agattgcgcc agaagtctcg tgggctcgg 49

<210> 78

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 78

caagcagaag acggcatacg agatcgaata attcgtctcg tgggctcgg 49

<210> 79

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 79

caagcagaag acggcatacg agatgcgacg ccttgtctcg tgggctcgg 49

<210> 80

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 80

caagcagaag acggcatacg agatatcaac gattgtctcg tgggctcgg 49

<210> 81

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 81

caagcagaag acggcatacg agatgttctg aattgtctcg tgggctcgg 49

<210> 82

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 82

caagcagaag acggcatacg agatgctaac ctcagtctcg tgggctcgg 49

<210> 83

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 83

caagcagaag acggcatacg agatcaagca actggtctcg tgggctcgg 49

<210> 84

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 84

caagcagaag acggcatacg agatggagcg gccggtctcg tgggctcgg 49

<210> 85

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 85

caagcagaag acggcatacg agatcgcgta cgacgtctcg tgggctcgg 49

<210> 86

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 86

caagcagaag acggcatacg agatcgatgg cgccgtctcg tgggctcgg 49

<210> 87

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 87

caagcagaag acggcatacg agattggtat tcatgtctcg tgggctcgg 49

<210> 88

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 88

caagcagaag acggcatacg agatgataag gcaagtctcg tgggctcgg 49

<210> 89

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 89

caagcagaag acggcatacg agatgccggt cgaggtctcg tgggctcgg 49

<210> 90

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 90

caagcagaag acggcatacg agattgcgcc atctgtctcg tgggctcgg 49

<210> 91

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 91

caagcagaag acggcatacg agataagtct tccggtctcg tgggctcgg 49

<210> 92

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 92

caagcagaag acggcatacg agatagactc aagcgtctcg tgggctcgg 49

<210> 93

<211> 49

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 93

caagcagaag acggcatacg agatgcaggc gacggtctcg tgggctcgg 49

<210> 94

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 94

aatgatacgg cgaccaccga gatctacacg tccttaagat cgtcggcagc gtc 53

<210> 95

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 95

aatgatacgg cgaccaccga gatctacaca gtaacggtct cgtcggcagc gtc 53

<210> 96

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 96

aatgatacgg cgaccaccga gatctacacg ttcgtcagat cgtcggcagc gtc 53

<210> 97

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 97

aatgatacgg cgaccaccga gatctacacc gcctaatgct cgtcggcagc gtc 53

<210> 98

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 98

aatgatacgg cgaccaccga gatctacaca ccggaattat cgtcggcagc gtc 53

<210> 99

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 99

aatgatacgg cgaccaccga gatctacact aggccatagt cgtcggcagc gtc 53

<210> 100

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 100

aatgatacgg cgaccaccga gatctacact aactcttagt cgtcggcagc gtc 53

<210> 101

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 101

aatgatacgg cgaccaccga gatctacact atgagttaat cgtcggcagc gtc 53

<210> 102

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 102

aatgatacgg cgaccaccga gatctacact atcatgatct cgtcggcagc gtc 53

<210> 103

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 103

aatgatacgg cgaccaccga gatctacacg agcatatggt cgtcggcagc gtc 53

<210> 104

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 104

aatgatacgg cgaccaccga gatctacact aacgatccat cgtcggcagc gtc 53

<210> 105

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 105

aatgatacgg cgaccaccga gatctacacc ggcgtaactt cgtcggcagc gtc 53

<210> 106

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 106

aatgatacgg cgaccaccga gatctacacc gtcgcagcct cgtcggcagc gtc 53

<210> 107

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 107

aatgatacgg cgaccaccga gatctacacg tagctccatt cgtcggcagc gtc 53

<210> 108

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 108

aatgatacgg cgaccaccga gatctacact tgccttggct cgtcggcagc gtc 53

<210> 109

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 109

aatgatacgg cgaccaccga gatctacact gctaattctt cgtcggcagc gtc 53

<210> 110

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 110

aatgatacgg cgaccaccga gatctacacg tcctacttgt cgtcggcagc gtc 53

<210> 111

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 111

aatgatacgg cgaccaccga gatctacacg gtaggttagt cgtcggcagc gtc 53

<210> 112

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 112

aatgatacgg cgaccaccga gatctacacg agcatcattt cgtcggcagc gtc 53

<210> 113

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 113

aatgatacgg cgaccaccga gatctacacc cgctccggct cgtcggcagc gtc 53

<210> 114

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 114

aatgatacgg cgaccaccga gatctacact tcttccggtt cgtcggcagc gtc 53

<210> 115

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 115

aatgatacgg cgaccaccga gatctacaca ggagagaact cgtcggcagc gtc 53

<210> 116

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 116

aatgatacgg cgaccaccga gatctacact aactcaattt cgtcggcagc gtc 53

<210> 117

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 117

aatgatacgg cgaccaccga gatctacaca ctataggttt cgtcggcagc gtc 53

<210> 118

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 118

aatgatacgg cgaccaccga gatctacact aacgaattgt cgtcggcagc gtc 53

<210> 119

<211> 53

<212> DNA

<213> PCR引物

<400> 119

aatgatacgg cgaccaccga gatctacact gagaaccaat cgtcggcagc gtc 53

<210> 120

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 120

aatgatacgg cgaccaccga gatctacact tattctgagt cgtcggcagc gtc 53

<210> 121

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 121

aatgatacgg cgaccaccga gatctacact tattatggtt cgtcggcagc gtc 53

<210> 122

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 122

aatgatacgg cgaccaccga gatctacaca tatgagccat cgtcggcagc gtc 53

<210> 123

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 123

aatgatacgg cgaccaccga gatctacacc aaccagtact cgtcggcagc gtc 53

<210> 124

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 124

aatgatacgg cgaccaccga gatctacacc atccgactat cgtcggcagc gtc 53

<210> 125

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 125

aatgatacgg cgaccaccga gatctacaca tcatggctgt cgtcggcagc gtc 53

<210> 126

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 126

aatgatacgg cgaccaccga gatctacacc cgcaagttct cgtcggcagc gtc 53

<210> 127

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 127

aatgatacgg cgaccaccga gatctacacc ttctcattgt cgtcggcagc gtc 53

<210> 128

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 128

aatgatacgg cgaccaccga gatctacacc aggaggagat cgtcggcagc gtc 53

<210> 129

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 129

aatgatacgg cgaccaccga gatctacacg atatcggcgt cgtcggcagc gtc 53

<210> 130

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 130

aatgatacgg cgaccaccga gatctacacc cagtcctctt cgtcggcagc gtc 53

<210> 131

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 131

aatgatacgg cgaccaccga gatctacacc atagttcggt cgtcggcagc gtc 53

<210> 132

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 132

aatgatacgg cgaccaccga gatctacacc gtaatgcagt cgtcggcagc gtc 53

<210> 133

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 133

aatgatacgg cgaccaccga gatctacacc cgttcggatt cgtcggcagc gtc 53

<210> 134

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 134

aatgatacgg cgaccaccga gatctacacc cataagtcct cgtcggcagc gtc 53

<210> 135

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 135

aatgatacgg cgaccaccga gatctacacg gcaatgagat cgtcggcagc gtc 53

<210> 136

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 136

aatgatacgg cgaccaccga gatctacacc ggttatgcct cgtcggcagc gtc 53

<210> 137

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 137

aatgatacgg cgaccaccga gatctacact ggccggcctt cgtcggcagc gtc 53

<210> 138

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 138

aatgatacgg cgaccaccga gatctacaca gctgcaatat cgtcggcagc gtc 53

<210> 139

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 139

aatgatacgg cgaccaccga gatctacact ggccatgcat cgtcggcagc gtc 53

<210> 140

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 140

aatgatacgg cgaccaccga gatctacact gacgctccgt cgtcggcagc gtc 53

<210> 141

<211> 53

<212> DNA

<213> 人工的(Artificial)

<220>

<223> PCR引物

<400> 141

aatgatacgg cgaccaccga gatctacaca actgctgcct cgtcggcagc gtc 53

<210> 142

<211> 34

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 测序引物

<400> 142

gcgatcgagg acggcagatg tgtataagag acag 34

<210> 143

<211> 34

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 测序引物

<400> 143

caccgtctcc gcctcagatg tgtataagag acag 34

<210> 144

<211> 34

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 测序引物

<400> 144

ctgtctctta tacacatctg aggcggagac ggtg 34

<210> 145

<211> 34

<212> DNA

<213> 人工的(Artificial)

<220>

<223> 测序引物

<400> 145

ctgtctctta tacacatctg ccgtcctcga tcgc 34

Claims

1.一种制备包含来自多个单细胞的全基因组核酸的测序文库的方法，所述方法包括：

(a)提供来自多个单细胞的分离的细胞核；

(b)使所述分离的细胞核经受化学处理以生成核小体耗尽的细胞核，同时维持所述分离的细胞核的完整性，其中所述化学处理包括：

用可逆交联剂处理，之后用能够破坏核酸-蛋白相互作用的洗涤剂处理，其中所述可逆交联剂是甲醛，其中所述洗涤剂包括十二烷基硫酸钠(SDS)；

(c)将所述核小体耗尽的细胞核的子集分布到第一多个隔室中并且使每个子集与转座体复合物接触，其中每个隔室中的所述转座体复合物包含转座酶和与其他隔室中的第一索引序列不同的第一索引序列；

(d)将核小体耗尽的细胞核的所述子集中的核酸片段化成多个核酸片段，并且将所述第一索引序列掺入所述核酸片段的至少一条链中以生成包含加索引的核酸片段的加索引的细胞核，其中所述加索引的核酸片段保持附接至所述转座酶；

(g)逆转所述交联；

(h)将第二索引序列掺入每个隔室中的所述加索引的核酸片段中以生成双索引片段，其中每个隔室中的所述第二索引序列与其他隔室中的第二索引序列不同；

(i)组合所述双索引片段，从而产生包含来自所述多个单细胞的全基因组核酸的测序文库。

2.如权利要求1所述的方法，其中甲醛的浓度的范围为从0.2％至2％。

3.如权利要求2所述的方法，其中甲醛的浓度为0.2％-1.5％。

4.如权利要求1所述的方法，其中所述可逆交联的逆转包括在55℃至72℃孵育。

5.如权利要求1-4中任一项所述的方法，其中在所述交联的逆转之前，所述转座酶与所述加索引的核酸片段解离。

6.如权利要求5所述的方法，其中使用十二烷基硫酸钠(SDS)使所述转座酶与所述加索引的核酸片段解离。

7.如权利要求1所述的方法，其中所述核小体耗尽的细胞核在步骤(d)之前用限制酶处理。

8.如权利要求7所述的方法，其中所述核小体耗尽的细胞核在用所述限制酶处理后用连接酶处理。

9.如权利要求1所述的方法，其中步骤(c)和步骤(f)中的所述分布通过荧光激活细胞核分选执行。

10.如权利要求1所述的方法，其中所述核小体耗尽的细胞核的所述子集包含相等数量的细胞核。

11.如权利要求10所述的方法，其中所述核小体耗尽的细胞核的所述子集包含从1至2000个细胞核。

12.如权利要求1所述的方法，其中所述第一多个隔室是多孔板。

13.如权利要求12所述的方法，其中所述多孔板是96孔板或384孔板。

14.如权利要求1所述的方法，其中所述合并的加索引的细胞核的所述子集包含相等数量的细胞核。

15.如权利要求14所述的方法，其中所述合并的加索引的细胞核的所述子集包含从1至25个细胞核。

16.如权利要求1所述的方法，其中所述合并的加索引的细胞核的所述子集包含为所述核小体耗尽的细胞核的所述子集的至多1/10的细胞核。

17.如权利要求1所述的方法，其中所述合并的加索引的细胞核的所述子集包含为所述核小体耗尽的细胞核的所述子集的至多1/100的细胞核。

18.如权利要求1所述的方法，其中所述第二多个隔室是多孔板。

19.如权利要求18所述的方法，其中所述多孔板是96孔板或384孔板。

20.如权利要求1所述的方法，其中步骤(c)包括在核小体耗尽的细胞核的所述子集被分布后将所述转座体复合物加入到所述隔室中。

21.如权利要求1所述的方法，其中所述转座体复合物中的每个包含转座子，所述转座子中的每个包含转移链，所述转移链为转座酶识别位点的将转移到靶核酸中的一条链。

22.如权利要求21所述的方法，其中所述转移链包含所述第一索引序列和第一通用序列。

23.如权利要求22所述的方法，其中步骤(h)中所述第二索引序列的掺入包括使每个隔室中的所述加索引的核酸片段与第一通用引物和第二通用引物接触，每个引物包含索引序列并且每个引物包含与所述第一通用序列的一部分相同或互补的序列；以及执行指数式扩增反应。

24.如权利要求23所述的方法，其中所述第一通用引物的索引序列是所述第二通用引物的索引序列的反向互补物。

25.如权利要求23所述的方法，其中所述第一通用引物的索引序列不同于所述第二通用引物的索引序列的反向互补物。

26.如权利要求23所述的方法，其中所述第一通用引物还包含第一捕获序列和与所述双索引片段的3'末端的通用序列互补的第一锚定序列。

27.如权利要求26所述的方法，其中所述第一捕获序列包含P5引物序列。

28.如权利要求23所述的方法，其中所述第二通用引物还包含第二捕获序列和与所述双索引片段的5'末端的通用序列互补的第二锚定序列。

29.如权利要求28所述的方法，其中所述第二捕获序列包含P7引物序列的反向互补物。

30.如权利要求23所述的方法，其中所述指数式扩增反应包括聚合酶链式反应(PCR)。

31.如权利要求30所述的方法，其中所述PCR包括15至30个循环。

32.如权利要求1所述的方法，所述方法还包括使用对双索引片段具有特异性的多个捕获寡核苷酸富集所述双索引片段。

33.如权利要求32所述的方法，其中所述捕获寡核苷酸固定在固体基材的表面上。

34.如权利要求32至33中任一项所述的方法，其中所述捕获寡核苷酸包含通用结合对的第一成员，并且其中所述通用结合对的第二成员固定在固体基材的表面上。

35.如权利要求1所述的方法，所述方法还包括对所述双索引片段进行测序以确定来自所述多个单细胞的核酸的核苷酸序列。

36.如权利要求35所述的方法，所述方法还包括：

提供包含多个扩增位点的表面，其中所述扩增位点包括具有游离3'末端的附接的单链捕获寡核苷酸的至少两个群体，和

37.如权利要求36所述的方法，其中所述双索引片段的数量超过扩增位点的数量，其中所述双索引片段具有对所述扩增位点的流体可及性，并且其中所述扩增位点中的每个包含用于所述测序文库中几个双索引片段的容量。

38.如权利要求36至37中任一项所述的方法，其中所述接触包括同时地(i)以平均转运速率将所述双索引片段转运至所述扩增位点，和(ii)以平均扩增速率扩增所述扩增位点处的所述双索引片段，其中所述平均扩增速率超过所述平均转运速率。