CN114568027A

CN114568027A - 用于确定细胞轨迹的单细胞分析的方法和设备

Info

Publication number: CN114568027A
Application number: CN202080069881.6A
Authority: CN
Inventors: D·拉夫; D·丁格拉; A·奥伊; P·门德兹
Original assignee: Mission Biology
Current assignee: Mission Biology
Priority date: 2019-08-05
Filing date: 2020-08-05
Publication date: 2022-05-31
Also published as: EP4010472A1; EP4010472A4; CA3147077A1; JP2022543278A; US20220282326A1; AU2020325026A1; WO2021026228A1

Abstract

使用组合的对RNA转录物的RNA测序和对染色质可及DNA的DNA测序执行单细胞分析以确定单细胞的轨迹。使用不包含蛋白酶或转座酶的试剂对单个细胞进行包封和裂解。细胞裂解物包括RNA转录物和包装的DNA(例如作为染色质包装的DNA)。在所述包装的DNA中的DNA区段被引发、扩增和测序，以产生染色质可及DNA的序列读数。RNA转录物被逆转录以产生cDNA，所述cDNA然后被引发、扩增和测序以产生序列读数。来自RNA‑seq和DNA‑seq的序列读数揭示了细胞的不同状态，并且因此可用于预测细胞轨迹。

Description

用于确定细胞轨迹的单细胞分析的方法和设备

交叉参考

本申请要求2019年8月5日提交的美国临时申请第62/882,750号的权益和优先权，将所述申请的全部公开内容出于所有目的以引用的方式整体并入本文。

背景技术

单细胞分析在过去几年中有了显著的进步，使得询问细胞基因组学、转录组学和/或蛋白质表达成为可能。先前的努力利用平行RNA测序和使用测序进行转座酶可及染色质测定(ATAC-seq)(例如参见美国专利申请号16/206,168)。然而，这些工作流协议需要多种生物试剂，诸如蛋白酶和转座酶(例如Tn5转座酶)来处理细胞中的分析物。包含各种生物试剂使工作流过程显著复杂化，并且可能导致噪声和/或错误的序列读数。此外，在单细胞分析中包含各种生物试剂是一项昂贵的工作，尤其是在将要分析来自各种样本的细胞数量渐增的情况下。

发明内容

本公开总体上涉及通过染色质可及DNA的组合RNA测序和DNA测序进行单细胞分析的方法和设备。在这里，DNA测序工作流过程代表了ATAC-seq的替代方案。DNA测序工作流最大程度减少或避免使用转座酶，诸如Tn5转座酶。此类方法涉及两步骤工作流，包括将细胞包封在乳液中并且使细胞暴露于导致细胞裂解的试剂的第一步骤。在各种实施方案中，试剂包括用于裂解细胞的洗涤剂，但最大程度减少或避免使用蛋白酶，诸如蛋白酶K。此类最大程度减少或避免使用蛋白酶或转座酶的试剂是优选的，因为这通过需要更少的耗材简化了单细胞工作流过程。此外，尤其是在分析大量细胞时，这降低了单细胞工作流过程的耗材和操作的成本。细胞裂解物包括RNA转录物和包装的DNA(例如作为染色质包装的DNA)。RNA转录物被逆转录产生相应的cDNA。第二步骤涉及将至少cDNA和包装的DNA包封到具有条形码和/或反应混合物的第二乳液中。在第二乳液中，cDNA和包装的DNA经历加条形码(barcoding)，并且将所述反应混合物用于进行核酸扩增反应。在包装的DNA中可及的DNA区段(例如，染色质可及DNA)可以被引发和扩增。对扩增的核酸测序产生源自RNA转录物和染色质可及DNA的序列读数。分析所产生的序列读数以确定单细胞的轨迹。例如，RNA转录物的序列读数提供单细胞先前状态的快照，然而染色质可及DNA的序列读数提供单细胞未来状态的快照。

本文公开了一种用于预测细胞的细胞轨迹的方法，所述方法包括：将细胞包封在包含试剂的乳液中，所述细胞包含至少一种RNA分子和含有染色质可及DNA区段的包装的DNA；裂解乳液中的细胞，从而使所述RNA和所述包装的DNA暴露于所述试剂，其中所述试剂包含小于0.50mg/mL的蛋白酶和小于2.5％(v/v)的转座酶；使用所述至少一种RNA产生至少一种cDNA分子；将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在第二乳液中；使用所述反应混合物在所述第二乳液中进行核酸扩增反应以产生多种核酸，所述多种核酸包含来自所述至少一种cDNA分子之一的第一核酸和源自所述包装的DNA的染色质可及DNA区段的第二核酸；并且对所述第一核酸和所述第二核酸进行测序。在各种实施方案中，所述试剂包含小于0.10mg/mL的蛋白酶。在各种实施方案中，所述试剂包含小于0.01mg/mL的蛋白酶。在各种实施方案中，所述试剂不包含蛋白酶。在各种实施方案中，所述试剂包含小于0.1％(v/v)的转座酶。在各种实施方案中，所述试剂包含小于0.01％(v/v)的转座酶。在各种实施方案中，所述试剂不包含转座酶。

在各种实施方案中，使用反应混合物在第二乳液中进行核酸扩增反应以产生多种核酸包括：引发在包装的DNA中的染色质可及DNA区段；以及从引发的染色质可及DNA区段产生延伸产物。在各种实施方案中，所述方法还包括：在乳液中，从包装的DNA中的染色质可及DNA区段产生延伸产物，并且其中将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在所述第二乳液中还包括将所述延伸产物包封在所述第二乳液中。在各种实施方案中，从包装的DNA中的染色质可及DNA区段产生延伸产物包括：使第一乳液暴露于介于40℃与60℃之间的温度，从而使染色质可及DNA区段失去稳定。

在各种实施方案中，所述试剂包含逆转录酶。在各种实施方案中，所述试剂包含NP-40。在各种实施方案中，所述方法还包括使用经测序的第一核酸和经测序的第二核酸预测细胞轨迹。在各种实施方案中，预测细胞轨迹包括使用至少经测序的第一核酸和第二核酸来确定细胞的两种不同状态。在各种实施方案中，将经测序的第一核酸用于确定细胞的先前状态，并且其中将经测序的第二核酸用于确定细胞的未来状态。

在各种实施方案中，所述至少一种RNA先前从包含一个染色质可及DNA的DNA区域转录，由此指示细胞的先前状态和未来状态之间的共同性。在各种实施方案中，所述至少一种RNA从与染色质不可及DNA对应的DNA区域转录，由此指示从细胞的先前状态向细胞的未来状态的转变。在各种实施方案中，细胞轨迹是细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态或细胞对外部刺激的未来响应中的任一者。

在各种实施方案中，所述方法还包括将第一条形码和第二条形码连同所述至少一种cDNA、至少一种染色质可及DNA和反应混合物一起包封在所述第二乳液中。在各种实施方案中，第一核酸包含第一条形码。在各种实施方案中，第二核酸包含第二条形码。在各种实施方案中，第一条形码和第二条形码共享相同的条形码序列。在各种实施方案中，第一条形码和第二条形码共享不同的条形码序列。在各种实施方案中，第一条形码和第二条形码可释放地附接到第二乳液中的珠粒。

在各种实施方案中，逆转录所述至少一种RNA发生在所述第一乳液内。在各种实施方案中，核酸扩增反应是聚合酶链反应。在各种实施方案中，其中所述多种核酸还包含从在包装的DNA中与内含子DNA区域对应的其他染色质可及DNA区段来源的核酸。在各种实施方案中，从包装的DNA中与内含子DNA区域对应的其他染色质可及DNA分子来源的核酸中的至少50％具有在100至500个碱基对之间的长度。

另外，本文还公开了一种系统，所述系统包括：配置成将细胞包封在包含试剂的乳液中的装置，所述细胞包含至少一种RNA分子和含有染色质可及DNA区段的包装的DNA；裂解所述乳液内的细胞，从而使所述RNA和所述包装的DNA暴露于所述试剂，其中所述试剂包含小于0.50mg/mL的蛋白酶和小于2.5％(v/v)的转座酶；通过逆转录所述至少一种RNA产生所述至少一种cDNA分子；并且将所述至少一种cDNA分子、包装的DNA和试剂包封在第二乳液中；在所述第二乳液内进行PCR反应以产生多种核酸，所述多种核酸包含：来自所述至少一种cDNA分子之一的第一核酸；和源自所述包装的DNA的染色质可及DNA区段的第二核酸；并且对所述第一核酸和所述第二核酸进行测序。

在各种实施方案中，所述系统还包括：通信地耦接至所述装置的计算装置，所述计算装置被配置成通过使用经测序的第一核酸和第二核酸来预测细胞轨迹。

在各种实施方案中，所述试剂包含小于0.10mg/mL的蛋白酶。在各种实施方案中，所述试剂包含小于0.01mg/mL的蛋白酶。在各种实施方案中，所述试剂不包含蛋白酶。在各种实施方案中，所述试剂包含小于0.1％(v/v)的转座酶。在各种实施方案中，所述试剂包含小于0.01％(v/v)的转座酶。在各种实施方案中，所述试剂不包含转座酶。

在各种实施方案中，使用反应混合物在第二乳液中进行核酸扩增反应以产生多种核酸包括：引发在包装的DNA中的染色质可及DNA区段；以及从引发的染色质可及DNA区段产生延伸产物。

在各种实施方案中，所述系统还被配置成：在乳液中，从包装的DNA中的染色质可及DNA区段产生延伸产物，并且其中将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在所述第二乳液中还包括将所述延伸产物包封在所述第二乳液中。在各种实施方案中，从包装的DNA中的染色质可及DNA区段产生延伸产物包括：使第一乳液暴露于介于40℃与60℃之间的温度，从而使染色质可及DNA区段失去稳定。

在各种实施方案中，所述试剂包含逆转录酶。在各种实施方案中，所述试剂包含NP-40。在各种实施方案中，预测细胞轨迹包括使用至少经测序的第一核酸和第二核酸来确定细胞的两种不同状态。在各种实施方案中，将经测序的第一核酸用于确定细胞的先前状态，并且其中将经测序的第二核酸用于确定细胞的未来状态。

在各种实施方案中，所述至少一种RNA先前从包含一个染色质可及DNA的DNA区域转录，由此指示细胞的先前状态和未来状态之间的共同性。在各种实施方案中，所述至少一种RNA从与染色质不可及DNA对应的DNA区域转录，由此指示从细胞的先前状态向细胞的未来状态的转变。在各种实施方案中，细胞轨迹是细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态或细胞对外部刺激的未来响应中的任一者。在各种实施方案中，所述装置还被配置成将第一条形码和第二条形码连同所述至少一种cDNA、至少一种染色质可及DNA和反应混合物一起包封在所述第二乳液中。

在各种实施方案中，第一核酸包含第一条形码。在各种实施方案中，第二核酸包含第二条形码。在各种实施方案中，第一条形码和第二条形码共享相同的条形码序列。在各种实施方案中，第一条形码和第二条形码共享不同的条形码序列。在各种实施方案中，第一条形码和第二条形码可释放地附接到第二乳液中的珠粒。在各种实施方案中，逆转录所述至少一种RNA发生在所述第一乳液内。在各种实施方案中，核酸扩增反应是聚合酶链反应。

在各种实施方案中，所述多种核酸还包含从在包装的DNA中与内含子DNA区域对应的其他染色质可及DNA区段来源的核酸。在各种实施方案中，从包装的DNA中与内含子DNA区域对应的其他染色质可及DNA分子来源的核酸中的至少50％具有在100至500个碱基对之间的长度。

附图中几个视图的简述

参考以下描述和附图将更好地理解本发明的这些和其他特征、方面和优点，其中：

图1示出了处理单细胞以产生用于测序的扩增核酸分子的实施方案。

图2是使用从单细胞的分析物来源的测序读数确定单细胞的细胞轨迹的流程过程。

图3A-3C描绘了根据不包括使用蛋白酶或转座酶的实施方案处理和释放乳液中的单细胞的分析物。

图4A描绘了根据第一实施方案处理第一乳液中的RNA和包装的DNA。

图4B描绘了根据图4A所示的第一实施方案从RNA和染色质可及DNA来源的核酸的扩增和加条形码。

图4C描绘了根据第二实施方案处理第一乳液中的RNA和包装的DNA。

图4D描绘了根据图4C所示的第二实施方案从RNA和染色质可及DNA来源的核酸的扩增和加条形码。

图5A描绘了根据第一实施方案的通过用于确定细胞轨迹的单细胞RNA-seq和DNA-seq获得的测序读数。

图5B描绘了根据第二实施方案的通过用于确定细胞轨迹的单细胞RNA-seq和DNA-seq获得的测序读数。

图6描绘了包括单细胞工作流装置和用于进行单细胞分析以预测细胞轨迹的计算装置的总体系统环境。

图7描绘了用于实现参考图1-6所描绘的系统和方法的示例性计算装置。

图8A描绘了从通过寡dT引发K-562细胞获得的内含子区域读数观察到的DNA扩增子大小，其中在包封期间不使用蛋白酶K和转座酶(Tn5)。

图8B和8C示出了与参考基因组比对(分别与CCL2基因和HLA-C基因比对)的序列读数的集成基因组查看器(IGV)截图。

图9A描绘了从通过基因特异性引发MCF7细胞获得的内含子区域读数观察到的DNA扩增子大小，其中在包封期间不使用蛋白酶K和转座酶(Tn5)。

图9B和9C示出了与参考基因组比对(分别与VIM基因和MKI67基因比对)的序列读数的集成基因组查看器(IGV)截图。

具体实施方式

定义

除非另有规定，否则如下文所阐述的对权利要求书和说明书中使用的术语进行定义。

术语“受试者”或“患者”可互换使用，并且涵盖有机体、人或非人哺乳动物或非哺乳动物雄性或雌性。

术语“样品”或“测试样品”可以包括通过包括静脉穿刺、排泄、射精、按摩、活检、针吸、灌洗样品、刮片、外科切口、或介入或本领域已知的其他手段等方式从受试者获取的单个细胞或多个细胞或细胞碎片或体液等分试样诸如血液样品。

术语“分析物”是指细胞的组分。细胞分析物可以为理解细胞的状态、行为或轨迹提供信息。因此，使用本文所述的系统和方法执行对细胞的一种或多种分析物的单细胞分析为确定细胞的状态或行为提供信息。分析物的实例包括核酸(例如，RNA、DNA、cDNA)、蛋白质、肽、抗体、抗体片段、多糖、糖、脂质、小分子或其组合。在特定的实施方案中，单细胞分析涉及分析两种不同的分析物，诸如RNA和DNA。在特定的实施方案中，单细胞分析涉及分析细胞的三种或更多种不同的分析物，诸如RNA、DNA和蛋白质。

在一些实施方案中，如本文所述的离散实体是液滴。术语“乳液”、“滴”、“液滴”和“微液滴”在本文中可互换使用，是指包含由与第一流体相不可混溶的第二流体相(例如油)所界定的至少第一流体相(例如，水相(例如水))的小的通常球状的结构。在一些实施方案中，根据本公开的液滴可以包含由第二不可混溶的流体相(例如，水相流体(例如水))所界定的第一流体相(例如油)。在一些实施方案中，第二流体相将是不可混溶相载体流体。因此，根据本公开的液滴可以作为油包水乳液或水包油乳液提供。对于离散实体，液滴的尺寸和/或形状可以如本文所述。例如，根据本公开的液滴的直径通常在1μm至1000μm的范围内(包含端值)。根据本公开的液滴可以用于包封细胞、核酸(例如，DNA)、酶、试剂、反应混合物和各种其他组分。术语乳液可以用于指在微流体装置中产生、在微流体装置上产生或由微流体装置产生和/或从微流体装置流出或由微流体装置施加的乳液。

术语“细胞轨迹”或“细胞的轨迹”是指细胞从第一状态到第二状态的变化。“细胞轨迹”通过组合RNA-seq和DNA-seq(例如，染色质可及DNA的测序)的单细胞分析来确定。通过RNA-seq获得的测序读数提供细胞过去状态的快照，然而通过DNA-seq获得的测序读数提供细胞未来状态的快照。细胞轨迹的实例包括细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态、细胞对外部刺激(例如治疗)的未来反应中的任一者。

“互补性”是指核酸形成氢键或通过传统的沃森-克里克(Watson-Crick)或其他非传统类型与另一核酸序列杂交的能力。如本文所用，“杂交”是指分子在低、中或高度严格条件下仅与特定核苷酸序列结合、双重化或杂交，包括当所述序列存在于复杂混合物(例如，总细胞)DNA或RNA中时。参见例如Ausubel等人,Current Protocols In MolecularBiology,John Wiley&Sons,New York,N.Y.,1993。如果多核苷酸的特定位置处的核苷酸能够与反平行DNA或RNA链中相同位置处的核苷酸形成沃森-克里克配对，则所述多核苷酸和DNA或RNA分子在所述位置处彼此互补。当每个分子中足够数量的相应位置被可以彼此杂交或退火以影响所需过程的核苷酸占据时，多核苷酸和DNA或RNA分子彼此“基本互补”。互补序列是能够在严格条件下退火以提供用作互补链的合成起点的3'-末端的序列。

本领域已知的“同一性”是两个或更多个多肽序列或两个或更多个多核苷酸序列之间的关系，如通过比较序列所确定。在本领域中，“同一性”还指多肽或多核苷酸序列之间的序列相关性程度，如通过这些序列的串之间的匹配所确定。“同一性”和“相似性”可容易地通过已知方法来计算，所述方法包括但不限于在Computational Molecular Biology,Lesk,A.M.编,Oxford University Press,New York,1988；Biocomputing:Informaticsand Genome Projects,Smith,D.W.编,Academic Press,New York,1993；ComputerAnalysis of Sequence Data,第I部分,Griffin,A.M.和Griffin,H.G.编,Humana Press,New Jersey,1994；Sequence Analysis in Molecular Biology,von Heinje,G.,AcademicPress,1987；和Sequence Analysis Primer,Gribskov,M.和Devereux,J.编,M StocktonPress,New York,1991；以及Carillo,H.和Lipman,D.,Siam J.Applied Math.,48:1073(1988)中描述的那些。此外，可以从使用Vector NTI Suite 8.0(Informax,Frederick,Md.)的AlignX组件的默认设置产生的氨基酸和核苷酸序列比对中获得同一性百分比值。确定同一性的优选方法被设计成在测试的序列之间提供最大匹配。确定同一性和相似性的方法编入公开可用的计算机程序中。确定两个序列之间的同一性和相似性的优选计算机程序方法包括但不限于GCG程序包(Devereux,J.等人,Nucleic Acids Research 12(1):387(1984))、BLASTP、BLASTN和FASTA(Atschul,S.F.等人,J.Molec.Biol.215:403-410(1990))。BLAST X程序可从NCBI和其他来源公开获得(BLAST Manual,Altschul,S.,等人,NCBINLM NIH Bethesda,Md.20894:Altschul,S.等人,J.Mol.Biol.215:403-410(1990)。众所周知的史密斯沃特曼算法(Smith Waterman algorithm)也可用于确定同一性。

术语“扩增”、“扩增反应”及其变型通常是指核酸分子(称为模板核酸分子)的至少一部分凭借其被复制或拷贝到至少一个另外的核酸分子中的任何动作或过程。额外的核酸分子任选地包括与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可以是单链或双链的，并且另外的核酸分子可以独立地是单链或双链的。在一些实施方案中，扩增包括用于产生核酸分子的至少一些部分的至少一个拷贝或产生与核酸分子的至少一些部分互补的核酸序列的至少一个拷贝的模板依赖性体外酶催化反应。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中，使用等温条件执行这种扩增；在其他实施方案中，这种扩增可包括热循环。在一些实施方案中，扩增是包括在单个扩增反应中同时扩增多个靶序列的多重扩增。至少一些靶序列可以位于包括在单个扩增反应中的相同核酸分子或不同靶核酸分子上。在一些实施方案中，“扩增”包括单独或组合扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可以包括单链或双链核酸底物，并且可以进一步包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链反应(PCR)。在一些实施方案中，扩增反应包括等温扩增反应，诸如LAMP。在本发明中，使用术语核酸的“合成”和“扩增”。本发明中的核酸合成是指核酸从用作合成起点的寡核苷酸伸长或延伸。如果不仅这种合成而且其他核酸的形成以及这种形成的核酸的伸长或延伸反应连续发生，则这一系列反应统称为扩增。通过所采用的扩增技术产生的多核酸通常称为“扩增子”或“扩增产物”。

可以利用任何核酸扩增方法，诸如基于PCR的测定，例如定量PCR(qPCR)，或者可以使用恒温扩增来检测存在于离散实体或者其一种或多种组分(例如包封在其中的细胞)中的某些感兴趣的核酸(例如基因)的存在。此类测定可应用于微流体装置或其一部分或任何其他合适位置内的离散实体。此类扩增或基于PCR的测定的条件可以包括随时间推移检测核酸扩增，并且可以以一种或多种方式变化。

多种核酸聚合酶可用于本文提供的某些实施方案中使用的扩增反应中，包括可催化核苷酸(包括其类似物)聚合成核酸链的任何酶。这种核苷酸聚合可以模板依赖性方式发生。这些聚合酶可包括但不限于天然存在的聚合酶及其任何亚基和截短物、突变体聚合酶、变体聚合酶、重组、融合或以其他方式工程化的聚合酶、化学修饰的聚合酶、合成分子或组装体，以及其保留催化这种聚合的能力的任何类似物、衍生物或片段。任选地，聚合酶可以是包含一个或多个突变的突变体聚合酶，所述突变涉及用其他氨基酸替换一个或多个氨基酸、从聚合酶中插入或删除一个或多个氨基酸、或连接两个或更多个聚合酶的部分。通常，聚合酶包含一个或多个活性位点，在所述位点处可以发生核苷酸结合和/或对核苷酸聚合的催化。一些示例性的聚合酶包括但不限于DNA聚合酶和RNA聚合酶。如本文所用，术语“聚合酶”及其变体还包括融合蛋白，所述融合蛋白包含至少两个相互连接的部分，其中第一部分包含可催化核苷酸聚合成核酸链的肽并连接至包含第二多肽的第二部分。在一些实施方案中，第二多肽可包括报告酶或加工性增强结构域。任选地，聚合酶可以具有5'核酸外切酶活性或末端转移酶活性。在一些实施方案中，聚合酶可以任选地被重新激活，例如通过使用热量、化学物质或将新的量的聚合酶重新添加至反应混合物中。在一些实施方案中，聚合酶可以包括热启动聚合酶或基于适体的聚合酶，其任选地可以被重新激活。

术语“靶引物”或“靶特异性引物”及其变型是指与结合位点序列互补的引物。靶引物通常是单链或双链多核苷酸，通常是寡核苷酸，其包括至少一个与靶核酸序列至少部分互补的序列。

“正向引物结合位点”和“反向引物结合位点”是指模板DNA和/或扩增子上正向和反向引物所结合的区域。引物用于界定在扩增期间呈指数扩增的原始模板多核苷酸的区域。在一些实施方案中，额外引物可以与正向引物和/或反向引物的5'的区域结合。在使用此类额外引物的情况下，正向引物结合位点和/或反向引物结合位点可涵盖这些额外引物的结合区以及引物本身的结合区。例如，在一些实施方案中，所述方法可以使用一个或多个与位于正向和/或反向引物结合区的5'的区域结合的额外引物。例如，在WO0028082中公开了这种方法，其公开了“置换引物”或“外引物”的用途。

“条形码”核酸识别序列可以掺入核酸引物中或连接至引物以使得独立测序和识别能够经由条形码彼此关联，该条形码涉及源自存在于相同样品内的分子的信息和识别。有许多技术可以用于将条形码附着至离散实体内的核酸。例如，可以首先扩增靶核酸，然后将其片段化成较短的片段，也可以不这样做。可以将这些分子与含有条形码的离散实体(例如液滴)结合。然后可以使用例如重叠延伸剪接术将条形码附着至分子。在该方法中，初始靶分子可以具有添加的“衔接子”序列，这些序列是引物可以合成到其上的具有已知序列的分子。当与条形码结合时，可以使用与衔接子序列和条形码序列互补的引物，使得靶核酸和条形码两者的产物扩增子可以彼此退火，并且经由延伸反应(诸如DNA聚合)延伸到彼此上，从而产生包含附着至条形码序列的靶核酸的双链产物。替代性地，扩增该靶标的引物自身可以加上条形码，使得在退火并且延伸到靶标上时，产生的扩增子具有掺入其中的条形码序列。该扩增子可以与许多扩增策略一起应用，包括使用PCR的特异性扩增或使用例如MDA的非特异性扩增。可以用于将条形码附着至核酸的替代性酶促反应是连接，包括平端连接或粘端连接。在该方法中，将DNA条形码与靶核酸和连接酶一起孵育，导致条形码与靶标连接。核酸的末端可以根据连接的需要通过多种技术进行修饰，包括通过使用用连接酶或片段引入的衔接子，以使得能够加大对添加到分子末端的条形码的数量的控制。

如本文所用，术语“同一性”和“相同”及其变体，当用于提及两个或更多个序列时，指两个或更多个序列(例如，核苷酸或多肽序列)相同的程度。在两个或更多个序列的情形中，序列或其子序列的同一性或同源性百分比指示所有单体单元(例如，核苷酸或氨基酸)在序列的给定位置或区域相同(即约70％同一性，优选地75％、80％、85％、90％、95％、97％、98％或99％同一性)。当在比较窗口上进行最大对应性的比较和比对时，同一性百分比可以在规定的区域内，或者如使用BLAST或BLAST 2.0序列比较算法用下文描述的默认参数或通过手动比对和目视检查所测量的指定区域内。当在氨基酸水平或核苷酸水平上有至少85％同一性时，序列被称为“基本相同”。优选地，同一性存在于长度为至少约25、50或100个残基的区域内，或跨越至少一个比较序列的全长。确定序列同一性百分比和序列相似性百分比的典型算法是BLAST和BLAST 2.0算法，其描述于Altschul等人,Nuc.Acids Res.25:3389-3402(1977)中。其他方法包括Smith&Waterman,Adv.Appl.Math.2:482(1981)和Needleman&Wunsch,J.Mol.Biol.48:443(1970)等的算法。两个核酸序列基本上相同的另一个指示是两个分子或其互补物在严格杂交条件下彼此杂交。

术语“核酸”、“多核苷酸”和“寡核苷酸”是指核苷酸的生物聚合物，并且除非上下文另有说明，否则包括修饰的和未修饰的核苷酸，以及DNA和RNA两者，以及修饰的核酸骨架。例如，在某些实施方案中，核酸是肽核酸(PNA)或锁核酸(LNA)。通常，本文所描述的方法使用DNA作为核酸模板以执行扩增。然而，其核苷酸被来自天然DNA或RNA的人工衍生物或修饰的核酸替换的核酸也包括在本发明的核酸中，只要其用作用于合成互补链的模板。本发明的核酸通常含于生物样品中。生物样品包括动物、植物或微生物组织、细胞、培养物和分泌物，或其提取物。在某些方面，生物样品包括细胞内寄生基因组DNA或RNA，例如病毒或支原体。核酸可以源自含于所述生物样品中的核酸。例如，基因组DNA或从mRNA合成的cDNA，或基于源自生物样品的核酸扩增的核酸优选用于所描述的方法中。除非另有说明，每当表示寡核苷酸序列时，应理解核苷酸呈从左到右的5'至3'顺序，“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，“T”表示脱氧胸苷，并且“U”表示尿苷。寡核苷酸被称为具有“5'端”和“3'端”，因为单核苷酸通常通过将一个核苷酸的5'磷酸或等效基团连接至其相邻核苷酸的3'羟基或等效基团上，任选地通过磷酸二酯或其他合适的键合而反应形成寡核苷酸。

模板核酸是在核酸扩增技术中充当用于合成互补链的模板的核酸。具有与模板互补的核苷酸序列的互补链具有与模板对应的链的含义，但两者之间的关系仅是相对的。也就是说，根据本文所描述的方法，合成为互补链的链可以再次充当模板。也就是说，互补链可以成为模板。在某些实施方案中，模板源自生物样品，例如植物、动物、病毒、微生物、细菌、真菌等。在某些实施方案中，动物是哺乳动物，例如人类患者。模板核酸通常包含一种或多种靶核酸。示例性实施方案中的靶核酸可包含可根据本公开扩增或合成的任何单链或双链核酸序列，包括怀疑或预期存在于样品中的任何核酸序列。

本文实施方案中使用的引物和寡核苷酸包含核苷酸。核苷酸包含任何化合物，包括但不限于任何天然存在的核苷酸或其类似物，其可以选择性地结合聚合酶或被聚合酶聚合。通常，但不是必须地，核苷酸与聚合酶的选择性结合之后是核苷酸被聚合酶聚合成核酸链；然而，有时核苷酸可能会从聚合酶解离而不会并入核酸链中，此事件在本文中称为“非生产性”事件。此类核苷酸不仅包括天然存在的核苷酸，还包括任何类似物，无论其结构如何，其可以选择性地结合聚合酶或被聚合酶聚合。虽然天然存在的核苷酸通常包含碱基、糖和磷酸部分，但本公开的核苷酸可包括缺少任何一种、一些或所有此类部分的化合物。例如，核苷酸可以任选地包括包含三个、四个、五个、六个、七个、八个、九个、十个或更多个磷原子的磷原子链。在一些实施方案中，磷链可连接至糖环的任何碳，例如5'碳。磷链可以通过中间的O或S连接至糖。在一个实施方案中，链中的一个或多个磷原子可以是具有P和O的磷酸基团的一部分。在另一实施方案中，链中的磷原子可以与中间的O、NH、S、亚甲基、取代的亚甲基、亚乙基、取代的亚乙基、CNH₂、C(O)、C(CH₂)、CH₂CH₂或C(OH)CH₂R(其中R可以是4-吡啶或1-咪唑)连接在一起。在一个实施方案中，链中的磷原子可以具有含O、BH3或S的侧基。在磷链中，具有除O之外的侧基的磷原子可以是取代的磷酸基团。在磷链中，具有除O之外的中间原子的磷原子可以是取代的磷酸基团。核苷酸类似物的一些实例描述于Xu的美国专利号7,405,281中。

在一些实施方案中，核苷酸包含标记并且在本文中称为“标记的核苷酸”；标记的核苷酸的标记在本文中称为“核苷酸标记”。在一些实施方案中，标记可以是连接到末端磷酸基团(即，离糖最远的磷酸基团)的荧光部分(例如，染料)、发光部分等的形式。可用于所公开的方法和组合物中的核苷酸的一些实例包括但不限于核糖核苷酸、脱氧核糖核苷酸、修饰的核糖核苷酸、修饰的脱氧核糖核苷酸、多磷酸核糖核苷酸、多磷酸脱氧核糖核苷酸、修饰的多磷酸核糖核苷酸、修饰的多磷酸脱氧核糖核苷酸、肽核苷酸、修饰的肽核苷酸、金属核苷、膦酸核苷和修饰的磷酸-糖骨架核苷酸、上述化合物的类似物、衍生物或变体等。在一些实施方案中，核苷酸可包含非氧部分，例如硫代或硼烷部分，以代替桥接核苷酸的α磷酸和糖、或核苷酸的α和β磷酸、或核苷酸的β和γ磷酸、或核苷酸的任何其他两种磷酸之间、或其任意组合的氧部分。“核苷酸5'-三磷酸”是指在5'位置处具有三磷酸酯基的核苷酸，有时也表示为“NTP”、或“dNTP”和“ddNTP”，以特别指出核糖的结构特征。三磷酸酯基可以包括对各种氧的硫取代，例如α-硫代核苷酸5'-三磷酸。有关核酸化学的综述，参见：Shabarova,Z.和Bogdanov,A.Advanced Organic Chemistry of Nucleic Acids,VCH,New York,1994。

概述

本文描述了使用组合的RNA-seq和DNA-seq(例如，染色质可及DNA的DNA-seq)执行单细胞分析以预测单细胞轨迹的实施方案。细胞轨迹的实例包括细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态、细胞对外部刺激(例如治疗)的未来反应中的任一者。通常，单细胞分析涉及用于处理单细胞并执行测序(例如，RNA-seq、DNA-seq、或RNA-seq和DNA-seq两者)以获得单细胞分析物的测序读数的工作流程。单细胞分析还包括分析测序读数以确定单细胞轨迹的计算机模拟步骤。

在各种实施方案中，用于处理单细胞的工作流程使得能够对从单细胞中的RNA转录物来源的核酸进行测序，以及对从即使在包装有核小体和染色质时也可及的DNA(例如，染色质可及的DNA)来源的核酸进行测序。在各种实施方案中，使细胞暴露于包括逆转录酶(用于对RNA转录物进行逆转录)但最大程度减少或避免使用蛋白酶或转座酶的试剂。因此，包装的DNA保持完整。可以执行RNA-seq以获得从RNA转录物来源的核酸分子的测序读数，并且可以执行DNA-seq以获得从染色质可及DNA来源的核酸分子的测序读数。分析从RNA-seq和DNA-seq获得的测序读数以确定单个细胞的轨迹。

现在参考图1，其描绘了处理单细胞以产生用于测序的扩增核酸分子的一个实施方案。具体来说，图1描绘了包括细胞包封160、分析物释放165、细胞加条形码和靶核酸分子的靶扩增175的步骤的工作流过程。

通常，细胞包封步骤160涉及用试剂120将单细胞110包封到乳液中。在各种实施方案中，通过以下方式来形成乳液：将含有细胞110和试剂120的水性流体分配到载体流体(例如，油115)中，从而产生水性油包流体乳液。乳液包括包封的细胞125和试剂120。在步骤165，包封的细胞经历分析物释放。通常，试剂导致细胞裂解，从而在乳液内产生细胞裂解物130。在特定的实施方案中，试剂120至少包括逆转录酶。在各种实施方案中，试剂120包括减少量的蛋白酶或转座酶，或者不包括蛋白酶或转座酶。例如，试剂120包括减少量的蛋白酶K或不包括蛋白酶K(或其突变变体)，并且还包括减少量的转座酶Tn5或不包括转座酶Tn5(或其突变变体)。细胞裂解物130包括细胞的内容物，其可以包括一种或多种不同类型的分析物(例如，RNA转录物、DNA、蛋白质、脂质或碳水化合物)。在各种实施方案中，细胞裂解物130的不同分析物可以与乳液内的试剂120相互作用。例如，试剂120中的逆转录酶可以从存在于细胞裂解物130中的RNA转录物逆转录cDNA分子。

细胞加条形码步骤170涉及将细胞裂解物130与条形码145和/或反应混合物140一起包封到第二乳液中。在各种实施方案中，通过将含有细胞裂解物130的水性流体分配到不可混溶的油135中来形成第二乳液。如图1所示，反应混合物140和条形码145可以通过单独的水性流体流引入，从而将反应混合物140和条形码与细胞裂解物130一起分配到第二乳液中。

通常，条形码145可以标记待分析的靶核酸(例如，细胞裂解物的分析物)，这使得能够随后鉴定从靶核酸来源的序列读数的起源。在各种实施方案中，多个条形码145可以标记细胞裂解物的多种靶核酸，从而使得能够随后鉴定大量序列读数的起源。通常，反应混合物140使得能够执行反应，诸如核酸扩增反应。

靶扩增步骤175涉及扩增靶核酸。例如，使用第二乳液中的反应混合物140对细胞裂解物的靶核酸进行扩增，从而产生从靶核酸来源的扩增子。虽然图1B将细胞加条形码170和靶标扩增175描绘为两个单独的步骤，但是在各种实施方案中，靶核酸通过核酸扩增步骤用条形码145进行标记。

如本文所提到的，图1中所示的工作流过程是两步骤工作流过程，其中从细胞的分析物释放165与细胞加条形码170和靶标扩增175的步骤分开发生。例如，从细胞的分析物释放165在第一乳液内发生，随后在第二乳液中发生细胞加条形码170和靶标扩增175。在各种实施方案中，可以采用替代性工作流过程(例如，除了图1所示的两步骤工作流过程之外的工作流过程)。例如，可以将细胞110、试剂120、反应混合物140和条形码145包封在乳液中。因此，分析物释放165可以在乳液内发生，随后在同一乳液内发生细胞加条形码170和靶标扩增175。

图2是使用从单细胞的分析物来源的测序读数确定单细胞的细胞轨迹的流程过程。具体来说，图2描绘了在步骤205汇集扩增的核酸，在步骤210对扩增的核酸进行测序，在步骤215进行读数比对，以及使用比对的序列读数确定细胞的细胞轨迹的步骤。通常，图2中所示的流程过程是图1中所示的工作流过程的延续。

例如，在图1的步骤175的靶标扩增之后，在图2所示的步骤205将扩增的核酸250A、250B和250C汇集。例如，汇集并收集扩增的核酸的乳液，并且去除乳液中不可混溶的油。因此，可以将来自多个细胞的扩增核酸汇集在一起。图2描绘了三种扩增的核酸250A、250B和250C，但是在各种实施方案中，汇集的核酸可以包括数百种、数千种或数百万种从多个细胞的分析物来源的核酸。

在各种实施方案中，每种扩增的核酸250至少包括靶核酸240和条形码230的序列。在各种实施方案中，扩增的核酸250可以包括另外的序列，诸如通用引物序列(例如，寡dT序列)、随机引物序列、基因特异性引物正向序列、基因特异性引物反向序列或恒定区中的任一者。

在各种实施方案中，扩增的核酸250A、250B和250C来源于相同的单细胞，并且因此条形码230A、230B和230C是相同的。因此，条形码230的测序使得能够确定扩增的核酸250源自相同的细胞。在各种实施方案中，扩增的核酸250A、250B和250C被汇集并且源自不同的细胞。因此，条形码230A、230B和230C彼此不同，并且条形码230的测序使得能够确定扩增的核酸250源自不同的细胞。

在步骤210，对汇集的扩增核酸250进行测序以产生序列读数。对于每种扩增的核酸，序列读数包括条形码和靶核酸的序列。根据扩增核酸中包含的条形码序列对源自单个细胞的序列读数进行聚类。在步骤215，比对每个单细胞的序列读数(例如，与参考基因组比对)。将序列读数与参考基因组比对使得能够确定序列读数源自基因组中的何处。例如，从RNA转录物产生的多个序列读数，当与基因组位置比对时，可以揭示在所述基因组位置处的基因被转录。作为另一个实例，从染色质可及DNA产生的多个序列读数，当与基因组位置比对时，可以揭示下所述基因组位置处的基因是可及的并且可以被转录。

在步骤200，分析单细胞的比对序列读数以确定单细胞的轨迹。例如，从RNA转录物产生的序列读数提供了细胞早期状态的基因表达快照。此外，从染色质可及DNA产生的序列读数提供了细胞未来状态下的基因表达的快照。总之，细胞的早期状态和细胞的未来状态可以被用于确定细胞轨迹，诸如细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态、细胞对外部刺激(例如，治疗)的未来反应中的任一者。

执行单细胞分析的方法

包封、分析物释放、加条形码和扩增

本文所述的实施方案涉及包封一个或多个细胞(例如，在图1中的步骤160)以对所述一个或多个细胞执行单细胞分析。在各种实施方案中，可以从获得自受试者或患者的测试样品中分离所述一个或多个细胞。在各种实施方案中，所述一个或多个细胞是从健康受试者获取的健康细胞。在各种实施方案中，所述一个或多个细胞包括从先前诊断患有癌症的受试者获取的癌细胞。例如，此类癌细胞可以是可在被诊断患有癌症的受试者的血液中获得的肿瘤细胞。因此，对肿瘤细胞的单细胞分析使得能够对受试者的癌症进行细胞和亚细胞预测。在各种实施方案中，在对受试者进行治疗后(例如，在疗法诸如癌症疗法后)从受试者获得测试样品。因此，对细胞的单细胞分析使得能够对受试者对疗法的反应进行细胞和亚细胞预测。在各种实施方案中，所述一个或多个细胞是祖细胞。因此，对祖细胞的单细胞分析使得能够对祖细胞的可能细胞谱系进行预测。

在各种实施方案中，通过将包含细胞和试剂的水相与不可混溶的油相组合来实现细胞与试剂的包封。在一个实施方案中，包含所述细胞和试剂的水相与流动的不可混溶的油相一起流动，使得形成多种油包水乳液，其中至少一种乳液包含单细胞和试剂。在各种实施方案中，不可混溶的油相包括氟油、非离子氟表面活性剂或两者。在各种实施方案中，乳液可以具有约0.001至1000微微升或更大的内部体积，并且直径可以在0.1至1000μm的范围内。

在各种实施方案中，包含细胞和试剂的水相不一定与不可混溶的油相同时流动。例如，水相可以流动以接触固定储存器(stationary reservoir)的不可混溶油相，从而使得油包水乳液在固定油储存器内萌发。

在各种实施方案中，可以在微流体装置中进行水相和不可混溶油相的组合。例如，水相可以流过微流体装置的微通道以接触不可混溶油相，该不可混溶油相同时流过单独的微通道或保持在微流体装置的固定储存器中。然后，在乳液内的包封的细胞和试剂可以流过微流体装置以进行细胞裂解。

将试剂和细胞添加到乳液中的进一步示例性实施方案可以包括合并单独含有细胞和试剂的乳液或将试剂显微注射到乳液中。在美国申请号14/420,646中描述了对示例性实施方案的进一步描述，所述申请据此以引用的方式整体并入。

在乳液中的包封的细胞被裂解以产生细胞裂解物。在各种实施方案中，细胞被存在于试剂中的裂解剂裂解。例如，所述试剂可以包括裂解细胞膜的洗涤剂，诸如NP40(例如，Tergitol型NP-40或壬基苯氧基聚乙氧基乙醇)。在一些实施方案中，细胞裂解也可以或者取而代之依赖于不涉及试剂中的裂解剂的技术。例如，裂解可以通过机械技术来实现，所述机械技术可以使用各种几何特征来实现细胞的穿孔、剪切、研磨等。也可以使用其他类型的机械破坏，诸如声学技术。此外，热能也可以用于裂解细胞。在本文所述的方法中可以使用任何实现细胞裂解的方便手段。

现在参考图3A-3C，其描绘了根据第一实施方案处理和释放分析物以及随后处理乳液内单细胞的分析物。具体来说，在图3A-3C所示的实施方案中，在乳液300A中与细胞一起包封的试剂既不包括蛋白酶(例如蛋白酶K)也不包括转座酶(例如转座酶Tn5)。在图3A中，裂解细胞，如细胞膜的虚线所指示。在一个实施方案中，试剂可以包括NP40(例如，0.01％或1.0％NP40)，其导致细胞裂解。裂解的细胞包括分析物(诸如细胞的胞质内的RNA转录物)以及包装的DNA，所述包装的DNA是指DNA与组蛋白的组织，从而形成包装为染色质的核小体。如图3A中所示，乳液300A还包括逆转录酶(缩写为“RT”)。

图3B描绘了当逆转录酶执行RNA转录物的逆转录时的乳液300B。图3C描绘了合成的cDNA链。此类cDNA链可以使用试剂中包含的引物(诸如反向引物)进行引发。图3C还描绘了包装的DNA的另外细节。例如，包装的DNA包括开放的DNA区段，本文称为染色质可及DNA330。鉴于当细胞转录机器(例如，转录因子、聚合酶等)访问染色质可及DNA 330时发生基因表达，染色质可及DNA 330可以反映细胞的状态。包装的DNA还包括核小体310，所述核小体310包含被结合且得不到转录的不可及的DNA 320。在各种实施方案中，除了包装的DNA 302之外，乳液300C还包含由染色质可及DNA 330产生的延伸产物340。例如，染色质可及DNA330的区段可以被引发，并且可以产生互补DNA链(例如，延伸产物340)。然而，在其他实施方案中，乳液300C包含cDNA 306和包装的DNA 302，但不包含延伸产物340。

图1中的细胞加条形码170的步骤包括包封细胞裂解物130与反应混合物140和条形码145。在各种实施方案中，反应混合物140包括用于在靶核酸(例如，cDNA或染色质可及DNA)上执行核酸反应的组分，诸如引物。

在各种实施方案中，通过将包含反应混合物和条形码的水相与细胞裂解物和不可混溶的油相组合，将细胞裂解物与反应混合物和条形码一起包封。在一个实施方案中，包含反应混合物和条形码的水相与流动的细胞裂解物和流动的不可混溶油相一起流动，使得形成油包水乳液，其中至少一种乳液包含细胞裂解物、反应混合物和条形码。在各种实施方案中，不可混溶的油相包括氟油、非离子氟表面活性剂或两者。在各种实施方案中，乳液可以具有约0.001至1000微微升或更大的内部体积，并且直径可以在0.1至1000μm的范围内。

在各种实施方案中，可以在微流体装置中进行水相和不可混溶油相的组合。例如，水相可以流过微流体装置的微通道以接触不可混溶油相，该不可混溶油相同时流过单独的微通道或保持在微流体装置的固定储存器中。然后，在乳液内的包封的细胞裂解物、反应混合物和条形码可以流过微流体装置以执行靶核酸的扩增。

将反应混合物和条形码添加到乳液中的进一步示例性实施方案可以包括将分别含有细胞裂解物和反应混合物和条形码的乳液合并，或者将反应混合物和/或条形码显微注射到乳液中。合并乳液或将物质显微注射到乳液中的示例性实施方案的进一步描述见于美国申请号14/420,646中，所述申请据此以引用的方式整体并入。

一旦将反应混合物和条形码添加到乳液中，就可以在促进核酸扩增反应的条件下孵育乳液。在各种实施方案中，乳液可以在与用于添加反应混合物和/或条形码的相同微流体装置上孵育，或者可以在单独的装置上孵育。在某些实施方案中，在用于包封细胞和裂解细胞的相同微流体装置上在促进核酸扩增的条件下孵育乳液。乳液的孵育可以采取多种形式。在某些方面，含有反应混合物、条形码和细胞裂解物的乳液可以流过在对核酸扩增有效的条件下孵育乳液的通道。微液滴流过通道可能涉及一个通道，该通道蛇形穿过保持在对PCR有效的温度下的各种温度区。例如，此类通道可以在两个或更多个温度区上循环，其中至少一个区保持在约65℃，并且至少一个区保持在约95℃。当液滴移动通过此类区时，它们的温度根据核酸扩增的需要循环。区的数量和每个区的相应温度可以由本领域技术人员容易地确定，以实现所需的核酸扩增。

在各种实施方案中，在核酸扩增后，收集含有扩增核酸的乳液。在各种实施方案中，将乳液收集到孔中，诸如微流体装置的孔中。在各种实施方案中，将乳液收集到储存器或管(诸如Eppendorf管)中。一旦收集，汇集不同乳液中的扩增的核酸。在一个实施方案中，通过提供外部刺激汇集扩增的核酸来打破乳液。在一个实施方案中，给定在水相和不可混溶油相之间的密度差异，乳液随时间自然聚集。因此，扩增的核酸汇集在水相中。

汇集后，扩增的核酸可以进行进一步的测序准备。例如，可以向汇集的核酸中添加测序转接器(adapter)。示例性测序转接器是P5和P7测序转接器。测序转接器使得随后能够对核酸进行测序。

RNA和染色质可及DNA的示例性处理

图4A描绘了根据第一实施方案处理第一乳液中的RNA和包装的DNA。具体来说，图4A更详细地描绘了图1和图3A-3C中所示的分析物释放165的过程。尽管仅示出了单个RNA分子和单个双链包装DNA，但是本领域技术人员将认识到单细胞可以明显包含多于一种RNA分子和多于一种包装DNA分子，因此，随后的描述适用于另外的RNA分子和另外的包装DNA分子。

如前所述，细胞被裂解，从而使细胞裂解物暴露于试剂。这里，如图4A的上图所示，细胞裂解物包含RNA 304和包装的DNA 302，所述包装的DNA 302包含核小体310和染色质可及DNA 330。所述试剂包括引物，诸如与RNA 304区段杂交的反向引物(如虚线所示)。在各种实施方案中，这样的反向引物是与信使RNA转录物的聚A尾杂交的寡dT序列。此外，反向引物包括PCR柄。反向引物引发RNA 304分子。因此，如图4A的下图所示，产生与RNA 304互补的cDNA 306。在这个实施方案中，包装的DNA 302没有被引发，因此保持不变。

图4B描绘了根据图4A所示的第一实施方案从RNA和染色质可及DNA来源的核酸的扩增和加条形码。这里，图4B更详细地描述了图1所示的细胞加条形码170和靶标扩增的步骤。图4B的顶部小图示出了所产生的cDNA 306和包装的DNA 302，如图4A的底部小图所描绘。图4B的中间小图示出了cDNA 306和染色质可及DNA 330的扩增和加条形码过程。首先参考cDNA 306，从反应混合物中提供的正向引物和反向引物对(正向和反向引物如虚线所示)可以引发cDNA。正向引物和反向引物可以连接到恒定区，诸如PCR柄。正向引物的PCR柄与连接到条形码序列的PCR柄互补(在图4B中注释为“细胞BC”)。因此，正向和反向合成可以从正向和反向引物发生，如中间小图中所示的水平箭头所指示。

参考染色质可及DNA 330，染色质可及DNA 330的区段可被反应混合物提供的反向引物和正向引物(正向和反向引物如虚线所示)访问。在各种实施方案中，染色质可及DNA330由于通过调节复合物对DNA可及起作用的DNA的呼吸波动而可访问。DNA的呼吸波动的进一步描述见于“von Hippel PH,Johnson NP,Marcus AH.Fifty years of DNA"breathing":Reflections on old and new approaches.Biopolymers.2013；99(12):923-954”，所述文献据此以引用的方式整体并入。正向引物连接到进一步与连接到条形码序列的PCR柄互补的恒定区(诸如PCR柄)上。因此，正向和反向合成可以从正向和反向引物发生，如中间小图中所示的水平箭头所指示。

特别地，从染色质可及DNA合成的扩增子更长(与RNA扩增子相比)，因为正向和反向引物针对不同的外显子。因此，DNA扩增子将包含如下面实施例1所述可以验证从染色质可及DNA的引发正在发生的内含子序列。

图4B的底部小图描绘了扩增核酸(来自cDNA 306和来自染色质可及DNA 330)的制备。这里，来自cDNA的扩增核酸包含P5序列转接器、读数1、条形码(“细胞BC”)、第一PCR柄、正向引物(如虚线所示)、cDNA、反向引物(如虚线所示)、第二PCR柄和P7序列转接器的序列。来自染色质可及DNA 330的扩增核酸包含P5序列转接器、读数1、条形码(“细胞BC”)、第一PCR柄、正向引物、延伸产物340(源自染色质可及DNA 330)、反向引物、第二PCR柄和P7序列转接器的序列。在各种实施方案中，可在每个扩增核酸中包含读数2序列。在一个场景中，可以在连接到反向引物序列的第二PCR柄中包含读数2序列。在另一个场景中，可以在P7序列转接器中包含读数2序列。

现在参考图4C，其描绘了根据第二实施方案处理第一乳液中的RNA和包装的DNA。此外，图4C更详细地描绘了图1和图3A-3C中所示的分析物释放165的过程。如图4C的上图所示，细胞裂解物包含RNA 304和包装的DNA 302，所述包装的DNA 302包含核小体310和染色质可及DNA 330。乳液可以暴露于升高的温度范围(例如，相对于生理温度增加)，诸如介于40℃至60℃之间的温度。在各种实施方案中，乳液可以暴露于40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃或60℃的升高的温度。

升高的温度暴露可以改变包装DNA 302的结构。例如，如图4C的中间小图所示，包装的DNA 302的染色质可及DNA 330的区段可以解链。在各种实施方案中，在升高的温度下包装的DNA 302的解链模拟通过调节复合物对DNA的可及性起作用的DNA的呼吸波动。DNA的呼吸波动的进一步描述见于“von Hippel PH,Johnson NP,Marcus AH.Fifty years ofDNA"breathing":Reflections on old and new approaches.Biopolymers.2013；99(12):923-954”，所述文献据此以引用的方式整体并入。总之，中间小图代表了细胞中包装的DNA的状态，其是可以被调控元件访问并且可用于转录的染色质可及DNA区段的快照。图4C的中间小图进一步描绘了在乳液中添加的试剂的反向引物(如虚线所示)可以与RNA 304分子的互补序列杂交。在各种实施方案中，这样的反向引物是与信使RNA转录物的聚A尾杂交的寡dT序列。此外，反向引物可以与考虑到温度的升高至少部分地在结构上解链的染色质可及DNA 330的互补序列杂交。

参考图4C的底部小图，从RNA 304分子合成互补cDNA 306分子。另外，从染色质可及DNA 330从引发区域开始合成延伸产物340。因此，可以在本文所述的后续步骤(例如，细胞加条形码和靶标扩增)中进一步处理cDNA 306和延伸产物340。

图4D描绘了根据图4C所示的第二实施方案从RNA和染色质可及DNA来源的核酸的扩增和加条形码。这里，图4C更详细地描述了图1所示的细胞加条形码170和靶标扩增的步骤。图4D的顶部小图示出了从包装的DNA 302产生的cDNA 306和延伸产物340，如图4C的底部小图所描绘。图4D的中间小图示出了cDNA 306和延伸产物340的扩增和加条形码过程。通常，鉴于两者都是DNA序列，以相同的方式处理cDNA 306和延伸产物340。首先参考cDNA306，从反应混合物中提供的正向引物和反向引物对(正向和反向引物如虚线所示)可以引发cDNA。正向引物和反向引物可以连接到恒定区，诸如PCR柄。正向引物的PCR柄与连接到条形码序列的PCR柄互补(在图4D中注释为“细胞BC”)。因此，正向和反向合成可以从正向和反向引物发生，如中间小图中所示的水平箭头所指示。参考延伸产物340，从反应混合物提供的正向引物和反向引物对可以引发cDNA。正向引物和反向引物可以连接到恒定区，诸如PCR柄。正向引物的PCR柄与连接到条形码序列的PCR柄互补(在图4D中注释为“细胞BC”)。因此，正向和反向合成可以从正向和反向引物发生，如中间小图中所示的水平箭头所指示。

图4D的底部小图描绘了扩增核酸(来自cDNA 306和来自染色质可及DNA 330)的制备。这里，来自cDNA的扩增核酸包含P5序列转接器、读数1、条形码(“细胞BC”)、第一PCR柄、正向引物(如虚线所示)、cDNA、反向引物(如虚线所示)、第二PCR柄和P7序列转接器的序列。包含延伸产物340(源自染色质可及DNA 330)的扩增核酸包括P5序列转接器、读数1、条形码(“细胞BC”)、第一PCR柄、正向引物(如虚线所示)、延伸产物340、反向引物(如虚线所示)、第二PCR柄和P7序列转接器的序列。在各种实施方案中，可在每个扩增核酸中包含读数2序列。在一个场景中，可以在连接到反向引物序列的第二PCR柄中包含读数2序列。在另一个场景中，可以在P7序列转接器中包含读数2序列。

测序和读数比对

对扩增的核酸进行测序，以获得用于产生测序文库的序列读数。序列读数可以通过可商购获得的下一代测序(NGS)平台来实现，所述NGS平台包括执行通过合成测序、通过连接测序、焦磷酸测序、使用可逆终止子化学测序、使用连接磷的荧光核苷酸测序或实时测序中的任一者的平台。例如，扩增的核酸可以在Illumina MiSeq平台上进行测序。

在焦磷酸测序时，NGS片段文库是通过使用包被有与转接器互补的寡核苷酸的颗粒捕获一个基质分子来克隆原位扩增的。每个含有相同类型基质的颗粒被放置在“油包水”类型的微气泡中，并且使用称为乳液PCR的方法克隆扩增基质。扩增后，乳液被破坏，并且颗粒被堆放于在测序反应期间充当流动池的滴定微微板(picoplate)的单独孔中。在存在测序酶和发光报告剂诸如萤光素酶的情况下将四种dNTP试剂中的每一种有序地多次施用到流动池中。在将合适的dNTP添加到测序引物的3'末端的情况下，所得的ATP在孔内产生闪光，这是用CCD摄像机记录的。有可能实现大于或等于400个碱基的读数长度，并且可能获得10⁶个序列读取，从而产生高达5亿个碱基对(兆字节)的序列。焦磷酸测序的另外细节描述于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean et al.,NatureRev.Microbiol.,7:287-296；美国专利号6,210,891；美国专利号6,258,568；所述文献中的每一者据此以引用的方式整体并入。

在Solexa/Illumina平台上，以短读数的形式产生测序数据。在这种方法中，NGS片段文库的片段被捕获在包被有寡核苷酸锚定分子的流动池的表面上。锚定分子被用作PCR引物，但是由于基质的长度及其与附近其他锚定寡核苷酸的接近，通过PCR延伸导致分子与邻近锚定寡核苷酸杂交形成“拱形”，并在流动池表面形成桥接结构。这些DNA环被变性和切割。然后使用可逆染色终止子对直链进行测序。所述序列中包含的核苷酸通过检测包含之后的荧光来确定，其中在下一个dNTP添加循环之前去除每个荧光剂和封闭剂。使用Illumina平台进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号6,833,246；美国专利号7,115,400；美国专利号6,969,488；所述文献中的每一者据此以引用的方式整体并入。

使用SOLiD技术对核酸分子进行测序包括使用乳液PCR克隆扩增NGS片段文库。之后，将含有基质的颗粒固定在玻璃流动池的衍生化表面上，并且用与转接器寡核苷酸互补的引物退火。然而，代替使用指示的引物进行3'延伸，使用其获得5'磷酸基团用于连接含有两个探针特异性碱基和随后的6个简并碱基和四种荧光标记之一的测试探针。在SOLiD系统中，测试探针具有在每个探针的3'末端的两个碱基和在5'末端的四种荧光染料之一的16种可能的组合。荧光染料的颜色和因此每个探针的身份对应于一定的颜色空间编码方案。在探针比对、探针连接和荧光信号检测的多个循环之后，变性后使用与原始引物相比移位一个碱基的引物进行第二个测序循环。以这种方式，可以通过计算重构矩阵的序列；对矩阵碱基检查两次，这导致准确性增加。使用SOLiD技术进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号5,912,148；美国专利号6,130,073；所述文献中的每一者以引用的方式整体并入。

在特定的实施方案中，使用来自Helicos BioSciences的HeliScope。通过添加聚合酶和连续添加荧光标记的dNTP试剂实现测序。接通导致出现与dNTP对应的荧光信号，并且在每个dNTP添加周期之前，CCD摄像机捕获到指定的信号。序列的读数长度从25-50个核苷酸变化，其中每个分析工作周期的总产量超过10亿个核苷酸对。使用HeliScope进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号7,169,560；美国专利号7,282,337；美国专利号7,482,120；美国专利号7,501,245；美国专利号6,818,395；美国专利号6,911,345；美国专利号7,501,245；所述文献中的每一者以引用的方式整体并入。

在一些实施方案中，使用Roche测序系统454。测序454涉及两个步骤。在第一步骤中，DNA被切割成大约300-800个碱基对的片段，并且这些片段具有钝端。然后将寡核苷酸转接器连接到片段的末端。转接器作为引物用于片段的扩增和测序。片段可以例如使用含有5'-生物素标签的转接器附接到DNA捕获珠粒上，例如链霉亲和素包被的珠粒。在油-水乳液的液滴内通过PCR扩增附接到颗粒上的片段。结果是克隆扩增的DNA片段在每个珠粒上有多个拷贝。在第二阶段，颗粒被捕获到孔中(几微微升的体积)。平行地对每个DNA片段进行焦磷酸测序。添加一个或多个核苷酸导致光信号的产生，其被记录在测序仪器的CCD摄像机上。信号强度与所包含的核苷酸数量成比例。焦磷酸测序使用焦磷酸(PPi)，其在添加核苷酸时被释放。在存在5'磷酸硫酸腺苷的情况下，使用ATP硫酸化酶将PPi转化为ATP。萤光素酶使用ATP将萤光素转化为氧化萤光素，并且作为这种反应的结果，产生进行检测和分析的光。进行测序454的另外细节见于Margulies等人(2005)Nature 437:376-380，所述文献据此以引用的方式整体并入。

离子激流技术是一种基于检测DNA聚合期间释放的氢离子的DNA测序方法。微孔含有待测序的NGS片段文库的片段。微孔层下是超灵敏离子传感器ISFET。所有层都包含在半导体CMOS芯片内，类似于电子工业中使用的芯片。当dNTP掺入到不断增长的互补链中时，释放出激发超灵敏离子传感器的氢离子。如果模板序列中存在均聚物重复，则在一个循环中将包含多个dNTP分子。这导致对应量的氢原子被释放，并且与更高的电信号成比例。此技术不同于其他不使用修饰的核苷酸或光学装置的测序技术。关于离子激流技术的另外细节见于Science 327(5970):1190(2010)；美国专利申请公开号20090026082、20090127589、20100301398、20100197507、20100188073和20100137143，所述文献中的每一者以引用的方式整体并入。

在各种实施方案中，可以使用本领域中已知的任何算法(例如Python脚本barcodeCleanup.py)按质量过滤从NGS方法获得的测序读数并按条形码序列分组。在一些实施方案中，如果超过约20％的碱基的质量分数(Q得分)小于Q20(其指示约99％的碱基调用精度)，则可以丢弃给定的测序读数。在一些实施方案中，如果超过约5％、约10％、约15％、约20％、约25％、约30％的Q得分小于Q10、Q20、Q30、Q40、Q50、Q60或更多(其分别指示约90％、约99％、约99.9％、约99.99％、约99.999％、约99.9999％或更多的碱基调用精度)，则可以丢弃给定的测序读数。

在一些实施方案中，可以丢弃与含有少于50个读数的条形码相关联的所有测序读数，以确保表示单细胞的所有条形码组含有足够数量的高质量读数。在一些实施方案中，可以丢弃与含有少于30、少于40、少于50、少于60、少于70、少于80、少于90、少于100或更多个读数的条形码相关联的所有测序读数，以确保表示单细胞的条形码组的质量。

具有共有条形码序列的序列读数(例如，意味着序列读数源自同一细胞)可以使用本领域已知的方法与参考基因组比对以确定比对位置信息。比对位置信息可以指示参考基因组中与给定序列读数的开始核苷酸碱基和结束核苷酸碱基对应的区域的开始位置和结束位置。参考基因组中的区域可以与靶基因或基因区段相关联。示例性比对器算法包括BWA、Bowtie、与参考序列的拼接转录物比对(STAR)、Tophat或HISAT2。在美国申请号16/279,315中描述了用于将序列读数与参考序列比对的进一步细节，所述申请据此以引用的方式整体并入。在各种实施方案中，可以产生具有SAM(序列比对图)格式或BAM(二进制比对图)格式的输出文件，并且将其输出用于后续分析，诸如用于确定细胞轨迹。

确定细胞轨迹

分析从单细胞的RNA转录物和染色质可及DNA来源的核酸的测序读数，以确定单细胞的细胞轨迹。通常，细胞轨迹是指细胞从第一状态到第二状态的变化，如细胞的染色质结构所表示的。因此，细胞轨迹是细胞的染色质组织图谱的反映。通过RNA-seq获得的测序读数提供了细胞的过去状态的快照。例如，RNA转录物的存在可以揭示过去染色质组织的细节(例如，与RNA转录物对应的某些基因被表达，因此在染色质中可及)。通过DNA-seq获得的测序读数提供了细胞的未来状态的快照。例如，DNA-seq结果揭示了当前染色质组织的细节(例如，与染色质可及区域对应的某些基因可以用于转录和表达)。总之，RNA-seq和DNA-seq序列读数揭示了染色质结构图谱。

为了确定细胞轨迹，从RNA转录物来源的比对序列读数与从染色质可及DNA来源的比对序列读数进行比较。更具体而言，将从RNA转录物来源的序列读数的读数计数与从染色质可及DNA来源的比对序列读数的读数计数进行比较。在各种实施方案中，在单个基因基础上进行比较。

例如，对于在参考基因组中具有已知位置范围的基因，可以有通过RNA-seq获得的“X”个序列读数和通过DNA-seq获得的“Y”个序列读数。在一个实施方案中，通过RNA-seq获得的“X”个序列读数指示该基因的表达，并且通过DNA-seq获得的“Y”个序列读数指示该基因对应于DNA的染色质可及区域。这揭示了细胞的先前状态(如通过RNA-seq揭示的)与细胞的未来状态(如通过DNA-seq揭示的)之间的共同性，鉴于基因在包装的DNA中在先前状态和未来状态中都可及。

参考图5A，其描绘了根据第一实施方案的通过用于确定细胞轨迹的单细胞RNA-seq和DNA-seq获得的测序读数。图5A描绘了参考基因组的四个窗口。每个窗口包括沿着基因组的一系列位置。在各种实施方案中，每个窗口可以指已知基因的位置范围。第二和第三幅图分别显示了在四个窗口中的每个窗口中的基因组位置上的RNA-seq 520和DNA-seq530的读数数量。这里，RNA-seq和DNA-seq两者都在窗口1、3和4中产生序列读数，而在窗口2中没有序列读数。例如，如果四个窗口中的每个窗口都指基因的位置，则RNA-seq 520和DNA-seq 530读数展示了四个基因的先前状态与未来状态之间的共同性。即，四个基因的染色质结构图谱不变。这为鉴定其中四个基因的染色质结构图谱保持不变的细胞轨迹提供信息。

在另一个实施方案中，通过RNA-seq获得的“X”个序列读数和“Y”个序列读数揭示了从细胞的先前状态和细胞的未来状态的转变。作为一个实例，通过RNA-seq获得的“X”个序列读数表明该基因没有表达。在这样的场景中，X＝0个序列读数或几乎零个序列读数。然而，通过DNA-seq获得的“Y”个序列读数表明该基因在包装的DNA中可及并且可用于转录。这可能表明细胞正在从基因不表达的先前状态转变为基因可能表达的未来状态。作为另一个实例，通过RNA-seq获得的“X”个序列读数表明该基因被表达。然而，通过DNA-seq获得的“Y”个序列读数表明该基因在包装的DNA中不可及并且不可用于转录。在这样的场景中，Y＝0个序列读数或几乎零个序列读数。这可能表明细胞正在从基因表达的先前状态转变为基因不表达的未来状态。

图5B描绘了根据第二实施方案的通过用于确定细胞轨迹的单细胞RNA-seq和DNA-seq获得的测序读数。此外，图5B描绘了参考基因组的四个窗口。每个窗口包括沿着基因组的一系列位置。在各种实施方案中，每个窗口可以指已知基因的位置范围。第二和第三幅图分别显示了在四个窗口中的每个窗口中的基因组位置上的RNA-seq 520和DNA-seq 530的读数数量。

这里，RNA-seq和DNA-seq在窗口1、2和3中产生不同的读数数量，然而窗口4中的读数数量通常一致。此外，如果四个窗口中的每个窗口都指基因的位置，则RNA-seq 520和DNA-seq 530读数展示三个基因(例如窗口1、2和3)的染色质图谱中的转变，然而第四个基因(例如窗口4)的染色质图谱不变。具体来说，窗口1和3指示对应的基因可能已经从可及状态转变为不可及状态。窗口2指示对应的基因可能已经从不可及状态转变为可及状态。这为鉴定的细胞轨迹(其中对于三个基因，染色质结构图谱经历了转变(例如，可及至不可及或不可及至可及)，并且对于第四个基因，染色质结构图谱不变)提供信息。

尽管前面的示例性描述涉及单个基因或有限数量的基因(例如，图5A和5B中所示的四个基因)，但是通过RNA-seq和DNA-seq获得的序列读数的分析可以应用于整个基因组的数十个、数百个、数千个或数万个基因。因此，对于每个细胞，可以确定整个细胞基因组中不变的或变化的染色质结构图谱。不变的或变化的染色质结构图谱为确定细胞轨迹(诸如细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态、细胞对外部刺激(例如治疗)的未来反应中的任一者)提供信息。关于使用染色质图谱来预测细胞谱系的进一步描述见于Ma等人,Chromatin potential identified by shared single cellprofiling of RNA and chromatin,bioRxiv,2020年6月18日,doi:https://doi.org/10.1101/2020.06.17.156943，所述文献据此以引用的方式整体并入。

条形码和加条形码的珠粒

本发明的实施方案涉及提供用于在图1所示的步骤170期间标记单细胞分析物的一个或多个条形码序列。所述一个或多个条形码序列被包封在含有从单细胞来源的细胞裂解物的乳液中。因此，所述一个或多个条形码标记细胞的分析物，从而使得能够随后确定从源自细胞的分析物来源的序列读数。

在各种实施方案中，将多个条形码添加到具有细胞裂解物的乳液中。在各种实施方案中，添加到乳液中的多个条形码包括至少10²个、至少10³个、至少10⁴个、至少10⁵个、至少10⁵个、至少10⁶个、至少10⁷个或至少10⁸个条形码。在各种实施方案中，添加到乳液中的多个条形码具有相同的条形码序列。在各种实施方案中，添加到乳液中的多个条形码包含“唯一识别序列”(UMI)。UMI是具有可用于识别和/或区分与UMI缀合的一个或多个第一分子与一个或多个第二分子的序列的核酸。UMI通常很短，例如长度约为5至20个碱基，并且可以与一种或多种感兴趣的靶分子或其扩增产物缀合。UMI可以是单链或双链的。在一些实施方案中，条形码序列和UMI两者被掺入条形码中。通常，UMI用于区分群体或群组内相似类型的分子，然而条形码序列用于区分源自不同细胞的群体或分子群组。在使用UMI和条形码序列两者的一些实施方案中，UMI的序列长度比条形码序列更短。在美国专利申请号15/940,850中进一步描述了条形码的使用，所述申请据此以引用的方式整体并入。

在一些实施方案中，条形码是单链条形码。可以使用多种技术产生单链条形码。例如，它们可以通过获得多个DNA条形码分子来产生，其中不同分子的序列至少部分不同。然后这些分子可以使用例如不对称PCR来扩增以便产生单链拷贝。替代性地，条形码分子可以被环化，并且然后进行滚动循环扩增。这将产生其中加条形码的原始DNA被串联多次成为单一的长分子的产物分子。

在一些实施方案中，可以通过对线性DNA进行环化来获得包含侧翼为任意数量的恒定序列的条形码序列的环状条形码DNA。与任何恒定序列退火的引物可以通过使用链置换聚合酶(诸如Phi29聚合酶)来启动滚动循环扩增，从而产生条形码DNA的长的线性串联体。

在各种实施方案中，条形码可以连接到引物序列，该引物序列使得条形码能够标记靶核酸。在一个实施方案中，条形码连接到正向引物序列上。在各种实施方案中，正向引物序列是与核酸的正向靶标杂交的基因特异性引物。在各种实施方案中，正向引物序列是与附接到基因特异性引物上的互补序列杂交的恒定区域，诸如PCR柄。可以在反应混合物(例如，图1中的反应混合物140)中提供附接到基因特异性引物上的互补序列。在条形码上包括恒定的正向引物序列可能是优选的，因为条形码可以具有相同的正向引物，并且不需要单独设计成连接到基因特异性正向引物上。

在各种实施方案中，条形码可以可释放地附接到支撑结构(诸如珠粒)上。因此，具有多个拷贝条形码的单个珠粒可以被分配到具有细胞裂解物的乳液中，从而使得能够用珠粒的条形码标记细胞裂解物的分析物。示例性珠粒包括固体珠粒(例如，二氧化硅珠粒)、聚合物珠粒或水凝胶珠粒(例如，聚丙烯酰胺、琼脂糖或海藻酸盐珠粒)。珠粒可以使用多种技术合成。例如，使用混合-分裂技术，可以合成具有相同随机条形码序列的许多拷贝的珠粒。这可以通过例如产生多个包括DNA能够在其上合成的位点的珠粒来实现。可以将珠粒分为四个集合，并且每个集合都与将向其添加一个基底(诸如A、T、G或C)的缓冲液混合。通过将群体分成四个子群体，每个子群体可以具有添加到其表面上的碱基中的一种碱基。该反应能够以使得仅添加单一碱基而不添加另外的碱基的方式完成。可以将来自所有四个亚群的珠粒合并并混合在一起，然后第二次分成四个群体。在该分开步骤中，可以将来自前四个群体的珠粒随机地混合在一起。然后可以将它们添加到四种不同的溶液中，在每个珠粒的表面上添加另一种随机的碱基。可以重复该过程，以便在珠粒的表面上产生长度约等于群体被分裂和混合的次数的序列。例如，如果这样做10次，将得到这样的珠粒群体：其中每个珠粒都具有在其表面上合成的相同随机10碱基序列的许多拷贝。每个珠粒上的序列将由在每个混合-分裂循环中该珠粒粒所终止处的反应器特定序列决定。示例性珠粒及其合成的另外细节描述于国际申请号PCT/US2016/016444中，所述申请据此以引用的方式整体并入。

试剂

本文所述的实施方案包括在乳液内用试剂包封细胞。通常，试剂在细胞裂解的条件下与包封的细胞相互作用，从而释放细胞的靶标分析物。试剂可以进一步与靶标分析物相互作用，为随后的加条形码和/或扩增做准备。在各种实施方案中，试剂包括ddNTP、抑制剂(诸如核糖核酸酶抑制剂)、引物(例如，反向引物诸如寡dT或基因特异性反向引物)和稳定剂(诸如二硫苏糖醇(DTT))。

在各种实施方案中，试剂包括一种或多种导致细胞裂解的裂解剂。裂解剂的实例包括洗涤剂，诸如Triton X-100、NP-40以及细胞毒素。NP-40的实例包括ThermoScientific NP-40Surfact-Amps洗涤剂溶液和Sigma Aldrich NP-40(TERGITOL型NP-40)。在一些实施方案中，试剂包括NP40洗涤剂，其足以破坏细胞膜并导致细胞裂解，但不破坏染色质包装的DNA。在各种实施方案中，试剂包括0.01％、0.05％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.1％、1.2％、1.3％、1.4％、1.5％、1.6％、1.7％、1.8％、1.9％、2.0％、3.0％、3.1％、3.2％、3.3％、3.4％、3.5％、3.6％、3.7％、3.8％、3.9％、4.0％、4.1％、4.2％、4.3％、4.4％、4.5％、4.6％、4.7％、4.8％、4.9％或5.0％NP40(v/v)。在各种实施方案中，试剂包括至少至少0.01％、至少0.05％、0.1％、至少0.5％、至少1％、至少2％、至少3％、至少4％或至少5％NP40(v/v)。

在各种实施方案中，试剂还包括有助于细胞裂解和/或基因组DNA访问的蛋白酶。在各种实施方案中，试剂中的蛋白酶可以包括蛋白酶K、胃蛋白酶、蛋白酶-枯草杆菌蛋白酶Carlsberg、热溶蛋白芽孢杆菌X型蛋白酶或曲霉XIII型蛋白酶Saitoi中的任一者。在各种实施方案中，试剂中的蛋白酶的量小于单细胞工作流方案中使用的蛋白酶的量。在各种实施方案中，试剂中蛋白酶的量为在常规单细胞工作流方案中存在的量的小于0.01％、小于0.05％、小于0.1％、小于0.2％、小于0.3％、小于0.4％、小于0.5％、小于0.6％、小于0.7％、小于0.8％、小于0.9％、小于1％、小于2％、小于3％、小于4％、小于5％、小于10％、小于15％、小于20％、小于25％、小于30％、小于40％或小于50％。例如，单细胞工作流协议使用了1mg/mL蛋白酶K(参见Pellegrino,Maurizio等人“High-throughput single-cell DNAsequencing of acute myeloid leukemia tumors with droplet microfluidics.”Genome research第28卷,9(2018):1345-1352，所述文献据此以引用的方式整体并入。因此，在各种实施方案中，试剂包括小于0.0001mg/mL、小于0.0005mg/mL、小于0.0010mg/mL、小于0.0020mg/mL、小于0.0030mg/mL、小于0.0040mg/mL、小于0.0050mg/mL、小于0.0060mg/mL、小于0.0070mg/mL、小于0.0080mg/mL、小于0.0090mg/mL、小于0.01mg/mL、小于0.02mg/mL、小于0.03mg/mL、小于0.04mg/mL、小于0.05mg/mL、小于0.10mg/mL、小于0.15mg/mL、小于0.20mg/mL、小于0.30mg/mL、小于0.40mg/mL或小于0.50mg/mL。

在各种实施方案中，试剂还包括与从单细胞释放的靶标分析物相互作用的药剂。这样的药剂的一个实例包括逆转录酶，其逆转录从细胞释放的信使RNA转录物以产生对应的cDNA。

在一些实施方案中，试剂包括转座酶Tn5(或突变的转座酶Tn5)，其与包装的DNA相互作用以产生不被染色质和/或核小体结合的染色质可及DNA区段。在各种实施方案中，试剂中的转座酶Tn5的量小于常规ATAC-seq方案中使用的转座酶Tn5的量。在常规ATAC-seq方案中使用的转座酶Tn5的实例包括Illumina Tagment DNA酶(Illumina目录编号20034197或20034198)和Nextera Tn5转座酶(Illumina目录号FC-121-1030)。在各种实施方案中，试剂中转座酶Tn5的量为在常规ATAC-seq方案中存在的量的小于0.01％、小于0.05％、小于0.1％、小于0.2％、小于0.3％、小于0.4％、小于0.5％、小于0.6％、小于0.7％、小于0.8％、小于0.9％、小于1％、小于2％、小于3％、小于4％、小于5％、小于10％、小于15％、小于20％、小于25％、小于30％、小于40％或小于50％。例如，常规ATAC-seq方案使用5％的转座酶Tn5(v/v)(参见Buenrostro,J.等人,“Single-cell chromatin accessibility revealsprinciples of regulatory variation.”Nature,523(7561):486-490.2015年7月23日；Buenrostro,J.等人“ATAC-seq:A Method for Assaying Chromatin AccessibilityGenome-Wide.”Current protocols in molecular biology第109卷21.29.1-21.29.9.2015年1月5日，以及Shashikant,Tanvi和Charles A Ettensohn.“Genome-wideanalysis of chromatin accessibility using ATAC-seq.”Methods in cell biology第151卷(2019):219-235，所述专利中的每一者以全文引用的方式并入)。因此，在各种实施方案中，试剂包括小于0.0005％、小于0.0025％、小于0.005％、小于0.01％、小于0.015％、小于0.02％、小于0.025％、小于0.030％、小于0.035％、小于0.040％、小于0.045％、小于0.050％、小于0.1％、小于0.15％、小于0.2％、小于0.25％、小于0.5％、小于0.75％、小于1.0％、小于1.25％、小于1.5％、小于1.75％、小于2.0％或小于2.5％的转座酶Tn5(v/v)。

本文中的实施方案描述了对来自单细胞的DNA进行DNA测序。在优选实施方案中，对染色质可及DNA(例如，当与染色质一起包装时可以访问的DNA)进行DNA测序。在与对染色质可及DNA进行DNA测序一致的特定的实施方案中，与细胞共包封的试剂不包含蛋白酶，并且更具体来说，不包含蛋白酶K(或突变的蛋白酶K)。此外，试剂不包含转座酶(诸如转座酶Tn5)或突变转座酶(诸如突变的转座酶Tn5)。

在特定的实施方案中，试剂包含NP40，而不包含蛋白酶K或转座酶。NP40足以裂解细胞而不破坏包装的DNA，并且随后，可以在包装的DNA内进行染色质可及DNA的引发，这使得能够进行询问染色质可及DNA的DNA测序。使用包含NP40而不包含蛋白酶K或转座酶的试剂是优选的，因为缺乏蛋白酶K和转座酶简化了单细胞工作流过程。此外，蛋白酶K和转座酶的缺乏导致工作流过程中使用的耗材较少，从而导致在对大量细胞进行单细胞分析时成本较低。

反应混合物

如本文所述，向具有细胞裂解物的乳液中提供反应混合物(例如，参见图1中的细胞加条形码步骤170)。通常，反应混合物包含足以在细胞裂解物的分析物上进行反应(诸如核酸扩增)的反应物。

在各种实施方案中，反应混合物包含当置于催化合成与核酸链互补的引物延伸产物的条件下时，能够沿互补链作为合成起始点的引物。在各种实施方案中，反应混合物包含四种不同的三磷酸脱氧核糖核苷(腺苷、鸟嘌呤、胞嘧啶和胸腺嘧啶)。在各种实施方案中，反应混合物包含用于核酸扩增的酶。用于核酸扩增的酶的实例包括DNA聚合酶、用于热循环扩增的热稳定聚合酶、或用于等温扩增的多置换扩增的聚合酶。也可以应用其他不太常见形式的扩增，诸如使用依赖于DNA的RNA聚合酶进行扩增，以从原始DNA靶标产生多个拷贝的RNA，所述多个拷贝的RNA其本身可以转换回DNA，从而导致实质上靶标的扩增。活的有机体也可以用于扩增靶标，例如通过将靶标转化到有机体中，所述有机体然后允许或诱导在有或没有有机体复制的情况下拷贝靶标。

在各种实施方案中，反应混合物的内容物是在合适的缓冲液中(“缓冲液”包括作为辅助因子的取代基、或影响pH、离子强度等的取代基)并在合适的温度下。

可以通过调节反应物在反应混合物中的浓度来控制核酸扩增的程度。在一些情形中，这对于使用扩增产物的反应的微调是有用的。

引物

本文所述的本发明的实施方案使用引物来进行单细胞分析。例如，在图1所示的工作流过程期间应用了引物。引物可以用于与感兴趣的核酸的特异性序列引发(例如，杂交)，使得可对感兴趣的核酸加条形码和/或进行扩增。此外，引物使得能够在测序后鉴定靶标区域。如下文所述，可以在图1所示的工作流过程中在不同的步骤中提供引物。再次参考图1，在各种实施方案中，引物可以包括在与细胞110一起包封的试剂120中。试剂120中的此类引物可以包括用于引发RNA的RNA引物和/或用于引发包装DNA中染色质可及DNA的DNA引物。在各种实施方案中，引物可以包括在与细胞裂解物130一起包封的反应混合物140中。反应混合物140中的此类引物可以包括用于引发已从RNA逆转录的cDNA的cDNA引物和/或用于引发包装的DNA中的染色质可及DNA和/或已从染色质可及DNA产生的产物的DNA引物。在各种实施方案中，引物可以包括在与细胞裂解物130一起包封的条形码145中或与其连接。在美国申请号16/749,731中描述了用于单细胞分析工作流过程中的引物的进一步描述和实例，所述申请据此以引用的方式整体并入。

在各种实施方案中，在试剂、反应混合物或条形码中任一者中的引物的数量可以在下列范围内：约1个至约500个或更多个引物，例如约2个至100个引物、约2个至10个引物、约10个至20个引物、约20个至30个引物、约30个至40个引物、约40个至50个引物、约50个至60个引物、约60个至70个引物、约70个至80个引物、约80个至90个引物、约90个至100个引物、约100个至150个引物、约150个至200个引物、约200个至250个引物、约250个至300个引物、约300个至350个引物、约350个至400个引物、约400个至450个引物、约450个至500个引物、或约500个引物或更多个引物。

对于靶向DNA测序和靶向RNA测序，试剂(例如，图1中的试剂120)中的引物可以包括与感兴趣的核酸(例如，DNA或RNA)上的反向靶标互补的反向引物。在各种实施方案中，试剂中的引物可以是靶向感兴趣基因的反向靶标的基因特异性引物。在各种实施方案中，在反应混合物(例如，图1中的反应混合物140)中的引物可以包括与感兴趣的核酸(例如，DNA)上的正向靶标互补的正向引物。在各种实施方案中，反应混合物中的引物可以是靶向感兴趣基因的正向靶标的基因特异性引物。在各种实施方案中，试剂的引物和反应混合物的引物形成针对核酸上的感兴趣区域的引物组(例如，正向引物和反向引物)。

添加的用于感兴趣基因的正向引物或反向引物的数量可以是约1个至500个，例如约1个至10个引物、约10个至20个引物、约20个至30个引物、约30个至40个引物、约40个至50个引物、约50个至60个引物、约60个至70个引物、约70个至80个引物、约80个至90个引物、约90个至100个引物、约100个至150个引物、约150个至200个引物、约200个至250个引物、约250个至300个引物、约300个至350个引物、约350个至400个引物、约400个至450个引物、约450个至500个引物，或者约500个引物或更多个引物。在各种实施方案中，用于DNA测序或RNA测序的感兴趣基因包括但不限于：CCND3、CD44、CCND1、CD33、CDK6、CDK4、CDKN1B、CREB3L4、CDKN1A、CREBBP、CREB3L1、CREB5、CREB1、ELK1、FOS、FHL1、FASLG、GNG12、GSK3B、BAD、FOXO4、FOXO1、HIF1A、HSPB1、IKBKG、IRF9、BCL2、BCL2L11、MAP2K1 MAPK1、BCL2L1、MYB、NF1、NFKB1、MYC、PIK3CB、PIM1、PIAS1、PRKCB、PTEN、HSPA1A、HSPA2、IL2RB、IL2RA、SIRT1、NCL、RHOA、MCM4、NASP、SOS1、TCL1B、SOCS3、SOCS2、STAT4、STAT6、SRF、TP53、CASP9、CASP3、CASP8、UBB、MPRL16、MRPL21、FAM32A、ABCB7、PCBP1、EPS15、NRAS、RPS27A、AFF3、PAX3、CMTM6、RHOA、PIK3CA、MAP3K13、NSD1、PTPRK、CARD11、EGFR、EZH2、WRN、JAK2、GATA3、DKK1、POLA2、CCND1、ATM、ARHGEF12、KRAS、COL2A1、KMT2D、CLIP1、FLT3、BRCA2、BUB1B、PALB2、FANCA、NCOR1、ERBB2、KAT2A、RAB5C、METTL23、SRSF2、MFSD11、DNM2、CIC、BCR、MYH9、EP300和SSX1。

对于整个转录组RNA测序，在各种实施方案中，试剂(例如，图1中的试剂120)的引物可以包括恒定反向引物和随机正向引物。恒定反向引物可以包括通用引物区域和反向恒定区域，诸如PCR柄。例如，通用引物区域可以是与信使RNA转录物的聚A尾杂交的寡dT序列。这种引发使得mRNA转录物能够逆转录。随机正向引物可以具有与逆转录cDNA的序列杂交的随机引物序列，从而能够从cDNA引发。在各种实施方案中，反应混合物(例如，图1中的反应混合物140)的引物可以是恒定的正向引物和恒定的反向引物。恒定的正向引物可以与使得能够从cDNA引发的随机正向引物杂交。恒定的反向引物可以与先前使得能够逆转录mRNA转录物的反向恒定区域(诸如PCR柄)的序列杂交。

在各种实施方案中，代替引物被包括在反应混合物(例如，图1中的反应混合物140)中，此类引物可以被包括在条形码(例如，图1中的条形码145)中或连接到其上。在特定的实施方案中，引物连接到条形码的末端，并且因此可用于与细胞裂解物中的核酸的靶序列杂交。

在各种实施方案中，反应混合物的引物、试剂的引物或条形码的引物可以在一个步骤中或在多于一个步骤中添加到乳液中。例如，可以在两个或更多个步骤、三个或更多个步骤、四个或更多个步骤或五个或更多个步骤中添加引物。无论引物是在一个步骤中还是一个以上步骤中添加，其都可以在添加裂解剂之后、在添加裂解剂之前或与添加裂解剂同时添加。当在添加裂解剂之前或之后添加时，反应混合物的引物可以在与添加裂解剂分开的步骤中添加(例如，如图1所示的两步骤工作流过程中所示例的)。

用于扩增靶核酸的引物组通常包括与靶核酸或其互补物互补的正向引物和反向引物。在一些实施方案中，可以在单个扩增反应中使用多个靶标特异性引物对执行扩增，其中每个引物对包括正向靶标特异性引物和反向靶标特异性引物，其中每个引物包括至少一个与样品中的相应靶序列基本上互补或基本相同的序列，并且每个引物对具有不同的相应靶序列。因此，本文中的某些方法用于检测或识别来自单细胞样品的多个靶序列。

示例性系统和/或计算机实施方案

图6描绘了包括用于根据图1-5中所述的实施方案对细胞进行单细胞分析以产生预测细胞轨迹640的单细胞工作流装置620和计算装置630的总体系统环境。在各种实施方案中，单细胞工作流装置620被配置成执行细胞包封160、分析物释放165、细胞加条形码170、靶标扩增175、核酸汇集205和测序210的步骤。在各种实施方案中，计算装置630被配置成执行读数比对215和确定细胞轨迹220的计算机模拟步骤。

在各种实施方案中，单细胞工作流装置620包括至少一个微流体装置，该微流体装置被配置成与试剂一起包封细胞、与反应混合物一起包封细胞裂解物和执行核酸扩增反应。例如，微流体装置可以包括流体地连接的一个或多个流体通道。因此，通过第一通道的水性流体和通过第二通道的载体流体的组合导致乳液液滴的产生。在各种实施方案中，微流体装置的流体通道可以具有毫米或更小量级(例如，小于或等于约1毫米)的至少一个横截面尺寸。在国际专利申请号PCT/US2016/016444和美国专利申请号14/420,646中描述了微通道设计和尺寸的另外细节，所述申请中的每一者据此以引用的方式整体并入。微流体装置的一个实例是Tapestri^TM平台。

在各种实施方案中，单细胞工作流装置620还可以包括以下中的一者或多者：(a)用于控制主题装置和/或其中的液滴的一个或多个部分的温度并且可操作地连接到微流体装置上的温度控制模块；(b)可操作地连接到微流体装置上的检测装置，即检测器，例如光学成像器；(c)可操作地连接到微流体装置上的孵育器，例如细胞孵育器；和(d)可操作地连接到微流体装置上的测序仪。所述一个或多个温度和/或压力控制模块提供对装置的一个或多个流动通道中的载体流体的温度和/或压力的控制。作为实例，温度控制模块可以是调节用于执行核酸扩增的温度的一个或多个热循环仪。所述一个或多个检测装置(即检测器，例如光学成像器)被配置成用于检测一种或多种液滴的存在、或其一个或多个特征(包括其组成)。在一些实施方案中，所述检测装置被配置成识别一个或多个流动通道中的一种或多种液滴的一种或多种组分。所述测序仪被配置成执行测序(诸如下一代测序)的硬件装置。测序仪的实例包括Illumina测序仪(例如，MiniSeq^TM、MiSeq^TM、NextSeq^TM550系列或NextSeq^TM2000)、Roche测序系统454和Thermo Fisher Scientific测序仪(例如，IonGeneStudio S5系统、Ion Torrent Genexus系统)。

图7描绘了用于实现参考图1-6所描绘的系统和方法的示例性计算装置。例如，示例性计算装置630被配置成执行读数比对215和确定细胞轨迹220的计算机模拟步骤。计算装置的实例可以包括个人计算机、台式计算机、膝上型计算机、服务器计算机、集群内的计算节点、信息处理器、手持装置、多处理器系统、基于微处理器或可编程的消费者电子装置、网络PC、小型计算机、主机计算机、移动电话、PDA、平板电脑、传呼机、路由器、交换机等。

图7展示了用于实现图1-5中所描述的系统和方法的示例性计算装置630。在一些实施方案中，计算装置630包括耦接至芯片组704的至少一个处理器702。芯片组704包括存储器控制器集线器720和输入/输出(I/O)控制器集线器722。存储器706和图形适配器712耦接至存储器控制器集线器720，且显示器718耦接至图形适配器712。存储装置708、输入接口714和网络适配器716耦接至I/O控制器集线器722。计算装置630的其他实施方案具有不同的架构。

存储装置708是非暂时性计算机可读存储介质，例如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器装置。存储器706保持由处理器702使用的指令和数据。输入接口714是触摸屏接口、鼠标、跟踪球或其他类型的输入接口、键盘或其一些组合，并且用于将数据输入到计算装置630中。在一些实施方案中，计算装置630可以被配置成经由来自用户的手势从输入接口714接收输入(例如命令)。图形适配器712在显示器718上显示图像和其它信息。例如，显示器718可以显示预测的细胞轨迹的指示。网络适配器716将计算装置630耦接至一个或多个计算机网络。

计算装置630被调适来执行用于提供本文描述的功能的计算机程序模块。如本文中所使用，术语“模块”是指用于提供指定功能的计算机程序逻辑。因此，模块可以实施于硬件、固件和/或软件中。在一个实施方案中，程序模块存储于存储装置708上，载入至存储器706中且由处理器702执行。

计算装置630的类型可以不同于本文所述的实施方案。例如，计算装置630可以缺少上述组件中的一些，诸如图形适配器712、输入接口714和显示器718。在一些实施方案中，计算装置630可以包括处理器702，用于执行储存在存储器706上的指令。

比对序列读数和确定细胞轨迹的方法可以在硬件或软件中或者在两者的组合中实现。在一个实施方案中，提供了一种非短暂的机器可读存储介质(诸如上文所述的介质)，所述介质包括用机器可读数据编码的数据存储材料，所述数据存储材料当使用编程有使用所述数据的指令的机器时能够显示本发明的细胞轨迹的任何数据集和执行及结果。此类数据可以用于各种目的，诸如患者监测、治疗考虑等。上文所述的方法的实施方案可以在可编程计算机上执行的计算机程序中实现，所述可编程计算机包括处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、图形适配器、输入接口、网络适配器、至少一个输入装置和至少一个输出装置。显示器耦接至图形适配器。程序代码被应用于输入数据以执行上文所述的功能并产生输出信息。以已知的方式将输出信息应用于一个或多个输出装置。计算机可以是例如传统设计的个人计算机、微型计算机或工作站。

每个程序可以用高级程序或面向对象的编程语言来实施以与计算机系统通信。然而，如果期望的话，程序可以汇编或机器语言来实施。在任何情况下，语言都可以是编译的或解释的语言。每个这样的计算机程序优选地储存在可由通用或专用目的可编程计算机读取的存储介质或装置(例如，ROM或磁盘)上，用于当计算机读取存储介质或装置以执行本文所述的程序时配置和操作计算机。所述系统还可以被认为作为配置有计算机程序的计算机可读存储介质实现，其中如此配置的存储介质使计算机以特定和预定义的方式操作以执行本文所述的功能。

可以在各种介质中提供签名模式及其数据库，以便于它们的使用。“介质”是指含有本发明的签名模式信息的制品。本发明的数据库可以记录在计算机可读介质(例如，计算机可以直接读取和访问的任何介质)上。此类介质包括但不限于：磁性存储介质，诸如软盘、硬盘存储介质和磁带；光存储介质，诸如CD-ROM；电存储介质，诸如RAM和ROM；以及这些类别的混合体，诸如磁/光存储介质。本领域技术人员可以容易地理解如何使用任何当前已知的计算机可读介质来创建包含记录当前数据库信息的制品。“记录的”是指使用如本领域中已知的任何此类方法在计算机可读介质上储存信息的过程。根据用于访问存储信息的手段，可以选择任何方便的数据存储结构。可以使用多种数据处理器程序和格式进行存储，例如文字处理文本文件、数据库格式等。

示例性试剂盒实施方案

本文还提供了用于分析单个细胞或细胞群体的RNA转录物和DNA(例如，染色质可及DNA)的试剂盒。试剂盒可以包括以下中的一者或多者：用于形成乳液的流体(例如，载体相、水相)、加条形码的珠粒、用于处理单细胞的微流体装置、用于裂解细胞和释放细胞分析物的试剂、用于执行核酸扩增反应的反应混合物、以及用于根据本文所述的方法使用任何试剂盒组分的说明。

实施例

实施例1：内含子区域的DNA扩增子-寡dT引发

使用Tapestri^TM采用图1中所示的工作流过程处理K-562细胞。特别地，单细胞连同试剂一起被分配到乳液中。所述试剂不包含蛋白酶(例如，没有蛋白酶K)，也不包含转座酶(例如，没有转座酶Tn5)。所述试剂包括SSIV RT、5X SSIV缓冲液、10mM dNTP、100mM DTT、核糖核酸酶抑制剂、50uM寡dT、NP-40和dH2O。试剂中0.1％NP40导致单细胞在乳液中裂解。将含有包封液滴的管在55℃孵育10分钟，然后在80℃孵育10分钟。单细胞的RNA和包装的DNA根据图4A和4B所述的过程进行处理。具体来说，在第一乳液内，使用寡dT引物引发来自单细胞的RNA转录物，并且使用逆转录酶产生cDNA。

然后将包含cDNA和包装的DNA的细胞裂解物在具有反应混合物和加条形码的珠粒(有超过一百万个条形码可释放地附接在珠粒上)的第二乳液中乳化。反应混合物包含靶向感兴趣的基因的正向和反向引物(带PCR柄)。正向引物如表1所示。反向引物如表2所示。

表1：正向引物(带PCR柄)

表2：反向引物(带PCR柄)

在包装的DNA中的染色质可及DNA和cDNA被引发。进行核酸扩增以产生源自RNA转录物和染色质可及DNA的扩增核酸。

将扩增的核酸汇集在管(例如，PCR管或Eppendorf管)中并打破乳液。扩增的核酸通过添加P5和P7序列转接器进行文库制备。对核酸测序获得序列读数。根据共同条形码对序列读数进行聚类，并与参考基因组比对。

为了验证染色质可及DNA被引发和扩增，分析如在参考基因组中已知的DNA内含子区域，以确定是否扩增和测序了与内含子区域对应的序列读数。

图8A描绘了从通过寡dT引发K-562细胞获得的内含子区域读数观察到的DNA扩增子大小，其中在包封期间不使用蛋白酶K和转座酶(Tn5)。值得注意的是，内含子读数以各种长度(包括介于100-500个碱基对之间、介于500-100个碱基对之间、介于1000-1500个碱基对之间、以及甚至超过1500个碱基对的长度)存在。这指示存在这些内含子读数的对应基因可能是可及的并且可用于转录。相反，一些内含子读数没有被观察到。这指示存在这些内含子读数的对应基因可能是不可及的并且不可用于转录。

图8B和8C示出了与参考基因组比对(分别与CCL2基因和HLA-C基因比对)的序列读数的集成基因组查看器(IGV)截图。在图8B和8C中，多个成对读数(例如，正向和反向读数)与CCL2和HLA-C的内含子区域对齐。因此，在CCL2和HLA-C的内含子区域中存在这些序列读数指示CCL2和HLA-C

然后将包含cDNA和包装的DNA的细胞裂解物在具有反应混合物和加条形码的珠粒(有超过一百万个条形码可释放地附接在珠粒上)的第二乳液中乳化。反应混合物包含靶向感兴趣的基因的正向引物。正向引物如下表4所示。

表4：正向引物(包括PCR柄)

将扩增的核酸汇集在Eppendorf管中并打破乳液。扩增的核酸通过添加P5和P7序列转接器进行文库制备。对核酸测序获得序列读数。根据共同条形码对序列读数进行聚类，并与参考基因组比对。

图9A描绘了从通过基因特异性引发MCF7细胞获得的内含子区域读数观察到的DNA扩增子大小，其中在包封期间不使用蛋白酶K和转座酶(Tn5)。值得注意的是，内含子读数以各种长度(包括介于100-500个碱基对之间和介于500-100个碱基对之间)存在。这指示存在这些内含子读数的对应基因可能是可及的并且可用于转录。相反，一些内含子读数没有被观察到。这指示存在这些内含子读数的对应基因可能是不可及的并且不可用于转录。

图9B和9C示出了与参考基因组比对(分别与VIM基因和MKI67基因比对)的序列读数的集成基因组查看器(IGV)截图。如图9B和9C所示,在VIM基因和MK167基因的内含子区域中观察到读数，指示所述基因是可及的并且可用于转录。

Claims

1.一种用于预测细胞的细胞轨迹的方法，所述方法包括：

将细胞包封在包含试剂的乳液中，所述细胞包含至少一种RNA分子和含有染色质可及DNA区段的包装的DNA；

裂解所述乳液内的所述细胞，从而使所述RNA和所述包装的DNA暴露于所述试剂，其中所述试剂包含小于0.50mg/mL的蛋白酶和小于2.5％(v/v)的转座酶；

使用所述至少一种RNA产生至少一种cDNA分子；

将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在第二乳液中；

使用所述反应混合物在所述第二乳液内进行核酸扩增反应以产生多种核酸，所述多种核酸包含：

来自所述至少一种cDNA分子之一的第一核酸；和

源自所述包装的DNA的所述染色质可及DNA区段的第二核酸；以及

对所述第一核酸和所述第二核酸进行测序。

2.如权利要求1所述的方法，其中所述试剂包含小于0.10mg/mL的蛋白酶。

3.如权利要求1所述的方法，其中所述试剂包含小于0.01mg/mL的蛋白酶。

4.如权利要求1所述的方法，其中所述试剂不包含蛋白酶。

5.如权利要求1-4中任一项所述的方法，其中所述试剂包含小于0.1％(v/v)的转座酶。

6.如权利要求1-4中任一项所述的方法，其中所述试剂包含小于0.01％(v/v)的转座酶。

7.如权利要求1-4中任一项所述的方法，其中所述试剂不包含转座酶。

8.如权利要求1-7中任一项所述的方法，其中使用所述反应混合物在所述第二乳液内进行所述核酸扩增反应以产生所述多种核酸包括：

引发在所述包装的DNA中的所述染色质可及DNA区段；以及

从所引发的染色质可及DNA区段产生延伸产物。

9.如权利要求1-8中任一项所述的方法，所述方法还包括：在所述乳液中，从所述包装的DNA中的染色质可及DNA区段产生延伸产物，并且其中将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在所述第二乳液中还包括将所述延伸产物包封在所述第二乳液中。

10.如权利要求9所述的方法，其中从所述包装的DNA中的所述染色质可及DNA区段产生所述延伸产物包括：

将所述第一乳液暴露于介于40℃与60℃之间的温度，从而使所述染色质可及DNA区段失去稳定。

11.如权利要求1-10中任一项所述的方法，其中所述试剂包含逆转录酶。

12.如权利要求1-11中任一项所述的方法，其中所述试剂包含NP-40。

13.如权利要求1-12中任一项所述的方法，所述方法还包括使用经测序的第一核酸和经测序的第二核酸预测所述细胞轨迹。

14.如权利要求13所述的方法，其中预测所述细胞轨迹包括使用至少所述经测序的第一核酸和第二核酸来确定细胞的两种不同状态。

15.如权利要求14所述的方法，其中将所述经测序的第一核酸用于确定所述细胞的先前状态，并且其中将所述经测序的第二核酸用于确定所述细胞的未来状态。

16.如权利要求15所述的方法，其中所述至少一种RNA先前从包含一个染色质可及DNA的DNA区域转录，由此指示所述细胞的先前状态与未来状态之间的共同性。

17.如权利要求15所述的方法，其中所述至少一种RNA从与染色质不可及DNA对应的DNA区域转录，由此指示从所述细胞的先前状态向所述细胞的未来状态的转变。

18.如权利要求1-17中任一项所述的方法，其中所述细胞轨迹是细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态或细胞对外部刺激的未来响应中的任一者。

19.如权利要求1-18中任一项所述的方法，所述方法还包括将第一条形码和第二条形码连同所述至少一种cDNA、至少一种染色质可及DNA和所述反应混合物一起包封在所述第二乳液中。

20.如权利要求19所述的方法，其中所述第一核酸包含所述第一条形码。

21.如权利要求19或20所述的方法，其中所述第二核酸包含所述第二条形码。

22.如权利要求19-21中任一项所述的方法，其中所述第一条形码和所述第二条形码共享相同的条形码序列。

23.如权利要求19-21中任一项所述的方法，其中所述第一条形码和所述第二条形码共享不同的条形码序列。

24.如权利要求19-23中任一项所述的方法，其中所述第一条形码和所述第二条形码可释放地附接到所述第二乳液中的珠粒。

25.如权利要求1-24中任一项所述的方法，其中逆转录所述至少一种RNA发生在所述第一乳液内。

26.如权利要求1-25中任一项所述的方法，其中所述核酸扩增反应是聚合酶链反应。

27.如权利要求1-26中任一项所述的方法，其中所述多种核酸还包含从在所述包装的DNA中与内含子DNA区域对应的其他染色质可及DNA区段来源的核酸。

28.如权利要求27所述的方法，其中从所述包装的DNA中与内含子DNA区域对应的其他染色质可及DNA分子来源的核酸中的至少50％具有在100至500个碱基对之间的长度。

29.一种系统，其包括：

装置，所述装置被配置为：

通过逆转录所述至少一种RNA产生至少一种cDNA分子；并且

将所述至少一种cDNA分子、所述包装的DNA和试剂包封在第二乳液中；

在所述第二乳液内进行PCR反应以产生多种核酸，所述多种核酸包含：

来自所述至少一种cDNA分子之一的第一核酸；和

源自所述包装的DNA的所述染色质可及DNA区段的第二核酸；并且

对所述第一核酸和所述第二核酸进行测序。

30.如权利要求29所述的系统，所述系统还包括：

通信地耦接至所述装置的计算装置，所述计算装置被配置成通过使用经测序的第一核酸和第二核酸来预测细胞轨迹。

31.如权利要求29或30所述的系统，其中所述试剂包含小于0.10mg/mL的蛋白酶。

32.如权利要求29或30所述的系统，其中所述试剂包含小于0.01mg/mL的蛋白酶。

33.如权利要求29或30所述的系统，其中所述试剂不包含蛋白酶。

34.如权利要求29-33中任一项所述的系统，其中所述试剂包含小于0.1％(v/v)的转座酶。

35.如权利要求29-33中任一项所述的系统，其中所述试剂包含小于0.01％(v/v)的转座酶。

36.如权利要求29-33中任一项所述的系统，其中所述试剂不包含转座酶。

37.如权利要求29-36中任一项所述的系统，其中使用反应混合物在所述第二乳液内进行所述核酸扩增反应以产生所述多种核酸包括：

引发在所述包装的DNA中的所述染色质可及DNA区段；以及

从所引发的染色质可及DNA区段产生延伸产物。

38.如权利要求29-37中任一项所述的系统，所述系统还包括：在所述乳液中，从所述包装的DNA中的染色质可及DNA区段产生延伸产物，并且其中将所述至少一种cDNA分子、所述包装的DNA和反应混合物包封在所述第二乳液中还包括将所述延伸产物包封在所述第二乳液中。

39.如权利要求38所述的系统，其中从所述包装的DNA中的所述染色质可及DNA区段产生所述延伸产物包括：

40.如权利要求29-39中任一项所述的系统，其中所述试剂包含逆转录酶。

41.如权利要求29-40中任一项所述的系统，其中所述试剂包含NP-40。

42.如权利要求30-41中任一项所述的系统，其中预测所述细胞轨迹包括使用至少所述经测序的第一核酸和第二核酸来确定细胞的两种不同状态。

43.如权利要求42所述的系统，其中将所述经测序的第一核酸用于确定所述细胞的先前状态，并且其中将所述经测序的第二核酸用于确定所述细胞的未来状态。

44.如权利要求42或43所述的系统，其中所述至少一种RNA先前从包含一个染色质可及DNA的DNA区域转录，由此指示所述细胞的先前状态与未来状态之间的共同性。

45.如权利要求42或43所述的系统，其中所述至少一种RNA从与染色质不可及DNA对应的DNA区域转录，由此指示从所述细胞的先前状态向所述细胞的未来状态的转变。

46.如权利要求30-45中任一项所述的系统，其中所述细胞轨迹是细胞谱系、细胞命运、细胞未来状态中的细胞功能、细胞的患病未来状态或细胞对外部刺激的未来响应中的任一者。

47.如权利要求29-46中任一项所述的系统，其中所述装置还被配置成将第一条形码和第二条形码连同所述至少一种cDNA、至少一种染色质可及DNA和所述反应混合物一起包封在所述第二乳液中。

48.如权利要求47所述的系统，其中所述第一核酸包含所述第一条形码。

49.如权利要求47或48所述的系统，其中所述第二核酸包含所述第二条形码。

50.如权利要求47-49中任一项所述的系统，其中所述第一条形码和所述第二条形码共享相同的条形码序列。

51.如权利要求47-49中任一项所述的系统，其中所述第一条形码和所述第二条形码共享不同的条形码序列。

52.如权利要求47-51中任一项所述的系统，其中所述第一条形码和所述第二条形码可释放地附接到所述第二乳液中的珠粒。

53.如权利要求29-52中任一项所述的系统，其中逆转录所述至少一种RNA发生在所述第一乳液内。

54.如权利要求29-53中任一项所述的系统，其中所述核酸扩增反应是聚合酶链反应。

55.如权利要求29-54中任一项所述的系统，其中所述多种核酸还包含从在所述包装的DNA中与内含子DNA区域对应的其他染色质可及DNA区段来源的核酸。

56.如权利要求55所述的系统，其中从所述包装的DNA中与内含子DNA区域对应的其他染色质可及DNA分子来源的核酸中的至少50％具有在100至500个碱基对之间的长度。