高通量单细胞转录组文库及制备和使用方法
相关申请的交叉引用
本申请要求2018年6月4日提交的美国临时申请序列号62/680,259和2019年3月21日提交的美国临时申请序列号62/821,678的权益,其各自在此通过引用全部并入本文。
政府资助
本发明是在美国国立卫生研究院授予的DP1 HG007811号政府资助下完成的。政府拥有本发明的某些权利。
技术领域
本公开的实施方案涉及测序核酸。特别地,本文提供的方法和组合物的实施方案涉及产生索引的单细胞转录组文库并由此获得序列数据。
背景技术
细胞在各种过程中跨功能上和分子文献不同的状态转变,例如在多细胞生物体的发育过程中以及对不同条件(如治疗剂的暴露)的反应中。表征细胞状态转变路径或细胞命运可用于理解包括发育和细胞对变化的环境的分子反应的途径。例如,可以鉴定发育缺陷的调节子,并且可以更好地理解治疗剂如何影响细胞。
单细胞组合索引(“sci-”)是一种采用分割-合并条码化(split-pool barcoding)唯一地标记大量单细胞或细胞核的核酸内容物的方法框架。然而,当前的单细胞基因组技术缺乏用于获得通常在多细胞生物发展过程中存在的快速多样化和数量扩增的细胞类型的分子状态和轨迹的全局观察的通量和分辨率。当前的单细胞基因组技术仅捕获细胞状态的快照(snapshot),因此无法提供有关通过内在因素(例如,细胞的内在细胞周期程序)和外在因素(例如,细胞对外部刺激如治疗剂的反应)调控的细胞转变动力学的信息。
发明内容
本文提供了通过标记新合成的RNA来鉴定细胞状态转变动力学的方法。捕获全的和新合成RNA转录组两者,从而允许在单细胞水平上表征时间点之间的转录组动力学。本文还提供了将单细胞测序集中在目标mRNA上的方法,从而解决了当前检测任何给定转录物丰度的变化的能力限制。进一步提供了克服细胞损失率和有限反应效率从而导致分型分析比以前可能的更大量的单细胞的方法。
在一个实施方案中,方法包括在第一多个隔室中提供多个细胞核或细胞,其中每个隔室包含细胞核或细胞的子集;以及标记在从所述细胞获得的细胞或细胞核的子集中新合成的RNA。处理细胞核或细胞的每个子集中的RNA分子以产生索引的细胞核或细胞,其中该处理包括向细胞核或细胞的每个子集中存在的RNA核酸添加第一隔室特异性索引序列以得到索引的细胞核或细胞中存在的索引的DNA核酸,和然后组合索引的细胞核或细胞以产生合并的索引细胞核或细胞。
在另一实施方案中,方法包括在第一多个隔室中提供多个细胞核或细胞,其中每个隔室包含细胞核或细胞的子集。每个子集与逆转录酶和与预定的RNA核酸退火的引物接触,从而得到具有引物和模板RNA核酸的相应DNA核苷酸序列的双链DNA核酸。细胞核或细胞的每个子集中的该DNA分子进行处理以产生索引的细胞核或细胞,其中该处理包括向细胞核或细胞的每个子集中存在的DNA核酸添加第一隔室特异性索引序列以得到索引的细胞核或细胞中存在的索引的核酸,和然后组合索引的细胞核或细胞以产生合并的索引细胞核或细胞。
在另一个实施方案中,方法包括在第一多个隔室中提供多个细胞核或细胞,其中每个隔室包含细胞核或细胞的子集。每个子集与逆转录酶和与预定的RNA核酸退火的引物接触,从而得到具有引物和模板RNA核酸的相应DNA核苷酸序列的双链DNA核酸。细胞核或细胞的每个子集中的DNA分子进行处理以产生索引的细胞核或细胞,其中该处理包括向细胞核或细胞的每个子集中存在的DNA核酸添加第一隔室特异性索引序列以得到索引的细胞核或细胞中存在的索引的核酸,和然后组合索引的细胞核或细胞以产生合并的索引细胞核或细胞。合并的索引细胞核或细胞被分割和然后进一步处理以向DNA分子添加第二隔室特异性索引,组合,分割并进一步处理以向DNA分子添加第三隔室特异性索引。
定义
除非另有说明,否则本文中使用的术语应理解为具有相关领域中的普通含义。下面列出本文中使用的几个术语及其含义。
如本文所用,术语“生物体”、“受试者”可互换使用,并且是指微生物(例如原核或真核的)、动物和植物。动物的例子是哺乳动物,例如人。
如本文所用,术语“细胞类型”旨在基于形态、表型、发育起源或其他已知或可识别的区别性细胞特征来鉴定细胞。可以从单个生物体(或从相同物种的生物体)获得多种不同的细胞类型。示例性细胞类型包括但不限于配子(包括雌配子,例如卵或卵细胞,和雄配子,例如精子)、卵巢上皮、卵巢成纤维细胞、睾丸、膀胱、免疫细胞、B细胞、T细胞、自然杀伤细胞、树突状细胞、癌细胞、真核细胞、干细胞、血细胞、肌肉细胞、脂肪细胞、皮肤细胞、神经细胞、骨细胞、胰腺细胞、内皮细胞、胰腺上皮、胰腺α、胰腺β、胰腺内皮、骨髓淋巴母细胞、骨髓B淋巴母细胞、骨髓巨噬细胞、骨髓成红细胞、骨髓树突状、骨髓脂肪细胞、骨髓骨细胞、骨髓软骨细胞、早幼粒细胞、骨髓原巨核细胞、膀胱、脑B淋巴细胞、脑神经胶质、神经元、脑星形胶质细胞、神经外胚层、脑巨噬细胞、脑小胶质细胞、脑上皮、皮质神经元、脑成纤维细胞、乳腺上皮、结肠上皮、结肠B淋巴细胞、乳腺上皮、乳腺肌上皮、乳腺成纤维细胞、结肠肠上皮细胞、子宫颈上皮、乳腺导管上皮、舌上皮、扁桃体树突状、扁桃体B淋巴细胞、外周血成淋巴细胞、外周血T成淋巴细胞、外周血皮肤T淋巴细胞、外周血自然杀伤、外周血B淋巴母细胞、外周血单核细胞、外周血成肌细胞、外周血成单核细胞、外周血早幼粒细胞、外周血巨噬细胞、外周血嗜碱性粒细胞、肝内皮、肝肥大、肝上皮、肝B淋巴细胞、脾内皮、脾上皮、脾B淋巴细胞、肝脏肝细胞、肝脏、成纤维细胞、肺上皮、支气管上皮、肺成纤维细胞、肺B淋巴细胞、肺雪旺氏细胞、肺鳞状、肺巨噬细胞、肺成骨细胞、神经内分泌、肺泡、胃上皮和胃成纤维细胞。
如本文所用,术语“组织”旨在表示一起发挥作用以在生物体中执行一种或多种具体功能的细胞的集合或聚集体。细胞可以任选地在形态上相似。示例性组织包括但不限于胚胎、附睾、眼睛、肌肉、皮肤、肌腱、静脉、动脉、血液、心脏、脾脏、淋巴结、骨骼、骨髓、肺、支气管、气管、肠、小肠、大肠、结肠、直肠、唾液腺、舌头、胆囊、阑尾、肝脏、胰腺、脑、胃、皮肤、肾脏、输尿管、膀胱、尿道、性腺、睾丸、卵巢、子宫、输卵管、胸腺、垂体、甲状腺、肾上腺或甲状旁腺。组织可以源自人类或其他生物体的多种器官中的任何一种。组织可以是健康组织或不健康组织。不健康组织的例子包括但不限于生殖组织、肺、乳腺、结肠直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨骼、卵巢、肝脏、血液组织、胰腺、子宫、肾脏、淋巴组织等的恶性肿瘤。恶性肿瘤可以是多种组织学亚型,例如癌、腺癌、肉瘤、纤维腺癌、神经内分泌或未分化的。
如本文所用,术语“隔室”旨在表示将某物与其他事物分离或隔离的区域或体积。示例性的隔室包括但不限于小瓶、管、孔、液滴、大丸、珠、容器、表面特征或通过诸如流体流、磁性、电流等物理力分开的区域或体积。在一个实施方案中,隔室是多孔板的孔,例如96或384孔板。如本文所用,液滴可以包括水凝胶珠,其是用于包封一个或多个细胞核或细胞的珠,并且包括水凝胶组合物。在一些实施方案中,液滴是水凝胶材料的均质小滴或具有聚合物水凝胶壳的中空小滴。不论是均质的还是中空的,液滴可能能够包封一个或多个细胞核或细胞。在一些实施方案中,液滴是表面活性剂稳定的液滴。
如本文所用,“转座体复合物”是指整合酶和包括整合识别位点的核酸。“转座体复合物”是能够催化转座反应的由转座酶和转座酶识别位点形成的功能性复合物(参见,例如,Gunderson等人,WO 2016/130704)。整合酶(integration enzyme)的实例包括但不限于整合酶(intergrase)或转座酶。整合识别位点的实例包括但不限于转座酶识别位点。
如本文所用,术语“核酸”旨在与其在本领域中的使用一致,并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性的方式与核酸杂交,或者能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有包含磷酸二酯键的主链。类似物结构可具有替代的主链连接,包括本领域已知的多种主链中的任一种。天然存在的核酸通常具有脱氧核糖(例如在脱氧核糖核酸(DNA)中发现的)或核糖(例如在核糖核酸(RNA)中发现的)。核酸可包含本领域已知的这些糖部分的多种类似物中的任何类似物。核酸可包括天然或非天然碱基。在这方面,天然脱氧核糖核酸可以具有选自由腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的一种或多种碱基,而核糖核酸可以具有选自由腺嘌呤、尿嘧啶、胞嘧啶或鸟嘌呤的一种或多种碱基。可以包含在核酸中的有用的非天然碱基是本领域已知的。非天然碱基的实例包括锁核酸(LNA)、桥核酸(BNA)和伪互补碱基(TrilinkBiotechnologies,San Diego,CA)。LNA和BNA碱基可掺入到DNA寡核苷酸中,并增加寡核苷酸杂交的强度和特异性。LNA和BNA碱基以及此类碱基的用途是本领域技术人员已知的并且是常规的。除非另有说明,否则术语“核酸”包括天然和非天然的mRNA、非编码RNA(例如在3'末端不具有聚-A的RNA)、衍生自RNA的核酸(例如cDNA)和DNA。
如本文所用,术语“靶”当用于指核酸时,在本文所提出的方法或组合物的情况中旨在作为核酸的语义标识,并且不一定限制核酸的结构或功能超出另外明确指示的范围。靶核酸基本上可以是已知或未知序列的任何核酸。例如,它可以是基因组DNA(例如,染色体DNA)的片段、染色体外DNA(如质粒)、无细胞DNA、RNA(例如RNA或非编码RNA)、蛋白质(例如,细胞或细胞表面蛋白)或cDNA。测序可导致确定靶分子全部或部分的序列。靶可以源自初级核酸样品,例如细胞核。在一个实施方案中,可以通过将通用序列置于每个靶片段的一个或两个末端上将靶标处理成适合扩增的模板。靶还可以通过逆转录成cDNA从初级RNA样品获得。在一个实施方案中,靶用于指细胞中存在的DNA、RNA或蛋白质的子集。靶向测序通常通过PCR扩增(例如,区域特异性引物)或基于杂交的捕获方法或抗体来使用目标基因或区域或蛋白质的选择和分离。靶向富集可以发生在方法的各个阶段。例如,可以在逆转录步骤中使用靶特异性引物或使用来自更复杂文库中的子集的基于杂交的富集获得靶RNA表示。一个例子是外显子组测序或L1000分析(Subramanian等人,2017,Cell,171;1437-1452)。靶向测序可以包括本领域普通技术人员已知的任何富集过程。
如本文所用,术语“通用”当用于描述核苷酸序列时,是指两个或更多个核酸分子共有的序列区域,其中所述分子也具有彼此不同的序列区域。存在于分子集合的不同成员中的通用序列可以允许使用通用捕获核酸群体捕获多个不同的核酸,例如捕获与通用序列的一部分(例如通用捕获序列)互补的寡核苷酸。通用捕获序列的非限制性实例包括与P5和P7引物相同或互补的序列。类似地,存在于分子集合的不同成员中的通用序列可以允许使用与通用序列的一部分(例如,通用锚序列)互补的通用引物群体来复制(例如测序)或扩增多个不同的核酸。在一个实施方案中,通用锚序列用作通用引物(例如,用于阅读片段1或阅读片段2的测序引物)与其退火以进行测序的位点。因此,捕获寡核苷酸或通用引物包括可以与通用序列特异性杂交的序列。
当涉及通用捕获序列或捕获寡核苷酸时,可以使用术语“P5”和“P7”。术语“P5’”(P5撇号)和“P7’”(P7撇号)分别指P5和P7的互补序列。应理解的是,任何合适的通用捕获序列或捕获寡核苷酸可用于本文提出的方法中,并且P5和P7的使用仅是示例性的实施方案。如WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151以及WO 2000/018957的公开所举例说明的,捕获寡核苷酸如P5和P7或其互补序列在流动池上的使用是本领域已知的。例如,任何合适的正向扩增引物,无论是固定的还是在溶液中,可用于本文提出的方法中用于与互补序列杂交和序列扩增。类似地,任何合适的反向扩增引物,无论是固定的还是在溶液中,可用于本文提出的方法中用于与互补序列杂交和序列扩增。本领域技术人员将理解如何设计和使用适用于捕获和/或扩增本文所述核酸的引物序列。
如本文所用,术语“引物”及其衍生物通常是指可以与目标靶序列杂交的任何核酸。通常,引物充当核苷酸可通过聚合酶聚合到其上或核苷酸序列(例如索引)可与其连接的底物;然而,在一些实施方案中,引物可并入合成的核酸链中,并提供另一引物可与之杂交以启动与合成的核酸分子互补的新链的合成的位点。引物可以包括核苷酸或其类似物的任何组合。在一些实施方案中,引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换使用以指任何长度的核苷酸的聚合形式,并且可以包括核糖核苷酸、脱氧核糖核苷酸,其类似物或它们的混合物。该术语应理解为等同地包括由核苷酸类似物制成的DNA、RNA、cDNA或抗体-寡聚体缀合物的类似物,并且适用于单链(例如有义或反义)和双链多核苷酸。如本文所用,该术语还涵盖cDNA,其是从RNA模板产生(例如通过逆转录酶的作用)的互补或副本DNA。该术语仅指分子的一级结构。因此,该术语包括三链、双链和单链脱氧核糖核酸(“DNA”),以及三链、双链和单链核糖核酸(“RNA”)。
如本文所用,术语“衔接子(adapter)”及其衍生词,例如通用衔接子,通常是指可以连接至本公开的核酸分子的任何线性寡核苷酸。在一些实施方案中,衔接子基本上与样品中存在的任何靶序列的3'端或5'端不互补。在一些实施方案中,合适的衔接子长度在约10-100个核苷酸,约12-60个核苷酸或约15-50个核苷酸的范围内。通常,衔接子可以包括核苷酸和/或核酸的任何组合。在一些方面,衔接子可在一个或多个位置处包括一个或多个可切割基团。在另一方面,衔接子可以包括与引物例如通用引物的至少一部分基本上相同或基本上互补的序列。在一些实施方案中,衔接子可以包括条码(在本文中也称为标签或索引)以辅助下游纠错、鉴别或测序。术语“转接子(adaptor)”和“衔接子”可互换使用。
如本文所使用的,术语“每个(各个)”当用于指项目集合时,旨在确认该集合中的单个项目,但不一定指该集合中的每一个项目,除非上下文另有明确规定。
如本文所用,术语“转运”是指分子通过流体的运动。该术语可包括被动转运,例如分子沿其浓度梯度的运动(例如被动扩散)。该术语还可以包括主动转运,从而分子可以沿着其浓度梯度或逆着其浓度梯度移动。因此,转运可包括施加能量以使一个或多个分子沿期望的方向移动或移动至期望的位置,例如扩增位点。
如本文所用,“扩增”、“放大”或“扩增反应”及其衍生词通常是指至少一部分核酸分子由此被复制或拷贝到至少一个另外的核酸分子中的任何作用或过程。另外的核酸分子任选地包括与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可以是单链或双链的,且另外的核酸分子可以独立地是单链或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中,可以使用等温条件进行此类扩增;在其他实施方案中,这种扩增可以包括热循环。在一些实施方案中,扩增是多重扩增,其包括在单个扩增反应中多个靶序列的同时扩增。在一些实施方案中,“扩增”包括单独地或组合地扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可以包括本领域普通技术人员已知的任何扩增方法。在一些实施方案中,扩增反应包括聚合酶链反应(PCR)。
如本文所用,“扩增条件”及其衍生词通常是指适于扩增一个或多个核酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中,扩增条件可包括等温条件或可选地可包括热循环条件,或者等温和热循环条件的组合。在一些实施方案中,适合于扩增一个或多个核酸序列的条件包括聚合酶链反应(PCR)条件。通常,扩增条件是指足以扩增核酸,例如通用序列侧邻的一个或多个靶序列,或扩增与一个或多个衔接子连接的扩增靶序列的反应混合物。通常,扩增条件包括用于扩增或用于核酸合成的催化剂,例如聚合酶;具有与待扩增核酸某种互补性水平的引物;和核苷酸,如三磷酸脱氧核糖核苷酸(dNTPs),以在一旦与核酸杂交时促进引物的延伸。扩增条件可能需要引物与核酸杂交或退火、引物的延伸以及其中延伸的引物与正进行扩增的核酸序列分离的变性步骤。通常,但非必须,扩增条件可包括热循环;在一些实施方案中,扩增条件包括其中退火、延伸和分离的步骤重复的多个循环。通常,扩增条件包括阳离子如Mg2+或Mn2+,且还可以包括离子强度的各种调节剂。
如本文所用,“再扩增”及其衍生词通常是指扩增的核酸分子的至少一部分由此通过任何合适的扩增过程进一步扩增的任何过程(在一些实施方式中称为“二次”扩增),从而产生再扩增的核酸分子。二次扩增不必与扩增的核酸分子由此产生的原始扩增过程相同;再扩增的核酸分子也不需要与扩增的核酸分子完全相同或完全互补;所需要的只是再扩增的核酸分子包括扩增的核酸分子或其互补序列的至少一部分。例如,再扩增可涉及使用与初级扩增不同的扩增条件和/或不同的引物,包括不同的靶标特异性引物。
如本文所用,术语“聚合酶链反应”(“PCR”)是指Mullis的美国专利号4,683,195和4,683,202的方法(其描述了一种增加基因组DNA混合物中目的多核苷酸的片段的浓度而无需克隆或纯化的方法)。这一用于扩增目的多核苷酸的方法包括将大量过量的两种寡核苷酸引物引入包含所需目的多核苷酸的DNA混合物中,然后在DNA聚合酶存在下进行一系列热循环。这两个引物与目的双链多核苷酸的其相应链互补。混合物首先在较高温度下变性,然后引物与目的多核苷酸分子内的互补序列退火。退火后,引物用聚合酶延伸以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可以重复多次(称为热循环)以获得高浓度的所需目的多核苷酸的扩增片段。所需的目的多核苷酸的扩增片段(扩增子)的长度通过引物相对于彼此的相对位置确定,且因此该长度是可控的参数。通过重复该过程,该方法称为PCR。由于目的多核苷酸的所需扩增片段成为混合物中的主要核酸序列(就浓度而言),它们被称为“PCR扩增的”。在对以上讨论的方法的改进中,可以使用多个不同的引物对,在某些情况下,每个目的靶核酸分子一个或多个引物对,对靶核酸分子进行PCR扩增,从而形成多重PCR反应。
如本文所定义,“多重扩增”是指使用至少一个靶特异性引物对样品中的两个或更多个靶序列进行选择性和非随机扩增。在一些实施方案中,进行多重扩增以使得一些或全部靶序列在单个反应容器内被扩增。给定的多重扩增的“多层(plexy)”或“多重(plex)”通常是指在该单一多重扩增期间扩增的不同靶特异性序列的数目。在一些实施方案中,所述多重可以是约12-重、24-重、48-重、96-重、192-重、384-重、768-重、1536-重、3072-重、6144-重或更高。也可能通过几种不同的方法(例如,凝胶电泳,然后进行光密度测定、用生物分析仪或定量PCR进行定量、与标记的探针杂交;生物素化引物的掺入,随后抗生物素蛋白-酶缀合物检测;32P标记的脱氧核苷酸三磷酸掺入扩增的靶序列中)来检测扩增的靶序列。
如本文所用,“扩增的靶序列”及其衍生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的核酸序列。扩增的靶序列相对于靶序列可以是相同有义的(即,正链)或反义的(即,负链)。
如本文所用,术语“连接”、“接合”及其衍生词通常是指将两个或更多个分子共价连接在一起的过程,例如将两个或多个核酸分子彼此共价连接的过程。在一些实施方案中,连接包括接合在核酸的相邻核苷酸之间的切口。在一些实施方案中,连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中,连接可包括在一个核酸的5'磷酸酯基团和第二核酸的3'羟基之间形成共价键,从而形成连接的核酸分子。通常,出于本公开的目的,可将扩增的靶序列与衔接子连接以产生衔接子-连接的扩增的靶序列。
如本文所用,“连接酶”及其衍生词通常是指能够催化两个底物分子的连接的任何试剂。在一些实施方案中,连接酶包括能够催化核酸的相邻核苷酸之间切口的接合的酶。在一些实施方案中,连接酶包括能够催化一个核酸分子的5'磷酸酯与另一核酸分子的3'羟基之间的共价键形成从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌DNA连接酶。
如本文所用,“连接条件”及其衍生词通常是指适于将两个分子彼此连接的条件。在一些实施方案中,连接条件适合于密封核酸之间的切口或间隙。如本文所用,术语切口或间隙与该术语在本领域中的使用一致。通常,可以在合适的温度和pH下在酶(例如连接酶)存在下连接切口或间隙。在一些实施方案中,T4 DNA连接酶可以在约70-72℃的温度下连接核酸之间的切口。
如本文所用,术语“流动池”是指包括固体表面的腔室,一种或多种流体试剂可以流过该固体表面。可以容易地在本公开的方法中使用的流动池以及相关的流体系统和检测平台的实例例如在Bentley等人,Nature 456:53-59(2008),WO 04/018497;US 7,057,026;WO 91/06678;WO 07/123744;US 7,329,492;US 7,211,414;US 7,315,019;US 7,405,281和US 2008/0108082中描述。
如本文所用,术语“扩增子”在用于提及核酸时是指复制核酸的产物,其中该产物具有与该核酸的至少一部分核苷酸序列相同或互补的核苷酸序列。扩增子可以通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种来产生,包括例如聚合酶延伸、聚合酶链反应(PCR)、滚环扩增(RCA)、连接延伸或连接链反应。扩增子可以是具有特定核苷酸序列的单个拷贝(例如PCR产物)或核苷酸序列的多个拷贝(例如RCA的串接(concatameric)产物)的核酸分子。靶核酸的第一扩增子通常是互补拷贝。后续的扩增子是在产生第一扩增子后从靶核酸或从第一扩增子产生的拷贝。后续的扩增子可具有与靶核酸基本上互补或与靶核酸基本上相同的序列。
如本文所用,术语“扩增位点”是指阵列中或阵列上可产生一个或多个扩增子的位点。扩增位点可以进一步配置为包含、保持或附着在该位点产生的至少一个扩增子。
如本文所用,术语“阵列”是指可以根据相对位置彼此区分的位点群体。处于阵列的不同位点的不同分子可以根据阵列中位点的位置彼此区分开。阵列的单个位点可包括一个或多个特定类型的分子。例如,位点可以包括具有特定序列的单个靶核酸分子,或者位点可以包括具有相同序列(和/或其互补序列)的几个核酸分子。阵列的位点可以是位于相同基质上的不同特征。示例性特征包括但不限于,基质中的孔、基质中或基质上的珠(或其他颗粒)、基质的突起、基质上的脊或基质中的通道。阵列的位点可以是各自带有不同分子的单独的基质。附着于单独基质的不同分子可以根据在基质与其结合的表面上的基质位置,或者根据在液体或凝胶中的基质位置来鉴别。其中单独的基质位于表面上的示例性阵列包括但不限于在孔中具有珠的那些。
如本文所用,术语“容量”当用于提及位点和核酸材料时,是指可以占据该位点的核酸材料的最大量。例如,该术语可以指在特定条件下可以占据该位点的核酸分子的总数。也可以使用其他量度,包括例如在特定条件下可占据该位点的核酸材料的总质量或特定核苷酸序列的总拷贝数。通常,对于靶核酸的位点的容量基本上等同于对于靶核酸的扩增子的位点的容量。
如本文所用,术语“捕获剂”是指能够附着、保留或结合靶分子(例如靶核酸)的材料、化学物质、分子或其部分。示例性的捕获剂包括但不限于与靶核酸的至少一部分互补的捕获核酸(本文也称为捕获寡核苷酸)、能够结合靶核酸(或与其附接的连接部分)的受体-配体结合对的成员(例如抗生物素蛋白、链霉亲和素、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)或能够与靶核酸(或与其附接的连接部分)形成共价键的化学试剂。
如本文所用,术语“报告体部分”可以指能够确定所研究的分析物的组成、身份和/或来源的任何可识别的标签、标记、索引、条码或基团。在一些实施方案中,报告体部分可包括与蛋白质特异性结合的抗体。在一些实施方案中,抗体可以包括可检测的标记。在一些实施方案中,报告体可以包括用核酸标签标记的抗体或亲和试剂。核酸标签可以是可检测的,例如,通过邻近连接测定法(PLA)或邻近延伸测定法(PEA)或基于测序的读数(Shahi等人,Scientific Reports,第7卷,Article number:44447,2017)或CITE-seq(Stoeckius等Nature Methods14:865-868,2017)。
如本文所用,术语“克隆群体”是指对于特定核苷酸序列同质的核酸群体。同源序列通常至少10个核苷酸长,但是可以甚至更长,包括例如至少50、100、250、500或1000个核苷酸长。克隆群体可以源自单一靶核酸或模板核酸。通常,克隆群体中的所有核酸具有相同的核苷酸序列。应理解的是,在不脱离克隆性的情况下,少数突变(例如由于扩增伪影)可存在于克隆群体中。
如本文所用,术语“独特分子标识”或“UMI”是指可以附接于核酸的分子标签,随机的、非随机的或半随机的。在并入核酸中时,UMI可用于通过直接计数扩增后测序的独特分子标识(UMI)来校正后续扩增偏倚。
如本文所用,“外源”化合物,例如外源酶,是指在特定组合物中通常或天然不存在的化合物。例如,当特定的组合物包括细胞裂解物时,外源酶是在细胞裂解物中通常或天然不存在的酶。
如本文所用,在组合物、制品、核酸或细胞核的情况中“提供”是指制备组合物、制品、核酸或细胞核,购买组合物、制品、核酸或细胞核,或以其他方式获得化合物、组合物、物品或细胞核。
术语“和/或”是指所列元素的一个或全部或者所列元素中的任何两个或多个的组合。
词语“优选的”和“优选地”是指在某些情况下可以提供某些益处的本公开的实施方式。然而,在相同或其他情况下,其他实施方案也可能是优选的。此外,一个或多个优选实施方案的列举并不意味着其他实施方案是不可用的,并且不旨在将其他实施方案排除在本公开的范围之外。
术语“包含”及其变体在说明书和权利要求书中出现这些术语时不具有限制意义。
应理解,本文中无论何实施方案用语言“包括”、“包含”或“包括有”等描述,也提供以“由……组成”和/或“基本上由……组成”描述的另外类似的实施方案。
除非另有说明,否则“一个”、“一种”、“该”和“至少一个”可互换使用并且表示一个或多于一个。
另外在本文中,通过端点对数值范围的叙述包括归入该范围内的所有数字(例如,1-5包括1、1.5、2、2.75、3、3.80、4、5等)。
对于本文公开的包括离散步骤的任何方法,步骤可以以任何可行的顺序进行。并且,适当地,可以同时进行两个或更多个步骤的任何组合。
在整个说明书中提及“一个实施方案”、“实施方案”、“某些实施方案”或“一些实施方案”等是指结合该实施方案描述的特定特征、配置、组成或特性包括在本公开的至少一个实施方案中。因此,在整个说明书中这些短语在各个地方的出现不一定是指本公开的相同实施方案。此外,在一个或多个实施方案中,可以以任何合适的方式组合特定的特征、配置、组成或特性。
附图说明
当结合以下附图阅读时,可以最好地理解本公开的说明性实施方案的以下详细描述。
图1示出了根据本公开的单细胞组合索引的一般说明性方法的总体框图。
图2示出了根据本公开的单细胞组合索引的一般说明性方法的总体框图。
图3示出了根据本公开的单细胞组合索引的一般说明性方法的总体框图。
图4显示在一个实验中,sci-RNA-seq3使得能够对来自5个发育阶段的61个小鼠胚胎的约200万个细胞进行分型。(A)sci-RNA-seq3工作流程和实验方案。(B)本文与最近报告的每实验通量的比较。(C)来自HEK293T和NIH/3T3细胞的小鼠与人UMI计数的散点图。(D)显示来自61个小鼠胚胎中的每一个的进行分析的细胞数的条形图。(E)显示每细胞检测的基因和UMI数的箱形图。(F)与每个小鼠胚胎的Xist(chr X)与chrY基因比对的独特阅读片段的散点图。(G)小鼠胚胎的假体(pseudobulk)RNA-seq谱的假时(pseudotime)轨迹。(H)小鼠胚胎的假体RNA-seq谱的标志物基因表达E9.5至E13.5的变化的热图。
图5显示了sci-RNA-seq3的性能和QC相关分析。(A)显示用于61个小鼠胚胎中每一个的RT孔数量的条形图。(B)显示sci-RNA-seq3中每个PCR孔的原始测序阅读片段的分布的直方图。(C)显示来自HEK293T和NIH/3T3细胞的每细胞UMI数的箱形图。(D)显示映射到HEK293T(人类)和NIH/3T3(小鼠)细胞的预期种类的阅读片段比例的箱形图。(E)比较sci-RNA-seq3与sci-RNA-seq的每细胞UMI数(向下采样至每细胞20,000个原始阅读片段)的箱形图。(F)来自sci-RNA-seq3与sci-RNA-seq的HEK293T细胞的集合谱中基因表达测量之间的相关性。
图6显示了sci-RNA-seq3的另外的性能和QC相关分析。(A)显示了使用的RT孔数量与每胚胎回收的细胞数之间的相关性的散点图。(B-D)比较sci-RNA-seq3和其他方法之间每细胞的原始测序阅读片段(B)、检测的基因(C)和UMI(D)的数量的条形图。(E)显示来自五个发育阶段的胚胎的每细胞检测的UMI数的箱形图。(F)显示在每个发育阶段分析的雄性和雌性胚胎数量的条形图。
图7显示了容易按照发育阶段分离的小鼠胚胎的假体RNA-seq谱。(A)源自61个小鼠胚胎的每一个的单细胞的集合转录组的t-SNE导致完全匹配其发育阶段的五个紧密簇集的组。(B)小鼠胚胎的假体RNA-seq谱的假时轨迹,与图4G相同,但按照假时着色。(C)61个分析的胚胎按照假时排序。照片中显示了3个最早的和3个最晚的(按假时)E10.5胚胎,且表现为形态上不同。
图8显示鉴定小鼠器官发生的主要细胞类型。(A)2,026,641个小鼠胚胎细胞的t-SNE可视化,按照来自Louvain聚类的簇ID着色,并基于标志物基因进行注释。下面绘制了相同的t-SNE,其仅显示来自每个发育阶段的细胞。原始红系(瞬时)和定向红系(扩展)簇加框以说明它们的增殖动力学。(B)显示每种细胞型一个选择的标志物基因的表达的点图。点的大小编码细胞类型中细胞的百分比,且其颜色编码平均表达水平。
图9显示鉴定小鼠器官发生的主要细胞类型和相应的细胞类型特异性标志物基因的组。(A)从E9.5到E13.5的细胞状态转变的t-SNE可视化,按照发育阶段着色。这是与图8A所示相同的t-SNE,但是在每个图中,仅显示源自单个时间点的细胞。(B)显示所鉴定的主要细胞类型中基因的相对表达的热图。(C)显示在与第二高表达细胞类型相比时各细胞类型中具有两倍以上高表达(FDR 5%)的标志物基因数的条形图。
图10显示源自相同时间点的重复胚胎的细胞不表现出明显的批效应。(A-E)不同发育阶段的小鼠胚胎细胞的t-SNE可视化:E9.5(A),E10.5(B),E11.5(C),E12.5(D),E13.5(E),按照每个阶段的胚胎ID着色。
图11显示了小鼠器官发生过程中细胞类型数的动力学。(A)显示对于每个细胞类型分析的细胞数的条形图,按发育阶段分割。(B)显示61个小鼠胚胎(列)中每种细胞类型(行)的相对细胞数的热图。通过将细胞类型贡献于给定胚胎的比例乘以该发育阶段的估计细胞总数计算出每个胚胎每种细胞类型的绝对细胞数的估计值。为了进行展示,这些估计值在每一行中通过所有61个胚胎中对于给定细胞类型的最大估计细胞数进行标准化。胚胎按发育假时从左到右排序。(C)显示原始红系和定向红系谱系的相对细胞数变化的线图,如图面B中计算的。虚线显示原始红系(Hbb-bh1)和定向红系(Hbb-bs)的标志物基因的相对表达。单个胚胎的数据点通过发育假时排序和通过loess法进行平滑处理。
图12显示38种主要细胞类型中每一种的louvain聚类和子簇的t-SNE可视化。由于在图8A所示的38个簇的多个中,细胞类型的异质性显而易见,因此我们采用了迭代策略,从而在每种主要细胞类型上重复Louvain聚类以鉴别子簇。在去除了由一或两个胚胎占据主导地位的子簇并合并高度相似的子簇后,总共655个子簇(也称为“亚型”,以将它们与通过最初聚类鉴定的38种主要细胞类型区分开)。
图13显示了发育阶段间38种主要细胞类型中每一种的louvain聚类和子簇的t-SNE可视化。与图12相同,但细胞按照发育阶段而不是子簇ID着色。
图14示出了检测细胞类型的灵敏度是细胞覆盖率的函数。(A)所有细胞(左图,n=2,026,641)和下采样子集(右图,n=50,000)的t-SNE可视化,按照来自图8A的Louvain簇ID着色。(B)所有内皮细胞(左图,n=35,878)和来自下采样子集的细胞(右图,n=1,173)的t-SNE可视化,按照基于35,878个内皮细胞计算的Louvain簇ID着色。(C)1,173个内皮细胞的t-SNE可视化,按照基于1,173个内皮细胞计算的Louvain簇ID着色。
图15显示655种细胞亚型源自多个胚胎,并通过标志物组定义。(A)显示相对于细胞数(中位数1,869;范围51-65,894)的子簇分布的直方图。(B)显示相对于贡献胚胎数(>5个细胞以具有贡献者资格)的子簇分布的直方图。(C)显示相对于源自最高贡献胚胎的细胞比率的子簇分布的直方图。(D)显示相对于标志物基因数(与同一主簇中第二高表达细胞亚型相比时,至少高1.5倍的表达;5%FDR)的子簇分布的直方图。
图16显示了小鼠器官发生过程中细胞亚型数的动力学。(A)显示在655个鉴定的子簇中基因的相对表达的热图。(B)显示61个小鼠胚胎(列)中每种细胞亚型(行)的相对细胞数的热图。如图11B中计算每胚胎每细胞亚型的绝对细胞数的估计值。(C)仅基于每个胚胎中655种细胞亚型的比例的所有61个小鼠胚胎的t-SNE可视化。
图17显示了上皮细胞亚型和肢端外胚层嵴(AER)的鉴定和表征。(A)上皮细胞亚型的t-SNE可视化和基于标志物的注释。(B)按照Fgf8的表达水平着色的所有上皮细胞的t-SNE可视化。(C)Fgf8在E10.5(左)和E11.5(右)胚胎中的原位杂交图像。(D)按照Fndc3a表达水平着色的所有上皮细胞的t-SNE可视化。(E)E10.5胚胎中Fndc3a的原位杂交图像。箭头:基因表达的位点。(F)显示不同发育阶段时每个胚胎的AER细胞比例的箱形图。(G)AER单细胞转录组的假时轨迹,按照发育阶段着色。(H)显示发育假时上AER标志物基因的相对表达的线图。
图18显示鉴定小鼠上皮的亚型。显示每上皮亚型一个选择标志物基因的表达的点图。点的大小编码细胞类型中细胞的百分比,且其颜色编码平均表达水平。
图19显示假时上肢端外胚层嵴(AER)细胞的基因表达的动力学。(A)显示AER细胞中平滑的假时依赖性差异基因表达(FDR 1%)的热图,通过负二项回归生成并按最大基因表达的百分比缩放。每行表示不同的基因,且这些基因被分割成在E9.5和E13.5之间激活(顶部)、抑制(中间)或显示瞬时动力学(底部)的子集。(B-C)显示-log10转换的q值及富集的Reactome项(B)和其表达在AER发育中显著降低的基因的转录因子(C)的基于enrichR的组合评分的图。显著降低的基因的最高富集途径项(Reactome2016)包括细胞周期进程(有丝分裂细胞周期(Mitotic Cell Cycle),qval=0.0002)和葡萄糖代谢(碳水化合物的代谢,qval=0.0002)。对于来自降低基因的靶标的最富集TF包括多能因子如Isl1(qval<10-5)、Pou5f1(qval=0.002)和Nanog(qval=0.003)。
图20显示表征肢体间质分化期间的细胞轨迹。(A)肢体间质细胞的UMAP 3D可视化,按照发育阶段着色(左和右代表从两个方向的观察)。(B)显示肢体间质细胞中Pitx1和Tbx5的标准化表达的散点图。仅显示其中检测到Pitx1和/或Tbx5的细胞。(C)显示前肢和后肢之间差异表达的基因(FDR 5%,通过红色着色)的火山图。标记最高差异表达基因。X轴:对于每个基因前肢和后肢之间log2转换的倍数变化。Y轴:来自差异化测试的-log10转换的qval。(D)与图面A相同的可视化,按照近端/软骨细胞(Sox6,Sox9)、远端(Hoxd13,Tfap2b)、前部(Pax9,Alx4)或后部(Hand2,Shh)标志物的标准化基因表达着色。(F)E10.5到E13.5胚胎中Hoxd13的原位杂交图像。(G)与图面A和D相同的可视化,按照Cpa2的标准化基因表达着色。它在该轨迹中的表达谱使我们预测Cpa2是发育的肢体间质的远端标志物,像Hoxd13。(H)E10.5和E11.5胚胎中Cpa2的原位杂交图像。(I)对于AER和肢体间质轨迹的结果的综合总结。
图21显示肢体间质发育期间细胞命运轨迹的表征。(A)显示肢体间质细胞在不同发育阶段之间的最高差异表达基因的热图。(B)显示在肢体间质发育过程中显著上调基因的-log10转换的富集转录因子的调整p值的条形图。(C)按照前肢(Tbx5+)和后肢(Pitx1+)着色的肢体间质细胞的t-SNE可视化。没有显示在Tbx5和Pitx1中没有表达或两者都表达的细胞。
图22显示了肢体中空间限制的标志物的表达。每个图面显示了不同的标志物基因。颜色表示已针对文库大小缩放、对数转换和然后映射到Z评分以实现基因之间比较的UMI计数。排除没有给定标志物的表达的细胞以防止过度标绘(overplotting)。(A)后肢标志物Pitx1和前肢标志物Tbx5。(B)第一行:近端肢体标志物Sox6(其也标志软骨细胞)和Sox9。第二行:远端肢体标记Hoxd13和Tfap2b。第三行:前肢标志物68Pax9和Alx4。第四行:后肢标志物Shh和Hand2。
图23显示了肢体中空间限制基因的模块。共1,191个基因通过层次聚类进行聚类。使用R中的Cutree函数将树状图切割成8个模块,并计算每个模块中基因的总表达。颜色表示已针对库大小进行缩放、对数转换和然后映射到Z评分以实现模块间比较的每个模块的总UMI计数。排除没有给定模块的表达的细胞以防止过度标绘。
图24显示了在小鼠器官发生过程中存在的八个主要发育轨迹的表征。(A)我们的总体数据集的UMAP 3D可视化;顶部:从两个方向观看;底部:间质(左)和神经管/脊索(右)轨迹的放大视图,按照发育阶段着色。(B)显示来自细胞分配到8种主要轨迹中每一种的38个主要细胞类型的每一细胞类型的细胞比例的热图。列代表八种主要谱系,在顶部条中通过颜色标记(参见图面A中的图例)。(C)按照发育阶段着色的上皮子轨迹的UMAP 3D可视化。
图25显示了在小鼠器官发生过程中存在的八种主要发育轨迹的表征。(A)与图24A相同,但是具有对应于38个主要细胞簇的颜色。(B-C)显示了从E9.5至E13.5的八个主要细胞轨迹中每一个得出的每胚胎的估计比例(B)和估计绝对细胞数(C)的面积图。
图26示出了按照主要细胞簇ID着色的八个主要细胞轨迹的UMAP可视化。
图27示出了按照发育阶段着色的八个主要细胞轨迹的UMAP可视化。
图28显示了上皮细胞亚型的UMAP可视化。根据图17A中显示的29种上皮亚型着色。
图29示出了在肌发生中的细胞轨迹的解析。主图中定义通过Monocle 3报告的轨迹的边缘显示为浅蓝色线段。(A)推定参与肌生成的细胞从计算机模拟的间质细胞轨迹分离,和然后用于构建肌细胞子轨迹(方法)。(B)通过发育阶段着色的处于肌细胞子轨迹中的细胞。(C)肌细胞轨迹中的细胞,通过其选择的肌生成转录调节子的表达着色。对于给定基因没有可检测表达的细胞从其图中省略。(D)按照图面C中显示的标志物通过发育阶段分类的细胞(方法)。
图30显示通过sci-fate对总和新合成转录组的联合分型。(A)带有文字概述的关键步骤的sci-fate工作流程。(B)实验方案。A549细胞用地塞米松时间依赖性地处理。在收获用于sci-fate前两个小时,来自所有处理条件的细胞用S4U标记。(C)显示在六个处理时间中每细胞的S4U标记阅读片段的比率的小提琴图。(D)显示外显子和内含子阅读片段中S4U标记阅读片段的比率的小提琴图。对于所有箱形图:粗水平线,中位数;上下盒边缘,分别第一和第三四分位数;盒须,1.5倍四分位距;圆圈,离群值。(E)通过全转录组(左)、新合成转录组(中)和两者(右)的A549细胞的UMAP可视化。(F)与(E)相似,按照通过全转录组识别的簇ID着色。(G)通过联合信息的A549细胞的UMAP可视化,通过RNA水平(左)和新合成RNA水平(右)按照G2/M标志物基因的标准化表达着色。这些基因的UMI计数按照库大小缩放、对数转换、聚集和然后映射到Z评分。
图31显示了sci-fate的性能和QC相关分析。(A)在sci-fate的情况下每细胞的小鼠(NIH/3T3)与人(HEK293T)UMI计数的散点图。(B-D)显示来自HEK293T(细胞数n=932)和NIH/3T3细胞(细胞数n=438)的每细胞的S4U标记阅读片段的比率、UMI数和纯度(映射到预期种类的阅读片段的比例)的箱形图。对于所有箱形图:粗水平线,中位数;上下盒边缘,分别第一和第三四分位数;盒须,1.5倍四分位距;圆圈,离群值。(E-F)来自sci-fate(y轴)与sci-RNA-seq细胞(x轴)的HEK293T(E)和NIH/3T3细胞(F)的总和谱中基因表达测量之间的相关性(spearman相关性)。
图32显示了sci-fate在地塞米松处理的A549细胞上的性能。(A,B)显示在六种处理条件中每细胞的(A)UMI和(B)基因数的小提琴图。对于所有箱形图:粗水平线,中位数;上下盒边缘,分别第一和第三四分位数;盒须,1.5倍四分位距;圆圈,离群值。(C)显示总和全转录组(右上)和新合成转录组(左下)在不同处理条件之间的Pearson相关系数的关联图。(D)通过新合成转录组的A549细胞的UMAP可视化,按照通过新合成转录组鉴定的簇ID着色。(E)显示来自由全转录组定义的每个簇的,落入按照新合成转录组的每个细胞簇中的细胞比例的热图。(F-G)通过总的和新合成的转录组的A549细胞的UMAP可视化,按照通过总RNA表达(F)和新合成RNA(G)的S期标志物记基因的标准化表达着色。这些基因的UMI计数对于文库大小缩放、对数转换、聚集和然后映射到Z评分。
图33示出了表征驱动细胞状态转变的TF模块的表征。(A)转录因子(橙色)和调控基因(灰色)之间确定的关联(蓝色)。标记与细胞周期进程或GR反应相关的TF模块。(B)通过细胞周期TF模块排序的A549细胞的UMAP可视化,通过S期和G2/M期标志物的新合成mRNA(顶部)、三个细胞周期阶段(左下)和九个通过无监督聚类分析的细胞周期状态(右下)进行着色。(C)通过GR反应TF模块排序的A549细胞的UMAP可视化,通过DEX处理时间(左)、CEBPB和FOXO1活性(中)及来自无监督聚类分析的簇ID(右)着色。为了计算TF活性,这些基因的新合成UMI计数按文库大小缩放、对数转换、聚集和然后映射到Z评分。(D)显示了通过细胞周期模块(x轴)和GR响应模块(y轴)的组合状态观察的细胞状态的比率(黑色)的表格。红色数字是假设独立分类的预期比率。(E)显示通过基于联合全转录组和新合成转录组的聚类分析确定的每个主要簇中由TF模块的组合状态定义的细胞状态的比例的热图。
图34示出了DEX处理的A549细胞中驱动细胞状态转变的TF模块。(A)鉴定的CEBPB(橙色)的基因靶标(灰色)。仅显示LASSO的正则化相关系数>0.6的关联。(B)按照CEBPB表达(左)和活性(右)着色的通过全转录组和新合成转录组的A549细胞的UMAP可视化。(C)与(B)类似,通过YOD1表达(左)和YOD1活性(右)着色。(D)与(B)类似,通过GTF2IRD1表达(左)和GTF2IRD1活性(右)着色。(E)与(B)相似,通过E2F1表达(左)、E2F1活性(中)和E2F1关联基因的全转录组的总表达(右)着色。(F)显示TF模块之间Pearson相关系数的绝对值的热图。29个TF模块通过分层聚类分析分为五个组。
图35示出了以功能性TF模块的组合状态表征的细胞状态。(A)显示通过功能性TF模块的组合状态表征细胞状态的策略的方案。(B)通过全转录组和新合成转录组对所有细胞的Umap可视化,用通过UMAP空间上密度峰聚类算法鉴定的主簇ID着色。
图36示出了>6,000个单细胞状态转变轨迹的表征。(A)显示了构建单细胞转变轨迹的记忆校正和细胞关联分析的方案,具有以文本概述的细节和方法。(B)通过DEX处理时间(也作为z坐标)着色的细胞的3D图。x和y坐标对应于图30E(左)中全转录组和新合成转录组的UMAP空间。关联的父细胞和子细胞用灰色线连接。(C)与(B)相似,除了x和y坐标通过跨六个时间点的单细胞转录组动力学对应于UMAP空间。(D)显示了独立于细胞关联分析的每个细胞轨迹簇(左)或所有细胞(右)中不同GR反应状态(上)和细胞周期状态(下)的细胞状态动力学的线图。(E)细胞状态转变网络。节点是图33D中表征的27个细胞状态,并且链接是细胞状态之间鉴定的转变路径。具有低转变概率(<0.1)的链接被滤除掉。带有虚线的方框显示具有可逆转变动力学的示例状态。(F)显示处理条件之间细胞状态比例的相关性的关联图。正相关以蓝色显示,和负相关以红色显示。椭圆的形状与相关系数相关(在椭圆上)。(G)显示观察的10小时DEX处理组之间的细胞状态比例与预测的细胞状态比例之间的相关性的散点图。预测基于无DEX处理组中的细胞状态转变概率和细胞状态比例。蓝线代表线性回归线。(H)显示通过全数据(0-10小时)或部分数据(0-6小时)计算的细胞状态转变概率的相关性的散点图,以及线性回归线。
图37示出了新RNA检测速率和RNA降解速率估计。(A)显示x轴:无DEX和2小时DEX处理细胞之间的标准化的全转录组的差异,和y轴:无DEX和2小时DEX处理细胞之间的标准化新合成转录组的差异之间的相关性的散点图。蓝线是线性回归线。每个时间点的全转录组和新合成转录组通过该时间点的全转录组的文库大小标准化。(B)显示处理条件之间估计的基因降解速率的相关性的关联图。正相关以蓝色显示,和负相关以红色显示。椭圆的形状与相关系数相关(在椭圆上)。
图38示出了用于细胞状态预测的细胞状态转变网络。(A)显示在无DEX处理组中每个处理时间观察到的细胞状态与通过细胞状态转变概率和细胞状态比例预测的细胞状态之间的相关性的散点图。蓝线表示线性回归线。(B)显示观察的10小时DEX处理组与预测值之间的细胞状态比例的相关性的散点图。预测值是基于无DEX处理组中通过部分数据(0-6小时)估计的细胞状态转变概率和细胞状态比例。蓝线代表线性回归线。
图39显示细胞状态转变概率由邻近状态稳定性情景调节。(A)显示了转变距离(皮尔逊距离)和细胞状态间的转变概率之间的关系的散点图,以及通过ggplot2的红色LOESS平滑线。(B)显示了细胞状态的不稳定性情景的3D图。X轴表示GR反应状态(从无到低到高反应状态)。Y轴表示从G0/G1到G2/M状态排序的细胞周期状态。Z轴表示细胞状态不稳定性,通过每个细胞状态中的细胞在2小时后跳跃到其他状态的概率定义。(C)显示了在10小时DEX处理之前和之后细胞状态不稳定性和细胞比例变化之间的关系的散点图,以及通过ggplot2的红色LOESS平滑线。(D)显示状态不稳定性和状态转变熵之间的相关性的散点图,具有线性回归线(蓝色)。(E)显示了用于通过仅转变距离预测状态间转变概率或通过紧密连接的神经网络组合转变距离和状态不稳定性情景的交叉验证的r平方的箱形图。
图40显示了LMO2基因中的靶向外显子的浏览器截图。靶向外显子显示在“靶外显子”轨道中。注意,通过我们的过滤器的12个RT引物尽可能均匀地跨越该外显子。底部的两个轨道,“引物_+/-”和“捕获的_+/-”,显示映射到RT引物和相应捕获的转录物的阅读片段。阅读片段计数的差异表示脱靶启动事件的数量。
图41示出了比较ENCODE总核RNA-seq数据集和原位多重RT捕获文库中的基因等级的表格。靶向基因以粗体显示。在靶向文库中12个最丰富的基因中,8个是我们靶向的基因。最后两列是“分级”(在我们的数据集中的等级),“ENCODE”(在ENCODE数据集中的等级)。丰富的非靶向RNA包括线粒体核糖体RNA RNR2和RNR1,以及高度丰富的核lncRNA MALAT1。注意,LMO2基因来自ENCODE数据集(来自26,281个基因)中第4,627个最多检测的基因到我们文库中第3个最多检测的基因。
图42显示了捕获的转录物在总RNA上的富集。靶向文库中的阅读片段与ENCODE核RNA中的阅读片段的散点图。RT靶向的基因以红色表示;注意,它们通常落在对角线外,表明它们相对于参考数据集中预期的给定表达水平富集。丰富的核lncRNA MALAT1和XIST用蓝色表示:它们落在对角线上方,表明已针对这些RNA的成功富集。靶向的eRNA未富集(橙色)。该实验中靶向的9个基因高于预期水平的富集中位数为45.3倍。总体而言,来自靶向基因的阅读片段占映射到该数据集中基因的总阅读片段的31%。
示意图不一定按比例绘制。在附图中使用的相同数字指代相同的组件、步骤等。然而,应理解,在给定附图中使用数字来指代组件并非旨在限制另一附图中用相同数字标记的组件。另外,使用不同的数字来指代部件并不旨在限定指示不同编号的部件不能与其他编号的部件相同或相似。
具体实施方式
在一个实施方案中,本文提供的方法可用于产生单细胞组合索引(sci)测序文库,其包括多个单细胞的转录组。例如,该方法可用于获得全细胞转录组、新合成RNA的转录组或组合的序列信息。在另一个实施方案中,本文提供的方法可用于产生包含RNA核酸亚群的序列信息的sci测序文库。例如,当非编码调控区被靶向以进行扰乱时,可以测试对于该调控区顺式的编码区的改变的表达。在另一个例子中,可以进行细胞图谱(atlas)实验,其中读数局限于有限数量的高度信息性的mRNA。
该方法可以包括以下一项或多项:提供分离的细胞核或细胞,将分离的细胞核或细胞的子集分布到隔室中,处理分离的细胞核或细胞使它们包含核酸片段,以及向核酸片段添加隔室特异性索引。任选地,该方法可以包括将细胞暴露于预定条件和/或标记细胞中新合成的RNA。该方法可涉及获得包括细胞转录组或RNA核酸亚群的信息。这些步骤基本上可以以任何顺序发生,并且可以以不同的方式组合。任选地,在将细胞暴露于预定条件并标记新合成的RNA之后,可以从细胞分离细胞核。
提供分离的细胞核或细胞
本文提供的方法可以包括提供细胞或来自多个细胞的分离的细胞核(图1,方框10;图2,方框22)。细胞可以来自任何生物体,以及来自生物体的任何细胞类型或任何组织。在一个实施方案中,细胞可以是胚胎细胞,例如,从胚胎获得的细胞。在一实施方案中,细胞或细胞核可以来自癌症或患病组织。该方法可以进一步包括解离细胞和/或分离细胞核。细胞核或细胞的数量可以是至少两个。上限取决于在本文所述方法的其他步骤中使用的设备(例如,多孔板、索引数)的实际限制。可以使用的细胞核或细胞的数量不意图是限制性的,且可以是数十亿的数量。例如,在一个实施方案中,细胞核或细胞的数量可以不大于100,000,000,不大于10,000,000,不大于1,000,000,000,不大于100,000,000,不大于10,000,000,不大于1,000,000,不大于100,000,不大于10,000,不大于1,000,不大于500或不大于50。技术人员将认识到,在一些实施方案中,每个细胞核中的核酸分子代表该细胞核的整个转录组,例如,全转录组、新合成转录组或两者。
在使用分离细胞核的那些实施方案中,可以通过提取和固定获得细胞核。任选地和优选地,获得分离的细胞核的方法不包括酶处理。在其中产生新合成转录组的那些实施方案中,细胞核不分离直到细胞已经暴露于适合于标记新合成转录物的条件之后。
在一个实施方案中,从粘附或悬浮的单个细胞分离细胞核。用于从单个细胞分离细胞核的方法是本领域普通技术人员已知的。通常从存在于组织中的细胞分离细胞核。用于获得分离的细胞核的方法通常包括制备组织,从制备的组织分离细胞核,和然后固定细胞核。在一个实施方案中,所有步骤都在冰上进行。
组织制备包括在液氮中速冻组织,和然后将组织的尺寸减小至直径1mm或更小的块。通过对组织进行切碎或钝力处理,组织可以减小尺寸。切碎可用刀片完成以将组织切成小块。施加钝力可以通过用锤子或类似物体砸碎组织来实现,并且砸碎组织的所得组合物称为粉末。
细胞核分离可以通过将块或粉末在细胞裂解缓冲液中孵育至少1至20分钟,例如5、10或15分钟来完成。有用的缓冲液是那些促进细胞裂解但保留细胞核完整性的那些缓冲液。细胞裂解缓冲液的例子包括10mM Tris-HCl,pH 7.4、10mM NaCl、3mM MgCl2、0.1%IGEPAL CA-630、1%SUPERase In RNase抑制剂(20U/μL,Ambion)和1%BSA(20mg/ml,NEB)。标准的细胞核分离方法通常使用一种或多种外源化合物(例如外源酶)来辅助分离。可以存在于细胞裂解缓冲液中的有用酶的例子包括但不限于蛋白酶抑制剂、DNase、溶菌酶、蛋白酶K、表面活性剂、溶葡萄球菌素、消解酶、纤维素、蛋白酶或聚糖酶等(Islam等Micromachines(Basel),2017,8(3):83;www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107)。在一个实施方案中,一种或多种外源酶不存在于可用于本文所述方法的细胞裂解缓冲液中。例如,外源酶(i)在细胞与裂解缓冲液混合之前不添加到细胞中,(ii)在其与细胞混合之前不存在于细胞裂解缓冲液中,(iii)不添加细胞和细胞裂解缓冲液的混合物中,或其组合。技术人员将认识到,可以在不降低细胞裂解缓冲液用于分离细胞核的有效性的情况下一定程度上改变这些组分的水平。然后通过用细胞核缓冲液进行的一轮或多轮洗涤来纯化提取的细胞核。细胞核缓冲液的示例包括10mM Tris-HCl,pH 7.4、10mM NaCl,3mM MgCl2、1%SUPERase In RNase抑制剂(20U/μL,Ambion)和1%BSA(20mg/ml,NEB)。像细胞裂解缓冲液一样,外源酶也可以不存在于本公开的方法中使用的细胞核缓冲液中。技术人员将认识到,可以在不降低细胞核缓冲液用于细胞核分离的有效性的情况下一定程度地改变这些组分的水平。技术人员将认识到,BSA和/或表面活性剂可在用于细胞核分离的缓冲液中使用。
分离的细胞核通过暴露于交联剂来固定。交联剂的有用实例包括但不限于多聚甲醛。多聚甲醛的浓度可以为1%至8%,例如4%。用多聚甲醛处理细胞核可包括将多聚甲醛添加到细胞核的悬浮液中,并在0℃下孵育。任选地和优选地,固定之后在细胞核缓冲液中洗涤。
分离的固定细胞核可以立即使用或者等分和在液氮中快速冷冻以备后用。当准备在冷冻后使用时,可以将解冻的细胞核渗透化,例如在冰上用0.2%tritonX-100渗透3分钟,和短暂超声处理以减少细胞核结块。
常规的组织细胞核提取技术通常将组织与组织特异性酶(例如胰蛋白酶)在高温(例如37℃)下孵育30分钟至几小时,和然后用细胞裂解缓冲液裂解细胞用于细胞核提取。本文描述的细胞核分离方法具有几个优点:(1)不引入人工酶,并且所有步骤在冰上完成。这减少了对细胞状态(例如转录组状态)的潜在干扰。(2)该新方法在包括脑、肺、肾、脾、心脏、小脑和疾病样本(如肿瘤组织)的大多数组织类型中经过验证。与对不同组织类型使用不同酶的常规组织细胞核提取技术相比,该新技术在比较来自不同组织的细胞状态时可以潜在地减少偏差。(3)新方法还通过取消酶处理步骤降低成本并提高效率。(4)与其他细胞核提取技术(例如,Dounce组织研磨机)相比,该新技术对不同组织类型更稳定(例如,Dounce方法需要针对不同组织优化Dounce循环),并能够以高通量处理大块样品(例如,Dounce方法受限于研磨机的尺寸)。
任选地,分离的细胞核可以是无核小体的,或可以经受耗尽细胞核的核小体的条件,从而产生核小体耗尽的细胞核。
分布子集
本文提供的方法包括将分离的细胞核或细胞的子集分布到多个隔室中(图1,方框11;图2,方框23;图3,方框32)。该方法可以包括多个分布步骤,其中分离的细胞核或细胞的群体(在本文中也称为池)分割成子集。通常,分离的细胞核或细胞的子集,例如存在于多个隔室中的子集,用隔室特异性索引进行索引和然后合并。因此,该方法通常包括至少一个获取合并的分离细胞核或细胞并分布它们和添加隔室特异性索引的“分割和合并”步骤,其中“分割和合并”步骤的数量可取决于添加到核酸片段的不同索引的数量。索引之前的细胞核或细胞的每个初始子集可以对于其他子集是独特的。例如,每个第一子集可以来自独特的样品或暴露于独特的条件。索引后,子集可以在索引后合并,分割成子集,进行索引,和根据需要再次合并,直到足够数量的索引添加到核酸片段。该过程为每个单细胞或细胞核分配独特的索引或索引组合。索引完成后,例如,在添加一个、二个、三个或更多索引后,可以裂解分离的细胞核或细胞。在一些实施方案中,添加索引和裂解可以同时发生。
在子集中且因此在每个隔室存在的细胞核或细胞的数量可以至少为1。在一个实施方案中,子集中存在的细胞核或细胞的数量不大于100,000,000,不大于10,000,000,不大于1,000,000,不大于100,000,不大于10,000,不大于4,000,不大于3,000,不大于2,000,或不大于1,000,不大于500,或不大于50。在一个实施方案中,子集中存在的细胞核或细胞的数量可以是1至1,000、1,000至10,000、10,000至100,000、100,000至1,000,000、1,000,000至10,000,000或10,000,000至100,000,000。在一个实施方案中,每个子集中存在的细胞核或细胞的数量近似相等。子集中存在且因此在每个隔室中存在的细胞核的数量部分地基于需要减少索引冲突,即在方法的这一步骤中同一隔室中最终存在两个具有相同索引组合的细胞核或细胞。将细胞核或细胞分布到子集中的方法是本领域技术人员已知的并且是常规的。尽管可以使用荧光激活细胞分选(FACS)细胞计数,但是在某些实施方案中优选使用简单稀释。在一个实施方案中,不使用FACS细胞计数。任选地,不同倍性的细胞核可以通过染色,例如DAPI(4’,6-二脒基-2-苯基吲哚)染色,来门控和富集。染色还可用于在分选过程中将单细胞与双重(doublets)区分开。
分布步骤(以及随后的索引添加)中的隔室数量可以取决于所使用的格式。例如,隔室的数量可以是2-96个隔室(当使用96孔板时),2-384个隔室(当使用384孔板时)或2-1536个隔室(当使用1536孔板时)。在一个实施方案中,可以使用多个平板。在一个实施方案中,每个隔室可以是液滴。当使用的隔室类型是包含两个或更多个细胞核或细胞的液滴时,可以使用任何数量的液滴,例如至少10,000,至少100,000,至少1,000,000或至少10,000,000个液滴。分离的细胞核或细胞的子集通常在合并前在隔室中进行索引。
在一些实施方式中,隔室是液滴或孔。细胞或细胞核的转录组、新合成的转录组或其亚群可以在液滴或孔中用独特的索引或索引组合标记。可以合并源自液滴或孔分区的索引的文库以进一步处理和测序。此类方法的实例包括但不限于来自10X genomics(Pleasanton,CA)、Biorad(Hercules,CA)和CellSee(Ann Arbor,MI)的单细胞分析系统。
暴露于预定条件
在任选的实施方式中,细胞的每个子集暴露于试剂或扰动(图1,方框12)。试剂基本上可以是引起细胞的变化的任何物质。例如,试剂可以改变细胞的转录组,改变细胞的染色质结构,改变细胞中蛋白质的活性,改变细胞的DNA,改变甲基化状态,改变细胞的DNA编辑,或引起其他变化。试剂的实例包括但不限于诸如蛋白质(包括抗体)、非核糖体蛋白、聚酮化合物、有机分子(包括900道尔顿或更小的有机分子)、无机分子、RNA或RNAi分子、碳水化合物、糖蛋白、核酸或其组合的化合物。在一个实施方案中,试剂引起遗传扰动,例如DNA编辑蛋白,如CRISPR或Talen。在一个实施方案中,试剂是治疗药物。在一个实施方案中,细胞可以是野生型细胞,并且在另一实施方案中,细胞可以遗传修饰以包括遗传扰动,例如基因敲入或基因敲除(Szlachta等,Nat Commun.,2018,9:4275)。可以将细胞的子集暴露于相同的试剂,但是不同的变量可以在隔室之间改变改,从而允许在单个实验中测试多个变量。例如,可以在单个多孔板中测试不同的剂量、不同的暴露持续时间和不同的细胞类型。在一个实施方案中,细胞可以表达具有已知活性的蛋白质,并且在不同条件下评估试剂对活性的作用。使用索引序列以标记核酸片段允许之后鉴定源自特定细胞核或细胞的子集,例如来自多孔板的一个孔的核酸。
标记核酸
在任选的实施方案中,标记由细胞产生的核酸,例如RNA、cDNA或DNA(图1,方框13)。用于单细胞基因组学技术的当前方法捕获细胞状态的快照,因此不提供有关细胞转变动力学的信息。发明人发现,标记新合成的RNA允许使用分割和合并索引、组合索引或任何单细胞索引方法在单细胞水平捕获全转录组和新合成转录组。全转录组和新合成RNA接受相同的独特索引或索引组合,从而允许将当前状态(例如预先存在的)和新合成的核酸分配到相同细胞。这允许表征通过内在因素(例如,细胞的固有细胞周期程序)和外在因素(例如,细胞对如治疗药物的外部刺激的反应)调节的细胞状态转变动力学。另外,在一些实施方案中,能够在单细胞水平上捕获全转录组和新合成转录组,以及来自其过去状态的降解的转录组信息(过去状态记忆)。每个细胞的过去状态记忆可以通过mRNA降解速率来校正(记忆校正),使得每个细胞可以通过两个或更多个时间点之间的转录组动力学来表征。
存在用于标记新合成的核酸以使得可以将其与预先存在的核酸区分开的各种方法,并且基本上可以使用任何方法。通常,在合成核酸时将标记掺入核酸中。一种类型的方法包括掺入添加可识别突变的核苷类似物。例如,向RNA分子中添加核苷类似物4-硫尿苷(S4U)在逆转录步骤中导致点突变,从而导致具有胸腺嘧啶到胞嘧啶转化的突变的第一链cDNA(Sun和Chen,2018,Metabolic Labeling of Newly Synthesized RNA with 4sU toin Parallel Assess RNA Transcription and Decay.LamandéS.(eds)mRNADecay.Methods in Molecular Biology,vol.1720.Humana Press,New York,NY)。可通过将序列与参考进行比较,在测序和分析阶段中鉴别该点突变。另一类型的方法包括掺入半抗原标记的核苷酸,其可用于纯化那些含有半抗原的RNA。实例包括生物素化的核苷酸(Luo等人,2011,Nucl.Acids Res.,39(19):8559-8571)和洋地黄毒苷修饰的核苷酸(可获自Jena Bioscience GmbH)。第三类型的方法包括掺入可以通过化学反应修饰的核苷酸,例如点击功能化的核苷酸,并添加半抗原(Bharmal等人,2010,J Biomol Tech。,21(3Suppl):S43,且可得自Jena Bioscience GmbH和可得自Thermo Fisher Scientific)。另一类型的方法包括掺入诱变核苷酸,例如但不限于8-氧代-dGTP和dPTP(可从Jena Bioscience GmbH获得)。
预定条件通常用于细胞而不是分离的细胞核上;然而,可以使用细胞或从细胞分离的细胞核进行核酸(在其合成时)的标记。
在一些实施方案中,标记可包括新合成的cDNA或DNA。标记可用作特定条件或者细胞或细胞核子集的标识。例如,可以使用不同量的标记(例如核苷类似物、半抗原标记的核苷酸、点击功能化的核苷酸和/或诱变核苷酸)和/或标记之间的不同比率来特异性标记隔室的RNA、cDNA或DNA。在另一个实施方案中,可以在不同的时间点添加标记以捕获时间维度。可以添加不同的标记或不同比率的标记以在不同时间差异标记RNA。在一些实施方案中,标记可以是索引方案的部分以解析单个细胞。例如,延伸步骤可以包含每个隔室的独特的核苷酸组。标记可发生在逆转录步骤、延伸步骤、杂交或扩增步骤如PCR中。在一些实施方案中,这允许检测细胞的双重或多重或者细胞之间的冲突。
处理以产生核酸片段
在一个实施方案中,处理分离的细胞核或细胞可用于将分离的细胞核或细胞中的DNA核酸片段化为核酸片段(图1,方框14)。片段化核酸可用于获得具有适合于用本文所述方法测序的长度的分子。当待测序的靶核酸源自细胞核或细胞中存在的DNA时,可能有必要进行处理;然而,在一些实施方案中,当待测序的靶核酸源自细胞核或细胞中存在的RNA(例如,mRNA和/或非编码RNA)时,处理是任选的,因为在一些实施方案中,RNA分子不需要片段化。在其他实施方案中,源自RNA分子的核酸片段化。片段化可能发生在该方法的任何阶段。例如,图2所示的说明性方法包括在向核酸分子添加两个索引后的片段化。
处理细胞核或细胞中的核酸通常将核苷酸序列添加至通过处理产生的核酸片段的一个或两个末端,并且该核苷酸序列可以并且通常确实包括一个或多个通用序列。通用序列可以在随后的步骤中用作例如“着陆垫(landing pad)”以使可以用作引物用于向核酸片段添加另一个核苷酸序列(例如索引)的核苷酸序列退火。这种引物的核苷酸序列可以任选地包括索引序列。处理细胞核或细胞中的核酸可以向通过处理产生的核酸片段的一端或两端添加一个或多个独特的分子标识。
用于将细胞核或细胞中的核酸处理成核酸片段的各种方法是已知的。实例包括CRISPR和Talen样酶,以及可以形成DNA片段可以与其杂交并启动延伸或扩增的单链区域的解开DNA的酶(例如解旋酶)。例如,可以使用基于解旋酶的扩增(Vincent等,2004,EMBORep.,5(8):795-800)。在一个实施方案中,延伸或扩增用随机引物启动。在一个实施方案中,使用转座体复合物。
转座体复合物是与转座酶识别位点结合的转座酶,并且可以在有时称为“标签化(tagmentation)”的过程中将转座酶识别位点插入细胞核内的靶核酸中。在一些此类插入事件中,转座酶识别位点的一条链可以转移到靶核酸中。这样的链被称为“转移链”。在一个实施方案中,转座体复合物包括具有两个亚基的二聚体转座酶和两个不连续的转座子序列。在另一个实施方案中,转座酶包括具有两个亚基的二聚体转座酶和连续转座子序列。在一个实施方案中,转座酶识别位点的一条或两条链的5'末端可以被磷酸化。
一些实施方案可以包括使用超活性的Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff,J.Biol.Chem.,273:7367(1998)),或MuA转座酶和包含R1和R2末端序列的Mu转座酶识别位点(Mizuuchi,K.,Cell,35:785,1983;Savilahti,H等,EMBO J.,14:4893,1995)。Tn5 Mosaic末端(ME)序列也可以由技术人员优化而使用。
可与本文提供的组合物和方法的某些实施方案一起使用的转座系统的更多实例包括金黄色葡萄球菌Tn552(Colegio等人,J.Bacteriol.,183:2384-8,2001;Kirby C等人,Mol.Microbiol.,43:173-86,2002)、Ty1(Devine&Boeke,Nucleic Acids Res.,22:3765-72,1994和国际公开WO 95/23875)、转座子Tn7(Craig,N L,Science.271:1512,1996;Craig,N L,Curr Top Microbiol Immunol.中综述,204:27-48,1996)、Tn/O和IS10(Kleckner N等人,Curr Top Microbiol Immunol.,204:49-82,1996)、Mariner转座酶(Lampe D J等人,EMBO J.,15:5470-9,1996)、Tc1(Plasterk R H,Curr.TopicsMicrobiol.Immunol.,204:125-43,1996)、P元件(Gloor,G B,Methods Mol.Biol.,260:97-114,2004)、Tn3(Ichikawa&Ohtsubo,J Biol.Chem.265:18829-32,1990)、细菌插入序列(Ohtsubo&Sekine,Curr.Top.Microbiol.Immunol.204:1-26,1996)、逆转录病毒(Brown等人,Proc Natl Acad Sci USA,86:2525-9,1989)和酵母的逆转录转座子(Boeke&Corces,Annu Rev Microbiol.43:403-34,1989)。更多实例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的工程化形式(Zhang等人,(2009)PLoS Genet.5:e1000689.Epub 2009Oct 16;WilsonC.等人(2007)J.Microbiol.Methods 71:332-5)。
可与本文提供的方法和组合物一起使用的整合酶的其他例子包括逆转录病毒整合酶和用于这种逆转录病毒整合酶的整合酶识别序列,例如来自HIV-1、HIV-2、SIV、PFV-1、RSV的整合酶。
可用于本文所述的方法和组合物的转座子序列在美国专利申请公开No.2012/0208705、美国专利申请公开No.2012/0208724和国际专利申请公开No.WO 2012/061832中提供。在一些实施方案中,转座子序列包括第一转座酶识别位点和第二转座酶识别位点。在其中使用转座体复合物引入索引序列的那些实施方案中,索引序列可以存在于转座酶识别位点之间或转座子中。
本文中可用的一些转座体复合物包括具有两个转座子序列的转座酶。在一些这样的实施方案中,两个转座子序列不彼此连接,换句话说,转座子序列是彼此不连续的。这些转座体的实例是本领域已知的(参见,例如,美国专利申请公开No.2010/0120098)。
通常,标签化用于产生在每一端包括不同核苷酸序列(例如,在一端的N5引物序列和在另一端的N7引物)的核酸片段。这可以通过使用两种类型的转座体复合体来完成,其中每种转座体复合体包括作为转移链的部分的不同核苷酸序列。在一些实施方案中,本文使用的标签化将一个核苷酸序列插入核酸片段中。核苷酸序列的插入导致核酸片段在一端具有发夹连接双链体而在另一端具有转座体复合物插入的核苷酸序列。转座体复合物插入的核苷酸序列包括通用序列。通用序列在本文所述的扩增步骤中用作用于杂交的互补序列以引入另一个索引。
在一些实施方案中,转座体复合物包括结合两个转座酶亚基以形成“成环复合物”或“成环转座体”的转座子序列核酸。在一个实例中,转座体包括二聚体转座酶和转座子序列。成环复合物可以确保将转座子插入靶DNA中而同时保持原始靶DNA的有序信息且不需要靶DNA片段化。如应理解的,成环结构可以将所需的核酸序列如索引插入到靶核酸中而同时保持靶核酸的物理连接性。在一些实施方案中,成环转座体复合物的转座子序列可包含片段化位点,使得转座子序列可被片段化以产生包含两个转座子序列的转座体复合物。这样的转座体复合物可用于确保转座子插入其中的邻近靶DNA片段接收条码组合,该条形码组合可在测定的后期阶段明确地组装。
在一个实施方案中,核酸片段化通过使用核酸中存在的片段化位点来实现。通常,通过使用转座体复合物将片段化位点引入靶核酸中。在一个实施方案中,在核酸片段化后,转座酶保持附接在核酸片段上,使得源自同一基因组DNA分子的核酸片段保持物理连接(Adey等人,2014,Genome Res,24:2041-2049)。例如,成环的转座体复合物可包括片段化位点。片段化位点可用于切割已插入靶核酸中的索引序列之间的物理而非信息联系。切割可以通过生化、化学或其他方式进行。在一些实施方案中,片段化位点可包括核苷酸或可以通过各种方式片段化的核苷酸序列。片段化位点的实例包括但不限于限制性核酸内切酶位点、可用RNA酶切割的至少一个核糖核苷酸、在某种化学试剂存在下可被切割的核苷酸类似物、可通过用高碘酸盐处理而切割的二醇连接、可用化学还原剂切割的二硫化物基团、可经历光化学切割的可切割部分以及可通过肽酶或其他合适方式切割的肽(参见,例如,美国专利申请公开号2012/0208705、美国专利申请公开号2012/0208724和WO 2012/061832)。
转座体复合物可任选地包括索引序列,也称为转座酶索引。索引序列作为转座子序列的部分存在。在一个实施方案中,索引序列可以存在于转移链(转移到靶核酸中的转移链识别位点的链)上。
细胞核的标签化和核酸片段的处理之后可以进行清理过程以提高分子的纯度。可以使用任何合适的清理方法,例如电泳、尺寸排阻色谱等。在一些实施方案中,可采用固相可逆固定顺磁珠从例如未掺入引物分离所需的DNA分子,并基于大小选择核酸。固相可逆固定顺磁珠可购自Beckman Coulter(Agencourt AMPure XP)、Thermofisher(MagJet)、OmegaBiotek(Mag-Bind)、Promega Beads(Promega)和Kapa Biosystems(Kapa Pure Beads)。
添加隔室特异性索引
索引序列,也称为标签或条码,可用作其中存在特定核酸的隔室的标志物特征。因此,索引是附接于存在于特定隔室中的每个靶核酸上的核酸序列标签,其存在指示或用于鉴定在该方法的特定阶段其中分离的细胞核或细胞群体存在的隔室。索引添加到核酸片段用分布到不同隔室的分离的细胞核或细胞的子集来实现(图1,方框15;图2,方框24、26和30;图3,方框33和37)。
索引序列的长度可以是任何合适的核苷酸数,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个。四核苷酸的标签在同一阵列上给出复用256个样品的可能性,而六碱基的标签能够在同一阵列上处理4096个样品。
在一个实施方案中,索引的添加在核酸处理成核酸片段的过程中实现。例如,可以使用包括索引的转座体复合物。在一些实施方案中,索引在通过处理产生在一端或两端包含核苷酸序列的核酸片段后添加。在其他实施方案中,不需要处理来添加索引。例如,可以在不将RNA核酸片段化的情况下将索引直接添加至RNA核酸。因此,提及“核酸片段”包括由处理产生的核酸和RNA核酸,以及衍生自这些核酸的核酸。
添加索引的方法包括但不限于连接、延伸(包括使用逆转录酶的延伸)、杂交、吸附、引物的特异性或非特异性相互作用、扩增或转座。添加到核酸片段的一个或两个末端的核苷酸序列还可以包括一个或多个通用序列和/或独特的分子标识。通用序列可以在随后的步骤中例如用作“着陆垫”以使核苷酸序列退火,该核苷酸序列可以用作向核酸片段添加另一核苷酸序列(如另一索引和/或另一通用序列)的引物。因此,索引序列的并入可以使用包括一个、两个或更多个步骤的过程,其基本上使用连接、延伸、杂交、吸附、引物的特异性或非特异性相互作用、扩增或转座的任何组合。
例如,在包括使用衍生自mRNA的核酸片段的实施方案中,可以使用各种方法在一或两个步骤中向mRNA添加索引。例如,可以使用用于产生cDNA的方法的类型来添加索引。可将3'端带有聚T序列的引物与mRNA分子退火,并使用逆转录酶进行延伸。在适合于逆转录的条件下将分离的细胞核或细胞暴露于这些组分导致索引添加的一个步骤,从而得到索引的细胞核或细胞群体,其中每个细胞核或细胞包含索引的核酸片段。或者,具有聚T序列的引物包括通用序列而不是索引,并且索引通过连接、引物延伸、扩增、杂交或其组合的后续步骤添加。在一些实施方案中,在不使用通用序列的情况下添加条码。索引的核酸片段可以并且通常确实在合成链上包括指示特定隔室的索引序列。
在包括使用源自非编码RNA的核酸片段的实施方案中,可以使用各种方法在一个或两个步骤中向非编码RNA添加索引。例如,可以使用包括随机序列和模板转换引物的第一引物添加索引,其中任一引物可以包含索引。可以使用具有末端转移酶活性的逆转录酶以导致在合成链的3'端添加非模板核苷酸,并且模板转换引物包括与通过逆转录酶添加的非模板核苷酸退火的核苷酸。有用的逆转录酶的例子是莫洛尼氏鼠白血病病毒逆转录酶。在特定的实施方案中,购自Takara Bio USA,Inc.的SMARTerTM试剂(目录号634926)用于模板转换的用途以向非编码RNA和mRNA(如果需要)添加索引。或者,第一引物和/或模板转换引物可包括通用序列而不是索引,并且该索引通过连接、引物延伸、扩增、杂交或其组合的后续步骤添加。索引的核酸片段可以并且通常确实在合成链上包括指示特定隔室的索引序列。其他实施方案包括RNA的5'或3'分型或全长RNA分型。
在另一个实施方案中,特定的mRNA和/或非编码RNA可以靶向用于扩增。靶向允许产生富集更可能产生有用信息的序列的测序文库,导致大大降低测序深度和相关成本,并提高了检测细胞之间细微差异的能力。可以选择很可能产生有用的信息的RNA分子(包括一种或多种mRNA和/或一种或多种非编码RNA),并且引物可以用于选择性地与预定的RNA核酸退火并扩增存在于细胞或细胞核中的总RNA分子的亚群。技术人员将认识到,根据实验选择合适的RNA分子。例如,在非编码扰动的评估中,仅对于调控元件顺式的编码区被扰动可以测试表达的变化。与使用随机六聚体或聚T引物相比,这种方法可以减少核糖体阅读的背景。该方法还允许靶向由可选转录起始位点事件产生的剪接点和外显子,从而提供常规sci方法不易检测的亚型信息。
RNA分子的靶向扩增可以在文库产生期间的几个步骤中发生。在一个实施方案中,在RNA分子的逆转录过程中发生多个靶标的靶向扩增。实验可以包括靶向不同RNA分子的多种不同引物。在一个实施方案中,可以使用靶向相同RNA分子的不同区域的多个引物。针对同一RNA分子的不同区域的多个引物的使用为RNA分子逆转录为cDNA提供了多种机会,从而提高了RNA分子检测的可能性。
在一个实施方案中,用于靶向扩增的引物不包括索引。当在扩增反应过程中未添加索引时,将细胞或细胞核分布到不同的隔室中不是必要的,并且扩增可以用存在的所有RNA分子和所有引物作为单个反应进行。在其中索引在扩增反应期间添加的实施方案中,细胞或细胞核的分布是有用的,并且扩增可以在每个隔室中用存在的所有RNA分子和所有引物作为单个反应发生,但是隔室中的每个引物具有相同的隔室特异性索引。
在一个实施方案中,用于多重靶标捕获的引物的设计可包括以下一项或多项考虑。选择RNA进行靶向扩增后,可以收集RNA的序列,并确定所有可能的逆转录酶引物(候选引物)。任何引物的长度应足够长以在逆转录反应中起作用,并且例如可以是20至30个核苷酸的长度。
可以通过各种标准过滤候选引物,包括但不限于GC含量、引物中GC碱基的位置、异位靶向(offsite targeting)的可能性和可定位性(mappability)。有用的GC含量为40-60%,对应于大约55至70℃的熔融温度。优选在引物的3′端的最后5个核苷酸中具有两个鸟嘌呤或胞嘧啶碱基,以增加退火的引物成为通过逆转录酶延伸的良好底物的可能性。
关于脱靶启动的可能性,发明人发现,尽管靶RNA高度富集,但是大部分阅读片段仍源自细胞内丰富的其他RNA。大多数这些脱靶启动事件是引物3'端与脱靶RNA之间约5至8个碱基对互补的结果。发明人发现考虑总细胞RNA内候选引物的最终六聚体的丰度是有用的。已确定有用的引物包括最后的六聚体,该六聚体(i)不存在于核糖体RNA中或(ii)以低水平出现在总细胞RNA中。
描述了在核糖体RNA内不存在的六聚体的实例(Armor等人,2009,NatureMethods,6(9):647-49的“不太随机(Not So Random)”或NSR六聚体)。发现具有这种特征的引物具有低得多的在核糖体RNA内的脱靶启动的可能。一种确定六聚体是否以低水平在总细胞RNA内出现的方法可以包括根据本文所述的方法鉴定待分析细胞类型内的细胞内RNA分子中每种六聚体的丰度,例如所有新生转录物(包括核糖体转录物)。使用低丰度水平(例如在最低丰度四分位数内)的候选引物可以减少异位靶向。
候选引物也可以通过可定位性评估。例如,可以使用领结类型的算法并允许3个错配将每个候选物与靶标比对。此步骤有助于确保每个引物在基因组中仅具有一个靶位点。
在一些实施方案中,在同一反应中扩增多个靶标,也称为多重靶捕获,控制逆转录酶引物的退火温度有助于维持所需靶RNA的特异性逆转录和扩增。例如,典型的逆转录方案使RNA和逆转录引物的混合物变性,并冷却至4℃以允许退火。较低的退火温度太宽容,并导致不希望的脱靶退火事件。为了增加延伸的退火事件仅仅是其中整个靶向逆转录引物与正确靶标退火的那些退火事件的可能性,在整个逆转录过程中保持高温。在一个实施方案中,组分(例如,固定细胞、逆转录引物池和dNTP的混合物)在65℃下,在53℃下退火,在53℃下添加预平衡的逆转录酶/缓冲液混合物以进行退火反应,并在53℃下延伸20分钟。因此,降低了逆转录引物在变性和延伸步骤之间在低温下退火的可能性。技术人员将认识到,可以在不降低逆转录特异性的情况下进行一定程度的改变,例如改变温度或时间。
可以使用其他方法向核酸片段添加索引,并且如何添加索引并不意图是限制性的。例如,在一个实施方案中,索引序列的并入包括将引物连接至核酸片段的一个或两个末端。连接引物的连接可以通过在核酸片段的末端存在通用序列来辅助。引物的一个例子是发夹连接双链体。连接双链体可连接至核酸片段的一端或优选两端。
在另一个实施方案中,索引序列的并入包括单链核酸片段的使用和第二DNA链的合成。在一个实施方案中,使用包括与单链核酸片段末端存在的核苷酸互补的序列的引物产生第二DNA链。
在另一个实施方案中,索引的并入发生在一轮、两轮、三轮或更多轮的分割-合并条码化中,从而产生单、双、三或多(例如,四或更多)索引的单细胞文库。
在另一个实施方案中,索引和扩增介体(例如通用序列)的并入是有益的,从而允许靶向的单细胞测序文库和/或制备靶向的单细胞测序文库。
添加用于固定的通用序列
在一个实施方案中,在处理和/或索引步骤期间添加核苷酸增加了可用于固定和测序片段的通用序列。在另一个实施方案中,索引的核酸片段可以进一步处理以添加可用于固定和测序核酸片段的通用序列。技术人员将认识到,在其中隔室是液滴的实施方案中,可用于固定核酸片段的序列是任选的。在一个实施方案中,可用于固定和测序片段的通用序列的并入包括连接相同的通用衔接体(也称为“错配的衔接子”,其一般特征在Gormley等人,US 7,741,463和Bignell等人,US 8,053,192中有所描述)到索引的核酸片段的5'和3'端。在一个实施方案中,通用衔接子包括测序所需的所有序列,包括用于将索引的核酸片段固定在阵列上的序列。
在一个实施方案中,可以使用平端连接。在另一个实施方案中,通过例如某些类型的DNA聚合酶(例如Taq聚合酶或Klenow exo负聚合酶)(其具有非模板依赖性的末端转移酶活性)以添加一个或多个脱氧核苷酸例如脱氧腺苷(A)到索引的核酸片段的3'端的活性用单个突出核苷酸制备核酸片段。在一些情况下,突出核苷酸超过一个碱基。此类酶可用于添加单个核苷酸“A”到核酸片段的每条链的平端3'末端。因此,可以通过与Taq或Klenow exo负聚合酶反应将“A”添加到双链靶片段的每条链的3'末端,而待添加到核酸片段的每个末端的其他序列可以包括待添加的双链核酸每个区域的3'末端上存在的相容性“T”突出端。该末端修饰也防止核酸的自连接,使得存在导致朝向于形成在该实施方案中添加的序列侧翼的索引的核酸片段的偏倚。
在另一个实施方案中,当连接至索引的核酸片段的通用衔接子不包括测序所需的所有序列时,则可以在固定和测序之前使用扩增步骤,例如PCR,来进一步修饰每个索引核酸片段中存在的通用衔接子。例如,可以使用与索引的核酸片段中存在的通用序列互补的通用锚序列来进行初始引物延伸反应,其中形成与各单个索引核酸片段的两条链互补的延伸产物。通常,PCR添加另外的通用序列,例如通用捕获序列。
添加通用衔接子后,通过连接或杂交包括测序所需的所有序列的通用衔接子的单步方法,或通过连接通用衔接子和然后扩增以进一步修饰通用衔接子的两步方法,最终索引片段包括通用捕获序列和锚序列。在每个末端添加通用衔接子的结果是多个索引的核酸片段或索引的核酸片段的文库。
所得的索引的片段共同提供了可以固定和然后测序的核酸文库。术语文库,在本文中也称为测序文库,是指来自单个细胞核或细胞的在其3'和5'端包含已知通用序列的核酸片段的集合。文库包括来自全转录组的核酸、来自新合成RNA分子的核酸或两者的组合,并且可用于进行全转录组、新合成RNA的转录组或两者的组合的测序。
索引的核酸片段可以经受针对预定大小范围选择的条件,例如长度150至400个核苷酸,如150至300个核苷酸。合并所得的索引核酸片段,并任选地可以进行清理过程以通过去除至少一部分未并入的通用衔接子或引物来提高DNA分子的纯度。可以使用任何合适的清理过程,例如电泳、尺寸排阻色谱等。在一些实施方案中,可采用固相可逆固定顺磁性珠以将所需的DNA分子与未连接的通用衔接子或引物分离,并基于大小选择核酸。固相可逆固定顺磁珠可购自Beckman Coulter(Agencourt AMPure XP)、Thermofisher(MagJet)、OmegaBiotek(Mag-Bind)、Promega Beads(Promega)和Kapa Biosystems(Kapa Pure Beads)。
本公开的非限制性说明性实施方案在图1中示出。在该实施方案中,该方法包括提供多个细胞(图1,方框10)。该方法进一步包括将细胞的子集分布到多个隔室中(图1,方框11),和将细胞暴露于预定条件(图1,方框12)。预定条件可以并且通常确实在不同的隔室之间变化。例如,不同的隔室可以包括试剂的不同剂量、不同的扰动、不同的暴露持续时间、不同的细胞类型等。然后标记新合成的RNA(图1,方框13)。标记可以用细胞进行,或者细胞核可以从细胞分离且标记用细胞核进行。在一些实施方案中,处理细胞RNA以产生片段(图1,方框14)。存在于细胞或细胞核中的RNA然后进行索引(图1,方框15)。用于对RNA进行索引的各种实施方案是可能的。例如,在一个实施方案中,通过使用包括聚-T区的引物对细胞中存在的所有mRNA进行索引。在另一个实施方案中,可以对特定RNA核酸进行索引。
本公开的另一个非限制性说明性实施方案在图2中示出并在实施例1中描述。在该实施方案中,该方法包括提供来自多个细胞的分离的细胞核(图2,方框22)。该方法还包括将分离的细胞核的子集分布到第一多个隔室中(图2,方框23)。在第一分布步骤(图2,方框23)中的隔室数量可以取决于所使用的格式。例如,隔室的数量可以是2-96个隔室(使用96孔板时)、2-384个隔室(使用384孔板时)或2-1536个隔室室(使用1536孔板时)。或者,可以使用其他隔室,例如液滴。
该方法还包括产生索引的细胞核(图2,方框24)。在一个实施方案中,产生索引的细胞核包括使用逆转录酶与寡dT引物以添加索引、随机核苷酸序列和通用序列。每个隔室中的索引是独特的,例如,每个索引是隔室特异性的。随机序列用作独特分子标识(UMI)来标记独特的核酸片段。随机序列也可以用于帮助在下游处理中去除重复项。通用序列用作本文描述的连接步骤中杂交的互补序列。在另一个实施方案中,产生索引的细胞核包括使用逆转录酶与特异性引物以靶向预定的RNA分子。逆转录可以导致向靶向RNA分子添加索引、随机核苷酸序列和通用序列。在适合于逆转录的条件下,将细胞核暴露于这些成分产生索引的细胞核的群体,其中每个细胞核包含索引的核酸片段。索引的核酸片段可以并且通常确实在合成链上包括指示特定隔室的索引序列。索引的核酸片段的实例在实施例1的图1A中示出(参见“索引的逆转录”)。
来自多个隔室的索引的细胞核可以组合(图2,方框25)。然后将这些组合的索引细胞核(在本文中称为合并的索引细胞核)的子集分布到第二多个隔室中(图2,方框25)。细胞核分布到子集之后将第二索引序列并入每个隔室的索引核酸片段中以生成双索引的片段。这导致索引的核酸片段的进一步索引(图2,框26)。
在该说明性实施方式中,第二索引序列的并入包括将发夹连接双链体连接至每个隔室中的索引核酸片段。使用发夹连接双链体引入通用序列、索引或其组合到靶核酸片段的末端通常使用双链体的一端作为用于随后扩增的引物。相反,在该实施方案中使用的发夹连接双链体不充当引物。使用本文描述的发夹连接双链体的优点是减少了用本领域描述的许多发夹连接双链体观察到的自身-自身连接。在一个实施方案中,连接双链体包括五个元件:1)通用序列,其是寡聚-dT引物上存在的通用序列的互补序列,2)第二索引,3)ideoxyU,4)可形成发夹的核苷酸序列,和5)第二索引的反向互补序列。第二索引序列对于其中在通过逆转录添加第一索引之后放置分布的索引细胞核的每个隔室是独特的(图2,方框25)。双索引核酸片段的例子在实施例1的图1A中示出(参见“索引的发夹连接”)。
并入核酸片段中的发夹连接双链体的发夹区域中存在的ideoxyU的去除可以在清理之前、期间或之后进行。尿嘧啶残基的去除可以通过任何可用的方法来完成,并且在一个实施方式中,使用可从NEB获得的尿嘧啶特异性切除试剂(USER)。
然后将这些组合的双索引细胞核(在本文中称为合并的双索引细胞核)的子集分布到第三多个隔室中(图2,方框27)。在一个实施方案中,100至30,000个细胞核分布到每个孔。在一个实施方案中,孔中的细胞核数为至少100、至少500、至少1,000或至少5,000。在一个实施方案中,孔中的细胞核数不大于30,000、不大于25,000、不大于20,000或不大于15,000。在一个实施方案中,子集中存在的细胞核数可以是100至1,000、1,000至10,000、10,000至20,000或20,000至30,000。在一个实施方案中,向每个孔分布2,500个细胞核。在一个实施方案中,每个子集中存在的细胞核数近似相等。
将双索引细胞核分布到子集中之后合成第二DNA链(图2,方框28)。细胞核中的核酸通过进行标签化来对其进行处理(图2,方框29)。包含双索引细胞核的每个隔室包含转座体复合体。在该实施方案中,标签化用于产生在每个末端包括不同核苷酸序列(例如,一个末端的N5引物序列和另一末端的N7引物)的核酸片段。
在细胞核的标签化之后将第三索引序列并入每个隔室的双索引核苷酸片段中以产生三索引的片段,其中每个隔室中的第三索引序列与该隔室中的第一和第二索引序列不同。这导致索引的核酸片段在固定和测序之前的进一步索引(图2,方框30;还参见该实施例的图1A(“USER处理,索引的PCR”)。在一个实施方案中,存在于双索引核酸片段末端的通用序列(例如,一端的发夹连接双链体插入的核苷酸序列和另一端的转座体复合物插入的核苷酸序列)可用于引物的结合,并在扩增反应中延伸。通常,使用两个不同的引物。一个引物与双索引核酸片段的一条链的3'端的通用序列杂交,和第二引物与双索引核酸片段另一条链的3'端的通用序列杂交。因此,每个引物上存在的锚序列(例如,通用引物(如用于阅读片段1或阅读片段2的测序引物)与其退火用于测序的位点)可以不同。合适的引物可各自包含另外的通用序列,如通用捕获序列(例如,捕获寡核苷酸与之杂交的位点,其中捕获寡核苷酸可固定在固体基质的表面上)。因为每个引物包含索引,这一步骤导致添加另一索引序列,在核酸片段的每个末端一个,以得到三索引的片段。在一个实施方案中,可以使用索引的引物,例如索引的P5引物和索引的P7引物,来添加第三索引。三索引的片段合并,并且可以对其进行本文所述的清理步骤。
可以制备多个三索引的片段用于测序。在三索引的片段合并并清理后,它们通常在测序之前通过固定和/或扩增富集(图2,方框31)。
本公开的另一个非限制性说明性实施方案在图3中示出并在实施例4中描述。在该实施方案中,该方法包括提供分离的细胞核或细胞(图3,方框30)。可将细胞核或细胞暴露于逆转录酶和特异性引物以靶向和富集预定的RNA分子(图3,方框31)。在适合于逆转录的条件下将细胞核或细胞暴露于这些组分产生细胞核或细胞的群体,其中每个细胞核含有对于预定RNA分子中存在的序列富集的核酸片段。该方法进一步包括将细胞核或细胞的子集分布到第一多个隔室中(图3,方框32)。在第一分布步骤(图3,方框32)中隔室的数量可以取决于所使用的格式。例如,隔室的数量可以是2-96个隔室(使用96孔板时)、2-384个隔室(使用384孔板时)或2-1536个隔室(使用1536孔板时)。或者,可以使用其他隔室,例如液滴。
该方法还包括通过将索引序列并入每个隔室的核酸片段中以产生索引的片段来生成索引的细胞核或细胞(图3,方框33)。
在一个实施方案中,索引序列的并入包括将发夹连接双链体连接至每个隔室中的索引核酸片段。合并包含索引片段的细胞核或细胞,然后将这些组合的索引细胞核或细胞的子集分布到第二多个隔室中(图3,方框34)。
索引细胞核或细胞分布到子集中之后可以合成第二DNA链(图3,方框35)。通过对细胞核或细胞中的核酸进行标签化来对其进行处理(图3,方框36)。包含索引细胞核的每个隔室包括转座体复合体。在该实施方案中,标签化用于产生在每个末端包括不同核苷酸序列(例如,在一个末端的N5引物序列和在另一末端的N7引物)的核酸片段。
细胞核的标签化之后将第二索引序列并入每个隔室的索引的核酸片段中以产生双索引的片段,其中每个隔室的第二索引序列不同于该隔室中的第一索引序列。这导致在固定和测序之前对索引的核酸片段的进一步索引(图3,方框37)。
可以制备多个双索引的片段用于测序,其中测序数据针对预定RNA分子中存在的序列富集。双索引的片段合并并进行清理后,它们在测序之前通常通过固定和/或扩增来富集(图3,方框38)。
用于测序的固定样品的制备
用于将来自一个或多个来源的索引片段附接到基质的方法是本领域已知的。在一个实施方案中,使用对索引的片段具有特异性的多种捕获寡核苷酸富集索引的片段,并且可以将捕获寡核苷酸固定在固体基质的表面上。例如,捕获寡核苷酸可包括通用结合对的第一成员,并且其中结合对的第二成员固定在固体基质的表面上。同样,用于扩增固定的双索引片段的方法包括但不限于桥接扩增和动力学排除。测序之前用于固定和扩增的方法描述于例如Bignell等(US 8,053,192)、Gunderson等(WO2016/130704)、Shen等(US 8,895,249)和Pipenburg等(US 9,309,502)中。
可以将合并的样品固定以准备测序。测序可以作为单分子阵列进行,或可以在测序前进行扩增。可以使用一种或多种固定的引物进行扩增。固定的引物可以是例如平面上或珠的池上的草坪(lawn)。可以将珠的池分离到乳液中,每个乳液的“隔室”中具有单个珠。每个“隔室”仅一个模板的浓度下,仅一个模板在每个珠上扩增。
如本文所用,术语“固相扩增”是指在固体支持物上或与固体支持物结合进行的任何核酸扩增反应,使得全部或部分扩增产物在其形成时固定在固体支持物上。特别地,该术语涵盖固相聚合酶链反应(固相PCR)和固相等温扩增,其是类似于标准溶液相扩增的反应,除了将正向和反向扩增引物之一或两者固定在固体支持物上。固相PCR涵盖了如乳液(其中一个引物锚定在珠上,另一个在游离溶液中),和固相凝胶基质中的菌落形成(其中一个引物锚定在表面上,和一个引物在游离溶液中)的系统。
在一些实施方案中,固体支持物包括图案化的表面。“图案化表面”是指固体支持物的暴露层中或其上不同区域的布置。例如,一个或多个区域可以是其中存在一种或多种扩增引物的特征。这些特征可以通过其中不存在扩增引物的间隙区域分开。在一些实施方案中,图案可以是成行和列的特征的x-y格式。在一些实施方案中,图案可以是特征和/或间隙区域的重复排列。在一些实施方案中,图案可以是特征和/或间隙区域的随机排列。可以在本文阐述的方法和组合物中使用的示例性图案化表面在美国专利No.8,778,848、8,778,849和9,079,148及美国公开No.2014/0243224中有所描述。
在一些实施方案中,固体支持物包括表面中的孔或凹陷的阵列。这可以如本领域中一般所知的使用多种技术来制造,包括但不限于光刻、压印技术、模制技术和微蚀刻技术。如本领域技术人员理解的,使用的技术取决于阵列基质的组成和形状。
图案化表面中的特征可以是玻璃、硅、塑料或具有图案化的、共价连接的凝胶(例如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺(PAZAM,参见,例如,美国公开号2013/184796、WO 2016/066586和WO 2015/002813))的其他适合的固体支持物上的孔(例如微孔或纳米孔)阵列中的孔。该过程建立了用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可以是稳定的。聚合物与孔的共价连接有助于在各种用途期间在结构化基质的整个寿命中保持在结构化特征中的凝胶。但是,在许多实施方案中,凝胶不需要与孔共价连接。例如,在某些条件中,可以将未共价连接到结构化基质的任何部分上的无硅烷丙烯酰胺(SFA,参见例如美国专利号8,563,477)用作凝胶材料。
在特定的实施方案中,可以通过用孔(例如微孔或纳米孔)对固体支持材料进行图案化,用凝胶材料(例如PAZAM、SFA或其化学修饰的变体,如SFA的叠氮基化(azidolyzed)形式(azido-SFA))涂覆图案化的支持物和抛光凝胶涂覆的载体(例如,通过化学或机械抛光)来制备结构化基质,从而将凝胶保留在孔中,但从结构化基质表面上的间隙区域去除或灭活孔之间的基本上所有凝胶。引物核酸可以附着于凝胶材料。然后可以使索引的片段的溶液与抛光的基质接触,使得单个索引的片段通过与附着于凝胶材料上的引物的相互作用接种单个孔;然而,由于凝胶材料的缺乏或无活性,靶核酸不占据间隙区域。索引的片段的扩增被局限于孔,因为在间隙区域中凝胶的缺乏或失活阻止了生长的核酸集落的向外迁移。该方法可以方便地制造、可扩展和利用常规的微米或纳米制造方法。
虽然本公开涵盖其中仅固定一个扩增引物(另一引物通常存在于游离溶液中)的“固相”扩增方法,但是在一个实施方案中,优选为固体支持物提供固定的正向和反向引物两者。实际上,由于扩增过程需要过量的引物来维持扩增,因此存在固定在固体支持物上的“多个”相同的正向引物和/或“多个”相同的反向引物。除非上下文另外指出,本文对正向和反向引物的引用应相应地解释为涵盖“多个”此类引物。
如本领域技术人员理解的,任何给定的扩增反应需要对扩增的模板具有特异性的至少一种类型的正向引物和至少一种类型的反向引物。然而,在某些实施方案中,正向和反向引物可以包括相同序列的模板特异性部分,并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话说,有可能仅使用一种引物进行固相扩增,并且这种单引物方法涵盖在本公开的范围内。其他实施方案可以使用包含相同的模板特异性序列但在某些其他结构特征上不同的正向和反向引物。例如,一种类型的引物可以包含在另一引物中不存在的非核苷酸修饰。
在本公开的所有实施方案中,用于固相扩增的引物优选通过在引物的5'端处或附近单点共价连接至固体支持物而固定,使引物的模板特异性部分自由与其同源模板退火,并且3'羟基自由用于引物延伸。为此目的,可以使用本领域已知的任何合适的共价连接方式。选择的连接化学取决于固体支持物的性质以及应用于其的任何衍生化或功能化。引物本身可以包括可以是非核苷酸化学修饰的部分以促进连接。在特定的实施方案中,引物可在5'末端包括含硫亲核试剂,例如硫逐磷酸酯或硫代磷酸酯。在固体负载的聚丙烯酰胺水凝胶的情况下,该亲核试剂结合水凝胶中存在的溴乙酰胺基团。如WO 05/065814中所述,将引物和模板附接到固体支持物上的更具体的方式是经由与由聚合的丙烯酰胺和N-(5-溴乙酰胺基戊基)丙烯酰胺(BRAPA)组成的水凝胶的5'硫逐磷酸酯连接。
本公开的某些实施方案可以利用包括已“功能化”(例如通过施加包括反应性基团的中间材料的层或涂层)的惰性基材或基质(例如载玻片,聚合物珠等)的固体载体,该反应性基团允许共价连接到生物分子,如多核苷酸。此类载体的实例包括但不限于负载在惰性基质如玻璃上的聚丙烯酰胺水凝胶。在这样的实施方案中,生物分子(例如多核苷酸)可以直接共价连接至中间材料(例如水凝胶),但是中间材料本身可以非共价连接至基材或基质(例如玻璃基质)。术语“与固体支持物共价连接”相应地解释为涵盖这种类型的布置。
合并的样品可以在珠上扩增,其中每个珠子包含正向和反向扩增引物。在特定的实施方案中,索引片段的文库用于制备核酸集落的簇集阵列,类似于美国公开No.2005/0100900、美国专利No.7,115,400、WO 00/18957和WO 98/44151中所述的,通过固相扩增和更特别地通过固相等温扩增。术语“簇”和“集落”在本文中可互换使用以指固体支持物上的离散位点,其包括多个相同的固定的核酸链和多个相同的固定的互补核酸链。术语“簇集阵列”是指由这样的簇或集落形成的阵列。在这种情况中,术语“阵列”不应被理解为需要簇的有序排列。
术语“固相”或“表面”用于表示其中引物连接于平坦表面的平面阵列,例如玻璃、二氧化硅或塑料显微镜载玻片或类似的流动池装置;珠,其中一个或两个引物连接于珠,并且珠被扩增;或在珠扩增后在表面上的珠阵列。
可以使用如WO 98/44151中所述的热循环方法或其中温度保持恒定并且使用试剂的改变进行延伸和变性的循环的方法来制备簇集阵列。这样的等温扩增方法在专利申请号WO 02/46456和美国公开No.2008/0009420中描述。由于在等温过程中可用的较低温度,这在一些实施方案中是特别优选的。
应当理解,本文所述或本领域通常已知的任何扩增方法可与通用或靶特异性引物一起使用以扩增固定的DNA片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导扩增(TMA)和基于核酸序列的扩增(NASBA),如美国专利No.8,003,354中所述。可以采用上述扩增方法来扩增一种或多种目的核酸。例如,可以利用PCR,包括多重PCR、SDA、TMA、NASBA等来扩增固定的DNA片段。在一些实施方案中,特异性针对目的多核苷酸的引物包括在扩增反应中。
用于多核苷酸扩增的其他合适方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人,Nat.Genet.19:225-232(1998))和寡核苷酸连接测定(OLA)技术(一般参见美国专利号7,582,420、5,185,243、5,679,524和5,573,907;EP 0 320 308B1;EP 0 336731B1;EP 0 439182B1;WO 90/01069;WO 89/12696;和WO 89/09835)。应当理解,可以设计这些扩增方法以扩增固定的DNA片段。例如,在一些实施方案中,扩增方法可包括连接探针扩增或寡核苷酸连接测定(OLA)反应,其包含特异性针对目的核酸的引物。在一些实施方案中,扩增方法可以包括引物延伸-连接反应,其包含特异性地针对目的核酸的引物。作为可以特别地设计来扩增目的核酸的引物延伸和连接引物的非限制性例子,扩增可以包括用于GoldenGate分析的引物(Illumina,Inc.,San Diego,CA),如通过美国专利No.7,582,420和7,611,869示例的。
DNA纳米球也可以与本文所述的方法和组合物结合使用。产生和利用DNA纳米球进行基因组测序的方法可以在例如美国专利和公开U.S.专利No.7,910,354、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488中找到且在例如Drmanac等人,2010,Science 327(5961):78-81中描述。简而言之,在将基因组文库DNA片段化衔接子连接至片段后,衔接子连接的片段通过与环状连接酶的连接环化并进行滚环扩增(如Lizardi等,1998.Nat.Genet.19:225-232和US 2007/0099208A1中所述)。扩增子的延伸的串接结构促进了卷曲,从而产生了紧密的DNA纳米球。DNA纳米球可以捕获在基质上,优选地以产生有序的或图案化的阵列,使得维持各纳米球之间的距离从而允许对单独的DNA纳米球进行测序。在一些实施方案中,例如由Complete Genomics(Mountain View,CA)使用的那些实施方案,在环化之前进行连续轮的衔接子连接、扩增和消化以产生具有通过衔接子序列分开的几个基因组DNA片段的头-尾构建体。
可以在本公开的方法中使用的示例性等温扩增方法包括但不限于,例如由Dean等人,Proc.Natl.Acad.Sci.USA 99:5261-66(2002)所例示的多重置换扩增(MDA)或例如由美国专利No.6,214,587所例示的等温链置换核酸扩增。可以在本公开中使用的其他基于非PCR的方法包括例如链置换扩增(SDA),其在例如Walker等人,Molecular Methods forVirus Detection,Academic Press,Inc,1995;美国专利No.5,455,166和5,130,238以及Walker等人,Nucl.Acids Res.20:1691-96(1992)中描述,或超分支链置换扩增,其在例如Lage等人,Genome Res.13:294-307(2003)中描述。等温扩增方法可以用于例如链置换Phi29聚合酶或Bst DNA聚合酶大片段(5'->3'exo-)用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力使聚合酶产生长度为10-20kb的片段。如上所述,可以使用具有低持续合成能力和链置换活性的聚合酶,例如Klenow聚合酶,在等温条件下产生较小的片段。在美国专利号7,670,810的公开中详细给出了扩增反应、条件和组分的其他描述。
在本公开中有用的另一多核苷酸扩增方法是标记PCR,其使用具有恒定的5'区然后随机3'区的两结构域引物的群体,例如在Grothues等Nucleic Acids Res.21(5):1321-2(1993)中所述。进行第一轮扩增以允许基于来自随机合成3'区的个体杂交在热变性DNA上的大量启动。由于3'区的性质,启动的位点被认为在整个基因组中是随机的。此后,未结合的引物可以除去,并且可以使用与恒定5'区互补的引物进行进一步的复制。
在一些实施方案中,可以使用动力学排除扩增(KEA),也称为排阻扩增(ExAmp)进行等温扩增。可以使用包括以下步骤的方法来制备本公开的核酸文库:使扩增试剂反应以产生多个扩增位点,每个扩增位点包括来自已接种该位点的单个靶核酸的基本上克隆的扩增子群体。在一些实施方案中,扩增反应进行直到产生足够数量的扩增子以填充相应扩增位点的容量。以这种方式填充已接种的位点抑制了靶核酸在该位点着陆和扩增的能力,从而在该位点产生了扩增子的克隆群体。在一些实施方案中,即使扩增位点在第二靶核酸到达该位点之前未填充至其容量,也可以实现明显的克隆性。在一些条件下,第一靶核酸的扩增可以进行到制备足够数量的拷贝以有效地竞争或压倒运输至该位点的第二靶核酸的拷贝的产生的点。例如,在对直径小于500nm的圆形特征上使用桥连扩增过程的实施方案中,已经确定在对第一靶核酸进行14个循环的指数扩增后,来自相同位点的第二靶核酸的污染产生数量不足的污染扩增子而不利地影响Illumina测序平台上的合成测序分析。
在一些实施方案中,阵列中的扩增位点可以但不一定是完全克隆的。而是,对于某些应用,单个扩增位点可以主要由来自第一索引片段的扩增子填充,并且还可以具有来自第二靶核酸的低水平的污染扩增子。阵列可以具有一个或多个具有低水平污染扩增子的扩增位点,只要污染水平不会对阵列的后续使用产生不可接受的影响。例如,当阵列用于检测应用中时,可接受的污染水平是不会以不可接受的方式影响信噪比或检测技术的分辨率的水平。因此,明显的克隆性通常与通过本文阐述的方法制成的阵列的特定用途或应用有关。对于特定应用在单个扩增位点处可接受的示例性污染水平包括但不限于至多0.1%、0.5%、1%、5%、10%或25%的污染扩增子。阵列可以包括一个或多个具有这些示例性污染扩增子水平的扩增位点。例如,阵列中多达5%、10%、25%、50%、75%或甚至100%的扩增位点可以具有一些污染扩增子。应理解,在阵列或其他位点集合中,至少50%、75%、80%、85%、90%、95%或99%或更多的位点可以是克隆的或明显克隆的。
在一些实施方案中,当过程以足够快的速率发生以有效地排除另一事件或过程发生时,可以发生动力学排除。以制备其中将阵列的位点用来自溶液的索引片段随机接种且在扩增过程中产生索引片段的拷贝以填充每个接种位点至容量的核酸阵列为例。根据本公开的动力学排除方法,接种和扩增过程可以在其中扩增速率超过接种速率的条件下同时进行。这样,在已经被第一靶核酸接种的位点处形成拷贝的相对快速速率有效地排除第二核酸接种该位点用于扩增。动力学排除扩增方法可以如美国专利申请公开No.2013/0338042中详细描述的进行。
动力学排除可以利用相对缓慢的启动扩增的速率(例如,形成索引片段的第一拷贝的缓慢速率)与相对较快的形成索引片段(或索引片段的第一拷贝)的后续拷贝的速率。在之前段落的示例中,由于索引片段接种的相对较慢速率(例如,相对缓慢的扩散或转运)与扩增发生以用索引片段种子的拷贝填充位点的相对较快速率而发生动力学排除。在另一示例性实施方案中,动力学排除可由于已接种位点的索引片段的第一拷贝的形成延迟(例如延迟或缓慢激活)与形成后续拷贝以填充位点的相对较快速率而发生。在该示例中,单个位点可能已接种了几个不同的索引片段(例如,在扩增之前每个位点可以存在几个索引片段)。但是,可以随机激活任何给定索引片段的第一拷贝形成,使得与产生后续拷贝的速率相比,第一拷贝形成的平均速率相对较慢。在这种情况下,尽管单个位点可能已接种几个不同的索引片段,但动力学排除仅允许扩增那些索引片段中的一个。更具体地,一旦第一索引片段被激活用于扩增,该位点迅速用其拷贝填充至容量,从而防止第二索引片段的拷贝在该位点形成。
在一个实施方案中,进行该方法以同时(i)以平均转运速率将索引片段运输至扩增位点,和(ii)以平均扩增速率扩增位于该扩增位点的索引片段,其中平均扩增速率超过平均转运速率(美国专利号9,169,513)。因此,在此类实施方案中,可以通过使用相对较慢的转运速率来实现动力学排除。例如,可以选择足够低的索引片段浓度以实现所需的平均转运速率,较低的浓度导致较慢的平均转运速率。替代地或另外地,可以使用高粘度溶液和/或溶液中分子拥挤试剂(molecular crowding reagent)的存在来降低转运速率。有用的分子拥挤试剂的实例包括但不限于聚乙二醇(PEG)、聚蔗糖(ficoll)、葡聚糖或聚乙烯醇。示例性分子拥挤试剂和制剂在美国专利No.7,399,590中给出,其通过引用并入本文。可以调节以实现所需转运速率的另一因素是靶核酸的平均大小。
扩增试剂可包括促进扩增子形成并且在某些情况下增加扩增子形成速率的其他组分。一个实例是重组酶。重组酶可通过允许重复的侵入/延伸来促进扩增子形成。更具体地,重组酶可以使用索引片段作为用于扩增子形成的模板促进聚合酶的索引片段侵入和聚合酶的引物延伸。该过程可以作为链反应重复,其中每轮侵入/延伸产生的扩增子在随后的轮中用作模板。由于不需要变性循环(例如通过加热或化学变性),该过程可以比标准PCR更快地发生。这样,重组酶促进的扩增可以等温地进行。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在某些情况下,不可水解的其类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用,因为SSB可以进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge,UK)以TwistAmp试剂盒商业出售的那些。在US 5,223,414和US 7,399,590中阐述了重组酶促进的扩增试剂的有用成分和反应条件。
可以包括在扩增试剂中以促进扩增子形成并且在某些情况下增加扩增子形成速率的组分的另一个实例是解旋酶。解旋酶可通过允许扩增子形成的链反应来促进扩增子形成。由于不需要变性循环(例如通过加热或化学变性),该过程可以比标准PCR更快地发生。这样,可以等温地进行解旋酶促进的扩增。解旋酶和单链结合(SSB)蛋白的混合物特别有用,因为SSB可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括由Biohelix(Beverly,MA)作为IsoAmp试剂盒商业出售的那些。此外,在US 7,399,590和US 7,829,284中描述了包括解旋酶蛋白的有用制剂的实例。
可以包括在扩增试剂中以促进扩增子形成并且在某些情况下增加扩增子形成速率的组分的又一个实例是源点结合蛋白(origin binding protein)。
测序用途/测序方法
在将索引的片段连接到表面上之后,确定固定和扩增的索引片段的序列。可以使用任何合适的测序技术进行测序,并且用于确定固定的和扩增的索引片段的序列的方法,包括链再合成,在本领域中是已知的,并且例如在Bignell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中进行了描述。
本文描述的方法可以与多种核酸测序技术结合使用。特别适用的技术是其中核酸连接在阵列中的固定位置使得它们的相对位置不变,并且其中阵列被重复成像的那些。特别适用的是其中以不同颜色通道获得图像的实施方案,例如,与用于区分一种核苷酸碱基类型与另一核苷酸碱基类型的不同标记一致。在一些实施方案中,确定索引片段的核苷酸序列的过程可以是自动化过程。优选的实施方案包括合成测序(“SBS”)技术。
SBS技术通常涉及通过针对模板链的核苷酸的迭代添加的新生核酸链的酶促延伸。在SBS的传统方法中,可以在每次递送中在聚合酶存在下将单核苷酸单体提供给靶核苷酸。但是,在本文所述的方法中,在递送中存在聚合酶的情况下,可以向靶核酸提供一种以上类型的核苷酸单体。
在一个实施方案中,核苷酸单体包括锁核酸(LNA)或桥接核酸(BNA)。核苷酸单体中LNA或BNA的使用提高核苷酸单体与固定的索引片段上存在的测序引物序列之间的杂交强度。
SBS可以使用具有终止子(terminator)部分的核苷酸单体或没有任何终止子部分的那些核苷酸单体。使用缺少终止子的核苷酸单体的方法包括,例如,焦磷酸测序和使用γ-磷酸酯标记的核苷酸的测序,如本文中进一步详述的。在使用缺少终止子的核苷酸单体的方法中,每个循环中添加的核苷酸数量通常是可变的,并且取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术而言,终止子在使用的测序条件下可能是有效地不可逆的,如在用于双脱氧核苷酸的传统Sanger测序的情况下,或终止子可以是可逆的,如在用于通过Solexa(now Illumina,Inc.)开发的测序方法的情况下。
SBS技术可以使用具有标记部分的核苷酸单体或缺少标记部分的那些核苷酸单体。因此,可以基于标记的特性,例如标记的荧光;核苷酸单体的特性,例如分子量或电荷;核苷酸掺入的副产物,例如焦磷酸的释放;等等来检测掺入事件。在其中测序试剂中存在两种或更多种不同核苷酸的实施方案中,不同核苷酸可以彼此区分,或者可替代地,在所使用的检测技术下,两种或更多种不同标记可能是无法区分的。例如,测序试剂中存在的不同核苷酸可以具有不同的标记,并且它们可以使用适当的光学器件来区分,如由Solexa(现在Illumina,Inc.)开发的测序方法所举例说明的。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测随着特定的核苷酸掺入到新生链中的无机焦磷酸(PPi)释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)“Real-time DNA sequencing using detection of pyrophosphaterelease.”Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencingsheds light on DNA sequencing.”Genome Res.11(1),
3-11;Ronaghi,M.,Uhlen,M.和Nyren,P.(1998)“A sequencing method based onreal-time pyrophosphate.”Science 281(5375),363;美国专利No.6,210,891;6,258,568和6,274,320)。在焦磷酸测序中,释放的PPi可以通过被ATP硫化酶立即转化为三磷酸腺苷(ATP)来检测,并且产生的ATP的水平通过荧光素酶产生的光子来检测。可以将待测序的核酸连接到阵列中的特征上,并且阵列可以进行成像以捕获由于在阵列的特征处核苷酸掺入而产生的化学发光信号。用特定的核苷酸类型(例如A、T、C或G)处理阵列后,可以获得图像。每个核苷酸类型添加后获得的图像关于阵列中的哪些特征被检测到而不同。图像中的这些差异反映了阵列上特征的不同序列内容。但是,每个特征的相对位置在图像中保持不变。图像可以使用本文阐述的方法存储、处理和分析。例如,在用各种不同核苷酸类型处理阵列后获得的图像可以以与本文示例的针对基于可逆终止子的测序方法从不同检测通道获得的图像的相同方式处置。
在另一示例性的SBS类型中,循环测序通过逐步添加可逆的终止子核苷酸来完成,所述可逆的终止子核苷酸包含例如可切割的或可光漂白的染料标记,例如在WO 04/018497和美国专利No.7,057,026中所述。该方法由Solexa(现在Illumina Inc.)商业化,并且也在WO 91/06678和WO 07/123,744中进行了描述。其中终止子可被逆转且荧光标记可被切割的荧光标记终止子的可用性促进有效的循环可逆终止(CRT)测序。聚合酶也可以被共同工程化以有效地掺入修饰的核苷酸并从这些修饰的核苷酸延伸。
在一些基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。但是,检测标记可以例如通过切割或降解而去除。图像可以在标记掺入阵列化的核酸特征中之后捕获。在特定实施方案中,每个循环涉及将四种不同核苷酸类型同时递送至阵列,并且每种核苷酸类型具有光谱上不同的标记。然后可以获得四个图像,每个图像使用对四个不同标记之一选择性的检测通道。或者,可以顺序添加不同的核苷酸类型,并且可以在每个添加步骤之间获得阵列的图像。在这样的实施方案中,每个图像显示已掺入的特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容,在不同的图像中存在或不存在不同的特征。但是,特征的相对位置在图像中保持不变。如本文所述,可以存储、处理和分析从这种可逆终止子-SBS方法获得的图像。在图像捕获步骤之后,可以去除标记并且可以去除可逆终止子部分以用于随后的核苷酸添加和检测循环。在特定循环中检测到标记之后及在后续周期之前去除标记可以提供减少背景信号和循环之间的串扰的优点。本文阐述了有用的标记和去除方法的实例。
在特定的实施方案中,一些或全部核苷酸单体可包括可逆终止子。在这样的实施方案中,可逆终止子/可切割荧光团可包括通过3'酯键连接至核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005))。其他方法将终止子化学与荧光标记的切割分离(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005))。Ruparel等人描述了可逆终止子的开发,其使用小的3'烯丙基来阻断延伸,但是可以容易地通过用钯催化剂的短处理而解封。荧光团经由可容易地通过30秒的长波长紫外线照射切割的可光切割的接头连接到碱基上。因此,二硫化物还原或光切割可以用作可切割的接头。可逆终止的另一种方法是使用在dNTP上布置大体积染料后确保的自然终止。dNTP上带电的大体积染料的存在可通过位阻和/或静电障碍充当有效的终止子。除非去除染料,一个掺入事件的存在阻止进一步的掺入。染料的切割去除荧光团并有效地逆转终止。修饰核苷酸的实例也描述于美国专利No.7,427,673和7,057,026中。
可与本文描述的方法和系统一起使用的另外的示例性SBS系统和方法在美国公开No.2007/0166705、2006/0188901、2006/0240439、2006/0281109、2012/0270305和2013/0260372,美国专利申请No.7,057,026,PCT公开No.WO 05/065814,美国专利申请公开No.2005/0100900及PCT公开No.WO 06/064199和WO 07/010,251中描述。
一些实施方案可以使用少于四个不同标记的四种不同核苷酸的检测。例如,SBS可以使用在美国公开No.2013/0079232的并入材料中描述的方法和系统来执行。作为第一实例,可以在相同波长下检测一对核苷酸类型,但是基于该对的一个成员相对于另一个成员的强度差异,或基于该对的一个成员与对于该对的另一成员检测的信号相比导致明显的信号出现或消失的变化(例如,通过化学修饰、光化学修饰或物理修饰)区分。作为第二实例,可以在特定条件下检测四种不同核苷酸类型中的三种,而第四种核苷酸类型缺少在那些条件下可检测的标记,或者在这些条件下最少检测(例如,由于背景荧光等而导致的最小检测)。可以基于其各自信号的存在来确定将前三种核苷酸类型掺入核酸中,并且可以根据对任何信号的不存在或最小检测来确定第四核苷酸类型掺入核酸中。作为第三实例,一种核苷酸类型可包括在两个不同通道中检测的标记,而在不多于一个通道中检测其他核苷酸类型。前述的三个示例性配置不被认为是互斥的,并且可以以各种组合使用。组合所有三个实例的示例性实施方案是基于荧光的SBS方法,其使用在第一通道中检测的第一核苷酸类型(例如,具有在第一通道中被第一激发波长激发时检测的标记的dATP)、在第二通道中检测的第二核苷酸类型(例如,具有在第二通道中通过第二激发波长激发时检测的标记的dCTP)、在第一和第二通道中检测的第三核苷酸类型(例如,具有在两个通道中通过第一和/或第二激发波长激发时检测的至少一个标记的dTTP)和缺少标记的第四核苷酸类型,其在任一通道中未检测或最少检测(例如,不具有标记的dTTP)。
此外,如美国公开No.2013/0079232的并入材料中所述的,可以使用单个通道获得测序数据。在这种所谓的单染料测序方法中,标记第一核苷酸类型,但是标记在产生第一图像之后去除,并且仅在产生第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中保留其标记,和第四核苷酸类型在两个图像中保持未标记。
一些实施方案可以使用通过连接技术的测序。这样的技术使用DNA连接酶以并入寡核苷酸并鉴定这种寡核苷酸的并入。寡核苷酸通常具有与寡核苷酸与其杂交的序列中的特定核苷酸的身份相关的不同标记。与其他SBS方法一样,图像可以在用标记的测序试剂处理核酸特征的阵列后获得。每个图像显示具有掺入的特定类型标记的核酸特征。由于每个特征的不同序列内容,在不同的图像中存在或不存在不同的特征,但是特征的相对位置在图像中保持不变。如本文所述,可以存储、处理和分析从基于连接的测序方法获得的图像。可以与本文描述的方法和系统一起使用的示例性SBS系统和方法在美国专利No.6,969,488、6,172,218和6,306,597中描述。
一些实施方案可以使用纳米孔测序(Deamer,D.W.&Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000);Deamer,D.和D.Branton,“Characterization of nucleic acids by nanoporeanalysis”,Acc.Chem.Res.35:817-825(2002);Li,J.,M.Gershow,D.Stein,E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-state nanoporemicroscope”Nat.Mater.2:611-615(2003))。在这样的实施方案中,索引的片段穿过纳米孔。纳米孔可以是合成的孔隙或生物膜蛋白,例如α-溶血素。随着索引片段穿过纳米孔,可以通过测量孔隙的电导率的波动来鉴别每个碱基对(美国专利No.7,001,792;Soni,G.V.&Meller,“A.Progress toward ultrafast DNA sequencing using solid-statenanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.“Nanopore-based single-molecule DNA analysis.”Nanomed.2,459-481(2007);Cockroft,S.L.,Chu,J.,Amorin,M.&Ghadiri,M.R.“A single-molecule nanopore device detects DNA polymeraseactivity with single-nucleotide resolution.”J.Am.Chem.Soc.130,818-820(2008))。如本文所述,可以存储、处理和分析从纳米孔测序获得的数据。特别地,根据本文阐述的光学图像和其他图像的示例性处理,可以将数据作为图像处理。
一些实施方案可以使用涉及实时监测DNA聚合酶活性的方法。可以通过带有荧光团的聚合酶和γ-磷酸酯标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸的掺入(如例如在美国专利No.7,329,492和7,211,414中描述的),或者核苷酸掺入可用零模波导(如例如在美国专利No.7,315,019中描述的)和使用荧光核苷酸类似物和工程化聚合酶(如例如在美国专利No.7,405,281和美国公开No.2008/0108082中描述的)来检测。可以将照明限制于表面束缚的聚合酶周围的zeptoliter规模的体积,使得可以在低背景下观察到荧光标记核苷酸的掺入(Levene,M.J.等人“Zero-mode waveguides forsingle-molecule analysis at high concentrations.”Science 299,682-686(2003);Lundquist,P.M.等人“Parallel confocal detection of single molecules in realtime.”Opt.Lett.33,1026-1028(2008);Korlach,J.等人“Selective aluminumpassivation for targeted immobilization of single DNA polymerase molecules inzero-mode waveguide nano structures.”Proc.Natl.Acad.Sci.USA 105,1176-1181(2008))。如本文所述,可以存储、处理和分析从这些方法获得的图像。
一些SBS实施方案包括检测在核苷酸掺入到延伸产物中时释放的质子。例如,基于释放质子的检测的测序可以使用电检测器和可从Ion Torrent(Guilford,CT,LifeTechnologies子公司)商购的相关技术或者在美国公开No.2009/0026082;2009/0127589;2010/0137143;和2010/0282617中描述的测序方法和系统。本文阐述的使用动力学排除来扩增靶核酸的方法可以容易地应用于用于检测质子的基质。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子的克隆群体。
可以以多重格式有利地执行上述SBS方法,使得同时操作多个不同的索引片段。在特定的实施方案中,不同的索引片段可以在共同反应容器中或在特定基质的表面上处理。这允许以多重方式方便地递送测序试剂、去除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,索引的片段可以为阵列形式。在阵列形式中,索引的片段通常可以以空间可区分的方式结合到表面。索引的片段可以通过直接共价连接、附接至珠或其他颗粒或者附接至聚合酶或附着于表面的其他分子来结合。阵列可以在每个位点(也称为特征)包括索引片段的单个拷贝,或者可以在每个位点或特征处存在具有相同序列的多个拷贝。如本文进一步详细描述的,多拷贝可以通过扩增方法例如桥连扩增或乳液PCR产生。
本文阐述的方法可以使用具有多种密度中任一种的特征的阵列,包括例如至少约10个特征/cm2、100个特征/cm2、500个特征/cm2、1,000个特征/cm2、5,000个特征/cm2、10,000个特征/cm2、50,000个特征/cm2、100,000个特征/cm2、1,000,000个特征/cm2、5,000,000个特征/cm2或更高。
本文阐述的方法的优点在于,它们用于快速且有效地平行检测多个cm2。因此,本公开提供了能够使用本领域已知的技术例如本文举例说明的那些来制备和检测核酸的集成系统。因此,本公开的集成系统可以包括能够将扩增试剂和/或测序试剂递送至一个或多个固定的索引片段的流体组件,该系统包括诸如泵、阀、储库、流体管线等的组件。流动池可以在集成系统中配置和/或使用用于检测靶核酸的集成系统中。示例性的流动池在例如美国公开No.2010/0111768和美国系列No.13/273,666中描述。如对于流动池举例说明的,集成系统的一个或多个流体组件可以用于扩增方法和检测方法。以核酸测序实施方案为例,集成系统的一个或多个流体组件可以用于本文所述的扩增方法和用于在测序方法(例如上文举例说明的那些)中测序试剂的递送。可选地,集成系统可以包括单独的流体系统以执行扩增方法和执行检测方法。能够产生扩增的核酸并确定核酸的序列的集成测序系统的例子包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)和US系列No.13/273,666中描述的装置。
本文还提供了组合物。在实施本文描述的方法的过程中,可以得到各种组合物。例如,可以得到包括索引的核酸片段的组合物,其中所述索引的核酸片段源自新合成的RNA。在一个实施方案中,标记新合成的RNA。还提供了多孔板,其中所述多孔板的孔包括索引的核酸片段。
本文还提供了试剂盒。在一个实施方案中,试剂盒用于制备测序文库,其中标记新合成的RNA。在一个实施方案中,试剂盒包括本文所述的核苷酸标记。在另一个实施方案中,试剂盒包括用于与RNA退火的一种或多种引物,其中至少一种引物用于一种或多种预定核酸的靶向扩增。在进一步的实施方案中,试剂盒包括向核酸添加至少三个索引的组分。试剂盒还可以包括可用于产生测序文库的其他组分。例如,试剂盒可以包括用于处理RNA分子以包括索引的至少一种介导连接、引物延伸或扩增的酶。该试剂盒可以包括具有索引序列的核酸。试剂盒还可以包括可用于向核酸添加索引的其他组分,如转座体复合物。试剂盒还可包括一种或多种用于与RNA退火的引物。引物可以用于产生全转录组(例如,包括聚T序列的引物)或用于一种或多种预定核酸的靶向扩增。
试剂盒的组分通常以足以用于至少一种测定或用途的量在合适的包装材料中。任选地,可以包括其他组分,如缓冲剂和溶液。通常还包括包装组分的使用说明。如本文所用,短语“包装材料”是指用于容纳试剂盒内容物的一种或多种物理结构。包装材料通过常规方法构造,一般提供无菌的、无污染的环境。包装材料可具有标签,其表明可以使用产生测序文库的组分。另外,包装材料包含说明如何使用试剂盒中的材料的说明。如本文所用,术语“包装”是指诸如玻璃、塑料、纸、箔等的容器,其能够将试剂盒的组分保持在固定的限制内。“使用说明”通常包括描述试剂浓度或至少一种测定方法参数的有形表达,如待混合的试剂和样品的相对量、试剂/样品混合物的维持时间、温度、缓冲条件等等。
示例性实施方案
实施方案1.一种用于制备测序文库的方法,所述测序文库包含来自多个单细胞核或细胞的核酸,所述方法包括:
(a)在第一多个隔室中提供多个细胞核或细胞,
其中每个隔室包含细胞核或细胞的子集;
(b)在从所述细胞获得的所述细胞或细胞核的子集中标记新合成的RNA;
(c)处理细胞核或细胞的每个子集中的RNA分子以产生索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的RNA核酸添加第一隔室特异性索引序列以得到存在于索引的细胞核或细胞中的索引的DNA核酸,
其中所述处理包括连接、引物延伸、杂交或扩增;和
(d)组合所述索引的细胞核或细胞以产生合并的索引细胞核或细胞。
实施方案2.根据实施方案1所述的方法,其中,所述处理包括:
将子集与逆转录酶和与RNA核酸退火的引物接触,得到包含引物和模板RNA分子的相应DNA核苷酸序列的双链DNA核酸。
实施方案3.实施方案1或2的方法,其中所述引物包含与mRNA聚(A)尾退火的聚-T核苷酸序列。
实施方案4.实施方案1-3中任一项的方法,其中所述处理进一步包括使子集与第二引物接触,其中所述第二引物包含与预定DNA核酸退火的序列。
实施方案5.实施方案1-4中任一项的方法,其中所述第二引物包含隔室特异性索引。
实施方案6.实施方案1-5中任一项的方法,其中所述引物包含与预定RNA核酸退火的序列。
实施方案7.实施方案1-6中任一项的方法,其中所述方法包括在不同隔室中与相同预定RNA核酸的不同核苷酸退火的引物。
实施方案8.实施方案1-7中任一项的方法,其中所述引物包括模板转换引物。
实施方案9.实施方案1-8中任一项的方法,其中添加第一隔室特异性索引序列的所述处理包括将包含通用序列的核苷酸序列添加到所述RNA核酸以得到DNA核酸,和然后添加所述第一隔室特异性索引序列到所述DNA核酸的两步过程。
实施方案10.一种用于制备测序文库的方法,所述测序文库包含来自多个单细胞核或细胞的核酸,所述方法包括:
(a)在第一多个隔室中提供多个细胞核或细胞,
其中每个隔室包含细胞核或细胞的子集;
(b)使每个子集与逆转录酶和与预定的RNA核酸退火的引物接触,从而得到包含所述引物和模板RNA核酸的相应DNA核苷酸序列的双链DNA核酸;
(c)处理细胞核或细胞的每个子集中的DNA分子以产生索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第一隔室特异性索引序列以得到存在于索引的细胞核或细胞中的索引的核酸,
其中所述处理包括连接、引物延伸、杂交或扩增;和
(d)组合所述索引的细胞核或细胞以产生合并的索引细胞核或细胞。
实施方案11.根据实施方案10的方法,其中所述引物包含第一隔室特异性索引序列。
实施方案12.实施方案10或11的方法,其进一步包括在所述接触之前,标记在从所述细胞获得的所述细胞或细胞核的子集中新合成的RNA。
实施方案13.实施方案10-12中任一项的方法,其中添加所述第一隔室特异性索引序列的所述处理包括将包含通用序列的核苷酸序列添加到所述核酸和然后将所述第一隔室特异性索引序列添加到所述核酸的两步过程。
实施方案14.实施方案1-13中任一项的方法,其中所述预定RNA核酸是mRNA。
实施方案15.实施方案1-14中任一项的方法,其中预先存在的RNA核酸和新合成的RNA核酸在相同的隔室中用相同的索引标记。
实施方案16.实施方案1-15中任一项的方法,其中所述标记包括在包含核苷酸标记的组合物中孵育所述多个细胞核或细胞,其中所述核苷酸标记掺入所述新合成的RNA中。
实施方案17.实施方案1-16中任一项的方法,其中所述核苷酸标记包含核苷酸类似物、半抗原标记的核苷酸、诱变核苷酸或可以通过化学反应修饰的核苷酸。
实施方案18.实施方案1-17中任一项的方法,其中超过一个核苷酸标记掺入所述新合成的RNA中。
实施方案19.实施方案1-18中任一项的方法,其中一个或多个所述核苷酸标记的比率对于不同的隔室或时间点是不同的。
实施方案20.实施方案1-19中任一项的方法,其进一步包括在所述标记之前将细胞核或细胞的子集暴露于预定的条件。
实施方案21.实施方案1-20中任一项的方法,其中所述预定条件包括暴露于药剂。
实施方案22.实施方案1-21中任一项的方法,其中所述药剂包括蛋白质、非核糖体蛋白质、聚酮化合物、有机分子、无机分子、RNA或RNAi分子、碳水化合物、糖蛋白、核酸或其组合。
实施方案23.实施方案1-22中任一项的方法,其中所述药剂包括治疗药物。
实施方案24.实施方案1-23中任一项所述的方法,其中两个或更多个隔室的预定条件是不同的。
实施方案25.实施方案1-24中任一项的方法,其中所述暴露和标记同时发生,或者所述暴露在标记之前发生。
实施方案26.实施方案1-25中任一项的方法,还包括:
将所述合并的索引细胞核或细胞的子集分布到第二多个隔室中,并向存在于细胞核或细胞的子集中的索引核酸添加第二索引序列以产生包含双索引核酸片段的双索引的细胞核或细胞,其中所述添加包括连接、引物延伸、杂交、扩增或转座;和
组合所述双索引细胞核或细胞以产生合并的双索引细胞核或细胞。
实施方案27.实施方案1-26中任一项的方法,还包括:
将所述合并的双索引细胞核或细胞的子集分布到第三多个隔室中,并向存在于细胞核或细胞子集中的索引的核酸添加第三索引序列以产生包含三索引的核酸片段的三索引细胞核或细胞,其中所述添加包括连接、杂交、引物延伸、扩增或转座;
组合所述三索引细胞核或细胞以产生合并的三索引细胞核或细胞。
实施方案28.实施方案1-27中任一项的方法,其中分布包括稀释。
实施方案29.实施方式1-27中任一项的方法,其中分布包括分选。
实施方案30.实施方案1-29中任一项的方法,其中所述添加包括在适合于将发夹连接双链体连接至包含一个或两个索引序列的核酸片段的末端的条件下使子集与所述发夹连接双链体接触。
实施方案31.实施方案1-30中任一项的方法,其中所述添加包括使包含一个或多个索引序列的核酸片段与转座体复合物接触,其中隔室中的所述转座体复合物包含转座酶和通用序列,其中所述接触进一步包括适合于所述核酸片段的片段化和所述通用序列并入核酸片段中的条件。
实施方案32.实施方案1-31中任一项的方法,其中所述添加包括所述第一隔室特异性索引序列的连接,还包括添加第二索引序列以产生包含双索引的核酸片段的双索引细胞核或细胞,其中所述添加包括转座。
实施方案33.实施方案1-32中任一项的方法,其中所述添加包括所述第二隔室特异性索引序列的连接,还包括添加第三索引序列以产生包含三索引的核酸片段的双索引细胞核或细胞,其中所述添加包括转座。
实施方案34.实施方案1-33中任一项的方法,其中所述隔室包括孔或液滴。
实施方案35.实施方案1-34中任一项的方法,其中所述第一多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案36.实施方案1-35中任一项的方法,其中所述第二多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案37.实施方案1-36中任一项的方法,其中所述第三多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案38.实施方案1-37中任一项的方法,其进一步包括从所述合并的索引细胞核或细胞获得所述索引的核酸,从而从所述多个细胞核或细胞产生测序文库。
实施方案39.实施方案1-38中任一项的方法,其进一步包括从所述合并的双索引细胞核或细胞获得所述双索引的核酸,从而从所述多个细胞核或细胞产生测序文库。
实施方案40.实施方案1-39中任一项的方法,其进一步包括从所述合并的三索引细胞核或细胞获得所述三索引的核酸,从而从所述多个细胞核或细胞产生测序文库。
实施方案41.实施方案1-40中任一项所述的方法,还包括:
提供包含多个扩增位点的表面
其中所述扩增位点包含至少两个具有游离3'端的附着单链捕获寡核苷酸的群体,和
使包含扩增位点的表面与包含一个、两个或三个索引序列的核酸片段接触,接触条件适合于产生多个扩增位点,每个扩增位点包含来自包含多个索引的单个片段的扩增子的克隆群体。
实施方案42.实施方案1-41中任一项的方法,其中所述隔室特异性索引序列的添加包括添加包含通用序列的核苷酸序列至所述核酸,和然后添加所述隔室特异性序列到所述核酸的两步过程。
实施方案43.一种用于制备包含来自多个单细胞核或细胞的核酸的测序文库的方法,该方法包括:
(a)在第一多个隔室中提供多个细胞核或细胞,
其中每个隔室包含细胞核或细胞的子集;
(b)使每个子集与逆转录酶和引物接触,从而得到包含所述引物和所述模板RNA核酸的相应DNA核苷酸序列的双链DNA核酸;
(c)处理细胞核或细胞的每个子集中的DNA分子以产生索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第一隔室特异性索引序列以得到存在于索引的细胞核或细胞中的索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;
(d)组合所述索引的细胞核或细胞以产生合并的索引细胞核或细胞;
(e)将所述合并的索引细胞核或细胞分布到第二多个隔室中,
其中每个隔室包含细胞核或细胞的子集;
(f)处理细胞核或细胞的每个子集中的DNA分子以产生双索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加到第二隔室特异性索引序列以得到存在于索引的细胞核或细胞中的双索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;
(g)组合所述双索引细胞核或细胞以产生合并的双索引细胞核或细胞;
(h)将所述合并的双索引细胞核或细胞分布到第三多个隔室中,其中每个隔室包含细胞核或细胞的子集;
(i)处理细胞核或细胞的每个子集中的DNA分子以产生三索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第三隔室特异性索引序列以得到存在于索引的细胞核或细胞中的三索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;和
(j)组合所述三索引细胞核或细胞以产生合并的三索引细胞核或细胞。
实施方案44.一种用于制备包含来自多个单细胞核或细胞的核酸的测序文库的方法,该方法包括:
(a)提供多个细胞核或细胞;
(b)使所述多个细胞核或细胞与逆转录酶和引物接触,从而得到包含所述引物和所述模板RNA核酸的相应DNA核苷酸序列的双链DNA核酸;
(c)将所述细胞核或细胞分布到第一多个隔室中,
其中每个隔室包含细胞核或细胞的子集;
(d)处理细胞核或细胞的每个子集中的DNA分子以产生索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第一隔室特异性索引序列以得到存在于索引的细胞核或细胞中的索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;
(e)组合所述索引的细胞核或细胞以产生合并的索引细胞核或细胞;
(f)将所述合并的索引细胞核或细胞分布到第二多个隔室中,
其中每个隔室包含细胞核或细胞的子集;
(g)处理细胞核或细胞的每个子集中的DNA分子以产生双索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第二隔室特异性索引序列以得到存在于索引的细胞核或细胞中的双索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;
(h)组合所述双索引细胞核或细胞以产生合并的双索引细胞核或细胞;
(i)将所述合并的双索引细胞核或细胞分布到第三多个隔室中,
其中每个隔室包含细胞核或细胞的子集;
(j)处理细胞核或细胞的每个子集中的DNA分子以产生三索引的细胞核或细胞,
其中所述处理包括向存在于细胞核或细胞子集中的DNA核酸添加第三隔室特异性索引序列以得到存在于索引的细胞核或细胞中的三索引的核酸,
其中所述处理包括连接、引物延伸、杂交、扩增或转座;和
(k)组合所述三索引细胞核或细胞以产生合并的三索引细胞核或细胞。
实施方案45.实施方案43或44中任一项的方法,其中所述引物与RNA核酸退火,从而得到包含所述引物和所述模板RNA分子的相应DNA核苷酸序列的双链DNA核酸。
实施方案46.实施方案43-45中任一项的方法,其中所述引物包含与mRNA聚(A)尾退火的聚T核苷酸序列。
实施方案47.实施方案43-46中任一项的方法,其中所述接触进一步包括使子集与第二引物接触,其中所述第二引物包含与预定的DNA核酸退火的序列。
实施方案48.实施方案43-47中任一项的方法,其中所述第二引物包含隔室特异性索引。
实施方案49.实施方案43-45中任一项的方法,其中所述引物包含与预定的RNA核酸退火的序列。
实施方案50.实施方案43-49中任一项的方法,其中所述预定RNA核酸是mRNA。
实施方案51.实施方案43-50中任一项的方法,其中所述引物包含模板转换引物。
实施方案52.实施方案43-51中任一项的方法,其中添加所述第一、第二或第三隔室特异性索引序列中的一个或多个的所述处理包括添加包含通用序列的核苷酸序列至所述核酸,和然后添加所述第一隔室特异性索引序列到所述DNA核酸的两步过程。
实施方案53.实施方案43-52中任一项的方法,其中所述引物包含所述第一隔室特异性索引序列。
实施方案54.实施方案43-53中任一项的方法,进一步包括在所述接触之前,标记在从所述细胞获得的细胞或细胞核的子集中新合成的RNA。
实施方案55.实施方案43-54中任一项的方法,其中预先存在的RNA核酸和新合成的RNA核酸在同一隔室中用相同的索引标记。
实施方案56.实施方案43-55中任一项的方法,其中所述标记包括在包含核苷酸标记的组合物中孵育所述多个细胞核或细胞,其中所述核苷酸标记掺入所述新合成的RNA中。
实施方案57.实施方案43-56中任一项的方法,其中所述核苷酸标记包括核苷酸类似物、半抗原标记的核苷酸、诱变核苷酸或可以通过化学反应修饰的核苷酸。
实施方案58.实施方案43-57中任一项的方法,其中超过一个核苷酸标记掺入所述新合成的RNA中。
实施方案59.实施方案43-58中任一项的方法,其中一个或多个所述核苷酸标记的比率对于不同的隔室或时间点是不同的。
实施方案60.实施方案43-59中任一项的方法,其还包括在所述标记之前,将所述隔室的细胞核或细胞的子集暴露于预定条件。
实施方案61.实施方案43-60中任一项的方法,其中所述预定条件包括暴露于药剂。
实施方案62.实施方案43-61中任一项的方法,其中所述药剂包括蛋白质、非核糖体蛋白质、聚酮化合物、有机分子、无机分子、RNA或RNAi分子、碳水化合物、糖蛋白、核酸或其组合。
实施方案63.实施方案43-62中任一项的方法,其中所述药剂包括治疗药物。
实施方案64.实施方案43-63中任一项的方法,其中两个或更多个隔室的所述预定条件是不同的。
实施方案65.实施方案43-64中任一项的方法,其中所述暴露和所述标记同时发生,或者所述暴露在所述标记之前发生。
实施方案66.实施方案43-65中任一项的方法,其中多个分布之一包括稀释。
实施方案67.实施方案43-65中任一项的方法,其中多个分布之一包括分选。
实施方案68.实施方案43-67中任一项的方法,其中添加第一、第二或第三隔室特异性索引序列中的一个或多个包括在适合于发夹连接双链体与核酸片段的末端连接的条件下使子集与所述发夹连接双链体接触。
实施方案69.实施方案43-68中任一项的方法,其中所述添加第一、第二或第三隔室特异性索引序列中的一个或多个包括使核酸片段与转座体复合物接触,其中隔室中的所述转座体复合物包含转座酶和通用序列,其中所述接触进一步包括适合于所述核酸片段的片段化和核苷酸序列并入核酸片段中的条件。
实施方案70.实施方案43-69中任一项的方法,其中所述第一或第二隔室特异性索引的所述添加包括连接,并且后续隔室特异性索引序列的所述添加包括转座。
实施方案71.实施方案43-70中任一项的方法,其中所述隔室包括孔或液滴。
实施方案72.实施方案43-71中任一项的方法,其中所述第一多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案73.实施方案43-72中任一项的方法,其中所述第二多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案74.实施方案43-73中任一项的方法,其中所述第三多个隔室中的隔室包含50至100,000,000个细胞核或细胞。
实施方案75.实施方案43-74中任一项的方法,其进一步包括从所述合并的三索引细胞核或细胞获得所述三索引的核酸,从而从所述多个细胞核或细胞产生测序文库。
实施方案76.实施方案43-76中任一项的方法,还包括:
提供包含多个扩增位点的表面,
其中所述扩增位点包含至少两个具有游离3'端的附着的单链捕获寡核苷酸的群体,和
使包含扩增位点的表面与所述三索引的核酸片段接触,其条件适合于产生多个扩增位点,每个扩增位点包含来自包含多个索引的单个片段的扩增子的克隆群体。
实施方案77.一种制备包含来自多个单细胞的核酸的测序文库的方法,该方法包括:
(a)提供来自多个细胞的细胞核;
(b)将细胞核的子集分布到第一多个隔室中和使每个子集与逆转录酶和引物接触,其中每个隔室中的所述引物包含与其他隔室中的第一索引序列不同的第一索引序列以产生包含索引的核酸片段的索引细胞核;
(c)组合所述索引细胞核以生成合并的索引细胞核;
(d)将所述合并的索引细胞核的子集分布到第二多个隔室中并使每个子集在适合于发夹连接双链体与包含第一索引序列的索引核酸片段的末端连接的条件下与所述发夹连接双链体接触以产生包含双索引的核酸片段的双索引细胞核,其中所述发夹连接双链体包含不同于其他隔室中的第二索引序列的第二索引序列;
(e)组合双索引细胞核以产生合并的双索引细胞核;
(f)将所述合并的双索引细胞核的子集分布到第三多个隔室中,并使所述双索引的核酸片段经受第二链合成的条件;
(g)使双索引的核酸片段与转座体复合物接触,其中每个隔室中的转座体复合物包含转座酶和通用序列,其中所述接触包括适合于所述双索引的核酸片段的片段化和所述通用序列并入所述双索引核酸片段中以产生在一端包含所述第一和所述第二索引和在另一端包含所述通用序列的双索引核酸片段的条件;
(h)将第三索引序列并入每个隔室中的所述双索引核酸片段中以产生三索引的片段;
(i)组合所述三索引的片段,从而产生包含来自所述多个单细胞的转录组核酸的测序文库。
实施方案78.实施方案77的方法,其中所述引物包含与mRNA聚(A)尾退火的聚T序列。
实施方案79.实施方案77-78的方法,其中每个隔室的所述引物包含与预定的mRNA退火的序列。
实施方案80.实施方案77-79中任一项的方法,其中所述方法包括在不同隔室中与相同的预定mRNA的不同核苷酸退火的引物。
实施方案81.一种制备包含来自多个单细胞的核酸的转录组测序文库的方法,该方法包括:
(a)提供来自多个细胞的合并的细胞核;
(b)使所述合并的细胞核与逆转录酶和包含寡聚-dT序列的引物接触以产生包含核酸片段的合并的细胞核,所述寡聚-dT序列与mRNA聚(A)尾退火;
(c)将所述合并的细胞核的子集分布到多个隔室中并使每个子集在适合于发夹连接双链体与核酸片段末端连接的条件下与所述发夹连接双链体接触以产生包含索引的核酸片段的索引细胞核,其中所述发夹连接双链体包含不同于其他隔室中的索引序列的索引序列;
(d)组合所述索引细胞核以产生合并的索引细胞核;
(e)将所述合并的索引细胞核的子集分布到第二多个隔室中,并使所述索引的核酸片段经受第二链合成的条件;
(f)使所述索引的核酸片段与转座体复合物接触,其中每个隔室中的转座体复合物包含转座酶和通用序列,其中所述接触包括适合于所述索引的核酸片段的片段化和所述通用序列并入索引核酸片段中以产生包含一端的所述索引和另一端的所述通用序列的索引核酸片段的条件;
(g)将第二索引序列并入每个隔室中的所述索引的核酸片段中以产生双索引的片段;
(j)组合所述双索引的片段,从而产生包含来自所述多个单细胞的转录组核酸的测序文库。
实施方案82.一种用于分离细胞核的方法,该方法包括:
(a)在液氮中速冻组织;
(b)减小所述组织的尺寸以得到处理的组织;和
(c)通过在不存在一种或多种外源酶的情况下促进细胞裂解并保持细胞核的完整性的缓冲液中孵育而从所述处理的组织提取细胞核。
实施方案83.实施方案82的方法,其中所述减小包括切碎所述组织、使所述组织经受钝力或其组合。
实施方案84.实施方案82或83所述的方法,还包括:
(d)将所述提取的细胞核暴露于交联剂以得到固定的细胞核;和
(e)洗涤所述固定的细胞核。
实施方案85.一种用于制备测序文库的试剂盒,所述试剂盒包含核苷酸标记和至少一种介导连接、引物延伸或扩增的酶。
实施方案86.一种用于制备测序文库的试剂盒,所述试剂盒包含与预定的核酸退火的引物和至少一种介导连接、引物延伸或扩增的酶。
实施例
通过以下实施例说明本公开。应该理解的是,特定的实施例、材料、量和过程将根据本文所述的本公开的范围和精神来广义地解释。
实施例1
在单细胞分辨率下哺乳动物器官发生的动态转录情景
在哺乳动物器官发生过程中,三个胚层的细胞转化为包含大部分主要内部和外部器官的胚胎。可以在这个关键时期研究发育缺陷的关键调节因素,但是当前的技术缺乏获得分子状态和迅速多样化和扩展的细胞类型数量的轨迹的全局观念的通量和分辨率。在这里,我们着手研究器官形成过程中小鼠发育在单细胞分辨率下的转录动力学。借助改进的基于单细胞组合索引的方案('sci-RNA-seq3'),我们对来自妊娠9.5至13.5天阶段(E9.5至E13.5;每个时间点10至15个重复)的61个小鼠胚胎的200万个细胞进行了分型。我们鉴定出数百种扩张、收缩和瞬变的细胞类型(其中许多仅由于此处获得的细胞覆盖深度而检测到),并定义了相应的细胞类型特异性标志物基因的组,其中的几个我们通过整体原位杂交进行了验证。我们探索了在细胞类型内增殖和基因表达随时间的动力学,包括对顶端外胚层嵴、肢体间质和骨骼肌的重点分析。使用新算法,我们确定了小鼠器官发生的主要单细胞发育轨迹,并在其中发现了通往同一终点的不同路径(即分支和会聚)的实例。这些数据包含哺乳动物发育生物学的基础资源,并且以有助于研究团体对其进行持续注释的方式提供。
引言
哺乳动物器官发生是令人惊讶的过程。在很短的时间窗口内,三个胚层的细胞转变成包括大部分主要的内部和外部器官的合适胚胎。尽管很早就可以在体外培养和研究人类胚胎1,但是获得与人类胚胎发育后期相对应的材料的途径却有限。因此,大多数哺乳动物器官发生的研究依赖于模型生物,尤其是小鼠。
与人相比,小鼠发育迅速,在受精和幼崽出生之间仅21天。小鼠胚泡(32-64个细胞)的植入发生在胚胎第4天(E4.0)。接下来是原肠胚形成和原胚层的形成(E6.5-E7.5;660-15K个细胞)2,3。在这段时间内,原条形成,并且发生胚胎的不同谱系按照从前到后的顺序定位4。在早期体节阶段(E8.0-E8.5),胚胎从原肠胚形成转变为与神经板和心管形成(60K-90K个细胞)有关的早期器官发生。经典的器官发生始于E9.5。在随后的四天(E9.5-E13.5)中,小鼠胚胎从数十万个细胞扩展到超过一千万个细胞,并同时发育感觉器官、胃肠道和呼吸器官、其脊髓、骨骼系统和造血系统。毫不奇怪,已经深入研究了小鼠发育的这一关键时期。事实上,大多数发育缺陷的关键调节子可以在此窗口内研究5,6。
用于小鼠器官发生研究的常规范例涉及在发育的有限阶段集中于单个器官系统,并将基因敲除研究与通过解剖形态学、原位杂交、免疫组织化学的表型分型7,8或更新地转录组或表观基因组分型9相结合。尽管这些重点研究已经对哺乳动物的发育产生了基本的见解,但是其基础技术仍缺乏获得器官发生过程中多样和快速扩展的细胞群体和亚群中正在发生的动态分子过程的全局观念的通量和分辨率。
单细胞分子内容的“鸟枪分型”代表了解决这些缺点并进一步增进我们对哺乳动物发育的理解的有希望的途径。例如,单细胞RNA-seq方法的应用最近揭示了小鼠发育过程中神经元和心肌细胞的巨大异质性10,11。尽管最近发布了小鼠的两个单细胞转录图谱,并代表了该领域的重要资源12,13,但它们大多限于成体器官,并且未试图表征发育过程中哺乳动物细胞类型的出现和时间动力学。
单细胞组合索引(‘sci-’)是一种采用分割-合并条码化来独特地标记大量单细胞或细胞核的核酸内容物的方法框架14-21。我们最近针对转录组开发了‘sci-’方案(“sci-RNA-seq”),并将其应用于产生L2期线虫秀丽隐杆线虫的50倍“鸟枪细胞覆盖”19。尽管“sci-”方法的通量随着索引轮数而呈指数增加,但由于其他因素(例如细胞丢失率和某些步骤的有限反应效率),这种潜力尚未完全实现19,21。为了解决这个问题,我们开发并深度优化了3级sci-RNA-seq(sci-RNA-seq3),从而形成了每个实验可分析超过一百万个细胞的工作流程。与以前一样19,可以在第一轮索引期间对多个样品(例如重复样品、时间点等)进行条码化,并同时进行处理。
这里我们使用sci-RNA-seq3着手研究在单细胞分辨率下器官发生期间小鼠发育的转录动力学。在一项实验中,我们对E9.5和E13.5之间(每个时间点10到15个重复)的61个小鼠胚胎来源的超过200万个单细胞进行分析。从这些数据中,我们确定38种主要细胞类型,以及超过600种颗粒细胞类型(此处称为“亚型”以使其区别于38种主要细胞类型)。总的来说,我们发现了数千种对于细胞类型和亚型的新候选标志物基因,并通过整体原位杂交验证了代表性实例。我们量化了在妊娠期间扩张和瞬变细胞类型中的增殖和基因表达的动力学,包括对顶端外胚层嵴、肢体间质和骨骼肌的重点分析。使用新算法,我们定义了小鼠器官发生的主要单细胞发育轨迹,并在其中发现了通往相同终点的不同路径(即分支和会聚)的实例。所有数据以有助于研究群体对其进行不断注释的方式自由提供。
结果
使用sci-RNA-seq3对5个发育阶段的61个小鼠胚胎的200万个细胞的分型
为了增加sci-RNA-seq的通量,我们探索了1,000多种实验条件。相对于我们对方法的最初说明19,sci-RNA-seq3(图4A,方法)引入的主要改进是:(i)我们开发了新的细胞核提取和固定策略,其中直接从新鲜组织提取细胞核而无需任何酶处理。提取后,细胞核在4%多聚甲醛中固定,且可以在进一步处理之前储存在液氮中。(ii)与我们之前对3级索引的描述19相比,我们从索引Tn5标签化转换为索引发夹连接。(iii)几个单独的反应,例如逆转录,进一步对于效率进行优化。(iv)省略了FACS分选步骤,并增加了超声处理和过滤步骤以最小化细胞核的聚集。sci-RNA-seq3的文库制备步骤可以由一个个体在一周内完成,并且大大超过了替代性sc-RNA-seq方案的“每实验”通量(图4B)。
我们收集了E9.5-E13.5之间的C57BL/6小鼠胚胎,并在液氮中将其速冻,包括每个阶段至少3个独立窝的10至15个胚胎。随后我们从61个单独的完整胚胎分离细胞核,并进行sci-RNA-seq3(图4A)。在第一轮索引期间,将来自每个胚胎的细胞核沉积到不同的孔中,使得单个细胞核的RNA-seq谱可以与它们所源自的胚胎关联(图5A)。作为内部对照,我们还在第一轮索引期间将HEK293T和NIH/3T3细胞的混合物掺入了两个孔中。完成sci-RNA-seq3方案后,在一个NovaSeq运行中对所得文库进行测序,从而产生110亿个阅读片段(图5B)。
从这一实验中,我们回收了2,072,011个单细胞转录组(独特分子标识或UMI计数≥200),包括来自61个小鼠胚胎的2,058,652个细胞和来自HEK293T或NIH/3T3细胞的13,359个细胞。令人安慰的是,HEK293T和NIH/3T3细胞的转录组以420(3%)的冲突压倒性地映射到一个物种或另一个物种的基因组(图4C)。以每细胞23,207个阅读片段的测序深度,我们观察到每个HEK293T细胞3,676个UMI和每个NIH/3T3细胞5,163个UMI的中位数,其中每个细胞的3.9%和2.9%的阅读片段分别映射到错误的物种(图5C-D)。通过将先前收集的数据集19下采样到每个HEK293T或NIH/3T3细胞的等效测序深度,我们将原始的sci-RNA-seq方案与sci-RNA-seq3进行了比较。sci-RNA-seq3方案在通量提高40倍的同时在每细胞检测的UMI数方面表现出相当的效率(图5E)。此外,源自sci-RNA-seq3和sci-RNA-seq的HEK293T单细胞谱的总转录组是高度相关的(Pearson:0.98,图5F)。
将2,058,652个源自胚胎的细胞基于其第一轮条码映射到61个单独的胚胎(中位数35,272个细胞/胚胎;图4D)。从每个胚胎回收的细胞数与分配给它的第一轮孔数目良好相关(Spearman:0.75,图6A)。以相对较浅的测序深度(每个细胞约5,000个阅读片段),我们确定了每细胞519个基因(671个UMI)的中位数(图4E)。这与其他已经区分并注释多样的细胞类型的scRNA-seq研究19,21,22相比相当或更高,尽管少于每细胞原始测序阅读片段的三分之一(图6B-D)。晚期胚胎(E12.5和E13.5)表现出稍少的每细胞UMI计数,表明发育过程中每个细胞核的mRNA含量下降(图6E)。
基于我们对每个时间点每胚胎的细胞数的粗略估计(方法)和将每个时间点的所有10-15个重复汇总在一起,我们估计小鼠胚胎的“鸟枪细胞覆盖率”为在E9.5时为0.8x(每个胚胎200K细胞;此处152K分型),在E10.5时为0.3x(1.1M细胞;378K分型),在E11.5时0.2x(2M细胞;616K分型),在E12.5时0.08x(6M细胞;475K分型)和E13.5时0.03x(13M细胞;437K分型)。因此,尽管我们尚未“过采样”,但我们在每个阶段分析的细胞数量相当于单个小鼠胚胎的实质百分比的细胞含量(3-80%)。
作为数据质量的检查,我们聚集了每个个体的单细胞转录组,从而产生了61个小鼠胚胎的“伪体谱(pseudo-bulk profiles)”。通过计数映射到Xist转录物(仅在雌性中表达)或Y染色体转录物的UMI数,小鼠胚胎容易地分为雄性(x=31)和雌性(n=30)组(图4F),具有每个阶段的雄性与雌性重复数量的平衡表现(图6F)。
作为进一步的质量检查,我们将61个胚胎的“假体”转录组进行了t随机邻域嵌入分析(t-SNE),这导致了五个完全匹配其发育阶段的紧密簇集组(图7A)。我们还根据时间点之间差异表达的前1,000个基因,使用Monocle23沿着“假时”轨迹对小鼠胚胎进行排序,且所得到的排序也匹配预期(图4G)。胚胎水平的假时轨迹中有两个明显的缺口,一个在E9.5和E10.5之间,另一个在E11.5和E12.5之间,表明在这些窗口中全局转录组中的急剧变化。我们为每个胚胎分配假时,其可能反映对发育阶段的更精细的评估(图7B)。例如,在发育假时中较早定位与较晚定位的E10.5胚胎在形态上是不同的(图7C)。
我们还检查了发育过程中全局转录组的变化。12,236个基因在不同的发育阶段之间差异表达(数据未显示);我们在图4H中绘制了一些最动态的基因。如预期的,我们观察到成人血红蛋白基因如Hbb-bt和Hbb-bs的表达增加,而胚胎血红蛋白基因如Hbb-bh1和Hbb-x的表达减少。在神经元分化中具有已知作用的基因,包括Cntn424、Neurod225和Neurod626,在后期阶段表现出增加的表达。但是,许多高度动态的基因以前没有被表征过,例如Slc35f4、Prtg和Trim30a。无论如何,我们的假设-及实际上收集单细胞数据的动机-是,“全胚胎”基因表达的动力学主要是由不同细胞类型的相对比例的急剧变化驱动的,而不是任何单一细胞类型内的变化。
小鼠器官发生过程中存在的主要细胞类型和亚型的鉴定和注释
为了鉴定主要细胞类型,我们对2,058,652个单细胞转录组(即,所有时间点一起的所有胚胎)进行了Louvain聚类,其确定了40个不同的组,并进行t-SNE可视化(图8A)。令人鼓舞的是,尽管我们观察到了源自不同时间点的细胞之间的明显差异(图9A),源自相同时间点的重复胚胎的细胞分布相似(图10)。基于对这40个簇中每个簇特异性的基因的组,我们通过与发布的标志物基因进行比较人工管理细胞类型分配(数据未显示)。对于37个簇,我们可以可信地将它们分配给精确地单文献定义的细胞类型,而两个簇都对应于定向红系谱系。一个簇具有异常高的UMI计数,但没有强烈簇特异性的基因,表明它可以是细胞双峰的技术伪影。合并定向红系谱系簇并丢弃该假定的双重簇导致38种主要细胞类型(图8A)。对于许多簇,高度特异性的标志物基因使细胞类型鉴定变得简单(图8B,图9B-C,数据未显示)。例如,簇6(上皮细胞)特异性表达良好表征的标志物基因Epcam和Trp6327,28,而簇29(肝细胞)通过Afp和Alb表达特异性标记12。较小的簇,包括与高度特化的细胞类型相对应的一些簇,也很容易注释。例如,簇36富集在视网膜发育过程中高表达的转录物,例如Tyr和Trpm1,强烈表明它们是黑色素细胞29,30。簇37富集专门在发育晶状体中表达的转录物。对于与胚胎间质和结缔组织对应的簇,细胞类型鉴定更具挑战性,主要是因为在当前文献中可获得的高特异性标志物基因较少。
在26,183个基因中,17,789个基因(68%)在38种主要细胞类型间差异表达(FDR5%)(图9B,数据未显示)。其中,我们鉴定了2,863种细胞类型特异性标志物,据我们所知,其中绝大多数之前未与相应细胞类型相关联(平均每簇75个标志物;图8B,图9C)。作为这些数据如何用于定义新的、发育上和细胞类型特异性的基因表达标志物的示例,考虑音猬因子(Shh),它已被证明在包括肢体、脑的中线结构、丘脑、脊髓和肺的许多器官系统的发育中起着至关重要的作用31。我们检测到簇30中Shh的最高表达(脊索;数据未显示),以及Ntn1、Slit1和Spon1,全部已知在发育期间在脊索和底板的细胞中表达32-34。然而,基因Tox2、Stxbp6、Schip1、Frmd4b(以前没有被描述为脊索的标志物)对簇30也具有高度特异性。
如所预期的,我们观察到器官发生期间细胞类型比例的显著变化。尽管38种主要细胞类型中的大多数指数增殖,其中一些是瞬时的且最终在E13.5时消失(图11A-B)。例如,簇26代表的源于卵黄囊的原始红系谱系通过Hbb-bh1表达表征,而源于胎儿肝脏的定向红系谱系在簇22中通过Hbb-bs表达标记(数据未显示)。在E9.5时,我们主要检测与原始红系谱系对应的细胞(图8A)。在接下来的5天中,定向红系谱系成为胎儿循环中的主要细胞类型,并最终到E13.5时变为专一红细胞谱系(图8A)。相应的基因标志物表现出相似的动力学(图11C)。
此处鉴定的38种主要细胞类型的中位数为47,073个细胞,最大的簇包含144,648个细胞(结缔组织祖细胞;总体数据集的7.0%),且最小的簇仅包含1,000个细胞(单核细胞/粒细胞;总体数据集的0.05%)。由于在这38个簇中的许多簇内很容易看到细胞类型的异质性,因此我们采用了迭代策略,在每种主要细胞类型上重复Louvain聚类以鉴定子簇(图12-13)。在移除由一或两个胚胎占据主导地位的子簇并合并高度相似的子簇(方法)后,鉴定总共655个子簇(此处称为“亚型”以将其与38种主要细胞类型区分开;图12-13)。值得注意的是,在该研究中我们检测细胞类型和亚型的灵敏度是分析的大量细胞的直接功能。例如,在我们的2.5%的数据(50,000个细胞)上重复Louvain聚类只鉴定细胞类型和亚型的子集(图14)。
655个亚型由1,869个细胞的中位数组成,并且范围从51个细胞(脊索细胞的亚型)至65,894个细胞(结缔组织祖细胞的亚型)(图15A)。
几乎所有亚型(99%)由来自多个胚胎的贡献组成,没有单个胚胎占主导(图15B-C)。为了支持这些亚型构成与相关亚型不同的真实转录程序的观点,我们确定了每个亚型中位数55个特异性标志物(图15D;注意,亚型特异性标志物通过在相应主要细胞类型而不是整个数据集中为特异性来定义)。远不止38种主要细胞类型,单个亚型在E9.5和E13.5之间表现出可变的动力学。大多数亚型(64%)的估计细胞数增加,而12%减少和24%显示更复杂的模式(图16A-B)。有趣的是,我们可以仅根据分配到每种亚型的细胞的比例容易地分离各个发育阶段的胚胎(图16C)。
表征肢端外胚层嵴(AER)发育过程中的基因表达轨迹
作为可以通过详细的亚型注释和探索完成的实例,我们集中于上皮(簇6),尤其是顶端外胚层嵴(子簇6.25)。基于亚型特异性的标志物基因,我们注释了上皮的29个亚型(簇6;图17A;图18A,数据未显示)。例如,亚型6.10的上皮细胞通过Oc90标记,这是专门在听囊的上皮中表达的基因35,而亚型6.25中的上皮细胞表现出了对于顶端外胚层嵴(AER)特异性的明确的标志物基因Fgf8、Msx2和Rspo2的表达增加。顶端外胚层嵴(AER)是一种高度特化的参与手指发育的上皮36。对于所有上皮亚型,我们鉴定了以前未知为标志物的基因。例如,AER也通过Fndc3a、Adamts3、Slc16a10、Snap91和Pou6f2的表达来区分。Fgf8(已知的标志物)和Fndc3a(新的标志物)的整体原位杂交(WISH)证实,两个基因均在E10.5的代表AER的肢芽最远端尖端中表达(图17B-E)。
我们接下来检查在AER发育过程中细胞增殖和基因表达的动力学。我们鉴定了总共1,237个AER细胞,仅占我们总体数据集的0.06%,但涉及到几乎每个胚胎(61个中的45个具有5个以上分析的AER细胞)。尽管AER细胞在所有时间点检测,但我们观察到它们在E9.5时处于每个胚胎的细胞比例的峰值,且然后下降(图17F),这与以前的报告37和我们自己的原位验证研究一致(图17C)。为了表征发育过程中AER内基因表达的动力学,我们基于发育阶段之间前500个差异表达的基因对AER细胞进行了假时排序,从而产生了简单的早期-后期轨迹(图17G)。710个蛋白质编码基因沿着发育假时差异表达(FDR 5%)(数据未显示)。例如,与Fgf8和Fndc3a相比,已知在肢芽中表现出AER特异性表达的Fgf938显示出延迟的激活动力学(图17H)。显著激活的基因可能在AER细胞分化中起重要作用。例如,激活的基因包括Rspo2,其已知对于AER的维持以及对于肢体发育中的生长和模式化至关重要39(图17H)。
我们还鉴定了在AER细胞中在E9.5和E13.5之间表达显著降低的基因(169个基因,FDR 1%;图19A)。这些包括Ki67(Mki67)和胰岛素样生长因子2(Igf2),两者均具有促进细胞增殖的作用40,41(图17H)。确实,与在此发育窗口期间AER的增殖停止相一致,对显著降低基因的途径水平分析突出了与细胞周期进展和葡萄糖代谢相关的项,以及与多能性相关的转录因子(Isl1、Pou5f1、Nanog)(图19B-C)。
表征肢体间质发育过程中的细胞命运轨迹
我们接下来试图研究在哺乳动物发育的这个关键时期中细胞类型经历的发育轨迹,包括细胞类型和亚型之间的转变。用于假时轨迹重建的大多数现代算法存在两个主要限制。首先,它们假设细胞驻留在单个连续流形上,即细胞子集之间没有不连续性。但是,由于我们最早的胚胎来自E9.5,我们的数据集不包含对应于至少一些祖先状态的细胞。其次,它们假设基础轨迹是其中分支点对应于命运决策的树。但是,已知一些组织含有转录上不同的谱系造成的转录上不可区分的细胞,即由一个或几个分支事件分开的轨迹的会聚。
为了解决这些限制,我们开发了新的算法(其结合在Monocle软件包42中)用于解析多个不相交的轨迹而同时还允许轨迹内的分支和会聚。Monocle 3通过使用均匀流形近似和投影(UMAP)43将细胞投影到编码转录状态的低维空间上开始。然后,Monocle 3使用Louvain聚类检测彼此相似的细胞的群落,并使用在近似图抽象(AGA)算法44中引入的统计学检验合并相邻的群落。重要的是,这些过程允许维持多个不相交的细胞群落。Monocle 3的最后步骤旨在解析单个细胞在发育过程中可能采取的路径,从而精确定位不仅分支的位置,而且构成每个群落的细胞集内的会聚的位置(即轨迹)。先前我们描述了一种称为“L1-图”的过程用于将“主要图”嵌入单细胞RNA-seq谱的投影中,从而使每个细胞接近图上的一些点45。尽管L1-图能够学习具有封闭环和分支的轨迹,但它仅在具有数百个细胞的数据集上运行。为了使该算法能够处理数千或数百万个细胞,我们实施了两个增强。首先,我们在数据的几百个质心上而不是细胞本身上运行它。其次,我们限制算法的线性编程过程到通过AGA测试定义的不相交轨迹之间的相应边界。
我们首先试图将该新算法应用于单个主要细胞类型,簇25,我们根据Hoxd13、Fgf10和Lmx1b表达将其26,559个细胞注释为肢芽间质(数据未显示)。用Monocle 3可视化该簇的细胞轨迹说明肢体间质细胞在发育时间内急剧扩增,主要在E10.5和E12.5之间长出(图20A)。在此扩展过程中,基因表达根本是静态的,其中4,763个蛋白质编码基因的水平显著变化(FDR 1%;数据未显示)。肢体间质发育的早期阶段以某些预期的基因为特征,例如Tbx1546和Gpc347,后期阶段以Msx148、Epha449和Dach150为特征(图21A),但绝大多数动态表达的基因是新的。在肢体间质发育期间显著上调的转录因子包括在软骨细胞分化(例如Sox951和Yap152)、肌肉分化(例如Tead453)以及伤口愈合和肢体再生(例如Smarcd154)中起作用的那些(图21B)。
有趣的是,前肢和后肢细胞不容易通过无监督聚类(图21C)或轨迹分析(图22A)来分离,但可以通过前肢中Tbx5(2,085个细胞,所有肢体间充质细胞的7.9%)和后肢中Pitx1(1,885个细胞,所有肢体间充质细胞的7.1%)的互斥表达来区分,只有22个细胞同时表达两种标志物(所有肢体间质细胞的0.08%,与如果它们独立时预期的约0.6%;图20B)55。以这种方式,285个基因在分配到前肢和后肢的细胞之间差异表达(图20C,数据未显示)。如预期的,已知的标志物基因如Tbx4和Hoxc簇的基因(Hoxc4-10)56在后肢细胞中上调,但也鉴定出新的标志物。例如,我们观察到Epha3和Hs3st3b1在前肢中富集5倍,而Pcdh17和Igf1在后肢中富集3倍。
虽然发育时间是Monocle 3肢体间质轨迹的主要变化轴(图20A),但显然存在另外的结构。这其中至少一些似乎与肢体发育的两个主要空间轴相对应:近端-远端轴(长出的主要方向)和前-后轴(对应于五指)55。例如,Sox6和Sox9(近端)57,58,Hoxd13和Tfap2b(远端)36,Pax9和Alx4(前)以及Shh和Hand2(后)差异分布在Monocle 3轨迹上(图20D;图22B)。Hoxd13(已知的远端标志物)和Cpa2(新标志物,其在Monocle3轨迹中的分布与已知远端标志物的分布相似)的整体原位杂交证实,这两种基因均在E10.5和E13.5之间在远端肢体间质中表达(图20F-H)。应用用于检测空间自相关性的Moran's测试于肢体间质轨迹揭示了1,191个显著变化的基因(FDR 1%;Moran's I>10)。这些基因聚类成八种表达模式,其中几种与近端-远端和前-后轴的标志物分布匹配(图23,数据未显示)。
图20I显示了我们对AER和肢体间质轨迹的结果的综合总结。虽然肢体发育由相对简单的轨迹定义,但我们的分析表明,小鼠器官发生的这一单细胞图谱可如何用于表征特定系统中基因表达的时空动力学。
小鼠器官发生的主要细胞谱系的描述和表征
我们接下来试图在整个数据集中鉴别主要的发育谱系和细胞轨迹。Monocle 3将采样的100,000个高质量细胞(UMI>400)组织成八个良好分离的谱系(图24A,图25A)。差不多所有38种主要细胞类型几乎完全落入这8个组之一中(图24B)。例外是四个最小的簇中的三个,单核细胞/粒细胞(36个细胞)、晶状体(125个细胞)和巨核细胞(287个细胞),可能是由于它们的数量少。最复杂的两个结构显然是间质轨迹,其包括所有间充质和肌肉细胞类型(图24A和图25A的左侧),以及神经管/脊索轨迹,其包括脊索、神经管、祖细胞和发育的神经元和神经胶质细胞类型(图24A和图25A的右侧)。第一神经嵴轨迹(“神经嵴1”)包括黑素细胞和雪旺氏细胞前体,而第二神经嵴轨迹(“神经嵴2”)由感觉神经元组成。造血轨迹包括巨核细胞、红细胞和淋巴细胞,而其余三个轨迹(肝、内皮、上皮)各自对应于单一主要细胞类型。虽然这些谱系每一个中估计的每胚胎细胞数从E9.5到E13.5指数增长,但它们的比例保持相对稳定,除了肝细胞在此发育窗口期间份额扩大了近十倍(在E9.5时0.3%→在E13.5时2.8%)(图25B-C)。
UMAP将相同类型的细胞投影到限定的区域,但是与t-SNE不同,其还将相关细胞类型彼此靠近放置。例如,早期间充质细胞似乎从限定的区域辐射到肌细胞、肢体间质、软骨细胞/成骨细胞和结缔组织中(图24A,左)。类似地,在后期发育时间点发现的细胞类型(例如谷氨酸能神经元)通过神经祖细胞的“桥”与早期CNS前体(例如放射状神经胶质细胞)分离(图24A,右)。另一方面,不连续性(例如,八个主要谱系之间)可能反映了这些组之间缺乏中间或祖先状态的表示,由此我们的研究局限于E9.5-E13.5。
当我们单独对八个主要谱系中的每一个进行如上所述的轨迹分析时,类似于迭代子聚类,间质和神经管/脊索轨迹再次如上所述进行组织(图26-27,上排),而其他主要谱系(上皮、内皮等)表现出多个不连续的亚谱系,可能揭示亚型的详细轨迹(图26-27,其余行)。例如,如果我们通过其29种亚型对上皮轨迹进行注释(图17A),我们观察到几种不同的子轨迹,每种子轨迹从E9.5来源的细胞(上皮亚型的基础子集)的焦点浓度发源(图24C,图28)。例如,顶端外胚层嵴的上皮细胞(图17G)形成E9.5-E13.5细胞的线性子轨迹,其与其他上皮子轨迹良好分离(图24C,底部中心)。
重建骨骼肌发生过程中的细胞轨迹
为了充分阐明构成图24所表示的轨迹的细胞类型和亚型之间的关系,特别是更复杂的那些,还需要进行大量的进一步工作。作为可能情形的代表性例子,我们试图更详细地检查发育的肌肉组织,其由在器官发生开始之前形成的不同中胚层谱系组成。例如,眼外肌是由脊索前中胚层造成,而面部和颌骨的其他部分由咽中胚层产生。骨骼肌生成由成肌调节因子(MRF)核心组驱动,这些核心调节因子由上游基因的不同组激活59。例如,Pax3激活躯干肌肉中的Myod1,而在头部,Pax3是非必要的,且MRF通过Pitx2和Tbx1激活60-62。Myod1或Myf5随之激活肌生成素,其驱动收缩性骨骼肌所需的许多基因的表达。我们假设,在全胚胎的尺度上看时,成肌轨迹具有多个进入点的特征,这些进入点将细胞供入与肌管共有的核心基因表达程序的激活相对应的共同路径。
为了测试该假设,我们通过首先量化在每个主图节点处分类为肌细胞(簇13)的细胞分数从间质轨迹分离肌细胞及其推定的“祖先”细胞。我们收集了所有“多数肌细胞”节点,和然后使用主图的边缘将这一节点集扩展到更宽的“邻域”细胞中(图29A)。接下来,我们在此细胞子集上再次运行Monocle 3以构建肌生成特异性的轨迹。该轨迹的特征是来自E9.5的细胞的多个焦点浓度,来自后期阶段的细胞分布到向外发散的多个路径上(图29B)。标志着骨骼肌祖细胞的Pax3和Pax7在分布在主图的宽截幅上的细胞中表达(图29C)。两个平行的线性节段从图的该区域发出,在其上细胞表达Myf5或Myod。两个途径进入表达Myog或Myh3(分别肌细胞和肌管的标志物)的细胞占据的共同区域。来自E9.5的细胞(其表达Lhx2、Tbx1和Pitx2,但Pax3的水平非常低)遍历的另外的路径进入恰好Myf5和Myod1节段上游的轨迹,可能对应于咽中胚层。因此,MRF及其上游激活因子在轨迹上的动力学与不同的中胚层谱系使用不同的因子以会聚在肌肉基因的核心程序上的观点一致(图29D)。
讨论
在该研究中,我们试图通过以整个小鼠胚胎的规模对单细胞的转录组进行分型来表征哺乳动物发育,聚焦于与经典器官发生对应的窗口。通过使用sci-RNA-seq3在单个实验中对来自61个单独胚胎的超过2,000,000个细胞分型,我们还为小实验室提供了以空前的通量产生单细胞RNA-seq数据集的技术框架。为了解析发育轨迹中的分支、会聚和不连续性,我们提出了Monocle 3,这是用于扩展到数百万个细胞的轨迹推导的新算法。
在妊娠中期小鼠胚胎中,我们鉴定了38种主要细胞类型和超过600种亚型。这些类型和亚型中的每一个以标志物基因集的表达为特征,其中绝大多数是新的,且我们通过整体原位杂交验证其代表性实例。作为利用深鸟枪细胞覆盖表征稀有细胞类型的示例说明,我们突出显示顶端外胚层嵴(AER)中的标志物和动态表达的基因,顶端外胚层嵴(AER)是在指发育中起关键作用的特化上皮但仅占此处分析的细胞的0.06%。38种主要细胞类型广泛地解析到8个轨迹中,包括间质、神经管/脊索、造血、肝、内皮、上皮和两个神经嵴轨迹。这八个轨迹之间的不连续性很可能是由于我们的数据集(其始于E9.5)中缺少祖先或中间状态的表示。肢体间质的轨迹分析揭示了对应于时间和多个空间轴的发育异质性的相关因素。聚焦于对应于肌细胞及其祖细胞的间质轨迹的子集,我们确定了进入对应于肌管的共同终点的多个子轨迹。表达程序的“会聚”的这个实例与大多数对于发育轨迹推断的算法所假定的分支结构相反。
我们的研究有几个需要考虑的局限。首先,与其他单细胞图谱一样,单个细胞转录组数据是稀少的。但是,先前的研究表明,转录程序可以在单细胞转录组数据集中以惊人的浅测序深度容易地区分63。我们能够每细胞671个UMI的中位数定义655个转录上不同的亚型与这种观点一致,并且每种细胞类型或亚型的聚集转录组使我们能够构建代表性的表达谱。其次,尽管我们对此处进行的大多数细胞类型分配具有合理的信心,仍应将其视为初步的。关键的挑战是,以前从未以单细胞分辨率或整个生物体规模上研究过中期妊娠小鼠发育(E9.5-E13.5)。现有的单细胞转录图谱已对成年小鼠或后期胚胎阶段的单个器官进行了分析12,13。尽管迄今为止我们已经取得了重大进展,但是对这655种细胞亚型的全面注释是正在进行的项目,且是我们预期从社区投入和领域专业知识受益以达成稳定的共识的一个项目。为此,我们创建Wiki以便于我们和社区对其进行注释(可在atlas.gs.washington.edu/mouse-rna/的网站上找到)。每个亚型的独特页面包括构成该亚型的细胞的可下载基质、对该亚型特异性的标志物基因的列表以及在此检查的发育窗口中该亚型的动力学的描述。
该领域的长期目标,也许最后在技术角度内,是以单细胞分辨率产生哺乳动物发育的全面的、时空解析的分子图谱。为此,专注于小鼠具有多个优点,包括其小体形、早期发育时间点的可及性、近交遗传背景和遗传可操作性。通过对与单个小鼠胚胎的实质百分比的细胞内容对应的大量细胞(每个阶段3%-80%的“鸟枪细胞覆盖率”)进行分型,这些数据构成了发育生物学领域的强大资源,且也可能有助于进一步推动用于解析和解释细胞类型或发育轨迹的计算方法的开发。展望未来,我们预计转录组、另外的分子表型64、谱系历史65和空间信息的综合测量进一步形成哺乳动物发展的全局观念。
我们通过注意到野生型小鼠发育的单细胞图谱来结束也代表了在生物体规模上理解多向性发育障碍的第一步,以及对发育中基因和调控序列的细微作用的详细研究。例如,虽然小鼠中约35%的基因敲除是致死性的,许多敲除且特别是保守调控序列的敲除未显示常规表型分型的任何异常66。我们预期生物体规模的sc-RNA-seq增强反向遗传学的能力,例如潜在地使得能够发现以前遗漏的具有分子程序或特定细胞类型的相对比例中细微缺陷的表型67。
方法
胚胎解剖
C57BL/6小鼠获自杰克逊实验室(Bar Harbor,ME),并建立了塞交配。塞交配日被认为是胚胎日(E)0.5。如前所述进行解剖69,且所有胚胎立即在液氮中速冻。所有动物程序均符合机构、州和政府法规(IACUC协议4378-01)。
整体原位杂交
使用从克隆的基因特异性的探针(PCR DIG Probe Synthesis Kit,Roche)转录的洋地黄毒苷标记的反义核糖探针,通过整体原位杂交(WISH)评估E9.5-E11.5小鼠胚胎中的mRNA表达。将整个胚胎在4%PFA/PBS中固定过夜。胚胎在PBST(0.1%吐温)中洗涤,并在25%、50%和75%的甲醇/PBST中逐步脱水,最后在-20℃下100%甲醇中保存。WISH方案如下:第1天)将胚胎以相反的甲醇/PBST步骤中在冰上复水,在PBST中洗涤,在6%H2O2/PBST中漂白1小时,然后在PBST中洗涤。然后将胚胎在10μg/ml蛋白酶K/PBST中处理3分钟,在甘氨酸/PBST中孵育,在PBST中洗涤,最后用4%PFA/PBS、0.2%戊二醛和0.1%Tween 20再固定20分钟。在用PBST的进一步洗涤步骤后,将胚胎在68℃下在L1缓冲液(50%去离子甲酰胺,5x SSC,1%SDS,DEPC中的0.1%Tween 20;pH 4.5)中孵育10分钟。接下来,将胚胎在杂交缓冲液1(含0.1%tRNA和0.05%肝素的L1)中于68℃下孵育2小时。之后,将胚胎于68℃下在杂交缓冲液2(含0.1%tRNA和0.05%肝素和1:500DIG探针的杂交缓冲液1)中进行o.n.孵育。第2天)通过一系列洗涤步骤,在68℃下各3x30分钟去除未结合的探针:L1、L2(50%去离子甲酰胺,2x SSC pH 4.5,DEPC中0.1%Tween 20;pH 4.5)和L3(2x SSC pH 4.5,DEPC中的0.1%Tween 20;pH 4.5)。随后,将胚胎用RNase溶液(0.1M NaCl,0.01M Tris pH 7.5,0.2%Tween 20,100μg/ml RNase A在水中)处理1小时,然后在TBST 1(140mM NaCl,2.7mMKCl,25mM Tris-HCl,1%Tween 20;pH 7.5)中洗涤。接下来,将胚胎在封闭溶液(含2%小牛血清和0.2%BSA的TBST 1)中于室温下封闭2小时,然后在4℃下含有1:5000抗洋地黄毒苷-AP的封闭溶液中o.n.孵育。第3天)通过用TBST 2(含0.1%Tween 20和0.05%左旋咪唑/四咪唑的TBST)的一系列洗涤步骤8×30分钟在室温下除去未结合的抗体,然后在4℃下静置o.n.。第4天)通过在室温下用碱性磷酸盐缓冲液(0.02M NaCl,0.05M MgCl2,0.1%Tween20,0.1M Tris-HCl和H2O中的0.05%左咪唑/四咪唑在)洗涤3x 20分钟开始胚胎染色,然后用BM Purple AP底物(Roche)染色。使用Zeiss Discovery V.12显微镜和Leica DFC420数码相机对染色的胚胎成像。
哺乳动物细胞培养
所有哺乳动物细胞在37℃,5%CO2下培养,并对于HEK293T和NIH/3T3细胞维持在高葡萄糖DMEM(Gibco目录号11965)中,二者均补充有10%FBS和1X Pen/Strep(Gibco目录号15140122;100U/ml青霉素,100μg/ml链霉素)。细胞用0.25%胰蛋白酶-EDTA(Gibco目录号25200-056)胰蛋白酶消化,且每周3次以1:10分割。
小鼠胚胎细胞核提取和固定
将来自不同发育阶段的小鼠胚胎一起处理以降低批效应。将每个小鼠胚胎在1mL冰冷的细胞裂解缓冲液(来自70的10mM Tris-HCl,pH 7.4,10mM NaCl,3mM MgCl2和0.1%IGEPAL CA-630,修改为还包括1%SUPERase In和1%BSA)中通过刀片切碎成小块,且转移到40um细胞过滤器(Falcon)的顶部。组织用注射器柱塞(5ml,BD)的橡胶尖端在4ml细胞裂解缓冲液中均质化。然后将过滤的细胞核转移至新的15ml管(Falcon)中,并通过以500xg离心5分钟沉淀,并用1ml细胞裂解缓冲液洗涤一次。将细胞核在冰上4ml冰冷的4%多聚甲醛(EMS)中固定15分钟。固定后,将细胞核在1ml的细胞核洗涤缓冲液(不含IGEPAL的细胞裂解缓冲液)中洗涤两次,然后重悬于500ul的细胞核洗涤缓冲液中。将样品分成两管,每管250ul,并在液氮中快速冷冻。
作为质量控制,HEK293T和NIH/3T3细胞胰蛋白酶化,以300xg离心5分钟(4℃),并在1X PBS中洗涤一次。合并相等的HEK293T和NIH/3T3细胞数量,并使用1mL冰冷的细胞裂解缓冲液裂解,然后如在小鼠胚胎中进行相同的固定和保存条件。
sci-RNA-seq3文库制备和测序
在冰上用0.2%tritonX-100(在细胞核洗涤缓冲液中)渗透解冻的细胞核3分钟,并短暂地超声处理(Diagenode,在低功率模式下12s)以减少细胞核聚集。然后细胞核用细胞核洗涤缓冲液洗涤一次,并通过1ml Flowmi细胞过滤器(Flowmi)过滤。将过滤的细胞核以500xg离心5分钟,和重悬在细胞核洗涤缓冲液中。
然后将来自每个小鼠胚胎的细胞核分布在四个96孔板中的几个单独的孔中。记录孔id与小鼠胚胎之间的关联以用于下游数据处理。对于每个孔,将80,000个细胞核(16μL)与8μl的25μM锚定寡聚-dT引物(5′-/5Phos/CAGAGCNNNNNNNN[10bp条码]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3′(SEQ ID NO:1),其中“N”为任何碱基;IDT)和2μL10mM dNTP混合物(Thermo)混合,在55℃变性5分钟,并立即置于冰上。14μL第一链反应混合物,包含8μL 5X Superscript IV第一链缓冲液(Invitrogen),2μl 100mM DTT(Invitrogen),2μl SuperScript IV逆转录酶(200U/μl,Invitrogen),2μL RNaseOUT重组核糖核酸酶抑制剂(Invitrogen),然后添加到每个孔中。通过按照梯度温度(4℃ 2分钟,10℃ 2分钟,20℃ 2分钟,30℃ 2分钟,40℃ 2分钟,50℃ 2分钟和55℃ 10分钟)孵育板进行逆转录。
RT反应后,将60μL细胞核稀释缓冲液(10mM Tris-HCl,pH 7.4,10mM NaCl,3mMMgCl2和1%BSA)加入到各孔中。将所有孔的细胞核合并到一起,以500xg离心10分钟。然后将细胞核重悬于细胞核洗涤缓冲液中,并重新分布到另外四个96孔板中,每个孔包括4μLT4连接缓冲液(NEB),2μL T4 DNA连接酶(NEB),4μL Betaine溶液(5M,Sigma-Aldrich),6μL细胞核洗涤缓冲液中的细胞核,8μL条码化的连接衔接子(100uM,5'-GCTCTG[9bp或10bp条码A]/ideoxyU/ACGACGCTCTTCCGATCT[条码A的反向互补序列]-3')(SEQ ID NO:2)和16μL40%PEG 8000(Sigma-Aldrich)。连接反应在16℃下进行3小时。
RT反应后,将60μL细胞核稀释缓冲液(10mM Tris-HCl,pH 7.4,10mM NaCl,3mMMgCl2和1%BSA)加入各孔中。将所有孔的细胞核合并到一起,以600xg离心10分钟。用细胞核洗涤缓冲液洗涤细胞核一次,并用1ml Flowmi细胞过滤器(Flowmi)过滤两次,计数并重新分布到八个96孔板中,每个孔包括在5μL细胞核洗涤缓冲液和5μL洗脱缓冲液(Qiagen)中的2500个细胞核。然后将1.33μl mRNA第二链合成缓冲液(NEB)和0.66μl mRNA第二链合成酶(NEB)加入每个孔中,并在16℃下进行第二链合成180分钟。
对于标签化,将每个孔与11μL Nextera TD缓冲液(Illumina)和1μL仅i7 TDE1酶(62.5nM,Illumina)混合,然后在55℃下孵育5分钟以进行标签化。然后通过每孔添加24μLDNA结合缓冲液(Zymo)终止反应,并在室温下孵育5分钟。然后,每个孔使用1.5x AMPure XP珠子(Beckman Coulter)纯化。在洗脱步骤中,向每个孔中添加8μL不含核酸酶的水,1μL10X USER缓冲液(NEB),1μL USER酶(NEB),并在37℃下孵育15分钟。将另外6.5μL洗脱缓冲液添加到每个孔中。通过磁力架除去AMPure XP珠,并将洗脱产物转移至新的96孔板中。
对于PCR扩增,每个孔(16μL产物)与2μL的10μM索引P5引物(5′-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTC CCTACACGACGCTCTTCCGATCT-3′;IDT)(SEQ ID NO:3)、2μL的10μM P7引物(5′-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3′,IDT)(SEQ ID NO:4)和20μL NEBNext高保真2X PCR主混合物(NEB)混合。使用以下程序进行扩增:72℃ 5分钟,98℃ 30秒,12-14个循环(98℃ 10秒,66℃ 30秒,72℃ 1分钟)和最终温度72℃,5分钟。
PCR后,合并样品并使用0.8体积的AMPure XP珠纯化。文库浓度通过Qubit(Invitrogen)测定,且文库通过在6%TBE-PAGE凝胶上的电泳可视化。所有文库在一个NovaSeq平台(Illumina)上测序(阅读片段1:34个循环,阅读片段2:52个循环,索引1:10个循环,索引2:10个循环)。
测序阅读片段处理
碱基检出使用Illumina的bcl2fastq转换为fastq格式,并使用默认设置的最大似然率解复用(demultiplexing)程序包deML71基于PCR i5和i7条码解复用。下游序列处理和单细胞数字表达矩阵生成与sci-RNA-seq19相似,除了RT索引与发夹衔接子索引组合,且因此通过使用RT索引和连接索引(ED<2,包括插入和删除)解复用阅读片段,将映射的阅读片段分割为组成细胞索引。简言之,基于RT索引和连接索引(ED<2,包括插入和删除)过滤解复用的阅读片段,并且衔接子使用具有默认设置的trim_galore/0.4.1裁剪。使用具有默认设置的STAR/v 2.5.2b72和基因注释(对于人的GENCODE V19;对于小鼠的GENCODE VM11),裁剪的阅读片段对于小鼠胚胎细胞核映射到小鼠参考基因组(mm10),或对于HEK293T和NIH/3T3混合细胞核映射到人hg19和小鼠mm10的嵌合参考基因组。提取唯一映射的阅读片段,并且使用独特分子标识(UMI)序列、逆转录(RT)索引、发夹连接衔接子索引和阅读片段2末端坐标去除重复(即具有相同UMI、RT索引、连接衔接子索引和标签化位点的阅读片段被视为重复)。最后,通过使用RT索引和连接发夹(ED<2,包括插入和缺失)进一步解复用阅读片段,将映射的阅读片段分割为组成细胞索引。对于混合物种实验,计算了每个物种的基因组的唯一映射阅读片段的百分比。UMI超过85%的细胞分配给一个物种被视为物种特异性细胞,其余细胞则被归类为混合细胞或“冲突”。为了生成数字表达矩阵,我们使用python HTseq软件包73计算映射到每个基因的外显子和内含子区域的每个细胞的链特异性UMI的数量。对于多重映射的阅读片段,将阅读片段分配给最接近的基因,除了在另一个相交的基因落入最接近基因的末端100bp内的情况下,在该情况中该阅读片段丢弃。对于大多数分析,我们在每基因单细胞表达矩阵中包括预期链内含子和外显子UMI两者。
全小鼠胚胎分析
在产生单细胞基因计数矩阵之后,基于RT条码将每个细胞分配给其原始小鼠胚胎。聚集映射到各个胚胎的阅读片段以生成每个胚胎的“整体RNA-seq”。对于胚胎的性别分离,我们计数了映射到雌性特异性非编码RNA(Xist)或chr Y基因(除了在chr X和chr Y中均存在的基因Erdr1)的阅读片段。胚胎很容易分为雌性群体(映射到Xist的阅读片段多于chr Y基因)和雄性群体(映射到chr Y的阅读片段多于Xist)。
通过Monocle 274进行全小鼠胚胎的假时间排序。简言之,如上所述,构建了聚集基因表达矩阵。利用Monocle 274的differentialGeneTest函数鉴定不同发育条件之间差异表达的基因。具有最低q值的前2,000个基因用于使用Monocle 274构建假时轨迹。每个胚胎根据其沿轨迹树的位置分配假时间值。
细胞聚类、t-SNE可视化和标志物基因鉴定
如上所述,从原始测序数据构建数字基因表达矩阵。具有少于200UMI的细胞被丢弃。使用Monocle274和python软件包scanpy75进行下游分析。简而言之,在聚类和降维之前,除去映射到性染色体的基因计数。预处理步骤类似于Zheng等22通过scanpy75中的“zheng17recipe”函数(n_top_genes=2,000)使用的途径。首先通过PCA(30个分量)和然后使用t-SNE缩减数据的维数,然后对30个主分量进行Louvain聚类(分辨率=1.5)。鉴定了40个簇。然后,我们从每个簇采样了1,000个细胞,并利用Monocle 274的differentGeneTest函数鉴定不同簇间的差异表达基因。每个簇特异性的基因类似于之前76鉴定。根据簇特异性标志物将簇分配到已知细胞类型(表1)。一个簇具有异常高的UMI计数,但没有强簇特异性的基因,表明它可能是细胞双峰的技术伪影且因此被去除。另两个簇似乎与定向红系谱系相对应并合并。每种细胞类型的共有表达图谱如76中构建。为鉴定细胞类型特异性基因标志物,我们选择在不同细胞类型间差异表达(FDR 5%,似然比检验),并且在每个细胞类型中均具有最大表达的基因,与具有第二最大表达的其他细胞类型相比至少增加2倍。
表1
对于子簇鉴定,我们在每种主要细胞类型中选择了高质量细胞(UMI>400),并类似地将PCA、t-SNE和Louvain聚类应用于一般聚类分析。如果该簇的大多数细胞(>50%)来自单个胚胎,则滤除高度偏倚的子簇。如果高度相似的子簇的聚集转录组高度相关(Pearson相关系数>0.95)并且两个簇在t-SNE空间上彼此接近,则将它们合并。如上所述,针对每种主要细胞类型鉴定了子簇间的差异表达基因。
对于每种细胞类型(或亚细胞类型)的细胞数估计,我们首先计算在单个胚胎中每种细胞类型的比例,然后将该比例乘以每个胚胎的估计总细胞数(E9.5:200,000,E10.5:1,100,000;E11.5:2,600,000;E12.5:6,100,000;E13.5:13,000,000)。
为了鉴定性别特异性细胞类型(或亚细胞类型),我们首先在五个发育阶段中对于雄性和雌性计算每种细胞类型(亚细胞类型)中的细胞数。在每个发育阶段,将雄性和雌性之间的细胞类型特异性比率与雄性和雌性之间的总体细胞数比率进行比较。然后,我们应用R中的二项式检验以鉴定在每种细胞类型中雄性和雌性之间存在显著差异的细胞类型或亚细胞类型(x和n是每个发育阶段的每种细胞类型中雌性细胞数和总细胞数,p为每个发育阶段中的雌性细胞比率)。p值通过Benjamini&Hochberg方法用R中的p.adjust函数转换为调整的q值。
AER和肢体间质假时分析
通过Monocle 274进行AER细胞、前肢或后肢的假时间排序。简而言之,利用Monocle274的differentialGeneTest函数鉴定了五个发育阶段间的差异表达基因。q值最低的前500个基因用于使用Monocle274构建假时轨迹,每细胞的UMI计数作为树构建中的协变量。根据其沿轨迹树的位置将每个细胞分配假时值。通过Monocle 274中的plot_genes_in_pseudotimtim函数生成沿假时的平滑的基因标志物表达变化。使用与77中相同的方法将轨迹中的细胞分组。简言之,细胞首先沿假时间轴通过k均值聚类(k=10)在假时中的相似位置处分组。将这些簇细分为包含至少50个且不超过100个细胞的组。然后,我们聚集每个组中细胞的转录组谱。沿假时的基因表达以与77相同的方法计算。简言之,选择通过在不同处理条件间的显著性测试(FDR 5%)的基因,并使用自然样条沿假时拟合基因表达,其中包括均值_基因(mean_number_genes)为协变量。每个基因的基因表达减去最低表达,然后除以最高表达。在假时的前20%内具有最大表达的基因被标记为激活的基因。在假时的最后20%中具有最大表达的基因被标记为阻遏的基因。其他基因标记为瞬时基因。使用EnrichR软件包78鉴定了富集的反应组项(Reactome_2016)和转录因子(ChEA_2016)。
用Monocle 3的轨迹推断
Monocle 3工作流程由3个核心步骤组成以将细胞组织成可能不连续的轨迹,然后进行任选的统计学测试以发现在这些轨迹上表达变化的基因。Monocle 3还包括可视化工具以帮助探索三维的轨迹。
使用均匀流形近似和投影(UMAP)的降维
Monocle 3首先将数据投影到低维空间中,这有助于学习描述细胞如何在转录组状态之间转变的主图。Monocle 3使用最近提出的基于黎曼几何和代数拓扑的算法UMAP完成这一点,以进行降维和数据可视化79。它的可视化质量与在单细胞转录组学中广泛使用的普遍t-SNE(t随机邻域嵌入)方法相当。但是,在t-SNE主要旨在将高度相似的细胞置于低维空间的相同区域中的情况下,UMAP还保留较长范围距离关系。UMAP算法本身也更高效(UMAP的算法复杂性是O(N)vs.t-SNE的O(N log(N)))。简而言之,UMAP首先使用局部流形近似构造高维数据的拓扑表示,然后将其局部模糊简单集表示拼凑在一起。然后,UMAP优化了低维嵌入,从而最小化了低维表示和高维表示之间的交叉熵。
UMAP的计算效率极大地加速了小鼠胚胎数据的分析。我们发现,UMAP在3小时内完成了200万个细胞数据集的分析,而t-SNE用10个核(使用多核bh-t-SNE)花费超过10个小时。一些实施细节导致UMAP的效率。UMAP和t-SNE算法都涉及两个主要步骤:首先,从高维空间(通常是高PCA缩减的空间)构建中间结构,然后发现低维嵌入以表示中间结构。对于第二步,这两种方法使用具有不同损失函数的随机网格下降途径将数据嵌入到低维空间中。尽管t-SNE需要损失函数来进行全局归一化,但UMAP使用了避免这种需求的不同目标函数。此步骤实质上使UMAP能够与数据样本的数量成线性地缩放。在Monocle 3中,我们通过网状(reticulate)软件包(可从网站atcran.r-project.org/web/packages/reticulate/index.html获得)与来自Leland McInnes和John Healy的UMAP python实施(可从网站agithub.com/lmcinnes/umap获得)进行交互。
细胞分配到不连续轨迹中
最近,Wolf及其同事提出了一种将单细胞转录组数据组织成“抽象分区图”(AGA)的概念,该抽象分区图将可能与彼此发育相关的细胞簇联系起来。简而言之,他们的算法构建细胞上的k最近邻图,然后通过Louvain方法鉴别细胞的“群落”,这与先前用于分析CyTOF或单细胞RNA-seq数据的方法80相似。AGA随后构建其中顶点是Louvain群落的图。当相应群落中的细胞比在简单二项式模型81下所预期地更频繁地为kNN图中的邻域时,两个顶点在AGA图用边缘连接。最近还开发了类似的方法,并将其应用于分析斑马鱼和非洲爪蟾细胞图谱数据集82,83。
Monocle 3借鉴了这些想法,首先在UMAP空间中在细胞上构建kNN图,然后将它们分组为Louvain群落,并测试了每对群落中其相应细胞之间的大量关联。在虚假链接的无效假设(FDR<10%)下,具有比预期更多关联的那些群落在AGA图中保持连接,并且未通过此测试的那些关联被切断。所得的AGA图具有一个或多个组件,每个组件作为单独的细胞组(其组织成轨迹)进行到下一步(L1图)。AGA算法基本上在此阶段停止,从而将AGA图表示为每个群落中的一种粗糙轨迹,反映了在其发育时可以采用的不同状态细胞。相反,如下一节所述的,Monocle 3使用AGA图来约束可以形成最终轨迹的主图的空间。也就是说,Monocle 3使用粗糙AGA图来学习精细轨迹。
Monocle 3对上述过程的实施扩展到数百万细胞。简言之,它使用igraph软件包的clustering_louvain函数执行群落检测。接下来,通过一系列稀疏矩阵操作来计算Wolf等人的核心AGA计算。设X为代表细胞的群落成员的(稀疏)矩阵。X的每一列代表Louvain群落,且X的每一行对应于特定的细胞。如果细胞i属于Louvain群落j,则Xij=1,否则为0。我们可以进一步获得用于执行Louvain聚类的kNN图的邻接矩阵A,其中如果细胞i连接到kNN图中的j,则Aij=1。然后,每个簇之间的连接矩阵M计算如下:
M=XTAX
一旦M构建,我们然后可以遵循参考文献81的补充注解3.1以计算每个louvain聚类之间的连接的显著性,并将默认情况下p值大于0.05的任何簇视为未断开连接。
学习主图
Monocle 3学习驻留在与表示细胞发育过程中可能采取的路径的数据相同的低维空间中的主图。Monocle 3使用L1-图算法84的增强实现来学习主图。Mao等描述了L1图途径的两种形式84。在第一种(“算法1”)中,它们针对数据集中的所有单个数据点进行了优化。先前,我们证明,尽管L1-图可以应用于单细胞RNA-seq数据,它倾向于学习非常嘈杂的图,这些图对下采样不是稳定的,并且该途径不能有效地扩展数据集到超过数百个细胞85。在Qiu等人中,我们没有探索“算法2”,其首先使用K-均值聚类算法选择一组“地标”数据点。然后,该算法针对此小得多的数据样本进行优化。Monocle 3使用了这种方法,当将其应用于UMAP空间中的细胞时,它是稳定的,且通过一些关键修改,可以扩展到数百万个细胞。
我们的L1-图的实现具有一些关键特征,其支持分析大型数据集和主图的稳定恢复。首先,我们在(默认,3维的)UMAP空间中学习L1图。我们使用K-medioids聚类来选择标志细胞以加速优化。选择的地标性细胞的数量影响算法的运行时间和解的质量:过多的地标导致不可行的线性编程问题。因此,我们通过将K设置为在细胞中检测到的Louvain群落数的三倍来以数据依赖的方式确定地标的数量,这实际上导致了快速、稳定的解。
对L1-图的第二个主要优化是我们对优化所考虑的所有可能图的“可行”空间W施加约束。Mao等人考虑了地标数据点之间的所有可能边缘。但是,即使少至一千个地标细胞,线性编程问题可能快速地变得不可行的,因为变量数是图形中边缘数的函数。在Monocle 3中,我们仅准许边缘进入在地标点上构建的最小生成树(MST)中的可行性空间中,或者其在MST中具有奇数度的顶点上构建的kNN图(默认k=3)中。最后,我们排除了将链接上一节中所述构建的AGA图的不同连接组件中的细胞的边缘。
鉴定具有轨迹依赖性表达的基因
为了鉴定在发育轨迹上表达变化的基因,我们借用通常用于分析空间数据的统计检验。Moran的I统计量是对多向和多维空间自相关的一种度量。该统计量通过最近邻图对数据点之间的空间关系进行编码,使其特别适合于分析大型单细胞RNA-seq数据集。
Moran’s I检验86定义为
其中,N是通过i和j索引的细胞数;x是目标基因的表达值;xi(xj)是细胞i’(或j)最近邻的基因表达的平均值;wij是由最近邻图定义的权重矩阵,零在对角线上(即wii=0),且wij=1/ki,其中ki是最近邻的数量;并且W是全部wij的总和。
为了鉴定用于创建权重矩阵W的最近邻,我们首先为UMAP空间中的所有细胞构建k(默认值为25)最近邻图(kNN)。我们还将每个细胞投影到主图中的其最近邻节点。然后,我们从kNN图去除所有连接到投影到不共享边缘的主图节点上的细胞的边缘。
在Monocle 3中,我们实施了manifoldTest函数来识别流形相关基因,其依赖于spdep软件包中例程的修改版本来执行Moran's I检验。
参考文献
1.Fogarty,N.M.E.等人Genome editing reveals a role for OCT4in humanembryogenesis.Nature 550,67-73(2017).
2.Kojima,Y.,Tam,O.H.&Tam,P.P.L.Timing of developmental events in theearly mouse embryo.Semin.Cell Dev.Biol.34,65-75(2014).
3.Tam,P.P.L.&Loebel,D.A.F.Gene function in mouse embryogenesis:getset for gastrulation.Nat.Rev.Genet.8,368-381(2007).
4.Rivera-Pérez,J.A.&Hadjantonakis,A.-K.The Dynamics of Morphogenesisin the Early Mouse Embryo.Cold Spring Harb.Perspect.Biol.7,a015867(2014).
5.Dickinson,M.E.等人High-throughput discovery of novel developmentalphenotypes.Nature 537,508-514(2016).
6.Meehan,T.F.等人Disease model discovery from 3,328gene knockouts byThe International Mouse Phenotyping Consortium.Nat.Genet.49,1231-1238(2017).
7.Shyer,A.E.,Huycke,T.R.,Lee,C.,Mahadevan,L.&Tabin,C.J.Bendinggradients:how the intestinal stem cell gets its home.Cell 161,569-580(2015).
8.Uygur,A.等人Scaling Pattern to Variations in Size duringDevelopment of the Vertebrate Neural Tube.Dev.Cell 37,127-135(2016).
9.Gorkin,D.等人Systematic mapping of chromatin state landscapesduring mouse development.(2017).doi:10.1101/166652
10.Mayer,C.等人Developmental diversification of cortical inhibitoryinterneurons.Nature 555,457-462(2018).
11.Lescroart,F.等人Defining the earliest step of cardiovascularlineage segregation by single-cell RNA-seq.Science(2018).doi:10.1126/science.aao4174
12.Han,X.等人Mapping the Mouse Cell Atlas by Microwell-Seq.Cell 172,1091-1107.e17(2018).
13.The Tabula Muris Consortium,Quake,S.R.,Wyss-Coray,T.&Darmanis,S.Transcriptomic characterization of 20organs and tissues from mouse atsingle cell resolution creates a Tabula Muris.(2017).doi:10.1101/237446
14.Amini,S.等人Haplotype-resolved whole-genome sequencing bycontiguity-preserving transposition and combinatorial indexing.Nat.Genet.46,1343-1349(2014).
15.Adey,A.等人In vitro,long-range sequence information for de novogenome assembly via transposase contiguity.Genome Res.24,2041-2049(2014).
16.Cusanovich,D.A.等人Multiplex single cell profiling of chromatinaccessibility by combinatorial cellular indexing.Science 348,910-914(2015).
17.Vitak,S.A.等人Sequencing thousands of single-cell genomes withcombinatorial indexing.Nat.Methods 14,302-308(2017).
18.Ramani,V.等人Massively multiplex single-cell Hi-C.Nat.Methods 14,263-266(2017).
19.Cao,J.等人Comprehensive single-cell transcriptional profiling of amulticellular organism.Science 357,661-667(2017).
20.Mulqueen,R.M.等人Scalable and efficient single-cell DNAmethylation sequencing by combinatorial indexing.(2017).doi:10.1101/157230
21.Rosenberg,A.B.等人Single-cell profiling of the developing mousebrain and spinal cord with split-pool barcoding.Science(2018).doi:10.1126/science.aam8999
22.Zheng,G.X.Y.等人Massively parallel digital transcriptionalprofiling of single cells.Nat.Commun.8,14049(2017).
23.Qiu,X.等人Reversed graph embedding resolves complex single-celldevelopmental trajectories.(2017).doi:10.1101/110668
24.Fernandez,T.等人Disruption of contactin 4(CNTN4)results indevelopmental delay and other features of 3p deletionsyndrome.Am.J.Hum.Genet.74,1286-1293(2004).
25.Olson,J.M.等人NeuroD2 is necessary for development and survival ofcentral nervous system neurons.Dev.Biol.234,174-187(2001).
26.Uittenbogaard,M.,Baxter,K.K.&Chiaramello,A.NeuroD6GenomicSignature Bridging Neuronal Differentiation to Survival via the MolecularChaperone Network.J.Neurosci.Res.88,33(2010).
27.Yang,A.等人p63 is essential for regenerative proliferation inlimb,craniofacial and epithelial development.Nature 398,714-718(1999).
28.McQualter,J.L.,Yuen,K.,Williams,B.&Bertoncello,I.Evidence of anepithelial stem/progenitor cell hierarchy in the adult mouse lung.Proc.Natl.Acad.Sci.U.S.A.107,1414-1419(2010).
29.Cichorek,M.,Wachulska,M.,Stasiewicz,A.&Tymińska,A.Skinmelanocytes:biology and development.Advances in Dermatology and Allergology1,30-41(2013).
30.Tomihari,M.,Hwang,S.-H.,Chung,J.-S.,Cruz,P.D.,Jr.&Ariizumi,K.Gpnmbis a melanosome-associated glycoprotein that contributes to melanocyte/keratinocyte adhesion in a RGD-dependent fashion.Exp.Dermatol.18,586-595(2009).
31.Varjosalo,M.&Taipale,J.Hedgehog:functions and mechanisms.GenesDev.22,2454-2472(2008).
32.
U.,Lam,C.S.,Ertzer,R.&Rastegar,S.Vertebrate floor-platespecification:variations on common themes.Trends Genet.20,155-162(2004).
33.Holmes,G.P.等人Distinct but overlapping expression patterns of twovertebrate slit homologs implies functional roles in CNS development andorganogenesis.Mech.Dev.79,57-72(1998).
34.Akle,V.等人F-spondin/spon1b expression patterns in developing andadult zebrafish.PLoS One 7,e37593(2012).
35.Hartman,B.H.,Durruthy-Durruthy,R.,Laske,R.D.,Losorelli,S.&Heller,S.Identification and characterization of mouse otic sensory lineagegenes.Front.Cell.Neurosci.9,79(2015).
36.Petit,F.,Sears,K.E.&Ahituv,N.Limb development:a paradigm of generegulation.Nat.Rev.Genet.18,245-258(2017).
37.Guo,Q.,Loomis,C.&Joyner,A.L.Fate map of mouse ventral limbectoderm and the apical ectodermal ridge.Dev.Biol.264,166-178(2003).
38.Lewandoski M,E.al.Fgf8 signalling from the AER is essential fornormal limb development.-PubMed-NCBI.Available at:https://www.ncbi.nlm.nih.gov/pubmed/11101846.(Accessed:22nd April2018)
39.Aoki M,E.al.R-spondin2 expression in the apical ectodermal ridgeis essential for outgrowth and patterning in mouse limb development.-PubMed-NCBI.Available at:https://www.ncbi.nlm.nih.gov/pubmed/18067586.(Accessed:22ndApril2018)
40.Gerdes,J.,Schwab,U.,Lemke,H.&Stein,H.Production of a mousemonoclonal antibody reactive with a human nuclear antigen associated withcell proliferation.Int.J.Cancer 31,13-20(1983).
41.Bergman,D.,Halje,M.,Nordin,M.&
W.Insulin-like growthfactor 2in development and disease:a mini-review.Gerontology 59,240-249(2013).
42.Trapnell,C.等人The dynamics and regulators of cell fate decisionsare revealed by pseudotemporal ordering of single cells.Nat.Biotechnol.32,381-386(2014).
43.McInnes,L.&Healy,J.UMAP:Uniform Manifold Approximation andProjection for Dimension Reduction.(2018).
44.Alexander Wolf,F.等人Graph abstraction reconciles clustering withtrajectory inference through a topology preserving map of singlecells.bioRxiv 208819(2017).doi:10.1101/208819
45.Qiu,X.等人Reversed graph embedding resolves complex single-celltrajectories.Nat.Methods 14,979-982(2017).
46.Singh,M.K.等人The T-box transcription factor Tbx15 is required forskeletal development.Mech.Dev.122,131-144(2005).
47.Paine-Saunders,S.,Viviano,B.L.,Zupicich,J.,Skarnes,W.C.&Saunders,S.glypican-3controls cellular responses to Bmp4 in limb patterning andskeletal development.Dev.Biol.225,179-187(2000).
48.Hara,K.&Ide,H.Msx1 expressing mesoderm is important for the apicalectodermal ridge(AER)-signal transfer in chick limb development.Dev.GrowthDiffer.39,705-714(1997).
49.
D.G.等人Disruptions of Topological Chromatin DomainsCause Pathogenic Rewiring of Gene-Enhancer Interactions.Cell161,1012-1025(2015).
50.Davis,R.J.等人Dach1 mutant mice bear no gross abnormalities ineye,limb,and brain development and exhibit postnatallethality.Mol.Cell.Biol.21,1484-1490(2001).
51.Akiyama,H.,Chaboissier,M.-C.,Martin,J.F.,Schedl,A.&de Crombrugghe,B.The transcription factor Sox9 has essential roles in successive steps ofthe chondrocyte differentiation pathway and is required for expression ofSox5 and Sox6.Genes Dev.16,2813-2828(2002).
52.Deng,Y.等人Yap1 Regulates Multiple Steps of ChondrocyteDifferentiation during Skeletal Development and Bone Repair.Cell Rep.14,2224-2237(2016).
53.Joshi,S.等人TEAD transcription factors are required for normalprimary myoblast differentiation in vitro and muscle regeneration invivo.PLoS Genet.13,e1006600(2017).
54.Knapp,D.等人Comparative transcriptional profiling of the axolotllimb identifies a tripartite regeneration-specific gene program.PLoS One 8,e61352(2013).
55.Zeller,R.,López-Ríos,J.&Zuniga,A.Vertebrate limb bud development:moving towards integrative analysis of organogenesis.Nat.Rev.Genet.10,845-858(2009).
56.Nishimoto,S.,Minguillon,C.,Wood,S.&Logan,M.P.O.A combination ofactivation and repression by a colinear Hox code controls forelimb-restrictedexpression of Tbx5 and reveals Hox protein specificity.PLoS Genet.10,e1004245(2014).
57.Vargesson,N.,Luria,V.,Messina,I.,Erskine,L.&Laufer,E.Expressionpatterns of Slit and Robo family members during vertebrate limbdevelopment.Mech.Dev.106,175-180(2001).
58.Chimal-Monroy,J.等人Analysis of the molecular cascade responsiblefor mesodermal limb chondrogenesis:Sox genes and BMP signaling.Dev.Biol.257,292-301(2003).
59.Braun,T.&Gautel,M.Transcriptional mechanisms regulating skeletalmuscle differentiation,growth and homeostasis.Nat.Rev.Mol.Cell Biol.12,349-361(2011).
60.Tajbakhsh,S.,Rocancourt,D.,Cossu,G.&Buckingham,M.Redefining thegenetic hierarchies controlling skeletal myogenesis:Pax-3and Myf-5actupstream of MyoD.Cell 89,127-138(1997).
61.Harel,I.等人Distinct origins and genetic programs of head musclesatellite cells.Dev.Cell 16,822-832(2009).
62.Sambasivan,R.等人Distinct regulatory cascades govern extraocularand pharyngeal arch muscle progenitor cell fates.Dev.Cell16,810-821(2009).
63.Heimberg,G.,Bhatnagar,R.,El-Samad,H.&Thomson,M.Low Dimensionalityin Gene Expression Data Enables the Accurate Extraction of TranscriptionalPrograms from Shallow Sequencing.Cell Syst 2,239-250(2016).
64.Cusanovich,D.A.等人The cis-regulatory dynamics of embryonicdevelopment at single cell resolution.(2017).doi:10.1101/166066
65.McKenna,A.等人Whole-organism lineage tracing by combinatorial andcumulative genome editing.Science 353,aaf7907(2016).
66.Osterwalder,M.等人Enhancer redundancy provides phenotypicrobustness in mammalian development.Nature 554,239-243(2018).
67.Dickel,D.E.等人Ultraconserved Enhancers Are Required for NormalDevelopment.Cell 172,491-499.e15(2018).
68.Li,D.等人Formation of proximal and anterior limb skeleton requiresearly function of Irx3 and Irx5 and is negatively regulated by Shhsignaling.Dev.Cell 29,233-240(2014).
69.Kraft,K.等人Deletions,Inversions,Duplications:Engineering ofStructural Variants using CRISPR/Cas in Mice.Cell Rep.(2015).doi:10.1016/j.celrep.2015.01.016
70.Buenrostro,J.D.,Giresi,P.G.,Zaba,L.C.,Chang,H.Y.&Greenleaf,W.J.Transposition of native chromatin for fast and sensitive epigenomicprofiling of open chromatin,DNA-binding proteins and nucleosomeposition.Nat.Methods 10,1213-1218(2013).
71.Renaud,G.,Stenzel,U.,Maricic,T.,Wiebe,V.&Kelso,J.deML:robustdemultiplexing of Illumina sequences using a likelihood-basedapproach.Bioinformatics 31,770-772(2015).
72.Dobin,A.等人STAR:ultrafast universal RNA-seqaligner.Bioinformatics 29,15-21(2013).
73.Anders,S.,Pyl,P.T.&Huber,W.HTSeq--a Python framework to work withhigh-throughput sequencing data.Bioinformatics btu638(2014).
74.Qiu,X.等人Reversed graph embedding resolves complex single-celldevelopmental trajectories.(2017).doi:10.1101/110668
75.Wolf,F.A.,Angerer,P.&Theis,F.J.SCANPY:large-scale single-cell geneexpression data analysis.Genome Biol.19,15(2018).
76.Cao,J.等人Comprehensive single-cell transcriptional profiling of amulticellular organism.Science 357,661-667(2017).
77.Pliner,H.等人Chromatin accessibility dynamics of myogenesis atsingle cell resolution.(2017).doi:10.1101/155473
78.Kuleshov,M.V.等人Enrichr:a comprehensive gene set enrichmentanalysis web server 2016update.Nucleic Acids Res.44,W90-7(2016).
79.McInnes,L.&Healy,J.UMAP:Uniform Manifold Approximation andProjection for Dimension Reduction.(2018).
80.Levine,J.H.等人Data-Driven Phenotypic Dissection of AML RevealsProgenitor-like Cells that Correlate with Prognosis.Cell162,184-197(2015).
81.Wolf,F.A.等人Graph abstraction reconciles clustering withtrajectory inference through a topology preserving map of single cells.(2017).doi:10.1101/208819
82.Wagner,D.E.等人Single-cell mapping of gene expression landscapesand lineage in the zebrafish embryo.Science eaar4362(2018).
83.Briggs,J.A.等人The dynamics of gene expression in vertebrateembryogenesis at single-cell resolution.Science eaar5780(2018).
84.Mao,Q.,Wang,L.,Tsang,I.&Sun,Y.Principal Graph and StructureLearning Based on Reversed Graph Embedding.IEEE Trans.PatternAnal.Mach.Intell.(2016).doi:10.1109/TPAMI.2016.2635657
85.Qiu,X.等人Reversed graph embedding resolves complex single-celltrajectories.Nat.Methods 14,979-982(2017).
86.Moran,P.A.P.Notes on continuous stochastic phenomena.Biometrika37,17–23(1950).
实施例2
用于组织细胞核提取和固定的新技术(sc-RNA-seq)
试剂.BSA(分子生物学等级,NEB,#B9000S);SuperRnase抑制剂(Thermo,#AM2696);EMS 157-4-100 4%多聚甲醛(甲醛)水溶液,EM级,100mL(Amazon)。
缓冲液.细胞核缓冲液(储存在4℃下):10mM Tris-HCl,pH 7.4,10mM NaCl,3mMMgCl2。10%IGEPAL CA-630(储存在4℃下)。细胞核洗涤缓冲液(每次新制):具有10ul BSA和10ul SuperRnaseIn的980ul细胞核缓冲液,充分混合并储存在冰上。细胞核裂解缓冲液(每次新制):含有0.1%IGEPAL CA-630的细胞核洗涤缓冲液。
直接从组织中提取细胞核
将组织在1mL冰冷的细胞裂解缓冲液(10mM Tris-HCl,pH 7.4,10mM NaCl,3mMMgCl2和0.1%IGEPAL CA-630,1%SUPERase In和1%BSA)中通过刀片切碎成小块并转移到40um细胞滤器(Falcon)的顶部。
将组织用注射器柱塞(5ml,BD)的橡胶尖端在4ml细胞裂解缓冲液中均质化。
然后将过滤的细胞核转移至新的15ml管(Falcon)中,并通过以500xg离心5分钟沉淀和用1ml细胞裂解缓冲液洗涤一次。
细胞核固定
将细胞核在冰上的4ml冰冷的4%多聚甲醛(EMS)中固定15分钟。
固定后,将细胞核在1ml细胞核洗涤缓冲液(不含IGEPAL的细胞裂解缓冲液)中洗涤两次,然后重悬于500ul细胞核洗涤缓冲液中。
将样品分成几个部分并在液氮中快速冷冻。冷冻的样品可以在干冰上运输。
实施例3
通过sci-fate表征单细胞状态转变动力学
发育的美在于以严格组织的时间顺序产生多种细胞状态。尽管单细胞基因组技术的增长,但定量确定细胞状态转变动力学仍然具有挑战性。在这里,我们引入了sci-fate,一种基于组合索引的高通量分析方法,用于在数千个单细胞中的每一个中对全转录组和新合成转录组两者进行分型。作为概念的证明,我们将sci-fate应用于皮质醇反应的模型系统,并表征了超过6,000个单细胞状态转变事件,与糖皮质激素受体激活时的已知细胞周期动力学一致。从该分析,我们证明了细胞状态转变方向和概率受状态间距离和状态不稳定性情景调节。该技术和计算方法很容易应用于其他生物学系统以定量表征细胞状态动力学,并解译用于细胞命运决定的内部机制。
在多细胞生物体发育过程中,细胞在功能和分子上不同的状态之间转变。表征细胞状态转变路径或细胞命运是了解开发和应用如细胞工程的核心。虽然用于单细胞基因组技术的方法已经增长,但它们仅捕获细胞状态的快照,因此无法提供有关细胞转变动力学的信息(1)。尽管基于延时显微术的单细胞示踪可用于表征细胞状态转变(2,3),但它们的通量有限且只能追踪几个基因的变化,因此解译复杂系统的能力较低。
这里我们描述了一种在全转录组水平上推断定量细胞状态转变动力学的新策略。此策略依赖于新的基于组合索引的单细胞RNA-seq技术,即sci-fate。通过用4-硫尿苷(其在逆转录过程中产生C>T点突变)标记新合成的mRNA(4,5),sci-fate在单细胞水平捕获全转录组和新合成转录组,以及从其过去状态的降解转录组信息(过去状态记忆)。然后,每个细胞的过去状态记忆通过mRNA降解速率校正(记忆校正技术),从而每个细胞可以通过两个时间点之间的转录组动力学来表征。
为了表征受内在和外在因素调节的细胞状态转变动力学,我们将sci-fate应用于皮质醇反应的模型系统,其中细胞命运由两个主要的力驱动:内在细胞周期程序和外在药物诱导的糖皮质激素受体(GR)激活。GR激活影响身体内几乎每个细胞的活动,并调节控制发育、代谢和免疫反应的基因(6)。利用sci-fate,我们分析了超过6,000个单细胞的全转录组动力学。基于过去和当前的转录组状态之间的相似性,我们建立了跨越五个时间点的数千个细胞状态转变轨迹,其可以簇集到与GR激活中已知的细胞周期进展模式一致的三种类型的细胞命运中。我们进一步通过功能性TF模块活性来表征细胞隐藏状态,并推断用于细胞状态预测的细胞转变网络。最后,我们证明了细胞状态转变方向和概率受转录组相似性及其附近状态的不稳定性情景影响。本文开发的理论、计算和实验方法应容易地应用于其中细胞转变动力学仍未知的其他生物学系统。
sci-fate的概述
sci-fate依赖于以下步骤(图30A):(i)细胞首先与4-硫尿苷(S4U)(一种广泛使用的胸苷类似物)一起孵育以标记新合成的RNA(7-13)。(ii)收获细胞,通过4%多聚甲醛固定,然后进行巯基(SH)连接的烷基化反应,其通过亲核取代将羧酰胺甲基共价连接到S4U(4)。(iii)细胞大批分布到4×96孔板的每个孔中。通过用带有携带孔特异性条码和简并独特分子标识(UMI)的聚(T)引物的原位逆转录(RT),第一RNA-seq分子索引引入到每个孔中的细胞mRNA。在cDNA合成过程中,用修饰的S4U标记的mRNA模拟胸腺嘧啶-胞嘧啶(T>C)的转化,并产生突变的第一链cDNA。(iv)合并来自所有孔的细胞,然后通过荧光激活细胞分选(FACS)重新分布到多个96孔板中。细胞在DAPI(4',6-二脒基-2-苯基吲哚)染色上进行门控以在分选过程中将单细胞与双峰区分开。双链cDNA通过RNA降解和第二链合成产生,并用Tn5进行转座。然后通过聚合酶链反应(PCR)用识别5'端的Tn5衔接子和3'端的RT引物的引物组合扩增cDNA。这些引物还带有孔特异性的条码,其可引入第二RNA-seq分子索引。(v)合并来自PCR的扩增子并进行大规模平行测序。与其他“sci-”方案(14-21)一样,大多数细胞核通过孔的独特组合,且因此每个细胞的内容物通过条码的独特组合标记,其可用于对源自相同细胞的阅读片段进行分组。全转录组中的新合成的mRNA通过背景误差校正的“T>C”转换鉴别(方法)。
作为质量控制,我们首先在以下四个条件下在HEK293T(人类)和NIH/3T3(小鼠)细胞的混合物中测试该技术:具有或不具有S4U标记(200nM,6小时),以及具有或不具有IAA处理(图31A-D)。利用S4U标记和IAA处理(sci-fate条件),来自人/小鼠细胞的转录组具有极度物种一致性(对于人和小鼠细胞纯度>99%,2.6%冲突),检测到高比率的T>C突变的阅读片段(在sci-fate条件中人细胞的46%和小鼠细胞的31%vs.无处理条件下人细胞的0.8%和小鼠细胞的0.8%)。尽管在IAA处理组中检测到稍低的UMI,我们在四个条件下获得了大致相同的细胞纯度。sci-fate相对于正常Sci-RNA-seq的聚集转录组高度相关(Spearman相关系数r=0.99;图31E-F),表明短期标记和转化过程对细胞状态的影响极小。
地塞米松处理的A549细胞中总的和新合成的转录组的联合分型我们然后将sci-fate应用于皮质醇反应的模型,其中地塞米松(DEX)(一种皮质醇的合成模拟物)激活糖皮质激素受体(GR),其与基因组上的数千个位置结合,并显著改变短期内的细胞状态(22-25)。我们用100nM DEX处理肺腺癌来源的A549细胞0、2、4、6、8或10小时。在每种条件下,细胞与S4U(200nM)一起孵育最后两个小时,然后收获用于384x 192孔sci-fate(图30B)。在第一轮索引过程中,这六个条件各自在64孔中表示,使得处理条件可以根据每个细胞的第一索引恢复。
在滤除低质量细胞、潜在的双峰和小的分化细胞的亚组(方法)后,我们获得了6,680个细胞的单细胞分布(每细胞26,176个检测的mRNA的中位数),具有每细胞20%标记的UMI的中位数(图30C,图32A-B)。内含子阅读片段显示出比外显子阅读片段高得多的新合成率(内含子阅读片段的65%vs.外显子阅读片段的13%,p值<2.2e-16,Wilcoxon符号秩检验;图30D),与新合成转录组中富含内含子阅读片段的预期一致。
我们首先询问全转录组和新合成转录组是否在细胞状态表征中传达不同的信息。我们对于每种处理条件聚集全转录组和新合成转录组,并检查了它们的相关性。与全转录组不同,新合成转录组在无DEX处理(0h)和处理组之间显示出明显的差异(图32C)。与此相一致,在全转录组或新合成转录组上使用均匀流形近似和投影(UMAP)(26)的降维给出不同的结果(图30E):全转录组不能分离无DEX处理(0h)和早期DEX处理(2h)细胞,而新合成转录组将所有DEX处理的细胞聚集到单一组中。通过全或新合成的转录组鉴定的细胞簇彼此不完全匹配(图30F,图32D-E)。这是预期的,因为新合成转录组直接反映基因启动子的活性或对外部环境的表观遗传反应,而全转录组主要由来自其过去状态的剩余mRNA决定。
为了用联合信息表征细胞状态,我们将来自全转录组和新合成转录组的在先主成分(PC)组合用于UMAP分析。联合信息将细胞分为无DEX处理(0h)、早期处理(2h)和晚期处理(>2h)(图30E)。有趣的是,两个通过全转录组表征的簇(簇1和簇4)通过联合信息分为四个单独的组(图30F)。我们检查了细胞周期相关基因标志物的表达水平和新合成速率(27)(图30G,图32F-G):通过联合信息新分离的簇对应于G2/M期细胞(G2/M标志物的高表达和高合成速率)和早期G0/G1期细胞(G2/M标志物的高表达和低合成速率)。这表明新合成转录组与全转录组相比传达了不同的细胞状态信息,且联合信息潜在地实现细胞状态表征的更高分辨率。
表征驱动细胞命运决定的功能性TF模块
接下来,我们试图表征驱动细胞状态转变的TF模块。转录因子(TF)及其调控的基因之间的关联通过两个步骤鉴定:对于每个基因,我们使用LASSO(最小绝对收缩与选择算子)计算最后两小时内的mRNA合成速率与超过6,000个细胞上的TF表达水平之间的相关性。这些鉴定的关联通过发布的CHIP-seq数据(28)或基序富集分析(29)(方法)进一步过滤。基于TF基因协方差和通过DNA结合数据验证,我们总共鉴定了29个TF和532个基因之间的986个关联(图33A,表S1)。为了评估关联是正则化回归的伪影的可能性,我们对TF表达矩阵的样品ID进行排列并进行相同的分析。没有关联在这一排列后鉴定。
鉴定了驱动GR反应的TF模块,包括已知的GR反应效应子,如CEBPB(30)(图34A-B)、FOXO1(31)和JUNB(32)(图33A)。我们还发现几种新的GR反应相关TF模块,包括YOD1和GTF2IRD1,两者在DEX处理细胞中具有上调的表达和活性(图34C-D)。鉴定了驱动细胞周期进展的主要TF模块,且这些包括E2F1、E2F2、E2F7、BRCA1和MYBL2(33)。与总表达水平相比,通过细胞周期TF模块的调控基因的新RNA合成速率显示与目标TF表达更高的相关性(图34E)。此外,我们还发现了与细胞分化相关的TF模块如GATA3(其主要在一组静止细胞群体中表达)(34),以及与氧化应激反应相关的TF模块如NRF1(35)和NFE2L2(NRF2)(36)。
我们接下来通过聚集每个TF模块内基因的新RNA合成速率来表征TF活性,并计算每个TF对之间的绝对相关系数(图34F)。高度相关的TF活性表明它们可能在关联的过程中发挥作用。分层聚类将这29个TF模块分离到五个主要模块中(图34F):第一模块全部是细胞周期相关的TF模块,例如E2F1和FOXM1(33),且代表了细胞周期进展的驱动力。第三模块全部是GR反应相关TF模块,例如FOXO1、CEBPB、JUNB和RARB(30)(31)(32)。其他TF模块组包括受细胞周期和GR反应共同调控的三个TF(KLF6、TEAD1和YOD1)(模块2)、内部分化途径(包括GATA3和AR)(模块3)以及应激反应相关的TF,例如NRF1和NFE2L2(模块5)。
为了识别不同的细胞周期状态,我们首先通过细胞周期关联的TF模块活性对细胞进行排序。细胞排列序到平滑的细胞周期轨迹中,通过已知的细胞周期标志物的合成速率验证(27)(图33B)。我们观察到G2/M相和G0/G1相之间的空隙,这与细胞分裂过程中细胞状态的剧烈变化相一致。通过无监督聚类,我们基于细胞周期标志物表达鉴定了跨越G0/G1、S和G2/M细胞周期阶段的9个细胞周期状态(图33B)。可以通过GR反应关联的TF模块将细胞排序到另一平滑轨迹中。该轨迹与DEX处理时间和已知的GR激活调节的TF活性的动力学良好相关(图33C)。通过无监督聚类分析,我们沿着GR反应鉴定了三个细胞簇,对应于无/低/高GR反应状态(图33C)。
我们接下来试图定量表征系统中的隐藏细胞状态(图35A)。在图33B-C中鉴定了九个细胞周期状态和三个GR反应状态。确定了所有可能的组合状态,最小的一组包括所有细胞的1.1%(74)(图33D)。假设独立分类,观察到的细胞状态比例接近于预期的比例。这与6,000多个细胞上这两个功能性TF模块的活性之间的低相关系数(Pearson相关r=0.004)相一致。为了进行比较,通过对全转录组和新合成转录组的降维和聚类分析,我们鉴定了6个主要簇(图35B)。这些主要簇可以容易地通过这27个细胞状态的组合组来定义(图33E)。
表征单细胞转变轨迹和状态转变网络
利用针对每个细胞表征的全转录组和新合成转录组,我们可以推断S4U标记之前的单细胞转录组状态(图36A)。过去细胞转录组的恢复取决于两个参数:sci-fate中新合成阅读片段的检测速率和每个mRNA的降解速率(或半时)(方法)。这两个参数都可以从sci-fate中的相同实验估算。
我们首先估计sci-fate的检测速率。我们假设在不同DEX处理条件下mRNA半衰期是稳定的。之后通过自洽检查进一步验证此假设。在此假设下,在2小时S4U标记之前部分降解的整体转录组在非DEX处理和2小时DEX处理的细胞之间应当是相同的。因此,它们在全转录组(整体)中的差异应与通过技术检测速率校正的新合成转录组(整体)中的差异相等。由于全转录组和新合成转录组都在我们的实验中进行分析,因此我们可以直接计算sci-fate的检测速率。新合成mRNA中的差异与mRNA表达水平的差异良好相关(Pearson r=0.93,图37A),表明新RNA检测速率在基因间相当稳定。因此,我们将新RNA捕获率的中位数(82%)用于下游分析。
接下来,我们计算2小时内的mRNA降解速率。由于A549细胞群体在没有外部干扰的情况上可以认为是稳定的,对于2小时DEX处理后的细胞,其过去状态(在2小时S4U标记之前)应与0小时DEX处理的细胞相同。类似地,对于T=0/2/4/6/8/10小时DEX处理的细胞,过去状态(在S4U标记之前)应与分析的T=0/0/2/4/6/8小时细胞相似。通过针对所有处理条件分析的全转录组和新合成转录组,可以估算出每2小时间隔中数千个基因上的mRNA降解速率。作为上述自洽性检查,基因降解速率在不同DEX处理时间之间高度相关(图37B)。然后,我们将平均基因降解速率用于下游分析。利用可得的新mRNA检测速率和基因降解速率,我们估计单细胞过去转录组状态,使得每个细胞可以在两个小时间隔内通过转录组动力学来表征。
为了恢复更长时间间隔(即10小时)的细胞状态动力学,我们开发了细胞关联流程以将相同的细胞状态转变轨迹中的父细胞和子细胞关联(图36A):对于每个细胞A(例如2小时DEX处理的细胞),基于最近开发的识别两个数据集之间的共同细胞状态的比对策略(27),我们鉴定了在较早时间点分析的细胞B(例如,无DEX处理的细胞),并且B的当前状态与A的过去状态相似。B可以视为A的父状态。类似地,我们还鉴定了在随后时间点分析的另一细胞C(例如4小时DEX处理的细胞),且C的过去状态与A的当前状态相似。细胞C可被视为A的将来状态。通过将相同的策略扩展到对每个细胞确定的所有过去和将来状态,我们在10小时时间内和五个时间点上构建了6,680个单细胞转变轨迹(图36A-B)。值得注意的是,这一分析基于以下假设:每个细胞(开始和结束时间点的细胞除外)的过去和当前状态全面检测,这在我们的数据集中是确实的,因为分析了超过6,000个细胞(每种条件超过1,000个细胞),或者在细胞周期内一个细胞少于一分钟。在每个细胞状态分析了多个细胞(>50),因此也可以捕获随机细胞状态转变过程。
为了验证该结果,我们对这6680个单细胞轨迹应用了降维和无监督聚类分析,这些轨迹分为三个轨迹簇。我们检查了图36C中表征的细胞状态的动力学。如预期的,所有三个轨迹显示出随着时间从无GR反应到低/高GR反应状态的细胞状态转变(图36D)。我们在这三个轨迹上观察到了不同的细胞周期动力学(图36D):轨迹1显示减少的G2/M期和始终增加的G0/G1期,并代表了从G2/M和G1中间状态到G1期的细胞状态转变。轨迹2显示了从S和G2/M中间状态到G2/M期的细胞状态转变。在轨迹3中,我们观察到在早期DEX处理(0-2小时)期间从G1和S中间期到S早期的细胞状态转变,但是在晚期DEX处理条件(>2小时DEX处理)中这种转变受到抑制,表明长期DEX处理导致G1期停滞。这与沿处理时间的细胞状态比例变化和先前的研究一致(37,38)(图36D)。这些表明通过sci-fate表征的单细胞转变路径可以恢复一般细胞状态转变方向。
利用每个状态下分析的多个细胞(>70),我们计算所有27个隐藏状态上的细胞状态转变概率。具有低转变概率(<0.1)的细胞状态转变可能是由于稀有事件或噪音,因此被滤除。细胞状态转变网络可以由27个细胞状态为节点及显示潜在转变路径的关联来定义(图36E)。细胞周期进展的方向很容易通过至少三个沿着细胞周期具有不可逆的转变方向的转变阶段来表征(图36E)。在G1晚期和G2/M晚期,我们还发现了几种显示出可逆的转变动力学的状态,这可能反映了G1/S和G2/M期的两个细胞周期检查点(33)。如预期的,处于相似细胞周期但不同的GR反应状态的细胞显示出截然不同的转变动力学,且具有高GR反应状态的细胞倾向于停滞在G1或G2/M期。
作为验证细胞状态转变网络是否捕获细胞状态转变动力学的一致性检查,我们评估了转变概率是否可以恢复不同时间点间的真实细胞状态分布。事实上,尽管细胞状态比例在10小时内动态变化(图36F),状态转变网络从0小时DEX处理细胞中的细胞状态比例准确地预测所有五个后期时间点的27个细胞状态比率(图36G,图38A)。我们还使用仅部分数据(0小时到6小时)计算细胞状态转变网络,其给出了与完整数据高度相关的转变概率,并准确地预测10小时的细胞状态(图36H,图38B)。
表征调节细胞状态转变方向的因子
为了表征调节细胞状态转变概率的因子,我们首先通过每个状态对之间的聚集转录组(全和新合成的)的pearson距离来计算细胞状态距离。如预期的,细胞状态转变概率与转变距离负相关(Spearman相关系数=-0.38,图39A)。我们还计算了状态不稳定性,其由两个小时内移出该状态的细胞的比例定义(图39B)。状态不稳定性情景与细胞转变方向良好匹配(图39B):与高GR反应状态相比,无GR反应的状态显示出更高的不稳定性。在高GR反应状态中,处于G1早期的细胞具有最低的不稳定性,而处于G1/S中间状态的细胞显示出高的不稳定性峰,这与晚期DEX处理中的G1期停滞相一致。
10小时后的细胞状态比例变化与细胞状态不稳定性良好相关(Spearman相关系数=-0.88,图39C),表明细胞状态动力学受细胞状态不稳定性情景的调节。状态不稳定性还与状态转移概率熵密切相关,其反映了状态转移靶标的多样性(Pearson相关系数r=0.73,图39D)。为了验证是否可以通过附近状态不稳定性来推断状态间转变概率,我们将附近状态不稳定性和距离拟合到神经网络模型中,以预测从每个状态到其他状态的状态转变概率。与单独使用状态距离相比,将附近状态的不稳定性和距离结合获得的预测状态间转变概率的性能提高了十倍以上(同时使用两种信息的中位交叉验证r平方为0.58vs.仅使用状态距离的0.046,p值=4.5e-10,双侧wilcoxon秩和检验,图39E),表明细胞状态转变方向和概率受附近状态稳定性情景的调节。而且,细胞优先于最近的位置移动到更稳定的附近状态。
讨论
在此,我们开发了在全转录组水平上表征细胞状态转变动力学的第一策略。该策略依赖于sci-fate,一种新的基于组合索引的高通量单细胞RNA-seq技术,其能够在数千个细胞中对全转录组和新合成转录组进行分型。与其他“sci-”技术类似,sci-fate很容易扩展到数百万个细胞(39),并可能与转录组和表观基因组的分型相容(40)。这使sci-fate能够在其中数百种细胞类型的真实细胞转变路径仍然未知的非常复杂的系统(即整个胚胎发育)中表征细胞状态动力学。我们进一步开发了用于从sci-fate数据估算新合成RNA捕获速率和基因降解速率(记忆校正),并对每个单细胞推断数千个差异轨迹(在每个时间点通过共有的过去和当前转录组状态关联)的计算流程。
为了验证技术并检验内部和外部因素如何调节细胞状态动力学,我们将该策略应用于皮质醇反应的模型系统,其中细胞命运通过内部细胞周期和外部药物诱导的GR激活而动态调节。我们证明新合成转录组直接与对环境刺激的表观基因组反应关联,并且对全转录组和新合成转录组的联合分析能够在细胞状态分离中实现更高的分辨率。通过数千个细胞上的TF表达与新RNA合成速率之间的协方差,我们进一步鉴定了TF与调控基因之间的多达一千个关联,通过DNA结合数据验证。我们还鉴定了27个通过细胞周期进展和GR反应中的功能性TF模块的组合状态表征的“隐藏细胞状态”,与传统的聚类分析的仅6个状态相比。
通过记忆校正和细胞关联分析,我们建立了跨越10小时的超过6,000个单细胞转变轨迹,其中主要轨迹与细胞周期和GR反应中已知的细胞状态动力学一致。细胞状态转变网络通过所有细胞状态之间的转变概率表征,通过所有五个时间点间的27个细胞状态动力学的恢复验证。最后,我们发现细胞状态转变概率受细胞状态转变网络的两个关键特征调节:状态间距离和状态不稳定性情景,这两者可以通过常规单细胞RNA-seq技术潜在地估计。
虽然功能强大,但是该策略具有几个限制。首先,为了忠实地构建单细胞轨迹,我们需要在每个时间点进行全面的细胞状态表征。同样,需要每个状态的多个观察来稳健地估计转变概率。这些限制可以容易地通过sci-fate的组合策略解决,其能够在单个实验中分析数百万个细胞。另一需要注意的是,大多数S4U标记实验应用于体外系统。然而,最近的研究表明,S4U可以稳定地标记多种小鼠组织(即脑、肠和脂肪组织)中的细胞类型特异性RNA转录(41,42),表明进一步优化以增强S4U的掺入和检测速率的sci-fate可用于分析体内单细胞转录组动力学。
sci-fate为将“静态”单细胞基因组技术应用于表征动态系统开辟了新途径。与传统的基于成像的技术相比,sci-fate在全转录组水平上对细胞状态动力学进行分析,并能够进行全面的细胞状态表征而无需标志物选择和发现细胞分化中的关键驱动力。最后,我们预期sci-fate可以很容易地与可选谱系追踪技术相结合(43-45),以将详细的细胞状态转变动力学解码成数百个发育谱系中的每一个最终细胞状态。
材料和方法:
哺乳动物细胞培养
所有哺乳动物细胞在37℃,5%CO2下培养,并保持在高葡萄糖DMEM(Gibco目录号11965)中(对于HEK293T和NIH/3T3细胞)或在DMEM/F12培养基中(对于A549细胞),两者补充有10%FBS和1X Pen/Strep(Gibco目录号15140122;100U/ml青霉素,100μg/ml链霉素)。细胞用0.25%胰蛋白酶-EDTA(Gibco目录号25200-056)胰蛋白酶化,且每周以1:10分割三次。
样品处理用于sci-fate
将A549细胞用100nM DEX处理0小时、2小时、4小时、6小时、8小时和10小时。在收获细胞之前的最后两个小时,所有处理条件下的细胞与200uM S4U一起孵育。对于HEK293T和NIH/3T3细胞,在收获细胞之前,将细胞与200uM S4U孵育6小时。
所有细胞系(A549、HEK293T和NIH/3T3细胞)用胰蛋白酶消化,以300xg离心5分钟(4℃),并在1X冰冷的PBS中洗涤一次。所有细胞在冰上用4ml冰冷的4%多聚甲醛(EMS)固定15分钟。固定后,将细胞以500xg沉淀3分钟(4℃),并用1ml PBSR(1x PBS,pH 7.4,1%BSA,1%SuperRnaseIn,1%10mM DTT)洗涤一次。洗涤后,将细胞以每毫升1千万个细胞重悬于PBSR中,并快速冷冻和储存在液氮中。多聚甲醛固定的细胞在37度水浴上解冻,以500xg离心5分钟,然后与500ul PBSR(含0.2%Triton X-100)一起在冰上孵育3分钟。沉淀细胞并重悬于500ul不含核酸酶的水(包括1%SuperRnaseIn)中。3ml 0.1N HCl加入细胞中在冰上孵育5分钟(21)。3.5ml Tris-HCl(pH=8.0)和35ul 10%Triton X-100加入细胞以中和HCl。沉淀细胞并用1ml PBSR洗涤。细胞重悬于100ul PBSR中。具有固定细胞的100ul PBSR与包含40ul碘乙酰胺(IAA,100mM),40ul磷酸钠缓冲液(500mM,pH=8.0),200ul DMSO和20ulH2O的混合物在50℃下孵育15分钟。用8ul DTT(1M)和8.5ml PBS淬灭反应(47)。沉淀细胞并重悬于100ul PBSI(1×PBS,pH 7.4,1%BSA,1%SuperRnaseIn)中。对于所有以后的洗涤,细胞核通过以500xg离心5分钟(4℃)沉淀。
以下步骤与具有多聚甲醛固定细胞核的sci-RNA-seq方案(15,16)相似。简言之,细胞分布到四个96孔板中。对于每个孔,5,000个细胞核(2μL)与1μl的25μM锚定寡聚dT引物(5'-ACGACGCTCTTCCGATCTNNNNNNNN[10bp索引]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3')(SEQ ID NO:5),其中“N”为任何碱基,“V”为“A”、“C”或“G”;IDT)和0.25μL 10mM dNTP混合物(Thermo)混合,在55℃下变性5分钟,和立即置于冰上。1.75μL的第一链反应混合物(包含1μL 5X Superscript IV第一链缓冲液(Invitrogen),0.25μl 100mM DTT(Invitrogen),0.25μl SuperScript IV逆转录酶(200U/μl,Invitrogen),0.25μL RNaseOUT重组核糖核酸酶抑制剂(Invitrogen))然后添加到每个孔。通过在以下温度梯度下孵育平板进行逆转录:4℃ 2分钟,10℃ 2分钟,20℃ 2分钟,30℃ 2分钟,40℃ 2分钟,50℃ 2分钟和55℃ 10分钟。然后合并所有细胞(或细胞核),用终浓度为3μM的4',6-二脒基-2-苯基吲哚(DAPI,Invitrogen)染色,并以每孔25个细胞核分选到5μL EB缓冲液中。基于DAPI染色对细胞进行门控,以使单峰与双峰区分开,并分选到每个孔中。然后将0.66μl的mRNA第二链合成缓冲液(NEB)和0.34μl的mRNA第二链合成酶(NEB)添加至各孔,并在16℃下进行180min的第二链合成。然后将每个孔与5μLNextera TD缓冲液(Illumina)和1μL仅i7TDE1酶(25nM,Illumina,在Nextera TD缓冲液中稀释)混合,随后在55℃下孵育5分钟以进行标签化。通过加入10μLDNA结合缓冲液(Zymo)终止反应,并在室温下孵育5分钟。然后使用30uL AMPure XP珠(Beckman Coulter)纯化每个孔,并在16μL EB缓冲液(Qiagen)中洗脱,然后转移到新的多孔板上。
对于PCR反应,将每个孔与2μL的10μM P5引物(5′-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTC CCTACACGACGCTCTTCCGATCT-3′;IDT)(SEQ ID NO:6)、2μL的10μM P7引物(5′-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3′;IDT)(SEQ ID NO:7)和20μLNEBNext高保真2X PCR主混合物(NEB)混合。使用以下程序进行扩增:72℃ 5分钟,98℃ 30秒,18-22个循环(98℃ 10秒,66℃ 30秒,72℃ 1分钟),且最后72℃ 5分钟。PCR后,将样品合并并使用0.8体积的AMPure XP珠进行纯化。文库浓度通过Qubit(Invitrogen)确定,且文库通过在6%TBE-PAGE凝胶上的电泳可视化。文库使用V2 150循环试剂盒在NextSeq 500平台(Illumina)上进行测序(阅读片段1:18循环,阅读片段2:130循环,索引1:10循环,索引2:10循环)。
阅读片段比对和下游处理
使用我们为sci-RNA-seq开发的流程(48)(具有小的修改)进行用于单细胞RNA-seq的阅读片段比对和基因计数矩阵生成。首先将阅读片段映射到具有STAR/v2.5.2b(49)的参考基因组,带有对于人的GENCODE V19和对于小鼠的GENCODE VM11的基因注释。对于HEK293T和NIH/3T3细胞的实验,我们使用组合来自人类(hg19)和小鼠(mm10)的染色体的索引。对于A549实验,我们使用人类基因组构建hg19。
首先使用jvarkit(50)中的sam2tsv函数将单细胞sam文件转换为比对tsv文件。接下来,对于每个单细胞比对文件,将与背景SNP匹配的突变滤除。对于A549细胞的背景SNP参考,我们从ENCODE(28)下载了A549细胞的末端配对批量RNA-seq数据(采样名称:ENCFF542FVG、ENCFF538ZTA、ENCFF214JEZ、ENCFF629LOL、ENCFF149CJD、ENCFF006WNO、ENCFF828WTU、ENCFF380VGD)。首先使用具有默认设置的trim_galore/0.4.1(51)对每个末端配对的fastq文件进行衔接子剪切,与具有STAR/v2.5.2b的人类hg19基因组构建(49)进行比对。通过samtools/v1.3(52)去除未映射和多重映射的阅读片段。重复的阅读片段通过picard/1.105(53)中的MarkDuplicates函数过滤掉。组合来自所有样本的消重复的阅读片段,并使用samtools/v1.3进行分类(52)。通过samtools/v1.3(52)中的mpileup函数和VarScan/2.3.9(54)中的mpileup2snp函数调用背景SNP。对于HEK293T和NIH/3T3测试实验,在上面的类似流程中生成背景SNP参考,具有来自对照条件(无S4U标记和无IAA处理条件)的聚集单细胞sam数据。
对于每个单细胞比对文件,质量得分<=13的所有突变被去除。每个阅读片段两端的突变主要是由于测序错误,且因此也被滤除。对于每个阅读片段,我们检查是否存在T>C突变(对于有义链)或A>G突变(对于反义链),并将这些突变的阅读片段标记为新合成的阅读片段。
如上所述,每个细胞通过来自完全测序数据和新合成RNA数据的两个数字基因表达矩阵表征。滤除具有等于或少于5个细胞中的表达的基因。具有少于2000的UMI或超过80,000的UMI的细胞被丢弃。去除通过双峰分析流程Scrublet/0.2(55)的双峰得分>0.2的细胞。
数据的维数首先通过Monocle 3在全基因表达数据或新合成基因表达数据的数字基因表达矩阵上用PCA降低(在选择了方差最高的前2,000个基因之后)(56,57)。选择前10个PC用于使用均匀流形近似和投影(UMAP/0.3.2)的降维分析,这是最近提出的用于进行降维和数据可视化的基于黎曼几何和代数拓扑的算法(26)。为了进行联合分析,我们在使用UMAP的降维之前对于每个单细胞组合在全转录组上计算的前10个PC和在新合成转录组上计算的前10个PC。细胞簇通过在Monocle 3(56,57)中实施的densityPeak算法完成。我们首先对所有处理细胞的联合信息进行UMAP分析,并确定离群簇(7,404个细胞中的724个)。这些细胞通过GATA3(分化细胞的标志物)的高水平表达标记(34),并在下游分析之前滤除。
用于关联转录因子(TF)与调控的基因的分析
我们旨在基于它们的协方差来确定TF和调控基因之间的关联。选择具有检测的超过10,000的UMI的细胞,及在超过10%的所有细胞中具有检测的新合成阅读片段的基因。完全基因表达和每细胞的新合成基因计数通过用在Monocle 3(56,57)中的estimateSizeFactors在完整基因表达矩阵上计算的细胞特异性文库大小因子进行标准化,对数转换,居中,然后通过R中的scale()函数缩放。对于检测到的每个基因,通过拟合以下模型,基于软件包RcisTarget(29)中“motifAnnotations_hgnc”数据中注释的853个TF的标准化表达,使用软件包glmnet(58)构建LASSO回归模型以预测标准化表达水平:
Gi=β0+βtTi
其中Gi是基因i的调整基因表达值。它通过每个细胞的新合成mRNA计数计算,并通过在每个细胞的完整表达矩阵上通过Monocle3(56,57)中的EstimateSizeFactors的细胞特异性大小因子估计(SGi)标准化,并进行对数转换:
为了简化基因之间的下游比较,我们在将每个基因i的模型与R中的scale()函数拟合之前,将反应Gi标准化。
与Gi相似,Ti是每个细胞的调整TF表达值。它对于每个细胞通过完整TF表达计数计算,并通过在每个细胞的完整表达矩阵上通过Monocle 3(56,57)中的estimateSizeFactors的细胞特异性大小因子(SGi)估计标准化,并进行对数转换:
在拟合之前,Ti使用R中的scale()函数对Ti进行标准化。
我们的方法通过在回归模型中发现可用于预测其表达的子集针对可以调控每个基因的TF。但是,具有与基因表达相关的表达的TF不能保证它正调控该基因:如果基因A在细胞状态1中特异性表达和TF B在细胞类型2中特异性表达。尽管TF的表达与基因的新合成速率之间的负相关可能反映了转录阻遏物的活性,但我们认为glmnet报告的负关联的更可能解释是细胞状态特异性表达和TF活性的互斥模式。因此,在预测过程中,我们排除了具有与基因合成速率的负相关表达的TF及低相关系数(<=0.03)的关联。我们确定了TF和调控基因之间总共6,103个关联。
为了确定推定的直接结合靶标,我们将关联与ENCODE Chip-seq实验(28)中分析的TF相交。在与ENCODE表征的TF的1,086个关联中,807个关联通过基因启动子附近的TF结合位点验证(59),与背景相比奇数比(经过验证的关联相对于未验证关联的数量)4.3倍的富集(LASSO回归中确定的关联的奇数比=2.89vs.背景中的0.67,p值<2.2e-16,Fisher精确检验)。仅保留具有正确TF Chip-seq结合位点的明显富集的基因集(Fish精确检验,错误发现率5%),并进行修剪以去除没有TF结合数据支持的间接靶基因。该方法保留了591个关联。
为了扩展验证的TF-基因关联,我们进一步应用软件包SCENIC(29),这是一个基于基因启动子周围(10kb)的靶TF基序富集而构建基因调控网络的流程。通过使用利用RcisTarget(29)的顺式调控基序分析来分析通过LASSO回归确定的每个共表达模块。仅保留具有正确TF调节子的显著基序富集的模块,并进行修剪以除去没有基序支持的间接靶基因。我们通过三个相关系数阈值(0.3、0.4和0.5)过滤TF-基因关联,并组合所有通过RcisTarget(29)验证的关联。总共有509个通过基序分析方法验证的关联。组合这两种方法,我们通过TF表达与基因合成速率之间的协方差确定了总共986个TF-基因调控关联,并通过DNA结合数据或基序分析进行验证。为了评估关联是正则化回归的伪影的可能性,我们对TF表达矩阵的样本ID进行排列并进行相同的分析。此排列后未鉴定任何关联。
通过功能性TF模块排序细胞
为了计算每个细胞中的TF活性,靶TF模块内基因的新合成UMI计数按文库大小进行缩放,对数转换,聚集和然后映射到Z评分。由于具有高度相关或反相关的活性的TF表明它们可能在关联的生物过程中发挥作用,我们计算了每对TF活性之间的绝对Pearson相关系数,并在此基础上通过软件包phosmap/1.0.12(60)中的ward.d2聚类方法对TF聚类。确定了五个功能性TF模块并根据其功能进行注释。
为了在每个功能性TF模块的维度上表征细胞状态,细胞通过细胞周期相关TF(TF模块1)或GR反应相关TF(TF模块3)的活性用UMAP(度量=“余弦”,n_neighbors=30,min_dist=0.01)排序。在Seurat/2.3.4(27)中通过细胞周期基因标志物验证细胞周期进展轨迹。通过Monocle 3(56,57)中实现的densityPeak算法在通过细胞周期TF模块排序的UMAP坐标上鉴定三个细胞周期阶段。由于每个主要细胞周期阶段仍显示出可变的TF活性和细胞周期标志物表达,我们通过k均值聚类(k=3)将每个阶段划分为早期/中期/晚期状态,并恢复了总共9个细胞周期状态。通过Monocle 3(56,57)中实现的densityPeak算法确定三个GR反应状态。
从sci-fate的过去转录组状态恢复
为了确定过去转录组状态(S4U标记之前的细胞状态),我们假设在不同的DEX处理条件之间,mRNA半衰期是稳定的。稍后将通过自洽检查进一步验证此假设。在此假设下,在2小时S4U标记之前部分降解的整体转录组在无DEX处理和2小时DEX处理细胞之间应是相同的。因此,它们在全转录组(整体)中的差异应与通过技术检测速率校正的新合成转录组(整体)中的差异相等:
A0h/S0h-(N0h/S0h)/α=A2h/S2h-(N2h/S2h)/α
A0h是无DEX处理组中所有细胞的总计UMI计数;S0h是无DEX处理时的文库大小(细胞的总UMI计数);N0h是无DEX处理组中所有细胞的总计新合成UMI计数;A2h是2小时DEX处理组中所有细胞的总计UMI计数;S2h是2小时DEX处理组的文库大小(细胞的总UMI计数);N2h是2小时DEX治疗组中所有细胞的总计新合成UMI计数。α是sci-fate的检测速率。理论上,可以为每个基因计算一个检测速率。但是,对于在两个条件之间具有小的新合成速率差异的基因,估计的α以噪声为主。因此,我们选择了在两种条件之间显示出较高的标准化新合成速率的差异的基因:我们首先测试了用于基因过滤的一系列阈值,并计算每个基因的α。然后,我们绘制阈值与具有超出范围的α值(<0或>1)的基因比率之间的关系。我们选择在曲线图的拐点处的阈值,其中选择了186个基因。这些基因的新合成mRNA的差异与mRNA表达水平的差异高度相关(Pearson r=0.93,图35A),表明新RNA检测速率在各个基因之间相当稳定。这是通过sci-fate捕获的82%新合成RNA的中位数。
接下来,我们计算每2小时上的mRNA降解速率。由于可以认为A549细胞群体在没有外部扰动的情况下是稳定的,因此对于2小时DEX处理的细胞,其过去状态(在2小时S4U标记之前)应与0小时DEX处理的细胞相同。类似地,T=0/2/4/6/8/10小时的DEX处理细胞的过去状态(在S4U标记之前)应与分析的T=0/0/2/4/6/8小时的细胞类似:
At1/St1-(Nt1/St1)/α=At0/St0*β
At1是t1中所有细胞的总计UMI计数;St1是在t1处的文库大小(细胞的总UMI计数);Nt1是在t1时所有细胞的总计新合成UMI计数。α是估计的sci-fate的检测速率;At0是t0中所有细胞的总计UMI计数;St0是在t0时的文库大小(细胞的总UMI计数);β是t0和t1之间的1-基因比降解速率,并且通过以下公式与mRNA半衰期γ相关:
β=1-(1/2)(t1-t0)/γ
可以以DEX处理的每2小时间隔来计算基因降解速率β。作为上述自洽性检查,基因降解速率在不同的DEX处理时间之间高度相关(图35B)。然后,我们将平均基因降解速率用于下游分析。
通过估计的检测速率和基因降解速率,可以通过以下公式估算每个细胞的过去转录组状态:
at1-nt1/α=at0*β
at1是t1中的单细胞UMI计数;nt1是在t1时的单细胞新合成UMI计数;α是sci-fate的估计检测速率;β是t0和t1之间的1-基因比降解速率。at0是过去时间点t0的估计单细胞UMI计数,其中所有负值转换为0。
关联分析以建立单细胞状态轨迹
通过关联分析,我们旨在鉴定相同细胞轨迹中的关联的父和子细胞。技术上,对于t1时的细胞,我们将它们的过去状态转录组状态(在S4U标记之前,在我们的实验中t1之前2小时)组合为一个组1,且将t0的全转录组状态(t1之前2小时)组合为另一组2。假设没有明显的细胞凋亡,这两组应该具有相似的细胞状态分布。基于共同的变异来源(27),我们应用流形比对策略来鉴别两个数据集之间的共同细胞状态。此分析基于另一假设,即全面检测每个细胞(开始和结束时间点的细胞除外)的过去和当前状态,这在我们的数据集中确实如此,因为分析了超过6,000个细胞(每个条件超过1,000个细胞),或在细胞周期内一个细胞少于一分钟。作为该流程的结果,来自t0的细胞状态和来自t1的过去细胞状态在相同的UMAP空间中比对。在两个数据集比对期间,上述假设的违背可以通过异常值检测。对于t1中的每个细胞A,我们选择t0中其最近邻作为比对UMAP空间中的其父状态。类似地,对于t0中的每个细胞,我们选择在t1中的其最近邻作为其子细胞状态。值得注意的是,关联不必是双向的:一个细胞的父状态可以与不同子细胞关联。由于对于每个细胞确定了父状态和子状态(0小时和10小时的细胞除外),然后我们确定了每个细胞的父级的关联父细胞,以及类似地每个细胞的子级的关联子细胞。因此,每个单细胞可以通过跨越10小时的所有五个时间点上的单细胞状态转变路径表征。由于在每个细胞状态下分析多个细胞(>50),因此也可以捕获随机细胞状态转变过程。
用于单细胞转录组动力学的降维和聚类分析
对于单细胞转录组动力学的降维,针对每种状态选择全转录组的前5个PC和新合成转录组的前5个PC,并以沿单细胞状态轨迹的时间顺序进行组合用于UMAP分析。通过密度峰值聚类算法识别主细胞轨迹类型(61)。
利用在开始时间点(0小时处理)的细胞状态比例和对于该数据估计的细胞状态转变概率,我们首先预测了2小时后的细胞状态分布,假设DEX处理中的细胞状态转变过程是细胞自主的、时间无关的马尔可夫(Markovian)动力学。类似地,可以基于2小时前的预测细胞状态分布来计算之后时间点的细胞状态分布。
通过状态不稳定性的状态间转变概率预测
细胞状态不稳定性定义为每个状态在2小时后移动到其他状态的概率。为了计算细胞状态距离,我们首先在每个状态下采样相等数量(n=50)的细胞,然后聚集该状态内所有细胞的完整转录组和新合成转录组。每个细胞状态可以通过组合全转录组和新合成转录组的联合信息来定义。细胞状态距离被计算为两个状态之间联合信息的Pearson相关系数。
为了预测状态间转变概率,我们用Keras/2.2.4(62)构建了3层神经网络(单元数:128、128、26,每层均具有relu激活;损失函数:cosine_proximity,批大小:128,时期(epochs):80)。对于输入,我们使用了当前状态的状态不稳定性,其他26个状态的标准化状态不稳定性(按当前状态的不稳定性缩放的)以及从当前状态到其他26个状态(按状态不稳定性向量中的相同状态顺序)的转变距离(平方的)。为避免过拟合,我们对于每个输入将状态不稳定中的状态顺序排列200次,同时仍保持与状态不稳定相同的状态转移距离的状态顺序。为了评估模型性能,我们通过在26个状态上训练模型来应用留一法验证,并在遗留状态上对于预测对所有其他26个状态的状态转移概率验证模型。为了预测仅状态转变距离的状态间概率,使用相同的模型进行训练和验证,所有输入状态不稳定性均替换为1。
参考文献
1.N.Moris,C.Pina,A.M.Arias,Transition states and cell fate decisionsin epigenetic landscapes.Nat.Rev.Genet.17,693-703(2016).
2.A.Filipczyk等人,Network plasticity of pluripotency transcriptionfactors in embryonic stem cells.Nat.Cell Biol.17,1235-1246(2015).
3.S.Hormoz等人,Inferring Cell-State Transition Dynamics from LineageTrees and Endpoint Single-Cell Measurements.Cell Syst.3,419-433.e8(2016).
4.V.A.Herzog等人,Thiol-linked alkylation of RNA to assess expressiondynamics.Nat.Methods.14,1198-1204(2017).
5.J.A.Schofield,E.E.Duffy,L.Kiefer,M.C.Sullivan,M.D.Simon,TimeLapse-seq:adding a temporal dimension to RNA sequencing through nucleosiderecoding.Nat.Methods.15,221-225(2018).
6.J.C.Buckingham,Glucocorticoids:exemplars of multi-tasking.Br.J.Pharmacol.147,S258(2006).
7.M.D.Cleary,C.D.Meiering,E.Jan,R.Guymon,J.C.Boothroyd,Biosyntheticlabeling of RNA with uracil phosphoribosyltransferase allows cell-specificmicroarray analysis of mRNA synthesis and decay.Nat.Biotechnol.23,232-237(2005).
8.L.Dolken等人,High-resolution gene expression profiling forsimultaneous kinetic parameter analysis of RNA synthesis and decay.RNA.14,1959-1972(2008).
9.C.Miller等人,Dynamic transcriptome analysis measures rates of mRNAsynthesis and decay in yeast.Mol.Syst.Biol.7,458-458(2014).
10.E.E.Duffy等人,Tracking Distinct RNA Populations Using Efficientand Reversible Covalent Chemistry.Mol.Cell.59,858-866(2015).
11.B.Schwalb等人,TT-seq maps the human transienttranscriptome.Science.352,1225-1228(2016).
12.M.Rabani等人,Metabolic labeling of RNA uncovers principles of RNAproduction and degradation dynamics in mammalian cells.Nat.Biotechnol.29,436-442(2011).
13.M.R.Miller,K.J.Robinson,M.D.Cleary,C.Q.Doe,TU-tagging:cell type–specific RNA isolation from intact complex tissues.Nat.Methods.6,439-441(2009).
14.D.A.Cusanovich等人,Multiplex single cell profiling of chromatinaccessibility by combinatorial cellular indexing.Science.348,910-914(2015).
15.J.Cao等人,Comprehensive single-cell transcriptional profiling of amulticellular organism.Science.357,661-667(2017).
16.J.Cao等人,Joint profiling of chromatin accessibility and geneexpression in thousands of single cells.Science.361,1380-1385(2018).
17.V.Ramani等人,Massively multiplex single-cell Hi-C(2016),,doi:10.1101/065052.
18.R.M.Mulqueen等人,Highly scalable generation of DNA methylationprofiles in single cells.Nat.Biotechnol.36,428-431(2018).
19.S.A.Vitak等人,Sequencing thousands of single-cell genomes withcombinatorial indexing.Nat.Methods.14,302-308(2017).
20.Y.Yin等人,High-throughput mapping of meiotic crossover andchromosome mis-segregation events in interspecific hybrid mice(2018),,doi:10.1101/338053.
21.A.B.Rosenberg等人,Single-cell profiling of the developing mousebrain and spinal cord with split-pool barcoding.Science.360,176-182(2018).
22.T.E.Reddy等人,Genomic determination of the glucocorticoid responsereveals unexpected mechanisms of gene regulation.Genome Res.19,2163-2171(2009).
23.S.John等人,Chromatin accessibility pre-determines glucocorticoidreceptor binding patterns.Nat.Genet.43,264-268(2011).
24.T.E.Reddy,J.Gertz,G.E.Crawford,M.J.Garabedian,R.M.Myers,TheHypersensitive Glucocorticoid Response Specifically Regulates Period 1andExpression of Circadian Genes.Mol.Cell.Biol.32,3756-3767(2012).
25.C.M.Vockley等人,Direct GR Binding Sites Potentiate Clusters of TFBinding across the Human Genome.Cell.166,1269-1281.e19(2016).
26.L.McInnes,J.Healy,N.Saul,L.Groβberger,UMAP:Uniform ManifoldApproximation and Projection.Journal of Open Source Software.3,861(2018).
27.A.Butler,P.Hoffman,P.Smibert,E.Papalexi,R.Satija,Integratingsingle-cell transcriptomic data across different conditions,technologies,andspecies.Nat.Biotechnol.36,411-420(2018).
28.The ENCODE Project Consortium,The ENCODE(ENCyclopedia Of DNAElements)Project.Science.306,636-640(2004).
29.S.Aibar等人,SCENIC:single-cell regulatory network inference andclustering.Nat.Methods.14,1083-1086(2017).
30.M.Boruk,J.G.A.Savory,R.J.G.Haché,AF-2-Dependent Potentiation ofCCAAT Enhancer Binding Proteinβ-Mediated Transcriptional Activation byGlucocorticoid Receptor.Mol.Endocrinol.12,1749-1763(1998).
31.W.Qin等人,Identification of functional glucocorticoid responseelements in the mouse FoxO1 promoter.Biochem.Biophys.Res.Commun.450,979-983(2014).
32.C.S.Sheela Rani,N.Elango,S.-S.Wang,K.Kobayashi,R.Strong,Identification of an Activator Protein-1-Like Sequence as the GlucocorticoidResponse Element in the Rat Tyrosine Hydroxylase Gene.Mol.Pharmacol.75,589(2009).
33.M.Fischer,G.A.Müller,Cell cycle transcription control:DREAM/MuvBand RB-E2F complexes.Crit.Rev.Biochem.Mol.Biol.52,638-662(2017).
34.J.Chou,S.Provot,Z.Werb,GATA3 in development and cancerdifferentiation:cells GATA have it!J.Cell.Physiol.222,42-49(2010).
35.J.Y.C.Madhurima Biswas,Role of Nrf1 in antioxidant responseelement-mediated gene expression and beyond.Toxicol.Appl.Pharmacol.244,16(2010).
36.I.-G.Ryoo,M.-K.Kwak,Regulatory crosstalk between the oxidativestress-related transcription factor Nfe2l2/Nrf2 and mitochondria.Toxicol.Appl.Pharmacol.359,24-33(2018).
37.J.M.Harmon,M.R.Norman,B.J.Fowlkes,E.B.Thompson,Dexamethasoneinduces irreversible G1 arrest and death of a human lymphoid cellline.J.Cell.Physiol.98,267-278(1979).
38.A.K.Greenberg等人,Glucocorticoids inhibit lung cancer cell growththrough both the extracellular signal-related kinase pathway and cell cycleregulators.Am.J.Respir.Cell Mol.Biol.27,320-328(2002).
39.J.Cao等人,Comprehensive single-cell transcriptional profiling of amulticellular organism.Science.357,661-667(2017).
40.J.Cao等人,Joint profiling of chromatin accessibility and geneexpression in thousands of single cells.Science.361,1380-1385(2018).
41.W.Matsushima等人,SLAM-ITseq:sequencing cell type-specifictranscriptomes without cell sorting.Development.145(2018),doi:10.1242/dev.164640.
42.U.Sharma等人,Small RNAs are trafficked from the epididymis todeveloping mammalian sperm(2017),,doi:10.1101/194522.
43.A.McKenna等人,Whole-organism lineage tracing by combinatorial andcumulative genome editing.Science.353,aaf7907(2016).
44.B.Raj等人,Simultaneous single-cell profiling of lineages and celltypes in the vertebrate brain.Nat.Biotechnol.36,442-450(2018).
45.K.L.Frieda等人,Synthetic recording and in situ readout of lineageinformation in single cells.Nature.541,107-111(2017).
46.H.Wickham,ggplot2:Elegant Graphics for Data Analysis(Springer,2016).
47.M.Muhar等人,SLAM-seq defines direct gene-regulatory functions ofthe BRD4-MYC axis.Science.360,800-805(2018).
48.J.Cao等人,Comprehensive single-cell transcriptional profiling of amulticellular organism.Science.357,661-667(2017).
49.A.Dobin等人,STAR:ultrafast universal RNA-seqaligner.Bioinformatics.29,15-21(2013).
50.P.Lindenbaum,JVarkit:java-based utilities forBioinformatics.figshare(2015).
51.FelixKrueger,FelixKrueger/TrimGalore.GitHub,(available at https://github.com/FelixKrueger/TrimGalore).
52.H.Li等人,The Sequence Alignment/Map format andSAMtools.Bioinformatics.25,2078-2079(2009).
53.Picard Tools-By Broad Institute,(available at http://broadinstitute.github.io/picard/).
54.D.C.Koboldt等人,VarScan 2:somatic mutation and copy numberalteration discovery in cancer by exome sequencing.Genome Res.22,568-576(2012).
55.S.L.Wolock,R.Lopez,A.M.Klein,Scrublet:computational identificationof cell doublets in single-cell transcriptomic data(2018),,doi:10.1101/357368.
56.X.Qiu等人,Reversed graph embedding resolves complex single-celltrajectories.Nat.Methods.14,979-982(2017).
57.cole-trapnell-lab,cole-trapnell-lab/monocle-release.GitHub,(available at https://github.com/cole-trapnell-lab/monocle-release).\
58.J.Friedman,T.Hastie,R.Tibshirani,Regularization Paths forGeneralized Linear Models via Coordinate Descent.J.Stat.Softw.33(2010),doi:10.18637/jss.v033.i01.
59.Dataset-ENCODE Transcription Factor Binding Site Profiles,(available at http://amp.pharm.mssm.edu/Harmonizome/dataset/ENCODE+Transcripti on+Factor+Binding+Site+Profiles).
60.raivokolde,raivokolde/pheatmap.GitHub,(available at https://github.com/raivokolde/pheatmap).
61.A.Rodriguez,A.Laio,Clustering by fast search and find of densitypeaks.Science.344,1492-1496(2014).
62.keras-team,keras-team/keras.GitHub,(available at https://github.com/keras-team/keras).
实施例4
多重转录物捕获
大多数单细胞RNA测序方法的饱和度为每细胞15,000至50,000个独特阅读片段的覆盖率(Ziegenhain等人,2017),而单细胞的总mRNA含量范围可为50,000至300,000个分子(Marinov等人,2014)。此外,这些方法中大多数都用寡(dT)启动进行逆转录(RT),其将测序集中在RNA的3'端。这意味着这些方法检测任何给定转录物丰度的变化的能力有限。最近对大量细胞进行分型的研究(Gasperini等,2019年;Cao等,2019年)需要非常高的测序深度:这些研究中使用的Illumina NovaSeq运行每次花费30,000美元,对于大多数研究小组来说,这样的实验绝对无法实现。
然而,在两种情况下,从数据中提取生物学见解所需的阅读片段数量相对较小。在非编码扰动的单细胞读数中,仅测试对于被破坏的调控元件顺式的基因的表达变化(Xie等2017;Gasperini等2018)。在细胞图谱实验中,虽然全局表达模式用于聚类相似细胞,但细胞类型分配使用少量关键转录因子基因进行。因此,将读数集中在这些实验中最高信息的基因转录物上的能力导致所需测序深度的大幅减小,及检测细胞之间细微差异的能力的提高。
我们通过使用特异性RT引物而不是寡聚(dT)引物将单细胞测序集中在目的mRNA上。最近大量使用了类似的方法来对酵母中所有已知的剪接点进行特异性测序,从而产生靶向区域相对于非靶向区域100倍的富集(Xu等人,2018)。在目标转录物上叠加的RT引物池允许转录组文库(sciRNA-seq)读数减少到每个实验数百个捕获的转录物。
这种sciRNA-seq重新分区(gerrymandering)与寡聚(dT)启动相比具有多个优势。首先,它将测序引导到我们对每个实验确定为最高信息的基因组区域。其次,它允许每个RNA分子有多个机会被逆转录成cDNA,从而增加了每个RNA分子的检测可能性。第三,这种方法允许我们仅靶向可唯一映射的扩增子,并可以与随机六聚体或寡聚(dT)启动的替代方式相比减少核糖体阅读片段的背景。第四,它允许我们靶向mRNA的信息性区域,例如由替代转录起始位点事件导致的剪接点和外显子,从而提供了常规sciRNA-seq不易检测到的亚型信息。
sciRNA-seq特别适合于多种RT引物的修饰。大多数单细胞RNA-seq方法使用结合有独特标识寡核苷酸的珠以将细胞识别条码附加到每个细胞的转录组上,通常通过与它们的聚(A)尾杂交来捕获mRNA。虽然已对此类珠进行修饰以添加少量特异性RT引物来增加对少数转录物的覆盖率(Saikia等人,2018),但该策略难以扩展至数百个靶向的转录物或在实验之间快速变化。因此,单细胞组合索引的适应性有助于多重RT单细胞RNA-seq的发展。
该方面的工作流程类似于在实施例1和3中描述的三级sciRNA-seq方案,但是在某些形式中不包括RT步骤。
1.设计RT引物池。一方面,这些被单独合成并合并。为了靶向>384个扩增子,可以合成引物文库,以双链DNA增殖,并如所述的处理以产生单链引物(Xu等2018)。这种第二策略允许向RT引物添加许多独特的索引(允许RT的sciRNA-seq索引和最终PCR)。
2.使用引物池的多重RT。这是具有数千个细胞的单个反应(如果在此步骤中未进行索引),或者是在反向转录时添加孔特异性索引的许多平行反应。
3.连接发夹衔接子以添加孔特异性索引。
4.合并所有细胞并进行第二链合成。
5.在许多孔间分布细胞,并进行标签化以添加第二恒定PCR柄(handle)。
6.PCR扩增、添加最终孔特异性索引。
7.测序。
引物设计工作流程:
1.从被靶向的基因收集所有外显子的序列。
2.解析出所有可能的25bp RT引物。
3.通过以下方法过滤候选RT引物:
a.GC含量40%至60%之间,对应于大约55至70度的解链温度。
b.引物的最后5nt中至少2个G或C,从而增加了退火的RT引物成为通过逆转录酶延伸的良好底物的可能性。
c.脱靶启动的可能性。在我们的第一实验中,我们发现虽然我们的靶基因高度富集,但大部分阅读片段仍源自细胞内丰富的其他RNA。大多数这些脱靶启动事件是引物3'端与脱靶RNA之间约5-8bp互补性的结果。因此,我们最新的引物设计流程考虑了总细胞RNA内RT引物最终六聚体的丰度。我们仅包括RT引物,其中这种最后的六聚体:
i.在核糖体RNA中根本不存在。来自先前描述的(Armour等,2009)“不太随机”或NSR六聚体。通过此过滤的引物将不太可能在核糖体RNA中具有脱靶启动。
ii.在总细胞RNA中低存在。我们计算了映射到人类基因组的PRO-seq阅读片段中所有4,096种可能的六聚体的丰度(Core等人2014)。PRO-seq测量细胞内的所有新生转录,包括核糖体转录。我们仅使用以六聚体结束的RT引物,其在此数据集中的丰度底部四分位数内。这可以挽救一些六聚体,尽管它们存在于核糖体RNA中,但并不像细胞内的RNA那样丰富。
该丰度过滤器极大地改变了引物的选择。通过使用或不使用此过滤器的流程选择的引物之间只有约17%的重叠。我们的设计流程的未来版本将优化此脱靶过滤器。当我们收集更多引物的数据时,我们应该能够评估更多的脱靶启动事件。
4.通过可定位性过滤候选者。我们使用bowtie将每个候选物与hg19比对,其允许3个错配。此步骤确保每个引物在基因组中仅具有一个靶位点。
5.在已经通过这些过滤器的可能的引物中,选取在基因上最均匀叠加的集。
对于我们靶向的每个基因,我们决定每个外显子设计多少个引物。我们包括对于每个外显子通过过滤器的第一个和最后一个引物,然后通过最小化将外显子精确地分成n个组块的引物位置的距离来选取最均匀覆盖外显子的内部引物。
例如,对于我们针对3个引物检索的300bp外显子,我们采用最接近位置1、150和300的通过所有过滤器直到这一点的引物。
6.对于我们的先导实验,RT引物在384孔板中排序,并合并以产生所有引物的等摩尔混合物。然后将该混合物用T4多核苷酸激酶磷酸化,以允许在sciRNA-seq文库生成过程中连接索引的发夹寡聚物(Cao等,2019)。这比排序磷酸化寡核苷酸更经济得多。25bp的RT引物还添加8bp的独特分子标识(UMI)和6bp的柄用于发夹寡核苷酸的退火,这添加孔特异性索引(用于组合索引)和PCR柄。
当单独对每个RT引物排序时,该过程可以是迭代的:在随后的实验中,通过选择性地重新合并在第一实验中发现具有有利的捕获率的引物实现较低的脱靶率。每个Illumina测序阅读片段跨越25bp RT引物和捕获的RNA分子,从而使我们能够单独地映射RT引物和捕获的分子以对于每个引物计算中靶率。
随后的轮次可以通过使它们阵列合成而并入更多的RT引物。引物文库可以通过PCR增殖,并通过选择性核酸外切降解在PCR引物中不包含封闭基团的链形成单链(Xu等人2018)。大阵列可用于合成多个引物池:如果每个池具有特定的PCR柄,则一个阵列可用于生成具有数千个引物的数十个池,每一个可以选择性地扩增。
多重逆转录:
多重靶捕获可以设想在RNA-seq文库生成方案中的多个步骤中进行。但是,我们认为逆转录是最容易并行化。高度多重的PCR反应很难成功进行。PCR反应包括许多(10-20个)循环。这意味着,脱靶退火的问题在通过这些循环的指数增长(其通常超出所需靶标的增长)后加剧。在多重PCR中,每个靶标提供两个特异性PCR引物。目的是使这两种引物仅特异性扩增其靶标。但是,在大的引物池中,将存在与池中的其他引物退火的几种组合。因为引物的浓度比模板分子的浓度高得多,所以这些引物二聚体在PCR结束时在池中占优势。高度多重PCR的不可行性是为什么许多靶向的扩增方案(例如外显子组测序)经常利用分子倒置探针以捕获靶标的原因(Hiatt等,2013)。在这种方案中,靶标特异性通过探针和靶标之间的单个退火步骤实现。靶特异性探针添加PCR柄,其然后用于靶通用PCR扩增中。单细胞组合索引方法依赖于文库生成过程中几个步骤中的索引:从cDNA捕获靶标的反向探针方法不允许足够的索引步骤。
对于多重靶标捕获,我们使用特异性的逆转录引物,然后是PCR反应,其扩增我们逆转录的所有分子。因此,我们的策略类似于使用分子倒置探针进行靶向DNA的扩增:单一步骤(逆转录)选择性地靶向目标转录物,并增加可用于在PCR期间扩增所有靶向分子的通用PCR柄。因此,逆转录过程中的高特异性至关重要。RT引物退火后保持高温有助于多重特异性启动。正常的逆转录方案使RNA和逆转录引物的混合物变性,然后冷却至4度以进行退火。如此低的退火温度对于脱靶退火事件太宽容。我们需要确保能够延伸的退火事件仅是那些我们设计的全部高度特异性RT引物均已找到其靶标的那些事件。因此,如其他多重特异性逆转录方法(Xu等2018)启示的,我们在整个方案过程中保持高温。我们在65℃下使固定细胞、RT引物池和dNTP的混合物变性,在53℃下退火,然后添加在53℃下预平衡的逆转录酶/缓冲液混合物进行退火反应,在53℃下延伸20分钟。因此,RT引物没有机会在变性和延伸步骤之间在低温下退火。
该方法的其余部分遵循实施例1和3中所述的方法。发夹衔接子原位连接,从而增加细胞索引。将细胞合并,洗涤并分割到新孔中以进行最后的索引步骤。在这些孔中,进行第二链合成。然后将双链cDNA标签化以添加第二通用PCR柄(第一个柄来自连接,第二个来自标签化)。通过Ampure珠结合从细胞纯化DNA,然后进行PCR,从而添加第二索引。
初步结果:
所有结果,如图40-42中所示,来自使用靶向K562细胞的LMO2基因座中的基因的RT引物池制备的整体(无单细胞组合索引)原位(所有步骤在多聚甲醛固定的细胞核中进行)文库。
参考文献:
Armour,Christopher D.,John C.Castle,Ronghua Chen,Tomas Babak,PatrickLoerch,Stuart Jackson,Jyoti K.Shah等人2009.“Digital Transcriptome ProfilingUsing Selective Hexamer Priming for cDNA Synthesis.”Nature Methods 6(9):647-49.
Cao,Junyue,Malte Spielmann,Xiaojie Qiu,Xingfan Huang,DanielM.Ibrahim,Andrew J.Hill,Fan Zhang,等人2019.“The Single-Cell TranscriptionalLandscape of Mammalian Organogenesis.”Nature 566(7745):496-502.
Core,Leighton J.,AndréL.Martins,Charles G.Danko,Colin T.Waters,AdamSiepel,and John T.Lis.2014.“Analysis of Nascent RNA Identifies a UnifiedArchitecture of Initiation Regions at Mammalian Promoters and Enhancers.”Nature Genetics 46(12):1311-20.
Gasperini,Molly,Andrew J.Hill,JoséL.McFaline-Figueroa,Beth Martin,Seungsoo Kim,Melissa D.Zhang,Dana Jackson等人2019.“A Genome-Wide Frameworkfor Mapping Gene Regulation via Cellular Genetic Screens.”Cell 176(6):1516.
Gasperini,Molly,Andrew Hill,JoséL.McFaline-Figueroa,Beth Martin,ColeTrapnell,Nadav Ahituv,and Jay Shendure.2018.“crisprQTL Mapping as a Genome-Wide Association Framework for Cellular Genetic Screens.”bioRxiv.https://doi.org/10.1101/314344.
Hiatt,Joseph B.,Colin C.Pritchard,Stephen J.Salipante,Brian J.O’Roak和Jay Shendure.2013.“Single Molecule Molecular Inversion Probes for Targeted,High-Accuracy Detection of Low-Frequency Variation.”Genome Research 23(5):843-54.
Marinov,Georgi K.,Brian A.Williams,Ken McCue,Gary P.Schroth,JasonGertz,Richard M.Myers和Barbara J.Wold.2014.“From Single-Cell to Cell-PoolTranscriptomes:Stochasticity in Gene Expression and RNA Splicing.”GenomeResearch 24(3):496-510.
Saikia,Mridusmita,Philip Burnham,Sara H.Keshavjee,Michael F.Z.Wang,Pablo Moral-Lopez,Meleana M.Hinchman,Charles G.Danko,John S.L.Parker和IwijnDe Vlaminck.2018.“Simultaneous Multiplexed Amplicon Sequencing andTranscriptome Profiling in Single Cells.”bioRxiv.https://doi.org/10.1101/328328.
Xie,Shiqi,Jialei Duan,Boxun Li,Pei Zhou和Gary C.Hon.2017.“MultiplexedEngineering and Analysis of Combinatorial Enhancer Activity in Single Cells.”Molecular Cell 66(2):285-99.e5.
Xu,Hansen,Benjamin J.Fair,Zach Dwyer,Michael Gildea和JeffreyA.Pleiss.2018.“Multiplexed Primer Extension Sequencing Enables High PrecisionDetection of Rare Splice Isoforms.”bioRxiv.https://doi.org/10.1101/331629.
Ziegenhain,Christoph,Beate Vieth,Swati Parekh,
Reinius,AmyGuillaumet-Adkins,Martha Smets,Heinrich Leonhardt,Holger Heyn,Ines Hellmann和Wolfgang Enard.2017.“Comparative Analysis of Single-Cell RNA SequencingMethods.”Molecular Cell 65(4):631-43.e4.
本文引用的所有专利、专利申请和公开的完整公开以及可电子获得的材料(例如,包括在例如GenBank和RefSeq中的核苷酸序列提交,以及在例如SwissSwt、PIR、PRF、PDB中的氨基酸序列提交,及来自GenBank和RefSeq中注释的编码区的翻译)均通过引用全文并入本文。出版物中引用的补充材料(例如补充表格、补充图形、补充材料和方法和/或补充实验数据)同样全文以引用方式并入。在本申请的公开与通过引用并入本文的任何文件的公开之间存在任何不一致的情况下,以本申请的公开为准。仅出于清楚理解的目的给出了前面的详细描述和示例。由此理解没有不必要的限制。本公开不限于所示出和描述的确切细节,因为对于本领域技术人员显而易见的变化将包括在由权利要求书限定的公开之内。
除非另有说明,否则在说明书和权利要求书中使用的所有表示组分、分子量等的数量的数字在所有情况下均理解为由术语“约”修饰。因此,除非另有相反指示,否则说明书和权利要求书中列出的数字参数是近似值,其可以根据本公开寻求获得的期望性质而变化。至少且并非试图将等同原则限制在权利要求的范围内,每个数字参数应至少根据所报告的有效位数的数目并通过应用普通的舍入技术来解释。
尽管阐述本公开的广泛范围的数值范围和参数是近似值,但是在具体示例中阐述的数值尽可能精确地报告。但是,所有数值固有地包含一个范围,该范围必然是由它们各自的测试测量中的标准偏差得出的。
所有标题都是为了方便读者,且除非另有说明,不应将其用于限制标题后面的文本的含义。