CN114008199A

CN114008199A - 高通量单细胞文库及其制备和使用方法

Info

Publication number: CN114008199A
Application number: CN202080026206.5A
Authority: CN
Inventors: J·沈杜尔; D·库萨诺维奇; R·达扎; F·斯蒂默斯
Original assignee: University of Washington; Illumina Inc
Current assignee: University of Washington; Illumina Inc
Priority date: 2019-12-19
Filing date: 2020-12-18
Publication date: 2022-02-01
Also published as: WO2021127436A2; WO2021127436A3; MX2021011847A; KR20220118295A; EP3927824A2; AU2020407641A1; IL286643A; BR112021019640A2; JP2023508792A; CA3134746A1; SG11202109486QA; US20220356461A1

Abstract

本文提供了用于制备包括来自多个单细胞的核酸的测序文库的方法。在一个实施方案中，该测序文库包含代表来自该多个单细胞的染色质可及性的核酸。在一个实施方案中，该核酸包含三个索引序列。在另一个实施方案中，本公开提供了用于表征分离的细胞和细胞核中罕见事件的方法。

Description

高通量单细胞文库及其制备和使用方法

相关申请的交叉引用

本申请要求2019年12月19日提交的美国临时申请序列号62/950,670的权益，该临时申请全文以引用方式并入本文。

政府资助

本发明是在美国政府支持下进行的，授权号为T32 HL007828，由美国国立卫生研究院(National Institutes of Health)授予。政府拥有本发明的某些权利。

技术领域

本公开的实施方案涉及对核酸进行测序。具体地，本文所提供的方法和组合物的实施方案涉及产生单细胞组合索引测序文库并且从中获得序列数据。在一些实施方案中，从文库获得的序列数据是全面的，而在其他实施方案中，从文库获得的序列数据允许表征罕见事件。

背景技术

单细胞组合索引(“sci-”)是采用分裂池条形码独特标记大量单细胞或细胞核的核酸内容物以产生单细胞组合测序文库的方法框架。目前的单细胞基因组技术通常包括使用转座体复合物在一个步骤添加独特标记；然而，这需要大量自定义修饰的转座子。

单细胞基因组技术解决了当研究大量细胞群体时难以确定的细胞差异。在许多重要应用(诸如肿瘤学、免疫学和宏基因组学)中，表征罕见细胞引起了广泛关注同时也存在巨大挑战。在单细胞测序中，当前方法使得能够并行表征数百万个单细胞；然而，对未富集群体中的罕见细胞进行全面的、基于测序的表征是高成本的且具有挑战性的。

发明内容

本文提供了在单细胞组合索引期间使用转座体复合物而无需产生自定义修饰的转座子的方法。

在一个实施方案中，本公开提供用于制备包括来自多个单个细胞核或细胞的核酸的测序文库的方法。该方法包括：提供多个细胞核或细胞，其中该细胞核或细胞包含核小体；以及使所述多个细胞核或细胞与包含转座酶和通用序列的转座体复合物接触。在一个实施方案中，当与转座体复合物接触时，所述多个细胞核或细胞是大量的，并且在另一个实施方案中，当与转座体复合物接触时，所述多个细胞核或细胞被分配到第一多个隔室中，其中每个隔室包括细胞核或细胞的子集或代表样品。接触还包括适于将通用序列掺入DNA核酸中从而产生包含通用序列的双链DNA核酸的条件。在其中与大量的所述多个细胞核或细胞发生接触的那些实施方案中，该方法还包括将所述多个细胞核或细胞分配到第一多个隔室中，其中每个隔室包括细胞核或细胞的子集。处理细胞核或细胞的每个子集中的DNA分子以生成带索引细胞核或细胞。处理包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第一隔室特异性索引序列，以产生存在于带索引细胞核或细胞中的带索引核酸。处理可包括连接、引物延伸、杂交、扩增或它们的组合。可将带索引细胞核或细胞组合以生成合并的带索引细胞核或细胞。

在一个实施方案中，提供可包括在多个隔室中提供所述多个细胞核或细胞，其中每个隔室包括细胞核或细胞的子集或代表样品。接触可包括使每个隔室与转座体复合物接触，并且该方法还可包括在接触后将细胞核或细胞组合以生成合并的细胞核或细胞。

在一个实施方案中，接触包括使每个子集与两个转座体复合物接触，其中一个转座体复合物包含含有第一通用序列的第一转座酶，并且第二转座体复合物包含含有第二通用序列的第二转座酶，其中该接触还包括适于将该第一通用序列和该第二通用序列掺入到DNA核酸中从而产生包含该第一通用序列和该第二通用序列的双链DNA核酸的条件。

在一个实施方案中，该方法还可包括：将包括带索引细胞核或细胞的合并的带索引细胞核或细胞分配到第二多个隔室中，其中每个隔室包括细胞核或细胞的子集；以及处理细胞核或细胞的每个子集中的DNA分子以生成带双索引细胞核或细胞。处理可包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第二隔室特异性索引序列，以产生存在于带索引细胞核或细胞中的带双索引核酸。该方法可包括组合带双索引细胞核或细胞以生成合并的带双索引细胞核或细胞。

在一个实施方案中，该方法还可包括：将包括带双索引细胞核或细胞的合并的带索引细胞核或细胞分配到第三多个隔室中，其中每个隔室包括细胞核或细胞的子集；以及处理细胞核或细胞的每个子集中的DNA分子以生成带三索引细胞核或细胞。处理可包括向存在于细胞核或细胞的每个子集中的DNA核酸添加第三隔室特异性索引序列，以产生存在于带索引细胞核或细胞中的带三索引核酸。该方法可包括组合带三索引细胞核或细胞以生成合并的带三索引细胞核或细胞。

在一个实施方案中，该方法还可包括从合并的带索引细胞核或细胞中获得带索引核酸(例如，带双索引、带三索引等)，从而由所述多个细胞核或细胞产生测序文库。

本文还提供了鉴定和/或表征细胞亚群的方法。在一个实施方案中，该方法包括提供测序文库，诸如单细胞组合测序文库。任选地，测序文库由针对某一特征富集的细胞或细胞核群体产生。该方法可包括通过靶向测序询问测序文库。靶向测序可基于通常存在于用于制备文库的一小部分细胞中的生物学特征。生物学特征的示例包括但不限于指示细胞类别、物种类型或疾病状态的核苷酸序列。除了生物学特征的靶向测序之外，该测序还包括确定存在于与生物学特征相同的经修饰的靶核酸上的索引序列的序列。结果是鉴定源自与包括生物学特征的文库成员相同的细胞或细胞核的测序文库成员。该方法还包括改变测序文库以增加源自与包括生物学特征的文库成员相同的细胞或细胞核的那些成员的表示。改变可包括富集测序文库的所需成员或耗尽测序文库的非所需成员，以得到子文库。

定义

除非另外指明，否则本文所用的术语应理解为具有其在相关领域中的普通含义。下面列出本文所用的若干术语及其含义。

如本文所用，术语“生物体”和“受试者”可互换使用并且是指微生物(例如，原核或真核)、动物和植物。动物的示例为哺乳动物，诸如人。

如本文所用，术语“细胞类型”旨在基于形态、表型、发育起源或其他已知或可识别的区别性细胞特性来鉴定细胞。多种不同的细胞类型可从单个生物体(或从相同物种的生物体)获得。示例性细胞类型包括但不限于配子(包括雌配子，例如卵或卵细胞，以及雄配子，例如精子)、卵巢上皮细胞、卵巢成纤维细胞、睾丸细胞、尿膀胱细胞、免疫细胞、B细胞、T细胞、自然杀伤细胞、树突状细胞、癌细胞、真核细胞、干细胞、血细胞、肌肉细胞、脂肪细胞、皮肤细胞、神经细胞、骨细胞、胰腺细胞、内皮细胞、胰腺上皮、胰腺α细胞、胰腺β细胞、胰腺内皮、骨髓淋巴母细胞、骨髓B淋巴母细胞、骨髓巨噬细胞、骨髓成红细胞、骨髓树突状细胞、骨髓脂肪细胞、骨髓骨细胞、骨髓软骨细胞、早幼粒细胞、骨髓巨核细胞、膀胱细胞、脑B淋巴细胞、脑胶质细胞、神经元、脑星形胶质细胞、神经外胚层、脑巨噬细胞、脑小胶质细胞、脑上皮细胞、皮质神经元、脑成纤维细胞、乳房上皮细胞、结肠上皮细胞、结肠B淋巴细胞、乳腺上皮细胞、乳腺肌上皮细胞、乳腺成纤维细胞、结肠肠上皮细胞、子宫颈上皮细胞、乳腺导管上皮细胞、舌上皮细胞、扁桃体树突状细胞、扁桃体B淋巴细胞、外周血淋巴母细胞、外周血T淋巴母细胞、外周血皮肤T淋巴细胞、外周血自然杀伤细胞、外周血B淋巴母细胞、外周血单核细胞、外周血成髓细胞、外周血成单核细胞、外周血早幼粒细胞、外周血巨噬细胞、外周血嗜碱性粒细胞、肝内皮细胞、肝肥大细胞、肝上皮细胞、肝B淋巴细胞、脾内皮细胞、脾上皮细胞、脾B淋巴细胞、肝细胞、肝成纤维细胞、肺上皮细胞、支气管上皮细胞、肺成纤维细胞、肺B淋巴细胞、肺施万细胞、肺鳞状细胞、肺巨噬细胞、肺成骨细胞、神经内分泌细胞、肺泡细胞、胃上皮细胞和胃成纤维细胞。在一个实施方案中，从单个生物体获得的多种不同细胞类型可包括生物体的细胞和其他细胞(诸如与该生物体相关联的共生或病原微生物的细胞)。与生物体相关联的共生或病原微生物的示例包括但不限于存在于来自生物体的微生物组样品中或存在于组织中并且可选地引起疾病的原核和真核微生物。

如本文所用，术语“组织”旨在表示共同作用以在生物体中发挥一种或多种特定功能的细胞的集合或聚集。细胞可任选地在形态学上相似。示例性组织包括但不限于胚胎、附睾、眼睛、肌肉、皮肤、肌腱、静脉、动脉、血液、心脏、脾、淋巴结、骨、骨髓、肺、支气管、气管、肠、小肠、大肠、结肠、直肠、唾液腺、舌、胆囊、阑尾、肝脏、胰腺、脑、胃、皮肤、肾、输尿管、膀胱、尿道、性腺、睾丸、卵巢、子宫、输卵管、胸腺、垂体、甲状腺、肾上腺或甲状旁腺。组织可来源于人类或其他生物体的多种器官中的任一种。组织可以是健康组织或不健康组织。不健康组织的示例包括但不限于生殖组织、肺、乳房、结肠直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨、卵巢、肝脏、血液组织、胰腺、子宫、肾、淋巴组织等中的恶性肿瘤。恶性肿瘤可以是多种组织学亚型，例如，癌、腺癌、肉瘤、纤维腺癌、神经内分泌的或未分化的。

如本文所定义，“样品”及其衍生物以其最广泛的意义使用，并且包括怀疑包含靶核酸和/或靶蛋白的任何标本、培养物等等。在一些实施方案中，样品包含DNA、RNA、蛋白质或它们的组合。样品可包括含有一种或多种核酸和/或一种或多种蛋白质的任何生物、临床、外科、农业、大气或水生的标本。该术语还包括来自样品诸如基因组DNA或转录组的任何分离的核酸，和来自样品的任何分离的蛋白质。在一些实施方案中，样品包括细胞或细胞核的集合。

如本文所用，术语“隔室”旨在表示将某物与其他事物分开或隔离的区域或体积。示例性隔室包括但不限于小瓶、管、孔、小滴、团块、小珠、容器、表面特征，或由物理力诸如流体流动、磁力、电流等分开的区域或体积。在一个实施方案中，隔室是多孔板(诸如96孔板或384孔板)的孔。在一个实施方案中，隔室是图案化表面的孔(例如，微孔或纳米孔)。如本文所用，小滴可包括水凝胶小珠，该水凝胶小珠是用于包封一个或多个细胞核或细胞的小珠并且包含水凝胶组合物。在一些实施方案中，小滴是水凝胶材料的均质小滴或者是具有聚合物水凝胶外壳的中空小滴。无论是均质的还是中空的，小滴均能够包封一个或多个细胞核或细胞。在一些实施方案中，小滴是表面活性剂稳定的小滴。

如本文所用，“转座体复合物”是指整合酶和包含整合识别位点的核酸。“转座体复合物”是由转座酶和能够催化转座反应的转座酶识别位点形成的功能性复合物(参见，例如，Gunderson等人，WO 2016/130704)。整合酶的示例包括但不限于统合酶或转座酶。整合识别位点的示例包括但不限于转座酶识别位点。

如本文所用，术语“核酸”与多核苷酸和寡核苷酸可互换使用。核酸旨在与其在本领域中的用途一致，并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性方式与核酸杂交或能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有包含磷酸二酯键的主链。类似结构可具有替代的主链键，包括本领域已知的多种主链键中的任一种。天然存在的核酸通常具有脱氧核糖(例如存在于脱氧核糖核酸(DNA)中)或核糖(例如存在于核糖核酸(RNA)中)。核酸可包含本领域已知的这些糖部分的多种类似物中的任一种。核酸可包括天然的或非天然的碱基。就这一点而言，天然脱氧核糖核酸可具有选自腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的一个或多个碱基，并且核糖核酸可具有选自腺嘌呤、尿嘧啶、胞嘧啶或鸟嘌呤的一个或多个碱基。可包含在核酸中的有用的非天然碱基是本领域已知的。非天然碱基的示例包括锁核酸(LNA)、桥核酸(BNA)和伪互补碱基(Trilink Biotechnologies，San Diego，CA)。LNA碱基和BNA碱基可掺入DNA寡核苷酸中并增加寡核苷酸杂交强度和特异性。LNA碱基和BNA碱基以及此类碱基的用途是本领域技术人员已知的，并且是常规的。除非另外指明，否则术语“核酸”包括天然和非天然的DNA、mRNA和非编码RNA，例如在3'端无聚A的RNA，以及来源于RNA的核酸，例如cDNA。术语“核酸”仅是指分子的主要结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。

如本文所用，术语“靶标”旨在作为正在研究的分子的来源、功能、种类和/或组成的该分子的语义标识符。靶标的示例包括但不限于核酸和蛋白质。如本文所用，术语“靶标”当用于提及核酸时，旨在作为本文所示的方法或组合物的上下文中核酸的语义标识符，并且不一定限制核酸的结构或功能，除非另有明确说明。靶核酸基本上可以是任何已知或未知序列的核酸。它可以是例如基因组DNA(例如，染色体DNA)的片段、染色体外DNA(诸如质粒)、无细胞DNA、RNA(例如，RNA或非编码RNA)、蛋白质(例如，细胞或细胞表面蛋白质)或cDNA。靶核酸可以是与特异性结合生物分子(诸如蛋白质、聚糖、蛋白聚糖或脂质)的化合物(诸如抗体)附接的核酸(美国专利申请公布2018/0273933)。测序能够确定靶分子的全部或一部分的序列。靶标可来源于初级核酸样品，诸如细胞核。在一个实施方案中，可通过将通用序列放置在每个靶片段的一端或两端，将靶标处理成适于扩增的模板。靶标也可通过逆转录成cDNA从初级RNA样品获得。在一个实施方案中，靶标用于提及细胞中存在的DNA、RNA或蛋白质的子集。靶向测序使用所关注基因或区域或蛋白质的选择和分离，通常通过PCR扩增(例如，区域特异性引物)或基于杂交的捕获方法或抗体。靶向富集可发生在该方法的各个阶段。例如，可使用逆转录步骤中的靶标特异性引物或更复杂文库的子集的基于杂交的富集来获得靶向RNA表示。一个示例是外显子组测序或L1000测定(Subramanian等人，2017年，Cell，第171卷，第1437–1452页)。靶向测序可包括本领域普通技术人员已知的任何富集过程。在一端或两端具有通用序列的靶核酸可被称为经修饰的靶核酸。除非另外指明，否则对核酸诸如靶核酸的提及包括单链核酸和双链核酸两者。在一个实施方案中，使用一个或多个索引序列富集文库。在一些实施方案中，富集涉及附接到相同文库分子的(例如，通过组合索引引入的)一个或多个索引序列。

如本文所用，当用于描述核苷酸序列时，术语“通用”是指两个或更多个核酸分子共有的序列区域，其中这些分子也具有彼此不同的序列区域。存在于分子集合的不同成员(例如，测序文库成员)中的通用序列可允许使用通用捕获序列的群体捕获多种不同核酸。通用捕获序列的非限制性示例包括与P5和P7引物相同或互补的序列。类似地，存在于分子集合的不同成员中的通用序列可允许使用与通用序列的一部分(例如，通用引物结合位点)互补的通用引物的群体来复制(例如，测序)或扩增多种不同核酸。当涉及通用引物结合位点时，可使用术语“A14”和“B15”。术语“A14’”(A14上撇号)和“B15’”(B15上撇号)分别指A14和B15的互补序列。应当理解，任何合适的通用引物结合位点都可用于本文所呈现的方法中，并且A14和B15的使用仅为示例性实施方案。在一个实施方案中，通用引物结合位点用作通用引物(例如，用于读段1或读段2的测序引物)退火至其进行测序的位点。

当涉及通用捕获序列或捕获寡核苷酸时，可使用术语“P5”和“P7”。术语“P5’”(P5上撇号)和“P7’”(P7上撇号)分别指P5和P7的互补序列。应当理解，任何合适的通用捕获序列或捕获寡核苷酸都可用于本文所呈现的方法中，并且P5和P7的使用仅为示例性实施方案。在流通池上使用捕获寡核苷酸诸如P5和P7或其互补序列是本领域已知的，如WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容所例示。例如，任何合适的正向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。类似地，任何合适的反向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。本领域的技术人员将理解如何设计和使用适用于捕获和/或扩增本文所呈现的核酸的引物序列。

如本文所用，术语“引物”及其派生词通常是指可与所关注序列杂交的任何核酸。通常，引物用作底物，核苷酸可通过聚合酶聚合到该底物上或核苷酸序列(诸如索引)可连接到该底物；然而，在一些实施方案中，引物可掺入合成的核酸链中并提供另一引物可与之杂交的位点，以引发与合成的核酸分子互补的新链的合成。引物可包括核苷酸或其类似物的任何组合。引物可以是单链的、双链的或包括单链区域和双链区域的核酸，并且可包括核糖核苷酸、脱氧核糖核苷酸、它们的类似物或它们的混合物。术语“多核苷酸”和“寡核苷酸”在本文中可互换使用。这些术语应理解为包括由核苷酸类似物制成的DNA、RNA、cDNA或抗体-寡核苷酸偶联物的类似物作为等同物，并且适用于单链(诸如有义或反义)和双链多核苷酸。如本文所用，该术语还涵盖cDNA，即由RNA模板例如通过逆转录酶的作用产生的互补DNA或拷贝DNA。该术语仅是指分子的主要结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。

如本文所用，术语“接头”及其派生词(例如，通用接头)通常是指可附接到本公开的核酸分子的任何线性寡核苷酸。在一些实施方案中，接头与样品中存在的任何靶序列的3'端或5'端基本上不互补。在一些实施方案中，合适的接头长度在约10-100个核苷酸、约12-60个核苷酸或约15-50个核苷酸的长度范围内。一般来讲，该接头可包括核苷酸和/或核酸的任何组合。在一些方面，接头可包括在一个或多个位置处的一个或多个可切割基团。在另一方面，接头可包括与引物(例如，通用引物)的至少一部分基本上相同或基本上互补的序列。在一些实施方案中，接头可包括条形码(在本文中也称为标签或索引)以有助于下游纠错、识别或测序。术语“衔接子”和“接头”可互换使用。

如本文所用，术语“每个”当用于提及项目的集合时，旨在识别集合中的单个项目，但不一定是指集合中的每个项目，除非上下文中另外明确指出。

如本文所用，术语“转运”是指分子通过流体移动。该术语可包括被动转运，例如分子沿其浓度梯度移动(例如，被动扩散)。该术语还可包括主动转运，分子可沿其浓度梯度或逆其浓度梯度移动。因此，转运可包括施加能量以将一个或多个分子沿期望方向或向期望位置(诸如扩增位点)移动。

如本文所用，“扩增”或“扩增反应”及其派生词通常是指核酸分子的至少一部分被复制或拷贝到至少一个另外的核酸分子中的任何动作或过程。另外的核酸分子任选地包含与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可为单链或的双链的，并且另外的核酸分子可独立地为单链的或双链的。扩增任选地包括线性或指数复制核酸分子。在一些实施方案中，这种扩增可使用等温条件进行；在其他实施方案中，这种扩增可包括热循环。在一些实施方案中，扩增是多重扩增，其包括在单个扩增反应中同时扩增多个靶序列。在一些实施方案中，“扩增”包括单独或组合扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链反应(PCR)。

如本文所用，“扩增条件”及其派生词通常是指适于扩增一个或多个核酸序列的条件。这种扩增可以是线性的或指数的。在一些实施方案中，扩增条件可包括等温条件，或者可包括热循环条件，或者等温条件和热循环条件的组合。在一些实施方案中，适用于扩增一个或多个核酸序列的条件包括聚合酶链反应(PCR)条件。通常，扩增条件是指足以扩增核酸(例如，侧接通用序列的一个或多个靶序列)或扩增连接到一个或多个接头的扩增的靶序列的反应混合物。一般来讲，扩增条件包括用于扩增或用于核酸合成的催化剂，例如聚合酶；与待扩增核酸具有一定程度互补性的引物；以及核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，从而一旦与核酸杂交就促进引物的延伸。扩增条件可能需要引物与核酸的杂交或退火、引物的延伸和其中延伸的引物与经历扩增的核酸序列分离的变性步骤。通常，但不是必须的，扩增条件可包括热循环；在一些实施方案中，扩增条件包括多个循环，其中重复退火、延伸和分离的步骤。通常，扩增条件包括阳离子诸如Mg²⁺或Mn²⁺，并且还可包括各种离子强度改性剂。

如本文所用，“再扩增”及其派生词通常是指通过任何合适的扩增过程(在一些实施方案中称为“二次”扩增)进一步扩增所扩增核酸分子的至少一部分，从而产生再扩增的核酸分子的任何过程。二次扩增不需要与产生扩增核酸分子的原始扩增过程相同；再扩增的核酸分子也不需要与扩增核酸分子完全相同或完全互补；所需要的仅仅是，再扩增的核酸分子包括扩增核酸分子或其互补序列的至少一部分。例如，再扩增可涉及使用不同的扩增条件和/或不同的引物，包括与一次扩增不同的靶标特异性引物。

如本文所用，术语“聚合酶链反应”(“PCR”)是指Mullis(美国专利第4,683,195号和第4,683,202号)的方法，其描述了用于在不进行克隆或纯化的情况下增加基因组DNA的混合物中所关注多核苷酸的区段的浓度的方法。该扩增所关注多核苷酸的方法包括将大量过量的两种寡核苷酸引物引入包含所需所关注多核苷酸的DNA混合物中，然后在存在DNA聚合酶的情况下进行一系列热循环。这两种引物与它们各自的所关注双链多核苷酸的链互补。首先将混合物在较高温度下变性，然后将引物与所关注多核苷酸分子内的互补序列退火。退火后，用聚合酶延伸引物以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可重复多次(称为热循环)，以获得高浓度的期望的所关注多核苷酸的扩增片段。期望的所关注多核苷酸(扩增子)的扩增片段的长度由引物相对于彼此的相对位置确定，因此，该长度是可控参数。由于重复该过程，该方法被称为PCR。因为所关注多核苷酸的期望扩增片段成为混合物中的主要核酸序列(就浓度而言)，所以认为它们是“PCR扩增的”。在上述方法的修改形式中，可使用多个不同的引物对(在一些情况下，每个所关注的靶核酸分子一个或多个引物对)PCR扩增靶核酸分子，从而形成多重PCR反应。

如本文所定义，“多重扩增”是指使用至少一种靶标特异性引物对样品内的两个或更多个靶序列进行选择性和非随机扩增。在一些实施方案中，进行多重扩增，使得靶序列中的一些或全部在单个反应容器内扩增。给定多重扩增的“重数”或“重”通常是指在单个多重扩增期间扩增的不同靶标特异性序列的数量。在一些实施方案中，重数可为约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更高。还可通过几种不同的方法来检测扩增的靶序列(例如，凝胶电泳，然后进行密度测定法、用生物分析仪或定量PCR进行定量、用标记探针进行杂交；掺入生物素酰化的引物，然后进行亲和素-酶偶联物检测；将³²P标记的脱氧核苷酸三磷酸掺入扩增的靶序列中)。

如本文所用，“扩增的靶序列”及其派生词通常是指通过使用靶标特异性引物和本文提供的方法扩增靶序列而产生的多核苷酸序列。扩增的靶序列可为与靶序列相同的有义(即，正链)或反义(即，负链)。

如本文所用，术语“连接”及其派生词通常指将两个或更多个分子共价连接在一起的过程，例如将两个或更多个核酸分子彼此共价连接。在一些实施方案中，连接包括接合核酸的相邻核苷酸之间的切口。在一些实施方案中，连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中，连接可包括在一个核酸的5'磷酸基团和第二核酸的3'羟基之间形成共价键，从而形成连接的核酸分子。一般来讲，出于本公开的目的，可将扩增的靶序列连接到接头以生成接头连接的扩增靶序列。

如本文所用，“连接酶”及其派生词通常是指能够催化两个底物分子的连接的任何试剂。在一些实施方案中，连接酶包括能够催化接合核酸的相邻核苷酸之间的切口的酶。在一些实施方案中，连接酶包括能够催化一个核酸分子的5'磷酸与另一个核酸分子的3'羟基之间形成共价键从而形成连接的核酸分子的酶。合适的连接酶可包括但不限于T4 DNA连接酶、T4RNA连接酶和大肠杆菌(E.coli)DNA连接酶。

如本文所用，“连接条件”及其派生词通常是指适于将两个分子彼此连接的条件。在一些实施方案中，连接条件适于密封核酸之间的切口或缺口。如本文所用，术语切口或缺口与本领域中术语的使用一致。通常，切口或缺口可在酶诸如连接酶的存在下并且在适当的温度和pH下连接。在一些实施方案中，T4 DNA连接酶可在约70℃至72℃的温度下接合核酸之间的切口。

如本文所用，术语“流通池”是指包括固体表面的室，一种或多种流体试剂可流过该固体表面。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例描述于例如以下中：Bentley等人，Nature，第456卷：第53-59页(2008年)；WO 04/018497、US7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US7,405,281和US 2008/0108082。

如本文所用，术语“扩增子”当用于提及核酸时，意指复制该核酸的产物，其中该产物具有与该核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种产生，所述扩增方法包括例如聚合酶延伸、聚合酶链反应(PCR)、滚环扩增(RCA)、连接延伸或连接酶链反应。扩增子可以是具有特定核苷酸序列的单拷贝(例如，PCR产物)或该核苷酸序列的多拷贝(例如，RCA的串联产物)的核酸分子。靶核酸的第一扩增子通常为互补拷贝。后续的扩增子是在生成第一扩增子后，由靶核酸或由第一扩增子形成的拷贝。

如本文所用，术语“扩增位点”是指阵列中或阵列上可生成一个或多个扩增子的位点。扩增位点还可被配置为包含、保持或附接在该位点生成的至少一个扩增子。

如本文所用，术语“阵列”是指可根据相对位置彼此区分的一组位点。位于阵列的不同位点处的不同分子可根据位点在阵列中的位置而彼此区分。阵列的单个位点可包含一种或多种特定类型的分子。例如，位点可包含具有特定序列的单个靶核酸分子，或者位点可包含具有相同序列(和/或其互补序列)的若干核酸分子。阵列的位点可以是位于同一基板上的不同特征。示例性特征包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊或基板中的通道。阵列的位点可以是各自带有不同分子的单独的基板。可根据基板在与基板相关联的表面上的位置，或者根据基板在液体或凝胶中的位置，来识别附接到单独基板的不同分子。其中单独的基板位于表面上的示例性阵列包括但不限于在孔中具有小珠的那些阵列。

如本文所用，术语“容量”当用于提及位点和核酸材料时，意指可占据该位点的核酸材料的最大量。例如，该术语可指在特定条件下可占据该位点的核酸分子的总数。也可使用其他度量，包括例如核酸材料的总质量或在特定条件下可占据该位点的特定核苷酸序列的拷贝总数。通常，靶核酸的位点的容量将基本上等于靶核酸的扩增子的位点的容量。

如本文所用，术语“捕获剂”是指能够附接、保留或结合靶分子(例如，靶核酸)的材料、化学物质、分子或其部分。示例性捕获剂包括但不限于与靶核酸的至少一部分互补的捕获序列(在本文中也称为捕获寡核苷酸)、能够与靶核酸(或与其附接的连接部分)结合的受体-配体结合对的成员(例如，亲和素、链霉亲和素、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)，或能够与靶核酸(或与其附接的连接部分)形成共价键的化学试剂。

如本文所用，术语“报告基因部分”可指能够确定所研究的靶标的组成、种类和/或来源的任何可识别标签、标记、索引、条形码或基团。在一些实施方案中，报告基因部分可包含特异性结合到蛋白质的抗体。在一些实施方案中，抗体可包含可检测标记。在一些实施方案中，报告基因可包含用核酸标签标记的抗体或亲和试剂。在一个实施方案中，核酸足够长以用作转座体复合物的底物。在一个实施方案中，核酸标签可以是可检测的，例如，通过邻近连接测定(PLA)或邻近延伸测定(PEA)或基于测序的读数(Shahi等人，ScientificReports，第7卷，文章编号：44447，2017年)或基于表位的读数诸如CITE-seq(Stoeckius等人，Nature Methods，第14卷：第865–868页，2017年)。

如本文所用，术语“克隆群体”是指相对于特定核苷酸序列而言是同源的核酸群体。同源序列通常为至少10个核苷酸长，但甚至可以更长，包括例如至少50、100、250、500或1000个核苷酸长。克隆群体可来源于单个靶核酸或模板核酸。通常，克隆群体中的所有核酸将具有相同的核苷酸序列。应当理解，在不脱离克隆性的情况下，少量突变(例如，由于扩增伪影(amplification artifact))可发生在克隆群体中。

如本文所用，术语“唯一分子标识符”或“UMI”是指可附接到核酸的随机、非随机或半随机的分子标签。当掺入核酸中时，通过直接计数扩增后测序的唯一分子标识符(UMI)，UMI可用于校正后续扩增偏差。

如本文所用，“外源性”化合物(例如，外源性酶)是指通常或天然存在于特定组合物中的化合物。例如，当特定组合物包括细胞裂解物时，外源性酶不是通常或天然存在于细胞裂解物中的酶。

如本文所用，在例如组合物、制品、核酸或细胞核的上下文中，“提供”意指制备组合物、制品、核酸或细胞核，购买组合物、制品、核酸或细胞核，或以其他方式获得化合物、组合物、制品或细胞核。

术语“和/或”意指所列要素中的一个或全部，或所列要素中的任何两个或更多个的组合。

词语“优选的”和“优选地”是指在某些情况下可提供某些益处的本公开的实施方案。然而，在相同或其他情况下，其他实施方案也可以是优选的。此外，对一个或多个优选实施方案的表述并不暗示其他实施方案是不可用的，并且并非旨在将其他实施方案排除在本公开的范围之外。

术语“包括”及其变型在说明书和权利要求书中出现这些术语时不具有限制的含义。

应当理解，在本文以语言“包括”、“包含”或“含有”等描述实施方案的任何地方，还提供了以“由…组成”和/或“基本上由…组成”描述的其他类似实施方案。

除非另外指明，否则“一个”、“一种”、“该”和“至少一个”可互换使用，表示一个或多于一个。

同样在本文中，通过端点表述的数值范围包括该范围内所包含的所有数值(例如，1至5包括1、1.5、2、2.75、3、3.80、4、5等)。

对于本文所公开的包括离散步骤的任何方法，这些步骤可以任何可行的顺序进行。并且，视情况而定，两个或更多个步骤的任何组合可同时进行。

本说明书通篇提及的“一个实施方案”、“实施方案”、“某些实施方案”或“一些实施方案”等意指结合该实施方案描述的特定特征、构型、组成或特性包括在本公开的至少一个实施方案中。因此，本说明书通篇的多处出现的此类短语不一定指本公开的相同实施方案。此外，在一个或多个实施方案中，特定特征、构型、组成或特性可以任何合适的方式组合。

附图说明

当结合以下附图阅读时，可最好地理解本公开的例示性实施方案的以下详细描述。

图1A和图1B示出了根据本公开的用于单细胞组合索引的一般例示性方法的不同实施方案的一般框图。

图2示出了如图1A的方法中大体示出的用于单细胞组合索引的方法的示意图。为简单起见，仅示出了一个双链靶核酸。

图3示出了根据本公开的用于单细胞组合索引的一般例示性方法的一个实施方案的一般框图。

图4示出了根据本公开的用于单细胞组合索引的一般例示性方法的一个实施方案的一般框图。

图5示出了如图1、图3或图4的方法中大体示出的用于单细胞组合索引的方法的示意图。为简单起见，仅示出了一个双链靶核酸。

图6示出了根据本公开的用于具有单细胞组合索引的元基因组学分析的一般例示性方法的一个实施方案的一般框图。

图7示出了根据本公开的用于产生具有连续索引的测序文库的一般例示性方法的一个实施方案的示意图。

图8示出了根据本公开的用于将富集与靶向扩增偶联的一般例示性方法的一个实施方案的示意图。

图9示出了sci-ATAC-seq3的示意图。用大量Tn5转座酶标签化来自59个胎儿样品的160万个细胞的细胞核。前两轮加索引通过连续连接到Tn5转座酶复合物的每一端来实现，并且第三轮通过PCR来实现。第一轮加索引用作样品索引。

图10示出了由实施例1中所述的sci-ATAC-seq3产生的扩增子的结构。

图11示出了实施例2中所述的项目工作流程。

示意图未必按比例绘制。附图中使用的类似标号是指类似的部件、步骤等。然而，应当理解，在给定附图中使用数字来指代部件并非旨在限制在另一附图中用相同数字标记的部件。此外，使用不同的数字来指代部件并非旨在指示不同编号的部件不能与其他编号的部件相同或类似。

具体实施方式

本文所提供的方法可用于由多个单细胞产生测序文库。基本上可使用任何单细胞核或单细胞文库制备方法或测序方法，包括但不限于：单细胞组合索引方法，诸如单细胞核的转座子可及性染色质测序(sci-ATAC，美国专利第10,059,989号)、单细胞核的全基因组测序(美国专利申请公布US2018/0023119)、单细胞核转录组测序(美国临时专利申请第62/680,259号和Gunderson等人(WO2016/130704))、sci-HiC(Ramani等人，Nature Methods，2017年，第14卷：第263-266页)、DRUG-seq(Ye等人，Nature Commun.，第9卷，文章号4307)、或来自DNA和蛋白质的分析物的任何组合，例如sci-CAR(Cao等人，Science，2018年，第361卷第6409期：第1380-1385页)，以及来自RNA和蛋白质的分析物的任何组合，例如CITE-seq(Stoeckius等人，2017年，Nature Methods.，第14卷第9期：第865-868页)。在一个实施方案中，细胞图谱实验可用限于染色质可及性的DNA、全细胞转录组、有限数量的高度信息化的mRNA或其组合的读数来进行。

提供分离的细胞核或细胞

在一个实施方案中，本文所提供的方法可包括提供细胞或来自多个细胞的分离的细胞核(例如，图1A的框10、图3的框30、图4的框40、图6的框600)。细胞可来自任何生物体，以及来自生物体的任何细胞类型或任何组织。在一个实施方案中，细胞可来自活检，诸如组织或液体活检。在一个实施方案中，细胞可以是胚胎细胞，例如从胚胎中获得的细胞。在一个实施方案中，细胞或细胞核可来自癌症或患病组织。在一个实施方案中，细胞或细胞核可以是免疫细胞，诸如T细胞或B细胞。在一个实施方案中，细胞可以是从单个生物体获得的多种不同细胞类型。在一个实施方案中，从单个生物体获得的多种不同的细胞类型可包括微生物细胞(包括原核细胞和/或真核细胞)。在一个实施方案中，来自不同来源(例如，不同生物体和/或不同组织)的细胞在该阶段不进行组合。在一个实施方案中，来自不同来源(例如，不同生物体和/或不同组织)的细胞在该阶段进行组合。

在一个实施方案中，所述多个细胞可以是较大细胞群体的子集。可基于细胞表面上的可识别分子如蛋白质或聚糖在例如尺寸、形态或存在方面的差异，将该子集与其他细胞分离。用于分选细胞的方法是本领域已知的，并且包括荧光激活细胞分选、磁激活细胞分选和微流体细胞分选。

该方法还可包括解离细胞和/或分离细胞核。在一个实施方案中，使用维持染色质存在于细胞核中的条件。在一个实施方案中，细胞核中存在的核小体被耗尽。用于耗尽核小体的方法是技术人员已知的(美国已公布专利申请2018/002311)。

许多不同的单细胞文库制备方法是本领域已知的。(Hwang等人，Experimental&Molecular Medicine，第50卷，文章编号：96(2018年))，包括但不限于Drop-seq、Seq-well和单细胞组合索引(“sci-”)方法。提供单细胞产品和相关技术的公司包括但不限于：10XGenomics、Takara biosciences、BD biosciences、Biorad、1cellbio、IsoPlexis、CellSee、NanoCellect和Dolomite Bio。Sci-seq是采用分裂池条形码独特标记大量单细胞或细胞核的核酸内容物的方法框架。通常，细胞核或细胞的数量可为至少两个。上限取决于本文所述方法的其他步骤中使用的设备的实际限制(例如，多孔板、索引数量)。可使用的细胞核或细胞的数量并非旨在受到限制，相反可以数十亿计。例如，在一个实施方案中，细胞核或细胞的数量可不大于1,000,000,000、不大于100,000,000、不大于10,000,000、不大于1,000,000、不大于100,000、不大于10,000、不大于1,000、不大于500或不大于50。在一个实施方案中，细胞核或细胞的数量可以是至少50个、至少500个、至少1,000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000或至少1,000,000,000个。

在使用分离的细胞核的那些实施方案中，该细胞核可通过提取和固定获得。任选地且优选地，获得分离的细胞核的方法不包括酶处理。

在一个实施方案中，细胞核分离自贴壁的或悬浮的单个细胞。用于从单个细胞中分离细胞核的方法是本领域普通技术人员已知的。通常从存在于组织中的细胞分离细胞核。用于获得分离的细胞核的方法通常包括准备组织、从准备的组织中分离细胞核然后固定该细胞核。在一个实施方案中，所有步骤均在冰上完成。

在一个实施方案中，组织准备包括在液氮中快速冷冻组织，然后将组织的尺寸减小至直径为1mm或更小的碎片。可通过将组织切碎或向其施加钝力来减小组织的尺寸。可用刀片实现切碎，以将组织切成小片。可通过用锤或类似物体猛击组织来实现施加钝力，并且破碎组织的所得组合物被称为粉末。

可通过将碎片或粉末在细胞裂解缓冲液中温育至少1分钟至20分钟，诸如5、10或15分钟来完成细胞核分离。可用的缓冲液是促进细胞裂解但保持核完整性的那些。细胞裂解缓冲液的示例包括10mM Tris-HCl(pH 7.4)、10mM NaCl、3mM MgCl2、0.1％IGEPAL CA-630、RNA酶抑制剂中的1％超吸收酶(20U/μL，Ambion)和1％BSA(20mg/mL，NEB)。标准细胞核分离方法通常使用一种或多种外源性化合物(诸如外源性酶)以助于分离。可存在于细胞裂解缓冲液中的可用的酶的示例包括但不限于：蛋白酶抑制剂、溶菌酶、蛋白酶K、表面活性剂、溶葡球菌酶、消解酶、纤维素、蛋白酶或糖苷酶等等(Islam等人，Micromachines(Basel)，2017年，第8卷第3期：第83页；www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html？TablePage＝14573107)。在一个实施方案中，一种或多种外源性酶不存在于用于本文所述方法的细胞裂解缓冲液中。例如，外源性酶(i)在细胞和裂解缓冲液混合之前不添加到细胞中，(ii)在其与细胞混合之前不存在于细胞裂解缓冲液中，(iii)不添加到细胞和细胞裂解缓冲液的混合物中，或上述条件的组合。技术人员将认识到，可在不降低细胞裂解缓冲液分离细胞细胞核的有效性的情况下，一定程度地改变组分的这些水平。然后通过用细胞核缓冲液进行多轮洗涤中的一轮洗涤来纯化提取的细胞核。细胞核缓冲液的示例包括10mM Tris-HCl(pH 7.4)、10mM NaCl、3mM MgCl2、RNA酶抑制剂中的1％超吸收酶(20U/μL，Ambion)和1％BSA(20mg/mL，NEB)。与细胞裂解缓冲液类似，在本公开的方法中使用的细胞核缓冲液中也可不存在外源性酶。技术人员将认识到，可在不降低细胞核缓冲液分离细胞核的有效性的情况下，一定程度地改变组分的这些水平。技术人员将认识到，BSA和/或表面活性剂可在用于分离细胞核的缓冲液中使用。

通过暴露在交联剂下固定分离的细胞核。交联剂的可用示例包括但不限于多聚甲醛和甲醛。多聚甲醛的浓度可以是1％至8％，诸如4％。甲醛的浓度可以是30％至45％，诸如37％。用交联剂处理细胞核可包括将该交联剂添加到细胞核的悬浮液中并且在0℃下温育。其他固定方法包括但不限于甲醇固定。任选且优选地，固定之后在细胞核缓冲液中洗涤。

分离的固定细胞核可立即使用或分装后液氮速冻备用。当冷冻后准备使用时，解冻的细胞核可例如在冰上用0.2％triton X-100透化3分钟，并短暂超声处理以减少细胞核聚集。

常规的组织细胞核提取技术通常将组织与组织特异性酶(例如，胰蛋白酶)在高温(例如，37℃)下温育30分钟至数小时，然后用细胞裂解缓冲液裂解细胞以进行细胞核提取。本文所述的细胞核分离方法具有若干优点：(1)不引入人工酶，并且所有步骤均在冰上完成。这减少了对细胞状态(例如，染色质组织或转录组状态)的潜在扰动。(2)新方法已在大多数组织类型中得到验证，该组织类型包括脑、肺、肾、脾、心脏、小脑和疾病样品诸如肿瘤组织。与针对不同组织类型使用不同酶的常规组织细胞核提取技术相比，当比较来自不同组织的细胞状态时，新技术可潜在地减少偏差。(3)新方法还通过移除酶处理步骤来降低成本并提高效率。(4)与其他细胞核提取技术(例如，杜恩斯组织匀浆器)相比，新技术对不同组织类型更稳健(例如，杜恩斯方法需要针对不同组织优化杜恩斯循环)，并且能够以高通量处理大片样品(例如，杜恩斯方法限于匀浆器的尺寸)。

任选地，分离的细胞核可以不含核小体或可经受耗尽细胞核的核小体的条件，从而产生耗尽核小体的细胞核。

通用序列的插入

本文提供的方法包括将一个或多个通用序列插入到存在于细胞核或细胞中的核酸中。在一个实施方案中，掺入一个或多个通用序列发生在分配子集之前(图1A的框11、图1B的框110)，并且在其他实施方案中，掺入一个或多个通用序列发生在分配子集之后(图3的框32、图4的框42、框45)。在一些实施方案中，索引也可与通用序列结合，或可作为与一个或多个通用序列的插入分开的可选步骤与细胞或细胞核相关联。细胞核或细胞的可选加索引可发生在通用序列的插入之前或之后(图1A的框12)。在一个实施方案中，在分配细胞核或细胞的子集之前将索引添加到样品(图1A的框13)。在一些实施方案中，在分配细胞核或细胞的子集之前将索引添加到多个样品(图1A的框13)。

在一个实施方案中，使用转座体复合物。转座体复合物是结合到转座酶识别位点的转座酶并且可将转座酶识别位点插入细胞核内的靶核酸中，这一过程有时被称为“片段标签化”。在一些此类插入事件中，转座酶识别位点的一条链可被转移到靶核酸中。这条链被称为“转移链”。在一个实施方案中，转座体复合物包括具有两个亚基和两个非连续转座子序列的二聚转座酶。在另一个实施方案中，转座酶包括具有两个亚基和连续转座子序列的二聚转座酶。在一个实施方案中，转座酶识别位点的一条链或两条链的5'端可被磷酸化。

一些实施方案可包括使用超高活性Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff，J.Biol.Chem.，第273卷：第7367页(1998年))，或MuA转座酶和包含R1和R2末端序列的Mu转座酶识别位点(Mizuchi，K.，Cell，第35卷：第785页，1983年；Savilahti，H等人，EMBOJ.，第14卷：第4893页，1995年)。技术人员也可使用Tn5嵌合端(ME)序列。

可与本文提供的组合物和方法的某些实施方案一起使用的转座系统的更多示例包括金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio等人，J.Bacteriol.，第183卷：第2384-2388页，2001年；Kirby C等人，Mol.Microbiol.，第43卷：第173-186页，2002年)、Ty1(Devine和Boeke，Nucleic Acids Res.，第22卷：第3765-3772页，1994年和国际公布WO 95/23875)、转座子Tn7(Craig,N L，Science，第271卷：第1512页，1996年；Craig,N L的综述，Curr Top Microbiol Immunol.，第204卷：第27-48页，1996年)、Tn/O和IS10(Kleckner N等人，Curr Top Microbiol Immunol.，第204卷：第49-82页，1996年)、Mariner转座酶(Lampe D J等人，EMBO J.，第15卷：第5470-5479页，1996年)、Tc1(Plasterk R H，Curr.Topics Microbiol.Immunol.，第204卷：第125-143页，1996年)、P转座子(P Element)(Gloor,G B，Methods Mol.Biol.，第260卷：第97-114页，2004年)、Tn3(Ichikawa和Ohtsubo，J Biol.Chem.第265卷：第18829-18832页，1990年)、细菌插入序列(Ohtsubo和Sekine，Curr.Top.Microbiol.Immunol.，第204卷：第1-26页，1996年)、逆转录病毒(Brown等人，Proc Natl Acad Sci USA，第86卷：第2525-2529页，1989年)和酵母的反转录转座子(Boeke和Corces，Annu Rev Microbiol.，第43卷：第403-434页，1989年)。更多的示例包括IS5、Tn10、Tn903、IS911以及转座酶家族酶的工程化形式(Zhang等人，(2009年)PLoSGenet.，第5卷：第e1000689页电子期刊2009年10月16日；Wilson C.等人(2007年)J.Microbiol.Methods，第71卷：第332-335页)。

可与本文提供的方法和组合物一起使用的整合酶的其他示例包括逆转录病毒整合酶和此类逆转录病毒整合酶的整合酶识别序列，诸如来自HIV-1、HIV-2、SIV、PFV-1、RSV的整合酶。

美国专利申请公布2012/0208705、美国专利申请公布2012/0208724和国际专利申请公布WO 2012/061832中提供了可与本文所述的方法和组合物一起使用的转座子序列。在一些实施方案中，转座子序列包括第一转座酶识别位点和第二转座酶识别位点。

本文可用的一些转座体复合物包括具有两个转座子序列的转座酶。在一些此类实施方案中，这两个转座子序列彼此不连接，换句话讲，转座子序列彼此不连续。此类转座体的示例是本领域已知的(参见例如，美国专利申请公布2010/0120098)。

在一个实施方案中，片段标签化用于产生在每一端包含不同通用序列(例如，一端处的通用引物结合位点诸如A14，以及另一端处的通用引物结合位点诸如B15)的靶核酸。这可通过使用两种类型的转座体复合物来实现，其中每种转座体复合物包含作为转移链的一部分的不同核苷酸序列。通用序列可用于多种目的。例如且不旨在进行限制，通用序列可在后续扩增步骤中用作杂交的互补序列，以添加另一核苷酸序列(例如，索引)，该核苷酸序列可充当通用引物(例如，用于读段1或读段2的测序引物))退火至其进行测序的位点，或者可在后续步骤中充当“着陆区”以退火核苷酸序列，该核苷酸序列可用作将另一核苷酸序列(诸如索引)添加到靶核酸的引物。

在一些实施方案中，转座体复合物包括转座子序列核酸，该转座子序列核酸结合两个转座酶亚基以形成“环状复合物”或“环状转座体”。在一个示例中，转座体包括二聚转座酶和转座子序列。环状复合物可确保转座子插入到靶DNA中，同时保持原始靶DNA的排序信息而不会使靶DNA片段化。应当理解，环状结构可将期望核酸序列诸如通用序列插入到靶核酸中，同时保持靶核酸的物理连接性。在一些实施方案中，环状转座体复合物的转座子序列可包括片段化位点，使得转座子序列可被片段化以产生包括两个转座子序列的转座体复合物。此类转座体复合物可用于确保其中插入转座子的相邻靶DNA片段接受可在测定的后续阶段明确组装的条形码组合。在一个实施方案中，在将一个或多个通用序列插入到靶核酸中之后添加索引组合。

在一个实施方案中，通过使用存在于核酸中的片段化位点来实现片段化核酸。通常，通过使用转座体复合物将片段化位点引入靶核酸中。在一个实施方案中，在核酸片段化后，转座酶保持附接到核酸片段，使得来源于相同基因组DNA分子的核酸片段仍保持物理连接(Adey等人，2014年，Genome Res.，第24卷：第2041-2049页；Amini S.等人，(2014年)，NatGenet，第46卷：第1343-1349页)。例如，环状转座体复合物可包括片段化位点。片段化位点可用于切割已掺入靶核酸的索引序列之间的物理关联，但不能切割这些索引序列之间的信息关联。切割可通过生物化学、化学或其他方式进行。在一些实施方案中，片段化位点可包括可通过各种方式片段化的核苷酸或核苷酸序列。片段化位点的示例包括但不限于限制性内切核酸酶位点、可用RNA酶切割的至少一种核糖核苷酸、在某种化学试剂的存在下可切割的核苷酸类似物、可通过用高碘酸盐处理来切割的二醇键、可用化学还原剂切割的二硫化物基团、可经受光化学切割的可切割部分，以及可通过肽酶或其他合适的方式切割的肽(参见，例如，美国专利申请公布2012/0208705、美国专利申请公布2012/0208724和WO 2012/061832中)。在一个实施方案中，转座酶保持附接到核酸片段并保持来源于相同基因组DNA分子的核酸片段之间的物理连接，直到通过使用适当的条件移除，诸如添加蛋白质变性剂(例如，SDS)或螯合剂(例如，EDTA)。这种类型的方法允许通过捕获连续连接的、转座的靶核酸来推导邻近性信息(美国专利申请第2019/0040382号)。邻近性信息可通过使用转座酶来保持靶核酸中相邻的模板核酸片段的关联来保留。

作为转座的替代，靶核酸可通过片段化获得。从样品中片段化初级核酸可通过酶促、化学或机械方法以无序的方式完成，然后将接头添加至片段的末端。酶促片段化的示例包括CRISPR和Talen样酶，以及解开DNA的酶(例如，解旋酶)，这些酶可形成单链区域，DNA片段可与该单链区域杂交并引发延伸或扩增。例如，可使用基于解旋酶的扩增(Vincent等人，2004年，EMBO Rep.，第5卷第8期：第795-800页)。在一个实施方案中，用随机引物引发延伸或扩增。机械片段化的示例包括雾化或超声处理。

通过机械方式对初级核酸进行片段化会产生具有平端和3'-悬端和5'-悬端的异质混合物的片段。因此，希望使用本领域已知的方法修复片段末端，以生成最适合将接头添加到例如平端位点的末端。在一个具体实施方案中，核酸群体的片段末端是平端。更具体地，片段末端是平端且磷酸化的。可经由酶处理例如使用多核苷酸激酶引入磷酸部分。

在一个实施方案中，片段化的核酸用悬突的核苷酸制备。例如，单个悬突的核苷酸可通过某些类型的DNA聚合酶诸如Taq聚合酶或Klenow exo-聚合酶的活性来添加，该聚合酶具有将单个脱氧核苷酸(例如，核苷酸“A”)添加到DNA分子的3'端的非模板依赖性末端转移酶活性。此类酶可用于将单个核苷酸“A”添加到双链核酸片段的每条链的平端3'末端。因此，可通过与Taq或Klenow exo-聚合酶反应将“A”添加到双链靶标片段的每个末端修复链的3'末端，而接头可为具有在通用接头的双链核酸的每个区域的3'末端上存在的相容“T”悬端的T构建体。在一个示例中，末端脱氧核苷酸转移酶(TdT)可用于添加多个“T”核苷酸(Swift Biosciences,Ann Arbor,MI)。这种类型的末端修饰还防止载体和靶标两者的自连接，从而倾向于形成在每一端具有相同接头的靶核酸。

初级核酸可以是DNA、RNA或DNA/RNA杂交体。在初级核酸为RNA的那些实施方案中，将一个或多个通用序列掺入细胞核或细胞中存在的核酸中通常包括将RNA转化成DNA。可使用各种方法，并且在一些实施方案中，各种方法包括用于产生cDNA的常规方法。例如，可将在3'端具有聚T序列并且在聚T序列上游具有接头的引物与mRNA分子退火，并使用逆转录酶进行延伸。这导致mRNA一步转化成DNA，并且任选地将通用序列转化成3'端。在一个实施方案中，引物还可包括一个或多个索引序列。在一个实施方案中，使用随机引物。

也可使用多种方法将非编码RNA转化成DNA并任选地进行修饰以包含通用序列。例如，可使用模板转换引物和包含随机序列的第一引物来添加接头，其中任一引物可包含通用序列接头。可使用具有末端转移酶活性的逆转录酶，以将非模板核苷酸添加到合成链的3'端，并且模板转换引物包括与逆转录酶所添加的非模板核苷酸退火的核苷酸。可用的逆转录酶的示例为莫洛尼鼠白血病病毒逆转录酶。在一个具体实施方案中，可得自TakaraBio USA,Inc.的SMARTer^TM试剂(目录号634926)被用于使用模板转换将通用序列添加到非编码RNA和mRNA(如果需要)。任选地，模板转换引物可与mRNA一起使用，并且结合带有聚T序列的引物，以将通用序列添加至由RNA产生的DNA靶核酸的两端。

分配子集

本文提供的方法包括将分离的细胞核或细胞的子集分配到多个隔室中(图1A的框13、图1B的框115、图3的框31、图4的框41、框44)。该方法可包括多个分配步骤，其中将分离的细胞核或细胞群体(在本文中也被称为池)拆分成子集。通常，用隔室特异性索引对分离的细胞核或细胞的子集(例如，存在于多个隔室中的子集)加索引，然后将其合并。因此，该方法通常包括至少一个“拆分和合并”步骤：获取合并的分离的细胞核或细胞，将其分配，并添加隔室特异性索引，其中“拆分和合并”步骤的数量可取决于添加到靶核酸的不同索引的数量。相比于其他子集，加索引之前的细胞核或细胞的每个初始子集可以是独特的。例如，每个第一子集可来自独特样品，诸如独特生物体或独特组织。在加索引之后，可将这些子集合并、拆分成子集、加索引，并且根据需要再次合并，直到将足够数量的索引添加到靶核酸。该过程为每个单细胞或细胞核指定唯一索引或索引组合，并且得到本文所述的组合索引。在加索引完成后，例如在添加一个、两个、三个或更多个索引之后，可裂解分离的细胞核或细胞。在一些实施方案中，添加索引和裂解可同时进行。

子集中以及因此每个隔室中存在的细胞核或细胞的数量可为至少1。在一个实施方案中，存在于子集中的细胞核或细胞的数量不大于100,000,000、不大于10,000,000、不大于1,000,000、不大于100,000、不大于10,000、不大于4,000、不大于3,000、不大于2,000、或不大于1,000、不大于500、或不大于50。在一个实施方案中，存在于子集中的细胞核或细胞的数量可以是1至1,000、1,000至10,000、10,000至100,000、100,000至1,000,000、1,000,000至10,000,000、或10,000,000至100,000,000。在一个实施方案中，存在于每个子集中的细胞核或细胞的数量大约相等。存在于子集中以及因此存在于每个隔室中的细胞核或细胞的数量部分地基于减少索引冲突的期望，索引冲突是指在该方法的该步骤中，存在两个具有相同索引组合的细胞核或细胞最终位于同一隔室中。用于将细胞核或细胞分配到子集中的方法是本领域技术人员已知的，并且是常规方法。虽然可使用荧光激活细胞分选(FACS)细胞术，但在一些实施方案中，也可优选地使用简单稀释。在一个实施方案中，不使用FACS细胞术。任选地，不同倍性的细胞核可通过染色(例如，DAPI(4’,6-二脒基-2-苯基吲哚)染色)进行门控和富集。染色也可用于在分选过程中将单细胞与双重体区分开。

分配步骤(以及后续的添加索引步骤)中的隔室数量可取决于所用的形式。例如，隔室数量可为2至96个隔室(当使用96孔板时)、2至384个隔室(当使用384孔板时)或2至1536个隔室(当使用1536孔板时)。在一个实施方案中，可使用多个板。隔室的示例包括但不限于孔、小滴和微流体隔室。在一个实施方案中，每个隔室可为小滴。当所用隔室的类型为包含两个或更多个细胞核或细胞的小滴时，可使用任何数量的小滴，诸如至少10,000、至少100,000、至少1,000,000、或至少10,000,000个小滴。通常在合并之前在隔室中对分离的细胞核或细胞的子集加索引。

组合索引

本文所提供的方法包括将隔室特异性索引添加到存在于样品中的细胞核或细胞(图1B的框112)或添加到被分配到不同隔室的分离的细胞核或细胞的子集(例如，图1A的框14、图3的框32、图4的框42和框45、图6的框601)。在一些实施方案中，也可用索引掺入通用序列。索引序列(也称为标签或条形码)可用作其中存在特定核酸的隔室的标记特征。因此，在一些实施方案中，索引是附接到存在于特定隔室中的靶核酸中的每一者的核酸序列标签，索引的存在指示或用于识别在该方法的特定阶段中存在分离的细胞核或细胞群体的隔室。

在一个实施方案中，添加多个索引。每个索引的掺入发生在一轮拆分和合并索引中。一轮、两轮、三轮或更多轮拆分和合并条形码产生带单个、两个、三个或多个(例如，四个或更多个)索引的靶核酸。

索引可添加到靶核酸的一端或两端。例如，具有两个或更多个索引的经修饰的靶核酸可在每一端包括不同的索引，图5A中示出了其示例。在图5A中，靶核酸55被修饰成包括四个不同的索引，在一端处有两个索引(51和52)，并且在另一端处有两个索引(53和54)。在其他实施方案中，经修饰的靶核酸可包括在一端或两端处聚集在一起的索引，图5B中示出了其示例。在图5B中，靶核酸56被修饰成在每一端处包括四个不同的索引(51、52、53和54)。存在于靶核酸的一端上的一组索引可被称为“连续索引”。在一个实施方案中，连续索引在每个索引之间不具有核苷酸。在其他实施方案中，可存在位于连续索引的一个或多个索引之间的1、2、3、4或更多个核苷酸。如本文所述，连续索引可用于鉴定具有一组特定索引的文库成员。例如，连续索引可有利于富集源自同一细胞的文库成员。

索引序列可以是任何合适数量的核苷酸长度，例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多。四核苷酸标签提供在同一阵列上复用256个样品的可能性，并且六碱基标签使得能够在同一阵列上处理4096个样品。

在一个实施方案中，在由例如转座体复合物将通用序列掺入到细胞核或细胞的DNA核酸中之后添加索引。掺入索引序列可使用包括一个、两个或更多个步骤的过程，使用连接、延伸、杂交、吸附、引物的特异性或非特异性相互作用或扩增的基本上任何组合。在一个实施方案中，在cDNA合成期间添加索引。在一个实施方案中，通过片段标签化来添加索引。添加到靶核酸的一端或两端的核苷酸序列还可包括其他可用的序列，诸如一个或多个通用序列和/或唯一分子标识符。

可使用各种方法向包含通用序列的核酸添加索引，并且如何添加索引并非旨在进行限制。在一个实施方案中，靶核酸在每一端具有不同的通用序列(例如，在一端的A14和在另一端的B15)，并且技术人员将认识到可将特定序列添加到靶核酸的一端或两端。转座体复合物所添加的通用序列可用作例如后续步骤中的“着陆区”以退火核苷酸序列，该核苷酸序列可用作将另一核苷酸序列(诸如另一索引和/或另一通用序列)添加到靶核酸的引物。例如，在一个实施方案中，掺入索引序列包括将引物连接到核酸的一端或两端。在靶核酸的每一端存在通用序列可有助于引物的连接。引物的示例为发夹连接双链体。可将连接双链体连接到靶核酸的一端或优选地两端。

在一个实施方案中，可使用平端连接。在另一个实施方案中，具有单个悬突的核苷酸的靶核酸通过例如某些类型的DNA聚合酶(诸如Taq聚合酶或Klenow exo-聚合酶)的活性来制备，该聚合酶具有将一个或多个脱氧核苷酸(例如，脱氧腺苷(A))添加到靶核酸的3'端的非模板依赖性末端转移酶活性。在一些情况下，悬突的核苷酸多于一个碱基。此类酶可用于将单个核苷酸“A”添加到靶核酸的每条链的平端3'末端。因此，可通过与Taq或Klenowexo-聚合酶反应将“A”添加到双链靶片段的每条链的3'末端，而待添加到靶核酸的每一端的附加序列可包括存在于待添加的双链核酸的每个区域的3'末端上的相容“T”悬端。该末端修饰还防止核酸自连接，从而倾向于形成侧接在该实施方案中添加的序列的带索引靶核酸。

在一个实施方案中，通过指数扩增反应诸如PCR掺入索引。存在于靶核酸末端的通用序列可用于对可用作引物并且在扩增反应中延伸的序列的退火。

可在单个步骤或多个步骤中添加索引和其他可用序列。例如，可通过连接或延伸来添加索引和任何其他可用序列，或者可使用两步法，该两步法包括例如连接通用序列，然后进行扩增以进一步修饰通用序列，从而包括索引和任何其他可用序列。

在一个实施方案中，在加索引步骤期间添加序列增加了用于对靶核酸进行固定和/或测序的通用序列。在另一个实施方案中，可进一步处理带索引靶核酸以添加用于对靶核酸进行固定和测序的通用序列。技术人员将认识到，在隔室是小滴的实施方案中，用于固定核酸片段的序列是可选的。在一个实施方案中，可用于对片段进行固定和测序的通用序列的掺入包括将相同的通用接头(也称为“错配接头”，其一般特征在Gormley等人，US 7,741,463和Binoell等人，US 8,053,192中有所描述)连接到带索引的核酸片段的5'端和3'端。在一个实施方案中，通用衔接子包括测序所必需的所有序列，包括将带索引的核酸片段固定在阵列上的序列。

所得的带索引片段共同提供可进行固定然后测序的核酸文库。术语“文库”(在本文中也称为“测序文库”)是指来自在其3'端和5'端含有已知通用序列和各种索引组合的单个细胞核或细胞的靶核酸集合。文库包括来自例如可及性DNA、全基因组或全转录组的核酸、指示特定蛋白质的核酸或它们的组合，并且可用于进行测序。

可使带索引的核酸片段经受针对预定大小范围(诸如150至400个核苷酸的长度，诸如150至300个核苷酸)进行选择的条件。将所得的带索引的核酸片段合并，并且任选地可使其经受净化处理，以通过移除未掺入的通用接头或引物的至少一部分来提高DNA分子的纯度。可使用任何合适的净化处理，诸如电泳、尺寸排阻色谱法等。在一些实施方案中，固相可逆固定顺磁珠可用于从未附接的通用接头或引物中分离所需DNA分子，并且基于大小选择核酸。固相可逆固定顺磁珠可从贝克曼库尔特公司(Beckman Coulter)(Agenhe AMPureXP)、赛默飞世尔公司(Thermofisher)(MagJet)、欧米茄生物技术公司(Mag-Bind)、PromegaBeads公司(Promega)和Kapa生物系统公司(Kapa Pure Beads)商购获得。

图1A中示出了本公开的一个非限制性例示性实施方案。在该实施方案中，该方法包括提供多个细胞核或细胞(图1A的框10)。所述多个细胞核或细胞可来自一个或多个样品。该方法还包括将一个或多个通用序列掺入到存在于细胞核或细胞中的核酸中(图1A的框11)。任选地，该方法还可包括将索引关联到细胞核或细胞(例如，细胞核或细胞散列，参见WO2020/180778)，并且在一个实施方案中，该关联可以是将索引添加到核酸(图1A的框12)。在一个实施方案中，添加两种不同的通用序列以最终产生在每一端具有不同通用序列的靶核酸。该方法还包括将细胞核或细胞的子集(现在包括掺入到位于其中的核酸中的通用序列，以及任选地，至少一个索引)分配到多个隔室中(图1A的框13)。对存在于每个隔室中的核酸加索引(图1A的框14)，然后合并细胞核或细胞(图1A的框15)。在添加单个索引后，可进一步处理细胞核或细胞中的核酸文库以准备测序(图1A的框16)；然而，在一些优选的实施方案中，期望添加第二、第三或更多个索引。在一个实施方案中，添加每个索引可包括“拆分和合并”步骤，其中加索引发生在拆分之后，例如，将细胞核或细胞的子集分配到多个隔室中(图1A的框13)，对存在于每个隔室中的核酸加索引(图1A的框14)，然后合并细胞核或细胞(图1A的框15)。“拆分和合并”步骤可使得向存在于细胞核或细胞中的核酸的仅一端或两端添加索引。在添加最后一个索引后，可合并细胞核或细胞中的核酸文库并进一步处理以准备测序(图1A的框16)，其中测序可以是全面的或靶向的。

图1B中示出了本公开的另一个非限制性例示性实施方案。在该实施方案中，该方法包括提供初始并行处理的多个样品(图1B的框110)。该方法还包括将一个或多个通用序列掺入到存在于细胞核或细胞中的核酸中(图1B的框111)，然后向核酸添加索引(图1B的框112)，其中添加到每个样品的索引是唯一的并且可用作样品索引来鉴定哪些核酸源自特定样品。在一个实施方案中，添加两种不同的通用序列以最终产生在每一端具有不同通用序列的靶核酸。该方法还包括合并细胞核或细胞(图1B的框113)。在一个实施方案中，在添加一个索引后，可进一步处理细胞核或细胞中的核酸文库以准备测序(图1B的框114)；然而，在一些优选的实施方案中，期望添加第二、第三或更多个索引。在一个实施方案中，添加每个索引可包括“拆分和合并”步骤，其中加索引发生在拆分之后，例如，将细胞核或细胞的子集分配到多个隔室中(图1B的框115)，对存在于每个隔室中的核酸加索引(图1B的框116)，然后合并细胞核或细胞(图1B的框117)。“拆分和合并”步骤可使得向存在于细胞核或细胞中的核酸的仅一端或两端添加索引。在添加最后一个索引后，可合并细胞核或细胞中的核酸文库并进一步处理以准备测序(图1B的框118)，其中测序可以是全面的或靶向的。

图2中示出了本公开的另一个非限制性例示性实施方案。在该实施方案中，该方法包括使用片段标签化将两个通用序列掺入到细胞核或细胞中存在的核酸中，并且使用三轮后续加索引(图2A)。一种转座体复合物21包含通用序列23(例如，A14)，并且另一种转座体复合物22包含通用序列24(B15)。将通用序列插入到核酸中发生在大量的多个细胞核或细胞中。图2A还示出了将两个通用序列23和24插入到靶核酸25中的结果。将所述多个细胞核或细胞分配到不同的隔室，并且使用与一个通用序列互补的核苷酸(例如，A14)通过连接将包含索引的多核苷酸26添加到核酸25的一侧(图2B)。将所述多个细胞核或细胞合并，然后分配到不同的隔室，并使用与另一个通用序列互补的核苷酸(例如，B15)通过连接将包含第二索引的不同多核苷酸27添加到核酸25的另一侧(图2C)。将含有带双索引核酸的所述多个细胞核或细胞合并，接着分配到不同的隔室，然后进行PCR扩增反应，该PCR扩增反应将包含第三索引的多核苷酸28添加到核酸25的一侧，并将包含第四索引的多核苷酸29添加到核酸25的一侧(图2D)。在添加最后一个索引后，可合并细胞核或细胞中的核酸文库并进一步处理以准备测序，其中测序可以是全面的或靶向的。

图3中示出了本公开的又一个非限制性例示性实施方案。在该实施方案中，该方法包括提供多个细胞核或细胞(图3的框30)。该方法还包括将细胞核或细胞的子集分配到多个隔室中(图3的框31)。存在于每个隔室的细胞核或细胞中的核酸通过掺入索引和/或通用序列进行修饰(图3的框32)。在另选的实施方案中，存在于每个隔室的细胞核或细胞中的核酸通过掺入相同通用序列(例如，使用具有相同通用序列的转座子进行片段标签化)，然后添加隔室特异性索引来修饰。然后将细胞核或细胞合并(图3的框33)。在添加索引和/或通用序列后，可进一步处理细胞核或细胞中的核酸的文库以准备测序(图3的框34)；然而，在一些优选的实施方案中，期望添加第二、第三或更多个索引。任选地，也可添加通用序列。添加每个索引可包括“拆分和合并”步骤，其中加索引发生在拆分之后，例如，将细胞核或细胞的子集分配到多个隔室中(图3的框31)，对存在于每个隔室中的核酸加索引(图3的框32)，然后合并细胞核或细胞(图3的框33)。“拆分和合并”步骤可使得向存在于细胞核或细胞中的核酸的仅一端或两端添加索引。在添加最后一个索引后，可合并细胞核或细胞中的核酸文库并进一步处理以准备测序(图3的框34)，其中测序可以是全面的或靶向的。

图4中示出了本公开的另一个非限制性例示性实施方案。在该实施方案中，该方法包括分析RNA。提供了多个细胞核或细胞(图4的框40)，并且所述多个细胞核或细胞可来自一个或多个样品。将细胞核或细胞的子集分配到多个隔室中(图4的框41)。任选地，在分配之前，该方法还可包括将索引关联到细胞核或细胞(例如，细胞核或细胞散列，参见WO2020/180778)或关联到核酸。存在于每个隔室的细胞核或细胞中的核酸通过使用逆转录酶插入索引和/或通用序列来修饰(图4的框42)，然后将细胞核或细胞合并(图4的框43)。该方法还包括将细胞核或细胞的子集分配到多个隔室中(图4的框44)。存在于每个隔室的细胞核或细胞中的核酸通过插入另一索引和/或通用序列来修饰(图4的框45)，然后将细胞核或细胞合并(图4的框46)。在添加索引和/或通用序列后，可进一步处理细胞核或细胞中的核酸的文库以准备测序(图4的框47)；然而，在一些优选的实施方案中，期望添加第三、第四或更多个索引。任选地，也可添加通用序列。添加每个索引可包括“拆分和合并”步骤，其中加索引发生在拆分之后，例如，将细胞核或细胞的子集分配到多个隔室中(图4的框44)，对存在于每个隔室中的核酸加索引(图4的框45)，然后合并细胞核或细胞(图4的框46)。“拆分和合并”步骤可使得向存在于细胞核或细胞中的核酸的仅一端或两端添加索引。在添加最后一个索引后，可合并细胞核或细胞中的核酸文库并进一步处理以准备测序(图4的框47)，其中测序可以是全面的或靶向的。

用于测序的固定化样品的制备

用于将来自一个或多个来源的索引片段附接到基板的方法是本领域已知的。在一个实施方案中，使用对带索引片段具有特异性的多个捕获序列来富集索引片段，并且这些捕获序列可固定在固体基板的表面上。例如，捕获序列可包括结合对的第一成员(例如，P5’)，并且其中该结合对的第二成员(P5)固定在固体基板的表面上。同样，用于扩增固定化带索引片段的方法包括但不限于桥式扩增和动力学排除。用于在测序之前固定和扩增的方法在例如Binoell等人(US 8,053,192)、Gunderson等人(WO 2016/130704)、Shen等人(US8,895,249)和Pipenburg等人(US 9,309,502)中有所描述。

可将合并的样品固定，以为测序做准备。测序可作为单分子阵列来执行或者可在测序之前进行扩增。可使用一个或多个固定化引物来执行扩增。固定化引物可以是例如在平坦表面上或在小珠池上的引物苔(lawn)。可在乳液的每个“隔室”中将小珠池分离到具有单个小珠的乳液中。在浓度为每个“隔室”仅一个模板时，在每个小珠上仅扩增单个模板。

如本文所用，术语“固相扩增”是指在固体载体上进行的或与固体载体相关联的任何核酸扩增反应，使得扩增产物的全部或一部分在形成时固定在该固体载体上。具体地，该术语涵盖固相聚合酶链反应(固相PCR)和固相等温扩增，该固相PCR和固相等温扩增是类似于标准溶液相扩增的反应，不同的是正向扩增引物和反向扩增引物中的一者或两者被固定在固体载体上。固相PCR包括系统诸如乳液，其中一个引物锚定在小珠上，另一个引物在自由溶液中；和固相凝胶基质中的群体形成，其中一个引物锚定在表面上，一个引物锚定在自由溶液中。

在一些实施方案中，固体载体包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如，这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征部。特征部可由不存在扩增引物的间隙区域隔开。在一些实施方案中，图案可以为呈行和列形式的特征部的x-y格式。在一些实施方案中，图案可以为特征部和/或间隙区域的重复布置。在一些实施方案中，图案可以为特征部和/或间隙区域的随机布置。可用于本文所述的方法和组合物中的示例性图案化表面在美国专利第8,778,848号、第8,778,849号和第9,079,148号以及美国公布2014/0243224中有所描述。

在一些具体实施中，固体载体在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造，这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道，所使用的技术将取决于阵列基板的组成和形状。

图案化表面中的特征部可以是玻璃、硅、塑料或其他合适的具有图案化的且共价连接的凝胶(诸如，聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见例如，美国公布No.2013/184796、WO 2016/066586和WO 2015/002813)的固体载体上的孔阵列中的孔(例如，微孔或纳米孔)。该方法产生用于测序的凝胶垫，该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而，在许多实施方案中，凝胶无需共价连接到孔。例如，在一些条件下，未共价附接到结构化基板的任何部分的不含硅烷的丙烯酰胺(SFA，参见例如，美国专利第8,563,477号)可用作凝胶材料。

在特定实施方案中，结构化基板可通过以下方法来制作：将固体载体材料图案化为具有孔(例如，微孔或纳米孔)，用凝胶材料(例如，PAZAM、SFA或其化学改性的变体，诸如SFA的叠氮化版本(叠氮-SFA))涂覆图案化载体，并且例如通过化学或机械抛光来抛光已涂覆凝胶的载体，从而将凝胶保持在孔中，而从孔之间的结构化基板的表面上的间隙区域移除基本上所有凝胶或使基本上所有凝胶失活。引物核酸可附着到凝胶材料。然后可使带索引片段的溶液与已抛光的基板接触，使得单个带索引片段将通过与附接到凝胶材料的引物的相互作用接种到单个孔中；然而，由于不存在凝胶材料或该凝胶材料失活，靶核酸将不占用间隙区域。带索引片段的扩增将被限制在孔中，因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体(nucleic acid colony)的向外迁移。该过程可为制造方便地且具有可扩展性的，并且利用常规的微米或纳米制造方法。

虽然本公开涵盖其中仅一个扩增引物被固定(另一个引物通常存在于游离溶液中)的“固相”扩增方法，但在一个实施方案中，优选的是固体载体将被提供有固定的正向引物和反向引物两者。在实施过程中，将存在固定在固体载体上的“多个”相同正向引物和/或“多个”相同反向引物，因为扩增过程需要过量的引物来维持扩增。除非上下文另有指示，否则本文对正向引物和反向引物的提及应相应地被解释为涵盖“多个”此类引物。

技术读者将会理解，任何给定的扩增反应都需要对待扩增的模板具有特异性的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可包括相同序列的模板特异性部分，并且可具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话讲，可以仅使用一种类型的引物进行固相扩增，并且此类单引物方法涵盖在本公开的范围内。其他实施方案可使用包含相同模板特异性序列但在一些其他结构特征方面不同的正向引物和反向引物。例如，一种类型的引物可包含在另一种类型中不存在的非核苷酸修饰。

在本公开的所有实施方案中，用于固相扩增的引物优选地通过单点共价附接固定到引物5'端处或附近的固体载体，使得引物的模板特异性部分自由退火至其同源模板，而3'羟基则自由进行引物延伸。本领域已知的任何合适的共价附接方式均可用于此目的。所选择的附接化学将取决于固体载体的性质，以及对其应用的任何衍生化或官能化。引物本身可包含可为非核苷酸化学修饰的部分，以促进附接。在一个具体实施方案中，引物可包含5'端处的含硫亲核试剂，诸如硫代磷酸酯或硫代磷酸盐。就固体承载的聚丙烯酰胺水凝胶而言，该亲核试剂将与水凝胶中存在的溴乙酰胺基团结合。将引物和模板附接到固体载体的更具体的方式是经由5'硫代磷酸酯附接到由聚合的丙烯酰胺和N-(5-溴乙酰氨基戊基)丙烯酰胺(BRAPA)构成的水凝胶，如WO 05/065814中所述。

本发明的某些实施方案可利用包括惰性基板或基质(例如，载玻片、聚合物小珠等)的固体载体，该惰性基板或基质已例如通过施加包含反应性基团的中间材料层或涂层被“官能化”，该反应性基团允许共价附接到生物分子诸如多核苷酸。此类载体的示例包括但不限于负载在惰性基板诸如玻璃上的聚丙烯酰胺水凝胶。在此类实施方案中，生物分子(例如，多核苷酸)可直接共价附接到中间材料(例如，水凝胶)，但该中间材料本身可非共价附接到基板或基质(例如，玻璃基板)。术语“共价附接到固体载体”应相应地被解释为涵盖这种类型的布置。

可在小珠上扩增合并的样品，其中每个小珠包含正向扩增引物和反向扩增引物。在一个具体实施方案中，将带索引片段的文库用于制备核酸群体的簇阵列，类似于在美国公布2005/0100900、美国专利第7,115,400号、WO 00/18957和WO 98/44151中所述的通过固相扩增，并且更具体地通过固相等温扩增的那些簇阵列。术语“簇”和“群体”在本文中可互换使用并且是指包括多个相同的固定化核酸链和多个相同的固定化互补核酸链的固体载体上的离散位点。术语“簇阵列”是指由此类簇或群体形成的阵列。在该上下文中，术语“阵列”不应被理解为需要簇的有序布置。

术语“固相”或“表面”用于表示平面阵列，其中引物附接到平坦表面，例如玻璃、二氧化硅或塑料显微镜载片或类似的流通池装置；表示小珠，其中一个或两个引物附接到这些小珠并且这些小珠被扩增；或者表示在小珠已扩增后表面上的小珠阵列。

可使用如WO 98/44151中所述的热循环工艺或使温度保持恒定的工艺来制备簇阵列，并且通过改变试剂来执行延伸和变性的循环。此类等温扩增方法在专利申请号WO 02/46456和美国公布2008/0009420中有所描述。由于可用于等温工艺中的温度较低，这在一些实施方案中是特别优选的。

应当理解，本文所述的或本领域通常已知的扩增方法中的任一种方法可与通用或靶标特异性引物一起用于扩增固定化DNA片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中所述。上述扩增方法可用于扩增一种或多种感兴趣核酸。例如，可使用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增固定化DNA片段。在一些实施方案中，在扩增反应中包括特异性针对所关注多核苷酸的引物。

其他合适的多核苷酸扩增方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人，Nat.Genet.第19卷：第225-232页(1998年))和寡核苷酸连接测定(OLA)(通常参见美国专利第7,582,420号、第5,185,243号、第5,679,524号和第5,573,907号；EP 0320 308 B1；EP 0 336 731 B1、EP 0 439 182 B1、WO 90/01069、WO 89/12696和WO 89/09835)技术。应当理解，这些扩增方法可被设计成用于扩增固定化DNA片段。例如，在一些实施方案中，扩增方法可包括连接探针扩增或含有特异性针对所关注核酸的引物的寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括引物延伸-连接反应，该引物延伸-连接反应含有特异性针对所关注核酸的引物。作为可被特别设计用于扩增感兴趣核酸的引物延伸和连接引物的非限制性示例，扩增可包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如美国专利第7,582,420号和第7,611,869号所例示。

DNA纳米球还可与如本文所述的方法和组合物结合地使用。用于形成DNA纳米球和利用DNA纳米球进行基因组测序的方法可见于例如美国专利和公布：美国专利第7,910,354号、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488，并且如例如Drmanac等人，2010年，Science，第327卷第5961期，第78-81页中所述。简而言之，在基因组文库DNA片段化后，将接头连接到这些片段，通过用环连接酶连接使带接头的片段环化，并进行滚环扩增(如在以下文献中所述：Lizardi等人，1998年，Nat.Genet.，第19卷，第225-232页，以及US2007/0099208A1)。扩增子的延伸的尾尾相接结构促进卷曲，从而产生紧凑的DNA纳米球。可在基板上捕获DNA纳米球，优选地以产生有序的或图案化的阵列，使得每个纳米球之间的距离得以保持，从而允许对单独的DNA纳米球进行测序。在一些实施方案中，在环化之前进行连续轮的接头连接、扩增和消化，以产生具有由接头序列分开的若干个基因组DNA片段的头对尾构建体。

在本公开的方法中可使用的示例性等温扩增方法包括但不限于多重置换扩增(MDA)，由例如Dean等人，Proc.Natl.Acad.Sci.USA，第99卷：第5261-5266页(2002年)所示例的多重置换扩增(MDA)，或由例如美国专利第6,214,587号所示例的等温链置换核酸扩增。可用于本公开的其他非基于PCR的方法包括：例如链置换扩增(SDA)，其描述于例如Walker等人，Molecular Methods for Virus Detection，Academic Press,Inc.，1995年，美国专利第5,455,166号和第5,130,238号，以及Walker等人，Nucl.Acids Res，第20卷：第1691-1696页(1992年)；或超支化链置换扩增，其描述于例如Lage等人，Genome Res.，第13卷，第294-307页(2003年)中。等温扩增方法可与例如链置换Phi 29聚合酶或Bst DNA聚合酶大片段5'->3’exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述，可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。对扩增反应、条件和组分的附加描述在美国专利第7,670,810号的公开内容中有详细描述。

可用于本公开的另一种多核苷酸扩增方法是带标签的PCR，其使用具有恒定5'区，接着是随机3'区的二结构域引物的群体，如例如Grothues等人，Nucleic Acids Res，第21卷第5期：第1321-1322页(1993年)中所述。基于来自随机合成的3'区的单独杂交，进行第一轮扩增以允许大量启动热变性的DNA。由于3'区的性质，设想启动位点在整个基因组中是随机的。然后，可移除未结合的引物，并且可使用与恒定5'区互补的引物进行进一步的复制。

在一些实施方案中，可使用动力学排除扩增(KEA)来执行等温扩增，其也被称为排除扩增(ExAmp)。本公开的核酸文库可使用包括以下步骤的方法制成：使扩增试剂反应以产生多个扩增位点，该多个扩增位点各自包括来自已接种位点的单个靶核酸的扩增子的基本上克隆的群体。在一些实施方案中，扩增反应继续进行，直到生成足够数量的扩增子以填充相应扩增位点的容量。以这种方式将已接种的位点填充至容量抑制了靶核酸在该位点处着位和扩增，从而在该位点处产生扩增子的克隆群体。在一些实施方案中，在第二靶核酸到达该位点之前，即使扩增位点未被填充至容量，也可实现表观的克隆性。在一些条件下，第一靶核酸的扩增可进行到制备了足够数量的拷贝的点，以有效地超出或压倒来自被转运到位点的第二靶核酸的拷贝的产生。例如，在使用小于500nm的直径的圆形特征的桥式扩增过程的实施方案中，已确定在第一靶核酸的指数扩增14个循环之后，来自相同位点处的第二靶核酸的污染将产生不足够数量的污染扩增子，而不会对Illumina测序平台上的边合成边测序分析产生不利影响。

在一些实施方案中，阵列中的扩增位点可以是但不必是完全克隆的。相反，对于一些应用，单个扩增位点可主要填充有来自第一带索引片段的扩增子，并且还可具有来自第二靶核酸的低水平的污染扩增子。只要污染水平对阵列的后续使用不具有不可接受的影响，阵列就可具有一个或多个具有低水平污染扩增子的扩增位点。例如，当阵列将用于检测应用时，可接受的污染水平将是不会以不可接受的方式影响检测技术的信噪比或分辨率的水平。因此，表观的克隆性通常将与通过本文所述的方法制备的阵列的特定用途或应用相关。对于特定应用，在单个扩增位点处可以是可接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可包括具有这些示例性水平的污染扩增子的一个或多个扩增位点。例如，阵列中高达5％、10％、25％、50％、75％或甚至100％的扩增位点可具有一些污染扩增子。应当理解，在位点的阵列或其他集合中，高达50％、75％、80％、85％、90％、95％或99％或更多的位点可为克隆的或在表观上克隆的。

在一些实施方案中，当过程以足够快的速率发生以有效地排除另一事件或过程发生时，可发生动力学排除。以制备核酸阵列为例，其中阵列的位点用来自溶液的带索引片段随机来接种，并且在扩增过程中生成带索引片段的拷贝以将接种位点中的每个接种位点填充至容量。根据本公开的动力学排除方法，接种和扩增过程可在扩增速率超过接种速率的条件下同时进行。因此，在已由第一靶核酸接种的位点处产生拷贝的相对较快速率将有效地排除第二核酸使其不接种用于扩增的位点。动力学排除扩增方法可如美国申请公布2013/0338042的公开内容中详细描述的那样来执行。

动力学排除可利用相对较慢的速率(例如，制备带索引片段的第一拷贝的慢速率)来发起扩增对比利用相对较快的速率来制备带索引片段的后续拷贝(或带索引片段的第一拷贝)。在前一段落的示例中，动力学排除的发生归因于带索引片段接种的相对较慢速率(例如，相对较慢的扩散或转运)对比发生扩增以用带索引片段种子的拷贝填充位点的相对较快速率。在另一个示例性实施方案中，动力学排除的发生可归因于已接种位点的带索引片段的第一拷贝的形成中的延迟(例如，延迟或缓慢激活)对比制备后续拷贝以填充位点的相对较快速率。在该示例中，单个位点可能已用若干不同的带索引片段(例如，在扩增之前可在每个位点处存在若干带索引片段)来接种。然而，任何给定的带索引片段的第一拷贝形成可被随机激活，使得第一拷贝形成的平均速率与后续拷贝生成的速率相比相对较慢。在这种情况下，虽然单个位点可能已用若干不同的带索引片段来接种，但动力学排除将仅允许那些带索引片段中的一个带索引片段被扩增。更具体地，一旦第一带索引片段已被激活用于扩增，则该位点将用其拷贝快速填充至容量，从而防止在该位点处制备第二带索引片段的拷贝。

在一个实施方案中，执行该方法以同时(i)以平均转运速率将带索引片段转运到扩增位点，以及(ii)以平均扩增速率扩增在这些扩增位点处的这些带索引片段，其中该平均扩增速率超过该平均转运速率(美国专利第9,169,513号)。因此，在此类实施方案中，动力学排除可通过使用相对较慢的转运速率来实现。例如，可选择足够低浓度的带索引片段以实现期望的平均转运速率，较低浓度导致较慢的平均转运速率。另选地或除此之外，可使用高粘度溶液和/或溶液中分子拥挤试剂的存在来降低转运速率。可用的分子拥挤试剂的示例包括但不限于聚乙二醇(PEG)、聚蔗糖、葡聚糖或聚乙烯醇。示例性分子拥挤试剂和制剂在美国专利第7,399,590号中有所描述，该专利以引用方式并入本文。可被调节以实现期望的转运速率的另一个因素是靶核酸的平均大小。

扩增试剂还可包括有利于扩增子形成并且在一些情况下提高扩增子形成速率的组分。一个示例是重组酶。重组酶可通过允许反复侵入/延伸来有利于扩增子形成。更具体地，重组酶可有利于通过聚合酶进行的带索引片段的侵入以及通过该聚合酶进行的引物的延伸，该聚合酶使用带索引片段作为扩增子形成的模板。该过程可被重复作为链式反应，其中由每轮入侵/延伸产生的扩增子用作后续轮中的模板。由于不需要变性循环(例如，经由加热或化学变性)，因此该过程可比标准PCR更快速地发生。因此，重组酶促进的扩增可等温地进行。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下其非可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge,UK)市售为TwistAmp试剂盒的那些制剂。重组酶促进的扩增试剂的可用组分和反应条件在US 5,223,414和US 7,399,590中有所描述。

可包括在扩增试剂中以有利于扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是解旋酶。解旋酶可通过允许扩增子形成的链式反应来有利于扩增子形成。由于不需要变性循环(例如，经由加热或化学变性)，因此该过程可比标准PCR更快速地发生。因此，解旋酶促进的扩增可等温地进行。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelle(Beverly,MA)的市售为IsoAmp试剂盒的那些制剂。此外，包括解旋酶蛋白的可用制剂的示例在US 7,399,590和US 7,829,284中有所描述。

可包括在扩增试剂中以有利于扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是起点结合蛋白。

测序方法

在将带索引片段附接到表面后，确定固定化且已扩增的带索引片段的序列。测序可以是全面的或靶向的。当需要存在于文库中的每个细胞或细胞核的整个序列时，可使用全面测序。使用全面测序的应用的示例包括但不限于全基因组测序、全转录组测序和ATAC测序。当需要关于生物学特征的信息时，可使用靶向测序。在一个实施方案中，靶向测序可用于鉴定细胞或细胞核的亚群，或基因组的子集、转录组的子集、蛋白质组的子集、或它们的任何组合，并且本文中详细描述了靶向测序。

可使用任何合适的测序技术进行测序，并且用于确定固定化且已扩增的带索引片段的序列(包括链再合成)的方法是本领域已知的并且在例如Bignell等人(US 8,053,192)、Gunderson等人(WO 2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US9,309,502)中有所描述。

本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如，与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中，确定带索引片段的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(“SBS”)技术。

SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中，可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而，在本文所述的方法中，可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。

在一个实施方案中，核苷酸单体包括锁核酸(LNA)或桥核酸(BNA)。在核苷酸单体中使用LNA或BNA增加了核苷酸单体与存在于固定化带索引片段上的测序引物序列之间的杂交强度。

SBS可使用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序，如本文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中，在每个循环中加入的核苷酸的数目通常是可变的，并且该数目取决于模板序列和核苷酸递送的方式。对于使用具有终止子部分的核苷酸单体的SBS技术，终止子在使用的测序条件下可为有效不可逆的，如使用双脱氧核苷酸的传统桑格测序的情况，或者终止子可为可逆的，如由Solexa(现为Illumina，Inc.)开发的测序方法的情况。

SBS技术可使用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此，可基于以下项来检测掺入事件：标记的特性，诸如标记的荧光；核苷酸单体的特性，诸如分子量或电荷；掺入核苷酸的副产物，诸如焦磷酸盐的释放；等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中，不同的核苷酸可以是彼此可区分的，或者另选地，两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如，测序试剂中存在的不同核苷酸可具有不同的标记，并且它们可使用适当的光学器件进行区分，如由Solexa(现为Illumina，Inc.)开发的测序方法所例示。

优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年)，“Real-time DNA sequencing using detection ofpyrophosphate release.”，Analytical Biochemistry，第242卷第1期，第84-89页；Ronaghi,M.(2001年)，“Pyrosequencing sheds light on DNA sequencing.”，GenomeRes.，第11卷第1期：第3-11页；Ronaghi,M.、Uhlen,M.和Nyren,P.(1998年)“A sequencingmethod based on real-time pyrophosphate.”，Science，第281卷第5375期，第363页；美国专利第6,210,891号、第6,258,568号和第6,274,320号)。在焦磷酸测序中，释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测，并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部，并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如，A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而，每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如，在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。

在另一种例示性类型的SBS中，通过逐步添加可逆终止子核苷酸来完成循环测序，这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记，如例如WO 04/018497和美国专利第7,057,026号所述。该方法由Solexa(现为Illumina Inc.)商业化，并且还在WO91/06678和WO 07/123,744中有所描述。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。

在一些基于可逆终止子的测序实施方案中，标记在SBS反应条件下基本上不抑制延伸。然而，检测标记可以是可移除的，例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中，每个循环涉及将四种不同的核苷酸类型同时递送到阵列，并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像，每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地，可顺序地添加不同的核苷酸类型，并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中，每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容，不同特征部将存在于或不存在于不同图像中。然而，特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后，可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和移除方法的示例在本文中有所描述。

在特定实施方案中，一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中，可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker，GenomeRes，第15卷：第1767-1776页(2005年))。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人，Proc Natl Acad Sci USA，第102卷：第5932-5937页(2005年))。Ruparel等人描述了可逆终止子的发展，这些可逆终止子使用小的3'烯丙基基团来阻断延伸，但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基，该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此，二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止，该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除，否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。经修饰的核苷酸的示例还在美国专利第7,427,673号和第7,057,026号中有所描述。

可与本文所述的方法和系统一起使用的另外的示例性SBS系统和方法在美国公布2007/0166705、2006/0188901、2006/0240439、2006/0281109、2012/0270305和2013/0260372、美国专利第7,057,026号、PCT公布WO 05/065814、美国专利申请公布2005/0100900以及PCT公布WO 06/064199和WO 07/010,251中有所描述。

一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如，可使用并入的美国公布2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例，一对核苷酸类型可在相同波长下检测，但基于对中的一个成员相对于另一个成员的强度差异，或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如，通过化学改性、光化学改性或物理改性)来区分。作为第二个示例，四种不同核苷酸类型中的三种能够在特定条件下被检测到，而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如，由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中，并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例，一种核苷酸类型可包括在两个不同通道中检测到的标记，而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的，并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法，该方法使用在第一通道中检测到的第一核苷酸类型(例如，具有当由第一激发波长激发时在第一通道中检测到的标记的dATP)，在第二通道中检测到的第二核苷酸类型(例如，具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP)，在第一通道和第二通道两者中检测到的第三核苷酸类型(例如，具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP)，以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如，不具有标记的dGTP)。

此外，如并入的美国公布2013/0079232的材料中所述，可使用单个通道获得测序数据。在此类所谓的单染料测序方法中，标记第一核苷酸类型，但在生成第一图像之后移除标记，并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记，并且第四核苷酸类型在两个图像中均保持未标记。

一些实施方案可通过连接技术使用测序。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样，可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容，不同特征部将存在于或不存在于不同图像中，但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利第6,969,488号、第6,172,218号和第6,306,597号中有所描述。

一些实施方案可使用纳米孔测序(Deamer,D.W.和Akeson,M.，“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”，Trends Biotechnol.第18卷，第147-151页(2000年)；Deamer,D.和D.Branton，“Characterization of nucleic acidsby nanopore analysis”，Acc.Chem.Res.第35卷，第817-825页(2002年)；Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko，“DNA molecules andconfigurations in a solid-state nanopore microscope”，Nat.Mater.，第2卷，第611-615页(2003年))。在此类实施方案中，带索引片段穿过纳米孔。纳米孔可为合成孔或生物膜蛋白，诸如α-溶血素。当带索引片段穿过纳米孔时，可通过测量孔的电导率的波动来识别每个碱基对。(美国专利第7,001,792号；Soni,G.V.和Meller，“A.Progress towardultrafast DNA sequencing using solid-state nanopores.”，Clin.Chem.第53卷，第1996-2001页(2007年)；Healy,K.，“Nanopore-based single-molecule DNAanalysis.”，Nanomed.，第2卷，第459-481页(2007年)；Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.，“A single-molecule nanopore device detects DNA polymerase activity withsingle-nucleotide resolution.”，J.Am.Chem.Soc.第130卷，第818-820页(2008年))。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地，根据本文所述的光学图像和其他图像的示例性处理，可将数据如同图像那样进行处理。

一些实施方案可使用涉及DNA聚合酶活性的实时监测的方法。可通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入(如例如美国专利第7,329,492号和第7,211,414号所述)，或者用零模波导来检测核苷酸掺入(如例如美国专利第7,315,019号所述)，并且使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入(如例如美国专利第7,405,281号和美国公布2008/0108082所述)。照明可限于表面栓系的聚合酶周围的仄升量级的体积，使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人，“Zero-mode waveguides for single-moleculeanalysis at high concentrations.”，Science 299,682–686(2003)；Lundquist,P.M.等人，“Parallel confocal detection of single molecules in real time.”，Opt.Lett.第33卷，第1026-1028页(2008年)；Korlach,J.等人，“Selective aluminum passivationfor targeted immobilization of single DNA polymerase molecules in zero-modewaveguide nano structures.”，Proc.Natl.Acad.Sci.USA，第105卷，第1176-1181页(2008年))。通过此类方法获得的图像可如本文所述进行存储、处理和分析。

一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford，CT，Life Technologies子公司)商购获得的电检测器和相关技术或在美国公布2009/0026082、2009/0127589、2010/0137143和2010/0282617中所述的测序方法和系统。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地，本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。

上述SBS方法可有利地以多种格式进行，使得同时操纵多个不同的带索引片段。在特定实施方案中，可在共同的反应容器中或在特定基板的表面上处理不同的带索引片段。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中，带索引片段可为阵列格式。在阵列格式中，带索引片段通常可以在空间上可区分的方式结合到表面。带索引片段可通过直接共价附接、附接到小珠或其他粒子或结合到附接到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的带索引片段的单个拷贝，或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如，如本文进一步详细描述的桥式扩增或乳液PCR)产生。

本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列，该多种密度包括例如至少约10个特征部/cm²、100个特征部/cm²、500个特征部/cm²、1,000个特征部/cm²、5,000个特征部/cm²、10,000个特征部/cm²、50,000个特征部/cm²、100,000个特征部/cm²、1,000,000个特征部/cm²、5,000,000个特征部/cm²或更高。

本文所述的方法的优点在于，这些方法提供对多个cm²的并行快速且有效的检测。因此，本发明提供能够使用本领域已知的技术(诸如本文所例示的那些)来制备和检测核酸的整合系统。因此，本公开的整合系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定化带索引片段的流体部件，该系统包括部件诸如泵、阀、贮存器、流体管线等。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如美国公布2010/0111768和美国序列号13/273,666中有所描述。如针对流通池所例示的，整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例，整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地，整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及美国序列号13/273,666中所述的设备。

罕见事件的检测

本公开还提供了用于鉴定和/或表征罕见事件的方法。目前，用于表征未富集群体中罕见事件的方法是高成本的且具有挑战性的。当使用富集时，选择通常基于细胞的一些生物学特征，诸如细胞表面上的可识别分子如蛋白质或聚糖的尺寸、形态或存在。这使得可被鉴定的事件的类型受到限制。本文所呈现的方法提供了在鉴定和/或表征罕见事件存在的能力方面的显著进步。一般来讲，本发明提供了对存在于数百万或数十亿个细胞的文库中的罕见单细胞的子集的鉴定、富集和基于测序的表征。鉴定罕见单细胞可用于创建细胞数据库，研究者可使用该细胞数据库来确定哪些细胞可用于进一步分析。

罕见事件的示例包括但不限于大细胞群体中的罕见细胞。罕见细胞的类型包括但不限于细胞类别、物种类型，以及疾病状态或风险。罕见细胞类别的示例包括但不限于来自在例如基因组、转录组或表观基因组中具有改变的个体的细胞。罕见物种类型的示例包括但不限于原核细胞、真核细胞或真菌细胞。与疾病状态或风险相关联的罕见细胞的示例包括但不限于癌细胞。

罕见事件通常通过与罕见事件相关的生物学特征(通常为核苷酸序列)的存在来鉴定。在一个实施方案中，生物学特征是生物分子，诸如蛋白质、聚糖、蛋白聚糖或脂质。生物分子可用附接到与该生物分子特异性结合的化合物(诸如抗体)的核酸加标签。生物学特征可以是先验已知的(例如，在实践该方法之前已知的，也称为预定的)或从头已知的(例如，在本文所述的靶向或全面测序之后鉴定生物学特征)。

与基因组相关的生物学特征的示例包括但不限于免疫细胞的改变，诸如基因重排。与转录组相关的生物学特征的示例包括一个或多个特定基因或RNA分子的表达，或特定蛋白质的表达。与表观基因组相关的生物学特征的示例包括表观遗传模式，诸如但不限于甲基化标记、甲基化模式和可及性DNA，或与表观遗传变化相关的特定蛋白质的表达。与罕见物种类型相关的生物学特征的示例包括16s rRNA或rDNA、18s rRNA或rDNA以及内部转录间隔区(ITS)rRNA/rDNA，或罕见物种对特定蛋白质的表达。与疾病状态或风险相关的生物学特征的示例包括具有与疾病诸如癌症相关的RNA和/或蛋白质的变体DNA序列或表达模式的种系或体细胞。

该方法可包括鉴定包含罕见事件的测序文库成员—单独的经修饰的靶核酸。在一个实施方案中，该方法可包括询问怀疑含有罕见事件的测序文库。询问测序文库通常包括确定文库中存在的两种类型的核苷酸区域的序列；(i)与罕见事件相关的生物学特征，和(ii)存在于文库成员上的索引。在一个实施方案中，可确定多于一种生物学特征的序列。

在一个实施方案中，通过靶向测序鉴定生物学特征的核苷酸序列。靶向测序的方法是本领域已知的，并且可包括使用在用作测序起始位点的位置和方向上的生物学特征附近杂交的引物。例如，当生物学特征是特定的单核苷酸多态性(SNP)的存在时，可设计与SNP附近的核苷酸特异性退火的引物。在另一个示例中，当生物学特征为蛋白质时，可设计与核酸的核苷酸特异性退火的引物，该核酸附接到与生物分子特异性结合的化合物。结果是序列数据，该序列数据允许技术人员鉴定文库的哪些成员包括所关注的生物学特征。确定测序文库的成员上存在的索引的序列是单细胞组合索引方法的常规部分。

然后使用常规的生物信息学方法分析来自生物学特征的靶向测序和索引的测序的序列数据，并且鉴定存在于与生物学特征相同的文库成员上的索引序列的那些组合。生物学特征和索引序列的这种相关性导致文库成员子集的鉴定以及细胞数据库的创建，其中每个成员包括生物学特征和索引序列的唯一分组。索引序列的每个唯一分组(在本文中也称为“标记索引序列”)同样存在于来源于相同细胞或细胞核的文库(例如，所关注的带索引文库)的其他成员上。在一个实施方案中，标记索引序列为连续索引，即，存在于一行中的文库成员上的多个索引的组，在每个索引之间具有0、1、2、3、4个或更多个核苷酸。如本文所述，这些标记索引序列可用于将后续测序工作集中在文库中来源于具有生物学特征的细胞或细胞核的那些成员，从而降低成本。

该方法还可包括改变测序文库以增加文库中来源于具有生物学特征的细胞或细胞核的那些成员的表示。改变可包括富集(例如，对文库中包含所需标记索引序列的那些罕见成员的正向选择)或耗尽(例如，对文库中不包含所需标记索引序列的那些丰富成员的负向选择，诸如选择性移除)。

富集和耗尽可包括使用标记索引序列。富集和耗尽的方法是本领域已知的，并且包括但不限于基于杂交的方法，诸如标记索引序列特异性扩增(例如，接头锚定的PCR)、杂交捕获和CRISPR(d)Cas9。富集和耗尽方法得益于使用与所需标记索引序列特异性杂交的核苷酸序列。因此，富集或耗尽可在含有连续索引的文库上进行，连续索引即存在于一行中的文库成员上的多个索引的组，在每个索引之间具有0、1、2、3、4个或更多个核苷酸(参见图5B)。与所需生物学特征相关的连续索引可针对所需文库成员进行正向选择和保留，从而导致所需文库成员的富集。另选地，可选择和移除与所需生物学特征不相关的连续索引，从而导致与丰富细胞相关的文库成员的耗尽以及与所需生物学特征相关的文库成员的事实上富集。在一个实施方案中，富集可与靶向扩增结合。例如，在构建测序文库后，扩增反应可用于特异性扩增包含所关注的生物学特征的文库成员。在一个实施方案中，可使用被设计成与具有该生物学特征的核苷酸序列退火的生物学特征特异性引物和与文库所有成员的一侧退火的第二引物来完成特异性扩增。生物学特征特异性引物可在其5'端包含一个或多个索引和/或通用序列。

连续索引的总长度取决于探针和具有所需标记索引序列的文库成员之间特异性杂交所需的探针大小。在一些实施方案中，连续索引(以及因此标记索引序列)的总长度为至少40、至少45、至少50或至少55个核苷酸，并且不大于80、不大于75、不大于70或不大于65个核苷酸。在一个实施方案中，连续索引的总长度为60个核苷酸。

使用富集或耗尽产生子文库，该子文库包括文库中来源于具有生物学特征的细胞或细胞核的那些成员的增加的表示。子文库的全面测序可使用常规方法(包括本文所述的那些方法)进行。表示的增加足够高，使得全面测序需要显著更少的资源，因此具有成本效益。使用子文库的全面测序可使得鉴定一个或多个额外的先前未知的生物学特征。

应用

本公开所提供的方法可容易地整合到包括测序文库制备的基本上任何应用中，方法诸如全基因组、转录组、表观基因组、可及性(例如，ATAC)和构象状态(例如，HiC)。多种测序文库方法是技术人员已知的，这些方法可用于构建全基因组文库或靶向文库(参见，例如，Sequencing Methods Review，可在万维网上的genomics.umn.edu/downloads/sequencing-methods-review.pdf获得)。

在涉及检测罕见事件的那些实施方案中，本公开所提供的方法可容易地整合到具有单细胞组合索引(sci)方法的基本上任何应用中，方法包括但不限于全基因组(例如，sci-WGS-seq)、表观基因组(例如，sci-MET-seq)、可及性(例如，sci-ATAC-seq)、转录组(sci-RNA-seq)和构象(sci-HiC-seq)。在一些实施方案中，应用包括使用构象单细胞组合索引，该构象单细胞组合索引包括采用连锁长读测序(linked-long read)方法通过交联进行的邻近连接。在一些实施方案中，应用是共测定，其中同时评估来自样品的两种或更多种不同的分析物或信息。分析物的示例包括但不限于DNA、RNA和蛋白质(例如，表面蛋白质)。示例包括但不限于分析全基因组和转录组或ATAC和转录组的测定(Ma等人，2020年，bioRxiv，DOI:doi.org/10.1016/j.cell.2020.09.056)。

在一些实施方案中，应用是宏基因组学—直接从环境样品中回收的遗传物质的研究。环境的示例包括存在于与农业(例如，土壤)、生物燃料(例如，转化生物质的微生物群落)、生物技术(例如，产生生物活性化合物的微生物群落)和肠道微生物群(例如，存在于人或动物微生物组中的微生物群落)相关的领域中的那些。遗传物质可存在于原核和/或真核微生物(单细胞和多细胞两者)中，包括真菌细胞。本文所述的方法可用于鉴定罕见细胞，无论它们是否可培养。可用于鉴定宏基因组学中罕见事件的生物学特征包括但不限于16srRNA或rDNA、18s rRNA或rDNA以及内部转录间隔区(ITS)rRNA/rDNA，或由微生物编码的蛋白质。鉴定后，可对罕见细胞进行全面测序。

在一些实施方案中，应用涉及疾病状态或风险。可鉴定罕见事件，诸如但不限于与疾病或疾病风险相关的单核苷酸多态性(SNP)和/或生物标记，并且对具有SNP和/或生物标记的那些细胞进行全面测序。例如，可分析受试者血流中循环细胞的液体活检或细胞的组织活检，以确定与疾病或疾病风险相关的罕见事件。可测定的罕见事件包括但不限于体细胞驱动突变，这可允许指定特定癌症。相关的应用是通过在一段时间间隔内从受试者获得样品，选择那些癌变的细胞或细胞核，然后对肿瘤细胞子集进行全面测序，来完全表征和跟踪肿瘤进化。

在一些实施方案中，该应用涉及免疫细胞。免疫细胞经历与获得性免疫系统识别外来分子的能力相关的特异性基因重排。经历基因重排的免疫细胞的示例包括但不限于T细胞(例如，T细胞受体的重排)、抗原递呈细胞(例如，编码主要组织相容性复合物的蛋白质的基因的重排)和B细胞(例如，编码抗体的基因的重排)。与免疫细胞改变相关的生物学特征可为但不限于特异性重排或由特异性重排产生的蛋白质。具有特定改变的免疫细胞可被完全表征和跟踪，包括但不限于T细胞受体谱表征和进化。在另一个实施方案中，应用涉及细胞分化。例如，不同区域处的表达水平和/或甲基化可用于评估分化事件，诸如可及性和表达之间的相关性。

图6中示出了本公开的一个非限制性例示性实施方案。在该实施方案中，用于鉴定和表征T细胞受体谱的方法可包括提供多个细胞(图6的框600)，以及将细胞的子集分配到多个隔室中(图6的框601)。所述多个细胞可来自例如血液样品或淋巴结样品。存在于每个隔室的细胞中的核酸通过插入索引来修饰(图6的框602)，然后将细胞合并(图6的框603)。通过重复子集的分配(图6的框601)、索引添加(图6的框602)和合并(图6的框603)的“拆分和合并”步骤来添加附加索引。在一个实施方案中，将每个索引添加到文库成员的同一侧以产生连续索引(参见图5B)。任选地，通用序列可添加有这些索引中的一个或多个索引。在添加最后一个索引后，可将细胞核或细胞中的核酸的文库合并(图6的框603)，并进一步处理以准备对所关注的生物学特征(例如，允许鉴定包含特定核苷酸序列的T细胞受体的生物学特征，特定核苷酸序列诸如可结合微生物或病毒的生物分子的核苷酸序列)的靶向测序，以及对与所关注的生物学特征相关联的索引的测序(图6的框604)。序列分析(图6的框605)用于鉴定标记索引序列，即，索引序列的唯一分组。所鉴定的标记索引序列是(i)与生物学特征相关并因此鉴定源自罕见细胞的文库成员的那些标记索引序列，或(ii)不与生物学特征相关并因此鉴定源自丰富细胞的文库成员的那些标记索引序列。该例示性实施方案的以下步骤描述了文库的丰富成员的耗尽，但可如本文所述改变该方法以包括罕见文库成员的富集。特异性寡核苷酸或向导RNA序列可被设计成与标记索引序列杂交，该标记索引序列与源自丰富细胞的文库成员相关(图6的框606)，然后用于通过使用例如杂交捕获或CRISPR消化来耗尽源自丰富细胞的成员的测序文库(图6的607)。结果是改变的文库，该文库包含源自具有生物学特征的细胞的那些成员的增加的表示。可对改变的测序文库的成员进行全面测序(图6的框608)。另选地，可对改变的文库进行另外几轮富集和/或耗尽，直到文库的所需成员的表示足以满足表征标准。例如，可对改变的文库的成员进行第二次测序，鉴定标记索引序列，以及被设计并用于耗尽或富集改变的文库的特异性寡核苷酸或向导RNA序列。

在一些实施方案中，应用包括使用连续索引。产生具有连续索引的测序文库的方法的非限制性例示性实施方案示于图7中。在分配细胞或细胞核的子集后，可通过例如片段标签化将第一隔室特异性索引I1添加至存在于细胞或细胞核中的DNA分子705(图7的步骤701)。当核酸的主要来源是RNA时，可在片段标签化之前使用诸如cDNA合成的方法将核酸转化成DNA。结果是在细胞或细胞核中存在的经修饰的核酸的文库，其中每个经修饰的核酸706在每一端包含一个隔室特异性索引I1。如有必要，可合并子集并可修复所得经修饰靶核酸的末端，例如通过3'填充。在一个实施方案中，经修饰的靶核酸的5'端可被磷酸化。在一个实施方案中，可通过向经修饰的靶核酸的3'端添加悬端(例如，G、C或聚A尾)来促进第二索引添加的下一步骤。可将合并的细胞或细胞核分配到第二组隔室中，并且通过例如连接具有适当修饰的3'端(例如，T形尾的3'端)的接头来添加第二隔室特异性索引I2(图7的步骤702)。这产生含有经修饰的核酸的文库的细胞或细胞核，其中每个经修饰的核酸707在每一端包含两个隔室特异性索引I1和I2。可改变经修饰的靶核酸的末端以有利于通过例如5'磷酸化添加下一个索引，和/或通过聚A尾或3'添加G或C来修饰3'端。可根据需要重复合并和添加另一个隔室特异性索引以添加适当数量的索引。在一个实施方案中，当将最后一个隔室特异性索引I3添加到细胞或细胞核的所分配子集时，可包括具有通用序列的接头(图7的步骤703)。例如，可将错配接头添加到每一端以产生经修饰的核酸708。通用序列的示例包括用于将文库成员固定到阵列的那些序列(P5和P7)。错配接头还可包括可用于测序的通用序列，或者在一些实施方案中，可扩增经修饰的核酸708(图7的步骤704)，并添加可用于测序的通用序列(i5和i7)以得到经修饰的核酸709。经修饰的核酸709可用于靶向测序，以鉴定与可用于后续富集和/或缺失的生物学特征相关的标记索引序列。

图8中示出了将富集与靶向扩增偶联的一个非限制性例示性实施方案。在该实施方案中，已经产生了单细胞组合文库(例如，图3的框35；图4的框47；图6的框605)，并将所得经修饰的核酸(例如，图7的经修饰的核酸709)进行扩增反应，该扩增反应特异性地扩增含有所关注的生物学特征的文库成员。使具有连续索引的经修饰的核酸802与引物803接触，该引物可包括两个结构域；被设计成与具有生物学特征的核苷酸序列退火的3'结构域，以及具有一个或多个通用序列或其互补序列(例如，i7和P7)的5'结构域。扩增反应包括与文库所有成员的一侧退火的第二引物804。扩增801导致经修饰的核酸805在一端具有隔室特异性索引I1-3，并且在另一端具有添加有靶向生物学特征的二结构域引物的通用序列。扩增的经修饰的靶核酸可用于靶向测序和用于鉴定与所关注的生物学特征相关的标记索引序列的测序。

本文还提供了试剂盒。在一个实施方案中，试剂盒用于制备测序文库。在一个实施方案中，该试剂盒包含转座体复合物，其中转座子识别位点使得通用序列可插入靶核酸中。在另一个实施方案中，该试剂盒包含两个转座体复合物，其中每个复合物包含具有不同通用序列的转座子识别位点，使得两个通用序列可插入靶核酸中。在另一个实施方案中，该试剂盒包含用于向核酸添加至少一个、两个或三个索引的组分。试剂盒还可包含可用于产生测序文库的其他组分。例如，该试剂盒可包含介导连接、引物延伸或扩增的至少一种酶，以将DNA分子处理成包含索引。该试剂盒可包含具有索引序列的核酸。

试剂盒的组分通常以足以进行至少一次测定或使用的量存在于合适的包装材料中。任选地，可包括其他组分，诸如缓冲剂和溶液。通常还包括包装组件的使用说明。如本文所用，短语“包装材料”是指用于容纳试剂盒内容物的一种或多种物理结构。包装材料通过常规方法构建，通常是为了提供无菌、无污染物的环境。包装材料可具有指示这些组分可用于产生测序文库的标签。此外，包装材料包含指示如何使用试剂盒内的材料的说明。如本文所用，术语“包装”是指诸如玻璃、塑料、纸材、箔等的容器，其能够将试剂盒的组分保持在固定限制范围内。“使用说明”通常包括描述试剂浓度或至少一个测定方法参数的有形表达，诸如待混合的试剂和样品的相对量、试剂/样品混合物的维持时间段、温度、缓冲条件等。

组合物

在测序文库的产生期间或之后，可产生许多分子和组合物。例如，可产生的分子或组合物包含在一侧或两侧上侧接连续索引的经修饰的靶核酸。连续索引可包括一行中的1、2、3、4、5、6或更多个索引，其中每个索引与另一个索引相隔1、2、3、4或更多个核苷酸。在一些实施方案中，连续索引的总长度为至少40、至少45、至少50或至少55个核苷酸，并且不大于80、不大于75、不大于70或不大于65个核苷酸。可产生包含多个此类经修饰的靶核酸的文库或组合物。可产生合并文库和包含此类多核苷酸的合并文库的组合物。

示例性实施方案

实施方案1.一种用于鉴定包含生物学特征的细胞亚群的方法，所述方法包括：

(a)提供单细胞测序文库，

其中所述测序文库包含多个经修饰的靶核酸，

其中所述经修饰的靶核酸包含至少一个索引序列；

(b)通过靶向测序询问所述测序文库，以鉴定作为生物学特征存在于相同的经修饰的靶核酸上的所述索引序列，

其中与所述生物学特征相关联的所述索引序列为标记索引序列；

(c)改变所述测序文库以获得子文库，

其中所述子文库包含与存在于所述测序文库中的不包含标记索引序列的其他经修饰的靶核酸相比，包含所述标记索引序列的所述经修饰的靶核酸的增加的表示；

(d)确定包含标记索引序列的所述经修饰的靶核酸的核苷酸序列。

实施方案2.根据实施方案1所述的方法，其中所述单细胞测序文库包含来自多个样品的核酸。

实施方案3.根据实施方案1至2中任一项所述的方法，其中所述多个样品包括(i)从不同生物体获得的相同组织的样品、(ii)来自一种生物体的不同组织的样品或(iii)来自不同生物体的不同组织的样品。

实施方案4.根据实施方案1至3中任一项所述的方法，其中在步骤(b)中鉴定多于一种标记索引序列。

实施方案5.根据实施方案1至4中任一项所述的方法，其中所述单细胞组合测序文库包含代表所述细胞或细胞核的全基因组或所述基因组的子集的靶核酸。

实施方案6.根据实施方案1至5中任一项所述的方法，其中所述基因组的所述子集包含靶核酸，所述靶核酸代表所述细胞或细胞核的转录组、可及性染色质、DNA、构象状态或蛋白质。

实施方案7.根据实施方案1至6中任一项所述的方法，其中所述改变包括富集包含所述标记索引序列的所述经修饰的靶核酸。

实施方案8.根据实施方案1至7中任一项所述的方法，其中所述富集包括基于杂交的方法。

实施方案9.根据实施方案1至8中任一项所述的方法，其中所述基于杂交的方法包括杂交捕获、扩增或CRISPR(d)Cas9。

实施方案10.根据实施方案1至9中任一项所述的方法，其中所述改变包括耗尽不包含所述标记索引序列的所述经修饰的靶核酸。

实施方案11.根据实施方案1至10中任一项所述的方法，其中所述耗尽包括基于杂交的方法。

实施方案12.根据实施方案1至11中任一项所述的方法，其中所述基于杂交的方法包括杂交捕获、扩增或CRISPR(d)Cas9。

实施方案13.根据实施方案1至12中任一项所述的方法，其中所述生物学特征包括指示物种类型的核苷酸序列。

实施方案14.根据实施方案1至13中任一项所述的方法，其中所述物种类型包括所述细胞的物种。

实施方案15.根据实施方案1至14中任一项所述的方法，其中所述生物学特征包括16s亚基、18s亚基或ITS非转录区的核苷酸。

实施方案16.根据实施方案1至15中任一项所述的方法，其中所述生物学特征包括指示细胞类别的核苷酸序列。

实施方案17.根据实施方案1至16中任一项所述的方法，其中所述细胞类别包括表达模式、表观遗传模式、免疫基因重组或它们的组合。

实施方案18.根据实施方案1至17中任一项所述的方法，其中所述表观遗传模式包括甲基化标记、甲基化模式、可及性DNA或它们的组合。

实施方案19.根据实施方案1至18中任一项所述的方法，其中所述生物学特征包括指示疾病状态或风险的核苷酸序列。

实施方案20.根据实施方案1至19中任一项所述的方法，其中疾病状态或风险包括与疾病相关的变体DNA序列、变体表达模式或变体表观遗传模式。

实施方案21.根据实施方案1至20中任一项所述的方法，其中所述变体DNA序列包含至少一个单核苷酸多态性。

实施方案22.根据实施方案1至21中任一项所述的方法，其中所述变体表达模式包括生物标记的表达。

实施方案23.根据实施方案1至22中任一项所述的方法，其中所述变体表观遗传模式包括甲基化标记、甲基化模式。

实施方案24.根据实施方案1至23中任一项所述的方法，其中所述经修饰的靶核酸包含至少2个隔室特异性索引序列的连续索引，其中在所述2个索引序列之间存在不大于6个核苷酸。

实施方案25.根据实施方案1至24中任一项所述的方法，其中所述连续索引存在于所述经修饰的靶核酸的每一端处。

实施方案26.根据实施方案1至25中任一项所述的方法，其中所述连续索引的长度为至少55个核苷酸。

实施方案27.根据实施方案1至26中任一项所述的方法，其中所述连续索引的一个拷贝存在于所述经修饰的靶核酸上。

实施方案28.根据实施方案1至27中任一项所述的方法，其中所述连续索引的两个拷贝存在于所述经修饰的靶核酸上。

实施方案29.根据实施方案1至28中任一项所述的方法，其中所述测序文库的所述多个经修饰的靶核酸代表至少100,000个不同的细胞或细胞核。

实施方案30.根据实施方案1至29中任一项所述的方法，其中所述提供所述单细胞组合测序文库包括：

处理样品以产生文库，其中所述样品是从生物体获得的宏基因组学样品。

实施方案31.根据实施方案1至30中任一项所述的方法，其中所述生物体是哺乳动物。

实施方案32.根据实施方案1至31中任一项所述的方法，其中所述宏基因组学样品包括怀疑包含共生或病原微生物的组织。

实施方案33.根据实施方案1至32中任一项所述的方法，其中所述微生物是原核的或真核的。

实施方案34.根据实施方案1至33中任一项所述的方法，其中所述宏基因组学样品包括微生物组样品。

实施方案35.根据实施方案1至34中任一项所述的方法，其中所述提供所述单细胞组合测序文库包括：

处理样品以产生文库，其中所述样品来自生物体。

实施方案36.根据实施方案1至35中任一项所述的方法，其中所述生物体是哺乳动物。

实施方案37.根据实施方案1至36中任一项所述的方法，其中来自所述样品的核酸的主要来源包括RNA。

实施方案38.根据实施方案1至37中任一项所述的方法，其中所述RNA包括mRNA。

实施方案39.根据实施方案1至38中任一项所述的方法，其中来自所述样品的核酸的主要来源包括DNA。

实施方案40.根据实施方案1至39中任一项所述的方法，其中所述DNA包括全细胞基因组DNA。

实施方案41.根据实施方案1至40中任一项所述的方法，其中所述全细胞基因组DNA包含核小体。

实施方案42.根据实施方案1至41中任一项所述的方法，其中来自所述样品的核酸的主要来源包括无细胞DNA。

实施方案43.根据实施方案1至42中任一项所述的方法，其中所述样品包括癌细胞。

实施方案44.根据实施方案1至43中任一项所述的方法，其中所述提供所述单细胞组合测序文库包括用单细胞组合索引方法产生所述文库，所述单细胞组合索引方法选自单细胞核转录组测序、单细胞转录组测序、单细胞转录组和转座子可及性染色质测序、单细胞核的全基因组测序、单细胞核的转座子可及性染色质测序、单细胞表位测序、sci-HiC和sci-MET。

实施方案45.根据实施方案1至44中任一项所述的方法，其中所述提供包括从每个细胞或细胞核提供两个不同的单细胞组合测序文库。

实施方案46.根据实施方案1至45中任一项所述的方法，其中所述两个不同的单细胞组合测序文库选自单细胞组合索引方法，所述单细胞组合索引方法选自单细胞核转录组测序、单细胞转录组测序、单细胞转录组和转座子可及性染色质测序、单细胞核的全基因组测序、单细胞核的转座子可及性染色质测序、sci-HiC和sci-MET。

实施方案47.根据实施方案1至46中任一项所述的方法，所述方法还包括执行测序程序以确定所述核酸的所述核苷酸序列。

实施方案48.一种用于制备测序文库的方法，所述测序文库包含来自多个单细胞核或细胞的核酸，所述方法包括：

(a)提供多个细胞核或细胞，其中所述细胞核或细胞包含核小体；

(b)使所述多个细胞核或细胞与包含转座酶和通用序列的转座体复合物接触，其中所述接触还包括适于将所述通用序列掺入到DNA核酸中从而产生包含所述通用序列的双链DNA核酸的条件；

(d)将所述多个细胞核或细胞分配到第一多个隔室中，

其中每个隔室包含所述细胞核或细胞的子集；

(e)处理所述细胞核或细胞的每个子集中的DNA分子以生成带索引细胞核或细胞，

其中所述处理包括向存在于所述细胞核或细胞的每个子集中的DNA核酸添加第一隔室特异性索引序列，以产生存在于所述带索引细胞核或细胞中的带索引核酸，

其中所述处理包括连接、引物延伸、杂交、扩增或它们的组合；以及

(g)组合所述带索引细胞核或细胞以生成合并的带索引细胞核或细胞。

实施方案49.根据权利要求48所述的方法，其中所述提供包括在多个隔室中提供所述多个细胞核或细胞，其中每个隔室包含所述细胞核或细胞的子集，其中所述接触包括使每个隔室与所述转座体复合物接触，并且其中所述方法还包括在所述接触之后将所述细胞核或细胞组合以生成合并的细胞核或细胞。

实施方案50.根据实施方案48至49中任一项所述的方法，其中所述提供包括使所述细胞核经受化学处理以生成耗尽核小体的细胞核，同时保持所述分离的细胞核的完整性。

实施方案51.根据实施方案48至50中任一项所述的方法，所述方法还包括：

将包括所述带索引细胞核或细胞的所述合并的带索引细胞核或细胞分配到第二多个隔室中，

其中每个隔室包含所述细胞核或细胞的子集；

处理所述细胞核或细胞的每个子集中的DNA分子以生成带双索引细胞核或细胞，

其中所述处理包括向存在于所述细胞核或细胞的每个子集中的DNA核酸添加第二隔室特异性索引序列，以产生存在于所述带索引细胞核或细胞中的带双索引核酸，

其中所述处理包括连接、引物延伸、杂交、扩增或它们的组合；

组合所述带双索引细胞核或细胞以生成合并的带双索引细胞核或细胞。

实施方案52.根据实施方案48至51中任一项所述的方法，所述方法还包括：

将包括所述带双索引细胞核或细胞的所述合并的细胞核或细胞分配到第三多个隔室中，

其中每个隔室包含所述细胞核或细胞的子集；

处理所述细胞核或细胞的每个子集中的DNA分子以生成带三索引细胞核或细胞，

其中所述处理包括向存在于所述细胞核或细胞的每个子集中的DNA核酸添加第三隔室特异性索引序列，以产生存在于所述带索引细胞核或细胞中的带三索引核酸，

组合所述带三索引细胞核或细胞以生成合并的带三索引细胞核或细胞。

实施方案53.根据实施方案48至52中任一项所述的方法，其中所述分配步骤包括稀释。

实施方案54.根据实施方案48至53中任一项所述的方法，其中所述隔室包括孔、微流体隔室或小滴。

实施方案55.根据实施方案48至54中任一项所述的方法，其中所述第一多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

实施方案56.根据实施方案48至55中任一项所述的方法，其中所述第二多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

实施方案57.根据实施方案48至56中任一项所述的方法，其中所述第三多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

实施方案58.根据实施方案48至57中任一项所述的方法，其中所述接触包括使每个子集与两个转座体复合物接触，其中一个转座体复合物包含含有第一通用序列的第一转座酶，并且第二转座体复合物包含含有第二通用序列的第二转座酶，其中所述接触还包括适于将所述第一通用序列和所述第二通用序列掺入到DNA核酸中从而产生包含所述第一通用序列和所述第二通用序列的双链DNA核酸的条件。

实施方案59.根据实施方案48至58中任一项所述的方法，其中所述隔室特异性索引序列的所述添加包括如下的两步过程：将包含通用序列的核苷酸序列添加到所述核酸，然后将所述隔室特异性索引序列添加到所述核酸。

实施方案60.根据实施方案48至59中任一项所述的方法，所述方法还包括从所述合并的带索引细胞核或细胞获得所述带索引核酸，从而由所述多个细胞核或细胞产生测序文库。

实施方案61.根据实施方案48至60中任一项所述的方法，所述方法还包括从所述合并的带双索引细胞核或细胞获得所述带双索引核酸，从而由所述多个细胞核或细胞产生测序文库。

实施方案62.根据实施方案48至61中任一项所述的方法，所述方法还包括从所述合并的带三索引细胞核或细胞获得所述带三索引核酸，从而由所述多个细胞核或细胞产生测序文库。

实施方案63.根据实施方案48至62中任一项所述的方法，所述方法还包括：

提供包含多个扩增位点的表面，

其中所述扩增位点包括至少两个具有游离3'端的附接的单链捕获寡核苷酸的群体，以及

在适于产生多个扩增位点的条件下使包含所述扩增位点的所述表面与包含一个、两个或三个索引序列的所述核酸片段接触，所述多个扩增位点各自包括来自包含多个索引的单个片段的扩增子的克隆群体。

实施方案64.一种制备核酸文库的方法，所述方法包括：

(a)提供多个样品，其中每个样品包含多个细胞或细胞核，其中每个样品的所述多个细胞或细胞核存在于一个或多个单独的隔室中；

(b)使所述多个细胞核或细胞与包含转座酶和通用序列的转座体复合物接触，前提条件是所述转座体复合物不包含索引序列，其中所述接触还包括适于将所述通用序列掺入到核酸中的条件；

(c)将第一索引序列添加到每个单独隔室的所述核酸；

(d)组合所述单独隔室的所述细胞或细胞核；

(e)将所述细胞或细胞核分配到多个隔室中；以及

(f)将第二索引序列添加到所述多个隔室的所述核酸。

实施方案65.根据实施方案64所述的方法，其中通过连接、引物延伸、杂交、扩增或它们的组合来添加所述第一索引序列、所述第二索引序列或它们的组合。

实施方案66.根据实施方案64至65中任一项所述的方法，其中重复步骤(d)至(e)以将第三或更多个索引序列添加到所述多个隔室的所述细胞或细胞核。

实施方案67.根据实施方案64至66中任一项所述的方法，其中所述多个细胞核或细胞是固定的。

实施方案68.根据实施方案64至67中任一项所述的方法，所述方法还包括在步骤(c)或步骤(f)之后带索引核酸的扩增。

实施方案69.根据实施方案64至68中任一项所述的方法，所述方法还包括步骤(g)：组合所述多个隔室的所述核酸并确定所述核酸的序列。

实施方案70.根据实施方案64至69中任一项所述的方法，所述方法还包括执行测序程序以确定所述核酸的所述核苷酸序列。

实施方案71.一种对单个细胞或细胞核进行测序的方法，所述方法包括：

(a)对样品中的每个细胞或细胞核的核酸加唯一索引，从而针对每个细胞或细胞核生成索引文库；

(b)使用生物学特征来鉴定来自步骤(a)的一个或多个所关注的带索引文库；

(c)富集步骤(b)的所述所关注的带索引文库，从而生成富集文库；以及

(d)对来自步骤(c)的所述富集文库进行测序。

实施方案72.根据实施方案71所述的方法，其中所述文库来源于所述细胞或细胞核的DNA、RNA或蛋白质。

实施方案73.根据实施方案64至72中任一项所述的方法，其中所述生物学特征为DNA、RNA或蛋白质或它们的组合。

实施方案74.根据实施方案64至73中任一项所述的方法，其中步骤(a)中的所述加唯一索引包括将至少两种不同的索引关联到所述细胞或细胞核的所述核酸。

实施方案75.根据实施方案64至74中任一项所述的方法，其中所述至少两种不同的索引为连续索引。

实施方案76.根据实施方案64至75中任一项所述的方法，其中所述富集文库通过正向富集生成。

实施方案77.根据实施方案64至76中任一项所述的方法，其中所述正向富集包括扩增。

实施方案78.根据实施方案64至77中任一项所述的方法，其中所述正向富集包含捕获剂。

实施方案79.根据实施方案64至78中任一项所述的方法，其中所述正向富集包含固体载体。

实施方案80.根据实施方案64至79中任一项所述的方法，其中所述富集文库通过负向富集生成。

实施方案81.根据实施方案64至80中任一项所述的方法，其中步骤(c)中的所述鉴定所述所关注的带索引文库包括对所述索引进行测序。

实施方案82.一种对单个细胞或细胞核进行测序的方法，所述方法包括：

(a)提供样品，其中所述样品包含多个细胞核或细胞；

(b)将第一索引关联到所述样品中每个细胞核或细胞上；

(c)将所述样品分成多个隔室；

(d)将第二索引关联到所述多个隔室的每个细胞核或细胞上；

(e)合并所述多个隔室；

(f)对所合并的隔室进行测序；

(g)鉴定与生物学特征相关联的第一索引和第二索引的组合；

(h)使用来自步骤(g)的所鉴定的第一索引和第二索引的组合富集来自所合并的隔室的所述生物学特征。

实施方案83.一种试剂盒，所述试剂盒包含：

(a)多个转座体复合物，其中每个转座体复合物包含转座酶和转座子序列，其中所述转座子序列未加索引；

(b)第一多个索引寡核苷酸，其中所述第一多个索引寡核苷酸包括具有至少两个不同序列的寡核苷酸；以及

(c)用于与所述索引寡核苷酸配套使用的连接酶。

实施方案84.根据实施方案83所述的试剂盒，所述试剂盒还包含第二多个索引寡核苷酸，其中所述第二多个索引寡核苷酸包括具有与所述第一多个索引寡核苷酸不同的序列的寡核苷酸。

实施方案85.根据实施方案83或84所述的试剂盒，所述试剂盒还包含第三多个索引寡核苷酸，其中所述第三多个索引寡核苷酸包括具有与所述第一多个索引寡核苷酸和所述第二多个索引寡核苷酸不同的序列的寡核苷酸。

实施例

通过以下实施例说明本公开。应当理解，应当根据如本文所述的本公开的范围和实质广义地解释特定实施例、材料、量和程序。

实施例1

发育期间染色质可及性的人类细胞图谱

摘要

人基因组的染色质景观(chromatin landscape)塑造了细胞类型特异性基因表达程序。我们开发了基于三级组合索引(sci-ATAC-seq3)的单细胞染色质可及性谱图分析的改进测定，并将其应用于代表15个器官的59个胎儿样品，总共谱图分析了约一百万个单细胞。我们利用由相同器官中的基因表达所定义的细胞类型来注释这些数据，以构建数十万个细胞类型特异性DNA调控元件的目录，并研究谱系特异性转录因子的特性以及复杂特征遗传力的细胞类型特异性富集。这些数据连同随附的发育期间基因表达的人类细胞图谱一起构成了用于探索人类生物学的丰富资源。

正文

近年来，单细胞方法、实验和图谱迅速发展。然而，绝大多数努力仍然集中在单细胞基因表达上，这仅反映了细胞、发育和有机体生物学的一个方面。其他方面，包括塑造基因表达程序的染色质景观，对于以单细胞分辨率进行研究也同样重要，但受到可扩展方法相对缺乏的挑战。

单细胞组合索引(“sci”)的框架涉及将细胞或细胞核拆分并合并到孔中，其中在每轮中将分子条形码原位引入所关注物质(例如，RNA或染色质)中。通过连续几轮原位引入分子条形码，同一细胞内的物质被一致地用独特的条形码组合标记。已经开发了用于谱图分析染色质可及性(sci-ATAC-seq)、基因表达(sci-RNA-seq)、核结构、基因组序列、甲基化、组蛋白标记和其他现象的sci-测定，以及例如用于联合谱图分析染色质可及性和基因表达的sci-共测定(“CoBatch”、“Split-seq”、“Paired-seq”和“dscATAC-seq”是也依赖于单细胞组合索引的方法)。

虽然我们先前能够通过二级sci-ATAC-seq谱图分析约100,000个哺乳动物细胞中的染色质可及性，但该测定存在一些局限性。例如，它需要用条形码接头自定义加载Tn5酶，并通过碰撞限制每个实验10⁴-10⁵个细胞—接受相同条形码组合的细胞。为了解决这些问题，我们开发了基于三级组合索引(sci-ATAC-seq3)的单细胞染色质可及性谱图分析的改进测定。与先前的sci-ATAC-seq迭代相比，该测定不依赖于分子条形码引入Tn5复合物(图9；图10)。相反，前两轮加索引通过连接到常规的、均匀加载的Tn5转座酶复合物(标准“Nextera”)的任一端来实现，而最后一轮加索引仍然通过PCR来实现。相对于二级sci-ATAC-seq但类似于sci-RNA-seq3，sci-ATAC-seq3显著降低了文库制备的每细胞成本以及碰撞率。2级加索引(96×384孔)和3级加索引(384×384×384孔)的理论碰撞率分别为12％和1.3％，并且使用合并的相等数量的GM12878细胞和CH12.LX细胞的3级“物质混合”实验所观察到的碰撞率估计为4.0％，从而有机会进行10⁶个细胞规模的实验。该方案不再需要细胞分选，并且我们还优化了连接酶和聚合酶的选择、激酶浓度以及寡核苷酸的设计和浓度，以最大限度地增加从每个细胞中回收的片段数量。值得注意的是，在保持可及区域的富集的同时，我们做出了明确的选择，以牺牲可及位点的特异性为代价，最大限度地提高复杂度。使用Picard计算每个细胞的估计的总独特读段(“复杂度”)，并且计算每个细胞的转录起始位点中的读段分数(“FRiTSS”)。在Gencode TSS的500bp内的读段被认为是在TSS内。具体地，我们发现可调整固定条件以调节测定的灵敏度(即，复杂度)和特异性(即，可及位点的富集)。

为了建立染色质可及性的人类细胞图谱，我们将sci-ATAC-seq3应用于代表15个器官(肾上腺、小脑的两个区域、眼、心、肠、肾、肝脏、肺、肌肉、胰腺、胎盘、脾、胃和胸腺)的59个胎儿样品，总共谱图分析了160万个细胞中的染色质可及性(图1D至图1E)。在实施例2中，我们描述了基于一组重叠的样品，在来自相同器官的400万至500万个细胞中的基因表达的谱图分析。谱图分析的器官跨越各种不同的系统；最值得注意的是，不存在骨髓、骨、性腺和皮肤。

异质胎儿组织的快速而均匀的处理代表了巨大的挑战。我们开发了直接从冷冻保存的组织中提取细胞核的新方法，该方法适用于各种组织类型，并产生适用于sci-ATAC-seq3和sci-RNA-seq3的匀浆。简而言之，我们将快速冷冻的组织切片包裹在铝箔中，并使用冷却锤在干冰上将它们粉碎成粉末。然后将组织粉末分成等分试样，一份用于sci-ATAC-seq3，另一份用于sci-RNA-seq3。

对于sci-ATAC-seq3，样品从23个估计胎龄为89至125天的胎儿获得。我们用公布的ATAC-seq细胞裂解缓冲液裂解细胞以分离细胞核，并用甲醛固定细胞核，然后快速冷冻以供将来处理。对于来自每个组织的细胞核，将大约50,000个固定细胞核沉积在96孔板的4个孔上并进行处理以用于片段标签化。在片段标签化后，第一索引(也鉴定组织样品)通过连接到不对称插入的转座酶复合物的一个自由端引入。在合并和拆分后，第二索引通过连接到转座酶复合物的另一自由端引入。在另一轮合并和拆分后，通过PCR附加最终索引并将所得扩增子合并用于测序。

我们对来自5次Illumina NovaSeq运行的3个实验的sci-ATAC-seq3文库进行测序，总共生成了超过500亿个读段。作为初始QC检查，我们在组织水平上(即，在将其拆分成单个细胞之前)检查我们的数据。我们从ENCODE数据门户下载并重新映射了来自胎儿组织的所有可用的单端DNase-seq样品。然后，我们在我们的“伪批量”样品中的每个“伪批量”样品和每个ENCODE样品中识别可及性的峰值，合并这些集合，并对主列表中每个峰值处的每个样品的可及性进行评分。虽然sci-ATAC-seq3数据在峰中的富集程度有所降低(峰中读段的中值：对于sci-ATAC-seq3为29％；对于ENCODE DNase-seq为35％)，但来自同一组织的样品在两种测定中具有相当的相关性(中值Spearman相关性：来自同一组织的两个样品对于sci-ATAC-seq3为0.93；对于DNase-seq为0.91)，其中sci-ATAC-seq3的技术重现性更高(中值Spearman相关性：0.95)。此外，无论是单独分析sci-ATAC-seq3样品还是使用用于聚类样品的成对Spearman相关性一起分析sci-ATAC-seq3样品和DNase-seq样品，样品都基于这些聚集体图谱聚类到它们相应的组织中。

如前所述，基于细胞条形码拆分读段并应用动态阈值后，我们鉴定出1,568,018个细胞。根据barnyard对照，我们估计三个实验中的每个实验的碰撞率为约5％。对应于人类前哨组织的细胞的均匀流形近似和投影(UMAP)可视化没有显示任何明显的实验批次效应。三个样品由于其片段大小分布的核小体条带较差而被丢弃；另外两个样品由于捕获的细胞非常少而被丢弃。我们估计，我们对这些sci-ATAC-seq3文库中每个组织类型的每个细胞的中值为91％至99％的所有独特片段进行了测序。

我们在逐个组织的基础上确定了可及性的峰，然后合并这些峰以生成105万个位点的主集。在针对每个位点处读段的存在或不存在来对每个细胞进行评分之后，我们基于总独特读段的数量(样品特定的最小值范围为1,000至3,586)、与可及位点的主集重叠的读段分数(样品特定的最小值范围为0.2至0.4)、落在TSS附近的读段分数(+/-1kb；样品特定的最小值范围为0.05至0.15)，以及来源于最初开发用于scRNA-seq数据的Scrublet双重体检测算法的改编的双重体得分(不包括约10％的具有最高双重体得分的细胞)来滤除较低质量的细胞。

在这些程序之后，保留了来自54个胎儿样品的790,957个单细胞染色质可及性图谱。每个组织的高质量细胞的总数范围为脾的2,421个至肝脏的211,450个。该集合的每个细胞的独特片段的中值数量为6,042，其中与可及位点的主集重叠的中值为0.49，并且落在TSS附近(+/-1kb)的中值为0.19。

我们使用对数变换项频率分量，在逐个组织的基础上对高质量细胞进行潜在语义索引(LSI)。虽然我们没有观察到对应于相同组织的不同样品的批次效应的明显证据，但我们应用Harmony算法来对齐每个组织的PCA空间内的样品，作为保守度量。使用每个组织的对齐PCA空间，然后我们应用Louvain聚类，最初获得所有组织的172个簇。我们使用UMAP进一步降低了每个组织数据集的维度。

注释细胞类型

正如我们和其他人所展示的，通过利用scRNA-seq数据集，可大大简化scATAC-seq数据集中细胞类型的注释。为了部分自动化我们的scATAC-seq数据的细胞类型注释，我们首先在我们的scRNA-seq数据内注释相同组织的细胞类型，如配套手稿中所述。第二，我们计算了我们的scATAC-seq数据的基因水平可及性得分，汇总了落入在其TSS上游延伸2kb的基因体内的转座事件的数目。第三，我们使用每种数据类型的逐细胞基因矩阵作为基于非负最小二乘(NNLS)回归来寻找scRNA-seq簇和scATAC-seq簇之间可能对应关系的方法的输入，这针对我们的scATAC-seq簇产生了初始的“提升”自动注释集。最后，我们通过检查每个组织内每种细胞类型的标记基因周围的堆积，如认为有必要对指定标记进行修饰，从而手动查看所有自动注释。细胞类型首先基于标记基因表达在匹配组织上收集的sci-RNA-seq数据中进行注释。在每个组织的ATAC数据中确定了Louvain簇。接下来，计算这些簇中每个簇的基因水平可及性得分，并基于非负最小二乘(NNLS)回归与RNA簇匹配，在一些情况下，导致Louvain簇合并。这些第一遍自动注释通过手动查看标记基因周围的簇特定可及性景观而被进一步完善。带注释的细胞类型显示出已知标记基因的TSS周围的特定可及性。对于每种细胞类型或未注释的簇，将已知标记基因的TSS附近的可及性相加，并且将标度归一化以考虑每个细胞的总读段以及细胞类型中的细胞数目的差异。数据表明，一些未注释的簇可能不代表新的细胞类型，而是表示技术性伪影(例如，双重体)。我们注意到，虽然其他方法已在单细胞数据的多模态整合方面显示出巨大前景，但我们发现簇到簇NNLS方法足以满足我们的目的，并且计算密集度低得多。

总之，如果我们包括较低置信度标记，则我们能够注释172个簇中的150个簇(87％)或172个簇中的163个簇(95％)。一些簇在相同组织内接收相同的注释并因此合并，从而在所有组织中产生124个注释。其中，一些注释存在于多个组织中(例如，4个组织中的成红细胞)。跨组织折叠产生了54个独特的细胞类型注释，它们以1:1映射到在我们的scRNA-seq数据集中作出的注释(或者如果我们包括较低置信度标记和1:2映射，则为59个)。在此分辨率水平下的染色质可及性数据中未发现的许多scRNA-seq细胞类型是小簇，由于在本研究中谱图分析的细胞数量较少(约4M(RNA)对比约800K(ATAC)高质量细胞)，这些小簇可能未被充分采样以供检测。另一方面，保持完全未注释的9个scATAC-seq簇中的大多数似乎是由于未过滤的双重体，因为它们的特征在于UMAP表示中多个相邻细胞类型的标记基因的可及性。

鉴定谱系特异性TF

我们接下来试图整合并比较所有15个器官的细胞类型中的染色质可及性。为了减轻每个器官和/或细胞类型的细胞数量的显著差异的影响，我们随机对每个器官的每种细胞类型的800个细胞进行采样(或者在给定器官中表示的给定细胞类型少于800个细胞的情况下，获取所有细胞)，并执行UMAP可视化。令人放心的是，在多个器官中表示的细胞类型聚类在一起，例如基质细胞(9个器官)、内皮细胞(13个器官)、淋巴细胞(7个器官)和髓细胞(10个器官)，而不是分批或单独聚类。发育和功能相关的细胞类型也是共定位的，例如，不同的血细胞、分泌细胞、PNS神经元、CNS神经元。

发育生物学中的关键问题是哪些转录因子(TF)负责从不变基因组产生细胞类型的这种多样性。接下来，我们试图利用染色质可及性的该人类细胞图谱的广度来系统地评估哪些TF基序是差异可及的，从而在体内人类发育的背景下确定细胞命运的关键调控因子。

作为第一种方法，我们使用线性回归模型来询问存在于每个细胞的可及位点中的哪些TF基序最好地解释其细胞类型归属。最初独立地处理每个组织，我们从124个带注释的细胞类型簇的每个带注释的细胞类型簇中的JASPAR数据库中鉴定出最高度富集的基序/TF，这揭示了已知和潜在的新调控因子。例如，在胎盘中，SPI1/PU.1的基序(髓系谱系发育的既定调控因子)在髓细胞的峰中高度富集；TWIST-1的基序(其是形成基质祖细胞所需的)在基质细胞的峰中富集；FOS::JUN基序与绒毛外滋养层细胞中的染色质可及性相关，该绒毛外滋养层细胞是其中对应的AP1复合物已被描述为具有特异性活性的细胞类型。

有趣的是，胎盘内的未注释的簇强烈富集GATA1::TAL1基序，这是红细胞生成的既定调控因子。这些细胞与来自全局UMAP中其他组织的成红细胞聚类在一起，并且在进一步检查后，关键的红细胞标记基因显示出特定的启动子可及性。在NNLS指导的工作流程中，这个簇没有注释，因为在scRNA-seq研究中，在胎盘中没有检测到成红细胞簇，这可能是因为胎盘是少数几个ATAC比RNA细胞多的组织之一。因此，如果细胞类型的关键调控因子是已知的，则基序富集可有助于细胞类型注释。

我们对在所有组织中观察到的54种主要细胞类型重复该分析，即，在多个组织中出现折叠细胞类型之后。可以预知，顶部基序与组织特异性分析以及文献(例如，髓细胞中的SPI1/PU.1；视网膜色素和感光细胞中的CRX；心肌细胞和骨骼肌细胞中的MEF2B(31)；以及心内膜和平滑肌细胞中的SRF。虽然大多数基序仅在一种或两种细胞类型中富集，但包括OLIG2、NEUROG1和POU4F1在内的神经元TF基序在多种神经元细胞类型中富集。另一个值得注意的例外是通常与肾脏和胰腺发育相关的HNF1B，其基序在涵盖一系列特化的上皮细胞和分泌细胞的13种细胞类型中富集。

POU2F1是TF的一个示例，它先前没有与特定的发育分支相关联，而是被认为是POU家族中的一个例外—广泛表达并且没有控制特定的轨迹。相比之下，我们发现至少在人类胎儿发育中，其基序在几种神经元细胞类型中富集。进一步支持，POU2F1在那些相同的细胞类型中特异性表达。

继续该观察，我们接下来试图利用配套scRNA-seq图谱来更一般地询问TF是否以与其基序的差异可及性一致的模式差异表达。例如，纵观两个数据集中在同一组织中注释的所有细胞类型，髓样先驱因子SPI1/PU.1的表达与其基序在可及位点的富集呈强正相关。有趣的是，该分析还揭示了在其表达和基序富集之间呈负相关的许多TF。在仔细检查时，这些TF往往是阻遏物。例如，GFI1B已被描述为充当对成红细胞和巨核细胞发育至关重要的阻遏物，其作用是通过在结合组蛋白基序时募集组蛋白脱乙酰酶并诱导染色质(例如，在胚胎血红蛋白基因座处)闭合。与此一致，我们观察到其表达与其在可及位点处的基序富集呈负相关。

基于GO术语将TF分类为“激活物”或“阻遏物”，我们发现TF表达和基序可及性往往与带注释的激活物正相关，并且与带注释的阻遏物负相关，并且基序富集和表达的相关性可用于预测未分类TF的作用模式。例外情况在很大程度上可通过缺失或冲突的GO术语来解释，而文献搜索将它们放入由相关性值预测的类别中。因此，这种分析可提供将TF分类为激活物或阻遏物的系统方法。例如，NFATc3一般被描述为激活物，但是我们的分析指向阻遏作用模式，尤其是在发育的T细胞中，它高度表达，但其基序在可及位点被耗尽。NFATc3的这种阻遏作用模式在先前的出版物中已有提示。除了一般分类之外，我们还可以深入了解TF可能可变地充当激活物或阻遏物的细胞类型背景。例如，包括FOXO3在内的TF已被提议在其未修饰状态下充当激活物，但在磷酸化时充当阻遏物，这可解释其表达和可及性之间的更模糊的关系。

上述方法允许我们系统性地将已知的TF与潜在的新作用相关联，优点是它不依赖于针对每种细胞类型预先选择差异可及位点，并且进一步的优点是我们可将TF的表达与其对应基序的可及性相关联。然而，它的局限性在于我们依赖于已知TF基序的数据库。作为不同的方法，我们还计算了每个可及位点的特异性得分，为每种细胞类型选择了2,000个最具特异性的峰，并且与CpG匹配背景基因组序列相比，从头搜索了该组内的富集基序。一般来讲，各种细胞类型的最高从头基序与通过线性回归确定的最高已知基序一致。有趣的是，与已知基序不具有强匹配的一些细胞类型(例如，内皮细胞、基质细胞、施万细胞)仍然与从头基序密切相关。特别是对于内皮细胞，这些结果将在下文中进一步讨论。

血细胞和内皮细胞的跨组织分析

该数据集的性质为研究广泛出现的细胞类型(例如，血细胞和内皮细胞)内染色质可及性的器官特异性差异创造了机会。在我们对血液系统的第一遍细胞类型注释时，我们能够区分髓细胞、淋巴细胞、成红细胞、巨核细胞和造血干细胞。从所有器官提取和重新聚类这些血液谱系允许我们另外鉴定巨噬细胞、B细胞、NK/ILC 3细胞、T细胞和树突状细胞，再次采用RNA辅助注释方法(值得注意的是，分析来自多个组织的相似细胞类型需要额外的双重体清洁步骤；参见方法)。巨噬细胞以及吞噬巨噬细胞可进一步分成与来源组织相关的组，如先前已观察到的。后一组主要在脾中鉴定，其次在肝脏和肾上腺中鉴定。由于胎儿发育期间红细胞生成的时空动态，血液谱系中特别令人感兴趣的是成红细胞。我们最初在肝脏、肾上腺、心脏和胎盘中检测到这种谱系；我们的跨组织分析另外鉴定了浅层分布脾中的成红细胞(最初只注释了巨核细胞和髓细胞)。组织的血液谱系中成红细胞的比率在肝脏中最高，这与该器官是该发育阶段红细胞生成的主要部位一致，其次是脾和肾上腺，表型模拟了在RNA数据中观察到的趋势。在实施例2中进一步讨论了作为胎儿造血的潜在部位的肾上腺的意外观察结果。

进一步研究成红细胞，我们观察到邻近成人β-和胎儿γ-球蛋白基因的区域在该发育阶段是可及的，而胚胎ε-珠蛋白基因的启动子是不可及的。成红细胞簇可进一步细分成具有差异染色质可及性的五个主要Louvain簇，包括一个不同的成红细胞祖细胞簇。成红细胞祖细胞簇以及邻近的早期成红细胞簇(erythroblast_3)中的可及位点富集GATA1::TAL1以及其他GATA基序。对成红细胞祖细胞中各种GATA因子的表达水平的比较，允许我们将GATA1/2确定为可能导致该基序富集的TF。对应于红细胞生成后期阶段的其他成红细胞簇显示NFE2/NFE2L2(erythroblast_1)和KLF因子(erythroblast_2/4)的基序富集，并且值得注意的是，显著缺乏GATA基序可及性的富集。最近发表的关于小鼠造血系统的scRNA-seq研究报道了在红细胞生成早期诱导GATA2，随后GATA2降低，但GATA1表达稳定。相比之下，对经分选的大量体外培养的人类红细胞群的研究揭示，从祖细胞到分化的成红细胞中GATA1的表达降低，这与我们在人类胎儿组织中观察到的情况一致，并且在后期成红细胞中KLF1和NFE-2水平升高。我们的结果进一步表明，可能存在表观遗传上不同的分化的成红细胞亚群，其中可及性景观由非GATA因子(诸如KLF1或NFE-2)塑造。例如，被疟原虫用作红细胞入侵受体的GYPA上游的远端调控元件在erythroblast_1群体中最具可及性，并且包含类似NFE-2基序的基序。

另一个有趣的跨组织系统是血管内皮。有趣的是，没有TF被描述为仅在血管内皮细胞中表达，这表明内皮特异性转录组由在内皮中具有重叠表达的若干TF组合控制。与此一致，在我们对JASPAR基序的分析中，我们没有观察到内皮细胞中任何单一的、强烈的富集。另一方面，在2,000个最具内皮特异性的峰上的从头基序发现揭示了对类似ERG和SOX15的基序的背景基因组序列的强富集。在我们的线性建模方法中，这些基序的权重可能没有那么大，因为它们不限于内皮细胞(ERG基序在巨核细胞中更为富集；而SOX15在多种细胞类型中富集)，这些TF的表达也不限于该细胞类型。与此一致，ERG先前被描述为内皮功能的主要调控因子，但也驱动转分化为巨核细胞。

内皮细胞存在于所有器官中，其中它们需要执行组成型和高度特化的功能，诸如肺中的气体交换或肾中的流体过滤。在我们的研究中，我们在15个器官中的13个器官中检测到内皮细胞(例外情况是较浅层分布的小脑和眼睛)。尽管进行了严格的迭代过滤步骤以去除任何残留的污染双重体(方法)并且与成红细胞谱系形成对比，但跨器官提取这些细胞并重新聚类显示出根据来源组织的显著分离。与此一致，我们还观察到基因表达的组织特异性程序，如实施例2中所述。实际上，最接近这些差异表达的基因的可及性峰在ATAC数据的匹配组织中具有更高的特异性得分。此外，来源于几乎所有器官的内皮细胞表现出特异性TF基序富集。值得注意的是，许多富集基序的TF也在RNA数据的匹配组织中差异表达。

总体而言，这些发现表明，内皮细胞中染色质可及性和基因表达的一般程序由组成型TF(如ERG和SOX15)以及驱动附加特化的组织特异性TF的组合介导，该内皮细胞是需要满足一般功能和器官特异性功能两者的广泛分布的细胞类型。这些分析还突出了将特定峰中的从头基序富集和跨组织的线性模型方法两者组合以指定以各种细胞类型的染色质可及性景观为基础的关键调控因子的优点。

另一个有趣的示例涉及胎盘中的PAEP_MECOM阳性细胞类型，其在scRNA-seq图谱和sc-ATAC-seq图谱中都得到了鉴定。该谱系中的调控区强烈富集了HNF1B的基序，HNF1B是一种通常与肾脏和胰腺发育相关的因子。例如，HNF1B在胎盘内的PAEP_MECOM细胞谱系中高度特异性表达。ATAC-seq数据的性质允许基于Y染色体而不是X染色体或常染色体衍生的读段对细胞进行性别鉴定，该数据甚至在整个染色体上的不可及位点也能捕获一些基因组读段。有趣的是，我们发现PAEP_MECOM和IGFBP1_DKK阳性胎盘细胞类型，以及在较小程度上的胎盘髓细胞，在男性胎儿中具有显著较低的Y染色体读取率。与关于PAEP(胎盘蛋白)和IGFBP1已知的内容一致，这些细胞类型潜在地分别对应于母体子宫内膜上皮细胞和基质细胞。

CICERO

作为进一步研究的资源，我们为数据集中的每个组织生成Cicero共可及性得分和Cicero基因活性得分。Cicero共可及性得分可用于预测可及元件之间的顺式调控相互作用。我们将正共可及性得分配对的元件组合，以创建推定的顺式调控相互作用的数据库。该数据库包括8000万个独特的共可及对(coaccessible pair)，包括450万(6％)个启动子-远端对、7600万(94％)个远端-远端对和12.8万(0.2％)个启动子-启动子对。我们发现每个组织平均有3300万个共可及对。38％的对仅对于单个组织是独特的，而仅0.007％的对在所有16个组织中均被检测到。存在于更多组织中的对更有可能是启动子-远端和启动子-启动子。所生成的共可及性得分和基因活性得分可在我们的网站上下载。

值得注意的是，相对于2,040个细胞的对照组，在这85个细胞簇中的至少一个细胞簇中的假发现率(FDR)为1％时，436,206个初始识别位点中的89％是显著差异可及的(DA)(从17个样品中的每个样品随机采样120个细胞；参见“额外资源”)。为了识别可及性限于特定簇的DA位点，我们将scRNA-seq研究中用于定量基因表达特异性的度量调整为染色质可及性，并通过所有85个簇计算所有436,206个位点的染色质可及性。我们将39％(167,981/436,206)的可及位点分类为簇受限(即，在有限数量的簇中增加的可及性)；这些位点中的55％(92,334/167,981)限于单个簇。

细胞类型与常见人类特征和疾病的联系

如通过全基因组关联研究(GWAS)所测量的，常见人类特征和疾病的遗传力的主要部分分区至远端调控元件，该远端调控元件通常是细胞类型特异性的。因此，已进行了许多工作将GWAS信号与大量DNase超敏数据(以及其他表观遗传特征)相结合，目的是系统性地将特定疾病与特定组织的功能障碍联系起来。然而，此类研究的分辨率受到细胞类型异质性的显著限制。鉴于小鼠和人类之间染色质可及性的保守程度，我们想知道是否可以使用我们的数据更好地了解以复杂人类特征为基础的遗传变异的细胞类型特异性影响，而不管物种之间的差异如何。因此，尽管事实上我们的数据是基于小鼠组织生成的，但我们试图应用现有技术方法来检测人类遗传力的细胞类型特异性富集。

为此，我们使用分区连锁不平衡(LD)评分回归(LDSC)针对我们85个簇中每个簇的DA峰内人类特征的遗传力的富集进行定量。在将人类SNP提升至小鼠基因组中的直系同源坐标后，我们计算了针对我们85个簇中每个簇获得的DA峰上32个表型的遗传力富集。85种细胞类型中的55种细胞类型富集了至少一种表型，而32种表型中的28种表型针对至少一种细胞类型进行富集。作为总体趋势，我们观察到自身免疫性疾病诸如狼疮、乳糜泻和克罗恩氏病的遗传力在与白细胞相对应的簇中的强富集，而对于神经系统特征诸如双相情感障碍、教育素养和精神分裂症，富集发生在神经元细胞类型中。值得注意的是，这些富集中的大多数从大块组织检出的峰中并不明显，证明了由单细胞染色质可及性数据定义的细胞类型的价值。许多富集与预期一致。例如，低密度脂蛋白(LDL)胆固醇、高密度脂蛋白(HDL)胆固醇和甘油三酯遗传力的最强富集存在于肝细胞中，但有趣的是，LDL胆固醇在亨利氏环的肾上皮中也是显著的。同样地，免疫球蛋白A(IgA)缺乏症的遗传力的最强富集是在T细胞簇中。这些信号还可导致对细胞亚型重要性的深入理解。作为该趋势的一个示例，虽然在多个神经元簇中观察到双相情感障碍的遗传力富集，但最强富集涉及兴奋性神经元。相比之下，阿尔茨海默病的遗传力并未在任何类别的神经元中富集。相反，它的最强富集存在于小胶质细胞簇中。

为了将我们的分析扩展到更大的特征集合，我们从英国生物样本库(UK Biobank)下载了超过300,000个个体的2,419个特征的GWAS汇总统计(nealelab.github.io/UKBB_ldsc/)。关注有效样品大小≥5,000且估计遗传力≥0.01的405个特征，我们观察到273个特征的遗传力在至少一种细胞类型中显著富集，而85种细胞类型中的74种细胞类型表现出对至少一个特征的遗传力富集。虽然此处也可看到与上文所述相同的针对自身免疫和神经系统特征的总体趋势，但由英国生物样本库测量的更多特征则揭示了另外的趋势。例如，体型和组成(例如，身体质量指数)的许多测量值也与大脑中的细胞类型相关联(图18B)。另外，T细胞的特定子集(12.1、12.2)比其他细胞类型(包括其他T细胞簇)与哮喘和过敏性鼻炎更相关。在更细的层面上，心脏病发作与来自肝脏(25.3)而不是来自其他内皮簇的内皮细胞有关，而痛风与肾近端小管细胞有关。我们在此展示的框架可容易地应用于从任何人或小鼠组织和任何可遗传特征收集的单细胞染色质可及性数据。

新设计的一个结果是它与2级(“2lv2”或“2级第2版协议”)和3级(“3lv2”)配置均兼容，从而为研究设计提供了更大的灵活性(图9)。

最后，我们还测试了用甲醛固定细胞或细胞核以允许长期稳定储存的各种条件。我们发现，用于固定的缓冲液以及在固定之前或之后分离细胞核的选择提出了在复杂性和特异性之间的选择。在当前研究中，我们选择了以特异性为代价增加复杂度/灵敏度的固定方案，但是这可由方案的最终用户决定。

材料和方法

细胞培养

将GM12878细胞培养并维持在含有15％FBS(Thermo Fisher，目录号SH30071.03)和1％青霉素-链霉素(Thermo Fisher，目录号15140122)的RPMI 1640培养基(ThermoFisher Scientific，目录号11875-093)中。这些细胞被计数并以300,000个细胞/ml的速度每周分离三次。CH12-LX小鼠细胞系由斯坦福大学的Michael Snyder实验室提供。将细胞在含有10％FBS、1％青霉素-链霉素(青霉素和链霉素)和1×10^5M B-ME的RPMI 1640培养基中培养。这些细胞被计数并保持在1×10^5个细胞/ml的密度下，每周分离三次以保持细胞浓度。将两种细胞系在37℃下用5％CO2温育。

从细胞系中分离和固定细胞核

对于悬浮细胞，通过在室温下以500×g旋转5分钟来获得约1-10千万个细胞并沉淀细胞。吸去上清液，并将沉淀物重悬于1ml Omni-ATAC裂解缓冲液(10mM NaCl、3mMMgCl2、10mM Tris-HCl pH 7.4、0.1％NP40、0.1％Tween 20和0.01％洋地黄皂苷)中，并在冰上温育3分钟。加入5ml的10mM NaCl、3mM MgCl2、10mM Tris-HCl pH 7.4与0.1％Tween20，并在4℃下以500×g沉淀细胞核5分钟。吸去上清液，并将细胞核重悬于5ml 1X DPBS(Thermo Fisher，目录号14190144)中。为了使细胞核交联，一次性加入140μL 37％的甲醛与甲醇(VWR，目录号MK501602)，最终浓度为1％。将固定混合物在室温下温育10分钟，每1-2分钟翻转一次。为了淬灭交联反应，加入250μL 2.5M甘氨酸并在室温下温育5分钟，然后在冰上温育15分钟以完全停止交联。取20μL淬灭的交联混合物至20μL台盼蓝中进行计数。在4℃下以500×g旋转交联细胞核5分钟，然后吸去上清液。将固定的细胞核重悬于适量的冷冻缓冲液(pH 8.0的50mM Tris、25％甘油、5mM Mg(OAc)2、0.1mM EDTA、5mM DTT(Sigma-Aldrich，目录号646563-10X0.5ml)、1×蛋白酶抑制剂混合物(Sigma-Aldrich，目录号P8340))中，以获得每1ml等分试样2百万个细胞核，在液氮中快速冷冻并在-80℃下储存。

组织获得和储存

分离所关注的组织并在1X HBSS(含有Ca.和Mg.)中冲洗，然后在半湿纱布上吸干。将干燥的组织置于重型箔上或冷冻管中，并使用液氮快速冷冻组织。将冷冻的组织储存在-80℃下。

冷冻胎儿组织的细胞核分离和固定

在粉碎当天，在干冰上预冷却预标记的管和锤，其中毛巾置于干冰和金属之间。通过取18英寸×18英寸的重型箔形成“填料”，对折两次形成矩形。再折叠两次形成正方形。将冷冻组织置于箔“填料”内，然后将箔填料中的组织置于预冷却的4mm塑料袋内，以防止组织在箔破裂的情况下掉落到干冰上。将该组织包在2块干冰之间冷却。使用预冷却锤手动粉碎包内的组织；3至5次冲击，避免了在破碎前的磨削运动，从而避免加热样品。冷却锤并根据需要重复粉碎，直到组织均匀。将粉碎的组织等分到预标记并预冷却的1.5ml LoBind管和1.5ml无核酸酶的有盖管(Eppendorf，目录号022431021)中。可将粉末状组织的等分试样储存在-80℃下直至进一步处理。

在细胞核分离当天，直接向管中加入裂解缓冲液，或将冷冻的等分试样倒入装有细胞裂解缓冲液的60mm培养皿中，用刀片进一步切碎。只要等分试样在储存过程的某个时间点尚未解冻，粉末状组织等分试样就应易于从储存管中滑出而不损失样品。我们估计每mg原始组织重量约20,000个细胞，并且性能可能因组织而异。将粉碎的组织重悬于1mlOmni裂解液(RSB+0.1％Tween+0.1％NP-40和0.01％洋地黄皂苷)中，然后转移到15mlfalcon管中。将细胞核在冰上温育3分钟，然后加入5ml RSB+0.1％Tween20。将细胞核在4℃下以500×g离心5分钟。吸去上清液并重悬于5ml 1XDPBS中。使1X DPBS中的细胞核通过100微米细胞滤网(VWR，目录号10199-658)以除去组织块。在通风柜中，通过一次性加入140μL37％甲醛与甲醇使细胞核交联，最终浓度为1％，并通过翻转管数次来快速混合。在室温下温育恰好10分钟，每1-2分钟轻轻地翻转管。加入250μL 2.5M甘氨酸(新鲜制备的，经过滤灭菌的)淬灭交联反应，通过翻转管数次来充分混合。在室温下温育5分钟，然后在冰上温育15分钟以完全停止交联。使用血球计对细胞核计数以了解待添加的冷冻缓冲液的最终体积，目标是冷冻约1-2百万个细胞核/管。将交联的细胞核在4℃下以500×g离心5分钟，吸去上清液，并将沉淀物重悬于1-10ml补充有1x蛋白酶抑制剂和5mM DTT的冷冻缓冲液中。在液氮中快速冷冻细胞核并在-80℃下储存细胞核。

sci-ATAC-seq3样品处理(文库构建和qc)

将冷冻的固定细胞核从-80℃中取出并放在干冰床上。在37℃水浴中解冻细胞核直至解冻(约30秒至1分钟)，并将细胞核转移到15ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟。在不干扰沉淀物的情况下吸出上清液，并将沉淀物重悬于200μL的Omni裂解缓冲液中，然后在冰上温育3分钟。用含有0.1％Tween 20的1ml ATAC-RSB洗出裂解缓冲液，并轻轻翻转管3次以混合。通过取20μL的细胞核和20μL的台盼蓝对细胞核计数。计数时，从现在开始，尽可能将细胞核保持在冰上。对于384^3的3级索引实验，细胞核输入数量为480万个，每个组织或样品每孔5万个细胞核，分布在96个反应中。沉淀细胞核并重悬于预制的片段标签化反应主混合物(Nextera TD缓冲液、1X DPBS、0.1％洋地黄皂苷、0.1％Tween 20和水)中。使用宽口吸头(Rainin Instrument Co，目录号30389249)穿过LoBind 96孔板(Eppendorf，目录号30129512)等分片段标签化混合物中的47.5μL细胞核。每孔加入2.5μL的Nextera v2酶(Illumina Inc，目录号FC-121-1031)，用胶带密封板，并以500×g旋转30秒。将板在55℃下温育30分钟以使DNA片段标签化。通过加入50μL终止反应混合物(40mMEDTA和1mM亚精胺)终止片段标签化反应，然后在37℃下温育15分钟。使用宽口吸头，将片段标签化的细胞核合并，并在4℃下以500×g沉淀5分钟，然后用含有0.1％Tween 20的ATAC-RSB洗涤。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并重悬于384μL含有0.1％Tween 20的ATAC-RSB中。形成PNK反应主混合物(1X PNK缓冲液(NEB，目录号M0201L)、1mMrATP(NEB，目录号P0756S)、水和T4多核苷酸激酶(NEB，目录号M0201L))并添加至细胞核。将5μL的PNK反应混合物等分到四个LoBind 96孔板中，用胶带密封并在4℃下以500×g旋转5分钟。将PNK反应物在37℃下温育30分钟。将13.8μL的连接主混合物(1X T7连接酶缓冲液(NEB，目录号M0318L)、9μM N5_splint(IDT)、水和2.5μl T7 DNA连接酶(NEB，目录号M0318L)直接添加到PNK反应物中。使用多通道或96头分配器(Liquidator，目录号17010335)，将1.2μl的50μM N5_oligo(IDT)添加到四个96孔板的每个孔中。用胶带密封，并以500×g旋转30秒，然后在25℃下温育1小时。在第一轮连接后，加入20μl 40mM EDTA与1mM亚精胺以终止连接反应，并在37℃下温育15分钟。使用宽口吸头，将每个孔合并到槽中并转移到50ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并将细胞核重悬于含有0.1％Tween 20的1ml ATAC-RSB中，以洗涤任何残余的连接反应混合物。在4℃下以500×g沉淀细胞核5分钟，然后在不干扰沉淀的情况下吸去上清液。形成N7连接主混合物(1X T7连接酶缓冲液、9μM N7_splint(IDT)、水和T7 DNA连接酶)并用连接主混合物重悬细胞核。将悬浮在主混合物中的细胞核转移到槽中，并且使用宽口吸头，将18.8μl连接主混合物等分到四个96孔LoBind板中，然后将1.2μl的50μM N7_oligo(IDT)添加到四个96孔板的每个孔中。用胶带密封板，以500×g旋转30秒，接着在25℃下温育1小时，然后通过加入20μl40mM EDTA和1mM亚精胺终止连接，并在37℃下温育15分钟。使用宽口吸头将孔合并到槽中，然后转移到50ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并将细胞核重悬于2ml Qiagen EB缓冲液(Qiagen，目录号19086)中。取20μl重悬的细胞核和20μl的台盼蓝对细胞核计数。将细胞核稀释至100-300个细胞核/μl，并以10μl/孔等分到四个96孔LoBind板中。为了使细胞核反向交联，制备EB缓冲液、蛋白酶k(Qiagen，目录号19133)和1％SDS的反向交联主混合物(每孔分别为1μl/0.5μl/0.5μl)，并将2μl添加至每个孔的细胞核。用胶带密封，以500×g旋转30秒，然后在65℃下温育16小时。我们进行了测试PCR扩增，并在板的若干个孔上用SYBR green监测反应，以确定最佳循环数。基于测试PCR结果，我们每孔用7.5μl NPM、0.5μl BSA(NEB，目录号B9000S)、1.25μl带索引的P5_10μM(IDT)、1.25带索引的P7_10μM(IDT)和水来扩增其余的反向交联板。根据两轮连接后的组织和细胞核回收的批次，我们通常会使用11-13个循环。循环条件如下：72℃3分钟，98℃30秒，11-13个循环(98℃10秒，63℃30秒，72℃1分钟)，然后保持在10℃下。将来自96孔板的扩增产物合并在槽中，并使用Zymo Clean&Concentrate-5(Zymo Research，目录号D4014)按照制造商的说明书纯化，并将其分到4个柱中。在25μl EB缓冲液中洗脱每个柱，然后合并到1个管中。将100μlAMPure珠(Agencourt，目录号A63882)添加到纯化的PCR产物中，以进一步去除任何残余的引物二聚体，并遵循制造商的纯化过程。在25μlQiagen EB缓冲液中从小珠洗脱最终文库。使用D5000筛选带(D5000screentape)(Agilent，目录号5067-5588筛选带，5067-5589试剂)和Agilent 4200Tapestation系统定量最终文库，该系统建立200-1000碱基对窗口以确定在测序期间聚类良好的片段的nM浓度。2nM池通过等摩尔合并产生，并使用具有自定义配方和引物的NextSeq高通量150次循环试剂盒(NextSeq high output 150cycle kit)(Illumina，目录号20024904)以1.8pM加载浓度测序。

用于方法开发的数据处理

为开发sci-ATAC-seq3而进行的barnyard实验的数据处理如先前所述完成。简而言之，使用bcl2fastq v2.16(Illumina)将BCL文件转换为fastq文件。每个读段与由4个组成部分组成的细胞条形码相关联：在分子的P5末端上存在用于片段标签化和用于添加的PCR的行地址，并且在分子的P7末端上存在用于片段标签化和添加的PCR的列地址。为了校正这些条形码中的错误，我们将它们分成各自的4个组成部分并将它们校正到2的编辑距离内的最近条形码，只要该校正在所需的编辑距离处明确即可。如果四个条形码中的任一个条形码不能被校正为已知条形码，则对应的读段对被丢弃。然后使用选项“ILLUMINACLIP:{adapters_path}:2:30:10:1:true TRAILING:3SLIDINGWINDOW:4:10MINLEN:20”通过Trimmomatic修剪读段。使用bowtie2结合选项“-X 2000-3 1”将经修剪读段映射到杂交人/小鼠(hg19/mm9)基因组。随后，使用选项“-f3-F12-q10”通过SAMTOOLS滤除未以正确配对映射到基因组且质量至少为10的读段，并且仅保留映射到常染色体或性染色体的读段用于下游分析。使用自定义脚本对每个细胞条形码的读段进行重复数据删除。需注意，与针对组织的流程(下文讨论)不同，重复数据删除中不保留读段对。

组织样品的数据处理

用于处理来自组织样品的测序数据的方法也非常接近常用的方法，尽管进行了许多优化以按比例缩放成更大的数据集，但为了方便起见，我们在此处包含了描述。使用bcl2fastq v2.20(Illumina)将BCL文件转换为fastq文件。对于我们的数据集中的每个样品，将读段名称中包含经校正条形码的读段写入单独的R1/R2文件。需注意，预先计算所有失配与已知条形码集的映射(由于长度短且条形码数量相对较少，因此可行)，使用pypy(对于该特定任务而言快得多的cpython解释器的替代形式)运行校正脚本，并且我们将该计算在测序运行的不同通道上并行化，这总体上比我们之前的方法显著缩短了运行时间。

我们接下来使用选项ILLUMINACLIP:{adapters_path}TRAILING:3SLIDINGWINDOW:4:10MINLEN:20通过Trimmomatic从3'端修剪低质量碱基/接头序列，接着使用bowtie2并以“-X 2000 3 1”作为选项将修剪的读段映射到hg19参考基因组，然后使用Samtool--samtools view-L{whitelist of chromosomes}-f3-F12-q10-bS滤除未独特地映射到常染色体或性染色体且映射质量至少为10的读段对。对所得的BAM文件进行排序，使用sambabamba合并每个样品的比对读段，并对所得的BAM文件加索引。该进程在可能的情况下跨样品/通道并行化，同时还提供trimmomatic/bowtie2/sambabamba使每个进程具有多个线程以缩短运行时间。

我们随后通过识别每个细胞内的独特片段端点集来识别细胞内的PCR重复。在我们先前的工作中，所得的经重复数据删除的BAM文件并不总是在经重复数据删除的BAM文件中写入的读段对之间保持正确的读段名称(其针对每个独特片段独立地随机选择R1和R2的代表性读段)，这导致了与一些工具诸如SnapATAC(github.com/r3fang/SnapATAC)的兼容性问题。我们纠正了该问题，并且还实现了编写：1)每个细胞的片段端点的BED文件，以及2)紧密镜像由10x Genomics为其scATAC解决方案提供的fragments.tsv.gz文件的文件。

在每个样品中，每个细胞的独特片段端点的BED文件通过MACS2--macs2callpeak-t{bed}-f BED-g hs--nomodel--shift-100--extsize 200--keep-dup all--call-summits-n{sample_name}-o{output_dir}用于每个样品中的峰检出(peakcalling)。对所得的{outdir}/{sample_name}_peaks.narrowPeak文件进行排序，并作为BED文件输出。使用bedtools合并来自下游分析(另外不包括我们的标准)中所包括的所有样品的峰检出以形成峰的主集。我们注意到，正如我们之前所描述的，在这里使用BED文件进行峰检出是有意的，并且在BAM输入上对macs2的行为进行了二次处理(bipass)。在给定BAM文件作为输入的情况下，如果明确指定BAM文件为配对末端(我们不想计算整个插入序列的覆盖率，只计算端点)，则MACS2将要么丢弃独立使用R1/R2的读段对之一(有效地对输入数据进行下采样)，要么在计算覆盖率时使用整个插入序列。使用BED文件允许使用所有数据并仅使用分子端点周围的窗口来计算覆盖率。

对于每个样品，我们另外创建稀疏矩阵，计数1)落在峰的主集内的读段，2)落在基因组的上游延伸2kb的基因体以及5kb窗口内的读段。我们还另外列出了来自带注释TSS(每个TSS周围+/-1kb)、ENCODE黑名单区域和我们用于QC目的的合并峰集的每个细胞的读段总数。

我们还使用在10x基因组学scATAC流程中采用的方法(参见support.10xgenomics.com/single-cell-atac/software/pipelines/latest/algorithms/overview)来构建逐个基序的峰矩阵。简而言之，来自10x的方法计算了峰的GC％分布，并将峰分组到GC含量的等分位数范围内，使得可在每个分组内分别发现基序出现。MOODS软件包用于识别JASPAR基序数据库中p值阈值为1E-7的基序的基序出现，以及与相应的GC分组匹配的背景核苷酸组成，以减轻GC偏差。这些命中用于构建逐个峰的基序矩阵，该矩阵可用于在下游分析中计算逐个细胞计数的基序矩阵。该矩阵被二值化，使得每个峰只能对基序的一个实例计数。

使用10x基因组学scATAC流程所采用的方法(参见上面的链接)的修改版本将细胞条形码与背景条形码的分布分开。简而言之，我们拟合了两个负二项式(噪声与信号)的混合。代替10x用于在这两个分布之间建立初始阈值的方法，我们将k均值聚类应用于对数标度的总片段计数分布，并取具有较低平均总计数的聚类的最大值作为初始阈值。该初始阈值用于使用最大似然估计来确定两个分布的起始参数化，并且通过期望最大化方法进一步细化。正如10x所指出的，可通过对计数分布应用左移来改进这种拟合。与10x方法不同，我们通过尝试从2到12的若干次移位并取具有最佳拟合优度的混合模型来确定该移位。最后，与10x方法相比，我们将该方法应用于总片段计数分布，而不是检出峰内的计数分布。所选择的最终阈值是产生20或更高的比值比(有利于信号)并且将去除如根据信号分布的CDF估计得出的信号分布的至少0.5％的最小计数(我们发现，该第二标准阻止了与原本看起来过于宽松的阈值拟合)。

细胞级QC、降低维度和聚类

对于每个细胞，我们列出了如上所述落在TSS附近(+/1kb)、峰中和ENCODE黑名单区域中的总独特读段和独特读段的总数。使用这些总和，我们通过目视检查针对每个样品的独特读段分布为峰中的独特读段的分数和落入TSS中的独特读段的分数选择样品特定的截止值，并为来自ENCODE黑名单区域的独特读段选择0.5％的全局截止值。由于少量样品具有显著低于数据集中其他样品的自动阈值，我们应用每个细胞1000个独特读段的全局阈值(或每个细胞500个独特片段)来提高对应样品的自动阈值。我们检查了我们先前开发的核小体条带得分，但是没有观察到像我们先前对小鼠睾丸所做的那样的异常值的明确分布，因此没有在QC中使用这些得分。与ENCODE黑名单区域重叠或落在性染色体上的峰在下游步骤之前被去除(后者是为了避免在不同性别的样品之间引入潜在批次效应)。我们还排除了与每个峰分布的对数标度计数的平均值相距超过两个标准偏差的峰，以去除被分析组织中具有非常低计数的峰。

通过合并来自给定组织的所有样品的通过细胞，一次一个组织地执行所有下游步骤。

在过滤之后，我们采用scrublet算法的修改版本来尝试去除最有可能为双重体的细胞。简而言之，我们使用逐个细胞的峰矩阵将双重体模拟为从数据集中随机选择的细胞的总和。然后我们使用原始细胞和模拟双重体的矩阵如下所述执行LSI。需注意，在该步骤中，我们使用从原始数据集导出的逆文档频率(IDF)项，而没有模拟双重体，类似于scrublet如何将原始数据集中的缩放因子应用于scRNA-seq数据。在所得的50维空间中，我们找到每个细胞的最近邻，并将最近邻中模拟的双重体的分数计算为双重体得分。我们排除了每个样品中双重体得分最高的前10％的细胞。

对于降低维度，我们初步发现，潜在语义索引(LSI；或换句话讲，潜在语义分析或LSA)的实施对本研究中收集的数据表现不佳。我们推断这可能是由于稀疏性，并且检查了若干替代方法，包括CisTopic和SnapATAC。这些方法中的每种方法最初似乎比我们实施LSI表现更好。鉴于这些方法的潜在相似性和我们数据的性质，我们最初不确定为什么会出现这种情况。我们发现对LSI中的词频项进行简单的对数标度(我们和许多其他人以前没有这样做过)得到与我们测试的其他工具非常相似的性能。我们怀疑这可能是由于每个细胞的总计数呈指数分布以及在不存在对数标度的情况下强异常值对LSI的PCA步骤的影响。此处详细讨论了这一点：andrewjohnhill.com/blog/2019/05/06/dimensionality-reduction-for-scatac-data/。我们注意到，对于每个细胞的总计数范围很大的稀疏数据集，在使用和不使用对数标度的情况下观察到的差异特别显著。我们还注意到，其他小组已经证实了我们自己的独立发现，即LSI与所有其他现有的scATAC降低维度方法相比具有优势。我们在使用基因组的峰或5kb窗口时也观察到非常相似的性能，因此选择使用峰，就像我们在以前的工作中主要做的那样。

总而言之，我们通过来自每个组织的所有通过细胞的细胞矩阵在二值化窗口上执行LSI，一次一个组织。我们首先通过log(细胞中可及峰的总数)(对数标度的“词频”)对单个细胞的所有位点进行加权。然后我们将这些加权值乘以log(1+所有细胞上每个位点的频率的倒数)，即“逆文档频率”。然后，我们在TF-IDF矩阵上使用奇值分解，通过仅保留第2维至第50维(因为第一维往往与读段深度高度相关)来生成数据的低维表示(PCA)。然后我们对PCA矩阵进行L2归一化，以力图进一步说明每个细胞的独特片段数量的差异。该L2归一化PCA矩阵用于所有下游步骤。

尽管我们没有观察到样品之间大量批次效应的证据，但我们在PCA空间上应用Harmony批次校正算法来校正不同样品之间的批次效应。我们选择Harmony主要是由于以下事实：它容易扩展到大型数据集，并允许我们使用我们现有的PCA坐标。

将该校正的L2归一化PCA空间用作在Seurat V3中实现的Louvain聚类和UMAP的输入。

特异性得分

在特异性得分计算之前，滤除任何与ENCODE黑名单区域重叠的峰。如前所述，我们计算了每个位点/细胞类型对的特异性得分。

基序富集

在基序富集计算之前，滤除任何与ENCODE黑名单区域重叠的峰。我们首先通过将对应的逐个细胞的峰矩阵(如上文所述，在被检查数据的子集中的所有细胞上聚集)乘以逐个基序的峰矩阵，获得逐个细胞计数的基序矩阵。需注意，我们对数据集进行下采样，使得每个注释(例如，细胞类型)最多包含800个细胞，以降低计算成本并减少下游步骤中计算富集时非常丰富的细胞类型的过度表示。对于每个注释，我们随后使用speedglm软件包执行负二项式回归，使用两个输入变量预测总基序计数—注释的指示符列作为感兴趣的主要变量，并且每个细胞的log(输入峰矩阵中非零条目的总数)作为协变量。我们使用注释指示符列的系数和截距来估计感兴趣的注释相对于来自所有其他注释的细胞的基序计数的倍数变化—exp(intercept+annotation_coefficient)/exp(intercept)。我们对所有组中的所有基序进行该测试，Benjamini Hochberg程序校正p值。

实施例2

发育期间基因表达的人类细胞图谱

摘要

人类发育过程中细胞类型的出现和分化具有重要意义。我们应用了基于三级组合索引(sci-RNA-seq3)的单细胞基因表达谱图分析的测定，并将其应用于代表15个器官的121个胎儿样本，总共谱图分析了4百万至5百万个单细胞。根据这些数据，我们鉴定细胞类型，并相对于标记基因、表达和调控模块对它们进行注释。我们将我们对这些数据的初始分析集中在跨多个器官系统的细胞类型，例如，上皮细胞、内皮细胞和血细胞。有趣的观察结果包括器官特异性内皮特化、胎儿红细胞生成的潜在新位点和潜在的新细胞类型。这些数据连同随附的发育期间染色质可及性的人类细胞图谱一起构成了用于探索人类生物学的丰富资源。

正文

出于若干原因，我们提出使用发育期间获得的组织来生成基因表达和染色质可及性两者的人类细胞图谱。第一，遗传性疾病(其中绝大多数包括发育因素)占儿科发病率和死亡率的比例严重不成比例。这些遗传性疾病包括数千种孟德尔疾病，以及遗传因素和非遗传因素两者显著促成的更常见病症(例如，先天性心脏缺陷、其他出生缺陷、神经发育障碍等)。从发育中的组织生成的参考细胞图谱可用作系统性努力的基础，以了解引起这些儿科病症中的每种病症的特定分子和细胞事件。

第二，与成体组织相比，发育中的组织为研究人体细胞类型的体内出现和分化提供了更好的机会。相对于胚胎组织和胎儿组织，成体组织以分化细胞为主，而且许多细胞状态根本没有表现出来。通过更好地解析体内发育轨迹，从发育中的组织生成的单细胞图谱可以广泛地告知我们对体内人类生物学的基本理解，以及细胞重编程和细胞治疗的策略。

第三，虽然已经报道了许多人类成体器官的开创性细胞图谱，但是这些研究的独立性质使得很难研究出现在不同组织中的细胞类型(例如，上皮细胞、内皮细胞和血细胞)之间的差异。具体地，基于现有数据的比较受到生成器官特异性细胞图谱的组之间的样品处理和技术平台差异的挑战。

对于基因表达的人类细胞图谱，我们将我们最近开发的基于三级组合索引(sci-RNA-seq3)的单细胞RNA-seq测定应用于代表15个器官的121个胎儿组织，总共谱图分析了近500万个细胞中的基因表达(图11)。在实施例1中，我们描述了基于一组重叠的样品，在来自相同器官的160万个细胞中的染色质可及性的谱图分析。谱图分析的器官跨越各种不同的系统；最值得注意的是，不存在骨髓、骨、性腺和皮肤。

组织从28个胎龄为72至129天的胎儿获得。简而言之，将这些组织速冻、粉碎，并且将所得粉末分离以用于不同测定。对于sci-RNA-seq3，细胞核直接从冷裂解粉末中提取，然后用多聚甲醛固定。对于RNA酶和蛋白酶丰富的肾脏和消化器官，我们使用多聚甲醛固定的细胞而不是细胞核，这增加了细胞和mRNA回收率。对于每个实验，将来自给定组织的细胞核或细胞沉积到不同的孔中，使得sci-RNA-seq3方案的第一索引也确定了来源。作为对细胞核的实验的分批对照，我们将人HEK293T和小鼠NIH/3T3细胞核或来自普通“前哨”组织(也用于sci-ATAC-seq3实验)的细胞核的混合物掺入到一个或几个孔中。作为对细胞的实验的分批对照，我们将来源于普通胰腺组织的细胞(也对其细胞核进行谱图分析)掺入到一个或几个孔中。

我们对来自7次Illumina NovaSeq运行的7个实验的sci-RNA-seq3文库进行测序，总共生成了686亿个读段。如前所述处理数据，我们回收了4,979,593个单细胞基因表达谱(UMI>250)。来自人-小鼠对照孔的单细胞转录组绝大多数是物种相干的(约5％碰撞率)。来自前哨组织的细胞核或细胞的均匀流形近似和投影(UMAP)表明，细胞类型差异在任何实验间批次效应中占主导地位。使用与普通胰腺组织相对应的细胞核和细胞的seurat进行综合分析也导致高度重叠的分布。

我们谱图分析了每个器官72,241个细胞或细胞核的中值(最大为2,005,512(大脑)；最小为12,611(胸腺))。尽管与其他大规模单细胞RNA-seq图谱相比，测序相对较浅(每个细胞约14,000个原始读段)，但我们在每个细胞或细胞核中回收了相当数量的UMI(中值为863个UMI和525个基因)。可以预知，细胞核表现出比细胞更高比例的映射到内含子的UMI(对于细胞核为56％；对于细胞为45％；P<2.2e-16，双侧Wilcoxon秩和检验)。除非另外指明，否则我们此后使用“细胞”来指代细胞和细胞核两者。

通过性别特异性基因表达，很容易将组织识别为来源于男性(n＝14)或女性(n＝14)。15个器官中的每个器官由多个样品(中值为8)(包括每种性别的至少两个样品)以及一系列胎龄表示。每个组织的“伪批量”转录组的UMAP可视化按器官而不是个体或实验聚类。约一半的表达的蛋白质编码转录物在这组伪批量转录组中差异表达(20,033个中的11,766个；FDR为5％)。

我们应用scrublet检测6.4％可能的双重体细胞，对应于12.6％的双重体估计，包括簇内和簇间双重体。然后我们应用了一种策略，我们先前已为我们的2百万个细胞的小鼠器官发生图谱(MOCA)开发出该策略，以去除低质量细胞、富集双重体的簇以及掺入的HEK293T和NIH/3T3细胞。下文所述的所有分析均基于来源于112个胎儿组织的4,062,980个人单细胞基因表达谱，这些人单细胞基因表达谱在该过滤步骤后保留下来。

77种主要细胞类型的鉴定

在针对低质量细胞和富集双重体的簇进行过滤后，在每个器官的基础上用Monocle 3对4百万个单细胞基因表达谱进行UMAP可视化和Louvain聚类。总之，我们最初基于来自文献的细胞类型特异性标记来鉴定和注释172种细胞类型。折叠跨组织的共同注释，这些注释减少到77种主要细胞类型，其中54种仅在单个器官(例如，小脑中的浦肯野神经元)中观察到，而23种在多个器官(例如，每个器官中的血管内皮细胞)中观察到。这77种主要细胞类型含有中值为4,829个细胞，并且范围从1,258,818个细胞(大脑中的兴奋性神经元)到仅68个细胞(肾上腺中的SLC26A4_PAEP阳性细胞)。每种主要细胞类型由多个个体贡献(中值为9)。尽管在物种、发育阶段和技术方面存在差异，但我们回收了通过此前针对相同器官的图谱分析工作确定的几乎所有主要细胞类型。我们确定每个器官的中值为12种主要细胞类型，范围从5种(胸腺)到16种(眼睛、心脏和胃)。我们没有观察到图谱分析的细胞的数量与所鉴定的细胞类型的数量之间的相关性(ρ＝-0.10，p＝0.74)。

我们平均每种主要细胞类型鉴定了11个标记基因(最小0个，最大294个；定义为在表达方面排名第一和第二的细胞类型之间具有至少5倍差异的差异表达基因；FDR为5％)。由于其他器官中类似的细胞类型(例如，ENS胶质细胞和施万细胞)，有几种细胞类型在该阈值下缺乏标记基因。出于该原因，我们还报告了通过相同程序但在逐个器官的基础上确定的“组织内标记基因”的集合(每种细胞类型平均147个标记；最小12个，最大778个)。

虽然规范标记通常被观察到，并且确实对我们的注释过程至关重要，但据我们所知，绝大多数观察到的标记都是新的。例如，OLR1、SIGLEC10和非编码RNA RP11-480C22.1是最强的小胶质细胞标记，还有更成熟的小胶质细胞标记，诸如CLEC7A、TLR7和CCL3。如预期的，鉴于这些组织正在积极发育，77种主要细胞类型中的许多细胞类型包括从前体进展到一种或若干种终末分化细胞类型的状态。例如，大脑兴奋性神经元表现出从PAX6+神经元祖细胞到NEUROD6+分化神经元再到SLC17A7+成熟神经元的连续轨迹。在肝脏中，肝祖细胞(DLK1+、KRT8+、KRT18+)表现出向功能性成肝细胞(SLC22A25+、ACSS2+、ASS1+)的连续轨迹。与小鼠器官发生(其中转录程序的成熟与发育时间紧密相关)相反，在这些人类数据中，细胞状态轨迹与估计的胎龄不一致地相关。最简单的解释是，基因表达在发育的早期阶段(即，器官发生与胎儿发育阶段相比)显著更动态。然而，估计胎龄的非统一表示和不准确性也有可能干扰我们的分辨率。

除了细胞类型的这些手动注释之外，我们还使用Garnett生成针对每个器官的半自动分类器，以及全局分类器。Garnett分类器使用独立于文献编译的标记基因生成，与聚类无关。由Garnett进行的分类人工分类高度一致，例如，胰腺中88％的细胞是一致的(簇扩展；5％不一致，7％未分类)。使用在该人类细胞图谱上训练的Garnett模型，我们还能够准确地分类来自其他单细胞数据集的细胞类型，包括来自不同方法以及来自成体器官的数据。例如，我们将用于胰腺的Garnett分类器应用于inDrop单细胞RNA-seq数据，并且发现该模型正确地注释了82％的细胞(簇扩展；11％不正确，8％未分类)。这些Garnett模型发布于我们的网站，其中它们可广泛地用于对来自不同器官的单细胞数据进行自动分类。

跨组织整合和意外细胞类型的研究

我们接下来试图整合数据并比较所有15个器官的细胞类型。为了减轻每个器官和/或细胞类型采样的细胞数量的显著差异的影响，我们随机对每个器官的每种细胞类型的5,000个细胞进行采样(或者在给定器官中表示的给定细胞类型少于5,000个细胞的情况下，获取所有细胞)，并基于每个器官内细胞类型的最高差异表达的基因执行UMAP可视化。可以预知，在多个器官中表示的细胞类型通常聚类在一起，例如，基质细胞、淋巴管内皮细胞和间皮细胞。发育相关的细胞类型通常也共定位，例如，不同的血细胞、PNS神经元、间充质。

我们利用这种全局UMAP来揭示细胞类型，这些细胞类型在其最初被观察到的器官中是没有明确注释或预期的。在许多情况下，与全局UMAP中带注释的细胞类型的共定位揭示了它们的种类。例如，我们观察到肺和肾上腺中与来自胎盘的滋养层巨细胞高度相关的细胞(例如，表达高水平的胎盘催乳激素、绒毛膜促性腺激素和芳香化酶)，表明这些是已进入胎儿循环的滋养层细胞(CSH1_CSH2_阳性细胞)。更令人惊讶的是，我们观察到胎盘和脾中与成肝细胞高度相关的细胞(例如，表达高水平的血清白蛋白、甲胎蛋白和载脂蛋白)(AFP_ALB_阳性细胞)。

在心脏中，我们观察到基于之前的图谱分析工作未预期的三种细胞类型。这些细胞类型中的第一种细胞类型(SATB2_LRRC7阳性神经元)与CNS兴奋性神经元密切相关，并表达包括SATB2、PTPRD和DAB1在内的标记。据我们所知，这是意外观察结果。虽然我们不能完全排除来自另一组织的污染，但我们在每个采样的心脏(n＝9)中以一致的比例(范围)观察到这些细胞，而且我们没有观察到心脏中的其他CNS样细胞类型。另外两种细胞类型与心肌细胞高度相关，但表达可反映特化作用的不同程序。具体地，ELF3_AGBL2阳性心肌细胞样细胞特异性表达许多与肺泡表面活性物质分泌细胞相关的基因，包括肺分泌蛋白1(SCGB3A2)、肺表面活性物质相关蛋白B(SFTPB)和肺表面活性物质相关蛋白C(SFTPC)，而CLC_IL5RA阳性心肌细胞样细胞特异性表达免疫细胞相关受体，包括白介素5受体亚基α(IL5RA)和造血特异性跨膜蛋白4(MS4A3)。

细胞类型特异性基因调控网络和途径的表征。

接下来，我们研究了对调节细胞-细胞或细胞-环境相互作用至关重要的表面和分泌蛋白编码基因的细胞类型特异性表达。大多数表面蛋白(5,480个中的4,565个)和大多数分泌蛋白(2,933个中的2,491个)在77种主要细胞类型中差异表达(FDR为0.05)。例如，小胶质细胞特异性表达唾液酸结合免疫球蛋白样凝集素8(SIGLEC8)和氧化LDL内吞受体(OLR1)，两者均与阿尔茨海默病有关；内皮细胞特异性表达环型引导受体4(ROBO4)和内皮细胞粘附分子(ESAM)，两者都参与血管生成和血管模式。类似地，不同的神经元由不同的细胞表面转运蛋白标记。例如，在小脑中，我们观察到抑制性中间神经元中甘氨酸神经递质转运蛋白SLC6A5、浦肯野神经元中兴奋性氨基酸转运蛋白SLC1A6、颗粒神经元中钾通道KCNK9以及SLC24A4_PEX5L阳性抑制性神经元中钠/钾/钙交换体SLC24A4的特异性表达。分泌蛋白的细胞类型特异性表达也有类似的无数示例。一个特别有趣的示例是脾中的意外细胞类型(STC2_TLX1阳性细胞)，该细胞类型特异性表达糖蛋白STC2以及TF TLX1和NKX2-3，它们都与间充质前体或干细胞相关。

非编码RNA已被证明在正常发育和疾病中发挥重要作用。在这些数据中，10,695个非编码RNA中的3,130个在77种主要细胞类型中差异表达(FDR为0.05)，例如，对小胶质细胞高度特异性的ncRNA(RP11-489O18.1、RP11-480C22.1、RP11-10H3.1)或对内皮细胞高度特异性的ncRNA(AC011526.1、RP11-554D15.1、CTD-3179P9.1)。虽然此类细胞类型特异性ncRNA的生物学意义尚不清楚，但值得注意的是，它们的表达模式足以将77种主要细胞类型分成发育一致的组。

绝大多数转录因子(TF)也在77种主要细胞类型中差异表达(1,984种中的1,715种；FDR为0.05)。每种细胞类型的许多最具特异性的TF与预期一致，例如，腺泡细胞的RBPJL、少突胶质细胞的OLG1和OLG2，以及卫星细胞的PAX7。在其他情况下，细胞类型特异性TF告知我们考虑意外细胞类型，例如，在胰腺中观察到的基质细胞类型，其特征在于淋巴趋化因子(CCL19_CCL21阳性细胞)的表达特异性表达与免疫活化相关的TF。

我们试图通过基因表达数据直接预测TF-靶基因相互作用。简而言之，候选相互作用通过整个数据集中的TF表达和靶基因表达之间的协方差来确定。这些相互作用通过ChIP-seq结合和基序富集分析(方法)进一步过滤。保留56,272个候选TF-靶基因连锁，涉及706个TF和12,868个靶基因。这706个TF-连锁基因集中的220个在TF网络(TRRUST)或Enrichr TF-基因网络的人工精选数据库中显示出对应TF的富集(FDR为0.05)(例如，我们将其与E2F1连锁的330个基因的最高富集的TRRUST TF为E2F1，调整后的p值＝2.2e-14；我们将其与FLI1连锁的1,219个基因的最高Enrichr TF为FLI1，调整后的p值＝5.6e-122)。当我们排列分配给这706个TF的靶基因并重复分析时，在相同阈值下没有一个TF-连锁的基因集显著富集对应的TF。

跨器官血液谱系发育的特征

该数据集的性质为研究广泛出现的细胞类型(例如，血细胞、内皮细胞和上皮细胞)内基因表达的器官特异性差异创造了机会。作为第一次这样的分析，我们重新聚类了来自所有器官的103,766个细胞，这些细胞对应于造血细胞类型。然后，我们进行了Louvain聚类，并基于已公布的基因标记进一步注释了细粒度的免疫细胞类型，在一些情况下鉴定非常罕见的细胞类型。例如，髓细胞分成小胶质细胞、巨噬细胞和多种树突状细胞亚型(CD1C+、S100A9+、CLEC9A+和pDC)。小胶质细胞簇主要来源于大脑和小脑，并且与巨噬细胞充分分离，符合它们独特的发育起源。淋巴细胞聚类成几类，包括B细胞、NK细胞、ILC 3细胞和T细胞(后者包括胸腺生成轨迹)。我们还回收了非常罕见的细胞类型，诸如浆细胞(139个细胞，其占所有血细胞的0.1％或完整数据集的0.003％；主要在胎盘中)和TRAF1+APC(189个细胞，其占所有血细胞的0.2％或完整数据集的0.005％；主要在胸腺和心脏中)。

虽然已经广泛研究了不同免疫细胞类型的基因表达标记，但这些标记可能受到它们通过一组有限的器官或细胞类型的定义的限制。实际上，这里我们发现许多常规免疫细胞标记在多种细胞类型中表达。例如，T细胞的常规标记也在巨噬细胞和树突状细胞(CD4)或NK细胞(CD8A)中表达，这与其他研究一致。我们计算了14种血细胞类型中的泛器官细胞类型特异性标记。例如，T细胞如预期那样特异性表达CD8B和CD5，但也表达TENM1。ILC3细胞，其注释基于其RORC和KIT的表达，更具体地由SORCS1和JMY标记。在未来的研究中，这些和其他泛器官定义的标记可用于标记和纯化人类胎儿血细胞类型。

可以预知，不同器官显示出高度不同的血细胞比例。例如，肝脏含有最高比例的成红细胞，这与其作为胎儿红细胞生成的主要部位的作用一致，而T细胞在胸腺中富集，B细胞在脾中富集。从小脑和大脑回收的血细胞几乎都是小胶质细胞。集体分析还使得能够鉴定特定器官中的罕见细胞群。例如，我们鉴定了肝脏、脾和胸腺中的罕见HSC，但也鉴定了心脏、肺、肾上腺和肠中的罕见HSC。

关注红细胞生成，我们观察到从HSC到中间细胞类型的连续轨迹，即类红细胞-嗜碱性粒细胞-巨核细胞偏向祖细胞(EBMP)，其随后分裂成红细胞、嗜碱性粒细胞和巨核细胞轨迹，这与最近在小鼠胎肝中的研究一致。尽管在物种(人类与小鼠)、技术(sci-RNA-seq3与10x)和器官(泛器官与胎儿器官)方面存在差异，但这种一致性仍然存在。在无监督聚类并采用来自该研究的术语的情况下，我们进一步将红细胞状态的连续性划分为三个阶段：早期红细胞祖细胞(EEP；由SLC16A9和FAM178B标记)、定型红细胞祖细胞(CEP；由KIF18B和KIF15标记)，以及处于红细胞终末分化状态的细胞(ETD；由TMCC2和HBB标记)。巨核细胞的早期和晚期也很容易识别。在配套手稿中进一步考虑了红细胞谱系中全基因组染色质可及性的相应动态。

可以预知，考虑到它们在胎儿红细胞生成中的既定作用，肝脏和脾中相当大比例的免疫细胞对应于EEP、CEP和巨核细胞祖细胞。令人惊讶的是，我们还在所研究的每个样品中观察到肾上腺中的EEP、CEP和巨核细胞祖细胞。因为我们没有观察到更常见于肝脏和脾的细胞类型，所以在肾上腺恢复过程中的轻微污染是不太可能的解释。虽然需要通过正交方法进行确认，但结果表明肾上腺作为胎儿红细胞生成的额外部位的可能性。

巨噬细胞分布甚至更广泛。我们接下来整理了所有巨噬细胞以及来自大脑的小胶质细胞，并对它们独立地进行UMAP可视化和Louvain聚类。小胶质细胞分为三个子簇，其中一个由IL1B和TNFRSF10D标记，可能代表参与炎症反应的活化小胶质细胞。其他小胶质细胞簇通过TMEM119和CX3CR1(在大脑中更常见)或PTPRC和CDC14B(在小脑中更常见)的表达来标记。

大脑外部的巨噬细胞聚类成三大类：1)抗原递呈巨噬细胞，其主要存在于胃肠道器官(肠和胃)中并且通过抗原递呈(HLA-DPB1、HLA-DQA1)基因和炎症激活(AHR)基因的高表达来标记；2)存在于大多数器官中的血管周围巨噬细胞，其特异性表达标记诸如F13A1和COLEC12，以及新型标记诸如RNASE1和LYVE1。3)吞噬巨噬细胞，在肝脏、脾和肾上腺中富集，其特异性表达标记诸如CD5L、TIMD4和VCAM1。吞噬巨噬细胞对于红细胞吞噬作用至关重要；它们在肾上腺中的观察结果与肾上腺作为胎儿红细胞生成部位的上述潜在作用一致。

跨器官的内皮细胞和上皮细胞的表征

作为对跨多个器官的单细胞类型的第二次分析，我们重新聚类了来源于所有器官的细胞，这些细胞对应于血管内皮、淋巴内皮或心内膜。这三组易于彼此分离，并且血管内皮细胞至少在一定程度上按器官进一步聚类。该器官特异性差异比动脉、毛细血管和静脉之间的差异更容易检测到，这与成年小鼠先前的细胞图谱一致。

差异表达基因分析鉴定了700种在内皮细胞子集中特异性表达的标记(FDR为0.05，排名第一和第二的簇之间具有超过2倍的表达差异)。这些中约三分之一(700种中的236种)编码膜蛋白，其中许多似乎对应于潜在的特化功能。例如，肾内皮细胞特异性表达酸敏感离子通道2(ASIC2)，这是参与肌原性收缩和肾血流调节的力学感受器。肺内皮细胞特异性表达松弛素家族肽受体1(RXFP1)，该受体参与内源性一氧化氮介导的肺血管舒张，并且特异性表达钠依赖性溶血磷脂酰胆碱转运蛋白同向转运体1(MFSD2A)，其整体参与血脑屏障的建立和功能。内皮子集中差异基因表达的潜在调控基础在配套论文中进行了讨论。

作为对广泛分布的细胞类型的第三次分析，我们重新聚类来源于所有器官的上皮细胞，并对这些上皮细胞进行UMAP可视化。虽然一些上皮细胞类型是高度器官特异性的，例如，腺泡(胰腺)和肺泡细胞(肺)，但具有相似功能的上皮细胞通常聚类在一起。例如，鳞状上皮细胞(肺、胃)的表达程序与角膜和结膜上皮细胞(眼)共聚类，而PDE1C_ACSM3阳性细胞(胃)与肠上皮细胞(肠)共聚类。

在上皮细胞中，鉴定了两个神经内分泌细胞簇。这些簇中较简单的簇对应于肾上腺嗜铬细胞，并且通过HMX1(NKX-5-3)(参与交感神经元多样化的TF)的特异性表达来标记。另一个簇包含来自多个器官(胃、肠、胰腺、肺)的神经内分泌细胞，并且通过NKX2-2(在胰岛和肠内分泌分化中起关键作用的TF)的特异性表达来标记。我们对后一组进行了进一步分析，确定了五个子集：1)胰岛β细胞，通过胰岛素表达来标记；2)胰岛α/γ细胞，通过胰多肽和胰高血糖素表达来标记；3)胰岛δ细胞，通过生长抑素表达来标记；4)肺神经内分泌细胞(PNEC)，通过ASCL1(在肺中指定该谱系中起关键作用的TF)的表达来标记；和5)肠内分泌细胞。肠内分泌细胞还包括若干子集，这些子集包括表达NEUROG的胰岛ε祖细胞、胃和肠中表达TPH1的肠嗜铬细胞、表达胃泌素或胆囊收缩素的G/L/K/I细胞。最后，我们在胃和肠中观察到表达饥饿素的肠内分泌祖细胞，但在发育中的肺中也观察到表达饥饿素的内分泌细胞。由于神经内分泌细胞的多种功能与其分泌蛋白密切相关，我们鉴定出1,086种在神经内分泌细胞中差异表达的分泌蛋白编码基因(FDR为0.05)。例如，PNEC显示出三叶因子3(参与粘膜保护和肺纤毛细胞分化)、胃泌素释放肽(刺激胃中G细胞释放胃泌素)和SCGB3A2(与肺发育相关的表面活性物质)的特异性表达。

作为这些数据可如何用于探究细胞轨迹的例示性示例，我们进一步研究了上皮细胞多样化产生肾小管细胞的途径。结合和重新聚类输尿管芽后肾细胞，我们鉴定了祖细胞和终末肾上皮细胞类型，其分化途径与最近对人类胎儿肾脏的研究高度一致。通过差异基因表达分析，我们进一步表征了潜在调节其规格的TF。例如，后肾轨迹中的肾单位祖细胞表达高水平的间充质和meis同源盒基因(MEOX1、MEIS1、MEIS2)，而足细胞特异性表达MAFB和TCF21/POD1。又如，HNF4A在近端小管细胞中特异性表达；该基因的突变引起Fanconi肾小管综合征，这是一种特异性影响近端小管的疾病，最近研究表明该基因是小鼠近端小管形成所必需的。

人和小鼠发育图谱的比较

为了研究细胞类型之间的发育关系，我们接着将这些数据与我们最近的小鼠器官发生细胞图谱(MOCA)进行比较，该图谱分析了来自跨E9.5至E13.5(哺乳动物发育的早期窗口)的整个胚胎的2百万个细胞。

作为第一种方法，我们通过我们先前描述的细胞类型交叉匹配方法，将此处定义的77种主要人类细胞类型与由MOCA定义的发育轨迹进行比较。简而言之，该方法使用非负最小二乘(NNLS)回归从两个数据集中选择相互最佳匹配的细胞类型对。大多数人类细胞类型与单一的小鼠主轨迹和子轨迹非常匹配。这些通常对应于预期，并且用作两组注释的一种验证形式。一些差异有利于对MOCA注释的重要校正。许多缺乏强匹配(组合NNLS回归系数<0.6)的人类细胞类型和小鼠轨迹对应于其他数据集中排除的组织(例如，小鼠胎盘；人类皮肤和性腺)。其他模糊性可能来自所研究的发育窗口(例如，肾上腺细胞类型)、稀有度(例如，双极细胞)和/或细胞类型之间的复杂关系(例如，源自多个胚胎轨迹的胎儿细胞类型)之间的差距。

作为第二种方法，我们试图将人细胞和小鼠细胞直接聚类在一起。简而言之，我们对来自MOCA的100,000个小鼠胚胎细胞(随机)和65,000个人类胎儿细胞(77种细胞类型中每种细胞类型多达1,000个细胞)采样，并对这些细胞实施最近描述的用于整合跨物种scRNA-seq数据集的Seurat策略。在所得的基于UMAP的可视化中，小鼠细胞的分布与我们对MOCA的全局分析惊人地相似。此外，细胞在很大程度上是相对于发育和时间关系而不是相对于空间器官位置以敏感方式分布，尽管有些令人惊讶。例如，我们观察到：人类胎儿内皮细胞、造血细胞、肝细胞、上皮细胞和间充质细胞均映射到相应的小鼠胚胎轨迹。虽然人类胎儿大脑神经元和小脑神经元与小鼠胚胎神经管轨迹重叠，但人类胎儿神经嵴衍生物诸如ENS神经元、内脏神经元、成交感神经细胞和嗜铬细胞可能由于物种或发育阶段之间的过度差异而与相应的小鼠胚胎轨迹分开聚类。可以预知，人ENS胶质细胞以及施万细胞与小鼠胚胎PNS胶质细胞子轨迹重叠。人类胎儿星形胶质细胞与小鼠胚胎神经上皮轨迹聚类在一起(小鼠星形胶质细胞直到E18.5才发育)。人类胎儿少突胶质细胞与罕见小鼠胚胎子轨迹(Pdgfra+胶质细胞)重叠，回顾起来这对应于少突胶质细胞前体细胞(OPC；Olig1+、Olig2+、Brinp3+)，并质疑我们先前将不同的Oligo1+子轨迹作为少突胶质细胞前体的注释。

为了使人类胎儿和小鼠胚胎细胞之间更详细的关系可视化，我们将类似的综合分析策略应用于从造血轨迹、内皮轨迹和上皮轨迹提取的人类和小鼠细胞。来自这种胎儿人类细胞图谱的数据易于将“全胚胎”小鼠数据解卷积成细粒度的功能组或空间组。例如，小鼠“白细胞”轨迹的子集映射到特定的人类血细胞类型，诸如HSC、小胶质细胞、巨噬细胞(肝脏和脾)、巨噬细胞(其他器官)和DC。这些子集通过相关血细胞标记的表达得到进一步验证。类似地，我们观察到小鼠/人类内皮细胞和上皮细胞的相关子集相互映射。该方法可用于在难以接近或解剖学解析的发育时间点获得特定谱系的祖细胞的基因表达程序。例如，在我们先前已标记为前肠上皮轨迹的小鼠细胞内，我们现在能够分辨胃和胰腺的可能贡献者。

讨论

功能性人类胎儿的成功发育是一个惊人的过程，其特征在于跨三个关键发育阶段的细胞增殖和分化过程。

在子宫内简单的细胞增殖和着床的短暂(受精后两周)受精卵期之后，胚胎形成阶段继续到原肠胚形成、神经形成和器官发生，其特征在于强烈的细胞分化和内部器官前体的生成。到孕周的第十周时，胚胎已获得其基本形态，称为胎儿。在接下来的二十周中，不同器官继续生长和成熟，由前体生成不同的终末分化细胞类型。

在具有共用的早期发育程序的人类或模型系统(即，小鼠)中，以单细胞分辨率对受精卵期和胚胎形成期进行了深入谱图分析。晚期发育阶段(胎儿期)显示出智人与其他物种之间不同的发育程序和长度。并且由于更高的生物体复杂性和技术限制，在该阶段中获得细胞动力学的全局视图一直是具有挑战性的。虽然最近发布了对胎儿发育的若干单细胞研究，但它们大多局限于特定的器官或细胞谱系，并且未能获得整个生物体发育的全局视图。

材料和方法：

哺乳动物细胞培养和细胞核提取

将所有哺乳动物细胞在37℃和5％CO₂下培养，并维持在补充有10％FBS和1X青霉素/链霉素(Gibco，目录号15140122；100U/ml青霉素、100μg/ml链霉素)的高葡萄糖DMEM(Gibco，目录号11965)中。细胞用0.25％的胰蛋白酶-EDTA(Gibco，目录号25200-056)胰蛋白酶消化，并且每周以1:10分离三次。

所有细胞系被胰蛋白酶消化，以300×g旋转5分钟(4℃)，并在1X冰冷PBS中洗涤一次。合并5M细胞并使用1mL冰冷的细胞裂解缓冲液(10mM Tris-HCl pH 7.4、10mM NaCl、3mMMgCl2和0.1％IGEPAL CA-630，修改后还包含1％SUPERase In Rnase抑制剂和1％BSA)将其裂解。然后将过滤的细胞核转移到新的15ml管(Falcon)中，通过在4℃下以500×g离心5分钟来沉淀，并用1ml冰冷的细胞裂解缓冲液洗涤一次。将细胞核在冰上在4ml冰冷的4％多聚甲醛(EMS)中固定15分钟。固定后，将细胞核在1ml细胞核洗涤缓冲液(不含IGEPAL的细胞裂解缓冲液)中洗涤两次，然后重悬于500μl细胞核洗涤缓冲液中。将样品分成5个管，每个管中100μl，并在液氮中速冻。

人类胎儿组织制备和细胞核提取

将人类胎儿组织一起处理以减少批次效应。用锤(在干冰上)将每个器官粉碎成组织粉末，并且在取样之前混合。首先将0.1-1g粉末与1mL冰冷的细胞裂解缓冲液(10mMTris-HCl pH 7.4、10mM NaCl、3mM MgCl2和0.1％IGEPAL CA-630(来自⁵³)，修改后还包含1％SUPERase In和1％BSA)一起温育，然后转移到40μm细胞滤网(Falcon)的顶部。用注射器柱塞(5ml，BD)的橡胶尖端将组织在4ml细胞裂解缓冲液中匀化。然后将过滤的细胞核转移到新的15ml管(Falcon)中，通过以500×g离心5分钟来沉淀，并用1ml细胞裂解缓冲液洗涤一次。将细胞核在冰上在5ml冰冷的4％多聚甲醛(EMS)中固定15分钟。固定后，将细胞核在1ml细胞核洗涤缓冲液(不含IGEPAL的细胞裂解缓冲液)中洗涤两次，然后重悬于500μl细胞核洗涤缓冲液中。将样品分成两个管，每个管中250μl，并在液氮中速冻。对于一些器官(肾、胰腺、肠和胃)中的人类细胞提取和多聚甲醛固定。

sci-RNA-seq3文库制备和测序

多聚甲醛固定的细胞核以类似于所公布的sci-RNA-seq3方案的方式处理，稍作修改。简而言之，使用0.2％TritonX-100(在细胞核洗涤缓冲液中)在冰上对解冻的细胞核透化3分钟，然后进行短暂超声处理(Diagenode，低功率模式下12秒)以减少细胞核聚集。然后将细胞核用细胞核洗涤缓冲液洗涤一次，并通过1ml Flowmi细胞滤网(Flowmi)过滤。将过滤的细胞核以500×g旋转5分钟并重悬于细胞核洗涤缓冲液中。然后将来自每个样品的细胞核分配到四个96孔板中的若干个单独的孔中。记录孔id和小鼠胚胎之间的连锁以用于下游数据处理。对于每个孔，将80,000个细胞核(16μL)与8μl的25μM锚定的oligo-dT引物(5'-/5Phos/CAGAGCNNNNNNNN[10bp条形码]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3'(SEQ IDNO:1)，其中“N”是任何碱基；IDT)和2μL 10mM dNTP混合物(Thermo)，在55℃下变性5分钟并立即置于冰上。然后将14μL的第一链反应混合物添加至每个孔，该第一链反应混合物含有8μL 5X Superscript IV第一链缓冲液(Invitrogen)、2μL 100mM DTT(Invitrogen)、2μLSuperScript IV逆转录酶(200U/μl，Invitrogen)、2μL RNaseOUT重组核糖核酸酶抑制剂(Invitrogen)。通过以梯度温度(4℃2分钟，10℃2分钟，20℃2分钟，30℃2分钟，40℃2分钟，50℃2分钟和55℃10分钟)温育平板来进行逆转录。

逆转录反应后，将60μL细胞核稀释缓冲液(10mM Tris-HCl pH 7.4、10mM NaCl、3mM MgCl2和1％BSA)添加至每个孔。将来自所有孔的细胞核合并在一起并以500×g旋转10分钟。然后将细胞核重悬于细胞核洗涤缓冲液中并重新分配到另外四个96孔板中，其中每个孔包含20μL快速连接酶缓冲液(NEB)、2μL快速DNA连接酶(NEB)、10μL细胞核的细胞核洗涤缓冲液、8μL条形码连接接头(100μM，5’-GCTCTG[9bp或10bp条形码A]/双脱氧U/ACGACGCTCTTCCGATCT[条形码A的反向互补序列]-3’(SEQ ID NO:2))。连接反应在25℃下进行10分钟。连接反应后，将60μL细胞核稀释缓冲液(10mM Tris-HCl pH 7.4、10mM NaCl、3mMMgCl2和1％BSA)添加至每个孔。将来自所有孔的细胞核合并在一起并以600×g旋转10分钟。

将细胞核用细胞核洗涤缓冲液洗涤一次并用1ml Flowmi细胞滤网(Flowmi)过滤一次，计数并重新分配到八个96孔板中，其中每个孔包括在5μL细胞核洗涤缓冲液和3μL洗脱缓冲液(Qiagen)中的2,500个细胞核。然后将1.33μl mRNA第二链合成缓冲液(NEB)和0.66μl mRNA第二链合成酶(NEB)添加到每个孔中，并且在16℃下进行第二链合成180分钟。

对于片段标签化，将每个孔与11μL Nextera TD缓冲液(Illumina)和1μL仅i7TDE1酶(62.5nM，Illumina，稀释于Nextera TD缓冲液(Illumina)中)混合，然后在55℃下温育5分钟以进行片段标签化。然后通过每孔添加24μL DNA结合缓冲液(Zymo)并在室温下温育5分钟来终止反应。然后使用1.5x AMPure XP小珠(Beckman Coulter)纯化每个孔。在洗脱步骤中，向每个孔添加8μL不含核酸酶的水、1μL 10X USER缓冲液(NEB)、1μL USER酶(NEB)，并在37℃下温育15分钟。将另外的6.5μL洗脱缓冲液添加到每个孔中。通过磁力架移除AMPure XP小珠，并将洗脱产物(16μL)转移到新的96孔板中。

对于PCR扩增，将每孔(16μL产物)与2μL的10μM带索引P5引物(5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACG ACGCTCTTCCGATCT-3'(SEQ IDNO:3)；IDT)、2μL的10μM P7引物(5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3'(SEQ ID NO:4)，IDT)和20μL的NEBNext高保真2X PCR主混合物(NEB)混合。使用以下程序进行扩增：72℃5分钟，98℃30秒，12-16个循环的(98℃10秒，66℃30秒，72℃1分钟)，以及最后72℃5分钟。

在PCR后，将样品合并，并使用0.8体积的AMPure XP小珠纯化。文库浓度通过Qubit(Invitrogen)确定，并且文库通过在6％TBE-PAGE凝胶上电泳来可视化。在一个NovaSeq平台(Illumina)上对所有文库进行测序(读段1：34次循环，读段2：52次循环，索引1：10次循环，索引2：10次循环)。

对于多聚甲醛固定的细胞，以类似于固定细胞核的方式对其进行处理，稍作修改：将冷冻的固定细胞在37℃水浴上解冻，以500×g旋转5分钟，然后用包含0.2％Triton X-100的500μl PBSR(1x PBS pH 7.4，1％BSA，1％SuperRnaseIn，1％10mM DTT)在冰上温育3分钟。将细胞沉淀并重悬于包含1％SuperRnaseIn的500μl无核酸酶的水中。将3ml 0.1NHCl添加到细胞中，在冰上温育5分钟(7)。将3.5ml Tris-HCl(pH＝8.0)和35μl 10％TritonX-100加入细胞中以中和HCl。将细胞沉淀并用1ml PBSR洗涤。将细胞沉淀并重悬于100μlPBSI(1x PBS pH 7.4，1％BSA，1％SuperRnaseIn)中。以下步骤与上述sci-RNA-seq3方案(具有多聚甲醛固定的细胞核)相似，稍有修改：(1)我们每孔分配20,000个固定细胞(而不是80,000个细胞核)用于逆转录。(2)我们用PBSI替换以下步骤中的所有细胞核洗涤缓冲液。(3)用PBS+1％BSA替换所有的细胞核稀释缓冲液。

测序读段的处理

使用我们为sci-RNA-seq3开发的流程进行单细胞RNA-seq的读段比对和基因计数矩阵生成，稍有修改：使用Illumina的bcl2fastq/v2.16将碱基检出转换为fastq格式，并基于PCR i5和i7条形码使用具有默认设置的最大似然解复用软件包deML。下游序列处理和单细胞数字表达矩阵生成与sci-RNA-seq相似，不同之处在于RT索引与发夹接头索引组合，因此通过使用RT索引和连接索引(ED<2，包括插入和缺失)解复用读段，将映射的读段拆分为组成细胞索引。简而言之，基于RT索引和连接索引(ED<2，包括插入和缺失)过滤已解复用的读段，并且使用具有默认设置的trim_galore/v0.4.1来剪切接头。使用具有默认设置和基因注释的STAR/v2.5.2b(GENCODE V19用于人类；GENCODE VM11用于小鼠)，将经修剪的读段映射到人类胎儿细胞核的人类参考基因组(hg19)，或HEK293T和NIH/3T3混合细胞核的人hg19和小鼠mm10的嵌合参考基因组。提取独特映射读段，并使用唯一分子标识符(UMI)序列(ED<2，包括插入和缺失)、逆转录(RT)索引、发夹连接接头索引和读段2末端坐标移除重复(即，UMI序列小于2编辑距离的读段、RT索引、连接接头索引和标记位点被认为是重复的)。最后，通过使用RT索引和连接发夹(ED<2，包括插入和缺失)进一步解复用读段，将映射的读段拆分为组成细胞索引。对于混合物种实验，计算每个物种的基因组的独特映射读段的百分比。超过85％的UMI被分配给一个物种的细胞被视为物种特异性细胞，其余细胞被归类为混合细胞或“碰撞”。为了生成数字表达矩阵，我们用python/v2.7.13HTseq软件包计算了映射到每个基因的外显子区和内含子区的每个细胞的链特异性UMI的数量⁵⁶。对于多映射的读段，读段被分配给最近基因，另一个相交的基因落在距最近基因的末端100bp内的情况除外，在这种情况下该读段被丢弃。对于大多数分析，我们在每基因的单细胞表达矩阵中包括了预期链内含子UMI和外显子UMI。

在生成单细胞基因计数矩阵后，滤除UMI少于250的细胞。基于RT条形码将每个细胞分配给其原始人类胎儿样品。映射到每个胎儿个体的读段被聚集以生成“批量RNA-seq”。对于胎儿的性别分离，我们对映射到女性特异性非编码RNA(TSIX和XIST)或chrY基因(在男性和女性中均检测到的基因TBL1Y、RP11-424G14.1、NLGN4Y、AC010084.1、CD24P4、PCDH11Y和TTTY14除外)的读段进行计数。胎儿很容易被分为女性(更多的读段映射到TSIX和XIST而非chrY基因)和男性(更多的读段映射到chrY基因而非TSIX和XIST)。

Monocle 3对整个人类胎儿样品进行聚类分析。简而言之，针对来自每个个体的人类胎儿器官，如上文所述构建聚集的基因表达矩阵。选择总UMI超过5,000个的样品。首先对前500个最高度分散的基因进行PCA(10个分量)，然后进行UMAP(max_components＝2，n_neighbors＝10，min_dist＝0.5，metric＝“cosine”)来降低数据维度。

细胞过滤、聚类和标记基因鉴定

对于潜在的双重体细胞的检测，我们首先将数据集拆分为每个器官和个体的子集，然后将scrublet/v0.1流程应用于具有参数(min_count＝3，min_cells＝3，vscore_percentile＝85，n_pc＝30，expected_doublet_rate＝0.06，sim_doublet_ratio＝2，n_neighbors＝30，scaling_method＝“log”)的每个子集以进行双重体得分计算。双重体得分超过0.2的细胞被注释为检测到双重体。我们在整个数据集中检测到6.4％的潜在双重体细胞，这对应于12.6％的总体估计双重体比例(包括簇内和簇间双重体)。

为了检测来自每个器官的细胞的双重体衍生的子簇，我们使用如前所示的迭代聚类策略。简而言之，在聚类和降低维度之前去除映射到性染色体的基因计数。预处理步骤类似于参考文献所用的方法。简而言之，滤除没有计数的基因，并通过每个细胞的总UMI计数对每个细胞进行归一化。选择具有最高方差的前1,000种基因，并且在基因过滤后重新归一化数字基因表达矩阵。在添加伪计数后对数据进行对数变换，并按比例缩放至单位方差和零均值。首先通过PCA(30个分量)，然后通过UMAP来降低数据维度，之后用默认参数对30个主分量进行Louvain聚类。对于Louvain聚类，我们首先通过scanpy/v1.0中的scanpy.api.pp.neighbors函数拟合前30个PC来计算局部邻域数为50的观察值的邻域图。然后我们使用实现为scanpy.api.tl.louvain函数的Louvain算法将细胞聚类成子组。对于UMAP可视化，我们将PCA矩阵直接拟合到min_distance为0.1的scanpy.api.tl.umap函数中。对于子簇鉴定，我们选择了每种主要细胞类型中的细胞，并应用了类似于主要聚类分析的PCA、UMAP、Louvain聚类。检测到双重体比例(通过Scrublet)超过15％的子簇被注释为双重体衍生的子簇。

对于数据可视化，将标记为双重体(通过Scrublet)或来自双重体衍生的子簇的细胞滤除。对于每个细胞，我们仅保留蛋白编码基因、lincRNA基因和假基因。将在少于10个细胞中表达的基因和表达少于100个基因的细胞被进一步滤除。下游降低维度和聚类分析由Monocle 3完成。首先对前5,000个最高度分散的基因进行PCA(50个分量)，然后进行UMAP(max_components＝2，n_neighbors＝50，min_dist＝0.1，metric＝“cosine”)来降低数据维度。细胞簇使用在Monocle 3中实现的Louvain算法(louvain_res＝1e-04)鉴定。基于细胞类型特异性标记将簇分配给已知的细胞类型。我们发现，上述基于Scrublet和迭代聚类的方法在标记丰富细胞簇和罕见细胞簇(例如，小于总细胞群的1％)之间的细胞双重体方面受到限制。为了进一步去除这些双重体细胞，我们采用由Monocle 3鉴定的细胞簇，并使用Monocle 3的differentialGeneTest()函数首先计算了跨细胞簇(器官内)的差异表达基因。然后我们选择组合了每个细胞簇的前十个基因标记的基因集(按q值和排名第一和第二的细胞簇之间的表达差异倍数排序)。来自每个主细胞簇的细胞被选择用于首先对簇特异性排在前面的基因标记的所选基因集进行PCA(10个分量)，然后进行UMAP(max_components＝2，n_neighbors＝50，min_dist＝0.1，metric＝“cosine”)来降低维度，之后使用在Monocle 3中实现的密度峰值聚类算法进行聚类识别(rho_thresh＝5，delta_thresh＝0.2，用于大多数聚类分析)。显示靶细胞簇特异性标记的低表达和非靶细胞簇特异性标记的富集表达的子簇被注释为双重体衍生的子簇，并在可视化和下游分析中滤除。在去除所有双重体或来自双重体衍生的子簇的细胞之后，用Monocle 3的differentialGeneTest()函数重新计算跨细胞类型(器官内)的差异表达基因。

跨器官的细胞的聚类分析

为了对跨15个器官的77种主要细胞类型进行聚类分析，我们从每种细胞类型(或在给定器官中具有少于5,000个细胞的细胞类型的所有细胞)采样5,000个细胞。首先对组合了上文鉴定的细胞类型特异性排在前面的基因标记(表S5，qval＝0)的基因集进行PCA(50个分量)，然后进行UMAP(max_components＝2，n_neighbors＝50，min_dist＝0.1，metric＝“cosine”)来降低数据维度。用Monocle 3的differentialGeneTest()函数鉴定跨细胞类型的差异表达基因。为了注释细胞类型特异性基因特征，我们将上文鉴定的细胞类型特异性基因与来自人类蛋白质图谱的预测分泌和膜蛋白编码基因集以及来自软件包RcisTarget/v1.2.1的“motifAnnotations_hgnc”数据中注释的TF集相交。

为了对跨15个器官的血细胞进行聚类分析，我们提取了所有血细胞，包括髓细胞、淋巴细胞、胸腺细胞、巨核细胞、小胶质细胞、抗原递呈细胞、成红细胞和造血干细胞。首先对组合了前3,000个血细胞类型特异性基因标记的基因集(，仅选择在至少一种血细胞类型中特异性表达的基因(q值<0.05，排名第一和第二的细胞簇之间的表达差异倍数>2)，并按跨器官的中值qval排序)进行PCA(40个分量)，然后进行UMAP(max_components＝2，n_neighbors＝50，min_dist＝0.1，metric＝“cosine”)来降低数据维度。细胞簇使用在Monocle 3中实现的Louvain算法(louvain_res＝1e-04)鉴定。基于细胞类型特异性标记将簇分配给已知的细胞类型。

然后我们应用与上述类似的分析策略对跨器官的内皮细胞或上皮细胞进行聚类分析。对于内皮细胞，我们首先从跨器官的血管内皮细胞、淋巴内皮细胞和心内膜细胞中提取细胞。首先对组合了上文鉴定的前1,000个内皮细胞类型特异性基因标记的基因集(仅选择在至少一种内皮细胞类型中特异性表达的基因(q值<0.05，排名第一和第二的细胞簇之间的表达差异倍数>2)，并按跨器官的中值qval排序)进行PCA(30个分量)，然后用相同的血细胞参数进行UMAP来降低数据维度。细胞簇使用在Monocle 3中实现的Louvain算法(louvain_res＝1e-04)鉴定，然后基于内皮细胞的组织来源进行注释。对于上皮细胞，我们首先从图S3B中的上皮细胞簇中提取细胞，随后首先对前5,000个最高度分散的基因进行PCA(50个分量)，然后进行UMAP(max_components＝2，n_neighbors＝50，min_dist＝0.1，metric＝“cosine”)来降低维度。

TF-基因连锁分析

我们假设基因调控过程可能与大规模单细胞基因表达分析有关。为了实现这一目标，我们应用了与先前研究类似的单细胞调控推断方法，通过将数百万个细胞的协方差与调控序列分析相结合来预测TF-基因相互作用，以进行验证。该工作流程由三个步骤组成：由于我们的单细胞谱的稀疏性使其具有挑战性，因此我们首先通过上述迭代聚类策略将细胞(器官内)分组为子簇来聚集来自具有高度相似转录组的细胞子集(约100个细胞)的基因计数，随后在UMAP坐标上对来自每个子簇的细胞进行k均值聚类。k基于每个子簇中的细胞数量来选择，使得每个子簇的平均细胞数量为100。

我们试图基于每个器官内聚集的“伪细胞”之间的表达协方差来识别TF与其受调控基因之间的连锁。选择检测到超过10,000个UMI的细胞，以及在所有细胞的超过10％中检测到的基因(包括TF)。每个细胞的全基因表达通过由Monocle3中的estimateSizeFactors对全基因表达矩阵所计算的细胞特异性文库大小因子进行归一化，对数变换，居中，然后通过在R中的标度函数进行缩放。对于检测到的每个基因，用软件包glmnet/v.2.0构建LASSO回归模型，以基于在来自软件包RcisTarget/v1.2.1的“motifAnnotations_hgnc”数据中注释的TF的归一化表达，通过拟合以下模型来预测每种基因的归一化表达水平：

G_i＝β₀+β_tT_i

其中G_i是基因i的调整后的基因表达值。它通过每个伪细胞的基因计数来计算，通过由Monocle 3中的estimateSizeFactors对每个伪细胞的完全表达矩阵所估计的细胞特异性大小因子(SG_i)进行归一化，然后进行对数变换：

为了简化基因之间的下游比较，我们在使用R中的scale()函数拟合每个基因i的模型之前标准化了反应G_i。

与G_i类似，T_i是每个伪细胞的调整后的TF表达值。它通过全TF表达计数来计算，通过由Monocle 3中的estimateSizeFactors对每个伪细胞的完全表达矩阵所估计的细胞特异性大小因子(SG_i)进行归一化，然后进行对数变换：

在拟合之前，T_i使用R中的scale()函数标准化。

虽然TF表达和基因新合成速率之间的负相关性可反映转录阻遏物的活性，但我们认为，glmnet所报告的负连锁的更可能解释是细胞状态特异性表达和TF活性的互斥模式。因此，在预测期间，我们排除了具有与潜在的靶基因合成速率负相关的表达以及低回归系数(<0.03)连锁的TF。

我们的方法旨在通过找到可用于在回归模型中预测其表达的子集来鉴定可调控每个基因的TF。然而，具有与基因表达相关的表达的TF并不一定意味着它直接调节该基因。为了推定地识别该集合内的直接靶标，我们首先将这些连锁与ENCODE ChIP-seq实验中谱图分析的TF相交。仅保留具有正确TF ChIP-seq结合位点的显著富集的基因集(双侧Fisher精确检验，FDR为5％)，并进一步修剪以去除没有TF结合数据支持的间接靶基因。为了扩展经验证的TF-基因连锁的集合，我们进一步应用软件包SCENIC，即基于在基因启动子周围的10kb窗口中靶TF基序的富集来构建基因调控网络的流程。使用顺式调控基序分析并使用RcisTarget/v1.2.1分析通过LASSO回归识别的每个共表达模块。仅保留具有正确TF调控因子的显著基序富集的模块，并修剪以去除没有基序支持的间接靶基因。我们通过三个相关系数阈值(0.3、0.4和0.5)过滤TF-基因连锁，并将由RcisTarget³⁶和ChIP-seq结合数据验证的所有连锁组合。

我们将上述策略应用于每个器官中聚集的伪细胞，并识别了跨器官的1,220个(胸腺)至10,059个(肝脏)TF-基因连锁，这些连锁组合起来，在706个TF和12,868个基因之间总共有56,272个TF-基因连锁，并通过表达协方差和TF结合或基序数据进行了验证。作为对照分析，我们排列TF表达矩阵的细胞ID，并且在排列后未识别出任何连锁。一些已识别的TF和基因调控关系易于在TF网络(TRRUST)或Enrichr提交TF-基因同现网络的人工精选数据库中得到验证，诸如E2F1(330个连锁基因的最高富集的TRRUST TF＝E2F1，调整后的p值＝2.2e-14)、HNF4A(745个连锁基因的最高富集的TRRUST TF＝HNF4A，调整后的p值＝0.000003)和FLI1(1219个连锁基因的最高富集的同现TF＝FLI1，调整后的p值＝5.6e-122)。85％的(56,272个中的48,050个)TF-基因连锁是器官特异性的。例如，ATP酶磷脂转运8B1(ATP8B1)仅在肠中与HNF4A连锁，这与以下事实一致：与其他器官相比(Spearman相关系数的平均值＝0.008)，它在肠中显示出与HNF4A的最高相关性(Spearman相关系数＝0.36)。在多个器官(>5个)中发现了745个TF-基因连锁。可以预知，它们的连锁基因在免疫细胞分化途径(造血干细胞分化：调整后的p值为2.5e-6；肺树突状细胞和巨噬细胞子集的发育：调整后的p值为0.0001)以及基本的生物学过程诸如应激反应和细胞周期(ATR所致的DNA IR损伤和细胞反应：调整后的p值为0.006，氧化应激：调整后的p值为0.02，G1至S细胞周期控制：调整后的p值为0.05)中富集。10.5％的(56,272个中的5935个)TF-基因连锁在两个TF之间，其中362个TF对显示可能代表自激活电路的双向调节关系。例如，我们确定了驱动骨骼肌分化的关键调控因子(包括MYOD1、MYOG、TEAD4和MYF6)的正反馈回路。细胞类型特异性基因、TF及其调控相互作用可在我们的网站上可视化和探索。

人-小鼠整合分析

我们首先应用稍作修改的策略来鉴定人类胎儿细胞图谱和小鼠器官发生细胞图谱(MOCA)之间的相关细胞类型。我们首先聚集细胞类型特异性UMI计数，通过总计数归一化，乘以100,000，并在添加伪计数后进行对数变换。然后我们应用非负最小二乘(NNLS)回归，以用数据集B中所有细胞类型的基因表达(M_b)来预测数据集A中靶细胞类型的基因表达(T_a)，：

T_a＝β_0a+β_1aM_b

其中T_a和M_b分别表示来自数据集A的靶细胞类型的经过滤基因表达和来自数据集B的所有细胞类型的经过滤基因表达。为了提高准确性和特异性，我们通过以下方式为每种靶细胞类型选择细胞类型特异性基因：1)基于靶细胞类型与所有细胞类型的中值表达之间的表达倍数变化对基因进行排序，然后选择前200个基因。2)基于靶细胞类型与在所有其他细胞类型中具有最大表达的细胞类型之间的表达倍数变化对基因进行排序，然后选择前200个基因。3)合并来自步骤(1)和(2)的基因列表。β_1a是通过NNLS回归计算的相关系数。

类似地，我们接着切换数据集A和B的顺序，并且用数据集A中所有细胞类型的基因表达(M_a)来预测数据集B中靶细胞类型的基因表达(T_b)：

T_b＝β_0b+β_1bM_a

因此，数据集A中的每个细胞类型a和数据集B中的每个单元类型b通过来自上述分析的两个相关系数连锁：用于使用b预测细胞类型a的β_ab，以及用于使用a预测细胞类型b的β_ba，我们通过下式组合这两个值：

β＝β_ab+β_ba

并且发现β反映了具有高特异性的两个数据集之间的细胞类型的匹配。对于数据集A中的每个细胞类型，数据集B中的所有细胞类型均按β排序，并且排在前面的细胞类型(其中β>0.06)被识别为匹配的细胞类型。我们将来自该研究的所有人类细胞类型与来自小鼠胚胎细胞图谱(MOCA)的10条主要细胞轨迹和56条子轨迹进行了比较。

然后，我们使用Seurat v3整合方法(FindAnchors和IntegrateData)整合了人类胎儿细胞图谱和小鼠器官发生细胞图谱(MOCA)，其中在人类和小鼠中具有共享基因名称的前3,000个高度可变基因上的所选维度为30。我们首先以默认参数整合65,000个人类胎儿细胞(从77种细胞类型中的每种细胞类型随机采样的至多1,000个细胞)和从MOCA随机采样的100,000个小鼠胚胎细胞。然后我们将相同的综合分析策略应用于从造血轨迹、内皮轨迹和上皮轨迹提取人类和小鼠细胞。

实施例3

基于三级组合索引(sci-ATAC-seq3)的单细胞染色质可及性谱图分析的方法

材料

试剂和耗材

0.5M EDTA(Thermo Fisher Scientific，AM9260G)；100bp梯(New EnglandBiolabs(NEB)，N3231L)；1000X Sybr(Invitrogen(Gibco/BRLLife Tech)，S7563)；10mMATP(New England Biolabs(NEB)，PO756S)；10X HBSS(Gibco/BRL Life Tech，14065-056)；10X PNK缓冲液(New England Biolabs(NEB)，M0201L)；1M MgCl2(Thermo FisherScientific，AM9530G)；1X DPBS(Thermo Fisher Scientific，14190-144)；5％洋地黄皂苷(Thermo Fisher Scientific，BN2006)；5M NaCl(Thermo Fisher Scientific，AM9759)；6％TBE PAGE(Invitrogen(Gibco/BRL Life Tech)，EC6265BOX)；6x橙染料(New EnglandBiolabs(NEB)，B7022S)；AMPure珠(Beckman Coulter，A63882)；BSA，分子生物学级(NewEngland Biolabs(NEB)，B9000S)；DNA LoBind管1.5ml，PCR清洁(Eppendorf NorthAmerica，22431021)；DL-二硫苏糖醇，1M 10x 0.5ML(Sigma Aldrich，64563-10x.5ML)；EB缓冲液(Qiagen，19086)；Falcon管，15ml(VWR Scientific，21008-936)；Falcon管，50ml(VWR Scientific，21008-940)；

5mL圆底，带细胞滤网(Fisher Scientific，352235)；Green pack LTS 200μl过滤吸头(GP-L200F)(Rainin Instrument，17002428)；Green pack LTS 20μl过滤吸头(GP-L20F)(Rainin Instrument，17002429)；甘油(SigmaAldrich，G5516-500ML)；甘氨酸(Sigma Aldrich，50046-250G)；IGEPAL CA-630(SigmaAldrich，I8896-50ML)；Liquidator吸头—10μl(Rainin Instrument，17011117)；Liquidator吸头—200μl(Rainin Instrument，17010646)；LoBind透明96孔PCR板(Eppendorf North America，30129512)；薄型0.2ml 8联管白管，无盖(Bio-radLaboratories，TLS0851)；乙酸镁四水合物(Sigma Aldrich，M5661-50G)；Microseal‘B’粘合密封(Bio-Rad Laboratories，MSB1001)；Nalgene MF 75无菌过滤装置，0.2μm–250ml(VWR，28199-112)；Nalgene MF 75无菌过滤装置，0.2μm–500ml(VWR，28198-505)；NEBNext高保真主混合物(2x)(New England Biolabs(NEB)，M0541L)；NextSeq 500高通量试剂盒(150次循环)(Illumina Inc.，FC-404-2002)；非织造纱布(Dukal，6114)；无核酸酶水(Thermo Fisher Scientific，AM9937)；8联管光学平盖(Bio-Rad Laboratories，TCS-0803)；蛋白酶抑制剂(Sigma Aldrich，P8340-1ml)；RT-L250WS宽孔LTS 250μl(RaininInstrument，30389249)；试剂储存器(Fisher Scientific，07-200-127)；亚精胺(SigmaAldrich，S2626-1G)；Sybr gold(Invitrogen(Gibco/BRL Life Tech)，S-11494)；Steriflip一次性真空过滤装置，0.22μm孔径(Fisher Scientific，SCGP00525)；T4 PNK(New England Biolabs(NEB)，M0201L)；T7连接酶(New England Biolabs(NEB)，M0318L)；T7连接酶缓冲液(New England Biolabs(NEB)，M0318L)；Tapestation(D5000试剂)(Agilent Technologies，5067-5589)；Tapestation(筛选带)(Agilent Technologies，5067-5588)；TD缓冲液(2x)(Illumina Inc.，FC-121-1031)；TDE1(Tn5)(Illumina Inc.，FC-121-1031)；Tris-HCl pH 7.5(1M)(Thermo Fisher Scientific，15567027)；Tween-20(Thermo Fisher Scientific，BP337-500)；UltraPure蒸馏水(无DNA酶，无RNA酶)(ThermoFisher Scientific，10977023)；DNA纯化和浓缩试剂盒(DCC-5)(Zymo Research，D4014)。

仪器：

Agilent 4200TapeStation系统；Bright-Line^TM血球计(Sigma)；离心机(冷却至4℃)(Eppendorf，5810R)；DynaMag^TM-96侧面带裙边磁力架(Thermo Fisher Scientific，12027)；Eppendorf Mastercycler(热循环仪)；FACSAria III细胞分选仪(BD)；冷冻机(-20℃，-80℃)和冷藏机(4℃)；凝胶盒；用于样品储存的液氮罐；显微镜；多通道移液管(10μl，200μl)(Rainin Instrument)；NextSeq 500平台(Illumina)；Rainin Liquidator 96手动移液系统

试剂准备：

使用ATAC-RSB配方。在50ml falcon管中，将500μl 1M Tris-HCl pH7.4(最终10mMTris-HCl)、100μl 5M NaCl(最终10mM NaCl)、300μl0.5M MgCl2(最终3mM MgCl2)和49.1ml无核酸酶水混合。通过使用Millipore“Steriflip”无菌一次性真空过滤装置、PES膜进行过滤灭菌；孔径：0.22μm(SCGP00525)。将缓冲液在4℃下储存至多6个月。

10％Tween-20(在4℃下储存至多6个月)；10％IGEPAL CA-630(在4℃下储存至多6个月)；1％洋地黄皂苷(用无核酸酶水将5％洋地黄皂苷稀释至1％，在4℃下储存至多6个月)

冷冻缓冲液(FB)。在50ml falcon管中，将pH 8.0的50mM Tris、25％甘油、5mM Mg(OAc)2、0.1mM EDTA和水混合。通过使用Millipore“Steriflip”无菌一次性真空过滤装置、PES膜进行过滤灭菌；孔径：0.22μm(SCGP00525)。将缓冲液在4℃下储存至多6个月。在细胞核分离当天，将975μl的FB、5μl的5mM DTT(Sigma-Aldrich，目录号646563-10X0.5ml)和20μl的50×蛋白酶抑制剂混合物(Sigma-Aldrich，目录号P8340)混合。

2.5M甘氨酸。制备2.5M甘氨酸，将46.92g甘氨酸混合在250ml水中，然后过滤灭菌(Nalgene过滤系统，0.2μm硝酸纤维素膜(VWR，28199-112))。将试剂在室温下储存至多6个月。

40mM EDTA。用水从0.5M EDTA母液(Invitrogen，AM9262)制备40mM EDTA，然后过滤灭菌(VWR，28198-505)。将试剂在室温下储存至多6个月。

细胞培养。将GM12878细胞培养并维持在含有15％FBS(Thermo Fisher，目录号SH30071.03)和1％青霉素-链霉素(Thermo Fisher，目录号15140122)的RPMI 1640培养基(Thermo Fisher Scientific，目录号11875-093)中。计数并以300,000个细胞/ml的速度每周分离三次。将CH12-LX小鼠细胞系在含有10％FBS、1％青霉素-链霉素(青霉素和链霉素)和1×10^5M B-ME的RPMI 1640培养基中培养。这些细胞被计数并保持在1×10^5个细胞/ml的密度下，每周分离三次以保持细胞浓度。将两种细胞系在37℃下用5％CO₂温育。

从细胞系中分离和固定细胞核对于悬浮细胞，通过在室温下以500×g旋转5分钟来获得约1-10千万个细胞并沉淀细胞。吸去上清液，并将沉淀物重悬于1ml Omni-ATAC裂解缓冲液(10mM NaCl、3mM MgCl2、10mM Tris-HCl pH 7.4、0.1％NP40、0.1％Tween 20和0.01％洋地黄皂苷)中，并在冰上温育3分钟。加入5ml的10mM NaCl、3mM MgCl2、10mM Tris-HCl pH 7.4与0.1％Tween 20，并在4℃下以500×g沉淀细胞核5分钟。吸去上清液，并将细胞核重悬于5ml 1X DPBS(Thermo Fisher，目录号14190144)中。为了使细胞核交联，一次性加入140μL 37％的甲醛与甲醇(VWR，目录号MK501602)，最终浓度为1％。将固定混合物在室温下温育10分钟，每1-2分钟翻转一次。为了淬灭交联反应，加入250μL 2.5M甘氨酸并在室温下温育5分钟，然后在冰上温育15分钟以完全停止交联。取20μL淬灭的交联混合物至20μL台盼蓝中进行计数。在4℃下以500×g旋转交联细胞核5分钟，然后吸去上清液。将固定的细胞核重悬于适量的冷冻缓冲液(pH 8.0的50mM Tris、25％甘油、5mM Mg(OAc)₂、0.1mMEDTA、5mM DTT(Sigma-Aldrich，目录号646563-10X0.5ml)、1×蛋白酶抑制剂混合物(Sigma-Aldrich，目录号P8340))中，以获得每1ml等分试样2百万个细胞核，在液氮中快速冷冻并在-80℃下储存。

组织获得和储存。

分离所关注的组织。在1X HBSS pH 7.4(含有Ca，含有Mg)、1XHBSS(含有钙和镁，不含酚红，Gibco BRL(500ml)14065-056中冲洗。在半湿纱布上吸干组织(湿纱布防止组织粘在纱布上)。非织造纱布Dukal#6114。将干燥的组织置于重型箔(NC19180132，FisherScientific)上或冷冻管中。注意：由于在快速冷冻过程中截留的空气/水分，冷冻管会在管内产生水的结晶“霜”。使用液氮快速冷冻组织。将组织储存在-80℃下的储存库中。

粉碎和储存。在粉碎当天，在干冰上预冷却预标记的管和锤，其中毛巾置于干冰和金属之间。通过取18英寸×18英寸的重型箔形成“填料”，对折两次形成矩形。再折叠两次形成正方形。将冷冻组织置于箔“填料”内，然后将箔填料中的组织置于预冷却的4mm塑料袋内，以防止组织在箔破裂的情况下掉落到干冰上。将该组织包在2块干冰之间冷却。使用预冷却锤手动粉碎包内的组织；3至5次冲击，避免了在破碎前的磨削运动，从而避免加热样品。冷却锤并根据需要重复粉碎，直到组织均匀。将粉碎的组织等分到预标记并预冷却的1.5ml LoBind管和1.5ml无核酸酶的有盖管(Eppendorf，目录号022431021)中。可将粉末状组织的等分试样储存在-80℃下直至进一步处理。

冷冻组织的细胞核分离和固定。在开始之前，制备Omni裂解缓冲液(RSB+0.1％Tween+0.1％Np-40和0.01％洋地黄皂苷)和含有0.1％Tween-20的RSB。在细胞核分离当天，直接向管中加入裂解缓冲液，或将冷冻的等分试样倒入装有细胞裂解缓冲液的60mm培养皿中，用刀片进一步切碎。只要等分试样在储存过程的某个时间点尚未解冻，粉末状组织等分试样就应易于从储存管中滑出而不损失样品。可获得估计的每mg原始组织重量约20,000个细胞，并且性能可能因组织而异。将粉碎的组织重悬于1ml Omni裂解液(RSB+0.1％Tween+0.1％NP-40和0.01％洋地黄皂苷)中，然后转移到15ml falcon管中。将细胞核在冰上温育3分钟，然后加入5ml RSB+0.1％Tween-20。将细胞核在4℃下以500×g离心5分钟。吸去上清液并重悬于5ml 1X DPBS中。使1X DPBS中的细胞核通过100μm细胞滤网(VWR，目录号10199-658)以除去组织块。

在通风柜中，通过一次性加入140μL 37％甲醛(VWR，MK501602)与甲醇使细胞核交联，最终浓度为1％，并通过翻转管数次来快速混合。在室温下温育恰好10分钟，每1-2分钟轻轻地翻转管。加入250μL 2.5M甘氨酸(新鲜制备的，经过滤灭菌的)淬灭交联反应，通过翻转管数次来充分混合。在室温下温育5分钟，然后在冰上温育15分钟以完全停止交联。使用血球计对细胞核计数以了解待添加的冷冻缓冲液的最终体积，目标是冷冻约1-2百万个细胞核/管。将交联的细胞核在4℃下以500×g离心5分钟，吸去上清液，并将沉淀物重悬于1-10ml补充有1x蛋白酶抑制剂和5mM DTT的冷冻缓冲液中。在液氮中快速冷冻细胞核并在-80℃下储存细胞核。

sci-ATAC-seq3样品处理(文库构建和qc)。解冻、透化、计数和片段标签化。在开始之前，制备Omni裂解缓冲液(RSB+0.1％Tween+0.1％Np-40和0.01％洋地黄皂苷)和含有0.1％Tween-20的RSB。将冷冻的固定细胞核从-80℃中取出并放在干冰床上。在37℃水浴中解冻细胞核直至解冻(约30秒至1分钟)，并将细胞核转移到15ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟。在不干扰沉淀物的情况下吸出上清液，并将沉淀物重悬于200μL的Omni裂解缓冲液中，然后在冰上温育3分钟。用含有0.1％Tween-20的1ml ATAC-RSB洗出裂解缓冲液，并轻轻翻转管3次以混合。通过取20μL的细胞核和20μL的台盼蓝对细胞核计数。计数时，从现在开始，尽可能将细胞核保持在冰上。对于384^3的3级索引实验，细胞核输入数量为480万个，每个组织或样品每孔5万个细胞核，分布在96个反应中。每批有23个样品/组织加上小鼠和人细胞核的混合物作为第24个样品和对照。制备用于片段标签化反应的主混合物(表1)：

表1

对于每个样品，取225,000个细胞核(基于计数)，在4℃下以500×g旋转5分钟，吸去上清液，并将沉淀物重悬于213μL预制的片段标签化反应的主混合物中。使用宽口吸头(Rainin Instrument Co，目录号30389249)穿过LoBind 96孔板的4个孔(Eppendorf，目录号30129512)等分片段标签化混合物中的47.5μL细胞核。每孔加入2.5μL的Nextera v2酶(Illumina Inc，目录号FC-121-1031)，用胶带密封板，并以500×g旋转30秒。将板在55℃下温育30分钟以使DNA片段标签化。通过混合25ml的40mM EDTA和3.9μl的6.4M亚精胺(最终为20mM EDTA和1mM亚精胺)制备终止反应主混合物。通过添加50μl的终止反应混合物40mMEDTA与1mM亚精胺终止片段标签化反应，然后在37℃下温育15分钟。

合并、PNK反应和N5连接。使用宽口吸头，将片段标签化的细胞核合并(每个样品)并在4℃下以500×g沉淀5分钟，然后用500μl的含有0.1％Tween-20的ATAC-RSB洗涤。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并重悬于每个样品18μL的含有0.1％Tween-20的ATAC-RSB中。形成PNK反应主混合物(表2)：

表2

		440x
			10x PNK缓冲液	0.5	220
rATP 10mM	0.5	220
			水	1	440
T4 PNK	2	880

向每个样品中加入72μl的PNK主混合物。等分5μl的PNK反应混合物(四个96孔板的16个孔)。用胶带密封，并在4℃下以500×g旋转5分钟。将PNK反应物在37℃下温育30分钟。形成足以进行440次反应的N5连接主混合物(表3)：

表3

		440x
				与细胞核的PNK反应	5
2X T7连接酶缓冲液	10	4400
				1000uM_N5_splint	0.18	80
水	1.12	492.8
				T7 DNA连接酶	2.5	1100
50uM_N5_oligo	1.2		单独添加

使用多通道，将13.8μl连接主混合物直接添加到每个PNK反应物。使用多通道或96头分配器(Liquidator，目录号17010335)，将1.2μl的50μM N5_oligo(IDT)添加到四个96孔板的每个孔中。用胶带密封，并以500×g旋转30秒，然后在25℃下温育1小时。在第一轮连接后，加入20μl EDTA和亚精胺混合物(20mM EDTA和1mM亚精胺)以终止连接反应，并在37℃下温育15分钟。使用宽口吸头，将每个孔合并到槽中并转移到50ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并将细胞核重悬于含有0.1％Tween-20的1ml ATAC-RSB中，以洗涤任何残余的连接反应混合物。在4℃下以500×g沉淀细胞核5分钟，然后在不干扰沉淀的情况下吸去上清液。

N7连接。形成足以进行440次反应的N7连接主混合物(1X T7连接酶缓冲液、9μMN7_splint(IDT)、水和T7 DNA连接酶)并用连接主混合物重悬细胞核(表4)。

表4

		440x
			2X T7连接酶缓冲液	10	4400
1000uM_N7_splint	0.18	80
			水	6.12	2692.8
T7 DNA连接酶	2.5	1100
			50uM_N7_oligo	1.2		单独添加

将悬浮在主混合物中的细胞核转移到槽中，并且使用宽口吸头，将18.8μl连接主混合物等分到四个96孔LoBind板中，然后将1.2μl的50μMN7_oligo(IDT)添加到四个96孔板的每个孔中。用胶带密封板，以500×g旋转30秒，接着在25℃下温育1小时，通过加入20μlEDTA和亚精胺混合物(20mM EDTA和1mM亚精胺)终止连接，并在37℃下温育15分钟。

合并、计数和稀释。使用宽口吸头将孔合并到槽中，然后转移到50ml falcon管中。将细胞核在4℃下以500×g沉淀5分钟，吸去上清液并将细胞核重悬于2ml Qiagen EB缓冲液(Qiagen，目录号19086)中。使用具有40μm过滤盖的FAC管(Fisher Scientific，目录号352235)过滤细胞核。取20μl重悬并过滤的细胞核和20μl台盼蓝对细胞核计数。将细胞核稀释至100–300个细胞核/μl，并以10μl/孔等分到四个96孔LoBind板中。

未交联。为了使细胞核反向交联，制备EB缓冲液、蛋白酶k(Qiagen，目录号19133)和1％SDS的反向交联主混合物(每孔分别为1μl/0.5μl/0.5μl)，并将2μl添加至每个孔的细胞核。用胶带密封，以500×g旋转30秒，然后在65℃下温育16小时。

测试PCR和凝胶QC。在开始之前，短暂旋转未交联的板。制备足以进行6次反应的PCR主混合物(表5)：

表5

		主混合物(6x)
			未交联的细胞核	12.0
P7_flipmod_10uM_row____	1.25	单独添加
			P5_flipmod_10uM_column____	1.25	单独添加
NEBNext高保真2x主混合物	25	150
			100X BSA	1.0	6
100X SYBR Green	0.25	1.5
			水	9.25	55.5

将35.5μl的PCR主混合物等分到无盖的8联管白管中(Bio-Rad Laboratories，TLS0851)。加入1.25μl的10μM P7和P5引物。将12μl未交联的细胞核加入PCR和引物混合物中。用8联管光学平盖(Bio-Rad Laboratories，TCS-0803)盖住反应管。置于qPCR仪中并监测扩增以确定最佳循环数：72℃5分钟，98℃30秒，30个循环(98℃10秒，63℃30秒，72℃1分钟)，然后保持在10℃下。基于测试孔，选择循环数，使得测试孔全部清晰地扩增，但在任何孔中的荧光强度已经饱和之前。取1μl PCR产物进行QC：样品＝1μl+9μl无核酸酶水+2μl 6x橙染料；100bp梯(1:10)＝1μl+9μl无核酸酶水+2μl 6x橙染料。运行6％TBE聚丙烯酰胺凝胶，180伏，35分钟。用5μl SYBR Gold和50ml 0.5X TBE缓冲液在室温下染色5分钟。

PCR板设置。短暂旋转板。放在冰上，直至测试PCR结果变得可用。制备PCR主混合物(表6)：

表6

		主混合物(110x)
			未交联的细胞核	12.0
P7_flipmod_10uM_row____	1.25	单独添加
			P5_flipmod_10uM_column____	1.25	单独添加
NEBNext高保真2x主混合物	25	2750
			100X BSA	1.0	110
水	9.5	1045

注意扩增期间使用的行和列引物组合。用胶带密封，然后以500×g旋转30秒。使用来自测试PCR结果的最佳循环数运行PCR板：72℃5分钟，98℃30秒，10-20个循环(98℃10秒，63℃30秒，72℃1分钟)，然后保持在10℃下。

PCR扩增纯化和QC。用Zymo Clean&Concentrator-5纯化PCR产物。将25μl的每种PCR反应物(2.4ml)合并至槽中，添加2体积结合缓冲液(4.8ml)，在4个C&C柱上分离(600μl在每个柱中旋转3次)，添加200μl Zymo洗涤缓冲液并旋转(总共2次洗涤)，在最后一次洗涤后使用额外的旋转来干燥柱1分钟，在25μl Qiagen洗脱缓冲液中洗脱(让缓冲液静置在柱上1分钟，然后以最大速度旋转1分钟)，合并所有4次洗脱液并在1X AMPure珠(100μl)中再次清洁，放置在MPC(磁性颗粒收集器)上直至上清液变清，吸出上清液。用200μl 80％乙醇洗涤小珠两次，干燥小珠30秒–1分钟直到珠粒颜色变暗，但不要过度干燥小珠，将小珠在25μl Qiagen EB缓冲液中洗脱，置于MPC中并将上清液转移到干净管中。对于文库QC，使用Tapestation，并遵循制造商的说明书使用D5000筛选带测定。对于片段分析，创建200bp至1000bp的区域表，其中计算区域摩尔浓度。使用该nM(nmol/l)浓度，用缓冲液EB和0.1％Tween-20将文库稀释至2nM。如果合并多个文库，将每个文库归一化至2nM，并创建一个等摩尔池进行测序。

下一步测序(150次循环试剂盒)。文库变性：将2N NaOH稀释至0.2N NaOH(10μl 1N至90μl无核酸酶水)，在新的1.5Lo-Bind管中，转移10μl 0.1N NaOH并添加10μl 2nM的合并文库，在室温下温育5分钟，添加980μl HT1以将变性文库稀释至20pM，将变性文库稀释至1.8pM上样浓度(135μl 20pM+1365μl HT1)，将自定义引物稀释至0.6μM，NextSeq测序配方名称：3LV2_sciATAC_high。

R1—gDNA的50个碱基，R2—gDNA的50个碱基。

索引1—20个碱基(N7寡核苷酸的10个碱基，15个暗循环，10个碱基PCR条形码)，索引2—20个碱基(N5寡核苷酸的10个碱基，15个暗循环，10个碱基PCR条形码)。

测序引物：3L_NexteraV2_R1_seq TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ IDNO:5)；L_NexteraV2_R2_seq GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO:6)；3LV2_IDX1 CTCCGAGCCCACGAGACGACAAGTC(SEQ ID NO:7)；3LV2_IDX2ACACATCTGACGCTGCCGACGACTGATTAC(SEQ ID NO:8)。

本文引用的所有专利、专利申请和出版物的完整公开内容，以及以电子方式获得的材料(包括，例如，在例如GenBank和RefSeq中的核苷酸序列提交，在例如SwissProt、PIR、PRF、PDB中的氨基酸序列提交，以及来自GenBank和RefSeq中的注释编码区的翻译)全文以引用方式并入。出版物中引用的补充材料(诸如补充表、补充图、补充材料和方法和/或补充实验数据)同样全文以引用方式并入。在本申请的公开内容与以引用方式并入本文的任何文献的公开内容之间存在任何不一致性的情况下，应以本申请的公开内容为准。上述详细描述和实施例仅为了清楚地理解本发明而给出。不应将其理解为不必要的限制。本公开不限于所示和所述的确切细节，因为对本领域技术人员显而易见的变型将包括在由权利要求所限定的公开内容内。

除非另外指明，否则本说明书和权利要求书中所用的表示组分的量、分子量等的所有数字在所有情况下均应理解为由术语“约”修饰。因此，除非有相反的说明，否则本说明书和权利要求书中列出的数值参数均为近似值，这些近似值可根据本公开寻求获得的期望性质而变化。至少，并非试图将等同原则限制在权利要求的范围之内，每个数值参数应至少根据所报告的有效数位的数目并通过应用惯常的四舍五入法来解释。

尽管阐述本公开的广义范围的数值范围和参数是近似值，但是在具体实施例中所列出的数值被尽可能精确地报告。然而，所有数值固有地包含一个范围，该范围必然是由存在于其相应测试测量中的标准偏差引起。

除非另外指明，否则所有标题都是为了方便读者，而不应用于限制该标题后面的文本的含义。

Claims

1.一种用于鉴定包含生物学特征的细胞亚群的方法，所述方法包括：

(a)提供单细胞测序文库，

其中所述测序文库包含多个经修饰的靶核酸，

其中所述经修饰的靶核酸包含至少一个索引序列；

(c)改变所述测序文库以获得子文库，

2.根据权利要求1所述的方法，其中所述单细胞测序文库包含来自多个样品的核酸。

3.根据权利要求2所述的方法，其中所述多个样品包括(i)从不同生物体获得的相同组织的样品、(ii)来自一种生物体的不同组织的样品或(iii)来自不同生物体的不同组织的样品。

4.根据权利要求1所述的方法，其中在步骤(b)中鉴定多于一种标记索引序列。

5.根据权利要求1所述的方法，其中所述单细胞组合测序文库包含代表所述细胞或细胞核的全基因组或所述基因组的子集的靶核酸。

6.根据权利要求5所述的方法，其中所述基因组的所述子集包含靶核酸，所述靶核酸代表所述细胞或细胞核的转录组、可及性染色质、DNA、构象状态或蛋白质。

7.根据权利要求1至6中任一项所述的方法，其中所述改变包括富集包含所述标记索引序列的所述经修饰的靶核酸。

8.根据权利要求7所述的方法，其中所述富集包括基于杂交的方法。

9.根据权利要求8所述的方法，其中所述基于杂交的方法包括杂交捕获、扩增或CRISPR(d)Cas9。

10.根据权利要求9所述的方法，其中所述改变包括耗尽不包含所述标记索引序列的所述经修饰的靶核酸。

11.根据权利要求10所述的方法，其中所述耗尽包括基于杂交的方法。

12.根据权利要求11所述的方法，其中所述基于杂交的方法包括杂交捕获、扩增或CRISPR(d)Cas9。

13.根据权利要求1所述的方法，其中所述生物学特征包括指示物种类型的核苷酸序列。

14.根据权利要求13所述的方法，其中所述物种类型包括所述细胞的物种。

15.根据权利要求14所述的方法，其中所述生物学特征包括16s亚基、18s亚基或ITS非转录区的核苷酸。

16.根据权利要求1所述的方法，其中所述生物学特征包括指示细胞类别的核苷酸序列。

17.根据权利要求16所述的方法，其中所述细胞类别包括表达模式、表观遗传模式、免疫基因重组或它们的组合。

18.根据权利要求17所述的方法，其中所述表观遗传模式包括甲基化标记、甲基化模式、可及性DNA或它们的组合。

19.根据权利要求1所述的方法，其中所述生物学特征包括指示疾病状态或风险的核苷酸序列。

20.根据权利要求19所述的方法，其中疾病状态或风险包括与疾病相关的变体DNA序列、变体表达模式或变体表观遗传模式。

21.根据权利要求20所述的方法，其中所述变体DNA序列包含至少一个单核苷酸多态性。

22.根据权利要求21所述的方法，其中所述变体表达模式包括生物标记的表达。

23.根据权利要求22所述的方法，其中所述变体表观遗传模式包括甲基化标记、甲基化模式。

24.根据权利要求1所述的方法，其中所述经修饰的靶核酸包含至少2个隔室特异性索引序列的连续索引，其中在所述2个索引序列之间存在不大于6个核苷酸。

25.根据权利要求24所述的方法，其中所述连续索引存在于所述经修饰的靶核酸的每一端处。

26.根据权利要求24或25所述的方法，其中所述连续索引的长度为至少55个核苷酸。

27.根据权利要求24至26中任一项所述的方法，其中所述连续索引的一个拷贝存在于所述经修饰的靶核酸上。

28.根据权利要求24至26中任一项所述的方法，其中所述连续索引的两个拷贝存在于所述经修饰的靶核酸上。

29.根据权利要求1所述的方法，其中所述测序文库的所述多个经修饰的靶核酸代表至少100,000个不同的细胞或细胞核。

30.根据权利要求1所述的方法，其中所述提供所述单细胞组合测序文库包括：

31.根据权利要求30所述的方法，其中所述生物体是哺乳动物。

32.根据权利要求30或31所述的方法，其中所述宏基因组学样品包括怀疑包含共生或病原微生物的组织。

33.根据权利要求32所述的方法，其中所述微生物是原核的或真核的。

34.根据权利要求30、31或33中任一项所述的方法，其中所述宏基因组学样品包括微生物组样品。

35.根据权利要求1所述的方法，其中所述提供所述单细胞组合测序文库包括：

处理样品以产生文库，其中所述样品来自生物体。

36.根据权利要求35所述的方法，其中所述生物体是哺乳动物。

37.根据权利要求35所述的方法，其中来自所述样品的核酸的主要来源包括RNA。

38.根据权利要求37所述的方法，其中所述RNA包括mRNA。

39.根据权利要求35所述的方法，其中来自所述样品的核酸的主要来源包括DNA。

40.根据权利要求39所述的方法，其中所述DNA包括全细胞基因组DNA。

41.根据权利要求40所述的方法，其中所述全细胞基因组DNA包含核小体。

42.根据权利要求35所述的方法，其中来自所述样品的核酸的主要来源包括无细胞DNA。

43.根据权利要求35所述的方法，其中所述样品包括癌细胞。

44.根据权利要求1所述的方法，其中所述提供所述单细胞组合测序文库包括用单细胞组合索引方法产生所述文库，所述单细胞组合索引方法选自单细胞核转录组测序、单细胞转录组测序、单细胞转录组和转座子可及性染色质测序、单细胞核的全基因组测序、单细胞核的转座子可及性染色质测序、单细胞表位测序、sci-HiC和sci-MET。

45.根据权利要求44所述的方法，其中所述提供包括从每个细胞或细胞核提供两个不同的单细胞组合测序文库。

46.根据权利要求45所述的方法，其中所述两个不同的单细胞组合测序文库选自单细胞组合索引方法，所述单细胞组合索引方法选自单细胞核转录组测序、单细胞转录组测序、单细胞转录组和转座子可及性染色质测序、单细胞核的全基因组测序、单细胞核的转座子可及性染色质测序、sci-HiC和sci-MET。

47.根据权利要求1所述的方法，所述方法还包括执行测序程序以确定所述核酸的所述核苷酸序列。

48.一种用于制备测序文库的方法，所述测序文库包含来自多个单细胞核或细胞的核酸，所述方法包括：

(d)将所述多个细胞核或细胞分配到第一多个隔室中，

其中每个隔室包含所述细胞核或细胞的子集；

49.根据权利要求48所述的方法，其中所述提供包括在多个隔室中提供所述多个细胞核或细胞，其中每个隔室包含所述细胞核或细胞的子集，其中所述接触包括使每个隔室与所述转座体复合物接触，并且其中所述方法还包括在所述接触之后将所述细胞核或细胞组合以生成合并的细胞核或细胞。

50.根据权利要求48所述的方法，其中所述提供包括使所述细胞核经受化学处理以生成耗尽核小体的细胞核，同时保持所述分离的细胞核的完整性。

51.根据权利要求48所述的方法，所述方法还包括：

其中每个隔室包含所述细胞核或细胞的子集；

52.根据权利要求51所述的方法，所述方法还包括：

其中每个隔室包含所述细胞核或细胞的子集；

53.根据权利要求48、51或52中任一项所述的方法，其中所述分配步骤包括稀释。

54.根据权利要求48、51或52中任一项所述的方法，其中所述隔室包括孔、微流体隔室或小滴。

55.根据权利要求48所述的方法，其中所述第一多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

56.根据权利要求51所述的方法，其中所述第二多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

57.根据权利要求52所述的方法，其中所述第三多个隔室中的隔室包含50至100,000,000个细胞核或细胞。

58.根据权利要求48所述的方法，其中所述接触包括使每个子集与两个转座体复合物接触，其中一个转座体复合物包含含有第一通用序列的第一转座酶，并且第二转座体复合物包含含有第二通用序列的第二转座酶，其中所述接触还包括适于将所述第一通用序列和所述第二通用序列掺入到DNA核酸中从而产生包含所述第一通用序列和所述第二通用序列的双链DNA核酸的条件。

59.根据权利要求48、49或50中任一项所述的方法，其中所述隔室特异性索引序列的所述添加包括如下的两步过程：将包含通用序列的核苷酸序列添加到所述核酸，然后将所述隔室特异性索引序列添加到所述核酸。

60.根据权利要求48所述的方法，所述方法还包括从所述合并的带索引细胞核或细胞获得所述带索引核酸，从而由所述多个细胞核或细胞产生测序文库。

61.根据权利要求49所述的方法，所述方法还包括从所述合并的带双索引细胞核或细胞获得所述带双索引核酸，从而由所述多个细胞核或细胞产生测序文库。

62.根据权利要求50所述的方法，所述方法还包括从所述合并的带三索引细胞核或细胞获得所述带三索引核酸，从而由所述多个细胞核或细胞产生测序文库。

63.根据权利要求60至62中任一项所述的方法，所述方法还包括：

提供包含多个扩增位点的表面，

64.一种制备核酸文库的方法，所述方法包括：

(c)将第一索引序列添加到每个单独隔室的所述核酸；

(d)组合所述单独隔室的所述细胞或细胞核；

(e)将所述细胞或细胞核分配到多个隔室中；以及

(f)将第二索引序列添加到所述多个隔室的所述核酸。

65.根据权利要求64所述的方法，其中通过连接、引物延伸、杂交、扩增或它们的组合来添加所述第一索引序列、所述第二索引序列或它们的组合。

66.根据权利要求64或65所述的方法，其中重复步骤(d)至€以将第三或更多个索引序列添加到所述多个隔室的所述细胞或细胞核。

67.根据权利要求64或65中任一项所述的方法，其中所述多个细胞核或细胞是固定的。

68.根据权利要求64或65中任一项所述的方法，所述方法还包括在步骤(c)或步骤(f)之后带索引核酸的扩增。

69.根据权利要求64或65中任一项所述的方法，所述方法还包括步骤(g)：组合所述多个隔室的所述核酸并确定所述核酸的序列。

70.根据权利要求64所述的方法，所述方法还包括执行测序程序以确定所述核酸的核苷酸序列。

71.一种对单个细胞或细胞核进行测序的方法，所述方法包括：

(d)对来自步骤(c)的所述富集文库进行测序。

72.根据权利要求71所述的方法，其中所述文库来源于所述细胞或细胞核的DNA、RNA或蛋白质。

73.根据权利要求71或72中任一项所述的方法，其中所述生物学特征为DNA、RNA或蛋白质或它们的组合。

74.根据权利要求71或72中任一项所述的方法，其中步骤(a)中的所述加唯一索引包括将至少两种不同的索引关联到所述细胞或细胞核的所述核酸。

75.根据权利要求74所述的方法，其中所述至少两种不同的索引为连续索引。

76.根据权利要求71或72中任一项所述的方法，其中所述富集文库通过正向富集生成。

77.根据权利要求76所述的方法，其中所述正向富集包括扩增。

78.根据权利要求76所述的方法，其中所述正向富集包含捕获剂。

79.根据权利要求76所述的方法，其中所述正向富集包含固体载体。

80.根据权利要求76所述的方法，其中所述富集文库通过负向富集生成。

81.根据权利要求71或72中任一项所述的方法，其中步骤(c)中的所述鉴定所述所关注的带索引文库包括对所述索引进行测序。

82.一种对单个细胞或细胞核进行测序的方法，所述方法包括：

(a)提供样品，其中所述样品包含多个细胞核或细胞；

(b)将第一索引关联到所述样品中每个细胞核或细胞上；

(c)将所述样品分成多个隔室；

(d)将第二索引关联到所述多个隔室的每个细胞核或细胞上；

(e)合并所述多个隔室；

(f)对所合并的隔室进行测序；

(g)鉴定与生物学特征相关联的第一索引和第二索引的组合；

83.一种试剂盒，所述试剂盒包含：

(c)用于与所述索引寡核苷酸配套使用的连接酶。

84.根据权利要求83所述的试剂盒，所述试剂盒还包含第二多个索引寡核苷酸，其中所述第二多个索引寡核苷酸包括具有与所述第一多个索引寡核苷酸不同的序列的寡核苷酸。

85.根据权利要求83所述的试剂盒，所述试剂盒还包含第三多个索引寡核苷酸，其中所述第三多个索引寡核苷酸包括具有与所述第一多个索引寡核苷酸和所述第二多个索引寡核苷酸不同的序列的寡核苷酸。