CN116635535A

CN116635535A - 单细胞dna和rna的同时扩增

Info

Publication number: CN116635535A
Application number: CN202180053540.4A
Authority: CN
Inventors: 吴若昊; 于雷
Original assignee: Hong Kong University of Science and Technology HKUST
Current assignee: Hong Kong University of Science and Technology HKUST
Priority date: 2020-10-19
Filing date: 2021-10-19
Publication date: 2023-08-22
Also published as: WO2022084742A8; WO2022084742A1; US20230366009A1

Abstract

本发明提供了一种从单细胞或细胞核同时鉴定多种目标生物分子类型的方法。该方法使用基于分子生物学的标记和扩增来自同一细胞的DNA和RNA，在单个容器反应中进行，生成可测序的扩增的核酸文库。细胞中任何DNA或RNA形式的核酸都可以使用相同的方法进行标记和共扩增，包括附着在其他生物分子上的DNA或RNA标签。

Description

单细胞DNA和RNA的同时扩增

相关申请的交叉引用

本申请要求于2020年10月19日提交的美国临时申请美国系列号为63/093,368的权益，该申请通过引用将其全部纳入本文，包括任何表格、图片或附图。

背景技术

单细胞基因组学已成为用于解剖由具有多种功能的细胞组成的多细胞生物和组织的主要技术^1-4。这种方法的能力已在下列几项细胞图谱的研究中得到了证实：发现了新的细胞类型，进一步阐明了新的机制；已经揭示了与疾病发生或进展相关的复杂细胞相互作用和转变；跨物种分析揭示了进化过程^5-7。单细胞技术在癌症研究中的应用尤为重要。耐药或免疫逃逸的潜在调控机制是难以捉摸且复杂的，肿瘤细胞异质性肿瘤是导致这种复杂性的主要因素，这使得用批量技术来分析这些机制尤其具有挑战性^8-10。单细胞技术极大地增强了我们对肿瘤异质性的理解，并且加速了机制的发现。在表型水平上，单细胞RNA-seq(scRNA-seq)已被用于揭示耐药黑色素瘤亚群，并表征成胶质细胞瘤中的癌干细胞亚群^7,11-14。scRNA-seq还使人们能够更全面地了解包括胶质瘤和结直肠癌在内的许多癌症中的肿瘤微环境(TME)的表型^15-19。在基因型水平上，基因组不稳定性促使癌症发生、发展、复发和转移⁸。通过单细胞全基因组测序(scWGS)，可以解析肿瘤的克隆结构，并且基于拷贝数畸变(CNAs)的进化分析可以揭示肿瘤进展^20,21。

显然，肿瘤的基因组和转录组异质性都导致了这种疾病，了解两者在癌症研究中的重要性至关重要。已经开发了几种在同一细胞中同时探询DNA和RNA的单细胞方法(scWGSRNAseq)^22-26。然而，这些第一代scWGS RNAseq方法自其发明以来尚未被广泛应用，主要是因为它们需要物理分离DNA和RNA，通常通过细胞核与细胞质的物理分离来实现，有时通过基于polyT珠的捕捞从细胞的其余部分物理分离聚腺苷酸化RNA。这些分离技术是劳动密集型的，技术要求高，耗时长，需要训练有素的实验技术人员，或者需要特殊的微流体装置。此外，它们不适用于冷冻样本，因为从冷冻样本中无法获得完整的单细胞悬液。因此，现有的scWGS RNAseq方法不能应用于绝大多数原始生物库肿瘤样本。总之，这些限制使得第一代scWGS RNAseq方法不易于应用。

因此，仍然需要对来自单细胞的DNA编码和RNA编码的信息进行共谱分析的方法。

发明内容

本发明涉及一种新的单细胞DNA和RNA共扩增方法scONE-seq，其能够在一个容器反应中对来自同一单细胞或细胞核的转录组和基因组进行共谱分析。在某些实施方案中，本发明涉及一种条形码策略，该策略在单细胞DNA/RNA扩增过程中向每种类型的核酸引入6个碱基长的DNA特异性条形码和RNA特异性条形码，同时还包括独特的分子标识符(UMI)^27-29。因此，DNA和RNA读长可以通过共享引物区域一起扩增，但随后在测序后，通过它们各自的特异性条形码信息在计算机上(in-silico)进行区分。与第一代scWGSRNAseq方法相比，scONE-seq具有几个优点：它具有简化的文库构建工作流程；它与标准生物学工作流程兼容，例如荧光活化细胞分选(FACS)；作为一锅(即，一个容器或一个管)反应，可以使用液体处理机器人轻松地扩大其产量；最重要的是，scONE-seq不需要物理分离DNA和RNA，因此适用于包括单细胞核在内的多种样本类型。在某些实施方案中，难以分离成单细胞悬液的冷冻临床样本和细胞类型(其对于scDR seq方法是难以处理的)可以使用scONE-seq进行分析。

该方法是一种DNA/RNA条形码策略，在单细胞DNA/RNA共扩增之前，分别用不同的核酸条形码给DNA和RNA加标签。还可以添加扩增接头，其用于使用同一引物组共同扩增DNA和逆转录cDNA，生成测序文库。测序后，DNA和RNA读长可以通过条形码的解复用进行计算区分。

本发明的方法可用于任何类型的细胞。本发明的方法可应用于单细胞的全基因组和总转录组的共谱分析。这些方法对于研究癌症等疾病特别有用，在这些疾病中，基因组和转录组反映了疾病进展的不同方面。这些方法也可用于研究细胞内的病毒活性，因为受感染的细胞除了含有内源性基因组和转录组外，还含有病毒DNA和RNA。本方法可进一步用于鉴定细菌及其与噬菌体的相互作用。在某些实施方案中，还可以使用本主题的方法来筛选药物并发现新的药物或药物功能。在某些实施方案中，所述方法可以与微流体装置一起使用。

附图说明

专利或申请文件包含至少一幅彩色绘图。本专利或专利申请出版物的副本，连同彩色图纸，将由专利局在收到要求并支付必要费用后提供。

图1A-1K。scONE-seq概述：原理图和基准。图1A，scONE-seq的流程。通过添加分别带有定制接头和RT引物的Tn5添加DNA和RNA条形码。Read2 Illumina测序引物包含在该预扩增过程中。Read1-Illumina测序引物在随后的文库构建步骤中添加第二Tn5标签化的定制接头。图1B，scONE-seq(n＝86，HCT116细胞)和Smart-seq2(n＝94，HCT16细胞)的基因检测灵敏度，下采样至相似的测序深度(20万个比对读长)(P＜2x10^-16，t检验)。图中显示了超过1个计数检测到的基因数量。图1C，scONE-seq(n＝86)和Smart-seq2(n＝94)的基因体覆盖度。细胞-细胞变化以误差区域显示。图1D-1G，scONE-seq(RNA对照，DNA+RNA组)和Smart-seq2的模拟样本的准确度。皮尔逊相关性由对数转换TPM值计算得出。图1H，批量和scONE-seq单细胞数据的洛伦兹曲线。所覆盖基因组的百分位数是相对于累计读长分数的对比图。完美的覆盖度均匀性得到斜率为1的直线。图1I-K，在基因组上具有归一化计数的点图和对应估计的整数拷贝数的实线图。扩增区域用红色突出显示；缺失区域用浅蓝色突出显示。来自批量HCT116全基因组测序(图1I)、HCT116 scONE-seq伪批量数据(图1F＝J，n＝86)和单细胞HCT116 scONE-seq数据(图1K)的数据。

图2A-2H。scONE-seq细胞类型分类和CNAs克隆鉴定。图2A，scONE-seq细胞系RNA数据的UMAP，来自同一细胞系的细胞聚类在一起；图2B，差异表达基因(DEG)热图；DEG根据细胞类型分离细胞；这些细胞系的共同标志物在热图中被标记；图2C和2E：scONE-seq(图2C)和Smart-seq2(图2E)的淋巴细胞RNA数据的UMAP；细胞类型注释基于免疫细胞的已知标志物。细胞类型组成显示两个数据集之间没有差异(P＝0.5109，卡方检验)。图2D和2F：用于scONE seq数据集(图2D)和Smart-seq2数据集(图2F)的细胞类型注释的标志物点图。图2G，用scONE-seq细胞系DNA数据集计算的拷贝数分布；细胞通过层次聚类来组织(正常n＝27；HCT116 n＝48；NPC43 n＝108)。图2H，以二倍体为根的最小进化树；与建立细胞系时的基因组状态相比，本研究中使用的NPC43细胞获得了更多的CNA。单位表示曼哈顿距离。

图3A-3G scONE-seq揭示了IDH1突变星形细胞瘤的克隆组成。图3A：显示本研究中使用的样本的患者病史的示意图。患者被诊断为IDH1突变型(IV级)星形细胞瘤。进行外科手术以切除肿瘤，然后进行同步放化疗(CCRT)。在没有进一步药物治疗的情况下切除复发的肿瘤。肿瘤样本在液氮罐中快速冷冻并储存两年，然后进行细胞核提取。图3B：scONE-seqDNA拷贝数数据的UMAP显示了该IDH1突变星形细胞瘤样本中的4种基因组状态。2R–第二次复发。图3C：描绘的所有2R星形细胞瘤细胞的整数拷贝数的热图；观察到3个具有不同拷贝数分布的克隆。底部注释栏表示此肿瘤样本中的CNA。显示了一些常见的胶质瘤/星形细胞瘤驱动基因。扩增的基因用红色突出显示；缺失的基因用深蓝色突出显示。图3D：以二倍体为根的最小进化树；整合从同一患者推断出的CNV的WES数据，以显示肿瘤复发与其不同克隆之间的进化关系。从批量WES数据推断出P个克隆(见方法)。P—原发；1R–第一次复发。图3E-3G：图3E显示了跨越人类基因组的具有归一化计数值的点图，实线表示估计的整数拷贝数。图3G显示了跨越基因组的镜像BAF点图。相对扩增的区域用红色突出显示；相对缺失的区域用蓝色突出显示。如果点靠近镜像BAF点图中的红色带，则表明这些区域中存在LOH。如果点靠近镜像BAF点图中的蓝色带，这表明该区域存在不平衡的单倍型。顶栏突出显示基因组的LOH区域。还显示了每个2R克隆的克隆伪体(pseudo-bulk)基因组信息。

图4A-4E。scONE-seq揭示了IDH1突变星形细胞瘤的肿瘤微环境组成。图4A，scONE-seq RNA数据的UMAP显示了该第二次复发IDH1突变星形细胞瘤样本中的TME组成细胞类型。肿瘤细胞根据其元模块得分分为4种细胞状态。图4B，点图显示了用于细胞类型注释的一些标志物。图4C，带有克隆信息注释的scONE-seq RNA数据的UMAP。2R克隆1细胞与正常星形胶质细胞聚类。图4D，Volcano图显示了2R克隆1和克隆3细胞之间的DEG。克隆1细胞中高表达的基因用红色表示。克隆3中高表达的基因用蓝色表示。图4E，UMAP显示了scONE-seq和10xsnRNA seq数据集的整合。整合数据(左)保留了用scONE-seq或10x snRNA seq鉴定的所有细胞类型。分裂的UMAP(右)显示了两种方法分别发现的细胞类型的充分混合，克隆1细胞(来自scONE-seq)和推定克隆1细胞(来自snRNA seq)属于同一整合簇。

图5A-5I。2R克隆1特征的表征。图5A，免疫荧光图像共同标记患者FFPE切片中的IDH1(R132H)和ADCY8。上图显示了2R肿瘤的图像；底图显示来自同一患者的原发肿瘤的图像。黄色箭头表示共染色的推定克隆1细胞；红色箭头表示其他肿瘤细胞；绿色箭头表示正常的星形胶质细胞或γ-氨基丁酸能(GABAergic)神经元。图5B-5E，该2R IDH1突变星形细胞瘤中编码AMPAR亚基的基因表达模式。GRIA1在克隆1细胞中高度表达。图5F-5I，该2R IDH1突变星形细胞瘤中TGFβ信号基因的表达模式。TGFB2在克隆1细胞和正常星形胶质细胞中高度表达。这些受体主要在TAMs中表达。

图6A-6G。scONEseq基准测试。图6A：来自代表性正常染色体区域中的DR seq(SK-BR-3细胞)、G&T-seq(小鼠胚胎8细胞期细胞)和scONE-seq(冷冻肿瘤细胞核)的单细胞scWGS数据的洛伦兹曲线(DR seq和scONE-seq：人chr2；G&T-seq：选择与人chr2长度相当的小鼠chr1和chr19)。所覆盖基因组的百分位数是与累计读长分数的对比图。完美的覆盖度均匀性获得斜率为1的直线。使用±SD绘制每种方法的变化。scONE-seq最接近批量对照，表明拷贝数计算的一致性更好。图6B，来自DR seq(SK-BR-3细胞)、G&T-seq(小鼠胚胎8细胞期细胞)和scONE-seq(冷冻肿瘤细胞核)的单细胞scWGS数据分散在代表性正常染色体区域中的比较(DR seq和scONE-seq：人chr2；G&T-seq：选择与人chr2长度相当的小鼠chr1和chr19)。方框图显示了scONE-seq相对于其他两种方法的显著技术改进，尽管在这一比较中，scONE-seq的平均DNA测序深度较低。图6C，散点图显示了检测到的ERCC尖峰数量与每个ERCC分子的原始输入浓度之间的相关性，比较了Smart-seq2(1μl 1:500,000ERCC，n＝3)、scONE-seq(1μl 1:500,000ERCC，n＝3)、DR seq(0.2μl1:500,000ERCC，n＝21)和G&T seq(2μl 1:500,000ERCC，n＝32)。在比较的方法中，只有scONE-seq显示出与Smart-seq2(一种仅RNA的扩增方法)相当的灵敏度和准确度。图6D，模拟scONE-seq RNA(n＝3)、模拟scONE-seqDNA+RNA(n＝3)和Smart-seq2(n＝3)的基因检测灵敏度。下采样至相似的测序深度(15万个比对读长)(P＝0.0019，ANOVA检验)。图中显示了超过1个计数检测到的基因数量。图6E，HCT116细胞的精度评估。最常用表达的8000个基因分别用于scONE-seq(n＝86)和Smart-seq2(n＝94)。方框图显示了具有皮尔逊相关性的细胞的成对确定系数(R²)值，来自对数转换的TPM值。图6F，具有来自scONE-seq RNA、scONE-seq DNA+RNA和Smart-seq2的模拟样本表达数据的估计饱和图。图6G，具有来自scONE-seq RNA、scONE-seqDNA+RNA和Smart-seq2的模拟样本表达数据的估计饱和图。

图7A-7AA。细胞类型批注中使用的标志物。图7A是4个细胞系的共同标志物的点图。图7B-7M，散点图，显示了在具有scONE-seq数据集(顶部)和Smart-seq2数据集(底部)的细胞类型注释中使用的重要标志物。图7N-7S，散点图，显示了在具有scONE-seq数据集(顶部)和Smart-seq2数据集(底部)的细胞类型注释中使用的重要标志物。图7T-7W，scONE-seq捕获的T_reg细胞(FOXP3+、CCR4+)。图7X-7AA，用scONE-seq数据捕获非polyA基因如PZP和SESN3。

图8A-8E。3个NPC43克隆的拷贝数分布。点图显示了人类基因组的归一化计数值，实线图显示了相应的估计整数拷贝数。扩增区域用红色突出显示；缺失区域用浅蓝色突出显示。来自NPC43细胞系建立状态的数据(WGS数据，图8A)、NPC43 C1克隆伪批量数据(图8B，n＝20)、NPC43 C2克隆伪批量数据(图8C，n＝19)和NPC43 C3克隆伪批量的数据(图8D，n＝69)。图8E，用转录组数据将克隆信息注释到UMAP；在这种情况下，拷贝数变化不会显著影响基因表达分布。

图9。临床组织学显微照片。IDH1突变型星形细胞瘤的原发肿瘤、第1次复发和第2次复发的代表性H&E(第一行，200X)和免疫组化染色(2至4行，400X)。原发性和复发性肿瘤表现出相似的组织学特征，表现为多形性深染星形细胞，具有快速有丝分裂(箭头)(H&E)、内皮细胞增殖(箭头的三角部)和坏死(星号)(H&E，第2次复发)。肿瘤显示IDH1-R132H胞浆阳性(第二行)、ATRX表达缺失(第三行)和p53核阳性(第四行)。

图10A-10H。2R IDH1突变型星形细胞瘤的基因组信息。图10A是示出来自2R IDH1突变星形细胞瘤的scONE-seq谱的DNA数据的归一化计数值的热图。4种基因组状态，正常细胞(n＝586)、2R克隆1(n＝17)、2R克隆2(n＝20)、2R克隆3(n＝432)，显示了不同细胞中的CNA。图10B，FACS分选图显示了来自冷冻肿瘤样本的细胞核的DAPI强度密度。大多数细胞是二倍体。加倍或甚至更高的DAPI强度表明非整倍体细胞具有推测的基因组重复。图10C是示出从scONE-seq DNA数据估算的BAF的热图。4种基因组状态，正常细胞(n＝586)、2R克隆1(n＝17)、2R克隆2(n＝20)、2R克隆3(n＝432)，显示了不同细胞中的BAF。图10D是示出从scONE-seq DNA数据估算的镜像BAF的热图。4种基因组状态，正常细胞(n＝586)、2R克隆1(n＝17)、2R克隆2(n＝20)、2R克隆3(n＝432)，显示了不同细胞中的LOH。图10E是显示来自WES和scONE-seq克隆伪批量的CNA的热图。2R克隆1和WES推断的P克隆1均具有染色体4q缺失。图10F-10H，显示3个克隆中的染色体9基因组状态的点图。CDKN2A纯合子缺失发生在2R克隆2和克隆3中。

图11A-11F。2R克隆1细胞的特征。图11A，散点图显示了在scONE-seq RNA数据集中区分2R克隆1细胞的4个关键标志物的表达模式。XIST(克隆3中的缺失)、RFX3(克隆3中的纯合缺失)、ADCY8和GRIA1(克隆1中与正常星形胶质细胞相比的独特表达)。图11B，10XGenomics snRNA-seq的UMAP数据验证了使用scONE-seq发现的细胞类型组成。图11C，10XGenomics snRNA-seq的点图显示了用于注释细胞类型的标志物。图11D，散点图显示了在10X Genomics snRNA-seq数据集中区分2R克隆1细胞的4个关键标志物的表达模式。XIST(克隆3中的缺失)、RFX3(克隆3中的纯合缺失)、ADCY8和GRIA1(克隆1中与正常星形胶质细胞相比的独特表达)。图11E-11F，Violin图显示了选择用于免疫染色验证的标记物IDH1和ADCY8的表达模式。

图12A-12D。肿瘤微环境中2R克隆1分布和基因表达的分析。图12A是显示FFPE切片(原发肿瘤和2R肿瘤)中IDH1(R132H)和ADCY8阳性细胞的空间分布的肿瘤切片荧光图像。具有强ADCY8信号的区域用绿线圈出。这些区域似乎是“正常相邻”组织(低IDH1(R132H)信号用黄色箭头表示)。图12B是显示星形胶质细胞基因APOE和AMPAR亚基GRIA1在许多2R克隆1细胞中共表达的表达模式的散点图。图12C-12D，热图显示了不同分泌途径中细胞类型之间的潜在通信强度。每一行表示一种分泌途径。左图显示了发出某些途径配体的潜力；右热图显示了接收具有受体表达的某些通路信号的潜力。2R克隆1细胞被预测为TGFβ配体来源的重要来源。

图13A-13G使用本发明方法在携带Epstein-Barr病毒的鼻咽癌细胞(NPC)系上产生的数据。与一些内源性异质人类基因的表达相比，使用本发明方法产生的RNA部分显示了不同NPC中病毒RNA的异质表达(图13A：EBV、图13B：EBER2、图13C：BWRF1、图13D；MMP1、图13E：KRT13、图13F：CD24)。图13G：每个单细胞中EBV基因组丰度和EBV mRNA丰度之间的相关性；两者之间的一般相关性很强，但一些细胞显示出高病毒mRNA含量，而基因组含量低，反之亦然，这表明本方法在研究宿主细胞内病毒活性的背景下探测细胞异质性的适用性。

序列的简要描述

SEQ ID NO:1：RNA序列的示例性接头

SEQ ID NO:2：示例性扩增引物

SEQ ID NO:3：退火序列

SEQ ID NO:4：One-Tn5 DNA序列的示例性接头

SEQ ID NO:5：RNA序列的示例性接头

SEQ ID NO:6：RNA序列的示例性接头

SEQ ID NO:7：示例性扩增引物

SEQ ID NO:8：镶嵌序列

SEQ ID NO:9：Read1-Tn5序列/Read 1引物

SEQ ID NO:10：I7 Index引物

SEQ ID NO:11：I5 Index引物

SEQ ID NO:12：Read 2引物

具体实施方式

如本文所使用的，除非上下文另有明确说明，否则单数形式“一个(a)”，“一种(an)”和“该(the)”旨在包括复数形式以及单数形式。此外，如果在详细描述和/或权利要求中使用了术语“包括(include、includes)”、“具有(have、has)”、“有(with)”或其变体，则这些术语旨在以类似于术语“包含(comprising)”的方式包含。过渡词/短语(及其任何语法变体)“包括(comprising、comprises、comprise)”包括短语“基本由…组成(consistingessentially of、consists essentially of)”和“由组成(consisting consists)”

短语“基本由…组成(consisting essentially of、consists essentially of)”表示权利要求包括包含特定材料或步骤的实施方案，以及不实质上影响权利要求的基本和新颖特征的实施方案。

术语“约”是指在本领域普通技术人员确定的特定值的可接受误差范围内，这将部分取决于如何测量或确定该值，即测量系统的限制。在本申请和权利要求中描述了特定值的情况下，除非另有说明，否则应假定术语“关于”的含义在特定值的可接受误差范围内。

在本公开中，范围以简写方式表示，以避免必须详细阐述并描述范围内的每个值。在适当的情况下，可以选择范围内的任何适当值作为范围的上限值、下限值或终点。例如，1-10的范围表示1和10的终端值，以及2、3、4、5、6、7、8、9的中间值，以及1-10内包含的所有中间范围，例如2-5、2-8和7-10。此外，当在本文中使用范围时，范围的组合和子组合(例如，所公开范围内的子范围)以及其中的特定实施方案意图被明确地包括。

术语“标记”、“可检测标记”、“可检测部分”和类似术语是指通过光谱、光化学、生化、免疫化学、化学或其他物理手段可检测的组合物。例如，有用的标记包括荧光染料(荧光团)、发光剂、电子密集试剂、酶(例如，如在ELISA中常用的)、生物素、作用于底物的酶(例如辣根过氧化物酶)、地高辛、³²P和其他同位素、半抗原和蛋白，该蛋白例如通过将放射性标记结合到肽中或用于检测与肽特异性反应的抗体而可被检测。该术语包括单个标记试剂的组合，例如提供独特的可检测特征的荧光团的组合，如条形码。条形码是在序列分析期间用于区分不同样本的约4至约10个核苷酸或约5至约8个核苷酸的序列。

如本文所用，术语“阳性”在涉及结果或信号时，表示存在样本中检测到的分析物或项目。术语“阴性”在涉及结果或信号时，表示样本中没有检测到分析物或项目。阳性和阴性通常通过与至少一个对照(例如，确定样本阳性所需的阈值水平)或阴性对照(例如已知空白)进行比较来确定。“对照”样本或值是指用作参考的样本，通常是已知的参考，用于与测试样本进行比较。例如，可以从测试条件(例如，在测试化合物的存在下)中提取测试样本，并将其与来自已知条件的样本(例如，在不存在测试化合物的情况下(阴性对照)，或在已知化合物的存在下(阳性对照))进行比较。对照还可以表示从多个测试或结果中收集的平均值。本领域技术人员将认识到，对照可以被设计用于评估任意数量的参数，并且将理解哪些对照在给定情况下是有价值的，并且能够基于与对照值的比较来分析数据。对照对于确定数据的重要性也很有价值。例如，如果给定参数的值在对照中是可变的，则测试样本的变化不会被视为显著。

如本文所用，“校准对照”与阳性对照相似，因为它包含已知量的已知分析物。在PCR测定的情况下，校准对照可设计为包括已知量的多种已知分析物。校准对照中的分析物的量可以设置为最小截止量，例如，这样分析物的量较高时将被视为“阳性”，而分析物的量较低时将被认为“阴性”。在一些情况下，可以使用多级校准对照，以便可以更准确地确定分析物量的范围。例如，测定可包括已知低量和高量，或已知最小量、中间量和最大量的校准对照。

如本文所用，除非另有说明，否则“受试者”、“患者”、“个体”及其语法等同物可互换使用，并指哺乳动物，如人类和非人灵长类动物，以及兔子、猫科动物、犬科动物、大鼠、小鼠、松鼠、山羊、猪、鹿和其他哺乳动物物种。该术语不一定表示受试者被诊断患有某种特定疾病，但通常指在医学或兽医监督下的个体。患者可以是寻求治疗、监测、调整或修改现有治疗方案等的个体。

术语“生物样本”或“来自受试者的样本”包括从生物体中获得的各种样本类型。该术语包括体液，如血液、血液成分、唾液、鼻粘膜、血清、血浆、脑脊液(CSF)、尿液和其他生物来源的液体样本、固体组织活检、肿瘤、组织培养物或从培养的患者细胞中提取的上清液。在本公开的上下文中，生物样本通常是具有可检测量的核酸的细胞或细胞核样本。生物样本可在测定前处理，例如裂解细胞。该术语包括在采购后被操作处理的样本，例如通过试剂处理、溶解、沉淀或某些组分的富集。

如本文所用，术语“核酸”或“多核苷酸”是指脱氧核糖核酸(DNA)或核糖核酸(RNA)及其单链或双链形式的聚合物。除非特别限制，否则该术语包括含有已知天然核苷酸类似物的核酸，其具有与参考核酸相似的结合性质，并且以类似于天然核苷酸的方式代谢。除非另有说明，否则特定的核酸序列还隐含地包含其保守修饰的变体(例如，简并密码子置换)、等位基因、直系同源物、单核苷酸多态性(SNP)和互补序列以及明确指示的序列。具体而言，简并密码子置换可以通过产生这样的序列来实现，其中一个或多个选定(或所有)密码子的第三个位置被混合碱基和/或脱氧核苷残基置换(Batzer et al.,Nucleic Acid Res.19:5081(1991)；Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985)；和Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。术语核酸可与基因、基因编码的cDNA和mRNA互换使用。

如本文所用，术语“基因”是指参与产生多肽链的DNA片段；它包括参与基因产物转录/翻译和转录/翻译调控的编码区(前导和拖尾)之前和之后的区域，以及单个编码片段(外显子)之间的插入序列(内含子)。

如本文所用，在描述两个或多个多核苷酸或氨基酸序列的背景下，术语“相同”或百分比“同一性”，指当在比较窗口、或使用以下序列比较算法之一或通过手动比对和目视检查而测量的指定区域上进行最大对应比较和比对时，两个或多个相同或具有指定百分比的氨基酸残基或相同核苷酸的序列或子序列(例如，本发明方法中使用的核苷酸探针与目标序列或其互补序列具有至少70％的序列同一性，优选80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的同一性)。这样的序列就被称为“基本相同”。关于多核苷酸序列，该定义还指测试序列的互补序列。

如本文所用，术语“多路复用”是指将多个样本或多种类型的生物分子汇集在一起用于信号读出和处理的过程，例如，将来自多个单细胞的序列混合到一个池中以进行序列扩增或一起测序；或者，在另一个实例中，产生源自基因组DNA和RNA的序列的混合物，用于一起扩增或测序。

如本文所使用的，术语“解复用”是指将来自多个样本源的信号/读长转换为单独的信号/读长的过程，其可以在进行多路复用实验之后执行，以从汇集/多路复用读长中恢复样本特定信息。例如，将包含来自多个单细胞的序列的测序信息转换为源自每个原始单细胞的序列，这可能基于这些序列上鉴定其起源细胞的条形码/接头/索引标签。在另一个实例中，将来自单细胞的DNA和RNA的共扩增的序列信息转换为来自该细胞的与该细胞的源自RNA的序列不同的DNA的序列，这可能基于这些序列上鉴定其起源生物分子类型的条形码/接头/索引标签。

如本文所用，术语“接头”是指核酸组分，通常是DNA，其提供了寻址其随后连接的核酸片段的手段。例如，在某些实施方案中，接头包含允许鉴定、识别和/或分子或生物化学操作接头所连接的DNA的核苷酸序列(例如，通过提供用于退火寡核苷酸的位点，例如用于DNA聚合酶延伸的引物，或用于捕获或连接反应的寡核苷酸)。接头可以是或包括这样的区域，该区域是用于鉴定每个核酸起源的样本源(例如细胞或组织)的索引/条形码序列，以允许来自不同样本源的分子多路复用以进行高通量扩增和/或测序。可替代地或另外，可以使用索引/条形码序列来区分来自DNA的那些核酸和来自RNA的核酸(例如cDNA)，以允许汇集来自同一样本的DNA和RNA以用于高通量扩增和/或测序。例如，“DNA特异性条形码”可用于鉴定源自基因组DNA分子的序列，“RNA特异性条形码”可用于鉴定源自RNA分子的序列。例如，可以通过各种酶促方法将接头添加到核酸中，包括但不限于逆转录、连接、标签化、PCR或其任何组合。

接头和引物的设计和检测

在某些实施方案中，本发明提供了一种分离的合成核酸接头，其中接头可以被转座酶识别。转座酶可以与特定的DNA序列或接头复合，特定的DNA序列或接头可以与转座酶形成稳定的复合物，从而使转座酶具有活性。接头可以包括自然界中发现的转座酶识别序列，或者接头也可以是修饰的天然序列。

在某些实施方案中，接头可以包括一个或多个双链DNA(dsDNA)或单链DNA(ssDNA)序列。可以包括这些序列以允许将产生的DNA片段附着到测序芯片(例如Illumina芯片)上，并允许鉴定靶DNA和RNA的来源。接头可以设计用于其他类型的测序，包括例如Ion Torrent和DNBSEQ。接头可以包含以下至少一种：扩增引物序列、DNA特异性或RNA特异性条形码、Seq-1引物、退火序列和镶嵌序列。在某些实施方案中，DNA特异性条形码和RNA特异性条形码可用于区分单个样本中的DNA序列和RNA序列。在某些实施方案中，接头可以包含以下示例性序列：GTCTCGTGGGCTCGG ATCGT NNNNNTTTTTTTTTTTTTTTTTTTT VN(SEQ ID NO:1)。在某些实施方案中，可以将多个接头(每个接头具有不同的序列)添加到反应混合物中。在优选的实施方案中，具有SEQ ID NO:1的接头可以与其他接头一起添加到反应混合物中，以例如从样本中捕获非聚腺苷酸化RNA，并且这种接头可以包含以下两类示例性序列：GTCTCGTGGGCTCGGATCGT NNNNN GGG HN(SEQ ID NO:5)和GTCTCGTGGGCTCGGATCGT NNNNNTTT VN(SEQ ID NO:6)。在某些实施方案中，接头中的示例性扩增引物是GTCTCGTGGGCTCGG(SEQ ID NO:2)或GATGTGTGGAGGTCTCGTGGGCTCGG(SEQ ID NO:7)，其与Illumina测序引物Seq-1互补。在优选的实施方案中，PCR引物序列是在多个接头之间共享的接头序列内的序列，其允许同时扩增源自样本的核苷酸序列，包括例如DNA和RNA序列这两者。在某些实施方案中，接头中的示例性RNA条形码是ATCGT。在某些实施方案中，接头中的示例性DNA条形码是TCATG。在某些实施方案中，接头中的UMI可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸的任何序列，优选长度为5个核苷酸(即NNNNN)，并且可以用于给每个DNA和RNA分子加上独特的标签。在某些实施方案中，接头中的示例性退火序列：TTTTTTTTTTTTTTTTTTTTVN(SEQ ID NO:3)。在某些实施方案中，Tn5转座酶可以识别特定序列以形成复合物。镶嵌序列可以是Tn5的识别序列，例如示例性序列：[phos]CTGTCTCTTATACACATCT(SEQ ID NO:8)。Illumina平台可以设计序列(Read 1测序引物)来执行测序。Read 1测序引物可以包括两部分，镶嵌序列和Seq-1序列。在某些实施方案中，可以使用一个或多个接头用DNA识别条形码给DNA加标签。另外，用于给DNA加标签的一个或多个接头可用于在初始标签步骤期间与Tn5组装。在某些实施方案中，接头具有序列：GTCTCGTGGGCTCGG TCATG NNNNNAGATGTGTATAAGAGACAG(One-Tn5)(SEQ ID NO:4)。在优选的实施方案中，DNA和RNA的共扩增是通过使用带标签的DNA和RNA分子之间共享的通用引物进行PCR来实现的。

在某些实施方案中，可以将与用于给DNA加标签的Tn5接头互补且还包含Read1测序引物区域的接头添加到通过扩增标记的DNA和RNA分子产生的cDNA和gDNA文库中。在第二个Tn5文库构建步骤中，可以将该接头与第二轮Tn5组装在一起。镶嵌序列可以共享于两个Tn5步骤。在某些实施方案中，接头的序列可以是TCGTCGGCAGCGTC AGATGTGTATAAGAGACAG(Read1-Tn5)(SEQ ID NO:9)。

在某些实施方案中，本发明提供的一个或多个接头包含扩增至少200bp、约200bp至约6000bp、约200bp至约4000bp、约200bp至约3000bp、约200bp至约2000bp、约200bp至约1000bp、约200bp至约750bp、约200bp至约500bp、约200bp至约1000bp、约200bp至约500bp、或约300至约500bp的核酸区域(或扩增子)的引物序列。可以根据已知的算法或由熟练的技术人员设计用于扩增反应的引物。例如，可以使用在市售或定制软件中实现的算法来设计引物，以基于所述引物对靶区域的互补性和严格度来扩增靶序列。严格度是指选择杂交条件以优化具有不同互补程度的多核苷酸序列的结合。严格度受温度、盐条件、杂交混合物中有机溶剂的存在、待杂交序列的长度和碱基组成以及碱基错配程度等因素的影响，参数的组合比任何一个因素的绝对测量都更重要。

通常，引物序列可以是至少12个碱基，更常见的是长度约为15、约18、约20、约21、约22、约23、约24、约25、约26、约27、约28、约29、约30或更多碱基对。在优选的实施方案中，引物序列的长度约为26个碱基对。引物通常被设计为使参与特定反应的所有引物的熔解温度在5℃以内，并且最优选彼此之间的熔解温度在2℃以内。对引物进行进一步设计以避免引发自身或彼此的扩增反应。引物和/或接头浓度应足以结合扩增的靶序列的量，以便准确评估扩增序列的数量。本领域技术人员将认识到引物和/或接头的浓度量将根据引物的结合亲和力以及要结合的序列的量而变化。

在某些实施方案中，可以设计接头以与核酸序列或其部分杂交。在某些实施方案中，引物的互补核苷酸片段为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40、50或100个碱基对长或更长。在优选的实施方案中，接头的互补核苷酸片段为约15至约60个碱基对，优选约16至约50个碱基对，更优选约17至约40个碱基对，更优选约17至约35个碱基对，更优选约18至约25个碱基对。在某些实施方案中，引物可以与靶序列100％互补或至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列互补。在某些实施方案中，引物的序列还可以具有由例如R、Y、S、W、K、M、B、D、H、V、N或缺口(“-”或“.”)核苷酸的IUPAC表示的多个可能的替代核苷酸。在某些实施方案中，可以设计接头以连接核酸序列或其部分。

DNA和RNA的共扩增方法

本发明提供了用于对来自单细胞的DNA编码和RNA编码信息进行共谱分析(co-profiling)的方法。该方法可以使用一系列优先作用于DNA和RNA的分子生物学反应，以在单细胞DNA/RNA共扩增之前分别用不同的核酸条形码给DNA和RNA加标签。

为了实现单细胞基因组和转录组平行测序，我们设计了一种在反应中与DNA共扩增RNA的方法(图1A)。在该方法的特定实施中，可以对所提供的样本任选地进行细胞裂解和/或核酸提取。在某些实施方案中，含有核酸的样本可以进行基于Tn5转座子的DNA片段化和条形码标记，从而获得片段化的DNA(fDNA)。在可选的实施方案中，可以使用其他转座酶，例如muA或Tn7。在优选的实施方案中，片段化可以与使用单一酶(例如Tn5转座酶)的条形码标记同时发生。在可选的实施方案中，DNA片段化可以首先发生，然后进行条形码标记。在某些实施方案中，随后的逆转录可以将RNA转化为cDNA，并用与DNA不同的条形码标记cDNA。每个核酸分子也可以用独特的分子标识符(UMI)标记，该分子随后可用于区分每个扩增子以进行重复数据消除，以提高数据质量。在某些实施方案中，3'拖尾策略可用于将cDNA片段转化为扩增就绪的格式。在某些实施方案中，可以同时扩增fDNA和cDNA。

在某些实施方案中，在共扩增之后，PCR扩增的fDNA和cDNA可以是短的以用于测序，或者片段可以直接用于测序。这些片段的长度可以为约2000至约6000个碱基对的长度(FDNA)和约200至约2000个碱基对的长度(cDNA)。在某些实施方案中，下一代测序(NGS)与其他类型的测序相比，需要更短的核苷酸长度。因此，为了使序列长度适当以用于在平台中(例如Illumina平台)进行短读测序，可以使用第二Tn5标签化将共扩增的fDNA和cDNA片段化。该第二标签化可以插入接头，所述接头包含测序引物，例如Read1引物(SEQ IDNO:9)(特定于Illumina)，以便最终产物可以是约400至约800个碱基对的长度且包含测序引物(例如，Read1(SEQ ID NO:9)和Read2(SEQ ID NO:12))的dsDNA片段。在某些实施方案中，在此步骤之后，可以在更多PCR步骤中添加更多特异性测序引物。

在某些实施方案中，DNA条形码接头和RNA条形码接头中包括“样本索引”序列，其中同一样本对DNA和RNA分子具有相同的样本索引。这允许将来自多个不同单细胞的共扩增文库汇集并以多路复用方式同时测序。任何高通量测序方法都可以用于本发明的实践中。DNA测序方法包括但不限于：以各种形式使用标记终止子(Sanger方法)的双脱氧测序反应、合成测序、焦磷酸测序、聚合步骤中标记核苷酸掺入的实时监测、高通量单分子测序。

对共扩增文库进行测序后，可以使用数据处理从DNA/RNA中过滤和分离读长。在某些实施方案中，测序的读长文库可以与已知的“DNA条形码”和“RNA条形码”对齐，以确定任何给定读长是来自DNA还是RNA，从而将两者分开。在某些实施方案中，“fastp”、“seqkit”和/或“seqtk”程序可用于执行分离。从RNA中分离DNA后，可以使用Cutadapt、FASTX工具包等程序修剪/删除已知的接头序列。在某些实施方案中，分离的DNA/RNA读长可以通过计算或手动与参考序列数据集对齐；例如，DNA读长与生物体的基因组参考对齐，RNA读长与生物体的转录组参考对齐。在对读长进行预处理之后，可以使用标准的单细胞分析计算分析流程(例如Seurat、Gingko或CHISEL)分别分析DNA和RNA数据以执行数据分析和可视化。在其他实施方案中，为了从头序列或基因组/转录组组装的目的，可以将分离的DNA/RNA读长从短读长组装成代表更长连续核酸序列的更长读长或重叠群。组装可以使用由几个不同程序组成的分析流程(pipeline)完成，例如Spades(短读长)、Canu(长读长)、VEVELT，然后是BUSCO等。

在某些实施方案中，DNA的片段化可以通过酶消化或物理方法(例如超声处理、雾化或流体动力学剪切)来实现。可以使用Tn5转座酶实现DNA的片段化，如Zahn，H.、Steif，A.、Laks，E.等人所述，Scalable whole-genome single-cell library preparationwithout preamplification(未预扩增情况下的可扩展全基因组单细胞文库制备)，NatMethods 14,167–173(2017)。见网址：doi.org/10.1038/nmeth.4140。

该方法提供了一种DNA/RNA条形码策略，该策略在单细胞DNA/cDNA共扩增之前用不同的核酸条形码标记DNA和RNA。还添加了扩增接头，用于用相同的引物组共扩增DNA和逆转录的cDNA，从而产生测序文库。在某些实施方案中，Tn5转座酶还可以将接头连接到cDNA核酸序列和/或DNA核酸序列。测序后，可以通过条形码的解复用在计算上区分DNA和RNA读长。

在某些实施方案中，可以在扩增和/或逆转录核酸靶标之前，将来自样本的细胞添加到含有组分(例如SDS，Triton X-100或Tween-20)的裂解缓冲液中；任选地，裂解缓冲液含有核酸酶抑制剂，如RNAse抑制剂。在扩增和/或逆转录核酸靶标之前，还可以将来自样本的细胞添加到含有蛋白酶，例如蛋白酶K或不耐热蛋白酶K(New England Biolabs，IpswichMA)的缓冲液中。

在某些实施方案中，至少一种单链或双链核酸的检测是在基于酶的核酸扩增方法中进行的。

表述“基于酶的核酸扩增方法”涉及其中发生酶催化的核酸合成的任何方法。

这种基于酶的核酸扩增方法可以优先从聚合酶链反应(PCR)组成的组中选择，特别是包括本领域已知的所有基于PCR的方法，例如逆转录酶PCR(RT-PCR)、单PCR和多重PCR、实时PCR、终点PCR、定量或定性PCR及其组合。这些基于酶的核酸扩增方法对于本领域技术人员是众所周知的，并且在Saiki et al.(1988)Science 239:487、EP 200362和EP 201184(PCR)；Fahy et al.(1991)PCR Meth.Appl.1:25-33(3SR，自我维持序列复制)；EP 329822(NASBA，基于核酸序列的扩增)；U.S.Pat.No.5,399,491(TMA，转录介导的扩增)，Walkeretal.(1992)Proc.Natl.Acad.Sci.USA 89:392-396(SDA，链置换扩增)；EP 0 320 308(LCR，连接酶链式反应)；Bustin&Mueller(2005)Clin.Sci.(London)109:365-379(实时逆转录PCR)中有显著描述。

在一些实施方案中，基于酶的核酸扩增方法选自由聚合酶链反应(PCR)和逆转录酶PCR(RT-PCR)、多重PCR或RT-PCR以及实时PCR或RT-PCR组成的组。在其他实施方案中，基于酶的核酸扩增方法是实时的，任选的多重PCR、定量PCR或RT-PCR方法。

示例性PCR反应条件通常包括两步循环或三步循环。两步循环具有变性步骤，然后是杂交/延伸步骤。三步循环包括变性步骤，然后是杂交步骤，然后是单独的延伸步骤。聚合酶反应在引物与靶序列杂交并被聚合酶延伸的条件下孵育。选择扩增反应循环条件，以便引物与靶序列特异性杂交并延伸。

成功的PCR扩增需要高产量、高选择性和每个步骤的控制反应速率。产率、选择性和反应速率通常取决于温度，最佳温度取决于反应体系中多核苷酸、酶和其他组分的组成和长度。另外，对于不同的步骤，不同的温度可能是最佳的。取决于靶序列和引物的组成，最佳反应条件可能不同。热循环仪(例如实时PCR系统)提供了对反应条件的必要控制，以优化特定测定的PCR过程。例如，可以通过选择要维持的温度、每个循环的持续时间、循环次数等来编程实时PCR系统。在一些实施方案中，可以编程温度梯度，使得不同的样本孔可以保持在不同的温度下，等等。

在某些实施方案中，靶核酸序列可以是RNA和DNA。RNA或DNA可以人工合成或从天然来源分离。在一些实施方案中，RNA靶核酸序列可以是核糖核酸，例如RNA、mRNA、piRNA、tRNA、rRNA、ncRNA、gRNA、shRNA、siRNA、snRNA、miRNA和snoRNA。更优选地，DNA或RNA具有生物活性或编码生物活性多肽。DNA或RNA模板也可以以任何有用的量存在。

本发明中有用的逆转录酶可以是表现出逆转录酶活性的任何聚合酶。几种逆转录酶在本领域是已知的并且可商购(例如，来自加利福尼亚州赫拉克勒斯的Bio-RadLaboratories，Inc；印第安纳州印第安纳波利斯的Boehringer Mannheim Corp.；马里兰州罗克维尔的Life Technologies,Inc.；马萨诸塞州贝弗利的New England Biolabs,Inc.；康涅狄格州诺沃克的Perkin Elmer Corp.；新泽西州皮斯卡塔韦的Pharmacia LKBBiotechnology,Inc.；加利福尼亚州巴伦西亚的Qiagen,Inc.；加利福尼亚州拉霍亚的Stratagene)。在一些实施方案中，逆转录酶可以是禽成髓细胞增多症病毒逆转录酶(AMV-RT)、莫洛尼鼠白血病病毒逆转录酶(M-MLV-RT)、人免疫病毒逆转录酶(HIV-RT)、EIAV-RT、RAV2-RT、C.hydrogenoformans DNA聚合酶、rTth DNA聚合酶、SuperScript I、SuperScriptII、SuperScript III及其突变体、变体和衍生物。应当理解，在不脱离本文公开的范围或优选实施方案的情况下，可以在本发明中使用各种逆转录酶，包括上面未具体公开的逆转录酶。

本发明中有用的DNA聚合酶可以是能够复制DNA分子的任何聚合酶。优选的DNA聚合酶是热稳定聚合酶和具有核酸外切酶活性的聚合酶，其在PCR中特别有用。耐热聚合酶是从多种嗜热细菌中分离出来的，例如栖热水生菌(Thermus aquaticus，Taq)、西伯利亚热菌(Thermus brockianus，Tbr)、黄色热菌(Thermus flavus，Tfl)、红色热菌(Thermus ruber，Tru)、嗜热栖热菌(Thermus thermophilus，Tth)、嗜热菌(Thermococcus litoralis，Tli)和嗜热球菌属(Thermococcus genus)的其他物种，嗜酸热浆菌(Thermoplasmaacidophilum，Tac)、那不勒斯热菌(Thermotoga neapolitana，Tne)、海洋热菌(Thermotogamaritima，Tma)和热袍菌属(Thermotoga genus)的其他物种，激烈热球菌(Pyrococcusfuriosus，Pfu)、沃氏热球菌(Pyrococcus woesei，Pwo)和火球菌属(Pyrococcus)的其他物种，嗜固醇芽孢杆菌(Bacillus sterothemophilus，Bst)、嗜酸硫化菌(Sulfolobusacidocaldarius，Sac)、硫矿硫化叶菌(Sulfolobus solfataricus，Sso)、Pyroditiumocoltum(Poc)、隐蔽热网菌(Pyroditium abysi，Pab)和嗜热碱甲烷杆菌(Methanobacterium thermoautotrophicum，Mth)及其突变体或衍生物。优选的DNA聚合酶具有链置换活性；然而，不需要具有链置换活性的聚合酶，并且在本发明中可以使用本领域已知的置换核苷酸链的其他方法，例如，加热核苷酸链。在优选的实施方案中，可以使用高保真聚合酶。在某些实施方案中，可以使用单一聚合酶或可以使用两种或更多种不同的聚合酶。在某些实施方案中，聚合酶是KAPA HiFi(Roche，巴塞尔，瑞士)

许多DNA聚合酶在本领域是已知的并且可商购获得(例如，来自加利福尼亚州赫拉克勒斯的Bio-Rad Laboratories，Inc；印第安纳州印第安纳波利斯的BoehringerMannheim Corp.；马里兰州罗克维尔的Life Technologies,Inc.；马萨诸塞州贝弗利的NewEngland Biolabs,Inc.；康涅狄格州诺沃克的Perkin Elmer Corp.；新泽西州皮斯卡塔韦的Pharmacia LKB Biotechnology,Inc.；加利福尼亚州巴伦西亚的Qiagen,Inc.；加利福尼亚州拉霍亚的Stratagene)。在一些实施方案中，DNA聚合酶可以是Taq、Tbr、Tfl、Tru、Tth、Tli、Tac、Tne、Tma、Tih、Tfi、Pfu、Pwo、Kod、Bst、Sac、Sso、Poc、Pab、Mth、Pho、ES4、VENT^TM、DEEPVENT^TM及其活性突变体、变体和衍生物。应当理解，在本发明中可以使用多种DNA聚合酶，包括上面未具体公开的DNA聚合酶，而不偏离其范围或优选实施方案。

在某些实施方案中，可以通过改变初始反应混合物中的Tn5浓度来调节最终测序文库中DNA或RNA的比例。

在优选的实施方案中，根据本发明的反应还可以含有适用于PCR步骤的其他试剂。此类试剂为本领域技术人员所知，包括水，如无核酸酶水、无RNase水、无DNAse水、PCR级水；盐，如镁、氯化镁、钾；缓冲液，如Tris；酶；核苷酸，如脱氧核苷酸、双脱氧核苷酸、dNTPs、dATP、dTTP、dCTP、dGTP、dUTP和修饰的核苷酸，如脱氮基、锁定核酸和肽核酸；其他试剂，如DTT和/或RNase抑制剂；和多核苷酸，如polyT和polydT。

本发明的方法可易于使用且易于采用，除了标准生物学实验室可用的设备外，不需要额外的或专门的设备，并且使用标准的湿实验室操作程序。这些方法可以自动化和可扩展，因为它只需要标准的移液步骤，因此可以适于使用液体处理机器人进行高通量应用。在某些实施方案中，本发明的方法在准确性和灵敏度上可以与仅分析来自单细胞的DNA或RNA的现有单细胞分析方法相当。在某些实施方案中，本发明的方法在准确性和灵敏度上可以优于分析来自单细胞的DNA和RNA的现有的单细胞分析方法。本方法scONE-seq可以实现许多以前难以解决的单细胞多组学实验，并导致生命科学的新发现。

在表1中，示出了与G&T-seq和DR-seq相比，scONE-seq的一些关键优势。从已发表的数据来看，DR-seq在DNA扩增中可能存在GC偏倚，总体扩增均匀性较差(图6A-6B)，而G&T-seq具有相当好的单细胞全基因组测序数据，但由于从RNA捕获珠中释放非特异性DNA所需的大量洗涤步骤，转录本检测的灵敏度似乎降低了(图6C)。scONE-seq可以具有更高的整体单细胞扩增成功率。在某些实施方案中，每个样本(包括细胞或细胞核)仅约至少100万个读长可用于测序并获得足够的深度以使RNA和DNA进行克隆分析和细胞类型分类。从公布的数据来看，DR-seq需要将近10倍的测序深度才能实现类似的覆盖度。这意味着scONE-seq测序可以节省大量成本。

每个方案所需的时间是根据发布的版本估算的。由于每个细胞具有一个反应，scONE-seq的每个平板至少需要8小时，并且可以在最后使用单个纯化步骤。总体而言，scONE-seq可以以更少的实验时间和更低的成本产生更好的数据。

在某些实施方案中，来自单个样本的RNA和DNA在反应过程中不需要物理分离，并且仍然可以在单个反应室中进行差异标记。在某些实施方案中，本方法在一个容器反应中实现DNA和RNA的同时标记和扩增。在某些实施方案中，本方法不需要任何专门设计的装置(例如微流体芯片)来实现来自同一单细胞的DNA和RNA的共谱分析。在某些实施方案中，本方法可以使用机器人或其他高通量平台(例如微流体平台)进行自动化。这使得实验可以轻松地放大到数量级更高的吞吐量，这可以实现以前无法实现的数量级的单细胞的DNA-RNA共谱分析。吞吐量通用且易于控制，因此该方法适用于小规模使用以及大规模应用。

核苷酸检测的靶标

在某些实施方案中，本发明提供的方法可用于扩增来自单细胞或细胞核的一个或多个DNA核酸序列和源自RNA核酸序列的一个或多个cDNA序列。在某些实施方案中，这些方法可用于扩增新鲜细胞样本的核酸序列，例如外周血单核细胞(PBMC)和细胞系。在某些实施方案中，本方法可用于扩增来自冷冻组织样本(例如，已经冷冻多年的肿瘤样本)的细胞核的核酸序列。在某些实施方案中，可以基于例如基因表达标志物来确定细胞群，例如B细胞、T细胞和NK细胞的细胞群。在某些实施方案中，可以使用本方法确定不同的基因组和转录组谱。在某些实施方案中，RNA序列可用于确定基因表达标志物。在某些实施方案中，DNA序列可用于确定拷贝数改变(CNA)。

在某些实施方案中，本方法可用于探测病毒-宿主相互作用。通过共谱分析来自病毒和宿主细胞的DNA和RNA，可以确定病毒在宿主内的分布。此外，宿主细胞内的病毒丰度可以与病毒基因表达相关。利用病毒丰度信息，可以选择所有带有病毒的基因，并可以分析相关基因的病毒模式，例如，可以将细胞分为富含病毒的细胞和缺乏病毒的细胞。在某些实施方案中，所述方法可适用于亚细胞水平组分，例如，也含有DNA和RNA的单核。在某些实施方案中，所述方法还可适用于在任何情况下用DNA或RNA标记的任何生物分子。

本发明的方法可用于任何类型的细胞。本发明的方法最直接地应用于来自同一单细胞的全基因组和总转录组的共谱分析。这些方法可用于鉴定疾病，例如癌症，其中基因组和转录组反映疾病进展的不同方面。基因组揭示了通常与癌症发生和发展相关的基因组不稳定性和突变情况；转录组反映了细胞的功能/分子身份，这可能与其干性、癌症分化水平有关，并为患者预后提供信息。所述方法对于研究细胞内的病毒活性也特别有用，因为受感染的细胞除了自身的内源基因组和转录组之外还含有病毒DNA和RNA，并且根据病毒的类型、DNA或RNA，询问DNA和RNA二者以观察病毒在细胞中的活性及其对细胞行为的影响是有用的。除了真核细胞及其感染病毒外，该应用还可以包括原核生物如细菌的询问及其与噬菌体的相互作用。该方法也可用于研究任何类型的共生体-宿主相互作用，例如细菌细胞与其宿主真核细胞的相互作用。该方法也可用于生物体的从头基因组和转录组组装。该方法也可以推广到药物筛选和发现。

在某些实施方案中，本方法可以与已经储存至少数小时、数天、数月或数年的冷冻组织样本相容。这一特征使得通过两种方式更容易计划和执行大规模的临床多组学单细胞研究：首先，通过对现有生物库样本的研究，我们已经在这里证明了这一点；其次，对于新样本的研究，它还消除了临床研究人员必须立即处理组织的负担，而临床研究人员的首要任务是患者护理。

在某些实施方案中，包括scONE-seq在内的本方法可用于冷冻的胶质母细胞瘤(GBM)组织。在某些实施方案中，包括scONE-seq在内的本方法可用于观察和表征分化的肿瘤克隆，这支持了肿瘤克隆可以产生分化层次的想法^7,58,59。使用独立的10X GenomicssnRNA-seq以及组织切片上的免疫染色证实了克隆1的存在。仅基于scRNA-seq的癌症研究可能低估了肿瘤异质性的重要层面，同时直接DNA测量可能有助于对肿瘤进化提供有意义和信息的见解。同时，基于仅scWGS数据的克隆分析也忽略了肿瘤微环境中的复杂相互作用。通过使用本方法(包括scONE-seq)破译肿瘤生态系统内的遗传和表型异质性，我们可以揭示克隆扩增、肿瘤细胞分化层次和肿瘤微环境(TME)的相互作用。

与其他scDR-seq方法相比，本方法(包括scONE-seq)可以具有更高的吞吐量。在某些实施方案中，包括scONE-seq在内的本方法也具有非常高的可扩展性。另外，并行产生scONE-seq和基于液滴的单细胞数据，然后将其整合，也是一种有用的补充性多组学方法，可用于高通量研究癌症。此外，可以将额外的处理添加到scONE-seq工作流程中，以实现对更多信息层的分析：为了同时检测染色质的可及性，可以在FACS分选之前添加带有定制ATAC接头的额外核标签化步骤^60-62；类似地，在scONE-seq的单细胞分选步骤之前，可以通过使用DNA条形码抗体来实现定量蛋白质估计⁶³(参见Stoeckius,M.et al.Simultaneousepitope and transcriptome measurement in single cells.Nature Methods 14,865–868(2017))；并且通过与标准scONE-seq文库联合执行全外显子组捕获或任何杂交的靶标测序组套(panel)，成对的高深度单细胞体细胞突变信息也可以整合到scONE-seq数据集中。

材料和方法

单细胞或单细胞核分离

用胰蛋白酶-EDTA(0.25％)溶液(Thermo Fisher，Waltham，MA)解离HCT116、NPC43、HUVEC和H9细胞，并用碘化丙啶(10mg/ml，Thermo Fisher)染色以排除死细胞。

在香港科技大学临床中心，从一名健康捐献者体内采集新鲜全血。通过Ficoll-Paque PLUS(GE Healthcare，Chicago，IL)密度离心分离淋巴细胞。用1X红细胞裂解缓冲液(Thermo Fisher)除去红细胞。

从威尔斯亲王医院获得了几个月的冷冻IDH1突变型胶质母细胞瘤组织(保存在-80℃)。细胞核分离方案基于先前的研究^64,65。简而言之，使用均匀化方法制备细胞核。应使用乙醇、漂白剂和RNase-out清洗均质器，然后用NF水冲洗。将100mg冷冻组织放入含有1ml1X匀浆缓冲液(5mM CaCl₂、3mM Mg(Ac)₂、10mM Tris、16.7μM PMSF、167μMβ-巯基乙醇、320mM蔗糖、0.1mM EDTA、0.1％NP40、1U/ml RNase抑制剂、1X蛋白酶抑制剂，pH＝7.8)的预冷玻璃匀浆器中。然后用35μM细胞过滤器(Corning，Corning，NY)过滤匀浆悬浮液，细胞核可以在1000g，10分钟，4℃下旋转下降。将细胞核重悬于3.0ml低蔗糖缓冲液(320mM蔗糖、10mMHEPES、5mM CaCl₂、3mM Mg(Ac)₂、0.1mM EDTA、1mM DTT、1U/ml RNase抑制剂、1X蛋白酶抑制剂，pH＝8.0)中。为了去除细胞碎片，我们然后将12.5ml密度蔗糖缓冲液(1M蔗糖、10mMHEPES、3mM Mg(Ac)₂、1mM DTT，pH＝8.0)放在低蔗糖缓冲液匀浆下，在4℃下以3200g离心20分钟。细胞核现在处于摆动运动中，并且可以用DAPI(Thermo Fisher)染色。

然后将细胞或细胞核加载到Aria III流式细胞仪(BDBiosciences，FranklinLakes，NJ)中，将单细胞分选到含有裂解缓冲液的PCR管(96或384PCR板)中。裂解缓冲液由2.5U/μl RNase抑制剂(NEB，马萨诸塞州伊普斯威奇)、0.15％Triton X-100(Sigma，密苏里州圣路易斯)和6μM DTT(Thermo Fisher)组成。分选后的样本可在-80℃下保存数月。

生成scONE-seq文库

为了开始scONE-seq预扩增，使用蛋白酶K(Sigma)完全裂解细胞或细胞核。进行标签化反应以使基因组DNA片段化并添加DNA特异性条形码。该反应包括以下组分：6mMMgCl₂、0.5mM dNTP(NEB)、8.5mM TAPs-NaOH、1.5U/μl RNase抑制剂、0.05U KAPA聚合酶(Roche)、8％PEG8000和带有定制接头(GTCTCGTGGGCTCGGTCATGNNNNNAGATGTGTATAAGAGACAG(SEQ ID NO:4))(Novoprotein Suzhou，中国江苏)^33,37的Tn5。将反应物在55℃下孵育10分钟，然后在72℃下孵育10分钟。然后，使用蛋白酶K或不耐热蛋白酶K(NEB)使缓冲液中的酶失活。此后，我们用以下成分进行了逆转录，即40U SuperScript^TMIII逆转录酶(ThermoFisher)、70mM Tris-HCl、1.5U/μl RNase抑制剂、8mM MgCl₂、7μM DTT和0.15μM RT引物(GTCTCGTGGGCTCGGATCGTNNNNNTTTTTTTTTTTTTTTTTTTTVN(SEQ ID NO:1)；GTCTCGTGGGCTCGGATCGTNNNNNGGGHN(SEQ ID NO:5)；GTCTCGTGGGCTCGGATCGTNNNNNTTTVN(SEQ ID NO:6))。逆转录在12℃下进行12秒，然后梯度增加至50℃50分钟和55℃50分钟。随后，用不耐热的EXO I(NEB)、RNase If(NEB)和RNase H(NEB)去除残留的引物和RNA。然后，使用末端转移酶(NEB)将C尾添加到cDNA片段中。该反应在37℃下进行5分钟，立即用不耐热蛋白酶K使酶失活。然后通过添加0.3μM3'接头(GTCTCGTGGGCTCGGATCGTNNNNNGGGHN(SEQ IDNO:5))、1μl KAPA HIFI Fidelity Buffer(5X)、0.7mM(NH₄)₂SO₄和0.1μl KAPA聚合酶进行第二链合成。将反应物在热循环仪中在72℃下孵育5分钟；10个循环(48℃1分钟；72℃1分钟)；以及72℃5分钟。用Exo I(NEB)进行额外的残留引物去除反应。最后，加入14μl KAPAHotStart ReadyMix(2X)、1.5mM(NH₄)₂SO₄、2％DMSO(Thermo Fisher)、1.2μM扩增引物(GATGTGTGGAGGTCTCGTGGGCTCGG(SEQ ID NO:7))以同时扩增DNA和RNA。在热循环仪中进行PCR，98℃下进行4分钟；18至20个循环(98℃20秒；72℃4.25分钟)；以及72℃10分钟。

测序文库构建

用Ampure XP磁珠(Beckman，Brea，CA)纯化预扩增的样本。将样本稀释至0.1ng/μl，并与以下组分进行标签化反应：1X TAPs缓冲液(50mM TAPS-NaOH，25mM MgCl₂，PH＝8.0)、8％PEG8000、0.001μl Tn5(TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG)(SEQ ID NO:9)。反应在55℃下进行15分钟。然后使用KAPA HiFi HotStart聚合酶试剂盒(Roche，瑞士巴塞尔)，用Illumina(加利福尼亚圣地亚哥)测序Index引物(表2)(Sangon，中国上海)扩增样本。在热循环仪中如下所述进行富集PCR：95℃下孵育10分钟；10至11个循环(98℃20秒；60℃15秒；72℃30秒)；以及72℃2分钟。然后汇集样本并用Ampure XP磁珠纯化。然后使用scDASH方案去除丰富的核糖体和线粒体RNA^66,67。可以执行双尺寸选择以优化文库大小。然后在Illumina NextSeq500上对文库进行测序。

I7 Index引物是用于测序的标准Illumina序列(仅当库准备好排序时才添加)。I5Index引物相当于测序读长另一侧的I7 Index引物。表2显示了我们的方法使用的I5 Index引物的定制版本，以使用Illumina平台(seq ID NO:11)对scONE-seq产物进行测序。标准Illumina I5 Index引物不适用于本发明的scONE-seq文库。与I7 Index引物一样，该引物在测序过程中直接添加到流细胞中。Read2序列相当于序列读长另一侧的Read1。本文中，Read2是定制的以与scONE-seq共扩增产物一起作用。标准的Illumina Read2不起作用。

DNA和RNA数据分离

测序数据首先用fastp过滤⁶⁸。然后将fastq文件分成DNA fastq文件、RNA fastq文件和具有seqkit、seqtk和bbduk的未匹配fastq文件^69-71。在此过程中，提取读长的UMI，并用fastp命名为fastq文件⁶⁸。

DNA数据分析

使用BWA mem将DNA fastq文件比对到hg38(请参阅全球网站：ncbi.nlm.nih.gov/assembly/GCF_000001405.26/)⁷²。为了执行基于UMI的重复数据消除，使用samtools提取bam文件中的read2读长⁷³，并使用umi_tools进行重复数据消除⁷⁴。消除重复的read2读长用于提取其配对的read1，然后将这些配对的fastq与BWA mem重新比对至hg38^72,75。

如果仅执行基于计数的拷贝数变异分析，则使用Ginkgo产生归一化计数⁷⁶。如果执行等位基因特异性拷贝数变异分析，则使用CHISEL生成两个等位基因频率信息^77,78。整数拷贝数的计算基于以前的研究^79-81。在此分析流程中，使用copynumber和aCGH进行分割⁸²。

RNA数据分析

还使用RNA fastq文件执行了基于UMI的重复数据消除。工作流程保持不变，只是用STAR替换了BWA⁸³。然后，可以使用Kallisto⁸⁴(cDNA定量)或Salmon⁸⁵(成熟前RNA定量)对fastq文件进行定量(参考文献1-2)。用kb python⁸⁶量化10x snRNA-seq数据。使用Seurat和sctransform分析流程(归一化、降维、数据集集成、发现聚类、差异基因分析)^87-89分析表达数据。GBM细胞状态评分按照原始论文进行⁹⁰。使用copykat进行基于RNA的CNV推断⁹¹。用CellChat进行配体-受体分析⁹²。

可视化

使用ggplot2 R软件包创建绘图^93,94。使用ComplexHeatmap包创建热图⁹⁵。在Inkscape中制备R图片⁹⁶。

IHC分析

载玻片来自Danny Chan博士(威尔斯亲王医院)。使用二甲苯和乙醇去除蜡。用柠檬酸钠缓冲液(Thermo Fisher)在98℃下进行抗原修复15分钟。将IDH1(R132H)抗体(Dionava，1:50)和ADCY8抗体(Abcam，1:200，英国剑桥)加入载玻片中并在4℃下在保湿盒中孵育过夜。使用二抗(抗小鼠，抗兔，Thermo Fisher)提供荧光信号。用DAPI(Abcam)固定缓冲液以用于染色细胞核并保留荧光。这些图像是用Zeiss Axio Scan.Z1玻片扫描仪(Zeiss，耶拿，德国)拍摄的。

本文提及或引用的所有专利、专利申请、临时申请和出版物均以引用的方式全部合并，包括所有图表，只要它们与本说明书的明确教导不会不一致。

以下是说明实施本发明的程序的实施例。这些实施例不应被解释为限制性的。除非另有说明，否则所有百分比均按重量计，所有溶剂混合物比例均按体积计。

实施例1-样本中共扩增RNA和DNA的方法

为了实现单细胞基因组和转录组的共谱分析，我们设计了一个工作流程来同时扩增RNA和DNA(图1A)。简而言之，执行scONE-seq，样本解离后，用流式细胞仪将细胞或细胞核分选到含有裂解缓冲液的PCR板中。然后可以立即处理分选的单细胞板，或者在处理前在-80℃下储存数月。为了开始单细胞扩增，我们首先使用带有定制接头的Tn5对细胞内的基因组或任何其他DNA进行片段化和标记^31-33。在这一步中，将扩增接头(包括6个核苷酸的“DNA条形码”和6个核苷酸的UMI)添加到片段化的DNA(fDNA)中。随后，我们使用逆转录(RT)产生cDNA，其中RT引物包含：改编自MATQ-seq协议的引发序列³⁴，6个核苷酸的“RNA条形码”，以及6个核苷酸的UMI。RT引发序列是一种修饰的随机寡核苷酸，可引发RNA转录本的内部区域，从而能够检测全长转录本，包括非聚腺苷酸化(非-polyA)RNA。通过随后的加poly-C尾和简并PCR添加cDNA 3'接头³⁵。一旦添加了DNA特异性和RNA特异性条形码，fDNA和cDNA同时扩增，并用预扩增产物构建测序文库(有关详细信息，请参见方法部分所述)。共扩增文库测序后，需要进行数据处理以过滤和分离DNA/RNA读长。分离读长之后，删除其他接头序列。读长预处理后，可以使用标准的单细胞分析计算分析流程分别分析DNA和RNA数据。

实施例2-本方法与SmartSeq2的比较

为了对该方法进行基准测试，我们使用HCT116结肠癌细胞系将通过该方法产生的单细胞RNA数据与当前单细胞RNA-Seq标准(称为SmartSeq2)产生的数据进行比较。SmartSeq2仅用于分析单细胞的RNA。由于化学性质的差异，我们预计使用总RNA捕获的我们的方法产生的数据与使用polyT选择过程的SmartSeq2产生的数据之间会有巨大差异。我们的方法在性能指标方面非常具有可比性，例如基因检测灵敏度，整个基因组的读长覆盖度以及转录本的基因体覆盖度(图1B-1C；图6F)。我们还通过将单细胞组合并在一起以重建“伪批量(pseudobulk)”，表明通过我们的方法测量的DNA拷贝数变化与使用大量DNA测序相当(图1I-K)。

为了将该方法与其他单细胞DNA/RNA共谱分析方法进行对比，我们从先前开发的方法DR-seq²³和G&T-seq(参见Macaulay,I.,Haerty,W.,Kumar,P.et al.G&T-seq:parallelsequencing of single-cell genomes and transcriptomes.Nat Methods 12,519–522(2015))中获取了已发布的数据，并将其与我们的数据进行了比较。与其他方法(图6A-6B)相比，通过我们的单细胞全基因组测序方法产生的DNA读长显示出序列覆盖均匀性的显著改善，这是全基因组测序和拷贝数变化检测的重要指标。当我们使用美国国家标准与技术研究所开发的ERCC技术标准(参见Wu,A.,Neff,N.,Kalisky,T.etal.Quantitativeassessment of single-cell RNA-sequencing methods.Nat Methods 11,41–46(2014)；以及The External RNA Controls Consortium.The External RNA ControlsConsortium:aprogress report.Nat Methods 2,731–734(2005).https://doi.org/10.1038/nmeth1005-731)评估性能时，与其他两种方法相比，我们的单细胞RNA测序方法产生的RNA读长也显示出灵敏度和准确性的提高，因为我们可以在给定的单细胞中检测到更多数量的ERCC RNA转录物，并且我们可以在许多细胞中更准确地检测它们，即使在每个RNA分子的低浓度下也是如此(图6C)。

实施例3-在人体组织样本中共扩增RNA和DNA

接下来，我们在原代人类细胞上展示了我们的方法，以表明它可以用于新鲜组织样本。我们使用我们的方法成功地从人全血中分离的外周血单核细胞(PBMC)样本中共谱分析了DNA和RNA。根据这些数据，可以基于基因表达标志物鉴定所有预期的细胞群，例如B细胞、T细胞和NK细胞(图2C-2F；7A-7S)。DNA数据显示拷贝数没有变化，因为这是来自健康供体的血液。我们对四种不同的细胞系进行了类似的分析，以证明可以使用我们的共谱分析方法中的数据来区分不同的基因组和转录组谱。像PMBC一样，我们能够使用我们的方法生成的数据的RNA部分正确聚类来自每个不同细胞系的细胞，并显示相关的基因表达标志物(图2A-2B)。与PBMC不同，我们选择的四种细胞系中有两种是具有拷贝数改变(CNA)的癌细胞系，我们能够观察到使用我们的方法生成的数据的DNA部分中的CNA。正如预期的那样，我们没有在非癌细胞系中观察到CNA(图2G)。

实施例4-在鼻咽癌样本中共扩增Epstein-Barr病毒的RNA和DNA

我们还以鼻咽癌(NPC)为例，展示了我们的方法探测病毒-宿主相互作用的适用性。NPC是一种携带Epstein-Barr病毒(EBV)的癌症，由于病毒的相互作用，这种细胞类型同时具有转录组学和基因组异质性。通过使用我们的方法共谱分析来自EBV+NPC细胞系的DNA和RNA，我们能够观察NPC癌细胞中的异质病毒分布(图13A-13F)。宿主细胞内的病毒丰度与病毒基因表达密切相关(图13G)。利用病毒丰度信息，我们将所有基因与病毒丰度相关联，并选择顶部相关基因进行下游病毒活性模式分析。有了这些基因，细胞可以分为富含病毒的细胞和缺乏病毒的细胞。

实施例5-分子条形码策略能够在单管反应中对单细胞的DNA和RNA进行准确而灵敏的共谱分析

为了表征由scONE-seq产生的转录组，我们使用各种测试样本对其与Smart-seq2(SS2)^36,37进行了基准测试：提取的无RNA大肠杆菌(E.coli)基因组(模拟DNA)，提取的无DNA人总RNA(模拟RNA)，以及两者的混合物(即大肠杆菌DNA与人总RNA混合)；并培养HCT116单细胞。我们通过评估每个基准模拟和HCT116样本中检测到的基因数量来评估敏感性，发现scONE-seq每个细胞检测到的基因比SS2多(图1B和图6D；p<2x10^-16；t检验)。这可能是由于scONE-seq能够捕获总RNA^34,38，而SS2仅靶向polyA RNA，因此在任何给定的测序深度捕获更多样化的分子集(补充图1d)。此外，scONE-seq能够进行全长转录本分析，并实现与SS2相当的基因体覆盖均匀性(图1C)。然后，我们使用样本间相关性分析以及ERCC加标检测来估计scONE-seq与SS2相比的准确性。在样本间相关性分析中，两种方法的测定系数(R²)相当(图1D-1G；图6C)。使用ERCC作为准确性的衡量标准，scONE-seq和SS2的性能相当，这意味着scONE-seq的准确性足够高，可以定量测量单细胞的转录本丰度(图6C)。

接下来，我们试图验证scONE-seq的全基因组测序(WGS)能力。Lorenz曲线³⁹比较了每种方法的覆盖均匀性，显示了scONE-seq的良好性能(图1H；图6A-6B)。然后，我们使用大量HCT116 WGS数据与scONE-seq生成的scWGS数据进行比较，以确认scONE-seq捕获的CNA与批量(5x10⁶个细胞)和伪批量(86个细胞；500kb分辨率)定义的CNA一致(图1I-1K)。此外，我们在scONE-seq DNA数据集上进行了UMI重复数据删除，因为我们的方法在标签化步骤中将UMI添加到DNA片段中，并发现这种重复数据删除成功地减少了单细胞DNA扩增过程中引入的偏差。

总之，对使用基准样本生成的scRNA-seq和scWGS数据的分析表明，与现有的标准方法相比，scONE-seq可以从同一个单细胞中分析基因组和转录组数据，而不会影响数据质量。

实施例6-scONE-seq数据正确地从主要供体样本中分配细胞类型

在彻底评估了scONE-seq的技术性能后，我们接下来将其应用于已知的生物异质性样本，以评估它是否可以准确鉴定混合人群中的细胞亚型。为此，我们对四种不同的细胞系以及来自健康供体的原代外周血单核细胞(PMBC)样本进行了scONE-seq。

首先，我们分析了包含86个HCT116细胞、143个NPC43细胞、37个HUVEC细胞和17个H9细胞的细胞系数据集，以检查准确的细胞类型分配。通过无监督的基于图的聚类，来自相同细胞系的细胞成功地聚类在一起(图2A)。我们还检查了每个细胞系的基因标志物(图2B)，值得注意的是，在scONE-seq数据集中发现了这些细胞系的几个经过充分研究的基因标志物(图7A)。

接下来，我们使用来自PBMC的淋巴细胞来测试初级样本中scONE-seq细胞类型的聚类准确性。我们从同一PBMC样本中制备了具有scONE-seq和SS2的测序文库，以进行比较。经过质量控制过滤以去除低质量的细胞和潜在的双峰(请参见方法中的详述)，我们为scONE-seq收集了200个细胞，为Smartseq2收集了194个细胞。使用无监督的基于图的聚类，我们发现两种方法之间的细胞类型组成没有差异(图2C和图2E；p＝0.1826；卡方检验)。聚类后，我们使用已知的淋巴细胞标志物注释了细胞类型^40-42(图2D和图2F，以及图7B-7S)：由CD19和MS4A1(CD20)区分的B细胞；以CD3E为特征的T细胞；由SELL CD62L、CCR7和LEF1鉴定的分化程度较低的T细胞(幼稚和记忆T细胞)；以CD4为特征的CD4+T细胞；以CD8A和CD8B为特征的CD8+T细胞；和由PRF1和NKG7区分的细胞毒性T细胞。值得注意的是，细胞毒性T细胞包括γδT细胞(γδT细胞；表达TRDC、TRGC1和TRGC2；图7P-7S)以及效应记忆T细胞(T_EM；缺乏CCR7表达和阳性表达IL2RB)。我们推测这些是T_EM而不是效应T细胞，因为样本来自健康供体(图7B-7M)。除此之外，在scONE-seq数据集中，我们还捕获了一些调节性T细胞(T_reg细胞；FOXP3+，CCR4+)(图7T-7W)，并检测了几种非polyA基因，包括PZP和SESN3，其在T细胞中的表达先前已有描述⁴³(图7X-7AA)；在SS2数据集中找不到这些特征。

这些结果共同表明，scONE-seq RNA数据可以准确地捕获异质样本中的生物学变异。

实施例7-scONE-seq数据鉴定不同样本中的不同克隆

上面的分析显示了scONE-seq在使用RNA数据进行细胞类型分配中的可行性。接下来，我们使用scONE-seq WGS数据评估了克隆鉴定的性能。本文中，我们利用了从先前细胞类型分配分析中使用的细胞系同时获得的scONE-seq WGS数据，并描绘了所有四种细胞系的CNAs克隆结构，然后用它们的拷贝数分布进行层次聚类(图2G)。从该分析中，我们看到HCT116保持相对均匀的克隆组成，而NPC43(一种表现出强烈基因组不稳定性的主要患者来源的细胞系)由3个主要克隆组成(图2H)。此外，这3个克隆的CNA结构与首次建立细胞系时有很大差异⁴⁴(图8A-8D)，尤其是在染色体1、3、4、6和7中。相应地，克隆之间的区别主要存在于染色体1、3、7和11中(图8A-8D)。基于这一观察，原代细胞系细胞培养过程中染色体拷贝数的变化可能是具有丰富CNA和不稳定基因组的细胞系中的常见现象。研究表明，不同细胞培养系之间存在广泛的遗传变异，并且由于基因组不稳定，来自某些细胞系的单细胞可以产生具有多个克隆的群体^20,45。此外，通过每个单细胞的匹配转录组及其相应的拷贝数状态，我们将克隆信息比对到NPC43的转录组UMAP，发现NPC43中的CNA不会显著影响转录组状态(图8E)。这表明scONE-seq可以鉴定每个单独细胞的表型和基因型状态。

实施例8-解剖IDH突变型胶质母细胞瘤的克隆结构和细胞型亚群

胶质母细胞瘤(GBM)是起源于大脑的最具侵袭性的恶性肿瘤之一^46,47。当使用单细胞技术研究GBM或其他脑组织时，获得完整的解离的整个单细胞，特别是具有复杂形态的神经元是具有挑战性的，并且可能导致细胞类型采样的偏差⁴⁸。因此，对于脑单细胞分析，更广泛地使用单核分离。为了分析生物库GBM样本中的基因型和表型异质性，我们将scONE-seq应用于从一个月的速冻GBM样本中分离的单个细胞核：第二个复发性GBM样本，具有IDH1(R132H)、TP53(P278S)、ATRX(R781*)突变(图3A；图9)。原发和第一次复发的样本数量有限，对其进行全外显子组测序(WES)和RNA批量测序(图10E)。我们总共使用scONE-seq分析了1200多个细胞核，包括1210个scRNA数据集、1089个scWGS数据集，产生908个通过QC配对的DNA和RNA数据集。

首先，我们描述了这个GBM样本的克隆结构。使用归一化计数数据(500kb基因组箱)的降维，我们将细胞聚类为四种不同的基因组状态(图6A)；使用层次聚类将这四组细胞鉴定为一组正常细胞和三个GBM克隆(图10A)。同时，在该肿瘤中发现了全基因组重复，并通过使用流式细胞术测量每个细胞的DAPI强度以及使用B等位基因频率进行验证，这揭示了多个基因座的非整倍性和杂合性丧失(图10B-10D)。考虑到非整倍性，计算了细胞的整数拷贝数(图3C)。此后，使用克隆伪批量来表示杂合性丧失(LOH)(chr6q、chr9p、chr10q25.1-chr10q26.2等)和不平衡等位基因频率(chr10q21.2-chr10q24.33等)(chr10q21.2-chr10q24.33区域包含至少3个拷贝)的存在，表明发生了全基因组复制(WGD)事件(图3C)。基于每个克隆的基因组图谱和它们之间计算的曼哈顿距离，发现克隆1更接近根(正常细胞)，杂合性(LOH)事件的损失更少，并且它具有与原发性肿瘤WES数据相似的基因组改变(图3C-3G)。克隆2和克隆3具有许多与克隆1和原发肿瘤相同的缺失区域，导致LOH(图3E-3G)。值得注意的是，克隆2和克隆3中的chr6缺失是等位基因特异性的(图10E)，这表明该缺失发生在其他LOH事件之后。此外，我们调查了常见改变的GBM和IDH突变胶质瘤驱动基因^49,50，并发现BRAF、MET和MYC在所有克隆中都被扩增(图3C)。与此相反，缺失事件与扩增事件完全不同，其中许多仅发生在克隆2和克隆3中，包括CDKN2A和PTEN的缺失。重要的是，发现了CDKN2A的同源缺失(图10F-10H)。

接下来，我们分析了来自该数据集的RNA数据。首先，我们对scONE-seq RNA数据进行了无监督的基于图的聚类，获得了多个细胞簇，然后根据它们的RNA标志物对其进行了注释。我们发现这种肿瘤含有巨噬细胞、神经元、星形胶质细胞、少突胶质细胞和基于典型细胞类型基因特征的肿瘤细胞(图4A-4B)。复杂的肿瘤微环境(TME)表明高度浸润的肿瘤表型。肿瘤细胞显示出高EGFR表达，这是GBM的一个众所周知的特征。根据Neftel等人¹²描述的元模块评分，这些EGFR高肿瘤细胞可以进一步分为4种细胞状态(图4A)：少突胶质祖细胞样(OPC样)、神经祖细胞样(NPC样)、间充质样(MES样)和星形胶质细胞样(AC样)。

除了从解剖克隆性的DNA数据获得的系统发育树外，我们还能够使用成对的RNA数据以将细胞类型信息叠加到克隆信息上，以鉴定具有独特功能、表型特征的克隆亚群。为此，我们将克隆信息比对到RNA UMAP，以可视化不同细胞类型之间的克隆分布(图4C)。克隆3是该肿瘤的主要克隆，并分化为所有4种肿瘤表型：OPC样、NPC样、MES样和AC样细胞状态。克隆2主要由AC样细胞组成。克隆1是最有趣的：仅使用RNA数据，克隆1的所有细胞均与正常星形胶质细胞聚类，表明克隆1与正常星形胶质细胞之间的转录组相似性仅使用scRNA-seq数据无法区分；但是，在叠加匹配的基因型和表型信息后，与真正的正常细胞相比，这种独特的星形胶质细胞样肿瘤细胞群具有明显异常的基因型(图4C)。

克隆1亚群在第二次复发肿瘤中似乎很少见(2.06％的细胞用scONE-seq取样)，表型类似于正常星形胶质细胞。

实施例9-具有正常星形胶质细胞样表型的独特肿瘤克隆的表征

为了验证克隆1细胞的存在，我们首先鉴定了克隆1特有的基因标志物，包括XIST、RFX3、ADCY8和GRIA1，它们可以将它们与其他亚群区分开(图4D，图11A)。在基于液滴的snRNA-seq数据集中也发现了这些标志物，以标记也与正常星形胶质细胞相邻的推定克隆1群体(图11B-11D)。然后，我们整合了scONE-seq RNA数据集和10X数据集。该整合分析显示，我们的1000个细胞核的scONE-seq数据集捕获了在4416个细胞核的液滴snRNA-seq中观察到的所有细胞类型，并且克隆1与来自10X数据集的推定克隆1细胞聚类(图4E)。

然后，我们对来自原发肿瘤和第二复发肿瘤的FFPE切片进行了组织学分析，以验证克隆1细胞在肿瘤进展的不同阶段的存在。由于患者携带IDH1突变，因此选择IDH-1(R132H)作为肿瘤标志物，除克隆1细胞外，抗ADCY8有望标记一些正常神经元和正常星形胶质细胞(图4D，图11E-11F)。因此，推定的克隆1细胞是那些通过IDH1(R132H)和ADCY8的双阳性染色标记的细胞。首先，我们观察了整个载玻片切片的整体染色模式，并注意到IDH1(R132H)阳性肿瘤细胞分布在原发性和2R肿瘤的整个切片上。ADCY8信号在2R肿瘤切片中显得更强，并且特异性地集中在某些也更强烈表达IDH(R132H)的区域(图12A)。有趣的是，这些ADCY8阳性区域总是靠近IDH1(R132H)阴性的“正常相邻”区域(图12A)。我们怀疑是推定的克隆1细胞的双阳性细胞似乎接近其他正常和恶性细胞(图5A)。这些组织学免疫染色结果提供了关于推定的克隆1细胞在肿瘤切片中的空间分布的额外细节。

在我们的染色实验中，我们注意到克隆1细胞在肿瘤边缘附近似乎更丰富。在浸润的肿瘤区域中存在这些具有正常样表型的肿瘤细胞，这促使我们研究克隆1细胞在信号传导和细胞-细胞通讯中的潜在作用，因为浸润区域是肿瘤微环境(TME)的重要组成部分。一些研究表明，神经胶质瘤细胞可以与正常神经元形成突触结构，作为肿瘤内的信号传导管道^51-55。具体而言，发现这是通过显示AMPA受体(AMPAR)(一种谷氨酸受体亚型^54,55)的肿瘤微管发生的。AMPAR是四聚体，涉及四个亚基蛋白Glut1-4，分别由基因GRIA1-4编码^56,57。有趣的是，我们发现GRIA基因在我们的样本中的不同肿瘤克隆之间差异表达(图5B-5E)。主要克隆克隆3表达GRIA2-4，不表达GRIA1；然而，克隆1是唯一表达GRIA1的肿瘤亚群；所有其他三个GRIA家族基因的表达水平都要低得多。GRIA1编码的GluA1亚基通常形成GluA1同聚体AMPAR，其具有钙渗透性，并且在早期发育的突触中广泛存在⁵⁷。钙渗透性AMPAR是肿瘤神经元突触中的关键信号分子，并且还已知通过GluA1的翻译后修饰来调节长时程增强的维持，使得GluA1对大脑中的神经可塑性至关重要^56,57。克隆1的表达通常类似于星形胶质细胞，包括星形胶质细胞标志物APOE的表达(图12B)，但正常星形胶质细胞不表达GRIA1(图5B-5E；图12B)，表明克隆1在肿瘤微环境中的细胞-细胞通讯中具有独特的，可能是多方面的作用^7,54,55。接下来，我们还对不同亚群进行了配体-受体分析，发现TGF-β信号转录物在正常星形胶质细胞、克隆1细胞和肿瘤相关巨噬细胞(TAM)中强烈且特异性表达，克隆1细胞表达配体，主要是TAM表达受体(图5F-5I；图12C-12G)。这表明克隆1细胞可以在肿瘤内的TGF-β信号传导中发挥与正常星形胶质细胞相当的作用，特别是在调节免疫细胞活性方面。

示例性实施方案

通过参考某些说明性实施例可以更好地理解本发明，包括但不限于以下：

实施方案1.一种用于从样本中扩增至少一个RNA序列和至少一个DNA序列的方法，包括：

a)提供包含至少一个RNA序列和至少一个DNA序列的样本；

b)任选地，从样本中纯化RNA序列和DNA序列；

c)通过使所述DNA序列与装载有第一DNA寡核苷酸接头的转座酶接触来将所述DNA片段化，其中所述转座酶使所述DNA序列片段化，并将所述第一DNA寡核苷酸接头与所述DNA序列连接，以产生经标记的片段化DNA序列(fDNA)，其中各DNA寡核苷酸接头包括DNA特异性条形码、共享扩增引物序列和独特的分子标识符(UMI)；

d)使第二DNA寡核苷酸接头与所述RNA序列退火，其中所述第二DNA核苷酸接头包括RNA特异性条形码、所述共享扩增引物序列、退火序列和独特的分子标识符(UMI)；

e)将逆转录酶添加到与所述DNA寡核苷酸接头退火的所述RNA序列以合成cDNA序列；

f)给所述cDNA序列添加poly C尾；

g)使第三DNA寡核苷酸接头与步骤f)得到的带poly C尾的cDNA退火，其中所述第三DNA寡核苷酸接头包括5’polyG序列、RNA特异性条形码、所述共享扩增引物序列、退火序列和独特的分子标识符；

h)合成与步骤g)的所述cDNA序列互补的DNA序列以产生双链cDNA；和

i)使用所述共享引物序列同时扩增双链cDNA序列和fDNA序列。

实施方案2.实施方案1的方法，其中所述样本包括单细胞和/或细胞核。

实施方案3.实施方案2的方法，其中所述单细胞是细菌细胞、古菌细胞或真核细胞。

实施方案4.实施方案2的方法，其中步骤b)进一步包括裂解细胞以从细胞中分离RNA序列和DNA序列。

实施方案5.实施方案1的方法，其中步骤c)进一步包括提供与样本中的RNA序列和/或DNA序列退火的多个接头。

实施方案6.实施方案5的方法，其中所述多个接头在约2至约100之间、约2至5之间、或约4。

实施方案7.实施方案5的方法，其中步骤d)进一步包括提供至少2个或至少3个与样本中的两个或更多个RNA序列退火的接头。

实施方案8.实施方案1的方法，其中所述第一、第二或第三DNA寡核苷酸接头进一步包括镶嵌序列和Seq-1引物序列。

实施方案9.实施方案1的方法，其中所述转座酶是Tn5转座酶。

实施方案10.实施方案1的方法，其中步骤a)至i)在一个容器中进行。

实施方案11.实施方案1的方法，进一步包括：

j)通过使所述cDNA和fDNA序列与装载有第四DNA寡核苷酸接头的转座酶接触来将所述cDNA与fDNA片段化，其中所述转座酶使cDNA和fDNA序列片段化，并将所述第四DNA寡核苷酸接头与cDNA和fDNA序列连接以产生DNA文库，其中所述第四DNA寡核苷酸接头包括镶嵌和DNA退火序列,其中所述DNA退火序列与测序引物互补。

实施方案12.实施方案11的方法，进一步包括：

k)对扩增的cDNA序列和fDNA进行测序，其中在所得的测序数据中，所述DNA特异性条形码用于鉴定DNA序列，并且所述RNA特异性条形码用于鉴定RNA序列。

实施方案13.寡核苷酸接头组，其中每个接头包括扩增引物序列、DNA特异性条形码或RNA特异性条形码、独特的分子标识符序列和退火序列，其中一个寡核苷酸接头具有RNA特异性条形码，而另一个寡核苷酸接头具有RNA特异性条形码。

实施方案14.实施方案13所述的寡核苷酸接头组，其中所述接头进一步包含镶嵌引物和Seq-1引物。

实施方案15.一种寡核苷酸接头，其中所述接头包括扩增引物序列、DNA特异性条形码或RNA特异性条形码、独特的分子标识符序列和退火序列。

实施方案16.实施方案15所述的寡核苷酸接头，其中所述接头还包括镶嵌引物和/或Seq-1引物。

实施方案17.实施方案16所述的寡核苷酸接头，其中所述接头包括SEQ ID NO:1、SEQ ID NO:4、SEQ ID NO:5或SEQ ID NO:6的核苷酸序列或与SEQ ID NO:1、SEQ ID NO:4、SEQ ID NO:5或SEQ ID NO:6的核酸序列具有至少95％同一性的核苷酸序列。

应当理解，这里描述的实施例和实施方案仅用于说明目的，并且本领域技术人员能想到进行各种修改或改变，并且这些修改或改变将包括在本申请的精神和范围内以及所附权利要求的范围内。此外，本文公开的任何发明或其实施方案的任何要素或限制可以与本文公开的任意和/或所有其他要素或限制(单独地或以任何组合)或任何其他发明或实施方案组合，并且所有这样的组合都在本发明的范围内而不限于此。

参考文献列表

1.Wu,A.R.,Wang,J.,Streets,A.M.&Huang,Y.Single-cell transcriptionalanalysis.Annual Review of Analytical Chemistry 10,439–462(2017).

2.Gawad,C.,Koh,W.&Quake,S.R.Single-cell genome sequencing:Currentstate of the science.Nature Reviews Genetics 17,175–188(2016).

3.Nam,A.S.,Chaligne,R.&Landau,D.A.Integrating genetic and non-geneticdeterminants of cancer evolution by single-cell multi-omics.Nature ReviewsGenetics 22,3–18(2021).

4.Birnbaum,K.D.Power in numbers:Single-cell RNA-seq strategies todissect complex tissues.Annual Review of Genetics 52,203–221(2018).

5.Villani,A.C.et al.Single-cell RNA-seq reveals new types of humanblood dendritic cells,monocytes,and progenitors.Science 356,(2017).

6.Treutlein,B.et al.Reconstructing lineage hierarchies of the distallung epithelium using single-cell RNA-seq.Nature 509,371–375(2014).

7.Venteicher,A.S.et al.Decoupling genetics,lineages,andmicroenvironment in IDH-mutant gliomas by single-cell RNA-seq.Science 355,(2017).

8.McGranahan,N.&Swanton,C.Clonal Heterogeneity and Tumor Evolution:Past,Present,and the Future.Cell vol.168 613–628(2017).

9.Prager,B.C.,Xie,Q.,Bao,S.&Rich,J.N.Cancer Stem Cells:The Architectsof the Tumor Ecosystem.Cell Stem Cell vol.24 41–53(2019).

10.Kreso,A.&Dick,J.E.Evolution of the cancer stem cell model.CellStem Cell vol.14 275–291(2014).

11.Shaffer,S.M.et al.Rare cell variability and drug-inducedreprogramming as a mode of cancer drug resistance.Nature 546,431–435(2017).

12.Neftel,C.et al.An Integrative Model of Cellular States,Plasticity,and Genetics for Glioblastoma.Cell 178,835-849.e21(2019).

13.Wang,L.et al.The phenotypes of proliferating glioblastoma cellsreside on a single axis of variation.Cancer Discovery 9,1708–1719(2019).

14.Weng,Q.et al.Single-Cell Transcriptomics Uncovers Glial ProgenitorDiversity and Cell Fate Determinants during Development andGliomagenesis.Cell Stem Cell 24,707-723.e8(2019).

15.Müller,S.et al.Single-cell profiling of human gliomas revealsmacrophage ontogeny as a basis for regional differences in macrophageactivation in the tumor microenvironment.Genome Biology 18,(2017).

16.Pombo Antunes,A.R.et al.Single-cell profiling of myeloid cells inglioblastoma across species and disease stage reveals macrophage competitionand specialization.Nature Neuroscience 24,595–610(2021).

17.Hara,T.et al.Interactions between cancer cells and immune cellsdrive transitions to mesenchymal-like states in glioblastoma.Cancer Cell 39,779-792.e11(2021).

18.Zhang,L.et al.Single-Cell Analyses Inform Mechanisms of Myeloid-Targeted Therapies in Colon Cancer.Cell 181,442-459.e29(2020).

19.Cheng,S.et al.A pan-cancer single-cell transcriptional atlas oftumor infiltrating myeloid cells.Cell 184,792-809.e23(2021).

20.Minussi,D.C.et al.Breast tumours maintain a reservoir of subclonaldiversity during expansion.Nature 592,302–308(2021).

21.Gao,R.et al.Punctuated copy number evolution and clonal stasis intriple-negative breast cancer.Nature Genetics 48,1119–1130(2016).

22.Macaulay,I.C.et al.G&T-seq:Parallel sequencing of single-cellgenomes and transcriptomes.Nature Methods 12,519–522(2015).

23.Dey,S.S.,Kester,L.,Spanjaard,B.,Bienko,M.&van Oudenaarden,A.Integrated genome and transcriptome sequencing of the same cell.NatureBiotechnology 33,285–289(2015).

24.Hou,Y.et al.Single-cell triple omics sequencing reveals genetic,epigenetic,and transcriptomic heterogeneity in hepatocellular carcinomas.CellResearch 26,304–319(2016).

25.Bian,S.et al.Single-cell multiomics sequencing and analyses ofhuman colorectal cancer.See worldwide website:science.org/doi/10.1126/science.aao3791

26.Zachariadis,V.,Cheng,H.,Andrews,N.&Enge,M.A Highly Scalable Methodfor Joint Whole-Genome Sequencing and Gene-Expression Profiling of SingleCells.Molecular Cell 80,541-553.e5(2020).

27.Kivioja,T.et al.Counting absolute numbers of molecules usingunique molecular identifiers.Nature Methods 9,72–74(2012).

28.Klein,A.M.et al.Droplet barcoding for single-cell transcriptomicsapplied to embryonic stem cells.Cell 161,1187–1201(2015).

29.Macosko,E.Z.et al.Highly parallel genome-wide expression profilingof individual cells using nanoliter droplets.Cell 161,1202–1214(2015).

30.Ziegenhain,C.et al.Comparative Analysis of Single-Cell RNASequencing Methods.Molecular Cell 65,631-643.e4(2017).

31.Reznikoff,W.S.Transposon Tn5.Annual Review of Genetics vol.42 269–286(2008).

32.Picelli,S.et al.Tn5 transposase and tagmentation procedures formassively scaled sequencing projects.Genome Research 24,2033–2040(2014).

33.Hennig,B.P.et al.Large-scale low-cost NGS library preparationusing a robust Tn5 purification and tagmentation protocol.G3:Genes,Genomes,Genetics 8,79–89(2018).

34.Sheng,K.,Cao,W.,Niu,Y.,Deng,Q.&Zong,C.Effective detection ofvariation in single-cell transcriptomes using MATQ-seq.Nature Methods 14,267–270(2017).

35.Tang,F.et al.mRNA-Seq whole-transcriptome analysis of a singlecell.Nature Methods 6,377–382(2009).

36.Picelli,S.et al.Smart-seq2 for sensitive full-length transcriptomeprofiling in single cells.Nature methods 10,1096–8(2013).

37.Picelli,S.et al.Full-length RNA-seq from single cells using Smart-seq2.Nature protocols 9,171–81(2014).

38.Fan,X.et al.Single-cell RNA-seq transcriptome analysis of linearand circular RNAs in mouse preimplantation embryos.Genome Biology 16,(2015).

39.Garvin,T.et al.Interactive analysis and assessment of single-cellcopy-number variations.Nature Methods vol.12 1058–1060(2015).

40.Sun,J.C.&Lanier,L.L.NK cell development,homeostasis and function:Parallels with CD8+T cells.Nature Reviews Immunology vol.11 645–657(2011).

41.Farber,D.L.,Yudanin,N.A.&Restifo,N.P.Human memory T cells:Generation,compartmentalization and homeostasis.Nature Reviews Immunologyvol.14 24–35(2014).

42.Pizzolato,G.et al.Single-cell RNA sequencing unveils the sharedand the distinct cytotoxic hallmarks of human TCRVδ1 and TCRVδ2γδTlymphocytes.Proceedings of the National Academy of Sciences of the UnitedStates of America 116,11906–11915(2019).

43.Uhlen,M.et al.A genome-wide transcriptomic analysis of protein-coding genes in human blood cells.Science 366,(2019).

44.Lin,W.et al.Establishment and characterization of new tumorxenografts and cancer cell lines from EBV-positive nasopharyngealcarcinoma.Nature Communications 9,(2018).

45.Ben-David,U.et al.Genetic and transcriptional evolution alterscancer cell line drug response.Nature 560,325–330(2018).

46.Ceccarelli,M.et al.Molecular Profiling Reveals BiologicallyDiscrete Subsets and Pathways of Progression in Diffuse Glioma.Cell 164,550–563(2016).

47.Hu,H.et al.Mutational Landscape of Secondary Glioblastoma GuidesMET-Targeted Trial in Brain Tumor.Cell 175,1665-1678.e18(2018).

48.Habib,N.et al.Massively parallel single-nucleus RNA-seq withDroNc-seq.Nature Methods 14,955–958(2017).

49.Sanchez-Vega,F.et al.Oncogenic Signaling Pathways in The CancerGenome Atlas.Cell 173,321-337.e10(2018).

50.Wang,J.et al.Clonal evolution of glioblastoma under therapy.NatureGenetics 48,768–776(2016).

51.Venkataramani,V.,Tanev,D.I.,Kuner,T.,Wick,W.&Winkler,F.Synapticinput to brain tumors:clinical implications.Neuro-oncology 23,23–33(2021).

52.Jung,E.et al.Emerging intersections between neuroscience andglioma biology.Nature Neuroscience vol.22 1951–1960(2019).

53.Venkatesh,H.S.et al.Electrical and synaptic integration of gliomainto neural circuits.Nature 573,539–545(2019).

54.Venkataramani,V.et al.Glutamatergic synaptic input to glioma cellsdrives brain tumour progression.Nature 573,532–538(2019).

55.Osswald,M.et al.Brain tumour cells interconnect to a functionaland resistant network.Nature 528,93–98(2015).

56.Henley,J.M.&Wilkinson,K.A.Synaptic AMPA receptor composition indevelopment,plasticity and disease.Nature Reviews Neuroscience vol.17 337–350(2016).

57.Diering,G.H.&Huganir,R.L.The AMPA Receptor Code of SynapticPlasticity.Neuron vol.100 314–329(2018).

58.Tirosh,I.et al.Single-cell RNA-seq supports a developmentalhierarchy in human oligodendroglioma.Nature 539,309–313(2016).

59.Neftel,C.et al.An Integrative Model of Cellular States,Plasticity,and Genetics for Glioblastoma.Cell 178,835-849.e21(2019).

60.Buenrostro,J.D.et al.Single-cell chromatin accessibility revealsprinciples of regulatory variation.Nature 523,486–490(2015).

61.Cao,J.et al.SINGLE-CELL GENOMICS Joint profiling of chromatinaccessibility and gene expression in thousands of single cells.Sciencevol.361(2018).

62.Lareau,C.A.et al.Droplet-based combinatorial indexing for massive-scale single-cell chromatin accessibility.Nature Biotechnology 37,916–924(2019).

63.Stoeckius,M.et al.Simultaneous epitope and transcriptomemeasurement in single cells.Nature Methods 14,865–868(2017).

64.Corces,M.R.et al.An improved ATAC-seq protocol reduces backgroundand enables interrogation of frozen tissues.Nature Methods 14,959–962(2017).

65.Matson,K.J.E.et al.Isolation of adult spinal cord nuclei formassively parallel single-nucleus RNA sequencing.Journal of VisualizedExperiments 2018,(2018).

66.Gu,W.et al.Depletion of Abundant Sequences by Hybridization(DASH):Using Cas9 to remove unwanted high-abundance species in sequencing librariesand molecular counting applications.Genome Biology 17,(2016).

67.Loi,D.S.C.,Yu,L.&Wu,A.R.Effective ribosomal RNA depletion forsingle-cell total RNA-seq by scDASH.PeerJ 9,e10717(2021).

68.Chen,S.,Zhou,Y.,Chen,Y.&Gu,J.Fastp:An ultra-fast all-in-one FASTQpreprocessor.in Bioinformatics vol.34(2018).

69.Shen,W.,Le,S.,Li,Y.&Hu,F.SeqKit:A cross-platform and ultrafasttoolkit for FASTA/Q file manipulation.PLoS ONE 11,(2016).

70.Li,H.seqtk Toolkit for processing sequences in FASTA/Qformats.GitHub 767,(2012).

71.Bushnell,B.,Rood,J.&Singer,E.BBTools Software Package.PLOS ONEvol.12 e0185056 https://sourceforge.net/projects/bbmap/(2017).

72.Li,H.&Durbin,R.Fast and accurate short read alignment withBurrows-Wheeler transform.Bioinformatics 25,(2009).

73.Li,H.et al.The Sequence Alignment/Map format andSAMtools.Bioinformatics 25,(2009).

74.Smith,T.,Heger,A.&Sudbery,I.UMI-tools:Modeling sequencing errorsin Unique Molecular Identifiers to improve quantification accuracy.GenomeResearch 27,(2017).

75.Quinlan,A.R.&Hall,I.M.BEDTools:A flexible suite of utilities forcomparing genomic features.Bioinformatics 26,(2010).

76.Garvin,T.et al.Interactive analysis and assessment of single-cellcopy-number variations.Nature Methods vol.12 1058–1060(2015).

77.Zaccaria,S.&Raphael,B.J.Characterizing allele-and haplotype-specific copy numbers in single cells with CHISEL.Nature Biotechnology 39,207–214(2021).

78.Das,S.et al.Next-generation genotype imputation service andmethods.Nature Genetics 48,(2016).

79.Gao,R.et al.Punctuated copy number evolution and clonal stasis intriple-negative breast cancer.Nature Genetics 48,1119–1130(2016).

80.Navin,N.et al.Tumour evolution inferred by single-cellsequencing.Nature 472,90–95(2011).

81.Minussi,D.C.et al.Breast tumours maintain a reservoir of subclonaldiversity during expansion.Nature 592,302–308(2021).

82.Nilsen,G.et al.Copynumber:Efficient algorithms for single-andmulti-track copy number segmentation.BMC Genomics 13,(2012).

83.Dobin,A.et al.STAR:Ultrafast universal RNA-seqaligner.Bioinformatics 29,(2013).

84.Bray,N.L.,Pimentel,H.,Melsted,P.&Pachter,L.Near-optimalprobabilistic RNA-seq quantification.Nature Biotechnology 34,(2016).

85.Patro,R.,Duggal,G.,Love,M.I.,Irizarry,R.A.&Kingsford,C.Salmonprovides fast and bias-aware quantification of transcript expression.NatureMethods 14,(2017).

86.Melsted,P.et al.Modular,efficient and constant-memory single-cellRNA-seq preprocessing.Nature Biotechnology 39,(2021).

87.Butler,A.,Hoffman,P.,Smibert,P.,Papalexi,E.&Satija,R.Integratingsingle-cell transcriptomic data across different conditions,technologies,andspecies.Nature Biotechnology 36,(2018).

88.Stuart,T.et al.Comprehensive Integration of Single-Cell Data.Cell177,1888-1902.e21(2019).

89.Finak,G.et al.MAST:A flexible statistical framework for assessingtranscriptional changes and characterizing heterogeneity in single-cell RNAsequencing data.Genome Biology 16,(2015).

90.Neftel,C.et al.An Integrative Model of Cellular States,Plasticity,and Genetics for Glioblastoma.Cell 178,835-849.e21(2019).

91.Gao,R.et al.Delineating copy number and clonal substructure inhuman tumors from single-cell transcriptomes.Nature Biotechnology 39,(2021).

92.Jin,S.et al.Inference and analysis of cell-cell communicationusing CellChat.Nature Communications 2021 12:1 12,1–20(2021).

93.Gómez-Rubio,V.ggplot2-Elegant Graphics for Data Analysis(2ndEdition).Journal of Statistical Software 77,(2017).

94.Kassambara,A.ggpubr:“ggplot2”Based Publication Ready Plots.Rpackage version 0.4.0(2020).

95.Gu,Z.,Eils,R.&Schlesner,M.Complex heatmaps reveal patterns andcorrelations in multidimensional genomic data.Bioinformatics 32,(2016).

96.Inkscape.org.Draw Freely|Inkscape.inkscape.org(2020).

SEQUENCE LISTING

<110> 香港科技大学

<120> 单细胞DNA和RNA的同时扩增

<130> HKUS.156XPCT

<160> 12

<170> PatentIn version 3.5

<210> 1

<211> 47

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> RNA序列的示例性接头

<220>

<221> misc_feature

<222> (21)..(25)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (47)..(47)

<223> n is a, c, g, or t

<400> 1

gtctcgtggg ctcggatcgt nnnnnttttt tttttttttt tttttvn 47

<210> 2

<211> 15

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性扩增引物

<400> 2

gtctcgtggg ctcgg 15

<210> 3

<211> 22

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 退火序列

<220>

<221> misc_feature

<222> (22)..(22)

<223> n is a, c, g, or t

<400> 3

tttttttttt tttttttttt vn 22

<210> 4

<211> 44

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> DNA序列的One-Tn5 示例性接头

<220>

<221> misc_feature

<222> (21)..(25)

<223> n is a, c, g, or t

<400> 4

gtctcgtggg ctcggtcatg nnnnnagatg tgtataagag acag 44

<210> 5

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> RNA序列的示例性接头

<220>

<221> misc_feature

<222> (21)..(25)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (30)..(30)

<223> n is a, c, g, or t

<400> 5

gtctcgtggg ctcggatcgt nnnnnggghn 30

<210> 6

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> RNA序列的示例性接头

<220>

<221> misc_feature

<222> (21)..(25)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (30)..(30)

<223> n is a, c, g, or t

<400> 6

gtctcgtggg ctcggatcgt nnnnntttvn 30

<210> 7

<211> 26

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性扩增引物

<400> 7

gatgtgtgga ggtctcgtgg gctcgg 26

<210> 8

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 镶嵌序列

<220>

<221> 磷酸化

<222> (1)..(1)

<400> 8

ctgtctctta tacacatct 19

<210> 9

<211> 33

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> Read1-Tn5序列/Read 1引物

<400> 9

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 10

<211> 34

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> I7 Index引物

<400> 10

ccgagcccac gagacctgtc tcttatacac atct 34

<210> 11

<211> 33

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> I5 Index引物

<400> 11

ctgtctctta tacacatctg acgctgccga cga 33

<210> 12

<211> 34

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> Read 2引物

<400> 12

agatgtgtat aagagacagg tctcgtgggc tcgg 34

Claims

1.一种用于从样本中扩增至少一个RNA序列和至少一个DNA序列的方法，包括：

a)提供包含至少一个RNA序列和至少一个DNA序列的样本；

b)任选地，从样本中纯化RNA序列和DNA序列；

c)通过使所述DNA序列与装载有第一DNA寡核苷酸接头的转座酶接触将所述DNA片段化，其中所述转座酶使所述DNA序列片段化，并将所述第一DNA寡核苷酸接头与所述DNA序列连接，以产生经标记的片段化DNA序列(fDNA)，其中各DNA寡核苷酸接头包括DNA特异性条形码、共享扩增引物序列和独特的分子标识符(UMI)；

f)给所述cDNA序列添加poly C尾；

i)使用共享引物序列同时扩增双链cDNA序列和fDNA序列。

2.根据权利要求1所述的方法，其中所述样本包括单细胞和/或细胞核。

3.根据权利要求2所述的方法，其中所述单细胞是细菌细胞、古菌细胞或真核细胞。

4.根据权利要求2所述的方法，其中步骤b)进一步包括裂解细胞以从细胞中分离RNA序列和DNA序列。

5.根据权利要求1所述的方法，其中步骤c)进一步包括提供与样本中的RNA序列和/或DNA序列退火的多个接头。

6.根据权利要求5所述的方法，其中所述多个接头在约2至约100之间、约2至5之间、或约4。

7.根据权利要求5所述的方法，其中步骤d)进一步包括提供至少2个或至少3个与样本中的两个或更多个RNA序列退火的接头。

8.根据权利要求1所述的方法，其中所述第一、第二或第三DNA寡核苷酸接头进一步包括镶嵌序列和Seq-1引物序列。

9.根据权利要求1所述的方法，其中所述转座酶是Tn5转座酶。

10.根据权利要求1所述的方法，其中步骤a)至i)在一个容器中进行。

11.根据权利要求1所述的方法，进一步包括：

j)通过使所述cDNA和fDNA序列与装载有第四DNA寡核苷酸接头的转座酶接触将所述cDNA与fDNA片段化，其中所述转座酶使cDNA和fDNA序列片段化，并将所述第四DNA寡核苷酸接头与cDNA和fDNA序列连接以产生DNA文库，其中所述第四DNA寡核苷酸接头包括镶嵌序列和DNA退火序列,其中所述DNA退火序列与测序引物互补。

12.根据权利要求11所述的方法，进一步包括：

13.寡核苷酸接头组，其中每个接头包括扩增引物序列、DNA特异性条形码或RNA特异性条形码、独特的分子标识符序列和退火序列，其中一个寡核苷酸接头具有RNA特异性条形码，而另一个寡核苷酸接头具有RNA特异性条形码。

14.根据权利要求13所述的寡核苷酸接头组，其中所述接头进一步包含镶嵌引物和Seq-1引物。

15.一种寡核苷酸接头，其中所述接头包括扩增引物序列、DNA特异性条形码或RNA特异性条形码、独特的分子标识符序列和退火序列。

16.根据权利要求15所述的寡核苷酸接头，其中所述接头还包括镶嵌引物和/或Seq-1引物。

17.根据权利要求16所述的寡核苷酸接头，其中所述接头包括SEQ ID NO:1、SEQ IDNO:4、SEQ ID NO:5或SEQ ID NO:6的核苷酸序列或与SEQ ID NO:1、SEQ ID NO:4、SEQ IDNO:5或SEQ ID NO:6的核酸序列具有至少95％同一性的核苷酸序列。