CN109312331A

CN109312331A - 全转录组扩增的方法

Info

Publication number: CN109312331A
Application number: CN201780034548.XA
Authority: CN
Inventors: C·宗
Original assignee: Baylor College of Medicine
Current assignee: Baylor College of Medicine
Priority date: 2016-04-01
Filing date: 2017-03-31
Publication date: 2019-02-05
Anticipated expiration: 2037-03-31
Also published as: EP3436581A4; US20200299759A1; CN109312331B; EP3436581A1; EP3436581B1; WO2017173328A1; US11162134B2

Abstract

本公开的实施方案包括用于总RNA单细胞测序的高度灵敏的定量方法。在特定情况下，方法利用多种引物与RNA的退火，对从其逆转录的单链DNA进行多核苷酸加尾，以及在引物中利用条形码以用于扩增由第二链合成产生的扩增子。

Description

全转录组扩增的方法

相关申请的交叉引用

本申请要求2016年4月1日提交的美国临时专利申请序列号62/316,880的优先权，其通过引用整体并入本文。

关于联邦政府资助的研究或开发的声明

本发明是在NIH授予的1DP2EB020399-01下由政府支持下完成的。政府拥有本发明的某些权利。

技术领域

本公开的实施方案至少包括核酸扩增、核酸操作、遗传学、医学等领域。本公开的实施方案的领域涉及转录组扩增，包括例如来自一个或多个细胞的转录组扩增。

背景

单细胞RNA测序的发展已允许以解剖学分辨率检测基因表达，这是大量RNA-seq方法无法获得的(Tang等，2009；Ramskold等，2012；Hashimshony等，2012；Picelli等，2013；Wu等，2014；Islam等，2014；Streets等，2014；Jaitin等，2014；Fan等，2015；Chapman等，2015；Briese等，2015)。虽然单细胞RNA-seq已成功用于鉴定复杂组织中的新的细胞类型，但这些方法中的技术噪声仍然很大，并影响检测细微生物学差异的能力(Marinov等，2014；Grun等，2014)。相同类型的细胞具有源自内在和外在来源的动态转录变异(Elowitz等，2002；Golding等，2005；Cai等，2006；Raj等，2008)并且使用当前的方法进行鉴定是有挑战性的。可以检测这种转录变异以及相关细胞(例如异质肿瘤细胞)或细胞状态(例如发育中的细胞命运)之间的基因表达的细微差异的灵敏和定量的单细胞RNA-seq测定是非常合乎需要的。

简述

本公开涉及用于制备多种核酸的系统、方法和组合物，其还可包括多种核酸的扩增和/或分析。在特定实施方案中，例如，多种核酸是一个或多个细胞或无细胞材料的完整或部分转录组。转录组可来自单个细胞或多个细胞，诸如两个细胞、三个细胞、四个细胞、五个细胞、十个细胞、数十个细胞、数百个细胞、数千个细胞、数万个细胞等等。在其中转录组来自多个细胞的实施方案中，多个细胞可以是或可以不是相同类型、基因型或表型。在其中核酸源自多个细胞的情况下，例如，细胞可以来自或可以不来自相同来源或相同组织。细胞可以是任何类型的，但在某些实施方案中，细胞是免疫细胞、癌细胞、怀疑是癌性的细胞等。无细胞核酸材料包括存在于血液或一种或多种其他体液中的核酸。在特定实施方案中，分析总RNA转录组，并且例如，所述方法不限于mRNA，还包括非mRNA种类，诸如长链非编码RNA或微RNA。

本公开的实施方案总体涉及用于制备和扩增转录组序列(诸如单细胞的总RNA，或任选地多个细胞的部分或全部RNA)的方法和组合物。技术人员将认识到，本公开的方法允许从转录组扩增核酸的方法，其中所述方法的所得产物是多个扩增子(代表相应转录组的部分或全部)，并且至少在一些情况下，然后以线性或非线性方式(诸如通过PCR)进一步扩增产生的扩增子。

本公开的方法的实施方案提供了对本领域目前使用的方法的显著改进。例如，与本领域的多种方法相比，通过扩增来自单细胞的总RNA检测单个细胞之间的真正生物学变异得到了极大的改进。本文提供的方法的具体实施方案介绍了用于全基因体扩增(wholegene body amplification)的方法。例如，全基因体扩增使得能够有效检测剪接变体、非编码RNA和非聚腺苷酸化RNA。本文提供的方法的另外的实施方案为每个独立复制的扩增子引入“条形码(barcode)”。该条形码允许去除PCR偏好性(PCR bias)，从而提高准确性。

本文提供的方法可用于进行从单个细胞提取的总RNA的扩增，尽管在一些情况下，可以从多于一个细胞中提取总RNA。因此，至少某些方法允许对一个单细胞进行均一的全转录组扩增，这允许在至少一些实施方案中通过标准高通量测序平台准确检测基因表达。

在一个实施方案中，存在从一个或多个细胞产生完全扩增子的方法，其包括以下步骤：将来自一个或多个细胞的核酸暴露于第一多种引物和包含链置换活性的逆转录酶，所述暴露在约8℃至约50℃的温度范围的条件下，其中引物与核酸退火，并且引物通过逆转录酶延伸，其中第一多种引物中的引物富含40％-60％的G或富含40％-60％的C，从而产生包含游离引物、模板RNA和与引物退火的模板RNA的混合物；将与引物退火的RNA模板暴露于两个或更多个退火和cDNA合成步骤，从而产生RNA模板、未退火的引物和第一链cDNA的混合物；将所述混合物暴露于使未退火的引物和RNA模板消化的条件；将所述混合物暴露于使第一链cDNA的3'末端接上重复的C或G核苷酸尾的条件；将所述混合物暴露于第二多种引物和DNA聚合酶，所述暴露在约48℃至约72℃的温度范围内的条件下，其中引物与核酸退火，并且引物通过DNA聚合酶延伸，其中第二多种引物包含富含40％-60％的G或富含40％-60％的C的序列和条形码区，从而产生条形码化的双链cDNA扩增子。在一个具体实施方案中，该方法还包括使条形码化的双链cDNA扩增子进行扩增的步骤。在具体的实施方案中，暴露混合物的步骤在低于60℃的温度下进行。在某些实施方案中，该方法提供从一个或多个细胞进一步获得核酸(诸如通过裂解一个或多个细胞以及从其提取核酸)。在具体的实施方案中，核酸包括RNA。

在本公开的实施方案中，可以使用某些引物，包括至少第一或第二多种引物中的引物。在具体的实施方案中，第一多种、第二多种引物或两者中的引物包含下式：

X_nY_mZ_p，

其中n大于2且X富含40％-60％的G或富含40％-60％的C，其中Y为任何核苷酸并且m为5-8个核苷酸，并且，其中，当X_n富含G时，Z为G，或当X_n富含C时，Z为C，其中p是2-20个核苷酸。在特定情况下，m为5个核苷酸；p为3个核苷酸；p为20个核苷酸；n为20-40个核苷酸；n为25-35个核苷酸；或n为24-28个核苷酸。在一个具体实施方案中，逆转录酶是SuperscriptIII。在某些情况下，引物-模板退火和第一链cDNA合成在约8℃至约50℃的温度范围内进行。在其中需要未退火的引物消化的某些实施方案中，将反应混合物在约30℃至约60℃的温度范围内暴露于T4DNA聚合酶和/或外切核酸酶I(或具有3’->5’消化活性和/或5’->3’聚合功能的任何酶)中的至少一种。在具体的实施方案中，将反应混合物在约30℃至40℃的温度范围内进一步暴露于蛋白酶。在具体的实施方案中，RNA模板消化在RNA酶H和/或RNA酶If中的至少一种存在的情况下于约37℃的温度范围下进行。在某些情况下，在末端脱氧核糖核酸转移酶(TdT)存在的情况下，在过量的C或G核苷酸存在下，在约37℃的温度范围内进行cDNA的3'末端加尾。在一些实施方案中，在3'末端加尾后，添加第二多种引物，其中第二多种引物包含5-8个随机核苷酸的扩增子指标(amplicon index)。在某些情况下，在加入第二多种引物后，将反应混合物加热至约95℃的温度。在具体的实施方案中，将混合物冷却至约40-50℃的温度，并将聚合酶引入反应混合物中以进行第二链cDNA合成。在某些实施方案中，用于第二链合成的聚合酶是Deep Vent(外切-(exo-))。在某些情况下，产生双链扩增子的条件需要热循环以促进引物-模板退火和第二链cDNA合成，其中循环的温度分别为约48℃和约72℃，并且使温度循环两次或更多次。

在特定实施方案中，通过PCR对双链cDNA扩增子进行扩增。在一些实施方案中，将双链cDNA扩增子暴露于富含GAT的引物和DNA聚合酶的混合物。在某些实施方案中，DNA聚合酶是Deep Vent(外切-)和/或Taq聚合酶和/或其他热稳定性聚合酶。在特定的实施方案中，双链cDNA在至少90℃的温度下解链。在某些情况下，在解链后，将混合物冷却至低于引物的解链温度的温度，以促进单链cDNA与引物之间的退火，例如在约55℃至60℃的温度范围内。在一些情况下，将混合物的温度升高至至少70℃以促进与引物退火的核酸模板的延伸。在具体的实施方案中，可以循环用于解链、退火和延伸的温度，以实现双链cDNA扩增子的非线性扩增。在一些情况下，热循环可包括10-30个循环。在一些情况下，可通过暴露于QiagenPCR纯化试剂盒(Qiagen PCR cleanup kit)或0.9X Ampure珠中的至少一种进一步纯化PCR扩增的cDNA。在具体的实施方案中，对PCR扩增的cDNA进行测序或文库构建方法。

在特定实施方案中，将一种或多种cDNA扩增子的序列定位绘图于基因组。在具体的实施方案中，通过相对于所有基因的所有指标的总数计算一个基因的独特扩增子指标的数量来定量基因表达。

在特定实施方案中，测定cDNA扩增子中的一种或多种的特定核苷酸或核苷酸序列，诸如扩增子中的一个或多个突变(其代表核酸中的一个或多个相应突变)。在具体的实施方案中，突变是疾病相关的突变。在具体的实施方案中，所述一个或多个细胞来自胎儿、婴儿、儿童、青少年或成人。在具体的实施方案中，可将所述一个或多个细胞固定在组织学制剂中。然而，在一些情况下，所述一个或多个细胞是新鲜的或冷冻的。在某些情况下，可以从血液中提取所述一个或多个细胞。在特定情况下，可从患有医学病况或怀疑患有医学病况(诸如遗传病)的个体获得所述一个或多个细胞。在特定情况下，医学病况包括癌症。在一些情况下，医学病况包括免疫反应。

在一个实施方案中，存在测定来自个体的一种或多种基因的表达以鉴定个体中的医学病况或鉴定个体患有该医学病况的风险的方法，其包括将通过本公开的方法从个体的样品产生的cDNA扩增子的序列的部分或全部与标准品进行比较的步骤。标准品可包含来自个体的正常细胞的RNA，诸如来自一个或多个其他个体的正常细胞的RNA。在特定的实施方案中，来自个体的样品中的细胞中的基因表达水平以指标标准化序列读段(index-normalized sequence reads)的数量表示。在一些情况下，比较步骤包括将来自个体的样品中的细胞的指标标准化序列读段的数量与标准品进行比较。在具体的实施方案中，指标标准化序列读段中的至少一些包含一种或多种特定基因。在某些实施方案中，比较步骤包括测定与标准品相比的样品的序列读段中一个或多个特定核苷酸的存在或不存在。在其他实施方案中，比较步骤包括测定与标准品相比的样品的序列读段中一种或多种特定基因融合产物的存在。

在一个实施方案中，存在从一个或多个细胞扩增RNA的方法，所述方法包括以下步骤：将来自所述一个或多个细胞的RNA暴露于第一多种引物和至少一种逆转录酶以产生反应混合物；使所述反应混合物经受允许引物退火至RNA和第一链cDNA合成以产生延伸的DNA链的条件；消化未退火的引物；使反应混合物中的酶失活；消化反应混合物中的RNA；使延长的DNA链的3'末端加尾；在合适的条件下使用第二多个引物和至少一种DNA聚合酶产生第二链cDNA合成，以产生双链完全扩增子，其中第一多种引物、第二多种引物或两者中的引物包含下式：X_nY_mZ_p，其中n大于2且X富含40％-60％的G或富含40％-60％的C，其中Y为任何核苷酸，并且m为5-8个核苷酸，以及其中当X富含G时Z为T和G，或当X富含C时Z为C，其中p为2-20个核苷酸。在具体的实施方案中，m为5个核苷酸和/或p为3个核苷酸和/或p为20个核苷酸和/或n为20-40个核苷酸和/或n为25-35个核苷酸和/或n为24-28个核苷酸。

在特定实施方案中，第一链cDNA合成使用逆转录酶Superscript II、SuperscriptIII或Superscript IV。在至少一些情况下，在0-10℃的范围内进行第一多种引物对RNA的退火和/或第二多种引物对DNA的退火。可至少在30-55℃下进行第一链cDNA合成。在至少一些情况下，未退火的引物用具有3'至5'外切核酸酶活性的DNA聚合酶和/或外切核酸酶中的至少一种消化。具有3'至5'外切核酸酶活性的DNA聚合酶和/或外切核酸酶可以是T4DNA聚合酶和/或外切核酸酶I中的至少一种。消化引物可以于在60℃-65℃的范围内的温度下进行。在具体实施方案中，在于72℃-95℃的范围内的温度下使酶失活。在某些实施方案中，利用至少一种核糖核酸酶诸如RNA酶H和/或RNA酶If中的至少一种消化RNA。可在于30-50℃的范围内的温度下进行RNA的消化。在某些情况下，使用至少一种末端脱氧核糖核苷酸转移酶(诸如TdT末端转移酶)使延伸的DNA链的3'末端加尾。例如，延伸的DNA链的3'末端的加尾可使用脱氧胞苷三磷酸或脱氧鸟苷三磷酸。在当第一多种引物富含G的情况下，可使用脱氧胞苷三磷酸进行加尾。在当第一多种引物富含C的情况下，可使用脱氧鸟苷三磷酸进行加尾。在特定方面，在10-45℃的温度范围内进行加尾步骤。产生步骤可在10-45℃的温度下进行和/或产生步骤可使用Deep Vent(外切-)DNA聚合酶和/或Taq聚合酶。产生步骤可包括在于30-55℃的范围内的温度下将第二多种引物对扩增子的3'末端退火。在某些情况下，DNA延伸发生以产生双链DNA的条件是72℃。

在特定实施方案中，第二多种引物中的引物包含扩增子指标以控制聚合酶链式反应效率偏好性。可通过线性或非线性方法进一步扩增双链全扩增子。在具体的实施方案中，对扩增的扩增子中的至少一些进行测序。可以分析序列相对于对照样品的插入、缺失、单核苷酸变异(SNV)、剪接变体、基因融合产物和个体转录物的存在或不存在中的一种或多种。

在特定实施方案中，从个体分离从其获得RNA的所述一个或多个细胞。所述一个或多个细胞可以是循环肿瘤细胞。在一些情况下，所述一个或多个细胞是外周血单核细胞(PBMC)。对扩增的扩增子中的一种或多种分析癌症突变、基因融合产物、剪接变体、癌基因的表达、肿瘤抑制因子的表达的丧失和肿瘤特异性抗原的表达中的一种或多种。在分析癌基因表达的情况下，癌基因可以是BAG1、Bcl-2、CTNNB1、BRAF、FOS、JUN、EGFR、ERBB2、ETV6-NTRK3基因融合物、Gankyrin、GT198、MDM2、MIG7、MYC、SRC、RAS、SKI、TCTP、ABL、CBL、ROS1、AKT、BAX、FKHR、CDK2、CDK4、CCND1、CCNE1、PIK3CA、HPV-E7、HPV-E6、AURKA、miR-155、FAS、GLI、SHH、SMO、NOTCH、ILK、RAR、SOX、WNT1、TAL1、MLL、HOXA1、MITF、EVI1、BCL6和/或HOXA9。在分析一种或多种肿瘤抑制因子的情况下，肿瘤抑制因子可以是APC、BRCA1、BRCA2、CDKN1B、CDKN1C、DLD/NP1、HEPACAM、INK4、miR-145、p15、p16、p53、p57、p63、p73、PTEN、Rb、SDHA、SDHB、SDHC、SDHD、SFRP1、TCF21、TIG1、TP53、TSC1/TSC2和VHL、BCL2、INPP4B、LKB1、ARF、ATM/ATR、CHK1、CHK2、DNA-PK、FANCs、HIPK2、NBS1、WT1、MUTYH、BLM、RECQL4、WRN、MLH1、MSH2、MSH6、PMS2、XPA、XPC、XPD、FBXW7、PTCH1、SUFU、EXT1、EXT2、NF1、NF2、BMPR1A、SMAD2、SMAD3、SMAD4、TGFBR1、MEN1、APC、AXIN、CTNNA1、CDH1、WNT5A、GPC3、HRPT2和/或HPC1。在其中分析一种或多种肿瘤特异性抗原的情况下，肿瘤特异性抗原可以是EphA2、HER2、GD2、磷脂酰肌醇蛋白聚糖-3、5T4、8H9、αvβ6整联蛋白、B细胞成熟抗原(BCMA)B7-H3、B7-H6、CAIX、CA9、CD19、CD20、CD22、κ轻链、CD30、CD33、CD38、CD44、CD44v6、CD44v7/8、CD70、CD123、CD138、CD171、CS1、CEA、CSPG4、EGFR、EGFRvIII、EGP2、EGP40、EPCAM、ERBB3、ERBB4、ErbB3/4、FAP、FAR、FBP、胎儿AchR、叶酸受体α、GD3、HLA-AI、HLA-A2、IL11Ra、IL13Ra2、KDR、λ、Lewis-Y、MCSP、间皮素、Muc1、Muc16、NCAM、NKG2D配体、NY-ESO-1、PRAME、PSCA、PSC1、PSMA、ROR1、Sp17、存活蛋白、TAG72、TEM1、TEM8、癌胚抗原、HMW-MAA、VEGF受体、MAGE-A1、MAGE-A3、MAGE-A4、CT83、SSX2、XIAP、cIAP1、cIAP2、NAIP和/或Livin。

在一些情况下，可以对扩增的扩增子中的一种或多种分析肿瘤特异性T细胞受体(TCR)的表达，并且TCR可以靶向MART-1、gp100、NY-ESO-1和/或一种或多种表面抗原。可以对扩增的扩增子中的一种或多种分析一种或多种免疫细胞活化标记物诸如CD3、CD8、CD25、GZMB、CD45RO、PTPRC和/或IFNG的存在。

在一些情况下，可以从个体的瘤(neoplasia)中分离所述一个或多个细胞。在具体的实施方案中，分析多于一个细胞以确定肿瘤异质性。在至少一些情况下，在治疗(诸如化学疗法、免疫疗法、激素疗法、放射和/或手术中的至少一种)之前和之后收集一个或多个细胞。

在细胞来自肿瘤的情况下，肿瘤可以是：急性淋巴母细胞性白血病，急性骨髓性白血病，慢性淋巴细胞白血病，慢性髓性白血病，急性单核细胞白血病，霍奇金淋巴瘤，非霍奇金淋巴瘤，乳腺、前列腺、肺和结肠的癌症或上皮的癌症/癌，诸如乳腺癌、结肠癌、前列腺癌、头颈癌、皮肤癌、生殖泌尿道癌例如卵巢癌、子宫内膜癌、宫颈癌和肾癌，肺癌，胃癌，小肠癌，肝癌，胰腺癌，胆囊癌，胆管癌，食道癌，唾液腺癌和/或甲状腺癌。

所述一个或多个细胞可以来自发育中的胎儿。在一些情况下，对一个或多个细胞的扩增的扩增子中的一种或多种分析先天性病症或已知的表型后果。先天性病症或已知的表型后果可以是β-地中海贫血、唐氏综合征、囊性纤维化、镰状细胞病、泰-萨病、脆性X综合征、脊髓性肌萎缩症、血红蛋白病、α-地中海贫血、X连锁病症、脊柱裂、无脑畸形、先天性心脏缺损、肥胖、糖尿病、癌症、胎儿性别、胎儿RHD、胎儿HLA单倍型或父源突变(paternallyderived mutation)。

在特定实施方案中，分析一个或多个细胞以追踪与细胞谱系和分化相关的转录组学变化。所述一个或多个细胞可以是干细胞，并且可使干细胞经受诱导分化的条件。可以在不同时间对所述一个或多个干细胞进行采样。在具体实施方案中，分析一个或多个细胞的扩增的扩增子中的一种或多种以确定干细胞分化期间的转录组异质性。在特定情况下，所述一个或多个细胞是经过修饰以表达Cas9和一种或多种单一引导RNA(sgRNA)的细胞。在一些实施方案中，对一个或多个细胞的扩增的扩增子中的一种或多种分析插入、缺失、单核苷酸变异(SNV)中的一种或多种的存在，以及一种或多种sgRNA的一个或多个靶标的存在或不存在。

在某些情况下，所述一个或多个细胞是原核细胞，诸如细菌。在特定情况下，从感染所述细菌的个体采集细胞。诸如基于本公开的方法的结果可以向个体施用抗生素疗法。在特定情况下，在抗生素治疗期间分析细菌的扩增的扩增子中的一种或多种。

可以对扩增的扩增子中的一种或多种分析与抗生素抗性相关的突变或插入或缺失的一种或多种的出现。

在特定实施方案中，RNA是总RNA转录组。

前面已经相当广泛地概述了本发明的特征和技术优点，以便可以更好地理解随后的本发明的详细描述。在下文中将描述本发明的另外的特征和有利方面，其形成本发明权利要求的主题。本领域技术人员应该理解，所公开的概念和具体实施方案可以容易地用作修改或设计用于实现本发明相同目的的其他结构的基础。本领域技术人员还应该认识到，这种等同构造不背离所附权利要求中阐述的本发明的精神和范围。当结合附图考虑时，从以下描述将更好地理解被认为是本发明的特征(关于其组织和操作方法，以及其他目的和有利方面)的新颖特征。然而，应该清楚地理解，提供每个附图仅用于说明和描述的目的，而无意作为对本发明的限制的定义。

附图简述

为了更完整地理解本发明，现在参考以下结合附图的描述，在所述附图中：

图1A-1E。图1A说明了公开的用于全转录组扩增的方法的示意图。'PolyC加尾'是指通过末端转移酶的加尾反应。dT20是指20个连续的胸腺嘧啶碱基。红色表示常见的MALBAC引物序列；蓝色表示连续三个G或T的末端；绿色表示合成的cDNA。(图1B)显示将公开的发明方法(MATQ-seq)的沿基因体的读取覆盖与现有方法进行比较的图。阴影区域，覆盖的s.d.。(图1C)提供了在单个HEK293T细胞中所公开的方法(红色)与现有方法(蓝色)之间检测到的基因数量的比较。RPM，每百万定位绘图的读段的读段数(reads per millionmapped reads)。***，P＝1.6×10^-6(对于0<RPM≤10)和P＝2.1×10^-5(对于10<RPM≤100)(双样本t-检验)。n.s.，不显著(P＝0.4)。下合页形和上合页形(lower and upper hinges)对应于第25百分位数和第75百分位数，上须和下须表示标准偏差，方形对应于平均值，点表示单细胞数据。(图1D)显示在公开的方法(红色)与现有方法(蓝色)中在单细胞对之间重复检测的基因的百分比。误差棒：s.e.m。(图1E)提供所公开方法(红色)与现有方法(蓝色)中单细胞的两两基因表达比的比较。误差棒，s.d.。

图2A-2F。图2A-2E提供单个HEK293T细胞(n＝38)的基因表达测量的主成分分析，其显示单细胞平均物(single-cell average，n＝10)簇集在单细胞的平均值(mean ofsingle cells)附近。每个图显示两个连续的主成分。由每个成分解释的变化百分比在轴标签中给出。(图2F)显示每个主成分的方差百分比(variance percentage)。

图3A-3E。图3A显示比较在单细胞与单细胞平均物之间高度相关的平均表达水平(表示为APM或每百万个总扩增子的扩增子数)的图。虚线表示y＝x。(图3B)显示比较与单细胞平均物相比的单细胞中基因表达的标准偏差的图。虚线表示y＝x。(图3C)提供单细胞与单细胞平均物中基因表达的偏度的图。(图3D)显示Fano因子在两组单细胞之间是相关的。(图3E)显示Fano因子在单细胞与单细胞平均物之间不相关。

图4A-4C描绘了单个HEK293T细胞(对于每个测定n＝5)中通过SUPeR-seq、Smart-seq2和MATQ-seq检测的(图4A)lncRNA、(图4B)miRNA和(图4C)蛋白质编码基因的比较。从GSE53386(Fan，等，2015)下载了SUPeR-seq数据。从GSE49321(2)下载了SMART-seq2数据。在不同研究中使用不同的测序模式，我们需要相似数量的在Tophat中定位绘图得分＝50的读段来进行均等比较(equal footing comparison)。进行下采样(downsampling)以达到350-400万个片段的水平。使用与MATQ-seq数据分析相同的管线(pipeline)重新分析了SUPeR-seq和SMART-seq2数据。miRNA检测可能来自其成熟前形式(pre-mature form)，因为从miRNA分子生成的小扩增子不能得到有效扩增。下合页形和上合页形对应于第25百分位数和第75百分位数，上须和下须代表标准偏差，方形对应于平均值，并且图中的每个点代表一个细胞。Gencode(GRCh37.p13)用于基因注释。Ensembl BioMart用于对每个注释的Ensembl基因的类别进行分类。

图5显示外部RNA对照联盟(External RNA Controls Consortium，ERCC)加标(spike-in)的平均表达水平对比每反应的加标分子的平均表达水平。本发明人对具有200万倍稀释的ERCC加标的6份平均的1/5单细胞样品进行了测序。对于200万倍稀释，有7个加标平均每个样品具有1.1个分子(ERCC-00014、ERCC-00028、ERCC-00039、ERCC-00067、ERCC-00077、ERCC-00143和ERCC-00150)。在六个实验中，这七个基因的检测次数分别为2次、5次、3次、2次、5次、5次和3次。这些加标的检测效率估计为(2+5+3+2+5+5+3)/7/6＝3.57/6＝59.5％±8.8％。对于转录物数量平均值等于1.1，泊松分布将具有66.7％的非零频率。因此，MATQ-seq对ERCC加标的捕获效率为(59.5％±8.8％)/66.7％＝89.2％±13.2％。

图6显示6份ERCC加标样品的基因表达水平的两两相关性。log-log皮尔逊相关系数显示在每个图中。ERCC加标与平均皮尔逊相关系数(等于0.946±0.003)高度相关，证明了MATQ-seq的高重现性。

图7显示基因上的指标化扩增子覆盖(indexed amplicon coverage)的分布。红线是10个HEK293T单细胞的平均覆盖。指标相对均匀地分布在基因体上，表明对于MATQ-seq没有明显的方向性偏好。阴影区域表示S.E.M。

图8A-8D提供用于不同测定的两两基因表达比的直方图。x轴表示以log10标度表示的基因表达的比率，y轴表示基因数量。误差棒：标准偏差。(图8A)针对SMART-seq方法(Picelli等，2013)下载并分析了4个单细胞基因表达数据。(图8B)针对SMART-seq2(Picelli等，2013)下载并分析了7个基因表达数据。(图8C)针对SUPeR-seq(Fan等，2015)下载并分析了7个单细胞数据。(图8D)针对使用独特的分子标识符的单细胞RNA-seq(STRT-seq)(Islam等，2014)，下载并分析了99个细胞。

图9显示与现有方法相比所公开的方法(MATQ-seq)的基因表达比率的累积概率。图1E和图8中描述的基因表达比数据用于生成概率密度函数。绘制了用于不同测定的概率密度函数的累积曲线。x轴表示以log10标度表示的基因表达的比率，y轴表示累积概率。MATQ-seq与SMART-seq2、SMART-seq、SuPeR-seq和STRT-seq之间的KS检验的P值分别为5.8838×10^-21、7.1819×10^-49、9.6261×10^-32和7.2462×10^-81。

图10A-10C。图10A-10B显示单细胞和单细胞平均物的主成分分析，其中基因表达通过读段数(RPM)定量。使用定位绘图到外显子区域的读段。重要的是，这表明单细胞平均物偏离中心。图10C显示每种主成分的方差百分比。第一主成分贡献总方差的约87％，前两个成分贡献约99％。这表明系统PCR扩增噪声主导方差。相反，基于扩增子的基因表达定量显示平滑得多的主成分方差的减少(图6)。

图11显示单细胞平均物的基因表达水平的两两比较。随机选择5个HEK293T单细胞平均物。将每百万个扩增子的扩增子数(基于外显子的定量)用于基因表达定量。log-log皮尔逊相关系数示于图上。高log-log相关系数证明了MATQ-seq的高重现性。

图12显示个体单细胞的基因表达水平的两两比较。随机选择5份HEK293T单细胞样品。将每百万个扩增子的扩增子数(基于外显子的定量)用于基因表达水平。log-log皮尔逊相关系数示于图上。与单细胞平均物相比，单细胞相关性较低(图19)，表明在单细胞间存在异质性。

图13A-13B。图13A提供了HEK293T样品的所有基因的变异系数(coefficient ofvariation，CV)。为了避免技术噪声的低效采样，仅对在所有单细胞平均物中检测到表达的基因进行F检验。将基于外显子的定量用于分析。值得注意的是，对于绝大多数基因而言，单细胞CV分布与单细胞平均物的CV分布重叠。图13B提供了根据对单细胞与单细胞平均物之间的方差进行的F-检验具有FDR<0.1的基因的CV。为了避免技术噪声的低效采样，仅对在所有单细胞平均物中检测到表达的基因进行F检验。将基于外显子的定量用于分析。值得注意的是，对于绝大多数基因而言，单细胞CV分布与单细胞平均物的CV分布重叠。

图14A-14F。图14A-14E显示基于定位绘图到内含子区域的扩增子的单细胞和单细胞平均物的主成分分析。与基于外显子的PCA一致，当主成分的百分比变小时，单细胞平均物仍然簇集。图14F显示主成分的方差百分比的分布表现出方差的平滑减小。

图15A-15C。图15A提供比较单细胞样品的基因平均表达水平与单细胞平均物的基因平均表达水平的散点图。(图15B)比较单细胞的基因表达的标准偏差与单细胞平均物的基因表达的标准偏差的散点图。虚线表示y＝x。(图15C)单细胞中基因表达的偏度。(图15D)单细胞平均物中基因表达的偏度。与单细胞平均物相比，单细胞基因表达偏度分布具有偏度大的长尾，表明通过MATQ-seq捕获的基因表达变异大。

图16A-16D显示38个HEK293T单细胞(克隆-1)中4个基因的基因表达直方图中的具有不同偏度的基因的实例。(图16A-16B)两个偏度大于3的基因，它们被认为是“爆发”基因。对于基因FAM13A，存在表达水平大至约170APM的一个细胞，而大多数细胞小于50APM。对于基因TBL1Y，有两个细胞的基因表达水平高于700APM，而大多数(即36个细胞)小于200APM。(图16C-16D)两个偏度小于0.5的基因。这两个基因的基因表达没有显著的异常值。

图17A-17B显示两种不同HEK293T克隆之间的相似性。(图17A)不同克隆之间单细胞的平均基因表达水平的散点图。0.947的皮尔逊相关系数表明这两个克隆的平均转录组谱非常相似。(图17B)通过克隆-1(黑色)与克隆-2(蓝色)之间的PCA图捕获的克隆分离。

图18A-18F提供第二HEK293T克隆的主成分分析。(图18A-18E)基于定位绘图到外显子区域的扩增子的单细胞和单细胞平均物(HEK293T克隆-2，10个单细胞和10个单细胞平均物)的主成分分析。与第一个克隆中的观察一致，当主成分的百分比变小时，单细胞平均物仍然很好地簇集。(图18F)主成分的方差百分比的分布显示了方差的平滑减少。

图19A-19D提供了第二HEK293T克隆的基因表达分析。对10个单细胞和10个单细胞平均物进行测序。基因表达的定量是基于外显子的。(图19A)比较单细胞样品的基因平均表达水平与单细胞平均物的基因平均表达水平的散点图。(图19B)比较单细胞的基因表达的标准偏差与单细胞平均物的基因表达的标准偏差的散点图。虚线表示y＝x。(图19C)基于对单细胞与单细胞平均物之间的方差进行的F检验具有FDR>0.1的基因的变异系数(CV)。(图19D)基于对单细胞与单细胞平均物之间的方差进行的F检验具有FDR<0.1的基因的CV。鉴定了总共292个基因。

图20显示两个不同HEK293T克隆之间的Fano因子的散点图。本发明人在两个克隆中均发现274个基因具有统计学上显著的转录变异(FDR<0.3)。两个克隆的Fano因子之间的相关系数等于0.44。

图21A-21E显示MCF10A样品的主成分分析。本发明人对6个单细胞和6个单细胞平均物进行了测序。将基于内含子的定量用于分析。6个主成分的变异百分比均匀下降。单细胞平均物紧密簇集，而个体单细胞散开。与单细胞平均物相比，在单细胞中有425个FDR<0.05的基因被鉴定为具有大的转录变异。

图22A-22C显示双链体特异性核酸酶处理对转录组的影响。双链体特异性核酸酶处理前后的单细胞的主成分分析。通过双链体特异性核酸酶处理单细胞以除去从核糖体RNA扩增的DNA片段。处理前后的样品紧邻前4个主成分(约90％的方差)，表明核糖体去除不会显著改变基因表达谱。

图23显示双链体特异性核酸酶处理对不同类型的基因的影响。与PCA分析(图22)一致，DSN处理没有显著改变(23A)总基因检测数，也没有显著改变鉴定的基因不同类型的数量(23B-23D)。由于从miRNA直接生成的小扩增子将不能被有效扩增，因此可能以其成熟前形式检测到miRNA。每组n＝5。下合页形和上合页形对应于第25百分位数和第75百分位数，上须和下须表示标准偏差，方形对应于平均值，并且图中的每个点代表一份样品。

图24A-24F给出了MATQ-seq的读段统计数据。两个随机选择的单细胞的基因覆盖(图24A和24D)；定位绘图读段的GC％统计数据(图24B和24E)；插入物大小(图24C和24F)。用于文库构建的片段大小应该是插入物大小加上配对末端读段的总长度(85x 2个碱基)，因此剪切后的片段大小平均为约200个碱基。使用RSeQC包(v2.6.3)生成上述数据。

图25是IGV中MATQ-seq数据的代表性比对快照(alignment snapshot)。上面显示的基因是TP53。例如，对于顶部的第一个细胞，使42个读段与外显子区域对齐，14个是指标读段数。RPKM值为93.0，并且APKM(扩增子数/千碱基/百万个扩增子)值为74.4。

图26显示使用不同标准化因子的相对于平均值的变异系数。对于上图中的图，我们使用每百万扩增子的扩增子数(APM)作为表达单位。红线表示泊松分布的CV与平均值之间的关系。对于下图中的图，我们将基因表达针对100k扩增子重新标准化，而不是如APM中针对100万个扩增子标准化。使用此标准化，相对于平均值的CV与下图中的泊松线重叠，表明重新标准化的合理调整。值得注意的是，CV值不因不同的重新标准化而变化。

图27提供了MATQ-seq中检测到的基因的独特指标数目的直方图。数字是从测序数据中收集的确切数字，而不是标准化值(APM)。每个图表代表一个单一的HEK293T细胞。上面绘制了5个单细胞。

发明详述

为了与长期存在的专利法惯例保持一致，当在本说明书中与词语“包含”(包括权利要求书)相呼应使用时，词语“一个/一种(a和an)”表示“一个或多个/一种或多种”。本公开的一些实施方案可以由本公开的一个或多个要素、方法步骤和/或方法组成或基本上由其组成。预期可针对本文所述的任何其他方法或组合物实施本文所述的任何方法或组合物。

如本文所用，术语“约”或“大致”是指变化多至参照量、参照水平、参照值、参照数目、参照频率、参照百分比、参照尺度、参照尺寸、参照量、参照重量或参照长度的30％、25％、20％、25％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的数量、水平、值、数目、频率、百分比、尺度、尺寸、量、重量或长度。在特定实施方案中，当在数值之前时，术语“约”或“大致”表示该值加上或减去15％、10％、5％或1％的范围。

在整个说明书中，除非上下文另有要求，否则词语“包含”、“包括”和“含有”将被理解为暗示包括所述步骤或要素或步骤或要素的组但不排除任何其他步骤或要素或步骤或要素的组。“由......组成”意指包括并限于短语“由......组成”之后的任何内容。因此，短语“由......组成”表示所列出的要素是必需的或强制性的，并且不存在其他要素。“基本上由......组成”是指包括在该短语之后列出的任何要素，并且限于不干扰或有助于本公开中针对所列要素指定的活性或作用的其他要素。因此，短语“基本上由......组成”表示所列要素是必需的或强制性的，但其他要素是可选的，可能存在也可能不存在，这取决于它们是否影响所列要素的活性或作用。

在整个本说明书中引用“一个实施方案”、“实施方案”、“特定实施方案”、“相关实施方案”、“某个实施方案”、“另外的实施方案”或“另一实施方案”或其组合意味着结合该实施方案描述的特定特征、结构或特性包括在本发明的至少一个实施方案中。因此，在整个说明书中各处出现的前述短语不一定都指同一实施方案。此外，特定特征、结构或特性可以在一个或多个实施方案中以任何合适的方式组合。

如本文所用，术语“扩增子”是指具有允许通过PCR方法或其他方法进行扩增的特定衔接子序列的DNA片段。

I.一般实施方案

本公开的实施方案提供了可用于从一个或多个细胞扩增所有或部分RNA的扩增方法。本公开的实施方案演示了从一个或多个细胞的总RNA准确且灵敏地生成双链互补DNA(cDNA)的方法。根据所公开的扩增方法产生的双链cDNA适于进一步扩增，无论是否通过非线性方式，例如通过PCR，以及核酸测序的方法。

本公开的实施方案提供了灵敏的测序方案，其利用MATQ-seq，用于基于多次退火和dC-加尾的定量性单细胞RNA-seq。MATQ-seq可以鉴定同一群体的细胞之间的转录变异，并且已经证明可以系统地表征技术噪声，以证明检测到的转录变异在生物学上是真实的。与现有方法诸如基于SMART(RNA模板的5'末端的转换机制)化学的方法相反，MATQ-seq提供全基因体覆盖和总RNA的检测，包括非编码和非聚腺苷酸化的RNA。另外，MATQ-seq使用分子条形编码策略去除PCR偏好性。

图1显示本文公开的方法的实施方案的示意性概述。根据本公开的某些方面，获得来自单个细胞或多个细胞的RNA。在特定情况下，执行该方法的个体从样品中获得RNA，而在其他情况下，RNA由不执行该方法的实体提供。将RNA置于(或提供在)反应容器中，并在第一多种引物存在的情况下将RNA暴露于至少一种逆转录酶以产生反应混合物。在具体的实施方案中，第一多种引物中的引物富含40％-60％的G或富含40％-60％的C。在具体的实施方案中，引物包含下式：XnYmZp，其中n大于2，且X富含40％-60％的G或富含40％-60％的C，其中Y为任何核苷酸，且m为5-8个核苷酸，并且，其中当X富含G时，Z为T和G，或当X富含C时Z为C，其中p为2-20个核苷酸。不管怎样，设计第一多种引物以避免它们之间的串扰。

在具体实施方案中，引物与核酸进行多次退火。在将引物暴露于核酸时，这产生包含与引物退火的核酸模板的混合物。根据一个方面，然后使反应混合物经受促进引物-模板退火的条件。这涉及将混合物的温度降低至允许第一引物的3'末端的随机核苷酸与RNA退火以形成杂合双链体的温度。在特定情况下，温度可以低至0℃，可能以高至37℃。在形成杂合双链体后，存在于反应混合物中的一种或多种逆转录酶在孵育期间从第一引物的3'末端延伸cDNA链。重复杂交双链体形成和cDNA延伸的过程至少2次，但是其可以进行3次、4次、5次、6次、7次、8次、9次、10次、11次、12次、13次、14次、15次、16次、17次、18次、19次或20次或更多次。在该步骤的重复中，没有使反应经受解链温度。在通过逆转录酶合成第一链cDNA后，使反应混合物经受其中消化未退火的引物和模板RNA，并使反应中存在的酶失活的条件。在特定情况下，在消化模板RNA之前消化引物。引物的消化可以通过任何方式进行，但在具体的实施方案中，其用核酸酶进行。在本公开的实施方案中，提供了可以有效去除预先存在的引物以允许第一链cDNA的高效加尾的方法。如果没有引物的有效消化，残留引物的加尾会超过半扩增子的加尾，并在后续步骤导中致扩增失败。因此，在某些方面，可使用T4DNA聚合酶或在低于(30℃或更低)的低温下具有核酸外切酶活性的其他聚合酶和外切核酸酶I或仅消化未退火的引物的其他外切核酸酶。可使酶加热失活。

RNA的消化可通过任何方式进行，但在具体的实施方案中，其用核糖核酸酶进行。在本公开的实施方案中，提供了可以有效去除预先存在的模板RNA的方法。可将反应混合物暴露于RNA酶H和/或RNA酶If中的至少一种。在某些实施方案中，可通过酶促蛋白水解使RNA酶失活。使反应混合物中的酶失活可以通过任何方式进行，但在具体的实施方案中，其使用蛋白酶来进行。

接下来，将反应混合物暴露于促进3'末端加尾的条件，以增强稳定性和与第二多种引物的互补性。3'末端的加尾可以通过任何方法进行，但在具体的实施方案中，其通过末端转移酶进行。加尾优选地使用单种核苷酸，并且在特定实施方案中，多核苷酸是C或G，这取决于第一多种引物中的引物的序列。当第一多种引物中的引物富含G时，多核苷酸加尾(polytailing)利用C，并且当第一多种引物中的引物富含C时，多核苷酸加尾利用G。也就是说，在具体实施方案中，3'末端加尾可以在末端脱氧核苷酸转移酶存在的情况下用浓缩的C碱基或G碱基进行，其中用于加尾的碱基将与第一多种引物互补(例如，当第一个多种引物富含G时，将使用浓缩的C)。尾的长度可以是任何长度，但特别地可在1-3000个碱基的范围内。

在3'末端加尾后，将反应混合物暴露于包含条形码的第二多种引物以及至少一种DNA聚合酶。在特定的实施方案中，条形码允许将读段分配回原始扩增子。在第一多种引物包含富含G的区域并且3'DNA末端用C进行多核苷酸加尾(polytail)的情况下，第二多种引物包含适合与聚胞苷酸(poly-C)尾结合的富含G的区域。在第一多种引物包含富含C的区域并且3'DNA末端用G进行多核苷酸加尾的情况下，第二多种引物包含适于结合聚鸟苷酸(poly-G)尾的富含C的区域。

在特定情况下，第二多种引物可具有XnYmZp序列基序，其中n大于2，且X富含40％-60％的G或富含40％-60％的C，其中Y为任意核苷酸和m为5-8个核苷酸，并且其中当X富含G时，Z为T和G，或者当X富含C时，Z为C，其中p为2-20个核苷酸。在任何情况下，第二多种引物被设计来避免它们之间的串扰。

然后使反应混合物经受促进条形码化的引物与单链cDNA模板之间杂交的条件。在形成杂合双链体后，存在于反应混合物中的一种或多种聚合酶在孵育期间从第一引物的3'末端延伸第二cDNA链。

因此，本发明的实施方案包括线性扩增来自一个或多个细胞的总RNA的方法。在一些方面，该方法始于提供的核酸样品，但在一些情况下，必须从一个或多个细胞中获得核酸(诸如通过常规方法获得)。当扩增转录组时，可以在总RNA的逆转录之前将全部核酸经受DNA酶。将来自一个或多个细胞的核酸暴露于第一多种引物和逆转录酶。在这样的步骤中，引物与核酸退火，并且引物通过逆转录酶延伸。

II.条形码

PCR扩增偏好性是RNA测序中的重大挑战，因为扩增效率的小差异可导致数据中的显著的人为信号。为了解决这个问题，可以将随机“条形码”(具有可变长度的随机DNA序列(例如NNNNNN，其中N代表四种核苷酸的混合物)引入到引物中，其将指示每个独特的cDNA及其相应的双链cDNA产物(图1)。通过用条形码指示每个读段，可以区分高拷贝基因(高度表达的基因)与具有高扩增效率的cDNA(例如，与仅具有一个条形码的高拷贝基因相比的具有许多独特条形码的高拷贝基因)。这种应用显著提高了测序数据的准确性并捕获了真实的有生物学意义的信息。所公开的方法提供了使用所述条形码从测序数据标准化基因表达的解决方案。

III.本公开的方法的示例性应用

本公开的方法可以用于研究、临床和/或其他应用。在特定实施方案中，例如，本公开的方法用于诊断和/或预后和/或监测个体的一种或多种疗法。在一些情况下，制备扩增子的一方可以是或可以不是进行扩增子的扩增的一方或多方，也可以是或可以不是进行扩增子分析的一方或多方，而无论是否扩增。应用来自扩增的扩增子的分析的信息的一方可以是或可以不是执行制备扩增子和/或扩增它们的方法的同一方。

在本公开的一种或多种方法的应用的一个实例中，该方法用于测定来自个体的一种或多种核酸的内容物或表达水平中的一个或多个变化；所述变化可以与已知标准品(例如，诸如特定核酸的相应野生型序列)相关或可以与所述已知标准品无关。内容物变化可包括与野生型相比的一个或多个核苷酸差异，诸如取代、缺失、倒位等。与特定的已知或确定的标准品的正常表达水平相比，表达的变化可包括上调或下调。该标准品可包括已知在基因型和/或表型上正常的细胞中正常核酸内容物的含量或表达水平。

在具体的实施方案中，对扩增的扩增子中的一种或多种分析癌症突变、基因融合产物、剪接变体、癌基因的表达、肿瘤抑制基因的表达缺失、肿瘤特异性抗原的表达和/或所有表达的基因的表达中的一种或多种。

在特定情况下，所测定的核酸从来自具有医学病况或怀疑患有医学病况或有患医学病况风险或正在接受医学病况的治疗的个体的样品获得。样品可以是任何种类，只要可从样品的一个或多个细胞直接或间接获得核酸即可。在特定实施方案中，核酸从来自个体的样品的一个或多个细胞获得。样品可以是血液、组织、毛发、活检物、尿液、乳头抽吸液、羊水、面颊刮屑、粪便物或胚胎。

获得来自个体的合适样品，并且本公开的方法可以由获得样品的个体直接或间接进行，或者方法可以由另一方或多方进行。

在一些情况下，为了获得足够的核酸用于测试，抽取至少1mL、2mL、3mL、4mL、5mL、10mL、20mL、25mL、30mL、35mL、40mL、45mL或50mL的血液体积。

在一些情况下，起始材料是外周血。可富集外周血细胞的特定细胞类型(例如，单核细胞；红细胞；CD4+细胞；CD8+细胞；免疫细胞；T细胞、NK细胞等)。还可选择性地耗尽外周血细胞的特定细胞类型(例如，单核细胞；红细胞；CD4+细胞；CD8+细胞；免疫细胞；T细胞、NK细胞等)。

在一些情况下，起始材料可以是包含实体组织的组织样品，非限制性实例包括脑、肝、肺、肾、前列腺、卵巢、脾、淋巴结(包括扁桃体)、甲状腺、胰腺、心脏、骨骼肌、肠、喉、食道和胃。在其他情况下，起始材料可以是含有核酸的细胞、免疫细胞，特别是免疫细胞。在一些情况下，起始材料可以是来自任何生物的可以从中获得遗传物质的含有核酸的样品。在一些情况下，样品是流体，例如血液、唾液、淋巴或尿液。

在一些情况下，可以从患有病况的受试者中采集样品。在一些情况下，从中采集样品的受试者可以是患者，例如癌症患者或怀疑患有癌症的患者。受试者可以是哺乳动物，例如人，并且可以是雄性或雌性。在某些情况下，雌性是怀孕的。在一些情况下，受试者可以接受疗法以治疗病况。在某些情况下，所述疗法可用于治疗癌症。在一些情况下，疗法可以是免疫疗法。样品可以是肿瘤活检物。活组织检查可由例如医疗保健提供者(包括医师、医师助理、护士、兽医、牙医、脊椎按摩师、急救人员、皮肤科医生、肿瘤科医生、肠胃科医生或外科医生)进行。

A.基因测试

在特定的应用中，希望个体的样品中的一种或多种特定的核酸序列是已知的。个体可处于任何年龄。可使个体经历常规测试，或者所述个体可具有进行测试的特定需要或医学原因。可以怀疑个体患有特定的医学病况，诸如具有与医学病况相关的一个或多个症状和/或具有与医学病况相关的个人或家族病史。个体可能有患医学病况的风险，诸如具有所述医学病况的家族病史或具有所述医学病况的一个或多个已知的风险因素，诸如与心脏病相关的高胆固醇、为与多种医学病况相关的吸烟者、具有与心脏病或中风相关的高血压、具有与医学病症相关的遗传标记物，等等。

在特定情况下，个体是胎儿，并且与野生型相比，胎儿可被怀疑具有或可被怀疑不具有特定核酸序列或核酸表达变异，诸如与医学病况相关的序列内容物或表达变异。在一些情况下，例如，由于家族史或环境风险(即，辐射)或高龄妊娠，胎儿有患特定医学病况的风险，但是出于常规目的可能需要测试胎儿。在这种期望从胎儿知道一种或多种特定序列的内容物或表达水平的情况下，采集包含一个或多个胎儿细胞的样品。样品可以是来自胎儿的活检物，但是在特定情况下，样品是羊水或母血或在发育的早期阶段的胚胎。

在本公开的一个方面，从怀孕母亲获得羊水，并从中分离出一个或多个胎儿细胞。胎儿细胞分离可通过本领域的常规方法进行，诸如通过利用胎儿细胞表面上的标记物来区分一种或多种胎儿细胞与一种或多种母体细胞。母体循环中可存在三种不同类型的胎儿细胞：滋养细胞、白细胞和胎儿红细胞(有核红细胞)。最有希望富集的细胞是胎儿红细胞，在某些实施方案中，可以通过尺寸柱选择，然后进行CD71-抗体染色或ε-珠蛋白链免疫表型分析，然后基于荧光强度进行扫描或分选来鉴定胎儿红细胞。

一旦分离了一个或多个胎儿细胞，就从中提取核酸，诸如通过本领域的常规方法提取。使来自一个或多个胎儿细胞的核酸经受本公开的方法以产生扩增的cDNA，其覆盖所述一个或多个胎儿细胞的转录组的至少部分、大部分或全部。扩增后，可进一步扩增扩增子中的一个或多个序列，并且还可以至少部分地对其进行测序，或者可将其经历微阵列技术。在具体的实施方案中，测定SNV，并且例如，将测定的结果用于确定相应的胎儿是否具有特定的医学病况或者是否易患特定的医学病况。在特定情况下，可治疗胎儿的医学病况，或者可对胎儿进行预防或延迟医学病况发病的方法，例如，这可以在子宫内和/或出生后进行。

尽管可以测定胎儿样品中SNV的存在，但是在特定的实施方案中，测定胎儿样品的与任何特定医学病况相关的基因突变。可以测定的与产前医学病况相关的基因的实例包括以下的一种或多种：ACAD8、ACADSB、ACSF3、C7orf10、IFITM5、MTR、CYP11B1、CYP17A1、GNMT、HPD、TAT、AHCY、AGA、PLOD2、ATP5A1、C12orf65、MARS2、MRPL40、MTFMT、SERPINF1、FARS2、ALPL、TYROBP、GFM1、ACAT1、TFB1M、MRRF、MRPS2、MRPS22、MRPL44、MRPS18A、NARS2、HARS2、SARS2、AARS2、KARS、PLOD3、FBN1、FKBP10、RPGRIP1、RPGR、DFNB31、GPR98、PCDH15、USH1C、CERKL、CDHR1、LCA5、PROM1、TTC8、MFRP、ABHD12CEP290、C8orf37、LEMD3、AIPL1、GUCY2D、CTSK、RP2、IMPG2、PDE6B、RBP3、PRCD、RLBP1、RGR、SAG、FLVCR1、ZNF513、MAK、NDUFB6、TMLHE、ALDOA、PGM1、ENO3、LARS2、ATP7A、ATP7B、TNFRSF11B、LMBRD1、MTRR、FAM123B、FAM20C、ANKH、TGFB1、SOST、TNFRSF11A、CA2、OSTM1、CLCN7、PPIB、TCIRG1、SLC39A13.COL1A2、TNFSF11、SLC34A1、NDUFAF5、FOXRED1、NDUFA2、NDUFA8、NDUFA10、NDUFA11、NDUFA13、NDUFAF3、SP7、NDUFS1、NDUFV3、NUBPL、TTC19、UQCRB、UQCRQ、COX4I1、COX4I2、COX7A1、TACO1、COL3A1、SLC9A3R1、CA4、FSCN2、BCKDHA、GUCA1B、KLHL7、IMPDH1、PRPF6、PRPF31、PRPF8、PRPF3、ROM1、SNRNP200、RP9、APRT、RD3、LRAT、TULP1、CRB1、SPATA7、USH1G、ACACB、BCKDHB、ACACA、TOPORS、PRKCG、NRL、NR2E3、RP1、RHO、BEST1、SEMA4A、RPE65、PRPH2、CNGB1、CNGA1、CRX、RDH12、C2orf71、DHDDS、EYS、IDH3B、MERTK、PDE6A、FAM161A、PDE6G、TYMP(ECGF1)、POLG(POLG1、POLGA)、TK2、DGUOK(dGK)、SURF1、SCO2(SCO1L)、SCO1、COX10、BCS1L、ACADM、HADHA、ALDOB、G6PC(GSD1a)、PAH(PH)、OTC、GAMT、SLC6A8、SLC25A13、CPT2、PDHA1、SLC25A4(ANT1)、C10orf2(TWINKLE)、SDHA、SLC25A15、LRPPRC、GALT、PMM2、ATPAF2(ATP12)、GALE、LPIN1、ATP5E、B4GALT7、ATP8B1(ATPIC、PFIC)、ABCB11(ABC16、PFIC-2、PGY4)、ABCB4(GBD1、MDR2、PFIC-3)、MPV17(SYM1)、TIMM8A(DDP、MTS)、CPS1、NAGS、ACADVL、SLC22A5(OCTN2)、CPT1A(CPT1-L、L-CPT1)、CPT1B、SUCLA2、POLG2(HP55、MTPOLB)、ACADL、SUCLG1、MCEE、GAA、PDSS1(COQ1、TPT)、PDSS2(bA59I9.3)、COQ2(CL640、FLJ26072)、RRM2B(p53R2)、ARG1、SLC25A20(CACT)、MMACHC(cblC)、FAH、MPI、GATM、OPA1、TFAM、TOMM20(MAS20P、TOM20)、NDUFAF4(HRPAP20、C6orf66)、NDUFA1(CI-MWFE、MWFE)、SLC25A3(PHC)、BTD、OPA3(FLJ22187、MGA3)、GYS2、NDUFAF2(B17.2L、MMTN)、HLCS(HCS)、COX15、FASTKD2、NDUFS4、NDUFS6、NDUFS3、MMAA(cblA)、MUT、NDUFV1、MOCS1、NDUFS7(PSST)、TAZ(BTHS、G4.5、XAP-2)、MOCS2、COX6B1(COXG)、HADHB、MCCC1(MCCA)、MCCC2(MCCB)、TSFM(EF-TS、EF-Tsmt)、PUS1、ISCU、AGL、SDHAF1、IVD、GCDH、ADSL、DARS2、RARS2、TMEM70、ETHE1、PC、JAG1、MRPS16、PCCA、PCCB、COQ9、LDHA、PYGL、GALK1、PYGM、PGAM2、TUFM、TRMU、PFKM、GBE1、SLC37A4、GYS1、ETFDH、NDUFS8、CABC1(ADCK3)、ETFA、ETFB、DBT、SLC25A19、MMADHC、PDP1、PDHB、ACAD9、AUH、DLAT、PDHX、ACADS、NDUFS2、FBP1、NDUFAF1(CIA30、CGI65)、YARS2、SUCLG2、TCN2、CBS、PHKB、PHKG2、PHKA1、PHKA2、LIPA、ASL、HPRT1、OCRL、PNP、TSHR、ADA、ARSB、ALDH5A1、PNP、AMT、DECR1、HSD17B10、IYD、IL2RG、MGME1、HMGCL、IQCB1、OTX2、KCNJ13、CABP4、NMNAT1、ALG2、DOLK、ABCD4、ALDH4A1、ALG1、GPR143、UBE3A、ARX、GJB2(CX26、NSRD1)、APC、HTT、IKBKG(NEMO)、DMPK、PTPN11、MECP2、MECP2、RECQL4、ATXN1、ATXN10、RMRP、CDKL5、PLP1、GLA、DMD、RUNX2、PLP1、CHD7、ASS1、AIRE、EIF2B、LDLR、HPRT1、RPS19、LMX1B、COL10A1、CRTAP、LEPRE1、PORCN、ASL、CFTR、ARSA、IDUA、IDS、MYO7A、GLANS、GALC、KRAS、SOS1、RAF1、AR、PTEN、BLM、SLC9A6、HRAS、GJC2(GJA12)、NPC1、NPC2、FMR1、FMR1、PLOD1、COL2A1、COL5A1、COL5A2、ABCA4、FOXG1、TINF2、USH2A、CDH23、CLRN1、CREBBP、ABCA4、POU3F4、NRAS、CHRNA7、FOXF1、MEF2C、DHCR7、RAI1、VHL、TYR(OCAIA)、OCA2(BEY、BEY1、BEY2、EYCL)、TYRP1(b-PROTEIN、CATB、GP75、SLC45A2(AIM-1)、PCDH19、SHOC2、BRAF、MAP2K1、MAP2K2、HEXA、STXBP1、ALDH7A1、SLC2A1、WDR62、MAGEL2、SDHB和FH。

B.癌症测试

在本公开的一些实施方案中，使来自患有癌症或怀疑患有癌症或正在监测癌症治疗结果的个体的样品经受本公开的方法。除了本公开的方法以外，还可对样品或类似样品进行其他诊断或预后测试。样品可通过常规方法获得，并且可包括活检物，所述活检物包含似乎是、怀疑是或已知是癌性的细胞或组织。用于癌症测试的示例性样品包括血液、尿液、活检物、粪便物、乳头抽吸液、面颊刮屑等。在一些情况下，样品是从有患癌症风险的个体获得的；这样的个体可能具有家族史和/或个人史，可能已经暴露于已知引发或怀疑引发癌症的环境条件，可能已知具有与至少一种类型的癌症相关的遗传标记物，等等。特定类型的活检物包括皮肤、肺、乳腺、结肠、子宫颈、肝、肾、前列腺等的活检物。

在特定实施方案中，对来自个体的测试样品进行本公开的方法，所述方法涉及测定与已知样品相比的序列内容物的变化或与正常水平相比的序列表达水平的变化(诸如一种或多种基因的上调或下调)。在一些情况下，通过本公开的方法产生的如以扩增子量表示的一种或多种特定基因的表达水平指示癌症的存在或患癌症的风险或癌症治疗的成功。

可以测定的与特定癌症相关的基因的实例包括以下的一种或多种：ER、PR、AR、BAG1、Bcl-2、CTNNB1、BRAF、FOS、JUN、EGFR、ERBB2、ETV6-NTRK3基因融合物、Gankyrin、GT198、MDM2、MIG7、MYC、SRC、RAS、SKI、TCTP、ABL、CBL、ROS1、AKT、BAX、FKHR、CDK2、CDK4、CCND1、CCNE1、PIK3CA、HPV-E7、HPV-E6、AURKA、miR-155、FAS、GLI、SHH、SMO、NOTCH、ILK、RAR、SOX、WNT1、TAL1、MLL、HOXA1、MITF、EVI1、BCL6、HOXA9、APC、BRCA1、BRCA2、CDKN1B、CDKN1C、DLD/NP1、HEPACAM、INK4、miR-145、p15、p16、p53、p57、p63、p73、PTEN、Rb、SDHA、SDHB、SDHC、SDHD、SFRP1、TCF21、TIG1、TP53、TSC1/TSC2和VHL、BCL2、INPP4B、LKB1、ARF、ATM/ATR、CHK1、CHK2、DNA-PK、FANCs、HIPK2、NBS1、WT1、MUTYH、BLM、RECQL4、WRN、MLH1、MSH2、MSH6、PMS2、XPA、XPC、XPD、FBXW7、PTCH1、SUFU、EXT1、EXT2、NF1、NF2、BMPR1A、SMAD2、SMAD3、SMAD4、TGFBR1、MEN1、APC、AXIN、CTNNA1、CDH1、WNT5A、GPC3、HRPT2和HPC1。

在特定的实施方案中，可以对来自个体的测试样品测试一种或多种肿瘤特异性抗原的表达，以帮助选择个体化疗法。可以测定的肿瘤特异性抗原的实例包括EphA2、HER2、GD2、磷脂酰肌醇蛋白聚糖-3、5T4、8H9、α_vβ₆抗原、B细胞成熟抗原(BCMA)B7-H3、B7-H6、CAIX、CA9、CD19、CD20、CD22、κ轻链、CD30、CD33、CD38、CD44、CD44v6、CD44v7/8、CD70、CD123、CD138、CD171、CS1、CEA、CSPG4、EGFR、EGFRvIII、EGP2、EGP40、EPCAM、ERBB3、ERBB4、ErbB3/4、FAP、FAR、FBP、胎儿AchR、叶酸受体α、GD3、HLA-AI、HLA-A2、IL11Ra、IL13Ra2、KDR、λ、Lewis-Y、MCSP、间皮素、Muc1、Muc16、NCAM、NKG2D配体、NY-ESO-1、PRAME、PSCA、PSC1、PSMA、ROR1、Sp17、存活蛋白、TAG72、TEM1、TEM8、癌胚抗原、HMW-MAA、VEGF受体、MAGE-A1、MAGE-A3、MAGE-A4、CT83、SSX2、XIAP、cIAP1、cIAP2、NAIP和/或Livin。

C.免疫反应监测

在本公开的一些实施方案中，使来自对免疫疗法结果进行监测的个体的样品经受本公开的方法。除了本公开的方法以外，还可对样品或类似样品进行其他诊断或预后测试。样品可通过常规方法获得，并且可包括活检物，所述活检物包括似乎是、怀疑是或已知是癌性的细胞或组织。用于免疫反应测试的示例性样品包括血液、活检物、乳头抽吸液等。特定类型的活检物包括皮肤、肺、乳腺、结肠、子宫颈、肝、肾、前列腺等的活检物。除了本公开的方法以外，还可对样品或类似样品进行其他诊断或预后测试。

在特定的实施方案中，对来自个体的测试样品进行本公开的方法，所述方法涉及测定与已知样品相比的序列内容物的变化或与正常水平相比的序列表达水平的变化(诸如一个或多个基因的上调或下调)。在一些情况下，通过本公开的方法产生的如以扩增子量表示的一种或多种特定基因的表达水平指示获得性免疫应答或癌症治疗的成功。

可以进行测定以监测获得性免疫反应的基因的实例包括CD3、CD8、GZMB、CD45RO、PTPRC和IFNG。

IV.样品处理和来自本发明的细胞的核酸

可通过任何适当的方式获得来自用本公开的方法测试的个体的一个或多个样品。在某些实施方案中，可在提取核酸的步骤之前处理样品。样品在提取核酸时可以是新鲜的，或者样品可在提取核酸时已进行了固定或其他处理技术。

样品可以是任何种类。在其中一个或多个目标细胞包含在其他细胞中的实施方案中，可以基于一个或多个所需细胞的独特特征(诸如在细胞表面上表达的蛋白质)分离所述一个或多个目标细胞。在其中基于细胞标记物分离胎儿细胞的实施方案中，细胞标记物可以是CD71或ε-珠蛋白链等。在其中基于癌症标记物分离癌细胞的实施方案中，细胞标记物可以是ER/PR、EGFR、KRAS、BRAF、PDFGR、UGT1A1、EphA2、HER2、GD2、磷脂酰肌醇蛋白聚糖-3、5T4、8H9、α_vβ₆整联蛋白、B细胞成熟抗原(BCMA)B7-H3、B7-H6、CAIX、CA9、CD19、CD20、CD22、κ轻链、CD30、CD33、CD38、CD44、CD44v6、CD44v7/8、CD70、CD123、CD138、CD171、CS1、CEA、CSPG4、EGFR、EGFRvIII、EGP2、EGP40、EPCAM、ERBB3、ERBB4、ErbB3/4、FAP、FAR、FBP、胎儿AchR、叶酸受体α、GD3、HLA-AI、HLA-A2、IL11Ra、IL13Ra2、KDR、λ、Lewis-Y、MCSP、间皮素、Muc1、Muc16、NCAM、NKG2D配体、NY-ESO-1、PRAME、PSCA、PSC1、PSMA、ROR1、Sp17、存活蛋白、TAG72、TEM1、TEM8、癌胚抗原、HMW-MAA、VEGF受体、MAGE-A1、MAGE-A3、MAGE-A4、CT83、SSX2、XIAP、cIAP1、cIAP2、NAIP、Livin等。

可通过在无RNA酶的裂解缓冲液中将细胞与表面活性剂(即Trion-X100、tweet-20、NP-40等)、还原剂(即二硫苏糖醇等)和RNA酶抑制剂(即RNaseOUT等)一起孵育来裂解分离的细胞。此外，可在所公开的方法中描述的引物存在的情况下裂解细胞。

V.TCR测序

本发明利用其中操作核酸以例如对细胞表面分子(诸如T细胞受体(TCR))进行测序的步骤。一般而言，在本发明的一些实施方案中，通过所公开的方法扩增免疫细胞和/或T细胞的遗传物质被用于产生免疫细胞遗传物质的转录组扩增。对于TCR分子，可从免疫细胞或T细胞的总RNA获得遗传信息。RNA可以是可变(V)区或恒定(C)区。在优选实施方案中，起始材料为来自免疫细胞的RNA，其由编码TCR的V和C基因区段组成，并含有恒定区。

用于免疫测序的起始材料可包括任何多核苷酸，诸如总RNA。多核苷酸可以来自免疫细胞。多核苷酸可以由编码TCR的V和C基因区段组成。用作起始材料的多核苷酸可含有TCR恒定区。在一些实施方案中，RNA可来自T细胞。

在某些实施方案中，可从受试者或宿主(诸如已被免疫接种或患有感染、癌症、自身免疫性病况或任何其他疾病的人或其他动物)的血液或其他生物样品中分离免疫细胞，以鉴定具有潜在临床意义的病原体特异性TCR、肿瘤特异性TCR和/或疾病特异性TCR。例如，人可以是被诊断为患有疾病，表现出疾病的症状，被诊断为未患有疾病，或者未表现出疾病的症状。例如，人可以是暴露于感染因子(例如，病毒、细菌、寄生虫、朊病毒等)、抗原或疾病的人。例如，动物可以是暴露于感染因子(例如，病毒、细菌、寄生虫、朊病毒等)、抗原或疾病的动物。来自被免疫接种的宿主的某些免疫细胞产生针对所讨论的一种或多种靶抗原和/或一种或多种未知抗原的TCR。在本发明中，可通过任何合适的方法(诸如使用荧光激活细胞分选(FACS)、磁激活细胞分选(MACS)、淘选或其他筛选方法筛选和分选细胞)对淋巴细胞库富集所需免疫细胞，以在通过所公开的方法扩增总RNA并对其进行测序之前产生一种或多种免疫细胞的样品。

V.本公开的试剂盒

可将本文描述的任何组合物或与其类似的组合物包含在试剂盒中。在非限制性实例中，可将用于扩增核酸的方法中使用的一种或多种试剂包含在试剂盒中。此类试剂可包括酶、缓冲液、核苷酸、盐、引物等。试剂盒组分提供在合适的容器装置中。

试剂盒的一些组分可以以含水介质或冻干形式包装。试剂盒的容器装置通常包括至少一个小瓶、试管、烧瓶、瓶子、注射器或其他容器装置，其中可以放置组分，并且优选适当地等分所述组分。在试剂盒中存在多于一种组分的情况下，试剂盒通常还包括第二、第三或其他另外的容器，其中可以分开地放置另外的组分。然而，可将组分的多种组合包含在一个小瓶中。本发明的试剂盒通常还包括用于以紧密限制方式包含组分以用于商业销售的装置。此类容器可包括其中保留所需小瓶的注塑或吹塑塑料容器。

当试剂盒的组分以一种和/或多种液体溶液提供时，液体溶液是水溶液，其中无菌水溶液是特别有用的。在一些情况下，容器装置本身可以是注射器、移液器和/或其他类似装置，或者可以是具有用于所需反应的多个隔室的基板。

试剂盒的一些组分可以以一种或多种干粉形式提供。当试剂和/或组分以干粉形式提供时，可通过添加合适的溶剂来重构粉末。设想了溶剂也可以提供在另一容器装置中。试剂盒还可包含第二容器装置，所述第二容器装置用于包含无菌可接受的缓冲液和/或其他稀释剂。

在具体的实施方案中，试剂和材料包括用于扩增所需序列的引物、核苷酸、合适的缓冲液或缓冲试剂、盐等，并且在一些情况下，试剂包括用于分离一个或多个特定的所需细胞的装置或试剂。

在特定实施方案中，试剂盒中存在一个或多个适于从个体中提取一种或多种样品的装置。该装置可以是注射器、细针、解剖刀等。

实施例

下实施例被包括来用于说明本发明的优选实施方案。本领域技术人员应该理解，以下实施例中公开的技术代表发明人发现的在本发明的实践中很好地起作用的技术，因此可被认为是构成其实践的优选模式。然而，根据本公开内容，本领域技术人员应当理解，可在不背离本发明的精神和范围的情况下，对所公开的具体实施方案进行许多改变并仍然获得相同或相似的结果。

实施例1

使用MATQ-seq有效地检测单细胞转录组中的变异

所公开的方法包括称为MATQ-seq的灵敏测序方案，即基于多次退火和dC-加尾的定量性单细胞RNA-seq(Multiple Annealing and dC-Tailing based Quantitativesingle-cell RNA-seq)。MATQ-seq可以鉴定同一群体的细胞之间的转录变异。此外，发明人系统地表征了技术噪声，以证明检测到的转录变异在生物学上是真实的。与本领域中流行的现有方法例如基于SMART(在RNA模板的5'末端处的转换机制)化学的方法相反，MATQ-seq提供全基因体覆盖和总RNA的检测，包括非编码和非聚腺苷酸化RNA。另外，MATQ-seq使用分子条形编码策略去除了PCR偏好性。使用MATQ-seq已经对90多个单细胞进行了测序，证明了其灵敏度和准确性。

单细胞RNA-seq的灵敏度取决于逆转录(RT)的效率和RT步骤后PCR扩增子的成功产生(Marinov等，2014)。为了提高第一和第二链合成的效率，该方法开始于使用主要含有G、A和T碱基的引物进行10个循环的退火而没有间插性的解链步骤(intervening meltingstep)(图1A)。这些引物是基于基于多次退火和成环的扩增循环(Multiple Annealing andLooping Based Amplification Cycles)(MALBAC)，其为一种拟线性全基因组扩增方法(Zong等，2012)。MALBAC引物在低温下与转录物的内部区域杂交促进了跨转录物的成功RT并允许检测非聚腺苷酸化的RNA(图4和表1-3)。MATQ-seq还利用MALBAC-dT引物从mRNA的聚腺苷酸化尾部启动RT。在RT后，进行第一链cDNA上的dC加尾，这使得能够使用富含G的MALBAC引物进行有效的第二链合成。

表1.HEK293T克隆-1的读段和指标信息

*用DSN处理进行上述测序实验。

表2.HEK293T克隆-2的读段和指标信息

*首先在无DSN处理的情况下进行上述测序实验。核糖体RNA消耗约50％的读段。在PCA分析和Z-检验中，将单细胞平均物下采样至单细胞的平均测序深度。

表3.MCF10A的读段和指标信息

第二链合成后的PCR扩增可引入指数递增的偏好性，但独特的分子标识符(UMI)的使用可显著降低该偏好性(Islam等，2014；Kivioja等，2012)。在MATQ-seq中，在第二链合成(图1A)期间引入我们称为扩增子指标或“条形码”的随机六聚体UMI序列，以在PCR扩增之前标记独特分子。

为了评估单细胞RNA-seq方法的灵敏度，外部RNA对照联盟(ERCC)RNA加标通常用作外部对照(Wu，等，2014；Islam等，2014)。ERCC加标数据显示MATQ-seq达到89.2％±13.2％的捕获效率(图5)，并且ERCC水平在样品之间高度相关(对于RPKM-标准化表达，log-log皮尔逊相关系数为0.94；图6)。然而，由于ERCC加标不代表哺乳动物RNA的复杂度，因此它们可能会高估灵敏度。在本实施例中，对单个HEK293T细胞进行测序，作为与已用于对同一细胞类型进行测序的流行方法诸如SMART-seq2和SUPeR-seq(Ramskold等，2012；Picelli等，2013；Islam等，2014；Fan等，2015)进行比较的方式。

使用MATQ-Seq，在HEK293T转录物中未观察到明显的3'或5'末端偏好性，而SMART-seq2显示轻度5'偏好性，SUPeR-seq显示轻度3'末端偏好性(图1B)。此外，指标化读段没有显示出明显的末端偏好性(图7)。在单个HEK293T细胞中检测到18354±816个基因。与SMART-seq2相比，MATQ-seq使低丰度基因的检测效率提高了40.8％(8968±833对比6370±200，RPM≤10，图1C)。在log₁₀(RPM)＝0.5的低表达值时，MATQ-seq具有约80％的检测效率，而SMART-seq2达到约50％(图1D)。MATQ-seq还检测到1904±105个长链非编码RNA和50.4±2.5个pre-miRNA(图4)。

为了消除基因表达对测序深度的依赖性，将每个基因的扩增子数量针对在细胞中检测到的独特扩增子的总数进行标准化。本发明人引入APM的单位(单个细胞中每百万扩增子的扩增子数)来定量基因表达水平，其类似于RPM(每百万读段的读段数)。覆盖相同基因座的扩增子的直接计数可用于估计转录物的总数，但这需要足够的测序深度。使用标准化单位APM，可以在没有严格测序深度要求的情况下直接比较细胞之间的基因表达，同时保留UMI策略的定量优势。

接下来，绘制任何单细胞对之间的两两基因表达比(PGER)的直方图，以评估单细胞RNA-seq方法的准确性和重现性(图1E)。与SMART-seq2相比，MATQ-seq具有更窄的直方图分布和更可重复检测的基因，表明测量之间的可变性较小。对累积PGER概率的Kolmogorov-Smirnov检验(图8-9)强烈拒绝零假设(null hypothesis)，即两个直方图来自相同的分布(p＝5.88×10^-21)。绘制了一些其他单细胞RNA-seq测定和KS检验的PGER直方图，并且所述直方图显示MATQ-seq具有最窄的分布(图8-9)。

为了证实观察到的转录变异是真实的，测量单细胞RNA-seq测定的技术噪声是至关重要的。为了评估技术噪声，本发明人汇集了40个HEK293T细胞，将它们的混合裂解物分成40份，并用MATQ-seq(Marinov等，2014)对这些单细胞平均物中的10份进行测序。与加标转录物相反，对单细胞平均物进行测序允许本发明人直接评估与转录组中每个基因相关的技术变化。另外，本发明人扩增了38个单HEK293T细胞并对其进行了测序。

在主成分分析(PCA，图2A-2E)中，单细胞平均物紧密地定位于单细胞分布的中心。由前七个主成分解释的方差百分比逐渐减小(图2F)。当将RPM读段计数用于定量基因表达时，单细胞平均物不再定位于单细胞分布的中心(图10A-10C)。此外，前两个成分的方差百分比超过99％，表明PCR偏好性占优势。这些观察结果清楚地表明，UMI对于降低PCR依赖性技术噪声至关重要。

接下来，比较单细胞与单细胞平均物之间的基因的平均表达水平和标准偏差。平均表达水平是高度相关的(图3A)。相反，单细胞中的大量基因表现出比单细胞平均物更大的变异(图3B)，表明成功地检测到单细胞中的生物学变异。与该观察一致，成对单细胞平均物也显示出比单细胞样品之间的相关性更好的相关性(图11-12)。对于每个基因，我们计算偏度以显示基因表达分布的不对称程度。单细胞平均物显示出具有基础泊松分布的有限偏度(图3C)。相反，更多的基因对于单细胞具有大的偏度值(238个基因的偏度>2.0)。

为了鉴定具有大于技术噪声的生物学变异的基因，利用单细胞与单细胞平均物中的基因表达方差相同的零假设对每个基因进行F检验(38个单细胞对比10个单细胞平均物)。将Benjamini-Hochberg程序用于多次测试校正。显著的非泊松变异被鉴定为对于234个FDR<0.1的基因和1009个FDR<0.3的基因拒绝零假设(关于变异系数，图13)。有趣的是，非泊松基因的百分比与最近大规模测量转录变异性的RNA-FISH研究(Battich等，2015)一致。与荧光成像不同，MATQ-seq允许以全转录组规模测量变异。

转录爆发动力学(Transcriptional bursting dynamics)通常通过Fano因子(方差与平均基因表达的比率)来表征，其直接对应于转录物的负二项式或γ分布中的爆发大小(Golding等，2005；Raj等，2008)。将38个单细胞分成两个19个细胞的随机组，在两个独立组的Fano因子之间发现相关性(r＝0.52)(图3D)。相反，当将单细胞与单细胞平均物进行比较时(图3E)，未观察到相关性(r＝0.16)。这表明MATQ-seq可靠地检测由于转录爆发而引起的单细胞基因表达的变异。

由于MATQ-seq允许检测聚腺苷酸化的成熟RNA和非聚腺苷酸化的pre-mRNA，因此可以基于定位绘图到内含子区域的读段来定量基因表达。使用基于内含子的表达值，单细胞平均物也紧密地定位于PCA中单细胞的中心(图14)，并且以与基于外显子的测量相似的方式比较单细胞和单细胞平均物之间的平均值和方差(图15A-15B)。通过F检验和Benjamini-Hochberg校正，在FDR<0.1鉴定出1126个显著可变的基因。pre-mRNA中的这些变异可以直接反映转录爆发事件；实际上，许多基因使用基于内含子的表达表现出大的偏度(1116个基因>2.0)(图15C-15D；对于一些实例，参见图16)。对于高度偏斜的基因(例如FAM138A和TBL1Y)，在一些细胞中清楚地捕获了爆发。

在分别通过基于外显子和内含子的分析鉴定的1009个基因和1126个基因中，两个测量仅共有47个基因，表明成熟和成熟前RNA(premature RNA)中的非泊松变异的不同来源。对于两组基因，进行转录因子结合位点(TFBS)分析以鉴定可能与转录爆发相关的转录因子。有趣的是，使用来自基于外显子的测量的基因仅鉴定了3种蛋白质(P值<1×10^-10)。相反地，使用来自基于内含子的测量的基因鉴定了159种蛋白质，表明转录因子靶标富集发生在于成熟前RNA中具有单细胞变异性的基因中。

通过基于内含子的测量，在参与调节转录爆发的159个蛋白质中，与使用随机选择的基因组的TFBS分析相比，富集了与大量基因相互作用的转录因子(“主调节剂”)。值得注意的是，这些调节剂中有许多以低水平表达。例如，最高候选基因NFX3A(基于DAVID分析与552个基因相关)和FREAC2(与517个基因相关)以非常低的水平(基于单细胞平均物，分别地RPKM≈4和6)存在。该观察表明，主调节剂的低水平表达与利用基于内含子的测量观察到的许多基因的转录爆发相关。

为了解决MATQ-seq测序的HEK293T克隆与SMART-seq2和SUPeR-seq中使用的克隆之间潜在的克隆差异，对不同的HEK293T克隆(克隆-2)进行测序以评估一般的克隆差异。对10个单细胞和10个单细胞平均物进行测序。我们观察到平均表达水平在单细胞的两个克隆之间很好地相关，而PCA捕获一些差异(图17A-17B)。通过使用F检验，对于第二克隆，在FDR<0.1发现292个具有显著变异的基因，并且在FDR<0.3发现1111个基因(图18-19)。在F检验中，在两个克隆中均有273个基因经鉴定FDR<0.3。对于这些基因，Fano因子也是中度相关的(r＝0.44，图20)。本发明人得出如下结论：这两个克隆具有恰当的相似性(通过比较平均表达水平和变异判断的)。

除了HEK293T以外，还使用正常乳腺上皮细胞系MCF10A进行MATQ-seq。在单细胞与单细胞平均物之间观察到类似的PCA结果(图21)，表明MATQ-seq稳健地检测分化的细胞类型中的转录变异。

迄今为止，灵敏度一直是单细胞RNA-seq方法的关键限制，并且低灵敏度也限制了准确性。MATQ-seq为检测同一类型的单细胞之间基因表达的细微差异提供了高灵敏度和准确性，以及提供了捕获非聚腺苷酸化RNA的能力。本发明人相信该方法将在生物学和临床研究中具有广泛的应用。

实施例2

示例性材料和方法

细胞培养–将HEK293T细胞在含有10％FBS(Life Technologies)和1％青霉素-链霉素(Life Technologies)的DMEM/高葡萄糖培养基(ThermoFisher Scientific)中生长。将细胞每2-3天传代。将MCF10A细胞在含有5％马血清、20ng/ml EGF、100ng/ml霍乱毒素、10ug/ml胰岛素、500ng/ml氢化可的松和1％青霉素链霉素的DMEM/F12培养基中生长。

单细胞分离和裂解–为每个单细胞制备含有下述的细胞裂解缓冲液：1ul 0.2％Triton X100(Sigma-Aldrich)、0.4ul引物混合物(PAGE纯化的GATdT引物(GTG AGT GATGGT TGA GGA TGT GTG GAG N5T20(SEQ ID NO:1)(1.5μM))、PAGE纯化的MALBAC引物(GTGAGT GAT GGT TGA GGA TGT GTG GAG N5G3(SEQ ID NO:2)和GTG AGT GAT GGT TGA GGATGT GTG GAG N5T3(SEQ ID NO:3)(各5μM))、0.12μl dNTP(各10mM)、0.05μl 0.1M DTT(Life Technology)和2U RNaseOUT(Life Technologies)。用胰蛋白酶消化HEK293T细胞并在无RNA酶的PBS(Ambion)中进行稀释。在显微镜下将单细胞用口吸管吸至每个含有1.6μl细胞裂解缓冲液的PCR管中。对于单细胞平均物，将40个细胞用口吸管吸至64ul细胞裂解缓冲液中。将细胞在72℃裂解3分钟，然后转移到冰上。对于ERCC加标实验，将1μl的1:80,000稀释的ERCC加标添加至40μl裂解缓冲液中。将32μl加标裂解液取出，其中4个单细胞被口吸管吸出。裂解后，将1/20的混合物用于代表平均的1/5的具有加标的单细胞。

逆转录和第二链合成–制备含有0.8μl 5X第一链缓冲液(Life Technologies)、0.2μl 0.1M DTT、4U RNaseOUT(Life Technologies)、30U Superscript III(LifeTechnologies)和1.15μl不含RNA酶的水的逆转录混合物，并将其加入每个含有裂解的单细胞的管中(对于单细胞平均物，将逆转录混合物按比例加入裂解的样品中，并充分混合；然后将4μl混合物加入每个PCR管中)。与Superscript II相比，Superscript III具有更好的热稳定性，但模板转换活性低。

在Bio-Rad热循环仪上进行10个循环的退火(从8℃斜线上升至50℃)。用0.2μl T4DNA聚合酶(New England Biolabs)处理将残留引物在37℃消化30分钟和在63℃消化20分钟，然后用0.2μl外切核酸酶I(New England Biolabs)处理(如果RNA输入大于5pg，则外切核酸酶I是可选的)在37℃消化30分钟和在63℃消化20分钟。通过在37℃下加入0.2μl 20X蛋白酶(Qiagen)进行30分钟，进一步使T4DNA聚合酶和外切核酸酶I失活。在72℃下20分钟使蛋白酶失活。将RNA酶H(New England Biolabs)和RNA酶If(New England Biolabs)以1:1混合。将0.2μl酶混合物加入到样品中，然后将其在37℃下孵育15分钟并在72℃下15分钟使其失活。然后加入含有2.74μl PCR级水、0.4μl 100m M dCTP、0.36μl 10X TdT缓冲液和0.1μl TdT的TdT末端转移酶(New England Biolabs)混合物。加尾反应在37℃下进行15分钟，然后在72℃下进行15分钟的热灭活。对于第二链合成，加入13.1μl PCR级水、0.125μl100mM MALBAC引物、1.25μl dNTP(各10mM)和1.5μl 10X Thermopol缓冲液。将样品加热至95℃，进行30秒。在48℃下加入0.4μl deepvent exo-(New England Biolabs)聚合酶。进行10个循环的多次退火(48℃，进行20秒)，在72℃进行1分钟以将第一链cDNA转化为双链全扩增子。

PCR扩增和纯化-含有21μl 10X Thermopol缓冲液、1.2μl 100μM GAT引物(GTGAGT GAT GGT TGA GGA TGT GTG GAG；SEQ ID NO:4)、5μl 10mM的各种dNTP、185μl PCR级水和将4.5μl Deepvent exo-DNA聚合酶的PCR混合物与促扩增反应物(preamp reactions)混合。将每个反应分成8个PCR管。PCR程序如下：95℃孵育30秒，24个PCR循环(95℃ 15秒，60℃20秒和72℃ 2分钟)，然后在72℃孵育5分钟。使用Qiagen PCR纯化试剂盒或0.9X Ampure珠(Beckman Coulter)纯化PCR反应物。

文库制备和测序-对于文库制备，使用500ng cDNA。使用Covaris S220超声波仪将cDNA剪切至200bp。使用NEBNext末端修复模块(New England Biolabs)进行末端修复。基于Ampure珠的尺寸选择在0.75X下进行(弃去珠)，然后加入0.45X(总共1.2X)Ampure珠(弃去上清液)。获得的产物由Klenow exo-DNA聚合酶(New England Biolabs)进行A-加尾。使用T4DNA快速连接酶(New England Biolabs)将Illumina Truseq衔接子与样品连接。使用1XAmpure珠将文库纯化至30μl PCR级水中。将4μl产物加入到含有10μl 2XκHiFi易于热启动的混合物(kapa HiFi HotStart Ready Mix，Kapa Biosystems)、1μl Truseq PCR引物(各10μM)和5μl PCR级水的PCR混合物中。在95℃孵育2分钟后，进行5个PCR循环(95℃持续15秒，60℃持续15秒，72℃持续30秒)。使用1X Ampure珠纯化终产物。使用KAPA文库定量试剂盒来定量每个文库的浓度。按照Illumina方案的指示合并文库。然后使用150个循环的测序试剂盒在Illumina Nextseq 500平台上对合并的文库进行测序。

ERCC稀释和定位绘图百分比-在先前使用SMART-seq化学的研究(3,4)中，其中将约400万倍稀释的ERCC标准品掺入单细胞中，超过5％的读段被定位绘图到ERCC。使用MATQ-seq，当将200万倍稀释的ERCC标准品掺入单细胞的1/5中时，5.76±1.54％的读段被定位绘图到ERCC。该结果表明，与先前的研究相比，MATQ-seq产生10倍更多的cDNA用于PCR扩增。这种增加可能归因于提高的捕获效率以及MATQ-seq化学允许的非聚腺苷酸化转录物的有效检测。

用于去除核糖体cDNA的任选双链体特异性核酸酶(DSN)处理–利用DSN处理去除大部分核糖体cDNA(Zhulidov等，2004)。在KAPA定量和文库合并后，将9μl 1nM的合并文库加入到10μl 2XκHiFi易于热启动的混合物(Kapa Biosystems)、1μl TruseqPCR引物(各10μM)中。将PCR进行5个循环。使用1X Ampure珠将最终产物纯化到10μl PCR级水中。制备5μl纯化文库、1μl 10X DSN缓冲液(Evrogen)、3μl PCR级水的反应混合物。将反应混合物在热循环仪上加热至95℃持续30秒，然后在80℃下孵育4小时。向混合物中加入1μl预热的双链体特异性核酸酶。然后将反应混合物在80℃下孵育15分钟。加入预热的终止溶液(Evrogen)以终止反应。使用20μl Ampure珠纯化DSN处理的文库。KAPA定量试剂盒(Kapa Biosystems)用于定量DSN处理的文库。基因表达谱在程序之前和之后是一致的(图22-23)。在总测序读段中，DSN处理可以有效地将核糖体读段从约50％减少至约10％。此外，为了有效地检测低拷贝的ERCC加标，在测序之前用DSN处理合并的平均的1/5单细胞样品文库。

修剪和定位绘图-使用skewer包修剪原始测序数据以除去引物序列。除去引物序列后，进一步修剪14个碱基以除去扩增子指标碱基和由于dC-加尾引入的额外碱基。使用Tophat将读段定位绘图到基因组。仅使用定位绘图得分等于50的来自Tophat的读段，这表示独特的定位绘图。编写使用HT-seq包的Python脚本来解析bam文件和相应的fastq文件之间的扩增子指标信息。这允许检索与定位绘图的读段相关联的指标序列。将gencode注释发布19(GRCh37.p13)用于转录物注释。当将读段分配给基因时，仅使用可被唯一地分配给该基因的区域来避免多次分配。基因覆盖、GC％和片段大小分布在图24中给出。在图25中为TP53给出了定位绘图的一个实例。

基因表达水平的定量-在检索扩增子指标信息和读段的定位绘图信息之后，使用单独的python脚本来计数与每个基因(包括对整个基因体，仅对外显子区域，以及仅对内含子区域)相关的独特扩增子指标序列的数量。总结了扩增子总数以将基因表达标准化。将APM的单位定义为每一百万个总扩增子的扩增子数。基因表达水平＝基因的独特扩增子指标数/所有基因的指标总数×1,000,000。为了避免由于指标饱和(index saturation)而导致对极高表达的基因的不准确计数，当扩增子数超过800时，将基因排除在分析之外(由于潜在低估扩增子指标，三个基因被排除在分析之外)。

在成对的单细胞之间重复检测的基因的百分比-根据两份样品的最高表达水平对基因进行分箱(bin)。必要时进行下采样以确保均等比较。使用与MATQ-seq相同的管道重新分析SMART-seq2。如果在两份样品中基因具有的每百万定位绘图的读段的读段数(RPM)值高于0.1，则认为所述基因被检测到。报告了平均百分比和95％置信区间。

方差的F检验-单细胞和单细胞平均物之间的F检验的零假设是方差相等。为了避免单细胞平均物中泊松噪声的低效采样，仅选择在所有单细胞平均物中被检测到的基因用于测试。双尾测试用于本文中描述的所有F检验。

用于Fano因子计算的扩增子数量的估算–对以APM为单位的基因表达值进行重新调整以允许分布C.V.对比平均值遵循下述关系：(基于泊松分布)。如图26所示，由一百万个扩增子重新标准化的表达水平不与线性线重叠。当基因表达由100k扩增子重新标准化时，分布与的线性线重叠良好，表明这种重新标准化使单细胞平均物的数据符合泊松分布。

基因表达比的直方图-通过以下程序生成基因表达比的直方图。计算任何一对单细胞之间每个基因的基因表达水平的比率并将其分箱至直方图中。将细胞对随机分配给分母和分子。如果基因不被表达，则将该比率的值指定为NaN。该分析的优点是计算的比率是非参数的。此外，比率不依赖于绝对基因表达水平，因此高表达基因的变异不会比低表达基因重。另外，柱的高度还显示了可重复检测的基因数量。

用于鉴定技术偏好性和变异的PCA-在PCA数据中，当单细胞平均物不在单细胞的中心投射时，这表明技术噪声主导生物噪声。对于方差分析，仅关注在所有单细胞平均物中检测到其表达的基因，以保证稳健的统计学。

MATLAB中的统计分析-在MATLAB中使用vartest2进行用于单细胞与单细胞平均物之间的方差比较的F检验。使用MATLAB中的kstest函数进行KS检验以检验单细胞平均物中的基因表达是否遵循正态分布。使用MATLAB中的pca函数进行PCA分析。

TFBS分析-使用注释、可视化和集成发现数据库(DAVID)(Huang等，2009)进行转录因子结合分析。

沿着基因体的扩增子指标分布和统计学-具有扩增子指标的读段未显示显著的沿mRNA分布的偏好性(图7)。将检测到的基因的独特扩增子数的直方图绘制成图27中的直方图。

估计非独特扩增子指标(条形码)的比率-为了鉴定由多个基因座处的相同衔接子杂交产生的扩增子指标，使用GATK的HaplotypeCaller鉴定高置信度SNP(表4)。然后收集具有相同起始位置的由多于一个指标覆盖的SNP。具有携带参考碱基而非SNP基因座中的替代碱基的相同指标序列的读段表明测序错误；需要三个这样的读段来滤除错误。这些事件的频率用于估计非独特指标的比率的上限，基于来自10个HEK293T细胞的测序数据，其为约0.7％±0.6％。混杂引物杂交在序列复杂度低的区域更常见。

表4.SNP相关的读段和指标

数据和代码可用性-单细胞RNA-seq数据以登录号GSE78968保存在GEO中。本文提供了所有其他数据。

尽管已经详细描述了本发明及其优点，但是应该理解，在不背离由所附权利要求限定的本发明的精神和范围的情况下，可以进行各种改变、替换和变更。此外，本申请的范围不旨在限于说明书中描述的工艺、机器、制造、物质组成、装置、方法和步骤的特定实施方案。正如本领域普通技术人员从本发明的公开内容将容易理解的，可根据本发明使用目前存在或稍后开发的执行与本文所述的相应实施方案基本上相同的功能或获得基本上相同的结果的工艺、机器、制造、物质组成、装置、方法或步骤。因此，所附权利要求旨在在其范围内包括此类工艺、机器、制造、物质组成、装置、方法或步骤。

此外，本申请的范围不旨在限于说明书中描述的工艺、机器、制造、物质组成、装置、方法和步骤的特定实施方案。

参考文献

1.Battich N，Stoeger T，Pelkmans L.Control of Transcript Variability inSingle Mammalian Cells.Cell.2015；163(7)：1596-610.doi：10.1016/j.cell.2015.11.018.

2.Briese M，Saal L，Appenzeller S，Moradi M，Baluapuri A，Sendtner M.Wholetranscriptome profiling reveals the RNA content of motor axons.Nucleic acidsresearch.2015.doi：10.1093/nar/gkv1027.PubMed PMID：26464439.

3.Cai L，Friedman N，Xie XS.Stochastic protein expression in individualcells at the single molecule level.Nature.2006；440(7082)：358-62.doi：10.1038/nature04599.PubMed PMID：16541077.

4.Chapman AR，He Z，Lu S，Yong J，Tan L，Tang F，et al.Single celltranscriptome amplification with MALBAC.PLoS One.2015；10(3)：e0120889.doi：10.1371/journal.pone.0120889.PubMed PMID：25822772；PubMed Central PMCID：PMCPMC4378937.

5.Elowitz MB，Levine AJ，Siggia ED，Swain PS.Stochastic gene expressionin a single cell.Science.2002；297(5584)：1183-6.doi：10.1126/science.1070919.PubMed PMID：12183631.

6.Fan X，Zhang X，Wu X，Guo H，Hu Y，Tang F，et al.Single-cell RNA-seqtranscriptome analysis of linear and circular RNAs in mouse preimplantationembryos.Genome biology.2015；16：148.doi：10.1186/s13059-015-0706-1.PubMed PMID：26201400；PubMed Central PMCID：PMCPMC4511241.

7.Golding I，Paulsson J，Zawilski SM，Cox EC.Real-time kinetics of geneactivity in individual bacteria.Cell.2005；123(6)：1025-36.doi：10.1016/j.cell.2005.09.031.PubMed PMID：16360033.

8.Grun D，Kester L，van Oudenaarden A.Validation of noise models forsingle-cell transcriptomics.Nature methods.2014；11(6)：637-40.doi：10.1038/nmeth.2930.PubMed PMID：24747814.

9.Hashimshony T，Wagnet F，Sher N，Yanai I.CEL-Seq：single-cell RNA-Seqby multiplexed linear amplification.Cell reports.2012；2(3)：666-73.doi：10.1016/j.celrep.2012.08.003.

10.Huang da W，Sherman BT，Lempicki RA.Bioinformatics enrichment tools：paths toward the comprehensive funetional analysis of large genelists.Nucleic acids research.2009；37(1)：1-13.doi：10.1093/nar/gkn923.PubMedPMID：19033363；PubMed Central PMCID：PMC2615629.

11.Islam S，Zeisel A，Joost S，La Manno G，Zajac P，Kasper M，etal.Quantitative single-cell RNA-seq with uniqua molecular identifiers.Naturemethods.2014；11(2)：163-6.doi：10.1038/nmeth.2772.PubMed PMID：24363023.

12.Jaitin DA，Kenigsberg E，Keren-Shaul H，Elefant N，Paul F，Zaretsky I，et al.Massively parallel single-cell RNA-seq for marker-free dccomposition oftissues into cell types.Science.2014；343(6172)：776-9.doi：10.1126/science.1247651.PubMed PMID：24531970；PubMed Central PMCID：PMCPMC4412462.

13.Kivioja T，Vaharautio A，Karlsson K，Bonke M，Enge M，Linnarsson S，etal.Counting absolute numbers of molecules using unique moleeularidentifiers.Nat Meth.2012；9(1)：72-4.doi：10.1038/nmeth.1778.

14.Kuanwei Sheng CZ.Multiple Annealing and dC-Tailing basedQuantitative single-call RNA-seq(MATQ-seq).Protocol Exchange.2016.doi：10.1038/protex.2016.088.

15.Marinov GK，Williams BA，McCue K，Schroth GP，Gertz J，Myers RM，etal.From single-cell to cell-pool transcriptomes：stochasticity in geneexpression and RNA splicing.Genome Res.2014；24(3)：496-510.doi：10.1101/gr.161034.113.PubMed PMID：24299736；PubMed Central PMCID：PMCPMC3941114.

16.Picelli S，Bjorklund AK，Faridani OR，Sagasser S，Winberg G，SandbergR.Smart-seq2 for sensitive full-length transcriptome profiling in singlecells.Nature methods.2013；10(11)：1096-8.doi：10.1038/nmeth.2639.PubMed PMID：24056875.

17.Raj A，van Oudenaarden A.Nature，nurture，or chance：stochastic geneexpression and its consequences.Cell.2008；135(2)：216-26.doi：10.1016/j.cell.2008.09.050.PubMed PMID：18957198；PubMed Central PMCID：PMC3118044.

18.Ramskold D，Luo S，Wang YC，Li R，Deng Q，Faridani OR，et al.Full-lengthmRNA-Seq from single-cell levels of RNA and individual circulating tumorcells.Nature biotechnology.2012；30(8)：777-82.doi：10.1038/nbt.2282.PubMedPMID：22820318；PubMed Central PMCID：PMC3467340.

19.Streets AM，Zhang X，Cao C，Pang Y，Wu X，Xiong L，et al.Microfluidicsingle-cell whole-transcriptome sequencing.Proceedings of the NationalAcademy of Sciences of the United States of America.2014；111(19)：7048-53.doi：10.1073/pnas.1402030111.

20.Tang F，Barbacioru C，Wang Y，Nordman E，Lee C，Xu N，et al.mRNA-Seqwhole-transcriptome analysis of a single cell.Nature methods.2009；6(5)：377-82.doi：10.1038/nmeth.1315.PubMed PMID：19349980.

21.Wu AR，Neff NF，Kalisky T，Dalerba P，Treutlein B，Rothenberg ME，etal.Quantitative assessment of single-cell RNA-sequencing methods.Naturemethods.2014；11(1)：41-6.doi：10.1038/nmeth.2694.PubMed PMID：24141493；PubMedCentral PMCID：PMC4022966.

22.Zhulidov PA，Bogdanova EA，Shcheglov AS，Vagncr LL，Khaspekov GL，Kozhemyako VB.et al.Simple cDNA normalization using kamchatka crab duplexspecific nuclease.Nucleic acids research.2004；32(3).doi：10.1093/nar/gnh031.

23.Zong C，Lu S，Chapman AR，Xie XS.Genome-wide detection of singlenucleotide and copy number variations of a single human.Science.2012；338：1622-6.

序列表

<110> BAYLOR COLLEGE OF MEDICINE

<120> 全转录组扩增的方法

<130> BAYM.P0163WO-11702392

<140> 未知的

<141> 2017-03-31

<150> 62/316,880

<151> 2016-04-01

<160> 4

<170> PatentIn version 3.5

<210> 1

<211> 52

<212> DNA

<213> 人工序列

<220>

<223> 合成的引物

<220>

<221> misc_feature

<222> (28)..(32)

<223> n为a, c, g, 或t

<400> 1

gtgagtgatg gttgaggatg tgtggagnnn nntttttttt tttttttttt tt 52

<210> 2

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的引物

<220>

<221> misc_feature

<222> (28)..(32)

<223> n为a, c, g, 或t

<400> 2

gtgagtgatg gttgaggatg tgtggagnnn nnggg 35

<210> 3

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的引物

<220>

<221> misc_feature

<222> (28)..(32)

<223> n为a, c, g, 或t

<400> 3

gtgagtgatg gttgaggatg tgtggagnnn nnttt 35

<210> 4

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成的引物

<400> 4

gtgagtgatg gttgaggatg tgtggag 27

Claims

1.一种从一个或多个细胞扩增RNA的方法，其包括以下步骤：

将来自所述一个或多个细胞的RNA暴露于第一多种引物和至少一种逆转录酶以产生反应混合物；

使所述反应混合物经受允许所述引物与RNA退火和第一链cDNA合成以产生延伸的DNA链的条件；

消化未退火的引物；

使所述反应混合物中的酶失活；

消化所述反应混合物中的RNA；

对所述延长的DNA链的3'末端进行加尾；

在合适的条件下使用第二多种引物和至少一种DNA聚合酶产生第二链cDNA合成，以产生双链全扩增子，其中所述第一多种引物、第二多种引物或两者中的引物包含下式：

XnYmZp，

其中n大于2且X富含40％-60％的G或富含40％-60％的C，其中Y为任何核苷酸且m为5-8个核苷酸，并且，其中当X富含G时，Z为T和G，或当X富含C时，Z为C，其中p为2-20个核苷酸。

2.权利要求1的方法，其中m为5个核苷酸。

3.权利要求1或2的方法，其中p为3个核苷酸。

4.权利要求1或2的方法，其中p为20个核苷酸。

5.权利要求1-4中任一项的方法，其中n为20-40个核苷酸。

6.权利要求5的方法，其中n为25-35个核苷酸。

7.权利要求5的方法，其中n为24-28个核苷酸。

8.权利要求1-7中任一项的方法，其中所述第一链cDNA合成使用逆转录酶SuperscriptII、Superscript III或Superscript IV。

9.权利要求1-8中任一项的方法，其中所述第一多种引物与所述RNA的退火和/或所述第二多种引物与所述DNA的退火在0-10℃的范围内进行。

10.权利要求1-9中任一项的方法，其中第一链cDNA合成至少在30-55℃进行。

11.权利要求1-10中任一项的方法，其中用具有3'至5'外切核酸酶活性的DNA聚合酶和/或外切核酸酶中的至少一种消化所述未退火的引物。

12.权利要求11的方法，其中所述具有3'至5'外切核酸酶活性的DNA聚合酶和/或核酸外切酶是T4DNA聚合酶和/或外切核酸酶I中的至少一种。

13.权利要求1-12中任一项的方法，其中消化所述引物在60℃-65℃的范围内的温度进行。

14.权利要求1-13中任一项的方法，其中使所述酶失活在72-95℃的范围内的温度进行。

15.权利要求1-14中任一项的方法，其中消化所述RNA用至少一种核糖核酸酶进行。

16.权利要求15的方法，其中所述核糖核酸酶是RNA酶H和/或RNA酶If中的至少一种。

17.权利要求1-16中任一项的方法，其中消化所述RNA在30-50℃的范围内的温度进行。

18.权利要求1-17中任一项的方法，其中对所述延伸的DNA链的3'末端加尾使用至少一种末端脱氧核糖核苷酸转移酶进行。

19.权利要求18的方法，其中所述末端脱氧核糖核苷酸转移酶是TdT末端转移酶。

20.权利要求1-19中任一项的方法，其中对所述延伸的DNA链的3'末端的加尾使用脱氧胞苷三磷酸或脱氧鸟苷三磷酸进行。

21.权利要求20的方法，其中当所述第一多种引物富含G时，使用脱氧胞苷三磷酸进行加尾。

22.权利要求20的方法，其中当所述第一多种引物富含C时，使用脱氧鸟苷三磷酸进行加尾。

23.根据权利要求1-22中任一项所述的方法，其中所述加尾步骤在10-45℃的范围内的温度进行。

24.权利要求1-23中任一项的方法，其中所述产生步骤在10-45℃的范围内的温度进行。

25.权利要求1-24中任一项的方法，其中所述产生步骤使用Deep Vent(exo-)DNA聚合酶和/或Taq聚合酶进行。

26.权利要求1-25中任一项的方法，其中所述产生步骤包括在30-55℃的范围内的温度将所述第二多种引物与扩增子的3'末端退火。

27.权利要求1-26中任一项的方法，其中发生DNA延伸以产生双链DNA的条件是72℃。

28.权利要求1-27中任一项的方法，其中所述第二多种引物中的引物包含扩增子指标以控制聚合酶链式反应效率偏好性。

29.权利要求1-28中任一项的方法，其中通过线性或非线性方法进一步扩增所述双链全扩增子。

30.权利要求29的方法，其中对所述扩增的扩增子中的至少一些进行测序。

31.权利要求30的方法，其中分析所述序列相对于对照样品的插入、缺失、单核苷酸变异(SNV)、剪接变体、基因融合产物和个体转录物的存在或不存在中的一种或多种。

32.权利要求1-31中任一项的方法，其中所述一个或多个细胞是从个体分离的。

33.权利要求32的方法，其中所述一个或多个细胞是循环肿瘤细胞。

34.权利要求29的方法，其中对所述扩增的扩增子中的一个或多个分析癌症突变、基因融合产物、剪接变体、癌基因的表达、肿瘤抑制基因表达的缺失和肿瘤特异性抗原的表达中的一种或多种。

35.权利要求34的方法，其中所述癌基因是BAG1、Bcl-2、CTNNB1、BRAF、FOS、JUN、EGFR、ERBB2、ETV6-NTRK3基因融合物、Gankyrin、GT198、MDM2、MIG7、MYC、SRC、RAS、SKI、TCTP、ABL、CBL、ROS1、AKT、BAX、FKHR、CDK2、CDK4、CCND1、CCNE1、PIK3CA、HPV-E7、HPV-E6、AURKA、miR-155、FAS、GLI、SHH、SMO、NOTCH、ILK、RAR、SOX、WNT1、TAL1、MLL、HOXA1、MITF、EVI1、BCL6和/或HOXA9。

36.权利要求34的方法，其中所述肿瘤抑制基因为APC、BRCA1、BRCA2、CDKN1B、CDKN1C、DLD/NP1、HEPACAM、INK4、miR-145、p15、p16、p53、p57、p63、p73、PTEN、Rb、SDHA、SDHB、SDHC、SDHD、SFRP1、TCF21、TIG1、TP53、TSC1/TSC2和VHL、BCL2、INPP4B、LKB1、ARF、ATM/ATR、CHK1、CHK2、DNA-PK、FANCs、HIPK2、NBS1、WT1、MUTYH、BLM、RECQL4、WRN、MLH1、MSH2、MSH6、PMS2、XPA、XPC、XPD、FBXW7、PTCH1、SUFU、EXT1、EXT2、NF1、NF2、BMPR1A、SMAD2、SMAD3、SMAD4、TGFBR1、MEN1、APC、AXIN、CTNNA1、CDH1、WNT5A、GPC3、HRPT2和/或HPC1。

37.权利要求34的方法，其中所述肿瘤特异性抗原为EphA2、HER2、GD2、磷脂酰肌醇蛋白聚糖-3、5T4、8H9、α_vβ₆整联蛋白、B细胞成熟抗原(BCMA)B7-H3、B7-H6、CAIX、CA9、CD19、CD20、CD22、κ轻链、CD30、CD33、CD38、CD44、CD44v6、CD44v7/8、CD70、CD123、CD138、CD171、CS1、CEA、CSPG4、EGFR、EGFRvIII、EGP2、EGP40、EPCAM、ERBB3、ERBB4、ErbB3/4、FAP、FAR、FBP、胎儿AchR、叶酸受体α、GD3、HLA-AI、HLA-A2、IL11Ra、IL13Ra2、KDR、λ、Lewis-Y、MCSP、间皮素、Muc1、Muc16、NCAM、NKG2D配体、NY-ESO-1、PRAME、PSCA、PSC1、PSMA、ROR1、Sp17、存活蛋白、TAG72、TEM1、TEM8、癌胚抗原、HMW-MAA、VEGF受体、MAGE-A1、MAGE-A3、MAGE-A4、CT83、SSX2、XIAP、cIAP1、cIAP2、NAIP和/或Livin。

38.权利要求1-37中任一项的方法，其中所述一个或多个细胞是外周血单核细胞(PBMC)。

39.权利要求29的方法，其中对所述扩增的扩增子中的一个或多个分析肿瘤特异性TCR的表达。

40.权利要求39的方法，其中所述TCR靶向MART-1、gp100、NY-ESO-1和/或一种或多种表面抗原。

41.权利要求29的方法，其中对所述扩增的扩增子中的一个或多个分析一种或多种免疫细胞活化标记物的存在。

42.权利要求41的方法，其中所述免疫细胞活化标记物是：CD3、CD8、CD25、GZMB、CD45RO、PTPRC、IFNG。

43.权利要求1-42中任一项的方法，其中所述一个或多个细胞是从个体的瘤分离的。

44.权利要求43的方法，其中分析多于一个细胞以确定肿瘤异质性。

45.权利要求1-44中任一项的方法，其中在治疗前和治疗后收集所述细胞中的一个或多个。

46.权利要求45的方法，其中所述疗法是化学疗法、免疫疗法、激素疗法、放射和/或手术中的至少一种。

47.权利要求33的方法，其中所述肿瘤是：急性淋巴母细胞性白血病，急性骨髓性白血病，慢性淋巴细胞白血病，慢性髓性白血病，急性单核细胞白血病，霍奇金淋巴瘤，非霍奇金淋巴瘤，乳腺、前列腺、肺和结肠的癌症或上皮的癌症/癌，诸如乳腺癌、结肠癌、前列腺癌、头颈癌、皮肤癌、生殖泌尿道癌例如卵巢癌、子宫内膜癌、宫颈癌和肾癌，肺癌，胃癌，小肠癌，肝癌，胰腺癌，胆囊癌，胆管癌，食道癌，唾液腺癌和/或甲状腺癌。

48.权利要求1-47中任一项的方法，其中所述一个或多个细胞来自发育中的胎儿。

49.权利要求48的方法，其中对一个或多个细胞的扩增的扩增子中的一个或多个分析先天性病症或已知的表型后果。

50.权利要求49的方法，其中所述先天性病症或已知的表型后果是β-地中海贫血、唐氏综合征、囊性纤维化、镰状细胞病、泰-萨病、脆性X综合征、脊髓性肌萎缩症、血红蛋白病、α-地中海贫血、X连锁病症、脊柱裂、无脑畸形、先天性心脏缺损、肥胖、糖尿病、癌症、胎儿性别、胎儿RHD、胎儿HLA单倍型或父源突变。

51.权利要求49的方法，其中分析一个或多个细胞以追踪与细胞谱系和分化相关的转录组学变化。

52.权利要求1-51中任一项的方法，其中所述一个或多个细胞是干细胞。

53.权利要求52的方法，其中使所述干细胞经受诱导分化的条件。

54.权利要求52的方法，其中在不同时间对所述一个或多个干细胞进行取样。

55.权利要求52-54中任一项的方法，其中分析一个或多个细胞的所述扩增的扩增子中的一个或多个以确定干细胞分化期间的转录组异质性。

56.权利要求1-55中任一项的方法，其中所述一个或多个细胞是已经过修饰以表达Cas9和一种或多种单一指导RNA(sgRNA)的细胞。

57.权利要求56的方法，其中对一个或多个细胞的所述扩增的扩增子中的一个或多个分析插入、缺失、单核苷酸变异(SNV)中的一种或多种的存在以及一种或多种sgRNA的一个或多个靶标的存在或不存在。

58.权利要求1-30中任一项的方法，其中所述一个或多个细胞是原核细胞。

59.权利要求58的方法，其中所述原核细胞是细菌。

60.权利要求59的方法，其中从感染所述细菌的个体收集所述细胞。

61.权利要求60的方法，其中向所述个体施用抗生素疗法。

62.权利要求61的方法，其中在抗生素治疗期间分析所述细菌的扩增的扩增子中的一个或多个。

63.权利要求62的方法，其中对所述扩增的扩增子中的一个或多个分析与抗生素抗性相关的突变或插入或缺失中的一种或多种的出现。

64.权利要求1-63中任一项的方法，其中所述RNA是总RNA转录组。