CN107636166A

CN107636166A - 高度并行准确测量核酸的方法

Info

Publication number: CN107636166A
Application number: CN201680021886.5A
Authority: CN
Inventors: 班纳吉·阿吉特·帕特尔
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-02-13
Filing date: 2016-02-14
Publication date: 2018-01-26
Also published as: JP2018509178A; RU2017131622A; WO2016131030A4; RU2017131622A3; US20180010176A1; CA2974398A1; WO2016131030A1; EP3256607A4; EP3256607B1; EP3256607A1

Abstract

本文涉及可对核酸进行简化、灵敏和准确定量的方法和组合物。有些方法可以对多个样本的多个靶向核糖核酸进行高度平行测量。其他方法可以对核酸分子的复杂混合物的低丰度核酸变体进行高度敏感测量。

Description

高度并行准确测量核酸的方法

联邦资助科研的相关声明

本发明在美国国家卫生研究院签署的TR000140和TR000142框架下获得了政府支持。因此，政府在本发明中享有某些权利。

交叉参考相关的专利申请

本申请要求2015年2月13日提交的第62/116,302号美国临时专利申请和2015年3月20日提交的第62/135,923号美国临时专利申请的权益。

技术领域

本发明涉及溶液中核酸的识别和定量。

发明背景

生物医学研究和临床医学的许多应用依赖于核酸的准确检测和定量。某些应用依赖于核糖核酸(RNA)水平的测量，以提供基因活性或基因表达的相关信息。还有一些应用依赖于变异体脱氧核糖核酸(DNA)或指示是否存在基因组改变的RNA序列，例如点突变、着生、缺失、易位、多态性或拷贝数目变异。核酸的材料在技术和实际应用方面仍存在许多挑战。通常而言，测量须依赖于大量取样。此外，如果包含核酸分子复杂混合物的有限样本中存在极少数的感兴趣的特定核酸序列，则想要可靠地识别和定量低丰度变异体将不是一件易事。

在各种临床和研究样本内分析基因表达有助于增强我们对细胞生理学的理解并从此获知治病方法。辨别复杂生物系统内有意义的基因表达谱通常涉及到在两个方面的统计对比：多个核糖核酸之间和多个样本之间。尽管第一个RNA维度的高度并行分析技术已趋于成熟，但是，对于第二种维度而言，即样本维度，效率仍非常有限。可以使用诸如转录组测序(RNA-Seq)或微阵列等技术获取RNA表达的全基因组图片。但是，由于这些方法涉及到每个样本的独立的多步骤处理，所以不方便进行大型样本多重处理。而且，尽管RNA-Seq成本降低后加快了其广泛应用，但是序列深度和每个样本成本之间仍然存在一定的权衡，这一点限制了测量罕见转录物的灵敏度。

通常在通过全局剖面法确定差异表达RNA的子集后，再使用定量逆转录聚合酶链反应(qRT-PCR)对较大样本集的靶向RNA进行评估。qRT-PCR的准确性、灵敏度和广泛的动态范围使此方法成为验证和进一步测试此类转录物的选择。然而，由于需要在独立的反应体积上执行对荧光性的实时监测，所以，将多基因qRT-PCR化验应用到大量样本将是一件费时费力和成本高昂的事情。尽管可以通过自动化或微流体来改善效率，但是独立的指数式扩增仍然容易导致样本间出现差异。

同时，从复杂的核酸分子混合物中检测并定量低丰度变异体核酸序列也是一件极具挑战的事。当特定样本的DNA或RNA量有限时，在检测变异体序列时很难实现高分析灵敏度。此类方法的应用是在患有癌症的个人的血液中检测少量肿瘤来源的DNA或RNA分子。众所周知，DNA和RNA的片段分子所释放到的血流是来自患有各种恶性肿瘤的患者的临死癌细胞。此类循环肿瘤来源的核酸表现出良好的作为非侵入性肿瘤标志物的前景。在血流中，可以基于是否存在肿瘤特定突变，将肿瘤来源核酸与正常背景DNA或RNA区分开来。然而，此类突变核酸拷贝通常少量存在于相对丰富的正常(野生型)分子的背景中。通常情况下，突变肿瘤来源拷贝在血浆中包含的总DNA或RNA少于1％，而且，丰度有时低至0.01％或以下。因此，检查此类低丰度DNA或RNA时会涉及到分析灵敏度极高的化验。

发明摘要

本文涉及可同时并以高度并行的方式定量许多样本的各种微RNA(miRNA)、信使RNA(mRNA)和其他类的RNA的方法和组合物。这些方法的序列深度远低于现有的数字剖面法。在一个实施例中，在反转录期间分配定量标签，以允许在竞争性扩增和深度测序前进行先期样本混合。此方法旨在提高大型基因表达研究的实际应用能力。

本文还涉及可以从复杂的核酸分子混合物定量低丰度变异体核酸序列的方法和组合物。

发明摘要

附图说明

附图1所示为公开的RNA剖面法的示意图。

附图2提供的数据用以支持使用公开RNA剖面法定量多重RNA的准确度。

附图3给出的数据用以验证使用取自人体组织和参照样本的RNA完成此方法的定量特性。

附图4给出人类血液中辐射诱导基因表达变化的高通量测量结果。

附图5提供与多个miRNA剖面平台相对比的数据。

附图6显示人类组织中miRNA绝对定量的结果。

附图7所示为RNAse H2活化引物的示意图，该引物可以通过校正聚合酶的3'-5'外切核酸酶活性，抑制其末端阻断基团的消化。

附图8所示为谱系追溯PCR的示意图。

附图9所示为谱系追溯PCR实验的结果。

附图10给出了在微珠上生成含珠状条码的可放热引物的示例。

附图11显示了热变性释放的临时固定寡核苷酸的生成方法。

附图12所示为溶液法，该方法可将克隆标签的寡核苷酸传输到微室内，作为引物，将微室特定标签添加到相同反应体积的共同扩增的PCR产物。

附图13所示为在液滴或微孔内对不同目标进行随机划分，进行PCR扩增的示例。

附图14所示为单个反应室的内容物的例子(例如微孔或液滴)。

附图15A和B给出了在含有携带条码引物的单微珠的微室内执行谱系追溯PCR的两个示例场景。

附图16A和B给出了在含有携带条码引物的单微珠的微室内执行谱系追溯PCR的另外两个示例场景。

附图17所示为如果一个特定微室内有两个或两个以上不同条码引物时，在微室内执行谱系追溯PCR的分析方法。

详细说明

本文还涉及下一代测序和医疗诊断相关的组合物及方法。方法包括核酸变异体的识别和定量，尤其是低丰度核酸变异体或者被野生型序列的丰度掩盖的核酸变异体。本文还涉及在多个样本中从多个序列识别和量化特定序列的相关方法。本文还涉及从聚合酶错掺、定序器错误和样本误分类中检测和区分真正的核酸变异体。在一个实施例中，方法包括提早在样本内的靶向核酸粘贴条码和分子谱系标签(MLT)。方法还包括使用高度特异性杂交成靶向DNA序列时不被阻断的巢式3'阻断引物对，使得在分配MLT的同时可以将聚合酶链反应(PCR)期间的伪扩增产物降到最低。方法包括在前几个PCR周期后提高退火温度，以避免含有MLT的引物进入反应的后续周期中。方法还包括克隆重叠双端测序，以实现序列冗余。方法还包括将PCR扩增分为多个小型反应室(例如油中的水滴或者微流体装置内的微观反应体积)，以追溯分子谱系。其他方法包括在微观反应体积内对双链DNA片段的两条链进行扩增和标记，以通过允许确认DNA双链体的两条链上的突变，来改善分析灵敏度。方法还包括将克隆标记的寡核苷酸的多个拷贝引入许多小型反应体积(例如微室)，以方便在反应体积内对核酸含量进行微室特定标记。在一个实施例中，此类克隆标记的寡核苷酸可以进入这些微室，无需附于表面，例如微珠或微室壁。

在一个实施例中，方法包括通过标记和扩增多重PCR内的低丰度模板核酸来测量核酸变异体。低丰度模板核酸可能是母体循环中的胎儿DNA、循环肿瘤DNA(ctDNA)、循环肿瘤RNA、外体来源RNA、病毒RNA、病毒DNA、来自移植器官的DNA或者细菌DNA。多重PCR可能包括易变异基因组区域的基因特异性引物。在一个实施例中，易变异区域可能在因癌症而改变的基因内。

在一个实施例中，引物包括条码和/或分子谱系标记(MLT)。在一个实施例中，MLT可以是2-10个核苷酸。在一个实施例中，MLT可以是6、7或8个核苷酸。在一个实施例中，条码可识别模板核酸样本来源。在一个实施例中，引物延伸反应采用靶向早期条形码技术。在靶向早期条形码技术中，针对不同核酸区域的多个不同引物拥有相同的条码。相同的条码识别特定样本的核酸。在一个实施例中，通过将含唯一条码的寡核苷酸片段以模块化的形式与基因特异性引物片段的均质混合物结合在一起，生成靶向早期条形码技术所用的引物。

在一个实施例中，公开的化验可以用于临床用途。在一个实施例中，可在治疗前后识别和测量血液内的核酸变异体。在癌症的示例中，可以在治疗(例如，化疗、放射治疗、手术、生物疗法、或其组合)前识别和/或测量核酸变异体(例如，癌症相关变异)。然后，在治疗后，可以识别或测量相同的核酸变异体。治疗后，核酸变异体的量变可以说明治疗成功。

“分子谱系标记”(MLT)一词的解释

“分子谱系标记”(MLT)一词指的是合成寡核苷酸(例如，引物)内所含的一段序列，用于向模板核酸分子的拷贝分配各种不同的序列标记。分配MLT后，可以将拷贝(或扩容)的DNA序列的谱系追溯到前几个PCR周期期间从模板核酸分子所作的早期拷贝。分子谱系标记可能包含简并和/或预定义DNA序列，但是，不同标记的填充通过并入多个简并位点最容易实现。分子谱系标记设计介于2与14个简并碱基位点之间，但是最好在6与8个碱基位点之间。碱基不必是连续的，且可以用常数序列隔开。一组寡核苷酸分子中可以生成的可能MLT序列的数量一般取决于MLT序列的长度和每个简并位点上可能碱基的数量。例如，如果MLT为8个碱基长，且在每个位点上拥有A、C、G或T，则可能序列的数量为4^A8＝65,536。MLT不需要充分的多样性才能够确保向每个拷贝的模板分子分配完全唯一的序列标记，而是应具备很低的概率将任何特定的MLT序列分配到特定分子。可能的MLT序列越多，任何特定序列分配到特定模板分子的概率越低。当拷贝并标记许多模板分子时，可能出现同一个MLT序列分配给不止一个模板分子的情况。MLT序列用于从初始拷贝、到扩增、处理和测序追溯分子的谱系。它们可以用于区分由聚合酶错掺或定序器错误引起的序列与来自于真正变异模板分子的序列。MLT也可以用于确定从单个DNA链或不止一个DNA链拷贝扩增PCR产物的时间(例如，当在微型反应室内扩增模板核酸片段的单拷贝时)。MLT还可以用于区分联合扩增期间条码交叉造成条码分配错误的序列。

“分子谱系标记”一词指的是将分子谱系标记分配到核酸模板分子的过程。MLT可以融入引物，附于通过具体扩增模板上的引物从靶向核酸片段制作的拷贝。

方法

高效RNA定量：

RNA定量策略保留了qRT-PCR的定量优点，同时还具备涉及合并样本的单反应的简单性、可扩容性和均一性，所有这些只要一个基于测序的读出器即可实现。附图1所示为公开的RNA剖面法的示意图。此示例描述96个样本中96个miRNA的测量。附图1(A)显示，模块化RT引物混合物分两步合成：含靶向型序列的96个部分合成的3'引物片段在重新分布前合并，以加入96个将用作样本标记的5'标记片段。96个引起混合物各使用不同的标记。由于合成的第二阶段首先从每一栏的3'片段的相同均匀混合物开始，最终的引物混合物全部使用类似的靶向型序列比例。附图1(B)显示，每个样本首先使用样本特定模块化引物混合物执行多重反转录(RT)，以将样本特定计数标记分配到与靶向RNA丰度成比例的cDNA。来自所有样本的标记cDNA组合成单一体积，然后使用与引物扩增序列互补的生物素标记寡核苷酸通过溶液杂交捕获进行纯化。然后，来自多个样本的合并cDNA携带标记通过进入高原期的每个靶向的竞争性、单定位点PCR进行共同扩增。从深度序列的扩增子统计标记/靶向组合揭示了所有样本上RNA的相对丰度。

在某些实施例中，此方法能够量化微RNA(miRNA)、信使RNA(mRNA)、长链非编码RNA(IncRNA)或其他RNA类。对于此方法，其每个碱基要求的平均序列深度远低于其他靶向或全转录组测序方法，这是因为独立的端点PCR只能使高低丰度RNA种类的总拷贝数大体相等。因此，无需过度采样，即可充分采集罕见转录物，在得到广泛的动态范围的同时最大化序列经济。如下表1所示，离子激流个人台式定序器的最低输出模式(少于1百万个读数)可用于快速、廉价地量化96个样本的96个RNA，提供相当于9,216次单独qRT-PCR化验的数据。即便是对更大样本集的分析，也强调了此方法相对于qRT-PCR的简单性，这是因为，反应管的数量计算为RNA的数量与所评价的样本数量之和，而不是积。

表1.被测样本的序列深度。

在一个实施例中，此方法允许进行先期样本并行化，相对在测序前组合样本的方法，拥有多个优点。大大简化工作流，避免了微流控装置或自动化的需求。在所有后RT步骤中合并处理可以降低样本间的数量变异。通过使每个靶向的PCR完成，序列深度均匀分布在所有靶向上，而不是被丰富的转录物几乎消耗。因此，与序列深度相关联的每样本成本得到最小化，同时为准确量化低丰度转录物之间的样本间差异保留了足够的深度。

此方法拥有早期样本合并的优点、使用了低得多的序列深度且能够靶向短miRNA，所以，它不同于现有的靶向测序法。同时，相比qRT-PCR或者多数基于杂交的方法，它也更适合区别序列变异体(尤其是较长的mRNA靶)。多数实验室应能够大范围地了解此方法，这是因为，相比其他微流体或直接分子统计技术使用的许多专业仪器，下一代定序器在机构核心设施中更为常见。此方法还非常适用于不同的测序平台，可以分析各种功能RNA类，而且，它对计算基础设施和专业技术要求不高。

低丰度核酸变异体的定量：

本文公开了识别和量化核酸序列变异体的方法及组合物。本文公开了从DNA或RNA的复杂混合物识别和量化低丰度序列变异体的方法。这些方法能够测量可能在患有各种癌症的患者循环中发现的少量肿瘤来源DNA。

在生物和医疗的许多领域中，罕见变异体DNA序列的评估至关重要。在孕妇的循环上可以发现少量胎儿DNA。一个实施例包括分析罕见的胎儿DNA，利用胎儿DNA评估疾病相关基因特征或者胎儿性别。经历受体排斥的器官可以释放少量DNA到血液，可以基于供体与受体之间的基因差异，区分此供体来源DNA。一个实施例包括测量供体来源DNA，以提供器官排斥和疗效的相关信息。在另一个实施例中，可以从患者样本中的传染剂(例如，细菌、病毒、真菌、寄生虫等)检测核酸。有关病原起源的核酸中的变异的基因信息可以帮助更好地描述此感染的特性，并引导作出治疗决策。例如，在感染患者的细菌基因组中检测到抗生素抗性基因可以引导抗生素治疗。

低丰度突变的检测和测量在肿瘤学领域中拥有许多重要的应用。众所周知，肿瘤会引起体细胞突变，部分会促成癌细胞任意扩散。识别并量化此类突变已然成为肿瘤学领域的一个关键诊断目标。伴随诊断已然成为识别癌症的突变原因，然后针对特定突变执行有效的治疗的一个重要工具。而且，一些肿瘤会引起对靶向治疗形成抵抗的新突变。因此，准确确定肿瘤的突变状态可以说是确定特定治疗对于特定患者的合适性的一个关键因素。然而，检测肿瘤特定体细胞突变是非常困难的，尤其是当从活组织检查或切除标本中获取的肿瘤组织在基质细胞的大背景下拥有少量肿瘤细胞时。当在血液、唾液、尿液、粪便、胸膜液或其他生物标本中发现极少量肿瘤来源的突变DNA时，肿瘤来源的突变DNA甚至更难测量。

肿瘤来源的DNA和RNA的片段分子所释放到的血流是来自患有各种恶性肿瘤的患者的临死癌细胞。循环肿瘤DNA(ctDNA)检测的几个应用包括但不仅限于检测是否存在恶性肿瘤、告知预后、评估疗效、跟踪肿瘤突变状态的变化和监测疾病复发或发展情况。由于唯一体细胞突变可用于区分肿瘤来源的DNA和血浆中的正常背景DNA，所以此类循环肿瘤来源的DNA表示新一类高度特异性肿瘤标志物，其临床应用可以作为传统血清蛋白标志物的临床应用的重要补充。在一个实施例中，方法包括筛选ctDNA，检测是否存在肿瘤特定体细胞突变。在此类实施例中，由于不大可能在健康的个人的血浆DNA中找到肿瘤相关突变，所以假阳性结果极其少见。公开的方法包括测量从具有高分析灵敏度和特异性的肿瘤细胞流进血液的罕见突变DNA分子。实现极高检测灵敏度对于在早期(较易治疗)阶段检测到小肿瘤尤其重要。

由于体细胞突变会出现在各种肿瘤相关基因内的许多可能位置上，所以将需要执行一次适合临床应用的试验来分析ctDNA，以同时从许多样本中同时评估许多基因中的突变。分析多个样本的多个易突变区域可以更有效地利用可以使用大规模并行测序技术获取的大量序列数据。在一个实施例中，产生自具有样本特定DNA序列标记(也称为条码或索引)的特定样本的标记分子方便同时分析不止一个样本。同时使用不同的条码序列标记源自不同样本的分子，可以将分子组合在一起，并对混合物执行大规模并行测序。然后，得到的序列可以基于条码标识进行排序，以确定哪些序列源自于哪些样本。为了将误分类的可能性降到最低，设计条码时，任何特定条码都可以通过在至少两个位点上设定两个不同碱基，使其与集中的所有其他条码区分开来。

在目前用于制备大规模并行测序用样本的多数协议中，要在样本经几步处理(例如，纯化、扩增、端修补等)后，附上条码。条码附着有两种方法：通过结扎条码测序转接器或将条码并入用于制作所关注核酸的拷贝的引物内。两种方法一般采用多个处理步骤，在来源于每个样本的核酸上单独执行这些步骤，才能附上条码。只有在附上条码后才能混合样本。

在一个实施例中，在样本处理早期将条码分配到靶向分子。靶向提早条码附着不仅允许批量执行多个样本的测序，还可以在一个组合式反应体积内执行多数处理步骤。一旦以样本特定的方式将条码附上核酸分子，即可混合分子，同时可以在单管内执行所有后续的步骤。如果分析了大量样本，则靶向提早附上条码可以大大简化此流程。由于所有分子都在相同条件下在单管中处理，所以，这些分子将经历相同的实验条件，且将会最小化样本间的变化。在一个实施例中，可以按一致的比例实现来自不同样本的核酸的标记，然后可以在样本间执行核酸浓度定量比较。因此，提早附上条码可以用于量化许多样本之间各种靶向核酸的总量，而不仅仅是变异体的总量。

在一个实施例中，生成定义明确的引物混合物，它包含样本特定条码的组合物，且基因特定片段的比例一致。此类引物可以用于靶向提早条码附着和后续批量样本处理。这些引物也可以用于不同样本的DNA或RNA量化。在一个实施例中，此类引物允许并行处理和以简单、统一的方式分析来自多个样本的多个易突变基因组靶向地区。

当前公开的方法包括准确量化突变DNA的方法，而不是简单确定其是否存在。在一个实施例中，突变DNA的量提供关于肿瘤负荷和肿瘤预后的信息。当前公开的方法能够分析由于血源性核酸酶退化以及由于从经历凋亡性死亡的细胞释放时的退化而高度片段化的DNA。由于在各种肿瘤相关基因内的许多可能位置都可能发生体细胞突变，所以，一个实施例可以同时评估特定样本中许多基因的突变。当前公开的方法能够发现ctDNA中的突变，无需事先了解患者肿瘤是否存在突变。一个实施例能够通过评估易出现肿瘤相关体细胞突变的基因组DNA的多个区域，筛选许多不同类型的肿瘤。一个实施例包括将多个样本一起组合在同一个反应管中，将样本间变化降到最低。

尽管目前描述的方法经过优化，可以测量肿瘤患者的血浆或血清中正常(野生型)脱细胞DNA的背景中的少量突变循环肿瘤DNA(ctDNA)，但是，由此得知，它们可以更广泛地应用于从各种来源分析核酸变异体。此类来源的示例包括但不仅限于淋巴结、肿瘤边缘、胸膜液、尿液、粪便、血清、骨髓、外周血白细胞、颊皮肤、循环肿瘤细胞、脑脊液、腹膜液、羊膜水、囊液、冷冻肿瘤标本、福尔马林固定和石蜡包埋的肿瘤标本。

方法

高效RNA定量：

先期样本并行化，以简化和精确RNA测量：

在一个实施例中，可以通过以下几个基本步骤执行高效RNA定量法。

在一个实施例中，为了提早并行化流程，将样本特定计数标记(条码)分配到逆转录(RT)期间在每个样本内靶向的一组RNA分子。在一个实施例中，基因特异性引物用于靶向所关注的RNA，实现逆转录。在一个实施例中，所关注的RNA可以是微RNA、信使RNA、长链非编码RNA(IncRNAs)或任何其他RNA类型。在一个实施例中，基因特异性引物标示有样本特定条码。在一个实施例中，样本特定条码在逆转录期间分配到补充DNA(cDNA)。在一个实施例中，分配到cDNA的某个给定样本特定标记的数量与样本中对应的RNA的丰度成比例。在一个实施例中，逆转录使用的引物的基因特定杂交区域可以短至6个核苷酸，长至40个核苷酸。在某些实施例中，基因特定杂交序列用于逆转录短微RNA靶向时为6个核苷酸长。在一个实施例中，为了增强6碱基对RNA/DNA相互作用的特异性和稳定性，可以通过对为常见引物序列提供补充的生物素化寡核苷酸进行退火处理，掩蔽未结合到微RNA的引物基。在某些实施例中，基因特定杂交序列用于逆转录较长的信使RNA或IncRNA靶向时为15～25个核苷酸长。在一个实施例中，可以在同一个反应体积中使用多个基因特异性引物，执行多个RNA序列的靶向逆转录(RT)。在一个实施例中，用于从特定样本逆转录RNA的所有引物均包含相同的样本特定条码(标记)。在一个实施例中，可以在独立的反应体积中同时逆转录多个样本。在一个实施例中，完成逆转录后，来自所有样本的所有标记cDNA拷贝可以组合到一个反应体积中进行纯化。在一个实施例中，合并后的cDNA可以使用链霉亲和素或者其固定在表面的类似物通过生物素选择杂交法进行纯化。

在一个实施例中，模块化寡核苷酸合成方法用于确保来自不同样本的RNA以一致的比例被拷贝到补充DNA(cDNA)。在一个实施例中，为了在从j样本逆转录期间对iRNA执行多重靶向标记，需要制作拥有附于样本特定标记的靶向特定序列的i x j组合的RT引物。在一个实施例中，为了确保定量一致性，关键是使用所有靶向特定序列拥有相同比例的唯一标记引物混合物逆转录不同样本。由于简单混合成百上千种单独制作的引物不切合实际，而且得到的比例将不会准确，所以使用了两级模块化寡核苷酸合成法。在一个实施例中，制作几个不同的靶向特定引物序列后可以暂停寡核苷酸合成。在一个实施例中，可以暂停合成器，含有部分合成的寡核苷酸的颗粒可以混在一起，分配到多个新的合成塔。在一个实施例中，然后可以恢复合成，往包含唯一样本特定标记和通用PCR引物结合位点的每个塔增加一个序列。在一个实施例中，生成多个引物混合物，每个混合物的5'片段拥有唯一样本特定标记，其3'片段拥有成分均匀的多个目标特定引物序列。

在一个实施例中，合并然后纯化了来自于所有样本的标记cDNA。在一个实施例中，cDNA集分配到独立的反应体积，以通过独立、单定位点、端点PCR使每个靶向扩增(进入高原期)。由于与特定cDNA种类有关的所有样本特定标记在一个体积内进行竞争性扩增，所以会保持标记比编码RNA丰度。在一个实施例中，在PCR引物的5'端加装测序转接器可以将得到的扩增子合并，凝胶纯化，并直接用作大规模并行测序的模板，无需额外的库准备步骤。

在一个实施例中，可枚举通过对PCR产物进行大规模并行测序获取的每个cDNA序列相关的样本特定标记推理出各个样本中RNA的相对量。

模块化引物混合物的效用和组成：

对于RNA剖面法，模块化引物混合物用于将样本特定标记分配到靶向核酸分子(尤其是，拷贝自RNA模板的cDNA)。然而，此类模块化引物混合物的应用非常广泛。一般而言，它们可用于分配标记，帮助靶向核酸分子(RNA或DNA)的分布或频率的识别、分类、分级、排序、统计或确定。模块化引物混合物是在3'片段拥有多个不同靶向特定序列的引物和在5'片段拥有唯一标记序列的引物的混合物。通常情况下，多个模块化引物混合物作为一个集合，使每个引物混合物拥有不同的标记，且所有混合物拥有靶向特定序列的相同组成。当靶向和标记数量规模变大时，引物无法逐个合成，然后混合。

合成到模块化引物混合物的标记(也称为条码或标记)可能包括任意序列，但是，一般包括可以可靠地相互区分的预定义序列。例如，在RNA剖面法中，每个标记至少有两个核苷酸位点与同一集的所有其他标记不同，以至于测序错误很少会导致标记误分类。标记不需要包含在单一、连续碱基段内。在某些实施例中，包括标记序列的核苷酸位点可以分布在模块化引物混合物的5'片段的非连续区域上。标记还可以包含随机或简并位点(简并位点指的是四个核苷酸A、T、C和G在寡核苷酸合成期间等概率合并的位点)。但是，模块化引物混合物内的标记必须至少包含拥有预定义(非简并)序列的一些位点。

在模块化引物混合物内，标记无需是样本特定标记。例如，标记可以分配至样本、分子、位点或者微室。标记还可以分配至一组样本、一组分子、一组位点或一组微室。根据应用的不同，标记可随机分配(例如，任何标记随机分配到任何样本、分子、位点或微室)，或者可以预定义(例如，人们可以决定将特定标记分配至特定样本、分子、位点或微室)。标记不必始终进行唯一分配。对于某些应用，每个样本、分子、位点或微室必须分配唯一标记。对于其他某些应用，可接受将特定标记分配到不止一个样本、分子、位点或微室。

在一些应用中，不止一个模块化引物混合物可用于标记一个靶向或一组靶向。例如，模块化引物混合物在PCR扩增反应中可同时用作正向引物集和反向引物集，允许将两个不同的标记分配到靶向。可通过使用标记的正向和反向引物混合物来实现各种不同的标记。

从复杂混合物对低丰度突变DNA进行定量

模板DNA的隔离：

本文公开了从各种临床或实验标本纯化或隔离DNA或RNA的方法。市面上有许多用具和试剂可方便核酸纯化。根据要分析的样本类型，可以选择合适的核酸隔离方法。DNA或RNA样本纯化后，必须移除可能抑制后续酶促反应步骤(例如聚合反应)的物质，或者降低到非抑制浓度。应尽可能最大化核酸的产出。由于损失的DNA可能包含少量的变异体DNA，所以纯化期间造成DNA损失将形成不利条件。从血浆隔离DNA时，从1mL血浆中可以纯化出约1ng～100ng的脱细胞DNA，与约350～35,000基因组拷贝相对应。DNA含量差异很大，尤其是患病(例如癌症)的患者。

在一个实施例中，也可以从其他样本类型分析DNA，包括但不仅限于：胸膜液、尿液、粪便、血清、骨髓、外周血白细胞、循环肿瘤细胞、脑脊液、腹膜液、羊膜水、囊液、淋巴结、冷冻肿瘤标本、福尔马林固定和石蜡包埋的肿瘤标本。

谱系追溯PCR

在一个实施例中，方法可以使用基因特异性引物将靶向模板DNA分子标示“分子谱系标记”(MLT)，且可以使用通用引物进一步拷贝(扩增)这些标记后的拷贝。在一个实施例中，此反应在单个反应体积中执行，无需转移试剂，程序操作非常简单。如图8所示，含MLT序列的多个基因特异性引物用于同时拷贝和标记所关注的多个靶向基因组区域(例如，肿瘤中易出现体细胞突变的区域)。基因特异性引物的解链温度(与靶向基因序列杂交)低于通用引物的解链温度。通过在前几个PCR循环(2～4)期间使用较低的退火温度促成靶向模板DNA片段的拷贝和MLT序列的分配。在后续的PCR循环中，提高退火温度，阻止含有MLT的基因特异性引物继续参与反应。正向基因特异性引物的5'部分包含与正向通用引物序列的3'部分完全相同的通用序列。反向基因特异性引物的5'部分包含与反向通用引物序列的3'部分完全相同的第二(不同)序列。

通用引物序列的解链温度高于基因特异性引物的解链温度。在一个实施例中，可以使用某些位点上的核苷类似物对通用引物进行改性，以提高杂交的稳定性，例如锁核酸(LNA)残留物。或者，通用引物可以简单地延长序列和/或增加G/C容量来提高解链温度。在PCR的后期循环期间(2～4个循环后)，热循环的退火温度可以上升到通用引物可以有效杂交，但是基因特异性引物无法有效杂交的水平。因此，前几个PCR循环生成的MLT标记拷贝得到扩增，且应包括很大一部分扩增子序列。

在一个实施例中，基因特异性引物将以相对低的浓度(每个-10～-50nM)存在于PCR混合物中，而加上条码后的通用引物拥有较高的浓度(每个-200～-500nM)。在一个实施例中，缺少条码和转接器序列的短通用引物也能够以相对高的浓度加入混合物(每个-100nM～500nM)。为了允许有充分的时间对低浓度基因特异性引物进行杂交和扩增，前几个PCR循环可以延长退火时间，选择慢慢冷却到退火温度。后续PCR期间，由于通用引物浓度较高，因此，可以加快退火时间。

最小化基因特异性引物的脱靶杂交和扩增对于此方法的成功十分关键。由于相同反应混合物内存在通用引物，所以，最小化基因特异性引物的杂交和扩增尤其重要(即，引物二聚体的形成)。即便基因特异性引物之间只有极少量的二聚体形成，但是对于此反应也是灾难性的，因为这些二聚体会被通用引物呈指数拷贝和扩增。如果二聚体的扩增主导了此反应，靶向基因区域可能无法充分扩增。为了最小化基因特异性引物的脱靶杂交和扩增，在一个实施例中，使用了阻断基因特异性引物。此类引物的3'端被一个或多个PCR聚合酶无法扩增的残余物阻断。同时还应注意，阻断基不得被聚合酶的3'-5'外切核酸酶活性所消化。鉴于此，在一个实施例中，可以在引物端部的反方向附上两个核苷酸(使倒数第二谱系为3'-3')。如附图7所示，单RNA残留物可以引入DNA寡核苷酸，使在引物进行靶向特定杂交时，可通过热稳定RNAse H2酶裂解阻断基。裂解阻断基后，可以在预定靶向上扩增此引物。尽管仍会发生一些伪杂交和扩增，但是，这些措施可以将其对反应的影响降到最低。

附图7所示为RNAse H2活化引物的示意图，该引物可以通过校正聚合酶的3'-5'外切核酸酶活性，抑制其末端阻断基团的消化。阻断基加入引物的3'端，以防止引物出现非特异性扩增，尤其是避免形成引物二聚体。引物与其靶向DNA序列执行特异性杂交后，热稳定RNAse H2酶可以裂解其单RNA核甘酸上的引物，得到可以被聚合酶扩增的3'羧基末端。标示有“D”的位点表示作为靶向序列补充的多个DNA核苷酸。标示有“r”的位点表示作为靶向序列补充的一个DNA核苷酸。标示有“XX”的阻断基表示两个反方向附着的核苷酸(倒数第二个谱系是3'-3'谱系，端“X”是自由5'羟基)。使用5'-CE(β-氰乙基)亚磷酰胺合成XX位点。使用了dA-5'亚磷酰胺，但是也可以使用dC-5'、dT-5'或dG-5'。聚合酶将不会从5'端扩增，其校正3'-5'外切核酸酶活性也不会消化此类末端。在此示例中，引物的5'区域没有简并分子谱系标记和通用引物序列，但是这些特征可选，可以包括诸如样本特定条码等其他功能。

附图8所示为谱系追溯PCR的示意图。谱系追溯PCR的目标在于在前几个PCR循环将分子谱系标记(MLT)分配给模板分子，然后在后续PCR循期间使用通用引物将这些标记后的拷贝扩增(同时尽量减少额外MLT的使用)。此方法可以用于将真正的模板来源突变与错掺和定序器错误区分开来。此方法还可以用于确认双链DNA模板的两条链在小反应体积(例如液滴或微孔)内进行标记和扩增。可以在单个反应体积或者多个微观反应体积内使用连续热循环程序，在不转移或添加试剂的情况下执行谱系追溯PCR。此方法使用解链温度较低(例如，60℃)的基因特异性引物和解链温度较高的通用引物(例如72℃)。基因特异性引物的5'区域包含MLT序列以及通用引物序列。至少前两个(最多前四个)PCR循环在较低解链温度下执行(例如60℃)，以允许进行含MLT的基因特异性引物的杂交和扩增。对于后续约30个循环的PCR，使用较高的解链温度(例如72℃)，以更好地使用通用引物，将尽量减少使用额外MLT。为了避免通用引物对伪产物进行扩增，有必要尽量减少从基因特异性引物形成引物二聚体。因此，必须采用增强引物特异性的方法，例如使用RNAseH2活化基因特异性引物。通用引物也可以RNAseH2活化，但是这是可选项。这里的通用引物包含样本特定条码，但是此部分引物可以忽略，或者可以根据预期用途增加其他功能。Tm＝解链温度。MLT＝分子谱系标记。

附图9所示为谱系追溯PCR实验的结果。附图9(A)显示，从单管谱系追溯PCR实验得到的扩增产物生成一个可在2％琼脂糖胶上以预期尺寸移动的带。附图9(B)显示，据对从谱系追溯PCR扩增产物生成的下一代测序数据的分析，MLT拷贝在柱状图上的分布模式。分析的样本由包含已知KRAS G12C突变的双链DNA的约20个基因组当量组成，上升到来自于健康自愿者血清的双链野生型DNA的约6000个基因组当量。X轴表示存在特定MLT序列对的KRASG12C突变读数的数量。Y轴表示拥有给定数量的读取拷贝的唯一MLT序列对(不同标记)的数量。由于此反应添加了大约20个双链突变DNA拷贝，所以根据观察，预计将有约40个不同的MLT序列对拥有多个读取计数。

在一个实施例中，还可以通过往引物加入RNAse H2裂解阻断基来增强通用引物的特异性。在一个实施例中，通用引物还可以粘贴样本特定条码，这样一来，针对不同样本使用不同条码型引物将允许合并PCR产物，并批量进行下一代测序。然后，可以基于条码标识将序列数据归入样本特定架。在一个实施例中，通用引物还可以包含转接器序列，以方便在选择的下一代测序(NGS)平台上进行测序。在一个实施例中，可以使用长(包含样本特定条码和转接器序列)和短(缺少条码和转接器)通用引物的混合物。由于短引物的杂交动力学更快，所以可能增强PCR早期循环期间的扩增效率。

在某些实施例中，DNA产物经过凝胶纯化，选择大小合适的产物，消除不使用的引物，再进行大规模并行测序。在某些实施例中，可以使用其他纯化方法，包括但不仅限于：使用生物素标记补充寡核苷酸的杂交捕获法、高性能液相色谱法、毛细管电泳、二氧化硅膜分割法或结合到固相可逆固定化(SPRI)磁珠法。

在一个实施例中，下一代定序器用于从标记、扩增和纯化PCR产物中获取大量序列。此类定序器生成的克隆序列(每个序列均产生自单一核酸分子)可用于利用超高深度测序法识别和量化变异体分子。原则上，由于可以获取每个靶向位点和每个样本的大量序列，所以可以检测和测量罕见变异体。然而，因为定序器的错误可能被误认为真正的变异体，所以定序器的错误率会限制检测的灵敏度。为了尽量减少定序器错误的影响，一个实施例使用克隆重叠双端序列。通过单独对每个克隆组的DNA相反链进行测序，并对比序列的重叠区域，可以消除定序器错误造成的大量变异体。在一个实施例中，序列重叠的区域在易变异的区域。在一个实施例中，仅保留完美匹配重叠区域的读取对，用于进一步分析。对于此分析，产生克隆双端读数的定序器非常有用。在某些实施例中，还可以使用其他大规模并行测序平台。

在一个实施例中，可以通过分析与变异体序列相关的分子谱系标记(MLT)的分布，将PCR扩增、处理或测序期间引致的错误与真正的模板来源突变序列区分开来。如果从给定靶向样本架获取的NGS读数数量是该样本内靶向模板DNA拷贝数量的几倍之多，则最初分配的MLT有望存在于多个拷贝中。因此，如果在PCR早期循环期间突变模板DNA片段标有MLT序列，则该序列数据预计会包含拥有该MLT序列和突变的多个读数。相反，从PCR错误或定序器错误产生的变异体预计将包含拥有相同MLT序列的较少读数(一般每个MLT序列只发生一次)。在一个实施例中，MLT还可以用于区分由于合并扩增期间的交叉事件而导致存在不正确的样本特定条码的序列。

区室化PCR然后NGS，以确定DNA双链体的两条链上的匹配突变

尽管上述谱系追溯PCR法可以将真正模板来源突变与多数PCR错误和定序器错误区分开来，但是很难辨别前几个PCR循环期间发生的错掺。此类错掺引起的变异体序列可以与相对多数量的MLT拷贝相关联，类似于真正模板来源突变对应的多个MLT拷贝。为了改善此限制，一个辨别模板来源突变的可选方法是确认特定双链模板DNA片段双两条链上存在相同的突变。PCR或者模板DNA碱基受损引发的错误将极不可能在同一模板片段的两条链的拷贝上生成补充变更。

在一个实施例中，区室化、标记、扩增和测序方法用于验证双链模板DNA片段的两条链存在突变。在一个实施例中，PCR反应混合物类似于上述谱系追溯PCR使用的混合物(它包含通用引物和含MLT序列的RNAse H2活化基因特异性引物的混合物)。但是，重要的区别在于混合物中的其中一个长链通用条码引物(正向或反向)被忽略，因此，可以使用含微室特定条码的引物替代。在一个实施例中，PCR反应混合物(包括模板DNA片段)分为许多微流体室，以至于任何特定的微室极不可能包含多于一个特定靶向模板DNA片段的拷贝。如附图13所示，微室可以有多个可扩增靶向片段(不同靶向)，但是极少超过一个相同靶向的拷贝。例如，如果在10个微室中，只在大约1个微室发现特定靶向的拷贝，则在同一微室中发现该靶向两个拷贝的概率约为1/100。所有微室包含通用引物和全组基因特异性引物，因此，微室内所有可扩增靶向都将标记、拷贝和扩增。在一个实施例中，所有微室同时受制于同一个热循环协议(类似于谱系追溯PCR使用的协议)。

附图13所示为在液滴或微孔内对不同目标进行随机划分，进行PCR扩增的示例。每个字母都表示一个靶向模板DNA片段，字母每出现一次表示该靶向的一个拷贝。执行此扩增反应的区室化，因此，一个微室内，一般只有零个或一个(有时两个或更多)特定可扩增、靶向模板DNA片段的拷贝。但是，由于多个基因组区域同时靶向，所以，一个微室内可能存在多个不同的靶向DNA片段(通常各有一个拷贝，有时多于一个拷贝)。

附图14所示为单个反应室的内容物的例子(例如微孔或液滴)。如图所示为包含MLT的基因特异性引物、通用引物、靶向模板DNA片段(和其他非靶向DNA片段)以及携带具有微珠特定条码的可放热引物的珠。除此之外，反应室将包含反应缓冲液、dNTP、RNAse H2酶和聚合酶(例如高保真DNA聚合酶热启动)。所有微室均含有全组的基因特异性引物。每个基因特异性引物包含一个MLT序列，还有一部分通用引物序列。每个基因特异性引物的浓度相对较低，例如5～50nM。通用引物的浓度较高(例如200～500nM)。从珠释放出来的条码引物在微室中的浓度相对较低(约5～50nM)。双链DNA模板片段将实现最稳健的误差抑制，但是，也可以使用单链模板。任何特定的微珠携带拥有微珠特定条码相同的多个拷贝的引物。由于珠在微室内的分布基本是随机的，所以许多微室将包含不止一个微珠，且少数微室不含微珠(由泊松统计确定)。在此示例中，然后，将采用链霉亲和素磁珠采集和隔离生物素标记扩增产物。

附图15A和B给出了在含有携带条码引物的单微珠的微室内执行谱系追溯PCR的两个示例场景。图A描述了包含双链体的两条链的真正突变的双链靶向DNA片段的标记和扩增(双链体的两条链完美互补)。在此情况下，同一个微珠特定条码分配到所有扩增产物。包含两个不同MLT对(即，A-B和C-D)的多个珠中存在突变说明模板DNA的两条链存在突变。图B描述了野生型双链DNA片段的类似标记和扩增。在此情况下，扩增产物包含少量聚合酶错误，但是，当按微珠特定条码对序列进行分组时，看不到持续不变的突变。标有不同字母的MLT和条码(例如，MLT G或条码W)代表不同的核苷酸序列标记。为简单起见，每个标记或条码都用字母表的一个字母标识，而事实上，每个标记一般由6～10个碱基组成。

附图16A和B给出了在含有携带条码引物的单微珠的微室内执行谱系追溯PCR的另外两个示例场景。图A描述了野生型双链DNA片段的标记和扩增，其中，在PCR的第一个循环期间，当拷贝两个DNA模板两条链中的其中一个时，出现聚合酶错掺问题。这作为第一个PCR循环出现错误时如何辨别错误的一个极端例子。在此情况下，如果从模板DNA双链体的两条链拷贝真正突变，扩增产物显示只与两个MLT对的其中一个(即I-J)相关的错误，而不是所预期的两个MLT对(即，I-J和K-L)。图B描述了野生型单链DNA片段的标记和扩增，其中，在第一个PCR循环期间发生聚合酶错掺问题。在此情况下，尽管该微室内的整组扩增拷贝(标有条码Z)可能发现此错误，但是，对于拷贝自模板DNA双链体两条链的真正突变，拷贝全部拥有单一的MLT对(即，M-N)，而不是所期待的两个(或者更多)MLT对。

附图17介绍了当特定微室内两个(多个)微珠上有两个(多个)不同条码的引物时该如何进行分析。微珠会根据泊松分布在不同微室内进行分布，一些微室不含微珠，一些微室包含一个微珠，一些微室包含两个或两个以上微珠。为了减少包含零个微珠的微室数量，人们可以旨在实现每个微室两个或三个微珠的中位值。或者，利用方法，克服泊松统计，将单个微珠分布在单个微室内，但是这些方法涉及到复杂的微流体操纵或者需要将引物预先分配到确定的反应室内。可以在后续对序列数据的计算分析期间确定含有不止一个条码引物的微室。由于极不可能在源自于不止一个微室的序列中找到特定的MLT对，所以，所有与此类对相关的所有微室特定条码可以假设源自于一个微室。

在一个实施例中，分子谱系标记(MLT)通过基因特异性引物被分配到模板分子，然后，通过通用引物扩增这些标记后的拷贝，这与谱系追溯PCR类似。在微室内，如果特定靶向双链模板DNA片段一般不超过一个拷贝，则MLT可用于确定来自于两个不同链的拷贝的扩增序列(如图15所示)。在一个实施例中，含一个或多个微室特定标记的引物将用于确定特定反应室内生成的扩增子。因此，使用此类标记方案，可以确认相同的变异体序列拷贝自同一个微室内的两条不同DNA链。

PCR混合物可利用各种方法分为微流体室。在一个实施例中，微室可以小至10微微升，大至10纳升。在某些实施例中，这些微室的体积介于约0.1到1之间。理想而言，特定实验中这些微室的体积必须保持一致。微室的数量可以从几千到几百万不等，这主要取决于模板DNA分子的应用和预期浓度。在一个实施例中，PCR微室可使用微流体微滴发生器设备生成油中的PCR混合物液滴。矿物油可用作此目的或者可以选用氟化油。表面活性剂可以用于在PCR前或期间稳定液滴并防止液滴聚结。在一个实施例中，也可以直接通过猛烈搅拌混合物使PCR混合物在油中乳化(但是此方法的不足是会形成不统一的液滴大小)。在另一个实施例中，PCR混合物可以区室化到微流体装置的微孔中。在一个实施例中，可使用含聚二甲硅氧烷(PDMS)、拥有几千个纳升大小的孔的载玻片。在一个实施例中，可以使用含窄蛇形通道的微流体装置，其中，反应体积由油或空气隔开。在一个实施例中，可以使用类似微流体装置，其中PCR混合物可引入这些通道，然后，通过同时关闭几千个微型阀，将这些通道分为独立的反应室。可通过同时对微室进行热循环操作执行PCR。

在一个实施例中，可以通过微珠将含有微室特定标记(或条码)的克隆引物引入这些微室。这可以生成大量的微珠，各个微珠携带多个统一标记的引物的拷贝，但是，大量各种形式的标记存在于不同的微珠上。特定微珠的表面将携带一组克隆的标记引物(标记全部相同)，但是不同微珠将携带拥有不同标记的引物。在一个实施例中，微珠可与PCR混合物混合在一起，且可与此混合物区室化。在一个实施例中，可以调整微珠的浓度，使其将平均两个或三个微珠传输到每个微室(使少量微室拥有零个微珠)。微珠在微室内的分布将遵循泊松统计。在一个实施例中，引物受热后会从微珠表面释放到区室化的溶液中(从附于微珠的补充DNA链裂解引物)。在另一个实施例中，引物经光致断裂后会从微珠表面释放到区室化溶液中(光致断裂亚磷酰胺可用于将寡核苷酸结合到微珠表面)。在另一个实施例中，引物可一直附于微珠上，且可以在微珠表面上执行杂交和聚合反应。在一个实施例中，可以使用超顺磁微珠(涂有交联聚苯乙烯，表面经过胺基或羟基活化)。在另一个实施例中，可使用以下材料的微珠，包括但不仅限于：琼脂糖、聚丙烯酰胺、聚苯乙烯或聚甲基丙烯酸甲酯。在一个实施例中，微珠可涂覆链霉亲和素，以结合到生物素标记寡核苷酸上。在某些实施例中，微珠的尺寸可介于0.5微米与100微米之间。在某些实施例中，微珠的尺寸介于1微米与5微米之间。在某些实施例中，特定实验使用的微珠的尺寸相对较统一，且每个微珠上携带数量相对统一的引物拷贝。

附图10给出了在微珠上生成含珠状条码的可放热引物的示例。首先，可以使用标准酰胺三酯合成法在自动寡核苷酸合成器上，在微珠表面上合成寡核苷酸。可使用与亚磷酸酰胺单体形成共价键的胺基或羟基将微珠表面官能化。然后，后续可以使用标准合成法加入其他亚磷酸酰胺单体。根据微珠结合寡核苷酸的所需方向，可以使用标准或5'β氰乙基亚磷酸酰胺单体。为了使寡核苷酸和微珠表面之间存在一定距离，可以在加入核苷酸单体前，往微珠表面加入一个或多个间隔亚磷酸酰胺。如方法部分的介绍，可以使用分开和合并分析方法将微珠特定条码加入寡核苷酸中。如果微珠太小而无法通过自动寡核苷酸合成器的圆柱使用的柱筛保留时，可以通过磁铁将超顺磁性微珠保留在合适位置上。含通用引物序列(和可选生物素组)的第二寡核苷酸可用于利用DNA聚合酶拷贝微珠结合寡核苷酸。按此方法，扩增的引物将包含微珠特定条码序列以及通用引物序列。微珠被区室化到较小的反应体积后，例如液滴或微孔，含微珠特定条码的扩增引物通过热变性可从微珠释放出来(例如PCR期间)。也可以使用其他引物释放模式，例如，光致开裂和化学解耦。

附图11显示了热变性释放的临时固定寡核苷酸的可选生成方法。含可分解基的寡核苷酸(例如，光可分解连结剂)可以直接在表面(例如微珠)上合成，或者可以耦合，通过共价键或生物素亲和捕获在表面、颗粒或分子上进行后合成。可以将一组已定义的条码序列或简并标记序列(例如MLT)并入寡核苷酸。也可以通过分开-合并合成法来合成这些标记，以生成大量各式各样的标记，其中，相同标记的多个拷贝在特定微珠(或颗粒)上。寡核苷酸有一个自补充区域，分解的寡核苷酸将通过碱基对相互作用(杂交)保留附着。寡核苷酸之后经热变性可以释放到溶液中。根据下游应用，寡核苷酸可以在5'到3'或3'到5'方向上合成。

在一个实施例中，可以使用分开-合并寡核苷酸合成法来合成携带各种克隆标记引物(一个微珠，一个标记)的微珠群。可使用标准酰胺三酯合成法在自动寡核苷酸合成器上合成常见的引物序列。可使用合适的亚磷酰胺，在5'到3'或3'到5'方向上合成引物。在一个实施例中，亚磷酰胺可以通过使用微珠以共价键联系到表面经胺基或羟基改性的微珠。在一个实施例中，永久磁铁或电磁可用于将磁性微珠保留在自动寡核苷酸合成器的合成柱内(由于微珠可能太小无法通过柱筛进行保留)。在一个实施例中，分开-合并法可用于在微珠上生成大量克隆标记。做一个引物的共同区域，然后，将合成器暂停在标记序列一开始。在一个实施例中，先合并微珠，然后分为四个不同的新圆柱，将不同的亚磷酰胺(dA、dT、dC或dG)加入四个圆柱(一个亚磷酰胺对应一个圆柱)。在另一个实施例中，可以使用多于或少于四个圆柱和四个亚磷酰胺(来增加或减少特定位点可能残留物的数量)。在标记区域内的每个耦合循环后，微珠合并并重新分布到新圆柱，以进行下一个循环。按此方法，耦合到特定微珠的寡核苷酸在特定循环收到相同碱基，但是，特定位点上添加的碱基是随机选择的。在一个实施例中，微珠特定标记序列的长度可以介于1和15个碱基之间。在某些实施例中，微珠特定标记序列的长度可以从8到12个碱基。在一个实施例中，可以将补充引物与微珠结合寡核苷酸杂交，并使用聚合酶扩增，以拷贝标记序列和其他引物序列，如图10所示。扩增后的引物将用作具有微珠特定条码的可放热引物。在一个实施例中，此可放热条码引物可用于在微室内的PCR扩增靶向上进行杂交和扩增(可放热引物的3'端将包含一部分通用引物序列，以方便与靶向扩增子杂交)。

在另一个实施例中，含微室特定标记的引物可提前分布在微室内。例如，如果PCR混合物要在微流体装置上分为多个微孔，含微室特定标记的引物可以加入每个微孔，再加入PCR混合物。在一个实施例中，引物可通过化学的方式耦合到微孔表面或壁，或者通过生物素标记链霉亲和素相互作用进行耦合。在一个实施例中，引物受热(通过如上文所述的固定化补充寡核苷酸的裂解)、经光致开裂或其他方式可从微孔释放出来。在一个实施例中，引物可保持附着于微孔表面，且可以在此表面上执行聚合反应。

在一个实施例中，PCR后，可通过组合多个小型反应体积的内容物来合并标记扩增产物。在一个实施例中，这可通过添加可致油中水滴合并(例如，三氯甲烷)的试剂来实现。在一个实施例中，可通过从微流体装置上的微孔收集反应产物来组合这些反应体积。在一个实施例中，合并、扩增后的DNA产物经过凝胶纯化，选择大小合适的产物，消除不使用的引物，再进行大规模并行测序。在某些实施例中，可以使用其他纯化方法，包括但不仅限于：使用生物素标记补充寡核苷酸的杂交捕获法、高性能液相色谱法、毛细管电泳、二氧化硅膜分割法或结合到固相可逆固定化(SPRI)磁珠法。

在一个实施例中，下一代测序(NGS)用于从标记、扩增和纯化PCR产物中获取大量序列。在一个实施例中，可使用克隆重叠双端测序法(如上所述)来过滤出含定序器来源的错误的读数。在一个实施例中，对序列数据进行分析，确定拷贝靶向双链模板DNA片段的双链时产生的真正突变。用于识别这些真正突变的方法可结合图15-17帮助理解。使用了以下逻辑：

1.在一个实施例中，MLT图可用于确定微室内的扩增PCR产物是否来自于拷贝一个模板链或两个模板链。在一个实施例中，如果从特定微室的扩增序列中看到一个MLT序列对，则可以推断，此扩增序列源自于在该微室内扩增的DNA的单条链。在一个实施例中，如果从特定微室的扩增序列中看到两个(或多个)MLT序列对，则可以推断，此扩增序列源自于在该微室内扩增的DNA的两条(多条)链。

2.在一个实施例中，可基于对微室特定条码的分析，确定PCR扩增序列源自于特定微室。在一个实施例中，一个微室只能分配一个条码。在另一个实施例中，一个微室能分配不止一个条码。如果条码不止一个，则可使用条码的组合，确定PCR产物源自于同一个微室。

3.在一个实施例中，如果(a)源自于特定微室的多数扩增序列包含突变，和(b)观察到的MLT图确认扩增序列源自于不止一个模板链，则此突变将被视为真正的模板来源的突变。由于微室不大可能包含不止一个DNA片段，所以可以确定源自于不止一个模板链的序列源自于双链DNA片段的互补链。

将克隆标记寡核苷酸传输到不同微室的方法：

使用微珠将克隆标记引物传输到不同微室具有几个不足之处。此类微珠群的合成可能非常复杂，尤其是使用分开-合并法时。同时，还很难确保微珠随机分布到微室中，因为微珠或沉积或积聚，导致分布不满足泊松统计的要求。为了实现微珠更随机的分布，可能需要同时将搅拌珠浆，或者快速执行区室化，以尽量减少微珠沉积。

提前将克隆标记引物分配到微室中有一个不足之处，就是程序太复杂。引物必须与不同标记单独合成，不同标记的引物的拷贝将必须分配到不同的微孔。这将涉及到专用机器人设备的使用。可以将标记引物分布到成百上千微孔，但是当微室数量庞大(例如几百万)时，这就很难实现。

本文公开了在不要求将寡核苷酸附于表面(例如微珠或微孔壁)的情况下将克隆标记寡核苷酸传输到微室的方法和组合物。在溶液中使用寡核苷酸益处良多，因为它确保了标记能够更均匀地分布到微室中，而且极其容易实施。有关此方案的详细信息，请参见附图12。

附图12所示为溶液法，该方法可将克隆标签的寡核苷酸传输到微室内，作为引物，将微室特定标签添加到相同反应体积的共同扩增的PCR产物。含简并标记序列的模板寡核苷酸可以添加到PCR混合物，这样一来，当PCR混合物区室化时，少量模板寡核苷酸分子(例如，平均约2～3个分子)会被划分到每个微室。反应混合物中还包括能够扩增模板寡核苷酸的引物。因此，当执行PCR时，每个微室内的少量模板寡核苷酸会扩增，产生许多含多个克隆微室特定标记的拷贝。这些克隆标记寡核苷酸可用作引物，将微室特定标记分配到在同一个反应体积内共同扩增的其他PCR产物(例如，通过多个基因组区域的谱系追溯PCR)。

在一个实施例中，可通过将该标记DNA序列的单个分子引入微室内，然后使用短引物(通过PCR)在此微室内拷贝并扩增，在微室中生成统一标记寡核苷酸序列的多个拷贝。通过一开始将单标记DNA分子用作模板，微室内的扩增拷贝将会克隆，将同一个标记作为模板分子。在一个实施例中，标记模板DNA可以是双链的。在另一个实施例中，模板DNA可以是单链的，由上或下互补链组成。在一个实施例中，可在寡核苷酸合成期间，通过并入简并位点，在模板分子组内生成标记(或条码)序列(例如，通过加入多个“N”位点，其中N指耦合T、C、G或A碱基的约等概率)。在一个实施例中，也可以将预定义条码加入模板分子。在一个实施例中，不止一个不同标记的分子可以用作微室内的模板，这种情况下，微室内的扩增寡核苷酸将包含不止一个标记序列。在某些实施例中，为了尽量减少包含无标记模板分子的微室的数量，可以将平均2或3个不同标记的模板分子引入微室内(根据泊松统计进行分布)。在一个实施例中，在某个微室内得到的扩增克隆标记寡核苷酸拷贝通过与该微室内的其他DNA序列杂交并拷贝这些DNA序列，可以作为引物。在一个实施例中，此类引物可用于将微室特定标记分配到微室内的扩增产物。如果微室内存在含有不止一个微室特定标记(条码)的引物，标记的组合可用于确认扩增产品源自于特定微室。在一个实施例中，正向和反向短引物浓度不同可用于扩增微室内的标记模板分子。在一个实施例中，正向引物的浓度可以2倍到20倍于反向引物(反之亦然)。使用浓度不同的引物会导致“PCR不对称”，生成比其补体更多的单扩增链的拷贝。在一个实施例中，此类不对称扩增有助于扩增克隆标记寡核苷酸与微室内的其他DNA序列杂交(以允许扩增寡核苷酸用作标签引物)。附图12图解了此方法。

此方法将有克隆标记的寡核苷酸序列的许多拷贝引入反应室，具有许多潜在应用。在一个实施方案中，其可以用于协助测量上述低丰度突变体DNA分子。在另一个实施方案中，该方法可用于标记不同隔室中单细胞的扩增DNA产物，以产生单细胞基因组数据。在另一个实施方案中，该方法可用于标记不同隔室中单细胞的互补DNA(cDNA)拷贝，以促进单细胞的高通量RNA分析。在另一个实施方案中，该方法可以用于将同一标签分配给衍生自隔室内较大染色体片段的多个扩增子，以促进基因组序列组装。

在另一个实施方案中，隔室特定DNA标记方法可用于促进高度复用的单细胞蛋白质组。在此方法中，以不同蛋白质为靶标的抗体可用含有侧翼为共同引物结合序列的抗体特定条码序列的寡核苷酸进行标记。复用的抗体群体可以结合到完整细胞表面的蛋白质，或者固定且透化的细胞内。群体中的每个抗体使用包含不同抗体特定标签的寡核苷酸进行标记。在洗掉过量的抗体后，细胞可以被分隔(例如在油中的水滴内或微流体装置上的微孔中)，使得每个隔室几乎不会包含多个细胞。隔室内的共同PCR引物可用于通过共同引物结合序列同时扩增所有抗体结合的条码寡核苷酸。隔室内扩增标签的相对丰度将反映与细胞内其蛋白质靶标结合的相应抗体的相对丰度。然后可以引入隔室特定条码，以便能够对不同单细胞中的蛋白进行定量。由于可以创建多种抗体特定标签，因此不同抗体的复用能力几乎是无限的。更一般地说，所描述的方法可用于隔室内的核酸分子需要用隔室特定标签进行标记的任何应用中。

实施例

参考以下实施例可以更好地理解本发明的技术。这些实施例旨在代表具体实施方案。

实施例1

本实施例描述了高通量RNA定量方法的应用。该方法能够前期并行化多个含RNA的样本，从而简化并降低下游样本处理和分析的成本。

材料和方法

RT引物混合物的模块化合成：

使用两阶段模块寡核苷酸合成策略来创建引物的混合物，每个混合物在5'-片段中具有一个特殊样本特定条码，在3'-片段中具有固定比例的多个目标特定序列(图1a)。首先，在单独的寡核苷酸合成塔上制备几个靶标特定3'-片段。使用Dr.Oligo 192自动合成仪在40纳摩尔聚苯乙烯支撑塔(引物合成，Prime Synthesis，Aston，PA)的3'到5'方向上使用标准亚磷酰胺化学进行合成。在完成寡聚化3'-片段后暂停合成，部分合成的寡核苷酸保留在保护状态的聚苯乙烯支撑物上，且二甲氧基三苯甲基(DMT)组仍然开启。

将氩气吹入塔中以干燥聚苯乙烯支撑物，然后将塔体切开，将聚苯乙烯粉末倒入普通玻璃小瓶中。将颗粒悬浮在以2:1到3:1滴定的二氯甲烷：乙腈混合物中，使得聚苯乙烯具有中性浮力。不断搅拌悬浮液以确保均匀混合，同时使用移液管将等量的液体分配到全新的合成塔中(已置入底部玻璃料)。然后使用乙腈冲洗塔体，使所有聚苯乙烯颗粒都沉降到底部。通过重力将乙腈完全排出后，置入顶部玻璃料，确保粉末在塔体中。为每个样本特定条码制作一个塔。

将新的塔体放回自动合成仪，以继续进行合成。如下表6所示，为每个塔体分配特定的条码序列，以纳入引物混合物的5'-片段。条码长度设计为八个核苷酸，至少位于两个位置的集中的所有条码都彼此不同(从而在最大程度上降低因测序器错误而引起的错误分类機率)。通用PCR引物结合序列也添加到每个寡核苷酸混合物的5'-片段。合成仪在3'-末端使用另外的“虚拟碱基”编程，因此聚苯乙烯支撑物上已存在部分合成的寡核苷酸。

表6.条码列表

完成模块化合成的第二阶段后，寡核苷酸混合物从保留DMT基团的聚苯乙烯支撑物上裂解。将各混合物快速脱保护，然后在单独的Glen-Pak上纯化。DNA反相滤筒(亚磷酰胺，Sterling，VA)。滤筒在完成的寡核苷酸的5’-端选择性地保留疏水性DMT基团，从而富集全长产物。完成纯化后，除去DMT基团。然后将纯化的寡核苷酸混合物干燥并重悬浮于10mMTris(pH 7.6)中，以创建lOx工作种群。下表3、5和8中列示了miRNA和mRNA模块化引物片段的序列。

表3.miRNA靶向逆转录的模块化引物。

表5.用于逆转录MAQC mRNA靶标的模块化引物。

表8.用于逆转录辐射敏感mRNA靶标的模块化引物

合成RNA样本的制备：

Yale Keck寡核苷酸合成核心设备以40nmole标度和2'-去保护和纯化合成由90个微RNA和6个对照RNA序列(如下表2,中所示)组成的RNA寡核苷酸，Tecan Freedom Evo 200自动移液器编程为将预定量的每个RNA分配到96孔板的孔中，以达到4到0.08nM的终浓度，且样式设计成在热图上产生玫瑰图像。RNA溶解在含有lOmM Tris(pH 7.6)、0.1mM EDTA和300ng/mL载体RNA(Qiagen)的无RNA酶水缓冲液中。合成的RNA溶液-80℃存储，直到RT需要为止。

表2.合成RNA寡核苷酸。

组织和细胞系RNA样本：

最优选择人类总RNA调查小组(Ambion)被用作来自20个正常人体组织的总RNA源。MAQC参考样本由Stratagene Universal Human Reference RNA(包含10个人类细胞系的总RNA)和Ambion First Choice Human Brain Reference RNA组成。

辐照血样RNA：

经耶鲁大学人类调查委员会批准，并获得18名健康志愿者知情同意后，使用含有柠檬酸钠的试管采集了外周血液。血液被分成2mL等份，在抽血后1小时内以1.79Gy/分钟的剂量率进行0、0.1、0.5、2、4或8Gy的X射线照射。然后加入含10％胎牛血清的等量RPMI 1640培养基，并将血液在37℃温育24小时。使用ficoll梯度离心分离外周血液单核细胞，并使用RNeasy Mini Kit(Qiagen)从这些细胞制备总RNA，

miRNA样本的处理：

该方法的第一步是在单个试管中逆转录多个RNA靶标。用于给定样本的RT引物混合物在5'-片段中含样本特定标签，并且3'-片段中含一致比例的多个靶标特定引物序列，如表3中所示。引物被设计为与短miRNA(和对照RNA)靶标3'-末端的6个核苷酸杂化。5'-生物素标记的寡核苷酸与相邻的互补共同引物序列退火，以通过扩展碱基堆积来稳定短RNA/引物异源双链核酸分子。

每个逆转录混合物都在无RNA酶的水中包含5μM标记的引物混合物(每个靶标特定引物约50nM)、7.5μM生物素标记的寡核苷酸、1倍RT缓冲液、3mM MgCt、250μM/dNTP、5mM二硫苏糖醇(DTT)、30ng/μL载体RNA(Qiagen)、模板RNA和5单位/μL多抄写逆转录酶(生命技术)。每个RT以10μL的最终量进行。在添加模板RNA、DTT和逆转录酶之前，通过将混合物加热至95℃2分钟，然后冷却至室温，将生物素标记的寡核苷酸退火为引物混合物。最终组合的RT混合物保持16℃2分钟、42℃1分钟、50℃1秒，循环40次。加热至65℃20分钟，并加入最终浓度为10mM的EDTA后，终止反应。然后将所有单独RT反应的产物合并为一份。

通过使用高容量链霉亲和素包被的琼脂糖树脂(Thermo Scientific)捕获互补生物素标记的寡核苷酸(每10μL RT反应加入5μL树脂浆料)，纯化合并的cDNA。在室温下缓慢地将试管竖转旋转至少两个小时，令树脂颗粒保持悬浮在溶液中，从而促进生物锡结合。然后在含有10mM Tris pH 7.6和50mM NaCl的缓冲液中洗涤颗粒。通过在95℃下热变性2分钟将cDNA从树脂结合的寡核苷酸释放到全新的相同缓冲液中(树脂浆料的两倍量)。为了除去未延伸的RT引物，使用与引物延伸序列(每个100nM)互补的生物素标记寡核苷酸混合物进行第二轮选择性退火、捕获、洗涤和洗脱，如下表4所示。

表4.用于miRNA靶标的杂交捕获寡核苷酸和PCR引物。

纯化的cDNA库被分到96个用于各cDNA靶标单用端点PCR的单独试管中。由于与给定靶标相关联的所有样本特定标签在单个反应量中进行竞争性扩增，因此维持了标签比例。每个PCR中使用的引物对由通用正向引物和特殊的靶标特定反向引物组成，如图1b所示(表4)。测序衔接子并入引物的S'-末端，从而能够直接测序PCR产物。每个PCR混合物包含10μL量的l倍AccuPrime PCR缓冲液I(包括dNTP和MgCb)、100nM通用正向引物、100nM靶标特定反向引物、2μL合并的cDNA模板以及0.2p.L AccuPrime Taq DNA聚合酶(Invitrogen)。加入矿物油以在最大程度上降低蒸发。热循环参数为94℃2分钟、60℃30秒、72℃20秒、随后94℃20秒、65℃30秒和72℃20秒循环40次。最后的延伸步骤在72℃执行2分钟，然后冷却至4℃，加入EDTA(最终10mM)终止聚合酶活性。

合并所有PCR量，并在2％低熔点琼脂糖凝胶上纯化20μL等份的合并反应产物。使用QIAquick Gel Extraction Kit(Qiagen)从切除的凝胶切片中提取DNA。使用Bioanalyzer 2100(Agilent)估算浓度，并将其调整到推荐用于Ion Torrent乳液PCR的水平。mRNA样本的处理：

mRNA样本的整体处理方案与上述miRNA样本相同，但有少数显著修改。因为mRNA比miRNA大得多，所以可以设计引物来扩增'-100核苷酸靶区。因此，使用更长的基因特定RT引物(表5和8)。这能够在较高温度下利用热稳定聚合酶进行RT，而不需要互补的生物素化寡核苷酸通过延长的碱基堆叠增强稳定性。每个RT都以10μL的量进行，在无RNA酶的水中包含标记的引物混合物(每个靶标特定引物约50nM)、1倍First-Strand缓冲液、500μM/dNTP、5mMDTT、模板RNA以及10单位/μL SuperScript III逆转录酶(Invitrogen)。引物在室温下结合，然后在无缓冲液、DTT和聚合酶(这些项在55℃下孵育1小时后加入)的情况下加热至65℃5分钟，

从而退火至RNA靶标。通过加热至75℃20分钟、95℃1分钟灭活聚合酶后，加入EDTA(最终10mM)，将反应合并。

在RT期间去掉生物素标记的寡核苷酸，可以使用与引物扩增序列互补的生物素化寡核苷酸在单个步骤中捕获cDNA(表7和9)。使用表7和9中列出的引物，将合并且纯化的cDNA模板分到各靶标单用端点PCR的单独试管中。热循环参数与上述miRNA相同，除了在第一个循环中使用的退火温度为63℃，而不是60℃。

表7.用于MAQC mRNA靶标的杂交捕获寡核苷酸和PCR引物。

表9.用于辐射敏感mRNA靶标的杂交捕获寡核苷酸和PCR引物。

下一代测序：

使用自动化Ion OneTouch System(Life Technologies)，为Ion Torrent测序准备模板。将凝胶纯化的扩增子稀释至制造商推荐的浓度，然后装载到仪器上。自动乳液PCR能够在Ion Sphere Particles(ISP)上大规模并行克隆扩增。为了在最大程度上减少多克隆ISP，调整模板稀释以实现10％到30％的模板阳性ISP。使用OneTouch EnrichmentSystem分离模板阳性ISP，然后将其加载到半导体芯片上进行测序。根据所需的序列深度，使用314个低容量芯片或318个高容量芯片。使用200bp的试剂盒在Ion Torrent PGM(LifeTechnologies)上进行测序。

分类和计数序列：

为了确定属于每个靶标/条码箱的读数，TorrentSuite软件(第4.0版)中使用了Torrent Mapping Alignment Program(TMAP)。分析给定数据集需要上传三个文件：包含用户定义的条码和适配器序列的文本文件、列出了miRNA或mRNA参考序列的FASTA格式文件以及定义靶标区域的BED文件。将读数与靶标参考序列匹配后，运行覆盖分析插件模块，并下载所得的条码/扩增子覆盖矩阵。该矩阵包含每个箱的读数计数，并且可以在MicrosoftExcel中打开并进一步操作，

由于在TorrentSuite软件内不能对序列数据进行下采样，因此使用另一种方法从图2e的已定义读数子集中获得分箱计数。为实现此目的，利用Microsoft Excel中的"countifs"功能。与TMAP分析相比，该方法的一个重要区别在于只计算完美序列匹配。因此，为了在最大程度上减少由于测序仪错误导致的不完全匹配的概率，使用-10-12核苷酸短参考序列。选择参考序列以超出任何单个引物中包含的序列，以避免对假PCR产物(例如引物二聚体)的计数。还要注意确保每个参考序列仅匹配单个靶标。

分箱序列计数的归一化和标准化：

为了产生图2a和2b中显示玫瑰图像的热图，对9,216个数据箱平均了两个重复试验的计数。然后相对于分配的合成RNA的已知总量，在各行和列上标准化计数。首先，将给定行中的计数乘以计数总和与该行中分配的RNA总量的比值。然后，将给定列中产生的值乘以值总和与该列中分配的RNA总量的比值。最后，计算这些归一化值的二进制对数，并绘制在热图上。

如下所述进行来自人体组织和血液样本的miRNA和mRNA测量的归一化和标准化(图3a、3b、5)。首先，对每个数据箱平均复制值。第二，为了平均化每个靶标的不同单用PCR产生的总计数，将给定行上的值乘以公因子，以使该行中的值总和等于1000。第三，在所有箱中添加0.01(从而消除0值)，完成数据基础。这类似于qRT-PCR实验中将大于35的Cq值转换为35的常见做法。第四，为了使miRNA水平归一化，将给定样本中所有miRNA的平均表达值用作归一化因子。相对于两个管家基因ACTB和GAPDH的平均表达值，归一化已辐照血液样本的mRNA。第五，计算所有数据箱的logio(倍数变化)值。第六，从每个值中减去行平均值进行中心化。最后，将每个值除以行的标准偏差来自动缩放值。

为了确定正常人体组织中miRNA的绝对数量(图6)，逆转录含有每个合成miRNA约15,000份拷贝的定量参考标准样本，并使用50ng组织来源总RNA样本进行竞争性扩增。在三个技术复制中分析全部样本。平均化复制中的读数计数。将给定组织样本中靶标的平均计数除以对照样本中相同靶标的平均计数。然后将所得值乘以15,000，获得该组织样本中每50ng总RNA的miRNA拷贝数估计。在热图上绘制Logio转换值。

绘制热图：

所有热图均在没有聚类的情况下使用TreeView软件绘制(从网站下载：http:// rana.lbl.gov/EisenSoftware.htm)。从miRNA整体图网站(www.mimabodvmap.org)获得已发表的qRT-PCR研究的原始Cq值。使用35作为值的基础，并从第四步开始，进行上述归一化和标准化步骤。使用相同的色标和对比参数，在单独的热图上绘制公开和测量数据的标准化值。在一个热图上删除每个像素的一半，然后使用Adobe Illustrator和Photoshop在第二个热图上将其重叠，创建分割像素图。

MAQC样本中mRNA的分析：

从通常在MAQC数据集中报告的全部三个定量(非微阵列)平台中测试的48个基因中，选择用于mRNA分析的靶基因。从这48个基因中选择30个，在三个平台上以一致的水平(具有低变异系数)进行测量。表5中列出了靶基因。

对四个MAQC样本(A、B、C和D)中的每一个样本，平均化一式四份实验的分箱序列计数。将给定基因的平均计数乘以共因子，使该基因的值总和等于1000。未应用基础。由于仅分析了30个目标，因此不推荐相对于样本的全局平均表达水平进行归一化。因此，相对于该样本的POLR2和ACTB参考基因的平均测量值，归一化给定样本的表达值。

使用归一化表达值计算Human Universal Reference RNA(样本A)与Human BrainReference RNA(样本B)之间全部30个基因的倍数变化。基于样本C和D的测量值，如正文中所述计算相对准确性。

结果

使用合成RNA混合物评估准确性：

首先对已知量的合成miRNA混合物测试所公开RNA分析方法的性能。从miRBase注册表中选择了包含90个人类miRNA的代表性小组，特别是早先发现且具有更好定义的生物学功能。额外包括6个RNA作为对照：三个人类小核/核仁RNA片段、一个C.elegans miRNA和两个非天然存在的任意序列(表2)。使用自动移液器，将每个合成RNA寡核苷酸以不同的量分到96个单独的试管中，达到300ng/mL聚A载体RNA背景中的最终浓度为4至0.08nM。RNA的分布模式旨在简化该方法复用能力和准确性的视觉评估；当在热图上定量并绘制时，RNA混合物将再现玫瑰图像。

为了对逆转录样本产生的i RNA启用复用靶标标记，有必要创建含有附着于样本特定标签的靶标特定序列i x j组合的RT引物。此外，为了确保定量一致性，务必使用所有靶标特定序列比例相同的唯一标记引物混合物，逆转录不同样本。由于简单混合数千个单独制作的引物不切实际，并且将产生不精确的比例，设计了两阶段模块寡核苷酸合成策略(图1a)。制备96个部分寡核苷酸后暂停合成，其中每个的3'-末端都含有不同的靶标特定引物序列。将含有部分合成的寡核苷酸的所有聚苯乙烯颗粒充分混合并分配到96个全新的塔体中。然后继续合成，向包括独特样本特定标签和通用PCR引物结合位点的每一个塔体添加一个序列。最后，从固体支撑物上切下寡核苷酸，脱保护，并经滤筒纯化以富集全长产物。该方法产生96个引物混合物(表3)，它们在5'-片段中具有独特的样本特定标签，并且在3'-片段中具有96个成分均匀的靶标特定引物序列。制成后，引物组可用于数百个反应。

在所公开RNA分析方法的第一步中，在每个样本的单个孔中同时逆转录全部96个靶向RNA(图1b)。RT引物被设计为在每个短miRNA靶标的3'-末端杂化6个核苷酸。由于认为所有反应中的目标特定引物序列的比例均相似，因此标记的cDNA拷贝的比例应该如实反映相应样本中RNA的丰度。为了增强RNA/DNA相互作用的特异性和稳定性，通过退火与常见引物序列互补的生物素化寡核苷酸来掩蔽不与RNA结合的引物碱基；这也预计将扩大碱基堆叠区域。RT完成后，将全部96个样本的标记cDNA汇集到单个试管中，并使用链霉亲和素蛋白-琼脂糖树脂将杂化的生物素化寡核苷酸下拉纯化。热洗脱cDNA后，使用与引物延伸序列互补的生物素化寡核苷酸进行第二轮选择性杂化和捕获(表4)。

然后将cDNA库分到96孔板的孔中，通过单独的终点PCR扩增每个靶标(进入高原期)。重要的是，由于在单个量中竞争性地扩增与给定cDNA物种相关联的所有标签，因此保留编码RNA丰度的标签比例。在PCR引物的5'-末端加入测序衔接子(表4)使得获得的扩增子可以合并、凝胶纯化，并直接用作大规模并行测序的模板，而无需额外的库制备步骤。

在使用低容量(314)或高容量(318)芯片的Ion Torrent PGM上对来自全部96个反应的合并扩增子进行测序，每次执行各平均产生0.42M或3.48M过滤读数(表1)。根据靶标和标签序列分箱读数。Ion Torrent TMAP覆盖分析模块用于生成全部9,216个箱的读取计数表。对于每个芯片尺寸，使用两个重复实验的平均计数，在归一化和对数变换值后产生热图(“方法”中详细说明)。

获得的图形再现了预期的玫瑰图像(图2、a和b)，证实了大量样本中复杂合成RNA混合物的定量准确且高度并行。在像素着色中一致地呈现细微差异表明该测定法鉴别RNA定量相对较小变化的能力。用低容量芯片产生的图像(例如在低光下拍摄的照片)更具颗粒感，但仍然表现出高于噪声的强定量信号。为了评估添加到样本中的合成RNA量与其测量水平之间的一致性，相对于每个RNA平均值的已知值和测量值进行了倍数变化比较(图2、c和d)。对318个芯片数据进行回归分析产生的斜率和R²为0.82和0.88，而314个芯片数据的结果为0.89和0.84。为了之后探索序列深度对测量准确性的影响，在改变所用读数总数(图2e)的同时，计算已知值和测量值之间的Pearson相关系数。该分析表明，在大约500,000个总读数(对应于平均每个目标/样本箱只有大约54个读数)后，准确度的提高幅度仅为适中。

附图2提供的数据用以支持使用公开RNA剖面法定量多重RNA的准确度。组A所示的热图显示9,216像素的玫瑰图像，基于对96个样本中以指定比例混合的96个合成miRNA和对照RNA的测量。显示两个重复实验的平均值，每个实验都使用大容量318芯片进行测序。“方法”中描述了归一化。RNA的顺序与表2中所列顺序相同。组B显示类似的热图，使用低容量314芯片的两次重复产生。组C和D显示使用318(组C)或314芯片(组D)，添加到样本的合成RNA的量与其测量水平之间的一致性。倍数变化相对于每个RNA的平均值。组E显示序列深度对定量准确性的影响，由已知和测量的RNA水平之间的Pearson相关系数定义。

人体组织中miRNA的复用分析：不仅仅是人造RNA样本，还利用来自20个正常人类组织的miRNA的测试该测定法的性能。这些样本的选择是根据独立发表的qRT-PCR数据的可用性，且可以验证使用所公开的RNA分析方法对其进行的测量。输入由每个样本的50ng总RNA组成，并且如前所述，将所得读数计数进行全局平均归一化、中心化和自动缩放。使用修改的热图呈现结果，其中比较使用公开的RNA分析方法进行的测量与斜对角分裂像素的两半中的发表值(图3a)。对于两半分别为红色和绿色的组合像素的稀缺性，数据集之间的一致性显而易见。Pearson相关系数分析表明，通过公开的RNA分析方法测定的RNA水平与给定组织的qRT-PCR之间具有良好的一致性(图3b)。在相关组织(例如结肠和小肠或卵巢和睾丸)之间也观察到相关性。图5中呈现了与其他平台数据的比较。各测试平台的测量表现出良好的一致性。将所公开的RNA分析方法与四个正交平台进行比较时，发现相似的成对相关系数范围，这与将那些正交平台相互比较时所发现的一样(图5)。也可以通过共同扩增将已知等摩尔量的所有合成miRNA作为定量参考标准的样本，确定绝对浓度，而不是相对浓度(图6)。经此分析发现，该测法定能够在至少4-5个数量级的浓度范围内测量miRNA。

附图3给出的数据用以验证使用取自人体组织和参照样本的RNA完成此方法的定量特性。组A显示了具有分割像素的热图，比较了从20个正常人体组织三个技术复制测量的90个miRNA的水平与已发表的qRT-PCR测量值。两个数据集均已标准化。组B所示热图显示了利用公开RNA分析方法与来自相同组织(对角线)或不同组织之间(非对角线)qRT-PCR测量的miRNA水平相关系数。组织的配色方案和顺序与a相同。组C显示了通过公开RNA分析方法(一式四份)与另外三个平台测量的MAQC参考样本中mRNA水平倍数差异的成对相关性。测试了所有平台共同的30个mRNA。显示线性回归拟合。UHR＝普遍人类参照RNA；HBR＝人脑参考RNA。组D显示了相对准确性(相同的30个基因)的框图，定义为MAQC样本C和D中mRNA的测量水平与基于样本A和B^！2的测量预测的水平之间的％差异。预测水平计算为C'＝0.75A+0.25B和D'＝0.25A+0.75B。水平线＝中位数；盒＝四分位数范围；晶须-10-90百分位数；点＝离群值。

附图5提供与多个miRNA剖面平台相对比的数据。组A显示了使用五个正交平台(包括所公开的RNA分析方法)在来自正常人脑和肝脏的总RNA中测量miRNA水平。其他四个平台的数据由独立实验室报告。热图中显示了通过不同平台测量的脑与肝脏中miRNA水平之间的logT(倍数差)值。分析仅限于所有测定法小组共同的miRNA。如果miRNA的水平低于给定平台的两个样本的检测限制，则会排除。报告的值是3次技术重复的平均值。组B显示了通过公开的RNA分析方法与四个正交平台测量的脑和肝脏之间miRNA水平的成对倍数差异相关性。组C显示了所有平台组合的成对R²值。外部数据集下载自Taqman qRT-PCR⁸的mimabodymap.org，以及Illumina RNA-Seq(GSE49816)、Affymetrix矩阵(GSE49661)和NanoString(GSE49600)的Gene Expression Omnibus。D.M.＝公开的RNA分析方法。

图6显示人体组织中miRNA的绝对定量。通过相对于含有-15,000个各miRNA种类的合成拷贝的共同扩增定量参考标准样本进行归一化，可以估计绝对miRNA浓度。每个组织样本的总RNA输入为50ng。这些值源自3个重复RT反应的平均值，并合并以用于单用PCR。由于Hsa-mir-381的扩增较差，因此被排除在分析之外。灰度等级表示miRNA丰度，嵌入式直方图表示这些值在相同等级上的频率分布。

参考标准中mRNA的测定：

采用方法定量mRNA是直截了当的。缺失目标长度限制允许使用更长的基因特定引物在较高温度下执行RT(表5)。“方法”小节中详细说明了其他较小的修改。为了提供验证基准，将30个基因作为靶标，在MicroArray Quality Control(MAQC)联合项目中使用三个不同的定量平台以一致的水平测量表达。使用来自四个MAQC参考样本的100ng总RNA进行一式四份的测定，其中包含(A)Stratagene Universal Human RNA、(B)Ambion Human BrainRNA以及这两种样本的(C)3:1和(D)1:3混合物。表达水平相对于ACTB和POLR2A的平均水平进行归一化。为了评估所公开RNA分析方法与三个定量MAQC平台中每一个平台之间倍数变化测量的相关性，对样本A与B之间的倍数差异进行了成对回归分析(图3c)。对于共同的30个基因组，所公开RNA分析方法与TaqMan的斜率和R²为1.02和0.89；StaRT-PCR的为0.97和0.91；QuantiGene的为0.92和0.88。由于样本C和D由确定比例的样本A和B组成，因此可以通过比较观察到的C和D表达水平与从A和B测量值计算出的预测水平进行比较，来评估测定的相对准确性(RA)。基因的RA分数分定义为AC＝(C-C')C和AD＝(D-D')/D'，其中C和D是测量的基因水平，C'和D'是预测水平。30个mRNA组的RA分数框图表明值分布在零附近(图3d)。

辐射暴露的高通量评估：

最后，为了评估所公开RNA分析方法对临床样本的效用，在人类血液中测量了辐射诱导的基因表达变化。这已作为大面积核灾后全身辐射暴露剂量的预估方法；但是需要优化样本量，以便对数以千计的潜在暴露个体进行分类。为了探索将所公开RNA分析方法用于此目的的可行性，开发了一项测定来量化一组23个先前确定的辐射敏感转录本的表达变化。该测定用于对来自18个个体(每个6个剂量水平)的108个离体辐照的血液样本进行平行分析。输入由全血辐照后24小时隔离的外周血单核细胞的400ng总RNA组成。如预期，平均化全部18个个体的信号后，观察到组中所有基因的表达剂量依赖性增加(图4、a和b)。每个人的表达模式也表现出与这种整体趋势的良好一致性(图4c)。

附图4给出人类血液中辐射诱导基因表达变化的高通量测量结果。在来自18个人的108个血液样本离体辐照后24小时测量先前确定的辐射敏感基因组中的表达水平变化。在两个重复的RNA分析实验中并行处理并测量所有样本。相对于模拟辐照的样本，组A显示了在各种辐射剂量下基因表达的平均倍数诱导。误差条表示SEM。组B表明平均化18个不同剂量受试者的标准化基因表达值的热图，其中每个受试者的值都单独显示在组C中。对每个受试者的样本分别进行中心化和自动缩放。

实施例2

该实施例描述了敏感且有效测量复杂核酸混合物中低丰度变体序列的方法和系统。我们将本实施例中描述的方法称为“谱系追踪PCR”(LT-PCR)。LT-PCR的目标是在PCR的最初几个循环期间将分子特定标签(称为分子谱系标签或MLT)分配给模板DNA分子，以便区分真实的模板衍生突变与定序器或PCR错误。该实施例描述了癌症患者血液样本中DNA的分析，但是该方法也可以更一般地应用于其他来源(如肿瘤组织、细胞、尿等)的样本。该方法可以应用于单链或双链DNA模板，以及通过RNA的逆转录产生的互补DNA(cDNA)。

材料和方法：

收集和处理患者血浆样本

通过静脉穿刺将血液收集到含有钾-EDTA的真空管中。使用各种尺寸的试管，通常在3mL和10mL之间。收集时，将血液倒置在试管中数次，以确保K.2-EDTA均匀混合。分离血浆之前，在室温(20-25℃)下临时存储并运输样本。采集血浆后尽快分离和冷冻，最好在三或四小时内。收集试管在具有缓慢加速和减速(制动器关闭)的摆动式转子的临床离心机中以1000x g离心10分钟。使用1mL移液管从红细胞和血沉棕黄层中除去血浆，小心不要搅动试管底部的细胞(避免吸出白细胞，这会导致背景野生型DNA水平升高)。将血浆以0.5至1mL等分试样分配到1.5mL冷冻管中。然后将血浆在-80℃下冷冻，直到需要进一步处理为止。

从血浆中提取和纯化DNA

将血浆从-80℃冰箱中取出，并在室温下解冻15至30分钟，然后进行DNA提取。然后将解冻的血浆以6800x g离心3分钟，以除去所有冷沉淀物。将上清液转移至全新的试管中进一步处理。使用Virus Vacuum Kit(Qiagen)不超过1mL的血浆中提取DNA(洗脱体积低至20μL)。对于不超过5mL较大量血浆，使用CirculatingNucleic Acid Kit进行DNA纯化(洗脱体积低至20μL)。根据制造商的说明书使用所有试剂盒，通常将DNA洗脱到推荐的最小量(优选20μL)。使用Virus VacuumKit处理1mL血浆，每毫升加入5微克载体RNA(cRNA；Qiagen)，并使用Qiagen网站上提供的用户开发协议。

具有封闭3'-末端的通用引物和含MLT基因特定引物的合成：

寡核苷酸引物设计为靶向基因组DNA的特定易突变区域，以通过PCR进行扩增。引物在自动DNA寡核苷酸合成仪(Dr.Oligo 192)上，使用标准亚磷酰胺化学，在UniversalPolystyrene Support III(Glen Research)上以200纳摩尔标度在3'至5'方向进行合成。引物的设计如图7和图8所示。基因特定引物在其3'-末端具有基因特定序列，它们含有包含MLT的七个简并位置，并且它们含有通用引物序列的一部分。通用引物含有LNA修饰以提高其熔融温度。下表10中列示引物序列。凝胶纯化或滤筒纯化引物。为了验证该方法是否能够同时分析多个靶标，引物设计为靶向癌症中经常突变的8个基因组区域：1个KRAS区域。1个BRAF区域、1个PPP2R1A区域、2个PIK3CA区域和3个EGFR区域。尽管在该实施例中，靶向了八个基因组区域，但是该方法可以容易地扩展到包括数十个或数百个或可能数千个靶标扩增子。

表10.在谱系追踪PCR和隔室PCR实验中使用的引物列表

谱系追踪PCR标记和扩增：

使用下述条件，在单个反应试管中对每个DNA模板样本进行修改的聚合酶链式反应(PCR)：

谱系追踪PCR设置(20μL反应)：

纯化的模板DNA(可能包含共同洗脱载体RNA[cRNA]) 10μL(或更少)

5x浓缩Phusion HF缓冲液(Thermo公司) 4μL

混合16个基因特异性引物(每个库存有200nM) 2μL

具有样本特定性条码和测序适配器的通用正向和反向引物混合物(库存各有5uM)2μL

混合4dNTP(库存各有10mM) 0.4μL

Phusion热启动II DNA聚合酶(Thermo公司)(2U/μL库存) 0.2μL

RNAse H2(集成DNA技术公司)(20mU/μL库存) 1μL

水 (最终为20μL)

对于一些反应，除了较长的通用引物之外，添加较短的通用引物(无条码和测序适配器[表10])，且每个的最终浓度为200nM。并入带有较快杂化动力的较短通用引物旨在更有效地初始扩增MLT标记拷贝。

温度循环条件：

a.30秒

b.98℃10秒

c.以1℃/10秒的速度从70℃缓慢降至60℃

d.60℃1分钟

e.72℃30秒

f.再重复步骤b-e 2次(共3个循环)

g.98℃10秒

h.72℃60秒

i.再重复步骤g-h 34次(共35个循环)

g.保持在4℃

热循环完成后，向每份反应中加入2μL含有100mM EDTA的缓冲液，以使聚合酶活性失活。然后将每个样品的约10μL扩增产物合并到单个试管中，用于后续的扩增DNA纯化。

下一代测序DNA的制备：

合并的PCR反应产物在含有溴化乙锭和1倍TBE缓冲液的2％琼脂糖凝胶上纯化。由于所有PCR产物均具有类似最终长度，因此合并的产物作为稍微扩散的条带出现在凝胶上。使用全新的手术刀刀片从凝胶中切下该扩散带，确保凝胶在可见条带上方和下方几毫米处切割，以包括任何可能运行得更快或更慢并且不能很好地观察到的低强度条带。根据制造商的说明，使用Gel Extraction试剂盒(Qiagen)，从凝胶切片中分离DNA。将DNA洗脱到50μL洗脱缓冲液(EB)中。

下一代测序

为了准备将样品加载到Illumina HiSeq流通池上，使用Agilent测量DNA的浓度，并将DNA稀释至Illumina推荐的浓度。根据Illumina¹协议在流动池上进行簇形成。将样本加载到流动池的单个通道上。测序是在复用配对末端模式下的2000仪器上进行，每个方向的读取长度为75个碱基对。在另外的实验中，还在Illumina MiSeq仪器上进行测序，并且还在每个方向上利用100、150、200或250个碱基对的配对末端读取长度。还执行了两次索引读取，并且读取的索引长度从标准的七个周期增加到九个周期，使得可以适当地读取较长的条码(索引)序列。

实施例3

与实施例2类似，实施例3描述了敏感且有效测量复杂核酸混合物中低丰度变体序列的方法和系统。该实施例包含实施例2中所述的“谱系追踪PCR”(LT-PCR)，但是使用区室化策略来进一步提高分析灵敏度。将PCR分成许多小量反应，使得在给定反应量中具有超过1份特定靶标DNA片段复制的概率非常低。使用标记策略，从而可以确认变体序列的扩增拷贝是来自给定反应隔室内双链模板DNA片段的两个位点。该实施例描述了癌症患者血液样本中DNA的分析，但是该方法也可以更一般地应用于其他来源(如肿瘤组织、细胞、尿等)的样本。该方法还可以应用于单链DNA模板，以及由RNA的逆转录产生的互补DNA(cDNA)，但是误差抑制的稳健性会大打折扣。

材料和方法

收集和处理患者血浆样本

使用与实施例2中所述相同的方法收集血液。

从血浆中提取和纯化DNA

使用与实施例2中所述相同的方法从患者血浆样本中提取DNA。

具有封闭3'-末端的通用引物和含MLT基因特定引物的合成

除了长正向通用引物(包含条码和测序适配器)之外，该实施例中使用的引物与实施例2(表10)中合成的引物相同。使用与实施例2中所述相同的方法进行引物合成。

在磁珠上分离和合成含有珠粒特定条码的寡核苷酸

磁性微珠粒用于将条码正向通用引物递送到不同的PCR微隔室(如液滴或微孔)。每个珠粒被设计成具有许多具有相同珠粒特定条码(BSBC)的引物拷贝。所需的正向通用引物序列的序列如下：

5-生物素

-AATGATACGGCGACCACCGAGATCTACAC[BSBC]ACACTCTTTCCCTACACGACGCTCTTCC-3'

为了产生数百万个具有约100万个珠粒特定条码的磁性微珠粒，使用分离和库式方法直接在珠粒表面上进行寡核苷酸合成，以产生条码序列。表面活化超顺磁性2.8(具有胺修饰的珠粒(Dynabeads M-270Amine[Thermo Scientific]))用作寡核苷酸合成的固体载体。对于每批合成，使用制造商提供的50μL珠粒浆(约1亿珠粒)。因为珠粒太小而不能通过玻璃料保留在合成塔中，所以在塔体周围放置环形钕磁铁，以将磁珠保持在塔体两侧。间隔物9亚磷酰胺(Glen Research)与胺改性的珠粒直接反应以产生氨基磷酸酯键，其在氢氧化铵/甲胺(AMA)的标准去保护期间不会被切割。将附加的亚磷酰胺与该间隔物连接，以令所需的寡核苷酸链生长。合成的寡核苷酸在合成完成后保持附着于珠粒上。在珠粒表面合成以下序列：

5'-间隔物9-TTTTTTTTTT-间隔物

C3-GGAAGAGCGTCGTGTAGGGAAAGAGTGT[BSBC]GTGTAGATCTCGGTGGTCGCCGTATCATT-3'

为了在5'至3'方向合成寡核苷酸，使用5'-CE亚磷酰胺(Glen Research)。寡核苷酸序列含有10dT残基，从而从珠粒表面引入额外空间。珠粒特定条码(BSBC)由使用分裂和库式合成合成的10个残基组成。要在这10个位置中的每个位置的偶联亚磷酰胺，暂停合成，将磁珠集中然后分到四个塔体。四个不同的塔体接受4种不同的亚磷酰胺(5'-dA、5'-dT、5'-dC和5'-dG)。在10个偶联循环中的每个循环之间暂停合成，以使珠粒集中并等份分到塔体。合成完成后，将珠粒偶联的寡核苷酸在AMA中在65℃下脱保护10分钟。然后用去离子水洗涤珠粒，然后重新悬浮在10mM Tris pH 7.6缓冲液中。

要在微珠粒表面上合成可热释放的互补条码引物，将以下引物退火为与珠粒偶联的寡核苷酸，并使用Klenow片段(外式)(新英格兰生物实验室)进行扩增。

5'-生物素-AAT GAT ACGGCGACCACCG AGATC-3'

将珠粒重新悬浮在补充有0.2mM dNTP的50μL LNEB缓冲液2(1倍浓度)中。根据制造商的指示进行引物延伸反应，在加入Klenow聚合酶后，在37℃孵育反应30分钟。然后洗涤珠粒并将其重新悬浮在含有50mM NaCl和10mM Tris pH 7.6的缓冲液中。

用于将克隆标记的引物递送到隔室的无珠粒的方法。

一些实验中不使用珠粒，而是使用替代方法将隔室特定标记引入隔室内的PCR产物。类似于基于珠粒的递送，目标是将以下引物序列递送到不同的隔室：

5'-生物素

-AATGATACGGCGACCACCGAGATCTACAC[CSBC]ACACTCTTTCCCTACACGACGCTCTTCC-3'

在给定的隔室中，引入了该引物的多个拷贝，其中克隆拷贝含有一个或几个隔室特定条码(CSBC)。为了制备此类引物，在区室化前将非常稀薄的模板DNA加入到PCR混合物中，其浓度允许平均将约2到3个可扩增拷贝(分子)分配到每个隔室中(根据Poisson分布)。模板DNA由以下序列组成：

DegenTemplate：

5'-AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCC-3'

以下引物也加入混合物：

Bio-ShortFWD：

5'-生物-AA+TG+AT+ACGGCGACCACCGAGaTCTAXX-3'(以100nM最终浓度加入)

ShortREV：

5'-GGA+AGAGCG+TCG+TGTAGGGAAaGAGTXX-3'(以20nM最终浓度加入)

使用dA-5'-CE亚磷酰胺(Glen Research)X＝dA在相反方向。

小写的残基是RNA；大写的残基是DNA。

N＝具有相同A、T、C或G并入概率的退化位置。

残基前面的"+"表示该位置的LNA核苷酸。

由于微隔室进行热循环，几个标记的模板分子被克隆扩增，产生了许多含有隔室特定标签的所需引物拷贝。因为与短反向引物相比，生物素化的短正向引物过量5'倍加入，制备了更多正向链拷贝，而不是反向链(通过不对称PCR)。因此，通过与相同隔室中的共扩增基因特定PCR产物杂化，可以进一步延长正向链的多余拷贝。通过这种方式，将隔室中的基因特定PCR产物用隔室特定标签标记。图12为此方法的示意图。

PCR混合物

本实施例中使用的PCR混合物取决于微珠粒是否用于递送隔室特定的引物，或是否使用无珠粒的方法。

对于基于珠粒的方法，使用以下PCR混合物：

纯化的模板DNA(可能包含共同洗脱载体RNA[cRNA]) 10μL(或更少)

5x浓缩Phusion HF缓冲液(Thermo公司) 4μL(

16个基因特异性引物的混合物(每株200nM) 2μL

短通用正向和反向引物(每个库存10μM) 1μL

具有样品特异性的长通用反向引物条码和排序适配器(10μM库存) 1μL

混合4dNTP(每种10mM) 0.4μL

Phusion热启动II DNA聚合酶(Thermo)(2mU/μL储备) 0.2μL

RNAse H2(集成DNA技术公司)(20mU/μL库存) 1μL

水 (最终为20μL)

(表10中列示引物序列)

将携带有标签引物的珠粒在区隔化之前加入到混合物中，充分混合以促使珠粒均匀分布到隔室中。调整珠粒的数量，使得每个微隔室中分布约2到3个珠粒。

当使用无珠粒方法引入含有隔室特定标记的克隆引物时，使用以下PCR混合物：

纯化的模板DNA(可能包含共同洗脱载体RNA[cRNA]) 8μL(或更少)

5倍浓缩Phusion HF缓冲液(Thermo) 4μL

16个基因特定引物(每个库存有200nM)混合物 2μL

短通用正向(库存5μM)和短通用反向引物(库存10μM)混合物 1μL

具有样本特定条码和测序适配器的长通用反向引物(10μM库存) 1μL

DegenTemplate(库存浓度调整如下所述) 1μL

混合Bio-ShortFWD(1μM库存)和Short REV(0.2μM库存) 1μL

混合4dNTP(每种10mM) 0.4μL

Phusion热启动II DNA聚合酶(Thermo)(2U/μL储备液) 0.2μL

RNAse H2(集成DNA技术公司)(20mU/μL L库存) 1μL

水 (最终量为20μL)

调整"DegenTemplate"引物的库存溶液浓度，使得每个隔室中平均分布约2到3个可扩增分子。使用该模板的连续稀释进行数字PCR实验，以准确测定可扩增分子的浓度。

PCR的微流体区隔化

在热循环之前，已使用两种不同的方法将PCR混合物区隔化为热循环之前的微观反应量。一种方法是在油中产生含水PCR混合物的微流体液滴(可能含有微珠粒)。第二种方法是将PCR混合物分到微流体装置上的微孔中(可能含有微珠粒)。在两种方法中，从20微升PCR混合物产生约20,000个量约为1纳升的单独微观反应。可以根据所分析基因组等同物的数量，在未来的实验中调整隔室的总数和大小。本实施例中使用的区隔化方案基于估计约8-10ng基因组模板DNA(～3000基因组当量)。

为了将PCR混合物区隔化成油中的液体，使用BioRad QX100液滴发生器，并根据制造商的指示进行一些修改。一个修改是使用上述PCR混合物(有或没有微珠粒)，而不是造商推荐的PCR超级混合物。使用EvaGreen的液滴发生油。热循环在0.2mL薄壁PCR试管中进行。

为了将PCR混合物区隔化到微孔中，我们使用了一个定制的微制造透明载片，其上已对聚二甲基硅氧烷(PDMS)进行了图案化，以创建20,000个微孔，每个保持约1nL量。已对PDMS表面进行处理，使其具有亲水性，以鼓励将PCR混合物均匀分布到微孔中。加入盖玻片夹住PDMS图案，从而密封微孔以进行热循环。

热循环

使用与实施例2中类似的热循环方案，不同之处在于最后两个循环使用较低的退火温度，以促进杂化和延伸包含隔室特定标签的生物锡标记引物。

温度循环条件：

a.98℃30秒

b.98℃10秒

c.以1℃/10秒的速度从70℃缓慢降至60℃

d.60℃1分钟

e.72℃30秒

f.再重复步骤b-e 2次(共3个循环)

g.98℃10秒

h.72℃60秒

i.重复步骤g-h 34个循环(共35个循环)

j.98℃10秒

k.60℃60秒

l.再重复步骤i-k 1次(共2个循环)

m.保持在4℃

组合所有隔室的标签产品

热循环完成后，合并区隔化的反应量，将含EDTA的缓冲液加入到组合量中(最终浓度约10mM)，使聚合酶活性失活。为了在油中合并小滴，加入氯仿，并在涡旋器上搅拌乳剂，然后根据Bio-Rad推荐的方案高速离心。为了组合来自微孔的PCR产物，除去盖板，并用-200μL含EDTA的缓冲液洗涤微孔。如果将磁珠加入到混合物中，则使用磁体将其从溶液中除去。

下一代测序DNA的制备：

合并的PCR反应产物在含有溴化乙锭和1倍TBE缓冲液的2％琼脂糖凝胶上纯化。使用全新的手术刀刀片从凝胶中切下预期尺寸的条带(基于在相邻通道中运行的大小制造器)。根据制造商的说明，使用Gel Extraction试剂盒(Qiagen)，从凝胶切片中分离DNA。将DNA洗脱到50μL洗脱缓冲液(EB)中(Qiagen)。

在一些实验中，将大容量链霉亲和素-琼脂糖树脂浆液(5μL)(ThermoScientific)加入到每个反应量中，以捕获生物锡标记的反应产物。然后在10mM Tris pH7.6中洗涤珠粒，通过50μL洗脱缓冲液EB(Qiagen)中的热变性，从珠粒表面洗脱与生物素化链互补的DNA链。

下一代测序

为了准备将样品加载到Illumina HiSeq流通池上，使用Agilent测量DNA的浓度，并将DNA稀释至Illumina推荐的浓度。如实施例2所述进行测序。

序列分析算法概要

对得到的序列数据进行计算分析，以鉴定和定量从两条链产生匹配突变体序列的突变双链DNA片段。“方法”小节中描述了用于此分析的基础逻辑。

虽然已经根据特定实施例描述了本发明，但是本发明并不限于这些实施例。本领域内的专业人士可清晰了解遵从本发明精神的修改。值得赞赏的是，提供了先前描述的公开实施例，使得本领域的专业人士能够公开或使用本信息。本领域内的专业人士可清晰了解遵从本发明精神的修改，并在不脱离本公开信息精神或范围的情况下，本文定义的一般原理可应用于其他实施例。因此，本公开信息不限于本文所示的实施例，而是符合与本文所公开原理和新特征一致的最广范围。

Claims

1.一种RNA定量方法，包括：

在反转录过程中，将样本特定计数标签分配给每个样本内的靶标RNA分子；

使用模块化的寡核苷酸合成，以一致的比例将RNA从不同样本复制到互补DNA；

汇集和纯化所有样本中标记的cDNA；并通过竞争性终点PCR分别扩增每个cDNA靶标。