CN106574298A

CN106574298A - 用于样品分析的方法和组合物

Info

Publication number: CN106574298A
Application number: CN201580034146.0A
Authority: CN
Inventors: 米尔娜·雅罗什; 克里斯多佛·辛德森; 迈克尔·史诺-莱文; 凯文·迪安·奈斯; 瑟奇·萨克森诺夫; 本杰明·J·辛德森; 约翰·史图尔普纳格
Original assignee: 10X Genomics Inc
Current assignee: 10X Genomics Inc
Priority date: 2014-06-26
Filing date: 2015-06-26
Publication date: 2017-04-19
Also published as: KR20170023011A; US20150376605A1; AU2015279619A1; JP2017523774A; CA2953473A1; US20200399631A1; EP3161161A1; IL249618A0; MX2016016898A; WO2015200871A1; EP3161161A4

Abstract

本公开涉及当输入样品的总量低时或当所关注的靶标在全部样品内以相对较小或罕见的群体存在时进行样品处理和分析的方法和系统。本公开尤其涉及分析核酸样品，包括其中所关注的靶核酸在全部核酸中以相对低比例存在的样品。

Description

用于样品分析的方法和组合物

交叉引用

本申请要求2014年6月26日提交的美国临时专利申请号62/017,580和2014年10月14日提交的美国临时专利申请号62/063,870的优先权，这些申请中的每一者出于所有目的以全文引用的方式并入本文中。

背景

核酸测序被广泛用于获得不同生物医学背景中的信息，所述生物医学背景包括诊断、预后、生物技术以及法医生物学。测序可能涉及：基本方法，包括马克萨姆-吉尔伯特测序(Maxam-Gilbert sequencing)和链终止法；或从头测序法，包括鸟枪测序和桥式PCR；或下一代法，包括聚合酶克隆测序、454焦磷酸测序、Illumina测序、SOLiD测序、Ion Torrent半导体测序、HeliScope单分子测序、测序等。大多数测序应用需要极小量的样品输入，其通常从几百纳克变化到几十微克。此类对于起始材料的相对高输入的要求可能对许多应用造成显著障碍，特别是在可获得极小量的起始材料的应用中。此类应用的实例包括无创性产前诊断(NIPD)，其中只有极少量的DNA来源于胎儿；以及癌症诊断，其中通常样品的绝大部分是由正常健康细胞构成，并且只有极少量源于肿瘤或癌细胞。在本领域中需要开发用于对样品进行核酸测序的方法和组合物，其中样品核酸的起始量相对小，或其中样品中的所关注的核酸在所存在的全部核酸中占相对小的比例。本公开满足了这些需要和各种其他需要。

概述

本公开提供用于分析核酸的方法和系统，特别是在输入核酸量低的情况下。在一个方面，本公开提供一种分析核酸的方法，其包括提供来源于核酸样品的核酸集合，其中核酸集合包括小于50纳克(ng)的量的核酸分子；扩增分区内的核酸集合以形成核酸集合的扩增产物；汇集核酸集合和扩增产物，以形成汇集混合物；以及检测汇集混合物内至少一部分核酸的核酸序列。

在一些实施方案中，在提供核酸集合之后和扩增之前，所述方法包括将核酸集合与可释放地连接至珠粒的多个寡核苷酸组合以形成混合物，将混合物分配至分区中，并且使寡核苷酸从分区内的珠粒释放。在一些实施方案中，所述多个寡核苷酸中的每一者包含至少恒定区和可变区。在一些实施方案中，恒定区包含条形码序列。在一些实施方案中，条形码序列的长度介于约6个核苷酸与约20个核苷酸之间。在一些实施方案中，可变区包含引物序列。在一些实施方案中，寡核苷酸在扩增核酸集合时充当引物。在一些实施方案中，寡核苷酸在暴露于一种或多种刺激(例如pH、光、化学物质以及/或者还原剂(例如二硫苏糖醇(DTT)或三(2-羧乙基)膦(TCEP))后从珠粒释放。

在一些实施方案中，检测以大于90％的准确度完成。在一些实施方案中，检测以大于95％的准确度完成。在一些实施方案中，检测以大于99％的准确度完成。在一些实施方案中，检测包括检测核酸集合内的核酸中的至少90％。在一些实施方案中，检测包括检测核酸集合内的较小群体的序列，所述较小群体占核酸集合的小于50％。在一些实施方案中，较小群体占核酸集合的小于25％。在一些实施方案中，较小群体占核酸集合的小于10％。在一些实施方案中，较小群体占核酸集合的小于5％。

在一些实施方案中，所述量小于40ng。在一些实施方案中，所述量小于20ng。在一些实施方案中，所述量小于10ng。在一些实施方案中，所述量小于5ng。在一些实施方案中，所述量小于1ng。在一些实施方案中，所述量小于0.1ng。

在一些实施方案中，分区包括微滴(例如，流体微滴，诸如油包水乳液内的水性微滴)、微胶囊、孔或管。在一些实施方案中，分区由微流体装置产生。

在一些实施方案中，核酸集合来源于体液，诸如例如包括血液、血浆、血清或尿液的体液。在一些实施方案中，至少核酸集合的子集来源于一个或多个循环肿瘤细胞(例如，从非保守型样品或从甲醛固定和石蜡包埋型样品获得的一个或多个循环肿瘤细胞)和/或肿瘤。在一些实施方案中，核酸集合来源于组织活检。在一些实施方案中，核酸集合包括胎儿核酸。在一些实施方案中，核酸集合中小于5％的核酸包括胎儿核酸。在一些实施方案中，核酸样品包括细胞样品。在一些实施方案中，细胞样品包括小于5％的循环肿瘤细胞。在一些实施方案中，细胞样品包括小于5％的肿瘤细胞。

在一些实施方案中，核酸样品来源于活样品、非保守样品、保存样品、防腐样品以及/或者固定样品。在一些实施方案中，样品为包埋样品。在一些实施方案中，样品为甲醛固定和石蜡包埋样品。

在另一方面，本公开提供一种分析核酸的方法，其包括扩增来源于分区内核酸样品的核酸集合以形成核酸集合的扩增产物；汇集核酸集合和扩增产物以形成汇集混合物；以及检测汇集混合物中的核酸集合内的较小群体的核酸序列，其中所述较小群体占核酸集合的小于50％。

在一些实施方案中，所述方法包括在扩增核酸集合之前将核酸集合与可释放地连接至珠粒的多个寡核苷酸组合以形成混合物，将混合物分配至分区中，以及使寡核苷酸从分区内的珠粒释放。在一些实施方案中，所述多个寡核苷酸中的每一者包含至少恒定区和可变区。在一些实施方案中，恒定区包含条形码序列。在一些实施方案中，可变区包含引物序列。在一些实施方案中，寡核苷酸在扩增核酸集合时充当引物。在一些实施方案中，寡核苷酸在暴露于一种或多种刺激(例如pH、光、化学物质以及/或者还原剂)后从珠粒释放。

在一些实施方案中，所述较小群体占小于40％。在一些实施方案中，所述较小群体占小于30％。在一些实施方案中，所述较小群体占小于20％。在一些实施方案中，所述较小群体占小于10％。在一些实施方案中，所述较小群体占小于5％。在一些实施方案中，所述较小群体占小于1％。在一些实施方案中，所述较小群体占小于0.1％。在一些实施方案中，所述较小群体包含肿瘤核酸。在一些实施方案中，所述较小群体包含胎儿核酸。在一些实施方案中，所述较小群体包含循环肿瘤细胞核酸。

在一些实施方案中，分区包括微滴、微胶囊、孔或管。在一些实施方案中，分区由微流体装置产生。在一些实施方案中，核酸集合来源于体液，诸如包括血液、血浆、血清或尿液的体液。在一些实施方案中，核酸集合来源于组织活检。

在另一方面，本公开提供一种分析核酸的方法，其包括提供来源于核酸样品的核酸集合，其中所述核酸集合包括小于50纳克(ng)的量的核酸分子；将所述核酸集合与多个寡核苷酸组合以形成混合物，其中所述寡核苷酸中的每一者包含至少恒定区和可变区，所述恒定区包含条形码序列；将所述混合物分配至多个分区中，并且扩增分区内的核酸集合以形成核酸集合的扩增产物；汇集核酸集合和扩增产物以形成汇集混合物；以及以至少90％的灵敏度检测汇集混合物内的至少一部分核酸的核酸序列。

在一些实施方案中，核酸集合包括小于40ng的量的核酸分子。在一些实施方案中，核酸集合包括小于20ng的量的核酸分子。在一些实施方案中，核酸集合包括小于10ng的量的核酸分子。在一些实施方案中，核酸集合包括小于5ng的量的核酸分子。在一些实施方案中，核酸集合包括小于1ng的量的核酸分子。在一些实施方案中，核酸集合包括小于0.1ng的量的核酸分子。

在一些实施方案中，可变区包含引物序列。在一些实施方案中，寡核苷酸在扩增核酸集合时充当引物。在一些实施方案中，检测包括以至少95％的灵敏度检测汇集混合物内的至少一部分核酸的核酸序列。在一些实施方案中，检测包括以至少99％的灵敏度检测汇集混合物内的至少一部分核酸的核酸序列。

在另一方面，本公开提供一种分析核酸序列的方法，其包括提供包含由核酸样品产生的核酸分子的分区；从分区汇集核酸分子形成核酸混合物；对核酸混合物进行核酸测序以产生包含核酸分子的核酸序列的测序读段；使用经过编程的计算机处理器来分析测序读段并且识别测序读段中与核酸混合物中的污染物核酸分子相关的至少一个污染物读段；从测序读段中去除污染物读段；并且由去除了污染物读段的测序读段产生核酸样品的序列。

在一些实施方案中，核酸混合物中污染物核酸分子的量为核酸混合物中的核酸分子的小于50％、小于20％、小于10％、小于5％、小于1％、小于0.1％、小于0.01％、小于0.001％或小于0.0001％。

在一些实施方案中，所述至少一个污染物读段包括与污染物核酸分子的相关的多个污染物读段。在一些实施方案中，以至少90％、至少95％或至少99％的准确度来产生序列。在一些实施方案中，分区包括流体微滴，诸如油包水乳液内的水性微滴。

在一些实施方案中，通过以下方式识别污染物读段：测定测序读段的子集之间的序列重叠，并且如果测序读段中的给定者相对于所有子集的重叠均小于50％、相对于所有子集均小于25％、相对于所有子集均小于10％、相对于所有子集均小于5％、相对于所有子集均小于1％或相对于所有子集均小于0.1％，那么识别污染物读段。在一些实施方案中，通过以下方式识别污染物读段：测定测序读段的子集之间的序列重叠，并且如果序列读段中的给定者的序列相对于所有子集均不重叠，那么识别污染物读段。

在一些实施方案中，通过以下方式识别污染物读段：将测序读段与参考序列相比较，并且如果测序读段中的给定测序读段与参考序列以小于50％、小于25％、小于10％、小于5％、小于1％或小于0.1％重叠，那么将给定测序读段识别为污染物读段。在一些实施方案中，通过以下方式识别污染物读段：将测序读段与参考序列相比较，并且如果测序读段中的给定测序读段不与参考序列重叠，那么将给定测序识别为污染物读段。

在一些实施方案中，通过以下方式识别污染物读段：将测序读段相互比较以识别测序读段之间的序列重叠，并且如果测序读段中的给定者与测序读段中的其他测序读段的序列以小于50％、小于25％、小于10％、小于5％、小于1％或小于0.1％重叠，那么将其识别为污染物读段。在一些实施方案中，通过以下方式识别污染物读段：将测序读段相互比较以识别测序读段之间的序列重叠，并且如果测序读段中的给定者的序列不与测序读段之中的其他测序读段的序列重叠，那么将其识别为污染物读段。

在一些实施方案中，提供包含由核酸样品产生的核酸分子的分区包括产生对应于分区中的核酸分子中的每一者的条形码化片段或其拷贝。在一些实施方案中，测序读段包含条形码化片段读段，所述条形码化片段读段包含条形码化片段或其拷贝的核酸序列。在一些实施方案中，通过以下方式识别污染物读段：如果条形码化片段读段中的给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于20％、小于15％、小于10％、小于5％、小于3％或小于0.1％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将给定条形码化片段读段识别为污染物读段。

在一些实施方案中，通过以下方式识别污染物读段：将序列读段映射到其序列区域，并且如果所述序列读段中的给定序列读段在映射到其序列区域时与所述序列读段中的少于10个、少于5个、少于3个或少于1个其他读段在映射到其序列区域时重叠或不与其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为污染物读段。

由以下详细描述，本公开的其他方面和优点对本领域技术人员来说将变得轻易地显而易见，在以下详细描述中仅示出和描述了本公开的说明性实施方案。如将认识到的，本公开能够实现其他和不同实施方案，并且在各个明显的方面其若干细节能够进行修改，所有这些都不脱离本公开。因此，图式和描述将被视为在本质上是说明性的，而不是限制性的。

以引用的方式并入

本说明书中所提到的所有出版物、专利以及专利申请以全文引用的方式并入本文中，其程度如同每个单个的出版物、专利或专利申请被具体地和单独地指示以引用的方式并入一般。

附图简述

本发明的新颖特征在所附权利要求书中被特别阐述。通过参考以下使用本发明原理阐述说明性实施方案的详细描述以及附图(在本文中也称为“图”和“FIG.”)将获得对本发明的特征和优点的更好的理解，在附图中：

图1为对用于测序的样品进行示例性处理的流程图。

图2示意性地说明用于对样品和珠粒进行共分配的示例性微流体通道结构。

图3示意性地说明对样品进行扩增和条形码化的示例性过程。

图4提供在将序列数据归属于其起源时使用序列的条形码化的实例的示意性说明。

图5提供对示例性计算机控制系统的示意性说明。

详细描述

虽然本文中已示出和描述了本发明的各个实施方案，但对本领域技术人员来说将显而易见的是此类实施方案仅仅是通过举例而提供。本领域技术人员会想到许多变化、改变以及替换，而不会脱离本发明的范围。应了解，可采用对本文中所描述的本发明实施方案的各种替代方案。

I.总体概述

本公开提供适用于在起始材料具有相对低的量时或在所关注的靶标在全部起始材料中仅占较小百分比时进行样品处理和分析的方法和系统。本文所提供的方法和系统特别适合于其中起始核酸(例如DNA、mRNA等)或起始靶核酸以较小量存在或其中作为分析靶标的核酸在样品内的全部核酸中以相对低的比例存在的核酸测序应用。本文所提供的方法和系统大体上涉及：将起始样品材料分配至离散的隔离单元中；为离散单元内的材料施加识别条形码，使得可逐个单元地识别材料；从各单元汇集所述材料；对所汇集的材料进行测序；以及分析测序信息，以检测或定量所关注的核酸。

所描述的方法和系统提供优于当前核酸测序技术和其相关样品制备方法的显著优点。举例来说，所述方法和系统在输入核酸的总量极低的情况下在实现对核酸的表征方面特别有用。在许多核酸分析系统中，主要限制在于系统不能分析极小量的核酸。这形成了在分析罕见事件、单个细胞时的困难或获得样品的困难或处理样品的困难。举例来说，许多当前技术水平的测序系统要求用于分析的核酸的起始量在Illumina测序系统的50-100纳克(ng)至Pacific Biosciences SMRT测序的500ng起始核酸范围内，Ion Torrent测序系统则一直高达1微克(μg)。

除了在输入核酸的量低的情况下在核酸的分析和表征中有价值，本文所描述的方法和系统还在分析在正在分析的样品中的全部核酸中以较低比例存在(当样品核酸的量处于例如如上文所描述的绝对低的水平时以及在其以较低相对比例存在的情况下)的核酸样品时提供显著益处。举例来说，大多数测序技术依赖于对样品中的目标核酸的广泛扩增，以产生足够用于测序过程的材料。这些扩增过程可能造成信息的丢失，特别是当样品为含有所关注的较小群体的异质群体时，例如在所关注的靶核酸在全部核酸中以相对低的比例(例如小于20％)存在的情况下。特定而言，样品内的核酸的广泛扩增会优先扩增较大群体，并且覆盖样品中的较小群体的信号。样品内的核酸的较大群体在一些情况下可能在扩增过程期间竞争胜过较小群体，以致较大群体被优先扩增。含有较大和较小核酸群体的样品的实例为可主要含有健康组织并且含有极少的患病组织(诸如来自肿瘤的组织)的组织活检样品。因此，从此类样品中提取的核酸(例如DNA)中可能仅较小百分比代表患病或异常群体(例如，小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于9％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％等)。诸如PCR等典型扩增方法可能快速扩增来自健康组织的DNA，不利于来自肿瘤细胞的DNA的扩增并且甚至排除来自肿瘤细胞的DNA的扩增。此类扩增因若干因素而产生，所述若干因素包括例如几何扩增的进展，其中从较高量起始的样品快速超过少数组分的扩增。它也可因资源利用而产生，其中更快速生长的群体快速地要求可用于扩增的资源，例如引物、聚合酶以及核苷酸，以扩增所述多数组分从而排除少数组分的扩增。此外，因为这些扩增反应典型地在汇集背景下进行，所以扩增序列的起源(就特定染色体、多核苷酸或有机体来说)可能在此过程中未被保留。

在某些方面，本文所提供的方法和系统对单个或较小数目的核酸进行分配，使得它们被分派至单独的反应体积中，例如微滴或其他分区中，那些核酸组分可最初在所述反应体积中被扩增。在此最初扩增期间，将独特的条形码连接至那些单独的反应体积中的组分。不同组分的单独分配扩增以及独特的条形码序列的施加允许在测序过程(包括后续扩增过程，例如PCR或其他扩增过程)中保留各样品的贡献以及其起源的归属。对样品进行分配和条形码化的方法详细描述于2014年6月26日提交的美国专利申请号14/316,383以及2014年2月7日提交的美国临时专利申请号61/940,318和2014年5月9日提交的美国临时专利申请号61/991,018中，这些临时专利申请的全部公开内容出于所有目的以全文引用的方式并入本文中。

本文所公开的方法和系统适用于广泛范围的环境。举例来说，所述方法和系统可用于临床诊断，特别是用于诊断或区别诊断癌症(包括实体器官癌和血癌)，或检测从孕妇获得的样品中的胎儿非整倍性。所述方法和系统还可用于生物研究，特别是生物医学研究。所述方法和系统还可用于表征生物体的群体(例如微生物组)，以及用于法医学和环境测试。

II.工作流程概述

图1说明对样品核酸进行条形码化和后续测序的示例性方法，特别是在样品具有相对低的量的情况下或在靶群体在样品内为相对较小的群体(例如小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于9％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％等)的情况下。首先，可从来源获得包含核酸的样品100，并且还可获得条形码化珠粒的集合110。可使珠粒键联至含有一个或多个条形码序列以及引物(诸如随机N-mer或其他引物)的寡核苷酸。在一些情况下，条形码序列可从条形码化珠粒释放，例如通过在条形码与珠粒之间的键联的裂解或通过下面珠粒的降解来释放条形码，或两种途径的组合。举例来说，在一些情况下，条形码化珠粒可由诸如还原剂等试剂降解或溶解以释放条形码序列。在此实例中，将较低量的包含核酸的样品105、条形码化珠粒115以及(在一些情况下)其他试剂(例如还原剂)120组合并且进行分配。举例来说，此类分配可涉及将组分引入微滴产生系统，诸如微流体装置125。在微流体装置125的辅助下，可形成油包水乳液130，其中所述乳液含有水性微滴，所述水性微滴含有样品核酸105、还原剂120以及条形码化珠粒115。还原剂可溶解或降解条形码化珠粒，从而使具有条形码和随机N-mer的寡核苷酸从微滴内的珠粒释放135。随机N-mer可接着引导样品核酸的不同区域，从而在扩增之后产生样品的扩增拷贝，其中将各拷贝用条形码序列标记140。在一些情况下，各微滴含有寡核苷酸的集合，所述寡核苷酸的集合含有相同的条形码序列和不同的随机N-mer序列。随后，对乳液进行破乳145，并且可经由例如扩增方法150(例如，PCR)来添加其他序列(例如，辅助特定测序方法的序列、其他条形码等)。然后可进行测序155，并且应用算法来解释测序数据160。测序算法通常能够例如对条形码进行分析以比对测序读段和/或识别特定序列读段所属的样品。

本文描述用于表征具有低输入量的核酸的方法和系统。如本文所用并且如下文所描述，核酸的低输入量通常指引入工作流程中的样品核酸的低聚集量。在一些实施方案中，所述术语指引入诸如微流体装置等装置的样品核酸的聚集量。如本文进一步描述，核酸的量可以质量或基因组当量(例如引入工作流程中的基因组当量的数目，例如当分析全基因组样品时)来表示。如将了解的，这可不同于上文所描述的基于质量的输入量数字，这取决于所分析的生物体的基因组的大小。输入样品核酸还涵盖所引入的样品核酸的总量，不管状态如何(例如完整的、片段化的、提取的、经过提取和片段化的、经过片段化和尺寸选择的等)。

在一个示例性方面，本公开中所描述的方法和系统使得单个或较小量的样品(例如核酸)沉积或分配至离散分区中，其中各分区维持其自身的内容物与其他分区的内容物分离。如本文中所用，分区是指器皿或容器，其可包括多种不同形式，例如孔、管、微孔或纳米孔、通孔等。然而，在一些方面，分区可在流体流内流动。这些容器可包含例如具有包围内部流体中心或核心的外部屏障的微胶囊或微囊泡，或其可为能够夹带和/或保留基质内的材料的多孔基质。然而，在一些方面，这些分区可包含非水性连续相(例如油相)内的水性流体的微滴。多种不同的容器描述于例如2013年8月13日提交的美国专利申请号13/966,150中。同样地，用于形成非水性或油性连续相中的稳定微滴的乳液系统详细描述于例如美国专利公布号2010/0105112中，所述专利公布的全部公开内容以引用的方式完全并入本文中。

在乳液中的液滴的情况下，将样品材料(例如核酸)分配至离散分区中通常可通过以下方式完成：使水性的含有样品的流流至接头中，也使分配流体(例如氟化油)的非水性流流至所述接头中，使得在流动的流分配流体内形成水性微滴，其中此类微滴包括样品材料。如下所述，此类微滴还典型地包括共分配的条形码寡核苷酸。可通过控制系统的多个不同参数来调节任何特定分区内的样品材料的相对量，所述多个不同参数包括例如水性流中的样品浓度、水性流和/或非水性流的流速等。本文所描述的分区的特征常常为具有极小的体积。举例来说，在基于微滴的分区的情况下，微滴可具有小于1000pL、小于900pL、小于800pL、小于700pL、小于600pL、小于500pL、小于400pL、小于300pL、小于200pL、小于100pL、小于50pL、小于20pL、小于10pL或甚至小于1pL的总体积。在与珠粒共分配的情况下，应了解，分区内的样品流体体积可为上文所描述的体积的小于90％、为上文所描述的体积的小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％或甚至小于10％。在一些情况下，在与极小量的起始试剂(例如输入核酸)进行反应时，使用低反应体积分区为特别有利的。

一旦将样品引入其各自的分区中，根据本文所描述的方法和系统，分区内的内容物通常具备独特的标识，使得在表征那些内容物之后，可将其归因为来源于其各自的起源。因此，典型地将样品与独特的标识(例如条形码序列)一起共分配。在一些方面，以包含可连接至那些样品的核酸条形码序列的寡核苷酸的形式来提供独特的标识。对寡核苷酸进行分配，使得在给定分区中的寡核苷酸之间时，其中所含的核酸条形码序列相同，但在不同分区之间时，寡核苷酸可具有不同的条形码序列。在一些方面，仅一个核酸条形码序列将与给定分区相关联，不过在一些情况下，可存在两个或更多个不同的条形码序列。

核酸条形码序列可在寡核苷酸的序列内包括6至约20个或更多个核苷酸。这些核苷酸可为完全连续的，即呈单段相邻核苷酸的形式，或者它们可被分隔至由一个或多个核苷酸隔开的两个或更多个单独的子序列中。典型地，隔开的子序列的长度可典型地为约4至约16个核苷酸。

共分配的寡核苷酸还典型地包含适用于处理来自共分配的细胞的核酸的其他功能序列。这些序列包括例如靶向型或随机/通用型扩增引物序列，其用于扩增来自分区内的单个细胞的基因组DNA，同时连接相关条形码序列、测序引物、杂交或探测序列，例如用于识别序列的存在或用于向下拉动条形码化核酸；或许多其他潜在功能序列中的任一种。再次，寡核苷酸和相关条形码以及其他功能序列连同样品材料的共分配描述于例如2014年2月7日提交的美国专利申请号61/940,318和2014年5月9日提交的美国专利申请号61/991,018以及2014年6月26日提交的美国专利申请号14/316,383中，这些专利申请先前以引用的方式并入本文中。

简要地说，在一种示例性方法中，提供珠粒，所述珠粒各自可包括大量上文所描述的可释放地连接至珠粒的寡核苷酸，其中连接至特定珠粒的所有寡核苷酸可包括相同的核酸条形码序列，但其中在所用的珠粒群体中可呈现大量多样的条形码序列。典型地，珠粒群体可提供多样的条形码序列文库，其可包括至少1000个不同的条形码序列、至少10,000个不同的条形码序列、至少100,000个不同的条形码序列或在一些情况下，至少1,000,000个不同的条形码序列。此外，各珠粒可典型地具备所连接的大量寡核苷酸分子。特定而言，单个珠粒上包括条形码序列的寡核苷酸分子的数目可为至少约10,000个寡核苷酸、至少100,000个寡核苷酸分子、至少1,000,000个寡核苷酸分子、至少100,000,000个寡核苷酸分子，且在一些情况下为至少十亿个寡核苷酸分子。

在对珠粒施加特定刺激后，寡核苷酸可从珠粒释放。在一些情况下，刺激可为光刺激，例如通过可释放寡核苷酸的光不稳定性键的裂解。在一些情况下，可使用热刺激，其中珠粒环境的温度升高可能会导致键的裂解或寡核苷酸从珠粒的其他释放。在一些情况下，可使用化学刺激，从而裂解寡核苷酸与珠粒的键，或以其他方式可使得寡核苷酸从珠粒释放。

根据本文所描述的方法和系统，可将包括连接的寡核苷酸的珠粒与单个样品共分配，使得单个分区内含有单一珠粒和单一样品。在一些情况下，在需要单珠粒分区的情况下，可控制流体的相对流速，使得所述分区平均每个分区含有少于一个珠粒，以确保被占用的那些分区主要是单一占用的。同样地，可能希望控制流速以使得更高百分比的分区被占用，从而例如仅允许较小百分比的未占用分区。在一些方面，控制流量和通道结构，以确保所需数目的单一占用分区、低于某一水平的未占用分区以及低于某一水平的多重占用分区。

如上文所提到，虽然单一珠粒占用可能为所需状态，但是应了解可能经常存在多重占用分区或未占用分区。图2中示意性说明了用于对样品和包含条形码寡核苷酸的珠粒进行共分配的微流体通道结构的实例。如图所示，以在通道接头212处流体连通的形式提供通道区段202、204、206、208以及210。使包含单个样品214的水性流通过通道区段202流至通道接头212。如本文别处所描述，可在分配过程之前将这些样品悬浮于水性流体内。

同时，使包含携带条形码的珠粒的水性流216通过通道区段204流至通道接头212。将非水性分配流体从侧通道206和208中的每一者引入通道接头212中，并且使组合流流至出口通道210中。在通道接头212内，将来自通道区段202和204两条组合水性流组合在一起，并且分配至微滴218中，所述微滴包括共分配的样品214和珠粒216。如前面提到的，通过控制在通道接头212处组合的各个流体的流动特征，以及控制通道接头的几何结构，可优化组合和分配以实现珠粒、样品或两者在所产生的分区218内的所需占用水平。

如应了解，可将许多其他试剂与样品和珠粒一起共分配，包括例如化学刺激物；核酸延伸、转录和/或扩增试剂，诸如聚合酶、逆转录酶、三磷酸核苷或NTP类似物、引物序列和其他辅因子(诸如用于此类反应中的二价金属离子)、连接反应试剂(诸如连接酶和连接序列)；染料、标签或其他标记试剂。

一旦共分配，即可使用设置于珠粒上的寡核苷酸来对所分配的样品进行条形码化和扩增。一种特别简捷的在对样品进行扩增和条形码化时使用这些条形码寡核苷酸的方法详细描述于2014年2月7日提交的美国专利申请号61/940,318和2014年5月9日提交的美国专利申请号61/991,018以及2014年6月26日提交的美国专利申请号14/316,383中，这些专利申请先前以引用的方式并入本文中。简要地说，在一个方面，存在于珠粒上的寡核苷酸与样品共分配并且与样品一起从其珠粒释放至分区中。寡核苷酸典型地(连同条形码序列一起)在其5’端包括引物序列。此引物序列可为意在随机引导样品的许多不同区域的随机寡核苷酸序列或其可为以引导样品的特定靶向区域的上游为目标的特定引物序列。

一旦被释放，寡核苷酸的引物部分即可与样品的互补区域退火。也与样品和珠粒共分配的延伸反应试剂(例如DNA聚合酶、三磷酸核苷、辅因子(例如，Mg²⁺或Mn²⁺等))然后使用样品作为模板来延伸引物序列，以产生与引物退火的模板链的互补片段，其中所述互补片段包括寡核苷酸和其相关条形码序列。多个引物与样品的不同部分的退火和延伸可产生样品的重叠互补片段的大型汇集物，所述重叠互补片段各自具有其自己的指示其在其中形成的分区的条形码序列。在一些情况下，这些互补片段本身可用作模板，所述模板由存在于分区中的寡核苷酸引导以产生互补序列的互补序列，其又包括条形码序列。在一些情况下，此复制过程被配置为使得当第一互补序列重复时，其产生位于或靠近其末端的两个互补序列，以允许形成发夹结构或部分发夹结构，从而降低所述分子成为产生其他重复拷贝的基础的能力。图3中示出了对此情况的一个实例的示意性说明。

如该图所示，将包括条形码序列的寡核苷酸与样品核酸304一起共分配于例如乳液中的微滴302中。如本文别处所提到，如图A中所示，寡核苷酸308可提供于与样品核酸304共分配的珠粒306上，所述寡核苷酸可从珠粒306释放。寡核苷酸308除一个或多个功能序列(例如序列310、314以及316)之外包括条形码序列312。举例来说，寡核苷酸308被示出为包含条形码序列312以及可充当给定测序系统的连接或固定序列的序列310，例如用于在Illumina Hiseq或Miseq系统的流动细胞中进行连接的P5序列。如图所示，寡核苷酸还包括引物序列316，其可包括用于引导样品核酸304的数个部分的复制的随机或靶向型N-mer。寡核苷酸308内还包括序列314，其可提供测序引导区，诸如“读段1”或R1引导区，所述引导区用于通过测序系统中的合成反应来引导聚合酶介导的模板定向测序。在一些情况下，条形码序列312、固定序列310以及R1序列314对于连接至给定珠粒的所有寡核苷酸来说可为共同的。引物序列316可能因随机N-mer引物而不同，或者在某些靶向应用中对于给定珠粒上的寡核苷酸来说可为共同的。

基于存在引物序列316，寡核苷酸能够如图B中所示引导样品核酸，这允许使用也与珠粒306和样品核酸304共分配的聚合酶和其他延伸试剂来延伸寡核苷酸308和308a。如图C中所示，在对于随机N-mer引物来说将与样品核酸304的多个不同区域退火的寡核苷酸延伸之后；形成核酸的多个重叠互补序列或片段，例如片段318和320。虽然包括与样品核酸的数个部分互补的序列部分，例如序列322和324，但是这些构建体在本文中通常被称为包含样品核酸304中具有连接的条形码序列的片段。

然后可例如通过序列分析对条形码化核酸片段进行表征，或其可以在如图D中所示的过程中将其进一步扩增。举例来说，也从珠粒306释放的其他寡核苷酸(例如寡核苷酸308b)可引导片段318和320。特定而言，再次，基于随机N-mer引物316b存在于寡核苷酸308b中(这在一些情况下可不同于给定分区中的其他随机N-mer，例如引物序列316)，寡核苷酸与片段318退火，并且延伸以形成片段318中包括序列328的至少一部分的互补序列326，其包含样品核酸序列的一部分的重复。寡核苷酸308b继续延伸直到它已通过片段318的寡核苷酸部分308复制。如本文别处所提到，并且如图D中所说明，寡核苷酸可被配置成提示通过聚合酶进行的复制在所需点停止，例如在通过寡核苷酸308的包括在片段318内的序列316和314复制之后停止。如本文所描述，这可通过不同方法来实现，包括例如并入不能由所用的聚合酶处理的不同核苷酸和/或核苷酸类似物。举例来说，这可包括在序列区域312内纳入含尿嘧啶的核苷酸来防止非尿嘧啶耐受型聚合酶使所述区域的复制停止。结果，形成片段326，其在一个末端包括全长寡核苷酸308b，包括条形码序列312、连接序列310、R1引物区314以及随机N-mer序列316b。在序列的另一个末端可包括第一寡核苷酸308的随机N-mer的互补序列316’，以及整个或一部分的R1序列的互补序列(以序列314’示出)。R1序列314和其互补序列314’然后能够杂交在一起以形成部分发夹结构328。如应了解，因为不同寡核苷酸之间的随机N-mer不同，这些序列和其互补序列预期不会参与发夹形成，例如序列316’(其为随机N-mer 316的互补序列)预期不会与随机N-mer序列316b互补。对于其他应用来说不会是这种情况，例如靶向型引物，其中在给定分区内寡核苷酸之间的N-mer将为共同的。

通过形成这些部分发夹结构，允许从进一步的复制中去除样品序列的第一级重复，从而例如防止拷贝的重复拷贝。部分发夹结构还提供所形成的片段(例如片段326)的后续处理的有用结构。

可然后如本文所描述从多个不同分区汇集所有片段以便在高通量测序仪上进行测序。因为各片段是关于其起源分区而被编码，所以基于所述条形码的存在可将所述片段的序列归属回到其起源。图4中对这进行了示意性说明。如一个实例中所示，将源于第一来源400(例如，正常细胞)的核酸404和来源于不同的来源402(例如，肿瘤细胞)的核酸406各自如上文所描述与其自己的条形码寡核苷酸集合一起分配。在一些情况下，正常细胞、肿瘤细胞或两者从选自活样品、非保守样品、保存样品、防腐样品、包埋样品、固定样品或其任何组合的包含细胞的组织或流体(即从“样品”)获得。在一些实例中，组织或细胞被包埋并且保存、经防腐处理或固定。在一些情况下，样品被包埋并且固定。在一些实例中，正常细胞、肿瘤细胞或两者经甲醛(例如福尔马林(formalin))固定并且经石蜡包埋(FFPE)。

在各分区内，各核酸404和406然后被处理，以单独地提供第一片段的重叠的第二片段集合，例如第二片段集合408和410。此处理还提供第二片段，其中来源于特定第一片段的第二片段中的每一者的条形码序列是相同的。如图所示，第二片段集合408的条形码序列由“1”表示，而片段集合410的条形码序列由“2”表示。可使用多样的条形码文库来区别地条形码化大量不同片段集合。然而，没有必要用不同的条形码序列来条形码化来自不同第一片段的每一个第二片段集合。在一些情况下，可同时处理多个不同的第一片段以包括相同的条形码序列。本文在别处详细描述了多样的条形码文库。

然后可汇集例如来自片段集合408和410的条形码化片段，以便使用例如通过可从Thermo Fisher,Inc.的Illumina或Ion Torrent分公司获得的合成技术获得的序列进行测序。一旦经过测序，即可将序列读段412至少部分基于所包括的条形码并且在一些情况下部分基于其片段的序列而归属于其各自的片段集合，例如如聚集读段414和416中所示。然后组装被归属于各片段集合的序列读段以提供各样品片段的组装序列，例如序列418和420，所述组装序列又可被归属回到其各自的起源，例如正常细胞400和肿瘤细胞402。基因组组装的方法描述于例如2014年6月26日提交的美国临时专利申请号62/017,589中，该临时专利申请的全部公开内容以全文引用的方式并入本文中。在一些情况下，正常细胞、肿瘤细胞或两者从选自活样品、非保守样品、保存样品、防腐样品、包埋样品、固定样品或其任何组合的组织或细胞样品(即样品)获得。在一些实例中，组织或细胞被包埋并且保存、经防腐处理或固定。在一些情况下，组织或细胞被包埋并且固定。在一些实例中，正常细胞、肿瘤细胞或两者是经甲醛(例如福尔马林)固定并且经石蜡包埋(FFPE)的组织。

包埋是其中组织或细胞与随后可被硬化的液体包埋材料(例如凝胶、树脂、蜡或其任何组合)一起被放置于模具中的过程。可通过冷却工艺来实现包埋(例如当使用至少一种石蜡作为包埋介质时)。可通过加热(例如固化)工艺来实现包埋(例如当使用至少一种环氧树脂作为包埋介质时)。包埋可使用丙烯酸树脂，所述丙烯酸树脂可通过使用热、紫外线或化学催化剂来聚合。可通过使用水性介质中的冷冻组织来完成包埋。可将预冷冻组织与可然后被冷冻以形成硬化块的液体包埋材料(例如基于水的乙二醇、晶胶(cryogel)或树脂)一起放置于模具中。在一些情况下，包埋过程使用树脂。在一些情况下，包埋过程使用蜡。蜡可为动物蜡、植物蜡、石油蜡、合成蜡或其任何组合。动物蜡可为牛脂、蜂蜡、鲸蜡或羊毛脂。植物蜡可为表皮蜡、角质层蜡或其任何组合。植物蜡可为巴西棕榈蜡、小烛树蜡、小冠椰子蜡、大豆蜡或其组合。蜡可为石油衍生的蜡，诸如石蜡。石蜡可包含碳链长度为至少10、15、20、25、30、35、40、45或50个碳原子并且至多15、20、25、30、35、40、45、50或55个碳原子的正烷烃或上述正烷烃的任何组合。在一些实例中，树脂为凝固成硬漆或类瓷面的液体的任何组分。树脂可包括天然树脂，例如琥珀、贝壳杉树胶、松香、柯巴脂(copal)、达玛脂(dammar)、乳香脂(mastic)、山达脂(sandarac)、乳香、榄香脂、松节油、柯拜巴脂(copaiba)、氨树胶、阿魏树脂(asafoetida)、藤黄、没药或斯甘摩尼脂(scammony)。树脂可来源于木质来源(例如树，诸如松树)。树脂可为合成树脂，诸如指甲油、环氧树脂、热固性塑料或其任何组合。凝胶可为任何稀交联分子阵列，其在处于稳态中时不展现流动。凝胶可为水凝胶、干凝胶或水凝胶。凝胶可为天然产生的、合成的或其任何组合。凝胶可包含琼脂糖、甲基纤维素、透明质酸、角叉菜胶(caragreenan)、明胶或其任何组合。

固定是防止生物组织或细胞腐朽，从而防止自身溶解或腐败的过程。在一些实例中，固定组织或固定细胞为防止发生腐朽的组织或细胞。腐朽可涉及分解(即腐烂)，其为使得有机物质被分解成更简单的形式的物质的过程。防止发生腐朽可防止自身溶解、腐败或两者。固定组织可保留其细胞、其组织组分或两者。可通过交联固定剂通过在所要固定的组织或细胞中的蛋白质之间形成共价键来完成组织固定。固定可将可溶性蛋白锚定至细胞的细胞骨架。固定可形成刚性细胞、刚性组织或两者。可通过使用诸如甲醛(例如福尔马林)、戊二醛(gluteraldehyde)、乙醇、甲醇、乙酸、四氧化锇、重铬酸钾、铬酸、高锰酸钾、岑克尔氏固定剂(Zenker’s fixative)、苦味酸盐、赫佩斯谷氨酸缓冲液介导的具有保护作用的有机溶剂(Hepes-glutamic acid buffer-mediated organic solvent protection effect，HOPE)或其任何组合的化学品来实现固定。可使用呈按重量计约37％甲醛气体于水溶液中的混合物形式的甲醛。甲醛水溶液可另外包含约10-15％的醇(例如甲醇)，从而形成称为“福尔马林”的溶液。固定剂加强(10％)溶液将等同于甲醛气体于水中的3.7％溶液。可使用呈至少5％、8％、10％、12％或15％中性缓冲福尔马林(NBF)溶液(即固定剂加强物)形式的甲醛。可使用呈磷酸盐缓冲盐水中的3.7％至4.0％甲醛(即福尔马林)形式的甲醛。在一些情况下，使用至少2.0、2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5、8.0、8.5、9.0、9.5、10、10.5、11.0、11.5、12.0、12.5、13.0、13.5、14.0、14.5或15.0百分比(％)或更多的福尔马林冲洗或浸没来进行固定。在一些情况下，使用约10％福尔马林冲洗来进行固定。以每体积的重量计固定剂体积可为组织的10、15、20、25或30倍。在固定于甲醛中之后，可使组织或细胞浸没于醇中以便长期储存。在一些情况下，醇为甲醇、乙醇、丙醇、丁醇、含有五个或更多个碳原子的醇或其任何组合。醇可为线性或分枝的。醇可为至少50％、60％、70％、80％或90％醇水溶液。在一些实例中，醇为70％乙醇水溶液。

防腐处理防止组织或细胞自然分解。防腐样品可为经消毒样品、可呈现的样品(presentable sample)或保存样品。可呈现的样品为保留呈其先前体内状态的外观的体外样品。在一些实施方案中，经过防腐处理的组织或经过防腐处理的细胞为浸没于防腐流体中的组织或防腐流体所注入的组织。防腐流体可至少暂时延缓分解并且恢复自然的外观。防腐流体包含防腐剂、消毒剂、杀菌剂或其任何组合。防腐流体可包含甲醛、戊二醛、醇、保湿剂或其组合。防腐流体中的甲醛含量可在5百分比(％)至35％的范围内；防腐流体中的醇含量可在9百分比(％)至56％的范围内。醇可为上述醇中的任一种或其任何组合。在一些实例中，醇为乙醇。

保存样品为与天然样品(即未添加防腐剂)相比分解被延迟的样品。分解可作为微生物生长、不希望的化学变化或二者的结果而发生。保存组织或细胞可为与硝酸盐、氨、苯甲酸、苯甲酸钠、羟苯甲酸盐、乳酸、丙酸、二氧化硫、亚硫酸盐、山梨酸、抗坏血酸、丁基化羟基甲苯、丁基化羟基苯甲醚、没食子酸、生育酚、EDTA二钠、柠檬酸、酒石酸、卵磷脂、酚酶、蓖麻油、醇、啤酒花、迷迭香、硅藻土或其任何组合接触的组织或细胞。

在一些实例中，样品可经包埋并且防腐处理、保存或固定。举例来说，样品可被固定并且包埋。可使用所描述的上述固定材料或方法中的任一种来实现固定。可使用所描述的上述包埋材料或方法中的任一种来实现包埋。举例来说，样品可经甲醛固定并且经石蜡包埋。在一些情况下，用于石蜡包埋组织的固定剂使用中性缓冲福尔马林(NBF)。NBF可等效于缓冲溶液中的4％多聚甲醛。在一些情况下，NBF进一步包括防腐剂(例如醇)。醇可为上述醇中的任一种。固定可能需要至少12、25、36、48或60小时。固定可能需要至多25、36、48、60或72小时。固定可在室温下进行。石蜡包埋可包括组织脱水。可通过一系列梯度醇浴来置换水，随后用蜡渗透来实现组织脱水。然后可将渗透过的组织包埋至蜡中。醇可为乙醇。蜡可为上述蜡中的任一种。在一些情况下，蜡为石蜡。石蜡在室温下可为固体，其具有至少约45、50、55、60、65、70、75或80摄氏度(℃)的熔点。石蜡在室温下可为固体，其具有至多约45、50、55、60、65、70、75或80摄氏度(℃)的熔点。在一些情况下，石蜡具有至少56℃至至多58℃的熔点。经福尔马林-固定、石蜡-包埋(FFPE)的组织可储存至少5、10、15、50、75、100、150、200、250、500、1000年或更长的延长的时间。储存延长的时间可以是在室温下进行。经福尔马林-固定、石蜡-包埋(FFPE)的组织在室温下可无限期储存。在一些情况下，可在固定之后从FFPE组织回收核酸(例如，DNA、RNA或两者)。

III.样品

a.样品类型

可在可引入微流体装置中并且分配至离散区室中的任何适合的样品的情况下使用本公开的方法和系统。示例性样品可包括多核苷酸、核酸、寡核苷酸、循环无细胞核酸、循环肿瘤核酸(例如循环肿瘤DNA)、循环肿瘤细胞(CTC)核酸、核酸片段、核苷酸、DNA、RNA、肽多核苷酸、互补DNA(cDNA)、双链DNA(dsDNA)、单链DNA(ssDNA)、质粒DNA、粘粒DNA、染色体DNA、基因组DNA(gDNA)、病毒DNA、细菌DNA、线粒体DNA(mtDNA)、无细胞DNA、无细胞胎儿DNA(cffDNA)、核糖体DNA(rDNA)、信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、nRNA、siRNA、snRNA、snoRNA、scaRNA、微RNA、单链RNA(ssRNA)、dsRNA、病毒RNA、cRNA等。在一些情况下，样品可含有蛋白质或多肽。

样品可包含任何核苷酸的任何组合。核苷酸可为天然存在的或合成的。在一些情况下，核苷酸可被氧化或甲基化。核苷酸可包括但不限于单磷酸腺苷(AMP)、二磷酸腺苷(ADP)、三磷酸腺苷(ATP)、单磷酸鸟苷(GMP)、二磷酸鸟苷(GDP)、三磷酸鸟苷(GTP)、单磷酸胸苷(TMP)、二磷酸胸苷(TDP)、三磷酸胸苷(TTP)、单磷酸尿苷(UMP)、二磷酸尿苷(UDP)、三磷酸尿苷(UTP)、单磷酸胞苷(CMP)、二磷酸胞苷(CDP)、三磷酸胞苷(CTP)、单磷酸5-甲基胞苷、二磷酸5-甲基胞苷、三磷酸5-甲基胞苷、单磷酸5-羟甲基胞苷、二磷酸5-羟甲基胞苷、三磷酸5-羟甲基胞苷、环单磷酸腺苷(cAMP)、环单磷酸鸟苷(cGMP)、单磷酸脱氧腺苷(dAMP)、二磷酸脱氧腺苷(dADP)、三磷酸脱氧腺苷(dATP)、单磷酸脱氧鸟苷(dGMP)、二磷酸脱氧鸟苷(dGDP)、三磷酸脱氧鸟苷(dGTP)、单磷酸脱氧胸苷(dTMP)、二磷酸脱氧胸苷(dTDP)、三磷酸脱氧胸苷(dTTP)、单磷酸脱氧尿苷(dUMP)、二磷酸脱氧尿苷(dUDP)、三磷酸脱氧尿苷(dUTP)、单磷酸脱氧胞苷(dCMP)、二磷酸脱氧胞苷(dCDP)和三磷酸脱氧胞苷(dCTP)、单磷酸5-甲基-2'-脱氧胞苷、二磷酸5-甲基-2'-脱氧胞苷、三磷酸5-甲基-2'-脱氧胞苷、单磷酸5-羟甲基-2'-脱氧胞苷、二磷酸5-羟甲基-2'-脱氧胞苷以及三磷酸5-羟甲基-2'-脱氧胞苷。

样品可为任何合成核酸，诸如肽核酸(PNA)、模拟核酸、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)或具有核苷酸侧链的其他合成聚合物。

样品可具有不同的纯度。在一些情况下，样品可为DNA样品，其中超过5％、10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.1％、99.2％、99.5％或99.9％的样品由DNA构成。在一些情况下，样品可为DNA样品，其中小于0.1％、0.2％、0.3％、0.5％、1％、2％、3％、4％、5％、10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.1％、99.2％、99.5％或99.9％的样品由DNA构成。在一些情况下，样品可为RNA样品，其中超过5％、10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.1％、99.2％、99.5％或99.9％的样品由RNA构成。在一些情况下，样品可为RNA样品，其中小于0.1％、0.2％、0.3％、0.5％、1％、2％、3％、4％、5％、10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.1％、99.2％、99.5％或99.9％的样品由RNA构成。在一些情况下，样品为100％DNA；在一些情况下，样品为100％RNA。

样品可含有不同物质的混合物。在一些情况下，样品含有DNA、RNA、蛋白质以及脂质或其任何组合或其任何相对比率的混合物。举例来说，样品可按以下比率含有DNA、RNA以及蛋白质：1:1:50。在另一实例中，样品可含有不同类型的DNA的混合物(例如，合成和天然存在的DNA的混合物；母体和胎儿DNA的混合物；等)。在另一实例中，样品可含有不同类型的RNA的混合物(例如，含有mRNA、tRNA以及/或者rRNA的混合物)。样品还可存在于被设置于分区内的细胞内，例如如先前以引用的方式并入本文中的于2014年6月26日提交的美国专利申请号62/017,558中所描述。

b.样品的来源

包含核酸的任何物质均可为样品的来源。物质可为流体，例如生物流体。流体物质可包括但不限于血液、脐带血、唾液、尿液、汗液、血清、精液、阴道流体、胃部和消化流体、脊髓流体、胎盘流体、空腔流体、眼部流体、血清、乳房乳汁、淋巴流体或其组合。

物质可来自实体组织，例如生物组织或细胞集合或活检。物质可包含正常的健康组织。组织可与各种类型的器官相关。器官的非限制性实例可包括脑、肝、肺、肾、前列腺、卵巢、脾、淋巴结(包括扁桃体)、甲状腺、胰腺、心脏、骨骼肌、肠、喉、食管、胃或其组合。

物质可包含肿瘤。肿瘤可为良性的(非癌症)或恶性的(癌症)。肿瘤的非限制性实例可包括：纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、骨原性肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因氏肿瘤(Ewing's tumor)，平滑肌肉瘤、横纹肌肉瘤、胃肠系统癌瘤、结肠癌瘤、胰腺癌、乳房癌、泌尿生殖系统癌瘤、卵巢癌、前列腺癌、鳞状细胞癌瘤、基底细胞癌瘤、腺癌瘤、汗腺癌瘤、皮脂腺癌瘤、乳头状癌瘤、乳头状腺癌瘤、囊腺癌瘤、髓样癌瘤、支气管癌瘤、肾细胞癌瘤、肝细胞瘤、胆管癌瘤、绒毛膜癌瘤、精原细胞瘤、胚胎性癌瘤、维尔姆斯氏肿瘤(Wilms'tumor)、子宫颈癌、内分泌系统癌瘤、睾丸肿瘤、肺癌瘤、小细胞肺癌瘤、非小细胞肺癌瘤、膀胱癌瘤、上皮癌瘤、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、黑素瘤、成神经细胞瘤、成视网膜细胞瘤或其组合。肿瘤可与各种类型的器官相关。器官的非限制性实例可包括脑、肝、肺、肾、前列腺、卵巢、脾、淋巴结(包括扁桃体)、甲状腺、胰腺、心脏、骨骼肌、肠、喉、食管、胃或其组合。

物质可包含正常健康组织或肿瘤组织的混合物。组织可与各种类型的器官相关。器官的非限制性实例可包括脑、肝、肺、肾、前列腺、卵巢、脾、淋巴结(包括扁桃体)、甲状腺、胰腺、心脏、骨骼肌、肠、喉、食管、胃或其组合。

在一些情况下，物质包含多种细胞，包括但不限于：真核细胞、原核细胞、真菌细胞、心脏细胞、肺细胞、肾细胞、肝细胞、胰腺细胞、生殖细胞、干细胞、诱导多能干细胞、胃肠道细胞、血细胞、癌细胞、细菌细胞、从人微生物组样品分离的细菌细胞等。在一些情况下，物质可包含细胞的内容物，诸如单一细胞的内容物或多个细胞的内容物。

在一些情况下，细胞为正常细胞、肿瘤细胞或两者且从选自活样品、非保守样品、保存样品、防腐样品、包埋样品、包埋样品、固定样品或其任何组合的组织样品或细胞样品(即样品)获得。在一些实例中，组织样品或细胞样品被包埋并且保存、经防腐处理或固定。在一些情况下，组织样品或细胞样品被包埋并且固定。在一些实例中，组织样品、细胞样品或两者经甲醛(例如福尔马林)固定并且石蜡包埋(FFPE)。

可从各种受试者获得样品。受试者可为活受试者或死受试者。在一些情况下，受试者为哺乳动物受试者，诸如人受试者。受试者的实例可包括但不限于人、哺乳动物、非人哺乳动物、啮齿动物、两栖动物、爬行动物、犬、猫科动物、牛、马、山羊、绵羊、母鸡、禽类(avine)、小鼠、兔、昆虫、蛞蝓(slug)、微生物、细菌、寄生虫或鱼。在一些情况下，受试者为健康的，诸如健康男性、女性、儿童或婴儿。在一些情况下，受试者可为患有疾病或病症、被怀疑患有疾病或病症或处于发展疾病或病症的风险之中的患者。在一些情况下，受试者可为孕妇。在一些情况下，受试者可为正常的健康孕妇。在一些情况下，受试者可为处于怀有具有某些先天缺陷的胎儿的风险之中的孕妇。

可通过各种方法从受试者获得样品。举例来说，可通过以下方式从受试者获得样品：到达循环系统(例如，经由注射器或其他设备静脉内或动脉内地)；收集分泌的生物样品(例如唾液、痰尿液、粪便等)；通过手术(例如，活检)获得生物样品(例如，手术中样品、手术后样品等)；擦拭(例如颊拭子、口咽拭子)，或移液；或通过用于从受试者获得组织流体或其他样品的任何其他手段。

IV.输入样品的量

a.样品的总输入

可用于本文所提供的方法中的总输入样品(例如DNA、RNA等)的量可变化。本文所提供的方法和系统在输入样品的量低时特别适用；但它们还可用于高输入样品量。在一些情况下，输入样品的量可为约1fg、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1pg、5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg或20μg。在一些情况下，输入样品的量可为至少约1fg、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1pg、5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg、20μg或更多。在一些情况下，输入样品的量可不超过或可小于约20μg、15μg、10μg、9μg、8μg、7μg、6μg、5μg、4μg、3μg、2μg、1μg、900ng、800ng、700ng、600ng、500ng、400ng、300ng、200ng、100ng、90ng、80ng、75ng、70ng、65ng、60ng、59ng、58ng、57ng、56ng、55ng、54ng、53ng、52ng、51ng、50ng、49ng、48ng、47ng、46ng、45ng、44ng、43ng、42ng、41ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、2.5ng、1ng、900pg、800pg、700pg、600pg、500pg、400pg、300pg、200pg、100pg、50pg、25pg、10pg、5pg、1pg、900fg、800fg、700fg、600fg、500fg、400fg、300fg、200fg、100fg、50fg、25fg、10fg、5fg、1fg或更少。在一些情况下，输入样品的量可在本文所描述的值中的任何两者之间的范围内。

在一些情况下，可使用约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量的核酸作为输入样品。在一些情况下，可使用少于约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量的核酸。在一些情况下，可使用超过约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量的核酸。在一些情况下，所用核酸的基因组当量的数目可在本文所描述的值中的任何两者之间的范围内。

在一些情况下，输入样品可构成潜在较大基因组分(例如基因组)的约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，输入样品可构成潜在较大基因组分的小于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，输入样品可构成潜在较大基因组分的大于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，输入样品可以在本文所描述的值中的任何两者之间的范围覆盖潜在较大基因组分。

b.样品内的靶组分的输入量

在一些实例中，输入样品可包含各种类型的组分(例如核酸)或源自不同来源的组分。某一样品内的靶组分或所关注的组分(例如与疾病或病症相关的组分)可占总输入的某一百分比。举例来说，样品可主要包含正常组织DNA(例如，95％或更多、99％或更多)和极少(例如，5％或更少、1％或更少)的肿瘤或癌细胞DNA，并且后者为所关注的。本文所提供的方法和系统在靶组分(例如，核酸)在全部样品中仅占较小比例时特别适用。举例来说，所述方法和系统特别适合用于检测罕见核酸群体(例如，源自肿瘤的无细胞核酸、无细胞胎儿核酸、无细胞胎儿核酸、无细胞核酸等)或来源于罕见细胞群体的核酸。在一些情况下，靶组分可在总输入中占较高百分比。在一些情况下，靶组分可在总输入中占较低百分比。在一些情况下，靶组分可占总输入的约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.9％。在一些情况下，靶组分可占总输入的至少约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.9％。在一些情况下，靶组分可占总输入的小于约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.9％。在一些情况下，靶组分可占在本文所描述的值中的任何两者范围内的百分比。

在一些实施方案中，样品可包含从体液(特别是血液或尿液)获得的核酸。样品可包含循环无细胞核酸和/或与循环肿瘤细胞相关的核酸。可从选自活组织、非保守组织、保存组织、防腐组织、包埋组织、固定组织或其任何组合的组织获得细胞。在一些实例中，细胞经包埋并且保存、经防腐处理或固定。在一些情况下，细胞经包埋并且固定。在一些实例中，细胞经甲醛(例如福尔马林)固定并且经石蜡包埋(FFPE)。

在一些情况下，所关注的靶群体(例如，无细胞核酸、胎儿核酸、与循环肿瘤细胞相关的核酸等)可占总样品输入的小于0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％。在一些实施方案中，输入样品为细胞样品(例如血液样品)，其中样品内的细胞总数中小于0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％或20％由癌细胞(例如循环肿瘤细胞)构成。用于分析细胞样品的方法和系统描述于2014年6月26日提交的美国临时专利申请号62/017,558中，该临时专利申请的全部公开内容出于所有目的以引用的方式并入本文中。

输入靶组分的量可变化。在一些情况下，可输入约1fg、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1pg、5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg或20μg的靶组分。在一些情况下，可输入至少约1fg、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1pg、5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg、20μg或更多的靶组分。在一些情况下，可输入不超过或小于约20μg、15μg、10μg、9μg、8μg、7μg、6μg、5μg、4μg、3μg、2μg、1μg、900ng、800ng、700ng、600ng、500ng、400ng、300ng、200ng、100ng、90ng、80ng、75ng、70ng、65ng、60ng、59ng、58ng、57ng、56ng、55ng、54ng、53ng、52ng、51ng、50ng、49ng、48ng、47ng、46ng、45ng、44ng、43ng、42ng、41ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、2.5ng、1ng、900pg、800pg、700pg、600pg、500pg、400pg、300pg、200pg、100pg、50pg、25pg、10pg、5pg、1pg、900fg、800fg、700fg、600fg、500fg、400fg、300fg、200fg、100fg、50fg、25fg、10fg、5fg、1fg或更少的靶组分。在一些情况下，所输入的靶组分的量可在本文所描述的任何两个值之间的范围内。

在一些情况下，靶组分的输入量可为约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶组分的输入量可少于约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶组分的输入量可超过约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶组分中所含的核酸的基因组当量数可在本文所描述的值中的任何两者之间的范围内。

在一些情况下，所输入的靶组分可构成潜在较大基因组分(例如基因组)的约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所输入的靶组分可构成潜在较大基因组分的小于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所输入的靶组分可构成潜在较大基因组分的大于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所输入的靶组分可以在本文所描述的值中的任何两者之间的范围覆盖潜在较大基因组分。

c.样品混合物内的靶样品的输入量

在一些实例中，所输入的样品可为源自不同受试者或来源的样品的混合物，其中靶样品可在总输入中占某一百分比。举例来说，用于法医分析的生物样品可包含来自不同受试者(例如，受害人、行凶者、证人、犯罪实验室分析员等)的核酸，而混合物中仅一部分为靶标。在一些情况下，靶样品可在总输入中占较高百分比。在一些情况下，靶样品可在总输入中占较低百分比。在一些情况下，靶样品可构成总输入的约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、99％或99.99％。在一些情况下，靶样品可构成总输入的至少约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、99％或99.99％。在一些情况下，靶样品可构成总输入的不超过或小于约0.000001％、0.000005％、0.0000075％、0.00001％、0.00005％、0.000075％、0.0001％、0.0005％、0.00075％、0.001％、0.005％、0.0075％、0.01％、0.05％、0.075％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、99％或99.99％。在一些情况下，靶样品可构成在本文所描述的任何两个值之间的范围内的百分比。

所包括的靶样品的量可变化。在一些情况下，可包括较高量的靶样品。在一些情况下，可包括较低量的靶样品。在一些情况下，可包括约1飞克(fg)、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1微微克(pg),5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1微克(μg)、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg或20μg的靶样品。在一些情况下，可包括至少约1fg、5fg、10fg、25fg、50fg、100fg、200fg、300fg、400fg、500fg、600fg、700fg、800fg、900fg、1pg、5pg、10pg、25pg、50pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、2.5ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、41ng、42ng、43ng、44ng、45ng、46ng、47ng、48ng、49ng、50ng、51ng、52ng、53ng、54ng、55ng、56ng、57ng、58ng、59ng、60ng、65ng、70ng、75ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、15μg、20μg或更多的靶样品。在一些情况下，可包括不超过或小于约20μg、15μg、10μg、9μg、8μg、7μg、6μg、5μg、4μg、3μg、2μg、1μg、900ng、800ng、700ng、600ng、500ng、400ng、300ng、200ng、100ng、90ng、80ng、75ng、70ng、65ng、60ng、59ng、58ng、57ng、56ng、55ng、54ng、53ng、52ng、51ng、50ng、49ng、48ng、47ng、46ng、45ng、44ng、43ng、42ng、41ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、2.5ng、1ng、900pg、800pg、700pg、600pg、500pg、400pg、300pg、200pg、100pg、50pg、25pg、10pg、5pg、1pg、900fg、800fg、700fg、600fg、500fg、400fg、300fg、200fg、100fg、50fg、25fg、10fg、5fg、1fg或更少的靶样品。在一些情况下，靶样品的量可在本文所描述的值中的任何两者之间的范围内。

在一些情况下，靶样品的输入量可为约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶样品的输入量可少于约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶样品的输入量可超过约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、15000、20000、25000、30000、35000、40000、45000或50000个基因组当量。在一些情况下，靶样品的输入量可在本文所描述的数字中的任何两者之间。

在一些情况下，所包括的靶样品可构成潜在较大基因组分(例如基因组)的约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所包括的靶样品可构成潜在较大基因组分的小于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所包括的靶样品可构成潜在较大基因组分的大于约1X、2X、5X、10X、15X、20X、30X、40X或50X的覆盖。在一些情况下，所包括的靶样品可以在本文所描述的值中的任何两者之间的范围覆盖潜在较大基因组分。

d.分区中的样品

可对样品进行分配以向分区中提供所需水平的样品核酸从而实现分析目标。举例来说，可能需要对样品核酸进行分配以便将单一分区内存在来自样品的任何重复核酸部分(例如，靶核酸)的机率降至最低。这通常可通过以下方式实现：以足够低的浓度在正在分配的水性流内提供样品核酸或进行有限稀释，使得仅某一量的核酸被分配在任何单一分区内。典型地，可对样品核酸进行处理以提供样品核酸片段，其包括长度为约10千碱基(kb)至约100kb或长度为约10kb至约30kb的片段。在此类情况下，通常可能需要确保分区内的核酸包含约100至约500个片段。在其他应用中，可能需要在分区内提供广泛变化的量的核酸，包括低至分区内的单一核酸片段，一直高达在单一分区内提供整个基因组或细胞的全部内容物。

在本文所描述的系统和方法的一些方面的背景下，在一些情况下，可能需要控制与样品核酸共分配的珠粒的数目。在一些情况下，可能需要提供其中仅设置有单一珠粒(即被“单一占用”)的分区。如上文所提到，这通常是通过控制汇聚于微滴产生接头内的多种流体的流速中的一者或多者、控制所述接头的尺寸和结构以及控制其中产生微滴的系统或装置内的全部通道的几何结构来实现。

在某些实例中，可对珠粒进行分配使得某一百分比的分区含有不超过一个珠粒。在一些情况下，约1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个珠粒。在一些情况下，至少约1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个珠粒。在一些情况下，不超过1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个珠粒。在一些情况下，含有不超过一个珠粒的分区的百分比可在本文所描述的值中的任何两者之间的范围内。

在某些实例中，样品为包含靶核酸(或靶核酸群体)的核酸样品并且可被分配以使得某一百分比的分区含有不超过一个靶核酸、不超过两个靶核酸、不超过三个靶核酸、不超过四个靶核酸或不超过五个靶核酸。在一些情况下，约1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个靶核酸。在一些情况下，至少约1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个靶核酸。在一些情况下，不超过1％、2.5％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的分区可含有不超过一个靶核酸。在一些情况下，含有不超过一个靶核酸的分区的百分比可在本文所描述的值中的任何两者之间的范围内。在一些情况下，分区包含平均少于一个靶核酸、平均少于两个靶核酸、平均少于三个靶核酸、平均少于四个靶核酸或平均少于五个靶核酸。

另外或替代地，在一些情况下，可能需要避免形成过多数目的空分区，例如不包括珠粒的分区。如本公开在本文别处所描述，可控制被定向至分配区中的流体(例如样品流体、含珠粒流体以及/或者分配流体)的流动，使得所产生的分区中不超过90％、不超过80％、不超过70％、不超过65％、不超过60％、不超过55％、不超过50％、不超过45％、不超过40％、不超过35％、不超过30％、不超过25％、不超过20％、不超过15％、不超过10％、不超过5％、不超过2.5％或不超过1％未被占用，即其中未设置珠粒。在大多数情况下，可实现上文所提到的范围的未占用分区，同时仍提供上文所描述的单一占用率中的任一者。举例来说，在一些情况下，使用本公开的系统和方法形成了具有少于25％、少于20％、少于15％、少于10％并且在一些情况下少于5％的多重占用率的所得分区，同时具有少于50％、少于40％、少于30％、少于20％、少于10％并且在一些情况下少于5％的未占用分区。

虽然上文就提供大体上单一占用的分区进行了描述，但在某些情况下，可能需要提供例如在单一分区内含有两个、三个、四个或更多个珠粒的多重占用分区。同样地，还可根据需要调节分区内的样品量以实现不同的目标。因此，如上文所提到，可控制含有样品和/或珠粒的流体和分配流体的流动特征以提供此类多重占用分区或此类分区内的不同样品浓度或量。特定而言，可控制流动参数以提供大于分区的50％、大于75％并且在一些情况下大于80％、90％、95％或更高的占用率。

可使用许多方法来产生如本文所描述的分区，包括批量分配法(例如批量乳液形成系统)、大规模微滴形成系统(例如如由Nanomi,Inc.所提供)或微流体分配系统。在一些方面，本文所用的分配系统包括2014年4月10日提交的美国临时专利申请号61/977,804中所描述的那些，该临时专利申请的全部公开内容以全文引用的方式并入本文中。

V.将样品引入装置

在本公开各个方面的任一者中，可将从受试者获得的样品引入装置或系统中，在所述装置或系统中样品可进一步与其他试剂(例如功能珠粒、条形码化珠粒、为样品扩增所必需的试剂、还原剂、引物、功能序列等)组合或混合。装置或系统可包括微流体装置，所述微流体装置包括整合于统一主体结构内的微型通道网络，或其可包含提供用于处理样品的流体的组分聚集物。如本文所描述，使用术语装置来描述具有本文所描述的流体功能的任何配置，包括前述内容。装置可能包括或可能不包括样品加载通道。在一些情况下，装置可包括多个样品加载通道。装置可能包括或可能不包括样品接收容器。在一些情况下，装置可包括一个或多个样品接收容器。样品接收容器可与装置永久地关联。样品接收容器可附接至装置。样品接收容器可为可与装置分离的。样品接收容器可具有不同的形状、尺寸、重量、材料以及配置。举例来说，样品接收容器可为规则形状或不规则形状的，可为圆形或椭圆管形的，可为矩形、正方形、菱形、圆形、椭圆形或三角形。样品接收容器可由任何类型的材料制成，诸如玻璃、塑料、聚合物、金属等。样品接收容器的类型的非限制性实例可包括管、孔、毛细管、盒、比色皿、离心管或移液器尖端。在一些情况下，装置可包括多个相同的样品接收容器。在一些情况下，装置可包括多个不同的样品接收容器，其可在包括以下的因素中的至少一个方面有所不同：尺寸、形状、重量、材料以及配置。在一些情况下，装置可与一个或多个其他装置(例如热循环仪、测序仪等)连通。在一些情况下，装置可为另一装置的一部分。

在一些情况下，可通过使用某些工具将样品直接引入或加载到装置中。工具的非限制性实例包括移液器、自动移液器、电子移液器、数字读数移液器、数字调节移液器、正移位移液器、重复式移液器、微型分配器移液器、瓶口分配器、手动注射器、自动进样注射器、分析电子注射器、汉密尔顿注射器(Hamilton syringe)或其组合。在一些情况下，可在样品加载之前将样品溶解于物质中、悬浮于物质中或与物质混合。物质可为液体或气体。物质可与装置的一个或多个样品加载通道连通。在一些情况下，可通过辅助装置(例如注射泵或样品分配器)将样品引入装置。

可以受控的方式将样品加载至装置。在一些情况下，可控制所加载样品的量。在一些情况下，可控制所加载样品的体积。在一些情况下，可经由调节样品加载速率来控制所加载样品的量。在一些情况下，可经由调节样品加载速率来控制所加载样品的体积。

可将一种或多种类型的样品引入装置中。在要加载超过一种类型的样品的情况下，可连续或同时加载所述超过一种类型的样品。在一些情况下，可经由同一加载通道来加载不同类型的样品。在一些情况下，可经由不同加载通道来加载不同类型的样品。在一些情况下，可将不同类型的样品加载至同一样品接收容器中。在一些情况下，可将不同类型的样品加载至其相应的样品接收容器中。在一些方面，单一装置或系统可包括多个平行通道或流体网络以处理多个不同样品，同时减少或消除潜在的交叉污染问题。

在加载至装置中之前可能或可能不对样品进行处理。在一些情况下，可在无任何进一步处理的情况下将样品引入装置中。在一些情况下，在引入装置中之前样品可经受一个或多个处理程序。举例来说，在使用核酸混合物作为样品的情况下，可对所述混合物进行处理，使得在引入装置中之前分离、提取或纯化混合物内的一种或多种组分。举例来说，在一些情况下，可从原始核酸样品中纯化外显子组。在另一实例中，在样品加载之前可将核酸的较长序列片段化为多个较小序列，可例如使用Blue Pippin片段选择系统对这些片段进行其他处理以富集所需尺寸或尺寸范围的片段，或可不进行此操作。在一些情况下，可在加载至装置中之前将所要加载的样品与其他试剂预混合。试剂的非限制性实例可包括功能珠粒、条形码、寡核苷酸、经修饰的核苷酸、天然核苷酸、DNA聚合酶、RNA聚合酶、逆转录酶、突变校正聚合酶、dTTP、dUTP、dCTP、dGTP、dATP、引物、样品索引序列、测序引物结合位点、测序仪引物结合位点、还原剂或其组合。

可使用如本文所描述能够接收样品并且将样品与某些试剂组合以用于其他处理步骤的任何装置。此类装置可为微流体装置(例如，微滴产生器)。此类微流体装置的实例包括2014年4月10日提交的美国临时专利申请号61/977,804中详细描述的那些，该临时专利申请的全部公开内容出于所有目的以全文引用的方式并入本文中。

VI.测试的性能

本文所描述的方法和系统在检测和分析具有低核酸输入量(例如小于50纳克(ng)、小于49ng、小于48ng、小于47ng、小于46ng、小于45ng、小于44ng、小于43ng、小于42ng、小于41ng、小于40ng、小于35ng、小于30ng、小于25ng、小于20ng、小于15ng、小于10ng、小于5ng、小于2.5ng、小于1ng、小于0.5ng、小于0.1ng、小于0.05ng、小于0.01ng、小于0.005ng、小于0.001ng等)的样品时可提供高准确度。此类准确度可为至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约95.5％、至少约96％、至少约96.5％、至少约97％、至少约97.5％、至少约98％、至少约98.5％、至少约99％、至少约99.5％、至少约99.9％、至少约99.99％、至少约99.999％或至少约99.9999％。

本文所描述的方法和系统在检测和分析具有低核酸输入量(例如小于50ng、小于49ng、小于48ng、小于47ng、小于46ng、小于45ng、小于44ng、小于43ng、小于42ng、小于41ng、小于40ng、小于35ng、小于30ng、小于25ng、小于20ng、小于15ng、小于10ng、小于5ng、小于2.5ng、小于1ng、小于0.5ng、小于0.1ng、小于0.05ng、小于0.01ng、小于0.005ng、小于0.001ng等)的样品时可提供高灵敏度。此类灵敏度可为至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约95.5％、至少约96％、至少约96.5％、至少约97％、至少约97.5％、至少约98％、至少约98.5％、至少约99％、至少约99.5％、至少约99.9％、至少约99.99％、至少约99.999％或至少约99.9999％。

本文所描述的方法和系统在检测和分析具有低核酸输入量(例如，小于50ng、小于49ng、小于48ng、小于47ng、小于46ng、小于45ng、小于44ng、小于43ng、小于42ng、小于41ng、小于40ng、小于35ng、小于30ng、小于25ng、小于20ng、小于15ng、小于10ng、小于5ng、小于2.5ng、小于1ng、小于0.5ng、小于0.1ng、小于0.05ng、小于0.01ng、小于0.005ng、小于0.001ng等)的样品时可提供高特异性。此类特异性可为至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约95.5％、至少约96％、至少约96.5％、至少约97％、至少约97.5％、至少约98％、至少约98.5％、至少约99％、至少约99.5％、至少约99.9％、至少约99.99％、至少约99.999％或至少约99.9999％。

VII.应用

a.诊断癌症和其他疾病

本文所描述的方法和系统可适用于诊断患有、怀疑患有或处于患有癌症或疾病的风险之中的受试者的癌症或疾病(例如，痴呆)。特定而言，这些方法、组合物以及系统适用于通过对癌细胞进行测序和表征来检测癌症。

如本文别处所描述，可从实体肿瘤获得或以循环肿瘤细胞的形式获得癌细胞(统称为“癌症样品”)。可从活癌症样品、非保守癌症样品、保存癌症样品、防腐癌症样品、包埋癌症样品、固定癌症样品或其任何组合获得实体肿瘤。癌症样品可经包埋并且保存、经防腐处理或固定。在一些情况下，癌症样品经包埋并且固定。在一些实例中，癌症样品经甲醛固定并且石蜡包埋(FFPE)。

循环肿瘤细胞(CTC)的分析被认为是癌症患者中的实时“液体活检’并且此活检可进一步允许对特定CTC亚群的表征，因此这在癌症诊断中大有前景。然而，检测CTC在技术上仍具有挑战性，因为CTC以极低浓度存在(数百万个正常细胞的背景下1个CTC)，其识别和表征需要极其灵敏且特异的分析方法。(Pantel K.等,Journal of Thoracic Disease,2012,4(5):446-447)，其全部公开内容以全文引用的方式并入本文中。

大多数核酸测序技术得出其所测序的DNA是来自从组织或其他样品获得的细胞集合。典型地对细胞进行全体处理以提取代表细胞群体的一般情况的基因材料，然后将所述基因材料处理成准备测序的DNA文库，所述DNA文库是针对给定测序技术进行配置。在此处理之后，在此类整体方法中，在不存在细胞特异性标记的情况下，事实上不可能将基因材料归因于是由样品中的细胞子集或所有细胞贡献。

除了不能将特征归属于细胞群体的特定子集，此类整体样品制备方法还从一开始就倾向于主要识别和表征细胞样品中的多数组分，并且未被设计成能够挑出少数组分，例如由样品中的一个细胞、数个细胞或全部细胞中的较小百分比所贡献的基因材料。

相比之下，本文所提供的方法和系统可将单个或较小数目的核酸(例如循环肿瘤相关DNA)分配或分派至单独的反应体积或分区(例如，微滴)中，其中可最初由可释放地连接至珠粒的寡核苷酸中所含的引物序列(例如，随机N-mer)扩增那些核酸或核酸组分。此外，在此最初扩增过程期间，可将独特的标识(例如，条形码序列)连接至那些单独分区中的样品核酸或核酸组分。

如本文别处所描述，在产生分区之后，通过调节样品流、珠粒流或两者的流速或通过改变通道接头的几何结构，可形成具有所需样品(或靶核酸)/珠粒占用率的分区。

不同样品或组分的单独分配扩增以及独特标识的施加允许在测序过程中保留各样品组分的贡献以及归属于其各自的起源(例如，正常细胞、肿瘤细胞、循环肿瘤细胞等)。在一些情况下，可再进行数轮扩增过程。

b.识别胎儿非整倍性

非整倍性为其中染色体数目不是特定物种的数目特征的整数倍的情况。额外的或缺失的染色体为包括人出生缺陷的遗传病症的常见原因。举例来说，唐氏综合征(Downsyndrome，DS)(本文中也称为“21三体”)为由存在第三拷贝的21号染色体的全部或部分所引起的遗传病症。爱德华氏综合征(Edwards syndrome)(本文中也称为“18三体”)为由存在额外的第18号染色体的全部或部分所引起的染色体病症。帕韬氏综合征(Patau syndrome)或13三体为由染色体异常引起的综合征，其中身体细胞中的一些或全部含有来自13号染色体的额外基因材料。诊断染色体异常的常规方法(诸如绒毛膜取样和羊膜穿刺术)可对胎儿与母亲造成潜在显著风险。使用母体血清标记和超声波进行无创胎儿非整倍性筛查为可用的，但可靠性极有限。(Fan等,PNAS,2008,105(42):16266-16271)，其全部公开内容出于所有目的以全文引用的方式并入本文中。

近来发现母体循环中存在无细胞胎儿核酸已引起对非整倍性的无创产前基因测试的发展。无细胞胎儿DNA(cffDNA)(一种在母体血流中自由循环的胎儿DNA)源于构成胎盘的滋养层。将胎儿DNA片段化并且经由使胎盘微粒脱落进入母体血流来使其进入母体血流。然而，由于母体DNA的高背景，通过分析无细胞胎儿DNA来测量非整倍性仍然具有挑战性。据估计，在母体无细胞血浆中胎儿DNA经常构成总DNA的小于10％。

本文所描述的方法、组合物以及系统适用于通过对母体血液或其他体液中的无细胞胎儿DNA进行测序和分析来检测和诊断胎儿非整倍性。用于检测拷贝数目变异和定相单倍型的方法和系统描述于2014年6月26日提交的美国临时申请号62/017,808中，该临时申请的全部公开内容出于所有目的以全文引用的方式并入本文中。

在示例性方法中，可将不同起源或来源的单个或较小数目的核酸(例如，无细胞母体DNA、无细胞胎儿DNA等)单独分配至多个反应体积或分区(例如微滴)中。同时，可将具有可释放地连接的寡核苷酸的多个珠粒分配至相同的单独分区中，使得各分区可含有珠粒与样品核酸两者。如本文别处所描述，通过改变样品流、珠粒流或两者的流速或通道接头的几何结构，可调节分区的占用率，使得各分区可含有某些数目的样品和/或连接有寡核苷酸的珠粒。此外，还可控制分配过程，使得某些百分比的分区可包括不超过一个靶样品核酸(例如，无细胞胎儿DNA)。举例来说，在一些情况下，使用本文所提供的系统和方法可形成小于90％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％或小于5％的含有超过一个靶核酸(例如，无细胞胎儿DNA)的被占用的所得分区。在一些情况下，可调节分配过程，使得全部占用分区中的大百分比可包括至少靶样品和珠粒。举例来说，至少5％、至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或至少99％的分区可被如此占用。在一些情况下，可能需要在分区内提供单一靶样品和单一珠粒，并且至少5％、至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或至少99％的分区可被如此占用。

在产生分区之后，与给定珠粒相连接的寡核苷酸可释放至分区中并且连接至给定分区内的一个或多个靶样品。可使用寡核苷酸中所包括的共同的条形码序列和随机N-mer来识别样品序列的起源，并且在最初扩增过程期间引导各给定分区内的样品序列的多个片段。然后可汇集样品中这些最初扩增片段并且测序(例如，使用任何适合的测序方法，包括本文别处描述的那些)。可使用条形码的身份来排列单个片段的序列读段以及区分不同基因起源(例如染色体)的片段。通过对映射到各染色体的序列的数目进行计数，然后检测到由非整倍性胎儿贡献的任何染色体在母体血浆中的过度表现或表现不足。

c.法医应用

DNA谱型分析(又称DNA测试、DNA分型或基因指纹分析)是一种被法医科学家用来通过个体各自的DNA谱来协助个体识别的技术。DNA谱为反映一个人的DNA构成的加密字母集合，其还可用作该人的标识。DNA谱型分析用于例如亲子鉴定和刑事调查。

DNA谱型分析使用高度可变的被称为可变数目串联重复序列(VNTR)的重复性("重复")序列，特别是短串联重复序列(STR)。密切相关的人之间的VNTR基因座极相似，但是如此可变以致不相关的个体极不可能具有相同的VNTR。然而，传统方法不能提供一致的并且可靠的结果，因为人DNA序列中几乎99.9％在每个人中均相同，并且最重要的是，靶DNA经常被大量的外来物质(例如环境污染、受害者与行凶者的细胞以及/或者核酸)污染。

本文所描述的方法、组合物以及系统通过允许对较大核酸样品中的代表少数的核酸进行表征而可适用于在法医分析中识别特定DNA样品。

如本文别处所描述，可从法医证据的混合物(例如血迹、组织等混合物)中提取基因材料(例如，DNA)。然后，经由受控工艺将所提取的DNA样品和带有功能寡核苷酸的多个珠粒共分配至多个反应体积或分区中，使得各分区可仅包含较小数目的珠粒和较少量的DNA样品。通过以使各分区不可能包括来自不同生物体(例如受害者和行凶者)的基因组材料的重叠序列或区段的水平提供分区中的样品材料，可确保单独贡献的样品核酸的处理和检测以及此类样品核酸在两种不同起源之间的归属。

连接至珠粒的寡核苷酸可包含共同序列(例如条形码序列)和引导序列(在当前情况下为靶向DNA的特定区域的靶向N-mer)。使用共同的条形码序列来识别样品并且引导各给定分区内的样品DNA的特定区域。可在各分区内进行最初扩增过程以产生扩增的条形码化序列。然后可汇集扩增子并且再进行一个或多个扩增过程，随后对最终扩增产物进行测序。如本文别处所描述，可使用扩增子中所包括的条形码序列来将DNA序列归属于其各自的起源。通过分析VNTR，特别是扩增序列的STR基因座，可识别目标DNA所属的受试者。

d.环境测试

如在上文所描述的法医测试的情况下，环境样品的测试经常涉及寻找例如含有较大数目的不同生物体、生物组分以及其他材料的高度异质样品内的特定生物体或组分。在此类情况下，本文所描述的方法和系统例如通过核酸测序在多数组分不覆盖分析的情况下提供对样品的各种贡献的组分的有利表征。此类分析可包括对样品关于特定病原体、指示生物体(例如大肠杆菌等)的询问。

e.微生物组表征

本文所描述的组合物和方法可适用于表征多种单个群体组分，例如微生物组分析，其中以其他方式可能不会轻易识别在微生物元素的较大并且多样的群体之中的单个群体成员的贡献。特定而言，典型的其于整体的测序方法可倾向于由混合样品群体给出总基因信息的一般或一致情况，使得将见不到群体成员之间的基因构成的细微变化。此类变化可定义微生物组成员的不同菌株、变体或种类，其在表征给定群体或微生物组的状态时为重要的。

在示例性过程中，可将从细胞群体(例如微生物组样品)提取的基因材料(例如DNA、RNA等)分配至单独的分区(例如微滴)中，使得分区不可能包括来自起始群体的不同成员的核酸的重叠部分。在一些情况下，这通过以下方式来实现：使得此类重叠序列被共分配的机率极低的浓度提供从群体提取的核酸。在一些方面，这是通过分配所有细胞使得如本文所描述对单个细胞进行单独地分配和处理以表征其核酸来实现。可将具有可释放地连接的寡核苷酸的珠粒分配至相同的分区集合中。再次，分配过程可为受控的(例如，受控的样品流流速、受控的珠粒流流速、受控的样品与珠粒流流速、确定的通道接头几何结构等)，使得如上文所描述各分区可由某些数目的珠粒或目标核酸占用。

在各分区内，可最初用所释放的包括共同区(例如条形码序列)和可变区(例如靶向N-mer或随机N-mer)的寡核苷酸扩增样品。在此最初扩增过程之后，可将各单个分区内的扩增序列用独特标识(即条形码序列)加以标记，所述独特标识可在之后的例如测序过程期间将所得序列归属于其各自的分区。在基于样品起源将样品分派至所述分区(随后暴露于的处理步骤)的情况下，可更好地将所得序列识别为源自特定样品。

然后可汇集扩增子并且可再进行一个或多个扩增过程，随后对最终扩增产物进行测序。基于所连接的独特条形码序列，可识别各个所得序列的样品起源。

VIII.污染的过滤

非样品核酸对核酸样品的污染可导致无关测序读段的随机产生，从而可使测序数据分析复杂化，包括将误差引入此类分析(例如，序列组装)。核酸污染通常可被视为不来源于所关注的核酸样品的核酸(例如“垃圾”核酸)。在一些情况下，此类污染以相对低水平存在，但仍可对序列分析的质量和准确度具有影响。

本文所描述方法、组合物以及系统可适用于识别由核酸污染(包括相对低水平的此类污染)产生的测序读段(例如，关于核酸的条形码化片段或其拷贝所确定的序列)。在一些情况下，当此类核酸污染以相对低的水平(诸如占样品中总核酸的小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于1％、小于0.1％、小于0.01％、小于0.001％、小于0.0001％或小于0.00001％)存在时，可使用本文所描述的方法、系统以及组合物通过一次或多次识别和去除污染测序读段或通过从可识别的测序读段中清除不可识别的测序读段来过滤出来源于污染核酸的核酸(例如，DNA)测序读段。

在一个方面，本公开提供一种分析核酸序列的方法。所述方法包括提供包含由核酸样品产生的核酸分子的分区(例如，孔、管、微孔或纳米孔、通孔、流体微滴(例如，油包水乳液内的水性微滴))。可从分区汇集核酸分子形成核酸混合物，然后可对所述核酸混合物进行核酸测序以产生包含核酸分子的核酸序列的测序读段。使用经过编程的计算机处理器(例如本文所描述的示例性计算机控制系统的经过编程的计算机处理器)，可分析测序读段并且(在存在时)可识别至少一个污染物读段(例如与核酸混合物中的污染物核酸分子相关)。一旦被识别，即可从具有由其余测序读段产生的核酸样品的序列的测序读段中去除污染物读段。在一些情况下，在产生核酸样品的序列之前，识别并且去除多个污染物读段(例如，与相同污染物核酸分子相关或与不同污染物核酸分子相关)。

如上文所讨论，与核酸混合物中的核酸分子的总量相比，核酸混合物中的污染物核酸分子的量可为相对低的。举例来说，核酸混合物中的污染物核酸分子的量可为核酸混合物中的核酸分子的总量的小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于5％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％、小于0.005％、小于0.001％、小于0.0005％、小于0.0001％、小于0.00005％、小于0.00001％、小于0.000005％、小于0.000001％、小于0.0000005％、小于0.0000001％或更少。

在一些实施方案中，可通过以下方式识别污染物读段：测定测序读段的子集之间的序列重叠，并且如果测序读段中的给定者相对于所有子集的重叠小于阈值，那么识别污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：测定测序读段的子集之间的序列重叠，并且如果测序读段中的给定者相对于所有子集的重叠小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于9％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％、小于0.0005％、小于0.0001％或更小，那么识别污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：测定测序读段的子集之间的序列重叠，并且如果序列读段中的给定者相对于所有子集不重叠，那么识别污染物读段。

在一些实施方案中，可通过以下方式识别污染物读段：将序列读段与参考序列相比较，并且如果序列读段中的给定序列读段以小于阈值与参考序列重叠，那么将所述给定序列读段识别为污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：将序列读段与参考序列相比较，并且如果序列读段中的给定序列读段与参考序列以小于50％、以小于45％、以小于40％、以小于35％、以小于30％、以小于25％、以小于20％、以小于15％、以小于10％、以小于9％、以小于8％、以小于7％、以小于6％、以小于5％、以小于4％、以小于3％、以小于2％、以小于1％、以小于0.5％、以小于0.1％、以小于0.05％、以小于0.01％、以小于0.005％、以小于0.001％、以小于0.0005％、以小于0.0001％或以更小程度重叠，那么将所述给定序列读段识别为污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：将序列读段与参考序列相比较，并且如果序列读段中的给定者不与参考序列重叠，那么识别污染物读段。

在一些实施方案中，可通过以下方式识别污染物读段：将序列读段相互相比较以识别测序读段之间的序列重叠，并且如果序列读段中的给定序列读段与测序读段之中的其他测序读段的序列重叠小于阈值，那么将其识别为污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：将序列读段相互相比较以识别测序读段之间的序列重叠，并且如果序列读段中的给定序列读段与测序读段之中的其他测序读段的序列重叠小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、小于9％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％、小于0.0005％、小于0.0001％或更少，那么将其识别为污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：将序列读段相互相比较以识别测序读段之间的序列重叠，并且如果序列读段中的给定序列读段的序列不与测序读段之中的其他测序读段的序列重叠，那么将其识别为污染物读段。

在一些实施方案中，可通过以下方式识别污染物读段：将序列读段映射到其各自的序列区域，并且如果序列读段中的给定序列读段在映射到其序列区域时与小于阈值数目的其他序列读段映射到其序列区域时重叠，那么将其识别为污染物读段。在一些实施方案中，可通过以下方式识别污染物读段：将序列读段映射到其各自的序列，并且如果序列读段中的给定序列读段在映射到其序列区域时与序列读段中的少于50个其他读段、序列读段中的少于45个其他读段、序列读段中的少于40个其他读段、序列读段中的少于35个其他读段、序列读段中的少于30个其他读段、序列读段中的少于25个其他读段、序列读段中的少于20个其他读段、序列读段中的少于19个其他读段、序列读段中的少于18个其他读段、序列读段中的少于17个其他读段、序列读段中的少于16个其他读段、序列读段中的少于15个其他读段、序列读段中的少于14个其他读段、序列读段中的少于13个其他读段、序列读段中的少于12个其他读段、序列读段中的少于11个其他读段、序列读段中的少于10个其他读段、序列读段中的少于9个其他读段、序列读段中的少于8个其他读段、序列读段中的少于7个其他读段、序列读段中的少于6个其他读段、序列读段中的少于5个其他读段、序列读段中的少于4个其他读段、序列读段中的少于3个其他读段、序列读段中的少于2个其他读段、序列读段中的少于1个其他读段在映射到其序列区域时重叠或不与序列读段中的任何其他读段在映射到其序列区域时重叠，那么将其识别为污染物读段。

如本文别处所描述，可将核酸样品片段化并且将片段分配至诸如乳液的微滴中(例如如图4中所示)。在各微滴中，可以关于图3的扩增反应并且如本文别处所描述来产生被分配的片段的条形码化片段或其拷贝。然后可对条形码化片段或其拷贝进行测序以产生条形码化片段读段，然后可将所述条形码化片段读段组装成更大的序列。在核酸样品和/或产生条形码化片段的分区中存在污染物核酸分子的情况下，还可产生对应于污染物核酸分子的条形码化片段或其拷贝。此类污染物条形码化片段或其拷贝也可被测序，因此，将无关测序读段引入序列分析中。此类无关测序读段可干扰和/或将误差引入核酸样品的序列分析。本文所提供的方法可适用于去除由来源于污染物核酸分子的条形码化片段或其拷贝产生的条形码化读段。因此，在一些实施方案中，提供包含由核酸样品产生的核酸分子的分区可包括诸如通过本文所描述的方法产生对应于核酸分子中的每一者的条形码化片段或其拷贝。此外，所产生的测序读段可包括包含条形码化片段或其拷贝的核酸序列的条形码化片段读段。

在核酸样品为基因组核酸样品的情况下，可使用缺乏一个序列读段与包含基因组的已知相邻部分的序列的另一序列读段的重叠(例如，可映射到公知或主导序列的能力)来将序列读段识别为污染物序列读段。在一些情况下，诸如在结构变体(例如，拷贝数目变异、插入、缺失、易位、倒位、重排、重复扩增、复制)或其他基因变异(例如单核苷酸多态性)的情况下，虽然测序读段可能不键联至基因组的已知相邻部分，但仍映射到所键联的序列区域(例如如由序列区域之间的显著条形码重叠所证实)。用于确定结构变体和其他基因变异的示例性方法和系统提供于例如2014年6月26日提交的美国临时专利申请号62/017,808和2014年10月29日提交的美国临时专利申请号62/072,214中，这些申请中的每一者出于所有目的以全文引用的方式并入本文中。

因此，在测序读段不以其他方式键联至基因组的已知相邻部分的情况下，可对在给定序列读段所映射到的序列区域之间的共同的条形码序列设定适当的阈值来将给定序列读段识别为污染读段。例如，可通过以下方式识别污染物读段：如果条形码化片段读段中的给定者映射到的序列区域映射在可映射到序列区域的全部条形码化片段读段中小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于19％、小于18％、小于17％、小于16％、小于15％、小于14％、小于13％、小于12％、小于11％、小于10％、小于9％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％、小于1％、小于0.5％、小于0.1％、小于0.05％、小于0.01％、小于0.005％、小于0.001％、小于0.0005％、小于0.0001％或甚至更少的所述序列区域之间具有共同的条形码序列的条形码化片段，那么将给定条形码化片段读段识别为污染物读段。

从序列结构中去除污染物读段可使得产生核酸样品的序列时的准确度提高。举例来说，通过识别污染物读段和将其从产生核酸样品的序列中去除，可以至少75％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％、至少99.99％、至少99.999％、至少99.9999％或更高的准确度产生序列。

IX.计算机控制系统

本公开提供计算机系统，其经过编程或以其他方式配置成实现本文所提供的方法，诸如用于核酸测序(例如，低输入/低量的核酸的核酸测序)、分析和解释所获得的测序数据(例如，包括在本文所描述的应用中，诸如在诊断的疾病的检测中、在胎儿非整倍性的识别中、在法医应用中、在微生物组表征中、在环境测试中)以及/或者在序列组装之前或期间识别和过滤污染测序读段的方法。图5中示出了此类计算机系统的实例。如图5中所示，计算机系统501包括中央处理单元(CPU，在本文中也称为“处理器”和“计算机处理器”)505，其可为单核或多核处理器，或用于平行处理的多个处理器。计算机系统501还包括存储器或存储位置510(例如随机存取存储器、只读存储器、闪速存储器)、电子存储单元515(例如硬盘)、用于与一个或多个其他系统通信的通信接口520(例如，网络适配器)以及外围装置525，诸如缓存、其他存储器、数据存储和/或电子显示适配器。存储器510、存储单元515、接口520以及外围装置525通过通信总线(实线)(诸如母板)与CPU 505通信。存储单元515可为用于存储数据的数据存储单元(或数据存储库)。计算机系统501可在通信接口520的辅助下可操作地耦合到计算机网络(“网络”)530。网络530可为因特网、因特网以及/或者外联网，或者与因特网通信的内联网和/或外联网。网络530在一些情况下为电信和/或数据网络。网络530可包括一个或多个计算机服务器，所述一个或多个计算机服务器可实现分布式计算，诸如云计算。网络530在一些情况下在计算机系统501的辅助下可实现对等网络，所述对等网络可使得耦合至计算机系统501的装置能够起客户端或服务器的作用。

CPU 505可执行机器可读指令的序列，所述机器可读指令的序列可在程序或软件中实现。指令可存储在存储位置(诸如存储器510)中。由CPU 505进行的操作的实例可包括取指令、解码、执行以及写回。存储单元515可存储文件，诸如驱动器、文库和保存的程序。存储单元515可存储用户数据，例如用户偏好和用户程序。计算机系统501在一些情况下可包括一个或多个其他数据存储单元，所述一个或多个其他数据存储单元在计算机系统501外部，诸如位于通过内联网或因特网与计算机系统501通信的远程服务器上。计算机系统501可通过网络530与一个或多个远程计算机系统通信。举例来说，计算机系统501可与用户(例如，操作者)的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、板型或平板PC(例如，iPad、Galaxy Tab)、电话、智能手机(例如，iPhone、Android可实现装置、)或个人数字助理。用户可经由网络530访问计算机系统501。

可通过存储于计算机系统501的电子存储位置上(诸如在存储器510或电子存储单元515上)的机器(例如，计算机处理器)可执行的代码来实现如本文所描述的方法。可以软件的形式提供机器可执行或机器可读代码。在使用期间，可由处理器505执行代码。在一些情况下，可从存储单元515检索代码并且存储于存储器510上，以备由处理器505存取。在一些情况下，可排除电子存储单元515，并且将机器可执行指令存储于存储器510上。代码可被预编译并且被配置成与具有适合执行代码的处理器的机器一起使用，或在运行期间被编译。可在编程语言中提供代码，可对所述编程语言加以选择以使得代码能够以预编译或当时编译(as-compiled)方式执行。

可在编程中实现本文所提供的诸如计算机系统501的系统和方法的多个方面。技术的各个方面可被认为是典型地呈在一种类型的机器可读介质上执行或在一种类型的机器可读介质中实现的机器(或处理器)可执行代码和/或相关数据形式的“产品”或“制品”。机器可执行代码可存储于电子存储单元，诸如存储器(例如只读存储器、随机存取存储器、闪速存储器)或硬盘中。“存储”类型的介质可包括计算机、处理器等的任何或所有的有形存储器，或其相关模块，诸如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可在软件编程的任何时间提供非暂时存储。软件的全部或部分有时可通过因特网或各种其他电信网络进行通信。此类通信例如可实现软件从一个计算机或处理器加载至另一者中，例如从管理服务器或主机计算机至应用程序服务器的计算机平台中。因此，可承载软件元素的另一类型的介质包括诸如通过有线和光学陆上线路网络并经各种空中链路跨越本地装置之间的物理接口使用的光波、电波、电磁波。携带此类波的物理元素(诸如有线或无线链路、光学链路等)也可被视为承载软件的介质。如本文中所用，除非限于非暂时有形“存储”介质，否则诸如计算机或机器“可读介质”等术语是指参与提供指令至处理器以执行的任何介质。

因此，机器可读介质(诸如计算机可执行代码)可采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机中的任何存储装置等。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形传输介质包括同轴线缆；铜线以及光纤，包括包含计算机系统内的总线的线。载波传输介质可采取电或电磁信号、或声波或光波形式，诸如在射频(RF)和红外线(IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括例如：软磁盘、软盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、打孔卡纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、传送数据或指令的载波、传送此类载波的线缆或链路或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中许多可参与将一个或多个指令的一个或多个序列运送至处理器以执行。

计算机系统501可包括电子显示器535或与其通信，所述电子显示器可包括用于提供例如耦合至计算机系统501的核酸测序仪器的输出或读出的用户界面(UI)。此类读出可包括核酸测序读出，诸如给定核酸样品的核酸碱基的序列。还可使用UI来显示利用此类读出和伴随此类分析的任何统计数据进行的分析的结果。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。电子显示器535可为计算机监视器，或电容或电阻式触摸屏。

X.实施例

实施例1：通过分析无细胞胎儿DNA来筛选非整倍性

从孕妇获得含有小于8％的无细胞胎儿DNA的血液样品。从血液样品提取无细胞血浆DNA。然后将所提取的无细胞DNA样品与可释放地连接至功能寡核苷酸的珠粒共分配至多个微滴中。在各微滴内，DNA样品由所释放的寡核苷酸扩增。然后汇集扩增子并且进行另一扩增过程，随后对扩增产物进行分析和测序。分区内连接至DNA样品的独特的条形码实现所得序列至其各自的基因起源(例如染色体)的归属。通过对映射到各染色体的序列的数目进行计数，然后检测到由非整倍性胎儿贡献的任何染色体在母体血浆中的过度表现或表现不足。

实施例2：通过检测循环肿瘤相关DNA来监测癌症患者中的转移进程

从患有转移性前列腺癌的患者收集包含小于1％循环肿瘤细胞的血液样品，并且从血液样品分离血浆DNA。然后以预定样品/分区比将提取的DNA样品分配至多个反应体积或分区中，使得各分区含有不超过一个单独靶DNA。然后对分配的DNA样品进行若干处理步骤，包括：(1)将具有可释放地连接的寡核苷酸标签的多个珠粒分配至分区中，以形成样品-珠粒混合物，(2)将包括条形码序列和随机N-mer序列的功能寡核苷酸释放至分区中，(3)在各分区内用随机N-mer扩增样品，以及(4)对扩增子进行测序并且基于各扩增子中所包括的独特的条形码序列分析序列读段。然后将肿瘤患者血液中的循环肿瘤相关DNA的浓度与对照相比较。升高的循环肿瘤相关DNA产生癌症进一步进展的信号。

实施例3：通过核糖体DNA测序来分析环境细菌分离株的较大集合

从环境来源获得细菌分离株的集合并且进行测试。从各分离株提取DNA并且分配至多个反应体积或分区中，使得各分区含有源自特定细菌分离株的DNA样品。然后将连接有包括独特的条形码序列和16s rDNA引物的功能寡核苷酸的多个珠粒添加至分区中以与各分区内的DNA样品形成混合物。然后用通用16s rDNA引物扩增各分区中的所提取的DNA样品。然后对扩增产物进行测序，并且与数据库中可获得的那些相比较。达到种水平的识别被定义为与数据库中的原型株序列的序列相似性≥99％，而在属水平的识别被定义为与数据库中的原型株序列的序列相似性≥97％。使用测序信息，确定细菌分离株的集合内的各菌株的百分比。

实施例4：分析细胞核酸

使用Qiagen高分子量MagAttract DNA试剂盒从多个细胞系(NA12878、NA12877、NA12882、NA20847)提取基因组DNA。使用Qubit系统量化基因组DNA并且滴定至数个浓度，从而将三种不同起始质量的DNA(2.4ng、1.2ng或0.6ng)与条形码化珠粒一起分配至乳液的微滴中。在乳液微滴中以类似于图4中所示和本文别处所描述的方式制备条形码化测序文库，破乳并且汇集微滴内容物，并且使用Agilent SureSelect靶富集(人V5)通过杂交捕获来富集测序文库。文库被测序至约160X靶测序深度。使用Long Ranger软件进行变体调用(Variant-calling)。简要地说，使用BWA MEM来比对测序读段，按位置排序、标记为PCR重复，并且然后将Freebayes软件包用于调用SNP、小插入以及缺失。针对以前建立的关于SNP、插入和缺失的灵敏度和阳性预测值(PPV)的基础事实对样品进行表征。对于SNP，灵敏度和PPV均>95％，对于插入和缺失，PPV>90％并且灵敏度>70％。

虽然本文中已示出和描述了本发明的优选实施方案，但对本领域技术人员来说将显而易见的是此类实施方案仅仅是通过举例而提供。本发明不旨在受说明书内所提供的特定实施例限制。虽然已参照上述说明书描述了本发明，但本文中对实施方案的描述和说明并不意在以限制意义来解释。本领域技术人员将会想到许多变化、改变以及替换，而不会脱离本发明。此外，应了解，本发明的所有方面不限于本文所阐述的特定描述、配置或相对比例，其取决于多种条件和变量。应了解，在实践本发明时可采用本文中所描述的本发明的实施方案的各种替代方案。因此可以预期的是，本发明也应涵盖任何这样的替代、修改、变化或等效物。以下权利要求旨在限定本发明的范围并且从而涵盖这些权利要求和其等效物的范围内的方法和结构。

Claims

1.一种分析核酸的方法，其包括：

(a)提供来源于核酸样品的核酸集合，其中所述核酸集合包括小于50纳克(ng)的量的核酸分子；

(b)将所述核酸集合与可释放地连接至珠粒的多个寡核苷酸组合以形成混合物；

(c)将所述混合物分配至多个分区中，且使所述寡核苷酸从所述分区内的所述珠粒释放；

(d)扩增所述分区内的所述核酸集合以形成所述核酸集合的扩增产物；

(e)汇集所述核酸集合和所述扩增产物以形成汇集混合物；以及

(f)检测所述汇集混合物内的至少一部分核酸的核酸序列。

2.如权利要求1所述的方法，其中，在(f)中，所述检测以大于90％的准确度完成。

3.如权利要求2所述的方法，其中，在(f)中，所述检测以大于95％的准确度完成。

4.如权利要求3所述的方法，其中，在(f)中，所述检测以大于99％的准确度完成。

5.如权利要求1所述的方法，其中，在(f)中，所述检测包括检测所述核酸集合内的所述核酸中的至少90％。

6.如权利要求1所述的方法，其中，在(f)中，所述检测包括检测所述核酸集合内的较小群体的序列，所述较小群体占所述核酸集合的小于50％。

7.如权利要求6所述的方法，其中所述较小群体占所述核酸集合的小于25％。

8.如权利要求7所述的方法，其中所述较小群体占所述核酸集合的小于10％。

9.如权利要求8所述的方法，其中所述较小群体占所述核酸集合的小于5％。

10.如权利要求1所述的方法，其中所述量小于40ng。

11.如权利要求10所述的方法，其中所述量小于20ng。

12.如权利要求11所述的方法，其中所述量小于10ng。

13.如权利要求12所述的方法，其中所述量小于5ng。

14.如权利要求13所述的方法，其中所述量小于1ng。

15.如权利要求14所述的方法，其中所述量小于0.1ng。

16.如权利要求1所述的方法，其中所述多个寡核苷酸中的每一者包含至少恒定区和可变区。

17.如权利要求16所述的方法，其中所述恒定区包含条形码序列。

18.如权利要求17所述的方法，其中所述条形码序列的长度介于约6个核苷酸与约20个核苷酸之间。

19.如权利要求16所述的方法，其中所述可变区包含引物序列。

20.如权利要求19所述的方法，其中，在(d)中，所述多个寡核苷酸在扩增所述核酸集合时充当引物。

21.如权利要求1所述的方法，其中所述寡核苷酸在暴露于一种或多种刺激后从所述珠粒释放。

22.如权利要求21所述的方法，其中所述刺激包括温度、pH、光、化学物质以及/或者还原剂。

23.如权利要求22所述的方法，其中所述刺激包括还原剂，所述还原剂包括二硫苏糖醇(DTT)或三(2-羧乙基)膦(TCEP)。

24.如权利要求1所述的方法，其中所述分区包括微滴、微胶囊、孔或管。

25.如权利要求1所述的方法，其中所述分区为流体微滴。

26.如权利要求25所述的方法，其中所述流体微滴为油包水乳液内的水性微滴。

27.如权利要求1所述的方法，其中，在(c)中，所述分区由微流体装置产生。

28.如权利要求1所述的方法，其中所述核酸集合来源于体液。

29.如权利要求28所述的方法，其中所述体液包括血液、血浆、血清或尿液。

30.如权利要求28所述的方法，其中至少所述核酸集合的子集来源于一个或多个循环肿瘤细胞。

31.如权利要求28或30所述的方法，其中所述核酸的子集来源于肿瘤。

32.如权利要求1所述的方法，其中所述核酸集合来源于组织活检。

33.如权利要求1所述的方法，其中所述核酸集合包括胎儿核酸。

34.如权利要求33所述的方法，其中所述核酸集合中小于5％的核酸包括胎儿核酸。

35.如权利要求1所述的方法，其中所述核酸样品包括细胞样品。

36.如权利要求35所述的方法，其中所述细胞样品包含小于5％的循环肿瘤细胞。

37.如权利要求35所述的方法，其中所述细胞样品包含小于5％的肿瘤细胞。

38.如权利要求1所述的方法，其中所述核酸样品来源于选自以下的样品：活样品、非保守样品、保存样品、防腐样品以及固定样品。

39.如权利要求38所述的方法，其中所述样品为包埋样品。

40.如权利要求39所述的方法，其中所述样品为甲醛固定和石蜡包埋样品。

41.如权利要求31所述的方法，其中所述一个或多个循环肿瘤细胞从非保守样品或从甲醛固定和石蜡包埋样品获得。

42.一种分析核酸的方法，其包括：

a)将来源于核酸样品的核酸集合与可释放地连接至珠粒的多个寡核苷酸组合以形成混合物；

b)将所述混合物分配至多个分区中；

c)使所述寡核苷酸从所述分区内的所述珠粒释放；

d)扩增所述分区内的所述核酸集合以形成所述核酸集合的扩增产物；

e)汇集所述核酸集合和所述扩增产物以形成汇集混合物；以及

f)检测所述汇集混合物中的所述核酸集合内的较小群体的核酸序列，所述较小群体占所述核酸集合的小于50％。

43.如权利要求42所述的方法，其中所述较小群体占小于40％。

44.如权利要求42所述的方法，其中所述较小群体占小于30％。

45.如权利要求42所述的方法，其中所述较小群体占小于20％。

46.如权利要求42所述的方法，其中所述较小群体占小于10％。

47.如权利要求42所述的方法，其中所述较小群体占小于5％。

48.如权利要求42所述的方法，其中所述较小群体占小于1％。

49.如权利要求42所述的方法，其中所述较小群体占小于0.1％。

50.如权利要求42所述的方法，其中所述多个寡核苷酸中的每一者包含至少恒定区和可变区。

51.如权利要求50所述的方法，其中所述恒定区包含条形码序列。

52.如权利要求50所述的方法，其中所述可变区包含引物序列。

53.如权利要求52所述的方法，其中，在(d)中，所述多个寡核苷酸在扩增所述核酸集合时充当引物。

54.如权利要求42所述的方法，其中所述寡核苷酸在暴露于一种或多种刺激后从所述珠粒释放。

55.如权利要求54所述的方法，其中所述刺激包括温度、pH、光、化学物质以及/或者还原剂。

56.如权利要求42所述的方法，其中所述分区包括微滴、微胶囊、孔或管。

57.如权利要求42所述的方法，其中，在(b)中，所述分区由微流体装置产生。

58.如权利要求42所述的方法，其中所述核酸集合来源于体液。

59.如权利要求58所述的方法，其中所述体液包括血液、血浆、血清或尿液。

60.如权利要求42所述的方法，其中所述核酸集合来源于组织活检。

61.如权利要求42所述的方法，其中所述较小群体包含肿瘤核酸。

62.如权利要求42所述的方法，其中所述较小群体包含胎儿核酸。

63.如权利要求42所述的方法，其中所述较小群体包含循环肿瘤细胞核酸。

64.一种分析核酸的方法，其包括：

a)提供来源于核酸样品的核酸集合，其中所述核酸集合包括小于50纳克(ng)的量的核酸分子；

b)将所述核酸集合与多个寡核苷酸组合以形成混合物，其中所述多个寡核苷酸中的每一者包含至少恒定区和可变区，所述恒定区包含条形码序列；

c)将所述混合物分配至多个分区中并且扩增所述分区内的所述核酸集合以形成所述核酸集合的扩增产物；

d)汇集所述核酸集合和所述扩增产物以形成汇集混合物；以及

e)以至少90％的灵敏度检测所述汇集混合物内的至少一部分核酸的核酸序列。

65.如权利要求64所述的方法，其中所述量小于40ng。

66.如权利要求65所述的方法，其中所述量小于20ng。

67.如权利要求66所述的方法，其中所述量小于10ng。

68.如权利要求67所述的方法，其中所述量小于5ng。

69.如权利要求68所述的方法，其中所述量小于1ng。

70.如权利要求69所述的方法，其中所述量小于0.1ng。

71.如权利要求64所述的方法，其中所述可变区包含引物序列。

72.如权利要求71所述的方法，其中，在(c)中，所述多个寡核苷酸在扩增所述核酸集合时充当引物。

73.如权利要求64所述的方法，其中，在(e)中，所述检测包括以至少95％的灵敏度检测所述汇集混合物内的至少一部分核酸的核酸序列。

74.如权利要求64所述的方法，其中，在(e)中，所述检测包括以至少99％的灵敏度检测所述汇集混合物内的至少一部分核酸的核酸序列。

75.一种用于分析核酸序列的方法，其包括：

a)提供包含由核酸样品产生的核酸分子的分区；

b)从所述分区汇集所述核酸分子形成核酸混合物；

c)对所述核酸混合物进行核酸测序以产生包含所述核酸分子的核酸序列的测序读段；

d)使用经过编程的计算机处理器来(i)分析所述测序读段，及(ii)识别所述测序读段中与所述核酸混合物中的污染物核酸分子相关的至少一个污染物读段；

e)从所述测序读段去除所述污染物读段；以及

f)由去除了所述污染物读段的所述测序读段产生所述核酸样品的序列。

76.如权利要求75所述的方法，其中所述至少一个污染物读段包括与污染物核酸分子相关的多个污染物读段。

77.如权利要求75所述的方法，其中以至少90％的准确度产生所述序列。

78.如权利要求77所述的方法，其中以至少95％的准确度产生所述序列。

79.如权利要求78所述的方法，其中以至少99％的准确度产生所述序列。

80.如权利要求75所述的方法，其中所述分区包括流体微滴。

81.如权利要求80所述的方法，其中所述流体微滴包括油包水乳液内的水性微滴。

82.如权利要求75所述的方法，其中通过以下方式识别所述污染物读段：(1)测定所述测序读段的子集之间的序列重叠；并且(2)如果所述测序读段中的给定者相对于所有的所述子集重叠均小于50％，那么识别所述污染物读段。

83.如权利要求82所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者相对于所有的所述子集序列重叠均小于25％，那么识别所述污染物读段。

84.如权利要求83所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者相对于所有的所述子集序列重叠均小于10％，那么识别所述污染物读段。

85.如权利要求84所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者相对于所有的所述子集序列重叠均小于5％，那么识别所述污染物读段。

86.如权利要求85所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者相对于所有的所述子集序列重叠均小于1％，那么识别所述污染物读段。

87.如权利要求86所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者相对于所有的所述子集序列重叠均小于0.1％，那么识别所述污染物读段。

88.如权利要求87所述的方法，其中(2)进一步包括如果所述序列读段中的所述给定者的序列相对于所有的所述子集均不重叠，那么识别所述污染物读段。

89.如权利要求75所述的方法，其中通过以下方式识别所述污染物读段：(1)将所述测序读段与参考序列相比较，并且(2)如果所述测序读段中的给定测序读段与所述参考序列以小于50％重叠，那么将所述给定测序读段识别为所述污染物读段。

90.如权利要求89所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列以小于25％重叠，那么将所述给定测序读段识别为所述污染物读段。

91.如权利要求90所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列以小于10％重叠，那么将所述给定测序读段识别为所述污染物读段。

92.如权利要求91所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列以小于5％重叠，那么将所述给定测序读段识别为所述污染物读段。

93.如权利要求92所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列以小于1％重叠，那么将所述给定测序读段识别为所述污染物读段。

94.如权利要求93所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列以小于0.1％重叠，那么将所述给定测序读段识别为所述污染物读段。

95.如权利要求94所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定测序读段与所述参考序列不重叠，那么将所述给定测序读段识别为所述污染物读段。

96.如权利要求75所述的方法，其中通过以下方式识别所述污染物读段：(1)将所述测序读段相互比较以识别所述测序读段之间的序列重叠，并且(2)如果所述测序读段中的给定者与所述测序读段之中的其他测序读段的序列重叠小于50％，那么将其识别为所述污染物读段。

97.如权利要求96所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者与所述测序读段之中的其他测序读段的序列重叠小于25％，那么将其识别为所述污染物读段。

98.如权利要求97所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者与所述测序读段之中的其他测序读段的序列重叠小于10％，那么将其识别为所述污染物读段。

99.如权利要求98所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者与所述测序读段之中的其他测序读段的序列重叠小于5％，那么将其识别为所述污染物读段。

100.如权利要求99所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者与所述测序读段之中的其他测序读段的序列重叠小于1％，那么将其识别为所述污染物读段。

101.如权利要求100所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者与所述测序读段之中的其他测序读段的序列重叠小于0.1％，那么将其识别为所述污染物读段。

102.如权利要求101所述的方法，其中(2)进一步包括如果所述测序读段中的所述给定者不与所述测序读段之中的所述其他测序读段重叠，那么将其识别为所述污染物读段。

103.如权利要求75所述的方法，其中a)包括产生对应于所述分区中的所述核酸分子中的每一者的条形码化片段或其拷贝。

104.如权利要求103所述的方法，其中，在c)中，所述测序读段包含条形码化片段读段，所述条形码化片段读段包含所述条形码化片段或其拷贝的核酸序列。

105.如权利要求104所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于20％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

106.如权利要求105所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的所述给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于15％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

107.如权利要求106所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的所述给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于10％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

108.如权利要求107所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的所述给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于5％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

109.如权利要求108所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的所述给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于3％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

110.如权利要求109所述的方法，其中通过以下方式识别所述污染物读段：如果所述条形码化片段读段中的所述给定者映射到的序列区域映射在可映射到所述序列区域的全部条形码化片段读段中小于0.1％的所述序列区域之间具有共同的条形码序列的条形码化片段读段，那么将所述给定条形码化片段读段识别为所述污染物读段。

111.如权利要求75所述的方法，其中通过以下方式识别所述污染物读段：将所述序列读段映射到其序列区域，并且如果所述序列读段中的给定序列读段在映射到其序列区域时与所述序列读段中的少于10个其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为所述污染物读段。

112.如权利要求111所述的方法，其中通过以下方式识别所述污染物读段：将所述序列读段映射到其序列区域，并且如果所述序列读段中的所述给定序列读段在映射到其序列区域时与所述序列读段中的少于5个其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为所述污染物读段。

113.如权利要求112所述的方法，其中通过以下方式识别所述污染物读段：将所述序列读段映射到其序列区域，并且如果所述序列读段中的所述给定序列读段在映射到其序列区域时与所述序列读段中的少于3个其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为所述污染物读段。

114.如权利要求113所述的方法，其中通过以下方式识别所述污染物读段：将所述序列读段映射到其序列区域，并且如果所述序列读段中的所述给定序列读段在映射到其序列区域时与所述序列读段中的少于1个其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为所述污染物读段。

115.如权利要求114所述的方法，其中通过以下方式识别所述污染物读段：将所述序列读段映射到其序列区域，并且如果所述序列读段中的所述给定序列读段在映射到其序列区域时不与所述序列读段中的其他读段在映射到其序列区域时重叠，那么将所述给定序列读段识别为所述污染物读段。

116.如权利要求75所述的方法，其中，在b)中，所述核酸混合物中的所述污染物核酸分子的量为所述核酸混合物中的所述核酸分子的小于1％。

117.如权利要求116所述的方法，其中，在b)中，所述核酸混合物中的所述污染物核酸分子的量为所述核酸混合物中的所述核酸分子的小于0.1％。

118.如权利要求117所述的方法，其中，在b)中，所述核酸混合物中的所述污染物核酸分子的量为所述核酸混合物中的所述核酸分子的小于0.01％。

119.如权利要求118所述的方法，其中，在b)中，所述核酸混合物中的所述污染物核酸分子的量为所述核酸混合物中的所述核酸分子的小于0.001％。

120.如权利要求119所述的方法，其中，在b)中，所述核酸混合物中的所述污染物核酸分子的量为所述核酸混合物中的所述核酸分子的小于0.0001％。