CN105074007A

CN105074007A - 用于产前遗传分析的系统和方法

Info

Publication number: CN105074007A
Application number: CN201480014075.3A
Authority: CN
Inventors: E.埃文斯; C.查; D.戴维森; H.理查兹
Original assignee: Kao Xier Limited-Liability Co
Current assignee: Kao Xier Limited-Liability Co; Counsyl Inc
Priority date: 2013-03-12
Filing date: 2014-03-12
Publication date: 2015-11-18
Also published as: WO2014165267A3; US20140342354A1; IL239972B; WO2014165267A2; IL239972A0; CA2901138A1; AU2018214075B2; AU2018214075A1; EP2971182A2; AU2021204453A1; EP2971182A4; EP2971182B1; AU2014248511B2; JP2016513461A; AU2014248511A1

Abstract

本公开提供了用于测试和分析包含母体和胎儿多核苷酸的样品的遗传改变的组合物和方法。总体而言，本公开的组合物和方法提供了母体和胎儿多核苷酸的混合物从样品、通常从母亲的分离。将多核苷酸分离并纯化，并且进一步测试以确定所述样品中的一个或多个基因座处的诸如拷贝数变异或致病变体的遗传改变的存在或不存在。

Description

用于产前遗传分析的系统和方法

交叉引用

本申请要求2013年3月12日提交的美国临时申请No.61/778,131的权益，该申请以引用的方式并入本文中。

发明背景

多数情况下，基因组中的遗传改变会引起有害的健康后果。基因组研究已经鉴别出存在于异常拷贝数中，或发现突变而与多种疾病有关的许多基因和特定诊断标记物。举例来说，在产前诊断中，例如染色体21三体症的全染色体的额外或遗漏拷贝频繁出现，且可以在妊娠至足月前检测到。在其它实例中，特定突变的检测或染色体、染色体区域或其它基因座的倍增或缺失的检测可以用于许多癌症的风险评估、诊断或分期。

通常，有关遗传改变的信息已经使用遗传测试的常规程序测定，例如荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)，且近年以来，下一代测序。下一代测序(NGS)允许小规模的廉价基因组测序，且周转时间按天计。然而，因为NGS通常被进行和了解，所以基因组的所有区域或基因座都是以大致相等的概率测序，意指大量的基因组序列被收集和丢弃以从足够了解功能从而解释潜在突变的相对较低百分比的面积收集序列信息。通常，从全基因组纯化感兴趣的区域样品作为测序的独立步骤进行。在当前技术发展水平下其通常是长达数天的低效率过程。

本领域中需要改进的用于分析可能与潜在有害的遗传改变相关联的目标区域或基因座的基因组序列的方法和系统。

发明概要

本公开通常提供了用于产前遗传分析的系统和方法。通常，本公开提供了测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的系统和方法，其包括以下步骤：获得测试样品中的母体和胎儿多核苷酸；使多个探针与包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除目标基因座以外的基因座杂交，其中至少一个或多个探针与标识符缔合；任选地使用聚合酶延伸探针；连接探针以产生连续的连接产物；将结合的连接产物与未结合的探针分离；计数连接产物内含有的一个或多个区域，其中所述一个或多个区域包含除完全完整的探针以外的元件，以及确定一个或多个基因座处的遗传改变的存在或不存在。

在一些方面，本公开提供了测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：获得测试样品中的母体和胎儿多核苷酸；使多个探针与包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除目标基因座以外的基因座杂交，其中至少一个或多个探针与标识符缔合；任选地使用聚合酶延伸探针；连接探针以产生连续的连接产物；将结合的连接产物与未结合的探针分离；扩增来自连接产物的区域；计数来自连接产物的含有标识符序列的区域，其中计数包括计数除完全完整的杂交序列以外的序列；以及确定一个或多个基因座处的遗传改变的存在或不存在。

在一些方面，本公开提供了测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：获得测试样品中的母体和胎儿多核苷酸；使包含与包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除目标基因座以外的基因座互补的杂交序列的多个探针与多核苷酸杂交，其中至少一个或多个探针与标识符序列缔合；使一个或多个桥接寡核苷酸与同一基因座中两个杂交序列之间的区域杂交；任选地使用聚合酶和dNTP延伸探针和/或桥接寡核苷酸；连接探针和桥接寡核苷酸以产生连续的连接产物；将连续的连接产物与未结合的探针分离；扩增来自连接产物的含有标识符序列和除完全完整的杂交序列以外的序列的区域；计数步骤(g)中扩增的区域，其中计数包括计数标识符序列和除完全完整的杂交序列以外的序列；以及确定一个或多个基因座处的遗传改变的存在或不存在。

在一些方面，本公开提供了检测包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：获得测试样品中的母体和胎儿多核苷酸；使包含与包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除目标基因座以外的基因座互补的杂交序列的多个探针与多核苷酸杂交，其中至少一个或多个探针与标识符序列缔合；使一个或多个桥接寡核苷酸与同一基因座中两个杂交序列之间的区域杂交；任选地使用聚合酶和dNTP延伸探针和/或桥接寡核苷酸；连接探针和桥接寡核苷酸以产生连续的连接产物；将连续的连接产物与未结合的探针分离；扩增来自连接产物的区域，其中所述区域包含标识符和除完全完整的杂交序列以外的序列；计数标识符序列；以及确定一个或多个基因座处的遗传改变的存在或不存在。

在一些方面，本公开提供了一种用于确定包含胎儿与母体多核苷酸的混合物的样品中基因座的遗传改变的存在或不存在的方法或测定系统，其中所述测定系统包括计数与接触样品中基因座的探针缔合的标识符序列。

在一些方面，本公开提供了一种物质组合物，其中根据如本文中描述的方法测试所述组合物。

在一些实施方案中，遗传改变为拷贝数变异(CNV)。在一些实施方案中，遗传改变为致病变体。

在一些实施方案中，所述标识符或标识符为条形码序列。在一些方面，探针为与一个或多个基因座中的区域互补的独立的固定序列。

在一些实施方案中，杂交序列为与一个或多个基因座中的区域互补的独立的固定序列。在一些方面，探针包含具有与一个或多个基因座中的区域互补的序列的环前探针(pre-circleprobe)。

在一些实施方案中，选择性扩增来自连接产物的区域包括一个或多个扩增步骤。在一些方面，计数包括测序步骤。

在一些实施方案中，完整的杂交序列不包含杂交序列。在一些实施方案中，完整的杂交序列包含小于100％的与基因座互补的杂交序列。在一些实施方案中，计数包括对不含杂交序列的序列进行计数。

在一些实施方案中，扩增通过通用扩增步骤进行。在一些实施方案中，扩增通过选择性扩增步骤进行。在一些实施方案中，扩增针对不含杂交序列的序列进行。

在一些方面，测试至少一个基因座的遗传改变。在一些方面，测试至少100个基因座的遗传改变。在一些方面，测试至少500个基因座的遗传改变。在一些方面，测试至少1000个基因座的遗传改变。在一些方面，至少一个基因座含有多态性或推定的多态性。

在一些方面，不使用扩增步骤。

在一些方面，测试至少一个基因座的拷贝数并且其不同于含有多态性的另一基因座。在一些方面，基因座为染色体、亚染色体区域或单基因座。

在一些实施方案中，至少一个桥接寡核苷酸与两个探针之间的区域杂交。

在一些实施方案中，分离连续的连接产物包括未结合的探针的降解。在一些实施方案中，降解使用核酸外切酶进行。

在一些实施方案中，分离连续的连接产物包括用结合伴侣进行亲和捕获。在一些方面，dNTP缀合于用于亲和捕获的部分。在一些方面，dNTP缀合于生物素。

在一些实施方案中，遗传改变为胎儿非整倍性。

在一些实施方案中，基于确定遗传改变的存在或不存在，作出医学决策或治疗建议。

在一些实施方案中，计数步骤使用统计分析进行，或通过具有处理器可执行指令的计算机可读介质进行。在一些方面，统计分析可以使用计算机算法进行。

在一个方面，本公开提供了一种测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法。在一个实施方案中，所述方法包括以下步骤：将靶标多核苷酸片段化；将衔接子寡核苷酸与片段化的多核苷酸接合；使用与来源于衔接子寡核苷酸的序列特异性杂交的扩增引物扩增衔接的多核苷酸；使扩增的靶标多核苷酸与附接至固体表面的多个不同的结合的寡核苷酸杂交，其中多个结合的寡核苷酸中的每一者包含与包含目标基因座的序列或目标基因座的200个核苷酸内的序列互补的3’端序列；在固体载体上进行桥接扩增以特异性扩增靶标序列；以及确定一个或多个基因座处的遗传改变的存在或不存在。

以引用的方式并入

本说明书中所提及的所有出版物、专利和专利申请都以引用的方式并入本文中，其程度如同特别且个别地指示每一个别出版物、专利或专利申请以引用的方式并入一般。

附图简述

在随附权利要求书中特别地阐述了本公开的装置的新颖特征。参考以下阐述例示性实施方案的详细描述将获得对本公开的特征和优点的更好了解，其中利用本公开的装置的原理，并且其中附图为：

图1为对一个或多个基因座进行CNV检测的示例流程图的示意图。

图2为使用MIP探针对一条或多条染色体进行CNV检测的示例流程图的示意图。

图3为使用MIP探针，使用SNP和等位基因频率的检测，对一个或多个基因座进行CNV检测的示例流程图的示意图。

图4为结合于基因组DNA的MIP探针、杂交序列的连接和第二链合成的示意图。

图5A为结合于基因组DNA的MIP探针的示意图，其中桥接探针在两个探针之间的区域中杂交。

图5B为结合于基因组DNA的MIP探针的示意图，其中两个探针之间具有间隙。聚合酶i用于引物延伸步骤中以填充探针之间的间隙。

图6A为MIP探针中杂交序列600和650、通用引物位点610和620、条形码序列660和限制性位点699的配置的示意图(环形接头区域未展示)。在位点699进行杂交和酶促裂解后，通用引物位点侧接杂交序列和条形码序列。还展示用于任选的扩增或测序的示例引发位点。

图6B为类似于图6A的示意图，展示在MIP探针的替代配置中的相同元件(环形接头区域未展示)。在位点699进行杂交和酶促裂解后，通用引物位点侧接条形码序列。还展示用于任选的扩增或测序的示例引发位点。

图7为可如图4中所示从线性MIP探针产生的双链环形连续连接产物的示意图。箭头指示用于从此产物扩增或测序各个区域或者区域的组合的各个引发位点。

图8为具有用于存储和使用因特网传播基因组或测序信息的非可传输存储介质的计算机的示意图和流程图。基因组数据的测序和产生可以在不同于使用者的实际位置的地点进行。

图9说明示例探针、示例扩增引物对和探针环化。

图10说明扩增靶标探针序列的示例引物延伸步骤。

图11说明包含附接的寡核苷酸的示例固体载体的一部分，和扩增靶标多核苷酸的示例桥接扩增过程中的第一步。

图12说明靶标扩增、桥接扩增和测序的示例过程。

发明详述

I.通用术语

除非另外指明，否则如本文中描述的本公开的系统和方法可以采用本领域的技术人员所实践的分子生物学(包括重组技术)、细胞生物学、生物化学、微阵列和测序技术的常规技术和描述。此类常规技术包括聚合物阵列合成、寡核苷酸的杂交和连接、寡核苷酸的测序和使用标记检测杂交。可以通过参考本文中的实施例来特定说明适合的技术。然而，当然还可以使用等效的常规程序。此类常规技术和描述可以见于标准实验室手册中，例如Green等人编辑,GenomeAnalysis:ALaboratoryManualSeries(第I-IV卷)(1999)；Weiner等人编辑,GeneticVariation:ALaboratoryManual(2007)；Dieffenbach,Dveksler编辑,PCRPrimer:ALaboratoryManual(2003)；Bowtell和Sambrook,DNAMicroarrays:AMolecularCloningManual(2003)；Mount,Bioinformatics:SequenceandGenomeAnalysis(2004)；Sambrook和Russell,CondensedProtocolsfromMolecularCloning:ALaboratoryManual(2006)；以及Sambrook和Russell,MolecularCloning:ALaboratoryManual(2002)(都来自ColdSpringHarborLaboratoryPress)；Stryer,L.,Biochemistry(第4版)W.H.Freeman,N.Y.(1995)；Gait,“OligonucleotideSynthesis:APracticalApproach”IRLPress,London(1984)；Nelson和Cox,Lehninger,PrinciplesofBiochemistry,第3版,W.H.FreemanPub.,NewYork(2000)；和Berg等人,Biochemistry,第5版,W.H.FreemanPub.,NewYork(2002)，所述手册为了所有目的都以引用的方式整体并入本文中。在描述本发明的组合物、研究工具和系统与方法前，应了解本公开不限于所描述的特定系统和方法、组合物、靶标和用途，因此当然可以变化。还应了解本文中使用的术语仅仅是为了描述具体的方面，且不意图限制本公开的范围，本公开的范围将只受随附权利要求书限制。

其中使用的术语仅仅是为了描述具体的实施方案，且不意图限制本公开的装置。除非上下文另外清楚地指示，否则如本文所用，单数形式“一(a/an)”和“所述”也意图包括复数形式。此外，在术语“包括(including/includes)”、“具有(having/has/with)”或其变体用于详细描述和/或权利要求书的程度上，此类术语意图以类似于术语“包含”的方式，为包括性的。

在上文，参考示例应用进行说明来描述本公开的系统和方法的若干方面。应了解阐述许多特定细节、关系和系统与方法以提供对本公开的全面了解。然而，一般技术人员将容易地认识到本公开的系统和方法可以在没有一个或多个特定细节下或在其它系统和方法下实践。本公开不受动作或事件的说明次序限制，因为一些动作可以按不同的次序和/或与其它动作或事件同时发生。此外，不是所有说明的动作或事件都需要执行根据本公开的方法。

范围可以作为从“约”一个具体值和/或至“约”另一个具体值在本文中表达。当表达此类范围时，另一实施方案包括从一个具体值和/或至另一个具体值。类似地，当值表达为近似值时，通过利用先行词“约”，将了解具体值形成另一实施方案。将进一步了解，每个范围的端值相对于另一个端值都是有意义的，且与另一个端值无关。如本文所用，术语“约”是指在具体使用的上下文中从所述数值加或减15％的范围。举例来说，约10将包括8.5至11.5的范围。

II.概述

本公开提供了用于测试和分析包含母体和胎儿多核苷酸的样品的遗传改变的系统和方法。通常，本公开的系统和方法提供了母体和胎儿多核苷酸的混合物从样品、通常从母亲的分离。将多核苷酸分离并纯化，且进一步测试以确定样品中的一个或多个基因座处的诸如拷贝数变异或致病变体的遗传改变的存在或不存在。

通常，如图4中所示，使一个或多个探针组与样品中的一个或多个目标基因座和除目标基因座以外的一个或多个基因座杂交，所述探针组中的每一者包含至少两个杂交序列408和410，与样品的样品链中的序列416互补。通常分配给探针一种标识符分子，例如分子条形码序列404。在一些情况下，探针组可以包含分子倒置探针(MIP)400并由其它的序列，例如通用引物序列402和414、限制性位点460和接头序列412构建。接着将两个或更多个探针连接418，以在连接位点产生单个连续的连接产物432。结合的探针可以通过用核酸外切酶处理来分离，核酸外切酶选择性地靶向线性多核苷酸406的末端，且可以消化样品DNA链和未结合的探针，同时使结合的环形探针完整。使用各种方式将标识符分子鉴别和计数，包括从通用引发位点434和430、条形码序列中的位点426或杂交序列中的位点438和436进行通用扩增。通常，先前分配给具体的探针组的条形码的丰度通常与与具体的探针组互补的基因座的丰度成比例。因此，条形码的丰度可以与样品中原始存在的基因座的拷贝数成比例。本公开的系统和方法提供了用于计数标识符的各种方法和所计数的标识符在确定样品中遗传改变的存在或不存在，例如确定一个或多个基因座的CNV中的用途。

此外，本公开的系统和方法可能特别适用于检测母体和胎儿样品中的多种遗传改变，在全染色体异常至可能指示其它病状的其它微小的基因组改变的范围内。举例来说，本公开的系统和方法可用于检测21三体症或提供例如囊性纤维化的疾病的致病变体的检测。

III.多核苷酸分离和提取

A.测试样品的来源

本公开的系统和方法可以包括多种多核苷酸的测试、操作、制备、鉴别和/或定量。多核苷酸的实例包括(但不限于)：DNA、RNA、扩增子、cDNA、dsDNA、ssDNA、质粒DNA、粘粒DNA、高分子量(MW)DNA、染色体DNA、基因组DNA、病毒DNA、细菌DNA、mtDNA(线粒体DNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、微小RNA、dsRNA、核酶、核糖开关和病毒RNA(例如逆转录病毒RNA)。

测试样品可以来源于任何适合的生物来源，包含母体和胎儿多核苷酸的混合物。样品可以来源于多种来源，包括人类、哺乳动物、非人类哺乳动物、猿、猴、黑猩猩、爬虫类、两栖动物或鸟类来源。在一些情况下，测试样品可以包含组织样品、生物流体或细胞样品。在一些情况下，测试样品可以包含拭子、涂片、活检标本、吸出物或多个体外培养的细胞(即组织/细胞培养物)。在一些情况下，多核苷酸可以从细胞提取并随后测试。在其它情况下，可以发现多核苷酸为无细胞的，例如在例如血液的体液中循环的多核苷酸，并随后测试。生物来源的实例可以包括(但不限于)母体器官组织、胎儿器官组织、血液、血浆、血清、汗液、泪液、痰液、尿液、耳朵分泌物、淋巴、唾液、脑脊髓液、骨骼、骨髓悬浮液、阴道分泌物、经子宫颈灌洗液、脑液、白细胞去除(leukophoresis)样品、腹水、乳汁、呼吸分泌物、粘液、小肠分泌物、羊水、绒膜绒毛样品、胎儿样品、脐带样品或胎盘样品。

在一些情况下，样品可以从单个来源或来源的组合中获得。在一些情况下，母体和胎儿多核苷酸的混合物可以从相同的生物样品中获得。在一些情况下，母体和胎儿多核苷酸的混合物可以从例如母体血液的单个母体样品中获得。在一些情况下，样品可以从独立的样品中获得。举例来说，样品可以包含来源于母体组织的多核苷酸和来源于独立的胎儿组织的多核苷酸。在一些情况下，母体和胎儿多核苷酸可以在取样后混合。在一些情况下，样品可以来源于不同的个体、相同或不同的个体的不同的发育阶段、具有不同疾病状态的个体(即患有癌症或怀疑患有遗传病症的个体)、正常或健康的个体、患有一种或多种疾病状态的个体、针对疾病经受不同的治疗的个体、暴露于不同的环境因素的个体或暴露于不同的传染体或致病体(即病毒、细菌、病原体)的个体。通常，生物样品可以来源于怀孕女性。在其它情况下，样品可以直接来源于胚胎或胎儿。在一些情况下，样品可以来源于在子宫内的胎儿。在其它情况下，样品可以来源于最初通过体外受精(IVF)产生并随后与独立的母体样品组合的胚胎或培养的胚胎组织。

样品还可以从细胞培养物(例如体外培养的组织)中的细胞、培养的细胞或其它培养的含有多核苷酸的来源获得。取自体外来源的样品可以在多种条件下培养，包括(但不限于)不同类型的培养基条件(即pH、温度、生长因子、营养组分等)、培养时间的长短或用外部因素(即药物、候选药物、化学试剂、毒素等)处理。

已获得样品后，可以使用本领域中已知的任何适合技术提取、分离和纯化多核苷酸。举例来说，在一些情况下，可以使用任何适合的可商购获得的试剂盒，例如Qiagen循环核酸试剂盒分离、提取和制备DNA。其它实例包括(但不限于)QiagenQubit^TMdsDNAHS分析试剂盒方案、Agilent^TMDNA1000试剂盒或TruSeq^TM测序文库制剂；例如SigmaAldrich、LifeTechnologies、Promega、Affymetrix、IBI等公司提供的低通量(LT)或其它试剂盒。任何适合的非商购可获得的试剂盒也可以用于分离和纯化用于本公开的系统和方法的多核苷酸。

纯化后，在一些情况下，多核苷酸可以与一种或多种其它物质，例如一种或多种试剂预混合。试剂可以包括(但不限于)连接酶、蛋白酶、聚合酶、限制性内切酶、dNTP、盐、散装多核苷酸等等。可以在随后杂交步骤前添加一种或多种试剂用于制备多核苷酸。

B.多核苷酸片段化

分离和纯化后，本公开的系统和方法提供了用于将多核苷酸在杂交前片段化的任选的制备步骤。在一些情况下，多核苷酸可以呈片段形式分离和纯化，例如在多核苷酸降解或发现为短序列(例如无细胞的多核苷酸)的情况下。在其它情况下，多核苷酸可以呈完整或基本上完整的序列形式分离和纯化，例如基因组DNA(gDNA)。

例如gDNA的样品链的片段化可能特别适用于一些情况。举例来说，多核苷酸可以在杂交前分割，其中单一链或片段分离并分割在例如单个孔、单一液滴或单一乳液中。gDNA可以片段化成非重叠的序列，所述序列可以分割并在分割物内部与各种其它试剂组合。在一个实例中，如本文中描述的条形码序列可以分配给分割物内的探针序列。

分割可以用任何适合的方法或装置进行。举例来说，微流体装置因分布样品或反应混合物，接着添加试剂而众所周知。用于分布和组合添加试剂的各种商业平台可以与本公开的系统和方法一起使用。举例来说，可以使用DynamicArray^TM和AccessArray^TM系统以及在文献中描述的系统(参见例如美国专利No.7,604,965；专利公布WO2010/077618；US2009/0317798；US2008/0223721；US2009/0257920；US2009/0291435；US2011/0126910和未公布的申请PCT/US10/58459，所述文献都以引用的方式并入本文中)。其它方法包括使用微流体卡片。一种适用的方法包括将反应混合物分布到其中可以进行扩增反应的微滴中(参见例如专利申请公布No.US2009/0035838；US2010/0022414；WO01/89788；WO2006/040551；WO2006/040554；WO2004/002627；WO2008/063227；WO2004/091763；WO2005/021151；WO2006/096571；WO2007/089541；WO2007/081385和WO2008/063227，所述文献都以引用的方式并入本文中)。在一种基于小滴的方法中，样品可以分割到多个小滴中且个别相同的小滴与含有指定试剂的小滴融合。

在一些情况下，多核苷酸可以片段化成约10-50、50-100、100-500、500-1000、1000-3000或1000-3000个碱基对长度的尺寸。在一些情况下，多核苷酸可以片段化成至少10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000或5000个碱基对长度的尺寸。在一些情况下，多核苷酸可以片段化成至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000或5000个碱基对长度的尺寸。

本文中描述许多片段化系统和方法并在本领域中已知。举例来说，片段化可以通过物理、机械或酶促系统和方法进行。物理片段化可以包括将靶标多核苷酸暴露于热或紫外线。机械破坏可以用于例如通过超声或雾化机械地将靶标多核苷酸剪切成所需范围的片段。靶标多核苷酸还可以使用酶促系统和方法片段化。在一些情况下，酶促消化可以使用酶，例如使用限制性内切酶进行。

限制性内切酶可以用于进行靶标多核苷酸的特定或非特定片段化。本公开的系统和方法可以使用一种或多种类型的限制性内切酶，通常描述为I型酶、II型酶和/或III型酶。II型和III型酶通常可商购购得并为本领域所熟知。

IV.靶标扩增和测序

在一个方面，本发明提供了一种用于对样品中的多个靶标多核苷酸测序的方法。在一个实施方案中，所述方法包括：(a)将靶标多核苷酸片段化以产生片段化的多核苷酸；(b)将衔接子寡核苷酸接合于片段化的多核苷酸，每一衔接子寡核苷酸包含序列D，以产生包含在接附多核苷酸的两个末端与互补序列D’杂交的序列D的接附多核苷酸，任选地其中序列D’通过延伸靶标多核苷酸3’末端来产生；(c)使用包含序列C、序列D和与样品缔合的条形码的扩增引物扩增接附多核苷酸，其中序列D位于扩增引物的3’末端；(d)使扩增的靶标多核苷酸与附接至固体表面的多个不同的第一寡核苷酸杂交；(e)在固体表面上进行桥式扩增；以及(f)对来自步骤(e)的多个多核苷酸测序。固体表面可以包含多个寡核苷酸。在一些实施方案中，固体表面包含(i)包含序列A和序列B的多个不同的第一寡核苷酸，其中序列A在所有第一寡核苷酸中是共用的；且此外其中序列B对于每一不同的第一寡核苷酸是不同的，处于每一第一寡核苷酸的3'末端并与包含目标基因座的序列或目标基因座的200个核苷酸内的序列互补；(ii)在每一3’末端包含序列A的多个第二寡核苷酸；以及(iii)在每一3’末端包含序列C的多个第三寡核苷酸。在一些实施方案中，序列A、B、C和D中的一者或多者是不同的序列。在一些实施方案中，序列A、B、C和D中的一者或多者与序列A、B、C和D中其它序列中的一者或多者有约、小于约或大于约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％或更多的不同(例如具有小于约10％、20％、30％、40％、50％、60％、70％、80％、90％或更多的序列同一性)。在一些实施方案中，序列A、B、C和D中的一者或多者中的每一者包含约、小于约或大于约1、2、3、4、5、6、7、8、9、10、15、20个或更多个核苷酸。

可以通过适当的方法，例如本文中描述的方法获得样品并片段化。在一些实施方案中，片段化之后是衔接子寡核苷酸与片段化的多核苷酸的连接。衔接子寡核苷酸包括具有至少一部分已知的序列的任何寡核苷酸，其可以与靶标多核苷酸接合。衔接子寡核苷酸可以包含DNA、RNA、核苷酸类似物、非典型(non-canonical)核苷酸、标记核苷酸、修饰核苷酸或其组合。衔接子寡核苷酸可以是单链、双链或部分双螺旋。通常，部分双螺旋的衔接子包含一个或多个单链区域和一个或多个双链区域。双链衔接子可以包含彼此杂交的两个独立的寡核苷酸(也称为“寡核苷酸双螺旋”)，且杂交可能留下由错配和/或不成对的核苷酸产生的一个或多个平末端、一个或多个3’突出端、一个或多个5’突出端、一个或多个凸起(bulge)或这些的任何组合。在一些实施方案中，单链衔接子包含能够彼此杂交的两个或更多个序列。当单链衔接子中含有两个此类可杂交序列时，杂交产生发夹结构(发夹衔接子)。当衔接子的两个杂交区域彼此被非杂交区域分离时，得到“气泡”结构。包含气泡结构的衔接子可以由包含内部杂交的单个衔接子寡核苷酸组成，或可以包含两个或更多个彼此杂交的衔接子寡核苷酸。例如在衔接子中的两个可杂交序列之间的内部序列杂交可以在单链衔接子寡核苷酸中产生双链结构。不同种类的衔接子可以组合使用，例如发夹衔接子和双链衔接子或不同序列的衔接子。不同的衔接子可以在顺序反应中或同时与靶标多核苷酸接合。在一些实施方案中，将相同的衔接子添加至靶标多核苷酸的两个末端。举例来说，第一和第二衔接子可以添加至相同的反应。衔接子可以在与靶标多核苷酸组合前进行操作。举例来说，末端磷酸酯可以添加或去除。

在一些实施方案中，衔接子是通过将两条部分互补的多核苷酸链退火而形成的错配的衔接子，以便当两条链退火时提供至少一个双链区域和至少一个不匹配的区域。衔接子的“双链区域”是短双链区域，通常包含5个或更多个连续碱基对，该碱基对通过将两条部分互补的多核苷酸链退火而形成。此术语仅仅是指其中两条链退火的核酸的双链区域且并不意味任何具体的结构构象。在一些实施方案中，双链区域为约、小于约或大于约5、10、15、20、25、30个或更多个核苷酸长度。通常，有利的是，错配的衔接子的双链区域在无功能损失下尽可能得短。在这里“功能”意指双链区域在酶催化的核酸连接反应的标准反应条件下形成稳定的双螺旋，所述条件为本领域的技术人员已知(例如在4℃至25℃范围内的温度下在适合于酶的连接缓冲液中孵育)，使得形成衔接子的两条链在衔接子与靶标分子连接期间保持部分退火。并不绝对需要双链区域在通常用于引物延伸或PCR反应的退火步骤的条件下是稳定的。通常，双链区域邻接于衔接子的“可连接”末端，即在连接反应中接合于靶标多核苷酸的末端。衔接子的可连接末端可以是平末端，或在其它实施方案中，可以存在一个或多个核苷酸的5’或3’突出端以有助于/促进连接。在衔接子的可连接末端的5’端核苷酸通常进行磷酸化以能够与样品多核苷酸上的3’羟基形成磷酸二酯键。术语“不匹配的区域”是指其中形成衔接子的两条多核苷酸链的序列的不互补程度使得两条链不能在引物延伸或PCR反应的标准退火条件下彼此退火的衔接子区域。不匹配的区域中的两条链可能在酶催化的连接反应的标准反应条件下显示一定程度的退火，前提是两条链在退火条件下恢复至单链形式。

衔接子寡核苷酸可以含有多种序列元件中的一者或多者，包括(但不限于)一个或多个扩增引物退火序列或其互补序列、一个或多个测序引物退火序列或其互补序列、一个或多个条形码序列、一个或多个在多个不同的衔接子或不同衔接子的子集中共享的共同序列、一个或多个限制性内切酶识别位点、与一个或多个靶标多核苷酸突出端互补的一个或多个突出端、一个或多个探针结合位点(例如用于附接于测序平台，例如大规模平行测序的流动池，例如如本文中描述的设备，或如Illumina,Inc.研发的流动池)、一个或多个随机或近乎随机的序列(例如一个或多个随机地从一组两个或更多个不同的核苷酸在一个或多个位置选择的核苷酸，其中在一个或多个位置选择的每一不同的核苷酸在包含随机序列的一池衔接子中表示)和其组合。两个或更多个序列元件可以彼此不相邻(例如被一个或多个核苷酸分开)、彼此相邻、部分重叠或完全重叠。举例来说，扩增引物退火序列还可以用作测序引物退火序列。序列元件可以位于或接近3’末端，位于或接近5’末端，或在衔接子寡核苷酸的内部。当衔接子寡核苷酸能够形成例如发夹的二级结构时，序列元件可以部分或完全位于二级结构外，部分或完全位于二级结构内或位于参与二级结构的序列之间。序列元件可以是任何适合的长度，例如约、小于约或大于约3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或更多个核苷酸长度。衔接子寡核苷酸可以具有任何适合的长度，至少足够容纳构成其的一个或多个序列元件。在一些实施方案中，衔接子为约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200个或更多个核苷酸长度。

在一些实施方案中，接合于来自一个样品的片段化的多核苷酸的衔接子寡核苷酸包含一个或多个所有衔接子寡核苷酸共用的序列，和接合于该特定样品的多核苷酸的衔接子所特有的条形码，使得条形码序列可以用于区别来源于一个样品或衔接子接合反应的多核苷酸与来源于另一样品或衔接子接合反应的多核苷酸。在一些实施方案中，衔接子寡核苷酸包含与一个或多个靶标多核苷酸突出端互补的5’突出端、3’突出端或两者。互补的突出端可以是一个或多个核苷酸长度，包括(但不限于)1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸长度。互补的突出端可以包含固定序列。衔接子寡核苷酸的互补突出端可以包含一个或多个核苷酸的随机序列，使得一个或多个核苷酸随机从一组两个或更多个不同的核苷酸在一个或多个位置选择，其中在一个或多个位置选择的每一不同的核苷酸在具有包含随机序列的互补突出端的一池衔接子中表示。在一些实施方案中，衔接子突出端与限制性核酸内切酶消化产生的靶标多核苷酸突出端互补。在一些实施方案中，衔接子突出端由腺嘌呤或胸腺嘧啶组成。

在一些实施方案中，衔接子寡核苷酸包含含有序列元件序列D的一条链。在一些实施方案中，衔接子寡核苷酸包含与互补序列D’杂交的序列D，其中序列D’在与序列D相同或不同的链上。在一些实施方案中，靶标多核苷酸的3’末端沿着衔接子寡核苷酸延伸以产生互补的序列D’。在一些实施方案中，片段化的多核苷酸和衔接子寡核苷酸组合并处理(例如通过连接和任选地通过片段延伸)以产生在两个末端包含接合于衔接子寡核苷酸序列的片段化的多核苷酸序列的双链接附多核苷酸，其中接附寡核苷酸的两个末端包含与序列D’杂交的序列D。在一些实施方案中，进行衔接子接合的片段化的多核苷酸的量为约、小于约或大于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多(例如阈值量)。在一些实施方案中，在进行衔接子接合前测定片段化的多核苷酸的量，其中如果量低于阈值量，则不进行衔接子接合。

如本文所用，关于两个多核苷酸，例如衔接子寡核苷酸和样品多核苷酸的术语“接合”和“连接”是指两个独立的多核苷酸的共价附接，从而产生具有连续主链的单个较大多核苷酸。用于接合两个多核苷酸的方法的非限制性实例包括酶促和非酶促(例如化学)方法。非酶促连接反应的实例包括以引用的方式并入本文中的美国专利No.5,780,613和5,476,930中描述的非酶促连接技术。在一些实施方案中，衔接子寡核苷酸通过例如DNA连接酶或RNA连接酶的连接酶接合于片段化的多核苷酸。每一者具有特征反应条件的连接酶的非限制性实例包括NAD⁺依赖性连接酶，包括tRNA连接酶、TaqDNA连接酶、丝状栖热菌(Thermusfiliformis)DNA连接酶、大肠杆菌(Escherichiacoli)DNA连接酶、TthDNA连接酶、水管致黑栖热菌(Thermusscotoductus)DNA连接酶(I和II)、热稳定的连接酶、Ampligase热稳定的DNA连接酶、VanC类型连接酶、9°NDNA连接酶、TspDNA连接酶和通过生物勘探发现的新颖的连接酶；ATP依赖性连接酶，包括T4RNA连接酶、T4DNA连接酶、T3DNA连接酶、T7DNA连接酶、PfuDNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV和通过生物勘探发现的新颖的连接酶；和野生型突变同工型和其基因工程变体。连接可以在具有例如互补突出端的可杂交序列的多核苷酸之间。连接还可以在两个平末端之间。通常，5’磷酸酯用于连接反应中。5’磷酸酯可以由片段化的多核苷酸、衔接子寡核苷酸或两者提供。5’磷酸酯可以根据需要添加至待接合的多核苷酸或从待接合的多核苷酸去除。用于添加或去除5’磷酸酯的方法为本领域中已知，且包括不限于酶促和化学过程。适用于添加和/或去除5’磷酸酯的酶包括激酶、磷酸酶和聚合酶。在一些实施方案中，在连接反应中接合的两个末端(例如衔接子末端和片段化的多核苷酸末端)都提供5’磷酸酯，使得在接合两个末端时在片段化的多核苷酸的一个或两个末端形成两个共价键。在一些实施方案中，在连接前去除3’磷酸酯。在一些实施方案中，衔接子寡核苷酸添加至片段化的多核苷酸的两个末端，其中每一末端的一条或两条链接合于一个或多个衔接子寡核苷酸。在一些实施方案中，针对不同的样品，使用包含至少一个对于每一个样品来说不同的条形码序列的不同的衔接子寡核苷酸，进行独立的连接反应，使得无条形码序列与一个以上平行待分析的样品的靶标多核苷酸接合。

衔接子寡核苷酸的非限制性实例包括通过使CACTCAGCAGCACGACGATCACAGATGTGTATAAGAGACAGT(SEQIDNO:17)与GTGAGTCGTCGTGCTGCTAGTGTCTACACATATTCTCTGTC(SEQIDNO:18)杂交所形成的双链衔接子。衔接子寡核苷酸的其它非限制性实例描述于以引用的方式并入本文中的US20110319290和US20070128624中。

在一些实施方案中，使接附的多核苷酸进行扩增样品中的靶标多核苷酸的扩增反应。在一些实施方案中，扩增使用包含序列C、序列D和与样品缔合的条形码的引物，其中序列D位于扩增引物的3’末端。扩增引物可以是任何适合的长度，例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸，其任何部分或全部可以与与引物杂交的对应的靶标序列互补(例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)。“扩增”是指增加靶标序列的拷贝数的任何过程。可以使用适用于引物定向的靶标多核苷酸扩增的任何方法，其实例包括不限于基于聚合酶链式反应(PCR)的方法。有利于通过PCR扩增靶标序列的条件可以在过程中的多个步骤优化，并可以取决于反应中元件的特征，例如靶标类型、靶标浓度、待扩增的序列长度、靶标和/或一个或多个引物的序列、引物长度、引物浓度、使用的聚合酶、反应体积、一个或多个元件与一个或多个其它元件的比率等等，其中一些或全部可以改变。通常，PCR包括待扩增的靶标(如果是双链)变性、一个或多个引物与靶标杂交和通过DNA聚合酶延伸引物的步骤，其中为了扩增靶标序列，重复(或“循环”)步骤。此过程中的步骤可以针对各种结果优化，例如增强产率，减少假产物的形成，和/或增加或减少引物退火的特异性。优化方法包括调整扩增反应中元件的类型或量和/或过程中既定步骤的条件，例如具体步骤的温度、具体步骤的持续时间和/或循环数。在一些实施方案中，扩增反应包含至少5、10、15、20、25、30、35、50个或更多个循环。在一些实施方案中，扩增反应包含不超过5、10、15、20、25、35、50个或更多个循环。循环可以含有许多步骤，例如1、2、3、4、5、6、7、8、9、10个或更多个步骤。步骤可以包含适于实现包括(但不限于)链变性、引物退火和引物延伸的既定步骤的目的的任何温度或温度梯度。步骤可以具有任何持续时间，包括(但不限于)约、小于约或大于约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600秒或更多秒，包括无限期，直到手动中断。包含不同步骤的任何数目的循环可以按任何次序组合。

在一些实施方案中，扩增包含扩增引物的3'末端的序列D与接附多核苷酸的序列D’之间的杂交，扩增引物沿着接附多核苷酸的延伸，以产生包含来源于扩增引物的序列D和在引物延伸期间产生的序列D’的引物延伸产物。在一些实施方案中，通过使来自模板多核苷酸的引物延伸产物变性，并使用引物延伸产物作为进一步引物延伸反应的模板来重复该过程，来重复扩增过程一次或多次。在一些实施方案中，使用与用于第一引物延伸反应中的引物相同的引物来重复引物延伸的第一循环，例如约、小于约或大于约5、10、15、20、25、30、35、50个或更多个循环。在一些实施方案中，通过扩增引物的一个或多个引物延伸后面为使用3’末端包含与通过用第一扩增引物扩增而添加至接附多核苷酸的序列互补(例如与序列C的互补序列或其部分互补)的序列的第二扩增引物的一个或多个扩增循环。在一些实施方案中，第二扩增引物在3’末端包含序列C或其部分。第二扩增引物的一非限制性实例包括CGAGATCTACACGCCTCCCTCGCGCCATCAG(SEQIDNO:19)。在一些实施方案中，通过第二扩增引物的扩增包含约、小于约或大于约5、10、15、20、25、30、35、50个或更多个循环。在一些实施方案中，进行扩增的接附多核苷酸的量为约、小于约或大于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多(例如阈值量)。在一些实施方案中，在进行扩增前测定接附多核苷酸的量，其中如果量低于阈值量，则不进行扩增。

在一些实施方案中，扩增引物包含条形码。通常，术语“条形码”是指允许条形码所缔合的多核苷酸的一些特征被鉴别的已知的核酸序列。在一些实施方案中，待鉴别的多核苷酸的特征是多核苷酸来源于的样品。在一些实施方案中，条形码为约或至少约3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸长度。在一些实施方案中，条形码短于10、9、8、7、6、5或4个核苷酸长度。在一些实施方案中，与一些多核苷酸缔合的条形码具有不同于与其它多核苷酸缔合的条形码的长度。通常，条形码具有足够长度并包含足够不同以允许基于多核苷酸缔合的条形码鉴别缔合多核苷酸(例如样品来源)的特征的序列。在一些实施方案中，条形码和其缔合的样品来源可以在条形码序列中一个或多个核苷酸的突变、插入或缺失(例如1、2、3、4、5、6、7、8、9、10个或更多个核苷酸突变、插入或缺失)后精确地鉴别。在一些实施方案中，多个条形码中的每一条形码在至少三个核苷酸位置，例如至少3、4、5、6、7、8、9、10个或更多个核苷酸位置不同于所述多个条形码中每个其它条形码。多个条形码可以在一池样品中表示，每一样品包含含有的一个或多个条形码不同于来源于池中其它样品的多核苷酸中含有的条形码的多核苷酸。包含一个或多个条形码的多核苷酸的样品可以基于其接合的条形码序列汇集，使得所有四个核苷酸碱基A、G、C和T在沿着池中每一条形码的一个或多个位置(例如在条形码的1、2、3、4、5、6、7、8个或更多个位置，或所有位置)大致均匀地表示。在一些实施方案中，本发明的方法还包括基于靶标多核苷酸所接合的条形码序列，鉴别靶标多核苷酸来源于的样品。

在一些实施方案中，针对独立的样品，使用包含至少一个对于每一个样品来说不同的条形码序列的扩增引物，进行独立的扩增反应，使得无条形码序列与两个或更多个样品的池中一个以上样品的靶标多核苷酸接合。在一些实施方案中，来源于不同样品且包含不同的条形码的扩增的多核苷酸在进行多核苷酸的随后操作前(例如在固体载体上扩增和/或测序前)汇集。池可以包含全部组分扩增反应的任何级分，包括全反应体积。样品可以均匀或不均匀地汇集。在一些实施方案中，靶标多核苷酸基于其接合的条形码汇集。池可以包含来源于约、小于约或大于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、20、25、30、40、50、75、100个或更多个不同的样品的多核苷酸。样品可以根据四的倍数汇集，以在沿着条形码的一个或多个位置，例如4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64、96、128、192、256、384等等均匀地表示所有四个核苷酸碱基A、G、C和T。条形码的非限制性实例包括AGGTCA、CAGCAG、ACTGCT、TAACGG、GGATTA、AACCTG、GCCGTT、CGTTGA、GTAACC、CTTAAC、TGCTAA、GATCCG、CCAGGT、TTCAGC、ATGATC和TCGGAT。在一些实施方案中，条形码位于扩增引物的序列D与序列C之间，或在5’至3’方向(“下游”)上的序列C和序列D之后。在一些实施方案中，扩增引物包含以下序列或由其组成：

CGAGATCTACACGCCTCCCTCGCGCCATCAGXXXXXXCACTCAGCAGCACGACGATCAC(SEQIDNO:21)，其中每一“X”表示条形码序列的零、一或更多个核苷酸。

扩增引物的非限制性实例提供于表1中：

表1：

在一些实施方案中，靶标多核苷酸与附接至固体载体的多个寡核苷酸杂交。杂交可以在例如衔接子接合和扩增的一个或多个样品处理步骤之前或之后。在一些实施方案中，靶标多核苷酸在衔接子接合和一个或多个扩增反应后与固体载体上的寡核苷酸杂交。固体载体上的寡核苷酸可以与随机的多核苷酸序列、多个不同的靶标多核苷酸共用的特定序列(例如来源于衔接子寡核苷酸的一个或多个序列，例如序列D、D’或其一部分；来源于扩增引物的一个或多个序列，例如序列C、C’或其一部分；或这些序列的组合)、不同的靶标多核苷酸特定的序列(例如由序列B表示)或这些序列的组合杂交。在一些实施方案中，固体载体包含含有序列A和序列B的多个不同的第一寡核苷酸，其中序列A在所有第一寡核苷酸中是共用的；且此外其中每一不同的第一寡核苷酸的序列B是不同的，在每一第一寡核苷酸的3'末端。在一些实施方案中，多个第一寡核苷酸包含约、小于约或大于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000个或更多个不同的寡核苷酸，每一者包含不同的序列B。在一些实施方案中，序列B或其特异性杂交的靶标序列包含目标基因座。在一些实施方案中，序列B或其特异性杂交的靶标序列在目标基因座的约、小于约或大于约1、2、3、4、5、6、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500个或更多个核苷酸内。固体载体可还包括在每一第二寡核苷酸的3'末端包含序列A的多个第二寡核苷酸和在每一第三寡核苷酸的3'末端包含序列C的多个第三寡核苷酸，如本文中描述。

在一些实施方案中，方法还包括在固体载体上进行桥式扩增。通常，桥式扩增使用引物与模板的退火、引物延伸和延伸的引物与模板分离的重复步骤。这些步骤通常可以使用熟悉PCR(或反转录酶加PCR)技术的人员已知的试剂和条件进行。因此，核酸聚合酶可以与一批核苷三磷酸分子(或用作DNA/RNA中存在的核苷酸的前驱体的其它分子，例如经修饰的核苷三磷酸)一起用以在适合的模板存在下延伸引物。希望提供过量的三磷酸脱氧核糖核苷。例示性三磷酸脱氧核糖核苷缩写；dTTP(三磷酸脱氧胸苷核苷)、dATP(三磷酸脱氧腺苷核苷)、dCTP(三磷酸脱氧胞苷核苷)和dGTP(三磷酸脱氧鸟苷核苷)。例示性三磷酸核糖核苷是UTP、ATP、CTP和GTP。然而，替代物是可能的。这些可以是天然或非天然存在的。也可以提供通常用于PCR反应中的类型的缓冲液。用于在引物延伸期间并入核苷酸的核酸聚合酶优选在利用的反应条件下是稳定的，以便其可以使用若干次。因此，在加热用以将新合成的核酸链与其模板分开的情况下，核酸聚合酶优选在使用的温度下是热稳定的。此类热稳定的聚合酶可获自嗜热微生物，且包括被称为Taq聚合酶的DNA依赖性的DNA聚合酶以及其热稳定的衍生物。

通常，引物与其模板的退火发生在25至90℃的温度下。此范围内的温度还将通常在引物延伸期间使用，且可以与退火和/或变性期间使用的温度相同或不同。一旦允许退火以及允许所需程度的引物延伸发生的足够时间消逝，则需要时可以增加温度，以允许链分离。在此阶段，温度将通常增加到60至100℃的温度。高温还可以用以减少退火前的非特异性引发问题，和/或控制扩增开始的时间选择，例如以使大量样品的扩增开始同步。或者，链可以通过用低盐和高pH值(>12)的溶液处理或通过使用离液序列高的盐(例如盐酸胍)或通过有机溶剂(例如甲酰胺)分开。

链分离(例如通过加热)后，可以进行洗涤步骤。在初始数轮的退火、引物延伸和链分离之间可以省略洗涤步骤，例如在希望维持相同的模板在固定引物附近的情况下。此允许模板使用若干次以引发集落形成。通过在固体载体上扩增产生的集落的尺寸可以例如通过控制发生的退火、引物延伸和链分离的循环次数来控制。还可以控制影响集落尺寸的其它因素。这些因素包括固定引物的表面上的数目和排列、固定引物上的载体的构象、模板和/或引物分子的长度和刚度、温度和可以进行上述循环的流体的离子强度和粘度。

根据本公开的方法的扩增过程的一个非限制性实例在图11中说明并在下文中描述。首先，使附接至固体载体并在其3’末端包含序列B的第一寡核苷酸与互补的靶标序列B’(例如多个不同的靶标多核苷酸中(例如具体的基因组DNA序列)特定靶标多核苷酸所特有的序列)杂交。图11中的靶标多核苷酸包含来源于衔接子寡核苷酸(例如序列D和D’)和来源于扩增引物(例如C和C’)的序列。第一寡核苷酸的延伸产生附接至固体载体的第一延伸产物，第一延伸产物从5’至3’包含序列A、B、C’和D’，其中序列C’与序列C互补且序列D’与序列D互补。然后第一延伸产物与靶标多核苷酸模板分离(例如通过热或化学变性)。然后第一延伸产物的序列C’与附接至固体载体的多个第三寡核苷酸的一个杂交，所述第三寡核苷酸在其3’末端包含序列C。第三寡核苷酸的延伸产生附接至固体载体的第二延伸产物，所述第二延伸产物从5’至3’包含序列C、D、B’和A’，其中序列B’与序列B互补且序列A’与序列A互补。两个延伸产物形成双链多核苷酸“桥”，其中一条链在两个末端附接至固体载体。然后第一和第二延伸产物变性，且延伸产物与其它寡核苷酸之间的亚序列杂交、接着延伸复制第一和第二延伸产物。举例来说，每个第一延伸产物可以与另一第三寡核苷酸杂交以产生第二延伸产物其它的拷贝。另外，第二延伸产物可以与附接至固体载体的多个第二寡核苷酸的一个杂交，所述第二寡核苷酸在其3’末端包含序列A。第二寡核苷酸的延伸产生包含第一延伸产物的序列的延伸产物。沿着延伸产物的连续数轮的延伸从初始的第一延伸产物向外辐射，产生第一延伸产物和来源于单个靶标多核苷酸的其互补的第二延伸产物的簇或“集落”。此过程可以进行修改以适应包含不同序列或序列排列的寡核苷酸、不同的靶标多核苷酸或靶标多核苷酸的组合、固体载体的类型和取决于具体的桥式扩增反应的其它因素。通常，此过程提供了在特定靶标多核苷酸的固体载体上从包含靶标多核苷酸和非靶标多核苷酸的样品多核苷酸的扩增。通常，靶标多核苷酸选择性地扩增，而样品中的非靶标多核苷酸不扩增，或在低得多的程度上扩增，例如比一个或多个靶标多核苷酸低约或小于约10倍、100倍、500倍、1000倍、2500倍、5000倍、10000倍、25000倍、50000倍、100000倍、1000000倍或更多倍。

在一些实施方案中，进行桥式扩增的来自先前扩增步骤的扩增的多核苷酸的量为约、小于约或大于约50ng、100ng、500ng、lμg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、11μg、12μg、13μg、14μg、15μg、20μg、25μg、26μg、27μg、28μg、29μg、30μg、40μg、50μg或更多(例如阈值量)。在一些实施方案中，在进行桥式扩增前测定来自先前的扩增步骤的扩增的多核苷酸的量，其中如果量低于阈值量，则不进行桥式扩增。

在一些实施方案中，桥式扩增后面为对附接至固体载体的多个寡核苷酸测序。在一些实施方案中，测序包含单末端测序或由单末端测序组成。在一些实施方案中，测序包含配对末端(paired-end)测序或由配对末端测序组成。可以使用任何适合的测序技术进行测序，其中将核苷酸依次添加至游离3'羟基，引起在5'至3'方向上多核苷酸链的合成。添加的核苷酸的身份优选在添加每一核苷酸后测定。使用连接测序的其中不是每个连续的碱基都被测序的测序技术和例如大规模平行信号测序(MPSS)的其中碱基被去除，而非添加至表面上的链的技术也在本发明的范围内，与使用焦磷酸释放的检测的技术(焦磷酸测序)一样。此类基于焦磷酸测序的技术尤其可应用于对其中珠粒已经在乳液中扩增，使得来自文库分子的单个模板在每一珠粒上扩增的珠粒阵列进行测序。

可以用于本发明的方法的一种具体的测序方法取决于可以用作可逆链终止子的修饰核苷酸的使用。此类可逆的链终止子包含可去除的3’封闭基团，例如如WO04018497和US7057026中所描述。一旦此类修饰核苷酸已经并入与被测序的模板的区域互补的生长的多核苷酸链中，则没有游离的3’-OH基团可以用来指导进一步序列延伸，因此聚合酶无法添加其它核苷酸。一旦已经测定并入生长链中的碱基的身份，则去除3’封闭以允许下一个连续核苷酸的添加。通过将使用这些修饰核苷酸获得的产物排序，可以推导DNA模板的DNA序列。如果每一修饰核苷酸附接其已知对应于具体碱基的不同标记，则此类反应可以在单个实验中进行，以促进在每一并入步骤添加的碱基之间的区别。适合标记的非限制性实例描述于WO/2007/135368，其内容以引用的方式整体并入本文中。或者，可以进行含有个别地添加的每一修饰核苷酸的独立的反应。

修饰核苷酸可以携带标记以促进其检测。在一个具体的实施方案中，标记是荧光标记。每一核苷酸类型可以携带不同的荧光标记。然而，可检测的标记无须是荧光标记。可以使用允许检测核苷酸并入DNA序列中的任何标记。一种检测荧光标记的核苷酸的方法包括使用对标记核苷酸具有特异性的波长的激光，或使用其它适合的光源。并入的核苷酸上来自标记的荧光可以通过CCD摄像机或其它适合的检测方式检测。适合的检测方式描述于WO/2007/123744，其内容以引用的方式整体并入本文中。

在一些实施方案中，第一测序反应从在附接至固体载体的寡核苷酸中含有的裂解位点由裂解产生的3’末端开始，所述寡核苷酸在桥式扩增期间延伸。在一些实施方案中，在测序前通过附接寡核苷酸的延伸，将裂解链与其互补链分离。在一些实施方案中，具有通过裂解产生的新释放的3’末端的附接寡核苷酸使用具有链替换活性的聚合酶来延伸，使得裂解链在新链延伸时替换。在一些实施方案中，附接寡核苷酸的延伸沿着来自扩增反应的模板延伸产物的全长进行，在一些实施方案中，其包括除最后鉴别的核苷酸以外的延伸。在一些实施方案中，模板延伸产物然后在附接至固体载体的寡核苷酸中含有的裂解位点裂解，且在测序反应期间延伸的寡核苷酸线性化，以产生释放的第一测序延伸产物。第一测序产物的5’末端然后可以用作第二测序反应的模板，第二测序反应可以通过测序引物(例如本文中描述的测序引物)的延伸或通过从在裂解位点裂解产生的3’末端延伸来进行。在一些实施方案中，沿着被测序的模板多核苷酸鉴别的核苷酸的平均或中位数为约、小于约或大于约10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、300、400、500个或更多个。

在一些实施方案中，测序包括处理桥式扩增产物以去除“桥式”结构中固定链之一基本上全部或去除或替换至少一部分以产生至少部分单链的模板。因此，单链模板的部分将可用于与测序引物杂交。去除桥接双链核酸结构中一条固定链的全部或一部分的过程在本文中可以称为“线性化”并进一步详细地描述于WO07010251中，其内容以引用的方式整体并入本文中。

桥接模板结构可以通过用限制性核酸内切酶裂解一条或两条链或通过用切刻核酸内切酶裂解一条链来线性化。裂解的其它方法可以用作限制性内切酶或切刻酶的替代物，包括(但不限于)化学裂解(例如用高碘酸盐裂解二醇键)、通过用核酸内切酶(例如“USER”，如由NEB供应，产品型号M5505S)裂解的非碱基位点的裂解、通过暴露于热或碱金属、并入另外包含脱氧核塘核苷酸的扩增产物的核糖核苷酸的裂解、光化学裂解或肽接头的裂解。在一些实施方案中，可以避免线性化步骤，例如当固相扩增反应仅仅用一个共价固定的扩增寡核苷酸和在溶液中游离的另一扩增寡核苷酸进行时。裂解步骤后，无论用于裂解的方法如何，裂解反应的产物都可以经受变性条件以去除未附接至固体载体的裂解链的部分。本领域中已知适合的变性条件，例如氢氧化钠溶液、甲酰胺溶液或热，例如描述于标准分子生物学方案(Sambrook等人,2001,MolecularCloning,ALaboratoryManual,第3版,ColdSpringHarborLaboratoryPress,ColdSpringHarborLaboratoryPress,NY；CurrentProtocols,Ausubel等人编)中。变性引起部分或基本上单链的测序模板的产生。然后可以通过测序引物与模板的单链部分杂交来开始测序反应。因此，本公开涵盖如下方法，其中核酸测序反应包括使测序引物与线性化扩增产物的单链区域杂交，将一个或多个核苷酸依序并入与待测序的扩增模板链的区域互补的多核苷酸链中，鉴别并入的核苷酸中的一者或多者中存在的碱基，并由此确定模板链的区域的序列。

在一些实施方案中，测序引物包含与来源于衔接子寡核苷酸、扩增引物、附接至固体载体的寡核苷酸或其组合的一个或多个序列互补的序列。在一些实施方案中，测序引物包含序列D或其一部分。在一些实施方案中，测序引物包含序列C或其一部分。测序引物可以具有任何适合的长度，例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸，其任何部分或全部都可以与与引物杂交的对应靶标序列互补(例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)。在一些实施方案中，测序引物包含序列CACTCAGCAGCACGACGATCACAGATGTGTATAAGAGACAG(SEQIDNO:20)。

通常，测序引物的延伸产生测序延伸产物。在测序过程中鉴别的添加至测序延伸产物的核苷酸数目可以取决于大量因素，包括模板序列、反应条件、使用的试剂和其它因素。在一些实施方案中，沿着生长测序引物鉴别的核苷酸的平均或中位数为约、小于约或大于约10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、300、400、500个或更多个。在一些实施方案中，测序引物沿着来自扩增反应的模板引物延伸产物的全长延伸，在一些实施方案中，其包括除最后鉴别的核苷酸以外的延伸。

在一些实施方案中，测序延伸产物经受变性条件，以从与其杂交的附接模板链去除测序延伸产物，从而制造部分或完全单链并可与第二测序引物杂交的模板。第二测序引物可以与第一测序引物相同或不同。在一些实施方案中，第二测序引物与比第一测序引物杂交的序列更靠近靶标核酸5’末端的序列杂交。在一些实施方案中，第二测序引物与比第一测序引物杂交的序列更靠近靶标核酸3’末端的序列杂交。在一些实施方案中，第一和第二测序引物中仅仅一个沿着条形码序列延伸，由此鉴别条形码序列中的核苷酸。在一些实施方案中，一个测序引物(例如第一测序引物)与位于条形码5’的序列杂交(使得此测序引物的延伸不产生与条形码互补的序列)，且另一测序引物(例如第二测序引物)与位于条形码3’的序列杂交(使得此测序引物的延伸产生与条形码互补的序列)。在一些实施方案中，第二测序引物包含SEQIDNO:19。

本公开不意图局限于以上所概述的测序方法的使用，因为可以使用依赖于核苷酸连续并入多核苷酸链中的大量测序方法。适合技术包括例如以引用的方式整体并入的US6306597、US20090233802、US20120053074和US20110223601中描述的技术。在采用链再合成的情况下，两条链必须以允许随后释放固定链的一部分的方式固定至表面。此可以通过如WO07010251(其内容以引用的方式整体并入本文中)中所描述的许多机制实现。举例来说，一个引物可以含有尿嘧啶核苷酸，意指所述链可以使用去除核苷酸碱基的酶尿嘧啶DNA糖基化酶(UDG)和切除非碱基核苷酸的核酸内切酶VIII在尿嘧啶碱基裂解。此酶组合可以作为来自NewEnglandBiolabs的USER^TM(NEB产品型号M5505)获得。第二引物可以包含8-氧代鸟嘌呤核苷酸，8-氧代鸟嘌呤核苷酸接着可通过酶FPG(NEB产品型号M0240)裂解。引物的此设计提供了对在所述过程中引物在哪个点裂解以及簇中裂解发生位点的完全控制。引物也可以例如用允许在特定位点化学裂解的二硫化物或二醇修饰被化学修饰。

在一些实施方案中，针对来自单个反应容器(例如流动池中的通道)中样品的约、小于约或大于约5、10、25、50、100、150、200、250、300、400、500、750、1000、2500、5000、7500、10000、20000、50000个或更多个不同的靶标多核苷酸，产生测序数据。在一些实施方案中，针对多个样品，例如约、小于约或大于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000个或更多个样品平行产生测序数据。在一些实施方案中，针对单个反应容器(例如流动池中的通道)中多个样品，例如约、小于约或大于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000个或更多个样品产生测序数据，并随后根据测序多核苷酸所来自的样品将测序数据分组。在单个反应中，可以针对来自桥式扩增反应的约或至少约10⁶、10⁷、10⁸、2×10⁸、3×10⁸、4×10⁸、5×10⁸、10⁹、10¹⁰个或更多个靶标多核苷酸或簇，产生测序数据，其可以包含反应中每一样品的约、小于约或大于约10⁴、10⁵、10⁶、2×10⁶、3×10⁶、4×10⁶、5×10⁶、10⁷、10⁸个或更多个靶标多核苷酸或簇的测序数据。在一些实施方案中，基于测序数据确定样品的约、小于约或大于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000个或更多个致病遗传变体的存在、不存在或基因型。一个或多个致病遗传变体的存在、不存在或基因型可以在约或大于约80％、85％、90％、95％、97.5％、99％、99.5％、99.9％或更高的准确度下确定。

在一些实施方案中，本发明方法中的一个或多个或所有步骤例如通过利用一个或多个自动化装置自动进行。通常，自动化装置是在没有人类指导下能够操作的装置-自动化系统可以在人类已经结束采取任何行动来促进功能后的一段时间期间例如通过输入指令到计算机执行功能，此后自动化装置在没有进一步人类操作下进行一个或多个步骤。包括执行本发明的实施方案的代码的软件和程序可以存储在例如CD-ROM、DVD-ROM、磁带、闪存或磁盘的一些类型的数据存储介质或其它适当的计算机可读介质上。本发明的各种实施方案还可以专门在硬件中或软件与硬件的组合中执行。举例来说，在一个实施方案中，使用可编程序逻辑控制器(PLC)而非常规的个人计算机。如本领域的技术人员已知，PLC经常用于无需使用通用计算机的多种过程控制应用。PLC可以用已知的执行一种或多种控制程序的方式配置，并能够以类似于个人计算机的方式接收来自使用者或另一装置的输入和/或提供输出至使用者或另一装置。因此，虽然本发明的实施方案是根据通用计算机描述，但应该了解通用计算机的使用仅仅是例示性的，因为可以使用其它配置。

在一些实施方案中，自动化可以包含使用一个或多个液体处理机和相关软件。若干可商购获得的液体处理系统可以用于运行这些过程的自动化(参见例如来自Perkin-Elmer、BeckmanCoulter、CaliperLifeSciences、Tecan、Eppendorf、ApricotDesign、Velocity11的液体处理机作为实例)。在一些实施方案中，自动化步骤包括片段化、末端修复、A加尾(添加腺嘌呤突出端)、衔接子接合、PCR扩增、样品定量(例如DNA的量和/或纯度)和测序中的一者或多者。在一些实施方案中，扩增的多核苷酸与附接至固体表面的寡核苷酸的杂交、沿着作为模板的扩增的多核苷酸的延伸和/或桥式扩增是自动化的(例如通过利用IlluminacBot)。用于进行桥式扩增的装置的非限制性实例描述于WO2008002502中。在一些实施方案中，测序是自动化的。多种自动化测序机可商购获得，并包括LifeTechnologies制造的测序仪(SOLiD平台，且检测基于pH值)、Roche(454平台)、Illumina(例如基于流动池的系统，例如基因组分析仪、HiSeq或MiSeq系统)。2、3、4、5个或更多个自动化装置之间(例如液体处理机、桥式扩增装置和测序装置之间)的转移可以手动或自动化。在一些实施方案中，本发明方法中的一个或多个步骤(例如所有步骤或所有自动化步骤)在约或小于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1小时或更少小时内完成。在一些实施方案中，从样品接收、DNA提取、片段化、衔接子接合、扩增或桥式扩增至产生测序数据的时间为约或小于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1小时或更少小时。

图12中说明包含添加衔接子、第一引物延伸、用一对引物扩增、靶标多核苷酸的桥式扩增和测序的过程的一个示例实施方案。用于扩增和测序靶标多核苷酸的其它方法和组合物描述于US20140024536和WO2014015084A2中，两者都以引用的方式整体并入。

V.探针设计

本公开的系统和方法通常提供至少两个探针或杂交序列的组(本文中称为“探针组”)的使用。探针被设计成含有选择性地与多核苷酸序列的基因座的至少两个互补区域退火或杂交的序列。通常，探针组的探针被设计成与相同或同一多核苷酸链退火。在一些情况下，可以使用两个以上探针。在本公开中，当使用两个探针时，探针可以描述为“第一探针”和“第二探针”。通常，在与样品多核苷酸杂交前，探针可以以独立的非连续的寡核苷酸形式存在。在其它情况下，在与样品多核苷酸杂交前，一个或多个探针可以通过例如在分子倒置探针(MIP)或锁式探针(padlockprobe)中发现的接头序列连接。通常，探针包含单链多核苷酸分子。在一些情况下，探针可以包含DNA。通常，探针是人工序列，或包含最初在样品多核苷酸中不存在的核苷酸物质的序列。

在探针组的两个杂交序列的情况下，第一探针和第二探针通常被设计成与对应于测试基因座或区域的多核苷酸序列中的靶标元件杂交或退火。在一些情况下，靶标元件可以是例如在基因座序列的gDNA中发现的序列。在一些情况下，靶标元件可以是如在mRNA转录物或cDNA序列中发现的序列。在一些情况下，靶标元件可以是衔接子序列，其可以附接(即连接、缀合等等)至多核苷酸的末端并可能在多核苷酸的序列中未天然发现。衔接子序列可以在杂交前的步骤中使用本领域中已知的如本文中描述的任何适合的方法附接至多核苷酸或多核苷酸片段。在一个实例中，第一探针或第二探针可以被设计成与一个或多个附接至对应于基因座的多核苷酸的衔接子序列退火或杂交。

在一些情况下，一个或多个探针可以与基因座中的序列约10％-30％、30％-60％、60％-90％或90％-99.99％互补。在一些情况下，一个或多个探针可以与基因座中的序列至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、99.99％互补。在一些情况下，探针可以与基因座中的序列至多约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、99.99％互补。

在一些情况下，一个或多个探针可以被设计成选择性地检测单核苷酸多态性(SNP)。在一些情况下，两个不同的探针组(每一探针组分配有不同的条形码，如本文中描述)可以用于相同的基因座中的同一区域。两个探针组可以被设计成检测基因座中推定的SNP，使得包含一种变异SNP序列的一个探针组能够与基因座杂交，而含有替代变异SNP序列的另一个探针组不能与基因座杂交。多态性的检测可以通过使探针组中具体探针与SNP成功杂交并且计数分配给各自探针组的条形码序列来检测。在一些情况下，用于检测SNP的一个或多个变异碱基可能位于第一探针、第二探针或者两个探针的3'末端。在一些情况下，用于检测SNP的一个或多个变异碱基可以位于第一探针与第二探针之间的期望连接点附近。

此外，本公开的系统和方法提供了可以允许整个基因组中最佳探针选择的任何适合的算法。算法可以帮助探针设计或探针选择，例如提供关于基因座内最佳序列的建议，提供关于探针序列的长度的建议以及提供用于杂交的一般最佳参数(即温度、盐浓度等等)。在一些情况下，算法可以用于选择染色体中的特定基因座或多条染色体中的一个或多个目标基因座。

在一些情况下，第一和第二探针可以是约5-50、50-100、100-200、200-300、300-400或400-500个碱基对长度。在一些情况下，第一和第二探针可以是至少约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400或500个碱基对长度。在一些情况下，第一和第二探针可以是至多约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400或500个碱基对长度。

此外，第一和第二探针可以被设计成结合多核苷酸序列的同一链上的相邻位点。在一些情况下，第一与第二探针之间存在间隙或与探针还没有退火或杂交的单链样品序列的区域。在一些情况下，第一与第二探针的结合位点之间不存在间隙，使得第一和第二探针可以如本文中描述直接连接。在一些情况下，间隙可以是约1-25bp、25-50bp、50-100bp、100-500bp、500-1Kb、1Kb-2Kb、2Kb-3Kb、3Kb-4Kb或4Kb-5Kb长度。在一些情况下，间隙可以是至少约1bp、2bp、3bp、4bp、5bp、10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、75bp、100bp、125bp、150bp、175bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1Kb、2Kb、3Kb、4Kb、5Kb或10Kb长度。在一些情况下，间隙可以是至多约1bp、2bp、3bp、4bp、5bp、10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、75bp、100bp、125bp、150bp、175bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb或10kb长度。

通常，使用的探针组的数目可以通过样品中待测试的基因座数目确定。在一些情况下，可以使用约2-100、100-500、500-1000、1000-2000、2000-3000、3000-4000、4000-5000、5000-6000、6000-7000、7000-8000、8000-9000或9000-10000个探针组。在一些情况下，可以使用至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、3000、4000、5000、6000、7000、8000、9000或10000个探针组。在一些情况下，可以使用至多约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、3000、4000、5000、6000、7000、8000、9000或10000个探针组。

此外，在一些情况下，可以使用约2-100、100-500、500-1000、1000-2000、2000-3000、3000-4000、4000-5000、5000-6000、6000-7000、7000-8000、8000-9000或9000-10000个探针测试单基因座。在一些情况下，可以使用至少约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、3000、4000、5000、6000、7000、8000、9000或10000个探针测试单基因座。在一些情况下，可以使用至多约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、3000、4000、5000、6000、7000、8000、9000或10000个探针测试单基因座。

VI.目标基因座和遗传改变

本公开的系统和方法提供了对基因组中的一个或多个基因座进行测试。通常，基因座可以包含样品中的任何目标序列。在一些情况下，基因座可以描述为“目标基因座”，通常指具有推定的遗传改变的基因座，如本文中进一步描述。在本公开的一些方面，测试至少一个目标基因座和除目标基因座外的基因座。在一些情况下，一个或多个目标基因座可以是样品中的任何适合序列。一个或多个目标基因座可以包括(但不限于)染色体、基因、外显子、内含子、内含子-外显子边界、启动子、终止子、高度重复序列、LTR、UTR、卫星序列、着丝点重复序列、端粒、非编码序列、编码序列、调节子、质粒、转录因子结合位点、核糖体结合位点、5’帽、聚d(T)序列表观遗传序列、可移动元件、转座子或其组合。在一些情况下，基因座可以是在细胞中的任何多核苷酸序列中。在一些情况下，例如人类，基因座可以包含线粒体gDNA、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、染色体17、染色体18、染色体19、染色体20、染色体21、染色体22、X染色体或Y染色体的完整序列或部分序列。

在一些情况下，可以测试样品中约2-100、100-500、500-1000、1000-2000、2000-3000、3000-4000、4000-5000、5000-6000、6000-7000、7000-8000、8000-9000或9000-10000个基因座。在一些情况下，可以测试样品中至少约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000个基因座。在一些情况下，可以测试样品中至多约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000个基因座。

在一些情况下，可以基于某些探针的相对结合亲和力或基于如本文中进一步描述的与某些疾病的相关性，选择性地选择基因座。举例来说，可以选择和测试已知与例如孤独症的疾病有关的多对基因座。在一些情况下，测试基因座可以同时或依序进行。在一些情况下，可以选择针对多种疾病的多对基因座。测试一个或多个基因座可以同时或依序进行。举例来说，与孤独症有关的基因座和与21三体症有关的基因座可以同时测试。在另一实例中，可以针对可能包含拷贝数变异的特定染色体，例如21、18和13，选择一个或多个基因座。在其它情况下，可以选择代表整个基因组中的序列且可能不与一种或已知疾病有关的基因座。

此外，在一些情况下，在基因座内，可以选择探针靶向多态序列。在一些情况下，多态序列可以含有SNP。在其它情况下，多态序列可以不含有SNP。在一些情况下，在基因座内，可以选择探针靶向非多态序列。

本公开的系统和方法提供了可能在一个或多个目标基因座中发现或未发现的各种类型的遗传改变的检测。“遗传改变”、“遗传异常”和“染色体异常”在本文中可互换使用。在一些情况下，遗传改变可以是CNV。在其它情况下，遗传改变可以是杂合缺失(LOH)。通常，遗传改变可以包括(但不限于)重排、亚端粒(subtelomeric)重排、非整倍性、部分非整倍性、多倍性、染色体不稳定性、突变、罕见突变、拷贝数变异、颠换、移位、倒置、插入缺失、缺失、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体病变、DNA病变、核酸化学修饰的异常变化、表观遗传模式的异常变化、核酸甲基化的异常变化、病毒性插入、寄生虫DNA插入、串联重复序列的改变、感染和癌症。

VII.条形码和其它序列

在一些情况下，发现其它序列与探针组中的探针或杂交序列组合。通常，条形码序列、衔接子序列、通用引物序列和其它接头序列可以连接于第一和/或第二探针。

在第一和第二探针可以连接，例如通过MIP或锁式探针提供的情况下，可以在连接两个探针的连续环形区域中发现条形码序列、衔接子序列、通用引物序列和其它接头序列。在其它情况下，在探针保持线性的情况下，可以在任一探针的5’区域的非互补区域中发现其它序列。

A.分子条形码探针组

本公开的系统和方法还能够使探针序列分配到标识符。标识符的分配可以允许对探针序列标记、追踪或作条形码，以允许随后鉴别结合于多核苷酸样品链的具体探针序列。标识符的分配也可以提供一种定量或计数标识符和随后计数样品中的基因座的方式。

在一些情况下，标识符可以是寡核苷酸条形码序列。在一些实例中，可以在使用探针组用于杂交和下游分析前已知与探针组缔合的条形码序列的身份。在一些情况下，条形码序列可以代表探针序列，使得下游步骤中条形码序列的拷贝数的计数可以代表样品中结合探针的拷贝数。此外，结合探针的拷贝数可以代表一个或多个目标基因座中存在的序列的拷贝数。在一些情况下，条形码的拷贝数可以直接与探针的拷贝数以及随后目标基因座中序列的拷贝数成正比。在一些情况下，条形码的拷贝数可以等于探针的拷贝数或目标基因座中序列的拷贝数。因此，条形码、探针或其组合的计数可以用于确定基因座中具体序列的拷贝数。

条形码序列的同一性和计数可以用如本文中进一步描述的各种技术进行。举例来说，又如本文中进一步描述，测序可以用于计数条形码。

此外，在一些情况下，完全独特的条形码序列可以分配给个别探针组。在此情况下，独特的条形码序列可以附接至探针组中的一个或多个探针。在一些情况下，一个探针组可以被设计成测试一个基因座。独特的条形码序列的检测和计数可以提供对应基因座的身份和丰度。

在一些情况下，独特的条形码可以由各种序列的组合形成。在一些情况下，非独特的条形码可以与例如探针序列、探针序列部分或连接于探针以形成独特的条形码序列的其它序列的其它序列连接。举例来说，当单独或与非独特的条码序列组合使用时，独特序列的形成可以在探针序列的开始(起始)和结束(停止)部分形成。序列的组合(即探针序列与非独特的条形码序列)可以提供独特的标识符序列。举例来说，在一些情况下，条形码可以设计有通用结构5’XXXXYYYY，其中X是与选自包括(但不限于)第一和/或第二探针/杂交序列、衔接子序列、通用引发序列或接头序列的序列的一个序列互补的可变长度区域。Y可以选自可变长度的非独特的条形码序列。在一些情况下，Y序列可以是样品中所有探针组共同的。在其它情况下，Y序列可以是一个基因座或多个基因座，例如全染色体，或与具体的疾病或基因型有关的基因座所独有的。在一些情况下，定义为X或Y的核苷酸的长度或数目可以为约1-20、20-50、50-75、75-100、100-150、150-200、200-300、300-400或400-500个核苷酸。在一些情况下，定义为X或Y的核苷酸的长度或数目可以是至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、300、400或500个核苷酸。在一些情况下，定义为X或Y的核苷酸的长度或数目可以是至多约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、300、400或500个核苷酸。

在替代配置中，条形码可以通过至少约1、2、3、4、5、6、7、8、9或10个序列的组合形成。条形码可以通过至多约1、2、3、4、5、6、7、8、9或10个非独特序列的组合形成。

在本公开的系统和方法的替代配置中，非独特的条形码序列也可以分配给一个或多个探针组。举例来说，同一条形码可以分配给对相同基因座互补的探针。在一些情况下，基因座可以是亚染色体区域。在其它情况下，基因座可以是整条染色体，其中设计成与相同染色体的多个区域杂交的探针组可以分配同一条形码序列。在此实例中，条形码序列可以对于具体染色体是独特的，但对于相同的染色体上的基因座是类似的。举例来说，一个具体的条形码(“A”)可以分配给为例如染色体21的目标基因座设计的探针或探针组，而不同序列的另一条形码(“B”)可以分配给为另一目标基因座染色体18设计的探针。此外，第三条形码(“C”)可以分配给除染色体21或者染色体2外的基因座以提供参考。条形码A、B和C的计数以及A至C和B至C的计数读数的比较可以用于检测遗传改变，例如总体来说染色体21或者染色体18的拷贝数变异。

另外，共同的条形码序列可以分配给与疾病或疾病状态有关的一个或多个基因座。举例来说，一个条形码序列(“X”)可以分配给与一个或多个与囊性纤维化有关的基因座互补的一个或多个探针，而另一条形码(“Y”)分配给为与唐氏综合症(downssyndrome)有关的基因座设计的探针。第三条形码(“Z”)可以分配给被设计成能检测不与任一疾病有关的基因座的探针。条形码X、Y和Z的计数以及X至Z以及Y至Z的计数读数的比较可以用于在单个分析中检测任一疾病的遗传改变。在一些情况下，可以跨越多条染色体发现与具体的疾病有关的基因座。以此方式，可以同时测试与一种或多种疾病有关的一个或多个基因座。或者，可以依序测试与一种或多种疾病有关的一个或多个基因座。

在一些情况下，条形码序列可以是约1-10、10-20、20-50、50-100、100-500或500-1000个碱基对。在一些情况下，条形码序列可以是多种长度，使得每一条形码是至少约1、2、3、4、5、6、7、8、9、10、20、50、100、500或1000个碱基对。在其它情况下，条形码序列可以包含少于1、2、3、4、5、6、7、8、9、10、20、50、100、500或1000个碱基对。

B.条形码分配给探针组

常常如本文中描述，分配给探针组的标识符是与探针组中第一或第二探针连续的寡核苷酸条形码序列。然而，在一些情况下，可以使用不同的标识符。如同条形码序列一样，标识符可以是独特或非独特的。举例来说，在一些情况下，独特的标识符可以是杂交探针。在一个实例中，杂交探针可以包含寡核苷酸序列和其它的组分，例如荧光元件(即纳米粒子、纳米探针、量子点等)。在一些情况下，一个或多个荧光元件也可以描述为条形码。举例来说，变化波长或颜色的荧光元件可以以独特或非独特的模式或顺序排列。在其它情况下，标识符是染料，在此情况下附接可以包含染料嵌入分析物分子(例如嵌入DNA或RNA)中或结合于用染料标记的探针。在其它情况下，标识符可以是核酸寡核苷酸，在此情况下附接至多核苷酸序列可以包含寡核苷酸与序列之间的连接反应或通过PCR并入。在其它情况下，反应可以包含添加金属同位素，其中第一或第二探针标记有所述同位素。

在标识符包含条形码序列的情况下，本公开的系统和方法提供了条形码分配给探针所必需的任何适合试剂。在一些情况下，可以利用连接反应，其中包括(但不限于)连接酶、探针、缓冲液、衔接子寡核苷酸和多个鉴别DNA条形码的试剂可以用于产生探针组。在富集方法的情况下，包括(但不限于)多个PCR引物、探针、含有条形码序列的寡核苷酸、DNA聚合酶、DNTP和缓冲液等的试剂可以用于制备探针组。

VIII.杂交和连接

通常，任何适合的条件都可以用于将探针组与样品多核苷酸杂交。在一些情况下，第一探针和第二探针依序退火。在其它情况下，第一探针和第二探针同时退火。在一些情况下，探针可以依序添加至杂交反应。在一些情况下，探针可以同时添加至杂交反应，例如与连接探针的MIP或锁式探针一起。第一和第二探针的结合通常提供结合的高选择性，尤其当用于MIP或锁式配置时。通常，本公开中此配置的使用提供了非特异性探针结合的减少。改变例如盐浓度、温度、多核苷酸浓度、pH等的杂交条件也可以用以减少探针与样品DNA的非特异性结合。

通常，在杂交后，第一和第二探针连接在一起以形成连接产物。通常，连接产物包含人工序列，或包含最初在样品多核苷酸中不存在的核苷酸物质的序列。

在一些情况下，探针可以设计成与彼此直接相邻的位点杂交，使得当与样品多核苷酸杂交时它们之间不存在间隙。在此情况下，连接酶的添加足以在第一与第二探针之间形成连续的连接产物。在包括两个非连续探针的情况下，连接产物是连续的线性多核苷酸。在包括MIP或锁式探针的情况下，第一和第二探针的连接产生完全环形的连续序列，如本领域中已知。

在其它情况下，第一和第二探针可能不直接相邻，其中如本文中描述，探针之间存在间隙。在一些情况下，连接可以先于或伴随其它的步骤，例如使用聚合酶的引物延伸步骤和/或使用如本文中描述的桥接寡核苷酸。

A.聚合酶延伸步骤

在一些配置中，第一和第二探针可以经定位，使得另一个步骤是必需的。在其中第一和第二探针未彼此直接相邻的一些情况下，可能需要延伸步骤。在一些情况下，聚合酶和dNTP可以用于使互补序列聚合以填充两个探针之间的间隙，其中来自第一探针的3’末端的序列跨越间隙延伸。在一些情况下，此配置可能是适用的，其中用于第一和第二探针的最佳退火位点可能不彼此直接相邻。在一些情况下，延伸步骤也可以是适用的，其中结合伴侣可以并入聚合的互补序列中的多核苷酸产物中。举例来说，可以使用与例如生物素的结合伴侣缀合的dNTP，使得生物素化的dNTP可以并入连接产物中。此可以适用于后面的步骤中使用例如链霉亲和素的其它结合伴侣的产物的亲和纯化。亲和纯化可以适用于各种步骤，例如将连续的连接产物与样品DNA或gDNA分离或用于富集如本文中描述的某些连接产物。

B.桥接寡核苷酸

在一些配置中，桥接寡核苷酸可以与第一和第二探针组合使用。通常，桥接寡核苷酸可以包含能够结合于在一个或多个目标基因座中的与第一或第二探针退火的区域之间发现的序列的多核苷酸序列。在一些情况下，可以使用1个桥接寡核苷酸。在一些情况下，使用至少约1、2、3、4、5、6、7、8、9或10个桥接寡核苷酸。在一些情况下，使用至多约1、2、3、4、5、6、7、8、9或10个桥接寡核苷酸。一个或多个桥接寡核苷酸可以彼此和/或与第一或第二探针的添加依序或同时添加。

桥接寡核苷酸可以与在目标基因座中的与第一或第二探针退火的区域之间发现的任何序列互补。在一些情况下，桥接寡核苷酸可以与含有A/T或G/CSNP的区域退火。在其它情况下，桥接寡核苷酸可以与目标基因座中的序列100％互补。在一些情况下，桥接寡核苷酸可以与在与第一或第二探针退火的区域之间发现的序列至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或99.99％互补。在一些情况下，桥接寡核苷酸可以与在与第一或第二探针退火的区域之间发现的序列至多约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或99.99％互补。

在一些情况下，桥接寡核苷酸可以是约5-50、50-100、100-200、200-300、300-400或400-500个碱基对长度。在一些情况下，桥接寡核苷酸可以是至少约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400或500个碱基对长度。在一些情况下，桥接寡核苷酸可以是至多约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400或500个碱基对长度。

在一些情况下，桥接寡核苷酸也可以含有其它的序列。在一些情况下，桥接寡核苷酸可以是简并引物或含有简并引发序列。在一些情况下，桥接寡核苷酸可以含有通用引发序列。

在一些情况下，桥接寡核苷酸可以与在目标基因座中的与第一或第二探针相距任何适合距离的区域退火。在一些情况下，桥接寡核苷酸可以与第一或第二探针直接相邻，使得寡核苷酸与第一探针或第二探针之间不存在距离。在一些情况下，在桥接寡核苷酸与第一探针或第二探针之间发现的距离可以是至少约1bp、2bp、3bp、4bp、5bp、10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、75bp、100bp、125bp、150bp、175bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1Kb、2Kb、3Kb、4Kb、5Kb或10Kb长度。在一些情况下，在桥接寡核苷酸与第一探针或第二探针之间发现的距离可以是至多约1bp、2bp、3bp、4bp、5bp、10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、75bp、100bp、125bp、150bp、175bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1Kb、2Kb、3Kb、4Kb、5Kb或10Kb长度。

可以使用去除未结合的桥接寡核苷酸的一个或多个步骤。在一些情况下，此步骤可以包括洗涤步骤。在其它情况下，此可以包括亲和纯化步骤或其组合。

连续的连接产物可以用任何适合的方法形成。在一种配置中，其中在桥接寡核苷酸与第一或第二探针之间不存在距离，结合的寡核苷酸可以在一个步骤中连接在一起。在本公开的系统和方法的替代配置中，桥接寡核苷酸可以与不与第一或第二探针直接相邻的互补区域退火。在某些情况下，可以进行延伸步骤，使得聚合酶和dNTP可以用于从桥接寡核苷酸、第一或第二探针或其组合延伸序列。在一些情况下，聚合酶和dNTP可以用于填充第一探针与桥接寡核苷酸、桥接寡核苷酸与第二探针之间或其组合的间隙。延伸后，可以连接结合的寡核苷酸，以形成跨越一个或多个目标基因座的连续的多核苷酸产物。

另外，引物延伸和第一探针、第二探针或一个或多个桥接寡核苷酸杂交中聚合酶的使用可以组合在一种反应混合物中。在其它情况下，可以依序进行一个或多个步骤。

IX.结合探针的分离

连接后，一般优选将结合的探针与未结合的探针分开。在一个配置中，结合的探针可以使用结合伴侣的组合进行亲和纯化。在一个实例中，探针、连接于探针的序列(即桥接寡核苷酸)、引物延伸产物或连接于样品多核苷酸链的衔接子序列可以含有例如生物素的结合伴侣。接着结合伴侣可以用作亲和纯化步骤中例如链霉亲和素的其它结合伴侣的诱饵。在一些情况下，结合的探针可以从未结合的探针中亲和纯化。在其它情况下，包含结合伴侣和结合探针的样品多核苷酸链可以从未结合的探针中亲和纯化。

通常，用于捕获结合探针的任何化学方法都可以是适合的。在一些情况下，捕获可以通过包含生物素和链霉亲和素或链霉亲和素衍生物的方法实现。举例来说，本公开的一个实施方案提供了多核苷酸的捕获，其中可以在引物延伸步骤或随后扩增步骤期间并入生物素化的核苷酸。在一些情况下，可以使用核苷酸与生物素化的核苷酸的混合物，其中混合物可以是至少1％、2％、5％、10％、20％、30％、40％、50％、60％、10％、80％、90％或100％生物素化的核苷酸。在其它情况下，混合物可以是至多1％、2％、5％、10％、20％、30％、40％、50％、60％、10％、80％、90％或100％生物素化的核苷酸。

在本公开的系统和方法的替代配置中，未结合的探针可以由核酸外切酶降解。例如，连接后，MIP或锁式探针变成完全环形，而未变成连续的未结合的探针保持线性。添加例如核酸外切酶I、II或III的核酸外切酶可以用于选择性地降解线性多核苷酸，例如未结合的多核苷酸探针，而完全环形的探针保持未受影响。核酸外切酶处理后，结合的环形探针可以从样品多核苷酸中洗脱。在一些情况下，洗脱可以经由任选的洗涤步骤，例如用盐进行。在其它情况下，结合的探针可以通过热方式(即升高反应混合物的温度)且如本领域中已知，从样品多核苷酸链熔融掉。

X.序列的鉴别和计数

本公开的方法通常提供连接产物的分离和连接产物中一个或多个序列的鉴别和计数。在一些情况下，序列的鉴别和计数涉及条形码序列。在其它情况下，序列的鉴别和计数涉及其它序列，例如通用衔接子序列、通用引发序列、接头序列、探针或杂交序列部分或在一些情况下其序列组合。

通常，本公开的方法提供了一个或多个选择性扩增步骤，其中在序列中特定引物可以用于扩增或富集靶标分子中的特定序列(即连接产物或探针)。在一些情况下，扩增特异性地针对具有条形码特异性引物的条形码序列。在一些情况下，条形码可以用设计成侧接条形码序列的通用引物扩增。

扩增后，多种方法可以用于鉴别和计数序列，包括例如测序、定量PCR(qPCR)和本领域中已知的其它定量方法的方法。本公开的方法尤其适于例如条形码的各种选择性扩增序列的大规模平行测序，其中序列可以鉴别与计数。

通常，本公开的方法和系统可以利用美国专利US7,537,897中的系统和方法，使用分子条形码计数分子。

A.连接产物的直接计数

在本公开的一些情况下，可能适于直接计数和鉴别连接产物。在一些情况下，可以使用具有适合灵敏度和选择性的技术。在一些情况下，连接产物的直接计数和鉴别可以涉及如本文中描述，用本领域中已知的方法直接测序。连接产物的序列可以用于鉴别探针序列、条形码、衔接子序列、通用引发序列、接头序列或其组合。序列也可以基于序列读数计数来计数。

在一些情况下，一个或多个可定量的杂交探针可以在各种位点结合于连接产物。在一些情况下，探针可以设计成与一个或多个探针或杂交序列、条形码序列、衔接子序列、接头序列或其组合退火。在一些情况下，探针序列可以进一步附接至荧光团或荧光信号，荧光团或荧光信号可以定量并与测试样品中存在的探针序列的数目相关。举例来说，本领域中的某些产品，例如NanostringnCounter系统可以用于使用涉及缀合于包含纳米粒子的一系列荧光条形码的DNA杂交探针的系统计数探针数。所述系统利用纳米粒子条形码高灵敏度地计数探针。此外，在其它情况下，与连接产物杂交的其它探针也可以用本文中描述的方法直接测序，并基于测序读数计数来计数。

在一些情况下，其中连接产物的数量为非充足量，也可以使用单链连接产物作为模板进行选择性扩增。引物可以设计成探针序列、衔接子序列、条形码、通用引发位点或其组合。本文中进一步描述扩增策略和引物组设计方法。在一些情况下，自单链连接产物扩增的PCR产物可以用于使用包括直接测序或其它适合的定量方法的各种技术鉴别和计数。

B.连接产物的第二链合成

在一些情况下，其中可优选获得双链连接产物，可以如图4中所示进行随后第二链合成步骤。在一些情况下，单个引物428可以用于合成与单链连接产物互补的链424。在此情况下，单个引物可以退火至连接产物上的位点，其可以包括探针序列、条形码序列、衔接子序列、通用引物序列、接头序列或其组合。在一些情况下，聚合酶用以从引物的3’末端延伸互补链。在涉及环形探针(即MIP或锁式探针)的情况下，互补链可以连接至引物的5’末端以产生环形双链多核苷酸。

此外，在一些情况下可以使用一个或多个引物。在一些情况下，至少约1、2、3、4、5、6、7、8、9或10个引物可以用于第二链合成。在一些情况下，至多约1、2、3、4、5、6、7、8、9或10个引物可以用于第二链合成。在涉及多个引物的情况下，一个或多个引物延伸产物可以连接在一起以形成第二链。

在一些情况下，一个或多个引物也可以含有可能不与单链连接产物互补的其它序列。这些其它的序列可以包括(但不限于)测序仪尾部序列420、衔接子序列或条形码序列且可以用于随后下游步骤。举例来说，在本公开的某些方法中，测序仪特异性尾部序列可以并入用于第二链合成的引物中。合成后，测序仪特异性尾部序列可以呈单链区域存在于双链分子中。此尾部序列可以设计成与例如Illumina提供的各种测序平台相容。在此实例中，尾部序列可以用于杂交或捕获双链分子至用于测序的固体载体上，如本领域中已知。这些方法可以尤其适用于多重应用，其中多个分子或探针组平行进行处理和测序。

在其它情况下，双链产物可以使用本领域中已知且如本公开中别处描述的其它方法直接测序。可以进行直接测序以鉴别连接产物中的序列并计数如本文中描述的序列。

C.连接产物的裂解

在一些情况下，可优选在第二链合成后进一步裂解连续的连接产物。在涉及MIP探针的情况下，一种配置，如图6A中所示，提供一种MIP探针，其包含第一探针600和第二探针650，侧接一组通用引发位点610和620以及条形码序列660。限制性位点699可以并入探针中，其中限制性位点落在两个通用引发位点610和620之间。连接后，第一探针600和第二探针650在位点695接合在一起。在限制性位点699裂解后，通用引发位点被物理分开且现在侧接条形码序列与现在连续的探针或杂交序列。此配置提供了如本文中进一步描述的多次扩增或测序策略。

在涉及MIP探针的另一替代配置中，如图6B中所示，第一探针600和第二探针650侧接一组通用引发位点610和620，通用引发位点610和620侧接条形码序列660。限制性裂解位点699可以并入探针中，其中裂解位点落在一个通用扩增位点620与第二探针序列650之间。连接后，第一探针600和第二探针650在位点695连接在一起。在限制性位点699裂解后，侧接条形码序列的通用引发位点保留且在限制性裂解后现在位于连续的探针或杂交序列附近。此配置提供了如本文中进一步描述的多次扩增或测序策略。

D.连接产物的选择性和通用扩增

i.选择性引物组设计

通常，本公开的方法提供了用于扩增的各种策略。在选择性扩增的情况下，引物组可以用多种不同的方式设计。在一些情况下，引物可以设计成退火至探针序列、衔接子序列、通用引发位点、接头序列或其任何组合，如图6A、6B和图7中所示。出于例示性目的，提供不同的选择性扩增策略的实例且不具限制性。举例来说，在一些情况下，其中MIP探针裂解形成如图6A中所示的配置，正向引物可以与探针或杂交序列680互补。引物可以与一部分连接序列互补，或与第一或第二探针杂交序列互补。此引物可以与与条形码序列692或通用引发位点695互补的反向引物组合使用。如图6B中所示，与一种杂交序列或两个序列的组合互补的探针特异性引物可以用作反向引物680。

在涉及未裂解的环形连接产物的另一实例中，如图7中所示，选择性引物可以包括与探针序列790和770互补的引物780或与例如720或710的探针中的其它接头序列互补的引物700。

在一些情况下，个别引物可以设计成退火至如本文中描述的各种序列的一个或多个部分。举例来说，在一些情况下，引物可以设计有通用结构5’MMMMMNNNNN，其中M是与包括(但不限于)第一和/或第二探针序列、衔接子序列、通用引发序列或接头序列的序列互补的可变长度区域且N选自来自相同群组的不同序列。例如图7中，可以使用包含与杂交序列和通用扩增序列互补的序列的引物760。在一些情况下，M可以包含与探针序列互补的序列且N包含与条形码序列互补的序列。在一些情况下，M可以包含与第一探针序列互补的序列且N包含与第二探针序列互补的序列。在一些情况下，定义为M或N的核苷酸的长度或数目可以是至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、300、400或500个核苷酸。在一些情况下，定义为M或N的核苷酸的长度或数目可以是至多约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、300、400或500个核苷酸。

ii.通用引物设计

在本公开的方法的一些配置中，可能含有或可能不含有来自目标基因座的杂交序列的连接产物或选择性扩增产物可以通用扩增。通用扩增一般可以描述为使用通用引物扩增一个或多个区域。通用引物是一个或多个探针共用的引发位点。通用扩增产物可以在一个或多个选择性扩增步骤之前或之后进行。在一些情况下，通用扩增可以用与连接产物中通用引发序列位点互补的通用引物进行。在一些情况下，通用扩增可以包括与条形码序列互补的引物。在其它情况下，可以在第二链合成或一个或多个选择性扩增步骤期间(即可以在选择性扩增过程期间添加用于选择性扩增序列的引物至多核苷酸区域)添加通用引发序列至多核苷酸，或可以通过例如衔接子连接的方法添加含有通用引发位点的通用衔接子序列至侧接待扩增序列(即探针序列、条形码序列等等)的区域。

在一些配置中，进行一轮选择性扩增。在一些情况下，选择性扩增可以涉及探针序列、衔接子序列、条形码序列、接头序列或其任何组合的扩增。选择性扩增后，可以在选择性扩增产物上使用如本文中描述的引物组设计策略进行通用扩增。在一些情况下，可以在连接产物上使用通用引物进行通用扩增，接着通用扩增产物进行选择性扩增。

在本公开的系统和方法的一种配置中，可以从一个或多个探针组共用的通用扩增位点进行通用扩增。通常，所有探针组都可以包含通用引发位点。在本公开的系统和方法下，通常优选通用扩增步骤，因为此技术允许扩增产物的变化最小化。与使用探针组特异性引物的个别探针组的选择性扩增相比，在通用引物组下，跨越探针组的扩增可以更均匀。在涉及多个探针特异性引物组的一些情况下，扩增无效可能偏移(skew)或改变扩增产物的量，如果在后面步骤中计数，则可能影响特定基因座上拷贝数的计算。此外，相对较少的引物的使用也可以有助于提供高通量、简化的单一分析工作流程。

在本公开的系统和方法的一种配置中，如图6A和6B中所示，可以使用通用扩增引物670和695进行通用扩增。在此配置中，扩增产物可以包含条形码序列660和杂交序列(或关于目标基因座的序列)。此可以适用于其中扩增产物可以测序并根据测序数据确定基因座的下游应用。通常，一部分用于杂交的探针或序列可以扩增。在一些情况下，约1％-10％、20％-30％、30％-40％、40％-50％、50％-60％、60％-70％、70％-80％、80％-90％、90％-99％或99％-99.99％的杂交序列可以扩增。在一些情况下，至少约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、99.99％的杂交序列可以扩增。在一些情况下，至多约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、99.99％的杂交序列可以扩增。

在此配置的其它变体中，条形码序列也可以使用条形码特异性引物690和692扩增。在本公开的系统和方法的一些情况下，其中条形码可以通常分配给针对相关基因座所设计的探针组(如本文中描述)，将预定条形码分配给已知的基因座。条形码序列的扩增也可以用不同的引物组合实现，例如用杂交序列特异性引物或其它通用扩增引物扩增。

在一种具体情况下，如图6B中所示，条形码序列的扩增可以用通用引物实现，不进行杂交序列的扩增和随后检测(即测序)。因为通用引物位点设计成侧接条形码序列，且在裂解后保持完整，所以这些位点可以用于产生仅仅含有条形码序列和除杂交序列以外的序列的扩增产物。

在本公开的系统和方法的另一配置中，如图7中所示，可以使用通用扩增引物795从环形连接产物进行通用扩增。在此配置中，扩增产物可以在扩增产物中包含条形码序列740和通用引发序列797。也可以使用条形码特异性序列，730和750或其组合。杂交序列(或关于目标基因座的序列)。此可以适用于其中扩增产物可以测序并根据测序数据确定基因座的下游应用。在此配置的其它变体中，条形码序列也可以使用条形码特异性引物690和692扩增。

E.扩增技术

本领域中已知许多扩增方法和技术。任何适合的方法都可以用于本公开的方法中，以便增加多核苷酸的数量或量，同时维持原始样品或连接产物的序列信息的初始内容。可以使用一种或多种扩增方法且一种或多种组合。

扩增方法的实例可以包括(但不限于)聚合酶链式反应(PCR)(美国专利No4,683,195；和4,683,202；PCRTechnology:PrinciplesandApplicationsforDNAAmplification,H.A.Erlich编辑,FreemanPress,NY,N.Y.,1992)、连接酶链式反应(LCR)(Wu和Wallace,Genomics4:560,1989；Landegren等人,Science241:1077,1988)、链置换扩增(SDA)(美国专利No.5,270,184；和5,422,252)、转录介导的扩增(TMA)(美国专利No.5,399,491)、连接线性扩增(LLA)(美国专利No.6,027,923)等等、自主序列复制(self-sustainedsequencereplication)(Guatelli等人,Proc.Nat.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶标多核苷酸序列的选择性扩增(美国专利No.6,410,276)、共有序列引发的聚合酶链式反应(CP-PCR)(美国专利No.4,437,975)、任意引物聚合酶链式反应(AP-PCR)(美国专利No.5,413,909、5,861,245)和基于核酸的序列扩增(NASBA)。(参见美国专利No.5,409,818、5,554,517和6,063,603，其每一者以引用的方式并入本文中)。其它可以使用的扩增方法包括：Qbeta复制酶，PCT专利申请No.PCT/US87/00880中描述；等温扩增方法，例如SDA，Walker等人,NucleicAcidsRes.20(7):1691-6(1992)中描述；以及滚环扩增，美国专利No.5,648,245中描述。其它可以使用的扩增方法描述于美国专利No5,242,794、5,494,810、4,988,617和美国序列号09/854,317以及美国公布No.20030143599中，其每一者以引用的方式并入本文中。在一些方面，通过多重基因座特异性PCR扩增DNA。在一优选方面，使用衔接子连接和单一引物PCR扩增DNA。其它可用的扩增方法，例如平衡PCR(Makrigiorgos等人,NatureBiotech,20:936-9(2002))和等温扩增方法，例如基于核酸序列的扩增(NASBA)和自主序列复制(Guatelli等人,PNASUSA87:1874(1990))。基于此类方法，本领域的技术人员可容易地在待扩增的任何适合区域中设计引物。

F.扩增产物和条件

通常，任何适合的扩增产物和产生产物的条件都可以用于本公开的方法中。可以使用各种扩增长度、循环时间、杂交、退火和延伸条件，视各种扩增技术和序列的情况而定。

i.扩增长度

通常，扩增产物的长度可以是任何长度并含有可以适用于序列计数的任何序列。通常，扩增的多核苷酸可以是至少约5bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3、kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、75kb或100kb。通常，扩增的多核苷酸可以是至多约5bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3、kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、75kb或100kb。

ii.扩增条件

通常，可以使用任何适合的扩增条件用于选择性或者通用扩增。在一些情况下，扩增可以是线性的。在一些情况下，扩增可以是对数的。因为本公开的方法提供了一个或多个可以扩增序列的计数，所以可适于控制各种步骤中的扩增以控制样品之间的变化性。

举例来说，在一些情况下，有限数目的扩增循环可以用于选择性或者通用扩增步骤。此可以尤其适于选择性扩增，其中不同的基因座或条形码的不同的引物组可以在其中使用多个基因座或条形码的多重条件下不同地表现。不同的引物组中的引物与模板杂交的能力可能不同，因此引物组之间的扩增效率产生差异。既定基因座的每一组引物可以基于引物的序列背景和样品DNA、缓冲条件和其它条件而不同地表现。多重测定系统的通用DNA扩增通常可以引入较少的偏倚(bias)和变化性。

为了最小化一个或多个基因座或条形码之间的扩增变化，举例来说，可以使用线性扩增方法，接着对数通用扩增进行扩增。在一些情况下，循环数限制在1-50个循环之间，使得扩增是线性或接近线性。在一些情况下，用于线性扩增的扩增循环可以是至少约1、2、3、4、5、6、7、8、9、10、20、30、40或50个循环。在一些情况下，用于线性扩增的扩增循环可以是至多约1、2、3、4、5、6、7、8、9、10、20、30、40或50个循环。在一些情况下，在序列从连接产物进行线性选择性扩增后，可以如本文中描述，进行对数通用扩增步骤。其中共用的引物组可以用于多个基因座或条形码扩增产物的通用扩增可以进一步减少扩增变化性，同时产生增加量的样品。

在其它情况下，可以在线性扩增前使用对数扩增。在一些情况下，用于对数扩增的扩增循环可以是至少约1、2、3、4、5、6、7、8、9、10、20、30、40或50个循环。在一些情况下，用于对数扩增的扩增循环可以是至多约1、2、3、4、5、6、7、8、9、10、20、30、40或50个循环。

通常，任何适合数目的引物组都可以用于扩增。在一些情况下，扩增引物组可以约等于测试的基因座数目。在一些情况下，引物组可以是至少约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175、200、300、400、500、600、700、800、900或1000个引物组。在一些情况下，引物组可以是至多约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175、200、300、400、500、600、700、800、900或1000个引物组。

G.序列鉴别和计数方法

通常，用于条形码序列鉴别和条形码计数的任何方法或技术都可以与本公开的系统和方法一起使用。在一些情况下，可以如本文中描述，使用PCR进行鉴别，由此序列可以直接从扩增产物的存在或不存在确定并进一步定量。在一些情况下，序列的鉴别可以通过测序进行。通常，可以使用任何适合的定量方法，包括(但不限于)qPCR、杂交方法和测序或其组合进行序列的计数。

i.PCR方法

在一些情况下，涉及PCR的方法可以用于鉴别和计数序列。在鉴别的情况下，在一些情况下，使用含有探针序列的引物成功扩增的产物可以指示具体基因座的存在。在一些情况下，探针序列产物的失败扩增可以指示具体基因座的不存在。在其它情况下，探针可以与个别的独特标识符序列或条形码缔合。PCR扩增可以在单独条形码或探针序列与条形码的组合上进行。在一些情况下，在测试样品前，已知身份的具体条形码分配给与已知基因座的区域互补的一个或多个探针组。在一些情况下，条形码序列成功扩增的产物可以指示具体基因座的存在。在一些情况下，条形码序列产物的失败扩增可以指示具体基因座的不存在。

在一些情况下，PCR扩增产物可以使用任何适合的方法定量。在一些情况下，方法可以是定量PCR(qPCR)或其变化形式。在一些情况下，此可以是基于荧光的方法，其中荧光信号可以定量。定量信号可以用于计算原始模板(即连接产物)的相对丰度，因此提供关于具体基因座的相对丰度的信息。在一些情况下，相对丰度测量可以用于确定例如CNV的遗传改变的存在或不存在。

ii.杂交方法

或者，在本公开的另一配置中，可以使用杂交技术来分析扩增产物的整个长度或一部分。用于进行多核苷酸杂交测定用于检测的方法为本领域中已知。杂交测定程序和条件将取决于应用而改变且根据已知的一般结合方法来选择，包括以下中提及的方法：Maniatis等人MolecularCloning:ALaboratoryManual(第2版ColdSpringHarbor,N.Y.,1989)；Berger和KimmelMethodsinEnzymology,第152卷,GuidetoMolecularCloningTechniques(AcademicPress,Inc.,SanDiego,Calif.,1987)；Young和Davis,P.N.A.S,80:1194(1983)。用于进行重复和可控的杂交反应的方法和设备已经描述于美国专利No5,871,928、5,874,219、6,045,996和6,386,749、6,391,623中，其每一者以引用的方式并入本文中。

在鉴别的情况下，其它的探针与含有原始连接产物的探针序列的序列的成功杂交可以指示具体基因座的存在。在一些情况下，其它的探针与原始连接产物的探针序列的失败杂交可以指示具体基因座的不存在。在其它情况下，原始连接产物的探针可以与个别的独特标识符序列或条形码缔合。

杂交可以在单独条形码或原始探针与条形码的组合上进行。在一些情况下，在测试样品前，已知哪一探针序列和因此哪一基因座可以与具体的条形码缔合。在一些情况下，探针与条形码序列的成功杂交可以指示具体基因座的存在。在一些情况下，探针与条形码序列的失败杂交可以指示具体基因座的不存在。

在某些优选方面，本公开还提供了配体之间的杂交信号检测。参见美国专利No.5,143,854、5,578,832；5,631,734；5,834,758；5,936,324；5,981,956；6,025,601；6,141,096；6,185,030；6,201,639；6,218,803；和6,225,625、美国专利申请60/364,731和PCT申请PCT/US99/06097(作为WO99/47964公布)，其每一者为了所有目的以引用的方式整体并入本文中。

在一些情况下，可以定量杂交探针以计数序列。在一些情况下，探针缀合于可以定量的化学试剂、荧光或配体。在一个具体的实例中，本公开的方法可以适合于例如NanostringnCounter系统提供的计数系统。

用于信号检测和强度数据处理的方法和设备公开于例如美国专利No.5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758；5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639；6,218,803；和6,225,625、美国专利申请60/364,731和PCT申请PCT/US99/06097(作为WO99/47964公布)，其每一者为了所有目的也以引用的方式整体并入本文中。

iii.测序方法

序列测定的许多方法与本公开的系统和方法相容。用于序列测定的例示性方法包括(但不限于)基于杂交的方法，例如公开于Drmanac美国专利No.6,864,052；6,309,824；和6,401,267；和Drmanac等人，美国专利公布2005/0191656，其以引用的方式并入；通过合成法测序，例如Nyren等人，美国专利No.7,648,824、7,459,311和6,210,891；Balasubramanian，美国专利No.7,232,656和6,833,246；Quake，美国专利No.6,911,345；Li等人，Proc.Natl.Acad.Sci.,100:414-419(2003)；焦磷酸测序，如Ronaghi等人，美国专利No.7,648,824、7,459,311、6,828,100和6,210,891中所描述；和基于连接的序列测定方法，例如Drmanac等人，美国专利申请No.20100105052，和Church等人，美国专利申请No.20070207482和20090018024。

序列信息可以使用以本质上平行的方式测定许多(通常成千至十亿)核酸序列的方法确定，其中许多序列优选使用高通量串联过程平行读出。此类方法包括(但不限于)焦磷酸测序(例如如由454LifeSciences,Inc.(Branford,Conn.)商业化)；通过连接测序(例如如在SOLiD^TM技术(LifeTechnology,Inc.,Carlsbad,Calif.)中商业化)；通过使用修饰的核苷酸合成测序(例如在TruSeq^TM和HiSeq^TM技术(Illumina,Inc.,SanDiego,Calif.)、HeliScope^TM(HelicosBiosciencesCorporation,Cambridge,Mass.)和PacBioRS(PacificBiosciencesofCalifornia,Inc.,MenloPark,Calif.)中商业化)、通过离子检测技术测序(IonTorrent,Inc.,SouthSanFrancisco,Calif.)；DNA纳米球的测序(CompleteGenomics,Inc.,MountainView,Calif.)；基于纳米孔的测序技术(例如如OxfordNanoporeTechnologies,LTD,Oxford,UK研发)和如高度平行化的测序方法。

此外，序列读数可以通过定量每个基因座或条形码的读数数目来计数。

XI.读数计数和过滤

在某些情况下，可能适于在确定遗传改变前过滤或选择读数计数数据。通常，测量每个目标基因座或目标基因座的子集的丰度可以用于确定遗传改变的存在或不存在。

存在许多用于选择目标基因座的子集的标准方法。这些方法包括逸出值排除，其中从分析中摈弃检测水平低于和/或超过一定百分位数的目标基因座。在一些情况下，如通过丰度测量，百分位数可以是至少约最低和最高1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％或25％。在一些情况下，如通过丰度测量，百分位数可以是至多约最低和最高1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％或25％。

选择所选基因座的子集的另一方法包括排除落在一些统计界限范围以外的区域。举例来说，可以从分析中去除落在平均丰度的一个或多个标准偏差以外的目标基因座。

在一些情况下，目标基因座的子集可以用于将所选基因座的相对丰度与健康或正常样品中相同的所选基因座的预期丰度比较并摈弃未通过预期测试的任何目标基因座。

为了进一步最小化本公开的系统和方法中的变化，可以增加每一目标基因座的测量次数。如本文中描述，与其中基因组平均测量少于一次的检测遗传改变的随机方法相比，本公开的系统和方法可以测试每一目标基因座多次。通常，当计数事件时，计数之变化可以通过泊松统计(Poissonstatistics)确定，且计数变化通常可以等于一除以计数数目的平方根。

在一些情况下，目标基因座中的每一者平均测量至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000或5000次。在一些情况下，目标基因座中的每一者平均测量至多约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000或5000次。

在另一配置中，可以随机选择目标基因座的子集，但伴随足够数目的基因座，以关于确定是否存在染色体异常，产生统计上显著的结果。目标基因座的不同子集的多个分析可以在母体样品内进行以产生更大统计功效。在此实例中，在随机分析前可能需要或可能不需要去除或排除任何基因座。举例来说，如果染色体21存在100个选择的基因座，且染色体18存在100个选择的基因座，则可以进行评估每一染色体少于100个基因座的一系列分析。

在其它情况下，如果检测到扩增偏倚，则可以在计数时过滤或限制选择的基因座的读数计数。内部参考、标准对照和其它质量控制技术可以独立地用以鉴别所怀疑基因座的变化性，例如归因于扩增偏倚。在一些情况下，可能优选限制所怀疑基因座的读数计数以防止数据偏移。

XII.样品中遗传改变的确定

在序列读数计数和任选的过滤后，本公开提供了用于确定包含胎儿和母体多核苷酸的混合物的样品中的一个或多个基因座上遗传改变(即CNV)存在或不存在的方法。在一些情况下，算法可以用于检测遗传改变的存在或不存在。在一些情况下，算法可以用于产生潜在遗传改变的概况。在一些情况下，概况可以指示如本文中描述的CNV的存在或不存在，且不可以结论性地指示CNV存在或不存在。分别指示CNV存在或不存在的概况可以分别指示CNV存在或不存在的概率增加。在一些情况下，概率评分或确定度可以提供一个或多个遗传改变(即CNV)。

或者，CNV存在或不存在也可以通过可以依赖或可以不依赖于如本文中描述的特定方法的其它系统和方法确定或确认。在一些情况下，例如PCR、qPCR或比较基因组杂交的技术可以单独或与基于探针的检测遗传改变的方法组合使用。

样品中遗传改变的确定可以用多种适合的方法进行。在一个实例中，举例来说，内部参考用于比较。在一些情况下，内部参考是在相同样品中使用以“正常”丰度存在的基因座(例如常染色体二体性)相对于以推定异常丰度存在的基因座(即复制、非整倍性等)进行比较。虽然使用一种此类“正常”染色体作为参考染色体可能足够，但也可能使用两个或更多个正常染色体作为内部参考染色体以增加定量的统计功效。在其它情况下，可以使用外部参考，其包含已知遗传状态的一个或多个样品(即一个或多个基因座的已知拷贝数、整倍性、三体性等)。

A.检测染色体分布

在一些情况下，内部参考用以计算样品中推定异常染色体的丰度与一种或多种正常染色体的丰度的比率，称为染色体比率。也可以计算个别染色体的比率，其中每一染色体的每一基因座的丰度或计数可以一起求和以计算每一染色体的总数。对于染色体比率，接着将一种染色体的总数除以不同染色体的总数以产生该两种染色体的染色体比率。

或者，每一染色体的染色体比率可以通过首先将每一染色体的每一基因座的计数求和，接着将一条染色体的总和除以两条或更多条染色体的总和来计算。一旦计算，则然后将染色体比率与来自正常群体的平均染色体比率进行比较。

平均值可以是平均数、中位数、众数或其它平均值，对逸出值数据进行或不进行标准化和排除。在一些情况下，使用平均数。使用所测量染色体的标准变异计算来自正常群体的染色体比率。此变异可以用不同的方式表达。在一些情况下，其表达为变异系数或CV。当来自样品的染色体比率与来自正常群体的平均染色体比率相比时，如果样品的染色体比率在统计上落在正常群体的平均染色体比率以外，则样品可能含有非整倍性。确定非整倍性的统计阈值可以取决于染色体比率的测量的变异和所需测定的可接受的假阳性和假阴性率而设置。通常，此阈值可以是在染色体比率中观察到的变异倍数。举例来说，在一些情况下，此阈值是染色体比率变异的至少约1、2、3、4、5、6、7、8、9、10倍。在一些情况下，此阈值是染色体比率变异的至多约1、2、3、4、5、6、7、8、9、10倍。

通常，染色体比率可以通过将染色体的基因座的计数求和来确定。通常，针对每一染色体使用相同数目的所选基因座。用于产生染色体比率的替代方法可以用于计算每一染色体的基因座的平均计数。平均值可以是平均数、中位数或众数的任何估计量，但通常使用平均值。平均值可以是所有计数或一些变异的平均数，例如调整或加权平均值。一旦已经计算每一染色体的平均计数，则每一染色体的平均计数可以除以另一条染色体的平均计数以获得两条染色体之间的染色体比率，每一染色体的平均计数可以除以所有测量的染色体的平均值的和，以获得如本文中描述的每一染色体的染色体比率。

如以上强调，在推定DNA为低相对丰度的母体样品中检测非整倍性的能力在很大程度上取决于测定中不同的所选基因座的测量的变化。许多分析法可以用于减少此变化且因此提高此方法检测非整倍性的灵敏度。一种用于减少测定变化性的方法为增加用于计算染色体丰度的所选基因座的数目。通常，如果染色体的单个所选基因座的测量变化是X％且在相同染色体上测量Y％所选基因座，则通过将该染色体上每一所选基因座的丰度求和或求平均值所计算的染色体丰度的测量的变化可以大致为X％除以Y％。染色体丰度的测量的变化可以大致为每一所选基因座的丰度的测量的平均变化除以基因座数目的平方根。

在本公开的一些情况下，基因座计数可以通过计数相关条形码来确定。在一些情况下，对于类似染色体上的不同的基因座，条形码序列可以相同。接着条形码可以扩增和计数。在此情况下，跨越一条染色体的基因座的扩增和因此计数的变化可以最小化。在另一实例中，不同染色体的基因座可以与一个或多个条形码的类似分布有关。虽然对于用于不同条形码的扩增的特定引物组，可能存在扩增效率的变化，但跨越染色体的引物组的类似分布的使用可以使得扩增偏倚和整个样品的变化性最小化。此可以提高尤其一条染色体的计数与另一条染色体的计数的比较(即染色体比率)。

B.基于基因座的CNV鉴别

在一些情况下，可以在一个或多个个别基因座检测CNV。在此类情况下，可以通过检测具体的基因座是否高过(即拷贝数增加)或低于(即拷贝数缺失)阈值或参考水平来鉴别CNV。在一些情况下，可能已知具体的基因座与具体的疾病、疾病状态或感染有关。各种基因座的比较通过每个基因座的读数计数数目，常常称为覆盖深度来确定。本领域中已知存在可以通过覆盖深度用于鉴别CNV的各种程序或算法。在一些情况下，算法使用标准化的覆盖深度比率来评估与参考相比，每个基因座的相对读数计数。在此情况下，参考由从已经以与测试样品相同的方式产生的“正常”(即二体)样品的大数据集中获得的多个基因座的中位读数计数组成。在其它情况下，参考可以包含来自一个或多个已知的整倍体基因组的数据。在其它情况下，参考可以包含来自具有其它限定的基因型，例如三体或单染色体基因座的一个或多个已知样品的数据。一个或多个基因座的CNV可以通过与拷贝数的标准分布的偏差来鉴别。

使用覆盖深度信息鉴别CNV的任何适合算法都可以与本公开的组合物和方法一起使用。替代算法可以包括(但不限于)例如CONTRA、XHMM、PennCNV、CoNIFER、VarScan、CNVSeq、cn.FARMS、BIC-seq和Console的程序。与基于基因座的CNV检测相关的工作流程的实例可以在图1和图2中发现。

C.基于等位基因的CNV鉴别

在一些情况下，CNV可以通过评估来自基因座的等位基因的频率来鉴别。在存在缺失的情况下，序列的此区域将不具有杂合等位基因，称为杂合性缺失(LOH)。如果存在单亲二体性(UPD)，则也可能产生LOH，单亲二体性是染色体或染色体区段的两个拷贝都来源于相同亲本的情况。在三体性情况下，对于杂合SNP，等位基因之一可以具有2倍增加，引起等位基因表达的比率相对于正常模式变化。对于增加来说，拷贝数增加对等位基因比率的作用比缺失大。任何适合的算法都可以用于检测此类情况。

在一些情况下，探针可以设计成检测某些SNP。在一些情况下，MIPS探针或锁式探针可以是尤其适合的，其中SNP存在于第一与第二探针之间的区域中。用于SNP检测的MIP探针的使用为本领域中已知且可以使用如本文中描述的方法检测。在一些情况下，可以对在第一与第二探针之间含有SNP的区域或区域一部分的扩增进行测序和分析。接着可以确定个别SNP等位基因的读数计数。

在一些情况下，算法可以评估样品中杂合SNP的等位基因频率以确定是否与预期频率存在偏差。对于此分析，非参考等位基因‘X’的频率可以针对每一多态SNP，通过将X等位基因的读数数目除以读数总数或覆盖深度计算来确定。女性中常染色体和X染色体的X等位基因频率的预期频率是0.5且男性样品中X和Y染色体的X等位基因频率是0或1(胎儿的性别可以通过Y连锁基因的存在/不存在来确定)。为评估多态位置的差异，针对其它等位基因SNP频率测试预期频率。接着可以使用各种统计步骤进行个别SNP数据的分割，例如环形二元分割(CBS)。通常，进行测试以使用变异数相等的F测试，测量样品频率变异与参考频率变异之间的统计显著性。在一些情况下，此参考由来自如本文所描述的任何参考类型的测试样品中存在的杂合SNP的中位数X等位基因频率值构成。此分割过程可以鉴别基因组中相对于参考，样品中存在偏移的等位基因表达的连续区域，由此鉴别可以横跨一个以上基因座的CNV。

在一些情况下，CNV可以通过等位基因比率检测。与在对照样品中确定的已知值相比时，更高或更低的SNP比率可以指示例如非整倍性的CNV的存在。

在一些情况下，SNP比率的增加可能比对照样品中的平均值高至少约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、80％或100％，且可以指示CNV的存在。在一些情况下，SNP比率的增加可能比对照样品中的平均值高至多约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、80％或100％，且可以指示CNV的存在。

在一些情况下，SNP比率的增加可能比对照样品中的平均值低至少约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、80％或100％，且可以指示CNV的存在。在一些情况下，SNP比率的增加可能比对照样品中的平均值低至多约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、80％或100％，且可以指示CNV的存在。

在一些情况下，SNP比率可以用比对照样品中的平均值高或低的标准偏差测量，且指示存在CNV的风险增加。在一些情况下，SNP比率可以比对照样品中的平均值高至少约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5或5个标准偏差且可以指示CNV的存在。在一些情况下，SNP比率可以比对照样品中的平均值高至多约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5或5个标准偏差且可以指示CNV的存在。

在一些情况下，SNP比率可以比对照样品中的平均值低至少约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、1、2.5、3、3.5、4、4.5或5个标准偏差且可以指示CNV的存在。在一些情况下，SNP比率可以比对照样品中的平均值低至多约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5或5个标准偏差且可以指示CNV的存在。

在一些情况下，CNV可以使用应用于等位基因表达的覆盖深度法评估。在此类情况下，等位基因可以分成2组，一组对应于较高表达的等位基因且一组对应于较低表达的等位基因。接着每一组可以用与如本文中描述的基因座读数计数数据类似的方式比较。在一些情况下，等位基因水平分析可能优选于基因座水平分析，因为拷贝数的相对变化量值可能较大，且因此可能引起读数计数较大。与基于等位基因的CNV检测相关的工作流程的实例可以在图3中发现。

D.所选基因座的数目

在一些情况下，测定的准确度和分辨率可以随着测试的基因座数目增加而提高。基因座数目增加也可以尤其适于增加全染色体的CNV所要求的准确度和分辨率。每条染色体取样的基因座数目可以是至少约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000或5000个基因座。每条染色体取样的基因座数目可以是至多约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000或5000个基因座。

E.遗传改变的解释

在鉴别例如CNV的遗传改变后，可以评估基因组异常的相关性以确定其是否是病原性的还是良性的。为了确定影响，可以查阅将基因组变体编入目录的数据库，例如ENSEMBL(http://www.ensembl.org)、使用ensembl资源的人类染色体不平衡和表型数据库(DECIPHER，http://www.sanger.ac.uk/PostGenomics/decipher/)和基因组变体数据库(DGVhttp://projects.tcag.ca/variation)以确定是否存在因遗传改变而引起的表型或健康影响。

其它因素可以包括CNV和基因组含量的大小、在线人类孟德尔遗传(OMIM)数据库(www.nchi.nlm.nih.gov/omim)中剂量敏感性基因的证据的检测以及最新资料的综述。基于一些或所有这些分析，可以确定对CNV的病原性的可能性的估计。

XIII.应用

A.胎儿和母体健康

通常，本公开的系统和方法可以针对评估母亲或胎儿的质量和健康。通常，本公开的系统和方法可以用于评估与例如CNV的遗传改变有关的任何适当的疾病或疾病状态。在一些情况下，此信息可以用于支持关于母亲或胎儿治疗的决定。在其它情况下，此信息可以用于支持关于怀孕的决定(即终止或继续妊娠)。在涉及IVF的一些情况下，有关胚胎中遗传改变的信息可以用于关于哪一胚胎植入女性中的选择决定。

在其它情况下，本公开的系统和方法可以用于提供考虑在胎儿中或在胎儿出生后可能出现或可能不出现的相对健康问题的预示信息。在一些情况下，可以在母亲或胎儿中鉴别致病变体且用于确定或者评估出现具体疾病的风险。

B.癌症的早期检测

本文中提供的系统和方法可以用于监测已知的癌症，或母亲或胎儿中的其它疾病。此可以允许母亲、胎儿或者从业者采用与疾病进展一致的治疗选择。在此实例中，本文中描述的系统和方法可以用于构建疾病过程的特定受试者的遗传概况。在一些情况下，癌症可能进展，变得更具侵袭性且在遗传上不稳定。在其它实例中，癌症可以保持良性、非活性或休眠。本公开的系统和方法可以适用于确定疾病进展。

此外，本文中描述的系统和方法可以适用于确定具体治疗选择的功效。在一个实例中，治疗选择可能实际上影响例如CNV的遗传改变的性质或量。在一些情况下，遗传改变的监测可以适用于监测治疗功效。在一些情况下，此相关性可以适用于选择或改变疗法。

C.与染色体数目异常相关的疾病的早期检测

在其它应用中，本公开的系统和方法可以用于检测与与染色体异常有关的胎儿或胚胎遗传改变有关的其它疾病。

举例来说，本公开的系统和方法允许检测数目异常，例如存在额外组的正常(或单倍体)染色体数目的异常(三倍性和四倍性)、具有遗失个别染色体(单体性)的异常和具有额外个别染色体(三体性和双三体性)的异常。大概一半的自发性流产与胎儿核型中存在异常数目的染色体有关，其使得非整倍性成为流产的主要原因。本公开的系统和方法可以帮助对基于非整倍性的疾病状态进行早期检测和可能的治疗选择。三体性是非整倍性的最频繁类型并发生在4％所有临床上识别的妊娠中。最常见的三体性涉及染色体21(与唐氏综合症有关)、染色体18(爱德华综合症(Edwardsyndrome))和染色体13(帕陶综合症(Patausyndrome))。其它非整倍性与特纳综合症(Turnersyndrome)(存在单个X染色体)、克兰费尔特综合症(Klinefeltersyndrome)(特征为XXY核型)和XYY疾病(特征为XYY核型)有关。本公开的组合物和系统以及方法可以适用于检测非整倍性相关的疾病，包括(但不限于)：唐氏综合症、爱德华综合症和帕陶综合症，以及特纳综合症、克兰费尔特综合症和XYY病。

D.与X连锁疾病相关的疾病的早期检测

本公开的系统和方法可以用于检测涉及X染色体的染色体异常。已知大量的这些染色体异常与总称为X连锁病症的一组疾病和病状有关。举例来说，本公开的系统和方法可以用于检测X染色体上的HEMA基因(Xq28)中与甲型血友病(一种遗传性血液病症，主要影响男性且特征为被称为因子VIII的血液凝固蛋白质缺陷，引起出血异常)有关的突变。

在另一实例中，本公开的系统和方法也可以用以检测X染色体上在FMR1基因(Xq27.3)的一个末端的CGG基序的扩增(存在超过200个拷贝)，此与脆性X染色体综合征(目前已知的智力迟钝的最常见的遗传形式)有关。

D.与端粒中目标基因座相关的疾病的早期检测

除脆性X染色体综合症外，已知大量其它迟钝病症由涉及染色体的末端区域(或端部)(即端粒)的染色体异常引起。一大部分端粒DNA通常在不同的染色体中共享。然而，端粒还包含对每一染色体特定且富含基因的独特(小得多)序列区域。涉及端粒区的染色体重排可能具有严重的临床后果。举例来说，已经发现亚显微亚端粒染色体重排为具有或不具有先天缺陷的智力迟钝的重要原因。端粒区域具有最高重组率且易于由不规则的配对和交叉引起畸变。因为通过在450-500谱带级别的常规核型分析，大部分染色体的末端部分看来几乎相同，所以使用标准方法难以检测这些区域中的染色体重排。可以提供比常规核型分析系统和方法高得多的分辨率的本公开的系统和方法可以用于检测此类亚端粒重排。

E.其它各种CNV疾病的早期检测

在其它实例中，本公开的系统和方法可以用于检测各种其它CNV相关的胎儿疾病。这些可以包括(但不限于)染色体15上区段q11-q13的缺失，当父系来源于染色体15时，其与普拉德-威利综合症(Prader-Willisyndrome)(特征为智力迟钝、肌张力减少、身材短小和肥胖症的病症)有关。当母系来源于染色体15时，此遗传改变与安琪曼综合症(Angelmansyndrome)(一种特征为智力迟钝、言语功能损伤、步态异常、癫痫发作和不当快乐行为的神经发生病症)有关。

在另一实例中，本公开的系统和方法也可以用以检测染色体22中的微小缺失，例如发生在带22q11.2中的缺失，其与迪乔治综合征(DiGeorgesyndrome)(一种常染色体显性病状，发现与产前确定的先天性心脏病中大概10％病例相关)相关。

在另一实例中，还可以使用本公开的系统和方法检测染色体21上亚区(例如21q22)的区段复制，该区段可以存在于染色体21或另一染色体(即移位后)上且与唐氏综合症有关。

F.免疫疾病、感染和胎儿性别的早期检测

各种其它疾病和感染可以引起可能适于早期检测和监测的其它类型的病状。举例来说，在某些情况下，遗传病症或感染性疾病可以引起受试者内一定的遗传镶嵌性。此遗传镶嵌性可以引起可以用本公开的系统和方法检测的拷贝数变异和罕见的突变。在另一实例中，本公开的系统和方法也可以用以监测母亲或胎儿体内免疫细胞的基因组。例如B细胞等免疫细胞可以在存在某些疾病后经历快速的克隆放大。克隆放大可以使用拷贝数变异检测监测且可以监测某些免疫状态。在此实例中，拷贝数变异分析可以随着时间推移进行以产生具体的疾病可能如何进展的概况。

此外，本公开的系统和方法也可以用以监测全身感染本身，如可能由例如细菌或病毒的病原体所引起。拷贝数变异或甚至罕见的突变检测都可以用于确定病原体群体在感染过程期间正在如何改变。此在例如HIV/AIDs或肝炎感染的慢性感染期间可能尤其重要，由此病毒可能在感染过程期间改变生命周期状态和/或突变成更恶性的形式。

此外，本公开的系统和方法也可以用以确定胎儿的性别(即男性或女性)。举例来说，探针可以用于确定Y染色体的不存在或存在或X染色体的二体拷贝数。

G.疾病的致病变体的早期检测

通常，本公开的系统和方法也可以用以鉴别致病变体(即SNP或CNV)的存在或不存在，此适用于确定具体疾病的风险或严重程度。举例来说，本公开的系统和方法可适用于具有亨廷顿氏病(Huntington’sdisease)家族史的患者。此神经退行性疾病由亨廷顿基因(HTT)中可变长度三核苷酸重复序列引起。此重复序列的长度可以在个体之间以及世代之间改变。认为重复序列的长度影响亨廷顿疾病本身的严重程度。CNV水平的确定可以提供关于亨廷顿基因中重复序列数目的信息。此信息可以提供对怀疑患有所述疾病的胎儿中所述疾病的将来严重程度的了解。

XIV.信息存储和传递

来源于分析目标基因座和鉴别遗传改变存在或不存在的信息可以传达至任何具体的个体，包括胎儿(样品或序列数据来源于其)的父母、监护人或拥有者、临床医师、研究专业人员、医学专业人员、服务提供者和医药保险公司或保险公司。医学专业人员可以是例如医生、护士、医学实验室技术人员和药剂师。研究专业人员可以是例如原理研究者、研究技师、博士后实习生和研究生。

在一些实施方案中，专业人员可以通过确定特定遗传改变是否存在于胎儿中且将有关遗传改变的信息传达至专业人员而得到帮助。有关特定遗传改变的信息被报导后，医学专业人员可以采取一个或多个可以影响父母的行为。举例来说，医学专业人员可以将关于胚胎出现发育病症的风险的信息记录在父母的病历中。在一些实施方案中，如果胚胎被选择植入女性中，则医学专业人员可以记录关于胚胎风险评估的信息。

在一些实施方案中，医学专业人员可以将关于胚胎出现发育病症的筛选的信息传达至受试者或受试者的家庭。在一些实施方案中，医学专业人员可以为家庭提供关于发育病症的信息和风险评估信息，包括治疗选择和专家推荐。在一些实施方案中，医学专业人员可以提供受试者的病历拷贝至专家。在一些实施方案中，研究专业人员可以将关于胚胎出现发育病症的风险的信息应用于先进科学研究。

任何适当的方法都可以用于将信息传达至另一个人。举例来说，信息可以直接或间接给予专业人员且实验室技术人员可以输入如本文中描述的胚胎的遗传改变至基于计算机的记录中。在一些实施方案中，信息通过对医学或研究记录进行物理改变来传达。举例来说，医学专业人员可以作出持久的符号或标记病历以将风险评估传达至回顾记录的其它医学专业人员。另外，任何类型的传达都可以用于传达风险评估信息。举例来说，可以使用邮件、电子邮件、电话和面对面交涉。信息也可以通过制作专业人员可以用电子方式获得的信息传达给专业人员。举例来说，信息可以通过将信息放在计算机数据库，使得专业人员可以如图8中所示存取信息来传达给专业人员。另外，信息可以传达给用作专业人员的中介的医院、临床或研究设备。展示了以计算机为基础的传达的一种例示性图。

XV.实施例

本领域技术人员将了解，可以进行许多和各种修改以在不脱离本公开的精神下产生基本上类似的结果。关于论述的主题，本文中提及的所有参考文献都以引用的方式整体并入本文中。以下实施例仅仅是出于说明的目的而包括，且不旨在以任何方式限制本公开的范围。

实施例1：MIP探针连接和扩增的一般实验参数

1.探针设计

2.产生100阿托摩尔(attomole)/微升/探针(60000000个分子/微升/探针)的汇集原液

3.样品提取(即分离cfDNA)

A.使用商业化的试剂盒收集血液于无细胞DNABCT中

B.对于最佳结果，包括当提取无细胞DNA时在60℃下在离液序列高的盐存在下的蛋白酶K处理步骤(≥30mAU/ml消化物)1小时和当提取细胞基因组DNA时处理2小时。

4.测定

1.组合：

a.提取的cfDNA

b.用1微升探针原液

c.在1Xampligase缓冲液(EpicentreTechnologies)中

d.至7.8微升体积

2.热循环仪：

a.将退火反应混合物加热至95℃，保持5分钟。

b.接着温度每次下降一度，在每一温度下保持1分钟，直至到达65℃以及

c.保持在65℃下过夜。

3.添加

a.1Uampligase酶(EpicentreTechnologies)

b.在1Xampligase缓冲液(EpicentreTechnologies)中

c.14.2微升总体积

4.热循环仪：

a.58℃，保持2min

5.添加：

a.0.65U核酸外切酶I(EpicentreTechnologies)

b.3.3U核酸外切酶III(EpicentreTechnologies)

c.反应混合物体积变化可以忽略

6.热循环仪：

a.37℃，保持15min

b.80℃，保持15min以消除酶活性

7.采用高保真聚合酶(例如κHiFi)且遵循制造商的说明书。来自IntegratedDNATechnologies的经HPLC纯化的通用正向和反向扩增引物：

a.xxxxxxxxx-TACTGAGGTCGGTACACTCT

b.yyyyyyyyyy-AGTAGCCGTGACTATCGACT

8.热循环仪：

a.95℃，保持10min

b.5次以下循环：

i.94℃，保持30s

ii.63℃，保持30s

iii.72℃，保持30s

c.72℃，保持5min

实施例2：检测21三体症

从处在其妊娠早期或妊娠中期的孕妇收集外周血样品。将所收集的样品离心以获得无细胞血浆。使用QiAmpDNA血液小型试剂盒(QiAmpDNABloodMiniKit)(Qiagen)，根据制造商的说明书从血浆级分中提取无细胞DNA。从15ml血液中获得大概5ngDNA。

针对染色体21中目标基因座设计的MIP探针组用以测试用于检测推定21三体症的样品。在整条染色体中、在两个臂区域与着丝点区域中选择目标基因座。使用例如ROSO的最佳化算法，选择特定探针序列，以选择最佳探针和探针组用于杂交。选择标准包括位点选择性、与染色体21以外的基因座的交叉反应性最小化、探针长度、杂交反应中的耐盐度、探针中的二级结构最小化和探针-探针二聚最小化。选择标准和最佳化应用于个别探针组以及使用的探针整体。100个探针组用以与染色体21杂交且每一探针含有2个探针。

每一探针组内，选择第一探针和第二探针，使得当结合于互补序列时探针之间不存在间隙。染色体21MIP探针都通常分配寡核苷酸条形码序列(“X”)。以与图6B中所示类似的配置，MIP探针中的条形码“X”被2个通用引物位点(“A”)侧接。

除设计成与染色体21杂交的探针外，使用针对染色体21(目标基因座)以外的参考基因座设计的MIP探针。使用被设计成在整条染色体2上杂交的100个MIP探针。每一探针组内，选择第一探针和第二探针，使得当结合于互补序列时探针之间不存在间隙，类似于染色体21的探针。以与染色体21的探针类似的方式，如本文中描述，选择标准和最佳化应用于染色体2参考探针。染色体2MIP探针都通常分配寡核苷酸条形码序列(“Y”)。以与图6B中所示类似的配置，MIP探针中的条形码“Y”被2个通用引物位点(“A”)侧接。

在单个杂交反应中，染色体21和2个探针组都同时应用于样品。添加超过无细胞DNA样品中测试的基因座浓度5X的染色体2与21的探针浓度。样品多核苷酸首先在95C下变性5分钟，产生单链无细胞DNA分子，且使探针杂交在65C下进行过夜。接着在添加NEB连接酶和缓冲液下进行结合的MIP探针的连接。反应放在25C下且使连接继续2小时。

接着通过添加ExoI/III(Epicentre)的组合，在37C下进行核酸外切酶反应5小时以降解样品中未结合的探针。接着作为净化步骤，反应混合物穿过硅胶基质，以去除降解的未结合的探针和残余的无细胞DNA样品多核苷酸。从硅胶基质洗脱连接产物且使用KAPA/HIFI聚合酶进行第二链合成。与探针中接头序列一部分互补的引物用于第二链合成。

第二链合成后，使用与引物位点“A”互补的引物进行通用扩增步骤。进行若干轮线性扩增，接着进行数轮对数扩增循环。

接着使用IlluminaGenomicAdaptorOligo混合物和Illumina衔接子(非指数Y衔接子)将扩增产物连接至通用衔接子。使用AgencourtAMPureXPPCR纯化系统中提供的磁珠从未连接的衔接子、衔接子二聚体和其它试剂纯化衔接子连接的条形码序列。接着在40μLQiagenEB缓冲液中洗脱纯化的扩增产物。使用Illumina的基因组分析仪II对经过扩增的DNA进行测序，以获得单末端读数。使用Illumina软件计数条形码X与Y的读数。读数计数的总设置阈值定在10000，此后停止计数。计算X/Y计数的比率并另外与包含从类似实验中获得的X/Y比率的综合评分的阈值参考值进行比较。进行变异系数和卡方分析(chisquareanalysis)以提供计算比率的统计显著性。通过评估计算比率和与参考值的比较来确定CNV。

实施例3：染色体13、18、21、X和Y的多CNV测试

使用与实施例2中所描述类似的实验方案策略，可以进行CNV的多染色体测试。另外，还可以检测含有CNV的亚染色体区域。具有与实施例2中所描述的特性类似的特性的MIP探针被设计成与染色体13、18、21、X和Y上的各种基因座杂交。参考探针被设计用于剩余染色体、染色体1-20和22。个别探针组分配独特的条形码序列以解析染色体区域中个别基因座的序列计数。另外，设计MIP探针，使得通用扩增位点侧接独特的条形码序列，条形码序列另外由Illumina相容的衔接子序列侧接。此设计消除了对如实施例2中所描述并入衔接子序列用于测序的额外扩增步骤的需要。

使用与实施例2中所描述类似的生物化学和分子生物学步骤，分离与染色体13、18、21、X和Y上基因座杂交的MIP探针的连接产物。使用Illumina平台测序，以与实施例2中所描述类似的方式，扩增、鉴别和计数条形码-衔接子序列。确定每一染色体的条形码总数目(条形码密度)。或者，条形码序列数目可以相对于染色体的长度标准化以产生条形码密度比。相对于染色体长度标准化不是必需步骤，且可以单独进行以简化计数步骤。

每一染色体的所得条形码密度与每一其它染色体的条形码密度进行比较以得出合格染色体“剂量”，其计算为例如染色体21的目标染色体的条形码密度与每一剩余染色体(即染色体1-20、22和X)的条形码密度的比率。确定样品中所有染色体的染色体剂量。每一目标染色体的染色体剂量提供了每一目标染色体的条形码总数相对于每一剩余染色体的条形码总数的变化的量度。染色体剂量可以鉴别染色体或一组染色体，即样品中的变化与目标染色体的变化最靠近的标准化染色体。基于目标染色体的染色体剂量比率与一条或多条剩余染色体的标准化剂量比率的比较确定CNV遗传改变。

实施例4：孤独症的致病变体的SNP和CNV的检测

进行测试以评估胎儿受试者中出现例如孤独症的神经发育性疾病的风险。在孤独症的一些情况下，某些SNP和CNV遗传改变的存在可以使受试者倾向于具有出现疾病的更高风险。在此测试中，使用与实施例2和3中描述类似的实验方案。在此测试中，然而，MIP探针组设计成与认为与孤独症的出现有关的目标基因座杂交。例如一个或多个基因座的罕见SNP和/或CNV的遗传改变可以指示所述疾病更高或更低的风险。独特的条形码分配给每一基因座的个别探针组。基因座跨越许多染色体分布。另外，每一MIP探针组内，设计2个探针，使得当结合于样品多核苷酸时探针之间不存在间隙。间隙对应于可能含有与孤独症出现相关的SNP的具体基因座中样品多核苷酸中的序列。此外，设计MIP探针，使得通用扩增引发位点侧接条形码序列和杂交序列，如图6A中所示。除目标基因座以外的基因座的参考探针可以设计成与各种管家基因杂交且还包括探针之间的间隙以捕获不与孤独症有关的基因座的SNP。

在如实施例2和3中所描述的实验设计的额外步骤中，结合于样品多核苷酸的预连接探针用例如克列诺片段(Klenowfragment)的DNA聚合酶处理以使两种杂交探针之间的间隙中的序列聚合。此聚合序列可以捕获该序列区域中存在的SNP的身份。

连接和分离产物后，进行扩增。可以进行不同的扩增步骤。在一个方法中，使用设计用于个别条形码的引物或一个或多个条形码所共用的序列进行扩增。接着对这些产物测序并计数。个别条形码的比率可以进行比较以确定一个或多个基因座的CNV。在另一步骤中，可以使用通用引物位点和设计成与推定SNP的位置接近的位点的组合进行另一扩增反应。扩增产物含有条形码序列与一部分杂交序列和含有SNP的序列。

可以使用一部分杂交序列和待鉴别的SNP，将这些扩增产物的序列与参考序列比对。在其它情况下，可能不使用比对，因为条形码的鉴别将指示目标基因座。对条形码序列和SNP都进行计数。SNP与条形码的比较用以计算目标基因座与除目标基因座以外的基因座的等位基因频率。比率的比较可以用于确定孤独症的特定致病变体(SNP或CNV)且可以用于评估胎儿受试者中出现疾病的风险或风险因子。

实施例5：具有高灵敏度的遗传改变的检测

还可以进行遗传改变的测试，其中可以不使用扩增和测序步骤。在此测试中，结合的MIP的连接产物可以如本文中描述产生，其中对实验方案中的下游步骤进行改变。分离连接产物后，这些产物本身可以直接用以计数产物内含有的序列。在一些情况下，样品多核苷酸物质可以具有足够量以允许足够数目的探针结合和连接，允许条形码和其它序列计数，而没有扩增步骤。在其它方法中，高灵敏度的检测测定系统，例如NanostringnCounter系统，可以用于直接从连接产物计数条形码，即使当结合于样品多核苷酸的探针的数目相对较低时。

nCounter采用基于杂交的方法，该方法使用包含杂交序列和对应基于荧光纳米粒子的条形码序列的分子。与这些元件一起提供杂交序列的身份以及可以用于计数结合于样品中存在的连接产物的杂交序列的可定量信号。在此测试中，已经分离连接产物后，含有针对连接产物中含有的条形码序列设计的杂交序列的nCounter分子可以用于计数条形码序列。nCounter分子中的纳米粒子条形码也可以分配给特定杂交序列(多核苷酸条形码)，因此提供了分配给MIP探针的具体条形码的鉴别和计数。此测试可以用于与本公开的系统和方法相关的任何应用。nCounter系统的使用或任何相关的单分子测定系统可以用于计数连接产物中的序列。此方法也可以与连接产物的各种扩增或富集步骤结合使用。

实施例6：示例锁式风格探针

图9说明了根据本公开的示例探针和用于扩增探针区域的示例PCR扩增引物。示例探针内的“n”代表主链序列，其在环形示意图中更详细地说明，展示结合于其靶标的探针，其中末端连接形成环形多核苷酸。在环形示意图中，“N”代表基于分子标签的简并子，且“B”代表用于鉴别探针的条形码序列。在PCR扩增引物中，“X”代表与具体的样品有关的条形码的序列。在此实例中，探针的5’和3’末端连接在一起而没有进一步延伸。在此之后使用正向和反向引物RPCR引物和FPCR引物进行PCR，在图10中说明。RPCR引物与连接探针杂交，且通过聚合酶延伸，产生第一延伸产物。FPCR引物与第一延伸产物杂交，且通过聚合酶延伸，产生第二延伸产物。额外RPCR引物和FPCR引物的杂交和延伸可以使用第二延伸产物和随后产物作为模板扩增所指示的探针序列来重复。接着可以使用Illumina流动池对PCR产物进行测序。

Claims

1.一种测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：

a.获得测试样品中的母体和胎儿多核苷酸；

b.使多个探针与所述包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除所述目标基因座以外的基因座杂交，其中至少一个或多个探针与标识符缔合；

c.任选地使用聚合酶延伸探针；

d.连接探针以产生连续的连接产物；

e.将结合的连接产物与未结合的探针分离；

f.对所述连接产物内含有的一个或多个区域进行计数，其中所述一个或多个区域包含除完全完整的探针以外的元件；以及

g.确定一个或多个基因座处的遗传改变的存在或不存在。

2.一种测试包含母体和胎儿多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：

a.获得测试样品中的母体和胎儿多核苷酸；

b.使包含与所述包含母体和胎儿多核苷酸的样品中的至少一个目标基因座和至少一个除所述目标基因座以外的基因座互补的杂交序列的多个探针与多核苷酸杂交，其中至少一个或多个探针与标识符序列缔合；

c.任选地使用聚合酶和dNTP延伸探针；

d.连接探针以产生连续的连接产物；

e.将连续的连接产物与未结合的探针分离；

f.将来自所述连接产物的区域扩增以产生多个扩增序列，其中所述扩增序列包含所述标识符序列；

g.对步骤f的所述序列的全部或一部分进行计数，其中计数包括对除完全完整的杂交序列以外的序列进行计数；以及

h.确定一个或多个基因座处的遗传改变的存在或不存在。

3.一种测试包含母体和胎儿多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：

a.获得测试样品中的母体和胎儿多核苷酸；

c.任选地使用聚合酶和dNTP延伸探针；

d.连接探针以产生连续的连接产物；

e.将连续的连接产物与未结合的探针分离；

f.对来自所述连接产物的含有所述标识符序列的区域进行计数，其中计数包括对除完全完整的杂交序列以外的序列进行计数且其中序列计数不涉及扩增步骤；以及

g.确定一个或多个基因座处的遗传改变的存在或不存在。

4.一种测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：

a.获得测试样品中的母体和胎儿多核苷酸；

c.使一个或多个桥接寡核苷酸与同一基因座中两个杂交序列之间的区域杂交；

d.任选地使用聚合酶和dNTP延伸所述探针和/或桥接寡核苷酸；

e.连接所述探针和桥接寡核苷酸以产生连续的连接产物；

f.将连续的连接产物与未结合的探针分离；

g.扩增来自所述连接产物的含有所述标识符序列和除完全完整的杂交序列以外的序列的区域；

h.对步骤(g)中扩增的所述区域进行计数，其中计数包括对所述标识符序列和除完全完整的杂交序列以外的序列进行计数；以及

i.确定一个或多个基因座处的遗传改变的存在或不存在。

5.一种测试包含母体和胎儿DNA多核苷酸的混合物的样品中的一个或多个基因座处的遗传改变的方法，其包括以下步骤：

a.获得测试样品中的母体和胎儿多核苷酸；

d.任选地使用聚合酶和dNTP延伸所述探针和/或桥接寡核苷酸；

e.连接所述探针和桥接寡核苷酸以产生连续的连接产物；

f.将连续的连接产物与未结合的探针分离；

g.扩增来自所述连接产物的区域，其中所述区域包含所述标识符和除完全完整的杂交序列以外的序列；

h.对所述标识符序列进行计数；以及

i.确定一个或多个基因座处的遗传改变的存在或不存在。

6.一种用于确定包含胎儿与母体多核苷酸的混合物的样品中基因座的遗传改变的存在或不存在的方法或测定系统，其中所述测定系统包括对与接触所述样品中的基因座的探针缔合的标识符序列进行计数。

7.一种物质组合物，其中根据权利要求1、2、3、4、5或6所述的方法测试所述组合物。

8.如权利要求1至6所述的方法，其中所述遗传改变为CNV。

9.如权利要求1至6所述的方法，其中所述遗传改变为致病变体。

10.如权利要求1至6所述的方法，其中所述标识符或标识符序列为条形码序列。

11.如权利要求1所述的方法，其中探针为与一个或多个基因座中的区域互补的独立的固定序列。

12.如权利要求2至5所述的方法，其中杂交序列为与一个或多个基因座中的区域互补的独立的固定序列。

13.如权利要求1至5所述的方法，其中探针包含具有与一个或多个基因座中的区域互补的序列的环前探针。

14.如权利要求2、4或5所述的方法，其中扩增来自所述连接产物的区域包括一个或多个扩增步骤。

15.如权利要求1至6所述的方法，其中计数包括测序步骤。

16.如权利要求2、4或5所述的方法，其中完整的杂交序列不包含杂交序列。

17.如权利要求2至5所述的方法，其中完整的杂交序列包含小于100％的与基因座互补的杂交序列。

18.如权利要求1至6所述的方法，其中计数包括对不含杂交序列的序列进行计数。

19.如权利要求2、4或5所述的方法，其中扩增通过通用扩增步骤进行。

20.如权利要求2、4或5所述的方法，其中扩增通过选择性扩增步骤进行。

21.如权利要求2、4或5所述的方法，其中扩增针对不含杂交序列的序列进行。

22.如权利要求1至6所述的方法，其中测试至少一个基因座的遗传改变。

23.如权利要求1至6所述的方法，其中测试至少100个基因座的遗传改变。

24.如权利要求1至6所述的方法，其中测试至少500个基因座的遗传改变。

25.如权利要求1至6所述的方法，其中测试至少1000个基因座的遗传改变。

26.如权利要求1至6所述的方法，其中至少一个基因座含有多态性或推定的多态性。

27.如权利要求1至6所述的方法，其中测试至少一个基因座的拷贝数并且其不同于含有多态性的另一基因座。

28.如权利要求1至6所述的方法，其中所述基因座为染色体。

29.如权利要求1至6所述的方法，其中所述基因座为亚染色体区域。

30.如权利要求1至6所述的方法，其中所述基因座为单基因座。

31.如权利要求4和5所述的方法，其中至少一个桥接寡核苷酸与两个探针之间的区域杂交。

32.如权利要求1至5所述的方法，其中分离连续的连接产物包括未结合的探针的降解。

33.如权利要求31所述的方法，其中降解使用核酸外切酶进行。

34.如权利要求1至5所述的方法，其中分离连续的连接产物包括用结合伴侣进行亲和捕获。

35.如权利要求2、4或5所述的方法，其中dNTP缀合于用于亲和捕获的部分。

36.如权利要求35所述的方法，其中dNTP缀合于生物素。

37.如权利要求1至6所述的方法，其中所述探针和连接产物为人工序列。

38.如权利要求1至6所述的方法，其中对一个或多个区域进行计数或对所述标识符序列进行计数针对人工序列进行。

39.如权利要求1至6所述的方法，其中所述遗传改变为胎儿非整倍性。

40.如权利要求1至6所述的方法，其还包括基于确定遗传改变的存在或不存在来提供医学决策。

41.如权利要求1至6所述的方法，其还包括基于确定遗传改变的存在或不存在来提供治疗建议。

42.如权利要求1至6所述的方法，其中计数使用统计分析进行。

43.如权利要求42所述的方法，其中统计分析使用计算机算法进行。

44.如权利要求1至6所述的方法，其中计数通过具有处理器可执行指令的计算机可读介质进行。