CN106460070B

CN106460070B - 检测染色体片段中的突变和倍性

Info

Publication number: CN106460070B
Application number: CN201580033190.XA
Authority: CN
Inventors: J·巴比亚尔兹; T·P·康斯坦丁; L·A·尤班克; G·杰梅罗斯; M·M·希尔; H·E·柯克雷; M·罗比诺威特茨; O·萨卡里亚; S·斯古约恩松; B·齐默曼
Original assignee: Natera Inc
Current assignee: Natera Inc
Priority date: 2014-04-21
Filing date: 2015-04-21
Publication date: 2021-10-08
Anticipated expiration: 2035-04-21
Also published as: JP7030860B2; JP2022028949A; JP2020072739A; AU2021209221B2; AU2015249846A1; US20190194759A1; US20180320239A1; US11530454B2; CN106460070A; JP2024001359A; EP3561075A1; US20190256931A1; US20180171420A1; US20230242998A1; US11371100B2; JP2020072738A; US11414709B2; US10179937B2; RU2016141308A3; CN113774132A

Abstract

本发明提供了用于检测染色体片段或者整个染色体倍性的方法、系统和计算机可读介质，用于检测单核苷酸变体并用于检测染色体片段倍性和单核苷酸变体。在一些方面，本发明提供了用于检测胎儿癌症或者染色体异常的方法、系统和计算机可读介质。

Description

检测染色体片段中的突变和倍性

相关申请的交叉引用

本申请要求2014年4月21日递交的美国临时专利申请第61/982,245 号、2014年5月1日递交的美国临时专利申请第61/987,407号、2014 年10月21日递交的美国临时专利申请第62/066,514号、2015年4月 10日递交的美国临时专利申请第62/146,188号、2015年4月14日递交的美国临时专利申请第62/147,377号、2015年4月15日递交的美国临时专利申请第62/148,173号的优先权，这些申请通过引证在此全部并入本文作为教导知识的一部分。

技术领域

本发明主要涉及用于检测染色体片段倍性的方法和系统，以及用于检测单个核苷酸变体的方法和系统。

技术背景

拷贝数变化(CNV)以及被认为是基因组结构变化的主要原因，包括序列的复制和删除，所述序列通常长度范围在1,000碱基对(1kb)到 20兆碱基对(mb)之间。染色体片段或者整个染色体的删除和复制与多种情况有关，例如易感性或者对疾病的抵抗力。

拷贝数变化通常被分为两大类，基于受影响序列的长度。第一类包括拷贝数多态性(CNP)，这在一般人群中是常见的，出现的总频率大于1％。 CNP通常很小(大多数长度小于10千碱基)，并且他们通常富集编码重要的解毒和免疫蛋白基因。这些CNP的子集相对于拷贝数是高度可变的。因此，不同人的染色体对于特定的一组基因可以有各种不同的拷贝数(例如2，3，4，5等)。与免疫应答基因相关的CNP最近与复杂遗传病的易感性有关，包括牛皮癣，节段性回肠炎和肾小球性肾炎。

第二类CNV包括比CNP长得多的相对罕见的变异，其大小范围从几十万碱基对到超过100万个碱基对的长度。在一些情况下，这些CNV可能出现于生成特定个体的精子或卵的形成期间，或者它们可能已经在一个家族内流传了少数几代。这些大而罕见的结构变异已经在具有精神发育迟滞，发育迟缓，精神分裂症和自闭症的受试者中不成比例地观察到。他们在这些病例中的出现引起了人们的猜测：大而罕见的CNV在神经认知疾病中可能比其他形式的遗传突变更为重要，包括单核苷酸取代。

基因拷贝数在肿瘤细胞中是可以改变的。例如，Chr1p的复制在乳腺癌中是常见的，EGFR的拷贝数在非小细胞肺癌中高于正常水平。癌症是死亡的主要原因之一；因此，癌症的早期诊断和治疗是重要的，因为它可以改善患者的预后(如通过增加缓解率和缓解期的持续时间)。早期诊断还可以允许患者遭受更少或较为温和的治疗选择。许多现有的治疗方法破坏癌细胞也影响正常细胞，导致各种可能的副作用，例如恶心，呕吐，低血细胞计数，增加感染、脱发和粘膜溃疡的风险。因此，癌症的早期检测是可取的，因为它可以减少消除癌症所需的治疗(例如化疗药物和放射) 的量和/或数量。

拷贝数变化也与严重的精神和生理障碍以及特发性学习障碍有关。使用无细胞DNA(cfDNA)的非侵入性产前测试(NIPT)可用于检测异常，例如胎儿13，18和21三体综合征，三倍体性和性染色体非整倍性。亚染色体微缺失，也可以导致严重的精神和生理障碍，由于其较小的尺寸而更加难以检测。八种微缺失综合征的总发病率超过1/1000，使得它们几乎与胎儿染色体三体综合征一样常见。

此外，CCL3L1的较高拷贝数与HIV感染的低敏感性相关联，FCGR3B (CD16细胞表面免疫球蛋白受体)的低拷贝数可以增加对系统性红斑狼疮和类似炎症性自身免疫性疾病的易感性。

因此，需要改进的方法来检测染色体片段或整个染色体的缺失和重复。最好，这些方法可用于更准确地诊断疾病或疾病的增加风险，例如癌症或妊娠胎儿中的基因拷贝数变化。

发明内容

在说明性实施方案中，本发明提供了一种用于测定个体样本中染色体片段的倍性的方法。该方法包括以下步骤：

a.接收等位基因频率数据，所述等位基因频率数据包括样品中染色体片段上的一组多态基因位点中每个基因位点上存在的等位基因数量；

b.通过评估等位基因频率数据的相位产生多态性基因位点的相位等位基因信息；

c.使用等位基因频率数据，生成不同倍性多态性位点的等位基因频率的个体概率；

d.使用个体概率和相位等位基因信息，生成多态性基因位点集合的联合概率；和

e.基于联合概率，选择一个最适合的模型指示染色体倍性，从而确定的染色体片段的倍性。

在一个测定倍性方法的说明性实施方案中，数据是通过核酸序列数据，尤其是高通量核酸序列数据产生的。在某些用于确定倍性方法的说明性实施例中，等位基因频率数据被进行误差校正，在它被用于产生个体概率之前。在具体的说明实施方案中，校正的误差包括等位基因扩增效率偏差。在其他说明实施方案中，校正的误差包括环境污染和基因型污染。在一些实施方案中，校正的误差包括等位基因扩增效率偏差，环境污染和基因型污染。

在某些测定倍数方法的实施方案中，通过一组不同倍性状态和多态性位点等位基因不平衡率的模型生成个体概率。在这些实施方案和其他实施方案中，通过考虑染色体片段上面多态性基因座之间的连锁来生成联合概率。

因此，在一个组合了这些实施方案的说明性实施方案中，这里提供了一种方法，检测个体样本中的染色体倍性，其包括以下步骤：

a.接收个体染色体片段上一组多态性位点处的等位基因的核酸序列数据；

b.检测基因位点集合的等位基因频率，使用核苷酸序列数据；

c.在检测到的等位基因频率中校正等位基因扩增效率偏差，产生正确的一组多态性位点的等位基因频率；

d.通过评估核苷酸序列数据的相位生成多态性位点组的相位等位基因信息；

e.通过比较校正后的等位基因频率与不同倍性状态集合和多态位点等位基因不平衡率的模型，生成针对不同倍性状态的多态性位点的等位基因频率的个体概率；

f.生成联合概率，对多态性位点集合，通过结合个体概率(考虑染色体片段上的多态性位点之间的连锁关系)；

g.根据联合概率，选择指示染色体非整倍体最适合的模型。

在另一方面，这里提供了一种系统，用于检测个体样本中的染色体倍性，这个系统包括：

a.输入处理器，被配置为在染色体片段的多态性位点组上接收等位基因频率数据，包括样本中每个位点上的每个等位基因的数量；

b.建模器，被配置为：

i.对于一系列多态性位点，通过评估等位基因频率的相位生成相位的等位基因信息；和

ii.使用等位基因频率数据生成对于不同倍性状态的多态性位点的等位基因频率的个体频率；

iii.使用个体频率和相位等位基因信息生成多态性位点组的联合频率；

c.假设管理器，被配置用来根据联合概率选择显示染色体倍性的最适合的模型，从而决定染色体片段的倍性。

在该系统实施方案的某些实施方案中，等位基因频率数据是由核酸测序系统产生的数据。在某些实施方案中，该系统还包括误差校正单元，以便纠正那些等位基因频率数据中的错误，其中那些校正后的等位基因频率数据则被建模者使用进而生成个体概率。在一些实施方案中，误差校正单元纠正了等位基因扩增的效率偏差。在某些实施方案中，建模者通过一组模型来生成个体概率，这组模型包括不同的倍性状态和多态性位点集合中的等位基因不平衡率。在一些示例性实施方案中，建模者通过考虑多态性基因位点在染色体片段上的连锁关系，从而生成联合概率。

在说明性的实施方案中，这里提供了一种系统，用于检测个体样本中的染色体倍性，其包括以下:

a.输入处理器，被配置来接收个体染色体片段上多态性位点组的等位基因的核苷酸序列数据，并利用核苷酸序列数据检测在基因位点上的等位基因频率；

b.误差校正单元，被配置来校正检测到的等位基因频率的误差，为多态性位点集合生成正确的等位基因频率；

c.建模器，被配置为：

i.通过评估核酸序列数据的相位产生相位的多态性位点集合的等位基因信息；

ii.通过比较相位的等位基因信息与不同倍性状态集合和系列多态性位点等位基因不平衡率的模型生成对不同倍性状态的多态性位点的等位基因频率的个体概率；

iii.通过结合个体概率，考虑染色体片段上多态性位点的相对距离生成多态性位点集合的联合概率；

d.假设管理器，被配置用于根据联合概率，选择指示染色体非整倍性的最适合的模型。

在某些方面，这个发明提供了一种方法来确定个体样品中是否存

在循环的肿瘤核酸，包括：

a.分析样本以确定个体染色体片段上一系列多态性位点的倍性；

b.确定多态性位点中出现的基于倍性确定的等位基因不平衡的水平，其中等位基因不平衡等于或大于0.4％，0.45％或者0.5％表明样本中存在循环肿瘤核酸。

在某些实施方案中，确定是否存在循环肿瘤核酸的方法，还包括检测单核苷酸变异位点组中的单核苷酸变异位点上的单核苷酸变异，其中，检测到等位基因不平衡等于或大于45％或检测到单个核苷酸变异，或者两者兼有，表明样本中存在循环肿瘤核酸。

在某些实施方案中，确定是否存在循环肿瘤核酸的方法的分析步骤，包括分析一组染色体片段，已知其在癌症中显示为非整倍体。在某些实施方案中，确定是否存在循环肿瘤核酸的方法的分析步骤，包括分析1000到5000之间，或者100到1000之间倍性的多态性位点。

在某些方面，这里提供了一种用于检测样本中单个核苷酸变异的方法。因此，这里提供了一种用于确定在一组来自于个体样本的基因组位置上单核苷酸变异是否存在的方法，这个方法包括：

a.对每一个基因组位置，使用一套训练数据集生成频率评估并对扩增子在基因组位置上延伸时各个循环的误差率的评估；

b.对于样本中的每一个基因组位置接收观察到的核苷酸相似性信息；

c.通过比较每个基因组位置上观察到的核苷酸相似性信息与一个不同变异指数模型，利用评估后的扩增效率和每个基因组位置上独立的各个循环的误差率确定一组在每个基因组位置上造成一个或多个真实突变的单个核苷酸变异概率的可能性；

d.从每个基因组位置的概率集合中确定最有可能的真实突变率和可信度。

在用于确定是否存在单个核苷酸变异的方法的说明性实施方案中，对于一组跨基因组位置的扩增子产生评估效率及每个循环误差率。例如，2、 3、4、5、10、15、20、25、50、100或者更多的跨基因组位置的扩增子能够被涵盖。在这种方法的某些实施方案中，用于检测一种或多种脾脏坏死病毒的检测限是0.015％、0.017％或者0.02％。

在用于确定是否存在单个核苷酸变异的方法的说明性实施方案中，观察到的核苷酸相似性信息包括对每个基因组位置总读数所观察到的数目和对每个基因组位置上变异等位基因所观察到的数目。

在用于确定单个核苷酸变异是否存在的方法的说明性实施方案中，样本是血浆样本，单个核苷酸变异存在于样本的循环肿瘤DNA中。

在另一个实施方案中，这里提供了一种方法用来检测来自于个体的受测样本中的一个或多个单核苷酸变异。根据这个实施方案的方法，包括以下步骤：

a.确定来自每个正常个体的一组参照样品中平均变体等位基因频率，根据测序运行结果，在一组单核苷酸偏差位置的每个单核苷酸变体位置，确定确定所选单核苷酸变异位点在正常样本中的一个平均变体等位基因频率低于一个阈值，确定在删除了每一个单核苷酸变异位点离群样本以后的每个单核苷酸变异位点的背景误差；

b.确定一个观察到的读取加权平均值和方差深度，对检测样本中选定的单核苷酸变异位点，基于对测试样本的测序运行所生成的数据。

c.使用计算机确定，一个或多个单核苷酸变异位点，与所述位点的背景误差相比具有读取加权平均值统计学意义，从而检测一个或多个单核苷酸变异。

在用于检测一种或多种SNV的该方法的某些实施方案中，样本是血浆样本，对照样本是血浆样本，检测到的一种或多种单个核苷酸变体存在于样本的循环肿瘤DNA中。在用于检测一个或多个SNV的该方法的某些实施方案中，多个参照样本中包括至少25个样本。在用于检测一个或多个SNV的该方法的某些实施方案中，异常值被从高通量测序运行产生的数据中除去，计算读取加权平均值的观察深度，确定观察到的方差。在用于检测一个或多个SNV的该方法的某些实施方案中，对测试样本的每个单核苷酸变异位点的读取深度为至少100个读数。

在用于检测一种或多种SNV的该方法的某些实施方案中，测序运行包括有限引物反应条件下的多重扩增反应。在用于检测一种或多种 SNV的该方法的某些实施方案中，检测限为0.015％，0.017％或0.02％。

在一个方面，本发明描述了一种方法，确定是否存在第一同源染色体片段的拷贝数过表达，与来自个体的一个或多个细胞基因组中的第二同源染色体片段相比。在一些实施方案中，所述方法包括：获得第一同源染色体片段组成的相位基因数据，包括第一同源染色体片段上的那个基因位点处的等位基因的同一性，对于第一同源染色体片段上多态性位点集合中的每个基因座来说；获得第二同源染色体片段的相位基因数据，包括存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上的多态性基因位点集合中的每个基因座；以及获得测量的遗传等位基因数据，包括来自个体的一个或多个细胞的DNA或RNA样本中存在的每个等位基因的数量，对于多态性基因位点集合中的每个基因位点处的每个等位基因来说。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定来自于个体一个或多个细胞的基因组中第一同源染色体片段的拷贝过高程度，计算(例如在计算机上计算)一个或多个假说的可能性，基于获得的样本的遗传数据和所获得的相位基因数据，以及选择具有最大可能性的假设，由此确定个体一个或多个细胞基因组中第一同源染色体片段的拷贝数的过表达程度。在一些实施方案中，所述相位数据包括使用基于单倍型频率得到的群体所推测的相位数据，以及测定的相位数据(例如，通过对含有来自个体或个体亲属的DNA或RNA 的样本进行测量获得的定相数据)。

在一个方面，本发明描述了一种方法，用于确定是否存在第一同源染色体片段的拷贝数的过表达，与来自个体的一个或多个细胞的基因组中的第二同源染色体片段相比。在一些实施方案中，所述方法包括获得第一同源染色体片段的相位遗传数据，包括第一同源染色体片段上的那个基因位点处的等位基因的同一性，对于第一同源染色体片段上多态性位点集合中的每个基因座来说；获得第二同源染色体片段的相位基因数据，包括存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上的多态性基因位点集合中的每个基因座；以及获得测量的遗传等位基因数据，包括个体一个或多个细胞DNA或RNA样本中存在的每个等位基因的数量，对于多态性基因位点集合中的每个基因位点处的每个等位基因来说。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度；计算，对于每个假说，样本中多个基因位点的预期遗传数据，从所获得的相位遗传数据中；计算(例如在计算机上计算)介于样本中获得的遗传数据和样本中预期遗传数据之间的拟合数据；根据数据拟合对一个或多个假设进行排序；选择排序最高的假设，从而确定在个体一个或多个细胞基因组中第一同源染色体片段拷贝数过表达的程度。

在一个方面，本发明描述了一种方法，确定是否存在第一同源染色体片段的拷贝数过表达，与来自个体的一个或多个细胞基因组中的第二同源染色体片段相比。在一些实施方案中，所述方法包括：获得第一同源染色体片段组成的相位基因数据，包括第一同源染色体片段上的那个基因位点处的等位基因的同一性，对于第一同源染色体片段上多态性位点集合中的每个基因座来说；获得第二同源染色体片段的相位基因数据，包括存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上的多态性基因位点集合中的每个基因座；以及获得测量的遗传等位基因数据，对于多态性基因位点集合中的每个基因位点处的每个等位基因来说，包括来自个体一个或多个靶细胞以及一个或多个非靶细胞的DNA或RNA样本中存在的每个等位基因的数量。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度；计算(例如在计算机上计算)，对于每个假说，样本中的多个位点的预期遗传数据，从获得的相位遗传数据中，对于一个或多个靶细胞的DNA或 RNA直到样本中总的DNA或RNA中的一个或多个可能概率来说；计算(例如在计算机上计算)DNA或RNA的每一个可能概率，并且针对每个假说，对于DNA或RNA的可能概率数据拟合于样本的获得遗传数据和样本的预期遗传数据之间，并且拟合那个假说；根据数据拟合对一个或多个假设进行排序；并且选择其中排列最高的假设，从而确定来自个体的一个或多个细胞的基因组中第一同源染色体片段的拷贝数的过表达的程度。

在一个方面，本发明描述了一种方法，用于确定是否存在第一同源染色体片段的拷贝数过表达，与来自个体的一个或多个细胞基因组中的第二同源染色体片段相比。在一些实施方案中，所述方法包括：获得第一同源染色体片段组成的相位基因数据，包括第一同源染色体片段上的那个基因位点处的等位基因的同一性，对于第一同源染色体片段上多态性位点集合中的每个基因座来说；获得第二同源染色体片段的相位基因数据，包括存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上的多态性基因位点集合中的每个基因座；以及获得测量的遗传等位基因数据，包括来自个体一个或多个靶细胞以及一个或多个非靶细胞的DNA或RNA样本中存在的每个等位基因的数量，对于多态性基因位点集合中的每个基因位点处的每个等位基因来说。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度；计算(例如在计算机上计算)，对于每个假说，样本中的多个位点的预期遗传数据，从获得的相位遗传数据中，对于一个或多个靶细胞的 DNA或RNA直到样本中总的DNA或RNA中的一个或多个可能概率来说；对多个位点中的每一个位点计算(例如在计算机上计算)其DNA 或RNA的可能概率，并对每个假说计算其假说正确的可能性，通过比较样本那个基因位点的获得遗传数据和那个位点的预期遗传数据，对于DNA或RNA的可能概率和那个假说来说；确定每个假说的联合概率，通过联合那个假说对于每个位点的可能性以及每个的可能概率；选择具有最大联合概率的假说，从而确定第一同源染色体片段的拷贝数过表达的程度。在一些实施方案中，一次性考虑所有的位点以计算特定假说的概率，并且具有最大概率的假说被选择。

在一个方面，本发明描述了一种方法，用于确定胎儿基因组中感兴趣的一个染色体片段的拷贝数。在一些实施方案中，所述方法包括获得胎儿的至少一个生物学亲本的相位遗传数据，其中相位遗传数据包括第一同源染色体片段和第二同源染色体片段上的多态性基因座组中每个基因座存在的等位基因的同一性，在一对包含感兴趣染色体片段的同源染色体片段中。在一些实施方案中，所述方法包括在感兴趣的染色体片段上的一组多态性位点中获得遗传数据，在一份包含胎儿DNA或RNA和来自于胎儿母亲的母本DNA或RNA的混合的DNA或RNA样本中，通过测量每个基因位点上的每个等位基因的量。在一些实施方案中，所述方法包括列举一组一个或多个假说，其指定存在于胎儿基因组中的感兴趣染色体片段的拷贝数。在一些实施方案中，所述方法包括列举一组一个或多个假说，针对胎儿的一个或两个亲本，指定胎儿基因组中来自亲本的第一同源染色体片段或其部分的拷贝数，胎儿基因组中来自亲本的第二同源染色体片段或其部分的拷贝数，以及存在于胎儿基因组中的感兴趣染色体片段的拷贝总数。在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于每个假设，混合样本中的多个基因座的预期遗传数据，从所获得的来自亲本的相位遗传数据；计算(例如在计算机上计算)介于混合样本的获得遗传数据与混合样本的预期遗传数据之间的拟合数据；根据数据拟合对一个或多个假说进行排序；选择排序最高的假说，从而确定胎儿基因组中感兴趣的染色体片段的拷贝数。

在一个方面，本发明描述了一种方法，用于确定胎儿基因组中感兴趣的一个染色体片段的拷贝数。在一些实施方案中，所述方法包括获得胎儿的至少一个生物学亲本的相位遗传数据，其中所述相位遗传数据包括在亲本中第一同源染色体片段和第二同源染色体片段上的一组多态基因座中的每个基因座存在的等位基因的同一性。在一些实施方案中，所述方法包括在染色体或染色体片段上的一组多态性位点中获得遗传数据，在一份包含胎儿DNA或RNA和来自于胎儿母亲的母本DNA或RNA的混合的 DNA或RNA样本中，通过测量每个基因位点上的每个等位基因的量。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定存在于胎儿基因组中的感兴趣染色体或染色体片段的拷贝数。在一些实施方案中，所述方法包括创建(例如在计算机上创建)，对于每个假说，创建一个混合样本中多个基因位点中每个位点上的每个等位基因的预期量的概率分布，其来自(i)所获得的来自亲本的相位遗传数据和(ii)任选的一个或多个交换的概率，可能发生于配子形成时期，对胎儿来说为其感兴趣的染色体或染色体片段贡献了一个拷贝；计算(例如在计算机上计算)一个拟合，对于每个假设，介于(1)获得的混合样本的遗传数据和(2)混合样本中多个位点中每个位点上各个等位基因的预期量的概率分布之间；根据数据拟合对一个或多个假说进行排序；并且选择排序最高的假说，从而确定胎儿基因组中感兴趣的染色体片段的拷贝数。

在一些实施方案中，该方法包括为胎儿的母亲获得相位遗传数据。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定胎儿基因组中来自于母本的第一同源染色体片段或其部分的拷贝数，胎儿基因组中来自于母本的第二同源染色体片段或其部分的拷贝数，以及存在于胎儿基因组中的感兴趣染色体片段的总拷贝数。在一些实施方案中，所述方法包括计算，对于每个假说，混合样本中多个位点的预期遗传数据，从所获得的来自于母本的相位遗传数据。

在一些实施方案中，每个假说的预期遗传数据包括混合样本中母体DNA或RNA和胎儿DNA或RNA的多个基因座中每个基因座的一个或多个等位基因的一致性和量。在一些实施方案中，所述方法包括计算(例如在计算机上计算)预期遗传数据，通过测定混合样本中胎儿DNA或RNA的比例和母体DNA或RNA的比例。在一些实施方案中，该方法包括计算，对于多个基因位点中的每个位点，混合样本中母本DNA或RNA中该基因座的一个或多个等位基因的预期量，利用那个位点上出现的等位基因的同一性，在获得的母本的相位遗传数据中，以及混合样本中母本DNA或RNA的部分。在一些实施方案中，该方法包括计算(例如在计算机上计算)，针对每个假说中多个基因位点中的每个基因位点，混合样本中继承于母本的胎儿DNA或RNA中那个基因位点上的一个或多个等位基因的预期量，通过由假说指定已经由胎儿继承了的来自母本的第一或第二同源染色体片段上那个基因位点出现的等位基因的同一性，由假说指定为已经被胎儿遗传了的来自母本的第一或第二同源染色体片段的拷贝数，以及混合样本中胎儿 DNA或RNA的比例。

在一些实施方案中，每个假说的预期遗传数据包括混合样本中母体DNA或RNA和胎儿DNA或RNA的多个基因座中每个基因座的一个或多个等位基因的一致性和量。在一些实施方案中，所述方法包括计算预期的遗传数据，通过测定混合样本中胎儿DNA或RNA的比例和母体DNA或RNA的比例。在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于多个基因位点中的每个位点，该基因座在混合样本中的母本DNA或RNA中的一个或多个等位基因的预期量，使用混合样本中所获得的母本的相位遗传数据和母体DNA或RNA的比例中该基因位点处存在的等位基因的同一性。在一些实施方案中，该方法包括计算(例如在计算机上计算)，针对每个假说中多个基因位点中的每个基因位点，混合样本中继承于母本和父本的胎儿DNA或RNA 中那个基因位点上的一个或多个等位基因的预期量，通过由假说指定已经由胎儿继承了的来自母本的第一或第二同源染色体片段上那个基因位点出现的等位基因的同一性，由假说指定为已经被胎儿遗传了的来自母本的第一或第二同源染色体片段的拷贝数，由假说指定已经由胎儿继承了的来自父本的第一或第二同源染色体片段上那个基因位点出现的等位基因的同一性，由假说指定为已经被胎儿遗传了的来自父本的第一或第二同源染色体片段的拷贝数，以及混合样本中胎儿DNA 或RNA的比例。在一些实施方案中，群体频率被用于预测来自父本的第一或第二同源染色体片段中等位基因的同一性。在一些实施方案中，来自于父本的第一或第二同源染色体片段中每一个基因位点处的每个可能等位基因的概率被认为是相同的。

在一些实施方案中，所述方法包括获得胎儿的母本和父本的相位遗传数据。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定来自胎儿基因组中的母本的第一同源染色体片段或其部分的拷贝数，来自胎儿基因组中的母本的第二同源染色体片段的拷贝数，来自胎儿基因组中的父本的第一同源染色体片段或其部分的拷贝数，来自胎儿基因组中的父本的第二同源染色体片段或其部分的拷贝数，以及存在于胎儿基因组中的感兴趣染色体片段的总拷贝数。在一些实施方案中，所述方法包括计算(例如在计算机上计算)，对于每个假设，混合样本中多个基因位点的预期遗传数据，从所获得的来自母本的相位遗传数据以及获得的父本的相位遗传数据中。

在一些实施方案中，对于每个假说来说预期遗传数据包括多个基因位点中每个位点上的一个或多个等位基因的同一性和量，从混合样本中的母本DNA或RNA和胎儿DNA或RNA中。在一些实施方案中，所述方法包括计算预期的遗传数据，通过测定混合样本中胎儿DNA或 RNA的比例和母体DNA或RNA的比例。在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于多个基因位点中的每个位点来说，混合样本中母本DNA或RNA中那个基因位点的一个或多个等位基因的预期量，利用所获得的母本相位遗传数据中那个基因位点上出现的等位基因同一性和混合样本中母本DNA或RNA的比例。在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于每个假说的多个基因位点中每个位点来说，混合样本中胎儿DNA或RNA中那个基因位点上的一个或多个等位基因的预期量，通过由假说指定已经由胎儿继承了的来自母本的第一或第二同源染色体片段上那个基因位点出现的等位基因的同一性，由假说指定为已经被胎儿遗传了的来自母本的第一或第二同源染色体片段的拷贝数，由假说指定已经由胎儿继承了的来自父本的第一或第二同源染色体片段上那个基因位点出现的等位基因的同一性，由假说指定为已经被胎儿遗传了的来自父本的第一或第二同源染色体片段的拷贝数，以及混合样本中胎儿DNA或 RNA的比例。

在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于每个假说，多个基因位点预期遗传数据的一个概率分布，在从亲本中获得相位遗传数据的混合样本中。在一些实施方案中，所述方法包括增加混合样本中第一个基因位点上的特定等位基因在概率分布中的概率，如果那个特定的等位基因出现在亲本第一同源染色体片段中，以及在获得的混合样本遗传数据中观察到的亲本第一同源染色体片段附近的一个位点上的一个等位基因上；或者减少混合样本中第一个基因位点上的特定等位基因在概率分布中的概率，如果那个特定的等位基因出现在亲本第一同源染色体片段中，以及在获得的混合样本遗传数据中观察到的亲本第一同源染色体片段附近的一个位点上的一个等位基因上。在一些实施方案中，所述方法包括增加混合样本中第二个基因位点上的特定等位基因在概率分布中的概率，如果那个特定的等位基因出现在亲本第二同源染色体片段中，以及在获得的混合样本遗传数据中观察到的亲本第二同源染色体片段附近的一个位点上的一个等位基因上；或者减少混合样本中第二个基因位点上的特定等位基因在概率分布中的概率，如果那个特定的等位基因出现在亲本第二同源染色体片段中，以及在获得的混合样本遗传数据中观察到的亲本第二同源染色体片段附近的一个位点上的一个等位基因上。

在一些实施方案中，该方法包括获得胎儿的母本和父本的相位遗传数据。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定胎儿基因组中来自母本的第一同源染色体片段或其部分区段的拷贝数，胎儿基因组中来自母本的第二同源染色体片段或其部分区段的拷贝数，胎儿基因组中来自父本的第一同源染色体片段或其部分区段的拷贝数，胎儿基因组中来自父本的第二同源染色体片段或其部分区段的拷贝数，以及胎儿基因组中感兴趣的染色体片段的拷贝总数。在一些实施方案中，该方法包括计算(例如在计算机上计算)，对于每个假设，混合样本中多个基因位点预期遗传数据的一个概率分布，从母本和亲本获得的相位遗传数据中。在一些实施方案中，所述方法包括增加存在于混合样本中第一基因位点上的特定等位基因在概率分布中的概率，如果该特定等位基因存在于母本或父本的第一同源区段中，并且该亲本的第一同源染色体片段附近的基因位点上的等位基因可以在混合样本所获得的遗传数据中观察到；或降低存在于混合样本中第一基因位点上的特定等位基因在概率分布中的概率，如果该特定等位基因存在于母本或父本的第一同源区段中，并且该亲本的第一同源染色体片段附近的基因位点上的等位基因在混合样本所获得的遗传数据中未观察到。在一些实施方案中，所述方法包括增加存在于混合样本中第二基因位点上的特定等位基因在概率分布中的概率，如果该特定等位基因存在于母本或父本的第二同源区段中，并且该亲本的第二同源染色体片段附近的基因位点上的等位基因可以在混合样本所获得的遗传数据中观察到；或降低存在于混合样本中第二基因位点上的特定等位基因在概率分布中的概率，如果该特定等位基因存在于母本或父本的第二同源区段中，并且该亲本的第二同源染色体片段附近的基因位点上的等位基因在混合样本所获得的遗传数据中未观察到。

在一些实施方案中，第一基因位点和第一基因位点附近的基因位点共分离。在一些实施方案中，第二基因位点和第二基因位点附近的基因位点共分离。在一些实施方案中，在第一基因位点与靠近第一基因位点的基因位点之间不期望发生交叉。在一些实施方案中，在第二基因位点和靠近第二基因位点的基因位点之间不期望发生交叉。在一些实施方案中，第一基因位点与靠近第一基因位点的基因位点之间的距离小于5mb，1mb，100kb，10kb，1kb，0.1kb或0.01kb。在一些实施方案中，第二基因位点与靠近第二基因位点的基因位点之间的距离小于5mb，1mb，100kb，10kb，1kb，0.1kb或0.01kb。

在一些实施方案中，一个或多个交叉发生于为胎儿贡献一个拷贝的感兴趣染色体片段的配子形成期间；并且交叉产生一个胎儿基因组中感兴趣的染色体片段，其包含来自于亲本的第一同源区段的一部分和第二同源区段的一部分。在一些实施方案中，包括一个或多个假说的假说集合，指定胎儿基因组中感兴趣的染色体片段的拷贝数，其包含来自于亲本的第一同源区段的一部分和第二同源区段的一部分。

在一些实施方案中，混合样本的预期遗传数据包括每个假设的混合样本中多个基因位点中每个基因位点上一个或多个等位基因的预期量。

在一个方面，本发明描述了一种方法，用于确定第一同源染色体片段的拷贝数是否过表达，与个体基因组中的第二同源染色体片段相比(例如在一个或多个细胞基因组中，cfDNA，cfRNA，怀疑患有癌症的个体，胎儿或胚胎)，利用相位遗传数据。在一些实施方案中，所述方法包括同时或连续地以任何顺序(i)获得相位遗传数据，对第一同源染色体片段，其包含存在于第一同源染色体片段上该基因位点处的等位基因的同一性，对于第一同源染色体片段上多个多态性位点的每个基因位点来说，(ii)获得相位遗传数据，对第二同源染色体片段，其包含存在于第二同源染色体片段上该基因位点上的等位基因的同一性，对于第二同源染色体片段上多个多态性基因位点中的每个基因位点来说，并且(iii)获得测量的遗传等位基因数据，包括多态性基因位点集合中每个基因位点处的每个等位基因的量，在来自个体一个或多个细胞或是来自个体两个或多个遗传不同细胞的游离DNA或RNA 的混合样本中。在一些实施方案中，所述方法包括计算等位基因比率，对用于分离样本的至少一个细胞中的多个杂合性多态性基因位点中的一个或多个位点来说。在一些实施方案中，计算的针对特定位点的等位基因比率，是一个等位基因的测量量除以基因位点上所有等位基因的总测量量。在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段的拷贝数过表达，通过比较一个基因位点上的一个或多个计算的等位基因比率与预期的等位基因比例，例如那个基因位点的一个预期比率如果第一和第二同源染色体片段以相等的比例存在时。在一些实施方案中，预期比率为0.5，对于双等位基因位点来说。

在用于产前测试的一些实施方案中，所述方法包括同时或连续地以任何顺序(i)获得胎儿基因组中第一同源染色体片段的相位基因数据(例如怀孕母本孕育的胎儿)，包括存在于第一同源染色体片段那个位点上的等位基因的同一性，对于第一同源染色体片段上的一组多态性基因位点中的每个位点来说，(ii)获得胎儿基因组中第二同源染色体片段的相位基因数据，包括存在于第二同源染色体片段那个位点上的等位基因的同一性，对于第二同源染色体片段上的一组多态性基因位点中的每个位点来说，以及(iii)获得测量的遗传等位基因数据包括每个等位基因量的测量，在胎儿母本DNA或RNA混合样本的一组多态性基因位点的每个位点上，其包括胎儿DNA或RNA和母本DNA 或RNA(例如源自于母本血液样本中的游离DNA或RNA的一个混合样本，包括胎儿的游离DNA或RNA和母本的游离DNA或RNA)。在一些实施方案中，所述方法包括计算一个或多个基因位点的等位基因比率，其在胎儿中是杂合的和/或在母本中是杂合的。在一些实施方案中，对特定基因位点计算的等位基因比率是一个等位基因的测量量除以基因位点上所有等位基因的总测量量。在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段的拷贝数过表达，通过比较一个基因位点上的一个或多个计算的等位基因比率与预期的等位基因比例，例如那个基因位点的一个预期比率如果第一和第二同源染色体片段以相等的比例存在时。

在一些实施方案中，一个计算的等位基因比率指示第一同源染色体片段的拷贝数的过表达，如果(i)存在于第一同源染色体上那个基因位点处等位基因测定量的等位基因比率除以基因座上所有等位基因的总测量量，大于那个基因位点的预期等位基因比率，或(ii)存在于第二同源染色体上那个基因位点处等位基因测定量的等位基因比率除以基因座上所有等位基因的总测量量，大于那个基因位点的预期等位基因比率。在一些实施方案中，一个计算的等位基因频率指示第一同源染色体片段的拷贝数没有过表达，如果(i)存在于第一同源染色体上那个基因位点处等位基因测定量的等位基因比率除以基因座上所有等位基因的总测量量，小于那个基因位点的预期等位基因比率，或(ii) 存在于第二同源染色体上那个基因位点处等位基因测定量的等位基因比率除以基因座上所有等位基因的总测量量，大于或等于那个基因位点的预期等位基因比率。

在一些实施方案中，确定是否存在第一同源染色体片段的拷贝数的过表达包括列举一组一个或多个假说来指定第一同源染色体片段的过表达的程度的。在一些实施方案中，对于在至少一个细胞中杂合的位点(例如胎儿中杂合的和/或母本中杂合的位点)的预测的等位基因比率，是对每个假设进行评估得到的，过表达的程度通过那个假说指定。在一些实施方案中，假说正确的可能性被计算，通过比较计算的等位基因比率与预测的等位基因比率，并选择具有最大可能性的假说。在一些实施方案中，一个检验统计量的一个预期分布被计算，使用每个假说的预测等位基因比率。在一些实施方案中，假说正确的可能性被计算，通过比较使用计算等位基因比率计算的一个检验统计量与使用预期等位基因比率计算的检验统计量的预期分布，并选择具有最大可能性的假说。在一些实施方案中，至少一个细胞(例如在胎儿中为杂合的，和/或在母体中为杂合的基因位点)中杂合的基因位点的预测等位基因比率被估计，根据第一同源染色体片段上的相位遗传数据，第二同源染色体片段上的相位遗传数据，以及由该假说指定的过表达的程度。在一些实施方案中，假说正确的可能性被计算，通过比较计算的等位基因比率与预期等位基因比率；并选择具有最大可能性的假说。

在一些实施方案中，从一个或多个靶细胞的DNA(或RNA)直到样本中总DNA(或RNA)的比率被计算。一个示例性比率是样本中的胎儿DNA(或RNA)与总DNA(或RNA)的比率。在一些实施方案中，样本中胎儿DNA与总DNA的比例通过测量一个或多个基因位点上的一个等位基因的量来确定，其中胎儿具有该等位基因并且母本不具有。在一些实施方案中，样本中胎儿DNA与总DNA的比率通过测量一个或多个母本和胎儿等位基因之间的甲基化差异来确定。在一些实施方案中，列举了一组一个或多个假说来描述第一同源染色体片段的过表达程度。在一些实施方案中，对于在至少一个细胞中杂合的位点(例如胎儿中杂合的和/或母本中杂合的位点)的预测的等位基因比率，是根据DNA或RNA的计算比率和对每个假说评估时假说指定的过表达程度来进行评估的。在一些实施方案中，假说正确的可能性被计算，通过比较计算的等位基因比率和预测的等位基因比率，并选择具有最大可能性的假说。在一些实施方案中，使用预测的等位基因比率和计算的DNA或RNA比率进行测试得到一个统计量的预期分布，对于每个假说进行估计。在一些实施方案中，假说正确的可能性被确定，通过比较利用计算的等位基因比率和计算的DNA或RNA的比率进行计算得到的检验统计量，和使用预测的等位基因比率以及 DNA或RNA的计算比率进行计算得到的检验统计量的预期分布，并选择具有最大可能性的假说。

在一些实施方案中，所述方法包括列举一组一个或多个假说来指定第一同源染色体片段的过表达的程度。在一些实施方案中，所述方法包括评估，对于每个假说，要么(i)在至少一个细胞中是杂合的基因位点(例如在胎儿中是杂合的和/或在母亲中是杂合的基因位点)的预测等位基因比率，根据该假设指定的过表达程度，或(ii)对于一个或多个可能的DNA或RNA比率(例如胎儿DNA或RNA与样本中的总DNA或RNA的比率)，计算得到一个测试统计量的预期分布，利用预测的等位基因比率和从一个或多个靶细胞(例如胎儿细胞)DNA 或RNA直到样本中总DNA或RNA的可能比率。在一些实施方案中，计算数据拟合，通过比较(i)计算的等位基因比率与预测的等位基因比率，或(ii)利用计算的等位基因比率以及DNA或RNA的可能比率，和利用预测的等位基因比率和DNA或RNA的可能比率进行计算得到的检验统计量的期望分布。在一些实施方案中，根据数据拟合对一个或多个假说进行排名，并且选择排名最高的假说。在一些实施方案中，一种技术或算法，例如一个搜索算法，被用于以下步骤中的一个或多个：计算数据拟合，对假说排序，或选择排名最高的假说。在一些实施方案中，数据拟合是针对β-二项分布或者针对二项分布的一个拟合。在一些实施方案中，所述技术或算法选自于一个集合，包括最大似然估计，最大后验估计，贝叶斯估计，动态估计(例如动态贝叶斯估计)和期望最大化估计。在一些实施方案中，所述方法包括应用所述技术或算法去获得遗传数据和预期的遗传数据。

在一些实施方案中，所述方法包括创建一个可能比率(例如胎儿 DNA或RNA与样本中的总DNA或RNA的比率)的分区，范围从一个或多个靶细胞DNA或RNA到样本中总DNA或RNA的DNA或RNA 比率的下限到上限。在一些实施方案中，列举了一组一个或多个假说，指定在第一同源染色体片段上的过表达的程度。在一些实施方案中，所述方法包括评估，针对分区中每一个的DNA或RNA的可能比率和每个假说，要么(i)在至少一个细胞中是杂合的基因位点(例如在胎儿中是杂合的和/或在母亲中是杂合的基因位点)的预测等位基因比率，根据DNA或RNA的可能比率和该假设指定的过表达程度，或(ii) 利用预测的等位基因比率和DNA或RNA的可能比率计算一个检验统计量的预期分布。在一些实施方案中，所述方法包括计算，对于分区中的每一个DNA或RNA的可能比率以及对于每个假说，假说正确的可能性，通过比较(i)计算的等位基因比率和预测的等位基因比率，或(ii)

利用计算的等位基因比率和DNA或RNA的可能比率计算得到的一个检验统计，与利用预测的等位基因比率和DNA或RNA的可能比率计算得到的检验统计。在一些实施方案中，对于每个假说的联合概率被确定，通过结合对分区中每个可能比率的那个假说概率；并且选择具有最大组合概率的假说。在一些实施例中，每个假设的联合概率被确定，通过权重一个假说对于特定可能比率的可能性，基于该可能比率是正确比率的可能下。

在一个方面，本发明描述了一种方法，用于确定染色体或染色体片段的拷贝数，在来自个体的一个或多个细胞的基因组中，利用相位或混淆遗传数据。在一些实施方案中，所述方法包括获得遗传数据，在一个样本的染色体或染色体片段上的一组多态性位点上，通过测量每个基因位点处的每个等位基因的量。在一些实施方案中，样本是来自于个体一个或多个细胞的DNA或RNA样本，或是来自于个体游离 DNA的混合样本，其包括来自两个或更多个遗传不同细胞的游离 DNA。在一些实施方案中，杂合位点的等位基因比率被计算，在样本来源的至少一个细胞中。在一些实施方案中，对于特定基因位点的计算的等位基因比率是每个等位基因的测量量除以基因位点上所有等位基因的总的测量量。在一些实施方案中，特定基因位点的计算的等位基因比率是该位点上一个等位基因(例如第一同源染色体片段上的等位基因)的测量量除以一个或多个其它等位基因的测量量(例如第二同源染色体片段上的等位基因)。在一些实施方案中，列举了一组一个或多个假说，指定一个或多个细胞基因组中的染色体或染色体片段的拷贝数。在一些实施方案中，基于检验统计量的最可能的假说被选择，从而确定一个或多个细胞基因组中染色体或染色体片段的拷贝数。

在一个方面，本发明描述了一种方法，用于确定胎儿(例如正在怀孕母本中孕育的胎儿)基因组中染色体或染色体片段的拷贝数，利用相位或混淆遗传数据。在一些实施方案中，所述方法包括获得样本染色体或染色体片段上的一组多态性位点的遗传数据，通过测量每个基因位点处的每个等位基因的量。在一些实施方案中，样本是包含胎儿DNA或RNA和来自胎儿母体的母本DNA或RNA的混合样本

(例如来自于含有胎儿游离DNA或RNA和母本游离DNA或 RNA的母本血清样本中的游离DNA或RNA混合样本)。在一些实施方案中，等位基因比率被计算，对于在胎儿中是杂合性的和/或在母本中是杂合性的基因位点来说。在一些实施方案中，特定基因位点的计算的等位基因比率是基因位点处的一个等位基因的测量量除以所有等位基因的总测量量。在一些实施方案中，特定基因位点的计算的等位基因比率是基因位点处的一个等位基因(例如第一同源染色体片段上的等位基因)的测量量除以一个或多个其他等位基因(例如第二同源染色体片段上的等位基因)的测量量。在一些实施方案中，列举了一组一个或多个假说，其指定了胎儿基因组中染色体或染色体片段的拷贝数。在一些实施方案中，基于检验统计量的最可能的假说被选择了，从而确定胎儿基因组中的染色体或染色体片段的拷贝数。

在一些实施方案中，一个假说被选择了，如果属于该假设的测试统计量分布的测试统计量概率高于上限；一个或多个假说被否决了，如果属于该假设的测试统计量分布的测试统计量概率低于下限；或者一个假说既未被选择又未被否决，如果属于该假设的测试统计量分布的测试统计量概率在下限和上限之间，或者如果概率没有以足够高的置信度被确定。在一些实施方案中，第一同源染色体片段的拷贝数的过表达是由于第一同源染色体片段的重复或第二同源染色体片段的缺失。在一些实施方案中，一个或多个基因位点的所有等位基因的总测量量与参考量进行比较，以确定第一同源染色体片段的拷贝数的过表达是否是由于第一同源染色体片段的重复或第二同源染色体片段的缺失。在一些实施方案中，一个或多个基因位点处的计算的等位基因比率和预期等位基因比率之间的差异的大小被用来确定第一同源染色体片段的拷贝数的过表达是否是由于第一同源染色体片段的重复或第二同源染色体片段的缺失。在一些实施方案中，第一和第二同源染色体片段被确定以相等的比例存在，如果不存在第一同源染色体片段的拷贝数的过表达，并且没有第二同源染色体片段的过表达(例如在细胞的基因组中，cfDNA，cfRNA，个体，胎儿或胚胎)。

在一些实施方案中，从一个或多个靶细胞的DNA比率直到样本中的总DNA比率被确定，基于一个或多个基因位点处的一个或多个等位基因的总量或相对量，对于靶细胞的基因型不同于非靶细胞基因型的，以及靶细胞和非靶细胞预计为二体的细胞。在一些实施方案中，该比率用于确定是否第一同源染色体片段的拷贝数的过表达是由于第一同源染色体片段的重复或第二同源染色体片段的缺失。在一些实施方案中，该比率用于确定重复的染色体片段或染色体的额外拷贝数。在一些实施方案中，相位遗传数据包括概率数据。在一些实施方案中，获得胎儿基因组中第一同源染色体片段和/或第二同源染色体片段的相位遗传数据包括获得胎儿生物学亲本中的一个或两个亲本基因组中的第一同源染色体片段和/或第二同源染色体片段的相位遗传数据，以及推断胎儿从一个或两个生物学亲本中继承到的是哪个同源染色体片段。在一些实施方案中，一个或多个交叉(例如1，2，3或4交换) 的概率可能发生于配体形成过程，其贡献了第一同源染色体片段或第二同源染色体片段的一个拷贝给胎儿个体，被用来推断胎儿从一个或两个生物学亲本中继承到的是哪个同源染色体片段。在一些实施方案中，胎儿母本和/或父本的相位遗传数据被获得，利用一种技术，选自于包括数字PCR的一组技术，利用基于单倍型频率的群体推断单倍型，利用单倍体细胞例如精子或卵子进行单倍型分型，利用来自于一个或多个一级亲属的遗传数据进行单倍型分型，及其组合。在一些实施方案中，个体的相位遗传数据被获得，通过将来自于个体样本中对应于缺失或重复的全部或部分区域进行分相位。在一些实施方案中，胎儿的相位遗传数据被获得，通过将来自于胎儿或胎儿母亲的样本中对应于缺失或重复的全部或部分区域进行分相位。在一些实施方案中，获得第一和第二同源染色体片段的相位遗传数据包括确定存在于一个染色体片段中的等位基因的同一性，以及根据推理确定存在于另一染色体片段中的等位基因的同一性。在一些实施方案中，未存在于第一同源染色体片段的混淆遗传数据中的等位基因被指定到第二同源染色体片段。例如，如果个体的基因型是(AB，AB)，并且个体的相位数据指示第一个单倍型是(A，A)；那么，另一个单倍型可以推断为(B， B)。在一些实施方案中，如果在基因位点处仅测量到一个等位基因，那么该等位基因被确定为第一和第二同源染色体片段的一部分(例如，如果在基因位点处的基因型是AA，则两个单倍型都具有A等位基因)。在一些实施方案中，个体的相位遗传数据包括确定是否发生了一个或多个可能的染色体交叉，例如通过确定重组热点以及重组热点任意一个侧翼区域的序列。在一些实施方案中，本发明的任何引物文库被用来检测重组事件，以确定是什么单倍型区段存在于个体基因组中。

在一些实施方案中，该方法包括使用联合分布模型(例如考虑轨迹之间的链接的联合分布模型)，执行连锁分析，使用二项分布模型，使用β-二项分布模型，和/或使用发生在减数分裂时期(生成配子形成胚胎长成胎儿的)的染色体交叉的概率(例如使用染色体在不同位点交叉的概率，于一个模建感兴趣染色体或染色体片段上多态性等位基因之间依赖性的染色体上。)。

在一些实施方案中，cfDNA或cfRNA的一个或多个计算的等位基因比率指示cfDNA或cfRNA的来源细胞中DNA或RNA的相应等位基因比率。在一些实施方案中，cfDNA或cfRNA的一个或多个计算的等位基因比率指示个体基因组中相应的等位基因比率。在一些实施方案中，一个等位基因比率仅仅被计算或仅与预期的等位基因比率进行比较，如果测量的遗传数据表明样本中该基因位点存在多于一个不同的等位基因(例如在cfDNA或cfRNA样本中)。在一些实施方案中，一个等位基因比率仅仅被计算或仅与预期的等位基因比率进行比较，如果在进行样本分离的至少一个细胞中位点是杂合性的(例如在胎儿中是杂合性的和/或在母本中是杂合性的基因位点)。在一些实施方案中，一个等位基因比率仅仅被计算或仅与预期的等位基因比率进行比较，如果基因位点在胎儿中是杂合性的。在一些实施方案中，一个等位基因比率被计算或与预期的等位基因比率进行比较，对于纯合性的基因位点来说。例如，预测为纯合性位点的等位基因频率，对于被测试的特定个体(或对于胎儿和怀孕母亲两者)来说，可以被分析用来确定系统的噪声或误差水平。

在一些实施方案中，至少10；50；100；200；300；500；750；1, 000；2,000；3,000；4000，或者更多的基因位点(例如SNP)被分析，对于感兴趣的染色体或染色体片段来说。在一些实施方案中，在感兴趣的染色体或染色体片段中每mb的基因位点(例如SNP)的平均数为至少1；10；25；50；100；150；200；300；500；750；1,000；或更多位点每mb。在一些实施方案中，在感兴趣的染色体或染色体片段中每mb的基因位点(例如SNP)的平均数介于1至500个位点/mb 之间，例如1至50，50至100，100至200，200至400，200至300，或300至400个位点/mb。在一些实施方案中，潜在缺失或重复的多个部分中的基因位点被分析，以增加CNV测定的灵敏度和/或特异性，与仅分析1个基因位点或仅分析彼此接近的几个基因位点相比。在一些实施方案中，只有每个基因位点处最常见的两个等位基因被测量或被用于确定计算的等位基因比率。在一些实施方案中，基因位点被进行扩增，利用具有低5'→3'核酸外切酶和/或低链置换活性的聚合酶(例如，DNA聚合酶，RNA聚合酶或反转录酶)。在一些实施方案中，测量的遗传等位基因数据被获得，通过(i)测序样本中的DNA或RNA， (ii)扩增样本中的DNA或RNA，然后测序扩增的DNA，或(ii)扩增样本中的DNA或RNA，连接PCR产物，然后测序连接产物。在一些实施方案中，测量的遗传等位基因数据被获得，通过将样本的DNA 或RNA分成多个部分，增加不同的条形码给每个部分中的DNA或 RNA(例如，在特定部分的所有DNA或RNA中具有相同条形码)，任意地扩增条形码标记的DNA或RNA，组合这些部分，然后对组合部分中条形码标记的DNA或RNA测序。在一些实施方案中，多态性基因位点(例如SNP)的等位基因被鉴定，使用以下方法中的一种或多种：测序(例如纳米孔测序或Halcyon分子测序)，SNP阵列，实时 PCR，TaqMan，Nanostring

分析系统，使用区别性DNA聚合酶和连接酶的Illumina GoldenGate基因分型检测，连接介导PCR，或连接反向探针(LIPs；其也可以被称为预环化探针，预环化探针，环化探针，锁式探针或分子反向探针(MIPs))的IlluminaGoldenGate 基因分型测定。在一些实施方案中，两个或更多个(例如3或4个) 靶扩增子被连接在一起，然后对连接的产物进行测序。在一些实施方案中，对相同基因位点的不同等位基因的测量进行调整，针对等位基因之间的代谢，凋亡，组蛋白，失活，和/或扩增中的差异(例如相同基因位点的不同等位基因之间的扩增效率的差异)。在一些实施方案中，该调整的执行先于对获得的遗传数据等位基因比率的计算，或先于对测量遗传数据与预期遗传数据的比较。

在一些实施方案中，所述方法还包括确定疾病或障碍的一种或多种风险因素的存在与否。在一些实施方案中，所述方法还包括确定与疾病或障碍相关或与疾病或障碍的风险增加相关的一种或多种多态性或突变的存在与否。在一些实施方案中，所述方法还包括确定cfDNA cf mDNA，cf nDNA，cfRNA，miRNA或其它组合物的总水平。在一些实施方案中，所述方法包括测定感兴趣的一种或多种cfDNA cf mDNA， cf nDNA，cfRNA和/或miRNA分子的水平，例如与疾病或障碍相关的或与疾病或障碍风险增加相关的多态性或突变的分子。在一些实施方案中，全部DNA中肿瘤DNA占的比例(例如总cfDNA中的肿瘤cfDNA 的比例或总cfDNA中具有特定突变的肿瘤cfDNA的比例)被确定。在一些实施方案中，该肿瘤比例用于确定癌症的相位(因为较高的肿瘤比例可能与癌症的较晚期相关)。在一些实施方案中，所述方法也包括确定DNA或RNA水平的总水平。在一些实施方案中，所述方法包括测定感兴趣的一种或多种DNA或RNA分子的甲基化水平，例如与疾病或障碍相关的或与疾病或障碍风险增加相关的多态性或突变的分子。在一些实施方案中，所述方法包括确定DNA完整性的变化的存在与否。在一些实施方案中，所述方法还包括确定mRNA剪接的总水平。在一些实施方案中，所述方法包括确定mRNA剪接的水平或检测对于感兴趣的一个或RNA分子的可选mRNA剪接，例如与疾病或障碍相关的或与疾病或障碍风险增加相关的多态性或突变的分子。

在一些实施方案中，该发明描述了一种方法，用于检测个体中的一个癌症表型，其中癌症表型由一组突变体中至少一个的存在来定义。在一些实施方案中，所述方法包括获得DNA或RNA测量值，对于来自于个体一个或多个细胞的一个DNA或RNA样本来说，其中一个或多个细胞被疑似拥有癌症表型；分析DNA或RNA测量值去确定，对于突变集合中的每个突变，至少一个细胞拥有那个突变的可能性。在一些实施方案中，所述方法包括确定个体拥有癌症表型如果(i)对于至少一个突变，至少一个细胞含有该突变的可能性是大于阈值的，或(ii)对于至少一个突变，至少一个细胞含有该突变的可能性是小于阈值的，并且对于多个突变来说，至少一个细胞拥有至少一个突变的联合可能性是大于阈值的。在一些实施方案中，一个或多个细胞拥有突变集合中的部分或全部突变。在一些实施方案中，样本包括游离DNA 或RNA。在一些实施方案中，DNA或RNA测量包括测量(例如每个基因位点的每个等位基因的量)，在感兴趣的一个或多个染色体或染色体片段上的一组多态性位点上。

在一个方面，本发明描述了一些方法，用于选择一种疗法，对于治疗，稳定或预防哺乳动物中的疾病或障碍。在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段的拷贝数过表达，与第二同源染色体片段相比，利用这里描述的任何方法。在一些实施方案中，用于哺乳动物的疗法被选择(例如一种疾病或障碍的疗法，与第一同源染色体片段过表达相关)。

在一个方面，本发明描述了一些方法，用于预防，延缓，稳定或治疗哺乳动物中的疾病或障碍。在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段的拷贝数过表达，与第二同源染色体片段相比，利用这里描述的任何方法。在一些实施方案中，一种用于哺乳动物的治疗被选择(例如一种疾病或障碍的疗法，与第一同源染色体片段过表达相关)，然后这种疗法被用于治疗哺乳动物。

在一些实施方案中，治疗，稳定或预防疾病或障碍包括预防或延缓疾病或障碍的初始发生或后续发展，增加症状消失与复发之间的无病生存时间，稳定或减少与病症相关的不良症状，或抑制或稳定病症的进展。在一些实施方案中，至少20，40，60，80，90或95％的治疗受试者有一个完全缓解，其中疾病的所有症状消失。在一些实施方案中，一个受试者被诊断患有疾病和治疗后的存活时间长度为至少20， 40，60，80，100，200，甚至500％大于(i)未治疗的受试者的存活平均时间量，或(ii)用另一种疗法治疗的受试者的存活平均时间量。

在一些实施方案中，治疗，稳定或预防癌症包括减少或稳定肿瘤 (例如，一个良性或恶性肿瘤)的大小，减缓或防止肿瘤大小的增加，减少或稳定肿瘤细胞的数目，增加肿瘤消失与其复发之间的无病生存时间，防止肿瘤的初始发生或后续发展，或减少或稳定与肿瘤相关的不良症状。在一个实施方案中，治疗后存活的癌细胞数目至少比癌细胞的初始发生数目低10，20，40，60，80或100％，正如使用任何标准试验所测量的那样。在一些实施方案中，通过采用本发明的一种疗法得到的癌细胞数目的减少比非癌性细胞数目的减少大了至少2，5， 10，20或50倍。在一些实施方案中，施用一种疗法治疗后存在的癌细胞数目比施用对照后存在的癌细胞的数目低了至少2，5，10，20或 50倍(例如施用盐水或缓冲液)。在一些实施方案中，本发明的一些方法导致了肿瘤尺寸的10，20，40，60，80或100％的减少，其尺寸通过标准方法测定。在一些实施方案中，至少10，20，40，60，80， 90或95％的治疗受试者具有完全缓解，其中没有可检测到的癌细胞。在一些实施方案中，癌症在至少2，5，10，15或20年后不再出现或重发。在一些实施方案中，一个受试者在被诊断患有癌症并且用本发明的疗法治疗后的存活时间长度多了至少10，20，40，60，80，100， 200或至少500％，比(i)未治疗的受试者的平均存活时间量或(ii) 采用另一种疗法治疗的受试者的平均存活时间量。

在一个方面，本发明描述了一些用于受试者分层的方法，涉及一种用于治疗，稳定或预防哺乳动物疾病或障碍的临床试验。在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段的拷贝数过表达，与第二同源染色体片段相比，利用之前本发明描述的任何方法，在临床试验期间或之后。在一些实施方案中，受试者基因组中第一同源染色体片段过表达的存在与否将受试者划入临床试验的一个亚组中。

在一些实施方案中，疾病或障碍被选择，从含有癌症，智力障碍，学习障碍(例如先天性学习障碍)，智力迟钝，发育迟缓，自闭症，神经退行性疾病或障碍，精神分裂症，生理缺陷，自身免疫疾病或障碍，系统性红斑狼疮，牛皮癣，克罗恩病，肾小球肾炎，HIV感染，AIDS及其组合疾病的集合中。在一些实施方案中，疾病或障碍被选择，从含有DiGeorge综合征，DiGeorge 2综合征，DiGeorge/VCFS综合征，Prader-Willi综合征，Angelman综合征，Beckwith-Wiedemann综合征， 1p36缺失综合征，2q37缺失综合征，3q29缺失综合征，9q34缺失综合征，17q21.31缺失综合征，Cri-du-chat综合征，Jacobsen综合征， Miller Dieker综合征，Phelan-McDermid综合征，Smith-Magenis综合征，WAGR综合征，Wolf-Hirschhom综合征，Williams综合征， Williams-Beuren综合征，Miller-Dieker综合征，Phelan-McDermid综合征，Smith-Magenis综合征，唐氏综合征，Edward综合征，Patau综合征，Klinefelter综合征，Tumer综合征，47，XXX综合征，47，XYY 综合征，Sotos综合征及其组合疾病的集合中。在一些实施方案中，该方法确定了一种或多种以下染色体异常的存在与否：缺体，单体，单亲二倍体，三倍体，匹配三倍体，不匹配三倍体，母本三倍体，亲本三倍体，三倍性，嵌合性四倍体，匹配四倍体，不匹配四倍体，其他非整倍体，不平衡易位，平衡易位，插入，缺失，重组及其组合。在一些实施方案中，染色体异常是特定染色体或染色体片段的拷贝数与该染色体片段最常见拷贝数的任何偏差，例如在人类体细胞中，与2 个拷贝的任何偏差都可以考虑为染色体异常。在一些实施方案中，该方法确定整倍体的存在与否。在一些实施方案中，拷贝数假说包括单胎妊娠的一个或多个拷贝数假说。在一些实施方案中，拷贝数假说包括多胎妊娠的一个或多个拷贝数假说，例如双胎妊娠(例如，同卵或异卵双胞胎或自然减灭的双胞胎)。在一些实施方案中，拷贝数假说包括多胎妊娠中的所有胎儿为整倍体，多胎妊娠中的所有胎儿为非整倍体(例如本文公开的任何非整倍体)，和/或多胎妊娠中的一个或多个胎儿为整倍体，和多胎妊娠中一个或多个胎儿为非整倍体。在一些实施方案中，拷贝数假说包括相同的双胞胎(也称为单卵双胞胎)或异卵双胞胎(也称为双卵双胞胎)。在一些实施方案中，拷贝数假说包括摩尔妊娠，例如完全或部分妊娠。在一些实施方案中，感兴趣的染色体片段是整个染色体。在一些实施方案中，染色体或染色体片段被选择，从含有染色体13，染色体18，染色体21，X染色体，Y染色体，片段及其组合形成的集合中。在一些实施方案中，第一同源染色体片段和第二同源染色体片段是包含感兴趣染色体片段的一对同源染色体片段。在一些实施方案中，第一同源染色体片段和第二同源染色体片段是感兴趣的一对同源染色体。在一些实施方案中，置信度被计算，对于CNV测定或疾病或障碍的诊断。

在一些实施方案中，缺失是至少0.01kb，0.1kb，1kb，10kb，100kb， 1mb，2mb，3mb，5mb，10mb，15mb，20mb，30mb，或40mb的缺失。在一些实施方案中，缺失是介于1kb至40mp之间的缺失，例如包括1kb 至100kb，100kb至1mb，1至5mb，5至10mb，10至15mb，15至20bp mb，20至25mb，25至30mb，或30至40mb。在一些实施方案中，染色体片段的一个拷贝是缺失的，一个拷贝是存在的。在一些实施方案中，染色体片段的两个拷贝是缺失的。在一些实施方案中，整个染色体是缺失的。

在一些实施方案中，重复是至少0.01kb，0.1kb，1kb，10kb，100kb， 1mb，2mb，3mb，5mb，10mb，15mb，20mb，30mb，或40mb的重复。在一些实施方案中，重复是介于1kb至40mp之间的重复，例如包括1kb 至100kb，100kb至1mb，1至5mb，5至10mb，10至15mb，15至20 mb，20至25mb，25至30mb，或30至40mb。在一些实施方案中，染色体区段重复一倍。在一些实施方案中，染色体区段重复多于一倍，例如2，3，4或5倍。在一些实施方案中，整个染色体是重复的。在一些实施方案中，第一同源片段中的一个区域是缺失的，第二同源片段中的相同区域或另一区域是重复的。在一些实施方案中，测试的SNV至少 50，60，70，80，90，95，96，98，99或100％是颠换突变而不是转换突变。

在一些实施方案中，样本包含DNA和/或RNA，来自于(i)一个或多个靶细胞，或(ii)一个或多个非靶细胞。在一些实施方案中，样本是DNA和/或RNA的一个混合样本，来自于一个或多个靶细胞以及一个或多个非靶细胞。在一些实施方案中，靶细胞是含有CNV的细胞，例如感兴趣的缺失或重复，非靶细胞是不含感兴趣的拷贝数变化的细胞。在一些实施方案中，其中一个或多个靶细胞是癌细胞，一个或多个非靶细胞是非癌性细胞，该方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在一个或多个癌细胞的基因组中。在一些实施方案中，其中一个或多个靶细胞是遗传相同的癌细胞，一个或多个非靶细胞是非癌性细胞，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在癌细胞的基因组中。在一些实施方案中，其中一个或多个靶细胞是遗传不相同的癌细胞，一个或多个非靶细胞是非癌性细胞，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在一个或多个遗传不相同癌细胞的基因组中。在一些实施方案中，其中样本包含游离DNA，来自于一个或多个癌细胞和一个或多个非癌性细胞的混合物中，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在一个或多个癌细胞的基因组中。在一些实施方案中，其中一个或多个靶细胞是遗传相同的胎儿细胞，一个或多个非靶细胞是母本细胞，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在胎儿细胞的基因组中。在一些实施方案中，其中一个或多个靶细胞是遗传不相同的胎儿细胞，一个或多个非靶细胞是母本细胞，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，在一个或多个遗传不相同的胎儿细胞的基因组中。因为大多数个体的细胞含有几乎相同的一组核DNA，术语“靶细胞”可与术语“靶细胞”互换使用，在一些实施方案中。癌细胞具有不同于宿主个体的基因型。在这种情况下，癌症本身可以被认为是一个个体。此外，许多癌症是异质的，意味着一个肿瘤中的不同细胞在遗传上是不同于同一肿瘤中的其他细胞。在这种情况下，不同的遗传相同区域可以被认为是不同的个体。或者，癌症可以被认为是一个具有不同基因组的细胞混合的单个个体。通常，非靶细胞是整倍体，尽管不一定是这种情况。

在一些实施方案中，样本获自于母本的全血样本或其成分血样本，母本血液样本中分离的细胞，羊膜穿刺样本，胎儿样本，胎盘组织样本，绒毛膜绒毛样本，胎盘膜样本，宫颈粘液样本，或来自于胎儿的样本。在一些实施方案中，样本包含从母亲的血液样本或成分血样本中获得的游离DNA。在一些实施方案中，样本包含从胎儿细胞和母本细胞的混合物中获得的核DNA。在一些实施方案中，样本获自于含有有核细胞(已经富集在胎儿细胞中)的母本血液的一部分。在一些实施方案中，样本被分成多个部分(例如2，3，4，5或更多部分)，每个部分被分析，使用本发明的方法。如果每个部分产生相同的结果(例如一个或多个感兴趣的CNV的存在与否)，则结果的置信度增加。在不同的部分产生不同的结果，样本可以被重新分析或可以从同一受试者收集另一个样本并进行分析。

可仿效的受试者包括哺乳动物，例如人和兽医学感兴趣的哺乳动物。在一些实施方案中，哺乳动物是灵长类动物(例如人，猴，大猩猩，猿，狐猴等)，牛，马，猪，犬或猫。

在一些实施方案中，任何方法包括生成一个报告(例如书面或电子报告)，公开本发明的方法的结果(例如一个缺失或重复的存在与否)。

在一些实施方案中，任何方法包括采取一个临床行动，基于本发明的一种方法的结果(例如一个缺失或重复的存在与否)。在一些实施案例中，其中一个胚胎或胎儿拥有感兴趣的一个或多个多态性或突变 (例如CNV)，基于本发明方法的结果，临床行动包括进行额外的测试(例如测试以确认多态性或突变的存在)，不植入试管受精的胚胎，植入试管受精的不同胚胎，终止妊娠，为特殊需要的孩子做准备，或进行一个干预旨在减少遗传性疾病表型出现的严重程度。在一些实施方案中，临床行动选自于一个集合，包含进行超声，胎儿的羊膜穿刺术，从母亲和/或父亲继承了遗传物质的后续胎儿的羊膜穿刺术，胎儿的绒毛膜绒毛活检，从母亲和/或父亲继承了遗传物质的后续胎儿的绒毛膜绒毛活检，体外受精，对从母亲和/或父亲继承了遗传物质的一个或多个胚胎进行植入前遗传诊断，母亲的核型分析，父亲的核型分析，胎儿超声心动图(诸如具有21，18或21三体性，单体X或微缺失的胎儿的超声心动图)及其组合。在一些实施方案中，临床行动选自于一个集合，包括给具有单体性X的出生儿童施用生长激素(例如在大约9个月时开始施用)，给具有22q缺失的出生儿童施用钙(例如 DiGeorge综合征)，给具有47，XXY的出生儿童施用雄激素如睾酮(例如给婴儿或幼儿的每月一次的注射3个月的25mg的睾酮庚酸酯)，给具有完全或部分摩尔妊娠(例如三倍体胎儿)的妇女进行癌症测试，给具有完全或部分摩尔妊娠(例如三倍体胎儿)的妇女施用癌症治疗例如化疗剂，筛选确定为男性的胎儿(例如使用本发明的方法确定为男性的胎儿)对于一种或多种X-连锁遗传疾病例如杜氏肌营养不良 (DMD)，肾上腺脑白质营养不良，或血友病，给处于X连锁疾病风险的男性胎儿进行羊膜穿刺术，给怀有处于先天性肾上腺增生风险的女性胎儿(例如使用本发明的方法确定为女性的胎儿)的妇女施用地塞米松，对处于先天性肾上腺增生风险的女性胎儿进行羊膜穿刺，给 22q 11.2缺失的免疫缺陷的出生儿童施用灭活疫苗(而不是活疫苗) 或不施用某些疫苗，进行职业的和/或物理疗法，在教育中进行早期干预，在具有NICU和/或有接生许可的儿科专家的三级护理中心接生婴儿，对出生儿童(例如XXX，XXY或XYY的儿童)进行行为干预，及其组合。

在一些实施方案中，超声或另一筛查试验被执行，对一个被确定为具有多胎妊娠(例如双胞胎)的妇女，以确定两个或更多胎儿是否是单绒毛的。单卵双胞胎由单个卵母细胞的排卵和受精产生，随后受精卵分裂；胎盘化可能是双绒毛膜或单绒毛膜。双卵双胞胎从两个卵母细胞的排卵和受精发生，其通常导致双绒毛膜的胎盘化。单卵双胞胎有双胞胎输血综合征的风险，其可能导致胎儿之间的血液分布不均，造成他们生长和发育的差异，有时造成死胎。因此，使用本发明的方法确定为单卵双胞胎的双胞胎需要被测试(例如通过超声)以确定它们是否是单卵双胞胎，如果是这样，这些双胞胎可以被监测(例如从16周起的双周超声)双胞胎输血综合征的迹象。

在一些实施方案中一个胚胎或胎儿不含有感兴趣的一个或多个多态性或突变(例如CNV)，基于本发明方法的结果，临床行动包括植入试管受精的胚胎或继续妊娠。在一些实施方案中，临床行动是额外的测试以确认不存在多态性或突变，选自于一个集合包括进行超声，羊膜穿刺术，绒毛膜绒毛活检及其组合。

在一些实施方案中一个个体具有一个或多个多态性或突变(例如与疾病或障碍如癌症相关的或与疾病或障碍如癌症的增加风险相关的多态性或突变)，基于本发明方法的结果，临床行动包括对疾病或障碍进行额外的测试或施用一种或多种疗法(例如癌症治疗，对于癌症的特定类型或个体诊断出的突变类型的治疗，或本文公开的任何治疗)。在一些实施方案中，临床行动是额外的测试以确认多态性或突变的存在与否，选自于一组集合包括活检，手术，医学成像(例如乳房X光检查或超声波)及其组合的。

在一些实施方案中，额外的测试包括执行相同或不同的方法(例如本文所述的任何方法)以确认多态性或突变(例如CNV)的存在与否，例如测试同一测试样本或同一个体(例如相同的孕妇，胎儿，胚胎或具有癌症增加风险的个体)不同样本的第二部分。在一些实施方案中，额外的测试被执行，对于一个多态性或突变(例如CNV)的可能性高于阈值的个体来说(例如用于确认可能的多态性或突变存在的额外测试)。在一些实施方案中，额外的测试被执行，对于一个多态性或突变(例如CNV)的置信度或z值高于阈值的个体来说(例如额外的测试以确认存在可能的多态性或突变)。在一些实施方案中，额外的测试被执行，对于一个多态性或突变(例如CNV)的置信度或z 值介于最小和最大阈值之间的个体(例如额外的测试用以增加初始结果正确的置信度)。在一些实施方案中，额外的测试被执行，对于一个确定多态性或突变(例如CNV)存在与否的置信度低于阈值的个体来说(例如“无呼叫”结果，因为不能够以有效的置信度确定CNV的存在与否)。一个示例性Z值被计算，在Chiu等人发表的文献BMJ 2011； 342：c7401(在此其全部引用作为参考)中，其中21号染色体被用作一个例子，并且可以被测试样本中的任何其他染色体或染色体片段替换。

测试病例中21号染色体的百分比的Z值＝((测试病例中21 号染色体的百分比)一(参考对照中21号染色体的平均百分比)) /(参考对照中21号染色体的百分比的标准偏差)。

在一些实施方案中，额外的测试被执行，对于初始样本不符合质量控制指南或具有胎儿分数或肿瘤分数低于阈值的个体。在一些实施方案中，所述方法包括选择一个个体用于额外测试，基于本发明的方法的结果，结果的可能性，结果的置信度，或z值；以及对个体进行额外测试(例如在相同或不同的样本上)。在一些实施方案中，被诊断患有疾病或障碍(例如癌症)的受试者在多个时间点进行了重复测试，使用本发明的方法或已知的对于疾病或障碍的测试，以监测疾病或障碍的进展或疾病或障碍的缓解或复发。

在一个方面，本发明描述了一份结果报告(例如书面或电子报告)，来自于本发明的一种方法(例如缺失或重复的存在与否)。

在各种实施方案中，引物延伸反应或聚合酶链式反应包括通过聚合酶添加一个或多个核苷酸。在一些实施方案中，引物在溶液中。在一些实施方案中，引物在溶液中并且不固定在固体支持物上。在一些实施方案中，引物不是微阵列的一部分。在各种实施方案中，引物延伸反应或聚合酶链式反应不包括连接介导PCR。在各种实施方案中，引物延伸反应或聚合酶链式反应不包括通过连接酶连接两个引物。在各种实施方案中，引物不包括连接反向探针(LIPs)，其也可被称为预环化的探针，预环化探针，环化探针，挂锁探针或分子反向探针(MIP)。

据悉，本文所述的发明的方面和实施方案包括本发明的任何两个或多个方面或实施方案的组合。

定义

单核苷酸多态性(SNP)是指同一物种的两个成员的基因组之间可能不同的单核苷酸。所述术语的使用不应该被理解为对每个变异体发生的频率的任何限制。

序列是指DNA序列或基因序列。它可指个体的DNA分子或链的一级结构、物理结构。它可以指在DNA分子中发现的核酸序列，或者指DNA 分子互补链上发现的核酸序列。他还可以指包含在DNA分子中作为其生物学(in silico)代表的信息

位点指的是个体DNA上尤其感兴趣的区域，这可以指单核苷酸多态性(SNP)，可能插入或者删除的位点、或者可能发生相应的基因变异的位点。疾病相关这可以指单核苷酸多态性(SNP)也可以被称为疾病相关位点。

多态性等位基因还可以被称为“多态性位点”，指的是一种等位基因或者位点，在这些等位基因或者位点中，在同一种类的不同个体间的基因型存在变化。多态性等位基因的一些例子包括单核苷酸多态性、短串联重复、缺失、复制和逆位。

多态性位点指的是在不同个体间发生变化的多态性区域中发现的具体核苷。

突变是指在天然存在的核酸序列或参考核酸序列中发生的变化，例如插入、删除、复制、移位、替换、移码突变，沉默突变，无义突变，错义突变，点突变，突变过渡，颠换突变，反向突变，或微卫星改变。在一些实施方案中，由核酸序列编码的氨基酸序列从天然存在的序列中具有至少一个氨基酸的改变。

等位基因是指占据特定基因位点的基因。

遗传数据也叫做“基因数据”，指的是描述一个或者一个以上个体基因组各个方面的数据。它可以指一个或者一组位点、部分序列或者全部序列，部分染色体或者全部染色体，或者整个基因组。它可以指一个或者一些核苷酸的一致性；它可以指一组连续的核苷酸、或者来自基因组不同位点的核苷酸，或其结合。遗传数据通常是典型的生物学词汇，但是，他还有可能被认为是以一定顺序排列的实际的核苷，从而化学的编码遗传数据。遗传数据可以被称为“在个体上″，“个体的”、“位于个体处”、“来自个体”或者“在个体上”。基因型数据可以指来自基因分型平台的输出测量结果，其中那些测量是对遗传物质进行的。

遗传物质还叫做“遗传样本”，指的是来自一个或者多个个体的、包括DNA或者RNA的实际的物质，例如组织或者血液。

置信度是指所述SNP、等位基因、一组等位基因、染色体或染色体片段确定的拷贝数，或存在或者不存在某种疾病的诊断所代表的个体真实遗传状态的统计学似然性。

倍性判读也称为“染色体拷贝数判读”或“拷贝数判读”(CNC)，可以指测定细胞中所存在的一或多个染色体或染色体片段的数量和/或染色体一致性的行为。

非整倍性是指在细胞中存在错误数量的染色体(例如，错误数量的完整染色体或错误数量的染色体片段，例如存在染色体片段的缺失或复制) 的状态。在人体细胞的情况下，它可以指细胞不含22对常染色体和一对性染色体的情况。在人配子的情况下，它可以指细胞不含23条染色体中的一条的情况。在单一染色体类型的情况下，它可以指其中存在多于或少于两个同源但不一致的染色体拷贝，或其中存在源自同一亲本的两个染色体拷贝的情况。在一些实施方案中，染色体片段的缺失是微缺失。

倍性状态是指细胞中一或多个染色体或者染色体片段的数量和/或染色体一致性。

染色体可以指单一染色体拷贝，指的是在正常体细胞中存在46条单一的DNA分子；一个例子是‘源于母体的18号染色体’。染色体还可以指染色体类型，在正常的人体细胞中存在23条染色体类型；一个例子是‘18号染色体’。

染色体一致性可以指参考染色体数量，即染色体类型。正常的人类具有22种类型的已编号的常染色体类型和两种类型的性染色体。它还可以指染色体的亲本来源。它还可以指从亲本遗传的特定染色体。它还可以指染色体的其它属性特征。

等位基因数据是指关于一个或多个等位基因组的一组基因型数据。它可以指定相单倍型数据。它可以指单核苷酸多态性(SNP)一致性，并且它可以指DNA的序列数据，包括插入、缺失、重复和突变。它可以包括每个等位基因的亲本来源。

等位基因状态是指一个或多个等位基因组中的基因的实际状态。它可以指通过等位基因数据描述的基因的实际状态。

等位基因计数是指映射到特定基因位点的序列的数量，并且如果所述基因位点是多态性的，那么它是指映射到每一个等位基因中的序列的数量。如果以二进制方式对每个等位基因进行计数，那么所述等位基因计数将是整数。如果以概率方式对等位基因进行计数，那么所述等位基因计数可以是百分数。

等位基因计数概率是指可能映射到特定基因位点或映射到在多态性位点处的一组等位基因的序列的数量，与映射概率相结合。应注意，当每个计数序列的映射概率是二进制的(零或一)时，等位基因计数相当于等位基因计数概率。在一些实施方案中，等位基因计数概率可以是二进制的。在一些实施方案中，等位基因计数概率可以被设定成等于DNA测量结果。

等位基因分布或‘等位基因计数分布’是指在一组基因座中的每个位点处存在的每个等位基因的相对量。等位基因分布可以指个体、样品或对样品进行的一组测量。在例如测序的数字等位基因测量中，等位基因分布是指映射到一组多态基因座中的每个等位基因处的特定等位基因的读数的数值或可能数值。在例如SNP阵列的模拟等位基因测量中，等位基因分布指的是等位基因强度和/或等位基因比例。等位基因测量结果可以以概率方式进行处理，也就是说，对于指定序列读数存在中指定等位基因的似然性是介于0与1之间的分数，或者，它们可以按二进制方式进行处理，也就是说，任何指定读数被认为恰好是特定等位基因的零个或一个拷贝。

等位基因分布模式是指针对背景(例如，不同的亲本背景)的一组不同的等位基因分布。某些等位基因分布模式可以指示某些倍性状态。

等位基因偏差是指在杂合基因位点测量的等位基因的比率与初始 DNA或RNA样品中所存在的比率的区别程度。在特定位点处的等位基因偏差程度等于在所述基因位点处观察到的等位基因比率(如所测量的)除以此位点上初始DNA或者RNA样品中等位基因的比率。等位基因偏差可能是由于扩增偏差、纯化偏差或以不同方式影响不同等位基因的一些其它现象。

等位基因不平衡是指，对于SNV而言，通常使用突变等位基因频率 (突变的等位基因位点数/总该位点等位基因总数)测量的异常DNA的比率。由于肿瘤的两个同系物数量之间的差异是类似的，我们通过平均等位基因不平衡(AAI)测量CNV中异常DNA的比率，定义为|(H1H2)|/ (H1H2)，其中，Hi是样品中同源物I拷贝数平均值，Hi/(H1+H2)表示同源物I的丰度分数，或同源比率。最大同源率是更为丰富的同源物的同源率。

检测丢失率指的是没有读数的单核苷酸多态性(SNP)百分比，用全部单核苷酸多态性(SNP)估计的。

单等位基因丢失(ADO)率指的是只有一个等位基因存在的单核苷酸多态性(SNP)百分比，只使用杂合SNP估计

引物，也称为“PCR探针”，是指单核酸分子(例如DNA分子或者 DNA寡聚物)或核酸分子(例如DNA分子或者DNA寡聚物)的集合，其中所述分子是一致的，或几乎一致的，并且其中引物含有一个区域，该区域被设计成用于杂交到靶向位点(例如，靶向多态性位点或非多态性位点)或者杂交到常用的引发序列，并且包含一个引发序列，该引发序列被设计成允许PCR扩增。引物还可以含有分子条形码。引物可以含有针对每个单独的分子都有所不同的随机区域。

引物文库是指两种或更多种引物的群体。在不同实施方案中，所述文库包括至少100、200、500、750、1,000、2,000、5,000、7,500、 10,000、20,000、25,000、30,000、40,000、50,000、75,000或 100,000个不同引物。在不同实施方案中，所述文库包括至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25, 000、30,000、40,000、50,000、75,000或100,000个不同的引物对，其中每对引物包括正向测试引物和反向测试引物，其中每对测试引物杂交到一个目标位点。在一些实施实施方案中，引物文库包括至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25, 000、30,000、40,000、50,000、75,000或100,000个各自杂交到不同目标位点的不同的单独引物，其中所述单独引物不是引物对的一部分。在一些实施方案中，所述文库具有(i)引物对和(ii)不是引物对的一部分的单独引物(例如通用引物)。

不同的引物指不一样的引物。

不同的文库指不一样的文库。

不同的目标位点指不一样的目标位点。

不同的扩增子指不一样的扩增子。

杂交捕获探针是指可以被修饰的任何核酸序列，所述核酸序列通过例如PCR或直接合成等各种方法产生，并且旨在与样品中的特异性目标 DNA序列的一条链互补。可以向制备样品中加入外源性杂交捕获探针并且通过变性-重退火过程杂交以形成外源性-内源性片段的双螺旋体。这些双螺旋体然后可以通过各种手段以物理方式与样品分离。

序列读数是指表示使用(例如)克隆测序法测量的核苷酸碱基序列的数据。克隆测序可以产生表示一个初始DNA分子的单份或克隆或团簇的序列数据。序列读数还可以在序列的每个碱基位置处具有相关的质量分数，该质量分数表示核苷酸被正确地判读的概率。

映射序列读数是测定特定生物体的基因组序列中序列读数的源位置的过程。序列读数的源位置是以读数的核苷酸序列与基因组序列的类似性为基础的。

匹配拷贝错误也称为“匹配染色体非整倍性”(MCA)，是指一个细胞含有两条一致或几乎一致的染色体的非整倍性状态。这种类型的非整倍性可以出现在减数分裂中配子的形成期间，并且可以被称作减数分裂不分离错误。这种类型的错误可以出现在有丝分裂中。匹配三体性可以指在个体中存在三个拷贝的指定染色体并且所述拷贝中的两个是一致的情况。

不匹配的拷贝错误也称为“独特的染色体非整倍性”(UCA)，是指一个细胞含有来自同一亲本两条染色体的非整倍性状态，他们可以是同源但不一致的。这种类型的非整倍性可以出现在减数分裂期间，并且可以被称作减数分裂错误。不匹配的三体性可以指在个体中存在三个拷贝的指定染色体并且所述拷贝中的两个来自同一亲本并且是同源但不一致的情况。应注意，不匹配的三体性可以指其中存在来自一个亲本的两条同源染色体并且其中所述染色体的一些区段是一致的而其它区段仅仅是同源的情况。

同源染色体是指含有通常在减数分裂期间配对的同组基因的染色体拷贝。

一致性染色体是指含有同组基因并且关于每个基因，它们具有一致或几乎一致的同组等位基因的染色体拷贝。

等位基因丢失(ADO)是指来自同源染色体的一组碱基对中的至少一个碱基对在指定等位基因处检测不到的情况。

位点丢失(LDO)是指来自同源染色体的一组碱基对中的两个碱基对在指定等位基因处检测不到的情况。

纯合是指具有类似的等位基因作为对应的染色体位点。

杂合是指具有不同的等位基因作为对应的染色体位点。

杂合率是指群体中在指定位点处具有杂合等位基因的个体的比率。杂合率还可以指在个体或DNA或者RNA样品中的指定位点处所预计或测量的等位基因比率。

染色体区域是指染色体的区段或完整染色体。

染色体片段是指大小范围可以是从一个碱基对到整个染色体的染色体部分。

染色体是指完整染色体或染色体的片段或部分。

拷贝是指染色体片段的拷贝数。它可以指染色体片段的一致性拷贝或不一致性、同源拷贝，其中染色体片段的不同拷贝含有一组基本上相似的位点，并且其中等位基因中的一或多个是不同的。应注意在非整倍性的一些情况下，例如M2拷贝错误，有可能指定染色体片段的一些拷贝是一致的以及相同染色体片段的一些拷贝是不一致的。

单倍型是指在同一染色体上通常共同遗传的多个位点上等位基因的组合。根据一组指定位点间已经发生的重组事件的数量，单倍型可以仅指少至两个位点，或者指整个染色体。单倍型还可以指统计学相关的单一染色单体上的一组单核苷酸多态性(SNP)。

单倍型数据也称为“定相数据”或“有序遗传数据”，是指来自二倍体或多倍体基因组中的单一染色体的数据，即，二倍体基因组中的染色体的经分离的母本或父本拷贝。

定相是指鉴于无序的二倍体(或多倍体)遗传数据，测定个体的单倍型遗传数据的行为。它可以指针对一条染色体上所发现的一组等位基因，确定在等位基因处的两个基因中的哪一个与个体中的两条同源染色体中的每一条相关的行为。

定相数据是指已经测定了一个或多个单倍型的遗传数据。

假设是指一种可能的状态，例如第一同源染色体或者染色体片段与第二同源染色体或者染色体片段相比，拷贝数过表达的可能程度，删除的可能性、重复的可能性、一组给定的一个或者一个以上染色体或者染色体片段中可能的倍性状态、在一组指定的一个或一个以上位点中可能的等位基因状态、亲本关系可能性、或者在一组给定的一个或者一个以上染色体或者染色体片段或者来自一组位点的遗传物质量上可能的DNA、RNA、胎儿百分比。遗传状态可以选择性的与概率相连，说明假设中各个元素之间亲属关系可能性与假设中其他元素之间的亲属关系更真实，或者假设的亲属关系可能性完全是正确的。这组可能性可以包含一个或一个以上元素。

拷贝数假设也称为“倍性状态假设”，是指关于个体中的染色体或者染色体片段拷贝数的假设。它还可以指关于染色体中的每一条的身份的假设，包括每条染色体的亲本来源和两条亲本染色体中的哪一条存在于个体中。它还可以指关于来自相关个体的哪些染色体或染色体片段(如果存在的话)在遗传上对应于个体的指定染色体的假设。

相关个体是指与目标个体遗传上相关并且因此与其共享单倍体的任何个体。在一种情况下，相关个体可以是目标个体的基因父母或来源于父母的任何遗传物质，例如精子、极体、胚胎、胎儿或孩子。它还可以指兄弟姐妹、父母或祖父母。

兄弟姐妹是指其基因父母与所讨论的个体相同的任何个体。在一些实施方案中，它可以指已出生孩子、胚胎或胎儿，或来源于已出生孩子、胚胎或胎儿的一个或多个细胞。兄弟姐妹还可以指源自父母一方的单倍体个体，例如精子、极体或任何其它组单倍型遗传物质。个体可以被认为是其自身的兄弟姐妹。

孩子可以指胚胎、分裂球或胎儿。应注意在本发明所公开的实施方案中，所述概念同样很好地适用于作为已出生孩子、胎儿、胚胎或来自其中的一组细胞的个体。术语孩子的使用可以简单地意味着被称作孩子的个体是父母的遗传后代。

胎儿是指“胎儿的”或“遗传上类似于胎儿的胎盘区域的”。在孕妇中，胎盘的某些部分在遗传上类似于胎儿，并且母本血液中发现的自由浮动的胎儿DNA可能来源于胎盘上与胎儿基因型相匹配的部分。应注意胎儿中一半染色体的遗传信息是遗传自胎儿的母亲。在一些实施方案中，从这些母本遗传的来自胎儿细胞的染色体的DNA被认为是“胎儿来源的”，而不是“母本来源的”。

胎儿来源的DNA是指其基因型基本上与胎儿基因型相等的细胞原始部分的DNA。

母本来源的DNA是指其基因型基本上与母亲基因型相等的细胞原始部分的DNA。

父母是指个体的遗传学母亲或父亲。个体通常具有两个亲本(母本和父本)，但是情况可能不一定是这样，例如在基因或染色体嵌合中。父母可以被认为是个体。

亲本内容是指在目标的两个父母中的一方或双方的两条相关染色体中的每一条上，指定的单核苷酸多态性(SNP)遗传状态。

母本血浆是指来自怀孕女性的血液的血浆部分。

临床决定是指采取或不采取具有影响个体的健康或存活的结果的行动的任何决定。临床决定还可以指继续进行测试的决定，指终止或者维持怀孕的决定，指采取行动以减轻不希望的表现型的决定或采取行动以为此表型做准备的决定。

诊断盒是指被设计成用于执行本文中所公开的方法的一个或多个方面的一台机器或机器的组合。在一个实施方案中，诊断盒可以放在患者护理点。在一个实施方案中，诊断盒可以执行靶向扩增、并随后测序。在一个实施方案中，诊断盒可以单独或借助于技术员起作用。

基于信息的方法是指在很大程度上依赖于统计学来了解大量数据的方法。在产前诊断的情况下，它是指被设计成确定一个或者多个染色体或者染色体片段倍性状态的方法、确定一个或者多个等位基因处等位基因状态的方法，或者在给定的大量遗传数据时(例如，来自分子阵列或测序的遗传数据)，通过统计学干预最可能的状态确定亲子关系，而不是直接物理测定状态确定亲子关系的方法。在本发明的一个实施例中，基于信息的技术可以是本专利中所公开的技术。在本发明的一个实施例中，它可以是PARENTAL SUPPORT^TM

原始遗传数据是指通过基因分型平台输出的模拟强度信号。在SNP 阵列的情况下，原始遗传数据是指在进行任何基因型判读之前的强度信号。在测序的情况下，原始遗传数据是指类似于色谱图的模拟测量结果，它在测定任何碱基对的身份之前并且在序列已经映射到基因组之前完成测序仪。

二次遗传数据是指通过基因分型平台输出的经处理的遗传数据。在 SNP阵列的情况下，二次遗传数据是指通过与SNP阵列阅读器相关的软件进行的等位基因判读，其中所述软件已经做出了指定等位基因存在或不存在于样品中的判读。在测序的情况下，二次遗传数据是指已经测定了序列的碱基对身份，并且可能还指所述序列已经被映射到基因组的何处。

对应于位点的DNA的优先富集或在基因位点处的DNA的优先富集是指促使富集后DNA混合物中对应于所述基因位点的DNA分子的百分比高于富集前DNA混合物中对应于所述基因座的DNA分子的百分比的任何方法。所述方法可以涉及选择性扩增对应于基因位点的DNA分子。所述方法可以涉及去除不对应于基因座的DNA分子。所述方法可以涉及方法组合。富集度被定义为富集后混合物中对应于所述基因座的DNA分子的百分比除以富集前混合物中对应于所述位点的DNA分子的百分比。优先富集可以在多个基因座处执行。在本发明的一些实施例中，富集度大于20。在本发明的一些实施例中，富集度大于200。在本发明的一些实施例中，富集度大于2,000。当执行在多个基因座的优先富集时，富集度可以指基因座组中所有基因座的平均富集度。

扩增是指增加DNA或者RNA分子的拷贝数的方法。

选择性扩增可以指增加特定DNA(或者RNA)分子或对应于特定 DNA(或者RNA)区域的DNA(或者RNA)分子的拷贝数的方法。它还可以指增加特定靶向DNA(或者RNA)分子或靶向DNA(或者RNA) 区域的拷贝数而不只是增加非靶向分子或DNA(或者RNA)区域的方法。选择性扩增可以是优先富集的方法。

通用引发序列是指可以例如通过接合、PCR或接合介导的PCR而附加到目标DNA(或者RNA)分子群体的DNA(或者RNA)序列。在添加到目标分子群体后，对通用引发序列具有特异性的引物可以用以使用一对扩增引物来扩增目标群体。通用引发序列通常与目标序列无关。

通用适体或‘接合适体’或‘库标记’是含有可以共价连接到目标双链DNA分子群体的5′和3′端的通用引发序列的DNA分子。适体的添加为目标群体的5′和3′端提供了通用引发序列，可以使用一对扩增引物从所述通用引发序列发生PCR扩增，对来自目标群体的所有分子进行扩增。

靶向是指用于选择性扩增或者优先富集DNA(或者RNA)混合物中对应于一组基因座的那些DNA(或者RNA)分子的方法。

联合分布模型是指定义事件概率的模型，所述事件关于多个随机变量加以定义，指定在相同的概率空间上定义的多个随机变量，其中变量的概率是连锁的。在一些实施方案中，可以使用变量的概率不连锁的简并情况。

癌症相关基因是指与改变的癌症风险或改变的癌症的预后相关的一个基因。示例性的能够促进肿瘤的与癌症相关的基因包括致癌基因；促进细胞的增殖、侵袭和转移的基因；抑制凋亡基因的基因；和促血管生成的基因。抑制癌症的癌症相关基因包括，但不限于，肿瘤抑制基因；抑制细胞增殖、侵袭或转移的基因；促进细胞凋亡的基因；和抗血管生成基因

雌激素相关的癌症是指一种由雌激素调节的癌症。雌激素相关的癌症的例子包括，不限于，乳腺癌和卵巢癌。HER2在许多雌激素相关的癌症 (美国专利第6165464，通过引证在此全部并入本文)中过度表达。

雄激素相关的癌症是指一种由雄激素调节的癌症。与雄激素相关的癌症的一个例子是前列腺癌.

高于正常表达水平是指mRNA或蛋白的表达水平高于对照组(如无疾病或病症，如癌症)的相应分子的平均表达水平。在各种实施例中，表达水平至少比对照组的表达水平高50、40、75、90、100、200、500、甚至1000％。

低于正常表达水平是指mRNA或者蛋白的表达水平低于对照组(如无疾病或病症，如癌症)的相应分子的平均表达水平。在各种实施方案中，表达水平至少比对照组的表达水平低20，40，50，75，90，95或者 100％。在一些实施方案中，mRNA或蛋白质的表达是不可检测的。

调节表达或活性指的是相对于参照条件增加或减少蛋白质或核酸序列的表达或活性。在一些实施方案中，表达或活性的调节是增加或者减少至少10、20、40、50、75、90、100、200、500或甚至1000％。在各种实施方案中，治疗方法调节转录，翻译，mRNA或蛋白质的稳定性，或mRNA 或蛋白质与体内其他分子的结合。在一些实施方案中，使用标准Northern印记分析确定mRNA水平，并且用标准Western印记分析确定蛋白质水平，如这里所描述的分析或者在例如Ausubel et al.(Current Protocols in Molecular Biology(目前分子生物学方案)，John Wiley&Sons，纽约， 2013年7月11日，通过引证在此并入本文)中所描述的。在一个实施方案中，通过使用标准方法测量酶活性水平来确定蛋白质的水平。在另一个优选实施方案中，mRNA、蛋白或酶活性水平等于或小于参照细胞中的相应水平20，10，5，或2倍以上，并不表达所述蛋白的功能形式，例如，无义突变的细胞纯合子。在依旧另一个实施方案中，mRNA、蛋白，或酶活性水平等于或小于参照细胞相应基本水平的20，10，5，或2倍以上，所述参照细胞例如非癌细胞，没有接触诱导细胞异常增殖或抑制细胞凋亡的环境的细胞，或来自不患有有关心的疾病或异常的患者的细胞。

足以调节mRNA或蛋白质的表达或活性的剂量是指一种治疗的量，当对主题给药时，这种量能够增加或减少mRNA或蛋白的表达或活性。在一些实施方案中，对于能减小的表达或活性的化合物，所述调节是与相同的主体在给药抑制剂之前相比，或者与未被治疗的参照主体相比，被治疗的主体内的表达或活性减少至少10％，30％，40％，50％，75％，或90％。另外，在一个实施方案中，对于能增加表达或者活性的化合物，被治疗的主体内mRNA或者蛋白表达或者活性的量与相同的主体在给药抑制剂之前相比，或者与未被治疗的参照主体相比，至少增加1.5倍、2倍、3倍、 5倍、10倍或者20倍。

在一些实施方案中，化合物可以直接或间接地调节mRNA或蛋白质的表达或活性。例如，化合物可以通过能够直接或者间接影响所关心的 mRNA或者蛋白表达或者活性的调节分子(如核酸、蛋白、信号分子、生长因子、细胞因子、或趋化因子)的表达或活性，间接地调节的mRNA 和蛋白表达兴趣或活性，直接或间接地影响着利益的mRNA和蛋白的表达或活性。在某些实施方案中，化合物抑制细胞分裂或诱导细胞凋亡。在治疗中这些化合物可能包括，例如，未纯化或纯化蛋白，抗体，合成的有机分子，天然存在的有机分子，核酸分子及其组分。在联合治疗中的化合物可以同时或顺序地被施用。示例性化合物包括信号转导抑制剂。

纯化是指将某一组分从其本来伴随的组分中分离出来。通常情况下，当一个因子从重量上讲至少50％不含有蛋白质，抗体，及其本来伴随的天然有机分子是，这个因子是基本上纯净的。在一些实施方案中，该因子在重量上纯度至少占75％，90％，或99％。一个基本上纯的因子可以通过化学合成获得，从天然来源的因子中分离获得，或从本来不产生该因子的宿主细胞的重组细胞中生产。本领域普通技术人员可以使用标准技术纯化蛋白质和小分子，如Ausubel et al.(Current Protocols in Molecular Biology， John Wiley&Sons，New York，July 11，2013，通过引证在此全部并入本文)。在一些实施方案中，采用聚丙烯酰胺凝胶电泳法，柱色谱，光密度测定，高效液相色谱分析，或者western印记分析(Ausubel et al.，同上)测定所述因子比起始材料至少纯净2、5、10倍。示例性的纯化方法包括免疫沉淀、柱色谱(例如，免疫亲和色谱法)、磁珠免疫亲和纯化，和平移与板结合抗体。

从下面详细介绍和权利要求书中，本发明的其他特点和优势变得显而易见。

附图说明

专利或申请文件包含至少一张彩色图。具有彩色附图的本专利或专利申请出版物的副本将由办公室提供，根据请求和支付必要的费用。

目前公开的实施方案将进一步被附图的参考所解释，其中在几个视图中相同的结构由相同的附图标记表示。所示的附图不一定按比例，重点通常没有被放置，根据说明当前公开实施方案的原则。

图1A-1D显示测试统计量S的分布除以对于读数深度(DOR) 为500的各种拷贝数假设的T(SNP的数量)(“S/T”)，以及肿瘤分数为1％，对于越来越多的单核苷酸多态性(SNP)来说。

图2A-2D显示S/T的分布，对于DOR为500的各种拷贝数假说，以及肿瘤分数为2％，对于越来越多的单核苷酸多态性(SNP)来说。

图3A-3D显示S/T的分布，对于DOR为500的各种拷贝数假说，以及肿瘤分数为3％，对于越来越多的单核苷酸多态性(SNP)来说。

图4A-4D显示S/T的分布，对于DOR为500的各种拷贝数假说，以及肿瘤分数为4％，对于越来越多的单核苷酸多态性(SNP)来说。

图5A-5D显示S/T的分布，对于DOR为500的各种拷贝数假说，以及肿瘤分数为5％，对于越来越多的单核苷酸多态性(SNP)来说。

图6A-6D显示S/T的分布，对于DOR为500的各种拷贝数假说，以及肿瘤分数为6％，对于越来越多的单核苷酸多态性(SNP)来说。

图7A-7D显示S/T的分布，对于DOR为1000的各种拷贝数假说，以及肿瘤分数为0.5％，对于越来越多的SNP来说。

图8A-8D显示S/T的分布，对于DOR为1000的各种拷贝数假说，以及肿瘤分数为1％，对于越来越多的SNP来说。

图9A-9D显示S/T的分布，对于DOR为1000的各种拷贝数假说，以及肿瘤分数为2％，对于越来越多的SNP来说。

图10A-10D显示S/T的分布，对于DOR为1000的各种拷贝数假说，以及肿瘤分数为3％，对于越来越多的SNP来说。

图11A-11D显示S/T的分布，对于DOR为1000的各种拷贝数假说，以及肿瘤分数为4％，对于越来越多的SNP来说。

图12A-12D显示S/T的分布，对于DOR为3000的各种拷贝数假说，以及肿瘤分数为0.5％，对于越来越多的SNP来说。

图13A-13D显示S/T的分布，对于DOR为3000的各种拷贝数假说，以及肿瘤分数为1％，对于越来越多的SNP来说。

图14是一个表，指示检测6种微缺失综合征的灵敏度和特异性。

图15A-15C是整倍体的图示。x轴表示个体多态性位点沿着染色体的线性位置，y轴表示A等位基因读数的数目，作为总(A+B)等位基因读数的一部分。母本和胎儿的基因型被指示在图的右侧。图片进行了颜色编码根据母本的基因型，使得红色表示母本的基因型AA，蓝色表示母本的基因型BB，绿色表示母本的基因型AB。图15A是当两条染色体同时存在时，胎儿cfDNA比例为0％的图。该图是来自于一个没有怀孕的女士，因此代表了基因型完全是母本的模式。等位基因簇因此围绕 1(AA等位基因)，0.5(AB等位基因)和0(BB等位基因)。图15B 是当两条染色体存在时，胎儿的比例为12％的图。胎儿等位基因对A等位基因读数比例的贡献移动了一些等位基因的点的位置，沿着y轴向上或向下。图15C是当两条染色体存在时，胎儿的比例为26％的图。该模式，包括两个红色和两个蓝色外围条带和三个中央绿色条带，是显而易见的。

图16A和16B是22q 11.2缺失综合征的图解表示。图16A是对于母本22q 11.2缺失载体(由绿色AB SNPs的缺失表示)。图16B是对于胎儿中的父系遗传的22q11缺失(由一个红色和一个蓝色外周条带的存在表示)。x轴表示SNPs的线性位置，y轴表示总读数中A等位基因读数的比例。每个点代表单个SNP基因位点。

图17是母系遗传的Cri-du-Chat缺失综合征(由两个中心绿色条带而不是三个绿色条带的存在来表示)的图示。x轴表示SNPs的线性位置， y轴表示总读数中A等位基因读数的比例。每个点代表单个SNP基因位点。

图18是父系遗传的Wolf-Hirschhom缺失综合征(由一个红色和一个蓝色外周条带的存在来表示)的图示。x轴表示SNP的线性位置，y 轴表示总读数中A等位基因读数的比例。每个点代表单个SNP基因位点。

图19A-19D是X染色体加标实验的图示，以表示染色体或染色体片段的额外拷贝。该图显示了与女儿DNA混合的父本DNA的不同量：16％的父本DNA(图19A)，10％的父本DNA(图19B)，1％的父本DNA(图19C)，以及0.1％的父本DNA(图19D)。x轴表示 SNP在X染色体上的线性位置，y轴表示总读数(M+R)中的M等位基因读数的比例。每个点代表具有等位基因M或R的单个SNP基因位点。

图20A和20B是假阴性率的图，使用单倍型数据的(图20A) 和没有单倍型数据的(图20B)。

图21A和21B是p＝1％的假阳性率的图，使用单倍型数据的(图 21A)和没有单倍型数据的(图21B)。

图22A和22B是p＝15％的假阳性率的图，使用单倍型数据的(图 22A)和没有单倍型数据的(图22B)。

图23A和23B是p＝2％的假阴性率的图，使用单倍型数据的(图23A) 和没有单倍型数据的(图23B)。

图24A和24B是p＝2.5％的假阳性率的图，使用单倍型数据的(图 24A)和没有单倍型数据的(图24B)。

图25A和25B是p＝3％的假阳性率的图，使用单倍型数据的(图25A) 和没有单倍型数据的(图25B)。

图26是对第一次模拟的假阳性率的表。

图27是对第一次模拟的假阴性率的表。

图28A是参考计数(一个等位基因的计数，例如“A”等位基因)除以总计数的图，对于正常(非癌性)细胞系的该基因位点。

图28B是参考计数除以总计数的图表，对于具有缺失的癌症细胞系。图28C是参考计数除以总计数的图表，来自于具有正常细胞系和癌症细胞系混合的DNA。

图29是参考计数除以总计数的图表，对于来自IIa期乳腺癌患者的血浆样本，其肿瘤分数估计为4.33％(其中4.33％的DNA来自于肿瘤细胞)。图表的绿色部分表示其中不存在CNV的区域。图表的蓝色和红色的部分表示其中存在CNV的区域，并且所测量的等位基因比率与预期等位基因比率0.5的有一个明显的分离。蓝色着色指示一个单倍型，并且红色着色指示另一个单倍型。大约636个杂合性的SNP在CNV的区域中被进行了分析。

图30是参考计数除以总计数的图表，对于来自IIb期乳腺癌患者的血浆样本，其肿瘤分数估计为0.58％。图表的绿色部分表示其中不存在 CNV的区域。图表的蓝色和红色的部分表示其中存在CNV的区域，但是所测量的等位基因比率与预期等位基因比率0.5的没有一个明显的分离。对于该分析，86个杂合性的SNP在CNV的区域中被进行了分析。

图31A和31B显示了肿瘤分数的最大似然估计。最大似然估计由图的峰值指示，对于图31A为4.33％，对于图31B为0.58％。

图32A是对各种可能的肿瘤分数优势比的对数图的一个比较，对于高肿瘤分数样本(4.33％)和低肿瘤分数样本(0.58％)。如果对数几率比值小于0，则更有可能是整倍体假说。如果对数几率比值大于0，则更可能存在CNV。

图32B是缺失的概率除以无缺失的概率，对于各种可能的肿瘤分数，对于低肿瘤分数样本(0.58％)来说。

图33是低肿瘤分数样本(0.58％)的各种可能肿瘤分数的优势比的对数图。图33是图32中用于低肿瘤分数样本的放大版本。

图34显示了在肿瘤活检中对单核苷酸突变检测的极限值，使用例 6中描述的三种不同方法。

图35显示了在血浆样本中对单核苷酸突变检测的极限值，使用例 6中描述的三种不同方法。

图36A和36B是基因组DNA(图36A)或单个细胞中DNA(图36B)的分析图，利用一个设计用来检测CNV的约 28,000条引物的文库。存在两个中心条带而不是一个中心条带表明CNV的存在。x轴表示SNP的线性位置，y轴表示总读数中A等位基因读数的比例。

图37A和37B是基因组DNA(图37A)或单个细胞中DNA (图37B)的分析图，利用一个设计用来检测CNV的大约3, 000条引物的文库。存在两个中心条带而不是一个中心条带表明CNV的存在。x轴表示SNP的线性位置，y轴表示总读数中A等位基因读数的比例。

图38显示了这些大约3,000个基因位点的读数深度 (DOR)的均匀性。

图39是一个比较基因组DNA和来自单个细胞DNA的误差调用指标的表。

图40是转换突变和颠换突变的错误率的图。

图41a-d是用PlasmArts测定的CoNVERGe的灵敏度的图。(a) CoNVERGe计算的AAI和实际输入分数之间的相关性，在来自22q 11.2缺失的和匹配正常细胞系的DNA的PlasmArt样本中。(b)计算的AAI和实际肿瘤DNA输入之间的相关性，在来自于具有染色体2p和2q CNV的HCC2218乳腺癌细胞和匹配的正常HCC2218BL细胞(含有0-9.09％肿瘤DNA分数)的DNA的PlasmArt样本中。(c)计算的 AAI和实际肿瘤DNA输入之间的相关性，在来自具有染色体1p和1q CNV的HCC1954乳腺癌细胞和匹配的正常HCC1954BL细胞(含有 0-5.66％肿瘤DNA分数)的DNA的PlasmArt样本中。(d)等位基因频率图，对于(c)中用到的HCC1954细胞。在(a)，(b)和(c)中，数据点和误差条分别表示平均值和标准偏差(SD)，对于3-8次重复。

图42提供了细节，对于一个示例性Plasmart标准，包括在较低部分的片段大小分布的图。

图43正确提供了来自于Plasmart合成ctDNA标准品稀释曲线的结果，用于验证微缺失和癌症指标。图43A；右图显示了肿瘤的最大可能性，评估DNA部分的结果作为一个优势比图。图43B是一个用于检测颠换事件的图。图43C是一个用于检测转变事件的图。图44 是一张显示了各种染色体区域的CNV的图，即不同样本在不同％ ctDNA下指示的。

图45是一张显示了各种染色体区域的CNV的图，对于具有不同的％ctDNA水平的各种卵巢癌样本来说。

图46是一个表显示了乳腺癌或肺癌患者在ctDNA中具有SNV或组合的SNV和/或CNV的百分比。

图47_是一个乳腺癌不同相位的％样本的图表，其在血浆中具有肿瘤特异性SNV和/或CNV，以及相关联的数据表在右边。

图48是一个乳腺癌不同亚期的％样本的图表，其在血浆中具有肿瘤特异性SNV和/或CNV，以及相关联的数据表在右边。

图49是一个肺癌不同相位的％样本的图表，其在血浆中具有肿瘤特异性SNV和/或CNV，以及相关联的数据表在右边。

图50是一个乳腺癌不同亚期的％样本的图表，其在血浆中具有肿瘤特异性SNV和/或CNV，以及相关联的数据表在右边。

图51A表示原发性肺肿瘤的组织学发现/历史，分析其克隆和亚克隆肿瘤异质性。图。图51B是一个活检肺肿瘤的VAF同一性的表，通过全基因组测序和AmpliSEQ测定。

图52说明了使用来自于血浆的ctDNA去鉴定克隆和亚克隆SNA 突变，以克服肿瘤异质性。

图53是一个表，比较了AmpliSeq和mmPCR-NGS的VAF调用，用于原发性肿瘤中SNV的检测，其被血浆ctDNA中鉴定的AmpliSeq 和SNV突变体错过。

图54A是原发性肺肿瘤中％VAF的图。图54B是一个线性回归图，对AmpliSeq VAF相对于Natera VAF的。

图55是84-plex SNV PCR引物反应的库1/4的图，当引物浓度受限时。

图56是84-plex SNV PCR引物反应的库2/4的图，当引物浓度受限时。

图57是84-plex SNV PCR引物反应的库3/4的图，当引物浓度受限时。

图58是84-plex SNV PCR引物反应的库4/4的图，当引物浓度受限时。

图59说明了一个检测限(LOD)对读数深度(DOR)的图，用于检测SNV转换和颠换突变的，在15个PCR循环的84重复PCR反应中。

图60说明了一个检测限(LOD)对读数深度(DOR)的图，用于检测SNV转换和颠换突变的，在20个PCR循环的84重复PCR反应中。

图61说明了一个检测限(LOD)对读数深度(DOR)的图，用于检测SNV转换和颠换突变的，在25个PCR循环的84重复 PCR反应中。

图62是一张图说明了肿瘤和单个细胞基因组DNA之间的可比较的灵敏度。上部分显示使用肿瘤细胞基因组DNA的结果。下部分显示使用单个细胞基因组DNA的结果。

图63说明了分析CNV的工作流程，在多种癌症样本类型中，在靶向SNP的大规模多重PCR(mmPCR)测定中-图63a。图63b-f 比较了CoNVERGe测定与微阵列测定，在乳腺癌细胞系与匹配的正常细胞系中。

图64提供了一个新鲜冷冻(FF)和FFPE(福尔马林固定石蜡包埋)乳腺癌样本与匹配对照的比较。图a-h比较了CoNVERGe 测定与微阵列测定，在乳腺癌细胞系与匹配的白细胞层gDNA对照样本中。

图65说明了等位基因频率图以反映染色体拷贝数，使用 CoNVERGe测定来检测单个细胞中的CNV。图65a-c是来自于三个乳腺癌单细胞重复的分析。图65d是对在靶区域中缺乏CNV的B淋巴细胞系的分析。

图66说明了等位基因频率图以反映染色体拷贝数，使用 CoNVERGe测定来检测真实血浆样本中的CNV。图66a是II期乳腺癌血浆cfDNA样本以及其匹配的肿瘤活检gDNA。图66b是晚期卵巢癌血浆cfDNA样本以及其匹配的肿瘤活检gDNA。图66c是一个图表，说明了通过CNV检测测定的肿瘤异质性，在五种晚期卵巢癌血浆以及匹配的组织样本中。

图67说明了在乳腺癌中的染色体位置和突变改变。

图68说明了SNP的主要(图68A)和次要等位基因(图68B) 频率，用于3168mmPCR反应。

图69显示了一个示例系统体系X00，用于执行本发明的实施方案。

图70说明了一个示例计算机系统，用于执行本发明的实施方案。虽然上述附图阐述了目前公开的实施方案，其他的实施方案也被设想，如在讨论中所指出的。本公开展示了说明性的实施方案，以呈现和非限制的方式。许多其他的修改和实施方案能够被那些在艺术领域的技术人员设计，遵照目前公开的实施方案的原则的范围和精神。

发明的具体描述

一方面，本发明通常涉及，至少部分涉及确定拷贝数变化的存在与否的改进方法，例如染色体片段或整个染色体的缺失或复制。所述方法特别有用对于检测小缺失或重复，其很难被高特异性和灵敏度的检测，通过现有的方法，由于来自于相关染色体片段的可用数据很少。该方法包括改进的分析方法，改进的生物测定方法，以及改进的分析和生物测定方法的组合。本发明的方法还可以被用于检测仅存在于小百分比的测试细胞或核酸分子中的缺失或重复。这允许缺失或重复被检测到，在疾病发生之前(例如在癌前期)或疾病的早期，例如在具有缺失或重复的大量患病细胞(例如癌细胞)积累之前。更精确的检测，针对于与疾病或障碍相关的缺失或重复的，使得用于诊断，预测，预防，延迟，稳定或治疗疾病或病症的方法得到改进。几种缺失或重复已知与癌症或严重的精神或身体障碍相关。

在另一方面，本发明通常涉及，至少部分涉及检测单核苷酸变异(SNV)的改进方法。这些改进的方法包括改进的分析方法，改进的生物测定方法以及将改进的分析和生物测定方法组合而成的改进方法。在某些说明性实施方案中的方法被用于检测，诊断，监测或癌症分期，例如在SNV以非常低的浓度存在的样本中，例如小于 10％，5％，4％，3％，2.5％，2％，1％，0.5％，0.25％或0.1％，相对于SNV基因位点的正常拷贝总数来说，例如循环游离DNA样本。也就是说，在某些说明性实施方案中，这些方法特别适用于存在相对低百分比的突变或变异的样本，相对于该遗传基因位点存在的正常多态性等位基因来说。最后，本文提供的方法，是结合了用于检测拷贝数变化的改良方法与用于检测单核苷酸变异的改良方法。

成功的治疗一种疾病例如癌症，通常依赖于早期诊断，正确的疾病分期，有效治疗方案的选择，以及密切监测以预防或检测复发。对于癌症诊断，从组织活检中获得的肿瘤材料的组织学评价通常被认为是最可靠的方法。然而，基于组织活检的取样的侵入性使得其不适于大规模筛选和定期随访。因此，本方法具有优势，能够非侵入地进行，如果需要相对低的成本和快速的周转时间的话。本发明的方法可以利用靶向测序，需要比鸟枪测序更少的读数，例如几百万读数而不是4千万读数，从而降低成本。多重PCR和下一代测序可以被用于增加读取量并降低成本。

在一些实施方案中，所述方法被用于检测一个个体中的缺失，复制或单核苷酸变异。个体的一个样本，包含具有缺失，复制或单核苷酸变异的细胞或核酸，可以被分析。在一些实施方案中，样本来自于疑似具有缺失，复制或单核苷酸变异的组织或器官，例如细胞或大量的怀疑癌变的细胞。本发明的方法可以被用于检测仅存在于一个细胞或少量细胞中的缺失，复制或单核苷酸变异，在一个含有具有缺失，复制或单核苷酸变体的细胞和不含具有缺失，复制或单核苷酸变体的细胞的混合物中。在一些实施方案中，来自于个体的血液样本的cfDNA或cfRNA被分析。在一些实施方案中，cfDNA或cfRNA由细胞分泌，例如癌细胞。在一些实施方案中，cfDNA 或cfRNA由经历坏死或凋亡的细胞释放，例如癌细胞。本发明的方法可用于检测仅存在于小百分比的cfDNA或cfRNA中的缺失，复制或单核苷酸变异。在一些实施方案中，来自于胚胎的一种或多种细胞被测试。

在一些实施方案中，所述方法被用于胎儿的非侵入性或侵入性产前检查。这些方法可被用于确定染色体片段或整个染色体的缺失或重复的存在与否，例如缺失或复制已知与严重的精神或身体障碍，学习障碍或癌症相关。在用于非侵入性产前测试(NIPT)的一些实施方案中，来自于怀孕母亲的血液样本的细胞，cfDNA或cfRNA被测试。该方法允许检测缺失或重复，在来自于胎儿的细胞，cfDNA或cfRNA中，尽管来自于母本的大量细胞，cfDNA或cfRNA也存在。在用于侵入性产前测试的一些实施方案中，来自胎儿样本中的DNA或RNA(例如CVS或羊膜穿刺术样本) 被测试。即使样本被来自于妊娠母亲的DNA或RNA污染，所述方法也可以被用于检测胎儿DNA或RNA中的缺失或重复。

除了确定拷贝数变化的存在与否之外，一个或多个其他因素可以被分析，如果需要的话。这些因素可以用于提高诊断的准确性(例如确定癌症的存在与否在或癌症的增加风险，癌症分类或癌症分期)或预后。这些因素也可以被用于选择一个特定的疗法或治疗方案，其可能在受试者中有效。示例性因素包括多态性或突变的存在与否；改变的(增加的或减少的) 总的或特定cfDNA，cfRNA，小RNA(miRNA)的水平；改变的(增加的或减少的)肿瘤分数；改变的(增加的或降低的)甲基化水平，改变的 (增加的或降低的)DNA完整性，改变的(增加的或减少的)或可变的 mRNA剪接。

以下部分描述了方法用于检测缺失或重复，利用相位数据(例如推断或测量的相位数据)或混淆数据；可以被测试的样本；样本制备，扩增和定量的方法；相位遗传数据的方法；多态性，突变，核酸改变，mRNA可变剪接，以及可以被检测到的核酸水平的改变；来自于方法的结果数据库，其他风险因素和筛选方法；可以被诊断或治疗的癌症；癌症治疗；用于测试治疗的癌症模型；以及用于制定和施用治疗的方法。

使用相位数据确定倍性的示例性方法

本发明的一些方法部分基于以下发现：使用相位数据来检测CNV，降低了假阴性和假阳性率，与使用混淆数据相比(图20A-27)。这种改善对于CNV以低水平存在的样本来说是最大的。因此，相位数据提高了CNV 检测的准确度，与使用混淆数据比于(例如计算一个或多个基因位点处的等位基因比率或汇总等位基因比率以给出染色体或染色体片段上的汇总值(例如平均值)的方法，不考虑不同基因位点处的等位基因比率是否表明相同或不同的单倍型似乎以异常量存在)。使用相位数据允许更准确地确定，测量的和预期的等位基因比率之间的差异是否是由于噪声或由于 CNV的存在。例如，如果在一个区域中大多数或全部的基因位点上测量的和预期的等位基因比率之间的差异表明相同的单倍型过表达，那么CNV 更可能是存在的。利用单倍型中等位基因之间的连锁，允许确定是否所测量的遗传数据与过表达的相同单倍型(而不是随机噪声)是一致的。相反，如果测量的和预期的等位基因比率之间的差异仅仅是由于噪声(例如实验误差)，那么在一些实施方案中，大约一半时间第一单倍型看起来是过表达的，大约另一半时间，第二单倍型看起来是过表达的。

可以通过考虑SNP之间的连锁，以及在减数分裂(产生形成胚胎并生长到胎儿的配子)期间发生交叉的可能性来提高精确度。当创建一个或多个假说的等位基因测量的预期分布时，利用连锁创建预期等位基因测量分布，对应于现实的，其比不使用连锁时要更好。例如，假设有两个SNP，1和2位于彼此附近，在一条同源染色体上母亲的SNP 1处是A，SNP 2处是A，并且在第二条同源染色体上SNP 1是B，SNP 2是B。如果父亲在两个同源染色体上的两个SNP都是A，对于胎儿SNP 1测量到B，则这表明第二条同源染色体已经被胎儿继承，因此有一个更高的可能性对于B出现于胎儿SNP2位点。考虑到连锁的模型可以预测这一点，而不考虑连锁的模型则不能。交替的，如果母亲在SNP 1处为AB，在附近的SNP 2处为AB，那么那个位点对应于母本三体的两个假说可以被使用- 一个包含匹配的复制错误(不分裂在减数分裂II中或早期胎儿发育的有丝分裂中)，一个包含不匹配的复制错误(不分裂在减数分裂1 中)。在一个匹配复制错误三体的情况下，如果胎儿在SNP 1处从母亲遗传了AA，那么胎儿更可能在SNP 2处从母亲遗传AA或BB，而不是在AB。在一个不匹配的复制错误的情况下，胎儿在两个SNP 处从母亲继承AB。CNV调用方法制定的等位基因分布假说，考虑了连锁，可以做出这些预测，因此对应于实际的等位基因的测量有相当的更大的程度，比一个不考虑连锁的CNV调用方法。

在一些实施方案中，相位遗传数据被用来确定是否存在第一同源染色体片段拷贝数的过表达，与个体基因组中的第二同源染色体区段相比(例如在一个或多个细胞的基因组中或在cfDNA或cfRNA中)。示例性的过表达包括第一同源染色体片段的重复或第二同源染色体片段的缺失。在一些实施方案中，不存在过表达，因为第一和第二同源染色体区段以相等比例(例如二倍体样本中每个片段的一个拷贝)存在。在一些实施方案中，核酸样本中的计算的等位基因比率与预期的等位基因比率进行比较，以确定是否存在下文进一步描述的过表达。在本规范中，短语“与第二同源染色体片段相比的第一同源染色体片段”指一个染色体片段的第一同源物和染色体片段的第二同源物。

在一些实施方案中，所述方法包括获得第一同源染色体片段的相位遗传数据，包含存在于第一同源染色体片段上该基因位点处的等位基因的同一性，对于第一同源染色体片段上的多态性基因位点集合中的每个基因位点来说，获得第二同源染色体片段的相位遗传数据，包含存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上的多态性基因位点集合中的每个基因位点来说，以及获得测量的遗传等位基因数据，对于多态性基因位点集合中的每个基因位点处的每个等位基因来说，包括来自个体一个或多个靶细胞以及一个或多个非靶细胞的DNA或RNA样本中存在的每个等位基因的量。在一些实施方案中，所述方法包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度；计算，对于每个假说，样本中多个位点的预期的遗传数据，从获得的相位遗传数据中，对于来自于一个或多个靶细胞DNA或RNA到样本中总DNA或RNA 的一个或多个可能比率来说；计算(例如在计算机上计算)，对于DNA 或RNA的每个可能比率和每个假设，数据拟合在获得的样本遗传数据与样本的预期遗传数据之间，对于DNA或RNA的可能比率和对于那个假说；根据数据拟合对一个或多个假设进行排序；选择其中排序最高的假说，从而确定来自于个体一个或多个细胞基因组中第一同源染色体片段的拷贝数的过表达的程度。

在一个方面，本发明描述了一种方法用于确定胎儿的染色体或染色体片段的拷贝数。在一些实施方案中，所述方法包括获得胎儿的至少一个生物学亲本的相位遗传数据，其中相位遗传数据包括亲本第一同源染色体片段和第二同源染色体片段上的多态性基因位点集合中的每个基因位点上存在的等位基因的同一性。在一些实施方案中，所述方法包括获得DNA或RNA混合样本中染色体或染色体片段上的多态性基因位点集合处的遗传数据，混合样本包含胎儿DNA或RNA和来自于胎儿母亲的母体DNA 或RNA，通过测量每个基因位点上每个等位基因的量。在一些实施方案中，该方法包括列举一组一个或多个假说，指定存在于胎儿基因组中的感兴趣的染色体或染色体片段的拷贝数。在一些实施方案中，所述方法包括创建(例如在计算机上创建)，对于每个假说，一个在混合样本中多个基因位点中每个位点上的各个等位基因的预期量的概率分布，来自于(i)从父母获得的相位遗传数据，或者(ii)可能发生在配子形成期间的一个或多个交叉的概率，配子为胎儿贡献了感兴趣的染色体或染色体片段的一个拷贝；计算(例如在计算机上计算)，对于每个假说，在(1) 所获得的混合样本的遗传数据和(2)对于该假说混合样本中多个基因位点中每个位点上的每个等位基因的预期量的概率分布之间；根据数据拟合对一个或多个假说进行排序；并且选择排序最高的假说，从而确定胎儿基因组中感兴趣的染色体片段的拷贝数。

在一些实施方案中，所述方法包括获得相位遗传数据，利用本文所描述的任何方法或任何已知方法。在一些实施方案中，所述方法包括同时或连续地以任何顺序(i)获得第一同源染色体片段的相位遗传数据，其包含存在于第一同源染色体片段上该基因位点处的等位基因的同一性，对于第一同源染色体片段上多态性位点集合中的每个基因位点，(ii)获得第二同源染色体片段的相位遗传数据，其包含存在于第二同源染色体片段上该基因位点处的等位基因的同一性，对于第二同源染色体片段上多态性位点集合中的每个基因位点，以及(iii)获得测量的遗传等位基因数据，其包括多态性基因位点集合中每个位点上的等位基因的量，在来自于个体一个或多个细胞的DNA样本中。

在一些实施方案中，所述方法包括计算等位基因比率，对于多态性基因位点集合中的一个或多个基因位点，其在分离的样本中至少一个细胞是杂合的(例如该基因位点在胎儿中是杂合的和/或在母本中是杂合的)。在一些实施方案中，特定基因位点的计算的等位基因比率是一个等位基因的测量量除以基因位点上所有等位基因的总测量量。在一些实施方案中，特定基因位点的计算的等位基因比率是一个等位基因(例如第一同源染色体片段上的等位基因)的测量量除以一个或多个其他等位基因的测量量(例如第二同源染色体片段上的等位基因)。计算的等位基因比率可以被计算，利用本文描述的任何方法或任何标准方法(例如本文所描述的计算的等位基因比率的任何数学变换)。

在一些实施方案中，所述方法包括确定是否存在第一同源染色体片段拷贝数的过表达，通过比较一个基因位点的一个或多个计算的等位基因比率与所述基因位点的预期的等位基因比例，如果第一和第二同源染色体片段以相等的比例存在。在一些实施方案中，预期的等位基因比率假定一个基因位点上的可能的等位基因具有相同的存在可能性。在一些实施方案中，其中对于一个特定基因位点的计算的等位基因比率是一个等位基因的测量量除以基因位点上所有等位基因的总测量量，相应的预期的等位基因比率为0.5对于一个双等位基因位点，或为1/3对于一个三等位基因位点。在一些实施方案中，预期的等位基因比率假定一个基因位点的可能的等位基因可以具有不同的存在可能性，例如基于每个等位基因的频率的可能性，在受试者所属的特定人群中，例如基于受试者的祖先的人群。这样的等位基因频率是公开可获得的(参见例如HapMap计划；Perlegen人类单倍型项目；ncbi.nlm.nih.gov/projects/SNP/网站；Sherry ST，Ward MH，Kholodov M 等人dbSNP：theNCBI database of genetic variation.Nucleic Acids Res.2001Jan 1；29(1)：308-11，这些每一个都被整体纳入参考)。在一些实施方案中，预期的等位基因比率是对特定个体的等位基因比率，该个体正被指明第一同源染色体片段过表达程度的特定假说进行测试。例如，特定个体的预期的等位基因比率可以被确定，基于来自个体的相位或混淆遗传数据(例如来自于个体的不太可能具有缺失或重复的一个样本，例如非癌性样本)，或来自于个体的一个或多个亲属的数据。在一些用于产前测试的实施方案中，预期的等位基因比率是对一个混合样本的预期的等位基因比率，该混合样本包括来自于怀孕母亲和胎儿的DNA或RNA(例如母本的血浆或血清样本，其包括来自于母亲的cfDNA以及胎儿的cfDNA)，对于一个指定第一同源染色体片段的过表达程度的特定假说来说。例如，混合样本的预期的等位基因比率可以被确定，基于来自于母亲的遗传数据以及胎儿的预测的遗传数据(例如胎儿可能已经从母亲和/或父亲遗传了的等位基因的预测)。在一些实施方案中，仅来自于母亲(例如来自于母本血液样本的白细胞层)的DNA或RNA的一个样本的相位或混淆遗传数据，是确定来自于混合样本中母本DNA或RNA的等位基因，以及胎儿可能已经从母亲继承了(因此可能存在于混合样本的胎儿DNA或RNA中) 的等位基因。在一些实施方案中，仅来自于父亲的DNA或RNA样本的相位或混淆遗传数据被用以确定胎儿可能已经从父亲继承了的等位基因(以及因此可能存在于混合样本的胎儿DNA或RNA中)。预期的等位基因比率可以被计算，利用本文所描述的任何方法或任何标准方法(例如本文所述的预期的等位基因比率的任何数学变换)(美国公开号2012/0270212，2011年11月18日提交，其在此被列为参考整体引用)。

在一些实施方案中，计算的等位基因比率指示第一同源染色体片段的拷贝数的过表达，如果(i)等位基因比率(存在于第一同源染色体片段上该基因位点处的等位基因的测量量，除以基因位点处的所有等位基因的总测量)大于该基因位点处的预期的等位基因比率，或(ii) 等位基因比率(存在于第二同源染色体片段上该基因位点处的等位基因的测量量，除以基因位点处的所有等位基因的总测量)小于该基因位点处的预期的等位基因比率。在一些实施方案中，计算的等位基因比率仅仅考虑指示过表达，如果它是明显大于或小于该位点的期望比率。在一些实施方案中，计算的等位基因比率指示第一同源染色体片段的拷贝数没有过表达，如果(i)等位基因比率(存在于第一同源染色体片段上该基因位点处的等位基因的测量量，除以基因位点处的所有等位基因的总测量)小于或等于该基因位点处的预期的等位基因比率，或(ii)等位基因比率(存在于第二同源染色体片段上该基因位点处的等位基因的测量量，除以基因位点处的所有等位基因的总测量) 大于或等于该基因位点处的预期的等位基因比率。在一些实施例中，与相应预期比率相等的计算比率被忽略(因为它们指示没有过表达)。

在各种实施方案中，一种或多种以下方法被用来比较一个或多个计算的等位基因比率与相应的预期等位基因比率。在一些实施方案中，一种方法确定是否计算的等位基因比率高于或低于预期的等位基因比率，对于一个特定的基因位点，不考虑差异的大小。在一些实施方案中，一种方法确定计算的等位基因比率与预期等位基因比率之间的差异的大小，对于一个特定的基因位点，不考虑是否计算的等位基因比率高于或低于预期的等位基因比率。在一些实施方案中，一种方法确定是否计算的等位基因比率高于或低于预期的等位基因比率，以及对于一个特定基因位点的差异的大小。在一些实施方案中，一种方法确定是否计算的等位基因比率的平均值或加权平均值高于或低于预期的等位基因比率的平均值或加权平均值，不考虑差异的大小。在一些实施方案中，一种方法确定计算的等位基因比率的平均值或加权平均值与预期的等位基因比率的平均值或加权平均值之间的差异的大小，不考虑是否计算的等位基因比率的平均值或加权平均值高于或低于预期的等位基因比率的平均值或加权平均值。在一些实施方案中，一种方法确定是否计算的等位基因比率的平均值或加权平均值高于或低于预期的等位基因比率的平均值或加权平均值，以及差异的大小。在一些实施方案中，一种方法确定平均值或加权平均值，对于计算的等位基因比率与预期的等位基因比率之间的差异的大小。

在一些实施方案中，计算的等位基因比率和预期等位基因比率之间的差异的大小，对于一个或多个基因位点的，被用来确定是否第一同源染色体片段的拷贝数的过表达是由于第一同源染色体片段的重复或者第二同源染色体片段的缺失，在一个或多个细胞的基因组中。

在一些实施方案中，第一同源染色体片段的拷贝数的过表达被确定存在，如果一个或多个下述情况出现。在一些实施方案中，计算的等位基因比率的数目，其指示第一同源染色体片段的拷贝数的过表达，高于阈值。在一些实施方案中，计算的等位基因比率的数目，其指示第一同源染色体片段的拷贝数的没有过表达，低于阈值。在一些实施方案中，计算的等位基因比率(其指示第一同源染色体片段的拷贝数的过表达)和相应的预期等位基因比率之间的差异大小高于阈值。在一些实施方案中，对于指示过表达的所有计算的等位基因比率，计算的等位基因比率与相应的预期等位基因比率之间的差异大小的总和高于阈值。在一些实施方案中，计算的等位基因比率与相应的预期等位基因比率之间的差异的大小低于阈值，所述比率指示第一同源染色体片段的拷贝数目没有过表达。在一些实施方案中，计算的等位基因比率(对存在于第一同源染色体上的等位基因的测量量)除以基因位点的所有等位基因的总测量量的平均值或加权平均值，高于预期的等位基因比率的平均值或加权平均值至少一个阈值。在一些实施方案中，计算的等位基因比率(对存在于第二同源染色体上的等位基因的测量量)除以基因位点的所有等位基因的总测量量的平均值或加权平均值，低于预期的等位基因比率的平均值或加权平均值至少一个阈值。在一些实施方案中，计算的等位基因比率和预测的等位基因比率之间的数据拟合，对于第一同源染色体片段上的拷贝数过表达的，低于阈值(指示良好的数据拟合)。在一些实施方案中，计算的等位基因比率和预测的等位基因比率之间的数据拟合，对于第一同源染色体片段上的拷贝数没有过表达的，高于阈值(指示差的数据拟合)。

在一些实施方案中，第一同源染色体片段的拷贝数的过表达被确定为不存在，如果一个或多个下述情况出现。在一些实施方案中，指示第一同源染色体片段的拷贝数过表达的计算的等位基因比率的数量低于阈值。在一些实施方案中，指示第一同源染色体片段的拷贝数没有过表达的计算的等位基因比率的数目高于阈值。在一些实施方案中，计算的等位基因比率(其指示第一同源染色体片段的拷贝数的过表达) 和相应的预期等位基因比率之间的差异大小低于阈值。在一些实施方案中，计算的等位基因比率(其指示第一同源染色体片段的拷贝数没有过表达)和相应的预期等位基因比率之间的差异大小高于阈值。在一些实施方案中，计算的等位基因比率(对存在于第一同源染色体上的等位基因的测量量)除以基因位点处的所有等位基因的总测量量的平均值或加权平均值，减去预期的等位基因比率的平均值或加权平均值，低于阈值。在一些实施方案中，预期的等位基因比率的平均值或加权平均值，减去计算的等位基因比率(对存在于第二同源染色体上的等位基因的测量量)除以基因位点处的所有等位基因的总测量量的平均值或加权平均值，低于阈值。在一些实施方案中，计算的等位基因比率和预测的等位基因比率之间的数据拟合，对于第一同源染色体片段上的拷贝数过表达的，高于阈值。在一些实施方案中，计算的等位基因比率和预测的等位基因比率之间的数据拟合，对于第一同源染色体片段上的拷贝数没有过表达的，低于阈值。在一些实施方案中，阈值被确定，来自于对已知具有感兴趣CNV的样本和/或已知缺乏 CNV的样本的实证检验。

在一些实施方案中，确定是否存在第一同源染色体片段的拷贝数的过表达，包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度。

一个示例性假说是不存在过表达，因为第一和第二同源染色体片段以相等的比例存在(例如二倍体样本中的每个片段的一个拷贝)。其他的示例性假说包括第一同源染色体片段被复制一次或多次(例如第一同源染色体的1，2，3，4，5或更多个额外拷贝，与第二同源染色体片段的拷贝数相比)。另一个示例性假说包括第二同源染色体区段的缺失。然而另一个示例性假说是第一和第二同源染色体片段的缺失。在一些实施方案中，预测的等位基因比率，对于在至少一个细胞中是杂合性的基因位点(例如胎儿中杂合性的和/或在母体中杂合性的位点)，被评估对于每个假说，考虑到那个假说指定的过表达的程度。在一些实施方案中，假说是正确的可能性被计算，通过比较计算的等位基因比率与预测的等位基因比率，并且具有最大可能性的假说被选择。

在一些实施方案中，一个检验统计量的期望分布被计算，利用预测等位基因比率，对于每个假说。在一些实施方案中，假说是正确的可能性被计算，通过比较检验统计量(利用计算的等位基因比率计算的)与检验统计量的预期分布(利用预测的等位基因比率计算的)，并且具有最大可能性的假说被选择。

在一些实施方案中，预测的等位基因比率，对于在至少一个细胞中是杂合性的基因位点(例如胎儿中杂合性的和/或在母体中杂合性的位点)，被评估，考虑到第一同源染色体片段的相位遗传数据，第一同源染色体片段的相位遗传数据，以及那个假说指定的过表达的程度。在一些实施方案中，假说是正确的可能性被计算，通过比较计算的等位基因比率与预测的等位基因比率，并且具有最大可能性的假说被选择。

使用混合样本

应当理解，对于许多实施方案，样本是一个具有DNA或RNA的混合样本，来自于一个或多个靶细胞以及一个或多个非靶细胞。在一些实施方案中，靶细胞是具有CNV的细胞，例如感兴趣的缺失或重复，非靶细胞是不具有感兴趣拷贝数变化的细胞(例如具有感兴趣缺失或重复的细胞以及不具有任何缺失或重复的被检细胞的一个混合)。在一些实施方案中，靶细胞是与疾病或障碍相关的或与疾病或障碍的增加风险相关的细胞(例如癌细胞)，非靶细胞是与疾病或病症无关的或与疾病或障碍的增加风险无关的细胞(例如非癌性细胞)。在一些实施方案中，靶细胞都具有相同的CNV。在一些实施方案中，两个或更多个靶细胞具有不同的CNV。在一些实施方案中，一个或多个靶细胞具有CNV、多态性、或突变(与疾病或障碍相关或与疾病或障碍的增加风险相关)，其在至少一个其他靶细胞中没有被发现。在一些这样的实施方案中，与疾病或障碍相关的或与疾病或障碍的增加风险相关的细胞在来自于样本的总细胞中的比例，被假定为大于或等于样本中这些CNVs、多态性或者突变的最常见的比例。例如如果6％的细胞具有K-ras突变，并且8％的细胞具有BRAF突变，至少8％的细胞被假定为癌性的。

在一些实施方案中，来自于一个或多个靶细胞的DNA(或RNA) 在样本总DNA(或RNA)中的比率被计算。在一些实施方案中，一组一个或多个假说(指定第一同源染色体片段的过表达的程度)被列举了。在一些实施方案中，预测的等位基因比率被评估，对于在至少一个细胞中是杂合性的基因位点(例如在胎儿中是杂合性的位点和/或在母本中是杂合性的位点)，考虑到DNA或RNA的计算的等位基因比率，以及由假说指定的过表达程度被评估，对于每个假说。在一些实施方案中，假说是正确的可能性被计算，通过比较计算的等位基因比率与预测的等位基因比率，并且具有最大可能性的假说被选择。

在一些实施方案中，一个检验统计量的预期分布，利用预测的等位基因比率和计算的DNA或RNA的比率所计算的，被进行评估，对于每个假说。在一些实施方案中，假说是正确的可能性被确定，通过比较检验统计量(利用计算的等位基因比率以及计算的DNA或RNA的比率进行计算的)和检验统计量的预期分布(利用预测的等位基因比率以及计算的DNA或RNA的比率进行计算的)，并且具有最大可能性的假说被选择。

在一些实施方案中，所述方法包括列举一组一个或多个假说，指定第一同源染色体片段的过表达的程度。在一些实施方案中，所述方法包括评估，对于每个假设，无论(i)预测的等位基因比率，对于在至少一个细胞中是杂合性的基因位点(例如在胎儿中是杂合性的位点和/或在母本中是杂合性的位点)，考虑到那个假说指定的过表达程度，或是(ii)对于一个或多个可能的DNA或RNA的比率，检验统计量的预期分布(利用预测的等位基因比率以及来自于一个或多个靶细胞 DNA或RNA在样本总DNA或RNA中的可能比率所计算的)。在一些实施方案中，数据拟合被计算，通过比较(i)计算的等位基因比率与预测的等位基因比率，或(ii)一个检验统计量(利用计算的等位基因比率以及DNA或RNA的可能比率进行计算的)，与检验统计量的预期分布(利用预测的等位基因比率以及DNA或RNA的可能比率进行计算的)。在一些实施方案中，一个或多个假说被排序，根据数据拟合，并且排序最高的假说被选择。在一些实施例中，一个技术或算法，例如一个搜索算法，被用于以下步骤中的一步或多步：计算数据拟合，对假设排序，或选择排序最高的假说。在一些实施方案中，数据拟合是对一个β-二项分布的拟合或对一个二项分布的拟合。在一些实施方案中，所述技术或算法选自于一组包括最大似然估计的、最大后验估计、贝叶斯估计、动态估计(例如动态贝叶斯估计)以及期望最大化估计的集合。在一些实施方案中，所述方法包括运用该技术或算法，在获得的遗传数据和期望的遗传数据中。

在一些实施方案中，所述方法包括创建一个可能比率的分区，其范围从一个下限到一个上限，对于来自于一个或多个靶细胞的 DNA或RNA在样本的总DNA或RNA中的比率。在一些实施方案中，一组一个或多个假说，指定第一同源染色体片段的过表达的程度的，被列举了。在一些实施方案中，所述方法包括评估，对于分区内的每个可能的DNA或RNA比率以及对于每个假说，无论(i) 预测的等位基因比率，对于在至少一个细胞中是杂合性的基因位点 (例如在胎儿中是杂合性的位点和/或在母本中是杂合性的位点)，考虑到可能的DNA或RNA的比率以及那个假说所指定的过表达程度，或(ii)一个检验统计量的预期分布，利用预测的等位基因比率以及可能的DNA或RNA的比率进行计算的。在一些实施方案中，所述方法包括计算，对于分区内的每个可能的DNA或RNA比率以及对于每个假说，假说是正确的可能性，通过比较(i)计算的等位基因比率与预测的等位基因比率，或(ii)一个检验统计量(利用计算的等位基因比率以及DNA或RNA的可能比率进行计算的)，与检验统计量的预期分布(利用预测的等位基因比率以及DNA或RNA的可能比率进行计算的)。在一些实施方案中，对于每个假说的组合概率被确定，通过组合在分区中的每个可能比率的假说的概率；并且具有最大结合概率的假说被选择。在一些实施例中，每个假说的组合概率被确定，通过加权一个假说(对于一个特定的可能比率的)的概率，基于该可能比率是正确比率的可能性。

在一些实施方案中，一种技术，选自于一组包括最大似然估计、最大后验估计、贝叶斯估计、动态估计(例如动态贝叶斯估计)以及期望最大化估计的集合，被用来估计来自于一个或多个靶细胞的DNA 或RNA在样本总DNA或RNA中的比率。在一些实施方案中，来自于一个或多个靶细胞的DNA或RNA在样本总DNA或RNA中的比率被假定为相同的，对于两个或更多个(或所有)感兴趣的CNV。在一些实施方案中，来自于一个或多个靶细胞的DNA或RNA在样本总 DNA或RNA中的比率被计算，对于每种感兴趣的CNV。

利用不完全的相位数据的示例性方法

应当理解，对于许多实施方案，不完全的相位数据被使用。例如，可能100％的确定不知道哪一个等位基因存在于第一和/或第二同源染色体片段的一个或多个位点上。在一些实施方案中，对个体的可能单倍型的先验被用于计算每一个假说的概率。用于个体的可能单倍型的先验(例如在基于单倍型频率的群体的单倍型基础上)用于计算每个假设的概率。在一些实施方案中，可能单倍型的先验被调整，通过使用另一种方法来相位遗传数据或通过使用来自于其他受试者(例如先验受试者)的相位数据来改进群体数据(被用于信息学)，基于个体的相位数据。

在一些实施方案中，所述相位遗传数据包括概率数据，对于两个或多个可能的相位遗传数据集合，其中每个可能的相位数据集合包括第一同源染色体片段上的多态性位点集合中的每个基因位点处存在的等位基因的可能的同一性，以及第二同源染色体片段上的多态性位点集合中的每个基因位点处存在的等位基因的可能的同一性。在一些实施方案中，至少一个假说的概率被确定，对于相位遗传数据的每个可能的集合来说。在一些实施方案中，假设的组合概率被确定，通过组合假说的概率，对于相位遗传数据的每一个可能的集合来说；并且具有最大组合概率的假说被选择。

本文公开的任何方法或任何已知方法可以被用来生成不完全的相位数据(例如利用基于单倍型频率的群体去推断最可能的相位)，用于所声明的方法中。在一些实施方案中，相位数据被获得，通过概率性地组合较小片段的单倍型。例如，可能的单倍型可以被确定，根据来自第一区域的一个单倍型以及来自于同一条染色体的另一个区域内的另一个单倍型的可能组合。来自于不同区域的特定单倍型的概率是相同的，同一染色体上的更大的单倍型区段可以被确定，利用，例如，基于单倍型频率的群体和/或不同区域间的已知的重组率。

在一些实施方案中，单一假说的排除测试被用于二倍性的无效假说。在一些实施方案中，二体性假说的概率被计算，并且二体性的假说被排除了，如果概率低于给定的阈值(例如小于千分之一)。如果无效假说被排除，这可能是由于不完全相位数据中的错误或由于一个 CNV的存在。在一些实施方案中，更准确的相位数据被获得(例如来自于本文公开的以获得实际相位数据的任何分子相位方法得到的相位数据，而不是基于生物信息学推断的相位数据)。在一些实施方案中，二体性假说的概率被重新计算，利用更精确的相位数据以确定是否二体假说仍然应该被排除。该假说的排除表明染色体片段的重复或缺失是存在的。如果需要，假阳性率可以被改变，通过调整阈值。

使用相位数据确定倍性的进一步的示例性实施方案

在说明性的实施方案中，这里提供了一种方法，用于确定一个染色体片段的倍性，在个体样本中。该方法包括以下步骤：

a.接收等位基因频率数据，包括样本中存在的每个等位基因的量，在染色体片段上的一组多态性基因位点中的每个基因位点处；

b.生成相位等位基因信息，对于一组多态性基因位点，通过评估等位基因频率数据的相位；

c.生成等位基因频率的个体概率，对于不同倍性状态下的多态性基因位点，利用等位基因频率数据；

d.生成一组多态性基因位点的联合概率，使用个体概率和相位等位基因信息；以及

e.选择，基于联合概率，一个最佳拟合模型指示染色体倍性，由此确定染色体片段的倍性。

如本文所公开的，等位基因频率数据(本文中也被称为测量的遗传等位基因数据)可以被生成，通过在本领域中已知的方法。例如，数据可以被生成，利用qPCR或微阵列。在一个说明性的实施方案中，数据被生成，利用核酸序列数据，特别是高通量核酸序列数据。

在某些说明性的例子中，等位基因频率数据被校正误差，在它被用于生成个体概率之前。在具体的说明性实施方案中，校正的误差包括等位基因扩增效率偏差。在其他实施方案中，校正的误差包括环境污染和基因型污染。在一些实施方案中，校正的误差包括等位基因扩增偏差，环境污染和基因型污染。

在某些实施方案中，个体概率被生成，利用一组模型，该模型有不同倍性状态和等位基因不平衡分数，对于一组多态性基因位点。在这些实施方案，和其他实施方案中，联合概率被产生，通过考虑染色体片段上多态性基因位点之间的连锁。

因此，在一个说明性的实施方案中(组合了这些实施方案中的一些的)，本文提供了一种方法，用于检测个体样本中的染色体倍性，其包括以下步骤：

a.接收等位基因的核酸序列数据，在个体染色体片段上的一组多态性基因位点处；

b.检测一组基因位点处的等位基因频率，利用所述核酸序列数据；

c.校正等位基因扩增效率偏差，在所检测的等位基因频率中，以产生校正的等位基因频率，对于一组多态性基因位点来说；

d.产生相位等位基因信息，对于一组多态性位点来说，通过估计所述核酸序列数据的相位；

e.生成等位基因频率的个体概率，对于不同倍性状态的多态性基因位点来说，通过比较校正的等位基因频率，与在一组多态性基因位点上有不同倍性状态和等位基因不平衡比例的一组模型；

f.生成联合概率，对于一组多态性基因位点来说，通过组合个体概率，考虑到染色体片段上多态性基因位点之间的连锁；以及

g.选择，基于所述联合概率，指示染色体非整倍性的最佳拟合模型。

正如本文所公开的，个体概率可以被生成，利用一组模型或假说，其有不同的倍性状态和平均等位基因不平衡分数，对于一组多态性基因座位点来说。例如，在一个特别的示例性的例子中，个体概率被生成，通过模拟染色体片段的第一同源物和染色体片段的第二同源物的倍性状态。被建模的倍性状态包括以下：

(1)所有的细胞都没有染色体片段的第一同源物或第二同源物的缺失或扩增；

(2)至少一些细胞具有染色体片段的第一同源物的缺失或第二同源物的扩增；和

(3)至少一些细胞具有染色体片段的第二同源物的缺失或第一同源物的扩增。

应当理解，上述模型也可以被称为用于约束模型的假说。因此，以上证明3个假设是可以被使用的。

建模的平均等位基因不平衡分数可以包括任何范围的平均等位基因不平衡，其包括染色体片段的实际平均等位基因不平衡。例如，在某些说明性的实施方案中，建模的平均等位基因不平衡的范围可以在 0、0.1、0.2、0.25、0.3、0.4、0.5、0.6、0.75、1、2、2.5、3、4以及5％的下限，和1、2、2.5、3、4、5、10、15、20、25、30、40、50、60、 70、80、90、95以及99％的上限之间。具有范围的建模的区间可以是任意区间，取决于使用的计算能力和允许用于分析的时间。例如，0.01、 0.05、0.02或0.1的区间可以被建模。

在某些说明性的实施方案中，样本具有染色体片段的平均等位基因不平衡介于0.4％至5％之间。在某些实施方案中，平均等位基因不平衡是低的。在这些实施方案中，平均等位基因不平衡通常小于10％。在某些示例性的实施方案中，等位基因不平衡介于0.25、0.3、0.4、0.5、0.6、 0.75、1、2、2.5、3，4以及5％的下限，和1、2、2.5、3、4以及5％的上限。在其它示例性的实施方案中，平均等位基因不平衡介于0.4、 0.45、0.5、0.6、0.7、0.8、0.9或1.0％的下限，和0.5、0.6、0.7、0.8、 0.9、1.0、1.5、2.0、3.0、4.0或5.0％的上限。例如，样本的平均等位基因不平衡，在一个说明性的例子中，介于0.45和2.5％之间。在另一个例子中，平均等位基因不平衡被检测，以0.45、0.5、0.6、0.8、0.8、0.9 或1.0的灵敏度。在本发明方法中的一个具有低等位基因不平衡的示例性样本中，包括来自于具有循环肿瘤DNA的癌症个体的血浆样本，或来自于具有循环胎儿DNA的怀孕女性的血浆样本。

应当理解，对于SNV，异常DNA的比例被测量，利用突变等位基因频率(基因位点处的突变等位基因数/该基因位点处的等位基因总数)。由于在肿瘤中两个同源物的量之间的差异是类似的，我们测量异常DNA的比例，对于一个CNV来说，通过平均等位基因不平衡(AAI)，定义为|(H1-H2)|/(H1+H2)，其中Hi是样本中同源物i的平均拷贝数，Hi/(H1+H2)是丰度分数，或同源物i的同源率。最大同源率是更丰富的同源物的同源率。

测定漏码率是没有读数的单核苷酸多态性(SNP)的百分比，利用所有的SNP进行估计。单等位基因缺失(ADO)率是仅存在一个等位基因的SNP的百分比，

仅仅利用杂合性的SNP进行估计。基因型的置信度可以被确定，通过拟合一个二项分布到每个SNP处的读数数目(其为B-等位基因读数)，并利用SNP的聚焦区域的倍性状态去估计每个基因型的概率。

对于肿瘤组织样本，染色体的非整倍性(在本段被举例说明，通过CNV)可以被划定，通过等位基因频率分布之间的转换。在血浆样本中，CNV可以被鉴定，通过一个最大似然算法，该算法搜索区域内的血浆CNV，在此区域内肿瘤样本来自于也具有CNV的同一个个体。该算法可以模拟期望等位基因频率，跨越0.025％区间的所有的等位基因不平衡率，对于三组假说：(1)所有的细胞是正常的(无等位基因不平衡)，(2)一些/所有细胞具有同源物1缺失或同源物2扩增，或(3) 一些/所有细胞具有同源物2缺失或同源物1扩增。每个假说的可能性可以被确定，在每一个SNP处，利用一个贝叶斯分类器(基于在所有杂合性SNP处的预期的和观察到的等位基因频率的β二项模型)，然后多个SNP之间的联合可能性可以被计算，在某些说明性的实施方案中考虑SNP基因位点的连锁，如本文所示。最大似然假说然后可以被选择。

考虑一个染色体区域(其在肿瘤中具有平均N拷贝)，并且令c 表示血浆中的DNA分数，取自于正常的以及肿瘤细胞的混合，在一个二体性的区域内。AAI被计算如下：

在某些说明性的例子中，等位基因频率数据被校正误差，在它被用于生成个体概率之前。不同类型的误差和/或偏差校正在本文中被公开。在具体的说明性的实施方案中，校正的误差是等位基因扩增效率偏差。在其他实施方案中，校正的误差包括环境污染和基因型污染。在一些实施方案中，校正的误差包括等位基因扩增偏差，环境污染和基因型污染。

应当理解，等位基因扩增效率偏差可以被确定，对于一个等位基因来说，作为一个实验或实验室检测(包括对测试样本)的一部分，或者它可以在一个不同的时间被确定，利用一组样本(包括效率正在被计算的等位基因)。环境污染和基因型污染通常被确定，在与测试样本进行分析的相同运行中。

在某些实施方案中，环境污染和基因型污染被确定，对于样本中的纯合性的等位基因来说。应当理解，对于来自个体的任何给定样本，样本中的一些基因位点将是杂合性的，其它的基因位点将是纯合性的，即使一个基因位点被选择用来分析，因为其在群体中具有相对高的杂合度。它是有利的，在一些实施方案中，尽管一个染色体片段的倍性可能是被确定的，通过个体的杂合性基因位点，纯合性基因位点可以被用来计算环境和基因型污染。

在某些说明性的例子中，选择被进行，通过分析相位等位基因信息和估计的等位基因频率(为模型产生的)之间的差异的大小。

在说明性的例子中，等位基因频率的个体概率被生成，基于一个β二项模型(在这组多态性基因位点处的预期的和观察到的等位基因频率的)。在说明性的例子中，个体概率被生成，利用贝叶斯分类器。

在某些说明性的实施方案中，核酸序列数据被生成，通过进行高通量DNA测序，对一系列扩增子的多个拷贝(使用多重扩增反应产生的)，其中该一系列扩增子中的每个扩增子跨越至少一个多态性基因位点(该多态性基因位点集合中的)，并且其中所述集合中的每个聚合基因位点都是被扩增了的。在某些实施方案中，多重扩增反应被进行了 (在限制性引物条件下)至少12个反应。在一些实施方案中，限制性引物浓度被用于多重反应的1/10、1/5、1/4、1/3、1/2、或所有的反应中。

本文提供的是考虑在扩增反应例如PCR中实现限制性引物条件的因素。

在某些实施方案中，本文提供的方法检测倍性，对于跨越了多条染色体上的多个染色体片段。因此，染色体倍性在这些实施方案中被确定，对于样本中的一组染色体片段。对于这些实施方案，更高的多重扩增反应是被需要的。因此，对于这些实施方案，多重扩增反应可包括，例如2,500 至50,000个多重反应。在某些实施方案中，以下范围的多重反应被进行：介于100、200、250、500、1000、2500、5000，10,000、20,000、25000、 50000之间在范围的下限，以及介于200、250、500、1000、2500、5000、 10,000、20,000、25000、50000和100,000之间在范围的上限。

在说明性的实施方案中，多态性基因位点集合是已知的显示高杂合性的一组基因位点。然而，它是预期的对于任何给定的个体，这些基因位点中的一些将是纯合性的。在某些说明性的实施方案中，本发明的方法利用核酸序列信息，对于一个个体的纯合性和杂合性的基因位点。一个个体的纯合性基因位点被使用，例如，用于误差校正，而杂合性基因位点被用于确定样本的等位基因不平衡。在某些实施方案中，至少10％的多态性基因位点是杂合性的基因位点，对于个体来说。

正如本文所公开的，偏好性被给出，用于分析已知在群体中是杂合性的目标SNP基因位点。因此，在某些实施方案中，多态性基因位点被选择，其中至少10、20、25、50、75、80、90、95、99或100％的多态性基因位点已知是杂合性的，在群体中。

正如本文所公开的，在某些实施方案中，样本是来自于一个怀孕女性的血浆样本。

在一些例子中，所述方法进一步包括执行所述方法，在一个有着已知平均等位基因不平衡比率的对照样本上。对照可以具有一个平均等位基因不平衡比率，对于一个特定的等位基因状态，指示染色体片段的非整倍性，其为0.4至10％之间，以模拟样本中一个等位基因(以低浓度存在的)的平均等位基因不平衡，例如对于一个来自于胎儿或来自于肿瘤中的循环游离DNA所预期的。

在一些实施方案中，PlasmArt对照，正如本文所公开的，被用作对照。因此，在某些方面，对照是一个样本，通过一种方法产生，该方法包括将已知的表现出染色体非整倍性的核酸样本裂解成片段，模拟在个体血浆中循环的DNA片段的大小。在某些方面，对照被使用，那个对照是没有非整倍体的染色体片段。

在说明性的实施方案中，来自于一个或多个对照的数据可以在所述方法中被分析，连同一个测试样本。例如，对照可以包括一个不同的样本，其来自于不被怀疑含有染色体非整倍体的个体，或者一个被怀疑含有CNV或染色体非整倍性的样本。例如，当测试样本是怀疑含有循环游离肿瘤DNA的血浆样本时，所述方法也可以被使用，对于一个来自于受试者的肿瘤的对照样本，连同其血浆样本。正如本文所公开的，对照样本可以被制备，通过裂解已知表现出染色体非整倍体的 DNA样本。这种裂解可以产生DNA样本，模拟一个凋亡细胞的DNA 组成，特别是当样本来自于患有癌症的个体时。来自于对照样本的数据将增加染色体非整倍体的检测的置信度。

在确定倍性的方法的某些实施方案中，样本是来自于一个被怀疑患有癌症的个体的血浆样本。在这些实施方案中，所述方法进一步包括确定，基于选择，是否拷贝数变化是存在的，在个体的肿瘤细胞中。对于这些实施方案，样本可以是来自于个体的血浆样本。对于这些实施方案，所述方法可以进一步包括确定，基于所述选择，是否癌症是存在的，在所述个体中。

用于确定染色体片段的倍性的这些实施方法，可以进一步包括检测一个单核苷酸变异，在一组单核苷酸变异位点集合中的一个单核苷酸变异位点上，其中检测到染色体非整倍体或单核苷酸变体或两者，表明样本中循环肿瘤核酸的存在。

这些实施方案可以进一步包括接收个体肿瘤的染色体片段的单倍型信息，并且利用所述单倍型信息去产生所述模型集合，这些模型具有不同的倍性状态和多态性基因位点集合处的等位基因不平衡比率。

正如本文所公开的，确定倍性的方法的某些实施方案可以进一步包括去除异常值，从初始或校正的等位基因频率数据中，在比较初始或校正的等位基因频率与该组模型之前。例如，在某些实施方案中，等位基因频率，其至少2或3个标准偏差高于或低于染色体片段上其它基因位点平均值的基因位点，从数据中被去除，

在用于建模之前。

正如本文所提到的，应当理解，对于本文提供的许多实施方案，包括那些用于确定染色体片段的倍性的，不完全或完全的相位数据被优选使用。还应当理解，本文提供的是一些特征，其提供了对于用于检测倍性的现有方法的改进，并且这些特征的许多不同的组合可以被使用。

在某些实施方案中，如图69-70所示，本文提供的是计算机系统和计算机可读介质，去执行本发明的任何方法。这些包括系统和计算机可读介质，用于执行确定倍性的方法。因此，作为系统实施方案的非限制性例子，去证明本文提供的任何方法都可以被执行，利用本文公开的系统和计算机可读介质，在另一方面，本文提供的是一种系统，用于检测染色体倍性，在一个个体样本中，所述系统包括：

a.一个输入处理器，其被配置为接收等位基因频率数据，包括样本中存在的每个等位基因的量，在染色体片段上的一组多态性基因位点中的每一个基因位点处；

b.一个建模器，被配置为：

i.生成相位等位基因信息，对于多态性基因位点的集合，通过估计等位基因频率数据的相位；和

ii.生成等位基因频率的个体概率，对于不同倍性状态下的多态性基因位点，利用所述等位基因频率数据；和

iii.生成联合概率，对于多态性基因位点集合，利用所述个体概率以及所述相位等位基因信息；和

c.一个假说管理器被配置用以选择，基于所述联合概率，一个指示染色体倍性的最佳拟合模型，从而确定染色体片段的倍性。

在该系统实施方案的某些实施方案中，等位基因频率数据是由核酸测序系统产生的数据。在某些实施方案中，所述系统进一步包括一个误差校正单元，其被配置去校正等位基因频率数据中的错误，其中所述校正的等位基因频率数据被建模器用来生成个体概率。在某些实施方案中，误差校正单元连接等位基因扩增效率偏差。在某些实施方案中，建模器生成个体概率，利用一组在多态基因位点上具有不同倍性状态和等位基因不平衡比率的模型。建模器，在某些说明性的实施方案中，生成联合概率，通过考虑染色体片段上多态性基因位点之间的连锁。

在一个说明性的实施方案中，本文提供的是一个系统，用于检测个体样本中染色体的倍性，其包括以下：

a.一个输入处理器，其被配置为接收等位基因的核酸序列数据，在个体染色体片段上的一组多态性基因位点处，并在该组基因位点中检测等位基因频率，利用所述核酸序列数据；

b.一个纠错单元，被配置以校正误差，在所检测的等位基因频率中，并且生成校正的等位基因频率，对于一组多态性基因位点；

c.一个建模器，其被配置为：

i.生成相位等位基因信息，对于多态性基因位点的集合，通过估计所述核酸序列数据的相位；和

ii.生成等位基因频率的个体概率，对于不同倍性状态下的多态性基因位点，通过比较所述相位等位基因信息与一组在多态性基因位点集合处具有不同倍性状态和等位基因不平衡比率的模型集合；和

iii.生成联合概率，对于多态性基因位点集合，通过组合个体概率(考虑染色体片段上多态性基因位点之间的相对距离)；和

d.一个假说管理器被配置用以选择，基于所述联合概率，一个指示染色体非整倍性的最佳拟合模型。

在本文提供的某些示例性系统实施方案中，多态性基因位点集合包括 1000至50,000个多态性基因位点。在本文提供的某些示例性系统实施方案中，多态性基因位点集合包括100个已知的杂合性热点基因位点。在本文提供的某些示例性系统实施方案中，多态性基因位点集合包括100个基因位点，其在重组热点的0.5kb处或之内。

在本文提供的某些示例性系统实施方案中，最佳拟合模型分析了以下倍性状态，对染色体片段的第一同源物和染色体片段的第二同源物：

(1)所有细胞都没有染色体片段的第一同源物或第二同源物的缺失或扩增；

(2)一些或所有细胞具有染色体片段的第一同源物的缺失或第二同源物的扩增；和

(3)一些或所有细胞具有染色体片段的第二同源物的缺失或第一同源物的扩增。

在本文提供的某些示例性系统实施方案中，校正的误差包括等位基因扩增效率偏差、污染、和/或测序误差。在本文提供的某些示例性系统实施方案中，污染包括环境污染和基因型污染。在本文提供的某些示例性系统实施方案中，环境污染和基因型污染被确定，对于纯合性等位基因。

在本文提供的某些示例性系统实施方案中，假说管理器被配置去分析相位等位基因信息和为模型产生的估计等位基因频率之间的差异的大小。在本文提供的某些示例性系统实施方案中，建模器生成等位基因频率的个体概率，基于预期和观察到的等位基因频率的一个β二项式模型，在多态性基因位点集合处。在本文提供的某些示例性系统实施例中，建模器生成个体概率，利用一个贝叶斯分类器。

在本文提供的某些示例性系统实施方案中，核酸序列数据被生成，通过执行高通量DNA测序，对使用多重扩增反应所产生的一系列扩增子的多个拷贝，其中该系列扩增子中的每个扩增子跨越了所述多态性基因位点集合中的至少一个多态性基因位点，并且其中所述集合的每个聚合基因位点都被扩增。在本文提供的某些示例性系统实施方案中，其中多重扩增反应进行了(在限制性引物条件下)至少12个反应。在本文提供的某些示例性系统实施方案中，其中样本具有一个平均等位基因不平衡在0.4％至5％之间。

在本文提供的某些示例性系统实施方案中，样本是来自于怀疑患有癌症的个体的血浆样本，并且所述假说管理器进一步被配置去确定，基于最佳拟合模型，是否拷贝数变化是存在的，在所述个体的一个肿瘤的细胞中。

在本文提供的某些示例性系统实施方案中，样本是来自于个体的血浆样本，并且所述假说管理器进一步被配置去确定，基于最佳拟合模型，癌症是存在于个体中的。在这些实施方案中，所述假说管理器可以进一步被配置去检测一个单核苷酸变异，在单核苷酸变异位点集合中的一个单核苷酸变异位点处，其中检测到一条染色体非整倍体或单核苷酸变异或两者，指示样本中循环肿瘤核酸的存在。

在本文提供的某些示例性系统实施方案中，所述输入处理器进一步被配置去接收个体肿瘤的染色体片段的单倍型信息，并且所述建模器被配置去利用所述单倍型信息来产生模型集合，其在多态性基因位点集合处具有不同的倍性状态和等位基因不平衡比率。

在本文提供的某些示例性系统实施方案中，建模器生成模型，在等位基因不平衡比率范围从0％到25％之间。

应当理解，本文提供的任何方法可以通过计算机可读代码被执行，其被存储在非临时性的计算机可读介质上。因此，在一个实施方案中，本文提供的是一种非临时性计算机可读介质，用于检测个体样本中的染色体倍性，包括计算机可读代码，当被一个处理装置执行时，使得处理装置：

a.接收等位基因频率数据，包括样本中存在的每个等位基因的量，在所述染色体片段上一组多态性基因位点中的每个基因位点处；

b.生成相位等位基因信息，对于一组多态性基因位点，通过估计等位基因频率数据；

c.生成等位基因频率的个体概率，对于不同倍性状态下的多态性基因位点，利用所述等位基因频率数据；

d.生成联合概率，对于一组多态性基因位点，利用所述个体概率以及所述相位等位基因信息；和

e.选择，基于所述联合概率，一个最佳拟合模型，指示染色体倍性，从而确定染色体片段的倍性。

在某些计算机可读介质的实施方案中，等位基因频率数据被生成，从核酸序列数据中。某些计算机可读介质的实施方案进一步包括校正误差，在等位基因频率数据中，并且利用所述校正的等位基因频率数据来生成个体概率步骤。在某些计算机可读介质的实施方案中，校正的误差是等位基因扩增效率偏差。在某些计算机可读介质的实施方案中，个体概率被生成，利用一组在多态性基因位点集合处具有不同倍性状态和等位基因不平衡比率的模型。在某些计算机可读介质的实施方案中，联合概率被生成，通过考虑染色体片段上多态性基因位点之间的连锁。

在一个特定的实施方案中，本文提供的是一个非临时性的计算机可读介质，用于检测个体样本中的染色体倍性，包括计算机可读代码，当被一个处理装置执行时，使得处理装置：

a.接收等位基因的核酸序列数据，在所述个体的染色体片段上的一组多态性基因位点处；

b.检测等位基因频率，在所述的基因位点集合处，利用所述的核酸序列数据；

c.校正等位基因扩增效率偏差，在所检测的等位基因频率中，以产生校正的等位基因频率，对于所述多态性基因位点集合；

d.生成相位等位基因信息，对于所述的多态性基因位点集合，通过估计核酸序列数据的相位；

e.生成等位基因频率的个体概率，对于不同倍性状态下的多态性基因位点，通过比较校正的等位基因频率与一组在多态性基因位点集合处具有不同倍性状态和等位基因不平衡比率的模型；

f.生成联合概率，对于所述的多态性基因位点的集合，通过组合所述个体概率，考虑到所述染色体片段上的多态性基因位点之间的连锁；和

g.选择，基于所述联合概率，最佳拟合模型，指示染色体的非整倍体。

在某些说明性的计算机可读介质的实施方案中，选择被进行了，通过分析相位等位基因信息和估计的等位基因频率(针对模型所产生的)之间的差异的大小。

在某些说明性的计算机可读介质的实施方案中，等位基因频率的个体概率被生成，基于一个预期的和观察到的等位基因频率的β二项式模型，在多态性基因位点的集合处。

应当理解，本文提供的任何的方法的实施方案都可以被执行，通过执行存储在非临时性的计算机可读介质上的代码。

用于检测癌症的示例性的实施方案

在某些方面，本发明提供了一种方法，用于检测癌症。样本，将被理解为一个肿瘤样本或液体样本，例如血浆，来自于怀疑患有癌症的个体。所述方法是特别有效的，在检测遗传突变例如单核苷酸改变 (例如SNV)，或拷贝数改变(例如CNV)，在这些遗传改变以低水平存在的样本中，其作为样本总DNA的一部分。因此，检测样本中癌症的DNA或RNA的灵敏度是特殊的。所述方法可以组合本文提供的任何或所有的改进，用于检测CNV和SNV以实现这种特殊的灵敏度。

因此，在本文提供的某些实施方案，是一种方法，用于确定是否循环肿瘤核酸存在于个体样本中，以及一个非临时性的计算机可读介质包括计算机可读代码，当由处理设备执行时，当被一个处理装置执行时。所述方法包括以下步骤：

c.分析所述样本以确定倍性，在所述个体染色体片段上的一组多态性基因位点处；和

d.确定存在于多态性基因位点处的平均等位基因不平衡的水平，基于倍性测定，其中平均等位基因不平衡等于或大于0.4％、 0.45％、0.5％、0.6％、0.7％、0.75％、0.8％、0.9％、或1％表示存在循环肿瘤核酸，例如ctDNA，在样本中。

在某些说明性的例子中，一个平均等位基因不平衡大于0.4、0.45、或0.5％指示ctDNA的存在。在某些实施方案中，所述方法用于确定是否循环肿瘤核酸是存在的，进一步包括检测单核苷酸变异，在单核苷酸变异位点集合中的一个单核苷酸变异位点处，其中检测到一旦一个等位基因不平衡等于或大于0.5，或检测到单核苷酸变异或两者，指示样本中循环肿瘤核酸的存在。应当理解，提供的用于检测染色体倍性或CNV的任何方法可被用于确定等位基因不平衡的水平，通常表示为平均等位基因不平衡。应当理解，本文提供的用于检测SNV的任何方法可以被用于检测单个核苷酸(本发明的这个方面的)。

在某些实施方案中，用于确定是否循环肿瘤核酸存在的方法，进一步包括进行所述方法，在一个具有已知平均等位基因不平衡比率的对照样本上。对照，例如，可以是来自于个体肿瘤的样本。在一些实施方案中，对照具有一个预期的平均等位基因不平衡，对于所述分析样本。例如，AAI在0.5％和5％之间或平均等位基因不平衡比率为 0.5％。

在某些实施方案中，用于确定是否循环肿瘤核酸存在的方法中的分析步骤，包括分析一组已知在癌症中显示为非整倍体的染色体片段。在某些实施方案中，用于确定是否循环肿瘤核酸存在的方法中的分析步骤，包括分析倍数为1,000至50,000或100至1000之间的多态性基因位点。在某些实施方案中，用于确定是否循环肿瘤核酸存在的方法中的分析步骤，包括分析100到1000个之间的单核苷酸变异位点。例如，在这些实施方案中，分析步骤可以包括进行一个多重PCR以扩增跨越了1000至50,000个聚合位点和100至1000个单核苷酸变异位点的扩增子。所述多重反应可以被设置为单个反应或作为不同子集的多重反应库。本文提供的多重反应方法，例如本文公开的大规模多重PCR，提供了一种示例性过程，用于进行扩增反应以帮助实现改进的复用以及因此，灵敏度水平。

在某些实施方案中，多重PCR反应被进行了(在限制性引物条件下)至少10％、20％、25％、50％、75％、90％、95％、98％、99％、或100％的反应。改进的条件(用于进行本文提供的大规模多重反应的)可以被使用。

在某些方面，用于确定是否循环肿瘤核酸存在于个体样本中的上述方法，及其所有的实施方案，可以被用一个系统进行。本公开提供了指导，关于执行该方法的具体功能和结构特征。作为一个非限制性例子，所述系统包括以下：

a.一个输入处理器，被配置去分析来自于所述样本的数据，以确定所述个体中染色体片段上的一组多态性基因位点的倍性；和

b.一个建模器，被配置去确定(在多态性基因位点处的)等位基因不平衡的水平，基于倍性测定，其中等位基因不平衡等于或大于 0.5％表示循环的存在。

用于检测单核苷酸变异的示例性的实施方案

在某些方面，本文提供的是方法，用于检测样本中的单核苷酸变异。本文提供的改进方法可以达到检测限为0.015、0.017、0.02、0.05、0.1、 0.2、0.3、0.4或0.5％SNV，在样本中。所有用于检测SNV的实施方案，可以被用一个系统进行。本公开提供了指导，关于执行该方法的具体功能和结构特征。此外，本文提供的是一些实施方案，其包括一个非临时性的计算机可读介质(包括计算机可读代码的)，当其被一个处理装置执行时，使得处理装置去执行所述方法，以检测本文提供的SNV。

因此，在一个实施方案中，本文提供的是一种方法，用于确定是否单个核苷酸变异存在于个体样本中的一组基因组位置上，所述方法包括：

a.对于每个基因组位置，生成一个效率估计和每循环误差率，对于一个跨越所述基因组位置的扩增子来说，利用训练数据集；

b.接收观察到的核苷酸同一性信息，对于所述样本中的每个基因组位置；

c.确定一组单核苷酸变异率的概率，从来自于每个基因组位置处的一个或多个真实突变中，通过独立地比较在每个基因组位置处观察到的核苷酸同一性信息和一个不同变异率的模型，利用估计的扩增效率以及每循环误差率，对于每个基因组位置；和

d.确定最可能的真实变异率以及置信度，从每个基因组位置处的概率集合中。

在用于确定是否单核苷酸变异存在的方法的说明性的实施方案中，效率以及每循环错误率的估计被生成，对于一组跨越了基因组位置的扩增子。例如，2、3、4、5、10、15、20、25、50、100或更多个跨越了基因组位置的扩增子可以被包括。

在用于确定是否单核苷酸变异存在的方法的说明性的实施方案中，观察到的核苷酸同一性信息包括观察到的总读数数目(对于每个基因组位置来说)以及观察到的变异等位基因读取数目(对于每个基因组位置来说)。

在用于确定是否单核苷酸变体存在的方法的说明性的实施方案中，样本是血浆样本，单核苷酸变异存在于样本的循环肿瘤DNA中。

在另一个实施方案中，本文提供的是一种方法，用于估计来自个于个体的样本中存在的单核苷酸变异的百分比。所述方法包括以下步骤：

a.在一组基因组位置上，生成跨越那些基因组位置的一个或多个扩增子的效率估计和每个循环错误率，利用训练数据集；

c.生成估计的平均值和方差，对于分子的总数、背景误差分子以及真实突变分子，对于一个搜索空间来说，其包括真实突变分子的初始百分比，利用扩增子的扩增效率和每循环错误率；和

d.确定单核苷酸变异出现在样本中的百分比(来自于真实突变的)，通过确定一个最可能的真实单核苷酸变异的百分比(通过拟合样本中观察到的核苷酸同一性信息的估计平均值以及方差的分布来确定的)。

在所述方法(用于估计样本中存在的单核苷酸变体的百分比)的说明性的例子中，样本是血浆样本，单核苷酸变异存在于样本的循环肿瘤DNA中。

本发明的该实施方案的训练数据集通常包括来自于一个或优选的一组健康个体的样本。在某些说明性的实施方案中，所述训练数据集被分析，在与一个或多个测试样本相同的日子或甚至相同的运行中。例如，来自于2、3、4、5、10、15、20、25、30、36、48、96、100、192、200、250、500、1000或更多健康个体的样本可以被用来生成训练数据集。当数据可用于更大数量的健康个体时，例如96或更多时，对于放大效率估计的置信度增加，即使在执行测试样本的方法之前执行运行。PCR错误率可以利用核酸序列信息(不仅针对于SNV基本位置而且针对SNV周围的整个扩增区所产生的)，因为错误率是每个扩增子的。例如，使用来自于50个个体的样本并对SNV周围20个碱基对的扩增子进行测序，来自于1000个碱基读数的误差频率数据可被用于确定误差频率。

通常，扩增效率被估计，通过估计平均值和标准偏差，对于一个扩增片段的扩增效率来说，然后将其拟合到一个分布模型，例如一个二项分布或一个β二项分布。误差率被确定，对于一个具有已知循环数的PCR反应来说，然后每循环的错误率被估计。

在某些说明性的实施方案中，估计测试数据集的起始分子进一步包括更新测试数据集的效率的估计，利用在步骤(b)中估计的起始分子数，如果观察到的读取数目显著不同于估计的读数数目。然后，估计可以被更新，对于一个新的效率和/或起始分子。

被用于估计分子、背景误差分子和真实突变分子的总数的搜索空间，可以包括一个从0.1％、0.2％、0.25％、0.5％、1％、2.5％、5％、 10％、15％、20％或25％的下限以及1％、2％、2.5％、5％、10％、 12.5％、15％、20％、25％、50％、75％、90％或95％的上限的碱基拷贝数的搜索空间，在一个SNV位置处作为SNV碱基。更低的范围， 0.1％、0.2％、0.25％、0.5％或1％的下限以及1％、2％、2.5％、5％、 10％、12.5％或15％的上限，是可以被用于血浆样本的说明性的实施例子，其中所述方法是检测循环肿瘤DNA。更高的范围被用于肿瘤样本。

一个分布被拟合到总分子中的总误差分子(背景误差和真实突变) 数目，以计算似然性或概率，对于搜索空间中的每个可能的真实突变。这个分布可以是一个二项分布或一个β二项分布。

最可能的真实突变被确定，通过确定最可能的真实突变百分比以及计算置信度，利用来自于拟合分布的数据。作为一个说明性的例子，并且不旨在限制临床解释的本文提供的方法，如果平均突变率高，则一个SNV的百分比置信度(需要作出阳性检测的)低。例如，如果样本中一个SNV的平均突变率(使用最可能假说)为5％，百分比置信度为99％，那么一个阳性SNV的结果会被产生。另一方面，对于该说明性的例子，如果样本中一个SNV的平均突变率(使用最可能假说) 为1％，百分比置信度为50％，那么在某些情况下一个阳性的SNV结果将不会被产生。应当理解，数据的临床解释将是一个函数，关于灵敏度、特异性、流行率以及替代产品可用性的。

在一个说明性的实施方案中，样本是循环DNA样本，例如一个循环肿瘤DNA样本。

在另一个实施方案中，本文提供的是一种方法，用于检测来自于个体测试样本中的一个或多个单核苷酸变异。根据本实施方案的方法，包括以下步骤：

d.确定一个中值变异等位基因频率，对来自于多个正常个体中的每个正常个体的多个正常对照样本，对于单核苷酸变异位置集合中的每个单核苷酸变异位置，基于测序运行中产生的结果，以确定选择的单核苷酸变异位置具有在正常样本中具有低于阈值的变体中值等位基因频率，以及去确定背景误差，对于每个单核苷酸变异位置(在去除每个单核苷酸变体位置的异常值样本之后的)；

e.确定一个观察到的读取加权平均值和方差的深度，对于测试样本的所选择的单核苷酸变体位置，基于对测试样本的测序运行中所产生的数据；和

f.使用一个计算机鉴定一个或多个单核苷酸变异位置(具有统计学显着的读取加权平均深度的，与所述位置的背景误差相比)，从而检测一个或多个单核苷酸变异。

在用于检测一个或多个SNV的这种方法的某些实施方案中，样本是血浆样本，对照样本是血浆样本，检测到的一个或多个单核苷酸变异存在于样本的循环肿瘤DNA中。在用于检测一个或多个SNV的这种方法的某些实施方案中，多个对照样本包括至少25个样本。在某些说明性的实施方案中，多个对照样本为至少5、10、15、20、25、50、 75、100、200或250个样本的下限，以及10、15、20、25、50、75、 100、200、250、500和1000个样本的上限。

在用于检测一个或多个SNV的这种方法的某些实施方案中，异常值被除去，从在高通量测序运行中产生的数据中，以计算观察到的读取加权平均深度，以及观察到的方差被确定。在用于检测一个或多个 SNV的这种方法的某些实施方案中，测试样本的每个单核苷酸变异位置的读取深度为至少100个读数。

在用于检测一个或多个SNV的这种方法的某些实施方案中，测序运行包括一个多重扩增反应(在限制性引物反应条件下进行的)。本文提供的用于进行多重扩增反应的改进方法，被用于执行这些实施方案，在说明性的实施例子中。

不受理论的限制，本实施方案的方法利用一个背景误差模型(利用正常的血浆样本，在与测试样本相同的测序运行上进行测序的)，以解决运行特异性误差。具有正常中值变异等位基因频率的噪声位置高于阈值，例如>0.1％，0.2％，0.25％，0.5％，0.75％和1.0％的，被去除。

异常值样本被迭代地移除，从考虑噪声和污染的模型中。对于每个基因组座位的每个碱基替换，读取加权平均值的深度和误差的标准偏差被计算。在某些说明性的实施方案中，样本，例如肿瘤或细胞游离血浆样本，在单核苷酸变异位置处具有至少一个阈值读数数目，例如，至少2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、 500或1000个变异读数的，以及a1Z值大于2.5、5、7.5或10的(针对于某些实施方案中的背景误差模型)，被算作一个候选突变。

在某些实施方案中，读数深度大于100、250、500、1,000、2000、 2500、5000、10,000、20,000、25,0000、50,000或100,000(在下限范围内)的以及2000、2500、5,000、7,500、10,000、25,000、50, 000、100,000、250,000或500,000的读数(在上限处)，是在测序运行中获得的，对于一组单核苷酸变异位置集合中的每个单核苷酸变体位置来说。通常，测序运行是高通量测序运行。对于测试样本生成的平均值或中值，在示例性的实施方案中被加权，通过读数深度。因此，一个变异等位基因测定是真实的(在1000次读取中检测到具有1个变体等位基因的样本)的可能性，高于在10,000次读取中检测到具有1个变体等位基因的样本。由于一个变异等位基因(例如突变)的确定不是100％可信的，所鉴定的单核苷酸变异可以被认为是一个候选变异或候选突变。

用于相位数据分析的示例性检验统计

一个示例性的检验统计被描述如下，用于分析来自于下述样本的相位数据，该样本

是已知或怀疑含有源自于两个或更多个非遗传相同的细胞的 DNA或RNA的混合样本。令f表示感兴趣的DNA或RNA分数，例如具有一个感兴趣CNV的DNA或RNA分数，或来自于感兴趣细胞 (例如癌细胞)的DNA或RNA分数。在用于产前检测的一些实施方案中，f表示胎儿DNA、RNA或细胞(在胎儿和母体DNA、RNA或细胞混合物中的)分数。注意，这是指来自于感兴趣细胞的DNA分数，假定DNA的两个拷贝被每个感兴趣的细胞所给出。这不同于来自于感兴趣细胞在被缺失或重复片段处的DNA分数。

每个SNP的可能的等位基因值被表示为A和B。AA、AB、BA和 BB被用于表示所有可能的有序等位基因对。在一些实施方案中，具有有序等位基因AB或BA的SNP被分析。让Ni表示第i个SNP的序列读数，Ai和Bi分别表示指示等位基因A和B的第i个SNP的读数。假设：

Ni＝Ai+Bi

等位基因比率Ri被定义为：

让T表示目标SNP的数量。

不失一般性，一些实施方案聚焦于一个单一的染色体片段。为了进一步清楚起见，在本说明书中短语“与第二同源染色体片段相比的第一同源染色体片段”指染色体片段的第一同源物和染色体片段的第二同源物。在一些这样的实施方案中，所有的目标SNP都包含在感兴趣的片段染色体中。在其他实施方案中，多个染色体片段被分析了可能的拷贝数变化。

MAP(遗传映射)估计

该方法利用相位的知识通过有序的等位基因，去检测目标片段的缺失或重复。对于每个SNP i，定义

然后定义

Xi和S的分布，在各种拷贝数假说(例如二体假说，第一或第二同源物的缺失假说，或第一或第二同源物的重复假说)下被描述如下。

二体假说

在目标片段未被缺失或复制的假说下，

其中，

如果我们假设一个不变的读数深度N，这给了我们一个二项分布S，带有参数

和T.

缺失假说

在第一同源物缺失(例如，AB SNP变为B，BA SNP变为A)的假说下，则R i具有二项分布，含有参数

和T用于AB SNP，以及

和 T用于BA SNP。因此，

如果我们假设一个不变的读数深度N，这给出了一个二项分布S，带有参数

和T.

在第二同源物缺失(例如，AB SNP变为A，BA SNP变为B)的假说下，则R i具有一个二项分布，含有参数

和T用于AB SNP，以及

和T用于BA SNP。因此，

和T.

重复假说

在第一同源物重复(例如，AB SNP变为AAB，并且BA SNP变为 BBA)的假说下，则R i具有一个二项分布，含有参数

和T用于AB SNP，以及

和T用于BA SNP。因此，

和T.

在第二同源物重复(例如，AB SNP变为ABB，BA SNP变为BAA) 的假说下，则R i具有一个二项分布，含有参数

和T用于AB SNP，以及

和T用于BA SNP。因此，

和T.

分类

如在以上部分中所证明的，X_i是一个二进制随机变量，具有

这允许计算检验统计量S的概率，在每个假说下。给出测量数据的每个假说的概率可以被计算。在一些实施方案中，具有最大概率的假说被选择。如果需要，S的分布可以被简化，

通过将每一个Ni近似于一个不变的读数深度N，或通过将读数深度截断为一个不变量N。这种简化给出

f的值可以被估计，通过选择f的最可能的值(在给定测量数据的情况下)，例如生成最佳数据拟合的f的值，使用算法(例如，搜索算法)，例如最大似然估计，最大后验估计或贝叶斯估计。在一些实施方案中，多个染色体片段被分析，并且f的值被估计基于每个片段的数据。如果所有的靶细胞具有这些重复或删除，则f的估计值(基于这些不同片段的数据的)是相似的。在一些实施方案中，f是试验测得的，例如通过确定来自癌细胞的DNA或RNA的分数，基于癌症和非癌性DNA或RNA之间的甲基化差异(低甲基化或高甲基化)。

在一些胎儿和母体核酸的混合样本的一些实施方案中，f的值是胎儿分数，即胎儿DNA(或RNA)在样本中的DNA(或RNA)总量中的分数。在一些实施方案中，所述胎儿分数被确定，通过获得来自于母体血液样本(或其部分)的基因型数据，对于至少一条染色体上的一组多态性基因位点来说，其被预期在母亲和胎儿中都是二体的；创建多个假说，每个假说对应于不同的可能胎儿分数，在所述染色体上；在血液样本中建立一个预期等位基因测量的模型，在所述染色体上的多态性基因位点集合处，对于可能的胎儿分数；计算每个胎儿分数假说的一个相对概率，利用所述模型和来自于所述血液样本或其部分的等位基因测量值；确定在血液样本中的胎儿分数，通过选择对应于具有最大概率的假说的胎儿分数。在一些实施方案中，胎儿分数被确定，通过鉴定那些多态性基因位点，其中对于多态性基因位点处的第一等位基因来说母本是纯合性的，并且父本是(i)对于第一等位基因和第二等位基因是杂合性的，或者(ii)在所述多态基因座处的第二等位基因来说是纯合性的；并且利用在血液样本中检测到的第二等位基因的量(对于每个所鉴定的多态性基因位点的)，去确定所述血液样本中的胎儿分数(参见，例如，2012年3月29日提交的美国公开的No.2012 /0185176，以及2013年3月13日提交的美国公开的No.2004/0065621，其全部内容作为参考文献被引用入本文)。

用于测定胎儿分数的另一种方法包括使用一个高通量DNA测序仪去计数等位基因，在大量多态性(例如SNP)的遗传基因位点处，并模建可能的胎儿分数(参见，例如美国公开号2012/0264121，其整体作为参考文献被引用入本文)。计算胎儿分数的另一种方法可以在Sparks等人的“Noninvasive prenatal detection and selective analysis of cell-free DNA obtained from maternal blood：evaluation for trisomy 21and trisomy18，”Am J Obstet Gynecol 2012；206：319.el-9中被看到，其全部内容作为参考文献被引用入本文。在一些实施方案中，胎儿分数被确定，利用一个甲基化测定(参见，例如美国专利号7,754,428；7,901,884；和8,166, 382，其各自作为参考文献被整体引用入本文)，其假定某些基因位点在胎儿中是甲基化的或优先甲基化的，并且那些相同的基因位点在母本中是未甲基化或未优先甲基化的。

图1A-13D是图表，显示了测试统计量S的分布除以T(SNP的数量) (“S/T”)，对于各种拷贝数假说，针对各种读数深度和肿瘤分数(其中f 是肿瘤DNA在总DNA中的分数)，对于越来越多的SNP。

单一假说的排除

对于二体假说的S的分布不取决于f。因此，测量数据的概率可以被计算，对于二体假设而不计算f。单一假说排除试验可用于二体的无效假说。在一些实施方案中，二体假说下的S的概率被计算，并且二体假说被排除如果概率低于给定的阈值(例如小于一千分之一)。这表明一个染色体片段的重复或缺失是存在的。如果需要，假阳性率可以被改变，通过调整阈值

用于相位数据分析的示例性的方法

示例性的方法在下文被描述，其用于分析来自于已知或怀疑是混合样本(包含来自于两个或更多个非遗传相同细胞的DNA或 RNA的)的样本数据。在一些实施方案中，相位数据被使用。在一些实施方案中，所述方法包括确定，对于每个计算的等位基因比率，是否计算的等位基因比率是高于或低于预期等位基因比率，以及一个特定基因位点处的差异大小。在一些实施方案中，一个似然性分布被确定，对于特定假说的一个基因位点处的等位基因比率，并且计算的等位基因比率越接近似然性分布的中心，越可能所述假说是正确的。在一些实施方案中，所述方法包括确定一个假说是正确的可能性，对于每个基因位点来说。在一些实施方案中，所述方法包括确定一个假说是正确的可能性，对于每个基因位点来说，并且组合每个基因位点处的该假说的概率，具有最大组合概率的假说被选择。在一些实施方案中，所述方法包括确定一个假说是正确的可能性，对于每个基因位点以及对于来自于一个或多个靶细胞的 DNA或RNA在样本总DNA或RNA中的每个可能比率。在一些实施方案中，对于每个假说的一个组合概率被确定，通过组合每个基因位点处的那个假说的概率以及每个可能的比率，具有最大组合概率的假说被选择。

在一个实施方案中，以下假说被考虑：H11(所有细胞是正常的)，H10(存在仅具有同源物1的细胞，因此同源物2缺失)，H01 (存在仅具有同源物2的细胞，因此同源物1缺失)，H21(存在具有同源物1重复的细胞)，H12(存在具有同源物2重复的细胞)。对于靶细胞例如癌细胞或嵌合细胞的一个片段f(或来自于靶细胞的DNA或RNA的片段)，杂合性(AB或BA)SNP的预期等位基因比率可以被发现，如下：

方程(1)：

r(AB，H₁₁)＝r(BA，H₁₁)＝0.5，

偏差，污染和测序纠错：

在SNP处的观察Ds由具有每个等位基因存在的原始映射读数(n_A ^o和n_B ^o)组成。然后，我们可以找到校正的读数nA和nB，利用A和B 等位基因的扩增中的预期偏差。

让C_a表示环境污染(例如来自于空气或环境中的DNA的污染) 以及r(C_a)表示环境污染物的等位基因比率(其最初采取的为0.5)。此外，C_g表示基因型污染率(例如来自于另一个样本的污染)，r(c_g) 是污染物的等位基因比率。让S_e(A，B)和S_e(B，A)表示测序错误，对于调用一个等位基因一个不同的等位基因(例如通过错误检测到一个 A等位基因，当一个B等位基因存在时)。

可以找到观察到的等位基因比率q(r，c_a，r(c_a)，c_g，r(c_g)， S_e(A，B)，S_e(B，A))，对于一个给定的预期等位基因比率r，通过校正环境污染，基因型污染和测序错误。

由于污染物的基因型是未知的，群体频率可以被用于发现P(r (c_g))。更具体地说，让p是一个等位基因(其可以被称为一个参考等位基因)的群体频率。然后，我们有P(r(c_g)＝0)＝(1-p)²， P(r(c_g)＝0)＝2p(1-p)，以及P(r(c_g)＝0)＝p²。超过r(Cg) 的条件期望可以被用于确定E[q(r，c_a，r(c_a)，c_g，r(c_g)，s_e(A， B)，s_e(B，A))]。注意，环境和基因型污染被确定，利用纯合性的SNP，因此它们不受缺失或重复的缺失或存在的影响。此外，可以测量环境和基因型污染，利用一个参考染色体，如果需要的话。

每个SNP处的可能性：

下面的方程给出了观察的nA和nB的概率，在给出了一个等位基因比率r时：

方程(2)：

让D_s表示SNP s的数据。对于每个假说hc{H11，H01，H10，H21， H12}，可以在方程(1)中让r＝r(AB，h)或者r＝r(BA，h)，并且发现超过r(c_g)的条件期望，以确定观察到的等位基因比率E[q(r，c_a，r(c_a)， c_g，r(c_g))]。然后，在方程(2)中让r＝E[q(r，c_a，r(c_a)，c_g，r(c_g)，s_e(A，B)，s_e(B，A))]可以确定P(D_s∣h，f)。

搜索算法：

在一些实施方案中，具有(似乎为异常值的)等位基因比率的 SNP被忽略(例如通过忽略或消除具有高于或低于平均值至少2或 3个标准偏差的等位基因比率的SNP)。注意，鉴定的一个优势(对于该方法)是，在较高嵌合率百分比的存在下，等位基因比率的变异性可能是高的，因此这确保了SNP不会由于嵌合而被修剪。

让F＝{f1，……，f_N}表示对于嵌合率百分比(例如肿瘤分数)的搜索空间。可以确定P(Ds∣h，j)，在每个SNP S和f∈F，并且组合所有SNP上的似然性。

该算法运行过每个f，对于每个假说。使用一种搜索方法，得出结论：嵌合现象存在，如果f有一个范围F*，其中缺失或重复假说的置信度高于无缺失或无重复假说的置信度。在一些实施方案中，P(Ds∣h，j)在F*中的最大似然估计被确定。如果需要，超过f∈F*的条件期望可以被确定。如果需要，每个假说的置信度可以被确定。

附加的实施方案：

在一些实施方案中，一个β二项分布被用于代替二项分布。在一些实施方案中，一条参考染色体或染色体片段被用于确定β二项的样本的具体参数。

使用模拟的理论性能：

如果需要，可以评估算法的理论性能，通过随机分配参考读数的数目给一个具有给定读取深度(DOR)的SNP。对于正常情况，使用 p＝0.5作为二项概率参数，以及用于缺失或重复，p被相应地修改。对于每个模拟的示例性输入参数如下：(1)SNP数量S(2)每个SNP的恒定DOR D，(3)p，以及(4)实验数目。

第一模拟实验：

本实验集中于S∈{500，1000}，D∈{500，1000}以及p∈{0％， 1％，2％，3％，4％，5％}。我们进行了1000次模拟实验，在每个设置 (因此24,000次实验具有相位，24,000次无相位)。我们模拟了读数，从一个二项分布(如果需要的话，其他的分布可以被使用)。假阳性率(在 p＝0％的情况下)和假阴性率(在p>0％的情况下)被确定，在具有或不具有相位信息的情况下。假阳性率被列在图26中。注意，相位信息是非常有帮助的，特别是对于S＝500，D＝1000。尽管对于S＝500，D＝500，算法具有最高的假阳性率，

在具有或不具有测试条件之外的相位的情况下。假阴性率被列在图 27中。

相位信息是特别有用的，对于低嵌合率百分比(≤3％)。没有相位信息，一个高水平的假阴性被观察到，对于p＝1％，因为缺失的置信度被确定通过指定相等的几率给H₁₀和H₀₁，并且一个小偏差(倾向于一个假说的)不足以补偿来自于其他假说的低的可能性。

这也适用于重复。还注意到，该算法似乎是更加敏感的，对于读数深度，相比于SNP的数目。对于具有相位信息的结果，我们假定，完全相位信息是可以用于大量连续的杂合性SNP。如果需要，单倍型信息可以被获得，通过在较小片段上概率性地组合单倍型。

第二模拟实验：

本实验集中于S∈{100，200，300，400，500}，D∈{1000，2000， 3000，4000，5000}以及p∈{0％，1％，1.5％，2％，2.5％，3％}，以及10000次随机实验于每个设置上。假阳性率(在p＝0％的情况下)和假阴性率(在p>0％的情况下)被确定，在具有或不具有相位信息的情况下。假阴性率低于10％，对于D≥3000和N≥200来说，利用单倍型信息，然而相同的性能可以达到，对于D＝5000和N≥400(图20A和20B)。假阴性率之间的差异是特别突出的，对于小嵌合百分比(图21A-25B)。例如，当p＝1％时，小于20％的假阴性率从未被达到，在没有单倍型数据的情况下，然而它接近于0％对于N＞300和D≥3000。对于p＝3％，一个0％的假阴性率被观察到，在具有单倍型数据的情况下，然而N≥300 和D≥3000是需要的以达到相同性能(在没有单倍型数据的情况下)。

用于检测缺失和重复的示例性方法(在没有相位数据的情况下)

在一些实施方案中，非相位遗传数据被用来确定是否存在一个第一同源染色体片段的拷贝数的过表达，相比于第二同源染色体片段，在一个个体基因组中(例如在一个或多个细胞的基因组中或在cfDNA或cfRNA 中)。在一些实施方案中，相位遗传数据被使用，但相位被忽略。在一些实施方案中，DNA或RNA样本是来自于个体的cfDNA或cfRNA的一个混合样本，其包括来自于两个或更多个遗传不同细胞的cfDNA或cfRNA。在一些实施方案中，所述方法利用了计算的等位基因比率和预期等位基因比率之间的差异的大小，对于每个基因位点。

在一些实施方案中，所述方法包括获得遗传数据，在染色体或染色体片段上的一组多态性基因位点上，在一个来自于个体一个或多个细胞DNA 或RNA的样本中，通过测量在每个基因位点上的每个等位基因的量。在一些实施方案中，等位基因比率被计算，对于在分离于样本的至少一个细胞中是杂合性的基因位点(例如在胎儿中是杂合性的和/或在母体中是杂合性的基因位点)。在一些实施方案中，对于一个特定基因位点的计算的等位基因比率，是一个等位基因的测量量除以所有等位基因的总测量量，对于所述基因位点。在一些实施方案中，对于一个特定基因位点的计算的等位基因比率，是一个等位基因(例如在第一同源染色体片段上的等位基因) 的测量量除以一个或多个其他等位基因(例如在第二同源染色体片段上的等位基因)的测量量，对于所述基因位点。计算的等位基因比率以及预期等位基因比率可以被计算，利用本文所述的任何方法或任何标准方法(例如本文所述的计算的等位基因比率或预期等位基因比率的任何数学变换)。

在一些实施方案中，一个检验统计量被计算，基于计算的等位基因比率和预期等位基因比率之间的差异的大小，对于每个基因位点。在一些实施方案中，检验统计量Δ被计算，使用以下公式

其中δi是所述第i个基因位点处的计算的等位基因比率与所述预期等位基因比率之间的差异的大小；

其中μi是δi的平均值；并且

其中σ_i ²是δi的标准偏差。

例如，我们可以定义δi如下，当预期等位基因比率为0.5时：

μ_i和σ_i的值可以被计算，利用Ri是一个二项随机变量的事实。在一些实施方案中，标准偏差被假定是相同的，对于所有的基因位点。在一些实施方案中，平均的或加权的标准偏差平均值或一个标准偏差的估计被用于得到σ_i ²的值。在一些实施方案中，检验统计量被假定具有一个正态分布。例如，中心极限定理意味着Δ的分布聚合为一个标准正态分布，随着基因位点的数量(例如SNP的数量T)变大。

在一些实施方案中，一组一个或多个假说(指定一个或多个细胞基因组中的染色体或染色体片段的拷贝数的)被列举。在一些实施方案中，基于检验统计量的最可能的假说被选择，从而确定一个或多个细胞的基因组中染色体或染色体片段的拷贝数。在一些实施方案中，一个假说被选择，如果测试统计量(属于该假说的测试统计量分布的) 的概率高于一个更高的阈值；一个或多个假说被排除了，如果测试统计量(属于该假说的测试统计量分布的)的概率低于一个更低的阈值；或者一个假说既不被选择也不被排除，如果测试统计量(属于该假说的测试统计量分布的)的概率介于更低的阈值和更高的阈值之间，或者如果概率没有被确定以足够高的置信度。在一些实施方案中，一个更高的和/或更低的阈值被确定，从一个经验分布，例如一个来自于训练数据(例如具有已知拷贝数的样本，例如二倍体样本或已知具有一个特定缺失或重复的样本)的分布。这样的一个经验分布可以被用于选择阈值，对于一个单假说排除测试。

注意，测试统计Δ是不依赖于S的，因此，两者都可以被独立使用，如果需要的话。

用于检测缺失和重复的示例性方法，利用等位基因分布或模式

本部分包括方法，用于确定是否存在一个第一同源染色体片段的拷贝数的过表达，相比于一个第二同源染色体片段。在一些实施方案中，所述方法包括枚举(i)多个假说，指定存在于个体一个或多个细胞(例如癌细胞)的基因组中的染色体或染色体片段的拷贝数，或(ii)多个假说，指定一个第一同源染色体片段的拷贝数的过表达的程度，相比于个体一个或多个细胞的基因组中的一个第二同源染色体片段。在一些实施方案中，所述方法包括获得个体的遗传数据，在染色体或染色体片段上的多个多态性基因位点(例如SNP 基因座)处。在一些实施方案中，个体预期基因型的一个概率分布 (对于每个假说)被创建。在一些实施方案中，一个介于获得的个体遗传数据以及个体预期基因型的概率分布之间的数据拟合被计算。

在一些实施方案中，一个或多个假说被排序，根据所述数据拟合，并且排序最高的假说被选择。在一些实施方案中，一种技术或算法，例如一个搜索算法，被用于以下步骤中的一个或多个：计算数据拟合，对假说排序，或选择排序最高的假说。在一些实施方案中，数据拟合是对一个β二项分布的拟合或对一个二项分布的拟合。在一些实施方案中，所述技术或算法选自于所述集合，其包括最大似然估计，最大后验估计，贝叶斯估计，动态估计(例如动态贝叶斯估计)和期望最大化估计。在一些实施方案中，所述方法包括应用所述技术或算法到所获得的遗传数据和预期遗传数据。

在一些实施方案中，所述方法包括列举(i)多个假说，指定存在于个体一个或多个细胞(例如癌细胞)的基因组中的染色体或染色体片段的拷贝数，或(ii)多个假说，指定一个第一同源染色体片段的拷贝数的过表达的程度，相比于个体一个或多个细胞的基因组中的一个第二同源染色体片段。在一些实施方案中，所述方法包括获得个体的遗传数据，在染色体或染色体片段上的多个多态性基因位点(例如SNP基因位点)处。在一些实施方案中，所述遗传数据包括等位基因计数，对于多个多态性基因位点。在一些实施方案中，一个针对所述预期等位基因计数的联合分布模型被创建，在染色体或染色体片段上的多个多态性基因位点处，对于每个假说。在一些实施方案中，一个或多个假说的一个相对概率被确定，利用所述联合分布模型以及在样本上测量的等位基因计数，并且具有最大概率的假说被选择。

在一些实施方案中，等位基因的分布或模式(例如计算的等位基因比率的模式)被用于确定一个CNV的存在与否，例如一个缺失或重复。如果需要CNV的亲本来源可以被确定，基于该模式。一个母系遗传的重复是来自于母本的染色体片段的一个额外拷贝，母系遗传的缺失是来自于母本的染色体片段的拷贝的缺失，使得存在的染色体片段的唯一拷贝来自于父亲。示例性的模式在图15A-19D中示出，并在下面被进一步描述。

为了确定一个感兴趣的染色体片段的缺失的存在与否，所述算法考虑了序列计数(来自于两个可能等位基因中的每一个的序列计数，在每条染色体的大量SNP处)的分布。重要的是要注意，所述算法的一些实施方案使用一种不适于可视化的方法。因此，为了说明的目的，所述数据被展示在图15A-18中，以简化的方式表示两个最可能的等位基因的比率，标记为A和B，使得相关趋势可以更容易地可视化。这个简化的图示没有考虑算法的一些可能的特征。例如，不可能用显示等位基因比率的可视化方法来说明的算法的两个实施方案是：1)利用连锁不平衡的能力，即，在一个SNP处的测量对相邻SNP的可能同一性的影响，以及2)非高斯数据模型(其描述了等位基因测量的预期分布，在一个SNP处)的使用，给出了平台特性和扩增偏差。还要注意，一个算法的简化版本仅仅考虑两个最常见的等位基因，在每个SNP处，忽略其他可能的等位基因。

感兴趣的缺失被检测到，在基因组和母本血液样本中。在一些实施方案中，基因组和母本的血浆样本被分析，利用例子1的多重PCR和测序方法。基因组DNA综合样本(被检测到缺乏杂合性SNP，在靶区域内)，确认了该测定对于区分单体(受影响)和二体(未受影响)的能力。来自于一个母本血液样本的cfDNA的分析，能够检测22q11.2缺失综合征， Cri-du-Chat缺失综合征，以及Wolf-Hirschhorn缺失综合征，以及图14中的其他缺失综合征，在胎儿中。

图15A-15C描述了数据，表明两条染色体的存在，当样本完全是母本时(没有胎儿cfDNA存在，图15A)，包含一个12％的中等胎儿 cfDNA分数(图15B)，或者包含一个26％的高的胎儿cfDNA分数(图 15C)。x轴表示沿着染色体的个体多态性基因位点的线性位置，y轴表示A等位基因的读数，其作为总等位基因(A+B)读数的一部分。母本和胎儿的基因型被指示在图的右侧。该图是着色了的，根据母本基因型，使得红色表示一个母本基因型AA，蓝色表示一个母本基因型 BB，以及绿色表示一个母本基因型AB。注意，测量是在分离于母本血液的以及包括母本和胎儿cfDNA的总cfDNA中进行的；因此，每个点表示胎儿和母本DNA(贡献于该SNP处的)的组合。因此，增加母本cfDNA的比例，从0％到100％，将逐渐转变一些点向上或向下移动(在图中)，根据母本和胎儿的基因型。

在所有情况下，SNP，对于A等位基因(AA)来说在母亲和胎儿中均为纯合性的，被发现与图的上限紧密相关，如A等位基因读数的分数是高的，因为应当没有B等位基因的存在。相反，对于B等位基因来说在母亲和胎儿中均为纯合性的SNP，被发现与图的下限紧密相关，如A等位基因读数的分数是低的，因为应该只有B等位基因。与图的上限和下限不紧密关联的点，表示母亲，胎儿或两者都是杂合性的SNP；这些点被用于鉴定胎儿缺失或重复，但是也能够提供信息用于确定父本与母本的遗传信息。这些点发生了分离，根据母本和胎儿的基因型以及胎儿分数，并且因此每个单点沿着y轴的精确位置取决于化学计量和胎儿分数。例如，母本是AA并且胎儿是AB的基因位点，预计具有一个不同的A等位基因读数分数，并且因此沿着y轴进行不同的定位，根据胎儿的分数。

图15A具有数据，对于一个非怀孕的妇女，因此代表了当基因型完全是母本时的模式。这种模式包括点的“簇”：一个红色的簇与图的顶部紧密相关(SNP，其中母本基因型是AA)，一个蓝色的簇与图的底部紧密相关(SNP，其中母本基因型是BB)，以及一个单一的居中的绿色簇(SNP，其中母本基因型为AB)。对于图15B，胎儿等位基因对A等位基因读数分数的贡献，改变了一些等位基因点沿着y轴向上或向下的位置。对于图 15C，所述模式，包括两个红色和两个蓝色外围条带以及一个中心为绿色条带的三重组，是显而易见的。所述三个中心绿色条带对应于在母本中是杂合性的SNP，并且各自在顶部(红色)和底部(蓝色)的点的两个“外周”条带对应于在母本中是纯合性的SNP。

一个22q11.2缺失载体(具有该缺失的母本)的分析显示在图16A 中。所述缺失载体在该区域中不具有杂合性的SNP，因为载体仅仅具有这个区域的一个拷贝。因此，这个缺失被绿色AB SNP的缺失所指示。胎儿中一个父系遗传的22q11缺失的分析显示在图16B中。当胎儿仅仅继承一个染色体片段的单个拷贝时(在父系遗传缺失的情况下，存在于胎儿中的拷贝来自于母本)，因此仅仅遗传该片段中每个基因位点的单个等位基因，胎儿的杂合性是不可能的。因此，唯一可能的胎儿的SNP鉴定是A或B。注意内部的外围条带的缺失。对于一个父系遗传缺失，特征模式包括两条中心绿色条带，其表示对于SNP来说母本是杂合性的，仅仅具有单个外围的红色和蓝色条带，其表示对于SNP 来说母本是纯合性的，并且其仍旧与图的上限和下限(1和0)紧密相关，分别地。

一个母系遗传的Cri-du-Chat缺失综合征的分析显示于图17中。有两个中心绿色条带而不是三个绿色条带，有两个红色和两个蓝色外围条带。一个母系遗传的缺失(例如一个Duchenne's muscular dystrophy(肌营养不良)的母本载体)也可以被检测到，基于检测区域中的少量信号，在一个母本和胎儿DNA的混合样本(例如血浆样本)中，因为母亲和胎儿都具有缺失。

图18是一个父系遗传的继发性狼疮-希尔霍姆缺失综合征的图，由一个红色和一个蓝色外围条带的存在所指示。

如果需要，相似的图可以被生成，对于一个来自于被怀疑具有缺失或重复(例如与癌症相关的CNV)的个体的样本。在这样的图中，下面的颜色编码可以被使用基于没有CNV的细胞的基因型：红色表示一个基因型AA，蓝色表示一个基因型BB，绿色表示一个基因型AB。在一些实施方案中，对于一个缺失，模式包括两个中心绿色条带，其代表个体是杂合性的SNP(顶部的绿色条带表示来自于没有缺失的细胞的AB，以及来自于具有缺失的细胞的A，并且底部的绿色条带表示来自于没有缺失的细胞的AB，以及来自于具有缺失的细胞的B)，并且仅仅具有单个的外围红色和蓝色条带，其表示个体是纯合性的SNP，并且其仍旧与图的上限和下限 (1和0)密切相关，分别地。在一些实施方案中，两个绿色条带的分离增加，随着具有缺失的细胞、DNA或RNA的分数增加。

用于鉴定和分析多个妊娠的示例性方法

在一些实施方案中，本发明的任何方法被用于检测多胎妊娠的存在，例如双胎妊娠，其中至少一个胎儿在遗传上不同于至少一个其他胎儿。在一些实施方案中，异卵双胞胎被鉴定，基于具有不同等位基因、不同等位基因比率、或不同等位基因分布的两个胎儿的存在，在一些(或所有)被检测的基因位点上。在一些实施方案中，异卵双胞胎被鉴定，通过确定每个基因位点(例如SNP位点)处的预期等位基因比率，对于在样本(例如血浆样本)中可能具有相同或不同胎儿分数的两个胎儿。在一些实施方案中，一对特定的胎儿分数(其中f1是胎儿1的胎儿分数，f2是胎儿2的胎儿分数)的可能性被计算，通过考虑两个胎儿的一些或所有可能的基因型，取决于母亲的基因型和基因型群体频率。两个胎儿和一个母本的基因型混合物，结合胎儿分数，确定了预期等位基因比率，在一个SNP处。例如，如果母亲是AA，胎儿1是AA，胎儿2 是AB，则SNP处的B等位基因的总分数是f2的一半。似然性计算要求所有的SNP共同匹配预期等位基因比率的程度，基于胎儿基因型的所有的可能组合。与数据最佳匹配的胎儿分数组合(f1，f2)被选择。没有必要去计算胎儿的特定基因型；相反，例如，可以考虑一个统计组合中的所有可能的基因型。在一些实施方案中，如果所述方法不区分异卵和同卵双胞胎，一个超声波可以被执行，以确定是否存在一个异卵或同卵的双胎妊娠。如果所述的超声检测到双胎妊娠，可以认为妊娠是一个同卵的双胎妊娠，因为一个异卵的双胎妊娠已经被检测到了基于上述 SNP分析。

在一些实施方案中，一个怀孕的母亲已知具有多胎妊娠(例如一个双胎妊娠)，基于先前的测试，例如超声波。本发明的任何方法可以被用于确定是否所述多胎妊娠包括同卵或异卵双胞胎。例如，测量的等位基因比率可以被比较，与同卵双胞胎(与一个单胎妊娠相同的等位基因比率)或异卵双胞胎(例如上文所描述的等位基因比率的计算)的预期值。一些同卵双胞胎是单绒毛膜双胞胎，其具有双胎输血综合征的风险。因此，利用该发明的一种方法被确定为同卵双胞胎的双胞胎，被如期测试(例如通过超声)以确定是否他们是单绒毛膜双胞胎，并且如果是，这些双胞胎可以被监控(例如从16周开始的双周超声)，对于双输血综合征的迹象。

在一些实施方案中，本发明的任何方法被用于确定是否一些胎儿(在多胎妊娠中，例如一个双胞胎妊娠)为非整倍体。对于双胞胎的非整倍体检测开始于胎儿的分数估计。在一些实施方案中，与数据最佳匹配的胎儿分数对(f1，f2)被选择，如上所述。在一些实施方案中，一个最大似然估计被执行，对于可能的胎儿分数范围上的参数对(f1，f2)。在一些实施方案中，f2的范围是从0到f1，因为f2被定义为较小的胎儿分数。给定一对(f1，f2)，数据可能性被计算，从在一组基因位点(例如SNP基因位点)处观察到的等位基因比率中。在一些实施方案中，数据可能性反映了母亲的基因型，父亲的基因型(如果可获得的话)，群体概率，以及胎儿基因型的所得概率。在一些实施方案中，SNP被假定是独立的。估计的胎儿分数对是产生最高数据似然性的一个。如果f2是0，那么数据被最好的解释了通过仅仅一套胎儿基因型，指示同卵双胞胎，其中f1是组合的胎儿分数。否则f1和f2是对单个双胞胎的胎儿分数的估计。已经建立(f1，口)的最佳估计，可以预测血浆中B等位基因的总分数，对于母本和胎儿基因型的任何组合，如果需要的话。不必去分配单独的序列读数给单个胎儿。倍性检测被进行，利用另一个最大似然估计，该估计比较两个假说的数据似然性。在一些针对于同卵双胞胎的实施方案中，考虑假说(i)两个双胞胎都是整倍体，以及(ii)两个双胞胎都是三体。在一些针对于异卵双胞胎的实施方案中，考虑假说(i)两个双胞胎都是整倍体以及(ii)至少一个双胞胎是三体。所述三体假说(对于异卵双胞胎的)是基于较低的胎儿分数，因为一个三体性在双胞胎(具有一个较高胎儿分数的)中也会被检测到。倍性可能性被计算，利用一种方法，该方法预测了每个靶基因位点处的预期读数，以二体或三体假说为条件。不需要一个二倍体为参考染色体。对于预期读数的方差模型，考虑了单个靶基因位点的性能以及基因位点之间的相关性(参见，例如，于2014年6月5日提交的美国序列号62/008,235，以及于2014年8月4日提交的美国序列号No.62/032, 785，其各自作为参考文献被整体引用入本文)。如果所述较小的双胞胎具有胎儿分数f1，我们在该双胞胎中检测一个三体的能力，等同于我们在一个单胎妊娠中检测一个三体的能力，在同一胎儿分数下。这是因为检测三体性的方法部分(在一些实施方案中)不依赖于基因型，并且不区分多胎或单胎妊娠。它只是寻找一个增加的读数，按照确定的胎儿分数。

在一些实施方案中，所述方法包括检测双胞胎的存在，基于SNP基因位点(例如上文所述)。如果双胞胎被检测到，SPN被用来确定每个胎儿(f1，f2)的胎儿分数，如上所述。在一些实施方案中，具有高置信度二体应答的样本，被用来确定扩增偏差，在每个SNP的基础上。在一些实施方案中，具有高置信度二体应答的这些样本被分析，在与一个或多个感兴趣样本相同的运行中。在一些实施方案中，基于每SNP的扩增偏差被用于模拟读数分布，对于一个或多个感兴趣的染色体或染色体片段，例如21号染色体，所述染色体片段是预期的或所述二体假说和三体假说给出了两个双胞胎胎儿分数中的较低者。二体或三体性的可能性或概率被计算给出了两个模型以及感兴趣的染色体或染色体片段的测量量。

在一些实施方案中，一个阳性非整倍性应答(例如三体应答)的阈值被设置，基于具有较低胎儿分数的双胞胎。这样，如果另一个双胞胎是阳性的，或者如果两个都是阳性的，总的染色体表示肯定高于阈值。

示例性的计数方法/计算方法

在一些实施方案中，一种或多种计数方法(也被称为定量方法)被用于检测一个或多个CNS，例如染色体片段或整条染色体的缺失或重复。在一些实施方案中，一种或多种计数方法被用来确定是否第一同源染色体片段的拷贝数的过度表达是由于第一同源染色体片段的一个重复或第二同源染色体片段的一个缺失。在一些实施方案中，一种或多种计数方法被用来确定一个被重复了的染色体片段或染色体的额外拷贝数(例如是否存在 1，2，3，4或更多的额外拷贝)。在一些实施方案中，一种或多种计数方法被用来区分一个具有许多重复以及一个较小癌症分数的样本，从一个具有较少重复以及一个较大癌症分数的样本。例如，一种或多种计数方法可以被用于区分一个具有四个额外染色体拷贝以及一个10％肿瘤分数的样本，从一个具有两个额外染色体拷贝以及一个20％肿瘤分数的样本。示例性的方法被公开，例如，美国公开号2007/0184467；2013/0172211；以及 2012/0003637；美国专利号8,467,976；7,888,017；8,008,018； 8296076；以及8,915,415；于2014年6月5日提交的美国申请序列号 62/008,235，以及于2014年8月4日提交的美国申请序列号62/032,785，其各自都被作为参考文献全部引用入本文。

在一些实施方案中，计数方法包括计算DNA序列的数目，基于映射到一个或多个

给定染色体或染色体片段的读数。一些这样的方法涉及产生一个参考值(截止值)，对于映射到一个特定染色体或染色体片段的DNA序列读数的数目，其中超过该值的一个读数数目指示一个特定的基因异常。

在一些实施方案中，所有等位基因(对于一个或多个基因位点的) 的总测量量(例如一个多态性或非多态性基因位点的总量)被进行了比较，与一个参考量。在一些实施方案中，参考量是(i)一个阈值或 (ii)一个特定拷贝数假说的一个预期量。在一些实施方案中，参考量 (对于不存在一个CNV)是所有等位基因的总测量量，对于一个或多个染色体或染色体片段的一个或多个基因位点来说，其已知或预期不具有缺失或重复。在一些实施方案中，参考量(对于存在一个CNV) 是所有等位基因的总测量量，对于一个或多个染色体或染色体片段的一个或多个基因位点来说，其已知或预期具有缺失或重复。在一些实施方案中，参考量是所有等位基因的总测量量，对于一个或多个参考染色体或染色体片段的一个或多个基因位点来说。在一些实施方案中，参考量是为两条或更多条不同染色体、染色体片段、或不同样本确定的平均值或中值。在一些实施方案中，随机(例如，大规模平行鸟枪法测序)或靶向测序被用于确定一个或多个多态性或非多态性基因位点的量。

在利用参考量的一些实施方案中，所述方法包括(a)测量感兴趣的染色体或染色体片段上的遗传物质的量；(b)比较来自于步骤(a) 的量与参考量；和(c)鉴定缺失或重复的存在与否，基于所述比较。

在利用参考染色体或染色体片段的一些实施方案中，所述方法包括测序来自于一个样本的DNA或RNA，以获得与靶基因位点比对的多个序列标签。在一些实施方案中，序列标签具有足够的长度以分配给一个特定的靶基因位点(例如，长度为15-100个核苷酸)；所述靶基因位点来自于多个不同的染色体或染色体片段，其包括至少一个第一染色体或染色体片段(怀疑在样本中具有一个异常分布)，以及至少一个第二染色体或染色体片段(假定在样本中正态分布)。在一些实施方案中，多个序列标签被分配给它们相应的靶基因位点。在一些实施方案中，与第一染色体或染色体片段的靶基因位点比对的序列标签的数目，以及与第二染色体或染色体片段的靶基因位点比对的序列标签的数目被确定。在一些实施方案中，这些数目被比较以确定第一染色体或染色体片段的一个异常分布(例如一个缺失或重复)的存在与否。

在一些实施方案中，f的值(例如胎儿分数或肿瘤分数)被使用，在CNV测定中，例如比较观察到的两条染色体或染色体片段的量的差异，和在给定f值时对于一个特定类型CNV的预期的差异(参见，例如，美国公开号2012/0190020；美国公开号2012/0190021；美国公开号2012/0190557；美国公开号2012/0191358，其各自被作为参考文献全部引用入本文)。例如，一条染色体片段数量上的不同(该染色体片段在一个胎儿中是重复的，相比于一个二倍体的参考染色体片段来说，在一个来自于携带了胎儿的母本的血液样本中)增加，随着胎儿分数的增加。此外，一条染色体片段数量上的不同(该染色体片段在一个肿瘤中是重复的，相比于一个二倍体的参考染色体片段来说)增加，随着肿瘤分数的增加。在一些实施方案中，所述方法包括比较一条感兴趣的染色体或染色体片段对一个参考染色体或染色体片段(例如一条预期的或已知是二体的染色体或染色体片段)的相对频率，与f的值，以确定所述CNV的可能性。例如，第一染色体或染色体片段和所述参考染色体或染色体片段之间的量的不同可以被比较，与给定f值时的预期值，对于各种可能的CNV(例如一条感兴趣的染色体片段的一个或两个额外拷贝)。

以下预示性的例子说明了一个计数方法/定量方法的使用，以区分第一同源染色体片段的一个复制和第二同源染色体片段的一个缺失。如果考虑宿主的正常二倍体基因组作为基线，则正常和癌细胞的一个混合物的分析产生了混合物中基线和癌症DNA之间的平均差异。例如，假设一种情况，其中样本中10％的DNA来自于具有一个缺失的细胞，在一个被测定所靶向了的染色体的一个区域上。在一些实施方案中，一种定量方法显示，对应于那个区域的读数的量被预期是正常样本所预期的95％。这是因为两个靶染色体区域中的一个，在每一个具有靶区域缺失的肿瘤细胞中，是丢失的，并且因此映射到该区域的DNA的总量为90％(对于正常细胞)+1/2 x10％(对于肿瘤细胞)＝95％。或者，在一些实施方案中，一个等位基因方法显示，在杂合位点的等位基因比率平均为19:20。现在假设一种情况，其中样本中10％的DNA来自于具有一个5倍焦点扩增的细胞，在一个被测定所靶向了的染色体的一个区域上。在一些实施方案中，一种定量方法显示，对应于那个区域的读数的量被预期是正常样本所预期的125％。这是因为两个靶染色体区域中的一个，在每一个具有一个5倍焦点扩增的肿瘤细胞中，被复制了额外五次，在所述靶区域上，并且因此映射到那个区域的DNA的总量为90％(对于正常细胞)+(2+5)×10％/2(对于肿瘤细胞)＝125％。或者，在一些实施方案中，一种等位基因方法显示，在杂合位点的等位基因比率平均为25:20。注意，当单独使用一种等位基因方法时，一个染色体区域上的5倍的焦点扩增(在一个具有10％cfDNA 的样本中)，可能出现相同的情况，与同一个区域上的一个缺失(在一个具有10％cfDNA的样本中)；在这两种情况下，在缺失的情况下低表达的单倍型看起来是在焦点扩增情况下没有CNV的单倍型，并且在缺失的情况下没有CNV的单倍型看起来是在焦点扩增情况下过表达的基因型。结合由该等位基因方法产生的可能性和由一种定量方法产生的可能性，区分所述的两种可能性。

示例性的计数方法/计算方法，利用参考样本

一种示例性的计算方法，其利用一个或多个参考样本，被描述在美国系列号62/008,235(于2014年6月5日提交的)和美国系列号62/032, 785(于2014年8月4日提交的)，其在此被作为参考文献整体引用入本文。在一些实施方案中，一个或多个参考样本(最可能不具有任何CNV 的，在一个或多个染色体或感兴趣的染色体(例如，正常样本)上)被鉴定，通过选择具有最高的肿瘤DNA分数的样本，选择z值最接近于零的样本，

选择数据拟合假说(对应于没有具有最高置信度或似然性的CNV的) 的样本，选择已知正常的样本，选择来自于具有癌症最低可能性的个体的样本(例如，具有低的年龄，是一个男性在筛选乳腺癌时，没有家族史，等)，选择具有最高的DNA输入量的样本，选择具有最高信噪比的样本，选择样本基于被认为与患有癌症的可能性相关的其他标准，或选择样本通过一些标准的组合。一旦参考集被选择了，可以假设这些情况是二体的，然后估计每个SNP偏差，即，对于每个基因位点的实验特异性扩增和其他加工偏差。然后，可以利用该实验特异性偏差估计，去校正感兴趣染色体(例如21号染色体基因位点)在测量中的偏差，并且对于其他染色体基因位点(视情况而定)，对于不是子集(其中，二倍体被假定，对于21 号染色体)的一部分的样本。一旦偏差被校正，在这些未知倍性的样本中，这些样本的数据则可以被二次分析，利用相同或不同的方法，以确定是否个体(例如胎儿)是患有21三体综合征的。例如，一种定量方法可以被用在未知倍数的剩余样本上，并且一个z值可以被计算，利用所述校正的测量的遗传数据，在21号染色体上。或者，作为21号染色体倍性状态的初步估计的一部分，一个胎儿分数(或来自于一个怀疑患有癌症的个体样本的肿瘤分数)可以被计算。在一个二体(二体假说)的情况下被预期的校正的读数的比例以及在一个三体(三体假说)的情况下被预期的校正的读数的比例可以被计算，对于具有那个胎儿分数的一种情况。或者，如果胎儿分数没有被提前测量，一组二体和三体假说可以被生成，对于不同的胎儿分数。对于每种情况，一个校正读数的比例的预期分布可以被计算，考虑预期的统计学变化，在各种DNA基因位点的选择和测量中。观察到的读数的校正比例可以被进行比较，与校正读数的预期比例的分布，并且一个对于二体和三体假说的可能性比率可以被计算，对于每个未知倍性的样本。与假说(具有最高的计算概率的)相关联的倍性状态可以被选择，根据校正的倍性状态。

在一些实施方案中，具有足够低的具有癌症可能性的样本的子集可以被选择，以充当样本的一个对照组。该子集可以是一个固定数，或者它可以是一个基于仅选择低于阈值的那些样本的可变数。来自于样本子集的定量数据可以被组合，平均，或利用一个加权平均来组合，其中加权是基于样本正常的可能性。所述定量数据可以被用于确定样本测序扩增时的每基因位点偏差，在即时批量的对照样本中。所述每基因位点偏差也可以包括来自于其他批次的样本的数据。所述每基因位点偏差可以指示被观察到的相对过度或不足扩增，对于与其它基因位点相比的那个基因位点，假设样本的子集不含有任何CNV，并且任何观察到的过度或不足扩增是由于扩增和/或测序或其他偏差。所述每基因位点偏差可以考虑扩增子的GC含量。基因位点可以被分成基因位点组，为了计算每个基因位点偏差的目的。一旦所述每基因位点偏差被计算了，对于多个基因位点中的每个基因位点来说，一个或多个样本(不在样本子集中的，以及任选地样本子集中的一个或多个样本)的测序数据可以被校正，通过调整每个基因位点的定量测量以消除在那个基因位点处偏差的影响。例如，如果SNP 1被观察到，在患者的子集中，具有一个两倍于平均值大小的读取深度，那么调整可以包括替换对应于SNP 1的读数为一个一半大的数目。一旦测序数据(对于每个基因位点的，在一个或多个样本中)已经被调整了，它可能被分析，利用一种方法(用于检测一个CNV的存在的)，在一个或多个染色体区域上。

在一个例子中，样本A是一个扩增的DNA的混合物，其源自于正常和癌细胞的一个混合物，所述细胞被分析利用一种定量的方法。下面内容说明了示例性的可能数据。22号染色体上q臂的一个区域被发现仅仅具有那个区域所预期的90％的DNA映射；对应于HER2基因的一个焦点区域被发现具有那个区域所预期的150％的DNA映射；5号染色体的p臂被发现具有它的所预期的105％的DNA映射。一个临床医生可以推断，样本具有一个缺失(在22号染色体q臂的一个区域上)，以及HER2基因的一个重复。临床医生可以推断，由于22q缺失在乳腺癌中是常见的，并且由于在两条染色体上都具有22q区域缺失的细胞通常不存活，所以样本中接近于20％的DNA来自于具有一个22q缺失(在两条染色体中的一条上) 的细胞。临床医生也可以推断，如果来自于肿瘤细胞的混合样本的DNA，源于一组HER2区域和22q区域是同源的遗传肿瘤细胞，那么所述细胞包括HER2区域的一个五倍重复。

在一个例子中，样本A也被分析了，利用一种等位基因的方法。下面的内容说明了示例性的可能数据。22号染色体q臂上同一区域的两个单倍型是存在的，以一个4：5的比率；在对应于HER2基因的一个焦点区域内的两个单倍型是存在的，以一个1：2的比率；在5号染色体的p臂上的两个单倍型是存在的，以一个20：21的比率。基因组的所有的其他测定区域没有任何单倍型的统计学显著过剩。一个临床医生可以推断，样本包含来自于一个具有一个CNV的肿瘤的DNA，在22q区域、HER2区域、以及5p臂中。基于22q缺失在乳腺癌中是非常常见的这一知识，和/ 或所述定量分析(显示了映射到基因组22q区域的DNA量的不足表达的)，临床医生可以推断具有一个22q缺失的一个肿瘤的存在。基于HER2扩增在乳腺癌中是非常常见的这一知识，和/或所述定量分析(显示了映射到基因组HER2区域的DNA的量的过度表达的)，临床医生可以推断具有一个 HER2扩增的一个肿瘤的存在。

示例性的参考染色体或染色体片段

在一些实施方案中，本文所述的任何方法也被执行于一个或多个参考染色体或染色体片段，并且所述结果被比较，与那些针对于一个或多个感兴趣的染色体或染色体片段的结果。

在一些实施方案中，参考染色体或染色体片段被用作一个对照，对于被预期一个CNV不存在的染色体或染色体片段来说。在一些实施方案中，参考是来自于一个或多个不同样本的同一条染色体或染色体片段，所述样本是已知或预期的不具有一个缺失或重复的，在那条染色体或染色体片段上。在一些实施方案中，参考是一条来自于被测试样本的不同的染色体或染色体片段，所述样本被预期是二体的。在一些实施方案中，参考是一条不同于一条感兴趣染色体的片段，在正被测试的同一样本中。例如，参考可以是潜在缺失或重复区域之外的一个或多个片段。在被测试的同一染色体上具有一个参考，避免了不同染色体之间的差异，例如在代谢、细胞凋亡、组蛋白、灭活、和/或染色体之间扩增上的差异。分析不具有一个CNV的片段，在正在被测试的同一条染色体上，也可以被用于确定代谢、细胞凋亡、组蛋白、灭活、和/或同源物之间扩增上的差异，允许同源物之间的变异水平，在一个CNV缺失的情况下，其被确定以进行比较与来自于一个潜在CNV 的结果。在一些实施方案中，计算的和预期的等位基因比率之间的差异的幅度，对于一个潜在的CNV来说，大于所述参考的相应幅度，由此证实一个CNV的存在。

在一些实施方案中，参考染色体或染色体片段被用作一个对照，对于被预期存在一个CNV，例如一个特定的感兴趣的缺失或重复。在一些实施方案中，参考是来自于一个或多个不同样本的同一条染色体或染色体片段，已知或预期具有一个缺失或重复，在那条染色体或染色体片段上。在一些实施方案中，参照是来自于被检测样本的一条不同的染色体或染色体片段，其已知或预期具有一个CNV。在一些实施方案中，计算的和预期的等位基因比率之间差异的幅度(对于一个潜在的CNV)是相似的(例如没有显着不同)，与参考的相应幅度，对于所述CNV，从而证实一个CNV 的存在。在一些实施方案中，计算的和预期的等位基因比率之间差异的幅度(对于一个潜在的CNV)是低于(例如显着小于)参考的相应幅度的，对于所述CNV，从而证实一个CNV的缺失。在一些实施方案中，一个或多个基因位点处，一个癌细胞的基因型(或来自于一个癌细胞的DNA或 RNA，例如cfDNA或cfRNA)不同于一个非癌性细胞的基因型(或来自于非癌性细胞的DNA或RNA，例如cfDNA或cfRNA)，被用于确定肿瘤分数。所述肿瘤分数可以被用于确定是否第一同源染色体片段的拷贝数的过表达是由于第一同源染色体片段的一个重复或第二同源染色体片段的一个缺失。所述肿瘤分数也可以被用于确定一个重复的染色体片段或染色体的额外拷贝数(例如是否存在1，2，3，4或更多个额外拷贝)，例如去区分一个具有四个额外染色体拷贝以及一个肿瘤分数为10％的一个样本，从一个具有两个额外染色体拷贝以及一个肿瘤分数为20％的一个样本。肿瘤分数也可以被用于确定观察的数据与预期的数据的匹配程度，对于可能的CNV。在一些实施方案中，一个CNV的过表达的程度被用来选择一种特定的疗法或治疗方案，对于所述个体。例如，一些治疗剂是有效的，仅仅对于一个染色体片段的至少四个、六个、或更多个拷贝。

在一些实施方案中，用于确定肿瘤分数的一个或多个基因位点，是在一条参照染色体或染色体节段上，例如已知或预期是二倍体的一条染色体或染色体片段，很少被重复或缺失的一条染色体或染色体片段(在常见或特殊类型癌症的癌细胞中，其中一个个体被已知具有或增加的风险具有癌症)，或者不可能是非整倍体的一条染色体或染色体片段(这样的片段被预期会导致细胞死亡，如果删除或重复的话)。在一些实施方案中，本发明的任何方法被用于证实参考染色体或染色体片段是二倍体的，在癌细胞和非癌性细胞中。在一些实施方案中，一条或多条染色体或染色体片段(其对于一个二体性应答的置信度是高的)被使用。

可被用于确定肿瘤分数的示例性的基因位点包括一个癌细胞(或 DNA或RNA，例如来自于一个癌细胞的cfDNA或cfRNA)中的多态性或突变(例如SNP)，其不存在于一个非癌性细胞(或来自于非癌性细胞的DNA或RNA)中，在个体上。在一些实施方案中，所述肿瘤分数被确定，通过鉴定那些多态性基因位点，其中一个癌细胞(或者来自于一个癌细胞的DNA或RNA)具有一个在非癌性细胞(或者来自于非癌性细胞的DNA或RNA)中缺失的等位基因，在来自于一个个体的一个样本中(例如血浆样本或肿瘤活检样本)；以及利用癌细胞所特有的等位基因的量(在一个或多个鉴定的多态性基因位点上)，去确定样本中的肿瘤分数。在一些实施方案中，一个非癌性细胞是纯合性的，对于多态性基因位点处的第一等位基因，并且一个癌细胞是(i) 杂合性的，对于所述第一等位基因和第二等位基因，或者(ii)纯合性的，对于多态基因位点处的第二等位基因。在一些实施方案中，一个非癌性细胞是杂合性的，对于一个第一等位基因和一个第二等位基因，在多态性基因位点上，以及一个癌细胞是(i)具有一个或两个拷贝的一个第三等位基因，在多态性基因位点处。在一些实施方案中，癌细胞被假定或已知仅仅具有一个拷贝的等位基因，其并不存在于所述非癌性细胞中。例如，如果非癌性细胞的基因型是AA，癌细胞是AB，并且样本中那个基因位点处的信号的5％是来自于B等位基因，95％来自于A等位基因，则样本的肿瘤分数为10％。在一些实施方案中，癌细胞被假定或已知具有两个拷贝的等位基因，其并不存在于所述非癌性细胞中。例如，如果非癌性细胞的基因型是AA，癌细胞是BB，并且样本中那个基因位点处的信号的5％是来自于B等位基因，95％来自于A等位基因，则样本的肿瘤分数是5％。在一些实施方案中，癌细胞具有的而在非癌性细胞中没有的一个等位基因的多个基因位点被分析了，以确定哪些基因位点在癌细胞中是杂合性的，以及哪些是纯合性的。例如，对于在非癌性细胞中是AA的基因位点，如果来自于B等位基因的信号在一些基因位点处为约5％，在一些基因位点处为约10％，则所述癌细胞被认为是杂合性的在具有约5％B等位基因的基因位点处，纯合性的在具有约10％B等位基因的基因位点处(指示所述肿瘤分数为约10％)。

可被用于确定肿瘤分数的示例性的基因位点包括在一个癌细胞和非癌性细胞中具有一个共同等位基因的基因位点(例如癌细胞是AB 且非癌性细胞是BB的，或者癌细胞是BB且非癌性细胞是AB的基因位点)。A信号的量、B信号的量、或在一个混合样本中A与B信号的比率(含有来自于一个癌细胞和一个非癌性细胞的DNA或RNA) 被进行了比较，与相应的值对于(i)含有仅来自于癌细胞的DNA或 RNA的一个样本，或者(ii)含有仅来自于非癌性细胞的DNA或RNA 的一个样本。值的差异被用于确定所述混合样本的肿瘤分数。

在一些实施方案中，可以被用于确定肿瘤分数的基因位点被选择，基于所述基因型(i)含有仅来自于癌细胞的DNA或RNA的一个样本的，和/或(ii)含有仅来自于非癌性细胞的DNA或RNA的一个样本的。在一些实施方案中，基因位点被选择，基于混合样本的分析，例如每个等位基因的绝对或相对量不同于预期的基因位点，如果癌细胞和非癌性细胞都具有相同的基因型，在一个特定的基因位点处。例如，如果癌细胞和非癌性细胞具有相同的基因型，所述基因位点被预期产生0％的B信号，如果所有的细胞都是AA；50％的B信号，如果所有的细胞都是AB；或者100％的B信号，如果所有的细胞都是BB。针对于B信号的其他值表示癌细胞和非癌性细胞的基因型是不同的，在那个基因位点处，因此那个基因位点可以被用于确定肿瘤分数。

在一些实施方案中，所述肿瘤分数(基于等位基因计算的，在一个或多个基因位点处)被进行了比较，与计算的肿瘤分数(利用本文公开的一种或多种计数方法)。

示例性的方法，对于检测一个表型或分析多重突变

在一些实施方案中，所述方法包括分析一个样本，对于一组突变，与疾病或障碍(例如癌症)或一种疾病或障碍的增加的风险相关。存在有很强的相关性，在类别内(例如M或C癌症类别)的事件之间，其可以被用于改善一种方法的信噪比，并且将肿瘤分为不同的临床子集。例如，几个突变(例如几个CNV)的边缘结果，在联合考虑的一个或多个染色体或染色体片段上的，可能是一个非常强的信号。在一些实施方案中，确定多个感兴趣的多态性或突变(例如2，3，4，5，8， 10，12，15或更多)的存在与否，增加了灵敏度和/或特异性，对于确定一种疾病或障碍(例如癌症)或一种增加风险(对于一种疾病或障碍例如癌症)的存在与否。在一些实施方案中，跨越多条染色体的事件之间的相关性被用于更有力地观察信号，相比于单独地观察它们中的每一个。所述方法本身的设计可以被优化以最佳地分类肿瘤。这可能是非常有用的，对于早期检测和筛选一个可见的复发，其对一个特定突变/CNV的敏感度可能是最重要的。在一些实施方案中，所述事件不总是相关的，而是具有一个被相关的概率。在一些实施方案中，一个矩阵估计公式(具有非对角项的一个噪声协方差矩阵)被使用。

在一些实施方案中，本发明描述了一种方法，用于检测一个表型 (例如一个癌症表型)在一个个体中，其中所述表型被定义，通过一组突变中的至少一个的存在。在一些实施方案中，所述方法包括获得 DNA或RNA的测量，对于一个来自于个体一个或多个细胞的DNA或 RNA样本，其中一个或多个细胞被怀疑具有所述表型；分析DNA或 RNA的测量以确定，对于一组突变中的每个突变，至少一个细胞具有该突变的可能性。在一些实施方案中，所述方法包括确定个体具有所述表型，如果(i)对于至少一个突变，至少一个细胞含有那个突变的可能性大于一个阈值，或(ii)对于至少一个突变，至少一个细胞具有那个突变的可能性小于一个阈值，以及对于多个突变，至少一个细胞具有至少一个突变的组合可能性大于阈值。在一些实施方案中，一个或多个细胞具有突变集合的一个子集或所有突变。在一些实施方案中，突变子集与癌症或一个增加的癌症风险相关。在一些实施方案中，该组突变包括一个子集或所有突变，在M类癌症突变中(Ciriello，Nat Genet.45(10)：1127-1133，2013，doi：10.1038/ng.2762，其在此被作为参考文献全部引用入本文)。在一些实施方案中，该组突变包括一个子集或所有突变，在C类癌症突变中(Ciriello，supra)。在一些实施方案中，所述样本包括游离DNA或RNA。在一些实施方案中，所述DNA或RNA的测量包括在一组多态性基因位点处的测量，在一个或多个感兴趣的染色体或染色体片段上。

示例性的方法，用于永久性测试或遗传相关性测试

本发明的方法可以被用于改善亲子鉴定测试或其他遗传相关性测试的准确性(参见，例如2011年12月22日提交的美国公开号 2012/0122701，其在此被作为参考文献全部引用入本文)。例如，多重 PCR方法可以允许数千个多态性基因位点(例如SNP)被分析以用于本文所述的父母支持算法，以确定是否一个所谓的父本是一个胎儿的生物学父本。在一些实施方案中，本发明描述了一种方法，用于确定是否一个所谓的父本是一个怀孕母本所妊娠的胎儿的生物学父本。在一些实施方案中，所述方法涉及获得相位遗传数据，对于所谓的父本 (例如通过利用本文描述的另一种方法，用于定相遗传数据)，其中所述相位遗传数据包括等位基因的同一性，所述等位基因存在于一个第一同源染色体片段和一个第二同源染色体片段上的一组多态性基因位点的每个基因位点处，在所谓的父本中。在一些实施方案中，所述方法包括获得遗传数据，在染色体或染色体片段上的一组多态性基因位点处，在一个包含了胎儿DNA和母本DNA的一个混合DNA样本中 (来自于胎儿母亲的)，通过测量每个等位基因的量，在每个基因位点处。在一些实施方案中，所述方法包括计算，在一台计算机上，预期的遗传数据，对于混合的DNA样本，从所谓的父本的相位遗传数据中；确定，在一台计算机上，所谓的父本是胎儿的生物学父本的可能性，通过比较获得的遗传数据(在一个混合DNA样本上生成的)与混合DNA样本的预期遗传数据；以及确定是否所谓的父本是胎儿的生物学父本，利用确定了的所谓父本是胎儿生物学父本的概率。在一些实施方案中，所述方法包括获得相位遗传数据，对于胎儿的生物学母本(例如通过利用本文描述的另一种方法，用于定相遗传数据)，其中所述相位遗传数据包括等位基因的同一性，所述等位基因存在于一个第一同源染色体片段和一个第二同源染色体片段上的一组多态性基因位点的每个基因位点处，在母本中。在一些实施方案中，所述方法包括获得胎儿的相位遗传数据(例如通过利用本文描述的另一种方法，用于定相遗传数据)，其中所述相位遗传数据包括等位基因的同一性，所述等位基因存在于一个第一同源染色体片段和一个第二同源染色体片段上的一组多态性基因位点的每个基因位点处，在胎儿中。在一些实施方案中，所述方法包括技术，在一台计算机上，预期的遗传数据，对于混合的DNA样本，利用所谓父亲的相位遗传数据，以及利用母本的相位遗传数据和/或胎儿的相位遗传数据。

在一些实施方案中，本发明的特征是确定了所指父亲是否是母亲所怀胎儿的亲生父亲的方法。在一些实施方案中，此方法包括获得所指父亲的分阶段基因数据(比如通过本文中描述过的另外一种分阶段基因数据方法)，其中，该分阶段基因数据包括所指父亲的第一同源染色体片段和第二同源染色体片段上的整套多态性位点中的每个位点的等位基因的同一性。在一些实施方案中，此方法包括通过测量每个位点上的每个等位基因，来获得包含着胎儿DNA和胎儿母亲母体DNA的混合样品中染色体或染色体片段上的整套多态性位点的遗传数据。在一些实施方案中，此方法包括识别在胎儿DNA中而不在多态性位点的母体DNA中的等位基因(i)，和识别在胎儿DNA中和多态性位点的母体DNA中所缺失的等位基因(i)。在一些实施案例中，此方法包括在计算机上确定所指称父亲是胎儿的亲生父亲的概率；其中所述测定包括：(1)比较(i)存在于胎儿DNA中但在多态性位点的母体DNA中不存在的等位基因与(ii)来自所指父亲的遗传物质中的相应多态性位点的等位基因，和/或(2)将(i)胎儿DNA中存在的等位基因和多态性位点处的母体DNA与(ii)来自所指父亲的遗传物质中的相应多态性位点的等位基因进行比较；以及使用确定的所指父亲是胎儿的亲生父亲的概率来确定所指父亲是否是胎儿的亲生父亲。

在一些实施方案中，上述确定所指称父亲是否是胎儿的亲生父亲的方法用于确定所指胎儿的亲戚(例如祖父母，兄弟姐妹，阿姨或叔叔)是否是胎儿的实际亲缘关系(例如通过使用所指亲戚的遗传数据而不是所指父亲的遗传数据)。

示例性组合方法

为了提高结果的精度，进行用于检测CNV的存在或不存在的两种或更多种方法(例如本发明的任何方法或任何已知的方法)。在一些实施方案中，进行一种或多种用于分析指示疾病或病症的存在或不存在的因素或增加疾病或病症的风险的方法。(例如本文所述的任何方法或任何已知方法)。

在一些实施方案中，使用标准数学技术来计算两个或更多个方法之间的协方差和/或相关性。标准数学技术也可用于基于两个或多个测试来确定特定假设的组合概率。示例性技术包括荟萃分析，用于独立测试的费希尔联合概率测试，用于组合依赖p值与已知协方差的布朗方法，以及用于组合依赖p值与未知协方差的科斯特方法。在通过第一方法与第二方法确定似然性的方式正交或不相关的方式确定似然性的情况下，组合似然性是直接的并且可以通过乘法和归一化来完成，或者通过使用以下公式来完成：

Rcomb＝RlR2/[R1R2+(1-Rl)(l-R2)]

Rcomb是组合的似然性，Ri和R2是单独的似然性。例如，如果方法 1的三体性的可能性为90％，并且方法2的三体性的可能性为95％，则来自两种方法的组合输出允许临床医生推断胎儿是三体的，具有(0.90) (0.95)/[(0.90)(0.95)+(1-0.90)(1-0.95)]＝99.42％。在第一和第二方法不正交的情况下，即，在两种方法之间存在相关性的情况下，仍然可以组合似然性。

分析多个因素或变量的示例性方法公开于2011年9月20日授权的美国专利号.8,024,128；2006年7月31日提交的美国公开号2007/0027636；和2006年12月6日提交的美国公开号.2007/0178501，其各自通过引用整体并入本文)。

在各种实施方案中，特定假设或诊断的组合概率大于80，85，90， 92，94，96，98，99或99.9％，或大于某一其它阈值检测限

在一些实施方案中，本发明方法的突变(例如SNV或CNV)的检测限小于或等于10，5，2，1，0.5，0.1，0.05，0.01或0.005％。在一些实施方案中，本发明方法的突变(例如SNV或CNV)的检测限为15至 0.005％，例如包含10％至0.005％，10％至0.01％，10％至0.1％5％至 0.005％，5％至0.01％，5％至0.1％，1％至0.005％，1％至0.01％，1％至 0.1％，0.5％至0.005％，0.5％至0.01％，0.5％至0.1％或0.1％至0.01％。在一些实施方案中，检测限使得存在少于或等于10％，5％，2％，1％， 0.5％，0.1％，0.05％，0.01％或0.005％的突变(例如SNV或CNV)的检测的(或够被检测的)具有样品中该位点的DNA或RNA分子(例如 cfDNA或cfRNA的样品)。例如，即使小于或等于10％，5％，2％，1％， 0.5％，0.1％，0.05％，0.01％或0.005％的具有该位点中有突变的DNA或 RNA分子，也可以检测到突变(例如，代替位点的野生型或非突变形式或在该位点处的不同突变)。在一些实施方案中，检测限使得存在小于或等于10％，5％，2％，1％，0.5％，0.1％，0.05％，0.01％或0.005％的样品(例如cfDNA或cfRNA样品)中DNA或RNA分子的突变(例如SNV 或CNV)被检测到或者能够检测。在一些实施方案中，CNV是缺失。即使此缺失仅以小于或等于10％，5％，2％，1％，0.5％，0.1％，0.05％，0.01％或0.005％的DNA或RNA分子存在，也可以被检测到。这些DNA 或RNA分子具有包含或不包含样品中缺失的兴趣区。在一些实施方案中， CNV是缺失。即使此缺失仅以小于或等于10％，5％，2％，1％，0.5％， 0.1％，0.05％，0.01％或0.005％的DNA或RNA分子存在，也可以被检测到。在一些实施方案中，CNV是复制。即使存在的额外复制的DNA或 RNA小于或等于DNA或RNA分子的10％，5％，2％，1％，0.5％，0.1％， 0.05％，0.01％或0.005％，此复制也可以被检测到。这些DNA或RNA 分子具有包含或不包含在样品中复制的兴趣区。在一些实施方案中，CNV 是复制。即使存在的额外复制的DNA或RNA小于或等于样品中DNA 或RNA分子的10％，5％，2％，1％，0.5％，0.1％，0.05％，0.01％或 0.005％，此复制也可被检测到。范例6提供了用于计算检测限的示例性方法。在一些实施方案中，使用范例6的“LOD-zs5.0-mr5”方法。

示例性样品

在本发明的任何方面的一些实施方案中，样品包括来自怀疑具有缺失或复制的细胞和/或细胞外的遗传物质，例如怀疑为癌性的细胞。在一些实施方案中，样品包含怀疑含有具有缺失或复制的细胞，DNA或RNA(例如癌细胞，DNA或RNA)的任何组织或体液。可以对包含DNA或RNA 的任何样品进行作为这些方法的一部分的遗传测量，例如但不限于组织，血液，血清，血浆，尿，头发，眼泪，唾液，皮肤，指甲，淋巴，宫颈粘液，精液或包含核酸的其他细胞或材料。样品可以包括任何细胞类型，或者可以使用来自任何细胞类型的DNA或RNA(例如来自疑似癌性或神经元的任何器官或组织的细胞)。在一些实施方案中，样品包括核和/或线粒体DNA。在一些实施方案中，样品来自本文公开的任何目标个体。在一些实施方案中，目标个体是出生个体，妊娠胎儿，非妊娠胎儿，例如受孕样品，胚胎或任何其他个体的产品。

示例性样品包括含有cfDNA或cfRNA的样品。在一些实施方案中， cfDNA可用于分析而不需要裂解细胞的步骤。无细胞DNA可以从多种组织获得，例如液体形式的组织，如血液，血浆，淋巴，腹水或脑脊髓液。在一些情况下，cfDNA由源自胎儿细胞的DNA组成。在一些情况下， cfDNA由源自胎儿和母体细胞的DNA组成。在一些情况下，从已经离心以除去细胞物质的全血分离的血浆中分离cfDNA。cfDNA可以是源自靶细胞(例如癌细胞)和非靶细胞(例如非癌细胞)的DNA的混合物。

在一些实施方案中，样品含有或怀疑含有DNA(或RNA)的混合物，例如癌症DNA(或RNA)和非癌性DNA(或RNA)的混合物。在一些实施方案中，至少0.5％，1％，3％，5％，7％，10％，15％，20％，30％， 40％，50％，60％，70％，80％，90％，92％，94％，95％，96％，98％，99％或100％的样品中的细胞是癌细胞。在一些实施方案中，至少0.5％， 1％，3％，5％，7％，10％，15％，20％，30％，40％，50％，60％，70％， 80％，90％，92％，94％，95％，96％，98％，99％或100％样品中的DNA (例如cfDNA)或RNA(例如cfRNA)的百分比来自癌细胞。在各种实施方案中，作为癌细胞的样品中细胞的百分比为0.5至99％，例如包含1％至95％，5％至95％，10至90％，5％至70％，10％至70％20％至90％，或20％至70％。在一些实施方案中，样品富集癌细胞或来自癌细胞的DNA 或RNA。在其中样品富集癌细胞的一些实施方案中，至少0.5％、1％、3％、 5％、7％、10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、92％、94％、95％、96％、98％、99％或100％的富集样品中的细胞是癌细胞。在其中样品富集来自癌细胞的DNA或RNA的一些实施方案中，至少0.5％、1％、3％、5％、7％、10％、15％、20％、30％、40％、 50％、60％、70％、80％、90％、92％、94％、95％、96％、98％、99％或100％的富集样品中的DNA或RNA来自癌细胞。在一些实施方案中，使用细胞分选(例如荧光激活细胞分选)来富集癌细胞(Barteneva等人的Biochim Biophys Acta.1836(1)：105-22，2013年8月.doi：10.1016 /j.bbcan.2013.02.004.电子出版，2013年2月24日，和亚伯拉罕等人的“Adv Biochem Eng Biotechnol.106：19-39，2007，其各自通过引用整体并入本文)。

在本发明的任何方面的一些实施方案中，样品包括任何被怀疑至少部分是胎儿来源的组织。在一些实施方案中，样品包括来自胎儿的细胞和/ 或细胞外遗传物质，污染细胞和/或细胞外遗传物质(例如来自胎儿母亲的遗传物质)或其组合。在一些实施方案中，样品包含来自胎儿的细胞遗传物质，污染细胞遗传物质或其组合。

在一些实施方案中，样品来自妊娠胎儿。在一些实施方案中，样品来自非妊娠胎儿，例如胎儿死亡后受孕样品或来自任何胎儿组织的样品的产物。在一些实施方案中，样品是母体全血样品，从母体血液样品，母体血浆样品，母体血清样品，羊膜穿刺样品，胎盘组织样品(例如，绒毛膜绒毛，蜕膜或胎盘膜)，子宫颈粘液样品或来自胎儿的其他样品。在一些实施方案中，至少3％，5％，7％，10％，15％，20％，30％，40％， 50％，60％，70％，80％，90％，92％，94％，95％，96％，98％，99％或100％的细胞在样品中是母体细胞。在各种实施方案中，作为母体细胞的样品中的细胞百分比为5％至99％，例如10至95％，20至95％，30至90％，30至70％，40至90％40至70％，50至90％或50至80％。

在一些实施方案中，样品是富集胎儿细胞的。在其中样品富集胎儿细胞的一些实施方案中，富集样品中至少0.5％，1％，2％，3％，4％，5％， 6％，7％或更多的细胞是胎儿细胞。在一些实施方案中，样品中细胞作为胎儿细胞的百分比在0.5％-100％之间，例如包含了1％-99％，5％-95％， 10％-95％，10-％95％，20％-90％或30％～70％。在一些实施方案中，样品是富集胎儿DNA的。在其中样品富集胎儿DNA的一些实施方案中，富集样品中至少0.5％，1％，2％，3％，4％，5％，6％，7％或更多的 DNA是胎儿DNA。在一些实施方案中，样品中DNA作为胎儿DNA的百分比在0.5-100％之间，例如包含1％-99％，5％-95％，10％-95％，10-％ 95％，20％-90％或30％～70％。

在一些实施方案中，样品包括单个细胞或包括来自于单个细胞的 DNA和/或RNA。在一些实施方案中，平行地分析了多个个体细胞(例如，来自相同受试者或来自不同受试者的至少5，10，20，30，40或50个细胞)。在一些实施方案中，来自相同个体的多个样品的细胞被组合，这与分别分析样品相比减少了工作量。组合多个样品还可允许同时测试多种组织的癌症(其可以用于提供或更彻底地筛选癌症或确定癌症是否可能转移到其他组织)。

在一些实施方案中，样品含有单个细胞或少量细胞，例如2，3，5， 6，7，8，9或10个细胞。在一些实施方案中，样品具有1至100，100 至500或500至1,000个细胞，包括1和100个。在一些实施方案中，样品含有1至10皮克，10至100皮克，100皮克至1纳克，1至10纳克，10至100纳克，或100纳克至1微克的RNA和/或DNA。

在一些实施方案中，将样品包埋在石蜡膜中。在一些实施方案中，样品用防腐剂例如甲醛保存，并任选地包埋在石蜡中，这可引起DNA的交联，使其更少用于聚合酶链反应。在一些实施方案中，样品是甲醛固定- 石蜡包埋的样品。在一些实施方案中，样品是新鲜样品(例如用1或2天分析获得的样品)。在一些实施方案中，在分析之前冷冻样品。在一些实施方案中，样品是历史样品。

这些样品可用于本发明的任何方法中。

示例性样品制备方法

在一些实施方案中，所述方法包括分离或纯化DNA和/或RNA。存在本领域中已知的多种标准程序来实现这种目的。在一些实施方案中，样品可以离心以分离各层。在一些实施方案中，可以使用过滤分离DNA或 RNA。在一些实施方案中，DNA或RNA的制备可涉及扩增，分离，通过色谱法，液体液体分离，分离，优先富集，优先扩增，靶向扩增或本领域已知的许多其它技术中的任何技术。在用于分离DNA的一些实施方案中， RNA酶用于降解RNA。在用于分离RNA的一些实施方案中，使用DNase (例如来自Invitrogen，Carlsbad，CA，USA的DNase I)降解DNA。在一些实施方案中，使用RNeasy微型试剂盒(Qiagen)根据制造商的方案分离RNA。在一些实施方案中，根据制造商的方案使用mirVana PARIS 试剂盒(Ambion，Austin，TX，USA)分离小RNA分子(Gu等人， J.Neurochem.122：641-649，2012，通过引用整体并入)。RNA的浓度和纯度可任选地使用Nanovue(GE Healthcare，Piscataway，NJ，USA)测定，并且RNA完整性可任选地通过使用2100Bioanalyzer(Agilent Technologies，Santa Clara，CA，USA)J.Neurochem.122：641-649，2012，其通过引用整体并入本文)。在一些实施方案中，TRIZOL或RNAlater (Ambion)用于在储存期间稳定RNA。

在一些实施方案中，加入通用标记的接头以制备文库。在连接之前，样品DNA可以是平端的，然后将单个腺苷碱基添加到3-素端。在连接之前，可以使用限制酶或一些其它切割方法切割DNA。在连接期间，样品片段的3-素腺苷和衔接子的互补3-素酪氨酸突出端可以增强连接效率。在一些实施方案中，使用在安捷伦SureSelect的试剂盒中发现的连接试剂盒进行衔接子连接。在一些实施方案中，使用通用引物扩增文库。在一个实施方案中，通过大小分离或通过使用产物例如AGENCOURT AMPURE珠子或其它类似方法分级分离扩增的文库。在一些实施方案中，使用PCR 扩增来扩增靶位点。在一些实施方案中，对扩增的DNA测序(例如使用 ILLUMINA IIGAX或HiSeq测序仪测序)。在一些实施方案中，从扩增的 DNA的每个末端测序扩增的DNA以减少测序错误。如果在从扩增的DNA 的一端测序时在特定碱基中存在序列错误，则当从扩增的DNA的另一侧进行测序时，互补碱基中存在序列错误的可能性较小(与来自扩增的DNA 的相同末端)。

在一些实施方案中，全基因组应用(WGA)用于扩增核酸样品。有许多可用于WGA的方法：连接介导的PCR(LM-PCR)，简并寡核苷酸引物PCR(DOP-PCR)和多重置换扩增(MDA)。在LM-PCR中，称为衔接子的短DNA序列连接到DNA的末端。这些衔接子含有通用的扩增序列，用于通过PCR扩增DNA。在DOP-PCR中，也包含通用扩增序列的随机引物用于第一轮退火和PCR。然后，使用第二轮PCR用通用引物序列进一步扩增序列。MDA使用phi-29聚合酶，其是复制DNA并且已经用于单细胞分析的高度持续的和非特异性的酶。在一些实施例中，不执行WGA。

在一些实施方案中，选择性扩增或富集用于扩增或富集靶位点。在一些实施方案中，扩增和/或选择性富集技术可涉及PCR，例如连接介导的 PCR，通过杂交的片段捕获，分子反向探针或其它环化探针。在一些实施方案中，使用实时定量PCR(RT-qPCR)，数字PCR或乳液PCR，单等位基因碱基延伸反应，随后是质谱法(亨等，临床病理学杂志62：308-313，2009，其通过引用整体并入本文)。在一些实施方案中，通过与杂交捕获探针杂交的捕获用于优先富集DNA。在一些实施方案中，用于扩增或选择性富集的方法可以包括使用探针，其中在与靶序列正确杂交后，核苷酸探针的3-素末端或5-素末端与多态等位基因的多态性位点通过小数目的核苷酸。这种分离减少了一个等位基因的优先扩增，称为等位基因偏倚。这是涉及使用探针的方法的改进，其中正确杂交的探针的3-素末端或5- 素末端直接邻近或非常接近等位基因的多态性位点。在一个实施方案中，排除了其中杂交区可以或肯定含有多态性位点的探针。杂交位点的多态性位点可导致不等杂交或在一些等位基因中完全抑制杂交，导致某些等位基因的优先扩增。这些实施方案是涉及靶向扩增和/或选择性富集的其它方法的改进，因为它们更好地保留每个多态性位点处样品的原始等位基因频率，无论样品是来自单个个体或个体混合物的纯基因组样品。

在一些实施方案中，使用PCR(称为微型PCR)产生非常短的扩增子(2012年11月21日提交的美国申请号13/683,604，美国公开号 2013/0123120，美国申请号2011年11月18日提交的第13/300，235号美国专利申请，2011年11月18日提交的美国公开第2012/0270212号以及2014年5月16日提交的美国第61/994,791号美国专利，整体)。cfDNA (例如母体血清中的胎儿cfDNA或坏死或凋亡释放的癌症cfDNA)是高度片段化的。对于胎儿cfDNA，片段大小以大约平均值为160bp的高斯形式分布，标准偏差为15bp，最小为约100bp，最大为约220bp。一个特定靶位点的多态性位点可以占据源自该位点的各种片段中从开始到结束的任何位置。因为cfDNA片段短，所以存在两个引物位点的可能性，包含正向和反向引物位点的长度为L的片段的可能性是扩增子的长度与片段的长度的比率。在理想条件下，其中扩增子为45，50，55，60，65或70bp 的测定法将分别成功地从72％，69％，66％，63％，59％或56％模板片段分子。在某些实施方案中，最优选涉及疑似患有癌症的个体的样品的 cfDNA，使用产生最大扩增子长度为85，80，75或70bp，在某些优选实施方案中为75bp的引物扩增cfDNA，具有50至65℃的熔融温度；在某些优选实施方案中，为54-60.5℃。扩增子长度是正向和反向引发位点的 5-素末端之间的距离。比本领域已知的那些通常使用的更短的扩增子长度可以通过仅需要短的序列读取来更有效地测量所需的多态性位点。在一个实施方案中，大部分的扩增子小于100bp，小于90bp，小于80bp，小于 70bp，小于65bp，小于60bp，小于55bp，小于50bp，或小于45bp。

在一些实施方案中，使用直接多重PCR，连续PCR，巢式PCR，双重嵌套PCR，一侧和半侧嵌套PCR，完全嵌套PCR，单侧完全嵌套PCR，单侧巢式PCR，嵌套PCR，半嵌套PCR，三重半嵌套PCR，半嵌套PCR，单侧半嵌套PCR，反向半嵌套PCR方法或单侧PCR，其描述于2012年 11月21日提交的美国申请号13/683,604，2011年11月18日提交的美国申请号13/300,235，美国公开号2012/0270212，和2014年5月16 日提交的申请61/994,791，其全部内容通过引用并入本文。必要时，这些方法中的任何一个可以用于微型PCR。

必要时，可以从时间角度来限制PCR扩增的延伸步骤以减少来自长于200个核苷酸，300个核苷酸，400个核苷酸，500个核苷酸或1000个核苷酸的片段的扩增。这可以导致片段化或更短的DNA(例如胎儿DNA 或者来自已经历凋亡或坏死的癌细胞的DNA)的富集和测试性能的改善。

在一些实施方案中，使用多重PCR。在一些实施方案中，扩增核酸样品中的靶位点的方法包括(i)使核酸样品与引物文库接触，所述引物文库同时与至少100；200；500；750；1,000；2,000；5,000；7,500；10, 000；20,000；25,000；30,000；40,000；50,000；75,000；或100, 000个不同的靶位点以产生反应混合物；和(ii)使反应混合物经历引物延伸反应条件(例如PCR条件)以产生包括靶扩增子的扩增产物。在一些实施方案中，至少50％，60％，70％，80％，90％，95％，96％，97％， 98％，99％或99.5％的靶向位点被扩增。在各种实施方案中，少于60％， 50％，40％，30％，20％，10％，5％，4％，3％，2％，1％，0.5％，0.25％，0.1％或0.05％的扩增产物是引物二聚体。在一些实施方案中，引物在溶液中(例如溶解在液相而不是固体中)。在一些实施方案中，引物在溶解状态中并且不固定在固体支持物上。在一些实施方案中，引物不是微阵列的一部分。在一些实施方案中，引物不包括分子反向探针(MIP).

在一些实施方案中，将两个或更多个(例如3或4个)靶扩增子(例如来自本文公开的miniPCR方法的扩增子)连接在一起，然后对连接的产物测序。将多个扩增子组合成单个连接产物提高了后续测序步骤的效率。在一些实施方案中，靶标扩增子在它们连接之前长度小于150，100，90， 75或50个碱基对。选择性富集和/或扩增可以包括用不同标签，分子条形码，用于扩增的标签和/或用于测序的标签标记每个单独的分子。在一些实施方案中，通过测序(例如通过高通量测序)或通过与阵列例如SNP阵列，ILLUMINA INFINIUM阵列或AFFYMETRIX基因芯片杂交来分析扩增产物。在一些实施方案中，使用纳米孔测序，例如由吉尼亚开发的纳米孔测序技术(参见，例如，万维网geniachip.com/technology，其通过引用整体并入本文)。在一些实施方案中，使用双链测序(施密特等人的，“通过下一代测序检测超罕见突变，”美国国家科学院院.美国.109(36)： 14508-14513，2012，其通过引用全部并入本文)。该方法通过独立地标记和测序DNA双链体的两条链的每一条来大大减少错误。由于两条链是互补的，在两条链中的相同位置发现真正的突变。相比之下，PCR或测序错误仅在一条链中导致突变，并且因此可以作为技术错误折扣。在一些实施方案中，该方法需要随机用互补的双链核苷酸序列标记双链体DNA的两条链，称为双链体。通过首先将单链随机化核苷酸序列引入一个衔接子链，然后用DNA聚合酶延伸相反链来产生互补的双链标签，将双链标签序列掺入标准测序衔接子中。将标记的接头连接到剪切的DNA后，从适体尾部的不对称引物位点PCR扩增单独标记的链，并进行配对末端测序。在一些实施方案中，将样品(例如DNA或RNA样品)分成多个级分，例如不同的孔(例如，晶圆创智能芯片的孔)。将样品分成不同的级分(例如至少5，10，20，50，75，100，150，200或300个级分)可以提高分析的灵敏度，因为具有突变的分子的百分比在一些孔中比在总体样品中高。在一些实施方案中，每个级分具有小于500，400，200，100，50，20，10， 5，2或1个DNA或RNA分子。在一些实施方案中，每个部分中的分子分别测序。在一些实施方案中，将相同条形码(例如随机或非人序列)添加到相同级分中的所有分子(例如通过用含有条形码的引物扩增或通过连接条形码)和不同的条形码加入到不同级分中的分子。条形码分子可以汇集并一起测序。在一些实施方案中，在合并和测序之前，例如通过使用巢式PCR，扩增分子。在一些实施方案中，使用一个正向和两个反向引物，或两个正向和一个反向引物。

在一些实施方案中，存在于样品中的DNA或RNA分子的少于10％， 5％，2％，1％，0.5％，0.1％，0.05％，0.01％或0.005％中的突变(例如 SNV或CNV)(例如作为cfDNA或cfRNA的样品)(或能够被检测)。在一些实施方案中，存在于小于1,000，500，100，50，20，10，5，4， 3或2个原始DNA或RNA分子(扩增前)的突变(例如SNV或CNV) 是被检测的(或能够检测到的)样品(例如来自例如血液样品的cfDNA 或cfRNA的样品)。在一些实施方案中，仅存在于样品(例如来自例如血液样品的cfDNA或cfRNA的样品)中的1个原始DNA或RNA分子(扩增前)的突变(例如SNV或CNV)是被检测的(或能够检测到的)。

例如，如果突变(例如单核苷酸变异体(SNV))的检测限为0.1％，则可以通过将级分分成多个部分(例如100个孔)来检测存在于0.01％的突变。大多数孔没有突变的拷贝。对于具有突变的几个孔，突变在读取的百分比高得多。在一个实施例中，来自靶位点的DNA有20,000个初始拷贝，并且那些拷贝中的两个包括目的SNV。如果样品分为100个孔， 98个孔具有SNV，2个孔具有0.5％的SNV。每个孔中的DNA可以被条码，扩增，与来自其他孔的DNA合并，并测序。没有SNV的孔可以用于测量背景扩增/测序错误率，以确定来自离群孔的信号是否高于噪声的背景水平。

在一些实施方案中，使用阵列，例如阵列，特别是具有针对一个或多个目的染色体(例如，染色体13，18，21，X，Y或其任何组合)的探针的微阵列来检测扩增产物。应当理解，例如，可以使用市售的SNP检测微阵列，例如亿明达公司(圣地亚哥，化学文摘)GoldenGate，DASL， Infmium或CytoSNP-12基因分型测定或来自美国昂飞公司的SNP检测微阵列产物，例如OncoScan微阵列。在一些实施方案中，胚胎或胎儿的一个或两个生物学亲本的定相基因数据用于提高来自单个细胞的阵列数据的分析的准确性。

在涉及测序的一些实施方案中，读数的深度是映射到给定位点的测序读数的数量。可以在读取的总数上对读取的深度进行归一化。在一些实施方案中，对于样本的读取深度，读取深度是在目标位点上读取的平均深度。在一些实施方案中，对于位点的读取深度，读数的深度是由测序仪测量的读数的数目，其定位到该位点。通常，位点的阅读深度越大，位点处等位基因的比率越接近于原始DNA样品中等位基因的比例。读数深度可以以多种不同的方式表示，包括但不限于百分比或比例。因此，例如在高度平行的DNA测序仪，例如Illumina HISEQ中，其例如产生1百万个克隆的序列，一个位点的测序3000次导致在该位点读取深度为3,000个读数。在该位点处的读数的比例为3,000除以1百万总读数，或总读数的0.3％。

在一些实施方案中，获得等位基因数据，其中等位基因数据包括指示多态位点的特定等位基因的拷贝数的定量测量。在一些实施方案中，等位基因数据包括指示在多态位点处观察到的每个等位基因的拷贝数的定量测量。通常，对感兴趣的多态性位点的所有可能的等位基因获得定量测量。例如，可以使用前面段落中讨论的用于确定SNP或SNV位点的等位基因 (例如微阵列，qPCR，DNA测序，例如高通量DNA测序)的任何方法来产生多态位点的特定等位基因的拷贝数。这种定量测量在本文中称为等位基因频率数据或测量的遗传等位基因数据。使用等位基因数据的方法有时称为定量等位基因方法；这与仅使用来自非多态性位点的定量数据或来自多态性位点但不考虑等位基因同一性的定量方法相反。当使用高通量测序测量等位基因数据时，等位基因数据通常包括映射到目标位点的每个等位基因的读数数目。

在一些实施方案中，获得非等位基因数据，其中非等位基因数据包括指示特定位点的拷贝数的定量测量。位点可以是多态性或非多态性的。在一些实施方案中，当位点是非多态性的时，非等位基因数据不包含关于可能存在于该位点处的个别等位基因的相对或绝对数量的信息。仅使用非等位基因数据的方法(即，来自非多态性等位基因的定量数据或来自多态位点的定量数据，但不考虑每个片段的等位基因同一性)被称为定量方法。通常，对感兴趣的多态性位点的所有可能的等位基因获得定量测量，其中一个值总共与该位点处所有等位基因的测量量相关联。多态位点的非等位基因数据可以通过对该位点处每个等位基因的定量等位基因求和来获得。当使用高通量测序测量等位基因数据时，非等位基因数据通常包括映射到感兴趣的位点的读数的数量。测序测量可以指示存在于位点处的每个等位基因的相对和/或绝对数，并且非等位基因数据包括读取的总和，而不管等位基因同一性，映射到位点。在一些实施方案中，同一组测序测量可用于产生等位基因数据和非等位基因数据。在一些实施方案中，等位基因数据用作确定目标染色体拷贝数的方法的一部分，并且所产生的非等位基因数据可用作确定目标染色体上拷贝数的不同方法的一部分。在一些实施方案中，这两种方法是统计学上正交的，并且组合以更准确地确定感兴趣的染色体上的拷贝数。

在一些实施方案中，获得遗传数据包括(i)通过实验室技术，例如通过使用自动化高通量DNA测序仪获得DNA序列信息，或(ii)获得先前通过实验室技术获得的信息，其中信息例如通过互联网上的计算机或通过来自测序装置的电子传送来电子传送。

另外的示例性样品制备，扩增和定量方法描述于2012年11月21日提交的美国申请号13/683,604(美国公开号2013/0123120和2014年5 月16日提交的美国申请号61/994,791，其通过引用整体并入本文)。这些方法可用于分析本文公开的任何样品。

用于无细胞DNA的示例性定量方法

必要时，可以使用标准方法测量cfDNA或cfRNA的量或浓度。在一些实施方案中，测定无细胞线粒体DNA(cf mDNA)的量或浓度。在一些实施方案中，确定源自核DNA(cf nDNA)的无细胞DNA的量或浓度。在一些实施方案中，同时测定cf mDNA和cf nDNA的量或浓度。

在一些实施方案中，qPCR用于测量cfnDNA和/或cfm DNA(科勒等人“血浆循环细胞游离核和线粒体DNA水平作为乳腺肿瘤的潜在生物标志物”，摩尔癌症8：105，2009，8：doi：10.1186/1476-4598-8-105，其通过引用整体并入本文)。例如，可以使用多重qPCR测量来自cf nDNA (例如甘油醛-3-磷酸脱氢酶，GAPDH)的一个或多个位点和来自cf mDNA (ATP酶8，MTATP 8)的一个或多个位点。在一些实施方案中，使用荧光标记的PCR来测量cfnDNA和/或cf mDNA(施瓦岑巴赫等人，“评估乳腺癌和良性乳腺疾病患者的无细胞肿瘤DNA和RNA。”摩尔生物系统7： 2848-2854，2011，其通过引用整体并入本文)。必要时，可以使用标准方法，例如Shapiro-Wilk-Test来确定数据的正态分布。必要时，可以使用标准方法比如nnDNA和mDNA水平进行比较，例如 Mann-Whitney-U-Test。在一些实施方案中，使用标准方法例如Mann-Whitney-U-检验或Kruskal-Wallis检验将cfnDNA和/或mDNA水平与其它建立的预后因子进行比较。

示例性RNA扩增，定量和分析方法

任何以下示例性方法可用于扩增和任选地定量RNA，例如cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA， miRNA，线粒体RNA，rRNA或tRNA。在一些实施方案中，微RNA是在mirbase.org的万维网上可获得的数据库数据库中列出的任何miRNA分子，其通过引用整体并入本文。示例性微RNA分子包括miR-509；21和微R-146a。

在一些实施方案中，使用逆转录酶多重连接依赖性探针扩增 (RT-MLPA)来扩增RNA。在一些实施方案中，每组杂交探针由跨越SNP 和一个长寡核苷酸的两个短合成寡核苷酸组成(李等人“Arch Gynecol Obstet。”通过RT-MLPA与一组新的SNP标记的非侵入性产前诊断21三体的发展“，2013年7月5日，DOI 10.1007/s00404-013-2926-5；斯考滕等人”通过多重连接依赖性探针扩增相对定量40个核酸序列“，核酸研究 30：e57，2002；登格等人(2011)u非侵入性产前诊断的21三体通过逆转录酶多重连接依赖性探针扩增，“中国，化学.检验医学.49：641-646， 2011，其各自通过引用整体并入本文)。

在一些实施方案中，用逆转录酶PCR扩增RNA。在一些实施方案中，用实时逆转录酶PCR扩增RNA，例如如先前所述的使用嵌合荧光法的一步实时逆转录酶PCR(李等人“ArchGynecol Obstet。”利用一组新的SNP 标记物通过RT-MLPA开发三体性21的非侵入性产前诊断，“2013年7月 5日，DOI 10.1007/s00404-013-2926-5；罗等人“血浆胎盘RNA等位基因比允许非侵入性产前染色体非整倍性检测，”自然·医学13：218-223，2007；徐等人“基于微阵列的胎盘mRNA在母体血浆中的鉴定：朝向非侵入性产前基因表达谱“。中华医学遗传学杂志41：461-467，2004；顾等人“神经化学杂志.122：641-649，2012，其各自通过引用整体并入本文)。

在一些实施方案中，使用微阵列来检测RNA。例如，可以根据制造商的方案使用来自安捷伦科技公司的人类微阵列分析。简言之，将分离的 RNA脱磷酸化并与pCp-Cy3连接。基于Sanger miRBase释放14.0，将标记的RNA纯化并与包含用于人成熟微RNA的探针的微RNA阵列杂交。使用微阵列扫描仪(G2565BA，安捷伦科技公司)洗涤和扫描阵列。通过Agilent提取软件v9.5.3评价每个杂交信号的强度。标记，杂交和扫描可以根据安捷伦微RNA微阵列系统(顾等人“J.Neurochem.122：641-649，2012，其通过引用整体并入本文)中的方案进行。

在一些实施方案中，使用TaqMan测定法来检测RNA。示例性测定法是水解探针数组人类微小RNA面板vl.O(预览版)(美国应用生物系统公司)，其包含157个水解探针微RNA测定，包括各自的反转录引物，PCR 引物和水解探针(詹等人，“母体血浆中胎盘微RNA的检测和表征，”中国化学.54(3)：482-90，2008，其通过引用整体并入本文)。

必要时，可以使用标准方法(法克塔尔和戈德利，疾病模型和机制1： 37-42，2008，doi：10.1242/dmm.000331，其通过引用并入本文)测定一种或多种mRNA的mRNA剪接模式其全部)。例如，高密度微阵列和/ 或高通量DNA测序可用于检测mRNA剪接变体。

在一些实施方案中，使用全转录组鸟枪法测序或阵列来测量转录组。

示例性扩增方法

已经开发了改进的PCR扩增方法，其用于最小化或防止由于在相同反应体积(例如同时扩增所有靶位点的样品多重PCR反应的部分)中邻近或相邻靶位点的扩增而引起的干扰。这些方法可以用于同时扩增邻近或相邻靶位点，其比必须将附近靶位点分离到不同反应体积中更快和更便宜，使得它们可以单独扩增以避免干扰。

在一些实施方案中，使用具有低5'→3r外切核酸酶和/或低链置换活性的聚合酶(例如，DNA聚合酶，RNA聚合酶或逆转录酶)进行靶位点的扩增。在一些实施方案中，低水平的5'→3r外切核酸酶降低或防止附近引物(例如，未延伸的引物或在引物延伸期间具有添加的一个或多个核苷酸的引物)的降解。在一些实施方案中，低水平的链置换活性降低或防止邻近引物(例如，未延伸引物或在引物延伸期间具有一个或多个核苷酸添加的引物)的置换。在一些实施方案中，彼此相邻的靶位点(例如，靶位点之间没有碱基)或附近(例如，位点在50个，40个，30个，20个， 15个，10个，9个，8个，7个，6个，5个，4个，3个，2个或1个碱基)。在一些实施方案中，一个位点的3'末端在5'末端的50，40，30，20， 15，10，9，8，7，6，5，4，3，2或1个碱基内的下游位点。

在一些实施方案中，至少100，200，500，750，1,000；2,000；5, 000；7,500；10,000；20,000；25,000；30,000；40,000；50,000； 75,000；或100,000个不同的靶位点，例如通过在一个反应体积中同时扩增来扩增。在一些实施方案中，至少50％，60％，70％，80％，90％，95％，96％，97％，98％，99％或99.5％的扩增产物是靶扩增子。在多个实施方案中，作为靶扩增子的扩增产物的量为50-99.5％，例如60-99％， 70-98％，80-98％，90-99.5％或95-99.5％。在一些实施方案中，至少50％， 60％，70％，80％，90％，95％，96％，97％，98％，99％或99.5％的靶向位点被扩增(例如，扩增至少5，10，20，30，50，或100倍)，例如通过在一个反应体积中同时扩增。在多个实施方案中，被扩增(例如，与扩增前相比，扩增至少5，10，20，30，50或100倍)的靶位点的量为50 至99.5％，例如60％至99％，70至98％，80％至99％，90％至99.5％， 95％至99.9％或98％至99.99％。在一些实施方案中，产生更少的非靶扩增子，例如从来自第一引物对的正向引物和来自第二引物对的反向引物形成的较少扩增子。如果例如来自第一引物对的反向引物和/或来自第二引物对的正向引物降解和/或置换，则可以使用现有扩增方法产生这种不期望的非靶扩增子。

在一些实施方案中，这些方法允许使用更长的延伸时间，因为与延伸的引物结合的聚合酶不太可能降解和/或置换给定低5→3r核酸外切酶的附近引物(例如下一个下游引物)，和/或聚合酶的低链置换活性。在各种实施方案中，使用反应条件(例如延伸时间和温度)，使得聚合酶的延伸速率允许添加到引物延伸的核苷酸数目等于或大于80，90，95，100，110，120，130，140，150，175或200％的引物结合位点的3'端和相同链上下一个下游引物结合位点的5'端之间的核苷酸数目。

在一些实施方案中，使用DNA聚合酶，使用DNA作为模板产生DNA 扩增子。在一些实施方案中，使用RNA聚合酶使用DNA作为模板产生 RNA扩增子。在一些实施方案中，使用逆转录酶，使用RNA作为模板产生cDNA扩增子。

在一些实施方案中，聚合酶的低水平的5'→3’外切核酸酶小于相同量的栖热菌的活性的80％，70％，60％，50％，40％，30％，20％，10％， 5％，1％或0.1％水生聚合酶(“Taq”聚合酶，其是来自嗜热细菌的常用 DNA聚合酶，PDB 1BGX，EC 2.7.7.7，穆拉利等人“TaqDNA聚合酶与抑制性Fab复合物的晶体结构：Fab是针对酶的螺旋-线圈动力学的中间体，“美国国家科学院院刊95：12562-12567，1998，其通过引用整体并入本文) 在相同条件下进行。在一些实施方案中，聚合酶的低水平的链置换活性小于相同量的Taq聚合酶的活性的80％，70％，60％，50％，40％，30％， 20％，10％，5％，1％或0.1％在相同条件下。

在一些实施方案中，聚合酶是PUSHION DNA聚合酶，诸如PHUSION 高保真DNA聚合酶(M0530S，新英格兰生物学实验室有限公司)或 PHUSION热启动屈DNA聚合酶(M0535S，新英格兰生物学实验室有限公司；弗雷伊和苏裴曼，生物化学2：34-35，1995；切斯特和马沙克分析生物化学209：284-290，1993，其各自通过引用整体并入本文)。PHUSION DNA聚合酶是与持续增强结构域融合的热球菌-XikQ酶。PHUSION DNA 聚合酶具有5’→3’聚合酶活性和5’外切核酸酶活性，并产生平端产物。 PHUSION DNA聚合酶缺乏5’→3’核酸外切酶活性和链置换活性。

在一些实施方案中，聚合酶是DNA聚合酶，例如高保真DNA聚合酶(M0491S，新英格兰生物学实验室有限公司)或Hot Start High-Fidelity DNA聚合酶(M0493S，新英格兰生物学实验室有限公司)。

高保真 DNA聚合酶是具有3'→5'核酸外切酶活性的高保真，热稳定的DNA聚合酶，融合到持续增强的Sso7d结构域。

高保真DNA聚合酶缺乏3’核酸外切酶活性和链置换活性。

在一些实施方案中，聚合酶是T4 DNA聚合酶(M0203S，新英格兰生物学实验室有限公司；塔博尔和西图.(1989)。“DNA依赖性DNA聚合酶”，阿什贝尔等人(版)，分子生物学的当前协议。3.5.10-3.5.12。纽约：约翰威利父子公司，1989；萨姆布鲁克等人。分子克隆:实验手册.(第二版)，5.44-5.47。冷泉港实验室:冷泉港实验室出版社，1989，其各自通过引用整体并入本文))。T4 DNA聚合酶催化DNA在5'→3'方向的合成，需要模板和引物的存在。该酶具有3'→5'核酸外切酶活性，其比在DNA聚合酶I中发现的活性高得多.T4 DNA聚合酶缺乏3’外切核酸酶活性和链置换活性。

在一些实施方案中，聚合酶是硫化叶菌DNA聚合酶IV(M0327S，新英格兰生物学实验室有限公司；(伯德索等人(2001).核酸研究，29： 4607-4616，2001；麦克唐纳，2006)。核酸研究“34：1102-1111，2006，其各自通过引用整体并入本文)。磺基芽孢杆菌DNA聚合酶IV是热稳定的Y家族病变旁路DNA聚合酶，其在多种DNA模板病变麦克唐纳，JP 等人(2006).核酸研究，34，1102-1111，其通过引用整体并入本文)。硫化叶菌DNA聚合酶IV缺乏5'→3'核酸外切酶活性和链置换活性。

在一些实施方案中，如果引物结合具有SNP的区域，则引物可以以不同效率结合和扩增不同等位基因，或者可以仅结合和扩增一个等位基因。对于杂合的受试者，等位基因之一可能不被引物扩增。在一些实施方案中，为每个等位基因设计引物。例如，如果存在两个等位基因(例如，双等位基因SNP)，则两个引物可用于结合靶基因座的相同位置(例如，正向引物结合“A”等位基因，正向引物结合“B”等位基因)。标准方法，例如核苷酸多态性数据库，可以用于确定已知SNP的位置，例如具有高杂合率的SNP热点。

在一些实施方案中，扩增子的大小相似。在一些实施方案中，靶扩增子的长度范围小于100，75，50，25，15，10或5个核苷酸。在一些实施方案中(例如扩增片段化的DNA或RNA中的靶基因座)，靶扩增子的长度为50至100个核苷酸，例如60至80个核苷酸或60至75个核苷酸。在一些实施方案中(例如在整个外显子或基因中扩增多个靶基因座)，靶扩增子的长度为100至500个核苷酸，例如150至450个核苷酸，200至 400个核苷酸，200至300个核苷酸，或300和400个核苷酸。

在一些实施方案中，使用引物对同时扩增多个靶基因座，所述引物对包括用于在该反应体积中待扩增的每个靶基因座的正向和反向引物。在一些实施方案中，用每个靶基因座的单个引物进行一轮PCR，然后用每个靶基因座的引物对进行第二轮PCR。例如，第一轮PCR可以使用每个靶基因座的单个引物进行，使得所有引物结合相同链(例如使用每个靶基因座的正向引物)。这允许PCR以线性方式扩增，并减少或消除由于序列或长度差异导致的扩增子之间的扩增偏差。在一些实施方案中，然后使用每个靶基因座的正向和反向引物扩增扩增子。

示例性引物设计方法

必要时，可以使用形成引物二聚体的可能性降低的引物进行多重 PCR。特别地，高度多重PCR常常导致产生非常高比例的产物DNA，其由非生产性副反应如引物二聚体形成产生。在一个实施方案中，可能从引物文库中除去最可能导致非生产性副反应的特定引物，得到引物文库，其将导致更大比例的映射到基因组的扩增DNA。除去有问题的引物，即特别可能固定二聚体的那些引物出乎意料地能够通过测序用于随后的分析的极高的PCR复制水平。

有多种方法为文库选择引物，其中非定位引物二聚体或其它引物淘漏产物的量被最小化。经验数据表明少量“不良”引物负责大量的非定位引物二聚体副反应。去除这些“坏”引物可以增加映射到靶向位点的序列读数的百分比。鉴定“坏”引物的一种方法是观察通过靶向扩增的DNA测序数据；可以去除以最大频率看到的那些引物二聚体，以产生不太可能导致不与基因组作图的副产物DNA的引物文库。还可计算各种引物组合的结合能的公开的程序，并且除去具有最高结合能的程序也将产生不太可能导致不与基因组作图的副产物DNA的引物文库。

在用于选择引物的一些实施方案中，通过对候选靶位点设计一个或多个引物或引物对产生候选引物的初始文库。可基于靶位点的期望参数(例如靶细胞群内的SNP的频率或SNP的杂合率)的公开信息来选择一组候选靶位点(例如SNP)。在一个实施方案中，可以使用Primer3程序(全球网在primer3.sourceforge.net；libprimer3发行2.2.3，其通过引用整体并入本文)设计PCR引物。必要时，引物可设计为在特定退火温度范围内退火，具有特定范围的GC含量，具有特定尺寸范围，产生特定尺寸范围内的靶扩增子和/或具有其它参数特征。从每个候选靶位点的多个引物或引物对开始，增加引物或引物对将保留在文库中用于大多数或所有靶位点的可能性。在一个实施方案中，选择标准可能需要每个靶位点至少一个引物对保留在文库中。这样，当使用最终引物文库时，大多数或所有靶位点将被扩增。这对于诸如在基因组中的大量位置筛选缺失或重复或筛选与疾病相关的大量序列(例如多态性或其他突变)或增加的疾病风险的应用是理想的。如果来自文库的引物对将产生与由另一引物对产生的目标扩增子重叠的靶扩增子，则可以从文库中除去引物对之一以防止干扰。

在一些实施方案中，对来自候选引物文库的两种引物的大多数或所有可能组合计算“不合意性得分”(表示最低需要的较高得分)(例如在计算机上计算)。在各种实施方案中，对文库中候选引物的可能组合的至少 80％，90％，95％，98％，99％或99.5％计算不合意性得分。每个不合意性得分至少部分基于两个候选引物之间形成二聚体的可能性。必要时，不合意性得分还可以基于选自以下的一个或多个其他参数：靶位点的杂合率，与靶位点处的序列(例如，多态性)相关的疾病流行率，与靶位点处的序列(例如多态性)，候选引物对靶位点的特异性，候选引物的大小，靶扩增子的解链温度，靶扩增子的GC含量，靶扩增子的扩增效率，靶扩增子的大小，以及距重组热点的中心的距离。在一些实施方案中，候选引物对靶位点的特异性包括候选引物通过结合和扩增除其设计为扩增的靶位点之外的位点而错配的可能性。在一些实施方案中，从文库中去除一个或多个或所有错填的候选引物。在一些实施方案中，为了增加选择的候选引物的数目，可以不从文库中去除错误引物的候选引物。如果考虑多个因素，则可以基于各种参数的加权平均来计算不合意性分数。基于它们对于将使用引物的特定应用的重要性，可以向参数分配不同的权重。在一些实施方案中，从文库中除去具有最高不合意得分的引物。如果去除的引物是与一个靶位点杂交的引物对的成员，则引物对的另一个成员可以从文库中去除。可以根据需要重复去除引物的过程。在一些实施方案中，进行选择方法，直到保留在文库中的候选引物组合的不合意性得分全部等于或低于最小阈值。在一些实施方案中，进行选择方法，直到库中剩余的候选引物的数目减少到所需数目。

在各种实施方案中，在计算不合意性得分之后，从库中去除作为具有高于第一最小阈值的不合意性得分的两个候选引物的最大数目的组合的一部分的候选引物。该步骤忽略等于或低于第一最小阈值的相互作用，因为这些相互作用不明显。如果去除的引物是与一个靶位点杂交的引物对的成员，则引物对的另一个成员可以从文库中去除。可以根据需要重复去除引物的过程。在一些实施方案中，进行选择方法，直到保留在文库中的候选引物组合的不合意性得分全部等于或低于第一最小阈值。如果保留在文库中的候选引物的数目高于期望值，则可以通过将第一最小阈值降低至较低的第二最小阈值并重复去除引物的过程来减少引物的数目。如果文库中剩余的候选引物的数量低于期望值，则可以通过将第一最小阈值增加至更高的第二最小阈值并重复使用原始候选引物文库去除引物的过程来继续该方法，从而允许更多的候选引物保留在文库中。在一些实施方案中，进行选择方法，直到保留在文库中的候选引物组合的不合意性得分全部等于或低于第二最小阈值，或直到文库中剩余的候选引物的数目减少到所需数目。

如果需要，产生与另一引物对产生的靶扩增子重叠的靶扩增子的引物对可以分成单独的扩增反应。应用多重PCR扩增反应可能是理想的，期望分析所有候选目标轨迹是可行的(而不是由于重叠靶扩增子从分析中省略候选靶位点)。

这些选择方法使必须从文库中去除的候选引物的数目最小化以实现引物二聚体的所需数量减少。通过从文库中除去较少数量的候选引物，可以使用所得引物文库扩增更多(或全部)靶位点。

复用大量引物对可以包括的测定施加相当大的约束。无意间相互作用的测定导致假扩增产物。微PCR的大小约束可能导致进一步的约束。在一个实施方案中，可能开始于非常大量的潜在SNP靶(在约500至大于1 百万之间)，并尝试设计引物以扩增每个SNP。在可以设计引物的情况下，可以尝试通过使用公开的用于DNA双链体形成的热力学参数评估在所有可能的引物对之间的假引物双链体形成的可能性来鉴定可能形成假产物的引物对。可以通过与相互作用相关的评分函数对引物相互作用进行排序，并消除具有最差相互作用得分的引物，直到满足所需的引物数目。在可能是杂合的SNP最有用的情况下，也可以对测定列表排序并选择最杂合的相容测定。实验验证了具有高相互作用分数的引物最可能形成引物二聚体。在高多重性下，不可能消除所有假相互作用，但是必须除去具有最高相互作用分数的引物或引物对，因为它们可以支配整个反应，极大地限制了来自预期靶的扩增。我们已经进行这个程序来产生多达引物组，在一些情况下多于10，0个引物。由于该程序的改进是显着的，使得通过对所有PCR产物进行测序所确定的目标产物上的扩增超过80％，超过90％，超过95％，超过98％，甚至超过99％，而与其中未除去最差引物的反应的10％相比。当如前所述与部分半嵌套方法组合时，超过90％，甚至超过95％的扩增子可以映射到靶序列。

注意，还有用于确定哪些PCR探针可能形成二聚体的其他方法。在一个实施方案中，使用非优化的引物组可能足以确定有问题的引物已经扩增了对DNA库的分析。例如，可以使用测序进行分析，并且那些以最大数目存在的二聚体被确定为最可能形成二聚体的那些二聚体，也可被去除。在一个实施方案中，引物设计的方法可以与本文所述的微型PCR方法组合使用。

在引物上使用标签可以减少引物二聚体产物的扩增和测序。在一些实施方案中，引物含有与标签形成环结构的内部区域。在具体实施方案中，引物包括对靶位点特异性的5'区域，对靶位点不特异性并形成环结构的内部区域和对靶位点特异的3'区域。在一些实施方案中，环区域可位于两个结合区域之间，其中两个结合区域被设计为结合模板DNA的连续或相邻区域。在各种实施方案中，3'区的长度为至少7个核苷酸。在一些实施方案中，3'区的长度为7至20个核苷酸，例如7至15个核苷酸或7至10 个核苷酸。在各种实施方案中，引物包括对靶位点(例如标签或通用引物结合位点)不具有特异性的5'区域，随后是对靶位点特异的区域，不特异性的内部区域并形成环结构，以及对靶位点特异的3'区域。标签引物可以用于将必需的靶特异性序列缩短到低于20，低于15，低于12，甚至低于 10个碱基对。当靶序列在引物结合位点内片段化时，这可以是标准引物设计的偶然发生，或者其可以设计成引物设计。该方法的优点包括：其增加可为某一最大扩增子长度设计的测定的数目，并且其缩短引物序列的“非信息性”测序。它也可以与内部标记结合使用。

在一个实施方案中，可以通过提高退火温度来降低多重靶向PCR扩增中非生产产物的相对量。在其中一个扩增具有与靶特异性引物相同的标签的文库的情况下，与基因组DNA相比，退火温度可以增加，因为标签将有助于引物结合。在一些实施方案中，退火时间可以长于3分钟，长于 5分钟，长于8分钟，长于10分钟，长于15分钟，长于20分钟，长于 30分钟，长于60分钟，长于120分钟，超过240分钟，超过480分钟，甚至超过960分钟。在某些说明性实施方案中，使用更长的退火时间以及降低引物浓度。在各种实施方案中，使用比正常的延长时间更长的时间，例如大于3，5，8，10或15分钟。在一些实施方案中，引物浓度低至50nM， 20nM，10nM，5nM，1nM和低于1nM。这令人惊讶地导致高度多重反应，例如1,000重反应，2,000重反应，5,000重反应，10,000重反应， 20,000重复反应，50,000重反应，甚至100,000重反应的稳健性能。在一个实施方案中，扩增使用一个，两个，三个，四个或五个循环，具有长退火时间，随后是用标记的引物更普通的退火时间的PCR循环。

为了选择指标位置，可以从候选引物对设计库开始并创建引物对之间潜在不利相互作用的热力学模型，然后使用模型消除与库中其他设计不相容的设计。

在一个实施方案中，本发明的特征在于减少目标位点(例如可能含有与疾病或病症相关的多态性或突变或对疾病或病症如癌症的风险增加的位点数目)与/或增加检测到的疾病负荷(例如，增加检测到的多态性或突变的数量)。在一些实施方案中，所述方法包括通过多态性或突变(例如单核苷酸变异，插入或缺失，或本文所述的任何其它变异)的频率或再发生来评级(例如从最高到最低)患有疾病或病症例如癌症的受试者中的每个位点。在一些实施方案中，对一些或所有位点设计PCR引物。在选择用于引物文库的PCR引物时，具有较高频率或重现(较高等级位点)的位点的引物优于具有较低频率或复发(较低等级位点)的引物。在一些实施例中，该参数被包括作为本文所述的不合需要分数的计算中的参数之一。如果需要，与文库中的其他设计不相容的引物(例如高等级位点的引物)可以包括在不同的PCR文库/库中。在一些实施方案中，在单独的PCR 反应中使用多个文库/库(例如2，3，4，5或更多)以使得能够扩增由所有文库/库代表的所有(或大多数)位点。在一些实施方案中，继续该方法，直到在一个或多个文库/库中包括足够的引物，使得引物总体上能够针对疾病或病症捕获所需的疾病负荷(例如，通过检测至少80％，85％，90％， 95％或99％的疾病负荷)。

示例性引物文库

一方面，本发明的特征是引物文库，例如使用本发明的任何方法从候选引物文库中选择的引物。在一些实施方案中，文库包括同时杂交(或能够同时杂交)或同时扩增(或能够同时扩增)至少100个，200个；500 个；750个；1,000个；2,000个；5,000个；7,500个；10,000个； 20,000个；25000个；30,000个；40,000个；50,000个；75,000 个或100,000个不同的靶位点。在各种实施方案中，文库包括在100至 500之间同时扩增(或能够同时扩增)的引物；500～1,000个；1,000 ～2,000个；2,000至5,000个；5,000至7,500个；7,500至10, 000个；10,000～20,000个；20,000至25,000个；25,000至30, 000个；30,000至40,000个；40,000至50,000个；50,000至75, 000个；或在一个反应体积中包含75,000至100,000个不同的靶位点。在各种实施方案中，文库包括在一个反应体积中同时扩增(或能够同时扩增)1,000至100,000个不同靶位点的引物，例如在1,000至50,000 之间；1,000～30,000；1,000～20,000；1，0至10,000；2,000 至30,000；2,000～20,000；2,000至10,000；5,000至30,000； 5,000～20,000；或5,000至10,000个不同的靶位点。在一些实施方案中，文库包括在一个反应体积中同时扩增(或能够同时扩增)靶位点的引物，使得小于60％，40％，30％，20％，10％，5％，4％，3％，2％， 1％，0.5％，0.25％，0.1％或0.5％的扩增产物是引物二聚体。在各种实施方案中，作为引物二聚体的扩增产物的量为0.5％至60％，例如0.1％至 40％，0.1至20％，0.25至20％，0.25％至10％，0.5％至20％10％，1％～20％或1％～10％。在一些实施方案中，引物在一个反应体积中同时扩增(或能够同时扩增)靶位点，使得至少50％，60％，70％，80％，90％， 95％，96％，97％，98％，99％或99.5％的扩增产物是靶扩增子。在各种实施方案中，作为靶扩增子的扩增产物的量为50％-99.5％，例如60％ -99％，70％-98％，80％-98％，90-99.5％或95-99.5％。在一些实施方案中，引物在一个反应体积中同时扩增(或能够同时扩增)靶位点，使得至少50％，60％，70％，80％，90％，95％，96％，97％，98％，99％或 99.5％的靶位点被扩增(例如，与扩增前相比，扩增至少5，10，20，30， 50或100倍)。在多个实施方案中，被扩增(例如，与扩增前相比，扩增至少5，10，20，30，50或100倍)的目标位点的量为50％至99.5％，例如60％至99％，70％至98％，80％至99％，90％至99.5％，95％至99.9％或98％至99.99％。在一些实施方案中，引物文库包括至少100；200；500； 750；1,000；2,000；5,000；7,500；10,000；20,000；25,000； 30,000；40,000；50,000；75,000；或100,000个引物对，其中每对引物包括正向测试引物和反向测试引物，其中每对测试引物与靶位点杂交。在一些实施方案中，引物文库包括至少100；200；500；750；1,000； 2,000；5,000；7,500；10,000；20,000；25,000；30,000；40, 000；50,000；75,000；或100,000个各自与不同靶位点杂交的引物，其中各个引物不是引物对的一部分。

在各种实施方案中，每种引物的浓度小于100，75，50，25，20，10， 5，2或1nM，或小于500，100，10或者1μM。在各种实施方案中，每种引物的浓度在1μM至100nM之间，例如1μM至1nM，1至75nM，2至 50nM或5至50nM，包括这些端值。在各种实施方案中，引物的GC含量在30％至80％之间，例如在40％至70％之间，或50％至60％，包括50％和60％。在一些实施方案中，引物的GC含量范围小于30％，20％，10％或5％。在一些实施方案中，引物的GC含量范围为5％至30％，例如5％至20％或5％至10％，包括这些端值。在一些实施方案中，测试引物的解链温度(Tm)为40℃至80℃，例如50℃至70℃，55℃至65℃或57℃至 60.5℃(含)。在一些实施方案中，使用内置的SantaLucia参数(万维网 primer3.sourceforge.net)使用Primer3程序(libprimer3版本2.2.3)计算 Tm。在一些实施方案中，引物的解链温度范围小于15℃，10℃，5℃，3℃或1℃。在一些实施方案中，引物的熔解温度范围为1℃至15℃，例如1℃至10℃，1℃至5℃或1℃至3℃，包括1℃和5℃。在一些实施方案中，引物的长度为15至100个核苷酸，例如15至75个核苷酸，15至40个核苷酸，17至35个核苷酸，18至30个核苷酸或20至65个核苷酸。在一些实施方案中，引物的长度范围小于50，40，30，20，10或5个核苷酸。在一些实施方案中，引物的长度范围为5至50个核苷酸，例如5至40个核苷酸，5至20个核苷酸或5至10个核苷酸。在一些实施方案中，靶扩增子的长度为50至100个核苷酸，例如60至80个核苷酸或60至75个核苷酸。在一些实施方案中，靶扩增子的长度范围小于50，25，15，10 或5个核苷酸。在一些实施方案中，靶扩增子的长度范围为5至50个核苷酸，例如5至25个核苷酸，5至15个核苷酸或5至10个核苷酸。在一些实施方案中，文库不包含微阵列。在一些实施方案中，文库包含微阵列。

在一些实施方案中，一些(例如至少80％，90％或95％)或所有衔接子或引物包括除天然存在的磷酸二酯键之外的相邻核苷酸之间的一个或多个键。这种连接的实施例包括磷酰胺，硫代磷酸酯和二硫代磷酸酯连接。在一些实施方案中，一些(例如至少8％0，90％或95％)或所有衔接子或引物在最后3'核苷酸和第二至最后3'核苷酸之间包括硫代磷酸酯(例如一硫代磷酸酯)。在一些实施方案中，一些(例如至少80％，90％或95％)或所有衔接子或引物在3'末端的最后2，3，4或5个核苷酸之间包括硫代磷酸酯(例如一硫代磷酸酯)结束。在一些实施方案中，一些(例如至少80％，90％或95％)或所有衔接子或引物包括在至少1，2，3，4 或5个核苷酸之间的硫代磷酸酯(例如一硫代磷酸酯)在3'末端的最后10 个核苷酸。在一些实施方案中，此类引物不太可能被切割或降解。在一些实施方案中，引物不含有酶切位点(例如蛋白酶切位点)。

在2012年11月21日提交的美国申请号13/683,604(美国公开号 2013/0123120)和2014年5月16日提交的美国申请号61/994,791中描述了另外的示例性多重PCR方法和文库，各自通过引用整体并入本文)。这些方法和文库可用于分析本文公开的任何样品并用于本发明的任何方法中。用于检测重组的示例性引物文库。

在一些实施方案中，设计引物文库中的引物以确定重组是否发生在一个或多个已知的重组热点(例如同源人染色体之间的交换)。知道染色体之间发生的交换允许为个体确定更准确的相基因数据。重组热点是染色体的局部区域，其中重组事件倾向于集中。通常它们的侧翼是“冷点”，低于平均重组频率的区域。重组热点倾向于共享类似的形态，并且长度为约1 至2kb。热点分布与GC含量和重复元素分布呈正相关。部分退化的13聚体基序CCNCCNTNNCCNC在一些热点活性中起作用。已经显示称为 PRDM9的锌指蛋白结合该基序并在其位置引发重组。重组热点中心之间的平均距离据报道为～80kb。在一些实施方案中，重组热点中心之间的距离在约3kb至约100kb之间。公共数据库包括大量已知的人类重组热点，例如HUMHOT和国际HapMap项目数据库(参见例如尼尚特等人，“HUMHOT：人类减数分裂重组热点的数据库，”核酸研究期刊，34： D25-D28，2006，数据库问题；马茨凯维奇等人，“人类基因组中重组热点的分布-计算机模拟与真实数据的比较”公共科学图书馆8(6)：e65272，doi：10.1371/journal.pone.0065272；以及万维网上 hapmap.ncbi.nlm.nih.gov/downloads/index.html.en，其各自通过引用整体并入本文)。

在一些实施方案中，引物文库中的引物在重组热点(例如已知的人类重组热点)处或附近聚簇。在一些实施方案中，使用相应的扩增子来确定重组热点内或附近的序列，以确定在该特定热点是否发生重组(例如扩增子的序列是否是发生重组时预期的序列，或者是否发生重组如果没有发生重组则预期序列)。在一些实施方案中，设计引物以扩增重组热点(和任选地位于重组热点侧翼的序列)的部分或全部。在一些实施方案中，使用长阅读测序(例如使用由Illumina开发的Moleculo技术进行序列高达约 10kb的测序)或配对末端测序来测序重组热点的部分或全部。可以使用关于是否发生重组事件的知识来确定哪些单倍型区段位于热点的侧翼。必要时，可以使用对单倍型区段内的区域特异的引物来确认特定单倍型区段的存在。在一些实施例中，假设在已知的复合热点之间没有交叉。在一些实施方案中，引物文库中的引物聚类在染色体末端或其附近。例如，此类引物可用于确定是否存在染色体末端的特定臂或区段。在一些实施方案中，引物文库中的引物在重组热点处或附近聚簇，并在染色体末端或其附近聚簇。

在一些实施方案中，引物文库包括一个或多个引物(例如至少5；10； 50；100；200；500；750；1,000；2,000；5,000；7,500；10,000； 20,000；25,000；30,000；40,000；50,000个不同的引物或不同的引物对)，其对于重组热点(例如已知的人类重组热点)是特异性的与/或对于重组热点附近的区域是特异性的(例如在10，8，5，3，2，1或0.5kb 的重组热点的5'或3'端)。在一些实施方案中，至少1个，5个，10个， 20个，40个，60个，80个，100个或150个不同的引物(或引物对)对同一重组热点是特异性的，或对相同的重组热点或区域靠近重组热点。在一些实施方案中，至少1个，5个，10个，20个，40个，60个，80个， 100个或150个不同的引物(或引物对)对于重组热点(例如不可能发生重组的区域)之间的区域是特异性的；这些引物可用于确认单元型区段(例如根据是否发生重组预期的那些)的存在。在一些实施方案中，引物文库中至少10，20，30，40，50，60，70，80或90％的引物对于重组热点是特异性的与/或对于接近重组热点的区域是特异性的(例如在重组热点的 5'或3'末端的10，8，5，3，2，1或0.5kb内)。在一些实施方案中，引物文库用于确定重组是否发生在大于或等于5；10；50；100；200；500；750； 1,000；2,000；5,000；7,500；10,000；20,000；25,000；30, 000；40,000；或50,000个不同的重组热点(例如已知的人类重组热点)。在一些实施方案中，由引物靶向重组热点或附近区域的区域沿着基因组的该部分大致均匀地展开。在一些实施方案中，至少1个，5个，10个，20 个，40个，60个，80个，100个或150个不同的引物(或引物对)对染色体末端或附近的区域(例如区域在距染色体末端的20，10，5，1，0.5， 0.1，0.01或0.001mb内)。在一些实施方案中，引物文库中至少10％，20％， 30％，40％，50％，60％，70％，80％或90％的引物对染色体末端或其附近的区域是特异性的(例如区域在距离染色体末端20，10，5，1，0.5， 0.1，0.01或0.001mb内)。在一些实施方案中，10个，20个，40个，60 个，80个，100个或150个不同的引物(或引物对)对染色体中的潜在微缺失中的区域是特异性的。在一些实施方案中，引物文库中至少10％， 20％，30％，40％，50％，60％，70％，80％或90％的引物对染色体中潜在的微缺失中的区域是特异性的。在一些实施方案中，引物文库中至少 10％，20％，30％，40％，50％，60％，70％，80％或90％的引物对重组热点，重组热点附近的区域，或在靠近染色体的末端，或染色体中的潜在微缺失内的区域。

示例性试剂盒

一个方面，本发明的特征在于试剂盒，例如用于扩增核酸样品中的靶位点的试剂盒，用于使用本文所述的任何方法检测染色体片段或整个染色体的缺失和/或复制。在一些实施方案中，试剂盒可以包括本发明的任何引物文库。在一个实施方案中，试剂盒包含多个内部正向引物和任选的多个内部反向引物，以及任选的外部正向引物和外部反向引物，其中每个引物设计为与DNA的紧邻上游和/或在靶染色体或染色体片段上的靶位点(例如，多态性位点)之一和任选的另外的染色体或染色体片段的下游。在一些实施方案中，试剂盒包括使用引物文库扩增靶位点，例如用于使用本文所述的任何方法检测一个或多个染色体片段或整个染色体的一个或多个缺失和/或重复的说明书。

在某些实施方案中，本发明的试剂盒提供了用于检测染色体非整倍体和CNV测定的引物对，例如用于检测染色体非整倍体的大量多重反应的引物对，例如CNV(CoNVERGe)(拷贝数变化体事件显示基因型)和/ 或SNV。在这些实施方案中，试剂盒可以包括至少100，200，250，300， 500，1000，2000，2500，3000，5000，10,000，20,000，25,000，28, 000，50,000或75,000和至多200，250，300，500，1000，2000，2500， 3000，5000，10,000，20,000，25,000，28,000，50,000，75,000 或100,0个引物对一起运输。引物对可以包含在单个容器中，例如单个管或盒，或多个管或盒。在某些实施方案中，引物对由商业提供商预先限定并一起出售，并且在其他实施方案中，客户选择定制的基因靶标和/或引物，商业提供商不向一个客户提供和运输引物库管或多个管。在某些示例性实施方案中，试剂盒包括用于检测CNV和SNV的引物，特别是已知与至少一种类型的癌症相关的CNV和SNV。

根据本发明的一些实施方案的用于循环DNA检测的试剂盒包括用于循环DNA检测的标准品和/或对照。例如，在某些实施方案中，标准品和 /或对照品被销售并且任选地与用于进行本文提供的扩增反应的引物(例如用于进行CoNVERGe的引物)一起运输和包装。在某些实施方案中，对照包括多核苷酸如DNA，包括展示一种或多种染色体非整倍体如CNV的分离的基因组DNA和/或包括一种或多种SNV。在某些实施方案中，标准和/或对照被称为PlasmArt标准，并且包括与已知表现CNV的基因组的区域具有序列同一性的多核苷酸，特别是在某些遗传疾病中，以及在某些疾病状态如癌症中，分布反映了血浆中天然发现的cfDNA片段的分布。在本文的实施例中提供了用于制备PlasmArt标准品的示例性方法。通常，来自已知包括染色体腺体的来源的基因组DNA被分离，片段化，纯化和大小选择。

因此，可以通过将如上所概述制备的分离的多核苷酸样品掺入已知不展示染色体非整倍体和/或SNV的DNA样品中，在类似于针对体内cfDNA 所观察到的浓度的条件下制备人工cfDNA多核苷酸标准品和/或对照，例如在该流体中0.01％至20％，0.1％至15％或0.4至10％的DNA。这些标准/对照可以用作测定设计，表征，开发和/或验证的对照，以及在测试期间作为质量控制标准，例如在CLIA实验室中进行的癌症测试和/或仅用于研究使用的标准，诊断测试包。

示例性归一化/校正方法

在一些实施方案中，针对偏差调整不同位点，染色体区段或染色体的测量，例如由于GC含量的差异，由于扩增效率的其他差异，由于测序错误而调整的偏差。在一些实施方案中，针对相同位点的不同等位基因的测量针对代谢，凋亡，组蛋白，失活和/或等位基因之间的扩增的差异进行调整。在一些实施方案中，针对RNA中相同位点的不同等位基因的测量，针对不同RNA等位基因之间的转录速率或稳定性的差异进行调整。

定相遗传数据的示例性方法

在一些实施方案中，使用本文所述的方法或用于定相遗传数据的任何已知方法来定相遗传数据(参见例如2009年2月9日提交的PCT公布号 WO 2009/1053531和PCT公开号WO2010/017214，于2009年8月4日提交；美国公开号2013/0123120，2012年11月21日；美国公开号 2011/0033862，提交于2010年10月7日；美国公开号2011/0033862,2010； 2011年2月3日提交的美国公布2011/0178719；2008年3月17日提交的美国专利8,515,679；2006年11月22日提交的美国公布2007/0184467； 2008年3月17日提交的美国序列号No.2008/0243398和2014年5月16 日提交的美国序列号61/994,791，其各自通过引用整体并入本文)。在一些实施方案中，确定已知或怀疑含有感兴趣的CNV的一个或多个区域的相。在一些实施方案中，还为CNV区域侧翼的一个或多个区域和/或一个或多个参考区域确定相位。在一个实施方案中，个体(例如，使用本发明的方法测试的个体或妊娠胎儿或胚胎的亲戚例如胎儿或胚胎的亲本)的遗传数据通过推断测定组织所述个体是单倍体，例如通过测量一个或多个精子或卵。在一个实施方案中，通过推断使用一个或多个一级亲属(例如个体的父母(例如来自个体的父亲的精子)或兄弟姐妹)的测量的基因型数据来定相个体的遗传数据。

在一个实施方案中，个体的遗传数据通过稀释定相，其中在一个或多个孔中稀释DNA或RNA，例如通过使用数字PCR。在一些实施方案中，将DNA或RNA稀释至预期每个孔中每个单元型不超过约一个拷贝的点，然后测量一个或多个孔中的DNA或RNA。在一些实施方案中，当染色体是紧密束时，细胞停止在有丝分裂期，并且微流体用于将分开的染色体置于分开的孔中。因为DNA或RNA被稀释，所以不可能在同一分数(或管) 中有多于一个单倍型。因此，在管中可以有效地存在单个DNA分子，其允许确定单个DNA或RNA分子上的单倍型。在一些实施方案中，所述方法包括将DNA或RNA样品分成多个部分，使得至少一个部分包括来自一对染色体的一个染色体或一个染色体区段，以及基因分型(例如，确定两个或更多的多态性位点)，在至少一个级分中的DNA或RNA样品，从而确定单倍型。在一些实施方案中，基因分型涉及测序(例如鸟枪测序或单分子测序)，用于检测多态性位点的SNP阵列，或多重PCR。在一些实施方案中，基因分型涉及使用SNP阵列来检测多态性位点，例如至少100 个；200；500；750；1,000；2,000；5,000；7,500；10,000；20, 000；25,000；30,000；40,000；50,000；75,000；或100,000个不同的多态性位点。在一些实施方案中，基因分型涉及使用多重PCR。在一些实施方案中，所述方法包括使级分中的样品与同时与至少100个杂交的引物文库接触；200；500；750；1,000；2,000；5,000；7,500； 10,000；20,000；25,000；30,000；40,000；50,000；75,000；或100,000个不同的多态性位点(例如SNP)以产生反应混合物；并使反应混合物经历引物延伸反应条件以产生扩增产物，其使用高通量测序仪测量以产生测序数据。在一些实施方案中，对RNA(例如mRNA)进行测序。因为mRNA仅含有外显子，所以测序mRNA允许在基因组中的大距离(例如几个megabase)上确定多态性位点(例如SNP)的等位基因。在一些实施方案中，个体的单倍型通过染色体排序确定。示例性的染色体分选方法包括在染色体紧束时阻止有丝分裂阶段的细胞，并使用微流体将分开的染色体置于分开的孔中。另一种方法涉及使用FACS介导的单染色体分选收集单染色体。标准方法(例如测序或阵列)可用于鉴定单个染色体上的等位基因以确定个体的单倍型。

在一些实施方案中，个体的单倍型通过长读序列测定来确定，例如通过使用Illumina开发的Moleculo技术。在一些实施方案中，文库制备步骤包括将DNA剪切成片段，例如～10kb大小的片段，稀释片段并将它们置于孔中(使得约3,000个片段在单个孔中)，通过长程PCR和切割成短片段并对片段进行条形码编码，并将来自每个孔的条形码片段合并在一起以对它们进行测序。在测序之后，计算步骤涉及基于连接的条形码从每个孔中分离读取，并将它们分组成片段，将其重叠杂合SNV上的片段组装成单倍型区段，并且基于分阶段参考面板统计地定相所述区段，单倍型重叠群。

在一些实施方案中，使用来自个体亲属的数据确定个体的单倍型。在一些实施方案中，SNP阵列用于确定至少100的存在；200；500；750；1, 000；2,000；5,000；7,500；10,000；20,000；25000；30,000； 40,000；50,000；75,000；或来自个体的DNA或RNA样品中的100, 000个不同的多态性位点和个体的亲属。在一些实施方案中，所述方法包括使来自个体的DNA样品和/或个体的亲属与引物文库接触，所述引物文库同时与至少100；200；500；750；1,000；2,000；5,000；7,500； 10,000；20,000；25000；30,000；40,000；50,000；75,000；或 100,000个不同的多态性位点(例如SNP)以产生反应混合物；并使反应混合物经历引物延伸反应条件以产生扩增产物，其用高通量测序仪测量以产生测序数据。

在一个实施方案中，使用基于群体的单元型频率来推断最可能的相位的计算机程序，例如基于HapMap的定相，定相个体的遗传数据。例如，可以利用一般群体中已知的单倍型块(例如为公共HapMap项目和 Perlegen人类单体型计划创建的)统计方法，直接从二倍体数据推导出单倍体数据集。单倍型区段基本上是在各种群体中重复出现的一系列相关等位基因。由于这些单倍型区段通常是古老的和常见的，它们可以用于从二倍体基因型预测单倍型。完成这项任务的公共可用算法包括不完美的系统发育方法，基于共轭先验的贝叶斯方法和来自群体遗传学的先验。这些算法中的一些使用隐马尔可夫模型。

在一个实施方案中，使用从基因型数据估计单倍型的算法来定相个体的遗传数据，例如使用局部单倍型聚类的算法(参见例如勃朗宁和勃朗宁，“快速和准确的单倍型相位和缺失数据推断全基因组关联研究通过使用本地化单倍型聚类”美国人类遗传学杂志。2007年11月；81(5)：1084-1097，其通过引用整体并入本文)。示例性程序是比格尔版本：3.3.2或版本4(可在万维网上在hfaculty.washington.edu/browning/beagle/beagle.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用根据基因型数据估计单倍型的算法来定相个体的遗传数据，例如使用与距离，基因型标记的顺序和间隔的连锁不平衡的衰减，缺失数据估算，重组率估计，或其组合(参见，例如，斯蒂芬斯和席兹，“会计衰变的链接不平衡单倍型推理和缺失数据估算”，美国人类遗传学杂志.76：449-462，2005，其在此并入通过引用整体)。示例性程序是PHASE v.2.1或v2.1.1。(可在万维网上在 stephenslab.uchicago.edu/software.html获得，其通过引用整体并入本文)。

在一个实施例中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如允许群集成员关系根据隐马尔可夫模型沿着染色体连续改变的算法。这种方法是灵活的，允许连锁不平衡的“块状”模式和与距离的连锁不平衡的逐渐下降(参见例如斯蒂芬斯和席兹，“用于大规模群体基因型数据的快速和灵活的统计模型：用于推断缺失的基因型和单倍型相。”美国人类遗传学杂志，78:629-644，2006，其通过引用整体并入本文)。示例性程序是fastPHASE(可在万维网上在 stephenslab.uchicago.edu/software.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用基因型插补法，例如使用以下参考数据集中的一个或多个的方法来定相个体的遗传数据：HapMap数据集，在多个SNP 芯片上进行基因分型的对照的数据集，以及来自1,000基因组项目。示例性方法是灵活的建模框架，其增加准确性并且跨越多个参考面板组合信息(参见例如豪伊，唐纳利和马奇尼(2009)“一种灵活和准确的基因型插补法为下一代全基因组关联研究。”公共科学图书馆-遗传学杂志5(6)： el000529，2009，其通过引用整体并入本文)。示例性程序是IMPUTE或 IMPUTE版本2(也称为IMPUTE2)(可在万维网 mathgen.stats.ox.ac.uk/impute/imputev2.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用推导单倍型的算法来定相个体的遗传数据，例如在重组的聚结遗传模型下推断单倍型的算法，例如由.斯蒂芬在 PHASE v2.1中开发的遗传模型。主要的算法改进依赖于使用二叉树来表示每个个体的候选单元型集合。这些二叉树表示：(1)通过避免在PHASE v2.1中进行的冗余操作来加速单倍型的后验概率的计算，以及(2)通过智能探索最多的单元型来克服单倍型推理问题的指数方面(例如，参见德拉诺，库隆热和扎古里，“Shape-IT：用于单倍型推断的新的快速和准确的算法”，BMC生物信息学9：540，2008doi：10.1186/1471-8)，在二叉树中鉴定合理的途径(即单倍型)2105-9-540，其通过引用整体并入本文)。示例性程序是SHAPEIT(可在万维网上在 mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如使用单倍型片段频率来获得较长单倍型的基于经验的概率的算法。在一些实施方案中，算法重建单倍型，使得它们具有最大局部相干性(参见例如埃罗宁，海尔茨和托伊沃宁，“HaploRec：单倍型的有效和准确的大规模重建，”BMC生物信息学7：542，2006，其通过引用整体并入本文)。示例性程序是HaploRec，例如HaploRec版本2.3。 (可通过万维网在cs.helsinki.fi/group/genetics/haplotyping.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如使用分区连接策略和基于期望最大化的算法的算法 (参见例如秦，牛和刘，“分区连接-期望最大化算法的单核苷酸多态性的单倍型推理”，美国人类遗传学杂志.71(5)：1242-1247，2002，其通过引用整体并入本文)。示例性程序是PL-EM(可在万维网的people.fas.harvard.edu/junliu/plem/click.html获得，其通过引用整体并入本文)。

在一个实施方案中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如用于将基因型同时定相为单倍型和区块分割的算法。在一些实施方案中，使用期望最大化算法(参见例如基梅尔和沙米尔，“GERBIL：基因型分辨率和采用似然的块识别”，美利坚合众国国家科学院院报(PNAS)102：158-162，2005，其通过引用整体并入本文)。示例性程序是GERBIL，其可作为GEVALT版本2程序的一部分(可从万维网acgt.cs.tau.ac.il/gevalt/获得，其通过引用整体并入本文)。

在一个实施方案中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如使用EM算法计算给定不指定相位的基因型测量的单倍型频率的ML估计的算法。该算法还允许缺失一些基因型测量(由于例如PCR失败)。它还允许单个单倍型的多重插补(参见例如克莱顿D。 (2002)，“SNPHAP：用于估计SNP的大单倍体的频率的程序”，其通过引用整体并入本文)。示例性程序是SNPHAP(可在万维网上 gene.cimr.cam.ac.uk/clayton/software/snphap.txt获得，其通过引用整体并入本文)。

在一个实施方案中，使用从群体基因型数据估计单倍型的算法来定相个体的遗传数据，例如基于针对SNP对收集的基因型统计学的单倍型推断算法。该软件可以用于大量长基因组序列的相对精确的定相，例如，从 DNA阵列获得。示例性程序以基因型矩阵为输入，并输出相应的单倍型矩阵(参见例如布林扎和吉利，“2SNP：基于2-SNP单倍型的可扩展定相，”生物信息学.22(3)：371-3，2006，其通过引用整体并入本文)。示例性程序是2SNP(可在万维网alla.cs.gsu.edu/sofltware/2SNP获得，其通过引用整体并入本文)。

在各种实施方案中，使用关于染色体在染色体或染色体区段中的不同位置处交叉的概率的数据(例如使用重组数据，例如可以在HapMap数据库中发现的重组数据，以产生重组风险评分)来定序个体的遗传数据任何间隔)，以模拟染色体或染色体区段上的多态性等位基因之间的依赖性。在一些实施方案中，在计算机上基于测序数据或SNP阵列数据计算多态性位点处的等位基因计数。在一些实施方案中，多个假设各自涉及染色体或染色体区段的不同可能状态(例如与第一同源染色体区段的拷贝数与第一同源染色体区段的基因组中的第二同源染色体区段相比的过表示或更多的细胞，第一同源染色体片段的复制，第二同源染色体片段的缺失或第一和第二同源染色体片段的相等表示)(例如在计算机上创建)；针对每个假设建立在染色体上的多态性位点处的预期等位基因计数的模型(例如联合分布模型)(例如建立在计算机上)，使用关节分布模型和等位基因计数来确定每个假设的相对概率(例如在计算机上的确定)；并选择具有最大概率的假设。在一些实施方案中，建立等位基因计数的联合分布模型和确定每个假设的相对概率的步骤使用不需要使用参考染色体的方法进行。

在一个实施方案中，使用个体的一个或多个亲缘(例如一个或多个亲本，兄弟姐妹，儿童，胎儿，胚胎，祖父母，叔叔，姨妈或表兄弟姐妹) 的遗传数据来定相个体的遗传数据。在一个实施方案中，使用个体的一个或多个遗传后代(例如，1，2，3或更多个后代)的遗传数据，例如胚胎，胎儿，出生的儿童或流产样品。在一个实施方案中，使用其他亲本的定相单倍型数据以及亲本的一个或多个遗传后代的非定相遗传数据，对亲本 (例如妊娠胎儿或胚胎的亲本)的遗传数据进行定相。

在一些实施方案中，来自个体的样品(例如活检，例如肿瘤活检，血液样品，血浆样品，血清样品或可能主要含有或仅含有感兴趣的CNV的 DNA或RNA的另一样品)(例如怀疑患有癌症的个体，胎儿或胚胎)，以确定已知或怀疑含有感兴趣的CNV(例如缺失或重复)的一个或多个区域的相。在一些实施方案中，样品具有高肿瘤分数(例如30，40，50， 60，70，80，90，95，98，99或100％)。在一些实施方案中，样品(例如母体全血样品，从母体血液样品，母体血浆样品，母体血清样品，羊膜穿刺样品，胎盘组织样品(例如绒毛膜绒毛，蜕膜或胎盘膜)子宫颈粘液样品，胎儿死亡后的胎儿组织，来自胎儿的其他样品或可能主要含有或仅含有感兴趣的CNV的细胞，DNA或RNA的另一样品)分析为来自胎儿或胎儿的怀孕母亲确定已知或怀疑含有感兴趣的CNV(例如缺失或复制) 的一个或多个区域的相。在一些实施方案中，样品具有高胎儿分数(例如 25％，30％，40％，50％，60％，70％，80％，90％，95％，98％，99％或100％)。

在一些实施方案中，样品具有单倍型不平衡或任何非整倍体。在一些实施方案中，样品包括两种类型的DNA的任何混合物，其中两种类型具有不同的两种单元型比例，并且共享至少一种单倍型。例如，在胎儿母亲的情况下，母亲是1：1，胎儿是1：0(加上父系单倍型)。例如，在肿瘤情况下，正常组织为1:1，肿瘤组织为1:0或1:2，1:3，1:4等。在一些实施方案中，至少10:100；500；1,000；2,000；3,000；5,000；8,000；或10,000个多态性位点以确定在一些或所有位点处的等位基因的相位。在一些实施方案中，样品来自经处理以变成非整倍体的细胞或组织，例如通过延长的细胞培养诱导的非整倍性。

在一些实施方案中，样品中大部分或全部DNA或RNA具有兴趣 CNV。在一些实施方案中，来自含有感兴趣的CNV的一种或多种靶细胞的DNA或RNA与样品中的总DNA或RNA的比例为至少80％，85％， 90％，95％或100％。对于具有缺失的样品，对于具有缺失的细胞(或DNA 或RNA)仅存在一种单倍型。该第一单倍型可以使用标准方法来确定存在于缺失区域中的等位基因的同一性来确定。在仅含有缺失的细胞(或 DNA或RNA)的样品中，仅存在来自存在于那些细胞中的第一单倍型的信号。在还含有少量没有缺失的细胞(或DNA或RNA)(例如少量非癌性细胞)的样品中，来自这些细胞(或DNA或RNA)中的第二单倍型的弱信号可以忽略。来自缺失缺失的个体的其他细胞，DNA或RNA中存在的第二个单元型可以通过推断来确定。例如，如果来自未缺失的个体的细胞的基因型是(AB，AB)，并且个体的定相数据指示第一个单倍型是(A， A)；那么，另一个单倍型可以推断为(B，B)。

对于其中存在具有缺失的细胞(或DNA或RNA)和没有缺失的细胞 (或DNA或RNA)的样品，仍然可以测定相。例如，类似于图18或29 可产生的图，其中x轴表示沿着染色体的个别位点的线性位置，y轴表示作为总(A+B)的分数的A等位基因读取的数量。在一些实施方案中，对于缺失，模式包括代表个体为杂合的SNP的两个中心条带(顶部条带表示来自没有缺失的细胞的AB，来自具有缺失的细胞的A，下部条带表示来自没有缺失的细胞的AB和B来自具有缺失的细胞)。在一些实施方案中，随着具有缺失的细胞，DNA或RNA的分数增加，这两条带的分离增加。因此，A等位基因的同一性可以用于确定第一单倍型，并且B等位基因的同一性可以用于确定第二单倍型。

重复的样品，重复的细胞(或DNA或RNA)存在额外的单倍型拷贝。可使用标准方法确定重复区域的这种单倍型，以确定在重复区域中以增加的量存在的等位基因的同一性，或者可以使用标准方法确定重复区域的同一性的标准方法来确定不重复的区域的单倍型的等位基因以减少的量存在。一旦确定了一个单倍型，则可以通过推断来确定另一个单倍型。

对于其中存在具有重复的细胞(或DNA或RNA)和没有重复的细胞 (或DNA或RNA)的样品，仍可使用与上述用于缺失的方法相似的方法来测定相。例如，例如，类似于图18或29可产生的图，其中x轴表示沿着染色体的个别位点的线性位置，y轴表示作为总(A+B)的分数的A 等位基因读取的数量。在一些实施方案中，对于缺失，模式包括代表个体为杂合的SNP的两个中心条带(顶部条带表示来自没有复制的细胞的AB 和来自具有复制的细胞的AAB，底部条带表示来自没有重复的细胞的AB 和来自具有复制的单元的ABB)。在一些实施方案中，随着具有重复的细胞，DNA或RNA的分数增加，这两个条带的分离增加。因此，A等位基因的同一性可以用于确定第一单倍型，并且B等位基因的同一性可以用于确定第二单倍型。在一些实施方案中，一个或多个CNV区域的相(例如所测量的区域中多态位点的至少50％，60％，70％，80％，90％，95％或 100％的相)是对来自已知患有癌症的个体的样品(例如肿瘤活检或血浆样品)测定，并用于分析来自同一个体的后续样品以监测癌症的进展(例如监测癌症的缓解或复发癌症)。在一些实施方案中，具有高肿瘤分数的样品(例如肿瘤活检或来自具有高肿瘤负荷的个体的血浆样品)用于获得定相数据，其用于分析具有较低肿瘤分数的随后样品(例如来自经历癌症治疗或缓解的个体的血浆样品)。

用于产前诊断的另一个实施方案中，定相亲本单倍体数据用于检测来自父亲的一个以上同源物的存在，这意味着来自多于一个胎儿的遗传物质存在于母体血液样品中。通过关注预期为胎儿中的整倍体的染色体，可以排除胎儿患有三体性的可能性。此外，可以确定胎儿DNA是否不是来自当前父亲。

在一些实施方案中，本文所述的两种或更多种方法用于对个体的遗传数据进行定相。在一些实施方案中，生物信息学方法(例如使用基于群体的单倍型频率来推断最可能的阶段)和分子生物学方法(例如本文公开的任何分子定相方法，以获得实际的分阶段数据，而不是基于生物信息学的推断相位数据)。在一些实施方案中，使用来自其他受试者(例如先前受试者)的定相数据来改进群体数据。例如，可以将来自其他受试者的定相数据添加到群体数据中，以计算另一受试者的可能单倍型的先验。在一些实施方案中，使用来自其他受试者(例如先前受试者)的定相数据来计算另一受试者的可能单倍型的先验。

在一些实施方案中，可以使用概率数据。例如，由于样品中DNA分子表示的概率性质，以及各种扩增和测量偏差，从两个不同位点或从给定位点的不同等位基因测量的DNA分子的相对数量是不总是代表混合物中或个体中分子的相对数目。如果试图通过对来自个体血浆的DNA测序来确定正常二倍体个体在常染色体染色体上的给定位点处的基因型，可以预期仅观察到一个等位基因(纯合的)或大约相等数量的两个等位基因(杂合的)。如果在该等位基因处观察到10个A等位基因分子，并且观察到2 个B等位基因，则不清楚该个体在该位点是否是纯合的，并且B等位基因的两个分子是由于噪声或污染，或者如果个体是杂合的，并且B等位基因的较低数目的分子是由于血浆中DNA分子数目的随机，统计变化，扩增偏差，污染或任何数目的其他原因。在这种情况下，可以计算个体是纯合的概率和个体是杂合的相应概率，并且这些概率基因型可以用于进一步的计算。

注意，对于给定的等位基因比率，所观察到的分子的数目越大，该比例接近地代表个体中DNA分子的比率的可能性越大。例如，如果测量100 个A分子和100个B分子，则实际比率为50％的可能性比如果测量10个 A分子和10个B分子的可能性大得多。在一个实施方案中，一个使用贝叶斯理论与详细的数据模型结合，以确定在给定观察的情况下特定假设是正确的可能性。例如，如果考虑两个假设-一个对应于三体性个体，一个对应于二体性个体-则二体性假设是正确的概率对于两个假设中的每一个的100个分子的情况将相当高与观察到两个等位基因中每一个的10 个分子的情况相比，观察到等位基因。由于偏差，污染或一些其他噪声源，或者随着给定轨迹处的观察数量下降，数据变得更加噪声，在给定观察到的数据下降的情况下，最大似然假设的概率为真。在实践中，可以对许多位点上的概率进行聚集，以增加可以确定最大似然假说为正确假设的置信度。在一些实施方案中，简单地聚合概率而不考虑重组。在一些实施例中，计算考虑交叉。

在一个实施方案中，概率相控数据用于确定拷贝数变化。在一些实施方案中，概率相控数据是来自诸如HapMap数据库的数据源的基于种群的单元型块频率数据。在一些实施方案中，概率相控数据是通过分子方法获得的单倍型数据，例如通过稀释进行定相，其中每个反应将染色体的各个区段稀释至单个分子，但是由于遗传噪声，单倍型的身份可能不绝对知道。在一些实施方案中，概率性定相数据是通过分子方法获得的单倍型数据，其中单倍型的身份可以以高度确定性已知。

想象一个假设的情况，医生想要确定一个人是否在他们的身体有一些细胞在特定的染色体片段通过测量个体的血浆DNA有一个删除。医生可利用如下知识：如果所有血浆DNA的细胞是二倍体且具有相同的基因型，则对于杂合位点，对于两个等位基因中的每一个观察到的DNA分子的相对数目将下降分为以50％A等位基因和50％B等位基因为中心的一个分布。然而，如果源自血浆DNA的细胞的一部分在特定染色体片段处具有缺失，则对于杂合位点，可预期两个等位基因中的每一个观察到的DNA 分子的相对数目将落入两个分布，其中一个中心位于含有B等位基因的染色体片段缺失的位点的50％A等位基因上，并且一个中心位于含有A等位基因的染色体片段缺失的位点的50％以下。血浆DNA的含有缺失细胞的比例越大，则这两个分布的50％越远。

在这个假设的情况下，想象一个临床医生想要确定一个人是否有一个染色体区域的一个比例的细胞在个人的身体删除。临床医生可以将个体的血液抽取到真空采血管或其他类型的血液管中，离心血液，并隔离血浆层。临床医生可以从血浆中分离DNA，在靶位点处富集DNA，可能通过靶向或其他扩增，位点捕获技术，大小富集或其他富集技术。临床医生可以例如通过使用测定例如qPCR，测序，微阵列或其它测量一组SNP的等位基因数量，换句话说产生等位基因频率数据，富集和/或扩增的DNA，来测量样品中DNA的量。我们将考虑临床医生使用靶向扩增技术扩增无细胞血浆DNA的情况下的数据分析，然后对扩增的DNA进行测序，以在指示癌症的染色体片段上发现的六个SNP处给出以下示例性可能数据，其中个体在那些SNP是杂合的：

SNP 1:460解读A等位基因；540解读B等位基因；(46％A)

SNP 2:530解读A等位基因；；470解读B等位基因；(53％A)

SNP 3:40解读A等位基因；；60解读B等位基因；(40％A)

SNP 4:46解读A等位基因；；54解读B等位基因；(46％A)

SNP 5:520解读A等位基因；；480解读B等位基因；(52％A)

SNP 6:200解读A等位基因；；200解读B等位基因；(50％A)

从这组数据，可能难以区分个体所有细胞是二倍体是正常的，还是个体可能具有癌细胞的一部分，其DNA使在染色体上具有缺失或复制的血浆中发现的无细胞DNA。例如，具有最大似然性的两个假设可以是个体在该染色体区段具有缺失，具有6％的肿瘤分数，并且其中染色体的缺失区段具有超过(A，B)的六个SNP的基因型。B，A，A，B，B)或(A， B，A，A，B，在个体基因型在一组SNP上的这种表示中，括号中的第一个字母对应于SNP 1的单倍型的基因型，第二个对应于SNP 2等。

如果使用一种方法来确定在该染色体片段处的个体的单倍型，并且发现两个染色体之一的单倍型是(A，B，A，A，B，B)，则这将与最大似然假说吻合，并且计算的个体在该节段处具有缺失并因此可能具有癌性或癌前细胞的可能性将增加。另一方面，如果发现个体具有单倍型(A，A， A，A，A，A)，则个体在该染色体区段具有缺失的可能性将显著降低，没有缺失假说的可能性会更高(实际似然值将取决于其它参数，例如系统中的测量噪声等)。

有许多方法来确定个体的单倍型，其中许多在本文件的其他地方描述。这里给出了部分列表，并不意味着详尽无遗。一种方法是生物学方法，其中单个DNA分子被稀释，直到来自每个染色体区域的大约一个分子在任何给定的反应体积中，然后使用诸如测序的方法测量基因型。另一种方法是基于信息地基于各种单元型与其频率耦合的群体数据可以以概率方式使用。另一种方法是测量个体的二倍体数据以及预期与个体共享单倍型区段并推断单倍型区段的一个或多个相关个体。还有一种方法是取出具有高浓度的缺失或重复片段的组织样品，并基于等位基因不平衡确定单倍型，例如，可以使用具有缺失的肿瘤组织样品的基因型测量来确定该缺失区的定相数据，该数据可用于确定癌症是否已经切除后再生长。

实际上，在给定染色体片段上测量通常多于20个SNP，多于50个 SNP，多于100个SNP，多于500个SNP，多于1,000个SNP或多于5, 000个SNP。

用于定相，预测等位基因比率和重建胎儿遗传数据的示例性方法

一个方面，本发明的特征在于确定胎儿的一种或多种单倍型的方法。在各种实施方案中，该方法允许确定哪些多态性位点(例如SNP)被胎儿遗传并且重建，哪些同源物(包括重组事件)存在于胎儿中(并由此内插多态位点之间的序列)。必要时，基本上可以重建胎儿的整个基因组。如果在胎儿的基因组中存在一些残留的模糊性(例如在具有交叉的间隔中)，必要时，可以通过分析另外的多态性位点来最小化这种模糊性。在各种实施方案中，选择多态性位点以一定密度覆盖一条或多条染色体，将任何模糊性降低至所需水平。该方法具有检测胎儿中的多态性或其它感兴趣的突变(例如缺失或重复)的重要应用，因为其能基于连锁(例如胎儿基因组中存在连锁的多态性位点)进行检测，而不是指导检测胎儿基因组中的目的多态性或其它突变。例如，如果亲本是与囊性纤维化(CF)相关的突变的载体，则可以分析包括来自胎儿母亲的母体DNA和来自胎儿的胎儿 DNA的核酸样品，以确定胎儿DNA是否包括该单倍型含有CF突变。特别地，可以分析多态性位点以确定胎儿DNA是否包括含有CF突变的单倍型，而不必在胎儿DNA中检测CF突变本身。这可用于筛选一个或多个突变，例如疾病相关的突变，而不必直接检测突变。

在一些实施方案中，所述方法包括例如通过使用本文所述的任何方法确定亲本单倍型(例如，胎儿的母亲或父亲的单倍型)。在一些实施方案中，无需使用来自母亲或父亲的亲属的数据进行确定。在一些实施方案中，使用如本文所述的稀释法进行SNP基因分型或测序来测定亲本单倍型。在一些实施方案中，使用来自母亲(或父亲)的亲属的数据通过本文所述的任何方法确定母亲(或父亲)的单倍型。在一些实施方案中，确定父亲和母亲的单倍型。

该亲本单体型数据可用于确定胎儿是否遗传了亲本单倍型。在一些实施方案中，使用SNP阵列分析包含来自母体DNA和胎儿DNA的核酸样品，以检测至少100；200；500；750；1,000；2,000；5,000；7,500； 10,000；20,000；25,000；30,000；40,000；50,000；75,000；或100,000个不同的多态性位点。在一些实施方案中，包括来母体DNA 和胎儿DNA的核酸样品通过使样品与同时杂交至少100个的引物文库接触来分析；200；500；750；1,000；2,000；5,000；7,500；10,000； 20,000；25,000；30,000；40,000；50,000；75,000；或100,0 个不同的多态性位点(例如SNP)以产生反应混合物。在一些实施方案中，使反应混合物经历引物延伸反应条件以产生扩增产物。在一些实施方案中，用高通量测序仪测量扩增产物以产生测序数据。

在各种实施方案中，使用关于染色体在染色体或染色体区段中的不同位置处交叉的概率的数据(例如通过使用重组数据，例如可以在HapMap 数据库中发现的重组数据，以产生重组风险评分)来确定胎儿单体型任何间隔)以模拟染色体或染色体区段上的多态性等位基因之间的依赖性，如上所述。在一些实施方案中，所述方法考虑了SNP(例如位于基因或感兴趣突变侧翼的SNP)和来自位置特异性重组可能性的重组数据和从母体血浆的遗传测量观察到的数据的物理距离，以获得最多可能的胎儿基因型。然后可以对从这些SNP获得的靶向测序或SPN阵列数据进行PARENTAL SUPPORT TM，以确定胎儿从两个亲本遗传了哪些同源物(参见例如美国申请号11/603,406(美国公开号20070184467)，美国申请号12/076,348(美国公开号20080243398)，美国申请13/110,685(美国公开号 2011/0288780)，PCT申请PCT/US09/52730(PCT公开号WO/ 2010/017214)和PCT申请号PCT/US10/050824(PCT公开号W0/ 2011/041485)，美国申请号13/300,235(美国公开号2012/0270212)，美国申请号13/335,043(美国公开号，2012/0122701)，美国申请号13/ 683,604和美国申请号13/780,022，其各自通过引用整体并入本文)。

假设其中一个位点处的可能等位基因是A和B的一般性实施例；将身份A或B分任意配给特定等位基因。用于特定SNP的亲本基因型，称为遗传背景，表达为母本|父本基因型。因此，如果母亲是纯合的并且父亲是杂合的，则这将表示为AA|AB。类似地，如果两个亲本对于相同的等位基因是纯合的，则亲本基因型将表示为AA|AA。此外，胎儿将永远不具有AB或BB状态，并且具有B等位基因的序列读数的数目将是低的，并且因此可以用于确定测定和基因分型平台的噪声应答，包括诸如低水平 DNA污染的影响和测序错误；这些噪声响应可用于建模预期的遗传数据谱。只有五种可能的母本父亲遗传背景：AA|AA，AA|AB，AB|AA， AB|AB和AA|BB；其他背景通过对称相等。其中亲本对于相同等位基因是纯合的SNP仅仅是用于确定噪声和污染水平的信息。其中亲本对于相同等位基因不是纯合的SNP在确定胎儿分数和拷贝数计数方面是信息性的。

令NAJ和NBJ表示在SNP处的每个等位基因的读数的数目，并且令 Ci表示在该位点处的亲本遗传背景。用于特定染色体的数据集由Nab＝ {NaxNbj}i＝1...N和C＝{Ci}，i＝1...N表示。为了重建部分或全部胎儿基因组，可以任选地确定胎儿是否具有非整倍体(例如染色体或染色体区段的缺失或额外拷贝)。对于研究中的每个个体染色体或染色体，让H表示染色体总数，每个染色体的亲本来源和亲代染色体上在受精配子形成期间发生重组的位置的一个或多个假设的集合创建孩子。可以使用来自 HapMap数据库的数据和与每个倍性态相关的先前信息来计算假设P(H) 的概率。

此外，令F表示样品中的胎儿cfDNA部分。给定一组可能的H，C 和F，可以基于对分子测定和测序平台的噪声源进行建模来计算N ab，P (N ab，H，F，C)的概率。目标是找到假设H和使P(H'F\Nab)最大化的胎儿分数F.使用标准贝叶斯统计技术，并且假设F从0到1的均匀概率分布，这可以根据最大化P(Nab|H，F，C)P(H)相对于H和F的概率来重写其中现在可以计算。将与特定拷贝数和胎儿分数(例如三体性和F＝10％，但覆盖所有可能的亲本染色体起点和交叉位置)相关的所有假说的概率相加。选择具有最高概率的拷贝数假设作为测试结果，与该假设相关联的胎儿分数揭示胎儿分数，并且与该假设相关联的概率是所计算的结果的准确性。

在一些实施方案中，算法使用计算机模拟来产生非常大量的假设测序数据集，其可能来自方法的可能的胎儿遗传遗传模式，样品参数和扩增和测量假象。更具体地，算法首先利用大量SNP的亲本基因型和来自HapMap 数据库的交叉频率数据来预测可能的胎儿基因型。然后它预测测序数据的预期数据谱，其将携带有每种可能的胎儿基因型的胎儿的母亲的混合样品测量并且考虑各种参数，包括胎儿分数，预期读取深度谱，胎儿基因组存在于样品中的等价物，每个SNP处的预期扩增偏差，以及多个噪声参数。数据模型描述了对于给定特定参数集的这些假设中的每一个，期望排序或 SNP阵列数据如何出现。选择在该建模数据和测量数据之间具有最佳数据拟合的假设。

必要时，可以使用胎儿遗传的单倍型的结果计算来自胎儿的DNA或 RNA的预期等位基因比率。还可以对包含来自母亲和胎儿的核酸的混合样品计算预期的等位基因比率(这些等位基因比率表示用于测量每个等位基因的总量的期望值，包括来自母体核酸的等位基因的量酸和胎儿核酸)。可以为指定第一同源染色体区段的过度表达的程度的不同假说计算预期的等位基因比率。

在一些实施方案中，该方法包括确定胎儿是否具有以下病症中的一种或多种：囊性纤维化，亨廷顿舞蹈病，脆性X，血小板减少症，肌营养不良(例如杜兴氏肌营养不良)，阿尔茨海默病，范可尼贫血，戈谢病，IV，尼曼-皮克病，泰-萨病，镰状细胞性贫血，帕金森病，扭转型肌张力障碍和癌症。在一些实施方案中，对于取自染色体13，18，21，X和Y 的一个或多个染色体确定胎儿单体型。在一些实施方案中，对于所有胎儿染色体确定胎儿单倍型。在各种实施方案中，该方法基本上确定胎儿的整个基因组。在一些实施方案中，对于胎儿的基因组的至少30％，40％，50％， 60％，70％，80％，90％或95％确定单倍型。在一些实施方案中，胎儿的单倍型测定包括关于哪个等位基因存在至少100的信息；200；500；750； 1,000；2,000；5,000；7,500；10,000；20,000；25,000；30, 000；40,000；50,000；75,000；或100,000个不同的多态性位点。在一些实施方案中，该方法用于确定胚胎的单倍型或等位基因比率。

用于预测等位基因比率的示例性方法

下面描述了用于计算样品的预期等位基因比率的示例性方法。表1显示了含有来自母亲和胎儿的核酸的混合样品(例如母体血液样品)的预期等位基因比率。这些预期的等位基因比率表示对于每个等位基因的总量的测量所期望的，包括来自混合样品中的母体核酸和胎儿核酸的等位基因的量。在一个实施例中，母体在预期共分离的两个相邻位点(例如，在位点之间预期不存在染色体交换的两个位点)是杂合的。因此，母亲是(AB， AB)。现在想象母亲的分阶段数据表明，对于一个单倍型她是(A，A)；因此，对于其他单倍型，可以推断她是(B，B)。表1给出了胎儿分数为 20％的不同假设的预期等位基因比率。对于该示例，不假设父亲数据的知识，并且假设杂合率为50％。预期的等位基因比率以两个SNP中的每一个的(A读数的预期比例/读数的总数)给出。使用母体定相数据(一个单倍型是(A，A)和一个是(B，B))并且不使用母体定相数据来计算这些比率。表1包括来自每个亲本的胎儿染色体片段的拷贝数的不同假设。

母亲和胎儿核酸混合样品的预期遗传数据

除了使用相位数据减少可能的预期等位基因比率的数量之外，它还改变每个预期等位基因比率的先前似然性，使得最大似然性结果更可能是正确的。消除不可能的预期等位基因比率或假设增加了选择正确假设的可能性。作为示例，假设测量的等位基因比率为(0.41，0.59)。在不使用分阶段数据的情况下，可以假设具有最大似然性的假设是二体假设(假定测量的等位基因比率与二体性预期等位基因比率(0.40，0.60)的相似性)。然而，使用分期数据，可以排除(0.40，0.60)作为二体假设的预期等位基因比，并且可以选择三体假设更可能。

假设测量的等位基因比率为(0.4，0.4)。没有任何单倍型信息，在每个SNP处的母体缺失的概率将是0.5×P(A缺失)+0.5×P(B缺失)。因此，虽然看起来A被删除(在胎儿中缺失)，但删除的可能性将是两者的平均值。对于足够高的胎儿分数，仍然可以确定最可能的假设。对于足够低的胎儿分数，平均值可能不利于缺失假设。然而，对于单元型信息，同源物1被删除的概率P(A删除)更大，并且将更好地拟合测量数据。必要时，也可以考虑两个位点之间的交叉概率。

在使用相位数据组合似然性的另一说明性实施例中，考虑两个连续的 SNP s1和s2，并且D1和D2表示这些SNP中的等位基因数据。在这里我们提供一个例子，如何结合这两个单核苷酸多态性的概率。令c表示两个连续的杂合SNP在相同同源物中具有相同等位基因(即，两个SNP均为 AB或两个SNP均为BA)的概率。因此，1-c表示SNP是AB，而另一个是BA的概率。例如，考虑假设H10和等位基因不平衡值f。首先，假设假定所有SNP为AB或BA，计算所有概率。然后，我们可以将两个连续 SNP中的概率组合，结果如下：

Lik(D₁，D₂|H₁₀，f)＝

Lik(D₁|H₁₀，f)×c×Lik(D₂|H₁₀，f)+Lik(D₁|H₁₀，f)×(1-c)×Lik(D₂|H₀₁，f).

我们可以递归地确定所有SNP的组合概率Lik(D₁，...，D_N|H₁₀，f)。

示例性突变

与疾病或病症(例如癌症)或疾病或病症(例如癌症)的增加的风险 (例如高于正常的风险水平)相关的示例性突变包括单核苷酸变体 (SNV)，多核苷酸突变，缺失(例如缺失的2至3千万个碱基对区域)，复制或串联重复。在一些实施方案中，突变在DNA中，例如cfDNA，无细胞的线粒体DNA(cf mDNA)，源自核DNA(cf nDNA)，细胞DNA或线粒体DNA的无细胞DNA。在一些实施方案中，突变是RNA，例如 cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA， mRNA，miRNA，线粒体RNA，rRNA或tRNA。在一些实施方案中，突变在患有疾病或病症(例如癌症)的受试者中比没有疾病或病症(例如癌症)的受试者以更高的频率存在。在一些实施方案中，突变指示癌症，例如致病突变。在一些实施方案中，突变是在疾病或病症中具有致病作用的驱动突变。在一些实施方案中，突变不是致病突变。例如，在一些癌症中，多个突变累积，但其中一些不是致病突变。非致病性的突变(例如在患有疾病或病症的受试者中比在没有疾病或病症的受试者中以更高频率存在的突变)仍然可用于诊断疾病或病症。在一些实施方案中，突变是在一个或多个微卫星的杂合性丢失(LOH)。

在一些实施方案中，对受试者筛选受试者已知具有(例如，测试其存在，具有这些多态性或突变的细胞，DNA或RNA的量的变化)的一个或多个多态性或突变，或癌症缓解或再发生)。在一些实施方案中，针对受试者已知处于风险中的一种或多种多态性或突变(例如具有多态性或突变的亲属的受试者)筛选受试者。在一些实施方案中，对受试者筛选与疾病或病症例如癌症相关的一组多态性或突变，(例如至少5，10，50，100， 200，300，500，750，1,000，1,500，2,000或5,000个多态性或突变)。

与癌症相关的许多编码变体描述于阿巴丹等人，“NCI-60实验对象的外显子组：基因组资源的癌症生物学和系统”，癌症研究，2013年7月15 日，以及万维网atdtp.nci.nih.gov/branches/btb/characterizationNCI60.html，其各自通过引用整体并入本文)。NCI-60人癌细胞系组由60个代表肺，结肠，脑，卵巢，乳腺，前列腺和肾脏以及白血病和黑素瘤的癌症的不同细胞系组成。在这些细胞系中鉴定的遗传变异由两种类型：正常群体中发现的I型变体和癌症特异性的II型变体组成。

示例性多态性或突变(例如缺失或重复)在一个或多个以下基因中： TP53，PTEN，PIK3CA，APC，EGFR，NRAS，NF2，FBXW7，ERBB， ATAD5，KRAS，BRAF，VEGF，EGFR，HER2，ALK，p53，BRCA， BRCA1，BRCA2，SETD2，LRP1B，PBRM，SPTA1，DNMT3A，ARID1A， GRIN2A，TRRAP，STAG2，EPHA3/5/7，POLE，SYNE1，C20orfB0， CSMD1，CTNNB1，ERBB2。FBXW7，KIT，MUC4，ATM，CDH1，DDX11，DDX12，DSPP，EPPK1，FAM186A，GNAS，HRNR，KRTAP4-II， MAP2K4，MLL3，NRAS，RBI，SMAD4，TTN，ABCC9，ACVR1B， ADAM29，ADAMTS19，AGAP10，AKT2，CBWD1，CCDC30，CCDC93，CD5L，CDC27，CDC42BPA，CDH9，CDKN2A，CHD8，CHEK2，CDK2， CHIN9，CIZ1，CLSPN，CNTN6，COL14A1，CREBBP，CROCC，CTSF， CYP1A2，DCLK1，DHDDS，DHX32，DKK2，DLEC1，DNAH14，DNAH5，DNAH9，DNASE1L3，DUSP16，DYNC2H1，ECT2，EFHB，RRN3P2， TRIM49B，TUBB8P5，EPHA7，ERBB3，ERCC6，FAM21A，FAM21C， FCGBP，FGFR2，FLG2，FLT1，FOLR2，FRYL，FSCB，GAB1，GABRA4，GABRP，GH2，GOLGA6L1，GPHB5，GPR32，GPX5，GTF3C3，HECW1， HIST1H3B，HLA-A，HRAS，HS3ST1，HS6ST1，HSPD1，IDH1，JAK2， KDM5B，KIAA0528，KRT15，KRT38，KRTAP21-1，KRTAP4-5，KRTAP4-7， KRTAP5-4，KRTAP5-5，LAMA4，LATS1，LMF1，LPAR4，LPPR4， LRRFIP1，LUM，LYST，MAP2K1，MARCH1，MARCO，MB21D2， MEGF10，MMP16，MORC1，MRE11A，MTMR3，MUC12，MUC17， MUC2，MUC20，NBPF10，NBPF20，NEK1，NFE2L2，NLRP4，NOTCH2， NRK，NUP93，OBSCN，OR11H1，OR2B11，OR2M4，OR4Q3，OR5D13， OR8I2，OXSM，PIK3R1，PPP2R5C，PRAME，PRF1，PRG4，PRPF19， PTH2，PTPRC，PTPRJ，RAC1，RAD50，RBM12，RGPD3，RGS22， ROR1，RP11-671M22.1，RP13-996F3.4，RP1L1，RSBN1L，RYR3，SAMD3， SCN3A，SEC31A，SF1，SF3B1，SLC25A2，SLC44A1，SLC4A11，SMAD2，SPTA1，ST6GAL2，STK11，SZT2，TAF1L，TAX1BP1，TBP，TGFBI， TIF1，TMEM14B，TMEM74，TPTE，TRAPPC8，TRPS1，TXNDC6， USP32，UTP20，VASN，VPS72，WASH3P，WWTR1，XPO1，ZFHX4， ZMIZ1，ZNF167，ZNF436，ZNF492，ZNF598，ZRSR2，ABL1，AKT2， AKT3，ARAF，ARFRP1，ARID2，ASXL1，ATR，ATRX，AURKA， AURKB，AXL，BAP1，BARD1，BCL2，BCL2L2，BCL6，BCOR，BCORL1， BLM，BRIP1，BTK，CARD11，CBFB，CBL，CCND1，CCND2，CCND3， CCNE1，CD79A，CD79B，CD73，CDK12，CDK4，CDK6，CDK8， CDKN1B，CDKN2B，CDKN2C，CEBPA，CHEK1，CIC，CRKL，CRLF2， CSF1R，CTCF，CTNNA1，DAXX，DDR2，DOT1L，EMSY(Cllorf10)， EP300，EPHA3，EPHB1，ERBB4，ERG，ESR1，EZH2，FAM123B(WTX)， FAM46C，FANCA，FANCC，FANCD2，FANCE，FANCF，FANCG，FANCL， FGF10，FGF14，FGF19，FGF23，FGF3，FGF4，FGF6，FGFR1，FGFR2， FGFR3FGFR4，FLT3，FLT4，FOXL2，GATA1，GATA2，GATA3，GID4 (C17或39)，GNA11，GNA13，GNAQ，GNAS，GPR124，GSK3B， HGF，IDH1，IDH2，IGF1R，IKBKE，IKZF1，IL7R，IRF4，IRS2，JAK1， JAK3，JUN，KAT6A(MYST3)，KDM5A，KDM5C，KDM6A，KDR， KEAP1，KLHL6，MAP2K2，MAP2K4，MAP3K1，MCL1，MDM2，MDM4， MED12，MEF2B，MEN1，MET，MITF，MLH1，MLL，MLL2，MPL， MSH2，MSH6，MTOR，MUTYH，MYC，MYCL1，MYCN，MYD88， NF1，NFKBIA，NKX2-1，NOTCH1，NPM1，NRAS，NTRK1，NTRK2， NTRK3，PAK3，PALB2，PAX5，PBRM1，PDGFRA，PDGFRB，PDK1， PIK3CG，PIK3R2，PPP2R1A，PRDM1，PRKAR1A，PRKDC，PTCH1， PTPN11，RAD51，RAF1，RARA，RET，RICTOR，RNF43，RPTOR， RUNX1，SMARCA4，SMARCB1，SMO，SOCS1，SOX10，SOX2，SPEN， SPOP，SRC，STAT4，SUFU，TET2，TGFBR2，TNFAIP3，TNFRSF14， TOPI，TP53，TSC1，TSC2，TSHR，VHL，WISP3，WT1，ZNF217，ZNF703 及其组合(苏等人“J莫尔戴尔根2011，13：74-84；DOI：10.1016/ j.jmoldx.2010.11.010；和阿巴丹等人，“NCI-60实验对象的外显子组：基因组资源的癌症生物学和系统”，癌症研究，2013年7月15日，其各自通过引用整体并入本文)。在一些实施方案中，所述重复是与乳腺癌相关的染色体1p(“Chrlp”)重复。在一些实施方案中，一个或多个多态性或突变在BRAF中，例如V600E突变。在一些实施方案中，一种或多种多态性或突变是K-ras。在一些实施方案中，在K-ras和APC中存在一种或多种多态性或突变的组合。在一些实施方案中，在K-ras和p53中存在一种或多种多态性或突变的组合。在一些实施方案中，APC和p53中存在一种或多种多态性或突变的组合。在一些实施方案中，K-ras，APC和p53中存在一种或多种多态性或突变的组合。在一些实施方案中，在K-ras和 EGFR中存在一种或多种多态性或突变的组合。示例性多态性或突变在一个或多个以下微RNA中：miR-15a，miR-16-1，miR-23a，miR-23b，miR-24-1， miR-24-2，miR-27a，miR-27b，miR-29b-2，miR-29c，miR-146，miR-155， miR-221，miR-222和miR-223(卡林等人“与慢性淋巴细胞白血病的预后和进展相关的微小RNA标记”新英格兰医学杂志353：1793-801，2005，其通过引用整体并入本文)。

在一些实施方案中，缺失是至少0.01kb，0.1kb，1kb，10kb，100kb， 1mb，2mb，3mb，5mb，10mb，15mb，20mb，30mb的缺失，或40mb。在一些实施方案中，缺失是1kb至40bp之间的缺失，例如1kb至100kb， 100kb至1mb，1至5mb，5至10mb，10至15mb，15至20bp mb，20至 25mb，25至30mb或30至40mb。

在一些实施方案中，所述重复是至少0.01kb，0.1kb，1kb，10kb，100kb， 1mb，2mb，3mb，5mb，10mb，15mb，20mb，30mb的重复，或40mb。在一些实施方案中，所述重复是1kb至40bp之间的重复，例如1kb至 100kb，100kb至1mb，1至5mb，5至10mb，10至15mb，15至20mb，20至25mb，25至30mb或30至40mb。

在一些实BRAF是Ras的下游的癌基因。已经在胶质瘤，黑素瘤，甲状腺和肺癌中鉴定了BRAF突变(迪亚斯-斯特格达等人BRAF V600E突变在多形性黄细胞瘤中常见：诊断和治疗影响.公共科学图书馆期刊 2011；6：e17948，2011；筱崎等人血清中B-RAF DNA突变用于监测接受生物化学治疗的黑素瘤患者的应用临床Cane Res 13：2068-2074，2007；和博德等人检测参与AZD6244(ARRY-142886)晚期黑素瘤II期研究.Brit J Cane 2009；101：1724-1730，其各自通过引用整体并入本文)。BRAF V600E突变发生，例如“在黑素瘤肿瘤中，并且在晚期阶段更常见。在 cfDNA中检测到V600E突变。施方案中，串联重复是2至60个核苷酸，例如2至6，7至10，10至20，20至30，30至40，40至50或50至60 个核苷酸的重复。在一些实施方案中，串联重复是2个核苷酸的重复(二核苷酸重复)。在一些实施方案中，串联重复是3个核苷酸的重复(三核苷酸重复)。

在一些实施方案中，多态性或突变是预后的。示例性的预后突变包括 K-ras突变，例如作为结肠直肠癌术后疾病复发指征的K-ras突变(赖安等人“在结直肠肿瘤患者的血清循环突变KRAS2的一项前瞻性研究的：强预后指标在术后随访“，格特52：101-108，2003；和勒孔特T等人结直肠癌患者血浆中自由循环肿瘤相关DNA的检测及其与预后的关系，国际癌症杂志100：542-548，2002，其各自通过引用整体并入本文)。

在一些实施方案中，多态性或突变与对特定治疗的改变的反应(例如功效或副作用的增加或降低)相关。实施例包括K-ras突变与在非小细胞肺癌中对基于EGFR的治疗的反应降低有关(王等人“基于血浆的KRAS 突变分析在晚期非小细胞肺癌患者中的潜在临床意义，“临床癌症研究16： 1324-1330，2010，其通过引用整体并入本文)。

K-ras是在许多癌症中被激活的癌基因。K-ras cfDNA突变已在胰腺癌，肺癌，结肠直肠癌，膀胱癌和胃癌中鉴定(弗列士哈克尔&施密特“循环核酸(CNA)和癌症-一项调查“，生物化学与生物物理学报[J]1775： 181-232，2007，其通过引用整体并入本文)。

p53是在许多癌症中突变并有助于肿瘤进展的肿瘤抑制基因(莱文& 奥伦“p53的前30年：成长越来越复杂.自然综说癌症期刊，9:749-758， 2009，参考文献)。许多不同的密码子可以被突变，例如Ser249。已经在乳腺癌，肺癌，卵巢癌，膀胱癌，胃癌，胰腺癌，结肠直肠癌，肠癌和肝细胞癌中鉴定了p53cfDNA突变(弗列士哈克尔&施密特“循环核酸(CNA) 和癌症-调查，”生物化学与生物物理学报[J]1775：181-232，2007，其通过引用整体并入本文)。

BRAF是Ras的下游的癌基因。已经在胶质瘤，黑素瘤，甲状腺和肺癌中鉴定了BRAF突变(迪亚斯-斯特格达等人BRAF V600E突变在多形性黄细胞瘤中常见：诊断和治疗影响.公共科学图书馆期刊2011；6： e17948，2011；筱崎等人血清中B-RAF DNA突变用于监测接受生物化学治疗的黑素瘤患者的应用临床Cane Res 13：2068-2074，2007；和博德等人检测参与AZD6244(ARRY-142886)晚期黑素瘤II期研究.Brit J Cane 2009；101：1724-1730，其各自通过引用整体并入本文)。BRAF V600E 突变发生，例如“在黑素瘤肿瘤中，并且在晚期阶段更常见。在cfDNA中检测到V600E突变。

EGFR有助于细胞增殖并在许多癌症中被错误调节(唐沃德J.靶向癌症治疗中的RAS信号传导途径.自然综说癌症期刊3：11-22，2003；和莱文&奥伦“p53的前30年：成长越来越复杂.自然综说癌症期刊，”9749-758，2009，其通过引用整体并入本文)。示例性EGFR突变包括在肺癌患者中已经鉴定的外显子18-21中的EGFR突变。已经在肺癌患者中鉴定了EGFRcfDNA突变(吉亚等人“血浆中表皮生长因子受体突变的预测/胸腔积液对吉非替尼治疗晚期非小细胞肺癌的疗效，”癌症研究和临床肿瘤学杂志2010；136：1341-1347，2010，其通过引用整体并入本文)。

与乳腺癌相关的示例性多态性或突变包括微卫星上的杂合性丢失 (科勒等人“血浆循环细胞游离核和线粒体DNA水平作为乳腺肿瘤的潜在生物标志物”，摩尔癌症8：doi：10.1186/1476-4598-8-105，2009，其通过引用整体并入本文)，p53突变(例如外显子5-8中的突变)(加西亚等人“细胞外肿瘤DNA在血浆和乳腺癌患者的总体生存，”基因，染色体和癌症45：692-701，2006，其通过引用整体并入本文)，人类表皮生长因子受体II(索伦森等人“曲妥珠单抗治疗后循环HER2 DNA预测乳腺癌的存活和反应，”抗癌研究30：2463-2468，2010，其PIK3CA，MED1和GAS6 多态性或突变(穆尔塔扎等人，“通过血浆DNA测序对获得性癌症治疗耐药性的TSfon侵袭性分析，”自然期刊2013；doi:10.1038/自然12065，通过引用以其整体并入本文)2013，其通过引用整体并入本文)。

增加的cfDNA水平和LOH与总体和无疾病生存率降低相关。p53 突变(外显子5-8)与总生存期降低相关。减少的循环HER2 cfDNA水平与HER2阳性乳腺肿瘤受试者中对HER2靶向治疗的更好的反应相关。 PIK3CA的激活突变，MED1的截短和GAS6中的剪接突变导致对治疗的抗性。

与结肠直肠癌相关的示例性多态性或突变包括p53，APC，K-ras和胸苷酸合酶突变和pi6基因甲基化(王等人“结直肠癌患者血清中APC， K-ras和p53突变的分子检测作为循环生物标志物”，世界杂志28：721-726， 2004；赖安等人“在结直肠肿瘤血清中循环突变KRAS2的一项前瞻性研究：强预后指标在术后随访”，Gut 52：101-108，2003；勒孔特等人“结直肠癌患者血浆中自由循环肿瘤相关DNA的检测及其与预后的关系，”国际癌症杂志100：542-548，2002；施瓦岑巴赫等人“晚期结直肠癌患者血液中无细胞循环DNA的胸苷酸合酶多态性的分子分析，”国际癌症杂志 127：881-888，2009，其各自通过引用整体并入本文)。术后检测血清中的K-ras突变是疾病复发的强预测因子。K-ras突变和p16基因甲基化的检测与降低的存活和增加的疾病复发相关。K-ras，APC和/或p53突变的检测与复发和/或转移相关。使用cfDNA的胸苷酸合酶(基于氟嘧啶的化学疗法的靶基因)的多态性(包括LOH，SNP，可变数目串联重复和缺失) 可能与治疗反应相关。

与肺癌(例如非小细胞肺癌)相关的示例性多态性或突变包括K-ras (例如密码子12中的突变)和EGFR突变。示例性预后突变包括与增加的总体和无进展存活相关的EGFR突变(外显子19缺失或外显子21突变) 和K-ras突变(在密码子12和13中)与减少的无进展存活相关(日安等人“血浆中表皮生长因子受体突变的预测/胸腔积液对吉非替尼治疗晚期非小细胞肺癌的疗效，“癌症研究和临床肿瘤学杂志136：1341-1347，2010；王等人”基于血浆的KRAS突变分析在晚期非小细胞肺癌患者中的潜在临床意义“临床癌症研究16：1324-1330，2010，其各自通过引用整体并入本文)。指示对治疗的响应的示例性多态性或突变包括改善对治疗的响应的EGFR突变(外显子19缺失或外显子21突变)和降低对治疗的反应的K-ras突变(密码子12和13)。已经鉴定了EFGR中的抗性赋予突变(穆尔塔扎等人“通过血浆DNA测序对获得性癌症治疗耐药性的TSfon侵袭性分析，”自然doi：10.1038/nature12065，2013，其通过引用整体并入本文))。

与黑素瘤(例如葡萄膜黑素瘤)相关的示例性多态性或突变包括 GNAQ，GNA11，BRAF和p53中的那些示例性多态性或突变。示例性 GNAQ和GNA11突变包括R183和Q209突变。QA99突变GNAQ或GNA11 与骨转移相关。BRAF V600E突变可在转移性/晚期黑色素瘤患者中检测到。BRAF V600E是侵袭性黑色素瘤的指示剂。化疗后BRAF V600E突变的存在与对治疗的不反应有关。

与胰腺癌相关的示例性多态性或突变包括K-ras和p53中的那些(例如p53Ser249)。p53 Ser249还与乙型肝炎感染和肝细胞癌，以及卵巢癌和非霍奇金淋巴瘤有关。

甚至在样品中以低频存在的多态性或突变也可以用本发明的方法检测。例如，通过进行一千万次测序读取，可以观察到以百万分之一的频率存在的多态性或突变10次。必要时，可根据所需的灵敏度水平改变测序读数的数量。在一些实施方案中，重新分析样品或使用更多数量的测序读数分析来自受试者的另一个样品以提高灵敏度。例如，如果检测到没有或仅检测到与癌症相关的少量(例如1，2，3，4或5种)多态性或突变或癌症的增加的风险，则重新分析样品或另一样品进行测试。

在一些实施方案中，用于癌症或转移性癌症需要多个多态性或突变。在这种情况下，筛选多个多态性或突变可提高准确设定诊断癌症或转移性癌症的能力。在一些实施方案中，当一个对象具有进行癌症或转移性癌症所需的多个多态性或突变，受试者可在之后进行筛选，看受试者是否获得额外的突变。

在其中癌症或转移性癌症所需的多个多态性或突变的一些实施方案中，各多态性或突变的频率可进行对比，看是否它们在类似的频率出现。例如，如果癌症需要两个突变(表示为“A”和“B”)，一些细胞没有，有些细胞有A，有的有B，以及一些具有A和B，如果A和B是在相似的观察频率，受试者是更可能有一些细胞用A和B两者。如果A和B在不同频率，受试者更有能具有不同的细胞群。

I在其中癌症或转移性癌症所需的多个多态性或突变的一些实施方案中，数量或检查多态性或突变的身份的多个多态性或突变一些实施方案中，存在于本可用于预测受试者有可能或可能很快有疾病或病症的多态性或突变的数量和同一性。在一些实施方案中，多态性或突变往往在一定的顺序发生，受试者可以定期进行测试，以查是否受试者已经获得的其它多态性或突变。

在一些实施方案中，多个多态性或突变(颜色：如2，3，4，5，8， 10，12，15，或更多)的存在或不存在可增加疾病或病症的存在或不存在的灵敏度和/或特异性，如癌症，或在危险中为增加与疾病或病症：诸如癌症。

在一些实施方案中，多态型或突变可直接检测到。在一些实施方案中，多态型或突变间接通过检测一个或多个序列(比如，多态位点如SNP)也被链接到的多态性或突变的检测。

示例性核酸改变

在一些实施方案中，与疾病或病症(例如癌症)相关的RNA或DNA 的完整性(例如片段化的cfRNA或cfDNA的大小的改变或核小体组成的改变)存在着变化，或增加疾病或病症(例如癌症)的风险。在一些实施方案中，与疾病或病症(例如癌症)相关的甲基化模式RNA或DNA中存在着变化，或者具有疾病或病症(例如癌症)(例如肿瘤抑制基因的高甲基化)的风险增加。例如，已经建议肿瘤抑制基因的启动子区域中的CpG 岛的甲基化触发局部基因抑制。pi6肿瘤抑制基因的异常甲基化发生在患有肝，肺和乳腺癌的受试者中。在各种类型的癌症中已检测到其它经常甲基化的肿瘤抑制基因，包括APC，Ras关联结构域家族蛋白1A(RASSF1A)，谷胱甘肽S-转移酶PI(GSTP1)和DAPK，例如鼻咽癌，结肠直肠癌，肺癌症，食管癌，前列腺癌，膀胱癌，黑素瘤和急性白血病。某些肿瘤抑制基因(例如p16)的甲基化已被描述为癌症形成中的早期事件，因此可用于早期癌症筛选。

在一些实施方案中，使用亚硫酸氢盐转化或使用甲基化敏感性限制性酶消化的基于非亚硫酸氢盐的策略来确定甲基化模式(亨等人，临床病理学杂志62：308-313，2009，其通过引用并入其整体)。在亚硫酸氢盐转化中，甲基化的胞嘧啶保留为胞嘧啶，而未甲基化的胞嘧啶转化为尿嘧啶。甲基化敏感性限制酶(例如BstUI)在特异性识别位点(例如，BstUI的5f-CG v CG-3')切割未甲基化的DNA序列，而甲基化序列保持完整。在一些实施方案中，检测完整的甲基化序列。在一些实施方案中，茎环引物用于选择性扩增限制酶消化的未甲基化片段，而不共扩增非酶消化的甲基化DNA。

mRNA剪接的示例性改变

在一些实施方案中，mRNA剪接的变化与疾病或病症(例如癌症)或疾病或病症(例如癌症)的风险增加相关。在一些实施方案中，mRNA剪接的变化在于与癌症相关的一个或多个以下核酸或癌症风险增加： DNMT3B，BRCA1，KLF6，Ron或Gemin5。在一些实施方案中，所检测的mRNA剪接变体与疾病或病症(例如癌症)相关。在一些实施方案中，多种mRNA剪接变体由健康细胞(例如非癌性细胞)产生，但是mRNA 剪接变体的相对量的变化与疾病或病症例如癌症相关。在一些实施方案中，mRNA剪接的变化是由于mRNA序列的变化(例如剪接位点中的突变)，剪接因子水平的变化，可用剪接因子的量的变化(例如减少在由于剪接因子与重复的结合而引起的可用剪接因子的量)，改变的剪接调节或肿瘤微环境。

剪接反应通过剪接体的多蛋白/RNA复合物进行(法克松和戈德利，疾病模型和机制：37-42，2008，doi：10.1242/dmm.000331，其通过引用并入其整体)。剪接体识别内含子-外显子边界并通过导致两个相邻外显子连接的两个酯交换反应去除插入的内含子。该反应的保真度必须精确，因为如果连接发生不正确，正常的蛋白质编码潜力可能受损。例如，在外显子跳跃保留指定翻译期间氨基酸的同一性和顺序的三联密码子的阅读框的情况下，可变剪接的mRNA可以指定缺乏关键氨基酸残基的蛋白质。更常见的是，外显子跳跃将破坏翻译读框，导致过早的终止密码子。这些 mRNA通常通过称为无义介导的mRNA降解的过程降解至少90％，这降低了这种缺陷信息将累积以产生截短的蛋白质产物的可能性。如果错拼的mRNA逃避该途径，则产生截短的，突变的或不稳定的蛋白质。

选择性剪接是从相同基因组DNA表现出的几种或许多不同转录物的手段，并且是由于包含特定蛋白质的可用外显子的子集而产生的。通过排除一个或多个外显子，某些蛋白质结构域可能从编码的蛋白质丢失，这可导致蛋白质功能丧失或增加。已经描述了几种类型的选择性剪接：外显子跳跃；替代5'或3'剪接位点；相互排斥的外显子；和更少见的内含子保留。其他人使用生物信息学方法比较了癌症与正常细胞中可变剪接的量，并确定癌症表现出比正常细胞更低水平的选择性剪接。此外，在癌症与正常细胞中，可变剪接事件的类型的分布不同。癌细胞表现出较少的外显子跳跃，但是比正常细胞更多的替代5'和3'剪接位点选择和内含子保留。当检查外显子现象(使用序列作为外显子主要由其他组织作为内含子使用)时，与癌细胞中的外源化相关的基因优先与mRNA加工相关，表明癌细胞和癌细胞生成之间的直接联系异常mRNA剪接形式。

DNA或RNA水平的示例性改变

在一些实施方案中，一种或多种类型的DNA(例如cfDNA cf mDNA， cfnDNA，细胞DNA或线粒体DNA)或RNA(cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA，miRNA，线粒体RNA，rRNA或tRNA)。在一些实施方案中，一种或多种特定DNA(例如cfDNAcf mDNA，cfnDNA，细胞DNA或线粒体DNA)或RNA(cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA， miRNA，线粒体RNA，rRNA或tRNA)分子。在一些实施方案中，一个等位基因比目标位点的另一个等位基因有更多表现形式。示例性miRNA 是调节基因表达的短的20-22个核苷酸的RNA分子。在一些实施方案中，转录组中存在变化，例如一个或多个RNA分子的同一性或量的变化。

在一些实施方案中，cfDNA或cfRNA的总量或浓度的增加与疾病或病症(例如癌症)或疾病或病症(例如癌症)的风险增加相关。在一些实施方案中，一种类型的DNA(例如cfDNAcf mDNA，cfnDNA，细胞DNA 或线粒体DNA)或RNA(cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA，miRNA，线粒体RNA，rRNA 或tRNA)的总浓度与该类型的DNA或RNA的总浓度相比增加至少2，3， 4，5，6，7，8，9，10倍或更多在健康(例如非癌性)受试者中。在一些实施方案中，cfDNA的总浓度在75纳克/毫升至100纳克/毫升，100纳克/毫升至150纳克/毫升，150纳克/毫升至200纳克/毫升，200纳克/毫升至300纳克/毫升，300纳克/毫升至400ng/mgL，400纳克/毫升至600 纳克/毫升，600至800纳克/毫升，800纳克/毫升至1,000纳克/毫升(包括端值)，或cfDNA的总浓度大于100纳克/毫升，例如大于200纳克/毫升，300纳克/毫升，400纳克/毫升，500纳克/毫升，600纳克/毫升，700 纳克/毫升，800纳克/毫升，900纳克/毫升或1,000纳克/毫升指示癌症，癌症风险增加，肿瘤恶性而不是良性的风险增加，癌症可能进入缓解，或癌症的预后较差。在一些实施方案中，一种类型的DNA(例如cfDNA cfmDNA，cf nDNA，细胞DNA或线粒体DNA)或RNA(cfRNA，细胞 RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA， miRNA，线粒体RNA，rRNA或tRNA)具有与疾病或病症(例如癌症)相关的一种或多种多态性/突变(例如缺失或重复)，或增加的疾病或病症 (例如癌症)的风险是至少2，3种，4％，5％，6％，7％，8％，9％， 10％，11％，12％，14％，16％，18％，20％或25％。在一些实施方案中，一种类型的DNA的总量的至少2％，3％，4％，5％，6％，7％，8％，9％， 10％，11％，12％，14％，16％，18％，20％或25％作为cfDNA cf mDNA， cf nDNA，细胞DNA或线粒体DNA)或RNA(cfRNA，细胞RNA，细胞质RNA，编码细胞质RNA，非编码细胞质RNA，mRNA，miRNA，线粒体RNA，rRNA或tRNA)特定多态性或与疾病或病症(例如癌症)相关的突变(例如缺失或重复)，或增加的疾病或病症(例如癌症)的风险。

在一些实施方案中，cfDNA被包装。在一些实施方案中，cfDNA不被包装。

在一些实施方案中，测定总DNA(例如总cfDNA中的肿瘤部分或来自总cfDNA中具有特定突变的肿瘤cfDNA部分)中的肿瘤DNA的分数。在一些实施方案中，可以针对多个突变确定肿瘤DNA的分数，其中突变可以是单核苷酸变体，拷贝数变体，差异甲基化或其组合。在一些实施方案中，对具有最高计算肿瘤分数的一个或一组突变计算的平均肿瘤分数作为样品中的实际肿瘤分数。在一些实施方案中，将针对所有突变计算的平均肿瘤分数作为样品中的实际肿瘤分数。在一些实施方案中，该肿瘤部分用于分期癌症(因为较高的肿瘤分数可与更晚期的癌症相关)。在一些实施方案中，肿瘤部分用于确定癌症的大小，因为较大的肿瘤可能与血浆中的肿瘤DNA的比例相关。在一些实施方案中，肿瘤部分用于确定患有单个或多个突变的肿瘤的比例，因为在血浆样品中测量的肿瘤部分与给定的组织尺寸之间可能存在相关性突变基因型。例如，具有给定突变基因型的组织的大小可以与肿瘤DNA的分数相关，其可以通过关注于该特定突变来计算。

示范性的数据库

本发明的特征包含从本发明的方法的一个或多个结果的数据库。例如，数据库可以包括记录与任何一个或多个受试者的以下信息：任何多态性/突变(颜色：例如拷贝数变化)鉴定，任何已知关联的多态性/突变与疾病或病症或在疾病或病症的风险增加，多态性/突变对编码的mRNA或蛋白质的表达或活性水平的影响，DNA的一部分，RNA，(细胞级分的表现或活性水平的多态性/突变作用：如DNA，RNA或细胞具有多态性/ 突变用的疾病或病症)细胞相关的疾病或障碍的总DNA，RNA，细胞样品，识别多态性/突变的来源(颜色：如从特定组织的血液样品或样品)，患病细胞的数目，从后面的重复试验所得(如重复测试来监测疾病或紊乱的进展或缓解)，其他疾病或障碍的测试，确诊的疾病或障碍的类型，实施治疗，治疗的反应，治疗的副作用，症状类型，症状(检查与所述疾病或病症相关的症状)，缓解的时长和数量，存活时间(如从最初的测试到死亡的持续时间和或从诊断到死亡的持续时间)，死亡原因，以及其组合。

在一些实施方案中，数据库包括与任何一个或多个受试者的以下信息的记录：任何多态性/突变(颜色：例如拷贝数变化)鉴定，任何已知关联的多态性/突变与疾病或病症或在疾病或病症的风险增加，多态性/突变对编码的mRNA或蛋白质的表达或活性水平的影响，DNA的一部分，RNA， (细胞级分的表现或活性水平的多态性/突变作用：如DNA，RNA或细胞具有多态性/突变用的疾病或病症)细胞相关的疾病或障碍的总DNA， RNA，细胞样品，识别多态性/突变的来源(颜色：如从特定组织的血液样品或样品)，患病细胞的数目，从后面的重复试验所得(如重复测试来监测疾病或紊乱的进展或缓解)，其他疾病或障碍的测试，确诊的疾病或障碍的类型，实施治疗，治疗的反应，治疗的副作用，症状类型，症状 (检查与所述疾病或病症相关的症状)，缓解的时长和数量，存活时间(如从最初的测试到死亡的持续时间和或从诊断到死亡的持续时间)，死亡原因，以及其组合。在一些实施方案中，治疗的反应包括以下任一种：减少或稳定肿瘤(例如，良性或癌性肿瘤)的大小，减慢或防止肿瘤大小的增加，减少或稳定增加肿瘤消失与其再出现之间的无病生存时间，防止肿瘤的初始或随后发生，减少或稳定与肿瘤相关的不良症状，或其组合。在一些实施方案中，包括针对疾病或病症例如癌症的一种或多种其他测试的结果，例如来自筛选测试，医学成像或组织样品的显微镜检查的结果。

在这样一方面，本发明的特征在于包括至少5，10，102，103，104， 105，106，107，108或更多个记录的电子数据库。在一些实施方案中，数据库具有至少5，10，102，103，104，105，106，107，108或更多不同受试者的记录。

在另一方面，本发明的特征在于包括本发明的数据库的计算机和用户界面。在一些实施方案中，用户界面能够显示包含一个或多个记录中的部分或全部信息。在一些实施方案中，用户界面能够显示(i)已被鉴定为含有多态性或突变的一种或多种类型的癌症，其记录存储在计算机中，(ii) 一种或多种多态性或突变，(iii)特定类型的癌症或特定的多态性或突变的预后信息，其记录存储在计算机中；(iv)一种或多种化合物或其它治疗剂用于具有记录存储在计算机中的多态性或突变的癌症，(v)调节其记录存储在计算机中的mRNA或蛋白质的表达或活性的一种或多种化合物，和(vi)一种或多种mRNA分子或蛋白质，其表达或活性受其记录存储在计算机中的化合物调节。计算机的内部组件通常包括耦合到存储器的处理器。外部组件通常包括大容量存储设备，例如硬盘驱动器；用户输入设备，例如键盘和鼠标；显示器，例如监视器；以及可选地，能够将计算机系统连接到其他计算机以允许共享数据和处理任务的网络链路。程序可以在操作期间加载到该系统的存储器中。

在另一方面，本发明的特征在于包括本发明的任何方法的一个或多个步骤的计算机实现的过程。

示例性风险因素

在一些实施方案中，还评估受试者的疾病或病症(例如癌症)的一种或多种风险因素。示例性的风险因素包括疾病或病症的家族史，生活方式(例如吸烟和暴露于致癌物中)和一种或多种激素或血清蛋白(例如肝癌中的甲胎蛋白(AFP)，癌胚抗原(CEA)，或前列腺癌中的前列腺特异性抗原(PSA))。在一些实施方案中，测量肿瘤的大小和/或数目，并用于确定受试者的预后或选择受试者的治疗。

示例性筛选方法

必要时，可确认疾病或病症(例如癌症)的存在或不存在，或者可以用任何标准方法对疾病或病症例如癌症进行分类。例如，可以用许多方式检测疾病或病症，例如癌症，包括某些体征和症状的存在，肿瘤活检，筛选试验或医学成像(例如乳房X线照片或超声波)。一旦检测到可能的癌症，可通过组织样品的显微镜检查来诊断。在一些实施方案中，诊断的受试者使用本发明的方法或已知的疾病或病症测试在多个时间点进行重复测试，以监测疾病或病症的进展或疾病或病症的缓解或复发。

示例性癌症

可使用本发明的任何方法诊断，预后，稳定，治疗或预防的示例性癌症包括实体瘤，癌，肉瘤，淋巴瘤，白血病，生殖细胞肿瘤或母细胞瘤。在各种实施方案中，癌症是急性淋巴细胞白血病，急性骨髓性白血病，肾上腺皮质癌，AIDS相关癌症，AIDS相关淋巴瘤，肛门癌，阑尾癌，星形细胞瘤(如儿童小脑或脑星形细胞瘤)，基底细胞癌，胆管癌(例如肝外胆管癌)，膀胱癌，骨肿瘤(例如骨肉瘤或恶性纤维组织细胞瘤)，脑干胶质瘤，脑癌(例如小脑星形细胞瘤，脑星形细胞瘤/恶性胶质瘤，室管膜瘤，成神经管细胞瘤，神经外胚层肿瘤或视觉途径和下丘脑神经胶质瘤)，成胶质细胞瘤，乳腺癌，支气管腺瘤或类癌，伯基特淋巴瘤，类癌瘤(例如儿童或胃肠类癌瘤)，癌症中枢神经系统淋巴瘤，小脑星形细胞瘤或恶性神经胶质瘤(例如儿童小脑星形细胞瘤或恶性神经胶质瘤)，子宫颈癌，儿童癌症，慢性淋巴细胞白血病，慢性骨髓性白血病，慢性骨髓增生性疾病，结肠癌，皮肤T-细胞淋巴瘤，小圆细胞肿瘤，子宫内膜癌，室管膜瘤，食管癌，尤因氏肉瘤，肿瘤的肿瘤，颅外生殖细胞肿瘤(例如儿童期颅外生殖细胞肿瘤)，外阴生殖细胞肿瘤，眼癌黑素瘤或视网膜母细胞瘤眼癌)，胆囊癌，胃癌，胃肠道类癌瘤，胃肠道间质瘤，生殖细胞肿瘤(例如颅外，外阴或卵巢生殖细胞肿瘤)，妊娠滋养层肿瘤，神经胶质瘤脑星形细胞瘤或儿童视觉途径和下丘脑神经胶质瘤)，胃癌，毛细胞白血病，头颈癌，心脏癌，肝细胞(肝)癌，霍奇金淋巴瘤，下咽癌，下丘脑和视觉通路神经胶质瘤神经胶质瘤)，胰岛细胞癌(例如内分泌或胰腺胰岛细胞癌)，卡波氏肉瘤，肾癌，喉癌，白血病(例如急性淋巴细胞，急性骨髓，慢性淋巴细胞，慢性骨髓性或毛细胞白血病)口腔癌，脂肪肉瘤，肝癌(例如非小细胞或小细胞癌)，肺癌，淋巴瘤(例如AIDS相关的，伯基特，皮肤T 细胞，霍奇金，非霍奇金淋巴瘤或中枢神经系统淋巴瘤)，巨球蛋白血症(例如瓦尔德登巨球蛋白血症，骨或骨肉瘤的恶性纤维组织细胞瘤，成神经管细胞瘤(例如儿童成神经管细胞瘤)，黑素瘤，梅克尔细胞癌，间皮瘤(例如成人或儿童间皮瘤)，隐匿性转移性鳞状上皮癌，多发性内分泌瘤形成综合征(例如儿童期多发性内分泌瘤形成综合征)，多发性骨髓瘤或浆细胞瘤，蕈样肉芽肿病，骨髓增生异常综合征，骨髓增生性疾病(例如慢性骨髓增生性疾病)，鼻腔或鼻旁窦癌，鼻咽癌，成神经细胞瘤(例如成人急性髓性白血病)，骨髓增生性疾病，口腔癌，口咽癌，骨肉瘤或骨的恶性纤维组织细胞瘤，卵巢癌，卵巢上皮癌，卵巢生殖细胞瘤，卵巢低恶性潜能肿瘤，胰腺癌(例如胰岛细胞胰腺癌)，鼻旁窦或鼻腔癌，甲状旁腺癌，阴茎癌，咽癌，嗜铬细胞瘤，松果体星形细胞瘤，松果体生殖细胞瘤。成神经细胞瘤，原发性中枢神经系统淋巴瘤，癌症，直肠癌，肾细胞癌，肾盂或输尿管癌(例如成神经细胞瘤)，神经母细胞瘤或神经原性神经外胚层肿瘤作为肾盂或输尿管移行细胞癌，视网膜母细胞瘤，横纹肌肉瘤(例如儿童横纹肌肉瘤)，唾液腺癌，肉瘤(诸如肿瘤家族中的肉瘤，卡波西，软组织或子宫肉瘤)，sezary综合征，皮肤癌(例如非黑素瘤，黑素瘤或美克尔细胞皮肤癌)，小肠癌，鳞状细胞癌，幕上原始神经外胚层肿瘤(例如儿童期原始神经外胚层肿瘤)，T细胞淋巴瘤(例如皮肤T细胞淋巴瘤)睾丸癌，喉癌，胸腺瘤(如儿童胸腺瘤)，胸腺瘤或胸腺癌，甲状腺癌(如儿童期甲状腺癌)，滋养细胞瘤(如妊娠滋养细胞瘤)，未知原发部位癌原发部位癌)，尿道癌(例如子宫内膜子宫癌)，子宫肉瘤，阴道癌，视觉途径或下丘脑神经胶质瘤(例如儿童视觉途径或下丘脑神经胶质瘤)，外阴癌，瓦尔德斯特伦巨球蛋白血症或wilms肿瘤(例如儿童 wilms肿瘤)。在各种实施方案中，癌症已转移或未转移。

癌症可以是或可以不是激素相关或依赖性的(例如，雌激素或雄激素相关癌症)。良性肿瘤或恶性肿瘤可以使用本发明的方法和/或组合物诊断，预后，稳定，治疗或预防。

在一些实施方案中，受试者患有癌症综合征。癌症综合征是一种遗传病症，其中一个或多个基因中的遗传突变使受影响的个体倾向于癌症的发展，并且还可能导致这些癌症的早期发作。癌症综合征通常不仅显示发展癌症的高终生风险，而且显示多个独立原发性肿瘤的发展。这些综合征中的许多是由肿瘤抑制基因中的突变引起的，所述基因涉及保护细胞免于癌变。可能受影响的其它基因是DNA修复基因，癌基因和参与血管生成的基因(血管生成)。遗传性癌症综合征的常见实施例是遗传性乳腺-卵巢癌综合征和遗传性非息肉病性结肠癌(Lynch综合征)。

在一些实施方案中，对具有一种或多种多态性或突变n K-ras，p53， BRA，EGFR或HER2的受试者分别试用靶向K-ras，p53，BRA，EGFR 或HER2的治疗。

本发明的方法通常可用于治疗任何细胞，组织或器官类型的恶性或良性肿瘤。

示例性治疗

必要时，可以对受试者(例如，被鉴定为患有癌症或风险增加的受试者)施用用于稳定，治疗或预防疾病或病症(例如癌症)或疾病或病症(例如癌症)用于使用本发明的任何方法的癌症)。在各种实施方案中，治疗是针对疾病或病症(例如癌症)的已知治疗或治疗组合，例如细胞毒性剂，靶向治疗，免疫治疗，激素治疗，放射治疗，癌细胞或可能变成癌的细胞的手术切除，干细胞移植，骨髓移植，光动力疗法，姑息治疗或其组合。在一些实施方案中，治疗(如预防性药物)用于在疾病或病症(例如癌症)风险增加的受试者中预防，延迟或降低疾病或病症(例如癌症) 的严重性。

在一些实施方案中，靶向治疗是靶向癌症的特定基因，蛋白质或有助于癌症生长和存活的组织环境的治疗。这种类型的治疗阻止癌细胞的生长和扩散，同时限制对正常细胞的损伤，通常比其他癌症药物有更少的副作用。

更成功的方法之一是靶向血管生成，肿瘤周围的新血管生长。靶向治疗如贝伐单抗(Avastin)，来那度胺(Revlimid)，索拉非尼(Nexavar)，舒尼替尼(Sutent)和沙利度胺(Thalomid)干扰血管生成。另一个实施例是使用靶向HER2的治疗，例如曲妥珠单抗或拉帕替尼，用于过表达 HER2的癌症(例如一些乳腺癌)。在一些实施方案中，单克隆抗体用于阻断癌细胞外部的特异性靶标。实施例包括阿仑珠单抗(Campath-1H)，贝伐单抗，西妥昔单抗(Erbitux)，帕尼单抗(Vectibix)，帕妥珠单抗 (Omnitarg)，利妥昔单抗(Rituxan)和曲妥珠单抗。在一些实施方案中，单克隆抗体西妥珠单抗(Bexxar)用于向肿瘤递送辐射。在一些实施方案中，口腔小分子抑制癌细胞内的癌症过程。实施例包括达沙替尼(Sprycel)，厄洛替尼(Tarceva)，吉非替尼(Iressa)，伊马替尼(Gleevec)，拉帕替尼 (Tykerb)，尼罗替尼(Tasigna)，索拉非尼，舒尼替尼和替西罗莫司 (Torisel)。在一些实施方案中，蛋白酶体抑制剂(例如多发性骨髓瘤药物，硼替佐米(Velcade))干扰称为分解细胞中其他蛋白质的酶的特化蛋白质。

在一些实施方案中，免疫治疗旨在提高人体的自然防御力以对抗癌症。示例性类型的免疫治疗使用由身体或在实验室中制备的材料，以支持，靶向或恢复免疫系统功能。

在一些实施方案中，激素治疗通过降低体内激素的量来治疗癌症。几种类型的癌症，包括一些乳腺癌和前列腺癌，仅在体内称为激素的天然化学物质的存在下生长和扩散。在各种实施方案中，激素治疗用于治疗前列腺，乳腺，甲状腺和生殖系统的癌症。

在一些实施方案中，治疗包括干细胞移植，其中患病的骨髓被称为造血干细胞的高度特化的细胞替代。造血干细胞存在于血流和骨髓中。

在一些实施方案中，治疗包括光动力治疗，其使用称为光敏剂的特殊药物以及用于杀死癌细胞的光。这些药物在被某种光激活后工作。

在一些实施方案中，所述治疗包括手术切除癌细胞或可能变成癌的细胞(例如乳房肿瘤切除术或乳房切除术)。例如，具有乳腺癌易感性基因突变(BRCA1或BRCA2基因突变)的女性可以降低她的乳腺癌和卵巢癌的风险，降低输卵管卵巢切除术(去除输卵管和卵巢)和/或降低风险双侧乳房切除术(去除两个乳房)。激光器是非常强大的，精确的光束，可以用于代替刀片(解剖刀)用于非常仔细的手术工作，包括治疗一些癌症。

除了缓慢，停止或消除癌症(也称为疾病导向治疗)的治疗之外，癌症治疗的重要部分是缓解受试者的症状和副作用，例如疼痛和恶心。它包括对患者支身体，情感和社会需要的支持，一种称作姑息治疗或支持治疗的方法。人们常常接受针对疾病的治疗和同时能缓解症状的治疗。

典型的治疗包括放线菌素D，adcetris，阿霉素，阿地白介素，阿仑单抗，力比泰，胺苯吖啶，安吖啶，阿那曲唑，阿可达，瑞宁得，阿诺，门冬酰胺酶，阿瓦斯汀，贝伐单抗，比卡鲁胺，博来霉素，伊班膦酸注射液，氯膦酸二钠胶囊，硼替佐米，busilvex，白消安，依立替康，卡培他滨，卡铂，卡莫司汀，卡莫司汀，西妥昔单抗，chimax，苯丁酸氮芥，西咪替丁，顺铂，克拉屈滨，氯膦酸盐，氯法拉滨，克立他酶，环磷酰胺，环丙孕酮，塞前前列腺素，阿糖胞苷，细胞毒素，达卡巴嗪，更生霉素，达沙替尼，柔红霉素，地塞米松，阿霉素，氟他胺，雌二醇氮芥，表阿霉素， eposin，爱必妥，厄洛替尼，磷酸雌二醇氮芥，雌莫司汀，凡毕复，依托泊苷，evoltra，依西美坦，法乐通，来曲唑，非格司亭，氟达拉滨，氟达拉滨，氟尿嘧啶，氟他胺，易瑞沙，吉西他滨，吉西他滨，格列卫，格列卫。gonapeptyl depot，戈舍瑞林，甲磺酸艾瑞布林，赫赛汀，托普乐肯，羟基脲，伊班膦酸，替伊莫，伊达比星，异环磷酰胺，干扰素，伊马替尼，吉非替尼，伊立替康，卡巴他赛，兰快舒，拉帕替尼，来曲唑，瘤可宁，亮丙瑞林，leustat，洛莫司汀，阿仑单抗，美罗华，甲地孕酮，甲地孕酮，氨甲喋呤，米托蒽醌，丝裂霉素，mutulane，马利兰，长春瑞滨，培非格司亭，非格司亭，多吉美，喷司他丁，他莫昔芬，静脉点滴注射，长春新碱，紫杉醇，帕米膦酸二钠，PCV，培美曲塞，喷喷司他丁，帕妥珠单抗，甲基苄肼，普罗文奇，泼尼松龙，prostrap，雷替曲塞，利妥昔单抗，和达沙替尼，索拉非尼，他莫昔芬，链脲菌素，己烯雌酚，stimuvax，舒尼替尼，索坦，小报，泰胃美，特茉芬，他莫昔芬，特罗凯，紫杉醇，泰索帝，替加氟与尿嘧啶，替莫唑胺，替莫唑胺，沙利度胺，塞替派粉针剂，塞替派，托瑞米芬，曲妥珠单抗，维甲酸，曲安奈德，三氟乙酸卟吩酰胺，曲普瑞林，黄酮，紫罗兰，万珂，凡毕士，类黄酮，长春新碱，克里唑蒂尼，卡培他滨，伊匹单抗，凡德他尼，zanad，诺雷德，zoladronate，择泰唑来膦酸和阿比特龙。

对于mRNA或蛋白质的突变形式(例如，癌症相关形式)和野生型形式(例如，与癌症不相关的形式)的受试者，治疗优选抑制突变体的表达或活性形成比其抑制野生型形式的表达或活性高至少2，5，10或20 倍。多种治疗剂的同时或顺序使用可以大大降低癌症的发生率并减少对治疗产生抗性的治疗的癌症的数量。此外，用作组合疗法的一部分的治疗剂可能需要比单独使用治疗剂时所需的相应剂量更低的治疗癌症的剂量。组合疗法中的每种化合物的低剂量降低了化合物的潜在不良副作用的严重性。

在一些实施方案中，被鉴定为具有增加的癌症风险的受试者可以发明或任何标准方法)，避免特定风险因素或改变生活方式减少任何额外的癌症风险。

在一些实施方案中，多态性，突变，风险因子或其任何组合用于选择受试者的治疗方案。在一些实施方案中，对于具有更大的癌症风险或具有更差的预后的受试者选择更大剂量或更大数量的治疗。

包含在个体或组合疗法中的其它化合物

必要时，可以从天然产物或合成(或半合成)提取物的大型文库中鉴定用于稳定，治疗或预防疾病或病症(例如癌症)或增加疾病或病症(例如癌症)的风险的其它化合物或化学文库根据本领域已知的方法。本领域技术人员或药物发现和开发将理解测试提取物或化合物的精确来源对于本发明的方法不是关键的。因此，实际上可以筛选任何数量的化学提取物或化合物对来自特定类型癌症的细胞或来自特定受试者的效应，或者对它们对癌症相关分子的活性或表达的影响进行筛选(例如已知的癌症相关分子在特定类型的癌症中具有改变的活性或表达)。当发现粗提取物调节癌相关分子的活性或表达时，可以进行正铅提取物的进一步分级分离，以使用本领域已知的方法分离负责观察到的效果的化学成分。

用于测试治疗的示例性测定和动物模型

必要时，可以使用细胞系(例如具有在已诊断的受试者中鉴定的一个或多个突变的细胞系)测试本文公开的一种或多种治疗对疾病或病症(例如癌症)的作用，使用本发明的方法与癌症或增加的癌症风险)或疾病或病症的动物模型，例如SCID小鼠模型(简恩等人“癌症研究的肿瘤模型，泰彻，胡玛纳出版社公司，托托瓦，新泽西，647-671页，2001，其通过引用整体并入本文)。另外，存在许多标准测定和动物模型，用于确定特定疗法用于稳定，治疗或预防疾病或病症(例如癌症)或增加的疾病或病症(例如癌症)的风险的功效。治疗也可在标准的人类临床试验中测试。

为了选择特定受试者的优选疗法，可以测试化合物对受试者中突变的一个或多个基因的表达或活性的影响。例如，可以使用标准Northern， Western或微阵列分析来检测化合物调节特定mRNA分子或蛋白质的表达的能力。在一些实施方案中，选择一种或多种化合物，其(i)抑制促进癌症的mRNA分子或蛋白质的表达或活性，所述mRNA分子或蛋白质以高于正常水平表达或具有高于正常水平的活性(例如在来自受试者的样品中)或(ii)促进抑制癌症的mRNA分子或蛋白质的表达或活性，所述 mRNA分子或蛋白质在受试者中以低于正常水平或具有低于正常水平的活性表达。个体或组合疗法，其(i)调节最大数目的mRNA分子或蛋白质，其具有与受试者中的癌症相关的突变，和(ii)调节在学科。在一些实施方案中，所选择的个体或组合疗法具有高的药物功效，并且产生很少 (如果有的话)不良副作用。

作为上述受试者特异性分析的替代方案，DNA芯片可用于将特定类型的早期或晚期癌症(例如乳腺癌细胞)中的mRNA分子的表达与正常组织中的表达(马拉克等人“免疫学的新”12，206-209，2000；哈金，肿瘤学家.5：501-507，2000；佩利扎里等人“核酸的研究”8(22)：4577-4581，2000，其各自由此通过引用整体并入)。基于该分析，可以选择具有这种类型的癌症的受试者的个体或组合疗法来调节在这种类型的癌症中已经改变表达的mRNA或蛋白质的表达。

除了用于为特定受试者或受试者组选择治疗之外，表达谱可以用于监测在治疗期间发生的mRNA和/或蛋白质表达的变化。例如，表达谱可用于确定癌症相关基因的表达是否已恢复到正常水平。如果不是，可以改变治疗中一种或多种化合物的剂量以增加或减少治疗对相应癌症相关基因的表达水平的影响。此外，该分析可用于确定治疗是否影响其他基因(例如，与不良副作用相关的基因)的表达。必要时，可以改变治疗的剂量或组成以防止或减少不希望的副作用。

示例性制剂和施用方法

为了稳定，治疗或预防疾病或病症例如癌症或增加疾病或病症例如癌症的风险，可以使用本领域技术人员已知的任何方法配制和施用组合物 (参见，美国专利号8,389,578和8,389,557，其各自通过引用整体并入本文)。用于制剂和施用的一般技术在“雷明顿：药学科学与实践，”第21版，大卫·特洛伊编辑，2006，利平科特·威廉姆斯&威尔金斯，费城，其通过引用整体并入本文)液体，浆液，片剂，胶囊，丸剂，粉剂，颗粒剂，凝胶剂，软膏剂，栓剂，注射剂，吸入剂和气溶胶是这样的制剂的实施例，例如，改性或延长释放口服制剂可以使用另外的方法合适的基质形成材料包括例如蜡(例如，巴西棕榈蜡，蜂蜡，石蜡，地蜡，虫胶蜡，脂肪酸和脂肪醇)，油，硬化油或脂肪(例如硬化菜籽油，蓖麻油，牛脂，棕榈油和大豆油)和聚合物(例如羟丙基纤维素，聚乙烯吡咯烷酮，羟丙基甲基纤维素和聚乙二醇)。其它合适的基质压片材料是微晶纤维素，粉末纤维素，羟丙基纤维素，乙基纤维素，以及其它载体和填料。片剂还可以包含颗粒，包衣粉末或小丸。片剂也可以是多层的。任选地，成品片剂可以是包衣的或未包衣的。

给予这样的组合物的典型途径包括但不限于口服，舌下，口腔，局部，透皮，吸入，肠胃外(例如皮下，静脉内，肌肉内，胸骨内注射或输注技术)，直肠，阴道和鼻内。在优选的实施方案中，使用延长释放装置施用治疗。配制本发明的组合物以便允许其中所含的活性成分在施用组合物时是生物可利用的。组合物可以采取一个或多个剂量单位的形式。组合物可以含有1，2，3，4或更多种活性成分，并且可以任选地含有1，2，3，4或更多种非活性成分。

替代实施方案

本文描述的任何方法可以包括以物理格式(诸如在计算机屏幕上或在纸质打印输出上)输出数据。本发明的任何方法可以以可由医生采取行动的格式与可起作用的数据的输出组合。用于确定与目标个体有关的遗传数据的文献中描述的一些实施方案可以与医学专业人员的潜在染色体异常 (例如缺失或复制)或缺乏的通知组合，任选地与决定在产前诊断的情况下中止或不中止胎儿。本文所述的一些实施方案可与可动作数据的输出以及执行导致临床治疗的临床决策或执行不进行动作的临床决策相结合。

在一些实施方案中，本文公开了用于生成公开本发明的任何方法的结果(例如删除或复制的存在或不存在)的报告的方法。可以利用本发明的方法的结果生成报告，并且可以用电子形式发送给医生，显示在输出设备 (例如数字报告)上，或者用书面报告形式(例如印刷的硬拷贝该报告) 递送给医生。另外，所描述的方法可以与导致临床治疗的临床决策的实际执行或执行不进行动作的临床决策组合。

在某些实施方案中，本发明提供了使用本文公开的多重PCR方法从相同样品检测CNV和SNV的试剂，试剂盒和方法，以及具有编码指令的计算机系统和计算机介质。在某些优选的实施方案中，样品是怀疑含有循环肿瘤DNA的单细胞样品或血浆样品。这些实施方案利用了以下发现：通过使用本文公开的高度灵敏的多重PCR方法从单细胞或血浆中探查 DNA样品用于CNV和SNV，可以改善的癌症检测，相对于单独检测CNV 或SNV，特别是对于癌症表现出CNV如乳腺癌，卵巢癌和肺癌。在某些说明性实施方案中，用于分析CNV的方法询问50至100,000或50至 10,000或50至1,000个SNP，以及SNV询问50至1000个SNV或50 至500个SNV或50至250个SNV。本文提供的用于检测怀疑患有癌症的受试者的血浆中的CNV和/或SNV的方法，包括例如已知展示CNV和 SNV的癌症，例如乳腺癌，肺癌和卵巢癌，提供了检测CNV和/或来自通常由异质癌细胞群组在遗传组成方面组成的肿瘤的SNV。因此，专注于仅分析肿瘤的某些区域的传统方法常常会错过存在于肿瘤其他区域的细胞中的CNV或SNV。血浆样品用作液体活检，其可以被询问以检测仅存在于肿瘤细胞亚群中的任何CNV和/或SNV。

计算机体系结构示例

图69示出了用于执行本发明的实施例的示例系统架构X00。系统架构X00包括连接到一个或多个实验室信息系统(“LIS”)X04的分析平台 X08。如图69所示，分析平台X08可以通过网络X02连接到LIS X04。网络X02可以包括一个或多个网络类型的一个或多个网络，包括LAN， WAN，因特网等的任何组合。网络X02可以包含系统架构X00中的任何或所有组件之间的连接。分析平台X08可以可选地或附加地直接连接到 LIS X06。在一个实施例中，分析平台X08在软件即服务模型中分析由LIS X04提供的遗传数据，其中LIS X04是第三方LIS，而分析平台X08分析由LIS X06提供的遗传数据，服务或内部模型，其中LIS X06和分析平台X08由同一方控制。在分析平台X08通过网络X02提供信息的实施例中，分析平台X08可以是服务器。

在示例实施例中，实验室信息系统X04包括收集，管理和/或存储遗传数据的一个或多个公共或私人机构。相关领域的技术人员将理解用于保护遗传数据的方法和标准是已知的，并且可以使用各种信息安全技术和策略来实现，例如用户名/密码，传输层安全(TLS)，安全套接字层(SSL) 和/或提供通信安全性的其他密码协议。

在示例实施例中，系统架构X00作为面向服务的架构操作，并且使用客户端-服务器模型，其将被相关领域的技术人员理解，以实现LIS X04与分析之间的各种形式的交互和通信平台X08。系统架构X00可以分布在各种类型的网络X02上和/或可以作为云计算架构操作。云计算架构可以包括任何类型的分布式网络架构。作为示例而非限制，云计算体系结构对于提供软件即服务(SaaS)，基础设施即服务(IaaS)，平台即服务(PaaS)，网络即服务(NaaS)服务(DaaS)，数据库即服务(DBaaS)，后端服务(BaaS)，测试环境即服务(TEaaS)，API即服务(APIaaS)，集成平台即服务(IPaaS)等。

在示例实施例中，LIS X04和X06各自包括计算机，设备，接口等或其任何子系统。LIS X04和X06可以包括操作系统(OS)，安装用于执行各种功能的应用，例如访问和/或导航本地可访问的，在存储器中和/或通过网络X02的数据。在一个实施例中，LIS X04通过应用编程接口(“API”) 访问分析平台X08。LIS X04还包括可以独立于API操作的一个或多个原生应用。

在示例实施例中，分析平台X08包括输入处理器X12，假设管理器 X14，建模器X16，错误校正单元X18，机器学习单元X20和输出处理器 X18中的一个或多个。输入处理器XI2接收和处理来自LIS X04和/或X06 的输入。处理可以包括但不限于诸如解析，转码，翻译，适配或以其它方式处理从LIS X04和/或X06接收的任何输入的操作。可以经由一个或多个流，馈送，数据库或其他数据源接收输入，诸如可以由LIS X04和 X06访问。数据误差可以通过执行上述误差校正机制由误差校正单元X18 校正。

在示例实施例中，假设管理器XI4被配置为以准备根据表示为模型和 /或算法的遗传分析的假设来处理的形式接收从输入处理器X12传递的输入。建模器XI6可以使用这样的模型和/或算法以例如基于动态，实时和/ 或历史统计或其他指标来生成概率。用于导出和填充这样的策略模型和/ 或算法的数据可经由例如遗传数据源X10对假设管理器X14可用。遗传数据源X10可以包括例如核酸测序仪。假设管理器XI4可以被配置为基于例如填充其模型和/或算法所需的变量来公式化假设。一旦被填充，模型和 /或算法可以被建模器XI6用来生成如上所述的一个或多个假设。假设管理器X14可以选择特定值，值范围或者基于最可能的假设作为如上所述的输出进行估计。建模器XI6可以根据由机器学习单元X20训练的模型和/ 或算法来操作。例如，机器学习单元X20可以通过将如上所述的分类算法应用于训练集数据库(未示出)来开发这样的模型和/或算法。在某些实施例中，机器学习单元分析一个或多个控制样本以生成在本文提供的SNV 检测方法中有用的训练数据集。

一旦假设管理器XI4已经识别了特定输出，则这样的输出可以被返回到由输出处理器X22请求信息的特定LIS 104或106。

本公开的各个方面可以通过软件，固件，硬件或其组合在计算设备上实现。图70示出了示例计算机系统Y00，其中所构想的实施例或其部分可以被实现为计算机可读代码。根据该示例计算机系统Y00描述了各种实施例。

图5的实施例中的处理任务。70由一个或多个处理器Y02执行。然而，应当注意，这里可以使用各种类型的处理技术，包括可编程逻辑阵列 (PLA)，专用集成电路(ASIC)，多核处理器，多处理器或分布式处理器。诸如图形，多媒体或数学处理能力的附加专用处理资源也可以用于辅助某些处理任务。这些处理资源可以是硬件，软件或其适当组合。例如，一个或多个处理器Y02可以是图形处理单元(GPU)。在实施例中，GPU是处理器，其是被设计为快速处理电子设备上的数学密集型应用的专用电子电路。GPU可具有高度并行结构，其对于大数据块(诸如数学密集数据) 的并行处理是有效的。或者或另外，处理器Y02中的一者或一者以上可为不具有图形优化的特殊并行处理，此类并行处理器执行本文中所描述的数学密集函数。处理器Y02中的一个或多个可以包括处理加速器(例如， DSP或其他专用处理器)。

计算机系统Y00还包括主存储器Y30，并且还可以包括辅助存储器 Y40。主存储器Y30可以是易失性存储器或非易失性存储器，并且被划分为通道。辅助存储器Y40可以包括例如诸如硬盘驱动器Y50，可移动存储驱动器Y60和/或存储棒的非易失性存储器。可移动存储驱动器Y60可以包括软盘驱动器，磁带驱动器，光盘驱动器，闪速存储器等。可移除存储驱动器Y60以公知的方式从可移除存储单元470读取和/或写入可移除存储单元470。可移动存储单元Y70可以包括由可移动存储驱动器Y60读取和写入的软盘，磁带，光盘等。如相关领域的技术人员理解的，可移动存储单元Y70包括其中存储有计算机软件和/或数据的计算机可用存储介质。

在替代实现中，辅助存储器Y40可以包括用于允许将计算机程序或其他指令加载到计算机系统Y00中的其他类似装置。这样的装置可以包括例如可移动存储单元Y70和接口(未示出)。这样的装置的示例可以包括程序盒和盒接口(诸如在视频游戏设备中找到的)，可移动存储器芯片(诸如EPROM或PROM)和相关联的插座，以及其他可移动存储单元Y70 和接口，其允许软件和数据从可移除存储单元Y70传送到计算机系统 Y00。

计算机系统Y00还可以包括存储器控制器Y75。存储器控制器Y75 控制对主存储器Y30和辅助存储器Y40的数据访问。在一些实施例中，存储器控制器Y75可以在处理器Y10外部，如图1所示在其他实施例中，存储器控制器Y75也可以直接是处理器Y10的一部分。例如，许多 AMDTM和IntelTM处理器使用作为与处理器Y10(图70中未示出)相同的芯片的一部分的集成存储器控制器。

计算机系统Y00还可以包括通信和网络接口Y80。通讯和网络接口 Y80允许软件和数据在计算机系统Y00和外部设备之间传输。通信和网络接口Y80可以包括调制解调器，通信端口，PCMCIA插槽和卡等。经由通信和网络接口Y80传送的软件和数据是信号的形式，其可以是能够由通信和网络接口Y80接收的电子，电磁，光或其它信号。这些信号经由通信路径Y85提供给通信和网络接口Y80。通信路径Y85携带信号，并且可以使用线或电缆，光纤，电话线，蜂窝电话链路，RF链路或其它通信信道来实现。

通信和网络接口Y80允许计算机系统Y00通过通信网络或介质(诸如LAN，WAN，因特网等)通信。通信和网络接口Y80可以经由有线或无线连接与远程站点或网络接口。

在本文档中，术语“计算机程序介质”，“计算机可用介质”和66“非暂态介质”通常用于指代诸如可移动存储单元Y70，可移动存储驱动器Y60 和安装在其中的硬盘之类的有形介质硬盘驱动器Y50。通过通信路径Y85 携带的信号也可以体现本文所描述的逻辑。计算机程序介质和计算机可用介质还可以指代存储器，诸如主存储器Y30和辅助存储器Y40，其可以是存储器半导体(例如DRAM等)。这些计算机程序产品是用于向计算机系统Y00提供软件的装置。

计算机程序(也称为计算机控制逻辑)存储在主存储器Y30和/或辅助存储器Y40中。计算机程序也可以经由通信和网络接口Y80接收。这样的计算机程序在被执行时使得计算机系统Y00能够实现如本文所讨论的实施例。具体地，计算机程序在被执行时使得处理器Y10能够实现所公开的过程。因此，这样的计算机程序表示计算机系统Y00的控制器。在使用软件实现实施例的情况下，软件可以存储在计算机程序产品中，并使用例如可移动存储驱动器Y60，接口，硬盘驱动器Y50或通信和网络接口 Y80加载到计算机系统Y00中。

计算机系统Y00还可以包括输入/输出/显示设备Y90，诸如键盘，监视器，指示设备，触摸屏等。

应当注意，各种实施例的模拟，合成和/或制造可以部分地通过使用包括通用编程语言(诸如C或C++)，硬件描述语言(HDL)等的计算机可读代码来实现。例如Verilog HDL，VHDL，Altera HDL(AHDL)或其他可用的编程工具。该计算机可读代码可以设置在任何已知的计算机可用介质中，包括半导体，磁盘，光盘(例如CD-ROM，DVD-ROM)。这样，代码可以在包括因特网的通信网络上传输。

实施例还涉及包括存储在任何计算机可用介质上的软件的计算机程序产品。当在一个或多个数据处理设备中执行时，这样的软件使得数据处理设备如本文所描述的那样操作。实施例采用任何计算机可用或可读介质，以及现在或将来已知的任何计算机可用或可读存储介质。计算机可用或计算机可读介质的示例包括但不限于主存储设备(例如，任何类型的随机存取存储器)，辅助存储设备(例如，硬盘驱动器，软盘，CD ROM， ZIP盘，磁存储设备，光学存储设备，MEMS，纳米技术存储设备等)和通信介质(例如，有线和无线通信网络，局域网，广域网，内联网等)。计算机可用或计算机可读介质可以包括任何形式的暂时性(其包括信号) 或非暂时性介质(其排除信号)。非暂时性介质包括，作为非限制性示例，前述物理存储设备(例如，主存储设备和辅助存储设备)。

可以这么理解，本文公开的任何实施例可以与本文公开的任何其它实施例组合使用。

实验部分

在以下实施例中描述了目前公开的实施方案，所述实施例被阐述以帮助理解本公开，并且不应被解释为以任何方式限制其后的权利要求中限定的本公开的范围。提出以下实施例以向本领域普通技术人员提供如何使用所描述的实施方案的完整公开和描述，并且不旨在限制本公开的范围，也不旨在表示下面的实验是所进行的全部或唯一的实验。已经做出努力以确保关于所使用的数字(例如，量，温度等)的准确性，但是应该考虑一些实验误差和偏差。除非另有说明，份数是体积份，温度是摄氏度。应当理解，可以在不改变实验意图说明的基本方面的情况下进行所描述的方法的变化。

实施例1

示例性样品制备和扩增方法描述于2012年11月21日提交的美国申请号13/683,604；美国公开号2013/0123120和于2014年5月16日提交的美国申请号61/994,791的优先权，其全部内容通过引用并入本文。这些方法可用于分析本文公开的任何样品。

在一个实验中，使用半嵌套19,488-plex方案制备和扩增血浆样品。以下列方式制备样品：将高达20mL的血液离心以分离血沉棕黄层和血浆。从血沉棕黄层制备血液样品中的基因组DNA。基因组DNA也可以从唾液样品制备。使用QIAGEN CIRCULATING NUCLEIC ACID试剂盒分离血浆中的无细胞DNA，并根据制造商的说明书在50uL TE缓冲液中洗脱。将通用连接衔接子附加到每个分子的40uL纯化的血浆DNA的末端，使用衔接头特异性引物扩增文库9个循环。用AGENCOURT AMPURE珠纯化文库，并在50μlDNA悬浮缓冲液中洗脱。

用15个循环的STAR 1(95℃10分钟用于初始聚合酶活化，然后15 个循环的96℃30秒；65℃1分钟；58℃6分钟；60℃)扩增6ul DNA 65℃ 4分钟，72℃30秒；最后延伸72℃2分钟)，使用7.5nM引物浓度的19, 488个靶特异性标记的反向引物和一个文库衔接子特异性正向引物。

半嵌套PCR方案涉及STAR 1产物稀释的第二次扩增15个循环 (STAR 2)(95℃10分钟用于初始聚合酶激活，然后15个循环的95℃30 秒；65℃1分钟；60℃5分钟；65℃5分钟和72℃30秒；最后在72℃延伸2分钟)，使用1000nM的反向标签浓度，和20nM的浓度对于19,488个靶特异性正向引物中的每一个。

然后通过标准PCR扩增等份的STAR 2产物，用1uM标签特异性正向和条形码反向引物进行12个循环，以产生条形码测序文库。将每个文库的等分试样与不同条形码的文库混合，并使用旋转柱纯化。

以这种方式，在单孔反应中使用19,488个引物；设计引物以靶向在染色体1，2和3上发现的SNP。13，18，21，X和Y.然后使用ILLUMINA GAIIX测序仪对扩增子进行测序。必要时，可以增加测序读数的数目以增加被扩增和测序的靶向SNP的数目。

在STAR中使用半嵌套19,488外部正向引物和标记的反向引物在 7.5nM扩增相关基因组DNA样品STAR 2的热循环条件和组成，以及条形码PCR与半嵌套方案相同。

实施例2

示例性引物选择方法描述于2012年11月21日提交的美国申请号13 /683,604(美国公开号2013/0123120)和2014年5月16日提交的美国序列号61/994,791，参考文献)。这些方法可用于分析本文公开的任何样品。

以下实验说明了用于设计和选择可用于本发明的任何多重PCR方法的引物文库的示例性方法。目的是从候选引物的初始文库中选择可用于在单个反应体积中同时扩增大量靶位点(或靶位点的子集)的引物。对于初始组的候选靶位点，不必为每个靶点。

步骤1

基于关于目标位点的期望参数的公众可获得的信息，例如目标群体内的SNP的频率或SNP的杂合率(world web at ncbi.nlm)，选择一组候选靶位点(例如SNP)。nih.gov/projects/SNP/；Sherry ST，Ward MH，Kholodov M，et al。，dbSNP：NCBI数据库的遗传变异.核酸研究.2001年一月一日； 29(1)：308-11，其各自通过引用整体并入)。对于每个候选位点，使用Primer3程序(全球网在primer3.sourceforge.net；libprimer3 release 2.2.3，其通过引用整体并入本文)设计一个或多个PCR引物对。如果对于特定靶位点的PCR引物没有可行设计，那么该靶位点从进一步考虑中消除。

必要时，可以为大多数或所有目标位点计算“目标位点评分”(表示更高的满意度的更高的评分)，例如基于目标位点的各种期望参数的加权平均值计算的目标位点评分。基于它们对于将使用引物的特定应用的重要性，可以向参数分配不同的权重。示例性参数包括靶位点的杂合率，与靶位点处的序列(例如多态性)相关的疾病流行率，与靶位点处的序列(例如多态性)相关的疾病外显率，用于扩增靶位点的候选引物，用于扩增靶位点的候选引物的大小，以及靶扩增子的大小。在一些实施方案中，候选引物对靶位点的特异性包括候选引物通过结合和扩增除其设计为扩增的靶位点之外的位点而错误引导的可能性。在一些实施方案中，从文库中去除一个或多个或所有错填的候选引物。

步骤2

热力学相互作用分值各引物和所有的引物从第1步(例如，阿拉维， H.T.和圣卢西亚，J.，Jr.(1998)，“在内部的DNA错配CT热力学”所有其他靶位点之间计算什么核酸研究26，2694年至2701年；.Peyret，N.，塞纳维拉特纳，PA，阿拉维，H.T.和圣卢西亚，J.，JR(1999)，“近邻热力学和内部AA，CC，GG DNA，TT序列的核磁共振错配”，生物化学38， 3468-3477；阿拉维，H.T.和圣卢西亚，J.Jr.(1998)，“在DNA内部交流的不匹配近邻热动力小号：序列依赖性和pH的影响”，生物化学37， 9435-9444；阿拉维，H.T.和圣卢西亚，J.Jr.(1998)，“最近邻热力学参数在内部DNA错配GA”，生物化学37，2170至2179年；而阿拉维，HT和圣卢西亚，J.，Jr.(1997年)，“热力学DNA内部GT错配的NMR和”生化36，10581-10594；MULTIPLX 2.1(卡普林斯基L，安德烈在R，T Puurand，联美M.MULTIPLX：自动分组和评价PCR引物。生物信息学。 2005年4月15日；21(8)：1701-2，其各在此通过引用将其整体并入本文)。此步骤导致相互作用分值的2D矩阵。所述相互作用分值的预测引物二聚体累及两个相互作用的引物的可能性。比分计算方法如下：

相互作用分支＝MAX(-deltaG_2，0.8*(-deltaG_l))。

其中，

deltaG_2＝吉布斯能量(断裂二聚体所需的能量)对于在两端通过 PCR是可延伸的二聚体，即每个引物的3'末端退火到另一个引物；且

deltaG_l＝吉布斯能量用于在至少一端通过PCR可扩展的二聚体。

步骤3：

对于每个目标轨迹，如果有一个以上的引物对设计，可以使用以下方法选择一个设计：

1关于轨迹的每个引物对设计，发现在最坏情况下(最高)相互作用分值为在设计中的两个引物，并从其它目标位点所有的设计完成了所有引物。

2选择具有最佳(最低)最差情况交互分数的设计。

步骤4

内置的图使每个节点代表一个位点及其相关的引物对设计(例如，最大丛集问题)。在每对节点之间创建一个边。每个边缘的权重等于与由边缘连接的两个节点相关联的引物之间的最坏情况(最高)相互作用分数。

步骤5

必要时，对于两个不同靶位点的每对设计，其中来自一个设计的一个引物和来自另一个设计的一个引物将退火到重叠的靶区域，在两个设计的节点之间添加另外的边缘。将这些边缘的重量设置为等于步骤4中指定的最高重量。因此，步骤5防止文

步骤6

初始相互作用得分阈值计算如下：权重阈值＝max(边权)-0.05*(max (边权)-min(边权))

max(边权)是图中的最大边权重；和min(边权重)是图中的最小边权重。阈值的初始边界设置如下：最大权重阈值＝max(边权)最小权重阈值＝min(边权)

步骤7

与步骤5的图相同的节点组构成的新图，仅仅包括有超过权重阈值的权重的边。因此，步骤忽略等于或低于权重阈值的分数的交互。

步骤8

从步骤7的图中去除节点(和连接到去除的节点的所有边缘)，直到没有边缘留下。通过重复施加以下程序除去节点：

1找到具有最高度(最高边数)的节点。如果有多个，则可任选一个。

2定义由上面选取的节点和连接到它的所有节点组成的节点集，但不包括任何度小于上面选择的节点的节点。

3从步骤1中选择具有最低目标轨迹得分(较低得分代表较低的合意性)的集合中的节点。从图中删除该节点。

步骤9

如果图中剩余的节点数量满足复用PCR池的所需要的目标位点数量 (在可接受的公差内)，则可在步骤10继续使用该方法。

如果图中存在太多或太少的节点，则执行二分搜索来确定哪个阈值将导致在图中剩余的期望数量的节点。如果图中有太多的节点，那么权重阈值界限被调整如下：

最大权重阈值＝重量阈值

否则(如果图中有两个节点)，则权重阈值界限被调整如下：

最小权重阈值＝重量阈值

然后，调整重量阈值如下：

权重阈值＝(最大权重阈值+最小权重阈值)/2

重复步7至9步骤的方法。

步骤10

选择与保留在图中的节点相关的引物对设计用于引物文库。该引物文库可以用于本发明的任何方法中。

必要时，可以对其中仅一个引物(而不是引物对)用于扩增靶位点的引物文库进行设计和选择引物的这种方法。在这种情况下，节点对每个靶位点(而不是引物对)提供一个引物。

实施例3

必要时，本发明的方法可评估其检测染色体或染色体区段的缺失或重复的能力。进行以下实验以证明与来自母亲的X染色体或X染色体区段相比，检测到X染色体或来自父亲遗传的X染色体的区段的过表现。该测定被设计为模拟染色体或染色体区段的缺失或重复。将来自父亲(具有 XY性染色体)的不同量的DNA与来自父亲的子代(具有XX性染色体)的DNA混合，用于分析来自父亲的额外量的X染色体(图19A-19D)。

提取来自父亲和子代细胞系的DNA并使用Qubit定量。使用父细胞系AG16782，cAG16782-2-F和子细胞系AG16777，cAG16777-2-P。为了确定X染色体的父亲的单倍型，检测到存在于X染色体上但不存在于Y 染色体上的SNP，因此将存在来自父亲的X染色体而不是Y染色体的信号。女儿从父亲那里继承了这个单倍型。来自女儿其他X染色体的单倍型是从她的母亲继承的。来自母亲的这种单倍型可以通过将来自未从父亲遗传的子代细胞系的DNA中的SNP分配给来自母亲的单倍型来确定。

为了确定是否可以检测到来自父亲的X染色体的过度表达，将来自父细胞系的不同量的DNA与来自子细胞系的DNA混合。总DNA输入为约75ng(约25k拷贝)的基因组DNA。使用直接多重PCR扩增大约3, 456个SNP用于X和Y染色体测定。使用具有7bp条形码的50bp单程测序，使用Rapid/HT模式对扩增产物进行测序。每个SNP的读数约为10K。

如图19A-19D所示，可以检测到来自父亲DNA的嵌合体。这些图表明可以检测染色体片段或过表达的整个染色体。

本文引用的所有专利，专利申请和公开的参考文献通过引用整体并入本文。虽然已经结合本公开的具体实施例描述了本公开的方法，但可理解的是，其能进一步修改。此外，本申请旨在涵盖本公开的方法的任何变化，使用或改编，包括在本公开的方法所属领域的已知或常规实践内的对本公开的偏离，并且落入所附权利要求的范围内。本发明的任何实施方案可以通过分析样品中的DNA和/或RNA来进行。例如，本文公开的用于DNA的任何方法可以容易地适用于RNA，例如通过包括将RNA转化成DNA的逆转录步骤。

实施例4

该实施例描述了用于非侵入性无细胞肿瘤DNA检测乳腺癌相关拷贝数变化的示例性方法。乳腺癌筛查涉及乳腺摄影，其导致高的假阳性率并且缺少一些癌症。对癌症相关CNV的肿瘤衍生的循环无细胞DNA (ctDNA)的分析可允许更早，更安全和更准确的筛选。基于SNP的大规模多重PCR(mmPCR)方法用于在从乳腺癌患者的血浆中分离的ctDNA 中筛选CNV。设计mmPCR测定以靶向染色体1，2和22上的3,168个 SNP，其在癌症中通常具有CNV(例如，49％的乳腺癌样品具有22q缺失)。分析了来自乳腺癌患者的六个血浆样品-一个阶段Ha，四个阶段IIb和一个阶段Illb。每个样品在一个或多个靶向染色体上具有CNV。该测定鉴定了六种血浆样品中的CNV，包括在0.58％的ctDNA级分被正确称为的一个阶段IIb样品(图30，31B，32A，32B和33)；检测仅需要86个杂合SNP。还使用大约636个杂合SNP(图29，31A和32A)，在4.33％的 ctDNA分数下校正阶段IIa样品。这表明焦点或整个染色体臂CNV在癌症中是常见的且可以容易地检测到。

为了进一步评价灵敏度，将癌细胞系的3Mb 22q CNV的22种人工混合物与来自正常细胞系(5:95)的DNA混合，以模拟在0.43％和7.35％之间的ctDNA部分(图28A-28C)。该方法在这些样品的100％中正确检测到CNV。因此，可通过将分离的多核苷酸样品掺入到其它DNA样品中来制备人工cfDNA多核苷酸标准品/对照，所述多核苷酸样品包括由已知展示CNV的非cfDNA来源(例如肿瘤细胞系)产生的片段化多核苷酸混合物，其浓度类似于cfDNA，例如在该流体中0.01％至20％，0.1％至15％或0.4％至10％的DNA。这些标准/对照可以用作测定设计，表征，开发和/或验证的对照，以及在测试期间作为质量控制标准，例如在CLIA实验室中进行的癌症测试和/或仅用于研究使用的标准，诊断测试包。在许多癌症(包括乳腺癌和卵巢癌)中，CNV相对于点突变更普遍。这支持这种基于SNP的mmPCR方法提供了用于检测这些癌症的成本有效的非侵入性方法。

实施例5

本实施例描述了用SNP靶向大规模多重PCR检测乳腺癌样品中拷贝数变化的示例性方法。肿瘤组织中CNV的评价通常涉及SNP微阵列或 aCGH。这些方法具有高的全基因组分辨率，但需要大量的输入材料，具有高固定成本，并且在甲醛固定-石蜡嵌入(FFPE)样品上不能很好地工作。对于该实施例，使用具有下一代测序(NGS)的28,000重链SNP 靶向PCR靶向1p，1q，2p，2q，4p16，5p15，7q11，15q，17p，22q11， 22q13和染色体13，18，21和X用于检测乳腺癌样品中的CNV。对具有非整倍体或微缺失的96个样品的准确性进行验证。通过分析单细胞建立单分子灵敏度。在17个乳腺癌样品(15个新鲜冷冻和2个FFPE肿瘤组织，5对匹配的肿瘤和正常细胞系)中，观察到16个(包括两个FFPE) 在全部或部分CNV中在1至15个靶中(平均：7.8)；观察到肿瘤异质性的证据。具有一个CNV的三种组织都具有Iq重复，是乳腺癌中最常见的细胞遗传学异常。具有CNV的最常见的区域是1q，7p和22ql。只有一个肿瘤组织(具有9个CNV)具有带有LOH的区域；在缺乏其它8种CNV 的相邻推定正常组织中也检测到该LOH。相比之下，在细胞系中检测到具有LOH和高总CNV发病率(平均：12.8)的5个或更多个区域。因此，大规模多重PCR提供了经济的高通量方法以有针对性的方式研究CNV，并且适用于难以分析的样品，例如FFPE组织。

实施例6

该实施例说明了用于计算本发明的任何方法的检测限的示例性方法。这些方法用于计算肿瘤活检(图34)和血浆样品(图35)中单核苷酸变体(SNV)的检测限。

第一种方法(图34和35中表示为“LOD-mr5”)基于最少5个读数计算检测限，所述读数被选择为在测序数据中观察到SNV以具有足够置信度的最小次数SNV实际上存在。检测的极限是基于观察到的读取深度 (DOR)是否高于该最小值5。图34和35表示检测限由DOR限制的SNV 在这些情况下，没有测量到足够的读数以达到测定的误差极限。必要时，可通过增加DOR来提高这些SNV的检测限制(导致较低的数值)。

第二种方法(在图34和35中表示为“LOD-zs5.0”)基于z分数计算检测极限。Z-分数是观察到的误差百分比远离背景平均误差的标准偏差的数量。必要时，可移除异常值，并且可以重新计算z分数，也可以重复该过程。误差率的最终加权平均值和标准偏差用于计算z分数。平均值由DOR加权，因为当DOR较高时精度较高。

对于用于本实施例的示例性z分数计算，从相同测序运行的所有其他样品计算背景平均误差和标准偏差，对于每个基因组座位和取代类型，由读取深度加权。如果背景分布距离背景平均值有5个标准偏差，则不考虑样品的背景分布。图34，35的橙色线表示检测限由误码率限制的SNV。这些SNV，可获得足够的读数以达到5的读取最小值，并且检测限由错误率限制。必要时，可以通过优化测定以降低错误率来提高检测限。

第三种方法(在图34和35中表示为“LOD-zs5.0-mr5”)基于上述两个度量的最大值计算检测极限。

图34所示的肿瘤样品的分析检测的平均限度为0.36％，检测的中值限度为0.28％。DOR限制(灰色线)SNV的数量为934.错误率限制(橙色线)SNV的数量为738。

分析图35所示的血浆样品中的检测的平均限度为0.24％，检测的中值限度为0.09％。DOR限制(灰色线)SNV的数量为732.错误率限制(橙色线)SNV的数量为921。

实施例7

该实施例说明了来自相同单细胞的CNV和SNV的检测。使用以下引物文库：用于检测CNV的～28,000个引物的文库，用于检测CNV的～ 3,000个引物的文库和用于检测SNV的引物文库。对于单细胞的分析，将细胞连续稀释，直到每滴具有3或4个细胞。移取单个细胞并置于PCR 管中。使用蛋白酶K，盐和DTT，使用以下条件裂解细胞：56℃20分钟， 95℃10分钟，然后4℃保持。对于基因组DNA的分析，购买或通过培养细胞并提取DNA获得来自与分析的单细胞相同的细胞系的DNA。

为了用～28,000个引物的文库扩增，使用以下PCR条件：40μL反应体积，7.5nM的每种引物和2×主混合物(MM)。在一些实施方案中，将QIAGEN多重PCR试剂盒用于主混合物(QIAGEN目录号206143；参见万维网qiagen.com/products/catalog/assay-technologies/end-point-pcr-和 -pr-pcr-reagents/qiagen-multiplex-pcr-kit，其通过引用整体并入本文)。试剂盒包括2x试剂盒多重PCR掌握混合(提供终浓度为3mM MgCl 2， 3×0.85ml)，5×Q-溶液(1×2.0ml)和无RNA酶水(2×1.7ml)。QIAGEN 多重PCR主混合物(MM)含有KCl和(NH 4)2O 4的组合以及PCR 添加剂Factor MP，其增加模板上引物的局部浓度。因子MP稳定特异性结合的引物，允许通过例如HotStarTaq DNA聚合酶有效的引物延伸。 HotStarTaqDNA聚合酶是Taq DNA聚合酶的修饰形式，在环境温度下没有聚合酶活性。下列热循环条件用于第一轮PCR：95℃10分钟；25个循环的96℃30秒，65℃29分钟和72℃30秒；然后72℃2分钟，4℃保持。对于第二轮PCR，使用10μl反应体积，1×MM和5nM的每种引物。使用以下热循环条件：95℃15分钟；94℃30秒，65℃1分钟，60℃5分钟，65℃ 5分钟，72℃30秒的25个循环；然后72℃2分钟，4℃保持。

对于～3,000个引物的文库，示例性反应条件包括每个引物的10ul 反应体积，2×MM，70mM TMAC和2nM引物对于用于检测SNV的引物文库，示例性反应条件包括每种引物的10ul反应体积，2×MM，4mM EDTA 和7.5nM引物。示例性的热循环条件包括95℃15分钟，94℃30秒，65℃ 15分钟和72℃30秒的20个循环；然后72℃2分钟，4℃保持。

扩增产物加上条形码。进行的一轮测序，每个样品的读数近似相等。

图36A和36B显示了使用设计用于检测CNV的约28.0个引物的文库分析来自单个细胞(图36B)的基因组DNA(图36A)或DNA的结果。每个样品测量约400万个读数。存在两个中心带而不是一个中心带指示存在CNV。对于来自单个细胞的三个DNA样品，映射读数的百分比分别为89.9％，94.0％和93.4％。对于基因组DNA的两个样品，每个样品的作图读出百分比为99.1％。

图37A和37B显示了使用设计用于检测CNV的大约3.0个引物的文库分析来自单个细胞(图37B)的基因组DNA(图37A)或DNA的结果。每个样品测量约120万个读数。存在两个中心带而不是一个中心带指示存在CNV。对于来自单个细胞的三个DNA样品，映射读数的百分比分别为98.2％，98.2％和97.9％。对于基因组DNA的两个样品，每个样品的作图读出百分比为98.8％。图38示出了这些-3,000个位点的DOR的均匀性。

对于调用SNV，来自单细胞和基因组DNA的DNA的真阳性突变的调用百分比是相似的。y轴上的单个细胞的真阳性突变的调用百分比相对于x轴上的基因组DNA的阳性突变的调用百分比的图产生y＝ 1.0076x-0.3088的曲线拟合，其中R2＝0.9834。图39示出了来自单个细胞的基因组DNA和DNA的类似错误调用度量。图40显示，检测转换突变的错误率大于检测颠换突变的错误率，表明可能需要选择颠倒突变用于检测而不是转座突变。

实施例8

该实施例进一步验证了称为CoNVERGe(拷贝数变化基因显示的拷贝数变化体事件)的用于染色体非整倍体和CNV测定的大规模多重PCR 方法，并且进一步说明了用于ctDNA样品的PCR的“PlasmArt”标准的开发和使用。PlasmArt标准包括与已知展示CNV的基因组区域具有序列同一性的多核苷酸和反映血浆中天然存在的cfDNA片段的大小分布。

样品收集

从美国典型培养物保藏中心(ATCC)获得人乳腺癌细胞系(HCC38， HCC1143，HCC1395，HCC1937，HCC1954和HCC2218)和匹配的正常细胞系(HCC38BL，HCC1143BL，HCC1395BL，HCC1937BL，HCC1954BL 和HCC2218BL)。三体性21B-淋巴细胞(AG16777)和配对的父/子 DiGeorge综合征(DGS)细胞系(分别为GM10383和GM10382)来自柯瑞尔细胞库(卡姆登，新泽西)。GM10382细胞仅具有父本22q11.2区。

我们从16位乳腺癌患者采集肿瘤组织，包括来自遗传学者(格兰岱尔市，加州)的11个新鲜冷冻(FF)样品和来自北岸-利杰(曼哈斯特，纽约)的5个福尔马林固定石蜡包埋的(FFPE)样品。我们为8名患者获得了匹配的血沉棕黄层样品，为9名患者获得了匹配的血浆样品。FF肿瘤组织和来自五名卵巢癌患者的匹配的血沉棕黄层和血浆样品来自NorthShore-LIJ。对于8个乳腺肿瘤FF样品，切除组织切片用于分析。获取来自北岸/LIJ IRB和哈尔科夫国立医科大学伦理委员会的机构审查委员会批准，用于样品收集，并从所有受试者获得知情同意书。

将血样收集到EDTA管中。使用QIAamp循环核酸试剂盒(Qiagen， Valencia，CA)从1mL血浆中分离循环肿瘤DNA。

为了根据一种示例性方法制备达碁科技股份有限公司标准品，首先，将9×10 6个细胞用低渗裂解缓冲液(20mM Tris-Cl(pH 7.5)，10mM NaCl 和3mM MgCl 2)在冰上裂解15分钟。然后，加入10％IGEPAL CA-630 (Sigma，St.Louis，MO)至终浓度为0.5％。在4℃下以3,000g离心10 分钟后，在加入1000U MNase(新英格兰生物实验室)之前将沉淀的核重悬于1×微球菌核酸酶(MNase)缓冲液(新英格兰生物实验室，伊普斯威奇，MA)在37℃下5分钟。通过加入EDTA至终浓度为15mM来终止反应。通过在2,000g离心1分钟除去未消化的染色质。用DNA Clean& Concentrator TM-500试剂盒(Zymo Research，Irvine，CA)纯化片段化的DNA。也使用AMPure XP磁珠(贝克曼库尔特公司，布雷亚，碳酸酐酶)纯化和大小选择由微球菌酶消化产生的单核细胞DNA。用生物分析仪DNA 1000芯片(安捷伦科技公司，圣克拉拉，碳酸酐酶)对DNA片段进行大小和定量。

为了模拟不同浓度的ctDNA，将来自HCC1954和HCC2218癌细胞的PlasmArts的不同级分与来自相应匹配的正常细胞系(分别为 HCC1954BL和HCC2218BL)的那些混合。分析每个浓度的三个样品。类似地，为了模拟局灶性3.5Mb区域中血浆DNA中的等位基因不平衡，我们从含有来自具有母体22q11.2缺失的儿童和来自父亲的DNA的不同比率的DNA的DNA混合物产生PlasmArts。仅含有父亲DNA的样品用作阴性对照。分析每个浓度的八个样品。

因此，为了评价CoNVERGe的灵敏度和重复性，特别是当CNV的异常DNA比例或平均等位基因不平衡(AAI)低时，我们使用它来检测 DNA混合物中的CNV，所述DNA混合物包含先前表征的异常样品滴定进入匹配的正常样品。混合物由称为“PlasmArt”的人工cfDNA组成，具有接近天然cfDNA的片段大小分布(参见上文)。图。图42图形显示了与 cfDNA的大小分布相比，从癌细胞系制备的示例性PlasmArt的大小分布，观察染色体臂lp，lq，2p和2q上的CNV。在第一对中，具有3μM的22q11.2 区域的CNV缺失的儿子肿瘤DNA样品在0-1.5％总cfDNA之间滴定到来自父亲的匹配的正常样品中(图41a)。CoNVERGe可重复地鉴定对应于已知异常的CNV，在>0.5％+/-0.2％AAI的混合物中估计的AAI>0.35％，在0.25％异常DNA的6/8个重复中未能检测到CNV，对于所有8个阴性对照样品，为<0.05％。由CoNVERGe估计的AAI值显示高线性(R2＝ 0.940)和重现性(误差方差＝0.087)。该测定对相同样品中不同的扩增水平敏感。基于这些数据，0.45％AAI的保守检测阈值可用于随后的分析。使用该截止值，进行另一个实验，其中以已知浓度掺入Plasmart合成的 ctDNA以产生约0.5％至约3.5％的合成的癌症血浆。还包括阴性血浆作为对照。所有合成的癌症血浆产生高0.45％的估计值，阴性血浆的读数远低于0.45％(图43A-C)。图43A；右图显示肿瘤的最大可能性，作为比值比图的DNA片段结果的估计。图43B是用于检测颠换事件的图。图43C 是转变事件的检测图。

还评估了从配对的肿瘤和正常细胞系样品对并在染色体1或染色体2 上具有CNV的两个另外的PlasmArt滴定(图41b，41c)。在阴性对照中，所有值均<0.45％，并且高线性(对于HCC1954Ip R2＝0.952，对于 HCC2254Iq R2＝0.993，对于HCC2218 2p R2＝0.977，对于HCC2218 2q R2 ＝0.967)和重现性(误差方差＝对于HCC1954lp，对于HCC1954lq为0.029，对于HCC2218 2p为0.250，对于HCC2218 2q为0.350)。在已知的输入 DNA量与由CoNVERGe计算的量之间观察到。一个样品对的区域lp和lq 的回归的斜率的差异与相同样品的区域lp和lq的B-等位基因频率(BAF) 中观察到的拷贝数的相对差异相关，表明相对精确度由CoNVERGe计算的AAI估计(图41c，41d)。

用于处理样品的工作流程在图5中示出。63.CoNVERge适用于多种样品来源，包括FFPE，新鲜冷冻，单细胞，种系控制和cfDNA。我们应用CoNVERGe到六个人乳腺癌细胞系和匹配的正常细胞系，以评估它是否可以检测体细胞CNVs。手臂水平和局灶性CNV存在于所有六种肿瘤细胞系中，但在其匹配的正常细胞系中不存在，除了HCC1143中的染色体2，其中正常细胞系显示与1：1同源比率的偏差图63b)。为了在不同的平台上验证这些结果，我们进行CytoSNP-12微阵列分析，其对所有样品产生一致的结果(图63d，63e)。此外，由CoNVERGe和CytoSNP-12 微阵列鉴定的CNV的最大同源比显示出强的线性相关性(R2＝0.987，P <0.001)(图63f)。我们接下来将CoNVERGe应用于新鲜冷冻(FF)(图64a)和福尔马林固定的，石蜡包埋的(FFPE)乳腺肿瘤组织样品(图64b， 64d)。在两种样品类型中，存在几个臂水平和局灶性CNV；然而，在来自匹配的血沉棕黄层样品的DNA中没有检测到CNV。CoNVERGe结果与来自相同样品的微阵列分析的结果(图64e-h；R2＝0.909，对于Cy上的CytoSNP-12的P<0.001；对于FFPE的OncoScan的R2＝0.992，P<0.001) 高度相关。CoNVERGe还对从激光捕获显微解剖(LCM)样品提取的少量DNA产生一致的结果，其中微阵列方法不适用。

用CoNVERGe检测单细胞中的CNV

为了测试这种mmPCR方法的适用性的限制，我们从六种上述癌细胞系和在靶区域中没有CNV的B-淋巴细胞细胞系中分离单个细胞。来自这些单细胞实验的CNV谱在三个重复和来自从约20,000个细胞的整体样品提取的基因组DNA(gDNA)的那些之间是一致的(图65)。基于没有测序读数的SNP的数量，大块样品的平均测试脱落率为0.48％(范围：0.41％-0.60％)，这归因于合成或测定设计失败。对于单细胞，观察到的另外的平均测定值下降率为0.39％(范围：0.19％-0.67％)。对于没有失败的单细胞测定(即，没有发生测定脱落)，使用杂合SNP计算的平均单一ADO速率仅为0.05％(范围：0.00％-0.43％)。此外，具有高置信基因型的SNP(即，具有至少98％置信度确定的SNP基因型)的百分比对于单细胞和大量样品是相似的，并且单细胞样品中的基因型与大批样品中的基因型匹配(平均99.52％范围：92.63％-100.00％)。

在单细胞中，等位基因频率预期直接反映染色体拷贝数，这与肿瘤样品不同，其中肿瘤样品可能被TH和非肿瘤细胞污染混淆。1/n和(n-1) /n的BAF表示区域中的n个染色体拷贝。在单细胞和匹配的gDNA样品的等位基因频率图上指示染色体拷贝数(图65)。

CoNVERGe在血浆样品中的应用

为了研究CoNVERGe在实际血浆样品中检测CNV的能力，我们将我们的方法应用于与两个II期乳腺癌患者和5个晚期卵巢癌中的每一个的匹配肿瘤活检相匹配的cfDNA。在所有7名患者中，在FF肿瘤组织和相应的血浆样品中检测到CNV(图66)。图67提供了SNV乳腺癌突变的列表。在所测定的五个区域中，在七个血浆样品(范围：0.48-12.99％AAI) 中检测到总共32个CNV，水平>0.45％AAI，其代表约20％的基因组。注意，由于缺少替代的正交方法，不能确认血浆中CNV的存在。

虽然AAI估计可能显示与肿瘤中的BAF相关，但由于肿瘤异质性，不一定预期直接比例性。例如，在样本BC5(图66a)中，图8的左上区域的椭圆形66a表示具有与N＝11相容的BAF的区域；将其与来自血浆样品的AAI计算结合，导致两个区域的c的估计为2.33％和2.67％。使用样品中的其他区域估计c给出4.46％和9.53％之间的值，这清楚地证明了肿瘤异质性的存在。

这些数据表明，大部分样品中可以在血浆中检测到CNV，并且表明 CNV在肿瘤内越普遍，在cfDNA中观察到的可能性越大。此外， CoNVERGe从液体活检中检测到CNV，否则其可能在传统肿瘤活检中未被观察到。

实施例9

该实施例提供了用于不同类型样品的CoNVERGe分析的某些示例性样品制备方法的细节。

用于28,000-plex PCR的单细胞CNV方案

多重PCR允许在单个反应中同时扩增许多靶。在具有10％最小群体次要等位基因频率(1000个Genomes项目数据；2012年4月30日版本) 的每个基因组区域中鉴定靶SNP。对于每个SNP，多个引物，半嵌套的，设计为具有75bp的最大长度的扩增子长度和54-60.5℃之间的解链温度。计算所有可能的引物组合的引物相互作用分数；消除具有高分数的引物以降低引物二聚体产物形成的可能性。基于目标SNP次要等位基因频率，观察到的杂合率(来自dbSNP)，在HapMap中的存在和扩增子长度，对候选PCR测定进行分级和选择。

在某些实验中，使用mmPCR 28,000-plex方案制备和扩增单细胞样品。样品以下列方式制备：为了分析单个细胞，将细胞连续稀释，直到每个液滴有3或4个细胞。移取单个细胞并置于PCR管中。使用蛋白酶K，盐和DTT，使用以下条件裂解细胞：56℃20分钟，95℃10分钟，然后4℃保持。对于基因组DNA的分析，购买或通过培养细胞并提取DNA获得来自与分析的单细胞相同的细胞系的DNA。将DNA在含有Qiagen mp-PCR主混合物(2XMM最终浓度)，7.5nM引物浓度的40uL反应体积中扩增。对于具有半嵌套Rev引物的28K引物对，在95℃10分钟，25×[96℃ 30秒，65℃29分钟，72℃30秒]，72℃2分钟，4℃保持。将扩增产物在水中稀释1:200，并将2μl加入STAR 2(10μl反应体积)1XMM，5nM引物浓缩物并使用半嵌套内部Fwd引物和标签特异性Rev引物：95℃15分钟，25×[94℃30秒，65℃1分钟，60℃5分钟，65℃5分钟，72℃30秒]， 72℃2分钟，4℃保持进行PCR。

将全序列标签和条形码连接到扩增产物，并使用衔接头特异性引物扩增9个循环。在测序之前，合并条形码文库产物，用QIAquick PCR纯化试剂盒(Qiagen)纯化，并使用Qubit dsDNA BR测定试剂盒(美国生命技术公司)定量。使用Illumina HiSeq 2500测序仪对扩增子进行测序。

从血液/血浆样品中提取DNA

将血样收集到EDTA管中。将全血样品离心并分成三层：上层，55％的血液样品，是血浆，并含有无细胞DNA(cfDNA)；血沉棕黄层中层含有具有总DNA量小于1％的DNA的白细胞；并且底层，所收集的血液样品的45％含有红细胞，因为红细胞被摘除，在该级分中不存在DNA。使用QIAamp循环核酸试剂盒Qia-Amp(Qiagen，Valencia，CA)根据制造商的方案从至少1mL血浆中分离循环肿瘤DNA。用于染色体1p，lq，2p， 2q和22q11的3,168-plex的血浆CNV方案。

制备血浆DNA文库并使用mmPCR 3,168-plex方案扩增。样品以下列方式制备：将高达20mL的血液离心以分离血沉棕黄层和血浆。进行 cfDNA的血浆提取和文库制备。将DNA在50uL TE缓冲液中洗脱。mmPCR 的输入是6.7uL扩增和纯化的Natera血浆文库，输入量为约1200ng。在含有Qiagen mp-PCR主混合物(2XMM最终浓度)，2nM标记引物浓度的 20μL反应体积中扩增血浆DNA。(总共12.7uM)并且PCR扩增：95℃ 10分钟，25×[96℃30秒，65℃20分钟，72℃30秒]，72℃2分钟，4℃保持。将扩增产物在水中稀释1:2000，并将1μl加入10μL反应体积中的 Barcoding-PCR。使用标签特异性引物，通过PCR扩增将条形码连接到扩增产物12个循环。合并多个样品的产物，然后用QIAquick PCR纯化试剂盒(Qiagen)纯化，并在50μlDNA悬浮缓冲液中洗脱。如对于用于28, 000重链PCR的单细胞CNV方案所述，通过NGS对样品进行测序。乳腺癌的可行性来自血浆的SNV面板。

制备来自乳腺癌患者血液样品的cfDNA，并使用分布在四个84-孔池中的336个引物对进行扩增。如针对用于染色体1p，1q，2p，2q和22q11 的3,168-聚体的血浆CNV方案所述制备Natera血浆文库。将DNA在50uL TE缓冲液中洗脱。mPCR的输入是2.5uL扩增和纯化的Natera血浆文库，输入量为约600ng。图68A-B表示在3168mmPCR反应中使用的SNP的主要和次要等位基因频率。X轴表示对于染色体1q，1p，2q，2p和22q从左到右的SNP的数目。从人类的1000个基因组图谱中选择SNP，第19 组和dbSNP选择靶标，但是仅使用来自1000个基因组的SNP来筛选次要等位基因频率。在84个重叠引物池，含有Qiagen mp-PCR主混合物(2XMM最终浓度)，4mM EDTA，7.5nM引物浓度(总计1.26uM)的10uL反应体积和PCR扩增的四个平行反应中扩增血浆DNA：95℃15分钟，25×[94℃ 30秒，65℃15分钟，72℃30秒]，72℃2分钟，4℃保持。将4种亚缓冲液的扩增产物各自在水中1:200稀释，并将1μl加入到含有Q5 HS HF主混合物(1xfinal)和1uM每种条形码引物的10uL反应体积中的 Barcoding-PCR反应中，并且每种在以下反应中扩增池：98℃1分钟， 25×[98℃10秒，70℃10秒，60℃30秒，65℃15秒，72℃15秒]，72℃2 分钟，4℃保持。将文库用QIAquick PCR纯化试剂盒(Qiagen)纯化，并在50μlDNA悬浮缓冲液中洗脱。通过配对末端测序对样品进行测序。

实施例10

该实施例提供了关于用于分析测序数据以鉴定SNV的某些示例性方法的细节。

SNV方法1：对于该实施方案，使用正常血浆样品构建背景误差模型，其在相同的测序运行中测序以考虑运行特异性伪像。在某些实施方案中，在相同的测序运行中分析5，10，15，20，25，30，40，50，100，150， 200，250或多于250个正常血浆样品。在某些说明性实施方案中，在相同的测序运行中分析20，25，40或50个正常血浆样品。去除具有大于截止值的正常中值变体等位基因频率的嘈杂位置。例如，在某些实施方案中，该截止值为>0.1％，0.2％，0.25％，0.5％，1％，2％，5％或10％。在某些说明性实施方案中，具有大于0.5％的正常内部变体等位基因频率的噪声位置被除去。从模型中迭代地移除异常值样本以考虑噪声和污染。在某些实施方案中，从数据分析中移除具有大于5，6，7，8，9或10的Z分数的样品。对于每个基因组座位的每个碱基置换，计算读取加权平均值的深度和误差的标准偏差。将具有至少5个变体读数和针对背景误差模型的 Z评分为10的肿瘤或无细胞血浆样品位置称为候选突变。

SNV方法2：对于该实施方案，我们旨在使用血浆ctDNA数据确定单核苷酸变体(SNV)。我们将PCR过程建模为随机过程，使用训练集估计参数，并使用单独的测试集进行最终SNV调用。主要思想是确定误差在多个PCR循环中的传播，计算背景误差的平均值和方差，并区分背景误差和真实突变。

为每个基准估计以下参数：

p＝效率(在每个循环中每个读取被复制的概率)

p_e＝突变类型e的每个周期的错误率(类型e的错误的概率)

发生)

X_o＝分子的初始数

由于在PCR过程中复制读取，所以出现的错误越多。因此，读取的误差轮廓由与原始读取的分离度确定。我们将读取称为第k代，如果它已经经历了k次复制，直到它被生成。让我们为每个基础定义以下变量：

X_ij＝在PCR循环j中产生的第i代读取的数目

Y_ij＝在周期j结束时读取的生成总数i

X_ij ^e＝在PCR循环中产生的具有突变e的第i代读取的数目

此外，除了正常分子Xo外，如果在PCR过程开始时存在具有突变e 的其它/eXo分子(因此fe/(1+fe)将是初始混合物中突变分子的分数)。

给定在周期j-1的生成i-1读取的总数，在周期j生成的生成i读取的数量具有样本大小和概率参数p的二项分布。因此，E(X_ij/Yi-ij-i，p) ＝p Y_i-1，j-1和Var(X_ij|Y_i-1，j-1，p)＝p(l-p)Y_i-1，j-1。

我们也有

因此，通过递归，模拟或类似的方法，我们可以确定E(X_ij)。类似地，我们可以使用p的分布来确定Var(X_ij)＝E (Var(X_ij，/p))+Var(E(X_ij，/p))。

最后，E(X_ij ^e/Y_i-1，j-1，pe)＝pe Y_i-1，j-1和Var(X_ij ^e/Y_i-1，j-1，pe) ＝pe(1-pe)Y_i-1，j-1计算E(X_ij ^e)和Var(X_ij ^e)。

20.

6+2算法

该算法开始于使用训练集估计每个周期的效率和错误率。令n表示PCR循环的总数。

每个基底b处的读取Rb的数目可以近似为(1+Pb)n X 0，其中pb 是基底b处的效率。然后，(Rb/Xo)1/n可用于近似1+pb。然后，我们可以确定所有训练样本中pb的平均值和标准变化，以估计概率分布的参数或类似的分布)。

类似地，在每个基底b处的误差e读取Rb的数目可用来估计ρe。在确定所有训练样本的误差率的平均值和标准偏差之后，近似其概率分布 (例如正态分布，β或类似分布)，其参数使用该平均值和标准偏差值来估计。

接下来，对于测试数据，我们估计每个基底处的初始起始拷贝为

其中f(.)是来自训练集合的估计分布。

其中，f(.)是来自训练集的估计分布。

因此，我们估计了将在随机过程中使用的参数。然后，通过使用这些估计，我们可以估计在每个周期创建的分子的平均值和方差(注意，我们分别为正常分子，错误分子和突变分子这样做)。

最后，通过使用概率法(例如最大似然法或类似方法)，我们可以确定最佳fe值，其适合误差，突变和正态分子的最佳分布。更具体地，我们估计最终读取中各种/e值的误差分子对总分子的期望比率，并确定我们的数据对于这些值中的每一个的可能性，然后选择具有最高似然性的值。

在某些实施方案中，如下进行上述方法2：

a)使用训练数据集估计PCR效率和每个周期误差率；

b)使用在步骤(a)中估计的效率的分布估计每个碱基处的测试数据集的起始分子的数目，

c)必要时，使用在步骤(b)中估计的起始分子数更新测试数据集的效率的估计，

d)使用在步骤(a)，(b)，(c)中估计的测试集数据和参数估计分子总数，背景误差分子和真实突变分子的平均值和方差(对于由真实突变分子的初始百分比组成的搜索空间)。

e)合分布到总分子中的总误差分子数(背景误差和真实突变)，并计算搜索空间中每个真实突变百分比的可能性；并且

f)确定最可能的实际突变百分比，并使用步骤(e)中的数据计算置信度。

实施例11

该实施例提供了使用本文提供的多重PCR CoNVERGe方法的结果，用于通过检测循环DNA中的CNV来检测癌症。使用本文提供的用于染色体1p，1q，2p，2q和22q11的3,168重的等离子体CNV方案。分析来自21名乳腺癌患者(I-IIIB期)的血浆。结果如图44所示证明在所有样品中使用AAI≥0.45％并且需要少至62个杂合SNP检测到CNV。使用类似的方案分析来自卵巢癌患者的血浆。使用0.45％截止值，实现100％卵巢癌检测率，如图25所示五个样品中的每一个也具有匹配的肿瘤样品。

实施例12

该实施例证明通过测定血浆中CNV和SNV的存在来实现检测癌症的能力的显着改善。使用上述实施例中提供的方法检测CNV和SNV。根据实施例9中的适当方案制备样品。使用上述SNV方法1鉴定SNV。如图46所示，通过分析来自I-III期癌症患者的来自CNV和SNV的血浆，与单独测试SNV相比，显着改善了检测乳腺和肺癌的灵敏度。仅分析 SNV，在血浆样品中检测到71％的癌症。然而，通过分析SNV和/或CNV 的存在，在分析的患者群体中乳腺的检出率达到83％，肺的检出率为92％。如果考虑在TCGA和COSMIC数据集中鉴定的所有SNV和CNV，预期的诊断负荷将大于97％的乳腺癌和>98％的肺癌。

使用在上文提供的实施例9和SNV方法1中提供的血浆样品制备方法对来自具有不同癌症阶段的41个患者样品的样品进行进一步分析。如图47所示，当在来自乳腺癌患者的循环肿瘤DNA中测定CNV和SNV时，使用SNV的0.2％ctDNA的定量限度和0.45的定量限度检测60％的I期， 88％的II期和100％的III期乳腺癌CNV的％ctDNA。如图48所示，当在ctDNA中检测CNV和SNV并观察具有不同的乳腺癌分期的41个患者样品时，60％的阶段I，100％的阶段II，90％的阶段IIA，80％的阶段IIB 和100％的III期，IIIA期和IIIB期乳腺癌，使用SNV的0.2％ctDNA和 CNV的0.45％ctDNA的定量限度进行检测。如图49所示，当在来自肺癌患者样品的24个循环肿瘤DNA中测定CNV和SNV时，使用SNV的0.2％ ctDNA的定量极限来检测88％的阶段I，100％的阶段II和100％的III期肺癌和用于CNV的0.45％ctDNA。如图50所示，当在ctDNA中检测CNV 和SNV并查看具有不同肺癌的24个患者样品时，除了使用IB肺癌的患者实现82％的检测率之外，对于所有的分期实现100％检测率，SNV的 0.2％ctDNA和CNV的0.45％ctDNA的定量限。

实施例13

该实施例证明在ctDNA中检测SNV克服了由于肿瘤异质性而在活检样品中鉴定变体等位基因的限制。使用三个小细胞肺癌患者样品的 TRACERx样品和一个腺癌肺癌患者样品，其中已收集肿瘤活检和相应的手术前血浆样品用于分析肿瘤异质性。样品获自癌症研究英国肺癌卓越中心，伦敦大学学院，伦敦WC1E 6BT，英国。样品是用于分析SNV突变的原发性肺癌样品。从每个患者取出来自整个癌性肺的各个区域的两个到三个活组织检查(图51A)。通过全外显子组测序(Illumina HiSeq200；亿明达公司，圣地亚哥，CA)测定每个活检样品，随后在PGM上进行 AmpliSeq测序(离子激流公司，南旧金山，CA)，用于鉴定潜在的克隆异质性。在测序和SNV分析后，确定每个活检样品的变体等位基因频率 (VAF)(图51B)。

来自四个患者中的每一个的血浆样品用于分离ctDNA并鉴定血浆中的克隆和亚克隆SNV突变以克服肿瘤异质性(图52)。克隆群体在所有测定活检样品和血浆中具有VAF等位基因，而亚克隆群体在至少一种活检样品中具有VAF等位基因调用，但不是所有活检样品。血浆被认为是每个患者的ctDNA中发现的SNV的累积代表。不是所有通过测序鉴定的 SNV能够具有设计的相应的PCR测定。

为了比较用于鉴定肿瘤异质性的AmpliSeq(斯旺顿)和mmPCR/NGS 测定方法，Natera设计用于在来自血浆的活检和相应的ctDNA中的VAF 检测的每个SNV突变的PCR测定(图53)。空白细胞代表没有活检样品可用，零值表示没有检测到VAF。以下11个基因最初通过AmpliSeq FP 或FN试验鉴定为阴性(假VAF调用)，但通过Natera TP或TN试验和 mmPCR/NGS试验方法正确调用：L12：CYFIP1，FAT1，MLLT4和 RASA1；L13：HERC4，JAK2，MSH2，MTOR和PLCG2；L15：GABRG1； L17：TRIM67。令人惊讶的是，当重新检查AmpliSeq原始测序数据时，验证了这些结果。原始AmpliSeq数据测序文件显示数据低于PGM或 Illumina可检测阈值设置。在血浆中检测到鉴定的16/38变体的数据，并且在具有主要克隆SNV突变的L12患者样品中存在几种活检样品：L12： BRIP1，CARS，FAT1，MLLT4，NFE2L2，TP53，TP53以及患者L13：EGFR，EGFR，TP53和L15：KDM6A，ROS1。发现另外两名患者在血浆中具有总共四种亚克隆变异突变：L12：CIC，KDM6A和L17；NF1， TRIM67。这些结果总结在图54A是图53中列出的每个样品的平均VAF 的晶须。图54B是由每个测定的VAF样品平均值的线性回归图表示的直接比较。

实施例14

该实施例表明，通过使用低引物浓度，使得引物量是在多重PCR中的限制性反应物，在随后是下一代测序的工作流中，跨扩增反应池的读数密度的均匀性以及因此的检测限度是改进。使用根据上述实施例9的3, 168孔板进行血浆CNV的一些实验，不同的是总反应体积为10uL而不是 20uL。此外，PCR进行15，20或25个循环。根据实施例9的方案，使用乳腺癌样品上的四个84-孔池进行其他实验，不同的是引物浓度为2nM，并且PCR扩增进行15，20或25个循环。

不受理论限制，据信引物限制性多重PCR在多读取测序之前提供改进的多重PCR读取均匀性深度，例如在Illumina HiSeq或MiSeq系统或基于Ion Torrent PGM或质子系统的测序基于以下考虑：如果多重PCR中的一些扩增比其他扩增具有更低的效率，则利用正常的多重PCR，我们将得到宽范围的读取深度(“DOR”)值，然而，如果引物是有限的，并且多重PCR的循环次数比排出引物所需的次数多，然后更有效的扩增将停止加倍 (因为它们没有更多的引物使用)，较低效率的引物将继续加倍将导致对于所有扩增产物更相似量的扩增产物，这将转化为更均匀的DOR分布。

以下计算用于确定将精确给定量的引物和起始核酸模板的循环数：

–假设给定的起始DNA输入水平：每个靶标100k拷贝(10A5；这可使用扩增文库容易地实现)

-假设我们使用2nM的每种引物作为示例性浓度，但是其他浓度例如0.2，0.5，1，1.5，2，2.5，5或10nM也可以起作用。

-计算每种引物的引物分子数：2*10^9摩尔浓度，2nM)×10*10^-6 (反应体积，10μl)X6*10^23(每摩尔分子数，阿佛加德罗数)＝12*10^9

-计算消耗所有引物所需的扩增倍数：12*10^9(引物分子数)/10 ^5(每个靶标的拷贝数)＝12*10^4

-计算达到该扩增倍数所需的循环数，假设在每个循环的100％效率： log 2(12^10^4)＝17个循环(这是log 2，因为在每个循环，拷贝数翻倍)。

因此对于这些条件(100k拷贝输入，2nM引物，10μl反应体积，假设在每个循环中100％的PCR效率)，引物将在17个PCR循环后消耗。

然而，关键的假设是，一些产品不具有100％的效率，因此没有测量它们的效率(这对于少量的它们是可行的)，消耗它们将需要超过17个周期。

图55-58显示了四个84-plex SNV PCR引物池的结果。对于每个池，我们观察到随着从15至20至25的循环增加DOR效率提高。使用3,168- 面板(图59-61)的实验获得相似的结果。随着读取深度的增加，检测限降低(即SNV灵敏度增加)。此外，当检测颠换突变比转变突变时，灵敏度始终更好。当在多读取测序之前使用引物限制性多重PCR时，可能使用额外的循环可以获得DOR效率的额外增加。

因此，一方面，本文提供了扩增核酸样品中的多个靶位点的方法，其包括(i)使核酸样品与引物文库和其它引物延伸反应组分接触以提供反应混合物，其中与其它引物延伸反应组分相比，反应混合物中每种引物的相对量产生其中引物以限制性浓度存在的反应，并且其中引物与多个不同的靶位点杂交；和(ii)使反应混合物经历引物延伸反应条件足够数目的循环以消耗或耗尽引物文库中的引物，以产生包括靶扩增子的扩增产物。例如，多个不同的目标轨迹可以至少包括2，3，5，10，25，50，100，200， 250，500，1,000；2,000；5,000；7,500；10,000；20,000；25, 000；30,000；40,000；50,000；75,000；或100,000个不同的靶位点，并且至多为50，100，200，250，500，1,000；2,000；5,000；7, 500；10,000；20,000；25,000；30,000；40,000；50,000；75, 000；100,000，200,000，250,000，500,000和1,000,000个不同的靶位点以产生反应混合物。

说明性实施方案中的方法包括确定将是速率限制量的引物的量。该计算通常包括估计和/或确定靶分子的数量，并且涉及分析和/或确定所进行的扩增循环的数量。例如，在说明性实施方案中，每种引物的浓度小于100， 75，50，25，10，5，2，1，0.5，0.25，0.2或0.1nM。在各种实施方案中，引物的GC含量在30至80％之间，例如在40至70％或50至60％之间，包括端值。在一些实施方案中，引物的GC含量范围(例如，最大GC含量减去最小GC含量，例如80％-60％＝20％的范围)小于30％，20％， 10％或5％。在一些实施方案中，引物的熔解温度(Tm)为40℃至80℃，例如50℃至70℃，55℃至65℃或57℃至60.5℃，包括端值。在一些实施方案中，引物的熔解温度范围小于20℃，15℃，10℃，5℃，3℃或1℃。在一些实施方案中，引物的长度为15至100个核苷酸，例如15至75个核苷酸，15至40个核苷酸，17至35个核苷酸，18至30个核苷酸，20 至65个核苷酸。在一些实施方案中，引物包括非靶特异性的标签，例如形成内部环结构的标签。在一些实施方案中，标签在两个DNA结合区之间。在各种实施方案中，引物包括对靶位点特异性的5'区域，对靶位点不特异性并形成环结构的内部区域和对靶位点特异的3'区域。在各种实施方案中，3'区的长度为至少7个核苷酸。在一些实施方案中，3'区的长度为7 至20个核苷酸，例如7至15个核苷酸或7至10个核苷酸。在多个实施方案中，测试引物包括对靶位点(例如标签或通用引物结合位点)不具有特异性的5'区域，随后是对靶位点特异的区域，不是特异性针对靶位点并形成环结构，以及对靶位点特异的3'区域。在一些实施方案中，引物的长度范围小于50，40，30，20，10或5个核苷酸。在一些实施方案中，靶扩增子的长度为50至100个核苷酸，例如60至80个核苷酸或60至75 个核苷酸。在一些实施方案中，靶扩增子的长度范围小于100，75，50， 25，15，10或5个核苷酸。

在本发明的任何方面的多个实施方案中，引物延伸反应条件是聚合酶链式反应条件(PCR)。在各种实施方案中，退火步骤的长度大于3，5，8， 10或15分钟但小于240，120，60或30分钟。在各种实施方案中，延伸步骤的长度大于3，5，8，10或15分钟但小于240，120，60或30分钟。

实施例15

本实施例证明了本发明的SNV检测方法在单细胞分析(也称为单分子分析)中鉴定嵌合体的能力。图62显示了使用根据实施例9中提供的28K 单细胞方法的28K-plex引物组的肿瘤细胞基因组DNA和单个细胞/分子输入的多重PCR结果。使用该方法，超过85％的读数被映射-超过4.7M 读取(每个目标约167个读取)。图的下部分显示在细胞中观察到嵌合。

Claims

1.用于检测疑似患有癌症的个体样本中的癌症相关的拷贝数变化的系统，其包括:

a. 输入处理器，被配置为在染色体片段的多态性位点组上接收等位基因频率数据，包括样本中每个位点上的每个等位基因的数量；

b. 建模器，被配置为：

i. 对于一系列多态性位点，通过评估等位基因频率的相位生成相位的等位基因信息；和

ii. 使用等位基因频率数据生成对于不同倍性状态的多态性位点的等位基因频率的个体概率，其中，通过一组模型来生成个体概率，这组模型包括不同的倍性状态和多态性位点集合中的等位基因不平衡概率；和

iii. 通过考虑多态性基因位点在染色体片段上的连锁关系使用个体概率和相位等位基因信息生成多态性位点组的联合概率；和

c. 假设管理器，被配置用来根据联合概率选择适合显示染色体倍性的模型，从而决定染色体片段的倍性以及确定是否与癌症相关的拷贝数变化的存在，其中平均等位基因不平衡概率等于或大于0.45%表示在样本中存在与癌症相关的拷贝数变化。

2.根据权利要求1所述的系统，其中，所述等位基因频率数据是由核苷酸测序系统产生的。

3.根据权利要求2所述的系统，进一步包括误差校正单元，被配置为校正等位基因频率数据中的错误，其中校正后的等位基因频率数据被用于产生个体概率的步骤。

4.根据权利要求3所述的系统，其中，所述误差校正单元校正等位基因扩增效率偏差。

5.用于检测疑似患有癌症的个体样本中的癌症相关的拷贝数变化的系统，该系统包括：

a. 输入处理器，被配置来接收个体染色体片段上多态性位点组的等位基因的核苷酸序列数据，并利用核苷酸序列数据检测在基因位点上的等位基因频率；

b. 误差校正单元，被配置来校正检测到的等位基因频率的误差，为多态性位点集合生成正确的等位基因频率；

c. 建模器，被配置为：

i. 通过评估核苷酸序列数据的相位产生相位的多态性位点集合的等位基因信息；

ii. 通过比较相位的等位基因信息与不同倍性状态集合和系列多态性位点等位基因不平衡概率的模型生成对不同倍性状态的多态性位点的等位基因频率的个体概率；和

iii. 通过结合个体概率，考虑染色体片段上多态性位点的连锁关系和相对距离生成多态性位点集合的联合概率；和

d. 假设管理器，被配置用于根据联合概率，选择适合指示染色体倍性的模型，并且确定是否与癌症相关的拷贝数变化的存在，其中平均等位基因不平衡概率等于或大于0.45%表示在样本中存在与癌症相关的拷贝数变化。

6.根据权利要求5所述的系统，其中，通过分析模型中产生的相位等位基因信息和估计的等位基因频率之间差距振幅来选择假设管理器。

7.根据权利要求6所述的系统，其中，所述建模器根据在多态性位点组上预计的和观察到的等位基因频率的β-二项式模型产生等位基因频率的个体概率。

8.一种非暂时性计算机可读介质，用于检测疑似患有癌症的个体样品的癌症相关的拷贝数变化，包括计算机可读密码，当被处理装置执行时能够使处理装置：

a. 接收等位基因频率数据，所述等位基因频率数据包括样品中染色体片段上的一组多态性基因位点中每个基因位点上存在的等位基因数量；

b. 通过评估等位基因频率数据的相位产生多态性基因位点组的相位等位基因信息；

c. 使用等位基因频率数据，生成不同倍性多态性位点的等位基因频率的个体概率，其中，通过一组模型来生成个体概率，这组模型包括不同的倍性状态和多态性位点集合中的等位基因不平衡概率；

d. 通过考虑多态性基因位点在染色体片段上的连锁关系使用个体概率和相位等位基因信息，生成多态性基因位点集合的联合概率；和

e. 基于联合概率，选择一个适合指示染色体倍性的模型，从而确定染色体片段的倍性以及是否与癌症相关的拷贝数变化的存在，其中平均等位基因不平衡概率等于或大于0.45%表示在样本中存在与癌症相关的拷贝数变化。

9.根据权利要求8所述的计算机可读介质，其中，所述等位基因频率数据通过核苷酸序列数据产生。

10.根据权利要求8所述的计算机可读介质，其中，进一步包括校正等位基因频率数据中的误差并在产生个体概率步骤使用校正的等位基因频率数据。

11.根据权利要求10所述的计算机可读介质，其中，所述被校正的误差是等位基因扩增效率偏差。

12.一种非暂时性计算机可读介质，用于检测疑似患有癌症的个体样品的癌症相关的拷贝数变化，包括计算机可读密码，当被处理装置执行时能够使处理装置：

a. 接收个体染色体片段上一组多态性位点处的等位基因的核苷酸序列数据；

b. 使用核苷酸序列数据监测一组位点处的等位基因频率；

c. 在检测到的等位基因频率中校正等位基因扩增效率偏差，产生正确的一组多态性位点的等位基因频率；

d. 通过评估核苷酸序列数据的相位生成多态性位点组的相位等位基因信息；

e. 通过比较校正后的等位基因频率与不同倍性状态集合和多态位点等位基因不平衡率的模型，生成针对不同倍性状态的多态性位点的等位基因频率的个体概率；

f. 通过结合个体概率，考虑染色体片段上的多态性位点之间的连锁关系产生多态性位点组的联合概率；并且

g. 根据联合概率，选择适合指示染色体倍性的模型，并且确定是否与癌症相关的拷贝数变化的存在，其中平均等位基因不平衡概率等于或大于0.45%表示在样本中存在与癌症相关的拷贝数变化。

13.根据权利要求12所述的计算机可读介质，其中，通过分析相位等位基因信息和从模型中产生的估计的等位基因频率的区别振幅进行选择。

14.根据权利要求8-11和12中任意一项所述的计算机可读介质，根据在多态性位点组上预计的和观察到的等位基因频率的β-二项式模型产生等位基因频率的个体概率。