CN102171565B

CN102171565B - 等位基因调用和倍性调用的方法

Info

Publication number: CN102171565B
Application number: CN200980139431.3A
Authority: CN
Inventors: M·罗比诺威特茨; G·杰梅罗斯; M·班杰维齐; A·瑞安; J·斯威特凯德-辛格
Original assignee: Gene Security Network Inc
Current assignee: Natera Inc
Priority date: 2008-08-04
Filing date: 2009-08-04
Publication date: 2015-04-29
Anticipated expiration: 2029-08-04
Also published as: CA3116156C; WO2010017214A1; EP2321642B1; AU2016200643A1; CN102171565A; CA3116156A1; CA2731991A1; AU2009279734A1; EP2321642A1; CA2731991C; US20130225422A1; CN104732118A; CN104732118B; EP2321642A4; AU2009279734A2; US9639657B2; US20110178719A1; ES2620431T3; AU2016200643B2; HK1159248A1

Abstract

本发明涉及进行等位基因调用、确定一个或少数细胞或当可用的基因数据数量有限时的倍性态的体系和方法。使用目标基因组之间可预期的相似性以及有关基因相关个体基因组的知识，可重建测量不充分或不准确的碱基对、缺失的等位基因和缺失的区域，以及确定单体型。在一个具体实施方式中，使用来自父母双方和可能的一个或多个精子和/或同胞胚胎的基因数据，重建了胚胎细胞多个基因座上不完整的基因数据。在另一个具体实施方式中，染色体的拷贝数可使用相同的输入数据确定。在另一个具体实施方式中，这些测定是为了体外受精(IVF)过程中的胚胎选择、无创性产前诊断或进行表型预测。

Description

等位基因调用和倍性调用的方法

技术领域

本发明大体上涉及获得和操纵用于医疗预测目的的高保真基因数据的领域。

背景技术

2006年，在全球范围内大约进行了800,000例体外受精(IVF)周期。其中大约150,000个周期在美国进行，涉及植入前基因诊断(PGD)的大约有10,000。目前的植入前基因诊断(PGD)技术不规范、价格昂贵而且非常不可靠：筛查疾病相关基因座或非整倍体的错误率大约为10％，每次筛查试验大约花费5,000美元，并且一对夫妇常常被迫选择是检测折磨约50％体外受精(IVF)胚胎的非整倍体，还是筛查单细胞疾病相关的基因座。为了平行筛查非整倍体、单基因疾病例如囊性纤维化，以及对通过全基因组关联研究已知多个基因标记的复杂疾病表型的敏感性，十分需要一种能可靠测定单细胞基因数据且不太昂贵的技术。

今天大多数植入前基因诊断(PGD)的重点是高级别染色体异常，例如非整倍体以及以成功植入和带回家的婴儿为主要成果的平衡易位。植入前基因诊断(PGD)的另一个重点是基因疾病的筛查，其主要成果是父母一方或双方为携带者的健康婴儿不受基因遗传疾病的折磨。在这两种情况下，将转移和植入到母亲体内的基因不理想胚胎排除加强了这种期望成果的可能性。

体外受精(IVF)过程中的植入前基因诊断(PGD)方法目前包括从早期胚胎的约8个细胞中提取单细胞用于分析。从人类胚胎中分离单细胞的技术性很强，其目前在体外受精(IVF)诊所是常规性的。极体和卵裂球均已被成功分离。最常见的技术是从第3天的胚胎(6或8细胞阶段)中除去单卵裂球。将胚胎转移到特殊的细胞培养基(缺少钙和镁的标准培养基)内，并用酸性溶液、激光或机械技术在透明带中引入一个孔。然后，技术员使用活检吸管除去具有可见细胞核的单个卵裂球。采用各种技术检测单个(或偶尔多个)卵裂球的DNA特征。由于一个细胞只能提供单复制的DNA，直接检测DNA非常容易出错或者有噪音。十分需要一种可以校正或者使这种有噪音的基因测量更精确的技术。

正常人的每个二倍体细胞中有两组23染色体，有一个复制来自一方父母。具有额外或缺失染色体的细胞状态的非整倍体，以及具有两个特定染色体均来源于一方父母的细胞状态的单亲二倍体，被认为是很大比例植入失败和流产以及一些遗传疾病的原因。只有当个体的特定细胞是非整倍体时，才说该个体表现为镶嵌性。除了增加成功怀孕的机会外，值得一提的是，染色体异常的检测可以确定个体或胚胎的状态，例如唐氏综合征、克氏综合征和特纳综合征等。染色体异常的测试在潜在母亲的年龄增加时尤为重要：35至40岁时，估计有40％至50％的胚胎是不正常的，40岁以上时，超过一半的胚胎可能不正常。非整倍体的主要原因是在减数分裂过程中不分离。母体不分离构成所有不分离的约88％，其中约65％发生在减数分裂I中，而23％发生在减数分裂II中。人类非整倍体的常见类型包括缘于减数分裂I不分离的三体、单体和单亲二体。在减数分裂II不分离中产生的一种特殊类型的三体或者M2三体中，一个额外的染色体与两个正常染色体中的一个相同。M2三体特别难以检测。非常需要一种更好的方法，其能以高精确度有效检测出大部分或全部染色体上许多或所有类型的非整倍体，包括既能区分非整倍体和整倍体，还能区分不同类型的非整倍体之间的方法。

传统用于预测非整倍体和嵌合体的方法——核型分析，正让位于其它更高流通量、更符合成本效益的方法，例如流式细胞仪(FC)和荧光原位杂交(FISH)。目前，绝大多数的产前诊断使用可以确定大染色体畸变的荧光原位杂交(FISH)，以及能够确定少量单核苷酸多态性(SNP)或其它等位基因调用的聚合酶链式反应/电泳。荧光原位杂交(FISH)的一个优点是它比核型分析便宜，但该技术太过复杂和昂贵，以致通常只能选择小部分染色体测试(通常是染色体13、18、21、X、Y；有时也为8、9、15、16、17、22)；此外，荧光原位杂交(FISH)的专属性水平较低。目前大约75％的植入前基因诊断(PGD)使用荧光原位杂交(FISH)测定高级别的染色体异常，例如非整倍体，其错误率约为10-15％。非常需要一种具有较高流通量、较低成本、更准确的用于筛查非整倍体的方法。

根据OMIM，与已知疾病相关的遗传等位基因的数目超过380，并且正稳步攀升。因此，分析胚胎DNA上的多位点或与特定表型相关的基因座变得越来越相关。植入前遗传学诊断对产前诊断的一个明确的优点是，一旦检测到不期望的表型，它可以避免一些有关可能的选择行为的伦理问题。需要一种方法，其在植入前阶段能对胚胎进行更广泛的基因分型。

有许多改进的技术使得在一个或几个基因座上的遗传变异诊断能处于单细胞水平。这些包括：分裂间期染色体转换、对比性基因组杂交、荧光聚合酶链式反应、小测序和全基因组扩增。由所有这些技术得到的数据其可靠性依赖于DNA制剂的质量。因此，需要更好的扩增单细胞DNA的制备方法和植入前基因诊断(PGD)，并且正在研究中。所有的基因分型技术在用于单细胞、少量细胞或DNA片段时，都面临着完整性问题，最突出的是等位基因遗漏(ADO)。这在体外受精的情形下加剧，因为杂交反应的效率低，而且该技术必须操作迅速，以便在最大胚胎存活时间范围内对胚胎进行基因分型。十分需要一种方法，其在测量一个或少量细胞的基因数据，尤其是当存在时间限制时，能减轻高等位基因遗漏(ADO)率的问题。

概述

在本发明的一个具体实施方式中，所披露的方法能使用次要的基因数据作为信息源，来重建不完整或有噪音的基因数据，包括确定个人等位基因、单倍体、序列、插入、缺失、重复的特性，以及确定目标个体的染色体拷贝数，所有都具有高保真性。本文的重点在于来自人类主体的基因数据，更特别的是在于尚未植入的胚胎或发育中的胎儿，以及相关个体。应当指出，所披露的方法适用于各种情形下一系列生物的基因数据。所述用于整理基因数据的技术与体外授精过程中的植入前诊断、与羊膜穿刺术配合的产前诊断、绒毛膜绒毛活检、胎儿组织采样和非侵入性产前诊断的情形最相关，其中少量胎儿遗传物质被从母体血液中分离。使用该方法可有助于重点诊断遗传疾病、染色体拷贝数的预测、缺陷或异常增加的可能性，以及预测个体对各种疾病和非疾病表型的易感性，从而强化临床和生活方式的决定。

在本发明的一个具体实施方式中，用于确定目标个体至少一个染色体倍性态的方法包括：从目标个体以及从一个或多个相关个体获得基因数据；对目标个体的每个染色体创立至少一个倍性态假说的集合；使用一种或多种专业技术来确定集合中每个倍性态假说的统计概率，对于所使用的每种专业技术，考虑所获得的基因数据；对于每个倍性态假说，组合由一种或多种专业技术测定的统计概率；以及基于每个倍性态假说的组合统计概率，确定目标个体中每个染色体的倍性态。

在本发明的一个具体实施方式中，用于确定目标个体、目标个体的父母一方或双方，任选一个或多个相关个体的等位基因集合中等位基因状态的方法包括：从目标个体、父母一方或双方、任何相关个体获得基因数据；对目标个体、父母一方或双方，任选一个或多个相关个体创立至少一个等位基因假说的集合，其中所述假说描述了等位基因集合中可能的等位基因状态；测定考虑了所得基因数据的假说集合中每个等位基因假说的统计概率；以及基于每个等位基因假说的统计概率，确定目标个体、父母一方或双方和任选一个或多个相关个体的等位基因集合中每个等位基因的等位状态。

在本发明的一个具体实施方式中，用于确定目标个体至少一个染色体倍性态的方法包括：从目标个体、目标个体的父母一方或双方、目标个体的一个或多个同胞获得基因数据，其中所述的基因数据包括涉及至少一个染色体的数据；通过使用一种或多种专业技术，确定目标个体和目标个体一个或多个同胞的至少一个染色体的倍性态，其中所述的专业技术均不需要输入定相的基因数据；使用信息化方法，确定目标个体、目标个体的父母、目标个体一个或多个同胞的定相基因数据，所述由目标个体、目标个体的父母和目标个体一个或多个同胞获得的基因数据确定为那个染色体上的整倍体；以及使用一种或多种专业技术，再次确定目标个体至少一个染色体的倍性态，所述专业技术至少有一种需要输入定相的基因数据，和由目标个体、目标个体的父母、目标个体的一个或多个同胞确定的定相基因数据。

在本发明的一个具体实施方式中，该方法利用了目标胚胎的基因数据、来自母亲和父亲的基因数据例如二倍体组织样本，以及一种或多种如下的可能性基因数据的信息：来自父亲的精子、来自母亲的二倍体样本，或来源于母亲和父亲配子的相同或其它胚胎的卵裂球，联合减数分裂机理和目标胚胎DNA缺陷性测定的信息，以便以高度的可信度在关键基因座的位置用计算机模拟重建胚胎DNA。在本发明的一方面，来源于其它相关个体例如其它胚胎、兄弟和姐妹、祖父母或其它亲戚的基因数据，也可用来增加重建胚胎DNA的保真度。在本发明的一个具体实施方式中，这些基因数据可用来测定个体一个或多个染色体的倍性态。在本发明的一方面，由一组相关个体测量的每个基因数据集合被用来增加其它基因数据的保真度。重要的是要注意本发明的一方面，父母和其它次要基因数据不仅可以重建测量不佳的单核苷酸多态性(SNP)，而且可以重建插入、删除、重复和根本不能测量的单核苷酸多态性(SNP)或整个DNA区域。在本发明的另一个方面，目标个体的基因数据，连同相关个体的次要基因数据被用来测定个体一个、几个或所有染色体的倍性态或拷贝数。

在本发明的一个具体实施方式中，使用或未使用相关个体基因数据的胎儿或胚胎的染色体组数据可用来检测细胞是否为非整倍体，也就是说细胞内错误的染色体数目存在的地方，或者细胞中是否存在错误数目的性染色体。基因数据还可用来检测单亲源二体——存在两个特定染色体的状态，它们均来源于一对父母。这通过创立一组有关DNA潜在状态的假说来实现，并且测试看哪种假说具有最大的可能性给出真实的测量数据。要注意的是，使用高通量的基因分型数据来筛查非整倍体，既能用来自每个胚胎的单个卵裂球测量多种疾病相关的基因座，又可以筛查非整倍体。

在本发明的一个具体实施方式中，对存在于多个基因座上的扩增或未扩增基因物质数量的直接测量结果，可用于检测单倍体、单亲源二体、匹配的三体、不匹配的三体、四体和其它非整倍体状态。本发明的一个具体实施方式利用了这样的事实，即在某些条件下，扩增的平均水平和测量信号输出结果不随染色体变化，从而在一组邻位基因座上测定的基因物质的平均数量与存在的同源染色体成比例，并且倍性态能以统计显著的形式被调用。在另一个具体实施方式中，不同的等位基因具有不同统计学的特性扩增曲线，其给出了特定的亲代背景和特定的倍性态；这些特性差异可用来确定染色体的倍性态。

在本发明的一个具体实施方式中，如本发明一方面所确定的倍性态可用于为本发明的等位基因调用实施例选择适宜的输入。在本发明的另一方面，来自目标个体和/或一个或多个相关个体的定相的重建基因数据可用作本发明倍数体调用的输入。在本发明的一个具体实施方式中，能以重复的方法将来自本发明一方面的输出结果作为输入来帮助本发明的其它方面选择适宜的输入。

所属领域的普通技术人员将认识到，考虑到本发明的利益，本发明的各个方面和具体实施方式可组合或单独实施。

附图详述

当前公开的具体实施方式将参照附图做进一步说明，其中在几个视图中，相同的结构用相同的数字表示。所示附图不需要标比例，一般用加重代替来举例说明本发明公开的具体实施方式的原理。

附图1显示了二体染色体的累积分布函数曲线。所述累积分布函数曲线显示了每个亲代背景。

附图2A-2D显示了不同倍性态的染色体的累积分布函数曲线。附图2A显示了二体染色体的累积分布函数曲线。附图2B显示了缺对染色体的累积分布函数曲线。附图2C显示了单体染色体的累积分布函数曲线。附图2D显示了母方三体染色体的累积分布函数曲线。不同亲代背景的累积分布函数曲线之间的关系随倍性态而改变。

附图3显示了使用此处公开的全染色体中间技术(WholeChromosome Mean)的各种倍性态的假说分布。显示了单体、二体和三体倍性态。

附图4A和附图4B显示了使用此处公开的亲代存在技术的每个亲代的基因数据分布。附图4A显示了来自存在的每个亲代的基因数据分布。附图4B显示了每个亲代不存在时的基因数据分布。

附图5显示了当使用亲代存在技术的基因数据存在或不存在时父方基因测量值分布的变化。

附图6显示了一组单核苷酸多态性图。将一个输出通道的标准强度对其它作图。

附图7显示了一组单核苷酸多态性图。将一个输出通道的标准强度对其它作图。

附图8A-8C显示了不同倍性假说的等位基因数据的曲线拟合。附图8A显示了使用此处公开的Kernel法对五种不同倍性假说的等位基因数据的曲线拟合。附图8B显示了使用此处公开的高斯拟合的五种不同倍性假说的等位基因数据的曲线拟合。附图8C显示了由背景AA|BB-BB|AA测量的等位基因数据的直方图。

附图9显示了减数分裂的图示。

附图10A和10B显示了对大单元等位基因调用可信度的真实命中率。附图10A显示了对预期可信度作图的平均真实命中率。附图10B显示了单元的相对群体。

附图11A和11B显示了对小单元等位基因调用可信度的真实命中率。附图11A显示了对预期可信度作图的平均真实命中率。附图11B显示了单元的相对群体。

附图12A和12B显示了用于确定转换位置的随染色体作图的等位基因可信度。附图12A显示了位于一个染色体上的作为邻位等位基因集合平均值的等位基因集合的调用可信度。该集合或等位基因使用不同的方法。附图12B显示了随染色体的转换位置。

尽管上述确定的附图阐明了目前公开的具体实施方式，但是，如在该讨论中所指出的，也可以预料到其它的具体实施方式。本发明通过描述的方式提供了示例性但没有限制性的具体实施方式。许多其它的变型和具体实施方式可由所属领域的技术人员设计，并且落入了本发明具体实施方式的原理范围和精髓内。

详述

在本发明的一个具体实施方式中，可测定细胞或细胞集合的基因状态。拷贝数调用是测定特定细胞、细胞组或脱氧核糖核酸(DNA)集合中染色体数目和特征的概念。等位基因调用是测定等位基因集合中特定细胞、细胞组、DNA集合等位基因状态的概念，包括单核苷酸多态性(SNPs)、插入、缺失、重复、序列或其它碱基对信息。本发明可以测定单细胞或其它DNA小集合的非整倍体和等位基因调用，假设至少父母一方或双方的基因组是可用的。本发明的一些方面使用了在一组相关个体内有几乎相同的DNA集合的概念，而且使用基因数据的测量结果结合减数分裂机理的知识，有可能通过推理以比单独使用个体测量结果更高的精确度来测定相关个体的基因状态。这通过测定哪些相关个体的染色体片段涉及配子生成来实现，当需要时，在减数分裂过程中可能出现基因转换，从而预期相关个体的基因组片段与目标基因组部分几乎相同。这对于植入前基因诊断或产前诊断的情形特别有利，其中有限量的DNA是可用的，并且当测定目标倍性态时，这些情形中的胚胎或胎儿具有高的临床影响。

有许多数学技术可测定来自目标基因数据集合的非整倍体状态。这些技术中的一部分在本发明中讨论，但同样能很好使用其它的技术。在本发明的一个具体实施方式中，定性和/或定量数据均可使用。在本发明的一个具体实施方式中，可使用亲代数据来推断可能测定不充分、不准确或根本没有测定的目标基因组数据。在一个具体实施方式中，由一个或多个个体推断的基因数据可用来增加准确测定倍性态的可能性。在本发明的一个具体实施方式中，可使用多种技术，其中每一种都能排除特定的倍性态，或测定特定倍性态的相对可能性，并且可将那些预测的概率组合，得到单独使用一种技术可能有的较高可信度的倍性态预测。可对每种染色体调用计算可信度。

无论是由测序技术、基因分型阵列还是任意的其它技术得到，DNA测量都会包含一定程度的错误。特定DNA测量的相对可信度受许多因素影响，包括扩增方法、用来测定DNA的技术、使用的原则、所使用DNA的用量、所使用DNA的完整性、操作者以及试剂的新鲜度，这仅仅列举了一小部分。增加测量精确度的一种方法是基于相关个体基因状态的知识，使用利用了信息的技术推断目标DNA正确的基因状态。由于希望相关个体共享它们基因状态的特定方面，当一起考虑来自多个相关个体的基因数据时，有可能确定测量中的错误，并增加所有相关个体基因状态知识的精确性。此外，可对每个调用进行可信度计算。

在本发明的一些方面，目标个体是胚胎，并且将所公开的方法应用于胚胎基因数据的目的，是允许医生或其它代理人在体外受精(IVF)过程中应移植哪个胚胎作出有根据的选择。在本发明的另一方面，目标个体是胎儿，将所公开的方法应用于胎儿基因数据的目的，是允许医生或其它代理人在对可能的临床决定或采取其它与胎儿有关的行动时作出有根据的选择。

定义

SNP(单核苷酸多态性)是指能区分同种属的两个成员之间基因组的单核苷酸。该术语的使用不应隐含对每种变体出现的频率有任何限制。

调用单核苷酸多态性(SNP)是指在考虑直接和间接证据后对特定碱基对的真实状态做决定的行为。

序列表是指DNA序列或基因序列。其可指个体DNA分子或链的初级物理结构。

基因座是指个体DNA有利的特定区域，其可指代单核苷酸多态性(SNP)、可能插入或缺失的位点，或者一些其它相关基因变体的位点。疾病相关的单核苷酸多态性(SNPs)也可以指疾病相关的基因座。

等位基因是指占据特定基因座的基因。

调用等位基因是指确定DNA特定基因座的基因态的行为。这可能涉及调用单核苷酸多态性(SNP)、大多数单核苷酸多态性(SNP)，或确定所述基因座上是否存在插入或缺失，或确定所述基因座可能存在的插入的数目，或确定所述基因座是否存在一些其它的基因变体。

正确的等位基因调用是指正确反映了个体真实基因物质真实状态的等位基因调用。

整理基因数据是指去掉有缺陷的数据和改正部分或所有错误，或填补一个或多个基因座缺失数据的行为。在本发明的上下文中，这可能涉及使用相关个体的基因数据及此处描述的方法。

增加等位基因调用的保真度是指整理关于等位基因集合基因数据的行为。

有缺陷的基因数据是指下述任意的基因数据：等位基因漏失、不确定的碱基对测量结果、不正确的碱基对测量结果、缺失的碱基对测量结果、不确定的插入或缺失测量结果、不确定的染色体片段拷贝数的测量结果、假信号、缺失的测量结果、其它错误或其组合。

噪音基因数据是指有缺陷的基因数据，又称为不完全的基因数据。

未整理的基因数据是指测量的基因数据，即没有使用方法校正原始基因数据中存在的噪音或错误；又称为未加工的基因数据。

可信度是指被调用的单核苷酸多态性(SNP)、等位基因、等位基因集合或确定的染色体片段拷贝数目正确表示个体真实基因状态的统计概率。

倍性调用又称“染色体拷贝数调用”或“拷贝数调用”(CNC)，是确定细胞内存在的一个或多个染色体的数量和染色体特性的行为。

非整倍体是指细胞内存在错误数目的染色体的状态。在人类身体细胞的情形下是指细胞不包含22对常染色体和一对性染色体的情形。在人类配子的情形下是指细胞不含有23对染色体之一的情形。当指代单染色体时，其是指存在的同源染色体多于或少于2的情形。

倍性态是指细胞中一个或多个染色体的数量和染色体特性。

染色体特性是指所述染色体数目。正常人有22种有限的常染色体和两种性染色体。其还可以指染色体的亲代。还可以指从父母遗传的特定染色体。还可以指染色体的其它识别特征。

基因物质的状态或简述为“基因态”是指DNA上一组单核苷酸多态性(SNP)的识别，其可指代基因物质的定相的单倍型，以及可指代DNA序列，包括插入、缺失、重复和突变。还可以指代一个或多个染色体、染色体片段或染色体片段集合的倍性态。

等位基因数据是指涉及一组一个或多个等位基因的一组遗传型数据。其可指代定相的单倍型数据。其可指代单核苷酸多态性(SNP)特性，以及可指代DNA序列数据，包括插入、缺失、重复和突变。其可包括每个等位基因的亲代。

等位基因状态是指基因在一组一个或多个等位基因中的真实状态。其可指代由等位基因数据描述的基因的真实状态。

匹配的复制错误，又称“匹配染色体非整倍体”或“MCA”，是一个细胞含有两个相同或几乎相同的染色体的非整倍体状态。这种类型的非整倍体会出现在核分裂的配子生成过程中，可被称为核分裂的不分离错误。

不匹配的复制错误，又称“独特的染色体非整倍体”或“UCA”，是一个细胞含有两个来自相同父母的，以及同源但不相同的染色体的非整倍体状态。这种类型的非整倍体会出现在减数分裂过程中，并且可被称为核分裂错误。

镶嵌性是指在与其倍性态异种的胚胎或其它个体中的一组细胞。

同源染色体是含有在减数分裂过程中能正常配对的基因集合的染色体。

相同的染色体是含有同组基因，并且对于每个基因具有相同或几乎相同的相同等位基因集合的染色体。

等位基因遗漏或“ADO”指未检测到特定等位基因上同源染色体的碱基对集合中的一个碱基对的状况。

基因座漏失或“LDO”指来自特定等位基因上同源染色体的一组碱基对中两个碱基对均未被检测到的状况。

同型组合的是指具有相同的等位基因作为相应的染色体基因座。

杂合的是指具有不同的等位基因作为相应的染色体基因座。

染色体区域是指染色体片段或整个染色体。

染色体片段是指尺寸范围从一个碱基对到整个染色体的染色体部分。

染色体既可指代整个染色体，还可以是染色体片段或一部分。

复制份数是指染色体片段的拷贝数，可指相同的复制份数，或指染色体片段不同的同源复制份数，其中染色体片段的不同复制份数含有实质上相同集合的基因座集合，并且其中的一个或多个等位基因是不同的。要注意的是，在非整倍体的某些情况中，例如M2复制错误，可能有一些特定染色体片段的复制份数是相同的，并且相同染色体片段的一些复制份数是不同的。

单倍型是在相同染色体上一起传送的多个基因座的等位基因的组合。依赖在特定基因座集合之间出现的重组数目，单倍型可指仅2个基因座或者整个染色体。单倍型还可以指在单染色单体上统计相关的一组单核苷酸多态性(SNPs)。

单倍型数据又称“定相的数据”或“有序的基因数据”，是指来自二倍体或多倍体基因组上的单染色体的数据，即，分离的母方或父方二倍体基因组中染色体的复制。

定相是指测定个人给出的无序的单倍型基因数据、二倍体(或多倍体)基因数据的行为。其可指代对于在一个染色体中发现的一组等位基因，测定等位基因的两个基因中哪个与个体的两个同源染色体之一有关联的行为。

定相的数据是指单倍型已确定的基因数据。

定相的等位基因调用数据是指等位基因状态已确定的等位基因数据，包括单倍型数据。在一个具体实施方式中，使用基于信息学的方法测定的定相亲代等位基因调用数据在本发明的倍性调用方面可用作获得的基因数据。

无序的基因数据是指由二倍体或多倍体基因组中的两个或多个染色体的测量结果得到的混合数据，例如在二倍体基因组中特殊染色体上的母方和父方的复制份数。

“在个体中”、“个体的”、“在个体”、“来自个体”或“在个体上”的基因数据是指个体基因组的数据描述方面。其可指代一个或一组基因座，部分或整个序列，部分或整个染色体，或者整个基因组。

假说是指在给定的染色体集合上的一组可能的倍性态，或者在给定的基因座集合上的一组可能的等位基因状态。可能性的集合可含有一个或多个元素。

拷贝数假说又称“倍性态假说”，是指关于个体中有多少特定染色体复制份数的假说。还可以指代关于每条染色体特性的假说，包括每条染色体的亲代，以及亲代两条染色体中的哪条存在于个体中。还可以指关于来自相关个体的哪条染色体或染色体片段，如果有的话，与来自个体的特定染色体基因一致的假说。

等位基因假说是指对于特定的等位基因集合可能有的等位基因状态。一组等位基因假说指一起描述等位基因集合中所有可能的等位基因状态的一组假说。还可以指关于来自相关个体的哪条染色体或染色体片段，如果有的话，与来自个体的特定染色体基因一致的假说。

目标个体是指基因数据已测定的个体。在一种情况中，仅仅能得到来自目标个体的有限数量的DNA。在一种情况中，目标个体是胚胎或胎儿。在一些具体实施方式中，可以有一个以上的目标个体。在一些具体实施方式中，源于一对父母的每个儿童、胚胎、胎儿或精子可被看做目标个体。

相关个体是指基因相关的，从而与目标个体分享单体域的任意个体。在一种情况中，相关个体可以是目标个体的基因父母，或者是由父母得到的任何基因物质，例如精子、极体、胚胎、胎儿或儿童。其还可以指同胞或祖父母。

同胞是指与所考虑个体父母相同的任意个体。在一些具体实施方式中，其可指已出生的儿童、胚胎，或胎儿，或来源于已出生儿童、胚胎或胎儿的一个或多个细胞。同胞还可以指来源于父母一方的单倍体个体，例如精子、极体或任意其它单倍型基因物质的集合。个体可被看做是自己的同胞。

父母是指个体的基因母亲或父亲。个体典型性的有两个父母，母亲和父亲。父母可被看做个体。

亲代背景是指目标的父母任一方的两条相关染色体之一上的特定单核苷酸多态性(SNP)的基因状态。

如希望的发展又称为“正常发展”，是指成活的胚胎移植到子宫中并导致怀孕。还指继续怀孕并使得婴儿安全出生。还可指出生的婴儿没有染色体异常。还可指出生的婴儿没有其它不希望的基因状况，例如疾病相关联的基因。术语“如预期发展”包括任何父母或保健推进者希望的内容。在某些情形下，“如预期发展”指可用于医学研究或其它目的不能独立生存的或能生存的胚胎。

插入到子宫是指在体外受精的背景下将胚胎转移到子宫腔的过程。

临床决定是指所采取行动的结果会影响个体健康或生存的任意决定。在体外受精(IVF)的情形中，临床决定指移植或不移植一个或多个胚胎的决定。在产前检查的情形中，临床决定指对胎儿流产或不流产的决定。临床决定可指做进一步测试的决定。

平台响应是指基因测量平台输入/输出特性的数学表征，并且可用作统计预知测量差异的量度。

利用信息的方法是指旨在通过统计推断最可能的状态，而不是通过直接物理测量状态，来测定一个或多个等位基因上一个或多个染色体或等位基因状态的倍性态的方法。在本发明的一个具体实施方式中，利用信息的技术是本专利公开的一种。在本发明的一个具体实施方式中，其可以是亲代支持^TM。

专业技术是指用来测定基因状态的方法。在一个具体实施方式中，其可指用来测定或帮助测定个体倍性态的方法。其可指算法、定量法、定性法和/或利用计算机的技术。

通道强度是指由用来测量基因数据的方法输出的与特定等位基因、碱基对或其它基因标记相关的荧光强度或其它信号。其可指一组输出信息。在一个具体实施方式中，其可指来自基因分型阵列的输出信息的集合。

累积分布函数(CDF)曲线是指变量单调递增的右连概率分布，其中曲线上各点的“y”坐标指变量取值小于或等于该点“x”坐标时的概率。

亲代背景

亲代背景是指目标双亲之一的两个相关染色体每条染色体上的给定单核苷酸多态性(SNP)的基因状态。要注意的是，在一个具体实施方式中，亲代背景不是指目标的等位基因状态，而是指父母的等位基因状态。特定单核苷酸多态性(SNP)的亲代背景可由四个碱基对组成，两个父方的，两个母方的；它们彼此可以是相同的或不同的。其通常被写为“m₁m₂|f₁f₂”，其中m₁和m₂是两个母方染色体上特定SNP的基因状态，f₁和f₂是两个父方染色体上特定单核苷酸多态性(SNP)的基因状态。在一些具体实施方式中，亲代背景可写为“f₁f₂|m₁m₂”。要注意的是，下标“1”和“2”指第一和第二染色体上特定等位基因的基因型；还要注意的是，选择哪条染色体标记为“1”和哪条标记为“2”是任意的。

要注意的是，在本发明中，A和B通常用来在属类上代表碱基对特性；A或B同样可代表C(胞核嘧啶)、G(鸟嘌呤)、A(腺嘌呤)或T(胸腺嘧啶)。例如，如果在特定等位基因上，母方的基因型是染色体上的T和同源染色体上的G，所述等位基因上的父方基因型在两条同源染色体上都是G，可以说目标个体的等位基因具有AB|BB的亲代背景。要注意的是，理论上任意的四个等位基因均可能出现在特定的等位基因上，并因此可能例如在特定等位基因上对于母方具有AT基因型，对于父方具有GC基因型。然而，经验数据表明，大多数情况下在特定等位基因上仅观察到四个可能碱基对中的两个。在本发明中，尽管对所属领域的技术人员应显而易见的是，在考虑到该假说没有包括的情形后可以对这里公开的具体实施方式进行改进，但该讨论中假设在特定等位基因上只能观察到两个可能的碱基对。

假说

假说是指可能的基因状态。其可指代可能的等位基因状态。假说的集合是指可能的基因状态的集合。在一些具体实施方式中，假说的集合旨在使集合中的一个假说与任何特定个人的真实基因相对应。在一些具体实施方式中，假说的集合旨在使每个可能的基因状态可用至少集合中的一个假说描述。在本发明的一些具体实施方式中，本发明的一方面是测定哪个假说与所考察个体的真实基因状态相一致。

在本发明的另一个具体实施方式中，一个步骤包括创立假说。在一些具体实施方式中，其可以是拷贝数假说。在一些具体实施方式中，其可能涉及关于来自相关个体的哪种染色体片段与其它相关个体的哪些片段，如果有的话，基因相对应的假说。创立假说是指设置变量的极限，使得所有考虑中的可能基因状态的集合被那些变化包括。

“拷贝数假说”，又称为“倍性假说“或“倍性态假说”，是指关于目标个体的特定染色体或染色体部分可能的倍性态的假说。其还可指个体一个以上的染色体的倍性态。拷贝数假说的集合是指这样的假说集合，其中每种假说对应于个体不同可能的倍性态。正常个体含有来自每个亲代的至少一个染色体。然而，由于减数分裂和有丝分裂的错误，个体可能有来自每个亲代的0、1、2或更多的特定染色体。事实上，很少见到来自亲代的两个以上的特定染色体。在本发明中，具体实施方式仅考虑可能的假说，其中有0、1或2个特定染色体的复制份数来自亲代。在一些具体实施方式中，对于特定的染色体，有9种可能的假说：涉及母方来源的0、1或2个染色体的三种可能假说，乘以涉及父方来源的0、1或2个染色体的三种可能假说。用(m，f)表示假说，其中m是遗传自母亲特定染色体的数目，f是遗传自父亲特定染色体的数目。因此，这9种假说是(0，0)、(0，1)、(0，2)、(1，0)、(1，1)、(1，2)、(2，0)、(2，1)，和(2，2)。不同的假说对应不同的倍性态。例如，(1，1)指正常的二体染色体，(2，1)指母方的三体，以及(0，1)指父本单体。在一些具体实施方式中，两个染色体遗传自一方父母，一个染色体遗传自另一方父母的情形可进一步分化为两种情形：一种是两个染色体是相同的(匹配的复制错误)，一种是两个染色体是同源但不同的(不匹配的复制错误)。在这些具体实施方式中，有16种可能的假说。有可能使用其它的假说集合，并且对于所属领域的技术人员而言，在考虑了不同数量的假说后如何改进所公开的方法是显而易见的。

在本发明的一些具体实施方式中，倍性假说是指关于来自其它相关个体的哪种染色体对应目标个体基因组中发现的染色体的假说。在一些具体实施方式中，所述方法的一个关键是预期相关个体能分享单体域的事实，使用来自相关个体的测量基因数据，以及利用目标个体和相关个体之间哪种单体域匹配的知识，有可能推断出与单独使用目标个体的基因测量结果相比可信度更高的目标个体的正确基因数据。

等位基因假说，或称“等位基因状态假说”是指关于等位基因集合可能的等位基因状态的假说。在一些具体实施方式中，如上所述的，该方法的一个关键是相关个体能分享单体域，这可帮助测量缺陷基因数据的重建。等位基因假说还可指关于来自相关个体的哪种染色体或染色体片段与来自个体的特定染色体对应的假说。减数分裂的理论告诉我们，个体中的每种染色体遗传自父母一方，并且几乎是与亲代染色体相同的副本。因此，如果父母的单倍型是已知的，即定相的父母基因型，那么孩子的基因型也能推断出。(术语孩子这里是指由两个配子组成的任意个体，一个配子来自母亲，一个配子来自父亲。)在本发明的一个具体实施方式中，等位基因假说描述了在等位基因集合中可能的等位基因状态，包括单倍型，以及来自相关个体的哪种染色体能与含有等位基因集合的染色体匹配。

一旦定义了假说集合，当在输入基因数据后操作算法时，它们可输出所考虑的每种假说的测定统计概率。各种假说的概率可通过数学计算测定，对于各种假说中的每一种，如一个或多个专业技术、算法和/或本发明其它地方所述方法所描述的，概率值使用相关基因数据作为输入数据。

一旦通过多个技术测定并估计了不同假说的概率，可将它们组合。对于每种假说，这需要乘以由每种技术测定得到的概率。所述假说概率的产物可归一化。要注意的是，一种倍性假说是指染色体可能的倍性状态。

“组合概率”的过程，又称为“组合假说”或组合专业技术的结果，是一个对所属线性代数领域的技术人员而言很熟悉的概念。组合概率一个可能的方式如下：当使用专业技术来评估一组提供了一组基因数据的假说时，所述方法的输出结果是一组以一对一的形式与一组假说中的每个假说相关联的概率。当一组概率由第一种专业技术测定时，每一个概率与集合中的一种假说相关联，并与一组由第二种专业技术测定的概率组合，每种概率与相同的假说集合相关联，然后将两个概率集合相乘。这意味着，对于集合中的每个假说，由两种专业方法测定的与该假说相关的两个概率相乘在一起，然后相应的结果即输出概率。该过程可扩展到任何数量的专业技术。如果只使用了一种专业技术，那么输出概率与输入概率相同。如果使用了两种以上的专业技术，那么可将相关概率同时相乘。可将结果归一化，使得假说集合中的假说概率之和为100％。

在一些具体实施方式中，如果特定假说的组合概率大于其它任意假说的组合概率，那么就可以考虑确定该假说为最具可能性的。在一些具体实施方式中，如果归一化概率大于临界值，则可以将该假说确定为最具可能性的，并且可调用倍性态或其它基因态。在一个具体实施方式中，这意味着与所述假说相关的染色体的数目和特性可被称为倍性态。在一个具体实施方式中，这种可能意味着与所述假说相关的等位基因的特性可被称为等位基因状态。在一些具体实施方式中，临界值可介于约50％至约80％之间。在一些具体实施方式中，临界值可介于约80％至约90％之间。在一些具体实施方式中，临界值可介于约90％至约95％之间。在一些具体实施方式中，临界值可介于约95％至约99％之间。在一些具体实施方式中，临界值可介于约99％至约99.9％之间。在一些具体实施方式中，临界值可在约99.9％以上。

部分具体实施方式

在本发明的一种具体实施方式中，确定目标个体至少一个染色体倍性态的方法包括：从目标个体和一个或多个相关个体得到基因数据；对于目标个体的每个染色体创立一组至少一个倍性态的假说；使用一个或多个专业技术来确定组中每个倍性态假说的统计概率，对于每个所使用的专业技术，给出获得的基因数据；组合由一个或多个专业技术确定的对于每个倍性态假说的统计概率；以及基于组合的每个倍性态假说的统计概率，确定目标个体每个染色体的倍性态。

在一个具体实施方式中，测定目标个体中每个染色体的倍性态可以在体外受精的背景下进行，其中所述的目标个体是胚胎。在一个具体实施方式中，测定目标个体中每个染色体的倍性态可以在无创性产前诊断的背景下进行，其中所述的目标个体是胎儿。测定目标个体中染色体的倍性态可在筛查染色体状况的背景下进行，所述的染色体状况选自包括但不限于：整倍体、缺对染色体、单体、单亲源二体、三体、匹配的三体、不匹配的三体、四体、其它非整倍体、不平衡易位、缺失、插入、嵌合体及其组合。在一个具体实施方式中，测定目标个体中染色体的倍性态可对多个胚胎进行，并可用来选择至少一种插入到子宫的胚胎。在测定了目标个体每个染色体的倍性态后可作出临床决定。

在本发明的一些具体实施方式中，用来测定目标个体一个或多个染色体倍性态的方法可包括下列步骤：

首先，获得来自目标个体和来自一个或多个相关个体的基因数据。在一个具体实施方式中，相关个体包括目标个体的双亲。在一个具体实施方式中，相关个体包括目标个体的同胞。这种个体的基因数据可通过大量方式获得，包括但不限于：其可以是来自基因分型平台的输出测量结果；其可以是测量个体基因物质的序列数据；其可以是计算机模拟的基因数据；其可以是来自用于清除基因数据的信息方法的输出数据，或者其可以来自其它来源。用于测量的基因物质可以用所属领域已知的技术来扩增。

目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量：分子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基因分型平台，及其组合。目标个体的基因数据可通过分析选自包括但不限于下列物质的组测量：一个或多个来自个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一个或多个来自目标个体的卵裂球、在目标个体中发现的额外细胞基因物质、在母方血液中发现的来自目标个体的额外细胞基因物质、在母方血液中发现的来自目标个体的细胞、已知来源于目标个体的基因物质，及其组合。相关个体的基因数据可通过分析选自包括但不限于下述物质的组测量：相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体细胞、一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的胚胎、一个或多个取自例如胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来源于相关个体的基因物质，及其组合。

第二，可对目标个体的每个染色体创立至少一个倍性态假说的集合。每个倍性态假说可涉及目标个体染色体一个可能的倍性态。假说的集合可包括目标个体的染色体可预期具有的所有可能的倍性态。

第三，使用一个或多个本发明所讨论的专业技术，可对集合中的每个倍性态假说测定统计概率。在一些具体实施方式中，专业技术可涉及基于所得基因数据操作的算法，并且输出结果可以是对所考虑每个假说的测定统计概率。在一个具体实施方式中，至少一种专业技术使用了定相的亲代等位基因调用数据，即，其使用了作为输入数据的来自目标个体父母的等位基因数据，其中等位基因数据的等倍型已被测定。在一个具体实施方式中，至少一种专业技术对性染色体是特定的。测定概率的集合与假说的集合相对应。在一个具体实施方式中，每个倍性态假说的统计概率可能涉及对一个或多个亲代背景作累积分布函数曲线图。在一个具体实施方式中，测定每个假说倍性态的统计概率可能涉及将平均等位基因集合的基因分型输出数据的强度与预期强度进行比较。各种专业技术所隐含的数学在本发明的其它地方有描述。

第四，组合测定概率的集合。对于每种假说而言，这需要将由每个技术测定的概率相乘，并且还可能涉及将假说归一化。在一些具体实施方式中，可将概率相组合，并假设它们是相互独立的。然后，假说集合中的每种假说概率结果的集合作为组合的假说概率被输出。

最后，将目标个体的倍性态确定为与概率最大的假说相关联的倍性态。在某些情况下，一个假说将有大于90％的归一化组合概率。每种假说与一个倍性态相关联，所述的倍性态与归一化组合概率大于90％或一些可选择作为确定倍性态的其它临界值的假说相关联。

在本发明的另一个具体实施方式中，用来测定来自目标个体、目标个体的父母一方或双亲，以及可能来自一个或多个相关个体的等位基因集合的等位基因状态的方法包括：从目标个体、父母一方或双亲，以及任意的相关个体获得基因数据；为目标个体、父母一方或双亲，任选地为一个或多个相关个体创立至少一个等位基因假说的集合，其中所述的假说描述了等位基因集合中可能的等位基因状态；测定给出了所得基因数据的假说集合中每个等位基因假说的统计概率；和基于每个等位基因假说的统计概率，确定目标个体、父母一方或双亲，以及任选地一个或多个相关个体等位基因集合中每个等位基因的等位基因状态。在一个具体实施方式中，所述方法考虑了可能在减数分裂过程中出现的DNA基因转换的概率。在一个具体实施方式中，所述方法可与测定一个或多个目标个体中存在的特定染色体片段拷贝数的方法同时或联合进行，其中两种方法使用来自作为基因数据源的一个或多个目标个体的相同的细胞或细胞组。

在一个具体实施方式中，等位基因状态的测定可在体外受精的情形下进行，其中至少一种目标个体是胚胎。在一个具体实施方式中，等位基因状态的测定可在当至少一个目标个体是胚胎时进行，并且对一个或多个目标个体等位基因集合的等位基因状态进行测定，以选择体外受精(IVF)情形中至少一个用于转移的胚胎，其中所述的目标个体选自包括但不限于一个或多个来自相同父母的胚胎、一个或多个来自父方的精子，及其组合的组。在一个具体实施方式中，等位基因状态的测定可在无创性产前诊断的情形下进行，其中至少一种目标个体是胎儿。在一个具体实施方式中，测定一个或多个目标个体等位基因组的等位基因状态可包括那些个体等位基因集合中的定相基因型。在对一个或多个目标个体等位基因集合的等位基因状态进行测定后，可作出临床决定。

在本发明的一些具体实施方式中，用于测定一个或多个目标个体、以及目标个体父母一方或双方等位基因集合中等位基因数据的方法可包括下述步骤：

首先，获得来自目标个体、来自父母一方或双方，以及来自零或多个相关个体的基因数据。这种个体的基因数据可用许多方法得到，包括但不限于：基因分型平台的输出测量结果；其可以是对个体的基因物质测量的序列数据；其可以是计算机模拟的基因数据；其可以是来自旨在清除基因数据的信息方法的输出数据，或者其可以来自其它来源。在一个具体实施方式中，所获得的基因数据可包括由基因分型阵列测量的单核苷酸多样性。在一个具体实施方式中，所获得的基因数据可包括DNA序列数据，即，代表了个体DNA初级结构的测定基因序列。用于测量的基因物质可用所属领域已知的许多技术放大。在一个具体实施方式中，目标个体是所有的同胞。在一个具体实施方式中，对目标个体的一次或多次基因测量在单细胞上进行。在一个具体实施方式中，可使用平台响应模型来测定给出了基因分型技术的观察基因测量结果和典型测量偏差的真实基因型的可能性。

目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量：分子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基因分型平台，及其组合。目标个体的基因数据可通过分析选自包括但不限于下列组的物质测量：一个或多个来自目标个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一个或多个来自目标个体的卵裂球、在目标个体中发现的额外细胞基因物质、在母方血液中发现的来自目标个体的额外细胞基因物质、在母方血液中发现的来自目标个体的细胞、已知来源于目标个体的基因物质，及其组合。相关个体的基因数据可通过分析选自包括但不限于下述组的物质测量：相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体细胞、一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的胚胎、一个或多个取自这类胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来源于相关个体的基因物质，及其组合。

第二，可对每个个体的等位基因集合创立多个等位基因假说的集合。每个等位基因假说是指所述个体的等位基因集合中的每个等位基因可能的特性。在一个具体实施方式中，目标个体等位基因的特性包括等位基因的起源，即，等位基因基因起源的父母，以及等位基因基因起源的特定染色体。假说的集合可包括预期目标个体具有的等位基因集合中所有可能的等位基因状态。

最后，每个等位基因假说的统计概率可在考虑所得基因数据后测定。特定假说的概率测定可通过本发明描述的任何算法完成，特别是那些在等位基因调用部分中的算法。个体的等位基因假说的集合可包括个体等位基因集合中所有可能的等位基因状态。那些与目标个体有噪音的测量基因数据匹配更紧密的假说更可能被校正。与目标个体的真实基因数据正好对应的假说更可能以非常高的概率被测定。等位基因状态可确定为与具有最高概率的假说相对应的等位基因状态。在一些具体实施方式中，等位基因状态可对等位基因集合的不同子集测定。

亲代支持

本发明的一些具体实施方式可使用利用信息的亲代支持^TM(PS)法。在一些具体实施方式中，亲代支持^TM法是可用来对一个或少量细胞以高准确度测定基因数据的方法的聚集，特别是测定疾病相关联的等位基因、其它有利的等位基因，和/或细胞的倍性态

亲代支持^TM法利用已知的亲代基因数据，即母亲和/或父亲的单倍体和/或二倍体基因数据，和减数分裂机理的知识，以及目标DNA、可能的一个或多个相关个体有缺陷的测量结果，以高度的可信度经计算机模拟来重建在多个等位基因上的基因型，和/或胚胎或任何目标细胞，以及关键基因座位点上的目标DNA的倍性态。亲代支持^TM法不仅可重建测定不充分的单核苷酸多态性，还可以重建根本没有测量的插入和缺失、单核苷酸多态性(SNP)或DNA区域整体。此外，亲代支持^TM法即可测量多疾病相关联的基因座，还可筛查来自单细胞的非整倍体。在一些具体实施方式中，亲代支持^TM法可用来表征在体外受精(IVF)周中一个或多个来自胚胎活检的细胞，以确定一个或多个细胞的基因状况。

亲代支持^TM法允许清除有噪音的基因数据。这可通过使用相关个体(父母)的基因型作为参考推断目标基因组(胚胎)正确的遗传等位基因来实现。亲代支持^TM在只有少量的基因物质可用(例如植入前基因诊断(PGD))，以及基因型的直接测量由于有限量的基因物质而具有固有噪音时特别相关。亲代支持^TM法能重建胚胎高度精确有序的二倍体等位基因序列，以及染色体片段的复制数，甚至是常规的、无序的二倍体测量结果也可用高效率的等位基因漏失、降低、易变的扩增偏差及其它错误表征。所述方法能同时采用基本的基因模型和测量误差的基本模型。基因模型可同时测定每个单核苷酸多态性(SNP)的等位基因概率和单核苷酸多态性(SNP)之间的基因转换概率。等位基因概率可在每个单核苷酸多态性(SNP)上利用由亲代得到的数据，以及利用了由HapMap数据库得到的数据单核苷酸多态性(SNP)之间的模型基因转换概率，如International HapMap Project所开发的。考虑到合适的基本基因模型和测量误差模型，通过对计算效率调整，可使用最大后验估计(MAP)判断，来评估胚胎中每个单核苷酸多态性(SNP)上正确、有序的等位基因值。

亲代支持^TM技术的一个方面是在一些使用亲代基因型背景的具体实施方式中的染色体拷贝数调用算法。为了调用染色体拷贝数，所述算法可结合使用基因座遗漏(LDO)的现象和预期的胚胎基因型分布。在全基因组扩增过程中，必然会出现基因座遗漏(LDO)。基因座遗漏(LDO)率与来源的基因物质的拷贝数一致，即，较少的基因复制会导致较高的基因座遗漏(LDO)，反之亦然。照这样，其遵照所述在胚胎中以典型模式表现的具有特定情形亲代基因型的基因座，并与等位基因对胚胎贡献的概率相关。例如，如果父母双方都具有同型组合BB状态，那么胚胎应决不会有AB或AA状态。在该情形中，A检测通道的测量结果预期具有由背景噪音和各种干扰信号确定的分布，但是没有有效的基因型。相反，如果父母双方都具有同型组合AA状态，那么胚胎应绝不会有AB或BB状态，并且A通道的测量结果预期具有可能给出特定全基因组扩增中基因座遗漏(LDO)率的最大强度。当胚胎的基础拷贝数状态不同于二体时，对应于特殊亲代背景的基因座会基于父母一方提供或缺少的额外等位基因内容以预期的模式表现。这允许对每个染色体或染色体片段的倍性态进行测定。该方法一个具体实施方式的细节在本发明的其它部分有记载。

使用亲代背景的拷贝数调用

亲代背景的概念在拷贝数调用(又称为“倍性测定”)的情形中很有用。当基因分型时，在对特定的倍性态进行测量时，第一亲代背景中的所有单核苷酸多态性(SNP)预期可在统计学上以相同的方式表现。相比之下，在特定情形中，一些来自第二亲代背景的单核苷酸多态性(SNP)集合在统计学上预期与在第一亲代背景中的那些表现不同，例如对于特定的倍性态，所述表现上的不同可能对于一个或一组特定倍性态而言是特有的。有许多统计技术可用来分析各种亲代背景中不同基因座的测量响应。在本发明的一些具体实施方式中，可对每个假说的输出概率使用统计技术。在本发明的一些具体实施方式中，可对每个假说的输出概率以及对所估计概率的可信度使用统计技术。当应用于个体时，有些技术不足以以特定水平的可信度测定特定染色体的倍性态。

本发明一个方面的关键是基于这样的事实：有些专门的专业技术特别善于确认或消除特定倍性态或倍性态集合的争议，但是在单独使用时不能正确测定倍性态。这与一些专业技术相比能较好区分彼此间大多数或所有的倍性态，但是在区分一个特定的倍性态子集时没有和一些特殊的专业技术同样高的可信度。有些方法使用一种普遍的技术来测定倍性态。但是，将适当的一组特殊专业技术结合，可比使用一种普遍的专业技术测定倍性更精确。

例如，一种专业技术能以非常高的可信度确定目标是否为单体，第二种专业技术能以非常高的可信度确定目标是否为三体或四体，而第三种技术能以非常高的可信度检测单亲源二体。这些技术单独不能进行精确的倍性测定，但是当将这三种特殊的专业技术组合使用时，它们能以比使用一种能非常好区分所有倍性态的专业技术更高的精确度确定倍性调用。在本发明的一些具体实施方式中，可组合多种技术的输出概率来实现高可信度的倍性态测定。在本发明的一些具体实施方式中，每种技术对特定假说预测的概率可相乘在一起，所得结果被认为是所述假说的组合概率。与具有最高组合概率的假说相关联的倍性态可被称为正确的倍性态。如果能适当地选择专业技术的集合，那么概率的组合结果可比单个技术更精确地确定倍性态。在逆向的一些具体实施方式中，来自一个以上技术的假说的概率可相乘，例如使用线性代数并再归一化，得到组合概率。在一个具体实施方式中，概率的可信度能以与概率相同的方式组合。在本发明的一个具体实施方式中，假说的概率可在它们为独立的假设下组合。在本发明的一些具体实施方式中，一个或多个技术的输出结果可作为其它技术的输入数据。在本发明的一个具体实施方式中，使用一个或一组专业技术得到的倍性调用可用来确定等位基因调用技术适宜的输入数据。在本发明的一个具体实施方式中，来自等位基因调用技术的精准的基因数据输出结果可用作一个或一组专业倍性调用技术的输入数据。在本发明的一些具体实施方式中，各种技术的使用可反复进行。

在本发明的一些具体实施方式中，倍性态能以高于约80％的可信度被调用。在本发明的一些具体实施方式中，倍性态能以高于约90％的可信度被调用。在本发明的一些具体实施方式中，倍性态能以高于约95％的可信度被调用。在本发明的一些具体实施方式中，倍性态能以高于约99％的可信度被调用。在本发明的一些具体实施方式中，倍性态能以高于约99.9％的可信度被调用。在本发明的一些具体实施方式中，一个或一组等位基因可以高于约80％的可信度被调用。在本发明的一些具体实施方式中，等位基因可以高于约90％的可信度被调用。在本发明的一些具体实施方式中，等位基因可以高于约95％的可信度被调用。在本发明的一些具体实施方式中，等位基因可以高于约99％的可信度被调用。在本发明的一些具体实施方式中，等位基因可以高于约99.9％的可信度被调用。在本发明的一些具体实施方式中，输出的等位基因调用数据是定相的，并从两个同源染色体中区分出基因数据。在本发明的一些具体实施方式中，定相的等位基因调用数据是所有个体的输出结果。

以下描述了几种可用来测定倍性态的统计技术。该列表不意欲作为可能的专业技术的穷举列表。有可能使用能辨认目标倍性态假说集合概率和/或可信度的任意统计技术。任意的下列技术均可组合，或者它们可与本发明未讨论的其它技术组合。

排列技术

基因座遗漏(LDO)率与来源基因物质的拷贝数相一致，即较少的染色体复制会导致较高的基因座遗漏(LDO)，反之亦然。其遵照所述在胚胎中以典型模式表现的、具有特定情形亲代基因型的基因座，并与等位基因对胚胎贡献的概率相关。在本发明的一个具体实施方式中被称为“排列技术”，其可能在各种亲代背景中使用基因座特有的行为来推断那些基因座的倍性态。特别地，该技术涉及对不同亲代背景的等位基因测量数据所观察分布之间的关系进行比较，以及确定哪种倍性态与分布之间观察到的关系集合相匹配。该技术在确定样本中存在的同源染色体时特别有用。通过对每个亲代背景作累积分布函数(CDF)曲线图，可以观察聚集在一起的各种背景。注意的是，累积分布函数(CDF)仅仅是设想和比较所观察到的等位基因测量数据分布的一种方式。例如，附图1显示了二体染色体的累积分布函数(CDF)曲线。特别地，附图1显示了来自亲代基因型(母亲|父亲)特定背景的等位基因测量数据是如何在胚胎中以典型的模式表现的，并与等位基因对胚胎贡献的概率相关。当所考虑的染色体是二体时，9个亲带背景被分类为5个簇族。在累积分布函数(CDF)曲线图中，沿x轴的独立变量是通道响应，而沿y轴的独立变量是在通道响应低于临界值情形下的等位基因百分比。

例如，如果父母双方具有同型组合BB状态，那么胚胎应绝不会有AB或AA状态。在该情形中，A检测通道的测量结果可能具有由背景噪音和各种干扰信号确定的分布，但是无有效的基因型。相反，如果父母双方具有同型组合AA状态，那么胚胎应绝不会有AB或BB状态，并且A通道的测量结果预期具有可能给出特定全基因组扩增中基因座遗漏(LDO)率的最大强度。当胚胎的基础拷贝数状态不同于二体时，对应于特殊亲代背景的基因座会基于父母一方提供或缺少的额外等位基因内容以预期的模式表现。微阵探针强度对检测通道的累积密度函数图由亲代基因型背景分离，举例说明了所述概念(见附图2)。特别地，附图2A-2D显示了累积分布函数(CDF)图背景曲线之间的关系如何预期地随染色体拷贝数的变化而变化。附图2A显示了二体染色体的累积分布函数曲线，附图2B显示了缺对染色体的累积分布函数曲线，附图2C显示了单体染色体的累积分布函数曲线，附图2D显示了母方三体染色体的累积分布函数曲线。

每个背景用M₁M₂|F₁F₂表示，其中M₁和M₂是母方的等位基因，F₁和F₂是亲代等位基因。在二体染色体中，有9种可能的亲代背景(参见附图2A-2D图例)，其中，在累积分布函数(CDF)图中形成了5种簇族。在缺对染色体的情形中，所有的亲代背景曲线在CDF图中与背景聚集。在单体的情形中，可以预测只能看到三个背景曲线簇族，因为去除一个亲代背景会导致仅三种可能的胚胎结果：同型组合AA、杂合AB和同型组合BB。可以预测，三体也具有不同的累积分布函数(CDF)-曲线分布，由于单检测通道有额外的等位基因以及仅来自父母一方，因此有七个簇族。

附图2A-2D举例说明了一组预期的最简洁的图解，其中倍性态可通过视检的绘图调用。在某些情形下，来自样本的数据不像附图2A-2D中显示的数据那样容易诠释。许多因素会影响数据的清楚性，包括：引起信号具有非常低信号-噪音比率的卵裂球降解DNA；经常在体外受精(IVF)过程中遇到的部分倍性错误，例如易位；以及可能由细胞核内染色体物理位置或表观遗传现象，例如不同的甲基化水平和染色体周围的蛋白质结构引起的染色体特有的和染色体片段特有的扩增偏差。这些和其它现象的杂合会对同源对中的每个染色体有不同的影响，在该情形下，它们难以与倍性态区分。在本发明的一个具体实施方式中，为了调解这些不同的影响，可使用统计算法来分析例如附图2A-2D中举例说明的数据，并得到倍性测定连同所述测定准确性的可信度。

在本发明的一个具体实施方式中，为了使一个样本和另一个样本之间，或者细胞株样本和卵裂球之间可能存在的差异更稳定，所述算法可能是非参数的，并且不依赖于在特定样本中改善并应用于其它样本的统计学或临界值的预期值。在本发明的一个具体实施方式中，所述算法使用分位点-秩统计学(非参数排列法)，首先是计算每个背景累积分布函数(CDF)曲线的秩，其强度为背景情况中约80％的密度约为1。在另一个具体实施方式中，该算法可计算每个背景累积分布函数(CDF)曲线的秩，其强度为背景情况中约90％的密度约为1。在另一个具体实施方式中，所述算法可计算每个背景累积分布函数(CDF)曲线的秩，其强度为背景情况中约95％的密度约为1。然后，该算法将数据的秩与特定的各种倍性态的预期秩进行对比。例如，如果AB|BB背景和BB|AA背景具有相同的秩，其不同于期望的二体，但是与母方的三体一致。这样，可以检查每个样本的数据分布，来确定两个累积分布函数(CDF)曲线随机交换秩的概率，然后，使用该信息结合秩统计学来确定拷贝数调用和计算明确的可信度。结合每个调用明确的可信度，该统计技术的结果对于染色体拷贝数的诊断非常精确。

由于排列技术对于特定染色体的拷贝数调用与所有其它染色体之间是独立的，不失一般性，其可能集中于单个特定染色体。对于特定的母方基因型gM和父方基因型gF，可以使用gM|gF来表示亲代背景，例如AB|BB指母亲的基因型为AB，而父亲的基因型为BB的单核苷酸多态性(SNP)。

对于特定的背景gM|gF，用X_gM|gF表示背景gM|gF中所有单核苷酸多态性(SNP)的x-通道响应集合。同样地，可以使用Y_gM|gF表示y-通道响应的集合。此外，对于特定的正数C，可定义I_{x≤c}

n_{gM | gF}^{x} (c) = Σ_{x &Element; XgM | gF}

I_{x≤c}和

n_{gM | gF}^{y} (c) = Σ_{y &Element; YgM | gF}

I_{y≤c}

还可使用N_gM|gF来表示背景gM|gF中单核苷酸多态性(SNP)的数目。其可定义为

{\hat{p}}_{gM | gF}^{x} (c) = (n_{gM | gF}^{x} (c)) / (N_{gM | gF})

和

{\hat{p}}_{gM | gF}^{y} (c) = (n_{gM | gF}^{y} (c)) /

(N_{gM | gF})

可以将看做x-通道、y-通道、点c的背景gM|gF响应的经验累积分布函数(CDF)值。可将真实的累积分布函数(CDF)表示为和

算法

算法背后的主要思想是，对于特定的正整数c，阶层和将基于染色体拷贝数变化。y-通道亦然。在本发明的一个具体实施方式中，可以使用该阶层来测定染色体拷贝数。由于x-通道和y-通道是独立处理的，接下来的讨论将仅集中于x-通道。

计算

第一步是对c取使背景之间分辨率最大的值，即c的值使得两种极端背景AA|AA和BB|BB之间的差别最大。更准确地可定义为：

c_{x} = \frac{\arg \max}{c &Element; {0,100, . . ., 66000}} {\hat{p}}_{BB | BB}^{x} (c) - {\hat{p}}_{AA | AA}^{x} (c)

和

e_{x} = {\hat{p}}_{BB | BB}^{x} (c_{x}) -

{\hat{p}}_{AA | AA}^{x} (c_{x}),

以及

c_{y} = \frac{\arg \max}{c &Element; {0,100, . . ., 66000}} {\hat{p}}_{BB | BB}^{y} (c) - {\hat{p}}_{AA | AA}^{y} (c)

和

e_{x} = {\hat{p}}_{BB | BB}^{y} (c_{y}) -

{\hat{p}}_{AA | AA}^{y} (c_{y})

因此，该讨论使用c_x作为样本点，并且对进行所有阶层的比较。由此展开的讨论将依靠于c_x。为了确定染色体拷贝数调用的可信度，测定每个的方差很重要。这可以通过利用二项式模型实现。特别地，可以观察到，每个是独立同分布Bernoulli随机变量的总和，因此归一化总和具有标准偏差

σ_{gM | gF}^{x} = \sqrt{\frac{p_{gM | gF}^{x} (1 - p_{gM | gF}^{x})}{N_{gM | gF}}}

可信度计算

此处描述的是针对特定拷贝数假说计算可信度的方法。每个假说具有一组有效的排列：

{\hat{p}}_{AA | AA}^{x} \approx p_{AA | AA}^{x}

{\hat{p}}_{AA | AB}^{x} \approx p_{AA | AB}^{x}

{\hat{p}}_{BB | AB}^{x} \approx p_{BB | AB}^{x}

{\hat{p}}_{AB | AA}^{x} \approx p_{AB | AA}^{x}

{\hat{p}}_{AB | AB}^{x} \approx p_{AB | AB}^{x}

{\hat{p}}_{AA | BB}^{x} \approx p_{AA | BB}^{x}

{\hat{p}}_{BB | AA}^{x} \approx p_{AB | AA}^{x}

{\hat{p}}_{BB | AB}^{x} \approx p_{BB | AB}^{x}

{\hat{p}}_{AB | BB}^{x} \approx p_{AB | BB}^{x}

例如，二体假说可具有下列集合的有效排列：

{\hat{p}}_{AA | AA}^{x} \approx p_{AA | AA}^{x} : 1

{\hat{p}}_{AA | AB}^{x} \approx p_{AA | AB}^{x} : 2

{\hat{p}}_{AA | BB}^{x} \approx p_{AA | BB}^{x} : 3

{\hat{p}}_{AB | AA}^{x} \approx p_{AB | AA}^{x} : 2

{\hat{p}}_{AB | AB}^{x} \approx p_{AB | AB}^{x} : 3

{\hat{p}}_{AB | BB}^{x} \approx p_{AB | BB}^{x} : 4

{\hat{p}}_{BB | AA}^{x} \approx p_{AB | AA}^{x} : 3

{\hat{p}}_{BB | AB}^{x} \approx p_{BB | AB}^{x} : 4

{\hat{p}}_{BB | BB}^{x} \approx p_{BB | BB}^{x} : 5

其中，如果两条记录的相关阶层在假说中没有特别说明，它们取相同的值。因此，对于二体，有12个有效的排列。特定假说的可信度通过寻找与观察到的数据相匹配的有效排列来计算。这通过整理未变化组中的元素来实现，所述组对于其观察到的统计量具有相同的阶层数。

例如，假定观察到下列的阶层：

[\begin{matrix} {\hat{p}}_{AA | AA}^{x} \\ {\hat{p}}_{AB | AA}^{x} \\ {\hat{p}}_{BB | AA}^{x} \\ {\hat{p}}_{AA | AB}^{x} \\ {\hat{p}}_{AB | AB}^{x} \\ {\hat{p}}_{BB | AB}^{x} \\ {\hat{p}}_{AA | BB}^{x} \\ {\hat{p}}_{AB | BB}^{x} \\ {\hat{p}}_{BB | BB}^{x} \end{matrix}]

与二体相一致并且与数据匹配的排列为

[\begin{matrix} p_{AA | AA}^{x} \\ p_{AB | AA}^{x} \\ p_{BB | AA}^{x} \\ p_{AA | AB}^{x} \\ p_{AB | AB}^{x} \\ p_{BB | AB}^{x} \\ p_{AA | BB}^{x} \\ p_{AB | BB}^{x} \\ p_{BB | BB}^{x} \end{matrix}]

然后，假定二体的假说为Pr{x-数据|H_1，1}＝Pr{x-数据|最佳匹配的阶层}，就可以计算出所观察x-通道数据的概率。

\overset{(a)}{\approx} \Pr {{\hat{p}}_{AA | AA}^{x}, {\hat{p}}_{AB | AA}^{x} | p_{AA | AA}^{x} \leq p_{AB | AA}^{x}}

\cdot \Pr {{\hat{p}}_{AB | AA}^{x}, {\hat{p}}_{AA | AB}^{x} | p_{AB | AA}^{x} \leq p_{AA | AB}^{x}}

\cdot \Pr {{\hat{p}}_{AA | AB}^{x}, {\hat{p}}_{BB | AA}^{x} | p_{AA | AB}^{x} \leq p_{BB | AA}^{x}}

\cdot \Pr {{\hat{p}}_{BB | AA}^{x}, {\hat{p}}_{AA | BB}^{x} | p_{BB | AA}^{x} \leq p_{AA | BB}^{x}}

\cdot \Pr {{\hat{p}}_{AA | BB}^{x}, {\hat{p}}_{AB | AB}^{x} | p_{AA | BB}^{x} \leq p_{AB | AB}^{x}}

\cdot \Pr {{\hat{p}}_{AB | AB}^{x}, {\hat{p}}_{BB | AB}^{x} | p_{AB | AB}^{x} \leq p_{BB | AB}^{x}}

\cdot \Pr {{\hat{p}}_{BB | AB}^{x}, {\hat{p}}_{AB | BB}^{x} | p_{BB | AB}^{x} \leq p_{AB | BB}^{x}}

\cdot \Pr {{\hat{p}}_{AB | BB}^{x}, {\hat{p}}_{BB | BB}^{x} | p_{AB | BB}^{x} \leq p_{BB | BB}^{x}}

在该情形中，为了使概率可以计算，进行了粗略估计。最后，对于任意的两个背景gM1|gF1和gM2|gF，可计算：

\Pr {{\hat{p}}_{gM 1 | gF 1}^{x}, {\hat{p}}_{gM 2 | gF 2}^{x} | p_{gM 1 | gF 1}^{x} \leq p_{gM 2 | gF 2}^{x}}

= \frac{1}{pr (p_{g M_{1} | g F_{1}}^{x} \leq p_{g M_{2} | g F_{2}}^{x})} \Pr {{\hat{p}}_{gM 1 | gF 1}^{x}, {\hat{p}}_{gM 2 | gF 2}^{x}, p_{gM 1 | gF 1}^{x} \leq p_{gM 2 | gF 2}^{x}}

\overset{(a)}{=} \frac{1}{\Pr {p_{{gM}_{1} | {gF}_{1}}^{x} \leq p_{{gM}_{2} | {gF}_{2}}^{x}}} \cdot {&Integral;}_{p_{{gM}_{1} | {gF}_{1}}^{x} \leq p_{{gM}_{2} | {gF}_{2}}^{x}} \Pr {{\hat{p}}_{gM 1 | gF 1}^{x}, {\hat{g}}_{gM 2 | gF 2}^{x}, p_{gM 1 | gF 1}^{x},

p_{gM 2 | gF 2}^{x}} d p_{gM 1 | gF 1}^{x} d p_{gM 2 | gF 2}^{x}

\overset{(b)}{=} α {&Integral;}_{p_{{gM}_{1} | {gF}_{1}}^{x} \leq p_{{gM}_{2} | {gF}_{2}}^{x}} \Pr {{\hat{p}}_{gM 1 | gF 1}^{x}, {\hat{p}}_{gM 2 | gF 2}^{x} | p_{gM 1 | gF 1}^{x}, p_{gM 2 | gF 2}^{x}} {dp}_{gM 1 | gF 1}^{x}

{dp}_{gM 2 | gF 2}^{x}

\overset{(c)}{=} α {&Integral;}_{p_{{gM}_{1} | {gF}_{1}}^{x} \leq p_{g M_{2} | {gF}_{2}}^{x}} f p_{gM 1 | gF 1}^{x}, σ_{gM 1 | gF 1}^{x} ({\hat{p}}_{gM 1 | gF 1}^{x}) f

p_{gM 2 | gF 2}^{x}, σ_{gM 2 | gF 2}^{x} ({\hat{p}}_{gM 2 | gF 2}^{x}) {dp}_{gM 1 | gF 1}^{x} {dp}_{gM 2 | gF 2}^{x}

= α {&Integral;}_{p_{{gM}_{1} | {gF}_{1}}^{x} \leq p_{{gM}_{2} | g F_{2}}^{x}} f {\hat{p}}_{gM 1 | gF 1}^{x}, σ_{gM 1 | gF 1}^{x} (p_{gM 1 | gF 1}^{x}) f

{\hat{p}}_{gM 2 | gF 2}^{x}, σ_{gM 2 | gF 2}^{x} (p_{gM 2 | gF 2}^{x}) {dp}_{gM 1 | gF 1}^{x} {dp}_{gM 2 | gF 2}^{x}

其中(a)和(b)由上均匀分布的独立性和假设得到，而(c)通过使用由均值为μ和标准偏差为σ的正态PDF表示的f_μ，σ以及应用CLT得到。最后由(1)可能得到：

\Pr {{\hat{p}}_{gM 1 | gF 1}^{x}, {\hat{p}}_{gM 2 | gF 2}^{x} | p_{gM 1 | gF 1}^{x} \leq p_{gM 2 | gF 2}^{x}} = \Pr {W_{1} \leq W_{2}},

其中

W_{1} ~ N (p_{gM 1 | gF 1}^{x}, σ_{gM 1 | gF 1}^{x})

和

W_{2} ~ N (p_{gF 2 | gF 2}^{x}, σ_{gM 2 | gF 2}^{x})

将来自x-通道和y-通道的可信度在独立的假设下组合，即Pr{数据|H_1，1}＝Pr{x-数据|H_1，1}Pr{y-数据|H_1，1}.

通过该方式，有可能计算每个特定假说的概率。在一个具体实施方式中，可使用贝叶斯规则寻找每个假说特定数据的概率。

缺对染色体

在本发明的一个具体实施方式中，当使用排列技术时，缺对染色体用特殊的方法处理。除了确定用来确定拷贝数调用的可信度外，还可能进行包络线试验。如果包络线e_x或e_y低于临界值，缺对染色体的概率设定约为1，而其它假说的概率设定约为0。在本发明的一个具体实施方式中，该临界值可设定约为0.05。在本发明的一个具体实施方式中，该临界值可设定约为0.1。在本发明的一个具体实施方式中，该临界值可设定约为0.2。x-通道的缺对染色体排列集合如下：

\cdot p_{AA | AA}^{x} &GreaterEqual; p_{BB | BB}^{x}

\cdot p_{AB | AA}^{x} &GreaterEqual; p_{BB | BB}^{x}

\cdot p_{AA | AB}^{x} &GreaterEqual; p_{BB | BB}^{x}

\cdot p_{AA | AA}^{x} &GreaterEqual; p_{BB | AB}^{x}

\cdot p_{AB | AA}^{x} &GreaterEqual; p_{BB | AB}^{x}

\cdot p_{AA | AB}^{x} &GreaterEqual; p_{BB | AB}^{x}

\cdot p_{AA | AA}^{x} &GreaterEqual; p_{AB | BB}^{x}

\cdot p_{AB | AA}^{x} &GreaterEqual; p_{BB | AB}^{x}

\cdot p_{AA | AB}^{x} &GreaterEqual; p_{AB | BB}^{x}

其中选择没有列出的所有背景的阶层使概率最大。同样地，y-通道的缺对染色体排列集合如下：

\cdot p_{BB | BB}^{y} &GreaterEqual; p_{AA | AA}^{y}

\cdot p_{AB | BB}^{y} &GreaterEqual; p_{AA | AA}^{y}

\cdot p_{BB | AB}^{y} &GreaterEqual; p_{AA | AA}^{y}

\cdot p_{BB | BB}^{y} &GreaterEqual; p_{AA | AB}^{y}

\cdot p_{AB | BB}^{y} &GreaterEqual; p_{AA | AB}^{y}

\cdot p_{BB | AB}^{y} &GreaterEqual; p_{AA | AB}^{y}

\cdot p_{BB | BB}^{y} &GreaterEqual; p_{AB | AA}^{y}

\cdot p_{AB | BB}^{y} &GreaterEqual; p_{AB | AA}^{y}

\cdot p_{BB | AB}^{y} &GreaterEqual; p_{AB | AA}^{y}

分割

上述的标准排列算法在大多数情形下运作良好，并且给出了与经验误差率相对应的理论可信度。出现的一个问题是在染色体数据小子集中的区域特殊行为。该行为可能是由于蛋白质阻塞了染色体的某些部分或者易位。为处理这样的区域问题，有可能对排列方法使用分割的协议接口。

如果染色体的可信度低于临界值，染色体会被粉碎成许多区域，并且分割算法针对每个片段进行。在本发明的一个具体实施方式中，使用了大约5个相同的片段。在本发明的一个具体实施方式中，使用了大约2到5个片段。在一个具体实施方式中，使用了大约6到10个片段。在本发明的一个具体实施方式中，使用了大约10个以上的片段。在本发明的一个具体实施方式中，该临界值设定为约0.6。在本发明的一个具体实施方式中，该临界值设定为约0.8。在本发明的一个具体实施方式中，该临界值设定为约0.9。这样，可集中于可信度被确定大于临界值的片段，并努力在这些高可信度的片段中寻找数目较多者。在本发明的一个具体实施方式中，该临界值可设定为约0.5。在本发明的一个具体实施方式中，该临界值可设定为约0.7。在本发明的一个具体实施方式中，该临界值可设定为约0.8。例如，在使用了5个相同片段的情形中，如果大多数没有3个或更多片段存在，该技术会输出标准排列算法的可信度，而如果大多数有3个或更高的可信度片段存在，可将这些片段集中在一起，然后对这些集中的数据进行标准排列算法。然后，该技术对集中的数据输出可信度来作为整个染色体的可信度。

在本发明的一个具体实施方式中，如果少数片段中有一个可信度大于临界值，所述的染色体可能被标记为分割的。在本发明的一个具体实施方式中，该临界值可被设定约为0.8。在本发明的一个具体实施方式中，该临界值可被设定约为0.9。在本发明的一个具体实施方式中，该临界值可被设定约为0.95。

全染色体平均数

在某些情形下，不同的染色体可能具有不同的扩增曲线。在本发明的一个具体实施方式中，有可能通过对该扩增偏差校正或部分校正，用被称为“全染色体平均”技术的下述技术增加数据的精确度。该技术还用来对数据中可能存在的任意测量结果或其它偏差进行校正或部分校正。该技术不依赖于由各种基因分型技术测量的任何等位基因的确定，相反，它仅取决于基因分型测量结果的整体强度。典型地，来自基因分型技术的原始输出数据，例如基因分型阵列，是对应于四个碱基对A、C、G和T中每个通道测量强度的集合。这些测量强度取自通道输出结果，目的是与存在的基因物质相关联，因此测量强度最大的碱基对通常被认为是正确的等位基因。在一些具体实施方式中，对特定单核苷酸多态性(SNP)集合的测量强度取平均值，并且用这些平均值的特征行为来确定染色体的倍性态。

第一步是使每个目标的扩增变化归一化。这可以通过使用替代的方法对倍性态做初始测定来实现。然后，选择倍性调用的可信度高于特定临界值的所有染色体。在本发明的一个具体实施方式中，该临界值被设定约为99％。在本发明的一个具体实施方式中，该临界值被设定约为99％。在本发明的一个具体实施方式中，该临界值被设定约为95％。在本发明的一个具体实施方式中，该临界值被设定约为90％。然后，将所选染色体调整后的平均值用于目标整体扩增的方法。在本发明的一个具体实施方式中，仅使用了对整个染色体取平均值的荧光探针强度。在一个具体实施方式中，使用了对一组等位基因取平均值的基因分型输出数据强度。

然后，将所述平均值用染色体的拷贝数调用调整，用二体归一化，即将单体标为2，二体标为1，以及三体标为2/3。然后，将每个目标染色体的平均值用这些高可信度调整均值的平均值相除。这些归一化的平均值可被称为扩增调整的平均值。在一个具体实施方式中，仅使用了来自特定背景的通道输出等位基因。在一个具体实施方式中，仅使用了来自AA|AA或BB|BB的等位基因。

一旦对目标的扩增变化归一化后，可对每个染色体的染色体特定扩增方差进行归一化。对于k^th染色体，以高于可信度临界值的可信度，寻找所有称为二体的染色体k的目标。对它们的扩增调整均值取平均值。将该值作为染色体k的平均扩增，表示为b{k}。不失一般性，通过用b{1}除所有其它的b{k}设定b{1}为1。

扩增归一化平均值可通过用向量[b{1}，...，b{24}]相除来对染色体变化归一化。这些平均值被称为归一化均值。从历史数据组成的训练集中，有可能在单体、二体和三体的假设下寻找这些归一化均值的平均值和标准偏差。出于比较的目的，这些归一化均值在各种倍性态假说下可作为预期强度。在一个具体实施方式中，概率可使用对所属领域的技术人员而言已知的统计方法，和使用基因分型输出数据的测量平均强度，以及基因分型输出数据的预期平均强度来计算。每个倍性态假说的概率可通过高斯假说或通过非参数方法例如评估密度的方法计算。然后，将具有特定倍性调用和可信度大于特定临界值的数据集中。在一个具体实施方式中，所述的临界值为约80％。在一个具体实施方式中，所述的临界值为约90％。在一个具体实施方式中，所述的临界值为约95％。假设是高斯分布，那么输出结果应该为一组假说分布。附图3显示了使用全染色体平均技术和使用内部历史数据作为训练集的单体(左)、二体(中)和三体(右)的假说分布。

在全染色体平均方法的第一步中，可对每个目标的扩增变化进行归一化。这无需先将染色体变化归一化即可实现。在本发明的一个具体实施方式中，在计算了扩增归一化均值中的[b{1}，...，b{24}]矢量后，所述矢量可用来调整测定目标扩增的平均值。这将产生新的扩增归一化均值以及新的[b{1}，...，b{24}]矢量。可重复该步骤直到到达固定点。

亲代存在技术

在本发明的一个具体实施方式中，可以使用该部分描述的被称为“亲代存在”(POP)技术的专业统计技术，即特别有利于区分父母一方或多方(即缺对染色体、单体和单亲源二体)没有贡献的任何假说。该部分描述的统计技术可独立地检测特定染色体的每个亲代是否有来自亲代基因组的贡献。该检测是基于累积分布函数(CDF)曲线上最宽点的背景集合之间的距离。所述技术将概率分为四个假说：{父母双方均存在、父母双方均不存在、仅有母方、仅有父方}。所述概率通过计算每个父母的大概统计量，并与“存在”和“不存在”两种情形的训练集模型比较来确定。

大概统计量的计算

POP算法是基于如果特定父母没有贡献，那么背景的特定对应该表现相同的思想。单染色体亲代p的大概统计量X^p是背景对之间距离的那些测量结果。在本发明的一个具体实施方式中，对于随机的染色体，可定义每个通道c∈X，Y和每个亲代p∈父亲，母亲}的到的五个背景距离。AABB_X可定义为在X通道最宽的包络线宽度上测量的AABB背景的累积分布函数(CDF)曲线值等。

d_{c}^{rm 1} = {AABB}_{c} - {BBBB}_{c}

d_{c}^{rm 2} = {AABB}_{c} - {BBBB}_{c}

d_{c}^{rm 3} = {AAAB}_{c} - {BBAB}_{c}

d_{c}^{rm 4} = {AAAA}_{c} - {BBAA}_{c}

d_{c}^{rm 5} = {AAAA}_{c} - {BBAA}_{c}

当没有来自母亲的贡献时，所有的十个应该为零。当有来自母亲的贡献时，五个集合应该为负，且五个集合应该为正。同样地，可对父亲定义的十个距离，并且当父亲的贡献不存在时应为零。

d_{c}^{f 1} = {BBAB}_{c} - {BBBB}_{c}

d_{c}^{f 2} = {BBAA}_{c} - {BBBB}_{c}

d_{c}^{f 3} = {ABAA}_{c} - {ABBB}_{c}

d_{c}^{f 4} = {AAAA}_{c} - {AAAB}_{c}

d_{c}^{f 5} = {AAAA}_{c} - {AABB}_{c}

将每个距离用通道包络线宽度归一化，生成通道c上亲代p的i^th归一化距离包络线宽度也在其最宽点上测量。

s_{c}^{pi} = d_{c}^{pi} / abs ({AAA}_{c} - {BBBB}_{c})

通过求五个背景对i和两个通道的归一化距离之和，生成亲代p当前染色体上的单个统计量。

X^{p} = Σ_{i = 1}^{5} s_{Y}^{pi} - Σ_{i = 1}^{5} s_{X}^{pi}

训练分布

在已经计算了每个亲代给定染色体上的统计量Xp后，可将其与“父母存在”和“父母不存在”情形下的分布进行对比，来计算每种情形的概率。

在本发明的一个具体实施方式中，训练数据的分布可基于一组用一种其它的拷贝数调用技术或其组合过滤的卵裂球。在本发明的一个具体实施方式中，研究了两种排列技术的假说调用和WCM，其使用最低要求的包络线宽度标准检测缺对染色体。在一个具体实施方式中，包括在训练数据中的染色体必须以高可信度被调用。在本发明的一个具体实施方式中，该可信度可设定为约0.6。在本发明的一个具体实施方式中，该可信度可设定为约0.8。在本发明的一个具体实施方式中，该可信度可设定为约0.9。在本发明的一个具体实施方式中，该可信度可设定为约0.95。亲代单体或亲代单亲源二体具有高可信度调用的染色体被包括在“母亲不存在”的数据集中。其它所有假说中具有高可信度调用的非缺对染色体被包括在“母亲存在”的数据集中，并且父亲数据集也以同样方式构建。

在本发明的一个具体实施方式中，可由每个数据集生成核密度得到四个X的分布。当父母存在时，使用宽的核宽；当父母不存在时，使用窄的核宽。在本发明的一个具体实施方式中，宽的核宽可为约0.9、0.8或0.6。在本发明的一个具体实施方式中，窄的核宽可为约0.1、0.2或0.4。亲代存在技术结果统计量分布的几个实例见附图4A-4B。附图4A显示了当来自父母的基因数据存在时每个亲代基因数据的分布；附图4B显示了当缺少来自每个亲代的基因数据时的分布。要注意的是，“存在”分布(左)是多模式的，代表了“一个复制存在”和“两个复制存在”的情况。父亲统计量的存在和不存在分布在附图5中以相同的图显示，其强调了X^f可用来可靠区分两种情形。

假说概率

通过将典型的统计量X^m和X^f与训练数据分布相对比，计算染色体的假说概率。母亲存在的统计量m提供了似然函数m＝p(X^m|母亲存在)和而父亲存在的统计量提供了似然函数f＝p(X^f|父亲存在)和鉴于母亲和父亲的存在是独立的，有关父母双方假说的组合可能性可通过亲代个体可能性的乘法运算来计算。因此，可构建包含9种范围从0至2的亲代拷贝数可能性p(数据|假说)的常见假说概率结构，参见表1。

表1：结合母亲和父亲的假说给出的数据概率

同源染色体存在技术

被称为“同源染色体存在”(POH)技术的算法，利用了定相的亲代基因信息，并且能区分异种的基因型。当使用一种侧重于等位基因调用的专业技术时，难以检测具有两个相同染色体的基因型。个别来自亲代的同源染色体的检测仅可能使用定相的亲代信息。当没有定相的亲代信息时，只能鉴定亲代基因型AA、BB或AB/BA(杂合的)。亲代相位信息能区分杂合基因型AB和BA。POH算法是基于单核苷酸多态性(SNP)检验，其中有利的亲代是杂合的，并且其它的亲代是同型组合，例如AA|AB、BB|AB、AB|AA或AB|BB。例如，当母方是AB、父方是AA时，单核苷酸多态性(SNP)上的卵裂球中存在B表明存在M₂。因为单细胞数据容易具有高噪音和遗漏率，染色体被分割成非重叠区域，并且假说是基于来自区域内单核苷酸多态性(SNP)的统计量评估，而非单独被评估。

有丝分裂的三体通常难以由二体和某些单亲源二体分化，其中存在两个来自父母一方的两个相同染色体，往往难以由单体分化。当存在来自父母一方的两个同源染色体时，有丝分裂的三体可通过减数分裂情形下的全染色体-一个(M1)三体，或者减数分裂情形下的小部分染色体-两个(M2)三体来分辨。该技术特别适合用来检测M2三体。区分有丝分裂三体和减数分裂三体的能力是很有利的，例如，在胚胎活检的卵裂球中检测到有丝分裂三体，表明胚胎很有可能是镶嵌型的，其将会正常发育，而减数分裂的三体表明胚胎是镶嵌型的机会很小，其正常发育的可能性较低。该技术在区分有丝分裂三体、减数分裂三体和单亲源二体时特别有利。该技术能以高精确度有效地地对拷贝数进行正确调用。

胚胎DNA中单个亲代同源染色体的存在，可通过检验同源染色体的指示剂背景来检测。同源染色体的指示剂背景(每个通道上有一个)可定义为这样的背景，即所述背景上的信号只能来自所述的特定同源染色体。例如，母亲的同源染色体1(M₁)在背景AB|BB的通道X上和背景BA|AA的通道Y上显示。

在本发明的一个具体实施方式中，所述算法的结构如下：

(1)对亲代定相并计算每个染色体的噪音层

(2)分割染色体

(3)计算每个所关注背景中每个片段的单核苷酸多态性(SNP)遗漏率

(4)计算每个目标染色体上每个亲代的等位基因遗漏率(ADO)以及每个片段的假说可能性

(5)组合片段，得到给出全染色体亲本假说数据的概率

(6)检查无效的调用，然后计算输出结果

(1)亲代定相和噪音层计算

亲代的定相可用许多技术进行。在本发明的一个具体实施方式中，亲代基因数据使用该文献公开的方法定相。在本发明的一个具体实施方式中，可能需要约2、3、4、5或更多胚胎。在本发明的一些具体实施方式中，染色体可在片段上被定相，使得一个片段和另一个片段之间的定相不是一致的。定相方法可用报道的可信度来区分基因型AB和BA。在本发明的一个具体实施方式中，没有以要求的最低可信度定相的单核苷酸多态性(SNP)未被分配到任何一个背景。在本发明的一个具体实施方式中，允许的最低相位可信度约为0.8。在本发明的一个具体实施方式中，允许的最低相位可信度约为0.9。在本发明的一个具体实施方式中，允许的最低相位可信度约为0.95。

噪音层的计算可基于百分位规格。在本发明的一个具体实施方式中，所述的百分位规格约为0.90、0.95或0.98。在本发明的一个具体实施方式中，通道X上的噪音层是BBBB背景上数值的百分之98，通道Y上的相同。如果单核苷酸多态性(SNP)落在了其通道噪音层以下，可认为其已遗漏。不同的噪音层可针对每个目标、染色体和通道计算。

(2)染色体分割

染色体的分割，即用染色体片段代替全染色体在其上运行算法，是该技术的一部分，因为所述计算是基于对片段计算的遗漏率。太小的片段可能在所有要求的背景中都不包含单核苷酸多态性(SNP)，尤其是当定相可信度降低时。太大的片段更可能包含被误认为三体的同源染色体基因转换(即从M₁变化为M₂)。由于等位基因遗漏率可高达约80％，为了可信地区分等位基因遗漏和信号缺失，也就是说，当预期的遗漏率约是或高于95％时，片段中需求许多单核苷酸多态性(SNP)。

对所述技术有益的染色体分割的另一个原因，是其允许该技术更快地以特定水平的计算速度和强度被实施。由于假说的数目以及技术的计算需求与所考虑的提高到n次幂的等位基因数目大致成比例，其中n是相关个体的数目，所考虑的等位基因数目的减少能显著增加所述算法的速度。相关片段在被定相后，能拼接到一起。

在本发明的一个具体实施方式中，所述定相方法在定相前将每个染色体分割成具有1000单核苷酸多态性(SNP)s的区域。所得片段具有高于特定水平可信度的不同数目的定相单核苷酸多态性(SNP)。在本发明的一个具体实施方式中，由于链的定义不一致，用于计算遗漏率的算法片段可能不会跨越定相片段的界限。因此，通过细分定相片段来实现分割。在一个具体实施方式中，约2至约4个片段用于染色体。在一个具体实施方式中，约5至约10个片段用于染色体。在一个具体实施方式中，约10至约20个片段用于染色体。在一个具体实施方式中，约20至约30个片段用于染色体。在一个具体实施方式中，约30至约50个片段用于染色体。在一个具体实施方式中，约50个片段用于染色体。

在本发明的一个具体实施方式中，大的染色体上使用了将近20个片段，在非常小的染色体上使用了将近6个片段。在本发明的一个具体实施方式中，计算了每个染色体所使用的片段数目，其范围约为6至20，并随染色体上的单核苷酸多态性(SNP)总数线性变化。在本发明的一个具体实施方式中，如果定相片段的数目大于或等于希望的片段数，就使用该定相片段数，而如果不是这样，就将每个定相片段均匀地细分成n个片段，其中n是达到希望片段数目要求的最小值。

(3)遗漏率的计算

特定染色体片段的数据用背景集合的遗漏率来概括。在该部分，遗漏率可定义为单核苷酸多态性(SNP)对在噪音层以下测量的特定背景(与其特殊通道)的分数。每个亲代可测量6个背景。遗漏率和可反映等位基因遗漏率，而遗漏率和可表明同源染色体i的存在。下表显示了与每个亲代的每个遗漏率相关联的背景的实例。必须保存测量遗漏率和单核苷酸多态性(SNP)数目。要注意的是，表2三个遗漏率中的每一个是对每个亲代的两个不同背景测量的。

表2：所要求遗漏率的背景

(4)等位基因遗漏(ADO)的最大可能性评估

该部分包含了一种基于表格p(D_s|M_i，a)和p(D_s|F_i，a)的可能性、用来对每个目标的每个亲代等位基因遗漏率a^*进行评估的方法。等位基因遗漏(ADO)可定义为对AB单核苷酸多态性(SNP)信号遗漏的概率。D_s可定义为对染色体片段测量的背景遗漏率的集合，并且M_i，F_i是亲本假说。在本发明的一个具体实施方式中，基于背景和片段相乘得到的较小概率，使用log可能性进行计算。

通过使用由容许范围内的强力拉网式搜索计算的最大可能性评价，可评估等位基因遗漏率。在本发明的一个具体实施方式中，搜索范围[a_min，a_max]可设定约为[0.4；0.7]。在高水平的等位基因遗漏(ADO)时，区分信号的存在和缺失变得困难，因为等位基因遗漏(ADO)接近了约0.95的噪音临界值遗漏率。

在本发明的一个具体实施方式中，通过下列算法计算了特定目标每个亲代的等位基因遗漏率。在本发明的一个具体实施方式中，所述的计算可使用矩阵运算，而不是对每个目标和单独的染色体进行计算。

对于a∈[a_min，a_max]

对于ch∈[1，22](22个染色体)

计算染色体上的P(D_s|M_i，a)

(使每个片段上的假说最大)

(结合染色体上的片段)

(结合染色体)

a^*＝arg max A(a)(对a优化)

建立数据可能性的模型

在本发明的一个具体实施方式中，使用作为亲本假说和等位基因遗漏(ADO)函数的不同背景遗漏率的模型对等位基因遗漏(ADO)进行优化。单个染色体片段的单核苷酸多态性(SNP)遗漏可认为是独立同分布。Bernoulli变量和遗漏率可预期为具有均值μ和标准偏差的正态分布，其中N是所测量单核苷酸多态性(SNP)的数目。将遗漏率模型作为假说、等位基因遗漏(ADO)和背景的函数计算μ。将假说和背景一起测定单核苷酸多态性(SNP)的基因型，例如AB。然后用基因型和等位基因遗漏(ADO)率测定μ。在本发明的一个具体实施方式中，对于母亲的假说是{M₀，M₁，M₂，M₁₂，M₁₁，M₂₂}。同样也可使用其它的假说集合。M₀表示没有来自母亲的同源染色体存在。M₁₁和M₂₂是有两种来自母亲的相同复制份数存在的情形。这些没有显示减数分裂的三体。与二体一致的假说是M₁和M₂。

表3列出了由母方假说和本发明具体实施方式中各种遗漏率测量结果得到的μ。对应的父本假说可使用相同的表。回想一下，p是定义了噪音层的遗漏率，因此是不存在等位基因时的通道预期遗漏率。

表3：由链假说得到的预期片段遗漏率模型

在每个片段中，两个通道上的三个遗漏率和均要测量。这样，由6个遗漏率测量结果组成的片段总数据D_s以及可能性P(D_s|M_i，a)，是由表3中μ在正态分布下测定的6个对应概率的结果。

因为和遗漏率的单核苷酸多态性(SNP)鉴定取决于亲代定相，在某些背景中可能没有任何确定的单核苷酸多态性(SNP)。三个测量遗漏率和中的每一个可根据对应于两个通道的两个不同背景来测量。如果三个中的任意一个在其背景中均没有数据，那么就不能计算所述片段的可能性。在标准包络线宽度试验中称为缺对染色体的染色体不被包括。

(5)结合片段计算染色体可能性

上述的可能性计算为每个亲本假说M_i的每个片段提供了数据可能性P(D_s|M_i)。父母双方可仍被认为是独立的。那么，链可能性可被归一化，从而单个片段上所有可能性的总和为1。归一化的片段可能性表示为{A_s(M_i)}。该过程还取决于定义为片段上包含的染色体单核苷酸多态性(SNP)分数的归一化片段长度{x_s}。

在本发明的一个具体实施方式中，可组合所有片段的可能性，生成一组所存在的不同链数的染色体可能性。将所有的染色体数据组合成D_ch。母亲的染色体假说是是一次只有一个不同的同源染色体存在的假说，其考虑了链假说M₁、M₁₁、M₂、M₂₂。是减数分裂三体假说，其中有两个不同的链由母亲提供。将要讨论对母亲链数的假说，对父亲链数的假说可以类似的方式计算。

一对一的与无链假说M₀相对应。因此，无复制份数的可能性仅是每个片段无链可能性的总和(用片段长度加权)。

P (D_{ch} | S_{0}^{m}) = Σ_{s} Λ_{s} (M_{0}) x_{s}

(一次一个复制)对应于链假说M₁、M₁₁、M₂、M₂₂。无需对重组做任何假想，就可以预料到单亲复制在所有片段上或是M1或是M2链。在本发明的该具体实施方式中，还包括双链假说M₁₁和M₂₂，其不是设法检测有多少单链复制份数存在。在本发明的另一个具体实施方式中，M₁和M₂可以分组到同一个假说中，而M₁₁和M₂₂可分组到另一个假说中。在其它的具体实施方式中，其它的假说可能涉及所述基因物质真实状态的其它分组。再次，染色体可能性仅仅是一种加权和。

P (D_{ch} | S_{1}^{m}) = Σ_{s} (Λ_{s} (M_{1}) + Λ_{s} (M_{11}) + Λ_{s} (M_{2}) + Λ_{s} (M_{22})) x_{s}

减数分裂三体以来自单亲的两个不同染色体的存在为特征。取决于减数分裂错误的类型，这些减数分裂三体可能是每个亲代同源染色体(减数分裂-1)的完全复制，或者它们可能是亲代同源染色体(减数分裂-2)两个不同的重组。第一种情形导致所有片段的链假说M₁₂，但第二种情形仅导致两种不同组合不匹配的M₁₂。因此，对其它的假说使用加权的求和方法可能不合适。

减数分裂三体可能性的计算是基于独特的重组将在至少一个覆盖了至少四分之一染色体的连续区域内不同的假想。在其它的具体实施方式中，可使用对于独特重组不同的其它连续区域尺寸。由于中段重组和噪音，检测阈过低会导致三体被错误调用。由于减数分裂-2的三体与任意全染色体链假说不一致，因此可能性与片段可能性的总和可能不成比例，因为它是对其它两个拷贝数而言的。相反，减数分裂假说的可信度取决于减数分裂的临界值是否被满足，以及染色体的总可信度。

在本发明的一个具体实施方式中，使用下列步骤，染色体可通过将片段与其相关概率重组来重建：

1.通过组合邻位的片段，寻找A(M₁₂)＞0:8的最长连续区域的长度x

2.如果x＞0:25，则设减数分裂的信号为真。否则设信号为假。

3.通过对每个片段最可能的假设可信度C＝∑_sx_smaxΛ_s(M_i)4取平均值，计算染色体的整体可信度。如果减数分裂的信号为真，则使归一化的否则使

结果是，如果减数分裂的信号在高可信度染色体上触发，减数分裂的假说相应地将具有高可信度。如果减数分裂的信号没有触发，减数分裂的假说将具有低可信度。

(6)检查无效的调用和计算CNC输出

最后一步是计算真实亲代拷贝数的可能性，而不用区分减数分裂和有丝分裂之间的错误。标准HN_mN_f的注释将针对单亲进行调整，其中N_m是来自所存在母亲的链数，N_f是来自所存在父亲的链数。

P (D_{ch} | H 0 x) = P (D_{ch} | S_{0}^{m})

P (D_{ch} | H 1 x) = P (D_{ch} | S_{1}^{m})

P (D_{ch} | H 2 x) = P (D_{ch} | S_{2}^{m})

P(有丝分裂的)

最后一个公式解释为：三体因为两个不相交的事件——减数分裂错误和有丝分裂错误而产生。减数分裂错误对应假说(2个不同的复制份数)，有丝分裂错误对应假说(相同同源染色体的副本)。假设这两个事件的先验概率相同。结果，假说非常高的可信度赋予了H1x和H2x近似相等的可信度，而假说非常高的可信度仅有利于H2x。

该算法非常适合用来检测染色体的分割。分割的二体通过每个亲代复制的存在来表征，其中至少一个亲代的复制是不完全的。如果一方父母在0链假说(M₀或F₀)中对至少四分之一的染色体具有大于约80％的可信度，即便是使用其它专业技术的可信度计算会导致二体调用，该染色体能标记为“分割的单体”。这种分割信号可与排列技术中的分割信号相组合，使得任一方都能独立地检测错误。如果整体算法调用是单体，那么分割的信号可能无法被激活，因为其可能是多余的。

在实施该技术时，复制假说可信度已被分配给单亲的每个染色体，其中遗漏率对至少一个片段是可用的。但是，有些染色体可能没有被高信用度地定相，并且它们的可能性仅反映了对少部分染色体可用的遗漏率。在本发明的一个具体实施方式中，为避免在不充足或不清楚的数据基础上进行调用，可进行检查来去除定相不完全或结果噪音很大的染色体调用。

在进行了检查后，亲代复制假说可转化为标准CNC假说。对于母方复制N_m和父方复制N_f，CNC假说的可能性HN_mN_f仅是独立亲代复制可能性的乘积。如果某一方父母因为定相不完全或噪音数据而没有被调用，该算法可能对该方父母输出不一致的可能性，但仍然对其他的父母调用。

P(D|HN_mN_f)＝P(D|HN_mx)P(D|HxN_f)

检查不完全定相

染色体上的定相范围是计算了可能性的片段长度的总和。在本发明的一些具体实施方式中，当三个遗漏率测量中的任一个没有数据时，不计算可能性。如果定相范围小于一半，将不产生调用。在减数分裂三体被组合长度约为0.25的M₁₂或F₁₂片段的序列标记的情形中，任何小于0.75的定相范围都不足以排除这样的片段。但是，如果检测到减数分裂片段的长度为0.25，其仍然可被调用。在本发明的一个具体实施方式中，约0.5至约0.75之间的定相范围处理如下：

^*如果其标记为三体，那么倍性调用与完全定相的一样

^*如果调用是部分或完全的单体，那么倍性调用与完全定相的一样

^*否则，不调用(对该父母的复制份数设定一致的可能性)

检查有噪音的染色体

有些染色体用该算法可能会反抗分类。尽管可信度定相和片段可能性高，但是全染色体的结果是不清楚的。在某些情况下，这些染色体用最大可能性概率间的频繁切换来表征。尽管每个染色体只能预测少数组合事件，但这些染色体几乎可显示假说间的任意切换。因为减数分裂的假说由长度约为0.25的减数分裂序列触发，所以假的三体往往在有噪音的染色体上被触发。

在本发明的一些具体实施方式中，该算法通过组合邻位片段和相同的最大可能性假说声明“有噪音的染色体”。将这些新片段的平均长度与原始片段集合的平均长度相比较。如果该比例小于2，那么很少有邻位片段匹配的假说，该染色体被认为有噪音。该试验是基于预期原始分割稍微不一致和密集的假设。向最佳分割算法的转换需要新的标准。

对于特殊的亲体，如果声明染色体是有噪音的，那么该父母的复制假说可设定为不一致，并且减数分裂和分割单体的信号设定为假。

性染色体技术

上述的技术是针对常染色体的。由于性染色体(X和Y)的可能基因状态是不同的，因此不同的技术可能更合适。在该部分，描述了几种特别用于确定性染色体倍性态的技术。

除性染色体的预测数目不同外，由于在X和Y染色体上有同源的区域以及同但非多态的其它物质，使得性染色体倍性态的确定被进一步复杂化。Y染色体可被看作是不同区域的嵌合体，并且Y探针的表现大部分取决于结合到Y染色体上的区域。许多Y探针本身不测量单核苷酸多态性(SNP)；相反地，它们结合到X和Y染色体的非多样态位点上。在某些情况下，探针结合到X染色体上总是AA、但在Y染色体上总是BB的位点，反之亦然。这些探针被称为“两集束”探针，因为当将一个这样的探针应用于一组男性和女性样本时，所得散布式绘图总是聚集成被性别分隔的两个集束。男性总是杂合的，而女性总是同型组合。

XYZ染色体技术

在本发明的一个具体实施方式中，性染色体的倍性测定通过考虑被称为“染色体23”的抽象染色体来操作，染色体23由四个被称为X、Y、XY和Z的不同代换染色体构成。染色体XY对应于那些杂合成X和Y染色体的已知作为拟常区域的探针。相比下，与染色体X相关的探针仅能预测杂合成染色体X，而那些与染色体Y相关的探针仅能预测杂合成染色体Y。染色体Z对应于那些杂交成Y染色体的“两簇族”探针，已知作为X-换位区域——该区域与X染色体上相同的区域有约99.9％相一致，并且其等位基因值与其X中的同源物相对立。因此，Z探针将在男性样本上测量AB(不考虑噪音)，而女性样本上的AA或BB取决于基因座。

下述的讨论描述了该技术背后的数学。关于性染色体组分，该技术的目的是区分下列的情形：要注意的是，如果染色体23是整倍体，那么其必然是{XX，XY}之一，并因此必然具有2个拷贝数。在XX来自母亲未来自父亲或者YY来自父亲的单亲源二体情形中，可以任意确定拷贝数为5，或者将它们与单体假说合并。

X和Y代换染色体之间的联系仅能在组合先验分布中通过父方贡献的X和Y代换染色体数目来表达。

注释

1.n是染色体23的染色体拷贝数。

2.是由母亲供应给胚胎代换染色体的拷贝数：0、1或2。出于注释的目的，也将方便定义为母亲供应给胚胎代换染色体的拷贝数。

3.是由父亲联合供应给胚胎代换染色体X和Y的拷贝数。这些拷贝数对必然属于集合{(0，0)，(0，1)，(1，0)，(2，0)，(1，1)，(0，2)}。

注意，前面定义的三个变量应满足限制条件

4.定义

n_{XY}^{M} = n_{X}^{M},

n_{XY}^{F} = n_{X}^{F} + n_{Y}^{F}

5定义

n_{Z}^{M} = n_{X}^{M},

n_{Z}^{F} = n_{X}^{F} + n_{Y}^{F}

6p_d是遗漏率，且f(p_d)是该率的先验。

7p_a是落入率，且f(p_d)是该率的先验。

8c是没有调用的截止临界值。

9D_X＝{(x_Xk，y_Xk)}是代换染色体X上所有单核苷酸多态性(SNP)k的通道x和y上原始平台响应的集合。同样，D_Y＝{(x_Yk，y_Yk)]是代换染色体Y上所有单核苷酸多态性(SNP)k的通道x和y上原始平台响应的集合，D_XY＝{(x_XYk，y_XYk)}是代换染色体XY上所有单核苷酸多态性(SNP)k的通道x和y上原始平台响应的集合，以D及D_Z＝{(x_Zk，y_Zk)}是代换染色体Z上所有单核苷酸多态性(SNP)k的通道x和y上原始平台响应的集合。

10是代换染色体X上所有单核苷酸多态性(SNP)的基因型调用集合，并且对于代换染色体Y、XY和Z也相同。要注意的是，基因型调用取决于非调用截止临界值c.

11定义代换染色体指数j，其中j∈{X，Y，XY，Z}。在该情形中，我们可以参考D_j(c)来提及与代换染色体j相关的数据。

12是代换染色体j上k^th snp(与真实值相反)的基因型调用：AA、AB、BB或NC(非调用)中的一个。

13假设在snp k上有基因型调用变量是指示变量(1或0)。正式地，)，且)。

14是母方代换染色体j上基因型调用已知的真实序列。g^M指在某些特殊基因座上的基因座值。要注意的是，对于j＝Y，被认为是非调用NC的序列。

15是父方代换染色体j上已知的基因型调用真实序列。g^F指某些特殊基因座上的基因型值。

16C_MF(j)是能想象的可在代换染色体j上出现的组合亲代基因型的族。C_MF(j)的每个元素是表格(g^M，g^F)的阵列，例如(AA，AB)，并且描述了一种母亲和父亲可能的组合基因型。集合C_MF(j)在此全面列出：

a.C_MF(X)＝{AA，AB，BB}×{AA，BB}

b.C_MF(Y)＝{NC}×{AA，BB}

c.C_MF(XY)＝{AA，AB，BB}×{AA，AB，BB}

d.C_MF(Z)＝{AA，BB}×{AB}

17分别是胚胎(在基因座k上隐含的)代换染色体j上A和B的真实拷贝数。对于j∈{X，XY，Z}，数值必然在0、1、2、3、4内，并且对于j∈{Y}在0、1、2内。

18分别是由母方供应给胚胎(在基因座k上隐含的)代换染色体j的A等位基因和B等位基因的数目。对于j＝X或XY或Z，数值必然在0、1、2内，并且总和一定不大于2。对于j＝Y，数值必然为(0，0)。同样地，分别是由父方供应给胚胎(在基因座k上隐含的)代换染色体j的A等位基因和B等位基因的数目。父方对于j＝X或j＝Y有额外的限制条件，即之一必须为零，这反映了父方不能从任一方个体的性染色体贡献杂合物质的事实。对j=XY，没有这样的限制。

对于j＝Z，限制条件如下：

1.当母方的基因座是相同的AA时，我们有和

2.当母方的基因座是相同的BB时，我们有和

共有四个值精确测定了胚胎代换染色体j上的真实基因型。例如，如果数值为(1，1)和(1，0)，那么胚胎应具有AAB型。

还要注意的是，对于所有的j具有如下的限制条件：

1 . c_{j}^{AM} + c_{j}^{BM} = n_{j}^{M}

2 . c_{j}^{AF} + c_{j}^{BF} = n_{j}^{F}

下列的解法仅适用于染色体23，并且要考虑代换染色体X、Y和XY之间的相互关系。

P (n | D_{X} (c), D_{Y} (c), D_{XY} (c), M, F) = \underset{(n_{X}^{M}, n_{X}^{F}, n_{Y}^{F}) &Element; n}{Σ} P (n_{X}^{M}, n_{X}^{F}, n_{Y}^{F} | D_{X} (c), D_{Y} (c), D_{XY} (c), M, F)

P (n_{X}^{M}, n_{X}^{F}, n_{Y}^{F} | D_{X} (c), D_{Y} (c), D_{XY} (c), M, F)

= \frac{P (n_{X}^{M}) P (n_{X}^{F}, n_{Y}^{F}) P (D_{X} (c), D_{Y} (c), D_{XY} (c) | n_{X}^{M}, n_{X}^{F}, n_{Y}^{F}, M, F)}{Σ_{(n_{X}^{M}, n_{X}^{F}, n_{Y}^{F})} P (n_{X}^{M}) P (n_{X}^{F}, n_{Y}^{F}) P (D_{X} (c), D_{Y} (c), D_{XY} (c) | n_{X}^{M}, n_{X}^{F}, n_{Y}^{F}, M, F)}

是可合理设置的先验分布。(1，0)和(0，1)概率可合理设置为很高，因为这些都是整倍态。

P (D_{X} (c), D_{Y} (c), D_{XY} (c) | n_{X}^{M}, n_{X}^{F}, n_{Y}^{F}, M, F)

= P (D_{X} (c) | n_{X}^{M}, n_{X}^{F}, M, F) \times P (D_{Y} (c) | n_{Y}^{F}, M, F) \times P (D_{XY} (c) | n_{XY}^{M}, n_{XY}^{F}, M, F)

要记住，在上述中，

P (D_{j} (c) | n_{j}^{M}, n_{j}^{F}, M, F) = &Integral; &Integral; f (p_{d}) f (p_{a}) P (D_{j} (c) | n_{j}^{M}, n_{j}^{F}, M, F, p_{d}, p_{a}) d p_{d} d p_{a}

(*) P (D_{j} (c) | n_{j}^{M}, n_{j}^{F}, M, F, p_{d}, p_{a}) = Π_{k} P (G (x_{jk}, y_{jk}; c) | n_{j}^{M}, n_{j}^{F}, g_{jk}^{M}, g_{jk}^{F}, p_{d}, p_{a})

对XY染色体的处理(*)

XY染色体的情形与任何常染色体的表现一样。其数学在此讨论。

P (D_{X} (c) | n_{X}^{M}, n_{X}^{F}, M, F, p_{d}, p_{a}) = \underset{k}{Π} P (G (x_{Xk}; y_{Xk} c) | n_{X}^{M}, n_{X}^{F} g_{Xk}^{M}, g_{Xk}^{F}, p_{d}, p_{a})

= \underset{\hat{g} &Element; {AA . AB, BB, NC}}{\underset{g^{F} &Element; {AA, AB, BB}}{\underset{g^{M} &Element; {AA, AB, BB}}{Π}}} \underset{{k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}}}{Π} P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a})

= \underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, AB, BB}}{\underset{g^{M} &Element; {AA, AB, BB}}{Π}}} P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a}) | {k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}} |

= \exp (\underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, AB, BB}}{\underset{g^{M} &Element; {AA, AB, BB}}{Σ}}} | {k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}} | \times \log P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a}))

P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a})

对X染色体的处理(*)

这里额外的限制是父方在X上从未杂合。

P (D_{X} (c) | n_{X}^{M}, n_{X}^{F}, M, F, p_{d}, p_{a}) = \underset{k}{Π} P (G (x_{Xk}, y_{Xk}; c) | n_{X}^{M}, n_{X}^{F}, g_{Xk}^{M}, g_{Xk}^{F}, p_{d}, p_{a})

= \underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{\underset{g^{M} &Element; {AA, AB < BB}}{Π}}} \underset{{k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}}}{Π} P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a})

= \underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{\underset{g^{M} &Element; {AA, AB, BB}}{Π}}} P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a}) | {k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}} |

= \exp (\underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{\underset{g^{M} &Element; {AA, AB, BB}}{Σ}}} | {k : g_{Xk}^{M} = g^{M}, g_{Xk}^{F} = g^{F}, {\hat{g}}_{Xk}^{(c)} = \hat{g}} | \times \log P (\hat{g} | n_{X}^{M}, n_{X}^{F}, g^{M}, g^{F}, p_{d}, p_{a}))

对Y染色体的处理(*)

这里的限制是母方的拷贝数为0，并且父方在Y上从未杂合。

P (D_{Y} (c) | n_{Y}^{F}, M, F, p_{d}, p_{a}) = \underset{k}{Π} P (G (x_{Yk}, y_{Yk}; c) | n_{Y}^{F}, g_{Yk}^{F}, p_{d}, p_{a})

= \underset{\tilde{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{Π}} \underset{{k : g_{Yk}^{F} = g^{F}, {\hat{g}}_{Yk}^{(c)} = \hat{g}}}{Π} P (\hat{g} | n_{Y}^{F}, g^{F}, p_{d}, p_{a})

= \underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{Π}} P (\hat{g} | n_{Y}^{F}, g^{F}, p_{d}, p_{a}) | {k : g_{Yk}^{F} = g^{F}, {\hat{g}}_{Yk}^{(c)} = \hat{g}} |

= \exp (\underset{\hat{g} &Element; {AA, AB, BB, NC}}{\underset{g^{F} &Element; {AA, BB}}{Σ}} | {k : g_{Yk}^{F} = g^{F}, {\hat{g}}_{Yk}^{(c)} = \hat{g}} | \times \log P (\hat{g} | n_{Y}^{F}, g^{F}, p_{d}, p_{a}))

P (n^{A}, n^{B} | n_{Y}^{F}, g^{F},) = P (n^{A}, n^{B} | n_{Y}^{F}, g^{F}, n_{Y}^{M} = 0, g^{M} = NC)

这里，为了所有的代换染色体，继续所述的解法。要记住，当j＝Y时，对于所有的k，并且

P ({\hat{g}}^{A} | n^{A}, p_{d}, p_{a})

= {\hat{g}}^{A} ((1 - {p_{d}}^{n^{A}}) + (n^{A} = 0) p_{a})

+ (1 - {\hat{g}}^{A}) ((n^{A} > 0) {p_{d}}^{n^{A}} + (n^{A} = 0) (1 - p_{a}))

P ({\hat{g}}^{B} | n^{B}, p_{d}, p_{a})

{\hat{g}}^{B} ((1 - {p_{d}}^{n^{B}}) + (n^{B} = 0) p_{a})

+ (1 - {\hat{g}}^{B}) ((n^{B} > 0) {p_{d}}^{n^{B}} + (n^{B} = 0) (1 - p_{a}))

P (n^{A}, n^{B} | n_{j}^{M}, n_{j}^{F}, g^{M}, g^{F},) = \underset{c_{j}^{BM} + c_{j}^{BF} = n^{B}}{\underset{c_{j}^{AM} + c_{j}^{AF} = n^{A}}{Σ}} P (c_{j}^{AM}, c_{j}^{BM} | n_{j}^{M}, g^{M}) P (c_{j}^{AF}, c_{j}^{BF} | n_{j}^{F}, g^{F})

母亲分例：对于{X，XY}中的j，我们有

P (c_{j}^{AM}, c_{j}^{BM} | n_{j}^{M}, g^{M}) = (c_{j}^{AM} + c_{j}^{BM} = n_{j}^{M}) \{\begin{matrix} (c_{j}^{BM} = 0), & g^{M} = AA \\ (c_{j}^{AM} = 0), & g^{M} = BB \\ \frac{1}{n_{j}^{M} + 1}, & g^{M} = AB \end{matrix}

对于j＝Y，其为母亲而退变，我们有：

P (c_{Y}^{AM}, c_{Y}^{BM} | n_{Y}^{M}, g^{M}) = (c_{Y}^{AM} + c_{Y}^{B} = 0) (n_{Y}^{M} = 0) (g^{M} = NC)

父亲分例：对于{X，Y}中j，我们有：

P (c_{j}^{AF}, c_{j}^{BF} | n_{j}^{F}, g^{M}) =

(c_{j}^{AF} + c_{j}^{BF} = n_{j}^{F}) ((c_{j}^{AF} = 0) u (c_{j}^{BF} = 0)) \{\begin{matrix} (c_{j}^{BF} = 0), & g^{F} = AA \\ (c_{j}^{AF} = 0), & g^{F} = BB \end{matrix}

对于j＝XY，数学与母亲的相同，即：

P (c_{XY}^{AF}, c_{XY}^{BF} | n_{XY}^{F}, g^{F}) = (c_{XY}^{AF} + c_{XY}^{BF} = n_{XY}^{F}) \{\begin{matrix} (c_{XY}^{BF} = 0), & g^{F} = AA \\ (c_{XY}^{AF} = 0), & g^{F} = BB \\ \frac{1}{n_{XY}^{F} + 1}, & g^{F} = AB \end{matrix}

X染色体技术

在本发明的一个具体实施方式中，这里描述的X-染色体技术能以高可信度确定X-染色体的倍性态。事实上，该技术在通过检验不同背景特有的累积分布函数(CDF)曲线来进行测定时与排列技术具有相似性。该技术特别是使用某些背景累积分布函数(CDF)曲线之间的距离来确定性染色体的拷贝数。

在本发明的一个具体实施方式中，所述算法可用下列的方式修改，以优化X-染色体。在该具体实施方式中，可对等位基因分布、响应模型和可能的假说进行细微的调整。公式是：

P (g_{ij} | D, F) = \frac{P (D_{ij}^{s} | g_{ij} F_{j}^{s})}{P (D | F)} Σ_{g} M, g^{F} P (g^{M}) P (g^{F}) P (D_{i}^{m} | g^{M}) P (D_{i}^{f} | g^{F}) Σ_{h} P (g_{ij} | g^{M}, g^{F}, h, F_{j}^{s})

* Q (h, g^{M}, g^{F}, F, D, i, j)

其中

Q (h, g^{M}, g^{F}, F, D, i, j) = \underset{\underset{H_{ij}^{e} = h}{H_{i}}}{Σ} \underset{\underset{a &NotEqual; j}{a = 1, . . ., k,}}{Π} P (D_{ia}^{e} g^{M}, g^{F}, H_{ia}^{e}, F_{a}^{e}) \underset{a = 1, . . ., i}{Π} P (D_{ia}^{s} | g^{F}, H_{ia}^{s}, F_{a}^{s})

*W₁(H_i，D，i，F)*W₂(H_i，D，i，F)

此外，可以做下面的部分或所有变化：

·响应模型取决于如果2复制份数，那么其可以像以前一样模拟；如果使用一种复制并且其可以像精子一样模拟。

·P(g^F)对于AA、BB分别为p，(1-p)，删去了AB。

和以前一样，因为我们假设了100％正确的亲代，从而确保删去了任何的切口。

·h：在(母亲，父亲)的胚胎假说中，以前有4种可能性，现在认为只有M1、M2两种可能性，因为来自父亲的贡献或者不存在(对于)，或者只有一种假说(对于)。这对于每个胚胎是有效的。同样地，对于精子只有一种假说。

的计算可能略有不同，这取决于即取决于我们是否考虑到父亲的贡献。

·考虑到假说空间的减少以及上述提到的取决于的变化，Q(h，g^M，g^F，D，i，j)可以前面相同的方式计算。

背景距离：X染色体

附图6和附图7提供了两个示意图来显示取自真实数据的各种背景群。附图6显示了将一个通道输出结果的归一化强度对其它作图的第一组单核苷酸多态性(SNP)图。附图7显示了将一个通道输出结果的归一化强度对其它作图的第二组单核苷酸多态性(SNP)图。这两个附图中提供的数据表明来自不同背景的数据集群好，并且所述假说能清晰分离。要注意的是，只有可信度高于约0.9的染色体才能用于训练集。距离分布的实例可参见附图8A-8C，其显示了不同倍性假说的等位基因数据的曲线拟合。附图8A显示了用这里公开的Kernel法对五个不同倍性假说的等位基因数据的曲线拟合，附图8B显示了用这里公开的高斯拟合对五个不同倍性假说的等位基因数据的曲线拟合，和附图8C显示了来自通道X上一个亲代背景AA|BB-BB|AA的实际测量等位基因数据与所有数据的曲线拟合的直方图。其假说与实际测量的等位基因数据匹配最好的倍性态被确定为真实倍性态。该技术能以约0.999或更好的可信度对数据在附图6-8中以XX显示的细胞倍性态进行调用。该方法还对分离自具有已知倍性态的细胞株的单细胞进行了准确调用。

Y染色体

在本发明的一个具体实施方式中，Y染色体的倍性态可如本发明其它地方描述的采用下述改进进行测定。在一个具体实施方式中，有可能使用对Y染色体作合适改进的亲代存在技术。

使F^e _j＝0、g_ij＝NaN。对于F^e _i＝1、g_ij＝g^F，即与父方相同。在另一个具体实施方式中，有可能考虑父方测量结果中的可能错误：

P (g_{ij} | D, F) = P (g_{i, j}) P (D_{i}^{f} | g_{ij}) \underset{a = 1, . . ., k .}{Π} P (D_{ia}^{s} | g_{ij}, F_{a}^{s}) \underset{a = 1, . . ., l}{Π} P (D_{ia}^{s} | g_{ij}, F_{a}^{s})

其中P(g_ij)是此切口上的群体频率，将为0/1。在本发明的一个具体实施方式中，可以假定亲代没有错误，这种情形下的Y染色体算法很简单。在另一个具体实施方式中，可对亲代的Y染色体使用错误模型在这种情形下，如果F_a＝0，也很简单，或者可以对目标和Y染色体使用错误模型。

XY染色体

对于“XY”染色体，可使用与其它常染色体相同的算法。

Z染色体

在一个具体实施方式中，对“Z”染色体进行了定义，使得等位基因对于男性必然为AB，对于女性必然为AA/BB，并且由群体频率测定。在该具体实施方式中，可做下列的改进：

g_{ij} = \{\begin{matrix} AB & F_{j}^{s} = 1 \\ AA & F_{j}^{s} = 0, p (A) = 1 \\ BB & F_{j}^{s} = 0, p (A) = 0 \end{matrix}

在其它方面，Z染色体倍性态的测定可如本发明其它地方描述的进行。

非参数技术

在本发明的另一个具体实施方式中，可使用被称为“非参数技术”的方法。该技术对数据的分布不作任何假设。对于特定的单核苷酸多态性(SNP)集合，其通常由亲代背景定义，并基于假说或经验创建预期的分布。所述假说概率的测定通过比较观察到的亲代背景分布之间的关系和亲代背景分布之间预测的关系进行。在一个具体实施方式中，可使用所观察分布的均值、四分之一或五分之一来表示数学的分布。在一个具体实施方式中，期望的关系可使用理论模拟来预知，或者它们可以通过看来自具有已知倍性态的染色体的已知关系集合来预知。在一个具体实施方式中，特定亲代背景的理论分布可通过将来自其它亲代背景的所观察到的分布混合来建立。不同假说下亲代背景的预期分布可与亲代背景所观察到的分布对比，并且只有正确假说下的分布预期才能和所观察到的分布相匹配。

在该部分概述的是用于计算后验概率P(H_i|″数据″)的方法，其中H_i是亲代贡献为0、1或2个染色体情形时预期分布集合部分组合的假说。对于亲代贡献为2个染色体的情形，有两种可能的细分情形：M1复制错误(不匹配的复制错误)(2a)，或M2复制错误(匹配的复制错误)(2b)。这产生了总共16种假说：4种对父亲的假说乘以4种对母亲的假说。首先要讨论的是母亲或父亲贡献了至少一个染色体的情形，父母没有贡献任何染色体的情形将在后面讨论。考虑下列要点：

(A)在亲代背景AB|AA和AA|AB下，在单亲贡献了至少一个染色体的8种亲代染色体贡献假说下，但不包括由于M2复制错误父母双方都贡献2个染色体的情形，目标基因型的分布可分成由数据经验计算的分布。此外，整倍态的分布可与其它假说分开。

(B)如果目标的分布是不同的，有一个区分它们的统计量T(这里正式随机变量)。该统计量的分布可通过在亲代背景AB|AA和AA|AB下引导目标的分布来模拟。这在每种假说下产生一个经验p值。所述的经验p值在i^th假说下表示为并且定义为

{\hat{p}}_{i} = P (T &GreaterEqual; t | hypothesis    i) - - - (1)

其中T是随机变量，并且我们看到了统计量t的实现。T在假说i下的分布可用引导程序模拟。

经验p值通过使“数据”正式化为事件(随机变量)1_T≥t，将产生后验分布P(H_i|″data″)，T在包括所有假说及其次级假说的组合概率空间上定义。这使得上述方程等于P(H_i|1_T≥t)，其通过Bayes′得出

P (H_{i} | 1_{T &GreaterEqual; t}) = P (1_{T &GreaterEqual; t} | H_{i}) \frac{p (H_{i})}{p (1_{T > t})}

= {\hat{p}}_{i} \frac{p_{H_{i}}}{P (T &GreaterEqual; t)}

其中在方程中使得并且在假说i中优先。

用(1，2a)表示在m1复制错误下母亲贡献1个染色体，父亲贡献2个的情形。出于讨论的目的，假设在杂合基因座上的M1复制错误暗示AA、AB和BB中的每种出现的概率为1/3。在M2复制错误中，一个染色体被复制，因此对于杂合的基因座，假设AA和BB每种出现的概率是1/2。

通过研究在不同的假说下的目标分布可给出点(A)。要注意的是，(1，1)是当F₁＝F₂时的唯一情形，并且两者是不同分布的混合。这可以使用极性和非极性同型组合单核苷酸多态性(SNP)模拟。这对于确定三体而言是很好的技术，但是由于难以模拟其分布，很难计算可信度。例如，考虑中位数统计量所述的中位数统计量从运算法则上来讲擅于从(2a/b，1)或者(1，2a/b)中分离出(1，1)。再一次的，不存在相关联的置信度，因为在(1，2a/b)的假设条件下对于它的分布所进行的模拟与(1，1)的方式是相同的，即，如果有n₁种情形的AA|BB和n₂种情形的BB|AA，模拟的分布是以比例n₁/(n₁+n₂)和n₂/(n₁+n₂)重新取样的AA|BB和BB|AA的混合分布。因此，可以预料，T与其模拟分布在三体下的对比和T与其模拟分布在整倍体下的对比相同。下述的说明描述了在不可能排除单亲向胚胎提供两个特定染色体复制份数的情形下如何克服该问题。

在这里的说明中，F₁表示在亲代背景AB|AA下目标位点的分布，和F₂是在亲代背景AA|AB下目标位点的分布。

1.(1，1)：分布F₁＝F₂和F₁是AA和AB的混合物

2.(2b，1)：：F₁是AAA和BBA的混合物。F₂是AAA和AAB的混合物。

3.(2a，1)：：F₁是AAA ABA和BBA的混合物。尽管对所述方法不是必须的，假设混合物是每种有F₂等于AAA和AAB的混合物。

4.通过对称性，(1，2b)F₁与第2项中的F₂相同，以及通过对称性，F₂与第2项中的F₁相同。

5.通过对称性，(1，2a)F₁与第3项中的F₂相同，以及通过对称性，F₂与第3项中的F₁相同。

6.(2a，2b)F₁是AAAA ABAA BBAA中每种有的混合物，F₂是AAAA和AABB的混合物。.

7.(2b，2a)两个F₁是前项中的F₂，以及通过对称性，F₂是前项中的F₁。

8.(2a，2a)F₁是AAAA ABAA BBAA中每种有的混合物，F₂等于F₁。

9.(2b，2b)F₁是AAAA、BBAA的混合物。F₂与F₁具有相同的分布。

演算方法如下：

·在亲代背景AA|AB下寻找良好的目标通道统计量F₁，以及在亲带背景AB |AA下的良好目标通道统计量F₂。在一个具体实施方式中，使t₁和t₂分别在AA|AB和AB|AA下为的平均值。

·在假说i下，当可能时(通常是可能的)，使用由极性同质接合体重新取样的数据混合物，得到组合零分布否则使用异质接合体。

·将(t₁，t₂)的组合分布与经验的对比，产生经验p值。

·如该文献第一部分所描述的计算经验p值。

·根据最大后验概率进行分类并指定后验概率用于调用。

·为了增加该程序的作用，可以包括对应于F₁和F₂的分布F₃，F₄，但是交换等位基因A和B。

下面，考虑单亲没有贡献染色体的情形：

1.(0，0)：F₁和F₂有噪音，这些可使用任意的单核苷酸多态性(SNP)模拟。在一个具体实施方式中，可以使用背景AA|AA和BB|BB。

2.(0，1)：F₁是A和B的混合物，F₂是A

3.(0，2a)：F₁是AA和F₂是BB。

4.(0，2b)：F₁是AA和F₂是AA AB BB的混合物。

5.(1，0)通过对称性转换来自(0，1)情形的F₁和F₂。

6.(2a，0)通过对称性转换来自(0，2a)情形的F₁和F₂。

7.(2b，0)通过对称性转换来自(0，2b)情形的F₁和F₂。

非参数技术的可信度概述

该算法的分析是基于这样的想法，即对于i^th假说H_i，当给定了数据P(H_i|数据)时，可以计算一些(其它的或相同的)假说准确的概率，其相当于P(“算法调用”H_i|数据)。

使用先验可以计算P(data|H_i)。在一个具体实施方式中，所述算法课通过使用亲代背景1被简化。在另一个具体实施方式中，可使用所有的三个背景。因此，当比临界值t小时，可以对调用整倍体的算法进行分析，其中是仅使用为极性同质接合体的亲代背景1时对q的再估计。同样，注意所述算法是基于改进临界值方案的调用倍性态，其中所述的再估计与q对比并基于估算的标准误差进行归一化。该算法以这种方式对常染色体和性染色体运算。

固定特定背景并假设Z_i和W_j具有下述分布：

Z_{i} = μ_{Z} + σ_{i}^{2}

ε_i和

W_{j} = μ_{w} + σ_{j}^{2} ϵ_{j}

其中假设ε_i和ε_j为独立同分布，并且是常数。事实上，观察到和随机变量和的实现。

为了分析分位点调用算法，假设ε的q^th分位点等于0。这不失一般性，因为例如分位点调用在Z_i和W_j的倍增缩放下是不变的，并且对所有Z_i和W_j的增加了常量。

假设所有的相等，以简化和使z_q为Z_i的q^th分位点。将p_q定义/表示为

p_q：＝P(W_j＜z_q)，

这样，在整倍体条件下，由于对于每个ε_i，μ_Z＝μ_W，

p_q＝P(μ_W+ε_i＜μ_Z)＝q.

其中

P(μ_W+ε_i＜μ_Z)＝E(1{μ_W+ε_i＜μ_Z})

概率计算概述

为理解所述计划，考虑一种简化的情形：假设σ_j全部相同，并且已准确知道z_q。然后，对于估计量p_q，通常表示为将简化为

在该情形中，W_i是独立同分布，z_q是已知的，因此仅仅是独立同分布Bernouillis的均值。这是一个较简单的估计量。可用来得到近似精度确切信息的中心极限定理称(2)具有近似的正态分布。

该方法可用来得到可信度，因为在整倍体下p_q＝q，而在非整倍体下，如果假设在i^th型非整倍体下p_q和q之间有差分δ_j，(j＝1意味着亲代贡献(0，0)，j＝1意味着亲代贡献(1，0)，....)，p_q-q＞δ_j。在一个具体实施方式中，估计δ可能在0至0.5之间。

为了简单化，假设所有的假说都落入了H_e——整倍体假说和非整倍体假说H_a，并且将δ表示为最小δ_j。

定义

\hat{Z} : = \frac{{\hat{p}}_{Q} - Q}{{\hat{σ}}_{p_{4}}} - - - (3)

其中，是通过引入程序或通过Bernouilli方差公式对的一些估计。该算法设定了一些临界值t，并当且仅当时调用H_e。因此，在整倍体下使用常态近似值，具有近似的标准正态分布使得

对于t＝3，该概率近似为.99。所以：

相反，在非整倍体下，具有均值为且方差为1的正态分布。典型地，在0.01的范围内，因此，对于常量c有δ＝(.01)c。在一些具体实施方式中，c可在约1至约10之间，在另一个具体实施方式中，c可在约10至约100之间。

很小。对于t＝3，该概率近似为(1-.98)/2。因此

其它可用于倍性调用情形的可能专业技术以及在本发明中记载的表单不意欲穷举。部分进一步的技术概括如下。

等位基因调用

在体外受精(IVF)过程中的植入前基因诊断(PGD)情形中，非常需要确定胚胎的基因组。然而，对单细胞基因分型往往导致等位基因的高遗漏率，其中许多等位基因给出的是错误读数或不读数。以高可信度检测疾病相关的基因要求精确的胚胎基因数据，然后，可将这些测定用来选择最适合移植的胚胎。这里描述的本发明的一种实施方式，包括尽可能精确地推断胚胎的基因数据。所得到的数据可包括对来自目标个体、所述个体父方以及所述个体母方的相同n单核苷酸多态性(SNP)集合的测量基因数据。在一个具体实施方式中，所述的目标个体可以是胚胎。在一个具体实施方式中，也可使用由来自父方的一个或多个精子得到的测量基因数据。在一个具体实施方式中，还可使用来自目标个体一个或多个同胞的测量基因数据。在一个具体实施方式中，一个或多个同胞也可被看做目标个体。为了作出临床上采取行动的预测，在这里描述了一种增加目标个体基因数据等位基因调用保真度的方法。要注意的是，可对所述方法改进以优化其它情形，例如当目标个体不是胚胎时，当只提供了来自父母一方的基因数据时，当亲代单倍型的一个或两个都不知道时，或者当来自其它相关个体的基因数据已知并且可以被并入时。

在本文该部分或其它部分描述的本发明的目的，是对于特定数目的单核苷酸多态性(SNP)增加所关注等位基因上等位基因调用的精确性，或者交替地，减少所需单核苷酸多态性(SNP)的数目以及费用，以达到特定平均水平的单核苷酸多态性(SNP)调用精确性。从这些等位基因调用，特别是与疾病有关的或其它表型相关的基因上的那些，可预测潜在的表型。该信息可用来选择具有令人满意的植入质量的胚胎。由于植入前基因诊断(PGD)非常昂贵，任何允许以较低计算能力或者较少单核苷酸多态性(SNP)测量以特定水平的精确度实现目标基因型计算的PS算法上的新技术或改进，将会是对先前技术的显著进步。

本发明演示了许多使用测量的亲代和目标基因数据在某些情形下是同胞的基因数据，并以高度精确性调用等位基因的新方法，其中同胞的数据可来源于出生的同胞或其它卵裂球，并且所述的目标是单细胞。所公开的方法显示第一次将能接受由多个相关个体测量的不清楚基因数据作为输入，并且还能确定每个相关个体最可能的基因状态的方法付诸实施。在一个具体实施方式中，这意味着在考虑到基因转换以及所有输入数据可能包含错误的事实后，确定多个等位基因的特性以及对任何无序数据定相。

目标的基因数据可鉴于目标和目标父母的测量基因数据来描述，其中假设父母的基因数据是正确的。但是，所有的测量基因数据都可能包含错误，并且任何的先验假设都可能向数据中引入偏差和错误。此处描述的方法显示了对于一组没有假设任何基因数据正确的相关个体，如何确定最可能的基因状态。此处公开的方法允许每个测量基因数据的特征被每个其他相关个体的测量基因数据影响。因此，如果统计论据表明其是不正确的，可对未正确测量的亲代数据进行校正。

在个体或相关个体集合的基因数据包含显著量的噪音或错误的情形中，此处公开的方法利用那些相关个体基因间可预期的相似性，以及基因数据中包含的信息，来整理目标基因组的噪音和相关个体基因数据中可能的错误。这通过确定染色体的哪些片段涉及配子生成，以及减数分裂中哪里出现了基因转换，从而预期相关个体基因组的哪些片段与目标基因组部分近似相同来实现。在特定情况中，该方法可用来整理有噪音的碱基对测量结果，但是其也可用来推断未测量的个别碱基对特性或DNA整个区域。在一个具体实施方式中，可将无序的基因数据用作目标个体和/或一个或多个相关个体的输入，并且输出将包含所述所有个体的定相的、整理的基因数据。此外，可计算每个重建调用的可信度。在本发明的其它地方可发现关于创立假说、计算各种假说概率以及利用所述计算确定个体最可能的基因状态的讨论。

为了举例说明本发明的概念，先提出非常简化的解释并进行不实际的假设。可应用于目前技术的详细统计方法在后面给出。

简例

附图9举例说明了亲代配子生成的减数分裂过程中出现的重组过程。个体母方的101染色体以灰色显示。个体父方的染色体102以白色显示。在已知为双线期的该区间，在减数分裂的前期I，可见具有四个染色单体103的四位组。同源对非姐妹染色单体之间的转换出现在已知为重组结104的位点上。为了举例说明，实施例将侧重于染色体和假设用于描述三个基因的等位基因特性的三个单核苷酸多态性(SNP)。对于该讨论，假设可对母方和父方染色体分别测量单核苷酸多态性(SNP)。该概念可适用于许多单核苷酸多态性(SNP)、许多用多个单核苷酸多态性(SNP)描述特性的等位基因、许多染色体，以及目前在基因分型前不能单独分离母方和父方染色体的基因分型技术。

应注意的是在所关注的单核苷酸多态性(SNP)之间潜在转换的位点。三个母方基因的等位基因集合对应于SNPs(SNP₁，SNP₂，SNP₃)可描述为(a_m1，a_m2，a_m3)。三个父方基因的等位基因集合可描述为(a_p1，a_p2，a_p3)。考虑附图1中形成的重组结，并假设对于每对重组染色单体只有一种重组。在该过程中形成的配子集合将具有基因的等位基因：(a_m1，a_m2，a_p3)、(a_m1，a_p2，a_p3)、(a_p1，a_m2，a_m3)、(a_p1，a_p2，a_m3)。在没有染色单体转换的情形中，配子将具有等位基因(a_m1，a_m2，a_m3)、(a_p1，a_p2，a_p3)。在相关区域具有两个转换位点的情形中，配子将具有等位基因(a_m1，a_p2，a_m3)、(a_p1，a_m2，a_p3)。对于所述特定的亲代，这8个等位基因的不同组合将被称作等位基因的假说集合。

胚胎DNA等位基因的测量结果往往有噪音。为了讨论，取胚胎DNA的单个染色体，并假设其来自减数分裂在附图9举例说明的亲代。该染色体上等位基因的测量可用显示变量的矢量术语描述：A＝[A₁A₂A₃]^T，其中如果胚胎染色体的测量等位基因是a_m1，那么A₁＝1，如果胚胎染色体的测量等位基因是a_p1，那么A₁＝-1，如果测量的等位基因不是a_m1或a_p1，那么A₁＝0。基于假定亲代的等位基因假设集合，可建立对应于上述所有可能配子的8个矢量的集合。对于上述的等位基因，这些矢量可以是a₁＝[111]^T、a₂＝[11-1]^T、a₃＝[1-11]^T、a₄＝[1-1-1]^T、a₅＝[-111]^T、a₆＝[-11-1]^T、a₇＝[-1-11]^T、a₈＝[-1-1-1]^T。在该体系高度简化的应用中，通过对假设集合和测量矢量之间进行简单的关联分析，可确定胚胎可能的等位基因。

i^*＝arg max_iA^Ta_i，i＝1...8

一旦找到i^*，选择a_i*作为胚胎DNA最可能的等位基因集合。该过程可用两种不同的假设重复两次，即来自母亲或父亲的胚胎染色体。产生最大关联的假设A^Ta_i*被假定为是正确的。在每种情形中，基于对母亲或父亲各自DNA的测量，使用一个等位基因的假设集合。

要注意的是，在一个具体实施方式中，那些由于其与特定疾病表型相关而十分重要的单核苷酸多态性(SNP)被称为表型相关的单核苷酸多态性(SNP)或PSNPs。在该具体实施方式中，可测量大量表型相关的单核苷酸多态性(SNP)之间的称为非表型相关单核苷酸多态性(SNP)(NSNPs)的单核苷酸多态性(SNP)，通过从那些用于显著区分个体的NCBI dbSNP数据库选择，将其选定为a-先验(例如用于开发特殊的基因分型阵列)。可替代地，对亲代的特殊对在表型相关的单核苷酸多态性(PSNPs)之间选择非表型相关的单核苷酸多态性(NSNPs)，因为亲代的等位基因是不同的。使用表型相关的单核苷酸多态性(PSNPs)之间额外的单核苷酸多态性(SNP)，能以较高水平的可信度确定表型相关的单核苷酸多态性(PSNPs)之间是否出现基因转换。重要的是要注意，在该注释中涉及了不同的“等位基因”，这仅仅是为了方便；单核苷酸多态性(SNP)可以不与解码蛋白的基因相关联。

等位基因调用方法更详细的处理

在上述提供的简例中，为了举例说明概念，假设亲代基因型是定相的并且能准确知晓。但是，在许多情形中，这种假说无法控制。例如，在体外受精(IVF)过程的胚胎基因分型情形中，通常来自亲代的测量基因数据是未整理且非定相的，任何来自父方精子的测量基因数据是未整理的，以及来自一个或多个胚胎活检的一个或多个卵裂球的测量基因数据也是未整理的和非定相的。理论上，有关未整理的、非定相的胚胎基因数据的知识可用来对亲代基因数据定向和整理。此外，理论上可使用胚胎基因型的知识帮助整理和定相其它胚胎的基因数据。在某些情况下，几个同胞目标个体的测量基因数据能以特定的等位基因集合被校正，而在那些相同等位基因上的亲代基因数据可能是错误的。理论上，有关目标个体的知识可用于整理亲代数据。

在本发明此处公开的一些具体实施方式中，描述了使用目标和其它相关个体基因数据的知识可以整理和定相亲代基因数据的方法。在一些具体实施方式中，还描述了使用同胞个体基因数据的知识可以整理和定相基因数据的方法。在本发明的一个具体实施方式中，将父母、目标个体、一个或多个相关个体的基因数据作为输入，其中每个基因数据与可信度相关联，并且将所有基因型之间可预期的相似度知识用于能立刻选择所有相关个体中最可能基因状态的算法。该算法的输出结果——相关个体最可能的基因状态可包括定相的、经整理的基因等位基因调用数据。在本发明的一些具体实施方式中，可有多个目标个体，而且这些目标个体可以是同胞的胚胎。在本发明的一些具体实施方式中，下述部分所公开的方法可用来测定给出了适宜基因数据的等位基因假说的统计概率。

在本发明的一些具体实施方式中，目标细胞是体外受精(IVF)过程植入前诊断(植入前基因诊断(PGD))情形中的胚胎活检卵裂球。在一些具体实施方式中，目标细胞可以是胎儿细胞或无创性产前诊断情形中细胞外的胎儿DNA。要注意的是，该方法同样能很好适用于其它的情形。在本发明的一些具体实施方式中，补充了计算装置例如计算机，来执行任何弥补所述方法的计算。在本发明的一个具体实施方式中，这里公开的方法使用了来自目标个体、来自目标个体的父母、和可能来自一个或多个精子、以及一个或多个同胞细胞的基因数据，并在精确考虑基因转换后，以高精确性重新建立胚胎的染色体组数据。在本发明的一个具体实施方式中，该方法可用来对非整倍体和整倍体染色体的目标个体重建基因数据。在本发明的一个具体实施方式中，描述了确定亲代细胞单倍型、特定的二倍体亲代数据，和来自一个或多个卵裂球或其它同胞细胞、以及可能但不必需的父方一个或多个精子细胞的二倍体基因数据的方法。

等位基因调用的实际描述

在下述部分，描述了用来确定一个或一系列目标个体基因态的方法。该描述在体外受精(IVF)周期胚胎基因型测定的情形下进行，但是重要的是要注意，这里描述的方法对于其它的情形、其它相关个体的集合也同样能较好应用，例如，当目标个体是胎儿时的无创性产前诊断的情形。

在体外受精(IVF)周期的情形中，对于特殊的染色体，通过基因分型技术，可以提供k个不同目标(胚胎或幼儿)n单核苷酸多态性(SNP)位点的基因分型技术输出数据。每个目标可对一个或多个样本的基因型进行测量，并且所述测量可对单细胞或少量细胞的扩增进行。对于每个SNP，每个样本测量由(X，Y)通道(强度)测量组成。X通道测量了一个(A)等位基因的强度，并且Y通道测量了另一个(B)等位基因的强度。如果该测量对于特殊单核苷酸多态性(SNP)是完全精确的，AA等位基因应具有(100，0)的标准(X，Y)强度(使用任意单元)，AB等位基因应具有(50，50)的强度，BB等位基因应具有(0，100)的强度，并且在该理想情形下，有可能得到给出了(X，Y)通道强度的精确等位基因值。但是，目标单细胞的测量往往不理想，其不可能以高可信度来确定考虑到原始通道响应的真实等位基因值。

等位基因调用可对每个染色体分别进行。该讨论的重点在于具有n个单核苷酸多态性(SNP)的特殊常染色体。第一步是规定输入数据的命名。所述算法的输入数据可以是未整理的、无序的基因分型阵列分析的输出数据，其可以是序列数据，可以是部分或全部加工的基因型数据，可以是个体已知的基因型数据，或者可以是任何类型的基因数据。该数据可整理成目标数据、亲代数据和精子配子，但这不是必然的。在体外受精(IVF)的情形中，目标数据可指由胚胎活检的卵裂球测量的基因数据，其还可以指由出生的同胞测量的基因数据。精子数据可指由单组染色体测量的任何数据，所述的单组染色体来自包括精子、极体、未受精卵或一些其它的单体基因物质来源的亲代。为便于理解，该数据被整理为不同类别，但这并不是必需的。

在本发明中，输入数据标记如下：D是指个体基因数据的集合。D^T＝(D^T1，...，D^Tk)是指k个不同目标(胚胎/幼儿)的基因数据，D^S＝(D^S1，...，D^S1)是指1个不同精子的数据，(D^M)是指母方的数据，以及(D^F)是指父方的数据。可以写为D＝(D^T，D^S，D^M，D^F)。单核苷酸多态性(SNP)的写法不同，其中下标i是指数据集合中的第i个单核苷酸多态性(SNP)，D＝(D₁，...，D_n)，其中D_i＝(D^T _i，D^S _i，D^M _i，D^F _i)。

对于k个不同的目标，可以写为D^T _i＝(D^T1 _i，D^T2 _i，...，D^Tk _i)。可对每个不同的目标多次再取样；再取样是指由特定样本得到的额外基因型读数。对于第j个不同目标，可写为D^Tj _i＝(D^Tj，1 _i，D^Tj，2 _i，...，D^Tj，kj _i)，其中kj＝目标j的样本数目。对于单核苷酸多态性(SNP)i上目标j的第r次再取样，可以观察到通道强度的集合D^Tj，r _i＝(X^Tj，r _i，Y^Tj，r _i)。

对于1个不同的目标，可考虑多个精子，并且在S单核苷酸多态性(SNP)i上可写为D^S _i＝(D^S1 _i，D^S2 _i，...，D^S1 _i)。还可对每个不同的精子多次再取样。因此，对于第j个不同的精子，D^Sj _i＝(D^Sj，1 _i，D^Sj，2 _i，...，D^Sj，lj _i)，其中lj＝精子j的再取样数目。对于单核苷酸多态性(SNP)i上对精子j的第r次再取样，可以观察到通道强度的集合D^Sj，r _i＝(X^Sj，r _i，Y^Sj，r _i)。

母方单核苷酸多态性(SNP)i上的基因数据是D^M _i＝(D^M，1 _i，D^M，2 _i，...，D^M，a _i)。还可对母方的基因数据多次再取样，而且对于母方单核苷酸多态性(SNP)i上的r^th再取样，将观察到通道强度的集合D^M，r _i＝(X^M，r _i，Y^M，r _i)。

父方单核苷酸多态性(SNP)i上的基因数据是D^F _i＝(D^F，1 _i，D^F，2 _i，...，D^F，b _i)。还可对父方的基因数据多次再取样，而且对于父方S单核苷酸多态性(SNP)i上的r^th再取样，将观察到通道强度的集合D^F，r _i＝(X^F，r _i，Y^F，r _i)。

假说命名

对于单核苷酸多态性(SNP)i和目标j，假说由源于母亲和父亲的假说组成，即H^Tj _i＝(H^Tj _i，m，H^Tj _i，f)，其中{1，2}中的H^Tj _i，m和{1，2}中的H^Tj _i，f分别表示对于每个值的亲代单倍型。对于精子，只有源于父亲的假说，即{1，2}中显示父亲来源(假设是正常的精子)的H^Sj _i。

总体上，可写为：

H＝(H₁，...，H_n)，其中H_i＝(H^T _i，H^S _i)和H^T _i＝(H^T1 _i，H^T2 _i，...，H^Tk _i)和H^S _i＝(H^S1 _i，H^S2 _i，...，H^S1 _i)，其中H^Tj _i＝(H^Tj _i，m，H^Tj _i，f).

在具有3个胚胎和1个精子的实施例中，一个染色体片段的特殊单核苷酸多态性(SNP)假说为((M₁，P₂)，(M₂，P₂)，(M₂，P₁)，S₁)。总共有2^(2k+1)n个不同的假说H。

评估目标基因型的可能性P(g|D)

对于单核苷酸多态性(SNP)i、目标j，如果找到P(g|D)，那么最可能的被选为等位基因调用，可信度为为了获取P(g|D)，首先使g^M、g^F有可能调整i^th单核苷酸多态性(SNP)上的亲代，即g^M，g^F∈{AA，AB，BA，BB}。Hⁱ是SNPi上的完全假说，因此：

P (g_{i}^{j} | D) ~ \underset{H_{i}}{Σ} P (g_{i}^{j}, H_{i}, D) = \underset{H_{i}}{Σ} P (D_{1, . . ., i - 1} | H_{i}) P (D_{i + 1, . . ., n} | H_{i}) P (D_{i}, g_{i}^{j}, H_{i})

这里，概率已被分成单核苷酸多态性(SNP)i上数据的局部概率

并且在其它所有单核苷酸多态性(SNP)上数据的概率仅取决于假说H_i：

P(D_{1，...，i-1}|H_i)，P(D_{i+1，...，n}|H_i).

SNP i上的概率

P (D_{i}, g_{i}^{j}, H_{i}) = \underset{g^{M}, g^{F}}{Σ} P (D_{i}, g_{i}^{j}, H_{i}, g^{M}, g^{F}) =

= \underset{g^{M}, g^{F}}{Σ} P (D_{i} | g_{i}^{j}, g^{M}, g^{F}, H_{i}) P (g_{i}^{j} | g^{M}, g^{F}, H_{i}^{Tj}) P (g^{M}) P (g^{F}) P (H_{i})

P(g^M)，P(g^F)是该单核苷酸多态性(SNP)上有序亲代等位基因的等位基因频率。特别地，如果在该单核苷酸多态性(SNP)上P(A)＝p，那么P(AA)＝p²、P(AB)＝P(BA)＝p(1-p)、P(BB)＝(1-p)²。SNP等位基因频率可分别由染色体组数据的大样本估算。

对于所有的假说H_i通常P(H_i)都相等，并且在所有的SNPs上，除了一个单核苷酸多态性(SNP)外(其可任意选择；可选择中间的单核苷酸多态性(SNP)，比如说单核苷酸多态性(SNP)n/2)，该假说被限制并且第一个目标被唯一地称为(M₁，F₁)。

是1或0，取决于等位基因值和由g^M，g^F，组合产生的值的一致性，即如果我们定义α(g^M，g^F，h)＝(等位基因值由有序的母方等位基因g^M、有序的父方等位基因g^F，和亲代假说h唯一确定)，那么：

P (g_{i}^{j} | g^{M}, g^{F}, H_{i}^{Tj}) = I {g_{i}^{j} = α (g^{M}, g^{F}, H_{i}^{Tj})}

现在，是考虑到特殊等位基因值的数据可能性，由于考虑到亲代g^M、g^F和假说H_i，所有目标、精子和亲代的等位基因值是唯一确定的。特别地，其可重新写为：

P (D_{i} | g_{i}^{j}, g^{M}, g^{F}, H_{i}) = P (D_{i}^{T} | g_{i}^{j}, g^{M}, g^{F}, H_{i}^{T}) P (D_{i}^{S} | g^{F}, H_{i}^{S}) P (D_{i}^{M} | g^{M}) P (D_{i}^{F} | g^{F})

对于目标：

P (D_{i}^{T} | g_{i}^{j}, g^{M}, g^{F}, H_{i}^{T}) = P (D_{i}^{Tj} | g_{i}^{j}) Π_{u &NotEqual; j} P (D_{i}^{Tu} | α (g^{M}, g^{F}, H_{i}^{Tu}))

对于每个目标u，是目标所有再取样的可能性结果

P (D_{i}^{Tu} | g) = Π_{r} P (D_{i}^{Tu, r} | g) .

同样，对于精子：

P (D_{i}^{s} | g^{F}, H_{i}^{S}) = Π_{u} P (D_{i}^{Su} | α (g^{F}, H_{i}^{Su}))

对于每个精子u，是该精子所有再取样的可能性结果

P (D_{i}^{Su} | g) = Π_{r} P (D_{i}^{Su, r} | g) .

对于亲代，可将每对父母的再取样可能性相乘：

P (D_{i}^{M} | g^{M}) = Π_{r} P (D_{i}^{M, r} | g^{M}),

P (D_{i}^{F} | g^{F}) = Π_{r} P (D_{i}^{F, r} | g^{F})

对于每个目标、精子和父母样本，剩下欲讨论的可能性P(D|g)是该样本估计的平台响应模型。这将在后面讨论。

在SNPs 1，...，i-1上的概率

对于H_i-1，单核苷酸多态性(SNP)i-1上所有可能的假说

P (D_{1, . . ., i - 1} | H_{i}) = \underset{H_{i - 1}}{Σ} P (D_{1, . . ., i - 1} | H_{i - 1}) P (H_{i - 1} | H_{i})

= \underset{H_{i - 1}}{Σ} (D_{1, . . ., i - 2} | H_{i - 1}) P (D_{i - 1} | H_{i - 1}) P (H_{i - 1} | H_{i})

p(D_{1，...，i-2}|H_i-1)与P(D_{1，...，i-1}|H_i)具有相同的格式，并且可由单核苷酸多态性(SNP)1顺序往上地计算。特别地，将矩阵Wⁱ定义为Wⁱ(h，1)＝P(D_{1，...，i-1}|h)，其中h是单核苷酸多态性(SNP)i上的假说。将矩阵PDⁱ定义为PD^i-1(g，1)＝P(D_i-1|g)，其中g是单核苷酸多态性(SNP)i-1上的假说。当假说g到h之间转变的概率从单核苷酸多态性(SNP)i-1上升到i时，将矩阵PCⁱ定义为PCⁱ(h，g)＝P(g|h)。

那么可以说Wⁱ＝PCⁱ×(PD^i-1·W^i-1)，其初始状态为W¹(g)＝P(开始g)。这可以是任意选择的常量。

这样，先找到W²＝PC²X(PD¹·W¹)，然后是W³，等等，往上到Wⁱ。

PCⁱ(H_i，H_i-1)＝P(H_i-1|H_i)是取决于单核苷酸多态性(SNP)i-1，i之间基因转换概率的转变概率。重要的是要记住，假说H_i(对H_i-1也同样)由所有目标和精子H_i＝(H^T _i，H^S _i)的假说组成。假说H^T _i＝(H^T1 _i，H^T2 _i，...，H^Tk _i)是k目标的目标假说，其中每个目标假说由母亲和父亲来源的假说H^Tj _i＝(H^Tj _i，m，H^Tj _i，f)组成。假说H^S _i＝(H^S1 _i，H^S2 _i，...，H^S1 _i)是父亲来源的1个精子的假说。

那么其中并且cp是单核苷酸多态性(SNP)i，i-1之间的基因转换概率，其可由HAPMAP数据分别估算。

PD^i-1(H_i-1)＝P(D_i-1|H_i-1)是考虑到该假说H_i-1的单核苷酸多态性(SNP)i-1上数据的可能性，其可通过对所有有序的亲代等位基因值求和来计算，这与先前描述的分解相同。

P (D_{i - 1} | H_{i - 1})

= \underset{g^{M}, g^{F}}{Σ} P (D_{i - 1} | H_{i - 1}, g^{M}, g^{F}) P (g^{M}) P (g^{F})

= \underset{g^{M}, g^{F}}{Σ} P (D_{i - 1}^{T} | g^{M}, g^{F}, H_{i - 1}^{T}) \cdot P (D_{i - 1}^{S} | g^{F}, H_{i - 1}^{S}) P (D_{i - 1}^{M} | g^{M}) P (D_{i - 1}^{F} | g^{F}) F (g^{M}) P (g^{F})

SNPs i+1，...，n上的概率

除了有一个从另一端进行外，该部分的推导与上述的推导相同，即如果我们定义Vⁱ(h，1)＝P(D_{i+1，...，n}|h)，其中h是单核苷酸多态性(SNP)I上的假说，那么我们有Vⁱ＝PCⁱ⁺¹×(PDⁱ⁺¹·Vⁱ⁺¹)

初始状态为Vⁿ(g)＝P(endg)(对于所有同样为常量，不重要)，首先找到如此等等，往下到Vⁱ。

评估假说P(h|D)

获取精确的目标或精子假说对于等位基因调用不是必须的，但是它对于结果检查和其它应用是十分有用的。该步骤与基因型概率的获取十分相似，概述如下。特别地，对于单核苷酸多态性(SNP)i，目标j和假说h定义为对单核苷酸多态性(SNP)i目标j的特殊假说。

P (h | D) ~ \underset{H_{i} H_{i}^{T, j} = h}{Σ} P (D, H_{i}) = \underset{H_{i}, H_{i}^{T, j} = h}{Σ} P (D_{1, . . ., i - 1} | H_{i}) P (D_{i + 1, . . ., n} | H_{i}) P (D_{i} | H_{i}) P (H_{i})

其中，所有的假说如本文其它地方所描述的获取。

评估亲代基因型P(g|D)

获取精确的亲代基因型对于等位基因调用不是必须的，但是它对于结果检查和其它应用是十分有用的。该步骤与基因型概率的获取十分相似，概述如下。特别地，对于单核苷酸多态性(SNP)i、目标j，假定说母亲基因型g^M

P (g^{M} | D) ~ \underset{H_{i}, g^{F}}{Σ} P (D, H_{i}, g^{M}, g^{F})

= \underset{H_{i} g^{F}}{Σ} P (D_{1, . . ., i - 1} | H_{i}) P (D_{i + 1, . . ., n} | H_{i}) P (D_{i} | H_{i}, g^{M}, g^{F}) P (H_{i}) P (g^{M}) P (g^{F})

其中，所有的假说如本文其它地方所描述的获取。

平台响应模型评估P(D^T|g)

响应模型可对每个样本和每个染色体分别得到。目标是评估当g＝AA、AB、BB时的P((X，Y)|g)。

首先，将X、Y强度响应范围分离成T单元B^X、B^Y，T为不同通道上数据的等距离百分位(T＜＝20))。然后可估算P((X，Y)|g)为P((X，Y)|g)～f(b_x，b_y，g)for X∈b_x，Y∈b_y，其中f(b_x，b_y，g)由数据估计。在一个具体实施方式中，数据可来自Illumina SNP基因分型阵列输出数据和/或序列数据，其具有不同的模型。在其它的具体实施方式中，数据可来自其它的基因分型阵列、其它的测序方法或其它的基因数据源。

Illumina数据模型

由亲代数据评估了母亲基因型G^M、父亲基因型G^F，并获取了gm，gf＝AA，AB，BB时的样本亲代频率

估算等位基因频率：

P (g) ~ \hat{f} (g) = Σ_{gm, gf} P (glgm, gf) * \hat{p} (gm, gf)

定义S^AA为亲代背景AA|AA时目标数据S的SNPs子集，即S^AA＝{S|G^M＝AA，G^F＝AA}，并且S^BB为亲代背景BB|BB时目标数据S的SNPs子集，即S^BB＝{S|G^M＝BB，G^F＝BB。S^AA中SNPs的等位基因值必须为AA，同样对S^BB为BB。

联合估计

将f^联合(b_x，b_y，AA)定义为S^AA中强度的联合单元样本频率。这是对P((X，Y)|AA)的估计。

将f^联合(b_x，b_y，BB)定义为S^BB中强度的联合单元样本频率。这是对P((X，Y)|BB)的估计。

将f^联合(b_x，b_y，：)定义为S中强度的联合单元样本频率。这是对P((X，Y))的估计。

现在，已知P((X，Y))＝∑_{g＝AA，AB，BB}P((X，Y)|g)*P(g)

因此可写为

P ((X, Y) | AB) = \frac{P ((X, Y)) - p (AA) p ((X, Y) | AA) - p (BB) p ((X, Y) | BB)}{1 - P (AA) - P (BB)}

并且有可能如下估计P((X，Y)|AB)：

现在函数f^联合(b_x，b_y，g)是P((X，Y)|g)一个可能的估计。

末端评估

将f^末端(b_x，：，g)定义为对于g＝AA，BB，S^g上通道X强度的末端单元频率。这是对P(X|g)的评估。

将f^末端(：，b_y，g)定义为对于g＝AA，BB，S^g上通道Y强度的末端单元频率。这是对P(Y|g)的评估。

如果假设通道响应是独立的(它们可能不是独立的)，则对于g＝AA，BB，可写为：

f^末端(b_x，b_y，g)＝f^末端(b_x，：，g)*f^末端(：，b_y，g)

并且如前的：

现在，函数f^末端(b_x，b_y，g)是对P((X，Y)|g)的另一个可能评估。

组合评估

在一些具体实施方式中，例如，当f^组合太需要数据驱动，并且f^末端太平滑时，即不考虑通道依赖性，有可能使用组合评估，共用这两个得到：

f(b_x，b_y，g)＝c*f^组合(b_x，b_y，g)+(1-c)*f^末端(b_x，b_y，g)，

对于c＝0.5(任意的常量)。

序列数据模型

序列数据与来源于基因分型阵列的数据不同。通过所有4个通道A、C、T、G的强度，分别给出每个单核苷酸多态性(SNP)以及多个包围该单核苷酸多态性(SNP)的位点(通常约400-500)。序列数据还包括对所有这些位点的同型组合“随意”调用。通常，大多数非单核苷酸多态性(SNP)位点是同型组合，并且对应于未开发的调用等位基因值。在一个具体实施方式中，对于非单核苷酸多态性(SNP)位点，有可能假设随意的调用是“事实”。

调用非单核苷酸多态性(SNP)强度数据“位点数据”可用来帮助建立响应模型。位点数据是n位点的格式LD＝(LD₁，...，LD_n)，其中，LD_i＝(L^A _i，L^C _i，L^T _i，L^G _i)，是在位点i上的A、C、T、G强度。对应的随意调用数据是WD＝(W₁，...，W_n)，其中W_i是A、C、T、G中的一个。理想的是，如果特殊的等位基因，比如说C，存在于位点i，那么强度值L^C _i应该很高。如果等位基因值不存在，其强度应该很低，理想的为0。因此，例如对于TT，可预料具有强度(A，T，C，G)＝(低，高，低，低)＝(否，是，否，否)。对于AT，可预料具有(高，高，低，低)＝(是，是，否，否)。

有鉴于此，可以评估

f(b_x，b_y，AA)＝YD(b_x)*ND(b_y)，(A是，B否)

f(b_x，b_y，AB)＝YD(b_x)*YD(b_y)，(A是，B是)

f(b_x，b_y，BB)＝ND(b_x)*YD(b_y)，(A否，B是)

其中YD(b)是“是/存在”，而ND(b)是“否/不存在”，由数据得到的一个空间离散的单元分布。YD可由Y集合＝{随意调用指定的所有通道强度}中的数据得到。ND可由N集合＝{随意调用指定的所有通道强度否}中的数据得到。例如，如果在特殊位点的强度是(1a，1c，1t，1g)，并且随意调用是T，那么1t将归入到Y集合，而1a，1c，1g将归入到N集合。

如果假设了通道独立性和相同的分布(独立同分布模型)，那么YD、ND分布仅仅分别是Y集合、N集合中数据的简单样本频率。

但是，所有的四个通道可能是不够放大或过于放大，从而不独立。在一个具体实施方式中，通过对该位点上的最大通道强度按比例排列以及应用独立同模型，有可能建立通道依赖的且相同的分布(相依同分布模型)。

结果

本部分讨论了该等位基因调用方法当应用于实际数据、并在来自相关个体的一组测量基因数据上操作时的结果。输入数据由来自Illumina Infinium基因分型阵列的原始输出组成。对于一组相关个体，该数据包括22染色体，每个有1000单核苷酸多态性(SNP)，包括：

2名儿童(每名儿童有2个样本)，

3个胚胎(每个胚胎有2个样本)，

双亲(母亲和父亲，来自父母一方的2染色体组样本)，

3个精子(每个有1个样本)

目标调用结果

对儿童给出了整体命中率，其中在主要组织样本上进行的染色体组测量被认为是”事实”，为98.55％。命中率在不同的情形下会变化，参见下表：

(m₁m₂|f₁f₂)命中率标准偏差

AA|AA 0.9963σ＝0.1822

AA|AB 0.9363σ＝0.0933

AA|BB 0.9995σ＝0.0365

AB|AA 0.9665σ＝0.0956

AB|AB 0.9609σ＝0.1313

AB|AA 0.9635σ＝0.1013

BB|AA 0.9980σ＝0.0337

BB|AB 0.9940σ＝0.1088

BB|BB 0.9983σ＝0.2112

命中率由染色体改变，而且范围从约99.5％至约96.4％。染色体16、19和22在约98％以下。要注意的是，由单核苷酸多态性(SNP)得到的父方的命中率约为99.82％，而由单核苷酸多态性(SNP)得到的母方的命中率约为93.75％。由单核苷酸多态性(SNP)得到的更好的父方命中率归因于更好的父方定相，其归功于由基因分型的精子得到的定相基因数据。

由可信度单元得到的命中率指预期具有特定可信度范围的等位基因组合调用的命中率。所有数据的整体命中率约为98.55％命中率。对于那些预测可信度高于约90％、对应于所有等位基因调用约96.2％的等位基因调用，其命中率为99.63％。对于那些预测可信度高于约99％、对应于数据约90.37％的等位基因调用，其命中率约为99.9％。个体可信度单元的命中率表明，在统计显著性的限度内，预测的可信度非常精确。例如，对于预测可信度在约80％至约90％之间的那些等位基因调用，真实命中率约为85.0％。对于预测可信度在约70％至约80％之间的那些等位基因调用，真实命中率约为76.2％。对于预测可信度在约96％至约97％之间的那些等位基因调用，真实命中率约为96.3％。对于预测可信度在约94％至约95％之间的那些等位基因调用，真实命中率约为93.9％。对于预测可信度在约99.1％至约99.2％之间的那些等位基因调用，真实命中率约为99.4％。对于预测可信度在约99.8％至约99.9％之间的那些等位基因调用，真实命中率约为99.7％。附图10A和10B以及附图11A和11B提供了用可信度条对由可信度预测的命中率的现实目标命中率绘图。附图10A将真实命中率对三个为第三个百分比宽度的单元预测可信度作图，以及附图11A将真实命中率对为一半百分比宽度的单元预测可信度作图。斜线表示真实命中率等于预测可信度的理想情形。附图10B显示了来自附图10A的各单元的相对群体，而附图11B显示了来自附图11A的各单元的相对群体。具有较高群体或频率的单元预期显示较小的偏差。

作为对照，进行了相同的实验，但是使用基于成批数据的染色体组测量代替了作为测量目标基因数据的单细胞测量。在该情形中，整体命中率约为99.88％。

基因转换的假说概率

此处描述的方法还能确定究竟基因转换是否在胚胎生成中出现。由于等位基因调用的精确度依赖于对邻位等位基因特性的了解，因此可预测基因转换附近的等位基因调用，其中邻位的等位基因可不来自相同的单体，这些调用的可信度会下降。这可参见附图12A-12B。附图12A显示了对典型染色体邻位单核苷酸多态性(SNP)取平均值的等位基因可信度绘图。绘制了两个不同的数组E5和E5GEN，它们来自相同的目标个体，但是使用了不同的方法。特定染色体区域附近可信度的急剧下降，暗示着在目标个体上产生的减数分裂位点出现了基因转换。附图12B显示了染色体的线描述，带有星的表明了倍性假说已确定基因转换出现的位点。在附图12B中，有可能观察到两个基因转换，在单核苷酸多态性(SNP)350附近的母方同源染色体上的基因转换，以及在单核苷酸多态性(SNP)820附近的父方同源染色体上的基因转换。当该方法在单细胞目标数据上运行时，线上标“E5”，当该方法在主要组织的染色体组测量数据上运行时，线上标“E5GEN”。直线类似的事实表明该方法精确重建了单细胞目标的基因数据，尤其是基因转换的位点。

改变输入数据的数量和可信度

在本发明的一个具体实施方式中，有可能使用来自母亲和父亲的染色体组数据，以及由卵裂球和精子测量的单细胞基因数据。在本发明的另一个具体实施方式中，还有可能使用来自相同父母的已出生儿童的染色体组数据作为额外信息，以帮助增加确定单细胞目标基因信息的精确度。在一个实验中，使用了父母双方的染色体组数据以及来自两个胚胎目标细胞的单细胞基因测量结果，并且目标的平均命中率约为95％。使用父母双方的染色体组数据、一个同胞的染色体组数据和来自一个细胞的单细胞目标基因信息，进行了相同的实验，并且同胞基因数据增加的精确性将目标细胞的命中率提高到约99％。

在本发明的另一个具体实施方式中，有可能使用来自0、1、2、3、4或5或更多精子的基因数据作为该方法的输入。在本发明的一些具体实施方式中，有可能使用来自1、2、3、4、5或大于5个同胞胚胎的基因数据作为该方法的输入。通常，输入的数

量越大，目标等位基因调用的精确度越高。而且，输入的测量结果的精确度越高，目标等位基因调用的精确度也越高。

另一个实验使用不同的卵裂球和精子输入集合，以单细胞卵裂球测量结果和单细胞精子测量结果的形式进行。下表显示，输入的数量越大，目标上的等位基因命中率和假说命中率也越高。要注意的是，“精子数”表明了测定中所用的精子数目；“胚胎数”对应于测定中所用的同胞胚胎的总数，包括目标；BK28是特定的数集。

染色体组DNA的扩增

基因组的扩增可通过多种方法实现，包括：连接介导聚合酶链式反应(LM-PCR)、退变寡核苷酸引物聚合酶链式反应(DOP-PCR)和多位点置换扩增(MDA)。对于这三种方法，DOP-聚合酶链式反应能由少量DNA可靠地生产大量DNA，包括染色体的单个复制份数；该方法最适于对亲代二倍体数据进行基因分型，其中数据保真度是决定性的。多位点置换扩增(MDA)是最快的方法，在几小时内对DNA产生数百倍的扩增；该方法最适于基因分型胚胎调用或者其它时间很重要的情形。

对于其中的每一种方法，背景扩增是一个问题，因为每种方法会潜在地扩增污染的DNA。很少量的污染会不可逆转地危害分析并提供假数据。因此，使用洁净的实验室环境很重要，其中扩增前或扩增后工作流程应完全被物理分隔。目前，对于DNA扩增的洁净无污染的工作流程在分子生物工程中是例行的，并且只要求对细节很注意。

基因分型分析和杂交

扩增DNA的基因分型可通过许多方法进行，包括分子倒置探针(MIPs)例如Affymetrix’s Genflex标记阵列、微阵列例如Affymetrix’s 500K阵列或Illumina珠阵列，或者单核苷酸多态性(SNP)基因分型分析例如AppliedBioscience’s TaqMan分析。这些是基因分型技术的所有实例。Affymetrix 500K阵列、分子倒置探针(MIPs)/GenFlex、TaqMan和Illumina分析均要求微克量的DNA，这样具有任一工作流程的单细胞的基因分型要求某种扩增。

在体外受精(IVF)植入前诊断的情形中，固有的时间限制很重要，能在一天内进行的方法可提供明显的优势。标准的分子倒置探针(MIPs)分析法是一种时间相对密集的过程，通常需要大约2.5至3天来完成。500K阵列和Illumina分析均具有较快的周转时间：在标准方法中大约1.5至2天产生高可靠性的数据。这两种方法都是可优化的，对于500K阵列和/或Illumina分析，估计基因分型的周转时间可减少到小于24小时。更快的是TaqMan分析，其可在3小时内进行。对于所有这些方法，分析时间的减少会导致数据质量的降低，然而这正是本发明想要解决的。

自然地，在时间很重要的状态下，例如体外受精(IVF)过程中对卵裂球的基因分型，较快的分析与较慢的分析相比具有明显的优势，而在没有这种时间压力的情形中，例如体外受精(IVF)开始前的亲代DNA基因分型，在选择适宜的方法时，其它的因素将占优势。发展到允许以足够快的高通量基因分型的任何技术，可与该方法一起被用于基因型基因物质。

同步靶向的基因座扩增和全基因组扩增的方法。

在少量基因物质的全基因组扩增过程中，究竟是通过连接介导聚合酶链式反应(LM-PCR)、多位点置换扩增(MDA)，还是其它的方法，基因座的遗漏都会随机且不可避免地会出现。通常非专属性地扩增全基因组是令人满意的，但是要确保特定的基因座以较高的确定性被扩增。有可能进行同步的基因座靶向和全基因组扩增。

在一个具体实施方式中，有可能组合靶向的聚合酶链反应(PCR)和任意其它的普遍性全基因组扩增方法对所关注的特定基因座扩增。这可包括但不限于：在多位点置换扩增(MDA)或连接介导聚合酶链式反应(LM-PCR)普遍性扩增前对特定基因座的前置扩增，在连接介导聚合酶链式反应(LM-PCR)的普遍性聚合酶链式反应步骤中向通用引物中加入靶向聚合酶链式反应引物，以及加入靶向聚合酶链式反应引物退变成多位点置换扩增(MDA)中的引物。

平台响应

有许多可用来测量基因数据的方法。这些方法在本领域中没有一种已知能以100％的精确度测量基因数据，而是数据中总有错误或统计偏差。可以预料，测量方法将在测量结果中引入特定的统计可预知的偏差。可以预料，由特定方法扩增并用特定技术测量的特定DNA集合，可导致与其它方法扩增和/或其它不同技术测量的其它DNA集合性质和数量不同的测量结果。在某些情况下，这些错误可能是由于测量方法。在某些情况下，该错误可能是由于DNA的状态。在某些情况下，该偏差可能是由于某些类型的DNA对特定基因测量方法不同响应的趋势。在某些情况下，测量在与所用细胞数相关联的方面不同。在某些情况下，测量可基于测量技术而不同，例如使用测序技术或阵列基因分型技术。在某些情况下，不同的染色体可扩增到不同程度。在某些情况下，特定的等位基因或多或少有可能扩增。在某些情况下，错误、偏差或不同的响应可能是由于因素的组合。在许多或所有这些情形中，这些测量差异的统计可预测性被称为“平台响应”，其可用来对这些因素校正，并且可得到精确度最大的数据，其中每种测量与适当的可信度有关。

平台响应可描述为基因测量平台输入/输出特性的数学表征，例如Taqman或Infinium。通道的输入是具有任意退火的荧光标记基因物质的扩增基因物质。根据具体情形，通道输出可以是等位基因调用(定性)或原始数值测量(定量)。例如，在平台原始数值输出还原到定性基因型调用的情形中，平台响应可包括错误转移矩阵，其描述了看见考虑到特定真实基因型输入的特定输出基因型调用的条件概率。在一个具体实施方式中，平台输出保留为原始数值测量，平台响应可以是描述考虑到特定真实基因型输入的数值输出概率的条件概率密度函数。

在本发明的一些具体实施方式中，可使用平台响应的知识对偏差进行统计校正。在本发明的一些具体实施方式中，可使用平台响应的知识增加基因数据的精确度。这可通过在数据上进行统计操作来实现，该数据以与测量过程中出现偏差趋势相反的方式表现。其可包含将适宜的可信度附在特定数据上，使得当与其它数据组合时，被发现为最可能的假说事实上最可能对应所考虑个体的真实基因状态。

其它注解

如前指出的，考虑到本发明的利益，有更多可实施此处公开的体系、方法和特征的具体实施方式。

在本发明的一些具体实施方式中，由于母方等位基因有以与其它等位基因不相称的方式扩增的趋势，可使用统计方法来去除数据中的偏差。在本发明的一些具体实施方式中，由于父方等位基因有以对其它等位基因不相称的方式扩增的趋势，可使用统计方法来去除数据中的偏差。在本发明的一些具体实施方式中，由于特定探针有以对其它等位基因不相称的方式扩增特定单核苷酸多态性(SNP)的趋势，可使用统计方法来去除数据中的偏差。

设想两维空间，其中x坐标是x通道强度，y坐标是y通道强度。在该空间中，可预期背景平均值应落在由背景BB|BB和AA|AA的均值定义的直线上。在某些情况下，可观察到平均背景值没有落在该直线上，而是以统计学方式出现偏差；这可称为“离线偏差”。在本发明的一些具体实施方式中，可使用统计学方法对数据的离线偏差进行校正。

在某些情况下，在背景均值图上的斜点可由易位引起。如果出现了易位，那么预期可看见仅染色体端点上的异常。因此，如果染色体断裂成片段，对每个片段的背景均值图作图，那么位于有易位的图上的那些片段预期可像真实的三体或单体响应，而剩余的片段像二体。在本发明的一些具体实施方式中，通过看不同染色体片段的背景均值，可使用统计学方法来确定特定染色体上是否有易位出现。

在某些情况下，将大量相关个体列入到计算中以确定目标最可能的基因状态是令人满意的。在某些情况下，由于计算能力或时间的限制，用希望的所有相关个体运行算法可能是不可行的。所需用来计算目标最可能等位基因值的计算能力随精子、卵裂球和相关个体的其它输入基因型的数目成倍增加。在一个具体实施方式中，这些问题可通过使用称为“子集设定”的方法解决，其中计算指令可分成较小的集合，各自运行，然后合并。在本发明的一个具体实施方式中，可将父母的基因数据与10个胚胎和10个精子的基因数据放一起。在该实施例中，可用例如3个胚胎和3个精子进行几个较小的子运算，然后集中结果。在一个具体实施方式中，用于测定的同胞胚胎的数目可以从1至3，从3至5，从5至10，从10至20，或高于20。在一个具体实施方式中，基因数据已知的精子的数目可以从1至3，从3至5，从5至10，从10至20，或高于20。在一个具体实施方式中，每个染色体可分成2至5、5至10、10至20或高于20的子集。

在本发明的一个具体实施方式中，可改进此处描述的任何方法以允许多个目标来自相同的目标个体。这可增加模型的精确度，因为多个基因测量可提供更多的数据，其中确定了目标基因型。在之前的方法中，一组目标基因数据作为报道的原始数据，而其它的作为复核原始目标基因数据的数据。本发明的该具体实施方式是对以前方法的改进，多个基因数据集合中的每一个由取自目标个体的基因物质测量并平行考虑，从而两个目标基因数据的集合都用来帮助确定哪部分亲代基因数据以高精确度测量，形成胚胎的基因组。在本发明的一个具体实施方式中，目标个体是胚胎，并且对多个活检的卵裂球进行了不同的基因型测量。在另一个具体实施方式中，还可使用来自不同胚胎、相同胚胎的多个卵裂球，来自已出生孩子的细胞，或其组合。

在本发明的一些具体实施方式中，此处描述的方法可用来以无创性方式确定产前发育中胎儿的基因状态。用于确定胎儿基因状态的基因物质来源可以是胎儿细胞，例如从母亲血液中分离的有核的胎儿红细胞。该方法可包括从孕妇获取血液样本。该方法可包括使用可视技术分离胎儿的红细胞，其基于颜料的特定结合与有核红细胞唯一相关，并且相同的颜料结合与母亲血液中其它任意存在的细胞不相关的思想。与有核红细胞相关的颜料结合可包括核附近血红蛋白的红色，其颜色通过染色会变得更明显，而核物质的颜色可被染成例如蓝色。通过从母亲血液中分离细胞并将它们涂抹在载玻片上，然后鉴定可同时看见红色(来自血红蛋白)和蓝色(来自核物质)的那些点，就能确定有核红细胞的位置。然后，使用显微镜操纵器可提取那些有核红细胞，使用基因分型和/或测序技术测量那些细胞中基因物质的基因型方面。在本发明的一个具体实施方式中，可使用利用信息的技术例如本发明描述的那些，来确定细胞是否来源于胎儿。在本发明的一个具体实施方式中，可使用利用信息的技术例如本发明描述的那些，来确定那些细胞中一个或一组染色体的倍性态。在本发明的一个具体实施方式中，可使用利用信息的技术例如本发明描述的那些，来确定细胞的基因状态。当应用于细胞的基因数据时，亲代支持^TM通过鉴定细胞是否含有一个来自母亲的染色体和一个来自父亲的染色体或两个来自母亲的染色体，能显示有核红细胞究竟是来源于胎儿还是母亲。

在一个具体实施方式中，可用仅在有胎儿血红蛋白而没有母亲血红蛋白时发荧光的染料对有核红细胞染色，这样就去除了究竟有核红细胞是来自母亲还是胎儿的模糊性。本发明的一些具体实施方式可涉及对核物质染色或其它的标记。本发明的一些具体实施方式涉及使用胎儿细胞专属性抗体对胎儿核物质标记。本发明的一些具体实施方式涉及使用各种可能的方法对部分或全部来源于胎儿的一个或多个细胞分离。本发明的一些具体实施方式涉及扩增那些细胞中的DNA，以及使用高通量的基因分型微阵列例如Illumina Infinium阵列对扩增的DNA基因分型。本发明的一些具体实施方式涉及使用测量的或已知的亲代DNA来推断更精确的胎儿基因数据。在一些具体实施方式中，可信度可与一个或多个等位基因或者胎儿倍性态的确定相关。本发明的一些具体实施方式涉及用仅在有胎儿血红蛋白而没有母亲血红蛋白时发荧光的染料对有核红细胞染色，这样就去除了究竟有核红细胞是来自母亲还是胎儿的模糊性。

有许多其它的方法从母亲血液中分离胎儿细胞，或从母亲血液中分离胎儿DNA，或在有母亲基因物质存在时补充胎儿基因物质的样本。这些方法中的部分列于此，但这不是穷举的列表。为了方便，在此列出了一些适宜的技术：使用荧光或其它标记的抗体，尺寸排阻色谱法，磁性或其它的标记亲和接头，表观遗传差异例如在专属等位基因上母亲和胎儿细胞之间的甲基化差别，密度梯度离心后接着移除CD45/14和从CD45/14阴性细胞中选择CD71-阳性，具有不同渗透压的单或双Percoll梯度，或者半乳糖专属的凝集素法。

本发明的一个具体实施方式如下：一位怀孕的妇女想知道她的胎儿是否患有唐氏综合征以及是否患有囊性纤维变性。医生对她进行取血，并用一种标记对血红蛋白染色使其显示明显的红色，同时用另一种标记对核物质染色使其显示明显的蓝色。了解到母亲的红细胞通常是无核的，而比例很高的胎儿细胞包含核，他就能通过鉴定那些既显红色又显蓝色的细胞来肉眼分离许多有核的红细胞。医生用纤维操纵器将这些细胞从载玻片上取走，并将它们送到实验室对10个个体细胞进行扩增和基因分型。通过看基因测量结果，亲代支持^TM能确定10个细胞中有6个是母亲的红细胞，而10个中有4个是胎儿的细胞。如果孕妇的孩子已经出生，还可使用亲代支持^TM确定胎儿细胞与出生孩子的细胞是不同的，通过在胎儿细胞上进行可靠地等位基因调用，显示他们与那些出生的孩子是不同的。由于对单个细胞的基因分型有困难，从胎儿细胞测量的基因数据质量很低，其包含了许多等位基因遗漏。临床医生能使用测量的胎儿DNA以及可靠的父母DNA测量结果，用亲代支持以高精确度推断胎儿的基因组。临床医生既能确定胎儿的倍性态，又能确定所关注的多个疾病相关基因存不存在。

在本发明的一些具体实施方式中，可改变多个参数而不改变本发明精髓。例如，基因数据可使用任意的高通量基因分型平台获得，或者其可由任意的基因分型方法获得，或者其可用其它已知的模拟或推断。可使用各种计算机语言对本发明描述的算法解码，并且可使用各种计算机平台来执行计算。例如，可使用个人电脑、超级计算机、大规模平行计算平台，或者甚至是非计算机模拟的计算机平台，例如数量足够多的使用算盘的人来执行计算。

本发明中的一些数学是对有限量的非整倍体状态进行的假说。在某些情况下，例如，预期只有0、1或2个染色体来源于每一方父母。在本发明的一些具体实施方式中，可将数学推导扩展来考虑其它形式的非整倍体，例如其中三个染色体来源于一方父母的四体、五体等，而不改变本发明的基本概念。

在本发明的一些具体实施方式中，相关个体是指基因相关的、与目标个体共有单体域的任何个体。一些相关个体的实例包括：生物学父亲、生物学母亲、儿子、女儿、兄弟、姐妹、同父异母或同母异父的兄弟、同父异母或同母异父的姐妹、祖父、祖母、叔舅、姑姨、外甥或侄子、外甥女或侄女、孙子或外孙、孙女或外孙女、堂兄妹、克隆体、目标个体他自己/她自己/它自己，以及其他与目标具有已知基因关系的个体。术语“相关个体”还涵盖任何胚胎、胎儿、精子、卵子、卵裂球、胚泡或由相关个体得到的极体。

在本发明的一些具体实施方式中，目标个体可指成人、青少年、胎儿、胚胎、胚泡、卵裂球、来自个体或细胞株或任意基因物质集合的细胞或细胞集合。目标个体可以是活着的、死的、冷冻的或静止的。

在本发明的一些具体实施方式中，其中目标个体是指用来诊断胚胎的卵裂球，嵌合体可能会引起这样的情况，其中被分析的卵裂球的基因组与胚胎中其它所有细胞的基因组不完全相同。

在本发明的一些具体实施方式中，有可能在癌基因分型和/或核型分析的情形中使用此处公开的方法，其中一个或多个癌细胞被看做目标个体，而受癌所累的个体的非癌组织被看作相关个体。患有癌症的个体的非癌组织可提供相关个体的基因型调用集合，其使用此处公开的方法可以确定癌细胞或细胞的染色体拷贝数。

在本发明的一些具体实施方式中，如所有活着的或曾经活着的生物包含基因数据一样，该方法同样适用于任何活的或死的遗传或曾遗传其它个体的染色体的人类、动物或植物。

重要的是还要注意，可通过测量卵裂球的扩增DNA生成的胚胎基因数据能用于多种目的。例如，其可用于检测非整倍体、单亲源二体，区别个体的性别，以及基于表型相关的等位基因预测多个表型。目前，在体外受精(IVF)实验室中，由于所用的技术，情况往往是一个卵裂球只能提供足够的基因物质来测试一种紊乱，例如非整倍体或特殊的单基因疾病。由于这里公开的方法具有共同的第一步——测定来自卵裂球的单核苷酸多态性(SNP)的大集合，而不考虑预测的类型，因此内科医生、父母或其它代理人不会被强迫去选择有限量的紊乱供筛查。相反，允许选择与医学知识状况一样多的基因和/或表型进行筛查。使用所公开的方法，确定优先筛查的特殊状态对卵裂球基因分型的一个优点是，如果确定某个基因座是特别相关的，那么可选择更可能与所关注基因座共分离的更适宜单核苷酸多态性(SNP)集合，从而增加所关注等位基因调用的可信度。

在一些具体实施方式中，可使用本发明的体系、方法和技术来减少由体外受精得到的被移植胚胎遭受自发流产的机会。

在一些具体实施方式中，可使用本发明的体系、方法和技术来与其它胚胎筛查或产前检验程序联合。在增加概率的方法中采用本发明公开的体系、方法和技术，使得通过体外受精得到的胚胎和胎儿能成功移植并坚持到整个妊娠期。此外，在减少概率的方法中采用本发明公开的体系、方法和技术，使得通过体外受精得到的胚胎和胎儿能尤其是不冒先天紊乱的风险被移植。

在一些具体实施方式中，在方法中使用本发明的体系、方法和技术来减少胚胎的植入概率，尤其是对通过体外受精怀孕并转移到母亲子宫内的早期胚胎中迁移的至少一个细胞进行测试，确定没有遗传先天紊乱的胚胎，减少先天紊乱的风险。

在一些具体实施方式中，在方法中使用本发明的体系、方法和技术来减少胚胎的植入概率，尤其是对通过体外受精怀孕并转移到母亲子宫内的早期胚胎中迁移的至少一个细胞进行测试，确定没有染色体异常的胚胎，减少染色体异常的风险。

在一些具体实施方式中，在方法中使用本发明的体系、方法和技术，以增加转移通过体外受精获得的胚胎的植入概率，并减少了携带先天紊乱的风险。

在一些具体实施方式中，先天的紊乱是畸形、神经管缺陷、染色体异常、唐氏综合征(或三体21)、三体18、脊柱裂、颚裂、泰-萨克斯病、镰状细胞血症、地中海贫血、囊性纤维变性、亨廷顿疾病、猫鸣综合症和/或易脆X染色体症候群。染色体异常可包括但不限于：唐氏综合征(多余的染色体21)、特纳综合征(45X0)和克莱恩费尔特综合征(具有2X染色体的男性)。

在一些具体实施方式中，畸形可能是肢体的畸形。肢体的畸形可包括但不限于：无肢、先天性缺指(趾)畸形、海豹肢症、多肢畸形、多指趾畸形、并指(趾)、多指(趾)(畸形)、少指、指过短、软骨发育不全、先天器官发育不全或组织发育不全、羊膜索综合征和锁颅发育不全。

在一些具体实施方式中，剂型可能是心脏的先天剂型。心脏的先天畸形可包括但不限于：久存性动脉导管、心房间隔缺损、室中隔缺损和紫绀四联症。

在一些具体实施方式中，畸形可能是神经系统的先天畸形。神经系统的先天畸形包括但不限于：神经管缺陷(例如脊柱裂、脑膜突出、脑脊膜脊髓膨出、脑膨出和无脑畸形)、Arnold-Chiari氏畸形、Dandy-Walker畸形、脑水肿、脑过小、巨脑畸形、无脑回、多小脑回、前脑无裂畸形和胼胝体发育不良。

在一些具体实施方式中，畸形可能是胃肠系统的先天畸形。胃肠系统的先天畸形包括但不限于：狭窄、闭锁和肛门闭锁。

在一些具体实施方式中，该方法使用了本发明的体系、方法和技术，以增加通过体外受精获得的胚胎的植入概率，减少了携带基因疾病倾向的风险。

在一些具体实施方式中，基因疾病可以是单基因的也可以是多基因的。基因疾病包括但不限于：Bloom综合征、海绵状脑白质营养不良症、囊性纤维化、家族性自律神经失调、赖利-戴综合征、范科尼贫血(C组)、戈谢病、糖原贮积症1a、枫糖尿症、IV型粘脂糖症、尼曼-皮克病、泰萨二氏病、乙型地中海贫血、镰状细胞性贫血、甲型地中海型贫血、乙型地中海型贫血、凝血因子XI缺陷症、弗里德赖希氏共济失调、MCAD、青少年型帕金森病、间隙连接蛋白26、SMA、雷特氏综合症、苯丙酮酸尿症、貝克型肌肉萎縮症、杜兴肌营养不良、易脆X染色体症候群、A型血友病、阿尔茨海默病性痴呆发病早期、乳腺/卵巢癌、结肠癌、糖尿病/MODY、亨廷顿疾病、肌强直性进行型肌肉萎缩症、帕金森病发病早期、波伊茨-耶格综合征、多囊肾、变形性肌张力不全

本发明多方面的组合

如前指出的，考虑到本发明的利益，可实现此处公开的一个或多个体系、方法和特征的方面和具体实施方式有更多。下文为用于举例说明各情形的实施例简表，其中本发明的各方面可以多种方式组合。重要的是要注意该列表并不是全部的，本发明各方面、方法、特征和具体实施方式的许多其它组合也是可能的。

本发明一方面的关键是这样的事实：利用了目标定相的亲代数据的倍性确定技术比没有利用这种数据的技术要更精确。但是，在体外受精(IVF)的情形中，对从大量亲代组织获得的遗传型测量数据进行定相是非平凡的。在本发明中描述了由未定相的亲代基因数据，连同一个或多个胚胎、零或多个同胞以及零或多个精子的未定相基因数据一起，确定定相的亲代数据的方法。对亲代数据定相的方法假设胚胎基因数据是特定染色体上的整倍体。当然，不可能确定特定染色体上的倍性态，为了确保整倍性，在所述基因数据被定相(产生引导问题)前，使用要求定相的亲代数据作为输入的方法。

在本发明的一些具体实施方式中公开了一种方法，其中使用确定倍性态的技术对由一个或多个胚胎得到的一组细胞内特定染色体的倍性态进行了初步确定。然后，仅使用已测定的胚胎染色体数据，以高可信度使用初步方法，可确定定相的亲代数据为整倍体。一旦对亲代数据定相后，可使用要求定相的亲代数据的倍性态确定方法来给出高精确度的倍性确定。本发明的输出结果可自己使用，或者可与其它倍性确定方法组合。

本发明中描述的一些用于拷贝数调用的专业技术，例如“同源物存在技术”，依赖于定相的亲代染色体组数据。一些对数据定相的方法，例如本发明描述的那些，在假设了输入数据来自整倍体基因物质的基础上操作。当目标是胎儿或胚胎时，一个或多个染色体特别有可能是整倍体。在本发明的一个具体实施方式中，可使用一种或一组不依赖于定相亲代数据的倍性确定技术来确定哪些染色体是整倍体，使得来自那些整倍体染色体的基因数据可用作输出定相亲代数据的等位基因调用算法的一部分，然后将其用于需要定相亲代数据的拷贝数调用技术。

在本发明的一个具体实施方式中，一种确定目标个体至少一个染色体倍性态的方法包括：从目标个体、和从目标个体的父母双方、和从目标个体的一个或多个同胞获得基因数据，其中所述的基因数据包括与至少一个染色体有关的数据；通过使用一种或多种专业技术，确定目标个体和目标个体的一个或多个同胞中至少一个染色体的倍性态，其中所述的专业技术均不需要定相的基因数据作为输入；使用信息学方法和从确定为染色体上整倍体的目标个体、目标个体的父母、目标个体一个或多个同胞获得的基因数据，来确定目标个体、目标个体的父母，以及目标个体一个或多个同胞的定相基因数据；以及使用一种或多种专业技术，以及测定的目标个体、目标个体的父母和目标个体的一个或多个同胞的定相基因数据，对目标个体至少一个染色体的倍性态进行再确定，所述专业技术中至少一种需要定相的基因数据作为输入。在一个具体实施方式中，倍性态的确定可在体外受精的情形下进行，其中目标个体是胚胎。所确定的目标个体染色体的倍性态可用来对目标个体做临床决定。

首先，从目标个体、从目标个体的父母、以及可能从一个或多个为目标个体同胞的个体获得基因数据。来自个体的基因数据可通过多种方式获得，这些在本发明的其它地方有描述。目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量：分子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基因分型平台，及其组合。目标个体的基因数据可通过分析选自包括但不限于下列物质的组测量：一个或多个来自目标个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一个或多个来自目标个体的卵裂球、在目标个体中发现的额外的细胞基因物质、在母方血液中发现的来自目标个体额外的细胞基因物质、在母方血液中发现的来自目标个体的细胞、已知来源于目标个体的基因物质，及其组合。相关个体的基因数据可通过分析选自包括但不限于下述物质的组测量：相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体细胞、一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的胚胎、一个或多个取自这类胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来源于相关个体的基因物质，及其组合。

第二，可对目标个体和同胞的一个或多个染色体创立至少一个倍性态假说的集合。每个倍性态假说可涉及个体染色体一个可能的倍性态。

第三，使用一个或多个例如本发明所讨论的专业技术，可测定集合中每个倍性态假说的统计概率。在该步骤中，所述专业技术是不需要定相的基因数据作为输入的专业技术。一些不需要定相的基因数据作为输入的专业技术的实例包括但不限于：排列技术、全染色体平均技术和亲代存在技术。各种合适的专业技术背后的数学在本发明的其它地方有描述。

第四，如果在第三步中使用了一种以上的专业方法，那么可以组合所确定概率的集合并进行归一化。然后，将假说集合中每种假说的概率结果集合输出为假说组合概率。

第五，目标个体和每个同胞个体最可能的倍性态被确定为与概率最高的假说相关联的倍性态。

第六，利用信息的方法，例如本文公开的等位基因调用方法或亲代支持^TM法的其它方面，连同无序的亲代基因数据以及在第五步中发现其染色体为整倍体的同胞基因数据一起，可用来确定目标个体和同胞个体最可能的等位基因状态。在一些具体实施方式中，目标个体与同胞能以同样的算法处理。在一些具体实施方式中，可以使目标个体充当同胞，而同胞充当目标，来确定同胞的等位基因状态。在一些具体实施方式中，利用信息的方法还会输出亲代的等位基因状态，包括单倍体的基因数据。在本发明一些具体实施方式中，所用的利用信息的方法还可确定亲代和其他同胞最可能的定相的基因状态。

第七，对目标个体和同胞的一个或多个染色体创立有至少一个倍性态假说的新集合。如之前一样，每个倍性态假说是指个体染色体一个可能的倍性态。

第八，使用一种或多种专业技术，例如在本发明中讨论的那些，可确定集合中每个倍性态假说的统计概率。在该步骤中，至少有一种专业技术是不需要定相的基因数据作为输入的专业技术，例如“同源染色体存在技术”。

第九，如第四步所描述的那样组合所确定概率的集合。

最后，目标个体的染色体最可能的倍性态确定为与概率最高的假说相关联的倍性态。在一些具体实施方式中，只有在概率最高的假说超过了某可信度和/或概率的临界值时，才调用倍性态。

在该方法的一个具体实施方式中，第三步里可使用下列三种专业技术确定初始倍性态：排列技术、全染色体平均技术和亲代存在技术。在本发明的一个具体实施方式中，第八步里可使用下列的专业技术集合确定最终倍性：排列技术、全染色体平均技术、亲代存在技术和同系物存在技术。在本发明的一些具体实施方式中，可在第三步里使用不同的专业技术集合。在本发明的一些具体实施方式中，可在第八步里使用不同的专业技术集合。在本发明的一个具体实施方式中，有可能组合本发明的几个方面，使得可以使用一种算法进行等位基因调用和非整倍体调用。

在本发明的一个具体实施方式中，为了选择体外受精(IVF)情形下的胚胎，所公开的方法被用来确定一个或多个胚胎的基因状态。这可包括从未来母亲那里获取卵子，并用来自未来父亲的精子对这些卵子受精，得到一个或多个胚胎。其可涉及进行胚胎活检，将卵裂球从每个胚胎分离。其可涉及对来自每个卵裂球的基因数据扩增和基因分型。其可包括对来自父母每一方，以及一个或多个来自父亲的个体精子的二倍体基因物质样本扩增和基因分型。其可涉及将母亲和父亲双方的二倍体和单体测量数据，连同关注的胚胎基因测量数据一起并入到资料组中。其可涉及使用本专利公开的一种或多种统计方法，在考虑了测量或测定的基因数据后，确定胚胎中基因物质最可能的状态。其可涉及确定所关注胚胎的倍性态。其可涉及确定胚胎基因组中已知与疾病相关的多个等位基因的存在。其可涉及对胚胎进行表型预测。其可涉及生成送到夫妇内科医生那里的报告，使他们可对将哪个胚胎转移到未来母亲的体内做出有根据的决定。

另一个实例是这样的情形：一位正经历体外受精(IVF)的44岁大龄妇女具有怀孕的困难。这对夫妻安排获取妻子的卵子，并用来自丈夫的精子受精，产生了9个存活的胚胎。从每个胚胎获取卵裂球，并使用Illumina Infinium珠阵列测量来自卵裂球的基因数据。同时，仍使用Illumina Infinium珠阵列测量取自父母双方组织的二倍体数据。使用相同的方法测量来自父方精子的单倍体数据。这里描述的方法被应用于9个卵裂球的基因数据、母方和父方二倍体的基因数据和来自父方的三个精子。这里描述的方法被用来对用作输入的基因数据进行整理和定相，并且以高可信度对所有胚胎的所有染色体进行倍性调用。发现9个胚胎中的6个是非整倍体，并且发现3个胚胎是整倍体。一份公开这些诊断的报告就此生成，并被送到医生那里。医生同未来的父母一起，决定将3个整倍体胚胎中的2个转移，其中的一个被移植到母亲的子宫里。

另一个实例涉及由精子捐赠者人工受精并且怀孕的孕妇。她想使胎儿患上她所携带疾病的风险最小。她在抽血者那儿取血，并使用本发明描述的技术分离三个有核的胎儿红血球，还采集了母亲和父亲的组织样本。对来自胎儿和来自母亲和父亲的基因物质适当扩增，并使用Illumina Infinium珠阵列对其基因分型，用此处描述的方法以高精确性对亲代和胎儿的基因型进行整理和定相，并对胎儿进行倍性调用。胎儿被发现为整倍体，并且由重建胎儿的基因型预测了表型敏感性，生成的报告被送到母亲的内科医生那里，使他们能决定什么行动是最好的。

另一个实例可以是这样的情形：赛马饲养者想增加冠军赛马繁殖马驹的可能性，使得马驹自己成为冠军。他安排希望的母马通过体外受精(IVF)注入，并使用种马和母马的基因数据来整理由存活胚胎测量的基因数据。经整理的胚胎基因数据可使饲养者选择最可能产生满意赛马的植入用胚胎。

确定目标个体中至少一个染色体的倍性态的方法，包括：从目标个体以及从一个或多个相关个体获得基因数据；对目标个体的每个染色体创立至少一个倍性态假说的集合；在考虑了所获得的基因数据后，使用一种或多种专业技术来确定集合中每个倍性态假说的统计概率；对于每个倍性态假说，组合由一种或多种专业技术确定的统计概率；以及基于每个倍性态假说的组合统计概率，确定目标个体中每个染色体的倍性态。

确定一个或多个目标个体、目标个体的父母一方或双方在等位基因集合中等位基因数据的方法，包括：从一个或多个目标个体、父母一方或双方获得基因数据；对目标个体的每个等位基因和对父母的每个等位基因创立至少一个等位基因假说的集合；测定考虑了所得基因数据的集合中每个等位基因假说的统计概率；以及基于每个等位基因假说的统计概率，确定一个或多个目标个体、父母一方或双方每个等位基因的等位状态。

确定目标个体中至少一个染色体的倍性态的方法，包括：从目标个体、从目标个体的父母双方以及从目标个体的一个或多个同胞获得基因数据，其中基因数据包括关于至少一个染色体的数据；通过使用一种或多种专业技术，确定目标个体以及目标个体一个或多个同胞至少一个染色体的倍性态，其中所述的专业技术均不需要定相的基因数据作为输入；使用信息化方法，确定目标个体、目标个体的父母、目标个体一个或多个同胞的定相的基因数据，所述由目标个体、目标个体的父母和目标个体一个或多个同胞获得的基因数据确定为那个染色体上的整倍体；以及使用一种或多种专业技术，再次确定目标个体至少一个染色体的倍性态，所述专业技术至少有一种需要输入定相的基因数据，和由目标个体、目标个体的父母、目标个体的一个或多个同胞确定的定相的基因数据。

这里引用的所有专利、专利申请和出版文献的全部内容特此被并入作为参考。应意识到，上述公开的以及其它的特征和函数或其替代形式可如期地组合到许多其它不同的体系或应用中。随后，所属技术领域的技术人员可对其做各种目前无法预料的或未曾预料到的替代、调整、变动或改善，这些还欲被下述的权利要求所涵盖。

Claims

1.一种计算机，所述计算机被配置用于实现在体外确定目标个体的基因组中至少一个染色体或者染色体片段的倍性态的方法，其中，所述方法包含：

接受来自目标个体以及一个或多个相关个体的关于染色体或者染色体片段的基因数据的输入；

对目标个体的染色体或者染色体片段创立至少一个倍性态假说的集合；

使用一种或多种专业技术对所用的每种专业技术确定集合中每个倍性态假说的统计概率，考虑所获得的基因数据，其中至少一种专业技术使用亲代背景或使用对染色体或者染色体片段基因测量结果的整体强度；

对于每个倍性态假说，结合由一种或多种专业技术确定的统计概率；以及

基于每个倍性态假说的组合统计概率，确定目标个体的基因组中染色体或者染色体片段的倍性态。

2.根据权利要求1中所述的计算机，其中相关个体选自所述目标个体的父母一方或双方，目标个体的一位或多位祖父母，目标个体的一位或多位同胞，及其组合。

3.根据权利要求1中所述的计算机，其中所获得的基因数据包含使用选自由基因分型阵列、DNA序列数据，及其组合所组成的组中的技术进行测量的单核苷酸多态性(SNP)数据。

4.根据权利要求1中所述的计算机，其中目标个体是胚胎，并且倍性态测定在为选择胚胎的体外受精过程中进行，其中不选择非整倍体胚胎。

5.根据权利要求1中所述的计算机，其中目标个体是胎儿，并且倍性态测定是为了无创性产前诊断而进行。

6.根据权利要求1中所述的计算机，其中对于至少一种专业技术，每个倍性态假说统计概率的测定包括对多个亲代背景比较观察到的等位基因测量结果数据分布之间的关系。

7.根据权利要求1中所述的计算机，其中所得的基因数据没有被定相，并且其中的相关个体包含目标个体的双亲，以及其中的方法进一步包含：

使用利用信息的方法确定目标个体双亲的定相基因数据；

使用利用信息的方法确定目标个体定相的基因数据。

8.根据权利要求1中所述的计算机，其中所得的基因数据包含来自目标个体父母一方或双方的定相基因数据。

9.根据权利要求1中所述的计算机，其中至少一种专业技术对性染色体是特定的。

10.根据权利要求1中所述的计算机，其中目标个体中染色体或者染色体片段倍性态的确定包含筛查染色体状态，所述染色体状态选自整倍体、缺对染色体、单体、单亲源二体、三体、匹配的复制错误、不匹配的复制错误、四体、其它非整倍体、不平衡易位、删除、插入、嵌合体及其组合。