CN101790731B - 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法 - Google Patents

用于清除遗传数据干扰并确定染色体拷贝数的系统和方法 Download PDF

Info

Publication number
CN101790731B
CN101790731B CN2008800161237A CN200880016123A CN101790731B CN 101790731 B CN101790731 B CN 101790731B CN 2008800161237 A CN2008800161237 A CN 2008800161237A CN 200880016123 A CN200880016123 A CN 200880016123A CN 101790731 B CN101790731 B CN 101790731B
Authority
CN
China
Prior art keywords
target individual
genetic data
genetic
individual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008800161237A
Other languages
English (en)
Other versions
CN101790731A (zh
Inventor
M·罗比诺威特茨
J·斯威特凯德-辛格
M·班杰维齐
D·S·约翰逊
D·科亚西
D·皮特罗
徐晶
Z·P·德姆科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Natera Inc
Original Assignee
Gene Security Network Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gene Security Network Inc filed Critical Gene Security Network Inc
Publication of CN101790731A publication Critical patent/CN101790731A/zh
Application granted granted Critical
Publication of CN101790731B publication Critical patent/CN101790731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

这里公开了增加测定的遗传数据精确度的系统和方法,在一个或者一小组细胞中,或者从零碎的DNA中,用于制造等位基因查出和用于确定非整倍性状态,其中有限数量的遗传数据是有效的。来自目标个体的遗传物质被获得、扩增,并且使用已知的方法测定遗传数据。不适当的或者不正确测定的碱基对,错配的等位基因和错配区域可以使用预期的类似物在目标基因组和基因相关个体基因组之间重建。按照本发明的一个实施方案,使用来自双亲的一个或两个中的较大的二倍体细胞的更为完整的遗传数据,在有或者没有双亲的一个或两个的单倍体遗传数据的情况下,在多个位点构建胚细胞不完全的遗传数据。在本发明另一个实施方案中,从单个或者少量细胞中测定的遗传数据中,在有或者没有双亲的一个或者两个的遗传信息的情况下,可以确定染色体的拷贝数。在本法的另一个实施方案中,进行这些确定从而实现在上下文所述的体外受精中筛选胚胎。在本发明另一个实施方案中,为了实现获得表型预测的目的可以重建遗传数据。

Description

用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
背景技术
与相关申请的交叉参考
本申请要求一下美国临时专利申请的优先权:2007年3月16号递交的序列号为60/918,292号的申请;2007年4月25号递交的序列号为60/926,198号的申请;2007年5月31号递交的序列号为60/932,456号的申请;2007年6月11日递交的序列号为60/934,441号的申请;2007年11月12号递交的序列号为61/003,101号的申请;和2007年12月21日递交的序列号为61/008,637号的申请;还申请在此通过引证全部并入本文。
技术领域
本发明主要涉及为了医学预测目的获得、处理并使用遗传数据的领域,并且,具体的说,涉及一种系统,在该系统中,通过利用基因有亲属关系的个体已知的基因数据获得更为准确的目标个体非完全测定的遗传数据,从而更为有效的识别会导致各种表型后果的遗传变异,特定的非整倍体性和疾病关联基因。
现有技术的介绍
在2006年,全球粗略估计进行了800,000例体外受精(IVF)。在美国大概进行了150,000例,大约10,000涉及到胚胎植入前的遗传诊断(PGD)。现有的胚胎植入前的遗传诊断(PGD)技术是不稳定的,价格昂贵且不安全性高:筛选疾病相关位点或者非整倍体性的差错率在要求的10%之上,每个筛选试验大概要花费5,000美元,并且夫妻不得不在试验非整倍体性或者筛选单细胞上疾病相关轨迹之间作出选择,其中非整倍体性会出现在大约50%的体外受精胚胎中。对于既能够可靠确定单细胞的遗传数据又具有可承受的价格的技术存在很大的需要,该技术可以用于筛选非整倍体平行性、例如囊肿性纤维化的单基因疾病、和对复合疾病表型的敏感性,在复合疾病表型中,多倍遗传标记物在整个基因组有关的研究中是已知的。
目前,大多数胚胎植入前的遗传诊断(PGD)集中在高级染色体异常方面,例如非整倍体性和平衡易位,获得的主要结果是有效的着床并实际上获得一个婴儿。胚胎植入前的遗传诊断(PGD)的另一个主要中心是用于遗传疾病筛选,获得的主要结果是得到一位健康的婴儿,这个婴儿不会受到双亲中的一个或者两个所具有的可基因遗传疾病的困扰。在这两种情况下,通过排除输入并着床在母体中的基因最适度下的胚胎而提高获得理想结果的可能性。在现行的体外受精期间进行的胚胎植入前的遗传诊断(PGD)过程包括从早期胚胎的大约八个细胞中提取单一细胞进行分析。从人胚胎中分离单一细胞,尽管具有较高的技术性,但是是现在体外受精临床上的常规手段。已经成功的分离了集体和裂殖细胞。更常见的技术是从3天大的胚胎(6或者8个细胞分裂期)中去掉单一裂殖细胞。将胚胎转移到一种特殊的细胞培养基(缺少钙和镁的标准培养基)中,并使用酸性溶液、激光或者机械技术在透明带上产生一个洞。然后,操作人员使用活体检查吸量管除去具有可视核的裂殖细胞。利用各种技术测定单倍(或者有时候,多倍)裂殖细胞的DNA特点。因此,一个细胞中只有单一拷贝的DNA是有效的,这种DNA的直接测定是易于出错的,或者是有干扰的。对能够正确或者更为准确的测定这种有干扰的遗传的技术存在很大需要。
正常人在每个二倍体细胞中具有两组23个染色体,从父母双方各得来一个拷贝。非整倍体性是指一种具有额外的或者错配的染色体和单亲二体性的细胞状态,这种细胞状态具有两个给定的染色体,这两个染色体都来源于父母的一方,这种细胞状态被认为对大多数着床失败和流产,已经一些遗传性疾病负责。尽管在个体中只有某些细胞是非整倍体,该个体被认为显示镶嵌现象。检测染色体的异常除了能够增加成功妊娠的机会之外,还可以识别具有状况的个体或者胚胎,所述状况例如唐氏综合症、格来弗德氏综合症、和特纳氏综合症及其他病症。随着母亲年龄的增加,检测染色体反常越来越重要;据估计,母亲年龄在35到40之间的胚胎有40%到50%是异常的,并且,年龄超过40岁时,超过一半以上的胚胎有可能是异常的。导致非整倍体性的主要原因是在减数分裂期间的染色体不分离。母亲的染色体不分离占所有染色体不分离情况的88%,其中,在减数分裂I期,有65%的染色体不分离,在减数分裂II期,有23%的染色体不分离。常见的人非整倍体性种类包括减数分裂I期染色体不分离造成的三染色体性、单体性和单亲二体性。在减数分裂II期染色体不分离产生的具体三染色体性类型中,或者M2三染色体性中,额外的染色体与两个正常染色体中的一个一致。M2三染色体性尤其难以检测。对能够有效地并且高精度地检查绝大多数染色体或者所有染色体中更多的或者所有的非整倍体性的方法存在需要。
染色体组型是用来预测非整倍体性和镶嵌现象的传统方法,这种方法被其他高处理能力、成本更加低廉的方法,例如,流细胞计数法(FC)和荧光原位杂交(FISH)所取代。目前,绝大多数产前检查使用可以确定大型染色体畸变的FISH和PCR/电泳,以及其他可以确定少数SNP或者其他的基因等位查出的方法。FISH的一个优点在于它比染色体组型价格更为低廉,但是该技术更为复杂并且也比较昂贵,因此通常只选择一小部分染色体进行试验(通常选择染色体13、18、21、X、Y;有时也选择染色体8、9、15、16、17、22);另外,FISH的专一性水平较低。目前,使用具有出错率为大概10-15%的FISH进行胚胎植入前的遗传诊断(PGD),大概百分之七十五的胚胎植入前的遗传诊断(PGD)测定处高水平的染色体反常性,例如,非整倍体性。对具有较高处理能力、较低花费和更好准确性的非整倍体性筛选法存在很大的需要。
根据在线人类孟德尔遗传数据库(OMIM),已知的与遗传基因等位有关的疾病的数量目前是389种,该数量还在稳定的增长。因此,分析胚胎DNA上与具体表型相关的多倍体位置或者位点变得日益重要。通过产前检查进行胚胎植入前遗传诊断的一个明确的优点在于这避免了一些一旦检测到不受欢迎的表型可能会采取的行为而导致的伦理问题的发生。对于在胚胎植入前阶段针对更广泛的胚胎基因型的方法存在需要。
在单一细胞水平下,很多先进的技术能够在一个或者一些位点诊断遗传畸变。这包括相间染色体转化、相反性基因组杂交、荧光PCR、微小序列和整个基因组扩增。通过这些技术产生的数据的可靠性依赖于DNA制备的质量。因此,需要更好的制备单一细胞DNA的方法来扩增和进行胚胎植入前的遗传诊断(PGD),这种方法正在研究中。当在单一细胞、少量细胞或者DNA片段上使用时,所有的基因型技术都面临完整性问题,最显著的是等位基因漏失(ADO)。由于杂交反应的效率很低,这一问题在体外受精过程中被激化,并且该技术必须快速操作从而保证胚胎的基因型处于胚胎存活最大时间极限之内。对于在测定来自一个细胞或者少量细胞的遗传数据过程中,尤其在存在时间限制的情况下,减少高等位基因漏失(ADO)比率的问题的方法存在需要。
这里列出的是一组与本发明所属领域相关的现有技术。这些现有技术中没有任何一个包括或者以任何方式涉及本发明的新元素。在美国专利第6,489,135号中,Parrott等人提供了用于确定体外受精的胚胎的各种生物学特性的方法,包括全部胚胎的健康、着床率和增加的成功发育完全的可能性,通过分析体外受精培养物的培养基样品的生物活性脂类水平来确定这些特性。在美国专利申请第20040033596号中,Threadgill等人描述了一种制备同型结合细胞文库的方法,可以有效用于分离的亲本细胞中涉及点特异性有丝分裂染色体重组的体外表型和基因定位。在美国专利申请第5,635,366号中,Cooke等人提供了一种通过确定来自母亲的生物样品中11β-羟甾醇脱氢酶(11β-HSD)水平来预测体外受精结果的方法。在美国专利第7,058,517号中,Denton等人描述了一种方法,其中,将个体单倍体与一般群体的已知单倍体数据库相比较,从而预测对于一种治疗方法的临床反应。在美国专利第7,035,739号中,Schadt等人描述了一种方法,其中,该方法构建了一种遗传标记地图,并且分析了个体基因和特征,从而得到了基因-特征轨迹数据,然后集中成一种识别基因相互作用途径的方法,该方法通过多变量分析被确认是有效地。在美国专利申请US2004/0137470 A1中,Dhallan等人描述了使用具体选择的引物来改善扩增速率并检测多种相关疾病有关位点的方法,已经更有效的测定缺失、存在数量和/或每种基因的量的方法。在国际专利申请WO 03/031646中,Findlay等人描述了一种是用遗传标记物改善的选择方法使有限量遗传物质的扩增产生更为均一的扩增材料的方法,所述扩增材料可以使具有较高准确度的基因型。
发明内容
这里公开的系统能够使用次要遗传数据作为信息源清除不完全遗传数据或者有干扰的遗传数据,并且同时使用所述遗传数据确定染色体拷贝数。尽管公开的内容集中在人类主体的遗传数据上,并且更特异性的集中在仍未着床的胚胎或者发育中的胎儿,以及相关的个体上,但是本领域技术人员应当注意到,这里公开的方法在很大范围内适用于很多有机体的遗传数据。这里描述的用于清理遗传数据的技术主要与体外受精期间胚胎植入前诊断、结合羊膜穿刺术的产前检查、外胎膜绒毛活体检查、胎儿组织取样、和非侵入性产前检查相关,其中从母系血液中分离出少量胎儿遗传物质。通过使用这种方法可以促进针对可遗传性疾病的诊断、染色体拷贝数的预测、缺陷或者反常情况增加的可能性的诊断,以及对个体各种疾病相关表型和非疾病相关表型敏感性的诊断,从而提高临床和生活决定。本发明解决了上面提高的所有现有技术的缺点。
在本发明的一个方面,本发明利用了母亲和父亲遗传数据的知识、减数分裂原理知识以及未完成的胚胎DNA测定,从而在硅中以高度的信心重建关键位点的胚胎DNA,其中所述母亲和父亲遗传数据例如,二倍体组织样品、来自父亲的精液、来自母亲的单倍体样品或其他来源于母亲和父亲接合体的胚胎。在本发明的一个方面,来源于其他有关个体的遗传数据,例如,来源于其他胚胎、兄弟与姊妹、祖父母或者其他亲属的遗传数据也可以被用于增加重建胚胎DNA的精确度。重要的是,应该注意到,双亲及其他次要遗传数据不但允许未充分测定的SNP的重建,还允许SNP或者完全没有被测定的整个DNA区域的插入、删除。
在本发明的一个方面,通过利用或者不利用有关个体的遗传数据,已经重建了胎儿或者胚胎的基因数据,可以使用所述胎儿或者胚胎的基因数据检测所述细胞是否是非整倍体,即,细胞中是否存在少于或者多于两个特定染色体。重建的数据还可用于检测单亲二体性,单亲二体性是指两个给定的染色体被呈递,且这两个染色体都来自于父亲或者母亲的情况。这可以通过建造一组DNA潜在状态的假设、试验观察在测定的数据中那种假设最有可能成为事实来完成。通过利用高处理量基因数据进行非整倍体性筛选的记录既能够使来自每个胚胎的单一裂殖细胞被用于测定多重疾病相关位点,又能够使来自每个胚胎的单一裂殖细胞被用于筛选非整倍体性。在本发明的另一个方面,存在在一些位点上、经过放大或者未被放大的遗传物质量的直接测定可用于检测单体性、单亲二体性、三染色体性及其他非整倍体性状态。在这一方法背后所隐藏的观点是测定在多个位点遗传物质的量可以给出一种统计上有显著意义的结果。在本发明的另一个方面,通过观察胚胎上母本与父本错配同型结合位点的比例,对SNP特定子集,即父母同型结合但是具有不同的等位基因值的位点进行直接或者间接测定,这种直接或者间接的测定可用于检测染色体异常。在这一方法背后所隐藏的观点是,根据定义,父本或母本同型结合但具有不同等位基因的位点会在胚胎上产生一种杂合位点。在这些位点上等位基因的离去是随机的,并且同型结合错配位点比率的变化只与不正确的染色体数目有关。
本领域普通技术人员可以认识到,根据这里公开的内容,本发明公开内容的各种方面和实施方案可以结合或者分别实现。
本发明的详细说明和优选的实施方案
系统的概念摘要
这里所公开的系统的目标是为遗传诊断提供高度精确的基因数据。在一个个体的遗传数据存在大量干扰或者错误的情况下,这里公开的系统利用目标个体的遗传数据与有亲属关系的个体遗传数据之间可预料到的类似性,来清除目标基因组的干扰。这一过程可以通过确定有亲属关系的个体染色体的那个部分被包括在配偶子形成过程中,并且在必要时通过确定减数分裂期间已经存在的交叉,从而预计有亲属关系的个体基因组那个部分几乎与目标基因组的相同部分一致来实现。在某些情况下,这种方法不但可用于清除目标个体碱基对测量的干扰,而且还可以用于推断单独的碱基对或者未被测定的DNA的整个区域。该方法还可以用于确定目标个体给定的染色体部分的拷贝数。另外,对于每个获得的查出都可以计算置信度。首先提出一种高度简化的解释,为了解释本发明的概念进行不现实的假定。随后,介绍了可以被用于本技术的详细的统计方法。
在本发明的一个方面,目标个体是胚胎,对胚胎的遗传数据应用这里公开的方法的目的是使医生或者其他人能够对将要在体外受精期间植入的胚胎进行一种已知的选择。在本发明的其他方面,目标个体是胎儿,对胎儿的遗传数据应用本发明公开的方法的目的是为了使医生或者其他人对关于该胎儿的可能的临床决定或者其他行为进行一种已知的选择。
定义
SNP(单一核苷酸多形性):是指一种核苷酸,该核苷酸在同一种类的两个成员基因组之间可能不同。在我们使用的术语中,没有对每种存在的变体出现频率进行限制。
查出SNP:考虑直接和间接证据来确定具体碱基对的真实状态。位点:个体DNA上具体的重点区域,此区域涉及SNP、可能插入或者删除的位点、或者其他相应的遗传变异位点。与疾病有关的SNP也可以涉及与疾病有关的位点。查出等位基因:确定DNA具体位点的状态。这包括查出SNP、或者确定该位点是否存在插入或者删除、或者确定该位点可能存在的插入的数目、或者确定该位点是否存在其他的遗传变异。正确等位基因的查出:正确反映个体实际遗传物质的等位基因的查出。净化遗传数据:获得不完整的遗传数据并纠正一些或者所有错误,或者在一个或者一个以上位点弥补漏失数据。在这里公开的内容中,这包括使用有亲缘关系的个体的遗传数据和这里所描述的方法。增加等位基因查出的精确度:净化遗传数据。
不完整的遗传数据:是指具有下列任一情况的遗传数据:等位基因漏失、未确定碱基对的测定、未正确碱基对测定、错配碱基对的测定、插入或者删除的不确定测量、染色体部分拷贝数的不确定测量、乱真信号、错配测定、其他错误或其结合。
有干扰的遗传数据:不完整的遗传数据,也叫做不完全的遗传数据。
未净化的遗传数据:测定的遗传数据也叫做原始遗传数据,这里没有使用任何方法来纠正得到的原始遗传数据中干扰或者误差的存在。
置信度:查出SNP、等位基因、等位基因的统计学可能性,或者测定的染色体部分拷贝数正确的代表了个体的真实遗传状态。
亲本支持(PS):是指一种名称,这种名称有时可以用于这里公开的任意方法,其中,使用有亲属关系的遗传信息可以确定目标个体的遗传状态。有时,这具体的涉及等位基因查出方法,有时也涉及用于净化遗传数据的方法,有时涉及确定染色体部分拷贝数目的方法,并且有时也涉及这些方法的一些或者全部的结合。
查出拷贝数(CNC):是一种名称,这种名称是指这里公开的用于确定细胞中染色体部分数目的方法。
定性CNC(也叫做qCNC):是一种名称,这种名称是指这里公开的用于确定细胞中染色体拷贝数的方法,所述细胞能够定性测定目标个体及其有亲属关系的个体的遗传数据。
突变:被复基因或者等位基因影响,
直系亲属:母亲、父亲、儿子、或者女儿。
染色体区域:染色体的一部分或者整个染色体。
染色体部分(Segment):染色体部分可以是一个碱基对也可以是整个染色体。部分(Section):染色体的一部分。部分(Segment)和部分(Section)可以互换使用。
染色体:既可以指整个染色体,也可以指染色体的一部分。
拷贝:染色体部分的拷贝数可以指相同的拷贝,也可以指染色体部分不同的拷贝,其中,染色体部分不同的拷贝包括基本上相似的位点,并且,其中,一种或者一种以上的等位基因是不同的。注意,在非整倍体性的时候,例如,M2拷贝错误时,可能出现给定的染色体部分的一些部分拷贝相同,而相同染色体部分的其他一些拷贝不同的情况。
单倍体数据:也叫做“相数据”或者“规则的遗传数据”;是指来自二倍体或者多倍体基因组中单一染色体的数据,所述二倍体或者多倍体基因组染色体指分离的母系或者父系的二倍体基因组染色体拷贝。
不规则遗传数据:对两个或者两个以上二倍体或者多倍体基因组染色体进行测定而获得的整合数据,所述二倍体或者多倍体基因组染色体是指母系或者父系的二倍体基因组染色体拷贝。
“个体中的遗传数据”、“个体的遗传数据”、“在个体中的遗传数据”或者“个体上的遗传数据”:这些词语都指描述个体基因组方面的数据。这可以指一个或者一组位点、部分或者全部序列、部分或者全部染色体、或者全部基因组。
假设:给定染色体组可能的拷贝数、或者给定的位点上可能的基因型。可能性可以包括一种或一种以上因素。
目标个体:是指正在确定其遗传数据的个体。一般的,至少少数来自目标个体的DNA是有效的。在上下文中,目标个体是胚胎或者胎儿。
有亲属关系的个体:是指任何在基因上有关的个体,并可因此区分目标个体的单倍体区。
平台反应:基因测量平台,例如Taqman或者Infinium的输入/输出特点的数学表征。向线路中输入的是待测定基因位点的真实基因型。根据设定内容,线路输出的可以使等位基因查出(定性的)或者原始数据测定值(定量的)。例如,在降低平台的原始数据输出从而定性基因型查出的情况下,平台反应由错误的转换矩阵组成,所述转换矩阵描述了观察到具体输入真实基因型之后输出基因查出的条件概率。在讲平台的输出作为原始测定值的情况下,平台反应是描述具体输入真实基因型之后数值输出概率的条件概率密度函数。
拷贝数假设:胚胎上大约有多少具体染色体部分拷贝数的假设。在一种优选的实施方案中,该假设由一组亚假设组成,所述亚假设是关于这些染色体上有多少拷贝是由有亲属关系的个体贡献给目标个体的。
系统的技术性描述
等位基因查出:优选的方法
假定这里的目标是尽可能准确的估计胚胎的遗传数据,并且,其中所述估计是通过结合胚胎、父亲、母亲相同n SNP的测定值获得的。注意,这里的描述涉及SNP,这可能也涉及发生遗传变异的位点,例如可能出现点突变、插入或者删除的位点。这种等位基因查出方法是亲本支持(PS)系统的一部分。这里描述的是一种增加目标个体遗传数据中等位基因查出精确度的方法,其目的是为了获得可临床执行的预测。在目标个体不是胚胎的情况下、在只能获得父母中一位的遗传数据的情况下、在父母的遗传数据都无法获得但已知其父母中的一个或者两个的单倍体的情况下、或者在已知其他有亲属关系的个体的遗传数据的情况下,本领域技术人员显然已知该如何修饰这里所描述的方法,并且这些修饰可以结合。
以讨论为目的,只考虑具有两个等位基因值的SNP:在不丧失一般性的情况下,可以假设所有SNP上的等位基因值术语符号A={A,C}。也可以假设在每个SNP测定值上的错误都是相互独立的。当被测定的SNP来源于足够远的基因区域时,该假设是合理的。注意,在不改变本发明基本方案的情况下,本领域技术人员可以将单倍体区域的信息或者SNP测定误差有关的其他模型技术的信息结合。
Let e=(e1,e2)是胚胎上真实且未知的有序SNP信息,e1,e2∈An。将e1定义为从父亲处获得的遗传单倍体信息,将e2定义为从母亲处获得的遗传单倍体信息。同时,使用ei=(ei1,ei2)来表示e的i-th位点上有序的等位基因对。以相似的方式,let f=(f1,f2)和m=(m1,m2)分别表示父亲和母亲处获得的真实且未知的有序SNP信息。另外,let g是父亲单个精液上存在的真实的、未知的单倍体信息。(本领域技术人员可以将let g看做配合体的象征。g2不可能存在。使用下标的表述方式是为了提醒读者该信息是单倍体,同样,f1和f2也是单倍体)。定义r=(f,m)也是非常方便的,从而这里存在一种信号,该信号表现了每个e从父母信息中继承完整的二倍体信息,也写作ri=(fi,mi)=((f1i,f2i),(m1i,m2i)),表示了从父亲和母亲i-th SNP位点得到的完整的有序信息。最后, let e ^ = ( e ^ 1 , e ^ 2 ) 是寻找的最终的e的估计值, e ^ 1 , e ^ 2 ∈ A n .
通过交配图中的n维排列θ∈{1,2}n明确表示了单倍体对,例如(f1,f2),如何重组从而形成一种配合体,例如e 1。将θ看做函数,定义θ(f)i=θ(f1,f2)i=fθi,i,其结果是单倍体序列。为了保证这一定义更为准确,let f1=ACAAACCC,letf2=CAACCACA,并且letθ=11111222。然后,θ(f1,f2)=ACAAAACA。在这个实施例中,交配图无疑义的指出交配发生在SNP i=5和i=6之间。
通常,letθ是真实且未知的交配图,定义了f中的e1,letΦ是真实且未知的交配图,该交配图确定了f中的g1。也就是说,e1=θ(f),e2=Φ(m),g1=ψ(f)。定义X=(θ,Φ,ψ)是十分方便的,从而使这里存在一个信号,来表示与问题有关的完整的交配信号。为了表达方便,使用e=X(r)作为e=(θ(f),Φ(m))的缩写;另外,使用ei=X(ri)作为ei=X(r)i的缩写。
实际上,当染色体结合时,最多发生几次交配,然而从理论上产生2n个可能的交配图几乎是肯定不可能的。在实践过程中,由于这种极低概率的交配发生可能性为零,也对这种交配图进行处理,将相对小的Ω集合看做具有唯一的交配图。例如,如果Ω被定义为衍生自最多一个交配的交配图时,|Ω|=2n。
使用一个字母来表示无序的二倍体测量值是非常方便的。所以,let B={A,B,C,X}。在这里,A和C表示他们各自的同体结合体位点状态,B表示杂合但是无序的轨迹状态。注意:该部分是文章仅有的使用符号B代表杂合但无序的位点状态的部分。在文章中大多数其他的部分使用符号A和B代表一个位点处可能发生的两种不同的等位基因值。X代表一种不可测量的位点,例如,一种位点丢失。为了保证这一理论更为准确,letf1=ACAAACCC,并且let f2=CAACCACA。然后,f的无干扰无序的二倍体测量值回产生 f ~ = BBABBBCB .
在即将面临的问题中,虽然g1上可能存在有序的单倍体测量,但只可能对e,f,m进行无序的二倍体测定。这可以获得有干扰的测量序列,分别表示为 e ~ ∈ B n , f ~ ∈ B n , m ~ ∈ B n , g ~ 1 ∈ A n . 定义 r ~ = ( f ~ , m ~ ) 是非常方便的,从而可以得到一种符号来表示父母数据有干扰的测量值。定义 D ~ = ( r ~ , e ~ , g ~ 1 ) 也是十分方便的,从而可以获得一种信号,来代表与问题有关的完整的干扰测量值,这也可以写作 D ~ i = ( r ~ i , e ~ i , g ~ 1 i ) = ( f ~ i , m ~ i , e ~ i , g ~ 1 i ) , 表示i-th SNP上完整的测量值。(请注意,当fi是有序的信息对时,例如,是(A,C)时,是单一的字母,例如B。)
由于二倍体测量是无序的,没有任何数据可以区分(f1,f2)和(f2,f1)的状态或者区分(m1,m2)和(m2,m1)。这种不可区分的对称状态对预期的问题产生了多重有效的解决方法。为了消除这种对称并不损害一般原则,指定θ1=Φ1=1.
总之,该问题可以通过下列组的信息{r,e,g1,X}来定义,定义e=X(r)。只有干扰测量值 D ~ = ( r ~ , e ~ , g ~ 1 ) 是可以用到的。目标是根据
Figure G2008800161237D00153
产生带有估计值
Figure G2008800161237D00154
的e。
本发明方法假设胚胎上具有整倍性。如何将这种方法与其他专利中描述的非整倍体查出方法结合使用,对本领域普通技术人员来讲是显而易见的。例如,可以首先使用非整倍体查出方法,从而确保胚胎都是具有整倍体性的,然后使用等位基因查出方法,或者可以使用非整倍体查出方法来确定有多少染色体拷贝来源于父体或者母体,然后使用等位基因查出方法。对只有一个染色体被呈递的性染色体而言,如何将这种方法进行修饰对本领域普通技术人员来讲也是显而易见的。
通过最大后验估计的解决方案
在本发明的一个实施方案中,如果可能的话,对于每个n SNP位点使用最大后验估计(MAP)来确定该位置最有可能的等位基因对顺序。随后的推导过程使用常用的概率表达简化符号。例如,
Figure G2008800161237D00155
表示,在随机变量X取决于X′值时,随机变量ei取决于ei′值的概率和随机变量
Figure G2008800161237D00156
取决于其观测值的概率。使用最大后验估计(MAP)方法,然后由 e ^ i = ( e ^ 1 i , e ^ 2 i ) 表示的
Figure G2008800161237D00162
的i-th部分通过下式确定:
e ^ i = arg max e i ′ P ( e i ′ | D ~ )
= arg max e i ′ P ( e i ′ , D ~ )
= arg max e i ′ Σ X ′ ∈ Ω 3 P ( X ′ ) P ( e i ′ , D ~ | X ′ )
( a ) = arg max e i ′ Σ X ′ ∈ Ω 3 : θ 1 ′ = φ 1 ′ = 1 P ( X ′ ) P ( e i ′ , D ~ i | X ′ ) Π j ≠ i P ( D ~ j | X ′ )
( b ) = arg max e i ′ Σ X ′ ∈ Ω 3 : θ 1 ′ = φ 1 ′ = 1 P ( X ′ ) Σ r i ′ ∈ A 4 P ( r i ′ ) P ( e i ′ , D ~ i | X ′ , r i ′ ) Π j ≠ i Σ r j ′ ∈ A 4 P ( r j ′ ) P ( D ~ j | X ′ , r j ′ )
( c ) = arg max e i ′ Σ X ′ ∈ Ω 3 : θ 1 ′ = φ 1 ′ = 1 P ( X ′ ) Σ r i ′ ∈ A 4 P ( r i ′ ) P ( e i ′ | X ′ , r i ′ ) P ( D ~ i | X ′ , r i ′ ) Π j ≠ i Σ r j ′ ∈ A 4 P ( r j ′ ) P ( D ~ j | X ′ , r j ′ )
( * ) = arg max e i ′ Σ X ′ ∈ Ω 3 : θ 1 ′ = φ 1 ′ = 1 P ( X ′ ) Π j Σ r j ′ ∈ A 4 1 ( i ≠ jor X ′ ( r j ′ ) = e i ′ ) P ( r j ′ ) P ( D ~ j | X ′ , r j ′ )
在上述等式中,(a)成立的前提是SNP独立的加和,这是指对于给定的X,所有与SNP i有关的随机变量有条件的独立于所有与SNPj有关的随机变量;(b)成立的前提是r独立于X;(c)成立的前提是,对于给定的ri和X,ei和
Figure G2008800161237D001610
是有条件的相互独立的(具体的说,ei=X(ri));并且,(*)成立的前提是ei=X(ri),这是指P(ei’|X’,ri’)等于1或者0,且因此有效将ri’过滤成与ei’和X’一致的值。
上面最后的表达(*)包括三种概率表达式:P(X′),P(r′j),和
Figure G2008800161237D001611
对上述各量的计算在下面三节中讨论。
交换图概率
近来的研究记述了在任何两个SNP位点间重组的概率模型。从精液研究和遗传变异类型的观测表明重组率以千碱基对比例发生广泛地的变化,许多重组发生在重组热点上。NCBI数据库中,有关人类基因组重组率的数据在UCSC基因组注解数据库中是公开对外使用的。
研究者可以从人类基因组单体型图计划或Perlege人单倍型计划中使用这些数据库。Perlegen人单倍型计划是高密度的,人类基因组单体型图计划是较高质量的。在此领域擅长的人员可以通过多种方法估计出这些比率,例如可逆跳马尔科夫蒙特卡罗(MCMC)方法,这一方法在LDHat程序包中可使用。
在本发明的一种具体实施方案中,可计算出任何交换图概率,给出任何两个SNPs之间的的交换概率。例如,P(θ=11111222)是发生在SNPs五和六之间的交换概率的二分之一。为二分之一概率的原因是一种特殊的交换类型具有两种与此相关的交换图:一种为对于各个配子。另一个交换图是θ=22222111。
X=(θ,φ,ψ),其中e1=θ(f),e2=φ(m),g1=ψ(f)。显然,θ,φ,和ψ由独立物理实验得来,因此,P(X)=P(θ)P(φ)P(ψ)。进一步假设为Pθ(·)=Pφ(·)=Pψ(·),其中实际分布Pθ(·)明显可通过Hapmap数据确定。
等位基因概率
从数据库例如dbSNP,使用人口频率信息确定P(ri)=P(fi)P(mi)=P(fi1)P(fi2)P(mi1)P(mi2)。此外,正如前面提到的,选择内单倍体独立的假设是合理的SNPs。即,假设 P ( r ) = Π i P ( r i ) .
测量误差
根据位点是杂合子或纯合子的,测量误差可建模为对于所有相似类型位点为独立或同样地分布。因此:
P ( D ~ | X , r ) = Π i P ( D ~ i | X , r i )
= Π i P ( f ~ i , m ~ i , e ~ i , g ~ 1 i | X , f i , m i )
= Π i P ( f ~ i | f i ) P ( m ~ i | m i ) P ( e ~ i | θ ( f i ) , φ ( m i ) ) P ( g ~ 1 i | ψ ( f i ) )
其中,在最终表述中的四种条件性概率分布中的每种都是经验确定的,此外的假设为前两种分布是相同的。例如分裂球上的无序二倍体测量的经验值为pd=.5和pa=.02,其中,导致
Figure G2008800161237D00184
的条件概率分布在表1中列出。
注意上述的条件概率分布,
Figure G2008800161237D00185
Figure G2008800161237D00186
Figure G2008800161237D00187
根据不同的实验会有很大的变化,这取决于实验室的各种实验因素,例如,基因样品质量的不同,或全基因组扩增效率的差别,或使用的操作方法的小的变化。因此,在比较好的具体实施方案中,这些条件概率分布在每次实验的基础上进行估测。在本发明的随后章节中将集中在估计
Figure G2008800161237D00188
但是熟悉此领域的人在阅读完本发明书后,将明白如何使用相似的技术估计
Figure G2008800161237D00189
Figure G2008800161237D001810
分布能分别建模为属于一个分布的参数家族,其中,特殊的参数值可以根据不同的实验而变化。如其中的一个实例,隐式模拟条件概率分布
Figure G2008800161237D001811
可以参数化为等位基因脱扣参数pd和等位基因脱入参数pa。这些参数的值可能根据不同的实验有很大的变化,也可以使用标准的方法例如,最大可能性估计,MAP估计,或贝叶斯定理推论,来估计存在于任何单独实验中这些参数的值。最大可能性估计,MAP估计,或贝叶斯定理推论,这些估计方法的应用在本文其他地方也有描述。不管使用了哪种精确的方法,关键是找到一套参数值,这些参数值能够最大化参数和数据的联合概率,通过考虑在数据空间中的感兴趣区域内的所有可能的元组。如本文在他地方描述的,当知道目的基因组的染色体拷贝数,或当不知道拷贝数,但是采用不同的假设时,这种方法是可行的。在后一种情况中,可以通过搜索参数和假设的组合,这种假设与已知数据有最好匹配,如在本文其他地方描述的。
值得注意的,可以通过由测定得出的特定参数确定条件概率分布,例如,定量基因型测定的幅度,能够增加本方法的准确度。这不会改变本发明的基本概念。
根据每个实验,也可以通过非参数化的方法,估算上述的条件概率分布。近邻方法,smoothing kernels,和类似的非参数方法,这些方法对于熟悉此领域的人也是可能应用的。尽管本发明集中在参数估算的方法,使用非参数化方法估算这些条件概率分布不会改变本发明的基本概念。通常防止误解的说明:参数化方法可能经受模型偏见,但是具有低的变异性。非参数化方法趋于被正视化,但是具有高变异性。
值得注意的,熟悉该领域的人在读完该发明书后,能够清楚的知道如何使用定量信息代替显而易见的等位基因分型,以达到应用PS方法产生可靠的等位基因分型的目的,这不会改变本发明的本质概念。
B因数分解等位基因方程
在本发明的首选的具体实施方案中,可以制定等位基因的算法,以便它可以更有效地执行计算。在本节中,通过MAP的方法重新得出等位基因分型的方程,这次重组方程,使它们能反应出计算结果的有效的计算方法。
符号
X*,Y*,Z*∈{A,C}n×2是真实顺序值,分别为母亲,父亲和胎儿。H*∈{A,C}n×h是在h精液样本中的实际值。
B*∈{A,C}n×b×2是在b分裂球的实际顺序值。
D={x,y,zB,H}是不规则测量数据组,来自父亲,母亲,胎儿,b分裂球和h精液样本。 D i = { x i , y i , z i , H i , B i , } 是局限于i-th SNP的数据组。
r∈{A,C}4表示源于母亲和父亲,在特定位点上的顺序值的4-数组的候选。 Z ^ i ∈ { A , C } 2 是在SNP i的估算的顺序胎儿值。
Q=(2+2b+h)是排除母亲的,被测单倍体染色体的有效数目。有关所有检测数据的双亲的来源的任何假设(不包括双亲自己)需要表明Q交换图。χ∈{1,2}n×Q表示交换图矩阵,表示假设了所有检测数据的双亲来源,不包括双亲。值得注意,这有2nQ种不同的交换矩阵。 χ i = Δ χ i , 是局限于i-th行的矩阵。注意i-th行可能有2Q种源于χ∈{1,2}Q数据组的向量值。
F(x;y,z)是(x,y,z)的函数,仅x为变量的函数。分号后面的值在文中是是常数,在文中这些函数将被求值。
PS方程式因数分解
Z ^ i = arg max Z i P ( Z i , D )
= arg max Z i Σ χ P ( χ ) P ( Z i , D | χ )
Figure G2008800161237D00206
Figure G2008800161237D00211
Figure G2008800161237D00212
Figure G2008800161237D00213
Figure G2008800161237D00214
不同交换矩阵χ的数目为2nQ。因此,上面第一行的强力应用是O(n2nQ)。通过因数分解P(χ)和P(zi,D|χ)来探求结构,和调用以前的结果,最后行的表述可以通过O(n22Q)计算。
C非整倍体的定量检测
在本发明的一种具体实施方案中,可以使用在本专利中讨论的源于PS方法的定量数据输出,检测非整倍体。本发明揭示了利用相同概念的多种方法;这些方法学术上叫作为拷贝数分型(CNC)。解决的问题是要确定在单一细胞中23个染色体的每个的拷贝数。使用MDA方法进行全基因组扩增的技术,首先对细胞进行预扩增。然后,对扩增的遗传物质采用如PCR技术进行选择性扩增,PCR应用于选自SNP的n组中的每个m=23的染色体型。
这将产生规则化的ct数据集{tij},i=1...n,j=1...m(ct,或CT,是指荧光信号达到设定的域值时所经历的循环数),这些表示在SNP i,染色体j上的值。规则化的ct值,表示在给定(i,j),由FAM和VIC(根据不同的染料,这些通道名称是任意的)通道得到的那些基因座的原ct值被组合生成能准确反映扩增纯合子基因座的ct值。因此,不是每个基因座有两个ct值,而是每个基因座有唯一的规则化的ct值。
目标是确定每条染色体上拷贝数的集合{nj}。如果细胞为整倍体,对所有的j nj=2;一种例外是男性X染色体。如果对于至少一种j,nj≠2,则细胞为非整倍体;除了男性X染色体以外。
生化反应数学模型
Ct值和染色体拷贝数之间的关系表示如下: α ij n j Q 2 β ij t ij = Q T . 在这种表达中,nj是染色体j的拷贝数。Q是理论量,代表预扩增遗传物质的起始量,其中,在SNP i,染色体j的预扩增遗传物质的实际量可以通过αijnjQ计算。aij是较优选的扩增参数,它表明通过MDA在SNP i,染色体i预扩增的比在SNP 1,染色体1上预扩增的量多多少。通过定义,这些优选的扩增参数有关 α 11 = Δ 1 .
βij是对于SNPI染色体j在PCR中的加倍速率。Tij是ct值。QT是ct值确定的遗传物质的量。T是一个符号,不是指标,仅代表一种阈值。
注意到aij,βij和QT是常数,而不随不同的实验发生变化,是重要的。相对来说,nj和Q是变量,随不同的实验变化。如果染色体1是单染色体的,Q是在染色体1的SNP1的原料量。
上面的原始方程不含有干扰项。通过如下改写,它表示为:
( * ) β ij t ij = log Q T α ij - log n j - log Q + Z ij
上面的方程表明ct值由于加入高斯干扰项Zij而被抵消。这个干扰项变为σij 2
拷贝数的最大可能估算
在本方法的一种具体实施方案中,有关上述模型,使用最大可能性估算确定nj。参数Q使这种估算困难,除非加入其他的限制:
1 m Σ j log n j = 1
这表明平均拷贝数是2,或,相当的,平均拷贝数的log值为1.通过这种附加的限制,可以解决下面的ML问题:
Q ^ , n ^ j = arg max Q , n j Π ij f Z ( log n j + log Q - ( log Q T α ij - β ij t ij ) ) s . t . 1 m Σ j log n j = 1
= arg min Q , n j Σ ij 1 σ ij 2 ( log n j + log Q - ( log Q T α ij - β ij t ij ) ) 2 s . t . 1 m Σ j log n j = 1
上面最后一行是变量lognj和logQ的线性关系,是具有等式限制的简单加权最小二乘问题。该解决方案可在封闭的形式形成了拉格朗日和偏导数。
L ( log n j , log Q ) = Σ ij 1 σ ij 2 ( log n j + log Q - ( log Q T α ij - β ij t ij ) ) 2 + λ Σ j log n j
当噪音方差为常数时的解决方案
为了避免不必要地复杂化说明,设置 σ ij 2 = 1 . 除非另作明确说明,否则这种假设依然存在。(通常的情况,每个σij 2都是不同的,解决的方案将是加权平均值取代简单的平均数,或加权最小二乘取代简单最小二乘的方法)在那些情况下,上述的线性系统可以解决为:
log Q j = Δ 1 n Σ i ( log Q T α ij - β ij t ij )
log Q = 1 m Σ j log Q j - 1
log n j = log Q j - log Q = log Q j Q
第一个等式解释为染色体j数量的log估算。第二个等式解释为Qj的平均是二倍体数量的平均值,减去一个它的log值,生成的所需单倍体的数量。第三个等式可以解释为拷贝数只是Qj/Q的比值。注意nj是‘双差分’,因为它是Q值的差分,每个都是自身的差分值。
简单的解决方案
上述等式也揭示在较简单的建模假设的条件下问题的解决方案:例如,当假设对于所有i和j的aij=1或假设对于所有i和j,βij=β。在最简单的情况下,当aij=1和βij=β时,解决方案简单化为:
( * * ) log n j = 1 + β ( 1 mn Σ ij t ij - 1 n Σ i t ij )
双差分方法
在本发明的一种具体实施方案中,使用双差分方法,可能检测到单体性染色体。熟悉此领域的人能显而易见的知道如何改进此方法而检测其他非整倍体的状态。通过MDA预扩增,接着进行基因样本的PCR,而使{tij}成为规则化的ct值。一如往常,tij是在j-th染色体的i-th SNP上的ct值。通过tj表明,其中,tj为与j-th染色体相关的ct值的向量。定义如下:
t ‾ = Δ 1 mn Σ i , j t ij
t ~ j = Δ t j - t ‾ 1
如果和仅仅如果
Figure G2008800161237D00253
高于某一特定阈值,其中f为代表单体性染色体的向量时,标明染色体j为单染色体的。F是匹配过滤值,它的解释在下面做描述。
匹配过滤值f为从两个对照试验得来的双差分值。以已知的整倍体的男性基因数据和整倍体的女性遗传物质为开始。假设这些原料大量存在,预扩增可以省去。对男性和女性的遗传物质,使用PCR扩增在X染色体(染色体23)和染色体7上的n SNP。用{tij X},i=1...n,j∈{7,23}表示在女性上的测定,和同样的用{tij Y}表示在男性上的测定。鉴于这样,可以通过如下结果,构建匹配过滤值:
t ‾ 7 X = Δ 1 n Σ i t i , 7 X
t ‾ 7 Y = Δ 1 n Σ i t i , 7 Y
Δ X = Δ t 23 X - t ‾ 7 X 1
Δ Y = Δ t 23 Y - t ‾ 7 Y 1
f = Δ Δ Y - Δ X
上面等式中的t7 X和t7 Y是标量,而ΔX和ΔY是向量。注意,上标X和Y仅是符号标记,不是指数,分别代表女性和男性。不要将上标X混淆为在X染色体上的测定。X染色体的测定是有标23号染色体的。
下一步就要将噪音考虑进去,了解在构建匹配过滤值f以及构建中,存在哪些噪音的残余。在这节中,考虑最简单的模型假设:对所有的i和j,βij=β,和对于所有的i和j,aij=1。在这些假设的条件下,从上面的(*)中
βtij=logQT-lognj-logQ+Zij
这个等式也可以写成::
t ij = 1 β log Q T - 1 β log n j - 1 β log Q + Z ij
在这样的情况下,匹配过滤值f的i-th成分可以写成:
f i = Δ Δ Y i - Δ X i
= { t i , 23 Y - t ‾ 7 Y } - { ( t i , 23 X - t ‾ 7 X }
= { ( 1 β log Q T - 1 β log n 23 Y - 1 β log Q Y + Z i , 23 Y )
- 1 n Σ i ( 1 β log Q T - 1 β log n 7 Y - 1 β log Q Y + Z i , 7 Y ) }
- { ( 1 β log Q T - 1 β log n 23 X - 1 β log Q X + Z i , 23 X )
- 1 n Σ i ( 1 β log Q T - 1 β log n 7 X - 1 β log Q X + Z i , 7 X ) }
= { ( 1 β + Z i , 23 Y ) - 1 n Σ i Z i , 7 Y } - { Z i , 23 X - 1 n Σ i Z i , 7 X }
值得注意的,上面的等式建立在拷贝数的变量都是已知的条件下, n 23 Y = 1 n 23 X = 2 .
假如所有的噪音平均为0,理想的匹配过滤值为
Figure G2008800161237D00271
此外,因为缩放过滤向量不会真正的改变情况,向量1可作为匹配过滤。这等于简单利用
Figure G2008800161237D00272
的成分。换句话说,如果根本的生物化学遵循简单的模型,则匹配过滤示范是不必要的。此外,可以删除上述的噪音条件,这将只是降低本方法的准确度。因此,这可以写成:
t ~ ij = Δ t j - t ‾
= { 1 β log Q T - 1 β log n j - 1 β log Q + Z ij } - 1 mn Σ i , j { 1 β log Q T - 1 β log n j - 1 β log Q + Z ij }
= 1 β ( 1 - log n j ) + Z ij - 1 mn Σ i , j Z ij
在上面的等式中,假设 1 mn Σ i , j log n j = 1 . 即,平均拷贝数是2.
每个向量的要素都是log拷贝数的独立测量(标为1/β),它们由于加入噪音而被改变。噪音Zij不可避免:在测量中,它是固定的。第二个噪音也不可避免,因为减去t是除去不便参数
Figure G2008800161237D00277
所必须的。
此外,注意,如果
Figure G2008800161237D00278
的每个元素是
Figure G2008800161237D00279
的独立测量,的UMVU(一致最小方差无偏的)估算只是
Figure G2008800161237D002711
元素的平均。(这种情况下,每个σij 2是不同的,它将是加权平均)因此,运用一点代数学,对lognj的UMVU估算,可表示为:
1 n Σ i t ~ ij ≈ 1 β ( 1 - log n j ) ⇒
log n j ≈ 1 - β · 1 n Σ i , j t ~ ij = 1 - β ( 1 n Σ i t ij - 1 mn Σ i , j t ij )
复杂模型的分析
现在重复前述的有关生化模型的分析,其中,βij和αij是不同的。此外,考虑到噪音,了解存在于匹配过滤f的构建以及
Figure G2008800161237D00281
的构建中的噪音的残余。在复杂模型下,上面的(*):
β ij t ij = log Q T α ij - log n j - log Q + Z ij
这一等式可写成:
( * * * ) t ij = 1 β ij log Q T α ij - 1 β ij log n j - 1 β ij log Q + Z ij
匹配过滤f的i-th元素表示为:
f i = Δ Δ Y i - Δ X i
= { t i , 23 Y - t ‾ 7 Y } - { ( t i , 23 X - t ‾ 7 X }
= { ( 1 β i , 23 log Q T α i , 23 - 1 β i , 23 log n 23 Y - 1 β i , 23 log Q Y + Z i , 23 Y )
- 1 n Σ i ( 1 β i , 7 log Q T α i , 7 - 1 β i , 7 log n 7 Y - 1 β i , 7 log Q Y + Z i , 7 Y ) }
- { ( 1 β i , 23 log Q T α i , 23 - 1 β i , 23 log n 23 X - 1 β i , 23 log Q X + Z i , 23 X )
- 1 n Σ i ( 1 β i , 7 log Q T α i , 7 - 1 β i , 7 log n 7 X - 1 β i , 7 log Q X + Z i , 7 X ) }
= 1 β i , 23 + ( 1 β i , 23 - ( 1 n Σ i 1 β i , 7 ) ) log Q Y Q X + { Z i , 23 Y - Z i , 23 X + 1 n Σ i Z i , 7 X - 1 n Σ i Z i , 7 Y }
在复杂模型中,等式表示为:
t ~ ij = Δ t j - t ‾
= { 1 β ij log Q T α ij - 1 β ij log n j - 1 β ij log Q + Z ij }
- 1 mn Σ i , j { 1 β ij log Q T α ij - 1 β ij log n j - 1 β ij log Q + Z ij }
规则化CT值的可替代的方法
在本方法的另一种具体实施方案中,可以平均CT值,而不是转变为指数衡量,然后取logs,这样将歪曲噪音,以致噪音平均不为0。首先,以已知的Q开始,解答β。接着用已知的n_j做多重实验,解答α。因为非整倍体是假定的整体集合,所以它能简单的用ML来确定最可能的n_j和Q值,然后,以此为基础计算最可能的非整倍体的情况,例如,采用最偏离1的n_j值,最后推进到它最邻近的非整倍体邻居。
在胚胎测量中误差率的估算
在本发明的一种具体实施方案中,给出在胚胎DNA中的明确的潜在的真实状态,确定精确胚胎测定是可能的。在处上下文中,给出的数据包括:(i)有关双亲的经过高准确度测定的SNP状态数据,和(ii)在特定分裂球中,检测所有的SNPs,测量欠佳。
使用下列符号:U-是任何特定的纯合体,U是那些SNP的其他纯合体,H是异质接合体。目标是确定在表2中的概率(pij)。例如,p11是胚胎DNA为U以及读出为U的概率。这些概率需满足下面的三种条件:
p11+p12+p13+p14=1                (1)
p21+p22+p23+p24=1                (2)
p21=p23                          (3)
前两个等式很容易理解,第三个等式是说明异质接合体脱扣的对称(H应该给出U或U的相同的平均脱扣率)。
有四种组合状态:UxU,UxU,UxH,HxH.根据特定的组合类型,将SNPs分为上述的四类。表3标明这些组合,预期的胚胎状态,和特定读数的概率(pij)。注意,表3前两行跟表2的前两行是一样的,符号(pij)也和表2相同。
概率p3i和p4i可根据p1i和p2写出。
p31=1/2[p11+p21]        (4)
p32=1/2[p12+p22]        (5)
p33=1/2[p13+p23]        (6)
p34=1/2[p14+p24]        (7)
p41=1/4[p11+2p21+p13]   (8)
p42=1/2[p12+p22]        (9)
p43=1/4[p11+2p23+p13]   (10)
p44=1/2[p14+p24]        (11)
这些可以认为是上述(1),(2),和(3)的8组线性限制。如果一种向量P=[p11,p12,p13,p14,p21,....,P44]T(16×1维)被定义,那么矩阵(11×16)和向量C也可能被定义,限制项表示为:
AP=C    (12)
C=[1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]T.
特定的,A在表4中列出,其中空白格,代表值为0.
现在问题可概括为需找能最大化观测可能性的P,并有一组线性约束条件(AP=C)。检测来于16种相同的类型,如pij。这些列于表5中。产生一组这些16nij观测值数据的可能性通过具有概率pij的多项式分布定义,跟下式成比例:
L ( P , n ij ) ∝ Π ij p ij n ij - - - ( 13 )
注意,全函数的可能性包含多项系数,这些多项系数没被列出,假设这些系数不依赖于P,因此它们在P内,值不发生变化,其中,L为最大。接着问题就变为找到:
max P [ L ( P , n ij ) ] = max P [ ln ( L ( P , n ij ) ) ] = max P ( Σ ij n ij ln ( p ij ) ) - - - ( 14 )
约束条件为AP=C。
注意,在(14)式中,L的ln使问题变得更易处理(计算总数取代计算乘积)。这是个标准式,假设x值,如f(x)最大化,相同,其中ln(f(x))是最大化。p(nj,Q,D)=P(nj)P(Q)P(Dj|Q,nj)P(Dk≠j|Q)
D没有亲本信息,非整倍体的MAP检测
在本发明的一种具体实施方案中,可以使用PS方法在不利用亲本基因信息的条件下,确定给定个体的染色体片段的拷贝数。在这节中,最大后验估计(MAP)方法描述了,能够将等位基因信息分类为非整倍体和整倍体。这种方法不需要亲本数据信息,虽然当有亲本数据信息时,这种分类能力会被提高。这种方法不需要规则化通道值。一种确定目标个体基因组中的染色体片段的拷贝数是通过整合目标个体的基因数据和相关个体的数据形成一种假设,计算最可能假设在这里将被描述。在这描述中,这种方法将被应用于从TaqMan定量的ct值;熟悉此领域的人,能够明白如何应用这种方法到任何平台的任何中检测中。这种方法将集中介绍仅在染色体X和7上的检测;同样,熟悉此领域的人将明白如何应用该方法到任何染色体数目和染色体片段的检测。
问题的设置
给的检测是源于在染色体X和7上的三倍体的分裂球,目标是成功做出这些基因的非整倍体分型。关于这些分裂球的唯一真正知道的是染色体7必须有三个拷贝。染色体X的拷贝数是未知的。
这里的策略是使用MAP估计从给定D测定的{1,2,3}选择中,分类染色体7的拷贝数N7.形式上如下式:
n ^ 7 = arg max n 7 ∈ { 1,2,3 } P ( n 7 , D )
不幸的是不可能计算这一概率,因为概率依赖于未知的Q值。如果f和Q已知,那么将有可能解决下面问题:
n ^ 7 = arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) P ( n 7 , D | Q ) dQ
实际上,Q的连续分布是未知的。然而,确定Q在二次方的范畴就足够了,实际上,Q上的概率质量函数(pmf)是一致的,譬如可以使用{21,22…,240}。在接下来的发展中,积分符号将被使用,如Q上的概率分布函数(pdf)是已知的,尽管,在少数Q指数值的一致的pmf将被取代。
这个讨论将使用下列的符号和定义:
●N7是染色体7的拷贝数。它是极少变化的。n7表示N7的可能值。
●NX是染色体X的拷贝数,nx表示Nx的可能值。
●Nj是染色体j的拷贝数,其中j∈{7,X},nj代表Nj的可能值。
●D是所有测量的集合。其中一例,这一集合为在染色体X和7上的TaqMan检测,所以D={D7,DX},其中, D j = { t ij A , t ij C } 是这个染色体上的TaqMan检测的集合。
●tij A是染色体j的i位点的通道A上的ct值。同样地,Similarly,tij C是染色体j的i位点的通道C上的ct值。(A只是个逻辑名称,指在位点上的主要的等位基因值,C代表在位点上的较次要的等位基因值)
●Q表示遗传物质的单位量,例如,如果染色体j的拷贝数是nj,那么在染色体j的任何位点上的遗传物质的总量是njQ.。例如,三倍体,如果位点为AAC,那么在这个位点上的A-原料的量为2Q,在这个位点上,c-原料的量为Q,那么在该位点上所有组合的原料量为3Q。
●当相关染色体的拷贝数为n时,(nA,nC)表示位点上的无序的等位基因模式。nA是等位基因A出现在位点上的次数,nC表示等位基因C出现在位点上的次数。每个的值可能是0,...,n,必须满足nA+nC=n。例如,在三染色体细胞中,等位基因的集合表示为:{(0,3),(1,2),(2,1),(3,0)}.等位基因模式(2,1)例如,对应位点值为A2C,即,两个染色体等位基因值为A和第三个染色体位点上的等位基因值为C。在二体性染色体细胞中,等位基因模式的集合为{(0,2),(1,1),(2,0)}。在单体性染色体细胞中,等位基因模式为{(0,1),(1,0)}.
●QT是从基础TaqMan等式Q02βt=QT得来的(已知的)阈值。
●β是从基础TaqMan等式Q02βt=QT得来的(已知的)加倍速率。
●⊥(又叫“底部”)是ct值,它解释为“无信号”
●fZ(x)是在x的标准正态高斯pdf值。
●σ是在TaqMan ct值上的(已知的)噪音标准差。
MAP解决方案
在下面的解决方案中,做下列假设:
N7和Nx是独立的。
在相邻位点的等位基因值是独立的。
目标是阐明指定染色体的拷贝数。在这里,具体描述集中在染色体7。MAP解决方案表示为:
n ^ 7 = arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) P ( n 7 , D | Q ) dQ
= arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) Σ n X ∈ { 1,2,3 } P ( n 7 , n X , D | Q ) dQ
= arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) Σ n X ∈ { 1,2,3 } P ( n 7 ) P ( n X ) P ( D 7 | Q , n 7 ) P ( D X | Q , n X ) dQ
= arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n 7 ) P ( D 7 | Q , n 7 ) ) ( Σ n X ∈ { 1,2,3 } P ( n X ) P ( D X | Q , n X ) ) dQ
= arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n 7 ) Π i P ( t i , 7 A , t i , 7 C | Q , n 7 ) ) ( Σ n X ∈ { 1,2,3 } P ( n X ) Π i P ( t i , X A , t i , X C | Q , n X ) ) dQ
( * ) = arg max n 7 ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n 7 ) Π i Σ n A + n C = n 7 P ( n A , n C | n 7 , i ) P ( t i , 7 A | Q , n A ) P ( t i , 7 C | Q , n C ) )
× ( Σ n X ∈ { 1,2,3 } P ( n X ) Π i Σ n A + n C = n X P ( n A , n C | n X , i ) P ( t i , X A | Q , n A ) P ( t i , X C | Q , n C ) ) dQ
等位基因分类模型
方程式(*)依赖于能够计算P(nA,nC|n7,i)和P(nA,nC|nX,i)的值。
这些值的计算是通过假定等位基因模式(nA,nC)为i.i.d(独立的和相等地分布),其中,根据它的字母在位点i上出现的等位基因频率。一个实例应该充分描述这种情况。在假设A的等位基因频率是60%,和C的等位基因频率为40%的条件下,计算P((2,1)|n7=3)。(此外,注意P((2,1)|n7=2)=0,因此在这种情况下,配对和必须为2.)这个概率表示为:
P ( ( 2,1 ) | n 7 = 3 ) = 3 2 ( . 60 ) 2 ( . 40 )
总和的方程式为
P ( n A , n C | n j , i ) = n n A ( 1 - p ij ) n A ( p ij ) n C
其中,pij是染色体j的在位点i的最小等位基因频率。
误差模型
方程式(*)依赖于能够计算P(tA|Q,nA)和P(tC|Q,nC)的值。对于这个,需要一种误差模式。可以使用下面的误差模型:
上面提到的四种情况中的每种都在此描述。在第一种情况下,没有信号接收,虽然在位点上有A-遗传物质。那是基因脱扣的情况,它的概率为pd。在第二种情况下,信号被接受,如期望的因为有A-遗传物质在位点上。这种情况的概率为没有基因脱扣的概率乘以pdf,其为没有基因脱扣发生的,在ct值上的分布。
(注意,严格的说,应该除以存在于⊥下的,在高斯曲线上的概率值部分,但是这是个实践例,可以忽略)。第三种情况,没有信号被接受和没有信号接受。这是指没有发生插入的概率,1-pa。最后一种情况,即使在位点上没有A-遗传物质,信号也被接收。这是插入概率乘以当存在插入时,在ct值上的分布的pdf值。
注意在方程式的开头的‘2’的出现是因为高斯分布,该分布是在脱入以⊥为中心的建模情况下产生的。因此,在遇到脱入,和当方程式通过除以二分之一,即乘以2,进行规格化时,只有二分之一概率存在⊥之下。由对称性,P(tC|Q,nC)的误差模型与上面的P(tA|Q,nA)误差模型相同。熟悉此领域的人,能够清楚的知道对于多种不同的基因分型平台,使用不同的误差模型,例如,Illumina Infinium基因分型平台。
计算考虑
在本发明的一种具体实施方案中,数学的MAP估计可以通过强行式实现,如在除了Q积分的最后的MAP方程式中指定的。因为加倍Q只会导致1/β的ct值的不同,方程式只在取log值时,才对Q敏感。因此,为了做积分,应该充分地在不同2次幂下,尝试几个Q值,并假设这些值为均一分布。例如,可以以Q=QT2-20β开始,其中,原料量将导致ct值为20,接着连续二等分20次,将产生Q的最终值,将导致ct值为40。
下面介绍了在本发明其他地方描述的推导的重推导,重推导为了说明数学编程,重点略有差别。注意,下面的变量D不是真正的变量。它总是为常数,设置为存在于实际问题中的数据集的值,所以当存在于Matlab中,它不表示引入了另一个数组维数。然而,Dj因为指数j的存在,它代表一种数组维数。
n ^ 7 = arg max n 7 ∈ { 1,2,3 } P ( n 7 , D )
P ( n 7 , D ) = Σ Q P ( n 7 , Q , D )
P(n7,Q,D)=P(n7)P(Q)P(D7|Q,n7)P(DX|Q)
P ( D j | Q ) = Σ n j ∈ { 1,2,3 } P ( D j , n j | Q )
P(Dj,nj|Q)=P(nj)P(Dj|Q,nj)
P ( D j | Q , n j ) = Π i P ( D ij | Q , n j )
P ( D ij | Q , n j ) = Σ n A + n C = n j P ( D ij , n A , n C | Q , n j )
P ( D ij , n A , n C | Q , n j ) = P ( n A , n C | n j , i ) P ( t ij A | Q , n A ) P ( t ij C | Q , n C )
P ( n A , n C | n j , i ) = n n A ( 1 - p ij ) n A ( p ij ) n C
Figure G2008800161237D00378
E在具有亲本信息的条件下,非整倍体的MAP检测
在本发明的一种具体实施方案中,在给定所有染色体上在某些位点的多倍分裂球测定的条件下,这种公开的方法能够对每个分裂球的每个染色体上的非整倍体进行分型,其中不知道每种染色体有多少拷贝数。在这个具体实施方案中,MAP估算被应用于阐明染色体烦扰拷贝数Nj,其中,j∈{1,2...22,X,Y},从{0,1,2,3}选择中,给出测量值D,它包含分裂球以及亲本的基因分型信息。总体来说,让j∈{1,2...m}where,其中m为感兴趣的染色体数;m=24表示所有染色体都为感兴趣的。形式上,这个表示为: n ^ j = arg max n j ∈ { 1,2,3 } P ( n j , D )
不幸的,这个概率将不能被计算,因为此概率依赖于未知的随机变量Q,其中,Q表示MDA的扩增因子。如果在Q上的分布f是已知,那么这个问题将能由下式解决:
n ^ j = arg max n j ∈ { 1,2,3 } ∫ f ( Q ) P ( n j , D | Q ) dQ
实际上,在Q上的连续分布是未知的。然而,通过二次幂确定Q值已经足够,实际上在Q上的概率质量函数是一致的,即{21,22…,240}能被使用。在接下来的发展中,将使用积分符号,就像在Q上的概率质量函数为已知,即使在实际中,在少数Q实验值上的一致的pmf将被代替。
这个讨论将使用下面的符号和定义:
●Nα是常染色体α的拷贝数,其中α{1,2,...22}。它是随机变量。nα表示Na的可能值。
●NX是染色体X的拷贝数,nX表示Nx的可能值。
●Nj是染色体j的拷贝数,其中j∈{1,2...m},nj表示Nj的可能值。
●m是感兴趣的染色体的拷贝数,m=24时,表示所有的染色体都为感兴趣的染色体。
●H是非整倍体状态的集合。h ∈H。为了这个推导的目的,H={父系单体性染色体,母系单体性染色体,二染色体性,t1父系三染色体性,t2父系三染色体性,t1母系三染色体性,t2母系三染色体性}。父系单体性染色体是指仅存的染色体来源于父亲;父系三染色体性是指有一个附加染色体源于父亲。类型1(t1)父系三染色体性是指两个父系染色体为姐妹染色体(每种的精确拷贝),除了发生交换,当两个染色体的片段都是精确拷贝时。类型2(t2)父系三染色体性是指两个父系染色体为互补染色体(来源已两个祖父母的的独立的染色体)。同样的解释可应用于母系单体性染色体和母系三染色体性。
●D是包括在胚胎DE和在亲本DF,DM上的所有检测集合。当在所有染色体上进行TaqMan检测时,我们可以认为:D={D1,D2...Dm},DE={DE,1,DE,2...DE,m},其中, D k = ( D E , k , D F , k , D M , k ) D Ej = { t E , ij A , t E , ij C } 是在染色体j上的TaqMan测定集合。
●tE,ij A是指在染色体j的位点i的通道A上的ct值。同样,tE,ij C是指在染色体j的位点i通道C上的ct值。(A只是逻辑名称,代表在位点上的主要的等位基因值,C表示在位点上的最小等位基因值)
●Q代表在对单细胞基因组DNA进行MDA后,遗传物质的单位量,即,如果染色j的拷贝数为nj,那么在染色体j的任何位点上的遗传物质的总量可以表示为njQ。例如,在三染色体性下,如果位点为AAC,那么A-原料在位点上的量为2Q,位点上C-原料的量为Q,位点上遗传物质的总和量表示为3Q。
●q是为Q值考虑的,计算步骤的数。
●N是测定的每个染色体的SNPs的数量。
●(nA,nC)表示当当相关基因拷贝数为n时,位点上的无序等位基因模式。nA表示等位基因A在位点上的出现次数,nC表示等位基因C在位点上出现的次数。nA和nC的值可为0,...,n,同时必须满足nA+nC=n。例如,在三染色体性下,等位基因模式的集合可以为{(0,3),(1,2),(2,1),(3,0)}。等位基因模式(2,1)对应A2C的位点值,即,两个染色体具有等位基因值A,和第三个染色体在位点上具有等位基因值C。在二体性下,等位基因模式集合为{(0,2),(1,1),(2,0)}。在单体性染色体下,等位基因模式集合为{(0,1),(1,0)}。
●QT是从基础性TaqMan方程式Q02βt=QT得来的(已知的)阈值。I
●β是从基础性TaqMan方程式Q02βt=QT得来的(已知的)加倍速率。
●⊥(又叫“底部”)是ct值,它解释为“无信号”
●fZ(x)是在x估算的标准正态高斯pdf值。
●σ是在TaqMan ct值上的(已知的)噪音标准差。
MAP解决方法
在下面的解决方法中,将做下列假设:
●Njs是相互独立的
●等位基因值在相邻位点上是独立的。
目标是表明制定染色体的拷贝数。例如,染色体的MAP解决方法可表示为:
n ^ j = arg max n j ∈ { 1,2,3 } ∫ f ( Q ) P ( n j , D | Q ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) Σ n 1 ∈ { 1,2,3 } · · · Σ n j - 1 ∈ { 1,2,3 } Σ n j + 1 ∈ { 1,2,3 } · · · Σ n m ∈ { 1,2,3 } P ( n 1 , · · · n m , D | Q ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) Σ n 1 ∈ { 1,2,3 } · · · Σ n j - 1 ∈ { 1,2,3 } Σ n j + 1 ∈ { 1,2,3 } · · · Σ n m ∈ { 1,2,3 } Π k = 1 m P ( n k ) P ( D k | Q , n k ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) P ( D j | Q , n j ) ) ( Π k ≠ j Σ n k ∈ { 1,2,3 } P ( n k ) P ( D k | Q , n k ) ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) Σ h ∈ H P ( D j | Q , n j , h ) P ( h | n j ) ) ( Π k ≠ j Σ n k ∈ { 1,2,3 } P ( n k ) Σ h ∈ H P ( D k | Q , n k , h ) P ( h | n k ) ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) Σ h ∈ H P ( h | n j ) Π i P ( t E , ij A , t E , ij C , D F , ij D M , ij | Q , n j , h ) )
× ( Π k = j Σ n k ∈ { 1,2,3 } P ( n k ) Σ h ∈ H P ( h | n k ) Π i P ( t E , ik A , t E , ik C , D F , ik D M , ik | Q , n k , h ) ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) Σ h ∈ H P ( h | n j ) Π i Σ n F A + n F C = 2 n M A + n M C = 2 P ( n F A , n F C , n M A , n M C ) P ( t E , ij A , t E , ij C , D F , ij D M , ij | Q , n j , h , n F A , n F C , n M A , n M C ) )
× ( Π k = j Σ n k ∈ { 1,2,3 } P ( n k ) Σ h ∈ H P ( h | n k ) Π i Σ n F A + n F C = 2 n M A + n M C = 2 P ( n F A , n F C , n M A , n M C ) P ( t E , ik A , t E , ik C , D F , ik D M , ik | Q , n k , h , n F A , n F C , n M A , n M C ) ) dQ
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) Σ h ∈ H P ( h | n j ) Π i Σ n F A + n F C = 2 n M A + n M C = 2 P ( n F A , n F C , n M A , n M C ) P ( t F , ij A | n F A Q ′ ) P ( t F , ij C | n F C Q ′ ) P ( t M , ij A | n M A Q ′ ) P ( t M , ij C | n M C Q ′ )
× Σ n A + n C = n j P ( n A , n C | n j , h , n F A , n F C , n M A , n M C ) P ( t E , ij A | Q , n A ) P ( t E , ij C | Q , n C ) )
× ( Π k ≠ j Σ n k ∈ { 1,2,3 } P ( n k ) Σ h ∈ H P ( h | n k ) Π i Σ n F A + n F C = 2 n M A + n M C = 2 P ( n F A , n F C , n M A , n M C ) P ( t F , ik A | n F A Q ′ ) P ( t F , ik C | n F C Q ′ ) P ( t M , ik A | n M A Q ′ ) P ( t M , ik C | n M C Q ′ )
× Σ n A + n C = n C P ( n A , n C | n k , h , n F A , n F C , n M A , n M C ) P ( t E , ik A | n A Q ) P ( t E , ik C | n C Q ) ) dQ ( * )
这里假设Q’,Q为对亲本数据是已知。
拷贝数先验概率
方程式(*)依赖于能够计算P(na)和P(nx)的值,染色体拷贝数的先验概率的分布是不同的,这个依赖于它是常染色体还是X染色体。如果这些数据对每个染色体都可以使用,那么他们就可以被使用。如果他们不是对所有染色体都适用,或者不可靠,那么一些分布可以假设。对常染色体,先验概率为 P ( n a = 1 ) = P ( n a = 2 ) = P ( n a = 3 ) = 1 3 , 对于性染色体XY或XX,概率为1/2。 P ( n X = 0 ) = 1 3 × 1 4 = 1 12 . , P ( n X = 1 ) = 1 3 × 3 4 + 1 3 × 1 2 + 1 3 × 1 2 × 1 4 = 11 24 = 0.458 , 其中,3/4是为单染色体X(相反的为Y)的概率,1/2是为对两个染色体来说为XX的概率,1/4是第三个染色体为Y的概率。 P ( n X = 3 ) = 1 3 × 1 2 × 3 4 = 1 8 = 0.125 , 其中,1/2是为对两个染色体来说为XX的概率,1/4是第三个染色体为X的概率。 P ( n X = 2 ) = 1 - P ( n X = 0 ) - P ( n X = 1 ) - P ( n X = 3 ) = 4 12 = 0.333 .
非整倍体状态的先验概率
等式(*)依赖于能够计算P(h|nj)的值,这些列于表6中。在表6中使用的符号在下面作解释
Figure G2008800161237D00431
注意,熟悉此领域的人,在阅读完此说明书后,能够知道有许多其他的方法赋值或估算先验概率,并不改变本专利的本质概念。
没有亲本信息的等位基因分布模型
方程式(*)依赖于能够计算P(nA,nC|nα,i)和P(nA,nC|nX,i)值。这些值可以通过假设等位基因模式(nA,nC)为独立同分布(i.i.d)而被计算得出,其中,独立同分布是根据在位点i上的它的字母(A或C)的等位基因频率。在此举出一个说明性的例子。在假设A的等位基因频率为60%,和C的最小等位基因频率为40%的条件下,计算P((2,1)|n7=3)。(此外,注意P((2,1)|n7=2)=0,因为在这种情况下,配对和必须为2)这个概率表示为:
P ( ( 2,1 ) | n 7 = 3 ) = 3 2 ( . 60 ) 2 ( . 40 )
更普遍适用的方程为:
P ( n A , n C | n j , i ) = n n A ( 1 - p ij ) n A ( p ij ) n C
其中,pij为染色体j的位点i上的最小等位基因频率。
合并亲本基因型的等位基因分布模型
方程式(*)依赖于能够计算P(nA,nC|nj,h,TF,ijTM,ij)的值,这些值列于表7中。在实际的情况下,将知道双亲中,其中之一的LDO,表格内容将需要扩增。如果知道双亲两者的LDO,可以使用在不知道双亲信息的等位基因分布模型章节中讨论的模型。
亲本真实的人口频率
方程式(*)依赖于能够计算P(TF,ijTM,ij)。双亲基因型的组合概率可以根据人口频率计算。例如,P(AA,AA)=P(A)4和,和P(AC,AC)=Pheteroz 2,其中Pheteroz=2P(A)P(C)是在位点i上,倍数染色体样本为杂合子的概率。
误差模型
方程式(*)依赖于能够计算P(tA|Q,nA)和P(tC|Q,nC)值。为此,一种误差模型是需要的。可以使用下列的误差模型:
Figure G2008800161237D00451
这个误差模型在本说明书的其他地方也被使用,上述的四种情况在那里也做了描述。通过朴素模式匹配算法(brute-force)的MAP数学估算实施的计算因素,也在同样的章节中描述。
计算复杂性估计
如下,重写方程式(*),
n ^ j
= arg max n j ∈ { 1,2,3 } ∫ f ( Q ) ( P ( n j ) Π i Σ n A + n C = n j P ( n A , n C | n j , i ) P ( t i , j A | Q , n A ) P ( t i , j C | Q , n C ) )
× ( Π k = j Σ n k ∈ { 1,2,3 } P ( n k ) Π i Σ n A + n C = n k P ( n A , n C | n k , i ) P ( t i , k A | Q , n A ) P ( t i , k C | Q , n C ) ) dQ ( * )
P(nA,nC|nj,i)计算时间表示为tx,P(ti,j A|Q,nA)或P(ti,j C|Q,nC)为ty。注意,P(nA,nC|nj,i)可以预先计算,因为它们的值不随实验的不同而变化。
对于这里的讨论,命名完整23-染色体的非整倍体筛选为一个“实验”。23染色体的 Π i Σ n A + n C = n j P ( n A , n C | n j , i ) P ( t i , j A | Q , n A ) P ( t i , j C | Q , n C ) 计算表示,其中,如果nj=1,(2+tx+2*ty)*2N*m;如果nj=2,(2+tx+2*ty)*3N*m;如果nj=3,(2+tx+2*ty)*4N*m
在此的时间单位是乘或加的时间
总计,表示为(2+tx+2*ty)*9N*m
一旦这些构件被计算,总积分也可以计算,这将花时间在(2+tx+2*ty)*9N*m*q顺序上。最后,比较2*m确定对nj的最佳估计。因此,总的计算复杂性为O(N*m*q)。
下面介绍了原始推导的重推导,略有差别,重点是为了说明数学编程。注意,下面的变量D不是真正的变量。它总是为常数,设置为存在于实际问题中的数据集的值,所以当存在于Matlab中,它不表示引入了另一个数组维数。然而,变量Dj因为指数j的存在,它代表一种数组维数。
n ^ j = arg max n j ∈ { 1,2,3 } P ( n j , D )
P ( n j , D ) = Σ Q P ( n j , Q , D )
P(nj,Q,D)=P(nj)P(Q)P(Dj|Q,nj)P(Dk=j|Q)
P ( D j | Q ) = Σ n j ∈ { 1,2,3 } P ( D j , n j | Q )
P(Dj,nj|Q)=P(nj)P(Dj|Q,nj)
P ( D j | Q , n j ) = Π i P ( D ij | Q , n j )
P ( D ij | Q , n j ) = Σ n A + n C = n j P ( D ij , n A , n C | Q , n j )
P ( D ij , n A , n C | Q , n j ) = P ( n A , n C | n j , i ) P ( t ij A | Q , n A ) P ( t ij C | Q , n C )
P ( n A , n C | n j , i ) = n n A ( 1 - p ij ) n A ( p ij ) n C
Figure G2008800161237D00474
E定性染色体拷贝数分型
确定在目标个体基因组中的染色体片段的拷贝数的方法在此描述,其中,目标个体的基因组通过整合目标个体的基因信息和相关个体的基因信息形成一种假设,并计算最可能的假设,而得来。在本发明的一种具体实施方案中,非整倍体分型的方法可改为使用纯粹的定性数据。有许多方法能够解决这个问题,其中几种方法在此给出。熟悉此领域的人,能够很容易的知道如何使用其他的方法而达到同样的结果,这些不会改变本发明的本质。
定性CNC的符号
1.是染色体上的SNPs数目总和
2.n是染色体的拷贝数
3.nM是通过母亲提供给胎儿的拷贝数:0,1,or 2.
4.nF是通过父亲提供给胎儿的拷贝数:0,1,or 2.
5.pd是脱扣比率,f(pd)是比率的优先值。
6.pa是脱入比率,f(pd)是比率的优先值。
7.c为no-call的截止阈值。
8.D=(xk,yk)是反应在SNP k的通道X和Y上的平台。
9. D ( c ) = { G ( x k , y k ) ; c } = { g ^ k ( c ) } 是染色体上的基因分型的集合。注意,基因分型依赖于no-call截止阈值c。
10.
Figure G2008800161237D00482
是在k-th SNP上的基因分型(相对于真值):AA,AB,BB,或NC(no-call)之一。
11.给定在SNP k的基因型分型
Figure G2008800161237D00483
变量
Figure G2008800161237D00484
为指示变量(1或0),表示基因型
Figure G2008800161237D00485
是否暗示通道X或Y“可用”。形式上,当包含等位基因A时, g ^ X = 1 , 和当包含等位基因B时, g ^ Y = 1 .
12. M = { g k M } 是母系的已知基因型分型的实际序列。gM表示在某些特定位点上的基因型值。
13. F = { g k F } 是父系的已知基因型分型的实际序列。gF表示在某些特定位点上的基因型值。
14.nA,nB表示胎儿的实际A和B的拷贝数(暗指在基因座k上)。值在{0,1,2,3,4}之内。
15.cM A,cM B是分别由母系提供给胎儿(暗指基因座k)的等位基因A和等位基因B的数量。这个值在{0,1,2}范围,加和为小于2.同样的,cF A,cF B是分别由父系提供给胎儿(暗指基因座k)的等位基因A和等位基因B的数量。总而言之,这四个值精确的确定了胎儿的实际基因型。例如,如果值为(1,0)和(1,1),那么胎儿基因型为AAB。
解决方案1:等位基因脱扣率和脱入率的积分
在此描述的在本发明的具体实施方案中,解决方法仅应用到单染色体上。实际上,所有染色体间的松散耦合有助于确定等位基因脱扣率pd,但是在此描述的数学式仅用于对单染色体。熟悉此领域的人应该清楚的知道随着不同实验的如何对更少的,更多的,或不同的参数积分。熟悉此领域的人也应该明白如何应用该方法在同一时间处理多种染色体,同时对ADO和ADI积分。进一步的描述在下面的解决方案3B中给出。
P ( n | D ( c ) , M , F ) = Σ ( n M , n F ) ∈ n P ( n M , n F | D ( c ) , M , F )
P ( n M , n F | D ( c ) , M , F ) = P ( n M ) P ( n F ) P ( D ( c ) | n M , n F , M , F ) Σ ( n M , n F ) P ( n M ) P ( n F ) P ( D ( c ) | n M , n F , M , F )
P ( D ( c ) | n M , n F , M , F ) = ∫ ∫ f ( p d ) f ( p a ) P ( D ( c ) | n M , n F , M , F , p d , p a ) dp d dp a
P ( D ( c ) | n M , n F , M , F , p d , p a ) = Π k P ( G ( x k , y k ; c ) | n M , n F , g k M , g k F , p d , p a )
= Π g M ∈ { AA , AB , BB } g F ∈ { AA , AB , BB } g ^ ∈ { AA , AB , BB , NC } Π { k : g k M = g M , g k F = g F , g ^ k ( c ) = g ^ } P ( g ^ | n M , n F , g M , g F , p d , p a )
= Π g M ∈ { AA , AB , BB } g F ∈ { AA , AB , BB } g ^ ∈ { AA , AB , BB , NC } P ( g ^ | n M , n F , g M , g F , p d , p a ) | { k : g k M = g M , g k F = g F , g ^ k ( c ) = g ^ } |
= exp ( Σ g M ∈ { AA , AB , BB } g F ∈ { AA , AB , BB } g ^ ∈ { AA , AB , BB , NC } | { k : g k M = g M , g k F = g F , g ^ k ( c ) = g ^ } | × log P ( g ^ | n M , n F , g M , g F , p d , p a ) )
P ( g ^ X | n A , p d , p a )
= ( g ^ X ( ( 1 - p d n A ) + ( n A = 0 ) p a )
+ ( 1 - g ^ X ) ( ( n A > 0 ) p d n A + ( n A = 0 ) ( 1 - p a ) ) )
其他的推导是相同的,除了应用于通道Y。
P ( n A , n B | n M , n F , g M , g F , ) = Σ c M A + c F A = n A c M B + c F B = n B P ( c M A , c M B | n M , g M ) P ( c F A , c F B | n F , g F )
P ( c M A , c M B | n M , g M ) = ( c M A + c M B = n M ) ( c M B = 0 ) , g M = AA ( c M A = 0 ) , g M = BB 1 n M + 1 , g M = AB
其他的推导是相同的,除了应用于父系。
解决方案2:使用ML估算最佳截止阈值c
解决方案2,变化A
c ^ = arg max c ∈ ( 0 , a ) P ( D ( c ) | M , F )
P ( n ) = Σ ( n M , n F ) ∈ n P ( n M , n F | D ( c ^ ) , M , F )
在这个具体实施方案中,首先可以根据数据使用ML估算而得到最佳的截止阈值的估计,接着使用c做标准贝叶斯推理,如在解决方案1中描述的。注意,如写出的,
Figure G2008800161237D00505
的估算也包括对所有脱扣和脱入率进行积分。然而,众所周知,因为,当关系到c时,脱扣和脱入参数将被调节到它们的最佳,那么脱扣和脱入参数将倾向于急剧高峰值的概率,可以通过下列描述,保存计算时间:
解决方案2,变化B
c ^ , p ^ d , p ^ a = arg max c , p d , p a f ( p d ) f ( p a ) P ( D ( c ) | M , F , p d , p a )
P ( n ) = Σ ( n M , n F ) ∈ n P ( n M , n F | D ( c ^ ) , M , F , p ^ d , p ^ a )
在这个具体实施方案中,没必要对脱扣和脱入参数做二次积分。在第一行中,方程式给了所有可能的三倍数。在第二行中,仅使用了最佳三倍数执行推论计算。
解决方案3:染色体间数据整合
给定阈值和脱扣/脱入参数,不同染色体间的数据是条件性独立的,所以将它们整合的一个原因是在阈值和脱扣/脱入参数上得到更好的解决方法,其中,假设所有染色体的阈值和脱扣/脱入参数为常数(有好的科学依据相信他们为粗略常数)。在本发明的一种具体实施方案中,给定这些观测推论,在上述解决方案3中,可以使用简单更正的这种方法。一旦使用所有的染色体,可以估算它们的阈值和脱扣/脱入参数,而不是独立的估算每个染色体的阈值和脱扣/脱入参数。
符号
因为所有染色体数据被整合,使用下标j表示染色体j-th。例如,Dj(c)是使用c作为no-call阈值的在染色体j上的基因型数据。类似地,Mj,Fj表示在双亲染色体j上的基因型数据。
解决方案3,变化A:使用所有的数据估算阈值,脱扣/脱入率
c ^ , p ^ d , p ^ a = arg max c , p d , p a f ( p d ) f ( p a ) Π j P ( D j ( c ) | M j , F j , p d , p a )
P ( n j ) = Σ ( n M , n F ) ∈ n j P ( n M , n F | D j ( c ^ ) , M j , F j , p ^ d , p ^ a )
解决方案3,变化B:
理论上,这是在染色体j上的染色体拷贝数的最佳估算。
n ^ j
= arg max n Σ ( n M , n F ) ∈ n ∫ ∫ f ( p d ) f ( p a ) P ( D j ( c ^ ) ) | n M , n F , M j , F j , p d , p a ) Π i ≠ j P ( D i ( c ^ ) ) | n M , n F , M i , F i , p d , p a ) dp d dp a
从已知样本估算脱扣/脱入率
为了完整起见,在这里简要的描述了脱扣和脱入率。因为脱扣和脱入率对运算十分重要,它有利于根据事实模型分析数据并得出事实脱扣/脱入率。注意,不存在单独事实脱扣率:它是截止阈值的函数。即,如果存在可作为事实模型的高可信度的基因数据,那么可以得出MDA实验的脱扣/脱入率,作为截止阈值的函数。在此使用最大可能性估算。
c ^ , p ^ d , p ^ a = arg max c , p d , p a Π jk P ( g ^ jk ( c ) | g jk , p d , p a )
在上述等式中,
Figure G2008800161237D00524
表示使用c作为截止阈值的染色体j的在SNP k上的基因型分型,而gjk是从基因组样本中确定的事实基因型。上述等式回答了最可能的阈值,脱扣,和脱入的三倍数。熟悉此领域的人能够明白如何在没有亲本信息的条件下,使用有关目标细胞的每个SNPs的基因型的优先概率而实现此项方法,这将不会破坏工作的有效性,也不会改变本发明的特性。
G贝叶斯定理加精子方法
在此描述了另外一种确定目标个体基因组中一个染色体片段拷贝数的方法。在本发明的一种具体实施方案中,源于父系精子的基因信息和交叉图的使用能够增强在此描述的方法。在整个描述中,假设一个染色体为感兴趣的染色体,所有的符号都是有关此染色体。同时假设对于基因型具有固定的截止阈值。前面注释的有关截止阈值选择的影响,在此应用,但是不做详解。为了最好的定相胚胎信息,应该同时组合源于多倍体晶胚的所有分裂球的信息。在此,为了方便说明,假设只有一个晶胚,没有另外的分裂球。然而,在其他章节提到的有关使用多重分裂球做等位基因分型的技术,在此可以直接使用。
符号
1.n是染色体拷贝数
2.nM是由母系提供给胎儿的拷贝数:0,1,or 2.
3.nF是由父系提供给胎儿的拷贝数:0,1,or 2.
4.pd是脱扣率,f(pd)是此比率的预先值。
5.pa是脱入率,f(pa)是此比率的预先值
6. D = { g ^ k } 是在胎儿染色体上的基因型测定集。
Figure G2008800161237D00532
是在k-thSNP上的基因型分型(相对于真实值):AA,AB,BB,或NC(未分型)之一.注意,胎儿可能是非整倍体,这种情况下在SNP上的基因型可以是,例如,AAB,或更者为AAAB,但是基因型测定总是上面所列四种中的一种。(注意:在本说明中的其他地方,“B”指杂合基因座。而在此使用B,不是这个意思。在此“A”和“B”是指在给定SNP上的两种可能的等位基因值)
7. M = { g k M } 是母系的真实已知基因型序列。gk M是在k-th SNP上的基因型值。
8. F = { g k F } 是父系的真实已知基因型序列。gk F是在k-th SNP上的基因型值。
9. S = { g ^ k S } 是源于父系的精子上的基因型测定数集。
Figure G2008800161237D00536
是在k-th SNP上的基因型分型。
10.(m1,m2)是在母系上的实际但是为未知的有序对单倍型信息。m1k是在第一个单倍型序列的SNP k上的等位基因值。m2k是在第二个单倍型序列的SNP k上的等位基因值。(m1,m2)∈M用于表明定相对(m1,m2)的集合,这个跟已知的基因型M相一致。同样的, ( m 1 , m 2 ) ∈ g k M 表示定相对的集合,这跟已知的母系在SNP k的基因型一致。
11.(f1,f2)是在父系上的实际但是为未知的有序对单倍型信息。f1k是在第一个单倍型序列的SNP k上的等位基因值。f2k是在第二个单倍型序列的SNP k上的等位基因值。(f1,f2)∈F用于表明定相对(f1,f2)的集合,这个跟已知的基因型f相一致。同样的, ( f 1 , f 2 ) ∈ g k F 表示定相对的集合,这跟已知的父系在SNP k的基因型一致。
12.s1是实际但是未知的源于父亲测定精子的定相单倍型信息。s1k是此单倍体序列的在SNP k上的等位基因值。可以保证这个精子是整倍体,其中,通过检测几个精子并选出为整倍体的一个。
13.χM={φ1,…,φnM}是交叉图的多重集,导致在这个染色体上母系对胎儿的贡献。相似的,χF={θ1,…,θnF}交叉图的多重集,导致在这个染色体上父系对胎儿的贡献。在此,染色体为非整倍体的概率已经清楚的模拟。每个双亲可能对胎儿贡献0,1或2个染色体拷贝。如果染色体为常染色体,那么整倍体的情况源于父系或母系提供了一种精确的拷贝,即,χM={φ1}和χF={θ1}。但是整倍体仅为3×3=9可能情况中的一种。剩下的八个都为不同种类的非整倍体。例如,在源于一种M2拷贝误差的母系三体性,也可能为χM={φ1,φ1}和χF={θ1}。在源于一种M1拷贝误差的母系三体性的条件下,可能为χM={φ1,φ2}和χF={θ1}。(χM,χF)∈n用于表示子假说对集(xM,xF),它与拷贝数n一致。χk M用于表示{φ1,k,…,φnM,k},限制于k-thSNP的多重集交叉图值,对于χF有相似表示。χk M(m1,m2)用于表示等位基因值 { φ 1 , k ( m 1 , m 2 ) , · · · , φ n M , k ( m 1 , m 2 ) } = { m φ 1 , k , · · · , m φ n M , k } 的多重集。记住φ1,k∈{1,2}。
14.ψ为交叉图,导致源于父系的在精子上的测量。因此,s1=ψ(f1,f2)。注意,没必要考虑交叉的多重集,因为假设测量的精子为整倍体。ψk表示在k-th SNP上的交叉图值。
15.记住前面两个定义,{e1 M,…,en MM}为实际但是未知单倍体系列的多重集,其中单倍体序列由在这个染色体上的母系提供给胎儿。明确的, e 1 M = φ 1 ( m 1 , m 2 ) , 其中,φ1是多重集χM中的1-th项,和e1k M是在k-thSNP上的等位基因值。相似的,{e1 F,…,en FF}为实际但是未知单倍体系列的多重集,其中单倍体序列由在这个染色体上的父系提供给胎儿。 e 1 F = θ 1 ( f 1 , f 2 ) , 其中θ1是多重集χF的1-th项,和f1k M是在k-th SNP上的等位基因值。同时,可写为 { e 1 M , · · · , e n M M } = χ M ( m 1 , m 2 ) , { e 1 F , · · · , e n F F } = χ F ( f 1 , f 2 ) .
16. P ( g ^ k | χ k M ( m 1 , m 2 ) , χ k F ( f 1 , f 2 ) , p d , p a ) 表示在SNP k上的胎儿基因型检测的可能性,其中,给定假设实际在胎儿中的潜在基因型和给定假设潜在的脱扣和脱入率。注意,χk M(m1,m2)和χk P(f1,f2)都为多重集,所以能够表示非整倍的基因型。例如, χ k M ( m 1 , m 2 ) = { A , A } χ k F ( f 1 , f 2 ) = { B } 表示母系三染色体基因型AAB。
注意在这种方法中,对于母系或父系的测定被认为为已知事实,然而在本说明书的其他地方,它们只代表一种检测。因为亲本的检测是非常准确的,把它们看似已知事实,是把它们作为相对于事实的合理的近似值。在这里把它们当作已知事实是为了证明假设是如何操作的,尽管熟悉此领域的人清楚地知道在本专利中其他地方使用的更精确的方法,可以同样很好的被使用。
解决方法
n ^ = arg max n P ( n , D , M , F , S )
P ( n , D , M , F , S ) = Σ ( χ M , χ F ) ∈ n Σ ψ P ( χ M , χ F , ψ , D , M , F , S )
= Σ ( χ M , χ F ) ∈ n P ( χ M ) P ( χ F ) Σ ψ P ( ψ ) ∫ f ( p d ) ∫ f ( p a ) Π k P ( g ^ k , g k M , g k F , g ^ k S | χ k M , χ k F , ψ k , p d , p a ) dp d dp a
= Σ ( χ M , χ F ) ∈ n P ( χ M ) P ( χ F ) Σ ψ P ( ψ ) ∫ f ( p d ) ∫ f ( p a )
× Π k Σ ( f 1 , f 2 ) ∈ g k F P ( f 1 ) P ( f 2 ) P ( g ^ k S | ψ k ( f 1 , f 2 ) , p d , p c ) Σ ( m 1 , m 2 ) ∈ g k M P ( m 1 ) P ( m 2 ) P ( g ^ k | χ k M ( m 1 , m 2 ) , χ k F ( f 1 , f 2 ) , p d , p a ) dp d dp a
如何计算在上面最后一个方程中出现的每个概率,在本说明书中其他地方有描述。计算上述最后一个方程式中每个概率值的方法,在本说明书的其他地方也被描述。尽管可以加入多重精子以便增加拷贝数分型的概率,实际上,一种精子就足够。这个方程对于数量少的精子在计算上是容易地。
H使用极纯合子简化的方法
在本发明的另一种具体实施方案中,可以实施一种相似的方法确定染色体的拷贝数,其中该方法可以通过使用在一种简化的方法中的有限的SNPs子集。该方法为纯粹的定性方法,使用双亲数据,和专注于SNPs的一种子集,所谓的极纯合子(下面做描述)。极纯合子表示母系和父系在SNP上都是纯合子,但是纯合子是相反的或具有不同的等位基因值。因此,母系可能是AA,父系可能为BB,反之亦然。因为实际的等位基因值是不重要的-仅表示它们相互间的关系,即,相反-母系的等位基因为MM,那么父系的为FF。在这种情况下,如果胎儿是整倍体,那么它必须为在那个等位基因上的杂合子。然而,由于等位基因脱扣,在胎儿上的杂合的SNP不被叫做杂合子。事实上,给定有关单细胞扩增的高脱扣率,在胎儿上的杂合的SNP更可能被叫做MM或FF,这两种具有相同的概率。
.在这个方法中,仅关注为极纯合子的那些特定染色体上的那些基因座,对于它们来说,胎儿因此为杂合子,但是虽然如此,它们被叫做纯合子。可以组成统计量|MM|/(|MM|+|FF|),其中,|MM|是在胎儿上的被叫做MM的这些SNPs的数目,|FF|是在胎儿上的被叫做FF的这些SNPs的数目。
在整倍体假设的条件下,|MM|)/(|MM|+|FF|)是高斯类型,平均值为1/2,方差为1/4N,其中,N=(|MM|+|FF|)。因此,此统计值完全独立于脱扣率,或,其他任何因素。由于结构的对称性,在假设为整倍体的条件下的这个统计值分布是已知的。
在三倍体的假设下,统计值没有1/2的平均值。如果,例如,胎儿为MMF三倍体,那么在胎儿中的纯合子分型倾向于MM,而偏离FF,反之亦然。注意,因为只有双亲为纯合子的基因座才被考虑,所以没必要区分M1和M2的拷贝误差。在所有的情况下,如果母系提供2个染色体而不是1个,那么它们将为MM,无论其背后的原因,对于父系来说情况类似。三体性的情况下的精确平均将依赖于脱扣率,p,但是平均值都不可能大于1/3,当p=1时,极限值为1/3。在单体性的情况下,平均值为0,除非由于等位基因脱入引起的噪音。
在这个具体实施方案中,没必要建立非整倍体情况的分布模型,但是仅需要拒绝整倍性的零假设,其中,整倍性的分布是完全已知的。对于胚胎来说,在预定的显著水平下,不能拒绝零假设,那么胚胎被视为正常。
在本发明的另外一种具体实施方案中,纯合基因位点,不产生在胎儿上的no-call(NC),包含信息,和被包含在计算中,产生更多的被考虑的基因座。在另外一种具体实施方案中,那些位点不为纯合基因,但是遵循AA|AB模式,也可以被包含在计算中,产生更多被考虑的基因座。熟悉此领域的人能清楚的知道如何修改此方法,以便使这些额外的基因座被包括在计算中。
I如应用到等位基因分型的,PS方法实践的还原
为了证明还原到PS方法的实践,能应用到清除目标个体的基因数据,和它相关的等位基因分型确信信息,广泛的蒙特卡罗模拟被运行。PS方法的确信数目与在这种模拟下产生的正确分型的观测率是相匹配的。这些模拟的详细内容在单独的文档中给出,这样有利于主张本发明的权利。此外,PS方法的这个方面已经被简化到在真实的三个一组的数据中实践(母亲,父亲和出生的孩子)。结果列于下表8中。TaqMan实验被用于测定单细胞基因型数据,此数据包括源于父系的大量口腔样本的倍数染色体的检测(列p1,p2),源于母系(m1,m2)的大量口腔样本的倍数染色体的检测,源于父系的三个单独精子(h1,h2,h3)的单倍体检测,和来源于三组中出生孩子的大量口腔样本的四个单细胞的倍数染色体检测。注意,所有倍数染色体数据是无序的。所有的SNPs都来源于7号染色体,在CFTR基因的2Mb内,它的缺失将导致膀胱纤维症。
目标通过在测量数据上运行PS,其中测量数据源于单个孩子口腔细胞(e1,e2),来是估算(在E1,E2)孩子的等位基因。该口腔细胞作为感兴趣胎儿细胞的一种代表。因为没有母系的单体型序列可以使用,源于孩子样本的三个附加的单细胞-(b11,b12),(b21,b22),(b22,b23),以同样的方式被使用,即,一旦父系的单体型可由精子确定,从其他胚胎中得到的附加分裂球被用于推断母系的单体型。
这个过程将产生94一致的SNPs。这些根据ABI 7900读数仪,具有有效的基因型分型,并在代表胚胎的孩子细胞上的基因座被挑选出。对于69SNPS的每个,公开的方法确定了在胚胎上(E1,E2),消除干扰的等位基因分型,以及与每个基因型分型相关的确定信息。
源于孩子细胞的在未清理的基因数据中的69原始等位基因分型中的29%是不正确的(列e1和e2,表8)。列(E1,E2)给出69原始等位基因分型的18PS正确的数据(列E1,E2,但是不在列‘conf’,表8),同时,还有两个错误分型(2.9%的错误率,列‘conf’,表8).注意,错误分型的两个SNPs有低的置信度53.8%和74.4%。这些低的置信度表示这些分型可能是错误的,要么由于缺少数据,或者由于在多重精子或‘分裂球’的不一致的检测造成。在基因型分型上产生的置信度是PS报道的完整部分。注意,分型在染色体上的69SNPs的实证,比在实际中遇到的情况更加困难,因为在实际中建立在筛选双亲信息基础上,仅有一个或两个基因座的基因型被关注。在一些具体实施方案中,公开的方法将得到在感兴趣的基因座上的高准确度的分型:i)不断测定单精子,直到在感兴趣基因座上得到多重单倍体等位基因分型;ii)包括额外的分裂球测定;iii)整合排出极体的母系单倍体数据,这个在今天胚胎植入前的基因诊断中,普遍使用的活组织检查。熟悉该领域的人知道存在其他的改进方法以便能够增加检测的准确度,以及如何在不改变本发明本质概念的基础上,实施这些方法。
J应用于非整倍体分型的,简化到PS方法的实践
为了证明在此公开的本发明的某些方面的实际操作的简化,该方法被用于在几个单细胞集上的非整倍体的分型。在这种情况下,仅适用从基因分型平台挑选出的数据:源于双亲和胚胎的基因型信息。一种简单的基因分型计算,被称为“pie slice”,被使用,它显示出在基因组信息上的大约99.9%的正确度。它在MDA数据中显示较低的正确度,是由于在MDA中干扰的存在。当在MDA中有相当高的“脱扣”率时,这种计算将更加准确。它也关键性的依赖于能根据脱扣率和脱入率参数模拟出各种基因分型误差的概率。
未知的染色体拷贝数需要被推断得出,因为不同的拷贝数与不同的脱扣率,脱入率,和基因分型运算相互影响。通过建立统计模型来明确脱扣率,脱入率,染色体拷贝数,和基因型截止阈值的所有相互关系,那么就有可能通过使用标准统计推论方法得出未知的染色体拷贝数。
在此描述的非整倍体检测的方法被叫做定性CNC或简称为qCNC,它引入基本的统计推论的方法,如最大可能性估计,极大后验估计,和贝叶斯推理。这些方法非常类似,仅有细微差别。在此描述的方法与那些在前面描述的方法类似,为了方便起见,在这里被总结。
最大可能性(ML)
X1,…,Xn~f(x;θ)。这里的Xi是独立的,相同分布的随机变量,根据属于分布参数化向量θ家族的概率分布得来。例如,分布家族可能是所有高斯分布的家族,在这种情况下,θ=(μ,σ)可能是确定问题中特定分布的平均或变化值。问题如下:θ是未知的,目标是仅根据X1,…,Xn数据的观测值,得到它的好的估算。最大可能性解决办法表示为
θ ^ = arg max θ Π i f ( X i ; θ )
极大后验估计(MAP)
假设先验概率f(θ),能确定实际观察参数θ的先验概率,那么我们可以写作X1,…,Xn~f(x|θ)。MAP方程可以写为: θ ^ = arg max θ f ( θ ) Π i ( f ( X i | θ )
注意,当具有一致(可能不正确的)先验分布时,ML方程相等于MAP方程。
贝叶斯推理
当θ=(θ1,…,θd)为多维度时,贝叶斯推论才适应,但是仅需要估算参数θj的子集(代表性的一个)。在这种情况下,如果有先验参数,那么就能积分出不感兴趣的其他参数。在不损失通用性的条件下,假设θ1是估算所需的参数。那么贝叶斯推论可表示为: θ ^ 1 = arg max θ 2 f ( θ 1 ) ∫ f ( θ 2 ) · · · f ( θ d ) Π i ( f ( X i | θ ) dθ 2 · · · dθ d .
拷贝数分类
任何一种或几种上述方法的组合可以被用于确定拷贝数的计算,以及当得出等位基因分型,例如在清除胚胎基因信息上。在一种具体实施方案中,数据可能来于Infinium平台测定{(xjk·yjk)},其中xjk是相对于染色体j的SNP k的在通道Y上的平台。这种方法的有效性关键在于选择的分布族,从中假设这些数据被得出。在一种具体实施方案中,这些分布通过许多参数而被参数化。这些参数负责描述例如探针效率,平台干扰,MDA特性,例如,脱扣,脱入,和全部的扩增平均数,最后,基因参数:亲本的基因型,胚胎的真实但是未知的基因型,和感性兴趣的参数:由母系或父系提供给胚胎的染色体拷贝数。
在一种具体实施方案中,很多信息在数据处理前被舍弃。这种做法的优势是可能以更加坚定的方式得到这些数据。不使用原始平台数据{(xjk,yjk)},可能通过运行这些数据的基因型运算法则而预处理这这些数据。这将得到基因型分型{gjk}的集合,其中,gjk∈{NC,AA,AB,BB}。NC表示“无分型”。将这些带入上面的贝叶斯推论范例,得到:
n ^ j M , n ^ j F = max n M , n F ∫ ∫ f ( p d ) f ( p a ) Π k P ( g jk | n M , n F , M j , F j , p d , p a ) dp d dp a
符号解释:
Figure G2008800161237D00622
为分别由父系或母系提供给胚胎的染色体的估计数。对于常染色体这些数目总和应为2,在整倍体的情况下,即,父系或母系应该提供精确的一个染色体。
pd和pa分别为基因型的脱扣和脱入率。这些反应了一些模型假设。已知的在一些单细胞扩增中,一些SNPs“脱扣”,是指它们不被扩增,结果是当SNP基因型试图在Infinium平台上时,它们不显示出来。这一现象可以通过在每个SNP脱扣的每个等位基因在MDA相期间,独立于概率pd而建模。同样的,平台也不是个完美的检测仪器。由于检测干扰,有时检测仪器得到假信号,假信号可以使用脱入概率模型,脱入概率在每个SNP上是独立的,概率为pa。
Mj,Fj是分别在母系和父系上的实际基因型。并不很完全的知道实际基因型,但是因为源于亲本的大量样本的基因型被判定,就可以假设亲本的实际基因型是本质上已知的。
探针模型
在本发明的一种具体实施方案中,从一种探针变化到另一种探针的平台反应模型或误差模型可以被使用,并不改变本发明的本质性质。由等位基因脱扣,等位基因脱入,或其他因素造成的扩增效率和误差率,不会在不同的探针间发生变化。在一种具体实施方案中,对于特别给定的探针,错误转移矩阵可以得出。平台反应模型,或误差模型,可以与特定的探针相关或根据定量测定而被参数化,其中,定量测定的实施,以致反应模型或者误差模型对于那些特定的探针和测量是明确的。
基因型分型
基因型分型也需要具有固定假设的运算法则。从平台反应(x、,y)到基因型g需要重要的计算。本质上要求x/y平面的正象限被分为AA,AB,BB,和NC区域。此外,在最常规的情况下,有AAA,AAB等等区域是有用的,可以被叫作三染色体性。
在一种具体实施方案中,使用一种特殊的基因分型运算叫作pie-slice运算法则,因为它将x/y平面的正象限分为三角关系,或“pie slices”。那些(x,y)点落在pie slice的X轴,就被叫作AA,那些落在Y轴上的,叫作BB,在中间的被叫做AB。此外,一个小正方形被叠加,它的左下角接触到原点。(x,y)点落到该正方形上,则被指定为NC,因为x和y构成值太小,因此为不可靠值。
这个小正方形的宽度叫作无分型阈值,它是基因型分型运算的一个参数。为了脱入和脱扣模型正确的模拟与基因型分型运算相关的错误转换矩阵,截止阈值必须调节适当。错误转换矩阵表示对每个真实的基因型分型/指定的基因型分型对,观测的指定基因型给出真实基因型的概率。这个矩阵依赖于MDA的脱扣率和对于基因型分型运算的无分型阈值的设定。
注意,对于多种不同的等位基因分型或基因型分型,算法可以在不改变本发明基本概念的基础上被使用。例如,无分型区域可以通过许多不同的图形被定义,除了正方形,还有例如1/4圆弧回转曲面,无分型阈值可能随不同的基因型分型运算法则而发生大的改变。
非整倍体分型实验的结果
在此描述的实验证明了在此公开的方法的还原实践是为了正确分型单细胞的倍数性这个实证有两部分目的:第一,展示公开的方法能正确的分型细胞的倍数性状态,并具有高的置信度,其中通过使用已知染色体拷贝数的样本,包括整倍体和非整倍体样本,其中非整倍体作为对照,第二,展示在此公开的方法能够高置信度的分型细胞的倍数性状态,其中,通过使用未知染色体拷贝数的分裂球。
为了增加置信度,能够进行无数SNPs检测的IlluminaInfinium II平台被使用。为了在PGD的背景下运行该实验,标准的Infinium II实验方案从三天减到20小时。单细胞检测在全和加速的Infinium II实验方案之间比较,它们显示了85%的一致性。提高速度的实验方案显示出在基因座脱扣率(LDO)上的增加,从<1%,增加到5-10%;然而,因为无数的SNPs被测定和PS能够调和等位基因脱扣,所以在LDO率上的增加,不会对实验结果造成显著的消极影响。
整个非整倍体分型方法是通过下列样本完成的:从不同家族的两个健康孩子身上分离出的八个已知的整倍体口腔细胞,从人类永生化三染色体细胞系分离出的十个已知的三染色体细胞,和从用于实验的三个晶胚中分离出的已知染色体数目的六个分裂球。每种上述细胞集的一半通过提速的20-小时实验方案分析,剩下一半通过标准的方案分析。注意,对于永生化的三染色体细胞,没有亲本的数据可使用。结果,对于这些细胞,一对伪亲本基因组是从条件性分布中绘出它们的基因型,其中条件分布是通过观察在大量组织样本的每个基因座上的三染色体的基因型得出的。
在事实已知的地方,该方法能够对每个细胞中每个染色体的倍数性状态进行正确分型,并具有高的可信度。这些数据总结在下面三个表格中。每个表格的第一列给出染色体数,每对颜色相匹配的列表示一个细胞的分析,左边为拷贝数,右边为置信度。每行对应一个特定的染色体。注意,这些表格包含的染色体的倍性信息可以用于报告中,该报告可以帮助医生确定哪个晶胚被选择移入准母体。(注意‘1’可能来于单体性染色体和单性生殖的二体性染色体)。表9给出了八个已知整倍体口腔细胞的结果;所有的发现都为正确的整倍体,并具有高可信度(>0.99)。表10给出十个已知的三染色体细胞的结果(在21号染色体上的三染色体);所有都正确的发现为在21号染色体上的三染色体,和在所有其他染色体上的二体性,并具有高的可信度(>0.92)。表11表示从三个不同晶胚中分离的六个分裂球的结果。因为没有真实模型存在于捐赠的分裂球,所以需要从源于单个晶胚的分裂球之间寻找一致性,然而,在人类晶胚中镶嵌性的频率和特性目前都是未知的,因此,源于共同晶胚的分裂球之间一致性的存在或缺失对指示正确的倍性确定是不必要的。第一组三个分裂球源于同一晶胚(e1),它们中的前两个(e1b1和e1b3)在除了一种之外的所有染色体上具有相同的倍性状态。第三个细胞(e1b6)是复杂的非整倍体。源于第二个晶胚的分裂球在所有染色体上都为单染色体的。源于第三个晶胚的分裂球为复杂的非整倍体。注意,一些可信度低于90%。然而,如果所有的非整倍体假定的可信度组合在一起,所有染色体要么为整倍体或非整倍体,可信度超过92.8%。
J实验室技术
许多技术能够应用于为研究基因型分型的细胞和DNA片段的分离,以及后续的DNA的基因型分型。在此描述的系统和方法能够应用到任何这些技术,特定的包括从母系血液或在IVF的条件下,从晶胚中的分裂球中分离细胞和DNA片段。它同样能应用于in silico基因组数据,即,不从遗传物质直接测定。在本系统的一种具体实施方案中,这个数据可以通过如下的描述获得。这个技术的描述不意味着是详尽的,熟悉此领域的人能清楚的知道其他的实验室技术,也能达到同样的结果
细胞的分离
成人的倍数染色体细胞能够通过大量组织或者血液样本获得。成人的倍数染色体单一细胞可以使用FACS,或荧光激活细胞分类的方法,从全血样本中获得。成人的单倍体单个精子细胞可以使用FACS从精液样本中分离得到。成人的单倍体单个卵细胞可以在IVF过程中,从收获的卵细胞中分离得到。
从人类晶胚分离目标单个细胞分裂球,可以通过体外受精的临床技术,如,胚胎活检的技术中得到。从母系血液中分离目标胎儿细胞可以使用单克隆抗体,或其他技术,如FACS或密度梯度离心的技术得到。
DNA提取,对于本申请,可以为非标准的方法。通过文献阅读比较多种DNA提取的方法,结果发现在一些情况下,新型的方法,比如,添加N-月桂酰肌氨酸,能够得到较高提取效率和产生最少的假阳性。
基因组DNA的扩增
基因组的扩增可以通过多种方法完成,包括:连接介导PCR(LM-PCR),简并寡核苷酸PCR(DOP-PCR),和多重置换扩增(MDA)。在这三种方法中,DOP-PCR能可靠的从少量DNA生成大量的DNA,包括染色体的单拷贝;这个方法对于基因型分型亲本倍数染色体数据是最合适的,在这里数据的真实度最关键。MDA是最快的方法,在数小时内,将生成百倍的DNA扩增;这个方法对基因型分型胚胎细胞是最合适的,或者在需要短时间完成的情况下。
背景扩增是这些方法都存在的问题,因为每种方法都将潜在的扩增污染的DNA。非常少量的污染都将不可避免的影响实验和给出假数据。因此,使用干净的实验环境是关键,前-和后-扩增的工作流程要完全的,身体上的分开。用于DNA扩增的干净的,无污染的工作流程,在工业分子生物学中,为常规程序,需要在细节上的小心仔细。
基因分型实验和杂交
扩增的DNA的基因分型可以通过多种方法完成,其中包括分子转化探针(MIPs),如,Affymetrix’s Genflex阵列,微阵列如Affymetrix’s 500K阵列或Illumina珠阵列,或SNP基因分型实验,如,AppliedBioscience’s TaqMan实验。Affymetrix 500K阵列,MIPs/GenFlex,TaqMan和Illumina实验都需要微克的DNA量,所以使用任何工作流程基因型分型单个细胞,都需要扩增DNA。每种技术根据它的成本,数据质量,定量对定性数据,习惯性,完成实验的时间和可测量的SNPs数,都有多方面的折中。500K和Illumina阵列的一个优势是大的SNPs数,这样就能集合数据,大概为250,000,相对于MIPs的顺序检测10,000SNPs,和TaqMan实验检测的更少。相对于500K阵列,MIPs,TaqMan和Illumina实验的优势在于它们是固定常被使用的方法,允许使用者选择SNPs,然而,500K阵列没有没有允许这样的用户化。
在IVF期间,胚胎植入前诊断的条件下,固有的时间限制是重要的;在这种情况下,为了周转时间牺牲数据的质量是有利的。尽管有其他的清除的优势,标准的MIPs实验步骤是相对耗时的过程,代表性地耗时2.5到三天能完成。在MIPs中,探针对目标DNA的退火和后扩增杂交是显著耗时的,任何这些时间的减少都会造成数据质量的退化。探针对DNA样本的退火时间为过夜(12-16小时)。加上退火和扩增前后的几步,实验步骤的总标准时间达到2.5天。优化MIPs实验的速度可能缩短整个实验过程少于36小时。500K阵列和Illumina实验有较快的完成时间:使用标准的实验方法,大约1.5到两天能得到高可靠的数据。优化这两种方法,估计使用500K阵列和/或Illumina实验做基因型分型实验的完成时间能缩减到少于24小时。TaqMan实验更快,只需要三个小时的时间。对于所有这些方法,实验时间的减少将导致数据质量的下降,然而,这正是本发明计划要阐述的。
自然地,在时间为关键要素的情况下,例如,在IVF期间,基因型分型分裂球,较快的实验相对较慢的实验具有明显的优越性,然而,在时间不是主要压力的情况下,如,在IVF前,基因型分型亲本DNA时,其他的因素将在选择合适方法上占支配地位。例如,存在于从一种技术到另一种技术的另一种权衡是成本相对数据质量。对于重要的实验,使用成本更高的技术得到高质量的数据是有意义的,对于数据精确度不是关键的实验,可以使用成本较低的技术得到质量较低的数据。发展到能够允许足够快速的高通量的基因型分型的任何技术,都能应用于基因分型遗传物质。
同时进行基因座扩增和整个基因组扩增的方法
在用少量遗传物质扩增整个基因组期间,无论使用连接介导PCR(LM-PCR),多重置换扩增(MDA),或其他方法,基因座的脱扣是随机和不可避免发生的。非特定的扩增整个基因组是理想的,但是为了确保特定位点被扩增,可能需要同时扩增目标位点和全基因组。
在一种优选的实施方案中,这种方法的基础是组合标准的目标的聚合酶链式反应(PCR)来扩增特定感兴趣位点和任何普遍化的全基因组扩增方法。这包括,而不限制于:在通过MDA或LM-PCR普遍化扩增前,对特定位点进行预扩增,在LM-PCR的通用PCR步骤中加入目标PCR引物到通用引物中,和加入目标PCR引物,来兼并在MDA中的引物。
K  注释
如前所述,给出了本发明的有益之处,还有更多的具体化体现,在此公开了实现一种或更多种系统,方法和特点。
在所有有关根据亲本信息在目标个体上确定特定定性检测概率的情况下,在阅读完本发明,熟悉该领域的人能够清楚的知道如何使用相似的方法确定目标个体的定量检测概率而不是定性的。无论在什么情况下,目标或相关个体的基因数据是定量的,阅读完此说明书,熟悉此领域的人能清楚的知道如何应用在此公开的技术到定量数据上。
熟悉此领域的人能容易地明白多数参数的改变,不会改变本发明的实质。例如,基因数据可以通过使用任何高通量的基因型分型平台而获得,或者从任何基因型分型的方法获得,或者通过模拟,推断,或任何已知的方法。多种计算的语言可以用来编码运算,如在本发明中描述的,多种计算的平台可以用于执行计算。例如,计算可以使用个人电脑,超型计算机,大规模的平行的计算平台,或基于计算机平台的non-silicon,来完成,就像足够多的人用算盘武装。
在本发明中的一些数学推导提出关于有限非整倍体状态数的假设。在某些情况下,比如,单体性、二体行性和三体性明确的可以使用数学推导来处理。熟悉此领域的人清楚的知道如何使这些数学推导扩大应用于其他非整倍体的形式,例如,缺体(没有染色体存在),quadrosomy,等等,而不改变本发明的基本概念。
当本发明讨论一条染色体时,可能是指一条染色体的一个片段,当讨论一条染色体的一个片段时,也可能指一条全染色体。需要重点指出的是处理一条染色体片段的数学推导和处理整个染色体片段的数学推导是一致的。熟悉这个领域的人应该知道怎样相应的改变方法。
熟悉此领域的人清楚的知道一个相关个体是指任何有遗传关系的个体,因此是和目标个体共享单体型块的个体。一些相关个体的例子包括:生物学父亲,生物学母,儿子,女儿,兄弟,姐妹,同父异母的兄弟,同父异母的姐妹,祖父,祖母,叔叔,姑姑,侄子,侄女,孙子,孙女,表弟,克隆,目标个体自己和其他与目标个体有遗传关系的个体。术语“相关个体”还包括任何胚胎,胎儿,精子,卵子,分裂球,囊胚,或源于相关个体的极体。
需要特别指出的是目标个体可能是指一个成年人,一个青少年,一个胎儿,胚胎,胚泡,一个分裂球,源于某个体的或是细胞系的一个细胞或是一组细胞,或者是任一组遗传物质。目标个体可能是活着的、死了的,冻存的,或是in stasis。
也需要特别注意的是当目标个体为分裂球时,分裂球是用于诊断胚胎的,那么就有由镶嵌性导致的情况出现,即,所分析的分裂球的基因组不与在胚胎中的所有其他细胞的基因组完全匹配。
需要特别指出的是可以使用在此公开的方法研究癌细胞的基因型分型和/或者染色体组型分型,其中,一个或者更多癌细胞被认为是目标个体,患有癌症个体的非癌的组织被认为是相关个体。患有癌症个体的非癌的组织能够提供一套相关个体的基因型分型数据,这将可以使用在此公开的方法确定癌细胞的染色体拷贝数。
需要重点指出的是本文描述的方法涉及到遗传数据的清理,因为所有活的或曾经活着的生物都包含遗传数据,这种方法同样可应用于任何活着的或死了的人,动物或植物,它们从其他个体遗传而得或被遗传得到染色体。
重点注意在许多情况下,在此描述的运算法则使用了先验概率,和/或初始值。在一些案例中,这些先验概率的选择可能会对运算法则的功效和/或效力有影响。熟练此领域的人,在阅读完本文后,知道有许多方式可以赋值或估算出适当的先验概率,而不改变本专利的本质概念。
需要特别指出的是胚胎基因数据能够通过一个分裂球的扩增的DNA测量而获取,胚胎的基因数据可以有多种用途。例如,胚胎基因数据能用来探测非整倍体,单亲的二体性,确定个体性别,以及根据显形相关等位基因做大量的表型预测。目前,在试管婴儿(IVF)实验室,由于技术的使用,在很多情况下,一个分裂球只能提供足够的遗传物质用来测试一种紊乱,如非整倍体,或一种特殊的单基因疾病。因为在此公开的方法都具有共同的第一步,即测定分裂球的一大组的SNPs,无论做出什么类型的预测,医生、父母或者其他代理人不被强迫选择数量有限的紊乱来做筛选。然而,根据医学知识的情况筛选多的基因和/或显形的选择是允许的。使用在此公开的方法,确定筛选优先基因型分型的分裂球的特定条件的一个有利条件是如果某个基因座特别相关,那么更有可能与感兴趣基因座共分离的较适当的一组SNPs可以被选择,从而增加感兴趣的等位基因分型的可信度。
也需要重点指出的是可能通过分子单体型分析的方法进行单体型的定相。因为分离遗传物质成单倍体型是有难度的,大部分基因型分型的方法只能测定同时单倍体型,产生二倍体数据。结果是,每个单倍体基因组的序列不能够被译解。在使用在此公开的方法确定目标基因组的等位基因分型和/或染色体拷贝数的情况下,知道母系的单倍体型是有帮助的。一种解决该问题的办法是通过测序单个DNA分子或DNA分子的克隆种群来测定单倍体型。这个方法的基础是使用任何测序的办法直接确定单倍体型状态,其中,通过直接测序单个DNA分子或DNA分子的克隆种群。这个包括,但不局限于:从基因组到重组DNA构成,克隆扩增的DNA片段和使用传统的终止物标记法测序,分离和测序在群体中的单个分子,和使用下一代的测序方法直接对单个DNA分子或克隆的DNA种群进行测序。
本发明的系统,方法和技术可以被用来与胚胎检查或产前检查程序一起使用。本发明的系统,方法和技术可以被用于提高通过体外受精的胚胎和胎儿成功植入和帮助渡过妊娠期的成功概率。此外,本发明的系统,方法,和技术能够降低通过植入和孕育的体外受精的方式获得的胚胎或胎儿的产生特定先天性缺陷的概率。
因此,根据一些具体实施方案,本发明扩大系统、方法和技术的使用,与胚胎植入前的诊断程序联合。
根据一些具体实施方案,本发明扩大系统、方法和技术的使用,与产前检查程序联。
根据一些具体实施方案,本发明的系统、方法和技术的使用能够减小植入先天缺陷胚胎的可能性,其中,通过检查从体外受精获得的早期胚胎的至少一个细胞,确定没有遗传或者先天性缺陷后,将这些胚胎移入母亲的子宫中。
根据一些具体实施方案,本发明的系统、方法和技术的使用能够减小植入染色体异常胚胎的可能性,其中,通过检查从体外受精获得的早期胚胎的至少一个细胞,确定没有染色体异常后,将这些胚胎移入母亲的子宫中。
根据一些具体实施方案,本发明的系统、方法和技术的使用能够增加通过体外受精胚胎植入的可能性,这样降低携带先天缺陷的风险。
根据一些具体实施方案,本发明的系统、方法和技术的使用增加了孕育胎儿的可能性。
根据首选的具体实施方案,先天缺陷是指畸形、神经管缺陷、染色体异常、唐氏症(或者三体性21)、三体性18,脊柱裂,腭裂,Tay Sachs疾病,镰状细胞性贫血,地中海贫血症,囊肿性纤维化,亨廷顿氏症,和/或脆性X综合征。染色体异常包括但不限于唐氏综合症(额外的染色体21),特纳氏综合症(45X0)和克氏综合征(男性有2X染色体)。
根据首选的具体实施方案,畸形指的是肢体畸形。肢体畸形包括,但不限于无肢畸形,先天性缺指畸形,短肢畸形,多肢,多指趾畸形,并指,多指并指,少指,短指畸形,软骨发育不全,先天发育不全或发育不全,羊膜索综合症,和锁骨颅骨发育不全。
根据首选的具体实施方案,畸形是一种先天性心脏畸形。心脏先天性畸形包括但不限于久存性动脉导管,心房间隔缺损,室中隔缺损,和紫绀四联症。
根据首选的具体实施方案,畸形是先天的神经系统的畸形。神经系统的先天畸形包括但不限于,神经管畸形(如脊柱裂,脊膜膨出,脊髓脊膜膨出,脑膨出及无脑儿),Arnold-Chiari畸形,Dandy-Walker畸形,脑积水,脑过小,megencephaly,无脑回,多小脑回,前脑无裂畸形,及胼胝体发育不全。
根据首选的具体实施方案,畸形是肠胃系统一种先天畸形。胃肠系统先天畸形包括但不限于狭窄,闭锁和肛门闭锁。
根据首选的具体实施方案,本发明的系统、方法和技术的使用能够增加通过体外受精胚胎植入的可能性,这样能降低易患病的体质携带基因疾病的风险。
根据首选的具体实施方案,遗传疾病是单基因或多基因的。遗传性疾病包括但不限于布卢姆综合征,卡纳疾病,囊性纤维变性,家族性自主神经功能异常,莱利天综合症,范可尼贫血(C组),高雪氏病,糖原累积病1A中,枫糖浆尿症,粘脂糖症IV,尼曼匹克症,泰萨二氏病,β-地中海贫血,镰状细胞性贫血,α-地中海贫血,β-地中海贫血,丙型血友病,弗里德赖希氏共济失调,MCAD,青少年帕金森病,Connexin26,SMA,Rett综合征,苯丙酮尿症,贝克尔肌肉萎缩,杜兴型肌营养不良症,易碎X综合征,甲型血友病,早发性阿尔茨海默氏症,乳腺癌/卵巢癌,结肠癌,糖尿病/MODY,亨廷顿病,强直性肌肉营养不良症,早发性帕金森病,黑斑息肉综合征,多囊肾病,扭转痉挛。
发明各个方面的组合
如前所述,给出了本发明的有益之处,在此公开了更多的方面或具体实施方案以执行一种或更多的系统,方法和特征。下面列出的例子说明在此公开的本发明的各个方面可以通过多种方式组合的情形。需要着重指出的是列表不意味着是全面的。除此之外,本发明的方面、方法、特点和具体实施方案的很多其他组合是可能的。
在发明的一中具体实施方案中,可以组合本发明的几个方面,例如,可以在一步中实施等位基因分型和非整倍体分型,和对这两部分使用定量值取代定性值。熟悉此领域的人很容易明白如何组合相关的数学运算,而不改变本发明的实质。
在本发明的首选的具体实施方案中,在此公开的方法能够用来确定一个或更多晶胚的遗传状态,目的是在IVF的条件下,选择胚胎。这包括收获准母亲的卵子,使用准父亲的精子对这些卵子进行受精,然后生成一个或更多的晶胚。试管受精环境中的胚胎挑选,可以利用我们用披露的方法确定一个或者更多晶胚的遗传状态。这可能从一位准妈妈处获取卵子并且从准爸爸处获取精子,从而产生一个或多个晶胚。还包括进行胚胎的活组织切片检查以从每个晶胚中分离分裂球。还包括父亲或母亲的二倍体遗传物质的获得,扩增和基因型分型,以及从父系得到的一个或多个单独精子。还包括整合母系、父系测定的双倍体和单倍体数据和测定的感兴趣胚胎的遗传信息组成一个数据集。还包括使用在本专利中公开的一种或多种统计学方法确定在胚胎中的最可能的遗传物质状态,给出测定或确定的基因数据。可能包括确定感兴趣胚胎的倍数性状态。可能包括确定在胚胎基因组中大量已知疾病相关等位基因的存在。可能包括关于胚胎的表型预测。可能包括形成给夫妇医生的报告,以便为医生提供选择哪个晶胚植入准母亲的有利信息。
另外一个例子的是一位44岁受孕遇到问题的妇女进行试管受精(IVF)。从女方获取卵子,由从男方获取精子,进行受精,产生了9个可生育的晶胚。从每个晶胎中获取一个分裂球,使用用Illumina Infinium Bead Array测定分裂球的遗传数据。同时,使用Illumina Infinium Bead Array测定从双亲处获取的组织的双倍染色体数据。使用同样的方法测定父亲精子的单倍染色体数据。在此公开的方法被应用于分裂球的基因信息和双倍体母系基因信息,而定相母系的基因信息,以便提供母系单基因型。这些数据和父系的双倍体和单倍体数据整合,以便高准确度的确定每个晶胚中的每个染色体的拷贝数计算。9个晶胚中的8个晶胚是非整倍体,剩下的一个晶胚是整倍体的。基于这些诊断的报告被撰写出来,并送给了医生。报告中的数据类似于表9、10、11中的数据。医生和准父母们决定植入整倍体晶胎于母亲的子宫中。
另外的一个例子是一个怀孕的妇女,她用的是捐献的精子受精,并最终怀孕。她的愿望是降低她所怀胎儿患遗传疾病的风险。她进行了羊水诊断和分离得到胎儿细胞,组织样本也从母亲得到。因为没有其他的晶胚,她的数据通过使用分子单倍型分型的方法被定相。胎儿和母亲的遗传物质被适量扩增,使用IlluminaInfinium Bead Array,对遗传物质进行基因分型,在此描述的方法尽可能准确地重建了胚胎的基因型。从重构的胎儿遗传数据,预测了表型易感性,据此撰写报告,然后将这个报告送到这位母亲的医生那里,以便于他们决定什么样措施是最好的。
另外的一个例子是赛马的养殖者想增加冠军赛马的马仔们成为冠军的可能性。他使理想的母马通过试管受精而怀孕,使用从种马获得的遗传信息,从具有发育潜能的胚胎中清除母马的遗传数据。清除胚胎的遗传数据使饲养者能够选择最可能生成理想赛马的晶胚植入母马中。
表1-11
表1.给出正确基因型的检测等的位基因分型概率分布
表2.使用U和H符号,在胚胎中特定等位基因分型的概率
表3.给定所有可能双亲状态,在胚胎中特定等位基因分型的条件概率
表4.约束矩阵(A).
表5.给定所有可能双亲状态,所有特定胚胎等位基因状态的观察的计算符
表6.非整倍体状态(h)和相应的P(h|nj),给定拷贝数的条件概率
表7.给定双亲基因型,非整倍体假设(H)概率
表8.应用于染色体7上,69SNPs的PS算法结果
表9.8个已知整倍体细胞上的非整倍体分型
表10.10个已知三染色体细胞上的非整倍体分型
表11.6个分裂球的非整倍体分型
表1.给出正确基因型的检测等的位基因分型概率分布
Figure G2008800161237D00782
表2.使用U和H符号,在胚胎中特定等位基因分型的概率
Figure G2008800161237D00783
表3.给定所有可能双亲状态,在胚胎中特定等位基因分型的条件概率
  1   1   1   1
  1   1   1   1
  1   -1
  -.5   -.5   1
  -.5   -.5   1
  -.5   -.5   1
  -.5   -.5   1
  -.25   -.25   -.5   1
  -.5   -.5   1
  -.25   -.25   -.5   1
  -.5   -.5   1
表4.约束矩阵(A).
Figure G2008800161237D00791
表5.给定所有可能双亲状态,所有特定胚胎等位基因状态的观察的计算符
  N   H   P(h|n)   总计
  1   双亲单体性   0.5   Ppm
  1   母亲单体性   0.5   Pmm
  2   二体性   1   1
  3   双亲三体性t1   0.5*pt1   ppt*pt1
  3   双亲三体性t2   0.5*pt2   ppt*pt2
  3   母亲三体性t1   0.5*pm1   pmt*mt1
  3   母亲三体性t2   0.5*pm2   pmt*mt2
表6.非整倍体状态(h)和相应的P(h|nj),给定拷贝数的条件概率
Figure G2008800161237D00801
表7.给定双亲基因型,非整倍体假设(H)概率
Figure G2008800161237D00811
表8.应用于染色体7上,69SNPs的PS算法结果
Figure G2008800161237D00821
表9.8个已知整倍体细胞上的非整倍体分型
Figure G2008800161237D00822
表10.10个已知三染色体细胞上的非整倍体分型
Figure G2008800161237D00831
表11.6个分裂球的非整倍体分型

Claims (30)

1.一种体外确定目标个体基因组中染色体部分拷贝数的方法,该方法包括:(1)创造一组拷贝数,以假设目标个体大约有多少染色体部分的拷贝数,和(ii)将来自目标个体并包括目标个体DNA的样品的遗传信息和来自有亲属关系的个体并且分别包括亲属关系个体的DNA样品的遗传信息整合,获得一组数据,并且(iii)估计与此数据组有关的平台反应特征,其中,一个试验中的平台反应可能与另一个试验中的平台反应不同,和(iv)计算每个拷贝数假设、给定的数据组和平台反应特征的条件概率,并且(v)根据最有可能的拷贝数假设确定所述染色体部分的拷贝数;其中所述方法不用于疾病的诊断。 
2.根据权利要求1所述的方法,该方法包括:(i)创造一组拷贝数,以假设目标个体大约有多少染色体部分的拷贝数,和(ii)测定目标个体和一个或者一个以上与目标个体有亲属关系的个体给定部分的多个位点上一些或者所有可能的等位基因的遗传数据,(iii)确定关于目标个体遗传数据测定值以及与目标个体有亲属关系的个体遗传数据测定值的每个假设的相对概率,并且(iv)利用与每个假设有关的相对概率确定目标个体实际遗传物质最有可能的状态。 
3.根据权利要求1所述的方法,该方法包括:(i)利用目标个体不完整的遗传测定值和与目标个体有亲属关系的一个或一个以上个体的遗传测定值创造一组关于染色体部分数目假设,所述染色体部分是每个有亲属关系的个体贡献给所述目标个体的,和(ii)基于目标个体遗传数 据染色体部分数目假设,基于有亲属关系的个体在多个位点遗传测量值并且给予一个试验与另一个试验可能存在差异的参数,确定目标个体遗传测定值的概率,并且(iii)整合测量试验中可能变化的参数组概率,并且(iv)筛选具有最高概率的染色体部分数目假设。 
4.根据权利要求1所述的方法,其中,来自目标个体的遗传信息包括遗传测定值,所述遗传测定值是通过使用等位基因查出的定性技术获得的。 
5.根据权利要求1所述的方法,其中,来自目标个体的遗传信息包括遗传测定值,所述遗传测定值使用参考序列的已知等位基因和定量等位基因测定法测定。 
6.根据权利要求1所述的方法,其中,使用下列技术对目标个体的遗传物质进行放大:聚合酶链式反应、配位体调节的聚合酶链反应、全基因组扩增、退行性低聚核苷酸引物聚合酶链反应、多位点置换扩增技术、等位基因特异性扩增及其结合。 
7.根据权利要求1所述的方法,其中所述目标个体的遗传数据使用下列工具或者技术进行测定:分子倒置探针、基因型微矩阵、TaqMan SNP基因型试验、Illumina基因型系统及基因型试验、荧光原位杂交、测序法、高通量基因型平台、及其结合。 
8.根据权利要求1所述的方法,其中通过分析下列物质测定目标个体的遗传数据:一种或者一种以上来自目标个体的二倍细胞、一种或一种以上来自目标个体的单倍体细胞、一种或一种以上来自目标个体的裂殖细胞、在目 标个体中发现的细胞外遗传物质、来自目标个体的在母系血液中发现的细胞外遗传物质、来自目标个体的在母系血液中发现的细胞、已知来源于目标个体的遗传物质及其结合。 
9.根据权利要求1所述的方法,其中通过分析下列物质测定有亲属关系的个体的遗传数据:一种或者一种以上来自有亲属关系个体的大量二倍体组织、一种或者一种以上来自有亲属关系个体的二倍细胞、一种或一种以上来自有亲属关系个体的单倍体细胞、一种或一种以上由有亲属关系个体配偶子产生的胚胎、一种或一种以上来自有亲属关系的个体中发现的胚胎、细胞外遗传物质的裂殖细胞、已知来源于有亲属关系的个体的遗传物质及其结合。 
10.根据权利要求1所述的方法,其中,确定目标基因组中染色体部分拷贝数的目的是在体外受精过程中筛选胚胎。 
11.根据权利要求1所述的方法,其中,来自有亲属关系的个体的遗传信息包括测定的目标个体父亲精液中的遗传数据,其目的是加强确定染色体部分拷贝数的准确度。 
12.根据权利要求1所述的方法,其中,来自有亲属关系的个体的遗传信息包括通过使用二倍体遗传数据推断确定的母系单倍体遗传数据,所述二倍体遗传数据是从一种或一种以上裂殖细胞、父母的二倍体遗传数据和父亲的单倍体遗传数据中确定的。 
13.根据权利要求1所述的方法,其中来自有亲属关系的个体的遗传信息包括母系单倍体遗传数据,所述母系单倍体的遗传信息在不使用出生孩子的遗传数据、不使用母亲的遗传数据并且不使用母亲单倍体组织样品的情况下已经被确定。 
14.根据权利要求1所述的方法,其中所述目标个体是一种胚胎,并且其中,以筛选体外受精过程中传递的胚胎为目的进行确定,并且,其中有亲属关系的个体选自由父亲、母亲、一种或者一种以上与父母相同的胚胎、一种或者一种以上来自父亲的精液或其结合所组成的组中。 
15.根据权利要求1所述的方法,其中,所述方法单独进行,或者与能够在目标个体多个位点产生等位基因查出的方法结合使用,并且,这两种方法使用来自目标个体的相同的细胞或者细胞组作为遗传物质源。 
16.用于查出目标个体一种或者一种以上等位基因的方法,其中所述方法包括: 
测定目标个体和有亲属关系的个体多个位点的遗传数据,一起称作“遗传测量值”,并且目标个体的遗传数据包括一些测量误差,这些测量误差会导致在位点亚组产生等位基因脱扣或者等位基因脱入, 
向数据组中整合在目标个体和至少一个有亲属关系的个体中多个位点测定的遗传数据, 
估计与数据组有关的平台反应的特征,其中一个试验的平台反应可以与另一个试验的平台反应不同, 
创造一种或一种以上的一组假设,所述假设是关于至少一个有血缘关系的个体哪个染色体的哪个部分对应于目标个体基因组中的相应部分, 
创造关于目标个体和有亲属关系个体在给定的位点遗传状态的一种或者一种以上的假设, 
确定这些假设的联合概率以及在给定位点、每个位点和每种假设的遗传测量值,对于每个位点和每个假设具有给定的遗传数据和平台反应特点, 
结合上述概率来计算目标个体在所关心的位点处基于遗传测量值的每种可能的遗传状态,给定遗传测量值, 
筛选具有最大可能性的目标个体的遗传状态,并且 
根据筛选得到的目标个体遗传状态查出等位基因。 
17.根据权利要求16所述的方法,所述方法包括:(i)创造关于目标个体遗传物质真实状态的假设,(ii)基于目标个体遗传数据的测量值和有亲属关系的个体遗传数据的测量值确定每个假设的概率,和(iii)使用与每个假设有关的概率确定目标个体实际遗传物质最可能的状态。 
18.根据权利要求16所述的方法,其中增加目标个体遗传数据等位基因查出精确度的目的是在体外受精过程中筛选胚胎。 
19.根据权利要求16所述的方法,其中增加目标个体遗传数据等位基因查出精确度的目的是进行出生前的遗传诊断。 
20.根据权利要求16所述的方法,其中通过分析下列物质测定目标个体的遗传数据:一种或者一种以上来自目标个 体的二倍细胞、一种或一种以上来自目标个体的单倍体细胞、一种或一种以上来自目标个体的裂殖细胞、在目标个体中发现的细胞外遗传物质、来自目标个体的在母系血液中发现的细胞外遗传物质、来自目标个体的在母系血液中发现的细胞、已知来源于目标个体的遗传物质及其结合。 
21.根据权利要求16所述的方法,其中通过分析下列物质测定有亲属关系的个体的遗传数据:一种或者一种以上来自有亲属关系个体的大量二倍体组织、一种或者一种以上来自有亲属关系个体的二倍细胞、一种或一种以上来自有亲属关系个体的单倍体细胞、一种或一种以上由有亲属关系个体配偶子产生的胚胎、一种或一种以上来自有亲属关系的个体中发现的胚胎、细胞外遗传物质的裂殖细胞、已知来源于有亲属关系的个体的遗传物质及其结合。 
22.根据权利要求16所述的方法,其中所述目标个体的遗传数据使用下列技术进行测定:分子倒置探针、基因型微矩阵、TaqMan SNP基因型试验、Illumina基因型系统及基因型试验、测序法、荧光原位杂交、高通量基因型平台、及其结合。 
23.根据权利要求16所述的方法,其中所述方法不使用短串联重复序列。 
24.根据权利要求16所述的方法,其中所述方法考虑了在减数分裂期间发生DNA交叉的可能性。 
25.根据权利要求16所述的方法,其中,来自有亲属关系的个体的遗传信息包括通过使用二倍体遗传数据推断确定的母系单倍体遗传数据,所述二倍体遗传数据是从 一种或一种以上裂殖细胞、父母的二倍体遗传数据和父亲的单倍体遗传数据中确定的。 
26.根据权利要求16所述的方法,其中来自有亲属关系的个体的遗传信息包括母系单倍体遗传数据,所述母系单倍体遗传数据在不使用出生孩子的遗传数据、不使用母亲的遗传数据并且不使用母亲单倍体组织样品的情况下已经被确定。 
27.根据权利要求16所述的方法,其中在移植前或者出生前进行的关于遗传疾病的遗传诊断过程中完成目标个体遗传数据等位基因查出精确度的增加,并且,其中只使用一位患有所述遗传疾病的有亲属关系的个体的遗传数据。 
28.根据权利要求16所述的方法,其中所述目标个体是一种胚胎,并且其中,以筛选体外受精过程中传递的胚胎为目的进行确定,并且,其中有亲属关系的个体选自由父亲、母亲、一种或者一种以上与父母相同的胚胎、一种或者一种以上来自父亲的精液或其结合所组成的组中。 
29.根据权利要求16所述的方法,其中,所述目标个体是胎儿,并且在产前检查过程中完成所述确定。 
30.根据权利要求16所述的方法,其中,所述方法单独进行,或者与能够在目标个体中确定给定的染色体部分拷贝数的方法结合使用,并且,这两种方法使用来自目标个体的相同的细胞或者细胞组作为遗传物质源。 
CN2008800161237A 2007-03-16 2008-03-17 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法 Active CN101790731B (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US91829207P 2007-03-16 2007-03-16
US60/918,292 2007-03-16
US92619807P 2007-04-25 2007-04-25
US60/926,198 2007-04-25
US93245607P 2007-05-31 2007-05-31
US60/932,456 2007-05-31
US93444007P 2007-06-13 2007-06-13
US60/934,440 2007-06-13
US310107P 2007-11-13 2007-11-13
US61/003,101 2007-11-13
US863707P 2007-12-21 2007-12-21
US61/008,637 2007-12-21
PCT/US2008/003547 WO2008115497A2 (en) 2007-03-16 2008-03-17 System and method for cleaning noisy genetic data and determining chromsome copy number

Publications (2)

Publication Number Publication Date
CN101790731A CN101790731A (zh) 2010-07-28
CN101790731B true CN101790731B (zh) 2013-11-06

Family

ID=39735264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800161237A Active CN101790731B (zh) 2007-03-16 2008-03-17 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法

Country Status (3)

Country Link
EP (1) EP2140386A2 (zh)
CN (1) CN101790731B (zh)
WO (1) WO2008115497A2 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024128B2 (en) 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
CN102171565B (zh) 2008-08-04 2015-04-29 纳特拉公司 等位基因调用和倍性调用的方法
EP2473638B1 (en) 2009-09-30 2017-08-09 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10192641B2 (en) * 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
WO2011139345A2 (en) 2010-04-29 2011-11-10 The Regents Of The University Of California Pathway recognition algorithm using data integration on genomic models (paradigm)
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
CA2798758C (en) 2010-05-18 2019-05-07 Natera, Inc. Methods for non-invasive prenatal ploidy calling
JP6328934B2 (ja) 2010-12-22 2018-05-23 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
WO2015048535A1 (en) 2013-09-27 2015-04-02 Natera, Inc. Prenatal diagnostic resting standards
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
WO2016000267A1 (zh) * 2014-07-04 2016-01-07 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
KR101817785B1 (ko) * 2015-08-06 2018-01-11 이원다이애그노믹스(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US10894976B2 (en) 2017-02-21 2021-01-19 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN109390039B (zh) * 2017-08-11 2020-10-16 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质
JP7348603B2 (ja) 2018-04-02 2023-09-21 エニュメラ・モレキュラー・インコーポレイテッド 核酸分子を計数するための方法、システム、および組成物
WO2019237230A1 (zh) * 2018-06-11 2019-12-19 深圳华大生命科学研究院 确定待测样本类型的方法及系统
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CN109493919B (zh) * 2018-10-31 2023-04-14 中国石油大学(华东) 基于条件概率的基因型指派方法
CN109754845B (zh) * 2018-12-29 2020-02-28 浙江安诺优达生物科技有限公司 模拟目标疾病仿真测序文库的方法及其应用
WO2020206170A1 (en) 2019-04-02 2020-10-08 Progenity, Inc. Methods, systems, and compositions for counting nucleic acid molecules
CN110444251B (zh) * 2019-07-23 2023-09-22 中国石油大学(华东) 基于分支定界的单体型格局生成方法
WO2021073604A1 (zh) * 2019-10-18 2021-04-22 苏州亿康医学检验有限公司 清除噪音遗传数据、单体型定相、重构子代基因组的方法、系统和其用途
CN112375829B (zh) * 2020-11-25 2022-07-05 苏州赛美科基因科技有限公司 使用家系wes数据识别upd的方法、装置及电子设备
CN115064210B (zh) * 2022-07-27 2022-11-18 北京大学第三医院(北京大学第三临床医学院) 一种鉴定二倍体胚胎细胞中染色体交叉互换位置的方法及应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335893A (zh) * 1998-12-28 2002-02-13 罗斯塔英法美蒂克斯公司 细胞表达特征的统计合并

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798937B2 (en) * 2004-02-10 2014-08-05 Koninklijke Philips N.V. Methods for optimizing and using medical diagnostic classifiers based on genetic algorithms
US20060134662A1 (en) * 2004-10-25 2006-06-22 Pratt Mark R Method and system for genotyping samples in a normalized allelic space
JP6121642B2 (ja) * 2005-11-26 2017-04-26 ナテラ, インコーポレイテッド 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335893A (zh) * 1998-12-28 2002-02-13 罗斯塔英法美蒂克斯公司 细胞表达特征的统计合并

Also Published As

Publication number Publication date
CN101790731A (zh) 2010-07-28
EP2140386A2 (en) 2010-01-06
WO2008115497A2 (en) 2008-09-25
WO2008115497A3 (en) 2009-05-28

Similar Documents

Publication Publication Date Title
CN101790731B (zh) 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
US10266893B2 (en) System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) System and method for cleaning noisy genetic data and determining chromosome copy number
US20180300448A1 (en) System and method for cleaning noisy genetic data and determining chromosome copy number
US8515679B2 (en) System and method for cleaning noisy genetic data and determining chromosome copy number
Zhu et al. Increasing the power to detect causal associations by combining genotypic and expression data in segregating populations
CN102171565B (zh) 等位基因调用和倍性调用的方法
EP2437191B1 (en) Method and system for detecting chromosomal abnormalities
CN102597266A (zh) 无创性产前倍性调用的方法
Bruijning et al. Relative abundance data can misrepresent heritability of the microbiome
Zhong et al. On Using Local Ancestry to Characterize the Genetic Architecture of Human Phenotypes: Genetic Regulation of Gene Expression in Multiethnic or Admixed Populations as a Model
Majumdar et al. Simultaneous selection of multiple important single nucleotide polymorphisms in familial genome wide association studies data
Ye TEST STATISTICS AND Q-VALUES TO IDENTIFY DIFFERENTIALLY EXPRESSED GENES IN MICROARRAYS
Hu Identification of differentially expressed genes and prediction of clinical outcome by analyzing gene expression profiles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: American California

Applicant after: Gene Security Network, Inc.

Address before: American California

Applicant before: Gene Security Network Inc.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: GENE SECURITY NETWORK, INC. TO: NATRA INC.

C14 Grant of patent or utility model
GR01 Patent grant