CN102203285B

CN102203285B - 利用单倍切割确定单倍型的方法

Info

Publication number: CN102203285B
Application number: CN200980141955.6A
Authority: CN
Inventors: 宋清; 马丽; 肖燕
Original assignee: Individual
Current assignee: Ma Li; Song Qing; Xiao Yan
Priority date: 2008-10-21
Filing date: 2009-06-18
Publication date: 2014-12-31
Anticipated expiration: 2029-06-18
Also published as: US8759035B2; US20120208183A1; EP2344667A4; CN102203285A; US8735059B2; US20100099092A1; EP2344667A1; WO2010044923A1; CA2740205A1

Abstract

本发明公开了对个体进行分子单倍型分型的方法。所述方法包括：在个体多个裂解的二倍体细胞的每一个细胞中随机选择一组染色体；将从所述多个细胞选择的染色体收集进多个样品管中，其中每个样品管含有选自一个或多个细胞的染色体；对每个样品管中的基因组DNA进行基因型分型；以及基于来自基因型分型数据的等位基因核苷酸序列信息和相应的核苷酸信号强度来确定等位基因的单倍型。还公开了使用单细胞裂解物或单细胞显微切割进行分子单倍型分型的其他方法。

Description

利用单倍切割确定单倍型的方法

相关申请

本申请要求于2008年10月21日提交的美国临时专利申请系列第61/136,992号的优先权，通过引用将该临时申请的全部内容并入本文。

发明领域

本发明通常涉及遗传学、分子细胞生物学领域，更具体而言，本发明涉及单倍型确定的方法。

发明背景

正常人体体细胞是二倍体(即，具有两个拷贝的基因组：每个细胞核中有一套父本染色体和一套母本染色体)。每个个体中，这两套染色体在多个基因座处具有不同的核苷酸序列(单核苷酸多态性(SNP))。传统的基因型分型测定分析这两套染色体的混合物，这导致不确定性和复杂性。例如，对于都是杂合的任意两个SNP基因座，这两个SNP之间具有四种可能的单倍型。然而，由于当用传统平台进行单个SNP基因型分型时，消除了相信息，因此不能排除这四种可能单倍型中的任何一种可能。解决该问题的一种方法是寻找重建或收回相信息的可靠的方法。另一种方法是在进行基因型分型之前提取相信息。

本领域技术人员使用各种统计学算法来重建相信息。这些算法包括Clark算法、期望最大化(EM)算法、基于联合的算法(pseudo-Gibbs取样器和完美/非完美的系统发生)以及由完全的贝叶斯模型(单倍型)或由EM(PLEM)实施的分区-连接算法(Liu N，et al.，Advances in Genetics，60：325-405，2008)。基于非定相的基因型数据统计的单倍型构型通常给出大量不确定的单倍型，这显著降低了其在遗传学应用中的能力。此外，对于是否应当将构建的单倍型看成这些研究中基因型和表现型的客观观察数据，仍存在争议。尽管来自家庭成员的基因型通常能帮助确定单倍型，但由家庭数据所推断的单倍型常受缺少信息价值的数据或数据缺失的限制。此外，对大多数常见的人类疾病的晚期侵袭可以排除从前几代收集DNA样品。因此，这些方法不适于未来个性化用药中的分子诊断。

平行地，一些研究者开发了在基因型分型之前提取基因组DNA样品中的相信息的实验方法。这些方法全部都基于基因型分型之前两条同源基因组DNA的物理分离。挑战在于如何分离二倍体细胞中两个几乎相同的染色体拷贝。已经开发出了将二倍体样品分离为其单倍体组分的数种策略/技术，例如，1)长距离等位基因特异性基因组PCR(Michalatos-Beloin S，et al.，Nucleic Acids Res 24：4841-4843，1996；和YuCE，et al.，Genomics 84：600-612，2004)；2)单倍型特异性分离(HSE)(NagyM，et al.，TissueAntigens 69：176-180，2007)；3)体单倍体细胞的产生，例如GMP转化(Douglas JA，et al.，Nat Genet 28：361-364，2001)；4)Polony(Mitra et al.，Proc Natl Acad Sci US A100：5926-5931，2003；Zhang K，et al.，Nat Genet 38：382-387，2006)；5)基于克隆的系统单倍型分型(CSH)(Burgtorf C，et al.，Genome Res 13：2717-2724，2003)；6)单分子稀释法(SMD)(Ding C，et al.，Proc Natl Acad Sci U S A 100：7449-7453，2003)；以及7)精子分型。

长距离等位基因特异性基因组PCR使用专门设计的PCR引物以仅从姐妹染色体之一选择性地扩增靶区。通过设计引物使其3′端与等位基因之一匹配/错配来实现选择性扩增。因此，引物不能有效地扩增未匹配的染色体DNA模板。随后在扩增产物上进行基因型分型。由于这些PCR产物仅获自染色体之一，因此沿着这些PCR产物的不同SNP的等位基因显示出单倍型。

在本方法中，通过DNA制备中PCR能达到的最大长度和染色体完整性来确定单倍型中遗传标记的最大距离。因此，单倍型长度受PCR的能力限制，其对于长PCR约为40kb。该方法在技术上通常是有挑战性的，并且对于每个引物对都需要大量地优化PCR条件，以提高长PCR的扩增效率。通常推荐数个引物对和缓冲液的不同组合以优化PCR条件。然而，该方法不适用于单倍型的高通量分析。

单倍型特异性分离(HSE)使用专门设计的探针以仅从姐妹染色体之一选择性地捕获片段。通过设计特异性识别SNP的一个等位基因的探针来实现选择性结合。如果个体是杂合子，当将该探针添加至变性的基因组DNA样品时，所述探针将搜索并只与含有它的靶等位基因的基因组DNA片段结合。因此，通过固定化的磁珠捕获探针结合的DNA片段，并且带有该SNP另一个等位基因的未结合的DNA片段将被洗掉。目前将二倍体状态的基因组DNA缩减为单倍体状态，并准备用于所有随后的分析包括基因型分型/单倍型。由于在两条亲本染色体之间总是存在明显的多态差异，因此HSE能区分和分离任何染色体片段的两亲本拷贝。

在本方法中，通过DNA制备中染色体完整性和DNA变性来确定单倍型中遗传标记的最大距离。目前该方法能解决＜50kb距离中的单倍型。如果需要超过延伸距离的分子单倍型，则必须进行多重的单倍型分离。

GMP转化技术建立在来自活的人细胞(通常为淋巴细胞或成纤维细胞)和啮齿动物细胞系的细胞杂种构建的基础上。由于这些杂种细胞仅保留了人染色体的子集，因此对于每对人染色体他们可以是零染色体的、单染色体的或二染色体的。那些单染色体的细胞是相应染色体的单倍体，并准备用于随后的用于单倍型确定的基因型分型测定。

在本技术中，将细胞电融合，然后在选择性条件下进行增殖，例如使用HPRT1/HAT(次黄嘌呤、氨蝶呤和胸腺嘧啶核苷)系统。生长2-4周之后，收获融合的克隆，并制备用于分析的DNA。通过对每条染色体少量高度多态的标记进行基因型分型来鉴定单染色体克隆，其最低限度要求单个的杂合基因型。但是，基于转化的单倍型分型仍存在一些技术挑战，包括低DNA浓度、优先扩增和染色体片段的插入或缺失(Douglas JAet al，Nat Genet 28：361-364，2001)。

已经观察到在杂种细胞中通常保留的是全染色体而非染色体片段(同上Douglas 2001)。因此，本方法对单倍型中的SNP距离没有任何限制。GMP转化技术的应用受限于非常有限的个体数量和染色体区域数量，这是因为融合和选择条件的低效和变化。每个个体需要多个细胞系。基于转化的单倍型分型仍非常浪费时间且非常昂贵。

Polony技术使用聚丙烯酰胺凝胶处理染色体DNA的原位单条分子。在本技术中，最初将来自个体的基因组DNA稀释至非常低的浓度，然后与丙烯酰胺混合并在玻璃显微镜载玻片上展开以形成薄的含有DNA的聚丙烯酰胺凝胶。由于DNA浓度非常低，因此DNA分子彼此良好分开。然后直接在该凝胶上进行凝胶内的PCR，用两对PCR引物从单条DNA分子扩增目的SNP的两个基因座。由于丙烯酰胺基质限制线性DNA分子的扩散，因此PCR产物在它们扩增模板周围积累形成两个重叠的PCR集落(polony)。通过分别地对这两个SNP的单碱基延伸(SBE)测定，原位确定这两个SNP的基因型，然后通过激光扫描仪读取凝胶。在叠加这两个SBE图像之后，同一斑点所观察到的等位基因指示该患者样品这两个SNP的等位基因组合(单倍型)。

在丙烯酰胺聚合之前、期间或之后通过DNA断裂或降解来确定Polony的最大单倍型长度。据报道，目前为止本方法已经检测了长至45kb的单倍型(Mitra，et al.，PNAS USA 100：5926-5931，2003；Zhang K，et al.，Nat Genet 38：382-387，2006)。

在Polony方法中有数条内在的警告事项。Polony单倍型分型的一个主要局限是不能有效地放大SNP的数量。但是通常需要对染色体大量(100-10,000)的SNP进行单倍型分型。第二，DNA分子可能在凝胶中重叠。因此，DNA浓度和铺板条件是重要的。第三，PCR共扩增效率低(对于来自颊粘膜棉签的样品为4-15％，对于来自其他收集方法的样品为15-34％)。在热循环和DNA断裂或降解期间，共扩增效率与Polony凝胶中非凝胶化的丙烯酰胺的存在有关。可能需要进行技术优化(诸如脱气和聚合条件)。最后，本技术需要中期细胞。

基于克隆的系统单倍型分型(CSH)使用fosmid/黏粒克隆从二倍体染色体分离单拷贝。由于每个载体分子仅能容纳一个插入分子，来自成功的载体-插入连接体的每个集落会仅容纳单倍体染色体片段。通过筛查集落文库，获得含有靶染色体片段的集落用于随后的单倍型分型分析。由于载体不能成功地接收超过它们最大克隆能力的非常大尺寸的插入子，因此CSH能分离约50kb的单倍体片段。此外，本方法非常浪费时间且昂贵。

单分子稀释法(SMD)建立在单分子一定是单倍体片段的概念的基础上，这是由于二倍体染色体是一对拷贝且需要两个DNA分子组成二倍体。为了在每个反应管中获得单分子，将基因组DNA样品稀释至相当低的浓度。我们已经了解人类的每个二倍体基因组约为6.7pg，所以如果管中仅含有约3.3pg的基因组DNA，则它一定有一些染色体区域的单分子，这是因为DNA量不足以使每个染色体区域在那个管中有两个拷贝。通过连续稀释达到该非常低的DNA浓度。连续稀释之后，对于任何给定的染色体片段，每管可以不含DNA、含有该区域的一个DNA分子或含有该区域的两个DNA分子。然后对这些管中的微量DNA样品进行扩增和基因型分型；将事先鉴定的该个体杂合SNP基因座处的等位基因缺失用来筛出“单分子”管用于下一步的实验。本方法的警告事项是它依赖于单DNA分子的统计学分离，所以对于它的成功没有实验保证。

本方法中，由于连续稀释中频繁的剪切，基因组DNA被断裂。目前报道的最大距离是约24kb的单倍型分型距离(Ding C，et al.，PNAS USA100：7449-7453，2003)。

精子分型建立在精子是减数分裂的产物且仅含有单倍体基因组的事实上。尽管精子是单倍体，但是精子单倍型并不简单地等于赠与者的单倍型。精子单倍体基因组并不是该个体任何亲本染色体之一。然而，通过对来自一个个体的数个精子进行基因型分型，然后分析这些精子的单倍型数据，可以推断该个体的单倍型。因此，由于精子分型不是直接的单倍型分型，其与上述的分子单倍型分型方法不同。

在减数分裂重组中，不同的精子经历不同的交换事件，所以来自同一个体的精子具有不同的单倍型。在交换中，两条染色单体交换它们的染色体端臂；人类该染色体末端仅交换一次，有时两次或更多次。因此，假设在研究的精子中仅发生一次交换事件，则可能从多个精子推断出最初患者的单倍型。然而，由于精子分型仅限于男性，程序冗长且昂贵，并且单倍型是推断的结果而不是直接的观察；因此精子分型不能广泛应用于分子单倍型分型。

总之，当前可用的染色体分离的实验方法常引起染色体断裂，所以它们不能获得长范围的单倍型。此外，由于它们相当浪费时间且是劳动密集的，所以它们在研究工作实验室和临床实际上是不可行的。仍存在低成本快速进行单倍型分型方法的需要。

发明概述

公开了对个体进行分子单倍型分型的方法。所述方法包括：在个体多个裂解的二倍体细胞的每一个细胞中随机选择一组染色体；将从所述多个细胞选择的染色体收集进多个样品管中，其中每个样品管含有选自一个或多个细胞的染色体；对每个样品管中的基因组DNA进行基因型分型；以及基于来自基因型分型数据的等位基因核苷酸序列信息和相应的核苷酸信号强度来确定等位基因的单倍型。

在一个实施方案中，确定等位基因单倍型的步骤包括下述步骤：从基因型分型数据提取等位基因核苷酸序列信息和相应的核苷酸信号强度；计算每个杂合基因座处两个等位基因的核苷酸信号强度比(等位基因强度比)；以及确定等位基因的单倍型。

在另一个实施方案中，计算等位基因强度比的步骤包括：计算纯合基因座处核苷酸A、C、G和T的相对比，确定每种核苷酸的k值，进而将它们的信号强度调到相同的水平；使用k值调整杂合基因座处的核苷酸信号强度；以及计算杂合基因座处的等位基因强度比。

在另一个实施方案中，所述确定步骤还包括下述步骤：通过等位基因强度比对每个基因座处的等位基因顺序进行整理；将较高强度等位基因保持在第一栏而将较低强度等位基因保持在第二栏；确定每条染色体中是否有断点，如果在染色体中没有断点，用第一栏中的等位基因形成一个单倍型，且用第二栏中的等位基因形成另一个单倍型，如果在染色体中有断点，使用来自其他染色体收集管中的结果搭接所述断点。

在相关的实施方案中，细胞是外周血淋巴细胞。

在另一个相关的实施方案中，将来自2-10个随机选择的细胞的染色体收集进样品管中，并且一共收集4-8个样品管。

在另一个相关的实施方案中，所述基因型分型步骤包括扩增基因组DNA。

还公开了对个体进行分子单倍型分型的另一种方法。所述方法包括：从个体分离一个或多个单个的二倍体细胞；对每个分离的单个的二倍体细胞进行裂解以产生一个或多个单细胞裂解物；将每个单细胞裂解物分成两等份；对每等份中的基因组DNA进行基因型分型；创建来自所有等份的基因型分型数据的目录；以及基于所述目录确定个体的染色体单倍型。

在相关的实施方案中，所述分离步骤包括从个体分离4-12个单个的二倍体细胞。

在另一个相关的实施方案中，所述分离步骤包括从个体分离6-10个单个的二倍体细胞。

在另一个相关的实施方案中，所述分离步骤包括从个体分离8个单个的二倍体细胞。

还公开了对个体进行分子单倍型分型的另一种方法。所述方法包括：从个体分离单个的二倍体细胞；对分离的单个的二倍体细胞进行裂解和染色以展示染色体；通过激光显微切割从单细胞收集一组染色体；对所收集的染色体中的基因组DNA进行基因型分型；对来自相同个体的一个或多个完整的二倍体细胞的基因组DNA进行基因型分型；以及确定染色体收集组中的染色体的单倍型，其中所述染色体以单倍体形式存在于所述染色体收集组中。

在相关的实施方案中，分离并裂解多个单个的二倍体细胞。收集多组染色体；从同一个体不同的单细胞收集每组染色体。收集组的数量足够大，以便个体基因组中的每条染色体以大于99％的概率存在于单倍体形式中。

在相关的实施方案中，所述个体是真核有机体。

在相关的实施方案中，所述真核有机体是动物或植物。

在另一个相关的实施方案中，所述动物是哺乳动物。

本发明的另一方面涉及具有用于实施上述方法的计算机执行指令的计算机可读介质。

本发明的另一方面涉及用于单倍切割的测定试剂盒。在一个实施方案中，所述测定试剂盒含有用于细胞收集试剂和细胞发生染色的试剂，以及用于基因组DNA扩增和基因组基因型分型的试剂。在另一个实施方案中，所述试剂盒还包含具有计算机执行指令的计算机可读介质，用于基于基因型分型数据确定单倍型。

附图简要说明

图1用图表说明通过将失调引入染色体比的单倍切割方法实施方案的一般原理。

图2是显示单倍切割方法实施方案的流程图。

图3是使用Leica AS LMD计算机指导的激光显微切割进行的染色体收集的图。收集收集区域内的染色体用于单倍型分型。

图4是显示用于确定以单倍型为基础的基因型分型数据的方法实施方案的流程图。

图5是显示使用单细胞裂解物的单倍切割方法的另一个实施方案的流程图。

图6是说明单细胞单倍型分割原理的简图。

图7是说明使用单细胞切割的单倍切割方法进行单倍型分型的原理简图。

图8是显示单细胞切割方法步骤和一些单倍型分型结果的流程简图。通过他们的亲本来源显示单倍型(Fa，父亲；Mo，母亲)。

发明的详细描述

除非另有所指，下面进一步详细描述的实施方案的实施将使用本领域内常规的遗传学方法、基因组分子生物学方法、细胞生物学方法、诊断学方法和生物信息学方法。文献中对这类技术有充分地说明。无论是上文还是下文中本文所引用的所有公开、专利和专利申请，都通过引用将其全部内容并入本文。

本发明一方面涉及对个体进行分子单倍型分型的方法。在下文中将该方法称为“单倍切割(HaploDissection)”方法。如下文更详细的描述，所述新方法克服了单倍型长度的瓶颈，并且对SNP数量或样品数量没有限制。本发明满足了遗传研究、基因组研究和表观基因组研究，尤其在全基因组关联研究(GWAS)、基因表达的长顺式调节相互作用以及染色质重塑形研究中精确单倍型的需要。精确单倍型是解释这些结果并将其转化为临床实践所必须的。

图1图示了单倍切割方法的一个实施方案。简单而言，单倍切割方法保持待进行基因型分型的个体DNA样品的相信息，但该保持并非基于两染色体拷贝的分开或单拷贝的分离。所述方法通过将相对少量的染色体收入每个样品管简单地在两条亲本染色体数量上稳定的1∶1比中引入失调。因此，虽然基因型/等位基因信息仍保留在DNA样品中，并且可应用于高通量基因型分型平台，但是将相信息记录在两等位基因的数量比中。这些等位基因的相对比实际上是所有这些基因型分型平台的输出之一，但在基因型分型说明中，它们常被忽略。单倍切割方法将读取等位基因读数和等位基因强度读数的输出信息。然后通过专门设计的算法分析基因型分型信息和相信息，从而确定个体的单倍型。在一个实施方案中，随后通过专门设计的被称为“HapReader”的软件分析基因型分型信息和相信息。

由于单倍切割方法在引入等位基因在数量上的失调时保护染色体的完整性，因此由该方法获得的单倍型将在完整的染色体范围变化，或不受距离限制。

单倍切割方法的实施方案显示在图2中。在该实施方案中，方法100包括：在个体多个裂解的细胞的每一个细胞中选择(110)一组染色体；将从所述多个细胞选择的染色体收集(120)进多个样品管中，其中每个样品管含有选自一个或多个细胞的染色体；对每个样品管中的基因组DNA进行基因型分型(130)；以及基于来自基因型分型数据的等位基因核苷酸序列信息和相应的核苷酸信号强度来确定(140)等位基因的单倍型。

可从任何类型的细胞选择染色体。在一个实施方案中，细胞是从个体血液样品分离的外周血淋巴细胞。用于分离外周血淋巴细胞的方法在本领域内是公知的。在一个实施方案中，将分离的外周血淋巴细胞培养于生长培养基中直至它们开始增殖。能诱导增殖的生长介质在本领域内是公知的。在一个实施方案中，所述生长培养基是含有15％FBS和100单位/ml青霉素/链霉素的RPMI 1640。可以将诸如植物凝集素(PHA)的促分裂原添加至培养基以刺激细胞增殖，且可以添加诸如秋水仙胺的有丝分裂抑制剂使细胞停止在中期。然后使用公知的细胞遗传学方法收获正在增殖的外周血淋巴细胞，将其裂解、染色以展示染色体。随机选择并收集了一组染色体用于进一步的分析，所述一组染色体通常约为裂解的细胞中染色体的一半。图3显示了使用计算机指导的激光显微切割从用于收集的单个细胞选择染色体的实例。收集标记区域内的染色体。如早期所指出的，随机选择染色体用于收集。

将来自随机选择的细胞的随机选择的染色体收集进多个样品管中。每管含有从多个细胞收集的染色体。在一个实施方案中，每管含有从2-20个，优选2-10个随机选择的细胞收集的染色体。对于每个个体，总共收集2-12个，优选4-8个样品管。使用保持染色体完整性的技术收集所选择的染色体。在一个实施方案中，使用计算机指导的激光显微切割收集染色体。

在下一步骤中，对每个样品管中所收集的染色体进行基因型分型。在一个实施方案中，使用均衡的全基因组扩增(WGA)方法通过PCR对收集的DNA进行扩增。然后将扩增的DNA进行全基因组基因型分型。对于每个个体，用2-4管样品进行基因型分型，以确保高的基因组覆盖度并实现精确复制。在一个实施方案中，包括了基因组DNA样品用于全基因组基因型分型。

使用将测序信息相信息与整合的方法分析来自基因型分型的输出数据集，从而确定个体的单倍型，所述相信息反映在每个基因座处测序信号的强度上。简单而言，从基因型分型数据提取等位基因核苷酸序列信息和相应的核苷酸信号强度，所述基因型分型数据来自每个样品管中收集的染色体。计算染色体每个基因座的两等位基因的核苷酸信号强度比(等位基因强度比)，并将其用于确定等位基因的单倍型。

图4是显示基于等位基因的核苷酸序列信息和相应的核苷酸信号强度确定等位基因单倍型的方法的实施方案的流程图。在该实施方案中，方法200包括：从基因型分型数据提取(210)等位基因核苷酸序列信息和相应的信号强度；计算(220)纯合基因座处核苷酸A、C、G和T的相对比；确定(230)每个核苷酸的k值，从而对于给定的具体实验将它们的信号强度调整至同等水平；使用k值调整(240)杂合基因座处的核苷酸信号强度，计算(250)每个基因座处两等位基因的信号强度比(等位基因强度比)；通过等位基因强度比对每个基因座处的等位基因顺序进行整理(260)，将较高强度等位基因保持在第一栏而将较低强度等位基因保持在第二栏；确定(270)每条染色体中是否有断点，如果在染色体中没有断点，用形成单倍型的第一栏中的等位基因形成(280)一个单倍型，且用第二栏中的等位基因形成另一个单倍型，如果在染色体中有断点，使用(290)来自其他染色体收集管中的结果搭接所述断点。

在一个实施方案中，使用专门开发用于单倍切割技术的“HapReader”软件进行分析。实施例中对所述软件有更详细的描述。

单倍切割方法的另一个实施方案基于来自单个细胞裂解物的单倍体基因组的分开。在所有当前的分子单倍型分型方法中，二倍体至单倍体的缩减是从不确定的和大量的染色体拷贝中完成。本发明方法建立在每个体细胞精确地具有每条染色体的两个拷贝的事实上。该精确的数量提供了分开两条染色体的非常简单的方法。简单而言，所述方法在单细胞基础上分开染色体。该新起点使分开比以前的发明更容易，由于该起点处仅有每条染色体的两个拷贝。此外，所述方法克服了其他方法的主要缺点-短单倍型距离。因此，该新方法开启了通过简单而有效的方法获得长距离单倍型的大门。

如图5所示，方法300包括下述步骤：从个体分离(310)一个或多个单个的二倍体细胞；对来自个体的每个单个的二倍体细胞进行裂解(320)以产生一个或多个单细胞裂解物；将每个单细胞裂解物分成(330)两等份；对每等份中的基因组DNA进行基因型分型(340)；创建(350)来自所有等份基因型分型数据的目录；以及基于所述目录确定(360)个体的染色体单倍型。

二倍体细胞可以是来自个体的颊粘膜细胞、淋巴细胞或任何其他细胞类型。在一个实施方案中，从个体收集人颊粘膜细胞。颊粘膜细胞是口或脸颊的内膜上的细胞。它们常规性地蜕落并由新细胞取代。当老细胞死亡时，它们在口的唾液中积累，并能通过用漱口剂的简单方法容易地将它们收集。通过棉签、细胞刷、漱口剂以及诸如FTA或IsoCode卡的处理过的卡可以容易地收集颊粘膜细胞。

然后，分离单个的细胞并保存在单独的管中。这可以通过能分离单个细胞而保留细胞基因组DNA的任何方法来进行。这类方法的实例包括但不限于，激光显微切割或流式细胞术。

在一个实施方案中，使用激光显微切割或诸如细胞分类的任何其他方法实施单个细胞的分离。激光显微切割是允许从组织样品精确地切除目的细胞或在直接的显微镜显示下通过激光束进行涂片的显微操作方法。在计算机监测下标记目的区域，然后通过计算机控制将其切下。可以通过显微镜下的检查模式立即对收集管中的单个细胞进行检查，以确保成功的分离。

在细胞分离期间所用的染色方案不应当干扰随后的DNA扩增和等位基因确定。优选的染色方法不包括任何固定步骤，并且不基于腐蚀性化学试剂的使用。在一个实施方案中，使用巴氏(papanicolaou)对细胞进行染色。在另一个实施方案中，用苏木精和曙红(HE)对细胞进行染色。

然后将通过显微切割收集的单个细胞进行细胞裂解。多种技术可用于细胞破碎，包括物理方法和基于去垢剂的方法。所选的用于细胞破碎的技术必须考虑与预期的下游应用——基因型分型和单倍型分型的兼容性。因此，细胞裂解方法不应当侵略性地连接DNA分子和将染色体断裂为小的碎片。可以选择任何基因组DNA保护剂，有效的、简单的以及低成本的方法。选择细胞裂解方案还应当考虑细胞或组织来源。

物理裂解方法和基于去垢剂的裂解方法都可以用于细胞破碎。优选的细胞裂解方法包括低渗裂解和蛋白酶K裂解。

然后，将单细胞裂解物平均分成两管。为了确保收集了任何给定染色体的单倍体拷贝，收集多个单细胞裂解物和相应的分割部分。在一个实施方案中，收集了4-12个单细胞裂解物。在其他的实施方案中，收集了6-10个单细胞裂解物。在仍然其他的实施方案中，收集了8个单细胞裂解物。

如图6所示，二倍体细胞含有每条染色体的两个拷贝(一拷贝来自父本，一拷贝来自母本)。当将含有染色体的两个拷贝的溶液平均分成两管时，两个拷贝可能同时进入管1或管2，或者它们中的每一个可能进入不同的管中。可以容易地监测存在于这些两个分割管中的染色体的方式。如果一管不含该染色体，则另一管一定含有该染色体的两个拷贝。如果两管都含有该染色体，则它们一定是每管含有一个拷贝。

对于一次分割操作，获得任意给定染色体的单倍体拷贝的概率是：

成功概率＝失败概率＝1/4+1/4＝0.50。

如果收集了n个单细胞，并按上述将分割进行n次(每个单细胞一次)，则这些管对没有一个具有给定染色体的单倍体拷贝(对于该给定染色体，所有的管都是二倍体或异倍体)的概率是：

失败概率＝1/2ⁿ。

成功概率＝1-1/2ⁿ。

因此，如果收集了8个单细胞(即，n＝8)并分成16等份，则在这些分割部分中获得任意特定染色体的单倍体拷贝的可能性是：

1-1/2⁸＝0.9961。

这意味着有99.61％的机会这些16个分割管至少之一将含有靶染色体的单倍体拷贝。因此，如果样品大小是1000个人个体，从每个个体收集8个细胞，在第一轮分割操作中，996个个体将成功地获得用于分子单倍型分型的任何染色体的单倍体拷贝。

分割之后，一管可能含有一条染色体的单倍体拷贝；然而，它可能含有另一条染色体的两个拷贝。如果一管含有染色体A的单倍体拷贝、染色体B的两个拷贝和不含染色体C，则该管仍可理想地用于染色体A的随后分析(诸如单倍型确定)。存在染色体B的两个拷贝和缺失染色体C将不干扰对染色体A的结果。

有相当罕见的情况，其中来自一个单个的体细胞的单倍型不代表相同个体的单倍型。该罕见情况是发生在体细胞中的有丝分裂交换。已知有丝分裂交换可能发生在一些无性繁殖的真菌和人类癌细胞中。因此，用于对罹患癌症的个体进行单倍型分型，有必要注意并获得多个细胞。实际上，通过单细胞分割策略可容易地测定该种情况。

具体地，如果来自个体的细胞含有某染色体的多于两个拷贝，则在两个分割的管中都存在那条染色体将不能表明每个管中都具有单倍体染色体。例如，如果有3拷贝的染色体，当两管都含有该染色体时，一管将有一个拷贝，另一管将有两个拷贝。有两个拷贝的管在一些多态位点将显示杂合基因型。因此，我们的方法可以测定拷贝数多态现象。

然后对每管中的基因组DNA进行扩增用于基因型分型。可以使用均衡的全基因组扩增(WGA)的任何方法。与旨在扩增特定序列的聚合酶链式反应(PCR)不同，WGA旨在无偏爱性地扩增全部基因组。全面的WGA需要保真地复制30亿碱基而不丢失或畸变任何特定的基因座或等位基因。

这类方法的实例包括但不限于，多重置换扩增(MDA，GE HealthcareGenomiPhi和Qiagen Repli-g)、引物延伸预扩增(PEP)、改进的引物延伸预扩增(iPEP)、简并寡聚核苷酸引物PCR(DOP，Sigma GenomePlex)。市场中当前的WGA方法有下述不同：(i)扩增能力和产量；(ii)保真性；(iii)扩增产物长度；(iv)可扩展性以及(v)扩增包括单细胞的少量起始材料的能力。例如，Repli-g和GenomiPhi产生约10kb大小的产物，而SigmaGenomePlex产生约数百个碱基对的产物。由于本发明的分子单倍型分型方法能解决的距离不依赖于扩增产物的长度，因此WGA方法的长度特征不是本发明的关键特征。相反，扩增能力和潜在的等位基因偏爱和基因座偏爱是本发明的关键。

之前通过使用人类精子的遗传学研究已经很好地说明了从单倍体染色体进行扩增的可行性。对单个精子进行基因型分型的能力最初在1988年报道(Li HH，et al，Nature 335：414-417，1988)。目前法医科学家已经广泛地使用对来自单个精子细胞(单倍体)的DNA样品进行基因型分型(DiMartino D，et al.Forensic SciInt 146增刊：S151-153，2004)。已经显示通过TaqGold DNA聚合酶可以扩增高达10.4pg的DNA，用于可靠的STR(短串联重复，与SNP平行的遗传学多态现象类型)谱。除了单个精子细胞，使用WGA-多重置换扩增(MDA)方法已经成功地实现单淋巴细胞(二倍体)或单卵裂球(二倍体)的扩增。

普遍关注的WGA是在杂合基因座处的等位基因缺失，这是在一个多态基因座处两个等位基因中偏爱的不对称扩增的结果。等位基因缺失将使杂合个体在基因型分型中显示为纯合个体。因此，当观察到纯合基因型时，这理论上仍是可能是假纯合基因型；它可能来源于WGA中的等位基因缺失。当使用用于分子单倍型分型的细胞-分割方法时，由于有单拷贝的单倍体，如果在特定的基因座没有基因座偏爱，则在随后的基因型分型测定中等位基因读数将代表那个相应的单倍型上的等位基因。因此，没有必要注意区分等位基因缺失和真正的纯合子。

如上面所讨论的，如果来自8个单细胞的16个分割管是从一个个体收集的，则99.6％会有一些管含有任何给定染色体的单倍体拷贝。其它管可能含有相同染色体的二倍体拷贝或无相同染色体拷贝(异倍体)。每管可能含有某种染色体的单倍体拷贝、其它染色体的二倍体拷贝，以及没有其它染色体拷贝。因此，有必要为每管创建关于它的内容的目录，用于包括单倍型确定在内的随后分析。

可以通过能检测DNA存在的任何方法编目录。例如，PCR可以用来检测DNA片段的存在。如果将PCR设计为覆盖足够数量的代表所有基因组染色体的区域，然后它可以用来创建基因组范围的目录。还可以将PCR设计为仅覆盖研究课题的靶基因组区。此外，还可以使用全基因组瓦片阵列创建该目录，但是是以更加系统和高通量的形式。

如果分割对的两管都含有染色体A，则将具有染色体A的单倍体拷贝的两管用于单倍型确定。基于用于随后分析的该目录选择具有任何特定染色体的单倍体拷贝的管。可以将来自该方法的样品用作常规的DNA样品，并直接进行各种高通量基因型分型测定。在单倍型确定中，将来自单倍体样品的基因型与来自相同个体用作质量对照的的二倍体样品进行比较。通过该比较将容易地检测任何假-单倍体管。

单倍切割方法的另一个实施方案允许确定来自单细胞某染色体的单倍型。所述方法包括：从个体分离单个的二倍体细胞，对分离的单个的二倍体细胞进行裂解和染色以展示染色体，通过激光显微切割从单细胞收集一组染色体，对所收集的染色体中的基因组DNA进行基因型分型，对来自相同个体的另一个完整的单细胞的基因组DNA进行基因型分型，确定染色体收集组中的染色体的单倍型，其中所述染色体以单倍体形式存在于所述染色体收集组中。

如图7所示，当沿着虚线切割细胞并收集右半细胞时，所收集的染色体包含仅为染色体2、3和5的单拷贝(单倍体)、染色体1的两个拷贝(二倍体)和没有染色体4拷贝(异倍体)。因此，从传统基因型分型平台对该半个细胞的基因型读取(genotype calls)将直接返回染色体2、3和5的单倍型，而对于染色体1将仍是二倍体基因型，对于染色体4没有基因型读取。

如早期所讨论的，对于每条给定的染色体，如果所收集的一组染色体含有单个的二倍体细胞染色体总数的约一半，则有50％的机会收集单倍体拷贝。当从多个单细胞收集多组染色体时，概率会显著增加。例如，如果从8个单细胞收集8组染色体，并且每组收集的染色体含有单细胞染色体总数的约一半，则有大于99.6％的机会收集给定染色体的单倍体拷贝。因此，使用8个半个细胞可以高概率(大于99.6％)实现对来自个体的完整染色体组进行单倍型分型。

因此，在相关的实施方案中，分离并裂解多个单个的二倍体细胞。收集多组染色体；从不同的单细胞收集每组染色体。收集组的数量足够大，以便个体基因组中的每条染色体以大于99％的概率存在于单倍体形式中。

将上述的单倍切割方法应用于任何真核有机体中。在某些实施方案中，所述个体是动物或植物。在其他的实施方案中，所述个体是哺乳动物。在其他的实施方案中，所述个体是人。

本发明的另一方面涉及具有用于实施本发明方法的计算机执行指令的计算机可读介质。

本发明的另一方面涉及用于单倍切割的测定试剂盒。在一个实施方案中，所述测定试剂盒含有用于细胞收集、细胞裂解和任选地细胞发生染色的试剂，以及用于基因组DNA扩增和基因组基因型分型的试剂。在另一个实施方案中，所述试剂盒还包含具有计算机执行指令的计算机可读介质，用于基于基因型分型数据确定单倍型。在另一个实施方案中，所述试剂盒还包含专门设计的用于从单细胞或少量细胞收集一组染色体用于单倍型读取和染色体生物检查的装置。

在一个实施方案中，将单倍切割方法用在产前诊断学中，用于检测胎儿的重要基因型缺陷。已经了解到一些胎儿细胞在母体外周血中循环。因此，可以从怀孕的母体血液收集胎儿细胞。使用上述的方法可以对这些细胞进行单倍型分析。由于通常是单倍型(不同基因型等位基因的组合)引起疾病，通过单倍型确定的产前诊断会比基因型确定的产前诊断更精确。本发明的单细胞特性为母体血液中胎儿细胞的单倍型确定提供可行性。

在另一个实施方案中，将单倍切割方法用在个性化用药中。个性化用药是医生基于人具体的遗传变异定制治疗的实践。例如，服用同一抗高血压药物的两人可能有截然不同的反应。一名可能具有严重的，甚至威胁生命的副作用，而另一名经历较少甚至没有副作用，并且似乎顺利通过了所述治疗。两人对同一药物会有如此大不同反应的原因在于他们的基因。人们遗传他们的基因中变异，并且即使微小的变异都可能会对人患有的同一疾病亚型以及人对某些药物如何响应产生深远的影响。

在个性化用药中，临床中目前的方法开始改变。在患者服用单一剂量的药物之前，可以对患者进行血液化验以确定遗传变异。所述化验可以表明该患者的可能对某一药物具有不利影响的变异。医生可以决定药物处方和剂量，以便与患者的遗传学匹配。因此，特有的遗传谱能帮助医生对患者进行个性化地治疗，改善药物开发以及降低医疗成本。

目前广泛接受多-SNP单倍型比单-SNP基因型更能精确地代表人类的基因型。然而，没有直接读取单倍型的简单、廉价且高通量的实验方法。统计的单倍型构型引起诸多歧义。该技术瓶颈不仅限制发现引起常见疾病的遗传基础的努力，而且它还限制遗传检验在临床实践中的应用。单倍切割方法可以解决该技术瓶颈。

例如，在患者服用任何药物之前，从他的口中收集少量细胞，并通过使用本方法确定那些疾病突变的单倍型。医生将开出与患者特有的遗传谱相匹配的某剂量的药物，以进行个性化治疗。

在另一个实施方案中，将单倍切割方法用在法医检验中。在法医研究中、在性侵犯和其他犯罪的任何情况以及亲子鉴定中，准确的单倍型分型比单个SNP基因型分型提供更高的精确度。在诸多法医检验的情况中，可用的样本量非常有限。由于我们发明的单细胞特性以及本技术得出的准确的单倍型结果，使得单倍切割方法会通式增加敏感度和精确度。

通过下面实施例进一步说明了本发明，不应当将下面实施例理解为限制。通过引用将本申请所引用的所有参考文献、专利和公开的专利申请的内容，以及图形和表格并入本文。

实施例

实施例1：细胞的制备

I.样品收集

从人体收集血液并分离淋巴细胞。

II.细胞培养

将淋巴细胞培养于含15％FBS和100单位/ml青霉素/链霉素的RPMI1640培养基中。

III.细胞裂解

1.在增殖阶段，将植物凝集素添加至细胞培养物。

2.在植物凝集素(PHA)处理48小时后收获细胞。

3.将溴化乙锭(16.7μg/ml)和Act-D(6.7μg/ml)添加至细胞。

4.于37℃孵育0.5小时。0.5小时之后，将秋水仙胺(0.083μg/ml)添加至细胞并于37℃孵育1小时。

5.于1000rpm离心10分钟。

6.吸去所有上清仅留0.3ml上清，轻轻重悬细胞团。添加预热的0.075mol/L KCl轻轻涡旋，确保KCl与细胞团混匀。

7.处于37℃20分钟，并再处于室温5分钟。于1000rpm离心10分钟。并移除上清。

8.添加冷的固定剂(甲醇∶乙酸为3∶1)，通过颠倒管轻轻混合。

9.固定和离心3次后，将细胞滴加至载玻片，并用吉姆萨(geimesa)染色20分钟。

10.使载玻片在通风橱中风干20分钟。

IV.染色体分离

1.打开激光，显微镜(Leica，ASLMD)和计算机。将收集器中的PCR管置于固定架上。

2.将载玻片置于支架上。

3.来到计算机屏幕。点击LEICAADMINISTRATOR开启程序。

4.将物镜设至10×找到细胞，然后调至40×。

5.收集染色体：随机地从每个细胞切下并选择不超过30条染色体。收集4-8个样品。每个样品含有来自约7-11个细胞的染色体。

6.退出LBICA ADMINISTRATOR程序。

7.依次关掉计算机、显微镜和激光。

实施例2：全基因组DNA扩增

单细胞裂解和断裂

1.使用激光捕捉显微切割、细胞分选或其他方法将单细胞分离进准备进行PCR的管中。如果已分选，则缓冲液应该是低离子强度的，诸如Tris EDTA(TE)缓冲液，并且是最小的分选体积。

2.将充足体积的水添加至单细胞样品，使最终体积为9mL。

3.通过将2mL的蛋白酶K溶液添加至32mL的10单细胞裂解&断裂缓冲液，并完全涡旋来制备工作裂解和断裂缓冲液。

4.将1mL新鲜制备的蛋白酶K溶液-10′单细胞裂解&断裂缓冲液添加至单细胞样品，并完全混合。

5.将DNA混合物于50℃孵育1小时，然后加热至99℃，精确地持续4分钟。注意所述孵育是十分时间敏感的，且任何偏差都可能改变结果。冰上冷却。在进行文库制备之前降速旋转样品。

文库制备

6.将2mL的1个单细胞文库制备缓冲液添加至每个样品。

7.添加1mL的文库稳定溶液。

8.完全混合并置于热循环仪中于95℃持续2分钟。

9.将样品于冰上冷却，通过离心合并样品，并重新放在冰上。

10.添加1mL文库制备酶，完全混合，并短暂离心。

11.将样品置于热循环仪中，并按下述孵育：

16℃持续20分钟；24℃持续20分钟；37℃持续20分钟；75℃持续5分钟；并于4℃保存。

12.将样品移出热循环仪并短暂离心。可以立即对样品进行扩增或于-20℃保存3天。

扩增

13.将下面试剂添加至全部14Ml反应：

7.5mL 10′扩增Master Mix；48.5mL无核酸酶的水；以及5.0mL WGADNA聚合酶。

14.完全混合，短暂离心，并开始热循环。下面参数已优化用于PE9700或同等的热循环仪：

于95℃预变性3分钟。

按下述进行35个循环：

于94℃变性30秒；于65℃退火/延伸5分钟；并于4℃保存。

当完成循环后，将反应液保持于4℃或保存于-20℃直至准备分析或纯化。WGADNA的稳定性与基因组相当。

将DNA保存在同等条件下。

实施例3：全基因组基因型分型

将扩增的DNA进行诸如Hap3000K和其他的Illumina高通量全基因组基因型分型。对于每人，用2-4管样品进行基因型分型，以确保高的基因组覆盖度并实现精确复制。包括了基因组DNA样品用于全基因组基因型分型。也可以用其他高通量基因型分型平台进行本步骤。

实施例4：单倍型确定

从Illumina人CNV370-Duo芯片获得全基因组基因型分型数据。使用Infmium测定，该芯片含量覆盖超过370,000个标记。扫描之后，将所有的数据上传进BeadStudio，并使用BeadStudio基因型分型模块的版本3进行分析。在严格的过滤去除缺失基因型的SNP之后，剩余的SNP可用于分析。将Illumina基因型分型输出中的θ、R、X和Y值用来确定每个SNP两等位基因的相对比。通过沿着染色体的等位基因比构建单倍型。

使用专门开发用于该技术的软件“HapReader”进行单倍型构建。其基本程序和算法如下：

1)在个体水平，一个人接一个人地进行所述分析。没有来自不同个体数据表的组合。

2)每人会有3-5张基因型分型数据表，一个数据表如果来自基因组DNA，则其他数据表来自染色体收集管。从每张Illumia输出数据表提取等位基因读取(allele calls)和它们相应的信号强度。

3)基于来自基因组DNA样品的数据表，选择该人的纯合基因座。计算这些基因座处A、C、G和T平均数的相对比。确定A、C、G、T的k值，以对于给定特定实验将它们的强度调至相同的水平。

4)使用这些k值，调整杂合基因座.

5)对于每个基因座，计算两等位基因的比。

6)对于每个基因座，通过它们的等位基因强度比对那些两个等位基因的顺序进行整理，以相同的方式对所有基因座进行整理，且将较高强度等位基因保持在A栏而将较低强度等位基因保持在B栏。

7)沿着染色体检查并比较比值，以确定每条染色体中是否有断点。

8)如果在步骤7)中没有断点，A栏中的等位基因形成单倍型，且B栏中的等位基因会形成该人的另一个单倍型。如果在步骤7)中有断点，使用来自其他染色体收集管中的结果搭接所述断点。

本发明的一方面在于本步骤。通过使用LeicaASLMD激光显微切割系统的显微切割将染色体收集进PCR管。本步中，不是所有的染色体都从一个细胞收集；相反，仅仅一部分(约一半)染色体从任意单个裂解的细胞收集(图2)。对于任何裂解的细胞染色体的选择是随机的。考虑该随机收集来自5-11个随机选择的细胞。将来自这些5-11个显微切割细胞的所有染色体收集进一管中。每人收集4-8管。在该步骤中，通过在计算机上选择激光切割界限保持染色体完整性，所以确保了染色体完整性。

使用Sigma GenomePlex WGA-4试剂盒对每个PCR管中收集的DNA样品扩增20-24个循环。实际上，可以使用任何均衡的全基因组扩增(WGA)方法进行该步骤。这些方法包括但不限于，多重置换扩增(MDA，GEHealthcase GenomiPhi和Qiagen Repli-g)、引物延伸预扩增(PEP)、改进的引物延伸预扩增(iPEP)和简并寡聚核苷酸引物PCR(DOP，SigmaGenomePlex)，Repli-g和GenomiPhi产生约10kb大小的产物，而SigmaGenomePlex产生约数百个碱基对的产物。

实施例5：使用单细胞裂解物法确定单倍型

使用Leica AS LDM激光显微切割系统(Leica Microsystems，Germany)从来自人个体的新鲜细胞刷-棉签颊粘膜细胞分离单细胞。简单而言，将颊粘膜细胞涂在带箔的载玻片(固定在标准显微镜载玻片边缘的矩形的可用于UV切割的箔片)上，风干5分钟，然后进行非常短暂的染色。在显微镜下检查该部分，选择单细胞，并用激光显微切割系统将其从带箔的载玻片切下。将单细胞收集进每管有10μl细胞裂解缓冲液的管中。然后将每管中的单细胞裂解物平均分成两管。将每管中的基因组DNA WGA扩增用于基因型分型。使用基因型分型数据创建基因组范围的目录。使用所述目录进行单倍型确定。

实施例6：使用单细胞切割方法确定单倍型

染色体显微切割：将淋巴细胞培养于含15％FBS和100单位/ml青霉素/链霉素的RPMI 1640培养基中。运用植物凝集素(PHA)刺激细胞48小时，接着添加溴化乙锭(16.7μg/ml)和放射菌素D(6.7μg/ml)，并于37℃孵育30分钟。将秋水仙胺(0.083μg/ml)添加至细胞，并于37℃孵育1小时。通过在1,000rpm离心10分钟收集细胞，重悬，在预热的0.075mol/LKCl中于37℃孵育20分钟，然后于室温5分钟。用冷的固定剂(甲醇∶乙酸为3∶1)固定后，将细胞滴加至载玻片破裂细胞核，随后用吉姆萨染色20分钟。使用激光显微切割显微镜(ASLMD，Leica，Germany)收集一个细胞的染色体的一半。

全基因组扩增(WGA)：通过Sigma GenomePlex WGA4试剂盒按照制造商的说明书对收集的染色体进行扩增。简单而言，将样品在裂解和断裂缓冲液中于50℃孵育1小时，然后加热至99℃持续4分钟。然后将单细胞文库制备缓冲液和文库稳定溶液添加至样品于95℃孵育2分钟。用下面循环制备文库：16℃持续20分钟、24℃持续20分钟、37℃持续20分钟、75℃持续5分钟。通过95℃预变性3分钟，随后94℃/30秒和65℃/5分钟进行35个循环对DNA进行扩增。通过QIAquick PCR纯化试剂盒纯化扩增的DNA。

基因型分型：使用Illumina人CNV370-Quad芯片进行基因型分型。该芯片含有包括SNP和拷贝数变异(CNV)标记在内的约370,000个标记。将用Qiagen试剂盒提取的三个独立的显微切割的样品和一个基因组样品进行基因型分型实验。扫描之后，将所有的数据上传进BeadStudio，并使用BeadStudio基因型分型模块的版本3进行分析。无读取阈值设置为默认值(0.15)。

数据分析：从国际人类基因组单倍型图计划数据库(InternationalHapMap Project database)(阶段(Phase)2公开发行(Public Release)#22和阶段3公开发行#1，阶段2+3发行#27)检索到GM 10847和他父母的非定相的基因型(GM和GM)。还从Illumina数据库检索到GM10847的非定相的基因型。通过按照孟德尔遗传定律确定每个等位基因的亲本来源来用GM10847的亲本基因型计算地重建GM10847的单倍型。在数据分析中，仅将GM10847的那些杂合基因座进行单倍型确定。排除了纯合基因座，因为它们没有单倍型分型问题(已知相)。排除了Illumina基因型分型输出中两个等位基因强度都在1,000以下的等位基因读取。从UCSC基因组浏览器(UCSC Genome Browser)(人类2006三月组装)检索基因组范围的RepeatMasker检测。用SAS9.1进行所有的数据整合。

通过三组独立的实验用HapMap计划(国际人类基因组单倍型图协作组2003)招募的个体GM10847检验单倍型分型方法。接着上述程序之后，我们将显微切割样品的基因型读取与基因组DNA的基因型读取以及从国际人类基因组单倍型图计划数据库(阶段2公开发行#22)下载数据的基因型读取进行比较。通过染色体范围的杂合读取是否转变为显微切割样品中的纯合读取来指示每个样品中每条染色体的单染色体状态、二染色体状态和零染色体状态(图8)。发现样品1成功地以染色体2、4、6、15、16、17、18和20为单倍型；样品2以染色体1q、3、4、5、10、16、17、18、20和21为单倍型；样品3以染色体3、7、9和20为单倍型。共定相了24,481个杂合基因座。

通过复制并与使用孟德尔遗传定律下的三重结构从非定相的基因型所决定的单倍型(HapMap阶段2公开发行#22)进行比较来确定本方法的精确度(Hodge SE，et al，Nat Genet，21(4)：360-1；1999)。在用我们的7DDNA单倍型分型方法成功定相的那些24,245个SNP基因座之中，464个SNP基因座没有被HapMap阶段2基因型数据覆盖，4,744个SNP由于全部3倍杂合子没有来自HapMap基因型的明确的单倍型，并且142个SNP由于HapMap2中丢失的数据没有被定相。所以我们在我们的单倍型和HapMap2来源的单倍型之间比较了18,895个SNP基因座。当与通过HapMap三重结构所决定的单倍型比较时，有18,625个SNP(98.57％)显示出一致的等位基因相。在那些270个不一致的SNP基因座中，45个SNP基因座是由于与阶段3基因型读取比较HapMap阶段2基因型分型错误，并且103个基因座有如RepeatMasker所检测的各种重复。除了由RepeatMasker所识别的那些之外其他的不一致性可潜在地归于全基因组扩增错误、基因型分型错误或的未评注部分的复制。通过2,089次复制直接地进一步确定精确度，其中2,065个SNP表现出一致的结果，它们中没有不一致的单倍型，且尽管整个染色体表现出不一致性(表1)，24个SNP基因座在复制物之一中具有二倍体等位基因读取，估计有98.85％的精确率。

表1通过数据再现估计精确率

本单倍型分型方法对定相距离、总SNP数和标记类型没有明显的限制。该方法简单且廉价；它不需要对实验条件进行复杂的优化，并且其成本与常规高通量基因型分型测定接近。此外，如果染色体显微切割是自动化的，则将该方法修正为自动化明显没有障碍。通过使用用于单细胞DNA的更好的WGA方法、更新版本的高通量基因型分型芯片或深度测序仪以及诸如对特定染色体进行染色体涂染的更特异的染色体染色，可以进一步改善所述方法。

上面的说明书是用于教导本领域内技术人员如何实施本发明的目的，它并没有意图详述其所有的那些明显的修改和变化，在阅读完该说明书后，所述修改和变化对本领域内技术人员将变得显而易见。然而，意图将所有这些明显的修改和变化都包括在本发明的范围内，通过下面的权利要求书限定该范围。除非文中明确表明相反，实施方案意图覆盖有效满足预期目标的任何次序的组分和步骤。

Claims

1.非诊断目的的对个体进行高通量全基因组单倍型分型的方法，所述方法包括：

(a)从所述个体的一个裂解细胞分离染色体的子集；

(b)从所述染色体子集分离染色体DNA；

(c)从所述染色体DNA获得的核苷酸序列信息生成等位基因基因型，从而产生第一组基因型分型数据；

(d)从所述个体分离总的基因组DNA；

(e)从所述总的基因组DNA获得的核苷酸序列信息生成等位基因基因型；

(f)基于步骤(c)和(e)中等位基因基因型的比较来确定等位基因的单倍型；

(g)重复步骤(a)至(f)以确定其他等位基因的单倍型。

2.如权利要求1所述的方法，其中所述步骤(f)包括：

从对应的基因型分型数据提取核苷酸序列信息和对应的核苷酸信号强度；以及

从多个杂合基因座的每一个计算两个等位基因的核苷酸信号强度比。

3.如权利要求2所述的方法，所述方法还包括：

通过等位基因强度比对每个基因座处的等位基因顺序进行整理；

将较高强度等位基因保持在第一栏而将较低强度等位基因保持在第二栏；和

确定每条染色体中是否有断点，

如果在染色体中没有断点，用第一栏中的等位基因形成一个单倍型，且用第二栏中的等位基因形成另一个单倍型，

如果在染色体中有断点，使用从不同细胞收集的相同染色体的基因型分型数据搭接所述断点。

4.如权利要求1所述的方法，其中收集来自2-12个细胞的染色体。

5.如权利要求4所述的方法，其中一共收集了4-8个细胞。

6.如权利要求1所述的方法，其中所述个体是哺乳动物。

7.如权利要求6所述的方法，其中所述哺乳动物是人。

8.非诊断目的的对个体进行分子单倍型分型的方法，其包括：

(a)从所述个体分离多个单细胞；

(b)对来自所述多个单细胞的单个的二倍体细胞进行裂解以产生单细胞裂解物；

(c)将来自步骤(b)的所述单细胞裂解物分成两份并从每份分离基因组DNA；

(d)从步骤(c)中每份的基因组DNA获得的核苷酸序列信息生成等位基因基因型；

(e)重复步骤(b)-(d)多次；

(f)创建从步骤(e)获得的等位基因基因型的目录；和

(g)基于从所述目录中表示的多份获得的核苷酸序列信息的比较确定所述个体的染色体单倍型。

9.如权利要求8所述的方法，其中所述分离步骤包括从所述个体分离4-12个单细胞。

10.如权利要求9所述的方法，其中所述分离步骤包括从所述个体分离6-10个单细胞。

11.如权利要求10所述的方法，其中所述分离步骤包括从所述个体分离8个单细胞。

12.如权利要求8所述的方法，其中所述个体是哺乳动物。

13.如权利要求12所述的方法，其中所述哺乳动物是人。

14.非诊断目的的对个体进行分子单倍型分型的方法，所述方法包括：

(a)从所述个体分离单细胞；

(b)对所述分离的单细胞进行裂解和染色以展示染色体；

(c)通过激光显微切割从所述单细胞收集染色体的子集；

(d)从所述染色体的子集分离染色体DNA；

(e)从步骤(d)中的染色体DNA确定等位基因基因型，以产生一组基因型分型数据，所述数据包括对应于所述染色体DNA的等位基因的核苷酸序列信息；

(f)分离来自相同个体的总基因组DNA；

(g)从步骤(f)的总基因组DNA确定等位基因基因型，以产生一组基因型分型数据，所述数据包括对应于所述总基因组DNA的等位基因的核苷酸序列信息；

(h)重复步骤(a)至(g)，直到至少一个染色体以单倍体形式存在于步骤(d)的至少一个染色体子集中；以及

(i)基于获自所述染色体DNA和所述总基因组DNA的等位基因核苷酸序列信息的比较确定染色体的单倍型，其中步骤(d)的至少一个染色体子集含有单倍体形式的染色体。

15.如权利要求14所述的方法，其中重复步骤(a)至(g)足够多的次数，以确定所述个体每条染色体的单倍型。

16.如权利要求14所述的方法，其中重复步骤(a)至(g)足够多的次数，以便有大于99％的概率使得所述个体的每条染色体以单倍体形式存在于至少一个收集的染色体子集中。

17.如权利要求14所述的方法，其中步骤(e)和(g)的每一个步骤包括扩增基因组DNA。

18.如权利要求14所述的方法，其中所述个体是人。

19.如权利要求14所述的方法，其中步骤(e)和(g)包括通过与单核苷酸酸多态性(SNP)探针杂交来确定来自一组染色体的核苷酸序列和核苷酸信号强度。