CN108138226B

CN108138226B - 单核苷酸多态性和插入缺失的多等位基因基因分型

Info

Publication number: CN108138226B
Application number: CN201680060855.0A
Authority: CN
Inventors: J·N·戈卢布; M·H·夏皮罗; D·奥利弗; D·布莱克; F·西迪基
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 2015-10-18
Filing date: 2016-10-18
Publication date: 2022-02-11
Anticipated expiration: 2036-10-18
Also published as: BR112018007710A2; US20180305748A1; JP6858783B2; WO2017070096A1; EP3901279A1; IL258795A; IL296418A; KR20180071299A; EP3901279B1; CN108138226A; RU2706203C1; EP3362580A4; AU2016341845B2; JP2019500706A; IL258795B; EP3362580A1; AU2022259706A1; AU2016341845A1; IL258795B2; EP3362580B1

Abstract

公开了用于对多等位基因标记进行基因分型的基于阵列的方法的方法和系统。本文还公开了用于全基因组扩增和基因座特异性多重PCR以选择性偏向扩增以便减小非所要假基因在所得数据中的影响的方法。

Description

单核苷酸多态性和插入缺失的多等位基因基因分型

相关申请的交叉引用

本申请要求2015年10月18日提交的美国申请第62/243,078号的优先权，其公开内容以全文引用的方式并入本文中。

技术领域

本文所描述的方面通常涉及用于多等位基因基因分型的系统和方法。具体来说，本公开的一个或多个方面是针对对多等位基因标记(包括单核苷酸多态性(SNP)和插入缺失)进行基因分型的基于阵列的方法，以及用于确定样品中的每种变异体处的多个等位基因的基因型信息的算法。

背景技术

合成核酸探针阵列(例如

阵列(加利福尼亚州圣克拉拉的昂飞公司(Affymetrix,Inc.,Santa Clara,CA)))已经用以生成前所未有的量的关于生物系统的信息。举例来说，阵列可含有足以对每阵列一百万个单核苷酸多态性(SNP)进行基因分型的探针。对来自此类微阵列的基因型数据的分析使得可开发新药物、生物体(包括植物、动物、细菌、古细菌和真菌)的新品种或品系、以及基于遗传信息(包括经调整以特异性靶向群体和/或个体的信息)和此类信息与疾病(例如癌症)的相关性的新诊断工具和处理。

大多数SNP和插入缺失(例如，碱基的插入或缺失)可以是双等位基因的，其中可以在遗传变异中存在两个等位基因。因此，常规基因分型方法可以针对用于鉴别两个等位基因的双等位基因方法；然而，一些遗传变异体可具有多于两个可能的等位基因。也就是说，对多等位基因变异体进行基因分型越来越受关注，其中与由多个双等位基因变异体的等位基因定义的单倍型相对，在单个基因座处存在多个替代等位基因。举例来说，基因组数据(例如获自千人基因组计划(1000 Genomes Project)的基因组数据)可含有约400,000个多等位基因SNP和插入缺失。微阵列板(例如

阵列)可含有一组几十个多等位基因变异体，所述变异体对药物代谢具有显著影响，取决于哪些替代等位基因存在于组中。因此，需要在基因分型中鉴别多等位基因变异体的新方法。

发明内容

以下呈现了本文所描述的各个方面的简化概述。此概述并非广泛综述，并且并不希望指出关键或重要要素或划定权利要求书的范围。以下概述仅按简化形式呈现一些概念，作为对以下提供的更详细描述的介绍性序言。

本文所描述的方面是针对用于多等位基因基因分型和本文所描述的其它方法的系统、方法和算法。基因分型方法典型地对标记或基因组变异体假定一个参考等位基因和一个替代等位基因。本文所公开的多等位基因基因分型算法由处置具有多于一种变异体的多等位基因标记的常规基因分型方法延伸而来。也就是说，本文所公开的方法可以通过对每个样品在每种变异体处选择两个等位基因加以考虑以便减少一次考虑的等位基因的数目来对多等位基因SNP和插入缺失进行基因分型。

根据特定实施例，本文公开了使用计算机系统对一种或多种多等位基因标记进行基因分型的方法。方法可以包括获取一个或多个样品中一种或多种多等位基因标记的信号；针对每种多等位基因标记，簇聚来自所述一个或多个样品的多个等位基因对中的每一对等位基因的信号，产生代表每个等位基因对的簇；针对代表纯合等位基因对的每个纯合簇，收集替代等位基因的信号用于计算所述替代等位基因的背景信号，产生各自代表对应的等位基因的多个背景信号；基于所述信号和所述背景信号，针对每个等位基因对分配每个样品的初始基因型判读；使用所述初始基因型判读和先验簇参数计算每个簇的多变量正态分布；针对每个簇的每个多变量正态分布，计算每个样品的成员资格的对数似然；基于所述成员资格对数似然，针对每个样品，计算每个簇中的成员资格的概率；和基于所述成员资格概率，对每个样品分配最终基因型判读。

根据其它实施例，还公开了利用全基因组扩增和基因座特异性多重聚合酶链反应(mPCR)制备扩增子的方法。这些方法可以针对于选择性偏向扩增以改进所关注的所要标记的基因分型数据的品质和减小非所要假基因在所得数据中的影响。方法可以包括获得基因组DNA(例如，通过提取)；对所述基因组DNA应用全基因组扩增；和执行基因座特异性mPCR以获得所要基因变异体的增加数目的扩增子。可以使所得DNA样品片段化并且与可以用于多等位基因基因分型的阵列杂交。通过创建朝着所关注变异体的扩增的有意不平衡或偏向，可以改进下游生物信息学分析。

根据其它实施例，本公开涉及可以一起或独立用以评估生物分析或测试或实验并且提供或评估结果的方法和/或系统和/或装置。在特定实施例中，本公开涉及一种被配置成具有逻辑指令或模块以存取数据和执行如本文所述的步骤的信息处理装置(例如计算机或实验室设备)。在其它实施例中，本发明涉及记录于有形媒体上的逻辑指令和/或数据。

通过在下文进一步详细论述的本公开的益处，将了解这些和额外方面。

附图说明

专利或申请文件含有至少一个彩制图式。具有彩色图式的这一专利或专利申请公开的拷贝将在请求和支付必需费用之后由专利局提供。可以通过参考考虑附图的以下描述来获取对本文中描述的方面和其优点的更完整理解，其中相似参考数字指示相似特征，并且其中：

图1示出了可以用以执行本发明的实施例的软件的计算机系统的实例。

图2示出了图1的计算机系统的系统框图。

图3示出了用于将等位基因强度对数变换为对比度和大小的实例图。

图4示出了在双等位基因基因分型算法中分配到簇的样品的实例图。

图5示出了多等位基因基因分型方法的高级流程图。

图6A、6B和6C示出了每个等位基因对的背景信号计算的实例图。

图7A、7B和7C示出了基因分型的样品子集的初始划分的实例图。

图8示出了用于多等位基因基因分型的N维高斯混合模型(Gaussian mixturemodel)的实例。

图9示出了多等位基因判读率对平均簇和谐性的实例图，包括所有多等位基因探针集。

图10示出了若干转换的探针集的判读和参考基因型的实例图。

图11示出了用于组合单一基因(例如，CYP2D6)的基因座特异性扩增与全基因组扩增(WGA)的步骤的流程的实例图。

图12示出了获自执行图11中示出的两种方法的结果的基因分型图。

图13示出了根据本公开的一个或多个方面的所公开扩增方法中的工作流程的实例图。

图14示出了根据本公开的一个或多个方面的测试可行性的多重引物集的实例表。

图15示出了根据本公开的一个或多个方面的来自寡核苷酸加标研究的基因分型结果的实例。

图16示出了根据本公开的一个或多个方面的来自15重mPCR分析的结果的实例表。

具体实施方式

纲要

本公开具有许多优选实施例并且关于对于本领域技术人员已知的细节依赖于许多专利、申请和其它参考文献。因此，当专利、申请或其它参考文献在下文被引用或重复时，应理解，其以全文引用的方式并入用于所有目的以及用于所叙述的命题。

除非上下文另外明确规定，否则如本申请中所使用，单数形式“一(a)”、“一(an)”和“所述(the)”包括多个参考物。举例来说，术语“一试剂”包括多个试剂，包括其混合物。

个体不限于人类但也可以是其它生物体，包括但不限于哺乳动物、植物、细菌或衍生自以上中的任一个的细胞。

在本公开通篇，本公开的各个方面都可以以范围格式呈现。应理解，范围格式的描述仅仅是为了方便和简洁起见并且不应该被解释为是对本公开的范围的固定限制。因此，范围的描述应被认为是已经确切地公开了所有可能的子范围以及所述范围内的单个数字值。举例来说，例如1到6的范围描述应被视为已经确切地公开了例如1到3、1到4、1到5、2到4、2到6、3到6等的子范围，以及所述范围内的单个数字，例如1、2、3、4、5和6。不管范围的广度如何这都适用。除非另外说明，否则所有对函数对数的提及默认e作为底数(自然对数)(例如log.sub.10)。

除非另外指示，否则本公开的实践可以采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和描述，这些在本领域的技术范围内。此类常规技术包括聚合物阵列合成、杂交、连接和使用标记检测杂交。适合技术的具体说明可以参考下文中的实例。然而，当然也可以使用其它等效的常规程序。此类常规技术和描述可以见于以下参考文献中：标准实验指南，例如《基因组分析：实验指南系列(Genome Analysis:A Laboratory Manual Series)》(第I-IV卷)、《使用抗体：实验指南(Using Antibodies:A Laboratory Manual)》、《细胞：实验指南(Cells:A LaboratoryManual)》、《PCR引物：实验指南(PCR Primer:A Laboratory Manual)》和《分子克隆：实验指南(Molecular Cloning:A Laboratory Manual)》(都来自冷泉港实验室出版社(ColdSpring Harbor Laboratory Press))；Stryer,L.(1995)《生物化学(Biochemistry)》(第4版)纽约州弗里曼(Freeman,N.Y.)；Gait,“寡核苷酸合成：实用方法(OligonucleotideSynthesis:A Practical Approach)”1984,伦敦IRL出版社(IRL Press,London)；Nelson和Cox(2000),Lehninger,《生物化学原理(Principles of Biochemistry)》第3版,纽约州纽约的W.H.弗里曼出版社(W.H.Freeman Pub.,New York,N.Y.)；以及Berg等人(2002)《生物化学》,第5版,纽约州纽约的W.H.弗里曼出版社，其都以全文引用的方式并入本文中用于所有目的。

本公开可以采用固体基质，在一些优选实施例中包括阵列。适用于聚合物(包括蛋白质)阵列合成的方法和技术已经描述于以下参考文献中：美国序列号09/536,841、WO 00/58516、美国专利第5,143,854号、第5,242,974号、第5,252,743号、第5,324,633号、第5,384,261号、第5,405,783号、第5,424,186号、第5,451,683号、第5,482,867号、第5,491,074号、第5,527,681号、第5,550,215号、第5,571,639号、第5,578,832号、第5,593,839号、第5,599,695号、第5,624,711号、第5,631,734号、第5,795,716号、第5,831,070号、第5,837,832号、第5,856,101号、第5,858,659号、第5,936,324号、第5,968,740号、第5,974,164号、第5,981,185号、第5,981,956号、第6,025,601号、第6,033,860号、第6,040,193号、第6,090,555号、第6,136,269号、第6,269,846号和第6,428,752号、PCT申请第PCT/US99/00730号(国际公告第WO 99/36760号)和第PCT/US01/04285号，其都以全文引用的方式并入本文中用于所有目的。

在特定实施例中描述合成技术的专利包括美国专利第5,412,087号、第6,147,205号、第6,262,216号、第6,310,189号、第5,889,165号和第5,959,098号。核酸阵列描述于以上专利中的多个中，但相同技术适用于多肽阵列。

适用于本公开的核酸阵列包括可以商标名称

商购自昂飞(Affymetrix)(加利福尼亚州圣克拉拉(Santa Clara,Calif.))的那些。实例阵列展示于网站affymetrix.com上。

本公开还涵盖连接到固体基质的聚合物的许多用途。这些用途包括基因表达监控、图谱分析、库筛选、基因分型和诊断。基因表达监控和图谱分析方法可以展示于美国专利第5,800,992号、第6,013,449号、第6,020,135号、第6,033,860号、第6,040,138号、第6,177,248号和第6,309,822号中。基因分型和其用途展示于美国序列号60/319,253、10/013,598以及美国专利第5,856,092号、第6,300,063号、第5,858,659号、第6,284,460号、第6,361,947号、第6,368,799号和第6,333,179号中。其它用途体现于美国专利第5,871,928号、第5,902,723号、第6,045,996号、第5,541,061号和第6,197,506号中。

在某些优选实施例中，本公开还涵盖样品制备方法。在基因分型之前或同时，基因组样品可以通过多种机制而扩增，所述机制中的一些可以采用PCR。参看例如《PCR技术：用于DNA扩增的原理和应用(PCR Technology:Principles and Applications for DNAAmplification)》(H.A.Erlich编,纽约州纽约的弗里曼出版社,1992)；《PCR方案：方法和应用指南(PCR Protocols:A Guide to Methods and Applications)》(Innis等人编,加利福尼亚州圣地亚哥的学术出版社(Academic Press,San Diego,Calif.),1990)；Mattila等人,《核酸研究(Nucleic Acids Res.)》19,4967(1991)；Eckert等人,《PCR方法和应用(PCRMethods and Applications)》1,17(1991)；《PCR》(McPherson等人编,牛津的IRL出版社(IRL Press,Oxford))；以及美国专利第4,683,202号、第4,683,195号、第4,800,159号、第4,965,188号和第5,333,675号，并且其中的每一个以全文引用的方式并入本文中用于所有目的。样品可以在阵列上扩增。参看例如美国专利第6,300,070号和美国专利申请序列号09/513,300，其以引用的方式并入本文中。

其它适合扩增方法包括连接酶链式反应(LCR)(例如Wu和Wallace,《基因组学(Genomics)》4,560(1989)；Landegren等人,《科学(Science)》241,1077(1988)；和Barringer等人《基因(Gene)》89:117(1990))、转录扩增(Kwoh等人,《美国国家科学院会刊(Proc.Natl.Acad.Sci.USA)》86,1173(1989)；和WO88/10315)、自持序列复制(Guatelli等人,《美国国家科学院会刊》,87,1874(1990)；和WO90/06995)、靶多核苷酸序列的选择性扩增(美国专利第6,410,276号)、共有序列引物聚合酶链式反应(CP-PCR)(美国专利第4,437,975号)、任意引物聚合酶链式反应(AP-PCR)(美国专利第5,413,909号、第5,861,245号)和基于核酸的序列扩增(NASBA)。(参看美国专利第5,409,818号、第5,554,517号和第6,063,603号，其中的每一个以引用的方式并入本文中)。可使用的其它扩增方法包括：Qβ复制酶，描述于PCT专利申请第PCT/US87/00880号中；等温扩增方法，例如SDA，描述于Walker等人1992,《核酸研究》20(7):1691-6,1992中；和滚环扩增，描述于美国专利第5,648,245号中。可使用的其它扩增方法描述于美国专利第5,242,794号、第5,494,810号、第4,988,617号和美国序列号09/854,317和美国公告第20030143599号中，其中的每一个以引用的方式并入本文中。在一些实施例中，DNA通过多重基因座特异性PCR扩增。在其它实施例中，DNA使用连接物连接和单一引物PCR扩增。还可以使用其它可用扩增方法，例如平衡PCR(Makrigiorgos等人(2002),《自然·生物技术(Nat Biotechnol)》,第20卷,第936-9页)。

其它样品制备方法和用于降低核酸样品的复杂度的技术描述于Dong等人,《基因组研究(Genome Research)》11,1418(2001)；美国专利第6,361,947号、第6,391,592号以及美国专利申请序列号09/916,135、09/920,491、09/910,292和10/013,598中。

本领域中已经很好地开发了用于执行多核苷酸杂交分析的方法。杂交分析程序和条件将取决于应用而变化并且根据已知的一般结合方法选择，包括以下参考文献中提及的那些：Maniatis等人《分子克隆：实验指南》(第2增刊版纽约州冷泉港(Cold SpringHarbor,N.Y.),1989)；Berger和Kimmel《酶学方法(Methods in Enzymology)》,第152卷,分子克隆技术指南(Guide to Molecular Cloning Techniques)(加利福尼亚州圣地亚哥的学术出版公司,1987)；Young和Davism,《国家科学院会刊(P.N.A.S)》,80:1194(1983)。用于实施重复并且受控的杂交反应的方法和设备已经描述于美国专利第5,871,928号、第5,874,219号、第6,045,996号、第6,386,749号和第6,391,623号中，其中的每一个以引用的方式并入本文中。

在某些优选实施例中，本公开还涵盖配体之间杂交的信号检测。参看美国专利第5,143,854号、第5,578,832号、第5,631,734号、第5,834,758号、第5,936,324号、第5,981,956号、第6,025,601号、第6,141,096号、第6,185,030号、第6,201,639号、第6,218,803号和第6,225,625号、美国专利申请60/364,731以及PCT申请PCT/US99/06097(公开为WO99/47964)，其中的每一个也以全文引用的方式并入本文中用于所有目的。

用于信号检测和处理强度数据的方法和设备公开于例如美国专利第5,143,854号、第5,547,839号、第5,578,832号、第5,631,734号、第5,800,992号、第5,834,758号、第5,856,092号、第5,902,723号、第5,936,324号、第5,981,956号、第6,025,601号、第6,090,555号、第6,141,096号、第6,185,030号、第6,201,639号、第6,218,803号和第6,225,625号、美国专利申请60/364,731以及PCT申请PCT/US99/06097(公开为WO99/47964)中，其中的每一个也以全文引用的方式并入本文中用于所有目的。

本公开的实践还可以采用常规生物学方法、软件和系统。本公开的计算机软件产品典型地包括具有用于执行本公开的方法的逻辑步骤的计算机可执行指令的计算机可读媒体。适合的计算机可读媒体包括软盘、CD-ROM/DVD/DVD-ROM、硬盘驱动器、闪存器、ROM/RAM、磁带等。计算机可执行指令可以适合的计算机语言或若干语言的组合写入。基本计算生物学方法描述于例如Setubal和Meidanis等人,《计算生物学方法概论(Introduction toComputational Biology Methods)》(波士顿PWS出版公司(PWS Publishing Company,Boston),1997)；Salzberg,Searles,Kasif,(编),《分子生物学计算方法(ComputationalMethods in Molecular Biology)》,(阿姆斯特丹爱思唯尔(Elsevier,Amsterdam),1998)；Rashidi和Buehler,《生物信息学基础：生物科学和医学中的应用(BioinformaticsBasics:Application in Biological Science and Medicine)》(伦敦CRC出版社(CRCPress,London),2000)；以及Ouelette和Bzevanis《生物信息学：用于分析基因和蛋白质的实用指南(Bioinformatics:A Practical Guide for Analysis of Gene and Proteins)》(威利父子公司(Wiley&Sons,Inc.),第2版,2001)中。

本公开还可以利用各种计算机程序产品和软件用于多种目的，例如探针设计、数据管理、分析和仪器操作。参看美国专利第5,593,839号、第5,795,716号、第5,733,729号、第5,974,164号、第6,066,454号、第6,090,555号、第6,185,561号、第6,188,783号、第6,223,127号、第6,229,911号和第6,308,170号。与使用高密度微阵列分析的基因分型相关的计算机方法也可以用于本发明方法中，参看例如美国专利公告第20050250151号、第20050244883号、第20050108197号、第20050079536号和第20050042654号。

另外，本公开可具有优选实施例，其包括经网络(例如因特网)提供遗传信息的方法，如美国专利申请序列号10/063,559、60/349,546、60/376,003、60/394,574、60/403,381中所示。

定义

根据本公开的核酸可包括嘧啶和嘌呤碱基的任何聚合物或寡聚物，嘧啶和嘌呤碱基分别优选胞嘧啶、胸嘧啶和尿嘧啶以及腺嘌呤和鸟嘌呤。(参看Albert L.Lehninger,《生物化学原理》,793-800((沃斯出版社(Worth Pub.)1982)，其全文并入本文中用于所有目的)。实际上，本公开涵盖任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分以及其任何化学变异体，例如这些碱基的甲基化、羟甲基化或葡萄糖基化形式，等等。聚合物或寡聚物的组成可以是非均相或均相的，并且可以从天然存在的来源分离或可以人工或合成方式产生。另外，核酸可以是DNA或RNA或其混合物，并且可以永久或暂时地以单链或双链形式存在，包括同源双链体、异源双链体和杂交体状态。

寡核苷酸或多核苷酸是长度范围介于至少2个、优选至少8、15或20个核苷酸的核酸，但可以长达50、100、1000或5000个核苷酸长；或与多核苷酸特异性地杂交的化合物。本公开的多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)或其可以从天然来源分离、重组产生或人工合成的模拟物的序列。本公开的多核苷酸的另一实例可以是肽核酸(PNA)。(参看美国专利第6,156,501号，其以全文引用的方式并入本文中。)本公开还涵盖非传统碱基配对(例如胡斯坦碱基配对(Hoogsteen base pairing))已经在某些tRNA分子中鉴别出并且假定以三螺旋体存在的情况。“多核苷酸”和“寡核苷酸”在本申请中可互换使用。

如本文所用，术语“杂交”是指两个单链多核苷酸非共价结合形成稳定双链多核苷酸的过程；三链杂交理论上也是可能的。所得(通常)双链的多核苷酸是“杂交体”。形成稳定杂交体的多核苷酸群体的比例在本文中被称为“杂交度”。杂交通常在严格条件下，例如在不超过约1M的盐浓度和至少25℃的温度下进行。举例来说，5×SSPE(750mM NaC1，50mM磷酸钠，5mM EDTA，pH 7.4)和25-30℃温度的条件适用于等位基因特异性探针杂交，或100mMMES，1M[Na+]，20mM EDTA，0.01％Tween-20和30-50℃、优选约45-50℃温度的条件。杂交可以在例如约0.1mg/ml鲱鱼精DNA、约0.5mg/ml乙酰化BSA的试剂存在下进行。由于其它因素(包括互补链的碱基组成和长度、有机溶剂的存在以及碱基错配的程度)可影响杂交严格度，因此参数的组合比单独任一个参数的绝对测量更重要。适用于微阵列的杂交条件描述于《基因表达技术手册(Gene Expression Technical Manual)》,2004和

《映射分析手册(Mapping Assay Manual)》,2004中。

术语“片断”是指较大DNA多核苷酸或DNA的一部分。举例来说，多核苷酸可以断裂或片段化为多个片段。各种使核酸片段化的方法是本领域中众所周知的。这些方法性质上可以是例如化学或物理的。化学片段化可包括通过DNA酶的部分降解；通过酸的部分脱嘌呤；使用限制酶；内含子编码的核酸内切酶；基于DNA的裂解方法，例如依赖于核酸区段的特异性杂交以将裂解剂定位到核酸分子中的特定位置的三链体和杂交体形成方法；或使DNA在已知或未知位置裂解的其它酶或化合物。物理片段化方法可涉及使DNA经历高剪切速率。高剪切速率可以例如通过使DNA移动通过具有凹坑或尖刺的腔室或通道或迫使DNA样品通过大小受限的流动通道(例如具有微米或亚微米级的横截面尺寸的孔口)来产生。其它物理方法包括声处理和喷雾。同样可以采用物理和化学片段化方法的组合，例如通过热和离子介导水解进行的片段化。参看例如Sambrook等人,《分子克隆：实验指南》,第3版纽约州冷泉港的冷泉港实验室出版社,(2001)(“Sambrook等人”)，其以引用的方式并入本文中用于所有目的。这些方法可以经优化以将核酸消化为所选大小范围的片段。适用的大小范围可以是25、50、75、100、200、400、700或1000到500、800、1500、2000、4000或10,000个碱基对。然而，较大大小范围(例如4000、10,000或20,000到10,000、20,000或500,000个碱基对)也可以是适用的。

“基因组”指定或表示如编码到生物体的DNA中的生物体遗传指令的完整单一拷贝集。基因组可以是多染色体的，使得DNA细胞地分布在多个单独染色体之中。举例来说，人类中存在22对染色体加性别相关XX或XY对。

术语“染色体”是指活细胞的衍生自染色质并且包含DNA和蛋白质组分(尤其组蛋白)的携有遗传特性的基因载体。本文中采用常规的国际上认可的单个人类基因组染色体编号系统。单个染色体的大小对于既定多染色体基因组可以随类型而不同并且随基因组而不同。在人类基因组的情况下，既定染色体的整个DNA质量通常大于约100,000,000个bp。举例来说，整个人类基因组的大小是约3×10⁹个bp。最大的染色体1号染色体含有约2.4×10⁸个bp，而最小的染色体22号染色体含有约5.3×10⁷个bp。

“染色体区”是染色体的一部分。任何单个染色体区的实际物理大小或程度可以极大地变化。术语“区”未必确定特定的一种或多种基因，因为区无需具体考虑单个基因的特定编码区段(外显子)。

“阵列”包含载体、优选固体，核酸探针连接到载体。优选的阵列典型地包含在不同的已知位置偶合到基质表面的多个不同核酸探针。这些阵列，也被描述为“微阵列”或俗称“芯片”，通常在本领域中描述，例如美国专利第5,143,854号、第5,445,934号、第5,744,305号、第5,677,195号、第5,800,992号、第6,040,193号、第5,424,186号和Fodor等人,《科学》,251:767-777(1991)。其中的每一个以全文引用的方式并入用于所有目的。

阵列通常可以使用多种技术制造，例如机械合成方法或光定向合成方法，其并有光刻方法和固相合成方法的组合。使用机械合成方法合成这些阵列的技术描述于例如美国专利第5,384,261号和第6,040,193号中，其以全文引用的方式并入本文中用于所有目的。尽管平面阵列表面是优选的，但阵列可以在几乎任何形状的表面或甚至多个表面上制造。阵列可以是珠粒、凝胶、聚合表面、纤维(例如光学纤维)、玻璃或任何其它适当基质上的核酸。(参看美国专利第5,770,358号、第5,789,162号、第5,708,153号、第6,040,193号和第5,800,992号，其以全文引用的方式并入本文中用于所有目的。)

优选的阵列可以商标名称

和

商购自昂飞，并且是针对多种目的，包括针对多种真核和原核物种的基因分型和基因表达监控。(参看圣克拉拉的昂飞公司和其网站affymetrix.com。)其它商业上可获得的阵列包括

阵列(加利福尼亚州圣地亚哥的伊鲁米那公司(Illumina,Inc.))和

阵列(加利福尼亚州圣克拉拉的安捷伦技术公司(Agilent Technologies,Inc.))。

等位基因是指细胞、个体或群体内的一种特定形式的遗传序列(例如基因)，所述特定形式在基因序列内的至少一个并且常常多于一个变异位点的序列方面不同于同一基因的其它形式。在不同等位基因之间不同的这些变异位点处的序列被称为“变异”、“多态性”或“突变”。在每个常染色体特异性染色体位置或“基因座”，个体具有两个等位基因，一个遗传自父母一方并且一个遗传自父母另一方，例如一个遗传自母体并且一个遗传自父体。如果个体在基因座处具有两个不同等位基因，那么其在所述基因座处是“杂合的”。如果个体在基因座处具有两个相同等位基因，那么其在所述基因座处是“纯合的”。

多态性是指群体中存在两个或更多个遗传决定的替代序列或等位基因。多态标记或位点是出现差异的基因座。优选的标记具有至少两个等位基因，各自以优选大于所选群体的1％并且更优选大于10％或20％的频率出现。多态性可包含一个或多个碱基变化、插入、重复或缺失。多态基因座可以小到一个碱基对。多态标记包括限制性片段长度多态性、可变数串联重复(VNTR)、高变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复和插入元件(例如Alu)。第一个鉴别出的等位基因形式任意指定为参考形式，并且其它等位基因形式指定为替代或变异等位基因。所选群体中最常出现的等位基因形式有时被称为野生型形式。二倍体生物体在等位基因形式方面可以是纯合或杂合的。二等位基因或双等位基因多态性具有两种形式。三等位基因多态性具有三种形式。多等位基因多态性具有两种或更多种形式。两种核酸之间的多态性可以天然存在，或由暴露于或接触化学品、酶或其它试剂或暴露于造成核酸损坏的试剂(例如紫外辐射、诱变剂或致癌物)而导致。单核苷酸多态性(SNP)是至少两种替代碱基以可观频率(>1％)出现于人类群体中的位置，并且是人类遗传变异的最常见类型。多等位基因标记可包括具有三个或更多个可能的等位基因的SNP或插入缺失。

如本文中可互换地使用和本领域中通常理解，术语“单核苷酸多态性探针”或“SNP探针”是指经设计以讯问特定单核苷酸多态性的一组一种或多种寡核苷酸。此类探针通常根据其于阵列上的位置而鉴别，但也可以通过例如使用条形码方式的标签序列、可检测标记、探针连接到的可区别固体载体或本领域中已知的多种其它手段而鉴别。在本领域中已知的某些分析(例如

分析(加利福尼亚州圣克拉拉的昂飞公司)或

II分析(加利福尼亚州圣地亚哥的伊鲁米那公司))内，在与样品杂交之后，将样品序列中与下一碱基互补的讯问碱基添加到SNP探针(其与样品形成随后至少部分双链的复合物)，并且将来自所添加讯问碱基的可直接或间接检测的信号用以确定所添加讯问碱基的身份，由所添加讯问碱基确定相关等位基因的身份。所添加讯问碱基可以通过本领域中已知的多种技术(例如通过连接或单碱基延伸)添加。如本领域中已知，某些阵列分析利用相对于多态性正或反视角设计的SNP探针，并且因此在探针设计期间，探针可以在多态性的左侧或右侧与序列互补。基于连接的讯问方法的非限制性实例公开于US 2008/0131894内。

术语“基因分型”是指确定个体在基因组中的一个或多个位置携载的遗传信息。举例来说，基因分型可包含确定个体对于单个SNP携载哪个或哪些等位基因，或确定个体对于多个SNP携载哪个或哪些等位基因。举例来说，基因组中的特定核苷酸在一些个体中可以是A并且在其它个体中是C。在所述位置具有A的那些个体具有A等位基因，并且在所述位置具有C的那些个体具有C等位基因。在二倍体生物体中，个体将具有序列的含有多态位置的两个拷贝，因此个体可具有A等位基因和C等位基因或者两个A等位基因拷贝或两个C等位基因拷贝。具有两个C等位基因拷贝的那些个体对于C等位基因是纯合的，具有两个A等位基因拷贝的那些个体对于C等位基因是纯合的，并且具有每种等位基因的一个拷贝的那些个体是杂合的。阵列可以经设计以区分这三种可能结果中的每一个。多态位置可具有两个或更多个可能的等位基因，并且阵列可以经设计以区分所有可能的组合。

基因型可以指存在于单个多态性的信息，例如单核苷酸多态性或单碱基插入缺失；或存在于多个碱基位置的信息，例如复杂或多碱基插入缺失。举例来说，如果SNP是双等位基因的并且可以是A或C，那么如果个体在所述位置对于A是纯合的，那么SNP的基因型是纯合A或AA。SNP还可以是多等位基因的(与双等位基因相对)并且具有三个或更多个可能的等位基因变异体。基因型还可以指存在于多个多态位置的信息。

如本文所用，术语“引物”是指能够在适合条件(例如缓冲和温度)下在四种不同三磷酸核苷和用于聚合的试剂(例如DNA或RNA聚合酶或逆转录酶)存在下充当模板定向DNA合成的起始点的单链寡核苷酸。在任何既定情况下，引物的长度取决于例如引物的预期用途，并且通常在15到30个核苷酸范围内。短引物分子通常需要较冷温度以与模板形成充分稳定的杂交复合物。引物无需反映模板的正合序列但必须充分互补以与此类模板杂交。引物位点是模板的与引物杂交的区域。引物对是引物集，包括与待扩增的序列的5'端杂交的5'上游引物和与待扩增的序列的3'端的互补序列杂交的3'下游引物。

如本文中作为名词所使用，术语“先验”是指在观察任何(当前)数据之前输入到计算中的参数估算加所述参数的分布不确定性。这是贝叶斯统计中的标准记法。例如针对基因型簇中心位置和方差的估算值的值可以用作先验值(例如获自其它数据集的值或用户输入的量)。

如本文所用，术语“探针”是指可以由特定的靶识别的表面固定的分子。参看美国专利第6,582,908号，关于具备具有10、12个和更多个碱基的探针的所有可能组合的阵列的实例。本公开可以研究的探针的实例包括但不限于用于细胞膜受体的激动剂和拮抗剂、毒素和毒液、病毒表位、激素(例如类阿片肽、类固醇等)、激素受体、肽、酶、酶底物、辅因子、药物、凝集素、糖、寡核苷酸、核酸、寡糖、蛋白质和单克隆抗体。在本公开的一些实施例中，探针可包括通常长度为30个碱基的玻璃结合寡核苷酸。探针的长度可以经调整以补偿高GC或低GC靶序列，其中GC表示靶序列中的鸟嘌呤-胞嘧啶含量。探针的可变位置可以在探针的3'端的连接位点处或与连接位点相邻，或朝向探针中心，或远离连接位点。

用于分析多态性的等位基因特异性探针的设计和使用描述于例如Saiki等人,《自然(Nature)》324,163-166(1986)；Dattagupta,EP 235,726；和Saiki,WO 89/11548中。可以设计归因于来自两个个体的对应区段中不同多态形式的存在而与来自一个个体的靶DNA的区段杂交但不与来自另一个体的相应区段杂交的等位基因特异性探针。杂交条件应足够严格，等位基因之间的杂交强度存在显著差异，并且优选地基本上二元反应，借以探针与等位基因中的仅一个杂交。

说明性实施例

在各种实施例的以下描述中，参考上文指出并且形成本文的一部分的附图，并且其中借助于说明展示可实践本文中描述的方面的各种实施例。应理解，在不脱离本文中所描述的范围的情况下，可利用其它实施例，并且可进行结构和功能修改。各个方面能够有其它实施例并且以各种不同方式实践或实行。

基于阵列的基因组分析通常靶向极大量的SNP和其它多态性，其各自具有至少一个探针集，其中探针集包括用以确定特定SNP的存在的寡核苷酸序列集。举例来说，探针可以经组织为双等位基因对或集和多等位基因探针集，其中的每一个讯问一个靶标记。在一些系统中，许多多态性可具有两个或更多个不同探针集，不同探针集中的每一个向多态性提供一种可能基因分型结果。在一种方法中，使单个样品暴露于基因分型阵列或其它探针集系统以确定样品中不同多态性等位基因的存在。因为大多数生物体的每个染色体具有多个拷贝，所以同一样品可能检测到不同等位基因。因此，样品通常特征在于每个多态性有多个等位基因(例如2个或更多个)。针对多态性确定多个等位基因在本领域中通常被称为基因分型或SNP基因分型。

在最近的基因分型阵列的一个实例中，来自昂飞公司的

基因分型阵列能够对每阵列可定制选择1,500与260万个之间的SNP进行基因分型。整个阵列可以平铺(填充)有寡核苷酸探针，其可以分析数千个SNP和基因组探针。探针结合到来自靶样品的标记DNA。分析软件通常用以定量网格化图像上的每种荧光DNA-探针复合物的亮度。高强度光点指示探针与靶DNA序列之间的高亲和力并且用以解码单个SNP的基因型。昂飞提供其它阵列，包括人类、狗和其它小鼠阵列。

SNP或多态性基因型判读是指确定多态性位置处存在什么等位基因的过程。在双等位基因多态性中，通常一个位置可存在两个不同碱基对，可以被称为等位基因A和等位基因B。SNP的基因型通常是(A,A)、(B,B)或(A,B)之一。前两个基因型通常被称为均相的并且最后一个基因型被称为非均相的。在多等位基因多态性中，可能存在N个不同碱基对，其中N可以是大于二的任何数值。举例来说，如果N＝3，那么一个位置可存在三个不同碱基对，包括等位基因A、等位基因B和等位基因C。多等位基因SNP的基因型可以是(A,A)、(B,B)、(A,B)、(A,C)、(B,C)或(C,C)之一。

需要改进的用于处置多等位基因标记中的额外变异体的基因分型算法和方法。作为对下文更详细地描述的主题的一般介绍，本文所描述的方面是针对用于对多等位基因标记进行基因分型的系统和方法，其包含一个或多个软件程序、逻辑模块和数据捕获系统。多等位基因基因分型方法是针对使用贝叶斯N-等位基因基因分型针对具有两个或更多个可能变异体的标记分配基因型判读。贝叶斯N-等位基因基因分型(BANG)算法经开发以对二倍体基因组中的多等位基因标记进行基因分型，并且所述算法意图处置任意数目的等位基因(N)。BANG算法已经针对获自千人基因组计划(3期)的约100,000个多等位基因标记对约150,000个探针集进行测试并且在360个样品中分析(HapMap 270加LWK)。使用千人基因组(1000Genomes)的判读率和和谐性的合理转化准则，探针集中约有40％已经在无算法参数调节或SNP特定先验的情况下在第一遍次分析中展现出良好性能。

BANG算法可利用探针与连接通道对的设计，所述探针与连接通道对各自特异性针对恰好一种预期等位基因。举例来说，昂飞的

基因分型阵列采用有寡核苷酸探针在微阵列基质上的两色基于连接的分析。阵列上的每个位置被称为特征并且含有单个探针的许多个例。在一些实施例中，特征的尺寸可以是5×5或6×6微米。阵列中的每个特征可含有与侧接SNP位点的基因组序列互补的独特寡核苷酸序列的许多个例。取决于SNP位点碱基(例如A或T，对G或C)，携有用于两种染料之一的连接位点的溶液探针与玻璃探针/靶复合物杂交，并且随后连接用于特异性。

两色系统可以基于所得荧光部分来区分A或T对或G或C的连接。

探针与连接通道的独特组合可以用以确定靶序列中存在的等位基因。样品的靶序列中存在的特定等位基因可以使用连接通道通过所得荧光部分区分A或T核苷酸的连接或G或C核苷酸的连接来确定。也就是说，在一些实施例中，样品的靶序列中存在的等位基因可以通过将区别标记的寡核苷酸连接到阵列上的多个探针以区分在标记的寡核苷酸的3’端处具有A、T、C或G核苷酸的标记的寡核苷酸的连接来确定。在其它实施例中，样品的靶序列中存在的等位基因可以通过使用用区别标记的核苷酸使阵列上的多个探针的单碱基延伸以区分A、T、C或G核苷酸的延伸来确定。

包含探针和预期连接通道的集合的探针集可以意图分析特定标记的各种可能等位基因。此外，BANG算法可以在从多个样品获取强度数据后实施，产生每个样品的每个等位基因的信号值。

图1示出了可以用以执行本发明的实施例的软件的计算机系统的实例。图1展示计算机系统1，其包括显示器3、屏幕5、机箱7、键盘9和鼠标11。鼠标11可具有一个或多个与图形用户界面交互作用的按钮。机箱7装有CD-ROM驱动器13、系统存储器和硬盘驱动器(参看图2)，其可以用以存储和检索并有实施本发明的计算机代码的软件程序、用于本发明的数据等等。尽管CD-ROM 15展示为例示性计算机可读存储媒体，但可利用其它计算机可读存储媒体，包括软盘、磁带、闪存器、系统存储器和硬盘驱动器。另外，以载波(例如网络，包括因特网)体现的数据信号可以是计算机可读存储媒体。

图2展示用以执行本发明的实施例的软件的计算机系统1的系统框图。如在图1中，计算机系统1包括显示器3和键盘9以及鼠标11。计算机系统1仅是适合的计算机系统的一个实例，并且不希望暗示对于本公开中所含的使用范围或功能性的任何限制。计算机系统1不应被解释为具有与图1和2中展示的组件中的任一个或组合相关的任何依赖性或需求。

计算机系统1进一步包括子系统，例如中央处理器51、系统存储器53、固定存储55(例如硬盘驱动器)、可移动存储57(例如CD-ROM驱动器、软盘、USB驱动器)、显示适配器59、声卡61、扬声器63和网络接口65。适用于本发明的其它计算机系统可包括更多或更少的子系统。举例来说，另一计算机系统可包括多于一个处理器51(即多处理器系统)或缓存存储器。

计算机系统1的系统总线架构由箭头67表示。然而，这些箭头说明了用以连接子系统的任何互连方案。举例来说，本地总线可以用以将中央处理器连接到系统存储器和显示适配器。图2中展示的计算机系统1是适用于本发明的计算机系统的实例。还可以利用具有不同子系统配置的其它计算机架构。

在一些方面，计算机系统1可包括多个计算机可读媒体。计算机可读媒体可以是可由计算机系统1存取的任何可用媒体，可以是非瞬时性的，可包括以任何方法或技术实施用于存储信息(例如计算机可读指令、目标代码、数据结构、程序模块或其它数据)的易失性和非易失性、可移动和不可移动的媒体。计算机可读媒体的实例可包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存器或其它存储器技术，光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁性存储装置，或可以用以存储所要信息并且可由计算机系统1存取的任何其它媒体。

尽管并非必需，但本文所描述的各个方面可以方法、数据处理系统或存储计算机可执行指令的计算机可读媒体形式体现。举例来说，涵盖存储用以使处理器执行根据所公开实施例的各方面的方法步骤的指令的计算机可读媒体。举例来说，本文所公开的方法步骤和算法的各方面可以在计算机系统1上在处理器上执行。此类处理器可以执行存储在计算机可读媒体上的计算机可执行指令。

软件可以存储于存储器53和/或存储(例如固定存储55或可移动存储57)内以向处理器57提供用于使计算机系统1能够执行各种功能的指令。举例来说，存储器53可以存储供计算机系统1使用的软件，包括但不限于操作系统、应用程序和相关数据库。此外，用于计算机系统1的计算机可执行指令中的一些或全部可以硬件或固件体现。尽管未展示，但存储器53可包括一个或多个代表存储于存储器中的应用数据的应用，而计算机系统1打开并且相应软件应用(例如软件任务)在计算机系统1上运行。

网络接口65可以允许计算机系统1经任何网络连接(包括局域网(LAN)、广域网(WAN)或其它网络)与其它装置通信。举例来说，计算机系统1可以经因特网或其它类型的计算机网络建立通信。在一些实施例中，计算机系统1可以与其它装置(例如可以用以扫描阵列的光学扫描器)通信。举例来说，扫描器可以通过检测来自与靶分子相关的标记的荧光或其它发射或通过检测透射、反射或散射的辐射来使标靶成像。扫描器可以提供代表光的检测的发射或反射波长的强度(和可能其它特征，例如可以与检测的波长相关的颜色)以及阵列基质上检测到发射或反射波长的位置的信号。典型地，信号包括对应于所扫描基质的区域的强度信息。在一些实施例中，计算机系统1可以通过网络接口65从扫描器获得或收集信号(例如所有样品和所有可能等位基因的信号数据)并且根据存储的指令相应地处理数据。

本公开可使用众多其它通用或专用计算系统环境或配置而操作。可以适用于所公开实施例的熟知计算系统、环境和/或配置的实例包括但不限于个人计算机(PC)、服务器计算机、手持式或膝上型装置、智能电话、多处理器系统、基于微处理器的系统、光学扫描器、测量装置/仪器、机顶盒、可编程消费型电子装置、网络PC、微型计算机、大型计算机、包括以上系统或装置中的任一个的分布式计算环境等等。适用于本发明的计算机系统还可以嵌入于测量仪器中。

在一些实例中，贝叶斯N-等位基因基因分型(BANG)算法和其它基因分型算法可以在计算机系统1上存储和/或实施。多等位基因基因分型算法可以适用于从样品针对多等位基因标记获取的强度数据。

算法细节

BANG算法可以进行以下步骤。首先，算法可以估算多个样品中的每个等位基因的背景信号。算法随后可以使用双等位基因基因分型算法，例如来自昂飞公司的

GT1或BRLMM-P算法或来自伊鲁米那公司的GenCall软件与GenTrain算法确定等位基因对和基因型适当样品，以获得大多数或所有样品的初始判读。接着，可以使共轭先验与相应样品的信号组合以获得对应于每个二倍体基因型簇的信号的后验多变量正态分布，并且可以基于每个分布中的成员资格的似然，对样品分配最终基因型分配。

在一些实施例中，多等位基因基因分型可以利用双等位基因基因分型技术来鉴别等位基因对。举例来说，在双等位基因基因分型中，可以在对数信号空间中将等位基因强度数据变换为对比度和大小值(例如信号强度)。图3示出了将等位基因强度对数变换为对比度和大小的实例图。本文所使用的数据是人工的并且仅用于说明。以下方程式可以用以基于等位基因A和等位基因B强度计算对比度和大小值。

X(对比度)＝log₂A-log₂B

随后可以簇聚变换的强度数据以划分数据用于分配初始判读。对于每一对等位基因，使用

GT1算法簇聚来自所有样品的那些等位基因的信号，并且可以采用SNP特定先验和算法参数。也就是说，可存在代表每个等位基因对的簇。

图4示出了在双等位基因基因分型算法中分配到簇的样品的实例图。图4中的图代表等位基因对BB、AB和AA的簇，以及在二维空间中绘制于下面的图上的密度。基于变换强度的图，可以将样品分配到不同簇，并且给定分布和簇分配来计算数据的对数似然。举例来说，算法可以评估X轴上的数据之间的垂直边界的所有可能放置，并且针对每个分区给定簇位置上的数据与贝叶斯先验的组合来计算后验似然。可以使用最可能的数据分区从数据与先验的加权组合推断簇中心和方差。另外，可以针对每个样品计算每个簇中的后验概率。可以鉴别出不匹配于任一个簇中的样品并且添加到“海洋”簇，并且可以重新归一化概率。可以将判读分配到具有最高后验概率的簇，并且如果最高概率过低，那么可以不分配判读。

多等位基因基因分型可以类似地利用

GT1算法设置初始簇以及分配最终基因型判读和置信度水平。然而，多等位基因基因分型算法还可以将似然计算延伸到n维空间并且计算每个样品属于每个簇的后验概率，以及对于不充分拟合任一个簇的样品添加“海洋”簇。

图5示出了多等位基因基因分型方法的高级流程图。图5中的流程图提供了参与BANG算法的步骤的概述。

信号收集和背景估算

最初可以收集所有样品和所有可能等位基因的信号数据，其中每个样品可具有多于两个信号值，每个等位基因一个。在一些实施例中，获取样品中多等位基因标记的信号可以基于样品与用于测量多等位基因标记的阵列上的多个探针的杂交。可以使用

GT1算法在所有可能的双等位基因组合中对样品进行基因分型。

算法可以聚集多等位基因标记中的每个等位基因(变异体)的度量值，跳过具有少于3种变异体的标记。可以对每个集中的等位基因进行分选，并且可以针对每一个双等位基因对聚集判读和度量值。可以将讯问的每一个变异体配对到双等位基因集中，并且可以对每个双等位基因集进行基因分型。举例来说，如果三个等位基因A、B和C可能存在，那么考虑A/B、A/C和B/C等位基因组合可以对所有样品进行基因分型三次。

对于每一对等位基因，可以使用

GT1算法簇聚来自所有样品的那些等位基因的信号，并且还可以采用SNP特定先验和算法参数。

对于分配到纯合子簇的每个样品，可以在另一等位基因的平均背景信号的计算中包括所述另一等位基因的信号。举例来说，在等位基因A对等位基因B簇聚中，可以添加AA簇中的样品的B信号到B背景信号的集合。同样，可以添加BB簇中的样品的A信号到A背景信号的集合。可以对每一对等位基因重复这个过程，并且可以针对每个等位基因计算背景信号的平均值和标准差。在一些实施例中，可以对所有等位基因对的每一个等位基因背景信号进行平均，而在其它实施例中，可以获得每个等位基因的独立背景信号估算值。

如果发现所有样品具有AA、AB或AC基因型，那么可能不存在等位基因A背景信号的估算值。在一个等位基因可能不具有任何背景信号的此类情况下，可以替代地使用其它等位基因的平均背景信号的加权平均值和其标准差的加权平均值。在一些实施例中，如果无值可用以计算等位基因的背景信号的平均值、方差和标准差，那么全局估算背景信号可以用于所述等位基因。全局估算背景信号可以是所有等位基因的多个背景信号的平均值。

注意，在每个成对簇聚中，可以仅选择所讨论的两个等位基因的背景信号。也就是说，在A对B簇聚中，可能不选择C背景信号。如果样品被称为各个成对簇聚中的多于一个其它等位基因的纯合子，那么样品还可以对同一背景估算值贡献多于一次。

可以在背景计算步骤期间提供特定先验值作为选择，因为这些先验可能不同于在基因分型轮次期间使用的先验值。如果不提供先验，那么可以使用通用值。如果样品大小大于0，那么可以计算探针集的信号和背景。否则的话，这些度量值可以设定为-1，例外是在样品大小小于1时可以设定为0的通道背景的标准差。

双等位基因对的每个等位基因的度量值可以衍生自双等位基因探针集的纯合子判读的信号。等位基因的平均信号(avgSig_allele)可以通过以下方式导出：对所述等位基因的纯合子判读的信号(allele_hom)求和，并且随后除以贡献于这些信号的样品的总数(nsig_allele)。等位基因的背景值(bgnd_allele)可以通过将当判读不匹配等位基因时所述等位基因在纯合子判读期间的信号(∑allele_{inhomcallnot＝allele})相加来计算。等位基因的背景的平均值(avgBgnd_allele)可以通过取等位基因的这些信号的总和除以信号数来计算。还可以计算等位基因的背景信号的方差(varianceBgnd_allele)和标准差(stdevBgnd_allele)。既定等位基因的背景中所见的平均信号可以被加到整倍数标准差，以便设定既定等位基因的单个背景阈值。

可以使用以下方程式计算每个对应的等位基因的平均信号、背景信号、背景信号的平均值、方差、标准差以及其它参数：

avgSig_allele＝∑allele_hom/nsig_allele其中等位基因属于(A,B,C,D,E,F)

bgnd_allele＝∑allele_{inhomcallnot＝allele}

avgBgnd_allele＝bgnd_allele/nsig_allele

weightedAvgBgnd＝∑(avgBgnd_allele*nsig_allele)/∑nsig_allele

weightedAvgStDevBgnd＝∑(stdevBgnd_allele*nsig_allele)/∑nsig_allele

bgnd_allele＝bgnd_allele+SIG_THRESHOLD_VAR_MULTIPLE*stdevBgnd_allele

还可以计算贡献于所有通道的信号的总数。所有探针集(n_ps)的总平均背景(allAvgBgnd)和标准差(allAvgStDev)可以通过对多等位基因集中的所有探针集的加权平均背景和加权平均标准差值求平均值来计算。总加权平均背景(allWeightedAvgBgnd)值和总加权平均标准差(allWeightedAvgStDev)还可以通过以下方式来计算：对这些度量值的平均值求和并且通过贡献于总权重的样品数对其加权，并且随后用这个值除以样品数。可以计算由于在背景中不具有信号而不具有单个等位基因阈值集的等位基因的背景阈值。这个计算可能需要用加权平均标准差乘以由参数SIG_THRESHOLD_VAR_MULTIPLE规定的集系数(例如，当前默认可以是2)。这个值可以被加到总加权平均背景。

nSignals＝∑nSig_alleles

BgndThreshold

＝allWeightAvgBgnd+(SIG_THRESHOLD_VAR_MULTIPLE

*allWeightedAvgStDev)

图6A、6B和6C示出了每个等位基因的背景信号计算的实例图。对于每种多等位基因标记，所有样品可以在所有可能的双等位基因组合中簇聚，并且所得纯合判读可以用以估算背景信号的平均值和方差。在图6A-6C中展示的实例中，rs3091244是A/C/T三等位基因标记，并且可能的双等位基因组合包括C等位基因对T等位基因(图6A)、C等位基因对A等位基因(图6B)和T等位基因对A等位基因(图6C)。三个背景信号估算值在约1,350到约1,700范围内。

图7A、7B和7C示出了基因分型的样品子集的初始划分的实例图。举例来说，可以在每个可能的双等位基因组合中对样品子集进行基因分型。所得判读可以整合到试验性多等位基因基因型判读中。在图7A中，具有“高A信号”的样品可以从C等位基因对T等位基因簇聚图去除。“高A信号”可以指示高于等位基因A背景平均值加两个标准差的信号。在图7B中，具有高T信号的样品可以从C等位基因对A等位基因簇聚图去除，并且在图7C中，具有高C信号的样品可以从T等位基因对A等位基因簇聚图去除。

算法设定

用于将变异体映射到既定标记的信息可以含于在算法实施期间存取的文件(例如CDF文件)中。进行算法的程序(例如在计算机系统1上执行的程序)可以读取多等位基因标记的先验文件以及设定。多等位基因基因分型算法的设定可包括在双等位基因基因分型期间使用的参数以及有不同初始默认值分配用于多等位基因基因分型的参数。多等位基因基因分型的初始判读分配可具有与双等位基因基因分型算法相同的参数和可用设定。下表1包括多等位基因基因分型的最终判读分配可具有的可能不同于初始步骤的参数。

表1.多等位基因基因分型的最终判读分配的参数

参数	目的
		海洋	均匀密度的值；相对于均匀<u>海洋</u>概率测试数据点
freqFlag	对簇应用混合频率罚分(混合)
		摆动	对平均观察的数目求交；将先验伪观察限于1/摆动
λ	控制公共方差的混合
		inflatePRA	使得判读向观察的方差增加平均值的不确定性
置信度阈值	无判读的阈值
		硬壳	可以阻止簇太接近
壳屏障	簇可多接近

初始基因型分配

在计算每个等位基因的背景信号之后，算法可以基于等位基因信号和背景信号，针对等位基因对分配每个样品的初始基因型判读。举例来说，可以使用来自用于算法的程序文件中的类的对象对各个双等位基因探针集组合进行基因分型。

每个等位基因可具有背景信号的估算值，并且如果等位基因的信号大于预定义阈值，那么样品可以被视为具有高于所述等位基因的背景的信号。在一些实施例中，预定义阈值可以经计算为等于avgBgnd_allele+2*stdevBgnd_allele。针对每一对等位基因，算法可以鉴别不具有高于任何其它等位基因或任何替代等位基因中的背景信号的信号的样品子集。举例来说，当考虑等位基因A对等位基因B时，不具有高于等位基因C、等位基因D等等中的背景的信号的所有样品可在基因分型期间包括在内并且进行分类。换句话说，在双等位基因组合的每一轮次基因分型期间，如果在所述轮次期间不被基因分型的其它等位基因之一具有高于背景阈值的信号，那么样品可以从当前基因分型轮次排除。

针对每一对等位基因，算法可以确定样品子集(例如无高于背景的其它等位基因信号的样品)中的样品数是否高于预定义最小值。举例来说，如果发现了多于最小数目(例如3或任何数目)的适当样品，那么可以使用

GT1算法针对相应等位基因对中代表的两个等位基因对那些样品进行基因分型，其中可以采用特定先验和算法参数。可以对发现了多于最小数目的样品的每一对等位基因重复这个确定步骤。在过程结束时，样品可具有0、1个或多个来自各个迭代的判读。

可以提供可能特定于当前进行基因分型的双等位基因组合的先验值作为选择，但如果不提供特定先验，那么还可以使用通用值。可以存储所有轮次的基因分型的判读、分类统计、双等位基因比较的数目和进行基因分型的样品的指数(例如由计算机系统1存储)。

双等位基因判读组合为多等位基因判读

可以收集每个样品的所有的双等位基因判读，并且随后可以将每个样品的判读集合分辨为单个试验性基因型判读。对于每个双等位基因判读，探针集讯问的两个等位基因可以按字典排列方式映射到相应多等位基因信号，例如A、B、C、D、E、F等。举例来说，如果讯问三等位基因A/C/T标记，那么A等位基因将映射到A信号，C等位基因映射到B信号，并且T等位基因映射到C信号。为了针对双等位基因C/T探针集作出判读，算法可以将相应双等位基因判读映射到多等位基因判读。如果判读是-1，那么算法可以返回“无判读值”。如果判读是0，那么返回多等位基因判读将是BB，其对应于具有两个C等位基因。如果判读是2，那么返回多等位基因判读将是CC，其对应于具有两个T等位基因。如果判读是1，那么可以返回BC，其对应于杂合子CT判读。可以收集每个样品的所有双等位基因判读，并且可以对样品分配最常作出的双等位基因判读。举例来说，算法可以比较每个样品的判读以便选择每个样品中最常出现的判读。如果对于最常作出的判读存在相持，那么可以对样品分配不一致判读。在一些实施例中，如果判读之中存在相持，那么可以对样品分配“无判读”值。如果样品从未包括在任一个迭代中，那么可以对样品分配“无判读”值。

多变量正态分布和最终基因型分配

在分配了初始判读之后，可以将信号拟合到描述每个簇的多变量正态分布以确定样品衍生自既定簇的似然。也就是说，算法可以通过等位基因和初始判读写出汇总信号，并且汇总信号的文件以及先验文件可以由运行算法的程序读取。信号可以转换为对数信号空间，并且可以用每一个簇的相应先验对每个探针集分配所有可能簇。簇的观察的数目、平均值和协方差可以衍生自初始判读。

换句话说，算法可以使用初始判读和先验(例如其它数据上经过训练的通用或SNP特定先验)在对数信号空间中计算每个二倍体基因型簇的多变量正态分布。对于每个二倍体基因型簇，先验可以用试验性分配到所述簇的每个样品的log2信号更新。

描述既定簇的多变量正态的平均值和协方差可以使用所述簇的数据组合所述簇的先验参数来确定。用于多变量正态分布的共轭先验可以呈正态逆威沙特(normal-inverse-Wishart)形式。这些先验参数可以通过加载用于算法的文件作为输入可用。在不提供文件的情况下，这些参数的默认值可以通过程序设定。这些参数可以按以下方式(如以下方程式所展示)与簇数据组合：

κ₁＝κ₀+η

υ₁＝υ₀+η

κ₀是平均值的观察的先验数目

η是数据的观察的数目

υ₀是方差的观察的先验数目

μ₀是先验平均值

是样品平均值

Δ₀是υ₀Σ₀

在一些实施例中，后验参数可以相应地调整。举例来说，数据中的信号强度可以用以将空簇定位到预期位置，因为这些位置可能不同于先验文件中规定的位置。平均背景等位基因信号和平均等位基因信号可以由数据中的纯合子信号聚集。对于空簇，信号强度可以由平均等位基因信号抽取，随后向下调整。如果簇不含有等位基因，那么信号可以取自等位基因的背景信号。如果实际等位基因信号或等位基因的背景信号不可用，那么漏失值可以通过从存在的信号加上或减去预期量的差值来计算。簇之间的预期量的差值可含于两个变量中：一个变量规定具有0个等位基因的簇与具有1个等位基因的簇之间的预期距离(copyNumber0to1)，并且另一个变量规定具有1个等位基因的簇与具有2个等位基因的簇之间的预期距离(copyNumber1to2)。

另外，可以进行最终检查以确保簇按正确顺序。举例来说，含有B等位基因的簇(BB、AB)可比不含有B等位基因的簇(CC、CD)具有更高的等位基因B信号。还可以预期含有两个等位基因的簇比仅含有所述等位基因的一个拷贝的簇具有稍高的所述等位基因的信号。举例来说，BB可比簇AB具有更高的B信号。所述方法还可以确保由两个壳屏障值规定的距离将簇隔开。壳屏障值可以规定所讨论的两个簇之间的距离。变量“shellbarrier0to1”可以是具有0个等位基因与1个等位基因的簇之间的最小距离，而“shellbarrier1to2”可以是具有1个等位基因与2个等位基因的簇之间的最小距离。对于簇AA、AB和BB以及等位基因A，“shellbarrier0to1”可以规定A等位基因于BB簇中的位置与A等位基因于AB簇中的位置之间的最小距离，而“shellbarrier1to2”可以规定A等位基因于AB簇中的位置与A等位基因于AA簇中的位置之间的最小距离。

因此，必要时，可以调整后验平均位置以保持次序。举例来说，AA簇可比AB、AC等簇具有更大的log2A信号，这些簇又可比不包括A等位基因的所有簇具有更大的log2A信号。可将具有等位基因拷贝数1的簇与具有等位基因拷贝数0的簇相比较，并且可将其平均log2等位基因信号增加(必要时)到拷贝数0log2等位基因信号的最大值加S(其可以是可配置参数)。随后可以重复这个调整，将纯合子簇(拷贝数2)与杂合子簇(拷贝数1)比较。

建立后验分布后，针对每个样品，可以如下计算每个分布(簇)中的成员资格的对数似然(L)：

μ＝μ1

|Σ|是协方差的行列式

x是含有样品的探针集的信号的k维列向量k是探针集的信号数

可以计算对数似然的求幂，随后通过减去最小值(在使用负对数似然时)或从最大值减去似然来重新按比例调整似然值。“海洋”调整值可以通过将“海洋”参数的值乘以最小似然值来计算。

可以针对每个样品，由对数似然计算每个簇中或均匀“海洋”簇中的成员资格的概率，并且可以将样品分配到具有最大概率的簇。也就是说，可以基于特定簇的成员资格的概率，对每个样品分配最终基因型判读。可以计算每个样品的置信度值并且将其与预定义阈值相比较，所述置信度值定义为任何其它簇中的样品的成员资格概率。可以对落于所述阈值以上的样品各自分配“无判读”值。

进一步举例来说，图8示出了用于多等位基因基因分型的N维高斯混合模型的实例。图8中的模型可以用于分配最终多等位基因判读，并且所述模型可以通过使共轭先验(真实数据上通用或经过训练的)与来自试验性分配到每个基因型的样品的数据组合来构建。可以针对每个样品计算每个基因型簇中的成员资格的后验概率，并且如果其超过规定阈值，那么可以将具有最大似然的基因型分配为最终基因型判读。这个步骤可以由初始划分分辨任何冲突基因型判读，并且可以产生每个样品的每个可能基因型的有意义的概率。

软件实施方案

根据其它特定实施例，以上方法中的一个或多个可以包括在软件包中以由阵列数据或类似基因型数据自动地对多等位基因标记进行基因分型。此类软件包可以在执行BANG算法期间读取许多不同文件。程序文件的实例包括(但不限于)以下：

AxiomDMETMultiallelicCaller.java

AxiomDMETClusterer.java

AxiomDMETStem.java

assign_final_calls.py

AxiomGT1.summary.txt-含有属于多等位基因集中的所有双等位基因探针集的信号的汇总文件

探针集文件(注释文件)-含有关于探针集属于哪个多等位基因集和探针集是否是摆动集的一部分的信息的文件。程序可以跳过摆动集中的探针集，因为这些探针集在运行多等位基因判读之前需要通过AxiomDMETSummarizer.java程序来整合。

参考文件-含有参考判读的文件。用于测试目的。

输出文件名-这是将含有多等位基因探针集的判读的文件的名称。所述名称在生成详述统计(_ProbeSetSummary.txt)并且可以用于SpotFire绘图程序(_spotfire.txt)的其它输出文件时用作前缀。

AxiomGT1.multiallelic_summary.txt-由程序AxiomDMETMultiAllelicCaller.java生成的汇总文件

AxiomGT1.multiallelic_calls.txt-来自程序AxiomDMETMultiAllelicCaller.java的判读文件

探针集组(ps_group)可以用以鉴别讯问相同多等位基因标记的探针集组。理想地，在多等位基因集中可存在分配到所有探针集的multi_asid。在多等位基因集中还可能存在用以鉴别每一组探针集的摆动集的另一标识符，所述多等位基因集在通过多等位基因判读程序运行之前可能需要进行整合。可能仍需要alleles_fwd以便鉴别双等位基因探针集讯问的等位基因。还可能有帮助的是列出存在于阵列上的所有等位基因用于多等位基因标记(multi_alleles场)。此时，程序可以基于alleles_fwd场分配通道。理想情况可以是在等位基因或双等位基因probeset_id与通道之间具有一定映射以便将数据由实施方案分离。

这些可能是应可用于库文件中的注释文件中的必需数据：

probeset_id-使可以鉴别多等位基因集中的不同双等位基因探针集的方式成为必要。当前实施方案将probeset_id用于多等位基因集中的双等位基因探针集。

多等位基因-使鉴别哪些探针集是多等位基因的并且因此需要使用多等位基因判读算法进行判读的方式成为必要。当前实施方案使用布尔值(boolean)表示探针集是否是多等位基因探针集组的一部分(0/1)

multi_asid-多等位基因探针集标识符。

ps_group-可以鉴别多等位基因集中的探针集的手段。当前，为此目的使用探针集组，但可以使用任何标识符，只要标识符与组中的探针集之间可以作出映射，以及鉴别哪个pro的方式

multi_alleles-用于多等位基因标记的所有等位基因

affy_snp_id-通过双等位基因探针集来讯问的标记的id

摆动-探针可以用以关于接近靶变异体的所有变异体讯问标记(摆动)。这些摆动集需要在基因分型之前整合到探针集中。因此，鉴别是否需要进行整合的手段可以是必需的。当前，布尔值用以指示探针是否是摆动集的一部分(0/1)。多等位基因判读算法当前跳过此布尔值被设定成1的所有数据，因为这鉴别了需要整合的摆动集。超过原型时这将不需要，因为程序将首先执行整合随后基因分型。

alleles_fwd--可以鉴别多等位基因集中的双等位基因探针集整合中的每一个的手段。在正向方向上讯问的等位基因迄今为止已经用于此目的。

DMETcall-存储DMET代码允许的判读。使将判读的双等位基因代码映射到相应数字DMET代码的方式成为必要。

汇总文件可含有以下数据：a_ij，探针集i和样品j的通道A信号，来自汇总文件；b_ij，探针集i和样品j的通道B信号，来自汇总文件。

参考文件可含有多等位基因探针集的参考判读。

其它参数和设定

以下参数可以被视为可能的用户设定。

AxiomDMETMultiAllelicCaller.java具有以下参数：

OUTPUT_CALLS_NUMERIC_CODE-指定数字DMET代码是否应用于判读文件的布尔值

AxiomDMETStem.java具有以下参数：

MIN_LOG2_SIG-log 2信号的最小值(当前设定为0.000001)

SIG_THRESHOLD_VAR_MULTIPLE-适用于用于背景阈值计算中的总加权平均方差的倍数。

AxiomDMETClusterer.java程序具有以下参数：

WORKING_DIR_PATH-创建以便判读和表征双等位基因探针集的临时文件的路径

SUMMARY_FILE_NAME-将创建的含有来自一个双等位基因探针集的两个通道的信号的汇总文件的名称

POSTERIOR_FILE_NAME-汇总文件中由apt-summary-genotype程序生成的双等位基因探针集的模型文件

CALLS_FILE_NAME-从汇总文件通过apt-summary-genotype f生成的双等位基因探针集的判读文件的名称

METRICS_FILE_NAME-基于由apt-summary-genotype生成的文件而由Ps_metrics生成的双等位基因探针集的度量值文件的名称

PERFORMANCE_FILE_NAME-使用度量值文件和由apt-summary-genotype生成的其它文件所创建的双等位基因探针集的性能(分类)文件的名称

APT_SUMMARY_GENOTYPE-程序的实际路径

OUTPUT_DIR_NAME-双等位基因探针集的由apt-summary-genotype生成的基因型结果将存储于的名称

GENOTYPES_FILE_PATH-判读文件的路径和名称

PS_CLASS_FILE_PATH-性能文件的路径和名称

SCRIPT_NAME-用以调用apt-summary-genotype的脚本的名称，双等位基因探针集数据上的Ps_metrics和Ps_classification

CMD-脚本的在脚本还不存在时将在双等位基因探针集上运行的字符串

探针集选择：

可以生成探针集的在探针集文件中指定为多等位基因的并且不属于摆动集的多等位基因判读。“1”可以用以指定探针集是多等位基因的，并且“0”可以用以指定探针集不是摆动集的一部分。

输出文件

在一些实施例中，可以从多等位基因基因分型算法生成四个初始输出文件。输出文件可以全部具有相同前缀，其可以是用户规定的输出文件名(OutFileName)。输出文件的实例描述如下：

OutFileName.txt-针对所有探针集组，含有每个样品的多等位基因判读的判读文件。判读文件类似于普通AxiomGT1.calls.txt文件，样品名称在列上。然而，probeset_id列由探针集组id填充，所述id应该是两个或更多个双等位基因探针集共有的id。判读呈AA到FF格式，其是DMET判读格式。对于既定标记，讯问所述标记的等位基因应按字典排列方式联系回到这些符号以将实际等位基因映射到判读。存在三种其它可能判读，其是无判读：NotAvailable-calls，其中在所有其它通道中存在过多信号使得样品无法进行基因分型。

CallsInconsistent-当组合双等位基因判读时存在被同样判读的两个不同判读。

XX-在基因分型和组合基因型判读期间已经分配了无判读。

OutFileName_summary.txt-通道信号转换为等位基因信号的汇总文件

OutFileName_ProbesetSummary.txt-汇总探针集组的数据。列如下：

ps_group-含有探针集组id

multi_asid-多等位基因探针集id

multi_alleles-关于标记所讯问的等位基因

tile_strand-正或反

行-对组摆动的鉴别(在将来应使用多等位基因或双等位基因的探针集id)

偏移-这组探针集的偏移

probeLength-这组探针集中的探针的长度

nAllelesFound-在判读过程期间实际上发现的等位基因的数目

AllelesFound-发现哪些等位基因为预期等位基因

nBiallelicCombinations-双等位基因组合的数目

AveBgnd-这组探针集的平均背景值

VarBgnd-这组探针集的背景的方差

WeightedAveBgnd-加权平均背景值，用以计算背景阈值

WeightedVarBgnd-加权标准差背景值，用以计算背景阈值

SignalThreshold_weightedBNDPlus2sd-背景阈值。值用以确定信号是否高于背景

OutFileName_spotfire.txt-汇总所有探针集组并且可以用以在spotfire中抽取簇的文件。这是用于原型设计代码和除错的文件。出于除错目的，一些数据在将来可以是合乎需要的。

以下文件是来自assign_final_calls.py脚本的输出：

判读文件-含有由多等位基因基因分型算法分配的最终判读的文件

置信度文件-分配的判读的置信度

snp-后验文件-含有簇的后验参数的文件，其在后续运行上可以用作先验文件

概率文件-含有既定样品属于簇中的每一个的概率的文件

多等位基因基因分型-算法验证

在一实例中，在千人基因组3期数据中

阵列经设计具有约100,000个多等位基因标记的探针集，所述多等位基因标记各自具有多于两个等位基因。选择在以下四个样品板上的样品之中存在第三常见的等位基因的至少一个实例的标记：来自Coriell的T01(CEU)、T02(CHB+JPT)、T03(YRI)和V12(LWK)HapMap样品板。探针集大多经设计以避免任何大陆群体中具有大于1％次要等位基因频率的邻近的干扰变异体(NIV)，例外是允许多达两种NIV的一组数千外显子标记。一式两份地平铺探针集，例外是一式四份地平铺的外显子探针集。标记选自常染色体和染色体X。

在Axiom阵列板上分析以上列出的四个群体板。照常执行样品品质控制(QC)，利用3,000AFFX-SNP双等位基因对照探针集评估QC判读率。通过QC的样品的信号用作BANG算法的原型实施方案的输入。在每个步骤使用通用先验和默认算法参数。如果探针集满足以下准则，那么探针集被视为表现良好：

1.90％判读率

2.对于每个等位基因拷贝数，等位基因CN和谐性>50％。

a.每个等位基因的对于拷贝数2的和谐性单独地计算为正确判读的纯合子的数目除以来自千人基因组参考的纯合子的预期数目。无判读计数为误差。

b.每个等位基因的对于拷贝数1的和谐性单独地计算为正确判读的杂合子(包括所述等位基因)的数目除以杂合子(包括所述等位基因)的预期数目。也就是说，等位基因A的CN 1和谐性是正确判读在具有预期AB、AC等基因型的样品之中的分数。无判读计数为误差。

通过这些准则，Axiom阵列中约42％的探针集表现良好。图9示出了多等位基因探针集判读率对与每个预期基因型簇的和谐性的未加权平均值的实例图。可以计算每个预期基因型的和谐性，并且随后不考虑每个簇中预期的样品数而进行平均化。举例来说，预期基因型可以是AA、AB、AC，而可能不存在具有基因型BB、CC、BC的预期样品。因此，可以省略那些簇。无判读分配可以被视为不正确。展示Axiom阵列上的所有多等位基因探针集，在来自CEU、CHB、JPT、YRI和LWK群体的约360个个体上进行基因分型。大多数探针集可具有高判读率和和谐性(图9的右上角)。可能在高判读率和低和谐性下存在另一密度峰，和跨越性能范围的探针集。

图10示出了若干转换的探针集的判读和参考基因型的实例图。举例来说，图10中的图展示BANG判读对千人基因组3期参考基因型。展示不同三等位基因标记的三个探针集。所有图都展示约360个样品上的筛选阵列的log2信号。左侧的图根据通过BANG算法分配的基因型而着色。右侧的图根据同一个体的千人基因组3期判读而着色。千人基因组参考基因型中的较大数目的无判读(黄色)反映了以下事实：并非全部的筛选的个体都通过千人基因组来分析。

探针设计

特异性探针设计可与多等位基因基因分型方法相关并且可有利于获得所关注的数据。用于确定可以用于各种DNA分析系统中的SNP探针的逻辑例程已长久存在。经设计以讯问SNP的先前阵列通常将利用含有与所关注标靶(包括所关注SNP)完美互补的探针和与完美互补探针相比含有一各或多个单取代的一个或多个其它探针的探针集。随后将比较探针集中的不同探针的所得强度数据以产生所关注SNP的基因型判读。参看例如美国专利第5,858,659号，其由此以全文引用的方式并入本文中。

用于对SNP进行基因分型的更为新近的阵列包括

阵列(加利福尼亚州圣克拉拉的昂飞公司)和

II阵列(加利福尼亚州圣地亚哥的伊鲁米那公司)。这些阵列利用与侧接所关注靶核酸内的SNP位点的序列互补的SNP探针，并且因此这些阵列中的SNP探针不直接与靶核酸在SNP位点杂交。替代地，探针-靶双链体的双链部分紧接着SNP的上游终止。随后通过本领域中已知的需要在SNP位点与标靶的碱基的互补性的适当机制(例如连接或单碱基延伸)，通过添加核苷酸或探针(核苷酸或探针包含两种不同半抗原之一)到SNP探针的一端(例如5'、3')，来实现对SNP位点的讯问。确定什么等位基因存在于SNP位点通过后续检测与添加的核苷酸或探针相关的特定半抗原来确认。

分析利用两色格式的30碱基寡核苷酸SNP探针。SNP位点处碱基的身份通过含有充当两种荧光标记之一的连接位点的两种半抗原之一的探针的连接来确认，取决于连接的SNP探针的碱基的身份(例如，第一半抗原/标记组合与在SNP位点是A或T时连接的探针相关，并且第二半抗原/标记组合与在SNP位点是C或G时连接的探针相关)。参看例如Hoffmann等人,“下一代全基因组关联工具：高通量欧洲优化SNP阵列的设计和覆盖(Nextgeneration genome-wide association tool:design and coverage of a high-throughput European-optimized SNP array)”,《基因组学》,98(2):79-89(2011)；和Hoffmann等人,“使用设算和新颖混合SNP选择算法针对东亚、非裔美国人和拉丁美洲人人种/种族的个体优化的高通量基因分型阵列的设计和覆盖(Design and coverage of highthroughput genotyping arrays optimized for individuals of East Asian,AfricanAmerican,and Latino race/ethnicity using imputation and a novel hybrid SNPselection algorithm)”,《基因组学》,98(6):422-30(2011)，其都以全文引用的方式并入本文中。

DMET分析还可以用于对药物代谢中的代谢路径的参与进行遗传分析。遗传变异可以是不同个体代谢药物的能力的重要决定因素。对个体的遗传背景的研究可以用以靶向药物和调整治疗剂量，取决于个体中存在的多态性。DMET组通过提供分析可以在药物代谢中起一定作用的基因集中的多于1,200个多态性的单个分析而促进此类测试。DMET组可以同时讯问许多不同基因，促进对不同基因中的可以参与新药物代谢的特定等位基因组合的检测。

II分析利用两色格式的50碱基寡核苷酸SNP探针。SNP位点处碱基的身份通过并入通过SNP探针的单碱基延伸而携有两种不同半抗原之一的ddNTP来确认，每种半抗原与不同荧光标记相关(例如，ddCTP和ddGTP与第一半抗原/标记组合相关，而ddATP和ddTTP与第二半抗原/标记组合相关)。参看例如Gunderson等人,“对单倍型标签单核苷酸多态性进行全基因组基因分型(Whole-genome genotyping of haplotype tag singlenucleotide polymorphisms)”,《药物基因组学(Pharmacogenomics)》,7(4):641-8(2006)；和Steemers等人,“用单碱基延伸分析进行全基因组基因分型(Whole-genome genotypingwith the single-base extension assay)”,《自然·方法(Nature Methods)》,3:31-33(2006)，其都以全文引用的方式并入本文中。

组合的全基因组和基因座特异性扩增方法

在本公开的其它实施例中，全基因组扩增(WGA)和基因座特异性扩增可组合用于阵列分析以朝所要靶序列选择性偏向扩增以便改进所要靶序列的所得基因分型数据并且减小非所要假基因在所得数据中的影响。

举例来说，

和

II分析利用全基因组扩增的DNA，其中对全基因组执行扩增。许多全基因组扩增方法是本领域中已知的，例如多重置换扩增(MDA)、简并寡核苷酸PCR(DOP-PCR)和引物延伸预扩增(PEP)，并且许多用于WGA的试剂盒是商业上可获得的，例如PicoPLEX^TMWGA试剂盒(马萨诸塞州伊普威治的新英格兰生物实验室公司(NewEngland Biolabs,Inc.,Ipswich,Massachusetts))、REPLI-g WGA试剂盒(荷兰芬洛的凯杰(QIAGEN,Venlo,Netherlands))和

全基因组扩增试剂盒(密苏里州圣路易斯的西格玛-奥德里奇公司(Sigma-Aldrich Corporation,St.Louis,Missouri))。对于多等位基因标靶，可能存在所关注的实际基因变异体，以及序列可能接近但与所关注实际变异体相比仍可能具有微小差异并且不仅不向特定临床或研究目标提供适用数据而且实际上阻碍所关注标靶的高效讯问和基因分型的假基因。假基因可能会使相关序列的分析复杂化并且可能会导致纯合判读显现为杂合判读或反之亦然。因此，全基因组扩增(WGA)可以导致此类假基因在与所关注标靶类似的扩增度下扩增，这可能会导致难以对所关注标靶作出准确基因型判读。

为了克服这点，可能有益的是通过针对所关注变异体用基因座特异性扩增补充全基因组扩增(WGA)来增强结果。许多基因座特异性扩增形式在本领域中已知，例如使用多重聚合酶链式反应、分子倒置探针与后续PCR、锁式探针与后续滚环扩增以及其它方法。多重PCR可以由使用PCR同时扩增不同DNA靶序列组成。也就是说，可以使用特异性针对所要基因的引物使含有假基因的标靶经历mPCR扩增。使用分子倒置探针在本领域中已知，并且描述于例如Hardenbol等人,《自然·生物技术》21:673-8(2003)；Hardenbol等人,《基因组研究》15:269-275(2005)；Ji等人,《癌症研究(Cancer Res.)》66:7910-9；美国专利第6,858,412号、第8,716,190号、第8,828,688号、第8,759,036号以及美国公开申请第2013/0296172号和第2015/0284786号中，其中的每一个以全文引用的方式并入本文中用于所有目的。使用锁式探针与后续滚环扩增也在本领域中已知，并且描述于例如美国专利第6,558,928号和第7,074,564号中，其中的每一个以全文引用的方式并入本文中用于所有目的。一种特定靶序列(而非其类似变异体)的基因座特异性扩增可能有助于获自微阵列分析的数据的后续分析，尤其当与全基因组扩增组合时。

基因座特异性扩增可以用以补充全基因组扩增以便最终形成基因组的所要标靶的更多拷贝并且使所得扩增产物与非所要假基因相对朝所要标靶统计上偏向。增加基因组的标靶部分相对于非所要区域的浓度可以增加来自标靶的信号并且增强双等位基因和多等位基因基因分型的后续基因分型结果。换句话说，增加阵列上可用于讯问的所要扩增子可以导致生物信息学基因分型过程更高效并且增强。当所关注标记的特定标靶(例如所关注基因变异体中的特异SNP)具有许多类似假基因或变异体时，基因分型过程的改进可能尤其有益。举例来说，在细胞色素P450内，存在许多具有诊断、临床和/或药物基因组学意义的标记，但其具有不相关的接近变异体。举例来说，在CYP2D6内存在具有高药物基因组学价值的SNP，但依赖于单独全基因组扩增可能会阻碍对所要标记的准确分析，因为CYP2D6与假基因(例如CYP2D7和CYP2D8)之间的高同源性通常将会因后者对所关注CYP2D6标记(例如，SNP)的讯问的高非特异性背景信号的贡献而使后续基因分型复杂化。如本领域的技术人员将认识到，来自具有高同源性的假基因和另外序列的此高非特异性背景还会阻碍其它所关注标记(例如ABCC2、CFTR、CYP1A2、CYP2A6、CYP2B6、CYP2C19、CYP2C8、CYP2C9、GSTM1和SULT1A1)。

在一些实施例中，可以获得基因组DNA样品(例如通过提取)并且可以对样品应用全基因组扩增。可以在样品上对所关注靶序列执行基因座特异性mPCR扩增，并且可以使样品片段化并且与用于多等位基因基因分型的阵列杂交。

图11示出了根据本公开的一个或多个方面的所公开扩增方法中的步骤的流程的实例图。在这个实例中，CYP2D6 5.6kb PCR产物可以在两个不同步骤添加到

工作流：在全基因组扩增之前或在全基因组扩增之后。在一些实施例中，这个工作流可以允许使用单个PCR产物观察约100种变异体(2,973个探针集)。

图12示出了获自使用PCR扩增的标靶测试两种程序的结果的图。图12中的图展示了获自扩增单个扩增子(包括所有CYP2D6)的簇图。在一些实施例中，使用PCR扩增的标靶的程序可以导致SNP转化率稍微改进。然而，可能需要较大研究来评估对困难标记的影响。

在一些实施例中，本文所公开的

DMET扩增方法可以利用具有类似工作流、具有24孔格式、手动标靶制备和试剂处置的Axiom 2.0稳固化学平台。mPCR步骤可以使用商业上可获得的mPCR试剂盒(例如凯杰Multiplex PCR试剂盒)并入

工作流中。在一些实施例中，mPCR产物可以在全基因组扩增后、在DNA酶片段化之前在工作流中添加。

图14示出了根据本公开的一个或多个方面的测试可行性的多重引物集的表。

另外，寡核苷酸加标研究可以帮助鉴别反应性探针。在一个实例中，针对Tier 1单态性(例如A、B、C、D等位基因)合成70聚体寡聚物。寡聚物匹配两个链并且在摆动位置具有序列简并。在DMET阵列板上加工扩增的gDNA并且监测探针反应。图15示出了来自加标研究的基因分型结果的实例。如图15中所示，第一探针集无反应，而第二探针集展示剂量依赖性反应。

图16示出了根据本公开的一个或多个方面的来自15重mPCR分析的结果的实例表。在一些实施例中，凯杰Multiplex PCR Plus试剂盒(PN 206151或206152)可以用于mPCR方案。如图16中展示的结果中所指示，在从DMET Plus带入的引物序列中观察次要等位基因频率(MAF)≥1％的三种SNP。参考SNP变异体rs76015180存在于1-0214引物的临界3'端并且显示可影响扩增。

尽管已经以特定地针对结构特征和/或方法动作的语言来描述主题，但应理解，所附权利要求书中所界定的主题未必限于上文所描述的特定特征或动作。实际上，上文所描述的特定特征和动作被描述为所附权利要求书的实例实施方案。

Claims

1.一种基因组分析的方法，所述方法包含：

获取一个或多个样品中一种或多种多等位基因标记的信号，所述一种或多种多等位基因标记包含三个或更多个可能的等位基因；

针对每种多等位基因标记，簇聚来自所述一个或多个样品的多个等位基因对中的每一对等位基因的信号，产生代表每个等位基因对的簇；

针对代表纯合等位基因对的每个纯合簇，收集替代等位基因的信号用于计算所述替代等位基因的背景信号，产生各自代表对应的等位基因的多个背景信号；

基于所述信号和所述背景信号，针对每个等位基因对分配每个样品的初始基因型判读；

使用所述初始基因型判读和先验簇参数计算每个簇的多变量正态分布；

针对每个簇的每个多变量正态分布，计算每个样品的成员资格的对数似然；

基于所述成员资格对数似然，针对每个样品，计算每个簇中的成员资格的概率；和

基于所述成员资格概率，对每个样品分配最终基因型判读。

2.根据权利要求1所述的方法，其中所述一种或多种多等位基因标记包含单核苷酸多态性(SNP)和插入缺失。

3.根据权利要求1所述的方法，其中所述一种或多种多等位基因标记所获取的所述信号包含所述一个或多个样品中的每个等位基因的等位基因强度数据。

4.根据权利要求1所述的方法，其中簇聚所述信号进一步包含使用具有定义的单核苷酸多态性(SNP)和定义的算法参数的算法。

5.根据权利要求1所述的方法，其中分配所述初始基因型判读进一步包含：

针对每个等位基因对，鉴别其信号不高于任何替代等位基因中的所述背景信号的样品的子集；

针对每个等位基因对，确定所述样品子集中的样品数高于预定义最小值；和

针对每个等位基因对，针对所述等位基因对中代表的两个等位基因对所述样品子集中的每个样品进行基因分型。

6.根据权利要求1所述的方法，其中分配每个样品的所述初始基因型判读进一步包含：

比较每个样品的判读以便选择每个样品中最常出现的判读，其中如果所述判读之中存在相持，那么对所述样品分配“无判读”值。

7.根据权利要求1所述的方法，其中每个簇的所述多变量正态分布在对数信号空间中计算。

8.根据权利要求1所述的方法，其中计算每个样品的所述成员资格对数似然使用下式计算：

其中|∑|是协方差的行列式；

其中x是含有样品的探针集的所述信号的k维列向量；

其中k是探针集的信号数。

9.根据权利要求1所述的方法，其中分配所述最终基因型判读进一步包含：

分配每个样品到所述样品具有最高成员资格概率的特定簇，产生每个样品的簇分配；和

基于每个样品的所述簇分配，分配所述最终基因型判读。

10.根据权利要求1所述的方法，其进一步包含：

计算每个样品的置信度值，其中所述置信度值包含任何其它簇中的所述样品的成员资格概率；

比较每个样品的所述置信度值与预定义阈值；和

对具有高于所述预定义阈值的置信度值的每个样品分配“无判读”值。

11.根据权利要求1所述的方法，其进一步包含：

计算每个对应的等位基因的所述背景信号的平均值、方差和标准差。

12.根据权利要求11所述的方法，其中如果无值可用以计算等位基因的所述背景信号的平均值、方差和标准差，那么全局估算背景信号用于所述等位基因，并且其中所述全局估算背景信号是所述多个背景信号的平均值。

13.根据权利要求11所述的方法，其中计算每个对应的等位基因的所述背景信号的平均值、方差和标准差进一步包含使用以下方程式计算：

avgSig_allele＝∑allele_hom/nsig_allele

bgnd_allele＝∑allele_{inhomcallnot＝allele}

avgBgnd_allele＝bgnd_allele/nsig_allele

weightedAvgBgnd＝∑(avgBgnd_allele*nsig_allele)/∑nsig_allele

weightedAvgStDevBgnd＝∑(stdevBgnd_allele*nsig_allele)/∑nsig_allele

其中avgSig_allele是等位基因的平均信号，allel_ehom是所述等位基因的纯合子判读的信号，nsig_allele是贡献于所述信号的样品的总数；

bgnd_allele是等位基因的背景值，∑allele_{inhomcallnot＝allele}是当所述判读不匹配所述等位基因时所述等位基因在纯合子判读期间的信号；

avgBgnd_allele是等位基因的所述背景的平均值；

weightedAvgBgnd是所述背景的加权平均值；

varianceBgnd_allele是所述背景的方差；

stdevBgnd_allele＝是所述背景的标准差；并且

weightedAvgStDevBgnd是所述背景的加权平均标准差。

14.根据权利要求1所述的方法，其中获取所述一个或多个样品中所述一种或多种多等位基因标记的所述信号是基于所述样品与用于测量所述多等位基因标记的阵列上的多个探针的杂交。

15.根据权利要求14所述的方法，其进一步包含：

通过将区别标记的寡核苷酸连接到所述阵列上的所述多个探针以区分在标记的寡核苷酸的3′端处具有A、T、C或G核苷酸的所述标记的寡核苷酸的连接，来确定所述样品的靶序列中存在的等位基因。

16.根据权利要求14所述的方法，其进一步包含：

通过使用用区别标记的核苷酸使所述阵列上的所述多个所述探针的单碱基延伸以区分A、T、C或G核苷酸的延伸，来确定所述样品的靶序列中存在的等位基因。

17.一种基因组分析的方法，所述方法包含：

获得基因组DNA样品；

将所述基因组DNA样品分成至少第一部分和第二部分的基因组DNA；对所述第一部分的基因组DNA执行基因座特异性扩增以生成第一池的用于靶序列的扩增子；

对至少所述第二部分的基因组DNA执行全基因组扩增以生成第二池的扩增子；

使所述第一和第二池的扩增子片段化以生成片段化的扩增子；和

使所述片段化的扩增子与阵列杂交；

其中所述靶序列包含多等位基因标记；

获取所述样品中所述多等位基因标记的信号；和

使用贝叶斯(Bayesian)N-等位基因基因分型算法来执行根据权利要求1所述的多等位基因基因分型。

18.根据权利要求17所述的方法，其中所述基因座特异性扩增包含用多重聚合酶链反应使所述靶序列扩增。

19.根据权利要求17所述的方法，其中所述基因座特异性扩增包含用分子倒置探针使所述靶序列扩增。

20.根据权利要求17所述的方法，其中所述基因座特异性扩增包含用锁式探针使所述靶序列扩增。

21.根据权利要求17所述的方法，其中在执行全基因组扩增之前将所述第一池的扩增子添加到所述第二部分的基因组DNA中，并且其中对所述第一池的扩增子和所述第二部分的基因组DNA执行所述全基因组扩增。

22.根据权利要求17所述的方法，其中仅对所述第二部分的基因组DNA 执行所述全基因组扩增。

23.根据权利要求17所述的方法，其中在片段化之前合并所述第一和第二池的扩增子。

24.根据权利要求17所述的方法，其中所述基因组DNA样品包含所述靶序列和所述靶序列的假基因。

25.根据权利要求24所述的方法，其中所述基因座特异性扩增生成所述第一池的用于所述靶序列的扩增子但不生成所述假基因的扩增子。

26.根据权利要求25所述的方法，其中所述片段化的扩增子包括比所述假基因的扩增子更多的所述靶序列的扩增子。

27.根据权利要求17所述的方法，其中所述阵列包含多个用于讯问一种或多种多等位基因标记的探针。