CN106068330B

CN106068330B - 将已知等位基因用于读数映射中的系统和方法

Info

Publication number: CN106068330B
Application number: CN201580007711.4A
Authority: CN
Inventors: 丹尼斯·库拉尔
Original assignee: Seven Bridges Genomics Inc
Current assignee: Seven Bridges Genomics Inc
Priority date: 2014-01-10
Filing date: 2015-01-08
Publication date: 2020-12-29
Anticipated expiration: 2035-01-08
Also published as: US20150199475A1; US10867693B2; EP3092317A1; KR20160107237A; JP2017510871A; US20210265012A1; AU2015204819A1; CN106068330A; EP3092317B1; CA2935941C; AU2015204819B2; CA2935941A1; SG11201605506QA; WO2015105963A1

Abstract

本发明大体上涉及基因组研究，且具体涉及使用已知位置处的所鉴别核苷酸用于读数映射的改进方法。本发明提供通过排除与所鉴别核苷酸不一致的潜在映射或组合，使用基因组中的已知位置处的所鉴别核苷酸引导来自该基因组的序列读数的分析的方法。将关于受检者的基因组中的多个SNP的信息用于鉴别穿过基因组有向非循环图(DAG)的候选路径。将序列读数映射到候选路径。

Description

将已知等位基因用于读数映射中的系统和方法

相关申请的交叉引用

本申请要求2014年1月10日提交的美国临时专利申请序号61/925,892的权益和优先权，其内容以引用的方式并入。

序列表

本申请含有一个序列表，其已经由EFS-Web以ASCII格式提交并且以全文引用的方式并入本文中。ASCII格式的序列表创建于2015年1月8日，命名为SBG-010-01WO-seq_ST25，且大小为2,031字节。

技术领域

本发明大体上涉及基因组研究，且具体涉及使用已知位置处的所鉴别核苷酸用于读数映射的改进方法。

背景技术

个人基因信息有可能揭示关于其健康和寿命的许多信息。癌症或遗传疾病的风险以及个人的孩子遗传基因病症的可能性可通过该个人的基因序列揭示。多种技术可提供大量个人基因数据，但将数据用于医疗保健存在障碍。

举例来说，单核苷酸多态性(SNP)阵列-在各种习惯下也称为SNP芯片、基因芯片或微阵列-可给出个人的基因组中的多种不同基因中的许多不同核苷酸碱基的标识。这些阵列可鉴别疾病相关的SNP、检测杂合性丢失和癌细胞中的其它体细胞变化且定向单体型。参见例如拉弗朗布瓦兹(LaFramboise),2009,单核苷酸多态性阵列：十年间的生物、计算和技术进展(Single nucleotide polymorphism arrays:a decade of biological,computational and technological advance),核酸研究(Nucleic Acids Res)37(13):4181-4193。然而，SNP芯片具有限制。其并非始终为发现新突变的正确工具，且其缺乏基因组上下文。来自SNP芯片的结果类似于被告知呈现于书籍的每页上的第一个字母-数据点可展示某些错误或模式，但其不会给出原委。

相当大部分的基因组可通过下一代测序(NGS)技术测序以产生极大量的短序列读数。分析那些读数是一项重大挑战。现有方法通常涉及将读数映射到参考基因组或进行重新组装。由于数据量，比对和组装必须用走数学捷径的启发式算法进行以完成工作。然而，那些缺陷为容许的，因为数学上彻底的算法为计算上禁止的。不仅数学精确度在分析NGS读数中被牺牲，而且当前方法有限地利用可用的信息。NGS读数通常映射到略为任意的参考且被调用为匹配该参考或不-因此具有参考是否为适用标准的问题。

发明内容

本发明提供通过利用基因组中的已知位置处的所鉴别核苷酸排除与所鉴别核苷酸不一致的潜在映射或组合，来引导来自该基因组的序列读数的分析的方法。当读数映射到表示多个位置处的每一位置的多个替代序列的有向非循环图(DAG)时，经由不包括所鉴别核苷酸的DAG的路径可从读数映射排除，结果为不必徒劳地耗费计算机处理时间以把读数与参考物的无关区域作出比较。计算资源的节约可应用于映射和组装算法，允许例如使用数学鲁棒(robust)算法，如发现最佳比对的基于史密斯-沃特曼(Smith-Waterman)的比对算法使读数比对到DAG中的路径。提供的方法允许映射或组装极大量的NGS读数，以使得基因组测序计划可以先前不可能的步调、覆盖深度和通量进行。

参考DAG可表示多个基因座处的任何或所有已知或推测的基因型。因此，序列读数相比于大于仅一个有限、线性参考。序列读数相比于多个已知变型，避免通过与单一参考比对作出的误导性推断。多个已知变型可记录在DAG内且读数映射可包括以另外不可能的方式发现与已知变型的匹配物。DAG可包括为特定受检者的自然合理的参考的路径，如来自相同群体或种族的其它成员的序列。映射到DAG使得读数组合更成功，因为经由DAG的路径将为比线性参考更适合且还使得结果更有意义，因为受检者的基因组可理解为其与群体的许多其它成员有关。

使用如通过例如SNP芯片提供的受检者的基因组中的所鉴别核苷酸限制DAG搜索空间，即过滤DAG使得读数映射快速且彻底，伴以较好结果和高通量。因此，个人基因组研究更可接近且此类研究可展示的医疗上重要信息将用于承担改善人们的生活。

另外，使用鉴别的核苷酸(例如来自SNP芯片)可改进来自比对的结果。可获得与基因组中的其它核苷酸相关的所鉴别核苷酸的数据。举例来说，许多基因座彼此间连锁不平衡。当基因组中的基因座经鉴别(例如通过SNP芯片)时，与鉴别的基因座连锁不平衡的另一基因座可能因此具有该基因组中的某一等位基因的一定概率。映射读数到连接基因座可包括将概率并入比对算法中，因此通过增加所得比对显示受检者的基因组与DAG内表示的其它基因组之间的自然关系的概率而改进所得比对。

在某些方面中，本发明提供一种测定基因组序列的计算机系统。计算机系统使用耦接到存储器的处理器接收受检者基因组上的已知位置处的多个核苷酸的标识，从多个基因组序列选择一个或多个基因组序列-其中所选序列包括已知位置处的核苷酸，且从来自受检者的样品接收序列读数。系统可将序列读数映射到一个或多个所选基因组序列，进而鉴别基因组的至少一部分的序列。在优选实施例中，多个基因组序列以包含多个节点和边缘对象中的一个的DAG形式存储在存储器中，该多个节点和边缘对象各自存储一列指针，该指针指向这些节点和边缘对象的邻接节点和边缘对象在存储器中的位置。所选基因组序列中的每一个界定穿过DAG的所选路径且系统通过找出序列读数与所选路径之间的最优比对而映射序列读数。找出最优比对可通过找出贯穿DAG的最高评分迹线进行。此最高评分迹线可通过计算读数与DAG中的节点和边缘对象中的至少一些之间的匹配评分和解引用指针中的至少一些以从DAG中的前趋对象在存储器中的引用位置读取这些前驱对象而找出。具有最大匹配评分总和的穿过前趋对象的路径为贯穿DAG的最高评分迹线。

在一些实施例中，系统通过找出每一序列读数与每一所选路径之间的最优比对而映射序列读数。找出最优比对可包括找出贯穿多维矩阵的最高评分迹线。其系统可经操作以基于已知位置处的多个核苷酸的标识获得关于额外核苷酸的标识的概率且将获得的概率用于找出最优比对。概率可获自额外核苷酸中的一个与已知位置处的多个核苷酸中的一个之间的连锁不平衡的测量值。

在某些实施例中，多个基因组序列以包含多个节点和边缘对象的DAG形式存储在存储器中，该多个节点和边缘对象各自存储一列指针，这些指针指向这些节点和边缘对象的邻接节点和边缘对象在存储器中的位置，其中所选基因组序列中的每一个界定穿过DAG的所选路径且其中系统可经操作以通过找出序列读数与所选路径之间的最优比对而映射序列读数。找出最优比对可通过计算读数与DAG中的节点和边缘对象中的至少一些之间的匹配评分和解引用指针中的至少一些以从DAG中的前趋对象在存储器中的引用位置读取这些前驱对象而进行，其中具有最大匹配评分总和的穿过前趋对象的路径为贯穿DAG的最高评分迹线。

在某些实施例中，多个基因组序列以包含多个节点和边缘对象的DAG形式存储于存储器中，其中多个核苷酸的标识包含受检者的基因组中的多个SNP且系统通过鉴别包括多个SNP的贯穿DAG的候选路径而选择一个或多个包括SNP的基因组序列。在一些实施例中，DAG表示在每一等位基因具有单一对象的多个基因组之间同源的至少一个基因座。DAG可经注释以列举非可共存节点对，且系统另外可经操作以从多个SNP中的一个鉴别非可共存节点对的列表中的节点，鉴别与非可共存节点对的列表中的鉴别节点配对的第二节点，且在映射序列读数时排除含有第二节点的路径。

在系统中，表示多个基因组序列的数据可包括表示核苷酸序列的节点和连接节点对的边缘，其中节点和边缘界定有向非循环图，另外，其中所选基因组序列中的每一个界定穿过有向非循环图的所选路径。优选地，有向非循环图表示多个位置处的每一位置的至少两个替代序列。

在一些方面中，本发明提供一种通过获得关于受检者的基因组中的多个SNP的信息测定受检者的基因信息和在包含表示基因序列的节点和连接节点对的边缘的有向非循环数据结构(或DAG)内鉴别包括多个SNP的候选路径的方法。序列读数获自受检者的基因组且映射到候选路径。DAG可表示在每一等位基因具有单一节点的多个基因组之间同源的至少一个基因座。DAG可经注释以列举非可共存节点对，且该方法可包括从多个SNP中的一个鉴别非可共存节点对的列表中的节点，鉴别与非可共存节点对的列表中的鉴别节点配对的第二节点，且从映射步骤排除含有第二节点的路径。

本发明的方面提供一种通过在计算机系统接收受检者的基因组上的已知位置处的多个核苷酸的标识(例如来自微阵列或SNP芯片)和从存储在计算机系统中的多个基因组序列选择一种或多种基因组序列(其中所选序列包括已知位置处的核苷酸)而测定基因组序列的方法。方法包括从来自受检者的样品接收序列读数和将序列读数映射到所选基因组序列，进而测定基因组的至少一部分的序列。

表示多个基因组序列的数据可为具有表示核苷酸序列的节点和连接节点对的边缘的DAG。所选基因组序列中的每一个界定穿过DAG的所选路径。映射序列读数可通过找出序列读数与所选路径之间的最优比对进行。

方法可另外包括基于已知位置处的多个核苷酸的标识获得关于额外核苷酸的标识的概率且将获得的概率用于找出最优比对。概率可获自额外核苷酸中的一个与已知位置处的多个核苷酸中的一个之间的连锁不平衡的测量值。

DAG可为任何适合标度，包括基因组标度或经缩放以表示基因或区域。在一些实施例中，DAG可为基因组标度DAG且可包括至少一个给出至少一个人类染色体大体上整个序列的穿过DAG的路径。在某些实施例中，DAG为表示小于染色体的区域，例如基因；基因周围的区域；操纵子；来自细胞器、细菌病毒或质体的染色体；大SV要素等的标度。DAG表示多个位置处的每一位置的至少两个替代序列。一旦映射到DAG(或经由映射)，读数可经组装。

在相关方面中，本发明提供一种用于测定基因组序列的系统。系统包括耦接到存储器的处理器且可经操作以接收受检者的基因组上的已知位置处的多个核苷酸的标识且从多个基因组序列(例如在DAG内)选择一个或多个基因组序列，其中所选序列包括已知位置处的核苷酸。系统可用于从来自受检者的样品接收序列读数且将序列读数映射到一个或多个基因组序列，进而鉴别基因组的至少一部分的序列。其系统另外可经操作以基于已知位置处的多个核苷酸的标识获得关于额外核苷酸的标识的概率且将获得的概率用于找出最优比对。概率可获自额外核苷酸中的一个与已知位置处的多个核苷酸中的一个之间的连锁不平衡的测量值。

附图说明

图1说明使用DAG表示和操纵生物信息学数据。

图2显示基因组DAG的一种可能的格式。

图3给出假设的基因组区域中的若干位置的DAG。

图4显示有很多关于共存性的信息的DAG。

图5描述将序列读数映射到DAG。

图6显示用于将序列比对到DAG的矩阵。

图7显示经产生以包括概率信息的DAG。

图8显示来自图7的DAG的减小版本。

图9说明DAG的减小的结果。

图10图解本发明的方法。

图11说明基因组标度DAG的极小部分的实例。

图12通过核苷酸信息显示DAG。

图13显示过滤之后的DAG。

图14说明本发明的系统。

具体实施方式

一般来说，本发明提供测定受检者的基因信息的系统和方法。获得关于受检者的基因组中的多个单核苷酸多态性(SNP)的信息且用于鉴别包括SNP的穿过基因组DAG的候选路径。NGS读数可接着映射到候选路径，获得相当大的计算节约资源，因为不寻求将那些读数同与SNP信息不一致的路径比对而耗费那些资源。

单核苷酸多态性(SNP)，DNA中的单一位点处的变异，为一种类型的遗传变异。已在人类基因组中鉴别数百万SNP。SNP在科学、医药和农业中具有许多用途且在全基因组关联性研究中充当有价值的标记物。参见例如马诺利奥(Manolio)等人,2010,全基因组关联性研究和疾病风险评估(Genome wide association studies and assessment of the riskof disease),新英格兰医学杂志(NEJM)363(2):166-76。尤其地，SNP阵列用于测定疾病易感性且用于测量专门设计用于个体的药物疗法的功效。每一个体具有多个SNP。基于SNP的遗传连锁分析可用于映射疾病基因座和测定个体中的疾病易感性基因。SNP映射和高密度SNP芯片的组合允许SNP用作具有复杂特性的遗传疾病的标记物。举例来说，全基因组遗传连锁分析显示如类风湿性关节炎、前列腺癌和新生儿糖尿病的疾病的连锁。由于SNP的重要性，国际单体型图计划协作组(International HapMap Consortium)等为鉴别SNP基因座、在各种祖先的个体中对其基因分型且揭示其在基因组中的相关结构的进行中的努力的一部分。政府计划dbSNP为以对所有SNP全面地编目录为目标的公共努力。

SNP芯片(在各种习惯下也称为微阵列、基因芯片、DNA芯片或其它)为结合大量寡核苷酸的小芯片。寡核苷酸仅选择性地杂交到互补序列。寡核苷酸经设计为用于SNP的探针。

本发明实施例的方法包括经由SNP芯片鉴别存在于受检者中的等位基因。举例来说，SNP芯片可测定多个不同已知位置处的核苷酸的标识。为了测定哪些等位基因存在于受检者中，来自受检者的基因组DNA经分离、片段化、用荧光染料标记且涂覆到芯片。基因组DNA片段仅结合到与其互补的那些寡核苷酸。当互补DNA结合到寡核苷酸探针时，可经由成像仪器检测荧光报告子。因此，SNP芯片可用于鉴别非均质样品中的特异性DNA序列。举例来说，SNP芯片可针对受检者的基因组DNA的背景检测特定等位基因的存在。计算机读取荧光标签的位置且鉴别通过寡核苷酸探测的特定已知位置处的核苷酸。

SNP芯片可容纳数十万寡核苷酸。为了实现相对浓度独立性和最小交叉杂交，多个数据库的原始序列和SNP经扫描以设计探针。阵列上的每一SNP用不同探针询问。

另外，SNP也可用于研究癌症中的基因异常。举例来说，SNP阵列可用于研究杂合性丢失(Loss of heterozygosity；LOH)，其中突变导致正常功能的等位基因的丢失。肿瘤抑制基因的LOH与癌症相关。

SNP阵列能够检测病理学拷贝中性LOH(也被称为单亲二体性或基因转化)。拷贝中性LOH为一种形式的等位基因不平衡。在拷贝中性LOH中，来自亲代的一个等位基因或全染色体缺失。此问题导致另一亲代等位基因的复制。由于LOH在许多人类癌症中如此常见，SNP芯片对于癌症诊断学有潜在价值。

在高密度SNP阵列中，数十万探针排列于小芯片上，允许同时询问多个SNP。商业阵列平台现在可在一个分析中对个体中的约一百万个SNP基因分型。

尽管如昂飞(Affymetrix)和伊路米那(Illumina)SNP阵列的产品使用不同化学反应操作，其通常具有共同的方面。一般来说，高密度SNP芯片将片段化单链DNA的杂交用于含有数十万独特核苷酸探针序列的阵列。对于昂飞和伊路米那阵列两者，专门化设备测量与每一探针和其在杂交之后的标靶相关的信号强度。这些原始强度测量值的分析产生SNP基因型推断。

昂飞人类SNP 5.0基因芯片进行可对超过500,000个人类SNP基因分型的全基因组分析。每一SNP位点通过各自为25nt长的一组探针询问。探针经设计以与含有SNP位点的DNA序列的一部分互补或极近似互补。人类SNP阵列6.0上的每一SNP通过六个或八个完美匹配的探针询问-两个等位基因中的每一个的相同探针的三或四个拷贝。因此，每一SNP的强度数据由两组重复测量结果组成。此外，SNP探针组用接近1百万拷贝数的探针强化，其意图询问不具有SNP，而是在拷贝数方面可为多晶型的基因组区域。

来自昂飞的6.0阵列可用称作伯德锡德(Birdseed)的来自昂飞的算法分析。从原始、标准化探针强度，伯德锡德获得信号对。伯德锡德使用产生每一SNP的基因型的最大期望(EM)程序将来自测试样品的信号拟合到二维高斯(Gaussian)混合模型，基于调用与其丛集的接近性得到每一基因型的置信度评分。

伊路米那微球阵列(其最新版本)询问1百万个基因座。来自单一HumanHaplM阵列的原始文件由大约两百万个数据点组成，概念上为一些一百万对(X1,Y1)，(X2,Y2)，......，(XN,YN)。伊路米那软件使用捕获用于平移、缩放和旋转X和Y坐标的适当因数且在离群值去除之后使用这些对本身推断的参数，在不依赖于多个阵列的情况下个别地对每一样品进行内部标准化。目标为在每一SNP处产生一对原始等位基因特异性拷贝测量结果。另外，如同当前版本的昂飞阵列，HumanHaplM也包括意图询问非SNP人类遗传变异的拷贝数探针。

在一些实施例中，本发明的方法包括收集来自受检者的样品且对样品使用SNP芯片以鉴别核苷酸。一般来说，SNP芯片可以用于变型或突变发现重要的情形下，且SNP芯片自身产生关于变型的信息。在一些方面中，SNP芯片如同(复杂、异常的)黑匣子，从其获得一些关于变型的事实。鉴于这些事实，可得出一些结论，包括关于可能存在或可能不存在的其它变型的结论。尽管本发明的方法一般来说可在任何形式的突变检测下操作，SNP芯片提供一种获得突变信息的方式。获得突变信息的其它方法包括限制性片段长度多态性和类似研究、多重接合探针依赖性扩增、基于非芯片的杂交分析或其它。SNP芯片和其它此类分析提供用于突变检测和鉴别的工具。那些分析可用于测定基因组中的已知位置处的某些等位基因或核苷酸的标识。本发明提供使用受检者的基因组中的已知位置处的核苷酸的标识来帮助映射、组装或分析NGS读数的方法。

在某些实施例中，通过对来自受检者的样品进行测序获得NGS读数。可以通过所属领域中已知的任何方法测序。一般参见凯威尔(Quail)等人,2012,三种下一代测序平台的记述：离子激流、太平洋生物科学和伊路米那MiSeq测序仪的比较(A tale of three nextgeneration sequencing platforms:comparison of Ion Torrent,Pacific Biosciencesand Illumina MiSeq sequencers),BMC基因组学(BMC Genomics)13:341。DNA测序技术包括使用标记终止子或引物和板条或毛细管中的凝胶分离的经典双脱氧测序反应(桑格法(Sanger method))、使用可逆封端的标记核苷酸的合成测序、焦磷酸测序、454测序、伊路米那/索莱萨(Solexa)测序、针对标记寡核苷酸探针库的等位基因特异性杂交、使用针对标记克隆株库的等位基因特异性杂交后跟接合的合成测序、在聚合步骤期间并入标记核苷酸的实时监视、聚合酶克隆测序(polony sequencing)和SOLiD测序。分离的分子可通过使用聚合酶或连接酶的连续或单次延伸反应以及通过用探针库的单一或连续差异杂交测序。应注意，已发现NGS技术在直接检测疾病相关的SNP中表现糟糕。

参见例如王(Wang)等人,2011,下一代测序在调节区域中具有较低序列覆盖度和较差SNP检测能力(Next generation sequencing has lower sequence coverage andpoorer SNP-detection capability in the regulatory regions),科学报导(Scientific Reports)1:55。

可使用的测序技术包括例如使用合成测序系统，其以罗氏(Roche)公司454生命科学(454Life Sciences)(康涅狄格州布兰福德(Branford,CT))以商标GS JUNIOR、GSFLX+和454SEQUENCING销售，且由马古利斯,M(Margulies,M.)等人,微制造高密度picotiter反应器中的基因组测序(Genome sequencing in micro-fabricated high-density picotiterreactors),自然(Nature),437:376-380(2005)；美国专利5,583,024；美国专利5,674,713；和美国专利5,700,673描述，这些参考文献的内容以全文引用的方式并入本文中。454测序包含两个步骤。在那些系统的第一步中，DNA剪切为大致300-800个碱基对的片段，且片段为钝端的。随后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。片段可使用例如含有5'-生物素标签的衔接子B附接到DNA捕获珠粒，例如抗生蛋白链菌素涂布珠粒。附接到珠粒的片段在油-水乳液的液滴内PCR扩增。结果是在每个珠粒上克隆扩增的DNA片段的多个拷贝。在第二步中，在孔(皮升大小)中捕获珠粒。并行对每个DNA片段执行焦磷酸测序。一个或多个核苷酸的添加产生了通过测序仪器中的CCD相机记录的光信号。信号强度与并入的核苷酸的数目成正比。焦磷酸测序利用在核苷酸添加后释放的焦磷酸(PPi)。在腺苷5'磷酰硫酸存在下PPi通过ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素，并且此反应产生被检测和分析的光。

可使用的DNA测序技术的另一实例为来自生命技术公司(Life TechnologiesCorporation)(加利福尼亚州卡尔斯巴德(Carlsbad,CA))的应用生物系统(AppliedBiosystems)的SOLiD技术。在SOLiD测序中，基因组DNA被剪切成片段，并且衔接子连接到片段的5'和3'末端以产生片段库。或者，可以通过将衔接子连接到片段的5'和3'末端、使片段环化、消化环化的片段以产生内部衔接子以及将衔接子连接到所得片段的5'和3'末端以产生配对库来引入内部衔接子。接着，在含有珠粒、引物、模板以及PCR组分的微反应器中制备克隆珠粒群。在PCR之后，使模板变性并且使珠粒富集以分离珠粒与扩展的模板。所选珠粒上的模板经历3'修饰以允许结合到玻璃载片。可以通过部分随机的寡核苷酸与由特定荧光团鉴别的确定中心的碱基(或碱基对)的连续杂交和连接来确定序列。在记录颜色之后，去除连接的寡核苷酸且接着重复该方法。

可使用的DNA测序技术的另一实例为离子半导体测序，其使用例如生命技术(LifeTechnologies)(加利福尼亚州南旧金山(South San Francisco,CA))的离子激流(IonTorrent)以商标离子激流销售的系统。离子半导体测序描述于例如罗斯伯格(Rothberg)等人,实现非光学基因组测序的集成半导体装置(An integrated semiconductor deviceenabling non-optical genome sequencing),自然475:348-352(2011)；美国公开2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398和2010/0304982，其中的每一者的内容以全文引用的方式并入本文中。在离子半导体测序中，DNA被剪切成大致300-800个碱基对的片段，并且这些片段是钝端的。随后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。片段可以连接到表面，并且以使得这些片段可个别地分辨的分辨率附接。一个或多个核苷酸的添加释放了质子(H⁺)，在测序仪器中检测并记录该信号。信号强度与并入的核苷酸的数目成正比。

可使用的测序技术的另一实例为伊路米那测序。伊路米那测序是基于使用折回PCR和锚定引物扩增固体表面上的DNA。将基因组DNA片段化，并且在片段的5'和3'末端添加衔接子。附接到流式槽通道的表面的DNA片段被扩展和桥式扩增。片段变为双链，并且双链分子经变性。先固相扩增后变性的多个循环可以在流式槽的每个通道中形成数百万簇的相同模板的单链DNA分子的大致1,000个拷贝。使用引物、DNA聚合酶和四荧光团标记的可逆终止核苷酸来执行连续测序。在并入核苷酸之后，使用激光来激发荧光团，并且捕捉图像且记录第一碱基的标识。从每个并入的碱基中去除3'终止子和荧光团，并且重复并入、检测和鉴别的步骤。根据此技术的测序描述于美国公开2011/0009278、美国公开2007/0114362、美国公开2006/0024681、美国公开2006/0292611、美国专利7,960,120、美国专利7,835,871、美国专利7,232,656、美国专利7,598,035、美国专利6,306,597、美国专利6,210,891、美国专利6,828,100、美国专利6,833,246和美国专利6,911,345中，其中的每一者以全文引用的方式并入本文中。

可使用的测序技术的另一实例包括太平洋生物科学(加利福尼亚州门洛帕克(Menlo Park,CA))的单分子实时(SMRT)技术。在SMRT中，四种DNA碱基中的每一个可附接到四种不同荧光染料之一。这些染料是磷酸相连的。单个DNA聚合酶与模板单链DNA单分子一起固定在零模式波导(ZMW)底部。ZMW是能够针对快速扩散进和出ZMW(以微秒为单位)的荧光核苷酸背景观测单核苷酸通过DNA聚合酶并入的限制结构。核苷酸并入到生长链中耗时若干毫秒。在此时间期间，荧光标记被激发并且产生荧光信号，并且荧光标签裂解开。检测染料的对应荧光可指示并入了哪种碱基。重复该过程。

可使用的测序技术的另一实例为纳米孔测序。参见索尼(Soni)和梅勒(Meller),2007临床化学(Clin Chem)53:1996-2001。纳米孔是直径约为1纳米的小孔。纳米孔浸没在导电流体中以及跨纳米孔施加电势会由于通过纳米孔的离子传导而导致轻微的电流。流动的电流量对纳米孔的大小敏感。随着DNA分子穿过纳米孔，DNA分子上的每个核苷酸会不同程度地阻碍纳米孔。因此，DNA分子穿过纳米孔时穿过纳米孔的电流的变化表示DNA序列的读数。

测序产生多个读数。读数一般包括长度小于约600或700个碱基的核苷酸数据的序列且本发明的方法可适用于任何长度的读数或序列信息，包括例如长度<150个碱基或甚至小于50，以及大于700，例如数千个碱基的读数。通常，NGS读数映射到参考或重新组装且分析。本发明的方法包括将NGS读数映射到为基因组有向非循环图(DAG)或类似数据结构的参考。基因组DAG可表示参考数据以及引入的序列读数。在此类数据结构中，来自人类基因组的特征(例如序列和子序列)表示为节点，其通过边缘连接。

本发明的方面涉及产生包括来自一个或多个已知参考的序列的DAG。在所属领域中理解DAG是指可以被呈现为图的数据以及呈现这些数据的图。本发明提供用于将DAG存储为可以由计算机系统读取以用于生物信息学处理或用于呈现为图的数据的方法。可以包含例如节点和边缘的列表、矩阵或表示矩阵的表、一组阵列或类似的表示矩阵的变量结构的任何合适的格式，以内置有用于图的语法的语言，以用于图表目的的通用标记语言或其它保存DAG。

在一些实施例中，DAG存储为节点和边缘的列表。一种此类方式为创建文本文件，其包括所有节点，具有分配到每一节点的序号，和所有边缘，各自具有起始和结束节点的节点序号。因此，举例来说，如果关于两种语句“See Jane run”和“Run,Jane run”创建DAG，可以创建不分大小写的文本文件。可使用任何适合格式。举例来说，文本文件可包括逗号分隔值。命名此DAG为＂Jane＂用于将来参考，以此格式，DAG＂Jane＂可读取如下：1see,2run,3Jane,4run,1-3,2-3,3-4。所属领域的技术人员将了解此结构易于适用于基因组序列，和下文的伴随论述。

在某些实施例中，DAG被存储为表示矩阵(或一组阵列或表示矩阵的类似的变量结构)的表，其中N×N矩阵中的(i，j)项指示节点i和节点j经连接(其中N是含有基因顺序的节点的矢量)。为使DAG为非循环的，仅需要所有的非零项在对角线以上(假定节点以基因组顺序表示)。在二元案例中，0项表示从节点i到节点j不存在边缘，并且1项表示从i到j的一个边缘。所属领域的技术人员将理解矩阵结构使得除0到1之外的值与边缘相关联。举例来说，任何项可以是指示权重或所使用的次数，反映世界中所观测的数据的一些固有质量的数值。矩阵可以作为表或一系列线性的行(例如，首先是行1，紧接着是分隔符等)写入文本文件，因此提供简单的串行化结构。

在定义节点之后，用于使矩阵DAG串行化的一种适用方式将是对于项使用逗号分隔值。使用此格式，DAG＂Jane＂将包括与关于上文相同的节点定义，紧接着是矩阵项。此格式可读取为：

1see,2run,3jane,4run

,,1,\,,1,\,,,1\,,，

其中简单地省略了零(0)的项，并且'V是换行符。

本发明的实施例包括以内置有用于图的生物语法的语言存储DAG。举例来说，具备称为Graphviz的曲线可视化软件包的DOT语言提供了可以被用于存储具有辅助信息且可以使用从Graphviz网站商购获得的多个工具被转化成图形档案格式的数据结构。Graphviz为开放源图形可视化软件。图形可视化为将结构信息表示为抽象图和网络的图表的方式。其具有网络化、生物信息学、软件工程、数据库和万维网设计、机器学习中的应用，以及在用于其它技术领域的可视界面中的应用。Graphviz布局程序以简单文本语言对图进行描述，且以适用格式制作图表，如用于网页的图像和可缩放矢量图形；包含于其它文献中的PDF或附言(Postscript)；或显示于交互式图形浏览器中。

在相关实施例中，DAG以用于图表目的的通用标记语言存储。根据上文线性文本文件或逗号分隔矩阵的描述，所属领域的技术人员将认识到，如XML语言可以用于(扩展用于)创建定义节点和其标头或ID、边缘、权重等的标签(标记)。然而，DAG经结构化和存储，本发明的实施例涉及使用节点表示具有连接节点的边缘的基因组序列以创建表示基因组标度基因组序列的穿过DAG的路径。

在优选实施例中，开发提供基因组图形表示以及操纵常式的核心元素的库。举例来说，库元素可以提供用于低层级存储器操纵的语言(如C++)开发且经编译以提供二元元素。基因组DAG可表示为彼此连接的一组边缘和顶点对象。

为了表示图形，可使用邻接列表，其中顶点和边缘存储为物理对象。顶点或边缘存储其邻接的边缘/顶点的列表。在某些实施例中，核苷酸序列和元数据存储在边缘对象中。使用邻接列表简化局部图遍历。邻接列表证实为表示基因组DAG的极有效方式。基因组标度参考DAG当使用计算机可执行指令建构时，可有效地充分利用硬件存储器定址的特殊性以产生高效邻接列表。举例来说，基因组标度基因组参考DAG的实施可实际上将天然指针调用到来自硬件级的相邻边缘/顶点对象。库元素可包括哈希表(hash table)和搜索算法，用于有效搜索听中的k-mers(序列片段)，同时维持极小存储器占用。经由使用哈希表，可使查询的平均成本独立于存储在表中的元素的数目。另外，可建构哈希表以允许项的任意插入或缺失。使用指针显著改进穿越通过基因组DAG的路径检索序列串或进行比对的操作(该遍历操作具有共同的特性)。

在优选实施例中，指针或天然指针可操纵为存储器地址，因为其指向存储器上的物理位置，另外解引用指针也存取预期数据。也就是说，指针为存储在存储器中的某处的数据的参考；以获得该数据欲解引用指针。分离指针与其它种类的参考的特征为指针的值被解释为低层级或硬件级的存储器地址。描述的图形基因组引擎的速度和效率允许使用可商购的、现成的桌上型系统对含有来自数千样品的变型数据的基因组标度基因组参考DAG进行全基因组短读数比对。此类图形表示提供快速随机存取、修改和数据检索的方法。库也可包括且支持通用图形基因组坐标系。图形表示的紧密性允许全人类基因组连同来自典型变型数据库(如dbSNP)的变型保持和使用于现代消费级计算机系统的限制内。

在一些实施例中，支持快速随机存取且用无索引邻接建构图形对象存储，其中每一元素含有指向其邻接元素的直接指针(例如如以引用的方式并入的美国公开2014/0280360和美国公开2014/0278590中所述)，其避免索引查询的需要，允许遍历(例如如在本文所述的改进SW比对算法中进行)极快速。无索引邻接为关于数据检索的低层级或硬件级存储器引用的另一实例(如比对中所要求，且尤其就本文所述的改进多维史密斯-沃特曼比对中的速度增加来说有回报)。确切地说，可建构无索引邻接以使得元素内含有的指针事实上为存储器中的物理位置的参考。

由于使用物理存储器定址(如天然指针)的技术实施方案可以此类轻量方式存取和使用数据而不要求分离索引表或其它介入查询步骤，给定计算机(例如任何现代消费级桌上型计算机)的能力经扩展以允许基因组标度DAG的完全操作(即不仅包括全人类基因组并且还包括如dbSNP的数据库中表示的该基因组中的所有变化形式或通过再测序一种或多种全基因组发现的所有变化形式的参考结构)。因此，使用具有天然指针或提供无索引邻接的其它实施方案的对象库(即数据通过将指针解引用到存储器中的物理位置检索的实施例)存储图形元素(例如节点和边缘)实际上改进该技术提供基因组信息的存储、检索和比对的能力，因为其以特定方式使用计算机的物理存储器。

尽管DAG的存储不需要特定格式，但是呈现图1和图2以说明一种适用于说明的方便且紧凑的格式(记住在优选实施例中，图形对象以无索引邻接存储，分开存储元数据以加速遍历和比对)。在以下说明中，呈现例示性DAG且论述为图形，但应了解，作为图形的DAG可直接转译为计算机存储器中的数据结构或文本文件且返回。

图1说明使用DAG 101表示和操纵生物信息学数据。序列。为了揭示DAG 101的内容，图1也包括一组假设序列的线性列表，其中的每一个为穿过DAG 101的路径。包括假设的公开参考(此可例如为贡献到“人类基因组”的来自纽约布法罗(Buffalo,NY)的个人的实际基因组DNA)且表示等位基因1：

5’-CCCAGAACGTTGCATCGTAGACGAGTTTCAGC-3'(SEQ TD NO.1)

包括第二等位基因(等位基因2)，其与等位基因1的不同之处在于15bp插入缺失：

5’-CCCAGAACGTTGCTATGCAACAAGGGACATCGTAGACGAGTTTCAGC-3’

(SEQ ID NO 2)

也包括第三等位基因(等位基因3)，其匹配等位基因2，但就假设来自等位基因2的AC与等位基因3中的GG同源的插入缺失中间的多态性来说：

5’-CCCAGAACGTTGCTATGCAGGAAGGGACATCGTAGACGAGTTTCAGC-3’

(SEQ ID NO 3)

包括来自受检者的假设的序列读数：

5’-TTGCTATGCAGGAAGGGACATCG-3’(SEQ ID NO 4)

在所描绘的情境中，受检者具有GG多态性。如果序列读数比对到公开的参考基因组，那么将不会发现GG多态性表示相对于等位基因2的两个连续取代。取而代之，许多现有比对或组装算法将发现序列读数与公开的参考之间的不佳比对且可能甚至由于未能满足质量标准而抛弃该读数。

在本发明的方法下，构建DAG 101。节点1具现化为5′-CCCAGAACGTTG-3′(SEQ IDNO 5)。节点2创建为5′-CATCGTAGACGAGTTTCAGCATT-3′(SEQ ID NO 6)。节点3为CTATGCA。节点4为AAGGGA。节点5为AC且节点6为GG。值得注意的是在一些实施例中，将读数映射到DAG涉及产生新节点以表示尚未处于DAG中的读数中的数据。

举例来说，在读数映射之前，DAG 101可能尚未包括节点6(GG)。比对算法(下文论述)发现序列读数最佳匹配连接节点1→3→5→4→2的等位基因2的路径，如图1中所描绘。为了恰当地表示序列读数，产生新节点6，且序列读数因此通过连接节点1→3→6→4→2的路径表示在DAG 101内。应了解，在此映射之前，节点3、5和4未必以分离节点形式存在。映射读数且产生新节点6可包括将(3+5+4)的先前节点破碎为节点3、5和4。其为使用DAG作为参考的强力益处中的一个-读数映射并非相比于参考的简单运行，但可包括构建参考以表示包括仅通过新序列读数记录的新基因型的所有已知基因型。

图2显示适合于计算存储和检索的DAG 101的一种可能格式。如图2中表示的DAG101与图1中所描绘的图形版本呈现相同拓扑和顺序。此处，所描绘的格式适用，因为节点存储为FASTA文件，其在生物信息领域中为熟悉的(且可正好容易地为FASTQ文件)。边缘可存储在文本文件中，此处以简单列表形式。

穿过DAG 101的路径表示如图1和图2中所描绘的马尔可夫过程(Markovprocess)，其中任何节点的上游节点独立于下游节点。然而，由于基因保守、连锁不平衡、非均一GC含量和其它生物现象，按照穿过基因组DAG的节点到节点路径表示实际基因组可能实际上为非马尔可夫过程。为了表示此类生物现象，可包括条件信息。本发明提供使用受检者的基因组中的已知位置处的核苷酸的标识过滤基因组DAG的方法。

出于当前目的，尤其注意基因组DAG可不仅解释为(有效表示的)序列组或比对对象，而且还解释为关于所讨论的基因组或基因组区域的条件信息的储存库。此外，在此类有价值的条件信息不存在于DAG自身中的程度上，我们可用此类信息对其进行补充。

此条件信息可为二元或概率性的。在一些情形下，令人满意的是仅记录由各种节点对表示的序列是否可共存。在其它情形下，适用的是知道在存在另一序列的条件下的一个序列的条件概率。举例来说，可已知观测某一SNP给出某些其它SNP存在于相同基因组中的概率。这通常出现于SNP呈连锁不平衡时。

高密度SNP芯片(例如每分析百万个基因座)帮助了以发现与人类疾病相关的遗传性基因组变型为目标的研究。通过并入连锁不平衡，可比阵列可直接测定研究更大数目的基因座。

连锁不平衡(LD)和定相LD出现于两个或大于两个基因座处的等位基因比偶然预期将更频繁地一起呈现于相同个体中的情况下。人类中的LD主要在彼此间具有有限历史重组的相同染色体上的基因座中显示其自身。在数学上，相同染色体上的两个SNP之间的LD可定量为跨越群体染色体的等位基因之间的相关性。此相关性的测量包括表示单倍基因型D的两个二元随机变量的统计协方差和统计相关系数的平方r²。当两个SNP相关且显示显著r²时，对SNP中的一个基因分型给出关于另一SNP的基因型的信息。因此，对1百万个SNP基因分型的SNP阵列有效地分析比阵列上所表示更大比例的人类遗传变异。

阵列制造商设计阵列以查询与人类基因组中的大量其它SNP相关，或‘标记’这些SNP的SNP。基因组中的LD结构的有用知识已通过国际单体型图计划提供。参见例如国际单体型图计划协作组,2005,人类基因组的单体型图(A haplotype map of the humangenome)自然437:1299-1320。单体型图不仅包括多种SNP的等位基因，而且包括出现于每一染色体上的连续SNP等位基因的序列。如果基因组在两个连续SNP处杂合，那么将等位基因分配到其对应染色体为定相的。定相帮助测定来自群体基因型的LD结构，其转而必需估计通过每一SNP捕获的人类遗传变异的量。定相的例示性方法论述于斯蒂芬斯(Stephens)等人,2001,自群体数据的单体型重构的新统计方法(A new statistical method forhaplotype reconstruction from population data),美国人类遗传学杂志(Am J HumGenet)68:978-989中。定相提供LD结构。

如昂飞和伊路米那的制造商已将单体型图信息和LD结构并入芯片设计中，基本上排除与芯片上表示的SNP具有可靠的LD的SNP。因此，使用例如基于LD结构设计的芯片，通过SNP芯片在已知位置鉴别的核苷酸可用于确立其它位置的核苷酸的标识的概率。

测量阵列捕获常用人类遗传变异的能力的一个量度为根据阵列SNP的固定r阈值以上的所捕获已知人类SNP的比例。研究指示多达80％的人类SNP通过昂飞500K和伊路米那HumanHap300阵列捕获。参见例如皮尔(Pe'er)等人,2006,使用固定标记物组评估和改进全基因组关联性研究的能力(Evaluating and improving power in whole-genomeassociation studies using fixed marker sets)自然·遗传学,38,663-667。

此类研究涉及获得多个受检者的SNP芯片数据且挖掘所得数据的组间等位基因频率中的统计显著差异。大量LD结构组为可用的且适用于本发明的方法中。参见例如威康托拉斯病例控制协会(Wellcome Trust Case Control Consortium),2007,七种常见疾病的14,000个病例和3,000个共用对照的全基因组关联性研究(Genome-wide associationstudy of 14,000cases of seven common diseases and 3,000shared controls),自然447:661-678。

无论是否记录概率信息或精确二元信息，该信息可存储在DAG自身中或与其一起存储且用于通过DAG的分析中。数据可存储为DAG内的注释或补充信息的文件。

图3给出假设的基因组区域中的位置1-20的假设的DAG 301。DAG 301表示以下四种可能的序列：

5’-AATGCATTGGTCGATACCTG-3’(SEQ ID NO 7)

5’-AATGCAAAGGTCGATACCTG-3’(SEQ ID NO 8)

5’-AATGCATrGGTCCATACCTG-3’(SEQ ID NO 9)

5’-AATGCAAACGTCCATACCTG-3’(SEQ ID NO 10)

应了解，SEQ ID NO.7-10中的任一者可读取自如图3中所示的DAG 301。如图3中所表示，穿过DAG 301的所有路径为同等的且假设马尔可夫独立性。如上文所论述，可发现出于多种天然和统计原因，尽管并非所有穿过DAG的替代路径同等地独立于上游或下游节点。也就是说，一个节点的路径选择可对于上游(或下游)节点处的特定路径为条件性的。将此表示在DAG中，其中DAG表示自然现象，假定自然的条件关系。条件关系可为二元(如果A，那么B)或概率(如果A，那么更可能为B，但可能为C)的。

将DAG视为条件信息的储存库，含有TT和AA的节点各自为在首节点(即以序列AATGCA)开始的序列的可能延拓。此信息为有价值的且可直接从DAG读取。

可另外得知在位置7和8具有TT的序列在位置13处始终具有G，且从不具有C，然而已发现在位置7和8具有AA的实例序列在位置13处具有两个替代方案各一个。此信息可以任何数目的方式存储，例如通过用节点ID富集DAG 301和产生给出关于共存性的信息的制表符定界文本文件：

图4显示有很多关于共存性的信息的DAG 301。在DAG 301下方为共存性的表。共存性也可如下地表示为逗号分隔值：

节点1，节点2,可共存？

2,5,Y

2,6,N

3,5,Y

3,6,Y

应注意，以上数据可容易地压缩，例如通过仅含有不可共存的节点对(因此消除第三列和许多行)，使得‘是(yes)’为暗示的默认回答：

[非可共存节点的列表：]

节点1,节点2

2,6

共存性数据的使用将更详细地论述于下文以说明这些数据如何在将序列读数比对到基因组DAG时提供帮助。

本发明提供将序列读数比对到DAG的方法和系统。使用本发明的比对算法，读数可不管其大数目而快速映射。通过使用DAG作为参考获得许多益处。举例来说，与相对于一个参考相比，相对于DAG比对更精确，并且然后试图根据带其它外部信息调整一者的结果。这主要因为后一种方法用于初始比对的序列与其它信息之间强制执行非天然不对称性。与试图相对于用于每个物理可能性(在接合点的数量方面，这样的可能性的数量将总体上将迅速增长)的线性序列比对相比，相对于潜在地表示所有的相关物理可能性的目标比对是更计算上有效的。

本发明的实施例包括相对于DAG比对一个或多个读数。

逐对比对总体上包含沿目标的一部分放置一个序列，根据算法引入间隙，对两个序列匹配的程度评分，和优选地沿着参考对不同的位置重复进行。最佳评分匹配被认为是对准，并且表示关于序列数据表示的内容的推断。在一些实施例中，对一对核酸序列的比对评分包含为取代和插入缺失的概率设置值。当单独碱基被比对，匹配或不匹配通过取代概率有助于比对评分，匹配或不匹配可以是例如匹配为1以及不匹配为-0.33。插入缺失通过空隙处罚扣除比对评分，空隙处罚可以是例如-1。间隙处罚和取代概率可以是基于关于序列演化的经验知识或推理假设。其值影响所得比对。确切地说，间隙处罚与取代概率之间的关系影响取代或插入缺失是否将在所得比对中有利。

正式地陈述的，比对表示两个序列x与y之间的推断关系。例如，在一些实施例中，序列x和y的比对A将x和y分别映射到可以包含空隙的另外两个串x'和y'，使得：(i)lx'l＝ly'l；(ii)从x'和y'移除空隙应该分别回到x和y；以及(III)对于任何i，x'[i]和y'[i]无法两个都有间隙。

间隙是x'或y'中任一个中的连续空隙中的最大子串。比对A可以包含以下三种区域：(i)匹配的对(例如，x'[i]＝y'[i])；(ii)不匹配的对，(例如，x'[i]≠y'[i]，并且两者没有空隙)；或(III)间隙(例如，或x'[i..j]或y'[i..j]是间隙)。在某些实施例中，仅匹配的对具有较高的正评分a。在一些实施例中，不匹配的对总体上具有负评分b，并且长度r的间隙具有负评分g+rs，其中g，s<0。对于DNA，一个通用评分方案(例如，由BLAST所使用的)使得评分a＝l、评分b＝-3、g＝-5且s＝-2。比对A的评分是所有的匹配的对、不匹配的对和间隙的评分的总和。x和y的比对评分可以被定义为在x和y的所有可能的比对之中的最大评分。

在一些实施例中，任何对具有由取代概率的4×4矩阵B定义的评分。例如，B(i,i)＝1和0<B(i,j)_i<>j<1是一个可能的评分系统。例如，在与颠换相比变换被认为是更加生物学上可能的情况下，矩阵B可包含B(C,T)＝7和B(A,T)＝3，或者期望的或由所属领域中已知的方法确定的任何另一组值。

根据本发明的一些实施例的比对包含逐对比对。一般来说，逐对比对涉及具有m字符的序列Q(查询)和n字符的参考基因组T(目标)找到和评估Q和T之间的可能的本地的比对。对于任何l<i<n和l<j<m，计算T[h..i]和Q[k..j]的最大可能的比对评分(即，在位置i处结束的T的任何子串和在位置j处结束的Q的任何子串的最佳比对评分)，其中h<i且k<j。这可以包括检查所有的具有cm字符的子串，其中c根据相似模型是常量，并且单独将每个子串与Q比对。每个比对被评分，并且具有优选的评分的比对被接受为比对。所属领域的技术人员将了解，存在序列比对的精确算法和近似算法。精确算法将寻找最高评分的比对，但是在计算上会昂贵。两种众所周知的精确算法是尼德曼-翁施算法(Needleman-Wunsch)(分子生物学杂志(J Mol Biol),48(3):443-453,1970)和史密斯-沃特曼算法(Smith-Waterman)(分子生物学杂志,147(1):195-197,1981；数学进展(Adv.in Math.)20(3),367-387,1976)。后藤(Gotoh)(分子生物学杂志,162(3),705-708,1982)对史密斯-沃特曼法的进一步改进将计算时间从O(m²n)减少到O(mn)，其中m和n是比较的序列大小且更能改正并行处理。在生物信息学领域，正是后藤的改进算法通常被称为史密斯-沃特曼算法。史密斯-沃特曼方法用以针对较大参考序列比对较大序列集，因为可更普遍并且更便宜地获得并行计算资源。参见例如亚马逊(Amazon)的云计算资源。本文所参考的所有期刊文章以其全文引用的方式并入。

史密斯-沃特曼(SW)算法通过奖励序列中的碱基之间的重叠并且处罚序列之间的间隙来比对线性序列。史密斯-沃特曼算法还与尼德曼-翁施算法不同，不同之处在于SW不要求短序列跨越描述长序列的字母组成的字符串。也就是说，SW不假定一个序列是另一个序列的全部内容的读数。此外，因为SW并不一定找到横跨字符串的全长的比对，所以局部比对可以在两个序列内的任何地方开始和结束。

在一些实施例中，根据点矩阵法、动态规划法或整词教学法，逐对比对继续进行。动态规划法一般实施史密斯-沃特曼(SW)算法或尼德曼-翁施算法(NW)算法。根据NW算法的比对总体上根据具有线性间隙处罚d的相似矩阵S(a,b)(例如，诸如前述矩阵B)对比对的字符评分。矩阵S(a,b)总体上供应取代概率。SW算法类似于NW算法，但是任何负评分矩阵网格被设置为0。在美国专利5,701,256和美国公开2009/0119313中更详细地描述了SW算法和NW算法及其实施方式，两者以其全文引用方式并入本文。

实施史密斯-沃特曼算法的版本的比对程序是MUMmer，MUMmer可以从由Geeknet(Fairfax，弗吉尼亚州(Fairfax，V))维护的SourceForge网站商购获得。MUMmer是用于快速比对基因组范围序列的系统(Kurtz,S等人,基因组生物学(Genome Biology),5:R12(2004)；Delcher,A.L.等人,核酸研究(Nucl.Acids Res.),27:11(1999))。举例来说，MUMmer 3.0可以在2.4GHz Linux桌上型计算机上使用78MB存储器以13.7秒在一对5-巨碱基基因组之间找到所有20-碱基对或更长的精确匹配。MUMmer可以处理来自鸟枪法测序计划的100或1000重叠群，并且将使用系统包含的NUCmer程序将其与另一组重叠群或参考比对。如果对于DNA序列比对来说物质太相异而不能检测相似性，则PROmer程序可以根据两者输入序列的六框翻译生成比对。

其它示例性比对程序包含：高效的大规模核苷酸数据库的比对(EfficientLarge-Scale Alignment of Nucleotide Databases(ELAND))或序列和变体的共识评估的ELANDv2部件(ELANDv2component of the Consensus Assessment of Sequence andVariation(CASAVA))软件(加州，圣迭戈，伊路米那(Illumina,San Diego,CA))；实时基因组学RTG研究者公司(RTG Investigator from Real Time Genomics,Inc.)(加州，旧金山(San Francisco,CA))；来自Novocraft(马来西亚，雪兰莪州(Selangor,Malaysia))的Novoalign；Exonerate,欧洲生物信息研究所(European Bioinformatics Institute)(英国，辛克斯顿(Hinxton,UK))(斯雷特(Slater),G.，和伯尼(Birney),E.,BMC生物信息学(BMC Bioinformatics)6:31(2005))，Clustal Omega，来自都柏林大学(from UniversityCollege Dublin)(爱尔兰，都柏林(Dublin,Ireland))(西弗斯(Sievers)F等人，Mol SystBiol 7，article 539(2011))；来自都柏林大学的ClustalW或ClustalX(ClustalW orClustalX from University College Dublin)(都柏林，爱尔兰(Dublin,Ireland))(拉金(Larkin)M.A等人，生物信息学(Bioinformatics)，23，2947-2948(2007)；和FASTA，欧洲生物信息研究所(European Bioinformatics Institute)(英国，辛克斯顿(Hinxton,UK))(皮尔逊(Pearson)W.R等人，美国国家科学院院刊(PNAS)85(8):2444-8(1988)；利普曼(Lipman),D.J.,科学227(4693)：1435-41(1985))。

如上文所论述的，当将序列与直接非循环注释的参考基因组比对时，实施SW比对算法或(下面进一步更详细地论述的)的改进的版本可以是优选的或期望的。

根据以下方程式(1)，对于呈现长度n和m的两个字符串的n×m矩阵H，易于表示SW算法：

H_k0＝H_0l＝0(对于0≤k≤n且0≤l≤m)(1)

H_ij＝max{H_i-1,j-1+s(a_i,b_j),H_i-1,j-W_in,H_i,j-1-W_del,0}(对于1≤i≤n且1≤j≤m)

在以上方程式中，s(a_i,b_j)呈现匹配奖分(当a_i＝b_j时)或错配罚分(当a_i≠b_j时)，并且对插入和缺失分别给出罚分W_in和W_del。在大多数例子中，所得矩阵具有为零的许多元素。这种表示使得更容易在矩阵中从高到低、从右到左回溯，因此识别比对。

一旦已用分数完全填充矩阵，SW算法执行回溯以确定比对。以矩阵中的最大值开始，算法将基于三个值中的哪个(H_i-1,j-1、H_i-1,j或H_i,j-1)曾用于计算每个单元格的最终最大值来进行回溯。当达到零时回溯停止。最佳评分比对可以包含比插入和缺失的最小可能数量更大的可能数量，同时包含远远小于取代的最大可能数量的可能数量。

当以SW或SW-后藤形式应用时，这些技术使用动态规划算法来执行分别具有大小m和n的两个字符串S和A的局部序列比对。此动态规划技术采用表或矩阵来保存匹配得分并避免对于连续单元格的重新计算。可以根据序列的字母索引字符串的每个元素，也就是说，如果S是字符串ATCGAA，则S[1]＝A。

替代将最佳比对表示为Hij(上文)，最佳比对可表示为下文方程式(2)中的B[j,k]：

B[j,k]＝max(p[j,k],i[j,k],d[j,k],0)(对于0<j≤m,0<k≤n)(2)

最大函数的变量参数B[j,k]概述于下文方程式(3)-(5)中，其中MISMATCH_PEN、MATCH_BONUS、INSERTION_PEN、DELETION_PEN和OPENING_PEN全部为常量，且除了MATCH_BONUS全部为负数(PEN为罚分的简称)。通过以下方程式(3)给出匹配变量参数p[j,k]：

p[j,k]＝max(p[j-1,k-1],i[j-1,k-1],d[j-1,k-1])+MISMATCH_PEN，如果S[j]≠A[k](3)

＝max(p[j-l,k-l],i[j-1,k-1],d[j-1,k-1])+MATCH_BONUS，如果S[j]＝A[k]通过以下方程式(4)给出插入变量参数i[j,k]：

i[j,k]＝max(p[j-l,k]+OPENING_PEN,i[j-1,k],d[j-1,k]+(4)

OPENING_PEN)+INSERTION_PEN

并且通过以下方程式(5)给出缺失变量参数d[j,k]：

d[j,k]＝max(p[j,k-1]+OPENING_PEN,i[j,k-1]+(5)

OPENING_PEN,d[j,k-1])+DELETION_PEN

对于所有三个变量参数，将[0,0]元素设置为零以确保回溯完成，即，p[0,0]＝i[0,0]＝d[0,0]＝0。

评分参数在某种程度上是任意的，并且可以经调整以实现计算的特性。黄(对于DNA的得分参数设置的一个实例(Huang)，第3章：生物序列比较和比对(Bio-SequenceComparison and Alignment)，Curr Top Comp Mol Biol.丛书，马萨诸塞州剑桥市：麻省理工学院出版社(The MIT Press)，2002年)将为：

MATCH_BONUS：10

MISMATCH_PEN：-20

INSERTION_PEN：-40

OPENING_PEN：-10

DELETION_PEN：-5

以上间隙罚分(INSERTION_PENALTY、OPENING_PENALTY)之间的关系有助于限制间隙开放的数目，即促进通过设置高于间隙开放成本的间隙插入罚分来归并间隙。当然，MISMATCH_PEN、MATCH_BONUS、INSERTION_PEN、OPENING_PEN与DELETION_PEN之间的替代关系是可能的。

在一些实施例中，本发明的方法和系统并入多维比对算法。本发明的多维算法提供了序列信息的“回看(look-back)”类型分析(如在史密斯-沃特曼法中)，其中通过包含多个路径和多个节点的多维空间进行回看。多维算法可以被用于比对序列读数与DAG类型参考。该比对算法关于包含在DAG(例如，参考序列结构)上位置处的每个序列通过识别最大评分为C_i,j识别最大值。实际上，通过在先前位置处“回”看，有可能跨越多个可能的路径鉴别最优比对。

本文描述的改进史密斯-沃特曼比对(也称为多维比对)当在采用物理存储器定址(例如经由使用如上文所论述的天然指针或无索引邻接)的基因组DAG系统中进行时提供优越的速度。针对参考基因组DAG的多维比对与使用空间存储地址(例如天然指针或无索引邻接)检索来自参考基因组DAG中的对象的数据的组合改进计算机系统的能力，促进使用本文所述的已知等位基因进行的全基因组标度分析和读数组装。

对上文所述的读数(也称为“字符串”)和有向非循环图(DAG)进行本发明的算法。出于定义该算法的目的，假设S是要比对的字符串，并且假设D是将与S比对的有向非循环图。以从1开始的索引对字符串S的元素加括号。因此，如果S是字符串ATCGAA，那么S[1]＝A、S[4]＝G等。

在某些实施例中，对于DAG，节点的序列的每个字母将被表示为独立元素d。d的前趋被定义为：

(i)如果d不是其节点的序列的首字母，那么其节点中在d之前的字母是其(唯一)前驱；

(ii)如果d是其节点的序列的首字母，则为d的节点的父节点的任何节点的序列的最后一个字母是d的前趋。

所有前驱集继而表示为P[d]。

为了发现“最佳”比对，算法寻求M[j,d](S的第一j元素与在(且包括)d之前的DAG的一部分的最优比对的评分)的值。此步骤类似于在以上的方程式1中发现H_i,j。确切地说，确定M[j,d]包括找到a、i、e以及0的最大值，如下文所定义：

M[j,d]＝max{a,i,e,0}(6)

其中

e＝max{M[j,p*]+DELETE_PEN}，其中p*属于P[d]中

i＝M[j-1,d]+INSERT_PEN

如果S[j]＝d，那么a＝max{M[j-1,p*]+MATCH_SCORE}，其中p*属于P[d]中；

如果S[j]≠d，那么max{M[j-1,p*]+MISMATCH_PEN}，其中p*属于P[d]中

如上文所描述，e是S的前j个字符的比对的最高值，其中DAG的部分至多是(但不包含)d加上额外的DELETE_PEN。因此，如果d不是节点的序列的首字母，那么仅存在一个前趋P，并且S的前j个字符与DAG的比对分数(至多是并且包含p)等效于M[j,p]+DELETE_PEN。在其中d是节点的序列的首字母的实例中，可以存在多个可能的前趋，并且因为DELETE_PEN是恒定的，所以求[M[j,p*]+DELETE_PEN]的最大值就相同于选择与S的第一j个字符比对而具有最高比对得分的前趋。

在方程式(6)中，i是字符串S的前j-1个字符与DAG的比对，DAG至多是并且包含d加上INSERT_PEN，其类似于SW中的插入变量参数的定义(参看方程式1)。

另外，a是S的前j个字符与DAG的直到但不包括d的部分比对的最高值，加上或MATCH_SCORE(如果S的第个字符与字符d相同)或MISMATCH_PEN(如果S的第j个字符与字符d不同)。如同e一样，这意味着如果d不是其节点的序列的首字母，那么仅存在一个前驱，即p。这意味着a是S的前j-1个字符与DAG(直到并且包括p)的比对分数，即M[j-1,p]，取决于d与S的第j个字符是否匹配，再加上MISMATCH_PEN或MATCH_SCORE。在其中d是节点的序列的首字母的实例中，可以存在多个可能的前趋。在此情况下，求{M[j,p*]+MISMATCH_PEN或MATCH_SCORE}的最大值与选择与S的前j-1个字符具有最高比对分数(即，候选M[j-1,p*]变量参数的最高值)并且取决于d与S的第j个字符是否匹配而加上MISMATCH_PEN或MATCH_SCORE的前驱相同。

再次，如在SW算法中，罚分，例如DELETE_PEN、INSERT_PEN、MATCH_SCORE和MISMATCH_PEN可以被调整以促进与较少间隙等的比对。

如以上方程式中所描述，该算法通过不仅计算该元素的插入、缺失和匹配分数，而且回看(逆着DAG的方向)到DAG上的任何先前节点以找出最大分数，来找出每个读数的最大值。因此，该算法能够穿越含有已知突变的贯穿DAG的不同路径。因为图是有向的，所以逆着图的方向移动的回溯遵循朝向图的起点的优选变异序列，并且最大比对分数鉴别高度确定性的最可能比对。

图5描述将序列读数映射到DAG 501且帮助说明将序列比对到DAG。在图5的顶部部分中，假设的序列读数“ATCGAA”连同以下两个假设的序列一起呈现：

TTGGATATGGG(SEQ ID NO.11)

TTGGATCGAATTATGGG(SEQ ID NO.12)

绘制图5的中间部分以说明SEQ ID NO.11和12通过六个特征插入缺失相关，其中假装存在假设的读数比对到SEQ ID NO.12，延伸到插入缺失中的先验知识。在图5的中间部分中，描述经线性化和简化以帮助可视化。

图5的底部部分说明假设的序列读数比对的DAG 501的创建。在所描绘的DAG 501中，尽管沿不同路径，但可以通过从DAG 501的5'端到DAG的3'端读来读取SEQ ID NO.11和12两者。如所描绘的，序列读数被示出为与上部路径比对。

图6显示对应于比较的实际矩阵。如同史密斯-沃特曼技术，本发明的所说明算法鉴别最高评分，并且进行回溯以鉴别读数的恰当位置。图5和图6还强调本发明产生字符串与该建构的实际匹配。在序列读数包括未包括在DAG中的变型的情况下，将通过间隙、插入等报告比对的序列。

如上文所论述，概率信息可表示于DAG中，其可对于对准具有益处。这可以通过将每一边缘与鉴于第一节点指示第二节点的概率的“权重”关联而进行。

图7显示经产生以包括概率信息的DAG 301。沿DAG 301的边缘的数字指示60％由DAG 301表示的序列含有节点2且40％含有节点3。另外，70％的序列含有节点5且30％的表示序列含有节点6。不存在其它信息，将通常自然地假定这些变换概率为独立(例如马尔可夫型)。也就是说，无论序列包括节点2或节点3，从节点4到节点5的变换出现70％的时间。然而，DAG 301可补充有关于节点之间的从属性的信息。举例来说，继续参考图7，如果检查所有穿过节点2的序列，且发现那些序列中的90％穿过节点5，那么此信息可用DAG 301存储，例如存储如下：

节点1,节点2,节点3,概率

2,4,5,0.9

2,4,6,0.1

再次，这可以任何数目的方式压缩-例如通过消除第二行，其可从第一个推论。

本发明的实施例包括使用已知位置处的所鉴别核苷酸或任何其它基因型信息来将穿过基因组DAG的多个路径减少到将寻求映射的候选序列读数。举例来说，来自受检者的SNP芯片的结果可过滤DAG且与SNP芯片不一致的穿过DAG的路径可从来自受检者的序列读数的组装中的考虑因素排除。

表示基因组中的所有已知变型的DAG可较大且包括许多不同的穿过DAG的路径。

本发明提供将较大DAG减小为与情境相关的较小DAG的方法。SNP芯片和条件信息的组合提供进行此类减小的自然方式。SNP芯片的结果得出关于DAG中的哪些节点由给定序列穿越的信息，且条件信息可接着用于鉴于穿越的节点推导关于其它节点的相关性的事实。

举例来说，假如我们非概率性地工作且我们经由SNP芯片获悉受检者的序列穿过图7的DAG 301的节点2。单独从DAG中的信息，我们可实现图形尺寸的较小减小。

图8显示DAG 301的减小版本。如图8中所示的DAG 301表示基于获得已知位置中的至少一个核苷酸的标识的可能路径的减小。也就是说，位置7或位置8测定为胸腺嘧啶。接着，节点id＝3可出于另外的考虑因素排除。可通过使用如上文所述的条件信息获得另外的益处。查阅以上列出的简单文本文件，我们可以看出节点2和6不可共存，且因此进一步减小图形。

图9说明经过滤(例如通过SNP芯片数据)并且通过条件信息(例如节点2和6的非共存性)进一步减小的DAG 301的此进一步减小的结果。从这两个步骤(通过已知位置处的核苷酸过滤、通过概率连锁核苷酸过滤)，穿过DAG 301的候选路径已减少到一个路径。在实际基因组数据的情况下，此类减少可能不导致仅具有一个路径的DAG，但减少数目的路径(相比于未过滤的DAG)将通过例如改进多维史密斯沃特曼法允许读数与那些路径的全面比对。

应注意，这些减少可通常为非显然的。可存在不穿过节点2是我节点1到节点4是我许多路径，且这些路径可为任意长、复杂和巢式的。所有此类路径可在此步骤消除。

图10给出根据某些实施例的方法(1001)的图表。一般来说，本发明提供方法1001，其包括接收(1005)已知位置处的核苷酸的标识(例如自SNP芯片)。该信息应用(1009)于DAG且选择(1015)包括已知位置处的核苷酸的DAG中的路径。另外，NGS读数可经接收(1019)且映射(1023)到所选路径。从该映射可进行基因分型或类似分析(1029)。

所属领域中已知的任何开发环境、数据库或语言可用于实施本发明的实施例。例示性语言、系统和开发环境包括Perl、C++、Python、Ruby on Rails、JAVA、Groovy、Grails、Visual Basic.NET。适用于本发明的资源的概述呈现于巴尔内斯(Barnes)(编)遗传学家的生物信息：用于基因数据分析的生物信息引物(Bioinformatics for Geneticists:ABioinformatics Primer for the Analysis of Genetic Data),英格兰西索塞克斯齐切斯特威立(Wiley,Chichester,West Sussex,England)(2007)以及达德利(Dudley)和布特(Butte),开发有效生物信息编程技能的快速指导(A quick guide for developingeffective bioinformatics programming skills),公共科学图书馆计算生物学(PLoSComput Biol)5(12):el000589(2009)中。

在一些实施例中，通过Perl中开发的计算机应用(例如任选地使用BioPerl)建构方法。参见蒂斯戴尔(Tisdall),掌握Perl用于生物信息学(Mastering Perl forBioinformatics),奥莱利与合作人公司(O'Reilly&Associates,Inc.),加利福尼亚州塞巴基托波(Sebastopol,CA)2003。在一些实施例中，使用BioPerl，允许面向对象开发生物信息应用的Perl模块的集合开发应用。BioPerl可从Perl综合典藏网(CPAN)网站下载而供使用。还参见德怀尔(Dwyer),基因组Perl(Genomic Perl),剑桥大学出版社(CambridgeUniversity Press)(2003)和查克(Zak),CGI/Perl,第1版,汤姆森学习出版集团(ThomsonLearning)(2002)。

在某些实施例中，使用Java和任选地由马太博考克(Matthew Pocock)和托马斯唐(Thomas Down)在1998年于EBIVSanger开发的Bio Java对象集合开发应用。BioJava提供应用软件编程接口(API)且论述于霍兰德(Holland)等人,BioJava：用于生物信息学的开放源构架(BioJava:an open-source framework for bioinformatics),生物信息学(Bioinformatics)24(18):2096-2097(2008)中。Java中的编程论述于梁(Liang),Java编程介绍综合版(Introduction to Java Programming,Comprehensive)(第8版),新泽西州上萨德尔里弗普伦蒂斯霍尔(Prentice Hall,Upper Saddle River,NJ)(2011)和普(Poo)等人,面向对象的编程和Java(Object-Oriented Programming and Java),新加坡斯普林格出版社(Springer Singapore),新加坡,第322页(2008)中。

可使用Ruby编程语言和任选地BioRuby、Ruby on Rails或其组合开发应用。Ruby或BioRuby可在Linux、Mac OS X和Windows中实施，并且在JRuby的情况下，在Java虚拟机上实施，且支持面向对象的开发。参见梅茨(Metz),Ruby中实际的面向对象的设计：阿吉尔初级读本(Practical Object-Oriented Design in Ruby:An Agile Primer),爱达讯-韦斯利(Addison-Wesley)(2012)和戈托(Goto)等人,BioRuby：用于红宝石编程语言的生物信息学软件(BioRuby:bioinformatics software for the Ruby programming language),生物信息学26(20):2617-2619(2010)。

本发明的系统和方法可使用Groovy编程语言和web开发框架Grails开发。Grails为提供携有通过视图显示的应用程序数据的域类的开放源模型视图控制器(MVC)web框架和开发平台。Grails域类可产生底层数据库模式。Grails提供一种开发平台，其用于包括web应用程序的应用，以及数据库和称作Grails对象关系映射(GORM)的对象关系映射框架。GORM可将对象映射到关系数据库且表示那些对象之间的关系。GORM依赖于Hibernate对象关系持久性构架以将复杂域类映射到关系型数据库表单。Grails进一步包括Jetty web容器和服务器以及网页布局框架(SiteMesh)以创建web组件。Groovy和Grails论述于贾得(Judd)等人,开始Groovy和Grails(Beginning Groovy and Grails),Apress,加利福尼亚州伯克利(Berkeley,CA),第414页(2008)；布朗(Brown),Grails权威指南(The DefinitiveGuide to Grails),Apress,加利福尼亚州伯克利,第618页(2009)。

无论采用哪些编程方法，方法1001可经扩展以操作概率数据。

概率情况与使用关于非可共存节点的信息的方法类似。但在概率数据的情况下，另外可能不仅从DAG过滤不可能的节点，而且还过滤低于某一阈值，例如0.01的节点。这表明一种算法：

(i)检索加权参考DAG的一个区域。

(ii)检索节点与边缘权重之间的相关性的补充文件。

(iii)查询SNP芯片的结果以辨别受检者中的已知位置处的核苷酸的标识以查看实现哪些节点。

(iv)鉴于DAG结构和实现给定节点的事实滤出不可能的路径上的节点(如同在上文图8中的节点3的消除中)。

(v)鉴于补充文件中的信息更新其它边缘权重。

(vi)消除具有低于ε的边缘权重的所有路径，其中此参数根据计算资源、关于DAG的背景知识等选择。ε＝.01可为合理的选择。

本发明的方法在使用基因组参考中提供重大益处和改进。举例来说，当DAG用作参考时，通过过滤DAG，所有后续分析将较快。尤其，这允许进行更复杂数学算法，给出例如较好比对。因此，如果不存在(或几乎无)较大到较小DAG的相关信息交换损失，那么增加效率且也可得到精确性。实际上，从事于减小的DAG将通常预防可避免的错误。

图11说明极小部分的基因组标度DAG 1101的实例。使用方法1001，核苷酸信息应用(1009)于DAG 1101。

图12显示具有实心方形的DAG 1101，这些实心方形通过核苷酸信息显示为在受检者的基因组中。不含这些等位基因的路径出于映射来自受检者的序列读数的目的从DAG1101消除，意思是含有那些等位基因的为进一步包含的所选1015。因此，已知位置处的所鉴别核苷酸(由图12中的变暗方形表示)从DAG 1101内有效地选择某些基因组序列。

图13显示使用核苷酸信息选择的基因组序列。通过比较图13与图11可以看出本发明的方法提供搜索空间的相当大的减小以用于分析序列读数。

值得注意的是等位基因不必预先存在于DAG内。实际上，基因组DAG尤其适用于发现仍新颖的SNP，因为所有周围基因组信息将映射到具有极佳评分的路径且比对算法将展示创建新节点以表示实际上通过进行比对发现的SNP的需要。容纳新发现的SNP为容易地，因为DAG仅接着借助于用于比对而将其包含。也就是说，在一些实施例中，外源性参考基因组数据与受检者基因组序列之间的区别为消失的区别且分析NGS读数以对受检者基因分型的每一实例也为产生参考的实例。

由于通过本发明的方法提供的改进，获得多种益处。

(i)比对将较快。正如同针对短序列比针对较长序列比对快，针对较小DAG比针对较大DAG比对快。

(ii)相比于通常用于鉴于其它变型的存在确定存在哪些变型，描述的方法可表示且容易地检索更相关信息。遵循现有技术范式的方法一般正好使一些变型与其它变型相关。本发明的方法从较丰富信息体得出。

(iii)描述的方法提供序列分析的精确性的改进。改进的精确性通过消除可能性(即通过具有一些已通过SNP芯片数据“填充”的节点)提供，其使得更精确地完成图像，因为避免候选物与类似但不同源区域比对。

在概率情况下，以下算法为可能的。

为了确定节点N实现的概率：

(a)搜索关于N(和N的替代方案)与其它节点之间的相关性的补充文件。(如果文件呈一些格式，如上文的加权DAG下方所列，那么发现第2列或第3列中的项为N的行。应注意，此类搜索操作可通过许多方法极快速地进行，例如由关系数据库采用的那些方法。)

(b)过滤那些行以仅包括我们具有足够使用所列概率的信息的那些行(也就是说，我们已知第1列中的节点的似然性的那些行)。

(c)聚集一组如下节点：(1)我们不具有关于鉴于那些节点的N和N的替代方案的相对概率的特殊信息，和(2)我们鉴于SNP芯片的结果或通过一些其它方法已知关于那些节点的概率的一些情况。聚集此组节点的自然方式为寻找充分接近N和N的替代方案的节点，接着根据以上标准(1)滤出所有节点。

假设大部分变换概率大致独立，鉴于那些节点中的每一个估计N和N的替代方案的概率。

(d)通过添加所讨论的节点(其中的一个将来自(c)中描述的组且其中的另一个将为N或N的替代方案)之间的所有路径的概率估计N和N的替代方案的概率。那些路径的概率中的每一个通过乘以包含于路径中的所有边缘的权重估计。

(e)通过根据这些概率中的每一个更新且正规化来更新N和N的替代方案的概率。使用本发明的方法和系统，可鉴于关于其它变型的一些信息(例如条件或概率信息)精确地确定一些变型。因此，当SNP芯片或类似“直接”分析给出一些核苷酸的标识时，LD研究或类似研究给出基因组中的某些位置处的其它核苷酸的概率。

本文所述的方法可使用包括硬件以及软件和任选地固件的系统进行。

图14说明适用于进行本文所述的方法的系统1401。在计算机处接收来自芯片1405的关于所鉴别核苷酸的信息。从测序仪1455接收序列读数，从该仪器直接接收或经由用于初步收集和序列读数的任何处理的计算机1451。网络1415在不同计算机间中继数据和信息。本文所述的方法的步骤可通过服务器计算机1409或通过个人计算装置1433(例如膝上型计算机、桌面计算机、平板电脑等)进行。计算装置1433可用于与服务器1409交互以起始方法步骤或获得结果。总体上，计算机包括耦接到存储器的处理器和至少一个输入/输出装置。

处理器可以是任何合适的处理器，如由英特尔(加利福尼亚州圣克拉拉(SantaClara,CA))以商标XEON E7出售的微处理器，或由AMD(加利福尼亚州桑尼维尔(Sunnyvale,CA))以商标OPTERON 6200出售的微处理器。

存储器一般包括有形、非瞬时性计算机可读存储装置且可包括任何机器可读媒体或介质，在其上或其中存储有指令(一种或多种软件应用)、数据或这两者。指令当经执行时可实施本文所述的功能性中的任一者或全部。术语“计算机可读存储装置”应理解为包括(但不限于)一种或多种磁盘驱动器、磁带机、闪存盘、固态驱动器(SSD)、存储器装置(如RAM、ROM、EPROM等)、光学存储装置和/或任何其它非瞬时性和有形存储媒体或介质。

根据本发明的输入/输出装置可以包括视频显示单元(例如，液晶显示器(LCD)或阴极射线管(CRT)监视器)、字母数字输入装置(例如，键盘)、光标控制装置(例如，鼠标或触控板)、磁盘驱动器单元、信号生成装置(例如，扬声器)、触摸屏、加速计、麦克风、蜂窝无线电频率天线、以及网络接口装置，网络接口装置可以是例如网络接口卡(NIC)、Wi-Fi卡或蜂窝调制解调器。

以引用的方式并入

贯穿本发明已经参考并且引用了其它文献，例如专利、专利申请、专利公开、期刊、书籍、论文、网络内容。所有此类文档在此以全文引用的方式并入本文中用于所有目的。

等效物

除本文展示且描述的之外，所属领域的技术人员将从本文献的完整内容对本发明的各种修改及许多其它实施例显而易见，包含对在本文中引用的科学和专利文献的参考。本文中的标的物含有重要信息、范例和指南，其可适于本发明在其各种实施例及其等效内容中的实践。

Claims

1.一种用于测定基因组序列的系统，所述系统包含：

计算机系统，其包含耦接到存储器的处理器且可经操作以：

接收受检者的基因组上的已知位置处的多个核苷酸的标识，其中所述多个核苷酸的标识包含所述受检者的基因组中的多个SNP；

从存储在所述计算机系统中的多个基因组序列选择一个或多个基因组序列为基因组标度有向非循环图DAG，所述有向非循环图包含表示核苷酸序列的多个节点和连接节点对的边缘，其中所述有向非循环图表示多个位置处的每个位置的至少两个替代序列以及所述有向非循环图经注释以列举非可共存节点对，其中所选序列包括所述已知位置处的核苷酸，所述所选基因组序列中的每一个界定穿过所述有向非循环图的所选路径以及选择一个或多个基因组序列包括鉴别包括所述多个SNP的穿过所述有向非循环图的候选路径，从所述多个SNP中的一个鉴别非可共存节点对的列表中的节点，以过滤穿过与所述多个SNP中的一个不一致的基因组DAG的路径，来识别穿过基因组DAG的多个候选路径，其中所述过滤包括：

通过使用所述一个或多个SNP确定所述基因组DAG中的哪些节点被遍历，其中所述确定包括将所述一个或多个SNP映射至所述基因组DAG中的节点内的相应核苷酸序列，和

对于每个遍历节点，在给定非可共存节点对的列表的情况下，鉴别与所述非可共存节点对的列表中的所鉴别节点配对的第二节点；和排除含有所述第二节点的路径；

从来自所述受检者的样品接收序列读数；以及

将所述序列读数映射到所述一个或多个所选基因组序列，进而鉴别所述基因组的至少一部分的序列。

2.根据权利要求1所述的系统，其中所述节点和边缘界定所述有向非循环图。

3.根据权利要求1所述的系统，其中映射所述序列读数包含找出每一序列读数与每一所选路径之间的最优比对。

4.根据权利要求2所述的系统，其中找出最优比对包含找出贯穿多维矩阵的最高评分迹线。

5.根据权利要求3所述的系统，其另外可经操作以：

基于所述已知位置处的所述多个核苷酸的标识获得关于额外核苷酸的标识的概率；和将获得的概率用于找出所述最优比对。

6.根据权利要求5所述的系统，其中所述概率获自所述额外核苷酸中的一个与所述已知位置处的所述多个核苷酸中的一个之间的连锁不平衡的测量值。

7.根据权利要求3所述的系统，其中所述节点和边缘被存储为多个节点和边缘对象，所述多个节点和边缘对象各自存储一列指针，所述指针指向所述节点和边缘对象的邻接节点和边缘对象在存储器中的位置且其中所述系统可经操作以通过找出所述序列读数与所述所选路径之间的最优比对而映射所述序列读数。

8.根据权利要求7所述的系统，其中找出最优比对包含通过以下步骤找出贯穿所述有向非循环图的最高评分迹线：

计算所述读数与所述有向非循环图中的所述节点和边缘对象中的至少一些之间的匹配评分；

解引用所述指针中的至少一些以从所述有向非循环图中的前趋对象在存储器中的引用位置读取所述前趋对象，其中具有最大匹配评分总和的穿过前趋对象的路径为贯穿所述有向非循环图的最高评分迹线。

9.根据权利要求1所述的系统，其中所述有向非循环图表示在每一等位基因具有单一对象的多个基因组之间同源的至少一个基因座。

10.一种测定基因组序列的方法，所述方法包含：

在计算机系统上接收受检者的基因组上的已知位置处的多个核苷酸的标识，其中所述多个核苷酸的标识包含所述受检者的基因组中的多个SNP；

从存储在所述计算机系统中的多个基因组序列选择一个或多个基因组序列为基因组标度有向非循环图DAG，所述有向非循环图包含表示核苷酸序列的多个节点和连接节点对的边缘，其中所述有向非循环图表示多个位置处的每个位置的至少两个替代序列以及所述有向非循环图经注释以列举非可共存节点对，其中所选序列包括所述已知位置处的所述核苷酸，所述所选基因组序列中的每一个界定穿过所述有向非循环图的所选路径以及选择一个或多个基因组序列包括鉴别包括所述多个SNP的穿过所述有向非循环图的候选路径，从所述多个SNP中的一个鉴别非可共存节点对的列表中的节点，以过滤穿过与所述多个SNP中的一个不一致的基因组DAG的路径，来识别穿过基因组DAG的多个候选路径，其中所述过滤包括：

从来自所述受检者的样品接收序列读数；和

将所述序列读数映射到所述所选基因组序列，进而测定所述基因组的至少一部分的序列。

11.根据权利要求10所述的方法，其中所述节点和边缘被存储为多个节点和边缘对象，所述边缘对象各自存储其邻接对象的列表。

12.根据权利要求10所述的方法，其中映射所述序列读数包含找出所述序列读数与所述所选路径之间的最优比对。

13.根据权利要求11所述的方法，其中每一列表包含指向所述邻接对象在存储器中的位置的指针，且其中找出最优比对包含找出贯穿多维矩阵的最高评分迹线。

14.根据权利要求13所述的方法，其中找出所述最高评分迹线包含使用所述计算机系统计算所述读数与所述有向非循环图中的所述节点和边缘对象中的至少一些之间的匹配评分，且回看所述有向非循环图中的前趋对象以鉴别具有最优评分的回溯（back-trace）。

15.根据权利要求12所述的方法，其进一步包含：

基于所述已知位置处的所述多个核苷酸的标识获得关于额外核苷酸的标识的概率，其中所述概率获自所述额外核苷酸中的一个与所述已知位置处的所述多个核苷酸中的一个之间的连锁不平衡的测量值；和将获得的概率用于找出所述最优比对。

16.根据权利要求11所述的方法，其中至少一个穿过所述有向非循环图的路径给出至少一个人类染色体的大体上整个序列。

17.根据权利要求10所述的方法，其进一步包含组装映射的序列读数。

18.根据权利要求10所述的方法，其中所述已知位置处的所述多个核苷酸的标识作为来自微阵列分析的结果而被接收。