CN105793859B

CN105793859B - 用于检测序列变异体的系统

Info

Publication number: CN105793859B
Application number: CN201480065432.9A
Authority: CN
Inventors: 丹尼斯·库拉尔
Original assignee: Seven Bridges Genomics Inc
Current assignee: Seven Bridges Genomics Inc
Priority date: 2013-09-30
Filing date: 2014-09-30
Publication date: 2020-02-28
Anticipated expiration: 2034-09-30
Also published as: KR102446941B1; HK1226158A1; EP3053073A4; CN105793859A; KR20160062127A; AU2014324438B2; CA2925335A1; CA2925335C; EP3053073B1; AU2020201622B2; KR20220136449A; AU2020201622A1; JP2016540275A; EP3053073A1; AU2014324438A1; WO2015048753A1; SG11201602306SA

Abstract

本发明提供了用于识别接近遗传序列中的结构变异的罕见变异体的方法，举例来说，该遗传序列是在取自受试者的核酸样本中。本发明另外包括用于将读数(例如，核酸读数)与导致该结构变异的参考序列构建体比对的方法，用于构建导致该结构变异或该结构变异和该罕见变异体的参考序列构建体的方法，和使用这些比对方法识别罕见变异体的系统。该方法是可规模化的，并且可以用以将数百万读数与数千碱基长或更长的构建体比对。

Description

用于检测序列变异体的系统

相关申请

本申请要求美国专利申请第61/884,380号和第14/041,850号的优先权，其两者都在2013年9月30日提交并且其两者都以全文引用的方式并入。

技术领域

本发明涉及用于使序列(例如，核酸序列)彼此比对以产生对应于样本(例如，遗传样本)的连续序列读数的方法和系统。本发明另外涉及用于识别样本中的变异体的方法。

背景技术

遗传学已经从分析科学演变为信息科学。然而，科学家此前一直努力研究如何提取和识别核酸，此类技术现在看来并非那么重要。下一代测序(例如，全转录组鸟枪测序、焦磷酸测序、离子半导体测序、合成测序)可以在仅几天内产生覆盖全基因组的数百万读数。为了实现此产出量，NGS测序在较小核酸序列上使用大规模并行化，这些较小核酸序列一起构成大量遗传信息，例如，染色体或基因组。从遗传样本开始，核酸(例如，DNA)分裂、扩增并且以极快速度读取。考虑到这些能力，科学家现在努力研究如何(以低成本)比对读数以识别序列中指示疾病或疾病风险的基因座。

当前技术发展水平的比对方法使用大规模计算能力来将重叠的读数与参考比对以产生可以探测用于重要遗传或结构信息(例如，用于疾病的生物标记)的序列。最终，序列比对的目标是组合由测序仪产生的核酸读数集合以实现较长读数(即，重叠群)或甚至基于来自受试者的遗传样本的该受试者的全基因组。因为来自下一代测序仪的序列数据通常包含一起呈现目标序列的总数的数百万较短序列，所以比对读数是复杂并且计算上昂贵的。另外，为了使由随机测序误差(即，不正确的测序机输出)引起的序列失真减到最少，对探测的序列的每个部分进行多次(例如，2次到100次或更多次)测序，以使任何随机测序误差对所产生的最终比对和输出序列的影响减到最小。最后，一旦收集了对应于所有核酸读数的所有数据，针对单个参考序列(例如，GRCh37)比对这些读数，以便确定所有(或一部分)受试者的序列。在许多情况下，实际上不显示个别读数，而是将所比对的序列组装为一个序列，并且该序列被提供为数据文件。

典型地，通过聚集两串线性序列信息之间的成对的比对来构筑序列比对。作为比对的一个实例，可以将两个字符串S1(SEQ ID NO.12：AGCTACGTACACTACC)和S2(SEQ IDNO.13：AGCTATCGTACTAGC)针对彼此进行比对。S1典型地对应于读数，并且S2对应于参考序列的一部分。S1和S2可以相对于彼此由取代、缺失和插入组成。典型地，关于将字符串S1转化为字符串S2来定义这些术语：当S2中的字母或序列通过S1中相同长度的不同字母或序列置换时发生取代，当S2中的字母或序列在S1的相应区段中“跳过”时发生缺失，并且当在S1中字母或序列在S2中相邻的两个位置之间出现时发生插入。举例来说，两个序列S1和S2可以进行如下比对。以下比对呈现出十三处匹配，一处缺失长度一，一处插入长度二，以及一处取代：

(S1)AGCTA-CGTACACTACC(SEQ ID NO.12)

(S2)AGCTATCGTAC--TAGC(SEQ ID NO.13)

所属领域的技术人员将了解，存在序列比对的精确算法和近似算法。精确算法将寻找最高评分的比对，但是在计算上会昂贵。两种最熟知的精确算法是尼德曼-翁施算法(Needleman-Wunsch)(分子生物学杂志(J Mol Biol),48(3):443-453,1970)和史密斯-沃特曼算法(Smith-Waterman)(分子生物学杂志,147(1):195-197,1981；数学进展(Adv.inMath.)20(3),367-387,1976)。后藤(Gotoh)(分子生物学杂志,162(3),705-708,1982)对史密斯-沃特曼算法的进一步改进将计算时间从O(m²n)减少到O(mn)，其中m和n是被比较的序列大小，该改进更能改善并行处理。在生物信息学领域，正是后藤的改良算法通常被称为史密斯-沃特曼算法。史密斯-沃特曼方法被用来针对较大参考序列比对较大序列集，因为可更普遍并且更便宜地获得并行计算资源。参看例如，在http://aws.amazon.com可获得的Amazon.com的云计算资源。所有以上期刊论文都以全文引用的方式并入本文中。

史密斯-沃特曼(SW)算法通过奖励序列中的碱基之间的重叠并且处罚序列之间的空隙来比对线性序列。史密斯-沃特曼算法还与尼德曼-翁施算法不同，不同之处在于SW不要求较短序列跨越描述较长序列的字母字符串。也就是说，SW不假定一个序列是另一个序列的全部内容的读数。此外，因为SW并不一定寻找横跨字符串的全长的比对，所以局部比对可以在两个序列内的任何地方开始和结束。

根据以下方程式(1)，对于呈现长度n和m的两个字符串的n×m矩阵H，易于表示SW算法：

H_k0＝H_0l＝0(对于0≤k≤n和0≤l≤m) (1)

H_ij＝max{H_i-1,j-1+s(a_i,b_j)H_i-1,j-W_in,H_i,j-1-W_del,0}

(对于1≤i≤n和1≤j≤m)

在以上方程式中，s(a_i,b_j)呈现匹配奖分(当a_i＝b_j时)或错配罚分(当a_i≠b_j时)，并且对插入和缺失分别给出罚分W_in和W_del。在大多数情况下，所得矩阵具有为零的许多元素。这种呈现使得在矩阵中从高到低、从右到左回溯更容易，因此识别比对。

一旦用分数完全填充了矩阵，SW算法执行回溯以确定比对。开始于矩阵中的最大值，算法将基于三个值中的哪个(H_i-1,j-1、H_i-1,j或H_i,j-1)曾用以计算每个单元格的最终最大值来进行回溯。当达到零时回溯停止。参看例如图3B，其并非呈现现有技术，而是说明了回溯的概念，和当读取回溯时的相应局部比对。因此，如通过算法确定的“最佳比对”可以含有超过最小可能数目的插入和缺失，但将含有远少于最大可能数目的取代。

当以SW或SW-Gotoh应用时，这些技术使用动态规划算法(programmingalgorithm)来执行分别具有大小m和n的两个字符串S和A的局部序列比对。此动态规划技术采用表或矩阵来保存匹配分数并且避免对连续单元格的重新计算。可以关于序列的字母索引字符串的每个元素，也就是说，如果S是字符串ATCGAA，那么S[1]＝A，S[4]＝G等。不是将最优比对呈现为Hi,j(如上)，而是可以将最优比对在以下方程式(2)中呈现为B[j,k]：

B[j,k]＝max(p[j,k],i[j,k],d[j,k],0)(对于0<j≤m，0<k≤n) (2)

在以下方程式(3)-(5)中概述最大值函数B[j,k]的自变数，其中MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、DELETION_PENALTY和OPENING_PENALTY都是常数，并且除MATCH_BONUS以外都是负数。通过以下方程式(3)给出匹配自变数p[j,k]：

p[j,k]＝max(p[j-1,k-1],i[j-1,k-1],d[j-1,k-1])+MISMATCH_PENALTY，如果S[j]≠A[k] (3)

＝max(p[j-1,k-1],i[j-1,k-1],d[j-1,k-1])+MATCH_BONUS，如果S[j]＝A[k]

通过以下方程式(4)给出插入自变数i[j,k]：

i[j,k]＝max(p[j-1,k]+OPENING_PENALTY,i[j-1,k],d[j-1,k]+ (4)

OPENING_PENALTY)+INSERTION_PENALTY

并且通过以下方程式(5)给出缺失自变数d[j,k]：

d[j,k]＝max(p[j,k-1]+OPENING_PENALTY,i[j,k-1]+ (5)

OPENING_PENALTY,d[j,k-1])+DELETION_PENALTY

对于所有三个自变数，将[0,0]元素设置为零以确保回溯完成，即，p[0,0]＝i[0,0]＝d[0,0]＝0。

评分参数在某种程度上是任意的，并且可以经调整以实现计算的特性。关于DNA的评分参数设置的一个实例(黄(Huang),第3章：生物序列比较和比对(Bio-SequenceComparison and Alignment),当前顶端比较分子生物学丛书(ser.Curr Top Comp MolBiol.),马萨诸塞州剑桥市(Cambridge,Mass.)：麻省理工学院出版社(The MIT Press),2002)将是：

MATCH_BONUS：10

MISMATCH_PENALTY：-20

INSERTION_PENALTY：-40

OPENING_PENALTY：-10

DELETION_PENALTY：-5

以上空隙罚分(INSERTION_PENALTY、OPENING_PENALTY)之间的关系有助于限制空隙缺口的数目，即，通过设置高于空隙缺口成本的空隙插入罚分来支持将空隙集合在一起。当然，MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、OPENING_PENALTY和DELETION_PENALTY之间可能存在替代关系。

一旦完成比对，就可以组装比对的序列以产生可以与参考(即，遗传标准)相比以识别变异体的序列。变异体可以提供关于疾病、疾病阶段、复发等的洞察。在氨基酸比对的情况下，可以将组装的氨基酸序列与标准比较以确定关于蛋白质的进化信息或关于蛋白质的功能信息。

当前技术发展水平的比对方法(例如，史密斯-沃特曼方法)的局限性在于，比对算法难以比对例如在大于读数或与读数具有类似大小的结构变异存在下在20与1000个碱基对(bp)之间的较小读数。结构变异典型地是大序列偏差，例如100bp或更大，例如典型地长度在1千碱基与3兆碱基之间。结构变异体可以包括复制、倒置、易位或基因组不平衡(插入和缺失)，并且明显地其跨越超过若干碱基对。通常已知的结构变异包括拷贝数变异体，由此特定基因组区域的异常拷贝数在染色体的区域中复制。此类变异与癌症以及自体免疫和神经病症有关。

当使用当前技术发展水平的技术将呈现含有结构变异的序列的一部分的较短读数与参考序列比对时，读数通常因错误而被舍弃，这是因为读数针对参考的比对分数低于有意义的读数的阈值，因为结构变异不存在于参考中。在其它情况下，读数比对，但读数的特定序列减少，这是因为比对分数足够低(并且比对序列因此假定为“噪声”足够大的)，使得不清楚序列中的特定碱基是结构变异中的突变的结果还是仅是“正常”结构变异的错读。

当突变或变异体(例如，小插入缺失或多态性)定位于读数中非常接近结构变异时，另一个问题呈现出来。比对结构变异的困难性可能会导致含有突变和结构变异两者的读数因“不可比对”而被舍弃。越多此类读数被舍弃，越有可能使得突变完全丢失。因此，接近结构变异的有意义的罕见变异体或突变(此处可互换使用)可能由于与结构变异相关的低比对分数而被拒绝。这些被忽略的变异体可以在调控疾病中具有(未发现的)作用。

因为无法检测接近结构变异的罕见变异体而显著限制了遗传分析的品质，所以需要可以说明结构变异，从而产生更好的罕见突变或变异体的比对的序列比对技术。

发明内容

本发明大体上提供了算法和用于其实施方案的方法，该方法将线性的局部序列比对方法(例如，史密斯-沃特曼-后藤方法)转化成多维比对算法，这些算法和方法增加并行化、提高速度、提高准确度并且能够通过全基因组比对读数。在某些方面，本发明在可以导致物种、种群内或甚至单一生物体的不同细胞之中遗传序列的变异的组装的参考构建体(reference construct)上实施。本发明的参考构建体和比对算法的特定益处是能够将匹配的序列读数与参考序列的某一位置处的不同序列比对。也就是说，参考构建体使得序列读数可针对某一位置处的至少两个不同序列路径中的一个进行比对—例如，遵循与参考序列共同的序列的路径或遵循与该参考序列不共同的序列(例如突变、多态性、结构变异体)的另一路径。

本发明的算法提供了序列信息的“回顾”型分析(如在史密斯-沃特曼算法中)，然而，与已知线性方法相对比，本发明的回顾是通过包括多个路径和多个节点的多维空间而进行，以便提供对复杂和冗长序列读数的更准确比对，同时实现更低的总错配率、缺失率和插入率。

在实践中，本发明通过将序列读数与跨越分歧点的一系列定向的、非循环的序列比对来实施，这些定向的、非循环的序列导致比对中的所有或几乎所有可能的序列变异，包括插入、缺失和取代。通常呈现为定向非循环图(DAG)的此类构建体可以易于从可用的序列数据库来组装，可用的序列数据库包括“接受”参考序列和变异识别格式(variant callformat,VCF)条目。当与DAG或考虑已知变异的其它构建体组合时，所公开的算法因此提供了多维序列比对方法，其极大地提高比对准确度并且允许进行在常规算法下不可能的序列分辨。这些技术可以与任何序列信息一起使用，然而实际上，如本文中所论述，其最适用于比对核酸序列和氨基酸序列。

本发明另外提供了使用参考序列构建体(例如，呈现处于基因组的每个基因座的已知变异体的DAG)在特定基因座处进行特定碱基调用(base calls)的方法。因为在比对期间将序列读数与DAG进行比对，所以可以省略将关于参考基因组的突变与已知突变的表进行比较的后续步骤。使用所公开的方法，需要做的仅仅是将核酸读数识别为定位于DAG上呈现的已知突变处并且调用该突变。或者，当突变不已知(即，不呈现于参考序列构建体中)时，比对将被发现并且变异体被识别为新突变。该方法还使得有可能将例如特定疾病风险或疾病进展的另外的信息与并入到参考序列构建体中的已知突变相关联。此外，除了可能在比对期间找到所有遗传相关结果之外，所公开的方法还减少进行比对所需的计算资源，同时允许与多个参考序列的同时比较。

本发明另外包括用于构筑呈现生物体序列内的位置处的已知变异体的定向非循环图数据结构(DAG)的方法。DAG可以在数千个位置处包括多个序列，并且可以在每个位置处包括多个变异体，包括缺失、插入、转译、倒置和单核苷酸多态性(SNP)。还可能给DAG中的每个变异体标记相关诊断信息，例如“乳癌”，因此减少识别提供样本的患者的风险所需的步骤。在一些实施例中，将对变异体评分、加权或使其与其它变异体相关以反映该变异体作为疾病标志的发生率。

本发明另外包括用于执行本发明的方法的系统。在一个实施例中，系统包含处理器的分布式网络和存储器，其能够将多个序列(即，核酸序列、氨基酸序列)与呈现基因组或基因组的区域中观测到的变异的参考序列构建体(例如，DAG)比较。该系统另外能够使用有效比对算法来比对核酸读数以产生连续序列。因为参考序列构建体压缩大量冗余信息，并且因为比对算法如此有效，所以可以使用市售资源在全基因组上标记和组装这些读数。该系统包含多个处理器，这些处理器同时执行多个读数与参考序列构建体之间的多个比较。可以累计比较数据并且提供给医疗服务人员。因为这些比较是计算上易处理的，所以分析序列读数将不再体现在NGS测序与患者遗传风险的有意义讨论之间的瓶颈。

根据某些方面，本发明提供了用于将核酸序列与说明待比对的序列内的不同结构变异体的参考序列构建体进行比对的方法和系统。在结构变异呈现于参考序列构建体中的情况下，将包括结构变异的一部分的序列读数与参考序列比对，该参考序列的比对分数高于不说明变异的线性参考序列所可能具有的比对分数。因此，参考构建体的不同路径有利地允许含有较大的已知序列变异或其部分的序列读数成功地与构建体比对以用于后续分析。在序列读数的结构变异体恰当地比对的情况下，序列读数的一部分的其它序列数据、尤其是非常接近于结构变异体的那些，同样与参考构建体比对，该参考构建体的比对分数高于线性参考序列所可能具有的比对分数。

对含有结构变异体的读数的一致、可靠的比对允许序列数据的捕获，不然该序列数据可能作为未比对序列而被舍弃。因为这一点，本发明的算法和参考构建体用以捕获接近结构变异定位的罕见变异体。罕见变异体是以小于约5％并且优选小于约1％的频率存在于样本或种群中的变异体。出于本发明的目的，罕见变异体还可以包括“未呈现的”变异体，即，不反映于所使用的参考中的变异体，无论是线性参考序列(在预先存在的方法中)或是本发明的参考构建体。举例来说，接近结构变异体(使得序列读数包括结构变异体和罕见变异体的至少部分)的罕见变异体将与本发明的参考构建体以及结构变异体比对。作为结构变异体比对的直接结果，接近结构变异体的罕见变异体将存在于大量的以其它方式良好比对并且可靠的读数中，这是由于序列读数中的结构变异体与参考构建体的恰当比对。罕见变异体的一致存在导致其被识别为合理遗传变异体而非测序误差。如本文所述的多路径比对方法的使用允许分辨使用线性参考比对方法将有可能丢失的罕见序列变异。

附图说明

图1A和图1B描绘了呈现参考序列中的遗传变异的定向非循环图(DAG)的构筑。图1A展示了起始参考序列和缺失的添加。图1B展示了插入和SNP的添加，因此达成用于比对的最终DAG；

图2描绘了呈现为定向非循环图的三个变异识别格式(VCF)条目；

图3A展示了将核酸序列读数针对说明插入事件的构建体以及参考序列进行比对的图形呈现；

图3B展示了用以识别核酸序列读数“ATCGAA”的恰当位置的矩阵和回溯；

图4描绘了用于并行处理的关联计算模型；

图5描绘了用于并行计算的体系结构；

图6A展示了三个核酸序列，其说明了在结构变异存在下的罕见变异体，以及与具有结构变异和罕见变异体两者的序列(S**)重叠的读数；

图6B说明了与具有结构变异和罕见变异体两者的序列(S**)重叠的读数与“接受”参考序列(S)之间的重叠的缺乏；

图6C说明了并有图6A的三个序列中的两个的DAG；

图6D说明了读数与并有图6A的三个序列中的两个的DAG的比对；

图6E说明了并有图6A的全部三个序列的DAG；

图6F说明了读数与并有图6A的全部三个序列的DAG的比对。

具体实施方式

本发明提供了用于识别接近遗传序列中的结构变异的罕见变异体的方法，该遗传序列例如在取自受试者的核酸样本中。本发明另外包括用于将读数(例如，核酸读数)与导致该结构变异的参考序列构建体比对的方法，用于构建导致该结构变异或该结构变异和该罕见变异体的参考序列构建体的方法，和使用这些比对方法识别罕见变异体的系统。该方法是可规模化的，并且可以用以将数百万读数与数千碱基长或更长的构建体比对。

本发明还包括用于将序列(例如，核酸序列、氨基酸序列)与参考序列构建体比对的方法，用于构建该参考序列构建体的方法，和使用这些比对方法和构建体产生比对和组装的系统。参考序列构建体可以是如下文所述的定向非循环图(DAG)，然而，如果构建体被格式化用于比对，参考序列才可以是反映物种内的不同生物体的序列中的遗传变异性的任何呈现。遗传变异性也可以是在生物体内的不同组织或细胞之间。一般来说，参考序列构建体将包含取样序列之间相同的部分和不同的部分。因此，构建体可以被认为具有包含相同序列的位置(即，根据一些规范排序)和包含替代序列的一些位置，从而反映遗传变异性。本申请另外公开了用于基于核酸读数与构建体中的位置的比对来识别疾病或基因型的方法。这些方法广泛适用于遗传测序和突变筛查领域。

参考序列构建体

与使用用以比对的单个参考序列和基因型核酸读数的现有技术序列比对方法不同，本发明使用可以导致物种、种群内或甚至单一生物体的不同细胞之中遗传序列的变异的构建体。遗传变异的呈现可以呈示为定向非循环图(DAG)(上文所论述)、行列比对矩阵或deBruijn图，并且如果比对算法的参数设置适当(下文所论述)，这些构建体才可以用于本发明的比对方法。

在本发明的优选实施例中，构建体是定向非循环图(DAG)，即，具有一定方向并且不具有循环路径。(也就是说，序列路径无法通过参考构建体上的位置超过一次。)在DAG中，序列的遗传变异呈现为替代节点。这些节点可以是保守序列的一部分或基因或简单地是核酸。通过构建体的不同可能路径呈现已知的遗传变异。DAG可以经构筑用于生物体的全基因组，或DAG可以经构筑仅用于基因组的一部分，例如，染色体或较小遗传信息片段。在一些实施例中，DAG呈现多于1000个核酸，例如，多于10,000个核酸，例如，多于100,000个核酸，例如，多于1,000,000个核酸。DAG可以呈现物种(例如，智人(homo sapiens))或所选择的种群(例如，患有乳癌的女性)，或甚至较小亚群，例如在同一个体的不同肿瘤细胞之中的遗传变异。

DAG构筑的简单实例展示于图1中。如图1A中所示，DAG开始于参考序列，该参考序列在图1A中展示为SEQ ID NO.1：CATAGTACCTAGGTCTTGGAGCTAGTC。在实践中，参考序列通常长得多，并且可以是全基因组。序列典型地存储为FASTA或FASTQ文件。(FASTQ已经成为产生自下一代测序仪的序列数据的默认格式)。在一些实施例中，参考序列可以是标准参考，例如GRCh37。如所属领域的技术人员所认识到，序列中的每个字母(或符号)实际上对应于核苷酸(例如，脱氧核糖核苷酸或核糖核苷酸)或氨基酸(例如，组氨酸、亮氨酸、赖氨酸等)。

在下一步骤，将变异体添加到参考序列，如图1(A)的底部图像中所示。如图1(A)中所示，变异体是在图中的线之间从参考缺失的序列“AG”，即，SEQ ID NO.2。此缺失以图形方式呈现为将参考序列分成在缺失之前和之后的节点，并且在节点之间插入两个字符串。不同路径在参考构建体内创建替代序列。路径之一呈现与参考序列共同的序列，并且路径之一呈现与参考序列不共同的序列。在图1(A)中，节点之间的一个路径呈现与参考序列共同的序列，而另一路径呈现与参考序列不共同的缺失。在实践中，通过应用例如可以在1000Genomes Project的网站找到的变异识别格式(VCF)文件中的条目将变异体呼叫(call)到DAG。因为每个VCF文件键连到特定的参考基因组，所以不难识别字符串应位于何处。事实上，VCF文件中的每个条目可以被视为与参考组合以创建单独的图，如图2中所显示。应注意，图2中的VCF条目并不对应于图1的VCF条目。

如图1B，添加对应于特定位置处的插入“GG”的第二VCF条目以产生扩展的DAG，即，包括SEQ ID NO.3和SEQ ID NO.4。接着，可以添加第三VCF条目以扩展DAG以在参考序列中较早地说明SNP，即，包括SEQ ID NO.5-8。因此，在三个步骤中，已经创建DAG，可以针对该DAG比对核酸读数(如下文所论述)。

在DAG参考构建体中，序列路径(与参考共同和不共同的序列)都被视为参考构建体内的变异体，因为其呈现可以包含于受试者的序列中的替代序列。

在实践中，DAG在计算机存储器(硬盘、闪存、云存储器等)中呈现为节点集S，其中每个节点由字符串、父节点集和位置界定。字符串是节点的“内容”，即，序列；父节点界定节点相对于图中的其它节点的位置；并且节点的位置与系统中的某种规范排序有关，例如，参考基因组。虽然并非绝对必需相对于参考序列界定该图，但其确实使输出数据的操作更为简单。当然，对S的进一步约束是其不能包括环路。

将此DAG方法外推到较大结构，有可能构筑并入了数千VCF条目的DAG，该VCF条目呈现参考的既定区的遗传序列的已知变异。然而，由于DAG变得更庞大，计算确实花费更长时间，并且对于许多应用，使用仅可以呈现序列的一部分(例如，染色体)的较小DAG。在其它实施例中，可以通过减小由DAG覆盖的种群的大小将DAG制作为更小，例如，从呈现乳癌的变异的DAG变为呈现三阴性乳癌的变异的DAG。或者，可以使用基于易于识别的遗传标记而自定义的更长DAG，易于识别的遗传标记将典型地导致DAG的大部分在样本之间保持一致。举例来说，相比于导致同一序列上已知的人类的所有变异的DAG，针对以来自非洲血统女性的VCF条目创建的DAG，比对来自非洲血统女性的核酸读数集将更快速。还应认识到，本发明的DAG是动态构建体，这是因为其可以随时间推移而改变以并入最新识别的突变。另外，其中将比对结果以递归方式添加到DAG的算法也是可能的。

在字符串与DAG比对的情况下，可以调整空隙罚分以使空隙插入甚至更昂贵，因此更倾向于对序列的比对而不是在总体序列中打开新的空隙。当然，通过DAG的改进(上文所论述)，因为在DAG中考虑了突变，所以应更进一步减少空隙的发生。

比对算法

在一个实施例中，使用算法来针对定向非循环图(DAG)比对序列读数。与背景技术中描述的算法相比，该比对算法通过确定关于在DAG(例如，参考序列构建体)上的位置处含有的关于每个序列的最大分数来确定C_i,j的最大值。事实上，通过在先前位置处“向后”看，有可能跨多个可能的路径确定最优比对。

对读数(也称为“字符串”)和定向非循环图(DAG)进行本发明的算法，如上文中论述。出于定义该算法的目的，假设S是被比对的字符串，并且假设D是将针对S比对的定向非循环图。把字符串S的元素用括号括起且使用从1开始的索引。因此，如果S是字符串ATCGAA，那么S[1]＝A，S[4]＝G等。

对于该DAG，节点的序列的每个字母将呈现为单独的元素d。d的前驱(predecessor)定义为：

(i)如果d不是其节点的序列的首字母，那么其节点中在d之前的字母是其(唯一)前驱；

(ii)如果d是其节点的序列的首字母，那么作为d的节点的父节点的任何节点的序列的最后一个字母是d的前驱。

所有前驱集继而呈现为P[d]。

为了寻找“最佳”比对，算法寻求M[j,d]的值，即S的前j个元素与在d之前(并且包括d)的DAG的部分的最优比对的分数。此步骤类似于在背景技术章节的方程式1中寻找H_i,j。具体来说，确定M[j,d]包括找到a、i、e和0的最大值，如下文所定义：

M[j,d]＝max{a,i,e,0} (6)

其中

e＝max{M[j,p*]+DELETE_PENALTY}对于P[d]中的p*

i＝M[j-1,d]+INSERT_PENALTY

a＝max{M[j-1,p*]+MATCH_SCORE}对于P[d]中的p*，如果S[j]＝d；

max{M[j-1,p*]+MISMATCH_PENALTY}对于P[d]中的p*，如果S[j]≠d

如上文所描述，e是S的前j个字符与DAG的直到但不包括d的部分的比对的最高值加上额外的DELETE_PENALTY。因此，如果d不是节点的序列的首字母，那么仅存在一个前驱p，并且S的前j个字符与DAG(直到并且包括p)的比对分数等效于M[j,p]+DELETE_PENALTY。在d是其节点的序列的首字母的情况下，可以存在多个可能的前驱，并且因为DELETE_PENALTY是恒定的，所以求[M[j,p*]+DELETE_PENALTY]的最大值与选择与S的前j个字符具有最高比对分数的前驱相同。

在方程式(6)中，i是字符串S的前j-1个字符与DAG的直到并且包括d的部分的比对加上INSERT_PENALTY，其类似于SW中的插入自变数的定义(参看方程式1)。

另外，a是S的前j个字符与DAG的直到但不包括d的部分的比对的最高值，加上MATCH_SCORE(如果S的第j个字符与字符d相同)或MISMATCH_PENALTY(如果S的第j个字符与字符d不同)。如同e一样，这意味着如果d不是其节点的序列的首字母，那么仅存在一个前驱，即，p。这意味着a是S的前j-1个字符与DAG(直到并且包括p)的比对分数，即，M[j-1,p]，再加上MISMATCH_PENALTY或MATCH_SCORE(取决于d与S的第j个字符是否匹配)。在d是其节点的序列的首字母的情况下，可以存在多个可能的前驱。在此情况下，求{M[j,p*]+MISMATCH_PENALTY或MATCH_SCORE}的最大值与选择与S的前j-1个字符具有最高比对分数(即，候选M[j-1,p*]自变数的最高值)并且取决于d与S的第j个字符是否匹配而加上MISMATCH_PENALTY或MATCH_SCORE的前驱相同。

此外，如在背景技术中所论述的SW算法中一样，可以调整罚分(例如，DELETE_PENALTY、INSERT_PENALTY、MATCH_SCORE和MISMATCH_PENALTY)以促进与更少空隙等的比对。

如以上方程式中所描述，该算法不仅通过计算该元素的插入、缺失和匹配分数，而且通过向后看(逆着DAG的方向)到DAG上的任何先前节点以找出最大分数，来找出每个读数的最大值。因此，该算法能够遍历(traverse)通过DAG的含有已知突变的不同路径。因为图是定向的，所以逆着图的方向移动的回溯遵循朝向图的起点的优选变异序列，并且最大比对分数识别高度确定性的最可能的比对。虽然以上方程式呈现为“最大”值，但“最大”意指涵盖任何形式的优化，包括例如转换所有方程式上的正负号和求解最小值。

所公开的算法的实施方案例示于图3中，其中针对DAG比对序列“ATCGAA”，该DAG呈现参考序列SEQ ID NO.10：TTGGATATGGG和已知插入事件SEQ ID NO.11：TTGGATCGAATTATGGG，其中插入加下划线。图3A展示了与DAG相比的读数的图形表示，而图3B展示了对应于该比较的实际矩阵。类似于背景技术中所论述的史密斯-沃特曼技术，本发明的算法确定最高分数并且执行回溯以确定读数的适当位置。图3A和图3B还突出了，本发明产生字符串针对构建体的实际匹配，而已知方法(例如，SW)更可能将字符串与参考的错误部分进行比对，或由于未产生包含于比对中的足够高的比对分数而拒绝该字符串。在序列读数包括未包含在DAG中的变异体的情况下，将通过空隙、插入等报告经比对的序列。

参考序列构建体的应用

本发明的参考构建体和比对算法的一个益处是其能够将序列读数与参考序列构建体的某一位置处的第一序列或第二序列比对。也就是说，本发明的参考序列构建体允许序列读数针对某一位置处的至少两个不同序列路径中的一个—例如，遵循等效于参考序列的序列的路径和遵循等效于包括变异体(例如突变、多态性、拷贝数变异)的参考序列的已知序列的另一路径，来进行比对。因此，序列中的已知变异可以使用本发明的技术，通过将含有已知变异的读数与包括该变异的序列路径比对，而被可靠地得以解释和识别。

变异(也称为变异体)可以包括在参考序列构建体中的某一位置处的两个或更多个替代序列(即，当不同序列形成两个或更多个路径时)中的任一个。在另一种意义上，因为参考序列构建体并入与若干参考种群/数据集相关的测序数据，所以DAG构建体内的任何替代序列都视为变异体。构建体的参考序列是用作DAG的基线的任何序列，并且典型地是用于分析的长序列，并且可以是全基因组的部分或全基因组。参考序列可以是与某一物种(例如智人)共同的序列或可以与某些患者种群(例如癌症患者)共同。

在某些实施例中，变异体可以视为与参考序列共同的序列或不共同的序列。如本文中所论述，共同序列变异体是参考构建体中的遵循被选为基线的参考序列的任何序列路径。因此，序列变异与参考序列是“共同”还是“不共同”取决于什么被选择用于基线参考序列。举例来说，某一位置处的参考构建体可以包括与正常健康个体共同的第一序列路径和具有与患有乳癌的个体共同的突变的第二序列路径。如果基线参考是与乳癌患者共同的参考序列，那么针对正常健康个体的第一序列路径是不共同的变异体，并且针对乳癌个体的第二序列路径是共同变异体。如果基线参考被视为与正常健康个体共同的参考序列，那么针对正常健康个体的第一序列路径是共同变异体，并且针对乳癌患者的第二序列路径是不共同的变异体。

参考构建体的不同路径有利地允许具有较大已知序列偏差的序列读数成功地与构建体比对以用于后续分析，而传统一维参考序列因较低比对分数而拒绝此类较大偏差。通常称为结构变异体的较大已知序列变异典型地大小在1Kb到3Mb之间。然而，出于本申请的目的，结构变异体可以包括序列读数内的任何较大序列变异体，该较大序列变异体由于其大小而阻止序列读数与线性参考序列比对或与参考序列极差地比对(例如较低比对分数)。在某些实施例中，结构变异体的序列长度是约100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、1Kb、1.1.Kb、1.2Kb、1.3Kb、1.4Kb、1.5Kb、1.6Kb、1.7Kb、1.8Kb、1.9Kb、2.0Kb...2.0Mb、2.1Mb、2.2Mb、2.3Mb、2.4Mb、2.5Mb、2.6Mb、2.7Mb、2.8Mb、2.9Mb、3.0Mb等。结构变异提供了对受试者的重要深刻理解，因为其促进了遗传多样性和疾病易感性。

不同于本发明，传统比对方法(例如线性参考序列)不大可能识别结构变异，并且甚至不大可能识别接近结构变异定位的罕见变异体。罕见变异体包括既定种群中以低可能性存在的任何突变(例如插入缺失或多态性)。举例来说，罕见变异体可以具有次要等位基因频率，其范围为例如25％或更小；20％或更小；15％或更小；10％或更小；或5％或更小。(次要等位基因频率(MAF)是指最少共同等位基因存在于既定种群中的频率。)在一些情况下，罕见变异体包括尚未被识别的变异体，即，未呈现于与读数进行比对的参考中的变异体。在一些情况下，罕见变异体尚未编录到VCF文件中。从比对机制的角度，此类变异体实际上在以前从未看到过，而不管其在一群样本中的实际频率。接近结构变异体定位的罕见变异体可以与结构变异体间隔大致读数的长度，即，约100bp或更少。然而，本发明不限于此间隔。在一些情况下，接近结构变异体定位的罕见变异体具有在罕见变异体与结构变异体之间的间隔，其可以在约1bp到约1Mbp，例如，约10bp到约10,000bp，例如，约100bp到约1000bp范围内。

传统比对方法由于两种因素的组合而无法识别接近结构变异体的罕见变异体。首先，传统比对方法将受试者的读数与并不考虑结构变异(即使其已知)的单一线性参考序列比对。第二，含有罕见变异体的几乎所有读数还将含有结构变异体。随着罕见变异体与结构变异体之间的碱基间隔减小，更多含有罕见变异体的读数还将含有结构变异体。这两种因素显著增加了含有结构变异体和罕见变异体两者的序列读数将无法比对的机率。因为结构变异体较大并且不反映于参考序列中，所以与其重叠的读数将作为“不可比对”而被比对算法拒绝(即，与参考太不同而无法匹配其任何部分)。在该情况下，结构变异体和罕见变异体两者都被舍弃。具有结构变异体和罕见变异体的读数与线性参考序列上的读数的相应“恰当”基因组位置之间匹配的缺乏可能会导致读数与基因组上的不正确位置比对。即使读数或其部分与正确通用位置比对，匹配算法也有可能放弃罕见突变以试图实现可接受比对。这在变异体不呈现于与读数进行比对的参考中时尤其有可能。设法正确比对并且含有罕见变异体的任何读数将由于不良比对品质和低比对数目而被看作不大可靠，这两种因素都表明比对仅仅是随机误差。虽然因为较大已知结构变异体是已知的，所以尽管读数可靠性不良，仍可以调用较大已知结构变异体，但与已知结构变异体相比，罕见变异体通常被分类为噪声/误差并且被舍弃。

因为罕见变异体被普遍认为会赋予实质性疾病风险，所以使得在序列组装期间检测罕见变异体的能力达到最大是至关重要的。本发明的参考构建体使比对过程期间结构变异体与罕见变异体的不比对减到最小，因为本发明的参考构建体可以说明任何已知结构变异体。通过在参考构建体中的某一位置处包括至少两个结构变异体，本发明允许包括结构变异体中的至少一个的一部分的序列读数与参考构建体比对。也就是说，比对并且说明包括已知结构变异体的一部分的序列读数，而相同的结构变异体在线性参考结构中将无法比对。本发明的结果在于，包括结构变异体的读数能够以高度可靠性和准确度与DAG恰当地比对，因为读数被看作匹配而非错配。

在结构变异体被恰当地比对的情况下，作为具有结构变异体的序列读数的一部分的其它序列数据同样与参考构建体比对。举例来说，接近结构变异体(使得序列读数包括结构变异体和罕见变异体的至少部分)的罕见变异体将与参考构建体以及结构变异体比对。因此，紧挨着结构变异体的罕见变异体将存在于大量以其它方式良好比对并且可靠的读数中，这是由于序列读数中的结构变异体与DAG参考构建体的恰当比对。罕见变异体的一致存在导致其被识别为合理遗传变异体而非测序误差，即使该变异体不呈现于参考构建体中。

图6A-6F例示了本发明的参考构建体以识别接近结构变异体的罕见变异体的用途。图6A概述了三个假想序列，每个序列是50个核苷酸长：参考序列S(SEQ ID NO.14)、具有结构变异的序列S*(SEQ ID NO.15)和具有结构变异和罕见变异体的序列S**(SEQ IDNO.16)。序列S*和序列S**包括针对参考序列S的从第26位跨越到第50位的已知结构变异。在实践中，结构变异典型地是100bp或更大。图6A-6F中所示的结构变异的长度用于说明性目的。如全部图6A-6F所展示，已知结构变异被加粗和突出显示。序列S**还包括针对参考序列S的罕见变异体，其是其中在位置23处T置换G的取代突变。图6A还展示了序列S**的从第20位跨越到第34位的序列读数(称为读数1)。因此，读数1包括结构变异体的一部分(从第26位到第34位)和第23位处的罕见变异体。在实践中，序列读数和结构变异有可能长于图6中所说明的。另外，罕见变异体可以距结构变异更远。

图6B说明了序列S**的读数1与参考序列S的比对。具体来说，图6B说明了不能以传统线性形式将序列S**的读数1与参考序列S比对。当线性比对时，从位置20到位置34，读数1中的大部分核苷酸不同于参考序列。尽管有错配，但读数1将理想地从位置20到位置34与参考序列比对，以便以适当方式显示罕见变异体和结构序列变异体。然而，由于高错配水平，例如史密斯-沃特曼或尼德曼-翁施的算法不大可能将满足比对所需的实践中所用的品质阈值(quality thresholds)的分数指定到读数1。因此，读数1将无法从位置20到位置34与线性参考序列比对，并且来自读数1的数据将被拒绝。另外，如果参考序列跨越基因组(表p示多个高于50个核苷酸的数量级)，那么读数1有可能在参考序列上的另一不正确位置处具有较高匹配分数。

图6C-6D例示了使用本发明的DAG参考构建体对接近已知结构变异体的未知罕见变异体的比对。图6C说明了并入来自参考序列S和序列S*两者的测序数据的DAG。如图6C中所示的DAG参考构建体1包括：遵循与参考序列S共同的序列变异体的参考路径(1)，和遵循存在于序列S*和S**中但与参考序列S不共同的已知结构变异体的参考路径(2)。图6D说明了S**的读数1与DAG参考构建体1的比对。如所展示，读数1几乎完美地与DAG比对，因为读数1遵循具有已知结构变异体的路径。读数1与DAG参考构建体1之间的唯一错配是位置23处的罕见变异体(亦即位置23处的T取代)。由于是较小的错配，比对算法将最可能将读数1与正确位置比对，并且此类比对的评分将高于品质阈值。由于序列分数的高品质，此比对允许可靠地识别序列S**中的罕见变异体。由于是以其它方式良好比对的并且高评分的读数的一部分，所以读数1与DAG参考构建体1的比对允许将位置23处的未知罕见变异体识别为合理突变并且不识别为测序误差。

图6E-6F例示了使用本发明的DAG参考构建体对接近已知结构变异体的已知罕见变异体的比对。如图6E中所示，DAG包括参考路径(1)和参考路径(2)以说明参考构建体中的归因于参考序列的位置23处的G-T取代的变异体，以及包括参考路径(3)和参考路径(4)以说明参考构建体中的归因于从位置26到位置50变动的已知结构变异体的变异体。

并行化的可能性

已经针对大规模并行化调适并且显著地修改了史密斯-沃特曼-后藤算法的序列版本。举例来说，美国专利公布案第2012/0239706号中描述了被称作使用关联的大规模并行的史密斯-沃特曼(Smith-Waterman using Associative Massive Parallelism,SWAMP)的ASC模型，该案以全文引用的方式并入本文中。SWAMP(和其它并行处理系统)的并行化的一部分源于沿任何反对角的值彼此独立的事实。因此，可以并行完成沿指定反对角的所有单元格以分配计算资源。以上递归方程式中所示的数据依赖性限制了可达到的并行化的水平，但使用波前方法(wavefront approach)仍将加速该有用的算法。沃兹尼亚克(Wozniak)(生物科学中的计算应用(Comput Appl in the Biosciences，CABIOS),13(2):145-150,1997)对Sun Ultra SPARC实施的波前方法使用专用SIMD类视频指令。沃兹尼亚克使用了SIMD寄存器来存储与次对角线并行的值，从而报告优于相同机器上的传统实施方案的双倍加速。根据沃兹尼亚克的实例，并行化代码的类似方式是使用单指令多数据流扩展(Streaming SIMD Extension,SSE)集用于x86体系结构。由因特尔(Intel)设计，矢量类操作每次对少量值(通常四个、八个或十六个)完成单一操作/指令。许多AMD和因特尔芯片支持各种版本的SSE，并且因特尔已经继续使用用于其现代芯片组的高级矢量扩展(AVX)来开发此技术。

在其它实施方案中，罗盖(Rognes)和塞贝格(Seeberg)(生物信息学(Bioinformatics)(英格兰牛津(Oxford,England)),16(8):699-706,2000)使用具有SSE的旧版-MMX SIMD指令的因特尔奔腾(Pentium)处理器用于其实施方案。出于罗盖和塞贝格的研究(生物信息学,16(8):699-706,2000)而针对并行比对(ParAlign)开发的方法不使用波前方法(罗盖,核酸研究(Nuc Acids Res)，29(7):1647-52,2001；塞伯(Saebo)等人,核酸研究,33(增刊2):W535-W539,2005)。替代地，他们比对与查询序列并行的SIMD寄存器，使用预先计算出的查询专用分数矩阵一次计算八个值。此方法的额外细节可以在U.S.7,917,302中找到，其以引用的方式并入本文中。罗盖和塞贝格布局SIMD寄存器的方式-北邻域依赖性(north neighbor dependency)能够去除多达三分之一的由SSE并行“矢量”计算获得的潜在加速。为了克服这点，其并入了SWAT类优化。使用大仿射空隙罚分，北邻域大部分时间将为零。如果这是正确的，那么程序可以跳过计算北邻域的值，法勒(Farrar)(生物信息学,23(2):156-161,2007)称其为“惰性F评估”。罗盖和塞贝格能够减少方程式1的计算数目以通过在其低于某一阈值时跳过其来加速其算法。在(罗盖和塞贝格,生物信息学,16(8):699-706,2000)中通过MMX/SSE指令和SWAT类扩展使用8路矢量报告了六倍加速。

在法勒完成的SSE研究(生物信息学,23(2):156-161,2007)中，使用线条访问模式或交叉访问模式以排列与查询寄存器并行的SIMD寄存器。这样做避免了任何重叠依赖性。此外，并入SWAT类优化(法勒,生物信息学23(2):156-161,2007)实现的加速是沃兹尼亚克(CABIOS 13(2):145-150,1997)以及罗盖和塞贝格(生物信息学(英格兰牛津),16(8):699-706,2000)SIMD实施方案的2-8倍。块替代矩阵和高效且有独创性的内循环(具有移到内循环外的北(F)条件性)是重要的优化。用于处理的十六个8位元素的交叉存储器模式存取也改进了存储器存取时间，从而促进总体加速。

法勒(序列分析(Sequence Analysis),2008)扩展了其对索尼(Sony)、东芝(Toshiba)和IBM制造的Cell处理器的研究。这种Cell处理器具有一个主核心和八个小核心。Cell宽带引擎是若干更多史密斯-沃特曼实施方案的开发平台，这些实施方案包括斯卡科夫斯基(Szalkowski)等人的SWPS3(BMC研究笔记(BMC Res Notes)1(107),2008)和韦拉万(Wirawan)等人的CBESW(BMC生物信息学(BMC Bioinformatics)9(377)2008)，都使用法勒的条纹方法。鲁德尼茨基(Rudnicki)等人(信息科学基础(Fund Inform.)96,181-194,2009)使用了PS3以开发对多个数据库序列使用并行化的方法。

罗盖(BMC生物信息学12(221),2011)还开发了并行处理多个数据库序列的被称为SWIPE的多线程方法。焦点是在“普通CPU”上使用SIMD方法。使用粗粒度并行性来分割并行使用多个数据库序列的工作的此调查类似于刘(Liu)等人(BMC研究笔记2(73),2009)以及罗戈夫斯基(Ligowski)和鲁德尼茨基(高性能计算生物学八周年国际研讨会(EightAnnual International Workshop on High Performance Computational Biology),罗马(Rome),2009)在CUDASW中描述的基于图形处理器单元(GPU)的工具。已经存在使用刘等人(BMC研究笔记3(93),2010)和罗戈夫斯基等人(GPU Computing Gems,Emerald版(EmeraldEdition),摩尔根考夫曼出版社(Morgan Kaufmann),155-157,2011)的CUDASW++2.0进行GPU研究的其它实施方案。

在其它变化形式中，可以使用小规模的矢量并行化(8路、16路或32路并行度)以通过并行比对多个序列的GPU实施方案来实现可用计算。计算的理论峰值加速是m的因素，这是最优的。使用96个处理元件的ClearSpeed实施方案的96倍加速证实了该理论加速。

并行计算模型

用以开发和扩展史密斯-沃特曼序列比对的主要并行模型是关联计算(ASsociative Computing,ASC)(波特(Potter)等人,计算机(Computer),27(11):19-25,1994)。本文中描述了史密斯-沃特曼算法的高效并行版本。本节中详细描述了此模型和另一个模型。

这里定义一些相关词汇。来自计算机体系结构的费林分类法(Flynn's Taxonomy)的两个关注的术语是MIMD和SIMD这两种不同的并行计算模型。将分类为多指令多数据(MIMD)模型的计算机集群用作概念证明以克服超大规模比对中的存储器限制。第8节描述了MIMD模型的使用。还描述了被称为ASC的扩展的数据并行的、单指令多数据(SIMD)模型。

多指令多数据(MIMD)

多数据多指令模型或MIMD模型描述了目前可用的大多数并行系统，并且包括目前流行的计算机集群。MIMD处理器具有完备的中央处理单元(CPU)，每个CPU具有其自身的本地存储器(奎因(Quinn),并行计算：理论与实践(Parallel Computing:Theory andPractice),第2版,纽约：麦格劳-希尔出版社(McGraw-Hill),1994)。与SIMD模型对比，每一个MIMD处理器存储并且异步地执行其自身的程序。MIMD处理器通过允许其通信的网络而连接，但所使用的网络可大不相同，范围为以太网、Myrinet和机器(集群节点)之间的InfiniBand连接。通信往往采用比SIMD宽松得多的通信结构，超出单个单元。沿着该网络通过个别处理器在其所执行的其个别程序的控制下异步地移动数据。典型地，由支持消息传递的若干不同的并行语言之一来处理通信。用于此的非常普遍的库被称为消息传递接口(MPI)。“SIMD类”方式的通信是可能的，但数据的移动将是异步的。通过MIMD的并行计算通常需要大量的通信和频繁的同步，除非由处理器执行的各种任务是高度独立的(即，所谓的“易并行(embarrassingly parallel)”或“乐于并行(pleasingly parallel)”的问题)。第8节中呈现的研究使用通过InfiniBand连接的AMD Opteron集群。

不同于SIMD，消息传递所需的最坏情况下的时间难以预测或不可能预测。典型地，使用通常由试验确定的平均情况下的估计来确定MIMD软件的消息传递执行时间，而不是通过对于SIMD来说典型的最坏情况下的理论评估来确定。因为对于MIMD软件最坏的情况通常是非常糟糕的并且很少发生，因此平均情况下的估计要有用得多。因此，MIMD在特定问题上所需的通信时间会比SIMD更多且通常比SIMD明显更多。这使得MIMD编程(尤其是在使用了消息传递时)的重要目标是使所需的处理器间通信的数目减到最少并且使处理器通信之间的时间量增到最大。即使在单卡加速水平下(例如使用图形处理器或GPU)也是如此。

数据并行编程也是MIMD编程的重要技术，但在这里，所有任务对不同的数据执行相同的操作，并且仅在各个关键点同步。MIMD系统的大部分算法以单程序多数据(SPMD)编程范例编写。每个处理器有其自身的相同程序的拷贝，执行特定于该处理器或其本地数据上的核心的代码部分。SPMD范例的普及源于这一事实：写入大量将同时跨不同处理器执行但仍然能够协作解决单个问题的不同程序是相当困难的。针对存储器密集型而不是计算密集型的问题所使用的另一种方法是使用在第8节中提出的研究，创建如使用JumboMem完成的虚拟存储器服务器。这将在其底层实现中使用MPI。

单指令多数据(SIMD)

SIMD模型由被称作PE的多个简单的算术处理元件构成。每个PE具有其自身的本地存储器，PE可以从该本地存储器获取和存储，但PE并没有编译或执行程序的能力。如本文所用，术语“并行存储器”是指在计算系统中统称的本地存储器。举例来说，并行存储器可以是SIMD计算机系统的本地存储器(例如，PE的本地存储器)的集合、MIMD计算机系统中的处理器的本地存储器(例如，中央处理单元的本地存储器)的集合等。通过被称作控制单元(或前端)的处理器处理程序的编译和执行(奎因,并行计算：理论与实践,第2版,纽约：麦格劳-希尔出版社,1994)。控制单元通常通过总线连接到所有PE。

所有有效PE步调一致地同步执行从控制单元接收到的程序指令。在第79页，“在任何时间单元中，单一操作与各自操作不同数据的多个处理单元上的执行状态相同”(奎因,并行计算：理论与实践,第2版，纽约：麦格劳-希尔出版社,1994)。虽然通过所有有效PE并行地同时执行相同指令，但可允许一些PE跳过任何特定指令(贝克(Baker),SIMD和MASC：CS6/73301课程笔记：并行和分布式计算—幻灯片,(2004)2004)。这通常使用“如果-否则”分支结构来实现，其中一些PE执行如果指令，而其余的PE执行否则部分。这种模型对于具有可同时出现的最多少量的如果-否则分支结构的本质上“数据并行的”问题是理想的，例如图像处理和矩阵运算。

数据可以通过控制单元广播到所有有效PE，并且控制单元还可以从使用控制单元与PE之间的连接(通常是总线)的特定PE获取数据值。另外，该组PE通过例如线性阵列、2D网格或超立方体的互连网络连接，互连网络提供PE之间的并行数据移动。通过PE以同步并行方式通过此网络移动数据，这些PE步调一致地执行包括数据移动的指令。正是控制单元将指令广播到PE。具体来说，如今SIMD网络不使用由多数并行计算机所使用的消息传递范例。如此的一个重要优点是，SIMD网络通信极其高效，并且可以通过算法的最坏情况下的时间来确定通信所需的最大时间，该算法控制该特定通信。

本节的剩余部分专门描述扩展的SIMD ASC模型。对于此论述，ASC是算法设计和开发的中心内容。

关联计算模型

关联计算(ASC)模型是扩展的SIMD，基于由固特异航空航天(GoodyearAerospace)的肯尼斯.巴彻(Kenneth Batcher)博士设计的STARAN关联SIMD计算机和其被海军舰船大量使用的后续ASPRO。

由肯特州立大学(Kent State University)计算机科学学院(Department ofComputer Science)开发，ASC是用于关联计算的算法模型(波特等人,计算机,27(11):19-25,1994)(波特,关联计算：大规模并行计算机的编程范例(Associative Computing:AProgramming Paradigm for Massively Parallel Computers),普莱南出版公司(PlenumPublishing),1992)。ASC模型产生于由固特异航空航天构建的关联处理器STARAN和MPP的研究。尽管目前在硬件中不受支持，但目前有效模拟和设计用于此模型的计算机均取得了一定研究成果。

作为扩展的SIMD模型，ASC使用同步数据并行编程，从而避免了多任务和异步点对点通信路由两者。由于在任何时间仅执行一个任务，其中在所有有效处理元件(PE)上步调一致地执行此任务的多个实例，因此多任务是不必要的。如同SIMD编程器，ASC避免了包括负载均衡、同步和动态任务调度的问题、必须在MPI和其它MIMD集群范例中明确处理的问题。

图4展示了ASC计算机的概念模型。存在又称为指令流(IS)的单个控制单元和各自具有其自身的本地存储器的多个处理元件(PE)。控制单元和PE阵列通过广播/简化网络连接，并且PE通过PE数据互连网络连接在一起。

如图4中所见，PE可以利用定位于其自身的本地存储器中的数据。数据保持在适当的位置，并且响应(有效)PE并行处理其本地数据。对词语关联的引用涉及使用搜索以通过内容而不是存储地址来定位数据。ASC模型不采用关联存储器，替代地，其是关联处理器，其中一般循环是搜索-处理-检索。在(波特等人,计算机,27(11):19-25,1994)中可获得该模型的概述。

由于ASC数据结构的自然表格结构，该算法的表格性质适用于使用ASC的计算。SWAMP充分利用用于步调一致地转换北邻域和西北邻域的数据的跨PE互连网络的极为高效的通信，以及用于搜索和用于跨并行计算的最大值的快速恒定时间关联功能。

由于ASC模型需要额外硬件，在恒定时间执行关联操作(吉恩(Jin)等人,第15届国际并行与分布式处理会议(15th International Parallel and Distributed ProcessingSymposium，IPDPS'01)研讨会,旧金山(San Francisco),第193页,2001)。这些操作可以通过任何SIMD类机器有效(但不太迅速)地执行，并已经成功调适以在若干SIMD硬件平台上有效地运行(袁(Yuan)等人,并行与分布式计算系统(Parallel and Distributed ComputingSystems，PDCS),马萨诸塞州剑桥(Cambridge,M A),2009；塔汉(Trahan)等人,并行与分布式计算杂志(J.of Parallel and Distributed Computing，JPDC),2009)。因此可以有效地在与SIMD密切相关的其它系统(包括矢量机)上实施SWAMP和其它ASC算法，这就是该模型用作范例的原因。

控制单元提取和解码程序指令并且将控制信号广播到PE。PE在控制单元的指示下使用其自身的本地数据执行这些指令。所有PE以步调一致方式执行指令，其中指令之间隐式同步。ASC具有若干相关的高速全局操作：关联搜索、最大值/最小值搜索以及响应者选择/检测。这些在以下章节中进行描述。

关联功能

下文论述与SWAMP算法相关的功能。

关联搜索

ASC算法中的基本操作是关联搜索。关联搜索同时定位其本地数据匹配既定搜索关键字的PE。具有匹配的数据的那些PE被称为应答器，并且具有非匹配的数据的那些PE被称为无应答器。在执行搜索之后，该算法然后可以限制进一步的处理以通过禁用无应答器而仅影响应答器(或反之亦然)。执行另外的搜索可进一步细化该组应答器。关联搜索由SWAMP+大量用于选择哪些PE在对角线内的并行行为中有效。

最大值/最小值搜索

除简单搜索，其中每个PE使用标准比较运算符(等于、小于等)针对搜索关键字比较其本地数据之外，关联计算机还可以执行全局搜索，其中将来自全部PE阵列的数据组合在一起以确定该组应答器。最常见类型的全局搜索是最大值/最小值搜索，其中应答器是其数据为跨整个PE阵列的最大值或最小值的那些PE。最大值由SWAMP+用于其处理的每一对角线以追踪到目前为止所计算的最高值。最大值搜索的使用频繁出现，每个逻辑并行动作中一次，每个比对中m+n次。

应答器选择/检测

关联搜索可以产生多个应答器，并且关联算法可以按以下三种不同模式之一处理那些应答器：并行选择、顺序选择或单个选择。并行应答器处理同时对每个应答器执行同一组操作。顺序应答器处理个别地选择每个应答器，从而实现针对每个应答器的不同的一组操作。单个应答器选择(又称为pickOne)选择一个任意的所选应答器来进行处理。除多个应答器之外，关联搜索还可能产生无应答器。为了处理这种情况，ASC模型可以检测是否存在对搜索的任何应答，并且在该情况下执行单独的一组动作(被称为任意应答器(anyResponder))。在SWAMP中，基于上述关联搜索，并行选择并且处理含有待比对的字符的多个应答器。如果使用最大值/最小值搜索时存在具有完全相同的最大值的多个值，并且当存在这样的多个值时，出现单个应答器选择。

PE互连网络

大多数关联处理器包括某些类型的PE互连网络以允许阵列内的并行数据移动。ASC模型本身并不指定任何特定的互连网络，而且事实上，许多适用的关联算法不要求任何特定的互连网络。典型地，关联处理器实施简单的网络，例如1D线性阵列或2D网格。这些网络易于实施并且允许以同步的方式迅速传送数据。例如，1D线性阵列足以在SWAMP算法中用于PE之间的明确通信。

并行计算系统

通用并行处理体系结构展示于图5中。虽然每个组件展示为具有直接连接，但应理解，各个元件可以地理上隔开但通过网络(例如，因特网)连接。虽然可能有混合配置，但并行计算机中的主存储器典型地或在单个地址空间中的所有处理元件之间共享，或呈分布式，即，每个处理元件具有其自身的本地地址空间。(分布式存储器是指这样的事实：存储器以逻辑方式分布，但通常意味着其也以物理方式分布。)分布式共享存储器和存储器虚拟化结合这两种方法，其中处理元件具有其自身的本地存储器以及可以使用非本地处理器上的存储器。对本地存储器的存取典型地比对非本地存储器的存取更快。

其中可以相等时延和带宽访问主存储器的每个元件的计算机体系结构被称为均匀存储器访问(UMA)系统。典型地，只能通过共享的存储器系统来实现，其中该存储器并非以物理方式分布。不具有此性质的系统被称为非均匀存储器访问(NUMA)体系结构。分布式存储器系统具有非均匀存储器访问。

可以多种方式在硬件中实施处理器-处理器和处理器-存储器通信，包括通过共享的(或多端口的或多路复用的)存储器、纵横开关、共享的总线或大量拓扑的互连网络(包括星形、环形、树形、超立方体、充足超立方体(在一个节点处具有超过一个处理器的超立方体))、或n维网格来实施。

基于互连网络的并行计算机必须合并路由以实现并非直接连接的节点之间的消息传递。用于处理器之间的通信的介质很可能在大型多处理器机器中分层。此类资源在市面上可购买用于专用用途，或可以通过例如亚马逊的云计算的“云”访问这些资源。

计算机通常包括通过总线耦合到存储器的处理器。存储器可以包括RAM或ROM，并且优选地包括至少一个有形的非暂时性介质，其存储可执行以致使系统执行本文中所描述的功能的指令。如所属领域的技术人员在必要时将认识到或作为最适合于本发明的方法的性能，本发明的系统包括通过总线彼此通信的一个或多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)等)、计算机可读存储装置(例如，主存储器、静态存储器等)、或其组合。

处理器可以是所属领域中已知的任何适合处理器，例如英特尔(加利福尼亚州圣克拉拉(Santa Clara,CA))的、以商标XEON E7出售的处理器，或由AMD公司(加利福尼亚州桑尼维尔(Sunnyvale,CA))以商标OPTERON 6200出售的处理器。

存储器可以指计算机可读存储装置，并且可以包括任何机器可读介质，在该机器可读介质上面存储一个或多个指令集(例如，包含本文中所见任何方法或功能的软件)、数据(例如，包含任何有形物理对象，例如患者染色体中所见的遗传序列)或这两者。虽然在一个示例性实施例中计算机可读存储装置可以是单个介质，但术语“计算机可读存储装置”应被理解为包括存储一个或多个指令集或数据的单个介质或多个介质(例如，集中式或分布式数据库、和/或相关联的高速缓冲存储器和服务器)。术语“计算机可读存储装置”因此应理解为包括但不限于固态存储器(例如，用户识别模块(SIM)卡、安全数字卡(SD卡)、微型SD卡或固态驱动器(SSD))、光学和磁性介质以及任何其它有形存储介质。优选地，计算机可读存储装置包括有形的非暂时性介质。此类非暂时性介质不包括(例如)短暂波和信号。“非暂时性存储器”应被解释为本身不包括计算机可读传输介质，例如信号。

根据本发明的输入/输出装置可以包括视频显示单元(例如，液晶显示器(LCD)或阴极射线管(CRT)监视器)、字母数字输入装置(例如，键盘)、光标控制装置(例如，鼠标或触控板)、磁盘驱动器单元、信号生成装置(例如，扬声器)、触摸屏、加速计、麦克风、蜂窝无线电频率天线、以及网络接口装置，网络接口装置可以是例如网络接口卡(NIC)、Wi-Fi卡或蜂窝调制解调器。

样本采集和制备

本发明包括用于产生对应于从生物样本回收的核酸的序列(例如，核酸序列、氨基酸序列)的方法。在一些实施例中，所得信息可以用以识别从受试者获得的核酸材料中存在的突变。在一些实施例中，从受试者获得样本，即，核酸(例如DNA或RNA)，使用下文描述的方法处理(裂解、扩增和/或纯化)核酸并且对核酸测序。在许多实施例中，测序的结果不是线性核酸序列，而是数千或数百万单独的短核酸读数的集合，其必须重新组装成针对受试者的序列。一旦比对了读数以产生序列，就可以将已比对的序列与参考序列相比较以识别可以(例如)指示疾病的突变。在其它实施例中，可以基于读数针对参考序列构建体(即，如上文所描述的定向非循环图(“DAG”))的比对来识别受试者的特定突变。

出于任何上述目的，可以对生物样本应用各种方法。生物样本可以例如包含血液、全血、血浆、泪液、乳头吸液、血清、粪便、尿液、唾液、循环细胞、组织、活检样本、毛囊的样本或含有患者的生物材料的其它样本。在基于此类样本进行测试时的一个问题是，在大多数情况下，仅微小量的含有所关注的突变的DNA或RNA可以存在于样本中。在例如腮抹试或血液样本的非侵入性样本尤其如此，其中突变核酸以极少量存在。在一些实施例中，核酸片段可以是天然的短，即，样本中的相关核酸的随机剪切可以产生短的片段。在其它实施例中，为便于处理，或因为测序技术只能序列读取少于1000个碱基，例如少于500个碱基，例如少于200个碱基，例如少于100个碱基，例如少于50个碱基，所以核酸被特意分段。虽然本文中描述的方法可以用以比对不同长度的序列，但在一些实施例中，大多数这些多个核酸读数将由测序方法产生，并且包含少于1000个碱基，例如少于500个碱基，例如少于200个碱基，例如少于100个碱基，例如少于50个碱基。

可以通过所属领域中已知的方法获取核酸。一般来说，核酸可以通过多种技术从生物样本提取，这些技术例如由马尼亚迪斯(Maniatis)等人,分子克隆：实验指南(Molecular Cloning:A Laboratory Manual),纽约州冷泉港(Cold Spring Harbor,N.Y.),第280-281页,(1982)描述的技术，该文献的内容以全文引用的方式并入本文中。

可能有必要首先制备样本的提取物，并且然后执行其它步骤—即，示差沉淀、柱色谱法、用有机溶剂提取等—以便获取足够纯的核酸制剂。可以使用所属领域的标准技术通过例如细胞的化学或机械裂解来制备提取物。然后可以例如通过过滤和/或离心和/或用离液盐(例如异硫氰酸鈲或尿素)或用有机溶剂(例如苯酚和/或HCCl₃)进一步处理提取物以使任何污染和潜在的干扰蛋白质变性。在一些实施例中，样本可以包含从受试者样本(例如，血液样本)收集的RNA，例如，mRNA。用于RNA提取的通用方法在所属领域中是众所周知的，并且在分子生物学的标准教科书(包括奥斯贝(Ausubel)等人,现代分子生物学实验技术(Current Protocols of Molecular Biology)，约翰·威利父子出版公司(John Wileyand Sons)(1997))中所公开。例如，在鲁普(Rupp)和洛克(Locker),实验室投资(LabInvest.)56:A67(1987)和德安德烈(De Andres)等人,生物技术(BioTechniques)18:42044(1995)中公开了从石蜡包埋组织提取RNA的方法。这些参考文献中的每一个的内容以全文引用的方式并入本文中。具体来说，根据制造商的说明，可以使用来自商业制造商(例如凯杰公司(Qiagen))的纯化试剂盒、缓冲液组和蛋白酶来执行RNA分离。举例来说，可以使用凯杰的RNeasy微型柱来分离来自培养中的细胞的全部RNA。其它市售RNA分离试剂盒包括MASTERPURE完整DNA和RNA纯化试剂盒(MASTERPURE Complete DNA and RNA PurificationKit)(EPICENTRE，威斯康星州麦迪逊(Madison,Wis.))和石蜡块RNA分离试剂盒(ParaffinBlock RNA Isolation Kit)(安必逊公司(Ambion,Inc.))。可以使用RNA Stat-60(Tel-Test)从组织样本分离总RNA。可以例如通过氯化铯密度梯度离心来分离从肿瘤制备的RNA。

分析测序

可以通过所属领域中已知的任何方法测序。DNA测序技术包括使用标记的终止符或引物以及板或毛细管中的凝胶分离的传统双脱氧测序反应(桑格方法)、使用可逆终止标记的核苷酸的合成测序、焦磷酸测序、454测序、对标记的寡核苷酸探针的库的等位基因特异性杂交、对由连接(ligation)跟随的标记的克隆库使用等位基因特异性杂交的合成测序、在聚合步骤期间标记的核苷酸的并入的实时监控、聚合酶克隆测序和SOLiD测序。分离的分子的测序最近已通过使用聚合酶或连接酶的连续或单个扩展反应以及通过使用探针库的单个或连续示差杂交得以证明。在测序之前，可能另外有益的是扩增样本中的部分或全部核酸。在一些实施例中，使用所属领域中已知的聚合酶链反应(PCR)技术扩增核酸。

可以在所提供的本发明的方法中使用的测序技术的一个实例是Illumina测序(例如，MiSeq^TM平台)，它是基于聚合酶的合成测序，可被用来扩增DNA或RNA。用于DNA的Illumina测序是基于使用折回PCR和锚定引物扩增固体表面上的DNA。基因组DNA是分成片断的，并且在片段的5'和3'末端添加衔接子。连接到流动细胞通道的表面的DNA片段被扩展和桥式扩增。片段变为双链，并且双链分子变性。由变性跟随的固相扩增的多个周期可以在流动细胞的每个通道中形成数百万簇的相同模板的单链DNA分子的大约1,000个拷贝。使用引物、DNA聚合酶和四荧光团标记的可逆终止核苷酸来执行连续测序。在并入核苷酸之后，使用激光来激发荧光团，并且捕捉图像并且记录第一碱基的标识。从每个并入的碱基中去除3'终止符和荧光团，并且重复并入、检测和识别的步骤。当使用Illumina测序来检测RNA时，应用相同的方法，除分离并扩增RNA片段以确定样本的RNA表达之外。在用测序仪询问序列之后，在例如FASTQ文件的数据文件中输出序列，该数据文件是用于存储生物序列和品质分数的基于文本的格式(参看上文的论述)。

可以在所提供的本发明的方法中使用的DNA测序技术的另一实例是生命技术公司(Life Technologies)提供的Ion Torrent^TM测序。参看美国专利申请第2009/0026082号、第2009/0127589号、第2010/0035252号、第2010/0137143号、第2010/0188073号、第2010/0197507号、第2010/0282617号、第2010/0300559号、第2010/0300895号、第2010/0301398号和第2010/0304982号，这些专利申请中的每一个的内容以全文引用的方式并入本文中。在Ion Torrent^TM测序中，DNA被剪切成大约300-800个碱基对的片段，并且这些片段是钝端的。然后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。片段可以连接到表面，并且以使得这些片段可个别地分辨的分辨率连接。一个或多个核苷酸的添加释放了质子(H⁺)，在测序仪器中检测并记录其信号。信号强度与并入的核苷酸的数目成正比。Ion Torrent数据也可以作为FASTQ文件输出。

可以在所提供的本发明的方法中使用的DNA和RNA测序技术的另一实例是454^TM测序(罗氏公司(Roche))(马古利斯M(Margulies M)等人2005,自然(Nature),437,376-380)。454^TM测序是合成测序技术，该技术还利用焦磷酸测序。DNA的454^TM测序包括两个步骤。在第一步骤中，DNA被剪切成大约300-800个碱基对的片段，并且这些片段是钝端的。然后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。可以使用例如含有5'生物素标签的衔接子B将这些片段连接到DNA捕获珠子，例如，涂布抗生蛋白链菌素的珠子。连接到珠子的片段在油水乳液的液滴内被PCR扩增。结果是在每个珠子上克隆扩增的DNA片段的多个拷贝。在第二步骤中，在孔(皮升大小)中捕获珠子。对每个DNA片段并行执行焦磷酸测序。一个或多个核苷酸的添加产生了光信号，该光信号通过测序仪器中的CCD相机记录。信号强度与并入的核苷酸的数目成正比。焦磷酸测序利用在核苷酸添加时释放的焦磷酸(PPi)。在存在腺苷5'磷酰硫酸的情况下PPi由ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素，并且此反应产生被检测和分析的光。在另一实施例中，使用焦磷酸测序来测量基因表达。RNA的焦磷酸测序类似于DNA的焦磷酸测序应用，并且通过将部分rRNA基因测序的应用连接到微观珠子，并且然后将连接物放置到单独的孔中来实现。然后扩增连接的部分rRNA序列以便确定基因表达谱。莎伦·马尔希(Sharon Marsh),分子生物学方法中的

方案(

Protocols in Methods in Molecular Biology),第373卷,15-23(2007)。

可以在所提供的本发明的方法中使用的DNA和RNA检测技术的另一实例是SOLiD^TM技术(应用生物系统公司(Applied Biosystems))。SOLiD^TM技术系统是可以用来运行DNA和RNA两者的大规模并行下一代测序的基于连接的测序技术。在DNA的SOLiD^TM测序中，基因组DNA被剪切成片段，并且在片段的5'和3'末端连接衔接子以产生片断库。或者，可以通过将衔接子连接到片段的5'和3'末端、使片段环化、消化环化的片段以产生内部衔接子、以及将衔接子连接到所得片段的5'和3'末端以产生配对库来引入内部衔接子。接着，在含有珠子、引物、模板和PCR组分的微反应器中制备克隆珠子群。在PCR之后，使模板变性并且使珠子富集以分离具有扩展的模板的珠子。所选珠子上的模板经历3'修饰，其允许键结到玻璃载片。可以通过部分随机的寡核苷酸与由特定荧光团识别的确定中心的碱基(或碱基对)的连续杂交和连接来确定序列。在记录颜色之后，裂解并去除连接的寡核苷酸，然后重复该过程。

在其它实施例中，使用SOLiD^TM基因表达系列分析(SAGE)来测量基因表达。基因表达系列分析(SAGE)是允许大量基因转录物的同步和定量分析而不需要为每个转录物提供个别杂交探针的方法。首先，如果标签从每个转录物内的唯一位置获得，才会产生含有足够的信息来唯一地识别转录物的短序列标记(约10-14bp)。然后，将许多转录物连接在一起以形成可以进行测序的长系列分子，同时显示多个标签的标识。可以通过确定个别标签的丰度并且识别对应于每个标签的基因来定量评估任何转录物群的表达模式。关于更多细节，参看例如威尔克斯库(Velculescu)等人,科学(Science)270:484487(1995)；和威尔克斯库等人,细胞(Cell)88:243 51(1997)，其中每一个的内容以全文引用的方式并入本文中。

可以在所提供的本发明的方法中使用的另一测序技术包括例如赫利克斯(Helicos)真实单分子测序(True Single Molecule测序，tSMS)(哈里斯T.D.(HarrisT.D.)等人(2008)科学(Science)320:106-109)。在tSMS技术中，将DNA样本分裂成大约100到200个核苷酸链，并且将多聚腺苷酸序列添加到每个DNA链的3'末端。每条链通过添加荧光标记的腺苷核苷酸来标记。然后DNA链被杂交到流动细胞，其含有数百万被固定到流动细胞表面的寡-T(oligo-T)捕获位点。模板可以具有约1亿个模板/cm²的密度。然后将流动细胞载入到仪器(例如，HeliScope.TM.测序仪)中，并且激光照射流动细胞的表面，从而显示每个模板的位置。CCD相机可以在流动细胞表面上映射模板的位置。然后分裂并洗掉模板荧光标记。通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡-T的核酸充当引物。聚合酶以模板定向的方式将标记的核苷酸并入到引物。去除聚合酶和未并入的核苷酸。通过对流动细胞表面成像来检测具有定向并入的荧光标记的核苷酸的模板。成像之后，分裂步骤去除荧光标记，并且用其它荧光标记的核苷酸重复该过程直到实现所要读取长度。在每个核苷酸添加步骤收集序列信息。tSMS的进一步描述展示于例如以下各参考文献中：拉皮迪(Lapidus)等人(美国专利第7,169,560号)、拉皮迪等人(美国专利申请第2009/0191565号)、奎克等人(美国专利第6,818,395号)、哈里斯(美国专利第7,282,337号)、奎克等人(美国专利申请第2002/0164629号)和布拉斯拉维斯基(Braslavsky)等人,PNAS(USA),100:3960-3964(2003)，这些参考文献中的每一个的内容以全文引用的方式并入本文中。

可以在所提供的本发明的方法中使用的测序技术的另一实例包括用以对DNA和RNA两者进行测序的太平洋生物科学(Pacific Biosciences)的单分子实时(SMRT)技术。在SMRT中，四种DNA碱基中的每一个连接到四种不同荧光染料之一。这些染料是磷酸相连的。单个DNA聚合酶与单分子模板单链DNA一起固定在零模式波导(ZMW)的底部。ZMW是能够针对在ZMW外迅速扩散(以微秒为单位)的荧光核苷酸背景观测单核苷酸通过DNA聚合酶并入的限制结构。核苷酸并入到生长链中耗时若干毫秒。在此时间期间，荧光标记被激发并产生荧光信号，并且荧光标签裂开。对染料的对应荧光的检测指示并入了哪种碱基。重复该过程。为了对RNA测序，用ZMW中的反转录酶替换DNA聚合酶，并且相应地遵循该过程。

可以在所提供的本发明的方法中使用的测序技术的另一实例是纳米孔测序(索尼GV(Soni G V)和米勒(Meller),临床化学(AClin Chem)53:1996-2001)(2007)。纳米孔是直径约为1纳米的小孔。纳米孔浸入在导电流体中以及跨纳米孔施加电势会因离子通过纳米孔的传导而产生轻微的电流。流动的电流量对纳米孔的大小敏感。随着DNA分子通过纳米孔，DNA分子上的每个核苷酸会不同程度地阻碍纳米孔。因此，随着DNA分子通过纳米孔，通过纳米孔的电流的变化呈现DNA序列的读取。

可以在所提供的本发明的方法中使用的测序技术的另一实例包括使用化学敏感场效应晶体管(chemFET)阵列以对DNA测序(例如，如在美国专利申请公开案第20090026082号中所描述)。在该技术的一个实例中，DNA分子可以放入反应室中，并且模板分子可以与结合到聚合酶的测序引物杂交。通过chemFET，可以通过电流的变化检测到一个或多个三磷酸酯并入到测序引物的3'末端处的新核酸链中。阵列可以具有多个chemFET传感器。在另一实例中，可以将单个核酸连接到珠子，并且可以在珠子上扩增核酸，并且可以将个别珠子转移到chemFET阵列上的个别反应室，其中每个反应室具有一个chemFET传感器，并且可以对核酸测序。

可以在所提供的本发明的方法中使用的测序技术的另一实例包括使用电子显微镜(蒙德里安那基斯E.N.(Moudrianakis E.N.)和比尔M.(Beer M.)美国国家科学院院刊(Proc Natl Acad Sci USA)1965年3月；53:564-71)。在该技术的一个实例中，使用金属标记来标记个别DNA分子，这些金属标记是使用电子显微镜可区别的。然后在平坦表面上拉伸这些分子并且使用电子显微镜成像以测量序列。

另外的检测方法可以利用结合微阵列用于后续的荧光或无荧光检测、使用质谱方法的条码质量检测、发射的无线电波检测、已比对条码的散射光的检测、使用定量PCR或数字PCR方法的荧光检测。比较核酸杂交阵列是用于检测患者的样本DNA内的拷贝数变异的技术。使用例如独特的荧光团以不同方式标记样本DNA和参考DNA，并且然后将样本DNA和参考DNA与众多探针杂交。然后测量样本和参考的荧光强度，并且然后使用荧光强度比来计算拷贝数变异。在希纳维M(Shinawi M),张SW(Cheung SW)阵列CGH和其临床应用(The array CGH and its clinical applications),今日药物发现(Drug Discovery Today)13(17-18):760-70中更详细论述了比较基因组杂交阵列的方法。微阵列检测可以不直接产生FASTQ文件，然而可使用程序将由微阵列测序仪产生的数据转化为FASTQ格式或类似的格式。

检测DNA分子、RNA分子和拷贝数的另一方法是荧光原位杂交法(FISH).原位杂交方案(In Situ Hybridization Protocols)(伊恩·达比(Ian Darby)编,2000)。FISH是一种分子细胞遗传学技术，其检测特定的染色体重排，例如DNA序列的突变和拷贝数变化。DNA分子经过化学变性并分离成两个链。然后将单链探针与该DNA的变性链一起培育。信号链探针取决于目标序列部分而选择，并具有与互补序列部分的高亲和性。探针可以包括重复序列探针、全染色体探针和基因座特定探针。在培育时，将组合的探针和DNA链杂交。然后在显微镜下将结果可视化并进行定量以评估任何变异。

在另一实施例中，使用基于MassARRAY^TM的基因表达谱方法来测量基因表达。在由西格诺公司(Sequenom,Inc.)(加利福尼亚州圣地亚哥(San Diego,Calif.))开发的基于MassARRAY^TM的基因表达谱方法中，在分离RNA和反转录之后，获取的cDNA被加入合成DNA分子(竞争者)，其匹配所有位置中的目标cDNA区(除单一碱基外)并充当内标。cDNA/竞争者混合物被PCR扩增并经受后PCR虾碱性磷酸酶(SAP)的酶处理，这使得剩余的核苷酸去磷酸化。在碱性磷酸酶失活后，来自竞争者和cDNA的PCR产物经历引物延伸，这产生针对竞争者-和cDNA-派生PCR产物的独特质量信号。纯化后，在芯片阵列上分配这些产物，该芯片阵列预加载有使用基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)分析进行分析所需的组分。然后通过分析所产生的质谱的峰面积比来对反应中存在的cDNA进行定量。关于其它细节，参看例如丁(Ding)和坎托(Cantor),美国国家科学院院刊100:3059 3064(2003)。

其它基于PCR的技术包括例如示差显示(梁(Liang)和帕迪(Pardee),科学257:967971(1992))；扩增片段长度多态性(iAFLP)(川本(Kawamoto)等人,基因组研究(GenomeRes.)12:1305 1312(1999))；BeadArray^TM技术(加利福尼亚州圣地亚哥伊路米那(Illumina,San Diego,Calif.)；奥利芬特(Oliphant)等人,疾病标记的发现(生物技术增刊)(Discovery of Markers for Disease(Supplement to Biotechniques)),2002年6月；弗格森(Ferguson)等人,分析化学(Analytical Chemistry)72:5618(2000))；用于检测基因表达的珠子阵列(BADGE)，在用于基因表达的快速分析中使用市售可得Luminex 100LabMAP系统和多颜色编码的微球(路明克斯公司(Luminex Corp.),得克萨斯州奥斯汀(Austin,Tex.))(杨(Yang)等人,基因组研究11:1888 1898(2001))；和高覆盖率表达谱(HiCEP)分析(福村(Fukumura)等人,核酸研究31(16)e94(2003))。这些参考文献中的每一个的内容以全文引用的方式并入本文中。

在某些实施例中，还可以使用微阵列技术识别或确认基因表达的变异，微阵列技术包括例如尼龙膜阵列、微芯片阵列和玻璃载片阵列，例如可从昂飞公司(Affymetrix)(加利福尼亚州圣克拉拉)购得。一般来说，RNA样本被分离，并通过反转录转化为标记的cDNA。标记的cDNA然后通过来自所关注的细胞或组织的特定DNA探针杂交到或者尼龙膜、微芯片或者玻璃载片上。然后检测杂交的cDNA并进行定量，可以将所得基因表达数据与用于分析的对照进行比较。标记、杂交和检测的方法取决于微阵列支撑物是尼龙膜、微芯片还是玻璃载片而不同。尼龙膜阵列典型地用P-dNTP标记的探针进行杂交。玻璃载片阵列典型地包括用两个独特的荧光标记的核苷酸来标记。在耶特曼(Yeatman)等人(美国专利申请第2006/0195269号)中展示了制备微阵列和测定基因产物表达(例如，RNA或蛋白质)的方法，该申请的内容以全文引用的方式并入本文中。

在一些实施例中，可以单独使用或结合其它方法(例如，免疫分析或RNA测量分析)来使用质谱(MS)分析，以确定本文所公开的一个或多个生物标记在生物样本中的存在和/或量。在一些实施例中，MS分析包括基质辅助激光解吸/电离(MALDI)飞行时间(TOF)MS分析，例如，直接点MALDI-TOF或液相色谱MALDI-TOF质谱分析。在一些实施例中，MS分析包含电喷雾电离(ESI)MS，例如液相色谱(LC)ESI-MS。可以使用市售的光谱仪来完成质量分析。利用包括MALDI-TOF MS和ESI-MS的MS分析来检测生物样本中生物标记肽的存在和量的方法是所属领域中已知的。关于进一步的指导，参看例如美国专利第6,925,389号、第6,989,100号和第6,890,763号，这些专利中的每一个以全文引用的方式并入本文中。

可以使用相关领域的技术人员已知的多种技术来确定在本发明的方法、序列构建体和系统中使用的蛋白质序列。举例来说，可以通过以质谱分析来分析蛋白质或蛋白质的一部分或使用埃德曼降解(Edman degradation)来产生氨基酸序列和氨基酸序列读数。质谱分析可以包括例如，基质辅助激光解吸/电离(MALDI)飞行时间(TOF)MS分析，例如直接点MALDI-TOF或液相色谱MALDI-TOF质谱分析；电喷雾电离(ESI)MS，例如液相色谱(LC)ESI-MS；或其它技术，例如MS-MS。可以使用商业仪器(例如，型号49X Procise蛋白质/肽测序仪(应用生物系统公司/生命技术公司))执行埃德曼降解分析。经过测序的氨基酸序列(即，多肽，即，蛋白质)的长度可以是至少10个氨基酸，例如，长度是至少20个氨基酸，例如，长度是至少50个氨基酸。

以引用的方式并入

贯穿本发明已经参考并且引用了其它文献，例如专利、专利申请、专利公开案、期刊、书籍、论文、网络内容。所有此类文献在此以全文引用的方式并入本文中用于所有目的。

等效物

除本文展示并且描述的之外，根据本文献的完整内容，包括参考在本文中引用的科学和专利文献，本发明的各种修改和许多其它实施例对所属领域的技术人员而言是显而易见的。本文中的主题含有重要信息、范例和指南，其可以适于本发明在其各种实施例和其等效物中的实践。

Claims

1.一种用于在序列中识别接近结构变异的罕见变异体的系统，其包含处理器和存储器，其中所述存储器包含指令，当所述指令被执行时导致所述处理器进行以下各项：

获得多个核酸序列读数，其中至少一个核酸读数包含罕见变异体及结构变异体；

将所述读数与参考定向非循环图DAG比较，其中所述参考DAG存储在计算机存储器中，所述参考DAG包含节点，所述节点呈现在所述参考DAG中的第一位置处的至少两个替代序列，所述替代序列中的一个是所述结构变异；

对每个核酸读数针对所述参考DAG的序列重叠进行评分；

将每个读数与所述参考DAG上的位置比对，使得每个读数的分数最大化；以及

将所述罕见变异体识别为经比对在所述结构变异的100bp或更少之内。

2.根据权利要求1所述的系统，其中所述存储器另外包括基于所述核酸读数相对于所述参考DAG的所述比对而使所述核酸读数彼此组装的指令。

3.根据权利要求1所述的系统，其中所述结构变异是至少100bp长的。

4.根据权利要求1所述的系统，其中所述参考DAG进一步在所述参考DAG中的第二位置处包含至少两个额外替代序列，并且所述额外替代序列中的一个包含匹配所述罕见变异体的序列。

5.根据权利要求1所述的系统，其中所述参考DAG进一步包含在所述参考DAG中的第二位置处的至少两个额外替代序列，并且所述额外替代序列两者都不包含匹配所述罕见变异体的序列。

6.根据权利要求4所述的系统，其中所述第一位置和第二位置间隔100bp或更少。

7.根据权利要求6所述的系统，其中所述结构变异的长度是1千碱基到3兆碱基。

8.根据权利要求1所述的系统，其中所述罕见变异体先前未在变异识别格式文件中被识别。

9.根据权利要求1所述的系统，其中所述结构变异选自由以下项组成的群组：缺失、复制、拷贝数变异、插入、倒置和易位。

10.根据权利要求1所述的系统，其中所述罕见变异体选自由以下项组成的群组：缺失、复制、倒置、插入和单核苷酸多态性。

11.根据权利要求1所述的系统，其中所述罕见变异体不包含匹配所述参考DAG的序列。

12.根据权利要求1所述的系统，其中通过所述参考DAG包括生物体的基因组。

13.根据权利要求1所述的系统，其中通过所述DAG列包括生物体的染色体。

14.根据权利要求5所述的系统，其中所述第一位置和第二位置间隔100bp或更少。

15.根据权利要求1所述的系统，其中所述罕见变异体先前在变异识别格式文件中被识别。