CN105051741A

CN105051741A - 并行局部序列对齐

Info

Publication number: CN105051741A
Application number: CN201380066248.1A
Authority: CN
Inventors: M·穆苏瓦蒂; T·米可维茨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-12-17
Filing date: 2013-12-17
Publication date: 2015-11-11
Anticipated expiration: 2033-12-17
Also published as: CN105051741B; US20140172824A1; EP2932426B1; US9384239B2; EP2932426A1; WO2014099957A1

Abstract

此处描述的各种技术关于将查询序列与数据库序列对齐的并行局部序列对齐。数据库序列被分段成多个带。第一处理单元可以基于一成本函数为数据库序列的第一带跨查询序列计算Smith-Waterman值，该成本函数对序列间的生物相似性建模。此外，第二处理单元可以基于该成本函数为数据库序列的第二带跨该查询序列计算Smith-Waterman值。而且，数据库序列的第二带跨该查询序列的Smith-Waterman值的子集可以基于该成本函数来重新计算(例如，由第一处理单元或第二处理单元)。要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和成本函数来确定。

Description

并行局部序列对齐

背景

蛋白质和核酸是活的有机体中的丰度中找到的生物大分子，其中它们作用于编码、发射和表达基因信息。核酸包括DNA(脱氧核糖核酸)和RNA(核糖核酸)。例如，DNA编码信息用于构建蛋白质。

通常，期望执行局部序列对齐，其中标识两个核苷酸序列或蛋白质序列之间的类似区域。核苷酸或蛋白质序列对齐可以涉及为给定的成本矩阵解决近似的串对齐问题。已知数据库序列、查询序列和对这两个序列间的生物相似性建模的成本函数，可以执行序列对齐以查找与查询序列匹配的数据库序列的子串。

Smith-Waterman算法是基于用于执行序列对齐的动态编程的按序算法。Smith-Waterman算法可以生成匹配，而同时是内在有序的。Smith-Waterman算法的运行时成本可以与数据库序列长度和查询序列长度的乘积成比例。由此，随着数据库序列长度的增加(例如，对于大基因组)，运行时成本可以使Smith-Waterman算法的实现通常是不现实的。相应地，已经开发了尝试找到近似匹配的各种基于试探法的方法。然而，这些常规的基于试探法的方法通常较不准确(例如，误匹配)。

概述

此处描述了与将查询序列与数据库序列对齐的并行局部序列对齐有关的各种技术。数据库序列被分段成多个带。第一处理单元可以基于一成本函数来为数据库序列的第一带跨查询序列计算Smith-Waterman值，该成本函数对序列间的生物相似性建模。此外，第二处理单元可以基于该成本函数来为数据库序列的第二带跨查询序列计算Smith-Waterman值。而且，可以基于该成本函数(例如，由第一处理单元或第二处理单元)来跨查询序列重新计算数据库序列的第二带的Smith-Waterman值的子集。该要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和该成本函数来确定。

此处提供的并行局部序列对齐可以沿数据库序列长度而并行化Smith-Waterman算法，而同时保持有序的Smith-Waterman算法的对齐。数据库序列被分割成多个带(例如，至少第一带和第二带)。各处理单元可以为所述带的每一个独立地计算Smith-Waterman值(例如，并行地计算)。此后，可由所述处理单元(例如，并行地)重新计算基于查询序列长度和成本函数所确定的Smith-Waterman值的子集。根据各个实施例，多个处理单元可以是不同的处理器、一多核处理器的不同内核、一多核图形处理单元(GPU)的不同内核、被包括于不同的计算设备中、它们的组合、等等。

以上概述呈现了简化概述以便提供此处讨论的系统和/或方法的一些方面的基本理解。该概述不是此处讨论的系统和/或方法的扩展概览。它不意图标识关键的/重要的特征或者划定这种系统和/或方法的范围。其唯一目的是以简化形式呈现一些概念，作为对稍候呈现的更详细描述的序言。

附图简述

图1图示执行并行局部序列对齐的示例性系统的功能性框图。

图2图示由图1的系统所生成的示例性成本表。

图3－4图示图2的成本表的各个示例性重叠区域，所述重叠区域包括重新计算的Smith-Waterman值的子集。

图5是图示被配置成供第一处理单元执行的示例性方法的流程图。

图6是图示被配置成供计算设备的多个处理单元执行的示例性方法的流程图。

图7图示示例性的计算设备。

详细描述

现在将参照附图描述与由多个处理单元并行执行的局部序列对齐有关的各种技术，其中相同的参考标号通篇用于指代相同的元件。在以下描述中，为说明目的，提出许多具体细节以便提供一个或多个方面的透彻理解。然而，显而易见的是，可以实现这种(诸)方面而无须这些具体细节。在其他实例中，以框图形式示出公知的结构和设备以便促进描述一个或多个方面。而且应当理解，被描述为由特定系统组件实现的功能性可由多个组件执行。类似地，例如，一个组件可以被配置成执行被描述为由多个组件实现的功能性。

此外，术语“或”意图意指包括性的“或”而不是排除性的“或”。也就是说，除非另外指明、或从上下文清楚可见，短语“X采用A或B”意图意指自然包括性排列的任一种。也就是说，以下实例的任一个均满足短语“X采用A或B”：X采用A；X采用B；X采用A和B两者。此外，除非另外指明或者从上下文清楚可见是指单数形式，否则本申请和所附权利要求书中使用的冠词“一(a)”和“一(an)”应当一般被视为意指“一个或多个”。

如此处提出的，可以执行数据库序列和查询序列间的并行局部序列对齐。此处提供的并行局部序列对齐可以沿数据库序列长度并行化Smith-Waterman算法，而同时维持有序Smith-Waterman算法的对齐(例如，减轻算法所报告的匹配保真度损失)。更特定的，数据库序列可以被分割成多个带。各处理单元可以独立地为所述带的每一个计算Smith-Waterman值(例如，并行地计算)。此后，可由所述处理单元(例如并行地)重新计算基于查询序列长度和成本函数所确定的Smith-Waterman值的子集。

现在参照附图，图1图示执行并行局部序列对齐的系统100。系统100包括X个处理单元：即，处理单元1102、处理单元2104、…以及处理单元X106(此处统称为处理单元102－106)，其中X可以是大于2的实质上任何整数。或者，尽管未示出，构想根据各种实施例，系统100可以包括两个处理单元(例如，处理单元1102和处理单元2104)。处理单元102－106可以独立地计算成本表108中所包括的Smith-Waterman值。如此处使用的，Smith-Waterman值是指通过采用Smith-Waterman算法生成的成本表108中的单元分数。

系统100还包括数据储存库110。数据储存库110可以包括数据库序列112(db)和查询序列114(qr)。数据库序列112包括D个符号的串[1…D]，其中D可以是实质上任何整数。因此，数据库序列112具有数据库序列长度D。此外，查询序列114包括Q个符号的串[1…Q]，其中Q可以是实质上任何整数。因此，查询序列114具有查询序列长度Q。

数据库序列112和查询序列114可以表示核苷酸序列或蛋白质序列。通过示例，数据库序列112可以表示人类基因组，并且因此，数据库序列112可以包括表示DNA碱基对的几十亿个符号(例如，数据库序列长度D可以为几十亿的数量级)。继续该示例，查询序列114可以包括表示DNA碱基对的几百或几千个符号(例如，查询序列长度Q可以为几百或几千的数量级)。然而应当理解，所要求保护的主题不限于以上示例。此外，尽管此处提出的许多示例关于表示核苷酸序列或蛋白质序列的数据库序列112和查询序列114，但是按照其他示例，构想数据库序列112和查询序列114可以表示实质上任何其他类型的数据。因此，数据库序列112和查询序列114可以表示音符序列、文本序列、文档序列、等等。作为说明，音符的查询序列可以与音符的数据库序列对齐，等等；然而，所要求保护的主题不限于此。

数据储存库110可以进一步包括成本函数116。成本函数116对序列间的生物相似性建模。成本函数116可以包括例如间隔起始惩罚G_s、间隔扩展惩罚G_e以及成本矩阵M。间隔起始惩罚G_s是打开一序列(例如，数据库序列112或查询序列114)中符号间的新间隔的成本。而且，间隔扩展惩罚G_e是扩展一序列(例如，数据库序列112或查询序列114)中符号间的已打开间隔的成本。间隔起始惩罚G_s大于0。此外，间隔扩展惩罚G_e大于0且小于或等于间隔起始惩罚G_s。此外，成本矩阵M设置匹配两个符号的成本(例如，将腺嘌呤与腺嘌呤匹配的成本、将腺嘌呤与胞嘧啶匹配的成本、等等)。

系统100可以执行并行局部序列对齐以便将查询序列114与数据库序列112对齐。为了执行并行局部序列对齐，系统100可以将数据库序列112分割成多个带。多个带可以至少包括第一带和第二带。根据一示例，数据库序列112可以被分割成X个带(例如，对应于处理单元102－106的数目)；而且构想，所要求保护的主题不以此为限，而是数据库序列112可以被分段成实质上任何数量的带。

带是数据库的按列分区。与此相对，尝试采用波前并行的常规方法通常沿波前进行并行化，波前是反对角线的。沿波前的并行化通常用于常规方法中，因为Smith-Waterman算法缺乏沿反对角线的数据依赖性。相反，此处提出的技术用于减轻由于数据库中的按列分区(例如，带)造成的负面影响，按列分区打破了按列的数据依赖性。

根据一示例，所述带的每一个可具有基本相似的长度。例如，每个带可具有带长度S(例如，每个带可包括来自数据库序列112的S个符号的串)，其中S是小于D的整数。作为其他示例，构想所述带中的两个或更多个可具有不同的长度。

带覆盖数据库序列112。此外，由于与Smith-Waterman算法相关联的数据依赖性，采用多个带之间的小重叠(例如，在成本表108的重叠区域内重新计算Smith-Waterman值)。重叠可以基于用于对齐的成本函数116来确定。由此，虽然为被提供给处理单元102－106的每一个的查询序列114并行确定，但是成本表108中具有来自任一带的最高Smith-Waterman值的单元可以被标识为跨各带的最大值。

而且，可以从该最大Smith-Waterman值求得回溯以便在查询序列114中的符号和数据库序列112中的符号之间产生对齐。由此，可以检测到来自成本表108的最大Smith-Waterman值，且可以从该最大Smith-Waterman值执行回溯以便在查询序列114中的符号和数据库序列112中的符号之间产生对齐。

处理单元102－106可各包括多个组件。更特定的，处理单元1102可以包括输入组件118、成本求值组件120和更新组件122。输入组件118、成本求值组件120和更新组件122可由处理单元1102执行。类似地，处理单元2104可以包括输入组件124、成本求值组件126和更新组件128，…，且处理单元X106可以包括输入组件130、成本求值组件132和更新组件134。应当理解，输入组件(例如，输入组件118、输入组件124、…和输入组件130)可以基本上相似，成本求值组件(例如，成本求值组件120、成本求值组件126、…和成本求值组件132)可以基本上相似，更新组件(例如，更新组件122、更新组件128、…和更新组件134)可以基本上相似。

以下示例描述了处理单元1102和处理单元2104。然而应当理解，这种示例可以扩展到其余处理单元102－106。处理单元1102的输入组件118可以获得查询序列114以便与数据库序列112对齐。查询序列114可以类似地由处理单元2104的输入组件124获得。

如上所述，数据序列112可以被至少分段成第一带和第二带。例如，处理单元1102的输入组件118可以获得数据库序列112的第一带。成本求值组件120可以利用处理单元1102，以基于成本函数116为数据库序列112的第一带跨查询序列114计算Smith-Waterman值，该成本函数116对序列间的生物相似性建模。进一步根据该示例，处理单元2104的输入组件124可以获得数据库序列112的第二带。处理单元2104的成本求值组件120可以为数据库序列112的第二带跨查询序列114计算Smith-Waterman值。对第一带和第二带(以及由其余处理单元102－106求值的数据库序列112的任何其他(诸)带)的Smith-Waterman值的这种计算可以并行执行(例如，同时)。

而且，更新组件122可以确定数据库序列112的第二带跨查询序列114的Smith-Waterman值的子集要用于重新计算。这种确定可以基于查询序列长度Q和成本函数116。例如，更新组件122可以基于查询序列长度Q、间隔起始惩罚G_s、间隔扩展惩罚G_e以及成本矩阵中的条目上界M_max，来确定要被重新计算的Smith-Waterman值的该子集。

此外，更新组件122可以使成本求值组件120为数据库序列112的第二带跨查询序列114重新计算Smith-Waterman值的该子集。因此，处理单元1102的输入组件118可以获得数据库序列112的第二带(或其一部分)。Smith-Waterman值的该子集可以利用第一处理单元1102来重新计算。数据库序列112的第二带的跨查询序列114的Smith-Waterman值的该子集的这种重新计算可以在以下步骤之后进行：为数据库序列112的第一带跨查询序列114计算Smith-Waterman值(例如，由于Smith-Waterman算法的成本表108中的Smith-Waterman值之间的依赖性)。因此，数据库序列112的第二带跨查询序列114的Smith-Waterman值的该子集的这种重新计算可以基于由处理单元1102所计算的数据库序列112的第一带跨查询序列114的Smith-Waterman值。

作为另一示例，构想处理单元2104的更新组件128可以替代地确定数据库序列112的第二带跨查询序列114的Smith-Waterman值的该子集要用于重新计算。根据该示例，处理单元2104的更新组件128可以使成本求值组件126利用处理单元2104为数据库序列112的第二带跨查询序列114重新计算Smith-Waterman值的该子集。这种重新计算可以基于由处理单元1102所计算的数据库序列112的第一带跨查询序列114的Smith-Waterman值(例如，由输入组件124自成本表获得、等等)。

根据一示例，处理单元102－106可以是不同的处理器。沿袭该示例，处理单元1102和处理单元2104可以是不同的处理器。根据另一示例，处理单元102－106可以是一多核处理器的不同内核。因此，处理单元1102和处理单元2104可以是这种多核处理器的不同内核。根据又一示例，处理器102－106可以是图形处理单元(GPU)的不同内核；因此，处理单元1102和处理单元2104可以是GPU的不同内核。作为又一示例，处理单元102－106可包括在不同的计算设备(例如，群集内的不同计算设备，等等)内。沿袭该示例，处理单元1102和处理单元2104可以包括在不同的计算设备中。此外构想，系统100可以采用以上示例的组合。

现在转至图2，图示系统100所生成的成本表108。成本表108具有D+1个列(例如，自0至D)和Q+1个行(例如，自0至Q)。图1的处理单元102－106可以为成本表108的单元计算Smith-Waterman值。根据一示例，成本表108可以通过采用以下用伪代码描述的递归函数来生成。

同样，数据库序列被分段成多个带。在图2(及类似的图3－4)的所示示例中，示出带n、带n+1和带n+2。然而应当理解，数据库序列可以被分段成实质上任何数量的带，并且所要求保护的主题不限于图示示例。

根据一示例，第一处理单元(例如，图1的处理单元1102)可以为成本表108的第一部分200中的单元计算Smith-Waterman值，第二处理单元(例如，图1的处理单元2104)可以为成本表108的第二部分202中的单元计算Smith-Waterman值，第三处理单元(例如，图1的处理单元X106)可以为成本表108的第三部分204中的单元计算Smith-Waterman值。成本表108的第一部分200对应于跨该查询序列的带n，成本表108的第一部分202对应于跨该查询序列的带n+1，成本表108的第三部分204对应于跨该查询序列的带n+2。

第一处理单元可以为成本表108的第一部分200的第一行和第一列初始化Smith-Waterman值。基于初始化的值，第一处理单元可以为成本表108的第一部分200中的其余单元计算Smith-Waterman值。类似地，第二处理单元可以为成本表108的第二部分202的第一行和第一列初始化Smith-Waterman值，第三处理单元可以为成本表108的第三部分204的第一行和第一列初始化Smith-Waterman值。同样地，基于初始化的值，第二处理单元和第三处理单元可以为成本表108的第二部分202和第三部分204中的相应的其余单元计算Smith-Waterman值。由于Smith-Waterman算法的递归关系，因此初始化的值可以影响随后计算的Smith-Waterman值的子集。

图3－4图示成本表108(如图2所示)的各个示例性重叠区域，所述重叠区域包括重新计算的Smith-Waterman值的子集。然而应当理解，其他重叠区域意图落在所附权利要求的范围内。

参照图3，图示成本表108的重叠区域的示例性绘图。如图所示，重叠区域300被包括在成本表108的第二部分202内，而重叠区域302被包括在成本表108的第三部分304内。图3所示的示例对应于以下提出的并行Smith-Waterman算法(ParallelSmithWaterman)的伪随机码。

重叠区域300和重叠区域302中包括的Smith-Waterman值被重新计算。因此，重叠区域300中包括的Smith-Waterman值(例如，带n+1跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第一部分200的Smith-Waterman值被重新计算，而重叠区域302中包括的Smith-Waterman值(例如，带n+2跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第二部分202的Smith-Waterman值被重新计算。

转至图4，图示成本表108的重叠区域的另一示例性图示。如图所示，重叠区域400被包括在成本表108的第一部分200内，而重叠区域402被包括在成本表108的第二部分202内。

重叠区域400和重叠区域402中包括的Smith-Waterman值被重新计算。因此，重叠区域400中包括的Smith-Waterman值(例如，带n跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第二部分202的Smith-Waterman值被重新计算，重叠区域402中包括的Smith-Waterman值(例如，带n+1跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第三部分204的Smith-Waterman值被重新计算。

再次参照图1，此处所述的Smith-Waterman算法可以执行局部序列对齐。因此，Smith-Waterman算法可以尝试查找具有相似性或子序列同族关系的多个局部区域，在数据库序列112和查询序列114之间对齐高度保守的区域。由于这种局部对齐不需要跨串的整个长度延伸，因此局部对齐可以在数据库序列112和查询序列114的实质上任何位置开始和结束。Smith-Waterman算法是对两个符号串进行局部序列对齐的动态编程算法，所述两个符号串即数据库序列112和查询序列114。数据库序列112的长度为D，查询序列114的长度为Q。

可以结合Smith-Waterman算法使用一种动态编程方法，该动态编程方法使用表格或矩阵来保存值并且减少再计算。这可以在各不同的Smith-Waterman值之间产生数据依赖性。例如，成本表108的条目(i,j)的Smith-Waterman值可以基于成本表108的条目(i-1,j-1)、(i,j-1)和(i-1,j)的在先计算来计算。以下进一步详细描述了多个计算之间的递归关系。

Smith-Waterman算法允许数据库序列112和查询序列114中符号的插入和删除。然而，这种求值会是计算量大的且存储器密集的。

以下伪代码示出Smith-Waterman算法的依次实现方式，该Smith-Waterman算法具有设置匹配两个符号的成本的成本矩阵M、间隔起始惩罚G_s和间隔扩展惩罚G_e。

//参数

//成本矩阵M_min<＝M[i,j]<＝M_max

成本M[Sym,Sym]；

//间隔起始,0<G_s

成本G_s；

//间隔扩展,0<G_e<＝G_s

成本G_e；

//输入

Symdb[1…D]；//数据库序列

Symqr[1…Q]；//查询序列

//成本表

Costbc[0…D,0…Q]；//最佳成本

Costig[0…D,0…Q]；//i处的间隔

Costjg[0…D,0…Q]；//j处的间隔

如上所述，Smith-Waterman算法可以计算三个成本表：最佳成本表(bc)、i处间隔表(ig)、以及j处间隔表(jg)。成本表108可以是最佳成本表(bc)、i处间隔表(ig)、或者j处间隔表(jg)。Init(初始化)函数初始化这些表。每一个表的列和行由Init函数初始化。此外，Recurrence(递归)函数按特定次序被调用(例如，按照SmithWaterman函数中的for循环)以填充表的其余部分。

以上呈现的算法包括循环携带的依赖性，其中，成本表的(i,j)条目依赖于(i-1,j-1)、(i,j-1)和(i-1,j)。常规上，已观察到反对角线的元素取决于较小反对角线上的值；因此，许多常规方法尝试采用波前并行化。相反，此处提出的方法按带来提供并行化。

如果自bc[i,j]至bc[i',j']有数据依赖性，则条目(i,j)影响另一条目(i',j')。根据递归的语义，(i,j)仅在i≤i'且j≤j'时影响(i',j')。而且，条目(i,j)可以影响与语义约束相比较少数量的条目。

更具体而言，条目(i,j)可以具有水平影响和垂直影响。对于水平影响，条目(i,j)仅在bc[i,j]≥G_s+(i'-i)*G_e时影响(i',j')。而且，对于垂直影响，条目(i,j)仅在bc[i,j]≥G_s+(j'-j)*G_e时影响(i',j')。

基于以上提出的水平影响和垂直影响，因此得出条目(i,j)仅在bc[i,j]≥G_s+g*G_e-d*M_max时可影响(i',j')，其中g＝|(i'-i)-(j'-j)|，d＝min(i'-i,j'-j)，且M_max是M中的条目的上界。而且，因此得出bc[i,j]≤min(i,j)*M_max。因此可见，若i'-i≤(j'*M_max-G_s)/G_e，则条目(i,j)不能影响(i',j')。以上可由更新组件122(及类似地更新组件128、…、及更新组件134)用来确定要重新计算的Smith-Waterman值的子集。

相应地，处理单元102－106可以通过确定(诸)重叠区域来独立地计算查询序列在数据库序列112上不同部分上的对齐，其中Smith-Waterman值在(诸)重叠区域内重新计算。这可由以下伪代码来表示：

相应地，三个成本函数可由Init函数来初始化。此外，Recurrence函数由处理单元102－106并行调用(例如，成本求值组件120、成本求值组件126、…及成本求值组件132)以便为所述带的每一个带跨查询序列114分别计算Smith-Waterman值(例如，如图2所示)。此后，可以(例如，由更新组件122、更新组件128、…及更新组件134)确定除第一带以外的带的要重新计算的Smith-Waterman值的子集(例如，成本表108中的条目)。这种确定可通过评估是否≤(j*M_max-G_s)/G_e分别作出。以上确定可以对于i自1至(Q*M_max-G_s)/G_e以及j自1至Q来分析。此外，Smith-Waterman值的这些子集可以此后通过调用Recurrence函数(例如，由成本求值组件120、成本求值组件126、…、及成本求值组件132)被重新计算(例如，如图3所示)。Smith-Waterman值的子集的重新计算可以并行执行。

作为另一示例，构想，以上提出的示例可以提供重新计算的界限。因此，可以评估对于i自1至(Q*M_max-G_s)/G_e以及j自1至Q是否i≤(j*M_max-G_s)/G_e，以提供在确定要重新计算的Smith-Waterman值的子集时的下界。

图5－6图示关于并行局部序列对齐的示例性方法。虽然方法被示出和描述为按序执行的一系列动作，但是可以理解和领会，方法不受顺序次序所限。例如，一些动作可以以和此处描述的动作不同的次序发生。此外，一动作可以与另一动作同时发生。而且，在一些实例中，可以不需要所有动作来实现此处描述的方法。

此外，此处描述的动作可以是可由一个或多个处理器实现和/或存储于计算机可读介质或媒介上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程等等。还有，方法的动作的结果可以被存储于计算机可读介质中、被显示在显示设备上、等等。

图5图示被配置成供第一处理单元执行的方法500。在502，可以获得用于和数据库序列对齐的查询序列。查询序列可以包括具有一查询序列长度的符号串。此外，数据库序列可以包括具有一数据库序列长度的符号串。数据库序列可以被至少分段成第一带和第二带。

在504，数据库序列的第一带跨该查询序列的Smith-Waterman值可以基于一成本函数来计算，该成本函数对序列间的生物相似性建模。这种计算可以利用第一处理单元来执行。此外，数据库序列的第二带跨该查询序列的Smith-Waterman值可以利用第二处理单元来计算。第一处理单元和第二处理单元可以同时计算相应的Smith-Waterman值。

在506，数据库序列的第二带跨查询序列的Smith-Waterman值的子集可以基于该成本函数来重新计算。要被重新计算的Smith-Waterman值的该子集可以基于查询序列长度和成本函数来确定。这种重新计算可以利用例如第一处理单元来执行。根据另一示例，这种重新计算可以利用第二处理单元来执行。然而，所要求保护的主题不限于以上示例。

现在转至图6，图示被配置成供计算设备的多个处理单元执行的方法600。在602，可以获得用于和数据库序列对齐的查询序列。类似于以上，查询序列可以包括具有一查询序列长度的符号串。而且，数据库序列可以包括具有一数据库序列长度的符号串。数据库序列可以被至少分段成第一带和第二带。

在604，数据库序列的第一带跨该查询序列的Smith-Waterman值可以基于一成本函数来计算，该成本函数对序列间的生物相似性建模。第一带的Smith-Waterman值的计算可以利用来自该多个处理单元的第一处理单元来执行。在606，数据库序列的第二带跨该查询序列的Smith-Waterman值可以基于成本函数来计算。第二带的Smith-Waterman值的计算可以利用来自该多个处理单元的第二处理单元来执行。作为示例，第一处理单元和第二处理单元可以同时计算Smith-Waterman值。

在608，要被重新计算的数据库序列的第二带跨该查询序列114的Smith-Waterman值的子集可以基于查询序列长度和成本函数来确定。在610，数据库序列的第二带跨该查询序列的Smith-Waterman值的子集可以基于成本函数来重新计算。构想，Smith-Waterman值的该子集可由第一处理单元重新计算。根据另一示例，构想，Smith-Waterman值的该子集可由第二处理单元重新计算。

按照一示例，构想，数据库序列的第三带跨该查询序列的Smith-Waterman值可以基于成本函数来计算，其中这种计算可以利用来自该多个处理单元的第三处理单元来执行。此外，要被重新计算的数据库序列的第三带跨该查询序列的Smith-Waterman值的第二子集可以基于查询序列长度和成本函数来确定。而且，数据库序列的第三带跨该查询序列的Smith-Waterman值的第二子集可以被重新计算。沿袭以上示例，Smith-Waterman值的该子集以及Smith-Waterman值的该第二子集可以用来自该多个处理单元的不同处理单元同时重新计算。然而应当理解，所要求保护的主题不限于以上示例。

现在参考图7，图示可按照此处公开的系统和方法使用的示例性计算设备700的高级图示。例如，计算设备700可用于执行并行局部序列对齐的系统中。计算设备700包括执行存储于存储器704中的指令的至少一个处理器702。至少一个处理器702可以是和/或包括处理单元102－106中的一个或多个。指令可以是例如用于实现被描述为由以上讨论的一个或多个组件实现的功能的指令或者用于实现上述方法中的一个或多个的指令。处理器702可以通过系统总线706来接入存储器704。除了存储可执行指令以外，存储器704也可以存储数据库序列(或其一部分)、查询序列、成本函数、成本表、等等。

计算设备700另外包括数据存储708，数据存储708可由处理器702通过系统总线706访问。数据存储708可以包括可执行指令、数据库序列(或其一部分)、查询序列、成本函数、成本表、等等。计算设备700也包括允许外部设备与计算设备700通信的输入接口710。例如，输入接口710可用于从外部计算机设备、从用户等等接收指令。计算设备700也包括输出接口712，输出接口712使计算设备700与一个或多个外部设备对。例如，计算设备700可以通过输出接口712来显示文本、图像等等。

构想通过输入接口700和输出接口710与计算设备712通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备700交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。

另外，尽管被示为单个系统，但可以理解，计算设备700可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备700执行的任务。

如本文所使用的，术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能的计算机可执行指令配置的计算机可读数据存储。计算机可执行指令可包括例程、功能等。还应理解，组件或系统可以位于单个设备上或分布在若干设备上。

另外，如此处所用的，术语“示例性”旨在是指“充当某事物的图示或示例”。

在此所述的各种功能可以以硬件、软件或其任何组合来实现。如果以软件实现，则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可由计算机访问的任何可用存储介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟(BD)，其中盘(disk)通常以磁的方式再现数据，而碟(disc)通常用激光以光学方式再现数据。另外，所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，其包括便于计算机程序从一地向另一地转移的任何介质。连接例如可以是通信介质。例如，如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从网站、服务器、或其它远程源传输，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合也应当包括在计算机可读介质的范围内。

作为替代或除此之外，本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如，但非限制，可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

以上所描述的包括一个或多个实施例的示例。当然，出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到修改和改变是不可能的，但本领域内的普通技术人员可以认识到，各方面的许多另外的组合和置换都是可能的。因此，所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外，就在详细描述或权利要求书中使用术语“包括”而言，这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims

1.一种被配置成由第一处理单元执行的方法，所述方法包括：

获得用于和数据库序列对齐的查询序列，其中所述查询序列包括具有查询序列长度的符号串，其中所述数据库序列包括具有数据库序列长度的符号串，且其中所述数据库序列被至少分段成第一带和第二带；

使用所述第一处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值，所述成本函数对序列间的生物相似性建模，其中所述数据库序列的所述第二带跨所述查询序列的Smith-Waterman值用第二处理单元来计算；以及

使用所述第一处理单元来基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的子集，其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度和所述成本函数来确定。

2.如权利要求1所述的方法，其特征在于，所述成本函数包括间隔起始惩罚、间隔扩展惩罚以及设置匹配两个符号的成本的成本矩阵，且其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度、所述间隔起始惩罚、所述间隔扩展惩罚以及所述成本矩阵中条目的上界来确定。

3.如权利要求1所述的方法，其特征在于，从最大Smith-Waterman值中求值回溯以便在所述查询序列中的符号和所述数据库序列中的符号之间产生对齐。

4.如权利要求1所述的方法，其特征在于，还包括：在所述第一处理单元为所述数据库序列的所述第一带跨所述查询序列计算所述Smith-Waterman值之后，为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。

5.如权利要求1所述的方法，其特征在于，所述第一处理单元和所述第二处理单元是以下情形的至少一种：不同的处理器、多核处理器的不同内核、图形处理单元(GPU)的不同内核、或者被包括在不同的计算设备中。

6.一种被配置成由计算设备的多个处理单元执行的方法，所述方法包括：

使用来自所述多个处理单元的第一处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值，所述成本函数对序列间的生物相似性建模；

使用来自所述多个处理单元的第二处理单元来基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列计算Smith-Waterman值；

基于所述查询序列长度和所述成本函数来确定要被重新计算的所述数据库序列的所述第二带跨所述查询序列的所述Smith-Waterman值的子集；以及

基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。

7.如权利要求6所述的方法，其特征在于，所述数据库序列进一步被分段成第三带，所述方法还包括：

使用来自所述多个处理单元的第三处理单元来基于所述成本函数为所述数据库序列的所述第三带跨所述查询序列计算Smith-Waterman值；

基于所述查询序列长度和所述成本函数来确定要被重新计算的所述数据库序列的所述第三带跨所述查询序列的所述Smith-Waterman值的第二子集；以及

为所述数据库序列的所述第三带跨所述查询序列重新计算所述Smith-Waterman值的所述第二子集。

8.如权利要求6所述的方法，其特征在于，所述成本函数包括间隔起始惩罚、间隔扩展惩罚以及设置匹配两个符号的成本的成本矩阵，且其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度、所述间隔起始惩罚、所述间隔扩展惩罚以及所述成本矩阵中条目的上界来确定。

9.如权利要求6所述的方法，其特征在于，还包括：

检测最大Smith-Waterman值；以及

执行自所述最大Smith-Waterman值的回溯以便在所述查询序列中的符号和所述数据库序列中的符号之间产生对齐。

10.一种计算设备，包括：

处理单元；以及

包括由所述处理单元执行的多个组件的存储器，所述多个组件包括：

输入组件，所述输入组件获得用于和数据库序列对齐的查询序列，其中所述查询序列包括具有查询序列长度的符号串，其中所述数据库序列包括具有数据库序列长度的符号串，且其中所述数据库序列被至少分段成第一带和第二带；

成本求值组件，所述成本求值组件使用所述处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值，所述成本函数对序列间的生物相似性建模，其中所述数据库序列的所述第二带跨所述查询序列的Smith-Waterman值用第二处理单元并行地计算；以及

更新组件，所述更新组件：

使所述成本求值组件在所述数据库序列的所述第一带跨所述查询序列的所述Smith-Waterman值由所述第一处理单元计算之后，使用所述第一处理单元为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。