CN105051741A - 并行局部序列对齐 - Google Patents

并行局部序列对齐 Download PDF

Info

Publication number
CN105051741A
CN105051741A CN201380066248.1A CN201380066248A CN105051741A CN 105051741 A CN105051741 A CN 105051741A CN 201380066248 A CN201380066248 A CN 201380066248A CN 105051741 A CN105051741 A CN 105051741A
Authority
CN
China
Prior art keywords
sequence
smith
waterman
processing unit
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380066248.1A
Other languages
English (en)
Other versions
CN105051741B (zh
Inventor
M·穆苏瓦蒂
T·米可维茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105051741A publication Critical patent/CN105051741A/zh
Application granted granted Critical
Publication of CN105051741B publication Critical patent/CN105051741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

此处描述的各种技术关于将查询序列与数据库序列对齐的并行局部序列对齐。数据库序列被分段成多个带。第一处理单元可以基于一成本函数为数据库序列的第一带跨查询序列计算Smith-Waterman值,该成本函数对序列间的生物相似性建模。此外,第二处理单元可以基于该成本函数为数据库序列的第二带跨该查询序列计算Smith-Waterman值。而且,数据库序列的第二带跨该查询序列的Smith-Waterman值的子集可以基于该成本函数来重新计算(例如,由第一处理单元或第二处理单元)。要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和成本函数来确定。

Description

并行局部序列对齐
背景
蛋白质和核酸是活的有机体中的丰度中找到的生物大分子,其中它们作用于编码、发射和表达基因信息。核酸包括DNA(脱氧核糖核酸)和RNA(核糖核酸)。例如,DNA编码信息用于构建蛋白质。
通常,期望执行局部序列对齐,其中标识两个核苷酸序列或蛋白质序列之间的类似区域。核苷酸或蛋白质序列对齐可以涉及为给定的成本矩阵解决近似的串对齐问题。已知数据库序列、查询序列和对这两个序列间的生物相似性建模的成本函数,可以执行序列对齐以查找与查询序列匹配的数据库序列的子串。
Smith-Waterman算法是基于用于执行序列对齐的动态编程的按序算法。Smith-Waterman算法可以生成匹配,而同时是内在有序的。Smith-Waterman算法的运行时成本可以与数据库序列长度和查询序列长度的乘积成比例。由此,随着数据库序列长度的增加(例如,对于大基因组),运行时成本可以使Smith-Waterman算法的实现通常是不现实的。相应地,已经开发了尝试找到近似匹配的各种基于试探法的方法。然而,这些常规的基于试探法的方法通常较不准确(例如,误匹配)。
概述
此处描述了与将查询序列与数据库序列对齐的并行局部序列对齐有关的各种技术。数据库序列被分段成多个带。第一处理单元可以基于一成本函数来为数据库序列的第一带跨查询序列计算Smith-Waterman值,该成本函数对序列间的生物相似性建模。此外,第二处理单元可以基于该成本函数来为数据库序列的第二带跨查询序列计算Smith-Waterman值。而且,可以基于该成本函数(例如,由第一处理单元或第二处理单元)来跨查询序列重新计算数据库序列的第二带的Smith-Waterman值的子集。该要被重新计算的Smith-Waterman值的子集可以基于查询序列长度和该成本函数来确定。
此处提供的并行局部序列对齐可以沿数据库序列长度而并行化Smith-Waterman算法,而同时保持有序的Smith-Waterman算法的对齐。数据库序列被分割成多个带(例如,至少第一带和第二带)。各处理单元可以为所述带的每一个独立地计算Smith-Waterman值(例如,并行地计算)。此后,可由所述处理单元(例如,并行地)重新计算基于查询序列长度和成本函数所确定的Smith-Waterman值的子集。根据各个实施例,多个处理单元可以是不同的处理器、一多核处理器的不同内核、一多核图形处理单元(GPU)的不同内核、被包括于不同的计算设备中、它们的组合、等等。
以上概述呈现了简化概述以便提供此处讨论的系统和/或方法的一些方面的基本理解。该概述不是此处讨论的系统和/或方法的扩展概览。它不意图标识关键的/重要的特征或者划定这种系统和/或方法的范围。其唯一目的是以简化形式呈现一些概念,作为对稍候呈现的更详细描述的序言。
附图简述
图1图示执行并行局部序列对齐的示例性系统的功能性框图。
图2图示由图1的系统所生成的示例性成本表。
图3-4图示图2的成本表的各个示例性重叠区域,所述重叠区域包括重新计算的Smith-Waterman值的子集。
图5是图示被配置成供第一处理单元执行的示例性方法的流程图。
图6是图示被配置成供计算设备的多个处理单元执行的示例性方法的流程图。
图7图示示例性的计算设备。
详细描述
现在将参照附图描述与由多个处理单元并行执行的局部序列对齐有关的各种技术,其中相同的参考标号通篇用于指代相同的元件。在以下描述中,为说明目的,提出许多具体细节以便提供一个或多个方面的透彻理解。然而,显而易见的是,可以实现这种(诸)方面而无须这些具体细节。在其他实例中,以框图形式示出公知的结构和设备以便促进描述一个或多个方面。而且应当理解,被描述为由特定系统组件实现的功能性可由多个组件执行。类似地,例如,一个组件可以被配置成执行被描述为由多个组件实现的功能性。
此外,术语“或”意图意指包括性的“或”而不是排除性的“或”。也就是说,除非另外指明、或从上下文清楚可见,短语“X采用A或B”意图意指自然包括性排列的任一种。也就是说,以下实例的任一个均满足短语“X采用A或B”:X采用A;X采用B;X采用A和B两者。此外,除非另外指明或者从上下文清楚可见是指单数形式,否则本申请和所附权利要求书中使用的冠词“一(a)”和“一(an)”应当一般被视为意指“一个或多个”。
如此处提出的,可以执行数据库序列和查询序列间的并行局部序列对齐。此处提供的并行局部序列对齐可以沿数据库序列长度并行化Smith-Waterman算法,而同时维持有序Smith-Waterman算法的对齐(例如,减轻算法所报告的匹配保真度损失)。更特定的,数据库序列可以被分割成多个带。各处理单元可以独立地为所述带的每一个计算Smith-Waterman值(例如,并行地计算)。此后,可由所述处理单元(例如并行地)重新计算基于查询序列长度和成本函数所确定的Smith-Waterman值的子集。
现在参照附图,图1图示执行并行局部序列对齐的系统100。系统100包括X个处理单元:即,处理单元1102、处理单元2104、…以及处理单元X106(此处统称为处理单元102-106),其中X可以是大于2的实质上任何整数。或者,尽管未示出,构想根据各种实施例,系统100可以包括两个处理单元(例如,处理单元1102和处理单元2104)。处理单元102-106可以独立地计算成本表108中所包括的Smith-Waterman值。如此处使用的,Smith-Waterman值是指通过采用Smith-Waterman算法生成的成本表108中的单元分数。
系统100还包括数据储存库110。数据储存库110可以包括数据库序列112(db)和查询序列114(qr)。数据库序列112包括D个符号的串[1…D],其中D可以是实质上任何整数。因此,数据库序列112具有数据库序列长度D。此外,查询序列114包括Q个符号的串[1…Q],其中Q可以是实质上任何整数。因此,查询序列114具有查询序列长度Q。
数据库序列112和查询序列114可以表示核苷酸序列或蛋白质序列。通过示例,数据库序列112可以表示人类基因组,并且因此,数据库序列112可以包括表示DNA碱基对的几十亿个符号(例如,数据库序列长度D可以为几十亿的数量级)。继续该示例,查询序列114可以包括表示DNA碱基对的几百或几千个符号(例如,查询序列长度Q可以为几百或几千的数量级)。然而应当理解,所要求保护的主题不限于以上示例。此外,尽管此处提出的许多示例关于表示核苷酸序列或蛋白质序列的数据库序列112和查询序列114,但是按照其他示例,构想数据库序列112和查询序列114可以表示实质上任何其他类型的数据。因此,数据库序列112和查询序列114可以表示音符序列、文本序列、文档序列、等等。作为说明,音符的查询序列可以与音符的数据库序列对齐,等等;然而,所要求保护的主题不限于此。
数据储存库110可以进一步包括成本函数116。成本函数116对序列间的生物相似性建模。成本函数116可以包括例如间隔起始惩罚Gs、间隔扩展惩罚Ge以及成本矩阵M。间隔起始惩罚Gs是打开一序列(例如,数据库序列112或查询序列114)中符号间的新间隔的成本。而且,间隔扩展惩罚Ge是扩展一序列(例如,数据库序列112或查询序列114)中符号间的已打开间隔的成本。间隔起始惩罚Gs大于0。此外,间隔扩展惩罚Ge大于0且小于或等于间隔起始惩罚Gs。此外,成本矩阵M设置匹配两个符号的成本(例如,将腺嘌呤与腺嘌呤匹配的成本、将腺嘌呤与胞嘧啶匹配的成本、等等)。
系统100可以执行并行局部序列对齐以便将查询序列114与数据库序列112对齐。为了执行并行局部序列对齐,系统100可以将数据库序列112分割成多个带。多个带可以至少包括第一带和第二带。根据一示例,数据库序列112可以被分割成X个带(例如,对应于处理单元102-106的数目);而且构想,所要求保护的主题不以此为限,而是数据库序列112可以被分段成实质上任何数量的带。
带是数据库的按列分区。与此相对,尝试采用波前并行的常规方法通常沿波前进行并行化,波前是反对角线的。沿波前的并行化通常用于常规方法中,因为Smith-Waterman算法缺乏沿反对角线的数据依赖性。相反,此处提出的技术用于减轻由于数据库中的按列分区(例如,带)造成的负面影响,按列分区打破了按列的数据依赖性。
根据一示例,所述带的每一个可具有基本相似的长度。例如,每个带可具有带长度S(例如,每个带可包括来自数据库序列112的S个符号的串),其中S是小于D的整数。作为其他示例,构想所述带中的两个或更多个可具有不同的长度。
带覆盖数据库序列112。此外,由于与Smith-Waterman算法相关联的数据依赖性,采用多个带之间的小重叠(例如,在成本表108的重叠区域内重新计算Smith-Waterman值)。重叠可以基于用于对齐的成本函数116来确定。由此,虽然为被提供给处理单元102-106的每一个的查询序列114并行确定,但是成本表108中具有来自任一带的最高Smith-Waterman值的单元可以被标识为跨各带的最大值。
而且,可以从该最大Smith-Waterman值求得回溯以便在查询序列114中的符号和数据库序列112中的符号之间产生对齐。由此,可以检测到来自成本表108的最大Smith-Waterman值,且可以从该最大Smith-Waterman值执行回溯以便在查询序列114中的符号和数据库序列112中的符号之间产生对齐。
处理单元102-106可各包括多个组件。更特定的,处理单元1102可以包括输入组件118、成本求值组件120和更新组件122。输入组件118、成本求值组件120和更新组件122可由处理单元1102执行。类似地,处理单元2104可以包括输入组件124、成本求值组件126和更新组件128,…,且处理单元X106可以包括输入组件130、成本求值组件132和更新组件134。应当理解,输入组件(例如,输入组件118、输入组件124、…和输入组件130)可以基本上相似,成本求值组件(例如,成本求值组件120、成本求值组件126、…和成本求值组件132)可以基本上相似,更新组件(例如,更新组件122、更新组件128、…和更新组件134)可以基本上相似。
以下示例描述了处理单元1102和处理单元2104。然而应当理解,这种示例可以扩展到其余处理单元102-106。处理单元1102的输入组件118可以获得查询序列114以便与数据库序列112对齐。查询序列114可以类似地由处理单元2104的输入组件124获得。
如上所述,数据序列112可以被至少分段成第一带和第二带。例如,处理单元1102的输入组件118可以获得数据库序列112的第一带。成本求值组件120可以利用处理单元1102,以基于成本函数116为数据库序列112的第一带跨查询序列114计算Smith-Waterman值,该成本函数116对序列间的生物相似性建模。进一步根据该示例,处理单元2104的输入组件124可以获得数据库序列112的第二带。处理单元2104的成本求值组件120可以为数据库序列112的第二带跨查询序列114计算Smith-Waterman值。对第一带和第二带(以及由其余处理单元102-106求值的数据库序列112的任何其他(诸)带)的Smith-Waterman值的这种计算可以并行执行(例如,同时)。
而且,更新组件122可以确定数据库序列112的第二带跨查询序列114的Smith-Waterman值的子集要用于重新计算。这种确定可以基于查询序列长度Q和成本函数116。例如,更新组件122可以基于查询序列长度Q、间隔起始惩罚Gs、间隔扩展惩罚Ge以及成本矩阵中的条目上界Mmax,来确定要被重新计算的Smith-Waterman值的该子集。
此外,更新组件122可以使成本求值组件120为数据库序列112的第二带跨查询序列114重新计算Smith-Waterman值的该子集。因此,处理单元1102的输入组件118可以获得数据库序列112的第二带(或其一部分)。Smith-Waterman值的该子集可以利用第一处理单元1102来重新计算。数据库序列112的第二带的跨查询序列114的Smith-Waterman值的该子集的这种重新计算可以在以下步骤之后进行:为数据库序列112的第一带跨查询序列114计算Smith-Waterman值(例如,由于Smith-Waterman算法的成本表108中的Smith-Waterman值之间的依赖性)。因此,数据库序列112的第二带跨查询序列114的Smith-Waterman值的该子集的这种重新计算可以基于由处理单元1102所计算的数据库序列112的第一带跨查询序列114的Smith-Waterman值。
作为另一示例,构想处理单元2104的更新组件128可以替代地确定数据库序列112的第二带跨查询序列114的Smith-Waterman值的该子集要用于重新计算。根据该示例,处理单元2104的更新组件128可以使成本求值组件126利用处理单元2104为数据库序列112的第二带跨查询序列114重新计算Smith-Waterman值的该子集。这种重新计算可以基于由处理单元1102所计算的数据库序列112的第一带跨查询序列114的Smith-Waterman值(例如,由输入组件124自成本表获得、等等)。
根据一示例,处理单元102-106可以是不同的处理器。沿袭该示例,处理单元1102和处理单元2104可以是不同的处理器。根据另一示例,处理单元102-106可以是一多核处理器的不同内核。因此,处理单元1102和处理单元2104可以是这种多核处理器的不同内核。根据又一示例,处理器102-106可以是图形处理单元(GPU)的不同内核;因此,处理单元1102和处理单元2104可以是GPU的不同内核。作为又一示例,处理单元102-106可包括在不同的计算设备(例如,群集内的不同计算设备,等等)内。沿袭该示例,处理单元1102和处理单元2104可以包括在不同的计算设备中。此外构想,系统100可以采用以上示例的组合。
现在转至图2,图示系统100所生成的成本表108。成本表108具有D+1个列(例如,自0至D)和Q+1个行(例如,自0至Q)。图1的处理单元102-106可以为成本表108的单元计算Smith-Waterman值。根据一示例,成本表108可以通过采用以下用伪代码描述的递归函数来生成。
同样,数据库序列被分段成多个带。在图2(及类似的图3-4)的所示示例中,示出带n、带n+1和带n+2。然而应当理解,数据库序列可以被分段成实质上任何数量的带,并且所要求保护的主题不限于图示示例。
根据一示例,第一处理单元(例如,图1的处理单元1102)可以为成本表108的第一部分200中的单元计算Smith-Waterman值,第二处理单元(例如,图1的处理单元2104)可以为成本表108的第二部分202中的单元计算Smith-Waterman值,第三处理单元(例如,图1的处理单元X106)可以为成本表108的第三部分204中的单元计算Smith-Waterman值。成本表108的第一部分200对应于跨该查询序列的带n,成本表108的第一部分202对应于跨该查询序列的带n+1,成本表108的第三部分204对应于跨该查询序列的带n+2。
第一处理单元可以为成本表108的第一部分200的第一行和第一列初始化Smith-Waterman值。基于初始化的值,第一处理单元可以为成本表108的第一部分200中的其余单元计算Smith-Waterman值。类似地,第二处理单元可以为成本表108的第二部分202的第一行和第一列初始化Smith-Waterman值,第三处理单元可以为成本表108的第三部分204的第一行和第一列初始化Smith-Waterman值。同样地,基于初始化的值,第二处理单元和第三处理单元可以为成本表108的第二部分202和第三部分204中的相应的其余单元计算Smith-Waterman值。由于Smith-Waterman算法的递归关系,因此初始化的值可以影响随后计算的Smith-Waterman值的子集。
图3-4图示成本表108(如图2所示)的各个示例性重叠区域,所述重叠区域包括重新计算的Smith-Waterman值的子集。然而应当理解,其他重叠区域意图落在所附权利要求的范围内。
参照图3,图示成本表108的重叠区域的示例性绘图。如图所示,重叠区域300被包括在成本表108的第二部分202内,而重叠区域302被包括在成本表108的第三部分304内。图3所示的示例对应于以下提出的并行Smith-Waterman算法(ParallelSmithWaterman)的伪随机码。
重叠区域300和重叠区域302中包括的Smith-Waterman值被重新计算。因此,重叠区域300中包括的Smith-Waterman值(例如,带n+1跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第一部分200的Smith-Waterman值被重新计算,而重叠区域302中包括的Smith-Waterman值(例如,带n+2跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第二部分202的Smith-Waterman值被重新计算。
转至图4,图示成本表108的重叠区域的另一示例性图示。如图所示,重叠区域400被包括在成本表108的第一部分200内,而重叠区域402被包括在成本表108的第二部分202内。
重叠区域400和重叠区域402中包括的Smith-Waterman值被重新计算。因此,重叠区域400中包括的Smith-Waterman值(例如,带n跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第二部分202的Smith-Waterman值被重新计算,重叠区域402中包括的Smith-Waterman值(例如,带n+1跨该查询序列的Smith-Waterman值的子集)可以基于来自成本表108的第三部分204的Smith-Waterman值被重新计算。
再次参照图1,此处所述的Smith-Waterman算法可以执行局部序列对齐。因此,Smith-Waterman算法可以尝试查找具有相似性或子序列同族关系的多个局部区域,在数据库序列112和查询序列114之间对齐高度保守的区域。由于这种局部对齐不需要跨串的整个长度延伸,因此局部对齐可以在数据库序列112和查询序列114的实质上任何位置开始和结束。Smith-Waterman算法是对两个符号串进行局部序列对齐的动态编程算法,所述两个符号串即数据库序列112和查询序列114。数据库序列112的长度为D,查询序列114的长度为Q。
可以结合Smith-Waterman算法使用一种动态编程方法,该动态编程方法使用表格或矩阵来保存值并且减少再计算。这可以在各不同的Smith-Waterman值之间产生数据依赖性。例如,成本表108的条目(i,j)的Smith-Waterman值可以基于成本表108的条目(i-1,j-1)、(i,j-1)和(i-1,j)的在先计算来计算。以下进一步详细描述了多个计算之间的递归关系。
Smith-Waterman算法允许数据库序列112和查询序列114中符号的插入和删除。然而,这种求值会是计算量大的且存储器密集的。
以下伪代码示出Smith-Waterman算法的依次实现方式,该Smith-Waterman算法具有设置匹配两个符号的成本的成本矩阵M、间隔起始惩罚Gs和间隔扩展惩罚Ge
//参数
//成本矩阵Mmin<=M[i,j]<=Mmax
成本M[Sym,Sym];
//间隔起始,0<Gs
成本Gs
//间隔扩展,0<Ge<=Gs
成本Ge
//输入
Symdb[1…D];//数据库序列
Symqr[1…Q];//查询序列
//成本表
Costbc[0…D,0…Q];//最佳成本
Costig[0…D,0…Q];//i处的间隔
Costjg[0…D,0…Q];//j处的间隔
如上所述,Smith-Waterman算法可以计算三个成本表:最佳成本表(bc)、i处间隔表(ig)、以及j处间隔表(jg)。成本表108可以是最佳成本表(bc)、i处间隔表(ig)、或者j处间隔表(jg)。Init(初始化)函数初始化这些表。每一个表的列和行由Init函数初始化。此外,Recurrence(递归)函数按特定次序被调用(例如,按照SmithWaterman函数中的for循环)以填充表的其余部分。
以上呈现的算法包括循环携带的依赖性,其中,成本表的(i,j)条目依赖于(i-1,j-1)、(i,j-1)和(i-1,j)。常规上,已观察到反对角线的元素取决于较小反对角线上的值;因此,许多常规方法尝试采用波前并行化。相反,此处提出的方法按带来提供并行化。
如果自bc[i,j]至bc[i',j']有数据依赖性,则条目(i,j)影响另一条目(i',j')。根据递归的语义,(i,j)仅在i≤i'且j≤j'时影响(i',j')。而且,条目(i,j)可以影响与语义约束相比较少数量的条目。
更具体而言,条目(i,j)可以具有水平影响和垂直影响。对于水平影响,条目(i,j)仅在bc[i,j]≥Gs+(i'-i)*Ge时影响(i',j')。而且,对于垂直影响,条目(i,j)仅在bc[i,j]≥Gs+(j'-j)*Ge时影响(i',j')。
基于以上提出的水平影响和垂直影响,因此得出条目(i,j)仅在bc[i,j]≥Gs+g*Ge-d*Mmax时可影响(i',j'),其中g=|(i'-i)-(j'-j)|,d=min(i'-i,j'-j),且Mmax是M中的条目的上界。而且,因此得出bc[i,j]≤min(i,j)*Mmax。因此可见,若i'-i≤(j'*Mmax-Gs)/Ge,则条目(i,j)不能影响(i',j')。以上可由更新组件122(及类似地更新组件128、…、及更新组件134)用来确定要重新计算的Smith-Waterman值的子集。
相应地,处理单元102-106可以通过确定(诸)重叠区域来独立地计算查询序列在数据库序列112上不同部分上的对齐,其中Smith-Waterman值在(诸)重叠区域内重新计算。这可由以下伪代码来表示:
相应地,三个成本函数可由Init函数来初始化。此外,Recurrence函数由处理单元102-106并行调用(例如,成本求值组件120、成本求值组件126、…及成本求值组件132)以便为所述带的每一个带跨查询序列114分别计算Smith-Waterman值(例如,如图2所示)。此后,可以(例如,由更新组件122、更新组件128、…及更新组件134)确定除第一带以外的带的要重新计算的Smith-Waterman值的子集(例如,成本表108中的条目)。这种确定可通过评估是否≤(j*Mmax-Gs)/Ge分别作出。以上确定可以对于i自1至(Q*Mmax-Gs)/Ge以及j自1至Q来分析。此外,Smith-Waterman值的这些子集可以此后通过调用Recurrence函数(例如,由成本求值组件120、成本求值组件126、…、及成本求值组件132)被重新计算(例如,如图3所示)。Smith-Waterman值的子集的重新计算可以并行执行。
作为另一示例,构想,以上提出的示例可以提供重新计算的界限。因此,可以评估对于i自1至(Q*Mmax-Gs)/Ge以及j自1至Q是否i≤(j*Mmax-Gs)/Ge,以提供在确定要重新计算的Smith-Waterman值的子集时的下界。
图5-6图示关于并行局部序列对齐的示例性方法。虽然方法被示出和描述为按序执行的一系列动作,但是可以理解和领会,方法不受顺序次序所限。例如,一些动作可以以和此处描述的动作不同的次序发生。此外,一动作可以与另一动作同时发生。而且,在一些实例中,可以不需要所有动作来实现此处描述的方法。
此外,此处描述的动作可以是可由一个或多个处理器实现和/或存储于计算机可读介质或媒介上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程等等。还有,方法的动作的结果可以被存储于计算机可读介质中、被显示在显示设备上、等等。
图5图示被配置成供第一处理单元执行的方法500。在502,可以获得用于和数据库序列对齐的查询序列。查询序列可以包括具有一查询序列长度的符号串。此外,数据库序列可以包括具有一数据库序列长度的符号串。数据库序列可以被至少分段成第一带和第二带。
在504,数据库序列的第一带跨该查询序列的Smith-Waterman值可以基于一成本函数来计算,该成本函数对序列间的生物相似性建模。这种计算可以利用第一处理单元来执行。此外,数据库序列的第二带跨该查询序列的Smith-Waterman值可以利用第二处理单元来计算。第一处理单元和第二处理单元可以同时计算相应的Smith-Waterman值。
在506,数据库序列的第二带跨查询序列的Smith-Waterman值的子集可以基于该成本函数来重新计算。要被重新计算的Smith-Waterman值的该子集可以基于查询序列长度和成本函数来确定。这种重新计算可以利用例如第一处理单元来执行。根据另一示例,这种重新计算可以利用第二处理单元来执行。然而,所要求保护的主题不限于以上示例。
现在转至图6,图示被配置成供计算设备的多个处理单元执行的方法600。在602,可以获得用于和数据库序列对齐的查询序列。类似于以上,查询序列可以包括具有一查询序列长度的符号串。而且,数据库序列可以包括具有一数据库序列长度的符号串。数据库序列可以被至少分段成第一带和第二带。
在604,数据库序列的第一带跨该查询序列的Smith-Waterman值可以基于一成本函数来计算,该成本函数对序列间的生物相似性建模。第一带的Smith-Waterman值的计算可以利用来自该多个处理单元的第一处理单元来执行。在606,数据库序列的第二带跨该查询序列的Smith-Waterman值可以基于成本函数来计算。第二带的Smith-Waterman值的计算可以利用来自该多个处理单元的第二处理单元来执行。作为示例,第一处理单元和第二处理单元可以同时计算Smith-Waterman值。
在608,要被重新计算的数据库序列的第二带跨该查询序列114的Smith-Waterman值的子集可以基于查询序列长度和成本函数来确定。在610,数据库序列的第二带跨该查询序列的Smith-Waterman值的子集可以基于成本函数来重新计算。构想,Smith-Waterman值的该子集可由第一处理单元重新计算。根据另一示例,构想,Smith-Waterman值的该子集可由第二处理单元重新计算。
按照一示例,构想,数据库序列的第三带跨该查询序列的Smith-Waterman值可以基于成本函数来计算,其中这种计算可以利用来自该多个处理单元的第三处理单元来执行。此外,要被重新计算的数据库序列的第三带跨该查询序列的Smith-Waterman值的第二子集可以基于查询序列长度和成本函数来确定。而且,数据库序列的第三带跨该查询序列的Smith-Waterman值的第二子集可以被重新计算。沿袭以上示例,Smith-Waterman值的该子集以及Smith-Waterman值的该第二子集可以用来自该多个处理单元的不同处理单元同时重新计算。然而应当理解,所要求保护的主题不限于以上示例。
现在参考图7,图示可按照此处公开的系统和方法使用的示例性计算设备700的高级图示。例如,计算设备700可用于执行并行局部序列对齐的系统中。计算设备700包括执行存储于存储器704中的指令的至少一个处理器702。至少一个处理器702可以是和/或包括处理单元102-106中的一个或多个。指令可以是例如用于实现被描述为由以上讨论的一个或多个组件实现的功能的指令或者用于实现上述方法中的一个或多个的指令。处理器702可以通过系统总线706来接入存储器704。除了存储可执行指令以外,存储器704也可以存储数据库序列(或其一部分)、查询序列、成本函数、成本表、等等。
计算设备700另外包括数据存储708,数据存储708可由处理器702通过系统总线706访问。数据存储708可以包括可执行指令、数据库序列(或其一部分)、查询序列、成本函数、成本表、等等。计算设备700也包括允许外部设备与计算设备700通信的输入接口710。例如,输入接口710可用于从外部计算机设备、从用户等等接收指令。计算设备700也包括输出接口712,输出接口712使计算设备700与一个或多个外部设备对。例如,计算设备700可以通过输出接口712来显示文本、图像等等。
构想通过输入接口700和输出接口710与计算设备712通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如,图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入,以及在诸如显示器之类的输出设备上提供输出。此外,自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备700交互。相反,自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。
另外,尽管被示为单个系统,但可以理解,计算设备700可以是分布式系统。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备700执行的任务。
如本文所使用的,术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能的计算机可执行指令配置的计算机可读数据存储。计算机可执行指令可包括例程、功能等。还应理解,组件或系统可以位于单个设备上或分布在若干设备上。
另外,如此处所用的,术语“示例性”旨在是指“充当某事物的图示或示例”。
在此所述的各种功能可以以硬件、软件或其任何组合来实现。如果以软件实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可由计算机访问的任何可用存储介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟(BD),其中盘(disk)通常以磁的方式再现数据,而碟(disc)通常用激光以光学方式再现数据。另外,所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,其包括便于计算机程序从一地向另一地转移的任何介质。连接例如可以是通信介质。例如,如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从网站、服务器、或其它远程源传输,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合也应当包括在计算机可读介质的范围内。
作为替代或除此之外,本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
以上所描述的包括一个或多个实施例的示例。当然,出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到修改和改变是不可能的,但本领域内的普通技术人员可以认识到,各方面的许多另外的组合和置换都是可能的。因此,所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外,就在详细描述或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims (10)

1.一种被配置成由第一处理单元执行的方法,所述方法包括:
获得用于和数据库序列对齐的查询序列,其中所述查询序列包括具有查询序列长度的符号串,其中所述数据库序列包括具有数据库序列长度的符号串,且其中所述数据库序列被至少分段成第一带和第二带;
使用所述第一处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值,所述成本函数对序列间的生物相似性建模,其中所述数据库序列的所述第二带跨所述查询序列的Smith-Waterman值用第二处理单元来计算;以及
使用所述第一处理单元来基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的子集,其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度和所述成本函数来确定。
2.如权利要求1所述的方法,其特征在于,所述成本函数包括间隔起始惩罚、间隔扩展惩罚以及设置匹配两个符号的成本的成本矩阵,且其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度、所述间隔起始惩罚、所述间隔扩展惩罚以及所述成本矩阵中条目的上界来确定。
3.如权利要求1所述的方法,其特征在于,从最大Smith-Waterman值中求值回溯以便在所述查询序列中的符号和所述数据库序列中的符号之间产生对齐。
4.如权利要求1所述的方法,其特征在于,还包括:在所述第一处理单元为所述数据库序列的所述第一带跨所述查询序列计算所述Smith-Waterman值之后,为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。
5.如权利要求1所述的方法,其特征在于,所述第一处理单元和所述第二处理单元是以下情形的至少一种:不同的处理器、多核处理器的不同内核、图形处理单元(GPU)的不同内核、或者被包括在不同的计算设备中。
6.一种被配置成由计算设备的多个处理单元执行的方法,所述方法包括:
获得用于和数据库序列对齐的查询序列,其中所述查询序列包括具有查询序列长度的符号串,其中所述数据库序列包括具有数据库序列长度的符号串,且其中所述数据库序列被至少分段成第一带和第二带;
使用来自所述多个处理单元的第一处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值,所述成本函数对序列间的生物相似性建模;
使用来自所述多个处理单元的第二处理单元来基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列计算Smith-Waterman值;
基于所述查询序列长度和所述成本函数来确定要被重新计算的所述数据库序列的所述第二带跨所述查询序列的所述Smith-Waterman值的子集;以及
基于所述成本函数为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。
7.如权利要求6所述的方法,其特征在于,所述数据库序列进一步被分段成第三带,所述方法还包括:
使用来自所述多个处理单元的第三处理单元来基于所述成本函数为所述数据库序列的所述第三带跨所述查询序列计算Smith-Waterman值;
基于所述查询序列长度和所述成本函数来确定要被重新计算的所述数据库序列的所述第三带跨所述查询序列的所述Smith-Waterman值的第二子集;以及
为所述数据库序列的所述第三带跨所述查询序列重新计算所述Smith-Waterman值的所述第二子集。
8.如权利要求6所述的方法,其特征在于,所述成本函数包括间隔起始惩罚、间隔扩展惩罚以及设置匹配两个符号的成本的成本矩阵,且其中要被重新计算的所述Smith-Waterman值的所述子集基于所述查询序列长度、所述间隔起始惩罚、所述间隔扩展惩罚以及所述成本矩阵中条目的上界来确定。
9.如权利要求6所述的方法,其特征在于,还包括:
检测最大Smith-Waterman值;以及
执行自所述最大Smith-Waterman值的回溯以便在所述查询序列中的符号和所述数据库序列中的符号之间产生对齐。
10.一种计算设备,包括:
处理单元;以及
包括由所述处理单元执行的多个组件的存储器,所述多个组件包括:
输入组件,所述输入组件获得用于和数据库序列对齐的查询序列,其中所述查询序列包括具有查询序列长度的符号串,其中所述数据库序列包括具有数据库序列长度的符号串,且其中所述数据库序列被至少分段成第一带和第二带;
成本求值组件,所述成本求值组件使用所述处理单元来基于一成本函数为所述数据库序列的所述第一带跨所述查询序列计算Smith-Waterman值,所述成本函数对序列间的生物相似性建模,其中所述数据库序列的所述第二带跨所述查询序列的Smith-Waterman值用第二处理单元并行地计算;以及
更新组件,所述更新组件:
基于所述查询序列长度和所述成本函数来确定要被重新计算的所述数据库序列的所述第二带跨所述查询序列的所述Smith-Waterman值的子集;以及
使所述成本求值组件在所述数据库序列的所述第一带跨所述查询序列的所述Smith-Waterman值由所述第一处理单元计算之后,使用所述第一处理单元为所述数据库序列的所述第二带跨所述查询序列重新计算所述Smith-Waterman值的所述子集。
CN201380066248.1A 2012-12-17 2013-12-17 并行局部序列对齐 Active CN105051741B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/716,231 2012-12-17
US13/716,231 US9384239B2 (en) 2012-12-17 2012-12-17 Parallel local sequence alignment
PCT/US2013/075728 WO2014099957A1 (en) 2012-12-17 2013-12-17 Parallel local sequence alignment

Publications (2)

Publication Number Publication Date
CN105051741A true CN105051741A (zh) 2015-11-11
CN105051741B CN105051741B (zh) 2018-04-10

Family

ID=49956382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380066248.1A Active CN105051741B (zh) 2012-12-17 2013-12-17 并行局部序列对齐

Country Status (4)

Country Link
US (1) US9384239B2 (zh)
EP (1) EP2932426B1 (zh)
CN (1) CN105051741B (zh)
WO (1) WO2014099957A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9858384B2 (en) 2013-01-17 2018-01-02 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9940266B2 (en) 2015-03-23 2018-04-10 Edico Genome Corporation Method and system for genomic visualization
US10049179B2 (en) 2016-01-11 2018-08-14 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
CN109937453A (zh) * 2016-11-14 2019-06-25 微软技术许可有限责任公司 存储器减少的核苷酸序列比较
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
CN112416431A (zh) * 2020-11-23 2021-02-26 南京航空航天大学 一种基于编码序列表示的源代码片段成对比较方法
EP4121965A4 (en) * 2020-03-17 2024-04-24 Western Digital Tech Inc DEVICES AND METHODS FOR LOCALIZING A SAMPLE READ IN A REFERENCE GENOME

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205174B (zh) * 2015-10-14 2019-10-11 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置
CN106778077A (zh) * 2016-11-10 2017-05-31 电子科技大学 一种将Smith‑Waterman算法在FPGA平台实现的新方法
US10566076B2 (en) 2016-11-11 2020-02-18 Microsoft Technology Licensing, Llc Customized integrated circuit for serial comparison of nucleotide sequences
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
US11921608B2 (en) * 2020-10-30 2024-03-05 Accenture Global Solutions Limited Identifying a process and generating a process diagram
US11822541B2 (en) * 2021-09-30 2023-11-21 Nvidia Corporation Techniques for storing sub-alignment data when accelerating Smith-Waterman sequence alignments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917302B2 (en) * 2000-09-28 2011-03-29 Torbjorn Rognes Determination of optimal local sequence alignment similarity score
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020048763A1 (en) * 2000-02-04 2002-04-25 Penn Sharron Gaynor Human genome-derived single exon nucleic acid probes useful for gene expression analysis
WO2001057251A2 (en) * 2000-02-04 2001-08-09 Aeomica, Inc. Methods and apparatus for predicting, confirming, and displaying functional information derived from genomic sequence
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US20030194704A1 (en) * 2002-04-03 2003-10-16 Penn Sharron Gaynor Human genome-derived single exon nucleic acid probes useful for gene expression analysis two
US7629444B1 (en) * 2004-06-15 2009-12-08 Monsanto Technology Llc Nucleotide and amino acid sequences from Xenorhabdus bovienii strain Xs85831 and uses thereof
EP1859378A2 (en) 2005-03-03 2007-11-28 Washington University Method and apparatus for performing biosequence similarity searching
WO2007137225A2 (en) 2006-05-19 2007-11-29 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US20120239706A1 (en) 2011-03-18 2012-09-20 Los Alamos National Security, Llc Computer-facilitated parallel information alignment and analysis
US8572407B1 (en) * 2011-03-30 2013-10-29 Emc Corporation GPU assist for storage systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917302B2 (en) * 2000-09-28 2011-03-29 Torbjorn Rognes Determination of optimal local sequence alignment similarity score
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALI KHAJEH-SAEED ET AL: "Acceleration of the Smith-Waterman algorithm using single and multiple graphics processors", 《JOURNAL OF COMPUTATIONAL PHYSICS》 *
HENG LI等: "Fast and accurate long-read alignment with Burrows–Wheeler transform", 《BIOINFORMATICS》 *
M.FARRAR: "Striped Smith-Waterman speeds database searches six times over other SIMD implementations", 《BIOINFORMATICS》 *
SARA A.SHEHAB等: "Fast Dynamic Algorithm for Sequence Alignment based on Bioinformatics", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *
TORBJORN ROGNES等: "Six-fold Speed-up of Smith-Waterman sequence database searches using parallel proceeding on common microprocessor", 《BIOINFORMATICS》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083276B2 (en) 2013-01-17 2018-09-25 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10216898B2 (en) 2013-01-17 2019-02-26 Edico Genome Corporation Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9953132B2 (en) 2013-01-17 2018-04-24 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9953134B2 (en) 2013-01-17 2018-04-24 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9953135B2 (en) 2013-01-17 2018-04-24 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20180196917A1 (en) 2013-01-17 2018-07-12 Edico Genome Corporation Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US11842796B2 (en) 2013-01-17 2023-12-12 Edico Genome Corporation Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10262105B2 (en) 2013-01-17 2019-04-16 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9858384B2 (en) 2013-01-17 2018-01-02 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9898424B2 (en) 2013-01-17 2018-02-20 Edico Genome, Corp. Bioinformatics, systems, apparatus, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US11043285B2 (en) 2013-01-17 2021-06-22 Edico Genome Corporation Bioinformatics systems, apparatus, and methods executed on an integrated circuit processing platform
US10622096B2 (en) 2013-01-17 2020-04-14 Edico Genome Corporation Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10622097B2 (en) 2013-01-17 2020-04-14 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9940266B2 (en) 2015-03-23 2018-04-10 Edico Genome Corporation Method and system for genomic visualization
US10068052B2 (en) 2016-01-11 2018-09-04 Edico Genome Corporation Bioinformatics systems, apparatuses, and methods for generating a De Bruijn graph
US11049588B2 (en) 2016-01-11 2021-06-29 Illumina, Inc. Bioinformatics systems, apparatuses, and methods for generating a De Brujin graph
US10049179B2 (en) 2016-01-11 2018-08-14 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
CN109937453A (zh) * 2016-11-14 2019-06-25 微软技术许可有限责任公司 存储器减少的核苷酸序列比较
CN109937453B (zh) * 2016-11-14 2023-03-10 微软技术许可有限责任公司 存储器减少的核苷酸序列比较
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
EP4121965A4 (en) * 2020-03-17 2024-04-24 Western Digital Tech Inc DEVICES AND METHODS FOR LOCALIZING A SAMPLE READ IN A REFERENCE GENOME
CN112416431A (zh) * 2020-11-23 2021-02-26 南京航空航天大学 一种基于编码序列表示的源代码片段成对比较方法
CN112416431B (zh) * 2020-11-23 2023-02-14 南京航空航天大学 一种基于编码序列表示的源代码片段成对比较方法

Also Published As

Publication number Publication date
CN105051741B (zh) 2018-04-10
US20140172824A1 (en) 2014-06-19
EP2932426B1 (en) 2022-05-11
US9384239B2 (en) 2016-07-05
EP2932426A1 (en) 2015-10-21
WO2014099957A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
CN105051741A (zh) 并行局部序列对齐
Mlynarski et al. Deep learning with mixed supervision for brain tumor segmentation
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
US10055539B2 (en) Systems and methods for using paired-end data in directed acyclic structure
US10114922B2 (en) Identifying ancestral relationships using a continuous stream of input
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
WO2017120128A1 (en) Systems and methods for adaptive local alignment for graph genomes
CN109844729A (zh) 通过示例利用预测性粒度修改来合并
CN107133209A (zh) 基于人工智能的评论生成方法及装置、设备与可读介质
CN107545023B (zh) 文本型指标的提取方法和装置
CN109829162A (zh) 一种文本分词方法及装置
CN112562791A (zh) 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质
Borgwardt et al. Class prediction from time series gene expression profiles using dynamical systems kernels
CN110249344A (zh) 最佳解判定方法、最佳解判定程序及最佳解判定装置
Yi et al. Sampling strategies for improving tree accuracy and phylogenetic analyses: a case study in ciliate protists, with notes on the genus Paramecium
CN113724814B (zh) 一种分诊方法、装置、计算设备及存储介质
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN108874484A (zh) 数据处理方法、装置、设备及存储介质
Ayadi et al. Evolutionary biclustering algorithm of gene expression data
Shi et al. A sequential multiple change-point detection procedure via VIF regression
CN111553442A (zh) 一种分类器链标签序列的优化方法及系统
CN108304467A (zh) 用于文本间匹配的方法
CN111274924A (zh) 一种掌静脉检测模型建模方法、掌静脉检测方法及装置
Cong et al. Big data driven oriented graph theory aided tagsnps selection for genetic precision therapy
Gog et al. A new method for detecting signal regions in ordered sequences of real numbers, and application to viral genomic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant