CN111312333B - 一种bwt查表性能改进方法、装置、设备和介质 - Google Patents

一种bwt查表性能改进方法、装置、设备和介质 Download PDF

Info

Publication number
CN111312333B
CN111312333B CN202010094129.9A CN202010094129A CN111312333B CN 111312333 B CN111312333 B CN 111312333B CN 202010094129 A CN202010094129 A CN 202010094129A CN 111312333 B CN111312333 B CN 111312333B
Authority
CN
China
Prior art keywords
sequence
bwt
short
gene sequence
lower boundaries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010094129.9A
Other languages
English (en)
Other versions
CN111312333A (zh
Inventor
史宏志
赵健
崔星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010094129.9A priority Critical patent/CN111312333B/zh
Publication of CN111312333A publication Critical patent/CN111312333A/zh
Application granted granted Critical
Publication of CN111312333B publication Critical patent/CN111312333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种BWT查表性能改进方法、装置、设备和介质,方法包括:将参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值进行切分成短序列的操作;依次读取切分的短序列,并调用BWT查表过程对读取的短序列进行查询以获取对应的上下边界,将该上下边界与相应的短序列的对应关系填入映射关系表中;输入并读取测试基因序列,获取从当前读取位置开始的长度为最小完全匹配长度阈值的短序列,以将获取的短序列与映射关系表进行比对以获取对应的上下边界;响应于对比成功而获取对应的上下边界,继续对测试基因序列的短序列后的所有碱基执行BWT查表过程。本发明通过一次查表替换T次查询BWT索引表迭代过程,达到性能优化目的。

Description

一种BWT查表性能改进方法、装置、设备和介质
技术领域
本发明涉及计算机领域,并且更具体地,涉及一种BWT查表性能改进方法、装置、设备和介质。
背景技术
随着医疗科学的进步,精准医疗越来越接近普通人的生活,基因数据的处理作为基因诊断的重要环节之一,而基因数据比对是基因数据处理的前提。目前众多医疗机构和生物公司采用的数据比对方案多是采用基于BWT(Burrows Wheeler Transform,数据转换算法)算法的BWA基因数据比对软件对基因数据处理,该软件完全开源免费,具有比对精度高的优点,但相比于越来越庞大的基因测序仪下机数据而言性能稍显低下。
以BWA基因比对软件中关于BWT查表过程为例,一次成功的完全匹配映射过程中上下边界的确定,每个需要至少进行T(默认的最小完全匹配长度阈值)次循环迭代查询BWT索引表。以图1为例,简化版的查表索引过程,查询过程依次是g->gc->gca->gcaa->gcaac->gcaaca…。每一步的跳转都是依赖于前一步的计算结果,数据无法预取,并且数据访问位置在内存中不连续,是一种随机离散型的访存方式,效率比较低下。
即,在BWA原始的BWT实现中,一个短序列的匹配需要进行多次跳转迭代查询。map过程中,完全匹配的长度随输入的bp(碱基对)数量增加而增加,而每增加一个bp的输入,则要进行一系列的计算以及在BWT索引表上的跳转,这其中计算的消耗以及索引表跳转过程的随机访存造成整体性能的降低。
发明内容
鉴于此,本发明实施例的目的在于提出一种BWT查表性能改进方法、装置、设备和介质,以提升BWT索引表迭代过程,达到性能优化加速的目的。
基于上述目的,本发明实施例的一方面提供了一种BWT查表性能改进方法,包括以下步骤:
读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作;
依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
在一些实施方式中,所述方法还包括:
响应于比对失败而未能获取对应的上下边界,将所述测试基因序列的当前读取位置向后移动一个碱基对,获取从所述移动后的当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,并将所述获取的短序列进一步与所述映射关系表进行比对。
在一些实施方式中,读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作包括:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
将所述当前位置加1,再从所述新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;
重复上一步骤,直到读取到所述参考基因序列的结束位置。
在一些实施方式中,输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界包括:
将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
在一些实施方式中,所述预设的最小完全匹配长度阈值为19个碱基对。
在一些实施方式中,所述映射关系表为C++标准的关联式容器或支持哈希查询的数据结构。
在一些实施方式中,响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程包括:
根据所述获取的上下边界值来继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
本发明实施例的另一方面提供了一种BWT查表性能改进装置,包括:
基因序列切分模块,配置为读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作;
映射关系表生成模块,配置为依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
映射关系表查询模块,配置为输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
BWT查表模块,配置为响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
本发明实施例的又一方面提供了一种BWT查表性能改进设备,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施上述任一项所述的方法。
本发明实施例的又一方面提供了一种计算机介质,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施上述任一项所述的方法。
本发明具有以下有益技术效果:本发明实施例提供的一种BWT查表性能改进方法、装置和设备,通过添加诸如哈希查表的过程简化BWT查表过程中前T次的迭代过程,达到局部加速BWT查表过程的目的,从而从整体上提升BWA软件执行的基因数据比对过程的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1是简化版的BWT查表索引过程的示意图;
图2是根据本发明的一种BWT查表性能改进方法的流程图;
图3是根据本发明的一种BWT查表性能改进设备的硬件结构示意图。
具体实施方式
以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本发明的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例一方面提出了一种BWT查表性能改进方法,如图2所示,包括以下步骤:
步骤S201:读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作;
步骤S202:依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
步骤S203:输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
步骤S204:响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
在一些实施例中,所述方法还包括:响应于比对失败而未能获取对应的上下边界,将所述测试基因序列的当前读取位置向后移动一个碱基对,获取从所述移动后的当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,并将所述获取的短序列进一步与所述映射关系表进行比对。
在一些实施例中,所述映射关系表为C++标准的关联式容器或支持哈希查询的数据结构。
在一些实施例中,在BWA软件实现中,主要的功能模块包括:mapping模块,主要基于BWT算法,将基因短序列read(待比对基因序列,即测试基因序列)信息切分成可以完全匹配参考基因序列上的更短的子序列;基于打分矩阵计算对完全匹配的短序列进行扩充打分;过滤器对打分结果进行过滤后,挑选出最终比对结果格式化输出。本发明针对BWA软件实现中的第一功能模块——mapping模块进行改进优化,通过空间换时间的理念提出了一种基于哈希的对BWT运算模块进行局部加速的方法。
本发明中通过提前对参考基因序列中的长序列进行每隔1个bp(基因碱基数量单位,即碱基对),长度按预设T进行切分,通过哈希算法建立T长度的序列与BWT索引表之间的映射关系,形成哈希查找表。在BWT查表的起始阶段不对输入的read的待匹配位置进行BWT查表,而是进行哈希查表,如果哈希查表返回正确区间值,则通过返回的区间值去查询BWT表,若没有相应的值返回,则说明在原始参考基因序列上没有长度等于或超过T的完全匹配短序列,转至read的下个待匹配位置或者下一个输入的read序列继续处理。
在一些实施例中,读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作包括:初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;将所述当前位置加1,再从所述新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;重复上一步骤,直到读取到所述参考基因序列的结束位置。
在一些实施例中,输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界包括:将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
通过一次哈希查表过程即可替代原始BWT查表过程中T次的离散查表过程,可以有效的对整个查表过程进行局部加速处理,从而提高整体性能。需要说明的是BWT建表过程中会通过特定算法将具有同样前缀的bp序列编排到相邻位置,在BWT查表的过程就是这些相邻位置上下边界不断变窄直至不可变化为止。其中上边界和下边界的查表过程基本原理一致。
其中BWT索引表涉及的数据结构和计算查表方式如下所示:碱基映射关系:a/A->0,c/C->1,g/G->2,t/T->3。L[3]:存储创建的BWT表结构中4种碱基开始匹配的初始位置,其中a/A碱基初始位置为0,不需要存储;C[4]:存储参考基因序列中比下标值小的碱基数量;O[N][4]:创建的BWT表结构中当前下标之前所有的四种碱基数量统计;SA[N]:创建的BWT表结构中当前下标对应的参考基因序列位置。
具体的查表计算公式如下所示,假设当前需要查询的碱基为‘m’:
Lk=C[m]+O[Lk][m];
Ll=C[m]+O[Ll][m];
其中,Lk和Ll的初始化根据第一次查询BWT表的碱基值查询L[]获取,即Lk=L[m-1]或0(m为A/a碱基),Ll=L[m]或BWT表尾部(m为G/g碱基)。查询BWT表的过程即为反复迭代运行上述计算过程,直至Ll-Lk值达到预期值结束,SA[Lk:Ll]中的数据即为满足当前read子串完全匹配的所有参考基因序列位置。
在一些实施例中,所述预设的最小完全匹配长度阈值为19个碱基对。无论是在基因压缩或比对过程,都需要对完全匹配的最小长度做一个阈值限定,因为如果完全匹配的长度过小,可能会造成较大的噪声污染,为后续的压缩或者比对过程造成干扰,降低压缩率或者比对精度。在基因比对BWA软件实现中,默认最小完全匹配长度阈值设定为T=19bp。
在根据本发明的一个实施例中,假设BWT最短完全匹配长度阈值设为T=19,碱基映射关系a/A->0、c/C->1、g/G->2、t/T->3,每个碱基需要2bit来区别表示,则T长度短序列需要19*2=38bit来存储,将该字符串转换为例如整型并设为V,哈希表的映射关系为V->(Lk,Ll),其中(Lk,Ll)值的确定由上述BWT查表过程对当前T长度短序列查表后确定,对所有不同的V建立映射关系后存储于C++标准map(一类关联式容器)或任意支持准确哈希查询的数据结构中。
哈希表的创建过程如下所示:1)读入参考基因序列,初始化当前位置0;2)获取当前位置开始的T长度短序列S,转3);3)调用BWT查表过程对S查询获取对应的(Lk,Ll),将其插入到哈希表对应的map或其他任意支持准确哈希查询的hash[]数据结构中,转到4);4)当前位置向后移动一个位置,若没有处理到参考基因序列结束位置,转到2),否则结束;
改进后的对输入read不同位置开始的查表过程如下所示:1)获取当前read位置开始的T长度短序列;2)将T长度短序列转化为对应的V值,查询获得pair=(Lk,Ll)=hash[V],若pair不为空,转3),若为空,即没有查询到V值在参考基因序列和BWT表中有完全匹配信息,则对当前read位置的匹配查表过程结束;3)执行原始BWA软件实现超过T长度的短序列后续碱基执行BWT查表过程,直至结束。
在一些实施例中,响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程包括:根据所述获取的上下边界值来继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
总结来说,本发明对BWT查表过程的改进即为:先执行查询例如哈希表,确认是否存在T长度短序列映射关系,若存在则继续进行后续的BWT查表;否则说明没有必要对当前位置进行BWT查表(即使执行原始BWT查表,也不会有超过或等于T长度的完全匹配结果)。
在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,或者改变、添加以及省略等等,从而形成本发明范围内的另外实施例。
从上述实施例可以看出,本发明实施例提供的一种BWT查表性能改进方法通过添加例如哈希查表过程简化BWT查表过程中前T次迭代过程,达到局部加速BWT查表过程的目的,从而从整体上提升BWA软件执行的基因数据比对过程的性能。
基于上述目的,本发明实施例的另一个方面,提出了一种BWT查表性能改进装置,包括:基因序列切分模块,配置为读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作;映射关系表生成模块,配置为依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;映射关系表查询模块,配置为输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;BWT查表模块,配置为响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
基于上述目的,本发明实施例的又一个方面,提出了一种计算机介质,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施如上任一项所述的方法。
基于上述目的,本发明实施例的又一个方面,提出了一种BWT查表性能改进设备,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施上述任一项所述的方法。
如图3所示,为本发明提供的BWT查表性能改进设备的一个实施例的硬件结构示意图。
以如图3所示的计算机设备为例,在该计算机设备中包括处理器301以及存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述BWT查表性能改进方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的BWT查表性能改进方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据BWT查表性能改进方法所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的数字或字符信息,以及产生与BWT查表性能改进方法的计算机设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
所述一个或者多个BWT查表性能改进方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的BWT查表性能改进方法。
所述执行所述BWT查表性能改进方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器、磁盘或光盘等。
上述实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (8)

1.一种BWT查表性能改进方法,其特征在于,包括以下步骤:
读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作
依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程;
其中,所述读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作包括:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
将所述当前位置加1,再从新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;
重复上一步骤,直到读取到所述参考基因序列的结束位置;
所述输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界包括:
将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于比对失败而未能获取对应的上下边界,将所述测试基因序列的当前读取位置向后移动一个碱基对,获取从所述移动后的当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,并将所述获取的短序列进一步与所述映射关系表进行比对。
3.根据权利要求1所述的方法,其特征在于,所述预设的最小完全匹配长度阈值为19个碱基对。
4.根据权利要求1所述的方法,其特征在于,所述映射关系表为C++标准的关联式容器或支持哈希查询的数据结构。
5.根据权利要求1所述的方法,其特征在于,响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程包括:
根据所述获取的上下边界值来继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
6.一种BWT查表性能改进装置,其特征在于,包括:
基因序列切分模块,配置为读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作映射关系表生成模块,配置为依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
映射关系表查询模块,配置为输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
BWT查表模块,配置为响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程;
所述基因序列切分模块进一步配置为:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
将所述当前位置加1,再从新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;
重复上一步骤,直到读取到所述参考基因序列的结束位置;
所述映射关系表查询模块进一步配置为:将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
7.一种BWT查表性能改进设备,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-5中任一项所述的方法。
8.一种计算机介质,其特征在于,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施如权利要求1-5中任一项所述的方法。
CN202010094129.9A 2020-02-15 2020-02-15 一种bwt查表性能改进方法、装置、设备和介质 Active CN111312333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094129.9A CN111312333B (zh) 2020-02-15 2020-02-15 一种bwt查表性能改进方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094129.9A CN111312333B (zh) 2020-02-15 2020-02-15 一种bwt查表性能改进方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111312333A CN111312333A (zh) 2020-06-19
CN111312333B true CN111312333B (zh) 2022-06-21

Family

ID=71147131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094129.9A Active CN111312333B (zh) 2020-02-15 2020-02-15 一种bwt查表性能改进方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111312333B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131218B (zh) * 2020-09-04 2022-05-10 苏州浪潮智能科技有限公司 一种基因对比的哈希查表方法、装置、设备及存储介质
CN117093288B (zh) * 2023-08-18 2024-04-30 江苏新质信息科技有限公司 基于前后台通信的数据双向映射方法及装置
CN117497055B (zh) * 2024-01-02 2024-03-12 北京普译生物科技有限公司 神经网络模型训练、碱基测序电信号的片段化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468439A (zh) * 2013-09-22 2015-03-25 罗森伯格(上海)通信技术有限公司 用于数字预失真系统的查找表优化方法
CN106682393A (zh) * 2016-11-29 2017-05-17 北京荣之联科技股份有限公司 基因组序列比对方法及装置
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions
CN110308892A (zh) * 2019-07-01 2019-10-08 湖南国科微电子股份有限公司 一种基于查表法的游程测试方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468439A (zh) * 2013-09-22 2015-03-25 罗森伯格(上海)通信技术有限公司 用于数字预失真系统的查找表优化方法
CN106682393A (zh) * 2016-11-29 2017-05-17 北京荣之联科技股份有限公司 基因组序列比对方法及装置
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions
CN110308892A (zh) * 2019-07-01 2019-10-08 湖南国科微电子股份有限公司 一种基于查表法的游程测试方法

Also Published As

Publication number Publication date
CN111312333A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111312333B (zh) 一种bwt查表性能改进方法、装置、设备和介质
US11693839B2 (en) Parser for schema-free data exchange format
CN104252469B (zh) 用于模式匹配的方法、设备和电路
US20170038978A1 (en) Delta Compression Engine for Similarity Based Data Deduplication
EP3767483A1 (en) Method, device, system, and server for image retrieval, and storage medium
WO2021072874A1 (zh) 基于双数组的位置查询方法、装置、计算机设备及存储介质
US9619657B2 (en) Method and apparatus for storing redeem code, and method and apparatus for verifying redeem code
CN108733317B (zh) 数据存储方法和装置
CN111078672B (zh) 数据库的数据对比方法及装置
JP2009512099A (ja) トライでの再始動可能なハッシュの方法及び装置
CN106599097B (zh) 海量特征串集合的匹配方法和装置
AU2014353667A1 (en) A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure
Gabrys et al. Codes in the Damerau distance for DNA storage
JP5873925B2 (ja) 圧縮一致列挙
CN110659165A (zh) 一种多节点服务器自动化测试方法和装置
CN111400346A (zh) 一种提升数据库一体机执行效率的方法、设备、装置和介质
US11106657B2 (en) Optimizing hash storage and memory during caching
CN111402958B (zh) 一种建立基因比对表的方法、系统、设备及介质
CN111338697B (zh) 一种利用hid键盘进行一键设置的装置及方法
CN110266834B (zh) 基于互联网协议地址的地区查找方法及装置
CN111045989A (zh) 一种查询cpld版本信息的方法、设备及介质
CN112579839B (zh) 大规模特征的多模匹配方法、装置及存储介质
CN113065419B (zh) 一种基于流量高频内容的模式匹配算法及系统
JP6261669B2 (ja) クエリ校正システムおよび方法
CN115642918A (zh) 双原模图ldpc码的编码优化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant