CN114090840A - 序列查找方法、装置、设备及介质 - Google Patents

序列查找方法、装置、设备及介质 Download PDF

Info

Publication number
CN114090840A
CN114090840A CN202010856456.3A CN202010856456A CN114090840A CN 114090840 A CN114090840 A CN 114090840A CN 202010856456 A CN202010856456 A CN 202010856456A CN 114090840 A CN114090840 A CN 114090840A
Authority
CN
China
Prior art keywords
sequence
subsequence
character
acceleration library
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010856456.3A
Other languages
English (en)
Inventor
王正
杨德志
陈亮宇
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010856456.3A priority Critical patent/CN114090840A/zh
Priority to PCT/CN2021/095825 priority patent/WO2022041881A1/zh
Publication of CN114090840A publication Critical patent/CN114090840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Abstract

本申请提供了一种序列查找方法,包括:从目标序列中确定至少一个长度为预设长度值的子序列,该子序列以目标序列中的一个字符为起点,然后在用于加速查找设定长度值的序列的加速库中查找子序列,得到子序列或者子序列以一个字符为起点的最大精确匹配在参考序列中的位置。该方法将待查找的目标序列分段,然后基于预先构建的加速库加速查找分段所得的子序列,避免逐个查找目标序列的字符,提高了查找效率。

Description

序列查找方法、装置、设备及介质
技术领域
本申请涉及计算技术领域,尤其涉及一种序列查找方法、装置、设备以及计算机可读存储介质。
背景技术
序列是指具有顺序关系的多个字符形成的字符串。基于组成序列的字符的类型差异,序列可以分为数字序列、字母序列、汉字序列以及由多种类型字符组成的混合序列。在一些示例中,数字序列可以包括电话号码、银行卡号等等,字母序列可以包括基因序列(通常包括字母A、C、G、T,用于表征不同类型碱基)等等。
在许多场景中,需要在一个给定的参考序列中查找是否存在目标序列。以基因测序为例,通常需要在参考基因组(为了便于描述,可以称之为reference)中查找对若干样本进行检测得到的目标序列(为了便于描述,可以称之为read),得到该目标序列或者目标序列的最大精确匹配在参考基因组中的位置。
目前,业界主要采用BW变换以及全文索引(burrows wheeler transform-fulltext index in minute space,BWT-FM)算法进行查找。具体地,在数据准备阶段,参考基因组经过BW变换输出索引BWT(排序后的循环字符串的末尾字符组成的字符串),以及后缀数组(suffix array,SA)。其中,根据索引BWT还可以确定二维数组(occurrence,OCC)。在查询阶段,通过访问OCC可以查找目标序列。
然而,上述方法查找效率较低,查找性能下降。业界亟需提供一种高效的序列查找方法。
发明内容
本申请提供了一种序列查找方法,该方法将待查找的目标序列分段,然后基于预先构建的加速库加速查找分段所得的子序列,避免逐个查找目标序列的字符,提高了查找效率。本申请还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种序列查找方法。该方法可以由任意具有数据处理能力的处理设备执行。处理设备可以从目标序列中确定至少一个长度为设定长度值的子序列,该子序列以所述目标序列中的一个字符为起点,然后处理设备在专用于加速查找设定长度值的序列的加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
其中,该方法将目标序列按照设定长度值分段,基于预先构建的加速库加速查找分段所得的子序列,避免逐个查找目标序列的字符,提高了查找效率,从而提升了查找性能。
在一些可能的实现方式中,所述加速库包括至少一个信息结构体,所述信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。如此,处理设备可以根据加速库中的信息结构体指示的信息,直接获得子序列或子序列以第一个字符为起点的最大精确匹配的范围,提高了查找效率。
在一些可能的实现方式中,所述信息结构体包括存在字段和长度字段中的至少一个字段以及范围字段。其中,所述存在字段用于表征一个样本序列是否存在于所述参考序列中,所述范围字段用于表征所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围,所述长度字段用于表征所述样本序列或者所述样本序列的最大精确匹配的长度。
在一些实施例中,信息结构体可以包括存在字段和范围字段。在另一些实施例中,信息结构体可以包括范围字段和长度字段。当然,信息结构体也可以包括存在字段、范围字段和长度字段。
如此,处理设备可以根据信息结构体中的存在字段和长度字段中的至少一个以及范围字段获得子序列或子序列以第一个字符为起点的最大精确匹配的范围,如此无需逐个比对字符,提高了查找效率。
在一些可能的实现方式中,加速库中样本序列的信息结构体可以根据序列与存储地址的映射关系存储在相应的存储地址中。如此,在查找子序列时,处理设备可以根据序列与存储地址的映射关系确定所述子序列对应的存储地址,然后处理设备可以根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
如此,在查找目标序列时,针对子序列这一部分,处理设备仅通过访问一次内存即可获得查找结果,减少了访问内存的次数,提高了查找效率,提升了查找性能。
在一些可能的实现方式中,所述加速库包括位于内存的第一加速库,所述设定长度值为第一长度值。其中,内存也被称为内存储器,其作用是用于暂时存放处理器中的运算数据,以及与磁盘等外存(也称作外部存储器)交换数据。
其中,第一加速库位于内存,处理设备无需将第一加速库加载至内存,节省了加载第一加速库的时间,提高了查找效率。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定。第一加速库位于内存,因此,第一加速库中样本序列的信息结构体占用的存储空间应当不大于内存的存储空间。即第一长度值应当满足如下公式:
Figure BDA0002646585390000021
其中,P表示内存的大小。m表示目标序列中每个字符的取值空间包括的、可能的取值的数量,例如在基因测序场景中,m可以为4。w表示每个信息结构体占用的空间大小,例如存在字段占用1个字节,范围字段占用8+8个字节,长度字段占用8个字节,则w取值为25。
如此,可以避免内存被用尽,导致序列查找受到影响,保障查找性能。
在一些可能的实现方式中,所述加速库包括位于外存的第二加速库,所述设定长度值为第二长度值。其中,外存是指存储设备中除内存以外的设备。在一些实施例中,外存包括磁盘、固态驱动器(solid state drive,SSD)、闪存存储器等中的任意一种或多种。
由于外存的存储空间一般大于内存的存储空间,因此,在第二加速库中可以查找长度更长的子序列,如此可以提高效率,提升查找性能。
在一些可能的实现方式中,所述第二长度值根据所述外存的大小确定。第二长度值可以满足如下公式:
mlen′*w≤Q
其中,Q表示外存的大小,例如磁盘的大小。m表示目标序列中每个字符的取值空间包括的、可能的取值的数量。w表示每个信息结构体占用的空间大小。
处理设备随机访问外存一次的时间是随机访问内存一次的时间的δ倍,即外存内存访问耗时比为δ,可以设置第三长度值lenE,其满足如下公式:
Figure BDA0002646585390000031
当子序列长度为lenE时,访问内存查找子序列和访问外存查找子序列所耗费的时间相当。而针对长度为lenC的子序列,访问内存的时间可以忽略。因此,子序列长度为lenC+lenE时,访问内存查找子序列和访问外存查找子序列所耗费的时间相当。为此,处理设备可以设置len′大于lenC+lenE。具体地,len′可以设置为:
len′=lenC+lenE+lenF
其中,lenF为第四长度值,第二长度值等于第一长度值、第三长度值以及第四长度值之和。具体地,处理设备可以将上述公式迭代至第二长度值应当满足的公式,从而求解得到lenF
当最大精确匹配长度小于lenC+lenE+lenF时,可以大幅缩短查询时间,提高查询效率,提升查询性能。
在一些可能的实现方式中,所述第二信息结构体还包括比较字段。所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值。所述预设长度阈值根据内存的大小以及外存内存访问耗时比确定。例如预设长度阈值可以为lenc+lenE。如此,处理设备可以根据比较字段快速获得最大精确匹配的长度与预设长度阈值的大小,该比较结果可以为后续查找过程提供帮助。
在一些可能的实现方式中,处理设备可以结合内存断点查找法和外存断点查找法进行序列查找,如此可以综合内存断点查找法和外存断点查找法的优势,进一步提升查找效率。
具体地,处理设备可以从目标序列中确定至少一个第一子序列和至少一个第二子序列,至少一个第一子序列和至少一个第二子序列以目标序列中的一个字符为起点,该第二子序列长于所述第一子序列,处理设备可以在位于内存的第一加速库中查找所述第一子序列,以及在位于内存的第二加速库中查找所述第二子序列。
该方法将内存断点查找法、外存断点查找法结合,可以查询任意长度的最大精确匹配,不局限于有限长度内的最大精确匹配。而且,该方法可以实现多个分支异步并行查找,提高了查找效率。
在一些可能的实现方式中,当在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配时,停止在所述第一加速库中查找所述第一子序列,当在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配时,停止在所述第二加速库中查找所述第二子序列。
在该实现方式中,当一个分支先查找到结果,与该分支并行的分支可以停止查找,如此可以避免资源浪费。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定,或者根据外存内存访问耗时比确定。在一些实施例中,第一长度值可以为lenc。在另一些实施例中,第一长度值可以为lenE。如此,即使最大精确匹配的长度较小,也可以通过内存断点查找这一分支,快速查找子序列,提升查找效率。
在一些可能的实现方式中,处理设备可以在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述参考序列中的位置,然后根据所述查找结果构建所述加速库。如此,可以为后续序列查找提供帮助,提高查找效率。
在一些可能的实现方式中,处理设备可以根据所述参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果。该查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组的范围,以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。
其中,处理设备可以通过上述方式加速查找样本序列,加快加速库构建过程,提高加速库构建的效率。
在一些可能的实现方式中,所述序列为基因序列。由此,可以在基因测序场景中快速定位基因序列在基因组的位置,提高基因序列查找效率。
第二方面,本申请提供了一种序列查找装置。所述装置包括:
确定模块,用于从目标序列中确定至少一个子序列,所述子序列以所述目标序列中的一个字符为起点;
查找模块,用于在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置,所述加速库用于加速查找设定长度值的序列,所述子序列的长度为所述设定长度值。
在一些可能的实现方式中,所述加速库包括至少一个信息结构体,所述信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。
在一些可能的实现方式中,所述信息结构体包括存在字段和长度字段中的至少一个字段以及范围字段,所述存在字段用于表征一个样本序列是否存在于所述参考序列中,所述范围字段用于表征所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围,所述长度字段用于表征所述样本序列或者所述样本序列的最大精确匹配的长度。
在一些可能的实现方式中,所述查找模块具体用于:
根据序列与存储地址的映射关系确定所述子序列对应的存储地址;
根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
在一些可能的实现方式中,所述加速库包括位于内存的第一加速库,所述设定长度值为第一长度值。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定。
在一些可能的实现方式中,所述加速库包括位于外存的第二加速库,所述设定长度值为第二长度值。
在一些可能的实现方式中,所述第二长度值根据所述外存的大小确定。
在一些可能的实现方式中,所述第二信息结构体还包括比较字段,所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值,所述预设长度阈值根据内存的大小以及外存内存访问耗时比确定。
在一些可能的实现方式中,所述确定模块具体用于:
从目标序列中确定至少一个第一子序列和至少一个第二子序列,所述至少一个第一子序列和所述至少一个第二子序列以所述目标序列中的一个字符为起点,所述第二子序列长于所述第一子序列;
所述加速库包括位于内存的第一加速库和位于外存的第二加速库;
所述查找模块具体用于:
在所述第一加速库中查找所述第一子序列,以及在所述第二加速库中查找所述第二子序列。
在一些可能的实现方式中,所述查找模块具体用于:
当在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配时,停止在所述第一加速库中查找所述第一子序列,当在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配时,停止在所述第二加速库中查找所述第二子序列。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定,或者根据外存内存访问耗时比确定。
在一些可能的实现方式中,所述装置还包括:
构建模块,用于在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述参考序列中的位置,根据所述查找结果构建所述加速库。
在一些可能的实现方式中,所述构建模块具体用于:
根据所述参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组的范围,以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。
在一些可能的实现方式中,所述序列为基因序列。
第三方面,本申请提供一种计算设备,所述计算设备包括处理器和存储器。所述处理器、所述存储器进行相互的通信。所述处理器用于执行所述存储器中存储的指令,以使得计算设备执行如第一方面或第一方面的任一种实现方式中的序列查找方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,所述指令指示计算设备执行上述第一方面或第一方面的任一种实现方式所述的序列查找方法。
第五方面,本申请提供了一种包含指令的计算机程序产品,当其在计算设备上运行时,使得计算设备执行上述第一方面或第一方面的任一种实现方式所述的序列查找方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
图1为本申请实施例提供的一种序列查找方法的场景架构图;
图2为本申请实施例提供的一种处理设备的结构示意图;
图3为本申请实施例提供的一种序列查找方法的流程图;
图4为本申请实施例提供的一种序列查找方法的流程图;
图5为本申请实施例提供的一种序列查找方法的流程图;
图6为本申请实施例提供的一种序列查找装置的结构示意图。
具体实施方式
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
序列是指具有顺序关系的多个字符形成的字符串。基于组成序列的字符的类型差异,序列可以分为数字序列、字母序列、汉字序列以及由多种类型字符组成的混合序列。其中,数字序列可以包括电话号码、银行卡号等等,例如一个数字序列可以为132xxxx2323。字母序列可以包括基因序列,例如GGGCCAACTACC。其中,基因序列中的字母A、C、G、T,用于表征不同类型碱基。
序列查找是指在一个长序列中查找一个短序列。其中,该长序列也可以称之为参考序列,短序列可以称之为目标序列。序列查找即是在参考序列中查找目标序列,若目标序列存在于参考序列中,返回目标序列在参考序列中的位置,若目标序列不存在于参考序列中,返回该目标序列在参考序列中的最大精确匹配,具体是以目标序列以指定位置(指定字符)为起点的最大精确匹配。
其中,参考序列可以是一个长字符串R,目标序列可以是一个短字符串s,以短字符串s中位置c的字符为起点,在R中精确匹配成功的所有s子串中最长的子串称为s以c为起点的最大精确匹配。为了便于理解,下面结合具体示例对最大精确匹配进行说明。在该示例中,长字符串R为“addsdfyihadsdk”,短字符串s为“dsdfyask”,以短字符串s中位置1的字符d为起点,在R中精确匹配成功的所有子串包括“dsdfy”和“dfy”。其中,最长的子串为“dsdfy”,“dsdfy”即为s以字符d为起点的最大精确匹配。
目前,业界主要采用BWT-FM算法进行序列查找。具体地,参考序列经过BW变换后可以输出索引BWT以及后缀数字SA。其中,根据索引BWT还可以生成二维数组OCC。在查找目标序列时通常需要多次访问内存(具体是内存中的二维数据OCC),如此导致查找效率较低,查找性能下降。
有鉴于此,本申请实施例提供了一种高效的序列查找方法。该方法可以由具有数据处理能力的处理设备执行。该处理设备可以是服务器或者终端,其中,终端包括但不限于台式机、笔记本电脑、平板电脑和智能手机。在一些可能的实现方式中,该处理设备还可以是集群。
具体地,处理设备可以从目标序列中确定至少一个子序列,该子序列具体以目标序列中的一个字符为起点。然后,处理设备在预先构建的加速库中查找子序列。其中,加速库用于加速查找设定长度值的序列。子序列的长度为设定长度值,如此,处理设备可以无需逐个比较子序列包括的字符,直接根据加速库查找子序列,得到子序列或者子序列以一个字符为起点的最大精确匹配在参考序列中的位置。
该方法通过将待查找的目标序列分段,然后基于预先构建的加速库加速查找分段所得的子序列,避免逐个查找目标序列的字符,提高了查找效率。进一步地,该方法还可以根据序列与存储地址的映射关系,直接访问子序列对应的存储地址,获得子序列或者子序列以一个字符为起点的最大精确匹配在参考序列中的位置,减少了处理设备访问内存的次数,尤其是最大精确匹配的长度小于子序列的长度时,仅需随机访问一次内存,如此可以提高查找效率,降低查找成本,提升查找性能。
其中,加速库可以包括至少一个信息结构体。信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。在一些实现方式中,信息结构体包括存在字段和范围字段。存在字段用于表征与子序列等长的一个样本序列是否存在于参考序列中,范围字段用于表征(子序列存在于参考序列中时)子序列的范围,或者(子序列不存在于参考序列中时)子序列以上述一个字符为起点的最大精确匹配的范围。在另一些实现方式中,信息结构体包括范围字段和长度字段。长度字段用于表征子序列的长度,或者子序列以一个字符为起点的最大精确匹配的长度。进一步地,信息结构体包括上述存在字段、范围字段和长度字段。如此,处理设备可以得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
如此,处理设备可以基于该加速库直接确定子序列是否存在于参考序列,若是,则返回子序列在参考序列中的位置以及子序列的长度,若否,则返回子序列以该子序列的第一个字符为起点的最大精确匹配的长度。
为了便于理解本申请的技术方案,下面结合一基因测序场景对序列查找方法进行介绍。
参见图1所示的序列查找方法的应用场景示意图,该场景中包括检测设备100、处理设备200和用户终端300。检测设备100和用户终端300建立有通信连接,处理设备200和用户终端300建立有通信连接。其中,图1以处理设备200为服务器进行示例说明,在其他实现方式中,处理设备200可以为终端或者集群等设备。
具体地,检测设备100用于对血液、唾液等生物组织进行检测,得到目标序列。检测设备100可以向用户终端300发送目标序列,用户终端300可以将该目标序列提交至处理设备200。处理设备200接收到目标序列时,从目标序列中确定至少一个子序列,该子序列以目标序列的一个字符为起点,然后在加速库中查找该子序列,得到子序列或者子序列以一个字符为起点的最大精确匹配在参考基因组(参考序列)中的位置。
如此,在查找目标序列时,针对子序列这一部分,处理设备200仅通过访问一次内存即可获得查找结果,减少了访问内存的次数,提高了查找效率,提升了查找性能。
以上对序列查找方法的系统架构进行介绍。接下来,将从硬件实体化角度对系统中的处理设备200进行介绍。
图2示出了处理设备200的结构示意图。应理解,图2仅仅示出了上述处理设备200中的部分硬件结构和部分软件模块,具体实现时,处理设备200还可以包括更多的硬件结构,如指示灯、蜂鸣器等等,以及更多的软件模块,如各种应用程序等。
如图2所示,处理设备200包括总线201、处理器202、通信接口203和存储器204。处理器202、存储器204和通信接口203之间通过总线201通信。
总线201可以是外设部件互连标准(peripheral component interconnect,PCI)总线、快捷外设部件互连标准(peripheral component interconnect express,PCIe)或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器202可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
通信接口203用于与外部通信,例如接收用户终端300发送的目标序列,向用户终端300返回子序列在参考序列中的位置或者子序列以一个字符为起点的最大精确匹配在参考序列中的位置等等。
存储器204可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器204还可以包括非易失性存储器(non-volatilememory),也例如只读存储器(read-only memory,ROM),快闪存储器,硬盘驱动器(harddisk drive,HDD)或固态硬盘驱动器(solid state drive,SSD)。其中,RAM、ROM称为内存,HDD、SSD称为外存。
存储器204中存储有程序或指令,例如实现本申请实施例提供的序列查找方法所需的程序或指令。处理器202执行该程序或指令以执行前述序列查找方法。
为了使得本申请的技术方案更加清楚、易于理解,下面结合附图对本申请实施例提供的序列查找方法进行详细介绍。
参见图3所示的序列查找方法的流程图,该方法包括:
S302:处理设备200从目标序列中确定至少一个子序列。
所述子序列以所述目标序列中的一个字符为起点。例如,处理设备200可以目标序列中一组间隔预设长度值的字符为起点,确定一组子序列。这一组子序列包括至少一个子序列。当这一组子序列包括多个子序列时,多个子序列的长度相等。
考虑到目标序列中可能存在特殊字符的情况,该特殊字符是指组成序列的正常字符之外的字符,例如基因测序场景中,检测设备100无法确定一个碱基的类型时,可以将该碱基标记为N(具体是A、C、G、T之外的字符)。处理设备200可以先确定目标序列中的一个字符为起点,然后以与该起点间隔预设长度值的字符为终点,接着确定起点和终点之间是否包括特殊字符。
当起点和终点之间包括特殊字符时,则将起点更新为该特殊字符之后的一个字符,重新执行上述步骤,即重新确定终点,以及确定起点和终点之间是否包括特殊字符,直至起点和终点之间不包括特殊字符。如此处理设备200可以根据该起点和终点之间的字符确定一个子序列。进一步地,处理设备200可以更新起点,再次执行上述步骤,确定下一个子序列。
S304:处理设备200在加速库中查找所述子序列,得到子序列或者子序列以上述一个字符为起点的最大精确匹配在参考序列中的位置。
其中,加速库用于加速查找设定长度值的序列。子序列的长度为所述设定长度值,如此,处理设备200可以直接根据加速库查找子序列,得到子序列或者子序列以该子序列的第一个字符为起点的最大精确匹配在参考序列中的位置。
在一些可能的实现方式中,所述加速库包括至少一个信息结构体,所述信息结构体包括存在字段、范围字段和长度字段。其中,存在字段用于标识一个与子序列等长的样本序列是否在参考序列中,范围字段用于标识样本序列或样本序列以该样本序列的第一个字符为起点的最大精确匹配的范围,长度字段用于标识样本序列或样本序列以该样本序列的第一个字符为起点的最大精确匹配的长度。
存在字段的值可以为布尔(bool)值。该布尔值可以为true或者false。在一些实施例中,字段值也可以为数值1、0,用于表征true或者false。范围标识具体可以包括起始标识和结束标识,起始标识和结束标识可以通过start和end表征。长度字段可以通过length表征。
样本序列可以对序列中的每一个字符在取值空间中随机采样生成。以基因测序场景为例,每一个字符的取值空间为{A、C、G、T}。假设样本序列长度为4,则样本序列可以包括AACT、GATT、CAGG等等。
处理设备200可以针对至少一个样本序列,在参考序列中查找该样本序列,获得查找结果。该查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配的位置。然后处理设备200可以根据上述查找结果构建加速库,以便后续查找子序列时,能够直接返回子序列或子序列以第一个字符为起点的最大精确匹配在参考序列中的位置。
在一些可能的实现方式中,处理设备200可以通过哈希(hash)查找法或者BWT-FM法,在参考序列中查找样本序列,获得查找结果。为了便于理解,下面以基因测序场景中通过BWT-FM法查找样本序列进行示例说明。
具体地,处理设备200根据参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果。该查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组OCC的范围(该范围可以用于确定在参考序列中的位置),以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。如此,处理设备可以根据查找结果获得针对至少一个样本序列的信息结构体,基于上述信息结构体可以构建加速库。
在一些可能的实现方式中,处理设备200还可以建立序列与存储地址的映射关系。例如,基因序列可以按照四进制进行计数,其中,碱基ACGT分别表征0、1、2、3,则AACT代表四进制数值0013,该四进制数值可以被换算为0+0+1*4+3=7。假设一个基因序列对应的信息结构体占用K个字节,则0-6这7个数值占用字节为7*K,ACGT的存储地址(具体是起始地址)可以为0x00+7*K。处理设备200可以根据该映射关系将序列的信息结构体存储在对应存储地址。
如此,处理设备200在查找子序列时,可以根据序列与存储地址的对应关系确定子序列对应的存储地址,然后根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。由此可以进一步提高序列查找效率。
进一步地,加速库可以存储在内存和/或外存中,以便查找序列时使用。其中,内存的大小通常小于外存,因此,存储在内存中的加速库的规模一般小于存储在外存中的加速库。为了便于描述,本申请实施例将存储在内存中的加速库称之为第一加速库,存储在外存中的加速库称之为第二加速库。
在一些可能的实现方式中,处理设备200可以通过第一加速库查找子序列,以提高查找效率。具体地,第一加速库包括至少一个第一信息结构体。每个第一信息结构体的存在字段用于表征一个长度为所述第一长度值的样本序列是否存在于参考序列中。范围字段用于表征所述样本序列或者所述样本序列以所述样本序列的第一个字符为起点的最大精确匹配的范围。长度字段用于表征所述样本序列或者所述样本序列以所述样本序列的第一个字符为起点的最大精确匹配的长度值。
处理设备200从第一加速库中确定与子序列匹配的样本序列,获得该样本序列的第一信息结构体,根据该第一信息结构体中的存在字段确定该子序列是否存在于参考序列中。若存在字段的值为true或者1,则表明该子序列存在于参考序列中。处理设备200根据范围字段的值确定子序列在参考序列的范围,以及根据长度字段的值确定子序列的长度。若存在字段的值为false或者0,则表明该子序列不存在于参考序列中。处理设备200根据范围字段的值确定子序列以该子序列的第一个字符为起点的最大精确匹配在参考序列的范围,以及根据长度字段的值确定该子序列以其第一个字符为起点的最大精确匹配的长度。
上述采用第一加速库查找序列的方法也可以称之为内存断点查找法。采用内存断点查找法时,子序列的长度为第一长度值,该第一长度值可以记作lenC,由于子序列的长度与样本序列的长度相等,因此,lenC满足如下公式:
Figure BDA0002646585390000101
其中,P表示内存的大小。m表示目标序列中每个字符的取值空间包括的、可能的取值的数量,例如在基因测序场景中,m可以为4。w表示每个信息结构体占用的空间大小,例如存在字段占用1个字节,范围字段占用8+8个字节,长度字段占用8个字节,则w取值为25。
基于此,第一长度值可以通过内存的大小确定。具体地,处理设备200将内存的大小代入上述公式(1),然后求解lenC
在内存断点查找法中,针对参考序列R和目标序列s,处理设备200从目标序列中确定以c为起点,长度为lenC的子序列s[c:c+lenC],然后在第一加速库中查找该s[c:c+lenC],如果s[c:c+lenC]在R中,返回s[c:c+lenC]在R中的位置,如果s[c:c+lenC]不在R中,返回s中以c为起点在R中的最大精确匹配以及该精确匹配在R中的位置。
当处理设备200采用内存断点查找法时,若最大精确匹配长度小于lenC,则查询仅需随机访问内存仅1次,查询成本可以忽略不计,极大地提高了查询效率,提升了查询性能。
在另一些可能的实现方式中,处理设备200可以通过第二加速库查找序列,以提高查找效率。具体地,第二加速库包括至少一个第二信息结构体。每个第二信息结构体的存在字段用于表征一个长度为所述第二长度值的样本序列是否存在于参考序列中。范围字段用于表征所述样本序列或者所述样本序列以所述样本序列的第一个字符为起点的最大精确匹配的范围。长度字段用于表征所述样本序列或者所述样本序列以所述样本序列的第一个字符为起点的最大精确匹配的长度值。
处理设备200从第二加速库中确定与子序列匹配的样本序列,获得该样本序列的第二信息结构体,根据该第二信息结构体中的存在字段确定该子序列是否存在于参考序列中。若存在字段的值为true或者1,则表明该子序列存在于参考序列中。处理设备200根据范围字段的值确定子序列在参考序列的范围,以及根据长度字段的值确定子序列的长度。若存在字段的值为false或者0,则表明该子序列不存在于参考序列中。处理设备200根据范围字段的值确定子序列以该子序列的第一个字符为起点的最大精确匹配在参考序列的范围,以及根据长度字段的值确定该子序列以其第一个字符为起点的最大精确匹配的长度。
上述采用第二加速库查找序列的方法也可以称之为外存断点查找法。其中,第二加速库存储在外存的磁盘中时,则可以称之为磁盘断点查找法。采用外存断点查找法时,子序列的长度为第二长度值,该第二长度值可以大于上述第一长度值。为了便于描述,该第二长度值可以记作len′,由于子序列的长度与样本序列的长度相等,因此,len′满足如下公式:
mlen′*w≤Q (2)
其中,Q表示外存的大小,例如磁盘的大小。m表示目标序列中每个字符的取值空间包括的、可能的取值的数量。w表示每个信息结构体占用的空间大小。
基于此,第二长度值的大小可以根据外存(例如磁盘)的大小而确定。具体地,处理设备200将外存的大小代入上述公式(2),然后求解len′。
其中,处理设备200随机访问外存一次的时间是随机访问内存一次的时间的δ倍,即外存内存访问耗时比为δ,可以设置第三长度值lenE,其满足如下公式:
Figure BDA0002646585390000111
当子序列长度为lenE时,访问内存查找子序列和访问外存查找子序列所耗费的时间相当。而针对长度为lenC的子序列,访问内存的时间可以忽略。因此,子序列长度为lenC+lenE时,访问内存查找子序列和访问外存查找子序列所耗费的时间相当。为此,处理设备200可以设置len′大于lenC+lenE。具体地,len′可以设置为:
len′=lenC+lenE+lenF (4)
其中,lenF为第四长度值,第二长度值等于第一长度值、第三长度值以及第四长度值之和。具体地,处理设备200可以将上述公式(4)代入上述公式(2),从而求解得到lenF
在外存断点查找法中,针对参考序列R和目标序列s,处理设备200从目标序列s中确定以c为起点,长度为lenC+lenE+lenF的子序列s[c:c+lenC+lenE+lenF],然后在第一加速库中查找该s[c:c+lenC+lenE+lenF],如果s[c:c+lenC+lenE+lenF]在R中,返回s[c:c+lenC+lenE+lenF]在R中的位置,如果s[c:c+lenC+lenE+lenF]不在R中,返回s中以c为起点在R中的最大精确匹配以及该精确匹配在R中的位置。
需要说明的是,第二信息结构体还可以包括比较字段。所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值。其中,预设长度阈值根据内存的大小以及外存内存访问耗时比确定。在一个示例中预设长度阈值可以为lenC+lenE
基于此,第一信息结构体可以包括b1、start1、end1和length1,第二信息结构体可以包括b2、b3、start2、end2和length2。其中,b1、b2分别表示第一信息结构体、第二信息结构体中存在字段的值,b3表示第二信息结构体中比较字段的值,start1、end1以及start2、end2分别表示第一信息结构体、第二信息结构体中范围字段的值,length1、length2分别表示第一信息结构体、第二信息结构体中长度字段的值。
以上对内存断点查找法和外存断点查找法进行了详细说明,在一些可能的实现方式中,处理设备200还可以将内存断点查找法和外存断点查找法组合,以发挥各个断点查找法的优势,进一步提高查找效率。进一步地,处理设备200还可以将内存断点查找法、外存断点查找法与BWT-FM法结合,用于查找序列,提高查找效率。
参见图4所示的序列查找方法的流程图,该方法包括:
S402:处理设备200获取目标序列。
具体地,处理设备200可以接收用户终端300发送的目标序列,以便在参考序列中查找该目标序列,确定目标序列或者目标序列的最大精确匹配在参考序列中的位置。在一些可能的实现方式中,处理设备200也可以直接接收检测设备100发送的目标序列,以便在参考序列中查找目标序列。
S404:处理设备200从目标序列中确定至少一个第一子序列。
第一子序列以目标序列中的一个字符为起点。第一子序列的长度可以为lenC。针对目标序列s,处理设备200从目标序列中确定的第一子序列可以为s[c:c+lenc]。需要说明的是,当s[c:c+lenc]中包括特殊字符时,处理设备200可以跳过该特殊字符,以特殊字符之后的位置为c,重新确定第一子序列s[c:c+lenc]。
S406:处理设备200从目标序列中确定至少一个第二子序列。
第二子序列以目标序列中的一个字符为起点。其中,第二子序列的起点可以和第一子序列的起点相同。第二子序列的长度可以为lenC+lenE+lenF。针对目标序列s,处理设备200从目标序列中确定的第二子序列可以为s[c:c+lenc+lenE+lenF]。需要说明的是,当s[c:c+lenc+lenE+lenF]中包括特殊字符时,处理设备200可以跳过该特殊字符,以特殊字符之后的位置为c,重新确定第一子序列s[c:c+lenc+lenE+lenF]。
S408:处理设备200在第一加速库中查找第一子序列。当第一子序列在参考序列中时,处理设备200执行S410。当第一子序列不在参考序列中时,处理设备200执行S414。
S410:处理设备200获得第一子序列在参考序列中的位置。
处理设备200可以根据第一加速库中与第一子序列匹配的样本序列的第一信息结构体,具体是该第一信息结构体的范围字段,获得第一子序列在二维数组OCC中的范围。然后,处理设备200可以基于该范围确定第一子序列在参考序列中的位置。
S412:处理设备200使用BWT-FM法查找第一子序列之后长度为第三长度值的字符。
具体地,处理设备200使用BWT-FM算法顺序查找s[c:c+lenc]以后的lenE长度,若在c+lenc与c+lenc+lenE位置之间查找到最大精确匹配,则返回目标序列以c为起始位置(即以子序列的第一个字符为起点)的最大精确匹配以及该最大精确匹配在参考序列R中的位置。该最大精确匹配的长度大于或等于lenc,且小于或等于lenc+lenE
S414:处理设备200获得第一子序列以第一个字符为起点的最大精确匹配,以及最大精确匹配在参考序列中的位置。
其中,s[c:c+lenc]不在参考序列中,故s[c:c+lenc]以第一个字符为起点的最大精确匹配也是目标序列以c为起始位置的最大精确匹配。处理设备200根据第一加速库中与第一子序列s[c:c+lenc]匹配的样本序列的第一信息结构体,具体是第一信息结构体的范围字段,获得第一子序列的最大精确匹配(目标序列以c为起始位置的最大精确匹配)在二维数组OCC中的范围。然后,处理设备200基于该范围确定第一子序列在参考序列中的位置。
S416:处理设备200在第二加速库中查找第二子序列。当第二子序列在参考序列中时,处理设备200执行S418。当第二子序列不在参考序列中时,处理设备200执行S422。
S418:处理设备200获得第二子序列在参考序列中的位置。
与S410类似,处理设备200可以根据第二加速库中与第二子序列匹配的样本序列的第二信息结构体,具体是该第二信息结构体的范围字段,获得第二子序列在二维数组OCC中的范围。然后,处理设备200可以基于该范围确定第二子序列在参考序列中的位置。
S420:处理设备200使用BWT-FM法查找第二子序列之后的字符。
具体地,处理设备200使用BWT-FM算法顺序查找s[c:c+lenC+lenE+lenF]之后的字符,直至查找到目标序列的最大精确匹配,返回该最大精确匹配以及最大精确匹配在参考序列中的位置。其中,最大精确匹配的长度大于或等于lenC+lenE+lenF
S422:处理设备200获得第二子序列以第一个字符为起点的最大精确匹配以及最大精确匹配在参考序列中的位置。
与S414类似,s[c:c+lenc+lenE+lenF]不在参考序列中,故s[c:c+lenc+lenE+lenF]以第一个字符为起点的最大精确匹配也是目标序列以c为起始位置的最大精确匹配。处理设备200根据第二加速库中与第二子序列s[c:c+lenc+lenE+lenF]匹配的样本序列的第二信息结构体,具体是第二信息结构体的范围字段,获得第二子序列的最大精确匹配(目标序列以c为起始位置的最大精确匹配)在二维数组OCC中的范围。然后,处理设备200基于该范围确定第二子序列在参考序列中的位置。
其中,第二信息结构体中还包括比较字段时,处理设备200还可以获取比较字段的值。比较字段的值为true或1时,表明目标序列以c为起始位置的最大精确匹配的长度大于预设长度阈值,例如大于lenc+lenE,处理设备200可以返回目标序列s以c为起点在参考序列R中的最大精确匹配以及该最大精确匹配在参考序列R中的位置。比较字段的值为false或0时,表明目标序列以c为起始位置的最大精确匹配的长度小于或等于预设长度阈值,例如,小于或等于lenc+lenE,处理设备200可以结束当前操作,通过S412返回最大精确匹配以及最大精确匹配在参考序列中的位置。
在上述实施例中,S404、S408可以和S406、S416可以并行执行,也可以按照设定的顺序先后执行。当S408和S416并行执行时,如果处理设备200先在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配(S422先执行完成)时,停止在所述第一加速库中查找所述第一子序列(S408)。类似地,处理设备200先在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配(S414先执行完成)时,停止在所述第二加速库中查找所述第二子序列(S416)。
如果S410、S414、S418、S422中S410先执行完成,则处理设备200继续执行S412。在执行S412过程中,若S422先执行完成,则停止执行S412,若S422未执行完成,则继续执行S412、S418。如果S410、S414、S418、S422中S418先执行完成,则处理设备200继续执行S420。在执行S410、S414、S418、S422中S422先执行完成,若最大精确匹配的长度大于lenc+lenE,则可以停止执行S410、S412、S414、S418。通过多个分支并行查找,可以实现以较短的时间获得查找结果。当一个分支先查找到结果,与该分支并行的分支可以停止查找,如此可以避免资源浪费。
在执行S412时,如果在lenc和lenE之间找到最大精确匹配,则停止执行S422,如果s[c+lenc:c+lenc+lenE]也在参考序列中,则继续执行S422,获得目标序列以c为起始位置的最大精确匹配以及该最大精确匹配在参考序列中的位置。
在执行S422时,如果最大精确匹配的长度小于或等于lenc+lenE,则停止执行S422,继续执行S412,获得目标序列以c为起始位置的最大精确匹配以及该最大精确匹配在参考序列中的位置。如果最大精确匹配的长度大于lenc+lenE,则停止执行S412,通过S422获得目标序列以c为起始位置的最大精确匹配以及该最大精确匹配在参考序列中的位置。
在图4所示实施例中,最大精确匹配长度小于lenE时,为了保障查找效率,还可以设置内存断点查找法中第一子序列的长度等于lenE。其中,lenE<lenC。对应地,第一加速库中样本序列的长度也等于lenE,如此可以保障查找时间至少不多于BWT-FM法,进而保障了序列查找效率。
基于上述内容描述,本申请实施例将内存断点查找法、外存断点查找法以及BWT-FM结合,可以查询任意长度的最大精确匹配,不局限于有限长度内的最大精确匹配。而且,该方法可以实现多个分支异步并行查找,提高了查找效率。
与二维数组全部存储在内存进行查找相比,该方法能够大幅提升查找性能。基于最大精确匹配长度不同,查找性能提升幅度存在一定差异,具体如下:
(1)当最大精确匹配的长度小于lenC时,查询时间可以忽略;
(2)当最大精确匹配的长度小于lenC+lenE时,随机访存减少了2*lenC次,平均性能至少提升2.5倍;
(3)当最大精确匹配的长度在lenC+lenE与lenC+lenE+lenF时,查询时间是个定值(对应BWT-FM算法查询lenC长度的时间),平均性能至少提升4倍;
(4)当精确匹配长度大于lenC+lenE+lenF时,减少了随机访问内存次数约为2*(lenC+lenF)次,在基因测序场景平均性能可以提升3倍。
下面以基因测序场景对本申请实施例提供的序列查找方法进行详细说明。参见图5所示的序列查找方法的流程图,该方法包括:
S501:标记read中特殊字符的位置,设置c=0,然后跳转至S502。
S502:设置read的c位置为起始位置,跳转至S503。
S503:c位置是否在read的范围内。若c位置超过read的长度范围,则跳转至步骤End,结束查询,否则分别跳转至S604和S704;
S604:判断以c位置为起点,长度为lenC的碱基串中是否有特殊字符,若是,则跳转至S6041,否则跳转至S605。
S6041:将c位置更新为特殊字符后的位置。
S605:以c为起始位置,长度为LenC的碱基串为索引查询第一加速库,获取该碱基串对应的第一信息结构体。然后跳转至S606。
第一信息结构体包括布尔值b1、OCC查询范围start1、end1以及长度length1
S606:判断第一信息结构体中b1是否为True,若是,则跳转至S607,否则跳转至S6061。
S6061:根据第一信息结构体确定最大精确匹配的相关信息;令c+=length1,然后跳转至S502。
最大精确匹配的相关信息包括最大精确匹配在reference中的位置以及最大精确匹配的长度length1。其中,最大精确匹配在reference中的位置可以根据在最大精确匹配在OCC的范围start1和end1确定。具体地,根据区间[start1,end1]查找后缀数组SA,获得区间内每个整数在SA中的匹配值,该匹配值即为最大精确匹配在reference中的起始位置。基于起始位置和最大精确匹配长度可以确定最大精确匹配在reference中的位置。
S607:判断以c位置为起点,长度为LenC+LenE的碱基串中是否有特殊字符,若是,则跳转至S6071;否则跳转至S608。
S6071:将c位置更新为特殊字符后的位置。
S608:使用BWT-FM法,利用OCC和SA继续查询,直至长度达到LenC+LenE,或者在长度达到LenC+LenE之前确定最大精确匹配。
S609:是否在长度达到LenC+LenE之前确定最大精确匹配。若是,则跳转至S6091。
S6091:确定最大精确匹配的相关信息,令c+=Lenmax+1,然后跳转至S502。
其中,Lenmax表征最大精确匹配的长度。
S704:判断位置c为起点,长度为LenC+LenE+LenF的碱基串中是否含有特殊字符,若是,则跳转至S7041;否则跳转至S705。
S7041:将c位置更新为特殊字符后的位置。
S705:以c位置为起始位置,长度为LenC+LenE+LenF的碱基串为索引,查找第二加速库,获得该碱基串对应的第二信息结构体。然后跳转至S706。
第二信息结构体包括布尔值b2、b3和OCC查询范围start2、end2以及长度length2
S706:判断第二信息结构体中的b2是否为True;若是,则跳转至S708,否则跳转至S707。
S707:判断第二信息结构体中的b3是否为True,若是,则跳转至S7071,否则结束当前流程。
S7071:根据第二信息结构体确定最大精确匹配的相关信息;令c+=length2,然后跳转至S502。
S708:使用BWT-FM法,利用OCC和SA继续查询至确定最大精确匹配。然后跳转至S7081。
S7081:确定最大精确匹配的相关信息。令c+=Lenmax+1。然后跳转至S502。
在上述实施例中,S6041、S6071以及S7041中将c位置更新为特殊字符后的位置时,还可以确定原起始位置和更新后的起始位置之间最大精确匹配的相关信息。例如,在S6071中,c到c+LenC已匹配,可以通过BWT-FM继续查找最大精确匹配,直至查找到更新后起始位置。
本申请实施例提供的上述序列查找方法可以以云服务的形式提供给用户使用。具体地,云服务提供商可以在云环境中运行序列查找方法对应的代码,从而实现以云服务方式提供序列查找服务。具体地,云服务提供商提供的云服务器可以向用户呈现序列查找界面,如用于序列查找的图形用户界面(graphical user interface,GUI),然后云服务器接收用户通过GUI输入的、待查找的目标序列。后台的云服务器可以从目标序列中确定至少一个子序列,该子序列以所述目标序列中的一个字符为起点。然后云服务器在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
在一些可能的实现方式中,上述序列查找方法可以通过代码实现,该代码可以被封装为软件包。台式机、笔记本、智能手机等终端计算设备(可以简称为终端),或者服务器可以获取软件包,并安装上述软件包。当软件包运行时,该终端或服务器可以执行上述序列查找方法。
在另一些可能的实现方式中,硬件商在发布硬件如CPU或GPU时,还可以发布(例如开源)针对该硬件的加速包。该加速包具体用于在加速在参考序列中查找目标序列的过程。CPU或GPU可以接收用户的选择信息,该选择信息指示是否启用加速包,若是,则执行本申请实施例所示的序列查找方法,提高查找效率。
上文结合图1至图5对本申请实施例提供的序列查找方法进行了详细介绍,下面将结合附图对本申请实施例提供的装置、设备进行介绍。
参见图6所示的序列查找装置的结构示意图,该装置600包括:
确定模块602,用于从目标序列中确定至少一个子序列,所述子序列以所述目标序列中的一个字符为起点;
查找模块604,用于在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置,所述加速库用于加速查找设定长度值的序列,所述子序列的长度为所述设定长度值。
在一些可能的实现方式中,所述加速库包括至少一个信息结构体,所述信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。
在一些可能的实现方式中,所述信息结构体包括存在字段和长度字段中的至少一个字段以及范围字段,所述存在字段用于表征一个样本序列是否存在于所述参考序列中,所述范围字段用于表征所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围,所述长度字段用于表征所述样本序列或者所述样本序列的最大精确匹配的长度。
在一些可能的实现方式中,所述查找模块604具体用于:
根据序列与存储地址的映射关系确定所述子序列对应的存储地址;
根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
在一些可能的实现方式中,所述加速库包括位于内存的第一加速库,所述设定长度值为第一长度值。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定。
在一些可能的实现方式中,所述加速库包括位于外存的第二加速库,所述设定长度值为第二长度值。
在一些可能的实现方式中,所述第二长度值根据所述外存的大小确定。
在一些可能的实现方式中,所述第二信息结构体还包括比较字段,所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值,所述预设长度阈值根据内存的大小以及外存内存访问耗时比确定。
在一些可能的实现方式中,所述确定模块602具体用于:
从目标序列中确定至少一个第一子序列和至少一个第二子序列,所述至少一个第一子序列和所述至少一个第二子序列以所述目标序列中的一个字符为起点,所述第二子序列长于所述第一子序列;
所述加速库包括位于内存的第一加速库和位于外存的第二加速库;
所述查找模块604具体用于:
在所述第一加速库中查找所述第一子序列,以及在所述第二加速库中查找所述第二子序列。
在一些可能的实现方式中,所述查找模块604具体用于:
当在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配时,停止在所述第一加速库中查找所述第一子序列,当在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配时,停止在所述第二加速库中查找所述第二子序列。
在一些可能的实现方式中,所述第一长度值根据所述内存的大小确定,或者根据外存内存访问耗时比确定。
在一些可能的实现方式中,所述装置600还包括:
构建模块,用于在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述参考序列中的位置,根据所述查找结果构建所述加速库。
在一些可能的实现方式中,所述构建模块具体用于:
根据所述参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组的范围,以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。
在一些可能的实现方式中,所述序列为基因序列。
根据本申请实施例的序列查找装置600可对应于执行本申请实施例中描述的方法,并且序列查找装置600的各个模块/单元的上述和其它操作和/或功能分别为了实现图3、图4、图5所示实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种处理设备200,用于实现图6所示实施例中序列查找装置600的功能。其中,处理设备200的具体实现可以参见图2相关内容描述,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括指令,所述指令指示计算机执行上述应用于序列查找装置600的序列查找方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括指令,所述指令指示计算机执行上述应用于序列查找装置600的序列查找方法。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品被计算机执行时,所述计算机执行前述序列查找方法的任一方法。该计算机程序产品可以为一个软件安装包,在需要使用前述序列查找方法的任一方法的情况下,可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

Claims (32)

1.一种序列查找方法,其特征在于,所述方法包括:
从目标序列中确定至少一个子序列,所述子序列以所述目标序列中的一个字符为起点;
在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置,所述加速库用于加速查找设定长度值的序列,所述子序列的长度为所述设定长度值。
2.根据权利要求1所述的方法,其特征在于,所述加速库包括至少一个信息结构体,所述信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。
3.根据权利要求2所述的方法,其特征在于,所述信息结构体包括存在字段和长度字段中的至少一个字段以及范围字段,所述存在字段用于表征一个样本序列是否存在于所述参考序列中,所述范围字段用于表征所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围,所述长度字段用于表征所述样本序列或者所述样本序列的最大精确匹配的长度。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置,包括:
根据序列与存储地址的映射关系确定所述子序列对应的存储地址;
根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述加速库包括位于内存的第一加速库,所述设定长度值为第一长度值。
6.根据权利要求5所述的方法,其特征在于,所述第一长度值根据所述内存的大小确定。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述加速库包括位于外存的第二加速库,所述设定长度值为第二长度值。
8.根据权利要求7所述的方法,其特征在于,所述第二长度值根据所述外存的大小确定。
9.根据权利要求7或8所述的方法,其特征在于,所述第二信息结构体还包括比较字段,所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值,所述预设长度阈值根据内存的大小以及外存内存访问耗时比确定。
10.根据权利要求1至4任一项所述的方法,其特征在于,所述从目标序列中确定至少一个子序列,包括:
从目标序列中确定至少一个第一子序列和至少一个第二子序列,所述至少一个第一子序列和所述至少一个第二子序列以所述目标序列中的一个字符为起点,所述第二子序列长于所述第一子序列;
所述加速库包括位于内存的第一加速库和位于外存的第二加速库;
所述在加速库中查找所述子序列,包括:
在所述第一加速库中查找所述第一子序列,以及在所述第二加速库中查找所述第二子序列。
11.根据权利要求10所述的方法,其特征在于,当在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配时,停止在所述第一加速库中查找所述第一子序列,当在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配时,停止在所述第二加速库中查找所述第二子序列。
12.根据权利要求10或11所述的方法,其特征在于,所述第一长度值根据所述内存的大小确定,或者根据外存内存访问耗时比确定。
13.根据权利要求1至12任一项所述的方法,其特征在于,所述方法还包括:
在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述参考序列中的位置;
根据所述查找结果构建所述加速库。
14.根据权利要求13所述的方法,其特征在于,所述在所述参考序列中查找样本序列,获得查找结果,包括:
根据所述参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组的范围,以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。
15.根据权利要求1至14任一项所述的方法,其特征在于,所述序列为基因序列。
16.一种序列查找装置,其特征在于,所述装置包括:
确定模块,用于从目标序列中确定至少一个子序列,所述子序列以所述目标序列中的一个字符为起点;
查找模块,用于在加速库中查找所述子序列,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置,所述加速库用于加速查找设定长度值的序列,所述子序列的长度为所述设定长度值。
17.根据权利要求16所述的装置,其特征在于,所述加速库包括至少一个信息结构体,所述信息结构体用于指示样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围。
18.根据权利要求17所述的装置,其特征在于,所述信息结构体包括存在字段和长度字段中的至少一个字段以及范围字段,所述存在字段用于表征一个样本序列是否存在于所述参考序列中,所述范围字段用于表征所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的范围,所述长度字段用于表征所述样本序列或者所述样本序列的最大精确匹配的长度。
19.根据权利要求16至18任一项所述的装置,其特征在于,所述查找模块具体用于:
根据序列与存储地址的映射关系确定所述子序列对应的存储地址;
根据所述存储地址访问所述加速库,得到所述子序列或者所述子序列以所述一个字符为起点的最大精确匹配在参考序列中的位置。
20.根据权利要求16至19任一项所述的装置,其特征在于,所述加速库包括位于内存的第一加速库,所述设定长度值为第一长度值。
21.根据权利要求20所述的装置,其特征在于,所述第一长度值根据所述内存的大小确定。
22.根据权利要求16至19任一项所述的装置,其特征在于,所述加速库包括位于外存的第二加速库,所述设定长度值为第二长度值。
23.根据权利要求22所述的装置,其特征在于,所述第二长度值根据所述外存的大小确定。
24.根据权利要求22或23所述的装置,其特征在于,所述第二信息结构体还包括比较字段,所述比较字段用于表征最大精确匹配的长度值是否大于预设长度阈值,所述预设长度阈值根据内存的大小以及外存内存访问耗时比确定。
25.根据权利要求16至19任一项所述的装置,其特征在于,所述确定模块具体用于:
从目标序列中确定至少一个第一子序列和至少一个第二子序列,所述至少一个第一子序列和所述至少一个第二子序列以所述目标序列中的一个字符为起点,所述第二子序列长于所述第一子序列;
所述加速库包括位于内存的第一加速库和位于外存的第二加速库;
所述查找模块具体用于:
在所述第一加速库中查找所述第一子序列,以及在所述第二加速库中查找所述第二子序列。
26.根据权利要求25所述的装置,其特征在于,所述查找模块具体用于:
当在所述第二加速库中查找到所述第二子序列以所述一个字符为起点的最大精确匹配时,停止在所述第一加速库中查找所述第一子序列,当在所述第一加速库中查找到所述第一子序列以所述一个字符为起点的最大精确匹配时,停止在所述第二加速库中查找所述第二子序列。
27.根据权利要求25或26所述的装置,其特征在于,所述第一长度值根据所述内存的大小确定,或者根据外存内存访问耗时比确定。
28.根据权利要求16至27任一项所述的装置,其特征在于,所述装置还包括:
构建模块,用于在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述参考序列中的位置,根据所述查找结果构建所述加速库。
29.根据权利要求28所述的装置,其特征在于,所述构建模块具体用于:
根据所述参考序列的索引BWT、后缀数组SA和二维数组OCC,通过BWT算法在所述参考序列中查找样本序列,获得查找结果,所述查找结果用于表征所述样本序列是否存在于所述参考序列中,以及所述样本序列或所述样本序列以第一个字符为起点的最大精确匹配在所述二维数组的范围,以及所述样本序列或者所述样本序列以第一个字符为起点的最大精确匹配的长度值。
30.根据权利要求16至29任一项所述的装置,其特征在于,所述序列为基因序列。
31.一种计算设备,其特征在于,所述计算设备包括处理器和存储器;
所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如权利要求1至15中任一项所述的方法。
32.一种计算机可读存储介质,其特征在于,包括指令,所述指令指示计算设备执行如权利要求1至15中任一项所述的方法。
CN202010856456.3A 2020-08-24 2020-08-24 序列查找方法、装置、设备及介质 Pending CN114090840A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010856456.3A CN114090840A (zh) 2020-08-24 2020-08-24 序列查找方法、装置、设备及介质
PCT/CN2021/095825 WO2022041881A1 (zh) 2020-08-24 2021-05-25 序列查找方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010856456.3A CN114090840A (zh) 2020-08-24 2020-08-24 序列查找方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114090840A true CN114090840A (zh) 2022-02-25

Family

ID=80295447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010856456.3A Pending CN114090840A (zh) 2020-08-24 2020-08-24 序列查找方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN114090840A (zh)
WO (1) WO2022041881A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1253817C (zh) * 2002-08-23 2006-04-26 华为技术有限公司 一种实现长字符串前缀匹配的方法
US9589074B2 (en) * 2014-08-20 2017-03-07 Oracle International Corporation Multidimensional spatial searching for identifying duplicate crash dumps
CN105138534B (zh) * 2015-06-29 2018-08-03 中山大学 基于fmd索引和快表的跨越式种子查找算法
CN107220028B (zh) * 2017-05-24 2020-05-29 上海兆芯集成电路有限公司 加速压缩方法以及使用此方法的装置
CN109831384B (zh) * 2017-11-23 2021-08-03 华为技术有限公司 名字查找方法及路由器
CN110245330B (zh) * 2018-03-09 2023-07-07 腾讯科技(深圳)有限公司 字符序列匹配方法、实现匹配的预处理方法和装置
CN109326325B (zh) * 2018-07-25 2022-02-18 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件
CN109040081B (zh) * 2018-08-10 2020-08-04 哈尔滨工业大学(威海) 一种基于bwt的协议字段逆向分析系统及方法

Also Published As

Publication number Publication date
WO2022041881A1 (zh) 2022-03-03

Similar Documents

Publication Publication Date Title
TWI506462B (zh) 用以執行字串搜尋之系統、方法與電腦程式產品
US7558804B1 (en) Method, apparatus, and computer-readable medium for space-efficient storage of variables in a non-volatile computer memory
WO2017061270A1 (ja) 脆弱性発見装置、脆弱性発見方法、および、脆弱性発見プログラム
WO2016141294A1 (en) Systems and methods for genomic pattern analysis
EP1226492B1 (en) Method and apparatus for maintaining context while executing translated instructions
JP2018092614A (ja) データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法
US10319465B2 (en) Systems and methods for aligning sequences to graph references
US11803554B2 (en) Flexible seed extension for hash table genomic mapping
US20140258320A1 (en) Integrating removable storage devices
US10795821B2 (en) Memory efficient key-value store
CN111638925A (zh) 一种接口方法表生成方法、函数指针查询方法及装置
CN112764922B (zh) 基于负载均衡的并行序列比对方法、装置和计算机设备
US9875248B2 (en) System and method for identifying a file path using tree data structure
CN113994322A (zh) 硬件加速K-mer图生成
Sun et al. RecMotif: a novel fast algorithm for weak motif discovery
CN114090840A (zh) 序列查找方法、装置、设备及介质
US8645404B2 (en) Memory pattern searching via displaced-read memory addressing
US11563717B2 (en) Generation method, generation device, and recording medium
CN114816772B (zh) 基于兼容层运行的应用的排错方法、排错系统及计算设备
Chen et al. An FPGA aligner for short read mapping
CN110046502B (zh) 一种基于虚拟化高效hash的可配置函数api监测方法
US9086895B1 (en) Controlling hardware driver selection
CN113965917B (zh) 通信方法、装置及终端设备
CN108804148B (zh) 一种建立设备与驱动的绑定关系的方法及装置
US20180004442A1 (en) Accelerated loading of guest virtual machine from live snapshot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination