CN109841264B

CN109841264B - 一种序列比对滤波处理方法、系统、装置及可读存储介质

Info

Publication number: CN109841264B
Application number: CN201910098868.2A
Authority: CN
Inventors: 赵健; 史宏志; 崔星辰; 尹云峰
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2022-02-18
Anticipated expiration: 2039-01-31
Also published as: WO2020155623A1; US20210343373A1; CN109841264A

Abstract

本申请公开了一种序列比对滤波处理方法、系统、装置及计算机可读存储介质，包括：将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置；预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系；利用每个seed的特征标识和映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数；利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到目标参考序列子片段；利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL；本申请尽可能多地过滤掉无效的匹配位置，减少后续扩展的工作负载，提高了工作效率。

Description

一种序列比对滤波处理方法、系统、装置及可读存储介质

技术领域

本发明涉及计算机领域，特别涉及一种序列比对滤波处理方法、系统、装置及计算机可读存储介质。

背景技术

随着生物基因检测技术的迅速发展，提取个人的基因进行基因序列的比对，预测罹患多种疾病的可能性，锁定个人病变的基因，提前预防和治疗，愈发成熟。人类基因库目前约为30亿个碱基对，采用通用的计算机软件处理平台完成一个人的基因序列比对需要几天。传统的CPU处理平台已经不能满足对基因比对结果的快速，实时获取需求。基因序列比对对平台的计算性能需求越来越高，GPU，FPGA等各种高性能加速器被逐渐应用其中。

序列比对算法主要包括找种子和扩展两个阶段。为了提高序列比对的精度，需要尽可能的找到待比对序列的seed在参考序列中出现的位置。因为在大量无效位置的比对处理，整个比对系统的性能将大打折扣。

为此，需要对前期找到的seed进行滤波处理，尽可能多地过滤掉无效的匹配位置，减少后续扩展的工作负载，同时保证系统的比对精度。

发明内容

有鉴于此，本发明的目的在于提供一种序列比对滤波处理方法、系统、装置及计算机可读存储介质，减少后续扩展的工作负载，提高工作效率。其具体方案如下：

一种序列比对滤波处理方法，包括：

查找待比序列的所有seed在参考序列上出现的绝对位置；

将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置；

预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系；

利用每个seed的特征标识和所述映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数；

利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到满足所述预设条件的目标参考序列子片段；

利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL。

可选的，所述利用每个seed的特征标识和所述映射关系，确定出每个seed所属的参考子序列的过程，包括：

计算每个seed的hash值；

利用每个seed的hash值作为地址在保存有所述映射关系的滤波hash表中确定出每个seed所属的参考子序列。

可选的，所述利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列的过程，包括：

利用每个参考子序列中seed的出现次数、出现次数的均值和/或最大值的下降梯度，设置动态滤波门限值；

过滤掉不满足所述动态滤波门限值的参考子序列。

本发明还公开了一种序列比对滤波处理系统，包括：

绝对位置查找模块，用于查找待比序列的所有seed在参考序列上出现的绝对位置；

绝对位置分块模块，用于将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置；

映射关系建立模块，用于预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系；

出现次数统计模块，用于利用每个seed的特征标识和所述映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数；

片段筛选模块，用于利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到满足所述预设条件的目标参考序列子片段；

CAL恢复模块，用于利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL。

可选的，所述出现次数统计模块，包括：

Hash值计算单元，用于计算每个seed的hash值；

归属确定单元，用于利用每个seed的hash值作为地址在保存有所述映射关系的滤波hash表中确定出每个seed所属的参考子序列。

可选的，所述片段筛选模块，包括：

门限设置单元，用于利用每个参考子序列中seed的出现次数、出现次数的均值和/或最大值的下降梯度，设置动态滤波门限值；

过滤单元，用于过滤掉不满足所述动态滤波门限值的参考子序列。

本发明还公开了一种序列比对滤波处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如前述的序列比对滤波处理方法。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的序列比对滤波处理方法的步骤。

本发明中，序列比对滤波处理方法，包括：查找待比序列的所有seed在参考序列上出现的绝对位置；将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置；预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系；利用每个seed的特征标识和映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数；利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到满足预设条件的目标参考序列子片段；利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL。

本发明通过将待比序列的seed在参考序列的绝对位置进行分块化，从而统计待匹配序列的所有seed在参考序列子片段上的出现次数，再利用的统计后的所有参考序列子片段上的出现次数，动态设定动态滤门限值，从而尽可能多地过滤掉无效的匹配位置，减少后续扩展的工作负载，同时保证系统的比对精度，提高了工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种序列比对滤波处理方法流程示意图；

图2为本发明实施例公开的一种序列比对滤波处理系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种序列比对滤波处理方法，参见图1所示，该方法包括：

S11：查找待比序列的所有seed在参考序列上出现的绝对位置。

具体的，首先将待比序列中的每个seed查找其所在参考序列上的出现位置，将其位置定义为绝对位置，以便于后续在参考序列的子片段中恢复CAL(Candidate AlignmentLocation，候选比对位置)。

S12：将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置。

具体的，通过对每一个seed在参考序列上出现的绝对位置进行分块化处理，将每一个seed的绝对位置从参考序列中提取出来，得到每一个seed的绝对位置在参考序列外的相对位置，通过将seed在参考序列的绝对位置提取出，能够快速的查找到待比序列的seed在参考序列所在的绝对位置。

其中，分块的大小取决于待比对序列的长度和待比对序列的编码格式，例如，可以设置块的大小为256比特，即参考序列子片段每段大小均为256比特，最后得到的CAL均为256的整数倍大小。

S13：预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系。

具体的，预先设定对参考序列划分为多少个参考序列子片段，划分的越细越多，参考序列子片段的绝对位置碰撞的可能性越小，潜在的比对损失越小，当然，划分的过多，会增加运算时长，因此，具体的划分数量可以根据实际的比对精度和性能进行合理的设置。

具体的，通过建立每个seed的相对位置与相应的参考序列子片段的映射关系，方便后续利用seed的特征标识，查找到seed所对应的参考序列子片段；其中，映射关系可以以表的形式进行存储，当然也可以以其他文件形式或数据形态进行存储，在此不做限定。

S14：利用每个seed的特征标识和映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数。

具体的，可以为每个seed添加唯一的标记，用于表明seed的身份作为特征标识，特征标识可以为与seed一一对应的编码，也可以为每个seed通过hash计算得到的hash值。

需要说明的是，每个seed与其在参考序列中绝对位置和分块化后的相对位置均存在直接的对应关系，因此，利用每个seed的特征标识可以查找到其分块化后的相对位置，所以利用每个seed的特征标识配合映射关系，便能够确定seed所归属的参考子序列。

具体的，由于每个参考子序列中可能包括多个seed，包括seed个数越多的参考子序列说明与待比对序列越接近，后续比对精准度越高，因此，统计每个参考子序列的seed的出现次数，以便后续筛选。

S15：利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到满足预设条件的目标参考序列子片段。

具体的，为减少无效位置的比对，减少后续扩展的工作负载，可以预先过滤掉大部分明显不符合要求的参考子序列，从而减少无效位置，缩减后续拓展量，进而提高工作效率；其中，利用每个参考子序列中seed的出现次数作为基础数值，设定预设条件，以预设条件为标准对参考子序列片段进行筛选，仅保留满足预设条件的目标参考序列子片段，以供后续CAL的恢复。

可以理解是，预设条件可以以每个参考子序列中seed的出现次数为基础进行相应的设定，例如，预设条件可以为利用出现次数得到的一个均值的阈值或其他利用每个参考子序列中seed的出现次数计算出的数值作为条件，当然，预设条件的设置为根据实际应用场景进行设定。

S16：利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL。

具体的，在得到seed的相对位置和绝对位置后，为此时恢复真正CAL，预先记录每个seed的相对位置与绝对位置的差值，例如，假设一个块的大小为256，一个seed的绝对位置为258，由于CAL均为一个块的大小的整数倍，则该seed的相对位置为2，差值为256，则后续要恢复CAL的真正的位置，则使用2+256来得到。

可见，本发明实施例通过将待比序列的seed在参考序列的绝对位置进行分块化，从而统计待匹配序列的所有seed在参考序列子片段上的出现次数，再利用的统计后的所有参考序列子片段上的出现次数，动态设定动态滤门限值，从而尽可能多地过滤掉无效的匹配位置，减少后续扩展的工作负载，同时保证系统的比对精度，提高了工作效率。

本发明实施例公开了一种具体的序列比对滤波处理方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

具体的，上述S14中利用每个seed的特征标识和映射关系，确定出每个seed所属的参考子序列的过程，可以具体包括S141和S142；其中，

S141：计算每个seed的hash值；

S142：利用每个seed的hash值作为地址在保存有映射关系的滤波hash表中确定出每个seed所属的参考子序列。

具体的，seed的特征标识可以为hash值，映射关系可以以滤波hash表的形式进行存储，利用seed的hash值作为地址直接在滤波hash表中寻址，从而根据滤波hash表中的映射关系确定出每个seed所属的参考子序列。

具体的，上述S15利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列的过程，可以具体包括S151和S152；其中，

其中，参考序列子片段上的命中(出现)次数的统计值采用对参考序列子片段的绝对位置分块处理后通过hash查表的方法统计，由于参考序列上命中的参考序列子片段的位置是不定的，数量可能很大，所有这里的hash表采用允许碰撞的设计。

S151：利用每个参考子序列中seed的出现次数、出现次数的均值和/或最大值的下降梯度，设置动态滤波门限值。

具体的，滤波的门限设置可以优先考虑参考序列子片段的统计次数的下降梯度，当下降梯度达到预定值时，直接过滤掉小于当前参考序列子片段的统计次数的所有CAL；当下降梯度不能达到预定值时，直接过滤掉小于当前参考序列子片段的统计次数均值的所有CAL；当参考序列子片段的统计次数的最大值明显大于参考序列子片段的统计次数的均值时，直接过滤掉小于参序列子片段的统计次数的最大值一定数值的所有CAL；当然，根据实际应用需求，其它情况可以利用每个参考子序列中seed的出现次数、出现次数的均值和最大值的下降梯度这三种条件或其它判断条件来进行相应的设定。

其中，参考序列子片段的统计次数的下降梯度，即所有参考序列子片段的统计次数按从大到小排序后，后者与前者的差值。

S152：过滤掉不满足动态滤波门限值的参考子序列。

相应的，本发明实施例还公开了一种序列比对滤波处理系统，参见图2所示，该系统包括：

绝对位置查找模块11，用于查找待比序列的所有seed在参考序列上出现的绝对位置；

绝对位置分块模块12，用于将每一个seed在参考序列上出现的绝对位置进行分块化处理，得到分块后的每个seed的相对位置；

映射关系建立模块13，用于预先将参考序列划分为多个参考序列子片段，建立每个seed的相对位置与相应的参考序列子片段的映射关系；

出现次数统计模块14，用于利用每个seed的特征标识和映射关系，确定出每个seed所属的参考子序列，并统计每个参考子序列的seed的出现次数；

片段筛选模块15，用于利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列，得到满足预设条件的目标参考序列子片段；

CAL恢复模块16，用于利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL。

具体的，上述出现次数统计模块14，可以包括Hash值计算单元和归属确定单元；其中，

Hash值计算单元，用于计算每个seed的hash值；

归属确定单元，用于利用每个seed的hash值作为地址在保存有映射关系的滤波hash表中确定出每个seed所属的参考子序列

具体的，上述片段筛选模块15，可以包括门限设置单元和过滤单元；其中，

过滤单元，用于过滤掉不满足动态滤波门限值的参考子序列。

此外，本发明实施例还公开了一种序列比对滤波处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如前述的序列比对滤波处理方法。

另外，本发明实施例还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述的序列比对滤波处理方法的步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本发明所提供的一种序列比对滤波处理方法、系统、装置及计算机可读存储介质.进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基因序列比对滤波处理方法，其特征在于，包括：

查找待比序列的所有seed在参考序列上出现的绝对位置；

利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL；

其中，所述利用每个seed的特征标识和所述映射关系，确定出每个seed所属的参考子序列的过程，包括：

计算每个seed的hash值；

2.根据权利要求1所述的基因序列比对滤波处理方法，其特征在于，所述利用每个参考子序列中seed的出现次数，过滤掉不满足预设条件的参考子序列的过程，包括：

过滤掉不满足所述动态滤波门限值的参考子序列。

3.一种基因序列比对滤波处理系统，其特征在于，包括：

CAL恢复模块，用于利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值，恢复出真正的CAL；

其中，所述出现次数统计模块，包括：

Hash值计算单元，用于计算每个seed的hash值；

4.根据权利要求3所述的基因序列比对滤波处理系统，其特征在于，所述片段筛选模块，包括：

5.一种基因序列比对滤波处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1或2所述的基因序列比对滤波处理方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1或2所述的基因序列比对滤波处理方法的步骤。