CN109887547A

CN109887547A - 一种基因序列比对滤波加速处理方法、系统及装置

Info

Publication number: CN109887547A
Application number: CN201910168053.7A
Authority: CN
Inventors: 崔星辰; 史宏志; 赵健; 尹云峰
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-14
Anticipated expiration: 2039-03-06
Also published as: CN109887547B

Abstract

本发明公开了一种基因序列比对滤波加速处理方法、系统及装置，包括：在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数；按照匹配命中次数的大小对各参考序列子片段进行排序；根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于滤波阈值的参考序列子片段，以将seeds与未舍弃的参考序列子片段进行基因序列比对。可见，本申请将匹配命中次数较少的参考序列子片段舍弃，从而尽可能多地过滤掉无效匹配位置，进而提高了后续比对效率，减轻了基因序列比对工作的负担。

Description

一种基因序列比对滤波加速处理方法、系统及装置

技术领域

本发明涉及计算机技术与生物基因技术的交叉学科领域，特别是涉及一种基因序列比对滤波加速处理方法、系统及装置。

背景技术

随着生物基因检测技术的发展，基因序列比对技术得到广泛应用。目前，为了预测个人罹患疾病的可能性，通常采用的手段是：提取个人的基因(待比对序列)，并将其与参考序列(人类基因组计划的产物，即一个统一的基准基因序列)进行基因序列比对，以锁定个人病变的基因，从而达到疾病的提前预防和治疗。

现有技术中，为了减少基因序列比对过程中所产生的重复比对操作，通常采用的手段为：在基因序列比对的过程中，对于初期找到的seeds(待比对序列分为多个基因片段，每个基因片段称为seed)，会有一个过滤重复匹配位置的操作。具体方法为：预先构建列表，然后对于任一seed而言，每从参考序列中得到一个与seed匹配的新位置时，均查询该匹配位置是否在列表中，若否，则将其记录在列表中，并依据该匹配位置对seed进行基因比对操作；若是，则说明其为重复的匹配位置，将该匹配位置直接过滤掉即可。

但是，现有的基因序列比对方式存在以下弊端：参考序列分为多个参考序列子片段，seed需与每个参考序列子片段进行匹配及匹配成功后的基因比对，导致耗时较长，比对效率较低；而且，seeds实际只对应一个参考序列子片段，所以即使过滤掉重复的匹配位置，还是会有很多无效的匹配位置，从而导致基因序列比对工作负担较重。

因此，如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种基因序列比对滤波加速处理方法、系统及装置，将匹配命中次数较少的参考序列子片段舍弃，从而尽可能多地过滤掉无效匹配位置，进而提高了后续比对效率，减轻了基因序列比对工作的负担。

为解决上述技术问题，本发明提供了一种基因序列比对滤波加速处理方法，包括：

在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数；

按照所述匹配命中次数的大小对各所述参考序列子片段进行排序；

根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段，以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。

优选地，所述阈值设定规则的预设过程包括：

求取各所述参考序列子片段的匹配命中次数的平均值，并将所述平均值确定为滤波阈值。

优选地，在将所述平均值确定为滤波阈值之前，所述阈值设定规则的预设过程还包括：

求取各所述参考序列子片段的匹配命中次数的下降速率，当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于预设速率阈值时，获取两个所述参考序列子片段各自对应的匹配命中次数中的较大值；

相应的，所述将所述平均值确定为滤波阈值的过程，包括：

判断所述平均值是否大于所述较大值，若是，则将所述平均值确定为滤波阈值；若否，将所述较大值确定为滤波阈值。

优选地，在判断所述平均值是否大于所述较大值之前，所述阈值设定规则的预设过程还包括：

根据预设的参考序列子片段的舍弃数量，获取计划保留的参考序列子片段各自对应的匹配命中次数中的最小值；

相应的，所述判断所述平均值是否大于所述较大值，若是，则将所述平均值确定为滤波阈值；若否，将所述较大值确定为滤波阈值的过程，包括：

比较所述平均值、所述较大值及所述最小值的大小，将三者中的最大值确定为滤波阈值。

优选地，该方法还包括：

将各所述参考序列子片段的初始位置、长度及匹配命中次数存储至预设第一存储空间。

优选地，该方法还包括：

将匹配命中次数最大的参考序列子片段的初始位置及长度、所述seeds与此参考序列子片段的匹配位置存储至预设第二存储空间。

优选地，所述按照所述匹配命中次数的大小对各所述参考序列子片段进行排序的过程，包括：

利用加速器，按照所述匹配命中次数的大小对各所述参考序列子片段进行双调排序。

优选地，所述加速器具体为现场可编程门阵列FPGA。

为解决上述技术问题，本发明还提供了一种基因序列比对滤波加速处理系统，包括：

统计模块，用于在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数；

排序模块，用于按照所述匹配命中次数的大小对各所述参考序列子片段进行排序；

舍弃模块，用于根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段，以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。

为解决上述技术问题，本发明还提供了一种基因序列比对滤波加速处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现上述任一种基因序列比对滤波加速处理方法。

本发明提供了一种基因序列比对滤波加速处理方法，包括：在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数；按照匹配命中次数的大小对各参考序列子片段进行排序；根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于滤波阈值的参考序列子片段，以将seeds与未舍弃的参考序列子片段进行基因序列比对。

考虑到在基因序列匹配的过程中，待比对序列所包含的seeds与某一参考序列子片段的匹配命中次数越多，说明此参考序列子片段越有可能是待比对序列真正所应参考的基因片段，也就是说，匹配命中次数越少的参考序列子片段对应的匹配位置越有可能是无效匹配位置，所以本申请将匹配命中次数较少的参考序列子片段舍弃，从而尽可能多地过滤掉无效匹配位置，进而提高了后续比对效率，减轻了基因序列比对工作的负担。

本发明提供了一种基因序列比对滤波加速处理系统及装置，与上述处理方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基因序列比对滤波加速处理方法的流程图；

图2为本发明实施例提供的一种基因序列比对滤波加速处理系统的结构示意图。

具体实施方式

本发明的核心是提供一种基因序列比对滤波加速处理方法、系统及装置，将匹配命中次数较少的参考序列子片段舍弃，从而尽可能多地过滤掉无效匹配位置，进而提高了后续比对效率，减轻了基因序列比对工作的负担。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种基因序列比对滤波加速处理方法的流程图。

该基因序列比对滤波加速处理方法应用于主机端的控制器，包括：

步骤S1：在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数。

具体地，在基因序列匹配的过程中，通常要将待比对序列分为若干个基因片段，每个基因片段称为seed。对于每一个seed，均要与人类基因库中的各参考序列子片段进行匹配。若在某一参考序列子片段中找到与seed相同的基因，则认为seed与该参考序列子片段匹配成功；若在某一参考序列子片段中未找到与seed相同的基因，则认为seed与该参考序列子片段匹配失败。

可以理解的是，一个参考序列子片段所匹配成功的seed数量越多，待比对序列在人类基因组中的位置是该参考序列子片段所在的位置的可能性越高。反之，一个参考序列子片段所匹配成功的seed数量越少，待比对序列在人类基因组中的位置是该参考序列子片段所在的位置的可能性较低。

而现有技术中，只要是匹配成功的seed和参考序列子片段，均要进入后续基因序列比对过程，但是，匹配成功的seed数量较少的参考序列子片段并非是待比对序列真正所应参考比对的参考序列子片段，二者的基因比对结果不具有参考价值，所以这些参考序列子片段上与seed对应的匹配位置均为无效匹配位置。

基于此，本申请在待比对序列所包含的seeds与任一参考序列子片段进行基因序列匹配的过程中，若在该参考序列子片段中找到与任一seed相同的基因，待比对序列所包含的seeds在该参考序列子片段的匹配命中次数加1，即该参考序列子片段对应的匹配命中次数＝该参考序列子片段匹配成功的seed的数量，从而通过各参考序列子片段对应的匹配命中次数的大小表征各参考序列子片段的参考价值的高低(匹配命中次数较大的参考序列子片段的参考价值＞匹配命中次数较小的参考序列子片段的参考价值)。

步骤S2：按照匹配命中次数的大小对各参考序列子片段进行排序。

具体地，通过上述分析可知，匹配成功的seed数量较少的参考序列子片段并非是待比对序列真正所应参考比对的参考序列子片段，二者的基因比对结果不具有参考价值，所以这些参考序列子片段进入后续基因序列比对过程没有实际意义，反而会增加后续基因序列比对工作的负担。

本申请为了便于从所有参考序列子片段中找出这些匹配成功的seed数量较少的参考序列子片段，将各参考序列子片段按照其对应的匹配命中次数的大小进行排序(具体是采用从大到小的排序方式进行排序)。

步骤S3：根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于滤波阈值的参考序列子片段，以将seeds与未舍弃的参考序列子片段进行基因序列比对。

需要说明的是，本申请的预设是提前设置好的，只需要设置一次，除非根据实际情况需要修改，否则不需要重新设置。

具体地，对于匹配成功的seed数量较少的参考序列子片段来说，既然这些参考序列子片段进入后续基因序列比对过程没有实际意义，将这些参考序列子片段舍弃即可，不必让这些参考序列子片段进入后续基因序列比对过程。

至于舍弃多少数量的参考序列子片段，本申请为此提前设置了一个阈值设定规则，此阈值设定规则的目的是按照一定规则设置出一个滤波阈值，此滤波阈值决定了参考序列子片段的舍弃数量。具体地，将匹配命中次数小于滤波阈值的参考序列子片段舍弃，然后将未舍弃的参考序列子片段进入后续基因序列比对过程，从而过滤掉较多无效匹配位置，以减轻后续基因序列比对工作的负担。

在上述实施例的基础上：

作为一种可选地实施例，阈值设定规则的预设过程包括：

求取各参考序列子片段的匹配命中次数的平均值，并将平均值确定为滤波阈值。

具体地，本申请的阈值设定规则的第一设置原理为：求取各参考序列子片段的匹配命中次数的平均值，将匹配命中次数小于平均值的参考序列子片段均舍弃。可见，基于此阈值设定规则设定的滤波阈值为各参考序列子片段的匹配命中次数的平均值。

作为一种可选地实施例，在将平均值确定为滤波阈值之前，阈值设定规则的预设过程还包括：

求取各参考序列子片段的匹配命中次数的下降速率，当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于预设速率阈值时，获取两个参考序列子片段各自对应的匹配命中次数中的较大值；

相应的，将平均值确定为滤波阈值的过程，包括：

判断平均值是否大于较大值，若是，则将平均值确定为滤波阈值；若否，将较大值确定为滤波阈值。

进一步地，本申请的阈值设定规则的第二设置原理为：求取各参考序列子片段的匹配命中次数的下降速率，如果从某一个参考序列子片段的匹配命中次数开始，下降速率变得很大，则排在该参考序列子片段之后的参考序列子片段均舍弃。

因此，本申请设置一个速率阈值，设置原理为：当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于此速率阈值时，说明从两个参考序列子片段中排序靠前的参考序列子片段开始，下降速率变得很大，则将排在该排序靠前的参考序列子片段之后的参考序列子片段均舍弃。可见，基于此阈值设定规则设定的滤波阈值为该排序靠前的参考序列子片段对应的匹配命中次数。

若本申请将第一设置原理和第二设置原理均考虑在内，则以两种设置原理对应的滤波阈值中的较大值作为用于舍弃参考序列子片段的滤波阈值。这是由于滤波阈值越大，舍弃的参考序列子片段的数量越多，所以在同时考虑两种设置原理的情况下，应将较大的滤波阈值作为舍弃参考序列子片段的参考值。

作为一种可选地实施例，在判断平均值是否大于较大值之前，阈值设定规则的预设过程还包括：

相应的，判断平均值是否大于较大值，若是，则将平均值确定为滤波阈值；若否，将较大值确定为滤波阈值的过程，包括：

比较平均值、较大值及最小值的大小，将三者中的最大值确定为滤波阈值。

进一步地，本申请的阈值设定规则的第三设置原理为：已知各参考序列子片段的排位顺序，可将排位较靠后的参考序列子片段直接舍弃，也即直接给出了参考序列子片段的舍弃数量，比如取最后1％的参考序列子片段直接舍弃。可见，基于此阈值设定规则设定的滤波阈值为计划保留的参考序列子片段各自对应的匹配命中次数中的最小值。

同理，若本申请将第一设置原理、第二设置原理及第三设置原理均考虑在内，则以三种设置原理对应的滤波阈值中的最大值作为用于舍弃参考序列子片段的滤波阈值。

需要说明的是，本申请在设置阈值设定规则时，可以只考虑三种设置原理中任一种设置原理，也可以考虑三种设置原理中任两种设置原理或三种设置原理均考虑在内，本申请在此不做特别的限定，根据实际情况而定。

作为一种可选地实施例，该方法还包括：

将各参考序列子片段的初始位置、长度及匹配命中次数存储至预设第一存储空间。

进一步地，本申请可以将每个参考序列子片段的初始位置、每个参考序列子片段的长度及每个参考序列子片段对应的匹配命中次数均存储至本申请在主机端提前预留的第一存储空间，供相关人员查看。

作为一种可选地实施例，该方法还包括：

将匹配命中次数最大的参考序列子片段的初始位置及长度、seeds与此参考序列子片段的匹配位置存储至预设第二存储空间。

进一步地，由于待比对序列在人类基因组中的位置最有可能是匹配命中次数最大的参考序列子片段所在的位置，所以本申请还可以将匹配命中次数最大的参考序列子片段的初始位置、此参考序列子片段的长度、seeds与此参考序列子片段的匹配位置均存储至本申请在主机端提前预留的第二存储空间，供相关人员查看。

作为一种可选地实施例，按照匹配命中次数的大小对各参考序列子片段进行排序的过程，包括：

利用加速器，按照匹配命中次数的大小对各参考序列子片段进行双调排序。

具体地，考虑到人类基因库的基因数目过多，仅采用主机端的控制器处理平台已经不能满足基因比对的高效率要求，所以主机端可外设高性能的加速器，从而增强自身的计算性能。

更具体地，主机端的控制器用于统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数，然后将各参考序列子片段对应的匹配命中次数分批发送至加速器。加速器用于对当前接收到同一批次的各参考序列子片段对应的匹配命中次数从大到小排序(具体可采用双调排序提高排序速度，也可采用其他排序方式，本申请在此不做特别的限定)，并将排序结果回传给主机端，以使主机端进行数据的过滤。

作为一种可选地实施例，加速器具体为现场可编程门阵列FPGA。

具体地，本申请的加速器可以选用FPGA(Field-Programmable Gate Array，现场可编程逻辑门阵列)，也可以选用GPU(Graphics Processing Unit，图形处理器)等其他种类的加速器，本申请在此不做特别的限定。

请参照图2，图2为本发明实施例提供的一种基因序列比对滤波加速处理系统的结构示意图。

该基因序列比对滤波加速处理系统包括：

统计模块1，用于在基因序列匹配的过程中，分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数；

排序模块2，用于按照匹配命中次数的大小对各参考序列子片段进行排序；

舍弃模块3，用于根据预设阈值设定规则设定滤波阈值，并舍弃匹配命中次数小于滤波阈值的参考序列子片段，以将seeds与未舍弃的参考序列子片段进行基因序列比对。

本发明提供的系统的介绍请参考上述方法的实施例，本发明在此不再赘述。

本发明还提供了一种基因序列比对滤波加速处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行计算机程序时实现上述任一种基因序列比对滤波加速处理方法。

本发明提供的装置的介绍请参考上述方法的实施例，本发明在此不再赘述。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基因序列比对滤波加速处理方法，其特征在于，包括：

2.如权利要求1所述的基因序列比对滤波加速处理方法，其特征在于，所述阈值设定规则的预设过程包括：

3.如权利要求2所述的基因序列比对滤波加速处理方法，其特征在于，在将所述平均值确定为滤波阈值之前，所述阈值设定规则的预设过程还包括：

相应的，所述将所述平均值确定为滤波阈值的过程，包括：

4.如权利要求3所述的基因序列比对滤波加速处理方法，其特征在于，在判断所述平均值是否大于所述较大值之前，所述阈值设定规则的预设过程还包括：

5.如权利要求1所述的基因序列比对滤波加速处理方法，其特征在于，该方法还包括：

6.如权利要求5所述的基因序列比对滤波加速处理方法，其特征在于，该方法还包括：

7.如权利要求1-6任一项所述的基因序列比对滤波加速处理方法，其特征在于，所述按照所述匹配命中次数的大小对各所述参考序列子片段进行排序的过程，包括：

8.如权利要求7所述的基因序列比对滤波加速处理方法，其特征在于，所述加速器具体为现场可编程门阵列FPGA。

9.一种基因序列比对滤波加速处理系统，其特征在于，包括：

10.一种基因序列比对滤波加速处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现如权利要求1-8任一项所述的基因序列比对滤波加速处理方法。