CN109887547A - 一种基因序列比对滤波加速处理方法、系统及装置 - Google Patents

一种基因序列比对滤波加速处理方法、系统及装置 Download PDF

Info

Publication number
CN109887547A
CN109887547A CN201910168053.7A CN201910168053A CN109887547A CN 109887547 A CN109887547 A CN 109887547A CN 201910168053 A CN201910168053 A CN 201910168053A CN 109887547 A CN109887547 A CN 109887547A
Authority
CN
China
Prior art keywords
piece
reference sequences
sub
filtering
hit number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910168053.7A
Other languages
English (en)
Other versions
CN109887547B (zh
Inventor
崔星辰
史宏志
赵健
尹云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910168053.7A priority Critical patent/CN109887547B/zh
Publication of CN109887547A publication Critical patent/CN109887547A/zh
Application granted granted Critical
Publication of CN109887547B publication Critical patent/CN109887547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基因序列比对滤波加速处理方法、系统及装置,包括:在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;按照匹配命中次数的大小对各参考序列子片段进行排序;根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于滤波阈值的参考序列子片段,以将seeds与未舍弃的参考序列子片段进行基因序列比对。可见,本申请将匹配命中次数较少的参考序列子片段舍弃,从而尽可能多地过滤掉无效匹配位置,进而提高了后续比对效率,减轻了基因序列比对工作的负担。

Description

一种基因序列比对滤波加速处理方法、系统及装置
技术领域
本发明涉及计算机技术与生物基因技术的交叉学科领域,特别是涉及一种基因序列比对滤波加速处理方法、系统及装置。
背景技术
随着生物基因检测技术的发展,基因序列比对技术得到广泛应用。目前,为了预测个人罹患疾病的可能性,通常采用的手段是:提取个人的基因(待比对序列),并将其与参考序列(人类基因组计划的产物,即一个统一的基准基因序列)进行基因序列比对,以锁定个人病变的基因,从而达到疾病的提前预防和治疗。
现有技术中,为了减少基因序列比对过程中所产生的重复比对操作,通常采用的手段为:在基因序列比对的过程中,对于初期找到的seeds(待比对序列分为多个基因片段,每个基因片段称为seed),会有一个过滤重复匹配位置的操作。具体方法为:预先构建列表,然后对于任一seed而言,每从参考序列中得到一个与seed匹配的新位置时,均查询该匹配位置是否在列表中,若否,则将其记录在列表中,并依据该匹配位置对seed进行基因比对操作;若是,则说明其为重复的匹配位置,将该匹配位置直接过滤掉即可。
但是,现有的基因序列比对方式存在以下弊端:参考序列分为多个参考序列子片段,seed需与每个参考序列子片段进行匹配及匹配成功后的基因比对,导致耗时较长,比对效率较低;而且,seeds实际只对应一个参考序列子片段,所以即使过滤掉重复的匹配位置,还是会有很多无效的匹配位置,从而导致基因序列比对工作负担较重。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种基因序列比对滤波加速处理方法、系统及装置,将匹配命中次数较少的参考序列子片段舍弃,从而尽可能多地过滤掉无效匹配位置,进而提高了后续比对效率,减轻了基因序列比对工作的负担。
为解决上述技术问题,本发明提供了一种基因序列比对滤波加速处理方法,包括:
在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;
按照所述匹配命中次数的大小对各所述参考序列子片段进行排序;
根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段,以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。
优选地,所述阈值设定规则的预设过程包括:
求取各所述参考序列子片段的匹配命中次数的平均值,并将所述平均值确定为滤波阈值。
优选地,在将所述平均值确定为滤波阈值之前,所述阈值设定规则的预设过程还包括:
求取各所述参考序列子片段的匹配命中次数的下降速率,当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于预设速率阈值时,获取两个所述参考序列子片段各自对应的匹配命中次数中的较大值;
相应的,所述将所述平均值确定为滤波阈值的过程,包括:
判断所述平均值是否大于所述较大值,若是,则将所述平均值确定为滤波阈值;若否,将所述较大值确定为滤波阈值。
优选地,在判断所述平均值是否大于所述较大值之前,所述阈值设定规则的预设过程还包括:
根据预设的参考序列子片段的舍弃数量,获取计划保留的参考序列子片段各自对应的匹配命中次数中的最小值;
相应的,所述判断所述平均值是否大于所述较大值,若是,则将所述平均值确定为滤波阈值;若否,将所述较大值确定为滤波阈值的过程,包括:
比较所述平均值、所述较大值及所述最小值的大小,将三者中的最大值确定为滤波阈值。
优选地,该方法还包括:
将各所述参考序列子片段的初始位置、长度及匹配命中次数存储至预设第一存储空间。
优选地,该方法还包括:
将匹配命中次数最大的参考序列子片段的初始位置及长度、所述seeds与此参考序列子片段的匹配位置存储至预设第二存储空间。
优选地,所述按照所述匹配命中次数的大小对各所述参考序列子片段进行排序的过程,包括:
利用加速器,按照所述匹配命中次数的大小对各所述参考序列子片段进行双调排序。
优选地,所述加速器具体为现场可编程门阵列FPGA。
为解决上述技术问题,本发明还提供了一种基因序列比对滤波加速处理系统,包括:
统计模块,用于在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;
排序模块,用于按照所述匹配命中次数的大小对各所述参考序列子片段进行排序;
舍弃模块,用于根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段,以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。
为解决上述技术问题,本发明还提供了一种基因序列比对滤波加速处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种基因序列比对滤波加速处理方法。
本发明提供了一种基因序列比对滤波加速处理方法,包括:在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;按照匹配命中次数的大小对各参考序列子片段进行排序;根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于滤波阈值的参考序列子片段,以将seeds与未舍弃的参考序列子片段进行基因序列比对。
考虑到在基因序列匹配的过程中,待比对序列所包含的seeds与某一参考序列子片段的匹配命中次数越多,说明此参考序列子片段越有可能是待比对序列真正所应参考的基因片段,也就是说,匹配命中次数越少的参考序列子片段对应的匹配位置越有可能是无效匹配位置,所以本申请将匹配命中次数较少的参考序列子片段舍弃,从而尽可能多地过滤掉无效匹配位置,进而提高了后续比对效率,减轻了基因序列比对工作的负担。
本发明提供了一种基因序列比对滤波加速处理系统及装置,与上述处理方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基因序列比对滤波加速处理方法的流程图;
图2为本发明实施例提供的一种基因序列比对滤波加速处理系统的结构示意图。
具体实施方式
本发明的核心是提供一种基因序列比对滤波加速处理方法、系统及装置,将匹配命中次数较少的参考序列子片段舍弃,从而尽可能多地过滤掉无效匹配位置,进而提高了后续比对效率,减轻了基因序列比对工作的负担。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种基因序列比对滤波加速处理方法的流程图。
该基因序列比对滤波加速处理方法应用于主机端的控制器,包括:
步骤S1:在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数。
具体地,在基因序列匹配的过程中,通常要将待比对序列分为若干个基因片段,每个基因片段称为seed。对于每一个seed,均要与人类基因库中的各参考序列子片段进行匹配。若在某一参考序列子片段中找到与seed相同的基因,则认为seed与该参考序列子片段匹配成功;若在某一参考序列子片段中未找到与seed相同的基因,则认为seed与该参考序列子片段匹配失败。
可以理解的是,一个参考序列子片段所匹配成功的seed数量越多,待比对序列在人类基因组中的位置是该参考序列子片段所在的位置的可能性越高。反之,一个参考序列子片段所匹配成功的seed数量越少,待比对序列在人类基因组中的位置是该参考序列子片段所在的位置的可能性较低。
而现有技术中,只要是匹配成功的seed和参考序列子片段,均要进入后续基因序列比对过程,但是,匹配成功的seed数量较少的参考序列子片段并非是待比对序列真正所应参考比对的参考序列子片段,二者的基因比对结果不具有参考价值,所以这些参考序列子片段上与seed对应的匹配位置均为无效匹配位置。
基于此,本申请在待比对序列所包含的seeds与任一参考序列子片段进行基因序列匹配的过程中,若在该参考序列子片段中找到与任一seed相同的基因,待比对序列所包含的seeds在该参考序列子片段的匹配命中次数加1,即该参考序列子片段对应的匹配命中次数=该参考序列子片段匹配成功的seed的数量,从而通过各参考序列子片段对应的匹配命中次数的大小表征各参考序列子片段的参考价值的高低(匹配命中次数较大的参考序列子片段的参考价值>匹配命中次数较小的参考序列子片段的参考价值)。
步骤S2:按照匹配命中次数的大小对各参考序列子片段进行排序。
具体地,通过上述分析可知,匹配成功的seed数量较少的参考序列子片段并非是待比对序列真正所应参考比对的参考序列子片段,二者的基因比对结果不具有参考价值,所以这些参考序列子片段进入后续基因序列比对过程没有实际意义,反而会增加后续基因序列比对工作的负担。
本申请为了便于从所有参考序列子片段中找出这些匹配成功的seed数量较少的参考序列子片段,将各参考序列子片段按照其对应的匹配命中次数的大小进行排序(具体是采用从大到小的排序方式进行排序)。
步骤S3:根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于滤波阈值的参考序列子片段,以将seeds与未舍弃的参考序列子片段进行基因序列比对。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
具体地,对于匹配成功的seed数量较少的参考序列子片段来说,既然这些参考序列子片段进入后续基因序列比对过程没有实际意义,将这些参考序列子片段舍弃即可,不必让这些参考序列子片段进入后续基因序列比对过程。
至于舍弃多少数量的参考序列子片段,本申请为此提前设置了一个阈值设定规则,此阈值设定规则的目的是按照一定规则设置出一个滤波阈值,此滤波阈值决定了参考序列子片段的舍弃数量。具体地,将匹配命中次数小于滤波阈值的参考序列子片段舍弃,然后将未舍弃的参考序列子片段进入后续基因序列比对过程,从而过滤掉较多无效匹配位置,以减轻后续基因序列比对工作的负担。
本发明提供了一种基因序列比对滤波加速处理方法,包括:在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;按照匹配命中次数的大小对各参考序列子片段进行排序;根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于滤波阈值的参考序列子片段,以将seeds与未舍弃的参考序列子片段进行基因序列比对。
考虑到在基因序列匹配的过程中,待比对序列所包含的seeds与某一参考序列子片段的匹配命中次数越多,说明此参考序列子片段越有可能是待比对序列真正所应参考的基因片段,也就是说,匹配命中次数越少的参考序列子片段对应的匹配位置越有可能是无效匹配位置,所以本申请将匹配命中次数较少的参考序列子片段舍弃,从而尽可能多地过滤掉无效匹配位置,进而提高了后续比对效率,减轻了基因序列比对工作的负担。
在上述实施例的基础上:
作为一种可选地实施例,阈值设定规则的预设过程包括:
求取各参考序列子片段的匹配命中次数的平均值,并将平均值确定为滤波阈值。
具体地,本申请的阈值设定规则的第一设置原理为:求取各参考序列子片段的匹配命中次数的平均值,将匹配命中次数小于平均值的参考序列子片段均舍弃。可见,基于此阈值设定规则设定的滤波阈值为各参考序列子片段的匹配命中次数的平均值。
作为一种可选地实施例,在将平均值确定为滤波阈值之前,阈值设定规则的预设过程还包括:
求取各参考序列子片段的匹配命中次数的下降速率,当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于预设速率阈值时,获取两个参考序列子片段各自对应的匹配命中次数中的较大值;
相应的,将平均值确定为滤波阈值的过程,包括:
判断平均值是否大于较大值,若是,则将平均值确定为滤波阈值;若否,将较大值确定为滤波阈值。
进一步地,本申请的阈值设定规则的第二设置原理为:求取各参考序列子片段的匹配命中次数的下降速率,如果从某一个参考序列子片段的匹配命中次数开始,下降速率变得很大,则排在该参考序列子片段之后的参考序列子片段均舍弃。
因此,本申请设置一个速率阈值,设置原理为:当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于此速率阈值时,说明从两个参考序列子片段中排序靠前的参考序列子片段开始,下降速率变得很大,则将排在该排序靠前的参考序列子片段之后的参考序列子片段均舍弃。可见,基于此阈值设定规则设定的滤波阈值为该排序靠前的参考序列子片段对应的匹配命中次数。
若本申请将第一设置原理和第二设置原理均考虑在内,则以两种设置原理对应的滤波阈值中的较大值作为用于舍弃参考序列子片段的滤波阈值。这是由于滤波阈值越大,舍弃的参考序列子片段的数量越多,所以在同时考虑两种设置原理的情况下,应将较大的滤波阈值作为舍弃参考序列子片段的参考值。
作为一种可选地实施例,在判断平均值是否大于较大值之前,阈值设定规则的预设过程还包括:
根据预设的参考序列子片段的舍弃数量,获取计划保留的参考序列子片段各自对应的匹配命中次数中的最小值;
相应的,判断平均值是否大于较大值,若是,则将平均值确定为滤波阈值;若否,将较大值确定为滤波阈值的过程,包括:
比较平均值、较大值及最小值的大小,将三者中的最大值确定为滤波阈值。
进一步地,本申请的阈值设定规则的第三设置原理为:已知各参考序列子片段的排位顺序,可将排位较靠后的参考序列子片段直接舍弃,也即直接给出了参考序列子片段的舍弃数量,比如取最后1%的参考序列子片段直接舍弃。可见,基于此阈值设定规则设定的滤波阈值为计划保留的参考序列子片段各自对应的匹配命中次数中的最小值。
同理,若本申请将第一设置原理、第二设置原理及第三设置原理均考虑在内,则以三种设置原理对应的滤波阈值中的最大值作为用于舍弃参考序列子片段的滤波阈值。
需要说明的是,本申请在设置阈值设定规则时,可以只考虑三种设置原理中任一种设置原理,也可以考虑三种设置原理中任两种设置原理或三种设置原理均考虑在内,本申请在此不做特别的限定,根据实际情况而定。
作为一种可选地实施例,该方法还包括:
将各参考序列子片段的初始位置、长度及匹配命中次数存储至预设第一存储空间。
进一步地,本申请可以将每个参考序列子片段的初始位置、每个参考序列子片段的长度及每个参考序列子片段对应的匹配命中次数均存储至本申请在主机端提前预留的第一存储空间,供相关人员查看。
作为一种可选地实施例,该方法还包括:
将匹配命中次数最大的参考序列子片段的初始位置及长度、seeds与此参考序列子片段的匹配位置存储至预设第二存储空间。
进一步地,由于待比对序列在人类基因组中的位置最有可能是匹配命中次数最大的参考序列子片段所在的位置,所以本申请还可以将匹配命中次数最大的参考序列子片段的初始位置、此参考序列子片段的长度、seeds与此参考序列子片段的匹配位置均存储至本申请在主机端提前预留的第二存储空间,供相关人员查看。
作为一种可选地实施例,按照匹配命中次数的大小对各参考序列子片段进行排序的过程,包括:
利用加速器,按照匹配命中次数的大小对各参考序列子片段进行双调排序。
具体地,考虑到人类基因库的基因数目过多,仅采用主机端的控制器处理平台已经不能满足基因比对的高效率要求,所以主机端可外设高性能的加速器,从而增强自身的计算性能。
更具体地,主机端的控制器用于统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数,然后将各参考序列子片段对应的匹配命中次数分批发送至加速器。加速器用于对当前接收到同一批次的各参考序列子片段对应的匹配命中次数从大到小排序(具体可采用双调排序提高排序速度,也可采用其他排序方式,本申请在此不做特别的限定),并将排序结果回传给主机端,以使主机端进行数据的过滤。
作为一种可选地实施例,加速器具体为现场可编程门阵列FPGA。
具体地,本申请的加速器可以选用FPGA(Field-Programmable Gate Array,现场可编程逻辑门阵列),也可以选用GPU(Graphics Processing Unit,图形处理器)等其他种类的加速器,本申请在此不做特别的限定。
请参照图2,图2为本发明实施例提供的一种基因序列比对滤波加速处理系统的结构示意图。
该基因序列比对滤波加速处理系统包括:
统计模块1,用于在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;
排序模块2,用于按照匹配命中次数的大小对各参考序列子片段进行排序;
舍弃模块3,用于根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于滤波阈值的参考序列子片段,以将seeds与未舍弃的参考序列子片段进行基因序列比对。
本发明提供的系统的介绍请参考上述方法的实施例,本发明在此不再赘述。
本发明还提供了一种基因序列比对滤波加速处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时实现上述任一种基因序列比对滤波加速处理方法。
本发明提供的装置的介绍请参考上述方法的实施例,本发明在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基因序列比对滤波加速处理方法,其特征在于,包括:
在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;
按照所述匹配命中次数的大小对各所述参考序列子片段进行排序;
根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段,以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。
2.如权利要求1所述的基因序列比对滤波加速处理方法,其特征在于,所述阈值设定规则的预设过程包括:
求取各所述参考序列子片段的匹配命中次数的平均值,并将所述平均值确定为滤波阈值。
3.如权利要求2所述的基因序列比对滤波加速处理方法,其特征在于,在将所述平均值确定为滤波阈值之前,所述阈值设定规则的预设过程还包括:
求取各所述参考序列子片段的匹配命中次数的下降速率,当相邻排序的两个参考序列子片段的匹配命中次数的下降速率大于预设速率阈值时,获取两个所述参考序列子片段各自对应的匹配命中次数中的较大值;
相应的,所述将所述平均值确定为滤波阈值的过程,包括:
判断所述平均值是否大于所述较大值,若是,则将所述平均值确定为滤波阈值;若否,将所述较大值确定为滤波阈值。
4.如权利要求3所述的基因序列比对滤波加速处理方法,其特征在于,在判断所述平均值是否大于所述较大值之前,所述阈值设定规则的预设过程还包括:
根据预设的参考序列子片段的舍弃数量,获取计划保留的参考序列子片段各自对应的匹配命中次数中的最小值;
相应的,所述判断所述平均值是否大于所述较大值,若是,则将所述平均值确定为滤波阈值;若否,将所述较大值确定为滤波阈值的过程,包括:
比较所述平均值、所述较大值及所述最小值的大小,将三者中的最大值确定为滤波阈值。
5.如权利要求1所述的基因序列比对滤波加速处理方法,其特征在于,该方法还包括:
将各所述参考序列子片段的初始位置、长度及匹配命中次数存储至预设第一存储空间。
6.如权利要求5所述的基因序列比对滤波加速处理方法,其特征在于,该方法还包括:
将匹配命中次数最大的参考序列子片段的初始位置及长度、所述seeds与此参考序列子片段的匹配位置存储至预设第二存储空间。
7.如权利要求1-6任一项所述的基因序列比对滤波加速处理方法,其特征在于,所述按照所述匹配命中次数的大小对各所述参考序列子片段进行排序的过程,包括:
利用加速器,按照所述匹配命中次数的大小对各所述参考序列子片段进行双调排序。
8.如权利要求7所述的基因序列比对滤波加速处理方法,其特征在于,所述加速器具体为现场可编程门阵列FPGA。
9.一种基因序列比对滤波加速处理系统,其特征在于,包括:
统计模块,用于在基因序列匹配的过程中,分别统计待比对序列所包含的seeds在各参考序列子片段的匹配命中次数;
排序模块,用于按照所述匹配命中次数的大小对各所述参考序列子片段进行排序;
舍弃模块,用于根据预设阈值设定规则设定滤波阈值,并舍弃匹配命中次数小于所述滤波阈值的参考序列子片段,以将所述seeds与未舍弃的参考序列子片段进行基因序列比对。
10.一种基因序列比对滤波加速处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-8任一项所述的基因序列比对滤波加速处理方法。
CN201910168053.7A 2019-03-06 2019-03-06 一种基因序列比对滤波加速处理方法、系统及装置 Active CN109887547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910168053.7A CN109887547B (zh) 2019-03-06 2019-03-06 一种基因序列比对滤波加速处理方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910168053.7A CN109887547B (zh) 2019-03-06 2019-03-06 一种基因序列比对滤波加速处理方法、系统及装置

Publications (2)

Publication Number Publication Date
CN109887547A true CN109887547A (zh) 2019-06-14
CN109887547B CN109887547B (zh) 2020-10-02

Family

ID=66930942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910168053.7A Active CN109887547B (zh) 2019-03-06 2019-03-06 一种基因序列比对滤波加速处理方法、系统及装置

Country Status (1)

Country Link
CN (1) CN109887547B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517727A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 序列比对方法及系统
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
WO2021169387A1 (zh) * 2020-02-28 2021-09-02 苏州浪潮智能科技有限公司 一种序列比对方法、装置、设备、介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008000023A1 (en) * 2006-06-26 2008-01-03 Biochip Innovations Pty Ltd Detection of influenza virus
CN101561845A (zh) * 2008-12-12 2009-10-21 深圳华大基因研究院 一种染色体同线性同源区域的检测方法和系统
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
KR20130122816A (ko) * 2012-05-01 2013-11-11 강원대학교산학협력단 유전자 염기서열 압축장치 및 압축방법
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
CN104302781A (zh) * 2013-05-15 2015-01-21 深圳华大基因科技有限公司 一种检测染色体结构异常的方法及装置
CN105631239A (zh) * 2014-10-30 2016-06-01 国际商业机器公司 用于管理基因序列的方法和装置
CN106156536A (zh) * 2015-04-15 2016-11-23 深圳华大基因科技有限公司 对样本免疫组库测序数据进行处理的方法和系统
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
CN109326325A (zh) * 2018-07-25 2019-02-12 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008000023A1 (en) * 2006-06-26 2008-01-03 Biochip Innovations Pty Ltd Detection of influenza virus
CN101561845A (zh) * 2008-12-12 2009-10-21 深圳华大基因研究院 一种染色体同线性同源区域的检测方法和系统
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
KR20130122816A (ko) * 2012-05-01 2013-11-11 강원대학교산학협력단 유전자 염기서열 압축장치 및 압축방법
CN104302781A (zh) * 2013-05-15 2015-01-21 深圳华大基因科技有限公司 一种检测染色体结构异常的方法及装置
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20160259886A1 (en) * 2013-07-05 2016-09-08 Academy Of Mathematics And System Science, Chinese Academy Of Sciences Method and system of mapping sequencing reads
CN105631239A (zh) * 2014-10-30 2016-06-01 国际商业机器公司 用于管理基因序列的方法和装置
CN106156536A (zh) * 2015-04-15 2016-11-23 深圳华大基因科技有限公司 对样本免疫组库测序数据进行处理的方法和系统
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
CN109326325A (zh) * 2018-07-25 2019-02-12 郑州云海信息技术有限公司 一种基因序列比对的方法、系统及相关组件

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI PINGHAO等: ""Embedded Transform Coding based Lossless Compression in Compressive Spectral Imaging with Coded Aperture"", 《IEEE DATA COMPRESSION CONFERENCE (DCC’2014)》 *
W. DAI等: ""On Non-sequential Context Modeling with Application to Executable Data Compression"", 《DATA COMPRESSION CONFERENCE》 *
李平好: ""基于可压缩结构化数据的信息压缩理论研究与算法实现"", 《中国优秀硕士论文全文数据库•自然科学辑》 *
纪震等: ""DNA序列数据压缩技术综述"", 《电子学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN110517727A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 序列比对方法及系统
CN110517727B (zh) * 2019-08-23 2022-03-08 苏州浪潮智能科技有限公司 序列比对方法及系统
WO2021169387A1 (zh) * 2020-02-28 2021-09-02 苏州浪潮智能科技有限公司 一种序列比对方法、装置、设备、介质

Also Published As

Publication number Publication date
CN109887547B (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN109887547A (zh) 一种基因序列比对滤波加速处理方法、系统及装置
Dashtban et al. Gene selection for microarray cancer classification using a new evolutionary method employing artificial intelligence concepts
Petrov et al. Automated classification of RNA 3D motifs and the RNA 3D Motif Atlas
CN104067282B (zh) 状态机晶格中的计数器操作
US9176995B2 (en) Organization of data within a database
CN109859851A (zh) 一种治疗方案推荐方法和装置
US8166035B2 (en) Grid-based data clustering method
CN107480466A (zh) 基因组数据存储方法及电子设备
Sridhar et al. Mining metabolic networks for optimal drug targets
US9015132B2 (en) Name search using multiple bitmap distributions
CN106445918A (zh) 一种中文地址处理方法及系统
Wang et al. A comparative study of feature-salience ranking techniques
Chen et al. An almost optimal algorithm for generalized threshold group testing with inhibitors
CN106649385A (zh) 基于HBase数据库的数据排序方法和装置
CN110073351A (zh) 通过组合来自用户尝试的候选来预测文本
CN109767819B (zh) 病历的分组方法、装置、存储介质和电子设备
CN106844533A (zh) 一种数据分组聚集方法及装置
CN107180098B (zh) 一种信息搜索中关键词淘汰方法及装置
CN106156234A (zh) 生物信息识别方法、识别装置以及智能锁
CN107648855A (zh) 一种数据处理方法及装置
CN108038220A (zh) 一种关键词展示方法和装置
CN109949867B (zh) 一种多条序列比对算法的优化方法和系统、存储介质
Afratis et al. A rate-based prefiltering approach to BLAST acceleration
EP1657655A2 (en) Method, system and computer program product for reference categorization and/or reference particulars mining
CN112447286B (zh) 一种自动判别治疗线的方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant