CN110428871A - 一种基于arm架构的基因测序分析方法及系统 - Google Patents

一种基于arm架构的基因测序分析方法及系统 Download PDF

Info

Publication number
CN110428871A
CN110428871A CN201910918386.7A CN201910918386A CN110428871A CN 110428871 A CN110428871 A CN 110428871A CN 201910918386 A CN201910918386 A CN 201910918386A CN 110428871 A CN110428871 A CN 110428871A
Authority
CN
China
Prior art keywords
gene
analyzed
file
processing
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910918386.7A
Other languages
English (en)
Inventor
张优劲
赵林英
于闯
贺增泉
王今安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201910918386.7A priority Critical patent/CN110428871A/zh
Publication of CN110428871A publication Critical patent/CN110428871A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明提供一种基于ARM架构的基因测序分析方法及系统,该方法为:获取待分析基因测序数据;根据openMP对待分析基因测序数据进行任务划分,将得到的多个任务在包含Smith‑Waterman算法的基因比对软件中并行执行基因比对,得到基因比对结果;基于多核ARM芯片匹配的内存大小,对基因比对结果进行分批处理,得到基因处理文件;利用基因分析软件分析基因处理文件中的变异基因信息;根据得到的变异基因信息生成待分析基因测序数据对应的基因测序分析报告。在本方案中,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异等处理,最终得到基因测序分析报告,提高基因测序分析的便利度和降低能耗。

Description

一种基于ARM架构的基因测序分析方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于ARM架构的基因测序分析方法及系统。
背景技术
随着基因测序技术的不断发展,各种用于基因测序分析的软件被开发出来,并被广泛应用。
在进行基因测序分析的时候,首先使用测序仪进行基因测序,再使用相应的软件进行基因测序分析,得到最终的分析结果。目前,用于基因测序分析的软件都应用于个人计算机(personal computer,PC)上,而由于PC机体积庞大和耗能大,导致在很多应用场景中无法携带和使用PC机完成基因测序分析。例如:对于研究人员去往基础交通欠发达的地方或雨林深处进行科学研究,携带体积过大的PC机和电源负担较大,影响科学研究的进程。
因此,将基因测序分析的软件应用于PC机上存在携带不便和能耗大等问题。
发明内容
有鉴于此,本发明实施例提供一种基于ARM架构的基因测序分析方法及系统,以解决将基因测序分析的软件应用于PC机上存在携带不便和能耗大等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种基于ARM架构的基因测序分析方法,应用于包括多核ARM芯片的移动终端,所述方法包括:
获取待分析基因测序数据,所述待分析基因测序数据包括基因测序片段;
根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,所述基因处理文件由待测基因信息构成;
利用基因分析软件分析所述基因处理文件中的变异基因信息,所述变异基因信息至少包括:所述待检测基因的位置、变异类型和基因频率;
根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。
优选的,所述基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,包括:
将所述基因比对结果划分为多批基因比对数据,其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得;
分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。
优选的,所述分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件,包括:
分别对每一批所述基因比对数据进行排序和去重复;
将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序;
将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。
优选的,所述利用基因分析软件分析所述基因处理文件中的变异基因信息,包括:
将所述基因处理文件划分为多批待处理文件,其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得;
分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。
优选的,获取待分析基因测序数据之后,还包括:
确定所述待分析基因测序数据的大小是否大于阈值;
若是,根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
若否,基于所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。
本发明实施例第二方面公开一种基于ARM架构的基因测序分析系统,应用于包括多核ARM芯片的移动终端,所述系统包括:
接收单元,用于获取待分析基因测序数据,所述待分析基因测序数据包括基因测序片段;
划分处理单元,用于根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
分批处理单元,用于基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,所述基因处理文件由待测基因信息构成;
查找变异单元,用于利用基因分析软件分析所述基因处理文件中的变异基因信息,所述变异基因信息至少包括:所述待检测基因的位置、变异类型和基因频率;
生成单元,用于根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。
优选的,所述划分处理单元包括:
划分模块,用于将所述基因比对结果划分为多批基因比对数据,其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得;
处理模块,用于分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。
优选的,所述处理模块包括:
处理子模块,用于分别对每一批所述基因比对数据进行排序和去重复;
合并子模块,用于将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序;
索引子模块,用于将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。
优选的,所述查找变异单元包括:
划分模块,用于将所述基因处理文件划分为多批待处理文件,其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得;
检测模块,用于分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。
优选的,所述系统还包括:
确定单元,用于确定所述待分析基因测序数据的大小是否大于阈值,若是,执行所述划分处理单元,若否,执行处理单元;
所述处理单元,用于基于所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。
基于上述本发明实施例提供的一种基于ARM架构的基因测序分析方法及系统,该方法为:获取待分析基因测序数据;根据openMP对待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果; 基于多核ARM芯片匹配的内存大小,对基因比对结果进行分批处理,得到基因处理文件;利用基因分析软件分析基因处理文件中的变异基因信息;根据得到的变异基因信息生成,待分析基因测序数据对应的基因测序分析报告。在本方案中,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异,得到该待分析基因测序数据的变异基因信息。根据变异基因信息生成待分析基因测序数据对应的基因测序分析报告。将基因测序分析应用于移动终端中,提高基因测序分析的便利度和降低能耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于ARM架构的基因测序分析方法流程图;
图2为本发明实施例提供的基因测序分析方法流程示意图;
图3为本发明实施例提供的计算N的数值的流程示意图;
图4为本发明实施例提供的使用openMP的流程图;
图5为本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图;
图6为本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图;
图7为本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图;
图8为本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由于ARM和x86架构在性能上存在较大的差异,目前生信开发者主要在x86体系下进行基因测序分析软件的开发,导致了无法在ARM体系中应用基因检测分析软件实现基因测序分析。
通过背景技术可知,目前用于基因测序分析的软件都应用于PC机上,而由于PC机体积庞大和耗能大,导致在很多应用场景中无法携带和使用PC机完成基因测序分析。
因此,本发明实施例提供一种基于ARM架构的基因测序分析方法及系统,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异,得到该待分析基因测序数据的变异基因信息。根据变异基因信息生成待分析基因测序数据对应的基因测序分析报告。以提高基因测序分析的便利度和降低能耗。
即将基因检测软件更加适应地在ARM的CPU中运行,保证了ARM核心在有限机能的前提下,能够流畅地、完整地运行整个基因比对分析的流程。其中包括了基于ARM架构实现的技术,如:调整算法策略、计算内存优化、多核实现等,确保软件能够“又快又好”的执行。
本发明实施例涉及到的基于ARM架构的基因测序分析方法及系统,应用于包括多核ARM芯片的移动终端。例如:通过APP实现本发明实施例涉及的基因测序分析方法,在本发明实施例中将该APP统称为:基因测序分析APP。
参考图1,示出了本发明实施例提供的一种基因测序分析方法流程图,所述方法包括以下步骤:
步骤S101:获取待分析基因测序数据。
在具体实现步骤S101的过程中,预先基于基因测序仪采集所述待分析基因测序数据,并通过基于ARM的移动终端的USB接口、wifi或蓝牙获取所述待分析基因测序数据。例如:技术人员使用测序仪获取检测对象的待分析基因测序数据,通过移动终端的USB接口将所述待分析基因测序数据发送至所述移动终端中进行基因测序分析。其中,所述待分析基因测序数据包括基因测序片段。
步骤S102:根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果。
需要说明的是,目前包含Smith-Waterman 算法的基因比对软件,例如Bwa软件,通常应用于PC机上,无法应用于移动终端中。因此,预先将该基因比对软件移植至移动终端中,即可在移动终端中使用所述基因比对软件。
进一步的,需要说明的是,在进行基因测序分析的过程中,待分析基因测序数据通常包含大量的基因数据,例如:包含10GB以上的基因数据。而移动终端存在管理机制,用于对自身的各个APP应用进行内存分配管理,移动终端无法将所有运行内存都用于基因测序分析。因此,在进行基因测序分析的过程中,利用ARM芯片的特性,使用openMP进行多线程运行。
在具体实现步骤S102的过程中,根据openMP对所述待分析基因测序数据进行任务划分,再利用所述基因比对软件并行执行基因比对,得到基因比对结果。
优选的,在执行上述步骤S101之后,确定所述待分析基因测序数据的大小是否大于阈值,若是,执行上述步骤S102中的内容。若否,基因所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。即在进行基因测序分析的过程中,若所述待分析基因测序数据小于阈值,不使用openMP进行多线程运行,只需单线程运行即可。
需要说明的是,在Android系统中,使用openMP的过程中需使用JNI。
步骤S103:基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件。
需要说明的是,所述基因处理文件由待测基因信息构成,所述分配处理的基因比对结果中包含的基因信息总量,不大于所述移动终端上运行的系统的剩余内存。对所述基因比对结果进行分批处理包括:排序、去重复、合并和建立索引。
进一步的,需要说明的是,在对所述基因比对结果进行分批处理的过程中,具体通过samtools软件进行排序操作,通过picard软件进行去重复操作,再通过samtools软件进行合并操作,再通过picard软件建立索引。其中,预先将所述samtools软件和picard软件移植至移动终端中,使前述两种软件可以在移动终端中运行。在运行所述samtools软件和picard软件时,需控制移动终端的内存使用控制,避免占用过多的内存。因此,通过对基因比对结果进行分批处理,保证不过多占用移动终端的内存。前述涉及到的所述samtools软件和picard软件都有排序、去重复、合并和建立索引的功能,具体的软件搭配由技术人员根据实际情况进行选择。
在具体实现步骤S103的过程中,将所述基因比对结果划分为多批基因比对数据,分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得。
进一步的,在具体获得所述基因处理文件的过程中,先分别对每一批所述基因比对数据进行排序和去重复操作。将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序。将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。例如:对于10批基因比对数据,先对10批基因比对数据都进行排序和去重复操作。然后将完成排序和去重复操作的10批基因比对数据进行合并,在合并的过程中再进行排序操作。将合并完成后的基因比对数据进行建立索引操作,最终得到基因处理文件。
为更好解释说明上述涉及到的每一批所述基因比对数据包括N条基因比对数据中N的计算过程,参见以下说明:
通过公式(1)计算N,在所述公式(1)中,L为所述基因测序片段的长度,F为所述多核ARM芯片的平均频率,S为所述基因比对结果的大小,M为所述基因测序分析APP剩余的内存大小。A、B、c和d为预设系数。
(1)
步骤S104:利用基因分析软件分析所述基因处理文件中的变异基因信息。
需要说明的是,所述变异基因信息至少包括:所述待检测基因的位置、变异类型和基因频率。具体通过gatk软件分析所述基因处理文件,得到所述变异基因信息。
进一步的,需要说明的是,预先将gatk软件移植至移动终端中,使所述gatk软件可以在移动终端中运行。在运行所述gatk软件的过程中,需控制移动终端的内存使用控制,避免占用过多的内存。因此,通过对所述基因处理文件进行分批处理,保证不过多占用移动终端的内存。
优选的,在执行所述步骤S104的过程中,根据openMP,利用基因分析软件分析所述基因处理文件中的变异基因信息。
在具体实现步骤S104的过程中,将所述基因处理文件划分为多批待处理文件,分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得。
需要说明的是,前述涉及到的n的数值的计算过程,可参见上述公式(1)中的内容,n的计算过程与所述公式(1)成反比。
步骤S105:根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。
在具体实现步骤S105的过程中,将所述变异基因信息与基因模板进行比对,确定所述变异基因信息与基因模板之间的差异,并对所述变异基因信息与基因模板之间的差异进行注释,得到所述基因测序分析报告。例如:对于被测人A的基因变异信息,将该基因变异信息与人类模板基因进行比对,得到该基因变异信息与人类模板基因之间的差异,并对该差异进行注释,得到被测人A的基因测序分析报告。
在本发明实施例中,将进行基因测序分析的软件移植至多核ARM芯片中,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异,得到该待分析基因测序数据的变异基因信息。根据变异基因信息生成待分析基因测序数据对应的基因测序分析报告。将基因测序分析应用于基于ARM的移动终端中,提高基因测序分析的便利度和降低能耗。
为更好解释说明上述涉及到的将基因分析应用于基于ARM的移动终端中的过程,通过图2示出的基因测序分析方法流程示意图进行举例说明。
其中,预先将上述图1中各个步骤示出的内容集成于基因测序分析APP中,即图2中的Android APP。
步骤S201:获取测序数据。
在具体实现步骤S201的过程中,通过移动终端的USB接口、wifi或蓝牙(Bluetooth,BT)接口获取测序仪采集得到的所述测序数据。
步骤S202:对所述测序数据进行基因比对,得到基因比对结果。
在具体实现步骤S202的过程中,通过bwa软件进行基因比对。
步骤S203:对所述基因比对结果进行排序、去重复和建立索引,得到基因处理文件。
在具体实现步骤S203的过程中,利用samtools软件和picard软件进行排序、去重复和建立索引操作。
步骤S204:对所述基因处理文件进行查找变异操作,得到基因变异信息。
在具体实现步骤S204的过程中,利用gatk软件进行查找变异操作。
步骤S205:基因所述基因变异信息,生成基因测序报告。
在具体实现步骤S205的过程中,通过所述移动终端的显示屏展示所述基因测序报告。
在本发明实施例中,通过将bwa、samtools、picard和gatk软件集成于基于ARM的移动终端中,利用基因测序分析APP对测序数据进行基因分析,最终得到基因测序报告。将基因测序分析应用于基于ARM的移动终端中,提高基因测序分析的便利度和降低能耗。
为更好解释说明上述公式(1)中涉及的计算N的流程,结合图3中示出的计算N的数值的流程示意图进行举例说明:
步骤S301:获取所述基因测序分析APP剩余的内存。
步骤S302:获取中央处理器(Central Processing Unit,CPU)的频率。
步骤S303:获取所述基因测序片段的长度。
步骤S304:确定所述基因测序片段的长度是否大于等于100,若是,执行步骤S305,若否,执行步骤S307。
步骤S305:获取所述基因比对结果的大小。
步骤S306:利用公式(2)计算N。
在具体实现步骤S306的过程中,公式(2)为:
(2)
步骤S307:利用公式(3)计算N。
在具体实现步骤S307的过程中,公式(3)为:
(3)
在本发明实施例中,根据基因测序片段的长度,选择对应的公式计算N的大小。将基因比对结果划分为多批基因比对数据,每批基因比对数据都包含N条基因比对数据。分别对每一批基因比对数据进行排序、去重复、合并和建立索引,最终得到待检测基因对应的基因处理文件。保证不过多占用移动终端的内存,提高数据处理效率和流畅性。
为更好解释说明上述图1公开的步骤S102中涉及到的使用openMP的过程,结合图4中示出的使用openMP的流程图进行举例说明:
步骤S401:确定是否调用openMP,若是,执行步骤S402,若否,执行步骤S405。
在具体实现步骤S401的过程中,根据待分析基因测序数据中的数据量,确定是否调用openMP。若待分析基因测序数据中的数据量大于阈值,则使用openMP进行多线程运行。若待分析基因测序数据中的数据量小于阈值,则使用单线程运行。
步骤S402:调用JNI。
步骤S403:使用C语言算法进行多线程运行。
步骤S404:反馈执行结果。
步骤S405:使用Java算法进行单线程运行。
在本发明实施例中,根据待分析基因测序数据中的数据量的大小,确定使用openMP多线程运行或使用Java算法单线程运行。高效利用ARM的性能,提高基因测序的效率。
与上述本发明实施例提供的一种基于ARM架构的基因测序分析方法相对应,参考图5,本发明实施例还提供一种基于ARM架构的基因测序分析系统的结构框图,所述系统包括:接收单元501、划分处理单元502、分批处理单元503、查找变异单元504和生成单元505;
接收单元501,用于获取待分析基因测序数据,所述待分析基因测序数据包括基因测序片段。获取待分析基因测序数据的过程参见上述本发明实施例图1步骤S101相对应的内容。
划分处理单元502,用于根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果。获取基因比对结果的过程,参见上述本发明实施例图1步骤S102相对应的内容。
分批处理单元503,用于基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,所述基因处理文件由待测基因信息构成。获取基因处理文件的过程,参见上述本发明实施例图1步骤S103相对应的内容。
查找变异单元504,用于利用基因分析软件分析所述基因处理文件中的变异基因信息,所述变异基因信息至少包括:所述待检测基因的位置、变异类型和基因频率。
生成单元505,用于根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。生成基因测序分析报告的过程,参见上述本发明实施例图1步骤S105相对应的内容。
在本发明实施例中,将进行基因测序分析的软件移植至多核ARM芯片中,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异,得到该待分析基因测序数据的变异基因信息。根据变异基因信息生成待分析基因测序数据对应的基因测序分析报告。将基因测序分析应用于基于ARM的移动终端中,提高基因测序分析的便利度和降低能耗。
优选的,结合图5,参考图6,示出了本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图,所述划分处理单元502包括:
划分模块5021,用于将所述基因比对结果划分为多批基因比对数据,其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得。
处理模块5022,用于分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。
在本发明实施例中,将基因比对结果划分为多批基因比对数据,每批基因比对数据都包含N条基因比对数据。分别对每一批基因比对数据进行排序、去重复、合并和建立索引,最终得到待检测基因对应的基因处理文件。保证不过多占用移动终端的内存,提高数据处理效率和流畅性。
优选的,结合图6,所述处理模块5022包括:处理子模块、合并子模块和索引子模块。其中,各个模块的具体执行原理如下:
处理子模块,用于分别对每一批所述基因比对数据进行排序和去重复。
合并子模块,用于将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序。
索引子模块,用于将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。
优选的,结合图5,参考图7,示出了本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图,所述查找变异单元504包括:
划分模块5041,用于将所述基因处理文件划分为多批待处理文件,其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得。
检测模块5042,用于分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。
优选的,结合图5,参考图8,示出了本发明实施例提供的一种基于ARM架构的基因测序分析系统的结构框图,所述系统还包括:确定单元506和处理单元507;
确定单元506,用于确定所述待分析基因测序数据的大小是否大于阈值,若是,执行所述划分处理单元502,若否,执行处理单元507。
所述处理单元507,用于基于所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。
综上所述,本发明实施例提供一种基于ARM架构的基因测序分析方法及系统,该方法为:获取待分析基因测序数据;根据openMP对待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果; 基于多核ARM芯片匹配的内存大小,对基因比对结果进行分批处理,得到基因处理文件;利用基因分析软件分析基因处理文件中的变异基因信息;根据得到的变异基因信息生成,待分析基因测序数据对应的基因测序分析报告。在本方案中,利用多核ARM芯片对待分析基因测序数据进行基因比对、基因处理和查找变异,得到该待分析基因测序数据的变异基因信息。根据变异基因信息生成待分析基因测序数据对应的基因测序分析报告。将基因测序分析应用于移动终端中,提高基因测序分析的便利度和降低能耗。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于ARM架构的基因测序分析方法,其特征在于,应用于包括多核ARM芯片的移动终端,所述方法包括:
获取待分析基因测序数据,所述待分析基因测序数据包括基因测序片段;
根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,所述基因处理文件由待测基因信息构成;
利用基因分析软件分析所述基因处理文件中的变异基因信息,所述变异基因信息至少包括:待检测基因的位置、变异类型和基因频率;
根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。
2.根据权利要求1所述的方法,其特征在于,所述基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,包括:
将所述基因比对结果划分为多批基因比对数据,其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得;
分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。
3.根据权利要求2所述的方法,其特征在于,所述分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件,包括:
分别对每一批所述基因比对数据进行排序和去重复;
将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序;
将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。
4.根据权利要求1所述的方法,其特征在于,所述利用基因分析软件分析所述基因处理文件中的变异基因信息,包括:
将所述基因处理文件划分为多批待处理文件,其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得;
分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。
5.根据权利要求1所述的方法,其特征在于,获取待分析基因测序数据之后,还包括:
确定所述待分析基因测序数据的大小是否大于阈值;
若是,根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
若否,基于所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。
6.一种基于ARM架构的基因测序分析系统,其特征在于,应用于包括多核ARM芯片的移动终端,所述系统包括:
接收单元,用于获取待分析基因测序数据,所述待分析基因测序数据包括基因测序片段;
划分处理单元,用于根据openMP对所述待分析基因测序数据进行任务划分,基于多核ARM芯片将得到的多个任务在包含Smith-Waterman 算法的基因比对软件中并行执行基因比对,得到基因比对结果;
分批处理单元,用于基于多核ARM芯片匹配的内存大小,对所述基因比对结果进行分批处理,得到基因处理文件,所述基因处理文件由待测基因信息构成;
查找变异单元,用于利用基因分析软件分析所述基因处理文件中的变异基因信息,所述变异基因信息至少包括:待检测基因的位置、变异类型和基因频率;
生成单元,用于根据得到的所述变异基因信息生成,所述待分析基因测序数据对应的基因测序分析报告。
7.根据权利要求6所述的系统,其特征在于,所述划分处理单元包括:
划分模块,用于将所述基因比对结果划分为多批基因比对数据,其中,每一批所述基因比对数据包括N条基因比对数据,N的数值由所述基因比对结果的大小、所述基因测序片段的长度、所述多核ARM芯片匹配的内存大小和处理器频率计算获得;
处理模块,用于分别对每一批所述基因比对数据进行排序、去重复、合并和建立索引,最终得到所述待检测基因对应的基因处理文件。
8.根据权利要求7所述的系统,其特征在于,所述处理模块包括:
处理子模块,用于分别对每一批所述基因比对数据进行排序和去重复;
合并子模块,用于将完成所述排序和去重复操作的所有所述基因比对数据进行合并,在合并的过程中再进行排序;
索引子模块,用于将完成合并和排序操作后的所有所述基因比对数据建立索引,最终得到所述待检测基因对应的基因处理文件。
9.根据权利要求6所述的系统,其特征在于,所述查找变异单元包括:
划分模块,用于将所述基因处理文件划分为多批待处理文件,其中,每一批所述待处理文件包括n个待处理文件,n的数值由所述基因处理文件的大小、所述基因测序片段的长度、多核ARM芯片匹配的内存大小和处理器频率计算获得;
检测模块,用于分别对每一批所述待处理文件进行变异检测,最终确定所述基因处理文件的变异信息。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
确定单元,用于确定所述待分析基因测序数据的大小是否大于阈值,若是,执行所述划分处理单元,若否,执行处理单元;
所述处理单元,用于基于所述多核ARM芯片将所述待分析基因测序数据在包含Smith-Waterman 算法的基因比对软件中执行基因比对,得到基因比对结果。
CN201910918386.7A 2019-09-26 2019-09-26 一种基于arm架构的基因测序分析方法及系统 Pending CN110428871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910918386.7A CN110428871A (zh) 2019-09-26 2019-09-26 一种基于arm架构的基因测序分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910918386.7A CN110428871A (zh) 2019-09-26 2019-09-26 一种基于arm架构的基因测序分析方法及系统

Publications (1)

Publication Number Publication Date
CN110428871A true CN110428871A (zh) 2019-11-08

Family

ID=68419078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910918386.7A Pending CN110428871A (zh) 2019-09-26 2019-09-26 一种基于arm架构的基因测序分析方法及系统

Country Status (1)

Country Link
CN (1) CN110428871A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529171A (zh) * 2016-11-09 2017-03-22 上海派森诺医学检验所有限公司 乳腺癌易感基因遗传变异位点的检测分析方法
CN106796628A (zh) * 2014-09-03 2017-05-31 陈颂雄 基于合成基因组变体的安全交易设备、系统和方法
CN109698010A (zh) * 2017-10-23 2019-04-30 北京哲源科技有限责任公司 一种针对基因数据的处理方法
CN109727646A (zh) * 2018-12-29 2019-05-07 北京优迅医学检验实验室有限公司 基因样本的处理方法及装置、移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796628A (zh) * 2014-09-03 2017-05-31 陈颂雄 基于合成基因组变体的安全交易设备、系统和方法
CN106529171A (zh) * 2016-11-09 2017-03-22 上海派森诺医学检验所有限公司 乳腺癌易感基因遗传变异位点的检测分析方法
CN109698010A (zh) * 2017-10-23 2019-04-30 北京哲源科技有限责任公司 一种针对基因数据的处理方法
CN109727646A (zh) * 2018-12-29 2019-05-07 北京优迅医学检验实验室有限公司 基因样本的处理方法及装置、移动终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基因谷: "硬核中国芯!全国首次实现手机个人全基因组测序分析", 《HTTP://WWW.SOHU.COM/A/317484752_733985》 *
成俊文: "基因测序数据分析工具MuTect2的优化研究与实现", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Similar Documents

Publication Publication Date Title
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
EP3447642B1 (en) System and method for predicting application performance for large data size on big data cluster
US10032114B2 (en) Predicting application performance on hardware accelerators
EP3736692A1 (en) Using computational cost and instantaneous load analysis for intelligent deployment of neural networks on multiple hardware executors
US9665474B2 (en) Relationships derived from trace data
Hou et al. Auto-tuning strategies for parallelizing sparse matrix-vector (spmv) multiplication on multi-and many-core processors
CN108090516A (zh) 自动生成机器学习样本的特征的方法及系统
CN109522108B (zh) 一种基于Kernel合并的GPU任务调度系统及方法
Ng et al. Reconfigurable acceleration of genetic sequence alignment: A survey of two decades of efforts
US10754744B2 (en) Method of estimating program speed-up in highly parallel architectures using static analysis
US11847446B2 (en) Predictive build quality assessment
US11709671B2 (en) Intelligent prefetching for OS components
CN106354616A (zh) 监测应用执行性能的方法、装置及高性能计算系统
Baughman et al. Profiling and predicting application performance on the cloud
US20170255488A1 (en) Method and system for analyzing task group schedulability for hard real-time scheduling
CN110941451A (zh) 一种数据流处理器指令映射方法及系统、装置
CN115794341A (zh) 基于人工智能的任务调度方法、装置、设备及存储介质
CN109101431A (zh) 一种测试用例管理方法、计算机可读存储介质及终端设备
CN113159188B (zh) 用于图像分类的模型生成方法、装置、设备及存储介质
Veeramalai et al. TOPS++ FATCAT: fast flexible structural alignment using constraints derived from TOPS+ Strings Model
CN110647461A (zh) 多信息融合的回归测试用例排序方法及系统
CN110428871A (zh) 一种基于arm架构的基因测序分析方法及系统
Dhar et al. Leveraging dynamic partial reconfiguration with scalable ILP based task scheduling
Zhang et al. Inferbench: Understanding deep learning inference serving with an automatic benchmarking system
Berlińska Scheduling data gathering with maximum lateness objective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108