CN108537006A - 一种基因序列数据处理方法、装置及系统 - Google Patents

一种基因序列数据处理方法、装置及系统 Download PDF

Info

Publication number
CN108537006A
CN108537006A CN201810296700.8A CN201810296700A CN108537006A CN 108537006 A CN108537006 A CN 108537006A CN 201810296700 A CN201810296700 A CN 201810296700A CN 108537006 A CN108537006 A CN 108537006A
Authority
CN
China
Prior art keywords
program run
run script
gene sequence
reference gene
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810296700.8A
Other languages
English (en)
Inventor
朱红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810296700.8A priority Critical patent/CN108537006A/zh
Publication of CN108537006A publication Critical patent/CN108537006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种基因序列数据处理方法、装置及系统,所述方法包括根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。

Description

一种基因序列数据处理方法、装置及系统
技术领域
本申请涉及计算机技术领域,特别是涉及一种基因序列数据处理方法、装置及系统。
背景技术
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。随着生物信息学数据量的爆发,各种用于处理生物信息学数据的软件也层出不穷。
以基因测序为例,其主要包括测序数据比对、比对数据预处理、查找突变等三个主要步骤,分别涉及到bwa、picard和GATK三个常用软件。具体过程可以理解为:在测序数据比对步骤把每一个测序数据比对到基因组的相应位置的过程;比对完成过后,在比对数据预处理步骤中对比对结果进行化;最后在查找突变步骤中查看整个基因组中每个位置是否存在突变、及突变是否致病等临床诊断所需的信息。其中,测试数据可以为从测序仪产出的非常小的基因片段(一般是100~200个碱基长度,碱基是基因中的最小单元,人的基因组包含了30亿个碱基)。
但是,相较于数据的爆发式增长,大多数的生物信息学软件的设计都是基于单线程运行或者是单节点运行的,效率较低。随着精准医疗概念的提出,基因测序及相应的数据处理技术越来越多的开始从实验室走向临床。和实验室不一样的是,临床对于数据处理的时效性有较高的要求。例如,人们希望测序和数据处理像验血一样,可以在一个小时内拿到测试结果。但是目前基因数据从测序仪上进行测序需要数小时到一天的时间,而测序得到的数据进行分析并拿到分析报告又需要耗费约一天的时间,这样的时效性对其临床应用造成了较大的阻碍。
发明内容
本申请实施例中提供了一种基因序列数据处理方法、装置及系统,以利于解决现有基因序列数据处理效率较低的问题。
第一方面,本申请实施例提供了一种基因序列数据处理方法,应用于多节点计算机集群,所述方法包括:
根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;
生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;
对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
可选地,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:
根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。
可选地,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:
根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。
可选地,定义允许同时运行的程序运行脚本的最大数量N;
若所述N<M,所述将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,包括:
将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;
监控所述N个程序运行脚本中每个程序运行脚本的运行状态;
若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
可选地,所述程序运行脚本表征的数据处理过程包括:
将测序基因序列与相应的参考基因子序列进行对比,获得对比结果;
对所述对比结果进行分析,获得基因序列处理子结果。
第二方面,本申请实施例提供了一种基因序列数据处理装置,应用于多节点计算机集群,所述装置包括:
数据拆分模块,用于根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;
集群调度模块,用于生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;
汇总模块,用于对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
可选地,所述数据拆分模块,具体用于:
根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。
可选地,所述数据拆分模块,具体用于:
根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。
可选地,定义允许同时运行的程序运行脚本的最大数量N;
所述集群调度模块,具体用于:
若所述N<M,将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;
监控所述N个程序运行脚本中每个程序运行脚本的运行状态;
若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
第三方面,本申请实施例提供了一种基因序列数据处理系统,包括多节点计算机集群,所述多节点计算机集群上部署用于执行上述第一方面任一项所述的方法的软件。
本申请实施例所提供的技术方案具有以下有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基因序列数据处理方法流程示意图;
图2为本申请实施例提供的一种基因序列数据处理装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在高性能计算领域,为了加速软件的运行,大多采用并行的方式。一种是节点内的并行,即采用openmp、pthreads等技术实现的线程级并行,另外一种是节点间的并行,即采用MPI通信协议的进程级并行。当前在二代基因测试流程中的常用软件,如bwa、picard、GATK基本都支持节点内的线程级并行,能够利用一个节点内计算资源,但是都不支持基于MPI通信协议的进程级并行。因此,这些软件都只能在一个节点内运行,没法充分的利用集群的计算能力。
当前方式的最大问题是不能同时利用计算集群中的多个计算节点同时计算,但是采用MPI的方式来改写软件并不是一个好的选择,其原因在于bwa、picard、GATK三个软件采用了不同的编程语言和实现方式,比如bwa采用了C语言编写,而picard和GATK则是采用了JAVA语言;C语言相对来说较为容易改成MPI的方式,因为其本身支持MPI相应的函数API,但是对于JAVA语言编写的picard和GATK来说,进行MPI改写则极其麻烦。
基于此,本申请实施例提供了一种基因序列数据处理方法,该方法无需修改软件源代码,即可实现进程级并行,从而可以利用集群资源多节点并行处理基因数据,缩短数据处理时间。下面对本申请实施例所提供的技术方案进行详细介绍。
图1为本申请实施例提供的一种基因序列数据处理方法流程示意图,如图1所示,其主要包括以下步骤。
步骤S101:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列。
在本申请实施例中,通过对参考基因序列的拆分实现数据的并行处理,需要指出的是,此处需要拆分的是参考基因序列,即已知的基因序列,而非需要测试的基因序列。
另外,所述拆分规则可以根据实际应用需求进行相应的设定,本申请实施例对此不做限定。在一种可能的实现方式中,可以根据染色体的数量对参考基因序列进行拆分。例如,人类基因组包含23对染色体,其中有22对常染色体和1对性染色体,那么可以将人类参考基因序列拆分为23组,相应地,获得23组参考基因子序列,每组参考基因子序列对应一条染色体。
通过上述拆分方式可以比较容易对参考基因序列进行拆分,但是由于每条染色体的长度不同,可能会导致后续每组数据的处理时间不同,进而造成计算资源的浪费。在另一种可能的实现方式中,考虑到每条染色体的长度,根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。简单来说,就是选择把多条短的染色体分为一组,来尽量保证每组中的染色体的总长度大体一致。以人类基因组为例,可以将人类基因组舒服分为10~16组,当然,具体数值可以根据实际需求进行设定,本申请实施例对此不做限定。
步骤S102:生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果。
根据上述步骤中的数据拆分情况,对应每组参考基因子序列生成一个对应的程序运行脚本,以对参考基因子序列进行相应的处理。例如,对于bwa来说,如果人类参考基因序列被分成了23组,那么对应生成23个bwa运行脚本,每个bwa运行脚本对应一组参考基因子序列。
把上述M个程序运行脚本投递到多节点计算机集群的作业调度系统中进行计算,M个程序运行脚本可能被分配至多个节点中进行并行数据处理,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果,进而获得M个基因序列处理子结果。
另外,虽然多节点计算机集群的计算能力较单节点具有质的飞跃,但是其承载能力同样具有一定的范围,且基因组数据量非常大,可能一次不能并行处理完所有的基因组数据。基于此,可以定义允许同时运行的最大作业数,即定义允许同时运行的程序运行脚本的最大数量,该允许同时运行的最大作业数是一个通过配置文件定义的可变参数,并有一个默认值。
在一种可能的实现方式中,定义允许同时运行的程序运行脚本的最大数量N。
如果N≥M,说明一次可以并行处理完所有的基因组数据,可以直接将M个程序运行脚本投递到多节点计算机集群的作业调度系统中进行计算。
如果N<M,说明一次不能并行处理完所有的基因组数据,则将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;监控所述N个程序运行脚本中每个程序运行脚本的运行状态;若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
另外,所述程序运行脚本表征的数据处理过程包括:将测序基因序列与相应的参考基因子序列进行对比,获得对比结果;对所述对比结果进行分析,获得基因序列处理子结果。
步骤S103:对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
由于在上述步骤中对基因组数据进行了拆分,因此在各个程序运行脚本运行结束后需要对获得的处理子结果进行汇总。需要指出的是,实际的基因数据处理过程非常复杂,可能需要反复的拆分和汇总多次,本申请实施例仅以一次的拆分、汇总过程进行说明,在不脱离本申请思想的前提下,其均应当落入本申请的保护范围之内。
本申请实施例所提供的技术方案具有以下有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。
为了实现上述方法,在具体实现中需要进行一系列的软硬件环境配置和部署,以下进行详细说明。
部署计算机集群:
为了实现上述方法,首先需要一个部署有Linux操作系统的计算机集群,按照一般高性能计算集群的部署方式,对于计算机硬件和软件没有特殊的约束,集群操作系统可以是常见的Redhat、CentOS、SUSE、Ubuntu等。
部署作业调度系统:
计算机集群上需要部署作业调度系统,本申请实施例对作业调度系统没有特殊的要求,常见作业调度系统如开源的torque PBS、Sun Grid Engine和商业软件如LSF均可。
部署与本发明对应的软件:
主要包括两个步骤:一是在计算机集群的管理节点安装软件的可执行程序;二是修改软件的配置文件。配置文件一般放在/etc/目录下,也可放在其它指定的位置。配置文件中会声明如下和当前计算机集群环境相关的参数:当前集群系统使用的作业调度系统类型;允许程序提交的作业队列名称及相应的提交命令;运行每一个提交程序运行可以使用的CPU核心数;允许同时运行的作业数。
准备基因数据:
与上述方法对应的软件在使用之前需要先准备需要处理的基因数据,基因数据分为两部分:一部分是测序仪产生的测序数据;一部分是物种已知的参考基因组数据,比如人类的参考基因组数据等。
部署数据处理软件:
与上述方法对应的软件在使用之前需要先在当前计算机集群中部署数据处理需要的软件,如常用的BWA、picard和GATK等,也可以是能够在功能上替代上述3个软件的其他软件。
撰写运行参数文件,其主要包括以下信息:
1)输入数据,即上述“准备基因数据”阶段提到的基因数据;
2)对数据拆分的特殊声明,如果没有声明,默认会按照染色体的条数拆分成对应的组数,如果设定了最大允许拆分的组数(小于染色体的条数),则按照染色体的长度进行拆分;
3)数据处理流程,即整个过程中需要用到的软件的安装路径和这些软件的执行顺序,以及每个软件执行的参数设置。
以下为一个运行参数文件的具体示例:
!data
Raw_data:
Reference:
!split
default#使用default则表示使用默认拆分方式,或者在此提供相应拆分组数;
!parallel
bwa#bwa程序运行的具体命令
!parallel
Picard Sortsam#picard程序运行sortsam模块的具体命令
Picard Markduplicates#picard程序运行Markduplicates模块的具体命令
!sequential
Picard GatherBamFiles#picard程序运行gatherbamFiles来做数据汇总;
!parallel
GATK BaseRecalibator#gatk程序运行Baserecalibator模块的具体命令;
GATK ApplyBQSR#gatk程序运行ApplyBQSR模块的具体命令;
!sequential
Picard GatherBamFiles
!parallel
GATK HaplotypeCaller
!sequential
GATK MergeVcfs#gatk程序运行Mergevcfs来进行数据汇总操作;
说明:
1)!后面对应的是保留字,总共有4个保留字,分别是data,split,parallel,sequential。其中data保留字下面紧跟着的是输入数据和输出数据的声明;split保留字下面紧跟着的是对数组拆分成组的相关设定;parallel保留字下面紧跟着的是允许借助作业调度系统并行运行的任务的命令;sequential保留字下面紧跟着的是不允许并行执行的操作,大多数情况下是数据汇总操作;
2)#后面部分是相关说明。
在上述工作准备完成之后,即可执行与本方法对应的软件,得到相应的计算结果。
在上述方法实施例的基础上,本申请实施例还提供了一种基因序列数据处理装置,图2为本申请实施例提供的一种基因序列数据处理装置结构示意图,如图2所示,其主要包括以下模块。
数据拆分模块201,用于根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;
集群调度模块202,用于生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;
汇总模块203,用于对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
具体实现中,本申请实施例提供的基因序列数据处理装置还可以包括任务调度模块:任务调度模块通过读取程序配置文件和运行参数文件,根据运行参数文件中的相关配置进行执行,运行参数文件中有4个保留字,分别是data、split、parallel、sequential,data关键字后面定义的是输入输出参数;当遇到split关键字时,调用数据拆分模块进行数据拆分;当遇到parallel关键字时,调用集群调度模块进行并行作业处理;当遇到sequential关键字时,调用集群调度模块进行顺序作业处理。
在一种可选实施例中,所述数据拆分模块,具体用于:
根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。
在一种可选实施例中,所述数据拆分模块,具体用于:
根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。
在一种可选实施例中,定义允许同时运行的程序运行脚本的最大数量N;
所述集群调度模块,具体用于:
若所述N<M,将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;
监控所述N个程序运行脚本中每个程序运行脚本的运行状态;
若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
本申请实施例所提供的技术方案具有以下有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。
在上述实施例的基础上,本申请还提供了一种基因序列数据处理系统,包括多节点计算机集群,所述多节点计算机集群上部署用于执行图1所示方法的软件。
具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (10)

1.一种基因序列数据处理方法,其特征在于,应用于多节点计算机集群,所述方法包括:
根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;
生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;
对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:
根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。
3.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:
根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。
4.根据权利要求1-3任一项所述的方法,其特征在于,定义允许同时运行的程序运行脚本的最大数量N;
若所述N<M,所述将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,包括:
将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;
监控所述N个程序运行脚本中每个程序运行脚本的运行状态;
若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
5.根据权利要求1所述的方法,其特征在于,所述程序运行脚本表征的数据处理过程包括:
将测序基因序列与相应的参考基因子序列进行对比,获得对比结果;
对所述对比结果进行分析,获得基因序列处理子结果。
6.一种基因序列数据处理装置,其特征在于,应用于多节点计算机集群,所述装置包括:
数据拆分模块,用于根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;
集群调度模块,用于生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;
汇总模块,用于对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
7.根据权利要求6所述的装置,其特征在于,所述数据拆分模块,具体用于:
根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。
8.根据权利要求6所述的装置,其特征在于,所述数据拆分模块,具体用于:
根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。
9.根据权利要求6-8任一项所述的装置,其特征在于,定义允许同时运行的程序运行脚本的最大数量N;
所述集群调度模块,具体用于:
若所述N<M,将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;
监控所述N个程序运行脚本中每个程序运行脚本的运行状态;
若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。
10.一种基因序列数据处理系统,其特征在于,包括多节点计算机集群,所述多节点计算机集群上部署用于执行权利要求1-5任一项所述的方法的软件。
CN201810296700.8A 2018-04-03 2018-04-03 一种基因序列数据处理方法、装置及系统 Pending CN108537006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810296700.8A CN108537006A (zh) 2018-04-03 2018-04-03 一种基因序列数据处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810296700.8A CN108537006A (zh) 2018-04-03 2018-04-03 一种基因序列数据处理方法、装置及系统

Publications (1)

Publication Number Publication Date
CN108537006A true CN108537006A (zh) 2018-09-14

Family

ID=63483129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810296700.8A Pending CN108537006A (zh) 2018-04-03 2018-04-03 一种基因序列数据处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN108537006A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164424A (zh) * 2020-08-03 2021-01-01 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法
WO2021253346A1 (zh) * 2020-06-18 2021-12-23 李雨澄 数据传输计算方法,装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN107704728A (zh) * 2017-09-26 2018-02-16 华南理工大学 一种基因序列比对的云计算加速方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN107704728A (zh) * 2017-09-26 2018-02-16 华南理工大学 一种基因序列比对的云计算加速方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄芝准等: "组学大数据环境下的基因变异信息并行处理与分析", 《北京生物医学工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253346A1 (zh) * 2020-06-18 2021-12-23 李雨澄 数据传输计算方法,装置及存储介质
CN114072878A (zh) * 2020-06-18 2022-02-18 李雨澄 数据传输计算方法,装置及存储介质
CN112164424A (zh) * 2020-08-03 2021-01-01 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法
CN112164424B (zh) * 2020-08-03 2024-04-09 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法

Similar Documents

Publication Publication Date Title
Mukherjee et al. Enumerating maximal bicliques from a large graph using mapreduce
Luo et al. Cloudrank-d: benchmarking and ranking cloud computing systems for data processing applications
Lichtenwalter et al. Lpmade: Link prediction made easy
CN107563153A (zh) 一种基于Hadoop构建的PacBio测序平台IT架构
de Brevern et al. Trends in IT innovation to build a next generation bioinformatics solution to manage and analyse biological big data produced by NGS technologies
Kudtarkar et al. Cost-effective cloud computing: a case study using the comparative genomics tool, roundup
CN108694305A (zh) 基于云计算的生物信息分析平台
Forment et al. EST2uni: an open, parallel tool for automated EST analysis and database creation, with a data mining web interface and microarray expression data integration
Souilmi et al. Scalable and cost-effective NGS genotyping in the cloud
CN108537006A (zh) 一种基因序列数据处理方法、装置及系统
Schmollinger et al. DIALIGN P: fast pair-wise and multiple sequence alignment using parallel processors
Moutselos et al. GOrevenge: a novel generic reverse engineering method for the identification of critical molecular players, through the use of ontologies
Kalyanaraman et al. Space and time efficient parallel algorithms and software for EST clustering
Maâtouk et al. Evolutionary biclustering algorithms: an experimental study on microarray data
Srivastava et al. NetSeekR: a network analysis pipeline for RNA-Seq time series data
Morales et al. New TNT routines for parallel computing with MPI
Cabarle Thinking about spiking neural P systems: some theories, tools, and research topics
Gonzalez-Dominguez et al. MPIGeneNet: parallel calculation of gene co-expression networks on multicore clusters
Mitchell et al. Parallel classification and feature selection in microarray data using SPRINT
Weniger et al. Genome expression pathway analysis tool–analysis and visualization of microarray gene expression data under genomic, proteomic and metabolic context
Posada et al. Alphafold2 workflow optimization for high throughput predictions in hpc environment
Elghadyry et al. Composition of weighted finite transducers in MapReduce
CN113553353A (zh) 一种面向分布式数据挖掘工作流的调度系统
Leo et al. SNP genotype calling with MapReduce
Jiang et al. GTX. Digest. VCF: an online NGS data interpretation system based on intelligent gene ranking and large-scale text mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication