CN112151114A - 一种生物信息深度挖掘分析系统的架构构建方法 - Google Patents

一种生物信息深度挖掘分析系统的架构构建方法 Download PDF

Info

Publication number
CN112151114A
CN112151114A CN202011124509.9A CN202011124509A CN112151114A CN 112151114 A CN112151114 A CN 112151114A CN 202011124509 A CN202011124509 A CN 202011124509A CN 112151114 A CN112151114 A CN 112151114A
Authority
CN
China
Prior art keywords
biological information
analysis
mining analysis
mining
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011124509.9A
Other languages
English (en)
Inventor
王婷
刘娟
崔运鹏
石运来
张晨
霍梦佳
赵艳博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN202011124509.9A priority Critical patent/CN112151114A/zh
Priority to AU2020103205A priority patent/AU2020103205A4/en
Publication of CN112151114A publication Critical patent/CN112151114A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Agronomy & Crop Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Chemical & Material Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)

Abstract

本发明公开了一种生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:S1:构建高通量计算一体化集群网络环境;S2:集成生物信息工具,形成生物信息挖掘分析方法调用库和生物信息挖掘分析流程模板;S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;S4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型本发明具有提高多个挖掘分析工具之间的数据交换性能,降低挖掘分析过程的复杂程度,减少挖掘分析任务尤其是多个任务并发场景下的执行时间等优点。

Description

一种生物信息深度挖掘分析系统的架构构建方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种生物信息深度挖掘分析系统的架构构建方法,是一种一站式生物信息数据挖掘分析方法。
背景技术
高通量测序技术与云计算、人工智能、物联网等新兴应用的快速发展使得生物信息数据呈现爆发式的增长,产生了无法估量的动物基因型数据、表型数据、环境数据、育种实验数据、文献数据等。而当前畜牧业动物遗传育种研究中科研条件、专业领域、自身能力的局限性,导致这些数据的挖掘分析十分有限,主要表现在以下几个方面:
(1)高通量基因组学分析及其相关生物信息分析软件的部署使用,对高性能计算环境的要求较高,大部分研究团队的平台架构、计算能力、计算网络等均无法满足其需求。
(2)动物遗传育种数据涉及动物的基因序列、生物性状、气候、养殖区域等。这些原始数据未经过加工,存在数据项缺失、数据录入错误、超出值域、空值未处理、噪音数据过多等问题,在使用前需要进一步加工处理。同时这些数据通常由不同学科不同领域的团队产生,分布在不同的数据库中,具有多源异构的特点:量纲不同,尺度不同,预处理方法不同,无法直接进行关联分析。于是基于此进行数据治理便成为动物多组学研究中必不可少的一个环节,而数据治理作为一项专业性很强的工作,需要在掌握相关理论方法和工具的基础上,对大规模数据进行加工和质量保证,并构建可用于直接进行主题分析的数据仓库。
(3)对于动物多组学数据的挖掘分析,合适的生物信息学工具是关键。而现有的挖掘分析软件通常不易部署升级且使用门槛很高,不仅需要高性能计算环境,还需要计算机科学领域的知识。
这些工作于任何一个专业动物遗传育种研究团队都是巨大的挑战,且多个团队同时进行,容易导致研究工作的重复和基础设施建设的冗余。所以,畜牧业动物遗传育种研究亟需为多个团队构建统一多组学数据挖掘分析环境,以便让更多的研究人员可以低学习成本且高效地挖掘分析动物遗传育种相关的数据资源,从而发挥数据的最大价值。
发明内容
本发明的目的是针对上述问题,提供一种生物信息深度挖掘分析系统的架构构建方法,该架构设计方法解决了当前生物信息深度挖掘分析中存在的计算性能低下、分析工具难以使用、分析过程复杂、分析过程缓慢等问题,构建一种生物信息深度挖掘分析系统。
为了实现上述目的,本发明的技术方案是:
一种生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:
S1:构建高通量计算一体化集群网络环境;
S2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;
S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;
S4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。
作为对上述技术方案的改进,所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络;所述管理网络用于服务器的连接和监管;所述计算网络用于需要分布式计算的作业场景中的服务器连接;所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。
作为对上述技术方案的改进,所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops TeslaV100s的GPU计算资源。
作为对上述技术方案的改进,所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口;所述生物信息数据分析软件包括:FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Boxp lot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0。
作为对上述技术方案的改进,所述生物信息挖掘分析流程模板包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程。
作为对上述技术方案的改进,所述图形化工作流模型基于PiFlow构建,通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式,其中的参数根据所选择的工具设置。
作为对上述技术方案的改进,所述调度和处理模型采用Master和Slave两种级别的架构模式,在Master节点上进行Slave节点的执行信息汇总、任务执行时间预估、任务调度执行,在Slave节点上收集当前节点任务执行信息。
作为对上述技术方案的改进,多个所述挖掘分析任务调度算法综合考虑任务、场景和项目三个层级;包括如下步骤:
S41、对每个生物信息挖掘分析项目中每个分析场景下每个分析任务的平均处理时间进行预估;
S42、对每个生物信息挖掘分析项目和每个项目中每个分析场景的处理时间进行预估;
S43、通过临时参数评测方法评估生物信息挖掘分析项目和场景中所有相关的临时参数:项目和场景的最早最晚开始时间和最早最晚结束时间;
S44、基于DAG计算模型根据生物信息工具运行状况生成生物信息挖掘分析项目和场景的调度顺序,并分配服务器,然后进行任务调度。
与现有技术相比,本发明具有的优点和积极效果是:
本发明构建的生物信息深度挖掘分析系统,所述架构构建方法基于PiFlow工作流构建模型、spark streaming分布式计算框架和基于DAG的计算调度策略,解决了当前生物信息深度挖掘分析中存在的计算性能低下、分析工具难以使用、分析过程复杂、分析过程缓慢等问题。
本发明基于平台开放集成技术构建松耦合、模块化、流程化可集成的平台架构,提供高性能、负载均衡的计算环境和一站式、集成化、工作流模板化和个性化定制双管齐下的动物遗传育种挖掘分析环境,提高多个挖掘分析工具之间数据交换的性能,降低挖掘分析过程的复杂程度,减少挖掘分析任务尤其是多个任务并发场景下的执行时间。提高了动物多组学数据的深度利用和科学发现,促进了精准化、定制化的动物智能育种的实现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是生物信息深度挖掘分析系统的总体架构图;
图2是高通量计算一体化集群网络架构图;
图3是图形化工作流模型架构图;
图4是任务调度和处理模型架构图;
图5是动物遗传育种分析任务构建案例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明的生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:步骤1:构建高通量计算一体化集群网络环境;步骤2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;步骤3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;步骤4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。
所述高通量计算一体化集群网络分别包括管理网络、计算网络和100Gb超算网络三个部分。其中,管理网络用于服务器的连接和监管;计算网络用于需要分布式计算的作业场景中的服务器连接;100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。
所述高通量计算一体化集群包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台,可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops*TeslaV100s的GPU计算资源。
所述生物信息挖掘分析方法调用库集成常用的生物信息数据分析软件和机器学习、深度学习等多种语言版本的程序包调用接口。生物信息挖掘分析方法、工具和流程调用库集成常用的生物信息工具、机器学习、深度学习等不同语言版本的程序包调用接口和预定义的挖掘分析流程。其中,生物信息软件包括:FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Box plot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0等。
所述生物信息挖掘分析流程模板在已构建的生物信息挖掘分析方法调用库的基础上构建,分别包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程等。用户可以直接选择预定义的流程,确定参数和数据集后即可提交任务。
进一步的,所述图形化工作流模型基于PiFlow构建,通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式,其中的参数根据所选择的工具设置。
进一步的,所述生物信息挖掘分析任务的调度和处理模型采用Master和Slave两种级别的架构模式,在Master节点上进行Slave节点执行信息汇总、挖掘分析任务执行时间预估、挖掘分析任务调度执行,在Slave节点上进行当前节点挖掘分析任务执行信息收集。多个挖掘分析任务调度算法综合考虑任务、场景和项目三个层级,如下所述:
对每个生物信息挖掘分析项目中每个分析场景下每个分析任务的平均处理时间进行预估。
对每个生物信息挖掘分析项目和每个项目中每个分析场景的处理时间进行预估。
通过临时参数评测方法评估生物信息挖掘分析项目和场景中所有相关的临时参数:项目和场景的最早最晚开始时间和最早最晚结束时间。
基于DAG计算模型根据生物信息工具运行状况生成生物信息挖掘分析项目和场景的调度顺序,并分配服务器,然后进行任务调度。
如图1所示,生物信息深度挖掘分析系统主要包括5个部分:高通量计算一体化集群网络环境,生物信息挖掘分析方法,工具和流程调用库,图形化工作流模型,任务调度和处理模型。其中,高通量计算一体化集群网络环境提供高性能分布式计算资源、存储资源和网络资源;生物信息挖掘分析方法、工具和流程调用库集成常用的生物信息工具、机器学习、深度学习等不同语言版本的程序包调用接口和预定义的挖掘分析流程;图形化工作流模型基于PiFlow构建,通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式,其中的参数根据所选择的工具设置;任务调度和处理模型基于Spark Streaming在多个挖掘分析任务同时进行的场景下对计算资源进行负载均衡。
如图2所示,高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络三个部分。其中,管理网络用于服务器的连接和监管;计算网络用于需要分布式计算的作业场景中的服务器连接;100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。高通量计算一体化集群包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台,可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops*TeslaV100s的GPU计算资源。
如图3所示,图形化工作流构建模型包括工作流构建、客户端和Web端、时间监控和日志记录、API规范四个部分。其中,工作流构建过程包括工作流定义、挖掘分析方法定义、工具选择、工作流参数设置、工作流执行5个步骤;工作流的相关参数根据所选择的工具设置,比如,基因序列比对中选择BLAST作为分析工具,则根据实际需求设置BLAST中需要的参数:数据库、期望值等。模型所有操作都是基于API规范进行。客户端和Web端用来提供工作流的图形化视图。事件监控和日志记录分别用来对工作流的执行过程进行监控和完成程度进行记录。
如图4所示,任务调度与处理模型基于spark steaming构建,采用Master和Slave两种级别的架构模式,在Master节点上进行Slave节点执行信息汇总、任务执行时间预估、任务映射、任务调度执行,在Slave节点上进行当前节点挖掘分析任务执行信息收集。
下面结合附图及上述一种生物信息深度挖掘分析系统的所有参与在整个过程的操作为例,说明本发明的一种工作方法:
通过Genbank下载猪的转录组序列。
基于生物信息挖掘分析工作流模型构建转录组数据分析相关的3个流程:转录组数据处理、基因差异表达分析、系统进化树构建,如图5所示。数据处理流程分别包括数据获取、质量检测、数据修正3个分析任务:数据获取任务可选择使用工具Download data、Upload data中的一种;质量检测任务可选择使用工具FASTQC、Browse data中的一种;数据修正可选择使用工具FASTX-Toolkit。基因差异表达分析流程分别包含组装、归一化、定量分析、结果可视化4个分析任务:组装任务可选择使用工具Trinity;归一化任务可选择使用工具FPKM、RFKM中的一种;定量分析可选择使用工具BLAST、Tuxedo、Tring Tie中的一种;结果可视化可选择使用个工具Box plot、Heat map、Volcano plot、Tablet、IGV。系统进化树构建流程包含数据库下载、基因比对、进化树生成3个分析任务:数据库下载可选择使用pfam数据库;基因比对可选择使用工具Blast、HMMER、TransDecoder中的一种;进化树生成可选择使用工具Omega,RAxML,MEGA中的一种。
把猪的基因数据作为以上构建流程的输入数据进行模型加载和任务执行。
基于生物信息挖掘分析任务调度与处理模型对上述挖掘分析任务进行负载均衡。
分别以相对误差百分比(Relative Percentage Deviation,RPD)、负载均衡度(LoadBalance Degree,LBD)作为挖掘分析任务执行的性能指标,通过对比FIFO任务调度方法和FAIR任务调度方法,评估本系统架构的有效性。如表1所示,任务数分别为10,20,30,40,随着任务数的增加,本发明的任务调度方法对最大执行时间的影响最小,负载均衡度最高,性能优于FIFO方法和FAIR方法。
表1不同任务调度方法的性能对比
Figure BDA0002733148660000111
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种生物信息深度挖掘分析系统的架构构建方法,其特征在于:包括如下步骤:
S1:构建高通量计算一体化集群网络环境;
S2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;
S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;
S4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。
2.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络;所述管理网络用于服务器的连接和监管;所述计算网络用于需要分布式计算的作业场景中的服务器连接;所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。
3.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops TeslaV100s的GPU计算资源。
4.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口;所述生物信息数据分析软件包括:FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Boxp lot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0。
5.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述生物信息挖掘分析流程模板包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程。
6.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述图形化工作流模型基于PiFlow构建,通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式。
7.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述调度和处理模型采用Master和Slave两种级别的架构模式,在Master节点上进行Slave节点执行信息汇总、挖掘分析任务执行时间预估、挖掘分析任务调度执行,在Slave节点上进行当前节点挖掘分析任务执行信息收集。
8.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:多个所述挖掘分析任务调度算法综合考虑任务、场景和项目三个层级;包括如下步骤:
S41、对每个生物信息挖掘分析项目中每个分析场景下每个分析任务的平均处理时间进行预估;
S42、对每个生物信息挖掘分析项目和每个项目中每个分析场景的处理时间进行预估;
S43、通过临时参数评测方法评估生物信息挖掘分析项目和场景中所有相关的临时参数:项目和场景的最早最晚开始时间和最早最晚结束时间;
S44、基于DAG计算模型根据生物信息工具运行状况生成生物信息挖掘分析项目和场景的调度顺序,并分配服务器,然后进行任务调度。
CN202011124509.9A 2020-10-20 2020-10-20 一种生物信息深度挖掘分析系统的架构构建方法 Pending CN112151114A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011124509.9A CN112151114A (zh) 2020-10-20 2020-10-20 一种生物信息深度挖掘分析系统的架构构建方法
AU2020103205A AU2020103205A4 (en) 2020-10-20 2020-11-03 Biological information deep mining and analysis system infrastructure construction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011124509.9A CN112151114A (zh) 2020-10-20 2020-10-20 一种生物信息深度挖掘分析系统的架构构建方法

Publications (1)

Publication Number Publication Date
CN112151114A true CN112151114A (zh) 2020-12-29

Family

ID=73954094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011124509.9A Pending CN112151114A (zh) 2020-10-20 2020-10-20 一种生物信息深度挖掘分析系统的架构构建方法

Country Status (2)

Country Link
CN (1) CN112151114A (zh)
AU (1) AU2020103205A4 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948353B (zh) * 2021-03-01 2023-02-03 北京寄云鼎城科技有限公司 一种应用于DAstudio的数据分析方法、系统及存储介质
CN113158113B (zh) * 2021-05-17 2023-05-12 上海交通大学 生物信息分析工作流多用户云端访问方法、管理系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102067142A (zh) * 2008-02-26 2011-05-18 普渡研究基金会 用于患者基因分型的方法
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106709028A (zh) * 2016-12-28 2017-05-24 上海华点云生物科技有限公司 高通量测序数据统计方法和统计装置
CN107239675A (zh) * 2017-07-21 2017-10-10 上海桑格信息技术有限公司 基于云平台的生物信息分析系统
CN107548462A (zh) * 2015-02-06 2018-01-05 生命技术公司 用于生物分析的系统和方法
CN107665291A (zh) * 2017-09-27 2018-02-06 华南理工大学 一种基于云计算平台Spark的变异检测方法
CN108251520A (zh) * 2018-01-31 2018-07-06 杭州同欣基因科技有限公司 一种基于高通量测序技术的吸烟成瘾风险预测方法及戒烟指导方法
CN108694305A (zh) * 2018-03-30 2018-10-23 武汉光谷创赢生物技术开发有限公司 基于云计算的生物信息分析平台
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN110968620A (zh) * 2019-12-10 2020-04-07 国网信通亿力科技有限责任公司 一种敏捷数据分析方法
US20200251178A1 (en) * 2014-03-11 2020-08-06 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102067142A (zh) * 2008-02-26 2011-05-18 普渡研究基金会 用于患者基因分型的方法
US20200251178A1 (en) * 2014-03-11 2020-08-06 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
CN107548462A (zh) * 2015-02-06 2018-01-05 生命技术公司 用于生物分析的系统和方法
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106709028A (zh) * 2016-12-28 2017-05-24 上海华点云生物科技有限公司 高通量测序数据统计方法和统计装置
CN107239675A (zh) * 2017-07-21 2017-10-10 上海桑格信息技术有限公司 基于云平台的生物信息分析系统
CN109192248A (zh) * 2017-07-21 2019-01-11 上海桑格信息技术有限公司 基于云平台的生物信息分析系统、方法及云计算平台系统
CN107665291A (zh) * 2017-09-27 2018-02-06 华南理工大学 一种基于云计算平台Spark的变异检测方法
CN108251520A (zh) * 2018-01-31 2018-07-06 杭州同欣基因科技有限公司 一种基于高通量测序技术的吸烟成瘾风险预测方法及戒烟指导方法
CN108694305A (zh) * 2018-03-30 2018-10-23 武汉光谷创赢生物技术开发有限公司 基于云计算的生物信息分析平台
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN110968620A (zh) * 2019-12-10 2020-04-07 国网信通亿力科技有限责任公司 一种敏捷数据分析方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIZHEN SHI 等: "SpaRC: scalable sequence clustering using Apache Spark", 《BIOINFORMATICS》, pages 760 *
孙坦 等: "融合知识组织与认知计算的新一代开放知识服务架构探析", 《中国图书馆学报》, pages 38 - 48 *
崔振: "云计算在高通量测序数据分析中的应用", 《基因组学与应用生物学》, pages 467 - 471 *
曾瀞瑶 等: "高通量计算在大规模人群队列基因组数据解析应用中的挑战", 《数据与计算发展前沿》, pages 117 - 127 *
李尹雄 等: "广东省生物医药计算重点实验室", 《中国科学院广州生物医药与健康研究院》, pages 1 - 4 *

Also Published As

Publication number Publication date
AU2020103205A4 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
Jin et al. MRPGA: an extension of MapReduce for parallelizing genetic algorithms
Kang et al. Task allocation for maximizing reliability of distributed computing systems using honeybee mating optimization
Bazinet et al. Computing the tree of life: Leveraging the power of desktop and service grids
CN112151114A (zh) 一种生物信息深度挖掘分析系统的架构构建方法
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
EP2920696B1 (en) Dynamic component performance monitoring
CN115169810A (zh) 一种面向电网调控的人工智能系统构建方法及装置
Hanson et al. MetaPathways v2. 0: A master-worker model for environmental Pathway/Genome Database construction on grids and clouds
Wang et al. A framework for distributed data-parallel execution in the Kepler scientific workflow system
Banjongkan et al. A Study of Job Failure Prediction at Job Submit-State and Job Start-State in High-Performance Computing System: Using Decision Tree Algorithms [J]
Saklani et al. Multicore Implementation of K-Means Clustering Algorithm
Anderson CKMRpop: Forward‐in‐time simulation and tabulation of pairwise kin relationships in age‐structured populations
Bei et al. MEST: A model-driven efficient searching approach for MapReduce self-tuning
Srivastava et al. NetSeekR: a network analysis pipeline for RNA-Seq time series data
CN110851515B (zh) 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质
Costa et al. Handling failures in parallel scientific workflows using clouds
Samaddar et al. A model for distributed processing and analyses of NGS data under map-reduce paradigm
Gunarathne et al. Towards a collective layer in the big data stack
Benjamas et al. Impact of I/O and execution scheduling strategies on large scale parallel data mining
Santos et al. Configuring and executing etl tasks on grid environments-requirements and specificities
Byelas et al. Towards a molgenis based computational framework
Giri et al. HyPR: hybrid page ranking on evolving graphs
CN108228323A (zh) 基于数据本地性的Hadoop任务调度方法及装置
Bakhtizin et al. The development of the agent-based demography and migration model of Eurasia and its supercomputer implementation
Chung et al. Using geometric structures to improve the error correction algorithm of high-throughput sequencing data on MapReduce framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination