CN112151114A

CN112151114A - 一种生物信息深度挖掘分析系统的架构构建方法

Info

Publication number: CN112151114A
Application number: CN202011124509.9A
Authority: CN
Inventors: 王婷; 刘娟; 崔运鹏; 石运来; 张晨; 霍梦佳; 赵艳博
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2020-12-29
Also published as: AU2020103205A4

Abstract

本发明公开了一种生物信息深度挖掘分析系统的架构构建方法，包括如下步骤：S1：构建高通量计算一体化集群网络环境；S2：集成生物信息工具，形成生物信息挖掘分析方法调用库和生物信息挖掘分析流程模板；S3：基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型；S4：基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型本发明具有提高多个挖掘分析工具之间的数据交换性能，降低挖掘分析过程的复杂程度，减少挖掘分析任务尤其是多个任务并发场景下的执行时间等优点。

Description

一种生物信息深度挖掘分析系统的架构构建方法

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种生物信息深度挖掘分析系统的架构构建方法，是一种一站式生物信息数据挖掘分析方法。

背景技术

高通量测序技术与云计算、人工智能、物联网等新兴应用的快速发展使得生物信息数据呈现爆发式的增长，产生了无法估量的动物基因型数据、表型数据、环境数据、育种实验数据、文献数据等。而当前畜牧业动物遗传育种研究中科研条件、专业领域、自身能力的局限性，导致这些数据的挖掘分析十分有限，主要表现在以下几个方面：

(1)高通量基因组学分析及其相关生物信息分析软件的部署使用，对高性能计算环境的要求较高，大部分研究团队的平台架构、计算能力、计算网络等均无法满足其需求。

(2)动物遗传育种数据涉及动物的基因序列、生物性状、气候、养殖区域等。这些原始数据未经过加工，存在数据项缺失、数据录入错误、超出值域、空值未处理、噪音数据过多等问题，在使用前需要进一步加工处理。同时这些数据通常由不同学科不同领域的团队产生，分布在不同的数据库中，具有多源异构的特点：量纲不同，尺度不同，预处理方法不同，无法直接进行关联分析。于是基于此进行数据治理便成为动物多组学研究中必不可少的一个环节，而数据治理作为一项专业性很强的工作，需要在掌握相关理论方法和工具的基础上，对大规模数据进行加工和质量保证，并构建可用于直接进行主题分析的数据仓库。

(3)对于动物多组学数据的挖掘分析，合适的生物信息学工具是关键。而现有的挖掘分析软件通常不易部署升级且使用门槛很高，不仅需要高性能计算环境，还需要计算机科学领域的知识。

这些工作于任何一个专业动物遗传育种研究团队都是巨大的挑战，且多个团队同时进行，容易导致研究工作的重复和基础设施建设的冗余。所以，畜牧业动物遗传育种研究亟需为多个团队构建统一多组学数据挖掘分析环境，以便让更多的研究人员可以低学习成本且高效地挖掘分析动物遗传育种相关的数据资源，从而发挥数据的最大价值。

发明内容

本发明的目的是针对上述问题，提供一种生物信息深度挖掘分析系统的架构构建方法，该架构设计方法解决了当前生物信息深度挖掘分析中存在的计算性能低下、分析工具难以使用、分析过程复杂、分析过程缓慢等问题，构建一种生物信息深度挖掘分析系统。

为了实现上述目的，本发明的技术方案是：

一种生物信息深度挖掘分析系统的架构构建方法，包括如下步骤：

S1：构建高通量计算一体化集群网络环境；

S2：集成生物信息工具，形成生物信息挖掘分析方法、工具和流程调用库；

S3：基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型；

S4：基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。

作为对上述技术方案的改进，所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络；所述管理网络用于服务器的连接和监管；所述计算网络用于需要分布式计算的作业场景中的服务器连接；所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。

作为对上述技术方案的改进，所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops TeslaV100s的GPU计算资源。

作为对上述技术方案的改进，所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口；所述生物信息数据分析软件包括：FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Boxp lot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0。

作为对上述技术方案的改进，所述生物信息挖掘分析流程模板包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程。

作为对上述技术方案的改进，所述图形化工作流模型基于PiFlow构建，通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式，其中的参数根据所选择的工具设置。

作为对上述技术方案的改进，所述调度和处理模型采用Master和Slave两种级别的架构模式，在Master节点上进行Slave节点的执行信息汇总、任务执行时间预估、任务调度执行，在Slave节点上收集当前节点任务执行信息。

作为对上述技术方案的改进，多个所述挖掘分析任务调度算法综合考虑任务、场景和项目三个层级；包括如下步骤：

S41、对每个生物信息挖掘分析项目中每个分析场景下每个分析任务的平均处理时间进行预估；

S42、对每个生物信息挖掘分析项目和每个项目中每个分析场景的处理时间进行预估；

S43、通过临时参数评测方法评估生物信息挖掘分析项目和场景中所有相关的临时参数：项目和场景的最早最晚开始时间和最早最晚结束时间；

S44、基于DAG计算模型根据生物信息工具运行状况生成生物信息挖掘分析项目和场景的调度顺序，并分配服务器，然后进行任务调度。

与现有技术相比，本发明具有的优点和积极效果是：

本发明构建的生物信息深度挖掘分析系统，所述架构构建方法基于PiFlow工作流构建模型、spark streaming分布式计算框架和基于DAG的计算调度策略，解决了当前生物信息深度挖掘分析中存在的计算性能低下、分析工具难以使用、分析过程复杂、分析过程缓慢等问题。

本发明基于平台开放集成技术构建松耦合、模块化、流程化可集成的平台架构，提供高性能、负载均衡的计算环境和一站式、集成化、工作流模板化和个性化定制双管齐下的动物遗传育种挖掘分析环境，提高多个挖掘分析工具之间数据交换的性能，降低挖掘分析过程的复杂程度，减少挖掘分析任务尤其是多个任务并发场景下的执行时间。提高了动物多组学数据的深度利用和科学发现，促进了精准化、定制化的动物智能育种的实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是生物信息深度挖掘分析系统的总体架构图；

图2是高通量计算一体化集群网络架构图；

图3是图形化工作流模型架构图；

图4是任务调度和处理模型架构图；

图5是动物遗传育种分析任务构建案例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明的生物信息深度挖掘分析系统的架构构建方法，包括如下步骤：步骤1：构建高通量计算一体化集群网络环境；步骤2：集成生物信息工具，形成生物信息挖掘分析方法、工具和流程调用库；步骤3：基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型；步骤4：基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。

所述高通量计算一体化集群网络分别包括管理网络、计算网络和100Gb超算网络三个部分。其中，管理网络用于服务器的连接和监管；计算网络用于需要分布式计算的作业场景中的服务器连接；100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。

所述高通量计算一体化集群包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台，可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops*TeslaV100s的GPU计算资源。

所述生物信息挖掘分析方法调用库集成常用的生物信息数据分析软件和机器学习、深度学习等多种语言版本的程序包调用接口。生物信息挖掘分析方法、工具和流程调用库集成常用的生物信息工具、机器学习、深度学习等不同语言版本的程序包调用接口和预定义的挖掘分析流程。其中，生物信息软件包括：FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Box plot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0等。

所述生物信息挖掘分析流程模板在已构建的生物信息挖掘分析方法调用库的基础上构建，分别包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程等。用户可以直接选择预定义的流程，确定参数和数据集后即可提交任务。

进一步的，所述图形化工作流模型基于PiFlow构建，通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式，其中的参数根据所选择的工具设置。

进一步的，所述生物信息挖掘分析任务的调度和处理模型采用Master和Slave两种级别的架构模式，在Master节点上进行Slave节点执行信息汇总、挖掘分析任务执行时间预估、挖掘分析任务调度执行，在Slave节点上进行当前节点挖掘分析任务执行信息收集。多个挖掘分析任务调度算法综合考虑任务、场景和项目三个层级，如下所述：

对每个生物信息挖掘分析项目中每个分析场景下每个分析任务的平均处理时间进行预估。

对每个生物信息挖掘分析项目和每个项目中每个分析场景的处理时间进行预估。

通过临时参数评测方法评估生物信息挖掘分析项目和场景中所有相关的临时参数：项目和场景的最早最晚开始时间和最早最晚结束时间。

基于DAG计算模型根据生物信息工具运行状况生成生物信息挖掘分析项目和场景的调度顺序，并分配服务器，然后进行任务调度。

如图1所示，生物信息深度挖掘分析系统主要包括5个部分：高通量计算一体化集群网络环境，生物信息挖掘分析方法，工具和流程调用库，图形化工作流模型，任务调度和处理模型。其中，高通量计算一体化集群网络环境提供高性能分布式计算资源、存储资源和网络资源；生物信息挖掘分析方法、工具和流程调用库集成常用的生物信息工具、机器学习、深度学习等不同语言版本的程序包调用接口和预定义的挖掘分析流程；图形化工作流模型基于PiFlow构建，通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式，其中的参数根据所选择的工具设置；任务调度和处理模型基于Spark Streaming在多个挖掘分析任务同时进行的场景下对计算资源进行负载均衡。

如图2所示，高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络三个部分。其中，管理网络用于服务器的连接和监管；计算网络用于需要分布式计算的作业场景中的服务器连接；100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。高通量计算一体化集群包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台，可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops*TeslaV100s的GPU计算资源。

如图3所示，图形化工作流构建模型包括工作流构建、客户端和Web端、时间监控和日志记录、API规范四个部分。其中，工作流构建过程包括工作流定义、挖掘分析方法定义、工具选择、工作流参数设置、工作流执行5个步骤；工作流的相关参数根据所选择的工具设置，比如，基因序列比对中选择BLAST作为分析工具，则根据实际需求设置BLAST中需要的参数：数据库、期望值等。模型所有操作都是基于API规范进行。客户端和Web端用来提供工作流的图形化视图。事件监控和日志记录分别用来对工作流的执行过程进行监控和完成程度进行记录。

如图4所示，任务调度与处理模型基于spark steaming构建，采用Master和Slave两种级别的架构模式，在Master节点上进行Slave节点执行信息汇总、任务执行时间预估、任务映射、任务调度执行，在Slave节点上进行当前节点挖掘分析任务执行信息收集。

下面结合附图及上述一种生物信息深度挖掘分析系统的所有参与在整个过程的操作为例，说明本发明的一种工作方法：

通过Genbank下载猪的转录组序列。

基于生物信息挖掘分析工作流模型构建转录组数据分析相关的3个流程：转录组数据处理、基因差异表达分析、系统进化树构建，如图5所示。数据处理流程分别包括数据获取、质量检测、数据修正3个分析任务：数据获取任务可选择使用工具Download data、Upload data中的一种；质量检测任务可选择使用工具FASTQC、Browse data中的一种；数据修正可选择使用工具FASTX-Toolkit。基因差异表达分析流程分别包含组装、归一化、定量分析、结果可视化4个分析任务：组装任务可选择使用工具Trinity；归一化任务可选择使用工具FPKM、RFKM中的一种；定量分析可选择使用工具BLAST、Tuxedo、Tring Tie中的一种；结果可视化可选择使用个工具Box plot、Heat map、Volcano plot、Tablet、IGV。系统进化树构建流程包含数据库下载、基因比对、进化树生成3个分析任务：数据库下载可选择使用pfam数据库；基因比对可选择使用工具Blast、HMMER、TransDecoder中的一种；进化树生成可选择使用工具Omega，RAxML,MEGA中的一种。

把猪的基因数据作为以上构建流程的输入数据进行模型加载和任务执行。

基于生物信息挖掘分析任务调度与处理模型对上述挖掘分析任务进行负载均衡。

分别以相对误差百分比(Relative Percentage Deviation，RPD)、负载均衡度(LoadBalance Degree，LBD)作为挖掘分析任务执行的性能指标，通过对比FIFO任务调度方法和FAIR任务调度方法，评估本系统架构的有效性。如表1所示，任务数分别为10，20，30，40，随着任务数的增加，本发明的任务调度方法对最大执行时间的影响最小，负载均衡度最高，性能优于FIFO方法和FAIR方法。

表1不同任务调度方法的性能对比

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种生物信息深度挖掘分析系统的架构构建方法，其特征在于：包括如下步骤：

S1：构建高通量计算一体化集群网络环境；

2.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络；所述管理网络用于服务器的连接和监管；所述计算网络用于需要分布式计算的作业场景中的服务器连接；所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。

3.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlops TeslaV100s的GPU计算资源。

4.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口；所述生物信息数据分析软件包括：FASTQC、Browse data、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、Tring Tie、Boxp lot、Heat map、Volcano plot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0。

5.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述生物信息挖掘分析流程模板包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程。

6.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述图形化工作流模型基于PiFlow构建，通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式。

7.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：所述调度和处理模型采用Master和Slave两种级别的架构模式，在Master节点上进行Slave节点执行信息汇总、挖掘分析任务执行时间预估、挖掘分析任务调度执行，在Slave节点上进行当前节点挖掘分析任务执行信息收集。

8.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法，其特征在于：多个所述挖掘分析任务调度算法综合考虑任务、场景和项目三个层级；包括如下步骤：