CN114664384A - 一种基于超算互联网的生物信息分析系统及方法 - Google Patents

一种基于超算互联网的生物信息分析系统及方法 Download PDF

Info

Publication number
CN114664384A
CN114664384A CN202210283261.3A CN202210283261A CN114664384A CN 114664384 A CN114664384 A CN 114664384A CN 202210283261 A CN202210283261 A CN 202210283261A CN 114664384 A CN114664384 A CN 114664384A
Authority
CN
China
Prior art keywords
information
supercomputing
resource
super
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210283261.3A
Other languages
English (en)
Inventor
郭浩宇
杨超超
王嘉祥
王继彬
潘景山
郭猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202210283261.3A priority Critical patent/CN114664384A/zh
Publication of CN114664384A publication Critical patent/CN114664384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于超算互联网领域,具体涉及一种基于超算互联网的生物信息分析系统及方法。该系统包括,生物信息分析平台web门户,用于接受用户发送的作业信息,并将所述作业信息发送至数据分析模块;所述数据分析模块,用于分析用户作业信息所需资源信息并发送给超算资源调度系统;所述超算资源调度系统,用于检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源,并将所述作业信息发送至超算集群;所述超算集群执行作业内容,其中,超算集群包括若干个超算算力资源。

Description

一种基于超算互联网的生物信息分析系统及方法
技术领域
本发明属于超算互联网领域,具体涉及一种基于超算互联网的生物信息分析系统及方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
超级计算是衡量一个国家综合科研水平的重要标志,也是支撑国家安全、经济、社会发展和可持续发展的不可替代的信息技术手段。超级计算广泛应用于基础科学研究、气候气象预测、生物医药研发等国家重大公共民生领域。
随着高通量测序技术在生命科学领域的广泛应用和高速发展,生物测序所产生的序列数据的迅速增长,普通实验室生物测序的数据量也可以达到PT级。测序技术数据量大、数据处理过程复杂等特点,也对高性能计算服务环境提出更高要求,出现单个超算算力资源仍显不足或单个超算资源利用率不足等问题,如此大规模数据的有效存储,高效分析,共享利用等都是现在面临的难题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于超算互联网的生物信息分析系统及方法,本发明利用超算互联网将多个超算中心统一互联起来,成为一套超算资源装置群。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于超算互联网的生物信息分析系统。
一种基于超算互联网的生物信息分析系统,包括:生物信息分析平台web门户,用于接受用户发送的作业信息,并将所述作业信息发送至数据分析模块;所述数据分析模块,用于分析用户作业信息所需资源信息并发送给超算资源调度系统;所述超算资源调度系统,用于检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源,并将所述作业信息发送至超算集群;所述超算集群执行作业内容,其中,超算集群包括若干个超算算力资源。
本发明的第二个方面提供一种基于超算互联网的生物信息分析方法。
一种基于超算互联网的生物信息分析方法,包括:
接受用户发送的作业信息;
分析用户作业信息所需资源信息;
检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源;
所述超算集群接收所述作业信息,执行作业内容;所述超算集群包括若干个超算算力资源。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二个方面所述的基于超算互联网的生物信息分析方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第二个方面所述的基于超算互联网的生物信息分析方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明解决了现有的单个超算算力资源不足或单个超算资源利用率不足等问题,能够集中更多的超算算力资源,保障对测序大数据,计算大数据和网络大数据进行快速及时的处理。
本发明能够更好的应对和解决海量生物信息数据的存储、处理计算和分析等问题,充分利用超算算力资源的更高性能,缩短数据处理时间的同时给出精准的处理结果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明示出的基于超算互联网的生物信息分析系统的框架图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
本实施例提供了一种基于超算互联网的生物信息分析系统。
一种基于超算互联网的生物信息分析系统,包括:生物信息分析平台web门户,用于接受用户发送的作业信息,并将所述作业信息发送至数据分析模块;所述数据分析模块,用于分析用户作业信息所需资源信息并发送给超算资源调度系统;所述超算资源调度系统,用于检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源,并将所述作业信息发送至超算集群;所述超算集群执行作业内容,其中,超算集群包括若干个超算算力资源。
超算互联网能够将多个超算中心统一互联起来,成为一套超算资源装置群,利用超算互联网的算力弹性支撑,实现超大设备群构建、超算互联网覆盖和资源协同共享,依托现有基础充分发挥超算大科学装置群的平台应用,能够对测序大数据,计算大数据和网络大数据进行快速及时的分析处理。
下面将结合本实施例中的附图1进行说明,本实施例的目的在于提供一种基于超算互联网的生物信息分析系统,包括生物信息分析平台web门户,数据分析模块,数据存储模块,超算资源调度系统以及超算互联网中的多个超算算力资源。
本实施例所涉及一种基于超算互联网的生物信息分析系统,集成和配置了生信分析流程中常用的分析工具,例如,bwa、picard、samtools、FastQC、MultiQC、GATK、SnpEff等开源工具。
步骤1:生物信息分析平台web门户。用于接受用户提交的数据。
步骤1.1:生物信息分析平台web门户接受用户登录信息,并发送给数据分析模块;
步骤1.2:生物信息分析平台web门户接受用户发送的作业信息,并提交给数据分析模块;
步骤1.3:生物信息分析平台web门户接受用户提交的查看信息并发送给数据分析模块;接受数据分析模块返回的查询数据并显示;
步骤2:数据分析模块。用于接收分析用户所提交的作业信息。
步骤2.1:数据分析模块接受步骤1.1提交的用户需求,将登录信息验证发送给数据存储模块;接受步骤2.2提交的计算结果并发送给数据存储模块;
步骤2.2:数据分析模块接受步骤1.2发送的用户作业信息,将用户作业信息存入数据存储模块;从作业信息中提取生信分析工具名,工具参数,数据集以及申请分配的cpu和内存等,通过文本解析将用户输入转换为调用生信工具计算的命令输入,分析用户作业所需资源大小并发送给超算资源调度系统;接受超算资源调度系统返回的计算结果并发送到数据分析模块;
步骤2.3:数据分析模块接受步骤1.3提交的用户查询信息,并转换为查询条件发送给数据存储模块;接受数据存储模块返回的查询结果并发送给生物信息分析平台web门户;
步骤3:数据存储模块。用于存储用户信息、用户提交的作业信息以及作业计算完成后的结果信息。
步骤3.1:数据存储模块接受步骤2.1提交的用户数据或计算结果数据并存入数据库;接受步骤2.1中的计算结果数据并更新数据库;
步骤3.2:数据存储模块接受步骤2.2中的作业记录并存入数据库;
步骤3.3:数据存储模块接受步骤2.3中的查询条件,检索数据库并将查询结果返回到数据分析模块;
步骤4:超算资源调度系统。用于检测超算集群中资源配置信息和匹配用户申请资源信息。
步骤4.1:超算资源调度系统检测超算集群中所有超算算力资源的配置信息并标记属性;
步骤4.2:超算资源调度系统接受步骤2.2中的生信工具调用命令和资源申请信息,根据检测到的各个超算算力资源的配置信息,与资源申请信息进行匹配,选择最适合的超算算力资源,将作业发送到目标超算集群;
步骤4.3:超算资源调度系统接受超算算力资源返回的计算结果,并将作业结果发送到数据分析模块;
步骤5:超算算力资源。用于执行作业并返回结果。
步骤5.1:目标超算接受步骤4.2中的作业信息并执行作业;
步骤5.2:等待作业完成,并将作业结果发送到超算资源调度系统。
实施例二
本实施例提供了一种基于超算互联网的生物信息分析方法。
一种基于超算互联网的生物信息分析方法,包括:
接受用户发送的作业信息;
分析用户作业信息所需资源信息;
检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源;
所述超算集群接收所述作业信息,执行作业内容;所述超算集群包括若干个超算算力资源。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例二所述的基于超算互联网的生物信息分析方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例二所述的基于超算互联网的生物信息分析方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于超算互联网的生物信息分析系统,其特征在于,包括:生物信息分析平台web门户,用于接受用户发送的作业信息,并将所述作业信息发送至数据分析模块;所述数据分析模块,用于分析用户作业信息所需资源信息并发送给超算资源调度系统;所述超算资源调度系统,用于检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源,并将所述作业信息发送至超算集群;所述超算集群执行作业内容,其中,超算集群包括若干个超算算力资源。
2.根据权利要求1所述的基于超算互联网的生物信息分析系统,其特征在于,若作业完成,将作业结果信息发送至超算资源调度系统,由超算资源调度系统发送至数据分析模块,由数据分析模块发送至生物信息分析平台web门户。
3.根据权利要求1所述的基于超算互联网的生物信息分析系统,其特征在于,所述生物信息分析平台web门户还用于接受用户登录信息和接受用户登录信息。
4.根据权利要求1所述的基于超算互联网的生物信息分析系统,其特征在于,所述数据分析模块还用于提取所述作业信息的生物信息分析工具名、工具参数、数据集、申请分配的cpu和内存,通过文本解析将用户输入转换为调用生物信息工具计算的命令输入,分析用户作业信息所需资源大小并发送给超算资源调度系统。
5.根据权利要求4所述的基于超算互联网的生物信息分析系统,其特征在于,所述超算资源调度系统检测所有超算集群中所有超算算力资源的配置信息并标记属性。
6.根据权利要求4所述的基于超算互联网的生物信息分析系统,其特征在于,所述超算资源调度系统还用于接收生物信息工具调用命令和资源申请信息,根据检测到的所述超算互联网中的所有超算算力资源的配置信息,与资源申请信息进行匹配,选择最适合的超算算力资源,将作业发送到目标超算集群。
7.根据权利要求1所述的基于超算互联网的生物信息分析系统,其特征在于,所述基于超算互联网的生物信息分析系统还包括:数据存储模块,所述存储模块用于存储用户信息、用户提交的作业信息以及作业结果信息。
8.一种基于超算互联网的生物信息分析方法,其特征在于,包括:
接受用户发送的作业信息;
分析用户作业信息所需资源信息;
检测超算集群中资源配置信息和匹配用户申请资源信息,得到最适合的超算资源;
所述超算集群接收所述作业信息,执行作业内容;所述超算集群包括若干个超算算力资源。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求8所述的基于超算互联网的生物信息分析方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求8所述的基于超算互联网的生物信息分析方法中的步骤。
CN202210283261.3A 2022-03-22 2022-03-22 一种基于超算互联网的生物信息分析系统及方法 Pending CN114664384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210283261.3A CN114664384A (zh) 2022-03-22 2022-03-22 一种基于超算互联网的生物信息分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210283261.3A CN114664384A (zh) 2022-03-22 2022-03-22 一种基于超算互联网的生物信息分析系统及方法

Publications (1)

Publication Number Publication Date
CN114664384A true CN114664384A (zh) 2022-06-24

Family

ID=82031233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210283261.3A Pending CN114664384A (zh) 2022-03-22 2022-03-22 一种基于超算互联网的生物信息分析系统及方法

Country Status (1)

Country Link
CN (1) CN114664384A (zh)

Similar Documents

Publication Publication Date Title
US10606654B2 (en) Data processing method and apparatus
US11915104B2 (en) Normalizing text attributes for machine learning models
CN104731595A (zh) 面向大数据分析的混合计算系统
Mushtaq et al. Sparkga: A spark framework for cost effective, fast and accurate dna analysis at scale
AU2019201821B2 (en) Generating an execution script for configuration of a system
CN105786941B (zh) 一种信息挖掘方法和装置
CN112287603A (zh) 一种基于机器学习的预测模型构建方法、装置和电子设备
CN106855844A (zh) 一种性能测试方法和系统
CN113609008A (zh) 测试结果分析方法、装置和电子设备
Deng et al. HiGene: A high-performance platform for genomic data analysis
CN113590771A (zh) 一种数据挖掘方法、装置、设备及存储介质
US8918406B2 (en) Intelligent analysis queue construction
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
CN109669777B (zh) 工业互联网大数据元需求服务提供方法与系统
CN109597702B (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
CN114664384A (zh) 一种基于超算互联网的生物信息分析系统及方法
CN110209631A (zh) 大数据处理方法及其处理系统
CN112363843B (zh) 任务处理方法、装置及设备
CN115147020A (zh) 装修数据处理方法、装置、设备及存储介质
CN111177100B (zh) 一种训练数据处理方法、装置及存储介质
CN113656183B (zh) 任务处理方法、装置、设备及存储介质
CN111553379B (zh) 基于异步训练的图像数据处理方法和系统
CN116541801B (zh) 多设备信息集中处理系统、设备及存储介质
Zoun Analytic cloud platform for near real-time mass spectrometry processing on the fast data architecture
JP2008192076A (ja) 入力値選定プログラム、入力値選定方法および入力値選定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination