CN109192248A - 基于云平台的生物信息分析系统、方法及云计算平台系统 - Google Patents

基于云平台的生物信息分析系统、方法及云计算平台系统 Download PDF

Info

Publication number
CN109192248A
CN109192248A CN201810796979.6A CN201810796979A CN109192248A CN 109192248 A CN109192248 A CN 109192248A CN 201810796979 A CN201810796979 A CN 201810796979A CN 109192248 A CN109192248 A CN 109192248A
Authority
CN
China
Prior art keywords
analysis
biological information
cloud platform
parameter
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810796979.6A
Other languages
English (en)
Other versions
CN109192248B (zh
Inventor
郭权
余果
任一
张磊
周勇
张祥林
黄华生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Majorbio Bio Pharm Technology Co ltd
Original Assignee
Shanghai Sangge Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sangge Information Technology Co Ltd filed Critical Shanghai Sangge Information Technology Co Ltd
Publication of CN109192248A publication Critical patent/CN109192248A/zh
Application granted granted Critical
Publication of CN109192248B publication Critical patent/CN109192248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明系统,包括客户端、web服务器和云平台计算系统;客户端和web服务器之间通过网络收发信息,web服务器和云平台计算系统之间通过Nginx网页服务器交换数据;云平台web服务器包括生物信息分析请求接口;云平台计算系统包括生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库、Mongo数据库、和若干计算节点;生物信息分析组件从生物信息分析请求接口接收生物信息分析请求及参数,根据参数判读计算类型而由不同对象进行分析;分析结果存到存储服务器,Mysql数据库存储分析记录等,Mongo数据库存储供云平台客户端展示的图表数据,实现分析系统的自动化分析运作。

Description

基于云平台的生物信息分析系统、方法及云计算平台系统
技术领域
本发明涉及一种基于云平台的生物信息分析系统、方法及云计算平台系统,属于生物信息学分析技术领域。
背景技术
随着测序技术的快速发展,基因研究机构、医学科研机构和公司产生了海量的生物学测序数据。但是众所周知,实验测序得到的原始数据并不能直接提供有价值的科学研究信息或疾病治疗药物的关联信息,需要利用生物信息学分析技术对这些数据进行计算挖掘,从而给出清晰且易于导出结论的结果信息。生物信息学是在生命科学的研究中以计算机为主要研究工具对生物学数据进行存储和计算分析,面对高通量测序所产生的海量数据,越来越多的研究人员或公司基于高性能计算机集群通过安装各种生物信息分析软件来进行计算分析。生物信息分析过程也是很多软件和程序相互关联,通过不同的步骤方法处理数据后得到最终的分析结果,由于生物信息软件层出不断、更新迭代,每个分析程序参数、文件格式、运行方式各异,研究人员不断的要去研究新的软件方法并在计算机或集群上安装部署都变得十分复杂。海量数据的存储、计算和传输共享也是研究者们快速访问和分析数据中的难点。所以设计构建一种自动化扩展性好的生物信息云计算系统十分必要。
发明内容
本发明的目的是解决目前生物信息分析软件品类繁多,分析效率低下,自动扩展性差,大规模数据难于存储共享和多样化软件程序构建部署分析流程复杂的技术问题。
为实现上述目的及其他相关目的,一方面,本发明提供一种基于云平台的生物信息分析系统,包括云平台客户端、云平台web服务器和云平台计算系统;所述云平台客户端和所述云平台web服务器之间通过网络收发信息,所述云平台web服务器和所述云平台计算系统之间通过Nginx网页服务器交换数据;所述云平台web服务器包括生物信息分析请求接口;所述云平台计算系统包括生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库和Mongo数据库;所述云平台计算系统还包括若干计算节点,用于对生物信息进行分析计算;所述生物信息分析请求接口通过所述Nginx网页服务器连接至所述生物信息分析应用接口,所述生物信息分析应用接口的输出端通过工作流进程管理单元连接至所述生物信息分析组件的输入端,所述生物信息分析组件的输出端分别连接至所述存储服务器、Mysql数据库和Mongo数据库;所述生物信息分析请求接口向所述生物信息分析应用接口发出生物信息分析请求并发送参数;所述存储服务器用于存储分析结果数据,所述Mysql数据库用于存储分析记录、状态和日志信息,所述Mongo数据库用于存储供所述云平台客户端展示的图表数据。
于本发明的一实施例中,所述生物信息分析组件为即时模式分析组件或提交模式分析组件。
于本发明的一实施例中,所述提交模式分析组件包括分析模块和文件组件;所述分析模块包括若干分析工具,各所述分析工具通过对应的工具代理与工作流进程管理单元进行通信;所述工作流进程管理单元用于将不同的分析任务调度给不同的所述分析模块;所述文件组件用于使分析结果形成通用的生物信息数据格式。
于本发明的一实施例中,所述工作流进程管理单元通过slurm系统进行任务调度。
于本发明的一实施例中,所述工作流进程管理单元,用于启动和管理生物分析工作流运行,监听接收所述生物信息分析应用接口接收到的生物信息分析请求及参数,根据所述参数判读是即时计算类型还是投递计算类型,同时开启一个进程运行工作流api,并将参数传递给对应的生物分析工作流;若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;若为投递计算类型,则将参数传递至计算节点上运行生物信息分析工作流。
于本发明的一实施例中,所述工作流进程管理单元,用于在判断是投递计算类型的情况下,在获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
于本发明的一实施例中,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
为实现上述目的及其他相关目的,另一方面,本发明提供一种基于云平台的生物信息分析方法,包括如下步骤:在客户端输入用于分析的参数并向web服务器发出分析请求消息;通过Nginx网页服务器接收请求消息后转发至生物信息分析应用接口,解析参数;判读所述参数为即时计算类型还是投递计算类型;若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;若为投递计算类型,则将参数传递至计算节点服务器上运行生物信息分析工作流;将生成的结果数据上传到云平台的存储服务器和mongo数据库;将生物信息分析工作流的运行状态实时存入Mysql数据库;向web服务器返回分析成功的消息,web服务器从mongo数据库获取结果提供给客户端。
于本发明的一实施例中,所述投递计算类型的分析工作流如下:工作流进程管理单元获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
于本发明的一实施例中,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
为实现上述目的及其他相关目的,再一方面,本发明提供一种云计算平台系统,连接于云平台web服务器;所述云平台客户端和所述云平台web服务器之间通过网络收发信息,所述云平台web服务器和所述云平台计算系统之间通过Nginx网页服务器交换数据,所述云平台web服务器包括生物信息分析请求接口;所述云计算平台系统包括:生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库和Mongo数据库;所述云平台计算系统还包括若干计算节点,用于对生物信息进行分析计算;所述生物信息分析请求接口通过所述Nginx网页服务器连接至所述生物信息分析应用接口,所述生物信息分析应用接口的输出端通过工作流进程管理单元连接至所述生物信息分析组件的输入端,所述生物信息分析组件的输出端分别连接至所述存储服务器、Mysql数据库和Mongo数据库;所述生物信息分析请求接口向所述生物信息分析应用接口发出生物信息分析请求并发送参数。
于本发明的一实施例中,所述生物信息分析组件为即时模式分析组件或提交模式分析组件。
于本发明的一实施例中,所述提交模式分析组件包括分析模块和文件组件;所述分析模块包括若干分析工具,各所述分析工具通过对应的工具代理与工作流进程管理单元进行通信;所述工作流进程管理单元用于将不同的分析任务调度给不同的所述分析模块;所述文件组件用于使分析结果形成通用的生物信息数据格式。
于本发明的一实施例中,所述工作流进程管理单元通过slurm系统进行任务调度。
于本发明的一实施例中,所述工作流进程管理单元,用于启动和管理生物分析工作流运行,监听接收所述生物信息分析应用接口接收到的生物信息分析请求及参数,根据所述参数判读是即时计算类型还是投递计算类型,同时开启一个进程运行工作流api,并将参数传递给对应的生物分析工作流;若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;若为投递计算类型,则将参数传递至计算节点上运行生物信息分析工作流。
于本发明的一实施例中,所述工作流进程管理单元,用于在判断是投递计算类型的情况下,在获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
于本发明的一实施例中,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
综上所述,本发明基于云平台的生物信息分析系统、方法及云计算平台系统,生物信息分析系统包括云平台客户端、云平台web服务器和云平台计算系统;所述云平台客户端和所述云平台web服务器之间通过网络收发信息,所述云平台web服务器和所述云平台计算系统之间通过Nginx网页服务器交换数据;所述云平台web服务器包括生物信息分析请求接口;所述云平台计算系统包括生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库和Mongo数据库;所述云平台计算系统还包括若干计算节点,用于对生物信息进行分析计算;所述生物信息分析请求接口通过所述Nginx网页服务器连接至所述生物信息分析应用接口,所述生物信息分析应用接口的输出端通过工作流进程管理单元连接至所述生物信息分析组件的输入端,所述生物信息分析组件的输出端分别连接至所述存储服务器、Mysql数据库和Mongo数据库;所述生物信息分析请求接口向所述生物信息分析应用接口发出生物信息分析请求并发送参数;所述存储服务器用于存储分析结果数据,所述Mysql数据库用于存储分析记录、状态和日志信息,所述Mongo数据库用于存储供所述云平台客户端展示的图表数据,实现分析系统的自动化分析运作。
附图说明
图1是本发明系统的原理框图;
图2是生物信息分析组件的一个实施例原理框图;
图3是本发明方法的流程图。
图中,云平台客户端1;云平台web服务器2;生物信息分析请求接口21;云平台计算系统3;生物信息分析应用接口31;生物信息分析组件32;分析模块322;工具代理3221;分析工具3222;文件组件323;存储服务器33;Mysql数据库34;Mongo数据库35;工作流进程管理单元36;计算节点3701、3702…;Nginx网页服务器4。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1
如图1所示,本发明的基于云平台的生物信息分析系统,包括云平台客户端1、云平台web服务器2和云平台计算系统3;
云平台客户端1和所述云平台web服务器2之间通过网络收发信息,云平台web服务器2和所述云平台计算系统3之间通过Nginx网页服务器4交换数据;
云平台web服务器2包括生物信息分析请求接口21;
云平台计算系统3包括生物信息分析应用接口31、生物信息分析组件32、存储服务器33、Mysql数据库34和Mongo数据库35;
云平台计算系统3还包括若干计算节点3701、3702等,用于对生物信息进行分析计算;云平台计算系统3包含有分析各种不同生物信息的大规模计算节点,不同的分析组件被投递到计算节点对生物信息进行分析计算;
生物信息分析请求接口21通过Nginx网页服务器4连接至生物信息分析应用接口31,生物信息分析应用接口31的输出端通过工作流进程管理单元(WPM)36连接至生物信息分析组件32的输入端,生物信息分析组件32的输出端分别连接至存储服务器33、Mysql数据库34和Mongo数据库35,Mysql数据库34和Mongo数据库35的输出端分别通过Nginx网页服务器4连接至云平台web服务器2;
生物信息分析请求接口21向生物信息分析应用接口31发出生物信息分析请求并发送参数;
存储服务器33用于存储分析结果数据,Mysql数据库34用于存储分析记录、状态和日志信息,Mongo数据库35用于存储供云平台客户端1展示的图表数据。
优选地,生物信息分析组件32为即时模式分析组件或提交模式分析组件。
优选地,如图2所示,提交模式分析组件32包括分析模块322和文件组件323;
分析模块322包括若干分析工具3222,各分析工具3222通过对应的工具代理3221与工作流进程管理单元36进行通信;不同的生物信息分析任务由不同功能的分析工具被投递到单个或多个计算节点完成分析计算;
工作流进程管理单元36用于将不同的分析任务调度给不同的分析模块222;
文件组件323用于使分析结果形成通用的生物信息数据格式并进行格式检查。
优选地,工作流进程管理单元36通过slurm系统进行任务调度。
实施例2
如图3所示,本发明的基于云平台的生物信息分析方法,包括如下步骤:
S100:在客户端向web服务器发出分析请求消息并输入用于分析的参数;
S110:通过Nginx网页服务器接收请求消息后转发至生物信息分析应用接口,解析参数;
S120:判读参数为即时计算类型还是投递计算类型;
S125:若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;
S126:若为投递计算类型,则将参数传递至计算节点服务器上运行生物信息分析工作流;
S130:将生成的结果数据上传到云平台的存储服务器和mongo数据库;
S140:将生物信息分析工作流的运行状态实时存入Mysql数据库;
S150:向web服务器返回分析成功的消息,web服务器从mongo数据库获取结果提供给客户端。
优选地,投递计算类型的分析工作流如下:
工作流进程管理单元获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
本系统搭建在高性能集群中,是云平台的后端数据存储和分析计算系统,并通过Nginx网页服务器与云平台的网络端进行数据通讯,包括接收分析任务ID和参数,发送分析计算状态。
系统采用Lustre可扩展并行文件系统存储数据文件,为所有客户机提供统一的命名空间,支持大规模高通量测序数据采集存储、分析中间文件和结果文件存储访问,以及大量生物信息数据库的存放,所有生物信息分析程序软件可以统一安装部署和特定的环境配置,数据和程序均可支持所有计算节点的统一访问和调用。
系统中核心部分为自动化计算框架,包括以下部分:
Nginx网页服务器使用uwsgi协议接口进行客户端与web框架应用之间的信息交换,响应云平台网页端的请求,本系统中采用web.py网络框架来创建编写生物信息分析计算应用接口。按照生物信息分析组件的模式组合分析计算工作流,实现后端数据在高性能集群上的自动化运算。
生物信息分析组件,包括流程(Workflow)、模块(Moudule)、工具及其代理(Tool,ToolAgent),以及定义生物信息数据格式的文件组件(File)。
工具是一个单一功能的生物信息分析组件,可调用一个或多个分析软件、或自定义程序包,可以重复利用,实现一个分析功能。生物信息分析计算都是由工具为最小单位在计算节点上完成。由于计算节点属于远程服务器,因而需要一个工具代理负责与工具进行通信,工具与工具代理一一对应,通过网络通信实现信息互通。
分析模块完成一个特定的较复杂的分析功能,分析模块中包含多个工具的组合,通过定义分析工具之间的运行逻辑来实现一个特定的分析功能。
流程完成一个完整的生信分析过程,通过定义运行逻辑,调用组合一系列的模块和工具实现一套的分析流程方案。工具和模块可以根据用户的分析设计被复用在不同的流程中,从而实现一个分析应用一次打包反复使用的目的。
文件定义一种通用的生物信息数据格式,包含数据属性和通用处理方法函数,工具、模块之间通过在参数中设置输入、输出的文件对象传递数据,并进行格式验证和文件处理通用方法的调用。
WPM工作流进程管理单元,系统通过WPM管理分析工作流的自动化运作。WPM监听接收到的任务请求和参数,开启一个进程运行工作流组件,并将参数传递给对应的工作流组件,流程组件中按照定义的逻辑关系,传递参数到其中的模块和工具,触发子组件的运行,并将工具投递到计算节点开始计算分析,同时不断监听和接收运行的状态。
Slurm任务调度,系统中计算节点的任务运行调度采用了Slurm系统来管理往计算节点的任务投递,slurm是一种可用于大型计算节点集群的高度可伸缩容错的集群管理器和作业调度系统。
数据库系统,系统中将分析运行的状态实时存入Mysql数据库,将分析计算结果数据按预先定义好的数据结构存入Mongo数据库,供网页端服务器快速有效的获取和查询,实现云平台的客户端用户快速直接的访问数据。
为了提高用户与数据快速、即时访问的交互效率和体验,本系统实现了两种分析计算模式,一种是对于大规模数据分析运算耗时较长的任务采用提交模式,用户不用等在客户端,在客户端点击提交即可,运行完成前可随时查看运行的进度。一种是对于小型数据或已处理后数据表进行耗时较短的分析时,系统自动判断并使用即时模式,无需任务投递,直接在专门配置的多个计算节点运行计算,并快速返回结果。
系统运行步骤如下:
1.云端Web服务器通过客户端浏览器提供给用户网络访问平台系统的方式,用户在浏览器云平台网站选择生物信息分析应用,填写参数提交后,客户端将提交的数据通过网络传输协议发送给web服务器,由Nginx网页服务器接收消息,Nginx是一款面向性能设计的HTTP服务器,支持高并发和高性能负载均衡,可并行接收数据请求,处理请求和返回响应。
2.Nginx服务器接收到请求消息后,通过uwsgi接口将消息和参数传递给web.py框架中预先开发创建好的生物信息分析应用接口,由应用接口处理消息,对传递的参数进行解析和检查后,开始启动生物信息数据分析计算工作流;
3.WPM工作流进程管理启动和管理分析工作流运行,WPM监听接收到接口应用发起的任务请求和参数,通过应用类型参数判断分析计算类型,包括两种类型,一种是即时计算类型,一种是投递计算类型,同时开启一个进程运行工作流api,并将参数传递给对应的工作流;
4.如果接口应用是即时计算类型,计算耗时较短,工作流分析组件将直接在专用即时计算服务器上运行,生成的结果数据会上传到平台存储服务器位置,同时将需要展示在客户端网站的图表数据存入生物信息分析mongo数据库,供网页端获取展示,然后返回消息给web服务器,web服务器从数据库获取结果数据后展示给客户端。用户即可实时通过网络查看分析结果。
5.如果接口应用是投递计算类型,生物学数据需要经过较长时间(几十分钟到几个小时不等),流程组件获取参数后,按照内部预先定义的逻辑关系,传递参数到其中的模块和工具,触发子组件的运行,组件之间的通过协程监听互相有依赖关系的模块的运行状态,到最小级别工具组件运行时,将工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收运行的状态。工具的运行状态通过工具代理与同一工作流中其他组件交换数据,运行当中会按照各组件自身的特性动态配置计算资源,并记录运行状态和进度、报错等日志信息,如若出现连接或运行失败,系统会根据预设的情况判断是否调整配置重新计算,同时会不断将运行进度状态在数据库中进行更新,web服务器端利用定时器获取状态后实时在页面刷新进度,用户可随时跟踪运行情况。计算运行结束后,结果数据会上传到存储服务器位置,同时将需要的数据存入生物信息分析mongo数据库,返回消息给web服务器端,web服务器返回新的结果页面,供用户查看。
生物信息分析组件包括流程(Workflow)、模块(Moudule)、工具及其代理(Tool,ToolAgent),以及定义生物信息数据格式的文件组件(File)。
流程是由模块和工具根据具体的分析产品运行逻辑组合而成,模块和工具之间具有依赖关联关系,模块或工具组件之间通过参数传递数据,包括输入输出文件参数和字段参数,输入输出文件参数需要预先定义一个该文件格式的文件组件,文件组件中会定义文件的属性和方法,并对传递的文件格式进行检查。组件之间的输入输出参数传递的是文件组件对象。在任务管理节点,一个流程中的组件包括模块和工具代理,工具代理在启动运行时通过slurm将任务投递到计算节点对应的工具进行计算,并通过工具代理实时交换数据,工具代理给工具发送运行指令和计算所需参数,工具返回运行状态和日志。一个组件如果依赖多个组件的计算结果,则需等待多个组件运行成功结束后自动激活运行。整个过程通过WPM流程管理进行监控和控制,从而实现分析系统的自动化运作。

Claims (17)

1.一种基于云平台的生物信息分析系统,其特征在于,包括云平台客户端、云平台web服务器和云平台计算系统;
所述云平台客户端和所述云平台web服务器之间通过网络收发信息,所述云平台web服务器和所述云平台计算系统之间通过Nginx网页服务器交换数据;
所述云平台web服务器包括生物信息分析请求接口;
所述云平台计算系统包括生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库和Mongo数据库;
所述云平台计算系统还包括若干计算节点,用于对生物信息进行分析计算;
所述生物信息分析请求接口通过所述Nginx网页服务器连接至所述生物信息分析应用接口,所述生物信息分析应用接口的输出端通过工作流进程管理单元连接至所述生物信息分析组件的输入端,所述生物信息分析组件的输出端分别连接至所述存储服务器、Mysql数据库和Mongo数据库;
所述生物信息分析请求接口向所述生物信息分析应用接口发出生物信息分析请求并发送参数;
所述存储服务器用于存储分析结果数据,所述Mysql数据库用于存储分析记录、状态和日志信息,所述Mongo数据库用于存储供所述云平台客户端展示的图表数据。
2.如权利要求1所述的基于云平台的生物信息分析系统,其特征在于,所述生物信息分析组件为即时模式分析组件或提交模式分析组件。
3.如权利要求2所述的基于云平台的生物信息分析系统,其特征在于,所述提交模式分析组件包括分析模块和文件组件;
所述分析模块包括若干分析工具,各所述分析工具通过对应的工具代理与所述工作流进程管理单元进行通信;
所述工作流进程管理单元用于将不同的分析任务调度给不同的所述分析模块;
所述文件组件用于使分析结果形成通用的生物信息数据格式。
4.如权利要求3所述的基于云平台的生物信息分析系统,其特征在于,所述工作流进程管理单元通过slurm系统进行任务调度。
5.如权利要求3所述的基于云平台的生物信息分析系统,其特征在于,所述工作流进程管理单元,用于启动和管理生物分析工作流运行,监听接收所述生物信息分析应用接口接收到的生物信息分析请求及参数,根据所述参数判读是即时计算类型还是投递计算类型,同时开启一个进程运行工作流api,并将参数传递给对应的生物分析工作流;
若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;
若为投递计算类型,则将参数传递至计算节点上运行生物信息分析工作流。
6.如权利要求5所述的基于云平台的生物信息分析系统,其特征在于,所述工作流进程管理单元,用于在判断是投递计算类型的情况下,在获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
7.如权利要求6所述的基于云平台的生物信息分析系统,其特征在于,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
8.一种基于云平台的生物信息分析方法,其特征在于,包括如下步骤:
在客户端输入用于分析的参数并向web服务器发出分析请求消息;
通过Nginx网页服务器接收请求消息后转发至生物信息分析应用接口,解析参数;
判读所述参数为即时计算类型还是投递计算类型;
若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;
若为投递计算类型,则将参数传递至计算节点服务器上运行生物信息分析工作流;
将生成的结果数据上传到云平台的存储服务器和mongo数据库;
将生物信息分析工作流的运行状态实时存入Mysql数据库;
向web服务器返回分析成功的消息,web服务器从mongo数据库获取结果提供给客户端。
9.如权利要求8所述的基于云平台的生物信息分析方法,其特征在于,所述投递计算类型的分析工作流如下:
工作流进程管理单元获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
10.如权利要求9所述的基于云平台的生物信息分析系统,其特征在于,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
11.一种云计算平台系统,其特征在于,连接于云平台web服务器;所述云平台客户端和所述云平台web服务器之间通过网络收发信息,所述云平台web服务器和所述云平台计算系统之间通过Nginx网页服务器交换数据,所述云平台web服务器包括生物信息分析请求接口;所述云计算平台系统包括:生物信息分析应用接口、生物信息分析组件、存储服务器、Mysql数据库和Mongo数据库;
所述云平台计算系统还包括若干计算节点,用于对生物信息进行分析计算;
所述生物信息分析请求接口通过所述Nginx网页服务器连接至所述生物信息分析应用接口,所述生物信息分析应用接口的输出端通过工作流进程管理单元连接至所述生物信息分析组件的输入端,所述生物信息分析组件的输出端分别连接至所述存储服务器、Mysql数据库和Mongo数据库;
所述生物信息分析请求接口向所述生物信息分析应用接口发出生物信息分析请求并发送参数。
12.如权利要求11所述的云计算平台系统,其特征在于,所述生物信息分析组件为即时模式分析组件或提交模式分析组件。
13.如权利要求12所述的云计算平台系统,其特征在于,所述提交模式分析组件包括分析模块和文件组件;
所述分析模块包括若干分析工具,各所述分析工具通过对应的工具代理与工作流进程管理单元进行通信;
所述工作流进程管理单元用于将不同的分析任务调度给不同的所述分析模块;
所述文件组件用于使分析结果形成通用的生物信息数据格式。
14.如权利要求13所述的云计算平台系统,其特征在于,所述工作流进程管理单元通过slurm系统进行任务调度。
15.如权利要求13所述的基于云平台的生物信息分析系统,其特征在于,所述工作流进程管理单元,用于启动和管理生物分析工作流运行,监听接收所述生物信息分析应用接口接收到的生物信息分析请求及参数,根据所述参数判读是即时计算类型还是投递计算类型,同时开启一个进程运行工作流api,并将参数传递给对应的生物分析工作流;
若为即时计算类型,则直接在专用即时计算服务器上运行生物信息分析工作流;
若为投递计算类型,则将参数传递至计算节点上运行生物信息分析工作流。
16.如权利要求15所述的云计算平台系统,其特征在于,所述工作流进程管理单元,用于在判断是投递计算类型的情况下,在获取参数后,按照内部预先定义的逻辑关系,将参数传递到生物信息分析组件的各分析模块,触发各分析模块的运行,各分析模块之间通过协程监听互相有依赖关系的分析模块的运行状态,以各分析模块中的各分析工具为最小级别分析组件,将各分析工具通过slurm投递到计算节点开始计算分析,同时不断监听和接收分析的状态。
17.如权利要求16所述的云计算平台系统,其特征在于,所述运行当中会按照各生物信息分析组件自身的特性动态配置计算资源。
CN201810796979.6A 2017-07-21 2018-07-19 基于云平台的生物信息分析系统、方法及云计算平台系统 Active CN109192248B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710598332.8A CN107239675A (zh) 2017-07-21 2017-07-21 基于云平台的生物信息分析系统
CN2017105983328 2017-07-21

Publications (2)

Publication Number Publication Date
CN109192248A true CN109192248A (zh) 2019-01-11
CN109192248B CN109192248B (zh) 2021-08-03

Family

ID=59988120

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710598332.8A Pending CN107239675A (zh) 2017-07-21 2017-07-21 基于云平台的生物信息分析系统
CN201810796979.6A Active CN109192248B (zh) 2017-07-21 2018-07-19 基于云平台的生物信息分析系统、方法及云计算平台系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710598332.8A Pending CN107239675A (zh) 2017-07-21 2017-07-21 基于云平台的生物信息分析系统

Country Status (1)

Country Link
CN (2) CN107239675A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885177A (zh) * 2020-07-28 2020-11-03 杭州绳武科技有限公司 一种基于云计算技术的生物信息分析云计算方法、系统
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法
CN112596707A (zh) * 2020-12-16 2021-04-02 安诺优达基因科技(北京)有限公司 基于生物信息分析工具模块的生物信息分析方法、装置和电子设备
CN113158113A (zh) * 2021-05-17 2021-07-23 上海交通大学 生物信息分析工作流多用户云端访问方法、管理系统
CN113223621A (zh) * 2021-05-17 2021-08-06 上海交通大学 一种用于生物医学的全链条数据分析系统
CN117316300A (zh) * 2023-10-24 2023-12-29 深圳东方天意科技有限公司 生信分析系统、方法、计算机设备及计算机可读存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319514A (zh) * 2018-01-26 2018-07-24 山东超越数控电子股份有限公司 一种基于Slurm作业管理的可视化调度系统
CN108694305B (zh) * 2018-03-30 2021-06-11 武汉生物样本库有限公司 基于云计算的生物信息分析系统
CN109582292B (zh) * 2018-11-01 2022-02-18 广州基迪奥生物科技有限公司 一种基于基因组学以及生物信息学的在线交互云平台
WO2020029513A1 (zh) * 2018-12-21 2020-02-13 深圳晶泰科技有限公司 分子力场参数生成的计算任务管理分析系统及其运行方法
CN111211971B (zh) * 2020-01-03 2021-11-05 西安新能技术有限公司 一种支撑互联网问诊服务的集群式即时消息系统及其实现方法
CN111881097A (zh) * 2020-06-12 2020-11-03 东莞见达信息技术有限公司 生理信号数据记录方法及装置
CN113723931B (zh) * 2021-09-09 2024-04-19 中国工程物理研究院计算机应用研究所 一种适用于多尺度高通量材料计算的工作流建模方法
CN116386736B (zh) * 2023-04-11 2024-04-05 南京派森诺基因科技有限公司 基于二代测序的真核有参转录组产品全自动化分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289540A (zh) * 2011-07-01 2011-12-21 中国航空工业集团公司科学技术委员会 面向服务异构网格上的工作流驱动遗传算法航空优化系统
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理系统及方法
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106294081A (zh) * 2016-08-12 2017-01-04 北京百迈客云科技有限公司 生物信息分析任务运行监控系统
US20170091382A1 (en) * 2015-09-29 2017-03-30 Yotta Biomed, Llc. System and method for automating data generation and data management for a next generation sequencer

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289540A (zh) * 2011-07-01 2011-12-21 中国航空工业集团公司科学技术委员会 面向服务异构网格上的工作流驱动遗传算法航空优化系统
US20170091382A1 (en) * 2015-09-29 2017-03-30 Yotta Biomed, Llc. System and method for automating data generation and data management for a next generation sequencer
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理系统及方法
CN106022007A (zh) * 2016-06-14 2016-10-12 中国科学院北京基因组研究所 面向生物组学大数据计算的云平台系统及方法
CN106294081A (zh) * 2016-08-12 2017-01-04 北京百迈客云科技有限公司 生物信息分析任务运行监控系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程国建: "《迁移到云端 在云计算的新世界开发应用》", 30 June 2015, 国防工业出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885177A (zh) * 2020-07-28 2020-11-03 杭州绳武科技有限公司 一种基于云计算技术的生物信息分析云计算方法、系统
CN111885177B (zh) * 2020-07-28 2023-05-30 杭州绳武科技有限公司 一种基于云计算技术的生物信息分析云计算方法、系统
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法
CN112596707A (zh) * 2020-12-16 2021-04-02 安诺优达基因科技(北京)有限公司 基于生物信息分析工具模块的生物信息分析方法、装置和电子设备
CN113158113A (zh) * 2021-05-17 2021-07-23 上海交通大学 生物信息分析工作流多用户云端访问方法、管理系统
CN113223621A (zh) * 2021-05-17 2021-08-06 上海交通大学 一种用于生物医学的全链条数据分析系统
CN113223621B (zh) * 2021-05-17 2023-10-31 上海交通大学 一种用于生物医学的全链条数据分析系统
CN117316300A (zh) * 2023-10-24 2023-12-29 深圳东方天意科技有限公司 生信分析系统、方法、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN109192248B (zh) 2021-08-03
CN107239675A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN109192248A (zh) 基于云平台的生物信息分析系统、方法及云计算平台系统
CN113176875B (zh) 一种基于微服务的资源共享服务平台架构
US9037698B1 (en) Method and system for collecting and analyzing time-series data
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
CN110740079B (zh) 一种面向分布式调度系统的全链路基准测试系统
CN104954453A (zh) 基于云计算的数据挖掘rest服务平台
CN110377595A (zh) 一种车辆数据管理系统
CN108243012B (zh) 在线计费系统ocs中计费应用处理系统、方法及装置
CN108171473A (zh) 一种数据分析处理系统及数据分析处理方法
Davami et al. Fog-based architecture for scheduling multiple workflows with high availability requirement
CN106528169B (zh) 一种基于AnGo动态演化模型的Web系统开发可复用方法
CN109618308A (zh) 一种基于Spark Streaming处理物联网数据的方法
Shoumik et al. Scalable micro-service based approach to FHIR server with golang and No-SQL
Balliu et al. A big data analyzer for large trace logs
In et al. Sphinx: A scheduling middleware for data intensive applications on a grid
CN114912255A (zh) 在线仿真实验系统及方法
CN114610597A (zh) 一种压力测试方法、装置、设备及存储介质
CN115237547B (zh) 一种非侵入式hpc计算集群的统一容器集群托管系统和方法
CN113722141A (zh) 数据任务的延迟原因确定方法、装置、电子设备及介质
Hesse A benchmark for enterprise stream processing architectures
CN114520781B (zh) 基于数字孪生的网络技术和协议测试平台及其测试方法
Shamsa et al. A decentralized prediction-based workflow load balancing architecture for cloud/fog/IoT environments
Zhao An agent based architecture for constructing interactive simulation systems
Li Performance management of event processing systems
Kuehn et al. Active Job Monitoring in Pilots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220701

Address after: 201318 No.3, Lane 3399, Kangxin Road, Pudong New Area, Shanghai

Patentee after: SHANGHAI MAJORBIO BIO-PHARM TECHNOLOGY CO.,LTD.

Address before: 200120 room 288, building 9, No. 337, Zhouzhu Road, Pudong New Area, Pudong New Area, Shanghai

Patentee before: I-SANGER Inc.