CN111666356A - 一种基于galaxy的生信分析paas云平台系统 - Google Patents

一种基于galaxy的生信分析paas云平台系统 Download PDF

Info

Publication number
CN111666356A
CN111666356A CN202010795840.7A CN202010795840A CN111666356A CN 111666356 A CN111666356 A CN 111666356A CN 202010795840 A CN202010795840 A CN 202010795840A CN 111666356 A CN111666356 A CN 111666356A
Authority
CN
China
Prior art keywords
data
module
analysis
cloud platform
galaxy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010795840.7A
Other languages
English (en)
Inventor
朱旨昂
阚苏立
吕兴祥
卢清瑶
孙祥
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Original Assignee
Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd filed Critical Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Priority to CN202010795840.7A priority Critical patent/CN111666356A/zh
Publication of CN111666356A publication Critical patent/CN111666356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及生信分析技术领域,具体地说,涉及一种基于galaxy的生信分析paas云平台系统。包括Web服务单元、数据存储单元、集群管理单元、数据格式转换单元和数据分析单元,所述Web服务单元用于用户注册、认证和页面展示;所述数据存储单元用于将生物信息录入数据库内;所述集群管理单元用于实现集群状态监控和资源调度;所述数据格式转换单元用于实现数据格式的转化;所述数据分析单元用于对生物信息进行分析。本发明设计能够提高数据处理效率,保障数据库内生物信息的完整性,为分析提供准确的数据支撑,加速数据分析过程,促进了生物医学研究的发展。

Description

一种基于galaxy的生信分析paas云平台系统
技术领域
本发明涉及生信分析技术领域,具体地说,涉及一种基于galaxy的生信分析paas云平台系统。
背景技术
随着高通量测序等各种组学技术的发展,生物医学研究大数据处理和分析的需求愈发迫切,由于,生物信息分析中数据量大,数据处理速度慢,影响数据处理效果,同时,平台内的数据库信息无法及时更新,在进行分析时,无法需现有的最新数据进行对比,影响数据分析效果。
发明内容
本发明的目的在于提供一种基于galaxy的生信分析paas云平台系统,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供一种基于galaxy的生信分析paas云平台系统,包括Web服务单元、数据存储单元、集群管理单元、数据格式转换单元和数据分析单元,所述Web服务单元用于用户注册、认证和页面展示;所述数据存储单元用于将生物信息录入数据库内;所述集群管理单元用于实现集群状态监控和资源调度;所述数据格式转换单元用于实现数据格式的转化;所述数据分析单元用于对生物信息进行分析。
作为本技术方案的进一步改进,所述Web服务单元包括用户认证模块、权限管理模块和角色定义模块;所述用户认证模块用于认证用户信息;所述权限管理模块用于为用户设定权限;所述角色定义模块用于认证用户角色。
所述用户认证模块基于MySQL中建立用户信息表,其创建步骤如下:
①、确定用户信息字段,用户信息只有一些常用的、比较重要的信息,由于需要邮件验证,所以还需要保存临时验证码;
②、建立用户表,其函数代码如下:
create table user(
id int(10) unsigned not null auto_increment,
uid varchar(20) not null default '',
password varchar(30) not null default '',
realName varchar(20) not null default '',
gender tinyint(1) unsigned not null default '0',
email varchar(50) not null default '',
tel varchar(15) default null,
question varchar(50) default null,
validateCode varchar(20) not null default '',
answer varchar(50) not null default '',
loginNum int(10) unsigned not null default '0',
primary key(id));
③、创建注册提交表单;
④、客户端验证数据有效性;
⑤、检测用户名是否已存在,其检测函数代码如下:
<%
String uid=request.getParameter("uid");
UserService service=new UserService();
boolean isExist=service.checkUid(uid);
%>
<%if(isExist){%>
此用户名已经存在,请选用一个新用户名!
<%}else{%>
此用户名尚未被使用!
<%}%>
⑥、保存注册信息到数据库,用Servlet根据提交来的数据来处理请求,检查合法性,并将合法的数据持久化。
所述角色定义模块可根据用户的职业类型定义不同的角色,以便于在系统根据角色的不同展示不同的信息数据,以便于用户使用。
作为本技术方案的进一步改进,所述数据存储单元包括数据录入模块、数据下载模块和数据更新模块;所述数据录入模块用于将生物信息录入数据库内;所述数据下载模块用于从互联网下载生物信息,并录入数据库内;所述数据更新模块用于更新数据库内储存的生物信息。
所述数据存储单元的数据库基于mysql设计,在mysql运行环境下,使用load data语句把文件里面的数据读取录入到表里面。
所述数据下载模块用于从NCBI、UCSC等国际网站下载数据库。
作为本技术方案的进一步改进,所述数据更新模块采用分时更新方法,其更新列表和处理时间数据表关系
Figure 100002_DEST_PATH_IMAGE001
入下式所示:
Figure 100002_DEST_PATH_IMAGE003
式中,
Figure 820599DEST_PATH_IMAGE004
为数据库中的数据添加时间,
Figure 100002_DEST_PATH_IMAGE005
为数据库中的数据删除时间,
Figure 875755DEST_PATH_IMAGE006
为主键,
Figure 100002_DEST_PATH_IMAGE007
为显示的其他属性。
当数据删除时,通过设置数据逻辑删除,删除时从左开始记录,在事物处理时,在时间
Figure 796438DEST_PATH_IMAGE008
的数据用
Figure 100002_DEST_PATH_IMAGE009
表示,其公式如下:
Figure 100002_DEST_PATH_IMAGE011
式中,
Figure 801434DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE013
数据库数据增加的时间,
Figure 756751DEST_PATH_IMAGE014
Figure 484991DEST_PATH_IMAGE013
数据库数据删除的时间,随着时间的改变而改变。
作为本技术方案的进一步改进,所述集群管理单元包括集群状态监控模块、资源调度模块和软件集成模块;所述集群状态监控模块用于对集群的状态进行监控,并获取状态数据;所述软件集成模块用于对生物信息工具软件进行集成管理。
所述集群状态监控模块包括CPU资源利用率获取和内存使用率获取,所述CPU资源利用率获取的计算方法为:记
Figure DEST_PATH_IMAGE015
,服务器的总状态为
Figure 17603DEST_PATH_IMAGE016
=
Figure DEST_PATH_IMAGE017
,一段时间
Figure 623028DEST_PATH_IMAGE008
内服务器
Figure 370536DEST_PATH_IMAGE016
的CPU资源利用率
Figure 160637DEST_PATH_IMAGE018
为:
Figure 462436DEST_PATH_IMAGE020
所述内存使用率获取的计算公式为:
Figure DEST_PATH_IMAGE021
作为本技术方案的进一步改进,所述数据格式转换单元包括数据类型转换模块、数据语义转换和数据粒度转换模块;所述数据类型转换模块用于将不同数据源的数据类型统一转换兼容的数据类型;所述数据语义转换用于结合维度表进行语义上的解析;所述数据粒度转换模块根据数据的粒度进行整合。
作为本技术方案的进一步改进,所述数据分析单元包括数据挖掘模块、数据优化模块和数据对比模块;所述数据挖掘模块用于对数据进行挖掘,提取特征信息;所述数据优化模块用于对数据进行优化处理;所述数据对比模块用于对数据进行匹配。
所述数据分析单元基于Galaxy建设,Galaxy是一个用于生物学数据处理的基于Web的开源软件框架,将Galaxy部署在本地高性能集群上以进行大规模数据处理,利用分布式资源管理应用编程接口,实现Sun Grid Engine 和Galaxy的协同。
作为本技术方案的进一步改进,所述数据对比模块采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Figure DEST_PATH_IMAGE023
其中,
Figure 134202DEST_PATH_IMAGE024
时序列a在位置i和序列b在位置j的分值,
Figure DEST_PATH_IMAGE025
是位置i和j上比对分值,
Figure 205057DEST_PATH_IMAGE026
是在序列a中长度为x的间隔罚分,
Figure DEST_PATH_IMAGE027
是序列b中长度为y的间隔罚分。
本发明的目的之二在于,提供一种基于galaxy的生信分析paas云平台装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于galaxy的生信分析paas云平台系统。
本发明的目的之三在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于galaxy的生信分析paas云平台系统。
与现有技术相比,本发明的有益效果:
1、该基于galaxy的生信分析paas云平台系统中,对生物数据进行集群管理,实时监控集群的状态,并对数据处理的资源进行调度,提高数据处理效率。
2、该基于galaxy的生信分析paas云平台系统中,数据分析过程中,先对数据进行挖掘,提取特征信息,再对数据进行优化处理,最后对数据进行匹配,分析数据结果,加速数据分析过程,促进了生物医学研究的发展。
3、该基于galaxy的生信分析paas云平台系统中,通过数据录入模块主动录入生物信息数据,通过数据下载模块从互联网下载生物信息,并通过数据更新模块实时更新生物数据,保障数据库内生物信息的完整性,为分析提供准确的数据支撑。
附图说明
图1为实施例1的整体框图;
图2为实施例1的Web服务单元模块框图;
图3为实施例1的数据存储单元模块框图;
图4为实施例1的集群管理单元模块框图;
图5为实施例1的数据格式转换单元模块框图;
图6为实施例1的数据分析单元模块框图;
图7为实施例1的云平台装置结构示意图。
图中各个标号意义为:
100、Web服务单元;101、用户认证模块;102、权限管理模块;103、角色定义模块;
200、数据存储单元;201、数据录入模块;202、数据下载模块;203、数据更新模块;
300、集群管理单元;301、集群状态监控模块;302、资源调度模块;303、软件集成模块;
400、数据格式转换单元;401、数据类型转换模块;402、数据语义转换;403、数据粒度转换模块;
500、数据分析单元;501、数据挖掘模块;502、数据优化模块;503、数据对比模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-7所示,本实施例提供一种基于galaxy的生信分析paas云平台系统,包括Web服务单元100、数据存储单元200、集群管理单元300、数据格式转换单元400和数据分析单元500,Web服务单元100用于用户注册、认证和页面展示;数据存储单元200用于将生物信息录入数据库内;集群管理单元300用于实现集群状态监控和资源调度;数据格式转换单元400用于实现数据格式的转化;数据分析单元500用于对生物信息进行分析。
本实施例中,Web服务单元100包括用户认证模块101、权限管理模块102和角色定义模块103;括用户认证模块101用于认证用户信息;权限管理模块102用于为用户设定权限;角色定义模块103用于认证用户角色。
其中,用户认证模块101基于MySQL中建立用户信息表,其创建步骤如下:
①、确定用户信息字段,用户信息只有一些常用的、比较重要的信息,由于需要邮件验证,所以还需要保存临时验证码;
其信息表如下:
序号 字段 类型和长度 描述 主键 可空 默认值
1 id integer 自增型的主键
2 uid varchar(20) 用户账号
3 password varchar(30) 密码
4 realName varchar(20) 用户真实姓名
5 gender tinyint(1) 性别:0,女;1,男
6 email varchar(50) e-mail地址
7 tel varchar(15) 联系电话
8 question varchar(50) 密码提示问题
9 answer varchar(50) 问题答案
10 validateCode varchar(20) 验证码,当激活过后,该字段置为activated,表示已经激活
11 loginNum integer 登陆次数
②、建立用户表,其函数代码如下:
create table user(
id int(10) unsigned not null auto_increment,
uid varchar(20) not null default '',
password varchar(30) not null default '',
realName varchar(20) not null default '',
gender tinyint(1) unsigned not null default '0',
email varchar(50) not null default '',
tel varchar(15) default null,
question varchar(50) default null,
validateCode varchar(20) not null default '',
answer varchar(50) not null default '',
loginNum int(10) unsigned not null default '0',
primary key(id));
③、创建注册提交表单;
④、客户端验证数据有效性;
⑤、检测用户名是否已存在,其检测函数代码如下:
<%
String uid=request.getParameter("uid");
UserService service=new UserService();
boolean isExist=service.checkUid(uid);
%>
<%if(isExist){%>
此用户名已经存在,请选用一个新用户名!
<%}else{%>
此用户名尚未被使用!
<%}%>
⑥、保存注册信息到数据库,用Servlet根据提交来的数据来处理请求,检查合法性,并将合法的数据持久化。
其中,角色定义模块103可根据用户的职业类型定义不同的角色,以便于在系统根据角色的不同展示不同的信息数据,以便于用户使用。
进一步的,数据存储单元200包括数据录入模块201、数据下载模块202和数据更新模块203;数据录入模块201用于将生物信息录入数据库内;数据下载模块202用于从互联网下载生物信息,并录入数据库内;数据更新模块203用于更新数据库内储存的生物信息。
其中,数据存储单元200的数据库基于mysql设计,在mysql运行环境下,使用loaddata语句把文件里面的数据读取录入到表里面。
其中,数据下载模块202用于从NCBI、UCSC等国际网站下载数据库。
具体的,数据更新模块203采用分时更新方法,其更新列表和处理时间数据表关系
Figure 775847DEST_PATH_IMAGE001
入下式所示:
Figure 345368DEST_PATH_IMAGE003
式中,
Figure 699121DEST_PATH_IMAGE004
为数据库中的数据添加时间,
Figure 545854DEST_PATH_IMAGE005
为数据库中的数据删除时间,
Figure 208916DEST_PATH_IMAGE006
为主键,
Figure 19396DEST_PATH_IMAGE007
为显示的其他属性。
其中,当数据删除时,通过设置数据逻辑删除,删除时从左开始记录,在事物处理时,在时间
Figure 567052DEST_PATH_IMAGE008
的数据用
Figure 392926DEST_PATH_IMAGE009
表示,其公式如下:
Figure 243201DEST_PATH_IMAGE011
式中,
Figure 256157DEST_PATH_IMAGE012
Figure 217290DEST_PATH_IMAGE013
数据库数据增加的时间,
Figure 632091DEST_PATH_IMAGE014
Figure 387689DEST_PATH_IMAGE013
数据库数据删除的时间,随着时间的改变而改变。
此外,集群管理单元300包括集群状态监控模块301、资源调度模块302和软件集成模块303;集群状态监控模块301用于对集群的状态进行监控,并获取状态数据;软件集成模块303用于对生物信息工具软件进行集成管理。
其中,集群状态监控模块301包括CPU资源利用率获取和内存使用率获取,CPU资源利用率获取的计算方法为:记
Figure 28886DEST_PATH_IMAGE015
,服务器的总状态为
Figure 777399DEST_PATH_IMAGE016
=
Figure 60088DEST_PATH_IMAGE017
,一段时间
Figure 501434DEST_PATH_IMAGE008
内服务器
Figure 239714DEST_PATH_IMAGE016
的CPU资源利用率
Figure 526339DEST_PATH_IMAGE018
为:
Figure 666464DEST_PATH_IMAGE028
其中,内存使用率获取的计算公式为:
Figure 154077DEST_PATH_IMAGE021
除此之外,数据格式转换单元400包括数据类型转换模块401、数据语义转换402和数据粒度转换模块403;数据类型转换模块401用于将不同数据源的数据类型统一转换兼容的数据类型;数据语义转换402用于结合维度表进行语义上的解析;数据粒度转换模块403根据数据的粒度进行整合。
再进一步的,数据分析单元500包括数据挖掘模块501、数据优化模块502和数据对比模块503;数据挖掘模块501用于对数据进行挖掘,提取特征信息;数据优化模块502用于对数据进行优化处理;数据对比模块503用于对数据进行匹配。
其中,数据分析单元500基于Galaxy建设,Galaxy是一个用于生物学数据处理的基于Web的开源软件框架,将Galaxy部署在本地高性能集群上以进行大规模数据处理,利用分布式资源管理应用编程接口,实现Sun Grid Engine 和Galaxy的协同。
再进一步的,数据对比模块503采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Figure 628921DEST_PATH_IMAGE030
其中,
Figure 469969DEST_PATH_IMAGE024
时序列a在位置i和序列b在位置j的分值,
Figure 979448DEST_PATH_IMAGE025
是位置i和j上比对分值,
Figure 238960DEST_PATH_IMAGE026
是在序列a中长度为x的间隔罚分,
Figure 201100DEST_PATH_IMAGE027
是序列b中长度为y的间隔罚分。
参阅图7,示出了本实施例所涉及的提供一种基于galaxy的生信分析paas云平台装置结构示意图,该装置包括处理器、存储器和总线。
处理器包括一个或一个以上处理核心,处理器通过总线与处理器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于galaxy的生信分析paas云平台系统。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于galaxy的生信分析paas云平台系统。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于galaxy的生信分析paas云平台系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储与一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于galaxy的生信分析paas云平台系统,其特征在于:包括Web服务单元(100)、数据存储单元(200)、集群管理单元(300)、数据格式转换单元(400)和数据分析单元(500),所述Web服务单元(100)用于用户注册、认证和页面展示;所述数据存储单元(200)用于将生物信息录入数据库内;所述集群管理单元(300)用于实现集群状态监控和资源调度;所述数据格式转换单元(400)用于实现数据格式的转化;所述数据分析单元(500)用于对生物信息进行分析。
2.根据权利要求1所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述Web服务单元(100)包括用户认证模块(101)、权限管理模块(102)和角色定义模块(103);所述用户认证模块(101)用于认证用户信息;所述权限管理模块(102)用于为用户设定权限;所述角色定义模块(103)用于认证用户角色。
3.根据权利要求1所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述数据存储单元(200)包括数据录入模块(201)、数据下载模块(202)和数据更新模块(203);所述数据录入模块(201)用于将生物信息录入数据库内;所述数据下载模块(202)用于从互联网下载生物信息,并录入数据库内;所述数据更新模块(203)用于更新数据库内储存的生物信息。
4.根据权利要求3所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述数据更新模块(203)采用分时更新方法,其更新列表和处理时间数据表关系
Figure DEST_PATH_IMAGE001
入下式所示:
Figure DEST_PATH_IMAGE003
式中,
Figure 140318DEST_PATH_IMAGE004
为数据库中的数据添加时间,
Figure DEST_PATH_IMAGE005
为数据库中的数据删除时间,
Figure 973145DEST_PATH_IMAGE006
为主键,
Figure DEST_PATH_IMAGE007
为显示的其他属性。
5.根据权利要求1所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述集群管理单元(300)包括集群状态监控模块(301)、资源调度模块(302)和软件集成模块(303);所述集群状态监控模块(301)用于对集群的状态进行监控,并获取状态数据;所述软件集成模块(303)用于对生物信息工具软件进行集成管理。
6.根据权利要求1所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述数据格式转换单元(400)包括数据类型转换模块(401)、数据语义转换(402)和数据粒度转换模块(403);所述数据类型转换模块(401)用于将不同数据源的数据类型统一转换兼容的数据类型;所述数据语义转换(402)用于结合维度表进行语义上的解析;所述数据粒度转换模块(403)根据数据的粒度进行整合。
7.根据权利要求1所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述数据分析单元(500)包括数据挖掘模块(501)、数据优化模块(502)和数据对比模块(503);所述数据挖掘模块(501)用于对数据进行挖掘,提取特征信息;所述数据优化模块(502)用于对数据进行优化处理;所述数据对比模块(503)用于对数据进行匹配。
8.根据权利要求7所述的基于galaxy的生信分析paas云平台系统,其特征在于:所述数据对比模块(503)采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Figure DEST_PATH_IMAGE009
其中,
Figure 553293DEST_PATH_IMAGE010
时序列a在位置i和序列b在位置j的分值,
Figure DEST_PATH_IMAGE011
是位置i和j上比对分值,
Figure 564848DEST_PATH_IMAGE012
是在序列a中长度为x的间隔罚分,
Figure DEST_PATH_IMAGE013
是序列b中长度为y的间隔罚分。
9.一种基于galaxy的生信分析paas云平台装置,其特征在于:包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现如权利要求1-8中任一所述的基于galaxy的生信分析paas云平台系统。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的基于galaxy的生信分析paas云平台系统。
CN202010795840.7A 2020-08-10 2020-08-10 一种基于galaxy的生信分析paas云平台系统 Pending CN111666356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795840.7A CN111666356A (zh) 2020-08-10 2020-08-10 一种基于galaxy的生信分析paas云平台系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795840.7A CN111666356A (zh) 2020-08-10 2020-08-10 一种基于galaxy的生信分析paas云平台系统

Publications (1)

Publication Number Publication Date
CN111666356A true CN111666356A (zh) 2020-09-15

Family

ID=72393150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795840.7A Pending CN111666356A (zh) 2020-08-10 2020-08-10 一种基于galaxy的生信分析paas云平台系统

Country Status (1)

Country Link
CN (1) CN111666356A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223621A (zh) * 2021-05-17 2021-08-06 上海交通大学 一种用于生物医学的全链条数据分析系统
CN113542373A (zh) * 2021-06-30 2021-10-22 深圳市云网万店电子商务有限公司 用于paas平台的路由服务发现装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804630A (zh) * 2018-05-31 2018-11-13 江苏运时数据软件股份有限公司 一种面向行业应用的大数据智能分析服务系统
US20190361888A1 (en) * 2015-07-13 2019-11-28 Paypal, Inc. Read/write split database query routing
CN111324671A (zh) * 2020-03-02 2020-06-23 苏州工业园区洛加大先进技术研究院 基于大数据技术的生物医疗高速信息处理分析系统
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190361888A1 (en) * 2015-07-13 2019-11-28 Paypal, Inc. Read/write split database query routing
CN108804630A (zh) * 2018-05-31 2018-11-13 江苏运时数据软件股份有限公司 一种面向行业应用的大数据智能分析服务系统
CN111435344A (zh) * 2019-01-15 2020-07-21 中国石油集团川庆钻探工程有限公司长庆钻井总公司 一种基于大数据的钻井提速影响因素分析模型
CN111324671A (zh) * 2020-03-02 2020-06-23 苏州工业园区洛加大先进技术研究院 基于大数据技术的生物医疗高速信息处理分析系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223621A (zh) * 2021-05-17 2021-08-06 上海交通大学 一种用于生物医学的全链条数据分析系统
CN113223621B (zh) * 2021-05-17 2023-10-31 上海交通大学 一种用于生物医学的全链条数据分析系统
CN113542373A (zh) * 2021-06-30 2021-10-22 深圳市云网万店电子商务有限公司 用于paas平台的路由服务发现装置及方法

Similar Documents

Publication Publication Date Title
CN110602052B (zh) 微服务处理方法及服务器
US20190155893A1 (en) Providing context-aware input data
US9003529B2 (en) Apparatus and method for identifying related code variants in binaries
US11068583B2 (en) Management of login information affected by a data breach
US9116879B2 (en) Dynamic rule reordering for message classification
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN110610196A (zh) 脱敏方法、系统、计算机设备和计算机可读存储介质
CN111178950A (zh) 一种用户画像构建方法、装置及计算设备
CN111666356A (zh) 一种基于galaxy的生信分析paas云平台系统
US20200250587A1 (en) Framework for multi-tenant data science experiments at-scale
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN112925914A (zh) 数据安全分级方法、系统、设备及存储介质
CN114760149A (zh) 数据跨境合规管控方法、装置、计算机设备及存储介质
US11487733B2 (en) Database journal redaction
US11310054B2 (en) Symmetric function for journaled database proof
US11487819B2 (en) Threaded leaf nodes in database journal
US20200403797A1 (en) Digest proofs in a journaled database
CN111639360A (zh) 智能数据脱敏方法、装置、计算机设备及存储介质
CN114996675A (zh) 数据查询方法、装置、计算机设备及存储介质
CN113420161A (zh) 一种节点文本融合方法、装置、计算机设备及存储介质
CN114357195A (zh) 基于知识图谱的问答对生成方法、装置、设备及介质
CN113938408A (zh) 一种数据流量测试方法、装置、服务器及存储介质
CN113886332A (zh) 一种大文件差异对比方法、装置、计算机设备及存储介质
CN110674383A (zh) 舆情查询方法、装置及设备
CN111782967B (zh) 信息处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915

RJ01 Rejection of invention patent application after publication