CN112397146B - 一种基于云平台的微生物组学数据交互分析系统 - Google Patents
一种基于云平台的微生物组学数据交互分析系统 Download PDFInfo
- Publication number
- CN112397146B CN112397146B CN202011389868.7A CN202011389868A CN112397146B CN 112397146 B CN112397146 B CN 112397146B CN 202011389868 A CN202011389868 A CN 202011389868A CN 112397146 B CN112397146 B CN 112397146B
- Authority
- CN
- China
- Prior art keywords
- analysis
- module
- data
- information
- user interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000813 microbial effect Effects 0.000 title claims abstract description 12
- 238000012482 interaction analysis Methods 0.000 title claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 217
- 238000007405 data analysis Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 244000005700 microbiome Species 0.000 claims description 11
- 238000013500 data storage Methods 0.000 claims description 9
- 238000012165 high-throughput sequencing Methods 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 6
- 238000007689 inspection Methods 0.000 abstract description 2
- 241000894007 species Species 0.000 description 18
- 238000007726 management method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013081 phylogenetic analysis Methods 0.000 description 5
- 238000003908 quality control method Methods 0.000 description 5
- 101100001669 Emericella variicolor andD gene Proteins 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010220 Pearson correlation analysis Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010230 functional analysis Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000001337 Mantel test Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 230000034435 immune system development Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 244000005706 microflora Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012284 sample analysis method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于云平台的微生物组学数据交互分析系统,属于微生物测定和检验领域。该系统包括用户界面模块、数据分析模块、数据库模块,和分析时间预测模块,其中,所述分析时间预测模块可以根据从用户界面模块获得的微生物组学数据信息、参考数据库类型信息和分析参数信息,预测分析所需时间,并发送至所述用户界面模块。利用本发明的系统,通过预先提供分析所需时间,可以让技术人员充分掌握获取分析结果的时间,从而第一时间将分析结果进行公布或应用,具有重要的科研和工业价值。
Description
技术领域
本发明属于微生物测定和检验领域,具体地,涉及一种基于云平台的微生物组学数据交互分析系统。
背景技术
微生物组是指一个特定环境或者生态系统中全部微生物及其遗传信息,包括其细胞群体和数量、全部遗传物质(基因组),它界定了涵盖微生物群及其全部遗传与生理功能,其内涵包括了微生物与其环境和宿主的相互作用。微生物组学是一个崭新的学科,微生物组研究取得的成果,必将为国家经济社会发展、人类生活质量改善提供源源不断的创新活力。
近十年中,超过17亿美元用于微生物组学大型研究计划包括:美国国家微生物组计划(NIH)、人体微生物组计划(HMP)、欧洲人体肠道宏基因组计划(MetaHIT)和中国科学院微生物组计划(CMI)。从各个计划的初步研究结果得知,微生物与人体的营养吸收、代谢调控、免疫系统发育及疾病产生的因果关系息息相关。而现今的微生物组学研究中微生物多样性于实验方面主要采取新一代高通量测序技术对微生物样本DNA进行抽提、扩增、混样、建库及测序,数据分析方面则是将测序数据进行质控、拼接、去冗余、聚类、物种注释、alpha多样性分析、beta多样性分析、物种群落分析、网络分析及功能预测等统计分析,整体具有较高技术难度且过程复杂,因此实际状况中,实验人员较难短时间配置分析服务器与熟悉分析流程。然而,生物信息分析则容易受限于本地服务器能力的限制,无法达到多任务并发的情况,因此建立提供分析平台是对于科研发展和临床应用均具有重要的意义。另一方面,目前在微生物组学分析过程中,技术人员往往无法稳定的预知掌握得到分析结果的时间,不能第一时间获得分析结果,从而耽误了后续分析的推进。同时,由于不能立即或在较短的时间内开展下一批次的分析,也会造成计算资源的严重浪费。
发明内容
为了解决上述技术问题的至少一个,本发明采用的技术方案如下:
本发明提供一种基于云平台的微生物组学数据交互分析系统,包括用户界面模块、数据分析模块、数据库模块和分析时间预测模块,其中,
所述用户界面模块用于获取用户输入信息,并将所述用户输入信息发送至所述数据分析模块,所述用户输入信息包括:用户信息、项目信息、微生物组学数据信息、参考数据库类型信息和分析参数信息;
所述数据分析模块,与所述用户界面模块连接,用于根据数据库类型信息和分析参数信息对所述微生物组学数据进行分析,并将分析中间过程和最终分析结果发送至用户界面模块;
所述数据库模块,与所述数据分析模块连接,用于存储或下载参考数据库;
所述分析时间预测模块,与所述用户界面模块连接,用于根据微生物组学数据信息、参考数据库类型信息和分析参数信息,预测分析所需时间,并发送至所述用户界面模块;
所述用户界面模块还用于显示所述预测分析所需时间以及所述分析中间过程和所述最终分析结果。进一步地,所述用户界面模块还可以在分析运行过程中,对数据库类型信息和/或分析参数信息进行可视化修改。更进一步地,用户通过用户界面模块,还可以完成上传、浏览、下载、锁定、复制、移动、重命名、删除,进行创建项目和项目共享的设定。
任选地,所述用户信息包括用户名称、创建时间信息等。
任选地,所述项目信息包括项目编号、项目名称、样本数量;
进一步地,所述分析包括但不限于OTU聚类及物种注释、物种群落分析、alpha多样性分析、beta多样性分析、物种差异分析、环境因子关联分析和功能预测分析。
在本发明的一些实施方案中,所述OTU聚类及物种注释包括但不限于OTU聚类分析和Pan_Core物种分析。
在本发明的一些实施方案中,所述物种群落分析包括但不限于物种群落结构分析、系统进化分析和组间群落结构差异显著性分析。在本发明的一个优选实施方案中,所述物种群落结构分析包括但不限于共有及特有OTU统计分析、群落组成分析和物种聚类分析。在本发明的另一个优选实施方案中,所述系统进化分析包括但不限于单个样本-各分类水平系统进化分析、各分类水平-所有样本系统进化分析和所有样本-各分类水平系统进化分析。
在本发明的一些实施方案中,所述alpha多样性分析包括但不限于alpha多样性指数统计、Rank-Abundance曲线、稀释曲线和指数组间差异检验。
在本发明的一些实施方案中,所述beta多样性分析包括但不限于NMDS分析、PCA分析、PCoA分析、聚类分析和样本距离heatmap图分析。
在本发明的一些实施方案中,所述物种差异分析包括但不限于LefSe分析和组间差异显著性检验(包括多组比较和两组比较)。
在本发明的一些实施方案中,所述环境因子关联分析包括但不限于CCA/RDA、db-RDA、VPA、Mantel检验和偏Mantel检验。
在本发明的一些实施方案中,所述功能分析包括但不限于COG功能分析和KEGG功能分析。
进一步地,所述数据分析模块在对所述微生物组学数据进行分析之前,还包括数据质控。
任选地,所述数据库类型信息包括选定的微生物组学分析参考数据库类型,所参考数据库选自包括gg_16s_13.5、silva_16s_v123、ltp_16s_v123、rdp_16s_v16、rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2和utax_reference的组中的一种;在本发明的一些实施方案中,所述参考数据库为gg_16s_13.5或silva_16s_v123;在本发明的另一些实施方案中,所述参考数据库为ltp_16s_v123、rdp_16s_v16、Rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2或utax_reference。在本发明的一些实施方案中,所述数据库还可以包括任何涵盖微生物组学信息的数据库,还可以是自建数据库。
任选地,所述分析参数信息包括聚类方式、CPU数目和分组数,所述聚类方式选自uparse、unoise3和uclust中的一种。
在本发明的一些实施方案中,所述分析时间预测模块根据以下公式计算分析运行时间:
T=α×A+(β 1 ×B 1 +β 2 ×B 2 +β 3 ×B 3 )+γ×C+(δ 1 ×D 1 +δ 2 ×D 2 )+ε×E+ζ
其中,
T表示分析运行时间(min);
A表示样本数量,取值为正整数;
B 1 、B 2 、B 3 取值分别为0或1,取值为1时分别表示采用uparse、unoise3和uclust的聚类方式,取值为0时表示不采用相应的聚类方式;
C表示CPU数目,取值为正整数;
D 1 =0且D 2 =1,表示数据库类型为:gg_16s_13.5或silva_16s_v123,D 1 =1且D 2 =0时,表示数据库类型为:ltp_16s_v123、rdp_16s_v16、Rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2或utax_reference;
E表示分组数,取值为正整数,
α、β 1 、β 2 、β 3 、γ、δ 1 、δ 2 、ε和ζ为相应的系数,其是根据多批量微生物组学数据分析,然后根据A、B 1 、B 2 、B 3 、C、D 1 、D 2 、E的数值和实际分析运行时间T统计得到的,优选地,所述统计基于多元线性回归分析。
在本发明的一些实施方案中,所述多批量微生物组学数据分析是指50次以上微生物组学数据分析,优选地为100次以上。
在本发明的一些具体实施方案中,α、β 1 、β 2 、β 3 、γ、δ 1 、δ 2 、ε和ζ的值分别为1.408、0、11.89、0、-2.855、0、44.251、49.372、-60.6。
由此,公式具体化为:
T=1.408×A+(0×B 1 +11.89×B 2 +0×B 3 )-2.855×C+(0×D 1 +44.251×D 2 )+49.372×E-60.6
也即:
T=1.408A+11.89B 2 -2.855C+44.251D 2 +49.372E-60.6
在本发明的一些实施方案中,还可以根据本次分析获得的实际分析时间,重新进行系数的生成。在本发明的一些实施方案中,当实际分析时间与预测分析时间偏差较大时,可以自动重新进行系数的生成。
进一步地,所述系统还包括弹性伸缩计算模块,分别与用户界面模块和数据分析模块连接,所述弹性伸缩计算模块根据所述项目信息为所述数据分析模块配置计算资源。
进一步地,所述系统还包括数据存储模块,用于存储用户上传的微生物组学数据。由此,针对特定用户,其可访问其他用户上传的微生物组学数据,从而完成样本合并分析。
在本发明中,所述微生物组学数据是指微生物高通量测序数据。具体地,为新一代测序技术获得的高通量测序。
本发明的有益效果
相对于现有技术,本发明具有以下有效效果:
本发明的系统包括了分析时间预测机制:预先提供分析所需时间,让技术人员充分掌握获取结果的时间,从而第一时间将分析结果进行公布或应用,具有重要的科研和工业价值。
本发明的系统进一步包括了弹性伸缩计算机制:即时的根据计算资源需求进行资源的扩容及缩容,让多任务同时并发且互相区隔,解决因资源不足导致排队或强占从而影响分析效率的问题。另外,高效的资源利用同时也降低计算成本。
本发明的系统采用了实现的完整的可视化操作分析:发起分析任务与获得分析结果均可流程化,操作难度降低,易于技术人员操作。
附图说明
图1示出了本发明一种基于云平台的微生物组学数据交互分析系统示意图。
图2示出了实际分析时间和预估分析时间的Pearson相关分析图。
图3示出了本发明一种多任务可弹性伸缩的微生物组学数据分析系统示意图。
图4示出了本发明一些样本实际分析时间稳定性示意图。
图5示出了本发明一种基于云平台可弹性伸缩的微生物组学线上分析系统前台模块示意图。
图6示出了本发明一种基于云平台可弹性伸缩的微生物组学线上分析系统后台模块示意图。
图7示出了前台模块中分析参数设置模块的子模块示意图。
图8示出了利用基于云平台可弹性伸缩的微生物组学线上分析系统进行分析的beta多样性分析结果。
图9示出了本发明基于云平台建立可弹性伸缩的微生物组学线上分析系统运行时计算资源展示效果。
图10示出了本发明基于云平台建立可弹性伸缩的微生物组学线上分析系统运行实际时间及预测时间误差示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例 1 一种基于云平台的微生物组学数据交互分析系统
本发明提供一种基于云平台的微生物组学数据交互分析系统,如图1所示,包括用户界面模块1、数据分析模块2、数据库模块3和分析时间预测模块4,其中:
用户界面模块1用于获取用户输入信息,并将用户输入信息发送至数据分析模块,用户输入信息包括:用户信息、项目信息、微生物组学数据信息、参考数据库类型信息和分析参数信息。
数据分析模块2,与用户界面模块1连接,用于根据参考数据库类型信息和分析参数信息对微生物组学数据进行分析,分析包括数据质量控制、聚类分析、物种注释、alpha多样性分析、beta多样性分析和功能预测分析,并将分析中间过程和最终分析结果发送至用户界面模块。
数据库模块3,与数据分析模块2连接,用于存储或下载微生物组学分析参考数据库;常用的微生物组学分析参考数据库包括:gg_16s_13.5、silva_16s_v123、ltp_16s_v123、rdp_16s_v16、Rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2和utax_reference。
分析时间预测模块4,与用户界面模块1连接,用于根据微生物组学数据信息、参考数据库类型信息和分析参数信息,预测分析所需时间,并发送至用户界面模块1。
用户界面模块1还用于显示预测分析所需时间以及分析中间过程和最终分析结果。用户界面模块1还可以在分析运行过程中,对生物组学分析参考数据库类型信息和分析参数信息进行可视化修改。
在使用过程中,用户通过用户界面模块1输入的项目信息包括项目编号、项目名称、样本数量等;输入的生物组学分析参考数据库类型信息包括选定数据库类型;输入的分析参数信息包括聚类方式、CPU数目和分组数,聚类方式方式有uparse、unoise3和uclust三种,用户可选定其中一种。
获得用户输入的信息后,分析时间预测模块4根据以下公式(1)计算分析运行时间:
T=α×A+(β 1 ×B 1 +β 2 ×B 2 +β 3 ×B 3 )+γ×C+(δ 1 ×D 1 +δ 2 ×D 2 )+ε×E+ζ(1)
其中,
T表示分析运行时间(min);
A表示样本数量,取值为正整数;
B 1 、B 2 、B 3 取值分别为0或1,取值为1时分别表示采用uparse、unoise3和uclust的聚类方式,取值为0时表示不采用相应的聚类方式;
具体如表1所示:
表1 聚类方式选择
C表示CPU数目,取值为正整数,该值可弹性地进行调整;
D 1 =0且D 2 =1,表示参考数据库类型为:gg_16s_13.5或silva_16s_v123,D 1 =1且D 2 =0时,表示参考数据库类型为:ltp_16s_v123、rdp_16s_v16、Rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2或utax_reference;具体如表2所示:
表2 数据库选择
E表示分组数,取值为正整数,
α、β 1 、β 2 、β 3 、γ、δ 1 、δ 2 、ε和ζ为相应的系数,可以根据多批量微生物组学数据分析,然后根据各参数和实际分析运行时间(min)统计得到的,利用基于多元线性回归分析方法获得。
为了获得各系数的数值,发明人运行了108个不同变数组合的任务,如表3所示:
表3 108个不同变数组合任务列表及真实运行时间(T)
其中,真实运行时间T作为因变量,A、B 1 、B 2 、B 3 、C、D 1 、D 2 、E作为因变量,利用多元线性回归分析,得到具有显著性的因变量:A、B 2 、C、D 2 、E,并获取各系数的值,其余不显著的因变量系数设为0。如表4所示:
表4 多元线性回归分析结果
由此,公式(1)具体化为:
T=1.408×A+(0×B 1 +11.89×B 2 +0×B 3 )-2.855×C+(0×D 1 +44.251×D 2 )+49.372×E-60.6
也即:
T=1.408A+11.89B 2 -2.855C+44.251D 2 +49.372E-60.6
实际分析时间和预估分析时间的Pearson相关分析如图2所示,结果显示,实际运行时间与预估分析时间的决定系数R2=0.93,Pearson相关系数(Pearson's correlationcoefficient)=0.97。证明本实施例得到的运行时间计算公式具有非常高的可靠性。
实施例2 一种多任务可弹性伸缩的微生物组学数据分析系统
本实施例提供一种多任务可弹性伸缩的微生物组学数据分析系统,其是在实施例1分析系统的基础上进行改进的,进一步包括数据存储模块5和弹性计算模块6,如图3所示。
其中,数据存储模块5与用户界面模块1连接,用于接收用户通过用户界面模块1上传的微生物组学数据信息,并分配存储路径。在使用时,用户只需通过用户界面模块1指定存储路径即可。
通过存储用户上传的微生物组学数据信息,可以使得不同用户可以访问其他人上传的微生物组学数据信息,从而完成多样本的综合分析或比较分析。
弹性计算模块6分别与用户界面模块1、数据存储模块5和数据分析模块2连接。弹性计算模块6可以根据从用户界面模块1获得的用户输入信息(包括数据存储路径),并根据数据存储模块5中对应的微生物组学数据计算的需要的计算资源,并部署相应的计算资源给数据分析模块2。
数据分析模块2根据从用户界面模块1的获得的用户输入信息(包括数据存储路径),利用弹性计算模块6部署的计算资源,并结合数据库模块3的参考数据库,对数据存储模块5中对应的微生物组学数据进行分析,并将分析结果实时发送到用户界面模块1。
同时,该弹性计算模块6还可以根据数据分析模块2的运行过程,对计算资源进行动态管理,即进行计算资源的扩容或缩容,从而实现计算资源的有效利用。
在本实施例系统中,可以根据计算资源需求进行资源的扩容及缩容,让多任务同时并发且互相区隔,解决因资源不足导致排队或强占从而影响分析效率的问题。当然,高效的资源利用同时也降低计算成本。
利用本实施例的多任务可弹性伸缩的微生物组学数据分析系统对实施例1中的108个分析任务分别运行两次,两次实际运行时间的Pearson相关分析如图4所示,结果显示,两次运行时间的决定系数R2=0.9991,Pearson相关系数(Pearson's correlationcoefficient)=0.9995。证明此多任务可弹性伸缩的微生物组学数据分析系统是运行时间是非常稳定的,不会受到计算资源抢占等的影响。
其中,所述计算资源由核数和内存定量表示。
实施例 3 基于云平台建立可弹性伸缩的微生物组学线上分析系统
结合本发明实施例1和实施例2的原理,发明人建立了一种实用的基于云平台建立可弹性伸缩计算的微生物组学线上分析系统出建立微生物组学线上分析和展示系统,如图5和图6所示,包含前台与后台两大模块,前台模块包括:(1)用户界面模块401;(2)项目界面模块402;(3)分析参数设置模块403;(4)任务运行时间预估模块404;(5)交互运行模块405;(6)图形展示模块406;(7)分析报告模块407;(8)结果输出模块408;(11)共享任务模块。后台模块包括:(1)用户管理模块501;(2)应用管理模块502;(3)项目管理模块503。具体如下:
前台模块包含以下:
(1)用户界面模块401方便用户注册及登录,供基于云平台建立可弹性伸缩的微生物组学线上分析系统的用户进行注册(例如通过手机号或邮箱账号与验证码验证注册),成为平台使用者。针对已注册用户,还可以进行登录操作。
(2)项目界面模块402方便用户管理项目,该模块包括项目创建列表模块4021和项目共享模块4022。项目创建列表模块4021用于展示用户创建项目,并显示用户所拥有的项目列表,包含项目编号、项目名称、分析类型、样本数量、用户名称、创建时间信息。项目共享模块4022用于将项目样本与其他用户共享,达到项目间样本可合并分析。
(3)分析参数设置模块403用于建立分析任务时,设定分析前置的参数包含5个子模块(如图7):
(3-1)基本设置模块4031,该模块用于设定任务名称,提供关联项目的选择;
(3-2)样本选择模块4032,该模块用于提供用户选择样本参与后续分析;
(3-3)分析名称模块4033,该模块用于修改样本的分析名称;
(3-4)样本分组模块4034,该模块用于将样本进行分组归集;
(3-5)参数设置模块4035,该模块用于设定分析步骤中的参数,如数据质控、聚类、物种注释、alpha多样性、beta多样性、功能预测等参数。
(4)运行时间预估模块404,该模块用于用户提交任务时,利用实施例1的计算公式预估运行时间。该模块还包括通迅提醒模块4041,用于分析开始前或运行中或完成时,向用户发送预估的或实际的运行时间。例如,可在分析开始时,将预估的运行时间通过手机短信或邮件等方式发送给用户。当然,也可以在实际运行结束时,通过手机短信或邮件向用户发送提醒。
(5)分析运行模块405,用于运行用户提交的分析任务。该模块还包括可神化操作与显示模块4051,该模块用于动态显示分析过程及分析状态,还可用于用户针对交互分析页面中任一子分析点进行参数的调整、重运行,同时提供所有提交的运行分析列表及相应的成功信息或失败报错原因提示。
(6)图形展示模块406,该模块用于交互分析结果图片优化调适,包括以下代表性功能:
(6-1)选择不同分辨率(96dpi-960dpi)进行PNG及SVG档案格式下载;
(6-2)即时下载图片JSON code及R code,可作为图片暂存档或代码分享使用,同时提供上传代码功能;
(6-3)修改图片及图例字体、大小、颜色、位置等调整;
(6-4)相同数据同时做不同绘图形式的展现。
(7) 分析报告模块407,该模块用于将分析数据结果以PDF方式进行汇整输出。
(8)结果输出模块408,该模块用于用户下载分析结果数据。可与用户界面模块401整合。该模块还可与共享任务模块409连接,该模块用于将任务分析结果分享给其他用户,受分享用户可进行交互分析,并提供下载分析结果及结题报告以利分析结果的共享与交流更加即时。
后台模块包含以下:
(1) 用户管理模块501,该模块用于管理者对于用户基本信息(姓名、邮箱、帐号)的管理、积分管理(充值操作、消费扣除操作及日志信息)及模拟登入(无需用户帐号密码信息)。
(2) 应用管理模块502,该模块用于不同产品是否上线的控制,同时对于产品中预设参数控制及各分析点提供相应使用统计数据(使用次数统计及使用时长)。
(3) 项目管理模块503,该模块用于管理者掌握所有项目的信息,同时提供单一项目是否冻结的操作(冻结表示该项目于前端用户无法显示),以利管理员对问题项目的排查。
本系统的使用方法如下:
步骤一:用户通过用户界面模块401进行云平注册操作,并登入控制台。
步骤二:用户通过项目界面模块402查看项目列表与创建项目,登入即可查看到具体的项目列表,并可经由创建项目列表模块4021进行微生物多样性分析任务的创建和列表管理。同时用户通过项目共享模块4022分享项目样本及选择关联项目样本。在创建项目后,可经由在项目列表中点击该项目,并由共享样本管理选项,进行其他用户云帐号的添加,即可分享该项目样本予其他用户。
步骤三:通过分析参数设置模块403进行分析参数设置,具体包含以下6个步骤:
(1)利用基本设置模块4031设定任务名称;
(2)利用样本选择模块4032选择样本参与后续分析;
(3)利用分析名称模块4033定义或修改样本的分析名称;
(4)利用样本分组模块4044将样本进行分组归集;
(5)利用参数设置模块4045设定分析步骤中的参数,如数据质控、聚类、物种注释、alpha多样性、beta多样性、功能预测等参数;
(6)提交分析任务。
另外,在基本设置模块4031中,除可设定任务名称外,也可经由选择关联项目添加被分享的样本。
步骤四:运行时间预估模块404,用于在步骤三提交任务后,计算任务运行时间,并通过通信提醒模块4021,利用手机短信或邮件等方式向用户进行提醒。
步骤五:在分析运行模块405分析过程中,或步骤四预估时间达到后,利用项目界面模块402进入交互分析页面后,页面中提供各个分析点(如48个分析点),任一分析点皆可通过可视化操作与显示模块4051进行参数的调整、重运行,同时提供运行状态(计算中、成功、失败),运行失败还可提供失败原因。
步骤六:利用图形展示模块406调整图形结果展示效果。
步骤七:利用分析报告模块407生成分析报告,可下载也可线上查看分析报告。
步骤八:利用结果输出模块408下载分析结果数据。
步骤九:该步骤为可选步骤,利用结果共享模块409将任务分析结果分享给其他用户,受分享用户即可于共享任务页面,执行交互分析、结题报告及结果文件下载。
用户管理操作步骤如下:
步骤一:利用用户管理模块501对用户基本信息(姓名、邮箱、帐号)、积分(充值操作、消费扣除操作及日志信息)进行管理,并可模拟登入(无需用户帐号密码信息)。
步骤二:利用应用管理模块502对不同产品是否上线的控制,同时对于产品中预设参数控制及各分析点提供相应使用统计数据(使用次数统计及使用时长)。
步骤三:利用项目管理模块503掌握所有项目的信息,同时提供单一项目是否冻结的操作(冻结表该项目于前端用户无法显示),以利管理者对于问题项目的排查。
实施例 4 基于云平台建立可弹性伸缩的微生物组学线上分析系统的应用
利用实施例3提供基于云平台建立可弹性伸缩的微生物组学线上分析系统系统,对微生物宏基因组高通量测序数据进行分析:
样本来源:土壤样本
测序方法:Illumina PE250测序
测序数据:50个样本(60,000 reads/样本)
分析参数:A=50;B 2 =1;C=4;D 2 =1;E=2。即样本数为50个,选择unoise3聚类方式,CPU数目为4,选择gg_16s_13.5作为参考数据库,分两组进行分析。
根据上述设置的分析参数(A=50;B 2 =1;C=4;D 2 =1;E=2),利用实施例1的的公式(T=1.408A+11.89B 2 -2.855C+44.251D 2 +49.372E-60.6)计算得到本项目分析所需时间为153.265min,即2.56h。
启动分析程序,实际运行时间为:153.307min,与预测时间仅差0.042min,即2.52s,表明本系统预测的分析运行时间非常准确。
分析结果具体包含OTU聚类及物种注释、物种群落分析、alpha多样性分析、beta多样性分析、物种差异分析、网络与预测分析、环境因子关联分析和功能预测分析,其中,具有代表性的分析结果如图8所示,该图展示了利用本系统进行beta多样性分析的结果。
在该项目数据分析过程中,后台界面显示运行用的计算资源情况如图9所示,根据图9可以看出:正常计算节点/总计算节点为1/1,表示目前正有一个计算节点正在运行,且运行正常。已用核数/总核数为14/24,已用内存/总内存(GB)为54/96,表示当前运行的分析占用了24个核的14个,96GB总内存的54GB,当前还剩余10核、42GB内存,当下一个分析任务投递时,集群会根据剩余资源自动判断进行扩容,如判断资源足够,即在当下计算节点运行,如不够,则扩容提供分析任务运行。
针对50个样本,发明人选择不同数量的样本进行了不同组合的分析,通过设定不同的分析参数,记录预测运行时间和实际运行时间,结果如表4所示:
表4 86个不同样本分析方式预测运行时间(T pred )及实际运行时间(T real )比较
<i>A</i> | <i>B</i><sub><i>1</i></sub> | <i>B</i><sub><i>2</i></sub> | <i>B</i><sub><i>3</i></sub> | <i>C</i> | <i>D</i><sub><i>1</i></sub> | <i>D</i><sub><i>2</i></sub> | <i>E</i> | <i>T</i><sub><i>pred</i></sub>(min) | <i>T</i><sub><i>real</i></sub>(min) |
30 | 0 | 1 | 0 | 4 | 0 | 1 | 1 | 75.7 | 76.7 |
30 | 0 | 1 | 0 | 6 | 0 | 1 | 1 | 70.0 | 66.5 |
30 | 0 | 1 | 0 | 8 | 0 | 1 | 1 | 64.3 | 61.8 |
30 | 1 | 0 | 0 | 4 | 1 | 0 | 2 | 69.0 | 68.1 |
30 | 0 | 0 | 1 | 4 | 1 | 0 | 2 | 69.0 | 68.2 |
30 | 0 | 1 | 0 | 8 | 1 | 0 | 2 | 69.4 | 67.8 |
35 | 0 | 1 | 0 | 4 | 1 | 0 | 1 | 38.5 | 40.7 |
35 | 0 | 1 | 0 | 4 | 0 | 1 | 1 | 82.8 | 85.2 |
35 | 1 | 0 | 0 | 6 | 0 | 1 | 1 | 65.2 | 68.6 |
35 | 0 | 1 | 0 | 6 | 0 | 1 | 1 | 77.1 | 73.5 |
35 | 0 | 0 | 1 | 6 | 0 | 1 | 1 | 65.2 | 68.3 |
35 | 0 | 1 | 0 | 8 | 0 | 1 | 1 | 71.4 | 68.4 |
35 | 1 | 0 | 0 | 4 | 1 | 0 | 2 | 76.0 | 73.6 |
35 | 0 | 0 | 1 | 4 | 1 | 0 | 2 | 76.0 | 74.2 |
35 | 1 | 0 | 0 | 6 | 1 | 0 | 2 | 70.3 | 73.7 |
35 | 0 | 0 | 1 | 6 | 1 | 0 | 2 | 70.3 | 73.2 |
35 | 0 | 1 | 0 | 8 | 1 | 0 | 2 | 76.5 | 75.1 |
40 | 0 | 1 | 0 | 4 | 1 | 0 | 1 | 45.6 | 45.1 |
40 | 0 | 1 | 0 | 4 | 0 | 1 | 1 | 89.8 | 93.3 |
40 | 1 | 0 | 0 | 6 | 0 | 1 | 1 | 72.2 | 74.2 |
40 | 0 | 1 | 0 | 6 | 0 | 1 | 1 | 84.1 | 81.5 |
40 | 0 | 0 | 1 | 6 | 0 | 1 | 1 | 72.2 | 74.2 |
40 | 1 | 0 | 0 | 8 | 0 | 1 | 1 | 66.5 | 69.3 |
40 | 0 | 1 | 0 | 8 | 0 | 1 | 1 | 78.4 | 75.4 |
40 | 1 | 0 | 0 | 4 | 1 | 0 | 2 | 83.0 | 80.4 |
40 | 0 | 0 | 1 | 4 | 1 | 0 | 2 | 83.0 | 80.4 |
40 | 1 | 0 | 0 | 6 | 1 | 0 | 2 | 77.3 | 79.7 |
40 | 0 | 0 | 1 | 6 | 1 | 0 | 2 | 77.3 | 80.0 |
40 | 0 | 1 | 0 | 8 | 1 | 0 | 2 | 83.5 | 81.4 |
40 | 0 | 0 | 1 | 8 | 1 | 0 | 2 | 71.6 | 74.7 |
40 | 1 | 0 | 0 | 4 | 0 | 1 | 2 | 127.3 | 121.3 |
40 | 0 | 0 | 1 | 4 | 0 | 1 | 2 | 127.3 | 120.5 |
40 | 1 | 0 | 0 | 6 | 0 | 1 | 2 | 121.6 | 116.0 |
40 | 0 | 0 | 1 | 6 | 0 | 1 | 2 | 121.6 | 117.2 |
40 | 1 | 0 | 0 | 8 | 0 | 1 | 2 | 115.9 | 110.7 |
40 | 0 | 0 | 1 | 8 | 0 | 1 | 2 | 115.9 | 110.7 |
45 | 0 | 1 | 0 | 6 | 1 | 0 | 1 | 46.9 | 47.7 |
45 | 0 | 1 | 0 | 4 | 0 | 1 | 1 | 96.9 | 101.5 |
45 | 1 | 0 | 0 | 6 | 0 | 1 | 1 | 79.3 | 80.6 |
45 | 0 | 1 | 0 | 6 | 0 | 1 | 1 | 91.1 | 88.0 |
45 | 0 | 0 | 1 | 6 | 0 | 1 | 1 | 79.3 | 80.5 |
45 | 1 | 0 | 0 | 8 | 0 | 1 | 1 | 73.5 | 74.9 |
45 | 0 | 1 | 0 | 8 | 0 | 1 | 1 | 85.4 | 83.1 |
45 | 0 | 0 | 1 | 8 | 0 | 1 | 1 | 73.5 | 76.3 |
45 | 1 | 0 | 0 | 4 | 1 | 0 | 2 | 90.1 | 86.3 |
45 | 0 | 0 | 1 | 4 | 1 | 0 | 2 | 90.1 | 86.3 |
45 | 1 | 0 | 0 | 6 | 1 | 0 | 2 | 84.4 | 86.0 |
45 | 0 | 0 | 1 | 6 | 1 | 0 | 2 | 84.4 | 86.8 |
45 | 1 | 0 | 0 | 8 | 1 | 0 | 2 | 78.7 | 81.4 |
45 | 0 | 1 | 0 | 8 | 1 | 0 | 2 | 90.6 | 89.2 |
45 | 0 | 0 | 1 | 8 | 1 | 0 | 2 | 78.7 | 80.0 |
45 | 1 | 0 | 0 | 4 | 0 | 1 | 2 | 134.3 | 130.0 |
45 | 0 | 1 | 0 | 4 | 0 | 1 | 2 | 146.2 | 141.6 |
45 | 0 | 0 | 1 | 4 | 0 | 1 | 2 | 134.3 | 129.8 |
45 | 1 | 0 | 0 | 6 | 0 | 1 | 2 | 128.6 | 126.1 |
45 | 0 | 0 | 1 | 6 | 0 | 1 | 2 | 128.6 | 126.4 |
45 | 1 | 0 | 0 | 8 | 0 | 1 | 2 | 122.9 | 119.6 |
45 | 0 | 0 | 1 | 8 | 0 | 1 | 2 | 122.9 | 119.1 |
50 | 1 | 0 | 0 | 6 | 1 | 0 | 1 | 42.0 | 42.4 |
50 | 0 | 1 | 0 | 6 | 1 | 0 | 1 | 53.9 | 51.5 |
50 | 0 | 0 | 1 | 6 | 1 | 0 | 1 | 42.0 | 41.3 |
50 | 1 | 0 | 0 | 8 | 1 | 0 | 1 | 36.3 | 38.4 |
50 | 0 | 0 | 1 | 8 | 1 | 0 | 1 | 36.3 | 38.2 |
50 | 1 | 0 | 0 | 4 | 0 | 1 | 1 | 92.0 | 97.0 |
50 | 0 | 1 | 0 | 4 | 0 | 1 | 1 | 103.9 | 109.0 |
50 | 0 | 0 | 1 | 4 | 0 | 1 | 1 | 92.0 | 97.3 |
50 | 1 | 0 | 0 | 6 | 0 | 1 | 1 | 86.3 | 86.3 |
50 | 0 | 1 | 0 | 6 | 0 | 1 | 1 | 98.2 | 95.8 |
50 | 0 | 0 | 1 | 6 | 0 | 1 | 1 | 86.3 | 85.7 |
50 | 1 | 0 | 0 | 8 | 0 | 1 | 1 | 80.6 | 79.8 |
50 | 0 | 1 | 0 | 8 | 0 | 1 | 1 | 92.5 | 90.0 |
50 | 0 | 0 | 1 | 8 | 0 | 1 | 1 | 80.6 | 82.0 |
50 | 1 | 0 | 0 | 4 | 1 | 0 | 2 | 97.1 | 92.0 |
50 | 0 | 0 | 1 | 4 | 1 | 0 | 2 | 97.1 | 92.3 |
50 | 1 | 0 | 0 | 6 | 1 | 0 | 2 | 91.4 | 92.9 |
50 | 0 | 0 | 1 | 6 | 1 | 0 | 2 | 91.4 | 93.0 |
50 | 1 | 0 | 0 | 8 | 1 | 0 | 2 | 85.7 | 87.7 |
50 | 0 | 1 | 0 | 8 | 1 | 0 | 2 | 97.6 | 96.5 |
50 | 0 | 0 | 1 | 8 | 1 | 0 | 2 | 85.7 | 85.2 |
50 | 1 | 0 | 0 | 4 | 0 | 1 | 2 | 141.4 | 138.7 |
50 | 0 | 1 | 0 | 4 | 0 | 1 | 2 | 153.3 | 153.2 |
50 | 0 | 0 | 1 | 4 | 0 | 1 | 2 | 141.4 | 138.8 |
50 | 1 | 0 | 0 | 6 | 0 | 1 | 2 | 135.7 | 135.0 |
50 | 0 | 0 | 1 | 6 | 0 | 1 | 2 | 135.7 | 136.0 |
50 | 1 | 0 | 0 | 8 | 0 | 1 | 2 | 130.0 | 128.8 |
50 | 0 | 0 | 1 | 8 | 0 | 1 | 2 | 130.0 | 128.2 |
基于86个不同样本数及参数组合实际运行时间与预测时间比较,平均时间误差百分比仅为2.97%,结果如图10所示。以上结果表明,本发明的微生物组学数据交互分析系统的运行时间预测机制十分准确,具有十分重要的应用价值。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (10)
1.一种基于云平台的微生物组学数据交互分析系统,包括用户界面模块、数据分析模块、数据库模块,其特征在于,还包括分析时间预测模块,其中,
所述用户界面模块用于获取用户输入信息,并将所述用户输入信息发送至所述数据分析模块,所述用户输入信息包括:用户信息、项目信息、微生物组学数据信息、参考数据库类型信息和分析参数信息,所述项目信息包括样本数量,所述分析参数信息包括聚类方式、CPU数目和分组数;
所述数据分析模块,与所述用户界面模块连接,用于根据数据库类型信息和分析参数信息对所述微生物组学数据进行分析,并将分析中间过程和最终分析结果发送至用户界面模块;
所述数据库模块,与所述数据分析模块连接,用于存储或下载参考数据库;
所述分析时间预测模块,与所述用户界面模块连接,用于根据微生物组学数据信息、参考数据库类型信息和分析参数信息,预测分析所需时间,并发送至所述用户界面模块;
所述用户界面模块还用于显示所述预测分析所需时间以及所述分析的中间过程和最终分析结果,
其中,所述分析时间预测模块根据以下公式计算分析运行时间:
T=α×A+(β1×B1+β2×B2+β3×B3)+γ×C+(δ1×D1+δ2×D2)+ε×E+ζ
其中,
T表示分析运行时间;
A表示样本数量,取值为正整数;
B1、B2、B3取值分别为0或1,取值为1时分别表示采用uparse、unoise3和uclust的聚类方式,取值为0时表示不采用相应的聚类方式;
C表示CPU数目,取值为正整数;
D1=0且D2=1,表示数据库类型为:gg_16s_13.5或silva_16s_v123,D1=1且D2=0时,表示数据库类型为:ltp_16s_v123、rdp_16s_v16、Rdp_16s_v16_sp、silva_18s_v123、rdp_its_v2或utax_reference;
E表示分组数,取值为正整数,
α、β1、β2、β3、γ、δ1、δ2、ε和ζ为相应的系数,其是根据多批量微生物组学数据分析,然后根据A、B1、B2、B3、C、D1、D2、E的数值和实际分析运行时间T统计得到的。
2.根据权利要求1所述的系统,其特征在于,所述用户界面模块还可以在分析运行过程中,对数据库类型信息和/或分析参数信息进行可视化修改。
3.根据权利要求1所述的系统,其特征在于,
所述项目信息还包括项目编号、项目名称。
4.根据权利要求1所述的系统,其特征在于,所述分析运行时间的单位为min。
5.根据权利要求1所述的系统,其特征在于,所述统计基于多元线性回归分析。
6.根据权利要求1所述的系统,其特征在于,α、β1、β2、β3、γ、δ1、δ2、ε和ζ的值分别为1.408、0、11.82、0、-2.855、0、44.251、49.372、-60.6。
7.根据权利要求1所述的系统,其特征在于,还包括弹性伸缩计算模块,分别与用户界面模块和数据分析模块连接,所述弹性伸缩计算模块根据所述项目信息为所述数据分析模块配置计算资源。
8.根据权利要求1所述的系统,其特征在于,还包括数据存储模块,用于存储用户上传的微生物组学数据。
9.根据权利要求8所述的系统,其特征在于,针对特定用户,其可访问其他用户上传的微生物组学数据,从而完成样本合并分析。
10.根据权利要求1-9任一所述的系统,其特征在于,所述微生物组学数据是指微生物高通量测序数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984306.5A CN113643757B (zh) | 2020-12-02 | 2020-12-02 | 一种微生物组学数据交互分析系统 |
CN202011389868.7A CN112397146B (zh) | 2020-12-02 | 2020-12-02 | 一种基于云平台的微生物组学数据交互分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011389868.7A CN112397146B (zh) | 2020-12-02 | 2020-12-02 | 一种基于云平台的微生物组学数据交互分析系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984306.5A Division CN113643757B (zh) | 2020-12-02 | 2020-12-02 | 一种微生物组学数据交互分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112397146A CN112397146A (zh) | 2021-02-23 |
CN112397146B true CN112397146B (zh) | 2021-08-24 |
Family
ID=74604177
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984306.5A Active CN113643757B (zh) | 2020-12-02 | 2020-12-02 | 一种微生物组学数据交互分析系统 |
CN202011389868.7A Active CN112397146B (zh) | 2020-12-02 | 2020-12-02 | 一种基于云平台的微生物组学数据交互分析系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984306.5A Active CN113643757B (zh) | 2020-12-02 | 2020-12-02 | 一种微生物组学数据交互分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113643757B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377765A (zh) * | 2021-07-09 | 2021-09-10 | 深圳华大基因科技服务有限公司 | 一种多组学数据分析系统及其数据转换方法 |
CN117251290A (zh) * | 2023-10-16 | 2023-12-19 | 广东美格基因科技有限公司 | 一种基于云服务器租用的可配置式的组学数据自主分析系统 |
CN117316298A (zh) * | 2023-10-24 | 2023-12-29 | 广东美格基因科技有限公司 | 基于公有云的生信分析系统、方法、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034351A (zh) * | 2010-09-30 | 2011-04-27 | 天津大学 | 一种交通流短时预测系统 |
CN102231276A (zh) * | 2011-06-21 | 2011-11-02 | 北京捷通华声语音技术有限公司 | 一种语音合成单元时长的预测方法及装置 |
WO2012063166A1 (en) * | 2010-11-08 | 2012-05-18 | Koninklijke Philips Electronics N.V. | Method of continuous prediction of patient severity of illness, mortality, and length of stay |
CN103984994A (zh) * | 2014-05-19 | 2014-08-13 | 东南大学 | 一种城市轨道交通客流高峰持续时间预测方法 |
CN106379379A (zh) * | 2016-10-09 | 2017-02-08 | 北京交通大学 | 一种城市轨道交通乘客上下车时间的预测方法 |
CN107368700A (zh) * | 2017-07-21 | 2017-11-21 | 上海桑格信息技术有限公司 | 基于计算云平台的微生物多样性交互分析系统及其方法 |
CN108280236A (zh) * | 2018-02-28 | 2018-07-13 | 福州大学 | 一种基于LargeVis的随机森林可视化数据分析方法 |
CN109022584A (zh) * | 2018-08-30 | 2018-12-18 | 江南大学附属医院 | 一种食管癌的分子标志物及其用途 |
CN109448788A (zh) * | 2018-10-24 | 2019-03-08 | 广州基迪奥生物科技有限公司 | 基因组学及生物信息学的微生物组学在线分析平台架构 |
CN110210946A (zh) * | 2019-06-10 | 2019-09-06 | 网易无尾熊(杭州)科技有限公司 | 数据处理方法及装置、介质和计算设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100614827B1 (ko) * | 2004-05-06 | 2006-08-25 | 재단법인서울대학교산학협력재단 | 양방향 은닉 마코프 모델을 이용한 완숙한마이크로알엔에이 위치예측방법 및 이를 구현하기 위한컴퓨터 프로그램을 기록한 저장매체 |
CN104463492B (zh) * | 2014-12-23 | 2017-12-26 | 国家电网公司 | 一种电力系统云仿真平台的运营管理方法 |
EP3038018A1 (en) * | 2014-12-27 | 2016-06-29 | Dassault Systèmes | Clustering database queries for runtime prediction |
CN104991952B (zh) * | 2015-07-17 | 2018-06-01 | 南威软件股份有限公司 | 一种智能数据分发流程引擎及其同步数据的方法 |
CN107800556B (zh) * | 2016-09-06 | 2022-04-29 | 中兴通讯股份有限公司 | 界面生成系统、钻取服务层装置、数据发送方法 |
US11853529B2 (en) * | 2016-11-07 | 2023-12-26 | Tableau Software, Inc. | User interface to prepare and curate data for subsequent analysis |
US11232363B2 (en) * | 2017-08-29 | 2022-01-25 | Jacov Jackie Baloul | System and method of providing news analysis using artificial intelligence |
WO2019134323A1 (zh) * | 2018-05-10 | 2019-07-11 | 深圳晶泰科技有限公司 | 科学计算流程管理系统 |
CN110706750B (zh) * | 2019-10-28 | 2022-04-19 | 广州基迪奥生物科技有限公司 | 一种动态交互式微生物组学在线分析云平台及其生成方法 |
CN111880843B (zh) * | 2020-07-31 | 2023-07-07 | 重庆医科大学 | 基于Linux单命令行的生物大数据分析系统及方法 |
-
2020
- 2020-12-02 CN CN202110984306.5A patent/CN113643757B/zh active Active
- 2020-12-02 CN CN202011389868.7A patent/CN112397146B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034351A (zh) * | 2010-09-30 | 2011-04-27 | 天津大学 | 一种交通流短时预测系统 |
WO2012063166A1 (en) * | 2010-11-08 | 2012-05-18 | Koninklijke Philips Electronics N.V. | Method of continuous prediction of patient severity of illness, mortality, and length of stay |
CN102231276A (zh) * | 2011-06-21 | 2011-11-02 | 北京捷通华声语音技术有限公司 | 一种语音合成单元时长的预测方法及装置 |
CN103984994A (zh) * | 2014-05-19 | 2014-08-13 | 东南大学 | 一种城市轨道交通客流高峰持续时间预测方法 |
CN106379379A (zh) * | 2016-10-09 | 2017-02-08 | 北京交通大学 | 一种城市轨道交通乘客上下车时间的预测方法 |
CN107368700A (zh) * | 2017-07-21 | 2017-11-21 | 上海桑格信息技术有限公司 | 基于计算云平台的微生物多样性交互分析系统及其方法 |
CN108280236A (zh) * | 2018-02-28 | 2018-07-13 | 福州大学 | 一种基于LargeVis的随机森林可视化数据分析方法 |
CN109022584A (zh) * | 2018-08-30 | 2018-12-18 | 江南大学附属医院 | 一种食管癌的分子标志物及其用途 |
CN109448788A (zh) * | 2018-10-24 | 2019-03-08 | 广州基迪奥生物科技有限公司 | 基因组学及生物信息学的微生物组学在线分析平台架构 |
CN110210946A (zh) * | 2019-06-10 | 2019-09-06 | 网易无尾熊(杭州)科技有限公司 | 数据处理方法及装置、介质和计算设备 |
Non-Patent Citations (2)
Title |
---|
Time series analysis of microbiome data regularized by local linear manifold;Xingpeng Jiang 等;《2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20151217;第119-122页 * |
城市轨道交通客流高峰持续时间预测方法;石庄彬 等;《研究报告》;20161231;第35-39页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113643757B (zh) | 2024-04-02 |
CN112397146A (zh) | 2021-02-23 |
CN113643757A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112397146B (zh) | 一种基于云平台的微生物组学数据交互分析系统 | |
US20210265056A1 (en) | Cloud computing environment for biological data | |
Vanberkel et al. | Efficiency evaluation for pooling resources in health care | |
CN103401939B (zh) | 一种采用混合调度策略的负载均衡方法 | |
Shen et al. | A modified teaching–learning-based optimisation algorithm for bi-objective re-entrant hybrid flowshop scheduling | |
CN104484558B (zh) | 生物信息项目的分析报告自动生成方法及系统 | |
CN111553485A (zh) | 基于联邦学习模型的视图显示方法、装置、设备及介质 | |
Yang et al. | The optimization of total laboratory automation by simulation of a pull-strategy | |
CN115472298B (zh) | 基于ai的高通量测序数据智能分析系统及方法 | |
Rosa et al. | Computational resource and cost prediction service for scientific workflows in federated clouds | |
CN110706750B (zh) | 一种动态交互式微生物组学在线分析云平台及其生成方法 | |
AU2005319673A1 (en) | System and method for predictive product requirements analysis | |
CN111737576A (zh) | 应用功能个性化推荐方法和装置 | |
Misra et al. | CProS: A web-based application for chemical production scheduling | |
Karp et al. | Improving the identification of phenotypic abnormalities and sexual dimorphism in mice when studying rare event categorical characteristics | |
Aburatani et al. | ASIAN: a web server for inferring a regulatory network framework from gene expression profiles | |
Guzzi et al. | Automatic summarisation and annotation of microarray data | |
JP2000040079A (ja) | 並列データ分析装置 | |
Jin et al. | A Preliminary Study on the Factors Affecting the Adoption of E-Government Services by Malaysians | |
CN111883204A (zh) | 基于生物云平台的lncRNA与mRNA关联分析系统 | |
CN117834614B (zh) | 一种云计算环境中gpu资源调度方法 | |
Sugasawa et al. | An efficient and flexible test for rare variant effects | |
JP7288637B1 (ja) | メール件名評価システム | |
WO2024139461A1 (zh) | 机器学习模型的训练方法、装置、设备及存储介质 | |
Yan et al. | OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |