CN105389482B - 一种基于云平台的大数据分析方法 - Google Patents

一种基于云平台的大数据分析方法 Download PDF

Info

Publication number
CN105389482B
CN105389482B CN201510627232.4A CN201510627232A CN105389482B CN 105389482 B CN105389482 B CN 105389482B CN 201510627232 A CN201510627232 A CN 201510627232A CN 105389482 B CN105389482 B CN 105389482B
Authority
CN
China
Prior art keywords
analysis
analysis result
data
process frame
central server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510627232.4A
Other languages
English (en)
Other versions
CN105389482A (zh
Inventor
李国庆
陈刚
芦长欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201510627232.4A priority Critical patent/CN105389482B/zh
Publication of CN105389482A publication Critical patent/CN105389482A/zh
Application granted granted Critical
Publication of CN105389482B publication Critical patent/CN105389482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云平台的大数据分析方法,包括:S1、从基因测序装置中获取生物数据,将获取的生物数据存储到云中心服务器中;S2、动态设定关键词,通过网络从所述云中心服务器中采集与设定的关键词相匹配的生物数据;S3、对采集的生物数据进行分类,并存储到相应的数据库中;S4、将所述数据库中存储的生物数据依次进行信息分析、领域分析、关系挖掘分析,得到分析结果和分析流程框架,并依据所述分析结果建立数据索引表;S5、调用得到的所述分析结果和所述分析流程框架,显示所述分析结果和所述分析流程框架,并将所述分析结果和所述分析流程框架上传至所述云中心服务器。采用本发明实施例,分析方法效率高,分析结果清晰,易读性好,且便于用户分享。

Description

一种基于云平台的大数据分析方法
技术领域
本发明涉及数据分析领域,尤其涉及一种基于云平台的大数据分析方法。
背景技术
随着人类社会的不断发展,生命科技相关各行业越来越受到人们的关注,它包括一系列的重要动植物、人类健康、微生物、海洋生物、生物能源等基因组的研究,基因科技可以造福人类,促进生物经济产业的蓬勃发展。这些主要涉及基因、蛋白质测序等工作,目前的基因、蛋白质测序等工作中,在测序、数据整理等工作完成后,需要对大量的生物数据进行分析,并将分析结果提交给用户,但现有的数据分析方法效率不高,不能看到分析流程框架,得到的分析结果单一,且便于分享。
发明内容
本发明实施例提出一种基于云平台的大数据分析方法,通过该方法将获取的生物数据进行分析归类,并将分析结果和分析流程框架上传至云中心服务器,分析方法效率高,分析结果清晰,易读性好,且便于用户分享。
本发明实施例提供一种基于云平台的大数据分析方法,包括:
S1、从基因测序装置中获取生物数据,将获取的生物数据存储到云中心服务器中;
S2、动态设定关键词,通过网络从所述云中心服务器中采集与设定的关键词相匹配的生物数据;
S3、对采集的生物数据进行分类,并存储到相应的数据库中;
S4、将所述数据库中存储的生物数据依次进行信息分析、领域分析、关系挖掘分析,得到分析结果和分析流程框架,并依据所述分析结果建立数据索引表;
S5、调用得到的所述分析结果和所述分析流程框架,显示所述分析结果和所述分析流程框架,并将所述分析结果和所述分析流程框架上传至所述云中心服务器。
进一步的,当用户输入关键词时,首先检索输入的关键词是否存在于所述数据索引表中;若存在,则从所述云中心服务器中直接调用与所述输入的关键词相关联的所述分析结果和所述分析流程框架,并显示所述分析结果和所述分析流程框架;若不存在,则重复步骤S2-S5。
又进一步的,所述分析结果的显示类型为饼状图、柱状图、表格。
更进一步的,所述分析结果和所述分析流程框架还通过所述云中心服务器导出或定时发送到用户的手机或邮箱中。
本发明实施例提供的基于云平台的大数据分析方法,通过将获取的生物数据存储到云中心服务器中,从云中心服务器中采集与设定的关键词相匹配的生物数据,对其进行分类后存储到相应的数据库中,然后对其依次进行信息分析、领域分析、关系挖掘分析,并依据分析结果建立数据索引表,显示分析结果和分析流程框架,并将分析结果和分析流程框架上传至云中心服务器。所述的数据分析方法能够有效地对生物数据进行分析归类,分析方法效率高;在给出分析结果的同时给出相关的分析流程框架,使分析结果清晰,易读性好;最终将分析结果和分析流程框架上传到云中心服务器,便于用户在其科研团队内分享,提高协作分析的效率。
附图说明
图1是本发明提供的基于云平台的大数据分析方法的实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的基于云平台的大数据分析方法的实施例的流程示意图。
本发明实施例提供一种基于云平台的大数据分析方法,包括:
S101、从基因测序装置中获取生物数据,将获取的生物数据存储到云中心服务器中;
有一个或多个生物数据获取设备且每个生物数据获取设备可负责从一个或多个基因测序装置中获取生物数据。
在具体实施当中,可以直接从基因测序装置中获取生物数据,也可以通过常规的计算机显示器和键盘输入试验样品的数据结果,即获取了生物数据。
S102、动态设定关键词,通过网络从所述云中心服务器中采集与设定的关键词相匹配的生物数据;
根据初始设定的关键字,从获取的生物数据中采集与设定的关键词相匹配的生物数据,从大量的原始生物数据中提取出有用的数据,抛弃无用的数据,减少后续分析操作所需处理的数据量,提高数据处理的效率。
S103、对采集的生物数据进行分类,并存储到相应的数据库中;
采集相匹配的数据后,对相匹配的数据根据生物数据的分类方法进行分类,并按类别将分类后的生物数据存储到相应的数据库中。
需要说明的是,数据库需提供某种形式的冗余以在故障的情况下确保数据整体性和系统可靠性。且数据库应确保快速的存储速率,因为当大量数据被传输到数据库中时,数据库需要应对大量的数据存储,数据库的存储速率应大于数据被采集的速率,故数据库应运用高速缓存存储器和闪存系统。
S104、将所述数据库中存储的生物数据依次进行信息分析、领域分析、关系挖掘分析,得到分析结果和分析流程框架,并依据所述分析结果建立数据索引表;
针对不同类别数据库中的生物数据,分别进行有针对性的信息分析、领域分析、关系挖掘分析,得到对应的分析结果和分析流程框架,并针对相应的分析过程建立数据索引表,以便于用户对分析结果和分析流程框架进行查找,提高查找的效率。
S105、调用得到的所述分析结果和所述分析流程框架,显示所述分析结果和所述分析流程框架,并将所述分析结果和所述分析流程框架上传至所述云中心服务器。
优选的,所述分析结果的显示类型为饼状图、柱状图、表格。
需要说明的是,本实施例仅以所述分析结果的显示类型是饼状图、柱状图、表格为例进行说明,所述分析结果的显示类型还可以是文字、数字、符号或其他形式。
优选的,所述分析结果和所述分析流程框架还通过所述云中心服务器导出或定时发送到用户的手机或邮箱中。
分析过程结束后,需要将分析结果和分析流程框架提交给用户,可以通过在显示器上显示的方式或打印的方式将分析结果和分析流程框架显示出来,并将分析结果和分析流程框架上传至云中心服务器。
本方法还提供了数据、项目共享的功能,可以通过开通权限的方式,访问云中心服务器用户科研团队的的其他成员获得分析结果和分析流程框架,并控制共享的程度(可读、可写、可执行等),这样更有利于科研团队的协作分析。
进一步的,当用户输入关键词时,首先检索输入的关键词是否存在于所述数据索引表中;
若存在,则从所述云中心服务器中直接调用与所述输入的关键词相关联的所述分析结果和所述分析流程框架,并显示所述分析结果和所述分析流程框架;
若不存在,则重复步骤S102-S105。
当用户输入关键词对分析结果进行检索,首先在分析过程完成后得到的数据索引表中查找输入的关键字,如果输入的关键字存在于现有的数据索引表中,则从云中心服务器中直接调用与所述关键词相关联的分析结果和分析流程框架,并将相关联的分析结果和分析流程框架显示给用户,还可通过云中心服务器导出或定时发送到用户的手机或邮箱中;如果在现有的数据索引表中找不到输入的关键词,则会重新执行数据分析方法步骤S102-S105,对与输入的关键词相关联的生物数据执行分析过程。
本发明实施例提供的基于云平台的大数据分析方法,通过将获取的生物数据存储到云中心服务器中,从云中心服务器中采集与设定的关键词相匹配的生物数据,对其进行分类后存储到相应的数据库中,然后对其依次进行信息分析、领域分析、关系挖掘分析,并依据分析结果建立数据索引表,显示分析结果和分析流程框架,并将分析结果和分析流程框架上传至云中心服务器。所述的数据分析方法能够有效地对生物数据进行分析归类,分析方法效率高;在给出分析结果的同时给出相关的分析流程框架,使分析结果清晰,易读性好;最终将分析结果和分析流程框架上传到云中心服务器,便于用户在其科研团队内分享,提高协作分析的效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种基于云平台的大数据分析方法,其特征在于:
S1、从基因测序装置中获取生物数据,将获取的生物数据存储到云中心服务器中;
S2、动态设定关键词,通过网络从所述云中心服务器中采集与设定的关键词相匹配的生物数据;
S3、对采集的生物数据进行分类,并存储到相应的数据库中;
S4、将所述数据库中存储的生物数据依次进行信息分析、领域分析、关系挖掘分析,得到分析结果和分析流程框架,并依据所述分析结果建立数据索引表;其中,针对不同类别数据库中的生物数据,分别进行所述信息分析、领域分析、关系挖掘分析,得到对应的分析结果和分析流程框架,并针对相应的分析过程得到的分析结果建立数据索引表;
S5、调用得到的所述分析结果和所述分析流程框架,显示所述分析结果和所述分析流程框架,并将所述分析结果和所述分析流程框架上传至所述云中心服务器。
2.如权利要求1所述的基于云平台的大数据分析方法,其特征在于,当用户输入关键词时,首先检索输入的关键词是否存在于所述数据索引表中;
若存在,则从所述云中心服务器中直接调用与所述输入的关键词相关联的所述分析结果和所述分析流程框架,并显示所述分析结果和所述分析流程框架;
若不存在,则重复步骤S2-S5。
3.如权利要求1所述的基于云平台的大数据分析方法,其特征在于,所述分析结果的显示类型为饼状图、柱状图、表格。
4.如权利要求1所述的基于云平台的大数据分析方法,其特征在于,所述分析结果和所述分析流程框架还通过所述云中心服务器导出或定时发送到用户的手机或邮箱中。
CN201510627232.4A 2015-09-28 2015-09-28 一种基于云平台的大数据分析方法 Active CN105389482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510627232.4A CN105389482B (zh) 2015-09-28 2015-09-28 一种基于云平台的大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510627232.4A CN105389482B (zh) 2015-09-28 2015-09-28 一种基于云平台的大数据分析方法

Publications (2)

Publication Number Publication Date
CN105389482A CN105389482A (zh) 2016-03-09
CN105389482B true CN105389482B (zh) 2018-09-14

Family

ID=55421762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510627232.4A Active CN105389482B (zh) 2015-09-28 2015-09-28 一种基于云平台的大数据分析方法

Country Status (1)

Country Link
CN (1) CN105389482B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825046B (zh) * 2016-03-13 2017-07-25 冯贵良 一种医疗数据的收集及处理方法及装置
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN107038223A (zh) * 2017-03-24 2017-08-11 郑州云基因数据科技有限公司 一种生命健康数据管理方法及系统
CN110349626B (zh) * 2018-12-26 2024-02-02 北京百迈客生物科技有限公司 基于生物云平台的测序数据分析系统及方法
CN111161804B (zh) * 2019-12-27 2024-03-08 北京百迈客生物科技有限公司 一种用于物种基因组学数据库的查询方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106573A (zh) * 2013-02-20 2013-05-15 中国科学院信息工程研究所 一种基于关系图的海量电子邮件分析方法及系统
CN104268254A (zh) * 2014-10-09 2015-01-07 浪潮电子信息产业股份有限公司 一种安全态势分析统计方法
CN104881726A (zh) * 2014-12-31 2015-09-02 国家电网公司 一种实现调控操作票与在线联合计算一体化的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
CN103164405A (zh) * 2011-12-08 2013-06-19 盛乐信息技术(上海)有限公司 相关视频数据库生成方法、相关视频推荐方法及系统
CN103440139A (zh) * 2013-09-11 2013-12-11 北京邮电大学 一种面向主流微博网站微博id的采集方法及工具
CN103577935A (zh) * 2013-11-14 2014-02-12 宜昌市科学技术情报研究所 一种用于企业创新的服务系统
CN104376406B (zh) * 2014-11-05 2019-04-16 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106573A (zh) * 2013-02-20 2013-05-15 中国科学院信息工程研究所 一种基于关系图的海量电子邮件分析方法及系统
CN104268254A (zh) * 2014-10-09 2015-01-07 浪潮电子信息产业股份有限公司 一种安全态势分析统计方法
CN104881726A (zh) * 2014-12-31 2015-09-02 国家电网公司 一种实现调控操作票与在线联合计算一体化的方法

Also Published As

Publication number Publication date
CN105389482A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389482B (zh) 一种基于云平台的大数据分析方法
Buttigieg et al. The environment ontology: contextualising biological and biomedical entities
US9256686B2 (en) Using a bloom filter in a web analytics application
Rokas Phylogenetic analysis of protein sequence data using the Randomized Axelerated Maximum Likelihood (RAXML) Program
JP2020521210A (ja) 情報処理方法及び端末、コンピュータ記憶媒体
Fraser et al. Investigating biotic interactions in deep time
CN105279392B (zh) 一种基于云平台的大数据分析装置
CN103631791B (zh) 信息聚合归类的显示方法及系统
Bik et al. Phinch: an interactive, exploratory data visualization framework for–Omic datasets
CN112885412B (zh) 基因组注释方法、装置、可视化平台和存储介质
Durkin et al. When mycologists describe new species, not all relevant information is provided (clearly enough)
Ballesteros et al. Species delimitation of the North American orchard-spider Leucauge venusta (Walckenaer, 1841)(Araneae, Tetragnathidae)
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
Guerrini et al. Metagenomic analysis through the extended Burrows-Wheeler transform
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及系统
US10853429B2 (en) Identifying domain-specific accounts
CN107632972B (zh) 表单处理方法和装置
US8918406B2 (en) Intelligent analysis queue construction
Koo et al. Tracking, synthesizing, and sharing global Batrachochytrium data at AmphibianDisease. org
CN111126034A (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
CN114925125A (zh) 数据处理方法、装置和系统、电子设备及存储介质
Tauber et al. Draft genome sequence of the yeast Kodamaea ohmeri, a symbiont of the small hive beetle
Shooshtari et al. OCHROdb: a comprehensive, quality checked database of open chromatin regions from sequencing data
CN110825453B (zh) 基于大数据平台的数据处理方法及装置
Cineros et al. KmerFinderJS: a client-server method for fast species typing of bacteria over slow Internet connections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant