CN109086573B - 多源生物大数据融合系统 - Google Patents

多源生物大数据融合系统 Download PDF

Info

Publication number
CN109086573B
CN109086573B CN201810854569.2A CN201810854569A CN109086573B CN 109086573 B CN109086573 B CN 109086573B CN 201810854569 A CN201810854569 A CN 201810854569A CN 109086573 B CN109086573 B CN 109086573B
Authority
CN
China
Prior art keywords
data
analysis
layer
access
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810854569.2A
Other languages
English (en)
Other versions
CN109086573A (zh
Inventor
李艳文
王晗
张春华
孙平平
何飞
马志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Normal University
Original Assignee
Northeast Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Normal University filed Critical Northeast Normal University
Priority to CN201810854569.2A priority Critical patent/CN109086573B/zh
Publication of CN109086573A publication Critical patent/CN109086573A/zh
Application granted granted Critical
Publication of CN109086573B publication Critical patent/CN109086573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了多源生物大数据融合系统,涉及生物数据处理技术领域,该平台包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层,通过数据自动获取和解析、多源异构数据融合、数据存储和访问技术帮助科研人员从这些繁杂的重复劳动中解脱出来,将有限的精力用于更好的分析、验证等工作中,提高工作效率,增加科研产出,更可以为生物制药、医疗等产业研究提供强大的前期数据处理支持。

Description

多源生物大数据融合系统
技术领域
本发明涉及生物数据处理技术领域,特别是涉及多源生物大数据融合系统。
背景技术
现代生命科学研究的问题几乎总是与基因、蛋白或蛋白交互网络有关,从数据分析的角度往往需要获取这些对象或样本的各种属性,且抽象表示成等长的特征向量,然后再采用各种计算手段进行分析和挖掘。此过程中的特征提取环节至关重要,样本特征表达是否充分直接影响分析预测结果的准确程度。因此,科研人员往往需要花费大量精力用于跨多个数据库去搜集数据的相关属性,还要解决不同类别的属性如何用统一的方式转化成特征值,及长短不一的样本属性值如何转化成等长的特征值、特征的筛选、特征降维等。
目前国际上有大量的公共生物数据库资源,大致可分为三大类,其中与基因或蛋白相关的如:GeneBank、UniProt,Ensemble,GO、PDB等,分子相互作用及生物网络相关的如:KEGG、DIP、GEO、ASDB、BioGrid、IntAct、MINT等,药物及疾病相关的如:DrugTarget、DrugBank、TCGA等,这些资源中蕴含了极其丰富的可用于生命科学研究的宝贵信息,有些数据库中还提供了各种各样的数据处理工具,为生物数据分析提供了方便。然而这些生物数据库的资源提供方式对有些使用者尤其是有生物计算需求的用户来说,有时并不能很好的满足要求,其主要存在的问题如下:
1、大多数生物数据库都是分散而独立地提供特定生物数据,其提供的计算工具也仅限于处理本数据库的数据条目。其局限性在于:对有些复杂问题例如药物作用关系预测等,就需要跨越多个数据库来获取数据,有些数据库彼此会通过超链接相互关联,数据之间形成了错综复杂的网络,导致数据解析非常困难,且需要大量的去冗余工作;
2、不同的数据库中数据资源的存储结构各异,来自多源的异构数据很难直接用于生物学和医学等研究模型的构建和分析;
3、目前的生物数据资源平台主要面向生物学家提供人工数据分析和查询的需要,无法满足精准医疗发展所依赖的大规模计算的要求。
发明内容
本发明实施例提供了多源生物大数据融合系统,可以为有生物大数据计算需求的用户提供高效快速一站式数据查询、数据特征提取的访问手段。
本发明提供了多源生物大数据融合系统,包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层,所述数据下载解析层负责数据的获取工作,根据数据源的相应配置文件进行数据下载、解析和存储,该层包括数据下载模块、数据解析模块和数据存储模块,所述数据下载模块根据需要下载的数据源进行自动数据下载,所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析,解析结果以统一的数据传输格式发送到所述数据存储模块,所述数据存储模块按照生物大数据的存储逻辑存放解析结果;
所述多源异构数据融合层用于对数据库中的数据进行特征融合、去冗余和特征分类管理,该层包括特征融合去冗余模块和特征分类管理模块,所述特征融合去冗余模块在一个选定的数据库中下载所有经过人工校验过的蛋白条目,针对每个蛋白条目获取其在其他关联数据库中的访问号,根据访问号分别在这些关联数据库中下载相应的条目,解析后得到相应的特征,然后将来自不同数据库的同一条目的特征进行合并,去掉冗余的特征以及与计算无关的视觉特征,形成新的特征集合,所述特征分类管理模块将新的特征集合划分为ID区、文献引用区、通用属性区和结构区四个区域;
所述高维数据存储层使用非关系数据库MongoDB对生物大数据进行存储所述数据部署访问层包括数据部署和数据访问,数据部署时使用生物大数据平台作为独立的数据服务器为生物预测计算服务器提供数据服务,在数据访问中,通过UseBiodata接口调用相应类型的生物大数据,分别进行基因数据、蛋白数据、基因调控网络数据、蛋白交互网络数据及pathway数据的访问操作,所有访问操作均采用统一的BSON数据交换结构,根据用户查询请求将计算所需数据返回给用户。
本发明实施例中的多源生物大数据融合系统,通过数据自动获取和解析、多源异构数据融合、数据存储和访问技术帮助科研人员从这些繁杂的重复劳动中解脱出来,将有限的精力用于更好的分析、验证等工作中,提高工作效率,增加科研产出,更可以为生物制药、医疗等产业研究提供强大的前期数据处理支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多源生物大数据融合系统的功能模块图;
图2为气味结合蛋白多源异构数据融合的实现过程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明实施例提供了多源生物大数据融合系统,该平台包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层,所述数据下载解析层负责原始数据的获取工作,根据数据源的相应配置文件进行数据下载、解析和存储,该层包括数据下载模块、数据解析模块和数据存储模块。所述数据下载模块根据需要下载的数据源进行自动数据下载,其中包括FTP、HTTP、RSYNC等具体下载实现机制。所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析,解析结果以统一的数据传输格式发送到所述数据存储模块,所述数据存储模块按照生物大数据的存储逻辑存放解析结果。
所述多源异构数据融合层用于对数据库中的数据进行特征融合、去冗余和特征分类管理,该层包括特征融合去冗余模块和特征分类管理模块。所述特征融合去冗余模块在一个选定的数据库中下载所有经过人工校验过的蛋白条目,针对每个蛋白条目获取其在其他关联数据库中的访问号,根据访问号分别在这些关联数据库中下载相应的条目,解析后得到相应的特征,然后将来自不同数据库的同一条目的特征进行合并,去掉冗余的特征以及与计算无关的视觉特征,形成新的特征集合。
本实施例中,选定的数据库为UniProt、NCBI、PDB、GO、DrugBank、DIP、Pfam、Ensemble和KEGG,这些数据库为目前计算生物学研究人员最常使用的具有代表性的权威数据库,这些数据库及其子库在使用前按照DNA、RNA、蛋白质和生物网络进行了分类。
所述特征分类管理模块将新的特征集合划分为以下四个区域:(I)ID区,即该条目在原始数据库中的访问号(Accession Code),例如UniProt中的AC、Pfam和PDB中的EntryID等;(II)文献引用区,即该条目的文献检索信息,如Pub Med-id、author、date、title等;(III)通用属性区,即该条目的各种分类属性,如Name、Length、Weight、Organism、Genesymbol、taxonomy、Species、subcellular location、Pfam、Supper family、GO-Term、KEGG-pathway、ligand等;(IV)结构区,即一级序列、二级结构和三级结构描述,分别以FASTA、GFF、PDB文件格式单独存放。本实施例中以P07435气味结合蛋白(Odorant-bindingprotein)为例,显示了多源异构数据融合技术的实现过程,实现过程如图2所示。
所述高维数据存储层使用非关系数据库MongoDB,该数据库能够克服传统关系型数据库在存储访问大数据中的不足,是当今大数据服务支持的主要途径,已在包括淘宝在内的多种市场应用产品中展现出强大的大数据处理能力。所述高维数据存储层在进行数据存储时根据新的特征集合设计了MongoDB中的记录结构,DNA、RNA和蛋白以基本元素的形式存储在MongoDB中,其中关联元素采用“引用”的技术手段进行存储,所有元素利用MongoDB记录的层次结构,以字典的方式存入数据库。
所述数据部署访问层包括数据部署和数据访问,数据部署时使用的生物大数据平台作为独立的数据服务器为生物预测计算服务器提供数据服务,这样实现有若干优势:首先,降低数据服务与计算服务的耦合性,利于系统功能的扩展和错误处理;其次,降低单服务器的压力,分别保证数据服务的可靠性和计算服务的高效性;同时,这样有利于系统部署,可以根据实际需要灵活地将计算服务和数据服务部署于最合适的位置,甚至可以在访问量增大的情况下,在全国部署多个服务接口。
所述数据部署访问层在预测计算时引入MapReduce框架,将任务的处理过程划分成Map和Reduce两个阶段:Map阶段将输入数据切割成数据分块,以键值对的形式分配到计算节点上的Map函数并行分析处理,Map函数的输出同样以键值对的形式保存在各自的计算节点上;Reduce阶段负责将所有的中间结果根据键值进行合并,然后生成最终结果。
在数据访问中,数据访问用户通过UseBiodata接口调用相应类型的生物大数据,分别进行基因数据、蛋白数据、基因调控网络数据、蛋白交互网络数据及pathway数据的访问操作,所有访问操作均采用统一的BSON数据交换结构,根据用户查询请求将计算所需数据返回给用户。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.多源生物大数据融合系统,其特征在于,包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层,所述数据下载解析层负责数据的获取工作,根据数据源的相应配置文件进行数据下载、解析和存储,该层包括数据下载模块、数据解析模块和数据存储模块,所述数据下载模块根据需要下载的数据源进行自动数据下载,所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析,解析结果以统一的数据传输格式发送到所述数据存储模块,所述数据存储模块按照生物大数据的存储逻辑存放解析结果;
所述多源异构数据融合层用于对数据库中的数据进行特征融合、去冗余和特征分类管理,该层包括特征融合去冗余模块和特征分类管理模块,所述特征融合去冗余模块在一个选定的数据库中下载所有经过人工校验过的蛋白条目,针对每个蛋白条目获取其在其他关联数据库中的访问号,根据访问号分别在这些关联数据库中下载相应的条目,解析后得到相应的特征,然后将来自不同数据库的同一条目的特征进行合并,去掉冗余的特征以及与计算无关的视觉特征,形成新的特征集合,所述特征分类管理模块将新的特征集合划分为ID区、文献引用区、通用属性区和结构区四个区域;
所述高维数据存储层使用非关系数据库MongoDB对生物大数据进行存储所述数据部署访问层包括数据部署和数据访问,数据部署时使用生物大数据平台作为独立的数据服务器为生物预测计算服务器提供数据服务,在数据访问中,通过UseBiodata接口调用相应类型的生物大数据,分别进行基因数据、蛋白数据、基因调控网络数据、蛋白交互网络数据及pathway数据的访问操作,所有访问操作均采用统一的BSON数据交换结构,根据用户查询请求将计算所需数据返回给用户。
2.如权利要求1所述的多源生物大数据融合系统,其特征在于,所述ID区用于存放条目在原始数据库中的访问号,所述文献引用区用于存放条目的文献检索信息;所述通用属性区用于存放条目的各种分类属性;所述结构区用于存放一级序列、二级结构和三级结构描述,分别以FASTA、GFF、PDB文件格式单独存放。
3.如权利要求1所述的多源生物大数据融合系统,其特征在于,所述高维数据存储层在进行数据存储时,将DNA、RNA和蛋白以基本元素的形式存储在MongoDB中,其中关联元素采用“引用”的技术手段进行存储,所有元素利用MongoDB记录的层次结构,以字典的方式存入数据库。
4.如权利要求1所述的多源生物大数据融合系统,其特征在于,所述数据部署访问层在预测计算时使用MapReduce框架,将任务的处理过程划分成Map和Reduce两个阶段:Map阶段将输入数据切割成数据分块,以键值对的形式分配到计算节点上的Map函数并行分析处理,Map函数的输出同样以键值对的形式保存在各自的计算节点上;Reduce阶段将所有的中间结果根据键值进行合并,然后生成最终结果。
CN201810854569.2A 2018-07-30 2018-07-30 多源生物大数据融合系统 Active CN109086573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810854569.2A CN109086573B (zh) 2018-07-30 2018-07-30 多源生物大数据融合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810854569.2A CN109086573B (zh) 2018-07-30 2018-07-30 多源生物大数据融合系统

Publications (2)

Publication Number Publication Date
CN109086573A CN109086573A (zh) 2018-12-25
CN109086573B true CN109086573B (zh) 2021-08-24

Family

ID=64830968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810854569.2A Active CN109086573B (zh) 2018-07-30 2018-07-30 多源生物大数据融合系统

Country Status (1)

Country Link
CN (1) CN109086573B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825773B (zh) * 2019-10-31 2022-09-27 望海康信(北京)科技股份公司 信息校验方法、装置、计算机设备及存储介质
CN111128308B (zh) * 2019-12-26 2023-03-24 上海市精神卫生中心(上海市心理咨询培训中心) 一种神经精神疾病新发突变信息知识平台
CN111611441B (zh) * 2020-05-22 2024-04-09 阳光财产保险股份有限公司 异构数据的处理方法、装置以及计算机设备
CN112417017A (zh) * 2020-11-19 2021-02-26 郑州轻工业大学 一种针对于异构数据的循环过滤处理融合系统
CN112786215A (zh) * 2021-01-25 2021-05-11 山东众阳健康科技集团有限公司 基于大数据聚类生成dip综合病种目录的方法及系统
CN113407723A (zh) * 2021-07-16 2021-09-17 湖南五凌电力科技有限公司 多源异构电力负荷数据融合方法、装置、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160148911A (ko) * 2015-06-17 2016-12-27 주식회사 나라시스템 산업유형별 공정 데이터 분석 및 검증 기술과 hw-sw 융합 프레임워크 기반의 정보통합 시스템
CN107798137A (zh) * 2017-11-23 2018-03-13 霍尔果斯智融未来信息科技有限公司 一种基于可加模型的多源异构数据融合架构系统
CN107920080A (zh) * 2017-11-22 2018-04-17 郑州云海信息技术有限公司 一种特征数据采集方法和系统
CN107945053A (zh) * 2017-12-29 2018-04-20 广州思泰信息技术有限公司 一种多源配电网数据融合分析平台及其控制方法
CN108021670A (zh) * 2017-12-06 2018-05-11 中国南方航空股份有限公司 多源异构数据融合系统及方法
CN108156226A (zh) * 2017-12-15 2018-06-12 南京邮电大学 一种云雾融合的工业物联网认知能源管理系统及计算方法
CN108228830A (zh) * 2018-01-03 2018-06-29 广东工业大学 一种数据处理系统
CN108287926A (zh) * 2018-03-02 2018-07-17 宿州学院 一种农业生态多源异构大数据采集、处理与分析架构

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902286A (zh) * 2014-03-12 2014-07-02 郑州轻工业学院 基于soa的层级式多源数据融合方法
CN104008135A (zh) * 2014-05-07 2014-08-27 南京邮电大学 一种多源异构数据库融合系统及其数据查询方法
CN104765947B (zh) * 2015-03-02 2017-12-26 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN105471842B (zh) * 2015-11-13 2018-11-20 南方电网传媒有限公司 一种大数据环境下的网络安全分析方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160148911A (ko) * 2015-06-17 2016-12-27 주식회사 나라시스템 산업유형별 공정 데이터 분석 및 검증 기술과 hw-sw 융합 프레임워크 기반의 정보통합 시스템
CN107920080A (zh) * 2017-11-22 2018-04-17 郑州云海信息技术有限公司 一种特征数据采集方法和系统
CN107798137A (zh) * 2017-11-23 2018-03-13 霍尔果斯智融未来信息科技有限公司 一种基于可加模型的多源异构数据融合架构系统
CN108021670A (zh) * 2017-12-06 2018-05-11 中国南方航空股份有限公司 多源异构数据融合系统及方法
CN108156226A (zh) * 2017-12-15 2018-06-12 南京邮电大学 一种云雾融合的工业物联网认知能源管理系统及计算方法
CN107945053A (zh) * 2017-12-29 2018-04-20 广州思泰信息技术有限公司 一种多源配电网数据融合分析平台及其控制方法
CN108228830A (zh) * 2018-01-03 2018-06-29 广东工业大学 一种数据处理系统
CN108287926A (zh) * 2018-03-02 2018-07-17 宿州学院 一种农业生态多源异构大数据采集、处理与分析架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生物医疗健康大数据应用支撑平台与关键技术;卢宇彤 等;《科研信息化技术与应用》;20171231;第3-9页 *

Also Published As

Publication number Publication date
CN109086573A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086573B (zh) 多源生物大数据融合系统
CN104298771B (zh) 一种海量web日志数据查询与分析方法
Chard et al. I'll take that to go: Big data bags and minimal identifiers for exchange of large, complex datasets
CN105989150B (zh) 一种基于大数据环境的数据查询方法及装置
Chung et al. JackHare: a framework for SQL to NoSQL translation using MapReduce
EP3671526B1 (en) Dependency graph based natural language processing
Arfat et al. Big data tools, technologies, and applications: A survey
US11264140B1 (en) System and method for automated pharmaceutical research utilizing context workspaces
US20100077007A1 (en) Method and System for Populating a Database With Bibliographic Data From Multiple Sources
CN111797296B (zh) 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
Shaker et al. The biomediator system as a tool for integrating biologic databases on the web
Starlinger et al. Effective and efficient similarity search in scientific workflow repositories
WO2014037914A2 (en) Method and system for organizing and retrieving data in a semantic database structure
López et al. An efficient and scalable search engine for models
Newman et al. Scalable Semantics–the Silver Lining of Cloud Computing
US20210158902A1 (en) System and method for allele interpretation using a graph-based reference genome
Herbert et al. Biological data cleaning: a case study
Jeong Parallel processing scheme for minimizing computational and communication cost of bioinformatics data
Dhanapalan et al. A case study of integrating protein interaction data using semantic web technology
Aldailamy et al. Distributed indexing: performance analysis of solr, terrier and katta information retrievals
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system
Curcin et al. It service infrastructure for integrative systems biology
Starlinger et al. SOA-Based Integration of Text Mining Services
Nguyen et al. Heterogeneous biological data integration with declarative query language
Benhamed et al. Classification of knowledge processing by MapReduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant