CN109086573B

CN109086573B - 多源生物大数据融合系统

Info

Publication number: CN109086573B
Application number: CN201810854569.2A
Authority: CN
Inventors: 李艳文; 王晗; 张春华; 孙平平; 何飞; 马志强
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2021-08-24
Anticipated expiration: 2038-07-30
Also published as: CN109086573A

Abstract

本发明公开了多源生物大数据融合系统，涉及生物数据处理技术领域，该平台包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层，通过数据自动获取和解析、多源异构数据融合、数据存储和访问技术帮助科研人员从这些繁杂的重复劳动中解脱出来，将有限的精力用于更好的分析、验证等工作中，提高工作效率，增加科研产出，更可以为生物制药、医疗等产业研究提供强大的前期数据处理支持。

Description

多源生物大数据融合系统

技术领域

本发明涉及生物数据处理技术领域，特别是涉及多源生物大数据融合系统。

背景技术

现代生命科学研究的问题几乎总是与基因、蛋白或蛋白交互网络有关，从数据分析的角度往往需要获取这些对象或样本的各种属性，且抽象表示成等长的特征向量，然后再采用各种计算手段进行分析和挖掘。此过程中的特征提取环节至关重要，样本特征表达是否充分直接影响分析预测结果的准确程度。因此，科研人员往往需要花费大量精力用于跨多个数据库去搜集数据的相关属性，还要解决不同类别的属性如何用统一的方式转化成特征值，及长短不一的样本属性值如何转化成等长的特征值、特征的筛选、特征降维等。

目前国际上有大量的公共生物数据库资源，大致可分为三大类，其中与基因或蛋白相关的如：GeneBank、UniProt，Ensemble，GO、PDB等，分子相互作用及生物网络相关的如：KEGG、DIP、GEO、ASDB、BioGrid、IntAct、MINT等，药物及疾病相关的如：DrugTarget、DrugBank、TCGA等，这些资源中蕴含了极其丰富的可用于生命科学研究的宝贵信息，有些数据库中还提供了各种各样的数据处理工具，为生物数据分析提供了方便。然而这些生物数据库的资源提供方式对有些使用者尤其是有生物计算需求的用户来说，有时并不能很好的满足要求，其主要存在的问题如下：

1、大多数生物数据库都是分散而独立地提供特定生物数据，其提供的计算工具也仅限于处理本数据库的数据条目。其局限性在于：对有些复杂问题例如药物作用关系预测等，就需要跨越多个数据库来获取数据，有些数据库彼此会通过超链接相互关联，数据之间形成了错综复杂的网络，导致数据解析非常困难，且需要大量的去冗余工作；

2、不同的数据库中数据资源的存储结构各异，来自多源的异构数据很难直接用于生物学和医学等研究模型的构建和分析；

3、目前的生物数据资源平台主要面向生物学家提供人工数据分析和查询的需要，无法满足精准医疗发展所依赖的大规模计算的要求。

发明内容

本发明实施例提供了多源生物大数据融合系统，可以为有生物大数据计算需求的用户提供高效快速一站式数据查询、数据特征提取的访问手段。

本发明提供了多源生物大数据融合系统，包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层，所述数据下载解析层负责数据的获取工作，根据数据源的相应配置文件进行数据下载、解析和存储，该层包括数据下载模块、数据解析模块和数据存储模块，所述数据下载模块根据需要下载的数据源进行自动数据下载，所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析，解析结果以统一的数据传输格式发送到所述数据存储模块，所述数据存储模块按照生物大数据的存储逻辑存放解析结果；

所述多源异构数据融合层用于对数据库中的数据进行特征融合、去冗余和特征分类管理，该层包括特征融合去冗余模块和特征分类管理模块，所述特征融合去冗余模块在一个选定的数据库中下载所有经过人工校验过的蛋白条目，针对每个蛋白条目获取其在其他关联数据库中的访问号，根据访问号分别在这些关联数据库中下载相应的条目，解析后得到相应的特征，然后将来自不同数据库的同一条目的特征进行合并，去掉冗余的特征以及与计算无关的视觉特征，形成新的特征集合，所述特征分类管理模块将新的特征集合划分为ID区、文献引用区、通用属性区和结构区四个区域；

所述高维数据存储层使用非关系数据库MongoDB对生物大数据进行存储所述数据部署访问层包括数据部署和数据访问，数据部署时使用生物大数据平台作为独立的数据服务器为生物预测计算服务器提供数据服务，在数据访问中，通过UseBiodata接口调用相应类型的生物大数据，分别进行基因数据、蛋白数据、基因调控网络数据、蛋白交互网络数据及pathway数据的访问操作，所有访问操作均采用统一的BSON数据交换结构，根据用户查询请求将计算所需数据返回给用户。

本发明实施例中的多源生物大数据融合系统，通过数据自动获取和解析、多源异构数据融合、数据存储和访问技术帮助科研人员从这些繁杂的重复劳动中解脱出来，将有限的精力用于更好的分析、验证等工作中，提高工作效率，增加科研产出，更可以为生物制药、医疗等产业研究提供强大的前期数据处理支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多源生物大数据融合系统的功能模块图；

图2为气味结合蛋白多源异构数据融合的实现过程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明实施例提供了多源生物大数据融合系统，该平台包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层，所述数据下载解析层负责原始数据的获取工作，根据数据源的相应配置文件进行数据下载、解析和存储，该层包括数据下载模块、数据解析模块和数据存储模块。所述数据下载模块根据需要下载的数据源进行自动数据下载，其中包括FTP、HTTP、RSYNC等具体下载实现机制。所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析，解析结果以统一的数据传输格式发送到所述数据存储模块，所述数据存储模块按照生物大数据的存储逻辑存放解析结果。

所述多源异构数据融合层用于对数据库中的数据进行特征融合、去冗余和特征分类管理，该层包括特征融合去冗余模块和特征分类管理模块。所述特征融合去冗余模块在一个选定的数据库中下载所有经过人工校验过的蛋白条目，针对每个蛋白条目获取其在其他关联数据库中的访问号，根据访问号分别在这些关联数据库中下载相应的条目，解析后得到相应的特征，然后将来自不同数据库的同一条目的特征进行合并，去掉冗余的特征以及与计算无关的视觉特征，形成新的特征集合。

本实施例中，选定的数据库为UniProt、NCBI、PDB、GO、DrugBank、DIP、Pfam、Ensemble和KEGG，这些数据库为目前计算生物学研究人员最常使用的具有代表性的权威数据库，这些数据库及其子库在使用前按照DNA、RNA、蛋白质和生物网络进行了分类。

所述特征分类管理模块将新的特征集合划分为以下四个区域：(I)ID区，即该条目在原始数据库中的访问号(Accession Code)，例如UniProt中的AC、Pfam和PDB中的EntryID等；(II)文献引用区，即该条目的文献检索信息，如Pub Med-id、author、date、title等；(III)通用属性区，即该条目的各种分类属性，如Name、Length、Weight、Organism、Genesymbol、taxonomy、Species、subcellular location、Pfam、Supper family、GO-Term、KEGG-pathway、ligand等；(IV)结构区，即一级序列、二级结构和三级结构描述，分别以FASTA、GFF、PDB文件格式单独存放。本实施例中以P07435气味结合蛋白(Odorant-bindingprotein)为例，显示了多源异构数据融合技术的实现过程，实现过程如图2所示。

所述高维数据存储层使用非关系数据库MongoDB，该数据库能够克服传统关系型数据库在存储访问大数据中的不足，是当今大数据服务支持的主要途径，已在包括淘宝在内的多种市场应用产品中展现出强大的大数据处理能力。所述高维数据存储层在进行数据存储时根据新的特征集合设计了MongoDB中的记录结构，DNA、RNA和蛋白以基本元素的形式存储在MongoDB中，其中关联元素采用“引用”的技术手段进行存储，所有元素利用MongoDB记录的层次结构，以字典的方式存入数据库。

所述数据部署访问层包括数据部署和数据访问，数据部署时使用的生物大数据平台作为独立的数据服务器为生物预测计算服务器提供数据服务，这样实现有若干优势：首先，降低数据服务与计算服务的耦合性，利于系统功能的扩展和错误处理；其次，降低单服务器的压力，分别保证数据服务的可靠性和计算服务的高效性；同时，这样有利于系统部署，可以根据实际需要灵活地将计算服务和数据服务部署于最合适的位置，甚至可以在访问量增大的情况下，在全国部署多个服务接口。

所述数据部署访问层在预测计算时引入MapReduce框架，将任务的处理过程划分成Map和Reduce两个阶段：Map阶段将输入数据切割成数据分块，以键值对的形式分配到计算节点上的Map函数并行分析处理，Map函数的输出同样以键值对的形式保存在各自的计算节点上；Reduce阶段负责将所有的中间结果根据键值进行合并，然后生成最终结果。

在数据访问中，数据访问用户通过UseBiodata接口调用相应类型的生物大数据，分别进行基因数据、蛋白数据、基因调控网络数据、蛋白交互网络数据及pathway数据的访问操作，所有访问操作均采用统一的BSON数据交换结构，根据用户查询请求将计算所需数据返回给用户。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.多源生物大数据融合系统，其特征在于，包括数据下载解析层、多源异构数据融合层、高维数据存储层和数据部署访问层，所述数据下载解析层负责数据的获取工作，根据数据源的相应配置文件进行数据下载、解析和存储，该层包括数据下载模块、数据解析模块和数据存储模块，所述数据下载模块根据需要下载的数据源进行自动数据下载，所述数据解析模块根据已下载的数据文件信息自动分配相应的解析器进行数据解析，解析结果以统一的数据传输格式发送到所述数据存储模块，所述数据存储模块按照生物大数据的存储逻辑存放解析结果；

2.如权利要求1所述的多源生物大数据融合系统，其特征在于，所述ID区用于存放条目在原始数据库中的访问号，所述文献引用区用于存放条目的文献检索信息；所述通用属性区用于存放条目的各种分类属性；所述结构区用于存放一级序列、二级结构和三级结构描述，分别以FASTA、GFF、PDB文件格式单独存放。

3.如权利要求1所述的多源生物大数据融合系统，其特征在于，所述高维数据存储层在进行数据存储时，将DNA、RNA和蛋白以基本元素的形式存储在MongoDB中，其中关联元素采用“引用”的技术手段进行存储，所有元素利用MongoDB记录的层次结构，以字典的方式存入数据库。

4.如权利要求1所述的多源生物大数据融合系统，其特征在于，所述数据部署访问层在预测计算时使用MapReduce框架，将任务的处理过程划分成Map和Reduce两个阶段：Map阶段将输入数据切割成数据分块，以键值对的形式分配到计算节点上的Map函数并行分析处理，Map函数的输出同样以键值对的形式保存在各自的计算节点上；Reduce阶段将所有的中间结果根据键值进行合并，然后生成最终结果。