CN108595588A

CN108595588A - 一种科学数据存储关联方法

Info

Publication number: CN108595588A
Application number: CN201810352627.1A
Authority: CN
Inventors: 丁鸣; 丁一鸣; 赵旦谱; 阎克栋; 台宪青
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-09-28
Anticipated expiration: 2038-04-19
Also published as: CN108595588B

Abstract

本发明公开了一种科学数据存储关联方法，将科学数据通过建立一套元数据描述方案，根据元数据描述查找可以合并的科学数据，将科学数据进行合并后重新调整元数据和科学数据实体进行相应合并减少跨表查询，并将元数据按照一定规则存储在Neo4j中，表达出科学数据之间的关联。科学数据实体则存储在MongoDB用以支持复杂逻辑计算。本发明通过建立一套元数据描述对科学数据进行有效描述，并将元数据存储在Neo4j中，表达出科学数据之间的关联，减少存储空间。解决了现有技术中需要大量存储空间存储RDF数据，以及目前存在的查询性能差、速度较慢、以及无法进行复杂分析运算的问题。

Description

一种科学数据存储关联方法

技术领域

本发明属于信息技术领域，尤涉及一种科学数据存储关联方法。

背景技术

科学数据包括了社会公益性事业部门所开展的大规模观测、探测、调查、实验和综合分析所获得的长期积累和整编的海量数据，也包括国家科技计划项目实施与科技工作者长年累月科学实践所产生的大量数据，所以科学数据中带有大量的时空属性，这种数据对于科学研究和发现甚至跨学科发现有着重要的研究价值。

参考文献《关联数据发布流程与关键问题研究》、《基于关联数据的高校图书馆科学数据组织研究》和《基于数据关联的开放科学数据长期保存利用研究》等，目前关联数据流程主要采用RDF（Resource Description Framework 资源描述框架）来描述科学数据，它采用URI（Uniform Resource Identifier 统一资源标识符）来标识每一条科学数据资源，并采用“主语-谓语-宾语”三元组来表示每一条属性，通过属性之间对等达到数据关联的目的。关联数据流程如图1。

在流程图中包含四个步骤：

1.数据建模：为选取待发布的科学数据，选择或设计RDF此表，定义待发布实体之间的语义关系；

2.实体命名：为每个科学数据实体赋予一个永久的URI；

3.实体RDF化：采用RDF来描述每个实体；

4.实体关联化：采用RDF link来描述实体之间的关联。

在这种方案中，首先，RDF方式描述，采用传统关系型数据库会将数据分成多个维度存储多份数据，大幅度增加了数据的存储空间，对数据管理带来了很大的难度，尤其是以后随着科学研究的发展，产出的科学数据将呈现井喷式增长；其次，目前一般RDF发布服务器性能比较慢，尤其是在跨越多张表进行关联查询时候；以这种方式组织管理，无法进行复杂的分析运算很难做到科学发现。

发明内容

本发明所要解决的技术问题是针对背景技术的缺陷，提供一种科学数据存储关联方法，将原先四个步骤的关联流程减少到了三个，分别为数据建模、数据合并、数据关联三个流程，解决了现有技术中需要大量存储空间存储RDF数据，以及查询性能差、速度较慢、以及无法进行复杂分析运算的问题。

本发明为解决上述技术问题采用以下技术方案

本发明提出一种科学数据存储关联方法，包括：

步骤1、对科学数据的元数据进行描述，并按照模板生成数据描述元数据文件、属性描述元数据文件；

步骤2、采用MongoDB数据库对数据描述元数据和属性描述元数据进行合并存储，将具有类似结构的科学数据进行合并；首先对数据描述元数据中的范围项、数据量和主键进行合并，主键如果不一致则采用新的主键；然后对属性描述元数据进行最大化合并，将两个数据集中的数据属性全部包含进去；

步骤3、采用Neo4j图数据库对元数据进行存储和关联，Neo4j图数据库节点分为四大层：第一层标识数据分类，第二层标识学科分类，第三层标识数据集的数据描述元数据，第四层为数据集的属性描述元数据；其中第一层和第二层都可按照分类规则划分为多个层次，并且需与数据集的数据描述元数据中的数据分类、学科分类相对应，每层之间均为从属关系。

进一步，本发明所提出的一种科学数据存储关联方法，所述步骤1具体包含如下步骤：

步骤101、获取原始数据文件以及元数据文件；

步骤102、解析步骤101获取的数据文件，获取文件大小、数量以及数据属性，解析元数据文件；

步骤103、将解析出的数据，分别按照数据描述元数据模板、属性描述元数据模板生成数据描述元数据文件、属性描述元数据文件。

进一步，本发明所提出的一种科学数据存储关联方法，所述步骤2具体包含如下步骤：

步骤201、选取两个科学数据的数据描述元数据文件；

步骤202、比较数据描述元数据文件中创建者、数据分类、学科分类以及主题词是否一致；如果一致，则选取两个数据的属性元数据比较，不一致则不符合合并要求并结束流程；

步骤203、比较属性描述元数据，判断名称或别名的一致项是否超过80%；如果一致，则合并数据描述元数据和属性描述元数据，不一致则不符合合并要求并结束流程；

步骤204、对两个科学数据进行合并加工并存储在MongoDB数据库中。

进一步，本发明所提出的一种科学数据存储关联方法，所述步骤3具体包含如下步骤：

步骤301、通过/分隔，解析数据描述元数据中的数据分类，结果为1个或多个；

步骤302、循环数据分类结果，查看Neo4j数据库中是否存在该数据分类节点；如果存在，则流转到步骤303，如果不存在则先新建一个数据分类节点在流转到步骤303；

步骤303、根据步骤301解析出的数据分类，得到步骤302中判断的数据分类的上一个

数据分类；如果不存在上一个数据分类，则表示该数据分类为顶层数据分类，如果存在

上一个数据分类，则判断该数据分类节点与上一个数据分类节点是否存在关系，如果有，则流转到步骤304,如果没有，则在这两个数据分类节点中建立关系后再流转到步骤304；

步骤304、通过/分隔，解析数据描述元数据中的学科分类，结果为1个或多个；

步骤305、循环学科分类结果，查看Neo4j数据库中是否存在该学科分类节点，如果没有则新建该学科分类节点；

步骤306、根据步骤304解析出的学科分类，得到步骤305判断的学科分类的上一个学

科分类；如果不存在上一个学科分类，则表示该学科分类为顶层学科分类，根据步骤301解析出的数据分类的最后一个数据分类，判断该学科分类节点与该数据分类节点是否建立关系，如果有则流转到步骤307，如果没有则建立关系后流转到步骤307；如果存在上一个学科分类，判断该学科分类节点与上一个学科分类节点是否建立关系，如果有则流转到步骤307，如果没有则建立该学科分类节点与上一个学科分类节点的关系后流转到步骤307；

步骤307、建立数据描述元数据节点，并与学科分类最后一个节点建立关系；连接属性描述元数据节点，并与数据描述元数据节点建立关系。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明通过建立一套元数据描述方案对科学数据进行有效描述，并将元数据存储在Neo4j图形数据库中，表达出科学数据之间的关联，减少存储空间；

2.本发明通过MongoDB基于分布式文件存储的数据库存储科学数据实体，可将研究内容相似的科学数据通过表合并的方式减少跨表查询提高查询性能，并且方便以后的扩展；

3.本发明采用MongoDB可以存储空间数据，可以进行空间运算，并且提供了MapReduce的聚合工具来实现任意复杂的逻辑，为科学数据分析提供计算支持。

附图说明

图1是科学数据关联关键步骤。

图2是本发明科学数据关联关键步骤。

图3是Neo4j存储模型。

图4是MapReduce计算模型。

图5是数据描述元数据定义模板。

图6是属性描述元数据定义模板。

图7是示例数据描述元数据。

图8是示例数据属性元数据。

图9是科学数据合并流程图。

图10是示例数据的数据描述元数据合并结果。

图11是示例数据的属性描述元数据合并结果。

图12是科学数据元数据在Neo4j中关联存储模型。

图13是示例数据关联存储。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明针对海量科学数据组织关联，包含3个流程，如图2所示，分别为数据建模、数据合并、数据关联。首先通过数据建模建立一套元数据描述方案对科学数据进行描述产生两个元数据文件，分别是数据描述元数据文件和属性描述元数据文件；然后经过数据合并步骤将可以合并的数据进行合并，并重新生成数据描述元数据文件、属性描述文件、科学数据；最后通过数据关联步骤将元数据存储在Neo4j（图形数据库）中，表达出科学数据之间的关联。通过MongoDB存储科学数据实体，可将研究内容相似的科学数据通过表合并的方式减少跨表查询，并且支持复杂的分析运算。

科学数据的描述，分为数据描述元数据和属性描述元数据，通过采用Neo4j对元数据进行存储和关联基元是节点、关系和属性。通过图3可以看到Neo4j的存储模型，图数据库中包含了节点、关系、属性、遍历。节点和关系可以组成一个有向图，通过属性就可以使其带上数据成为图数据库。在图数据库中每个节点可以和多个节点之间建立多个关系，单个节点可以设置多个属性键值对；每个关系都会包含一个起始节点和结束节点，每个关系可以设置多个属性键值对。图数据库中提供对应图的遍历算法，深度优先搜索和广度优先搜索可以快速定位到要查询的节点，因此通过这3个基元可以完整地描述元数据以及关系，在关系上赋予属性，可以灵活扩展其网络模型；节点属性可以随时增删，从而有效地解决存储科学数据元数据时内存浪费的问题，通过独有的深度遍历接口，可以快速定位科学数据集。

科学数据的实体存储采用MongoDB，它将数据存储为一个文档，数据结构由键值对组成，MongoDB文档类似于JSON对象。字段值可以包含其他文档，数组及文档数组。所以MongoDB对于数据结构没有严格一致的要求，即表结构并不像关系型数据库一样是固定的，可能表中第一条数据是4个属性，第二条数据是5个属性，并且在高负载情况下，添加更多的节点，保证服务器性能且方便扩展，为数据合并提供了可能。MongoDB可以存储空间数据，可以进行空间运算以及其他多条件查询，并且MongoDB提供了MapReduce（一种编程模型，用于大规模数据集的并行计算）的聚合工具，如图4，它是将任务进行分解为一个个Map，每一个Map都拥有一个数据池，可以理解为一个数据库表，通过Map将复合查询条件的数据筛选出来后通过中间结果进行数据汇聚，然后根据数据计算方法将相应的数据输送到Reduce中最终得到计算结果，因此通过MapReduce来实现任意复杂的逻辑并且可以提高效率，为科学数据分析提供计算支持。

具体实施例：

1、数据建模

主要是对科学数据的元数据进行描述，元数据包含两种，第一种是数据描述元数据，第二种是属性描述元数据，数据描述元数据定义模板和属性描述元数据模板如图5和图6。

数据建模分为三个步骤：

a.获取原始数据文件以及元数据文件；

b.解析数据文件，获取文件大小、数量以及数据属性，解析元数据文件；

c.将解析出的数据按照数据描述元数据和属性描述元数据模板生成这两种文件。

例如有两个科学数据关于描述太湖水质分别是2005年和2006年的数据，数据描述元数据定义如图7，属性描述元数据定义如图8。

2、数据合并

将具有类似结构的数据进行合并，合并流程如图9。

在流程图中的合并数据描述元数据和属性描述元数据步骤中，首先对数据描述元数据中的范围项、数据量和主键进行合并，主键如果不一致则采用新的主键；然后对属性描述元数据进行最大化合并，将两个数据集中的数据属性全部包含进去。数据合并加工存储部分，采用MongoDB对数据进行合并存储。

数据合并分为六个步骤：

a.选取两个科学数据的数据描述元数据文件；

b.比较数据描述元数据文件中创建者、数据分类、学科分类以及主题词是否一致；

c.如果b步骤结果为一致，则选取两个数据的属性描述元数据比较，不一致则不符合合并要求并结束流程；

d.比较名称或别名是否一致项是否超过80%；

e.如果d步骤结果为一致，则合并数据描述元数据和属性描述元数据，不一致则不符合合并要求并结束流程；

f.对两个科学数据进行合并加工并存储在MongoDB数据库中。

例如示例数据中，创建者都为中国科学院南京地理与湖泊研究所，数据分类都为陆地表层/湖泊水库，学科分类都为化学地理学，主题词都为水环境；然后再看属性元数据，2006年数据比2005年数据多了溶解氧属性，这是由于随着科技的发展能够观测的属性也会越来越多导致，综上说明实例数据符合合并条件，合并后数据描述元数据和属性描述元数据分别如图10和图11，合并的数据实体存储在MongoDB的taihu_quality表中。

3、数据关联

在数据建模和数据合并后，采用Neo4j对元数据进行存储和关联。在本发明中节点分为四大层，如图12，第一层标识数据分类，第二层标识学科分类，第三层标识数据集的数据描述元数据，第四层为数据集的属性描述元数据；其中第一层和第二都可按照分类规则划分为多个层次，第一层、第二层需与数据集的数据描述元数据中的数据分类、学科分类相对应，每层之间都是从属关系。

数据关联分为十一个步骤：

a.通过“/”分隔，解析数据描述元数据中的数据分类，结果为1个或多个；

b.循环数据分类结果，查看Neo4j数据库中是否存在该数据分类节点；

c.如果步骤b结果为存在，则流转到步骤d，如果不存在则先新建一个数据分类节点在流转到步骤d；

d.根据步骤a解析出的数据分类，得到步骤c中判断的数据分类的上一个数据分类；

e.如果不存在上一个数据分类，则表示该数据分类为顶层数据分类，如果存在上一个数据分类，判断该数据分类节点与上一个数据分类节点是否存在关系，如果有则流转到步骤f,如果没有则在这两个数据分类节点中建立关系后再流转到步骤f；

f.通过“/”分隔，解析数据描述元数据中的学科分类，结果为1个或多个；

g.循环学科分类结果，查看Neo4j数据库中是否存在该科学分类，如果没有则新建该学科分类节点；

h.根据步骤f解析出的科学分类，得到步骤g判断的学科分类的上一个学科分类；

i.如果不存在上一个学科分类，则表示该学科分类为顶层学科分类，根据步骤a解析出的数据分类的最后一个数据分类，判断该学科分类节点与该数据分类节点是否建立关系，如果有则流转到步骤j，如果没有则建立关系后流转到步骤j；如果存在上一个学科分类，判断该学科分类节点与上一个学科分类节点是否建立关系，如果有则流转到步骤j，如果没有则建立该学科分类节点与上一个学科分类节点的关系后流转到步骤j；

j.建立数据描述元数据节点，并与学科分类最后一个节点建立关系；

k.连接属性描述元数据节点，并与数据描述元数据节点建立关系。

例如示例数据的最终在图数据库中的存储模型如图13，每一个层节点数据都可以在数据描述元数据和属性描述元数据中找到。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种科学数据存储关联方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的一种科学数据存储关联方法，其特征在于：所述步骤1具体包含如下步骤：

步骤101、获取原始数据文件以及元数据文件；

3.根据权利要求1所述的一种科学数据存储关联方法，其特征在于：所述步骤2具体包含如下步骤：

步骤201、选取两个科学数据的数据描述元数据文件；

4.根据权利要求1所述的一种科学数据存储关联方法，其特征在于：所述步骤3具体包

含如下步骤：