CN114741393B

CN114741393B - 一种材料基因工程数据转换及检索方法

Info

Publication number: CN114741393B
Application number: CN202210413041.8A
Authority: CN
Inventors: 左劼; 张骏杰; 陈子豪; 郭正山; 张袁昊; 黄梦林
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-04-28
Anticipated expiration: 2042-04-19
Also published as: CN114741393A

Abstract

本发明涉及材料基因工程数据存储领域，提供了一种材料基因工程数据转换及检索方法。本发明的目的在于解决现有材料基因工程数据库存在不能精确检索数据结果的技术问题。主要方案包括根据json文件新建一张主表，读取json文件的templete部分，并解析为一棵树得到templete树，将templete部分信息写入主表，遍历templete树的子节点，对数组型和表格型子节点新建子表，子表记录_pid_为父表的id，并将子节点信息写入子表；对ison数据中的data部分数据，依次处理每条记录数据，将记录数据中的每条数据写入主表和子表的对应的字段，给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_；使用SQL语言查询，通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，实现跨模板的数据检索。

Description

一种材料基因工程数据转换及检索方法

技术领域

本发明涉及材料基因工程数据存储领域，提供了一种材料基因工程数据转换及检索方法。

背景技术

材料基因工程中的数据形式多样，包括文本、数值、日期、图片、文字、表格、序列等。而且这些数据之间关系很复杂，很难使用一组固定模式的的关系数据库进行存储。

在材料基因工程中，材料数据库建设者提出了一种用户自定义模板的“动态容器”存储方法。在该方法中，用户可以自己定义数据存储的“模板”，每个“模板”以树形的方式描述了一条数据需要满足的格式要求。在模板中可以包括以下类型：

*简单类型：包括文本、数值、日期、图片等不可再细分的类型)

*容器类型：其内部可以包含深层次的子数据的类型

*数组类型：相同类型的重复结构的数据

*表格类型：类似数组类型，但支持多列

用户存储的数据需要满足模板的约束要求，并以树形的形式以文档模式存储在MongoDB中。

如图1所示，展示了一个模板的结构。值得注意的是，在一条数据记录中，其中的数组类型或表格类型部分的字段，可能包含若干个重复结构。这导致这种结构的数据无法直接转换为常见的二维表结构。

材料基因工程数据的具体存储结构为：

*使用json格式存储

*一个json文件分为templete和data两个部分

*其中templete描述了数据的结构，即对图1所示结构的描述。

*data部分的数据包含若干条记录数据，描述了当前templete格式下的若干组实例

*每组实例分为两个部分：meta和content。

*meta用于描述当前实例的特征，例如来源，数据ID，关键词等信息，content使用templete规定的格式描述了meta所介绍的真实数据值。其结构如下所示：

这个存储方式基本解决了材料基因工程中的存储问题，通过定义若干个模板，实现了对任意结构的数据的存储。但这种存储方法存在几个缺陷：

1.数据检索非常不方便。数据存放在MongoDB中，可以利用MongoDB提供的检索技术对数据进行检索，包括全文检索，以及使用异常复杂的检索语言的精确检索。全文检索不能精确检索数据结果，基本不能满足科研活动的需求。精确检索的使用又过于复杂，材料领域的人员很难使用。

2.不能跨模板进行检索。受限于MongoDB，以及存储的方式，无法在技术上实现跨模板的连接检索。

3.检索结果很难使用。检索的结果是树形结构的文档模型，在一条数据中可能包含嵌套结构，也可能包含重复结构，很难在后续的各种分析软件中进一步使用这些检索结果。

发明内容

本发明的目的在于解决现有材料基因工程通过定义若干个模板，实现了对任意结构的数据的存储，但是存在不能精确检索数据结果的技术问题。

本发明为了实现上述目的采用以下技术方案：

一种材料基因工程数据转换及检索方法，材料基因工程数据的具体存储结构使用json格式文件存储，一个json文件内的内容包含templete和data两个部分，其中templete部分描述了数据的结构，data部分的数据包含若干条记录数据，描述了当前templete格式下的若干组实例，每组实例分为meta和content两个部分，meta用于描述当前实例的特征，content使用templete规定的格式描述了meta所介绍的真实数据值，还包括以下步骤：

步骤1：获取json文件，根据json文件新建一张主表，读取json文件的templete部分，并解析为一棵树得到templete树，将templete部分信息写入主表，完成主表字段的添加，遍历templete树的子节点，对数组型和表格型子节点新建子表，子表记录_pid_为父表的id，并将子节点信息写入子表，完成子表字段的添加；

步骤2：对json数据中的data部分数据，依次处理每条记录数据，将记录数据中的每条数据写入主表和子表的对应的字段，给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_；

步骤3、使用SQL语言查询，通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，也可通过不同的表中字段的连接查询，实现跨模板的数据检索。

上述技术方案中，步骤1具体包括如下步骤：

输入为json文件的template部分，template部分解析为一棵树形结构，到templete树，处理从templete树的根节点开始，处理过程如下：

步骤1.1：对于当前json文件建立一张主表，并给予表唯一标识符，主表名为json文件名，设置主表为当前表，template树的根节点为当前节点；

步骤1.2：当前节点信息加入当前表，即根据节点信息向当前表添加字段；

步骤1.3：以遍历当前节点的子节点，如果子节点是数组型或表格型执行步骤1.4，否则执行步骤1.6；

步骤1.4：以当前表作为父表，新建立子表，给予子表唯一标识符，并记录_pid_为父表的id，并将当前节点信息加入新建的子表，即根据当前节点信息向字表添加子表字段；同时设置新建的子表为当前表；

步骤1.5：递归执行步骤1.3，直至当前节点为叶子节点；

步骤1.6：记录当前子节点信息，即根据当前子节点信息向当前表添加字段，然后递归执行步骤1.3，直到当前节点为叶节点。

上述技术方案中，步骤2具体包括如下步骤：

对json文件中的data部分，依次处理其中的每条数据，每条数据均为符合模板格式的树形文档，从文档树的根节点开始处理：

步骤2.1：给予数据唯一标识符，即给_id_设置值，每次处理一条data中的数据时，从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理，设定主表为当前表，数据根节点为当前节点；

步骤2.2：处理当前节点，若当前节点的字段信息在当前表中，按模板表的顺序按顺序存储并记录当前数据唯一标识符；

步骤2.3：若当前节点的字段信息不在当前表中，则当前字段为重复类型(数组型和表格型都是可以包含若干条重复数据，这两种类型节点为重复类型)，设置字段信息所在的子表为当前表，如当前数据唯一标识符_id_为xxxx，则遍历当前节点下的每一条数据，将每一条数据添加到在当前表中，即给予其唯一标识符_id_为xxxx_yyyy，设置字段_pid_为xxxx，表示子表中数据和父表数据的关联，从data中的数据中复制字段的值到当前表对应的字段并存储；

步骤2.4：重复递归步骤2.2直至数据全部存储完成；

步骤2.5：处理完所有数据记录后，将每张表以parquet格式存储，以设定表的唯一标识符命名。

至此，一个模板的数据就转换为了若干张相关联的二维的数据表。

上述技术方案中，步骤3具体包括如下步骤：

使用SQL语言查询，查询处理步骤为：

步骤3.1：接收到SQL查询请求后，解析SQL语句，提取出对数据表的访问。

步骤3.2：通过数据表名，找到对应的parquet文件，并在SparkSQL中加载，生成相应的DataFrame。

步骤3.3：在SparkSQL中执行该查询，得到查询结果，以二维表的形式输出。

其中使用SQL语句时，可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联。也可以通过不同的表中字段的连接查询，实现跨模板的数据检索。

因为本发明采用上述技术方案，因此具备以下有益效果：

一、将原材料基因工程数据库中的较难使用的数据格式自动转化为了方便使用的二维表的格式。

二、转化后的二维表，保留了数据中的重复结构，并通过父子表的方式实现关联。

三、模式处理和数据转换的方法高效灵活，在完全不丢失原有任何信息的前提下，实现了单遍扫描即完成转换的能力。

四、转换后的数据以parquet格式存储，并辅以相应的元数据管理，可以在SparkSQL大数据处理平台上高效实现查询功能。

附图说明

图1为一个json文件的一个模板的结构；

图2为转换后的数据结构，图中“无机材料”为主表名，与json文件名一致。

图3为一个json文件，其templete和data两个部分的截图；

图4为templete和data的子节点展开示意截图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

在本发明中，针对材料基因工程的存储数据，实施转换操作，将转换后的数据存储在以SparkSQL为基础的大数据存储与处理平台上，并提供了针对转换后的数据的查询方法，该接口采用更应用广泛的SQL语言为查询语言，查询检索的结果也是更加常见的二维表形式。

如图1的模板，经过转换将转换为如图3所示的4张关联的二维表，上级表和下级表中的数据记录通过添加的_id_以及_pid_进行关联。(pid即parent id)

整个处理过程主要分为3个步骤：模板处理，数据转换和查询检索。

1.模板处理

输入的json文件为数据模板结构，数据模板为一棵树形结构，该树形结构包括templete和data两个部分，即templete和data两个根节点。处理从templete根节点开始。处理过程如下：

步骤1.1：对于当前节点建立一张主表，并给予表唯一标识符，主表名为json文件名，如例1中文件名字为“无机材料”，因此新建主表名为“无机材料”，设置主表为当前表，template树的根节点为当前节点；

步骤1.2：读取文件中的templete部分，并将根节点类型不为数组和表格型的信息加入主表，即根据节点信息向当前表添加字段，如例1中所示包含了“id”、“名称”、“化学式”、“成分”、“加工工艺”、“物理性质”、“化学性质”几个根节点，其中，“成分”为表格型、“加工工艺”为数组型，因此将“id”、“名称”、“化学式”、“物理性质”、“化学性质”作为主表字段添加到主表；

步骤1.3：遍历当前节点的子节点，如果是数组型或者表格型执行步骤1.4，否则执行1.6；

步骤1.4：以当前表作为父表，建立新的子表，给予表唯一标识符，并记录_pid_为父表的id，并将当前节点作为根节点，并将当前节点信息加入新建的子表，即根据当前节点信息向字表添加子表字段；如例1中“成分”子节点为“表格型”，则以“成分”这个子节点新建“无机材料”表的子表“成分”，并将“元素”、“比例”字段添加到子表。“加工工艺”子节点为“数组型”，同理处理即可，可参照图2，为主表与子表的关系。

步骤1.5：递归执行步骤1.3，直至当前节点为模板的叶子节点；

步骤1.6：记录当前节点信息作为子节点，其信息放入当前表中，然后递归执行步骤1.3，直到当前节点为叶节点。

至此完成了模板处理，从树形的模板构造出了对应的一组关联的二维模板表结构。每个模板表中记录了本表中应存储的字段、数据类型。并且这些表通过_id_和_pid_字段相关联。

2.数据转换

对json文件中的data部分，依次处理每条数据，每条数据均为符合模板格式的树形文档。从文档树的根节点开始处理。

步骤2.1：给予数据唯一表示符，即给_id_设置值，每次处理一条data中的数据时，从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理，设定主表为当前表，数据根节点为当前节点，如例子1中：

向主表“名称”字段插入值“碳化硅”，“化学式”字段插入″SiC″，对于子表“成分”的字段“元素”插入“C”、“Si”和“比例”字段插入“0.5”、“0.5”。

步骤2.2：处理当前节点，若当前节点的字段信息在当前表中，按模板表的顺序按顺序存储并记录当前数据唯一标识符。

步骤2_3：若当前字段不在当前表中，则当前字段为重复类型(数组型和表格型都是可以包含若干条重复数据，这两种类型节点为重复类型)，如例1中的“成分”字段不在当前表中，设定当前表为字段所在的子表，即设置子表“成分”为当前表，假设当前数据唯一标识符_id_为xxxx。则遍历当前节点下的每一条数据，在子表中添加一条记录，并给予其唯一标识符_id_为xxxx_yyyy，设置字段_pid_为xxxx，表示子表中数据和父表数据的关联。其他字段的值，复制到数据记录中，并存储。

步骤2.4：重复递归步骤2.2直至数据全部存储完成

3.查询检索

直接使用SQL语言查询，查询处理步骤为：

如一个文件名为“无机材料”的json文件的例子，简称例1：

Claims

1.一种材料基因工程数据转换及检索方法，材料基因工程数据的具体存储结构使用json格式文件存储，一个json文件内的内容包含templete和data两个部分，其中templete部分描述了数据的结构，data部分的数据包含若干条记录数据，描述了当前templete格式下的若干组实例，每组实例分为meta和content两个部分， meta用于描述当前实例的特征，content使用templete规定的格式描述了meta所描述的真实数据值，其特征在于，包括以下步骤：

步骤3、使用SQL语言查询，通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，或通过不同的表中字段的连接查询，实现跨模板的数据检索。

2.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤1具体包括如下步骤：

步骤1.4：以当前表作为父表，新建立子表，给予子表唯一标识符，并记录_pid_为父表的id，并将当前节点信息加入新建的子表，即根据当前节点信息向字表添加子表字段，同时设置新建的子表为当前表；

步骤1.5：递归执行步骤1.3，直至当前节点为叶子节点；

3.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤2具体包括如下步骤：

步骤2.3：若当前节点的字段信息不在当前表中，则当前字段为重复类型，设置字段信息所在的子表为当前表，如当前数据唯一标识符_id_为xxxx，则遍历当前节点下的每一条数据，将每一条数据添加到在当前表中，即给予其唯一标识符_id_为xxxx_yyyy，设置字段_pid_为xxxx，表示子表中数据和父表数据的关联，从data中的数据中复制字段的值到当前表对应的字段并存储，数组型和表格型都是包含若干条重复数据，这两种类型节点为重复类型；

步骤2.4：重复递归步骤2.2直至数据全部存储完成；

步骤2.5：处理完所有数据记录后，将每张表以parquet格式存储，以设定表的唯一标识符命名，至此，一个json文件的数据就转换为了若干张相关联的二维的数据表。

4.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤3具体包括如下步骤：

使用SQL语言查询，查询处理步骤为：

步骤3.1：接收到SQL查询请求后，解析SQL语句，提取出对数据表的访问；

步骤3.2：通过数据表名，找到对应的parquet文件，并在SparkSQL中加载，生成相应的DataFrame；

步骤3.3：在SparkSQL中执行该查询，得到查询结果，以二维表的形式输出；

其中使用SQL语句时，可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，也可以通过不同的表中字段的连接查询，实现跨模板的数据检索。