CN114741393B - 一种材料基因工程数据转换及检索方法 - Google Patents

一种材料基因工程数据转换及检索方法 Download PDF

Info

Publication number
CN114741393B
CN114741393B CN202210413041.8A CN202210413041A CN114741393B CN 114741393 B CN114741393 B CN 114741393B CN 202210413041 A CN202210413041 A CN 202210413041A CN 114741393 B CN114741393 B CN 114741393B
Authority
CN
China
Prior art keywords
data
current
field
node
templet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210413041.8A
Other languages
English (en)
Other versions
CN114741393A (zh
Inventor
左劼
张骏杰
陈子豪
郭正山
张袁昊
黄梦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210413041.8A priority Critical patent/CN114741393B/zh
Publication of CN114741393A publication Critical patent/CN114741393A/zh
Application granted granted Critical
Publication of CN114741393B publication Critical patent/CN114741393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2445Data retrieval commands; View definitions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及材料基因工程数据存储领域,提供了一种材料基因工程数据转换及检索方法。本发明的目的在于解决现有材料基因工程数据库存在不能精确检索数据结果的技术问题。主要方案包括根据json文件新建一张主表,读取json文件的templete部分,并解析为一棵树得到templete树,将templete部分信息写入主表,遍历templete树的子节点,对数组型和表格型子节点新建子表,子表记录_pid_为父表的id,并将子节点信息写入子表;对ison数据中的data部分数据,依次处理每条记录数据,将记录数据中的每条数据写入主表和子表的对应的字段,给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_;使用SQL语言查询,通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联,实现跨模板的数据检索。

Description

一种材料基因工程数据转换及检索方法
技术领域
本发明涉及材料基因工程数据存储领域,提供了一种材料基因工程数据转换及检索方法。
背景技术
材料基因工程中的数据形式多样,包括文本、数值、日期、图片、文字、表格、序列等。而且这些数据之间关系很复杂,很难使用一组固定模式的的关系数据库进行存储。
在材料基因工程中,材料数据库建设者提出了一种用户自定义模板的“动态容器”存储方法。在该方法中,用户可以自己定义数据存储的“模板”,每个“模板”以树形的方式描述了一条数据需要满足的格式要求。在模板中可以包括以下类型:
*简单类型:包括文本、数值、日期、图片等不可再细分的类型)
*容器类型:其内部可以包含深层次的子数据的类型
*数组类型:相同类型的重复结构的数据
*表格类型:类似数组类型,但支持多列
用户存储的数据需要满足模板的约束要求,并以树形的形式以文档模式存储在MongoDB中。
如图1所示,展示了一个模板的结构。值得注意的是,在一条数据记录中,其中的数组类型或表格类型部分的字段,可能包含若干个重复结构。这导致这种结构的数据无法直接转换为常见的二维表结构。
材料基因工程数据的具体存储结构为:
*使用json格式存储
*一个json文件分为templete和data两个部分
*其中templete描述了数据的结构,即对图1所示结构的描述。
*data部分的数据包含若干条记录数据,描述了当前templete格式下的若干组实例
*每组实例分为两个部分:meta和content。
*meta用于描述当前实例的特征,例如来源,数据ID,关键词等信息,content使用templete规定的格式描述了meta所介绍的真实数据值。其结构如下所示:
Figure BDA0003603002940000011
Figure BDA0003603002940000021
这个存储方式基本解决了材料基因工程中的存储问题,通过定义若干个模板,实现了对任意结构的数据的存储。但这种存储方法存在几个缺陷:
1.数据检索非常不方便。数据存放在MongoDB中,可以利用MongoDB提供的检索技术对数据进行检索,包括全文检索,以及使用异常复杂的检索语言的精确检索。全文检索不能精确检索数据结果,基本不能满足科研活动的需求。精确检索的使用又过于复杂,材料领域的人员很难使用。
2.不能跨模板进行检索。受限于MongoDB,以及存储的方式,无法在技术上实现跨模板的连接检索。
3.检索结果很难使用。检索的结果是树形结构的文档模型,在一条数据中可能包含嵌套结构,也可能包含重复结构,很难在后续的各种分析软件中进一步使用这些检索结果。
发明内容
本发明的目的在于解决现有材料基因工程通过定义若干个模板,实现了对任意结构的数据的存储,但是存在不能精确检索数据结果的技术问题。
本发明为了实现上述目的采用以下技术方案:
一种材料基因工程数据转换及检索方法,材料基因工程数据的具体存储结构使用json格式文件存储,一个json文件内的内容包含templete和data两个部分,其中templete部分描述了数据的结构,data部分的数据包含若干条记录数据,描述了当前templete格式下的若干组实例,每组实例分为meta和content两个部分,meta用于描述当前实例的特征,content使用templete规定的格式描述了meta所介绍的真实数据值,还包括以下步骤:
步骤1:获取json文件,根据json文件新建一张主表,读取json文件的templete部分,并解析为一棵树得到templete树,将templete部分信息写入主表,完成主表字段的添加,遍历templete树的子节点,对数组型和表格型子节点新建子表,子表记录_pid_为父表的id,并将子节点信息写入子表,完成子表字段的添加;
步骤2:对json数据中的data部分数据,依次处理每条记录数据,将记录数据中的每条数据写入主表和子表的对应的字段,给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_;
步骤3、使用SQL语言查询,通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联,也可通过不同的表中字段的连接查询,实现跨模板的数据检索。
上述技术方案中,步骤1具体包括如下步骤:
输入为json文件的template部分,template部分解析为一棵树形结构,到templete树,处理从templete树的根节点开始,处理过程如下:
步骤1.1:对于当前json文件建立一张主表,并给予表唯一标识符,主表名为json文件名,设置主表为当前表,template树的根节点为当前节点;
步骤1.2:当前节点信息加入当前表,即根据节点信息向当前表添加字段;
步骤1.3:以遍历当前节点的子节点,如果子节点是数组型或表格型执行步骤1.4,否则执行步骤1.6;
步骤1.4:以当前表作为父表,新建立子表,给予子表唯一标识符,并记录_pid_为父表的id,并将当前节点信息加入新建的子表,即根据当前节点信息向字表添加子表字段;同时设置新建的子表为当前表;
步骤1.5:递归执行步骤1.3,直至当前节点为叶子节点;
步骤1.6:记录当前子节点信息,即根据当前子节点信息向当前表添加字段,然后递归执行步骤1.3,直到当前节点为叶节点。
上述技术方案中,步骤2具体包括如下步骤:
对json文件中的data部分,依次处理其中的每条数据,每条数据均为符合模板格式的树形文档,从文档树的根节点开始处理:
步骤2.1:给予数据唯一标识符,即给_id_设置值,每次处理一条data中的数据时,从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理,设定主表为当前表,数据根节点为当前节点;
步骤2.2:处理当前节点,若当前节点的字段信息在当前表中,按模板表的顺序按顺序存储并记录当前数据唯一标识符;
步骤2.3:若当前节点的字段信息不在当前表中,则当前字段为重复类型(数组型和表格型都是可以包含若干条重复数据,这两种类型节点为重复类型),设置字段信息所在的子表为当前表,如当前数据唯一标识符_id_为xxxx,则遍历当前节点下的每一条数据,将每一条数据添加到在当前表中,即给予其唯一标识符_id_为xxxx_yyyy,设置字段_pid_为xxxx,表示子表中数据和父表数据的关联,从data中的数据中复制字段的值到当前表对应的字段并存储;
步骤2.4:重复递归步骤2.2直至数据全部存储完成;
步骤2.5:处理完所有数据记录后,将每张表以parquet格式存储,以设定表的唯一标识符命名。
至此,一个模板的数据就转换为了若干张相关联的二维的数据表。
上述技术方案中,步骤3具体包括如下步骤:
使用SQL语言查询,查询处理步骤为:
步骤3.1:接收到SQL查询请求后,解析SQL语句,提取出对数据表的访问。
步骤3.2:通过数据表名,找到对应的parquet文件,并在SparkSQL中加载,生成相应的DataFrame。
步骤3.3:在SparkSQL中执行该查询,得到查询结果,以二维表的形式输出。
其中使用SQL语句时,可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联。也可以通过不同的表中字段的连接查询,实现跨模板的数据检索。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、将原材料基因工程数据库中的较难使用的数据格式自动转化为了方便使用的二维表的格式。
二、转化后的二维表,保留了数据中的重复结构,并通过父子表的方式实现关联。
三、模式处理和数据转换的方法高效灵活,在完全不丢失原有任何信息的前提下,实现了单遍扫描即完成转换的能力。
四、转换后的数据以parquet格式存储,并辅以相应的元数据管理,可以在SparkSQL大数据处理平台上高效实现查询功能。
附图说明
图1为一个json文件的一个模板的结构;
图2为转换后的数据结构,图中“无机材料”为主表名,与json文件名一致。
图3为一个json文件,其templete和data两个部分的截图;
图4为templete和data的子节点展开示意截图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
在本发明中,针对材料基因工程的存储数据,实施转换操作,将转换后的数据存储在以SparkSQL为基础的大数据存储与处理平台上,并提供了针对转换后的数据的查询方法,该接口采用更应用广泛的SQL语言为查询语言,查询检索的结果也是更加常见的二维表形式。
如图1的模板,经过转换将转换为如图3所示的4张关联的二维表,上级表和下级表中的数据记录通过添加的_id_以及_pid_进行关联。(pid即parent id)
整个处理过程主要分为3个步骤:模板处理,数据转换和查询检索。
1.模板处理
输入的json文件为数据模板结构,数据模板为一棵树形结构,该树形结构包括templete和data两个部分,即templete和data两个根节点。处理从templete根节点开始。处理过程如下:
步骤1.1:对于当前节点建立一张主表,并给予表唯一标识符,主表名为json文件名,如例1中文件名字为“无机材料”,因此新建主表名为“无机材料”,设置主表为当前表,template树的根节点为当前节点;
步骤1.2:读取文件中的templete部分,并将根节点类型不为数组和表格型的信息加入主表,即根据节点信息向当前表添加字段,如例1中所示包含了“id”、“名称”、“化学式”、“成分”、“加工工艺”、“物理性质”、“化学性质”几个根节点,其中,“成分”为表格型、“加工工艺”为数组型,因此将“id”、“名称”、“化学式”、“物理性质”、“化学性质”作为主表字段添加到主表;
步骤1.3:遍历当前节点的子节点,如果是数组型或者表格型执行步骤1.4,否则执行1.6;
步骤1.4:以当前表作为父表,建立新的子表,给予表唯一标识符,并记录_pid_为父表的id,并将当前节点作为根节点,并将当前节点信息加入新建的子表,即根据当前节点信息向字表添加子表字段;如例1中“成分”子节点为“表格型”,则以“成分”这个子节点新建“无机材料”表的子表“成分”,并将“元素”、“比例”字段添加到子表。“加工工艺”子节点为“数组型”,同理处理即可,可参照图2,为主表与子表的关系。
步骤1.5:递归执行步骤1.3,直至当前节点为模板的叶子节点;
步骤1.6:记录当前节点信息作为子节点,其信息放入当前表中,然后递归执行步骤1.3,直到当前节点为叶节点。
至此完成了模板处理,从树形的模板构造出了对应的一组关联的二维模板表结构。每个模板表中记录了本表中应存储的字段、数据类型。并且这些表通过_id_和_pid_字段相关联。
2.数据转换
对json文件中的data部分,依次处理每条数据,每条数据均为符合模板格式的树形文档。从文档树的根节点开始处理。
步骤2.1:给予数据唯一表示符,即给_id_设置值,每次处理一条data中的数据时,从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理,设定主表为当前表,数据根节点为当前节点,如例子1中:
Figure BDA0003603002940000061
向主表“名称”字段插入值“碳化硅”,“化学式”字段插入″SiC″,对于子表“成分”的字段“元素”插入“C”、“Si”和“比例”字段插入“0.5”、“0.5”。
步骤2.2:处理当前节点,若当前节点的字段信息在当前表中,按模板表的顺序按顺序存储并记录当前数据唯一标识符。
步骤2_3:若当前字段不在当前表中,则当前字段为重复类型(数组型和表格型都是可以包含若干条重复数据,这两种类型节点为重复类型),如例1中的“成分”字段不在当前表中,设定当前表为字段所在的子表,即设置子表“成分”为当前表,假设当前数据唯一标识符_id_为xxxx。则遍历当前节点下的每一条数据,在子表中添加一条记录,并给予其唯一标识符_id_为xxxx_yyyy,设置字段_pid_为xxxx,表示子表中数据和父表数据的关联。其他字段的值,复制到数据记录中,并存储。
步骤2.4:重复递归步骤2.2直至数据全部存储完成
步骤2.5:处理完所有数据记录后,将每张表以parquet格式存储,以设定表的唯一标识符命名。
至此,一个模板的数据就转换为了若干张相关联的二维的数据表。
3.查询检索
直接使用SQL语言查询,查询处理步骤为:
步骤3.1:接收到SQL查询请求后,解析SQL语句,提取出对数据表的访问。
步骤3.2:通过数据表名,找到对应的parquet文件,并在SparkSQL中加载,生成相应的DataFrame。
步骤3.3:在SparkSQL中执行该查询,得到查询结果,以二维表的形式输出。
其中使用SQL语句时,可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联。也可以通过不同的表中字段的连接查询,实现跨模板的数据检索。
如一个文件名为“无机材料”的json文件的例子,简称例1:
Figure BDA0003603002940000071
Figure BDA0003603002940000081
Figure BDA0003603002940000091
Figure BDA0003603002940000101
Figure BDA0003603002940000111

Claims (4)

1.一种材料基因工程数据转换及检索方法,材料基因工程数据的具体存储结构使用json格式文件存储,一个json文件内的内容包含templete和data两个部分,其中templete部分描述了数据的结构,data部分的数据包含若干条记录数据,描述了当前templete格式下的若干组实例,每组实例分为meta和content两个部分, meta用于描述当前实例的特征,content使用templete规定的格式描述了meta所描述的真实数据值,其特征在于,包括以下步骤:
步骤1:获取json文件,根据json文件新建一张主表,读取json文件的templete部分,并解析为一棵树得到templete树,将templete部分信息写入主表,完成主表字段的添加,遍历templete树的子节点,对数组型和表格型子节点新建子表,子表记录_pid_为父表的id,并将子节点信息写入子表,完成子表字段的添加;
步骤2:对json数据中的data部分数据,依次处理每条记录数据,将记录数据中的每条数据写入主表和子表的对应的字段,给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_;
步骤3、使用SQL语言查询,通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联,或通过不同的表中字段的连接查询,实现跨模板的数据检索。
2.根据权利要求1所述的一种材料基因工程数据转换及检索方法,其特征在于,步骤1具体包括如下步骤:
输入为json文件的template部分,template部分解析为一棵树形结构,到templete树,处理从templete树的根节点开始,处理过程如下:
步骤1.1:对于当前json文件建立一张主表,并给予表唯一标识符,主表名为json文件名,设置主表为当前表,template树的根节点为当前节点;
步骤1.2:当前节点信息加入当前表,即根据节点信息向当前表添加字段;
步骤1.3:以遍历当前节点的子节点,如果子节点是数组型或表格型执行步骤1.4,否则执行步骤1.6;
步骤1.4:以当前表作为父表,新建立子表,给予子表唯一标识符,并记录_pid_为父表的id,并将当前节点信息加入新建的子表,即根据当前节点信息向字表添加子表字段,同时设置新建的子表为当前表;
步骤1.5:递归执行步骤1.3,直至当前节点为叶子节点;
步骤1.6:记录当前子节点信息,即根据当前子节点信息向当前表添加字段,然后递归执行步骤1.3,直到当前节点为叶节点。
3.根据权利要求1所述的一种材料基因工程数据转换及检索方法,其特征在于,步骤2具体包括如下步骤:
对json文件中的data部分,依次处理其中的每条数据,每条数据均为符合模板格式的树形文档,从文档树的根节点开始处理:
步骤2.1:给予数据唯一标识符,即给_id_设置值,每次处理一条data中的数据时,从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理,设定主表为当前表,数据根节点为当前节点;
步骤2.2:处理当前节点,若当前节点的字段信息在当前表中,按模板表的顺序按顺序存储并记录当前数据唯一标识符;
步骤2.3:若当前节点的字段信息不在当前表中,则当前字段为重复类型,设置字段信息所在的子表为当前表,如当前数据唯一标识符_id_为xxxx,则遍历当前节点下的每一条数据,将每一条数据添加到在当前表中,即给予其唯一标识符_id_为xxxx_yyyy,设置字段_pid_为xxxx,表示子表中数据和父表数据的关联,从data中的数据中复制字段的值到当前表对应的字段并存储,数组型和表格型都是包含若干条重复数据,这两种类型节点为重复类型;
步骤2.4:重复递归步骤2.2直至数据全部存储完成;
步骤2.5:处理完所有数据记录后,将每张表以parquet格式存储,以设定表的唯一标识符命名,至此,一个json文件的数据就转换为了若干张相关联的二维的数据表。
4.根据权利要求1所述的一种材料基因工程数据转换及检索方法,其特征在于,步骤3具体包括如下步骤:
使用SQL语言查询,查询处理步骤为:
步骤3.1:接收到SQL查询请求后,解析SQL语句,提取出对数据表的访问;
步骤3.2:通过数据表名,找到对应的parquet文件,并在SparkSQL中加载,生成相应的DataFrame;
步骤3.3:在SparkSQL中执行该查询,得到查询结果,以二维表的形式输出;
其中使用SQL语句时,可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联,也可以通过不同的表中字段的连接查询,实现跨模板的数据检索。
CN202210413041.8A 2022-04-19 2022-04-19 一种材料基因工程数据转换及检索方法 Active CN114741393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210413041.8A CN114741393B (zh) 2022-04-19 2022-04-19 一种材料基因工程数据转换及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210413041.8A CN114741393B (zh) 2022-04-19 2022-04-19 一种材料基因工程数据转换及检索方法

Publications (2)

Publication Number Publication Date
CN114741393A CN114741393A (zh) 2022-07-12
CN114741393B true CN114741393B (zh) 2023-04-28

Family

ID=82283745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210413041.8A Active CN114741393B (zh) 2022-04-19 2022-04-19 一种材料基因工程数据转换及检索方法

Country Status (1)

Country Link
CN (1) CN114741393B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646111A (zh) * 2012-02-16 2012-08-22 中国测绘科学研究院 一种基于知识库的通用关联信息查询树的快速构建方法
CN105122243A (zh) * 2013-03-15 2015-12-02 亚马逊科技公司 用于半结构化数据的可扩展分析平台
CN106202438A (zh) * 2016-07-13 2016-12-07 乐视控股(北京)有限公司 存储关联数据的方法和系统
CN110795418A (zh) * 2019-09-23 2020-02-14 紫光云(南京)数字技术有限公司 一种基于json的mongoDB到mysql的数据抽取方法
CN111259046A (zh) * 2020-01-17 2020-06-09 深圳市魔数智擎人工智能有限公司 一种并行化sql自动生成方法
CN112052242A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 数据查询方法、装置、电子设备及存储介质
CN112527818A (zh) * 2020-12-23 2021-03-19 平安普惠企业管理有限公司 报表生成方法、装置、设备及存储介质
CN112559606A (zh) * 2019-09-26 2021-03-26 北京国双科技有限公司 用于json格式数据的转换方法及转换装置
CN112784535A (zh) * 2021-01-25 2021-05-11 南京思迈恩传媒科技有限公司 一种json、xml格式数据智能转换为传统数据表格式的算法
CN113918605A (zh) * 2021-10-13 2022-01-11 咪咕文化科技有限公司 数据查询方法、装置、设备以及计算机存储介质
CN114153852A (zh) * 2021-12-07 2022-03-08 北京奇艺世纪科技有限公司 数据查询方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11068496B2 (en) * 2017-10-20 2021-07-20 Jpmorgan Chase Bank, N.A. System and method for data management

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646111A (zh) * 2012-02-16 2012-08-22 中国测绘科学研究院 一种基于知识库的通用关联信息查询树的快速构建方法
CN105122243A (zh) * 2013-03-15 2015-12-02 亚马逊科技公司 用于半结构化数据的可扩展分析平台
CN106202438A (zh) * 2016-07-13 2016-12-07 乐视控股(北京)有限公司 存储关联数据的方法和系统
CN110795418A (zh) * 2019-09-23 2020-02-14 紫光云(南京)数字技术有限公司 一种基于json的mongoDB到mysql的数据抽取方法
CN112559606A (zh) * 2019-09-26 2021-03-26 北京国双科技有限公司 用于json格式数据的转换方法及转换装置
CN111259046A (zh) * 2020-01-17 2020-06-09 深圳市魔数智擎人工智能有限公司 一种并行化sql自动生成方法
CN112052242A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 数据查询方法、装置、电子设备及存储介质
CN112527818A (zh) * 2020-12-23 2021-03-19 平安普惠企业管理有限公司 报表生成方法、装置、设备及存储介质
CN112784535A (zh) * 2021-01-25 2021-05-11 南京思迈恩传媒科技有限公司 一种json、xml格式数据智能转换为传统数据表格式的算法
CN113918605A (zh) * 2021-10-13 2022-01-11 咪咕文化科技有限公司 数据查询方法、装置、设备以及计算机存储介质
CN114153852A (zh) * 2021-12-07 2022-03-08 北京奇艺世纪科技有限公司 数据查询方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A.O. Erkimbaev等.Standardization of Storage and Retrieval of Semi-structured Thermophysical Data in JSON-documents Associated with the Ontology.《Proceedings of the XIX International Conference "Data Analytics and Management in Data Intensive Domains" (DAMDID/RCDL’2017)》.2017,219-224. *
Kerry Shih-Ping Chang等.Using and exploring hierarchical data in spreadsheets.《CHI '16: Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems》.2016,2497-2507. *
周莉 ; .基于BSON文档树的NoSQL数据库与关系数据库双向映射算法研究.江西师范大学学报(自然科学版).2016,(第05期),41-45. *
曾海峰 ; 王淑营 ; 董钦钰 ; .传统RDBMS向非关系型MongoDB数据模型转换与数据迁移方法研究.计算机应用研究.2017,(第11期),144-149. *

Also Published As

Publication number Publication date
CN114741393A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
US5548770A (en) Method and apparatus for improving retrieval of data from a database
US9009099B1 (en) Method and system for reconstruction of object model data in a relational database
JP3914662B2 (ja) データベース処理方法及び実施装置並びにその処理プログラムを記憶した媒体
CN111382226A (zh) 一种数据库查询检索方法、装置和电子设备
CN109815232A (zh) 一种利用二叉查找树的数据排名的检索、数据处理的方法和系统
Mpinda et al. Evaluation of graph databases performance through indexing techniques
Zhou et al. Top-down XML keyword query processing
JPH04124774A (ja) 関係データベースにおける階層構造のデータ蓄積方法
CN113704575B (zh) 解析XML与Java文件的SQL方法、装置、设备及存储介质
Gong et al. Efficient management of uncertainty in XML schema matching
CN113704248B (zh) 一种基于外置索引的区块链查询优化方法
CN114741393B (zh) 一种材料基因工程数据转换及检索方法
CN115840751B (zh) 一种新型树状数据的编码方法
US20050060307A1 (en) System, method, and service for datatype caching, resolving, and escalating an SQL template with references
CN112835920B (zh) 基于混合存储模式的分布式sparql查询优化方法
CN108241624A (zh) 一种查询脚本的生成方法及装置
US8745035B1 (en) Multistage pipeline for feeding joined tables to a search system
JP2010267081A (ja) 情報検索方法及び装置及びプログラム
US7873659B2 (en) Database management system, database management method and database management program
CN113672639B (zh) 多类型数据库表结构对比方法、系统、设备及存储介质
CN105740250A (zh) 一种创建 xml 节点的属性索引的方法及装置
Hartzman et al. A relational approach to querying data streams
CN116010668B (zh) 一种应用于数据库的快速检索方法及系统
CN113779955B (zh) 一种差异脚本的生成方法、装置和存储介质
JP2001067369A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant