CN114281922A - 基于Key-Value表的非结构化数据存储方法、装置及电子设备 - Google Patents

基于Key-Value表的非结构化数据存储方法、装置及电子设备 Download PDF

Info

Publication number
CN114281922A
CN114281922A CN202111586927.4A CN202111586927A CN114281922A CN 114281922 A CN114281922 A CN 114281922A CN 202111586927 A CN202111586927 A CN 202111586927A CN 114281922 A CN114281922 A CN 114281922A
Authority
CN
China
Prior art keywords
node
data
file
unstructured
unstructured file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111586927.4A
Other languages
English (en)
Inventor
秦晓宏
黄主斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Clinbrain Information Technology Co Ltd
Original Assignee
Shanghai Clinbrain Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Clinbrain Information Technology Co Ltd filed Critical Shanghai Clinbrain Information Technology Co Ltd
Priority to CN202111586927.4A priority Critical patent/CN114281922A/zh
Publication of CN114281922A publication Critical patent/CN114281922A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于Key‑Value表的非结构化数据存储方法、装置及电子设备。该方法包括:获取至少一个非结构化文件;解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。本发明实施例的技术方案,解决了现有的非结构化文件存储方法中存在数据存储成本较高以及数据存储复杂度较高的技术问题。

Description

基于Key-Value表的非结构化数据存储方法、装置及电子设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于Key-Value表的非结构化数据存储方法、装置及电子设备。
背景技术
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何存储,尤其是非结构化数据的快速增长,如,电子病历文件,对其数据的存储,使得如今的关系型数据库存储面临着巨大的挑战。
现有的非结构化文件存储方法中,通常将一个非结构化文件中的所有节点标识对应的节点数据存储至数据表的一行数据中。如果非结构化文件中新增加节点后,数据表中该节点的节点标识和节点数据无法正确存储至数据表中,需要技术人员手动修改数据表的表结构。因此,现有的非结构化文件存储方法中存在数据存储成本较高以及数据存储复杂度较高的技术问题。
发明内容
针对现有技术存在的技术问题,本发明实施例提供了基于Key-Value表的非结构化数据存储方法、装置及电子设备,以实现降低了非结构化数据存储的复杂度和存储成本。
第一方面,本发明实施例提供了一种基于Key-Value表的非结构化数据存储方法,该方法包括:
获取至少一个非结构化文件;
解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
第二方面,本发明实施例还提供了一种基于Key-Value表的非结构化数据存储装置,该装置包括:
文件获取模块,用于获取至少一个非结构化文件;
文件解析模块,用于解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
键值对组合模块,用于基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
键值对存储模块,用于基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述程序被所述处理器执行,使得所述处理器实现如本发明任意实施例所提供的基于Key-Value表的非结构化数据存储方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的基于Key-Value表的非结构化数据存储方法。
本发明实施例的技术方案,通过获取至少一个非结构化文件。进而解析非结构化文件,从而可以获取非结构化文件中的节点标识和节点数据。在获取到非结构化文件的节点标识和节点数据后,可以基于非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。基于非结构化文件及非结构化文件对应的键值对,将键值对中的节点标识和节点数据存储至第一数据表中,解决了现有的非结构化文件存储方法中存在数据存储成本较高以及数据存储复杂度较高的技术问题,实现了降低非结构化数据存储的复杂度和存储成本。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本发明实施例一提供的一种基于Key-Value表的非结构化数据存储方法流程示意图;
图2是本发明实施例一提供的一种基于Key-Value表的非结构化数据存储方法存储的非结构化文件的示例图;
图3是本发明实施例二提供的一种基于Key-Value表的非结构化数据存储方法流程示意图;
图4是本发明实施例三提供的一种基于Key-Value表的非结构化数据存储方法流程示意图;
图5是本发明实施例四提供的一种数据存储装置的结构示意图;
图6是本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在介绍本发明实施例之前,先介绍一下应用场景。本发明实施例的基于Key-Value表的非结构化数据存储方法可适用于对非结构化数据进行存储的场景,尤其适用于对电子病例文件中所包含的数据进行存储的场景。为了便于理解,本发明实施例中以对电子病例文件中所包含的数据进行存储的场景为例进行介绍。
实施例一
图1是本发明实施例一提供的一种基于Key-Value表的非结构化数据存储方法流程示意图,本实施例可适用于对数据进行存储,尤其是对非结构化数据进行存储的情况,该方法可以由数据存储装置来执行,数据存储装置可通过软件和/或硬件方式实现,可集成于诸如计算机或者服务器等的电子设备中。
如图1所示,本实施例的方法包括:
S110、获取至少一个非结构化文件。
其中,非结构化文件的文件格式有多种,具体文件格式在此不做具体限定,例如,非结构化文件的格式可以是可扩展标记语言(Extensible Markup Language,XML)文件格式,或者,也可以是JavaScript对象简谱(JavaScript Object Notation,JSON)文件格式。可选的,非结构化文件可以是电子病例文件。
具体的,从用于存储非结构化文件的系统中获取一个或多个非结构化文件。其中,用于存储非结构化文件的系统可以是用于存储非结构化文件的数据库,或者,还可以是用于存储非结构化文件的应用平台。
S120、解析非结构化文件,获取非结构化文件中的节点标识和节点数据。
其中,节点标识可以是对非结构化文件进行解析后所得到的节点的标识。节点数据可以是对非结构化文件进行解析后所得到节点的数据。节点标识和节点数据之间的对应关系可以是一一对应的关系。
具体的,在获取到非结构化文件后,可以对获取到的非结构化文件进行解析,进而可以确定非结构化文件中所包含的节点标识和节点数据。从而可以获取非结构化文件中的节点标识和节点数据。
示例性的,非结构化文件(参见图2)中,其中,该文件中的节点标识包括:V001、V002以及V003,节点数据包括:某某某医疗机构、男以及张三。
S130、基于非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。
其中,键值对可以是将存在对应关系的节点标识和节点数据进行组合后得到的数据。
具体的,在对非结构化文件解析后,可以确定非结构化文件中节点标识和节点数据间的对应关系,进而可以在获取到非结构化文件后,将存在对应关系的节点标识和节点数据组合成键值对。
沿用上例,节点标识为V001和节点数据为某某某医疗机构存在一一对应的关系,那么将V001和某某某医疗机构组合成键值对。同理,节点标识为V002和节点数据为男存在一一对应的关系,那么可以将V002和男组合成键值对;节点标识为V003和节点数据为张三存在一一对应的关系那么,可以将V003和张三组合成键值对。
需要说明的是,键值对的格式可以有多种,具体格式在此不做具体限定,沿用上例,V002和男组合成的键值对可以是V002-男,或者,也可以是{V002,男}。
S140、基于非结构化文件及非结构化文件对应的键值对,将键值对中的节点标识和节点数据存储至第一数据表中。
其中,第一数据表可以是预先创建的数据表,可以用于存储键值对中包含的数据。可选的,第一数据表可以是纵向结构的数据表。可选的,第一数据表中还包括文件标识。其中,文件标识可以与非结构化文件相对应,并与节点标识和节点数据对应存储。
具体的,预先创建第一数据表。在将节点标识和节点数据组合成键值对后,可以确定非结构化文件所对应的键值对。进而可以将键值对中所包含的节点标识和节点数据存储至第一数据表中。
在一个实施例中,如果非结构化文件的文件数量为一个,则可以确定该非结构化文件对应的键值对。进而可以将键值对中存储的节点标识和节点数据存储至第一数据表中(参见表1)。
表1
Figure BDA0003428206680000061
Figure BDA0003428206680000071
其中,RowID可以表征文件标识,Code可以表征节点标识,Value可以表征节点数据。
在另一实施例中,如果非结构化文件的文件数量为多个,则可以针对每个非结构化文件,可以确定当前非结构化文件对应的键值对。进而可以将当前非结构化文件对应的键值对中包含的节点标识和节点数据存储至第一数据表中(参见表2)。其中,当前非结构化文件可以理解为当前需要处理的非结构化文件。
表2
RowID Code Value
R001 V001 某某某医疗机构
ROO1 V002
R001 V003 张三
R002 V001 某某某医疗机构-1
R002 V002
R002 V003 李四
其中,非结构化文件的文件标识分别为R001和R002,其中,文件标识为R001的非结构化文件对应的键值对包括:V001-某某某医疗机构、V002-男和V003-张三。文件标识为R002的非结构化文件对应的键值对包括:V001-某某某医疗机构-1、V002-女和V003-李四。
需要说明的是,第一数据表中包括文件标识。其中,文件标识可以与非结构化文件相对应,并与节点标识和节点数据对应存储。这样设置的好处在于便于后续更加快速的对非结构化文件中的数据进行数据检索。
还需要说明的是,文件标识与非结构化文件的对应关系可以是一对一。文件标识和节点标识的对应关系可以是一对一或一对多。
为了提高数据的质量以及便于后期对数据的检索、分析以及使用,可以对非结构化文件中所包含的节点数据进行标准化处理,因此,本发明实施例的技术方案还可以包括标准化数据映射表。那么,在解析非结构化文件获取非结构化文件中的节点标识和节点数据后,还可以将节点数据通过标准化数据映射表的映射成为标准节点数据,存储在第一数据表中,替换相应的节点数据。
其中,标准化数据映射表可以是基于存在映射关系的非标准节点数据与标准节点数据预先构建的数据表。其中,非标准节点数据可以是根据用户实际需求设定的节点数据。标准化数据映射表可以用于确定非结构化文件中非标准节点数据所对应的标准节点数据。
具体的,预先构建标准化数据映射表。在解析非结构化文件进而获取非结构化文件中的节点标识和节点数据后,可以基于标准化数据映射表确定非结构化文件中的节点数据是否为非标准节点数据。若是,则可以通过标准化数据映射表确定非标准节点数据对应的标准节点数据。进而将非标准节点数据对应的标准节点数据存储至第一数据表中,从而可以将第一数据表中非标准节点数据替换为与非标准节点数据对应的标准节点数据。
示例性的,表3为标准化数据映射表:
表3
Figure BDA0003428206680000081
非结构化文件中的节点数据包括a,基于表3中所存储的非标准节点数据和标准节点数据之间的映射关系,可以将非结构化文件中的节点数据包括的a替换为A。
本发明实施例的技术方案,通过获取至少一个非结构化文件。进而解析非结构化文件,从而可以获取非结构化文件中的节点标识和节点数据。在获取到非结构化文件的节点标识和节点数据后,可以基于非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。基于非结构化文件及非结构化文件对应的键值对,将键值对中的节点标识和节点数据存储至第一数据表中,解决了现有的非结构化文件存储方法中存在数据存储成本较高以及数据存储复杂度较高的技术问题,实现了降低非结构化数据存储的复杂度和存储成本。
实施例二
图3是本发明实施例二提供的一种基于Key-Value表的非结构化数据存储方法流程示意图,在前述实施例的基础上,可选地,所述方法还包括根据所述第一数据表的数据生成第二数据表,生成过程包括:获取所述第一数据表中的所有不同节点标识;基于所述所有不同节点标识生成建表语句;根据所述建表语句生成所述第二数据表的表结构;基于所述第一数据表中的文件标识及各节点标识和节点数据的键值对,生成所述第二数据表的数据。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
如图3所示,本实施例的方法具体可包括:
S210、获取至少一个非结构化文件。
S220、解析非结构化文件,获取非结构化文件中的节点标识和节点数据。
S230、基于非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。
S240、基于非结构化文件及非结构化文件对应的键值对,将键值对中的节点标识和节点数据存储至第一数据表中。
S250、根据第一数据表的数据生成第二数据表。
其中,第二数据表可以是基于第一数据表的数据生成的数据表。可选的,第二数据表可以是横向结构的数据表。
具体的,在将键值对中的节点标识和节点数据存储至第一数据表后,可以根据第一数据表中的数据生成第二数据表,从而可以直观的将一个结构化文件中包含的数据显示在数据表的一行中,以便于后续结构化文件中的数据检索和展示,从而提升用户的体验感。
沿用表2,表2为第一数据表,那么,根据第一数据表中的数据生成的第二数据表,可以如表4所示:
表4
RowID V001 V002 V003
R001 某某某医疗机构 张三
R002 某某某医疗机构-1 李四
通过下述步骤介绍如何根据第一数据表的数据生成第二数据表:
步骤一、获取第一数据表中的所有不同节点标识。
具体的,在得到第一数据表后,可以对第一数据表中的节点标识进行遍历。进而可以确定第一数据表中的所有不同节点标识。从而可以获取第一数据表中的所有不同节点标识。
沿用上例,第一数据表中所有不同节点标识为V001、V002和V003。
为了更加快速有效的获取第一数据表中的所有不同节点标识,可以预先定义用于确定第一数据表中的所有不同节点标识的数据库语句,通过调用预先定义的数据库语句进而可以获取第一数据表中的所有不同节点标识。
步骤二、基于所有不同节点标识生成建表语句。
其中,建表语句可以是用于创建第二数据表的数据库语句。
具体的,在获取到第一数据表中的所有不同节点标识后,可以确定所有不同节点标识对应的数据类型。进而可以基于所有不同节点标识以及所有不同节点标识对应的数据类型生成建表语句。
步骤三、根据建表语句生成第二数据表的表结构。
具体的,在生成建表语句后,可以调用建表语句,也就是说,可以执行建表语句,在建表语句执行完成后,可以生成第二数据表的表结构。需要说明的是,第二数据表的表结构中所包括的列名可以为不同节点标识。
步骤四、基于第一数据表中的文件标识及各节点标识和节点数据的键值对,生成第二数据表的数据。
具体的,在得到第一数据表后,可以对第一数据表中存储的数据进行遍历,进而可以确定第一数据表中的文件标识以及文件标识对应的键值对,也就是说,可以确定第一数据表中的文件标识、文件标识对应的节点标识和节点数据。在确定后,可以基于文件标识和文件标识所对应键值对中包含的节点标识和节点数据生成第二数据表中的数据。
需要说明的是,本发明实施例中,一个文件标识对应第二数据表中的一行数据,一个键值对中所包括的节点标识和节点数据分别对应第二数据表同一行中的一个单元格数据。
可选的,第二数据表还可以包括节点名称,其中,节点名称可以位于第二数据表的表头,并与节点标识相对应。这样设置的好处在于后续数据的查看和展示。
在上述实施例的基础上,在获取非结构化文件中的节点标识和节点数据后,还包括:将节点数据通过标准化数据映射表的映射成为标准节点数据,进而将节点数据所对应的标准节点数据存储在第一数据表和/或第二数据表中,从而将第一数据表和/或第二数据表中所存储的节点数据替换相应的标准节点数据。这样处理的可以达到快速有效的提高数据的质量的技术效果。
本发明实施例的技术方案,通过获取第一数据表中的所有不同节点标识。进而基于所有不同节点标识生成建表语句。在生成建表语句后,可以根据建表语句生成第二数据表的表结构。在生成第二数据表的表结构后,可以基于第一数据表中的文件标识及各节点标识和节点数据的键值对,生成第二数据表的数据,解决了现有的非结构化数据存储方法存在数据存储成本较高以及数据存储的复杂度较高的技术问题,实现了降低数据存储的复杂度和存储成本,从而达到更加方便的检索和使用非结构化文件中的数据的技术效果。
实施例三
图4是本发明实施例三提供的一种基于Key-Value表的非结构化数据存储方法流程示意图,在前述实施例的基础上,可选地,解析所述非结构化文件,还包括:获取所述非结构化文件中的节点名称,所述节点名称与所述节点标识相对应,并与所述节点标识对应存储。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
如图4所示,本实施例的方法具体可包括:
S310、获取至少一个非结构化文件。
S320、解析非结构化文件,获取非结构化文件中的节点标识、节点数据以及节点名称。
其中,节点名称可以理解为节点标识的描述信息。其中,节点名称与节点标识相对应,并与节点标识对应存储。沿用图2,节点标识为V001所对应的节点名称为医疗机构,节点标识为V002所对应的节点名称为性别,节点标识为V003所对应的节点名称为姓名。
具体的,在获取到非结构化文件后,可以对非结构化文件进行解析,进而可以确定非结构化文件的文件标识,以及确定非结构化文件中包含的节点标识和节点数据。在确定后,可以获取文件标识、节点标识以及节点数据。
需要说明的是,节点名称与节点标识对应存储可以是在第一数据表中节点名称与节点标识对应存储。
S330、基于非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。
S340、基于非结构化文件及非结构化文件对应的键值对,将键值对中的节点标识和节点数据存储至第一数据表中。
S350、基于非结构化文件中的节点标识和节点名称构建字段词典。
其中,字段词典可以用于存储非结构化文件中的节点标识和节点名称。需要说明的是,在字段词典中节点名称和节点标识可以是对应存储的。
具体的,在获取到非结构化文件中的节点标识和节点名称后,可以将存在对应关系的节点标识和节点名称对应存储至字段词典中。
为了提高字段词典中所存储的数据的有效性,在字段词典构建完成后,可以通过下述方式更新字段词典中的数据:
将解析非结构化文件所获得的节点标识和节点名称与字段词典中存储的节点标识和节点名称相对比。若不同,则基于解析非结构化文件所获得的节点标识和节点名称更新字段词典中存储的节点标识和/或节点名称。
具体的,在对非结构化文件进行解析后可以获取非结构化文件中的节点标识和节点名称。将获取到的节点标识和节点名称与字段词典中存储的节点标识和节点名称相对比。如果节点标识不同以及节点名称不同,则可以将不同的节点标识和不同的节点名称存储至字段词典中。如果节点标识不同且节点标识对应的节点名称相同,则可以将不同的节点标识和相同的节点名称存储至字段词典。如果节点标识相同且节点标识对应的节点名称不同,则可以将字段词典中相同节点标识对应的不同节点名称进行更新。
S360、根据字段词典及第一数据表的数据生成第二数据表。
具体的,在得到字段词典后,可以对字段词典及第一数据表中的数据进行遍历,进而可以基于字段词典及第一数据表中的数据生成第二数据表。
通过下述步骤介绍如何根据字段词典及第一数据表的数据生成第二数据表:
步骤一、获取字段词典中的所有不同节点标识。
具体的,对字段词典中存储的节点标识进行遍历,进而可以确定字段词典中的所有不同节点标识。从而可以获取字段词典中的所有不同的节点标识。
步骤二、基于所有不同节点标识生成建表语句。
具体的,在确定字段词典中的所有不同的节点标识后,可以确定所有不同的节点标识对应的数据类型。进而可以基于所有不同的节点标识和所有不同的节点标识对应的数据类型生成建立语句。
步骤三、根据建表语句生成第二数据表的表结构。
具体的,在生成建表语句后,可以调用建表语句,也就是说,可以执行建表语句。在执行建表语句后,可以生成第二数据表的表结构。
步骤四、基于第一数据表中的文件标识及各节点标识和节点数据的键值对,生成第二数据表的数据。
具体的,在得到第二数据表的表结构后,可以对第一数据表中所存储的数据进行遍历。进而可以确定第一数据表中的文件标识以及各节点标识和节点数据的键值对,也就是说,可以确定第一数据表中存储的文件标识以及各键值对中的节点标识和节点数据。进而可以生成第二数据表的数据。
需要说明的,尽管本发明实施例中记载的是S310、S320、S330、S340、S350和S360,但是在具体实现过程中,可以先执行S350再执行S330和S340,当S340和S350执行完成后再执行S360。也可以是同时执行S350和S330,在执行S330后再执行S340,当S340和S350执行完成后再执行S360。
本发明实施例的技术方案,通过解析非结构化文件还可以获取非结构化文件中的节点名称。本发明实施例中,非结构化文件中的节点名称可以有效的提高后续的数据检索和展示的效率。在获取非结构化文件中的节点数据后,可以基于非结构化文件中的节点标识和节点名称构建字段词典。在构建字段词典完成后,可以根据字段词典及第一数据表的数据生成第二数据表,解决了现有的非结构化数据存储方法存在数据存储成本较高以及数据存储的复杂度较高的技术问题,实现了降低数据存储的复杂度和存储成本,从而达到更加方便的检索和使用非结构化文件中的数据的技术效果。
实施例四
图5是本发明实施例四提供的一种数据存储装置的结构示意图,本发明提供了一种基于Key-Value表的非结构化数据存储装置,该装置包括:文件获取模块310、文件解析模块320、键值对组合模块330和键值对存储模块340。
其中,文件获取模块310,用于获取至少一个非结构化文件;
文件解析模块320,用于解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
键值对组合模块330,用于基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
键值对存储模块340,用于基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
本发明实施例的技术方案,通过文件获取模块,获取至少一个非结构化文件。通过文件解析模块,解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据。通过键值对组合模块,基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对。通过键值对存储模块,基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中,解决了现有技术中的非结构化文件存储方法中存在数据存储成本较高以及数据存储复杂度较高的技术问题,实现了降低非结构化数据存储的复杂度和存储成本。
可选的,所述第一数据表中还包括文件标识,所述文件标识与所述非结构化文件相对应,并与所述节点标识和节点数据对应存储。
可选的,文件解析模块320,还用于获取所述非结构化文件中的节点名称,所述节点名称与所述节点标识相对应,并与所述节点标识对应存储。
可选的,该装置还包括字段词典,所述字段词典用于存储节点名称和节点标识,该装置还包括:字段词典更新模块,用于将解析所述非结构化文件所获得的节点标识和节点名称与所述字段词典中存储的所述节点标识和节点名称相对比;若不同,则基于解析所述非结构化文件所获得的节点标识和节点名称更新所述字段词典中存储的所述节点标识和/或节点名称。
可选的,该装置还包括第二数据表生成模块,用于获取所述第一数据表中的所有不同节点标识;基于所述所有不同节点标识生成建表语句;根据所述建表语句生成所述第二数据表的表结构;基于所述第一数据表中的文件标识及各节点标识和节点数据的键值对,生成所述第二数据表的数据。
可选的,该装置还包括第二数据表生成模块,用于获取所述字段词典中的所有不同节点标识;基于所述所有不同节点标识生成建表语句;根据所述建表语句生成所述第二数据表的表结构;基于所述第一数据表中的文件标识及各节点标识和节点数据的键值对,生成所述第二数据表的数据。
可选的,所述第二数据表还包括节点名称,所述节点名称位于所述第二数据表的表头,并与所述节点标识相对应。
可选的,该装置还包括标准化数据映射表,在解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据后,该装置还包括:标准化处理模块,用于将所述节点数据通过所述标准化数据映射表的映射成为标准节点数据,存储在所述第一数据表和/或第二数据表中,替换相应的节点数据。
上述装置可执行本发明任意实施例所提供的基于Key-Value表的非结构化数据存储方法,具备执行基于Key-Value表的非结构化数据存储方法相应的功能模块和有益效果。
值得注意的是,上述基于Key-Value表的非结构化数据存储装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例五
图6是本发明实施例五提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明任一实施方式的示例性电子设备12的框图。图6显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备12典型的是承担配置信息的处理的电子设备。
如图6所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储器28,连接不同组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机装置可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品40,该程序产品40具有一组程序模块42,这些程序模块被配置以执行本发明各实施例的功能。程序产品40,可以存储在例如存储器28中,这样的程序模块42包括但不限于一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、鼠标、摄像头等和显示器)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网WideArea Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)装置、磁带驱动器以及数据备份存储装置等。
处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的基于Key-Value表的非结构化数据存储方法,该方法包括:
获取至少一个非结构化文件;
解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
当然,本领域技术人员可以理解,处理器还可以实现本发明任一实施例所提供的数据存储方法的技术方案。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,特征在于,该程序被处理器执行时,例如本发明上述实施例所提供的基于Key-Value表的非结构化数据存储方法,该方法包括:
获取至少一个非结构化文件;解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于Key-Value表的非结构化数据存储方法,其特征在于,包括:
获取至少一个非结构化文件;
解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
2.根据权利要求1所述的方法,其特征在于,所述第一数据表中还包括文件标识,所述文件标识与所述非结构化文件相对应,并与所述节点标识和节点数据对应存储。
3.根据权利要求1所述的方法,其特征在于,解析所述非结构化文件,还包括:获取所述非结构化文件中的节点名称,所述节点名称与所述节点标识相对应,并与所述节点标识对应存储。
4.根据权利要求3所述的方法,其特征在于,还包括字段词典,所述字段词典用于存储节点名称和节点标识,所述方法还包括:
将解析所述非结构化文件所获得的节点标识和节点名称与所述字段词典中存储的所述节点标识和节点名称相对比;
若不同,则基于解析所述非结构化文件所获得的节点标识和节点名称更新所述字段词典中存储的所述节点标识和/或节点名称。
5.根据权利要求2所述的方法,其特征在于,还包括根据所述第一数据表的数据生成第二数据表,生成过程包括:
获取所述第一数据表中的所有不同节点标识;
基于所述所有不同节点标识生成建表语句;
根据所述建表语句生成所述第二数据表的表结构;
基于所述第一数据表中的文件标识及各节点标识和节点数据的键值对,生成所述第二数据表的数据。
6.根据权利要求4所述的方法,其特征在于,还包括根据所述字段词典的数据生成第二数据表,生成过程包括:
获取所述字段词典中的所有不同节点标识;
基于所述所有不同节点标识生成建表语句;
根据所述建表语句生成所述第二数据表的表结构;
基于所述第一数据表中的文件标识及各节点标识和节点数据的键值对,生成所述第二数据表的数据。
7.根据权利要求5或6所述的方法,其特征在于,所述第二数据表还包括节点名称,所述节点名称位于所述第二数据表的表头,并与所述节点标识相对应。
8.根据权利要求1~6任一所述的方法,其特征在于,还包括标准化数据映射表,所述解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据后,还包括:将所述节点数据通过所述标准化数据映射表的映射成为标准节点数据,存储在所述第一数据表和/或第二数据表中,替换相应的节点数据。
9.一种基于Key-Value表的非结构化数据存储装置,其特征在于,包括:
文件获取模块,用于获取至少一个非结构化文件;
文件解析模块,用于解析所述非结构化文件,获取所述非结构化文件中的节点标识和节点数据;
键值对组合模块,用于基于所述非结构化文件中的节点标识和节点数据,将存在对应关系的节点标识和节点数据组合成键值对;
键值对存储模块,用于基于所述非结构化文件及所述非结构化文件对应的键值对,将所述键值对中的节点标识和节点数据存储至第一数据表中。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述程序被所述处理器执行,使得所述处理器实现如权利要求1-8中任一所述的基于Key-Value表的非结构化数据存储方法。
CN202111586927.4A 2021-12-23 2021-12-23 基于Key-Value表的非结构化数据存储方法、装置及电子设备 Pending CN114281922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111586927.4A CN114281922A (zh) 2021-12-23 2021-12-23 基于Key-Value表的非结构化数据存储方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111586927.4A CN114281922A (zh) 2021-12-23 2021-12-23 基于Key-Value表的非结构化数据存储方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114281922A true CN114281922A (zh) 2022-04-05

Family

ID=80874224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111586927.4A Pending CN114281922A (zh) 2021-12-23 2021-12-23 基于Key-Value表的非结构化数据存储方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114281922A (zh)

Similar Documents

Publication Publication Date Title
CN109524070B (zh) 数据处理方法及装置、电子设备、存储介质
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
CN111291049A (zh) 一种创建表的方法、装置、设备和存储介质
CN109871383B (zh) 一种数据处理方法、装置、存储介质及电子设备
CN112883157B (zh) 一种多源异构医疗数据的标准化方法及装置
CN110688544A (zh) 一种查询数据库的方法、设备及存储介质
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
US10042622B2 (en) Methods and systems of generating ease of use interfaces for legacy system management facilities
CN109582906B (zh) 数据可靠度的确定方法、装置、设备和存储介质
CN112559095A (zh) 目标业务的执行方法、系统、服务器及存储介质
CN113064897B (zh) 一种业务指标模型的生成方法、装置、设备及存储介质
CN116433692A (zh) 一种医学图像分割方法、装置、设备和存储介质
CN113760839A (zh) 日志数据压缩处理方法、装置、电子设备和存储介质
CN109033456B (zh) 一种条件查询方法、装置、电子设备和存储介质
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN115759040A (zh) 一种电子病历解析方法、装置、设备和存储介质
CN113792138B (zh) 报表生成方法、装置、电子设备及存储介质
CN111063445A (zh) 基于医疗数据的特征提取方法及装置、设备和介质
CN114281922A (zh) 基于Key-Value表的非结构化数据存储方法、装置及电子设备
WO2023236238A1 (zh) 一种基于关系数据的数据处理方法及其装置
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN115762704A (zh) 一种处方审核方法、装置、设备和存储介质
CN115761778A (zh) 一种文献重构方法、装置、设备和存储介质
WO2022062834A1 (zh) 数据探查方法、装置、电子设备和存储介质
CN114154468A (zh) 一种报表合成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination