CN113886482B - 面向图数据库的数据自动入库方法、装置和设备 - Google Patents

面向图数据库的数据自动入库方法、装置和设备 Download PDF

Info

Publication number
CN113886482B
CN113886482B CN202111482842.1A CN202111482842A CN113886482B CN 113886482 B CN113886482 B CN 113886482B CN 202111482842 A CN202111482842 A CN 202111482842A CN 113886482 B CN113886482 B CN 113886482B
Authority
CN
China
Prior art keywords
item
column
node
input source
describing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111482842.1A
Other languages
English (en)
Other versions
CN113886482A (zh
Inventor
郝伟
沈传宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huayuan Information Technology Co Ltd
Original Assignee
Beijing Huayuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huayuan Information Technology Co Ltd filed Critical Beijing Huayuan Information Technology Co Ltd
Priority to CN202111482842.1A priority Critical patent/CN113886482B/zh
Publication of CN113886482A publication Critical patent/CN113886482A/zh
Application granted granted Critical
Publication of CN113886482B publication Critical patent/CN113886482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供了一种面向图数据库的数据自动入库方法、装置和设备。所述方法包括获取并解析待导入的图数据的配置文件;根据预设的结构定义规则对所述配置文件进行格式转换;将格式转换后的配置文件以及对应的图数据导入图数据库。以此方式,能够对支持范围内的任何图数据进行描述,从而使程序能够以统一的方式进行数据的导入,提升了入库效率,降低了错误率。

Description

面向图数据库的数据自动入库方法、装置和设备
技术领域
本发明一般涉及数据结构领域,并且更具体地,涉及一种面向图数据库的数据自动入库方法、装置和设备。
背景技术
在图数据库中,包括了大量的主体和关系,其数据格式不同于传统的关系数据库。这是因为图数据的格式在表示时,不同于传统的关系数据库可以使用二维表进行描述。
在数据库转换时,由于数据格式的多样性,由于难以适应图数据库的结构,往往难以使用固定的转换程序对数据进行自动化导入,即无法对各类不同格式的输入数据进行自动化入库操作,需要重新开发转换程序,所以效率不高且容易出错。
发明内容
根据本发明的实施例,提供了一种面向图数据库的数据自动入库方案。本方案能够对支持范围内的任何图数据进行描述,从而使程序能够以统一的方式进行数据的导入,提升了入库效率,降低了错误率。
在本发明的第一方面,提供了一种面向图数据库的数据自动入库方法。该方法包括:
获取并解析待导入的图数据的配置文件;
根据预设的结构定义规则对所述配置文件进行格式转换;
将格式转换后的配置文件以及对应的图数据导入图数据库。
进一步地,所述根据预设的结构定义规则对所述配置文件进行格式转换,包括:
解析所述配置文件,通过所述结构定义规则的格式对解析后的配置文件进行描述,得到格式转换后的配置文件。
进一步地,所述结构定义规则,包括:
将所述待导入的图数据通过结构定义和数据本体进行描述;其中,所述结构定义包括版本号和结构块列表;其中,所述结构块列表中包括若干个结构块,所述结构块用于通过结构描述数据对输入源进行描述,包括:
输入源ID项,用于描述输入源的编号,对输入源进行唯一标识;
输入项,用于对输入源的信息进行描述;
节点项,用于对输入源中的节点进行定义;
边项,用于对输入源中节点之间的关系进行定义。
进一步地,所述输入项,包括:
类型项,用于描述输入源的文件类型;
路径项,用于描述输入源的文件所在的绝对路径;
格式项,用于描述输入源的文件格式。
进一步地,所述输入项,还包括:
标头项,用于描述输入源中列的名称;
第一分隔符项,用于描述输入源中行的列分隔符;
结束符项,用于描述输入源的集合结构的列的结束位置;
字符集项,用于描述输入源的编码字符集;
日期格式项,用于描述输入源的日期格式;若日期为时间戳,则所述日期格式描述成时间戳固定值;
时区项,用于描述输入源的日期数据的所属时区;
跳行项,用于描述输入源中能够使用正则表达式指定跳过的行;
压缩项,用于描述输入源是否为压缩格式;
列表格式项,用于描述输入源中集合结构列的起始符、分隔符、结束符及其复合结构的格式;
起始符项,用于描述输入源中集合结构列的起始符的特征;
第二分隔符项,用于描述输入源中集合结构列的分隔符的特征。
进一步地,所述节点项,包括:
节点ID项,用于根据节点的ID策略定义节点的ID列;当节点的ID策略为定制策略时,节点的ID列为必填;当节点的ID策略为主键策略时,节点的ID列为空;
节点标签项,用于定义节点数据与节点标签的所属关系;
节点属性名映射项,用于定义输入源中的列名与节点的属性名之间的映射关系;
节点属性值映射项,用于定义输入源的数据值与节点的属性值之间的映射关系;
节点选择项,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列;
节点忽略项,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;
节点空值项,用于定义存在可空属性的节点;
节点更新策略项,用于定义节点数据的更新策略;
节点展开项,用于定义若所述节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。
进一步地,所述边项,包括:
源节点ID项,用于根据源节点的ID策略定义源节点的ID列;当源节点的ID策略为主键策略时,通过指定一列作为源节点的ID列或指定多列拼接生成源节点的ID列;
目标节点ID项,用于根据目标节点的ID策略定义目标节点的ID列;当目标节点的ID策略为主键策略时,通过指定一列作为目标节点的ID列或指定多列拼接生成目标节点的ID列;
边标签项,用于定义边数据与边标签的所属关系;
边属性名映射项,用于定义输入源中的列名与边的属性名之间的映射关系;
边属性值映射项,用于定义输入源的数据值与边的属性值之间的映射关系;
边选择项,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列;
边忽略项,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;
边空值项,用于定义存在可空属性的边;
边更新策略项,用于定义边数据的更新策略;
边展开项,用于定义若所述源节点或目标节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。
进一步地,所述属性名包括数据的属性类型和属性名称;其中,所述属性类型为可选项,若所述属性名用属性名称表示,则对应的属性类型为字符串。
在本发明的第二方面,提供了一种面向图数据库的数据自动入库装置。该装置包括:
获取解析模块,用于获取并解析待导入的图数据的配置文件;
格式转换模块,用于根据预设的结构定义规则对所述配置文件进行格式转换;
数据导入模块,用于将格式转换后的配置文件以及对应的图数据导入图数据库。
在本发明的第三方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本发明的实施例的面向图数据库的数据自动入库方法的流程图;
图2示出了根据本发明的实施例的面向图数据库的数据自动入库装置的方框图;
图3示出了能够实施本发明的实施例的示例性电子设备的方框图;
其中,300为电子设备、301为CPU、302为ROM、303为RAM、304为总线、305为I/O接口、306为输入单元、307为输出单元、308为存储单元、309为通信单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明中,能够对支持范围内的任何图数据进行描述,从而使程序能够以统一的方式进行数据的导入,提升了入库效率,降低了错误率。
图1示出了本发明实施例的面向图数据库的数据自动入库方法的流程图。
该方法包括:
S101、获取并解析待导入的图数据的配置文件。
所述图数据是以图论为基础的数据,图数据的基本元素为节点和边(关系),数据与数据之间的关系通过节点和关系构成图结构。所述图数据对应设置有配置文件,用于定义图数据的数据结构。
S102、根据预设的结构定义规则对所述配置文件进行格式转换。
具体的,所述根据预设的结构定义规则对所述配置文件进行格式转换,包括:
解析所述配置文件,通过所述结构定义规则的格式对解析后的配置文件进行描述,得到格式转换后的配置文件。
所述配置文件为用于描述图数据的属性、参数的配置方式的文件;不同的配置文件的格式不同。
通过对配置文件按照结构定义规则进行格式转换,可以对不同格式的待入库图数据进行格式统一,以统一的方式进行数据导入。
所述结构定义规则,包括:
将所述待导入的图数据通过结构定义和数据本体进行描述。
作为本发明的一种实施例,对图数据的结构定义的描述可以采用Json格式进行表达,在根级别的结构中包括两部分内容,分别为版本号version以及结构块列表structs;其中,所述结构块列表中包括若干个结构块,例如结构块1、结构块2等。图数据的结构定义在根级别的结构中如下所示:
{
"version":"1.1",
"structs":[{结构块1},{结构块2}, ...]
}
进一步地,所述结构块用于通过结构描述数据对输入源进行描述。每个结构块的键值由键名和对应的作用构成;键名用于描述该结构块中的必选项或可选项的名称。所述结构块包括输入源ID项、输入项、节点项以及边项。其中,输入源ID项,键名为id,用于描述输入源的编号,对输入源进行唯一标识,保证每个结构块的ID不相同。输入项,键名为input,用于对输入源的信息进行描述。节点项,键名为vertices,用于对输入源中的节点进行定义。边项,键名为edges,用于对输入源中节点之间的关系进行定义。
作为本发明的一种实施例,所述结构块还包括注释项;所述注释项相当于注释功能,如果某结构块的注释项属性为True,则忽略此结构体定义段。
每个结构块中的输入源ID项和注释项skip用于描述基本特性。
在本实施例中,一种结构块定义,如下:
{
"id":"1",
"input":{},
"vertices":[{v1},{v2},{v3}...],
"edges":[{e1},{e2},{e3}, ...]
}
其中v1、v2、v3表示不同的节点;e1、e2、e3表示不同的边。
进一步地,所述输入项中包括必选项和可选项。其中,必选项包括类型项、路径项和格式项。所述类型项,键名为type,用于描述输入源的文件类型,其值固定为file或FILE。路径项,键名为path,用于描述输入源的文件所在的绝对路径,用于定位。格式项,键名为format,用于描述输入源的文件格式,可选值为CSV、TEXT及JSON。
所述可选项包括标头项、分隔符项、结束符项、字符集项、日期格式项、时区项、跳行项、压缩项、列表格式项等。
所述标头项,键名为header,用于描述输入源中列的名称。例如指定CSV或TXT文件中各列列名;若不指定则会以数据文件第一行作为header。
所述第一分隔符项,键名为delimiter,用于描述输入源中行的列分隔符。例如,文件行的列分隔符,默认以逗号作为分隔符,JSON文件不需要指定。
所述结束符项,键名为end_symbol,用于描述输入源的集合结构的列的结束位置。例如,集合结构列的结束符,默认值为 \n。
所述字符集项,键名为charset,用于描述输入源的编码字符集。例如,文件的编码字符集,默认UTF-8。
所述日期格式项,键名为date_format,用于描述输入源的日期格式;若日期为时间戳,则所述日期格式描述成时间戳固定值。例如,自定义的日期格式,默认值为yyyy-MM-dd HH:mm:ss。若日期是时间戳则固定值为 timestamp。
所述时区项,键名为time_zone,用于描述输入源的日期数据的所属时区。例如,设置日期数据是处于哪个时区的,默认值为GMT+8。
所述跳行项,键名为skipped_line,用于描述输入源中能够使用正则表达式指定跳过的行。例如, ^#.* 指定以#开始的行。
所述压缩项,键名为compression,用于描述输入源是否为压缩格式。例如,默认为NONE,表示非压缩文件。
列表格式项,键名为list_format,用于描述输入源中集合结构列的起始符、分隔符、结束符及其复合结构的格式。例如,当文件的某列是集合结构时,可以用此项设置。列表格式项,包括列的起始符、分隔符、结束符,复合结构。
起始符项start_symbol,用于描述输入源中集合结构列的起始符。
第二分隔符项,键名为elem_delimiter,用于描述输入源中集合结构列的分隔符。
作为本发明的一种实施例,输入项如下所示:
"input":{
"type":"FILE",
"path":"vertex_person.csv",
"format":"CSV",
"delimiter":",",
"date_format":"yyyy-MM-dd HH:mm:ss",
"time_zone":"GMT+8",
"skipped_line":{"regex":"(^#|^//).*|"},
"header":[
"name",
"age",
"city"
]
}
作为本发明的一种实施例,所述节点项和边项有若干共有的属性,也有各自不同的属性。所述节点项vertices,包括:
节点ID项,键名为ID,用于根据节点的ID策略定义节点的ID列;指定某一列作为节点的ID列,当节点的ID策略为定制策略CUSTOMIZE时,节点的ID列为必填;当节点的ID策略为主键策略PRIMARY_KEY时,节点的ID列为空。该项为与边项不同的属性。
节点标签项,键名为label,用于定义节点数据与节点标签的所属关系。
节点属性名映射项,键名为field_mapping,用于定义输入源中的列名与节点的属性名之间的映射关系,即将输入源列的列名映射为节点的属性名。
节点属性值映射项,键名为value_mapping,用于定义输入源的数据值与节点的属性值之间的映射关系,即将输入源的数据值映射为节点的属性值。
节点选择项,键名为selected,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列。例如,选择某些列插入,其他未选中的不插入,且不能与igred同时存在,即如果igred中有A列,则selected中就不能有A列,反之亦然。
节点忽略项,键名为igred,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;例如,忽略某些列,使其不参与插入,且不能与selected同时存在,即如果selected中有A列,则igred中就不能有A列,反之亦然。
节点空值项,键名为null_values,用于定义存在可空属性的节点;例如,可以指定一些字符串代表空值,比如"NULL",如果该列对应的节点属性又是一个可空属性,那在构造节点时不会设置该属性的值。
节点更新策略项,键名为update_strategies,用于定义节点数据的更新策略;如果数据需要按特定方式批量更新时可以对每个属性指定具体的更新策略。
节点展开项,键名为unld,用于定义若所述节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。所述节点展开项定义是否将ID列展开。展开的每一ID列都会与其他列一起组成一行,相当于是展开成了多行;例如文件的ID列中一行的值是[1,2,3],其他列对应该行的值是[18,Beijing],当设置了unld之后,这一行就会变成 3 行,分别是[1,18,Beijing]、[2,18,Beijing]和[3,18,Beijing]。需要注意的是此项只会展开被选作为ID的列。默认false。
作为本发明的一种实施例,节点项vertices如下所示:
"vertices":[
{
"label":"person",
"skip":false,
"id":null,
}
]
所述边项,包括:
源节点ID项,键名为source,用于根据源节点的ID策略定义源节点的ID列;当源节点的ID策略为 定制策略CUSTOMIZE 时,可以指定某一列作为节点的ID列或不指定;当源节点的ID策略为主键策略时,通过指定一列作为源节点的ID列或指定多列拼接生成源节点的ID列。例如将多列中的相同行数据进行拼接,此拼接与展开相反。该项为与节点项不同的属性。
目标节点ID项,键名为target,用于根据目标节点的ID策略定义目标节点的ID列;当目标节点的ID策略为 定制策略CUSTOMIZE 时,可以指定某一列作为节点的ID列或不指定;当目标节点的ID策略为主键策略时,通过指定一列作为目标节点的ID列或指定多列拼接生成目标节点的ID列。该项为与节点项不同的属性。
边标签项,键名为label,用于定义边数据与边标签的所属关系。
边属性名映射项,键名为field_mapping,用于定义输入源中的列名与边的属性名之间的映射关系,即将输入源列的列名映射为边的属性名。
边属性值映射项,键名为value_mapping,用于定义输入源的数据值与边的属性值之间的映射关系,即将输入源的数据值映射为边的属性值。
边选择项,键名为selected,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列;例如,选择某些列插入,其他未选中的不插入,且不能与igred同时存在,即如果igred中有A列,则selected中就不能有A列,反之亦然。
边忽略项,键名为igred,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;例如,忽略某些列,使其不参与插入,且不能与selected同时存在,即如果selected中有A列,则igred中就不能有A列,反之亦然。
边空值项,键名为null_values,用于定义存在可空属性的边;例如,可以指定一些字符串代表空值,比如"NULL",如果该列对应的边属性又是一个可空属性,那在构造边时不会设置该属性的值。
边更新策略项,键名为update_strategies,用于定义边数据的更新策略;如果数据需要按特定方式批量更新时可以对每个属性指定具体的更新策略。
边展开项,键名为unld,用于定义若所述源节点或目标节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。展开的每一ID列都会与其他列一起组成一行,相当于是展开成了多行;例如文件的ID列中一行的值是[1,2,3],其他列对应该行的值是[18,Beijing],当设置了unld之后,这一行就会变成 3 行,分别是[1,18,Beijing]、[2,18,Beijing]和[3,18,Beijing]。需要注意的是此项只会展开被选作为ID的列。默认 false。
作为本发明的一种实施例,所述属性名包括数据的属性类型和属性名称,即在属性名中,使用“属性类型:属性名”的方式表示属性的数据类型和名称,例如“ str:name”、“int:age”。其中,所述属性类型为可选项。若所述属性名仅用属性名称表示,并没有数据类型,则对应的属性类型默认为字符串;例如“name”与“str:name”相同。
作为本发明的一种实施例,边项如下所示:
"edges":[
{
"label":"knows",
"skip":false,
"source":[
"source_name"
],
"target":[
"target_name"
],
"field_mapping":{
"source_name":"name",
"target_name":"name"
},
"value_mapping":{},
"selected":[],
"ignored":[],
"null_values":[
""
],
"update_strategies":{}
}
]
S103、将格式转换后的配置文件以及对应的图数据导入图数据库。
将不同格式的待导入的图数据的配置文件转换成所述的结构定义规则的格式后,待导入的图数据的配置文件都统一了导入格式,将统一格式后的图数据以及配置文件导入图数据库进行存储。
根据本发明的实施例,通过预设的结构定义规则,能够对支持范围内的任何图数据进行描述,从而使程序能够以统一的方式进行数据的导入,提升了入库效率,降低了错误率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
如图2所示,装置200包括:
获取解析模块210,用于获取并解析待导入的图数据的配置文件;
格式转换模块220,用于根据预设的结构定义规则对所述配置文件进行格式转换;
数据导入模块230,用于将格式转换后的配置文件以及对应的图数据导入图数据库。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
图3示出了可以用来实施本发明的实施例的电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如方法S101~S103。例如,在一些实施例中,方法S101~S103可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的方法S101~S103的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S101~S103。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (7)

1.一种面向图数据库的数据自动入库方法,其特征在于,包括:
获取并解析待导入的图数据的配置文件;
根据预设的结构定义规则对所述配置文件进行格式转换;
将格式转换后的配置文件以及对应的图数据导入图数据库;
所述结构定义规则,包括:
将所述待导入的图数据通过结构定义和数据本体进行描述;其中,所述结构定义包括版本号和结构块列表;其中,所述结构块列表中包括若干个结构块,所述结构块用于通过结构描述数据对输入源进行描述,包括:
输入源ID项,用于描述输入源的编号,对输入源进行唯一标识;
输入项,用于对输入源的信息进行描述;
节点项,用于对输入源中的节点进行定义;
边项,用于对输入源中节点之间的关系进行定义;
所述输入项,包括:
类型项,用于描述输入源的文件类型;
路径项,用于描述输入源的文件所在的绝对路径;
格式项,用于描述输入源的文件格式;
标头项,用于描述输入源中列的名称;
第一分隔符项,用于描述输入源中行的列分隔符;
结束符项,用于描述输入源的集合结构的列的结束位置;
字符集项,用于描述输入源的编码字符集;
日期格式项,用于描述输入源的日期格式;若日期为时间戳,则所述日期格式描述成时间戳固定值;
时区项,用于描述输入源的日期数据的所属时区;
跳行项,用于描述输入源中能够使用正则表达式指定跳过的行;
压缩项,用于描述输入源是否为压缩格式;
列表格式项,用于描述输入源中集合结构列的起始符、分隔符、结束符及其复合结构的格式;
起始符项,用于描述输入源中集合结构列的起始符的特征;
第二分隔符项,用于描述输入源中集合结构列的分隔符的特征。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的结构定义规则对所述配置文件进行格式转换,包括:
解析所述配置文件,通过所述结构定义规则的格式对解析后的配置文件进行描述,得到格式转换后的配置文件。
3.根据权利要求1所述的方法,其特征在于,所述节点项,包括:
节点ID项,用于根据节点的ID策略定义节点的ID列;当节点的ID策略为定制策略时,节点的ID列为必填;当节点的ID策略为主键策略时,节点的ID列为空;
节点标签项,用于定义节点数据与节点标签的所属关系;
节点属性名映射项,用于定义输入源中的列名与节点的属性名之间的映射关系;
节点属性值映射项,用于定义输入源的数据值与节点的属性值之间的映射关系;
节点选择项,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列;
节点忽略项,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;
节点空值项,用于定义存在可空属性的节点;
节点更新策略项,用于定义节点数据的更新策略;
节点展开项,用于定义若所述节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。
4.根据权利要求1所述的方法,其特征在于,所述边项,包括:
源节点ID项,用于根据源节点的ID策略定义源节点的ID列;当源节点的ID策略为主键策略时,通过指定一列作为源节点的ID列或指定多列拼接生成源节点的ID列;
目标节点ID项,用于根据目标节点的ID策略定义目标节点的ID列;当目标节点的ID策略为主键策略时,通过指定一列作为目标节点的ID列或指定多列拼接生成目标节点的ID列;
边标签项,用于定义边数据与边标签的所属关系;
边属性名映射项,用于定义输入源中的列名与边的属性名之间的映射关系;
边属性值映射项,用于定义输入源的数据值与边的属性值之间的映射关系;
边选择项,用于定义选择插入的列,使所述选择插入的列不同于忽略插入的列;
边忽略项,用于定义忽略插入的列,使所述忽略插入的列不同于所述选择插入的列;
边空值项,用于定义存在可空属性的边;
边更新策略项,用于定义边数据的更新策略;
边展开项,用于定义若所述源节点或目标节点的ID列的一行中存在多个ID值,则将每个ID值对应一列进行展开,使展开的每一个ID列中的ID值与其他列中对应行的ID值组成一行。
5.根据权利要求3或4所述的方法,其特征在于,所述属性名包括数据的属性类型和属性名称;其中,所述属性类型为可选项,若所述属性名用属性名称表示,则对应的属性类型为字符串。
6.一种面向图数据库的数据自动入库装置,其特征在于,包括:
获取解析模块,用于获取并解析待导入的图数据的配置文件;
格式转换模块,用于根据预设的结构定义规则对所述配置文件进行格式转换;
数据导入模块,用于将格式转换后的配置文件以及对应的图数据导入图数据库;
所述结构定义规则,包括:
将所述待导入的图数据通过结构定义和数据本体进行描述;其中,所述结构定义包括版本号和结构块列表;其中,所述结构块列表中包括若干个结构块,所述结构块用于通过结构描述数据对输入源进行描述,包括:
输入源ID项,用于描述输入源的编号,对输入源进行唯一标识;
输入项,用于对输入源的信息进行描述;
节点项,用于对输入源中的节点进行定义;
边项,用于对输入源中节点之间的关系进行定义;
所述输入项,包括:
类型项,用于描述输入源的文件类型;
路径项,用于描述输入源的文件所在的绝对路径;
格式项,用于描述输入源的文件格式;
标头项,用于描述输入源中列的名称;
第一分隔符项,用于描述输入源中行的列分隔符;
结束符项,用于描述输入源的集合结构的列的结束位置;
字符集项,用于描述输入源的编码字符集;
日期格式项,用于描述输入源的日期格式;若日期为时间戳,则所述日期格式描述成时间戳固定值;
时区项,用于描述输入源的日期数据的所属时区;
跳行项,用于描述输入源中能够使用正则表达式指定跳过的行;
压缩项,用于描述输入源是否为压缩格式;
列表格式项,用于描述输入源中集合结构列的起始符、分隔符、结束符及其复合结构的格式;
起始符项,用于描述输入源中集合结构列的起始符的特征;
第二分隔符项,用于描述输入源中集合结构列的分隔符的特征。
7.一种电子设备,至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其特征在于,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
CN202111482842.1A 2021-12-07 2021-12-07 面向图数据库的数据自动入库方法、装置和设备 Active CN113886482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111482842.1A CN113886482B (zh) 2021-12-07 2021-12-07 面向图数据库的数据自动入库方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111482842.1A CN113886482B (zh) 2021-12-07 2021-12-07 面向图数据库的数据自动入库方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113886482A CN113886482A (zh) 2022-01-04
CN113886482B true CN113886482B (zh) 2022-03-08

Family

ID=79015733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111482842.1A Active CN113886482B (zh) 2021-12-07 2021-12-07 面向图数据库的数据自动入库方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113886482B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594958A (zh) * 2023-05-25 2023-08-15 之江实验室 一种图数据集加载方法、系统、电子设备、介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101167039A (zh) * 2005-04-22 2008-04-23 微软公司 用于查看和编辑多值属性的系统和方法
CN107122434A (zh) * 2017-04-18 2017-09-01 北京思特奇信息技术股份有限公司 一种将对账文件导入数据库的方法和系统
CN111339041A (zh) * 2020-03-10 2020-06-26 中国建设银行股份有限公司 文件解析入库、文件生成方法及装置
CN111367975A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种多协议数据转换处理方法及装置
CN111427901A (zh) * 2020-03-23 2020-07-17 浪潮通用软件有限公司 交互式知识图谱数据编辑方法、计算机设备和存储介质
CN111858730A (zh) * 2020-07-10 2020-10-30 苏州浪潮智能科技有限公司 一种图数据库的数据导入导出装置、方法、设备及介质
CN111930774A (zh) * 2020-08-06 2020-11-13 全球能源互联网研究院有限公司 一种电力知识图谱本体自动构建方法及系统
CN112416907A (zh) * 2020-12-03 2021-02-26 厦门市美亚柏科信息股份有限公司 一种数据库表数据导入导出方法、终端设备及存储介质
CN113111102A (zh) * 2021-03-30 2021-07-13 中国建设银行股份有限公司 数据处理方法及装置、计算机设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608464C2 (ru) * 2012-09-28 2017-01-18 Телефонактиеболагет Лм Эрикссон (Пабл) Устройство, способ и сетевой сервер для обнаружения структур данных в потоке данных
CN109766417B (zh) * 2018-11-30 2020-11-24 浙江大学 一种基于知识图谱的文学编年史问答系统的构建方法
CN110413483B (zh) * 2019-07-30 2023-04-07 中国工商银行股份有限公司 批量作业数据的监控方法、装置、电子设备及存储介质
US11221896B2 (en) * 2020-01-22 2022-01-11 Idera, Inc. Systems and methods for API request conversion

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101167039A (zh) * 2005-04-22 2008-04-23 微软公司 用于查看和编辑多值属性的系统和方法
CN107122434A (zh) * 2017-04-18 2017-09-01 北京思特奇信息技术股份有限公司 一种将对账文件导入数据库的方法和系统
CN111367975A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种多协议数据转换处理方法及装置
CN111339041A (zh) * 2020-03-10 2020-06-26 中国建设银行股份有限公司 文件解析入库、文件生成方法及装置
CN111427901A (zh) * 2020-03-23 2020-07-17 浪潮通用软件有限公司 交互式知识图谱数据编辑方法、计算机设备和存储介质
CN111858730A (zh) * 2020-07-10 2020-10-30 苏州浪潮智能科技有限公司 一种图数据库的数据导入导出装置、方法、设备及介质
CN111930774A (zh) * 2020-08-06 2020-11-13 全球能源互联网研究院有限公司 一种电力知识图谱本体自动构建方法及系统
CN112416907A (zh) * 2020-12-03 2021-02-26 厦门市美亚柏科信息股份有限公司 一种数据库表数据导入导出方法、终端设备及存储介质
CN113111102A (zh) * 2021-03-30 2021-07-13 中国建设银行股份有限公司 数据处理方法及装置、计算机设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
地质图数据库数据格式转换方法研究;董玉森 等;《测绘通报》;20041025(第10期);27-29 *
基于Docker的云存储服务系统设计与实现;马青纯;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20170215(第2期);I138-2521 *

Also Published As

Publication number Publication date
CN113886482A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
US11146286B2 (en) Compression of JavaScript object notation data using structure information
US10896036B2 (en) Auto mapping recommender
CN111090417B (zh) 二进制文件解析方法、装置、设备及介质
CN114417408B (zh) 数据处理方法、装置、设备以及存储介质
CN113886482B (zh) 面向图数据库的数据自动入库方法、装置和设备
CN110795456B (zh) 图谱的查询方法、装置、计算机设备以及存储介质
US10235100B2 (en) Optimizing column based database table compression
CN114064925A (zh) 知识图谱的构建方法、数据查询方法、装置、设备和介质
CN113868273A (zh) 元数据的快照方法及其装置
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN115329150A (zh) 生成搜索条件树的方法、装置、电子设备及存储介质
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
US20210326514A1 (en) Method for generating interpretation text, electronic device and storage medium
CN114661918A (zh) 知识图谱构建方法、装置、存储介质及电子设备
CN113742321B (zh) 一种数据更新的方法和装置
CN112528593A (zh) 文档处理方法、装置、电子设备及存储介质
CN112887426A (zh) 信息流的推送方法、装置、电子设备以及存储介质
CN117076813B (zh) 前端浏览器渲染方法、装置、电子设备和存储介质
CN113361249B (zh) 文档判重方法、装置、电子设备和存储介质
CN113254826A (zh) 转储文件的处理方法及装置
CN113961560A (zh) 一种基于最短路径树技术实现数据血缘的批量检索和路径展示的方法及装置
CN114116919A (zh) 知识图谱的构建方法、数据查询方法、装置、设备和介质
CN117539954A (zh) 数据同步方法、装置、存储介质以及终端
CN116303529A (zh) 一种对象获取方法、装置、电子设备、计算机可读介质
CN115936358A (zh) 基于特征工程平台的特征处理方法、生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant