CN116594958A - 一种图数据集加载方法、系统、电子设备、介质 - Google Patents
一种图数据集加载方法、系统、电子设备、介质 Download PDFInfo
- Publication number
- CN116594958A CN116594958A CN202310606081.9A CN202310606081A CN116594958A CN 116594958 A CN116594958 A CN 116594958A CN 202310606081 A CN202310606081 A CN 202310606081A CN 116594958 A CN116594958 A CN 116594958A
- Authority
- CN
- China
- Prior art keywords
- graph
- data
- dataset
- file
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011068 loading method Methods 0.000 title claims abstract description 43
- 238000013507 mapping Methods 0.000 claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 19
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 240000004718 Panda Species 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种图数据集加载方法、系统、电子设备、介质,包括:获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。本发明方法可以加载任意格式的图数据集,极大地提升了在图计算的过程中在图数据集上的加载效率。
Description
技术领域
本申请涉及图数据处理领域,特别是涉及一种图数据集加载方法、系统、电子设备、介质。
背景技术
图计算被广泛应用于社交网络分析、生物信息领域、道路规划、推荐系统等各个领域。图计算的第一步是加载图数据集,即从存储介质中读取自己或他人提供的图数据,并转换成为图计算所需的数据格式。
图数据集一般由点、边、点属性、边属性这些图数据构成,数据量一般很大。为节省存储空间,一般都会采用压缩格式进行存储。
目前,很多公司和组织提供了开源图数据集,算法人员可以把这些图数据集用于自己的图计算算法中。但是,由于图结构的复杂性,且缺少统一的图数据集格式标准,这些图数据集格式各不相同,对算法人员使用图数据集造成了很大的困难,图数据集格式的不同体现在以下两个方面:
1、图数据集压缩存储的格式不同(如npy、csv、pkl等)。
2、图数据集文件中的数据和实际图结构的点/边/属性之间的字段映射关系很复杂,不同图数据集的做法也各不相同。
目前主流的图计算框架,也都会内置对部分图数据集的支持,但由于缺少一种能加载任意格式图数据集的方法,导致如果想加载非内置的图数据集,需要先针对该图数据集格式的进行调整再加载。
发明内容
针对现有技术不足,本发明提供了一种图数据集加载方法、系统、电子设备、介质。
根据本发明实施例的第一方面,提供了一种图数据集加载方法,所述方法包括:
步骤S1,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;
步骤S2,对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S101,获取图数据集文件;
步骤S102:计算图数据集文件的SHA256值。
步骤S103:根据图数据集文件的SHA256值,判断图数据集是否存在缓存的预览数据;
当存在缓存的预览数据时,直接读取该缓存的预览数据;
当不存在缓存的预览数据时,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据;
步骤S104:预览数据包含列名以及每列的数据字段,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与数据字段的映射关系,得到图数据集字段映射关系配置文件。
进一步地,当存在缓存的预览数据时,直接读取该缓存的预览数据包括:
将图数据集文件的md5值作为图数据集预览数据缓存的key;
将根据该key值从缓存中查询到的value作为预览数据。
进一步地,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析包括:
对于npy图数据集文件压缩存储格式,使用numpy库load方法对图数据集文件进行解析;
对于pkl图数据集文件压缩存储格式,使用wg_torch库load_pickle_data方法对图数据集文件进行解析;
对于csv图数据集文件压缩存储格式,使用pandas库read_csv方法对图数据集文件进行解析。
进一步地,所述步骤S2包括:
步骤S201,根据图数据集压缩存储格式对图数据集再次进行完整解析,得到解析图数据;
步骤S202,读取图数据集字段映射关系配置文件,根据图数据集字段映射关系配置文件,从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
进一步地,标准格式的图结构为:
每个点保存为一点文件,点文件中存储点ID以及点的所有属性;
每个边保存为一边文件,边文件中保存边的起点、终点以及边的所有属性。
进一步地,所述步骤S2还包括:对图数据进行特征处理。
根据本发明实施例的第二方面,提供了一种图数据集加载系统,所述系统包括:
图数据集字段映射关系配置模块,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;
图数据加载模块,对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
进一步地,所述图数据集字段映射关系配置模块包括:
数据集解析子模块,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据;
数据集预览数据缓存子模块,对图数据集解析后得到的预览数据进行缓存;
图数据集字段映射关系配置子模块,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与预览数据中的数据字段的映射关系,得到标准格式的图数据集字段映射关系配置文件;
进一步地,所述图数据加载模块包括:
入参检查子模块,将图数据集、图数据集字段映射关系配置文件作为入参,并进行检查;
数据格式解析子模块,对图数据集再次进行完整解析,得到解析图数据;
数据格式转换子模块,读取数据字段映射关系配置文件,根据图数据集字段映射关系配置文件,从解析图数据中读取对应的图结构点/边/属性,将解析图数据转换成标准格式的图结构文件。
根据本发明实施例的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的图数据集加载方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的图数据集加载方法。
与现有技术相比,本发明的有益效果为:本发明先对图数据集中的部分图数据进行解析,得到预览图数据,基于预览图数据通过交互式的方式配置图数据集字段映射关系;再对图数据集中的所有图数据进行解析,得到完整的解析图数据,根据图数据集字段映射关系,从完整的解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。本发明方法可以加载任意格式的图数据集,极大地提升了在图计算的过程中在图数据集上的加载效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图数据集加载方法的流程示意图;
图2为本发明实施例提供的图数据集字段映射关系配置的流程示意图;
图3为本发明实施例提供的图数据集字段映射关系配置的交互示意图;
图4为本发明实施例提供的图数据集加载的流程示意图;
图5为本发明实施例提供的图数据集加载系统的示意图;
图6为本发明实施例提供的图数据集字段映射关系配置模块的示意图;
图7为本发明实施例提供的图数据集加载模块的示意图;
图8为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应该理解,可以以各种形式实现本公开而不应该被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明提供了一种图数据集加载方法,可以让图计算开发人员以交互式的方式配置图数据集字段映射关系,再进行图数据集加载,极大提高了图计算加载图数据集的效率。
需要说明的是,本发明所提到的图数据集加载指的是,图计算运行时,从存储介质中读取自己或他人提供的图数据集,并将图数据集转换成为图计算所需的数据格式的过程。
所述图数据集加载方法,包括以下步骤:
步骤S1,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件。
步骤S2,对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
如图2所示,所述步骤S1具体包括以下子步骤:
步骤S101,获取图数据集文件;
在一些实施案例中,通过提供图数据集文件的存储路径或者网络URL地址,替代直接上传图数据集。
步骤S102:计算图数据集文件的SHA256值。
步骤S103:根据图数据集文件的SHA256值,判断图数据集是否存在缓存的预览数据;
当存在缓存的预览数据时,直接读取该缓存的预览数据。
在一些实施案例中,将图数据集文件的md5值作为图数据集预览数据缓存的key;将根据该key值从缓存中查询到的value作为预览数据。
当不存在缓存的预览数据时,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据。
进一步地,在本实例中,N取100。同时,以原始的图数据集文件的SHA256值为key,以预览数据为value,保存到图数据集内容缓存中。
示例性地,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析不同格式的图数据集包括:
对于npy格式,可以使用numpy库load方法对图数据集文件进行解析。
对于pkl格式,可以使用wg_torch库load_pickle_data方法对图数据集文件进行解析。
对于csv格式,可以使用pandas库read_csv方法对图数据集文件进行解析。
步骤S104:预览数据包含列名以及每列的数据字段,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与数据字段的映射关系,得到图数据集字段映射关系配置文件。
示例性地,如图3所示,预览数据包含列名[列0,列1,列2,列3,列4]以及每列的数据字段,其中,列0对应的数据字段为[data11,data13,,,data1n]。构造图结构,设置节点node1、node2和、node3,配置节点node1的点属性feature1,配置节点node2的点属性feature2,配置节点node1和节点node2之间的边的边属性feature3。将节点node1与预览数据中的列0相连,将边属性feature3与预览数据中的列1相连,将节点node2与预览数据中的列2相连,将点属性feature2与预览数据中的列3相连,将点属性feature1与预览数据中的列4相连。
如图4所示,所述步骤S2具体包括以下子步骤:
步骤S201,根据图数据集压缩存储格式对图数据集再次进行完整解析,得到解析图数据;
步骤S202,读取图数据集字段映射关系配置文件,根据图数据集字段映射关系配置文件,从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
在一些实施案例中,标准格式的图结构文件格式如下:每个点和边保存为一个文件,点文件中保存点ID以及点的所有属性,边文件中保存边的起点、终点以及边的所有属性。
在一些实施案例中,将数据转换成标准格式的图结构时,会综合考虑特征工程的需求,对每条数据完成格式转换时直接完成特征处理,避免格式转换和特征处理2次落盘操作导致的高耗时。
如图5所示,本发明实施例还提供了一种图数据集加载系统,所述系统包括:图数据集字段映射关系配置模块、图数据加载模块。
图数据集字段映射关系配置模块,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件。
图数据加载模块,用于对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
如图6所示,所述图数据集字段映射关系配置模块包括:
数据集解析子模块,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据。
需要说明的是,图数据集文件的压缩存储格式多种多样(如npy、csv、pkl等),每种压缩存储格式有对应的解析方式,实现图数据集文件的解析,解析的结果是1个或者多个数据文件。
数据集预览数据缓存子模块,对图数据集解析后得到的预览数据进行缓存。
需要说明的是,图数据集一般数据量比较大,数据解析花费时间长,数据集内容缓存功能,以数据集内容SHA256值为key,对数据集解析后得到的预览数据进行缓存。实现多次配置同一个数据集字段映射关系时,只有第一次需要执行耗时的数据集解析操作。
图数据集字段映射关系配置子模块,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与预览数据中的数据字段的映射关系,得到标准格式的图数据集字段映射关系配置文件。
其中,标准格式的图数据集字段映射关系配置文件,包括以下信息:图结构的点、每个点关联解析后的数据文件名以及字段列号、图结构的点属性、每个点属性关联解析后的数据文件名以及字段列号、图结构的边、每条边的起点和终点、图结构的边属性、每个边属性关联解析后的数据文件名及字段列号。
如图7所示,所述图数据加载模块包括:
入参检查子模块,将图数据集、图数据集字段映射关系配置文件作为入参,并进行检查。
数据格式解析子模块,对图数据集再次进行完整解析,得到解析图数据。
数据格式转换子模块,读取数据字段映射关系配置文件,根据图数据集字段映射关系配置文件,从解析图数据中读取对应的图结构点/边/属性,将解析图数据转换成标准格式的图结构文件。
如图8所示,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种图数据集加载方法,其特征在于,所述方法包括:
步骤S1,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;
步骤S2,对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
2.根据权利要求1所述的图数据集加载方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S101,获取图数据集文件;
步骤S102:计算图数据集文件的SHA256值。
步骤S103:根据图数据集文件的SHA256值,判断图数据集是否存在缓存的预览数据;
当存在缓存的预览数据时,直接读取该缓存的预览数据;
当不存在缓存的预览数据时,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据;
步骤S104:预览数据包含列名以及每列的数据字段,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与数据字段的映射关系,得到图数据集字段映射关系配置文件。
3.根据权利要求2所述的图数据集加载方法,其特征在于,当存在缓存的预览数据时,直接读取该缓存的预览数据包括:
将图数据集文件的md5值作为图数据集预览数据缓存的key;
将根据该key值从缓存中查询到的value作为预览数据。
4.根据权利要求2所述的图数据集加载方法,其特征在于,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析包括:
对于npy图数据集文件压缩存储格式,使用numpy库load方法对图数据集文件进行解析;
对于pkl图数据集文件压缩存储格式,使用wg_torch库load_pickle_data方法对图数据集文件进行解析;
对于csv图数据集文件压缩存储格式,使用pandas库read_csv方法对图数据集文件进行解析。
5.根据权利要求1所述的图数据集加载方法,其特征在于,标准格式的图结构为:
每个点保存为一点文件,点文件中存储点ID以及点的所有属性;
每个边保存为一边文件,边文件中保存边的起点、终点以及边的所有属性。
6.根据权利要求1所述的图数据集加载方法,其特征在于,所述步骤S2还包括:对图数据进行特征处理。
7.一种图数据集加载系统,其特征在于,所述系统包括:
图数据集字段映射关系配置模块,获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;
图数据加载模块,对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。
8.根据权利要求7所述的图数据集加载系统,其特征在于,所述图数据集字段映射关系配置模块包括:
数据集解析子模块,根据图数据集文件压缩存储格式的不同对图数据集文件进行解析,对解析后的每个图数据集文件加载前N条作为预览数据;
数据集预览数据缓存子模块,对图数据集解析后得到的预览数据进行缓存;
图数据集字段映射关系配置子模块,交互式地添加点、边、点属性和边属性构造图结构,配置图结构与预览数据中的数据字段的映射关系,得到标准格式的图数据集字段映射关系配置文件;
所述图数据加载模块包括:
入参检查子模块,将图数据集、图数据集字段映射关系配置文件作为入参,并进行检查;
数据格式解析子模块,对图数据集再次进行完整解析,得到解析图数据;
数据格式转换子模块,读取数据字段映射关系配置文件,根据图数据集字段映射关系配置文件,从解析图数据中读取对应的图结构点/边/属性,将解析图数据转换成标准格式的图结构文件。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的图数据集加载方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的图数据集加载方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606081.9A CN116594958A (zh) | 2023-05-25 | 2023-05-25 | 一种图数据集加载方法、系统、电子设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606081.9A CN116594958A (zh) | 2023-05-25 | 2023-05-25 | 一种图数据集加载方法、系统、电子设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116594958A true CN116594958A (zh) | 2023-08-15 |
Family
ID=87604279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310606081.9A Pending CN116594958A (zh) | 2023-05-25 | 2023-05-25 | 一种图数据集加载方法、系统、电子设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116594958A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992065A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种图数据库数据导入方法、系统、电子设备、介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183393A (zh) * | 2015-09-21 | 2015-12-23 | 上海维宏电子科技股份有限公司 | 基于磁盘缓存实现文件快速预览的方法 |
US20170228898A1 (en) * | 2016-02-08 | 2017-08-10 | Adobe Systems Incorporated | Generating graphical depictions of data sets based on mapping paths of graphical objects to data properties |
CN110609876A (zh) * | 2018-05-28 | 2019-12-24 | 湖南中车时代通信信号有限公司 | 用于城轨互联互通的车载电子地图自动转换方法及系统 |
CN111062189A (zh) * | 2018-10-16 | 2020-04-24 | 鸿合科技股份有限公司 | 一种数据解析方法及装置、电子设备 |
CN111367988A (zh) * | 2020-03-31 | 2020-07-03 | 中国建设银行股份有限公司 | 数据导入方法及装置 |
CN113609175A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种基于图数据库的电商商品属性数据处理方法及装置 |
CN113886482A (zh) * | 2021-12-07 | 2022-01-04 | 北京华云安信息技术有限公司 | 面向图数据库的数据自动入库方法、装置和设备 |
CN114048219A (zh) * | 2021-11-15 | 2022-02-15 | 新华三大数据技术有限公司 | 图数据库更新方法及装置 |
CN114756714A (zh) * | 2022-03-23 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 一种图数据的处理方法、装置以及存储介质 |
CN115658978A (zh) * | 2022-11-14 | 2023-01-31 | 杭州欧若数网科技有限公司 | 图数据库系统多源数据导入方法和装置 |
CN116126957A (zh) * | 2023-01-12 | 2023-05-16 | 广东世纪高通科技有限公司 | 数据格式转换方法、装置、设备及存储介质 |
-
2023
- 2023-05-25 CN CN202310606081.9A patent/CN116594958A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183393A (zh) * | 2015-09-21 | 2015-12-23 | 上海维宏电子科技股份有限公司 | 基于磁盘缓存实现文件快速预览的方法 |
US20170228898A1 (en) * | 2016-02-08 | 2017-08-10 | Adobe Systems Incorporated | Generating graphical depictions of data sets based on mapping paths of graphical objects to data properties |
CN110609876A (zh) * | 2018-05-28 | 2019-12-24 | 湖南中车时代通信信号有限公司 | 用于城轨互联互通的车载电子地图自动转换方法及系统 |
CN111062189A (zh) * | 2018-10-16 | 2020-04-24 | 鸿合科技股份有限公司 | 一种数据解析方法及装置、电子设备 |
CN111367988A (zh) * | 2020-03-31 | 2020-07-03 | 中国建设银行股份有限公司 | 数据导入方法及装置 |
CN113609175A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种基于图数据库的电商商品属性数据处理方法及装置 |
CN114048219A (zh) * | 2021-11-15 | 2022-02-15 | 新华三大数据技术有限公司 | 图数据库更新方法及装置 |
CN113886482A (zh) * | 2021-12-07 | 2022-01-04 | 北京华云安信息技术有限公司 | 面向图数据库的数据自动入库方法、装置和设备 |
CN114756714A (zh) * | 2022-03-23 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 一种图数据的处理方法、装置以及存储介质 |
CN115658978A (zh) * | 2022-11-14 | 2023-01-31 | 杭州欧若数网科技有限公司 | 图数据库系统多源数据导入方法和装置 |
CN116126957A (zh) * | 2023-01-12 | 2023-05-16 | 广东世纪高通科技有限公司 | 数据格式转换方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992065A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种图数据库数据导入方法、系统、电子设备、介质 |
CN116992065B (zh) * | 2023-09-26 | 2024-01-12 | 之江实验室 | 一种图数据库数据导入方法、系统、电子设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8615499B2 (en) | Estimating data reduction in storage systems | |
CN110162544B (zh) | 异构数据源数据获取方法及装置 | |
CN112148674B (zh) | 日志数据处理方法、装置、计算机设备和存储介质 | |
CN111241182A (zh) | 数据处理方法和装置、存储介质和电子装置 | |
WO2022095699A1 (zh) | 底层数据管理方法、系统及计算机可读存储介质 | |
CN116594958A (zh) | 一种图数据集加载方法、系统、电子设备、介质 | |
CN113656503A (zh) | 数据同步方法、装置、系统及计算机可读存储介质 | |
CN110362547A (zh) | 日志文件的编码、解析、存储方法和装置 | |
CN112966469A (zh) | 文档中的图表处理方法、装置、设备及存储介质 | |
CN112729868A (zh) | 一种车辆诊断方法、装置、设备及介质 | |
CN114116842B (zh) | 多维医疗数据实时获取方法、装置、电子设备及存储介质 | |
CN104954363A (zh) | 用于生成接口文档的方法和装置 | |
CN112883088B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN111143310B (zh) | 日志记录方法及装置、可读存储介质 | |
US7856344B2 (en) | Method for transforming overlapping paths in a logical model to their physical equivalent based on transformation rules and limited traceability | |
CN111930690B (zh) | 文件生成方法及装置 | |
CN114490718A (zh) | 数据输出方法、装置、电子设备和计算机可读介质 | |
US20170031884A1 (en) | Automated dependency management based on page components | |
CN114003220A (zh) | 工作流模型实现方法、系统、可读存储介质及计算机设备 | |
CN109491699B (zh) | 应用程序的资源检查方法、装置、设备及存储介质 | |
CN113612832A (zh) | 流式数据分发方法与系统 | |
CN114371866A (zh) | 业务系统的版本重构测试方法、装置和设备 | |
CN113778886B (zh) | 一种测试用例的处理方法和装置 | |
CN110134843B (zh) | 一种目标文件的生成方法以及装置 | |
CN115379441B (zh) | 一种5g信号传输功率限制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |