CN110427359A - 一种图数据处理方法和装置 - Google Patents
一种图数据处理方法和装置 Download PDFInfo
- Publication number
- CN110427359A CN110427359A CN201910567904.5A CN201910567904A CN110427359A CN 110427359 A CN110427359 A CN 110427359A CN 201910567904 A CN201910567904 A CN 201910567904A CN 110427359 A CN110427359 A CN 110427359A
- Authority
- CN
- China
- Prior art keywords
- vertex
- diagram data
- value
- data
- diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims description 35
- 238000003860 storage Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000003672 processing method Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 39
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000002688 persistence Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种图数据处理方法,包括以下步骤:通过图数据解析工具提取分布式存储的图数据,获取所述图数据的顶点属性值、顶点ID值并获取所述图数据的每条边的源顶点值和目的顶点值;通过图数据格式转换工具将顶点属性值、顶点ID值形成顶点数据记录文件并将每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式;以及通过所述分布式计算工具根据点数据记录文件和边数据记录文件进行构图,并根据所述图实例对象进行计算。通过本发明,可以将图数据的分布式存储和分布式计算结合起来,实现一站式图数据处理。
Description
技术领域
本发明涉及计算机领域,并且更具体地,涉及一种图数据处理方法和装置。
背景技术
在大数据时代,处理复杂关系构成的图数据时,图数据的存储和计算是通过不同的组件实现的,大多是利用SparkSQL分析Neo4j单机存储的图数据进行计算操作,而这限制了图数据的存储阈值,因为Neo4j不是分布式图数据库。虽然某些图数据库系统可以对图数据进行简单计算,但都是通过单个节点进行,效率低下,一旦数据量达到某个阈值,将导致节点内存不足,极大增加计算时间甚至造成该节点宕机,影响服务器性能,增加服务器维护成本。
于是,需要实现图数据的分布式存储和计算,以降低进行图数据处理所消耗的时空成本,但是目前并没有很好的能够实现图数据分布式存储和计算的一体化工具。而JanusGraph数据库可以实现图数据的分布式存储,SparkGraphX能够实现图数据的分布式计算,但SparkGraphX并不能够直接处理JanusGraph数据库中存储的图数据,因此需要一种方法或装置来实现基于JanusGraph和SparkGraphX的图数据处理。
发明内容
鉴于此,本发明实施例的目的在于提出一种图数据处理方法和装置,将图数据的分布式存储和分布式计算结合起来,实现一站式图数据处理,提升图数据的处理效率和计算速度。
基于上述目的,本发明实施例的一方面提供了一种图数据处理方法,包括以下步骤:
通过图数据解析工具提取分布式存储的图数据,获取所述图数据的顶点属性值、顶点ID值并获取所述图数据的每条边的源顶点值和目的顶点值;
通过图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式;以及
通过所述分布式计算工具根据所述顶点数据记录文件和所述边数据记录文件进行构图,并根据所述图实例对象进行计算。
在一些实施方式中,所述图数据解析工具配置为从JanusGraph数据库中提取分布式存储的图数据。
在一些实施方式中,所述分布式计算工具包括SparkGraphX图数据计算工具。
在一些实施方式中,通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式包括:
通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点ID+分隔符+顶点属性值的顶点数据记录文件。
在一些实施方式中,通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式还包括:
通过所述图数据格式转换工具将所述每条边的源顶点值和目的顶点值形成源顶点值+分隔符+目的顶点值的边数据记录文件。
在一些实施方式中,所述方法还包括:
通过图数据清洗工具对所述图数据格式转换工具形成的所述顶点数据记录文件和所述边数据记录文件进行数据清洗,除去无效的和无意义的字段。
在一些实施方式中,所述方法还包括:
将所述图数据清洗工具处理好的数据导入到HDFS系统中进行持久化图数据操作。
在一些实施方式中,所述SparkGraphX配置为基于持久化图数据操作后的所述边数据记录文件和所述顶点数据记录文件进行构图。
本发明实施例的又一方面提供了一种图数据处理装置,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施上述任一项所述的方法。
在一些实施方式中,所述系统基于JanusGraph数据库和SparkGraphX图数据计算工具。
本发明具有以下有益技术效果:本发明实施例提供的一种基于JanusGraph和SparkGraphX的图数据处理方法和装置将图数据的分布式存储和分布式计算结合起来,实现一站式图数据处理,极大地提升了图数据的处理效率和计算速度,由于存储和计算过程都是基于分布式的操作,很大程度地提高了服务器内存资源的利用率,极大降低了服务器的维护成本和进行图计算所消耗的时空成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1是根据本发明的一种图数据处理方法流程图;
图2是根据本发明实施例的基于JanusGraph和SparkGraphX的图数据处理方法示意图;以及
图3是根据本发明实施例的图数据处理装置的硬件结构示意图。
具体实施方式
以下描述了本公开的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本公开的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例一方面提出了一种图数据处理方法,如图1所示,包括以下步骤:
步骤S101:通过图数据解析工具提取分布式存储的图数据,获取所述图数据的顶点属性值、顶点ID值并获取所述图数据的每条边的源顶点值和目的顶点值;
步骤S102:通过图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式;以及
步骤S103:通过所述分布式计算工具根据所述顶点数据记录文件和所述边数据记录文件进行构图,并根据所述图实例对象进行计算。
在一些实施例中,图数据解析工具配置为从JanusGraph数据库中提取分布式存储的图数据。图数据存储在JanusGraph分布式图数据库系统中,JanusGraph图数据库是基于HBase和HDFS对数据进行存储的。图数据进行复杂的运算操作时,并不是在JanusGraph图数据库系统中进行,而是使用图数据解析工具将JanusGraph图数据中的图数据格式进行解析操作,然后将解析获得的数据信息临时保存到数据缓冲区。
在一些实施例中,所述分布式计算工具包括SparkGraphX分布式图数据计算工具,SparkGraphX是针对存储在HDFS或本地文件系统上的具有指定格式的图数据进行处理的。由于SparkGraphX无法直接对JanusGraph存储的图数据格式进行处理,所以本方法是首先对JanusGraph存储的图数据格式进行解析并转换为SparkGraphX可以直接处理的数据,转换之后的新的数据文件存放在HDFS中。经过本方法转换之后的图数据,可以直接被SparkGraphX进行复杂的图计算。
在一些实施例中,通过图数据格式转换工具将解析后的数据进行格式转换,得到SparkGraphX可以识别的数据格式。其中,图数据格式转换工具将顶点属性值、顶点ID值形成顶点ID+分隔符+顶点属性值的顶点数据记录文件;并将每条边的源顶点值和目的顶点值形成源顶点值+分隔符+目的顶点值的边数据记录文件。
在一些实施例中,如图2所示,该方法还包括在对图数据进行自定义的图计算操作之前,通过图数据清洗工具将图数据格式转换工具形成的顶点数据记录文件和边数据记录文件进行数据清洗,除去无效的和无意义的字段;将处理好的图数据文件导入到HDFS系统中进行持久化图数据操作,最后使用SparkGraphX对图数据进行自定义的图计算操作。
在一些实施例中,SparkGraphX可以利用其API通过自带的几种构图方式基于持久化图数据操作后的边数据记录文件和顶点数据记录文件进行构图。
在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,或者改变、添加以及省略等等,从而形成本发明范围内的另外实施例。
从上述实施例可以看出,本发明实施例提供的一种图数据处理方法将图数据的分布式存储和分布式计算结合起来,实现一站式图数据处理,极大地提升了图数据的处理效率和计算速度,由于存储和计算过程都是基于分布式的操作,很大程度地提高了服务器内存资源的利用率,极大降低了服务器的维护成本和进行图计算所消耗的时空成本。
基于上述目的,本发明实施例的另一个方面,提出了一种图数据处理装置,包括:图数据解析工具和图数据格式转换工具,其中:
图数据解析工具提取JanusGraph数据库中的图数据,获取图数据的顶点属性值、顶点ID值并获取图数据的每条边的源顶点值和目的顶点值;以及图数据格式转换工具将顶点属性值、顶点ID值形成顶点数据记录文件并将每条边的源顶点值和目的顶点值形成边数据记录文件。
在一些实施例中,该装置还包括数据清洗工具,该图数据清洗工具将图数据格式转换工具形成的图数据文件进行数据清洗,除去无效的和无意义的字段。然后,SparkGraphX根据图数据清洗工具清洗后的顶点数据记录文件和边数据记录文件进行构图,并根据图实例对象进行计算。
在一些实施例中,图数据格式转换工具将解析后的数据进行格式转换,得到SparkGraphX可以识别的数据格式。其中,图数据格式转换工具将顶点属性值、顶点ID值形成顶点ID+分隔符+顶点属性值的顶点数据记录文件;并将每条边的源顶点值和目的顶点值形成源顶点值+分隔符+目的顶点值的边数据记录文件。
从上述实施例可以看出,本发明实施例提供的一种基于JanusGraph和SparkGraphX的图数据处理装置将图数据的分布式存储工具JanusGraph和图数据分布式计算工具SparkGraphX结合起来,为实现基于内存的图数据存储和计算的一站式的分布式操作提供了可能。
基于上述目的,本发明实施例的又一个方面,提出了一种图数据处理装置一个实施例。
所述图数据处理装置包括存储器、和至少一个处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行上述任意一种方法。
如图3所示,为本发明提供的图数据处理装置的一个实施例的硬件结构示意图。
以如图3所示的计算机设备为例,在该计算机设备中包括处理器301以及存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述基于JanusGraph和SparkGraphX的图数据处理方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于JanusGraph和SparkGraphX的图数据处理方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于JanusGraph和SparkGraphX的图数据处理方法所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的数字或字符信息,以及产生与基于JanusGraph和SparkGraphX的图数据处理方法的计算机设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
所述一个或者多个图数据处理方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的图数据处理方法。
所述执行所述图数据处理方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器、磁盘或光盘等。
上述实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种图数据处理方法,其特征在于,包括以下步骤:
通过图数据解析工具提取分布式存储的图数据,获取所述图数据的顶点属性值、顶点ID值并获取所述图数据的每条边的源顶点值和目的顶点值;
通过图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式;以及
通过所述分布式计算工具根据所述顶点数据记录文件和所述边数据记录文件进行构图,并根据所述图实例对象进行计算。
2.根据权利要求1所述的方法,其特征在于,所述图数据解析工具配置为从JanusGraph数据库中提取分布式存储的图数据。
3.根据权利要求2所述的方法,其特征在于,所述分布式计算工具包括SparkGraphX图数据计算工具。
4.根据权利要求3所述的方法,其特征在于,通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式包括:
通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点ID+分隔符+顶点属性值的顶点数据记录文件。
5.根据权利要求3所述的方法,其特征在于,通过所述图数据格式转换工具将所述顶点属性值、顶点ID值形成顶点数据记录文件并将所述每条边的源顶点值和目的顶点值形成边数据记录文件,以得到分布式计算工具可识别的数据格式还包括:
通过所述图数据格式转换工具将所述每条边的源顶点值和目的顶点值形成源顶点值+分隔符+目的顶点值的边数据记录文件。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过图数据清洗工具对所述图数据格式转换工具形成的所述顶点数据记录文件和所述边数据记录文件进行数据清洗,除去无效的和无意义的字段。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述图数据清洗工具处理好的数据导入到HDFS系统中进行持久化图数据操作。
8.根据权利要求7所述的方法,其特征在于,所述SparkGraphX配置为基于持久化图数据操作后的所述边数据记录文件和所述顶点数据记录文件进行构图。
9.一种图数据处理装置,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-8中任一项所述的方法。
10.根据权利要求9所述的装置,其特征在于,所述系统基于JanusGraph数据库和SparkGraphX图数据计算工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910567904.5A CN110427359A (zh) | 2019-06-27 | 2019-06-27 | 一种图数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910567904.5A CN110427359A (zh) | 2019-06-27 | 2019-06-27 | 一种图数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110427359A true CN110427359A (zh) | 2019-11-08 |
Family
ID=68409727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910567904.5A Pending CN110427359A (zh) | 2019-06-27 | 2019-06-27 | 一种图数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427359A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090782A (zh) * | 2019-12-17 | 2020-05-01 | 北京锐安科技有限公司 | 一种图数据存储方法、装置、设备及存储介质 |
US10754700B2 (en) | 2017-01-24 | 2020-08-25 | Oracle International Corporation | Distributed graph processing system featuring interactive remote control mechanism including task cancellation |
CN113468275A (zh) * | 2021-07-28 | 2021-10-01 | 浙江大华技术股份有限公司 | 图数据库的数据导入方法和装置、存储介质及电子设备 |
CN113656411A (zh) * | 2021-08-20 | 2021-11-16 | 北京中经惠众科技有限公司 | 用于图数据入库的方法及其装置 |
CN113806302A (zh) * | 2021-11-11 | 2021-12-17 | 支付宝(杭州)信息技术有限公司 | 图状态数据管理方法及装置 |
US11250059B2 (en) | 2020-01-09 | 2022-02-15 | Oracle International Corporation | Optimizing graph queries by performing early pruning |
US11456946B2 (en) | 2020-06-11 | 2022-09-27 | Oracle International Corporation | Regular path queries (RPQS) for distributed graphs |
US11461130B2 (en) | 2020-05-26 | 2022-10-04 | Oracle International Corporation | Methodology for fast and seamless task cancelation and error handling in distributed processing of large graph data |
US11675785B2 (en) | 2020-01-31 | 2023-06-13 | Oracle International Corporation | Dynamic asynchronous traversals for distributed graph queries |
CN117708384A (zh) * | 2024-01-31 | 2024-03-15 | 中电云计算技术有限公司 | 基于JanusGraph的图数据存储方法、装置、设备及存储介质 |
US12001425B2 (en) | 2020-12-09 | 2024-06-04 | Oracle International Corporation | Duplication elimination in depth based searches for distributed systems |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336808A (zh) * | 2013-06-25 | 2013-10-02 | 中国科学院信息工程研究所 | 一种基于bsp模型的实时图数据处理系统及方法 |
US20150350324A1 (en) * | 2014-05-28 | 2015-12-03 | Fujitsu Limited | Method and system for storing distributed graph data |
CN106611037A (zh) * | 2016-09-12 | 2017-05-03 | 星环信息科技(上海)有限公司 | 用于分布式图计算的方法与设备 |
CN109670089A (zh) * | 2018-12-29 | 2019-04-23 | 颖投信息科技(上海)有限公司 | 知识图谱系统及其图服务器 |
-
2019
- 2019-06-27 CN CN201910567904.5A patent/CN110427359A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336808A (zh) * | 2013-06-25 | 2013-10-02 | 中国科学院信息工程研究所 | 一种基于bsp模型的实时图数据处理系统及方法 |
US20150350324A1 (en) * | 2014-05-28 | 2015-12-03 | Fujitsu Limited | Method and system for storing distributed graph data |
CN106611037A (zh) * | 2016-09-12 | 2017-05-03 | 星环信息科技(上海)有限公司 | 用于分布式图计算的方法与设备 |
CN109670089A (zh) * | 2018-12-29 | 2019-04-23 | 颖投信息科技(上海)有限公司 | 知识图谱系统及其图服务器 |
Non-Patent Citations (4)
Title |
---|
WEIXIN_33882452: "Graphx处理janusGraph数据实现", 《CSDN》 * |
张陶等: "基于GraphX的传球网络构建及分析研究", 《计算机研究与发展》 * |
王继成等: "《大数据时代高校信息化战略与实践》", 31 May 2016 * |
青岛英谷教育科技股份有限公司: "《云计算与大数据概论》", 31 October 2017 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10754700B2 (en) | 2017-01-24 | 2020-08-25 | Oracle International Corporation | Distributed graph processing system featuring interactive remote control mechanism including task cancellation |
CN111090782A (zh) * | 2019-12-17 | 2020-05-01 | 北京锐安科技有限公司 | 一种图数据存储方法、装置、设备及存储介质 |
US11250059B2 (en) | 2020-01-09 | 2022-02-15 | Oracle International Corporation | Optimizing graph queries by performing early pruning |
US11675785B2 (en) | 2020-01-31 | 2023-06-13 | Oracle International Corporation | Dynamic asynchronous traversals for distributed graph queries |
US11461130B2 (en) | 2020-05-26 | 2022-10-04 | Oracle International Corporation | Methodology for fast and seamless task cancelation and error handling in distributed processing of large graph data |
US11456946B2 (en) | 2020-06-11 | 2022-09-27 | Oracle International Corporation | Regular path queries (RPQS) for distributed graphs |
US12001425B2 (en) | 2020-12-09 | 2024-06-04 | Oracle International Corporation | Duplication elimination in depth based searches for distributed systems |
CN113468275A (zh) * | 2021-07-28 | 2021-10-01 | 浙江大华技术股份有限公司 | 图数据库的数据导入方法和装置、存储介质及电子设备 |
CN113656411A (zh) * | 2021-08-20 | 2021-11-16 | 北京中经惠众科技有限公司 | 用于图数据入库的方法及其装置 |
CN113806302A (zh) * | 2021-11-11 | 2021-12-17 | 支付宝(杭州)信息技术有限公司 | 图状态数据管理方法及装置 |
CN117708384A (zh) * | 2024-01-31 | 2024-03-15 | 中电云计算技术有限公司 | 基于JanusGraph的图数据存储方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427359A (zh) | 一种图数据处理方法和装置 | |
US10089352B2 (en) | Offloading projection of fixed and variable length database columns | |
CN104484216A (zh) | 服务接口文档和在线测试工具生成方法、装置 | |
JP6123897B2 (ja) | 処理プログラム、処理システムおよび処理方法 | |
CN105512162A (zh) | 一种基于Storm的流数据实时智能化处理框架 | |
EP3113020A1 (en) | Data processing device and method for processing serial tasks | |
CN110009336A (zh) | 基于区块链的取证方法及装置 | |
CN110442424A (zh) | 一种实现虚拟机管理平台动态配置规则的方法和装置 | |
CN104408178A (zh) | Web控件加载装置和方法 | |
CN109472364B (zh) | 量子程序的处理方法及装置、存储介质和电子装置 | |
Szul et al. | Productivity frameworks in big data image processing computations-creating photographic mosaics with Hadoop and Scalding | |
CN114615519B (zh) | 视频处理方法、装置、设备和存储介质 | |
CN108255486B (zh) | 用于表单设计的视图转换方法、装置和电子设备 | |
CN109491787A (zh) | 一种集群计算环境下计算资源的记账统计方法和系统 | |
CN104484174A (zh) | Rar格式的压缩文件的处理方法和装置 | |
CN114265500A (zh) | 一种基于传感器技术的虚拟现实增强方法及系统 | |
CN110442433A (zh) | 一种执行sql任务的方法、设备以及存储介质 | |
Téllez‐Velázquez et al. | A Spark image processing toolkit | |
CN104392410A (zh) | 皮肤系统中的图片整合方法、皮肤绘制方法及设备 | |
CN110727654B (zh) | 分布式系统的数据提取方法、装置、服务器和存储介质 | |
Lugnegård | Building a high throughput microscope simulator using the Apache Kafka streaming framework | |
US9235382B2 (en) | Input filters and filter-driven input processing | |
CN113744744A (zh) | 一种音频编码方法、装置、电子设备及存储介质 | |
CN117119042A (zh) | 微服务的任务处理方法、装置、计算机设备和存储介质 | |
CN117201642A (zh) | 报文转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |