CN113553458A - 图数据库中的数据导出方法及装置 - Google Patents
图数据库中的数据导出方法及装置 Download PDFInfo
- Publication number
- CN113553458A CN113553458A CN202110915641.XA CN202110915641A CN113553458A CN 113553458 A CN113553458 A CN 113553458A CN 202110915641 A CN202110915641 A CN 202110915641A CN 113553458 A CN113553458 A CN 113553458A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- exported
- mapping table
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 104
- 238000004891 communication Methods 0.000 claims description 19
- 238000009795 derivation Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种图数据库中的数据导出方法及装置,其中,该方法包括:查询图像数据库中待导出数据的单元格,其中,所述单元格包括所述待导出数据的属性名和标签信息;在所述标签信息与预设的标签信息匹配的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名;其中,所述映射表中预存储有用于表征所述属性名与所述待导出数据的属性ID之间的映射关系;基于所述映射表导出所述待导出数据。通过本申请,解决了现有技术中先从底层存储返回给图数据库端,再从图数据库返回导出数据,导致数据导出效率较低的问题。
Description
技术领域
本申请涉及知识图谱技术领域,具体涉及一种图数据库中的数据导出方法及装置。
背景技术
知识图谱被用于描述事物之间的关联,一种知识图谱的具体描述方式包括定义图谱中的实体(即图中的点)、关系(即图中的边)和实体/关系相关的属性(即属性图),其描述定义离不开对图数据库的使用,目前的普遍做法是将真实的实体关系原始数据导入到图数据库中,再通过图数据库的接口实现知识图谱的构建。
知识图谱的构建依赖图数据库,目前常用的图数据库有Janusgraph、Hugegraph、Neo4j、NebulaGraph等,各种图数据库架构不同、组件不同、优劣势不同,我们需要根据业务应用场景选择合适的图数据库。而随着时代的发展、产品的更迭,业务场景的变化,图数据库的选择也需要更换,就目前使用实例来说,起初使用的是Janusgraph,后来由于业务场景更换,需要换成Hugegraph,则需要把Janusgraph中的数据迁移到Hugegraph,在原始数据源众多或者丢失的情况下,则需要将Janusgragh中的数据导出。
目前的Janusgraph图数据导出方案普遍有两种:
1)使用图数据库计算框架tinkerpop开发的gremlin console接口导出:
g.io(‘/opt/janusgraph-0.5.2/test.graphml’).with(IO.writer,IO.graphml).write().iterate();
2)调用JanusGraph查询接口,将数据迭代查出再导入到文件。
以上两种方法都是单线程的,且数据先从底层存储返回给图数据库端,再从图数据库返回客户端,存在网络开销,所以都只适用于小批量数据的导出,导致数据导出效率不高。
发明内容
本申请实施例的目的在于提供一种图数据库中的数据导出方法及装置,以解决现有技术中先从底层存储返回给图数据库端,再从图数据库返回导出数据,导致数据导出效率较低的问题。具体技术方案如下:
在本申请实施例的第一方面,提供了一种图数据库中的数据导出方法,包括:查询图像数据库中待导出数据的单元格,其中,所述单元格包括所述待导出数据的属性名和标签信息;在所述标签信息与预设的标签信息匹配的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名;其中,所述映射表中预存储有用于表征所述属性名与所述待导出数据的属性ID之间的映射关系;基于所述映射表导出所述待导出数据。
在本申请实施例的第二方面,提供了一种图数据库中的数据导出装置,包括:查询模块,用于查询图像数据库中待导出数据的单元格,其中,所述单元格包括所述待导出数据的属性名和标签信息;处理模块,用于在所述标签信息与预设的标签信息匹配的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名;其中,所述映射表中预存储有用于表征所述属性名与所述待导出数据的属性ID之间的映射关系;导出模块,用于基于所述映射表导出所述待导出数据。
在本申请实施例的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤
在本申请实施的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面所述的方法。
本申请可以应用于知识图谱技术领域用于图存储。通过本申请,可以直接查询图像数据库中待导出数据的单元格,进而根据该单元格中的标签信息,进而从单元格中确定出待导出数据的属性ID和属性值,以及基于映射表中的映射关系将属性值更新至映射表中对应的属性名,最后基于映射表导出待导出数据,可见,通过本申请可以直接将图像数据库中的待导出数据通过映射表的方式导出,提升了数据导出的效率,从而解决了现有技术中先从底层存储返回给图数据库端,再从图数据库返回导出数据,导致数据导出效率较低的问题。
附图说明
图1是本申请实施例中的图数据库中的数据导出方法的流程图;
图2是本申请实施例中的点数据导出方法的流程图;
图3是本申请实施例中的边数据导出方法的流程图;
图4是本申请实施例中的图数据库中的数据导出装置的结构示意图;
图5是本申请实施例中的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
如图1所示,在本申请实施例中提供了一种图数据库中的数据导出方法,该方法的步骤包括:
步骤102,查询图像数据库中待导出数据的单元格,其中,单元格包括待导出数据的属性名和标签信息;
本申请实施例中的图像数据库可以是Janusgraph、Hugegraph、Neo4j、NebulaGraph。以Janusgraph为例,目前对数据的操作层面由图数据库JanusGraph API层面可以下推到底层存储HBase(Hadoop Database)层面,也就是说,如果图像数据库为Janusgraph,则是从HBase中查询待导出数据的单元格。
步骤104,在标签信息与预设的标签信息匹配的情况下,从单元格中确定出待导出数据的属性ID和属性值,并基于映射表中的映射关系将属性值更新至映射表中对应的属性名;其中,映射表中预存储有用于表征属性名与待导出数据的属性ID之间的映射关系;
步骤106,基于映射表导出待导出数据。
通过上述步骤102至步骤104,可以直接查询图像数据库中待导出数据的单元格,进而根据该单元格中的标签信息,进而从单元格中确定出待导出数据的属性ID和属性值,以及基于映射表中的映射关系将属性值更新至映射表中对应的属性名,最后基于映射表导出待导出数据,可见,通过本申请可以直接将图像数据库中的待导出数据通过映射表的方式导出,提升了数据导出的效率,从而解决了现有技术中先从底层存储返回给图数据库端,再从图数据库返回导出数据,导致数据导出效率较低的问题。
在本申请实施例的可选实施方式中,对于上述步骤102中涉及到的查询目标图像数据库中待导出数据的单元格的方式,进一步可以包括:
步骤11,建立Hbase表的快照;其中,Hbase表中存储所述待导出数据步骤21,从快照中查询出所述到导出数据的单元格。
通过上述步骤11和步骤21,由于导出的数据是需要删除的,因此通过创建快照可以在数据误删的情况对原始数据进行快速恢复。
在本申请实施例的可选实施方式中,对于上述步骤106中涉及到的基于映射表导出待导出数据的方式,进一步可以包括:
步骤21,不同的映射表以目标字符分隔,并写入MapReduce的上下文;
步骤22,在分布式文件系统HDFS中导出待导出数据的文件。
需要说明的是,MapReduce是一种基于并行计算来处理大规模数据集的编程模型。在本申请实施例中使用MapReduce直接读取HFile来操作数据,由于为HBase表创建一个快照,这样做的好处有两点:直接读取HFile,可以绕过RegionServer,减少网络开销,另一方面在删除前为表创建快照,可以在数据误删的情况对原始数据进行快速恢复。
HBase提供了一种方法可以使用MapReduce读取HFile并创建Job,如下:TableMapReduceUtil.initTableSnapshotMapperJob,该方法的输入是SnapshotName、Scan、Mapper等,在本申请中使用MapReduce的mapper方法对数据进行处理,HBase表的一行数据作为map函数的输入,这行数据包括若干个Cell,通过遍历这些Cell按步骤进行点和边的删除。
在本申请实施例的可选实施方式中,还需要对写入MapReduce的上下文的数据进行去重处理,因为在JanusGraph中是按边作为切割来存储数据的,边的信息存储在点上,一条边的信息会存储在两个点上;因此遍历点上的边数据时,会遍历两遍,如果不对数据去重,则导出的边数据是重复的。
具体的去重方式可以是在MapReduce的Map阶段将EdgeId作为Key,并将字符串作为Value写入MapReduce的Context中,此Context即为Map阶段的输出,经过合并、排序,Reduce阶段接收到的是相同EdgeID组成的分组,对数据做融合后写入Reduce的Context中,对应的会在HDFS上生产导出的边数据文件。
在本申请实施例的可选实施方式中,对于上述步骤102中涉及到的查询目标图像数据库中待导出数据的单元格的方式,进一步可以包括:
步骤31,提取图像数据库中与待导出数据对应的行键Rowkey;
步骤32,基于Rowkey确定待导出数据的单元格。
需要说明的是,如果以JanusGraph为目标图数据库,则JanusGraph在HBase中的数据存储结构是以点为中心按切边的方式存储数据的,点的ID作为HBase的Rowkey,点上的每一个属性和每一条边,作为该Rowkey的一个个独立的Cell(单元格),即每一个属性、每一条边都是一个个独立的KCV结构(Key-Column-Value)。
JanusGraph将图中的每一个元素定义为RelationType(关系类型),并为其分配一个id,包括是否存在标志点(VertexExists),点Label点(VertexLabel),以及属性点,边Label点(EdgeLabel)等。JanusGraph为每个点分配一个ID,称为RelationTypeId。
JanusGraph还定义了三种方向:PROPERTY_DIR、EDGE_OUT_DIR、EDGE_IN_DIR,分别取值00、10、11。
在JanusGraph中不止有用户定义的点,诸如VertexLabel、EdgeLabel、PropertyKey、GraphIndex,还有一些JanusGraph内部创建的点,比如VertexExists用来标志用户定义的点是否存在,这些点在HBase中都是以一行Rowkey数据存在,如下表1是点在HBase中的存储格式:
表1属性和边在HBase点Rowkey中的存储格式如表2所示:
表2
上述表1和表2中描述了JanusGraph各元素在HBase中的存储格式,下面结合HBase中的真实数据做更详细的说明。
在本申请实施例的可选实施方式中,在待导出数据为点数据,且点数据为目标点的数据的情况下,对于上述步骤104中涉及到的从单元格中确定出待导出数据的属性ID和属性值,并基于映射表中的映射关系将属性值更新至映射表中对应的属性名的方式,进一步可以包括:
步骤41,创建映射表,其中,映射表中的关键字为属性名,关键字为非赋值关键字;
需要说明的是,将映射表中的关键字确定为非赋值关键字,是为了保证最终得到的数据文件中属性顺序与元数据中的属性顺序一致,毕竟单元格中存储的属性顺序不能保证与元数据中的属性顺序一致,再继续遍历单元格。
步骤42,遍历目标点对应的单元格以获取属性ID和属性值;
需要说明的是,这里的属性ID是指点的属性ID。
步骤43,基于映射关系将属性值更新为映射表中属性名的赋值。
对于上述步骤41至步骤43,可以将点数据对应的属性值和属性名存储到映射表中,避免了现有技术中对点数据进行来回存储,提升了数据导出的效率。
基于上述步骤41至步骤43,在具体应用场景中,点数据导出的过程如图2所示,该方法的步骤包括:
步骤201,取出HBase表中每一个Rowkey数据,即每一个点对应的Rowkey中的Cells包含了点的Label(标签)信息和属性信息;
步骤202,判断Cells中VertexEixsts是否存在,若存在执行步骤203;
步骤203,判断Label与给定的VertexLabel是否相等,如果相等执行步骤204;
步骤204,构建一个空的点属性Map表(映射表),以属性名作为Key,每个Key都不赋值;
步骤205,继续遍历Cell,从中获取属性ID和属性值;
其中,映射表中额外保存了属性名和属性ID的映射关系。
步骤206,根据该映射关系和属性ID即可更新属性Map表中属性名对应的Value,直到遍历结束;
步骤207,将此属性Map表以逗号分隔写入MapReduce的Context中;
步骤208,在HDFS上生产导出的点数据文件。
需要说明的是,上述步骤201至步骤208中涉及到点的属性名,是需要提前知道的和导出的,因为图数据导入中,需要有元数据(即schema信息)以及元数据中属性对应的值组成的数据文件,因此导出也需要导出以上两部分,均已csv格式导出,并且元数据中属性顺序与数据文件中属性顺序要一一对应,否则数据迁移时的数据导入将无法进行。导出的元数据信息是通过调用产品自身接口从图schema中获取。
此外,以上步骤中判断Label是否相等的过程,是通过如下逻辑判断的:如上表1中的存储结构所示,在索引中存储了VertexLabel的信息,以VertexLabel值组成Rowkey,其中有一个Cell,value为VertexLabelId,在点的Rowkey数据中,存储Label的Cell其value是VertexLabelId。由以上可以通过给定的待删除点Label的确定值,得出该Label存储的索引Rowkey,进而得到VertexLabelId,通过遍历点的Cell信息,判断点上存储的Label ID与给定的Label ID是否相等。
在本申请实施例的另一个可选实施方式中,在待导出数据为边数据,边数据为目标点上边的数据的情况下,对于上述步骤104中涉及到的从单元格中确定出待导出数据的属性ID和属性值,并基于映射表中的映射关系将属性值更新至映射表中对应的属性名的方式,进一步可以包括:
步骤51,创建映射表,其中,映射表中的关键字为属性名,关键字为非赋值关键字;
步骤52,遍历目标点上边的单元格,并对边的单元格进行反序列化操作以获取属性ID和属性值;
需要说明的是,这里的属性ID是指边的属性ID。
步骤53,基于映射关系将属性值更新为映射表中属性名的赋值。
基于上述步骤51至步骤53,在具体应用场景中,边数据导出的整体过程如图3所示,包括:
步骤301,取出HBase表中每一个Rowkey数据,即每一个点上的边对应的Rowkey中的Cells包含了边的Label(标签)信息和属性信息;
步骤302,查询每个点上的边Cells信息;
其中,具体可以是根据EdgeLabel可以得出此Label的边在点上存储的上下边界,因此可以构建HBase的ColumnRangeFilter作为HBase Scan的过滤条件,可查询出每个点上的边Cells信息;
步骤303,依次遍历边Cells,与点数据导出类似需要构建边属性Map表;其中,属性名作为Key,不为其赋值;
步骤304,对Cell结合JanusGraph源码做反序列化操作,可以得出属性ID和属性值;
步骤305,结合额外的属性名和属性ID的映射关系Map表即可以更新属性Map表,直到遍历结束;
步骤306,将属性Map表以逗号分隔组成字符串;
步骤307,进入reduce阶段,对相同edgeld的记录做融合;
步骤308,生成HDFS的context文件即为导出数据。
可见,在本申请中直接操作底层存储数据库HBase来进行数据的读取和导出;在HBase层面,为原始HBase表建立Snapshot(快照),使用MapReduce直接访问导出文件,提高了数据导出的处理效率。
基于图1,本申请实施例还提供了一种图数据库中的数据导出装置,如图4所示,该装置包括:
查询模块42,用于查询图像数据库中待导出数据的单元格,其中,单元格包括待导出数据的属性名和标签信息;
处理模块44,用于在标签信息与预设的标签信息匹配的情况下,从单元格中确定出待导出数据的属性ID和属性值,并基于映射表中的映射关系将属性值更新至映射表中对应的属性名;其中,映射表中预存储有用于表征属性名与待导出数据的属性ID之间的映射关系;
导出模块46,用于基于映射表导出待导出数据。
通过本申请实施例中的装置,可以直接查询图像数据库中待导出数据的单元格,进而根据该单元格中的标签信息,进而从单元格中确定出待导出数据的属性ID和属性值,以及基于映射表中的映射关系将属性值更新至映射表中对应的属性名,最后基于映射表导出待导出数据,可见,通过本申请可以直接将图像数据库中的待导出数据通过映射表的方式导出,提升了数据导出的效率,从而解决了现有技术中先从底层存储返回给图数据库端,再从图数据库返回导出数据,导致数据导出效率较低的问题。
可选地,本申请实施例中的查询模块42进一步可以包括:提取单元,用于提取图像数据库中与待导出数据对应的行键Rowkey;确定单元,用于基于Rowkey确定待导出数据的单元格。
在待导出数据为点数据,且点数据为目标点的数据的情况下,可选地,本申请实施例中的处理模块44进一步可以包括:第一创建单元,用于创建映射表,其中,映射表中的关键字为属性名,关键字为非赋值关键字;第一遍历单元,用于遍历目标点对应的单元格以获取属性ID和属性值;第一更新单元,用于基于映射关系将属性值更新为映射表中属性名的赋值。
在待导出数据为边数据,边数据为目标点上边的数据的情况下,可选地,本申请实施例中的处理模块44进一步可以包括:第二创建单元,用于创建映射表,其中,映射表中的关键字为属性名,关键字为非赋值关键字;第二遍历单元,用于遍历目标点上边的单元格,并对边的单元格进行反序列化操作以获取属性ID和属性值;第二更新单元,用于基于映射关系将属性值更新为映射表中属性名的赋值。
可选地,本申请实施例中的导出模块46进一步可以包括:处理单元,用于不同的映射表以目标字符分隔,并写入MapReduce的上下文;第一导出单元,用于在分布式文件系统HDFS中导出待导出数据的文件。
可选地,本申请实施例中的处理单元进一步可以包括:去重子单元,用于对写入MapReduce的上下文中的数据进行去重处理。
可选地,本申请实施例中的查询模块42进一步可以包括:建立单元,用于建立Hbase表的快照;其中,Hbase表中存储待导出数据第二导出单元,用于从快照中查询出待导出数据的单元格。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现图1中的方法步骤。
该电子设备中的处理实现图1中的方法步骤,所带来的技术效果与上述图1中的模型的验证方法的技术效果一致,在此不再赘述。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图数据库中的数据导出方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图数据库中的数据导出方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种图数据库中的数据导出方法,其特征在于,包括:
查询图像数据库中待导出数据的单元格,其中,所述单元格包括所述待导出数据的属性名和标签信息;
在所述标签信息与预设的标签信息匹配的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名;其中,所述映射表中预存储有用于表征所述属性名与所述待导出数据的属性ID之间的映射关系;
基于所述映射表导出所述待导出数据。
2.根据权利要求1所述的方法,其特征在于,所述查询目标图像数据库中待导出数据的单元格,包括:
提取所述图像数据库中与所述待导出数据对应的行键Rowkey;
基于所述Rowkey确定所述待导出数据的单元格。
3.根据权利要求1所述的方法,其特征在于,在所述待导出数据为点数据,且所述点数据为目标点的数据的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名包括:
创建所述映射表,其中,所述映射表中的关键字为属性名,所述关键字为非赋值关键字;
遍历所述目标点对应的单元格以获取所述属性ID和所述属性值;
基于所述映射关系将所述属性值更新为所述映射表中所述属性名的赋值。
4.根据权利要求3所述的方法,其特征在于,在所述待导出数据为边数据,所述边数据为所述目标点上边的数据的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名包括:
创建所述映射表,其中,所述映射表中的关键字为属性名,所述关键字为非赋值关键字;
遍历所述目标点上边的单元格,并对所述边的单元格进行反序列化操作以获取所述属性ID和所述属性值;
基于所述映射关系将所述属性值更新为所述映射表中所述属性名的赋值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述映射表导出所述待导出数据,包括:
不同的所述映射表以目标字符分隔,并写入MapReduce的上下文;
在分布式文件系统HDFS中导出所述待导出数据的文件。
6.根据权利要求5所述的方法,其特征在于,所述写入MapReduce的上下文包括:
对写入MapReduce的上下文中的数据进行去重处理。
7.根据权利要求1所述的方法,其特征在于,所述查询目标图像数据库中待导出数据的单元格,包括:
建立Hbase表的快照;其中,所述Hbase表中存储所述待导出数据
从所述快照中查询出所述待导出数据的单元格。
8.一种图数据库中的数据导出装置,其特征在于,包括:
查询模块,用于查询图像数据库中待导出数据的单元格,其中,所述单元格包括所述待导出数据的属性名和标签信息;
处理模块,用于在所述标签信息与预设的标签信息匹配的情况下,从所述单元格中确定出所述待导出数据的属性ID和属性值,并基于映射表中的映射关系将所述属性值更新至所述映射表中对应的属性名;其中,所述映射表中预存储有用于表征所述属性名与所述待导出数据的属性ID之间的映射关系;
导出模块,用于基于所述映射表导出所述待导出数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915641.XA CN113553458A (zh) | 2021-08-10 | 2021-08-10 | 图数据库中的数据导出方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915641.XA CN113553458A (zh) | 2021-08-10 | 2021-08-10 | 图数据库中的数据导出方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553458A true CN113553458A (zh) | 2021-10-26 |
Family
ID=78105464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915641.XA Pending CN113553458A (zh) | 2021-08-10 | 2021-08-10 | 图数据库中的数据导出方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090837A (zh) * | 2022-01-11 | 2022-02-25 | 智器云南京信息科技有限公司 | 一种图数据查询方法、装置、计算机设备及存储介质 |
CN114996234A (zh) * | 2022-06-17 | 2022-09-02 | 同盾科技有限公司 | 数据获取方法和装置、计算机存储介质、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631907A (zh) * | 2013-11-26 | 2014-03-12 | 中国科学院信息工程研究所 | 一种将关系型数据迁移至HBase的方法及系统 |
WO2017044119A1 (en) * | 2015-09-11 | 2017-03-16 | Hewlett Packard Enterprise Development Lp | Graph database and relational database mapping |
CN111858730A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种图数据库的数据导入导出装置、方法、设备及介质 |
CN112632015A (zh) * | 2020-12-18 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 数据格式的转换方法及装置、存储介质、电子设备 |
-
2021
- 2021-08-10 CN CN202110915641.XA patent/CN113553458A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631907A (zh) * | 2013-11-26 | 2014-03-12 | 中国科学院信息工程研究所 | 一种将关系型数据迁移至HBase的方法及系统 |
WO2017044119A1 (en) * | 2015-09-11 | 2017-03-16 | Hewlett Packard Enterprise Development Lp | Graph database and relational database mapping |
CN111858730A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种图数据库的数据导入导出装置、方法、设备及介质 |
CN112632015A (zh) * | 2020-12-18 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 数据格式的转换方法及装置、存储介质、电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090837A (zh) * | 2022-01-11 | 2022-02-25 | 智器云南京信息科技有限公司 | 一种图数据查询方法、装置、计算机设备及存储介质 |
CN114996234A (zh) * | 2022-06-17 | 2022-09-02 | 同盾科技有限公司 | 数据获取方法和装置、计算机存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162525B (zh) | 基于b+树的读写冲突解决方法、装置及存储介质 | |
CN110799960A (zh) | 数据库租户迁移的系统和方法 | |
AU2018290753B2 (en) | Systems and methods of creation and deletion of tenants within a database | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN109739828B (zh) | 一种数据处理方法、设备及计算机可读存储介质 | |
WO2018097846A1 (en) | Edge store designs for graph databases | |
CN110442585B (zh) | 数据更新方法、数据更新装置、计算机设备及存储介质 | |
CN113553458A (zh) | 图数据库中的数据导出方法及装置 | |
US20220215004A1 (en) | Target Environment Data Seeding | |
CN110134681B (zh) | 数据存储与查询方法、装置、计算机设备及存储介质 | |
CN109522332A (zh) | 客户信息数据合并方法、装置、设备及可读存储介质 | |
US11663207B2 (en) | Translation of tenant identifiers | |
CN111475653B (zh) | 油气勘探开发领域的知识图谱的构建方法及装置 | |
CN114579561A (zh) | 数据处理方法和装置、存储介质 | |
JP5033322B2 (ja) | 連結関係情報を用いた情報管理方法及び装置 | |
CN107609011A (zh) | 一种数据库记录的维护方法和装置 | |
US20230385308A1 (en) | Conversion and migration of key-value store to relational model | |
CN111176901B (zh) | 一种hdfs删除文件恢复方法、终端设备及存储介质 | |
CN110263060B (zh) | 一种erp电子附件管理方法及计算机设备 | |
US20180144060A1 (en) | Processing deleted edges in graph databases | |
US11151110B2 (en) | Identification of records for post-cloning tenant identifier translation | |
CN111078671A (zh) | 数据表字段的修改方法、装置、设备和介质 | |
CN116010345A (zh) | 一种实现流批一体数据湖的表服务方案的方法、装置及设备 | |
CN110222105B (zh) | 数据汇总处理方法及装置 | |
JP2018109898A (ja) | データマイグレーションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |