CN110389953B

CN110389953B - 基于压缩图的数据存储方法、存储介质、存储装置和服务器

Info

Publication number: CN110389953B
Application number: CN201910508926.4A
Authority: CN
Inventors: 程学旗; 郑天祺; 王征; 赵程; 张志斌; 刘悦; 赵鹏; 郭嘉丰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-24
Filing date: 2019-06-12
Publication date: 2021-10-29
Anticipated expiration: 2039-06-12
Also published as: CN110389953A

Abstract

本发明涉及一种基于压缩图的数据存储方法、系统和存储介质，该方法包括：步骤100，生成点表逻辑定义，根据该逻辑定义构建点表，并向该点集中插入数据；步骤200，生成边表逻辑定义，根据该逻辑定义构建边表，从所述点表中选择与该边表相关联的点表，并向所述边表中插入数据；步骤300，设置和执行压缩图定义命令，生成所述压缩图的建图逻辑，设置函数获取与所述压缩图定义关联的所述边表，形成边集聚合组，并生成与所述压缩图定义关联的所述点表的代理结构；步骤400，设置和执行压缩图重置命令，根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销，增加了图构建的灵活性与表示性，减少了重复建图的排序工作量。

Description

基于压缩图的数据存储方法、存储介质、存储装置和服务器

技术领域

本发明涉及计算机技术领域，特别设计一种基于关系型数据压缩图构建方法的数据存储方法、存储介质、存储装置和服务器。

背景技术

关系型数据是目前主流的结构化数据存储对象，其操作原语为SQL。对于多层嵌套的关系计算，使用SQL的Join算子带来了较大的性能损失。为了更好地建模与分析复杂的关联关系，主流的解决方案使用压缩图结构表征数据关联关系，并在此结构上使用基于图的点边计算操作替换Join操作，取得了极大的计算性能提升。

当前关系型结构到压缩图结构的转化过程主要分为以下三个步骤：(1)将主键属性映射至从0开始的连续整数空间，作为节点编号；(2)以节点编号进行关联，形成边集数据(<源点编号，宿点编号>元组)；(3)对边集数据按照<源点编号，宿点编号>与<宿点编号，源点编号>分别进行排序与压缩，形成压缩图的正向与逆向表示。我们把该关系型结构到压缩图结构的转化过程称为建图过程。现有技术的建图过程具有良好的结构性，可以在关系型数据库中运用SQL辅助实现。相比于传统基于文件的构建方式，现有技术提供了更好的性能与可管理性。

上述建图过程中具有以下三个问题：

(1)主键的映射过程以及节点的关联过程无法复用，对于每一次建图操作，相对应的数据都需要进行重映射以保证节点编号的连续性，且节点的关联数据也需要重新构建，这带来了极大的开销；

(2)建图过程缺乏直观的描述语言。对于一个压缩图的定义，现有技术需要以代码的方式进行描述，这不仅增加了开发成本，也影响了建图的灵活性；

(3)建图中所涉及的排序工作量较大。

发明内容

为了解决上述技术问题，发明人通过对建图的流程进行了深入分析研究，发现了其中可复用的结构：对于节点映射与关联，发明人设计了点表与边表结构，复用局部建图信息，并针对该结构定义了直观的建图描述语言；对于排序过程，发明人设计了基于LSM树的边集预排序。采用本发明的压缩图构建方法，可以有效的节约数据的存储空间，提升数据的处理、传输以及运算效率。

具体地说，本发明公开了一种基于压缩图的数据存储方法，其特征在于，所述压缩图的构建方法包括以下步骤：

步骤100，生成点表逻辑定义，根据该逻辑定义构建点表，并向该点表中插入数据；

步骤200，生成边表逻辑定义，根据该逻辑定义构建边表，从所述点表中选择与该边表相关联的点表，并向所述边表中插入数据；

步骤300，设置和执行压缩图定义命令，生成所述压缩图的建图逻辑，获取与所述压缩图定义关联的所述边表，形成边集聚合组，并生成与所述压缩图定义关联的所述点表的代理结构；

步骤400，设置和执行压缩图重置命令，根据所述压缩图的所述建图逻辑构建所述压缩图。

上述方法，其中，所述点表，通过独立的[0，N-1]编号进行映射；

所述边表，通过所述点表的独立编号与所述点表进行关联；

其中，所述边表与所述点表进行关联的独立编号为每个所述关联点表的编号偏移量。

上述方法，其中，所述步骤100还包括：

步骤110，输入点表构建命令，通过关键字指定该点表的主键，其他列为该点表的其他属性，以点的类型名作为点表名；

步骤120，向所述点表中插入数据，根据所述主键对所导入的数据进行编码；

步骤130，将所述编码及所述编码的映射存入所述点表。

上述方法，其中，所述步骤120，还包括：

步骤121，在所述点表增加虚拟列，用于存储编码，并在内存中设置一个从Key列到整数列的散列表，用于存储该编码的映射；

步骤122，查询所述散列表，若所插入的数据已存在，则报错，否则生成新的ID并追加到所述虚拟列。

上述方法，中，所述步骤200，还包括：

步骤210，输入边表构建命令，确定所述边表的源点和目标点，并分别指定所述源点和目标点各自对应的点表，以其他列为所述边表的其他属性；

步骤220，向所述边表中插入数据，查询所述源点和目标点关联的点表主键，获得对应的点编码；

步骤230，在所述边表中增加源列与目标列；

步骤240，将所述点编码存入所述源列与目标列。

上述方法，其中，所述边表通过LSM树存储数据，以所述源列和目标列作为排序键。

上述方法，其中，所述步骤300，还包括：

步骤310，设置MetaSQL命令生成压缩图逻辑定义，并设置edgeGroup函数指定所述压缩图逻辑定义关联的所述边表；

步骤320，edgeGroup函数根据所述关联边表的属性名称进行属性列汇聚，形成边表聚合组；

步骤330，形成由边集数据构成的数据块，每个该数据块按照<Src，Dst>有序组织，且每个该数据块分别对应一个所述边表的LSM树叶子节点。

上述方法，其中，所述步骤310，还包括：

步骤311，收集所述边表所关联的所述点表，并统计每个该点表的节点数量以及所有点表节点总数；

步骤312，根据该统计结果，为每个所述点表分配一个对应的编号偏移量，使得最终总的节点编号为[0，N-1]，且每个所述点表的节点编号保持连续；

步骤313，将所述对应的偏移量分别增加至对应的源列、目标列。

上述方法，其中，所述步骤400，还包括：

步骤410，读取MetaSQL输出的所述边集数据，对读取到的每一所述边表增加Eid字段，并对该Eid字段从1开始编号；

步骤420，将所述源点的编号、所述目标点的编号以及Eid字段合并形成16字节的元组数组<Src，Dst，Eid>，其余的边属性分别形成独立的边属性数组；

步骤430，对所述元组数组<Src，Dst，Eid>和边属性数组分别进行处理，得到压缩稀疏行结构<Src，Dst1，Dst2，Dst3...>，并使所述边属性与元组<Src，Dst>相对应；

步骤440，重置所述Eid字段，再次对所述元组数组<Src，Dst，Eid>进行处理，得到压缩稀疏列结构<Dst，Src1，Src2，Src3...>，并将形成的Eid数组保存为索引数组。

上述方法，其中，所述步骤430，还包括：

步骤431，对所述元组数组<Src，Dst，Eid>按照<Src，Dst>进行多路合并排序；

步骤432，将排序得到的有序对<Src，Dst>元组进行压缩，得到压缩稀疏行结构<Src，Dst1，Dst2，Dst3...>；

步骤433，根据所述多路合并排序得到的Eid字段顺序，重排其余的边属性数组，使得所述边属性数组与所述<Src，Dst>元组对应。

上述方法，其中，所述步骤440，还包括：

步骤441，重置所述元组数组<Src，Dst，Eid>中的所述Eid字段，并对该Eid字段从1开始编号；

步骤442，对所述元组数组<Src，Dst，Eid>按照Dst进行稳定排序，将排序得到的有序对<Dst，Src>元组压缩，得到压缩稀疏列结构<Dst，Src1，Src2，Src3...>；

步骤443，形成Eid数组，并将该Eid数组保存为索引数组，用于反向边检索边属性。

为实现本发明的另一目的，本发明还提供一种存储介质，用于存储一种执行上述方法的计算机程序。

为实现本发明的另一目的，本发明还提供一种存储装置，其中，所述存储装置包括上述的存储介质。

为实现本发明的另一目的，本发明还提供一种服务器，其特征在于，包括上述的存储装置。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

附图说明

图1为基于压缩图的数据存储方法流程图；

图2为点表构建流程图；

图3为边表构建流程图；

图4为压缩图逻辑定义流程图；

图5为压缩图构建流程图；

图6为SQL管理操作框架图；

图7为现有技术的关系型数据结构图；

图8为本发明的具体实施方案图；

图9为建图的具体过程图。

具体实施方式

如图1、图8所示，本发明方法的实施步骤包括：

S100、构建点表并导入数据

可通过如下SQL语句构建点表：

ENGINE＝V表示点表引擎，点表必须指定作为关联的主键，即Key键，用关键字Key指定；其他列为点表的其他属性。多种类型的点可以建立多个点表，每个点表表示一种点的类型，点表名即为点的类型名。

例如上图中的user点表，movie点表与producer点表可通过以下语句建立：

create table user(name String Key，age UInt16)engine＝V；

create table movie(name String Key，genre UInt8)engine＝V；

create table producer(name String Key，capital UInt64)engine＝V；

点表数据可通过INSERT SQL语句导入，如：

insert into user select*from file(′user.csv′，CSV，′name String，ageUInt16′)

当插入数据至点表时，本发明装置根据Key列对数据进行编码，具体方式为：增加虚拟列_V用于存储编码，并在内存中维护一个从Key列到整数列的散列表用于存储编码映射；当插入一条数据时，首先查询该散列表，如果存在则报错，否则生成新的ID并追加到_V列中。为了保证编码的连续性，点表不允许删除操作，但可以通过属性列关联删除标记。

S200、构建边表并导入数据

可通过如下SQL语句构建边表：

engine＝E表示边表引擎，边表必须指定源点和目标点的点表名，这两个点表可以是同一个点表，也可是不同的点表，分别用VS与VD表示源和目的，其他列为边的其他属性。

边表可以有多个，每一种不同的源点和目标点组合(即同一类型的边)应建立一个对应的边表。例如上图中的user和movie两种点之间存在一种关系，即一种类型的边，可通过以下语句建立user与movie之间的边表：

create table User_Movie(src VS(user)，dst VD(movie)，rating Float32)engine＝E；

上图中的UM边表可通过以下SQL语句插入边表数据：

insert into User_Movie select*from

file(′user_movie.csv′，CSV，′user_name String，movie_name String，ratingFloat32′)

当插入数据至边表时，本发明装置通过查询VS与VD关联的点表Key列获得对应的点编码，并在边表中增加_VS与_VD两列用于存储。边表的具体存储由LSM树实现，按照_VS与_VD两列作为排序键。

S300、使用MetaSQL定义建图逻辑

可通过如下MetaSQL语句定义压缩图构建逻辑：

CREATE GRAPH GraphName

as edgeGroup(edgeTableName1，edgeTableName2，...)[WHERE]；

图定义需要通过使用edgeGroup函数指定所依赖的边表，例如可通过UM边表定义压缩图UserMovie，执行语句如下：

create graph User_Movie_Producer

as edgeGroup(User_Movie，Producer_Movie)；

依赖的边表可以是一个或多个，当边表是多个时，边表的属性可以不相同，edgeGroup函数根据属性的名称进行属性列汇聚，最终形成一张聚合边表。该函数要求同名的属性需具有相同的类型。MetaSQL支持SQL的Where从句，可以在建图过程中增加谓词过滤。MetaSQL的输出是一系列由边集数据构成的数据块，每个数据块对应一个边表的LSM树叶子节点，即每个数据块按照<Src，Dst>有序组织。

MetaSQL在执行的第一个阶段，首先收集所有边表所关联的点表，并统计每个点表i的节点数量Ni以及节点总数N。根据该统计结果，为每个点表分配一个对应的偏移量，使得最终总的节点编号为[0，N-1]，且每个点表的节点编号保持连续。在执行的第二个阶段，将对应的偏移量增加至对应的_VS或_VD列上。由于_VS与_VD列只关联一张点表，该校准操作不会影响输出数据块的有序性。

S400、构建压缩图

通过CREATE GRAPH命令定义好压缩图之后，可使用REFRESH GraphName命令进行建图。建图的具体过程如图5、图9所示

1.读取MetaSQL输出的数据块，对读取到的每一条边增加Eid字段，从1开始编号

2.将源点编号，目标点编号以及Eid字段合并形成16字节的<Src，Dst，Eid>元组数组，其余的边属性分别形成独立的边属性数组

3.对<Src，Dst，Eid>元组按照<Src，Dst>进行多路合并排序，将排序得到的有序对<Src，Dst>元组压缩，得到压缩稀疏行结构，即<Src，Dst1，Dst2，Dst3...>；同时，利用得到的Eid顺序，重排其余的边属性数组，使得边属性与<Src，Dst>对应

重置Eid(从1编号)，按照Dst进行稳定排序(利用原高位Src字段有序，且稳定排序保持等值顺序的特性)，将排序得到的有序<Dst，Src>元组压缩，得到压缩稀疏列结构，即<Dst，Src1，Src2，Src3...>；同时，将Eid数组保存为索引数组，用于反向边检索边属性。

上述的点表与边表结构均可被复用，可通过添加新的MetaSQL语句构建新图，如图6所示。

在本发明的另一实施例中，还涉及一种存储介质，用于存储一种执行上述方法的计算机程序。

在本发明的另一实施例中，还涉及一种基于压缩图的数据存储装置，其特征在于，包括上述的一种存储介质。

在本发明的另一实施例中，本发明还提供一种服务器，包括上述一种基于压缩图的数据存储装置。

本发明的有益效果在于：降低了多次建图与建多类图的开销，增加了图构建的灵活性与表示性，减少了重复建图的排序工作量，可以有效节约数据的存储空间，提升数据的处理、传输以及运算效率。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于压缩图的数据存储方法，其特征在于，所述压缩图的构建方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述点表，通过独立的[0，N-1]编号进行映射；

所述边表，通过所述点表的独立编号与所述点表进行关联；

3.根据权利要求1或2所述的方法，其特征在于，所述步骤100还包括：

步骤130，将所述编码及所述编码的映射存入所述点表。

4.根据权利要求3所述的方法，其特征在于，所述步骤120，还包括：

步骤121，在所述点表增加虚拟列，用于存储所述编码，并在内存中设置一个从Key列到整数列的散列表，用于存储该编码的映射；

5.根据权利要求1所述的方法，其特征在于，所述步骤200，还包括：

步骤220，向所述边表中插入数据，并查询所述源点和目标点关联的点表主键，获得对应的点编码；

步骤230，在所述边表中增加源列与目标列；

步骤240，将所述点编码存入所述源列与目标列。

6.根据权利要求5所述的方法，其特征在于，所述边表通过LSM树存储数据，以所述源列和目标列作为排序键。

7.根据权利要求1所述的方法，其特征在于，所述步骤300，还包括：

8.根据权利要求7所述的方法，其特征在于，所述步骤310，还包括：

步骤311，收集每个所述点表的节点数量，主键名称以及属性集合，将其与点表名称通过散列表结构进行关联，形成点表代理结构；

步骤312，根据该点表代理结构，为每个所述点表分配一个对应的编号偏移量，使得所述节点的总编号为[0，N-1]，且每个所述点表的节点编号保持连续；

步骤313，将所述对应的偏移量分别增加至对应的源列和目标列。

9.根据权利要求1所述的方法，其特征在于，所述步骤400，还包括：

步骤420，将源点的编号、目标点的编号以及Eid字段合并形成16字节的元组数组<Src，Dst，Eid>，其余的边属性分别形成独立的边属性数组；

步骤430，对所述元组数组<Src，Dst，Eid>和边属性数组分别进行处理，得到压缩稀疏行结构<Src，Dstl，Dst2，Dst3...>，并使所述边属性与元组<Src，Dst>相对应；

10.根据权利要求9所述的方法，其特征在于，所述步骤430，还包括：

11.根据权利要求9所述的方法，其特征在于，所述步骤440，还包括：

步骤442，对所述元组数组<Src，Dst，Eid>按照Dst进行稳定排序，将排序得到的有序对<Dst，Src>元组压缩，得到压缩稀疏列结构<Dst，Srcl，Src2，Src3...>；

12.一种存储介质，用于存储一种执行权利要求1-11所述数据存储方法的计算机程序。

13.一种存储装置，其特征在于，包括如权利要求12所述的一种存储介质。

14.一种服务器，其特征在于，包括权利要求13所述的一种基于压缩图的数据存储装置。