CN114237490A

CN114237490A - 基于Nauru-graph的大规模数据存储和读取方法及装置

Info

Publication number: CN114237490A
Application number: CN202111288503.XA
Authority: CN
Inventors: 殷瑜雪; 戴国浩; 汪玉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-25

Abstract

本发明提出一种基于Nauru‑graph的大规模数据存储和读取方法和装置，其中，方法包括：获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；步骤S2，计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。本发明主要通过引入高对称强联通的拓扑结构改进数据存储时，数据分布均衡，系统稳定性和存储效率不能兼得的问题。同时给出了依据实际场景生成高对称强连通拓扑结构的方案。

Description

基于Nauru-graph的大规模数据存储和读取方法及装置

技术领域

本发明涉及信息网络、分布式存储系统、虚拟化、拓扑结构及网络存储技术领域，特别涉及一种基于Nauru-graph的大规模数据存储和读取方法及装置。

背景技术

分布式存储是对应于集中式存储提出的，最初企业级的存储设备都是集中式存储，该存储设备由机头、磁盘阵列(JBOD)和交换机等设备构成，其中机头是这个存储系统中最核心的部件，所有的数据需要通过一个统一的入口-机头，被分到不同的磁盘中进行存储。

随着网络的普及和云端大数据时代的到来，每天都有海量的数据产生，存储需求也随之应运而生，分布式是解决该问题的一个主要思路。分布式存储最早由谷歌提出，在谷歌的分布式存储系统架构(HDFS)中，将服务器分为两种：Namenode和Datanode。其中Namenode负责存储和管理元数据(数据的索引ID)，Datanode负责存储管理实际数据。如果用户想要读取文件，则首先从Namenode中获取该文件的存储位置(具体在哪个Datanode)，然后从具体的Datanode中检索具体文件。在此分布式存储框架的基础上，演变出了我们当前非常流行的分布式存储架构Ceph和Swift，其中Ceph通过一个设备映射关系来计算写入数据的位置。Swift是将设备做成哈希环，通过一致性哈希映射计算写入数据的位置。相较于HDFS，二者都可以分担请求的负载，各有适用的应用场景。但是在负载均衡和系统稳定性方面都有一定的改进空间。

HDFS主要面向大数据的存储场景，其处理模式是一次写入、多次读取，适合低写入、高读取的业务，不适合频繁的数据写入。同时HDFS采用多副本数据保护机制，不推荐在虚拟化环境中使用。Ceph是一个开源的存储项目，采用CRUSH算法，相较于HDFS数据分布更加均衡、并行度更高。同时部署更加复杂，性能也更弱。Swift同属开源存储项目，与Ceph类似，考虑到Swift的数据是最终一致的，因此在面对海量数据处理时swift效率更高，但是客户段在访问对象存储系统服务时，需要通过Swift网关才能获取数据，相较于Ceph通过每一个存储节点上的OSD获取数据信息，不够灵活。同时，这些技术解决方案在进行数据映射，没有从拓扑结构的维度进行考虑。引入拓扑结构可以使映射更加均衡，安全和稳定性更高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于Nauru-graph的大规模数据存储和读取方法，通过引入特殊的图结构，在提高云端分布式存储的负载均衡和系统稳定性方面给出了一种改进方案。

本发明的第二个目的在于提出一种基于Nauru-graph的大规模数据存储和读取装置。

为达上述目的，本发明第一方面实施例提出了一种基于Nauru-graph的大规模数据存储和读取方法，包括：

步骤S1，获取数据ID值，检索所述数据ID值的可用存储节点，以生成所述数据的索引项ID值；以及，

将所述数据的索引项ID值，存储于所述数据ID值的节点上，以对所述数据进行存储操作；

步骤S2，计算所述数据的索引项ID值，通过所述索引项中数据ID找到目标节点，以对所述数据进行读取操作。

另外，根据本发明上述实施例的基于Nauru-graph的大规模数据存储和读取方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1，包括：

S1.1，获取数据的存储ID,检索可用存储节点，假设当前检索节点ID为i，尝试通过节点i写入数据,若节点i中空间充足，则数据存储ID为i，并将数据存入节点i中；若节点i中空间不足，检索与节点i相邻的其它节点，按ID从小到大进行检索，直到找到合适的节点j，将数据写入对应节点j中，并将数据的存储ID置为j，并生成索引项；

S1.2，通过S1.1中的账户名/对象名获取数据的初始索引ID；

S1.3，根据HashMap重置数据的索引ID；将S1.2中得到的索引ID进行哈希映射得到索引项的ID值：k＝Hash(f)％24,k取[0,23]之间的任意唯一值；

S1.4，根据邻接矩阵表，找到当前节点到存储索引项节点k的一条最短路径，在节点k中存入索引项。

进一步地，在本发明的一个实施例中，所述步骤S2，包括：

S2.1，根据数据账户名/对象名计算索引ID；通过HashMap找到索引ID在Nauru-graph中对应的存储索引项节点的ID：i＝f_ID＝Hash(f)％24。

S2.2，通过最短路径到节点i，取出索引项；

S2.3，根据索引项中的数据存储ID，找到目标节点，取出数据。

进一步地，在本发明的一个实施例中，所述步骤S1.4，包括：

根据邻接矩阵表,找到当前节点到存储索引项节点k的一条最短路径，检查节点k的状态；若正常，则在节点k中存入索引项，若不正常，则检查与节点k相邻的其他节点，按ID从小到大进行检查，直到找到合适的节点k‘，在k‘中存入索引项。

进一步地，在本发明的一个实施例中，所述根据事故分析不同程序计算结果对比或/及不确定性分析结果，对现象识别模型进行优化和完善，包括：根据所述核电站设计数据信息建立事故分析基准模型，基于所述事故分析基准模型进行节点划分确认以及不确定性分析步骤和不同程序结果分析对比。

进一步地，在本发明的一个实施例中，所述步骤S1，还包括：

S1.5定期对邻接表中的邻接节点进行检测，如果某个邻接节点失效，则修改对应的行列值，将所述行列值预设一个阈值，表示路径已失效。

本发明实施例的基于Nauru-graph的大规模数据存储和读取方法，通过获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。本发明主要通过引入高对称强联通的拓扑结构改进数据存储时，数据分布均衡，系统稳定性和存储效率不能兼得的问题。同时给出了依据实际场景生成高对称强连通拓扑结构的方案。

为达上述目的，本发明第二方面实施例提出了一种基于Nauru-graph的大规模数据存储和读取装置，包括：

存储模块，用于获取数据ID值，检索所述数据ID值的可用存储节点，以生成所述数据的索引项ID值；以及，

读取模块，用于计算所述数据的索引项ID值，通过所述索引项中数据ID找到目标节点，以对所述数据进行读取操作。

本发明实施例的基于Nauru-graph的大规模数据存储和读取装置，通过存储模块，用于获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；读取模块，用于计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。本发明主要通过引入高对称强联通的拓扑结构改进数据存储时，数据分布均衡，系统稳定性和存储效率不能兼得的问题。同时给出了依据实际场景生成高对称强连通拓扑结构的方案。

本发明的有益效果为：

利用了Nauru－graph的特殊图结构：每个顶点到图中任意顶点最多只需要四步，只有当3台以上机器发生损坏时，才会对连通性造成影响，使得存储可靠性更强。通过数据和索引两级存储的方法，改进了存储空间有限情况下的数据定位，进一步地，通过将数据和节点映射到同一个ID空间，可以有效地进行统一数据存储管理，具有很强的实用价值。同时我们给出了一种生成一系列同类型高连通度高对称图的方法，以应对不同具体场景不同时对图结构的不同需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于Nauru-graph的大规模数据存储和读取方法流程图；

图2为根据本发明一个实施例的Nauru-graph的结构特性示意图；

图3为根据本发明一个实施例的Nauru-graph的邻接矩阵形式示意图；

图4为根据本发明一个实施例的利用Nauru-graph进行数据写入的步骤示意图；

图5为根据本发明一个实施例的利用Nauru-graph进行数据读取的步骤示意图；

图6为根据本发明另一个实施例的基于Nauru-graph的数据存储和读取方法的基于P2P网络和Nauru-graph网络的双层网络示意图。

图7为根据本发明一个实施例的基于集合和群论思想的适用于数据分布式存储的高对称强连通图结构的生成方法示意图；

图8为根据本发明一个实施例的基于Nauru-graph的大规模数据存储和读取装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于Nauru-graph的大规模数据存储和读取方法和装置。

图1为本发明实施例所提供的基于Nauru-graph的大规模数据存储和读取方法的流程图。

如图1所示，该基于Nauru-graph的大规模数据存储和读取方法包括：

步骤S1，获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作。

可以理解地是，通过两个层次的管理，将数据内容和索引信息进行分开存储。第一层是待存储数据所对应的数据ID，即表述数据的存储节点所对应ID，需要尽量保证将数据存储在提交该数据存储请求的节点或者相近的节点上，减少多个节点间传递数据带来的通信代价；第二层是确定数据的索引ID，将数据ID等相关信息组成一个索引ID，并将索引项存储于该ID值的节点上，两个层次的存储保证了该方法可以有效地对数据进行路由定位和存储管理，同时，负载均衡的特性，也有利于Nauru-graph结构在分布式存储系统中的应用。图4为根据本发明一个实施例的利用Nauru-graph进行数据写入的步骤示意图，如图4所示，具体的步骤如下：

1)获取数据的存储ID；检索可用存储节点，假设当前检索节点ID为i，尝试通过节点i写入数据。若节点i中空间充足，则数据存储ID为i，并将数据存入节点i中；若节点i中空间不足，检索与节点i相邻的其它节点，按ID从小到大进行检索，直到找到合适的节点j，将数据写入对应节点j中，并将数据的存储ID置为j，并生成索引项。

2)确定数据的索引ID：通过1)中的账户名/对象名获取数据的初始索引ID；

3)根据HashMap重置数据的索引ID；将2)中得到的索引ID进行哈希映射得到索引项的ID值：k＝Hash(f)％24,k取[0,23]之间的任意唯一值。

4)根据邻接矩阵表(见表1),找到当前节点到存储索引项节点k的一条最短路径，检查节点k的状态。若正常，则在节点k中存入索引项，若不正常，则检查与节点k相邻的其他节点，按ID从小到大进行检查，知道找到合适的节点k‘，在k‘中存入索引项。

5)定期对邻接表中的邻接节点进行检测，如果某个邻接节点失效，则修改对应的行列值，将其设为一个很大的数，表示该路径已失效。

表1

节点	链接节点	节点	链接节点	节点	链接节点	节点	链接节点
								0	1、5、21	6	7、11、19	12	13、17、18	18	19、23
1	3、15	7	6、9、13	13	15	19	21
								2	3、4、23	8	9、10、22	14	15、16、20	20	21、22
3	9	9	无	15	无	21	无
								4	5、17	10	11、16	16	17	22	23
5	11	11	无	17	无	23	无

Nauru-graph的链接表信息，每个节点与邻点的节点信息仅展示一次

进一步地，Nauru-graph邻接矩阵形式如图3所示，实际操作中非1项全部设为∞。

进一步地，图2为Nauru-graph网络中的结构和ID，展示了Nauru-graph的结构特性，如图2所示，Nauru-graph24个顶点、36条边、直径为4，点三连通且边三连通的对称二部三正则图。

进一步地，图3展示了Nauru-graph的邻接矩阵形式，如图3所示该矩阵为对称阵，任意行或列有三个元素，表示每个节点均为3度点。

步骤S2，计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。

具体地，图5为根据本发明一个实施例的利用Nauru-graph进行数据写入的读取示意图，如图5所示，具体的，从任意节点读取数据，其读取步骤如下：

a)根据数据账户名/对象名计算索引ID；通过HashMap找到它在Nauru-graph中对应的存储索引项节点的ID：i＝f_ID＝Hash(f)％24。

b)通过最短路径到节点i,取出索引项；

c)根据索引项中的数据存储ID，找到目标节点，取出数据。

本发明通过数据和索引两级存储的方法，改进了存储空间有限情况下的数据定位，进一步地，通过将数据和节点映射到同一个ID空间，可以有效地进行统一数据存储管理，具有很强的实用价值。同时我们给出了一种生成一系列同类型高连通度高对称图的方法，以应对不同具体场景不同时对图结构的不同需求。

作为另一种示例，图6是利用本发明的基于特殊图结构(以Nauru-graph为例)的数据存储和读取方法的基于P2P网络和Nauru-graph网络的双层网络示意图。如图6所示，

假设存在一个双层网络层一为24个节点组成的Nauru-graph存储网络，层2为Pastry组织的P2P网络并提供某些应用。

层1采用纠删码的方法进行冗余存储，层2中每个节点都包含至少一个Nauru-graph网络中的节点信息。假设文件名为f的数据通过节点0写入，则写入步骤如下：

1)如果节点0中空间充足，则数据的ID为0，写入节点0中；如果0中空间不足则数据ID只能为表3中ID映射表中存在的链接的ID数(这里可为1，5，21)，写入具有可用空间且ID最小的节点，这里选择节点1；

2)计算文件ID，f_ID＝Hash(f)％24,这里假设f_ID＝20；

3)将数据ID，数据文件名等相关信息简历索引项，如<f,0>,放置在ID为20的Nauru-graph节点中。根据表2所示的邻接矩阵，找到从节点0到20的一条最短路径，并将索引项存入其中。

4)每隔2小时，每个节点需要对邻接表中的邻接节点进行检测，如果某个邻接节点已失效，则修改邻接矩阵中这两个节点ID所对应行、列的值(即该节点ID和已失效的邻接节点ID在表2中的交叉值)，将其设为无穷大或者一个很大的数，表示该路径已经无效。

5)当从任意节点读取数据时，假设从节点1读取文件f,读取过程如下：

a)计算文件哈希值f_ID＝Hash(f)％24＝20,即索引ID值；

b)通过表1的矩阵路径表，找到5跳内从节点1到达节点20的所有路径，比如：路径距离，如表2所示：

表2

然后找到其中距离最短的路径，即1-0-21-20或1-15-14-20路由到索引节点，取出其中的索引表项<f,0>,并返回给节点1；

c)从索引表项中，读取数据ID(这里值为0)，则节点1向节点0发出查询请求，读取数据。

进一步地，作为一种示例，图7为根据本发明一个实施例的基于集合和群论思想的适用于数据分布式存储的高对称强连通图结构的生成方法示意图，举例来说，如图7所示：

1)先确定一个群G＝<a,b|a^4＝b^2＝e>，S＝<a,b>为群G的生成子集合；

2)群G中的每一个元素均可对应图G中的一个点，群G的阶数等于图G的点数，即8；

3)对图G中的任意两点u和v，点u对应群G中的元素g，点v对应群G中的元素g‘，点u和点v之间存在连边当且仅当存在生成子s属于S使得g’＝gs；

4)计算该生成图的连通度和直径，验证是否符合需要。

根据本发明实施例的基于Nauru-graph的大规模数据存储和读取方法，通过获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。本发明主要通过引入高对称强联通的拓扑结构改进数据存储时，数据分布均衡，系统稳定性和存储效率不能兼得的问题。同时给出了依据实际场景生成高对称强连通拓扑结构的方案。

如图8所示，该基于Nauru-graph的大规模数据存储和读取装置10包括：存储模块100和读取模块200。

存储模块100，用于获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，

将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；

读取模块200，用于计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。

进一步地，上述存储模块100，包括：

生成模块，用于获取数据的存储ID,检索可用存储节点，假设当前检索节点ID为i，尝试通过节点i写入数据,若节点i中空间充足，则数据存储ID为i，并将数据存入节点i中；若节点i中空间不足，检索与节点i相邻的其它节点，按ID从小到大进行检索，直到找到合适的节点j，将数据写入对应节点j中，并将数据的存储ID置为j，并生成索引项；

获取模块，用于通过生成模块中的账户名/对象名获取数据的初始索引ID；

映射模块，用于根据HashMap重置数据的索引ID；将获取模块中得到的索引ID进行哈希映射得到索引项的ID值：k＝Hash(f)％24,k取[0,23]之间的任意唯一值；

存入模块，用于根据邻接矩阵表，找到当前节点到存储索引项节点k的一条最短路径，在节点k中存入索引项。

进一步地，上述读取模块200，包括：

计算模块，用于根据数据账户名/对象名计算索引ID；通过HashMap找到索引ID在Nauru-graph中对应的存储索引项节点的ID：i＝f_ID＝Hash(f)％24；

节点模块，用于通过最短路径到节点i，取出索引项；

目标模块，用于根据索引项中的数据存储ID，找到目标节点，取出数据。

进一步地，上述存入模块，还用于：

进一步地，上述存储模块，还包括：

检测模块，用于定期对邻接表中的邻接节点进行检测，如果某个邻接节点失效，则修改对应的行列值，将行列值预设一个阈值，表示路径已失效。

根据本发明实施例的基于Nauru-graph的大规模数据存储和读取装置，通过存储模块，用于获取数据ID值，检索数据ID值的可用存储节点，以生成数据的索引项ID值；以及，将数据的索引项ID值，存储于数据ID值的节点上，以对数据进行存储操作；读取模块，用于计算数据的索引项ID值，通过索引项中数据ID找到目标节点，以对数据进行读取操作。本发明主要通过引入高对称强联通的拓扑结构改进数据存储时，数据分布均衡，系统稳定性和存储效率不能兼得的问题。同时给出了依据实际场景生成高对称强连通拓扑结构的方案。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于Nauru-graph的大规模数据存储和读取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Nauru-graph的大规模数据存储和读取方法，其特征在于，所述步骤S1，包括：

S1.2，通过S1.1中的账户名/对象名获取数据的初始索引ID；

3.根据权利要求1所述的基于Nauru-graph的大规模数据存储和读取方法，其特征在于，所述步骤S2，包括：

S2.2，通过最短路径到节点i，取出索引项；

4.根据权利要求2所述的基于Nauru-graph的大规模数据存储和读取方法，其特征在于，所述步骤S1.4，包括：

5.根据权利要求1所述的基于Nauru-graph的大规模数据存储和读取方法，其特征在于，所述步骤S1，还包括：

6.一种基于Nauru-graph的大规模数据存储和读取装置，其特征在于，包括：

7.根据权利要求6所述的基于Nauru-graph的大规模数据存储和读取装置，其特征在于，所述存储模块，包括：

获取模块，用于通过所述生成模块中的账户名/对象名获取数据的初始索引ID；

映射模块，用于根据HashMap重置数据的索引ID；将所述获取模块中得到的索引ID进行哈希映射得到索引项的ID值：k＝Hash(f)％24,k取[0,23]之间的任意唯一值；

8.根据权利要求6所述的基于Nauru-graph的大规模数据存储和读取装置，其特征在于，所述读取模块，包括：

节点模块，用于通过最短路径到节点i，取出索引项；

9.根据权利要求7所述的基于Nauru-graph的大规模数据存储和读取装置，其特征在于，所述存入模块，还用于：

10.根据权利要求6所述的基于Nauru-graph的大规模数据存储和读取装置，其特征在于，所述存储模块，还包括：

检测模块，用于定期对邻接表中的邻接节点进行检测，如果某个邻接节点失效，则修改对应的行列值，将所述行列值预设一个阈值，表示路径已失效。