CN113535330A

CN113535330A - 一种基于节点评价函数的超融合系统数据本地化存储方法

Info

Publication number: CN113535330A
Application number: CN202110848707.8A
Authority: CN
Inventors: 王振帅; 邓玲; 左瑞
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-22
Anticipated expiration: 2041-07-26
Also published as: CN113535330B

Abstract

本发明涉及一种基于节点评价函数的超融合系统数据本地化存储方法，涉及数据存储技术领域。本发明使用中心化的分布式存储系统作为其底层存储设备，采用本地物理节点和多个远端物理节点共同维护数据副本的方式，使系统中虚拟机实例的数据块在其所在物理节点保存一个主副本，并考虑节点间数据均衡分布，综合考虑物理节点的硬件性能和相对存储使用率选择另外两个远端物理节点保存第二、三数据副本，保证虚拟机数据的完全本地化存储，从而虚拟机读取数据时，能够直接从其所在物理节点读取所需数据，缩短虚拟机的读数据I/O路径，避免跨物理节点读取，降低虚拟机的读数据延迟。

Description

一种基于节点评价函数的超融合系统数据本地化存储方法

技术领域

本发明涉及数据存储技术领域，具体涉及一种基于节点评价函数的超融合系统数据本地化存储方法。

背景技术

去中心化的分布式存储系统通常使用哈希算法或其衍生算法计算得到多个数据副本放置的数据节点，以此为基础的超融合系统上的数据分布具有显著的分散性和随机性，虚拟机的数据并不完全存储在虚拟机所在物理节点上。对超融合系统中的每个虚拟机实例，系统每个物理节点均存储其数据的一部分，当虚拟机读取自身数据时，需要频繁通过节点间网络从其他节点复制所需数据块到虚拟机所在物理节点，造成较大的网络带宽占用，同时也带来了巨大的读数据延迟，且这种情况随着系统物理节点数目增大而显著加重。中心化的分布式存储系统具有元数据服务节点和数据服务节点，因此能指定数据保存的数据服务节点，但在选择从节点时采用随机选择的方式，易造成数据失衡，且这种情况在系统物理节点数目较大时更严重。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何为超融合系统中的虚拟机提供一种数据就近存储且超融合系统节点间数据均衡分布的数据本地化存储系统及方法。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于节点评价函数的超融合系统数据本地化存储系统的设计方法，将该存储系统设计为包括元数据维护模块和节点选择模块；其中，

将所述元数据维护模块设计为用于基于节点选择模块的返回值，存储和维护超融合系统中物理节点的状态信息和数据块的元数据；

将所述节点选择模块设计为用于在系统创建多个数据副本时，基于物理节点的CPU、内存和数据分布情况计算其评价函数值，并根据物理节点的评价函数值选择多个副本放置的节点。

优选地，将所述元数据维护模块进一步设计为：

当收到写数据请求时，首先由元数据维护模块检查数据是否存在于分布式存储系统中，若满足条件则将写数据信息传递给节点选择模块，并根据节点选择模块的返回值更新数据块的元数据信息，数据块的元数据结构设计为包括以下字段：

blkid字段为超融合系统中虚拟机数据块的ID，该字段用于系统索引数据块位置；replicas_num字段为多副本模式下当前数据块副本的序号，该字段与blkid字段结合能够全局唯一性地索引超融合系统中的数据块，该字段的取值为不大于副本复制因子数的正整数；datanode字段表示数据块副本所在的物理节点序号，取值为不大于超融合系统物理节点数目的非负整数；blk_size字段表示该数据块的大小；ctime字段表示该数据块的创建时间；atime字段表示该数据块的最后一次访问时间，该值的大小应当不小于ctime字段值的大小；mtime字段表示该数据块的最后一次修改时间，该值的大小应当不小于ctime字段的值，且该值的大小应当不大于atime字段的值；local_addr字段表示数据块在所分配的物理节点中的地址。

优选地，在三副本模式下replicas_num字段取值为1，2或3，取值为1时，表明该数据块为主副本，取值为2时，表示该数据块副本为当前数据块的第二副本，取值为3时，表示该数据块副本为当前数据块的第三副本。

优选地，当datanode字段值为0时，表示分布式存储层尚未为该数据块分配存储的节点。

优选地，所述节点选择模块进一步设计为：

收到元数据维护模块传递的写数据信息后，节点选择模块计算各个物理节点的评价函数值，并据此选择评价函数值最低的节点作为数据块保存的节点，计算物理节点评价函数值涉及到的参数为：节点的CPU负载、节点的内存负载和节点的相对存储使用率；其中，节点的CPU负载用节点CPU占用率p_cpu来度量，取值范围为[0，1]，此参数值越高，表明当前时段节点中运行的进程越多，节点的CPU使用率越高，该节点计算负载越高；节点的内存负载用节点的内存使用率p_mem表示，为节点中进程已使用的内存量与节点内存总容量的比值，取值范围为[0，1]，此参数值越高，表明该节点的内存负载越高；节点的相对存储使用率μ为节点当前已用存储容量与系统所有节点已用存储容量的比值，取值为大于0的实数，用来度量节点存储使用率与系统所有节点平均存储使用率之间的差别，评价函数值V为这三个参数的线性组合，且每个参数的系数为正数，如下式：

V＝λ₁×p_cpu+λ₂×p_mem+λ₃×μ

λ₁、λ₂、λ₃为对应参数的系数；

系统中保存数据块副本的物理节点分为主节点和从节点，其中主节点为虚拟机所在的物理节点，与之相对应地，虚拟机产生的保存在主节点上的数据块的副本为主副本，对于每一个数据块，其主节点且仅有一个；从节点为除主副本外的副本所在的物理节点，在三副本模式中，从节点有两个，分别为第二从节点和第三从节点，相应地，第二、三从节点上保存的数据块副本分别为第二、三从副本。

本发明又提供了一种利用所述方法设计得到的数据本地化存储系统。

本发明又提供了一种基于所述的系统实现的一种基于节点评价函数的超融合系统数据本地化存储方法。

优选地，包括以下步骤：

步骤1、创建并更新主副本元数据

在收到超融合系统虚拟化层的写数据请求时，元数据维护模块首先检查该数据块是否已存在与集群中，若已存在，则拒绝写入；若不存在，则生成该数据块的blkid并为该数据块创建元数据并分配其在主节点保存的存储空间地址，同时初始化相关字段：

blkid：赋值为生成的blkid；

replicas_num；赋值为1，表明该数据块为主副本；

datanode：赋值为写数据请求来源物理节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

local_addr：赋值为在主副本节点中为该数据块分配的地址；

创建主副本元数据完成后，由元数据服务节点通过心跳信息将主副本元数据发送给该数据块主节点上的分布式数据节点；

步骤2、为数据块选择副本保存的从节点：

元数据维护模块为数据块分配主节点后，节点选择模块开始为数据块分配从节点；

节点选择模块从分布式存储元数据服务节点读取物理节点的CPU、内存以及存储空间使用情况，计算除该数据块主节点外的其他节点的综合评价函数值V，之后选择出其中综合评价函数值最小的两个数据服务节点分别作为该数据块的第二从节点和第三从节点，并将其返回给元数据维护模块；

步骤3、创建从节点的元数据

收到节点选择模块的返回值之后，元数据维护模块分别为数据块的第二、第三从副本创建元数据，其元数据各字段如下：

blkid：赋值为该数据块的blkid，该数据块的副本具有相同的blkid)；

replicas_num；该数据块的第二、三从副本的该值分别赋值为2和3；

datanode：分别赋值为该数据块第二、三从副本节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

local_addr：分别赋值为在第二、三副本节点中为该数据块分配的地址；

步骤4、元数据服务节点向写请求客户端返回数据服务节点信息

选择出数据块的主副本节点、第二从副本节点和第三从副本节点后，由分布式存储元数据服务节点通过心跳信息将三个数据服务节点返回给写数据请求客户端。

本发明又提供了一种所述的方法在数据存储技术领域中的应用。

(三)有益效果

为了在实现虚拟机数据的本地化读取的同时，避免节点数据分布失衡，本发明提出了一种基于节点评价函数的超融合系统数据本地化存储系统及方法。使用中心化的分布式存储系统作为其底层存储设备，采用本地物理节点和多个远端物理节点共同维护数据副本的方式，使系统中虚拟机实例的数据块在其所在物理节点保存一个主副本，并考虑节点间数据均衡分布，综合考虑物理节点的硬件性能和相对存储使用率选择另外两个远端物理节点保存第二、三数据副本，保证虚拟机数据的完全本地化存储，从而虚拟机读取数据时，能够直接从其所在物理节点读取所需数据，缩短虚拟机的读数据I/O路径，避免跨物理节点读取，降低虚拟机的读数据延迟。

附图说明

图1为本发明的超融合系统数据本地化存储系统设计框图；

图2为本发明中的数据块的元数据结构设计原理图；

图3为本发明中的节点选择模块的节点选择流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明设计了一种基于节点评价函数的超融合系统数据本地化存储系统及方法。该设计旨在为超融合系统中的虚拟机提供一种数据就近存储且超融合系统节点间数据均衡分布的数据本地化存储系统及方法。该系统及方法应用于超融合系统底层分布式存储系统的元数据服务节点。

如图1所示，该系统设计为包括元数据维护模块和节点选择模块；其中，所述元数据维护模块用于基于节点选择模块的返回值，存储和维护超融合系统中物理节点的状态信息和数据块的元数据；节点选择模块用于在系统创建多个数据副本时，综合考虑物理节点的CPU、内存和数据分布情况计算其评价函数值，并根据物理节点的评价函数值选择多个副本放置的节点，以保证虚拟机所在物理节点持有虚拟机数据，使虚拟机的读数据I/O均通过本地节点，避免跨网络读取数据的带宽占用和时间消耗。

元数据维护模块设计：

本发明中，元数据维护模块用于基于节点选择模块的返回值，存储和维护超融合系统中物理节点的状态信息和数据块的元数据。在超融合系统中，虚拟机数据镜像以块数据的形式存在于底层分布式存储中，当收到写数据请求时，首先由元数据维护模块检查数据是否存在于分布式存储系统中，若满足条件则将写数据信息传递给节点选择模块，并根据节点选择模块的返回值更新数据块的元数据信息。数据块的元数据结构设计如图2所示。

其中，blkid字段为超融合系统中虚拟机数据块的ID，该字段用于系统索引数据块位置；replicas_num字段为多副本模式下当前数据块副本的序号，该字段与blkid字段结合能够全局唯一性地索引超融合系统中的数据块，该字段的取值为不大于副本复制因子数的正整数，如三副本模式下取值为1，2或3，取值为1时，表明该数据块为主副本，取值为2时，表示该数据块副本为当前数据块的第二副本，取值为3时，表示该数据块副本为当前数据块的第三副本；datanode字段表示数据块副本所在的物理节点序号，取值为不大于超融合系统物理节点数目的非负整数，如0，1，2，3等，特别地，当该值为0时，表示分布式存储层尚未为该数据块分配存储的节点；blk_size字段表示该数据块的大小；ctime字段表示该数据块的创建时间；atime字段表示该数据块的最后一次访问时间，该值的大小应当不小于ctime字段值的大小；mtime字段表示该数据块的最后一次修改时间，该值的大小应当不小于ctime字段的值，且该值的大小应当不大于atime字段的值；local_addr字段表示数据块在所分配的物理节点中的地址。

节点选择模块设计：

本发明中，收到元数据维护模块传递的写数据信息后，节点选择模块会计算各个物理节点的评价函数值，并据此选择评价函数值最低的节点作为数据块保存的节点。计算物理节点评价函数值涉及到的参数为：节点的CPU负载、节点的内存负载和节点的相对存储使用率；其中，节点的CPU负载用节点CPU占用率p_cpu来度量，取值范围为[0，1]，此参数值越高，表明当前时段节点中运行的进程越多，节点的CPU使用率越高，该节点计算负载越高；节点的内存负载用节点的内存使用率p_mem表示，为节点中进程已使用的内存量与节点内存总容量的比值，取值范围为[0，1]，此参数值越高，表明该节点的内存负载越高；节点的相对存储使用率μ为节点当前已用存储容量与系统所有节点已用存储容量的比值，取值为大于0的实数，用来度量节点存储使用率与系统所有节点平均存储使用率之间的差别。评价函数值V为这三个参数的线性组合，且每个参数的系数为正数，如下式：

V＝λ₁×p_cpu+λ₂×p_mem+λ₃×μ

λ₁、λ₂、λ₃为对应参数的系数；

节点选择的流程如图3所示。

本发明使用自定义类为超融合系统分布式存储层元数据服务节点提供调用接口，以类调用的方式实现块数据副本放置节点的选择。

基于上述系统实现的一种基于节点评价函数的超融合系统数据本地化存储方法包括以下步骤：

步骤1、创建并更新主副本元数据

blkid：赋值为生成的blkid；

replicas_num；赋值为1，表明该数据块为主副本；

datanode：赋值为写数据请求来源物理节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

local_addr：赋值为在主副本节点中为该数据块分配的地址。

创建主副本元数据完成后，由元数据服务节点通过心跳信息将主副本元数据等信息发送给该数据块主节点上的分布式数据节点。

步骤2、为数据块选择副本保存的从节点：

元数据维护模块为数据块分配主节点后，节点选择模块开始为数据块分配从节点。

节点选择模块从分布式存储元数据服务节点读取物理节点的CPU、内存以及存储空间使用情况，计算除该数据块主节点外的其他节点的综合评价函数值V，之后选择出其中综合评价函数值最小的两个数据服务节点分别作为该数据块的第二从节点和第三从节点，并将其返回给元数据维护模块。

步骤3、创建从节点的元数据

blkid：赋值为该数据块的blkid(该数据块的副本具有相同的blkid)；

datanode：分别赋值为该数据块第二、三从副本节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

local_addr：分别赋值为在第二、三副本节点中为该数据块分配的地址。

选择出数据块的主副本节点、第二从副本节点和第三从副本节点后，由分布式存储元数据服务节点通过心跳信息将上述三个数据服务节点返回给写数据请求客户端。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于节点评价函数的超融合系统数据本地化存储系统的设计方法，其特征在于，将该存储系统设计为包括元数据维护模块和节点选择模块；其中，

2.如权利要求1所述的方法，其特征在于，将所述元数据维护模块进一步设计为：

3.如权利要求2所述的方法，其特征在于，在三副本模式下replicas_num字段取值为1，2或3，取值为1时，表明该数据块为主副本，取值为2时，表示该数据块副本为当前数据块的第二副本，取值为3时，表示该数据块副本为当前数据块的第三副本。

4.如权利要求2所述的方法，其特征在于，当datanode字段值为0时，表示分布式存储层尚未为该数据块分配存储的节点。

5.如权利要求2所述的方法，其特征在于，所述节点选择模块进一步设计为：

V＝λ₁×p_cpu+λ₂×p_mem+λ₃×μ

λ₁、λ₂、λ₃为对应参数的系数；

6.一种利用权利要求1至5中任一项所述方法设计得到的数据本地化存储系统。

7.一种基于权利要求6所述的系统实现的一种基于节点评价函数的超融合系统数据本地化存储方法。

8.如权利要求7所述的方法，其特征在于，包括以下步骤：

步骤1、创建并更新主副本元数据

blkid：赋值为生成的blkid；

replicas_num；赋值为1，表明该数据块为主副本；

datanode：赋值为写数据请求来源物理节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

local_addr：赋值为在主副本节点中为该数据块分配的地址；

步骤2、为数据块选择副本保存的从节点：

步骤3、创建从节点的元数据

replicas_num；该数据块的第二、三从副本的该值分别赋值为2 和3；

datanode：分别赋值为该数据块第二、三从副本节点的序号；

blk_size：赋值为该数据块大小；

ctime：赋值为当前时间；

atime：赋值为当前时间；

mtime：赋值为当前时间；

9.一种如权利要求8所述的方法在数据存储技术领域中的应用。