CN116360686A

CN116360686A - 一种分布式存储系统性能优化的方法、装置、设备及介质

Info

Publication number: CN116360686A
Application number: CN202310077918.5A
Authority: CN
Inventors: 郭毅
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-06-30

Abstract

本发明提供了一种分布式存储系统性能优化的方法、装置、设备及可读介质，方法包括：在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象；将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中；设置第二阈值大小的虚拟数据对象；响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点。通过使用本发明的方案，能够实现VDI数据对象副本的局部或者全部副本的集中分布效果，能够提升分布式存储系统的IO读写性能。

Description

一种分布式存储系统性能优化的方法、装置、设备及介质

技术领域

本发明涉及计算机领域，并且更具体地涉及一种分布式存储系统性能优化的方法、装置、设备及可读介质。

背景技术

分布式存储系统是将数据分散存储在多台独立的设备上，它采用可扩展的系统结构，利用多台存储服务器分担存储负荷，同时利用位置服务器定位存储信息，不但提高了系统的可靠性、可用性和存取效率，还能够带来高扩展性和极低的成本控制，具有构建和提供出企业级存储的能力。Sheepdog(一种分布式存储系统)作为分布式块存储系统，它采用完全对称的结构，无元数据中心节点，依靠大量服务器通过网络互联，提供分布式存储服务。

sheepdog采用一致性哈希算法来解决数据存储位置信息，它通过两层一致性哈希算法来确定数据对象的存储位置信息，如图1所示，对于任意数据对象请求，根据请求中包含的对象ID进行节点哈希，即计算出数据对象请求应该分布在集群中的哪一个节点上，同时，对于不同的副本策略，进一步的可以计算出副本分布在那些节点上，数据请求达到节点后，根据节点的磁盘信息进行磁盘哈希，计算出该请求中包含的数据对象分布在哪块磁盘或者磁盘组上。根据图1所示的sheepdog采用两层哈希示意图以及一致性哈希算法的特点与实现，可知随着集群中对象的个数的增加，对象副本在节点间分布会达到均匀，即各节点的存储占用率接近，同理数据对象在节点内的磁盘之间也是均匀分布的，即各磁盘之间的使用率接近。

然而sheepdog采用两层哈希实现的数据均匀分布反而会降低sheepdog的提供的VDI(sheepdog中的卷)的IO性能，因为副本的均匀分布会导致对不同的数据对象的访问需要将请求转发到不同的节点上，从而带来网络性能的损耗，尤其是对于顺序IO模型，如图2所示，数据对象1,2,3为sheepdog中VDI任意连续3个数据对象，并且按照图2示意的策略分布在服务器A、B和C之间，若服务器A为VDI服务接入节点，则对于数据对象1的读请求，则A可以直接返回，然而对于2的读取则需要将请求转发到B或者C。

发明内容

有鉴于此，本发明实施例的目的在于提出一种分布式存储系统性能优化的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够实现VDI数据对象副本的局部或者全部副本的集中分布效果，能够提升分布式存储系统的IO读写性能。

基于上述目的，本发明的实施例的一个方面提供了一种分布式存储系统性能优化的方法，包括以下步骤：

在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象；

将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中；

设置第二阈值大小的虚拟数据对象；

响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点。

根据本发明的一个实施例，在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象包括：

在分布式存储系统中创建预设大小的卷；

将创建的卷按照4M大小切分成若干个数据对象，数据对象用于存储数据。

根据本发明的一个实施例，设置第二阈值大小的虚拟数据对象包括：

设置数据对象大小的整数倍的虚拟数据对象，整数倍优选为1024倍。

根据本发明的一个实施例，还包括：

基于卷的数据对象大小和磁盘信息进行磁盘哈希计算以得到请求中的对象分布的卷的数据对象ID。

本发明的实施例的另一个方面，还提供了一种分布式存储系统性能优化的装置，装置包括：

创建模块，创建模块配置为在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象；

分布模块，分布模块配置为将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中；

设置模块，设置模块配置为设置第二阈值大小的虚拟数据对象；

计算模块，计算模块配置为响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点。

根据本发明的一个实施例，创建模块还配置为：

在分布式存储系统中创建预设大小的卷；

根据本发明的一个实施例，设置模块还配置为：

根据本发明的一个实施例，计算模块还配置为：

本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。

本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。

本发明具有以下有益技术效果：本发明实施例提供的分布式存储系统性能优化的方法，通过在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象；将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中；设置第二阈值大小的虚拟数据对象；响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点的技术方案，能够实现VDI数据对象副本的局部或者全部副本的集中分布效果，能够提升分布式存储系统的IO读写性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为现有技术的sheepdog两层哈希计算的示意图；

图2为现有技术的sheepdog数据对象访问的示意图；

图3为根据本发明一个实施例的分布式存储系统性能优化的方法的示意性流程图；

图4为根据本发明一个实施例的采用虚拟对象数据后的数据分布的示意图；

图5为根据本发明一个实施例的分布式存储系统性能优化的装置的示意图；

图6为根据本发明一个实施例的计算机设备的示意图；

图7为根据本发明一个实施例的计算机可读存储介质的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种分布式存储系统性能优化的方法的一个实施例。图3示出的是该方法的示意性流程图。

如图3中所示，该方法可以包括以下步骤：

S1在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象。本发明采取部分或者全部副本集中分布的策略提升sheepdog的读写性能，在本发明中，仍然使用sheepdog的双层哈希策略不变，这样可以很好的兼容原有逻辑的同时，也保证数据分布的均散性和处理集群节点变化与节点磁盘变化带来的较少的数据数据变化量，sheepdog对外提供VDI(卷)服务，即卷服务，在分布式存储系统创建VDI时可以指定副本策略，该副本策略为指定存储的副本数量，在存储数据时将数据存储成多个副本，将卷按照4M大小切分成若干个数据对象，例如，在分布式存储系统中创建一个大小为20G的卷，该卷的每个数据对象的大小为4M。

S2将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中。在实际应用中，将卷的若干个数据对象均匀分布到分布式存储系统中的各个服务器节点，例如系统中有3个服务器节点，则每个服务器节点中的卷的数据对象的个数大体相同。

S3设置第二阈值大小的虚拟数据对象。设置第二阈值大小对应的虚拟数据对象，虚拟数据对象的大小设置为数据对象的整数倍M，即4M的M倍，通过设置虚拟数据对象的大小，可以将数据对象的ID映射到虚拟对象数据ID，这样虚拟数据对象ID实际上就包含了[0,M)倍数范围内的数据对象。

S4响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点。在分布式存储系统接收到数据读写请求时，在进行一层哈希计算分布节点时，采用虚拟对象数据ID代替数据对象ID，这样虚拟数据对象ID包含的[0,M)倍数范围内的数据对象将分布在同一个节点上，可以根据系统配置对M进行设置，从而实现了VDI数据对象的局部或者全部集中分布。以假设M＝1024为例，即一个虚拟对象数据将包含1024个数据对象，若VDI的ID为6b4fac，sheepdog以4M为大小切分数据对象，数据对象ID为006b4fac00000001，代表了存储VDI的逻辑地址为[4M,8M)的数据空间分配单位，则将其转化为虚拟对象数据ID后，其虚拟对象数据ID将变为006b4fac00000000，进一步的ID为6b4fac的VDI的逻辑地址空间为[0,1024*4M)范围内数据空间将都以006b4fac00000000进行表示，经过上述转换后，以虚拟对象数据ID进行一层哈希，经过哈希计算出虚拟对象数据ID所在的节点位置信息作为对象数据所对应的位置信息，如图4所示，其中数据对象1、2、3和数据对象4、5、6为不同的虚拟对象ID，经过上述方法计算后，数据对象1、2、3的全部位于服务器A和C，数据对象4、5、6位于B和C，实现了局部副本的集中分布，若修改M值，使其范围包含VDI的全部数据对象，则可以实现完整副本的集中分布。局部或完整副本的集中分布可以实现VDI的访问发生在单个节点，对于顺序读请求或随机读，不需要经过网络转发到其他节点进行，对于顺序写和随机写，则可以确定数据对象的副本必将有一份存在于本地节点。

通过使用本发明的技术方案，能够实现VDI数据对象副本的局部或者全部副本的集中分布效果，能够提升分布式存储系统的IO读写性能。

在本发明的一个优选实施例中，在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象包括：

在分布式存储系统中创建预设大小的卷；

在本发明的一个优选实施例中，设置第二阈值大小的虚拟数据对象包括：

设置数据对象大小的整数倍的虚拟数据对象，整数倍优选为1024倍。通过设置虚拟数据对象的大小，可以将数据对象的ID映射到虚拟对象数据ID，这样虚拟数据对象ID实际上就包含了[0,M)倍数范围内的数据对象。倍数的值可以根据需要进行修改，倍数值足够大时，可以使其范围包含VDI的全部数据对象，可以实现完整副本的集中分布。

在本发明的一个优选实施例中，还包括：

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种分布式存储系统性能优化的装置，如图5所示，装置200包括：

在本发明的一个优选实施例中，创建模块还配置为：

在分布式存储系统中创建预设大小的卷；

在本发明的一个优选实施例中，设置模块还配置为：

在本发明的一个优选实施例中，计算模块还配置为：

基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图6示出的是本发明提供的计算机设备的实施例的示意图。如图6所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：

设置第二阈值大小的虚拟数据对象；

在分布式存储系统中创建预设大小的卷；

在本发明的一个优选实施例中，还包括：

基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图7示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图7所示，计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32：

设置第二阈值大小的虚拟数据对象；

在分布式存储系统中创建预设大小的卷；

在本发明的一个优选实施例中，还包括：

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种分布式存储系统性能优化的方法，其特征在于，包括以下步骤：

设置第二阈值大小的虚拟数据对象；

2.根据权利要求1所述的方法，其特征在于，在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象包括：

在分布式存储系统中创建预设大小的卷；

3.根据权利要求1所述的方法，其特征在于，设置第二阈值大小的虚拟数据对象包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种分布式存储系统性能优化的装置，其特征在于，所述装置包括：

创建模块，所述创建模块配置为在分布式存储系统中创建卷，并将创建的卷按照第一阈值大小切分成若干个数据对象；

分布模块，所述分布模块配置为将切分成的数据对象均匀设置到分布式存储系统中的各个服务器节点中；

设置模块，所述设置模块配置为设置第二阈值大小的虚拟数据对象；

计算模块，所述计算模块配置为响应于分布式存储系统接收到数据读写请求，基于请求中包含的对象ID和虚拟数据对象的大小进行节点哈希计算以得到请求中的对象分布的服务器节点。

6.根据权利要求5所述的装置，其特征在于，所述创建模块还配置为：

在分布式存储系统中创建预设大小的卷；

7.根据权利要求5所述的装置，其特征在于，所述设置模块还配置为：

8.根据权利要求5所述的装置，其特征在于，所述计算模块还配置为：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-4任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。