CN112925793B

CN112925793B - 一种多种结构数据分布式混合存储方法和系统

Info

Publication number: CN112925793B
Application number: CN202110334629.XA
Authority: CN
Inventors: 王军平
Original assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Current assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-12-29
Anticipated expiration: 2041-03-29
Also published as: CN112925793A

Abstract

本发明提供一种多种结构数据分布式混合存储方法和系统，其中方法包括：获取分布式存储网络的历史存储情况；解析历史存储情况，对存储节点的存储类型进行布局；获取当前待处理的存储任务的数据结构；基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整。本发明的多种结构数据分布式混合存储方法，优化存储模式，提高存储效率。

Description

一种多种结构数据分布式混合存储方法和系统

技术领域

本发明涉及分布式存储技术领域，特别涉及一种多种结构数据分布式混合存储方法和系统。

背景技术

目前，随着计算机技术的迅速发展，数据存储技术也日新月异。由原来的本地硬盘存储到分布式云存储；分布式云存储是一种网上在线存储的模式，即将资源被分布在众多的服务器主机上。但是，在分布式存储时，一个存储节点对应一种结构数据；即同一种结构数据存在多个可以存储的节点；各个结构的数据在存储效率受分布式存储网络上节点上存储节点的类型和数量的影响，当某一结构数据其对应的存储节点的数量多，存储效率就高，对应的存储节点的数量少时，存储效率就低；因此，亟需一种存储方法，实现无论存储何种结构数据，其存储效率都高。

发明内容

本发明目的之一在于提供了一种多种结构数据分布式混合存储方法，优化存储模式，提高存储效率。

本发明实施例提供的一种多种结构数据分布式混合存储方法，包括：

获取分布式存储网络的历史存储情况；

解析历史存储情况，对存储节点的存储类型进行布局；

获取当前待处理的存储任务的数据结构；

基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整。

优选的，解析历史存储情况，对存储节点的存储类型进行布局；包括：

基于预设的时间间隔对历史存储情况进行数据提取，获取各个时间间隔内的数据结构类型及对应数据结构类型的数据量；

基于各个时间间隔内的数据结构类型及对应数据结构类型的数据量，确定各个时间间隔内各个数据结构类型的数据量占比；计算公式如下：

其中，ρ_i,j为第j个时间间隔内第i个数据结构类型的数据量占第j个时间间隔的总数据量的占比；Q_i,j为第j个时间间隔内第i个数据结构类型的数据量；n为数据结构类型的种类；

基于数据量占比，确定同一数据结构类型在各个时间间隔中的最小占比；

基于各个数据结构类型的最小占比，对存储节点的存储类型进行预设；

将未预设存储类型的存储节点设置为存储类型可调的存储节点。

优选的，基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整，包括：

获取当前待处理的存储任务的数据结构的数据类型及各个数据类型的当前数据占比；

获取当前中各个数据存储节点的存储类型及对应存储类型的存储节点占比；

将数据类型与存储类型一一对应，提取当前数据占比小于存储节点占比的存储类型和数据类型，计算当前数据占比与存储节点占比的差值，将存储类型对应的存储节点中存储类型可调的存储节点与差值对应数量的存储节点置为可调节点；

提取当前数据占比大于存储节点占比的存储类型和数据类型，计算当前数据占比与存储节点占比的差值，基于差值从可调节点中抽出与差值对应数量的存储节点将其存储类型置为当前数据占比对应的存储类型。

优选的，多种结构数据分布式混合存储方法，还包括：

基于历史存储情况与当前待处理的存储任务，预测下一时刻的存储任务情况；

基于预测的下一时刻的存储任务情况，在当前时刻结束时对存储节点的存储类型进行调整；

其中，基于历史存储情况与当前待处理的存储任务，预测下一时刻的存储任务情况，包括：

对历史存储情况与当前待处理的存储任务进行特征提取，将提取的特征值输入预设的神经网络模型获取预测因子，通过预测因子查询预设的因子表，确定下一时刻的存储任务情况；

或，

获取预设的任务预测库，任务预测库中第一任务向量与预测结果一一对应；

基于历史存储情况与当前待处理的存储任务构建第二任务向量；

计算第一任务向量与第二任务向量的相似度，计算公式如下：

其中，XS为第一任务向量与第二任务向量的相似度，n为第一任务向量的数据个数或第二任务向量的数据个数；a_i为第一任务向量的第i个数据的值；b_i为第二任务向量的第i个数据的值；

获取任务预测库中相似度最大的第一任务向量对应的预测结果，将获取的预测结果作为下一时刻的存储任务情况。

优选的，多种结构数据分布式混合存储方法，还包括：

获取分布式存储网络内的各个存储节点的第一位置；

基于各个存储节点的第一位置构建虚拟地图；

解析历史存储情况，获取存储任务输入的第二位置并将其映射值虚拟地图；

基于预设的规则，将第一位置与第二位置进行关联；

获取历史存储情况中第二位置处输入的所有存储任务；当所有存储任务为同一数据结构时，将与第二位置关联的第一位置对应的存储节点的存储类型置为与数据结构相对应；

其中，预设的规则包括：

第一位置和第二位置的距离差值小于预设距离阈值。

本发明还提供一种多种结构数据分布式混合存储系统，包括：

第一获取模块，用于获取分布式存储网络的历史存储情况；

布局模块，用于解析历史存储情况，对存储节点的存储类型进行布局；

第二获取模块，用于获取当前待处理的存储任务的数据结构；

调整模块，用于基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整。

优选的，布局模块执行如下操作：

优选的，调整模块执行如下操作：

优选的，多种结构数据分布式混合存储系统，还包括：预调整模块，预调整模块执行如下操作：

或，

优选的，多种结构数据分布式混合存储系统，还包括：关联模块，关联模块执行如下操作：

获取分布式存储网络内的各个存储节点的第一位置；

基于各个存储节点的第一位置构建虚拟地图；

基于预设的规则，将第一位置与第二位置进行关联；

其中，预设的规则包括：

第一位置和第二位置的距离差值小于预设距离阈值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多种结构数据分布式混合存储方法的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种多种结构数据分布式混合存储方法，如图1所示，包括：

步骤S1：获取分布式存储网络的历史存储情况；

步骤S2：解析历史存储情况，对存储节点的存储类型进行布局；

步骤S3：获取当前待处理的存储任务的数据结构；

步骤S4：基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整。

上述技术方案的工作原理及有益效果为：

在分布式存储网络的存储节点，适配有对应的存储类型，对于存储类型相适应的结构数据具有较快的存储效率；故通过历史存储情况对分布式存储网络上的存储节点的存储类型进行布局，并且基于当前的存储任务进行分析，确定数据结构；数据结构包括：数据是何种结构化数据、以及对应的结构化数据的数据量；然后对布局好的存储节点的存储类型进行调整，以适应当前存储的数据任务的数据结构，优化数据存储的效率。布局除了可通过调整现有的存储节点的存储类型来实现，还可以添加新的对应存储类型的存储节点来实现。

在一个实施例中，解析历史存储情况，对存储节点的存储类型进行布局；包括：

上述技术方案的工作原理及有益效果为：

通过对存储节点的存储类型进行预设，预设的存储类型无需调整，而未预设的存储节点为可调，这样通过预设固化，实现有次序调整；避免多次无序调整，造成单次节点调整时，节点与节点的存储类型只是简单的互换，而造成每次需要调节的存储节点的数量的增多。

在一个实施例中，基于当前待处理的存储任务的数据结构，对存储节点的存储类型进行调整，包括：

上述技术方案的工作原理及有益效果为：

通过当前存储任务分析，对存储节点的存储类型进行调整，以适应当前的存储任务，提高存储任务处理效率。

在一个实施例中，多种结构数据分布式混合存储方法，还包括：

或，

上述技术方案的工作原理及有益效果为：

通过对下一时刻的任务进行预测分析，进行预调整，实现时刻与时刻之间过渡时的平缓调整，将调整提前化，以实现过渡期间的存储效率的优化。其中，神经网络模型为事先经过大量数据训练而得到的。任务预测库也是事先基于大量数据构建而成。因子表中预测因子与存储任务情况一一关联。

获取分布式存储网络内的各个存储节点的第一位置；

基于各个存储节点的第一位置构建虚拟地图；

基于预设的规则，将第一位置与第二位置进行关联；

其中，预设的规则包括：

第一位置和第二位置的距离差值小于预设距离阈值。

上述技术方案的工作原理及有益效果为：

在虚拟地图上将存储节点和存储任务输入位置进行映射关联；关联后对应存储连接，减少存储路径长度，提高存储效率。在一个位置输入的都是同样的数据结构，这样关联的存储节点也设置为对应的存储类型；在对存储节点的存储类型调整的基础上基于位置进一步优化存储效率；此外，当第二位置处输入的所有存储任务各个类型的数据结构都存在时，将与其关联的第一位置的存储节点置为可调数据节点的待预设节点；然后再通过解析历史存储情况，对存储节点的存储类型进行布局时确定为存储类型可调的存储节点。

第一获取模块，用于获取分布式存储网络的历史存储情况；

上述技术方案的工作原理及有益效果为：

在一个实施例中，布局模块执行如下操作：

上述技术方案的工作原理及有益效果为：

在一个实施例中，调整模块执行如下操作：

上述技术方案的工作原理及有益效果为：

在一个实施例中，多种结构数据分布式混合存储系统，还包括：预调整模块，预调整模块执行如下操作：

或，

上述技术方案的工作原理及有益效果为：

在一个实施例中，多种结构数据分布式混合存储系统，还包括：关联模块，关联模块执行如下操作：

获取分布式存储网络内的各个存储节点的第一位置；

基于各个存储节点的第一位置构建虚拟地图；

基于预设的规则，将第一位置与第二位置进行关联；

其中，预设的规则包括：

第一位置和第二位置的距离差值小于预设距离阈值。

上述技术方案的工作原理及有益效果为：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多种结构数据分布式混合存储方法，其特征在于，包括：

获取分布式存储网络的历史存储情况；

解析所述历史存储情况，对存储节点的存储类型进行布局；

获取当前待处理的存储任务的数据结构；

基于当前待处理的存储任务的数据结构，对所述存储节点的存储类型进行调整；

其中，所述解析所述历史存储情况，对存储节点的存储类型进行布局；包括：

基于预设的时间间隔对所述历史存储情况进行数据提取，获取各个时间间隔内的数据结构类型及对应数据结构类型的数据量；

；

其中，为第/>个时间间隔内第/>个数据结构类型的数据量占第/>个时间间隔的总数据量的占比；/>为第/>个时间间隔内第/>个数据结构类型的数据量；/>为数据结构类型的种类；

基于所述数据量占比，确定同一数据结构类型在各个时间间隔中的最小占比；

2.如权利要求1所述的多种结构数据分布式混合存储方法，其特征在于，所述基于当前待处理的存储任务的数据结构，对所述存储节点的存储类型进行调整，包括：

获取当前中各个数据存储节点的存储类型及对应所述存储类型的存储节点占比；

将所述数据类型与所述存储类型一一对应，提取所述当前数据占比小于所述存储节点占比的所述存储类型和所述数据类型，计算所述当前数据占比与所述存储节点占比的差值，将所述存储类型对应的存储节点中存储类型可调的存储节点与所述差值对应数量的存储节点置为可调节点；

提取所述当前数据占比大于所述存储节点占比的所述存储类型和所述数据类型，计算所述当前数据占比与所述存储节点占比的差值，基于所述差值从所述可调节点中抽出与所述差值对应数量的所述存储节点将其存储类型置为所述当前数据占比对应的所述存储类型。

3.如权利要求1所述的多种结构数据分布式混合存储方法，其特征在于，还包括：

基于预测的下一时刻的存储任务情况，在当前时刻结束时对所述存储节点的存储类型进行调整；

其中，所述基于历史存储情况与当前待处理的存储任务，预测下一时刻的存储任务情况，包括：

对所述历史存储情况与当前待处理的存储任务进行特征提取，将提取的特征值输入预设的神经网络模型获取预测因子，通过所述预测因子查询预设的因子表，确定下一时刻的存储任务情况；

或，

获取预设的任务预测库，所述任务预测库中第一任务向量与预测结果一一对应；

基于所述历史存储情况与当前待处理的存储任务构建第二任务向量；

计算所述第一任务向量与所述第二任务向量的相似度，计算公式如下：

；

其中，为所述第一任务向量与所述第二任务向量的相似度，/>为所述第一任务向量的数据个数或所述第二任务向量的数据个数；/>为所述第一任务向量的第/>个数据的值；为所述第二任务向量的第/>个数据的值；

获取所述任务预测库中相似度最大的所述第一任务向量对应的预测结果，将获取的所述预测结果作为下一时刻的存储任务情况。

4.如权利要求1所述的多种结构数据分布式混合存储方法，其特征在于，还包括：

获取所述分布式存储网络内的各个存储节点的第一位置；

基于各个所述存储节点的第一位置构建虚拟地图；

解析历史存储情况，获取存储任务输入的第二位置并将其映射值所述虚拟地图；

基于预设的规则，将所述第一位置与所述第二位置进行关联；

获取历史存储情况中所述第二位置处输入的所有存储任务；当所有存储任务为同一数据结构时，将与所述第二位置关联的所述第一位置对应的所述存储节点的存储类型置为与所述数据结构相对应；

其中，预设的规则包括：

所述第一位置和所述第二位置的距离差值小于预设距离阈值。

5.一种多种结构数据分布式混合存储系统，其特征在于，包括：

第一获取模块，用于获取分布式存储网络的历史存储情况；

布局模块，用于解析所述历史存储情况，对存储节点的存储类型进行布局；

调整模块，用于基于当前待处理的存储任务的数据结构，对所述存储节点的存储类型进行调整；

其中，所述布局模块执行如下操作：

；

6.如权利要求5所述的多种结构数据分布式混合存储系统，其特征在于，所述调整模块执行如下操作：

7.如权利要求5所述的多种结构数据分布式混合存储系统，其特征在于，还包括：预调整模块，所述预调整模块执行如下操作：

或，

；

8.如权利要求5所述的多种结构数据分布式混合存储系统，其特征在于，还包括：关联模块，所述关联模块执行如下操作：

获取所述分布式存储网络内的各个存储节点的第一位置；

基于各个所述存储节点的第一位置构建虚拟地图；

其中，预设的规则包括：