CN112328171A - 数据分布预测方法、数据均衡方法、设备及存储介质 - Google Patents

数据分布预测方法、数据均衡方法、设备及存储介质 Download PDF

Info

Publication number
CN112328171A
CN112328171A CN202011146994.XA CN202011146994A CN112328171A CN 112328171 A CN112328171 A CN 112328171A CN 202011146994 A CN202011146994 A CN 202011146994A CN 112328171 A CN112328171 A CN 112328171A
Authority
CN
China
Prior art keywords
storage
distribution
constructed
data
storage disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011146994.XA
Other languages
English (en)
Other versions
CN112328171B (zh
Inventor
王刚
田锴
祝国亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yuanhen Cloud Technology Co ltd
Original Assignee
Suzhou Yuanhen Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yuanhen Cloud Technology Co ltd filed Critical Suzhou Yuanhen Cloud Technology Co ltd
Priority to CN202011146994.XA priority Critical patent/CN112328171B/zh
Publication of CN112328171A publication Critical patent/CN112328171A/zh
Application granted granted Critical
Publication of CN112328171B publication Critical patent/CN112328171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分布预测方法、数据均衡方法、设备及存储介质,其中方法包括:读取集群数据中当前存储盘的自然分布状态;根据当前存储盘的所述自然分布状态,得到集群数据的最小分布方差;根据逻辑单元抽取存储盘以预测数据分布,根据预测数据分布获取构建存储盘与构建存储盘的构建分布状态;根据若干构建存储盘的构建分布状态,得到构建分布方差;将构建分布方差与最小分布方差比较以得到比较结果,根据比较结果确定优化权重表。本发明通过获取最小分布方差和构建分布方差后,以确定优化权重表,以自动预测优化权重表,以便于用于根据优化权重表设置存储盘的权重,进而调节数据分布的均衡性,既提高了数据分布的均衡性,又省时省力。

Description

数据分布预测方法、数据均衡方法、设备及存储介质
技术领域
本发明涉及分布式存储,尤其是涉及一种数据分布预测方法、数据均衡方法、设备及存储介质。
背景技术
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
目前,由于数据分布存储的均衡性较差,在实际的应用环境中,同一集群的硬盘容量使用率相差甚至会超过30%,这会造成非常严重的存储资源浪费,因为使用率高的硬盘写满后,整个集群就不再能写入数据,而此时最低实用率的磁盘容量只能使用不到70%,则会造成整体集群大约15%的容量浪费。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种数据分布预测方法,能够根据优化权重表设置存储盘的权重,进而调节数据分布的均衡性,既提高了数据分布的均衡性,又省时省力。
本发明还提出一种数据均衡方法。
本发明还提出一种数据分布预测控制设备。
本发明还提出一种计算机可读存储介质。
第一方面,本发明的一个实施例提供了数据分布预测方法,包括:
读取集群数据中当前存储盘的自然分布状态;
根据所述当前存储盘的所述自然分布状态,得到所述集群数据的最小分布方差;
根据逻辑单元抽取存储盘以预测数据分布,根据所述预测数据分布获取构建存储盘与所述构建存储盘的构建分布状态;
根据若干所述构建存储盘的所述构建分布状态,得到构建分布方差;
将所述构建分布方差与所述最小分布方差比较以得到比较结果,根据所述比较结果确定优化权重表。
本发明实施例的数据分布预测方法至少具有如下有益效果:通过获取最小分布方差和构建分布方差后,以确定优化权重表,以自动预测优化权重表,以便于用于根据优化权重表设置存储盘的权重,进而调节数据分布的均衡性,既提高了数据分布的均衡性,又省时省力。
根据本发明的另一些实施例的数据分布预测方法,所述自然分布状态包括:当前总存储容量、当前存储盘的权重、当前存储池的总容量、当前存储池编号、当前存储池逻辑单元数、当前存储池使用的存储策略编号、逻辑单元与当前存储盘的关系式以及当前集群数据总存储盘数量;所述构建分布状态包括:构建总存储容量、构建存储盘的权重、构建存储池的总容量、构建存储池编号、构建存储池逻辑单元数、构建存储池使用的存储策略编号、逻辑单元与构建存储盘的关系式以及构建集群数据总存储盘数量。
根据本发明的另一些实施例的数据分布预测方法,所述根据所述存储盘的所述自然分布状态得到所述集群数据的最小分布方差,包括:
根据所述逻辑单元和当前存储盘的关系式、所述当前存储池逻辑单元数以及当前总存储容量,以获取当前逻辑单元容量;
根据所述当前逻辑单元容量,得到所述当前存储盘的承载数据量;
根据所述存储盘的承载数据量和所述当前存储盘的总容量得到若干当前存储盘容量比;
根据所述当前存储盘容量比和所述当前集群数据总存储盘数量,得到所述当前集群数据的若干分布方差;
获取所述当前集群数据中最小的所述分布方差以得到最小分布方差。
根据本发明的另一些实施例的数据分布预测方法,所述根据若干所述构建存储盘的所述构建分布状态,得到构建分布方差,包括:
根据所述逻辑单元和构建存储盘的关系式、所述构建存储池逻辑单元数以及总构建存储容量,以获取构建逻辑单元容量;
根据所述构建逻辑单元容量,得到所述构建存储盘的承载数据量;
根据所述构建存储盘的承载数据量和所述构建存储盘的总容量得到若干构建存储盘容量比;
根据所述构建存储盘容量比和所述构建集群数据总存储盘数量,得到所述构建集群数据的若干分布方差;
获取所述构建集群数据中最小的所述分布方差以得到所述构建分布方差。
根据本发明的另一些实施例的数据分布预测方法,所述将所述构建分布方差与所述最小分布方差比较以得到比较结果,根据所述比较结果确定优化权重表,包括:
若所述构建分布方差小于最小分布方差,获取若干所述构建存储盘的权重以确定优化权重表;
若所述构建分布方差大于或等于所述最小分布方差,重新计算所述最小分布方差和所述构建分布方差,并将重新计算的最小分布方差和所述构建分布方差进行比较以确定优化权重表。
根据本发明的另一些实施例的数据分布预测方法,还包括:
根据所述构建存储盘容量比对所述构建存储盘进行微调,以更新所述优化权重表得到最优权重表。
根据本发明的另一些实施例的数据分布预测方法,所述根据所述构建存储盘的所述存储盘容量比进行微调,以更新优化权重表得到最优权重表,包括:
针对所述构建存储盘容量比最大的所述构建存储盘,所述构建存储盘的权重减少一个预设微调值;
针对所述构建存储盘容量比最小的所述构建存储盘,所述构建存储盘的权重增加一个预设微调值;
根据所述构建存储盘的权重进行微调后更新所述优化权重表,得到最优权重表。
第二方面,本发明的一个实施例提供了数据均衡方法,包括:
获取如第一方面的数据分布预测方法的所述优化权重表;
将数据根据所述优化权重表进行分布式存储。
本发明实施例的数据均衡方法至少具有如下有益效果:通过自动获取优化权重表,使得存储盘的权重调节方便,进而数据分布更加均衡。
第三方面,本发明的一个实施例提供了数据分布预测控制设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面的数据分布预测方法。
本发明实施例的数据分布预测控制设备至少具有如下有益效果:通过处理器能够执行如第一方面的数据分布预测方法,使得数据分布预测方法实现简易。
第四方面,本发明的一个实施例提供了计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面的数据分布预测方法。
本发明实施例的计算机可读存储介质至少具有如下有益效果:通过计算机可执行指令用于使计算机执行如第一方面的数据分布预测方法,使得数据分布预测执行简易,以得到优化权重表更加简易。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施例中数据分布预测方法的一具体实施例流程示意图;
图2是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图3是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图4是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图5是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图6是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图7是本发明实施例中数据分布预测方法的另一具体实施例流程示意图;
图8是本发明实施例中数据均衡方法的一具体实施例流程示意图。
具体实施方式
以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
在本发明的描述中,如果涉及到方位描述,例如“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。如果某一特征被称为“设置”、“固定”、“连接”、“安装”在另一个特征,它可以直接设置、固定、连接在另一个特征上,也可以间接地设置、固定、连接、安装在另一个特征上。
在本发明实施例的描述中,如果涉及到“若干”,其含义是一个以上,如果涉及到“多个”,其含义是两个以上,如果涉及到“大于”、“小于”、“超过”,均应理解为不包括本数,如果涉及到“以上”、“以下”、“以内”,均应理解为包括本数。如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
CRUSH0数据分布技术是一种可配置的伪随机分布算卡通图法,由于伪随机分布算法本身就有分布均衡性不太好的问题,加上可配置性,使得最终分布均衡性难以保证,在实际的应用环境中,同一集群的硬盘容量使用率相差甚至会超过30%,这会造成非常严重的存储资源浪费,因为使用率高的硬盘写满后,整集群就不再能写入数据,而此时最低使用率的硬盘容量只能使用不到70%,会造成整体集群大约15%得容量浪费。
目前,针对分布式存储容量的浪费,大部分采用CEPH算法,CEPH算法是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。CEPH算法的统一体现在可以提供文件系统、块存储和对象存储,分布式体现在可以动态扩展。摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。CEPH算法主要提供调整存储盘权重的方法,使得数据分布重新调整,但是此调整可能产生好的结果也可能产生更差的结果,而且需要人工进行成百上千的调整,当集群规模较大时,人工几乎不可能通过调整权重来达到集群分布均衡的目的。
基于此,本申请提供了数据分布预测方法、数据均衡方法、设备及存储介质,根据以往存储盘的数据分布状态以预测出存储盘的优化权重表,以便于用户根据优化权重表进行数据均衡分布,既解决了数据分布不均匀的问题,又节省人力,以便于用户进行数据均衡的操作更加省时省力。
参照图1,本发明实施例公开了一种数据分布预测方法,包括:
S100、读取集群数据中当前存储盘的自然分布状态;
S200、根据当前存储盘的自然分布状态,得到集群数据的最小分布方差;
S300、根据逻辑单元抽取存储盘以预测数据分布,根据预测数据分布获取构建存储盘与构建存储盘的构建分布状态;
S400、根据若干构建存储盘的构建分布状态,得到构建分布方差;
S500、将构建分布方差与最小分布方差比较以得到比较结果,根据比较结果确定优化权重表。
首先读取集群数据的存储盘的自然分布状态,主要针对该集群数据的存储状态为100%时,根据当前存储盘的自然分布状态进行分布预测,以计算出在集群数据中最小分布方差,而最小分布方差相当于该集群数据中存储盘的分布均衡率,以通过最小分布方差能够判断该集群数据的分布是否均衡。然后在同一个集群数据中抽取逻辑单元,且多次抽取逻辑单元构建成若干构建存储盘。通过若干构建存储盘组合成一个构建集群数据,然后获取若干构建存储盘的构建分布状态,通过构建存储盘的构建分布状态得到构建分布方差,并将构建分布方差与最小分布方差比较以得到比较结果,根据比较结果确定优化权重表。其中确定的优化权重表根据比较结果确定当前存储盘的权重组成的优化权重表,或者确定构建存储盘的权重组成的优化权重表。通过分布预测得到优化权重表,以便于用户直接根据预测得到的优化权重表进行数据均衡,无需人工调整权重,既节省人力又提高了数据分布的均衡性。
其中,优化权重表通过不断循环,即重新执行步骤S100至步骤S500。例如,初次获取当前存储盘的权重后建立初始权重表,执行步骤S100至步骤S500后,得到优化权重表以替换初始权重表进行数据存储,然后继续执行步骤S100至步骤S500,以多次计算得到的优化权重表并判断是否可以替代原先的权重表,以通过不断地循环和优化计算得到的优化权重表更加能够减少数据存储空间的浪费。
在一些实施例中,自然分布状态包括:当前总存储容量、当前存储盘的权重、当前存储池的总容量、当前存储池编号、当前存储池逻辑单元数、当前存储池使用的存储策略编号、逻辑单元与当前存储盘的关系式以及当前集群数据总存储盘数量。构建分布状态包括:构建总存储容量、构建存储盘的权重、构建存储池的总容量、构建存储池编号、构建存储池逻辑单元数、构建存储池使用的存储策略编号、逻辑单元与构建存储盘的关系式以及构建集群数据总存储盘数量。
当前总存储容量为Ca,当前存储盘的权重为Wi,具体为获取每一块当前存储盘的权重。当前存储池的总容量为Cdi,当前存储池编号为pool_id,当前存储池逻辑单元数为pg_num,当前存储池使用的存储策略编号为rule_id,逻辑单元与当前存储盘的关系式为Mp-i,以及当前集群数据总存储盘数量为N。
其中,当前存储盘的权重为当前存储池的容量除以1TB,相当于
Figure BDA0002740043110000071
且当前存储盘的权重代表存储盘的容量相对大小。每个当前存储池有若干逻辑单元,且当前存储池的数据在每个逻辑单元中均匀分布,每个逻辑单元的容量为Cp通过当前总存储容量和当前存储池逻辑单元数计算得到,也即通过
Figure BDA0002740043110000072
计算得到。通过当前存储盘的自然分布状态能够清楚的知道存储盘的权重和当前逻辑单元的容量。
由于构建分布状态为若干构建存储盘的分布状态,且构建存储盘通过相同的逻辑单元构建而得到,因此构建存储盘的逻辑单元容量也为Cp’,由于存储池通过逻辑单元组成。因此,根据抽取的逻辑单元个数和容量能够得到构建存储池的总容量Cdi’,而且通过构建存储池的总容量能够计算得到构建存储盘的权重Wi’。构建存储池编号为pool_id’,且根据抽取的存储盘确定。构建存储池逻辑单元数根据抽取的次数确定,构建存储池使用的存储策略编号为pg_num’,且根据抽取的存储盘确定。逻辑单元与构建存储盘的关系式与逻辑单元为Mp-i’,且与抽取的存储盘相关,而构建集群数据总存储盘数量根据抽取组件的存储盘数量相同。
通过分布当前存储的自然分布状态和构建存储盘的构建分布状态,即可明确当前存储盘和构建存储盘的数据分布哪一个更加均衡,以根据更加均衡的数据分布方式确定优化权重表,以提高数据分布存储的均衡性。
参照图2,在一些实施例中,步骤S200具体包括:
S210、根据逻辑单元和当前存储盘的关系式、当前存储池逻辑单元数以及当前总存储容量,以获取当前逻辑单元容量;
S220、根据当前逻辑单元容量,得到当前存储盘的承载数据量;
S230、根据存储盘的承载数据量和当前存储盘的总容量得到若干当前存储盘容量比;
S240、根据当前存储盘容量比和当前集群数据总存储盘数量,得到当前集群数据的若干分布方差;
S250、获取当前集群数据中最小的分布方差以得到最小分布方差。
首先,根据逻辑单元和当前存储盘的关系式进行归类计算,以得到每块当前存储盘上对应的逻辑单元集合,而且根据当前存储池逻辑单元数据和当前总存储容量能够计算得到每一个逻辑单元的容量,以得到当前逻辑单元容量,也即通过
Figure BDA0002740043110000081
计算得到当前逻辑单元容量。由于每一块存储盘上对应有逻辑单元集合,即可根据当前逻辑单元容量与当前存储盘的逻辑单元数量计算出每一块当前存储盘的承载数据量。根据每一块当前存储盘的承载数据量和每块当前存储盘的总容量计算得到当前存储盘容量比,且通过以下公式计算得到:
Figure BDA0002740043110000082
式中,RATIOi为当前存储盘容量比,Cf为当前存储盘的承载数据量,Cdi为当前存储盘的总容量。通过计算当前存储盘容量比即可清楚当前存储盘的存储使用率。
计算得到当前存储盘容量比后,根据当前存储盘容量比和当前集群数据总存储盘数量能够通过如下公式计算得到平均当前存储盘容量比。
Figure BDA0002740043110000083
式中,RATIO为平均当前存储盘容量比,N为当前集群数据总存储盘数量,且RATIOi为当前存储盘存储容量比。
通过计算得到平均当前存储盘容量比后即可计算每一个当前存储盘的方差,然后得到整个集群数据的分布方差,通过如下公式得到集群数据的分布方差:
Figure BDA0002740043110000091
式中,F为当前存储盘的方差,通过计算得到若干当前存储盘的方差以得到整个集群数据的分布方差,然后在整个集群数据的分布方差中选择最小的分布方差以得到最小分布方差,也即Fmin=F。
通过最小分布方差能够清楚当前存储盘的分布均衡率,若最小分布方差大,证明当前存储盘的分布均衡率低,若最小分布方差小,则证明当前存储盘的分布均衡率高。因此越低的最小分布方差,代表数据分布更加均衡。
参照图3,在一些实施例中,数据分布预测方法还包括:
S600、根据当前存储盘容量比对当前存储盘的权重进行微调,以更新当前存储盘的权重表;
其中,步骤S600具体包括:
S610、针对当前存储盘容量比最大的当前存储盘,该当前存储盘的权重减少一个微调值;
S620、针对当前存储盘容量比最小的当前存储盘,当前存储盘的权重增加一个微调值。
其中,微调值在本实施例为0.001,且0.001的微调值是根据实际测试效果得出的最佳值,以更加精确计算出每一个当前存储盘的权重。其中针对当前存储盘容量比最大的当前存储盘减少一个微调值,则新的当前存储盘的权重为Wi=Wi-0.001。而对于当前存储盘容量比最小的存储盘,需要增加一个微调值,则新的当前存储盘的权重为Wi=Wi+0.001。通过对当前存储盘的权重进行微调,以得到当前存储盘的权重表更加准确。
在一些实施例中,根据逻辑单元抽取存储盘以预测数据分布,根据预测数据分布获取构建存储盘与构建存储盘的构建分布状态。其中,针对逻辑单元采用抽签算法进行三次抽签,得到三个构建存储盘ID,也即针对每一个逻辑单元抽取一次,得到一个存储盘ID,然后重复该操作三次以得到三个构建存储盘ID,根据三个构建存储盘ID即可得到构建存储盘。其中,根据每一个逻辑单元抽取存储盘相当于预测逻辑单元随机分布,以得到数据预测分布。且三个构建存储盘ID具体为:
Disk_id1=Straw2(pool_id,pg_id,rule_id,[W1,W2,W3...Wn]);
Disk_id2=Straw2(pool_id,pg_id,rule_id,[W1,W2,W3...Wn]);
Disk_id3=Straw2(pool_id,pg_id,rule_id,[W1,W2,W3...Wn])。
通过抽签算法的伪随机特性,权重越大的存储盘被抽中的概率越大,则三次抽签得到一个逻辑单元对应的3个存储盘,分别存储一个数据副本,总共三个副本。根据逻辑单元抽取存储盘也即预测逻辑单元更优的分布方式,以根据当前存储盘的权重进行数据存储的方式即得到预测数据分布。因此,根据预测数据分布得到逻辑单元与构建存储盘的关系式为Mp-i’=[Disk_id1,Disk_id2,Disk_id3],因此根据逻辑单元与构建存储盘的关系式得到构建存储盘和构建存储盘的构建分布状态。
参照图4,在一些实施例中,步骤S400具体包括:
S410、根据逻辑单元和构建存储盘的关系式、构建存储池逻辑单元数以及总构建存储容量,以获取构建逻辑单元容量;
S420、根据构建逻辑单元容量,得到构建存储盘的承载数据量;
S430、根据构建存储盘的承载数据量和构建存储盘的总容量得到若干构建存储盘容量比;
S440、根据构建存储盘容量比和构建集群数据总存储盘数量,得到构建集群数据的若干分布方差;
S450、获取构建集群数据中最小的分布方差以得到构建分布方差。
其中,通过构建存储池逻辑单元数和总构建存储容量得到逻辑单元的数据量,也即
Figure BDA0002740043110000101
然后根据逻辑单元的数据量、逻辑单元和构建存储盘的关系式得到构建存储盘的承载数据量。然后根据构建存储盘的承载数据量和构建存储盘的总容量得到构建存储盘容量比,具体计算公式为:
Figure BDA0002740043110000102
式中,RATIOi’为构建存储盘容量比,Cf’为构建存储盘的承载数据量,Cdi’为构建存储盘的总容量。通过计算构建存储盘容量比即可清楚构建存储盘的存储使用率。
得到构建存储盘容量比后,根据构建存储盘容量比和构建集群数据总存储盘数量能够计算出平均构建存储盘容量比,以通过以下公式计算得到:
Figure BDA0002740043110000111
式中,RATIO’为平均构建存储盘容量比,根据构建存储盘容量比和平均构建存储盘容量比即可计算得到构建存储盘的方差,以通过以下公式计算得到若干构建存储盘的方差,进而得到整个构建集群数据的分布方差,具体计算公式如下:
Figure BDA0002740043110000112
通过获取与整个构建集群数据中分布方差最小的分布方差以确定构建分布方差。因此计算得到的构建分布方差为预测的数据分布情况,以通过比对预测得到的构建分布方差和最小分布方差以得到比较结果,以证明比较预测的数据分布方式和当前的数据分布方式哪一个更加均衡。
参照图5,在一些实施例中,步骤S500具体包括:
S510、若构建分布方差小于最小分布方差,获取若干构建存储盘的权重以确定优化权重表;
S520、若构建分布方差大于或等于最小分布方差,重新计算最小分布方差和构建分布方差,并将重新计算的最小分布方差和构建分布方差进行比较以确定优化权重表。
其中,若构建分布方差小于最小分布方差,则证明预测逻辑单元分布在构建存储盘的数据均衡性比当前存储盘的数据均衡性更优,则获取若干构建存储盘的权重得到优化权重表,以便于根据优化权重表使得数据存储的均衡性提高。
若构建分布方差大于或等于最小分布方差,则证明当前数据存储的均衡性已是最优,则认为本次优化计算无效,则重新获取最小分布方差和构建分布方差,也即再次执行步骤S100至步骤S400以得到更优的数据分布方式。且记录重新计算最小分布方差和构建分布方差的无效调整次数,若无效调整次数达到预设阈值,则认为得不到更优的数据房补方式,则结束优化调整,则默认当前的数据存储方式为最优。若无效调整次数未达到预设阈值,则重复计算最小分布方差和构建分布方差,直到构建分布方差小于最小分布方差,获取若干构建存储盘的权重以确定优化权重表。
参照图6,在一些实施例中,数据分布预测方法还包括:
S700、根据构建存储盘容量比对构建存储盘进行微调,以更新优化权重表得到最优权重表。
由于得到的权重值会存在细微的误差,因此根据构建存储盘容量比对构建存储盘进行微调,以得到更加准确的权重,以进一步优化权重以得到最优权重表,以便于用户根据最优权重表进行数据分布,使得数据分布的均衡性更高。
参照图7,在一些实施例中,步骤S700包括:
S710、针对构建存储盘容量比最大的构建存储盘,构建存储盘的权重减少一个预设微调值;
S720、针对构建存储盘容量比最小的构建存储盘,构建存储盘的权重增加一个预设微调值;
根据构建存储盘的权重进行微调后更新优化权重表,得到最优权重表。
当构建分布方差小于最小分布方差时,以构建存储盘的权重确定优化权重表,优化权重表为Wgood=[W1‘,W2’,W3’...Wn‘]。根据构建存储盘容量比最大的构建存储盘,且该构建存储盘的权重减少一个预设微调值,对于构建存储盘容量比最小的构建存储盘,该构建存储盘对应的权重增加一个预设微调值。且在本实施例中,预设微调值为0.001,则构建存储盘的新权重为:
Wi’=Wi‘-0.001 Wi’=Wi‘+0.001 (8)
根据微调后的权重,以更新优化权重表得到最优权重表为Wbest=[W1‘,W2’,W3’...Wn‘]。
下面参考图1至图7以一个具体的实施例详细描述根据本发明实施例的数据分布预测方法。值得理解的是,下述描述仅是示例性说明,而不是对发明的具体限制。
首先获取当前存储盘的当前总存储容量、当前存储盘的权重、当前存储池的总容量、当前存储池编号、当前存储池逻辑单元数、当前存储池使用的存储策略编号、逻辑单元与当前存储盘的关系式以及当前集群数据总存储盘数量。然后计算当前存储盘的权重,再计算出每个逻辑单元的容量,得到每个逻辑单元的容量后计算每一块当前存储盘的承载数据量,然后根据公式(1)计算得到当前存储盘容量比,根据公式(2)计算得到平均当前存储盘容量比。通过平均当前存储盘容量比和当前存储盘容量比计算得到每一个当前存储盘的方差,取最小的方差作为最小分布方差。然后根据每一个逻辑单元抽取三次存储盘,以得到三个构建存储盘ID,然后根据构建存储盘ID得到逻辑单元与构建存储盘的关系式,既可以得到构建存储盘,也即预测逻辑单元都分布在哪一些构建存储盘,然后根据构建存储盘的构建分布状态,以根据公式(4)至(6)计算得到构建分布方差。若构建分布方差小于最小分布方差,则证明构建存储盘进行逻辑单元的存储方式更优,达到的数据分布均衡性更优,因此获取若干构建存储盘的权重得到优化权重表,然后对最大构建存储盘容量比的构建存储盘减少一个预设微调值,对于最小构建存储盘容量比的构建存储盘增加一个预设微调值,以更新优化权重表得到最优权重表。通过计算得到的最优权重表,用户根据最优权重表分布存储盘的权重,使得数据分布更加均衡。若构建分布方差大于或等于最小分布方差,则认为无效调整,则再次计算最小分布方差和构建分布方差,若无效调整次数低于预设阈值,则重复计算直至构建分布方差小于最小分布方差,再确定最优权重表。若无效调整次数到达预设阈值,则不再调整存储盘的权重,认为当前数据存储的均衡性最优。
第二方面,参照图8,本发明实施例还公开了一种数据均衡方法,包括:
S800、获取如第一方面的数据分布预测方法的优化权重表;
S900、将数据根据优化权重表进行分布式存储。
通过获取优化权重表后进行保存,并基于优化权重表生成各存储盘的权重调整命令,将所有的命令集写入到一个调整脚本,当用户执行调整脚本,则根据调整脚本种的权重调整命令更改存储盘中的权重,则集群内的实际数据按照构建存储盘的方式进行分布,且最终得到的构建分布方差一直,从而题号数据分布的均衡性。
其中,优化权重表的计算过程具体如第一方面的数据分布预测方法所述,此处不再赘述。
第三方面,本发明实施例还公开了一种数据分布预测控制设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面的数据分布预测方法。
通过处理器能够执行如第一方面的数据分布预测方法,使得数据分布预测方法实现简易。
第四方面,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如第一方面的数据分布预测方法。
通过计算机可执行指令用于使计算机执行如第一方面的数据分布预测方法,使得数据分布预测执行简易,以得到优化权重表更加简易。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

Claims (10)

1.数据分布预测方法,其特征在于,包括:
读取集群数据中当前存储盘的自然分布状态;
根据所述当前存储盘的所述自然分布状态,得到所述集群数据的最小分布方差;
根据逻辑单元抽取存储盘以预测数据分布,根据所述预测数据分布获取构建存储盘与所述构建存储盘的构建分布状态;
根据若干所述构建存储盘的所述构建分布状态,得到构建分布方差;
将所述构建分布方差与所述最小分布方差比较以得到比较结果,根据所述比较结果确定优化权重表。
2.根据权利要求1所述的数据分布预测方法,其特征在于,所述自然分布状态包括:当前总存储容量、当前存储盘的权重、当前存储池的总容量、当前存储池编号、当前存储池逻辑单元数、当前存储池使用的存储策略编号、逻辑单元与当前存储盘的关系式以及当前集群数据总存储盘数量;所述构建分布状态包括:构建总存储容量、构建存储盘的权重、构建存储池的总容量、构建存储池编号、构建存储池逻辑单元数、构建存储池使用的存储策略编号、逻辑单元与构建存储盘的关系式以及构建集群数据总存储盘数量。
3.根据权利要求2所述的数据分布预测方法,其特征在于,所述根据所述存储盘的所述自然分布状态得到所述集群数据的最小分布方差,包括:
根据所述逻辑单元和当前存储盘的关系式、所述当前存储池逻辑单元数以及当前总存储容量,以获取当前逻辑单元容量;
根据所述当前逻辑单元容量,得到所述当前存储盘的承载数据量;
根据所述存储盘的承载数据量和所述当前存储盘的总容量得到若干当前存储盘容量比;
根据所述当前存储盘容量比和所述当前集群数据总存储盘数量,得到所述当前集群数据的若干分布方差;
获取所述当前集群数据中最小的所述分布方差以得到最小分布方差。
4.根据权利要求2或3所述的数据分布预测方法,其特征在于,所述根据若干所述构建存储盘的所述构建分布状态,得到构建分布方差,包括:
根据所述逻辑单元和构建存储盘的关系式、所述构建存储池逻辑单元数以及总构建存储容量,以获取构建逻辑单元容量;
根据所述构建逻辑单元容量,得到所述构建存储盘的承载数据量;
根据所述构建存储盘的承载数据量和所述构建存储盘的总容量得到若干构建存储盘容量比;
根据所述构建存储盘容量比和所述构建集群数据总存储盘数量,得到所述构建集群数据的若干分布方差;
获取所述构建集群数据中最小的所述分布方差以得到所述构建分布方差。
5.根据权利要求4所述的数据分布预测方法,其特征在于,所述将所述构建分布方差与所述最小分布方差比较以得到比较结果,根据所述比较结果确定优化权重表,包括:
若所述构建分布方差小于最小分布方差,获取若干所述构建存储盘的权重以确定优化权重表;
若所述构建分布方差大于或等于所述最小分布方差,重新计算所述最小分布方差和所述构建分布方差,并将重新计算的最小分布方差和所述构建分布方差进行比较以确定优化权重表。
6.根据权利要求5所述的数据分布预测方法,其特征在于,还包括:
根据所述构建存储盘容量比对所述构建存储盘进行微调,以更新所述优化权重表得到最优权重表。
7.根据权利要求6所述的数据分布预测方法,其特征在于,所述根据所述构建存储盘的所述存储盘容量比进行微调,以更新优化权重表得到最优权重表,包括:
针对所述构建存储盘容量比最大的所述构建存储盘,所述构建存储盘的权重减少一个预设微调值;
针对所述构建存储盘容量比最小的所述构建存储盘,所述构建存储盘的权重增加一个预设微调值;
根据所述构建存储盘的权重进行微调后更新所述优化权重表,得到最优权重表。
8.一种数据均衡方法,其特征在于,包括:
获取如权利要求1至7任一项的数据分布预测方法的所述优化权重表;
将数据根据所述优化权重表进行分布式存储。
9.一种数据分布预测控制设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一项所述的数据分布预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的数据分布预测方法。
CN202011146994.XA 2020-10-23 2020-10-23 数据分布预测方法、数据均衡方法、设备及存储介质 Active CN112328171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011146994.XA CN112328171B (zh) 2020-10-23 2020-10-23 数据分布预测方法、数据均衡方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011146994.XA CN112328171B (zh) 2020-10-23 2020-10-23 数据分布预测方法、数据均衡方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328171A true CN112328171A (zh) 2021-02-05
CN112328171B CN112328171B (zh) 2024-04-30

Family

ID=74310629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011146994.XA Active CN112328171B (zh) 2020-10-23 2020-10-23 数据分布预测方法、数据均衡方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328171B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268203A (zh) * 2021-05-18 2021-08-17 天津中科曙光存储科技有限公司 存储系统的容量均衡方法、装置、计算机设备和存储介质
CN114546265A (zh) * 2022-01-29 2022-05-27 苏州浪潮智能科技有限公司 一种快速容量均衡的方法、系统、设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135524A1 (en) * 2001-09-06 2003-07-17 Cane David A. Data backup
WO2013012990A1 (en) * 2011-07-20 2013-01-24 Siemens Corporation Multi-task learning for bayesian matrix factorization
CN103226467A (zh) * 2013-05-23 2013-07-31 中国人民解放军国防科学技术大学 数据并行处理方法、系统及负载均衡调度器
US9229796B1 (en) * 2013-09-25 2016-01-05 Emc Corporation System and method for determining disk failure indicator to predict future disk failures
US20170329635A1 (en) * 2016-05-13 2017-11-16 University Of Utah Research Foundation Systems and methods for distributed computing
CN108028056A (zh) * 2015-10-22 2018-05-11 桑迪士克科技有限责任公司 具有电源电流感测以确定编程状态的三维非易失性存储器
US10146459B1 (en) * 2017-04-28 2018-12-04 EMC IP Holding Company LLC Disk activity balancing in mapped raid storage arrays by data remapping
CN109376013A (zh) * 2018-10-11 2019-02-22 北京小米智能科技有限公司 负载均衡方法及装置
CN110018799A (zh) * 2019-04-12 2019-07-16 苏州浪潮智能科技有限公司 一种存储池pg主确定方法、装置、设备及可读存储介质
US20190317682A1 (en) * 2018-04-11 2019-10-17 EMC IP Holding Company LLC Metrics driven expansion of capacity in solid state storage systems
CN111183601A (zh) * 2017-07-01 2020-05-19 艾锐势有限责任公司 分布式系统中的天线参数控制
CN111698303A (zh) * 2020-05-29 2020-09-22 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135524A1 (en) * 2001-09-06 2003-07-17 Cane David A. Data backup
WO2013012990A1 (en) * 2011-07-20 2013-01-24 Siemens Corporation Multi-task learning for bayesian matrix factorization
CN103226467A (zh) * 2013-05-23 2013-07-31 中国人民解放军国防科学技术大学 数据并行处理方法、系统及负载均衡调度器
US9229796B1 (en) * 2013-09-25 2016-01-05 Emc Corporation System and method for determining disk failure indicator to predict future disk failures
CN108028056A (zh) * 2015-10-22 2018-05-11 桑迪士克科技有限责任公司 具有电源电流感测以确定编程状态的三维非易失性存储器
US20170329635A1 (en) * 2016-05-13 2017-11-16 University Of Utah Research Foundation Systems and methods for distributed computing
US10146459B1 (en) * 2017-04-28 2018-12-04 EMC IP Holding Company LLC Disk activity balancing in mapped raid storage arrays by data remapping
CN111183601A (zh) * 2017-07-01 2020-05-19 艾锐势有限责任公司 分布式系统中的天线参数控制
US20190317682A1 (en) * 2018-04-11 2019-10-17 EMC IP Holding Company LLC Metrics driven expansion of capacity in solid state storage systems
CN109376013A (zh) * 2018-10-11 2019-02-22 北京小米智能科技有限公司 负载均衡方法及装置
CN110018799A (zh) * 2019-04-12 2019-07-16 苏州浪潮智能科技有限公司 一种存储池pg主确定方法、装置、设备及可读存储介质
CN111698303A (zh) * 2020-05-29 2020-09-22 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268203A (zh) * 2021-05-18 2021-08-17 天津中科曙光存储科技有限公司 存储系统的容量均衡方法、装置、计算机设备和存储介质
CN114546265A (zh) * 2022-01-29 2022-05-27 苏州浪潮智能科技有限公司 一种快速容量均衡的方法、系统、设备和存储介质
CN114546265B (zh) * 2022-01-29 2023-08-11 苏州浪潮智能科技有限公司 一种快速容量均衡的方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN112328171B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
US7305536B2 (en) Storage system capable of relocating data
CN112328171B (zh) 数据分布预测方法、数据均衡方法、设备及存储介质
EP3349129B1 (en) Region division method in distributed database, region node and system
CN110289994B (zh) 一种集群容量调整方法及装置
US20140366020A1 (en) System and method for managing virtual machine stock
CN106156283B (zh) 基于数据温度和节点性能的异构Hadoop存储方法
CN108920100B (zh) 基于Ceph的读写模型优化和异构副本组合方法
CN111291894B (zh) 超参数优化过程中的资源调度方法、装置、设备及介质
CN109491616A (zh) 数据的存储方法和设备
US20160266812A1 (en) Data storage method and storage server
CN110196863B (zh) 数据处理方法、装置、计算设备及存储介质
US9898518B2 (en) Computer system, data allocation management method, and program
CN111506254B (zh) 分布式存储系统及其管理方法、装置
CN113282241B (zh) 一种基于Ceph分布式存储的硬盘权重优化方法及装置
CN107145303B (zh) 一种用于在分布式存储系统中执行文件写入的方法与设备
CN112748850B (zh) 用于存储管理的方法、设备和计算机程序产品
CN109656696A (zh) 一种数据api高效调用的处理方法
CN111538718B (zh) 分布式系统的实体id生成和定位方法、扩容方法及设备
CN107145302A (zh) 一种用于在分布式存储系统中执行文件写入的方法与设备
CN109725844A (zh) 一种磁盘分配方法、装置和存储系统
CN113704220A (zh) 一种基于LSTM和遗传算法的Ceph参数调优方法
CN111859703B (zh) 一种基于热量感知的数据中心节能数据副本放置方法
US11847321B2 (en) Systems and methods for adjusting storage volume size of an application instance
CN110460663A (zh) 分布式节点间的数据分配方法、装置、服务器及存储介质
CN116991334B (zh) 数据存储方法、系统、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant