CN112231137B - 一种分布式存储数据的重平衡方法及其系统 - Google Patents

一种分布式存储数据的重平衡方法及其系统 Download PDF

Info

Publication number
CN112231137B
CN112231137B CN202011462529.7A CN202011462529A CN112231137B CN 112231137 B CN112231137 B CN 112231137B CN 202011462529 A CN202011462529 A CN 202011462529A CN 112231137 B CN112231137 B CN 112231137B
Authority
CN
China
Prior art keywords
data
current time
ceph cluster
rebalancing
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011462529.7A
Other languages
English (en)
Other versions
CN112231137A (zh
Inventor
刘杰
史伟
闵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Eflycloud Computing Co Ltd
Original Assignee
Guangdong Eflycloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Eflycloud Computing Co Ltd filed Critical Guangdong Eflycloud Computing Co Ltd
Priority to CN202011462529.7A priority Critical patent/CN112231137B/zh
Publication of CN112231137A publication Critical patent/CN112231137A/zh
Application granted granted Critical
Publication of CN112231137B publication Critical patent/CN112231137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种分布式存储数据的重平衡方法及其系统,重平衡方法步骤包括:对CEPH集群的历史IO数据拆分成训练数据;对训练数据进行训练,得到一个训练结果模型;记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点;把当前时间点作为当前时机,并将当前时机输入至训练结果模型中;训练结果模型对当前时机进行决策,用于判断当前时机是否适合对CEPH集群的存储数据执行重平衡。本发明通过训练结果模型即可自行决策CEPH集群的存储数据进行重均衡的时机,无需人工干预,极大地降低了分布式存储运营的难度,提升了数据重均衡的效率。

Description

一种分布式存储数据的重平衡方法及其系统
技术领域
本发明涉及分布式存储数据技术领域,特别涉及一种分布式存储数据的重平衡方法及其系统。
背景技术
CEPH是一种被广泛使用的分布式存储引擎,其具有良好的扩展性和容错能力,在某个存储单元(OSD)出现故障的时候,该引擎能自动将故障所影响的数据重新均衡到其他的状态良好的存储单元中。
快速神经网络(FANN)是一种非常流行的人工智能算法框架,可以通过已知数据的训练生成对应的规律模型,进而对新的未知数据进行决策判断。
分布式存储的数据重均衡一直是一个困扰分布式存储运营者的核心大问题,如果长时间不执行重均衡,数据会面临二次损坏的风险,极大可能会导致数据最终丢失并且无法挽回,而如果立刻进行数据的重均衡,往往会对业务的运行产生极大的影响,存储的服务质量无法保证进而导致业务流失。面对这个问题,运营方往往是采用堆砌人力对集群进行盯梢,并辅佐人工的经验判断,以进行是否执行数据重均衡的决策,效率低下,失误率高。
发明内容
本发明要解决的技术问题在于,提供一种分布式存储数据的重平衡方法及其系统,对历史IO数据进行训练形成训练结果模型,通过训练结果模型即可自行决策CEPH集群的存储数据进行重均衡的时机,无需人工干预,极大地降低了分布式存储运营的难度,提升了数据重均衡的效率,更进一步地提高分布式存储的服务质量,缩小了服务质量的波动。
为解决上述技术问题,本发明提供如下技术方案:一种分布式存储数据的重平衡方法,包括以下步骤:
步骤S1、对CEPH集群的历史IO数据拆分成训练数据;
步骤S2、对训练数据进行训练,得到一个训练结果模型;
步骤S3、当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点;
步骤S4、把当前时间点作为当前时机,并将当前时机输入至训练结果模型中;
步骤S5、训练结果模型对当前时机进行决策,用于判断当前时机是否适合对CEPH集群的存储数据执行重平衡;若当前时机适合对CEPH集群的存储数据执行重平衡,则对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下无需对CEPH集群的存储数据执行重平衡。
进一步地,所述步骤S1前还包括步骤S0、获取CEPH集群的历史IO数据。
进一步地,所述步骤S2中,对训练数据采用FANN方式进行训练。
进一步地,所述步骤S5中训练结果模型对当前时机进行决策,其具体为:
训练结果模型在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS,然后构建一个方程式:设总存储IO次数为x,总IO数据量为y,峰值数据BPS为z,未来若干小时的时长为t,则构建的方程式为:
Figure GDA0002923738090000021
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则判定当前时机不适合对CEPH集群的存储数据执行重平衡。
进一步地,所述未来若干小时,此未来若干小时的时长t的评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1,CEPH集群的网络传输带宽最大值为y1,则时长t的评估方程式为:t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;
或者根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2,CEPH集群的网络传输带宽最大值为y2,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值。
进一步地,所述步骤S5还包括:若当前时机不适合对CEPH集群的存储数据执行重平衡,则等待一段时间后,将一段时间后的时间点设为当前时间点,并返回步骤S4。
本发明另一目的是提供一种分布式存储数据的重平衡系统,包括数据获取模块、数据训练模块、时间记录模块、训练结果模型模块以及重均衡模块;
所述数据获取模块用于获取CEPH集群的历史IO数据,并对CEPH集群的历史IO数据拆分成训练数据;
所述数据训练模块用于对训练数据进行训练,并得到一个训练结果模型以及将训练结果模型放置于所述训练结果模型模块中;
所述时间记录模块用于:当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点,并把当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中;
所述训练结果模型模块用于对当前时机进行决策,决策出当前时机是否适合对CEPH集群的存储数据执行重平衡,并将决策结果发送给所述重均衡模块;
所述重均衡模块用于:根据所述训练结果模型模块的决策结果,若当前时机适合对CEPH集群的存储数据执行重平衡,则重均衡模块对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下重均衡模块无需对CEPH集群的存储数据执行重平衡。
进一步地,所述训练结果模型模块用于对当前时机进行决策,其具体为:
所述训练结果模型模块在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS,然后构建一个方程式:设总存储IO次数为x,总IO数据量为y,峰值数据BPS为z,未来若干小时的时长为t,则构建的方程式为:
Figure GDA0002923738090000031
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则所述训练结果模型模块判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则所述训练结果模型模块判定当前时机不适合对CEPH集群的存储数据执行重平衡。
进一步地,所述训练结果模型模块包括时长评估单元;
所述时长评估单元用于评估所述训练结果模型模块在对当前时机进行决策过程中所采用的未来若干小时的具体时长t,时长t的具体评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1,CEPH集群的网络传输带宽最大值为y1,则时长t的评估方程式为:t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;
或者根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2,CEPH集群的网络传输带宽最大值为y2,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值。
进一步地,所述时间记录模块还用于:若当前时机不适合对CEPH集群的存储数据执行重平衡,则时间记录模块等待一段时间后,将一段时间后的时间点设为当前时间点,并将当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中。
采用上述技术方案后,本发明至少具有如下有益效果:本发明通过对历史IO数据采用FANN(快速神经网络)方式进行训练,并形成训练结果模型,后期只需要将新的未知数据进行决策判断,即可判断得出当前时机下是否适合对CEPH集群的存储数据执行重平衡操作,该过程是自行决策重均衡的时机,无需人工干预,极大地降低了分布式存储运营的难度,提升了数据重均衡的效率,更进一步地提高分布式存储的服务质量,缩小了服务质量的波动。
附图说明
图1为本发明一种分布式存储数据的重平衡方法的步骤流程图。
图2为本发明一种分布式存储数据的重平衡系统的框架图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例1
如图1所示,本实施例提供一种分布式存储数据的重平衡方法,具体步骤包括:
步骤S0、获取CEPH集群的历史IO数据;
通过对CEPH集群的相关信息的收集,形成一个历史的数据集,数据集包括历史IO数据,历史IO数据包括总存储IO次数、总IO数据量和峰值数据BPS(Bytes pre sec);
步骤S1、对CEPH集群的历史IO数据拆分成训练数据;
步骤S2、对训练数据进行训练,得到一个训练结果模型;优选地,对训练数据采用FANN方式进行训练,快速神经网络(FANN)是一种非常流行的人工智能算法框架,可以通过已知数据的训练生成对应的规律模型,进而对新的未知数据进行决策判断;
步骤S3、当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点;
步骤S4、把当前时间点作为当前时机,并将当前时机输入至训练结果模型中;
具体的:在实际的集群运营情况下,数据的重平衡一般会持续几个小时,如果将重平衡的时间延长到超过一周,则出现新的数据风险的几率较大,如果小于一周则IO的特性无法完全体现出周期性(以天为单位的周期性往往具有较高的起伏,周期的匹配会较差),因此,以周为主周期,以天为辅助周期是一个具有更高普适性的方法,如此对于“时机”的组成,则可以拆分为两个特征:时机所在周的位置,时机所在天的位置,例如:(1,3)这个时机的特征向量即表示该时机为周一的凌晨3点;
步骤S5、训练结果模型对当前时机进行决策,用于判断当前时机是否适合对CEPH集群的存储数据执行重平衡;若当前时机适合对CEPH集群的存储数据执行重平衡,则对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下无需对CEPH集群的存储数据执行重平衡;本实施例能自行决策重均衡的时机,无需人工干预,极大的降低了分布式存储运营的难度,提升了效率,将分布式存储的服务质量波动进一步的缩小;
所述步骤S5中训练结果模型对当前时机进行决策,其具体为:
训练结果模型在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS,然后构建一个方程式:设总存储IO次数为x,总IO数据量为y且y的单位为MB,峰值数据BPS为z且z的单位为MB,未来若干小时的时长为t且t的单位为秒,则构建的方程式为:
Figure GDA0002923738090000061
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则判定当前时机不适合对CEPH集群的存储数据执行重平衡;
上述的方程式实际上是通过权衡在未来若干小时内,数据IO的频繁度(总存储IO次数),总IO数据量的大小,以及峰值数据BPS占总IO数据量的比例来权衡是否合适在该段时间内执行数据的重均衡,对于公式中的a、b、c可以在实际的应用过程中合理选取,优选地,这里给出一组参考:a=1,b=10,c=10;另外,实际情况中优选将一定阈值设置为20,即当weight<20时则可以判断当前时机适合执行数据重均衡,否则就不适合执行数据重均衡;在这组数据下,即可通过这3个输出结构(总存储IO次数、总IO数据量和峰值数据BPS)判断出当前的时机是否适合执行数据重平衡;
另外,上述所说的未来若干小时,此未来若干小时的时长t需要按ceph重均衡的数据量进行计算,对应机械硬盘约6~10小时/TB,固态硬盘加10Gbps网络约1~2小时/TB;具体时长t的评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1且x1的单位为MB,CEPH集群的网络传输带宽最大值为y1且y1的单位为MB/s,则时长t的评估方程式为:
t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;优选地,这里给出一个参考值为:d=0.3,f=0.5;
或者,时长t的评估方法还可以是:
根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2且x2的单位为MB,CEPH集群的网络传输带宽最大值为y2且y2的单位为MB/s,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值;优先地,这里给出一个参考值为:g=1,h=0.5;
所述步骤S5还包括:若当前时机不适合对CEPH集群的存储数据执行重平衡,则等待一段时间后,将一段时间后的时间点设为当前时间点,并返回步骤S4;优选地,所述一段时间设为一个小时。
实施例2
如图2所示,本实施例在实施例方法的基础上公开一种分布式存储数据的重平衡系统,该分布式存储数据的重平衡系统能实现上述实施例1中的分布式存储数据的重平衡方法,分布式存储数据的重平衡系统包括数据获取模块、数据训练模块、时间记录模块、训练结果模型模块以及重均衡模块;
所述数据获取模块用于获取CEPH集群的历史IO数据,并对CEPH集群的历史IO数据拆分成训练数据;
所述数据训练模块用于对训练数据进行训练,并得到一个训练结果模型以及将训练结果模型放置于所述训练结果模型模块中;
所述时间记录模块用于:当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点,并把当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中;
所述训练结果模型模块用于对当前时机进行决策,决策出当前时机是否适合对CEPH集群的存储数据执行重平衡,并将决策结果发送给所述重均衡模块;
所述重均衡模块用于:根据所述训练结果模型模块的决策结果,若当前时机适合对CEPH集群的存储数据执行重平衡,则重均衡模块对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下重均衡模块无需对CEPH集群的存储数据执行重平衡。
进一步地,所述训练结果模型模块用于对当前时机进行决策,其具体为:
所述训练结果模型模块在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS(Bytes pre sec),然后构建一个方程式:设总存储IO次数为x,总IO数据量为y且y的单位为MB,峰值数据BPS为z且z的单位为MB,若干小时的时长为t且t的单位为秒,则构建的方程式为:
Figure GDA0002923738090000081
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则所述训练结果模型模块判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则所述训练结果模型模块判定当前时机不适合对CEPH集群的存储数据执行重平衡。
进一步地,所述训练结果模型模块包括时长评估单元;
所述时长评估单元用于评估所述训练结果模型模块在对当前时机进行决策过程中所采用的未来若干小时的具体时长t,时长t的具体评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1且x1的单位为MB,CEPH集群的网络传输带宽最大值为y1且y1的单位为MB/s,则时长t的评估方程式为:
t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;
或者根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2且x2的单位为MB,CEPH集群的网络传输带宽最大值为y2且y2的单位为MB/s,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值。
进一步地,所述时间记录模块还用于:若当前时机不适合对CEPH集群的存储数据执行重平衡,则时间记录模块等待一段时间后,将一段时间后的时间点设为当前时间点,并将当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (8)

1.一种分布式存储数据的重平衡方法,其特征在于,包括以下步骤:
步骤S1、对CEPH集群的历史IO数据拆分成训练数据;
步骤S2、对训练数据进行训练,得到一个训练结果模型;
步骤S3、当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点;
步骤S4、把当前时间点作为当前时机,并将当前时机输入至训练结果模型中;
步骤S5、训练结果模型对当前时机进行决策,用于判断当前时机是否适合对CEPH集群的存储数据执行重平衡;若当前时机适合对CEPH集群的存储数据执行重平衡,则对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下无需对CEPH集群的存储数据执行重平衡;
所述步骤S5中训练结果模型对当前时机进行决策,其具体为:
训练结果模型在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS,然后构建一个方程式:设总存储IO次数为x,总IO数据量为y,峰值数据BPS为z,未来若干小时的时长为t,则构建的方程式为:
Figure FDA0002923738080000011
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则判定当前时机不适合对CEPH集群的存储数据执行重平衡。
2.根据权利要求1所述的一种分布式存储数据的重平衡方法,其特征在于,所述步骤S1前还包括步骤S0、获取CEPH集群的历史IO数据。
3.根据权利要求1所述的一种分布式存储数据的重平衡方法,其特征在于,所述步骤S2中,对训练数据采用FANN方式进行训练。
4.根据权利要求1所述的一种分布式存储数据的重平衡方法,其特征在于,所述未来若干小时,此未来若干小时的时长t的评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1,CEPH集群的网络传输带宽最大值为y1,则时长t的评估方程式为:t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;
或者根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2,CEPH集群的网络传输带宽最大值为y2,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值。
5.根据权利要求1或4所述的一种分布式存储数据的重平衡方法,其特征在于,所述步骤S5还包括:若当前时机不适合对CEPH集群的存储数据执行重平衡,则等待一段时间后,将一段时间后的时间点设为当前时间点,并返回步骤S4。
6.一种分布式存储数据的重平衡系统,其特征在于,包括数据获取模块、数据训练模块、时间记录模块、训练结果模型模块以及重均衡模块;
所述数据获取模块用于获取CEPH集群的历史IO数据,并对CEPH集群的历史IO数据拆分成训练数据;
所述数据训练模块用于对训练数据进行训练,并得到一个训练结果模型以及将训练结果模型放置于所述训练结果模型模块中;
所述时间记录模块用于:当CEPH集群出现故障情况下或者需要对CEPH集群进行扩容时,记录CEPH集群出现故障时的当前时间点或者记录CEPH集群进行扩容时的当前时间点,并把当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中;
所述训练结果模型模块用于对当前时机进行决策,决策出当前时机是否适合对CEPH集群的存储数据执行重平衡,并将决策结果发送给所述重均衡模块;
所述重均衡模块用于:根据所述训练结果模型模块的决策结果,若当前时机适合对CEPH集群的存储数据执行重平衡,则重均衡模块对CEPH集群的存储数据执行重平衡;若当前时机不适合对CEPH集群的存储数据执行重平衡,则在此当前时机下重均衡模块无需对CEPH集群的存储数据执行重平衡;
所述训练结果模型模块用于对当前时机进行决策,其具体为:
所述训练结果模型模块在当前时机下,预判断CEPH集群在未来若干小时内可能会出现的总存储IO次数、总IO数据量和峰值数据BPS,然后构建一个方程式:设总存储IO次数为x,总IO数据量为y,峰值数据BPS为z,未来若干小时的时长为t,则构建的方程式为:
Figure FDA0002923738080000031
其中,方程式中的a、b和c均是在实际应用过程中选取一个固定值;
当方程式的计算结果weight小于一定阈值时,则所述训练结果模型模块判定当前时机适合对CEPH集群的存储数据执行重平衡;
当方程式的计算结果weight大于或等于一定阈值时,则所述训练结果模型模块判定当前时机不适合对CEPH集群的存储数据执行重平衡。
7.根据权利要求6所述的一种分布式存储数据的重平衡系统,其特征在于,所述训练结果模型模块包括时长评估单元;
所述时长评估单元用于评估所述训练结果模型模块在对当前时机进行决策过程中所采用的未来若干小时的具体时长t,时长t的具体评估方法为:
根据CEPH集群的总存储容量按一个百分比,折合网络传输带宽进行评估,具体为:设CEPH集群的总存储容量为x1,CEPH集群的网络传输带宽最大值为y1,则时长t的评估方程式为:t=(dx1)/(fy1),其中d和f均是在实际的部署场景中配置一个固定值;
或者根据CEPH集群中集群硬盘的平均使用容量,折合网络传输带宽进行评估,具体为:设CEPH集群中集群硬盘的平均使用容量为x2,CEPH集群的网络传输带宽最大值为y2,则时长t的评估方程式为:t=(gx2)/(hy2),其中g和h均是在实际的部署场景中配置一个固定值。
8.根据权利要求7所述的一种分布式存储数据的重平衡系统,其特征在于,所述时间记录模块还用于:若当前时机不适合对CEPH集群的存储数据执行重平衡,则时间记录模块等待一段时间后,将一段时间后的时间点设为当前时间点,并将当前时间点作为当前时机以及将当前时机输入至所述训练结果模型模块中。
CN202011462529.7A 2020-12-14 2020-12-14 一种分布式存储数据的重平衡方法及其系统 Active CN112231137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011462529.7A CN112231137B (zh) 2020-12-14 2020-12-14 一种分布式存储数据的重平衡方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462529.7A CN112231137B (zh) 2020-12-14 2020-12-14 一种分布式存储数据的重平衡方法及其系统

Publications (2)

Publication Number Publication Date
CN112231137A CN112231137A (zh) 2021-01-15
CN112231137B true CN112231137B (zh) 2021-03-30

Family

ID=74124511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462529.7A Active CN112231137B (zh) 2020-12-14 2020-12-14 一种分布式存储数据的重平衡方法及其系统

Country Status (1)

Country Link
CN (1) CN112231137B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281506A (zh) * 2014-07-10 2015-01-14 中国科学院计算技术研究所 一种文件系统的数据维护方法及系统
CN111397902A (zh) * 2020-03-22 2020-07-10 华南理工大学 一种基于特征对齐卷积神经网络的滚动轴承故障诊断方法
CN111880747A (zh) * 2020-08-01 2020-11-03 广西大学 一种基于分级映射的Ceph存储系统自动均衡存储方法
CN111917823A (zh) * 2020-06-17 2020-11-10 烽火通信科技股份有限公司 一种基于分布式存储Ceph的数据重构方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200183590A1 (en) * 2017-04-12 2020-06-11 Barcelona Supercomputing Center - Centro Nacional De Supercomputación Distributed data structures for sliding window aggregation or similar applications
CN110389940B (zh) * 2019-07-19 2022-02-18 苏州浪潮智能科技有限公司 一种数据均衡方法、装置和计算机可读存储介质
CN110417677B (zh) * 2019-07-29 2021-03-09 北京易捷思达科技发展有限公司 一种基于Ceph分布式存储Osd端数据Recovery的QoS控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281506A (zh) * 2014-07-10 2015-01-14 中国科学院计算技术研究所 一种文件系统的数据维护方法及系统
CN111397902A (zh) * 2020-03-22 2020-07-10 华南理工大学 一种基于特征对齐卷积神经网络的滚动轴承故障诊断方法
CN111917823A (zh) * 2020-06-17 2020-11-10 烽火通信科技股份有限公司 一种基于分布式存储Ceph的数据重构方法与装置
CN111880747A (zh) * 2020-08-01 2020-11-03 广西大学 一种基于分级映射的Ceph存储系统自动均衡存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
负载均衡的大数据分布存储方法研究与实现;贺昱洁;《中国优秀硕士学位论文全文数据库信息科技辑》;20160415(第4期);第I138-913页 *

Also Published As

Publication number Publication date
CN112231137A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
US8866443B2 (en) Lead acid storage battery and lead acid storage battery system for natural energy utilization system
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN111191918A (zh) 一种智能电网通信网的业务路由规划方法及装置
CN111242171A (zh) 网络故障的模型训练、诊断预测方法、装置以及电子设备
CN115189908B (zh) 一种基于网络数字孪生体的随机攻击生存性评估方法
CN113655969B (zh) 一种基于流式分布式存储系统的数据均衡存储方法
CN113469425B (zh) 深度交通拥堵预测方法
CN112231137B (zh) 一种分布式存储数据的重平衡方法及其系统
CN111882125A (zh) 基于风险元理论的电力信息物理系统连锁故障预测方法
CN110929885A (zh) 一种面向智慧校园的分布式机器学习模型参数聚合方法
CN113676357A (zh) 面向电力物联网中边缘数据处理的决策方法及其应用
CN115190027B (zh) 一种基于网络数字孪生体的自然故障生存性评估方法
CN111628932A (zh) 基于蚁群算法的电力路径优化探索方法
CN115913249A (zh) 一种电池数据的压缩方法、存储方法及电池管理系统
CN103096380A (zh) 无线接入点负载均衡优化方法
CN112329923A (zh) 一种模型压缩方法、装置、电子设备及可读存储介质
CN113642171A (zh) 一种基于大数据的输变电设备健康状态评估系统及方法
CN112072783A (zh) 秒级负荷数据在端侧和边缘侧设备间传输的方法和装置
CN117251276B (zh) 一种面向协作学习平台的灵活调度方法及装置
CN108664580A (zh) 一种MongoDB数据库中细粒度的负载均衡方法及系统
CN112394885B (zh) 一种旅游数据存储系统
CN111382196B (zh) 分布式账务处理方法及系统
CN116346921B (zh) 面向流域大坝安全管控的多服务器协同缓存更新方法和装置
CN117411054B (zh) 一种梯次利用储能控制装置及控制方法
CN117149408A (zh) 服务器集群管理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant