CN115499305B - 一种分布式集群存储设备的部署方法、装置及电子设备 - Google Patents

一种分布式集群存储设备的部署方法、装置及电子设备 Download PDF

Info

Publication number
CN115499305B
CN115499305B CN202210911054.8A CN202210911054A CN115499305B CN 115499305 B CN115499305 B CN 115499305B CN 202210911054 A CN202210911054 A CN 202210911054A CN 115499305 B CN115499305 B CN 115499305B
Authority
CN
China
Prior art keywords
deployment
performance
constraint condition
storage
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210911054.8A
Other languages
English (en)
Other versions
CN115499305A (zh
Inventor
侯昶
仝国军
刘文进
赵柄熹
倪闯
张盛
张翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202210911054.8A priority Critical patent/CN115499305B/zh
Publication of CN115499305A publication Critical patent/CN115499305A/zh
Application granted granted Critical
Publication of CN115499305B publication Critical patent/CN115499305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0889Techniques to speed-up the configuration process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式集群存储设备的部署方法、装置及电子设备,所述方法包括:获取先验数据,根据先验数据确定不同硬件部署模式所对应的至少一个约束条件,所述至少一个约束条件用于约束集群存储资源的性能和容量;根据至少一种约束条件,利用差分进化算法求解不同约束条件下对应的至少一个部署参数向量,在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与该目标部署参数向量相对应的目标部署模式。本方法基于至少一个包含性能和容量的约束条件,利用差分进化算法确定部署参数向量,进而确定出目标部署向量,在该目标部署向量中资源利用率最高,本方法实现了分布式存储资源的自动配置,节约人力成本并且提高了资源配置效率。

Description

一种分布式集群存储设备的部署方法、装置及电子设备
技术领域
本发明涉及大数据分析技术领域,具体涉及一种视频合成方法、装置及电子设备。
背景技术
近年来,分布式存储在各行业应用场景中取得长足进步。分布式存储、云存储、容器存储的发展,为人类挑战爆炸式数据增长提供了多种灵活的技术手段。数据显示,2021-2026年五年预测期内,分布式存储复合年增长率为25.8%,预计到2026年将达到372.4亿美元的规模。
特别是,随着“东数西算”工程的推进,数据存储越来越体现其在新基建中的重要性。分布式存储系统因为具有高可扩展、低成本、高性能的特点,正逐步替代传统存储。同时,随着数据存储规模的增加,分布式存储的集群节点个数日益增大。为了适应这一变化,必须为分布式存储设计自动化的部署平台,使其可以方便得进行创建、管理和扩展。
现有的集群部署,由操作人员根据经验手动配置硬盘资源,或者基于各集群节点和硬盘拓扑的容量进行存储资源的部署,导致配置需要耗费大量人力资源和人力成本,并且不能根据当前资源的使用情况合理分配和调度,导致资源配置效率低、存储资源利用率低。
发明内容
为了解决上述技术问题,本申请实施例提供了如下技术方案:
第一方面,本发明实施例公开了一种分布式集群存储设备的部署方法,所述方法包括:
获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据;
根据所述先验数据,确定不同硬件部署模式所对应的至少一个约束条件,所述至少一个约束条件用于约束集群存储资源的性能和容量;
根据所述至少一种约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式;
在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式。
可选的,在第一方面的一种可能的实现方式中,根据所述先验数据,确定不同硬件部署模式所对应的至少一个约束条件,包括:根据所述先验数据,确定每种部署模式所对应的第一约束条件和第二约束条件,其中所述第一约束条件为性能约束条件,所述第二约束条件为容量约束条件。
可选的,在第一方面的另一种可能的实现方式中,所述根据所述先验数据,确定每种部署模式所对应的第一约束条件,包括:根据所述先验数据确定每种部署模式所对应的第一性能参数;获取预设性能指标;根据所述第一性能参数和所述预设性能指标,确定所述第一约束条件为所述第一性能参数大于等于所述预设性能指标。
可选的,在第一方面的又一种可能的实现方式中,根据所述先验数据确定每种部署模式所对应的第一性能参数,包括:利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述三元二阶多项式模型下至少一种资源组合与存储IOPS性能的拟合函数;基于给定参数确定每一种资源所包含的资源数量参数,所述资源数量参数包括:SSD数量、HDD数量和主机数量;将所述资源数量参数输入至所述拟合函数中,得到所述每种部署模式对应的所述第一性能参数。
可选的,在第一方面的又一种可能的实现方式中,利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数,包括:根据至少一组实测数据,得到误差函数;根据所述误差函数,利用高斯牛顿迭代法估计拟合函数的权值,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数。
可选的,在第一方面的又一种可能的实现方式中,所述根据所述先验数据,确定每种部署模式所对应的第二约束条件,包括:根据所述先验数据确定每种部署模式所对应的第二性能参数;获取预设容量指标;根据所述第二性能参数和所述预设容量指标,确定所述第二约束条件为所述第二性能参数大于等于所述预设容量指标。
可选的,在第一方面的又一种可能的实现方式中,根据所述先验数据确定每种部署模式所对应的第二性能参数,包括:分别获取所述每种部署模式所对应的至少一个容量系数,以及所述SSD盘和所述HDD盘的数量,所述至少一个容量系数包括SSD的盘容量系数和HDD盘的容量系数;根据所述至少一个容量系数,所述SSD盘和所述HDD盘的数量,确定所述第二性能参数。
其中,所述部署模式包括以下任意一种:通用存储、盘级存储、全闪存储、高密存储、混合存储。
第二方面,本发明实施例还公开了一种分布式集群存储设备的部署装置,所述装置包括:
获取单元,用于获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据;
确定单元,用于根据所述先验数据,确定不同硬件部署模式所对应的至少一个约束条件,所述至少一个约束条件用于约束集群存储资源的性能和容量;
计算单元,用于根据所述至少一种约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式;
部署单元,用于在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式。
第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器。
其中,存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可实现方式所述的分布式集群存储设备的部署方法的步骤。
第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可实现方式所述的分布式集群存储设备的部署方法的步骤。
本实施提供的方法,根据先验数据确定不同硬件部署模式所对应的至少一个约束条件,然后再利用至少一种约束条件,通过差分进化算法求解不同约束条件下对应的至少一个部署参数向量,最后在至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式。本方法基于至少一个包含性能和容量的约束条件,利用差分进化算法确定部署参数向量,进而确定出目标部署向量,在该目标部署向量中资源利用率最高,本方法实现了分布式存储资源的自动配置,节约了人力成本并且提高了资源配置效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种分布式集群部署的场景示意图;
图2为本发明实施例中提供的一种分布式集群存储设备的部署方法的流程图;
图3为本发明实施例中提供的一种基于差分进化算法的场景推荐模式;
图4a为本发明实施例中提供的一种通用存储模式的结构图;
图4b为本发明实施例中提供的一种盘级存储模式的结构图;
图4c为本发明实施例中提供的一种全闪存储模式的结构图;
图4d为本发明实施例中提供的一种高密存储模式的结构图;
图4e为本发明实施例中提供的一种混合存储模式的结构图;
图5为本发明实施例中提供的一种差分进化算法的流程图;
图6为本发明实施例中提供的一种分布式集群存储设备的部署装置的结构框图;
图7为本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本申请实施例提供的技术方案应用于一种自动化部署系统,参见图1所示,为一种分布式集群部署的场景示意图。该场景包括:主机服务器、集群节点、硬盘拓扑和操作人员,该场景可用于实现界面服务器管理、界面推荐存储服务部署场景、界面自动化创建存储集群。
其中,主机服务器又称为管控接节点或管控服务节点等,用于主机管理、分段部署和推荐算法。集群节点则包括至少一个代理(Agent)服务节点。操作人员用于设定集群性能和集群容量,通过主机服务器选取推荐存储模式。主机服务器用于确定推荐存储模式,以及向操作人员返回推荐模式磁盘参数等。
其中,本实施例提供的一种分布式集群存储设备自动化部署方法的可包括以下方法步骤:
1、操作人员设定集群性能、集群容量目标;
2、主机服务器管理集群节点(又称为服务器管理),在集群节点上部署Agent服务,以及获取集群节点的硬件信息;
3、主机服务器可提供通用存储、盘级存储、全闪存储、高密存储、混合存储,共五种部署模式;
4、主机服务器设定筛选条件,比如以成本最小为目标,筛选出满足人工设定的集群性能、集群容量为约束条件,利用推荐算法得到五种模式下最低成本磁盘配置参数,包括主机ID、该主机的硬盘驱动器(Hard Disk Drive,HDD)和固态硬盘(Solid State Drives,SSD)个数;当前,主流硬盘一共有SSD硬盘和HDD硬盘两类,其中,SSD硬盘具有速度快、耐用防震、体型小的优点,但同时成本较高;HDD硬盘具有容量大、成本低的优点,但同时具有存储速度慢的缺点,所以需要考虑所需成本,将五种部署模式进行排序,推送给用户。
5、用户从五种模式中选取其中一种作为目标部署模式;
6、主机服务器根据目标部署模式自动下发部署命令到对应集群主机上;
7、集群节点上的Agent服务自动完成部署流程,实现分段部署。
在创建分布式存储集群的过程中,需要获取集群服务器的信息,从而满足:通过服务器信息,明确可用的服务器资源;以及,根据服务器的软件与硬件配置,设计合理的集群拓扑结构、选择合适存储策略。
当前,选择或使用的部署模式有:后台脚本部署和命令行界面(command-lineinterface,CLI)一键部署。其中,后台脚本部署存在操作步骤多、复杂度高、培训难度大等问题,而CLI一键部署属于服务器后台操作,虽然操作步骤少,但需要提前在配置文件中定义好数据分布策略模式,例如包含故障域、多副本或纠删码分布方式、机房/机架/存储节点分布单元等,所以依然增加了部署的复杂度,影响部署效率。
参见图2,本发明实施例中提供的一种分布式集群存储设备的部署方法,该方法用于解决上述问题,该方法可通过主机服务器来实现。具体地,该方法包括:
步骤101,获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据。
其中,所述集群可以是如图1所示的分布式集群,先验数据是对该分布式集群做测试、使用过程中得到的数据,其与存储资源相关,比如HDD盘和SSD盘的数量。
步骤102,根据所述先验数据,确定不同硬件部署模式所对应的至少一个约束条件,所述至少一个约束条件用于约束集群存储资源的性能和容量。
如图3所示,本实施例提供的分布式集群存储部署的方案,对于资源配置来说是一个组合优化问题,其求解复杂度是典型的NP完全问题,解空间随着变量数量的增加呈指数级增长。为了得到最佳推荐部署方案,本实施例借鉴启发式思想,通过性能和集群容量的限制条件,提出以最小化成本为目标、以人工设定的集群性能/集群容量要求为约束的差分进化算法,可快速从解空间中得到满足人工设定性能约束的最优配置方案,得到推荐场景下的部署方案。
具体地,步骤102包括:根据先验数据,确定每种部署模式所对应的第一约束条件和第二约束条件,其中所述第一约束条件为性能约束条件,所述第二约束条件为容量约束条件。
具体地,根据所述先验数据,确定每种部署模式所对应的第一约束条件,包括:根据先验数据确定每种部署模式所对应的第一性能参数;获取预设性能指标;根据所述第一性能参数和所述预设性能指标,确定所述第一约束条件为所述第一性能参数大于等于所述预设性能指标。
设当前可用主机数量为N,si为第i台主机上需部署的SSD硬盘个数,hi为第i台主机上需部署的HDD硬盘个数。本实施例的优化目标为部署该功能所需的成本,建模为公式(1)
其中,δ1表示SSD盘成本,δ2表示HDD盘成本,f表示SSD盘成本与HDD盘成本的总成本,N为正整数,且N≥1。
在第一性能参数下,设置预设性能指标yset,第一性能参数为y(s,h)。具体地,第一性能参数为IOPS(Input/Output Operations Per Second)性能,其中IOPS是一个用于计算机存储设备(如硬盘HDD、固态硬盘SSD或存储区域网络SAN)性能测试的量测方式,可以视为是每秒的读写次数。每秒读写次数越大,IOPS性能越好,进而得到第一约束条件为公式(2)表示:
y(s,h)≥yset (2)
其中,IOPS性能y(s,h)可根据拟合函数得到,s,h表示与SSD硬盘和HDD硬盘资源的参数向量。
此外,在第一性能参数下,根据所述先验数据,确定每种部署模式所对应的第二约束条件,包括:根据所述先验数据确定每种部署模式所对应的第二性能参数,获取预设容量指标;根据所述第二性能参数和所述预设容量指标,确定所述第二约束条件为所述第二性能参数大于等于所述预设容量指标。
一种可能的实施方式是,设定预设容量指标为cset,第二性能参数为c(s,h),则得到所述第二约束条件通过公式(3)表示:
c(s,h)≥cset (3)
其中,公式(3)表示在任意一种部署模式下,可以配置一个第二预设条件,即配置所需的容量大于等于预设容量指标,从而能够保证存储资源部署分配质量。
根据上述公式(2)和(3)所示的约束条件,得到在第一、第二约束条件下得到的IOPS性能和存储容量需满足预设要求,建模为
步骤103,根据所述至少一种约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式。
本实施例中,利用差分进化算法模拟生物进化的过程,经过多次迭代,最终筛选出具有最低罚函数值的N维磁盘部署参数向量,假设部署参数向量为P,则该向量P可以通过公式(4)表示:
P=(s1,h1,s2,h2,...,sN,hN) (4)
其中s1,s2,……,sN为第1至第N个SSD盘资源,h1,h2,hN为第1至第N个HDD盘资源,并且利用差分进化算法始终保持着一个等量的种群。并且,在种群内候选个体之间进行变异和交叉操作产生新个体。
每个部署参数向量P对应一组SSD硬盘和HDD硬盘数量。
如图2所示,方法还包括:步骤104,在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式。
一种确定目标部署参数向量的方式是,根据上述公式(1)成本筛选的方式确定。具体地,将得到的每个部署参数向量P1、P2、P3....等转换成SSD盘成本与HDD盘成本的总成本,然后比较所有总成本f,确定其中总成本最低的一个,对应的向量P为目标部署参数向量。
又由于每个部署参数向量都对应一个部署模式,所述部署模式是指不同磁盘介质类型、不同配置组合方式下的存储性能,本实施例提出以下5中部署模式,包括:通用存储、盘级存储、全闪存储、高密存储、混合存储等五种部署模式。
具体地,如图4a所示,为一种通用场景部署模式,该模式采用HDD盘为数据盘、以SSD盘为元数据存储盘的方式,兼顾考虑容量、性能、成本。其中,本示例中在SSD盘上划分磁盘分区用作数据盘的日志分区,比如日志分区1、日志分区2和日志分区3。
如图4b所示,为一盘级存储部署模式,该模式采用以HDD盘作为数据盘(采用Bcache缓存技术)、以SSD盘作为Bcache缓存分区盘的方式。其中,SSD盘上划分磁盘分区作为数据盘的缓存分区,SSD盘划分磁盘分区作为数据盘的日志盘,该场景模式的性能较通用场景模式进一步提升。
如图4c所示,为一全闪存储部署模式,该模式直接使用SSD分区作为数据盘,一个SSD盘可以划分出多个数据盘,例如数据盘1、数据盘2;同时SSD盘划分磁盘分区作为数据盘的日志分区,比如日志分区1、日志分区2等。该场景模式集群性能最佳,但成本较高。
如图4d所示,为一高密存储部署模式,该模式直接使用HDD分区作为数据盘,一个HDD盘上可以划分出多个数据盘,同时HDD盘划分磁盘分区作为数据盘的日志分区。该场景模式存储容量最大。
如图4e所示,为一混合存储部署模式,该模式使用HDD盘、SSD盘分区作为数据盘,同时划分SSD分区作为数据盘的日志分区和加速分区。该场景部署模式可提供更灵活的存储盘配置策略,结合了通用场景和全闪场景的优点。
在上述步骤104中,如果确定所述目标部署参数向量对应的是混合存储部署模式,则确定该混合存储部署模式为目标部署模式,即采用如图4e所示的目标部署模式/模式进行存储资源配置,得到最优配置方案。
本实施例提供的方法,通过至少一种约束条件,利用差分进化算法得到不同存储资源部署模式的最佳磁盘部署参数向量,并在所有部署参数向量中确定一个目标部署参数向量,以及该向量所对应的目标部署模式。在该目标部署模式下,管控平台根据分段部署模式,可自动完成后续所有流程,有效地解决了原来部署过程中主机信息搜集难度大、时间长、出错率高,脚本操作复杂、时间开销大、效率低下等问题。
另外,操作者无需研读配置文件规则和定义配置文件,降低了使用难度;同时界面提供了多种集群存储场景,灵活度提高。
在本实施例的一种可能的实施方式中,上述步骤102,根据先验数据确定每种部署模式所对应的第一性能参数,具体包括:
利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述三元二阶多项式模型下至少一种资源组合与存储IOPS性能的拟合函数;基于给定参数确定每一种资源所包含的资源数量参数,所述资源数量参数包括:SSD数量、HDD数量和主机数量;将所述资源数量参数输入至所述拟合函数中,得到所述每种部署模式对应的所述第一性能参数。
进一步地,利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数,包括:根据至少一组实测数据,得到误差函数;根据给定参数,利用高斯牛顿迭代法估计拟合函数的权值,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数。
具体地,上述IOPS性能约束条件,根据三元二阶多项式模型,在通过拟合函数获得。进一步地,上述公式(2)中的y(s,h)可根据如下公式(5)获得,
其中,δ(si+hi)是阶跃函数,若si+hi=0,则δ(si+hi)=0;若si+hi>0,则δ(si+hi)=1;x1为SSD硬盘的总数量,x2为HDD硬盘的总数量,x3是所有主机总数量。
为了快速评估不同存储模式下,不同数量HDD盘、SSD盘和主机个数的组合所对应的存储IOPS性能,根据典型实测数据,诸如先验数据,得到不同存储集群模式的存储IOPS性能拟合曲线。然后根据真实设备测试,IOPS性能与存储盘个数呈非线性关系。基于此,得到上述五种部署模式下不同组合与存储IOPS性能的拟合函数,如公式(6)所示:
其中,y(α,x)为IOPS性能,x1为SSD数量,x2为HDD数量,x3为主机个数,y为该存储部署模式下该组合的存储IOPS性能。
根据N组实测数据{yi,xi,1,xi,2,xi,3},得到误差函数e(α),可通过公式(7)表示为
其中,yi为第i组测试数据的IOPS性能。本实施例为了使得误差函数e(α)最小,利用高斯一牛顿迭代法(Gauss-Newton iteration method)迭代算法来估计拟合函数的权值,所述高斯一牛顿迭代法是非线性回归模型中求回归参数进行最小二乘的一种迭代方法。该算法具体描述如下:
第一步:随机化初始值α=(α01,11,2x21,3x32,12,22,3),令k=0;
第二步:做第k+1次迭代,迭代更新权值,根据公式(8),令第k+1次迭代的值α(k+1)
α(k+1)=α(k)-[J'(α(k))J(α(k))]-1J'(α(k))e(α(k)) (8)
其中,α(k)为第k次迭代得到的权值估计值,J(α(k))为第k次迭代回归函数的雅可比Jacobi矩阵,该Jacobi矩阵可通过公式(9)表示为
第三步:计算误差函数e(α),一种实施方式是,当误差值e(α(k))与上次迭代得到的误差值e(α(k+1)),二者之差小于等于阈值ε时,即e(α(k))-e(α(k+1))≤ε,退出算法,得到误差函数;否则,重复执行上一步。
本实施例中,通过上述第一步至第三步,计算出误差函数e(α),并基于该误差函数得到N组实测数据下的IOPS性能的拟合函数,从而得到每个存储部署模式对应的性能参数,最后设置出不同存储模式下的性能约束条件。
另外,在上述步骤102中,根据先验数据确定每种部署模式所对应的第二性能参数,具体包括:分别获取所述每种部署模式所对应的至少一个容量系数,以及所述SSD盘和所述HDD盘的数量,所述至少一个容量系数包括SSD的盘容量系数和HDD盘的容量系数;根据所述至少一个容量系数,所述SSD盘和所述HDD盘的数量,确定所述第二性能参数。
具体地,在设置不同部署模式下,硬盘存储容量时可根据当前存储模式下SSD盘个数与HDD盘个数得到,参见公式(10)所示,
其中,γ1表示当前存储模式(或部署模式)下SSD盘容量系数,γ2表示当前存储模式(或部署模式)下HDD盘容量系数,需要说明的是,不同存储模式(或部署模式)下{γ12}取值不同。
本示例中,当前存储模式或部署模式可以是前述五种部署模式中的任一种。
另外,本实施例在上述步骤103,利用差分进化算法在种群中选择最优空间解过程中,如果新个体的成本低于原始个体的成本,则用新个体代替原始个体对种群进行更新。经过若干代更新与筛选后,选择种群中成本最低的个体作为最优解。该算法流程如图5所示,其计算过程包括:初始化种群、变异、交叉、选择和确定最终种群。
其中,差分进化算法的参数设置如下:设缩放因子F=0.5,交叉概率CR=0.5,最大迭代次数为T=1000,当前迭代次数为“t”;另外,设种群个体数量为NP=100,种群个体的编号为“i”。
根据约束关系,初始化P中一共有(N-4)个自由变量,有4个约束变量。
本发明实施例以这(N-4)个自由变量作为个体利用差分进化算法进行优化,并根据约束关系得到另外4个约束变量。差分优化算法具体步骤描述如下:
步骤(1):初始化P的初始种群P0
步骤(2):对于t=1到1000,t表示当前迭代次数,迭代更新种群Pt,并执行步骤(3)至步骤(4);如果t=1000,t达到最大迭代次数T,则执行步骤(5);
步骤(3):对于第i个种群,i={1,2,3,......,100},种群Pt中的个体进行变异、交叉操作,生成交叉个体/>并执行第(4)步;
步骤(4):如果交叉个体的译码门限低于种群Pt中的第i个个体/>的成本函数,则令/>否则,令/>
步骤(5):当t达到最大迭代次数1000时,找出当前个体中具有最小成本的种群P*
步骤(6):算法结束,输出P*
通过运行上述差分进化算法,可以求解出不同约束条件下对应的至少一个部署参数向量,进而得到通用存储、盘级存储、全闪存储、高密存储、混合存储五种部署模式的最佳磁盘部署参数,并根据其所需成本进行排列,将结果推送给用户。用户自行选择某种推荐模式,管控平台根据分段部署模式,自动完成后续所有流程。
此外,本发明保留手动部署集群的功能。用户可以忽略推荐模式,手动配置部署参数。参数配置完成后,管控平台根据分段部署模式,自动完成后续所有流程。
本实施例提供的方法,基于至少一个包含性能和容量的约束条件,利用差分进化算法确定部署参数向量,进而确定出目标部署向量,在该目标部署向量中资源利用率最高,本方法实现了分布式存储资源的自动配置,节约了人力成本并且提高了资源配置效率。
本发明实施例还公开了一种分布式集群存储设备的部署装置,如图6所示,该装置包括:获取单元610、确定单元620、计算单元630和部署单元640。此外,该装置还可以包括其他更多或更少的单元/模块,本实施例对此不做限制。
其中,获取单元610用于获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据。
确定单元620,用于根据所述先验数据,确定不同硬件部署模式所对应的至少一个约束条件,所述至少一个约束条件用于约束集群存储资源的性能和容量。
计算单元630,用于根据所述至少一种约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式。
部署单元640,用于在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式。
可选的,在本实施例的一种具体的实施方式中,确定单元620具体用于根据所述先验数据,确定每种部署模式所对应的第一约束条件和第二约束条件,其中所述第一约束条件为性能约束条件,所述第二约束条件为容量约束条件。
可选的,在本实施例的另一种具体的实施方式中,确定单元620具体还用于根据所述先验数据确定每种部署模式所对应的第一性能参数;获取预设性能指标;根据所述第一性能参数和所述预设性能指标,确定所述第一约束条件为所述第一性能参数大于等于所述预设性能指标。
可选的,在本实施例的又一种具体的实施方式中,确定单元620具体还用于利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数;基于给定参数确定每一种资源所包含的资源数量参数,所述资源数量参数包括:SSD数量、HDD数量和主机数量;将所述资源数量参数输入至所述拟合函数中,得到所述每种部署模式对应的所述第一性能参数。
可选的,在本实施例的又一种具体的实施方式中,确定单元620具体还用于根据至少一组实测数据,得到误差函数;根据所述误差函数,利用高斯牛顿迭代法估计拟合函数的权值,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数。
可选的,在本实施例的又一种具体的实施方式中,确定单元620,具体还用于根据所述先验数据确定每种部署模式所对应的第二性能参数;获取预设容量指标;根据所述第二性能参数和所述预设容量指标,确定所述第二约束条件为所述第二性能参数大于等于所述预设容量指标。
可选的,在本实施例的又一种具体的实施方式中,确定单元620,具体还用于根据所述先验数据确定每种部署模式所对应的第二性能参数,包括:分别获取所述每种部署模式所对应的至少一个容量系数,以及所述SSD盘和所述HDD盘的数量,所述至少一个容量系数包括SSD的盘容量系数和HDD盘的容量系数;根据所述至少一个容量系数,所述SSD盘和所述HDD盘的数量,确定所述第二性能参数。
其中,所述部署模式包括以下任意一种:通用存储、盘级存储、全闪存储、高密存储、混合存储。
可选的,所述电子设备为一主机服务器,或任一集群节点,比如Agent节点,或者其他节点,比如操作人员手持的终端设备等。
本实施例提供的分布式集群存储设备的部署装置,具有可靠性高、灵活度高、操作简单,自动化程度高等有益效果。
具体地,所谓可靠性高,理由是主机管理模型提供主机信息,该信息由后台自动加载到数据库中,无人工操作,信息可靠性高。所谓灵活度高、适用性好,是指产品的存储场景模型中设计了五种部署模式场景,可以根据用户需求和主机资源灵活使用。所谓操作简单,自动化程度高。理解为用户可以选择场景推荐算法推荐的部署场景(含部署参数),从而实现自动化一键部署集群存储资源的有益效果。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备可以包括处理器710、存储器720和通信接口730。其中,处理器710、存储器720、通信接口730之间可以通过总线或者其他方式连接,本实施例中,图7中以通过总线740相连接。
处理器710可以为中央处理器(Central Processing Unit,CPU)。处理器710还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器720作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的分布式集群存储设备的部署方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法步骤。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器710所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至处理器710。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器720中,当被所述处理器710执行时,执行如图2所示实施例中的分布式集群存储设备的部署方法。
通信接口730,用于实现电子设备与其他设备,比如集群节点之间的通信,或与终端设备之间的通信。
应理解,上述电子设备中还可以包括其他更多或更少的部件、结构,比如收发器、输入/输出装置,例如显示屏、麦克风等等,本实施例对此不作限制。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种分布式集群存储设备的部署方法,其特征在于,所述方法包括:
获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据;
根据所述先验数据,确定不同硬件部署模式所对应的第一约束条件和第二约束条件,所述第一约束条件为性能约束条件,所述第二约束条件为容量约束条件;
根据所述第一约束条件和所述第二约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式,且每个所述部署参数向量还对应一组SSD硬盘和HDD硬盘数量;
在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式;所述目标部署参数向量所转换的SSD硬盘成本与HDD硬盘成本的总成本在所述至少一个部署参数向量中成本最小;
其中,根据所述先验数据,确定不同硬件部署模式所对应的第一约束条件,包括:
利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数;所述拟合函数为基于误差函数得到N组实测数据下的IOPS性能的拟合函数;
基于给定参数确定每一种资源所包含的资源数量参数,所述资源数量参数包括:SSD数量、HDD数量和主机数量;
将所述资源数量参数输入至所述拟合函数中,得到每种部署模式对应的第一性能参数;
根据所述第一性能参数和预设性能指标,确定所述第一约束条件为所述第一性能参数大于等于所述预设性能指标。
2.根据权利要求1所述的方法,其特征在于,利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数,包括:
根据至少一组实测数据,得到误差函数;
根据所述误差函数,利用高斯牛顿迭代法估计拟合函数的权值,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述先验数据,确定每种部署模式所对应的第二约束条件,包括:
根据所述先验数据确定每种部署模式所对应的第二性能参数;
获取预设容量指标;
根据所述第二性能参数和所述预设容量指标,确定所述第二约束条件为所述第二性能参数大于等于所述预设容量指标。
4.根据权利要求3所述的方法,其特征在于,根据所述先验数据确定每种部署模式所对应的第二性能参数,包括:
分别获取所述每种部署模式所对应的至少一个容量系数,以及所述SSD盘和所述HDD盘的数量,所述至少一个容量系数包括SSD的盘容量系数和HDD盘的容量系数;
根据所述至少一个容量系数,所述SSD盘和所述HDD盘的数量,确定所述第二性能参数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述部署模式包括以下任意一种:通用存储、盘级存储、全闪存储、高密存储、混合存储。
6.一种分布式集群存储设备的部署装置,其特征在于,所述装置包括:
获取单元,用于获取先验数据,所述先验数据是对集群做性能测试过程中的与存储资源相关的数据;
确定单元,用于根据所述先验数据,确定不同硬件部署模式所对应的第一约束条件和第二约束条件,所述第一约束条件为性能约束条件,所述第二约束条件为容量约束条件;
计算单元,用于根据所述第一约束条件和所述第二约束条件,利用差分进化算法,求解不同约束条件下对应的至少一个部署参数向量,每个所述部署参数向量对应一种存储资源的部署模式,且每个所述部署参数向量还对应一组SSD硬盘和HDD硬盘数量;
部署单元,用于在所述至少一个部署参数向量中确定目标部署参数向量,以及确定与所述目标部署参数向量相对应的目标部署模式,所述目标部署参数向量所转换的SSD硬盘成本与HDD硬盘成本的总成本在所述至少一个部署参数向量中成本最小;
所述确定单元具体用于:
利用多项式回归非线性拟合方法,构建三元二阶多项式模型,得到所述模型下至少一种资源组合与存储IOPS性能的拟合函数;所述拟合函数为基于误差函数得到N组实测数据下的IOPS性能的拟合函数;
基于给定参数确定每一种资源所包含的资源数量参数,所述资源数量参数包括:SSD数量、HDD数量和主机数量;
将所述资源数量参数输入至所述拟合函数中,得到每种部署模式对应的第一性能参数;
根据所述先验数据确定每种部署模式所对应的第一性能参数,以及根据所述第一性能参数和预设性能指标,确定所述第一约束条件为所述第一性能参数大于等于所述预设性能指标。
7.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器耦合;
所述存储器中存储有计算机可读程序指令;
当所述指令被所述处理器读取并执行时,实现如权利要求1至5中任一所述的分布式集群存储设备的部署方法。
CN202210911054.8A 2022-07-29 2022-07-29 一种分布式集群存储设备的部署方法、装置及电子设备 Active CN115499305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210911054.8A CN115499305B (zh) 2022-07-29 2022-07-29 一种分布式集群存储设备的部署方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210911054.8A CN115499305B (zh) 2022-07-29 2022-07-29 一种分布式集群存储设备的部署方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115499305A CN115499305A (zh) 2022-12-20
CN115499305B true CN115499305B (zh) 2024-04-26

Family

ID=84467036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210911054.8A Active CN115499305B (zh) 2022-07-29 2022-07-29 一种分布式集群存储设备的部署方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115499305B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902474A (zh) * 2014-04-11 2014-07-02 华中科技大学 一种支持固态盘缓存动态分配的混合存储系统和方法
CN104572268A (zh) * 2015-01-14 2015-04-29 天津大学 一种高效动态软硬件划分方法
CN106355293A (zh) * 2016-09-23 2017-01-25 中国电力科学研究院 一种区域电网旋转备用容量优化配置方法及装置
CN107659595A (zh) * 2016-07-25 2018-02-02 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
CN107844269A (zh) * 2017-10-17 2018-03-27 华中科技大学 一种基于一致性哈希的分层混合存储系统及方法
CN107924340A (zh) * 2015-08-18 2018-04-17 日本电信电话株式会社 资源配置系统、资源配置方法以及资源配置程序
CN114706680A (zh) * 2022-03-31 2022-07-05 联想(北京)有限公司 数据处理方法、装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10353596B2 (en) * 2017-09-28 2019-07-16 International Business Machines Corporation Data storage system performance management

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902474A (zh) * 2014-04-11 2014-07-02 华中科技大学 一种支持固态盘缓存动态分配的混合存储系统和方法
CN104572268A (zh) * 2015-01-14 2015-04-29 天津大学 一种高效动态软硬件划分方法
CN107924340A (zh) * 2015-08-18 2018-04-17 日本电信电话株式会社 资源配置系统、资源配置方法以及资源配置程序
CN107659595A (zh) * 2016-07-25 2018-02-02 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
CN106355293A (zh) * 2016-09-23 2017-01-25 中国电力科学研究院 一种区域电网旋转备用容量优化配置方法及装置
CN107844269A (zh) * 2017-10-17 2018-03-27 华中科技大学 一种基于一致性哈希的分层混合存储系统及方法
CN114706680A (zh) * 2022-03-31 2022-07-05 联想(北京)有限公司 数据处理方法、装置及计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
云存储部署优化的进化算法设计;李皓;罗熊;;东南大学学报(自然科学版)(第S1期);全文 *
异构混合存储的软硬件协同数据放置策略;李鸿飞等;《国防科技大学学报》;正文 *
混合存储综述;祝青;李小勇;;微型电脑应用(第02期);全文 *
考虑柔性负荷接入的配电网规划研究综述与展望;齐宁等;《电力系统自动化》;20200525;全文 *

Also Published As

Publication number Publication date
CN115499305A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN111814966A (zh) 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN110414679A (zh) 模型训练方法、装置、电子设备和计算机可读存储介质
US11341034B2 (en) Analysis of verification parameters for training reduction
CN109685204A (zh) 模型搜索方法及装置、图像处理方法及装置
CN115358487A (zh) 面向电力数据共享的联邦学习聚合优化系统及方法
CN112181659B (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
CN109344969B (zh) 神经网络系统及其训练方法以及计算机可读介质
CN117880116A (zh) 用于生成网络模拟场景的技术
CN115048254B (zh) 数据分配策略的仿真测试方法、系统、设备和可读介质
CN109298930A (zh) 一种基于多目标优化的云工作流调度方法及装置
CN111581442A (zh) 一种实现图嵌入的方法、装置、计算机存储介质及终端
CN110162379A (zh) 虚拟机迁移方法、装置和计算机设备
CN113381888B (zh) 控制方法、装置、设备及存储介质
CN115499305B (zh) 一种分布式集群存储设备的部署方法、装置及电子设备
US20160342899A1 (en) Collaborative filtering in directed graph
CN114629767A (zh) 电力调度网络仿真方法、装置、计算机设备和存储介质
CN111539519A (zh) 一种面向海量数据的卷积神经网络训练引擎方法及系统
CN116644567A (zh) 一种电力系统关键输电断面确定方法、系统、设备和介质
CN115983377A (zh) 基于图神经网络的自动学习方法、装置、计算设备及介质
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN113206712B (zh) 一种软件无线电符合性测试方法及系统
Liu et al. Towards dynamic reconfiguration of composite services via failure estimation of general and domain quality of services
CN114546804A (zh) 信息推送的效应评估方法、装置、电子设备和存储介质
CN113342474A (zh) 客户流量的预测、模型训练的方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant