CN113760180A - 存储资源管理方法、装置、设备及计算机可读存储介质 - Google Patents
存储资源管理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113760180A CN113760180A CN202110437975.0A CN202110437975A CN113760180A CN 113760180 A CN113760180 A CN 113760180A CN 202110437975 A CN202110437975 A CN 202110437975A CN 113760180 A CN113760180 A CN 113760180A
- Authority
- CN
- China
- Prior art keywords
- resource
- container
- storage
- training service
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0631—Configuration or reconfiguration of storage systems by allocating resources to storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/504—Resource capping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/508—Monitor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/547—Messaging middleware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种存储资源管理方法、装置、设备及计算机可读存储介质,涉及云技术领域,所述方法包括:接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据;响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息;在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。通过本申请提供的存储资源管理方法,能够提升训练业务的运行效率,提升容器集群的稳定性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种存储资源管理方法、装置、设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。同时,图形处理器(GPU,Graphics Processing Unit)凭借其良好的计算能力,越来越受到欢迎。GPU经常被用来进行各种场景下的计算处理。比如,用于进行人工智能领域中神经网络模型训练。
在目前的模型训练平台中,往往需要为每一个训练业务分配对应的算力容器,通过该算力容器运行对应的训练业务,同时,也为每一训练业务分配对应的存储资源,通过该存储资源存储该训练业务在运行过程中产生的训练数据。
传统技术中调整每一训练业务对应的存储资源往往会造成重新挂载或重新映射等问题,影响训练业务的正常运行,训练业务的运行效率较低。
发明内容
本申请实施例提供一种存储资源管理方法、装置、设备及计算机可读存储介质,能够提升训练业务的运行效率,提升容器集群的稳定性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种存储资源管理方法,包括:。
接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据;响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息;在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。
在本申请的一些实施例中,所述验证资源调整请求携带的待调整资源量和权限信息,包括:获取目标训练业务的注册信息和网络存储设备的资源分配数据;注册信息包括目标训练业务的最小资源量;基于最小资源量和资源分配数据,对资源调整请求中携带的待调整资源量进行验证;在对待调整资源量验证通过的情况下,验证资源调整请求中携带的权限信息。
在本申请的一些实施例中,所述验证资源调整请求中携带的权限信息,包括以下至少之一:获取资源调整请求对应的资源目录,基于权限信息确定是否满足资源目录的权限要求,在权限信息满足资源目录的权限要求的情况下,判定对权限信息验证通过;获取权限信息中的注册标识,检测注册标识是否属于网络存储设备,在注册标识属于网络存储设备的情况下,判定对权限信息验证通过。
在本申请的一些实施例中,所述方法还包括:监控容器集群和网络存储设备,确定负载信息;基于负载信息生成告警消息。
在本申请的一些实施例中,所述负载信息包括流量信息;所述基于负载信息生成告警消息,包括:获取容器集群中多个算力容器中每一算力容器对应的容器流量;容器流量为算力容器与网络存储设备之间的传输数据量;在容器流量高于预设的流量阈值的情况下,生成流量告警消息并对容器流量对应的算力容器进行流量限制。
在本申请的一些实施例中,所述负载信息包括硬件信息;所述基于负载信息生成告警消息,包括:获取容器集群中多个算力容器中每一算力容器对应的硬件负载;硬件负载包括以下至少之一:处理器负载、内存负载和磁盘输入输出负载;基于每一算力容器对应的硬件负载,确定每一算力容器的硬件负载量化值;在硬件负载量化值大于或等于预设的硬件负载阈值的情况下,发送硬件告警消息至消息队列;消息队列用于推送硬件告警消息至运维人员。
在本申请的一些实施例中,所述基于每一算力容器对应的硬件负载,确定每一算力容器的硬件负载量化值,包括:基于算力容器对应的硬件负载,获取算力容器中每一硬件类型的负载数据;根据算力容器中运行的训练业务的业务类型,确定每一硬件类型的负载权重;根据每一硬件类型的负载数据和负载权重,确定算力容器的硬件负载量化值。
在本申请的一些实施例中,所述方法还包括:接收用户侧针对待注册训练业务的注册请求;注册请求携带待注册训练业务的注册信息;注册信息包括待注册训练业务的最小资源量、待申请的资源量和待申请的权限信息;响应于注册请求,发送验证请求至网络存储设备;网络存储设备用于在对注册信息验证通过的情况下,基于注册信息为待注册训练业务分配存储资源,发送待注册训练业务的注册标识至存储管理设备;存储网络存储设备发送的待注册训练业务的注册标识,并将待注册训练业务的注册标识转发至用户侧,以使用户侧在发起对待注册训练业务的资源调整请求中携带待注册训练业务的注册标识。
本申请实施例提供一种存储资源管理装置,所述装置包括:
接收模块,用于接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据;
验证模块,用于响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息;
发送模块,用于在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。
本申请实施例提供一种存储资源管理设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的存储资源管理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的存储资源管理方法。
本申请实施例具有以下有益效果:
本申请实施例通过接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据;响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息;在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。本申请实施例通过外置的存储管理设备实现对网络存储设备中存储资源的分配任务,相比于相关技术中利用容器集群中主节点设备分配存储资源的方案,本申请实施例不仅可以在调整目标算力容器对应的存储资源的过程中,避免重新挂载或重新映射造成的算力资源浪费问题,提升了训练业务的运行效率;还可以避免用户侧在访问主节点设备时存在的误操作风险,提升了容器集群的稳定性。同时,由于本申请还响应于该资源调整请求,对该资源调整请求进行验证,可以保证网络存储设备中训练数据的安全性。
附图说明
图1是本申请实施例提供的存储资源管理系统的一个可选的架构示意图;
图2是本申请实施例提供的存储资源管理设备的结构示意图;
图3是本申请实施例提供的存储资源管理方法的一个可选的流程示意图;
图4是本申请实施例提供的存储资源管理方法的一个可选的流程示意图;
图5是本申请实施例提供的存储资源管理方法的一个可选的流程示意图;
图6是本申请实施例提供的存储资源管理方法的一个可选的流程示意图;
图7是本申请实施例提供的一个可选的外置中心的系统架构示意图;
图8是本申请实施例提供的一个可选的扩缩容流程的流程示意图;
图9是本申请实施例提供的一个可选的监控告警处理流程的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使在本实施例中描述的本申请实施例能够以除了在在本实施例中图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
(1)外置中心:用户做AI训练使用的GPU设备统一由容器管理系统(如Kubernetes系统)管理调度,训练数据的存储需要部署存储集群,针对部署的存储集群,通过构建管理中心管控网络或者存储集群权限和资源负载情况,集群的负载高时,通过此管理中心完成扩容,集群的负载低时,通过此管理中心完成缩容,并在扩缩的操作中,实现鉴权和监控流程,构建的Kubernetes系统架构外的管理中心称之为外置中心
(2)Kubernetes:是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效,Kubernetes提供了应用部署,规划,更新,维护的一种机制。
(3)容器:指节点集群中的最小可部署单元,一个容器单元包括一个或多个容器,且所有容器共享同一个网络命名空间,即具有与容器单元相同的地址信息。在本申请实施例中,容器单元用于基于内部的容器,由于该容器用于执行训练业务,因此该容器在本申请实施例中也称为算力容器。
(4)算力:也称哈希率,是网络处理能力的度量单位。在一些实施例中,算力可以为计算哈希函数输出的速度。例如,当设备的算力达到10Th/s的哈希率时,表征该设备每秒可以进行10万亿次计算。
参见图1,图1是本申请实施例提供的存储资源管理系统100的一个可选的架构示意图,为实现支撑一个存储资源管理应用,终端400-1通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。图1还示出了服务器200可以为服务器集群,该服务器集群包括服务器200-1至200-3,同样地,服务器200-1至200-3可以是实体机器,也可以是利用虚拟化技术(如容器技术及虚拟机技术等)构建的虚拟机器,本申请实施例对此不做限定,当然,在本实施例中也可使用单个服务器来进行服务的提供。用户可以通过该终端400-1访问该服务器200,以对该存储资源管理系统100进行配置调整。
在本申请的一些实施例中,本申请实施例的服务器集群中多个服务器可组成为一区块链,而服务器为区块链上的节点。
本申请实施例所提供的方法还涉及到人工智能领域,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶等几大方向。
随着人工智能的发展,越来越多的场景下需要运行AI训练以训练AI模型,而在运行AI训练时需要交付算力资源,例如GPU算力资源,例如将AI训练业务放入具有算力资源的算力容器内,并为该算力容器分配一定的网络存储资源,以使该算力容器完成该AI训练任务。
本申请实施例所提供的方法还涉及到云技术(Cloud technology)领域,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云存储(Cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
参见图2,图2是本申请实施例提供的存储资源管理设备500的结构示意图,图2所示的存储资源管理设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。存储资源管理设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在本申请的一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构,或者程序、模块和数据结构中任意一个的子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在本申请的一些实施例中,本申请实施例提供的存储资源管理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的存储资源管理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的存储资源管理方法。
在本申请的一些实施例中,本申请实施例提供的存储资源管理装置可以采用软件方式实现,图2示出了存储在存储器550中的存储资源管理装置555,其可以是程序和插件等形式的软件,包括以下软件模块:接收模块5551、验证模块5552、发送模块5553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的存储资源管理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请实施例提供的方法可以应用到存储资源管理设备,存储资源管理设备可以是服务器,也可以是终端设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以下将以存储资源管理设备是服务器为例说明本申请实施例提供的存储资源管理方法。参见图3,图3是本申请实施例提供的存储资源管理方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
在步骤301中,接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据。
在本申请的一些实施例中,该容器集群用于为模型训练业务提供算力资源,该网络存储设备用于为模型训练业务提供存储资源。例如,该容器集群可以是Kubernetes等容器集群,该网络存储设备可以是任意存储结构的网盘设备,例如,直连式存储(DirectAttached Storage,DAS)、网络存储设备(Network Attached Storage,NAS)和存储网络(Storage Area Network,SAN)等。该容器集群和网络存储设备可以形成一个模型训练平台。其中,该容器集群可以包括多个算力容器,在每一算力容器执行对应的训练业务的过程中,该容器集群可以为每一算力容器分配对应的算力资源,为保障业务之间隔离,不同的业务配置对应的容器,每个容器配置对应的算力资源额度;该网络存储设备可以为每一算力容器分配对应的存储资源,本申请实施例主要解决该各算力容器对应的存储资源的分配及管理问题。
在本申请的一些实施例中,在执行步骤301之前,容器集群已经为该目标训练业务分配一个目标算力容器,该目标算力容器用于执行该目标训练业务。在该目标算力容器执行该目标训练业务的过程中,需要使用一定的存储空间存储训练过程产生的训练数据,该训练数据可以包括准备进行训练过程之前预先存储的待训练的初始神经网络模型,也可以包括训练使用的数据集(训练集,验证集和测试集),还可以包括训练过程中产生的中间模型和训练完成之后的生成的训练后的神经网络模型,本申请对此不作限定。
在本申请的一些实施例中,由于实际训练需求的变化,用户侧需要对当前容器集群中每一算力容器使用的存储资源进行调整,例如,在需要加强第一训练业务的模型泛化能力的需求下,需要增加不同类型的训练样本以完成模型训练的情况下,需要增加该第一训练业务对应的存储资源以存储上述不同类型的训练样本和中间训练数据;在需要新增第二训练业务至该模型训练平台,或已经完成第一训练业务的情况下,需要缩减上述第一训练业务对应的存储资源。以上举例是为了便于理解用户侧发起资源调整请求的场景,并不是对本申请实施例的限定,本申请实施例还可以适用于其他需要调整训练业务的存储资源的场景中。
在本申请的一些实施例中,该资源调整请求可以包括扩容请求和缩容请求,其中,该缩容请求用于指示该网络存储设备减少为该目标算力容器分配的存储资源;该扩容请求用于指示该网络存储设备增加为该目标算力容器分配的存储资源。
在本申请的一些实施例中,该资源调整请求还携带该目标训练业务的业务标识,通过该业务标识,可以在容器集群中确定该目标训练业务对应的目标算力容器,可以通过该业务标识在该网络存储设备中确定已经为该目标训练业务分配的存储资源。
在步骤302中,响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息。
在本申请的一些实施例中,该资源调整请求还携带待调整资源量。其中,该待调整资源量用于表征该目标训练业务当前需要的存储资源总量。例如,该待调整资源量可以直接为该目标训练业务的当前需要的存储资源总量,该待调整资源量还可以为该目标训练业务的当前需要调整的资源量,通过该资源调整请求中携带的目标训练业务的业务标识,可以获取该目标训练业务已经分配的资源量,基于该需要调整的资源量和已经分配的资源量,可以得到该目标训练业务当前需要的存储资源总量。其中,在对该待调整资源量进行验证的过程中,需要确定该待调整资源量是否合理,即该待调整资源量表征的目标训练业务当前需要的存储资源总量是否合理。例如,通过判断该目标训练业务当前需要的存储资源总量是否不满足该目标训练业务的实际业务需求,进而确定是否合理;或者通过判断该目标训练业务当前需要的存储资源总量是否已经超过该网络存储设备的最大存储资源量,进而确定是否合理等。
在本申请的一些实施例中,该资源调整请求还携带权限信息。其中,该权限信息可以为该用户侧的用户标识对应的用户权限,该用户权限可以用于确定该用户侧是否具有调整存储资源的权限。
在本申请的一些实施例中,需要分别对该待调整资源量和该权限信息进行验证,在两者均验证通过的情况下,执行步骤303。
在步骤303中,在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。
在本申请的一些实施例中,在该资源调整请求为扩容请求的情况下,在通过上述验证之后,会向网络存储设备发送对应的资源调整指令,即扩容指令。该扩容指令用于指示该网络存储设备增加对该目标算力容器的资源配额。
在本申请的一些实施例中,在该资源调整请求为缩容请求的情况下,在通过上述验证之后,会向网络存储设备发送对应的资源调整指令,即缩容指令。该缩容指令用于指示该网络存储设备减少对该目标算力容器的资源配额。
在一些实施例中,相关技术是通过该容器集群中的主节点容器分配该网络存储设备的存储资源,例如,用户侧可以通过访问该主节点容器,并使用kubectl等命令执行数据卷或者存储目录的扩缩操作。其中,在用户侧访问该主节点容器的过程中,该容器集群中所有算力容器均暴露在该用户侧的操作之下,一旦出现误操作的问题,将会对整个容器集群的算力分配、训练业务的执行过程造成影响;同时,通过上述kubectl等命令操作之后,主节点容器需要重新加载用于分配存储资源的配置文件,即需要重新挂载或重新映射才能使新的配置文件生效,严重影响训练业务的正常运行。
在本申请的一些实施例中,步骤303是通过存储管理设备分配该网络存储设备的存储资源。由于该存储管理设备相对于该容器集群为外置设备,且该存储管理设备与该网络存储设备进行指令交互。在用户侧访问该存储管理设备,进而对该网络存储设备进行操作的过程中,不会对该容器集群中的各算力容器造成影响,提升了容器集群的系统稳定性。
在本申请的一些实施例中,可以通过分布式文件系统实现该网络存储设备中的存储资源到该容器集群中各个算力容器的资源分配任务。其中,该分布式文件系统可以针对每一算力容器分配对应的资源目录,并未为每一算力容器对应的资源目录设置对应的资源配额,以完成对每一算力容量分配对应的存储资源。其中,分布式文件系统可以为posix。
相应地,该资源调整指令可以通过该分布式posix文件系统的命令完成该目标算力容器的资源调整操作。例如,以ceph存储为例,通过ceph中的setattr命令完成资源配额(quota)的调整。通过本实施例提供的方案,可以通过调整文件系统中该目标算力容器对应的资源目录的资源配额,以完成对该目标训练业务的存储资源的调整任务,此方案无需重新挂载或重新映射,提升了训练业务的运行效率。
通过本申请实施例对于图3的上述示例性实施可知,本申请实施例通过外置的存储管理设备实现对网络存储设备中存储资源的分配任务,相比于相关技术中利用容器集群中主节点设备分配存储资源的方案,本申请实施例不仅可以在调整目标算力容器对应的存储资源的过程中,避免重新挂载或重新映射造成的算力资源浪费问题,提升了训练业务的运行效率;还可以避免用户侧在访问主节点设备时存在的误操作风险,提升了容器集群的稳定性。同时,由于本申请还响应于该资源调整请求,对该资源调整请求进行验证,可以保证网络存储设备中训练数据的安全性。
参见图4,图4是本申请实施例提供的存储资源管理方法的一个可选的流程示意图,基于图3,图3示出的步骤302可更新为步骤401至步骤403,将结合图4示出的步骤进行说明。
在步骤401中,获取目标训练业务的注册信息和网络存储设备的资源分配数据;注册信息包括目标训练业务的最小资源量。
在本申请的一些实施例中,在该目标训练业务的注册过程中,会获取并保存该目标训练业务的注册信息。其中,该注册信息可以包括该目标训练业务的最小资源量,该最小资源量用于表征该目标训练业务在可以运行的情况下,需要的最小的存储资源的资源量。也就是说,在为该目标训练业务分配该最小资源量的情况下,可以在有限的时间内完成该目标训练业务,相应地,完成该目标训练业务所需的时间较长。
在本申请的一些实施例中,该存储管理设备中存储有该网络存储设备的资源分配数据。该网络存储设备的资源分配数据包括已经注册的每一训练业务当前的存储资源的资源量和该网络存储设备的资源总量。
例如,若已存在第一至第五训练业务已经注册,每一训练业务对应的当前存储资源的资源量均为20GB,且该网络存储设备的资源总量为150GB,则该网络存储设备的资源分配数据可以如表1所示:
表1
在步骤402中,基于最小资源量和资源分配数据,对资源调整请求中携带的待调整资源量进行验证。
在本申请的一些实施例中,可以通过以下方式实现上述基于最小资源量和资源分配数据,对资源调整请求中携带的待调整资源量进行验证:在资源调整请求为扩容请求的情况下,基于待调整资源量和该资源分配数据,确定目标资源总量;在目标资源总量大于该网络存储设备的资源总量的情况下,判定对该待调整资源量验证不通过;在目标资源总量小于或等于该网络存储设备的资源总量的情况下,判定对该待调整资源量验证通过。
例如,基于表1中的举例,若资源调整请求为针对第一训练业务的扩容请求,在待调整资源量为需要给目标训练业务增加10GB的资源量的情况下,可以基于该资源分配数据中第一训练业务的20GB、待调整资源量(+10GB),和其他训练业务的资源量,则可以得到该目标训练业务的目标资源总量为110GB,由于该目标资源总量小于网络存储设备的资源总量,判定对该待调整资源量验证通过。
在本申请的一些实施例中,可以通过以下方式实现上述基于最小资源量和资源分配数据,对资源调整请求中携带的待调整资源量进行验证:在资源调整请求为缩容请求的情况下,确定该目标训练业务的目标资源量;在目标资源量大于或等于该最小资源量的情况下,判定对该待调整资源量验证通过;在目标资源总量小于该网络存储设备的资源总量的情况下,判定对该待调整资源量验证不通过。
例如,基于表1中的举例,若资源调整请求为针对第一训练业务的缩容请求,在待调整资源量为需要给目标训练业务减少10GB的资源量的情况下,可以基于该资源分配数据中第一训练业务的20GB、确定该第一训练业务的目标资源量为10GB,若该第一训练业务在注册过程中设置的最小资源量为15GB,由于该目标资源量小于该最小资源量,判定对该待调整资源量验证不通过。
通过上述方案,由于在该外置的存储管理设备中存储每一训练业务对应的当前资源量,可以在不与容器集群或网络存储设备进行信息交互的条件下,仍然可以对该资源调整请求的待调整资源量的合理性进行验证,并且在验证不通过的情况下,直接返回验证失败消息至用户侧,节省了与网络存储设备之间的信息交互步骤。
在步骤403中,在对待调整资源量验证通过的情况下,验证资源调整请求中携带的权限信息。
在本申请的一些实施例中,可以通过步骤4031实现上述验证资源调整请求中携带的权限信息。
在步骤4031中,获取资源调整请求对应的资源目录,基于权限信息确定是否满足资源目录的权限要求;在权限信息满足资源目录的权限要求的情况下,判定对权限信息验证通过。
其中,该权限信息可以为该用户侧的用户权限,存储管理设备中多个资源目录中的每一资源目录存在对应的目录等级,该存储管理设备针对每一目录等级均设置对应的用户权限,具备相应用户权限的资源调整请求可以调整该目录等级对应的资源目录的资源配额。在步骤4031中,该资源管理设备可以基于该权限信息确定该用户侧的用户权限,并基于该目标训练业务的业务标识,确定该目标训练业务的资源目录,进而确定该资源目录的目录等级,基于该资源目录的目录等级对应的用户权限和该用户侧的用户权限,确定权限信息是否满足该资源目录的权限要求。例如,在该资源目录的目录等级对应的用户权限包括该用户侧的用户权限的情况下,或该用户侧的用户权限高于该资源目录的目录等级对应的用户权限的情况下,判定权限信息满足资源目录的权限要求。
进一步地,在权限信息满足资源目录的权限要求的情况下,判定对权限信息验证通过。
在本申请的一些实施例中,还可以通过步骤4032实现上述验证资源调整请求中携带的权限信息。
在步骤4032中,获取权限信息中的注册标识,检测注册标识是否属于网络存储设备;在注册标识属于网络存储设备的情况下,判定对权限信息验证通过。
在本申请的一些实施例中,在目标训练业务的注册过程中,该网络存储设备在为该目标训练业务分配存储资源的同时,也会为该目标训练业务分配该网络存储设备的注册标识,该注册标识用于表征该网络存储设备中存在为该目标训练业务分配的存储资源。该存储管理设备会接收该网络存储设备为该目标训练业务分配的注册标识,在保存该注册标识的同时,将该注册标识转发至该用户侧。用户侧需要调整该网络存储设备中为该目标训练业务分配的存储资源的资源量的情况下,会发送携带该注册标识对应的资源调整请求至该存储管理设备。
在本申请的一些实施例中,该存储管理设备在对该权限信息进行检验的过程中,可以获取在该目标训练业务注册过程中存储的本地注册标识,通过比对该本地注册标识和该权限信息中的注册标识,在相同的情况下,判定该注册标识属于该网络存储设备;在不相同的情况下,判定该注册标识不属于该网络存储设备。
进一步地,在判定该注册标识属于该网络存储设备的情况下,判定对权限信息验证通过。
需要说明的是,上述各种权限信息的验证方法可以同时进行,也可以选择任意一种完成权限信息的验证,本申请对此不作限定。在同时选择多种验证方法的情况下,则需要保证所有验证方法均通过后,判定对权限信息验证通过。
通过本申请实施例对于图4的上述示例性实施可知,本申请实施例由于在该外置的存储管理设备中存储每一训练业务对应的当前资源量,可以在不与容器集群或网络存储设备进行信息交互的条件下,仍然可以对该资源调整请求的待调整资源量的合理性进行验证,并且在验证不通过的情况下,直接返回验证失败消息至用户侧,节省了与网络存储设备之间的信息交互步骤。同时,由于本申请对资源调整请求的合理性判断之后,还对该资源调整请求的权限信息进行检测,可以避免非法用户对模型训练平台的非法入侵,进而可以保证网络存储设备中训练数据的安全性,也可以保证容器集群的稳定性。
参见图5,图5是本申请实施例提供的存储资源管理方法的一个可选的流程示意图,基于图3,在图3示出的步骤303之后,还可以包括步骤501至步骤502,将结合图5示出的步骤进行说明。
在步骤501中,监控容器集群和网络存储设备,确定负载信息。
在本申请的一些实施例中,该负载信息包括该容器集群对应的硬件负载,该硬件负载可以包括该容器集群整体的硬件负载情况和每一算力容器的硬件负载情况,其中硬件负载情况可以包括GPU、处理器、内存和硬盘等硬件的负载情况。
在本申请的一些实施例中,该负载信息包括该网络存储设备的资源分配数据。该网络存储设备的资源分配数据包括已经注册的每一训练业务当前的存储资源的资源量和该网络存储设备的资源总量。
在本申请的一些实施例中,该负载信息还包括该容器集群与该网络存储设备之间的流量负载。其中,该流量负载可以包括该容器集群中每一算力容器和每一算力容器对应的存储资源之间的流量。
在步骤502中,基于负载信息生成告警消息。
在本申请的一些实施例中,可以通过步骤5021实现上述基于负载信息生成告警消息。
在步骤5021中,获取容器集群中多个算力容器中每一算力容器对应的容器流量;容器流量为算力容器与网络存储设备之间的传输数据量;在容器流量高于预设的流量阈值的情况下,生成流量告警消息并对容器流量对应的算力容器进行流量限制。
其中,基于表1中的举例,若第一训练业务所在的算力容量与网络设备之间的数据传输量为P1,即容器流量为P1;第二训练业务的容器流量为P2;第三至第五训练业务的容器流量为P3,流量阈值为P4,其中,P1>P2>P4>P3;则会生成流量告警消息,该流量告警消息用于指示该第一训练业务和第二训练业务满足告警条件;同时,分别对第一训练业务和第二训练业务对应的算力容器进行流量限制。在一些实施例中,可以先对第一训练业务对应的算力容器进行流量限制,再对第二训练业务对应的算力容器进行流量限制。
在本申请的一些实施例中,还可以通过步骤5022实现上述基于负载信息生成告警消息。
在步骤5022中,获取容器集群中多个算力容器中每一算力容器对应的硬件负载;硬件负载包括以下至少之一:处理器负载、内存负载和磁盘输入输出负载;基于每一算力容器对应的硬件负载,确定每一算力容器的硬件负载量化值;在硬件负载量化值大于或等于预设的硬件负载阈值的情况下,发送硬件告警消息至消息队列;消息队列用于推送硬件告警消息至运维人员。
其中,可以通过以下方式实现上述基于每一算力容器对应的硬件负载,确定每一算力容器的硬件负载量化值:基于算力容器对应的硬件负载,获取算力容器中每一硬件类型的负载数据;根据算力容器中运行的训练业务的业务类型,确定每一硬件类型的负载权重;根据每一硬件类型的负载数据和负载权重,确定算力容器的硬件负载量化值。
在一些实施例中,在计算任意一个算力容器对应的硬件负载量化值的过程中,可以获取该算力容器在不同硬件类型下的负载数据,例如,可以获取CPU利用率、GPU利用率、硬盘读取(输入输出)使用率和使用的资源量;获取该算力容器中运行的训练业务的业务类型,基于该业务类型确定每一硬件类型的负载权重,其中,不同的业务类型对应每一硬件类型的负载权重也不相同,例如,针对图像识别模型的训练业务,由于在进行图像识别训练的过程中,需要处理大量的图像样本数据和较多的中间特征图像,需要占用较多的GPU资源、硬盘读取资源,且属于正常现象,因此,需要对该训练业务选择GPU资源和硬盘读取资源对应的负载权重较小,进而可以得到较低的硬件负载量化值;又例如针对简单的文本分类模型的训练业务,由于只需要获取数据量较小的文本训练数据,且在训练过程中只需设定结构相对简单的全连接网络,并调整全连接网络中的神经元的权重参数,因此不需要占用较多的GPU资源、硬盘读取资源,进一步地,在需要对该训练业务选择GPU资源和硬盘读取资源对应的负载权重较大,进而可以得到较高的硬件负载量化值。
需要说明的是,该服务器中预先存储各个业务类型对应的各个硬件类型的负载权重,并且,业务类型中任意一个硬件类型的负载权重与该业务类型使用该硬件类型的正常负载值成反比,即,该业务类型的训练任务在进行训练任务的过程中,对于一个硬件类型的正常负载值较高,该硬件类型的负载权重也相对较低。通过上述方法,可以在不同业务类型的训练业务在训练过程中的存在负载差异的情况下,采用相同的硬件负载阈值对所有业务类型的训练业务进行负载检测,进而可以提升告警消息的合理性。
在本申请的一些实施例中,该消息队列为该硬件告警消息设置对应的订阅主题,当前设置了该消息队列的存储管理设备相当于该订阅主题的发布端,在生成该硬件告警消息之后,存储管理设备可以基于该硬件告警消息对应的订阅主题生成一个待发布消息,在订阅该订阅主题的消息接收端上线(与该存储管理设备建立连接)之后,可以接收到该存储管理设备发送的目标告警消息。
通过本申请实施例对于图5的上述示例性实施可知,本申请实施例通过监控容器集群和网络存储设备的负载信息,可以实现对整个模型训练平台的状态进行监控,便于用户掌握各个训练业务的执行情况。同时,基于上述负载信息触发对应的告警消息,可以提升运维人员对平台异常信息处理的及时性。
参见图6,图6是本申请实施例提供的存储资源管理方法的一个可选的流程示意图,基于上述实施例,以基于图3为例,在步骤301之前,还可以包括步骤601至步骤603,将结合图6示出的步骤进行说明。
在步骤601中,接收用户侧针对待注册训练业务的注册请求;注册请求携带待注册训练业务的注册信息;注册信息包括待注册训练业务的最小资源量、待申请的资源量和待申请的权限信息。
在本申请的一些实施例中,该最小资源量用于表征该目标训练业务在可以运行的情况下,需要的最小的存储资源的资源量。也就是说,在为该目标训练业务分配该最小资源量的情况下,可以在有限的时间内完成该目标训练业务,相应地,完成该目标训练业务所需的时间较长。该待申请的资源量用于表征该目标训练业务在可以运行的情况下,需要的最合适的存储资源的资源量;该待申请的资源量可以基于该待注册训练业务的业务类型,从预设的资源量列表中获取,也可以是用户侧针对该待注册业务的实际需要进行实时设置的。该待申请的权限信息可以是上述实施例中为所述用户侧申请的用户权限。
在步骤602中,响应于注册请求,发送验证请求至网络存储设备;网络存储设备用于在对注册信息验证通过的情况下,基于注册信息为待注册训练业务分配存储资源,发送待注册训练业务的注册标识至存储管理设备。
在步骤603中,存储网络存储设备发送的待注册训练业务的注册标识,并将待注册训练业务的注册标识转发至用户侧,以使用户侧在发起对待注册训练业务的资源调整请求中携带待注册训练业务的注册标识。
在本申请的一些实施例中,存储资源管理设备将该待注册训练业务的注册标识保存至本地,同时将该待注册训练业务的注册标识转发至发送该注册请求的用户侧。之后,该用户侧需要对该待注册训练业务的存储资源做调整的情况下,需要发送携带该注册标识的资源调整请求至该存储资源管理设备,存储资源管理设备基于之前保存至本地的注册标识,对该资源调整请求中携带的注册标识进行验证。通过上述方法,可以保证该待注册训练业务对应的训练数据的安全性。
通过本申请实施例对于图6的上述示例性实施可知,本申请实施例通过存储管理设备接收用户侧对于待注册训练业务的注册请求,并且通过该存储管理设备与该网络存储设备之间的验证操作,可以使该存储管理设备可以得到训练业务从注册开始的所有存储资源的配置数据,便于后续接收到资源调整请求的过程中,可以基于已经存储的训练业务的存储资源配置数据对该资源调整请求的合理性进行验证,提高的验证效率;省去了存储管理设备与网络存储设备之间的信息交互步骤,降低了网络存储设备的带宽需求,间接的提升了网络存储设备和容器集群之间对于流量带宽的利用率,进而提升了训练业务的执行效率。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在目前的训练业务场景中,需要将GPU算力分配至训练业务,以使得训练业务完成对应训练业务。其中,GPU算力在分配给训练业务使用时,训练数据需要用到网络存储,本申请实施例针对训练业务中的训练数据的网络存储管理方案。在目前的传统方案中,Kubernetes的系统架构支持使用插件的模式,兼容开源社区或者云厂商的存储方案,交付给用户的GPU算力容器通过数据卷或者挂载目录的方式执行对网络存储的读写操作。
申请人经过研究发现,上述传统方案存在以下技术问题:(1)如果需要扩容存储,则需要在Kubernetes的master(主节点设备)设备上根据kubectl的命令实现扩容操作,甚至有些网络存储扩容后,需要重新挂载或者映射才能生效,用户体验不好;(2)通过命令方式操作Kubernetes的集群控制节点风险较高;(3)Kubernetes侧的集群控制节点对于集群权限及存储集群的稳定性和管控性较弱。
基于上述问题,本申请主要针对GPU算力容器交付给用户使用时,用户的训练数据在网络存储过程中的网络存储管理问题。在进行训练的过程中,需要保证数据权限控制及集群的稳定性,在对网络存储进行扩缩操作时,也需要降低扩缩操作对系统架构的风险以及提升用户的体验。
对于扩缩业务在用算力容器的网络存储,传统的做法是通过访问Kubernetes的集群控制节点,依据kubectl等命令执行数据卷或者存储目录的扩缩操作,当扩缩完成后,集群控制节点需要重新加载配置文件,若改动扩缩值的流程中,误操作了其他的配置项,很可能会带来不必要的问题。
本申请实施例通过增加外置的存储控制中心,将网络存储的扩缩操作收拢到该存储控制中心,实现存储空间的扩容或者缩容,无需登录到Kubernetes的集群控制节点(控制中心)。并且外置中心的扩缩容操作采用缩减目录的配额(quota)方式,执行扩缩后,也无需重新挂载或者映射,通过在外置中心增加权限控制和监控存储集群的负载流量,补齐训练数据安全性的短板。
在本申请的一些实施例中,通过基于外置存储配置中心的策略,该配置中心聚焦网络存储的管理,扩缩操作可以从中心的控制面发起,验证用户的权限,而且操作扩缩仅针对网络存储的目录(配额),不会对系统中的其他配置项做更改,对上述传统的技术方案进行如下优化:
(1)采用独立的网络存储配置中心,用于处理网盘的管理操作,扩缩操作无需操作Kubernetes的集群控制节点,对架构的风险低,有利于系统的运营性。
(2)通过配置中心统计各存储网盘的使用率,便于对存储网盘的状态的监控及容量的预警,有益用户体验的提升。
(3)GPU算力容器销毁后,用户可通过外置的配置中心查询到训练数据的空间使用量及目录、文件数等信息,方便用户评估下一次训练时数据的加载。
(4)若用户未提交训练业务,但需要读取网盘数据做分析,外置的配置中心可方便的增加权限控制等策略,保障用户数据的安全性。
(5)用户加载网盘数据时,外置的配置中心可通过监控网络存储集群的负载,动态的调整数据读写的阈值,保障集群的稳定性。
在本申请的一些实施例中,请参阅图7,图7示出了一种外置中心的系统架构图,其中该系统架构图中示出了该外置中心710的整体架构,通过该外置的外置中心710管控训练过程中的网盘(也称训练网盘,对应上述实施例中的网络存储设备),实现网盘的扩缩操作、存储权限和集群稳定性的保障,该外置中心相当于上述实施例中的存储管理设备。
在图7中,可以看出,外置中心710包括配置中心711、鉴权中心712和监控中心713。其中:
配置中心711,用于配置用户的训练网盘的大小,在用户需要扩缩网盘的大小时,会从配置中心下发扩缩请求,配置中心会先对请求里的容量做判断,如果扩容的容量超过集群的容量值,返回失败,如果缩容值低于了业务需要扩容的阈值,返回失败给到用户;请求判断合理后,会被封装下发到鉴权中心。
在一些实施例中,对于一个训练业务,该训练业务对应一个网盘和一个容器。其中,网盘用于存储训练数据,容器用于从该网盘中获取训练数据,并执行训练业务。在一个训练业务注册时,需要设定该训练业务最小的容量值和需要申请的容量值,Kubernetes集群715会基于需要申请的容量值分配对应的网盘配额至该训练业务,并运行该训练业务。在运行过程中,响应于用户的扩缩请求,在扩容请求中携带扩容容量与目前网盘容量的和超过网盘存储714的最大网盘容量时,返回失败消息;在缩容请求中携带的缩容容量小于之前设定的最小的容量值的情况下,也返回失败消息。鉴权中心712,用于实现权限的校验操作、其中,该校验操作可以包括以下至少之一:(1)校验用户对操作的网盘目录是否有写权限,若无写权限则返回失败;(2)校验请求中携带的key(对应上述实施例中的注册标识)关键信息是否存储集群签发的,签发key流程发生在用户注册网盘目录的阶段,注册成功,网盘集群会签发key信息返回用户,用户操作目录需要携带该key。
监控中心713,用于监控网盘存储714的流量和资源负载,并根据实时情况产生相应的告警消息。其中,在监控到流量超过了阈值的情况下,触发告警并执行自动限流的策略,优先限制大流量网络会话的流量带宽,目的将集群的流量负载快速降低下来;在监控到其他资源的负载较高的情况下,执行告警操作,接收到告警的运维人员需要人工介入分析负载高的原因并解决,其中该其他资源包括但不限于是以下至少之一:CPU、内存和磁盘IO等。
在一个实际的场景中,以新的训练业务接入为例,在新的训练业务接入的过程中,需要请求配置中心做存储的注册操作,请求中会携带业务名、需求的存储资源量和申请的权限信息等,配置中心会将信息发送到存储集群,存储集群判定业务接入合理性后,签发key信息返回给鉴权中心和业务侧;当业务在训练中需要扩容网盘存储时,会携带key发起扩容需求,需求经过鉴权中心的鉴权处理,发送到存储集群,存储集群查询到业务的扩容目录后,执行扩容操作。扩容的流程和监控告警的流程是并行的,告警的触发并不会打断扩容的流程执行。
以下将结合图8和图9分别说明扩缩容流程和监控告警处理流程。
参见图8,图8是本申请实施例提供的一个可选的扩缩容流程的流程示意图。将结合图8示出的步骤进行说明。
在步骤801中,配置中心接收针对目标业务的扩缩请求。
在步骤802中,配置中心基于容量阈值判断该扩缩请求是否合理。
在判断该扩缩请求合理的情况下,执行步骤803,在判断该扩缩请求不合理的情况下,执行步骤806。
在一些实施例中,在该目标业务注册的过程中,需要设定最小的容量值(对应上述实施例中的最小资源量)和需要申请的容量值(对应上述实施例中的待申请的资源量),存储集群会基于需要申请的容量值分配对应的网盘配额至该业务,并运行该目标业务。在该目标业务运行的过程中,接收上述扩缩请求,在扩缩请求为扩容请求的情况下,扩容请求中携带扩容容量与现在存储集群的实时容量的和超过存储集群的最大容量的情况下,判断该扩缩请求不合理;在扩缩请求为缩容请求的情况下,缩容请求中携带的缩容容量小于之前设定的最小的容量值的情况下,判断该扩缩请求不合理。
在步骤803中,配置中心向鉴权中心发起鉴权请求。
在步骤804中,鉴权中心判断鉴权是否通过。在判断该鉴权通过的情况下,执行步骤805;在判断该鉴权不通过的情况下,执行步骤806。
在一些实施例中,鉴权中心会校验请求中携带的key信息(对应上述实施例中的标识信息)和用户的权限信息,若校验失败则结束,校验成功后,请求会发送到存储集群,完成用户目录的扩缩操作。
在步骤805中,执行该扩缩请求对应的扩缩操作。
在步骤806中,结束。
在一些实施例中,该鉴权中心或配置中心还可以发送对应的请求失败消息至发送该扩缩请求的用户侧。
参见图9,图9是本申请实施例提供的一个可选的监控告警处理流程的流程示意图。将结合图9示出的步骤进行说明。
在步骤901中,监控中心监控存储集群的流量负载和其他负载。
在一些实施例中,监控中心会定时轮询存储集群的流量负载和其他负载,其他负载为其他资源的负载情况。其中,该其他资源可以包括容器内的其他资源负载,例如CPU、内存和磁盘IO等。
在步骤902中,监控中心判断是否超过告警阈值。
在超过告警阈值的情况下,执行步骤903;在未超过告警阈值的情况下,继续执行步骤901。
在一些实施例中,可以针对流量负载设置对应的流量阈值,针对其他负载设置对应的硬件负载,在以下至少一个事件发生的情况下,判定超过该告警阈值:(1)流量负载超过预设的流量阈值;(2)其他负载超过预设的硬件阈值。
在步骤903中,监控中心触发告警操作。
在步骤904中,监控中心判断是否是流量阈值告警。
在该告警操作为流量阈值告警操作的情况下,执行步骤905,在该告警操作不是该流量阈值告警操作的情况下,执行步骤906。
在步骤905中,触发自动限流策略。
在一些实施例中,该自动限流策略可以为优先限制流量较高的网络会话的流量带宽,以快速降低上述流量负载。
在步骤906中,触发人工介入策略。
在一些实施例中,该人工介入策略可以为发送硬件告警消息至消息队列;消息队列用于推送硬件告警消息至运维人员,以使运维人员完成人工介入,分析负载高的原因并解决上述问题。
通过本申请的上述实施例,可以解决如何实现通过外置的中心管控业务的网络存储的技术问题,并且,在避免操作Kubernetes的主节点设备的前提下,完成用户网盘目录的扩缩操作,并在操作过程中,保障操作的安全性和稳定性;当前Kubernetes架构中对网络存储的安全性和稳定性保障性弱,通过增加鉴权中心和监控中心,补齐了安全性和稳定性运营的短板;配置中心管控的扩缩操作,通过请求修改网盘存储的目录额度,无需访问Kubernetes的主节点设备,降低系统风险的同时,也便捷了用户操作,提升了体验。
下面继续说明本申请实施例提供的存储资源管理装置555的实施为软件模块的示例性结构,在本申请的一些实施例中,如图2所示,存储在存储器550的存储资源管理装置555中的软件模块可以包括:
接收模块5551,用于接收针对目标训练业务的资源调整请求;资源调整请求用于调整网络存储设备为目标算力容器分配的存储资源,目标算力容器用于执行目标训练业务,存储资源用于存储目标算力容器执行目标训练业务使用的训练数据;
验证模块5552,用于响应于资源调整请求,验证资源调整请求携带的待调整资源量和权限信息;
发送模块5553,用于在对待调整资源量和权限信息验证通过的情况下,向网络存储设备发送资源调整指令;资源调整指令用于调整网络存储设备针对目标算力容器的资源配额。
在本申请的一些实施例中,验证模块5552,还用于:获取目标训练业务的注册信息和网络存储设备的资源分配数据;注册信息包括目标训练业务的最小资源量;基于最小资源量和资源分配数据,对资源调整请求中携带的待调整资源量进行验证;在对待调整资源量验证通过的情况下,验证资源调整请求中携带的权限信息。
在本申请的一些实施例中,验证模块5552,还用于执行以下至少之一:获取资源调整请求对应的资源目录,基于权限信息确定是否满足资源目录的权限要求,在权限信息满足资源目录的权限要求的情况下,判定对权限信息验证通过;获取权限信息中的注册标识,检测注册标识是否属于网络存储设备,在注册标识属于网络存储设备的情况下,判定对权限信息验证通过。
在本申请的一些实施例中,存储资源管理装置555还包括监控模块,其中;
监控模块,用于监控容器集群和网络存储设备,确定负载信息;基于负载信息生成告警消息。
在本申请的一些实施例中,负载信息包括流量信息;监控模块,还用于:获取容器集群中多个算力容器中每一算力容器对应的容器流量;容器流量为算力容器与网络存储设备之间的传输数据量;在容器流量高于预设的流量阈值的情况下,生成流量告警消息并对容器流量对应的算力容器进行流量限制。
在本申请的一些实施例中,负载信息包括硬件信息;监控模块,还用于:获取容器集群中多个算力容器中每一算力容器对应的硬件负载;硬件负载包括以下至少之一:处理器负载、内存负载和磁盘输入输出负载;基于每一算力容器对应的硬件负载,确定每一算力容器的硬件负载量化值;在硬件负载量化值大于或等于预设的硬件负载阈值的情况下,发送硬件告警消息至消息队列;消息队列用于推送硬件告警消息至运维人员。
在本申请的一些实施例中,监控模块,还用于:基于算力容器对应的硬件负载,获取算力容器中每一硬件类型的负载数据;根据算力容器中运行的训练业务的业务类型,确定每一硬件类型的负载权重;根据每一硬件类型的负载数据和负载权重,确定算力容器的硬件负载量化值。
在本申请的一些实施例中,接收模块5551,还用于:接收用户侧针对待注册训练业务的注册请求;注册请求携带待注册训练业务的注册信息;注册信息包括待注册训练业务的最小资源量、待申请的资源量和待申请的权限信息;响应于注册请求,发送验证请求至网络存储设备;网络存储设备用于在对注册信息验证通过的情况下,基于注册信息为待注册训练业务分配存储资源,发送待注册训练业务的注册标识至存储管理设备;存储网络存储设备发送的待注册训练业务的注册标识,并将待注册训练业务的注册标识转发至用户侧,以使用户侧在发起对待注册训练业务的资源调整请求中携带待注册训练业务的注册标识。
本公开实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的存储资源管理方法。
本公开实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的存储资源管理方法,例如,如图3至图6示出的方法。
在本申请的一些实施例中,计算机可读存储介质可以是铁电存储器(Ferroelectric Random Access Memory,FRAM)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable read-only memory,PROM)、电子可编程只读存储器(Electrical Programmable read-only memory,EPROM)、带电可擦可编程只读存储器(Electrical Programmable read-only memory,EEPROM)、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在本申请的一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够实现以下技术效果:
(1)本申请实施例通过外置的存储管理设备实现对网络存储设备中存储资源的分配任务,相比于相关技术中利用容器集群中主节点设备分配存储资源的方案,本申请实施例不仅可以在调整目标算力容器对应的存储资源的过程中,避免重新挂载或重新映射造成的算力资源浪费问题,提升了训练业务的运行效率;还可以避免用户侧在访问主节点设备时存在的误操作风险,提升了容器集群的稳定性。同时,由于本申请还响应于该资源调整请求,对该资源调整请求进行验证,可以保证网络存储设备中训练数据的安全性。
(2)本申请实施例由于在该外置的存储管理设备中存储每一训练业务对应的当前资源量,可以在不与容器集群或网络存储设备进行信息交互的条件下,仍然可以对该资源调整请求的待调整资源量的合理性进行验证,并且在验证不通过的情况下,直接返回验证失败消息至用户侧,节省了与网络存储设备之间的信息交互步骤。同时,由于本申请对资源调整请求的合理性判断之后,还对该资源调整请求的权限信息进行检测,可以避免非法用户对模型训练平台的非法入侵,进而可以保证网络存储设备中训练数据的安全性,也可以保证容器集群的稳定性。
(3)本申请实施例通过监控容器集群和网络存储设备的负载信息,可以实现对整个模型训练平台的状态进行监控,便于用户掌握各个训练业务的执行情况。同时,基于上述负载信息触发对应的告警消息,可以提升运维人员对平台异常信息处理的及时性。
(4)本申请实施例通过存储管理设备接收用户侧对于待注册训练业务的注册请求,并且通过该存储管理设备与该网络存储设备之间的验证操作,可以使该存储管理设备可以得到训练业务从注册开始的所有存储资源的配置数据,便于后续接收到资源调整请求的过程中,可以基于已经存储的训练业务的存储资源配置数据对该资源调整请求的合理性进行验证,提高的验证效率;省去了存储管理设备与网络存储设备之间的信息交互步骤,降低了网络存储设备的带宽需求,间接的提升了网络存储设备和容器集群之间对于流量带宽的利用率,进而提升了训练业务的执行效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (10)
1.一种存储资源管理方法,其特征在于,应用于存储管理设备,所述存储管理设备用于管理网络存储设备为容器集群分配的存储资源,所述方法包括:
接收针对目标训练业务的资源调整请求;所述资源调整请求用于调整所述网络存储设备为目标算力容器分配的存储资源,所述目标算力容器用于执行所述目标训练业务,所述存储资源用于存储所述目标算力容器执行所述目标训练业务使用的训练数据;
响应于所述资源调整请求,验证所述资源调整请求携带的待调整资源量和权限信息;
在对所述待调整资源量和所述权限信息验证通过的情况下,向所述网络存储设备发送资源调整指令;所述资源调整指令用于调整所述网络存储设备针对所述目标算力容器的资源配额。
2.根据权利要求1所述的方法,其特征在于,所述验证所述资源调整请求携带的待调整资源量和权限信息,包括:
获取所述目标训练业务的注册信息和所述网络存储设备的资源分配数据;所述注册信息包括所述目标训练业务的最小资源量;
基于所述最小资源量和所述资源分配数据,对所述资源调整请求中携带的待调整资源量进行验证;
在对所述待调整资源量验证通过的情况下,验证所述资源调整请求中携带的权限信息。
3.根据权利要求2所述的方法,其特征在于,所述验证所述资源调整请求中携带的权限信息,包括以下至少之一:
获取所述资源调整请求对应的资源目录,基于所述权限信息确定是否满足所述资源目录的权限要求,在所述权限信息满足所述资源目录的权限要求的情况下,判定对所述权限信息验证通过;
获取所述权限信息中的注册标识,检测所述注册标识是否属于所述网络存储设备,在所述权限信息满足所述资源目录的权限要求的情况下,判定对所述权限信息验证通过。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
监控所述容器集群和所述网络存储设备,确定负载信息;
基于所述负载信息生成告警消息。
5.根据权利要求4所述的方法,其特征在于,所述负载信息包括流量信息;所述基于所述负载信息生成告警消息,包括:
获取所述容器集群中多个算力容器中每一所述算力容器对应的容器流量;所述容器流量为所述算力容器与所述网络存储设备之间的传输数据量;
在容器流量高于预设的流量阈值的情况下,生成流量告警消息并对所述容器流量对应的算力容器进行流量限制。
6.根据权利要求4所述的方法,其特征在于,所述负载信息包括硬件信息;所述基于所述负载信息生成告警消息,包括:
获取所述容器集群中多个算力容器中每一所述算力容器对应的硬件负载;所述硬件负载包括以下至少之一:处理器负载、内存负载和磁盘输入输出负载;
基于每一所述算力容器对应的硬件负载,确定每一所述算力容器的硬件负载量化值;
在所述硬件负载量化值大于或等于预设的硬件负载阈值的情况下,发送硬件告警消息至消息队列;所述消息队列用于推送所述硬件告警消息至运维人员。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
接收用户侧针对待注册训练业务的注册请求;所述注册请求携带所述待注册训练业务的注册信息;所述注册信息包括所述待注册训练业务的最小资源量、待申请的资源量和待申请的权限信息;
响应于所述注册请求,发送验证请求至所述网络存储设备;所述网络存储设备用于在对所述注册信息验证通过的情况下,基于所述注册信息为所述待注册训练业务分配存储资源,发送所述待注册训练业务的注册标识至所述存储管理设备;
存储所述网络存储设备发送的所述待注册训练业务的注册标识,并将所述待注册训练业务的注册标识转发至所述用户侧,以使所述用户侧在发起对所述待注册训练业务的资源调整请求中携带所述待注册训练业务的注册标识。
8.一种存储资源管理装置,其特征在于,包括:
接收模块,用于接收针对目标训练业务的资源调整请求;所述资源调整请求用于调整所述网络存储设备为目标算力容器分配的存储资源,所述目标算力容器用于执行所述目标训练业务,所述存储资源用于存储所述目标算力容器执行所述目标训练业务使用的训练数据;
验证模块,用于响应于所述资源调整请求,验证所述资源调整请求携带的待调整资源量和权限信息;
发送模块,用于在对所述待调整资源量和所述权限信息验证通过的情况下,向所述网络存储设备发送资源调整指令;所述资源调整指令用于调整所述网络存储设备针对所述目标算力容器的资源配额。
9.一种存储资源管理设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437975.0A CN113760180A (zh) | 2021-04-22 | 2021-04-22 | 存储资源管理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437975.0A CN113760180A (zh) | 2021-04-22 | 2021-04-22 | 存储资源管理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113760180A true CN113760180A (zh) | 2021-12-07 |
Family
ID=78786905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437975.0A Pending CN113760180A (zh) | 2021-04-22 | 2021-04-22 | 存储资源管理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760180A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666272A (zh) * | 2022-03-11 | 2022-06-24 | 平安国际智慧城市科技股份有限公司 | 限流处理方法、装置、设备及存储介质 |
CN114827286A (zh) * | 2022-04-29 | 2022-07-29 | 杭州海康威视系统技术有限公司 | 跨域分析系统、跨域资源调度方法、装置及存储介质 |
CN115037752A (zh) * | 2022-04-22 | 2022-09-09 | 网易(杭州)网络有限公司 | 资源再分配方法、装置及电子设备 |
CN116737178A (zh) * | 2023-08-10 | 2023-09-12 | 北京万界数据科技有限责任公司 | 一种训练任务编排方法及系统 |
CN117056150A (zh) * | 2023-10-10 | 2023-11-14 | 宁波银行股份有限公司 | 一种网络附属存储检测方法、装置、设备及存储介质 |
CN117097681A (zh) * | 2023-10-16 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 网络资源的调度方法、装置和存储介质及电子设备 |
-
2021
- 2021-04-22 CN CN202110437975.0A patent/CN113760180A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666272A (zh) * | 2022-03-11 | 2022-06-24 | 平安国际智慧城市科技股份有限公司 | 限流处理方法、装置、设备及存储介质 |
CN114666272B (zh) * | 2022-03-11 | 2023-06-16 | 深圳平安智慧医健科技有限公司 | 限流处理方法、装置、设备及存储介质 |
CN115037752A (zh) * | 2022-04-22 | 2022-09-09 | 网易(杭州)网络有限公司 | 资源再分配方法、装置及电子设备 |
CN115037752B (zh) * | 2022-04-22 | 2024-03-22 | 网易(杭州)网络有限公司 | 资源再分配方法、装置及电子设备 |
CN114827286A (zh) * | 2022-04-29 | 2022-07-29 | 杭州海康威视系统技术有限公司 | 跨域分析系统、跨域资源调度方法、装置及存储介质 |
CN114827286B (zh) * | 2022-04-29 | 2024-03-15 | 杭州海康威视系统技术有限公司 | 跨域分析系统、跨域资源调度方法、装置及存储介质 |
CN116737178A (zh) * | 2023-08-10 | 2023-09-12 | 北京万界数据科技有限责任公司 | 一种训练任务编排方法及系统 |
CN116737178B (zh) * | 2023-08-10 | 2023-10-20 | 北京万界数据科技有限责任公司 | 一种训练任务编排方法及系统 |
CN117056150A (zh) * | 2023-10-10 | 2023-11-14 | 宁波银行股份有限公司 | 一种网络附属存储检测方法、装置、设备及存储介质 |
CN117056150B (zh) * | 2023-10-10 | 2024-01-26 | 宁波银行股份有限公司 | 一种网络附属存储检测方法、装置、设备及存储介质 |
CN117097681A (zh) * | 2023-10-16 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 网络资源的调度方法、装置和存储介质及电子设备 |
CN117097681B (zh) * | 2023-10-16 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 网络资源的调度方法、装置和存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113760180A (zh) | 存储资源管理方法、装置、设备及计算机可读存储介质 | |
US20220083380A1 (en) | Monitoring and automatic scaling of data volumes | |
US11336583B2 (en) | Background processes in update load balancers of an auto scaling group | |
US8856335B1 (en) | Managing service level objectives for storage workloads | |
CN103200020B (zh) | 一种资源部署方法和系统 | |
US8620921B1 (en) | Modeler for predicting storage metrics | |
US10341426B2 (en) | Managing load balancers associated with auto-scaling groups | |
US11558311B2 (en) | Automated local scaling of compute instances | |
US20180367622A1 (en) | Managing operation of instances | |
CN109886693B (zh) | 区块链系统的共识实现方法、装置、设备和介质 | |
CN103581247A (zh) | 一种基于云计算环境的分布式Web测试方法 | |
CN107343041B (zh) | 一种基于云计算的精准扶贫管理系统与方法 | |
US20160323188A1 (en) | Managing state for updates to load balancers of an auto scaling group | |
US20200042356A1 (en) | System and Method for Resource Management | |
WO2020134364A1 (zh) | 一种虚拟机迁移方法、云计算管理平台和存储介质 | |
US11960578B2 (en) | Correspondence of external operations to containers and mutation events | |
US11831706B1 (en) | System and method for distributed management of storage systems based on intent | |
CN111352592B (zh) | 磁盘读写控制方法、装置、设备及计算机可读存储介质 | |
US10977153B1 (en) | Method and system for generating digital twins of resource pools and resource pool devices | |
US10884845B2 (en) | Increasing processing capacity of processor cores during initial program load processing | |
CN113535087B (zh) | 数据迁移过程中的数据处理方法、服务器及存储系统 | |
US10671509B1 (en) | Simulating storage server configurations | |
CN112433812A (zh) | 一种虚拟机跨集群迁移方法、系统、设备及计算机介质 | |
CN114579250A (zh) | 一种构建虚拟集群的方法、装置及存储介质 | |
US11770456B1 (en) | System and method for distributed management of storage systems based on subscription changes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |