CN111478796A - 一种ai平台的集群扩容异常处理方法 - Google Patents

一种ai平台的集群扩容异常处理方法 Download PDF

Info

Publication number
CN111478796A
CN111478796A CN202010154804.2A CN202010154804A CN111478796A CN 111478796 A CN111478796 A CN 111478796A CN 202010154804 A CN202010154804 A CN 202010154804A CN 111478796 A CN111478796 A CN 111478796A
Authority
CN
China
Prior art keywords
cluster
platform
script
expansion
exception handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010154804.2A
Other languages
English (en)
Other versions
CN111478796B (zh
Inventor
刘晓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010154804.2A priority Critical patent/CN111478796B/zh
Publication of CN111478796A publication Critical patent/CN111478796A/zh
Application granted granted Critical
Publication of CN111478796B publication Critical patent/CN111478796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • H04L41/0863Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions by rolling back to previous configuration versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种AI平台的集群扩容异常处理方法,包括如下步骤:S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;S2.AI平台接收到集群扩容请求后,执行适配测试脚本;S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。本发明对AI平台集群扩容时的待扩容节点进行检测,根据反馈结果降低扩容失败率,并在扩容失败后引入异常回滚策略,保持AI平台可用性。

Description

一种AI平台的集群扩容异常处理方法
技术领域
本发明属于集群扩容技术领域,具体涉及一种AI平台的集群扩容异常处理方法。
背景技术
当集群资源不足时,需要对集群进行水平扩展,随着技术的发展,目前各个网站平台发展规模增长之后集群扩容在所难免。安装AI平台后也同样存在用户扩容需求,新扩展节点的配置默认与已有节点一致才会扩容成功,尽管需要用户对集群信息进行确认,但由于集群设备规模和运维实施人员失误等因素,还是会出现管理节点、计算节点基本信息不一致或者其他未知异常问题导致扩容失败。
扩容失败会导致扩容进集群后机器无法正常使用,甚至影响集群中原有节点的正常工作;扩容过程中出现问题,虽然扩容进度列表记录异常日志,但需要运维人员定位扩容失败原因及手动解决问题,这个过程中AI平台无法正常提供服务。目前还缺少降低AI平台集群扩容失败率的有效手段。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种AI平台的集群扩容异常处理方法,是非常有必要的。
发明内容
针对现有技术的上述缺少降低AI平台集群扩容失败率的有效手段的缺陷,本发明提供一种AI平台的集群扩容异常处理方法,以解决上述技术问题。
第一方面,本发明提供一种AI平台的集群扩容异常处理方法,包括如下步骤:
S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;
S2.AI平台接收到集群扩容请求后,执行适配测试脚本;
S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;
S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。
进一步地,所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。ansible脚本是基于phython的自动化运维工具。
进一步地,步骤S3具体步骤如下:
S31.配置适配测试脚本获取待扩容节点列表,并从待扩容节点列表中获取所有待扩容节点的IP信息,生成待扩容节点IP列表;
S32.配置适配测试脚本遍历待扩容节点IP列表,获取每个待扩容节点的信息,并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求;
若否,适配检测失败,定位待扩容节点的问题;
若是,保存集群扩容前配置,启动扩容脚本进行集群扩容,进入步骤S33;
S33.判断集群扩容是否成功;
若否,进入步骤S4;
若是,进入步骤S34;
S34.AI平台集群提供正常集群服务。通过适配测试脚本在扩容之前对待扩容进AI平台集群的节点进行检测,及时发现待扩容节点的问题,降低扩容失败率。
进一步地,步骤S32中,启动扩容脚本进行集群扩容通过如下步骤实现:
配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。网络时钟互信保证两个节点之间时钟的同步,kubernetes集群通过标签来控制集群服务单元pod的位置,GPU标签打入即集群服务单元pod需要运行在配置了GPU的节点上。
进一步地,所述待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。待扩容节点信息包括但不限于上述内容,上述内容不一致,会导致AI平台集群扩容失败。
进一步地,步骤S4具体步骤如下:
S41.集群扩容失败,启动异常处理脚本;
S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常;
若是,进入步骤S43;
若否,进入步骤S44;
S43.配置异常处理脚本判断是否需要恢复原有AI平台集群配置;
若是,进入步骤S44;
若否,返回步骤S34;
S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置。扩容失败,且AI平台集群的各服务单元pod中存在异常时,必须要启动AI平台集群配置恢复;而扩容失败,但AI平台集群的各服务单元pod正常时,可以恢复原有集群配置,也可以不恢复。
进一步地,步骤S43中,配置异常处理脚本获取测试人员的设置,根据测试人员的设置判断是否需要恢复原有AI平台集群配置。扩容失败,但AI平台集群的各服务单元pod正常时,不启动自动回滚,而又测试人员手动开启回滚操作。
进一步地,步骤S44具体步骤如下:
S441.AI平台集群存在异常的服务单元pod,且异常时长达到设定阈值,配置异常处理脚本进行异常回滚;
S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载;
S443.配置异常处理脚本获取集群扩容前配置,并更新到AI平台集群配置文件;
S444.配置异常处理脚本重启容器组件,重启网络插件恢复节点通信,重启异常服务单元pod,直至AI平台的集群服务恢复正常。通过异常回滚即使扩容失败,也可保证AI平台可以正常运行。
进一步地,步骤S444中,配置异常处理脚本定位一个异常服务单元pod进行重启,并判断AI平台集群服务是否恢复正常;
若是,配置异常处理脚本停止异常回滚,返回步骤S34;
若否,配置异常处理脚本定位到下一个异常服务单元pod进行重启。回滚操作的界限就是AI平台可以正常回滚操作为止,无需完全恢复原有的AI平台集群配置。
进一步地,所述集群采用kubernetes集群,所述数据采集工具组件采用telegraf数据采集工具,所述网络插件采用calico网络插件;
步骤S441中通过计时器计算服务单元pod的异常时长。
本发明的有益效果在于,
本发明提供的AI平台的集群扩容异常处理方法,对AI平台集群扩容时的待扩容节点进行检测,根据反馈结果降低扩容失败率,并在扩容失败后引入异常回滚策略,保持AI平台可用性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程示意图一;
图2是本发明的方法流程示意图二;
图3为本发明的方法流程示意图三。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本发明提供一种AI平台的集群扩容异常处理方法,包括如下步骤:
S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本;
S2.AI平台接收到集群扩容请求后,执行适配测试脚本;
S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;
S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。
实施例2:
如图1、图2及图3所示,本发明提供一种AI平台的集群扩容异常处理方法,包括如下步骤:
S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;
S2.AI平台接收到集群扩容请求后,执行适配测试脚本;集群采用kubernetes集群;
S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;具体步骤如下:
S31.配置适配测试脚本获取待扩容节点列表,并从待扩容节点列表中获取所有待扩容节点的IP信息,生成待扩容节点IP列表;
S32.配置适配测试脚本遍历待扩容节点IP列表,获取每个待扩容节点的信息,并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求;所述待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息;
若否,适配检测失败,定位待扩容节点的问题;
若是,保存集群扩容前配置,启动扩容脚本进行集群扩容,进入步骤S33;
S33.判断集群扩容是否成功;
若否,进入步骤S4;
若是,进入步骤S34;
S34.AI平台集群提供正常集群服务;
S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置;具体步骤如下:
S41.集群扩容失败,启动异常处理脚本;
S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常;
若是,进入步骤S43;
若否,进入步骤S44;
S43.配置异常处理脚本判断是否需要恢复原有AI平台集群配置;
若是,进入步骤S44;
若否,返回步骤S34;
S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置;具体步骤如下:
S441.AI平台集群存在异常的服务单元pod,且异常时长达到设定阈值,配置异常处理脚本进行异常回滚;通过计时器计算服务单元pod的异常时长;通过如下代码获取AI平台集群的服务单元pod的状态:
kubectl get pods–A
S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载;数据采集工具组件采用telegraf数据采集工具,网络插件采用calico网络插件;
S443.配置异常处理脚本获取集群扩容前配置,并更新到AI平台集群配置文件;
S444.配置异常处理脚本重启容器组件,重启网络插件恢复节点通信,重启异常服务单元pod,直至AI平台的集群服务恢复正常;通过如下代码对异常服务单元pod进行重启:
kubectl delete pod-n kube-system$podname。
上述实施例2中,步骤S32中,启动扩容脚本进行集群扩容通过如下步骤实现:
配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。
上述实施例2中,步骤S444中,配置异常处理脚本定位一个异常服务单元pod进行重启,并判断AI平台集群服务是否恢复正常;
若是,配置异常处理脚本停止异常回滚,返回步骤S34;
若否,配置异常处理脚本定位到下一个异常服务单元pod进行重启。
上述实施例2中,步骤S32中,配置适配测试脚本依次选取IP列表中的各待扩容节点IP信息取出后创建一个通道,自动获取集群用户密码登录到各个集群服务器,以此检查集群用户名密码是否一致,若一致,则获取各个待扩容节点的系统版本号、GPU类型和卡数、CPU核数、内存,返回的信息保存一个待扩容节点信息列表中;配置适配测试脚本获取各个检测项的检测通过标准,保存标准信息到生成的标准信息列表中;配置适配测试脚本通过断言的方式遍历比较待扩容节点信息列表和标准信息列表中的数据,若所有数据比对一致,返回测试通过,返回该项适配结果为True;列表中某个数据不一致或比对不通过,输出不一致的数据在列表中的位置下标,并在该项中反馈适配结果为False。
ansible脚本,是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令的功能。
kubernetes,简称K8s,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用。
pod,是kubernetes集群的最小工作单元。每个pod包含一个或者多个容器。
Calico,是一个纯三层的方案,为虚机及容器提供多主机间通信,没有使用重叠网络(如flannel)驱动,采用虚拟路由代替虚拟交换,每一台虚拟路由器通过BGP协议传播可达信息(路由)到其他虚拟或物理路由器。
Telegraf是一个用Go编写的代理程序,可收集系统和服务的统计数据,并写入到InfluxDB数据库。内存占用小,通过插件系统可轻松添加支持其他服务的扩展。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种AI平台的集群扩容异常处理方法,其特征在于,包括如下步骤:
S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;
S2.AI平台接收到集群扩容请求后,执行适配测试脚本;
S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;
S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。
2.如权利要求1所述的AI平台的集群扩容异常处理方法,其特征在于,所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。
3.如权利要求1所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S3具体步骤如下:
S31.配置适配测试脚本获取待扩容节点列表,并从待扩容节点列表中获取所有待扩容节点的IP信息,生成待扩容节点IP列表;
S32.配置适配测试脚本遍历待扩容节点IP列表,获取每个待扩容节点的信息,并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求;
若否,适配检测失败,定位待扩容节点的问题;
若是,保存集群扩容前配置,启动扩容脚本进行集群扩容,进入步骤S33;
S33.判断集群扩容是否成功;
若否,进入步骤S4;
若是,进入步骤S34;
S34.AI平台集群提供正常集群服务。
4.如权利要求3所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S32中,启动扩容脚本进行集群扩容通过如下步骤实现:
配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。
5.如权利要求3所述的AI平台的集群扩容异常处理方法,其特征在于,所待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。
6.如权利要求3所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S4具体步骤如下:
S41.集群扩容失败,启动异常处理脚本;
S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常;
若是,进入步骤S43;
若否,进入步骤S44;
S43.配置异常处理脚本判断是否需要恢复原有AI平台集群配置;
若是,进入步骤S44;
若否,返回步骤S34;
S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置。
7.如权利要求6所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S43中,配置异常处理脚本获取测试人员的设置,根据测试人员的设置判断是否需要恢复原有AI平台集群配置。
8.如权利要求6所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S44具体步骤如下:
S441.AI平台集群存在异常的服务单元pod,且异常时长达到设定阈值,配置异常处理脚本进行异常回滚;
S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载;
S443.配置异常处理脚本获取集群扩容前配置,并更新到AI平台集群配置文件;
S444.配置异常处理脚本重启容器组件,重启网络插件恢复节点通信,重启异常服务单元pod,直至AI平台的集群服务恢复正常。
9.如权利要求8所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S444中,配置异常处理脚本定位一个异常服务单元pod进行重启,并判断AI平台集群服务是否恢复正常;
若是,配置异常处理脚本停止异常回滚,返回步骤S34;
若否,配置异常处理脚本定位到下一个异常服务单元pod进行重启。
10.如权利要求8所述的AI平台的集群扩容异常处理方法,其特征在于,所述集群采用kubernetes集群,所述数据采集工具组件采用telegraf数据采集工具,所述网络插件采用calico网络插件;
步骤S441中通过计时器计算服务单元pod的异常时长。
CN202010154804.2A 2020-03-08 2020-03-08 一种ai平台的集群扩容异常处理方法 Active CN111478796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010154804.2A CN111478796B (zh) 2020-03-08 2020-03-08 一种ai平台的集群扩容异常处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010154804.2A CN111478796B (zh) 2020-03-08 2020-03-08 一种ai平台的集群扩容异常处理方法

Publications (2)

Publication Number Publication Date
CN111478796A true CN111478796A (zh) 2020-07-31
CN111478796B CN111478796B (zh) 2022-12-16

Family

ID=71747196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010154804.2A Active CN111478796B (zh) 2020-03-08 2020-03-08 一种ai平台的集群扩容异常处理方法

Country Status (1)

Country Link
CN (1) CN111478796B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925653A (zh) * 2021-05-11 2021-06-08 深圳市安软科技股份有限公司 虚拟化群集扩容方法、相关设备及计算机可读存储介质
CN113438107A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 集群节点的扩展方法、装置、设备及存储介质
CN113949638A (zh) * 2021-08-26 2022-01-18 中铁第四勘察设计院集团有限公司 一种基于云平台的铁路通信系统扩缩容方法和系统
CN115277652A (zh) * 2022-06-29 2022-11-01 北京百度网讯科技有限公司 基于推理服务的流媒体处理方法、装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414584A (zh) * 2013-08-01 2013-11-27 南京邮电大学 一种基于p2p网络技术的计算机集群快速扩容方法
CN108804201A (zh) * 2018-06-07 2018-11-13 郑州云海信息技术有限公司 一种基于云平台的虚拟机数据卷的扩容方法及装置
CN109067867A (zh) * 2018-07-30 2018-12-21 北京航空航天大学 面向数据中心负载监控的虚拟化容器服务弹性伸缩方法
CN109586952A (zh) * 2018-11-07 2019-04-05 广州虎牙信息科技有限公司 服务器扩容方法、装置
CN110519107A (zh) * 2019-09-24 2019-11-29 中盈优创资讯科技有限公司 城域网电路扩容方法及装置
CN110825495A (zh) * 2019-11-08 2020-02-21 北京浪潮数据技术有限公司 一种容器云平台的恢复方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414584A (zh) * 2013-08-01 2013-11-27 南京邮电大学 一种基于p2p网络技术的计算机集群快速扩容方法
CN108804201A (zh) * 2018-06-07 2018-11-13 郑州云海信息技术有限公司 一种基于云平台的虚拟机数据卷的扩容方法及装置
CN109067867A (zh) * 2018-07-30 2018-12-21 北京航空航天大学 面向数据中心负载监控的虚拟化容器服务弹性伸缩方法
CN109586952A (zh) * 2018-11-07 2019-04-05 广州虎牙信息科技有限公司 服务器扩容方法、装置
CN110519107A (zh) * 2019-09-24 2019-11-29 中盈优创资讯科技有限公司 城域网电路扩容方法及装置
CN110825495A (zh) * 2019-11-08 2020-02-21 北京浪潮数据技术有限公司 一种容器云平台的恢复方法、装置、设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925653A (zh) * 2021-05-11 2021-06-08 深圳市安软科技股份有限公司 虚拟化群集扩容方法、相关设备及计算机可读存储介质
CN113438107A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 集群节点的扩展方法、装置、设备及存储介质
CN113949638A (zh) * 2021-08-26 2022-01-18 中铁第四勘察设计院集团有限公司 一种基于云平台的铁路通信系统扩缩容方法和系统
CN115277652A (zh) * 2022-06-29 2022-11-01 北京百度网讯科技有限公司 基于推理服务的流媒体处理方法、装置、电子设备
CN115277652B (zh) * 2022-06-29 2024-03-22 北京百度网讯科技有限公司 基于推理服务的流媒体处理方法、装置、电子设备

Also Published As

Publication number Publication date
CN111478796B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN111478796B (zh) 一种ai平台的集群扩容异常处理方法
WO2022036901A1 (zh) 一种Redis副本集的实现方法及装置
CN107517110B (zh) 一种分布式系统中单板配置自恢复方法及装置
CN104765652B (zh) 一种数据备份和数据恢复方法及装置
CN111352995A (zh) 基于数据库Neo4j的服务器服务方法、系统、设备和存储介质
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
CN112437119B (zh) 分布式系统升级方法、装置及节点
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN111090537B (zh) 集群启动方法、装置、电子设备及可读存储介质
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN112491633B (zh) 一种多节点集群的故障恢复方法、系统及相关组件
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
CN111694516B (zh) 一种分布式块存储系统的版本在线升级方法及终端
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant