CN107612787B - 一种基于Openstack开源云平台的云主机故障检测方法 - Google Patents

一种基于Openstack开源云平台的云主机故障检测方法 Download PDF

Info

Publication number
CN107612787B
CN107612787B CN201711078480.3A CN201711078480A CN107612787B CN 107612787 B CN107612787 B CN 107612787B CN 201711078480 A CN201711078480 A CN 201711078480A CN 107612787 B CN107612787 B CN 107612787B
Authority
CN
China
Prior art keywords
node
computing node
agent
cloud host
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711078480.3A
Other languages
English (en)
Other versions
CN107612787A (zh
Inventor
姜伟
郭长波
宋治海
郇宏达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Easy Star Technology Development Co ltd
Original Assignee
Nanjing Easystack Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Easystack Software Technology Co ltd filed Critical Nanjing Easystack Software Technology Co ltd
Priority to CN201711078480.3A priority Critical patent/CN107612787B/zh
Publication of CN107612787A publication Critical patent/CN107612787A/zh
Application granted granted Critical
Publication of CN107612787B publication Critical patent/CN107612787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于Openstack开源云平台的云主机故障检测方法。所述基于Openstack开源云平台的云主机故障检测方法包括如下步骤:获取需要检测的计算节点,并获取所述计算节点的配置信息;根据所述配置信息,通过Agent获取相对应所述计算节点的状态信息,并将所述状态信息进行汇总;将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果;判断更新后的检测结果中异常节点的数目是否超过容错范围值,如果是,则由人工进行排查处理,如果否,则由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机。

Description

一种基于Openstack开源云平台的云主机故障检测方法
技术领域
本发明属于涉及一种基于Openstack开源云平台的云主机故障检测方法。
背景技术
Openstack最初定位面向公有云,没有考虑节点的高可用问题。理想情况下,在公有云上运行的应用有自己的集群和负载均衡,能在一定程度上容忍节点宕机带来的不可用,并能自动迁移负载。随着Openstack的成熟,越来越多的企业客户开始在自己的私有云里采用Openstack,将企业部署在虚拟化平台上的应用迁移到私有云中,节点高可用的特性需求越发迫切。但社区只提供了一些配合外部检控服务一起工作的机制,并没有提供完整的解决方案。
所谓节点高可用,是指在节点发生硬件故障,如磁盘损坏、CPU温度过高导致宕机、物理网络故障时,自动将该节点关闭,并让其上的虚拟机在剩下的健康节点上重启。在中国的虚拟化市场上,很多企业应用十分依赖于节点的高可用,而缺乏节点高可用的功能已经成为企业实施Openstack平台的一个障碍。
由于Openstack平台部署灵活多样,环境组合各不相同,节点的高可用往往需要充分考虑部署环境的的具体情况定制,所以目前关于节点的高可用,业界并没有统一的解决方法,这也是许多厂商和研究人员努力解决的问题。
发明内容
本发明的目的在于针对现有技术的缺陷,提供一种基于Openstack开源云平台的云主机故障检测方法,其可以解决目前Openstack环境中节点高可用的问题,并且能够有效的地避免因节点故障导致云主机不可用的情况,从而提升产品的用户体验。
本发明的技术方案如下:一种基于Openstack开源云平台的云主机故障检测方法包括如下步骤:获取需要检测的计算节点,并获取所述计算节点的配置信息;根据所述配置信息,通过Agent获取相对应所述计算节点的状态信息,并将所述状态信息进行汇总;将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果;判断更新后的检测结果中异常节点的数目是否超过容错范围值,如果是,则由人工进行排查处理,如果否,则由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机。
优选地,所述配置信息包括计算节点的IPMI地址、认证信息、管理网地址和存储网地址。
优选地,通过Agent获取相对应所述计算节点的状态信息包括如下步骤:检查所述计算节点是否为存储节点;获取所述计算节点所在的可用域;通过IPMI命令查询并判断所述计算节点的电源状态,如果所述计算节点的电源为关闭状态,则直接返回检测信息;如果所述计算节点的电源为正常工作状态,则通过管理网和存储网IP,进行ping操作,查询管理网、存储网的状态,正常则记为Ok,不正常则为Failed;检测所述计算节点的生产网状态,Agent通过安全外壳协议SSH,登录到对应的所述计算节点上,找到所述计算节点用于生产网的网卡,判断所述网卡运行是否正常,如果是,则记为Ok;如果否,则记为Failed;如果网卡无法访问,则记为Unknown。
优选地,将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果的步骤包括如下步骤:将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,判断对比结果是否一致;如果是,则视为有效检测;如果否,则不对本次的检测结果采取操作;更新检测结果。
优选地,由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机的步骤包括如下步骤:执行迁移动作步骤:Agent找出所述异常节点上所有的待迁移云主机,根据nova的调度策略,Agent选择合适的迁移目标节点,执行迁移动作,将所述待迁移云主机迁移到所述迁移目标节点上运行;
执行疏散动作步骤:Agent通过IPMI对所述异常节点执行关机操作,并找出所述异常节点上待疏散云主机,且Agent选择合适的疏散目标节点,执行疏散动作,将所述待疏散云主机迁移到所述疏散目标节点上运行。
优选地,在各个控制节点设置用于根据所述计算节点的状况实现迁移或疏散所述计算节点上云主机的Agent,如果Agent服务运行正常,且日志信息显示正常,则Agent正在持续不断地检测相对应的所述节点的情况。
优选地,当计算节点处于维护模式时,Agent不用检测所述计算节点;当计算节点从维护模式恢复至正常模式时,Agent重新检测所述计算节点。
优选地,通过设置Agent的Ping操作发包间隔和数量、SSH操作的超时时间、及检测触发间隔来调节Agent的灵敏度。
本发明提供的技术方案具有如下有益效果:
所述基于Openstack开源云平台的云主机故障检测方法提出使用Agent检测计算节点状况,并根据检测结果采取一系列操作,避免云主机受到节点故障的影响,保证节点上云主机的正常使用。该发明逻辑条理清晰,操作可靠易行,已在多个局点和平台使用,运行效果良好,很好地解决了因计算节点故障导致云主机不可用的情况,避免了云主机数据的丢失,有效地提升了平台的用户体验。此外,对于计算节点集体故障的情况,本发明还会搜集节点上的日志,并及时通知运维人员,为运维人员排查故障提供信息支持,将故障带来的影响降到最低;
此外,所述基于Openstack开源云平台的云主机故障检测方法还具有如下优势:
1)本发明采用绿色线程检测各计算节点状态,占用资源少,检测时间短,检测结果引入打分机制,并经过对比校验,快速准确可靠;
2)本发明支持用户个性化设置,发明中描述的Agent可以根据配置文件,执行个性化动作,比如检测执行的周期间隔、忽略的检测节点、自动疏散的节点、异常节点的容错数量、Ping操作发包间隔数量、SSH操作超时设置等等,可以满足不同用户的各种需求;
3)本发明提供的计算节点检测方法多种多样,包括节点电源状态、节点的存储网、管理网和生产网的状态,并且考虑到了存储节点存在的情况,为高可用操作提供有力的依据支撑;
4)本发明中描述的Agent可以自动隔离问题节点,提供自动化的云主机迁移和疏散任务,避免因节点故障影响到整个Openstack平台的正常运行;
5)本发明描述的Agent在运行期间,记录并提供详细的日志,可以供运维人员追溯和排查故障;
6)本发明描述的Agent通过Pacemaker实现主从模式,可以使用crm进行管理,对于Openstack的多控制节点的情况使用更加方便,同时也进一步增强了平台的高可用性。
附图说明
图1为本发明实施例提供的基于Openstack开源云平台的云主机故障检测方法的组件部署架构示意图;
图2为本发明实施例提供的基于Openstack开源云平台的云主机故障检测方法的流程框图;
图3为图2所示基于Openstack开源云平台的云主机故障检测方法中动作矩阵的动作对照表。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
如图1所示,是本发明实施例提供的本发明实施例提供的基于Openstack开源云平台的云主机故障检测方法的组件部署架构示意图。其中,在所述组件部署构架中,Agent运行在控制节点群上,通过pacemaker实现active/standby模式,同一时刻只有一个Agent程序运行,并通过各个网络监控各计算节点。在本实施例中,Agent通过Pacemaker实现主从模式,可以使用crm进行管理,对于Openstack的多控制节点的情况使用更加方便,同时也进一步增强了平台的高可用性。
在各个控制节点设置用于根据所述计算节点的状况实现迁移或疏散所述计算节点上云主机的Agent。Agent可以自动隔离问题节点,提供自动化的云主机迁移和疏散任务,避免因节点故障影响到整个Openstack平台的正常运行。而且,根据所述openstack平台对疏散操作的要求,对于疏散云主机的操作是需要云主机在共享存储的环境下创建的;否则疏散得到的云主机,其包含的用户数据等信息会丢失,达不到高可用的目的。
在本实施例中,根据平台特性和环境的具体情况,设置Agent的相关配置项,必选配置项包括Openstack用户平台认证信息,需要检测节点的IPMI认证信息,管理网和存储网ip地址等。
而且,启动Agent,并查看服务运行情况,如果Agent服务异常,则需要查看日志,参考关于Agent的配置项的详细说明,确认配置文件中的各个配置项正确。
如果Agent服务运行正常,且日志信息显示正常,则Agent正在持续不断地检测相对应的所述节点的情况;一旦有计算节点发生异常,Agent就会根据检测结果和动作矩阵,采取相应的措施,迁移或者疏散节点上的云主机。
需要说明的是,对于一些Openstack平台,计算节点高可用是针对整个Region域,而有一些Openstack平台,由于计算节点众多,为了便于管理,分成了不同的可用域,计算节点高可用是针对各个可用域的。对于这些情况,可以通过设置Agent的配置项,在这两种情况之间进行切换。
而且,由于各个平台环境配置差异,包括需求方面的不同,对检测的灵敏度要求也不一样。可以通过设置Agent的Ping操作发包间隔和数量、SSH操作的超时时间、及检测触发间隔来调节Agent的灵敏度。
也就是说,在本实施例中,Agent可以根据配置文件执行个性化动作,例如:检测执行的周期间隔、忽略的检测节点、自动疏散的节点、异常节点的容错数量、Ping操作发包间隔数量、SSH操作超时设置等,从而满足不同用户的各种需求。
具体的,如图2所示,所述基于Openstack开源云平台的云主机故障检测方法包括如下步骤:
一、获取需要检测的计算节点,并获取所述计算节点的配置信息。
在步骤一中,需要获取的所述计算节点的配置信息包括但不限于所述计算节点的IPMI地址、认证信息、管理网地址和存储网地址等。
需要说明的是,需要检测的计算节点包括注册需要检测的节点和需要过滤忽略的节点。
而且,如果计算节点需要维护,例如人为的关闭物理机或者调整网卡,则需要在控制节点将所述计算节点的nova-compute服务置为disable,即将所述计算节点设置成维护模式;
当所述计算节点的维护结束后,再将所述计算节点的nova-compute服务置为enable,从维护模式恢复到正常模式。
在本实施例中,当计算节点处于维护模式时,Agent不用检测所述计算节点;当计算节点从维护模式恢复至正常模式时,Agent重新检测所述计算节点。
二、根据所述配置信息,通过Agent获取相对应所述计算节点的状态信息,并将所述状态信息进行汇总。
具体地,在步骤二中,通过Agent获取相对应所述计算节点的状态信息包括如下步骤:
检查所述计算节点是否为存储节点,一般的,将所述存储节点视为具有存储功能的节点,而没有云主机运行在所述存储节点上;
获取所述计算节点所在的可用域,可用域可以作为信息统计的范围标准,有些情况,需要在各个可用域中统计检测信息,而有些情况需要在整个Region范围内统计检测信息;
通过IPMI命令查询并判断所述计算节点的电源状态,如果所述计算节点的电源为关闭状态,则其他检测信息可以不用再统计,就可以得出节点故障的结论,并直接返回检测信息;如果所述计算节点的电源为正常工作状态,则可以继续进行检测,即通过管理网和存储网IP,进行ping操作,查询管理网、存储网的状态,正常则记为Ok,不正常则为Failed;
检测所述计算节点的生产网状态,Agent通过安全外壳协议SSH,登录到对应的所述计算节点上,找到所述计算节点用于生产网的网卡,判断所述网卡运行是否正常,如果是,则记为Ok;如果否,则记为Failed;如果网卡无法访问,则记为Unknown。
三、将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果。
具体的,在步骤三中,将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果的步骤包括如下步骤:
将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,判断对比结果是否一致;
如果是,则视为有效检测;如果否,则不对本次的检测结果采取操作;
更新检测结果。
需要说明的是,如果本次检测过程汇总的状态信息与上一次检测过程汇总的状态信息不一致,为了保证检测结果的稳定性,则不对本次检测过程的检测结果采取操作,防止意外情况而错误判断。
四、判断更新后的检测结果中异常节点的数目是否超过容错范围值,如果是,则由人工进行排查处理,如果否,则由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机。
具体的,在步骤四中,对于所述检测结果会确认异常节点的节点信息,例如:异常节点的数目、异常节点属于哪个域等。
对于所述容错范围值而言,如果所述异常节点的数目超过了所述容错范围值,则可以认为出现异常的原因属于机房机框的物理服务器发了异常情况,例如集体掉电等。因此,如果所述异常节点的数目超过容错范围值,则需要人工手动去排查处理。
如图3所示,在步骤四中,所述动作矩阵是检测结果对应的动作对应表。所述动作矩阵主要包括五个指标,而且对应动作包括:无操作、迁移、下电、疏散。
而且,在步骤四中,如果所述异常节点的数目没有超过所述容错范围值,则由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机,具体包括如下步骤:
执行迁移动作步骤:Agent找出所述异常节点上所有的待迁移云主机,根据nova的调度策略,Agent选择合适的迁移目标节点,执行迁移动作,将所述待迁移云主机迁移到所述迁移目标节点上运行;
执行疏散动作步骤:Agent通过IPMI对所述异常节点执行关机操作,并找出所述异常节点上待疏散云主机,且Agent选择合适的疏散目标节点,执行疏散动作,将所述待疏散云主机迁移到所述疏散目标节点上运行。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:
将Agent运行在控制节点群上,通过pacemaker实现active/standby模式,使用crm进行管理,同一时刻只有一个Agent程序运行,并通过各个网络监控各计算节点;
所述云主机故障检测方法包括如下步骤:获取需要检测的计算节点,并获取所述计算节点的配置信息;
根据所述配置信息,通过Agent获取相对应所述计算节点的状态信息,并将所述状态信息进行汇总;
将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果;
判断更新后的检测结果中异常节点的数目是否超过容错范围值,如果是,则由人工进行排查处理,如果否,则由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机,并且对于疏散云主机的操作是云主机在共享存储的环境下创建的。
2.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:所述配置信息包括计算节点的IPMI地址、认证信息、管理网地址和存储网地址。
3.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:通过Agent获取相对应所述计算节点的状态信息包括如下步骤:
检查所述计算节点是否为存储节点;
获取所述计算节点所在的可用域;
通过IPMI命令查询并判断所述计算节点的电源状态,如果所述计算节点的电源为关闭状态,则直接返回检测信息;如果所述计算节点的电源为正常工作状态,则通过管理网和存储网IP,进行ping操作,查询管理网、存储网的状态,正常则记为Ok,不正常则为Failed;
检测所述计算节点的生产网状态,Agent通过安全外壳协议SSH,登录到对应的所述计算节点上,找到所述计算节点用于生产网的网卡,判断所述网卡运行是否正常,如果是,则记为Ok;如果否,则记为Failed;如果网卡无法访问,则记为Unknowno
根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,并更新检测结果的步骤包括如下步骤:
将本次检测过程汇总的状态信息与上一次检测过程中汇总的状态信息进行对比,判断对比结果是否一致;
如果是,则视为有效检测;如果否,则不对本次的检测结果采取操作;
更新检测结果。
4.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:由Agent根据动作矩阵执行迁移或者疏散所述异常节点上的云主机的步骤包括如下步骤:
执行迁移动作步骤:Agent找出所述异常节点上所有的待迁移云主机,根据nova的调度策略,Agent选择合适的迁移目标节点,执行迁移动作,将所述待迁移云主机迁移到所述迁移目标节点上运行;
执行疏散动作步骤:Agent通过IPMI对所述异常节点执行关机操作,并找出所述异常节点上待疏散云主机,且Agent选择合适的疏散目标节点,执行疏散动作,将所述待疏散云主机迁移到所述疏散目标节点上运行。
5.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:如果Agent服务运行正常,且日志信息显示正常,则Agent正在持续不断地检测相对应的所述节点的情况。
6.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:当计算节点处于维护模式时,Agent不用检测所述计算节点;当计算节点从维护模式恢复至正常模式时,Agent重新检测所述计算节点。
7.根据权利要求1所述的一种基于Openstack开源云平台的云主机故障检测方法,其特征在于:通过设置Agent的Ping操作发包间隔和数量、SSH操作的超时时间、及检测触发间隔来调节Agent的灵敏度。
CN201711078480.3A 2017-11-06 2017-11-06 一种基于Openstack开源云平台的云主机故障检测方法 Active CN107612787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711078480.3A CN107612787B (zh) 2017-11-06 2017-11-06 一种基于Openstack开源云平台的云主机故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711078480.3A CN107612787B (zh) 2017-11-06 2017-11-06 一种基于Openstack开源云平台的云主机故障检测方法

Publications (2)

Publication Number Publication Date
CN107612787A CN107612787A (zh) 2018-01-19
CN107612787B true CN107612787B (zh) 2021-01-12

Family

ID=61085320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711078480.3A Active CN107612787B (zh) 2017-11-06 2017-11-06 一种基于Openstack开源云平台的云主机故障检测方法

Country Status (1)

Country Link
CN (1) CN107612787B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800052B (zh) * 2018-12-15 2020-11-24 深圳先进技术研究院 应用于分布式容器云平台的异常检测与定位方法及装置
CN110308989A (zh) * 2019-05-31 2019-10-08 中国科学院计算技术研究所 一种针对OpenStack跨数据中心的资源管理装置及方法
CN110519337B (zh) * 2019-08-05 2022-05-17 网宿科技股份有限公司 一种节点状态判断、采集方法及状态决策器、状态采集器
CN110430084A (zh) * 2019-08-20 2019-11-08 济南浪潮数据技术有限公司 节点状态监控方法及装置
CN110708209B (zh) * 2019-08-28 2021-04-13 华云数据控股集团有限公司 虚拟机流量采集方法、装置、电子设备及存储介质
CN110798347B (zh) * 2019-10-25 2022-07-15 北京浪潮数据技术有限公司 服务状态检测方法、装置、设备及存储介质
CN110912755A (zh) * 2019-12-16 2020-03-24 浪潮云信息技术有限公司 一种云环境下网卡故障监控与自动恢复的系统及方法
CN111274135B (zh) * 2020-01-18 2022-07-19 苏州浪潮智能科技有限公司 一种openstack的计算节点高可用测试方法
CN111399978A (zh) * 2020-03-02 2020-07-10 中铁信弘远(北京)软件科技有限责任公司 一种基于OpenStack的故障迁移系统及迁移方法
CN113760610A (zh) * 2020-06-01 2021-12-07 富泰华工业(深圳)有限公司 基于OpenStack的裸机高可用性的实现方法、装置及电子设备
CN112015753B (zh) * 2020-08-31 2023-10-31 北京易捷思达科技发展有限公司 适于容器化部署开源云平台的监控系统和方法
CN113765709B (zh) * 2021-08-23 2022-09-20 中国人寿保险股份有限公司上海数据中心 基于Openstack云平台多维监控的虚拟机高可用实现系统及方法
CN114428709B (zh) * 2022-01-17 2022-08-05 广州鲁邦通物联网科技股份有限公司 一种云管理平台中sds状态检测方法和系统
CN115766382A (zh) * 2022-10-21 2023-03-07 济南浪潮数据技术有限公司 一种基于云计算平台的巡检方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN105426243A (zh) * 2015-11-19 2016-03-23 国云科技股份有限公司 一种基于Openstack的物理机远程维护的方法
US9363190B2 (en) * 2013-07-31 2016-06-07 Manjrasoft Pty. Ltd. System, method and computer program product for energy-efficient and service level agreement (SLA)-based management of data centers for cloud computing
CN106452966A (zh) * 2016-11-02 2017-02-22 河南智业科技发展有限公司 一种OpenStack云桌面的多网关管理的实现方法
CN107018041A (zh) * 2017-03-31 2017-08-04 杭州数梦工场科技有限公司 集群中数据迁移方法和装置
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11483405B2 (en) * 2015-06-10 2022-10-25 Platform9, Inc. Private cloud as a service

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9363190B2 (en) * 2013-07-31 2016-06-07 Manjrasoft Pty. Ltd. System, method and computer program product for energy-efficient and service level agreement (SLA)-based management of data centers for cloud computing
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN105426243A (zh) * 2015-11-19 2016-03-23 国云科技股份有限公司 一种基于Openstack的物理机远程维护的方法
CN106452966A (zh) * 2016-11-02 2017-02-22 河南智业科技发展有限公司 一种OpenStack云桌面的多网关管理的实现方法
CN107018041A (zh) * 2017-03-31 2017-08-04 杭州数梦工场科技有限公司 集群中数据迁移方法和装置
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群

Also Published As

Publication number Publication date
CN107612787A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107612787B (zh) 一种基于Openstack开源云平台的云主机故障检测方法
US20240015083A1 (en) Auto update of sensor configuration
US9946614B2 (en) Methods, systems, and computer readable storage devices for managing faults in a virtual machine network
JP5860497B2 (ja) 複製されたデータインスタンスのためのフェイルオーバーおよび復旧
CN107544839B (zh) 虚拟机迁移系统、方法及装置
US10771323B2 (en) Alarm information processing method, related device, and system
WO2016058307A1 (zh) 资源的故障处理方法及装置
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
CN105808394A (zh) 一种服务器自愈的方法和装置
CN109254922B (zh) 一种服务器BMC Redfish功能的自动化测试方法及装置
CN113285822B (zh) 对网络交换结构的硬件设备进行故障排除的方法和系统
US20150169353A1 (en) System and method for managing data center services
CN108347339B (zh) 一种业务恢复方法及装置
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN112714013B (zh) 一种在云环境下的应用故障定位方法
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
US20160246270A1 (en) Method of controlling a data center architecture equipment
CN105490847A (zh) 一种私有云存储系统中节点故障实时检测及处理方法
TWI698741B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法
US11237892B1 (en) Obtaining data for fault identification
Arefin et al. Cloudinsight: Shedding light on the cloud
CN112994787A (zh) 一种光网络故障判断方法及装置
TW202026882A (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
TWI685736B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(二)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221013

Address after: 100094 107-2, 1st Floor, Building 1, East Yard, No. 10, Xibeiwang East Road, Haidian District, Beijing

Patentee after: Beijing easy Star Technology Development Co.,Ltd.

Address before: 210012 room 109, building 4, No. 168, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee before: NANJING EASYSTACK SOFTWARE TECHNOLOGY CO.,LTD.