CN106126365A - 云计算节点服务防护方法以及云平台管理系统 - Google Patents

云计算节点服务防护方法以及云平台管理系统 Download PDF

Info

Publication number
CN106126365A
CN106126365A CN201610513716.0A CN201610513716A CN106126365A CN 106126365 A CN106126365 A CN 106126365A CN 201610513716 A CN201610513716 A CN 201610513716A CN 106126365 A CN106126365 A CN 106126365A
Authority
CN
China
Prior art keywords
core dump
cloud platform
node
dump
platform management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610513716.0A
Other languages
English (en)
Inventor
汪深海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen God Cloud Technology Co Ltd
Original Assignee
Shenzhen God Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen God Cloud Technology Co Ltd filed Critical Shenzhen God Cloud Technology Co Ltd
Priority to CN201610513716.0A priority Critical patent/CN106126365A/zh
Publication of CN106126365A publication Critical patent/CN106126365A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种集成内存转储功能的云计算节点服务防护方法,其包括如下步骤:当计算节点发生故障时,内存转储模块自动启动内存转储功能;在内存转储过程中,所述内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知;所述内存转储监听模块收到所述内存转储通知后,记录所述计算节点正在进行内存转储;当云平台管理模块检测出计算节点发生故障时,查询数据库判断计算节点的内存转储进程,云平台管理模块根据判断结果确定是否重启计算节点。

Description

云计算节点服务防护方法以及云平台管理系统
技术领域
本发明涉及内存转储与云计算领域,特别是集成内存转储的云计算节点服务防护方法和云平台管理系统。
背景技术
内存转储是在系统崩溃时对系统进行内存捕获并保传的技术,在云计算节点中集成内存转储有利虚拟化服务迅速恢复以及为故障原因的分析提供依据。在云计算领域中为了提供高可用的虚拟化服务,需要尽可能地保持计算节点的服务状态。而当计算节点故障不能提供服务时,最简单快捷的方式是将计算节点重新启动起来。但是若在计算节点正在进行内存转储过程中启动,会导致内存转储被破坏,因此亟需解决在何时启动出故障的计算节点的问题。
发明内容
本发明解决的技术问题在于提供集成内存转储的云计算节点服务防护方法和相应的云平台管理系统以解决计算节点的成功内存转储和计算节点的服务恢复问题。
为解决上述计算问题,本发明提供一种集成内存转储功能的云计算节点服务防护方法,其特征在于:包括如下步骤:
当计算节点发生故障时,内存转储模块自动启动内存转储功能,以转储所述计算节点的内存;
在内存转储过程中,所述内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知;
所述内存转储监听模块收到所述内存转储通知后,在数据库中记录所述计算节点正在进行内存转储;
当云平台管理模块检测出所述计算节点发生故障时,查询所述数据库以判断所述计算节点的内存转储进程,并根据判断结果确定是否重启所述计算节点。
优选地,所述当云平台管理模块检测出所述计算节点发生故障时,查询所述数据库以判断所述计算节点的内存转储进程包括:
所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间,若在所述预设时长的2倍时间以内仍收到所述内存转储通知,则所述云平台管理模块判断出所述计算节点正在进行内存转储;若超过所述预设时长的2倍时间没有收到所述内存转储通知时,则所述云平台管理模块判断出所述计算节点的内存转储完毕。
可选地,所述云平台管理模块根据判断结果确定是否重启所述计算节点包括:
若所述云平台管理模块判断出所述计算节点正在进行内存转储,则所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态;若所述云平台管理模块判断出所述计算节点内存转储完毕,则所述云平台管理模块对所述计算节点进行重启。
可选地,所述云计算节点服务防护方法还包括:
当所述云平台管理模块对所述计算节点进行重启后,检测出所述计算节点故障已清除时,所述云平台管理模块将所述计算节点的状态置为服务状态。
优选地,所述预设时长为5秒。
本发明还提供一种能够实现内存转储的云平台管理系统,其包括
内存转储模块,用于当计算节点发生故障时,自动启动内存转储功能,同时每隔预设时长便发送内存转储通知;
内存转储监听模块,用于接受来自所述内存转储模块的所述内存转储通知并且记录所述计算节点正在进行内存转储;
数据库,用于供所述内存转储监听模块记录所述计算节点正在进行内存转储;
云平台管理模块,用于检测所述计算节点是否发生故障,并且当检测出所述计算节点发生故障时查询所述数据库以判断所述计算节点的内存转储进程,根据判断结果确定是否重启所述计算节点。
可选地,所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括:
所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间,若在所述预设时长的2倍时间以内仍收到所述内存转储通知,则所述云平台管理模块判断出所述计算节点正在进行内存转储;若超过所述预设时长的2倍时间没有收到所述内存转储通知时,则所述云平台管理模块判断出所述计算节点的内存转储完毕。
进一步,所述云平台管理模块根据判断结果确定是否重启所述计算节点包括:
当所述云平台管理模块判断出所述计算节点正在进行内存转储时,所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态;
当所述云平台管理模块判断出所述计算节点内存转储完毕时,所述云平台管理模块对所述计算节点进行重启。
进一步,所述云平台管理模块对所述计算节点进行重启后,检测出所述计算节点故障已清除时,所述云平台管理模块将所述计算节点的状态置为服务状态。
可选地,所述预设时长为5秒。
本发明通过监听计算节点内存转储的过程,利用内存转储的通知是否超过预设时长的汇报,判断计算节点是否已完成内存转储,再确定是否执行重启计算节点的指令以恢复服务。内存转储的好处在于计算节点被重新启动后,能迅速提供虚拟化服务,以及可以为故障原因分析提供依据。本发明在兼容了内存转储功能的基础上,能够做到不影响内存转储过程而对计算节点进行服务恢复;其次,本发明整个过程中,均是由系统自动完成,运维人员只需在计算节点故障后,查阅内存转储的结果判断故障原因,以避免同样故障原因的发生,所以本发明也在很大程度上减少了运维方面的工作。
附图说明
图1为本发明方法的流程图;
图2为本发明系统的结构图。
具体实施方式
如图1所示,本发明的集成内存转储功能的云计算节点服务防护方法,包括:
S101:当计算节点发生故障时,内存转储模块自动启动内存转储功能,以转储所述计算节点的内存(计算节点的内存被保存在本地磁盘上);
S102:在内存转储过程中,内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知;
S103:内存转储监听模块收到内存转储通知后,在数据库中记录计算节点正在进行内存转储;
S104:当云平台管理模块检测出计算节点发生故障时,查询数据库以判断计算节点的内存转储进程,并根据判断结果确定是否重启计算节点。其中,云平台管理模块会定时轮询计算节点以检测计算节点是否处于正常服务状态。
预设时长可以为5秒至20秒以内,进一步优选为5秒至10秒。
内存转储模块安装在计算节点中,其使用kdump内存转储机制来自动转储发生故障的计算节点的内存。kdump是在系统崩溃、死锁或者死机的时候用来转储内存运行参数的一个工具和服务,如果系统一旦崩溃那么正常的内核就没有办法工作了,在这个时候将由kdump产生一个用于捕捉当前运行信息的内核。
其中,当内存转储监听模块收到内存转储通知而在数据库中记录计算节点正在进行内存转储的消息时,也会在数据库中记录下内存转储通知的接收时间。
进一步,在步骤S104中,云平台管理模块查询数据库以确定内存转储监听模块收到内存转储通知的时间,若在预设时长的2倍时间以内仍收到内存转储通知,则云平台管理模块判断出计算节点正在进行内存转储;若超过预设时长的2倍时间没有收到内存转储通知时,则云平台管理模块判断出计算节点的内存转储已经结束;
在上述判断结果的基础上,若云平台管理模块判断出计算节点正在进行内存转储,则云平台管理模块将计算节点状态置为正在进行内存转储状态;若云平台管理模块判断出计算节点内存转储已经结束,则云平台管理模块对计算节点进行重启。应予说明,当云平台管理模块判断出计算节点的内存转储还未结束时,除了将计算节点状态置为正在进行内存转储状态以外,还会继续等待下一个查询数据库的周期直到判断出计算节点的内存转储已经结束。
进一步,当云平台管理模块对计算节点进行重启后,检测出计算节点故障已清除时,具体来说,当云平台管理模块确认计算节点虚拟化服务的连接通信后,将计算节点的状态置为服务状态并清除计算节点此前的正在进行内存转储的消息记录,至此,整个计算节点防护过程结束。
采用本发明的集成内存转储功能的云计算节点服务防护方法,通过监听计算节点内存转储的过程,利用内存转储的通知是否超过预设时长的汇报来判断计算节点的内存转储是否结束,能够做到不影响内存转储过程而对计算节点进行恢复;当计算节点被重新启动后,能迅速提供虚拟化服务,并可以为故障原因分析提供依据。并且,整个计算节点的服务防护方法,高度智能化,极大减少了人工成本。
本发明还提供一种能够实现内存转储的云平台管理系统,其包括
内存转储模块,用于当计算节点发生故障时,自动启动内存转储功能,同时每隔预设时长便发送内存转储通知;
内存转储监听模块,用于接受来自所述内存转储模块的所述内存转储通知并且记录所述计算节点正在进行内存转储;
数据库,用于供所述内存转储监听模块记录所述计算节点正在进行内存转储;
云平台管理模块,用于检测所述计算节点是否发生故障,并且当检测出所述计算节点发生故障时查询所述数据库以判断所述计算节点的内存转储进程,根据判断结果确定是否重启所述计算节点。
预设时长可以为5秒至20秒以内,进一步优选为5秒至10秒。
所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括:
所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间,若在所述预设时长的2倍时间以内仍收到所述内存转储通知,则所述云平台管理模块判断出所述计算节点正在进行内存转储;若超过所述预设时长的2倍时间没有收到所述内存转储通知时,则所述云平台管理模块判断出所述计算节点的内存转储完毕。
当所述云平台管理模块判断出所述计算节点正在进行内存转储时,所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态;
当所述云平台管理模块判断出所述计算节点内存转储完毕时,所述云平台管理模块对所述计算节点进行重启。
当所述云平台管理模块对所述计算节点进行重启后,检测出所述计算节点故障已清除时,所述云平台管理模块将所述计算节点的状态置为服务状态。
采用本发明的云平台管理系统,其集成了内存转储功能,能够对故障的计算节点进行快速重新启动从而进行服务防护;并且可以使得服务迅速恢复从而减少了时间成本,进一步还可以使得运维人员分析故障发生原因,从而减少了故障再次发生的概率。其次,由于该云平台管理系统做到了高度智能化,也能够减少人工成本。
以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种集成内存转储功能的云计算节点服务防护方法,其特征在于:包括如下步骤:
当计算节点发生故障时,内存转储模块自动启动内存转储功能,以转储所述计算节点的内存;
在内存转储过程中,所述内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知;
所述内存转储监听模块收到所述内存转储通知后,在数据库中记录所述计算节点正在进行内存转储;
当云平台管理模块检测出所述计算节点发生故障时,查询所述数据库以判断所述计算节点的内存转储进程,并根据判断结果确定是否重启所述计算节点。
2.根据权利要求1所述的集成内存转储的云计算节点服务防护方法,其特征在于:所述当云平台管理模块检测出所述计算节点发生故障时,查询所述数据库以判断所述计算节点的内存转储进程包括:
所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间,若在所述预设时长的2倍时间以内仍收到所述内存转储通知,则所述云平台管理模块判断出所述计算节点正在进行内存转储;若超过所述预设时长的2倍时间没有收到所述内存转储通知时,则所述云平台管理模块判断出所述计算节点的内存转储完毕。
3.根据权利要求2所述的集成内存转储功能的云计算节点服务防护方法,其特征在于,所述云平台管理模块根据判断结果确定是否重启所述计算节点包括:
若所述云平台管理模块判断出所述计算节点正在进行内存转储,则所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态;若所述云平台管理模块判断出所述计算节点内存转储完毕,则所述云平台管理模块对所述计算节点进行重启。
4.根据权利要求3所述的集成内存转储功能的云计算节点服务防护方法,其特征在于,所述云计算节点服务防护方法还包括:
当所述云平台管理模块对所述计算节点进行重启后,检测出所述计算节点故障已清除时,所述云平台管理模块将所述计算节点的状态置为服务状态。
5.根据权利要求1至4中任一项所述的集成内存转储的云计算节点服务防护方法,其特征在于:所述预设时长为5秒。
6.一种能够实现内存转储的云平台管理系统,其特征在于:包括
内存转储模块,用于当计算节点发生故障时,自动启动内存转储功能,同时每隔预设时长便发送内存转储通知;
内存转储监听模块,用于接受来自所述内存转储模块的所述内存转储通知并且记录所述计算节点正在进行内存转储;
数据库,用于供所述内存转储监听模块记录所述计算节点正在进行内存转储;
云平台管理模块,用于检测所述计算节点是否发生故障,并且当检测出所述计算节点发生故障时查询所述数据库以判断所述计算节点的内存转储进程,根据判断结果确定是否重启所述计算节点。
7.根据权利要求6所述的云平台管理系统,其特征在于,所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括:
所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间,若在所述预设时长的2倍时间以内仍收到所述内存转储通知,则所述云平台管理模块判断出所述计算节点正在进行内存转储;若超过所述预设时长的2倍时间没有收到所述内存转储通知时,则所述云平台管理模块判断出所述计算节点的内存转储完毕。
8.根据权利要求7所述的云平台管理系统,其特征在于,所述云平台管理模块根据判断结果确定是否重启所述计算节点包括:
当所述云平台管理模块判断出所述计算节点正在进行内存转储时,所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态;
当所述云平台管理模块判断出所述计算节点内存转储完毕时,所述云平台管理模块对所述计算节点进行重启。
9.根据权利要求8所述的云平台管理系统,其特征在于,
所述云平台管理模块对所述计算节点进行重启后,检测出所述计算节点故障已清除时,所述云平台管理模块将所述计算节点的状态置为服务状态。
10.根据权利要求6至9中任一项所述的云平台管理系统,其特征在于,所述预设时长为5秒。
CN201610513716.0A 2016-07-04 2016-07-04 云计算节点服务防护方法以及云平台管理系统 Pending CN106126365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610513716.0A CN106126365A (zh) 2016-07-04 2016-07-04 云计算节点服务防护方法以及云平台管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610513716.0A CN106126365A (zh) 2016-07-04 2016-07-04 云计算节点服务防护方法以及云平台管理系统

Publications (1)

Publication Number Publication Date
CN106126365A true CN106126365A (zh) 2016-11-16

Family

ID=57468149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610513716.0A Pending CN106126365A (zh) 2016-07-04 2016-07-04 云计算节点服务防护方法以及云平台管理系统

Country Status (1)

Country Link
CN (1) CN106126365A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100083043A1 (en) * 2008-10-01 2010-04-01 Fujitsu Limited Information processing device, recording medium that records an operation state monitoring program, and operation state monitoring method
CN104331353A (zh) * 2014-10-17 2015-02-04 云南远信数通科技有限公司 软件高可用保证的方法
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100083043A1 (en) * 2008-10-01 2010-04-01 Fujitsu Limited Information processing device, recording medium that records an operation state monitoring program, and operation state monitoring method
CN104331353A (zh) * 2014-10-17 2015-02-04 云南远信数通科技有限公司 软件高可用保证的方法
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及系统

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN101800675B (zh) 故障监控方法、监控设备及通信系统
CN100421393C (zh) 识别网络故障节点的方法
CN102088470A (zh) 通信系统中文件传输协议死锁检测及自恢复的方法与装置
CN104539811A (zh) 终端的防盗方法和移动终端
CN107404522B (zh) 一种跨节点的虚拟机集群高可用实现方法和装置
CN101980171B (zh) 一种软件系统故障自恢复方法及其使用的软件看门狗系统
CN102404141B (zh) 一种告警抑制的方法及装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN106656604A (zh) 微服务请求管理方法、微服务控制器及高并发微服务架构
CN108776579B (zh) 一种分布式存储集群扩容方法、装置、设备及存储介质
CN103414916A (zh) 一种故障诊断系统及方法
CN109194744B (zh) 一种数据传输方法、装置、存储介质及监测设备
CN101989933A (zh) 一种故障检测的方法和系统
EP2930995B1 (en) Terminal peripheral management method and m2m gateway
WO2020078355A1 (zh) 设备状态监控方法及装置
CN103870349B (zh) 用于数据处理系统的配置管理装置及方法
CN106126365A (zh) 云计算节点服务防护方法以及云平台管理系统
CN112650624A (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN102073523A (zh) 实现软件版本同步的方法及装置
TWI702157B (zh) 電動運具之充電設備、自動排除故障的方法及電腦程式產品
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN103532748B (zh) 一种drbd脑裂的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20191122

AD01 Patent right deemed abandoned