CN106126365A

CN106126365A - 云计算节点服务防护方法以及云平台管理系统

Info

Publication number: CN106126365A
Application number: CN201610513716.0A
Authority: CN
Inventors: 汪深海
Original assignee: Shenzhen God Cloud Technology Co Ltd
Current assignee: Shenzhen God Cloud Technology Co Ltd
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-11-16

Abstract

本发明提供一种集成内存转储功能的云计算节点服务防护方法，其包括如下步骤：当计算节点发生故障时，内存转储模块自动启动内存转储功能；在内存转储过程中，所述内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知；所述内存转储监听模块收到所述内存转储通知后，记录所述计算节点正在进行内存转储；当云平台管理模块检测出计算节点发生故障时，查询数据库判断计算节点的内存转储进程，云平台管理模块根据判断结果确定是否重启计算节点。

Description

云计算节点服务防护方法以及云平台管理系统

技术领域

本发明涉及内存转储与云计算领域，特别是集成内存转储的云计算节点服务防护方法和云平台管理系统。

背景技术

内存转储是在系统崩溃时对系统进行内存捕获并保传的技术，在云计算节点中集成内存转储有利虚拟化服务迅速恢复以及为故障原因的分析提供依据。在云计算领域中为了提供高可用的虚拟化服务，需要尽可能地保持计算节点的服务状态。而当计算节点故障不能提供服务时，最简单快捷的方式是将计算节点重新启动起来。但是若在计算节点正在进行内存转储过程中启动，会导致内存转储被破坏，因此亟需解决在何时启动出故障的计算节点的问题。

发明内容

本发明解决的技术问题在于提供集成内存转储的云计算节点服务防护方法和相应的云平台管理系统以解决计算节点的成功内存转储和计算节点的服务恢复问题。

为解决上述计算问题，本发明提供一种集成内存转储功能的云计算节点服务防护方法，其特征在于：包括如下步骤：

当计算节点发生故障时，内存转储模块自动启动内存转储功能，以转储所述计算节点的内存；

在内存转储过程中，所述内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知；

所述内存转储监听模块收到所述内存转储通知后，在数据库中记录所述计算节点正在进行内存转储；

当云平台管理模块检测出所述计算节点发生故障时，查询所述数据库以判断所述计算节点的内存转储进程，并根据判断结果确定是否重启所述计算节点。

优选地，所述当云平台管理模块检测出所述计算节点发生故障时，查询所述数据库以判断所述计算节点的内存转储进程包括：

所述云平台管理模块查询所述数据库以确定所述内存转储监听模块收到所述内存转储通知的时间，若在所述预设时长的2倍时间以内仍收到所述内存转储通知，则所述云平台管理模块判断出所述计算节点正在进行内存转储；若超过所述预设时长的2倍时间没有收到所述内存转储通知时，则所述云平台管理模块判断出所述计算节点的内存转储完毕。

可选地，所述云平台管理模块根据判断结果确定是否重启所述计算节点包括：

若所述云平台管理模块判断出所述计算节点正在进行内存转储，则所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态；若所述云平台管理模块判断出所述计算节点内存转储完毕，则所述云平台管理模块对所述计算节点进行重启。

可选地，所述云计算节点服务防护方法还包括：

当所述云平台管理模块对所述计算节点进行重启后，检测出所述计算节点故障已清除时，所述云平台管理模块将所述计算节点的状态置为服务状态。

优选地，所述预设时长为5秒。

本发明还提供一种能够实现内存转储的云平台管理系统，其包括

内存转储模块，用于当计算节点发生故障时，自动启动内存转储功能，同时每隔预设时长便发送内存转储通知；

内存转储监听模块，用于接受来自所述内存转储模块的所述内存转储通知并且记录所述计算节点正在进行内存转储；

数据库，用于供所述内存转储监听模块记录所述计算节点正在进行内存转储；

云平台管理模块，用于检测所述计算节点是否发生故障，并且当检测出所述计算节点发生故障时查询所述数据库以判断所述计算节点的内存转储进程，根据判断结果确定是否重启所述计算节点。

可选地，所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括：

进一步，所述云平台管理模块根据判断结果确定是否重启所述计算节点包括：

当所述云平台管理模块判断出所述计算节点正在进行内存转储时，所述云平台管理模块将所述计算节点状态置为正在进行内存转储状态；

当所述云平台管理模块判断出所述计算节点内存转储完毕时，所述云平台管理模块对所述计算节点进行重启。

进一步，所述云平台管理模块对所述计算节点进行重启后，检测出所述计算节点故障已清除时，所述云平台管理模块将所述计算节点的状态置为服务状态。

可选地，所述预设时长为5秒。

本发明通过监听计算节点内存转储的过程，利用内存转储的通知是否超过预设时长的汇报，判断计算节点是否已完成内存转储，再确定是否执行重启计算节点的指令以恢复服务。内存转储的好处在于计算节点被重新启动后，能迅速提供虚拟化服务，以及可以为故障原因分析提供依据。本发明在兼容了内存转储功能的基础上，能够做到不影响内存转储过程而对计算节点进行服务恢复；其次，本发明整个过程中，均是由系统自动完成，运维人员只需在计算节点故障后，查阅内存转储的结果判断故障原因，以避免同样故障原因的发生，所以本发明也在很大程度上减少了运维方面的工作。

附图说明

图1为本发明方法的流程图；

图2为本发明系统的结构图。

具体实施方式

如图1所示，本发明的集成内存转储功能的云计算节点服务防护方法，包括：

S101：当计算节点发生故障时，内存转储模块自动启动内存转储功能，以转储所述计算节点的内存(计算节点的内存被保存在本地磁盘上)；

S102：在内存转储过程中，内存转储模块每隔预设时长便向内存转储监听模块发送内存转储通知；

S103：内存转储监听模块收到内存转储通知后，在数据库中记录计算节点正在进行内存转储；

S104：当云平台管理模块检测出计算节点发生故障时，查询数据库以判断计算节点的内存转储进程，并根据判断结果确定是否重启计算节点。其中，云平台管理模块会定时轮询计算节点以检测计算节点是否处于正常服务状态。

预设时长可以为5秒至20秒以内，进一步优选为5秒至10秒。

内存转储模块安装在计算节点中，其使用kdump内存转储机制来自动转储发生故障的计算节点的内存。kdump是在系统崩溃、死锁或者死机的时候用来转储内存运行参数的一个工具和服务，如果系统一旦崩溃那么正常的内核就没有办法工作了，在这个时候将由kdump产生一个用于捕捉当前运行信息的内核。

其中，当内存转储监听模块收到内存转储通知而在数据库中记录计算节点正在进行内存转储的消息时，也会在数据库中记录下内存转储通知的接收时间。

进一步，在步骤S104中，云平台管理模块查询数据库以确定内存转储监听模块收到内存转储通知的时间，若在预设时长的2倍时间以内仍收到内存转储通知，则云平台管理模块判断出计算节点正在进行内存转储；若超过预设时长的2倍时间没有收到内存转储通知时，则云平台管理模块判断出计算节点的内存转储已经结束；

在上述判断结果的基础上，若云平台管理模块判断出计算节点正在进行内存转储，则云平台管理模块将计算节点状态置为正在进行内存转储状态；若云平台管理模块判断出计算节点内存转储已经结束，则云平台管理模块对计算节点进行重启。应予说明，当云平台管理模块判断出计算节点的内存转储还未结束时，除了将计算节点状态置为正在进行内存转储状态以外，还会继续等待下一个查询数据库的周期直到判断出计算节点的内存转储已经结束。

进一步，当云平台管理模块对计算节点进行重启后，检测出计算节点故障已清除时，具体来说，当云平台管理模块确认计算节点虚拟化服务的连接通信后，将计算节点的状态置为服务状态并清除计算节点此前的正在进行内存转储的消息记录，至此，整个计算节点防护过程结束。

采用本发明的集成内存转储功能的云计算节点服务防护方法，通过监听计算节点内存转储的过程，利用内存转储的通知是否超过预设时长的汇报来判断计算节点的内存转储是否结束，能够做到不影响内存转储过程而对计算节点进行恢复；当计算节点被重新启动后，能迅速提供虚拟化服务，并可以为故障原因分析提供依据。并且，整个计算节点的服务防护方法，高度智能化，极大减少了人工成本。

预设时长可以为5秒至20秒以内，进一步优选为5秒至10秒。

所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括：

采用本发明的云平台管理系统，其集成了内存转储功能，能够对故障的计算节点进行快速重新启动从而进行服务防护；并且可以使得服务迅速恢复从而减少了时间成本，进一步还可以使得运维人员分析故障发生原因，从而减少了故障再次发生的概率。其次，由于该云平台管理系统做到了高度智能化，也能够减少人工成本。

以上所揭露的仅为本发明的较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种集成内存转储功能的云计算节点服务防护方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的集成内存转储的云计算节点服务防护方法，其特征在于：所述当云平台管理模块检测出所述计算节点发生故障时，查询所述数据库以判断所述计算节点的内存转储进程包括：

3.根据权利要求2所述的集成内存转储功能的云计算节点服务防护方法，其特征在于，所述云平台管理模块根据判断结果确定是否重启所述计算节点包括：

4.根据权利要求3所述的集成内存转储功能的云计算节点服务防护方法，其特征在于，所述云计算节点服务防护方法还包括：

5.根据权利要求1至4中任一项所述的集成内存转储的云计算节点服务防护方法，其特征在于：所述预设时长为5秒。

6.一种能够实现内存转储的云平台管理系统，其特征在于：包括

7.根据权利要求6所述的云平台管理系统，其特征在于，所述云平台管理模块查询所述数据库以判断所述计算节点的内存转储进程包括：

8.根据权利要求7所述的云平台管理系统，其特征在于，所述云平台管理模块根据判断结果确定是否重启所述计算节点包括：

9.根据权利要求8所述的云平台管理系统，其特征在于，

所述云平台管理模块对所述计算节点进行重启后，检测出所述计算节点故障已清除时，所述云平台管理模块将所述计算节点的状态置为服务状态。

10.根据权利要求6至9中任一项所述的云平台管理系统，其特征在于，所述预设时长为5秒。