CN105245381B

CN105245381B - 云服务器宕机监控迁移系统和方法

Info

Publication number: CN105245381B
Application number: CN201510690056.9A
Authority: CN
Inventors: 侯亚辉
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Wuhan Changjiang Computing Technology Co., Ltd
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2019-08-16
Anticipated expiration: 2035-10-22
Also published as: CN105245381A

Abstract

本发明公开了一种云服务器宕机监控迁移系统和方法，包括：宕机监控单元包括相互独立的主控节点监控模块和计算节点监控模块，主控节点监控模块实时监控主控节点及计算节点的运行参数和网络的连接状态，当运行参数或网络连接状态达到各自对应的自定义阈值时，主控或计算节点监控模块通过消息传输单元向报警信息接收单元发送报警信息和/或向迁移执行单元发送云服务器迁移指令。本发明通过可调控的自定义预警阀值，对虚拟云服务器所在的物理机进行全局监控，并且对故障物理机中部署的客户的虚拟云服务器进行自动化迁移，为客户带来高效率、高可用、高保障的服务。

Description

云服务器宕机监控迁移系统和方法

技术领域

本发明涉及虚拟机技术领域，尤其涉及一种云服务器宕机监控迁移系统和方法。

背景技术

传统的云服务商监控云平台是依靠人工运维方式对虚拟云服务器所在的物理机的运行情况进行监控，当监控平台检测到问题物理机并报警后，采用人工的方式将虚拟云服务器从故障物理机迁移到目标物理机或其他处理。人工运维方式会产生延迟，不能做到及时处理。并且传统的云服务商监控平台的Compute(计算节点)监控会设置一个固定的、不可更改的预警阀值，但是，当被监控的服务器运行参数并未达到报警阀值时可能已经对客户的使用产生不良影响，例如，CPU使用率的监控阀值为80％，当某服务器的CPU平均使用率为75％时，监控系统不会报出任何异常或报警信息提醒运维人员，这时，很有可能用户是第一发现者，然后再与服务商联系，服务商再根据客户提供的信息对其服务器进行检查，在这期间浪费了大量的时间，大大降低了虚拟云服务器的运营稳定性、可靠性及客户的使用体验，让客户蒙受巨大损失。

发明内容

本发明的目的是为解决目前对虚拟云服务器的物理机大多采用人工运维方式监控，存在监控阈值不可调且反馈监控结果延时长，导致虚拟云服务器的运营稳定性、可靠性及客户的使用体验差的技术问题。

为了解决上述技术问题，一方面，本发明提供一种云服务器宕机监控迁移系统，包括宕机监控单元、消息传输单元、报警信息接收单元和迁移执行单元，所述宕机监控单元包括相互独立的主控节点监控模块和计算节点监控模块，所述主控节点监控模块和所述计算节点监控模块的输出端分别连接到所述消息传输单元的输入端，所述消息传输单元的输出端分别连接到所述报警信息接收单元和所述迁移执行单元的输入端；

所述主控节点监控模块适于实时监控主控节点及计算节点的运行参数和网络的连接状态，当所述运行参数或所述网络连接状态达到各自对应的自定义阈值时，所述主控节点监控模块通过所述消息传输单元向所述报警信息接收单元发送报警信息和/或向所述迁移执行单元发送云服务器迁移指令；

所述计算节点监控模块适于实时监控计算节点的运行参数，当所述运行参数达到各自对应的自定义阈值时，所述计算节点监控模块通过所述消息传输单元向所述报警信息接收单元发送报警信息和/或向所述迁移执行单元发送云服务器迁移指令。

进一步地，所述消息传输单元基于RabbitMQ进行消息传输。

进一步地，所述运行参数达到各自对应的所述自定义阈值后，还需维持一定时间T，所述主控节点监控模块或计算节点监控模块才通过所述消息传输单元向所述报警信息接收单元发送报警信息和/或向所述迁移执行单元发送云服务器迁移指令。

进一步地，所述运行参数包括CPU使用率、CPU负载、内存使用率、内存负载、磁盘空间、磁盘I/O数量和系统进程数中的一种或多种。

进一步地，所述CPU使用率对应的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

进一步地，所述内存使用率的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

进一步地，所述网络连接状态包括网络流量和/或网络超时时间。

进一步地，所述网络超时时间为1-3分钟。

另一方面，本发明提供一种云服务器宕机监控迁移方法，包括如下步骤：

(1)监控主控节点的运行参数及网络连接状态和/或监控计算节点的运行参数；

(2)将所述运行参数或网络连接状态与各自对应的自定义阈值进行比较，若所述运行参数或网络连接状态达到各自对应的所述自定义阈值时，则继续到下一步；若未达到，则重复本比较步骤；

(3)向客户端发送报警信息和/或指示客户端执行云服务器自动迁移指令，将所述云服务器从宕机的物理机迁移至目标物理机。

进一步地，步骤(2)中所述运行参数达到各自对应的所述自定义阈值后，还需维持一定时间T，才继续到所述步骤(3)。

进一步地，步骤(2)中所述运行参数包括CPU使用率、CPU负载、内存使用率、内存负载、磁盘空间、磁盘I/O数量和系统进程数中的一种或多种。

进一步地，步骤(2)中所述网络连接状态包括网络流量和/或网络超时时间。

进一步地，所述网络超时时间为1-3分钟。

进一步地，步骤(3)所述执行云服务器自动迁移指令，当在所述宕机的物理机与所述目标物理机之间共享存储器且存在千兆以太网时，进行热迁移；否则，进行冷迁移。

本发明通过可调控的自定义预警阀值，对虚拟云服务器所在的物理机进行全局监控，对故障问题进行判断，将故障预警信息第一时间告知运维人员，并且对故障物理机中部署的客户的虚拟云服务器进行自动化迁移，保障客户业务的零中断，不仅提高服务提供者遇到故障问题的快速响应能力，也最大限度地保障了客户业务的连续性，将服务提供者和客户因此次故障所带来的损失降到最低。运维人员在接到故障预警消息后，无需进行二次排查，系统会将自动排查的信息告知运维人员，运维人员仅需要根据故障预警消息采取针对性的措施，大大提升了运维人员的工作效率以及服务器排障速度，为客户带来高效率、高可用、高保障的服务，让客户真正的体验到云平台给他们带来的服务与保障的稳定性和可靠性，用户的使用体验非常好。

附图说明

图1为本发明所述系统的实施例的原理框图；

图2为本发明所述方法的流程图；

图3为本发明所述方法一个实施例的流程图；

图4为本发明所述方法另一个实施例的流程图；

图5为本发明所述方法又一个实施例的流程图；

图6a为云服务器迁移前的云平台结构示意图；

图6b为云服务器迁移后的云平台结构示意图。

具体实施方式

现在结合附图和实施例对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成，且其不应理解为对本发明的限制。

如图1所示的实施例，本发明的云服务器宕机监控及迁移系统，包括宕机监控单元Monitor、消息传输单元RabbitMQ、报警信息接收单元Consumer和迁移执行单元Save，消息传输单元RabbitMQ是基于UDP(User Datagram Protocol，用户数据报协议)的RabbitMQ(Rabbit Message Queue,Rabbit消息队列)的监控模块与客户端之间的信息传输通道，宕机监控单元Monitor包括相互独立的主控节点监控模块Controller和计算节点监控模块Compute，主控节点监控模块Controller和计算节点监控模块Compute的输出端分别连接到消息传输单元RabbitMQ的输入端，消息传输单元RabbitMQ的输出端分别连接到报警信息接收单元Consumer和迁移执行单元Save的输入端；

主控节点监控模块Controller适于实时监控主控节点及计算节点的运行参数和网络的连接状态，当运行参数或网络连接状态达到各自对应的自定义阈值时，主控节点监控模块Controller通过消息传输单元RabbitMQ向报警信息接收单元Consumer发送报警信息和/或向迁移执行单元Save发送云服务器迁移指令；

计算节点监控模块Compute适于实时监控计算节点的运行参数，当运行参数达到各自对应的自定义阈值时，计算节点监控模块Compute通过消息传输单元RabbitMQ向报警信息接收单元Consumer发送报警信息和/或向迁移执行单元Save发送云服务器迁移指令。

优选地，运行参数达到各自对应的自定义阈值后，还需维持一定时间T，主控节点监控模块Controller或计算节点监控模块Compute才通过消息传输单元RabbitMQ向报警信息接收单元Consumer发送报警信息和/或向迁移执行单元Save发送云服务器迁移指令。

优选地，运行参数可为CPU使用率、CPU负载、内存使用率、内存负载、磁盘空间、磁盘I/O数量和系统进程数中的一种或多种，其中CPU使用率和内存使用率对应的自定义阈值可为60％-80％，维持时间T可为5-15分钟。

优选地，网络连接状态可为网络流量和网络超时时间中的一种或两种，其中网络超时时间可为1-3分钟，网络流量可与该流量的维持时间结合作为判断条件。

如图2所示的实施例，本发明的云服务器宕机监控及迁移方法，包括如下步骤：

S100、监控主控节点的运行参数及网络连接状态，和/或

S105、监控计算节点的运行参数；

S110、将主控节点的运行参数或计算节点的运行参数或主控节点的网络连接状态与各自对应的自定义阈值进行比较，若主控节点的运行参数或计算节点的运行参数或主控节点的网络连接状态达到各自对应的自定义阈值时，则继续到下一步；若未达到，则重复本比较步骤；

S120、向客户端发送报警信息和/或指示客户端执行云服务器自动迁移指令，将云服务器从宕机的物理机迁移至目标物理机。

如图3所示的实施例，本发明的云服务器宕机监控及迁移方法，包括如下步骤：

S200、监控主控节点的CPU使用率；

S210、若主控节点的CPU使用率达到60％，则继续到下一步；若未达到，则重复本步骤；

S220、若主控节点的CPU使用率达到60％的维持时间达到15分钟，则继续到下一步；若未达到，则重复本步骤；

S230、以RabbitMQ形式向客户端发送手机短信和/或电子邮件报警信息；

S240、若宕机的物理机与目标物理机之间共享存储器且存在千兆以太网，则继续到下一步；否则，转到步骤S246；

S245、将虚拟云服务器从宕机的物理机热迁移到目标物理机；

S246、将虚拟云服务器从宕机的物理机冷迁移到目标物理机。

如图4所示的实施例，本发明的云服务器宕机监控及迁移方法，包括如下步骤：

S300、监控计算节点的内存使用率；

S310、若计算节点的内存使用率达到80％，则继续到下一步；若未达到，则重复本步骤；

S320、若计算节点的内存使用率达到80％的维持时间达到5分钟，则继续到下一步；若未达到，则重复本步骤；

S330、以RabbitMQ形式向客户端发送手机短信和/或电子邮件报警信息；

S340、若宕机的物理机与目标物理机之间共享存储器且存在千兆以太网，则继续到下一步；否则，转到步骤S346；

S345、将虚拟云服务器从宕机的物理机热迁移到目标物理机；

S346、将虚拟云服务器从宕机的物理机冷迁移到目标物理机。

如图5所示的实施例，本发明的云服务器宕机监控及迁移方法，包括如下步骤：

S400、监控主控节点的外网或内网或存储网的网络状态；

S410、若主控节点的外网或内网或存储网的网络超时达到3分钟，则继续到下一步；若未达到，则重复本步骤；

S430、以RabbitMQ形式向客户端发送手机短信和/或电子邮件报警信息；

S440、若宕机的物理机与目标物理机之间共享存储器且存在千兆以太网，则继续到下一步；否则，转到步骤S446；

S445、将虚拟云服务器从宕机的物理机热迁移到目标物理机；

S446、将虚拟云服务器从宕机的物理机冷迁移到目标物理机。

如图6a所示，假设某用户的虚拟云服务器为P，云平台采用的是Ceph存储，产生出P1、P2和P3三份备份数据，该用户的虚拟云服务器P正常运行在物理机A中，物理机A、B、C……Z之间通过网络连接，且具有共享存储资源池。如图6b所示，当物理机A存在故障或异常时(图6b中物理机A上的标记“×”表示存在故障或异常)，宕机监控单元Monitor会将物理机A的故障或异常消息立刻以RabbitMQ形式发送到报警信息接收单元Consumer中，该消息可为手机短信或电子邮件，并在瞬间将客户的虚拟云服务器为P从故障或异常的物理机A迁移到目标物理机B中继续运行，如图6b中所示的网络为千兆以太网，则该迁移为热迁移，将整个虚拟云服务器为P的运行状态完整保存下来，虚拟云服务器为P仍旧平滑运行，用户不会察觉到任何差异。

此迁移的过程非常迅速并且由系统自动完成，用户在使用过程中不会感受到服务器迁移所带来的变化。当物理机出现故障时，宕机监控单元Monitor还会将故障信息发送给公司运维人员，运维人员可根据该信息对故障物理机进行快速排查，尽快解决物理机故障问题。待物理机A修复完毕后重新上架继续工作。当物理机A重新上架完毕恢复正常工作后，服务器会自行启动负载均衡，通过多种均衡算法和丰富的负载均衡策略使服务器资源进行合理分配，让用户更高效合理地使用服务器和网络资源，极大提升链路利用效率，保障业务高效运行。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.云服务器宕机监控迁移系统，其特征在于，所述系统包括宕机监控单元、消息传输单元、报警信息接收单元和迁移执行单元，其中，

所述宕机监控单元包括相互独立的主控节点监控模块和计算节点监控模块，所述主控节点监控模块和所述计算节点监控模块的输出端分别连接到所述消息传输单元的输入端，所述消息传输单元的输出端分别连接到所述报警信息接收单元和所述迁移执行单元的输入端；

2.根据权利要求1所述的系统，其特征在于，所述消息传输单元基于Rabbit消息队列进行消息传输。

3.根据权利要求1或2所述的系统，其特征在于，所述运行参数达到各自对应的所述自定义阈值后，还需维持一定时间T，所述主控节点监控模块或计算节点监控模块才通过所述消息传输单元向所述报警信息接收单元发送报警信息和/或向所述迁移执行单元发送云服务器迁移指令。

4.根据权利要求3所述的系统，其特征在于，所述运行参数包括CPU使用率、CPU负载、内存使用率、内存负载、磁盘空间、磁盘I/O数量和系统进程数中的一种或多种。

5.根据权利要求4所述的系统，其特征在于，所述CPU使用率对应的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

6.根据权利要求4所述的系统，其特征在于，所述内存使用率的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

7.根据权利要求1或2所述的系统，其特征在于，所述网络连接状态包括网络流量和/或网络超时时间。

8.根据权利要求7所述的系统，其特征在于，所述网络超时时间为1-3分钟。

9.云服务器宕机监控迁移方法，其特征在于，所述云服务器宕机监控迁移方法应用于一种云服务器宕机监控迁移系统，所述云服务器宕机监控迁移系统包括宕机监控单元、消息传输单元、报警信息接收单元和迁移执行单元，其中，

其中，所述云服务器宕机监控迁移方法包括如下步骤：

(1)所述主控节点监控模块监控主控节点及计算节点的运行参数及网络连接状态；所述计算节点监控模块实时监控计算节点的运行参数；

(2)所述主控节点监控模块和所述计算节点监控模块分别将所述运行参数或网络连接状态与各自对应的自定义阈值进行比较，若所述运行参数或网络连接状态达到各自对应的所述自定义阈值时，则继续到下一步；若未达到，则重复本比较步骤；

(3)所述主控节点监控模块和所述计算节点监控模块分别通过所述消息传输单元向客户端发送报警信息和/或指示客户端执行云服务器自动迁移指令，将所述云服务器从宕机的物理机迁移至目标物理机。

10.根据权利要求9所述的方法，其特征在于，步骤(2)中所述运行参数达到各自对应的所述自定义阈值后，还需维持一定时间T，才继续到所述步骤(3)。

11.根据权利要求10所述的方法，其特征在于，步骤(2)中所述运行参数包括CPU使用率、CPU负载、内存使用率、内存负载、磁盘空间、磁盘I/O数量和系统进程数中的一种或多种。

12.根据权利要求11所述的方法，其特征在于，所述CPU使用率对应的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

13.根据权利要求11所述的方法，其特征在于，所述内存使用率的自定义阈值为60％-80％，所述维持时间T为5-15分钟。

14.根据权利要求9所述的方法，其特征在于，步骤(2)中所述网络连接状态包括网络流量和/或网络超时时间。

15.根据权利要求14所述的方法，其特征在于，所述网络超时时间为1-3分钟。

16.根据权利要求9所述的方法，其特征在于，步骤(3)所述执行云服务器自动迁移指令，当在所述宕机的物理机与所述目标物理机之间共享存储器且存在千兆以太网时，进行热迁移；否则，进行冷迁移。