CN107707398B

CN107707398B - 云计算系统中管理物理主机的方法和装置

Info

Publication number: CN107707398B
Application number: CN201710909995.7A
Authority: CN
Inventors: 袁艳涛
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2021-04-02
Anticipated expiration: 2037-09-29
Also published as: CN107707398A

Abstract

本发明公开了一种云计算系统中管理物理主机的方法和装置。所述方法包括：第一物理主机接收位于第二物理主机上的虚拟机发送的心跳状态数据，其中所述心跳状态数据用于表示第二物理主机的运行状态；所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果；所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理。

Description

云计算系统中管理物理主机的方法和装置

技术领域

本发明涉及信息处理领域，尤指一种云计算系统中管理物理主机的方法和装置。

背景技术

虚拟化是云计算的基石，虚拟化无处不在，虚拟化技术可以充分利用昂贵的硬件资源并且还可以隔离硬件体系结构和软件系统之间的依赖关系，改进系统的安全性能，提高计算资源的利用率。

随着虚拟化技术的发展，虚拟机取代实体物理机成为企业各种业务的运行环境已成为一个趋势，虚拟化可以把底层的物理资源进行整合，按照客户需以虚拟机的形式进行资源分配，客户在虚拟机中进行应用的部署。虚拟化管理节点是整合底层资源的平台，是管理和监控虚拟资源的基础，所以虚拟化管理平台的性能会直接影响整个系统的性能，一旦虚拟化管理模块出现问题，整个虚拟化系统就陷入瘫痪状态，不但不能进行正常的虚拟资源的调度，还有可能给客户造成业务的暂停和数据的丢失，并且在虚拟化管理节点重新部署时也会花费大量的人力和时间。

发明内容

为了解决上述技术问题，本发明提供了一种云计算系统中管理物理主机的方法和装置，能够实现云计算系统中物理主机的高可用。

为了达到本发明目的，本发明提供了一种云计算系统中管理物理主机的方法，包括：

第一物理主机接收位于第二物理主机上的虚拟机发送的心跳状态数据，其中所述心跳状态数据用于表示第二物理主机的运行状态；

所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果；

所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理。

进一步的，本发明提供的方法还具有如下特点：所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果，包括：

所述第一物理主机按照预先设置的数据接收周期，检测是否在周期内接收到所述虚拟机发送的心跳数据；

如果在所述数据接收周期内未收到该虚拟机发送的心跳检测数据，则再判断未发送该心跳状态数据的原因为虚拟机出现故障或者第二物理主机出现故障，得到判断结果；

根据所述判断结果，得到第二物理主机运行状态的检测结果。

进一步的，本发明提供的方法还具有如下特点：所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理之前，所述方法还包括：

所述第一物理主机接收虚拟机发送的所述第二物理主机的业务数据；

所述第一物理主机利用分布式块设备复制DRBD所述第二物理主机的业务数据到本地的存储空间中。

进一步的，本发明提供的方法还具有如下特点：所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理之后，所述方法还包括：

所述第一物理主机执行虚拟机创建操作，得到用于管理所述第一物理主机的虚拟机；

所述第一物理主机通过创建得到的虚拟机向所述第二物理主机发送心跳数据。

进一步的，本发明提供的方法还具有如下特点：所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理，包括：

在检测结果确认所述第二物理主机出现故障时，所述第一物理主机获取所述第二物理主机上等待执行的业务；

所述第一物理主机继续处理所述第二物理主机上执行的业务。

一种云计算系统中管理物理主机的装置，包括：

第一接收模块，用于接收位于第二物理主机上的虚拟机发送的心跳状态数据，其中所述心跳状态数据用于表示第二物理主机的运行状态；

检测模块，用于根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果；

管理模块，用于根据所述检测结果，对所述第二物理主机的业务进行管理。

进一步的，本发明提供的装置还具有如下特点：所述检测模块包括：

检测单元，用于按照预先设置的数据接收周期，检测是否在周期内接收到所述虚拟机发送的心跳数据；

判断单元，用于如果在所述数据接收周期内未收到该虚拟机发送的心跳检测数据，则再判断未发送该心跳状态数据的原因为虚拟机出现故障或者第二物理主机出现故障，得到判断结果；

确定单元，用于根据所述判断结果，得到第二物理主机运行状态的检测结果。

进一步的，本发明提供的装置还具有如下特点：所述装置还包括：

第二接收模块，用于在对所述第二物理主机的业务进行管理之前，接收虚拟机发送的所述第二物理主机的业务数据；

存储模块，用于利用分布式块设备复制DRBD所述第二物理主机的业务数据到本地的存储空间中。

响应模块，用于在对所述第二物理主机的业务进行管理之后所述第一物理主机执行虚拟机创建操作，得到用于管理所述第一物理主机的虚拟机；

发送模块，用于通过创建得到的虚拟机向所述第二物理主机发送心跳数据。

进一步的，本发明提供的装置还具有如下特点：所述管理模块包括：

获取单元，用于在检测结果确认所述第二物理主机出现故障时，获取所述第二物理主机上等待执行的业务；

处理单元，用于继续处理所述第二物理主机上执行的业务。

本发明提供的实施例，通过从在物理主机在安装的虚拟机获取物理主机的运行状态，根据运行状态对物理主机的业务数据进行管理，实现物理主机的高可用，在主机出现故障或管理服务意外停止时，另外的物理主机能够在最短时间内接管虚拟化管理节点的业务，保证虚拟化管理系统的不间断性，不仅减少了客户业务的故障时间，提升客户的体验感，还可以降低其维护成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明提供的云计算系统中管理物理主机的方法的流程图；

图2为本发明提供的云计算系统中高可用系统的示意图；

图3为本发明提供的云计算系统中管理物理主机的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明提供的云计算系统中管理物理主机的方法的流程图。图1所示方法包括：

步骤101、第一物理主机接收位于第二物理主机上的虚拟机发送的心跳状态数据，其中所述心跳状态数据用于表示第二物理主机的运行状态；

具体的，第二物理主机是当前运行业务的主机，第一物理主机接收第二物理主机的运行状态，其中第二物理主机的运行状态是由该物理主机上的虚拟机检测得到的，与传统的设备的高可用不同，物理主机上的资源是提供给多个虚拟机使用的，在云计算系统中，管理方式是按照虚拟机来管理的，因此，为适用于云计算的管理系统，物理主机间的高可用的实现是通过虚拟机发送的通信来实现的。

步骤102、所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果；

具体的，第一物理主机可以借助安装在第二物理主机发送的心跳数据，确定该物理主机是否运行正常，如果提供该虚拟机运行的运行环境出现问题，使得该虚拟机不能发送心跳数据，则表示第二物理主机出现故障。

步骤103、所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理。

具体的，在第二物理主机出现故障时，需要第一主机承接第二物理主机的业务，继续完成业务处理操作。

本发明提供的方法实施例，通过从在物理主机在安装的虚拟机获取物理主机的运行状态，根据运行状态对物理主机的业务数据进行管理，实现物理主机的高可用，在主机出现故障或管理服务意外停止时，另外的物理主机能够在最短时间内接管虚拟化管理节点的业务，保证虚拟化管理系统的不间断性，不仅减少了客户业务的故障时间，提升客户的体验感，还可以降低其维护成本。

下面对本发明提供的方法实施例作进一步说明：

其中，所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果，包括：

具体的，第一物理主机首先要要按照心跳状态数据的接收数据，对心跳数据进行接收，如果在接收周期内，接收到该数据，则表示该虚拟机运行正常，也就表明第二物理主机运行正常；相反，如果未收到该数据，则表示虚拟机出现故障，而造成该虚拟机故障时虚拟机的软件系统出现故障，还是为虚拟机提供运行环境的物理主机出现故障，这就需要进一步确认；例如，可以向虚拟机管理平台查询运行在第二物理主机上的其他物理主机是否能够正常运行，如果查询到其他虚拟机正常运行，则确定该第二物理主机正常运转，否则，确定第二物理主机出现故障。通过进一步的确认，得到第二物理主机运行状态的检测结果。

当然，为了控制第一物理主机在承接第二物理主机的业务数据时所耗费的时间，可以按照周期定期的读取第二物理主机的数据，并同步保存在第一物理主机上，具体实现方式如下：

所述第一物理主机在对所述第二物理主机的业务进行管理之前，接收虚拟机发送的所述第二物理主机的业务数据；

所述第一物理主机利用DRBD(Distributed Replicated Block Device，分布式块设备复制)所述第二物理主机的业务数据到本地的存储空间中。

所述第一物理主机在对所述第二物理主机的业务进行管理时，是在检测结果确认所述第二物理主机出现故障时，获取所述第二物理主机上等待执行的业务；继续处理所述第二物理主机上执行的业务。

一旦所述第一物理主机开始对所述第二物理主机的业务进行管理后，第一物理主机和第二物理主机的业务管理位置就发生了变化，即第一物理主机变成了业务处理的设备，第二物理主机则变成对第一物理主机的检测设备，因此，第一物理主机还需要执行如下操作，包括：

由上可以看出，本发明的关键发明点是：通过自研的心跳检测和服务管理机制及drbd技术来保证虚拟化系统管理服务的不间断性。管理节点虚拟机利用网络套接字不断的向物理主机发送信息，物理主机通过接收到的管理节点虚拟机发来的信息来判断管理节点虚拟机运行状态及所在主机的运行状态，并通过解析接收到的信息来决定要执行的动作，利用开源的drbd技术来实现管理节点虚拟机数据的实时同步，来保证虚拟化管理节点虚拟机在任何一台主机启动时的数据保持一致。

下面以应用实例对本发明提供的方法作进一步说明：

本发明提出了一种虚拟化管理节点高可用方法，通过采用虚拟化管理平台在虚拟机中部署，并对该虚拟机实施本发明的高可用方法，不仅避免了传统的共享存储的限制还可以大大提高服务的高可用性，在主机出现故障时保证虚拟化系统正常运行，提高客户业务的连续性，缩减由于管理节点故障对客户业务的影响。

图2为本发明提供的云计算系统中高可用系统的示意图。图2所示系统中包括两个主机，两台主机间两条链路，一条链路用于接收管理节点虚拟机的心跳，一条链路用于管理节点虚拟机的数据同步，将这两个链路分别绑定到物理主机不同的网卡上，以免链路之间相互干扰。

管理节点虚拟机利用网络套接字通过心跳链路不断的向两台主机发送信息，物理主机能正常接收到管理节点虚拟机发来的信息，表示管理节点虚拟机在正常运行，在管理节点虚拟机向物理主机发送的信息中包括客户在虚拟机部署的服务运行状态。其中，套接字为源IP地址和目的IP地址以及源端口号和目的端口号的组合。

当物理主机读取不到管理节点虚拟机发来的信息时或在解析管理节点虚拟机发来的信息中客户服务状态不可用时，物理主机认为管理节点虚拟机或主虚拟机所在物理主机出现故障，此时另外的一台物理主机将开启管理节点虚拟机接管业务。

两台主机中留有一个专用的磁盘或分区用于数据的同步，在管理节点虚拟机运行过程中客户的应用数据比如数据库数据通过数据链路进行实时同步，保证虚拟机化管理节点虚拟机在任何一台物理主机之间切换时数据的一致性，管理节点虚拟机数据同步利用DRBD技术，在管理节点虚拟机中客户操作的应用数据，能够实时的同步到其他物理主机中，保证在任何时刻任何物理主机上开启管理节点虚拟机时数据都是最新的。

本发明应用实例提供的系统，可以大大提高虚拟机的高可用性，一旦管理节点虚拟机业务中断或所在物理主机出现故障，会立刻在另外一台物理主机上启动管理节点虚拟机接管虚拟化管理业务，保证客户业务的连续性，大大减少因故障对客户带来的损失，提高客户的体验好感。

基于该系统，本发明提供一种虚拟化管理节点高可用方法实施方法，该方法的过程如下：

1、应用配置：

在两台不同物理主机上部署虚拟化层，然后，利用管理节点虚拟机模板在其中一台物理主机创建一台虚拟化管理节点虚拟机，最后，在物理主机中部署drbd、心跳检测及服务管理脚本。

2、实施方法具体步骤如下:

步骤1、在两台主机上部署虚拟化系统计算节点和drbd，并留出一个盘/dev/sdb用作drbd的数据同步盘。

步骤2、在其中一台物理主机上基于模板创建虚拟化管理节点虚拟机，其中客户业务应用的数据和数据库都基于/dev/sdb进行部署。

步骤3、将物理主机中数据链路和心跳链路分别绑定到不同网卡上，并进行联通。

步骤4、根据实施方案中数据链路和心跳链路的规划drbd的配置文件如下，其中host-1和host-2为两台物理主机，物理主机中数据同步盘为disk，心跳链路绑定主机网卡为address。

步骤5、在虚拟化管理节点虚拟机中创建网络套接字服务端，在物理主机中创建网络套接字客户端，管理节点虚拟机通过套接字不断的向物理主机中发送信息。

步骤6、物理主机每隔10秒接收并解析虚拟化管理节点虚拟机发来的信息，如果在一段时间没有接收到虚拟化管理节点虚拟机发来信息，物理主机认为虚拟化管理节点虚拟机或所在主机出现故障，立刻在有效的物理主机上开启一个虚拟化节点虚拟机接管业务，另外物理主机在解析到虚拟化管理节点虚拟机管理服务停止的时候，会首先关闭该虚拟机，然后在启动虚拟化管理节点虚拟机。

下面对上述方法中的重要步骤进一步说明：

虚拟化管理系统在虚拟机中进行部署，物理主机通过网络通信不断监听管理节点虚拟机的心跳来不断反馈其运行状态；以及，虚拟化管理系统实时变化的数据部署在专用的磁盘上，利用DRBD技术实现数据盘的实时同步，保证数据的一致性。

物理主机每隔10s接收一次管理节点虚拟机发来的信息，如果没有接收到信息会自动在该主机上启动管理节点虚拟机。

管理节点虚拟机向物理主机不断的推送自己的运行状态，物理主机对管理节点虚拟机发来的信息进行解析，并根据解析结果来判断是否在该主机上启动管理节点虚拟机。

图3为本发明提供的云计算系统中管理物理主机的装置的结构图。结合图1和图2所示的方法，图3所示装置包括：

第一接收模块301，用于接收位于第二物理主机上的虚拟机发送的心跳状态数据，其中所述心跳状态数据用于表示第二物理主机的运行状态；

检测模块302，用于根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果；

管理模块303，用于根据所述检测结果，对所述第二物理主机的业务进行管理。

在本发明提供的装置实施例中，所述检测模块301包括：

在本发明提供的装置实施例中，所述装置还包括：

在本发明提供的装置实施例中，所述管理模块303包括：

处理单元，用于继续处理所述第二物理主机上执行的业务。

本发明提供的装置实施例，通过从在物理主机在安装的虚拟机获取物理主机的运行状态，根据运行状态对物理主机的业务数据进行管理，实现物理主机的高可用，在主机出现故障或管理服务意外停止时，另外的物理主机能够在最短时间内接管虚拟化管理节点的业务，保证虚拟化管理系统的不间断性，不仅减少了客户业务的故障时间，提升客户的体验感，还可以降低其维护成本。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种云计算系统中管理物理主机的方法，其特征在于，包括：

所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理；

所述第一物理主机通过创建得到的虚拟机向所述第二物理主机发送心跳数据，

其中，如果查询到运行在第二物理主机上的其他虚拟机正常运行，则确定该第二物理主机正常运转，否则，确定第二物理主机出现故障，

所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理，包括：

在检测结果确认所述第二物理主机出现故障时，所述第一物理主机获取所述第二物理主机上等待执行的业务；所述第一物理主机继续处理所述第二物理主机上执行的业务。

2.根据权利要求1所述的方法，其特征在于，所述第一物理主机根据预先设置的检测策略，对所述虚拟机发送的心跳状态数据的发送操作进行检测，得到检测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一物理主机根据所述检测结果，对所述第二物理主机的业务进行管理之前，所述方法还包括：

4.一种云计算系统中管理物理主机的装置，其特征在于，包括：

管理模块，用于根据所述检测结果，对所述第二物理主机的业务进行管理；

响应模块，用于在对所述第二物理主机的业务进行管理之后第一物理主机执行虚拟机创建操作，得到用于管理所述第一物理主机的虚拟机；

发送模块，用于通过创建得到的虚拟机向所述第二物理主机发送心跳数据，

所述管理模块包括：

处理单元，用于继续处理所述第二物理主机上执行的业务。

5.根据权利要求4所述的装置，其特征在于，所述检测模块包括：

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：