CN106933659A

CN106933659A - 管理进程的方法和装置

Info

Publication number: CN106933659A
Application number: CN201511025365.0A
Authority: CN
Inventors: 许金川
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2017-07-07
Anticipated expiration: 2035-12-30
Also published as: CN106933659B

Abstract

本发明公开了一种管理进程的方法和装置，能够快速发现失效的进程，从而快速恢复集群系统，提升集群的可靠性。该方法应用于计算机集群系统，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上，该方法包括：该管理节点接收第一处理节点发送的进程失效指示信息，该进程失效指示信息用于指示第一进程失效，该第一进程为运行在该第一处理节点上的进程中的至少一个；该管理节点根据该进程失效指示信息，执行失效恢复处理，以使该第一进程所属的进程集群正常运行。

Description

管理进程的方法和装置

技术领域

本发明涉及计算机领域，并且更具体地，涉及管理进程的方法和装置。

背景技术

计算机集群是实现系统扩展性和高可靠的重要技术手段。一个计算机集群一般由多个物理节点组成，每一个物理节点上可以运行多个应用的进程集群，每个进程集群分布地运行在多个物理节点中，每个物理节点中运行的应用为该进程集群中的一个进程，每个进程集群包括一个或多个进程，同一进程集群中的各进程之间通过互发心跳包来检测其存活状态。各进程之间的心跳包需要通过其所在的物理节点之间的网络来传输，由于该网络不仅用于传输心跳包，还用于传输数据流，因此，心跳包的传输过程中容易丢包或者延时，不利于快速发现失效的进程。

并且，由于每个进程集群的进程之间都会有心跳检测，在一个计算机集群系统中配置有多个进程集群，就会有很多个心跳检测同时进行，会给整个计算机系统带来额外的负担，因此往往需要设置较长的心跳周期和超时时间，更加不利于失效进程的快速发现，由此无法触发集群的快速恢复。对于客户来说，有些业务可用，有些业务不可用，因此，严重影响了计算机集群系统的可靠性。

发明内容

本申请的目的是提供一种管理进程的方法和装置，以快速发现失效的进程，从而快速恢复集群系统，提升集群的可靠性。

第一方面，本申请提供一种管理集群的方法。该方法应用于计算机集群系统，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上，该方法包括：该管理节点接收第一处理节点发送的进程失效指示信息，该进程失效指示信息用于指示第一进程失效，该第一进程为运行在该第一处理节点上的进程中的至少一个，该进程失效指示信息携带该第一进程的进程标识；该管理节点根据该进程失效指示信息，执行失效恢复处理，以使该第一进程所属的进程集群正常运行。

通过第一处理节点根据进程的进程状态信息，确定处于失效状态的进程，并向管理节点发送进程失效指示信息，以便于管理节点根据该进程标识，执行失效恢复处理，从而能够快速发现失效进程和恢复，提高计算机集群系统的可靠性。

进一步地，可以在管理节点和处理节点之间配置独立的链路，用于处理节点上报进程失效指示信息，从而避免了丢包、时延，进一步加快计算机集群系统的失效恢复过程，提高系统可靠性。

结合第一方面，在第一方面的第一种可能的实现方式中，该管理节点根据该进程失效指示信息，确定该第一进程所属的进程集群；该管理节点确定该第一进程所属的进程集群中失效的进程满足预设条件时，为该第一进程所属的进程集群调度至少一个进程，以使该第一进程所属的进程集群得以正常运行，其中，该预设条件包括：该第一进程所属的进程集群中失效的进程的数量达到预设的第一阈值，或第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值。

结合第一方面的上述可能的实现方式，在第一方面的第二种可能的实现方式中，该预设条件为该第一进程所属的进程集群中失效的进程数量达到预设的第一阈值，该管理节点根据该进程失效指示信息，确定该第一进程的数量大于预设的第一阈值时，为该第一进程所属的进程集群调度至少一个进程，以使该第一进程所属的进程集群中失效的进程数量小于该预设的第一阈值，从而使该第一进程所属的进程集群得以正常运行。

结合第一方面的上述可能的实现方式，在第一方面的第三种可能的实现方式中，该预设条件为该第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值，该管理节点根据该进程失效指示信息，确定该第一进程的重启失败次数大于预设的第二阈值时，为该第一进程所属的进程集群调度至少一个进程，以使该第一进程所属的进程集群中失效的进程数量小于该预设的第一阈值，从而使该第一进程所属的进程集群得以正常运行。

结合第一方面的上述可能的实现方式，在第一方面的第四种可能的实现方式中，该管理节点根据该进程失效指示信息，确定该第一进程所属的进程集群；该管理节点确定该第一进程为该第一进程所属的进程集群的主进程时，从该进程集群中，选择一个备用进程作为该第一进程所属的进程集群的主进程，该第一进程所属的进程集群包括主进程和至少一个备用进程。因此，通过管理节点发起失效恢复处理，避免了现有技术中通过选举主进程等方法来恢复进程集群所造成的恢复速度慢、系统中断的问题。

根据第一方面的上述可能的实现方式，在第一方面的第五种可能的实现方式中，在该管理节点接收第一处理节点发送的进程失效指示信息之前，该方法还包括：该管理节点接收该第一处理节点发送的第一注册请求和第二注册请求，该第一注册请求携带该第一处理节点的节点标识，该第二注册请求携带运行在该第一处理节点上的进程的进程标识以及进程集群标识，其中，一个节点标识用于唯一地标识一个处理节点，一个进程标识用于唯一地标识一个进程；该管理节点根据该第一注册请求和该第二注册请求，建立该第一处理节点的进程映射关系表项，该进程映射关系表项用于指示该第一处理节点和该第一处理节点上运行的每个进程的进程标识和进程集群标识的映射关系；该管理节点根据每个处理节点的进程映射关系表项，生成进程映射关系表。因此，该管理节点可以在整个计算机集群系统的进程和处理节点的映射关系，在出现进程失效或处理节点失效时，快速准确地执行失效恢复处理，提高恢复效率，减少系统中断时间，提高可靠性。

根据第一方面的上述可能的实现方式，在第一方面的第六种可能的实现方式中，该管理节点根据该进程失效指示信息中携带的第一进程的进程标识以及进程集群标识，查找该进程映射关系表，得到该第一进程对应的进程映射关系表项；该管理节点从该第一进程对应的进程映射关系表项中获取该第一进程的进程集群标识；该管理节点根据该进程集群标识确定该第一进程所属的进程集群。

根据第一方面的上述可能的实现方式，在第一方面的第七种可能的实现方式中，该方法还包括：该管理节点向该第一进程所属的进程集群中的关联进程发送失效检测消息，以使该关联进程发送心跳包，以确定该关联进程的进程状态信息，该关联进程为该第一进程所属的进程集群中除该第一进程以外的进程。因此，该管理节点可以在进程失效时，触发关联进程的失效检测，获取该进程所属的进程集群中各进程的最新的进程状态信息，以便于管理节点作出正确及时的恢复策略，使得进程集群快速恢复正常运行状态。

根据第一方面的上述可能的实现方式，在第一方面的第八种可能的实现方式中，该计算机集群系统还包括至少一个备用节点，该方法还包括：将该进程集群关系列表同步到该至少一个备用节点中，以便于该至少一个备用节点在该管理节点失效时，接管该管理节点。由此，更大程度地保证了该计算机集群系统的可靠性。

根据第二方面，本申请提供一种管理集群的方法。该方法应用于计算机集群系统，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群的每个进程运行在所部署的处理节点上，该方法包括：第一处理节点确定第一进程的进程状态信息，该第一进程是运行在该第一处理节点上的进程中的至少一个，该进程状态信息包括存活状态或者失效状态；该第一处理节点在确定第一进程失效时，向该管理节点发送进程失效指示信息，该进程失效指示信息用于指示该第一进程处于失效状态。

通过第一处理节点根据第一进程的进程状态信息，确定处于失效状态的进程，并向管理节点发送进程失效指示信息，以便于管理节点根据该进程标识，执行失效恢复处理，从而能够快速发现失效进程和恢复，提高计算机集群系统的可靠性。

结合第二方面，在第二方面的第一种可能的实现方式中，在该第一处理节点确定第一进程的进程状态信息之前，该方法还包括：该第一处理节点获取该第一进程发送的心跳包，该心跳包用于指示该第一进程处于存活状态；该第一处理节点根据该心跳包，生成该进程状态信息。

进一步地，该第一处理节点中的进程管理器可以获取该第一进程的心跳包，并根据心跳包，生成相应的进程状态信息，并转发给节点管理器，以便于节点管理器的管理与信息上报。

结合第二方面的上述可能的实现方式，在第二方面的第二种可能的实现方式中，该方法还包括：该第一处理节点接收该第一进程发送的注册请求，该注册请求携带该第一进程的进程标识以及进程集群标识；该第一处理节点向该管理节点转发该注册请求。

第三方面，本申请提供一种管理进程的装置，用于执行第一方面或第一方面的任意可能的实现方式中的方法。具体地，该装置包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的模块。

第四方面，本申请提供一种管理进程的装置，用于执行第二方面或第二方面的任意可能的实现方式中的方法。具体地，该装置包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的模块。

第五方面，本申请提供一种管理进程的设备，该设备包括：接收器、发送器、存储器、处理器和总线系统。其中，该接收器、该发送器、该存储器和该处理器通过该总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，以控制接收器接收信号，并控制发送器发送信号，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第六方面，本申请提供一种管理进程的设备，该设备包括：接收器、发送器、存储器、处理器和总线系统。其中，该接收器、该发送器、该存储器和该处理器通过该总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，以控制接收器接收信号，并控制发送器发送信号，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第二方面或第二方面的任意可能的实现方式中的方法。

第七方面，本申请提供一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

第八方面，本申请提供一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

本申请提供了一种管理进程的方法和装置，能够快速发现失效的进程，从而快速恢复集群系统，提升集群的可靠性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1示出了适用于本发明实施例的管理进程的方法的系统的示意性架构图。

图2示出了根据本发明实施例的管理进程的方法的示意性流程图。

图3示出了根据本发明实施例的失效恢复处理的示意性流程图。

图4示出了根据本发明实施例的管理进程的装置的示意性框图。

图5示出了根据本发明另一实施例的管理进程的装置的示意性框图。

图6示出了根据本发明实施例的管理进程的设备的示意性框图。

图7示出了根据本发明另一实施例的管理进程的设备的示意性框图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1示出了适用于本发明实施例的管理进程的方法的系统100的示意性架构图。如图1所示，该系统100包括管理节点110和至少两个处理节点(包括第一处理节点121和第二处理节点122)，管理节点和每一个处理节点都分别可以为独立的物理机。例如，第一处理节点121可以为第一物理机，第二处理节点122可以为第二物理机，管理节点可以为第三物理机。各物理机间可以通过网络相互通信。该系统100上可以运行有至少一个进程集群，例如，第一进程集群130和第二进程集群140。每个进程集群包括至少一个进程，例如，第一进程集群130可以包括进程131和进程132，第二进程集群140可以包括进程141和进程142。其中，进程集群的每个进程运行在所部署的处理节点上。也就是说，一个进程集群可以在至少两个处理节点上运行，每个处理节点上都可以运行至少一个进程。例如，在第一处理节点121(即，第一物理机)上可以运行有进程131和进程141，在第二处理节点122(即，第二物理机)上可以运行有进程132和进程142。在本发明实施例中，管理节点110中可以保存该系统100中的每一个处理节点以及运行在每一个处理节点上的进程的信息，以便于该管理节点110管理该系统100中的每一个处理节点以及运行在每一个处理节点上的进程。这里所说的信息，可以包括处理节点的节点标识、运行状况、进程的进程标识、运行状况以及数据版本、时间戳等信息，本发明对此并未特别限定。其他通过在管理节点中保存系统内处理节点与进程的信息，以便于该管理节点的管理和调度的方法均落入本发明的保护范围内。

应理解，同一类型的分布式应用组合在一起，成为一个整体，即进程集群，每一个分布式应用为一个进程。换句话说，进程集群和进程之间的关系可以理解为一个应用程序分布地运行在多个处理节点中，每个处理节点都部署该应用程序，每个处理节点所运行的应用程序可以理解为一个进程，该应用程序的所有进程称为一个进程集群。还应理解，一个处理节点上可以部署一个进程集群中的一个或多个进程，本发明对此并未特别限定。

还应理解，以上列举的进程、进程集群、处理节点、管理节点以及相互之间的对应关系仅为示例性说明，不应对本发明构成任何限定。例如，该系统中还可以包括至少一个备用管理节点和更多的处理节点，备用管理节点在上述管理节点(为便于理解和区分，记作主管理节点)失效时，可以接管该主管理节点。又例如，如图1所示，该系统中还可以运行第三进程集群150，该第三进程集群150可以包括至少一个进程(例如，进程151和进程152)，其中，进程151可以运行在第一处理节点121上，进程152可以运行在第二处理节点122上。

还应理解，进程与处理节点的对应关系并不是固定不变的，可以是预先配置的，也可以根据进程集群的运行状况随时调整。例如，在第一处理节点121上可以运行有进程132和进程151，在第二处理节点122上可以运行有进程131和进程141，也就是说，处理节点上可以运行多个进程集群的至少一个进程，可以是一个进程，也可以是多个进程。又例如，该系统还可以包括第三处理节点，该第三处理节点上可以运行有进程142和进程152，也就是说，进程集群1可以在第一处理节点121和第二处理节点122上运行，进程集群2可以在第二处理节点122和第三处理节点上运行，进程集群3可以在第一处理节点121和第三处理节点上运行。以上列举的处理节点与进程的对应关系仅为示例性说明，本发明对此并未特别限定。

在本发明实施例中，处理节点用于监控、采集所在物理机上的进程的状态信息，并上报给管理节点，同时将管理节点发送的消息转发给相应的进程。

可选地，该处理节点可以包括进程管理器和节点管理器，进程管理器用于管理运行在该处理节点上的每个进程的运行状态。节点管理器用于管理整个处理节点的运行状态，包括该处理节点的存活/失效状态和每个进程的运行状态。进程管理器可以向节点管理器发送进程状态信息，以便于节点管理器管理整个处理节点的运行状态。

需要说明的是，进程管理器和节点管理器都可以为配置在处理节点上的功能模块，进程管理器与节点管理器分别占用是彼此独立的进程空间，可通过共享内存、隧道、网络等进行通讯。应注意，这里的网络并不是真正的网络，而是本地的虚拟网卡(例如，环回loopback网卡)相互通信。其中，该进程管理器可以集成在集群进程的每个进程中，作为一个应用插件(plugin)，管理进程的运行状态；也可以是与集群节点隔离的两个独立进程，本发明对此并未特别限定。

应理解，图1示出的适用于本发明实施例的管理进程的方法的系统的示意性架构图，是为了便于本领域的技术人员更好的理解本发明实施例，而不应对本发明构成任何限定，本发明也不应限于此。本领域的技术人员根据图1所给出的例子，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本发明的保护范围内。

需要说明的是，在图1所示出的系统的示意性架构图中，在计算机集群系统上运行有至少两个集群进程，该集群进程可以为集中式集群架构，也可以为对等式集群架构。例如，第一进程集群130和第二进程集群140可以是集中式集群架构，第二进程集群150可以是对等式集群架构。

以下结合图1，详细说明集中式集群架构(情况1)和对等式集群架构(情况2)。

情况1

在本发明实施例中，第一进程集群130和第二进程集群140构成一个集中式集群架构，例如，MongoDB。在该集中式集群架构中，采用集群分片实现该集群的水平扩展，并引入副本作为冗余备份，以提高系统的高可靠性。具体地，该第一进程集群130和第二进程集群140为该集中式集群的分片(或者说，子集群)，在本发明实施例中，可以把第一进程集群130和第二进程集群140理解为两个独立的进程集群。其中，进程131可以为第一进程集群130的主进程，进程132可以为第一进程集群130的副本(或者说，备份进程)，进程142可以为第二进程集群140的主进程，进程141可以为第二进程集群140的副本。

在现有技术中，每个集中式集群的主进程需要通过集群进程内部的进程选举产生，每个进程都可以参与该选举。通过预先设置好的算法，根据集群中的每一个进程中的数据版本、运行状况，计算出一个数据版本最新的进程作为主进程。该计算通常需要从数据版本最低的进程开始计算，因此需要多次网络交互才能完成选举。并且，一轮选举基本上都需要花费几秒的时间，如果一轮选举失败则需要在一个时间间隔之后才能再次发起选举。由此可见，选举过程是一个非常耗时的过程，会造成进程集群的中断，直至选举产生一个新的主进程，进程集群才能重新启动进程。其中，主进程失效后的选举及集群进程的重启，可以称为恢复。在多个进程集群共存的计算机集群系统中，恢复过程会造成系统服务中断，严重影响计算机集群的可用性。

进一步地，在现有技术中，进程131、进程132可以通过第一物理机、第二物理机之间的网络互发心跳包，进程142、进程142也可以通过第一物理机、第二物理机之间的网络互发心跳包，以确定主进程131和主进程142是否存活。也就是说，在包括有n个进程的进程集群的每个子集群中，至少需要通过n-1条心跳链路来发心跳包，以此类推，若该进程集群包括m个子集群，则至少需要通过m×(n-1)条心跳链路来发心跳包，造成了集群系统的额外负担。

情况2

在本发明实施例中，第二进程集群150可以为对等式集群架构，例如，Infinispan。在该对等式集群架构中，进程之间通过点对点(Pear to Pear，简称“P2P”)协议进行数据的复制和心跳检测。各进程之间互发心跳包以检测其存活状态。也就是说，对于一个包括有n个进程的进程集群来说，一个进程至少需要通过n-1条心跳链路来发送心跳包，一个进程集群就需要通过至少n×(n-1)/2条心跳链路来发送心跳包，同样也会造成集群系统的额外负担。

更进一步地，作为示例而非限定，在MongoDB集群中，可以预设心跳超时时间和心跳周期的时长，例如，设定心跳超时时间为20秒，而心跳周期为5秒。也就是说，在连续20秒内，或者说，在连续5个周期内未收到来自主进程的心跳包，就认为该心跳包失效。与此相似的，在Infinispan集群中，也可以预设心跳超时时间和心跳周期的时长，例如，设定心跳超时时间为10秒，而心跳周期为3秒。也就是说，进程集群中的某个进程在连续10秒内，或者说，在连续4个周期内未收到其他节点发送的心跳包，就认为对方失效。与此相似的，当处理节点失效时，也会由于各进程集群的预设心跳超时时间和心跳周期不同，而造成发现失效的时间不同。例如，运行在该计算机集群系统中的进程集群包括MongoDB和Infinispan两种，当第一处理节点121失效时，运行在其他处理节点上的MongoDB进程需要在超出心跳超时时间20秒后才能发现处理节1点失效，而运行在其他处理节点上的Infinispn进程也需要在超出心跳超时时间10秒后才能发现第一处理节点121失效。

由此可见，由于不同类型的进程集群所对应的心跳周期和超时时间都是不同的，在一个计算机集群系统中，混合运行有多种类型的进程集群，一个进程的失效，会导致其他进程的使用也受到影响，最终影响到整个系统对外提供的服务质量。并且，进程失效后各进程集群的恢复时间参差不齐，容易导致整个系统的恢复时间不确定，业务无法及时恢复。因此，对于一个计算机集群系统来说，系统的恢复由恢复最慢的进程来决定，导致计算机集群系统的整体可靠性进一步降低。

与此相对，本发明实施例通过第一处理节点收集运行在该第一处理节点上的每个进程的进程状态信息，每个处理节点通过一条心跳链路向管理节点反馈多个进程的状态，以便于管理节点在进程失效时，执行恢复处理，从而能够快速发现失效进程，快速恢复进程集群，提高集群可靠性。

以下，结合图2和图3详细说明本发明实施例的管理进程的方法。

图2示出了从设备交互的角度描述的根据本发明实施例的管理进程的方法200的示意性流程图。该方法200可以应用于计算机集群系统，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群的每个进程运行在所对应的处理节点上。其中，该管理节点可以对应于图1中的管理节点110，该至少两个处理节点可以对应于图2中的第一处理节点121或第二处理节点122，该至少两个进程集群可以对应于图1中的第一进程集群130、第二进程集群140或第三进程集群150。该图2的方法200包括：

S201、管理节点接收计算机集群系统中第一处理节点发送的第一注册请求和第二注册请求。

不失一般性，第一处理节点可以将接收到的第一进程的注册请求转发给管理节点，该第一进程的注册请求中可以携带有该第一进程的进程标识。第一处理节点向管理节点发送第一注册请求和第二注册请求，其中，第一注册请求携带每个处理节点的节点标识，第二注册请求携带运行在每个处理节点上的进程的进程标识以及进程集群标识，其中，一个节点标识用于唯一地标识一个处理节点，一个进程标识用于唯一的标识一个进程。

需要说明的是，当系统初始化时，处于该系统中的每一个进程都可以向所运行的处理节点发送注册请求，该注册请求中可以携带有该处理节点上运行的每个进程的进程标识以及进程集群标识，该处理节点在接收到该注册请求后，可以向管理节点转发该注册请求(即，上述第二注册请求)。应注意，处理节点中每一次增加进程或修改进程时都可以向管理节点注册，该注册请求中可以仅携带该增加或修改的进程的进程标识以及进程集群标识，而不需要携带该处理节点上运行的每个进程的进程标识以及进程集群标识。

进一步地，该第一注册请求中还可以携带处理节点的节点状态信息，该心跳消息用于指示该处理节点处于存活状态，该第二注册请求中还可以携带进程的进程状态信息，该进程状态信息包括进程的存活/失效状态、数据版本、时间戳以及在进程集群中的角色等信息，以便于管理节点更好地管理该系统。

应理解，这里所列举的节点状态信息、进程状态信息的具体内容仅为示例性说明，不应对本发明构成任何限定，本发明也不应限于此，其他用于标识进程的存活或失效状态的信息，以及用于标识最新数据、在进程集群中的角色的信息均落入本发明的保护范围内。

需要说明的是，该第一处理节点可以通过第一注册请求向管理节点请求注册第一处理节点，再通过第二注册请求向管理节点请求注册进程；该第一处理节点也可以通过发送一次注册请求向管理节点注册第一处理节点和运行在第一处理节点上的进程。也就是说，该第一注册请求和第二注册请求可以为一次注册请求，也可以为两次注册请求，第一和第二仅用于区分注册的对象，而不应对注册请求的发送次数构成限定。

更进一步地，该处理节点包括进程管理器和节点管理器。其中，进程管理器可以根据所对应的进程集群中的每一个进程，向相应的处理节点中的节点管理器发送第二注册请求，该第二注册请求携带每个进程的进程标识和进程集群标识。节点管理器根据该第二注册请求，向管理节点转发该第二注册请求，以在管理节点中注册进程。

作为示例而非限定，该节点标识、进程标识以及进程集群标识可以分别为所对应的处理节点和进程在启动时从管理节点部署的配置文件中读取到的主机名及端口等信息。例如，可以按照“组件类型@主机名：端口”的格式生成节点标识和进程标识，还可以按照“集群名@集群类型”的格式生成进程集群标识。例如，进程标识为“MONGOD@mongod1：27018”，其中，MONGOD为组件类型，这里可以理解为该组件为集群类型的组件，mongod1为主机名，27018为端口号；又如，节点标识为“AGENT@mongod1：50001”，其中，AGENT为组件类型，这里可以理解为该组件为处理节点类型的组件，mongod1为主机名，50001为端口号；再如，进程集群标识为“rs1@MONGODB”，其中，rs1为集群名，MONGOD为集群类型。

应理解，以上列举的进程标识和节点标识的方法仅为示例性说明，不应对本发明构成任何限定。其他用于唯一地标识一个进程或一个节点的方法均落入本发明的保护范围内。

S202、管理节点根据第一注册请求和第二注册请求，建立第一处理节点的进程映射关系表项。

具体地，管理节点可以根据第一注册请求中携带的节点标识和第二注册请求中携带的进程标识，建立进程映射关系表项，该进程映射关系表项用于指示第一处理节点和第一处理节点上运行的每个进程的进程标识和进程集群标识的映射关系。

S203、管理节点根据每个处理节点的进程映射关系表项，生成进程映射关系表。

具体地，管理节点根据每个处理节点发送的注册请求，可以生成每个处理节点对应的进程映射关系表项，再根据每个处理节点的进程映射关系表项，可以生成进程映射关系表。从该进程映射关系表中，可以获知每个进程所属的进程集群，以及每个进程所运行的处理节点。换句话说，根据进程标识，可以确定该进程对应的处理节点和进程集群。因此，该管理节点在接收到进程失效指示信息时，就会根据该进程映射关系表项和进程失效指示信息，执行相应的失效恢复处理(失效恢复处理的具体过程将在后文中详细说明)。

在本发明实施例中，处理节点可以根据预设的消息格式，生成第一注册请求和第二注册请求。作为示例而非限定，该消息格式可以为基于JavaScript对象表示法(JavaScript Object Notation，简称“JSON”)、可扩展标记语言(eXtensible Markup Language，简称“XML”)、一种数据建模语言(YetAnother Next Generation，简称“YANG”)等数据格式。

以下示出以JSON格式发送注册消息的一例：

其中，MONGOD@mongod1：27018为请求注册的进程标识，AGENT@mongod1：50001为接收该注册请求的处理节点，PRIMARY@rs1@MONGODB指示该进程在该进程集群(rs1@MONGODB)中的角色为主进程。

应理解，以上列举的用于向管理节点发送消息的格式仅为示例性说明，不应对本发明构成任何限定。其他用于向管理节点发送消息的格式也属于本发明的保护范围。

还应理解，处理节点基于上述预设的消息格式向管理节点发送的消息(为方便说明，称为状态消息)并不仅限于注册消息，还可以为心跳消息、失效消息、退出消息等等。其中，心跳消息用于指示进程处于存活状态，失效消息用于指示进程处于失效状态，退出消息用于指示进程已退出该进程集群。本发明对于处理节点与管理节点之间的消息并未特别限定。

S204、第一处理节点获取第一进程发送的心跳包。

具体地，该心跳包用于指示所述第一进程处于存活状态。该心跳包可以携带有第一进程的数据版本、时间戳等信息。换句话说，第一进程可以通过向第一处理节点发送心跳包的方式上报自身的运行状况，并通过携带数据版本、时间戳等信息以区分最新数据。

需要说明的是，当第一处理节点在预设的超时时间内未收到某进程(为方便理解和说明，记作第一进程)的心跳包时，则认为该第一进程处于失效状态，并将该第一进程发送的最后一次心跳包中携带的数据版本作为该第一进程的数据版本。应理解，第一进程可以为所述第一处理节点上运行的进程中的任意一个或多个，本发明对此并未特别限定。

应理解，心跳包仅为用于上报存活状态的一种方式，不应对本发明构成任何限定，本发明也不应限于此。其他用于指示存活状态或者运行状态的方法均落入本发明的保护范围内。

S205、第一处理节点确定所述第一进程的进程状态信息。

在本发明实施例中，第一处理节点可以根据从第一进程获取到的心跳包，确定所述第一进程的进程状态信息。具体地，第一处理节点可以根据获取到的心跳包，确定第一进程处于存活状态还是失效状态，当第一进程处于存活状态时，获取所述心跳包中携带的数据版本。

进一步地，该第一处理节点中的进程管理器可以获取第一进程的心跳包，并根据心跳包，生成相应的进程状态信息，并转发给节点管理器，以便于节点管理器管理所述第一进程的进程状态信息或者向管理节点上报所述第一进程的进程状态信息。

可选地，每个进程映射关系表项中还包括所述进程的状态，该方法还包括，该第一处理节点向该管理节点发送所述第一进程的进程状态信息，以便于管理节点根据所述第一进行的进程状态信息更新所述第一进程的进程映射关系表项中所述第一进程的状态。

具体地，该第一处理节点可以将运行在其上的进程的进程状态信息不经过滤，全部发送给管理节点，以便于管理节点了解系统内每个进程的运行状态，在发生进程失效时，采取相应的恢复策略。

S206、第一处理节点在确定第一进程失效时，向该管理节点发送进程失效指示信息。

具体地，第一处理节点可以根据每个进程的进程状态信息，确定失效的进程为第一进程，进而向管理节点发送进程失效指示信息。该进程失效指示信息中可以携带有该第一进程的进程标识，以便于该管理节点根据该进程标识，确定相应的恢复策略，以执行失效恢复处理。

在本发明实施例中，可以根据预设的消息格式，生成失效消息，该失效消息承载该进程失效指示信息，以通知管理节点第一进程失效。

应注意，这里所述的进程失效指示信息可以是一个处理节点(例如，第一处理节点)发送的一条或多条失效指示信息，第一处理节点可以根据每个进程发送的心跳包，生成相对应的心跳消息，通过心跳消息来指示每个进程处于存活状态或者失效状态；第一处理节点也可以根据每个进程发送的心跳包，确定失效的进程，进而生成一条进程失效指示信息，该进程失效指示信息中指示了所有的处于失效状态的进程。进程失效指示信息也可以是多个处理节点发送的指示信息，用于指示运行在不同处理节点上的进程的运行状态(例如，存活状态或者失效状态)本发明对此并未特别限定。

进一步地，本发明实施例可以在管理节点和处理节点之间配置独立的链路，该独立的链路可以仅用于处理节点的状态信息的上报，以进一步避免由于与数据流共用一条链路而造成丢包、时延等问题。

S207，管理节点根据进程失效指示信息，执行失效恢复处理。

具体地，管理节点根据不同的失效情况，采取不同的失效恢复处理。关于失效恢复处理的详细说明将在下文中详细说明。

S208，管理节点在执行失效恢复处理后，更新进程映射关系表项。

具体地，管理节点在执行失效恢复处理后，可以根据当前的运行状况，或者，处理节点最新上报的进程的进程状态信息，更新该处理节点的进程映射关系表项。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。例如在本发明实施例中，S204、S205可以在S201之前执行。

可选地，该方法200还包括：

该管理节点向该第一进程所属的进程集群中的关联进程发送失效检测消息，以使该关联进程发送心跳包，以确定该关联进程的进程状态信息，该关联进程为该第一进程所述的进程集群中除第一进程以外的进程。

具体地，管理节点在接收到进程失效指示信息后，可以对该第一进程所属的进程集群发检测消息，以触发各处理节点获取所对应的关联进程的进程状态信息。这里所说的关联进程，可以理解为与第一进程同属于一个进程集群的其他进程，该关联进程可以是运行在该第一处理节点上的进程，也可以是运行在其他处理节点上的进程，本发明对此并未特别限定，只要是与该第一进程同属一个进程集群的其他进程，都可以称为该第一进程的关联进程。例如，图1中的进程131为第一进程，则进程132为关联进程。若图1中的进程131和进程141都为第一进程，则进程132和进程142都为关联进程。

管理节点通过触发对关联进程的检测，以获取进程集群中各进程的最新的进程状态信息，以便于管理节点作出正确及时的恢复策略，使得进程集群快速恢复正常运行状态。

可选地，该计算机集群系统还包括至少一个备用节点，该方法200还包括：

将该进程集群关系列表同步到该至少一个备用节点中，以便于该至少一个备用节点在该管理节点失效时，接管该管理节点。

具体地，该计算机集群系统可以将管理节点中的进程映射关系表项同步到备用节点中，当该管理节点宕机时，可以通过选举或其他方式选择一个备用节点用于接管该管理节点，管理该系统中的处理节点和进程。由此，更大程度地保证了该计算机集群系统的可靠性。

应理解，上述同步过程可以通过现有的技术手段来实现，本发明对此并未特别限定。还应理解，同步的具体内容包括但不仅限于进程映射关系表项，还可以包括管理节点中的配置文件等，本发明不应限于此。其他用于实现备用节点接管管理节点的同步方法和同步内容均落入本发明的保护范围内。

因此，本发明实施例的管理进程的方法，通过处理节点获取进程状态信息，并向管理节点上报进程状态信息，从而能够快速发现失效进程和恢复，进而提高计算机集群系统的可靠性，同时减少了心跳检测链路的数量，减少了管理节点的工作压力。

进一步地，通过专门的心跳链路来上报进程状态信息，避免了丢包、时延，进一步加快计算机集群系统的失效恢复过程，提高系统可靠性。

更进一步地，通过在管理节点建立进程映射关系表项，使得管理节点在出现进程失效或处理节点失效时，根据该进程映射关系表项，快速准确地执行失效恢复处理，提高恢复效率，减少系统中断时间，提高可靠性。

应理解，以上列举的通过处理节点向管理节点注册的方式获取进程映射关系表项的方式仅为示例性说明，本发明并不限于此。该进程映射关系表项也可以通过在系统启动前，在该系统中预先保存在配置文件中，本发明对此并未特别限定。

以上，结合图2详细说明了本发明实施例的管理进程的方法，以下，结合图3，详细说明失效恢复处理的过程。

图3示出了本发明实施例的失效恢复处理的示意性流程图。如图3所示，失效恢复处理的具体过程包括：

S301，管理节点根据接收到的进程失效指示信息，确定失效的进程。

具体地，管理节点根据进程失效指示信息中所携带的进程标识，再结合进程映射关系表项，便可以确定失效的进程(例如，上述第一进程)。在本发明实施例中，管理节点也可以根据处理节点上报的进程状态信息中的心跳消息，确定失效的进程。本发明对于确定失效的进程的具体方法并未特别限定。

相比较而言，处理节点直接向管理节点发送进程失效指示信息可以减小管理节点的工作压力，也可以减小网络传输量，同时也可以快速的发现失效的进程。

应注意，这里所说的第一进程可以为一个或多个。当确定第一进程失效时，可以根据第一进程的进程标识，确定所述的进程集群，进而确定该进程集群中的失效的进程。也就是说，当第一进程中包含有两个属于不同进程集群的进程时，可以根据该第一进程中每一个进程的进程标识，确定对应的进程集群，以及每个进程集群中失效的进程。

为便于说明，本发明以第一进程包含一个进程为例进行详细说明，当第一进程包含多个进程时，针对第一进程中的每个进程所执行的步骤相同。

可选地，管理节点根据接收到的节点状态信息，确定失效的处理节点。

具体地，管理节点可以预设处理节点的心跳周期和超时时间(即，上述预设时间的一例)，当在超时时间未接收到第一处理节点发送的心跳包时，则认为该第一处理节点处于失效状态。这里所说的处理节点失效，就是说该物理机宕机，运行在该物理机上的所有进程都处于失效状态，无法运行。

在本发明实施例中，管理节点可以根据预先保存的进程映射关系表项，查找该第一处理节点中的进程，从而针对每一个进程的发起失效恢复处理的流程。

S302，管理节点确定第一进程所属的进程集群。

具体地，管理节点根据第一进程的进程标识，查找进程映射关系表项中，得到第一进程对应的进程映射关系表项，并从该第一进程对应的进程映射关系表项中获取第一进程的进程集群标识，从而根据该进程集群标识确定该第一进程所属的进程集群(为方便说明和理解，记作目标进程集群)。

S303，管理节点确定第一进程所属的进程集群中失效的进程是否满足预设条件。

具体地，进程集群在启动之前，可以通过预先写入的配置文件来定义该进程集群的无法正常运行的预设条件，也就是说，当目标进程集群(即，第一进程所属的进程集群的一例)中的进程满足该预设条件时，该目标进程集群无法正常运行，需要执行S304，否则执行S305。

可选地，该预设条件为失效的进程数量达到预设的第一阈值，该管理节点根据该进程失效指示信息，确定该第一进程的数量大于或等于预设的第一阈值时，为该目标进程集群调度至少一个进程，以使该目标进程集群中失效的进程的数量小于该预设的数量阈值。

作为示例而非限定，当目标进程集群包括m个进程，且失效的进程数量超过m/2时，就无法正常运行；而当失效的进程数量低于m/2时，该进程集群仍然可以维持正常运行。该m/2即为第一阈值的一例。若目标进程集群中失效的进程数量大于该第一阈值时，执行S304；相反，若目标进程集群中存活的进程数量大于该第一阈值时，则执行S305。

应理解，这里列举的数量阈值的确定方法仅为示例性说明，不应对本发明构成任何限定，本发明也不应限于此。

又例如，该预设条件还可以为失效的进程重启失败的次数达到预设的第二阈值。当某一进程失效后，重启失败的次数大于或等于该预设的第二阈值时，表示该进程在当前处理节点上无法正常运行，需要执行S304；相反，若进程重启失败的次数小于该次数阈值，即该进程已重启后恢复，则执行S305。

需要说明的是，以上所述的失效进程的数量、重启失败次数都可以通过配置在处理节点或管理节点中的计数器来记数，本发明对此并未特别限定。

应理解，以上列举的预设条件仅为示例性说明，不应对本发明构成任何限定，本发明也不应限于此，其他用于判断是否需要调用进程的预设条件也落入本发明的保护范围。例如，该预设条件还可以为进程的磁盘空间等与进程相关的参数。

S304，管理节点确定该第一进程所属的进程集群中失效的进程数量满足预设条件时，为该第一进程所属的进程集群调度至少一个进程。

具体地，管理节点确定目标进程集群中失效的进程满足预设条件时，就可以从其他处理节点中为该目标进程集群调度至少一个进程，直至该目标进程集群能够正常运行。应注意，管理节点在为目标进程集群调度进程后，需要对该目标进程集群的配置文件进行修改，以接收新增进来的进程作为该目标进程集群的一个进程来运行。

需要说明的是，管理节点还可以监控每个物理机中的磁盘空间，当发现运行某进程的物理机磁盘空间不足时，可以为该进程寻找一个空间足够的物理机，将该进程迁移到该物理机中运行，或者，对该进程所属的进程集群进行扩容，即，为该进程集群新增新的进程，该新增的进程运行在其他物理机中，并对其配置使其加入到该进程集群中。

S305，管理节点确定该第一进程是否为主进程。

进一步地，管理节点还可以根据该第一进程的进程映射关系表项，确定该第一进程在进程集群中的角色，例如，在集中式集群中，该进程是主进程还是备用进程。

应理解，管理节点通过进程映射关系表项确定第一进程在进程集群中的角色的方法仅为示例性说明，不应对本发明构成任何限定，本发明也不应限于此。管理节点也可以通过进程在向处理节点注册时携带的信息中查找确定，本发明对此并未特别限定。

S306，管理节点确定该第一进程为主进程时，从该第一进程所属的进程集群中，选择一个备用进程作为主进程。

具体地，不失一般性，对于集中式集群来说，进程集群包括主进程和至少一个备用进程。当管理节点确定第一进程为主进程时，管理节点便可以查询进程映射关系表项，从目标进程集群中，选择一个备用进程作为目标进程集群的主进程。例如，该管理节点可以从该目标进程集群中处于存活状态的进程中选择一个数据版本最新的进程，作为新的主进程，并将该消息(为方便说明，记作进程指定消息)向该集群进程中的每个进程发布，以便于该集群进程中的每一个进程都在接收到该进程指定消息后，按照新的集群进程架构运行。

若管理节点确定该第一进程不是主进程，则执行S307。

应注意，当管理节点确定失效的进程不满足S303中所述的预设条件时，可以直接执行S305判断该失效的进程是否为主进程；当管理节点确定失效的进程满足S303中所述的预设条件时，需要先执行S304使目标进程集群中的进程数量得以维持该目标进程集群正常运行时，再执行S305进一步确定失效的进程是否为主进程。

S307，系统恢复正常运行。

因此，本发明实施例的方法，通过管理节点的统筹管理，为失效进程强制指定或者调用进程，避免的节点间漫长的选举过程，使得该计算机集群系统得以快速恢复，提高了系统可靠性。

以上，结合图2和图3详细说明了根据本发明实施例的管理进程的方法，以下，结合图4和图5详细说明根据本发明实施例的装置。

图4示出了根据本发明实施例的管理进程的装置400的示意性框图。该装置400配置于计算机集群系统中，该计算机集群系统包括该装置400和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上。如图4所示，该装置400包括接收模块410和处理模块420，其中，

该接收模块410用于接收第一处理节点发送的进程失效指示信息，该进程失效指示信息用于指示第一进程失效，该第一进程为运行在该第一处理节点上的进程中的至少一个进程，该进程失效指示信息携带该第一进程的进程标识；

该处理模块420用于根据该进程失效指示信息，执行失效恢复处理，以使该第一进程所属的进程集群正常运行。

可选地，该处理模块420具体用于根据该进程失效指示信息，确定该第一进程所属的进程集群，并在确定该第一进程所属的进程集群中失效的进程满足预设条件时，为该第一进程所属的进程集群调度至少一个进程，其中，预设条件包括：该第一进程所属的进程集群中失效的进程的数量达到预设的第一阈值，或第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值。

可选地，该处理模块420具体用于根据该进程失效指示信息，确定该第一进程所属的进程集群，并在确定该第一进程为主进程时，从该第一进程所属的进程集群中，选择一个备用进程作为主进程，其中，该第一进程所属的进程集群包括主进程和至少一个备用进程。

可选地，该接收模块410还用于在接收第一处理节点发送的进程失效指示信息之前，接收该第一处理节点发送的第一注册请求和第二注册请求，该第一注册请求携带该第一处理节点的节点标识，该第二注册请求携带该运行在该第一处理节点上的进程的进程标识以及进程集群标识；

该处理模块420还用于根据该第一注册请求和该第二注册请求，建立该第一处理节点的进程映射关系表项，该进程映射关系表项用于指示该第一处理节点和该第一处理节点上运行的每个进程的进程标识以及进程集群标识的映射关系，并根据每个处理节点的进程映射关系表项，生成进程映射关系表。

可选地，该处理模块420还用于根据该进程失效指示信息中携带的第一进程的进程标识，查找进程映射关系表，得到该第一进程对应的进程映射关系表项，从第一进程对应的进程映射关系表项中获取该第一进程的进程集群标识，并根据该进程集群标识确定该第一进程所属的进程集群。

可选地，该处理模块420还用于所属的，向该第一进程所属的进程集群中的关联进程发送失效检测消息，以使该关联进程发送心跳包，以确定该关联进程的进程状态信息，该关联进程为该第一进程所属的进程集群中除该第一进程以外的进程。

根据本发明实施例的用于传输报文的装置400可对应于根据本发明实施例的管理进程的方法中的管理节点，并且，该装置400中的各模块和上述其他操作和/或功能分别为了实现图2和图3中各个方法的相应流程，为了简洁，在此不再赘述。

因此，本发明实施例的管理进程的装置，通过处理节点获取进程状态信息，并向管理节点上报进程状态信息，从而能够快速发现失效进程和恢复，进而提高计算机集群系统的可靠性，同时减少了心跳检测链路的数量，减少了管理节点的工作压力，并且通过专门的心跳链路来上报进程状态信息，避免了丢包、时延，进一步加快计算机集群系统的失效恢复，提高系统可靠性。

图5示出了根据本发明另一实施例的管理进程的装置500的示意性框图。该装置500配置于计算机集群系统中，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上，该装置500为所述至少两个处理节点中的一个。如图5所示，该装置500包括处理模块510和发送模块520，其中，

该处理模块510用于确定第一进程的进程状态信息处于存活状态或者失效状态，该第一进程为运行在该装置500上的进程中的至少一个，该进程状态信息包括存活状态或者失效状态；

该发送模块520用于在该处理模块510确定该第一进程失效时，向该管理节点发送进程失效指示信息，该进程失效指示信息用于指示该第一进程处于失效状态。

可选地，该装置500还包括获取模块和生成模块，

该获取模块用于在该处理模块确定该第一进程的进程状态信息之前，获取该第一进程发送的心跳包，该心跳包用于指示该第一进程处于存活状态；

该生成模块用于根据该心跳包，生成该进程状态信息。

可选地，该装置还包括接收模块，用于接收该第一进程发送的注册请求，该注册请求携带该第一进程的进程标识以及进程集群标识；

该发送模块520还用于向该管理节点转发该注册请求。

根据本发明实施例的用于传输报文的装置500可对应于根据本发明实施例的管理进程的方法中的第一处理节点，并且，该装置500中的各模块和上述其他操作和/或功能分别为了实现图2和图3中各个方法的相应流程，为了简洁，在此不再赘述。

以上，结合图4和图5详细说明了根据本发明实施例的管理进程的装置，以下，结合图6和图7详细说明根据本发明实施例的管理进程的设备。

图6示出了根据本发明实施例的管理进程的设备600的示意性框图。该设备600配置于计算机集群系统中，该计算机集群系统包括该设备600和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上。如图6所示，该设备600包括接收器610、发送器620、处理器630、存储器640和总线系统650。其中，接收器610、发送器620、处理器630和存储器640通过总线系统650相连，该存储器640用于存储指令，该处理器630用于执行该存储器640存储的指令，以控制接收器640接收信号，并控制发送器620发送信号。

其中，该接收器610用于接收第一处理节点发送的进程失效指示信息，该进程失效指示信息用于指示第一进程失效，该第一进程为运行在该第一处理节点上的进程中的至少一个，该进程失效指示信息携带该第一进程的进程标识；

该处理器630用于根据该进程失效指示信息，执行失效恢复处理，以使该第一进程所属的进程集群正常运行。

可选地，该处理器630具体用于根据该进程失效指示信息，确定该第一进程所属的进程集群，并在确定该第一进程所属的进程集群中失效的进程满足预设条件时，为该第一进程所属的进程集群调度至少一个进程，其中，预设条件包括：该第一进程所属的进程集群中失效的进程的数量达到预设的第一阈值，或第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值。

可选地，该处理器630具体用于根据该进程失效指示信息，确定该第一进程所属的进程集群，并在确定该第一进程为主进程时，从该第一进程所属的进程集群中，选择一个备用进程作为主进程，其中，该第一进程所属的进程集群包括主进程和至少一个备用进程。

可选地，该接收器610还用于在接收第一处理节点发送的进程失效指示信息之前，接收该第一处理节点发送的第一注册请求和第二注册请求，该第一注册请求携带该第一处理节点的节点标识，该第二注册请求携带该运行在该第一处理节点上的进程的进程标识以及进程集群标识；

该处理器630还用于根据该第一注册请求和该第二注册请求，建立该第一处理节点的进程映射关系表项，该进程映射关系表项用于指示该第一处理节点和该第一处理节点上运行的每个进程以及进程集群标识的映射关系，并根据每个处理节点的进程映射关系表项，生成进程映射关系表。

可选地，该处理器630还用于根据该进程失效指示信息中携带的第一进程的进程标识，查找进程映射关系表，得到该第一进程对应的进程映射关系表项，从第一进程对应的进程映射关系表项中获取该第一进程的进程集群标识，并根据该进程集群标识确定该第一进程所属的进程集群。

可选地，该处理器630还用于向该第一进程所述的进程集群中的关联进程发送失效检测消息，以使该关联进程发送心跳包，以确定该关联进程的进程状态信息，该关联进程为该第一进程所属的进程集群中除该第一进程以外的进程。

应理解，在本发明实施例中，该处理器630可以是中央处理单元(centralprocessing unit，简称为“CPU”)，该处理器630还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该处理器640可以包括只读存储器和随机存取存储器，并向处理器630提供指令和数据。处理器640的一部分还可以包括非易失性随机存取存储器。例如，处理器640还可以存储设备类型的信息。

该总线系统650除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统650。

在实现过程中，上述方法的各步骤可以通过处理器630中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的定位方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器640，处理器630读取存储器640中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

根据本发明实施例的用于传输报文的设备600可对应于根据本发明实施例的管理进程的方法中的管理节点，并且，该设备600中的各模块和上述其他操作和/或功能分别为了实现图2和图3中各个方法的相应流程，为了简洁，在此不再赘述。

因此，本发明实施例的管理进程的设备，通过处理节点获取进程状态信息，并向管理节点上报进程状态信息，从而能够快速发现失效进程和恢复，进而提高计算机集群系统的可靠性，同时减少了心跳检测链路的数量，减少了管理节点的工作压力，并且通过专门的心跳链路来上报进程状态信息，避免了丢包、时延，进一步加快计算机集群系统的失效恢复，提高系统可靠性。

图7示出了根据本发明另一实施例的管理进程的设备700的示意性框图。该设备700配置于计算机集群系统中，该计算机集群系统包括管理节点和至少两个处理节点，该计算机集群系统上运行有进程集群，该进程集群中的每个进程运行在所部署的处理节点上，该设备700为所述至少一个处理节点中的一个。如图7所示，该设备700包括接收器710、发送器720、处理器730、存储器740和总线系统750。其中，接收器710、发送器720、处理器730和存储器740通过总线系统750相连，该存储器740用于存储指令，该处理器730用于执行该存储器740存储的指令，以控制接收器740接收信号，并控制发送器720发送信号。

其中，该处理器730用于确定第一进程的进程状态信息处于存活状态或者失效状态，该第一进程为运行在该设备700上的进程中的至少一个，该进程状态信息包括存活状态或者失效状态；

该发送器720用于在该处理器730确定该第一进程失效时，向该管理节点发送进程失效指示信息，该进程失效指示信息用于指示该第一进程处于失效状态。

可选地，该处理器730还用于在该处理模块确定该第一进程的进程状态信息之前，获取该第一进程发送的心跳包，该心跳包用于指示该第一进程处于存活状态，并根据该心跳包，生成该进程状态信息。

可选地，该接收器710用于接收该第一进程发送的注册请求，该注册请求携带该第一进程的进程标识以及进程集群标识；

该发送器720还用于向该管理节点转发该注册请求。

根据本发明实施例的用于传输报文的设备700可对应于根据本发明实施例的管理进程的方法中的第一处理节点，并且，该设备700中的各模块和上述其他操作和/或功能分别为了实现图2和图3中各个方法的相应流程，为了简洁，在此不再赘述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，RAM)、随机存取存储器(random access memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种管理进程的方法，其特征在于，所述方法应用于计算机集群系统，所述计算机集群系统包括管理节点和至少两个处理节点，所述计算机集群系统上运行有进程集群，所述进程集群中的每个进程运行在所部署的处理节点上，所述方法包括：

所述管理节点接收第一处理节点发送的进程失效指示信息，所述进程失效指示信息用于指示第一进程失效，所述第一进程为运行在所述第一处理节点上的进程中的至少一个，所述进程失效指示信息携带所述第一进程的进程标识；

所述管理节点根据所述进程失效指示信息，执行失效恢复处理，以使所述第一进程所属的进程集群正常运行。

2.根据权利要求1所述的方法，其特征在于，所述管理节点根据所述进程失效指示信息，执行失效恢复处理，包括：

所述管理节点根据所述进程失效指示信息，确定所述第一进程所属的进程集群；

所述管理节点确定所述第一进程所属的进程集群中失效的进程满足预设条件时，为所述第一进程所属的进程集群调度至少一个进程，其中，所述预设条件包括：所述第一进程所属的进程集群中失效的进程的数量达到预设的第一阈值，或所述第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值。

3.根据权利要求1所述的方法，其特征在于，所述管理节点根据所述进程失效指示信息，执行失效恢复处理，包括：

所述管理节点确定所述第一进程为主进程时，从所述第一进程所属的进程集群中，选择一个备用进程作为主进程，所述第一进程所属的进程集群包括主进程和至少一个备用进程。

4.根据权利要求2或3所述的方法，其特征在于，在所述管理节点接收第一处理节点发送的进程失效指示信息之前，所述方法还包括：

所述管理节点接收所述第一处理节点发送的第一注册请求和第二注册请求，所述第一注册请求携带所述第一处理节点的节点标识，所述第二注册请求携带运行在所述第一处理节点上的进程的进程标识以及进程集群标识；

所述管理节点根据所述第一注册请求和所述第二注册请求，建立所述第一处理节点的进程映射关系表项，所述进程映射关系表项用于指示所述第一处理节点和所述第一处理节点上运行的每个进程的进程标识以及进程集群标识的映射关系；

所述管理节点根据每个处理节点的进程映射关系表项，生成进程映射关系表。

5.根据权利要求4所述的方法，其特征在于，所述管理节点根据所述进程失效指示信息，确定所述第一进程所属的进程集群，包括：

所述管理节点根据所述进程失效指示信息中携带的所述第一进程的进程标识，查找所述进程映射关系表，得到所述第一进程对应的进程映射关系表项；

所述管理节点从所述第一进程对应的进程映射关系表项中获取所述第一进程的进程集群标识；

所述管理节点根据所述进程集群标识确定所述第一进程所属的进程集群。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述方法还包括：

所述管理节点向所述第一进程所属的进程集群中的关联进程发送失效检测消息，以使所述关联进程发送心跳包，以确定所述关联进程的进程状态信息，所述关联进程为所述第一进程所属的进程集群中除所述第一进程以外的进程。

7.一种管理进程的方法，其特征在于，所述方法应用于计算机集群系统，所述计算机集群系统包括管理节点和至少两个处理节点，所述计算机集群系统上运行有进程集群，所述进程集群中的每个进程运行在所部署的处理节点上，所述方法包括：

第一处理节点确定第一进程的进程状态信息，所述第一进程为运行在所述第一处理节点上的进程中的至少一个，所述进程状态信息包括存活状态或者失效状态；

所述第一处理节点在确定所述第一进程失效时，向所述管理节点发送进程失效指示信息，所述进程失效指示信息用于指示所述第一进程处于所述失效状态。

8.根据权利要求7所述的方法，其特征在于，在所述第一处理节点确定所述第一进程的进程状态信息之前，所述方法还包括：

所述第一处理节点获取所述第一进程发送的心跳包，所述心跳包用于指示所述第一进程处于存活状态；

所述第一处理节点根据所述心跳包，生成所述进程状态信息。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

所述第一处理节点接收所述第一进程发送的注册请求，所述注册请求携带所述第一进程的进程标识以及进程集群标识；

所述第一处理节点向所述管理节点转发所述注册请求。

10.一种管理进程的装置，其特征在于，所述装置配置于计算机集群系统中，所述计算机集群系统包括所述装置和至少两个处理节点，所述计算机集群系统上运行有进程集群，所述进程集群中的每个进程运行在所部署的处理节点上，所述装置包括：

接收模块，用于接收第一处理节点发送的进程失效指示信息，所述进程失效指示信息用于指示第一进程失效，所述第一进程为运行在所述第一处理节点上的进程中的至少一个，所述进程失效指示信息携带所述第一进程的进程标识；

处理模块，用于根据所述进程失效指示信息，执行失效恢复处理，以使所述第一进程所属的进程集群正常运行。

11.根据权利要求10所述的装置，其特征在于，所述处理模块具体用于，根据所述进程失效指示信息，确定所述第一进程所属的进程集群，并在确定所述第一进程所属的进程集群中失效的进程满足预设条件时，为所述第一进程所属的进程集群调度至少一个进程，其中，所述预设条件包括：所述第一进程所属的进程集群中失效的进程的数量达到预设的第一阈值，或所述第一进程所属的进程集群中失效的进程的重启失败次数达到预设的第二阈值。

12.根据权利要求10所述的装置，其特征在于，所述处理模块具体用于，根据所述进程失效指示信息，确定所述第一进程所属的进程集群，并在确定所述第一进程为主进程时，从所述第一进程所属的进程集群中，选择一个备用进程作为主进程，其中，所述第一进程所属的进程集群包括主进程和至少一个备用进程。

13.根据权利要求11或12所述的装置，其特征在于，所述接收模块还用于，在接收第一处理节点发送的进程失效指示信息之前，接收所述第一处理节点发送的第一注册请求和第二注册请求，所述第一注册请求携带所述第一处理节点的节点标识，所述第二注册请求携带运行在所述第一处理节点上的进程的进程标识以及进程集群标识；

所述处理模块还用于根据所述第一注册请求和所述第二注册请求，建立所述第一处理节点的进程映射关系表项，所述进程映射关系表项用于指示所述第一处理节点和所述第一处理节点上运行的进程的进程标识以及进程集群标识的映射关系，并根据每个处理节点的进程映射关系表项，生成进程映射关系表。

14.根据权利要求13所述的装置，其特征在于，所述处理模块还用于，根据所述进程失效指示信息中携带的所述第一进程的进程标识，查找所述进程映射关系表，得到所述第一进程对应的进程映射关系表项，从所述第一进程对应的进程映射关系表项中获取所述第一进程的进程集群标识，并根据所述进程集群标识确定所述第一进程所属的进程集群。

15.根据权利要求11至14中任一项所述的方法，其特征在于，所述处理模块还用于向所述第一进程所属的进程集群中的关联进程发送失效检测消息，以使所述关联进程发送心跳包，以确定所述关联进程的进程状态信息，所述关联进程为所述第一进程所属的进程集群中除所述第一进程以外的进程。

16.一种管理进程的装置，其特征在于，所述装置配置于计算机集群系统中，所述计算机集群系统包括管理节点和至少两个处理节点，所述计算机集群系统上运行有进程集群，所述进程集群中的每个进程运行在所部署的处理节点上，所述装置为所述至少两个处理节点中的一个，所述装置包括：

处理模块，用于确定第一进程的进程状态信息，所述第一进程为运行在所述装置上的进程中的至少一个，所述进程状态信息包括存活状态或者失效状态；

发送模块，用于在所述处理模块确定所述第一进程失效时，向所述管理节点发送进程失效指示信息，所述进程失效指示信息用于指示所述第一进程处于所述失效状态。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括获取模块和生成模块，

所述获取模块用于在所述处理模块确定所述第一进程的进程状态信息之前，获取所述第一进程发送的心跳包，所述心跳包用于指示所述第一进程处于存活状态；

所述生成模块用于根据所述心跳包，生成所述进程状态信息。

18.根据权利要求16或17所述的装置，其特征在于，所述装置还包括接收模块，用于接收所述第一进程发送的注册请求，所述注册请求携带所述第一进程的进程标识以及进程集群标识；

所述发送模块还用于向所述管理节点转发所述注册请求。