CN106572137B

CN106572137B - 一种分布式服务资源管理方法和装置

Info

Publication number: CN106572137B
Application number: CN201510655564.3A
Authority: CN
Inventors: 张杨; 冯亦挥; 欧阳晋; 韩巧焕; 李日敏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2020-04-24
Anticipated expiration: 2035-10-12
Also published as: CN106572137A

Abstract

本申请提供了一种分布式服务资源管理方法和装置，应用于基于作业管理机制的分布式系统，所述分布式系统包括资源调度器、机器节点和作业管理器。其中所述资源管理方法包括，在作业执行的过程中，当所述资源调度器、所述机器节点和所述作业管理器出现任意异常状态时，执行如下步骤：正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息；以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，并将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器，继而保证可靠的服务。

Description

一种分布式服务资源管理方法和装置

技术领域

本申请涉及互联网领域，尤其涉及一种分布式服务资源管理方法和装置。

背景技术

随着计算机技术和网络技术的快速发展，以及计算机应用范围的不断拓展，分布式系统的应用变得越来越广泛。分布式系统的最大特点是以全局方式管理系统的各种资源，进而为用户所提交的作业在系统中选择最合适的资源为该作业提供服务，在服务结束后，将结果返回给用户。在此过程中，用户并不感知为其提供服务的资源的具体所在，该些资源的分配及回收都由系统自动完成。因此分布式系统对资源的有效管理是非常重要的，是保证分布式系统提供可靠和正确服务的关键因素。

作业管理机制是分布式系统中应用较为广泛的作业任务提交方式，在基于作业管理机制的分布式系统的资源管理通常涉及三个单元：资源调度器、作业管理器及其下属作业、机器节点。资源调度器用于在分布式系统中协调、分配系统可用资源；机器节点用于在分布式系统中代表机器负责监管用户作业执行；作业管理器用于在分布式系统中控制本作业所有作业的角色，负责代表所有作业向资源调度器申请作业资源、以及向机器节点发送作业；作业用于在分布式系统中执行具体作业。

在上述基于作业管理机制的分布式系统中，资源调度器、作业管理器及机器节点不可避免的会出现异常，这将导致相应的作业执行被中断或出现错误，在异常状态下如何进行资源管理是保证作业不被中断并正确被执行的关键，目前业界对异常状态下的资源管理有以下两种方案：

1、异常状态下回收原有作业的资源，杀死原有作业，重新调度作业到新的机器节点上。

2、为资源调度器、各作业管理器以及各机器节点分别设置一个热备份，当异常时快速切换到相应的热备份上。

上述方法1虽然简单容易实现，但可能会造成不必要的资源浪费，例如对于离线作业来说，该作业在执行的开始阶段就将所需的全部数据拷贝到了本地，因此机器节点发生的网络故障并不影响该类作业的执行。若在网络故障时，采用方法1，将回收原有作业的资源，杀死原有作业，并重新调度新的作业到新的机器节点上。在这种场景下，回收作业的资源后，之前执行得到的中间结果全部被丢弃，而新的作业需要重新开始执行，造成了不必要的资源浪费。另外，对于在线服务来说，必须保证服务不被中断，这种杀死原有作业，重新调度新的作业的方法显然不可取。

上述方法2虽然在切到热备份上时，能继续从之前得到中间结果之后进行执行，但为所做的热备份同样浪费了很多资源。

上述传统的资源管理方法，会有以下问题：

1、造成资源的浪费，降低资源利用率和处理效率。

2、增加作业执行的时间，从而导致时间成本增加。

3、造成正在正常执行的作业的执行中断，从而造成相应业务的失败。

4、不够灵活，不能有选择的杀死异常的作业。

发明内容

本申请提供一种分布式服务资源管理方法和装置，以解决现有的分布式服务方法降低资源利用率和处理效率、时间成本增加、业务处理失败和不够灵活的问题。

为解决上述技术问题，本申请提供的分布式服务资源管理方法，包括：

优选的，在作业执行的过程中，当所述资源调度器、所述机器节点和所述作业管理器出现任意异常状态时，执行如下步骤：

正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息；

以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器；

收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务。

可选的，在所述收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务的步骤后，若判断所述异常状态未恢复，则依次执行权力要求1所述的各步骤。

可选的，所述任意异常状态具体包括以下异常之一或组合：

所述资源调度器重启；

正在运行的任意所述作业管理器重启；

正在运行的任意所述作业管理器超时；

正在运行的任意所述机器节点重启；

正在运行的任意所述机器节点超时。

优选的，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括以下消息之一或组合：

正在运行的与异常状态相关的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；

正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；

正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

可选的，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括正在运行的与异常状态相关的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；其中，

所述各所述作业管理器分别获取的当前各自的资源需求，包括以下获取方式之一，或组合：

所述作业管理器根据各自的启动文件，分别获取当前各自的资源占用信息；

所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求；

所述作业管理器根据各自的启动文件，以及属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求。

可选的，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；其中，

所述各所述机器节点分别获取的当前各自的资源占用信息，具体是指：各所述机器节点分别提取各自备份的本机器节点被占用的资源信息。

可选的，所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，包括：

若所述资源调度器状态未发生异常，则在所述评估的过程中，将所述资源调度器当前保存的全局资源占用信息作为优先级最高的用于评估并得到校正后的资源占用信息时所依据的对象；

若所述消息的内容包括所述各所述作业管理器分别获取的当前各自的资源需求，则在所述评估的过程中，将所述各所述作业管理器分别获取的当前各自的资源需求作为用于评估并得到校正后的资源占用信息时所依据的对象之一；

若所述消息的内容包括所述各所述机器节点分别获取的当前各自的资源占用信息，则在所述评估的过程中，将所述各所述机器节点分别获取的当前各自的资源占用信息作为用于评估并得到校正后的资源占用信息时所依据的对象之一；

若所述消息的内容包括正在运行的与异常状态相关的所述机器节点向所述资源调度器发送的所述请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求，则在所述评估的过程中，该请求消息不参与所述评估。

可选的，当所述异常状态为所述资源调度器重启时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：

正在运行的各所述作业管理器向重启后的所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；和，

正在运行的各所述机器节点向重启后的所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

可选的，所述以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器判断各所述作业管理器的资源需求与各所述机器节点的资源占用信息是否一致；

若一致，则保留原有的与该些一致的资源对应的资源占用状态，将相应的资源占用信息加入所述资源调度器生成的全局资源占用信息中；

若不一致，则以所述机器节点发送的消息中各机器节点的资源占用信息为依据，对该些不一致的资源对应的资源需求重新进行资源分配和回收，并将重新分配或回收的结果加入所述资源调度器生成的全局资源占用信息中；

将新生成的所述全局资源占用信息作为所述校正后的资源占用信息。

可选的，当所述异常状态为任意所述作业管理器重启时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

可选的，所述以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器判断各所述作业管理器的资源需求与所述全局资源占用信息中的各所述作业管理器各自的资源占用信息是否一致；

若一致，则保留原有的与该些一致的资源对应的资源占用状态；

若不一致，则以所述全局资源占用信息为依据，对与该些不一致的资源对应的资源需求重新进行资源分配和回收，并将重新分配或回收的结果替换所述全局资源占用信息中的相应的原有资源占用信息；

将所述重新分配或回收的结果作为所述校正后的资源占用信息。

可选的，当所述异常状态为任意所述作业管理器超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行如下步骤：

所述资源调度器启动新的作业管理器；

所述新的作业管理器接管已超时的原作业管理器之下的所有所述作业。

可选的，当所述异常状态为任意所述作业管理器超时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为所述新的各所述作业管理器分别获取的当前各自的资源需求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

可选的，所述以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器判断各所述新的作业管理器的资源需求与所述全局资源占用信息中的与所述新的作业管理器相应的已超时的各所述作业管理器各自的资源占用信息是否一致；

可选的，在所述收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务的步骤之后，执行以下步骤：

当发生超时的原作业管理器重新连接时，所述资源调度器通知重新连接的所述原作业管理器退出服务。

可选的，当所述异常状态为任意所述机器节点重启时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重启后的各所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，具体是指：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给重启后的各所述机器节点。

可选的，当所述异常状态为任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

以所述全局资源占用信息中已超时的各所述机器节点的资源占用信息，以及该些资源占用信息对应的作业为依据，所述资源调度器判断与该些资源占用信息对应的资源是否需要保留；

若需要保留，则保留该些资源的资源占用状态，；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

对与该些资源对应的资源需求重新进行资源分配，同时将重新分配的结果替换所述全局资源占用信息中的相应的原有资源占用信息；

将所述重新分配的结果对应的资源占用信息分别返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

可选的，当所述异常状态为任意所述机器节点超时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：发生超时的所述机器节点重新连接上时，重新连接上的所述机器向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，具体是指：根据已接收到的所述消息为依据，所述资源调度器评估无需根据所述消息重新计算资源占用信息，即将所述全局资源占用信息中保留的与重新连接上的所述机器节点相关的资源占用信息作为校正后的资源占用信息；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指所述资源调度器将所述校正后的资源占用信息返回给重新连接上的各所述机器节点。

可选的，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点重启时，包括：

若发生重启的任意所述作业管理器重启完成，则：

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收的所述作业管理器发送的消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指所述资源调度器将所述校正后的资源占用信息发送给涉及到需要重新进行资源分配与回收的各所述作业管理器和各所述机器节点；

此时异常状态未恢复，若发生重启的任意所述机器节点重启完成，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：重启后的各所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：以接收的所述机器节点发送的消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息发送给重启后的的各所述机器节点；

执行所述的收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务步骤，具体执行的步骤是：收到返回信息的所述机器节点，根据所述返回信息提供或终止相应服务。

可选的，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点超时，包括：

若发生重启的任意所述作业管理器重启完成，则：

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

此时异常状态未恢复，若发生超时的任意所述机器节重新连接，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求的步骤；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：根据已接收到的所述机器节点的消息为依据，所述资源调度器评估无需根据所述消息重新计算资源占用信息，即将所述全局资源占用信息中保留的与重新连接上的所述机器节点相关的资源占用信息作为所述校正后的资源占用信息；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的各所述机器节点；

执行所述的收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务步骤，具体执行的步骤是：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

可选的，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点超时，在所述重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求的步骤前，执行以下步骤：

所述资源调度器接收所述机器节点超时的消息；

若需要保留，则保留该些资源的资源占用状态，；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息中需要重新进行资源分配与回收的部分提供或终止相应服务。

可选的，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点重启时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

可选的，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点重启时，包括：

若发生重启的所述机器节点重启完成，则：

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给重启后的各所述机器节点；

此时异常状态尚未恢复，若发与生超时的任意所述作业管理器对应的所述新的作业管理器启动后，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述新的作业管理器分别获取的当前各自的资源需求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：以接收的所述新的作业管理器发送的消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

执行所述的收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务步骤，具体执行的步骤是：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

可选的，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

可选的，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，还执行以下步骤：

所述资源调度器接收所述机器节点超时的消息；

若需要保留，则保留该些资源的资源占用状态，；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

可选的，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，包括：

若发生超时的任意所述机器节点重新连接上后，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收的所述消息，所述资源调度器评估不需要依据所述消息重新计算资源占用信息，即不需要依据所述消息重新进行资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述全局资源占用信息中与重新连接上的各所述机器节点相关的部分返回给重新连接上的各所述机器节点；

此时异常状态未恢复，若与发生超时的任意所述作业管理器对应的所述新的作业管理器启动后，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为所述新的各所述作业管理器分别获取的当前各自的资源需求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体执行的步骤是：以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

若发生超时的所述作业管理器重新连接上后，所述资源调度器通知重新连接的所述作业管理器退出服务。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启时，执行如下步骤：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：正在运行的各所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；和，

重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行如下步骤：

所述资源调度器启动新的作业管理器；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，包括：

若所述资源调度器重启完成，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：正在运行的各所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以所述机器节点发送的消息为依据，所述资源调度器暂时保留该些消息中所包含的资源占用信息对应的资源，将该些消息中所包含的资源占用信息作为保存在所述资源调度器上的所述全局资源占用信息，同时作为校正后的资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点；

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：各所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述新的作业管理器分别获取的当前各自的资源需求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：所述资源调度器，以所述作业管理器发送的消息，以及当前保存的所述全局资源占用信息为依据，评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点；

执行所述的收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务步骤，具体执行的步骤是：收到返回信息的各所述作业管理器和各所述机器节点，根据所述返回信息提供或终止相应服务。

可选的，当所述异常状态为所述资源调度器重启，且任意所述机器节点重启时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括：

正在运行的所述机器节点在重启时，向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；和，

所述资源调度器重启后，正在运行的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体包括：

所述资源调度器重启完成后，以接收到的所述机器节点发送的消息，和所述作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体包括：

所述资源调度器重启完成后，所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述作业管理器；和，

所述资源调度器重启完成后且发生重启的所述机器节点重启完成后，所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述机器节点。

可选的，当所述异常状态为所述资源调度器重启，且任意所述机器节点超时，包括：

若所述资源调度器重启完成，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：正在运行的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以所述作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上，所述资源调度器评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器重启完成后，所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述作业管理器和各所述机器节点；

此时异常状态未恢复，若发生超时的任意所述机器节点重新连接后，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消步骤，具体执行的步骤是：重新连接的所述机器节点向所述资源调度器发送消息，所述消息为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求，

可选的，当所述异常状态为所述资源调度器重启，且任意所述机器节点超时，所述各所述作业管理器分别获取的当前各自的资源需求，至少包括以下两种：

所述作业管理器根据各自的启动文件，分别获取当前各自的资源占用信息；和，

相应的，所述正在运行的所述作业管理器向所述资源调度器发送消息，是指各所述作业管理器既发送内容为所述作业管理器根据各自的启动文件，获取的当前各自的资源占用信息的消息，又发送内容为所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而取得的当前各自的资源需求的消息。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点重启时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括：所述资源调度器重启后，且正在运行的所述作业管理器重启后，重启后的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；和，

正在运行的所述机器节点在重启时，向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体包括：所述资源调度器重启完成后，以接收到的所述作业管理器发送的消息，和所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体包括：所述资源调度器重启完成后，且发生重启的所述作业发生重启后，所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述作业管理器；和，

所述资源调度器重启完成后，且发生重启的所述机器节点重启完成后，所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述机器节点。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，包括：

若所述资源调度器重启完成，且发生重启的任意作业管理器重启完成，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重启后的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

此时异常状态未恢复，若所述资源调度器重启完成，且发生超时的任意所述机器节点重新连接上时，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：重新连接的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的所述机器节点；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，所述各所述作业管理器分别获取的当前各自的资源需求，至少包括以下两种：

相应的，所述重启后的所述作业管理器向所述资源调度器发送消息，是指各所述作业管理器既发送内容为所述作业管理器根据各自的启动文件，获取的当前各自的资源占用信息的消息，又发送内容为所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而取得的当前各自的资源需求的消息。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，在执行所述的所述资源调度器将所述校正后的资源占用信息返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器步骤时，包括：

若所述资源调度器在返回所述校正后的资源占用信息时，发现涉及到需要重新进行资源分配与回收的相应机器节点未连接时，所述资源调度器依据保存的所述全局资源占用信息，保留关于未连接上的相应机器节点的资源占用信息及该些占用信息对应的资源。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点重启时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点重启时，包括：

若所述资源调度器重启完成，且发生重启的任意机器节点重启完成，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重启后的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上，所述资源调度器评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述机器节点；

此时异常状态未恢复，若与生超时的任意所述作业管理器对应的所述新的作业管理器启动后，则依次执行以下步骤：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体执行的步骤是：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体执行的步骤是：以接收的所述新的作业管理器发送的消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器重启后，保留当前资源占用状态。

所述资源调度器启动新的作业管理器；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，包括：

若所述资源调度器重启完成，且发生超时的任意所述机器节点重新连接时，则：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：重新连接的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，具体是指：以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理步骤，具体是指：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的所述机器节点；

此时异常状态未恢复，若所述资源调度器重启完成，且与发生超时的任意所述作业管理器对应的所述新的作业管理器启动完成时，则依次执行以下步骤：

执行所述的以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理步骤，具体执行的步骤是：以接收到的所述新的作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理；

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器；

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理的步骤中，包括：

若发生超时的所述作业管理器对应的所述新的作业管理器迟于发生超时的所述机器节点重新连接上，则所述以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，具体是指以接收到的所述机器节点发送的消息为依据，资源调度器为未连接上的作业管理器保留其在各机器节点上相应的资源，进而评估并得到校正后的资源占用信息。

可选的，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述以接收到的所述新的作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理的步骤中，包括：

若发生超时的所述机器节点迟于发生超时的所述作业管理器对应的所述新的作业管理器重新连接上，具体是指以接收到的所述新的作业管理器发送的消息为依据，资源调度器为未连接上的机器节点保留其被占用的相应资源，进而评估并得到校正后的资源占用信息。

相应的，本申请还提供一种分布式服务资源管理装置，包括：

优选的，所述装置包括：

关于资源的需求的消息发送单元，用于正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息；

评估资源单元，用于以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理；

资源调度器返回资源占用信息单元，用于所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器；

机器节点和作业管理器处理单元，用于收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务。

可选的，所述关于资源的需求的消息发送单元中所述的异常状态具体包括以下异常之一或组合：

所述资源调度器重启；

正在运行的任意所述作业管理器重启；

正在运行的任意所述作业管理器超时；

正在运行的任意所述机器节点重启；

正在运行的任意所述机器节点超时。

相应的，本申请还提供一种分布式服务资源管理系统，所述系统包括资源调度器、作业管理器、机器节点，所述资源调度器负责协调所述作业管理器和所述机器节点，并对所述分布式系统中的资源进行分配和回收管理，具体包括：

所述资源调度器接收用户提交的作业请求，并启动相应的所述作业管理器；

所述资源调度器协调并为所述机器节点和所述作业管理器分配所述分布式系统中的可用资源；

根据资源分配结果，作业管理器将与用户提交的作业请求相应的作业分发至与已分配资源相应的机器节点上，并执行与所述作业请求相应的作业；

所述作业执行完毕后，所述资源调度器协调并回收所述作业占有的资源；

其中，所述资源调度器、各所述机器节点以及各所述作业管理器分别能以一定方式获取与资源分配或回收结果对应的当前与各自相关的资源占用信息；且在所述作业执行过程中，当所述资源调度器、所述机器节点和所述作业管理器出现任意异常状态时，执行如下步骤：

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器被配置成存储分布式服务资源管理装置，所述资源管理装置被所述处理器执行时，执行如下步骤：

在作业执行的过程中，当所述资源调度器、所述机器节点和所述作业管理器出现任意异常状态时，执行如下步骤：

本申请提供的分布式服务资源管理方法，包括：接收用户提交的作业请求；根据所述作业请求启动相应的作业管理器；所述作业管理器、机器节点以及资源调度器之间通过消息分发，完成资源分配的相应处理，同时各自能以一定方式获取与所述资源分配的结果对应的资源占用信息；根据所述资源分配的结果，执行相应的作业；所述作业用于完成所述作业请求；所述作业执行完毕，所述作业、所述作业管理器、所述机器节点以及所述资源调度器之间通过消息分发，完成资源回收的相应处理，同时在所述资源回收后，所述作业管理器、所述机器节点以及所述资源调度器能以一定方式获取当前的资源占用信息；其中，在所述作业执行的过程中，当所述资源调度器、所述作业管理器、所述机器节点出现异常状态时，相互间通过发送与所述资源占用信息相关的能使异常恢复的消息，使所述作业能够继续正确执行，从而保持对所述作业请求的正确处理。

所述分布式服务资源管理方法，首先不需要做任何的备份，且不需要中断正在正常执行的作业，从最大程度上节省了资源，提高了资源利用率和处理效率；其次由于该方法不需要中断正在正常执行的作业，不仅不会增加不必要的重复执行相应作业时间，节省了时间成本，同时从最大程度上保证了作业的连续执行，避免了不必要的业务失败；最后，该方法能够根据不同的业务进行配置，进而有选择的杀死已经不能继续正确执行的作业，同时也可以灵活的设置其它条件作为是否杀死作业的条件，例如将作业是否为离线作业作为判断条件，并且该方法能覆盖100％的故障场景，因此该方法既可靠，且灵活性好。

附图说明

图1是本申请第一实施例提供的分布式服务资源管理方法的流程示意图。

图2是本申请第二实施例提供的分布式服务资源管理装置的流程示意图。

图3是本申请第三实施例提供的分布式服务资源管理系统的流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，分别提供了一种分布式服务资源管理方法和装置，在下面的实施例中逐一进行详细说明。

本实施例应用于基于作业管理机制的分布式系统中，所述分布式系统包括资源调度器、机器节点和作业管理器。所述资源调度器接收用户提交的作业请求，启动相应的作业管理器，并负责协调和对所述分布式系统中的资源进行分配和回收管理，根据资源分配和回收结果，作业管理器将与用户提交的作业请求相应的作业分发至与已分配资源相应的机器节点上，最终所述作业管理器和所述机器节点根据所述已分配的资源提供相应服务，以保证所述作业的正确执行。

在大型分布式系统中，不可避免的会出现异常状态，例如对于本申请所应用的基于作业管理机制的分布式系统，在所述作业执行的过程中，所述资源调度器、所述作业管理器和所述机器节点有可能出现任意异常状态，具体来说，所述任意异常状态具体包括以下异常之一，或组合：

1)所述资源调度器重启；

2)正在运行的任意所述作业管理器重启；

3)正在运行的任意所述作业管理器超时；

4)正在运行的任意所述机器节点重启；

5)正在运行的任意所述机器节点超时。

当所述资源调度器、所述机器节点和所述作业管理器出现上述任意异常状态时，通过本申请所述的分布式服务资源管理方法使状态恢复正常。

请参考图1，其为本申请第一实施例提供的分布式服务资源管理方法的流程示意图。所述方法包括如下步骤：

步骤101：正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息。

在本申请所述的分布式系统中，资源调度器负责对资源进行分配和回收管理，那么在系统发生异常后，首先资源调度器需要获取各机器节点和各工种管理器具体的资源占用状态，才能协调机器节点和作业管理器获取正常的资源占用信息，从而提供正确的服务。资源调度器获取各机器节点和各工种管理器具体的资源占用状态的途径是：正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体来说包括以下消息之一或组合：

1)正在运行的与异常状态相关的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求。

其中所述各所述作业管理器分别获取的当前各自的资源需求，包括以下获取方法之一，或组合：

a)所述作业管理器根据各自的启动文件，分别获取当前各自的资源占用信息。

b)所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求。

c)所述作业管理器根据各自的启动文件，以及属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求。

2)正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息。

其中，所述各所述机器节点分别获取的当前各自的资源占用信息，具体是指：各所述机器节点分别提取各自备份的本机器节点被占用的资源信息。

3)正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤102：以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

通常一个资源调度器要协调许多机器节点和许多作业管理器提供服务，如步骤101所述，资源调度器会获取不同种类的消息用于恢复异常，在本实施例中，依据不同种类的消息评估资源占用状态，进而恢复异常的方法包括：

1)若所述资源调度器状态未发生异常，则在所述评估的过程中，将所述资源调度器当前保存的全局资源占用信息作为优先级最高的用于评估并得到校正后的资源占用信息时所依据的对象。

2)若所述消息的内容包括所述各所述作业管理器分别获取的当前各自的资源需求，则在所述评估的过程中，将所述各所述作业管理器分别获取的当前各自的资源需求作为用于评估并得到校正后的资源占用信息时所依据的对象之一。

3)若所述消息的内容包括所述各所述机器节点分别获取的当前各自的资源占用信息，则在所述评估的过程中，将所述各所述机器节点分别获取的当前各自的资源占用信息作为用于评估并得到校正后的资源占用信息时所依据的对象之一。

4)若所述消息的内容包括正在运行的与异常状态相关的所述机器节点向所述资源调度器发送的所述请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求，则在所述评估的过程中，该请求消息不参与所述评估。

步骤103：所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器。

与步骤101相应，资源调度器需将校正后的资源占用信息返回给需要重新进行资源分配和回收的各所述机器节点和各所述作业管理器，才能使各机器节点和各作业管理器正确提供服务，资源调度器返回如下消息：

资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述机器节点；和/或，

资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述作业管理器。

步骤104：收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务。

执行完上述步骤后，若所述异常状态未恢复，则依次重复执行所述的如下步骤：

正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，

以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，

所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器，

下面分别对上述具体的异常状态来具体说明。

异常状态一：资源调度器重启。

当资源调度器重启时，需要尽快获取重启前的资源占用信息从而恢复到重启前的状态，从而不影响各机器节点和各作业管理器正在提供的服务。本申请所述的方法通过从正在运行的各作业管理器和正在运行的各机器节点处获取重启前的资源占用信息，使资源调度器快速恢复到重启前的状态，主要步骤包括：

步骤201：正在运行的各所述作业管理器向重启后的所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；和，

正在运行的各所述机器节点向重启后的所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息。

在资源调度器重启的异常下，正在运行的各作业管理器，以及正在运行的各机器节点状态都是正常的，分布在各机器节点上的作业也是正常执行的，在这种情况下，只要资源调度器在重启后，各作业管理器和各机器节点能够将各自的资源占用状态通知到资源调度器，资源调度器就能够获取其重启前所了解的资源占用信息。

在本实施例中，正在运行的各所述作业管理器根据各自的启动文件，分别获取当前各自的资源占用信息，并将这些信息以消息的形式发送给资源调度器。另外，正在运行的各所述机器节点分别提取各自备份的本机器节点被占用的资源信息，并将这些信息以消息的形式发送给资源调度器。

步骤202：以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

具体执行步骤为：

202-1：以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器判断各所述作业管理器的资源需求与各所述机器节点的资源占用信息是否一致。

202-2：若一致，则保留原有的与该些一致的资源对应的资源占用状态，将相应的资源占用信息加入所述资源调度器生成的全局资源占用信息中。

202-3：若不一致，则以所述机器节点发送的消息中各机器节点的资源占用信息为依据，对该些不一致的资源对应的资源需求重新进行资源分配和回收，并将重新分配或回收的结果加入所述资源调度器生成的全局资源占用信息中。

202-4：将新生成的所述全局资源占用信息作为所述校正后的资源占用信息。

步骤203：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

步骤204：收到返回信息的各所述作业管理器和各所述机器节点，根据所述返回信息提供或终止相应服务。

在上述步骤中，资源调度器在评估资源时，会以各作业管理器发送的资源需求为依据，同时会参考机器节点发来的资源占用信息，尽可能的保持重启之前的资源占用状态，维持资源稳定，从而各作业管理器和各机器节点还能以资源调度器重启前的资源占用状态提供服务，且不中断正在执行中的各作业的执行。

异常状态二：正在运行的任意所述作业管理器重启。

当正在运行的任意所述作业管理器重启时，发生重启的作业管理器在重启后，仍然能够从本作业管理器的启动文件中获得由本作业管理器分发的作业的信息，并且由本作业管理器分发的作业会主动联系本作业管理器，从而本作业管理器根据各自的启动文件，以及属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求，并向资源调度器发送请求来恢复重启前的状态。主要步骤包括：

步骤301：重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求。

步骤302：以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。具体执行以下步骤：

302-1：以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器判断各所述作业管理器的资源需求与所述全局资源占用信息中的各所述作业管理器各自的资源占用信息是否一致。

302-2：若一致，则保留原有的与该些一致的资源对应的资源占用状态。

302-3：若不一致，则以所述全局资源占用信息为依据，对与该些不一致的资源对应的资源需求重新进行资源分配和回收，并将重新分配或回收的结果替换所述全局资源占用信息中的相应的原有资源占用信息。

302-4：将所述重新分配或回收的结果作为所述校正后的资源占用信息。

步骤303：所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

步骤304：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

在上述步骤中，资源调度器在评估资源时，会以各作业管理器发送的资源需求为依据，同时会参考全局资源占用信息，尽可能的保持重启之前的资源占用状态，维持资源稳定，从而各作业管理器和各机器节点还能以资源调度器重启前的资源占用状态提供服务，且不中断正在执行中的各作业的执行。

异常状态三：正在运行的任意所述作业管理器超时。

作业管理器所在机器网络故障会导致作业管理器与资源调度器连接超时，此时，资源调度器检测到作业管理器超时后，会触发在一台正常工作的机器上启动新的作业管理器，并由该新的作业管理器接管已超时的原作业管理器之下的所有所述作业。进而，新的作业管理器启动后，能够从本作业管理器的启动文件中获得由本作业管理器接管的作业的信息，并且由本作业管理器接管的作业会主动联系本作业管理器，从而本作业管理器根据各自的启动文件，以及属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求，并向资源调度器发送请求来恢复原作业管理器超时前的状态。主要步骤包括：

步骤401：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为所述新的各所述作业管理器分别获取的当前各自的资源需求。

步骤402：以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。具体执行以下步骤：

402-1：以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器判断各所述新的作业管理器的资源需求与所述全局资源占用信息中的与所述新的作业管理器相应的已超时的各所述作业管理器各自的资源占用信息是否一致；

402-2：若一致，则保留原有的与该些一致的资源对应的资源占用状态；

402-3：若不一致，则以所述全局资源占用信息为依据，对与该些不一致的资源对应的资源需求重新进行资源分配和回收，并将重新分配或回收的结果替换所述全局资源占用信息中的相应的原有资源占用信息；

402-4：将所述重新分配或回收的结果作为所述校正后的资源占用信息。

步骤403：所述资源调度器将所述校正后的资源占用信息分别返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

步骤404：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

在步骤404之后，执行以下步骤：

在上述步骤中，资源调度器在评估资源时，会以所述新的作业管理器发送的资源需求为依据，同时参考在所述全局资源占用信息中的原作业管理器的资源占用信息，尽可能保持重启之前的资源占用状态，保持资源稳定，从而不中断正在执行中的各作业的执行。

异常状态三：正在运行的任意所述机器节点重启。

机器节点是运行在机器上的一个程序，与资源调度器通信，根据其备份的该机器节点的资源占用信息监管作业的执行。当正在运行的任意机器节点重启后，发送重启的机器节点会主动向资源调度器请求在本机器节点上的重启前的所有资源占用信息，机器节点在得到资源占用信息后，就可以根据资源占用信息继续监管作业的执行。主要步骤包括：

步骤501：重启后的各所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤502：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息。

步骤503：所述资源调度器将所述校正后的资源占用信息返回给重启后的各所述机器节点。

步骤504：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态五：正在运行的任意机器节点超时。

当机器节点与资源调度器的网络中断导致机器节点与资源调度器连接超时后，资源调度器倾向于认为这台机器节点出现了异常，但此时，在发生超时的机器节点上的有些作业仍然在正常的执行，并不希望自己的资源被回收，因此资源调度器在回收发生超时的机器节点上的资源时，会保留上述不希望被回收的资源，且不中断上述作业的正常执行。待超时的机器重新连接时，就可以重新获取上述保留的资源对应的资源占用信息，从而继续本机器节点上作业的执行。在进行重新获取保留的资源对应的资源占用信息的主要步骤前，资源调度器需要先保留相应的资源占用信息，具体步骤为：

步骤601：所述资源调度器接收所述机器节点超时的消息。

步骤602：以所述全局资源占用信息中已超时的各所述机器节点的资源占用信息，以及该些资源占用信息对应的作业为依据，所述资源调度器判断与该些资源占用信息对应的资源是否需要保留。

步骤603：若需要保留，则保留该些资源的资源占用状态。

步骤604：若不需要保留，则执行以下步骤：

604-1对该些资源进行回收。

604-2对与该些资源对应的资源需求重新进行资源分配，同时将重新分配的结果替换所述全局资源占用信息中的相应的原有资源占用信息。

604-3将所述重新分配的结果对应的资源占用信息分别返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

604-4收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

使机器节点超时的异常状态恢复主要步骤包括：

步骤701：发生超时的所述机器节点重新连接上时，重新连接上的所述机器向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤702：根据已接收到的所述消息为依据，所述资源调度器评估无需根据所述消息重新计算资源占用信息，即将所述全局资源占用信息中保留的与重新连接上的所述机器节点相关的资源占用信息作为校正后的资源占用信息。

步骤703：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的各所述机器节点。

步骤704：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态六：正在运行的任意作业管理器重启，且正在运行的任意机器节点重启。

正在运行的任意作业管理器重启，且正在运行的任意机器节点重启时，由于资源调度器的状态是好的，所以资源调度器上保存的全局资源占用信息能反映异常前的所有资源占用状态，发生重启的作业管理器，以及发送重启的机器节点在重启完成后，会分别向资源调度器获取各自在重启前的资源占用信息，从而尽可能的不中断正在执行中的各作业的执行。

在本实施例中，假定发生重启的作业管理器先重启完成，发生重启的机器节点后重启完成，主要步骤包括：

步骤801：重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求。

步骤802：以接收的所述作业管理器发送的消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

步骤803：所述资源调度器将所述校正后的资源占用信息发送给涉及到需要重新进行资源分配与回收的各所述作业管理器和各所述机器节点。

步骤804：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应的服务。

步骤805：若发生重启的任意所述机器节点重启完成，则执行以下步骤：

805-1：重启后的各所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

805-2：以接收的所述机器节点发送的消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息。

805-3：所述资源调度器将所述校正后的资源占用信息发送给重启后的各所述机器节点。

805-4：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态七：正在运行的任意作业管理器重启，且正在运行的任意机器节点超时。

此时，由于资源调度器的状态是好的，所以资源调度器上保存的全局资源占用信息能反映异常前的所有资源占用状态，发生重启的作业管理器在重启完成后，以及发生超时的机器节点在重新连接后，会分别向资源调度器获取各自在异常前的资源占用信息，从而尽可能的不中断正在执行中的各作业的执行。

在本实施例中，假定发生重启的作业管理器先重启完成，发生超时的机器节点后与资源调度器建立连接，主要步骤包括：

若发生重启的任意所述作业管理器重启完成，则执行以下步骤：

步骤901：重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求。

步骤902：以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

具体评估方法在前面的实施例中已详细描述，此处不再赘述。

步骤903：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

步骤904：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

步骤905：若发生超时的任意所述机器节重新连接，则执行以下步骤：

905-1：重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

905-2：根据已接收到的所述机器节点的消息为依据，所述资源调度器评估无需根据所述消息重新计算资源占用信息，即将所述全局资源占用信息中保留的与重新连接上的所述机器节点相关的资源占用信息作为所述校正后的资源占用信息。

905-3：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的各所述机器节点。

905-4：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

在执行上述905-1步骤前，即机器节点超时，需要资源调度器保留与超时的机器节点相关的资源占用信息，才能在超时的机器节点重新连接上时，获取到这部分资源占用信息，因此在机器节点超时，先执行以下步骤：

1001所述资源调度器接收所述机器节点超时的消息。

1002以所述全局资源占用信息中已超时的各所述机器节点的资源占用信息，以及该些资源占用信息对应的作业为依据，所述资源调度器判断与该些资源占用信息对应的资源是否需要保留。

1003若需要保留，则保留该些资源的资源占用状态。

1004若不需要保留，则执行以下步骤：

1004-1对该些资源进行回收。

1004-2对与该些资源对应的资源需求重新进行资源分配，同时将重新分配的结果替换所述全局资源占用信息中的相应的原有资源占用信息。

1004-3将所述重新分配的结果对应的资源占用信息分别返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

1004-4收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

在上述步骤中，由于重启后的作业管理器，以及发生超时的机器节点都是以保存在资源调度器上的全局资源占用信息分别获取各自在异常前的资源占用信息，因此也适用于发生超时的机器节点先与资源调度器建立连接，发生重启的作业管理器后启动完成的情况。

异常状态八：正在运行的任意作业管理器超时，且正在运行的任意机器节点重启。

此时，由于资源调度器的状态是好的，所以资源调度器上保存的全局资源占用信息能反映异常前的所有资源占用状态，在恢复发生超时的作业管理器异常后，以及发生重启的机器节点重新启动后，会分别向资源调度器获取各自在异常前的资源占用信息，从而尽可能的不中断正在执行中的各作业的执行。另外，如异常状态三所述，当作业管理器发生超时后，资源调度器会启动新的作业管理器，由新的作业管理器接管已超时的原作业管理器之下的所有作业，并且新的作业管理器能够根据本作业管理器的启动文件，以及属于各自的作业所汇报的信息进行综合计算，并取得各自当前的资源需求。

在本实施例中，假定发生重启的机器节点先重启完成，与发生超时的作业管理器对应的新的作业管理器后与资源调度器建立连接，使异常恢复的资源管理方法主要步骤包括：

若发生重启的所述机器节点重启完成，执行以下步骤：

步骤1101：重启后的各所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤1102：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息。

步骤1103：所述资源调度器将所述校正后的资源占用信息返回给重启后的各所述机器节点。

步骤1104：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

步骤1105：若发与生超时的任意所述作业管理器对应的所述新的作业管理器启动后，执行以下步骤：

1105-1：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述新的作业管理器分别获取的当前各自的资源需求。

1105-2：以接收的所述新的作业管理器发送的消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

1105-3：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

1105-4：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

在步骤1105-4之后，执行以下步骤：

在上述步骤中，由于重启后的机器节点，以及发生超时的作业管理器都是以保存在资源调度器上的全局资源占用信息分别获取各自在异常前的资源占用信息，因此也适用于与发生超时的作业管理器对应的新的作业管理器先与资源调度器建立连接，发生重启的机器节点后启动完成的情况。

异常状态九：正在运行的任意作业管理器超时，且正在运行的任意机器节点超时。

此时，由于资源调度器的状态是好的，所以资源调度器上保存的全局资源占用信息能反映异常前的所有资源占用状态，在恢复发生超时的作业管理器异常后，以及发生超时的机器节点与资源调度器重新连接后，会分别向资源调度器获取各自在异常前的资源占用信息，从而尽可能的不中断正在执行中的各作业的执行。另外，如异常状态三所述，当作业管理器发生超时后，资源调度器会启动新的作业管理器，由新的作业管理器接管已超时的原作业管理器之下的所有作业，并且新的作业管理器能够根据本作业管理器的启动文件，以及属于各自的作业所汇报的信息进行综合计算，并取得各自当前的资源需求。

在机器节点超时，需要资源调度器保留与超时的机器节点相关的资源占用信息，才能在超时的机器节点重新连接上时，获取到这部分资源占用信息，因此在机器节点超时，先执行以下步骤：

1201：所述资源调度器接收所述机器节点超时的消息。

1202：以所述全局资源占用信息中已超时的各所述机器节点的资源占用信息，以及该些资源占用信息对应的作业为依据，所述资源调度器判断与该些资源占用信息对应的资源是否需要保留。

1203：若需要保留，则保留该些资源的资源占用状态。

1204：若不需要保留，则执行以下步骤：

1204-1：对该些资源进行回收。

1204-2：对与该些资源对应的资源需求重新进行资源分配，同时将重新分配的结果替换所述全局资源占用信息中的相应的原有资源占用信息。

1204-3：将所述重新分配的结果对应的资源占用信息分别返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

1204-4：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

使异常恢复的资源管理方法主要步骤包括：

若发生超时的任意所述机器节点重新连接上后，执行以下步骤：

步骤1301：重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤1302：以接收的所述消息，所述资源调度器评估不需要依据所述消息重新计算资源占用信息，即不需要依据所述消息重新进行资源分配与回收管理。

步骤1303：所述资源调度器将所述全局资源占用信息中与重新连接上的各所述机器节点相关的部分返回给重新连接上的各所述机器节点。

步骤1304：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

步骤1305：若与发生超时的任意所述作业管理器对应的所述新的作业管理器启动后，执行以下步骤：

1305-1：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为所述新的各所述作业管理器分别获取的当前各自的资源需求，

1305-2：以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，

1305-3：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器，

1305-4：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

在所述1305-4步骤后，执行以下步骤：若发生超时的所述作业管理器重新连接上后，所述资源调度器通知重新连接的所述作业管理器退出服务。

异常状态十：资源调度器重启，且正在运行的任意作业管理器重启。

此时，只有机器节点的状态是好的，使异常恢复的资源管理方法主要步骤包括：

步骤1401：正在运行的各所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；和，

重启后的各所述作业管理器向所述资源调度器发送消息，所述消息的内容为重启后的各所述作业管理器分别获取的当前各自的资源需求。

步骤1402：以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

步骤1403：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

步骤1404：收到返回信息的各所述作业管理器和各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态十一：资源调度器重启，且正在运行的任意作业管理器超时。

此时，只有机器节点的状态是好的，当资源调度器重启完成后，仅能收到机器节点发来的资源占用信息，资源调度器会暂时为正在执行的作业保留这些资源占用信息对应的资源，使在作业管理器没有连接上时，作业也能正常执行。当作业管理器重新连接时，再评估资源，并尽可能的持重启之前的资源占用状态，维持资源稳定。

资源调度器在重启后，检测到作业管理器超时后，会启动新的作业管理器，并由新的作业管理器接管已超时的原作业管理器之下的所有所述作业。新的作业管理器根据各自的启动文件，以及属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求，并向资源调度器发送请求来恢复原作业管理器超时前的状态。

使异常恢复的资源管理方法的主要步骤包括：

1501：正在运行的各所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息。

1502：所述资源调度器接收到所述机器节点发送的消息后，以所述机器节点发送的消息为依据，暂时保留该些消息中所包含的资源占用信息对应的资源，将该些消息中所包含的资源占用信息作为保存在所述资源调度器上的所述全局资源占用信息，同时作为校正后的资源占用信息，继而进行相应的资源分配与回收管理。

1503：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

1504：收到返回信息的各所述作业管理器和各所述机器节点，根据所述返回信息提供或终止相应服务。

1505：若与发生超时的任意所述作业管理器对应的所述新的作业管理器启动后，执行以下步骤：

1505-1：各所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述新的作业管理器分别获取的当前各自的资源需求。

1505-2：所述资源调度器，以所述作业管理器发送的消息，以及当前保存的所述全局资源占用信息为依据，评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

1505-3：所述资源调度器将所述校正后的资源占用信息分别返回给正在运行的各所述作业管理器和各所述机器节点。

1505-4：收到返回信息的各所述作业管理器和各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态十二：资源调度器重启，且正在运行的任意机器节点重启。

当资源调度器重启时，资源调度器会等待机器节点连接上来，并等待接收各机器节点发送的本机器节点的资源占用信息，同时等待接收各作业管理器发来的资源需求。此时，发生重启的机器节点会将本机器节点上备份的本机器节点被占用的资源信息提出出来，并发送给资源调度器。由此，资源调度器评估资源，并尽可能的持重启之前的资源占用状态，维持资源稳定。主要步骤包括：

步骤1601：正在运行的所述机器节点在重启时，向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；和，所述资源调度器重启后，正在运行的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求。

步骤1602：所述资源调度器重启完成后，以接收到的所述机器节点发送的消息，和所述作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤1603：所述资源调度器重启完成后，所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述作业管理器；和，所述资源调度器重启完成后且发生重启的所述机器节点重启完成后，所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述机器节点。

步骤1604：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

异常状态十三：资源调度器重启，且正在运行的任意机器节点超时。

当资源调度器重启时，资源调度器会等待机器节点连接上来，并等待接收各机器节点发送的本机器节点的资源占用信息，同时等待接收各作业管理器发来的资源需求。此时，若存在有机器节点发生超时则资源调度器无法获知发生超时的机器节点的状态。因此当资源调度器重启时，正在运行的各作业管理器不仅会向资源调度器发送本作业管理器当前的资源需求，还会从本作业管理器的启动文件中获取本作业管理器在启动时的原始资源需求，并将这些在启动时的原始资源需求发送给资源调度器，从而使资源调度器获取关于超时的机器节点上的资源占用信:息，并保留相应的资源。由此，资源调度器评估资源，并尽可能的持重启之前的资源占用状态，维持资源稳定。主要步骤包括：

若所述资源调度器重启完成，则执行以下步骤：

步骤1701：正在运行的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求。

所述各所述作业管理器分别获取的当前各自的资源需求，至少包括以下两种：

1)所述作业管理器根据各自的启动文件，分别获取当前各自的资源占用信息。

2)所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求。

步骤1702：以所述作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上，所述资源调度器评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤1703：所述资源调度器重启完成后，所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述作业管理器和各所述机器节点。

步骤1704：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

步骤1705：若发生超时的任意所述机器节点重新连接后，执行以下步骤：

1705-1：重新连接的所述机器节点向所述资源调度器发送消息，所述消息为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

1705-2：根据已接收到的所述机器节点的消息为依据，所述资源调度器评估无需根据所述消息重新计算资源占用信息，即将所述全局资源占用信息中保留的与重新连接上的所述机器节点相关的资源占用信息作为所述校正后的资源占用信息。

1705-3：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的各所述机器节点。

1705-4：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态十四：资源调度器重启，且正在运行的任意作业管理器重启，且正在运行的任意机器节点重启。

步骤1801：重启后的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；和，

正在运行的所述机器节点在重启时，向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息。

步骤1802：以接收到的所述作业管理器发送的消息，和所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤1803：所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述作业管理器；和，

步骤1804：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

异常状态十五：资源调度器重启，且正在运行的任意作业管理器重启，且正在运行的任意机器节点超时。

当资源调度器重启时，资源调度器会等待机器节点和作业管理器连接上来，并等待接收各机器节点发送的本机器节点的资源占用信息，同时等待接收各作业管理器发来的资源需求。此时，若存在有机器节点发生超时则资源调度器无法获知发生超时的机器节点的状态。因此当资源调度器重启时，正在运行的各作业管理器或重启后的作业管理器不仅会向资源调度器发送本作业管理器当前的资源需求，还会从本作业管理器的启动文件中获取本作业管理器在启动时的原始资源需求，并将这些在启动时的原始资源需求发送给资源调度器，从而使资源调度器获取关于超时的机器节点上的资源占用信:息，并保留相应的资源。由此，资源调度器评估资源，并尽可能的持重启之前的资源占用状态，维持资源稳定。主要步骤包括：

若所述资源调度器重启完成，且发生重启的任意作业管理器重启完成，则执行以下步骤：

步骤1901：重启后的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求。

所述作业管理器根据属于各自的作业所汇报的信息进行综合计算，进而分别取得当前各自的资源需求。

步骤1902：以所述作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上，所述资源调度器评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤1903：所述资源调度器将所述校正后的资源占用信息返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

在执行步骤1903时，还包括：

步骤1904：收到返回信息的各所述作业管理器，根据所述返回信息提供或终止相应服务。

步骤1905：若所述资源调度器重启完成，且发生超时的任意所述机器节点重新连接上时，则执行以下步骤：

1905-1：重新连接的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

1905-2：以接收到的所述消息为依据，所述资源调度器评估无需重新计算资源占用信息，即将所述全局资源占用信息中与重启的各所述机器节点相关的资源占用信息作为校正后的资源占用信息。

1905-3：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的所述机器节点。

1905-4：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

异常状态十六：资源调度器重启，且正在运行的任意作业管理器超时，且正在运行的任意机器节点重启。

当资源调度器重启时，资源调度器会等待机器节点和作业管理器连接上来，并等待接收各机器节点发送的本机器节点的资源占用信息，同时等待接收各作业管理器发来的资源需求。此时，发生重启的机器节点会将本机器节点上备份的本机器节点被占用的资源信息提出出来，并发送给资源调度器。由此，资源调度器将以机器节点发送的资源占用信息为依据，保留发生超时的作业管理器所需的资源并评估资源，尽可能的持重启之前的资源占用状态，维持资源稳定。另外，资源调度器重启后，会根据机器节点发送的资源占用信息，检测到发生超时的作业管理器，并启动新的作业管理器接管已超时的原作业管理器之下的所有作业。

使异常恢复的资源管理方法的主要步骤包括：

步骤2001：重启后的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息。

步骤2002：以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上，所述资源调度器评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤2003：所述资源调度器将所述校正后的资源占用信息返回给重启完成的所述机器节点。

步骤2004：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

步骤2005：若与生超时的任意所述作业管理器对应的所述新的作业管理器启动后，执行以下步骤：

2005-1：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求。

2005-2：以接收的所述新的作业管理器发送的消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

2005-3：所述资源调度器将所述校正后的资源占用信息分别发送给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

2005-4：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

异常状态十七：资源调度器重启，且正在运行的任意作业管理器超时，且正在运行的任意机器节点超时。

当资源调度器重启时，资源调度器会等待机器节点和作业管理器连接上来，并等待接收各机器节点发送的本机器节点的资源占用信息，同时等待接收各作业管理器发来的资源需求。此时，因为存在发生超时的作业管理器，和发生超时的机器节点，因此资源调度器重启后无法获取全部的资源占用信息。资源调度器重启后会保留当前的资源占用状态，待发生超时的机器节点重新连接，发生超时的作业管理器重新连接后，再评估资源，尽可能的持重启之前的资源占用状态，维持资源稳定。

另外，资源调度器重启后，会根据该资源调度器重启前所备份的由该资源调度器启动过的所有作业管理器的记录，判断发生超时的作业管理器，并启动新的作业管理器接管已超时的原作业管理器之下的所有作业。

使异常恢复的资源管理方法的主要步骤包括：

步骤2101：重新连接的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求。

步骤2102：以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

步骤2103：所述资源调度器将所述校正后的资源占用信息返回给重新连接上的所述机器节点。

步骤2104：收到返回信息的各所述机器节点，根据所述返回信息提供或终止相应服务。

步骤2105：若所述资源调度器重启完成，且与发生超时的任意所述作业管理器对应的所述新的作业管理器启动完成时，执行以下步骤：

2105-1：所述新的作业管理器向所述资源调度器发送消息，所述消息的内容为各所述新的作业管理器分别获取的当前各自的资源需求。

2105-2：以接收到的所述新的作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理。

在步骤2105-2中，若发生超时的所述作业管理器对应的所述新的作业管理器迟于发生超时的所述机器节点重新连接上，则所述以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，具体是指以接收到的所述机器节点发送的消息为依据，资源调度器为未连接上的作业管理器保留其在各机器节点上相应的资源，进而评估并得到校正后的资源占用信息；

2105-3：所述资源调度器将所述校正后的资源占用信息返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

2105-4：收到返回信息的各所述机器节点和各所述作业管理器，根据所述返回信息提供或终止相应服务。

以上是以具体异常状态的介绍，但实际情况下，同时会发生多种异常，例如当作业管理器重启，且资源调度器重启时，实际情况中，有没有重启的作业管理器存在，那么就有仅资源调度器重启异常，以及当作业管理器重启，且资源调度器重启异常，这两种异常，但本申请的资源管理方法可以同时涵盖这两种异常，因此本申请的资源管理方法要以实际情况具体分析，不受上述具体实施例的限制。

在上述的实施例中，提供了一种分布式服务资源管理方法，与之相对应的，本申请还提供一种分布式服务资源管理装置。请参看图2，其为本申请第二实施例提供的分布式服务资源管理装置的流程示意图。由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种分布式服务资源管理装置，包括：关于资源的需求的消息发送单元1、评估资源单元2、资源调度器返回资源占用信息单元3，以及机器节点和作业管理器处理单元4。

关于资源的需求的消息发送单元1，用于正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息。

上述异常状态具体包括以下异常之一或组合：

所述资源调度器重启；

正在运行的任意所述作业管理器重启；

正在运行的任意所述作业管理器超时；

正在运行的任意所述机器节点重启；

正在运行的任意所述机器节点超时。

评估资源单元2，用于以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理。

资源调度器返回资源占用信息单元3，用于所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器。

机器节点和作业管理器处理单元4，用于收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务。

上述提供了一种分布式服务资源管理方法和一种分布式服务资源管理装置的实施例，相应的，本申请还提供一种分布式服务资源管理系统，图3为本申请第三实施例提供的分布式服务资源管理系统的流程示意图。所述系统包括资源调度器、作业管理器、机器节点，所述资源调度器负责协调所述作业管理器和所述机器节点，并对所述分布式系统中的资源进行分配和回收管理，具体包括：

上述分别提供了一种分布式服务资源管理方法、一种分布式服务资源管理装置，以及一种分布式服务资源管理系统的实施例，相应的，本申请还提供一种电子设备，该电子设备包括：

显示器；

处理器；以及

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种分布式服务资源管理方法，应用于基于作业管理机制的分布式系统，所述分布式系统包括资源调度器、机器节点和作业管理器；

其特征在于，所述资源管理方法包括：

2.根据权利要求1所述的资源管理方法，其特征在于，在所述收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务的步骤后，若判断所述异常状态未恢复，则依次执行权利要求1所述的各步骤。

3.根据权利要求1或2所述的资源管理方法，其特征在于，所述任意异常状态具体包括以下异常之一或组合：

所述资源调度器重启；

正在运行的任意所述作业管理器重启；

正在运行的任意所述作业管理器超时；

正在运行的任意所述机器节点重启；

正在运行的任意所述机器节点超时。

4.根据权利要求3所述的资源管理方法，其特征在于，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括以下消息之一或组合：

5.根据权利要求4所述的资源管理方法，其特征在于，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括正在运行的与异常状态相关的所述作业管理器向所述资源调度器发送消息，所述消息的内容为各所述作业管理器分别获取的当前各自的资源需求；其中，

6.根据权利要求4所述的资源管理方法，其特征在于，所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体包括正在运行的与异常状态相关的所述机器节点向所述资源调度器发送消息，所述消息的内容为各所述机器节点分别获取的当前各自的资源占用信息；其中，

7.根据权利要求4所述的资源管理方法，其特征在于，所述以接收的所述消息，和/或所述资源调度器当前保存的全局资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，继而进行相应的资源分配与回收管理，包括：

8.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启时，包括：

9.根据权利要求8所述的资源管理方法，其特征在于，所述以接收的各所述作业管理器发送的消息和各所述机器节点发送的消息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

10.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器重启时，包括：

11.根据权利要求10所述的资源管理方法，其特征在于，所述以接收的所述消息，和所述全局资源占用信息中的与重启后的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

12.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行如下步骤：

所述资源调度器启动新的作业管理器；

13.根据权利要求12所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，包括：

所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体是指：所述资源调度器将所述校正后的资源占用信息分别返回给涉及到需要重新进行资源分配与回收的各所述机器节点和各所述作业管理器。

14.根据权利要求13所述的资源管理方法，其特征在于，所述以接收的所述消息，和所述全局资源占用信息中的与已超时的各所述作业管理器相关的资源占用信息为依据，所述资源调度器评估并得到校正后的资源占用信息，包括：

15.根据权利要求14所述的资源管理方法，其特征在于，在所述收到返回信息的所述机器节点和/或所述作业管理器，根据所述返回信息提供或终止相应服务的步骤之后，执行以下步骤：

16.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述机器节点重启时，包括：

17.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

若需要保留，则保留该些资源的资源占用状态；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

18.根据权利要求17所述的资源管理方法，其特征在于，当所述异常状态为任意所述机器节点超时，包括：

所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息，具体是指：发生超时的所述机器节点重新连接上时，重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求；

19.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点重启时，包括：

若发生重启的任意所述作业管理器重启完成，则：

执行所述的所述资源调度器将所述校正后的资源占用信息返回给正在运行的所述机器节点和/或所述作业管理器步骤，具体执行的步骤是：所述资源调度器将所述校正后的资源占用信息发送给重启后的各所述机器节点；

20.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点超时，包括：

若发生重启的任意所述作业管理器重启完成，则：

此时异常状态未恢复，若发生超时的任意所述机器节点重新连接，则依次执行以下步骤：

21.根据权利要求20所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器重启，且任意所述机器节点超时，在所述重新连接上的所述机器节点向所述资源调度器发送消息，所述消息的内容为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求的步骤前，执行以下步骤：

所述资源调度器接收所述机器节点超时的消息；

若需要保留，则保留该些资源的资源占用状态；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

22.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点重启时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

23.根据权利要求22所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点重启时，包括：

若发生重启的所述机器节点重启完成，则：

此时异常状态尚未恢复，若与发生超时的任意所述作业管理器对应的所述新的作业管理器启动后，则依次执行以下步骤：

24.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

25.根据权利要求24所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，还执行以下步骤：

所述资源调度器接收所述机器节点超时的消息；

若需要保留，则保留该些资源的资源占用状态；

若不需要保留，则执行以下步骤：

对该些资源进行回收；

26.根据权利要求25所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，包括：

若发生超时的任意所述机器节点重新连接上后，则：

27.根据权利要求26所述的资源管理方法，其特征在于，当所述异常状态为任意所述作业管理器超时，且任意所述机器节点超时，包括：

28.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启时，执行如下步骤：

29.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行如下步骤：

所述资源调度器启动新的作业管理器；

30.根据权利要求29所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，包括：

若所述资源调度器重启完成，则：

31.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述机器节点重启时，包括：

32.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述机器节点超时，包括：

若所述资源调度器重启完成，则：

执行所述的正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息步骤，具体执行的步骤是：重新连接的所述机器节点向所述资源调度器发送消息，所述消息为请求获取在所述资源调度器上当前保存的各所述机器节点各自的资源占用信息的请求，

33.根据权利要求32所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述机器节点超时，所述各所述作业管理器分别获取的当前各自的资源需求，至少包括以下两种：

34.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点重启时，包括：

35.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，包括：

36.根据权利要求35所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，所述各所述作业管理器分别获取的当前各自的资源需求，至少包括以下两种：

37.根据权利要求35所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器重启，且任意所述机器节点超时，在执行所述的所述资源调度器将所述校正后的资源占用信息返回给涉及到重新进行资源分配与回收的各所述机器节点和各所述作业管理器步骤时，包括：

38.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点重启时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器启动新的作业管理器；

39.根据权利要求38所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点重启时，包括：

40.根据权利要求4所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述正在运行的与异常状态相关的所述机器节点和/或所述作业管理器向所述资源调度器发送包含各自对资源的需求的消息的步骤前，执行以下步骤：

所述资源调度器重启后，保留当前资源占用状态；

所述资源调度器启动新的作业管理器；

41.根据权利要求40所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，包括：

42.根据权利要求40所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述以接收到的所述机器节点发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理的步骤中，包括：

43.根据权利要求40所述的资源管理方法，其特征在于，当所述异常状态为所述资源调度器重启，且任意所述作业管理器超时，且任意所述机器节点超时，在所述以接收到的所述新的作业管理器发送的消息为依据，在保留正在执行的所述作业所需资源的基础上评估并得到校正后的资源占用信息，同时将所述校正后的资源占用信息加入所述全局资源占用信息，继而进行相应的资源分配与回收管理的步骤中，包括：

44.一种分布式服务资源管理装置，其特征在于，所述装置包括：

关于资源的需求的消息发送单元，用于正在运行的与异常状态相关的机器节点和/或作业管理器向资源调度器发送包含各自对资源的需求的消息；

45.根据权利要求44所述的资源管理装置，其特征在于，所述关于资源的需求的消息发送单元中所述的异常状态具体包括以下异常之一或组合：

所述资源调度器重启；

正在运行的任意所述作业管理器重启；

正在运行的任意所述作业管理器超时；

正在运行的任意所述机器节点重启；

正在运行的任意所述机器节点超时。

46.一种分布式服务资源管理系统，其特征在于，所述系统包括资源调度器、作业管理器、机器节点，所述资源调度器负责协调所述作业管理器和所述机器节点，并对所述分布式系统中的资源进行分配和回收管理，具体包括：

47.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

存储器，所述存储器用于存储分布式服务资源管理方法的计算机指令，所述计算机指令被所述处理器执行时，执行如下步骤：

在作业执行的过程中，当资源调度器、机器节点和作业管理器出现任意异常状态时，执行如下步骤：