CN114979141B

CN114979141B - 一种任务处理方法、装置、设备以及存储介质

Info

Publication number: CN114979141B
Application number: CN202210523373.1A
Authority: CN
Inventors: 奎志清; 夏燕明; 吴志华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2024-04-26
Anticipated expiration: 2042-05-13
Also published as: CN114979141A

Abstract

本公开提供了一种任务处理方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及人工智能和分布式计算技术领域，可应用于深度学习模型的分布式训练场景。具体方案为：在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息；向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息；根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。本方案为多节点协作的分布式处理任务提供了一种感知任务全局信息的新的解决方案，能够协助多节点更灵活且高效的完成任务。

Description

一种任务处理方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能和分布式计算技术领域，可应用于深度学习模型的分布式训练场景。

背景技术

随着计算机技术的发展，高性能的分布式计算技术的应用越来越广泛，例如，在深度学习技术领域，利用高性能的分布式计算技术进行模型训练。由于目前的分布式任务处理通常需要多节点同时协作完成，所以多节点在执行分布式任务处理的过程中，需要感知其他节点的状态信息，因此，如何在分布式计算过程中，实现多节点间信息的相互感知至关重要。

发明内容

本公开提供了一种任务处理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种任务处理方法，包括：

在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息；

向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息；

根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

根据本公开的另一方面，提供了一种任务处理方法，包括：

接收节点集中各节点上报的状态信息；

根据各节点上报的状态信息，更新任务全局信息；

将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例的任务处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开任一实施例的任务处理方法。

本公开实施例为多节点协作执行分布式处理任务，提供了一种感知任务全局信息的新的解决方案，该方案感知的任务全局信息能够协助多节点更灵活且高效的完成分布式处理任务。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

图1是根据本公开实施例提供的一种任务处理方法的示意图；

图2A是根据本公开实施例提供的一种任务处理方法的示意图；

图2B是根据本公开实施例提供节点执行任务的流程示意图；

图3是根据本公开实施例提供的一种任务处理方法的流程图；

图4A是根据本公开实施例提供的一种任务处理方法的流程图；

图4B是根据本公开实施例提供的节点启动的流程示意图；

图5是根据本公开实施例提供的一种任务处理方法的流程图；

图6是根据本公开实施例提供的一种任务处理方法的流程图；

图7A是根据本公开实施例提供的一种任务处理方法的信令图；

图7B是根据本公开实施例提供的任务处理系统的结构示意图；

图8是根据本公开实施例提供的一种任务处理装置的结构示意图；

图9是根据本公开实施例提供的一种任务处理装置的结构示意图；

图10是用来实现本公开实施例的任务处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在介绍本公开实施例之前，先对本实施例的应用场景进行说明，本方案处理的任务主要是需要多节点协作完成的分布式处理任务。尤其适用于协作过程复杂，且容错率高的任务。例如，多节点协作完成分布式处理任务的过程中，有些任务环节需要多节点并行协作完成，有些环节需要串行协作完成，且处理过程中不同节点之间还可能存在数据的传递等。现有的分布式计算系统，通常是基于通信组件，如采用MPI(Multi Point Interface，多点接口)，通过免登录的方式来控制多节点进行分布式计算。但该方式对于协作过程复杂，且容错率高的分布式处理任务处理效果并不是很好。

图1是根据本公开实施例提供的一种任务处理方法的示意图，本公开实施例适用于对需要多节点协作完成的分布式处理任务进行处理时，集群中每个节点如何进行任务处理的情况。该方法可以由任务处理装置来执行，该装置可以采用软件和/或硬件的方式实现。具体可以集成于具有任务处理功能的电子设备中，如节点集中任一节点，具体的，可以由节点中的控制器执行。

需要说明的是，本实施例中的节点集部署在任务平台上，用于执行分布式处理任务，该任务平台上还部署有任务管理器，任务管理器是管理分布式任务执行的设备，其具体用于在节点集执行分布式任务的过程中，为节点集中的各节点同步执行分布式任务所需的实时信息，即本实施例的全局任务信息。本实施例中，节点集需要与任务管理器配合执行，方可完成分布式任务的处理过程，具体的，如图1所示，本实施例提供的任务处理方法可以包括：

S101，在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息。

其中，节点是指执行分布式处理任务的集群中的物理节点，一个节点对应一台物理机。节点集可以包括至少两个节点。分布式处理任务是指需要多节点协作完成的任务。

本机节点为节点集中的任意一个节点。本机节点的状态信息可以包括节点的状态信息和节点中各个进程的状态信息。节点的状态信息是指该节点自身准备、失败以及完成等状态信息。

可选的，节点的状态信息可以通过节点的节点管理器直接获取，节点中各个进程的状态信息可以通过节点的节点管理器对该节点内的各个进程进行监控，并在监控的过程中实时获取，即获取本机节点的状态信息。

S102，向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息。

其中，任务全局信息是指表征集群中的各节点执行分布式任务时所涉及的所有信息。具体的，任务全局信息可以包括任务执行方案和全局状态信息，还可以包括表征任务执行情况的信息，如执行进度、执行结果等信息。任务执行方案是指分布式处理任务对应的执行方案，具体的，任务执行方案可以配置各节点如何协作，来执行任务的策略，例如，由节点1于时刻1执行子任务1，子任务1执行完毕后，进一步由节点2和3协作执行子任务2。全局状态信息是指节点集中所有节点以及节点中各进程的当前的状态信息，全局状态信息可以包括启动、暂停、失败、完成以及准备等状态信息。

可选的，本机节点获取本机节点的状态信息后，可以实时地向任务管理器上报本机节点的状态信息，例如，本机节点内部可以部署用于与任务管理器进行通信的协同器，由协同器基于预先与任务管理器建立的通信连接，将本机节点的状态信息上报给任务管理器。任务管理器可以实时地接收每一个节点上报的状态信息，然后基于所有节点上报的状态信息，对任务全局信息进行更新。

S103，根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

其中，协作模式是指表征本机节点当前是否需要启动执行任务的模式。协作模式包括运行协作、退出协作和暂停协作。运行协作是指节点启动，与其他节点交互，执行任务的协作方式。退出协作是指在本机节点需要退出任务执行过程，即后续不再执行任务操作的协作方式。暂停协作是指节点暂时不执行操作，等满足预设条件时，再恢复任务执行的协作方式。

可选的，本机节点可以根据预设的规则，对更新后的任务执行方案以及全局状态信息进行分析验证，确定需要调整到的目标协作模式，将当前协作模式切换为目标协作模式，即调整协作模式；本机节点还可以基于预设的规则，仅根据更新后的任务执行方案进行分析，确定需要调整到的目标协作模式，将当前协作模式切换为目标协作模式，即调整协作模式。

可选的，本机节点调整协作模式后，可以基于调整后的协作模式，确定需要一起协作执行分布式处理任务的其他节点，然后按照任务执行方案，进一步与其他节点协作，继续执行后续的分布式处理任务，即与其他节点继续协作执行分布式处理任务。

需要说明的是，本实施例的方案中，节点集中的每一节点发送的状态信息，如节点执行失败的状态信息，都可以通过任务管理器传输至其他节点，使得所有其他节点均可以感知节点集中所有节点的状态信息。

可选的，在本实施例的任务处理方法执行的过程中，用户端也可以随时通过任务管理器，获取该分布式处理任务的任务全局信息。

本公开实施例的方案，本机节点在与节点集中其他节点，协作执行分布式处理任务的过程中，获取本机节点的状态信息，进而向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息，最后根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。本公开给出了一种感知任务全局信息的新的解决方案，各节点通过向任务管理器上报获取的状态信息，由此可以使得任务管理器更新的任务全局信息更为准确有效，进一步的，各节点根据任务管理器更新的任务全局信息，调整协作模式并执行分布式处理任务，实现了各节点对任务全局信息的感知，能够协助多节点更灵活且高效的完成分布式处理任务。

可选的，分布式处理任务可以为分布式模型训练任务。需要说明的是，分布式模型训练任务往往有多层训练的过程，对于部分训练层，可能需要多个节点同时协作进行训练，在某些节点对部分的训练层执行相应操作之后，其他节点可能需要获取从上述节点获取一些数据来进一步对下一层训练层执行训练操作，本实施例提供的任务处理的方法，对于上述复杂的分布式模型训练任务，可以通过使得各节点均可感知任务全局信息，实现各节点之间更灵活有效地协作，从而更好的完成任务处理。

可选的，本实施例中，根据任务管理器下发的更新后的任务全局信息，调整协作模式的另一种优选方式为：根据任务管理器下发的更新后的任务全局信息中的任务执行方案，调整协作模式。示例性的，若更新前的任务执行方案是使得节点1、节点2和节点3协作执行任务，更新后的任务执行方案为使得节点4、节点2和节点3协作执行任务，则当本机节点为节点1时，节点1需要将协作模式从运行协作修改为暂停协作或退出协作，当本机节点为节点4时，节点4需要将协作模式从暂停协作或退出协作修改为运行协作。本实施例中的任务管理器可以根据集群节点实时上报的状态信息，动态调整任务执行方案，即动态调整集群中的各节点的协作模式，例如，可以实时对执行任务的节点进行缩容、扩容或恢复等，极大的提高了分布式处理任务的效率和灵活性。

图2A是根据本公开实施例提供的一种任务处理方法的示意图，图2B是根据本公开实施例提供节点执行任务的流程示意图，本公开实施例在上述实施例的基础上，进一步对“根据调整后的协作模式，与其他节点继续协作执行分布式处理任务”进行详细解释说明，如图2A所示，本实施例提供的任务处理方法可以包括：

S201，在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息。

S202，向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息。

S203，根据任务管理器下发的更新后的任务全局信息，调整协作模式。

S204，在调整后的协作模式为运行协作的情况下，根据任务全局信息中的任务执行方案，确定与其他节点之间的协作策略。

其中，协作策略是指表征本机节点如何与其他节点协作的具体逻辑。

可选的，若调整后的协作模式为运行协作，则本机节点可以对任务全局信息中的任务执行方案进行分析，确定当前需要协作的其他节点以及协作执行任务的时间，并对确定的信息进行整合，生成协作策略，即确定与哪些其他节点在什么时候协作执行任务的协作策略。

示例性的，协作策略可以是：本机节点在时刻1单独执行子任务1，子任务1执行完毕后，向节点2发送协作数据1，并获取节点3发送的协作数据2，最后，本机节点在节点2执行完任务2后，与节点2基于协作数据1和协作数据2，进行协作，执行子任务3。

需要说明的是，本实施例的运行协作可以包括新建运行、持续运行以及恢复运行三种协作方式。若为新建运行，则节点需要执行创建操作，具体的，需要先获取并加载运行环境信息，才能开始协作，即根据任务全局信息，与其他节点协作，执行处理任务；若为持续运行，即节点此前已处于运行状态，则可以直接继续协作；若为恢复运行，即此前节点处于暂停状态，需要先根据节点信息存储模块存储记录的历史状态日志，确定恢复数据，根据恢复数据，恢复节点状态，然后再进行协作。

S205，根据运行环境信息、任务执行方案和分布式处理任务，创建任务实例，并为任务实例分配执行进程。

其中，分布式处理任务是指任务平台下发的需要由节点集执行的分布式处理任务，例如，可以是分布式模型训练任务。需要说明的是，分布式处理任务可以是直接由任务平台下发至各节点，也可以是先由任务平台下发至任务管理器，然后由任务管理器转发至各节点。任务实例可以是通过对任务代码进行封装后得到的实例。运行环境信息是指节点内部预先设置的，可以表征运行环境的配置参数信息，每个节点的运行环境信息都是该节点运行所必须依赖的基础数据。

本实施例的运行环境信息(Context)可以包括启动参数(Args)、启动环境变量(Environ)、节点配置信息(Node/device)、日志/监控模块以及插件模块(Plugin)。日志/监控模块是用于记录日志或监控的模块。节点配置信息可以包含网络IP(InternetProtocol，网际互连协议)、图像处理器(graphics processing unit，GPU)加速卡信息。可选的，本实施例中加速卡信息可以通过程序自动识别。日志/监控模块(Logger)可以包括读写日志、日志文件管理和分布式日志。插件模块可以用于自定义拓展功能，包括但不限于兼容性调整。

需要说明的是，本实施例中每个节点都部署有节点管理器(launch)和协同器(coordinator)，节点管理器中又包含控制器(control ler)，节点的协同器获取任务管理器下发的任务全局信息之后，可以将任务全局信息发送至节点管理器中的控制器。

可选的，节点控制器可以基于启动参数、启动环境变量、节点配置信息、日志/监控模块以及插件模块，确定运行环境信息；节点控制器可以与协同器交互，获取协同器发送的任务全局信息，确定任务全局信息中的任务执行方案；进而根据运行环境信息、任务执行方案，以及接收的分布式处理任务，创建任务实例。

可选的，创建任务实例之后，本机节点可以根据创建的任务实例，从进程组中确定执行该实例所需要进程，将该进程确定为执行进程，即为任务实例分配执行进程。例如，若确定两个任务实例，则可以为每个任务实例分配一个进程来执行对应实例。

需要说明的是，节点中包含许多GPU加速卡，每个卡都对应一个进程(即trainer)，节点可以通过利用GPU加速卡来控制进程运行。

可选的，控制器可以利用进程状态监控模块，对执行过程中的进程进行状态监控，进程的状态可以包括正常、准备以及停止等状态。

可选的，参见图2B，节点可以包括协同器(Coordinator)和节点管理器。节点管理器可以获取运行环境信息并发送至节点管理器中的控制器，(Controller)，控制器根据运行环境信息、协同器发送的任务执行方案，基于接收的分布式处理任务，创建任务实例(Job)，并为任务实例创建进程组(Pod)，并对进行进程状态监控(Container)以及进行任务全局信息的存储(Status)，具体的，可以存储协同器发送的实时的任务全局信息；还可以存储执行任务过程中节点进程的状态信息、节点的状态信息以及执行任务过程中产生的相关数据。例如，若为模型训练任务，则可以存储模型的训练结果以及结果精度等信息。

可选的，节点管理器中的控制器为进程定义模块，支持不同流程定义，具体包括collective、parameter server、弹性容错等流程定义。进程状态监控具体用于监控进程的整个生命周期，即在进程的整个生命周期上报进程状态，执行任务实例操作。

S206，根据协作策略和任务全局信息中的全局状态信息，通过执行进程运行任务实例。

可选的，为任务实例分配执行进程之后，本机节点可以根据预设的规则，基于协作策略，确定各执行进程的执行顺序和执行时间；

可选的，确定各执行进程的执行顺序和执行时间后，可以根据任务全局信息中的全局状态信息，判断上一节点是否执行完毕，在检测到上一节点执行完毕时，基于进程的执行顺序，在对应的时刻，运行对应的进程，即通过执行进程运行任务实例；也可以根据任务全局信息中的全局状态信息，判断需要协作的节点的状态信息是否为准备状态，若是，则基于进程的执行顺序，在对应的时刻，运行对应的进程，即通过执行进程运行任务实例。

本公开实施例的方案，在调整后的协作模式为运行协作的情况下，根据任务全局信息中的任务执行方案，确定与其他节点之间的协作策略，根据运行环境信息、任务执行方案和分布式处理任务，创建任务实例，并为任务实例分配执行进程，根据协作策略和任务全局信息中的全局状态信息，通过执行进程运行任务实例。通过这样的方式，进一步细化了调整后的协作模式为运行协作时，本机节点如何根据调整后的协作模式，与其他节点继续协作执行分布式处理任务的可实施方式，可以使得本机节点更有效的执行处理任务，提高了任务处理的灵活性和高效性。

可选的，在本实施例中，任一节点均可以触发任务变更事件，使得任务管理器对任务执行方案进行更新，具体的，在根据本地记录的任务全局信息，确定触发任务变更事件的情况下，向任务管理器上报任务变更事件，以供任务管理器根据任务变更事件更新任务全局信息中的任务执行方案后下发至节点集。

其中，本地记录的任务全局信息是任务管理器向本机节点下发后，本机节点在本地记录的信息。任务变更事件是指需要对任务执行方案进行变更的事件。

可选的，本机节点的控制器可以根据本地记录的任务全局信息中的任务执行结果，评估执行结果的准确性或精度，在精度值满足任务变更条件，如精度值过高或过低，或不符合预期时，确定触发任务变更事件，并上报至任务管理器。示例性的，参见图2B，本机节点可以根据节点管理器的信息存储获取存储的任务全局信息。

可选的，任务管理器接收到节点上报的任务变更事件时，可以对任务变更事件进行分析，更新任务全局信息中的任务执行方案，即更新任务全局信息，并将更新后的任务全局信息，下发至节点集中的每一节点，使得节点集中的每个节点根据新的任务执行方案，调整协作模式后继续协作执行任务。

需要说明的是，通过各节点对本地记录的任务全局信息进行检测，在触发任务变更事件时上报任务管理器，使得任务管理器更新任务全局信息，通过这样的方式，实现了任务处理过程中任务执行方案的及时动态调整，提高了任务处理的灵活性。

图3是根据本公开实施例提供的一种任务处理方法的流程图，本公开实施例在上述实施例的基础上，进一步对“根据协作策略和任务全局信息中的全局状态信息，通过执行进程运行任务实例”进行详细解释说明，如图3所示，本实施例提供的任务处理方法可以包括：

S301，在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息。

S302，向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息。

S303，根据任务管理器下发的更新后的任务全局信息，调整协作模式。

S304，在调整后的协作模式为运行协作的情况下，根据任务全局信息中的任务执行方案，确定与其他节点之间的协作策略。

S305，根据运行环境信息、任务执行方案和分布式处理任务，创建任务实例，并为任务实例分配执行进程。

S306，在根据任务执行方案，确定需要节点集中目标节点提供协作数据的情况下，根据全局地址信息，确定目标节点的地址信息。

其中，目标节点是指节点集中，需要为本机节点提供协作数据的节点。协作数据是指本机节点执行任务需要从其他节点获取的用于协作执行任务的数据。全局地址信息是指节点集中的所有节点的地址信息。地址信息可以是指网际互连协议(Internet Protocol，IP)地址信息。

需要说明的是，若分布式处理任务为需要多节点先后协作完成，且节点2执行任务的时候，需要使用到节点1执行任务后输出的结果，则此时，节点1执行任务后输出的结果即为节点2所需的协作数据。节点2需要获取到该写作数据后方可执行任务处理操作。

可选的，本机节点可以根据预设的规则，对任务执行方案进行分析，确定本机节点是否需要从节点集中的其他节点获取协作数据，若是，则将相应的节点作为目标节点，即确定需要节点集中目标节点提供协作数据。也可以将任务执行方案与本机节点的唯一标识信息输入预先训练好的模型，输出本机节点相关联的目标节点，即确定需要节点集中目标节点提供协作数据。

可选的，本机节点在确定需要节点集中目标节点提供协作数据的情况下，可以基于目标节点的唯一标识信息，根据预设的匹配算法，从全局地址信息提取出目标节点的地址信息，即根据全局地址信息，确定目标节点的地址信息。

可选的，本机节点可以在其启动后，基于任务管理器交互，获取全局地址信息并存储在本地的信息存储模块中，然后可以直接从信息存储模块中查找并获取全局地址信息。

S307，根据目标节点的地址信息，获取协作数据。

可选的，本机节点可以基于自身的通信库组件，根据目标节点的地址信息，如目标节点的IP地址，向目标节点发送数据获取请求，并获取目标节点利用自身的通信库组件传输反馈的协作数据，即获取协作数据。

需要说明的是，在本实施例中，对于不同的分布式处理任务，可以通过不同的通信库组件与其他节点交互获取协作数据。

S308，根据协作策略、任务全局信息中的全局状态信息和协作数据，通过执行进程运行任务实例。

可选的，本机节点根据预设的规则，基于协作策略，确定各执行进程的执行顺序和执行时间后，可以根据任务全局信息中的全局状态信息，判断上一节点是否执行完毕，在检测到上一节点执行完毕时，基于进程的执行顺序，在对应的时刻，基于获取的协作数据，运行对应的进程，即通过执行进程运行任务实例；也可以根据任务全局信息中的全局状态信息，判断需要协作的节点的状态信息是否为准备状态，若是，则基于进程的执行顺序，在对应的时刻，基于获取的协作数据，运行对应的进程，即通过执行进程运行任务实例。

本公开实施例的方案，在根据任务执行方案，确定需要节点集中目标节点提供协作数据的情况下，根据全局地址信息，确定目标节点的地址信息，根据目标节点的地址信息，获取协作数据，最后根据协作策略、任务全局信息中的全局状态信息和协作数据，通过执行进程运行任务实例。通过这样的方式，进一步细化了需要节点集中目标节点提供协作数据的情况下，如何获取协作数据，最后根据协作策略、任务全局信息中的全局状态信息和协作数据，运行任务实例的可实施方式，可以使得本机节点基于目标节点的协作数据，执行处理任务，提高了可处理任务的丰富性。

可选的，在本实施例中，节点集中的任一节点启动时，可以与任务管理器交互得到的全局地址信息，具体包括：与任务管理器建立通信连接后，在任务管理器中注册本机节点的地址信息，以供任务管理器根据已注册的本机节点的地址信息和其他节点的地址信息，确定全局地址信息；获取任务管理器下发的全局地址信息。

可选的，本机节点可以在启动后，与任务管理器建立通信连接，将自身的地址信息发送至任务管理器，使得任务管理器根据该地址信息进行注册，即在任务管理器中注册本机节点的地址信息。

可选的，节点集中的每个节点都可以在与任务管理器建立通信连接后，向任务管理器发送自身的地址信息，任务管理器获取所有节点的地址信息并进行注册后，可以将已注册的所有节点的地址信息进行整合，生成全局地址信息，即确定全局地址信息，任务管理器确定全局地址信息之后，可以向所有节点均发送该全局地址信息，相应地，本机节点可以实时地获取到任务管理器下发的全局地址信息。

需要说明的是，每个节点均在任务管理器中注册地址信息，通过这样的方式，任务管理器可以获取包括所有节点地址信息的全局地址信息，从而便于后续节点执行任务时，基于该全局地址信息，与相应的目标节点进行交互，传输协作数据。

图4A是根据本公开实施例提供的一种任务处理方法的流程图，图4B是根据本公开实施例提供的节点启动的流程示意图，本公开实施例在上述实施例的基础上，进一步对节点如何与任务管理器建立通信连接的过程进行详细解释说明，如图4A-4B所示，本实施例提供的任务处理方法可以包括：

S401，根据任务管理器的地址信息配置模式，获取节点启动指令。

其中，地址信息配置模式是指表征是否预先配置任务管理器地址信息的模式，地址信息配置模式可以包括免配置模式和已配置模式。节点启动指令是指用于启动节点的指令。

可选的，任务管理器的地址信息配置模式根据分布式处理任务的启动类型确定。具体的，若分布式处理任务为人工手动触发启动的任务，则可以确定地址信息配置模式为免配置模式。若分布式处理任务的为程序自动触发启动的任务，则可以确定地址信息配置模式为已配置模式。

可选的，确定地址信息配置模式之后，可以根据配置模型的不同，选择不同的方式获取节点启动指令，具体的，在任务管理器的地址信息配置模式为免配置的情况下，获取节点集中主节点发送的节点启动指令。其中，节点启动指令是主节点在启动任务管理器后发送的。在地址信息配置模式为已配置的情况下，获取已配置的任务管理器的地址信息对应的节点启动指令。

情况1，在任务管理器的地址信息配置模式为免配置的情况下，此时预先设置了主节点，但没有为每个节点都配置主节点的地址信息，此时除主节点之外的其他节点不知道主节点的地址信息，因此主节点需要先启动任务管理器中的平台服务(kv-server)，并将自身的地址信息注册到任务管理器，然后通过任务管理器向节点集中的各节点发送节点启动指令，相应的，除主节点之外的其他节点可以被动地获取到主节点在启动任务管理器后，向各节点发送的节点启动指令。

情况2，在地址信息配置模式为已配置的情况下，即已经预先设置了主节点，并为各节点配置了主节点的地址信息，各个节点可以主动根据预先存储的主节点的地址信息，查找已配置的任务管理器的地址信息对应的节点启动指令。

需要说明的是，通过将任务管理器的地址信息配置模式分为免配置和已配置模式，在用户手动触发任务启动时，考虑到用户不会或无法对地址信息进行配置的情况，采用免配置的配置模式，在程序自动触发启动任务时，由于程序已设置好如何确定地址信息，此时采用已配置的配置模式，通过这样的方式，提高了任务处理的高效性和灵活性。

可选的，任务管理器的地址信息可以为主节点的地址信息或外部服务的地址信息。具体的，当处理任务需要的节点个数比较少的时候，可以从本地确定任务管理器的地址信息，即从节点集的节点中选择出一个主节点，将主节点的地址信息设置为任务管理器的地址信息，此时任务管理器的地址信息为主节点的地址信息；当处理任务需要的节点个数比较多的时候，可以选择通过第三方的外部服务，如etcd服务(即一个高可用的关键字-值(Key-Value)存储系统)，确定任务管理器的地址信息，此时任务管理器的地址信息为外部服务的地址信息。

需要说明的是，本实施例考虑在处理任务所需的节点个数不同时，采用不同的方式确定任务管理器的地址信息，具体的，在节点个数较少时，从节点集中选择出主节点用于向其他节点发送启动指令，可以提高任务处理的效率，降低任务处理成本。在节点个数较多时，利用外部服务来确定地址信息，可以避免主节点热度过高、带宽过大等问题。

S402，响应于节点启动指令，与任务管理器建立通信连接。

可选的，本机节点获取节点启动指令后，可以响应于该节点启动指令，基于预设的规则，进行节点启动，进一步根据任务管理器的地址信息，如IP地址，与任务管理器建立通信连接。

可选的，与任务管理器建立通信连接之后，本机节点可以将自身的IP地址发送至任务管理器，在任务管理器中注册本机地址信息，以供任务管理器根据已注册的本机地址信息，确定全局地址信息，然后获取任务管理器下发的全局地址信息，便于后续与基于全局地址信息，与目标节点交互，获取协作数据，具体的过程在上述实施例已经进行详细解释说明，在此不进行赘述。

示例性的，参见图4B，假设节点集包括节点1和节点2，且节点1为主节点，则节点1启动任务管理器中的平台服务后，会将自身的地址信息注册到任务管理器，然后通过任务管理器向节点集中的节点2发送节点启动指令，节点2即可获取并响应节点启动指令，然后将其地址信息也注册到任务管理器，任务管理器即可整合节点1和节点2的地址信息，生成全局地址信息下发至节点1和节点2，此时节点1和节点2即可获取到节点集的全局地址信息。节点1和节点2启动成功后，可以执行任务。

S403，在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息。

S404，向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息。

S405，根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

本公开实施例的方案，根据任务管理器的地址信息配置模式，获取节点启动指令，响应于节点启动指令，与任务管理器建立通信连接，给出了各节点启动的具体可实施方式，即基于任务管理器的地址信息的不同配置模式，采用不同的方式获取节点启动，提高了节点启动的灵活性，能够根据实际需求更好的满足个性化需求。

图5是根据本公开实施例提供的一种任务处理方法的流程图，本公开实施例适用于对需要多节点协作完成的分布式处理任务进行处理时，任务管理器如何进行任务处理的情况。该方法可以由任务处理装置来执行，该装置可以采用软件和/或硬件的方式实现。具体可以集成于具有任务处理功能的电子设备中，由电子设备中的任务管理器执行。如图5所示，本实施例提供的任务处理方法可以包括：

S501，接收节点集中各节点上报的状态信息。

可选的，任务管理器向节点集中的各节点下发任务全局信息后，节点集中各节点可以根据接收的任务全局信息，与其他节点协作执行分布式处理任务，并在执行任务的过程中获取并上报的状态信息，相应的，任务管理器可以实时地接收节点集中各节点上报的状态信息。

需要说明是，任务管理器在接收到待处理任务后，首次向节点集中各节点发送至的任务全局信息可能不包含全局状态信息，仅包含任务执行方案。

S502，根据各节点上报的状态信息，更新任务全局信息。

可选的，任务管理器在接收到各节点上报的状态信息后，可以通过更新任务全局信息中的任务执行方案和/或全局状态信息，来对任务全局信息进行更新。

具体的，任务管理器可以每次接收到的各节点上报的状态信息时，都触发更新任务全局信息中的全局状态信息；还可以是在本次接收到的各节点上报的状态信息与上次不同时，触发更新任务全局信息中的全局状态信息。任务管理器还可以结合任务当前执行情况和各节点上报的状态信息，分析是否需要对任务执行方案关联的节点进行恢复、扩容或缩容，若需要，则更新任务执行方案，否则不对任务全局信息中的任务执行方案进行更新。

也就是说，本实施例根据各节点上报的状态信息，更新执行方案和更新全局状态信息的过程可以是两个独立的过程，两者可以同时更新也可以是只更新一个。优选的，本实施例可以选择全局状态信息无论是否发生变化，都要实时更新，对于任务执行方案在发生变化的时候再更新。

S503，将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。

可选的，任务管理器更新任务全局信息后，可以实时地将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

本公开实施例的方案，任务管理器接收节点集中各节点上报的状态信息，根据各节点上报的状态信息，更新任务全局信息，最后将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。本公开给出了一种使得各节点可感知任务全局信息的新的解决方案，任务管理器根据获取的状态信息对任务全局信息进行更新，可以确定出更为准确有效的任务全局信息，通过将任务全局信息下发至节点集中各节点，可以使得每个节点均实现对任务全局信息的感知。各节点根据实时感知的更为准确有效的任务全局信息，协作执行分布式处理任务，提高了分布式处理任务处理的灵活性且高效性。

可选的，分布式处理任务可以为分布式模型训练任务。分布式模型训练任务往往有多层训练的过程，对于部分训练层，可能需要多个节点同时协作进行训练，在某些节点对部分的训练层执行相应操作之后，其他节点可能需要获取从上述节点获取一些数据来进一步对下一层训练层执行训练操作。本实施例提供的任务处理的方法，对于复杂的分布式模型训练任务，可以通过使得各节点均可感知任务全局信息，实现各节点之间更灵活有效地协作，从而更好的完成任务处理。

可选的，若任务管理器通过更新任务全局信息中的任务执行方案和全局状态信息，来对任务全局信息进行更新，则相应的，根据各节点上报的状态信息，更新任务全局信息，包括：根据各节点上报的状态信息，更新任务全局信息中的全局状态信息；根据全局状态信息，更新任务全局信息中的任务执行方案。

可选的，任务管理器可以根据各节点上报的状态信息，针对节点集中的每一个节点，确定其状态信息是否发生变化，若是，则利用新接收到的该节点的状态信息替换原来的状态信息，即更新任务全局信息中的全局状态信息。

可选的，若任务管理器此前还未接收过该节点上报的状态信息，则可以直接将获取到的状态信息存储进全局状态信息中，即更新任务全局信息中的全局状态信息。

可选的，任务管理器更新任务全局信息中的全局状态信息之后，可以结合任务当前执行情况和各节点上报的状态信息，分析是否需要对任务执行方案关联的节点进行恢复、扩容或缩容，若需要，则更新任务执行方案，即根据全局状态信息，更新任务全局信息中的任务执行方案，否则不对任务全局信息中的任务执行方案进行更新。

需要说明的是，通过对任务全局信息中的全局状态信息和任务执行方案均进行更新，可以保证更新后的任务全局信息的准确性和有效性，便于后续的任务处理。

图6是根据本公开实施例提供的一种任务处理方法的流程图，本公开实施例在上述实施例的基础上，进一步对进行详细解释说明，如图6所示，本实施例提供的任务处理方法可以包括：

S601，根据节点集中各节点注册的地址信息，确定全局地址信息。

其中，各节点注册的地址信息是指各节点在任务管理器内注册的地址信息。

可选的，各节点与任务管理器建立通信连接后，可以在任务管理器中注册地址信息，由此，任务管理器可以确定出所有节点已注册的地址信息，即确定节点集中各节点注册的地址信息。

可选的，任务管理器确定节点集中各节点注册的地址信息之后，可以根据预设的规则，对各节点注册的地址信息进行整合，生成全局地址信息，即确定全局地址信息。

S602，将全局地址信息下发至节点集中各节点。

可选的，任务管理器确定全局地址信息后，可以实时地将全局地址信息下发至节点集中各节点，使得各节点预先存储在本地。

S603，接收节点集中各节点上报的状态信息。

S604，根据各节点上报的状态信息，更新任务全局信息。

S605，将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。

本公开实施例的方案，任务管理器根据节点集中各节点注册的地址信息，确定全局地址信息，然后将全局地址信息下发至节点集中各节点。给出了任务管理器在控制各节点执行任务之前，为各节点注册地址信息并将确定的全局地址信息下发至各节点的可实施方式，可以使得各节点预存其余所有节点的地址信息，便于后续处理任务时，节点之间通过该包含所有节点地址信息的全局地址信息，进行协作数据的交互，为后续执行分布式任务提供了技术支撑。

可选的，在接收到任务变更事件的情况下，根据任务变更事件，更新任务全局信息中的任务执行方案；将更新后的任务全局信息下发至节点集中各节点。

可选的，任务管理器接收到节点上报的任务变更事件时，可以对任务变更事件进行分析，更新任务全局信息中的任务执行方案，即更新任务全局信息，并将更新后的任务全局信息，下发至节点集中的每一节点，使得节点集中的每个节点根据新的任务执行方案，协作执行任务。

需要说明的是，通过任务管理器在检测到任一节点上报的任务变更事件时，更新任务全局信息，可以实现任务处理过程中任务执行方案的及时动态调整，提高了任务处理的灵活性。

图7A是根据本公开实施例提供的一种任务处理方法的信令图，图7B是根据本公开实施例提供的任务处理系统的结构示意图，本公开实施例在上述实施例的基础上，进一步节点集中的节点如何与任务管理器交互，执行任务处理的过程进行详细解释说明，如图7A所示，本实施例提供的任务处理方法可以包括：

S701，本机节点根据任务管理器的地址信息配置模式，获取节点启动指令。

S702，本机节点响应于节点启动指令，与任务管理器建立通信连接。

S703，本机节点与任务管理器建立通信连接后，在任务管理器中注册地址信息。

S704，任务管理器根据已注册的地址信息，确定全局地址信息。

S705，任务管理器将全局地址信息下发至本机节点，使得本机节点获取任务管理器下发的全局地址信息。

S706，本机节点在与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息。

S707，本机节点向任务管理器上报状态信息。

S708，任务管理器根据各节点上报的状态信息更新任务全局信息。

S709，任务管理器将更新后的任务全局信息下发至本机节点。

S710，本机节点根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

需要说明的是，上述S701-710过程在本公开上述实施例中均已进行详细的解释说明，此处不再赘述。

需要说明的是，本机节点与其他节点继续协作执行分布式处理任务时，在确定需要节点集中目标节点提供协作数据的情况下，可以根据执行S705获取的全局地址信息，确定目标节点的地址信息，进一步根据目标节点的地址信息，获取协作数据，根据协作策略、任务全局信息中的全局状态信息和协作数据，通过执行进程运行任务实例。

示例性的，参见图7B，本公开实施例提供的任务处理系统中的任务管理器可以与各节点交互，执行任务处理。

具体的，任务处理系统可以包括任务平台、调度器、平台控制器、任务管理器、节点1、节点2以及节点3。

其中，任务平台用于处理和分配任务，具体可以是PaaS平台(Platform as aService，平台即服务)或支持Kubernetes(K8s)的开源平台。

可选的，用户可以通过任务平台输入需要测试的任务并进行配置，例如进行模型训练的任务。任务平台获取用户输入的测试任务后可以通过调度器(Scheduler)和平台控制器(paddle-operator)将任务下发至任务管理器。

可选的，任务管理器(Paddlejob Master)获取测试任务之后，可以先根据测试任务，制定任务执行方案，例如，由节点1于时刻1执行子任务1，子任务1执行完毕后，进一步由节点2和3协作执行子任务2。

可选的，任务管理器制定任务执行方案后，可以确定全局状态信息并通过各节点的协同器(coordinator)下发至各节点。

需要说明的是，任务管理器首次向各节点下发全局状态信息时，该全局状态信息中只包含指定的任务执行方案，后续各节点协作执行任务的过程中，任务管理器通过获取各节点上报的本机状态信息，更新任务全局信息再下发时，此时的任务全局信息可以包括任务执行方案和所有节点的全局状态信息。

需要说明的是，对于任一节点，均可以接收到任务管理器下发的任务全局信息，获取到指定的任务执行方案，若检测到任务执行方案中需要自身参与，进行任务处理，则进一步根据任务执行方案中包含的执行时刻、需要协作的节点等信息，与其他节点协作，进行任务处理。

可选的，各节点在与节点集中其他节点协作执行分布式处理任务的过程中，可以获取并上报本机准备、失败或完成等状态信息，即同步状态信息。

可选的，任务管理器可以得到所有节点的状态信息，来确定全局状态信息，根据实时获取的全局状态信息，修改任务执行方案，并基于确定的全局状态信息，更新全局状态信息。即更新任务全局信息。

例如，若检测到节点1出现错误，则可以根据所有节点的全局状态信息，修改任务执行方案为使得节点2来执行原节点1需要执行的任务，替代节点1来完成任务，通过这样的方式，实现了任务管理器对应任务执行方案以及节点状态的动态调整。又例如，任务管理器检测到任务执行方案所涉及的节点过多或过少，则可以对任务执行方案所关联的节点进行缩容或扩容。又例如，任务管理器检测到某一节点有误，则可以使得该节点暂停任务，在后续检测到该节点状态信息正常时，控制该节点恢复任务执行。

可选的，若任务管理器中的任务执行方案表示某节点为新扩容的节点，则当该节点接收到任务全局信息，可以执行创建操作，若任务管理器中的任务执行方案表示该节点被缩容的节点，则当节点接收到任务全局信息，可以执行停止或暂停操作，进一步将相关的数据信息存储于本地，当后续任务管理器中的任务执行方案表示该节点可以恢复时，可以根据信息存储模块存储的信息，执行恢复操作。

可选的，节点执行创建、停止或存储操作时，具体的，可以通过节点管理器(launcher)，调用相应的进程开始或结束执行操作，并对进程执行操作的过程进行监控。

可选的，每个节点都包含协同器(coordinator)，用于与接收任务管理器下发的任务全局信息或向任务管理器上报本机状态信息。每个节点还包括通信库组件(communicator)，具体用于基于其他节点的IP地址，与其他节点进行交互，传输协作数据。

本公开给出了一种任务管理器与各节点交互，执行任务处理的新的方案，各节点通过向任务管理器上报获取的状态信息，由此可以使得任务管理器更新的任务全局信息更为准确有效，进一步的，各节点根据任务管理器更新的任务全局信息，调整协作模式并执行分布式处理任务，实现了各节点对任务全局信息的感知，能够协助多节点更灵活且高效的完成分布式处理任务。

图8是根据本公开实施例提供的一种任务处理装置的结构示意图，本公开实施例适用于对需要多节点协作完成的分布式处理任务进行处理时，每个节点如何进行任务处理的情况。该装置可以配置于任一节点中，采用软件和/或硬件来实现，该装置可以实现本公开任意实施例的任务处理方法。如图8所示，该任务处理装置800包括：

信息获取模块801，用于在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息；

上报模块802，用于向任务管理器上报本机节点的状态信息，以供任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息；

执行模块803，用于根据任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与其他节点继续协作执行分布式处理任务。

进一步的，执行模块具体用于：

根据任务管理器下发的更新后的任务全局信息中的任务执行方案，调整协作模式；其中，协作模式包括运行协作、退出协作和暂停协作。

进一步的，执行模块包括：确定单元，用于在调整后的协作模式为运行协作的情况下，根据任务全局信息中的任务执行方案，确定与其他节点之间的协作策略；

分配单元，用于根据运行环境信息、任务执行方案和分布式处理任务，创建任务实例，并为任务实例分配执行进程；

运行单元，用于根据协作策略和任务全局信息中的全局状态信息，通过执行进程运行任务实例。

进一步的，运行单元具体用于：

在根据任务执行方案，确定需要节点集中目标节点提供协作数据的情况下，根据全局地址信息，确定目标节点的地址信息；

根据目标节点的地址信息，获取协作数据；

根据协作策略、任务全局信息中的全局状态信息和协作数据，通过执行进程运行任务实例。

进一步的，装置还用于：

与任务管理器建立通信连接后，在任务管理器中注册本机节点的地址信息，以供任务管理器根据已注册的本机节点的地址信息和其他节点的地址信息，确定全局地址信息；

获取任务管理器下发的全局地址信息。

进一步的，装置还用于：

在根据本地记录的任务全局信息，确定触发任务变更事件的情况下，向任务管理器上报任务变更事件，以供任务管理器根据任务变更事件更新任务全局信息中的任务执行方案后下发至节点集。

进一步的，装置还包括：

指令获取模块，用于根据任务管理器的地址信息配置模式，获取节点启动指令；其中，任务管理器的地址信息配置模式根据分布式处理任务的启动类型确定；

建立模块，用于响应于节点启动指令，与任务管理器建立通信连接。

进一步的，指令获取模块具体用于：

在任务管理器的地址信息配置模式为免配置的情况下，获取节点集中主节点发送的节点启动指令；其中，节点启动指令是主节点在启动任务管理器后发送的；

在地址信息配置模式为已配置的情况下，获取已配置的任务管理器的地址信息对应的节点启动指令。

进一步的，任务管理器的地址信息为主节点的地址信息或外部服务的地址信息。

进一步的，分布式处理任务为分布式模型训练任务。

图9是根据本公开实施例提供的一种任务处理装置的结构示意图，本公开实施例适用于对需要多节点协作完成的分布式处理任务进行处理时，任务管理器如何进行任务处理的情况。该装置可以配置于任务管理器中，采用软件和/或硬件来实现，该装置可以实现本公开任意实施例的任务处理方法。如图9所示，该任务处理装置900包括：

接收模块901，用于接收节点集中各节点上报的状态信息；

更新模块902，用于根据各节点上报的状态信息，更新任务全局信息；

发送模块903，用于将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。

本公开实施例的方案，任务管理器接收节点集中各节点上报的本机状态信息，根据接收的本机状态信息，更新任务全局信息，最后将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务。本公开给出了一种使得各节点可感知任务全局信息的新的解决方案，任务管理器根据获取的本机状态信息对任务全局信息进行更新，可以确定出更为准确有效的任务全局信息，通过将任务全局信息下发至节点集中各节点，可以使得每个节点均实现对任务全局信息的感知。各节点根据实时感知的更为准确有效的任务全局信息，协作执行分布式处理任务，提高了分布式处理任务处理的灵活性且高效性。

进一步的，更新模块具体用于：

根据各节点上报的状态信息，更新任务全局信息中的全局状态信息；

根据全局状态信息，更新任务全局信息中的任务执行方案。

进一步的，装置还用于：

根据节点集中各节点注册的地址信息，确定全局地址信息；

将全局地址信息下发至节点集中各节点。

进一步的，装置还用于：

在接收到任务变更事件的情况下，根据任务变更事件，更新任务全局信息中的任务执行方案；

将更新后的任务全局信息下发至节点集中各节点。

进一步的，分布式处理任务为分布式模型训练任务。

上述产品可执行本公开任意实施例所提供的任务处理方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的任一应用的相关数据(比如应用的授权码、应用标识和应用的授权参数等)、开放平台的相关数据(比如历史访问记录)以及第三方机构(比如目标机构和其他机构等)的相关数据等的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10是用来实现本公开实施例的任务处理方法的电子设备的框图。图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如任务处理方法。例如，在一些实施例中，任务处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的任务处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为任务处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种任务处理方法，包括：

向任务管理器上报本机节点的状态信息，以供所述任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息；任务全局信息包括任务执行方案和全局状态信息；全局状态信息是指节点集中所有节点以及节点中各进程的当前的状态信息；

根据所述任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与所述其他节点继续协作执行所述分布式处理任务；协作模式是指表征本机节点当前是否需要启动执行任务的模式；

其中，根据所述任务管理器下发的更新后的任务全局信息，调整协作模式，包括：

根据所述任务管理器下发的更新后的任务全局信息中的任务执行方案，调整协作模式；其中，所述协作模式包括运行协作、退出协作和暂停协作；运行协作是指节点启动，与其他节点交互，执行任务的协作方式；退出协作是指本机节点需要退出任务执行过程，即后续不再执行任务操作的协作方式；暂停协作是指节点暂时不执行操作，等满足预设条件时，再恢复任务执行的协作方式。

2.根据权利要求1所述的方法，其中，所述根据调整后的协作模式，与其他节点继续协作执行所述分布式处理任务，包括：

在调整后的协作模式为运行协作的情况下，根据所述任务全局信息中的任务执行方案，确定与其他节点之间的协作策略；

根据运行环境信息、所述任务执行方案和所述分布式处理任务，创建任务实例，并为所述任务实例分配执行进程；

根据所述协作策略和所述任务全局信息中的全局状态信息，通过所述执行进程运行所述任务实例。

3.根据权利要求2所述的方法，其中，所述根据所述协作策略和所述任务全局信息中的全局状态信息，通过所述执行进程运行所述任务实例，包括：

在根据所述任务执行方案，确定需要节点集中目标节点提供协作数据的情况下，根据全局地址信息，确定所述目标节点的地址信息；

根据所述目标节点的地址信息，获取所述协作数据；

根据所述协作策略、所述任务全局信息中的全局状态信息和所述协作数据，通过所述执行进程运行所述任务实例。

4.根据权利要求3所述的方法，还包括:

与任务管理器建立通信连接后，在所述任务管理器中注册本机节点的地址信息，以供所述任务管理器根据已注册的本机节点的地址信息和其他节点的地址信息，确定全局地址信息；

获取所述任务管理器下发的所述全局地址信息。

5.根据权利要求1所述的方法，还包括：

在根据本地记录的任务全局信息，确定触发任务变更事件的情况下，向任务管理器上报所述任务变更事件，以供所述任务管理器根据所述任务变更事件更新任务全局信息中的任务执行方案后下发至节点集。

6.根据权利要求1-5中任一项所述的方法，还包括：

根据任务管理器的地址信息配置模式，获取节点启动指令；其中，所述任务管理器的地址信息配置模式根据所述分布式处理任务的启动类型确定；

响应于所述节点启动指令，与所述任务管理器建立通信连接。

7.根据权利要求6所述的方法，其中，根据任务管理器的地址信息配置模式，获取节点启动指令，包括：

在任务管理器的地址信息配置模式为免配置的情况下，获取所述节点集中主节点发送的节点启动指令；其中，所述节点启动指令是主节点在启动任务管理器后发送的；

在所述地址信息配置模式为已配置的情况下，获取已配置的所述任务管理器的地址信息对应的节点启动指令。

8.根据权利要求7所述的方法，其中，所述任务管理器的地址信息为所述主节点的地址信息或外部服务的地址信息。

9.根据权利要求1-8中任一项所述的方法，其中，所述分布式处理任务为分布式模型训练任务。

10.一种任务处理方法，包括：

接收节点集中各节点上报的状态信息；

根据各节点上报的状态信息，更新任务全局信息；任务全局信息包括任务执行方案和全局状态信息；全局状态信息是指节点集中所有节点以及节点中各进程的当前的状态信息；

将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务，其中，节点采用的协作模式是指表征本机节点当前是否需要启动执行任务的模式；所述协作模式包括运行协作、退出协作和暂停协作；运行协作是指节点启动，与其他节点交互，执行任务的协作方式；退出协作是指本机节点需要退出任务执行过程，即后续不再执行任务操作的协作方式；暂停协作是指节点暂时不执行操作，等满足预设条件时，再恢复任务执行的协作方式。

11.根据权利要求10所述的方法，其中，所述根据各节点上报的状态信息，更新任务全局信息，包括：

根据所述全局状态信息，更新任务全局信息中的任务执行方案。

12.根据权利要求10所述的方法，还包括：

根据节点集中各节点注册的地址信息，确定全局地址信息；

将所述全局地址信息下发至节点集中各节点。

13.根据权利要求10所述的方法，还包括：

在接收到任务变更事件的情况下，根据所述任务变更事件，更新任务全局信息中的任务执行方案；

将更新后的任务全局信息下发至节点集中各节点。

14.根据权利要求10-13中任一项所述的方法，其中，所述分布式处理任务为分布式模型训练任务。

15.一种任务处理装置，包括：

信息获取模块，用于在本机节点与节点集中其他节点协作执行分布式处理任务的过程中，获取本机节点的状态信息；

上报模块，用于向任务管理器上报本机节点的状态信息，以供所述任务管理器根据接收的本机节点的状态信息和其他节点的状态信息更新任务全局信息；任务全局信息包括任务执行方案和全局状态信息；全局状态信息是指节点集中所有节点以及节点中各进程的当前的状态信息；

执行模块，用于根据所述任务管理器下发的更新后的任务全局信息，调整协作模式，并根据调整后的协作模式，与所述其他节点继续协作执行所述分布式处理任务；协作模式是指表征本机节点当前是否需要启动执行任务的模式；

其中，所述执行模块具体用于：根据所述任务管理器下发的更新后的任务全局信息中的任务执行方案，调整协作模式；其中，所述协作模式包括运行协作、退出协作和暂停协作；运行协作是指节点启动，与其他节点交互，执行任务的协作方式；退出协作是指本机节点需要退出任务执行过程，即后续不再执行任务操作的协作方式；暂停协作是指节点暂时不执行操作，等满足预设条件时，再恢复任务执行的协作方式。

16.根据权利要求15所述的装置，所述执行模块包括：

确定单元，用于在调整后的协作模式为运行协作的情况下，根据所述任务全局信息中的任务执行方案，确定与其他节点之间的协作策略；

分配单元，用于根据运行环境信息、所述任务执行方案和所述分布式处理任务，创建任务实例，并为所述任务实例分配执行进程；

运行单元，用于根据所述协作策略和所述任务全局信息中的全局状态信息，通过所述执行进程运行所述任务实例。

17.根据权利要求16所述的装置，所述运行单元具体用于：

根据所述目标节点的地址信息，获取所述协作数据；

18.根据权利要求17所述的装置，所述装置还用于：

获取所述任务管理器下发的所述全局地址信息。

19.根据权利要求15所述的装置，所述装置还用于：

20.根据权利要求15-19中任一项所述的装置，所述装置还包括：

指令获取模块，用于根据任务管理器的地址信息配置模式，获取节点启动指令；其中，所述任务管理器的地址信息配置模式根据所述分布式处理任务的启动类型确定；

建立模块，用于响应于所述节点启动指令，与所述任务管理器建立通信连接。

21.根据权利要求20所述的装置，所述指令获取模块具体用于：

22.根据权利要求21所述的装置，其中，所述任务管理器的地址信息为所述主节点的地址信息或外部服务的地址信息。

23.根据权利要求22所述的装置，其中，所述分布式处理任务为分布式模型训练任务。

24.一种任务处理装置，包括：

接收模块，用于接收节点集中各节点上报的状态信息；

更新模块，用于根据各节点上报的状态信息，更新任务全局信息；任务全局信息包括任务执行方案和全局状态信息；全局状态信息是指节点集中所有节点以及节点中各进程的当前的状态信息；

发送模块，用于将更新后的任务全局信息下发至节点集中各节点，以供节点集中各节点根据更新后的任务全局信息，协作执行分布式处理任务，其中，节点采用的协作模式是指表征本机节点当前是否需要启动执行任务的模式；所述协作模式包括运行协作、退出协作和暂停协作；运行协作是指节点启动，与其他节点交互，执行任务的协作方式；退出协作是指本机节点需要退出任务执行过程，即后续不再执行任务操作的协作方式；暂停协作是指节点暂时不执行操作，等满足预设条件时，再恢复任务执行的协作方式。

25.根据权利要求24所述的装置，所述更新模块具体用于：

26.根据权利要求24所述的装置，所述装置还用于：

根据节点集中各节点注册的地址信息，确定全局地址信息；

将所述全局地址信息下发至节点集中各节点。

27.根据权利要求24所述的装置，所述装置还用于：

将更新后的任务全局信息下发至节点集中各节点。

28.根据权利要求24所述的装置，其中，所述分布式处理任务为分布式模型训练任务。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的任务处理方法，或权利要求10-14中任一项所述的任务处理方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的任务处理方法，或权利要求10-14中任一项所述的任务处理方法。