CN117608814A

CN117608814A - 用于大规模联邦学习任务的多任务联邦学习方法与系统

Info

Publication number: CN117608814A
Application number: CN202311298122.9A
Authority: CN
Inventors: 李进; 尹建伟; 谭哲越
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-02-27

Abstract

本申请涉及一种用于大规模联邦学习任务的多任务联邦学习方法与系统。所述系统包含了中心节点和参与方节点以及远端存储单元，其中：所述中心节点包含用户服务层、任务池、全局调度器、若干任务执行单元；所述参与方节点包含任务操作接口服务、局部调度单元、若干的计算节点；所述远端存储单元为AWS S3、OSS、云数据库等云存储服务。本发明采用全局与局部调度器结合和存算分离架构进行联邦学习任务的调度与高效执行。全局调度器进行任务进入执行状态的决策，平衡任务的公平性和平均运转时间；局部调度器依据本地的计算资源进行任务准入决策；存算分离的结构让系统的资源更专注于计算过程并且利于参与方计算节点的独立扩缩容。

Description

用于大规模联邦学习任务的多任务联邦学习方法与系统

技术领域

本发明涉及一种联邦学习方法与系统，尤其是用于大规模联邦学习任务的多任务联邦学习方法与系统。

背景技术

计算机技术以及人工智能技术不断的发展带来了当前社会中数据的爆炸式增长，同时也带来了个人数据隐私的担忧。针对数据孤岛以及数据隐私问题，提出了联邦学习技术并且获得了快速发展。但是当前联邦学习的相关框架如PySyft，FATE，FedML更多的仍然集中在单中心科研式的单任务或者针对大数据量的优化上。如何在多任务的联邦学习以及多中心的科研场景下，高效的执行大规模的联邦学习任务成为一个亟待解决的问题。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种用于大规模联邦学习任务的多任务联邦学习方法与系统。

在第一方面，本发明提供了一种多任务联邦学习系统，所述系统包括：中心节点、参与方节点、远端存储，其中：

所述中心节点包括用户服务层、任务池、全局调度器、若干任务执行单元。

所述参与方节点包括任务操作接口服务、局部调度器、若干的计算节点。

所述的远端存储为AWS S3、OSS、云数据库等云存储服务。

所述用户服务层用于向用户提供任务提交、任务状态查询、任务结果查询、任务运行时数据获取等gRPC接口并且将获取到的来自用户的任务进行包装发送到任务池。

所述任务池接收来自用户服务层的任务。

所述全局调度器从任务池拉取当前待调度任务，进行任务的调度参数计算并排序，按计算结果进行任务的顺序调度。

所述若干任务执行单元接收全局调度器调度的单个任务并进行任务的实际执行流程的监控以及中心聚合任务。

所述的参与方节点的操作接口服务用于向中心节点的任务执行单元通信，接收单参与方的计算任务。

所述的参与方节点的局部调度器接收获取计算资源的请求进行准入决策。

所述的参与方节点的若干计算节点为兼容不同计算框架的联邦学习装置。

所述的云存储服务利用远端云存储服务，存储任务数据，计算结果数据文件。

在一个实施方案中，所述的中心节点的全局调度器包含了任务调度单元、任务分派单元。

在一个实施方案中，所述任务调度单元包含了任务运行参数估计单元、任务执行参数估计单元、综合优先级计算单元。

在一个实施方案中，所述的任务运行参数估计单元进行任务运行执行公平度的计算。

在一个实施方案中，所述的任务执行参数估计单元进行任务执行预估时间消耗与资源消耗的计算。

在一个实施方案中，所述的综合优先级计算单元通过上述两种估计单元计算结果计算调度优先级，并将所有待调度任务按照调度优先级降序排列。

在一个实施方案中，所述的任务分派单元接收综合优先级计算单元的任务排列，按顺序将任务分派给中心节点的任务执行单元。

在一个实施方案中，所述中心节点的多任务执行单元为该系统初始化是按照配置参数启动的若干个独立的gRPC进程，接收来自任务分派单元的单个任务并监控其全流程执行，同时执行联邦学习流程中的聚合计算。

在一个实施方案中，参与方节点的局部调度单元在接收到任务执行单元的资源获取请求时，依据本地资源情况以及请求的资源量决定是否参与该任务的计算。

在一个实施方案中，参与方节点只与中心节点的任务执行单元通信，由任务执行单元控制当前联邦学习任务的计算结果收集、聚合计算以及新一轮次计算参数分发工作。

在一个实施方案中，中心节点和参与方均会定期通过心跳信息检测本地的执行单元的存活状态，并在存活执行的单元不足时尝试重新启动新的gRPC进程补充执行单元。

在一个实施方案中，所述远端存储利用对象存储云服务存储各个参与方的数据集以及计算结果，利用关系型数据库云服务存储任务数据。

第二方面，本发明提供了一种用于大规模联邦学习的多任务联邦学习方法，本方法使用本发明用于多任务联邦学习的系统，所述的方法包括以下几个步骤：

1）中心节点服务层接收用户提交的任务运行参数，将任务运行参数包装为程序运行的的python对象并放入任务池；

2）全局调度器通过互斥锁互斥访问任务池并拉取待调度任务集合，将拉取的任务集合逐个通过全局调度器的参数计算和综合调度优先级计算，按照计算结果降序排列；

3）任务分派器按照排序结果逐个将集合中任务分派给任务执行单元；

4）任务执行单元收到单个待运行的任务后，按照任务对于参与方的配置信息尝试向参与方获取计算资源；

5）参与方通过局部调度单元决策是否容易该任务资源获取；

6）任务执行单元在获取到一定比例的资源获取成功的结果后，开始任务执行流程，若未达到比例，则标注任务失败，重新将任务放回调度池；

7）任务开始执行后，任务执行单元按照配置信息要求向参与方的执行单元发送计算任务，获取结果，进行聚合，并进行新一轮参数的分发等工作；

8）参与方的执行单元接收当前轮次的任务，依据任务参数的数据集路径通过远程调度获取数据并按照指定算法进行计算；

9）任务完成后计算结果会通过远程调用存储到远端存储服务中。

在一个实施方案中，所述的远端存储调用的调用方式为https调用。

本发明的有益效果：

1. 对于多任务联邦学习场景，可以通过多个任务执行单元的并行执行显著提高多任务联邦学习的执行效率；

2. 对于大规模的联邦学习任务的场景，可以通过中心节点的全局调度器综合考虑当前待调度任务的等待时间和执行消耗的计算资源与计算时间，按照更加高效的任务执行顺序进行多任务的执行；

3. 本系统采用存算分离的架构，中心节点和参与方节点不再需要为存储服务分配额外的运行资源，提高计算效率，并且有利于中心节点与参与方横向增加计算资源，扩展系统算力。

附图说明

图1示例示出系统的整体架构。

图2示例示出中心节点架构。

图3示例示出系统创建与初始化启动的流程。

图4示例示出一个联邦学习任务的被调度执行示例流程。

具体实施方式

为使本发明的目的、技术方案及有点更加清楚明白，以下结合附图及实施例对本发明进行进一步的阐述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明的保护范围。

图1示出了本申请实施例提供的多任务联邦学习系统的整体架构图。所述系统包括：中心节点、参与方节点、远端存储，其中：

所述中心节点包括用户服务层、任务池、全局调度器、若干任务执行单元；

所述参与方节点包括任务操作接口服务、局部调度器、若干的计算节点；

所述的远端存储为云存储，包括AWS S3、OSS、云数据库；

所述用户服务层用于向用户提供任务提交、任务状态查询、任务结果查询、任务运行时数据获取gRPC接口并且将获取到的来自用户的任务进行包装发送到任务池；

所述任务池接收来自用户服务层的任务；

所述全局调度器从任务池拉取当前待调度任务，进行任务的调度参数计算并排序，按计算结果进行任务的顺序调度；

所述任务执行单元接收全局调度器调度的单个任务并进行任务的实际执行流程的监控以及中心聚合任务；

所述的参与方节点的操作接口服务用于向中心节点的任务执行单元通信，接收单参与方的计算任务；

所述的参与方节点的局部调度器接收获取计算资源的请求进行准入决策；

所述的参与方节点的若干计算节点为兼容不同计算框架的联邦学习装置；

所述的云存储利用远端云存储服务，存储任务数据，计算结果数据文件。

用户只与中心节点进行交互，进行任务的操作接口调用。中心节点和参与方节点均可通过远程https调用，调用集群的远程存储服务。

图2示例示出中心节点架构。所述中心节点包括用户服务层、任务池、全局调度器、若干任务执行单元；所述用户服务层用于向用户提供任务提交、任务状态查询、任务结果查询、任务运行时数据获取gRPC接口并且将获取到的来自用户的任务进行包装发送到任务池。

所述任务池接收来自用户服务层的任务。

所述全局调度器从任务池拉取当前待调度任务，进行任务的调度参数计算并排序，按计算结果进行任务的顺序调度；全局调度器包括任务调度单元、任务分派单元。

所述任务调度单元包括任务运行参数估计单元、任务执行参数估计单元、综合优先级计算单元。

所述的任务运行参数估计单元进行任务运行执行公平度的计算；所述的任务执行参数估计单元进行任务执行预估时间消耗与资源消耗的计算。

所述的综合优先级计算单元通过上述两种估计单元计算结果计算调度优先级，并将所有待调度任务按照调度优先级降序排列；所述的任务分派单元接收综合优先级计算单元的任务排列，按顺序将任务分派给中心节点的任务执行单元。

所述任务执行单元接收全局调度器调度的单个任务并进行任务的实际执行流程的监控以及中心聚合任务。

图3示出了系统的启动流程，系统创建时会进行系统的创建和初始化工作。

初始化时，中心节点会在启动服务的期间按照给定的集群参数配置启动对应数量的任务执行单元。每个任务执行单元启动后为单独的gRPC服务进程，占用中心节点的一个套接字资源。中心节点会在本地保存所有的任务执行单元的套接字信息在活跃列表中，并定时通过心跳信息检测任务执行单元的存活状态。对于返回状态为死亡或者长时间未返回的任务执行单元，中心节点会将其从活跃列表中删除，并重新尝试启动新的任务执行单元以达到集群配置所指定的任务执行单元个数。

初始化时，参与方首先按照给定的本地计算框架类型（Spark，MapReduce，Ray计算框架或者无计算框架），计算实体服务数量等参数配置，启动给定数量的计算实体服务，每个计算实体服务均为gRPC服务进程并占用独立的套接字资源。计算实体服务启动后，参与方启动任务操作接口层服务，该层服务为gRPC服务进程，保存所有计算实体服务的套接字列表，并定时通过心跳信息检测计算实体服务的存活状态。对于返回状态为死亡或者长时间未返回的计算实体服务，中心节点会将其从活跃列表中删除，并重新尝试启动新的计算实体服务以达到集群配置所指定的计算实体服务个数。

在中心节点和参与方均启动后，参与方通过调用中心节点的服务接口，申请加入集群。中心节点记录当前集群的参与方信息，并将该信息通过远程调用存储到远端存储的关系型数据库中。

图4示出了该联邦学习系统接收联邦学习任务并执行的示例流程。在多任务场景下，对于每个到来的联邦学习任务，均依照此流程进行调度和实际执行，并且通过多个任务执行单元实现多任务执行的并行化。具体的多任务联邦学习执行的任务调度步骤如下：

1.用户通过调用中心节点的任务提交接口并发提交若干个联邦学习任务，每次提交会包含联邦学习任务的相关参数，包括联邦学习任务需要执行的联邦学习算法、预期训练的机器学习模型算法、算法的初始化参数、可以参与该联邦学习任务的参与方标识符、可参与的参与方的数据集路径、该任务可接受的每轮最少参与方。

2.中心节点的用户服务层通过接收的配置参数，将其转化为python对象，获取任务池的互斥锁之后，将任务对象放入中心节点的任务池中。

3.中心节点的全局调度器定时尝试获取任务池的互斥锁，并从任务池中拉取待调度任务集合，拉取的任务集合包含的任务数量为当前中心节点的空闲的任务执行单元数量的两倍与当前任务总数的较小值。

4.全局调度单元拉取任务后，逐个将任务集合中的任务通过任务运行参数估计单元和任务执行参数估计单元分别计算任务的运行等待分数和执行消耗分数，并将任务的两项分数输入到综合优先级计算单元计算任务的调度优先级分数。

5.在完成所有任务的调度优先级分数计算后，将该集合中的任务按照调度优先级分数降序排列。

6.按照排列后的顺序取最多等于当前中心节点的空闲的任务执行单元的数量的任务，其他任务放回任务池中。

7.将取出的任务分配给空闲的任务执行单元。

在完成任务调度后，单个任务被分配给任务执行单元后，就进入了运行状态。单个任务的执行步骤如下：

1.任务执行单元按照任务配置参数，向所有可参与该任务的参与方发送计算资源申请请求，并同时发送任务的参数和最低资源要求。

2.参与方接收该请求后，局部调度器依据空闲资源情况决定是否接受该任务。若无法满足最低资源要求，则拒绝该请求，否则返回成功并同时返回该参与方参与到该任务的计算实体服务的套接字信息。

3.任务执行单元在接收到超过预定数量的参与方的成功信息后进入任务执行状态，否则重新尝试以上流程。

4.任务进入实际执行流程后，任务执行单元每一轮向参与方的计算实体服务发送计算任务的参数，参与方通过远端存储的调用获取所使用的数据集，按照给定的算法进行本地计算并返回计算结果，任务执行单元进行聚合产生新一轮计算的参数，重复以上计算流程直至计算结束。在计算过程中，参与方的计算实体服务会把本地的每一轮计算结果通过远程调用存储到远端存储中。计算结束后，任务执行单元的计算结果也会通过远程调用存储到远端的存储中。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，均属于本发明的保护范围。本发明的保护范围由所附权利要求及其任何等同技术方案给出。

Claims

1.一种用于大规模联邦学习任务的多任务联邦学习系统，其特征在于，所述系统包括：中心节点、参与方节点、远端存储，其中：

所述的远端存储为AWS S3、OSS、云数据库；

所述任务池接收来自用户服务层的任务；

2.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述的中心节点的全局调度器包括任务调度单元、任务分派单元，

所述任务调度单元包括任务运行参数估计单元、任务执行参数估计单元、综合优先级计算单元；

所述的任务运行参数估计单元进行任务运行执行公平度的计算；

所述的任务执行参数估计单元进行任务执行预估时间消耗与资源消耗的计算；

所述的综合优先级计算单元通过上述两种估计单元计算结果计算调度优先级，并将所有待调度任务按照调度优先级降序排列；

所述的任务分派单元接收综合优先级计算单元的任务排列，按顺序将任务分派给中心节点的任务执行单元。

3.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述中心节点的任务执行单元为该系统初始化按照配置参数启动的若干个独立的gRPC进程，接收来自任务分派单元的单个任务并监控其全流程执行，同时执行联邦学习流程中的聚合计算。

4.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述参与方节点的局部调度单元在接收到任务执行单元的资源获取请求时，依据本地资源情况以及请求的资源量决定是否参与该任务的计算。

5.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述的参与方节点只与中心节点的任务执行单元通信，由任务执行单元控制当前联邦学习任务的计算结果收集、聚合计算以及新一轮次计算参数分发工作。

6.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述的中心节点和参与方均会定期通过心跳信息检测本地的执行单元的存活状态，并在存活执行的单元不足时尝试重新启动新的gRPC进程补充执行单元。

7.根据权利要求1所述的多任务联邦学习系统，其特征在于，所述远端存储利用对象存储云服务存储各个参与方的数据集以及计算结果，利用关系型数据库云服务存储任务数据。

8.一种用于大规模联邦学习的多任务联邦学习方法，其特征在于，所述方法使用根据权利要求1-7任一项所述的系统，所述的方法包括以下几个步骤：

5）参与方通过局部调度单元决策是否容易该任务资源获取；

9.根据权利要求8所述的方法其特征在于，所述的远程调用远端存储服务，调用方式为https调用。