CN115174412B

CN115174412B - 针对异构联邦学习系统的动态带宽分配方法以及相关设备

Info

Publication number: CN115174412B
Application number: CN202211006603.3A
Authority: CN
Inventors: 罗冰; 李想; 黄建伟
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2024-04-12
Anticipated expiration: 2042-08-22
Also published as: CN115174412A

Abstract

本申请实施例公开了针对异构联邦学习系统的动态带宽分配方法以及相关设备，用于在各参与方设备的计算和通信能力异构的情况下，提升带宽资源的利用率以及通信效率。本申请实施例方法包括：获取各参与方设备在第N个聚合周期的信道状态，其中N≥0且N为整数；在第M个聚合周期内，若任一参与方设备完成本地训练，则根据各目标参与方设备的待上传数据量以及所述各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，所述目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；接收每个目标参与方设备根据分配的带宽上传的在第M个聚合周期训练得到的模型参数。

Description

针对异构联邦学习系统的动态带宽分配方法以及相关设备

技术领域

本申请实施例涉及联邦学习领域，尤其涉及针对异构联邦学习系统的动态带宽分配方法以及相关设备。

背景技术

面对异构的联邦学习场景，由于各参与方设备受到环境、基站距离等因素的影响，进而导致与聚合服务器之间的通信质量的异构性，影响到模型上传过程中的数据传输效率。

现在，在联邦学习过程中通常采用静态的信道带宽资源分配，即在联邦学习开始之前确定各参与方设备可以分配到的带宽，然后在一次联邦学习的多个聚合周期(即训练周期)中，各参与方设备都在分配的带宽内进行模型参数的上传。

由于各参与方设备计算性能的异构性，不同参与方设备在同一聚合周期内本地训练时长不同，而带宽是已经分配好的。所以，即使是首个完成本地训练的参与方设备也只能占用被分配到的带宽进行模型上传，这样在全部参与方设备完成本地训练之前，一直存在闲置的带宽，造成带宽资源的浪费。

发明内容

本申请实施例提供了针对异构联邦学习系统的动态带宽分配方法以及相关设备，用于提升带宽资源的利用率。

本申请实施例第一方面提供一种动态带宽分配方法，包括：

获取各参与方设备在第N个聚合周期的信道状态，其中N≥0且N为整数；

在第M个聚合周期内，若任一参与方设备完成本地训练，则根据各目标参与方设备的待上传数据量以及所述各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，所述目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；

接收每个目标参与方设备根据分配的带宽上传的在第M个聚合周期训练得到的模型参数。

在一种具体实现方式中，所述信道状态包括信道带宽和传输速率；

所述根据各目标参与方设备的待上传数据量以及所述各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，包括：

根据预设的带宽分配约束条件，向所述各目标参与方设备分配所述聚合服务器的带宽；

其中所述带宽分配约束条件包括：所述各目标参与方设备的分配带宽不大于所述各目标参与方设备在第N个聚合周期的信道带宽，所述各目标参与方设备的分配带宽之和接近所述聚合服务器的带宽，所述各目标参与方设备以第N个聚合周期的传输速率在分配带宽内上传所述待上传数据量所需的时间接近。

在一种具体实现方式中，所述方法还包括：

在第M个聚合周期内，若任一参与方设备完成本地训练，则确定各目标参与方设备中除所述任一参与方设备之外的其他各目标参与方设备的已上传数据量；

获取各目标参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量；

确定所述任一参与方设备的待上传数据量为所述任一参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量，并确定所述其他各目标参与方设备的待上传数据量为所述其他各目标参与方设备在第M个聚合周期的模型参数数据量减去所述其他各目标参与方设备的已上传数据量。

本申请实施例第二方面提供一种动态带宽分配方法，包括：

获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，其中N≥0且N为整数；

根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，对第M个聚合周期内各时隙相应的目标参与方设备进行带宽分配；其中所述时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间；所述各时隙相应的目标参与方设备为所述各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；

在第M个聚合周期内，接收每个目标参与方设备在所述各时隙根据分配的带宽上传的在第N个聚合周期训练得到的模型参数。

所述根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，对第M个聚合周期内各时隙相应的目标参与方设备进行带宽分配，包括：

根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向所述各时隙相应的目标参与方设备分配所述聚合服务器的带宽；

其中所述带宽分配约束条件包括：所述目标参与方设备的分配带宽不大于所述目标参与方设备在第N个聚合周期的信道带宽；所述各时隙相应的目标参与方设备在所述各时隙内的分配带宽之和接近所述聚合服务器的带宽；所述各目标参与方设备以第N个聚合周期的传输速率在各时隙相应的分配带宽内上传相应的上传数据量所需的时间接近。

本申请实施例第三方面提供一种聚合服务器，包括：

获取单元，用于获取各参与方设备在第N个聚合周期的信道状态，其中N≥0且N为整数；

分配单元，用于在第M个聚合周期内，若任一参与方设备完成本地训练，则根据各目标参与方设备的待上传数据量以及所述各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，所述目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；

接收单元，用于接收每个目标参与方设备根据分配的带宽上传的在第M个聚合周期训练得到的模型参数。

所述分配单元，具体用于根据预设的带宽分配约束条件，向所述各目标参与方设备分配所述聚合服务器的带宽；

在一种具体实现方式中，所述聚合服务器还包括：确定单元；

所述确定单元，用于在第M个聚合周期内，若任一参与方设备完成本地训练，则确定各目标参与方设备中除所述任一参与方设备之外的其他各目标参与方设备的已上传数据量；

所述获取单元，还用于获取各目标参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量；

所述确定单元，还用于确定所述任一参与方设备的待上传数据量为所述任一参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量，并确定所述其他各目标参与方设备的待上传数据量为所述其他各目标参与方设备在第M个聚合周期的模型参数数据量减去所述其他各目标参与方设备的已上传数据量。

本申请实施例第四方面提供一种聚合服务器，包括：

获取单元，用于获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，其中N≥0且N为整数；

分配单元，用于根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，对第M个聚合周期内各时隙相应的目标参与方设备进行带宽分配；其中所述时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间；所述各时隙相应的目标参与方设备为所述各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；

接收单元，用于在第M个聚合周期内，接收每个目标参与方设备在所述各时隙根据分配的带宽上传的在第N个聚合周期训练得到的模型参数。

所述分配单元，具体用于根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向所述各时隙相应的目标参与方设备分配所述聚合服务器的带宽；

本申请实施例第五方面提供一种聚合服务器，包括：

中央处理器，存储器以及输入输出接口；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行第一方面或第二方面所述的方法。

本申请实施例第六方面提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如第一方面或第二方面所述的方法。

本申请实施例第七方面提供一种计算机存储介质，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如第一方面或第二方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：根据参与方设备的信道状态确定各参与方设备在第M个聚合周期的带宽分配。在同一个聚合周期内，参与方设备的分配带宽是不断变化的，每次调整各参与方设备分配的带宽时，都会尽可能将可以分配的带宽分配给各目标参与方设备，尽可能的利用全部带宽资源，以提升带宽资源的利用率。

附图说明

图1为本申请实施例公开的动态带宽分配方法一种流程示意图；

图2为本申请实施例公开的动态带宽分配方法另一流程示意图；

图3为本申请实施例公开的联邦学习的一个流程示意图；

图4为本申请实施例公开的动态带宽分配方法应用于联邦学习的一个流程示意图；

图5为本申请实施例公开的动态带宽分配方法的另一流程示意图；

图6为本申请实施例公开的聚合服务器的一个结构示例图；

图7为本申请实施例公开的聚合服务器的另一结构示例图；

图8为本申请实施例公开的聚合服务器的另一结构示例图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，考虑到不同参与方设备计算性能的异构性，针对不同的信道状况提供了不同的动态带宽分配方法。

一、针对各参与方设备信道状态不稳定的动态带宽分配方法。

请参阅图1，本申请实施例提供一种带宽分配方法，包括：

101、获取各参与方设备在第N个聚合周期的信道状态，其中N≥0、M≥1、N≤M且N和M均为整数；

在确定各参与方设备的分配带宽之前，首先需要获取各参与方设备在第N个聚合周期的信道状态。具体的，若要计算各参与方设备在第M个聚合周期的分配带宽，需要获取各参与方设备在第M个聚合周期或第M个聚合周期之前的任一聚合周期的信道状态，并根据信道状态计算各参与方设备的分配带宽。其中，第0个聚合周期的信道状态可以是参与方设备预设的或默认的信道状态，此处不作限定。

102、在第M个聚合周期内，若任一参与方设备完成本地训练，则根据各目标参与方设备的待上传数据量以及各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N≤M；

在第M个聚合周期内，每当一个参与方设备完成本地训练，就可以进行一次带宽分配(即若有L个参与方设备参与联邦学习，且每个参与方设备本地训练时长不同，则在该联邦学习的每个聚合周期内都会进行L次带宽分配)，进行带宽分配前需要确定目标参与方设备(即需要分配带宽的参与方设备)。具体的，每当一个参与方设备完成本地训练时，首先确定已完成本地训练且未完成模型参数上传的参与方设备为目标参与方设备。然后，根据目标参与方设备在第N个聚合周期的信道状态和待上传数据量确定各目标参与方设备可以分配到的带宽。其中，用于分配给各目标参与方设备的带宽是指参与方设备向聚合服务器传输数据时的通信带宽，可以在确定各目标参与方设备的分配带宽之前进行确定。

可以知道的是，步骤101中获取各参与方设备在第N个聚合周期的信道状态可以是在步骤102确定需要分配带宽的参与方设备的步骤之前或之后(即确定需要目标参与方设备)，此处不作限定。为了更好的说明本申请实施例，下面举例说明步骤101和步骤102的不同时序关系：在一种具体实现方式中，若在确定目标参与方设备后再获取各目标参与方设备的信道状态可如下：在第4个聚合周期内，若任一参与方设备完成本地训练，则确定已完成本地训练且未完成模型参数上传的参与方设备为目标参与方设备；然后获取每个目标参与方设备在第4个聚合周期内的信道状态。在另一种具体实现方式中，若先获取各参与方设备的信道状态然后根据确定的目标参与方设备从各参与方设备的信道状态中获取各目标参与方设备的信道状态可如下：先获取各参与方设备在第3个聚合周期的信道状态，然后在第4个聚合周期内，若任一参与方设备完成本地训练，则确定已完成本地训练且未完成模型参数上传的参与方设备为目标参与方设备；然后从各参与方设备在第3个聚合周期的信道状态中获取各目标参与方设备在第3个聚合周期内的信道状态。在实际应用中，可以根据信道稳定状况确定是先获取各参与方设备的信道状态还是先确定目标参与方式设备，此处不作限定。

另外，在第M个聚合周期给目标参与方设备分配带宽时，在信道状态不稳定时，考虑到带宽分配的准确性，可以考虑使用第M个聚合周期的信道状态进行带宽分配；在信道状态稳定时，可以使用第M个聚合周期之前的任一聚合周期的信道状态，此处不作具体限定。

在一些具体实施例中，本步骤中判断任一参与方设备完成本地训练的方式：可以是接收到任一参与方设备发送的上传请求，或根据任一参与方设备的计算能力以及训练的聚合模型估计该任一参与方设备完成本地计算所需要的时间，此处不作限定。

103、接收每个目标参与方设备根据分配的带宽上传的在第M个聚合周期训练得到的模型参数。

根据步骤102所述实施例可知，在有L个参与方设备参与训练的聚合周期内会进行L次带宽分配，其中每次参与带宽分配的目标参与方设备都是已经完成本地训练的全部参与方设备或最近一个完成本地训练的参与方设备。

具体的，完成第A次带宽分配后至完成第A+1次带宽分配的一段时间内，获取的参与方设备的模型参数都是基于第A次带宽分配的情况接收的，即完成第A次带宽分配后至完成第A+1次带宽分配的一段时间内，各参与方设备都是根据第A次带宽分配的情况进行模型参数上传的，也就是说只有在第A次带宽分配中获得分配带宽的参与方设备才可以在完成第A次带宽分配后至完成第A+1次带宽分配的一段时间内进行模型参数上传。

本申请实施例中，根据参与方设备的信道状态确定各参与方设备在第M个聚合周期的带宽分配。每当有一个完成本地训练的参与方设备时，就会重新调整确定目标参与方设备并为各目标参与方设备分配带宽。尽量避免完成本地训练且未完成模型上传的参与方设备处于闲置状态，以提升数据传输效率。

在一些具体实现方式中，若完成本地训练的任一参与方设备是第M个聚合周期内首个完成训练的参与方设备，则可以直接确定该任一参与方设备的待上传数据量为该任一参与方式设备在第M个聚合周期内完成本地训练后的模型参数数据量(即在第M个聚合周期内完成本地训练后需要上传的模型参数的数据量)；若完成本地训练的任一参与方设备不是第M个聚合周期内首个完成训练的参与方设备，则具体可以通过以下方式确定各目标参与方设备的待上传数据量，包括：在第M个聚合周期内，若任一参与方设备完成本地训练，则确定各目标参与方设备中除任一参与方设备之外的其他各目标参与方设备的已上传数据量；获取各目标参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量；确定任一参与方设备的待上传数据量为任一参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量，并确定其他各目标参与方设备的待上传数据量为其他各目标参与方设备在第M个聚合周期的模型参数数据量减去其他各目标参与方设备的已上传数据量。

具体的，在第M个聚合周期内，每当确定目标参与方设备(即进行除第一次带宽分配之外的每次带宽分配时确定的目标参与方设备)，就可以获取目标参与方设备中除最近一个完成本地训练的目标参与方设备之外的其他目标参与方设备的已上传数据量。然后，确定各目标参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量。最后，确定任一参与方设备的待上传数据量为任一参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量，并确定其他各目标参与方设备的待上传数据量为其他各目标参与方设备在第M个聚合周期的模型参数数据量减去其他各目标参与方设备的已上传数据量。其中，因为其他目标参与方设备在此次分配带宽之前已经接受过带宽分配(即其他目标参与方设备不是最近一个完成本地训练的目标参与方设备)，所以可以根据各其他目标参与方设备多次带宽分配情况和信道状况确定其已上传数据量，然后根据相应的模型参数数据量和相应的已上传数据量确定各其他目标参与方设备的待上传数据量。

本申请实施例中，针对一个聚合周期内的首次带宽分配和非首次带宽分配提供了不同的待上传数据量确认流程，提升了方案的可实现性。

进一步的，在实际应用中，信道状态包括但不限于：信道带宽以及传输速率。在此基础上，前述步骤102中每次进行带宽分配时，具体基于预设的带宽分配约束条件进行带宽分配。其中，带宽分配约束条件包括但不限于：各目标参与方设备的分配带宽不大于各目标参与方设备在第N个聚合周期的信道带宽(此约束条件保证个目标参与方设备分配到的带宽是可以其使用的)、各目标参与方设备的分配带宽之和接近聚合服务器的带宽(此约束条件保证最大化利用可以分配的带宽)、以及各目标参与方设备以第N个聚合周期的传输速率在分配带宽内上传待上传数据量所需的时间接近(此约束条件可减少各参与方设备无法同时完成模型上传导致部分参与方设备处于闲置状态的问题)。

本申请实施例中，根据异构参与方设备不同的计算能力和信道状态的耦合关系，优化联邦学习数据传输效率及资源利用率。

二、针对各参与方设备信道状态稳定的动态带宽分配方法。

请参阅图2，本申请实施例提供一种带宽分配方法，包括：

201、获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，其中N≥0且N为整数；

考虑到各参与方设备的信道状态稳定，因此可以根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长确定在第M个聚合周期中各时隙相应的各参与方设备分配的带宽。其中，第0个聚合周期的信道状态可以是参与方设备预设的或默认的信道状态，此处不作限定。

202、根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，对第M个聚合周期内各时隙相应的目标参与方设备进行带宽分配；其中时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练至后一个参与方设备完成本地训练之间的一段时间；各时隙相应的目标参与方设备为各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；

为了更好地说明本申请实施例，下面先对本申请实施例的基本概念稍作解释。时隙，是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间，特别的，每个聚合周期的最后一个时隙特指最后一个完成本地训练的参与方设备完成训练的时刻至全部参与方设备完成模型上传的时刻。比如，若存在L个计算性能不同的参与方设备，那么会存在L个时隙，其中第1个时隙至第L-1个时隙均对应一个参与方设备完成本地训练至相应的下一个参与方设备完成本地训练的时刻，第L个时隙特指最后一个完成本地训练的参与方设备完成训练的时刻至L个参与方设备均完成模型上传的时刻。因此，每个时隙相应的目标参与方设备为该时隙内完成本地训练(此处完成本地训练是指在该时隙之前的时隙完成的本地训练)但未完成模型上传(即未将应当上传的全部模型参数上传完成)的参与方设备。

其中，用于分配给各目标参与方设备的带宽是指参与方设备向聚合服务器传输数据时的通信带宽，可以在确定各目标参与方设备的分配带宽之前进行确定。

然后，根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，确定第M个聚合周期内各时隙相应的目标参与方设备的带宽分配方案。带宽分配方案是指每个时隙相应的目标参与方设备在该时隙内分配的带宽。

在一些具体实现方式中，若带宽分配方案有两种实现方式：

方式一，带宽分配方案中分配的各时隙是相对于顺序而言的，即若存在L个参与方设备，带宽分配方案中就会对应有L个时隙以及每个时隙相应的参与方设备分配的带宽，因为各参与方设备在不同聚合周期的训练时间可能不同，所以在方式一的带宽分配方案中，在第M个聚合周期内第一个完成本地训练参与方设备完成本地训练后(即触发条件)，聚合服务器按照带宽分配方案中的第1个时隙的分配方案为相应的参与方设备进行带宽分配，依次的，第M个聚合周期内第G个参与方设备完成本地训练，则聚合服务器按照带宽分配方案中第G个时隙的分配方案为相应的参与方设备进行带宽分配。

方式二，带宽分配方案中分配的各时隙是相对于时间而言的，即若存在L个参与方设备，带宽分配方案中就会对应有L个时隙以及每个时隙相应的参与方设备分配的带宽。其中每个时隙都有相应的时间段，这个可以根据各参与方设备在第N个聚合周期的训练时长确定。因此，在方式二的带宽分配方案中，在第M个聚合周期内到达带宽分配方案中第一个时隙相应的时间段时，则聚合服务器按照带宽分配方案中的第1个时隙的分配方案为相应的参与方设备进行带宽分配(此处不考虑第一完成本地训练的参与方设备是否完成本地训练)，依次的，第M个聚合周期内到达第G时间段，则聚合服务器按照带宽分配方案中的第G个时隙的分配方案为相应的参与方设备进行带宽分配。

可以知道的是，带宽分配方案可以是不限于上述两种方式但可以实现带宽动态分配的任意方案，此处不作限定。

203、在第M个聚合周期内，接收每个目标参与方设备在各时隙根据分配的带宽上传的在第N个聚合周期训练得到的模型参数。

在第M个聚合周期，第一个参与方设备完成本地训练和/或请求模型上传前，可以执行步骤202以确定第M个聚合周期内的带宽分配方案。然后，在第M个聚合周期的每个时隙内为相应的目标参与方设备分配带宽分配方案中相应的带宽。具体的，根据步骤202所述实施例可知，根据带宽分配方案的实现方式不同，触发每个时隙的带宽分配的条件也不同。若触发条件是任一参与方设备完成本地训练，则判断任一参与方设备完成本地训练的方式与前述步骤102所述实施例中的判断方式类似，此处不再赘述。

本申请实施例中，根据各参与方设备本地训练的训练时长及信道状态信息，直接求解所有时隙的最优频域分配方案，在一个聚合周期内不断调整各目标参与方设备分配的带宽，实现了动态带宽分配。同时，通过动态修正每个时隙的各参与方设备频谱资源分配方案，从而实现最优的频带资源利用也降低了联邦学习的训练时间，适用于信道状态较为稳定的联邦学习过程。

在实际应用中，信道状态包括但不限于：信道带宽以及传输速率。在此基础上，前述步骤202中进行带宽分配方案的确定时，具体基于预设的带宽分配约束条件进行带宽分配。其中，带宽分配约束条件包括但不限于：根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向所述各时隙相应的目标参与方设备分配所述聚合服务器的带宽；

其中带宽分配约束条件包括：目标参与方设备的分配带宽不大于目标参与方设备在第N个聚合周期的信道带宽；各时隙相应的目标参与方设备在各时隙内的分配带宽之和接近聚合服务器的带宽；各目标参与方设备以第N个聚合周期的传输速率在各时隙相应的分配带宽内上传相应的上传数据量所需的时间接近。其中，设置各带宽分配约束条件的目的与前述针对信道状态不稳定的动态带宽分配方法中设置各带宽分配约束条件的目的类似，此处不再赘述。

为了更好的说明本申请实施例的动态带宽分配方法，下面在一个联邦学习场景中，描述本申请实施例针对各参与方设备信道状态不稳定的动态带宽分配方法。

请参阅图3，在一种具体实现方式中，联邦学习的训练过程可如图3中训练流程所示。其中，中心服务器即聚合服务器，用户即相应的参与方设备。

进一步的，在一个联邦学习场景下，可参照如图4所述的流程实现本申请实施例的动态带宽分配方法。

更进一步的，在一个聚合周期内，带宽分配方案可参照如图5所示流程。

具体的，每个时隙的带宽可以根据以下公式计算：

且/>

其中，f_i ^(j)是指第i个目标参与方设备在第j个时隙内所分配到的带宽，K为第j个时隙内参与带宽分配的目标参与方设备个数。

本申请实施例还提供一种聚合服务器，包括：

获取单元601，用于获取各参与方设备在第N个聚合周期的信道状态，其中N≥0且N为整数；

分配单元602，用于在第M个聚合周期内，若任一参与方设备完成本地训练，则根据各目标参与方设备的待上传数据量以及各目标参与方设备在第N个聚合周期的信道状态进行带宽分配，目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；

接收单元603，用于接收每个目标参与方设备根据分配的带宽上传的在第M个聚合周期训练得到的模型参数。

在一种具体实现方式中，信道状态包括信道带宽和传输速率；

分配单元602，具体用于根据预设的带宽分配约束条件，向各目标参与方设备分配聚合服务器的带宽；

其中带宽分配约束条件包括：各目标参与方设备的分配带宽不大于各目标参与方设备在第N个聚合周期的信道带宽，各目标参与方设备的分配带宽之和接近聚合服务器的带宽，各目标参与方设备以第N个聚合周期的传输速率在分配带宽内上传待上传数据量所需的时间接近。

在一种具体实现方式中，聚合服务器还包括：确定单元；

确定单元，用于在第M个聚合周期内，若任一参与方设备完成本地训练，则确定各目标参与方设备中除任一参与方设备之外的其他各目标参与方设备的已上传数据量；

获取单元601，还用于获取各目标参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量；

确定单元，还用于确定任一参与方设备的待上传数据量为任一参与方设备在第M个聚合周期内完成本地训练后的模型参数数据量，并确定其他各目标参与方设备的待上传数据量为其他各目标参与方设备在第M个聚合周期的模型参数数据量减去其他各目标参与方设备的已上传数据量。

本申请实施例还提供一种聚合服务器，包括：

获取单元701，用于获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，其中N≥0且N为整数；

分配单元702，用于根据各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，对第M个聚合周期内各时隙相应的目标参与方设备进行带宽分配；其中时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间；各时隙相应的目标参与方设备为各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；

接收单元703，用于在第M个聚合周期内，接收每个目标参与方设备在各时隙根据分配的带宽上传的在第N个聚合周期训练得到的模型参数。

分配单702元，具体用于根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向各时隙相应的目标参与方设备分配聚合服务器的带宽；

其中带宽分配约束条件包括：目标参与方设备的分配带宽不大于目标参与方设备在第N个聚合周期的信道带宽；各时隙相应的目标参与方设备在各时隙内的分配带宽之和接近聚合服务器的带宽；各目标参与方设备以第N个聚合周期的传输速率在各时隙相应的分配带宽内上传相应的上传数据量所需的时间接近。

图8是本申请实施例提供的一种聚合服务器结构示意图，该聚合服务器800可以包括一个或一个以上中央处理器(central processing units，CPU)801和存储器805，该存储器805中存储有一个或一个以上的应用程序或数据。

其中，存储器805可以是易失性存储或持久存储。存储在存储器805的程序可以包括一个或一个以上模块，每个模块可以包括对聚合服务器中的一系列指令操作。更进一步地，中央处理器801可以设置为与存储器805通信，在聚合服务器800上执行存储器805中的一系列指令操作。

聚合服务器800还可以包括一个或一个以上电源802，一个或一个以上有线或无线网络接口803，一个或一个以上输入输出接口804，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。

该中央处理器801可以执行前述图1至图7所示实施例中聚合服务器所执行的操作，具体此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述的动态带宽分配方法。

Claims

1.一种针对异构联邦学习系统的动态带宽分配方法，其特征在于，应用于聚合服务器，包括：

获取各参与方设备在第N个聚合周期的信道状态，所述信道状态包括信道带宽和传输速率，其中N≥0且N为整数；

在第M个聚合周期内，若任一参与方设备完成本地训练，则根据预设的带宽分配约束条件，向各目标参与方设备分配所述聚合服务器的带宽，所述目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；其中所述带宽分配约束条件包括：所述各目标参与方设备的分配带宽不大于所述各目标参与方设备在第N个聚合周期的信道带宽，所述各目标参与方设备的分配带宽之和接近所述聚合服务器的带宽，所述各目标参与方设备以第N个聚合周期的传输速率在分配带宽内上传相应待上传数据量所需的时间接近；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.一种针对异构联邦学习系统的动态带宽分配方法，其特征在于，应用于聚合服务器，包括：

获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，所述信道状态包括信道带宽和传输速率，其中N≥0且N为整数；

根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向所述各时隙相应的目标参与方设备分配所述聚合服务器的带宽；其中所述时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间；所述各时隙相应的目标参与方设备为所述各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；其中所述带宽分配约束条件包括：所述目标参与方设备的分配带宽不大于所述目标参与方设备在第N个聚合周期的信道带宽；所述各时隙相应的目标参与方设备在所述各时隙内的分配带宽之和接近所述聚合服务器的带宽；各目标参与方设备以第N个聚合周期的传输速率在各时隙相应的分配带宽内上传相应的上传数据量所需的时间接近；

4.一种聚合服务器，其特征在于，包括：

获取单元，用于获取各参与方设备在第N个聚合周期的信道状态，所述信道状态包括信道带宽和传输速率，其中N≥0且N为整数；

分配单元，用于在第M个聚合周期内，若任一参与方设备完成本地训练，则根据预设的带宽分配约束条件，向各目标参与方设备分配所述聚合服务器的带宽，所述目标参与方设备为已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、N≤M且M为整数；其中所述带宽分配约束条件包括：所述各目标参与方设备的分配带宽不大于所述各目标参与方设备在第N个聚合周期的信道带宽，所述各目标参与方设备的分配带宽之和接近所述聚合服务器的带宽，所述各目标参与方设备以第N个聚合周期的传输速率在分配带宽内上传相应待上传数据量所需的时间接近；

5.一种聚合服务器，其特征在于，包括：

获取单元，用于获取各参与方设备在第N个聚合周期的信道状态、上传数据量以及训练时长，所述信道状态包括信道带宽和传输速率，其中N≥0且N为整数；

分配单元，用于根据预设的带宽分配约束条件，在第M个聚合周期各时隙内向所述各时隙相应的目标参与方设备分配所述聚合服务器的带宽；其中所述时隙是指任意相继完成本地训练的两个参与方设备中前一个参与方设备完成本地训练时至后一个参与方设备完成本地训练时之间的一段时间；所述各时隙相应的目标参与方设备为所述各时隙内已完成本地训练且未完成模型参数上传的参与方设备，其中M≥1、M为整数且N＜M；其中所述带宽分配约束条件包括：所述目标参与方设备的分配带宽不大于所述目标参与方设备在第N个聚合周期的信道带宽；所述各时隙相应的目标参与方设备在所述各时隙内的分配带宽之和接近所述聚合服务器的带宽；各目标参与方设备以第N个聚合周期的传输速率在各时隙相应的分配带宽内上传相应的上传数据量所需的时间接近；

6.一种聚合服务器，其特征在于，包括：

中央处理器，存储器以及输入输出接口；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行权利要求1至2或3中任一项所述的方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至2或3中任一项所述的方法。