CN116362327A

CN116362327A - 一种模型训练方法、系统及电子设备

Info

Publication number: CN116362327A
Application number: CN202310331050.7A
Authority: CN
Inventors: 胡雅晴
Original assignee: Beijing Tianchi Network Co ltd
Current assignee: Beijing Tianchi Network Co ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-30

Abstract

本申请实施例公开了一种模型训练方法、系统及电子设备，其中，方法包括：服务器根据训练任务确定第一模型和第二模型，并根据第二无人机集群中无人机的设备能力值，将第二模型分解为客户端模型和服务器端模型；服务器将第一模型发送至第一无人机集群，将客户端模型发送至第二无人机集群；服务器与第二无人机集群交互进行服务器端模型与客户端模型的训练；服务器根据服务器端模型训练结果、第一无人机集群反馈的第一模型训练结果、以及第二无人机集群反馈的客户端模型训练结果，生成训练任务的模型训练结果。采用本申请实施例，结合FL和SL的优点和互补特性，采用SFL混合式训练模型对无人机集群进行训练。

Description

一种模型训练方法、系统及电子设备

技术领域

本申请涉及无人机技术领域，具体涉及一种模型训练方法、系统及电子设备。

背景技术

随着科技的发展，无人机(Unmanned Aerial Vehicle，UAV)集群的发展引起了学术界和工业界的广泛关注，目前无人机集群的机器学习方案主要依赖于云中心架构，需要无人机在中央服务器上传数据并进行训练。该过程需要传输海量数据，因此会产生巨大的网络通信开销，并且降低了整个系统的响应速度。此外，由于本地数据的隐私问题，无人机将原始数据传输到第三方边缘服务器具有很大的安全隐患。

为了克服数据传输问题，现有技术通常采用联邦学习(Federated Learning，FL)作为无人机集群的训练范式，FL能通过地理分布式训练释放无人机集群的数据收集和计算能力，同时在无人机上本地保留所有的训练数据，但是当无人机集群进行训练的过程中，由于存在不同型号的无人机，其输出的数据类型也存在差异，导致在数据传输中出现数据异构。

为了克服数据隐私问题，现有技术采用分裂学习(Split Learning，SL)作为无人机集群的训练范式，SL将训练的神经网络分为客户端和服务器端，客户端将数据转换为特征向量，并传输数据至服务器中，以防止数据的泄露，但该无人机集群的训练系统的复杂度高。

因此，亟需一种适合无人机集群的模型训练方法。

发明内容

本申请提供了一种模型训练方法、系统及电子设备，可以结合FL和SL的优点和互补特性，采用SFL混合式训练模型对无人机集群进行训练。

第一方面，本申请提供了一种模型训练方法，应用于无人机系统，所述无人机系统包括服务器、第一无人机集群和第二无人机集群，所述第一无人机集群中无人机的设备能力值大于所述第二无人机集群中无人机的设备能力值；所述模型训练方法包括：

所述服务器根据训练任务确定第一模型和第二模型，并根据所述第二无人机集群中无人机的设备能力值，将所述第二模型分解为客户端模型和服务器端模型；

所述服务器将所述第一模型发送至所述第一无人机集群，将所述客户端模型发送至所述第二无人机集群；

所述服务器与所述第二无人机集群交互进行所述服务器端模型与所述客户端模型的训练；

所述服务器根据服务器端模型训练结果、所述第一无人机集群反馈的第一模型训练结果、以及所述第二无人机集群反馈的客户端模型训练结果，生成所述训练任务的模型训练结果。

通过采用上述技术方案，将无人机集群划分为第一无人机集群和第二无人机集群，第一无人机集群采用FL进行训练，采用相似的性能、功能和数据集对海量异构无人机进行分组，构建一个聚类结构以降低规模并消弭异构性，克服了传输延迟等困难，第二无人机集群采用SL进行训练，结合FL和SL的优点和互补特性，采用SFL混合式训练模型对无人机集群进行训练，进而提高了无人机集群整体的训练效率。

可选的，所述服务器将所述第一模型发送至所述第一无人机集群的步骤，包括：

所述服务器将所述第一模型发送至所述簇头无人机；

所述簇头无人机将所述第一模型发送至工人无人机进行本地训练。

通过采用上述技术方案，基于分簇结构划分簇内的簇头无人机和工人无人机以及服务器的三方结构。

可选的，在所述服务器将所述第一模型发送至所述第一无人机集群的步骤之前，还包括：

所述服务器根据所述第一无人机集群中各无人机所采集数据的数据类型，将所述第一无人机集群划分为多个所述无人机簇，同一无人机簇内各无人机所采集数据的数据结构匹配。

通过采用上述技术方案，根据第一无人机集群中各无人机所采集数据的类型进行分簇联邦学习，构建了一个分簇结构来降低无人集群的学习规模，并消弭设备的异构性给联邦学习系统性能造成的影响。

所述服务器根据所述第一无人机集群中各无人机的历史训练数据，计算所述第一无人机集群中各无人机之间的学习梯度相似度；

所述服务器根据所述学习梯度相似度将所述第一无人机集群划分为多个无人机簇。

通过采用上述技术方案，利用学习梯度相似度算法将局部模型的更新分解为个方向，从而将问题转化为更新与方向之间的相似性问题，对具有更相似学习目标的工人无人机进行聚类，从而使系统获得更好的全局性能。

可选的，在所述服务器根据服务器端模型训练结果、所述第一无人机集群反馈的第一模型训练结果、以及所述第二无人机集群反馈的客户端模型训练结果，生成所述训练任务的模型训练结果的步骤之前，还包括：

所述簇头无人机根据所述工人无人机的训练结果生成中间模型；

所述服务器根据各无人机簇的权重以及各簇头无人机的中间模型，生成所述第一模型训练结果。

通过采用上述技术方案，根据各无人机簇的权重以及各簇头无人机的中间模型，生成第一模型训练结果，可以提高系统的全局性能。

可选的，在所述服务器根据各无人机簇的权重以及各簇头无人机的中间模型，生成所述第一模型训练结果的步骤之前，还包括：

构建包括所述服务器、所述簇头无人机和所述工人无人机的三阶段斯塔克尔伯格博弈模型；根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重。

通过采用上述技术方案，将无人机集群的分簇联邦学习模型抽象成一个三阶段斯塔克尔伯格博弈模型，通过博弈过程在保持数据隐私的同时，有效地提高了异构分布式系统的性能、效用和无人机交互的效率。

可选的，所述根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重的步骤，包括：

通过多智能体强化学习方式，求解所述三阶段斯塔克尔伯格博弈模型的博弈结果。

通过采用上述技术方案，多智能体强化学习算法中的智能体可以通过不断学习寻找最佳策略将状态映射到动作，以最大化累积训练中的收益。

通过分层深度策略下降方式，确定所述三阶段斯塔克尔伯格博弈模型中各阶段的主从参数。

通过采用上述技术方案，基于分层深度策略下降方式对海量异构无人机进行分组，构建了一个分簇结构来降低无人集群的学习规模，并消弭设备的异构性给联邦学习系统性能造成的影响。

在本申请的第二方面提供了一种模型训练系统。

在本申请的第三方面提供了一种电子设备。

通过采用本申请，将无人机集群划分为第一无人机集群和第二无人机集群，第一无人机集群采用FL进行训练，采用相似的性能、功能和数据集对海量异构无人机进行分组，构建一个聚类结构以降低规模并消弭异构性，克服了传输延迟等困难，第二无人机集群采用SL进行训练，结合FL和SL的优点和互补特性，采用SFL混合式训练模型对无人机集群进行训练，进而提高了无人机集群整体的训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种方案系统架构的示意图；

图2是本申请实施例提供一种模型训练方法的流程示意图；

图3是本申请实施例提供一种第一模型的架构示意图；

图4是本申请实施例提供一种根据异构设备相似度分簇的系统架构图；

图5是本申请实施例提供一种三阶段斯塔克尔伯格博弈模型的结构示意图；

图6是本申请实施例提供一种分层深度策略示意图；

图7是本申请实施例提供一种仿真结果比对图；

图8是本申请实施例提供一种分簇联邦学习架构性能比对图；

图9是本申请实施例提供一种激励机制对系统性能影响比对图；

图10是本申请实施例提供一种不同算法求解均衡的对比示意图；

图11是本申请实施例提供一种模型训练系统的结构示意图；

图12是本申请实施例的提供的一种电子设备的结构示意图。

附图标记说明：1101、模型划分模块；1102、模型发送模块；1103、模型训练模块；1104、结果生成模块；1200、电子设备；1201、处理器；1202、存储器；1203、用户接口；1204、网络接口；1205、通信总线。

具体实施方式

为了使本领域的技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为了便于理解本申请实施例提供的模型训练方法及系统，在介绍本申请实施例之前，先对本申请实施例的背景进行介绍。

近年来，无人机集群的发展引起了学术界和工业界的广泛关注。得益于低成本、灵活机动性和快速部署等特性，无人机集群为军事、医疗和工业场景注入了新的活力。随着人工智能技术的发展，可以通过无人机丰富的数据资源进行无人机集群的智能集成，从而应用人工智能方法扩展分布式应用。

目前，结合无人机集群的机器学习解决方案主要依赖于云中心架构，需要无人机在集中式的中央服务器上传输数据和进行训练。在该过程中需要将海量的原始数据发送到一个集中的实体，由此会产生巨大的网络通信开销，且远距离传输会降低整个系统的响应速度。此外，由于本地数据的隐私问题，无人机将原始数据传输到第三方边缘服务器具有很大的安全隐患。

为了克服这些挑战，联邦学习FL是一种隐私保护和分布式学习范式，可以为无人集群提供联合训练、数据共享的人工智能训练模型。FL能高效和安全地利用地理上分布的移动设备，在每个设备上本地保留所有的训练数据。这种分布式学习范式释放了无人机集群的数据收集以及计算能力。然而，由于分布式业务的多样化和设备功能的差异化，无人机设备往往承载不同的任务，这也导致它们收集和存储的数据大小、格式各不相同，导致无人机集群出现数据的统计异构性，而FL模型主要依赖于同构的数据范式，因此采用FL模型对无人机集群进行训练往往难以实现。

而对于FL中异构无人机主要以多种数据结构采集本地数据，对FL训练模型的精度会有严峻影响，在FL中更新后的参数每轮以线性拟合的方式聚合，导致每架无人机的模型参数只适用于本地数据。此外，不平衡的样本大小会导致不同的本地训练时间，在固定时间内没有完成迭代的无人机会被系统丢弃，也称为掉队，这会严重影响后续收敛性能。因此，在整个FL过程中，训练步数的不一致性、通信效率低、不可预测的延迟以及单点失效等问题都会严重影响系统性能。

此外，分裂学习技术SL是一种新兴的机器学习模型，旨在解决FL中的隐私问题。与FL不同的是，SL将模型中的神经网络分为两个部分：客户端和服务器端，其中，客户端主要处理原始数据并将其转换为特征向量，并将特征向量传输至服务器端，服务器端根据特征向量执行模型的训练，并将训练后的模型参数返回至客户端。该模型的优点是可以保护客户端的隐私，因为客户端不会向服务器端共享原始数据，只向服务器共享由原始数据处理后的特征向量。目前，SL正在成为一种备受关注的新兴机器学习技术，研究人员正在积极探索其在各种应用场景中的潜在优势。其中，保护个人隐私是SL的主要应用领域之一。由于SL可以防止原始数据泄露，因此它被广泛应用于医疗健康领域、金融领域和其他一些需要保护敏感信息的场景。此外，SL还可以提高模型的性能，减少通信成本，以及提高能源效率等。目前，研究人员正在努力解决SL的一些挑战，例如如何处理高维数据和如何实现更有效的通信等问题。

但是在实际应用中，SL需要将神经网络分为客户端和服务器端，这会增加系统的复杂性，进一步需要考虑如何将数据分发到客户端和服务器端，并对整个系统进行管理和调度。由于客户端只向服务器端共享处理后的特征向量，因此在训练模型时可能会出现一些信息损失，这可能导致模型性能下降，尤其是在处理高维数据时，SL的训练过程需要多次通信，这会增加通信成本和时间延迟。如果通信不稳定或者延迟过高，SL的性能可能会受到较大影响。

经过上述内容的背景介绍，本领域技术人员可以了解现有技术中存在的问题，本申请结合FL和SL的优点和互补的特性，提出了混合式的SFL用于异构无人机集群的模型训练方法，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

请参照图1，其示出了本申请一个实施例提供的方案系统架构的示意图。该系统架构可以实现成为一个模型训练系统，如该系统可以包括服务器、第一无人机集群以及第二无人机集群，其中，服务器分别与第一无人机集群以及第二无人机集群通过通信网络进行直接或间接地连接。

在本申请实施例中，第一无人机集群指的是设备能力较强的无人机集群，可以采用FL模型来减少通信开销，而第二无人机集群指的是设备能力有限的无人机集群，更适于SL模型进行训练，通过无人机的设备能力将无人机集群划分为第一无人机集群和第二无人机集群，从而可以选择更加适宜的模型进行针对性训练。

进一步地，第一无人机集群和第二无人机集群可通过目标应用程序与服务器实现三者之间的信息交互，而服务器可以是上述目标应用程序的后台服务器，用于为第一无人机集群和第二无人机集群提供训练模型，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心。

上述对本申请的系统架构进行了说明，在上述实施例的基础上，进一步地，请参照图2，特提出了一种模型训练方法的流程示意图。该模型训练方法应用于服务器、第一无人机集群以及第二无人机集群的目标应用程序中，也可作为独立的工具类应用运行，具体的，该方法包括步骤S201至步骤S204，上述步骤如下：

步骤201：服务器根据训练任务确定第一模型和第二模型，并根据第二无人机集群中无人机的设备能力值，将第二模型分解为客户端模型和服务器端模型。

其中，训练任务指的是整个无人机集群待执行的任务，训练任务也可以理解为是由指令集构成，主要用于为无人机集群提供训练。第一模型在本申请实施例中指的是FL训练模型，主要用于设备能力较强的第一无人机集群进行训练；第二模型指的是SL训练模型，主要用于设备能力相比于第一无人机集群较弱的第二无人机集群进行训练，第二模型又包括客户端模型和服务器模型。

示例性地，服务器在接收到训练任务后，根据训练任务的内容以及无人机集群的设备性能，将部分数据量较大的训练任务根据FL策略转换为第一模型；将部分数据量较小的训练任务根据SL策略转换为第二模型。由于第二无人机集群的设备能力较弱，因此还需要根据第二无人机集群中无人机的设备能力，将第二模型分为客户端模型和服务器模型。

步骤202：服务器将第一模型发送至第一无人机集群，将客户端模型发送至第二无人机集群。

其中，第一无人机集群包括多个无人机簇，无人机簇又包括簇头无人机和多个工人无人机。

示例性地，服务器将第一模型发送至簇头无人机，将客户端模型发送至第二无人机集群，簇头无人接收到第一模型后，将第一模型发送至工人无人机进行本地训练。

步骤203：服务器与第二无人机集群交互进行服务器端模型与客户端模型的训练。

具体的，请参照图3，其示出了一种第一模型的架构示意图，下面将结合图3，对上述过程进行说明，其中，第一模型主要包括FL任务层、骨干层以及节点层，其中，FL任务层由图像识别、语言处理等各种FL任务组成，在第一无人机在执行FL任务的过程中，第一无人机训练第一模型，并生成原始的训练数据。在训练的过程中将局部更新的模型参数传递给服务器进行聚合，服务器根据模型参数更新第一模型，并将更新后的第一模型发送至第一无人机进行训练，直到训练结果收敛至目标结果为止。

进一步地，目标结果通过公式可以表述为：

其中，fn(ω)表示目标结果，Pn表示设备n样本占总样本中的比例，Fn(ω)表示局部训练目标。

骨干层由簇头无人机组成，簇头无人机通常在簇内具有最高的节点中心性或者拥有丰富的通信资源，当其表示为骨干节点时，第一无人机接收来自任务层的全局模型并调用客户端模型对应的第二无人机加入集群中。一方面，每个簇头无人机充当无人机簇的中心聚合服务器，在簇内聚合更新训练模型。另一方面，它们执行无人机簇间交互来聚合中间训练结果。为了实现全局目标并使集群联邦学习系统更具可行性，每个子群中的无人机建立一个通用联邦学习系统，其中簇头无人机作为模型所有者进行聚合更新。

节点层由潜在参与FL训练任务的第一无人机组成。对于每一个无人机簇，可以认为数据是同构的，因此，可以将全局优化问题看作是多个聚类的联合优化问题。为了实现全局目标，使无人机辅助的联邦学习系统更可行。

而在FL中，客户端模型由每个客户端在其本地数据上并行地训练一些本地时间，然后他们将本地更新发送到服务器。之后，服务器聚合来自所有客户端的本地更新，并通过联邦平均形成一个全局模型。然后，全局模型被发送回所有客户，为下一轮的培训做准备。这个过程一直持续下去，直到算法收敛。

第二无人机集群利用原始数据将网络训练到网络的某一层，即所谓的切割层，并将切割层的激活发送给服务器。然后，服务器使用从第二无人机集群接收到的破碎数据对剩余的层进行训练，完成了一个向前传播。服务器进行向上的反向传播到切割层，并将破碎数据的梯度发送给客户端。客户端在剩余的网络上执行它的反向传播。这就完成了客户机和服务器之间的反向传播的一次传递。这个正向传播和反向传播的过程将继续下去，直到训练达到收敛。

步骤204：服务器根据服务器端模型训练结果、第一无人机集群反馈的第一模型训练结果、以及第二无人机集群反馈的客户端模型训练结果，生成训练任务的模型训练结果。

示例性地，如图3所示，在每一次迭代中，至少包含以下3个步骤：

步骤1，工人无人机首先通过下载最后一轮模型使训练任务与簇头无人机同步。具体来说，全局模型为所有簇头无人机聚合的模型，其性能决定了整个训练系统的训练时间。将同一无人机簇内无人机聚合的模型记为中间模型，在本地设备上训练的模型记为本地模型。

步骤2，工人无人机作为工作节点，通过对其局部数据进行小批量采样，执行多次随机梯度下降迭代，形成一个向量，从而提高中间模型的性能。

步骤3，簇头无人机从其所在无人机簇的参与者中聚合局部参数，得到更新的中间模型，在步骤过程中，簇头无人机发送中间模型参数在服务器上执行全局聚合，得到全局模型参数。如果不满足训练目标，则将中间模型传回之前的簇进行局部训练，直至满足训练目标为止。

此外，若无人机簇是由数据异构的无人机组成的，也可按照上述分簇的层次结构执行联邦学习，其中，每个簇头无人机将中间模型广播给簇内的工人无人机，从而通过聚合算法对工人无人机传输的更新模型进行簇内聚合，当所有聚类的训练轮次完成时，将中间模型以适当的权重进行簇间聚合，模型所有者作为联邦学习任务发布者，为CFL系统中参与者提供合理补偿与报酬，从而实现自身与各无人机集群之间的效用均衡。

在上述实施例的基础上，作为一种可选的实施方式，在服务器将第一模型发送至第一无人机集群之前，还需要将第一无人机集群划分为多个无人机簇。

在一种可行的实施方式中，可根据第一无人机集群中各无人机所采集数据的数据类型，将第一无人机集群划分为多个无人机簇，同一无人机簇内各无人机所采集数据的数据结构匹配。

进一步地，请参照图4，其示出了一种根据异构设备相似度分簇的系统架构图，如图4所示的第一无人机集群CFL架构，在上述实施例的基础上，对簇头无人机和工人无人机应用第一模型进行训练的过程进行说明，该架构由N个第一无人机组成，每个无人机的数据集Dn各不相同，一组工人无人机对同一任务形成一个无人机簇进行训练。

其中，每个工人无人机都拥有本地数据样本Dn参与聚类的联邦学习任务，簇头无人机的支付取决于相应工人无人机的数据贡献，从而可以通过聚类来解决第一无人机集群的异构问题，基于工人无人机属于同一聚类的同质性。

由于簇内的学习过程会消耗计算资源，计算的成本可以表示为：

式中，k表示迭代的总次数；τ表示第几次迭代；c_n表示单位能耗成本；

表示计算芯片组对工人无人机n的有效电容参数，其计算能力由CPU决定为/>

进一步地可得：

式中，

表示工人无人机n的CPU周期频率，每个工人无人机训练模型的时间记为τ，进一步，可以得到迭代k次消耗的时长。通信成本来源于工人无人机与簇头无人机进行中间聚合是产生的通信资源，通信资源远小于计算资源的消耗，因此，工人无人机又可以通过出售计算资源来训练模型以最大化其效用。

由于无人机网络的异构性，来源于各种机载设备、不同的数据结构、不平衡的样本量等，为了避免遗漏重要节点和统计异质性导致的全局训练性能不稳定问题，我们将优化目标划分为多个子问题，遵循多元组架构。考虑到同一集群中的数据结构和无人机的功能不会发生变化，本申请实施例提出了一种基于无人机局部优化结果相似性的静态策略对无人机集群进行分簇。具体地，可通过分解余弦相似度对高维数据样本进行聚类决策。通过计算反向传播或模型参数更新来获取无人机学习梯度之间的余弦相似度是一种有效的方法，其定义为：

由于数据的高维性，可利用分解余弦EDC相似度的欧式距离来简化聚类过程，也可通过一种截断奇异值分解(Singular Value Decomposition，SVD)算法将局部模型的更新分解为个方向，从而将问题转化为更新与方向之间的相似性问题，对具有更相似学习目标的工人无人机进行聚类，从而使CFL获得更好的全局性能。

同时，由于第一模型中没有融合中心，FL系统需要先自组织寻找簇头。在训练开始时，簇头无人机选择其所在组的一组工人无人机。每个聚类对模型进行训练，得到临时聚类模型，并在簇间聚合后更新簇参数。作为骨干无人机节点，簇头无人机以单位成本购买工人无人机的资源，并从模型所有者处获得奖励策略，以最大化其效用。因此，簇头无人机获得的报酬随着工人无人机计算资源的增加而增加。然而，由于“边际收益递减”经济规律，随着CPU使用频率的增加，簇头无人机效用的递增速度逐渐减小。簇间聚合后，每个簇头将即时模型上传给模型所有者。在该系统中，模型所有者评估每个集群的资源，并生成其报酬分配策略以最小化其成本值。

本申请实施例对于混合学习模式中的FL部分设计的分簇联邦学习(ClusteredFederation Learning，CFL)采用相似的性能、功能和数据集对海量异构无人机进行分组，因此构建了一个聚类结构来首先降低规模并消弭异构性。克服了如降低高传输延迟等困难，CFL在异构设备上提高了训练效率。

除此外，分簇带来了新的系统架构，本专利构建了簇内节点、簇头节点、发布任务方三者间层次化的交互。由于每一层的实体本身是自利的，可以基于博弈论知识构建三方的博弈模型，从而达到资源分配的均衡。传统方法中通常是两方之间的博弈，便于用一般的数值解求解均衡条件。

本申请实施例对三方的均衡求解采用层次化强化学习方法，将三方抽象成三个智能体的博弈模型，每个智能体决定自己的动作会受到另两个智能体决策结果的影响，且它的决策也会影响其他智能体的收益。目前流行求解均衡的算法，如逆向归纳法，理想地假设现有的融合平台可以聚合从所有参与者收集的参数信息并计算适当的策略。本申请实施例构建的三阶段斯塔克尔伯格博弈模型是一个具有层次结构的大规模非线性问题。采用逆向归纳法寻找动态博弈均衡。所谓动态过程，是指在迭代交互中，局中人的一系列动作存在，稍后行动的局中人可以观察到之前的动作。在每个参与者决定并采取行动后，其他人决定是否希望调整自己的策略以获得更高的报酬。直到所有参与者都获得最优解，整个系统达到均衡。但实际系统中，各个实体是自私自利的，没有全局的上帝视角进行均衡的判断。

由于上述三点，在本申请实施例中提出了采用基于学习梯度相似度的分簇联邦学习方法解决无人集群的异构性问题，基于分簇结构建立簇内工人无人机、簇头无人机、模型拥有者三方的斯塔克尔伯格博弈模型，使用深度强化学习算法来求解博弈的均衡结果将CFL架构中的三方构建为一个多智能体系统来应用RL方法。与现有技术不同，MARL旨在基于当前状态和给定奖励，从历史经验中学习一个通用的动作决策。考虑到各参与主体资源配置的动态过程，决策不仅受到购买者的报酬影响，还受到其他参与者行动的影响。

下面对上述过程进行详细说明如下：

示例性地，请参照图5，其示出了一种三阶段斯塔克尔伯格博弈模型的结构示意图，考虑不完全信息和动态序贯过程下的斯塔克尔伯格博弈，该博弈中存在不同参与者的行动序列，其中后一行动可以观察到前一行动。

在本申请实施例提出的模型中，模型所有者首先移动，簇头无人机作出响应，随后异构的工人无人机采取相应的行动。如果将模型考虑为两个两阶段斯塔克尔伯格博弈的组合，则是具有多跟随者的单领导者和具有多跟随者结构的多领导者。模型所有者首先发布联合学习任务并初始化资源定价策略，定价策略的确定受到簇头无人机行为和工人无人机效率的影响，如图5所示，该过程主要包括三个阶段：

阶段一，在每次迭代开始时，簇头无人机产生最优的资源分配至模型所有者。

阶段二，每个工人无人机的期望收益是由净效用决定的，也就是两者之间的差额跟随簇头无人机获得的收益和参与FL训练获得的收益。

阶段三，簇头无人机通过奖励作为工人无人机训练的回报，

系统的总延迟取决于包括簇头无人机和工人无人机在内的所有无人机CPU功率的总使用量。在本申请实施例构建的优化问题中，CFL过程的时间和能耗是相互冲突的。如果无人机集群以全CPU能力执行训练任务，可以最大限度地降低时间成本，同时能耗会高到极致，导致训练会迅速撤出。

考虑到利用资源完成联邦学习的边际效益，模型所有者形成如下子博问题，每个阶段要解决的问题是耦合的，因此不能孤立地进行优化：阶段一的定价策略影响阶段二的结果，而结果反过来提供了制定策略所需的信息；在阶段二下策略控制的工人无人机的参与影响阶段三的时间消耗，又反过来影响阶段二的结果；阶段三的时间成本由阶段二结果决定，并影响阶段一的支付。上述三个子博弈构成了一个完整的三阶段斯塔克尔伯格博弈。

在上述实施例的基础上，作为一种可行的实施方式，为了解决所提出的多阶段主从博弈问题，本申请实施例将无人机的动态策略构建为一个马尔科夫决策过程，在不完全信息下，请参见图6，图6是本申请实施例提出的一种分层深度策略示意图，具体的，当迭代开始时，可实际观察簇间无人机的状态，并决定如何行动。

其中，状态空间是代理人从长期角度进行战略制定和考虑收益的基础，状态空间设计的好坏直接影多智能体强化学习(MARL)能否收敛、收敛的速度以及最终的性能，本申请分别构建了模型所有者、簇头无人机以及工人无人机的动作空间S^m、S^h以及S^w。根据训练过程，在系统训练的第k轮，迭代t时刻工人无人机的状态由簇头无人机最后一轮的价格策略组成。设单个簇内的单位资源和价格P_h和单个模型所有者的单位报酬ε_o，则工作节点的状态空间可以表示为Slw＝P^l-1 _h。对于簇头无人机，其观测到的状态为S^l _h＝{ε^l-1 _o，[δ^l-1 _j]}，为了确保MARL模型学习到时间消耗的趋势，模型所有者需要基于Slm做出支付决策。

为了保证高性能区域的足够可达性，动作空间的设计需要考虑任务求解时，空间中达到期望目标和避免不可达状态盲区的可能性。为了提高算法性能，尽可能使最佳动作空间简单高效，有效降低训练难度。在本申请实施例中分别构建了模型所有者、簇头和工作者的行动空间A^m、A^h以及A^w，在第t轮，簇头无人机首先基于S^l _h设置单位资源价格P^l _h，在无人集群完成次轮训练并上传参数后，模型所有者将记录时间状态，其状态从S^l _m过渡到S^l+1 _m。

进一步地，MARL算法中的奖励负责指导神经网络挖掘状态信息中与决策相关的因素，并将其提炼后用于动作的计算和生成。在状态S^l下确定一个动作a^l时，智能体在第t轮从CFL处获得奖励，本申请实施例使用的算法旨在搜索由三个实体构建的不完全信息下的斯塔克尔伯格均衡。分别设定模型所有者、簇头和工人的策略网络的学习α^m、α^h以及α^w。在算法中，γ∈(0,1]表示未来的奖励折扣因子，W表示总episode，T表示每一episode中的最大时间步长。

当智能体完成确定的动作后，分簇联邦学习框架转移到下一个状态。相应地，智能体获得一个定义为各方效用的报酬。在每一轮中，重复该过程，计算累积报酬。考虑到每个工人的实体，{状态，动作}在连续向量δ^k _n下，不能存储在空间有限的表格中。为了实现这一过程，策略网络的可调参数记为θ。提出的分层多智能体强化学习算法由三方与环境的交互组成。MARL算法中的智能体通过不断学习寻找最佳策略将状态映射到动作，以最大化累积收益。

在上述实施例的基础上，下面将对采用本申请实施例提供的混合式分布学习系统的训练效果进行说明。

针对提出的混合式分布式学习系统，使用传统FL和基于簇的CFL模型作为基准模型。本申请实施例中，FL作为理想的控制，包括所有用于训练的无人机，并且数据集是独立且均匀分布的。CFL是基于局部梯度下降的余弦相似度对无人机群进行聚类，切割后再进行FL。请参照图7，其示出了一种仿真结果比对图，经过50轮训练，SFL结构表现出接近最佳的稳定性，精度值与FL相当，收敛性和准确性令人满意。结果表明，在所提出的SFL体系结构中，SL和FL的结合在稳定性和准确性方面都优于CFL方法，表明SL和FL的集成是一种比FL中直接聚类更有效的方法。

目前异构无人机以多种数据结构采集本地数据，对FL训练模型的精度会有严峻影响，申请实施例中提供的分簇联邦学习，基于本地学习梯度下降的空间相似性对海量异构无人机进行分组，构建了一个分簇结构来降低无人集群的学习规模，并消弭设备的异构性给联邦学习系统性能造成的影响。

除此外，申请实施例将无人机集群的分簇联邦学习模型抽象成一个三阶段斯塔克尔伯格博弈模型，通过博弈过程在保持数据隐私的同时，有效地提高了异构分布式系统的性能、效用和无人机交互的效率。

最后，申请实施例提出利用多智能体强化学习算法求解博弈过程的均衡解。采用多智能体强化学习算法的一个难点是如何抽象问题的数学模型，在由高动态无人机集群组成的分簇联邦学习系统中，申请实施例提出了分层深度策略下降算法来解决该问题，该算法避免了使用单一智能体算法时由于状态空间和动作空间巨大而导致的剧烈振荡情况，从而使整个系统在经济博弈中达到均衡状态与更优总体回报。

请参照图8，其示出了一种分簇联邦学习架构性能比对图，如图8所示，可以观察到CFL在异构无人机集群的分布式训练中表现出明显的优势，其中数据集的发散会导致联邦学习系统的性能变差，如精度降低、收敛性变弱、延迟变长等。当设备采集的数据具有较高的视差时，OFL训练的结果会出现较多的不稳定和异常。根据对分簇联邦学习架构性能的分析，我们观察到在异构环境下，聚类方法可以有效提高整个联邦学习系统的准确率。

请参照图9，其示出了一种激励机制对系统性能影响比对图，在激励机制的辅助下，本申请实施例将将CFL中的实体建模为一个三阶段斯塔克尔伯格博弈。图9的实验观测了适当的博弈方法可以激励更多的无人设备贡献自己的计算资源，从而使整个CFL系统获得更高的准确率。

请参照图10，其示出了一种不同算法求解均衡的对比示意图，本申请实施例提供的的HDPG算法中，分层多智能体行为和学习过程的设计有助于智能体根据竞争对手的策略学习自己的策略，这有助于提高其性能。如图10对不同深度强化学习算法的对比，HDPG可以在无人集群交互环境中表现更好，因为它直接学习策略，这可以让它更快地适应像无人集群这样的动态环境。相比之下，SAC和PPO算法学习的是值函数，这可以使它们对环境的变化更加敏感。随着无人机数量的增加，HDPG在系统性能方面具有突出优势。

参照图11，本申请还提供了一种模型训练系统，系统包括：模型划分模块1101、模型发送模块1102、模型训练模块1103以及结果生成模块1104，其中：

模型划分模块1101，用于所述服务器根据训练任务确定第一模型和第二模型，并根据所述第二无人机集群中无人机的设备能力值，将所述第二模型分解为客户端模型和服务器端模型；模型发送模块1102，用于所述服务器将所述第一模型发送至所述第一无人机集群，将所述客户端模型发送至所述第二无人机集群；

模型训练模块1103，用于所述服务器与所述第二无人机集群交互进行所述服务器端模型与所述客户端模型的训练；

结果生成模块1104，用于所述服务器根据服务器端模型训练结果、所述第一无人机集群反馈的第一模型训练结果、以及所述第二无人机集群反馈的客户端模型训练结果，生成所述训练任务的模型训练结果。

在上述实施例的基础上，作为一种可选的实施例，模型发送模块1102还可以包括：第一模块发送单元以及第一模型训练单元，其中：

第一模块发送单元，用于所述服务器将所述第一模型发送至所述簇头无人机；

第一模型训练单元，用于所述簇头无人机将所述第一模型发送至工人无人机进行本地训练。

在上述实施例的基础上，作为一种可选的实施例，模型训练系统还可以包括：数据结构分簇模块、相似度分簇模块以及无人机集群分簇模块，其中：

数据结构分簇模块，用于所述服务器根据所述第一无人机集群中各无人机所采集数据的数据类型，将所述第一无人机集群划分为多个所述无人机簇，同一无人机簇内各无人机所采集数据的数据结构匹配。

相似度分簇模块，用于所述服务器根据所述第一无人机集群中各无人机的历史训练数据，计算所述第一无人机集群中各无人机之间的学习梯度相似度；

无人机集群分簇模块，用于所述服务器根据所述学习梯度相似度将所述第一无人机集群划分为多个无人机簇。

在上述实施例的基础上，作为一种可选的实施方式，模型训练系统还可以包括：中间模型生成模块、训练结果生成模块、博弈模型构建模块以及簇的权重确定模块，其中：中间模型生成模块，用于所述簇头无人机根据所述工人无人机的训练结果生成中间模型；训练结果生成模块，用于所述服务器根据各无人机簇的权重以及各簇头无人机的中间模型，生成所述第一模型训练结果。

博弈模型构建模块，用于构建包括所述服务器、所述簇头无人机和所述工人无人机的三阶段斯塔克尔伯格博弈模型；

簇的权重确定模块，用于根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重。

在上述实施例的基础上，作为一种可选的实施方式，簇的权重确定模块还可以包括：多智能强化学习单元以及分层深度下降单元，其中：

多智能强化学习单元，用于通过多智能体强化学习方式，求解所述三阶段斯塔克尔伯格博弈模型的博弈结果；

分层深度下降单元，用于通过分层深度策略下降方式，确定所述三阶段斯塔克尔伯格博弈模型中各阶段的主从参数。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还公开一种电子设备。参照图12，图12是本申请实施例的公开的一种电子设备的结构示意图。该电子设备1200可以包括：至少一个处理器1201，至少一个网络接口1204，用户接口1203，存储器1202，至少一个通信总线1205。

其中，通信总线1205用于实现这些组件之间的连接通信。

其中，用户接口1203可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1203还可以包括标准的有线接口、无线接口。

其中，网络接口1204可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1201可以包括一个或者多个处理核心。处理器1201利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器1202内的指令、程序、代码集或指令集，以及调用存储在存储器1202内的数据，执行服务器的各种功能和处理数据。可选的，处理器1201可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1201可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面图和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1201中，单独通过一块芯片进行实现。

其中，存储器1202可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1202包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1202可用于存储指令、程序、代码、代码集或指令集。存储器1202可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1202可选的还可以是至少一个位于远离前述处理器1201的存储装置。参照图12，作为一种计算机存储介质的存储器1202中可以包括操作系统、网络通信模块、用户接口模块以及一种基于大数据的科创服务方法的应用程序。

在图12所示的电子设备1200中，用户接口1203主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1201可以用于调用存储器1202中存储一种基于大数据的科创服务方法的应用程序，当由一个或多个处理器1201执行时，使得电子设备1200执行如上述实施例中一个或多个所述的方法。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后，将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种模型训练方法，其特征在于，应用于无人机系统，所述无人机系统包括服务器、第一无人机集群和第二无人机集群，所述第一无人机集群中无人机的设备能力值大于所述第二无人机集群中无人机的设备能力值；所述模型训练方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述第一无人机集群包括多个无人机簇，所述无人机簇包括簇头无人机和多个工人无人机；所述服务器将所述第一模型发送至所述第一无人机集群的步骤，包括：

所述服务器将所述第一模型发送至所述簇头无人机；

3.根据权利要求2所述的模型训练方法，其特征在于，在所述服务器将所述第一模型发送至所述第一无人机集群的步骤之前，还包括：

4.根据权利要求2所述的模型训练方法，其特征在于，在所述服务器将所述第一模型发送至所述第一无人机集群的步骤之前，还包括：

5.根据权利要求2所述的模型训练方法，其特征在于，在所述服务器根据服务器端模型训练结果、所述第一无人机集群反馈的第一模型训练结果、以及所述第二无人机集群反馈的客户端模型训练结果，生成所述训练任务的模型训练结果的步骤之前，还包括：

6.根据权利要求5所述的模型训练方法，其特征在于，在所述服务器根据各无人机簇的权重以及各簇头无人机的中间模型，生成所述第一模型训练结果的步骤之前，还包括：

构建包括所述服务器、所述簇头无人机和所述工人无人机的三阶段斯塔克尔伯格博弈模型；

根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重。

7.根据权利要求6所述的模型训练方法，其特征在于，所述根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重的步骤，包括：

8.根据权利要求6所述的模型训练方法，其特征在于，所述根据所述三阶段斯塔克尔伯格博弈模型的博弈结果，确定各无人机簇的权重的步骤，包括：

9.一种模型训练系统，其特征在于，所述系统包括：

模型划分模块（1101），用于所述服务器根据训练任务确定第一模型和第二模型，并根据所述第二无人机集群中无人机的设备能力值，将所述第二模型分解为客户端模型和服务器端模型；

模型发送模块（1102），用于所述服务器将所述第一模型发送至所述第一无人机集群，将所述客户端模型发送至所述第二无人机集群；

模型训练模块（1103），用于所述服务器与所述第二无人机集群交互进行所述服务器端模型与所述客户端模型的训练；

结果生成模块（1104），用于所述服务器根据服务器端模型训练结果、所述第一无人机集群反馈的第一模型训练结果、以及所述第二无人机集群反馈的客户端模型训练结果，生成所述训练任务的模型训练结果。

10.一种电子设备，其特征在于，包括处理器(1201)、存储器(1202)、用户接口(1203)及网络接口(1204)，所述存储器(1202)用于存储指令，所述用户接口(1203)和网络接口(1204)用于给其他设备通信，所述处理器(1201)用于执行所述存储器(1202)中存储的指令，以使所述电子设备(1200)执行如权利要求1-8任意一项所述的方法。