CN113660304A

CN113660304A - 一种基于双向拍卖博弈的无人机群分布式学习资源管控方法

Info

Publication number: CN113660304A
Application number: CN202110767145.4A
Authority: CN
Inventors: 姚海鹏; 许佳琦; 买天乐; 童炉; 李韵聪; 忻向军; 张尼; 韩宝磊; 吴巍
Original assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-16

Abstract

本发明公开一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于将无人机群联邦学习过程分为两个部分，包括：初始化阶段和学习阶段。联邦学习平台聚集接收到的局部模型，生成一个全局联合学习模型，并基于双向拍卖理论进行迭代更新，引入控制器使无人机群迭代的相互作用并调整他们的出价，使市场快速收敛到社会福利最大化点。随着参与者的增加，总福利增加，收敛速度降低。这种现象是由于更多的FL平台的参与会带来更多的外部效用，同时更多的参与者也增加了系统的复杂性，从而延缓收敛速度。

Description

一种基于双向拍卖博弈的无人机群分布式学习资源管控方法

技术领域

本发明涉及无人机技术领域，尤其涉及一种基于双向拍卖博弈的无人机群分布式学习资源管控方法。

背景技术

联邦学习(联邦学习)是一种新兴的分布式机器学习技术，其中模型由每个参与者(无人机群成员)基于其本地数据集来学习。然后，本地模型更新被发送到联邦学习平台，用于更新共享的全局模型。最后将更新后的全局模型反馈给无人机群成员进行下一轮的局部训练。与将训练数据集发送回服务器的传统场景相反，在联邦学习中，本地模型更新被发送回联邦学习平台。因此，训练模型是共享的，隐私得到保护，同时降低通信成本。

现有技术的方案简述：

1)无人机群成员采用标准的梯度下降法来更新它们的局部模型，并通过随机规划的样本平均近似方法和凸优化对偶方法以实现无人机的资源及能量控制，同时采用联合设计以解决无人机群的资源分配和调度问题。

2)应用平均场博弈方法以减少无人机间的通信，同时实现无人机群的相互学习，但需要强大的处理器来获得不同无人机的控制律，因此使用基于神经网络的函数逼近器来求解，并与联邦学习结合以更有效地利用无人机的样本来训练无人机神经网络的分布式学习模型权重。

无人机群数量和数据量的显著增加对当前的集中式无人机学习提出了巨大的挑战(例如，安全问题、隐私问题)。随着联邦学习技术的出现，无人机和联邦学习的集成成为应对这些挑战的解决方案。联邦学习可以在无人机群中包含的分布式本地数据集上训练人工智能模型。然而，与集中式学习相比，无人机群之间是独立的、不可控的和利己的。

发明内容

本发明提供一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，本技术将双向拍卖理论应用于无人机群的联邦学习过程，以实现无人机群最优模型训练精度，从而达到无人机群分布式学习资源管控。

进一步地，将无人机群联邦学习过程分为两个部分，包括：初始化阶段和学习阶段，其中：

一、在初始化阶段，联邦学习平台首先发起一个联邦学习任务(包括算法结构、精度等级、一轮全局迭代时间等)，并向所有的无人机群成员公告；无人机群成员在收到任务信息后，根据它们的本地策略决定是否参与；然后，联邦学习平台向所有参与者广播初始化的全局模型参数，以开始训练；

二、在学习阶段，无人机群成员(即数据所有者)使用它们的本地可用数据以更新模型，获得相对的本地精度；一旦训练完成，无人机群成员分别将本地模型更新并发送到联邦学习平台；而联邦学习平台将这些局部更新聚合并处理成单一的全局模型，反馈给所有参与者；这个过程将重复进行，直至达到目标全局模型精度；

我们将全局精度表示为θ∈(1,∞)，全局迭代次数Ig(θ)可表示为：

从上述等式中可得局部精度θ越高，迭代次数越少。

进一步地，一个由N个所述联邦学习平台和M个数据所有者组成的联邦学习市场；ith联邦学习平台的1×M需求向量定义为θiag，jth数据所有者的1×N供应向量表示为θjwo；同时定义了所述ith联邦学习平台的效用函数为Ui(θiag)，成本函数Cj(θjwo)反映了jth数据所有者的效用下降；

数据所有者本地模型训练产生的成本主要分为计算成本和通信成本；在具有供应向量θjwo的一次全局迭代中，jth数据所有者的总成本可表示为：

总支出可表示为：

根据等式，对于固定的全局迭代时间，全局精度∈与局部精度成正比；因此，效用函数U(·)作为局部精度θiag的递增正凹函数，ith联邦学习平台获得的平均效用可表示为：

进一步地，所述联邦学习平台愿意获得精度更高的局部模型，用以提高效用，而所述无人机成员(数据所有者)倾向于减少供应向量的准确性，以避免高开销；因此，需要一个集中的Broker(市场经纪人)来确定准确的供应向量和需求向量，从而提高市场效率和有效性；Broker可以通过求解一个社会福利优化问题(Objective 1)来找到最优的θiag和θjwo:

约束条件：

j∈{1，2，…M}。

前两个约束条件表示精度向量必须大于1。第三个约束条件表示交易完成时供应向量应等于需求向量。目标1有一个唯一的最优解，可用卡鲁什-库恩-塔克(KKT)条件放松约束以得到拉格朗日L1:

获得上述问题的最优解需要所有联邦学习平台和数据所有者的成本和效用函数的完整信息。

进一步地，所述联邦学习平台和数据所有者之间为非合作关系，本地信息不能被Broker知晓，因此设计了一个迭代双边拍卖机制以激励市场参与者报告信息；该机制具有以下经济属性，包括效率(即社会福利最大化)、个体理性(即参与者永远不会变得更糟或获得负回报)、激励兼容性(即参与者愿意披露他们的私人信息)和预算平衡(即Broker永远不需要为实施该机制支付额外的钱)；

迭代双边拍卖机制能够引出联邦学习平台和数据所有者发送给Broker的隐藏信息，同时Broker促进多个买方(即联邦学习平台)和多个卖方(即数据所有者)迭代地交互并调整他们的出价策略。

进一步地，我们为联邦学习平台设计一个结算规则，为数据所有者设计一个收益规则来修正参与者的局部效用问题，从而诱导参与者以如下方式提交他们的出价。

对于联邦学习平台，Pi(ωi)表示Broker收到竞价向量ωi时给出的ith联邦学习平台的收益，则ith联邦学习平台的局部优化问题可表示为:

通过求解上述局部优化问题，可得到收益规则为：

类似地，对于数据拥有者，Ej(gj)表示Broker在收到出价向量gj时给予jth数据所有者的支付(即结算规则)。jth数据拥有者的局部优化问题可表述为:

同样通过求解上述局部优化问题，可得到结算规则为：

本发明的有益效果：

联邦学习平台聚集接收到的局部模型，生成一个全局联合学习模型，并基于双向拍卖理论进行迭代更新，引入控制器使无人机群迭代的相互作用并调整他们的出价，使市场快速收敛到社会福利最大化点。

随着参与者的增加，总福利增加，收敛速度降低。这种现象是由于更多的FL平台的参与会带来更多的外部效用，同时更多的参与者也增加了系统的复杂性，从而延缓收敛速度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1为本发明中涉及的双向拍卖算法流程图；

图2为本发明中涉及的基于拍卖的联合学习架构示意图；

图3为本发明中双向拍卖市场示意图；

图4为本发明中联邦学习平台仿真结果比较示意图；

图5为本发明中数据所有者仿真结果比较示意图；

图6为本发明中收益规则与结算规则仿真结果比较示意图；

图7为本发明中社会总福利仿真结果比较示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1所示，我们为联邦学习平台设计一个结算规则，为数据所有者设计一个收益规则来修正参与者的局部效用问题，从而诱导参与者以如下方式提交他们的出价。

对于FL平台，Pi(ωi)表示Broker收到竞价向量ωi时给出的ith FL平台的收益，则ith FL平台的局部优化问题可表示为:

通过求解上述局部优化问题，可得到收益规则为：

同样通过求解上述局部优化问题，可得到结算规则为：

请参阅图2所示，在初始化阶段，FL平台首先发起一个FL任务(包括算法结构、精度等级、一轮全局迭代时间等)，并向所有的无人机群成员公告。无人机群成员在收到任务信息后，根据它们的本地策略决定是否参与。然后，FL平台向所有参与者广播初始化的全局模型参数，以开始训练。

在学习阶段，无人机群成员(即数据所有者)使用它们的本地可用数据以更新模型，获得相对的本地精度。一旦训练完成，无人机群成员分别将本地模型更新并发送到FL平台。而FL平台将这些局部更新聚合并处理成单一的全局模型，反馈给所有参与者。这个过程将重复进行，直至达到目标全局模型精度。

请参阅图3所示，由于FL平台和数据所有者之间的非合作关系，本地信息不能被Broker知晓，因此设计了一个迭代双边拍卖机制以激励市场参与者报告信息。该机制具有以下经济属性，包括效率(即社会福利最大化)、个体理性(即参与者永远不会变得更糟或获得负回报)、激励兼容性(即参与者愿意披露他们的私人信息)和预算平衡(即Broker永远不需要为实施该机制支付额外的钱)。

迭代双边拍卖机制能够引出FL平台和数据所有者发送给Broker的隐藏信息，同时Broker促进多个买方(即FL平台)和多个卖方(即数据所有者)迭代地交互并调整他们的出价策略。如图2所示，IDA算法分为两个阶段。第一阶段，每个FL平台向Broker提交一个1×N的要价向量ωi，同时，每个数据所有者将向Broker提交一个1×M的出价向量gj。在第二阶段，基于提交的投标向量，Broker将通过解决以下优化问题(目标2)来确定供应模型的精度水平。

然后，根据相应的KKT条件以实现最优模型精度:

比较目标1和目标2的两个KKT条件，可得：

若满足以上等式，则目标2的最优解等价于目标1的解。即市场参与者分别根据以上等式提交他们的出价，那么双向拍卖算法将产生与社会福利最大化问题的最优解相同的解，并因此从市场中引出隐藏的信息。

在仿真环境中，设计一个拥有多个FL平台和多个数据所有者(即无人机群成员)的FL市场，并且数据所有者愿意参与FL平台分配的FL任务。对于每个数据所有者，假设计算资源f为2Ghz，训练集大小D为10MB，ζ为1030cycles/bit，α为2*1028。对于无线通信模型，假设信道增益G遵循40dB(1/d)4的平均指数分布，其中d表示FL平台和数据所有者之间的距离，假设距离d在2m到100m之间均匀分布。此外将带宽设置为B＝1Mhz，高斯噪声功率设置为N＝1020W，本地参数的大小设置为v＝5000bit，传输功率设置为0.1W至2W。

首先模拟一个拥有3个FL平台和3个数据所有者的FL市场。三个FL平台执行不同的效用偏好函数，即采用不同的β值。我们将β1设置为2.1172，β2设置为1.4659，β3设置为1.0001，并将双向拍卖算法应用于联邦学习市场，寻找社会福利最大化的解决方案。

请参阅图4和图5，绘制双向拍卖算法的每次迭代下FL平台和数据所有者的投标策略和供应准确性策略。经过10次迭代后，FL平台和数据所有者都可以快速收敛到社会福利最大化点，每个数据所有者的供应向量θjwo总是等于FL平台的需求向量θiag，这表示整个市场已收敛到均衡点。

请参阅图5所示，我们注意到数据所有者的要价随着迭代次数的增加而降低。相比之下，数据所有者的供给向量θjwo的分配呈现出不同于gj的趋势。这是由结算规则引起的，其中结算价格与投标价格成反比。因此，Broker的实际付款随着供应向量的增加而增加。

请参阅图6所示，达到收敛点时，收益规则等于结算规则。该均衡验证了结算规则和收益规则设计，并证明了基于双向拍卖的市场具有预算平衡性质，即Broker永远不需要支付额外的资金来运行该机制。

请参阅图7所示，设置三组实验，通过使用不同数量的市场参与者来评估社会福利，其中FL平台和数据所有者的数量分别为(N＝3，M＝3)，(N＝5，M＝5)和(N＝7，M＝7)。从图七可以看出，随着迭代次数的增加，所有的社会总福利都在逐渐增加。随着参与者(即N和M的数量)的增加，总福利增加，收敛速度降低。这种现象是由于更多的FL平台的参与会带来更多的外部效用，同时更多的参与者也增加了系统的复杂性，从而延缓收敛速度。

此外，通过计算，效用函数Ui(θiag)大于成本函数Cj(θjwo)证明了基于双向拍卖的市场的有效性。Ej(gj)大于Cj(θjwo)，Ui(θiag)大于Pi(ωi)，表明所有参与者的收益(效用)大于成本(支出)，从而验证了市场的个体理性属性。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于将无人机群联邦学习过程分为两个部分，包括：初始化阶段和学习阶段，其中：

从上述等式中可得局部精度θ越高，迭代次数越少。

2.根据权利要求1所述的一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于，一个由N个所述联邦学习平台和M个数据所有者组成的联邦学习市场；ith联邦学习平台的1×M需求向量定义为θiag，jth数据所有者的1×N供应向量表示为θjwo；同时定义了所述ith联邦学习平台的效用函数为Ui(θiag)，成本函数Cj(θjwo)反映了jth数据所有者的效用下降；

总支出可表示为：

3.根据权利要求2所述的一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于，所述联邦学习平台愿意获得精度更高的局部模型，用以提高效用，而所述无人机成员(数据所有者)倾向于减少供应向量的准确性，以避免高开销；因此，需要一个集中的Broker(市场经纪人)来确定准确的供应向量和需求向量，从而提高市场效率和有效性；Broker可以通过求解一个社会福利优化问题(Objective 1)来找到最优的θiag和θjwo:

约束条件：

j∈{1，2，...M}.

4.根据权利要求3所述的一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于，所述联邦学习平台和数据所有者之间为非合作关系，本地信息不能被Broker知晓，因此设计了一个迭代双边拍卖机制以激励市场参与者报告信息；该机制具有以下经济属性，包括效率(即社会福利最大化)、个体理性(即参与者永远不会变得更糟或获得负回报)、激励兼容性(即参与者愿意披露他们的私人信息)和预算平衡(即Broker永远不需要为实施该机制支付额外的钱)；

5.根据权利要求4所述的一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，其特征在于，我们为联邦学习平台设计一个结算规则，为数据所有者设计一个收益规则来修正参与者的局部效用问题，从而诱导参与者以如下方式提交他们的出价。

通过求解上述局部优化问题，可得到收益规则为：

同样通过求解上述局部优化问题，可得到结算规则为：