CN113268920B

CN113268920B - 一种基于联邦学习的无人机群感知数据安全共享方法

Info

Publication number: CN113268920B
Application number: CN202110512015.6A
Authority: CN
Inventors: 苏洲; 王云涛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-12-09
Anticipated expiration: 2041-05-11
Also published as: CN113268920A

Abstract

本发明公开了一种基于联邦学习的无人机群感知数据安全共享方法，基于契约理论设计针对不同类型无人机的最优契约；无人机根据自身类型选择最优契约进行本地模型训练得到本地模型参数更新，并将本地模型参数更新传输至联邦学习服务器；联邦学习服务器对接收的本地模型参数更新进行本地模型质量评估，根据评估结果设计模型鲁棒聚合规则和模型效益公平分配规则，根据模型鲁棒聚合规则进行模型聚合，根据模型效益公平分配规则进行效益分配；联邦学习服务器根据本地模型质量评估对无人机进行动态声誉管理。本发明能提高无人机在联邦学习中的通信效率，激励无人机用户的参与，抵御搭便车现象和拜占庭攻击，实现高效的和隐私保护的无人机感知数据共享。

Description

一种基于联邦学习的无人机群感知数据安全共享方法

技术领域

本发明属于物联网安全领域，具体涉及一种基于联邦学习的无人机群感知数据安全共享方法。

背景技术

随着小型无人机的不断普及，无人机即服务(UAV-as-a-Service)作为新型智慧城市的使能技术，可实现全天候、按需提供的各类感知服务与应用，已广泛用于空气质量检测、城市安保、灾难救援等场景。然而无人机的感知数据会不可避免地记录用户的隐私和敏感数据，传统机器学习模型需要将大量的感知数据迁移到一个中心化存储设备进行数据挖掘与知识提取，因此可能导致严重的隐私泄露和数据滥用。

联邦学习作为一种新型的隐私保护的机器学习范式，获得了学术界和产业界的广泛关注，是实现分散的无人机感知数据的安全高效共享和知识抽取的关键技术。在联邦学习中，无人机只需根据分享由本地数据训练得到的模型参数更新而非原始感知数据从而保护数据隐私。然而，1)当前的联邦学习需要频繁的进行周期性的本地训练和全局更新。由于小型无人机通常具有有限的电池、计算和通信能力，同时传统云计算难以满足大量物联网设备在数据训练中的高带宽与低时延需求，因此当前联邦学习存在节点参与意愿低和模型训练效率低等问题。2)由于无人机数据的异质性、搭便车现象和拜占庭攻击的存在，当前联邦学习缺乏高效精准的激励机制以及鲁棒的模型聚合机制。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于联邦学习的无人机群感知数据安全共享方法，其目的在于提高无人机在联邦学习中的通信效率，激励无人机用户的参与和高质量模型训练，同时抵御搭便车现象和拜占庭攻击，实现高效的和隐私保护的无人机感知数据共享。

为了解决上述技术问题，本发明通过以下技术方案予以实现：

一种基于联邦学习的无人机群感知数据安全共享方法，包括：

基于契约理论设计针对不同类型无人机的最优契约，以激励无人机参与联邦学习；

无人机根据自身类型选择最优契约进行本地模型训练得到本地模型参数更新，并将所述本地模型参数更新传输至联邦学习服务器；

联邦学习服务器对接收的所述本地模型参数更新进行本地模型质量评估，根据评估结果设计模型鲁棒聚合规则和模型效益公平分配规则，根据所述模型鲁棒聚合规则进行模型聚合，根据所述模型效益公平分配规则进行效益分配；

联邦学习服务器根据本地模型质量评估对无人机进行动态声誉管理。

进一步地，所述基于契约理论设计针对不同类型无人机的最优契约，具体为：

根据无人机的不同类型建立契约模型；

根据所述契约模型界定用户效用函数；

根据所述用户效用函数，利用契约理论设计所述最优契约。

进一步地，所述契约模型具体为：

式中，

是每个全局训练轮的最大等待时间；ζ_k是分配给参与的无人机的模型收益的比例；

为一系列数据-价格契约菜单，Ω_j,k＝(s_j,k,p_j,k)是对类型j的无人机契约项，s_j,k为训练数据大小，p_j,k为价格奖励；

所述根据所述契约模型界定用户效用函数，具体为：

类型j的无人机选择契约项Ω_j,k的效用函数为收益与成本之差：

式中，

是类型j的无人机在任务k的第n次全局训练轮中的模型训练和传输时间；

是类型j的无人机的声誉值；

为参与任务的无人机的声誉阈值；c_j为无人机j的边际数据使用成本；

联邦学习任务k的发布者的效用函数如下：

式中，λ_s是满意度系数；I_j是类型j的无人机数量；

是无人机j的声誉值；q_j,k是无人机j的数据质量；求和式内第一项是与训练样本数量成对数函数关系的用户满意度，第二项是支付给所有参与训练的无人机的总费用；二进制变量

和

分别表示：

所述根据所述用户效用函数，利用契约理论设计所述最优契约，具体为：

最优契约设计问题为最大化联邦学习任务发布者的效用函数，同时对不同类型的无人机满足个人理性约束和激励相容约束；

将所述最优契约设计问题简化得到松弛的最优契约设计问题，求解所述松弛的最优契约设计问题得到数据-价格契约的最优松弛解；

对所述数据-价格契约的最优松弛解进行动态指派，得到最优契约设计问题的最优解，完成所述最优契约的设计。

进一步地，所述数据-价格契约的最优松弛解为：

对

所述松弛的最优契约设计问题的最优契约数据大小和最优契约价格分别为：

和

对

式中，

进一步地，所述动态指派，具体为：

找出

中任意递增子序列

调整该递增子序列中每一项为

直到

中不存在任意递增子序列，停止动态指派，得到最优契约数据大小

为指派后的

计算最优契约价格

进一步地，所述将所述本地模型参数更新传输至联邦学习服务器，具体为：

在5G异构网络下，无人机i计算与基站的信道信噪比状态，智能选择U2C或U2U通信模式，本地模型参数更新的无线传输时间为：

式中，z_i＝{0,1}表示无人机i的U2C或U2U通信模式选择变量，z_i＝1表示无人机i处于U2C传输模式，z_i＝0表示无人机i选择U2U传输模式；

是无人机i本地模型参数更新的大小；i′是无人机i附近的运行在U2C模式的协作无人机的索引。

进一步地，所述联邦学习服务器对接收的所述本地模型参数更新进行本地模型质量评估，具体为：

计算无人机的本地模型参数更新之间的欧几里得距离

根据欧几里得距离得到每个无人机i的评分为

完成本地模型质量评估；

式中，

和

分别为无人机i和无人机l的本地模型参数更新。

进一步地，所述根据评估结果设计模型鲁棒聚合规则和模型效益公平分配规则，具体如下：

基于本地模型质量评估结果计算轮贡献指数，根据所述轮贡献指数设计模型鲁棒聚合规则；

根据所述轮贡献指数，计算得到综合贡献指数，根据所述综合贡献指数设计模型效益公平分配规则；

所述根据所述轮贡献指数设计模型鲁棒聚合规则，具体为：

选择前V个评分最小的无人机，设置其轮贡献指数为

按照模型贡献进行全局模型聚合，即全局模型

所述根据所述综合贡献指数设计模型效益公平分配规则，具体为：

计算任务k中无人机在模型训练中的综合贡献指数为

按照综合贡献指数为集合

中每个无人机i分发模型收益ω_i,kζ_kΛ_k。

进一步地，所述联邦学习服务器根据本地模型质量评估对无人机进行动态声誉管理，具体为：

根据无人机在联邦学习任务中的轮贡献指数，基于逻辑斯谛函数模型建立得到无人机声誉模型；

基于迭代方法，在每个时隙动态更新所述无人机声誉模型中的声誉参数。

进一步地，所述基于迭代方法，在每个时隙动态更新所述无人机声誉模型中的声誉参数，具体为：

对于参与模型训练的无人机，当其模型贡献高于或等于平均值时，其声誉参数更新为：

对于参与模型训练的无人机，当其模型贡献低于平均值时，其声誉参数更新为：

对于不参与模型训练的无人机，其声誉参数更新为：

式中，μ₁和μ₂为衰减系数；ΔR₀是对自私无人机的非参与行为的声誉惩罚；ΔR₁是对模型贡献高于或等于平均值的无人机的声誉奖励；ΔR₂是对模型贡献低于平均值的无人机的声誉惩罚。

与现有技术相比，本发明至少具有以下有益效果：

(1)与现有主流的中心化机器学习方式相比，本发明基于联邦学习架构，无人机感知数据保留在本地设备，无人机只需要周期性地发送从本地数据训练得到本地模型参数更新至联邦学习服务器进行全局模型聚合，实现了无人机的分布式感知数据共享与协作式模型训练，解决了现有无人机群感知数据共享方式存在的隐私数据泄露的技术问题。

(2)本发明提出了基于契约理论的无人机最优契约设计方法，针对无人机差异化的数据成本、传输时间和数据质量，提供精准的用户参与激励，在最大化联邦学习任务发布者效用的同时满足个人理性和激励相容性，以激励无人机用户的参与和高质量模型训练。

(3)本发明提出了5G异构网络中基于信道信噪比状态的本地模型参数更新传输模式选择方法，无人机通过在5G异构网络中智能选择U2C或U2U通信模式传输本地模型参数更新，从而降低数据传输延迟和保证网络服务质量，提高了联邦学习中的通信效率。

(4)本发明提出了基于质量评估的全局模型聚合与模型效益分配方法，在存在拜占庭攻击和搭便车攻击的情况下，通过本地模型质量评估结果计算用户贡献，实现模型鲁棒聚合和模型效益公平分配，提高了联邦学习的鲁棒性。

(5)本发明提出了基于迭代的无人机动态声誉参数更新方法，通过历史训练数据动态评估无人机的声誉值，从而激励无人机的诚实行为并抑制其恶意行为，增强了联邦学习中参与者的可靠性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为5G异构网络中基于联邦学习的无人机群感知数据安全共享方法流程图；

图2为5G异构网络中网络通信模型图；

图3为最优数据-价格契约设计图；

图4为5G异构网络中联邦学习流程图；

图5为无人机通信模式选择流程图；

图6为无人机动态声誉管理流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明的某一具体实施方式，如图1所示，本发明一种基于联邦学习的无人机群感知数据安全共享方法，具体包括以下步骤：

步骤1、基于契约理论设计针对不同类型无人机的最优契约，以激励无人机参与联邦学习。

作为优选的实施方式，基于契约理论设计针对不同类型无人机的最优契约，具体包括：

步骤1.1、根据无人机的不同类型建立契约模型；

具体地说，契约模型具体为：

式中，

为一系列数据-价格契约菜单，Ω_j,k＝(s_j,k,p_j,k)是对类型j的无人机契约项，s_j,k为类型j的无人机用于联邦学习任务k的训练数据大小(即感知数据样本的数量)，p_j,k为价格奖励；另外，对无法按规定时间完成本地模型参数更新传输的无人机实行零支付机制，任务k的全局训练轮数为

更为具体地，基于5G异构网络和边缘计算的无人机群感知网络如图2所示，包括一个大基站，M个小基站，I个无人机。小基站和无人机均在大基站的覆盖范围内，其集合分别为

和

小基站通过高速有线链路与大基站相连接。每个无人机

都安装有先进的传感器(如相机、温度计和GPS等)用于环境感知与空中数据采集。在联邦学习中，无人机只需根据下载的全局模型发送从本地数据训练得到本地模型参数更新，联邦学习服务器将所有无人机的本地模型参数更新进行聚合得到全局模型，然后再发送给无人机进行下一轮训练直到模型达到理想的精确度。每个联邦学习任务k可表述为一个五元组

其中

是初始化的机器学习模型，T_k是任务k的存活时间，

为参与任务的无人机的声誉阈值，ε_k∈(0,1]为所需的模型精确度，(X_k,Y_k)为任务k的感知区域。无人机差异化的感知能力和计算能力导致无人机在收集和训练合格的感知数据的成本不一，采用边际数据使用成本c_i来刻画无人机在联邦学习中的异质性；基于无人机的边际数据使用成本将无人机分为J个类型，即当无人机

的成本c_j落入第j个成本类型时，指代其为类型j的无人机；令c_min和c_max分别为成本类型的上下界，因此有0＜c_min＜c₁＜…＜c_J＜c_max。

步骤1.2、根据契约模型界定用户效用函数；

具体地说，本发明中根据契约模型界定用户效用函数，具体为：

式中，

是类型j的无人机的声誉值；c_js_j,k为无人机提供感知数据并进行本地模型训练的成本；

联邦学习任务k的发布者的效用函数如下：

式中，λ_s是满意度系数，I_j是类型j的无人机数量，

是无人机j的声誉值，q_j,k是无人机j的数据质量；求和式内第一项是与训练样本数量成对数函数关系的用户满意度，第二项是支付给所有参与训练的无人机的总费用；二进制变量

和β_j,k分别表示：

步骤1.3、根据用户效用函数，利用契约理论设计最优契约；

具体地说，如图3所示，本发明中根据用户效用函数，利用契约理论设计最优契约，具体包括：

步骤1.3.1、最优契约设计问题为最大化联邦学习任务发布者的效用函数，同时对不同类型的无人机满足个人理性约束和激励相容约束；

个人理性约束和激励相容约束定义为：

定义1：个人理性约束，当且仅当每个类型j的无人机真实地选择为其类型制定的契约项Ω_j,k＝(s_j,k,p_j,k)时的效用不为负，则满足个人理性约束，即：

定义2：激励相容约束，当且仅当每个类型j的无人机真实地选择为其类型制定的契约项Ω_j,k＝(s_j,k,p_j,k)时的效用最大，则满足激励相容约束，即：

最优契约设计问题为如下问题1：

其中C1为训练数据样本量的上下界约束，C2为J个个人理性约束，C3为J(J-1)个激励相容约束。定义

为任务k的第n次全局训练轮中参与模型训练的无人机类型的集合，其中

另外，集合

中无人机类型可重新排列为：

步骤1.3.2、将最优契约设计问题简化得到松弛的最优契约设计问题，求解松弛的最优契约设计问题得到数据-价格契约的最优松弛解；

通过对个人理性约束和激励相容约束进行简化，问题1可以转化为如下问题2：

为求解问题2中的最优契约，首先考虑没有单调性约束C4的问题2的松弛问题，然后再验证所得的松弛的最优解是否满足单调性约束C4；

问题2的松弛问题可转换为如下问题3：

求解问题3，可得数据-价格契约的最优松弛解。

优选的，数据-价格契约的最优松弛解为：

对

松弛的最优契约设计问题的最优契约数据大小和最优契约价格分别为：

和

对

式中，

步骤1.3.3、对数据-价格契约的最优松弛解进行动态指派，得到最优契约设计问题的最优解，完成最优契约的设计；

本实施方式中，动态指派具体如下：

首先，找出

中任意递增子序列

其次，调整该递增子序列中每一项为

直到

为指派后的

计算最优契约价格

为所有无人机类型设计的最优契约表示为

步骤2、无人机根据自身类型选择最优契约进行本地模型训练得到本地模型参数更新，并将本地模型参数更新传输至联邦学习服务器。

如图4所示，在每个全局训练轮中

每个参与训练的无人机i利用本地感知数据对全局模型

进行训练，得到本地模型参数更新

令Θ_k为本地训练次数，具体地，本地模型参数更新如下：

首先，每个无人机i将其本地训练数据分为大小为B的数据批，每个无人机i通过随机梯度下降方法对每个数据批

进行训练：

其中，

为学习速率；

其次，令l←l+1；

重复上述步骤，直到达到最大本地训练次数，即l＝Θ_k。

作为优选的实施方式，将本地模型参数更新传输至联邦学习服务器，具体为：

如图5所示，在5G异构网络下，在每个时隙t，无人机i计算与基站的信道信噪比状态，智能选择U2C(UAV-to-Cellular)或U2U(UAV-to-UAV)通信模式来与基站传输数据，具体为：

当无人机i的U2C信道的信噪比大于或等于阈值γ_th时，直接通过U2C通信链路将本地模型参数更新上传到大基站上的联邦学习服务器；

当U2C直连链路的信噪比较低时，很难提供高数据速率来支持U2C链路的及时数据传输。因此，当无人机i的U2C信道的信噪比低于阈值γ_th时，使用U2U通信方式，将数据传输到运行在U2C通信模型的相邻无人机。然后，通过该中继无人机将数据传送到联邦学习服务器。

本地模型参数更新的无线传输时间为：

式中，z_i＝(0,1}表示无人机i的U2C或U2U通信模式选择变量，z_i＝1表示无人机i处于U2C传输模式，z_i＝0表示无人机i选择U2U传输模式；

更加具体的，令基站

表示小基站

或大基站。U2C信道的统计模型被定义为结合视距传输与非视距传输的衰落信道，无人机i与基站

在时隙t的上行链路数据传输速率为：

其中B^U2C是U2C链路的子信道带宽，

是无人机i在时隙t的传输功率，

是平均视距传输/非视距传输的信道损失，

是高斯白噪声的功率谱密度。

U2U信道的统计模型被定义为视距传输主导的衰落信道，无人机i与无人机j在时隙t的数据传输速率为：

其中B^U2U是U2U链路的通信带宽，

是视距传输下的信道损失，d_i,j(t)是无人机i与无人机j的三维欧几里得距离，

是路径衰减系数。

步骤3、联邦学习服务器对接收的本地模型参数更新进行本地模型质量评估，根据评估结果设计模型鲁棒聚合规则和模型效益公平分配规则，根据模型鲁棒聚合规则进行模型聚合，根据模型效益公平分配规则进行效益分配。

作为优选的实施方式，联邦学习服务器对接收的本地模型参数更新进行本地模型质量评估，具体为：

计算无人机的本地模型参数更新之间的欧几里得距离

根据欧几里得距离得到每个无人机i的评分为

完成本地模型质量评估；

式中，

和

分别为无人机i和无人机l的本地模型参数更新；i→l表示

属于距离

的N个最近的模型参数更新，

是参与训练的拜占庭无人机的数量。

作为优选的实施方式，根据评估结果设计模型鲁棒聚合规则和模型效益公平分配规则，具体如下：

基于本地模型质量评估结果计算轮贡献指数，根据轮贡献指数设计模型鲁棒聚合规则；

具体地说，根据轮贡献指数设计模型鲁棒聚合规则，具体为：

选择前V个评分最小的无人机，设置其轮贡献指数为

按照模型贡献进行全局模型聚合，即全局模型

根据轮贡献指数，计算得到综合贡献指数，根据综合贡献指数设计模型效益公平分配规则；

具体地说，根据综合贡献指数设计模型效益公平分配规则，具体为：

计算任务k中无人机在模型训练中的综合贡献指数为

按照综合贡献指数为集合

中每个无人机i分发模型收益ω_i,kζ_kΛ_k。

步骤4、联邦学习服务器根据本地模型质量评估对无人机进行动态声誉管理。

作为优选的实施方式，联邦学习服务器根据本地模型质量评估对无人机进行动态声誉管理，具体为：

基于迭代方法，在每个时隙动态更新无人机声誉模型中的声誉参数。

优选的，根据无人机在联邦学习任务中的轮贡献指数，基于逻辑斯谛函数模型建立得到无人机声誉模型，具体为：

在联邦学习任务中，当观察到无人机做出一系列较高的模型贡献后，它的声誉会缓慢增长。同时，如果无人机提供了如无意义的、冗余的或者错误的模型参数更新，它的声誉将下降相当大的量。基于逻辑斯谛函数模型来描述无人机行为与声誉值的变化关系：

其中τ为当前时隙，

为逻辑斯谛函数的输入参数，v₁和v₂为较低的渐近线，ψ₁为增长率，ψ₂决定最大增长率，λ₀依赖于初始声誉值，v₃影响最大渐进增长出现的点。因此

一方面，由于最近的学习记录比过去的记录更为重要，因此在声誉更新中最新的学习记录需要赋以更高的权重。另一方面，由于无人机可以执行不同的行为，因此不同行为模式下无人机声誉增长率与下降率应当不同。根据无人机的参与行为和训练行为可对其进行分类，同时整合历史模型训练记录中的行为效应和时间衰减效应，从而估计无人机的声誉更新：

优选的，如图6所示，基于迭代方法，在每个时隙动态更新无人机声誉模型中的声誉参数，具体为：

对于不参与模型训练的无人机，其声誉参数更新为：

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。