CN116933893A

CN116933893A - 一种无人机辅助联邦学习的方法

Info

Publication number: CN116933893A
Application number: CN202310924514.5A
Authority: CN
Inventors: 鲍楠; 陈嘉旭; 孙希霞; 师晓晔; 潘甦
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-24

Abstract

本发明提供一种无人机辅助联邦学习的方法，将车辆机动性、激励决策、迁移问题综合考虑。针对参与者不愿意无条件贡献他们的资源进行本地模型训练的问题，设计一种公平的激励机制和信任模型，以鼓励参与者上传可靠的模型更新，加入联邦学习任务。本发明针对车辆的移动性，提出了利用无人机服务迁移和无人机移动的双向机制来保证联邦学习任务的完整进行。同时考虑到用户车辆的参与意愿，本发明设计了基于博弈论的用户车辆激励方法，用户车辆和无人机能够制定相应决策，最大化各自的效用。

Description

一种无人机辅助联邦学习的方法

技术领域

本发明属于机器学习领域，具体涉及一种无人机辅助联邦学习的方法。

背景技术

在传统中心化机器学习中，参与者将本地的数据直接发送给中心服务器，然而中心服务器可能是不可信的。参与者将数据上传到中心服务器后，既不能删除上传到中心服务器的数据，也对中心服务器对数据的使用一无所知。除此之外，参与者还可能在传输过程中受到来自内外部攻击者的攻击，这将导致本地数据面临隐私泄露的风险。

联邦学习用模型共享代替数据共享解决了“数据孤岛”问题，在保证数据隐私的同时保证了全局模型的性能。但联邦学习依然面临着严峻的挑战，例如，如何保证上传的模型更新的隐私，如何避免不可靠的模型更新，以及如何鼓励参与者贡献他们的资源等。

专利《联邦学习模型训练过程中的资源控制方法和装置》提出了一种无人机通过模型参数获取任务所需的总时长模型以及总能耗模型，根据总时长模型和总能耗模型确定目标资源的方法。该专利考虑到无人机在噪声信号干扰下，利用多次传输处理联邦学习的模型参数保证模型准确度和安全性，但这会降低最终模型的更新时间。专利《基于联邦自适应学习的公路无人机巡检数据处理方法》提出了一种通过自适应算法来自适应调整下一轮训练的迭代次数，将更多的计算任务分配到边缘服务器的数据处理方法。该专利虽然对无人机接收的数据进行了规范处理，以便及时调整不同的用户车辆的本地迭代次数。但是该专利并没有考虑到用户车辆本身的参与意愿，会在一定程度上降低模型的准确性。专利《一种基于双向拍卖博弈的无人机群分布式学习资源管控方法》提出了一种基于双向拍卖博弈的无人机群分布式学习资源管控方法，基于双向拍卖理论进行迭代更新，使市场快速收敛到社会福利最大化点。该专利使用双向拍卖博弈，使用户车辆在联邦学习中快速达到平衡状态，对用户车辆是否参与进行了合理分析，但该专利没有考虑到无人机无法在同一时间兼顾有不同需求的用户车辆，其应用领域较少。

发明内容

本发明针对现有技术中的问题，提供了一种无人机辅助联邦学习的方法和系统，为了在空地网络中执行联邦学习任务，一架无人机作为服务器，地面用户车辆端协同完成模型训练。本发明会先考虑到用户车辆的性能参数，然后根据处理过的数据生成信任模型，选择合适的用户车辆，并且考虑到用户车辆会根据自身情况，改变对联邦学习的不同任务的兴趣，利用信任值判定是否参加模型迭代，提高了模型生成的准确性，将无人机的覆盖方位纳入整体的模型，无人机可以考虑进行数据迁移或跟随，提高了模型的合理性。

为解决以上技术问题，本发明提供如下技术方案：一种无人机辅助联邦学习的方法，包括如下步骤：

S1、无人机下发全局模型后对目标范围内的用户车辆进行参与判断，确定符合预设条件的初始用户车辆；

S2、从初始用户车辆中筛选出感兴趣用户车辆，计算其信道质量得到信任值，确定参与全局模型训练的用户车辆，用户车辆根据自身信道质量和信任值确定参与模型训练的迭代次数；

S3、无人机和用户车辆执行联邦全局模型训练，在学习过程中引入信任机制在每一次模型训练迭代过程中排除恶意用户车辆；无人机计算用户车辆的预计离开时间并根据预设开销阈值判断是否进行服务迁移策略；针对高性能用户车辆，判断其跟随开销是否大于迁移开销，是则执行服务迁移策略，否则进行无人机跟随策略，并且在每一轮训练结束后反馈信任值给无人机，更新全局模型，直到模型训练完成。

进一步地，前述的步骤S1具体包括如下子步骤：

S101、无人机计算用户车辆存储的模型与全局模型相似度、时间参与度：

Ψ_i＝Ω_i+θ_i (3)

ω_i为用户车辆V_i存储的模型参数，为区域O的最新模型参数；/>为用户车辆的模型与全局模型之间的差距。/>是集合轮的平均间隔，由区域O中的无人机提供，/> Ωi∈[0,1]，θ_i∈[-1,1)；/>是区域O的决定阈值；无人机计算估计用户车辆V_i离开当前区域O的时间为/>χ₁，χ₂为根据实际城市交通环境确定的系数，g_o表示区域O每小时的交通量，G_o是区域O每小时的最大容量。g_o/G_o的值代表了该区域的拥堵程度，L_i是离开前要走的距离,v_i为车辆的速度，/>为计算的更新质量，/>是丢包率，/>是CPU频率，/>表示用户的计算成本；

S102、计算必要性Ψ_i后，定义ξ_i表示决策结果判断用户车辆是否适合参与模型更新，如下式：

进一步地，前述的，步骤S2包括如下子步骤：

S201、无人机下发全局模型后，接收到初始用户车辆反馈的参数，则将该初始用户车辆确定为感兴趣用户车辆；

S202、计算感兴趣用户车辆的误差程度：

其中，是丢包率，f_i ^τ是CPU频率，θ_i是车辆的时间参数，/>和/>是无人机和用户传输信息的偏差，f(·)为偏差与模型更新对应的信任值转换函数，用于将每个用户的信任值控制在同一个区间内；

S203、计算信任值，如下式：

1-|μ_i|，

S204、感兴趣车辆根据信任值、以及自身当前信道质量确定参与模型训练的迭代次数。

进一步地，前述的步骤S3中，排除恶意用户车辆具体为：计算感兴趣车辆的信任值P＝(ρ₁，ρ₂，...，ρ_N)，

其中，τ为全局更新的轮数，为节点i在第τ次全局更新时的通信能力，/>为计算的更新质量，μ_i表示误差程度，/>是丢包率，f_i ^τ是CPU频率，θ_i是车辆的时间参数，f(·)为偏差与模型更新对应的信任值转换函数，其作用是将每个用户的信任值控制在同一个区间内。

进一步地，前述的步骤S2中，用户车辆根据自身信道质量和信任值确定参与模型训练的迭代次数；具体为：无人机在每次迭代前告知参与模型训练的用户车辆的报酬R,τ_i表示用户的决策，即参与全局更新的轮数，τ_-i＝(τ₁..τ_i-1..τ_i+1..τ_N)表示除了τ_i之外所有用户的策略,用信任价值ρ_i来衡量贡献水平，用效用函数来表示用户车辆的报酬与成本之差，从用户车辆模型训练获得的总收益减去支付给用户车辆的报酬，无人机获得的利益与声誉、参与程度和用户参与成本成正比；无人机调整其报酬R，用户车辆V_i调整其参与轮τ_i。

进一步地，前述的步骤S3中，所述服务迁移策略包括以下子步骤：

S301、计算用户车辆V_i的模型训练任务在无人机A_o上执行的能耗；

S302、无人机根据用户车辆的计算能力和分配的模型训练任务量，计算出每辆车的迭代时间；根据迭代时间和执行的能耗计算得到总开销C_Vi，

S303、判断用户车辆离开区域O时是否有未完成的模型训练任务，是则将下一项模型训练任务移到区域L完成，在总开销C_Vi中加入两次迁移服务的时间误差；在进行服务器迁移策略时，当区域L的无人机A_l得到该用户车辆的模型更新结果并传输给无人机A后，无人机A_o完成全局模型更新，进行下一次全局模型训练的任务发布。

进一步地，前述的步骤S3中，针对高性能用户车辆，判断其跟随开销是否大于迁移开销，是则执行服务迁移策略，否则进行无人机跟随策略包括如下步骤：

S3.1、基于用户车辆V_i的时间参数θ_i，当θ_i小于0时，表示用户车辆V_i的离开时间小于一轮迭代的时间，无人机A_o对V_i执行跟踪移动策略，计算出无人机移动的开销S3.2、在执行跟踪移动策略时，无人机需要判断跟随的速度，确定无人机移动的距离/>后，计算服务迁移的用户集S＝[V₁，...V_i，...V_N]的总开销：

涉及服务迁移的无人机跟随开销为：

其中，C_i，O为用户V_i在范围O内的开销

S3.3、为了减少通讯能耗，当在无人机A_O的范围内，移动无人机跟随用户车辆；当C_Vi<C_f，在无人机A_O,A_L的范围内，可以选择服务迁移，。

本发明另一方面提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时本发明所述方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明所述方法的步骤。

相较于现有技术，本发明采用以上技术方案的有益技术效果如下：一种无人机辅助联邦学习的方法，为了在空地网络中执行联邦学习任务，一架无人机作为服务器，地面用户车辆端协同完成模型训练。首先使用通过用户车辆的模型相似度和时间参数来决定该用户车辆是否应该参与联邦学习任务，然后通过信任值模型统一用户车辆对模型的贡献程度，以此来吸引高质量用户车辆参与。并且针对车辆的移动性，提出了利用无人机服务迁移和无人机移动的双向机制来保证联邦学习任务的完整进行。同时考虑到用户车辆的参与意愿，本发明设计了基于博弈论的用户车辆激励方法，用户车辆和无人机能够制定相应决策，最大化各自的效用。

附图说明

图1为现有技术中无人机辅助地面场景图。

图2为无人机对范围内车辆进行判断流程图。

图3为用户车辆信任机制流程图。

图4为无人机迁移流程图。

图5为无人机跟随高性能车辆策略图。

图6为本发明的方法流程图。

图7为区域O内的无人机辅助车辆通信图。

图8为无人机跟随和数据迁移图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

现有技术中，无人机辅助地面网络场景如图1所示，正如背景技术现有技术的缺陷，本发明构建一个由无人机、地面用户端组成的无人机辅助地面网络场景，无人机为地面通信提供辅助能力。具体应用场景如图7所示，移动无人机充当服务器，负责任务卸载、模型更新等。车辆可以作为用户端执行任务，并通过无线通信与无人机连接。

参考图6，本发明提供一种无人机辅助联邦学习的方法，包括如下步骤：

参考图2，步骤S1具体包括如下子步骤：

Ψ_i＝Ω_i+θ_i (3)

ω_i为用户车辆V_i存储的模型参数，为区域O的最新模型参数；/>为用户车辆的模型与全局模型之间的差距。/>是集合轮的平均间隔，由区域O中的无人机提供，/> Ωi∈[0,1]，θ_i∈[-1,1)；/>是区域O的决定阈值；

根据当前区域内的交通状况，无人机计算估计用户车辆V_i离开当前区域O的时间为χ₁，χ₂为根据实际城市交通环境确定的系数。g_o表示区域O每小时的交通量。G_o是区域O每小时的最大容量。g_o/G_o的值代表了该区域的拥堵程度，该值越大，车辆离开区域的时间会越长。L_i是离开前要走的距离,v_i为车辆的速度，/>为计算的更新质量，/>是丢包率，f_i ^τ是CPU频率，/>表示用户的计算成本。

参与必要性同时受到模型相似度Ωi和估计离开时间参数θ_i的影，如果ξ_i为0，那么用户车辆V_i就不参与本次任务。

S2、从初始用户车辆中筛选出感兴趣用户车辆，计算其信道质量得到信任值，确定参与全局模型训练的用户车辆，用户车辆根据自身信道质量和信任值确定参与模型训练的迭代次数。参考图3，步骤S2包括如下子步骤：

S202、计算感兴趣用户车辆的误差程度：

S203、计算信任值：如下式：

1-|μ_i|，

S204、感兴趣车辆根据信任值、以及自身当前信道质量确定参与模型训练的迭代次数。具体为：无人机在每次迭代前告知参与模型训练的用户车辆的报酬R,τ_i表示用户的决策，即参与全局更新的轮数，τ_-i＝(τ₁..τ_i-1..τ_i+1..τ_N)表示除了τ_i之外所有用户的策略,用信任价值ρ_i来衡量贡献水平，用效用函数来表示用户车辆的报酬与成本之差，从用户车辆模型训练获得的总收益减去支付给用户车辆的报酬，无人机获得的利益与声誉、参与程度和用户参与成本成正比；无人机调整其报酬R，用户车辆V_i调整其参与轮τ_i。S3、无人机和用户车辆执行联邦全局模型训练，在学习过程中引入信任机制在每一次模型训练迭代过程中排除恶意用户车辆。参考图8的无人机跟随和数据迁移图，无人机计算用户车辆的预计离开时间并根据预设开销阈值判断是否进行服务迁移策略；针对高性能用户车辆，判断其跟随开销是否大于迁移开销，是则执行服务迁移策略，否则进行无人机跟随策略，并且在每一轮训练结束后反馈信任值给无人机，更新全局模型，直到模型训练完成。

在步骤S3中，排除恶意用户车辆具体为：计算感兴趣用户车辆的信任值P＝(ρ₁，ρ₂，...，ρ_N)，

其中，τ为全局更新的轮数，为节点i在第τ次全局更新时的通信能力，/>为计算的更新质量，μ_i表示误差程度，/>是丢包率，f_i ^τ是CPU频率，θ_i是用户车辆的时间参数，f(·)为偏差与模型更新对应的信任值转换函数，其作用是将每个用户的信任值控制在同一个区间内。

步骤S3中无人机迁移策略：区域O的无人机发布任务，想要参与的用户车辆除了上传自身的参数外，还要额外上传自己的预估行驶路径。无人机根据用户车辆的计算能力和分配的任务量，计算出每个用户车辆的迭代时间。再根据车的行驶路径判断有哪些车能在离开时间内适合并且完成任务。对于那些能完成的用户车辆，按照正常的流程进行。对于那些不能完成的用户车辆，要根据其路径判断需不需要进行服务迁移(在区域O和区域L进行计算)，设置一个开销阈值，小于阈值就进行服务迁移，大于阈值就不在区域O内进行计算。

参考图4，步骤S3中，服务迁移策略包括以下子步骤：

参考图5，服务迁移需要多个无人机协同，这在有些时候并不是一个好选择。考虑到无人机的移动性，可以对高计算能力的用户标记，在某次迭代中为了保证该用户能持续完成任务而不离开无人机的范围，无人机可以决定跟随某用户进行移动。

步骤S3中，针对高性能用户车辆，判断其跟随开销是否大于迁移开销，是则执行服务迁移策略，否则进行无人机跟随策略包括如下步骤：

S3.1、基于用户车辆V_i的时间参数θ_i，当θ_i小于0时，表示用户车辆V_i的离开时间小于一轮迭代的时间，无人机A_o对V_i执行跟踪移动策略，计算出无人机移动的开销

S3.2、在执行跟踪移动策略时，无人机需要判断跟随的速度。确定无人机移动的距离后，计算服务迁移的用户集S＝[V₁，...V_i，...V_N]的总开销：

涉及服务迁移的无人机跟随开销为：

其中，C_i，O为用户V_i在范围O内的开销

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种无人机辅助联邦学习的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S1具体包括如下子步骤：

Ψ_i＝Ω_i+θ_i (3)

ω_i为用户车辆V_i存储的模型参数，为区域O的最新模型参数；/>为用户车辆的模型与全局模型之间的差距；/>是集合轮的平均间隔，由区域O中的无人机提供，Ωi∈[0,1]，θ_i∈[-1,1)；/>是区域O的决定阈值；

3.根据权利要求1所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S2包括如下子步骤：

S202、计算感兴趣用户车辆的误差程度：

其中，是丢包率，/>是CPU频率，θ_i是车辆的时间参数，/>和/>是无人机和用户传输信息的偏差，f(·)为偏差与模型更新对应的信任值转换函数，用于将每个用户的信任值控制在同一个区间内；

S203、计算信任值：如下式：

1-|μ_i|，

4.根据权利要求3所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S3中，排除恶意用户车辆具体为：计算感兴趣车辆的信任值P＝(ρ₁，ρ₂，...，ρ_N)，

其中，τ为全局更新的轮数，为节点i在第τ次全局更新时的通信能力，/>为计算的更新质量，μ_i表示误差程度，/>是丢包率，/>是CPU频率，θ_i是车辆的时间参数，f(·)为偏差与模型更新对应的信任值转换函数，其作用是将每个用户的信任值控制在同一个区间内。

5.根据权利要求4所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S2中，用户车辆根据自身信道质量和信任值确定参与模型训练的迭代次数；

具体为：无人机在每次迭代前告知参与模型训练的用户车辆的报酬R,τ_i表示用户的决策，即参与全局更新的轮数，τ_-i＝(τ₁..τ_i-1..τ_i+1..τ_N)表示除了τ_i之外所有用户的策略,用信任价值ρ_i来衡量贡献水平，用效用函数来表示用户车辆的报酬与成本之差，从用户车辆模型训练获得的总收益减去支付给用户车辆的报酬，无人机获得的利益与声誉、参与程度和用户参与成本成正比；无人机调整其报酬R，用户车辆V_i调整其参与轮τ_i。

6.根据权利要求5所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S3中，所述服务迁移策略包括以下子步骤：

S303、判断用户车辆离开区域O时是否有未完成的模型训练任务，是则将下一项模型训练任务移到区域L完成，在总开销C_Vi中加入两次迁移服务的时间误差；在进行服务器迁移策略时，当区域L的无人机A_l得到该用户车辆的模型更新结果并传输给无人机A_o后，无人机A_o完成全局模型更新，进行下一次全局模型训练的任务发布。

7.根据权利要求6所述的一种无人机辅助联邦学习的方法，其特征在于，步骤S3中，针对高性能用户车辆，判断其跟随开销是否大于迁移开销，是则执行服务迁移策略，否则进行无人机跟随策略包括如下步骤：

S3.2、在执行跟踪移动策略时，无人机需要判断跟随的速度，确定无人机移动的距离后，计算服务迁移的用户集S＝,V₁，...V_i，...V_N]的总开销：

涉及服务迁移的无人机跟随开销为：

其中，C_i，O为用户V_i在范围O内的开销

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。