CN116781518A

CN116781518A - 一种联邦多臂老虎机学习方法及系统

Info

Publication number: CN116781518A
Application number: CN202311062340.2A
Authority: CN
Inventors: 李向东; 石远明
Original assignee: Beijing Guangfu Technology Co ltd
Current assignee: Beijing Guangfu Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-09-19
Anticipated expiration: 2043-08-23
Also published as: CN116781518B

Abstract

本发明提供了一种联邦多臂老虎机学习方法及系统，方法包括：每个边缘设备终端会在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化；根据上一轮从中心服务器接收到的全局模型参数以及边缘设备终端当前轮的本地模型参数，对本地模型进行更新；若边缘设备终端满足更新阈值条件，则边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，发送本地更新后的模型参数到中心服务器；边缘设备终端通过无线信道将从中心服务器接收到的更新后的全局模型参数更新本地模型参数；若边缘设备终端不满足更新阈值条件，则仅进行本地模型参数更新的操作，不会进行边缘设备终端传输参数给中心服务器的操作。由此可知，本发明可以提高通信效率。

Description

一种联邦多臂老虎机学习方法及系统

技术领域

本发明属于无线通信领域，涉及一种基于无线空中计算和基于上下文的联邦多臂老虎机学习方法及系统。

背景技术

多臂老虎机是一种顺序决策的通用框架，广泛应用于各个领域，例如推荐系统、广告、金融和异常检测。多臂老虎机提供了一种在不确定环境下平衡探索和利用以最大化回报的主要方法。在多臂老虎机中，决策者与环境互动，通过探索行动以获得最佳行动或利用它们来最大化累积奖励。基于上下文的多臂老虎机通过结合依赖于情境和所选动作的奖励来扩展经典的多臂老虎机模型。例如，在推荐系统中，用户顺序请求推荐下一个要购买的商品。网站可以利用附加信息，例如过去的购买记录、浏览历史记录等，来改进学习模型。基于上下文的多臂老虎机利用了用户偏好的多样性。基于上下文的多臂老虎机会假设奖励取决于所有用户的特征向量的未知线性函数，并且每个动作都映射到特征向量，它概括了用户之间的上下文。

在各种分布式边缘设备终端和大规模去中心化应用的支持下，联邦学习允许不同实体之间进行合作，在边缘中心服务器的协调下提高性能，而无需共享其本地数据。也有许多工作研究去中心化的基于上下文的多臂老虎机，也有工作研究基于上下文的联邦多臂老虎机的隐私问题。然而，研究基于上下文的多臂老虎机在无线通信场景下的表现也是非常重要的，这是因为通常在这样的场景下通常会受到无线信道的噪声的影响，遇到传输瓶颈的问题，因此在无线通信场景下实现基于上下文的多臂老虎机是十分具有挑战性的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种联邦多臂老虎机学习方法及系统，能够提高边缘设备终端与中心服务器之间的通信效率。

第一方面，本发明实施例提供了一种联邦多臂老虎机学习方法，所述方法包括：

步骤S1、每个边缘设备终端会在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化；

步骤S2、每个所述边缘设备终端会根据上一轮从中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，对所述本地模型进行更新；

步骤S3、若所述边缘设备终端满足更新阈值条件，则所述边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，将其更新的所述本地模型参数通过无线信道发送给所述中心服务器，并接收所述中心服务器根据多个所述边缘设备终端发送的所述本地模型参数对上一轮全局模型参数更新后，获得的更新后的全局模型参数，并基于所述更新后的全局模型参数对步骤S2更新后的本地模型参数进行更新；

步骤S4、若所述边缘设备终端不满足所述更新阈值条件，则仅进行本地模型参数更新的操作，不会进行所述边缘设备终端传输参数给所述中心服务器的操作。

在一种实施方式中，所述步骤S2包括：

步骤S201、根据上一轮从所述中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，更新所述边缘设备终端当前轮的格雷姆矩阵以及当前轮的奖励向量；

步骤S202、所述边缘设备终端计算出当前轮的决策集合；

步骤S203、所述边缘设备终端根据步骤S201更新后的当前轮的格雷姆矩阵以及当前轮的奖励向量，计算出更新后的当前轮的所述本地模型参数；

步骤S204、所述边缘设备终端根据更新后的当前轮的所述本地模型参数构建一个置信度集合，并且计算出所述置信度集合的边界；

步骤S205、所述边缘设备终端根据所述置信度集合的边界，求出使得当前轮奖励最大化的动作；

步骤S206、根据所述当前轮奖励最大化的动作，求得当前轮中的奖励；

步骤S207、根据所述当前轮奖励最大化的动作，更新所述边缘设备终端当前轮的所述本地模型参数中的格雷姆矩阵以及奖励向量。

在一种实施方式中，所述置信度集合的边界包括：

；

其中，所述为边缘设备终端i在第t轮更新时的置信度集合的边界，所述为所述边缘设备终端i执行动作后得到奖励的方差，所述为概率，所述为本地模型参数的维度，所述为信道噪声矩阵的范数的上界，所述为信道噪声矩阵的逆矩阵的范数的上界的相关参数，所述为动作的范数约束的上界，所述为本地模型参数的范数约束的上界，所述为噪声向量的噪声矩阵的范数。

在一种实施方式中，所述更新阈值条件包括：

；

其中，所述为对矩阵取行列式的操作，所述为根据步骤S201更新后的当前轮的格雷姆矩阵，所述为当前轮奖励最大化的动作向量，所述为动作向量的转置，所述为矩阵大小为的单位矩阵，所述为边缘设备终端在第轮更新时的关于历史动作的格拉姆矩阵，所述为一个与阈值相关的常数，所述为距离上一次边缘设备终端传输参数给中心服务器的时间间隔。

在一种实施方式中，所述步骤S3中的所述边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，将其更新的所述本地模型参数通过无线信道发送给所述中心服务器，包括：

利用第一公式将第轮M个边缘设备终端向所述中心服务器发送包括更新后的所述本地模型参数的信号在空中进行叠加，并将叠加信号发送给所述中心服务器；

所述第一公式包括：

；

其中，所述为所述中心服务器在第轮时接收到的来自所述M个边缘设备终端发送的叠加信号，其中所述边缘设备终端i发送的信号为，所述为在第轮边缘设备终端与所述中心服务器之间的信道，所述为在第轮边缘设备终端的预编码，所述为在第轮边缘设备终端的奖励向量，所述为信道噪声向量

所述第一公式中的通过第二公式计算而得；

所述第二公式包括：

；

其中，所述为所述中心服务器的去噪因子，所述为的共轭复数；

所述第二公式中的通过第三公式计算而得；

所述第三公式包括：

；

其中，所述M为边缘设备终端的个数，所述为维度大小，所述为在第轮边缘设备终端的最大传输功率的值。

第二方面，本发明实施例提供了一种联邦多臂老虎机学习系统，所述系统包括多个边缘设备终端和中心服务器；

所述边缘设备终端，用于在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化；根据上一轮从中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，对所述本地模型进行更新；若所述边缘设备终端满足更新阈值条件，则通过空中计算技术，利用多址信道的波形叠加性质，将其更新的所述本地模型参数通过无线信道发送给所述中心服务器；

所述中心服务器，用于基于各个边缘设备终端发送的更新后的所述本地模型参数，对上一轮全局模型参数更新，并将更新后的全局模型参数传输给所述边缘设备终端；

所述边缘设备终端，还用于将从所述中心服务器接收到的所述更新后的全局模型参数，更新本地模型参数；若所述边缘设备终端不满足所述更新阈值条件，则仅进行本地模型参数更新的操作，不会进行所述边缘设备终端传输参数给所述中心服务器的操作。

在一种实施方式中，所述边缘设备终端，用于：

根据上一轮从所述中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，更新所述边缘设备终端当前轮的格雷姆矩阵以及当前轮的奖励向量；

计算出当前轮的决策集合；

根据更新后的当前轮的格雷姆矩阵以及当前轮的奖励向量，计算出更新后的当前轮的所述本地模型参数；

根据更新后的当前轮的所述本地模型参数构建一个置信度集合，并且计算出所述置信度集合的边界；

根据所述置信度集合的边界，求出使得当前轮奖励最大化的动作；

根据所述当前轮奖励最大化的动作，求得当前轮中的奖励；

根据所述当前轮奖励最大化的动作，更新所述边缘设备终端当前轮的所述本地模型参数中的格雷姆矩阵以及奖励向量。

在一种实施方式中，所述置信度集合的边界包括：

；

在一种实施方式中，所述更新阈值条件包括：

；

在一种实施方式中，所述边缘设备终端，用于：

所述第一公式包括：

；

所述第一公式中的通过第二公式计算而得；

所述第二公式包括：

；

所述第二公式中的通过第三公式计算而得；

所述第三公式包括：

；

由上述内容可知，本发明实施例提供了一种联邦多臂老虎机学习方法及系统，该方法通过空中计算技术，利用多址信道的波形叠加性质，发送本地更新后的本地模型参数到中心服务器空中计算的数据传输方式，能够有效减少通信开销，将原来的传输复杂度减少到，其中为所需要传输的参数维数，为系统中的边缘设备终端数量。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种联邦多臂老虎机学习方法的流程示例图；

图2为本发明实施例提供的另一种联邦多臂老虎机学习方法的流程示例图；

图3为本发明实施例提供的又一种联邦多臂老虎机学习方法的流程示例图；

图4为本发明实施例提供的一种联邦多臂老虎机学习系统的模型示例图；

图5为本发明实施例提供的基于一种联邦多臂老虎机学习方法进行仿真的一种仿真结果示例图；

图6为本发明实施例提基于一种联邦多臂老虎机学习方法进行仿真的另一种仿真结果示例图；

图7为本发明实施例提供的基于一种联邦多臂老虎机学习方法进行仿真的又一种仿真结果示例图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。另外，下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定，各个步骤之间的执行顺序与执行逻辑应参照实施例所表述的内容进行理解与推定。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于无线空中计算和基于上下文的联邦多臂老虎机学习方法，涉及到无线通信领域。

下面作出进一步说明。

本发明的环境识别方法包括两个执行主体：边缘设备终端和中心服务器。其中，边缘设备终端是具有通信功能、计算功能的边缘设备终端。中心服务器指的是用于提供算力服务、具备数据处理功能的中心服务器。应理解，基于应用场景的不同，边缘设备终端的设置类型多种多样，例如手机、电脑、车端计算边缘设备终端等边缘设备终端都可以视作边缘设备终端。通感终端与边缘中心服务器分别用于执行不同的方法步骤，下面进一步展开说明。

本发明假设系统中单天线的边缘设备终端为个，单天线的中心服务器数量为1。

图1为本发明实施例提供的一种联邦多臂老虎机学习方法的流程图，该方法包括：

步骤S1、每个边缘设备终端会在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化。

这里需要初始化的本地模型参数包括边缘设备终端在第1轮更新时的关于历史动作的格拉姆矩阵，其中为信道噪声矩阵的逆的范数上界，为单位矩阵，矩阵大小为，为矩阵的维数。边缘设备终端在第1轮更新时的历史奖励向量初始化为其中为零向量，向量维度为。边缘设备终端在第1轮更新时的关于当前动作的格拉姆矩阵初始化为，边缘设备终端在第1轮更新时的当前的奖励向量初始化为，距离上一次边缘设备终端传输本地模型参数给中心服务器的时间间隔初始化为。

步骤S2、每个边缘设备终端会根据上一轮从中心服务器接收到的全局模型参数以及边缘设备终端当前轮的本地模型参数，对本地模型进行更新。

本地模型和全局模型均可以包括用于推荐系统、推荐广告、金融计算和异常检测等领域的模型。

如图2所示，本步骤S2的具体实现方法包括S201-S207：

步骤S201、根据上一轮从中心服务器接收到的全局模型参数以及边缘设备终端当前轮的本地模型参数，更新边缘设备终端当前轮的格雷姆矩阵以及当前轮的奖励向量。

全局模型参数和本地模型参数均可包括格雷姆矩和奖励向量。

对边缘设备终端在第轮时的最终格雷姆矩阵可以更新为边缘设备终端在第轮更新时的关于历史动作的格拉姆矩阵与当前轮的格雷姆矩阵之和：。对于奖励向量而言，边缘设备终端在第轮时的最终奖励向量可以更新为边缘设备终端在第轮更新时的关于历史动作的奖励向量与当前轮的奖励向量之和：。

步骤S202、边缘设备终端计算出当前轮的决策集合。

在第t轮边缘设备终端的决策集合是根据当前轮（例如第t轮）的环境获得的，每个边缘设备终端都有属于自己的决策集合，为实数集合，为模型参数维度。其中每个可执行的动作是包含在这个决策集合中的，因此对于边缘设备终端第轮的动作。

步骤S203、边缘设备终端根据步骤S201更新后的当前轮的格雷姆矩阵以及当前轮的奖励向量，计算出更新后的当前轮的本地模型参数。

本步骤可以将更新后的当前轮的格雷姆矩阵以及当前轮的奖励向量的乘积作为更新后的当前轮的本地模型参数。

为当前轮的模型参数，可以表达为岭回归的估计值，可以表示为，这里的矩阵表示为矩阵的逆矩阵，的定义同步骤S201中的定义。

步骤S204、边缘设备终端根据更新后的当前轮的所述本地模型参数构建一个置信度集合，并且计算出置信度集合的边界。

首先求出当前边缘设备终端在第轮的决策集合，，其中，为模型参数，为实数集合，为模型参数维度。表示为向量的椭圆矩阵的范数，表示矩阵的转置，需要注意的是这里的矩阵是一个正定的对称矩阵。为边缘设备终端在第轮更新时的置信度集合的边界，可以表达为

；

其中为边缘设备终端i执行动作后得到奖励的方差，为概率，可以设定为一个常数，为本地模型参数的维度，为信道噪声矩阵的范数的上界，满足对任意的，有，为信道噪声矩阵的逆矩阵的范数的上界的相关参数，满足对任意的，有。为动作的范数约束的上界，满足对任意的和，有。为本地模型参数的范数约束的上界，满足，为噪声向量的噪声矩阵的范数，。为信道噪声矩阵的逆矩阵，为信道噪声向量。接下来，根据计算可得，有概率为，可满足，，其中C，c是常数，是以e为底的指数运算，为信道噪声的方差，为概率，T为总共的迭代次数。

步骤S205、边缘设备终端根据置信度集合的边界，求出使得当前轮奖励最大化的动作。

每个边缘设备终端通过求解以下问题来得到使得当前轮奖励最大化的动作（以下简称为最优动作）：

；

其中是求得的最优动作，该最优动作是一个向量，为当前轮的模型参数，为两个向量做内积的操作，为边缘设备终端在第轮更新时的置信度集合的上界，为矩阵的逆矩阵，是决策集合中的任一动作。

步骤S206、根据当前轮奖励最大化的动作，求得当前轮中的奖励。

随后通过得到的最优动作向量，可以求得当前轮中做动作向量可以得到的奖励。假设边缘设备终端在第轮的奖励和最优动作向量之间满足以下线性关系：

；

其中是动作向量的转置，是最优的模型参数，为扰动噪声，服从次高斯分布，满足其均值为0，方差为。那么每个边缘设备终端根据奖励和动作向量之间的关系来得到第轮的奖励。

步骤S207、根据当前轮奖励最大化的动作，更新边缘设备终端当前轮的本地模型参数中的格雷姆矩阵以及奖励向量。

首先依据步骤S205选出的当前轮的最优动作向量，可以将第轮的当前动作的格拉姆矩阵更新为，其中为动作向量的转置。同时相关的奖励向量也可以根据步骤S205选出的当前轮的最优动作向量以及步骤S206的奖励更新为。

步骤S3、若边缘设备终端满足更新阈值条件，则边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，将其更新的本地模型参数通过无线信道发送给中心服务器，并接收中心服务器根据多个边缘设备终端发送的本地模型参数对上一轮全局模型参数更新后，获得的更新后的全局模型参数，并基于更新后的全局模型参数对步骤S2更新后的本地模型参数进行更新。

这里给出更为详细的阈值更新条件：

；

其中，为对矩阵取行列式的操作，为根据步骤S201更新后的当前轮的格雷姆矩阵，为当前轮奖励最大化的动作向量，为动作向量的转置，为矩阵大小为的单位矩阵，为在步骤S204中定义的关于信道噪声矩阵的范数的上界，在步骤S204中定义的关于信道噪声矩阵的逆矩阵的范数的上界的相关参数，为边缘设备终端在第轮更新时的关于历史动作的格拉姆矩阵，为一个与阈值相关的常数，为距离上一次边缘设备终端传输参数给中心服务器的时间间隔。

如图3所示，若边缘设备终端满足上述更新阈值条件，则所有边缘设备终端都会进行步骤S301到步骤S304的信息聚合以及更新操作。

步骤S301、边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，将其更新的本地模型参数通过无线信道发送给中心服务器。

首先给定信号传输的信道是块平坦衰落信道，其中每个块被划分为个时隙，为，在每个块的传输过程中的信道系数保持不变。以这种方式，可以通过在单个相干块中传输第轮的当前动作的格拉姆矩阵以及第轮的相关的奖励向量。在不失一般性的情况下，在此处仅详细描述了一种传输矩阵的情况，对于另一个需要传输的向量而言是与传输矩阵类似的情况。针对矩阵，根据矩阵为对称矩阵的这一事实，为了减少传输时的开销，可以仅将矩阵的主对角线上或上方的分量进行传输，而不需要将矩阵的所有信息都进行传输，这样可以有效减少通信开销。

为了进一步减少每轮通信过程中的通信开销，这里使用的传输技术为空中计算的方式，结合空中计算能够实现边缘设备终端上传本地模型到中心服务器端的快速聚合。空中计算是基于传输时计算的原理，通过利用多址接入信道的波形叠加特性使邻居边缘设备终端上的本地模型同频同时传输。具体来说，在第轮边缘设备终端与中心服务器之间的信道可以表示为，第轮边缘设备终端的预编码可以表示为，那么在轮时边缘设备终端发送的信号表示为，其中为在第轮边缘设备终端的奖励向量。

若所有边缘设备终端个数M，那么利用第一公式在第轮所有边缘设备终端传输给中心服务器的信号，中心服务器端接收到的信号可以表示为。

第一公式包括：

；

其中，为信道噪声向量，该向量服从复高斯分布，。那么关于第轮边缘设备终端的传输功率的限制可以表示为

；

其中为取期望的操作，为中间向量二范数的平方，为维度大小，为最大传输功率的值。相应的信噪比可以表示为。此外，假设完美的信道状态信息（CSI）在所有边缘设备终端和中心服务器上都是已知的，为了减轻加性噪声和信道衰落的影响，提高空中计算的性能，设计预编码的策略至关重要。因此，为了实现信道反转，可以将设计为第二公式。

第二公式包括：

；

其中在第轮边缘设备终端与中心服务器之间的信道，为对其中的变量取绝对值的操作，为的共轭复数，为中心服务器端的去噪因子。这里使用设计后的表达式，在所有边缘设备终端发送到中心服务器处的估计信号可以表示为

；

其中，为等效信道噪声，服从高斯分布。此处给出的定义为。无线信道上的不完美估计会导致训练过程中的聚集误差。在每次迭代中设计去噪因子以减少误差间隙是需要的。基于信道反转技术，可以将去噪因子设置为第三公式。

第三公式包括：

；

上式关于求解去噪因子可以通过相关凸优化的包将问题求解出来。

需要说明的是，第二公式和第三公式是本发明实现降噪的关键技术之一，即第二公式和第三公式分别是本发明的创新点之一。

步骤S302、中心服务器对各个边缘设备发送的更新后的本地模型参数进行聚合处理。

根据步骤S301，中心服务器经过处理后接收到的信号可以表示为，第轮的所有边缘设备终端的奖励向量的聚合结果以及第轮的所有边缘设备终端的格拉姆矩阵的聚合结果，其中为信道噪声矩阵。

步骤S303、中心服务器将处理计算后的结果通过无误差信道传输给边缘设备，处理计算后的结果包括更新后的全局模型参数。

中心服务器将从步骤S302获得的奖励向量以及格拉姆矩阵传递给边缘设备终端。因为一般而言中心服务器端的发射功率会远远大于边缘设备终端的发射功率，因此假设中心服务器传递参数的时候是不受信道噪声的影响的。

步骤S304、边缘设备将从中心服务器接收到的更新后的全局模型参数，更新本地模型参数。

根据步骤S303中心服务器传递给边缘设备终端的奖励向量以及格拉姆矩阵，边缘设备终端的格拉姆矩阵可以更新为，边缘设备终端的奖励向量可以更新为。并且将距离上一次边缘设备终端传输参数给中心服务器的时间间隔设置为0。

步骤S4、若边缘设备终端不满足更新阈值条件，则仅进行本地模型参数更新的操作，不会进行边缘设备终端传输参数给中心服务器的操作。

边缘设备终端将距离上一次边缘设备终端传输参数给中心服务器的时间间隔，然后将矩阵初始化为零矩阵，以及向量初始化为零向量。

本发明实施例提供的联邦多臂老虎机学习方法，通过空中计算技术，利用多址信道的波形叠加性质，发送本地更新后的本地模型参数到中心服务器空中计算的数据传输方式，能够有效减少通信开销，将原来的传输复杂度减少到，其中为所需要传输的参数维数，为系统中的边缘设备终端数量。

图4为本发明实施例提供的一种联邦多臂老虎机学习方法中的系统模型图，其中包括的主体有多个边缘设备终端和一个中心服务器。设备1、设备i和设备M均是边缘设备终端。边缘设备终端可以与环境交互，获取相关参数。y表示奖励，x表示动作，U表示关于当前动作的格拉姆矩阵，u表示奖励向量。

所述边缘设备，用于在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化；根据上一轮从中心服务器接收到的全局模型参数以及所述边缘设备当前轮的所述本地模型参数，对所述本地模型进行更新；若所述边缘设备端满足更新阈值条件，则通过空中计算技术，利用多址信道的波形叠加性质，发送本地更新后的所述本地模型参数到所述中心服务器；

所述中心服务器，用于对各个边缘设备发送的更新后的所述本地模型参数进行聚合处理；将处理计算后的结果通过无误差信道传输给所述边缘设备，所述处理计算后的结果包括更新后的所述全局模型参数；

所述边缘设备，还用于将从所述中心服务器接收到的更新后的所述全局模型参数，更新本地模型参数；若所述边缘设备不满足所述更新阈值条件，则仅进行本地模型参数更新的操作，不会进行所述边缘设备传输参数给所述中心服务器的操作。

在一种实施方式中，所述边缘设备终端，用于：

计算出当前轮的决策集合；

根据所述当前轮奖励最大化的动作，求得当前轮中的奖励；

在一种实施方式中，所述置信度集合的边界包括：

；

在一种实施方式中，所述更新阈值条件包括：

；

在一种实施方式中，所述边缘设备终端，用于：

所述第一公式包括：

；

其中，所述为所述中心服务器接收到的来自所述M个边缘设备终端发送的叠加信号，所述边缘设备终端i发送的信号为，所述为在第轮边缘设备终端与所述中心服务器之间的信道，所述为在第轮边缘设备终端的预编码，所述为在第轮边缘设备终端的奖励向量，所述为信道噪声向量

所述第一公式中的通过第二公式计算而得；

所述第二公式包括：

；

所述第二公式中的通过第三公式计算而得；

所述第三公式包括：

；

本发明的另一个实施例还提供了一种联邦多臂老虎机学习装置，该装置应用于任一边缘设备终端，该装置包括：

初始化单元，用于在本地模型训练开始之前对其中涉及到的本地模型参数进行初始化；

更新单元，用于根据上一轮从中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，对所述本地模型进行更新；

发送单元，用于若所述边缘设备终端满足更新阈值条件，则通过空中计算技术，利用多址信道的波形叠加性质，将其更新的所述本地模型参数通过无线信道发送给所述中心服务器；

接收单元，用于接收所述中心服务器根据多个所述边缘设备终端发送的所述本地模型参数对上一轮全局模型参数更新后，获得的更新后的全局模型参数；

所述更新单元，还用于基于所述更新后的全局模型参数对步骤S2更新后的本地模型参数进行更新；若所述边缘设备终端不满足所述更新阈值条件，则仅进行本地模型参数更新的操作，不会进行所述边缘设备终端传输参数给所述中心服务器的操作。

在一种实施方式中，更新单元包括：

更新模块，用于根据上一轮从所述中心服务器接收到的全局模型参数以及所述边缘设备终端当前轮的所述本地模型参数，更新所述边缘设备终端当前轮的格雷姆矩阵以及当前轮的奖励向量；

计算模块，用于计算出当前轮的决策集合；根据更新后的当前轮的格雷姆矩阵以及当前轮的奖励向量，计算出更新后的当前轮的所述本地模型参数；

构建模块，用于所述边缘设备终端根据更新后的当前轮的所述本地模型参数构建一个置信度集合；

计算模块，还用于计算出所述置信度集合的边界；根据所述置信度集合的边界，求出使得当前轮奖励最大化的动作；根据所述当前轮奖励最大化的动作，求得当前轮中的奖励；

更新模块，还用于根据所述当前轮奖励最大化的动作，更新当前轮的所述本地模型参数中的格雷姆矩阵以及奖励向量。

图5为本发明实施例提供的仿真结果：维度d为10，边缘设备终端M为50，在设定不同信噪比的情况下（无噪声，25dB，35dB，50dB），横坐标为迭代数，纵坐标为遗憾值的仿真结果图。

图6为本发明实施例提供的仿真结果：边缘设备终端M为50，SNR(Signal toInterference plus Noise Ratio,信号与干扰加噪声比)为30,在设定不同模型维度大小的情况下，横坐标为迭代数，纵坐标为遗憾值的仿真结果图。

图7为本发明实施例提供的仿真结果：维度d为10，SNR为30,在不同用户（即边缘设备终端）数量大小的情况下，横坐标为迭代数，纵坐标为遗憾值的仿真结果图。

上述系统、装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。系统实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域普通技术人员可以理解：实施例中的系统中的模块可以按照实施例描述分布于实施例的系统中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。

Claims

1.一种联邦多臂老虎机学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：

步骤S202、所述边缘设备终端计算出当前轮的决策集合；

3.根据权利要求2所述的方法，其特征在于，所述置信度集合的边界包括：

；

其中，所述为边缘设备终端i在第t轮更新时的置信度集合的边界，所述/>为所述边缘设备终端i执行动作后得到奖励的方差，所述/>为概率，所述/>为本地模型参数的维度，所述/>为信道噪声矩阵的范数的上界，所述/>为信道噪声矩阵的逆矩阵的范数的上界的相关参数，所述/>为动作的范数约束的上界，所述/>为本地模型参数的范数约束的上界，所述/>为噪声向量的噪声矩阵的范数。

4.根据权利要求3所述的方法，其特征在于，所述更新阈值条件包括：

；

其中，所述为对矩阵取行列式的操作，所述/>为根据步骤S201更新后的当前轮的格雷姆矩阵，所述/>为当前轮奖励最大化的动作向量，所述/>为动作向量/>的转置，所述/>为矩阵大小为/>的单位矩阵，所述/>为边缘设备终端/>在第/>轮更新时的关于历史动作的格拉姆矩阵，所述/>为一个与阈值相关的常数，所述/>为距离上一次边缘设备终端传输参数给中心服务器的时间间隔。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述步骤S3中的所述边缘设备终端通过空中计算技术，利用多址信道的波形叠加性质，将其更新的所述本地模型参数通过无线信道发送给所述中心服务器，包括：

所述第一公式包括：

；

其中，所述为所述中心服务器在第/>轮时接收到的来自所述M个边缘设备终端发送的叠加信号，其中所述边缘设备终端i发送的信号为/>，所述/>为在第/>轮边缘设备终端/>与所述中心服务器之间的信道，所述/>为在第/>轮边缘设备终端/>的预编码，所述/>为在第/>轮边缘设备终端/>的奖励向量，所述/>为信道噪声向量；

所述第一公式中的通过第二公式计算而得；

所述第二公式包括：

；

其中，所述为所述中心服务器的去噪因子，所述/>为/>的共轭复数；

所述第二公式中的通过第三公式计算而得；

所述第三公式包括：

；

其中，所述M为边缘设备终端的个数，所述为维度大小，所述/>为在第/>轮边缘设备终端/>的最大传输功率的值。

6.一种联邦多臂老虎机学习系统，其特征在于，所述系统包括多个边缘设备终端和中心服务器；

所述边缘设备终端，还用于基于从所述中心服务器接收到的所述更新后的全局模型参数，更新本地模型参数；若所述边缘设备终端不满足所述更新阈值条件，则仅进行本地模型参数更新的操作，不会进行所述边缘设备终端传输参数给所述中心服务器的操作。

7.根据权利要求6所述的系统，其特征在于，所述边缘设备终端，用于：

计算出当前轮的决策集合；

根据所述当前轮奖励最大化的动作，求得当前轮中的奖励；

8.根据权利要求7所述的系统，其特征在于，所述置信度集合的边界包括：

；

9.根据权利要求8所述的系统，其特征在于，所述更新阈值条件包括：

；

10.根据权利要求6-9中任一项所述的系统，其特征在于，所述边缘设备终端，用于：

所述第一公式包括：

；

所述第一公式中的通过第二公式计算而得；

所述第二公式包括：

；

所述第二公式中的通过第三公式计算而得；

所述第三公式包括：

；

其中，所述M为边缘设备终端的个数，所述d为维度大小，所述为在第/>轮边缘设备终端/>的最大传输功率的值。