CN112668128B

CN112668128B - 联邦学习系统中终端设备节点的选择方法及装置

Info

Publication number: CN112668128B
Application number: CN202011542477.4A
Authority: CN
Inventors: 杨超; 董承伟; 雷振江; 田小蕾; 杨秀峰; 马天琛; 马莉莉; 方思远
Original assignee: State Grid Corp of China SGCC; Materials Branch of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Materials Branch of State Grid Liaoning Electric Power Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-05-28
Anticipated expiration: 2040-12-21
Also published as: CN112668128A

Abstract

本发明提供一种联邦学习系统中终端设备节点的选择方法及装置。其中，该方法包括：确定对应终端设备节点选择的测试准确率最优化目标模型；获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应测试准确率和时延约束的终端设备节点选择策略。采用本发明公开的联邦学习系统中终端设备节点的选择方法，能够在保证联邦学习性能的同时，实现终端设备资源利用率与能耗的联合优化，合理选择终端设备集合参与联邦学习模型聚合，有效提高了联邦学习的效率和准确性。

Description

联邦学习系统中终端设备节点的选择方法及装置

技术领域

本发明涉及计算机应用技术领域，具体涉及一种联邦学习系统中终端设备节点的选择方法和装置。另外，还涉及一种电子设备及非暂态计算机可读存储介质。

背景技术

近年来，随着移动物联网设备的大量使用，越来越多的机器学习应用得以在网络边缘侧普及。传统的将原始数据上传至集中式服务器进行模型训练的方式存在诸如高传输时延、用户隐私泄露等的弊端。为解决上述问题，基于联邦学习的分布式模型训练架构应运而生。在此模式下，终端设备可以利用自身数据在本地完成训练任务，然后将模型参数发送至服务器进行模型聚合。由于上传的模型参数大小相比于原始数据明显减小，因此能有效降低数据传输成本，同时保护用户隐私。

然而，实践中终端设备的数据集大小和质量往往是不同的，使得本地模型的训练质量也存在差异。同时，终端设备多样异构的计算资源和传输时间也对联邦学习的性能和效率产生较大影响。因此，如何合理选择设备集合参与模型聚合，以提高联邦学习效率和准确性成为本领域亟待解决的问题。

发明内容

为此，本发明提供一种联邦学习系统中终端设备节点的选择方法及装置，以解决现有技术中存在的仅仅注于联邦学习本身，未考虑终端设备的资源及训练过程的设备能耗等因素，导致联邦学习效率和准确性较差的问题。

本发明提供一种联邦学习系统中终端设备节点的选择方法，包括：确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；

获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点，实现联邦学习模型训练；

所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

进一步的，所述满足预设的约束条件，具体包括：满足预设的终端设备能耗约束，并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。

进一步的，所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型；

所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。

进一步的，所述当前环境状态数据包括：联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略。

进一步的，所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后，触发执行预设的更新操作；在更新操作过程中，所述多个线程停止采集数据，并在更新操作完成后，所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。

进一步的，所述的联邦学习系统中终端设备节点的选择方法，还包括：采用正则化方式限制所述终端设备节点选择策略对应的更新幅度；其中，所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。

进一步的，所述总体损失函数为所述终端设备节点完成训练的测试数据集对应的损失函数的总和。

相应的，本发明还提供一种联邦学习系统中终端设备节点的选择装置，包括：

最优化目标模型确定单元，用于确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；

节点选择策略确定单元，用于获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练；所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

进一步的，所述的联邦学习系统中终端设备节点的选择装置，还包括：策略更新单元；所述策略更新单元用于所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后，触发执行预设的更新操作；在更新操作过程中，所述多个线程停止采集数据，并在更新操作完成后，所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。

进一步的，所述的联邦学习系统中终端设备节点的选择装置，还包括：更新幅度限制单元，用于采用正则化方式限制所述终端设备节点选择策略对应的更新幅度；其中，所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。

相应的，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。

相应的，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。

采用本发明所述的联邦学习系统中终端设备节点的选择方法，通过确定对应终端设备节点选择的测试准确率最优化目标模型，并基于终端设备节点选择模型进行求解运算，能够在保证联邦学习性能的同时，实现终端设备资源利用率与能耗的联合优化，合理选择终端设备集合参与联邦学习模型聚合，有效提高了联邦学习的效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的一种联邦学习系统中终端设备节点的选择方法的流程示意图；

图2为本发明实施例提供的一种联邦学习系统中终端设备节点的选择方法对应的联邦学习流程示意图；

图3为本发明实施例提供的一种联邦学习系统中终端设备节点的选择装置的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面基于本发明所述的联邦学习系统中终端设备节点的选择方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的联邦学习系统中终端设备节点的选择方法的流程示意图，具体实现过程包括以下步骤：

步骤101：确定对应终端设备节点选择的测试准确率最优化目标模型。

具体的，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率。所述满足预设的约束条件，具体包括：满足预设的终端设备能耗约束，并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。需要说明的是，在具体实施过程中，所述的目标约束条件还可包括终端设备训练的数据集质量及规模、终端设备的通信能力等约束条件，在此不做具体限定。

在具体实施过程中，首先构建联邦学习网络模型，所述联邦学习网络模型由终端设备、微基站、宏基站及其对应的MEC(Mobile Edge Computer)服务器组成。宏基站内的第一MEC服务器具有强大的计算和通信资源。可令Z表示微基站内第二MEC服务器集合，每一个第二MEC服务器z∈Z具有相应的计算能力，并通过与其相连的基站来覆盖数个终端设备。终端设备的集合用D表示，可令H_z,d＝{x_z,d,y_z,d}表示被第二MEC服务器z覆盖的终端设备d的样本数据集。针对诸如路径选择、图像识别等联邦学习任务i∈I，其目的是从终端设备的样本数据集合H_z,d＝{x_z,d,y_z,d}中学习与任务相关的联邦学习模型M。因此，联邦学习任务可以被定义为其中，Z_i和D_i分别表示与联邦学习任务i相关的第二MEC服务器和终端设备的集合，C_i为该联邦学习模型对应处理数据集中一组数据所需的CPU周期数，/>为该联邦学习的初始模型。

所述联邦学习网络模型对应的联邦学习流程如图2所示，主要包括：步骤201：模型的本地训练；步骤202：模型权值及参数的上传；203：参数上传后模型的聚合；步骤204：聚合后新的参数的下发。

步骤201：模型的本地训练。

步骤202：模型权值及参数的上传。

其中，所有参与当前联邦学习任务的终端设备的数据集所对应的函数可以定义为：

上式中，z表示第二MEC服务器；d表示第二MEC服务器覆盖的终端设备；H_z,d表示终端设备的样本数据集。

终端设备d在进行模型的本地训练时的损失函数l_z,d(x_z,d,y_z,d；w_z,d)课定义为其在样本数据集H_z,d上的预测值与实际值之差，因此联邦学习任务i在所有样本数据集上对应的损失函数可以定义公式如下：

上式中，w表示联邦学习过程中当前要训练的模型的权值，|H_i|该联邦学习任务样本数据集的大小。

本发明中，联邦学习的目的是通过最小化联邦学习任务的损失函数L(w)来优化全局模型参数，具体可表示公式如下：

w＝argminL(w) (3)

具体的，本发明中联邦学习的参数对应的更新方法为随机梯度下降(StochasticGradient Descent,SGD)，即每次随机选择数据集中的一条数据{x_z,d,y_z,d}进行更新，该方法能够大大降低了计算量。但是，由于其随机性使得本地模型需要进行足够的本地训练量以保证模型质量。具体模型参数的更新可表示公式如下：

其中：η为模型参数更新时的学习率；n∈N表示模型训练的迭代次数。

203：参数上传后模型的聚合。

当上传的本地模型参数达到一定数量或者迭代次数后，宏基站处的第一MEC服务器将对得到的本地模型执行全局模型聚合，具体的权值聚合表示如下：

其中：|H_z,d|表示终端设备d参与联邦学习任务的数据集大小，|H_i|表示所有参与当前联邦学习任务的终端设备的数据集之和。具备更大数据集的终端设备得到更大的权值。

步骤204：聚合后新的参数的下发。

在具体实施过程中，联邦学习模型训练完成后，执行本步骤实现新的参数的下发。

在上述联邦学习训练过程中，网络边缘侧终端设备节点的选择受诸多因素影响：首先，终端设备差异化的计算和通信能力直接影响本地训练和数据传输的时延；其次终端设备的训练质量、数据集质量和规模都对联邦学习性能产生很大的影响；此外，边缘终端设备能量有限，在参与训练任务时能耗也需要得到适当的控制。因此，本发明需要首先确定对应节点选择的能耗感知的准确率最优问题模型，实现选择合适的终端设备节点。

针对准确率：对于一个联邦学习任务i∈I，其训练质量可定义为本地终端设备完成N次训练后的测试准确率，本发明具体使用测试数据集的损失函数之和来表示测试准确率，公式如下：

针对设备能耗：终端设备的能耗由本地训练能耗和参数传输能耗共同组成。终端设备将本地与微基站间的传输速率可表示为：

上式中，B表示终端设备与微基站间的可用带宽；G_d表示终端设备d与微基站之间的信道增益；p_d表示终端设备d的传输功率；N₀表示噪声功率谱密度。

因此，计算终端设备将本地模型参数上传至微基站的传输时间的公式为：

上式中，ω_z,d′表示终端设备d上待传输的本地模型参数。

进一步的，终端设备用于本地模型训练的能耗公式可表示为：

上式中，|H_z,d|C_i表示完成终端d上的联邦学习任务i所需的CPU周期数目；表示终端设备上处理单个CPU周期的能耗；c_z,d表示终端设备执行联邦学习任务时的CPU频率；γ表示由开关电容确定的常数。

因此，系统中全部终端设备的能耗公式可表示为：

综上，准确率最优的节点选择问题模型对应算法公式可以表示为：

式中，具体参数表示可参见上述内容，在此不再重复赘述。

在具体实施过程中，对于一个联邦学习任务i∈I，节点选择问题可以概括为每次迭代时选择节选集Z_i∈Z，使得本次训练的损失函数最小，同时将终端能耗控制在预设范围内。

步骤102：获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略。

具体的，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点，实现联邦学习模型训练；所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型。所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后，触发执行预设的更新操作；在更新操作过程中，所述多个线程停止采集数据，并在更新操作完成后，所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。其中，所述当前环境状态数据可包括联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略等。

在具体实施过程中，由于对应终端设备节点选择策略的梯度算法的关键在于更新步长，若更新步长选取不当，更新参数后对应的新策略是一个更不好的策略，当利用更新的策略再次进行采样学习时，再次更新的参数会更差，可能导致算法崩溃。因此，为了解决对应终端设备节点选择策略的梯度算法更新步长难以确定的问题，本发明优选的采用正则化方式限制所述终端设备节点选择策略对应的更新幅度。其中，所述终端设备节点选择策略对应的更新幅度可基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定。

在具体实施过程中，复杂多变的边缘环境内终端设备节点选择策略需要随着实际的当前环境状态信息的变化而发生改变。本发明中可使用深度强化学习算法模型完成终端设备节点的选择。其中，近端策略优化算法模型(Proximal Policy Optimization；PPO)作为一种基于AC框架的强化学习算法，与传统策略梯度算法相比，近端策略优化算法模型收敛速度更快，鲁棒性更强。为进一步提高收敛速度，本发明优先采用基于多线程近端策略优化算法模型设计实现终端设备节点选择模型，即DPPO。DPPO使用多个线程在联邦学习环境中收集当前环境状态数据，且多个线程共享一个全局近端策略优化算法模型，不同于A3C算法，DPPO中各线程上传与环境交互后采集的当前环境状态数据，不再计算各线程梯度。

在联邦学习的终端设备节点选择过程中，联邦学习系统中的MEC服务器可作为智能体与外部环境数据进行交互，在每个时刻，智能体可获得当前环境状态数据，并基于当前环境状态数据采取行动，在执行终端设备节点选择操作后，对当前环境状态进行更新并得到下一状态和即时奖励。在目标时刻，执行动作后的环境数据只与当前环境状态有关，与历史环境状态无关，且具有无后效性。因此，可将联邦学习的终端设备节点选择问题表述为一个利用马尔科夫决策模型(Markov Decision Process；MDP模型)进而求解终端设备节点选择策略的过程。

下面具体举例而言：

状态空间：t时刻环境状态s_t可由一个四元组s_t＝{Φ_i,C_t,H_t-1,B_t-1}表示。其中，Φ_i表示编号为i的联邦学习任务对应的信息数据。C_t表示终端设备在t时刻可用于联邦学习任务的资源数据。H_t-1表示终端设备在所述目标时刻对应的上一时刻的数据集大小，B_t-1表示智能体在所述目标时刻对应的上一时刻的终端设备节点选择策略。

动作空间：在进行每步动作选择时，智能体只被允许采用一种终端设备节点选择策略，可将终端设备节点选择策略建模为一个0-1二进制向量，B_t＝{β₁,β₂,β₃,...,β_|d|},β_d∈{0,1}。β_n＝1表示编号为n的终端设备在此次终端设备节点选择策略中被选中，反之则表示未选中。

奖励函数：当智能体根据某个终端设备节点选择策略执行某步动作后，环境数据会随之变化并得到一个用于评价本次行为的奖励值。本发明采用基于联邦学习的测试准确率设计奖励函数，并设置最大时延作为每步动作选择对应的条件约束，奖励函数如下式所示：

上式中：A_i为测试集的损失函数，并利用该函数表示联邦学习的准确率。上述执行动作来源是一个终端设备节点选择策略π，π是状态空间到动作空间的一个映射，即：

a_t＝π(s_t) (14)

上述MDP模型的目标是得到一个优化策略，即在相应的状态根据该策略采用相应动作后，使强化学习的目标—累积回报的期望最大，即求解下式的优化问题：

其中：σ^t为折扣因子，且随时间的增加其值减小。

本发明实施例中，设计的全局近端策略优化算法模型中具体包含两个Actor网络(Actor1和Actor2)以及一个评论家网络。Actor1代表当前最新的终端设备节点选择策略π并负责指导各线程与环境交互。评论家网络根据智能体执行终端设备节点选择动作后获得的奖励对当前终端设备节点选择策略进行评判，并通过损失函数的反向传播实现对评论家网络中的参数进行更新。Actor2代表旧终端设备节点选择策略π_old，智能体训练一定步数后，就使用Actor1中的参数对Actor2中的参数进行更新，重复上述过程，直至收敛。

相较于传统策略梯度算法，近端策略优化算法模型首先对算法梯度进行改进，策略梯度的原始参数更新方程为：

上式中，θ_old和θ_new分别表示更新前后的终端设备节点选择策略对应的参数，α表示更新步长或者更新幅度，为目标函数梯度。

需要说明的是，策略梯度算法的关键在于更新步长的确定，若更新步长选取不当，更新参数后对应的新终端设备节点选择策略是一个更不好的终端设备节点选择策略，当利用更新的终端设备节点选择策略再次进行采样学习时，再次更新的参数会更差，可能导致算法崩溃。因此，合适的更新步长是指终端设备节点选择策略更新后，回报函数不能变差，基于上述分析，PPO网络模型将新终端设备节点选择策略的回报函数分解为旧终端设备节点选择策略对应的回报函数加其他项，为实现回报函数的单调不减，只需保证新终端设备节点选择策略中的其他项大于等于0，具体如下式所示：

上式中，J表示当前终端设备节点选择策略的回报函数，π表示旧终端设备节点选择策略，表示新策略。Adv_π(s_t,a_t)为优势函数。

基于上述分析可知，PPO网络模型的优化目标是通过对参数θ进行更新以满足下式。

其中，π_θ(a|s)为基于终端设备节点选择策略π在状态s下采取动作a的概率，且表示旧终端设备节点选择策略参数与新终端设备节点选择策略对应参数之间的KL(Kullback-Leibler divergence)散度的最大值，散度用于度量θ_old和θ两个参数的概率分布之间的相似度，进而控制终端设备节点选择策略的更新幅度，PPO网络模型的初始策略更新公式如下式所示：

但上述终端设备节点选择策略更新方式中存在超参数λ难以确定的问题。为解决上述问题，本发明采用t时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定终端设备节点选择策略的更新幅度，如下式所示：

当终端设备节点选择策略未发生变化时，ratio_t(θ)＝1，本发明使用clip()函数对新旧终端设备节点选择策略之间的更新幅度进行限制，改进后的终端设备节点选择策略更新方式如下式所示：

L^CLIP(θ)＝E_t[min(ratio_t(θ)Adv_t,clip(ratio_t(θ)),1-ε,1+ε)Adv_t] (21)

上式中，ε∈[0,1]是一个超参数，clip()将ratio_t(θ)的值约束在区间[1-ε,1+ε]内。

在实际实施过程中，基于DPPO的终端设备节点选择模型的详细训练步骤如下：

步骤1：将初始状态参数输入到Actor1网络中，各线程基于策略π_old选择一个动作与环境进行交互，即a_t＝π(s_t)。重复上述过程，各线程分别与环境连续交互T个时间步，收集历史交互信息并缓存，并将缓存数据传输至全局PPO网络模型处。

步骤2:全局PPO网络模型使用下式分别计算每个时间步的优势函数如下：

其中：σ为折扣因子，V为状态值函数，为评论家网络参数。

步骤3:利用计算评论家网络的损失函数，并反向传播更新评论家网络参数/>

步骤4:利用L^CLIP(θ)与优势函数对演员网络的参数进行更新。

步骤5:重复步骤4，预设步骤后使用Actor1中的网络参数更新Actor2的参数。

步骤6:循环步骤1-5，直至模型收敛。

经过上述训练本发明最终得到一个训练好的基于DPPO的终端设备节点选择模型，然后智能体根据当前环境状态数据，并基于训练好的终端设备节点选择模型指导演员网络输出下一步选择终端设备节点的动作，选择确定可用于联邦学习模型训练的终端设备节点，重复上述过程直至完成联邦学习模型的训练过程，最后输出满足实际需要的终端设备节点选择策略。

采用本发明实施例所述的联邦学习系统中终端设备节点的选择方法，通过确定对应终端设备节点选择的测试准确率最优化目标模型，并基于终端设备节点选择模型进行求解运算，能够在保证联邦学习性能的同时，实现终端设备资源利用率与能耗的联合优化，合理选择终端设备集合参与联邦学习模型聚合，有效提高了联邦学习的效率和准确性。

与上述提供的一种联邦学习系统中终端设备节点的选择方法相对应，本发明还提供一种联邦学习系统中终端设备节点的选择装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的联邦学习系统中终端设备节点的选择装置的实施例仅是示意性的。请参考图3所示，其为本发明实施例提供的一种联邦学习系统中终端设备节点的选择装置的结构示意图。

本发明所述的一种联邦学习系统中终端设备节点的选择装置具体包括如下部分：

最优化目标模型确定单元301，用于确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率。

节点选择策略确定单元302，用于获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练；所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

采用本发明实施例所述的联邦学习系统中终端设备节点的选择装置，通过确定对应终端设备节点选择的测试准确率最优化目标模型，并基于终端设备节点选择模型进行求解运算，能够在保证联邦学习性能的同时，实现终端设备资源利用率与能耗的联合优化，合理选择终端设备集合参与联邦学习模型聚合，有效提高了联邦学习的效率和准确性。

与上述提供的联邦学习系统中终端设备节点的选择方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图4所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)401、存储器(memory)402和通信总线403，其中，处理器401，存储器402通过通信总线403完成相互间的通信。处理器401可以调用存储器402中的逻辑指令，以执行联邦学习系统中终端设备节点的选择方法，该方法包括：确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点，实现联邦学习模型训练；所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

此外，上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的联邦学习系统中终端设备节点的选择方法，该方法包括：确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点，实现联邦学习模型训练；所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的联邦学习系统中终端设备节点的选择方法，该方法包括：确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点，实现联邦学习模型训练；所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种联邦学习系统中终端设备节点的选择方法，其特征在于，包括：

确定对应终端设备节点选择的测试准确率最优化目标模型；其中，所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数，并满足预设的约束条件；所述终端设备节点的总体损失函数用于表示测试准确率；

所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到；所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型；所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。

2.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法，其特征在于，所述满足预设的约束条件，具体包括：满足预设的终端设备能耗约束，并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。

3.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法，其特征在于，所述当前环境状态数据包括：联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略。

4.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法，其特征在于，所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后，触发执行预设的更新操作；在更新操作过程中，所述多个线程停止采集数据，并在更新操作完成后，所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。

5.根据权利要求4所述的联邦学习系统中终端设备节点的选择方法，其特征在于，还包括：采用正则化方式限制所述终端设备节点选择策略对应的更新幅度；其中，所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。

6.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法，其特征在于，所述总体损失函数为所述终端设备节点完成训练的测试数据集对应的损失函数的总和。

7.一种联邦学习系统中终端设备节点的选择装置，其特征在于，包括：

节点选择策略确定单元，用于获取每次联邦学习迭代过程对应的当前环境状态数据，并将所述当前环境状态数据输入至终端设备节点选择模型中，得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略；其中，所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练；所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到；所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型；所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。