CN113971089A

CN113971089A - 联邦学习系统设备节点选择的方法及装置

Info

Publication number: CN113971089A
Application number: CN202111138695.6A
Authority: CN
Inventors: 尚芳剑; 李信; 彭柏; 陈重韬; 王艺霏; 阮琳娜; 李坚; 吴佳; 娄竞; 姚艳丽; 闫忠平; 张少军; 王东升; 来骥; 张宁; 温馨; 郭少勇
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-25

Abstract

本发明提供一种联邦学习系统设备节点选择的方法及装置。所述方法包括：基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态。本发明提供的联邦学习系统设备节点选择的方法，综合考虑节点设备的系统能耗和输出结果的正确率，实现服务器对设备节点的最优选择，提高系统训练模型的准确度并节省系统的通信开销能耗和计算能耗。

Description

联邦学习系统设备节点选择的方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种联邦学习系统设备节点选择的方法及装置。

背景技术

在人工智能日益发展的今天，为此服务的机器学习模型和网络结构都经历了更新迭代和分化。以往人工智能发展的各个低迷时期是由于缺乏算法，计算能力和数据造成的，而当今由大数据环境驱动的人工智能已经进入了第三个黄金发展时期。依赖于计算能力的提升和分布式网络的成熟部署，集群计算带来的高效吸引了众多研究者的目光，联邦学习也应运而生。

目前联邦学习领域关于节点调度的研究大都仅追求训练准确度的提升。只关注高准确率进行模型设计固然会使训练的效率提升，可以理想地提升系统的整体性能，但同时，过度地使用计算资源产生的大量能耗是不能忽略的，大型系统的能源使用情况也会密切地影响系统性能。实际上，能耗管理也是联邦学习部署的关键点之一，对设备能耗管理的考虑不足使实际应用场景中系统性能受到能耗因素限制，进一步影响到节点选择方法的实际训练情况。

发明内容

针对现有技术存在的问题，本发明提供一种联邦学习系统设备节点选择的方法及装置。

第一方面，本发明提供一种联邦学习系统设备节点选择的方法，包括：

基于联邦学习系统的设备层中各设备节点的能耗和正确率，确定联邦学习系统的奖励函数；

以联邦学习系统的奖励函数最大化为目标，确定各设备节点的最优调度机制；

其中，所述联邦学习系统的设备层中各设备节点的能耗包括设备训练能耗和网络输导能耗，所述网络输导能耗是基于联邦学习系统的设备层中各设备节点模型参数确定的。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述基于联邦学习系统模型的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数，包括：

基于马尔科夫决策过程，确定联邦学习系统的系统状态S，动作空间A，决策P以及奖励函数R；

其中，所述系统状态S由联邦学习系统的设备层中各设备与网络层的基站之间的传输速率，各设备节点的设备训练能耗，各设备节点的网络输导能耗及设备节点的选择状态组成；

所述动作空间A表示设备层各设备节点的选择状态；

所述决策P表示一个由状态空间到动作空间的映射；

所述奖励函数R包括设备层中各设备节点的系统能耗和各设备节点输出结果的正确率。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述系统状态S的公式为：

其中，r_d表示联邦学习系统中网络层与设备节点间的传输速率，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，λ^t表示联邦学习系统在时间片t中，设备层各设备节点的选择状态。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述奖励函数R的公式为：

其中，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，

为设备节点输出结果的正确率，

为在时间片t中设备层中设备节点d的选择状态，d代表设备层中设备节点中任一个，n代表设备层中设备节点的个数，S_t表示联邦学习系统在时间片t的系统状态，λ^t表示联邦学习系统在时间片t中，设备层各设备节点的选择状态。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择状态，包括：

基于联邦学习系统的奖励函数R以及奖励函数R的衰减指数γ，确定联邦学习系统的奖励函数的累计值；

基于A3C算法，确定联邦学习系统的奖励函数的累计值最大时，对应的设备层中各设备节点的选择状态为各设备节点的选择方案。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述基于A3C算法，确定联邦学习系统的奖励函数的累计值最大时，对应的设备层中各设备节点的选择状态为各设备节点的选择方案，包括：

基于A3C算法，分别在Actor网络和Critic网络按照不同的梯度更新各自的网络参数，并确定对应的设备层的各设备节点的选择方案。

根据本发明提供一种联邦学习系统设备节点选择的方法，所述基于A3C算法，分别在Actor网络和Critic网络按照不同的梯度更新各自的网络参数，并确定对应的设备层的各设备节点的选择方案，包括：

在Actor网络中，基于第一梯度，更新Actor网络的参数；

在Critic网络中，基于第二梯度，更新Critic网络的参数；

其中，所述第一梯度是基于Actor网络中优势函数对动作求导以及概率模型对当前Actor网络参数求导得到的；所述第二梯度是基于价值预测的损失函数对Critic网络参数求导得到的；

基于更新后的Actor网络参数和Critic网络参数，多个智能体agent确定联邦学习系统的奖励函数累计值最大时，对应的设备层中各设备的选择方案。

第二方面，根据本发明提供一种联邦学习系统设备节点选择的电子设备，包括存储器，收发机，处理器；

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行如上所述第一方面所述的联邦学习系统设备节点选择的方法的步骤。

第三方面，本发明提供一种联邦学习系统设备节点选择的装置，包括：

目标确定模块：用于基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；

策略选择模块：用于以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态；

其中，所述联邦学习系统的设备层中各设备节点的能耗包括设备训练能耗和网络输导能耗，所述设备节点输出结果的正确率是设备节点预测正确的输出结果个数占所有训练样本个数的比例。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如上所述第一方面所述的联邦学习系统设备节点选择的方法的步骤。

本发明提供的联邦学习系统设备节点选择的方法及装置，通过综合考虑节点设备的系统能耗和输出结果的正确率，实现服务器对设备节点的最优选择，提高系统训练模型的准确度并节省系统的通信开销能耗和计算能耗。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的联邦学习系统设备节点选择的方法的流程示意图；

图2是本发明提供的联邦学习系统模型的示意图；

图3是本发明提供的联邦学习系统设备节点选择的A3C算法结构的示意图；

图4是本发明提供的联邦学习系统设备节点选择的电子设备的结构示意图；

图5是本发明提供的联邦学习系统设备节点选择的装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图5描述本发明的联邦学习系统设备节点选择的方法及装置。

联邦学习的机制意味着所有参与联邦学习任务的终端共同合力构建一个模型。横向联邦学习系统通过联合学习的特性，在学习过程中模型为所有用户共同创建，训练的收益被所有参与的用户所感知，从而将数据汇总以支持机器学习任务的必要性降低；针对数据的隐私性和安全性问题，在联邦学习过程中，参与训练的终端不进行交流和数据的上传，在汇集节点处使用特定算法对模型进行聚合，因此整个过程中网络传播的仅是模型的参数，用户数据被原封不动地保存在终端节点。相关数据在具有安全性的同时还参与促进模型优化以达到最优的训练效果。

而目前联邦学习领域关于节点调度的研究大都仅追求训练准确度的提升。只关注高准确率进行模型设计固然会使训练的效率提升，可以理想地提升系统的整体性能，但同时，过度地使用计算资源产生的大量能耗是不能忽略的，大型系统的能源使用情况也会密切地影响系统性能。实际上，能耗管理也是联邦学习部署的关键点之一，对设备能耗管理的考虑不足使实际应用场景中系统性能受到能耗因素限制，进一步影响到节点选择方法的实际训练情况。通常这样的节点选择问题的复杂性由节点数目决定，因此相关优化问题具有高维及收敛困难的特性。

基于现有技术中存在的问题，提出了本发明的技术方案，采用深度强化学习算法完成问题的解决。针对难以收敛的高维问题，异步优势的行动者评论家(AsynchronousAdvantage Actor-Critic，A3C)算法在普通的行动者-评论家(Actor-Critic，AC)类算法的基础上，添加了异步数据收集更新机制，并采用了多线程同时训练，因此在处理高维空间的问题时有着收敛速度更快的优势。经过足够轮次训练，深度学习网络具有足够能力选择出当前状态下最佳的动作，即对应的可以得到能高效完成训练任务的节点选择方案。

图1是本发明提供的联邦学习系统设备节点选择的方法的流程示意图，如图1所示，该方法包括：

步骤101、基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；

步骤102、以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态；

其中，所述联邦学习系统的设备层中各设备节点的系统能耗包括设备训练能耗和网络输导能耗，所述设备节点输出结果的正确率是设备节点预测正确的输出结果个数占所有训练样本个数的比例。

具体的，本发明的联邦学习系统模型如图2所示，模型自上而下分为服务器层、网络传输层和设备层，其中设备层负责模型的训练，服务器层负责模型的聚合，传输层涉及到了模型训练中的各种影响因素。联邦学习任务实现的流程主要包括设备节点完成模型的本地训练、参数上传，模型聚合以及参数的下发。

服务器层是联邦学习集群的汇集中心，需要部署强化学习算法对上传的参数进行选择并聚合模型，完成参数更新和参数回传工作。

网络传输层中包含多种网络传输设备，其中涉及参数包括传输时间、传输误差，在传输的过程中还会由于物理设备的使用产生传输能耗。

设备层为底层终端和/或基站，横向联邦学习设备端采用的是相似的训练的模型，设备的差异性体现在数据集数量、计算速度、模型误差、设备能耗等。

联邦学习系统的系统能耗由设备节点的设备训练能耗和网络输导能耗共同组成。设备训练能耗是联邦学习系统的设备层中设备节点d，完成本地训练所需的能耗，网络输导能耗是联邦学习系统中设备层设备节点上传本地模型参数的能耗。

设备训练能耗的相关说明如下：

对于联邦学习系统中设备层的各设备节点d，定义设备节点上处理单个CPU周期的能耗表示为

f_i,d表示设备节点执行联邦学习任务时的CPU频率，γ是由开关电容确定的常数，设备节点用于本地训练的能耗

可表示为：

上式中，|H_z,d|C_i表示完成设备节点d上的联邦学习任务i所需的CPU周期数目，由此可以得出任务的运行时间。其中，所述设备节点可以是终端设备或者基站设备等。

网络输导能耗的相关说明如下：

设备层的终端设备与网络层基站间的传输速率可表示为：

上式中，B表示终端设备与微基站间的可用带宽，G_d表示终端设备d与微基站之间的信道增益，p_d表示设备d的传输功率，N₀表示噪声功率谱密度。

因此，根据该式中r_d的定义，可以得到设备将本地任务参数上传至微基站的传输时间为：

上式中，关于ω_i,d′表示终端设备d上待传输的本地模型参数。

在网络层产生的能耗与任务消耗的时间和硬件单位时间功率p_d相关。因此，设备层设备上传模型参数的能耗

可表述为：

综上，t时刻系统中全部设备d＝1,2,3…n的能耗可表示为本地训练的能耗

与上传模型参数的能耗

之和：

因为训练样本的特征不同，各设备节点输出结果的正确率定义也不同。可以是联邦学习系统中各设备节点预测结果和对应样本的输出结果的差异，差异值小于预设范围，则认为预测结果是正确，正确的预测结果的个数占样本总数的比例为对应的正确率；其中预设范围可以是根据经验设定，或者根据统计数据确定的，或人为设定的。或者可以是联邦学习系统中各设备节点预测结果和对应样本的输出结果是否一致，如果两者一致，则人为预测结果是正确的，正确的预测结果的个数占样本总数的比例为对应的正确率。

在模型聚合阶段，选择能耗较优的节点调度是合理的，但另一方面，为了提高聚合模型的质量，还应该选择具有准确学习模型的节点。对于联邦学习系统中的任一设备节点d∈D，其上的训练集z_d∈Z的准确率由其上的数据集的损失函数之和与三元组(x_z,d，y_z，d，ω_z，d)所决定，其中x_z，d表示任务的对应输入，y_z，d表示预测网络输出，ω_z，d表示设备当前的网络参数。

训练质量定义为本地终端设备完成N次训练后的测试准确率，本文使用测试数据集的准确率表示系统测试准确率，公式如下：

综合考虑联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数，评估联邦学习系统在一个状态中采取某个动作的效果，即在时间片t中，服务器层在某个特定的系统状态采取行动，这一系列行动定义的奖励函数进行评价。

根据每个时间片t的奖励函数，确定最终系统中奖励函数的累计值，并以上述奖励函数的累计值的最大化为目标，确定设备层中各设备节点的选择方案，该选择方案中包括各设备节点的选择状态，及联邦学习系统最终选择了哪些设备执行相关的计算任务，得到的系统能耗最小，设备节点输出的结果的正确率最高。

本发明提供的联邦学习系统设备节点选择的方法，综合考虑节点设备的系统能耗和输出结果的正确率，实现服务器对设备节点的最优选择，提高系统训练模型的准确度并节省系统的通信开销能耗和计算能耗。

可选的，所述基于联邦学习系统模型的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数，包括：

所述动作空间A表示设备层各设备节点的选择状态；

所述决策P表示一个由状态空间到动作空间的映射；

具体的，将联邦学习系统模型进行优化采用了马尔可夫决策过程(MarkovDecision Process，MDP)，即模型的优化基于决策过程M。根据A3C算法的基本需求，且马尔科夫决策过程满足非记忆性，每个时刻t做出的状态转移S_t+1只取决于当前的状态S_t和动作a_t，即此时的策略P仅只有关于动作和状态的输入。以此保证A3C算法在每个运行周期t，每个线程中的对于智能体agent能对于当前S_t，根据当前的策略P计算得出状态对应的动作，以此进行算法的循环迭代。在研究联邦学习节点选择策略时A3C的决策过程M中系统状态S，动作空间A，奖励函数R，状态转移的策略(决策)P定义如下：

S：系统状态。

在联邦学习系统中每个时间片t中，系统状态由网络层与设备节点间的传输速率r_d，设备节点的计算能耗

(即本地训练的能耗

)，设备节点的通信能耗

(即上传模型参数的能耗

)及设备节点的选择状态λ^t组成，可以定义为：

为设备节点的设备训练能耗，

A：动作空间。

在时间片t中，动作被定义为节点的选择状态，将动作表示为一维特征向量λ^t，该向量中各分量的取值为0或1，定义式如下：

其中

表示节点j由节点调度选中，

则为节点j未被选中，向量维度取决于节点个数n，即设备层的设备节点个数。

具体的表示形式也可以采用

其中

的表示含义和

相同。

P：决策。

决策P是一个由状态空间到动作空间的映射，即P:S→A，在时隙t中，要采取的动作可以通过策略λ_t＝P(s(t))来决定。联邦学习系统根据节点调度的动作来完成状态转移。对于强化学习算法来说，动作是由actor网络产生的，actor网络的输入是系统状态，输出是要采取的动作。

R：奖励函数。

系统通过奖励函数R来评估在一个状态中采取某个动作的效果。在时间片t中，服务器端在状态S_t采取行动λ_t，这一系列行动由定义的奖励函数进行评价，定义式(5-3-7)如下所示:

其中，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，

为设备节点输出结果的正确率，

可选的，所述以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择状态，包括：

具体的，基于联邦学习系统的奖励函数R，确定最终系统中奖励函数的累计值为：

其中的γ∈(0，1]表示奖励函数的衰减指数。

根据马尔可夫决策过程的定义，节点的调度机制目标为最小化联邦学习系统中的总成本；对于当前算法模型，调度的目标就是找到一个最优的节点选择方案λ使得可以最大化奖励函数的累计值，即最小化系统总成本，定义如下：

求解此优化问题即可获得最优调度机制，即设备层中各设备节点的选择方案。

本发明中采用A3C算法，确定联邦学习系统的奖励函数的累计值最大时，对应的设备层中各设备节点的选择状态为各设备节点的选择方案。

可选的，所述基于A3C算法，确定联邦学习系统的奖励函数的累计值最大时，对应的设备层中各设备节点的选择状态为各设备节点的选择方案，包括：

具体的，联邦学习系统中的服务器层采用A3C算法，在Actor网络基于概率策略和价值两者综合进行动作选择，确定的梯度更新公式来更新Actor网络的网络参数；在Critic网络基于价值预测的损失函数，确定Critic网络的梯度，来更新Critic网络的网络参数，并更新后的参数使得A3C网络更倾向于选择获得奖励值更大的动作，即对应的确定设备层各设备节点的选择状态。

可选的，所述基于A3C算法，分别在Actor网络和Critic网络按照不同的梯度更新各自的网络参数，并确定对应的设备层的各设备节点的选择方案，包括：

在Actor网络中，基于第一梯度，更新Actor网络的参数；

在Critic网络中，基于第二梯度，更新Critic网络的参数；

具体的，A3C算法属于AC类算法的一种，它的架构可以被视为由深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)的基础上加入了客户端-服务器架构(Client-Server，C-S)的思路，嵌入了多个agent并行工作并完成异步更新的设计。借此可以实现多组AC算法同时工作，加速深度学习的收敛速度，对于复杂的多维度优化问题的求解有着优异的性能体现。

Actor网络的更新具体过程如下：

关于状态s_t的价值函数

可以视作是该状态的获得价值的期望，定义如下：

处在状态s_t时，π(s_t)表示在计算期望时依照的动作选择策略，γ为衰减函数，限定了价值函数对于后续状态的观测程度。

关于行动的Q值函数可以定义如下：

由此，Actor网络基于概率策略和价值两者综合进行动作选择，梯度更新公式如下：

式中前半部分梯度由Critic网络中Q值与动作选择的求导得出，预期效果即是能够根据价值函数对当前环境下动作进行的选择和参数更新，他的更新的方向使得Actor网络更倾向于选择获得Q更大的Action；后半部分梯度由Actor网络中的概率模型对当前网络参数求导得出，更新目标即增加选中指定动作的概率，此时更新会使得网络更大概率地选择收益更大的动作。

Critic网络的更新具体过程如下：

根据t时刻下的状态s_t和动作a_t，critic网络可以依照网络参数θ_Q计算出此时对应的Q值，由此可得基于价值预测的损失函数的定义：

L_Q(θ_Q)＝E[(y-Q(s_t，a_t|θ_Q))²] 式(5-4-4)

根据上式中的损失函数定义求关于网络参数θ_Q的梯度，结果如下：

上式即用于更新critic网络中的参数，其中后半部分关于Q值函数与网络参数的求导可由Q值函数的定义式：

Q(s_t，a_t|θ_Q)＝E[R(s_t，a_t)+γQ(s_t+1，π(s_t+1|θ_Q))] 式(5-4-6)求解得出。

由上式控制Critic网络函数的更新，此时的更新可以使得Critic网络能更准确地根据当前状态s_t和动作a_t预测Q值。

针对AC类算法收敛困难等问题，本发明采用A3C算法针对性地进行了优化。

A3C算法在经典的AC类算法的架构基础上进行了多智能体的异步更新设计，可以视作是异步更新的多个AC网络同时对问题进行求解。算法的结构如图3所述，图中显示了多个并行对等工作的线程间的独立性和全局模型的更新方式。

对于深度强化学习算法的选择问题，首先是针对如何解决局部最优解的相关问题。在此之前经典的深度Q网络(Deep Q Network，DQN)算法中采用了经验回放池的机制来回避样本的相关性带来的无法找到全局最优解问题，即通过随机从回放池中取已经训练过的历史样本来避免样本在时间上的连续性；而此时无可避免的会耗费大量的存储资源，处理的效果也欠佳；为此，A3C算法设立了若干个独立的工作者角色，每个角色分别地与全局模型进行交互。在训练过程中，他们会独立地对样本集合进行探索，因此也会产生不同的探索策略，同时巧妙地削弱了样本空间中时间上和空间上的相关性。

如图3所示，全局的网络参数由所有的智能体agent所共享，而下方并行中的各智能体agent各自有一个完整的AC算法支持的探索机制且相互间没有联系。全局参数的更新依靠的是每个智能体agent进行一定程度的探索并计算后所产生的损失函数梯度，并将梯度上传以优化整体模型而非直接更新自身的参数；之后局部的参数收到参数回传更新为全局参数的相关部分，由此所有的智能体agent在短时间内的局部参数并不是相等的，这个方式增加了策略的多样性。在整个过程中全局的参数更新受到智能体agent提交的不连续的更新参数，所以更新的相关性也将被降低，收敛性提高。

其次，A3C算法采用了新的actor网络的选择策略更新方式。传统的AC算法使用关于Q值的价值函数产生梯度进行更新。

A3C算法中设计了优势函数，对于一次计算的优势函数定义如下：

该函数表示了在s_t的状态下，进行a_t的动作产生价值的优势，由定义可知，优势函数通过与均值的差值来表示，此时如果动作较优，则会产生一个正的优势价值，反之则会产生一个负的优势价值，actor网络以选择优势价值较大的动作进行决策。A3C算法网络中采用优势函数替代传统AC算法中价值函数来对动作进行评价，使得优势函数带来更高的收敛效率和学习稳定性，减少过拟合的可能性。

在对于价值的计算中，通常采用的基于当前动作定义价值函数，而从AC算法价值函数定义可以得知，每个状态本身的价值也与其下一个时刻可供选择的状态对应的价值关联，并且定义了衰减函数。事实上，如果能够令每个状态的价值函数都能更远地感知到后续的动作带来的价值，对于动作选择将更加有利，也因此使用更多后续步骤动作选择对应的价值来计算会带来更佳的收敛效果。此时，针对A3C算法中对应的Q值函数的定义式如下：

根据此方法进行的价值计算能使得动作选择更加准确有效。

此外，本发明对相关算法进行了仿真，具体实现的伪代码如下：

在电力系统快速发展的过程中，电力物联网的运作将产生大量的数据，同时物联网中也并入了多样的新型计算设备，人工智能与其深度融合将大幅提高能源系统的控制能力。根据本发明提供的联邦学习系统架构图，可以依靠集群中的多个设备节点进行样本训练以及聚合节点的对多个设备节点选择，确定最优的方案。以完成对于机器学习任务的联合学习。例如，在电力网络中完成对于用电负荷的分析和用电分配的预测时，可以利用电网中大范围分布的数据采集设备，将生成数据转发给具有计算能力的设备节点，让设备节点首先进行一定轮次的训练。在完成固定轮次的训练任务的同时，设备节点记录实时功耗和运算时间。在完成了阶段性的训练后节点将使用当前模型进行预测的准确率数据、记录的能耗信息以及文本识别网络的参数上传至汇集节点。汇集节点将收集到的各个设备节点信息输入到运行的A3C算法中，以综合更小能耗与更高准确率为目标进行强化学习训练。根据A3C算法输出的选择方案，汇聚节点完成模型的聚合并将设备节点的网络参数下发，设备节点在此基础上完成下一轮次的训练工作。由于A3C算法相比于普通的强化学习算法具有更高的收敛速度，因此能减少循环训练的轮次。同时，由于节点选择时采用的优化目标函数包含了能耗和模型准确率的因素的考量，因此最终形成的节点选择方案能具有较高的能耗效益并确保用电数据较少地转移以完成用电负荷预测的训练任务。

图4是本发明提供的联邦学习系统设备节点选择的电子设备结构示意图；如图4所述，该联邦学习系统设备节点选择的电子设备，包括存储器420，收发机410和处理器400；其中，处理器400与存储器420也可以物理上分开布置。

存储器420，用于存储计算机程序；收发机410，用于在处理器400的控制下收发数据。

具体地，收发机410用于在处理器400的控制下接收和发送数据。

其中，在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器400代表的一个或多个处理器和存储器420代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本申请不再对其进行进一步描述。总线接口提供接口。收发机410可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。

处理器400负责管理总线架构和通常的处理，存储器420可以存储处理器400在执行操作时所使用的数据。

处理器400可以是中央处理器(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)，处理器也可以采用多核架构。

处理器400通过调用存储器420存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法，例如：

基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；

以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态；

所述动作空间A表示设备层各设备节点的选择状态；

所述决策P表示一个由状态空间到动作空间的映射；

可选的，所述系统状态S的公式为：

为设备节点的设备训练能耗，

可选的，所述奖励函数R的公式为：

其中，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，

为设备节点输出结果的正确率，

在Actor网络中，基于第一梯度，更新Actor网络的参数；

在Critic网络中，基于第二梯度，更新Critic网络的参数；

在此需要说明的是，本申请实施例提供的上述联邦学习系统设备节点选择的电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

下面对本发明提供的联邦学习系统设备节点选择的装置进行描述，下文描述的联邦学习系统设备节点选择的装置与上文描述的联邦学习系统设备节点选择的方法可相互对应参照。

图5是本发明提供的联邦学习系统设备节点选择的装置的结构示意图；如图5所示，所述装置包括：

目标确定模块501：用于基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；

策略选择模块502：用于以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态；

可选的，目标确定模块501还用于：

所述动作空间A表示设备层各设备节点的选择状态；

所述决策P表示一个由状态空间到动作空间的映射；

可选的，所述系统状态S的公式为：

为设备节点的设备训练能耗，

可选的，所述奖励函数R的公式为：

其中，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，

为设备节点输出结果的正确率，

可选的，策略选择模块502还用于：

在Actor网络中，基于第一梯度，更新Actor网络的参数；

在Critic网络中，基于第二梯度，更新Critic网络的参数；

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本申请实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的联邦学习系统设备节点选择的方法的步骤，例如包括：

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种联邦学习系统设备节点选择的方法，其特征在于，包括：

2.根据权利要求1所述的联邦学习系统设备节点选择的方法，其特征在于，所述基于联邦学习系统模型的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数，包括：

所述动作空间A表示设备层各设备节点的选择状态；

所述决策P表示一个由状态空间到动作空间的映射；

3.根据权利要求2所述的联邦学习系统设备节点选择的方法，其特征在于，所述系统状态S的公式为：

为设备节点的设备训练能耗，

4.根据权利要求2所述的联邦学习系统设备节点选择的方法，其特征在于，所述奖励函数R的公式为：

其中，

为设备节点的设备训练能耗，

为设备节点的网络输导能耗，

为设备节点输出结果的正确率，

5.根据权利要求1所述的联邦学习系统设备节点选择的方法，其特征在于，所述以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择状态，包括：

6.根据权利要求5所述的联邦学习系统设备节点选择的方法，其特征在于，所述基于A3C算法，确定联邦学习系统的奖励函数的累计值最大时，对应的设备层中各设备节点的选择状态为各设备节点的选择方案，包括：

7.根据权利要求6所述的联邦学习系统设备节点选择的方法，其特征在于，所述基于A3C算法，分别在Actor网络和Critic网络按照不同的梯度更新各自的网络参数，并确定对应的设备层的各设备节点的选择方案，包括：

在Actor网络中，基于第一梯度，更新Actor网络的参数；

在Critic网络中，基于第二梯度，更新Critic网络的参数；

8.一种联邦学习系统设备节点选择的电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述联邦学习系统设备节点选择的方法的步骤。

9.一种联邦学习系统设备节点选择的装置，其特征在于，包括：

目标确定模块，用于基于联邦学习系统的设备层中各设备节点的系统能耗和各设备节点输出结果的正确率，确定联邦学习系统的奖励函数；

策略选择模块，用于以联邦学习系统的奖励函数的累计值最大化为目标，确定设备层中各设备节点的选择方案，其中包括各设备节点的选择状态；

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述联邦学习系统设备节点选择的方法的步骤。