CN115564056B

CN115564056B - 节点选择方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115564056B
Application number: CN202211157096.3A
Authority: CN
Inventors: 于志刚; 刘家慧
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-12-08
Anticipated expiration: 2042-09-21
Also published as: CN115564056A

Abstract

本公开提供了一种节点选择方法、装置、电子设备及计算机可读存储介质，涉及联邦学习技术领域。该方法应用于联邦学习网络的中心节点，联邦学习网络还包括多个边缘节点，包括：获取第一节点选择模型，第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本；获取多个边缘节点的状态对应的第一状态数据；根据第一状态选择模型和第一状态数据，从多个边缘节点中确定参与联邦学习的第一边缘节点。基于优先级经验重放的采样方式选取训练第一节点选择模型的历史样本，可以使得第一节点选择模型在训练中较快收敛，提高了第一节点选择模型的训练效率，使得训练出的节点选择模型可以选取出高质量的边缘节点。

Description

节点选择方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及联邦学习技术领域，尤其涉及一种节点选择方法、装置、电子设备及计算机可读存储介质。

背景技术

在联邦学习技术领域中，中心节点向边缘节点下发模型训练任务，边缘节点完成模型训练任务后，将训练得到的模型参数向中心节点上报。中心节点将边缘节点上报的模型参数进行汇总并更新模型，之后，根据更新后的模型向边缘节点下发新的模型训练任务，直至完成对模型的训练。

不同的边缘节点在性能上具有一定的差异，性能上的差异使得不同边缘节点上报的模型参数在质量上具有差异，导致中心节点汇总出的全局模型的质量较差。因此，需要一种能够提高全局模型的质量的方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种节点选择方法、装置、电子设备及计算机可读存储介质。至少在一定程度上解决了相关技术中因边缘节点在性能上具有一定的差异而导致的全局模型质量差的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种节点选择方法，应用于联邦学习网络的中心节点，所述联邦学习网络还包括多个边缘节点，包括：获取第一节点选择模型，所述第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本；获取所述多个边缘节点的状态对应的第一状态数据；根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点。

在本公开的一个实施例中，还包括：获取奖励模型和成本数据，所述奖励模型包括时间成本模型、能耗成本模型和精度损失成本模型，所述成本数据包括时间成本数据、能耗成本数据，以及所述第一边缘节点的精度损失数据；根据所述奖励模型，计算所述成本数据对应的反馈奖励；构建所述反馈奖励对应的第一历史样本，将所述第一历史样本存入历史样本重放池；通过优先级经验重放的采样方式，从所述历史样本重放池存储的历史样本中获取第二历史样本；根据所述第二历史样本对所述第一节点选择模型的模型参数进行调整，得到第二节点选择模型。

在本公开的一个实施例中，所述根据所述奖励模型，计算所述成本数据对应的反馈奖励，包括：根据所述时间成本模型计算所述时间成本数据对应的时间成本；根据所述能耗成本模型计算所述能耗成本数据对应的能耗成本；根据所述精度损失成本模型计算所述精度损失数据对应的精度损失成本；根据所述时间成本、所述能耗成本和所述精度损失成本，确定所述反馈奖励。

在本公开的一个实施例中，所述第一节点选择模型包括评估网络，所述评估网络包括评论家critic网络；所述根据所述第二历史样本对所述第一节点选择模型的模型参数进行调整，包括：根据所述第二历史样本对所述critic网络的参数进行调整，得到所述第二节点选择模型。

在本公开的一个实施例中，还包括：在所述第一边缘节点完成联邦学习任务和参数上报的情况下，获取所述多个边缘节点对应的第二状态数据；根据第二节点选择模型和所述第二状态数据，从所述多个边缘节点中确定参与联邦学习的第二边缘节点。

在本公开的一个实施例中，所述第一节点选择模型包括评估网络，所述评估网络包括行动者actor网络；所述根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点，包括：将所述第一状态数据输入所述actor网络，通过所述actor网络确定所述第一状态数据对应的决策概率分布；随机从所述决策概率分布中确定出目标决策；确定所述目标决策指示的边缘节点为所述第一边缘的节点。

在本公开的一个实施例中，所述第二状态数据包括所述多个边缘节点的精度损失、可用计算资源、任务计算量、能耗速率、所述多个边缘节点与所述中心节点之间的传输速率、目标决策中的一个或多个。

根据本公开的另一个方面，提供一种节点选择装置，应用于联邦学习网络的中心节点，所述联邦学习网络还包括多个边缘节点，包括：获取模块，用于获取第一节点选择模型，所述第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本；所述获取模块，还用于获取所述多个边缘节点的状态对应的第一状态数据；确定模块，用于根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点。

在本公开的一个实施例中，所述获取模块，还用于获取奖励模型和成本数据，所述奖励模型包括时间成本模型、能耗成本模型和精度损失成本模型，所述成本数据包括时间成本数据、能耗成本数据，以及所述第一边缘节点的精度损失数据；所述装置还包括：计算模块，用于根据所述奖励模型，计算所述成本数据对应的反馈奖励；生成模块，用于构建所述反馈奖励对应的第一历史样本，将所述第一历史样本存入历史样本重放池；所述获取模块，还用于通过优先级经验重放的采样方式，从所述历史样本重放池存储的历史样本中获取第二历史样本；调整模块，用于根据所述第二历史样本对所述第一节点选择模型的模型参数进行调整，得到第二节点选择模型。

在本公开的一个实施例中，所述计算模块，用于根据所述时间成本模型计算所述时间成本数据对应的时间成本；根据所述能耗成本模型计算所述能耗成本数据对应的能耗成本；根据所述精度损失成本模型计算所述精度损失数据对应的精度损失成本；根据所述时间成本、所述能耗成本和所述精度损失成本，确定所述反馈奖励。

在本公开的一个实施例中，所述第一节点选择模型包括评估网络，所述评估网络包括评论家critic网络；所述调整模块，用于根据所述第二历史样本对所述critic网络的参数进行调整，得到所述第二节点选择模型。

在本公开的一个实施例中，所述获取模块，还用于在所述第一边缘节点完成联邦学习任务和参数上报的情况下，获取所述多个边缘节点对应的第二状态数据；所述确定模块，还用于根据第二节点选择模型和所述第二状态数据，从所述多个边缘节点中确定参与联邦学习的第二边缘节点。

在本公开的一个实施例中，所述第一节点选择模型包括评估网络，所述评估网络包括行动者actor网络；所述确定模块，用于将所述第一状态数据输入所述actor网络，通过所述actor网络确定所述第一状态数据对应的决策概率分布；随机从所述决策概率分布中确定出目标决策；确定所述目标决策指示的边缘节点为所述第一边缘的节点。

根据本公开的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任一所述的节点选择方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的节点选择方法。

根据本公开的又一个方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或所述计算机指令由处理器加载并执行，以使计算机实现上述任一所述的节点选择方法。

本公开的实施例所提供的技术方案至少包括以下有益效果：

本公开的实施例所提供的技术方案中，第一状态数据与多个边缘节点对应，进而第一节点选择模型通过第一状态数据指示的边缘节点的性能，可以确定具有高性能且性能差异小的第一边缘节点，进而根据第一边缘节点训练出的模型参数，可以汇总得到质量较高的全局模型。另外，基于优先级经验重放的采样方式选取历史样本，并使用该历史样本调整第一节点选择模型的模型参数，可以使得第一节点选择模型在训练中较快收敛，提高了第一节点选择模型的训练效率，使得训练出的节点选择模型可以选取出高质量的边缘节点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一个实施例中的节选选择系统的示意图；

图2示出本公开一个实施例中的节点选择方法流程图；

图3示出本公开一个实施例中对第一节点选择模型的参数进行更新的流程图；

图4示出本公开另一个实施例中的节点选择系统的示意图；

图5示出本公开另一个实施例中的节点选择方法流程图；

图6示出本公开一个实施例中的节点选择装置示意图；

图7示出本公开一个实施例中的电子设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

联邦学习，是一种可以通过多个边缘节点协同进行模型训练，得到全局最优模型的模型训练方式。边缘节点在参与模型训练时，样本数据保留在本地，从而保证数据的隐私性和安全性。在进行联邦学习时，中心节点根据当前的全局模型，向各个边缘节点下发训练任务，边缘节点利用本地的样本数据来执行训练任务，对模型进行训练，并在完成训练任务后将模型的参数向中心节点上报。中心节点对从各个边缘节点接收到的模型参数进行聚合汇总，并根据汇总结果更新全局模型，得到更新后的全局模型。之后，中心节点根据更新后的全局模型向各个边缘节点下发新的训练任务，直至全局模型达到预定要求。

然而，不同的边缘节点，由于本地数据、硬件资源的限制，难以兼顾模型训练时的高性能与高质量。例如，边缘节点的功率等限制会导致其收集的样本的质量较差，进而使得最终得到的全局模型质量较差。对此，本公开实施例提供了一种节点选择方法，利用节点选择模型，以及表示边缘节点状态、性能的状态数据来确定出高质量的目标边缘节点，并基于该目标边缘节点进行联邦学习，从而得到高质量的全局模型。

图1示出本公开实施例中一种节点选择系统结构的示意图，该系统可以应用本公开各种实施例中的节点选择方法或节点选择装置。如图1所示，该节点选择系统架构可以包括：中心节点101、多个边缘节点102。

其中，中心节点101可以通过网络等方式获取节点选择模型，并且中心节点101还可以通过网络，主动从多个边缘节点102处获取边缘节点的状态数据，还可以通过被动的方式接收多个边缘节点102发送的状态数据。中心节点101还可以向多个边缘节点102下发模型训练任务(联邦学习任务)，并接收多个边缘节点102完成训练后反馈的模型数据，以及对多个边缘节点102反馈的模型数据进行聚合汇总，以及利用聚合汇总后的模型参数更新全局模型。

多个边缘节点102可以应中心节点101的请求被动向中心节点101提供状态数据，还可以主动向中心节点101发送状态数据。多个边缘节点101可以接收中心节点下发的模型训练任务，并利用本地数据完成模型训练后将模型参数向中心节点101上传。

中心节点101与多个边缘节点102之间通过网络实现通信连接，该网络可以是有线网络，也可以是无线网络。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

中心节点101和多个边缘节点102可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备等。

中心节点101和多个边缘节点102还可以是服务器，可选地，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本领域技术人员可以知晓，图1中的多个边缘节点102的数量仅仅是示意性的，根据实际需要，可以具有任意数目的边缘节点。本公开实施例对此不作限定。

下面结合附图及实施例对本示例实施方式进行详细说明。

本公开实施例中提供了一种节点方法，该方法可以由任意具备计算处理能力的电子设备执行。例如，该电子设备为联邦学习网络的中心节点，且该联邦学习网络还包括多个边缘节点。

图2示出本公开实施例中一种节点选择方法流程图，如图2所示，本公开实施例中提供的节点选择方法包括如下S201至S203。

S201，获取第一节点选择模型，第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本。

其中，第一节点选择模型用于根据多个边缘节点的状态，生成从多个边缘节点中选取参与联邦学习的边缘节点的选取策略。第一节点选择模型可以是任意一个能够基于对象的状态数据，生成选取策略的网络模型。例如，第一节点选择模型是由actor(行动者)网络、critic(评论家)网络、目标actor网络和critic网络组成的网络模型。对于如何获取第一节点选择模型，本公开实施例不做限制。例如，可以通过网络获取第一节点选择模型。再例如，还可以在中心节点中直接构建第一节点选择模型。

对优先级经验重放进行说明之前，需要先对经验重放进行说明。经验重放使用一个固定大小的经验池(内存)存储历史样本(经验数据)，并每次从该内存中随机选取固定数目的历史样本更新网络参数。显然，因为经验回放机制把新旧样本混合在一起更新网络参数，样本之间的时序相关性被极大减弱。由于更新网络的样本从经验池中随机选择得到，新旧样本之间具备同样被选中的可能，也就是说，在更新网络参数时，新旧样本的重要性是相同的。然而，在网络进行学习时，高回报的样本更有利于网络的学习，使用具有高回报的样本可以提高网络的训练效率和提高训练得到的网络的质量。

优先级经验重放基于时间差分偏差(Temporal Difference Error)来衡量每个样本的学习价值，通过时间差分偏差的绝对值对经验池里的经验进行排序，并为时间差分偏差的绝对值更大的样本置于更高的优先级。基于优先级经验重放的采样方式，选取用于调整节点选择模型的历史样本，可以提高节点选择模型的训练效率及训练出的节点选择模型的质量。

S202，获取多个边缘节点的状态对应的第一状态数据。

其中，边缘节点的状态受到自身硬件配置、网络状态等因素的影响，进而不同的边缘节点在同一时刻的状态存在一定的差异。例如，A边缘节点与B边缘节点在同一时刻通过网络向中心节点传输数据的速率不同。再例如，A边缘节点与B边缘节点由于硬件配置及应用的软件不同，使得A边缘节点与B边缘节点的精度损失不同。

第一状态数据能够表示该多个边缘节点在中心节点获取第一状态数据时，该多个边缘节点的部分性能和/或配置的状态。在一些实施例中，第一状态数据包括中心节点获取第一状态数据时，多个边缘节点的精度损失、可用计算资源、任务计算量、能耗速率、所述多个边缘节点与所述中心节点之间的传输速率、上一轮的决策中的一个或多个。

在一个实施例中，能耗速率可以是表示边缘节点执行一个或多个CPU(CentralProcessing Unit，中央处理器)周期产生的能耗。上一轮的决策是节点选择模型在上一轮训练任务下发之前，根据多个边缘节点的状态生成的决策，该决策用于指示中心节点选择用于参与联邦学习的边缘节点。

在一个实施例中，获取多个边缘节点的状态对应的第一状态数据，可以包括：多个边缘节点主动将状态数据上报中心节点，中心节点接收到该状态数据后，完成获取第一状态数据。在另一个实施例中，获取多个边缘节点的状态对应的第一状态数据，可以包括：中心节点主动从多个边缘节点处采集边缘节点的状态数据。其中，采集状态数据的方式，可以是中心节点向边缘节点发送状态数据采集请求，边缘节点接收到该数据采集请求后，向中心节点上报相应的状态数据。

S203，根据第一节点选择模型和第一状态数据，从多个边缘节点中确定参与联邦学习的第一边缘节点。

其中，参与联邦学习的第一边缘节点，可以用于参与接下来的至少一轮联邦学习任务。

在一个实施例中，根据第一节点选择模型和第一状态数据，从多个边缘节点中确定参与联邦学习的第一边缘节点，可以包括：将第一状态数据输入第一节点选择模型，由第一节点选择模型根据第一状态数据输出目标决策；确定该目标决策对应的第一边缘节点。例如，多个边缘节点包括7个边缘节点，边缘节点1-边缘节点7，目标决策可以指示边缘节点1、边缘节点4、边缘节点5、边缘节点7。再例如，目标决策可以为一个7维向量，每一个维度对应一个边缘节点，每一个维度的取值代表对相应边缘节点的选择。例如，目标决策为(1,0,0,1,1,0,1)，第一维度的取值为1，指示边缘节点1属于第一边缘节点，第二维度取值为0，指示边缘节点2未被选中参与联邦学习，该目标决策(1,0,0,1,1,0,1)指示选出的第一边缘节点为边缘地点1、边缘节点4、边缘节点5、边缘节点7。

在一个实施例中，第一节点选择模型包括评估网络，评估网络包括actor网络，根据第一节点选择模型和第一状态数据，从多个边缘节点中确定参与联邦学习的第一边缘节点，可以包括：将第一状态数据输入actor网络，通过actor网络确定第一状态数据对应的决策概率分布；随机从决策概率分布中确定出目标决策；确定目标决策指示的边缘节点为第一边缘的节点。

本公开的实施例所提供的技术方案中，第一状态数据与多个边缘节点对应，进而第一节点选择模型通过第一状态数据指示的边缘节点的性能，可以确定具有高性能且性能差异小的第一边缘节点，进而根据第一边缘节点训练出的模型参数，可以汇总得到质量较高的全局模型。另外，基于优先级经验重放的采样方式选取历史样本，并使用该历史样本调整第一节点选择模型的模型参数，可以使得第一节点选择模型在训练中较快收敛，提高了第一节点选择模型的训练效率，使得训练出的节点选择模型可以选取出高质量的边缘节点。此外，基于随机策略梯度的方式，从决策概率分布中随机确定出目标决策，并利用该目标决策对节点选择模型的参数进行调整，可以避免节点选择模型在训练过程中陷入局部最优解。

在另一个实施例中，在图2对应的实施例的S203之后，本公开实施例提供的节点选择方法，还包括对第一节点选择模型的参数进行更新的过程。如图3所示，本公开实施例提供的对第一节点选择模型的参数进行更新的过程包括S301和S305。

S301，获取奖励模型和成本数据，奖励模型包括时间成本模型、能耗成本模型和精度损失成本模型，成本数据包括时间成本数据、能耗成本数据，以及第一边缘节点的精度损失数据。

在一些实施例中，第一边缘节点接收到中心节点下发的联邦学习任务后，执行该联邦学习任务，并且记录执行该联邦学习任务的开始时间和完成时间。通过计算完成时间和开始时间之间的差值，可以得到第一边缘节点完成联邦学习任务所需的时间成本，相应地，时间成本模型包括本地时间成本模型，该本地时间成本模型用于根据该完成时间和该开始时间，计算出第一边缘节点完成联邦学习任务所需的本地时间成本T₁(t)。也就是说，时间成本数据可以包括该开始时间和该完成时间。在一些实施例中，获取成本数据，可以包括：接收由第一边缘节点发送的开始时间和完成时间。

在一些实施例中，第一边缘节点完成联邦学习任务后，将相应的模型参数进行上报，携带该模型参数的消息中还携带第一边缘节点向中心节点发送该消息的时间。中心节点接收到该消息后，根据消息中携带的发送时间以及接收到该消息的接收时间，确定出第一边缘节点上报参数所需的时间成本，即通讯时间成本。相应地，时间成本模型包括通讯时间成本模型，该通讯时间成本模型用于根据该发送时间和该接收时间，计算出第一边缘节点上报模型参数所需的通讯时间成本T₂(t)。也就是说，时间成本数据可以还包括该发送时间和该接收时间。在一些实施例中，获取成本数据，可以还包括：接收第一边缘接点用于上报模型参数的消息；确定该消息的发送时间及接收时间。

在另一些实施例中，时间成本数据还可以使用其他数据来表示。例如，第一边缘节点完成联邦学习任务所需的时间成本，可以使用第一边缘节点的任务计算量与可用计算资源的比值表示。相应地，本地时间成本模型用于计算该任务计算量与该可用计算资源之间的比值，得到本地时间成本。也就是说，时间成本数据包括第一边缘节点对应的任务计算量与可用计算资源。对于任务计算量和可用计算资源的获取方式在图2对应的实施例的S202中已经说明，此处不再赘述。在另一些实施例中，第一边缘节点上传模型参数所需要的时间成本，可以使用第一边缘节点的传输速率的倒数表示。相应地，通讯时间成本模型用于计算该传输速率的倒数，得到本地时间成本。也就是说，时间成本数据包括传输速率。对于传输速率的获取方式在图2对应的实施例的S202中已经说明，此处不再赘述。

在一些实施例中，能耗成本模型包括本地能耗成本模型，该本地能耗成本模型用于根据能耗功率，以及第一边缘节点完成联邦学习任务使用的时间，计算出本地能耗成本E₁(t)。也就是说，能耗成本数据包括能耗功率和第一边缘节点完成联邦学习任务使用的时间，获取成本数据，可以还包括：获取第一边缘节点的能耗功率和完成联邦学习任务使用的时间。

在一些实施例中，能耗成本模型还包括通讯能耗成本模型，该通讯能耗成本模型用于根据能耗功率，以及第一边缘节点发送参数上报消息到中心节点接收到该消息的时间，确定出第一边缘节点上报模型参数的通讯能耗成本E₂(t)。也就是说，能耗成本数据还包括能耗功率和第一边缘节点完成联邦学习任务使用的时间，获取成本数据，可以还包括：获取能耗功率，以及第一边缘节点发送参数上报消息到中心节点接收到该消息的时间。

在另一些实施例中，能耗成本模型用于根据第一边缘节点的能耗功率，以及任务计算量，进行乘处理，得到能耗成本。也就是说，能耗成本数据包括任务计算量和能耗功率。获取成本数据，可以还包括：获取能耗功率和任务计算量。获取能耗功率和任务计算量的实现方式，在图2对应的实施例的S202中已经说明，此处不再赘述。

第一边缘节点的精度损失与第一边缘节点的硬件配置，及使用的软件配置有关。在一个实施例中，第一边缘节点可以向中心节点发送相应的精度损失数据。精度损失模型用于根据第一边缘节点的精度损失数据，确定精度损失成本。

S302，根据奖励模型，计算成本数据对应的反馈奖励。

其中，奖励模型可以包括：时间成本模型、能耗成本模型和精度损失成本模型。在一些实施例中，根据奖励模型，计算成本数据对应的反馈奖励，可以包括：根据时间成本模型计算时间成本数据对应的时间成本；根据能耗成本模型计算能耗成本数据对应的能耗成本；根据精度损失成本模型计算精度损失数据对应的精度损失成本；根据时间成本、能耗成本和精度损失成本，确定反馈奖励。

时间成本模型计算时间成本的方式如公式1所示。

T(t)＝T₁(t)+T₂(t) (1)

其中，T(t)为时间成本模型在第一边缘节点完成本轮联邦学习任务后，根据时间成本数据生成的时间成本。T₁(t)可以是全部第一边缘节点对应的本地时间成本之和，还可以是全部第一边缘节点对应的本地时间成本之和的平均值，还可以是对全部第一边缘节点对应的本地时间成本之和做其他数学处理后的值，本公开实施例对此不做限制。T₂(t)可以是全部第一边缘节点对应的通讯时间成本之和，还可以是全部第一边缘节点对应的通讯时间成本之和的平均值，还可以是对全部第一边缘节点对应的通讯时间成本之和做其他数学处理后的值，本公开实施例对此不做限制。需要说明的是，T₁(t)和T₂(t)是采用同一种数学处理方式得到的值。

以能耗成本模型包括本地能耗成本模型和通讯能耗成本模型为例，该能耗成本模型计算能耗成本的方式如公式2所示。

E(t)＝E₁(t)+E₂(t) (2)

其中，E(t)为能耗成本模型在第一边缘节点完成本轮联邦学习任务后，根据能耗成本数据生成的能耗成本。E₁(t)可以是全部第一边缘节点对应的本地能耗成本之和，还可以是全部第一边缘节点对应的本地能耗成本之和的平均值，还可以是对全部第一边缘节点对应的本地能耗成本之和做其他数学处理后的值，本公开实施例对此不做限制。E₂(t)可以是全部第一边缘节点对应的通讯能耗成本之和，还可以是全部第一边缘节点对应的通讯能耗成本之和的平均值，还可以是对全部第一边缘节点对应的通讯能耗成本之和做其他数学处理后的值，本公开实施例对此不做限制。需要说明的是，E₁(t)和E₂(t)是采用同一种数学处理方式得到的值。

在一些实施例中，精度损失成本模型计算精度损失成本的方式，可以是对全部第一边缘节点对应的精度损失求和，还可以是对全部第一边缘节点对应的精度损失求和后取平均值，还可以是对全部第一边缘节点对应的精度损失求和后做其他数学处理，本公开实施例对此不做限制。

在一些实施例中，根据时间成本、能耗成本和精度损失成本，确定反馈奖励的方式，可以如公式3所示。

R^t(t)＝-(w₁E(t)+w₂T(t)+w₃L(t)) (3)

其中，t用于表示计算反馈奖励的轮次；R^t(t)为奖励模型在第一边缘节点完成本轮联邦学习任务后，根据成本数据生成的反馈奖励；L(t)为精度损失成本；w₁、w₂、w₃为预定参数，w₁、w₂、w₃的具体取值，可根据经验设置。

S303，构建反馈奖励对应的第一历史样本，将第一历史样本存入历史样本重放池。

中心节点根据奖励模型生成相应的反馈奖励后，重新获取当前多个边缘节点的状态，得到第三状态数据；再构建包括第一状态数据、第三状态数据、反馈奖励、目标决策的第一历史样本，之后，将第一历史样本存入历史样本重放池。

S304，通过优先级经验重放的采样方式，从历史样本重放池存储的历史样本中获取第二历史样本。

其中，第二历史样本可以是第一历史样本，也可以是在第一历史样本之前存入历史样本重放池的中的历史样本，可根据采样得到的历史样本确定。

S305，根据第二历史样本对第一节点选择模型的模型参数进行调整，得到第二节点选择模型。

其中，根据第二历史样本对第一节点选择模型的模型参数进行调整，得到第二节点选择模型的具体实现，将在图5对的实施例中进行说明，此处暂不赘述。

在一些实施例中，根据第二历史样本对第一节点选择模型的模型参数进行调整，得到第二节点选择模型之后，还可以包括：在第一边缘节点完成联邦学习任务和参数上报的情况下，获取多个边缘节点对应的第二状态数据；根据第二节点选择模型和第二状态数据，从多个边缘节点中确定参与联邦学习的第二边缘节点。

本公开实施例提供的技术方案，利用包括时间成本模型、能耗成本模型和精度损失成本模型的奖励模型，计算反馈奖励，并利用该反馈奖励生成用于调整节点选择模型的历史样本，使得训练出的节点选择模型，能够生成指示具有较高数据质量和较低通讯消耗的边缘节点的决策。从而使得中心节点能够根据该决策选择出高质量的边缘节点参与联邦学习，提高了联邦学习得到的全局模型的质量，提高了联邦学习的效率。

为便于理解本公开实施例提供的技术方案，下面将结合图4所示的节点选择系统，以及图2和图3对应的实施例，来说明节点选择的过程。图4中，中心节点402可以获取多个边缘节点401的状态对应的第一状态数据S^t，以及成本数据。在一些实施例中，节点选择模型403、历史样本重放池406均部署在中心节点402中。在另一些实施例中，节点选择模型403还可以部署在其他设备中。

如图5所示，本公开另一个实施例中的节点选择方法包括S501至S503。

S501，中心节点将获取到的第一状态数据输入节点选择模型。

中心节点402从多个边缘节点401处获取到S^t后，将S^t输入节点选择模型403。节点选择模型403包括的评估网络404中的actor网络405首先接收到S^t，并根据S^t生成相应的决策概率分布，再随机从决策概率分布中确定出决策a^t。

S502，中心节点接收节点选择模型输出的决策，根据该决策选择相应的边缘节点执行联邦学习任务，并在完成联邦学习任务后生成相应的奖励。

中心节点402接收actor网络405输出的a^t，并根据a^t选择相应的边缘节点执行联邦学习任务，在被选出的边缘节点完成该联邦学习任务后，生成本轮节点选择的决策对应的奖励R^t，以及重新获取多个边缘节点401对应的状态数据S^t+1。将(a^t,R^t,S^t,S^t+1)作为本次节点选择对应的历史样本存入历史样本重放池406。

S503，中心节点基于优先级经验重放的采样方式，从历史样本重放池存储的历史样本中选择出第二历史样本，根据第二历史样本对节点选择模型的模型参数进行调整，得到调整后的节点选择模型。

在一些实施例中，根据第二历史样本对节点选择模型的模型参数进行调整，可以包括：根据第二历史样本对critic网络411的参数进行调整，得到调整后的节点选择模型。

中心节点402从历史样本重放池406中选择出第二历史样本407，该第二历史样407本包括(a^p，R^p，S^p，S^p+1)，之后，将S^p+1输入目标网络408中的目标actor网络409，将R^p输入最小化第一函数412。目标actor网络409根据S^p+1生成相应的决策a^p+1和再将a^p+1输入目标critic网络410，以及将/>输入最小化第一函数412。其中，为目标actor网络409对应的函数。目标critic网络410根据a^p+1生成对应的输出并将/>输入最小化第一函数412，其中/>为目标critic网络410对应的函数。另外，评估网络404中包括的critic网络411根据actor网络405输出的a^t，生成相应的D_ψ(a^t，S^t)，并将D_ψ(a^t，S^t)输入最小化第一函数412，其中D_ψ(，)为critic网络411对应的函数。/>

在一些实施例中，最小化第一函数412对Rp、和D_ψ(a^t，S^t)的处理如公式4和公式5所示。

其中，γ和α为预定系数，可根据经验设置；KL[，||，]表示Kullback-Leibler散度(KL散度)。最小化第一函数412对Loos(ψ)进行最小化处理，之后，中心节点根据Loos(ψ)对critic网络411的参数ψ进行更新。

利用更新后的critic网络411重新生成D_ψ(a^t，S^t)，并输入最大化第二函数413。另外，将actor网络405根据S^t生成的π_μ(a^t|S^t)输入最大化第二函数413。最大化第二函数413对D_ψ(a^t，S^t)和π_μ(a^t|S^t)处理如公式6所示。

J(μ)＝E[D_ψ(a^t，S^t)-βlogπ_μ(a^t|S^t)] (6)

其中，β为预定系数，可根据经验设置。最大化第二函数413对J(μ)进行最大化处理，之后，中心节点根据J(μ)对actor网络405的参数μ进行更新。

完成对actor网络405的参数μ，以及critic网络411的参数ψ的更新后，相应地完成了对节点选择模型的调整，得到调整后的节点选择模型。

在一些实施例中，得到调整后的节点选择模型后，中心节点402重新获取多个边缘节点401的状态对应的第二状态数据，并由调整后的节点选择模型根据第二状态数据确定对应的决策。

本公开的实施例所提供的技术方案中，基于优先级经验重放的采样方式选取历史样本，并使用该历史样本调整节点选择模型的模型参数，可以使得节点选择模型在训练中较快收敛，提高了节点选择模型的训练效率。此外，基于随机策略梯度的方式，从决策概率分布中随机确定出目标决策，并利用该目标决策对节点选择模型的参数进行调整，可以避免节点选择模型在训练过程中陷入局部最优解。

基于同一发明构思，本公开实施例中还提供了一种节点选择装置，如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图6示出本公开实施例中一种节点装置示意图，如图6所示，该装置应用于联邦学习网络的中心节点，联邦学习网络还包括多个边缘节点，该装置包括：获取模块601，用于获取第一节点选择模型，第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本；获取模块601，还用于获取多个边缘节点的状态对应的第一状态数据；确定模块602，用于根据第一节点选择模型和第一状态数据，从多个边缘节点中确定参与联邦学习的第一边缘节点。

在本公开的一个实施例中，获取模块601，还用于获取奖励模型和成本数据，奖励模型包括时间成本模型、能耗成本模型和精度损失成本模型，成本数据包括时间成本数据、能耗成本数据，以及第一边缘节点的精度损失数据；装置还包括：计算模块603，用于根据奖励模型，计算成本数据对应的反馈奖励；生成模块，用于构建反馈奖励对应的第一历史样本，将第一历史样本存入历史样本重放池；获取模块601，还用于通过优先级经验重放的采样方式，从历史样本重放池存储的历史样本中获取第二历史样本；调整模块604，用于根据第二历史样本对第一节点选择模型的模型参数进行调整，得到第二节点选择模型。

在本公开的一个实施例中，计算模块603，用于根据时间成本模型计算时间成本数据对应的时间成本；根据能耗成本模型计算能耗成本数据对应的能耗成本；根据精度损失成本模型计算精度损失数据对应的精度损失成本；根据时间成本、能耗成本和精度损失成本，确定反馈奖励。

在本公开的一个实施例中，第一节点选择模型包括评估网络，评估网络包括critic网络；调整模块604，用于根据第二历史样本对critic网络的参数进行调整，得到第二节点选择模型。

在本公开的一个实施例中，获取模块601，还用于在第一边缘节点完成联邦学习任务和参数上报的情况下，获取多个边缘节点对应的第二状态数据；确定模块，还用于根据第二节点选择模型和第二状态数据，从多个边缘节点中确定参与联邦学习的第二边缘节点。

在本公开的一个实施例中，第一节点选择模型包括评估网络，评估网络包括actor网络；确定模块602，用于将第一状态数据输入actor网络，通过actor网络确定第一状态数据对应的决策概率分布；随机从决策概率分布中确定出目标决策；确定目标决策指示的边缘节点为第一边缘的节点。

在本公开的一个实施例中，第二状态数据包括多个边缘节点的精度损失、可用计算资源、任务计算量、能耗速率、多个边缘节点与中心节点之间的传输速率、目标决策中的一个或多个。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“具体实施方式”部分中描述的根据本公开各种示例性实施方式的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备740(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“具体实施方式”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可选地，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

在具体实施时，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围由所附的权利要求指出。

Claims

1.一种节点选择方法，其特征在于，应用于联邦学习网络的中心节点，所述联邦学习网络还包括多个边缘节点，包括：

获取第一节点选择模型，所述第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本，其中，每一历史样本包括历史上做出的目标决策和反馈奖励，以及历史上获取的第一状态数据及对应的第二状态数据；

获取所述多个边缘节点的状态对应的第一状态数据；

根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点；

其中，所述第一节点选择模型包括评估网络，所述评估网络包括行动者actor网络；所述根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点，包括：

将所述第一状态数据输入所述actor网络，通过所述actor网络确定所述第一状态数据对应的决策概率分布；

随机从所述决策概率分布中确定出目标决策；

确定所述目标决策指示的边缘节点为所述第一边缘的节点。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取奖励模型和成本数据，所述奖励模型包括时间成本模型、能耗成本模型和精度损失成本模型，所述成本数据包括时间成本数据、能耗成本数据，以及所述第一边缘节点的精度损失数据；

根据所述奖励模型，计算所述成本数据对应的反馈奖励；

构建所述反馈奖励对应的第一历史样本，将所述第一历史样本存入历史样本重放池；

通过优先级经验重放的采样方式，从所述历史样本重放池存储的历史样本中获取第二历史样本；

根据所述第二历史样本对所述第一节点选择模型的模型参数进行调整，得到第二节点选择模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述奖励模型，计算所述成本数据对应的反馈奖励，包括：

根据所述时间成本模型计算所述时间成本数据对应的时间成本；

根据所述能耗成本模型计算所述能耗成本数据对应的能耗成本；

根据所述精度损失成本模型计算所述精度损失数据对应的精度损失成本；

根据所述时间成本、所述能耗成本和所述精度损失成本，确定所述反馈奖励。

4.根据权利要求2所述的方法，其特征在于，所述第一节点选择模型包括评估网络，所述评估网络包括评论家critic网络；所述根据所述第二历史样本对所述第一节点选择模型的模型参数进行调整，包括：

根据所述第二历史样本对所述critic网络的参数进行调整，得到所述第二节点选择模型。

5.根据权利要求4所述的方法，其特征在于，还包括：

在所述第一边缘节点完成联邦学习任务和参数上报的情况下，获取所述多个边缘节点对应的第二状态数据；

根据第二节点选择模型和所述第二状态数据，从所述多个边缘节点中确定参与联邦学习的第二边缘节点。

6.根据权利要求5所述的方法，其特征在于，所述第二状态数据包括所述多个边缘节点的精度损失、可用计算资源、任务计算量、能耗速率、所述多个边缘节点与所述中心节点之间的传输速率、目标决策中的一个或多个。

7.一种节点选择装置，其特征在于，应用于联邦学习网络的中心节点，所述联邦学习网络还包括多个边缘节点，包括：

获取模块，用于获取第一节点选择模型，所述第一节点选择模型基于优先级经验重放的采样方式选取用于调整模型参数的历史样本，其中，每一历史样本包括历史上做出的目标决策和反馈奖励，以及历史上获取的第一状态数据及对应的第二状态数据；

所述获取模块，还用于获取所述多个边缘节点的状态对应的第一状态数据；

确定模块，用于根据所述第一节点选择模型和所述第一状态数据，从所述多个边缘节点中确定参与联邦学习的第一边缘节点；

其中，所述第一节点选择模型包括评估网络，所述评估网络包括行动者actor网络；所述确定模块，用于将所述第一状态数据输入所述actor网络，通过所述actor网络确定所述第一状态数据对应的决策概率分布；随机从所述决策概率分布中确定出目标决策；确定所述目标决策指示的边缘节点为所述第一边缘的节点。

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6中任意一项所述节点选择方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任意一项所述的节点选择方法。