CN112668128A - 联邦学习系统中终端设备节点的选择方法及装置 - Google Patents

联邦学习系统中终端设备节点的选择方法及装置 Download PDF

Info

Publication number
CN112668128A
CN112668128A CN202011542477.4A CN202011542477A CN112668128A CN 112668128 A CN112668128 A CN 112668128A CN 202011542477 A CN202011542477 A CN 202011542477A CN 112668128 A CN112668128 A CN 112668128A
Authority
CN
China
Prior art keywords
terminal equipment
model
node selection
federated learning
equipment node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011542477.4A
Other languages
English (en)
Other versions
CN112668128B (zh
Inventor
杨超
董承伟
雷振江
田小蕾
杨秀峰
马天琛
马莉莉
方思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Materials Branch of State Grid Liaoning Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Materials Branch of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Materials Branch of State Grid Liaoning Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011542477.4A priority Critical patent/CN112668128B/zh
Publication of CN112668128A publication Critical patent/CN112668128A/zh
Application granted granted Critical
Publication of CN112668128B publication Critical patent/CN112668128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种联邦学习系统中终端设备节点的选择方法及装置。其中,该方法包括:确定对应终端设备节点选择的测试准确率最优化目标模型;获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应测试准确率和时延约束的终端设备节点选择策略。采用本发明公开的联邦学习系统中终端设备节点的选择方法,能够在保证联邦学习性能的同时,实现终端设备资源利用率与能耗的联合优化,合理选择终端设备集合参与联邦学习模型聚合,有效提高了联邦学习的效率和准确性。

Description

联邦学习系统中终端设备节点的选择方法及装置
技术领域
本发明涉及计算机应用技术领域,具体涉及一种联邦学习系统中终端设备节点的选择方法和装置。另外,还涉及一种电子设备及非暂态计算机可读存储介质。
背景技术
近年来,随着移动物联网设备的大量使用,越来越多的机器学习应用得以在网络边缘侧普及。传统的将原始数据上传至集中式服务器进行模型训练的方式存在诸如高传输时延、用户隐私泄露等的弊端。为解决上述问题,基于联邦学习的分布式模型训练架构应运而生。在此模式下,终端设备可以利用自身数据在本地完成训练任务,然后将模型参数发送至服务器进行模型聚合。由于上传的模型参数大小相比于原始数据明显减小,因此能有效降低数据传输成本,同时保护用户隐私。
然而,实践中终端设备的数据集大小和质量往往是不同的,使得本地模型的训练质量也存在差异。同时,终端设备多样异构的计算资源和传输时间也对联邦学习的性能和效率产生较大影响。因此,如何合理选择设备集合参与模型聚合,以提高联邦学习效率和准确性成为本领域亟待解决的问题。
发明内容
为此,本发明提供一种联邦学习系统中终端设备节点的选择方法及装置,以解决现有技术中存在的仅仅注于联邦学习本身,未考虑终端设备的资源及训练过程的设备能耗等因素,导致联邦学习效率和准确性较差的问题。
本发明提供一种联邦学习系统中终端设备节点的选择方法,包括:确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;
获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;
所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
进一步的,所述满足预设的约束条件,具体包括:满足预设的终端设备能耗约束,并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。
进一步的,所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型;
所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。
进一步的,所述当前环境状态数据包括:联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略。
进一步的,所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后,触发执行预设的更新操作;在更新操作过程中,所述多个线程停止采集数据,并在更新操作完成后,所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。
进一步的,所述的联邦学习系统中终端设备节点的选择方法,还包括:采用正则化方式限制所述终端设备节点选择策略对应的更新幅度;其中,所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。
进一步的,所述总体损失函数为所述终端设备节点完成训练的测试数据集对应的损失函数的总和。
相应的,本发明还提供一种联邦学习系统中终端设备节点的选择装置,包括:
最优化目标模型确定单元,用于确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;
节点选择策略确定单元,用于获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练;所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
进一步的,所述满足预设的约束条件,具体包括:满足预设的终端设备能耗约束,并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。
进一步的,所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型;
所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。
进一步的,所述当前环境状态数据包括:联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略。
进一步的,所述的联邦学习系统中终端设备节点的选择装置,还包括:策略更新单元;所述策略更新单元用于所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后,触发执行预设的更新操作;在更新操作过程中,所述多个线程停止采集数据,并在更新操作完成后,所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。
进一步的,所述的联邦学习系统中终端设备节点的选择装置,还包括:更新幅度限制单元,用于采用正则化方式限制所述终端设备节点选择策略对应的更新幅度;其中,所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。
进一步的,所述总体损失函数为所述终端设备节点完成训练的测试数据集对应的损失函数的总和。
相应的,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。
相应的,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。
采用本发明所述的联邦学习系统中终端设备节点的选择方法,通过确定对应终端设备节点选择的测试准确率最优化目标模型,并基于终端设备节点选择模型进行求解运算,能够在保证联邦学习性能的同时,实现终端设备资源利用率与能耗的联合优化,合理选择终端设备集合参与联邦学习模型聚合,有效提高了联邦学习的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的一种联邦学习系统中终端设备节点的选择方法的流程示意图;
图2为本发明实施例提供的一种联邦学习系统中终端设备节点的选择方法对应的联邦学习流程示意图;
图3为本发明实施例提供的一种联邦学习系统中终端设备节点的选择装置的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的联邦学习系统中终端设备节点的选择方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的联邦学习系统中终端设备节点的选择方法的流程示意图,具体实现过程包括以下步骤:
步骤101:确定对应终端设备节点选择的测试准确率最优化目标模型。
具体的,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率。所述满足预设的约束条件,具体包括:满足预设的终端设备能耗约束,并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。需要说明的是,在具体实施过程中,所述的目标约束条件还可包括终端设备训练的数据集质量及规模、终端设备的通信能力等约束条件,在此不做具体限定。
在具体实施过程中,首先构建联邦学习网络模型,所述联邦学习网络模型由终端设备、微基站、宏基站及其对应的MEC(Mobile Edge Computer)服务器组成。宏基站内的第一MEC服务器具有强大的计算和通信资源。可令Z表示微基站内第二MEC服务器集合,每一个第二MEC服务器z∈Z具有相应的计算能力,并通过与其相连的基站来覆盖数个终端设备。终端设备的集合用D表示,可令Hz,d={xz,d,yz,d}表示被第二MEC服务器z覆盖的终端设备d的样本数据集。针对诸如路径选择、图像识别等联邦学习任务i∈I,其目的是从终端设备的样本数据集合Hz,d={xz,d,yz,d}中学习与任务相关的联邦学习模型M。因此,联邦学习任务可以被定义为
Figure BDA0002849893300000071
其中,Zi和Di分别表示与联邦学习任务i相关的第二MEC服务器和终端设备的集合,Ci为该联邦学习模型对应处理数据集中一组数据所需的CPU周期数,
Figure BDA0002849893300000072
为该联邦学习的初始模型。
所述联邦学习网络模型对应的联邦学习流程如图2所示,主要包括:步骤201:模型的本地训练;步骤202:模型权值及参数的上传;203:参数上传后模型的聚合;步骤204:聚合后新的参数的下发。
步骤201:模型的本地训练。
步骤202:模型权值及参数的上传。
其中,所有参与当前联邦学习任务的终端设备的数据集所对应的函数可以定义为:
Figure BDA0002849893300000073
上式中,z表示第二MEC服务器;d表示第二MEC服务器覆盖的终端设备;Hz,d表示终端设备的样本数据集。
终端设备d在进行模型的本地训练时的损失函数lz,d(xz,d,yz,d;wz,d)课定义为其在样本数据集Hz,d上的预测值与实际值之差,因此联邦学习任务i在所有样本数据集上对应的损失函数可以定义公式如下:
Figure BDA0002849893300000074
上式中,w表示联邦学习过程中当前要训练的模型的权值,|Hi|该联邦学习任务样本数据集的大小。
本发明中,联邦学习的目的是通过最小化联邦学习任务的损失函数L(w)来优化全局模型参数,具体可表示公式如下:
w=argminL(w) (3)
具体的,本发明中联邦学习的参数对应的更新方法为随机梯度下降(StochasticGradient Descent,SGD),即每次随机选择数据集中的一条数据{xz,d,yz,d}进行更新,该方法能够大大降低了计算量。但是,由于其随机性使得本地模型需要进行足够的本地训练量以保证模型质量。具体模型参数的更新可表示公式如下:
Figure BDA0002849893300000081
其中:η为模型参数更新时的学习率;n∈N表示模型训练的迭代次数。
203:参数上传后模型的聚合。
当上传的本地模型参数达到一定数量或者迭代次数后,宏基站处的第一MEC服务器将对得到的本地模型执行全局模型聚合,具体的权值聚合表示如下:
Figure BDA0002849893300000082
其中:|Hz,d|表示终端设备d参与联邦学习任务的数据集大小,|Hi|表示所有参与当前联邦学习任务的终端设备的数据集之和。具备更大数据集的终端设备得到更大的权值。
步骤204:聚合后新的参数的下发。
在具体实施过程中,联邦学习模型训练完成后,执行本步骤实现新的参数的下发。
在上述联邦学习训练过程中,网络边缘侧终端设备节点的选择受诸多因素影响:首先,终端设备差异化的计算和通信能力直接影响本地训练和数据传输的时延;其次终端设备的训练质量、数据集质量和规模都对联邦学习性能产生很大的影响;此外,边缘终端设备能量有限,在参与训练任务时能耗也需要得到适当的控制。因此,本发明需要首先确定对应节点选择的能耗感知的准确率最优问题模型,实现选择合适的终端设备节点。
针对准确率:对于一个联邦学习任务i∈I,其训练质量可定义为本地终端设备完成N次训练后的测试准确率,本发明具体使用测试数据集的损失函数之和来表示测试准确率,公式如下:
Figure BDA0002849893300000091
针对设备能耗:终端设备的能耗由本地训练能耗和参数传输能耗共同组成。终端设备将本地与微基站间的传输速率可表示为:
Figure BDA0002849893300000092
上式中,B表示终端设备与微基站间的可用带宽;Gd表示终端设备d与微基站之间的信道增益;pd表示终端设备d的传输功率;N0表示噪声功率谱密度。
因此,计算终端设备将本地模型参数上传至微基站的传输时间的公式为:
Figure BDA0002849893300000093
上式中,ωz,d′表示终端设备d上待传输的本地模型参数。
进一步的,终端设备用于本地模型训练的能耗公式可表示为:
Figure BDA0002849893300000094
上式中,|Hz,d|Ci表示完成终端d上的联邦学习任务i所需的CPU周期数目;
Figure BDA0002849893300000095
表示终端设备上处理单个CPU周期的能耗;cz,d表示终端设备执行联邦学习任务时的CPU频率;γ表示由开关电容确定的常数。
Figure BDA0002849893300000096
因此,系统中全部终端设备的能耗公式可表示为:
Figure BDA0002849893300000097
综上,准确率最优的节点选择问题模型对应算法公式可以表示为:
Figure BDA0002849893300000101
式中,具体参数表示可参见上述内容,在此不再重复赘述。
在具体实施过程中,对于一个联邦学习任务i∈I,节点选择问题可以概括为每次迭代时选择节选集Zi∈Z,使得本次训练的损失函数最小,同时将终端能耗控制在预设范围内。
步骤102:获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略。
具体的,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型。所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后,触发执行预设的更新操作;在更新操作过程中,所述多个线程停止采集数据,并在更新操作完成后,所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。其中,所述当前环境状态数据可包括联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略等。
在具体实施过程中,由于对应终端设备节点选择策略的梯度算法的关键在于更新步长,若更新步长选取不当,更新参数后对应的新策略是一个更不好的策略,当利用更新的策略再次进行采样学习时,再次更新的参数会更差,可能导致算法崩溃。因此,为了解决对应终端设备节点选择策略的梯度算法更新步长难以确定的问题,本发明优选的采用正则化方式限制所述终端设备节点选择策略对应的更新幅度。其中,所述终端设备节点选择策略对应的更新幅度可基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定。
在具体实施过程中,复杂多变的边缘环境内终端设备节点选择策略需要随着实际的当前环境状态信息的变化而发生改变。本发明中可使用深度强化学习算法模型完成终端设备节点的选择。其中,近端策略优化算法模型(Proximal Policy Optimization;PPO)作为一种基于AC框架的强化学习算法,与传统策略梯度算法相比,近端策略优化算法模型收敛速度更快,鲁棒性更强。为进一步提高收敛速度,本发明优先采用基于多线程近端策略优化算法模型设计实现终端设备节点选择模型,即DPPO。DPPO使用多个线程在联邦学习环境中收集当前环境状态数据,且多个线程共享一个全局近端策略优化算法模型,不同于A3C算法,DPPO中各线程上传与环境交互后采集的当前环境状态数据,不再计算各线程梯度。
在联邦学习的终端设备节点选择过程中,联邦学习系统中的MEC服务器可作为智能体与外部环境数据进行交互,在每个时刻,智能体可获得当前环境状态数据,并基于当前环境状态数据采取行动,在执行终端设备节点选择操作后,对当前环境状态进行更新并得到下一状态和即时奖励。在目标时刻,执行动作后的环境数据只与当前环境状态有关,与历史环境状态无关,且具有无后效性。因此,可将联邦学习的终端设备节点选择问题表述为一个利用马尔科夫决策模型(Markov Decision Process;MDP模型)进而求解终端设备节点选择策略的过程。
下面具体举例而言:
状态空间:t时刻环境状态st可由一个四元组st={Φi,Ct,Ht-1,Bt-1}表示。其中,Φi表示编号为i的联邦学习任务对应的信息数据。Ct表示终端设备在t时刻可用于联邦学习任务的资源数据。Ht-1表示终端设备在所述目标时刻对应的上一时刻的数据集大小,Bt-1表示智能体在所述目标时刻对应的上一时刻的终端设备节点选择策略。
动作空间:在进行每步动作选择时,智能体只被允许采用一种终端设备节点选择策略,可将终端设备节点选择策略建模为一个0-1二进制向量,Bt={β123,...,β|d|},βd∈{0,1}。βn=1表示编号为n的终端设备在此次终端设备节点选择策略中被选中,反之则表示未选中。
奖励函数:当智能体根据某个终端设备节点选择策略执行某步动作后,环境数据会随之变化并得到一个用于评价本次行为的奖励值。本发明采用基于联邦学习的测试准确率设计奖励函数,并设置最大时延作为每步动作选择对应的条件约束,奖励函数如下式所示:
Figure BDA0002849893300000121
上式中:Ai为测试集的损失函数,并利用该函数表示联邦学习的准确率。上述执行动作来源是一个终端设备节点选择策略π,π是状态空间到动作空间的一个映射,即:
at=π(st) (14)
上述MDP模型的目标是得到一个优化策略,即在相应的状态根据该策略采用相应动作后,使强化学习的目标—累积回报的期望最大,即求解下式的优化问题:
Figure BDA0002849893300000122
其中:σt为折扣因子,且随时间的增加其值减小。
本发明实施例中,设计的全局近端策略优化算法模型中具体包含两个Actor网络(Actor1和Actor2)以及一个评论家网络。Actor1代表当前最新的终端设备节点选择策略π并负责指导各线程与环境交互。评论家网络根据智能体执行终端设备节点选择动作后获得的奖励对当前终端设备节点选择策略进行评判,并通过损失函数的反向传播实现对评论家网络中的参数进行更新。Actor2代表旧终端设备节点选择策略πold,智能体训练一定步数后,就使用Actor1中的参数对Actor2中的参数进行更新,重复上述过程,直至收敛。
相较于传统策略梯度算法,近端策略优化算法模型首先对算法梯度进行改进,策略梯度的原始参数更新方程为:
Figure BDA0002849893300000131
上式中,θold和θnew分别表示更新前后的终端设备节点选择策略对应的参数,α表示更新步长或者更新幅度,
Figure BDA0002849893300000135
为目标函数梯度。
需要说明的是,策略梯度算法的关键在于更新步长的确定,若更新步长选取不当,更新参数后对应的新终端设备节点选择策略是一个更不好的终端设备节点选择策略,当利用更新的终端设备节点选择策略再次进行采样学习时,再次更新的参数会更差,可能导致算法崩溃。因此,合适的更新步长是指终端设备节点选择策略更新后,回报函数不能变差,基于上述分析,PPO网络模型将新终端设备节点选择策略的回报函数分解为旧终端设备节点选择策略对应的回报函数加其他项,为实现回报函数的单调不减,只需保证新终端设备节点选择策略中的其他项大于等于0,具体如下式所示:
Figure BDA0002849893300000132
上式中,J表示当前终端设备节点选择策略的回报函数,π表示旧终端设备节点选择策略,
Figure BDA0002849893300000133
表示新策略。Advπ(st,at)为优势函数。
基于上述分析可知,PPO网络模型的优化目标是通过对参数θ进行更新以满足下式。
Figure BDA0002849893300000134
其中,πθ(a|s)为基于终端设备节点选择策略π在状态s下采取动作a的概率,且
Figure BDA0002849893300000141
Figure BDA0002849893300000142
表示旧终端设备节点选择策略参数与新终端设备节点选择策略对应参数之间的KL(Kullback-Leibler divergence)散度的最大值,散度用于度量θold和θ两个参数的概率分布之间的相似度,进而控制终端设备节点选择策略的更新幅度,PPO网络模型的初始策略更新公式如下式所示:
Figure BDA0002849893300000143
但上述终端设备节点选择策略更新方式中存在超参数λ难以确定的问题。为解决上述问题,本发明采用t时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定终端设备节点选择策略的更新幅度,如下式所示:
Figure BDA0002849893300000144
当终端设备节点选择策略未发生变化时,ratiot(θ)=1,本发明使用clip()函数对新旧终端设备节点选择策略之间的更新幅度进行限制,改进后的终端设备节点选择策略更新方式如下式所示:
LCLIP(θ)=Et[min(ratiot(θ)Advt,clip(ratiot(θ)),1-ε,1+ε)Advt] (21)
上式中,ε∈[0,1]是一个超参数,clip()将ratiot(θ)的值约束在区间[1-ε,1+ε]内。
在实际实施过程中,基于DPPO的终端设备节点选择模型的详细训练步骤如下:
步骤1:将初始状态参数输入到Actor1网络中,各线程基于策略πold选择一个动作与环境进行交互,即at=π(st)。重复上述过程,各线程分别与环境连续交互T个时间步,收集历史交互信息并缓存,并将缓存数据传输至全局PPO网络模型处。
步骤2:全局PPO网络模型使用下式分别计算每个时间步的优势函数如下:
Figure BDA0002849893300000151
其中:σ为折扣因子,V为状态值函数,
Figure BDA0002849893300000152
为评论家网络参数。
步骤3:利用
Figure BDA0002849893300000153
计算评论家网络的损失函数,并反向传播更新评论家网络参数
Figure BDA0002849893300000154
步骤4:利用LCLIP(θ)与优势函数对演员网络的参数进行更新。
步骤5:重复步骤4,预设步骤后使用Actor1中的网络参数更新Actor2的参数。
步骤6:循环步骤1-5,直至模型收敛。
经过上述训练本发明最终得到一个训练好的基于DPPO的终端设备节点选择模型,然后智能体根据当前环境状态数据,并基于训练好的终端设备节点选择模型指导演员网络输出下一步选择终端设备节点的动作,选择确定可用于联邦学习模型训练的终端设备节点,重复上述过程直至完成联邦学习模型的训练过程,最后输出满足实际需要的终端设备节点选择策略。
采用本发明实施例所述的联邦学习系统中终端设备节点的选择方法,通过确定对应终端设备节点选择的测试准确率最优化目标模型,并基于终端设备节点选择模型进行求解运算,能够在保证联邦学习性能的同时,实现终端设备资源利用率与能耗的联合优化,合理选择终端设备集合参与联邦学习模型聚合,有效提高了联邦学习的效率和准确性。
与上述提供的一种联邦学习系统中终端设备节点的选择方法相对应,本发明还提供一种联邦学习系统中终端设备节点的选择装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的联邦学习系统中终端设备节点的选择装置的实施例仅是示意性的。请参考图3所示,其为本发明实施例提供的一种联邦学习系统中终端设备节点的选择装置的结构示意图。
本发明所述的一种联邦学习系统中终端设备节点的选择装置具体包括如下部分:
最优化目标模型确定单元301,用于确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率。
节点选择策略确定单元302,用于获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练;所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
采用本发明实施例所述的联邦学习系统中终端设备节点的选择装置,通过确定对应终端设备节点选择的测试准确率最优化目标模型,并基于终端设备节点选择模型进行求解运算,能够在保证联邦学习性能的同时,实现终端设备资源利用率与能耗的联合优化,合理选择终端设备集合参与联邦学习模型聚合,有效提高了联邦学习的效率和准确性。
与上述提供的联邦学习系统中终端设备节点的选择方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图4所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)401、存储器(memory)402和通信总线403,其中,处理器401,存储器402通过通信总线403完成相互间的通信。处理器401可以调用存储器402中的逻辑指令,以执行联邦学习系统中终端设备节点的选择方法,该方法包括:确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的联邦学习系统中终端设备节点的选择方法,该方法包括:确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的联邦学习系统中终端设备节点的选择方法,该方法包括:确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种联邦学习系统中终端设备节点的选择方法,其特征在于,包括:
确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;
获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点,实现联邦学习模型训练;
所述终端设备节点选择模型是基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
2.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法,其特征在于,所述满足预设的约束条件,具体包括:满足预设的终端设备能耗约束,并满足终端设备数据传输时延及终端设备数据计算时延的时延约束。
3.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法,其特征在于,所述终端设备节点选择模型为基于多个线程的近端策略优化模型设计得到的深度强化学习模型;
所述近端策略优化模型利用多个线程在联邦学习迭代环境中收集对应的当前环境状态数据。
4.根据权利要求1或3所述的联邦学习系统中终端设备节点的选择方法,其特征在于,所述当前环境状态数据包括:联邦学习迭代过程中目标联邦学习任务对应的数据、所述终端设备节点在目标时刻用于实现所述目标联邦学习任务的资源数据、所述终端设备节点在所述目标时刻对应的上一时刻的测试数据集大小以及在所述目标时刻对应的上一时刻的终端设备节点选择策略。
5.根据权利要求3所述的联邦学习系统中终端设备节点的选择方法,其特征在于,所述近端策略优化模型在收集到多个线程采集的当前环境状态数据后,触发执行预设的更新操作;在更新操作过程中,所述多个线程停止采集数据,并在更新操作完成后,所述多个线程使用当前最新的终端设备节点选择策略采集对应的当前环境状态数据。
6.根据权利要求5所述的联邦学习系统中终端设备节点的选择方法,其特征在于,还包括:采用正则化方式限制所述终端设备节点选择策略对应的更新幅度;其中,所述终端设备节点选择策略对应的更新幅度是基于目标时刻的新终端设备节点选择策略与旧终端设备节点选择策略的比值确定的。
7.根据权利要求1所述的联邦学习系统中终端设备节点的选择方法,其特征在于,所述总体损失函数为所述终端设备节点完成训练的测试数据集对应的损失函数的总和。
8.一种联邦学习系统中终端设备节点的选择装置,其特征在于,包括:
最优化目标模型确定单元,用于确定对应终端设备节点选择的测试准确率最优化目标模型;其中,所述测试准确率最优化目标模型用于最小化每次联邦学习迭代过程中参与的终端设备节点的总体损失函数,并满足预设的约束条件;所述终端设备节点的总体损失函数用于表示测试准确率;
节点选择策略确定单元,用于获取每次联邦学习迭代过程对应的当前环境状态数据,并将所述当前环境状态数据输入至终端设备节点选择模型中,得到所述终端设备节点选择模型输出的对应所述测试准确率和所述约束条件的终端设备节点选择策略;其中,所述终端设备节点选择策略用于确定每次联邦学习迭代过程中参与的终端设备节点实现联邦学习模型训练;所述终端设备节点选择模型基于环境交互样本信息、所述环境交互样本信息对应的终端设备节点选择策略以及策略更新幅度训练得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任意一项所述的联邦学习系统中终端设备节点的选择方法的步骤。
CN202011542477.4A 2020-12-21 2020-12-21 联邦学习系统中终端设备节点的选择方法及装置 Active CN112668128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011542477.4A CN112668128B (zh) 2020-12-21 2020-12-21 联邦学习系统中终端设备节点的选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011542477.4A CN112668128B (zh) 2020-12-21 2020-12-21 联邦学习系统中终端设备节点的选择方法及装置

Publications (2)

Publication Number Publication Date
CN112668128A true CN112668128A (zh) 2021-04-16
CN112668128B CN112668128B (zh) 2024-05-28

Family

ID=75409276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011542477.4A Active CN112668128B (zh) 2020-12-21 2020-12-21 联邦学习系统中终端设备节点的选择方法及装置

Country Status (1)

Country Link
CN (1) CN112668128B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033605A (zh) * 2021-02-08 2021-06-25 广东迅科动力科技有限公司 电机的故障判断方法、装置、终端设备及计算机存储介质
CN113094181A (zh) * 2021-05-06 2021-07-09 苏州联电能源发展有限公司 面向边缘设备的多任务联邦学习方法及装置
CN113139341A (zh) * 2021-04-23 2021-07-20 广东安恒电力科技有限公司 基于联邦集成学习的电量需求预测方法和系统
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113419849A (zh) * 2021-06-04 2021-09-21 国网河北省电力有限公司信息通信分公司 边缘计算节点选择方法及终端设备
CN113490184A (zh) * 2021-05-10 2021-10-08 北京科技大学 一种面向智慧工厂的随机接入资源优化方法及装置
CN113610303A (zh) * 2021-08-09 2021-11-05 北京邮电大学 一种负荷预测方法及系统
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法
CN114554459A (zh) * 2022-01-19 2022-05-27 苏州大学 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN114742235A (zh) * 2022-04-15 2022-07-12 中国电信股份有限公司 联邦学习方法、数据分析模型训练方法及装置、存储介质
CN114945044A (zh) * 2022-07-25 2022-08-26 北京智芯微电子科技有限公司 基于联邦学习的数字孪生平台构建方法、装置及设备
WO2022236831A1 (zh) * 2021-05-14 2022-11-17 北京小米移动软件有限公司 一种模型学习方法、模型学习装置及存储介质
CN115456194A (zh) * 2022-08-25 2022-12-09 北京百度网讯科技有限公司 基于异步联邦学习的模型训练控制方法、装置及系统
CN115640852A (zh) * 2022-09-09 2023-01-24 湖南工商大学 联邦学习参与节点选择优化方法、联邦学习方法及系统
TWI792784B (zh) * 2021-12-20 2023-02-11 國立清華大學 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
WO2023090472A1 (ko) * 2021-11-17 2023-05-25 엘지전자 주식회사 정보를 전송하는 방법 및 장치, 그리고 정보를 수신하는 방법 및 장치
WO2024002389A1 (zh) * 2022-06-27 2024-01-04 国网智能电网研究院有限公司 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端
CN111723947A (zh) * 2020-06-19 2020-09-29 深圳前海微众银行股份有限公司 一种联邦学习模型的训练方法及装置
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
US20200394552A1 (en) * 2019-06-12 2020-12-17 International Business Machines Corporation Aggregated maching learning verification for database

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200394552A1 (en) * 2019-06-12 2020-12-17 International Business Machines Corporation Aggregated maching learning verification for database
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端
CN111723947A (zh) * 2020-06-19 2020-09-29 深圳前海微众银行股份有限公司 一种联邦学习模型的训练方法及装置
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG LIU ET AL: "Guest editorial special issue on deep reinforcement learning for emerging IoT Systems", 《IEEE INTERNET OF THINGS JOURNAL》, vol. 7, no. 7, 31 July 2020 (2020-07-31), pages 6175 - 6179 *
贺文晨 等: "基于 DRL 的联邦学习节点选择方法", 《通信学报》, vol. 42, no. 6, 28 May 2021 (2021-05-28), pages 62 - 71 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033605A (zh) * 2021-02-08 2021-06-25 广东迅科动力科技有限公司 电机的故障判断方法、装置、终端设备及计算机存储介质
CN113139341A (zh) * 2021-04-23 2021-07-20 广东安恒电力科技有限公司 基于联邦集成学习的电量需求预测方法和系统
CN113139341B (zh) * 2021-04-23 2023-02-10 广东安恒电力科技有限公司 基于联邦集成学习的电量需求预测方法和系统
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113191484B (zh) * 2021-04-25 2022-10-14 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113094181A (zh) * 2021-05-06 2021-07-09 苏州联电能源发展有限公司 面向边缘设备的多任务联邦学习方法及装置
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113490184A (zh) * 2021-05-10 2021-10-08 北京科技大学 一种面向智慧工厂的随机接入资源优化方法及装置
WO2022236831A1 (zh) * 2021-05-14 2022-11-17 北京小米移动软件有限公司 一种模型学习方法、模型学习装置及存储介质
CN113419849A (zh) * 2021-06-04 2021-09-21 国网河北省电力有限公司信息通信分公司 边缘计算节点选择方法及终端设备
CN113610303B (zh) * 2021-08-09 2024-03-19 北京邮电大学 一种负荷预测方法及系统
CN113610303A (zh) * 2021-08-09 2021-11-05 北京邮电大学 一种负荷预测方法及系统
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113673696B (zh) * 2021-08-20 2024-03-22 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
WO2023090472A1 (ko) * 2021-11-17 2023-05-25 엘지전자 주식회사 정보를 전송하는 방법 및 장치, 그리고 정보를 수신하는 방법 및 장치
TWI792784B (zh) * 2021-12-20 2023-02-11 國立清華大學 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法
CN114546608B (zh) * 2022-01-06 2024-06-07 上海交通大学 一种基于边缘计算的任务调度方法
CN114554459A (zh) * 2022-01-19 2022-05-27 苏州大学 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN114742235A (zh) * 2022-04-15 2022-07-12 中国电信股份有限公司 联邦学习方法、数据分析模型训练方法及装置、存储介质
WO2024002389A1 (zh) * 2022-06-27 2024-01-04 国网智能电网研究院有限公司 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质
CN114945044A (zh) * 2022-07-25 2022-08-26 北京智芯微电子科技有限公司 基于联邦学习的数字孪生平台构建方法、装置及设备
CN115456194A (zh) * 2022-08-25 2022-12-09 北京百度网讯科技有限公司 基于异步联邦学习的模型训练控制方法、装置及系统
CN115456194B (zh) * 2022-08-25 2023-09-01 北京百度网讯科技有限公司 基于异步联邦学习的模型训练控制方法、装置及系统
CN115640852A (zh) * 2022-09-09 2023-01-24 湖南工商大学 联邦学习参与节点选择优化方法、联邦学习方法及系统

Also Published As

Publication number Publication date
CN112668128B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112668128A (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
WO2020259502A1 (zh) 神经网络模型的生成方法及装置、计算机可读存储介质
CN110276442B (zh) 一种神经网络架构的搜索方法及装置
WO2022063247A1 (zh) 神经网络结构搜索方法及装置
JP2023510566A (ja) ニューラル・ネットワークのための適応的探索方法および装置
CN113794748B (zh) 一种性能感知的服务功能链智能部署方法及装置
CN116416508A (zh) 一种加快全局联邦学习模型收敛的方法及联邦学习系统
CN111176820A (zh) 一种基于深度神经网络的边缘计算任务的分配方法及装置
Wu et al. Learn to sense: A meta-learning-based sensing and fusion framework for wireless sensor networks
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
WO2023206771A1 (zh) 基于决策流图的环境建模方法、装置和电子设备
Chen et al. Cache-assisted collaborative task offloading and resource allocation strategy: A metareinforcement learning approach
WO2023103864A1 (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
CN116187483A (zh) 模型训练方法、装置、设备、介质和程序产品
CN116090536A (zh) 神经网络的优化方法、装置、计算机设备及存储介质
Jiang et al. Computation and communication efficient federated learning with adaptive model pruning
CN113971090B (zh) 分布式深度神经网络的分层联邦学习方法及装置
CN117009053A (zh) 边缘计算系统的任务处理方法及相关设备
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
Lv et al. Integrated double estimator architecture for reinforcement learning
CN107608781A (zh) 一种负载预测方法、装置以及网元
CN111510473B (zh) 访问请求处理方法、装置、电子设备和计算机可读介质
CN117255356A (zh) 一种无线接入网中基于联邦学习的高效自协同方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant