CN117592580A

CN117592580A - 能源联邦学习数据选择方法、装置和能源联邦学习系统

Info

Publication number: CN117592580A
Application number: CN202311560308.7A
Authority: CN
Inventors: 彭勃; 左婧; 龚贤夫; 李耀东; 崔天宇; 徐春晖; 李作红; 吴伟杰; 郇嘉嘉
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-23

Abstract

本发明涉及联邦学习技术领域，公开了一种能源联邦学习数据选择方法、装置和能源联邦学习系统，所述方法通过获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；根据可行约束条件，从所述聚类簇中选取出可行数据集合；根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。本发明提供的数据选择方法能够自适应网络状态，在网络资源和终端电量限制条件下，减缓终端调度问题，有效提升参与模型更新的数据多样性，快速实现高准确的学习性能。

Description

能源联邦学习数据选择方法、装置和能源联邦学习系统

技术领域

本发明涉及联邦学习技术领域，特别是涉及一种能源联邦学习数据选择方法、装置和能源联邦学习系统。

背景技术

随着边缘计算和人工智能技术的发展，传统电网正在向泛在电力物联网进行智能化升级，以实现电力系统各个环节的互联和交互，加强数据处理能力、促进数据的融合应用，使其成为具有状态全感知、信息高效处理、应用便捷灵活等特征的智慧服务系统。尤其，分散在网络中的能源数据，通过联邦学习的方式，能够在不进行数据共享保护数据安全性的同时，保障智能服务。

然而，受限于电力物联网有限的通信资源和数据设备有限的电量，在联邦学习过程中，并不是所有能源数据都能参与到模型训练过程中。此外，由于通信环境的动态特性和数据终端间通信环境的差异性，不合适的数据选择可能会导致无法在规定时间内完成模型更新，导致学习速度慢的问题；并且由于分散在网络中的能源数据具有非独立同分布的特性，不合适的数据选择可能会导致学习到的模型向部分数据倾斜，导致学习准确率低的问题。

针对这一问题，在现有研究中，存在不同的数据选择方法，但是这些现有方法所存在的问题在于，在计算机科学领域，所提出的数据选择方法往往仅解决数据非独立同分布带来的数据倾斜问题，在无线通信领域，所提出的数据选择方法往往仅解决通信环境差异性带来的无法按时完成模型更新的问题。而能够同时解决这两类问题的数据选择方法则往往忽略模型更新轮次间的相互影响关系，并不能真正有效的解决现有问题。

发明内容

为了解决上述技术问题，本发明提供了一种自适应的能源联邦学习数据选择方法、装置和能源联邦学习系统，以能够在有限的通信资源和设备电量条件下，快速的实现高准确的学习性能。

第一方面，本发明提供了一种能源联邦学习数据选择方法，所述方法包括：

获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；

根据可行约束条件，从所述聚类簇中选取出可行数据集合；

根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。

进一步地，所述根据可行约束条件，从所述聚类簇中选取出可行数据集合的步骤包括：

从每个聚类簇中随机选取一组终端数据，判断所述终端数据是否满足可行约束条件，直至得到满足可行约束条件的所述终端数据，并将所述终端数据作为可行数据；

将各个聚类簇中的可行数据组成可行数据集合。

进一步地，所述判断所述终端数据是否满足可行约束条件，直至得到满足可行约束条件的所述终端数据，并将所述终端数据作为可行数据的步骤包括：

根据可行约束条件建立凸优化问题，并根据所述终端数据，对所述凸优化问题进行求解，得到最优解；

判断所述最优解是否大于时延门限，若否，则将所述终端数据作为可行数据；若是，则从聚类簇中重新选取终端数据，并进行求解和判断，直至得到可行数据。

进一步地，所述根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据的步骤包括：

从随机选取的聚类簇中随机选取一组满足可行约束条件且与可行数据不同的新终端数据；

从可行数据集合中提取与新终端数据为同一聚类簇的对应可行数据，并分别获取对应可行数据和新终端数据的选择开销，其中，所述选择开销根据数据的样本量、选择能耗和本地虚拟能量队列长度计算得到；

根据开销最小化准则，使用新终端数据对所述可行数据集合进行多轮迭代更新，得到全局模型训练数据。

进一步地，所述根据开销最小化准则，使用新终端数据对所述可行数据集合进行多轮迭代更新的步骤包括：

将新终端数据的选择开销减去对应可行数据的选择开销，得到开销差，并判断所述开销差是否大于零；

若是，则根据选择新终端数据的执行次数，计算选择概率，并根据选择概率，使用新终端数据替换对应可行数据，得到更新后的可行数据集合；

继续选择新终端数据对可行数据集合进行更新，直至达到预设的迭代停止条件。

进一步地，所述则根据选择新终端数据的执行次数，计算选择概率的步骤包括：

根据选择新终端数据的执行次数，计算概率调控参数；

根据所述开销差和所述概率调控参数，计算选择概率。

进一步地，在所述得到全局模型训练数据步骤之后，还包括：

根据全局模型训练数据的选择能耗，对本地虚拟能量队列长度进行更新。

进一步地，采用如下公式计算所述选择能耗：

式中，e_kl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量，x_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择，D_kl表示第k个聚类簇中第l组数据的样本量，δ_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的时延，B表示训练模型的大小，r_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率，p_kl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值；

采用如下公式计算所述本地虚拟能量队列长度：

q_kl(t+1)＝max{q_kl(t+1)+e_kl(t)-e_th,0}

式中，q_kl(t+1)表示在t+1轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度，e_th表示平均能耗门限值；

采用如下公式计算所述选择开销：

式中，K表示聚类簇的数量，L_k表示第k个聚类簇中数据的组数，V表示权重系数；

采用如下公式计算概率调控参数：

式中，η₀表示初始概率调控参数，n表示选择第二可行数据的执行次数；

采用如下公式计算选择概率：

式中，△表示开销差，P表示使用所述第二可行数据对所述第一可行数据进行更新的选择概率。

第二方面，本发明提供了一种能源联邦学习数据选择装置，所述装置包括：

数据聚类模块，用于获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；

第一数据选择模块，用于根据可行约束条件，从所述聚类簇中选取出可行数据集合；

第二数据选择模块，用于根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。

第三方面，本发明实施例还提供了一种能源联邦学习系统，包括一个边缘服务器和至少两个终端设备；

所述终端设备具有用于全局模型训练的终端数据；

所述边缘服务器采用如上所述的方法从所述终端设备发送的终端数据中选取全局模型训练数据。

本发明提供了一种能源联邦学习数据选择方法、装置和能源联邦学习系统。通过所述方法，能够动态选择每个通信轮次用于联邦学习的数据，从而保证所选择数据能在规定时间内完成本地模型训练和上传，减缓终端掉队问题，本发明提供的数据选择方法能够自适应网络状态，在网络资源和终端电量限制条件下，有效提升参与模型更新的数据多样性，快速实现高准确的学习性能。

附图说明

图1是本发明实施例中能源联邦学习数据选择方法的流程示意图；

图2是本发明实施例中能源联邦学习数据选择装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对本发明的方法进行详细说明之前，先对联邦学习进行简单介绍。联邦学习的目标是通过多轮模型训练最小化全局损失。在一个典型的网络场景中，包括多组分散的终端设备和一个边缘服务器，联邦学习每轮模型更新的具体步骤包括：1)选择数据参与全局模型更新；2)服务器向选择的终端设备广播当前全局模型；3)终端设备利用自身数据，更新接收到的全局模型，得到本地模型；4)终端设备上传本地模型至边缘服务器；5)边缘服务器接收所有本地模型后，通过加权平均的方式更新全局模型。

受限于电力物联网有限的通信资源和数据设备有限的电量，在进行能源联邦学习的过程中，并不是所有能源数据都能参与到模型训练过程中，为此，本发明提供了一种用于能源联邦学习的数据选择方法。

请参阅图1，本发明第一实施例提出的一种能源联邦学习数据选择方法，包括步骤S10～S30：

步骤S10，获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；

步骤S20，根据可行约束条件，从所述聚类簇中选取出可行数据集合；

步骤S30，根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。

本实施例提供的方法可以应用在边缘服务器在每个通信轮次内的数据选择步骤中，下面以第t个通讯轮次内的数据选择为例进行说明：

获取各个终端设备发送的终端数据，然后根据数据相似性进行数据聚类，形成K个聚类簇，在该步骤中，核心环节是数据相似性度量和数据聚类过程，具体的说，首先定义数据之间的相似度度量标准，可以采用以下公式表示：

式中，是t轮模型更新时，利用数据k训练的本地模型和全局模型差，被定义为代表性梯度，l则表示数据l。由柯西-施瓦茨不等式可知，数据相似性的范围是[0,1]，其值越大表示数据相似性越高，反之则越低。

在相似性度量基础上，采用层次聚类算法对终端数据进行聚类，即在不同层次对数据进行划分，形成树形的聚类结构。以AGNES(AGglomerative NESting)算法为例，采用自底向上的聚合策略实现层次聚类。AGNES算法的目标是将网络中的所有数据分成K个聚类簇，其中任意两个不同的聚类簇和/>不包含相同的数据。聚类过程的关键环节是计算簇间的数据相似性。在第t个通信轮次，聚类簇/>和/>间的数据相似性可表示为：

基于簇间数据相似性的定义，AGNES先将每组数据看作一个初始聚类簇，然后在算法运行的每一步中找到相似性最大的两个聚类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数K，然后表示第k个聚类簇中的数据组数为L_k。当然也可以采用其他的聚类标准和聚类算法进行聚类簇的划分，本实施例所采用的聚类标准和聚类算法只作为优选而非具体限定。

在得到多个聚类簇之后，本发明根据每个通信轮次的通信条件，在时延约束条件下，动态的选择用于联邦学习的数据，具体步骤如下所示：

步骤S201，从每个聚类簇中随机选取一组终端数据，判断所述终端数据是否满足可行约束条件，直至得到满足可行约束条件的所述终端数据，并将所述终端数据作为可行数据；

步骤S202，将各个聚类簇中的可行数据组成可行数据集合。

在本实施例中所采用的可行约束条件包括每簇选择一组数据原则、时延约束原则和通信速率约束原则，根据这三种约束原则从聚类簇中选取出可行数据集合，具体的，获取当前网络状态：

NetS(t)＝{σ_kl(t),δ_kl(t),q_kl(t)}

其中，σ_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗，δ_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗，q_kl(t)表示在t轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度。

依据当前网络状态，从聚类簇中确定可行的数据集合为：

其中，x_kl(t)∈{0，1}表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择，即为1，表示被选择，否则，表示不被选取，对于被选择的数据应当满足以下三个约束条件：

①选择的数据满足每个簇中仅选择一组的原则：

通过上述步骤可知，聚类簇是由聚类算法划分得到，不同数据簇中的数据具有较低的相似性，因此，通过每个簇中仅选择一组的原则可以保证选择的数据具有多样性，从而对联邦学习的模型训练过程提供较多的贡献度，加速联邦学习，能够有效提升数据的代表性，避免了模型倾斜问题。

②所有选择数据进行本地模型训练和本地模型上传的总时延d_ki(t)满足以下条件：

式中，d_th表示预设置的时延门限，D_kl表示第k个聚类簇中第l组数据的样本量，B表示训练模型的大小(单位为比特)，r_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率。通过时延约束条件，可以保证在选择数据上训练的本地模型能在规定时间内到达边缘服务器。

③所有选择数据上传至边缘服务器的通信速率存在以下限制：

式中，r_tot表示网络的通信能力。

本约束条件实际上是对时延约束中的通信速率的约束，通过本约束条件，保证了只有选择的数据被分配通信速率，并且所有选择数据分配的速率总和低于网络的通信能力。

本实施例根据每通信轮次的通信条件，在时延约束条件下，动态选择每通信轮次用于联邦学习的数据，从而保证所选择数据总能在规定时间内完成本地模型训练和上传，减缓终端掉队问题。

基于上述约束条件，采用以下步骤对可行数据集合进行数据初始化：

步骤S2011，根据可行约束条件建立凸优化问题，并根据所述终端数据，对所述凸优化问题进行求解，得到最优解；

步骤S2012，判断所述最优解是否大于时延门限，若否，则将所述终端数据作为可行数据；若是，则从聚类簇中重新选取终端数据，并进行求解和判断，直至得到可行数据。

本实施例中的数据初始化是从每个聚类簇中，均随机选择一组数据，选择的这组数据必然满足上述的约束条件①，然后通过求解凸优化问题来判断选择的这组数据是否满足约束条件②和③，具体包括：

假设从聚类簇k中选取的数据为l_k，根据约束条件②和③建立凸优化问题(P1)：

求解凸优化问题(P1)的最优解τ^*，如果最优解大于预设置的时延门限d_th，则判断选择的这组数据不满足约束条件②和③，即数据不可行，否则，就认为选择的这组数据可行。

若选择的数据不可行，则重复上述过程，直至选择的数据可行为止。当选择的数据可行时，表示该组数据为旧选择数据，其中，凸优化问题的最优解采用以下公式表示：

在对可行数据集合初始化完成之后，考虑到设备终端有限的电量，本实施例采用当前开销最小化准则对可行数据集合进行更新迭代，具体步骤包括：

步骤S301，从随机选取的聚类簇中随机选取一组满足可行约束条件且与可行数据不同的新终端数据；

步骤S302，从可行数据集合中提取与新终端数据为同一聚类簇的对应可行数据，并分别获取对应可行数据和新终端数据的选择开销，其中，所述选择开销根据数据的样本量、选择能耗和本地虚拟能量队列长度计算得到；

步骤S303，根据开销最小化准则，使用新终端数据对所述可行数据集合进行多轮迭代更新，得到全局模型训练数据。

在本实施例中，需要选取用于对可行数据集合进行更新的新终端数据，即随机选择一个聚类簇k，再从该簇中随机选择一组数据该重新选取的数据需满足/>然后将旧选择数据中聚类簇k的数据l_k替换为/>从而得到一组新选择数据。对于新选择数据，采用上述步骤，判断新终端数据是否满足可行约束条件，即判断新终端数据是否可行，如果不可行，从重复上述步骤，继续从聚类簇中随机选取数据，直至满足/>且可行的新终端数据。

通过上述步骤得到可行数据和新终端数据之后，分别获取两组数据的选择开销，假设可行数据对应的选择开销为C_old(t)，新终端数据对应的选择开销为C_new(t)，其中，选择数据对应的选择开销可以采用以下公式表示：

式中，K表示聚类簇的数量，L_k表示第k个聚类簇中数据的组数，V≥0，是一个预先设置的权重系数，用来权衡选择数据终端的能耗和数据量，其中，

式中，e_kl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量，x_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择，D_kl表示第k个聚类簇中第l组数据的样本量，δ_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗，B表示训练模型的大小，r_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率，p_kl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值。

然后根据开销最小化准则，对可行数据进行迭代更新，具体步骤包括：

步骤S3031，将新终端数据的选择开销减去对应可行数据的选择开销，得到开销差，并判断所述开销差是否大于零；

步骤S3032，若是，则根据选择新终端数据的执行次数，计算选择概率，并根据选择概率，使用新终端数据替换对应可行数据，得到更新后的可行数据集合；

步骤S3033，继续选择新终端数据对可行数据集合进行更新，直至达到预设的迭代停止条件。

在本实施例中，如果新终端数据的开销C_new(t)不大于旧选择数据的开销C_old(t)，则使用新终端数据对可行数据进行更新；否则，则计算两个可行数据之间的开销差：

Δ＝C_new(t)-C_old(t)

同时更新概率调控参数：

其中，η₀表示初始概率调控参数，n表示执行新选择数据的次数迭代次数。

然后根据开销差和概率调控参数来计算选择概率：

式中，P表示使用新终端数据对可行数据进行更新的概率，即以概率P对可行数据进行更新，且以概率(1-P)维持可行数据不变，同时如果对可行数据进行更新还需要对应更新其选择开销。

根据上述步骤不断的选择新终端数据并对可行数据集合进行更新，直至概率调控参数达到参数门限，即η≤η_th，其中，η_th是预先设置的接近于零的门限值，停止迭代并得到最终可行数据集合，最终可行数据集合也即全局模型训练数据。通过本实施例提供的迭代步骤，能够快速的筛选出满足约束条件且开销最小的可行数据，从而有效提高数据选择的执行效率。

进一步地，在本实施例中将本地虚拟能量队列长度设置为依赖与前一轮模型更新时消耗的能量，其公式如下所示：

q_kl(t+1)＝max{q_kl(t+1)+e_kl(t)-e_th,0}

式中，q_kl(t+1)表示在t+1轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度，e_th表示平均能耗门限值，e_kl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量。

根据上述公式可知，数据对应的能耗越大，下一轮模型更新时的本地虚拟能量队列长度越大，本地剩余电量越少。再结合上述的数据选择准则，本发明提供的数据选择方法在每轮模型更新时，更倾向于选择本地剩余电量多、能耗少、数据量大的数据，从而能够在网络资源和终端电量限制条件下，提升参与模型更新的数据多样性，从而快速实现高准确的学习性能。

本实施例提供的一种能源联邦学习数据选择方法，本发明通过数据相似性聚类选择，能够提升数据的代表性，避免模型倾斜问题，并通过时延约束条件下动态选择学习数据，保证了所选择数据总能在规定时间内完成本地模型训练和上传，减缓终端掉队问题，本发明在动态自适应通信条件的同时，减缓终端调度问题，增加参与联邦学习的数据代表性，从而有效改善了针对能源联邦学习的学习性能。

请参阅图2，基于同一发明构思，本发明第二实施例提出的一种能源联邦学习数据选择装置，包括：

数据聚类模块10，用于获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；

第一数据选择模块20，用于根据可行约束条件，从所述聚类簇中选取出可行数据集合；

第二数据选择模块30，用于根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。

本发明实施例提出的能源联邦学习数据选择装置的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。上述能源联邦学习数据选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，本发明实施例还提出一种能源联邦学习系统，包括一个边缘服务器和至少两个终端设备；

所述终端设备具有用于全局模型训练的终端数据；

综上，本发明实施例提出的一种能源联邦学习数据选择方法、装置和能源联邦学习系统，所述方法通过获取当前通讯轮次内各个终端设备发送的终端数据，并根据数据相似性，对所述终端数据进行聚类，得到若干个聚类簇；根据可行约束条件，从所述聚类簇中选取出可行数据集合；根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据。本发明提供的数据选择方法能够自适应网络状态，在网络资源和终端电量限制条件下，减缓终端调度问题，有效提升参与模型更新的数据多样性，快速实现高准确的学习性能。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种能源联邦学习数据选择方法，其特征在于，所述方法包括：

根据可行约束条件，从所述聚类簇中选取出可行数据集合；

2.根据权利要求1所述的能源联邦学习数据选择方法，其特征在于，所述根据可行约束条件，从所述聚类簇中选取出可行数据集合的步骤包括：

将各个聚类簇中的可行数据组成可行数据集合。

3.根据权利要求2所述的能源联邦学习数据选择方法，其特征在于，所述判断所述终端数据是否满足可行约束条件，直至得到满足可行约束条件的所述终端数据，并将所述终端数据作为可行数据的步骤包括：

4.根据权利要求2所述的能源联邦学习数据选择方法，其特征在于，所述根据开销最小化准则，对所述可行数据集合进行迭代更新，得到全局模型训练数据的步骤包括：

5.根据权利要求4所述的能源联邦学习数据选择方法，其特征在于，所述根据开销最小化准则，使用新终端数据对所述可行数据集合进行多轮迭代更新的步骤包括：

6.根据权利要求5所述的能源联邦学习数据选择方法，其特征在于，所述则根据选择新终端数据的执行次数，计算选择概率的步骤包括：

根据选择新终端数据的执行次数，计算概率调控参数；

根据所述开销差和所述概率调控参数，计算选择概率。

7.根据权利要求4所述的能源联邦学习数据选择方法，其特征在于，在所述得到全局模型训练数据步骤之后，还包括：

8.根据权利要求6所述的能源联邦学习数据选择方法，其特征在于，采用如下公式计算所述选择能耗：

式中，e_kl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量，x_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择，D_kl表示第k个聚类簇中第l组数据的样本量，δ_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗，B表示训练模型的大小，r_kl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率，p_kl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值；

采用如下公式计算所述本地虚拟能量队列长度：

q_kl(t+1)＝max{q_kl(t+1)+e_kl(t)-e_th,0}

采用如下公式计算所述选择开销：

采用如下公式计算概率调控参数：

式中，η₀表示初始概率调控参数，n表示选择新终端数据的执行次数；

采用如下公式计算选择概率：

式中，△表示开销差，P表示使用新终端数据对可行数据进行更新的选择概率。

9.一种能源联邦学习数据选择装置，其特征在于，所述装置包括：

10.一种能源联邦学习系统，其特征在于，所述系统包括：

一个边缘服务器和至少两个终端设备；

所述终端设备具有用于全局模型训练的终端数据；

所述边缘服务器采用如权利要求1至8任一项所述的方法从所述终端设备发送的终端数据中选取全局模型训练数据。