CN117592580A - 能源联邦学习数据选择方法、装置和能源联邦学习系统 - Google Patents
能源联邦学习数据选择方法、装置和能源联邦学习系统 Download PDFInfo
- Publication number
- CN117592580A CN117592580A CN202311560308.7A CN202311560308A CN117592580A CN 117592580 A CN117592580 A CN 117592580A CN 202311560308 A CN202311560308 A CN 202311560308A CN 117592580 A CN117592580 A CN 117592580A
- Authority
- CN
- China
- Prior art keywords
- data
- feasible
- energy
- terminal
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000005265 energy consumption Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 10
- 230000007786 learning performance Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 238000005259 measurement Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及联邦学习技术领域,公开了一种能源联邦学习数据选择方法、装置和能源联邦学习系统,所述方法通过获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;根据可行约束条件,从所述聚类簇中选取出可行数据集合;根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。本发明提供的数据选择方法能够自适应网络状态,在网络资源和终端电量限制条件下,减缓终端调度问题,有效提升参与模型更新的数据多样性,快速实现高准确的学习性能。
Description
技术领域
本发明涉及联邦学习技术领域,特别是涉及一种能源联邦学习数据选择方法、装置和能源联邦学习系统。
背景技术
随着边缘计算和人工智能技术的发展,传统电网正在向泛在电力物联网进行智能化升级,以实现电力系统各个环节的互联和交互,加强数据处理能力、促进数据的融合应用,使其成为具有状态全感知、信息高效处理、应用便捷灵活等特征的智慧服务系统。尤其,分散在网络中的能源数据,通过联邦学习的方式,能够在不进行数据共享保护数据安全性的同时,保障智能服务。
然而,受限于电力物联网有限的通信资源和数据设备有限的电量,在联邦学习过程中,并不是所有能源数据都能参与到模型训练过程中。此外,由于通信环境的动态特性和数据终端间通信环境的差异性,不合适的数据选择可能会导致无法在规定时间内完成模型更新,导致学习速度慢的问题;并且由于分散在网络中的能源数据具有非独立同分布的特性,不合适的数据选择可能会导致学习到的模型向部分数据倾斜,导致学习准确率低的问题。
针对这一问题,在现有研究中,存在不同的数据选择方法,但是这些现有方法所存在的问题在于,在计算机科学领域,所提出的数据选择方法往往仅解决数据非独立同分布带来的数据倾斜问题,在无线通信领域,所提出的数据选择方法往往仅解决通信环境差异性带来的无法按时完成模型更新的问题。而能够同时解决这两类问题的数据选择方法则往往忽略模型更新轮次间的相互影响关系,并不能真正有效的解决现有问题。
发明内容
为了解决上述技术问题,本发明提供了一种自适应的能源联邦学习数据选择方法、装置和能源联邦学习系统,以能够在有限的通信资源和设备电量条件下,快速的实现高准确的学习性能。
第一方面,本发明提供了一种能源联邦学习数据选择方法,所述方法包括:
获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
根据可行约束条件,从所述聚类簇中选取出可行数据集合;
根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
进一步地,所述根据可行约束条件,从所述聚类簇中选取出可行数据集合的步骤包括:
从每个聚类簇中随机选取一组终端数据,判断所述终端数据是否满足可行约束条件,直至得到满足可行约束条件的所述终端数据,并将所述终端数据作为可行数据;
将各个聚类簇中的可行数据组成可行数据集合。
进一步地,所述判断所述终端数据是否满足可行约束条件,直至得到满足可行约束条件的所述终端数据,并将所述终端数据作为可行数据的步骤包括:
根据可行约束条件建立凸优化问题,并根据所述终端数据,对所述凸优化问题进行求解,得到最优解;
判断所述最优解是否大于时延门限,若否,则将所述终端数据作为可行数据;若是,则从聚类簇中重新选取终端数据,并进行求解和判断,直至得到可行数据。
进一步地,所述根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据的步骤包括:
从随机选取的聚类簇中随机选取一组满足可行约束条件且与可行数据不同的新终端数据;
从可行数据集合中提取与新终端数据为同一聚类簇的对应可行数据,并分别获取对应可行数据和新终端数据的选择开销,其中,所述选择开销根据数据的样本量、选择能耗和本地虚拟能量队列长度计算得到;
根据开销最小化准则,使用新终端数据对所述可行数据集合进行多轮迭代更新,得到全局模型训练数据。
进一步地,所述根据开销最小化准则,使用新终端数据对所述可行数据集合进行多轮迭代更新的步骤包括:
将新终端数据的选择开销减去对应可行数据的选择开销,得到开销差,并判断所述开销差是否大于零;
若是,则根据选择新终端数据的执行次数,计算选择概率,并根据选择概率,使用新终端数据替换对应可行数据,得到更新后的可行数据集合;
继续选择新终端数据对可行数据集合进行更新,直至达到预设的迭代停止条件。
进一步地,所述则根据选择新终端数据的执行次数,计算选择概率的步骤包括:
根据选择新终端数据的执行次数,计算概率调控参数;
根据所述开销差和所述概率调控参数,计算选择概率。
进一步地,在所述得到全局模型训练数据步骤之后,还包括:
根据全局模型训练数据的选择能耗,对本地虚拟能量队列长度进行更新。
进一步地,采用如下公式计算所述选择能耗:
式中,ekl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量,xkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择,Dkl表示第k个聚类簇中第l组数据的样本量,δkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的时延,B表示训练模型的大小,rkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率,pkl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值;
采用如下公式计算所述本地虚拟能量队列长度:
qkl(t+1)=max{qkl(t+1)+ekl(t)-eth,0}
式中,qkl(t+1)表示在t+1轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度,eth表示平均能耗门限值;
采用如下公式计算所述选择开销:
式中,K表示聚类簇的数量,Lk表示第k个聚类簇中数据的组数,V表示权重系数;
采用如下公式计算概率调控参数:
式中,η0表示初始概率调控参数,n表示选择第二可行数据的执行次数;
采用如下公式计算选择概率:
式中,△表示开销差,P表示使用所述第二可行数据对所述第一可行数据进行更新的选择概率。
第二方面,本发明提供了一种能源联邦学习数据选择装置,所述装置包括:
数据聚类模块,用于获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
第一数据选择模块,用于根据可行约束条件,从所述聚类簇中选取出可行数据集合;
第二数据选择模块,用于根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
第三方面,本发明实施例还提供了一种能源联邦学习系统,包括一个边缘服务器和至少两个终端设备;
所述终端设备具有用于全局模型训练的终端数据;
所述边缘服务器采用如上所述的方法从所述终端设备发送的终端数据中选取全局模型训练数据。
本发明提供了一种能源联邦学习数据选择方法、装置和能源联邦学习系统。通过所述方法,能够动态选择每个通信轮次用于联邦学习的数据,从而保证所选择数据能在规定时间内完成本地模型训练和上传,减缓终端掉队问题,本发明提供的数据选择方法能够自适应网络状态,在网络资源和终端电量限制条件下,有效提升参与模型更新的数据多样性,快速实现高准确的学习性能。
附图说明
图1是本发明实施例中能源联邦学习数据选择方法的流程示意图;
图2是本发明实施例中能源联邦学习数据选择装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对本发明的方法进行详细说明之前,先对联邦学习进行简单介绍。联邦学习的目标是通过多轮模型训练最小化全局损失。在一个典型的网络场景中,包括多组分散的终端设备和一个边缘服务器,联邦学习每轮模型更新的具体步骤包括:1)选择数据参与全局模型更新;2)服务器向选择的终端设备广播当前全局模型;3)终端设备利用自身数据,更新接收到的全局模型,得到本地模型;4)终端设备上传本地模型至边缘服务器;5)边缘服务器接收所有本地模型后,通过加权平均的方式更新全局模型。
受限于电力物联网有限的通信资源和数据设备有限的电量,在进行能源联邦学习的过程中,并不是所有能源数据都能参与到模型训练过程中,为此,本发明提供了一种用于能源联邦学习的数据选择方法。
请参阅图1,本发明第一实施例提出的一种能源联邦学习数据选择方法,包括步骤S10~S30:
步骤S10,获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
步骤S20,根据可行约束条件,从所述聚类簇中选取出可行数据集合;
步骤S30,根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
本实施例提供的方法可以应用在边缘服务器在每个通信轮次内的数据选择步骤中,下面以第t个通讯轮次内的数据选择为例进行说明:
获取各个终端设备发送的终端数据,然后根据数据相似性进行数据聚类,形成K个聚类簇,在该步骤中,核心环节是数据相似性度量和数据聚类过程,具体的说,首先定义数据之间的相似度度量标准,可以采用以下公式表示:
式中,是t轮模型更新时,利用数据k训练的本地模型和全局模型差,被定义为代表性梯度,l则表示数据l。由柯西-施瓦茨不等式可知,数据相似性的范围是[0,1],其值越大表示数据相似性越高,反之则越低。
在相似性度量基础上,采用层次聚类算法对终端数据进行聚类,即在不同层次对数据进行划分,形成树形的聚类结构。以AGNES(AGglomerative NESting)算法为例,采用自底向上的聚合策略实现层次聚类。AGNES算法的目标是将网络中的所有数据分成K个聚类簇,其中任意两个不同的聚类簇和/>不包含相同的数据。聚类过程的关键环节是计算簇间的数据相似性。在第t个通信轮次,聚类簇/>和/>间的数据相似性可表示为:
基于簇间数据相似性的定义,AGNES先将每组数据看作一个初始聚类簇,然后在算法运行的每一步中找到相似性最大的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数K,然后表示第k个聚类簇中的数据组数为Lk。当然也可以采用其他的聚类标准和聚类算法进行聚类簇的划分,本实施例所采用的聚类标准和聚类算法只作为优选而非具体限定。
在得到多个聚类簇之后,本发明根据每个通信轮次的通信条件,在时延约束条件下,动态的选择用于联邦学习的数据,具体步骤如下所示:
步骤S201,从每个聚类簇中随机选取一组终端数据,判断所述终端数据是否满足可行约束条件,直至得到满足可行约束条件的所述终端数据,并将所述终端数据作为可行数据;
步骤S202,将各个聚类簇中的可行数据组成可行数据集合。
在本实施例中所采用的可行约束条件包括每簇选择一组数据原则、时延约束原则和通信速率约束原则,根据这三种约束原则从聚类簇中选取出可行数据集合,具体的,获取当前网络状态:
NetS(t)={σkl(t),δkl(t),qkl(t)}
其中,σkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗,δkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗,qkl(t)表示在t轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度。
依据当前网络状态,从聚类簇中确定可行的数据集合为:
其中,xkl(t)∈{0,1}表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择,即为1,表示被选择,否则,表示不被选取,对于被选择的数据应当满足以下三个约束条件:
①选择的数据满足每个簇中仅选择一组的原则:
通过上述步骤可知,聚类簇是由聚类算法划分得到,不同数据簇中的数据具有较低的相似性,因此,通过每个簇中仅选择一组的原则可以保证选择的数据具有多样性,从而对联邦学习的模型训练过程提供较多的贡献度,加速联邦学习,能够有效提升数据的代表性,避免了模型倾斜问题。
②所有选择数据进行本地模型训练和本地模型上传的总时延dki(t)满足以下条件:
式中,dth表示预设置的时延门限,Dkl表示第k个聚类簇中第l组数据的样本量,B表示训练模型的大小(单位为比特),rkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率。通过时延约束条件,可以保证在选择数据上训练的本地模型能在规定时间内到达边缘服务器。
③所有选择数据上传至边缘服务器的通信速率存在以下限制:
式中,rtot表示网络的通信能力。
本约束条件实际上是对时延约束中的通信速率的约束,通过本约束条件,保证了只有选择的数据被分配通信速率,并且所有选择数据分配的速率总和低于网络的通信能力。
本实施例根据每通信轮次的通信条件,在时延约束条件下,动态选择每通信轮次用于联邦学习的数据,从而保证所选择数据总能在规定时间内完成本地模型训练和上传,减缓终端掉队问题。
基于上述约束条件,采用以下步骤对可行数据集合进行数据初始化:
步骤S2011,根据可行约束条件建立凸优化问题,并根据所述终端数据,对所述凸优化问题进行求解,得到最优解;
步骤S2012,判断所述最优解是否大于时延门限,若否,则将所述终端数据作为可行数据;若是,则从聚类簇中重新选取终端数据,并进行求解和判断,直至得到可行数据。
本实施例中的数据初始化是从每个聚类簇中,均随机选择一组数据,选择的这组数据必然满足上述的约束条件①,然后通过求解凸优化问题来判断选择的这组数据是否满足约束条件②和③,具体包括:
假设从聚类簇k中选取的数据为lk,根据约束条件②和③建立凸优化问题(P1):
求解凸优化问题(P1)的最优解τ*,如果最优解大于预设置的时延门限dth,则判断选择的这组数据不满足约束条件②和③,即数据不可行,否则,就认为选择的这组数据可行。
若选择的数据不可行,则重复上述过程,直至选择的数据可行为止。当选择的数据可行时,表示该组数据为旧选择数据,其中,凸优化问题的最优解采用以下公式表示:
在对可行数据集合初始化完成之后,考虑到设备终端有限的电量,本实施例采用当前开销最小化准则对可行数据集合进行更新迭代,具体步骤包括:
步骤S301,从随机选取的聚类簇中随机选取一组满足可行约束条件且与可行数据不同的新终端数据;
步骤S302,从可行数据集合中提取与新终端数据为同一聚类簇的对应可行数据,并分别获取对应可行数据和新终端数据的选择开销,其中,所述选择开销根据数据的样本量、选择能耗和本地虚拟能量队列长度计算得到;
步骤S303,根据开销最小化准则,使用新终端数据对所述可行数据集合进行多轮迭代更新,得到全局模型训练数据。
在本实施例中,需要选取用于对可行数据集合进行更新的新终端数据,即随机选择一个聚类簇k,再从该簇中随机选择一组数据该重新选取的数据需满足/>然后将旧选择数据中聚类簇k的数据lk替换为/>从而得到一组新选择数据。对于新选择数据,采用上述步骤,判断新终端数据是否满足可行约束条件,即判断新终端数据是否可行,如果不可行,从重复上述步骤,继续从聚类簇中随机选取数据,直至满足/>且可行的新终端数据。
通过上述步骤得到可行数据和新终端数据之后,分别获取两组数据的选择开销,假设可行数据对应的选择开销为Cold(t),新终端数据对应的选择开销为Cnew(t),其中,选择数据对应的选择开销可以采用以下公式表示:
式中,K表示聚类簇的数量,Lk表示第k个聚类簇中数据的组数,V≥0,是一个预先设置的权重系数,用来权衡选择数据终端的能耗和数据量,其中,
式中,ekl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量,xkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择,Dkl表示第k个聚类簇中第l组数据的样本量,δkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗,B表示训练模型的大小,rkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率,pkl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值。
然后根据开销最小化准则,对可行数据进行迭代更新,具体步骤包括:
步骤S3031,将新终端数据的选择开销减去对应可行数据的选择开销,得到开销差,并判断所述开销差是否大于零;
步骤S3032,若是,则根据选择新终端数据的执行次数,计算选择概率,并根据选择概率,使用新终端数据替换对应可行数据,得到更新后的可行数据集合;
步骤S3033,继续选择新终端数据对可行数据集合进行更新,直至达到预设的迭代停止条件。
在本实施例中,如果新终端数据的开销Cnew(t)不大于旧选择数据的开销Cold(t),则使用新终端数据对可行数据进行更新;否则,则计算两个可行数据之间的开销差:
Δ=Cnew(t)-Cold(t)
同时更新概率调控参数:
其中,η0表示初始概率调控参数,n表示执行新选择数据的次数迭代次数。
然后根据开销差和概率调控参数来计算选择概率:
式中,P表示使用新终端数据对可行数据进行更新的概率,即以概率P对可行数据进行更新,且以概率(1-P)维持可行数据不变,同时如果对可行数据进行更新还需要对应更新其选择开销。
根据上述步骤不断的选择新终端数据并对可行数据集合进行更新,直至概率调控参数达到参数门限,即η≤ηth,其中,ηth是预先设置的接近于零的门限值,停止迭代并得到最终可行数据集合,最终可行数据集合也即全局模型训练数据。通过本实施例提供的迭代步骤,能够快速的筛选出满足约束条件且开销最小的可行数据,从而有效提高数据选择的执行效率。
进一步地,在本实施例中将本地虚拟能量队列长度设置为依赖与前一轮模型更新时消耗的能量,其公式如下所示:
qkl(t+1)=max{qkl(t+1)+ekl(t)-eth,0}
式中,qkl(t+1)表示在t+1轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度,eth表示平均能耗门限值,ekl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量。
根据上述公式可知,数据对应的能耗越大,下一轮模型更新时的本地虚拟能量队列长度越大,本地剩余电量越少。再结合上述的数据选择准则,本发明提供的数据选择方法在每轮模型更新时,更倾向于选择本地剩余电量多、能耗少、数据量大的数据,从而能够在网络资源和终端电量限制条件下,提升参与模型更新的数据多样性,从而快速实现高准确的学习性能。
本实施例提供的一种能源联邦学习数据选择方法,本发明通过数据相似性聚类选择,能够提升数据的代表性,避免模型倾斜问题,并通过时延约束条件下动态选择学习数据,保证了所选择数据总能在规定时间内完成本地模型训练和上传,减缓终端掉队问题,本发明在动态自适应通信条件的同时,减缓终端调度问题,增加参与联邦学习的数据代表性,从而有效改善了针对能源联邦学习的学习性能。
请参阅图2,基于同一发明构思,本发明第二实施例提出的一种能源联邦学习数据选择装置,包括:
数据聚类模块10,用于获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
第一数据选择模块20,用于根据可行约束条件,从所述聚类簇中选取出可行数据集合;
第二数据选择模块30,用于根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
本发明实施例提出的能源联邦学习数据选择装置的技术特征和技术效果与本发明实施例提出的方法相同,在此不予赘述。上述能源联邦学习数据选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
此外,本发明实施例还提出一种能源联邦学习系统,包括一个边缘服务器和至少两个终端设备;
所述终端设备具有用于全局模型训练的终端数据;
所述边缘服务器采用如上所述的方法从所述终端设备发送的终端数据中选取全局模型训练数据。
综上,本发明实施例提出的一种能源联邦学习数据选择方法、装置和能源联邦学习系统,所述方法通过获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;根据可行约束条件,从所述聚类簇中选取出可行数据集合;根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。本发明提供的数据选择方法能够自适应网络状态,在网络资源和终端电量限制条件下,减缓终端调度问题,有效提升参与模型更新的数据多样性,快速实现高准确的学习性能。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种能源联邦学习数据选择方法,其特征在于,所述方法包括:
获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
根据可行约束条件,从所述聚类簇中选取出可行数据集合;
根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
2.根据权利要求1所述的能源联邦学习数据选择方法,其特征在于,所述根据可行约束条件,从所述聚类簇中选取出可行数据集合的步骤包括:
从每个聚类簇中随机选取一组终端数据,判断所述终端数据是否满足可行约束条件,直至得到满足可行约束条件的所述终端数据,并将所述终端数据作为可行数据;
将各个聚类簇中的可行数据组成可行数据集合。
3.根据权利要求2所述的能源联邦学习数据选择方法,其特征在于,所述判断所述终端数据是否满足可行约束条件,直至得到满足可行约束条件的所述终端数据,并将所述终端数据作为可行数据的步骤包括:
根据可行约束条件建立凸优化问题,并根据所述终端数据,对所述凸优化问题进行求解,得到最优解;
判断所述最优解是否大于时延门限,若否,则将所述终端数据作为可行数据;若是,则从聚类簇中重新选取终端数据,并进行求解和判断,直至得到可行数据。
4.根据权利要求2所述的能源联邦学习数据选择方法,其特征在于,所述根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据的步骤包括:
从随机选取的聚类簇中随机选取一组满足可行约束条件且与可行数据不同的新终端数据;
从可行数据集合中提取与新终端数据为同一聚类簇的对应可行数据,并分别获取对应可行数据和新终端数据的选择开销,其中,所述选择开销根据数据的样本量、选择能耗和本地虚拟能量队列长度计算得到;
根据开销最小化准则,使用新终端数据对所述可行数据集合进行多轮迭代更新,得到全局模型训练数据。
5.根据权利要求4所述的能源联邦学习数据选择方法,其特征在于,所述根据开销最小化准则,使用新终端数据对所述可行数据集合进行多轮迭代更新的步骤包括:
将新终端数据的选择开销减去对应可行数据的选择开销,得到开销差,并判断所述开销差是否大于零;
若是,则根据选择新终端数据的执行次数,计算选择概率,并根据选择概率,使用新终端数据替换对应可行数据,得到更新后的可行数据集合;
继续选择新终端数据对可行数据集合进行更新,直至达到预设的迭代停止条件。
6.根据权利要求5所述的能源联邦学习数据选择方法,其特征在于,所述则根据选择新终端数据的执行次数,计算选择概率的步骤包括:
根据选择新终端数据的执行次数,计算概率调控参数;
根据所述开销差和所述概率调控参数,计算选择概率。
7.根据权利要求4所述的能源联邦学习数据选择方法,其特征在于,在所述得到全局模型训练数据步骤之后,还包括:
根据全局模型训练数据的选择能耗,对本地虚拟能量队列长度进行更新。
8.根据权利要求6所述的能源联邦学习数据选择方法,其特征在于,采用如下公式计算所述选择能耗:
式中,ekl(t)表示在第t轮通讯中选择第k个聚类簇中第l组数据消耗的能量,xkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据是否被选择,Dkl表示第k个聚类簇中第l组数据的样本量,δkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据在本地训练一个样本的能耗,B表示训练模型的大小,rkl(t)表示在第t轮通讯中第k个聚类簇中第l组数据上传至边缘服务器的通信速率,pkl表示第k个聚类簇中第l组数据上传至边缘服务器时的功率值;
采用如下公式计算所述本地虚拟能量队列长度:
qkl(t+1)=max{qkl(t+1)+ekl(t)-eth,0}
式中,qkl(t+1)表示在t+1轮通讯中第k个聚类簇中第l组数据的本地虚拟能量队列长度,eth表示平均能耗门限值;
采用如下公式计算所述选择开销:
式中,K表示聚类簇的数量,Lk表示第k个聚类簇中数据的组数,V表示权重系数;
采用如下公式计算概率调控参数:
式中,η0表示初始概率调控参数,n表示选择新终端数据的执行次数;
采用如下公式计算选择概率:
式中,△表示开销差,P表示使用新终端数据对可行数据进行更新的选择概率。
9.一种能源联邦学习数据选择装置,其特征在于,所述装置包括:
数据聚类模块,用于获取当前通讯轮次内各个终端设备发送的终端数据,并根据数据相似性,对所述终端数据进行聚类,得到若干个聚类簇;
第一数据选择模块,用于根据可行约束条件,从所述聚类簇中选取出可行数据集合;
第二数据选择模块,用于根据开销最小化准则,对所述可行数据集合进行迭代更新,得到全局模型训练数据。
10.一种能源联邦学习系统,其特征在于,所述系统包括:
一个边缘服务器和至少两个终端设备;
所述终端设备具有用于全局模型训练的终端数据;
所述边缘服务器采用如权利要求1至8任一项所述的方法从所述终端设备发送的终端数据中选取全局模型训练数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311560308.7A CN117592580A (zh) | 2023-11-21 | 2023-11-21 | 能源联邦学习数据选择方法、装置和能源联邦学习系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311560308.7A CN117592580A (zh) | 2023-11-21 | 2023-11-21 | 能源联邦学习数据选择方法、装置和能源联邦学习系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117592580A true CN117592580A (zh) | 2024-02-23 |
Family
ID=89919468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311560308.7A Pending CN117592580A (zh) | 2023-11-21 | 2023-11-21 | 能源联邦学习数据选择方法、装置和能源联邦学习系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592580A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668128A (zh) * | 2020-12-21 | 2021-04-16 | 国网辽宁省电力有限公司物资分公司 | 联邦学习系统中终端设备节点的选择方法及装置 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
WO2022233511A2 (en) * | 2021-05-05 | 2022-11-10 | Nokia Technologies Oy | Efficient federated-learning model training in wireless communication system |
CN115510936A (zh) * | 2021-06-23 | 2022-12-23 | 华为技术有限公司 | 基于联邦学习的模型训练方法及聚类分析器 |
-
2023
- 2023-11-21 CN CN202311560308.7A patent/CN117592580A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668128A (zh) * | 2020-12-21 | 2021-04-16 | 国网辽宁省电力有限公司物资分公司 | 联邦学习系统中终端设备节点的选择方法及装置 |
WO2022233511A2 (en) * | 2021-05-05 | 2022-11-10 | Nokia Technologies Oy | Efficient federated-learning model training in wireless communication system |
CN115510936A (zh) * | 2021-06-23 | 2022-12-23 | 华为技术有限公司 | 基于联邦学习的模型训练方法及聚类分析器 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
Non-Patent Citations (3)
Title |
---|
MOMING DUAN等: "FedGroup: Efficient Clustered Federated Learning via Decomposed Similarity-Based Clustering", 《ISPA/BDCLOUD/SOCIALCOM/SUSTAINCOM》, 22 December 2021 (2021-12-22), pages 2021 * |
王璐: "无线联邦学习中的资源优化机制研究", 《万方数据》, 2 October 2023 (2023-10-02) * |
黄欣等: "基于BWO-DBSCAN和CSA-OCRKELM的变电站数据流异常检测方法", 《广东电力》, vol. 36, no. 05, 31 May 2023 (2023-05-31), pages 39 - 48 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN110493360B (zh) | 多服务器下降低系统能耗的移动边缘计算卸载方法 | |
CN112286677B (zh) | 一种面向资源受限边缘云的物联网应用优化部署方法 | |
CN111093203B (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
CN113242568A (zh) | 一种不确定网络环境中的任务卸载和资源分配方法 | |
CN110968426B (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN109710374A (zh) | 移动边缘计算环境下最小化任务卸载费用的vm迁移策略 | |
CN113778648A (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN111147604B (zh) | 一种车联网边缘计算的负载均衡方法 | |
CN113033800A (zh) | 分布式深度学习方法、装置、参数服务器及主工作节点 | |
CN114595049A (zh) | 一种云边协同任务调度方法及装置 | |
CN111988787B (zh) | 一种任务的网络接入和服务放置位置选择方法及系统 | |
CN113364859A (zh) | 车联网中面向mec的联合计算资源分配和卸载决策优化方案 | |
CN112231117B (zh) | 基于动态向量混合遗传算法的云机器人服务选择方法及系统 | |
CN117202264A (zh) | Mec环境中面向5g网络切片的计算卸载方法 | |
CN116939866A (zh) | 一种基于协同计算和资源分配联合优化的无线联邦学习效率提升方法 | |
CN111930435A (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN117592580A (zh) | 能源联邦学习数据选择方法、装置和能源联邦学习系统 | |
CN112446484A (zh) | 一种多任务训练集群智能网络系统及集群网络优化方法 | |
CN115834386A (zh) | 面向边缘计算环境中的智能服务部署方法、系统及终端 | |
CN110933728B (zh) | 虚拟化无线传感网络的映射方法、装置、存储介质 | |
CN114173421A (zh) | 基于深度强化学习的LoRa逻辑信道及功率分配方法 | |
Liu et al. | Computation offloading and task scheduling with fault-tolerance for minimizing redundancy in edge computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |