CN117094355B - 模型更新方法、非易失性存储介质及计算机设备 - Google Patents
模型更新方法、非易失性存储介质及计算机设备 Download PDFInfo
- Publication number
- CN117094355B CN117094355B CN202311365221.4A CN202311365221A CN117094355B CN 117094355 B CN117094355 B CN 117094355B CN 202311365221 A CN202311365221 A CN 202311365221A CN 117094355 B CN117094355 B CN 117094355B
- Authority
- CN
- China
- Prior art keywords
- initial
- model
- node
- module
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004821 distillation Methods 0.000 claims abstract description 204
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 55
- 238000003672 processing method Methods 0.000 claims 4
- 238000004891 communication Methods 0.000 abstract description 18
- 238000010801 machine learning Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000002776 aggregation Effects 0.000 description 11
- 238000004220 aggregation Methods 0.000 description 11
- 230000004931 aggregating effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种模型更新方法、非易失性存储介质及计算机设备。其中,该方法包括:接收边缘节点各自训练的初始节点模型的模型参数,其中,初始节点模型包括:初始通用模块和初始个性化模块;根据模型参数对初始节点模型进行聚合,生成包括全局通用模块的全局模型;根据老师模型对目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果;根据全局通用模块和第一蒸馏结果,确定目标节点的模块更新参数;将模块更新参数发送至目标节点以更新目标节点的初始节点模型。本发明解决了采用联邦学习的边缘计算场景中云端和边端之间的通信开销太大的技术问题。
Description
技术领域
本发明涉及边缘计算领域,具体而言,涉及一种模型更新方法、非易失性存储介质及计算机设备。
背景技术
随着云计算、人工智能、物联网和边缘计算技术的发展,边缘智能在融合边缘计算功能的基础上,通过将智能计算由云计算中心下沉到边缘侧,能够满足敏捷连接、实时业务、智能应用、安全与隐私保护等方面的关键需求。目前,边缘智能技术已成为产业发展的热点和重点方向之一,在诸多应用场景中发挥着重要的作用,如工业物联网、智能家居、智慧医疗、多媒体服务、车联网等。
在资源有限的边缘侧实现实时智能通常面临着AI模型的训练需要大量的计算资源和数据样本的挑战。为解决此问题,联邦学习(Federated Learning,FL)通过协同多个具有计算能力的边缘节点利用各自隐私数据训练本地模型,然后汇聚到特定的云端服务器对全局模型进行更新,更新后的全局模型再分发到各边缘节点进行替换。这种分布式训练的方式能够充分地利用多节点分散的计算资源,降低系统通信带宽压力,并能在保障隐私安全的前提下打破“数据孤岛”困境。
然而,随着技术的发展,AI模型的功能越来越分化,模型的参数越来越庞大,云边协同场景下的联邦学习方案面临着对各个边缘端的本地模型进行更新时通信开销大、通信耗时长,更新越来越缓慢的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种模型更新方法、非易失性存储介质及计算机设备,以至少解决采用联邦学习的边缘计算场景中云端和边端之间的通信开销太大的技术问题。
根据本发明实施例的一个方面,提供了一种模型更新方法,包括:接收边缘节点各自训练的初始节点模型的模型参数,其中,所述初始节点模型包括:初始通用模块和初始个性化模块;根据所述模型参数对所述初始节点模型进行聚合,生成全局模型,其中,所述全局模型包括全局通用模块,所述全局通用模块由所述初始通用模块聚合而成;根据老师模型对所述边缘节点中的目标节点的所述初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的所述初始个性化模块;根据所述全局通用模块和所述第一蒸馏结果,确定所述边缘节点中目标节点对应的模块更新参数;将所述模块更新参数发送至所述目标节点,其中,所述模块更新参数用于更新所述目标节点中的初始节点模型。
可选地,所述根据老师模型对所述边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:根据所述边缘节点中的初始节点模型的模型参数,确定所述其他节点中的初始节点模型各自与所述目标节点中的初始节点模型之间的相关度;将所述其他节点的初始节点模型中相关度大于预定阈值的初始节点模型加入老师模型集合;根据所述老师模型集合中的初始个性化模块对所述目标节点中的初始个性化模块进行知识蒸馏,生成所述第一蒸馏结果。
可选地,所述根据所述边缘节点中的初始节点模型的模型参数,确定所述其他节点中的初始节点模型各自与所述目标节点中的初始节点模型之间的相关度,包括:根据所述其他节点中的初始节点模型的模型参数,生成与所述其他节点中的初始节点模型一一对应的第一云端节点模型;根据所述目标节点中的初始节点模型的模型参数,生成与所述目标节点中的初始节点模型对应的第二云端节点模型;将全局数据集输入所述第一云端节点模型,得到第一输出结果,以及将所述全局数据集输入所述第二云端节点模型,得到第二输出结果;根据所述第一输出结果与所述第二输出结果之间的相似程度,确定所述相关度。
可选地,所述根据老师模型对所述边缘节点中的目标节点的所述初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:在所述边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,根据所述其他节点的初始参数掩膜对所述目标节点的初始参数掩膜进行掩膜蒸馏,得到掩膜蒸馏结果,其中,所述初始参数掩膜用于对所述初始节点模型中的初始通用模块的模型结构进行稀疏化,所述第一蒸馏结果包括所述掩膜蒸馏结果;根据所述其他节点的初始任务模型对所述目标节点的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏,得到目标蒸馏结果和特征蒸馏结果,其中,所述第一蒸馏结果包括所述目标蒸馏结果和所述特征蒸馏结果。
可选地,所述根据所述全局通用模块和所述第一蒸馏结果,确定所述边缘节点中目标节点对应的模块更新参数,包括:在所述模块更新参数包括第一参数和第二参数的情况下,根据所述全局通用模块,生成所述第一参数,其中,所述第一参数用于更新所述目标节点中的初始通用模块;根据所述第一蒸馏结果,生成所述第二参数,其中,所述第二参数用于更新所述目标节点中的初始个性化模块。
可选地,所述根据所述全局通用模块,生成所述第一参数,包括:在所述边缘节点的初始个性化模块包括初始参数掩膜的情况下,确定所述目标节点的初始节点模型对应的初始参数掩膜;根据所述目标节点的初始参数掩膜对所述全局通用模块进行模型结构稀疏化,得到所述第一参数。
根据本发明实施例的一个方面,提供了一种模型更新方法,包括:将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,所述目标节点为边缘节点之一,所述边缘节点中部署各自训练的初始节点模型,所述初始节点模型包括:初始通用模块和初始个性化模块;接收所述云端服务器发送的与所述目标节点对应的模块更新参数,其中,所述模块更新参数由所述云端服务器根据全局通用模块和第一蒸馏结果确定,所述全局通用模块由所述云端服务器聚合所述边缘节点的初始通用模块后得到,所述第一蒸馏结果由所述云端服务器根据老师模型对所述目标节点的初始个性化模块进行知识蒸馏得到,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的初始个性化模块;根据所述模块更新参数更新所述目标节点的初始节点模型,生成目标节点模型。
可选地,根据所述模块更新参数更新所述目标节点的初始节点模型,生成目标节点模型,包括:在所述模块更新参数包括第一参数和第二参数的情况下,根据所述第一参数,更新所述目标节点中的初始通用模块,生成目标通用模块,其中,所述第一参数由所述云端服务器根据所述全局通用模块生成;根据所述第二参数,更新所述目标节点中的初始个性化模块,生成目标个性化模块,其中,所述第二参数由所述云端服务器根据所述第一蒸馏结果生成;根据所述目标通用模块和所述目标个性化模块,生成所述目标节点模型。
可选地,所述根据所述目标通用模块和所述目标个性化模块,生成所述目标节点模型,包括:根据本地训练数据训练所述目标节点的初始节点模型,得到本地训练结果;将所述目标节点的初始节点模型作为老师模型进行知识蒸馏,得到第二蒸馏结果;根据所述本地训练结果、所述第二蒸馏结果、所述目标通用模块和所述目标个性化模块,生成所述目标节点模型。
可选地,在所述边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,所述第一蒸馏结果,包括:掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果,其中,所述初始参数掩膜用于对所述目标节点中的初始通用模块的模型结构进行稀疏化,所述目标蒸馏结果和所述特征蒸馏结果由所述云端服务器根据所述其他节点中的初始任务模型对所述目标节点中的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏得到。
可选地,所述第一参数由所述云端服务器根据所述目标节点的初始个性化模块的初始参数掩膜对所述全局通用模块进行结构稀疏化后得到。
根据本发明实施例的另一方面,还提供了一种模型更新装置,包括:第一接收单元,用于接收边缘节点各自训练的初始节点模型的模型参数,其中,所述初始节点模型包括:初始通用模块和初始个性化模块;聚合单元,用于根据所述模型参数对所述初始节点模型进行聚合,生成全局模型,其中,所述全局模型包括全局通用模块,所述全局通用模块由所述初始通用模块聚合而成;知识蒸馏单元,用于根据老师模型对所述边缘节点中的目标节点的所述初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的所述初始个性化模块;确定单元,用于根据所述全局通用模块和所述第一蒸馏结果,确定所述边缘节点中目标节点对应的模块更新参数;第一发送单元,用于将所述模块更新参数发送至所述目标节点,其中,所述模块更新参数用于更新所述目标节点中的初始节点模型。
根据本发明实施例的另一方面,还提供了一种模型更新装置,包括:第二发送单元,用于将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,所述目标节点为边缘节点之一,所述边缘节点中部署各自训练的初始节点模型,所述初始节点模型包括:初始通用模块和初始个性化模块;第二接收单元,用于接收所述云端服务器发送的与所述目标节点对应的模块更新参数,其中,所述模块更新参数由所述云端服务器根据全局通用模块和第一蒸馏结果确定,所述全局通用模块由所述云端服务器聚合所述边缘节点的初始通用模块后得到,所述第一蒸馏结果由所述云端服务器根据老师模型对所述目标节点的初始个性化模块进行知识蒸馏得到,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的初始个性化模块;更新单元,用于根据所述模块更新参数更新所述目标节点的初始节点模型,生成目标节点模型。
根据本发明实施例的又一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述模型更新方法。
根据本发明实施例的再一方面,还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器用于存储程序,所述处理器用于运行所述存储器存储的程序,其中,所述程序运行时执行上述任意一项所述模型更新方法。
在本发明实施例中,在云边协同的联邦学习场景中,采用将边缘侧的完整模型拆分为通用模块和个性化模块两种类型的模块的方式,在云端针对不同类型的模块分别进行全局处理和知识蒸馏处理的联邦学习并生成全局模型后,然后将模型更新参数发送至边缘侧的设备上以对边缘侧的模型进行更新,达到了避免云端将全局模型的全量模型参数发送至边缘侧设备造成通信开销过大的目的,从而实现了快速更新边缘侧设备上的AI模型且节省云边之间的通信开销的技术效果,进而解决了采用联邦学习的边缘计算场景中云端和边端之间的通信开销太大的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明提供的用于实现模型更新方法的计算机终端的硬件结构框图;
图2是根据本发明实施例提供的模型更新方法一的流程示意图;
图3是根据本发明可选实施例提供的基于联邦学习的模型更新方法的示意图;
图4是根据本发明可选实施例提供的多维知识蒸馏的示意图;
图5是根据本发明实施例提供的模型更新方法二的流程示意图;
图6是根据本发明可选实施例提供的云边协同双重知识蒸馏的过程示意图;
图7是根据本发明实施例提供的模型更新装置一的结构框图;
图8是根据本发明实施例提供的模型更新装置二的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现模型更新方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用处理器102a、处理器102b,……,处理器102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的模型更新方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的模型更新方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
在采用联邦学习的边缘计算场景中,边缘计算系统可以分为云端服务器和边缘节点,其中,边缘节点为可以执行边缘计算功能的设备,在不同的场景中边缘节点的硬件实体形式可以不同。不同的边缘节点可以根据各自的本地数据和本地任务训练本地的机器学习模型,然后将各自的本地模型汇聚到云端服务器,对云端服务器的全局模型进行更新,云端的全局模型更新步骤属于算力开销很大的工作,因此并不适合放在边缘端进行,联邦学习采用在云端统一执行上述步骤的方式,云端可以再将更新后的全局模型反馈给各个边缘节点,使得边缘计算系统可以充分利用各个边缘节点分散的计算资源,且减少各个边缘节点的算力开销并保护各个节点的数据隐私。可选地,边缘计算场景可以包括工业物联网、智能家居、车联网等场景,在工业物联网场景中,边缘节点可以是工厂物联网中的各台工业设备;在智能家居场景中,边缘节点可以是家庭中的各台家居设备,例如智能电视、智能洗衣机、智能空调等;在车联网场景中,边缘节点可以是连接到车联网中的各台智能车辆的中央控制系统,或者上述车辆中的支持自动驾驶或者辅助驾驶功能的车内计算单元,云端则为车联网系统的云端服务器。
上述边缘计算场景中,随着科技发展边缘节点中的机器学习模型也日益复杂庞大,导致边缘节点与云端之间的交互效率下降,边缘节点无法快速地基于联邦学习的机制更新迭代本地的机器学习模型,对本地的任务执行造成影响。本发明提出了如下的模型更新方法来解决上述问题。
图2是根据本发明实施例提供的模型更新方法一的流程示意图,可选地,图2所示的模型更新方法一可以应用于云边协同的边缘计算系统中的云端服务器中,边缘节点可以包括边缘计算设备。如图2所示,该方法包括如下步骤:
步骤S202,接收边缘节点各自训练的初始节点模型的模型参数,其中,初始节点模型包括:初始通用模块和初始个性化模块。
本实施例中,边缘节点各自训练的初始节点模型可以为各个边缘节点的本地的机器学习模型,各自用于执行边缘节点本地的任务。例如,在云边协同的边缘计算系统为车联网系统的情况下,初始节点模型可以为各个车辆的障碍物识别模型,并且各个车辆的障碍物识别模型为了更加适配各自车辆的硬件状态,模型的参数和结构各不相同。可选地,各个边缘节点的初始节点模型均可以划分为初始通用模块和初始个性化模块,其中各个初始节点模型的初始通用模块可以用于执行相同的功能,例如对输入初始节点模型的数据进行特征提取这样的基础功能。而各个初始节点模型的初始个性化模块的功能则取决于各个边缘节点所需要完成的节点任务,根据各个边缘节点的具体任务搭建并训练而成,不同边缘节点之间区别较大。可选地,初始通用模块和初始个性化模块也可以是机器学习模型,具有模型结构和模型参数。可选地,初始通用模块可以预先根据各个边缘节点中的本地模型的模型结构和各个模型结构部分的功能进行划分,将各个边缘节点都具有的模型部分结构或者模型模块划分为初始通用模块。
步骤S204,根据模型参数对初始节点模型进行聚合,生成全局模型,其中,全局模型包括全局通用模块,全局通用模块由初始通用模块聚合而成。
本步骤中,生成全局模型的过程可以为云端服务器进行联邦机器学习(Federatedmachine learning/Federated Learning)的过程。联邦机器学习也可以称为联邦学习或者联合学习。联邦学习是一种机器学习框架,能有效帮助多个边缘节点在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让各个边缘节点在不共享各自的本地数据的基础上联合建模,从技术上打破数据孤岛,实现AI协作。本步骤中的全局通用模块即为全局模型中具有与各个边缘节点的初始通用模块相同功能的模型部分,可选地全局通用模块还可以包括基于各个初始个性化模块聚合而成的全局个性化模块。
步骤S205,根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块。
基于本步骤,可以进一步地利用边缘计算系统中的其他边缘节点的训练成果对目标节点中的初始节点模型的初始个性化模块进行更新。通过将目标节点以外的其他节点的初始节点模型的初始个性化模块作为老师模型对目标节点的初始节点模型的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,可以利用云端服务器完成对目标节点的个性化模块部分的知识蒸馏,利用其他节点的经验来更新目标节点的个性化模块,降低目标节点侧设备的运算压力。
知识蒸馏(knowledge distillation)是一种模型压缩方法,是一种基于“老师-学生网络思想”的训练方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度,该过程中性能更好的大模型被称为老师模型,轻量化的待训练的小模型被称为学生模型。
由于各个边缘节点的初始节点模型均上传了云端服务器,因此云端服务器可以利用目标节点以外的其他边缘节点的初始节点模型的初始个性化模块对目标节点的初始节点模型的初始个性化模块进行知识蒸馏,将其他边缘节点通过执行本地的任务所训练得到的“知识”提取出来,得到第一蒸馏结果,第一蒸馏结果也可以被称为蒸馏知识。第一蒸馏结果被发送至目标节点之后可以用于更新目标节点的初始节点模型的初始个性化模块,该过程至少具有两个有益效果,分别是可以使得目标节点从其他边缘节点中学习到关于个性化模块的知识,提高目标节点中的初始节点模型的能力,充分挖掘出其他节点的相关知识来提高当前模型新任务的学习效率;以及由于蒸馏得到的第一蒸馏结果参数量要远远小于个性化模块本身,因此该过程可以压缩云端与目标节点之间的通信开销,加快更新速度。进一步地,上述过程通过将消耗大量算力的知识蒸馏过程安排在云端,也降低了边缘节点的计算开销压力,有效应对资源有限的边缘计算场景,显著降低对边缘侧的计算资源消耗。
作为一种可选的实施例,根据老师模型对边缘节点中的目标节点的初始节点模型的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括如下步骤:根据边缘节点中的初始节点模型的模型参数,确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度;将其他节点的初始节点模型中相关度大于预定阈值的初始节点模型加入老师模型集合;根据老师模型集合中的初始个性化模块对目标节点中的初始个性化模块进行知识蒸馏,生成第一蒸馏结果。
可以理解的是,由于不同边缘节点的工作场景以及负责执行的本地任务不同,因此不同边缘节点的初始节点模型中负责实现本地任务的初始个性化模块的模型结构和参数与各自的本地任务相适应,初始个性化模块中有些模块是与目标节点的初始个性化模块处理相似任务的,因此从这样的模块中蒸馏出来的“知识”对于训练目标节点中的初始个性化模块更有价值,因此可以通过本可选实施例将其他节点中的相关度较大的初始节点模型中的初始个性化模块筛选出来作为老师模型,然后采用老师模型对目标节点的初始个性化模块进行知识蒸馏,保证蒸馏学习的效率和蒸馏效果。
图3是根据本发明可选实施例提供的基于联邦学习的模型更新方法的示意图,如图3所示,设备1至设备K为各个边缘节点各自包括的边缘计算设备,边缘节点各自使用本地数据集进行本地的模型迭代训练。边缘端的机器学习模型可以划分为通用模块和个性化模块两部分,个性化模块可以包括参数掩膜和任务模型。该可选实施例提供的是一种基于模型分解的联邦学习,在联邦学习的框架下,考虑到边缘端不同节点的可用资源、数据分布、任务类别存在差异性,可以将节点k的模型分解为通用模块Bk,对应的参数掩膜Mk,和任务模型Ak,其中B可以在所有边缘节点上具有相同结构,M和A则根据边缘节点k的任务和数据具有个性化结构和参数。在模型参数聚合过程中,全局通用模块BG的参数由不同节点的B和M结果平均得到,全局的任务模型AG可以由不同节点的任务模型的参数平均得到。
需要说明的是,参数掩膜的用途虽然是对通用模块进行结构稀疏化,但是参数掩膜的训练和传输方式更接近于任务模型,因此将参数掩膜和任务模型划归为个性化模块。可选地,边缘节点各自训练的初始节点模型中,分别包括初始参数掩膜,云端接收到各个边缘节点上传的初始参数掩膜后进行知识蒸馏,得到目标节点对应的掩膜蒸馏结果,然后将掩膜蒸馏结果反馈至目标节点,该过程与目标节点通用模块的更新过程相互独立,并不依赖通用模块的聚合结果。云端接收到各个边缘节点的机器学习模型(即初始节点模型)后,基于联邦学习的机制将其聚合为全局模型,并基于全局数据集确定各个初始节点模型之间的相关度,将与目标节点(例如目标节点可以依次为各个边缘节点)相关度高的边缘节点的模型中的个性化模块放入老师模型集合,对目标节点的模型中的个性化模块进行知识蒸馏,并将蒸馏得到的与目标节点对应的第一蒸馏结果连同全局模型中的全局通用模块返回给对应的目标节点,目标节点据此完成自身的训练更新。
作为一种可选的实施例,可以通过如下方式确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度:根据其他节点中的初始节点模型的模型参数,生成与其他节点中的初始节点模型一一对应的第一云端节点模型;根据目标节点中的初始节点模型的模型参数,生成与目标节点中的初始节点模型对应的第二云端节点模型;将全局数据集输入第一云端节点模型,得到第一输出结果,以及将全局数据集输入第二云端节点模型,得到第二输出结果;根据第一输出结果与第二输出结果之间的相似程度,确定相关度。
本步骤中,云端服务器可以根据模型参数在云端生成与各个边缘节点对应的云端节点模型,并且保证云端节点模型与各个边缘节点中的初始节点模型相同,然后将预存在云端并作为训练数据集的全局数据集中的训练数据输入各个云端节点模型,基于各个云端节点模型的输出结果的结果类型、结果参数值等确定各个云端节点模型的相关度,该过程等价于确定各个边缘节点中的初始节点模型之间的相关度。可以理解的是,模型输出结果越接近的模型,模型之间的相关度就越高,因此,可以根据各个第一输出结果各自与第二输出结果的相似程度,确定各个第一输出结果对应的第一云端节点模型分别与第二云端节点模型之间的相关度,进而确定其他节点中的初始节点模型与目标节点中的初始节点模型之间的相关度。
作为一种可选的实施例,根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,可以包括如下方式:在边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,根据其他节点的初始参数掩膜对目标节点的初始参数掩膜进行掩膜蒸馏,得到掩膜蒸馏结果,其中,初始参数掩膜用于对初始节点模型中的初始通用模块的模型结构进行稀疏化;根据其他节点的初始任务模型对目标节点的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏,得到目标蒸馏结果和特征蒸馏结果,其中,第一蒸馏结果包括掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果。
本实施例中,参数掩膜可以实现参数屏蔽作用,用初始节点模型中的初始参数掩膜可以对初始通用模块上的某些参数进行屏蔽,使其不参加模型处理或不参加处理参数的计算。采用参数掩膜可以进一步压缩通用模块的参数量,降低云端与边缘节点之间的通信开销,并且使用参数掩膜可以调整通用模块的模型参数结构,使得不同边缘节点中的机器学习模型的通用模块可以更加适合本地的任务执行。
本实施例中的蒸馏方式可以被称为多维知识蒸馏,多维知识蒸馏可以从不同的角度联合使用基于目标蒸馏(又称为logit蒸馏)、基于特征蒸馏(又称为特征feature蒸馏)和掩膜蒸馏(又称为mask蒸馏)来对当前的模型训练进行辅助,其中logit蒸馏是以老师模型的输出作为软目标来激励学生模型,特征蒸馏通过提取老师模型的中间层特征来指导学生模型相同的特征响应,使能特征级知识迁移,掩膜蒸馏从任务的角度考虑,确保老师模型和学生模型在相同任务中具有类似的模型结构;
logit蒸馏Lld将老师模型的logit输出作为软目标(soft targets)去训练学生模型,由于soft targets预先承载了训练数据集的抽象知识,因此有利于学生模型的训练,其损失函数如下:
其中,pk,pk代表老师模型和学生模型对当前输入的概率输出,使用L2损失计算loss。
特征蒸馏Lfd将老师模型的高级特征迁移到学生模型,保证学生模型像老师模型一样学习输入图像的区别性和语义性特征,其损失函数如下:
其中,R=1,2,..., WF×HF代表feature map里所有的点,代表从特征向量Fi与Fj之间计算得出的两个像素点之间的特征映射图。
掩膜蒸馏Lmd将老师模型的参数掩膜作为目标去训练学生模型,保证学生模型和老师模型在解决相同任务时使用相同的网络结构。
其中,WM和HM代表参数掩膜的大小,代表参数掩膜中对应位置的值,值为0或1。
图4是根据本发明可选实施例提供的多维知识蒸馏的示意图,如图4所示,老师模型中的At表示老师模型的任务模型、Bt表示老师模型的通用模块,Mt表示老师模型的参数掩膜,学生模型中的As表示学生模型的任务模型、Bs表示学生模型的通用模块,Ms表示学生模型的参数掩膜。Prediction为各自模型的模型输出结果。
作为一种可选的实施例,根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数,包括:在模块更新参数包括第一参数和第二参数的情况下,根据全局通用模块,生成第一参数,其中,第一参数用于更新目标节点中初始节点模型的初始通用模块;根据第一蒸馏结果,生成第二参数,其中,第二参数用于更新目标节点中初始节点模型的初始个性化模块。
基于本可选的实施例,可以实现对目标节点中的初始节点模型中的初始通用模块和初始个性化模块的分别更新。可选的,模块更新参数还可以包括第一参数或第二参数,进而实现对目标节点中的初始节点模型的不同模块的更新过程的解耦,使得目标节点的初始节点模型的更新过程更加灵活。
作为一种可选的实施例,根据全局通用模块生成第一参数时,可以先在边缘节点各自训练的初始节点模型的初始个性化模块包括初始参数掩膜的情况下,确定目标节点的初始节点模型对应的初始参数掩膜,然后根据初始参数掩膜对全局通用模块进行模型结构稀疏化,得到第一参数。
步骤S206,根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数。需要说明的是,本步骤中的模块更新参数根据全局模型中的全局通用模块生成,而不包括全局模型中聚合得到的全局个性化模块,因此比将整个全局模型进行参数化更加的轻量化。
步骤S208,将模块更新参数发送至目标节点,其中,模块更新参数用于更新目标节点中的初始节点模型。
可选地,目标节点可以为边缘节点中的一个或多个节点,本步骤中目标节点可以采用全局通用模块替换各个目标节点中的机器学习模型中的初始通用模块,实现对各个目标节点中的机器学习模型的更新。并且,由于全局通用模块发挥的功能与初始通用模块的功能相同,因此该更新方式不会对各个边缘节点中的机器学习模型执行本地任务产生负面影响,并且可以大大降低联邦学习中云端与边缘节点之间的通信开销。
通过上述步骤,在云边协同的联邦学习场景中,采用将边缘侧的完整模型拆分为通用模块和个性化模块两种类型的模块的方式,在云端针对不同类型的模块分别进行全局处理和知识蒸馏处理的联邦学习并生成全局模型后,然后将模型更新参数发送至边缘侧的设备上以对边缘侧的模型进行更新,达到了避免云端将全局模型的全量模型参数发送至边缘侧设备造成通信开销过大的目的,从而实现了快速更新边缘侧设备上的AI模型且节省云边之间的通信开销的技术效果,进而解决了采用联邦学习的边缘计算场景中云端和边端之间的通信开销太大的技术问题。
图5是根据本发明实施例提供的模型更新方法二的流程示意图,可选地,图5所示的模型更新方法二可以应用于云边协同的边缘计算系统中的边缘节点中,边缘节点可以包括边缘计算设备,边缘节点可以与边缘计算系统中的云端服务器通信。如图5所示,该方法包括如下步骤:
步骤S502,将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,目标节点为边缘节点之一,边缘节点中部署各自训练的初始节点模型,初始节点模型包括:初始通用模块和初始个性化模块。
步骤S504,接收云端服务器发送的与目标节点对应的模块更新参数,其中,模块更新参数由云端服务器根据全局通用模块和第一蒸馏结果确定,全局通用模块由云端服务器聚合边缘节点的初始通用模块后得到,第一蒸馏结果由云端服务器根据老师模型对目标节点的初始个性化模块进行知识蒸馏得到,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块。
步骤S506,根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型。
通过上述步骤,在云边协同的联邦学习场景中,采用将边缘侧的完整模型拆分为通用模块和个性化模块的方式,在云端进行联邦学习并生成全局模型后,通过将通用模块对应的模型参数发送至边缘侧的设备上以对边缘侧的模型进行更新,而不需要将个性化模块对应的模型参数直接发送到边缘侧,达到了避免云端将全局模型的全量模型参数发送至边缘侧设备造成通信开销过大的目的,从而实现了快速更新边缘侧设备上的AI模型且节省云边之间的通信开销的技术效果,进而解决了采用联邦学习的边缘计算场景中云端和边端之间的通信开销太大的技术问题。
作为一种可选的实施例,根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型,包括如下步骤:在模块更新参数包括第一参数和第二参数的情况下,根据第一参数,更新目标节点中初始节点模型的初始通用模块,生成目标通用模块,其中,第一参数由云端服务器根据全局通用模块生成;根据第二参数,更新目标节点中初始节点模型的初始个性化模块,生成目标个性化模块,其中,第二参数由云端服务器根据第一蒸馏结果生成;根据目标通用模块和目标个性化模块,生成目标节点模型。
基于第一参数和第二参数,可以同时更新目标节点的初始节点模型的通用模块和个性化模块。利用云端通过知识蒸馏后得到的第一蒸馏结果对目标节点内的机器学习模型的个性化模块进行训练,可以将从其他边缘节点中学习到的“知识”传递给目标节点本地的机器学习模型中,提高了目标节点本地对个性化模块的训练效果。
作为一种可选的实施例,根据目标通用模块和目标个性化模块,生成目标节点模型,包括:根据本地训练数据训练目标节点的初始节点模型,得到本地训练结果;将目标节点的初始节点模型作为老师模型进行知识蒸馏,得到第二蒸馏结果;根据本地训练结果、第二蒸馏结果、目标通用模块和目标个性化模块,生成目标节点模型。
本实施例中,本地训练数据可以为目标节点的本地隐私数据,边缘节点的机器学习模型除了基于联邦学习机制进行更新,也基于持续学习的机制进行训练更新。持续学习(Continual Learning,CL)又名终身学习或连续学习,随着近年来数据呈现爆炸式的增长,机器学习算法中,训练数据与测试数据很难达到分布相似的状态,一般的机器学习算法很难在动态的环境中连续自适应的学习,因此,研究者们提出了持续学习算法,来解决该问题。持续学习模拟了人类大脑的学习思考方式,能够对非独立同分布的数据流进行学习。他的本质是既能够对到来的新数据进行利用,并基于之前任务积累的经验,在新的数据上很好的完成任务;又能够避免遗忘问题,对曾经训练过的任务依旧保持很高的精度,即避免出现灾难性遗忘的问题。基于本实施例提供的方法,在目标节点利用上一时刻的模型作为老师模型进行知识蒸馏,可以将模型之前学习到的知识经验保留下来,避免发生灾难性遗忘,达到更好地模型学习效果。
作为一种可选的实施例,在边缘节点的初始节点模型的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,第一蒸馏结果可以包括掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果,其中,初始参数掩膜用于对目标节点的初始节点模型中的初始通用模块的模型结构进行稀疏化,目标蒸馏结果和特征蒸馏结果由云端服务器根据其他节点的初始节点模型中的初始任务模型对目标节点的初始节点模型中的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏得到。可选地,边缘节点进行的第二蒸馏也可以包括掩膜蒸馏(mask蒸馏)、基于目标蒸馏(logit蒸馏)和基于特征蒸馏(特征feature蒸馏),得到的第二蒸馏结果包括对应的蒸馏结果。
基于上述可选的实施例,当任意边缘节点k进行新任务学习时,可以通过联合本地数据训练和对其他节点任务知识蒸馏来提高本地的机器学习模型训练效率。在进行知识蒸馏的过程中,从不同的角度联合使用logit蒸馏、特征蒸馏和mask蒸馏来对当前的本地模型训练进行辅助。并且还可以基于云边协同进行知识蒸馏计算,在进行知识蒸馏计算的过程中,边缘节点的目标节点负责对前一时刻的机器学习模型进行知识蒸馏,云端可以负责筛选出与当前目标节点任务相关性较强的其他节点的知识并对其他节点的知识进行选择性蒸馏。云端完成全局知识蒸馏后将蒸馏的结果返回到目标节点,目标节点可以将其与本地训练结果和局部历史知识整理结果融合进行本地的模型参数更新。
作为一种可选的实施例,第一参数由云端服务器根据目标节点的初始个性化模块的初始参数掩膜对全局通用模块进行结构稀疏化后得到。
图6是根据本发明可选实施例提供的云边协同双重知识蒸馏的过程示意图,基于图6,本申请提供了如下的可选实施例对边缘节点中的目标节点的机器学习模型(初始节点模型)进行更新的步骤流程:
步骤1,用户对联邦学习的目标、模型、云端服务器、参与训练的边缘节点等达成一致,其中,各节点的初始节点模型由初始通用模块、初始参数掩膜和初始任务模型三部分组成。
步骤2,按照标准的联邦学习策略进行本地的初始节点模型的训练和在云端进行全局模型聚合,首先,各个边缘节点按照本地训练迭代次数、训练批次大小、学习率等参数,使用本地的训练数据并行地进行本地模型的个性化训练,得到初始节点模型;然后,各边缘节点将作为本地训练结果的初始节点模型的模型参数发送到云端服务器,模型参数包括初始节点模型的三个部分的模型参数;最后,云端服务器根据接收到的不同边缘节点的本地训练结果进行全局模型聚合,可选地,全局模型的全局通用模块的参数由各边缘节点的初始通用模块和初始参数掩膜点乘的结果进行平均后得到。
步骤3,云端服务器根据所有初始节点模型在全局数据集上的输出结果计算不同边缘节点的任务之间的相关度,并据此筛选出与目标节点任务相关度较高的节点作为老师模型,并利用老师模型的知识对目标节点k进行全维知识蒸馏,使得目标节点k的模型与其他老师模型在全局数据集上具有相似的表现,将蒸馏知识作为第一蒸馏结果并发送到目标节点k。
步骤4,当目标节点k需要进行新任务学习时,本地模型使用新的训练数据对当前模型进行再训练,同时,对前一时刻模型参数进行全维知识蒸馏,将得到的蒸馏知识作为第二蒸馏结果,以及将新的模型参数上传到云端,供云端迭代更新全局模型。
步骤5,目标节点k可以将接收到的第一蒸馏结果、包含本地历史知识的第二蒸馏结果、以及新训练数据的训练结果进行融合,进而对本地模型参数进行更新。
步骤6,判断是否触发训练终止条件,如本地的机器学习模型准确率达到期望值、训练迭代数达到阈值、模型损失小于或等于阈值等;若是,终止训练,若否,重复上述步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的模型更新方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例,还提供了一种用于实施上述模型更新方法一的模型更新装置一,图7是根据本发明实施例提供的模型更新装置一的结构框图,如图7所示,该模型更新装置一包括:第一接收单元72,聚合单元74,知识蒸馏单元75,确定单元76和第一发送单元78,下面对该模型更新装置一进行说明。
第一接收单元72,用于接收边缘节点各自训练的初始节点模型的模型参数,其中,初始节点模型包括:初始通用模块和初始个性化模块;
聚合单元74,连接于上述第一接收单元72,用于根据模型参数对初始节点模型进行聚合,生成全局模型,其中,全局模型包括全局通用模块,全局通用模块由初始通用模块聚合而成;
知识蒸馏单元75,连接于上述聚合单元74,用于根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;
确定单元76,连接于上述知识蒸馏单元75,用于根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数;
第一发送单元78,连接于上述确定单元76,用于将模块更新参数发送至目标节点,其中,模块更新参数用于更新目标节点中的初始节点模型。
此处需要说明的是,上述第一接收单元72,聚合单元74,知识蒸馏单元75,确定单元76和第一发送单元78对应于实施例中的步骤S202至步骤S208,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
根据本发明实施例,还提供了一种用于实施上述模型更新方法二的模型更新装置二,图8是根据本发明实施例提供的模型更新装置二的结构框图,如图8所示,该模型更新装置二包括:第二发送单元82,第二接收单元84和更新单元86,下面对该模型更新装置二进行说明。
第二发送单元82,用于将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,目标节点为边缘节点之一,边缘节点中部署各自训练的初始节点模型,初始节点模型包括:初始通用模块和初始个性化模块;
第二接收单元84,连接于上述第二发送单元82,用于接收云端服务器发送的与目标节点对应的模块更新参数,其中,模块更新参数由云端服务器根据全局通用模块和第一蒸馏结果确定,全局通用模块由云端服务器聚合边缘节点的初始通用模块后得到,第一蒸馏结果由云端服务器根据老师模型对目标节点的初始个性化模块进行知识蒸馏得到,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;
更新单元86,连接于上述第二接收单元84,用于根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型。
此处需要说明的是,上述第二发送单元82,第二接收单元84和更新单元86对应于实施例中的步骤S502至步骤S506,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的模型更新方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的模型更新方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收边缘节点各自训练的初始节点模型的模型参数,其中,初始节点模型包括:初始通用模块和初始个性化模块;根据模型参数对初始节点模型进行聚合,生成全局模型,其中,全局模型包括全局通用模块,全局通用模块由初始通用模块聚合而成;根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数;将模块更新参数发送至目标节点,其中,模块更新参数用于更新目标节点中的初始节点模型。
可选的,上述处理器还可以执行如下步骤的程序代码:根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:根据边缘节点中的初始节点模型的模型参数,确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度;将其他节点的初始节点模型中相关度大于预定阈值的初始节点模型加入老师模型集合;根据老师模型集合中的初始个性化模块对目标节点中的初始个性化模块进行知识蒸馏,生成第一蒸馏结果。
可选的,上述处理器还可以执行如下步骤的程序代码:根据边缘节点中的初始节点模型的模型参数,确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度,包括:根据其他节点中的初始节点模型的模型参数,生成与其他节点中的初始节点模型一一对应的第一云端节点模型;根据目标节点中的初始节点模型的模型参数,生成与目标节点中的初始节点模型对应的第二云端节点模型;将全局数据集输入第一云端节点模型,得到第一输出结果,以及将全局数据集输入第二云端节点模型,得到第二输出结果;根据第一输出结果与第二输出结果之间的相似程度,确定相关度。
可选的,上述处理器还可以执行如下步骤的程序代码:根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:在边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,根据其他节点的初始参数掩膜对目标节点的初始参数掩膜进行掩膜蒸馏,得到掩膜蒸馏结果,其中,初始参数掩膜用于对初始节点模型中的初始通用模块的模型结构进行稀疏化,第一蒸馏结果包括掩膜蒸馏结果;根据其他节点的初始任务模型对目标节点的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏,得到目标蒸馏结果和特征蒸馏结果,其中,第一蒸馏结果包括目标蒸馏结果和特征蒸馏结果。
可选的,上述处理器还可以执行如下步骤的程序代码:根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数,包括:在模块更新参数包括第一参数和第二参数的情况下,根据全局通用模块,生成第一参数,其中,第一参数用于更新目标节点中的初始通用模块;根据第一蒸馏结果,生成第二参数,其中,第二参数用于更新目标节点中的初始个性化模块。
可选的,上述处理器还可以执行如下步骤的程序代码:根据全局通用模块,生成第一参数,包括:在边缘节点的初始个性化模块包括初始参数掩膜的情况下,确定目标节点的初始节点模型对应的初始参数掩膜;根据目标节点的初始参数掩膜对全局通用模块进行模型结构稀疏化,得到第一参数。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,目标节点为边缘节点之一,边缘节点中部署各自训练的初始节点模型,初始节点模型包括:初始通用模块和初始个性化模块;接收云端服务器发送的与目标节点对应的模块更新参数,其中,模块更新参数由云端服务器根据全局通用模块和第一蒸馏结果确定,全局通用模块由云端服务器聚合边缘节点的初始通用模块后得到,第一蒸馏结果由云端服务器根据老师模型对目标节点的初始个性化模块进行知识蒸馏得到,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型。
可选的,上述处理器还可以执行如下步骤的程序代码:根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型,包括:在模块更新参数包括第一参数和第二参数的情况下,根据第一参数,更新目标节点中的初始通用模块,生成目标通用模块,其中,第一参数由云端服务器根据全局通用模块生成;根据第二参数,更新目标节点中的初始个性化模块,生成目标个性化模块,其中,第二参数由云端服务器根据第一蒸馏结果生成;根据目标通用模块和目标个性化模块,生成目标节点模型。
可选的,上述处理器还可以执行如下步骤的程序代码:根据目标通用模块和目标个性化模块,生成目标节点模型,包括:根据本地训练数据训练目标节点的初始节点模型,得到本地训练结果;将目标节点的初始节点模型作为老师模型进行知识蒸馏,得到第二蒸馏结果;根据本地训练结果、第二蒸馏结果、目标通用模块和目标个性化模块,生成目标节点模型。
可选的,上述处理器还可以执行如下步骤的程序代码:在边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,第一蒸馏结果,包括:掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果,其中,初始参数掩膜用于对目标节点中的初始通用模块的模型结构进行稀疏化,目标蒸馏结果和特征蒸馏结果由云端服务器根据其他节点中的初始任务模型对目标节点中的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏得到。
可选的,上述处理器还可以执行如下步骤的程序代码:第一参数由云端服务器根据目标节点的初始个性化模块的初始参数掩膜对全局通用模块进行结构稀疏化后得到。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一非易失性存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例所提供的模型更新方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:接收边缘节点各自训练的初始节点模型的模型参数,其中,初始节点模型包括:初始通用模块和初始个性化模块;根据模型参数对初始节点模型进行聚合,生成全局模型,其中,全局模型包括全局通用模块,全局通用模块由初始通用模块聚合而成;根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数;将模块更新参数发送至目标节点,其中,模块更新参数用于更新目标节点中的初始节点模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:根据边缘节点中的初始节点模型的模型参数,确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度;将其他节点的初始节点模型中相关度大于预定阈值的初始节点模型加入老师模型集合;根据老师模型集合中的初始个性化模块对目标节点中的初始个性化模块进行知识蒸馏,生成第一蒸馏结果。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据边缘节点中的初始节点模型的模型参数,确定其他节点中的初始节点模型各自与目标节点中的初始节点模型之间的相关度,包括:根据其他节点中的初始节点模型的模型参数,生成与其他节点中的初始节点模型一一对应的第一云端节点模型;根据目标节点中的初始节点模型的模型参数,生成与目标节点中的初始节点模型对应的第二云端节点模型;将全局数据集输入第一云端节点模型,得到第一输出结果,以及将全局数据集输入第二云端节点模型,得到第二输出结果;根据第一输出结果与第二输出结果之间的相似程度,确定相关度。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据老师模型对边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:在边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,根据其他节点的初始参数掩膜对目标节点的初始参数掩膜进行掩膜蒸馏,得到掩膜蒸馏结果,其中,初始参数掩膜用于对初始节点模型中的初始通用模块的模型结构进行稀疏化,第一蒸馏结果包括掩膜蒸馏结果;根据其他节点的初始任务模型对目标节点的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏,得到目标蒸馏结果和特征蒸馏结果,其中,第一蒸馏结果包括目标蒸馏结果和特征蒸馏结果。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据全局通用模块和第一蒸馏结果,确定边缘节点中目标节点对应的模块更新参数,包括:在模块更新参数包括第一参数和第二参数的情况下,根据全局通用模块,生成第一参数,其中,第一参数用于更新目标节点中的初始通用模块;根据第一蒸馏结果,生成第二参数,其中,第二参数用于更新目标节点中的初始个性化模块。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据全局通用模块,生成第一参数,包括:在边缘节点的初始个性化模块包括初始参数掩膜的情况下,确定目标节点的初始节点模型对应的初始参数掩膜;根据目标节点的初始参数掩膜对全局通用模块进行模型结构稀疏化,得到第一参数。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,目标节点为边缘节点之一,边缘节点中部署各自训练的初始节点模型,初始节点模型包括:初始通用模块和初始个性化模块;接收云端服务器发送的与目标节点对应的模块更新参数,其中,模块更新参数由云端服务器根据全局通用模块和第一蒸馏结果确定,全局通用模块由云端服务器聚合边缘节点的初始通用模块后得到,第一蒸馏结果由云端服务器根据老师模型对目标节点的初始个性化模块进行知识蒸馏得到,老师模型包括边缘节点中除目标节点的其他节点中的初始个性化模块;根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据模块更新参数更新目标节点的初始节点模型,生成目标节点模型,包括:在模块更新参数包括第一参数和第二参数的情况下,根据第一参数,更新目标节点中的初始通用模块,生成目标通用模块,其中,第一参数由云端服务器根据全局通用模块生成;根据第二参数,更新目标节点中的初始个性化模块,生成目标个性化模块,其中,第二参数由云端服务器根据第一蒸馏结果生成;根据目标通用模块和目标个性化模块,生成目标节点模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据目标通用模块和目标个性化模块,生成目标节点模型,包括:根据本地训练数据训练目标节点的初始节点模型,得到本地训练结果;将目标节点的初始节点模型作为老师模型进行知识蒸馏,得到第二蒸馏结果;根据本地训练结果、第二蒸馏结果、目标通用模块和目标个性化模块,生成目标节点模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,第一蒸馏结果,包括:掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果,其中,初始参数掩膜用于对目标节点中的初始通用模块的模型结构进行稀疏化,目标蒸馏结果和特征蒸馏结果由云端服务器根据其他节点中的初始任务模型对目标节点中的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏得到。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:第一参数由云端服务器根据目标节点的初始个性化模块的初始参数掩膜对全局通用模块进行结构稀疏化后得到。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种数据协同处理方法,应用于云边协同领域,其特征在于,包括:
接收边缘节点各自训练的初始节点模型的模型参数,其中,所述初始节点模型包括:初始通用模块和初始个性化模块;
根据所述模型参数对所述初始节点模型进行聚合,生成全局模型,其中,所述全局模型包括全局通用模块,所述全局通用模块由所述初始通用模块聚合而成;
根据老师模型对所述边缘节点中的目标节点的所述初始个性化模块进行知识蒸馏,生成第一蒸馏结果,其中,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的所述初始个性化模块;
根据所述全局通用模块和所述第一蒸馏结果,确定所述边缘节点中目标节点对应的模块更新参数;
将所述模块更新参数发送至所述目标节点,其中,所述模块更新参数用于更新所述目标节点中的初始节点模型;
所述根据所述全局通用模块和所述第一蒸馏结果,确定所述边缘节点中目标节点对应的模块更新参数,包括:
在所述模块更新参数包括第一参数和第二参数的情况下,
根据所述全局通用模块,生成所述第一参数,其中,所述第一参数用于更新所述目标节点中的初始通用模块;
根据所述第一蒸馏结果,生成所述第二参数,其中,所述第二参数用于更新所述目标节点中的初始个性化模块。
2.根据权利要求1所述的方法,其特征在于,所述根据老师模型对所述边缘节点中的目标节点的初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:
根据所述边缘节点中的初始节点模型的模型参数,确定所述其他节点中的初始节点模型各自与所述目标节点中的初始节点模型之间的相关度;
将所述其他节点的初始节点模型中相关度大于预定阈值的初始节点模型加入老师模型集合;
根据所述老师模型集合中的初始个性化模块对所述目标节点中的初始个性化模块进行知识蒸馏,生成所述第一蒸馏结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述边缘节点中的初始节点模型的模型参数,确定所述其他节点中的初始节点模型各自与所述目标节点中的初始节点模型之间的相关度,包括:
根据所述其他节点中的初始节点模型的模型参数,生成与所述其他节点中的初始节点模型一一对应的第一云端节点模型;
根据所述目标节点中的初始节点模型的模型参数,生成与所述目标节点中的初始节点模型对应的第二云端节点模型;
将全局数据集输入所述第一云端节点模型,得到第一输出结果,以及将所述全局数据集输入所述第二云端节点模型,得到第二输出结果;
根据所述第一输出结果与所述第二输出结果之间的相似程度,确定所述相关度。
4.根据权利要求1所述的方法,其特征在于,所述根据老师模型对所述边缘节点中的目标节点的所述初始个性化模块进行知识蒸馏,生成第一蒸馏结果,包括:
在所述边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,根据所述其他节点的初始参数掩膜对所述目标节点的初始参数掩膜进行掩膜蒸馏,得到掩膜蒸馏结果,其中,所述初始参数掩膜用于对所述初始节点模型中的初始通用模块的模型结构进行稀疏化,所述第一蒸馏结果包括所述掩膜蒸馏结果;
根据所述其他节点的初始任务模型对所述目标节点的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏,得到目标蒸馏结果和特征蒸馏结果,其中,所述第一蒸馏结果包括所述目标蒸馏结果和所述特征蒸馏结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述全局通用模块,生成所述第一参数,包括:
在所述边缘节点的初始个性化模块包括初始参数掩膜的情况下,确定所述目标节点的初始节点模型对应的初始参数掩膜;
根据所述目标节点的初始参数掩膜对所述全局通用模块进行模型结构稀疏化,得到所述第一参数。
6.一种数据协同处理方法,应用于云边协同领域,其特征在于,包括:
将目标节点训练的初始节点模型的模型参数发送至云端服务器,其中,所述目标节点为边缘节点之一,所述边缘节点中部署各自训练的初始节点模型,所述初始节点模型包括:初始通用模块和初始个性化模块;
接收所述云端服务器发送的与所述目标节点对应的模块更新参数,其中,所述模块更新参数由所述云端服务器根据全局通用模块和第一蒸馏结果确定,所述全局通用模块由所述云端服务器聚合所述边缘节点的初始通用模块后得到,所述第一蒸馏结果由所述云端服务器根据老师模型对所述目标节点的初始个性化模块进行知识蒸馏得到,所述老师模型包括所述边缘节点中除所述目标节点的其他节点中的初始个性化模块;
根据所述模块更新参数更新所述目标节点的初始节点模型,生成目标节点模型;
根据所述模块更新参数更新所述目标节点的初始节点模型,生成目标节点模型,包括:
在所述模块更新参数包括第一参数和第二参数的情况下,
根据所述第一参数,更新所述目标节点中的初始通用模块,生成目标通用模块,其中,所述第一参数由所述云端服务器根据所述全局通用模块生成;
根据所述第二参数,更新所述目标节点中的初始个性化模块,生成目标个性化模块,其中,所述第二参数由所述云端服务器根据所述第一蒸馏结果生成;
根据所述目标通用模块和所述目标个性化模块,生成所述目标节点模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标通用模块和所述目标个性化模块,生成所述目标节点模型,包括:
根据本地训练数据训练所述目标节点的初始节点模型,得到本地训练结果;
将所述目标节点的初始节点模型作为老师模型进行知识蒸馏,得到第二蒸馏结果;
根据所述本地训练结果、所述第二蒸馏结果、所述目标通用模块和所述目标个性化模块,生成所述目标节点模型。
8.根据权利要求6所述的方法,其特征在于,在所述边缘节点的初始个性化模块包括初始参数掩膜和初始任务模型的情况下,所述第一蒸馏结果,包括:掩膜蒸馏结果、目标蒸馏结果和特征蒸馏结果,其中,所述初始参数掩膜用于对所述目标节点中的初始通用模块的模型结构进行稀疏化,所述目标蒸馏结果和所述特征蒸馏结果由所述云端服务器根据所述其他节点中的初始任务模型对所述目标节点中的初始任务模型分别进行基于目标蒸馏和基于特征蒸馏得到。
9.根据权利要求7所述的方法,其特征在于,所述第一参数由所述云端服务器根据所述目标节点的初始个性化模块的初始参数掩膜对所述全局通用模块进行结构稀疏化后得到。
10.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所述数据协同处理方法。
11.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器用于存储程序,所述处理器用于运行所述存储器存储的程序,其中,所述程序运行时执行权利要求1至9中任意一项所述数据协同处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311365221.4A CN117094355B (zh) | 2023-10-20 | 2023-10-20 | 模型更新方法、非易失性存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311365221.4A CN117094355B (zh) | 2023-10-20 | 2023-10-20 | 模型更新方法、非易失性存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117094355A CN117094355A (zh) | 2023-11-21 |
CN117094355B true CN117094355B (zh) | 2024-03-29 |
Family
ID=88775731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311365221.4A Active CN117094355B (zh) | 2023-10-20 | 2023-10-20 | 模型更新方法、非易失性存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094355B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298229A (zh) * | 2021-04-12 | 2021-08-24 | 云从科技集团股份有限公司 | 联邦学习模型训练方法、客户端、服务器及存储介质 |
CN115331069A (zh) * | 2022-07-01 | 2022-11-11 | 中银金融科技有限公司 | 一种基于联邦学习的个性化图像分类模型训练方法 |
CN115392491A (zh) * | 2022-08-31 | 2022-11-25 | 中国银行股份有限公司 | 基于知识蒸馏和联邦学习的模型训练方法及装置 |
CN116227623A (zh) * | 2023-01-29 | 2023-06-06 | 深圳前海环融联易信息科技服务有限公司 | 联邦学习方法、装置、计算机设备及存储介质 |
CN116486087A (zh) * | 2023-05-05 | 2023-07-25 | 广东工业大学 | 基于联邦学习的医学图像分割模型构建方法 |
CN116681144A (zh) * | 2023-06-09 | 2023-09-01 | 安徽师范大学 | 基于动态自适应知识蒸馏的联邦学习模型聚合方法 |
-
2023
- 2023-10-20 CN CN202311365221.4A patent/CN117094355B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298229A (zh) * | 2021-04-12 | 2021-08-24 | 云从科技集团股份有限公司 | 联邦学习模型训练方法、客户端、服务器及存储介质 |
CN115331069A (zh) * | 2022-07-01 | 2022-11-11 | 中银金融科技有限公司 | 一种基于联邦学习的个性化图像分类模型训练方法 |
CN115392491A (zh) * | 2022-08-31 | 2022-11-25 | 中国银行股份有限公司 | 基于知识蒸馏和联邦学习的模型训练方法及装置 |
CN116227623A (zh) * | 2023-01-29 | 2023-06-06 | 深圳前海环融联易信息科技服务有限公司 | 联邦学习方法、装置、计算机设备及存储介质 |
CN116486087A (zh) * | 2023-05-05 | 2023-07-25 | 广东工业大学 | 基于联邦学习的医学图像分割模型构建方法 |
CN116681144A (zh) * | 2023-06-09 | 2023-09-01 | 安徽师范大学 | 基于动态自适应知识蒸馏的联邦学习模型聚合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117094355A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11893780B2 (en) | Method and apparatus for image segmentation | |
CN108122027B (zh) | 一种神经网络模型的训练方法、装置及芯片 | |
US10163420B2 (en) | System, apparatus and methods for adaptive data transport and optimization of application execution | |
CN111241985B (zh) | 一种视频内容识别方法、装置、存储介质、以及电子设备 | |
Foukalas et al. | Edge artificial intelligence for industrial internet of things applications: an industrial edge intelligence solution | |
CN111026063B (zh) | 数字孪生体构建方法、装置、计算机设备及存储介质 | |
CN111222046B (zh) | 服务配置方法、用于服务配置的客户端、设备及电子设备 | |
CN109598250A (zh) | 特征提取方法、装置、电子设备和计算机可读介质 | |
CN114037882A (zh) | 边缘人工智能装置、电子装置及其方法 | |
CN114970834A (zh) | 任务分配方法、装置及电子设备 | |
Esterle | Deep learning in multiagent systems | |
CN117094355B (zh) | 模型更新方法、非易失性存储介质及计算机设备 | |
Kang et al. | Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach | |
CN113095506A (zh) | 基于端、边及云协同的机器学习方法、系统及介质 | |
WO2022165675A1 (zh) | 一种手势识别方法、装置、终端设备及可读存储介质 | |
CN115690592B (zh) | 图像处理方法和模型训练方法 | |
CN112269943A (zh) | 一种信息推荐系统及方法 | |
CN109828838A (zh) | 一种资源分配和任务调度多目标协同处理方法 | |
CN112215326A (zh) | 一种分布式ai系统 | |
CN116341652A (zh) | 一种面向云际环境的大模型分布式训练方法及相关设备 | |
CN112906745B (zh) | 基于边缘协同的诚信智能网络训练方法 | |
CN115018043A (zh) | 模型训练方法、装置、计算机可读存储介质及计算机设备 | |
DE112022000723T5 (de) | Verzweigungsvorgang für eine schaltung eines neuronalen prozessors | |
CN114528893A (zh) | 机器学习模型训练方法、电子设备及存储介质 | |
CN113808157A (zh) | 图像处理方法、装置、及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |