CN114358316A - 联邦学习系统及其大规模影像训练方法和装置 - Google Patents
联邦学习系统及其大规模影像训练方法和装置 Download PDFInfo
- Publication number
- CN114358316A CN114358316A CN202210040508.9A CN202210040508A CN114358316A CN 114358316 A CN114358316 A CN 114358316A CN 202210040508 A CN202210040508 A CN 202210040508A CN 114358316 A CN114358316 A CN 114358316A
- Authority
- CN
- China
- Prior art keywords
- temporary
- terminal
- iteration step
- cooperator
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种联邦学习系统及其大规模影像训练方法和装置,联邦学习系统包括多个终端,每个终端均根据自身存储的本地数据进行模型训练,每个终端可根据预设规则作为临时协作方与其他终端进行通信,针对每个终端,方法包括:获取基于本地数据进行训练的当前迭代步生成的关键参数;根据预设规则确定当前迭代步对应的临时协作方;将关键参数发送至临时协作方,以使临时协作方根据接收到的各终端发送的关键参数进行模型融合,并将下一迭代步的模型参数发送至每个终端;接收临时协作方发送的下一迭代步的模型参数,并基于模型参数和本地数据进行下一迭代步的训练,通过动态确定临时协作方,有效避免固定服务器带来的瓶颈和异常。
Description
技术领域
本公开一般涉及人工智能技术领域,具体涉及深度学习技术领域,尤其涉及一种联邦学习系统及其大规模影像训练方法和装置。
背景技术
联邦学习是一种对大规模影像进行有效脱敏训练的方法。相关技术中,通常在联邦学习系统中,确定固定的协调方,然后将系统中的其他终端作为参与方进行恒定功能的训练。但是,固定的协作方使得整个联邦系统的训练情况都受到协作方能力的限制,并且容易收到病毒攻击,明显制约了大规模影像的训练。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种联邦学习系统及其大规模影像训练方法和装置,通过动态确定临时协作方,有效避免固定服务器带来的瓶颈和异常,提高联邦系统学习训练的可靠性和鲁棒性。
第一方面,本申请实施例提供了一种基于联邦学习系统的大规模影像训练方法,联邦学习系统包括多个终端,每个所述终端均根据自身存储的本地数据进行模型训练,每个所述终端可根据预设规则作为临时协作方与其他终端进行通信,针对每个所述终端,所述方法包括:
获取基于所述本地数据进行训练的当前迭代步生成的关键参数;
根据所述预设规则确定所述当前迭代步对应的临时协作方;
将所述关键参数发送至所述临时协作方,以使所述临时协作方根据接收到的各所述终端发送的所述关键参数进行模型融合,得到所述当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个所述终端;
接收所述临时协作方发送的所述下一迭代步的模型参数,并基于所述模型参数和所述本地数据进行下一迭代步的训练。
在一些实施例中,所述根据所述预设规则确定所述当前迭代步对应的临时协作方,包括:
在初始迭代轮中,每个所述终端按照预设顺序依次作为所述临时协作方;
在非初始迭代轮中,计算每个所述终端的性能指标,将所述性能指标最小的所述终端作为所述临时协作方。
在一些实施例中,所述计算每个所述终端的性能指标,将所述性能指标最小的所述终端作为所述临时协作方,包括:
针对每个所述终端,基于所述终端的历史性能数据,分别确定所述终端对应的至少一个性能指标的权重,并获取所述性能指标的权重和;
将当前所述性能指标的权重和最小的所述终端,作为所述当前迭代步对应的所述临时协作方。
在一些实施例中,相邻两个迭代步对应的临时协作方为不同终端。
在一些实施例中,所述性能指标包括CPU占用率、内存使用率和与其他终端连接处理耗时中的至少一个。
在一些实施例中,所述将所述关键参数发送至所述临时协作方,包括:
将所述关键参数进行数据整理,得到目标参数;
将所述目标参数按照与所述临时协作方之间的通信协议进行压缩,得到压缩后的参数数据包;
将所述参数数据包发送至所述临时协作方。
在一些实施例中,所述将所述参数数据包发送至所述临时协作方,包括:
在所述终端具有传输权限时,将所述参数数据包发送至所述临时协作方。
第二方面,本申请实施例提供了一种基于联邦学习系统的大规模影像训练装置,联邦学习系统包括多个终端,每个所述终端均根据自身存储的本地数据进行模型训练,每个所述终端可根据预设规则作为临时协作方与其他终端进行通信,所述装置包括:
获取模块,用于获取基于所述本地数据进行训练的当前迭代步生成的关键参数;
确定模块,用于根据所述预设规则确定所述当前迭代步对应的临时协作方;
发送模块,用于将所述关键参数发送至所述临时协作方,以使所述临时协作方根据接收到的各所述终端发送的所述关键参数进行模型融合,得到所述当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个所述终端;
接收模块,用于接收所述临时协作方发送的所述下一迭代步的模型参数,并基于所述模型参数和所述本地数据进行下一迭代步的训练。
第三方面,本申请实施例提供了一种联邦学习系统,包括:根据预设规则从多个终端中确定的临时协作方以及所述多个终端中的其他终端;
所述临时协作方接收所述其他终端发送的关键参数并进行模型融合,得到当前迭代步对应的全局模型及其相关参数,以及将下一迭代步的模型参数发送至所述其他终端;
所述其他终端或基于本地数据继续宁训练的当前迭代步生成的关键参数,并将所述关键参数发送至所述临时协作方,以及接收所述临时协作方发送的下一迭代步的模型参数,并基于模型参数和本地数据进行下一迭代步的训练。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例描述的方法。
本申请实施例的联邦学习系统及其大规模影像训练方法和装置,通过终端历史性能数据确定当前迭代步对应的临时协作方,能够使得每次作为临时协作方的终端,均为当前协作性能做高的终端,有效提高联邦学习的训练效率,减少由于固定协作方的故障或异常对系统整体运行带来的不利影响。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的联邦学习系统的架构图;
图2为本申请实施例提出的一种基于联邦学习系统的大规模影像训练方法的流程图;
图3为本申请实施例提供的基于联邦学习系统的大规模影像训练方法的原理示意图;
图4为本申请实施例提出的一种基于联邦学习系统的大规模影像训练方法的流程图;
图5为本申请实施例提出的一种基于联邦学习系统的大规模影像训练方法的流程图;
图6为本申请实施例提出的一种基于联邦学习系统的大规模影像训练装置的方框示意图;
图7为适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提出的终端界面识别方法具体实施环境参见图1。图1示出了本申请实施例提供的终端界面识别方法的实施环境架构图。
联邦学习是一种基于隐私保护和安全加密技术的分布式机器学习框架,旨在让多个分散的参与方在不需要向其他参与方传输隐私数据的前提下,进行联合学习与协同训练,使得模型训练能够有效融合各参与方的数据资源特点,从而有效提高模型整体的准确率和适用性。
如图1所示,联邦学习系统包括一个协作方101和至少一个参与方102。协作方101与至少一个参与方102进行通信连接,用于汇总并融合各参与方102上传的训练结果。
其中,协作方101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
协作方101与每个参与方102之间通过有线或无线通信方式进行直接或间接地连接。可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网,也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或无线网络、专用网络或者虚拟专用网络的任何组合。
经典联网学习框架的训练过程,包括:协调方建立基本模型,并将模型的基本结构与参数告知各参与方,各参与方利用本地数据进行模型训练,并将结果返回给协调方,协调方汇总各参与方的模型参数,融合构建更精准的全局模型,提升模型整体性能与效果。
大规模医疗影像AI(Artificial Intelligence,人工智能)分析通常需要从多源、异构、分散的数据源获取影像数据,进行跨领域、跨模态、多目标的深度学习与联合训练。这是一种数据密集型和计算密集型的典型应用,具有以下显著特点。
第一,不同数据源中影像数据的用户空间大多不同,但特征空间相似或相近,因而适于采用横向联邦学习模式。利用联邦学习的“本地训练-同步更新”迭代机制,可以避免将大量的训练样本统一传输到中心节点进行集中训练,从而大大减少各个客户端和中心服务器的I/O密集型处理。
第二,在构建联邦学习架构时,可以选用不同的用户空间信息作为主键索引,在中心服务器上有序存储各个客户端节点迭代时每部的参数信息,包括每一次迭代训练中各客户端长生的本地模型各种梯度数值、同步数据和心跳信号等,这些信息分别由各客户端加密压缩后传输给中心服务器。
第三,中心服务器依次对各客户端传来的数据进行解压缩和解密处理,从中提取出有用的局部模型参数,并按照一定的规则和策略进行全局模型的融合与同步,统一生成全局参数和新的心跳同步信号,经过加密压缩后逐一返回给各客户端以便进行下一次迭代训练。
综上,在中心化的联邦学习架构中,中心服务器不仅面临着较大的加密压缩、解压解密、数据通信与模型同步等压力,而且容易成为病毒攻击、网络入侵与信息失窃的重要目标,变成整个系统的性能瓶颈和主要风险,牵一发而动全身,这就明显制约了大规模医疗影像AI分析模型的研发训练。
基于此,本发明提出一种联邦学习系统及其大规模影像训练方法和装置。
图2为本申请实施例提出的一种基于联邦学习系统的大规模影像训练方法的流程图。
其中,联邦系统包括多个终端,每个终端均根据自身存储的本地数据进行模型训练,每个终端可根据预设规则作为临时协作方与其他终端进行通信。
如图2所示,针对每个终端,所述方法包括:
步骤201,获取基于本地数据进行训练的当前迭代步生成的关键参数。
需要说明的是,每个终端在每个迭代过程中,均利用自身存储的本地数据进行当前迭代步的模型训练,并基于当前迭代步的模型训练,得到基于当前迭代步训练得到的关键参数。
其中,关键参数包括但不限于训练结果与目标结果的局部误差值、训练样本数量、训练耗时、权重因子、迭代步长、CPU利用率、内存使用量和连接耗时等。
应当理解的是,在将多个终端构造为联邦系统时,则由初始协调方向各终端发送待训练的深度学习模型的结构与初始参数,或者,当多个终端通过依次与下一个终端进行通信形成联邦系统时,还可将带训练的深度学习模型的机构与初始参数通过通信连接依次发送至每个增加至联邦系统中的终端。
步骤202,根据预设规则确定当前迭代步对应的临时协作方。
其中,预设规则为在非初始迭代轮中将作为临时协作方时消耗最小的终端作为临时协作方。
在一个或多个实施例中,在初始迭代轮中,每个终端按照预设顺序依次作为临时协作方,在非初始迭代轮中,计算每个终端的性能指标,将性能质保最小的终端作为临时协作方。
也就是说,在初始迭代轮中,各个终端按照预设顺序依次作为临时协作方,以通过各终端在初始迭代轮中的消耗情况,进一步确定非初始迭代轮中的临时协作方。
其中,预设顺序可为在建立联邦系统时为联邦系统中各终端分配的编号顺序,也可是各终端通过依次通信连接建立的连接顺序,还可以是随机生成的顺序。
举例来说,如图3所示,在构建联邦系统的t=0时,由构建联邦系统的协调方终端1向系统中的其他每个终端(终端2、终端3和终端4)分配顺序编号2、3和4,其中,顺序编号可为终端在联邦系统中的ID信息等,然后,在初始迭代轮中,终端2、终端3和终端4按照顺序编号依次作为临时协作方,即,在t=1时终端2作为临时协作方,终端1、终端3和终端4作为当前时刻的参与方,在t=3时终端3作为临时协作方,终端1、终端2和终端4作为当前时刻的参与方,在t=4时终端4作为临时协作方,终端1、终端2和终端3作为当前时刻的参与方.
在初始迭代轮结束后,则统计分析各终端在初始迭代轮中作为临时协作方时的性能指标,将性能指标最小的终端作为临时协作方。
在一个或多个实施例中,计算每个终端的性能指标,将性能指标坐标最小的终端作为临时协作方,包括:针对每个终端,基于终端的历史性能数据,分别确定终端对应的至少一个性能指标的权重,并获取性能指标的权重和,将当前性能指标的权重和最小的终端,作为当前迭代步对应的临时协作方。
也就是说,在每次计算当前迭代步对应的临时协作方时,可根据各终端作为临时协作方的历史性能数据计算各性能指标对应的权重,然后结合性能数据确定性能指标的权重和。
其中,历史性能数据的范围可为从初始迭代轮累计到当前迭代步的历史性能数据,也可以是距离当前迭代步预设迭代距离的历史数据。应当理解的是,当历史性能数据选择距离当前迭代步预设迭代距离的历史数据时,能够更关注终端近期终端作为临时协作方的性能变化,避免终端前期性能优良后期性能骤降带来的历史数据误差。
举例来说,在非初始迭代轮,获取联邦系统中每个终端对应的距当前迭代步预设迭代距离的历史数据,然后针对每个终端的历史数据,计算该终端对应的性能指标权重以及权重和,然后将性能指标的权重和最小的终端,作为当前迭代步对应的临时协作方,以此类推,直至迭代完成。
可选的,当在距当前迭代步预设迭代距离的历史数据中,任一终端未有作为临时协作方的历史数据时,则增大该终端对应的迭代距离,即,将预设迭代距离增大以增加终端对应的历史数据,直至历史数据中包含该终端至少一次作为临时协作方的性能数据。
由此,本申请通过终端历史性能数据确定当前迭代步对应的临时协作方,能够使得每次作为临时协作方的终端,均为当前协作性能做高的终端,有效提高联邦学习的训练效率,减少由于固定协作方的故障或异常对系统整体运行带来的不利影响。
可选的,相邻两个迭代步对应的临时协作方为不同终端。
也就是说,在计算当前迭代步对应的临时协作方时,则排除上一迭代步的性能情况。即,可在上一迭代步,计算除当前协作方的其他终端的性能权重和。
其中,性能指标包括CPU占用率、内存使用率和与其他终端连接处理耗时中的至少一个。
举例来说,对于第i个终端i=1,2,…,n的性能指标,包括CPU占用率Ci,内存使用率Mi和与各终端的连接处理耗时Ti,j。
若上一迭代步的临时协作方为终端k,则计算除终端k外其他终端的性能权重和:
且
其中,λc为CPU占用率的权重值,λM为内存使用率的权重值,λj为与第j个终端连接处理耗时的权重值。
步骤203,将关键参数发送至临时协作方,以使临时协作方根据接收到的各终端发送的关键参数进行模型融合,得到当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个终端。
可选的,如图4所示,将关键参数发送至临时协作方,包括:
步骤401,将关键参数进行数据整理,得到目标参数。
其中,在终端完成当前迭代步的训练后,从训练结果中按照自定义格式提取模型的关键参数,例如训练结果与目标结果的局部误差值、训练样本数量、训练耗时、权重因子、迭代步长、CPU利用率、内存使用量、连接耗时等。
然后对得到的关键参数进行整理,例如按照预设规则进行编码形成符合预设规则的参数格式,或者语义转换、对齐等,将整理后的参数作为目标参数。
步骤402,将目标参数按照与临时协作方之间的通信协议进行压缩,得到压缩后的参数数据包。
需要说明的是,各终端存储有在联邦系统建立时或在初始迭代轮中与其他终端(或临时协作方)之间的通信权限和通信协议,以便在后每次通信连接时直接使用,无需在每次连接时反复进行握手,实现“一次连接,多次使用”。
具体地,将目标参数按照与临时协作方之间的通信协议进行加密压缩,得到压缩后的参数数据包。
步骤403,将参数数据包发送至临时协作方。
具体地,临时协作方接收到参数数据包后,经过解压解密,从参数数据包中提取有效数据,然后对全部数据进行模型融合,计算当前迭代步的全局模型及其相关参数。
其中,如果各终端内部的模型结构相同,则各终端的参数提取、计算过程也分别相同,临时协作方的模型融合也可以直接进行归一化处理和均值化计算,如果各终端内部的模型结构不同,则临时协作方的模型融合等处理将更为复杂,需要先将各终端的参数在语义和数值等层面进行转换和统一,以消除不同模型结构带来的影响,然后进行模型融合、参数计算,即,面向各终端的模型特点,从融合模型中提取出相同或不同的参数值,进行组合整理,从而满足各终端的差异性和定制化要求。
步骤204,接收临时协作方发送的下一迭代步的模型参数,并基于模型参数和本地数据进行下一迭代步的训练。
其中,用于下一迭代步的模型参数包括但不限于当前模型的全局误差值、期望误差、平均梯度、有效终端数量以及模型融合时间等。通常临时协作方下发的下一迭代步的模型参数小于等于终端上传至临时协作方的关键参数的数量。
具体而言,在一个迭代步中,联邦系统中的其他终端基于本地数据和上一迭代步发送的模型参数,完成当前迭代步的数据训练得到关键参数,并根据预设规则确定当前迭代步对应的临时协作方,然后将关键参数压缩并发送至临时协作方,临时协作方接收到其他终端依次发送的关键数据,对关键数据进行解压并提取,在多个终端训练的模型结构相同时直接进行模型融合,在多个终端训练的模型结构不相同时,对提取到的关键数据进行语义转换和统一等操作后再进行模型融合,临时协作方根据融合后的全局模型及其相关参数确定下一迭代步的模型参数并依次发送至每个其他终端,其他终端依次接收临时协作方发送的下一迭代步的模型参数,并基于模型参数和本地数据进行下一迭代步的训练,直至临时协作方根据全局模型的全局误差或迭代步数确定完成模型训练,得到最终训练模型。
在一个或多个实施例中,在一个迭代步中,多个终端可根据预设顺序依次向临时协作方发送关键参数。其中,预设顺序可为建立联邦系统时为各终端分配的顺序编号,或者采用令牌环等方式顺序或随机的确定向临时协作方发送关键参数的顺序。
相应的,临时协作方也按照预设顺序依次将下一迭代步的模型参数发送至每个终端。
也就是说,在一个迭代轮中,当达到任一其他终端的发送顺序时,确定该其他终端具有传输权限,此时,该其他终端将参数数据包发送至临时协作方,以使临时协作方根据参数数据包中的关键参数进行模型融合。
在一个或多个实施例中,每个临时协作方在融合模型数据后,进一步判断全局训练的误差是否满足预设阈值或者迭代步数是否达到预设步数,如果全局训练的误差满足预设阈值或者迭代步数达到预设步数,则确定训练完成得到最终模型,否则继续进行迭代。
作为一个具体实施例,如图5所示,基于联邦学习系统的大规模影像训练方法,包括:
步骤501,联邦系统初始化,将临时协作方、其他终端和迭代步进行初始化设置。
步骤502,选取一个临时协作方,并由临时协作方向其他终端发送初始模型参数。
步骤503,临时协作方判断是否其他终端都已分发初始模型参数。
如果是,则执行步骤504;如果否,则返回步骤502继续分发初始模型参数。
步骤504,临时协作方接收其他终端依次发送的关键参数。
步骤505,临时协作方判断是否已经接收全部其他终端发送的关键参数。
如果是,则执行步骤506,如果否,则返回步骤504。
步骤506,临时协作方根据接收到的关键参数进行模型融合,参数更新。
步骤507,临时协作方判断是否完成迭代。
如果是,则生成最终模型,如果否,则返回步骤502。
综上所述,本申请通过终端历史性能数据确定当前迭代步对应的临时协作方,能够使得每次作为临时协作方的终端,均为当前协作性能做高的终端,有效提高联邦学习的训练效率,减少由于固定协作方的故障或异常对系统整体运行带来的不利影响,提高联邦系统学习训练的可靠性和鲁棒性。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
图6为本申请实施例提出的一种基于联邦学习系统的大规模影像训练装置的方框示意图。
其中,联邦学习系统包括多个终端,每个终端均根据自身存储的本地数据进行模型训练,每个终端可根据预设规则作为临时协作方与其他终端进行通信。
如图6所示,本申请实施例提出的基于联邦学习系统的大规模影像训练装置,包括:
获取模块11,用于获取基于所述本地数据进行训练的当前迭代步生成的关键参数;
确定模块12,用于根据所述预设规则确定所述当前迭代步对应的临时协作方;
发送模块13,用于将所述关键参数发送至所述临时协作方,以使所述临时协作方根据接收到的各所述终端发送的所述关键参数进行模型融合,得到所述当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个所述终端;
接收模块14,用于接收所述临时协作方发送的所述下一迭代步的模型参数,并基于所述模型参数和所述本地数据进行下一迭代步的训练。
在一些实施例中,确定模块12,还用于:
在初始迭代轮中,每个所述终端按照预设顺序依次作为所述临时协作方;
在非初始迭代轮中,计算每个所述终端的性能指标,将所述性能指标最小的所述终端作为所述临时协作方。
在一些实施例中,确定模块12,还用于:
针对每个所述终端,基于所述终端的历史性能数据,分别确定所述终端对应的至少一个性能指标的权重,并获取所述性能指标的权重和;
将当前所述性能指标的权重和最小的所述终端,作为所述当前迭代步对应的所述临时协作方。
在一些实施例中,相邻两个迭代步对应的临时协作方为不同终端。
在一些实施例中,所述性能指标包括CPU占用率、内存使用率和与其他终端连接处理耗时中的至少一个。
在一些实施例中,发送模块13,还用于:
将所述关键参数进行数据整理,得到目标参数;
将所述目标参数按照与所述临时协作方之间的通信协议进行压缩,得到压缩后的参数数据包;
将所述参数数据包发送至所述临时协作方。
在一些实施例中,发送模块13,还用于:
在所述终端具有传输权限时,将所述参数数据包发送至所述临时协作方。
综上所述,本申请通过终端历史性能数据确定当前迭代步对应的临时协作方,能够使得每次作为临时协作方的终端,均为当前协作性能做高的终端,有效提高联邦学习的训练效率,减少由于固定协作方的故障或异常对系统整体运行带来的不利影响,提高联邦系统学习训练的可靠性和鲁棒性。
应当理解,装置10中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置10及其中包含的单元,在此不再赘述。装置10可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置10中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面参考图7,图7示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图,
如图7所示,计算机系统包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统的操作指令所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705;包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、确定模块、发送模块和接收模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块,还可以被描述为“获取基于所述本地数据进行训练的当前迭代步生成的关键参数”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或多个程序,当上述程序被一个或者一个以上的处理器用来执行描述于本申请的基于联邦学习系统的大规模影像训练方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于联邦学习系统的大规模影像训练方法,其特征在于,联邦学习系统包括多个终端,每个所述终端均根据自身存储的本地数据进行模型训练,每个所述终端可根据预设规则作为临时协作方与其他终端进行通信,针对每个所述终端,所述方法包括:
获取基于所述本地数据进行训练的当前迭代步生成的关键参数;
根据所述预设规则确定所述当前迭代步对应的临时协作方;
将所述关键参数发送至所述临时协作方,以使所述临时协作方根据接收到的各所述终端发送的所述关键参数进行模型融合,得到所述当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个所述终端;
接收所述临时协作方发送的所述下一迭代步的模型参数,并基于所述模型参数和所述本地数据进行下一迭代步的训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设规则确定所述当前迭代步对应的临时协作方,包括:
在初始迭代轮中,每个所述终端按照预设顺序依次作为所述临时协作方;
在非初始迭代轮中,计算每个所述终端的性能指标,将所述性能指标最小的所述终端作为所述临时协作方。
3.根据权利要求2所述的方法,其特征在于,所述计算每个所述终端的性能指标,将所述性能指标最小的所述终端作为所述临时协作方,包括:
针对每个所述终端,基于所述终端的历史性能数据,分别确定所述终端对应的至少一个性能指标的权重,并获取所述性能指标的权重和;
将当前所述性能指标的权重和最小的所述终端,作为所述当前迭代步对应的所述临时协作方。
4.根据权利要求3所述的方法,其特征在于,相邻两个迭代步对应的临时协作方为不同终端。
5.根据权利要求2或3所述的方法,其特征在于,所述性能指标包括CPU占用率、内存使用率和与其他终端连接处理耗时中的至少一个。
6.根据权利要求1所述的方法,其特征在于,所述将所述关键参数发送至所述临时协作方,包括:
将所述关键参数进行数据整理,得到目标参数;
将所述目标参数按照与所述临时协作方之间的通信协议进行压缩,得到压缩后的参数数据包;
将所述参数数据包发送至所述临时协作方。
7.根据权利要求6所述的方法,其特征在于,所述将所述参数数据包发送至所述临时协作方,包括:
在所述终端具有传输权限时,将所述参数数据包发送至所述临时协作方。
8.一种基于联邦学习系统的大规模影像训练装置,其特征在于,联邦学习系统包括多个终端,每个所述终端均根据自身存储的本地数据进行模型训练,每个所述终端可根据预设规则作为临时协作方与其他终端进行通信,所述装置包括:
获取模块,用于获取基于所述本地数据进行训练的当前迭代步生成的关键参数;
确定模块,用于根据所述预设规则确定所述当前迭代步对应的临时协作方;
发送模块,用于将所述关键参数发送至所述临时协作方,以使所述临时协作方根据接收到的各所述终端发送的所述关键参数进行模型融合,得到所述当前迭代步对应的全局模型及其相关参数,并将下一迭代步的模型参数发送至每个所述终端;
接收模块,用于接收所述临时协作方发送的所述下一迭代步的模型参数,并基于所述模型参数和所述本地数据进行下一迭代步的训练。
9.一种联邦学习系统,其特征在于,包括:根据预设规则从多个终端中确定的临时协作方以及所述多个终端中的其他终端;
所述临时协作方接收所述其他终端发送的关键参数并进行模型融合,得到当前迭代步对应的全局模型及其相关参数,以及将下一迭代步的模型参数发送至所述其他终端;
所述其他终端或基于本地数据继续宁训练的当前迭代步生成的关键参数,并将所述关键参数发送至所述临时协作方,以及接收所述临时协作方发送的下一迭代步的模型参数,并基于模型参数和本地数据进行下一迭代步的训练。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于联邦学习系统的大规模影像训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040508.9A CN114358316A (zh) | 2022-01-14 | 2022-01-14 | 联邦学习系统及其大规模影像训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040508.9A CN114358316A (zh) | 2022-01-14 | 2022-01-14 | 联邦学习系统及其大规模影像训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358316A true CN114358316A (zh) | 2022-04-15 |
Family
ID=81108423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210040508.9A Pending CN114358316A (zh) | 2022-01-14 | 2022-01-14 | 联邦学习系统及其大规模影像训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358316A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841377A (zh) * | 2022-06-28 | 2022-08-02 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN115860135A (zh) * | 2022-11-16 | 2023-03-28 | 中国人民解放军总医院 | 使用超网解决异构联邦学习的方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428056A (zh) * | 2018-04-30 | 2019-11-08 | 慧与发展有限责任合伙企业 | 使用区块链的分散式机器学习的系统和方法 |
CN112116008A (zh) * | 2020-09-18 | 2020-12-22 | 平安科技(深圳)有限公司 | 基于智能决策的目标检测模型的处理方法、及其相关设备 |
CN112686368A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 更新中心方的合作式学习方法、存储介质、终端和系统 |
-
2022
- 2022-01-14 CN CN202210040508.9A patent/CN114358316A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428056A (zh) * | 2018-04-30 | 2019-11-08 | 慧与发展有限责任合伙企业 | 使用区块链的分散式机器学习的系统和方法 |
CN112116008A (zh) * | 2020-09-18 | 2020-12-22 | 平安科技(深圳)有限公司 | 基于智能决策的目标检测模型的处理方法、及其相关设备 |
CN112686368A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 更新中心方的合作式学习方法、存储介质、终端和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841377A (zh) * | 2022-06-28 | 2022-08-02 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN114841377B (zh) * | 2022-06-28 | 2022-09-13 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN115860135A (zh) * | 2022-11-16 | 2023-03-28 | 中国人民解放军总医院 | 使用超网解决异构联邦学习的方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084377B (zh) | 用于构建决策树的方法和装置 | |
CN108520220B (zh) | 模型生成方法和装置 | |
CN112235384B (zh) | 分布式系统中的数据传输方法、装置、设备及存储介质 | |
CN112084422B (zh) | 一种账号数据智能处理方法和装置 | |
CN113259972B (zh) | 基于无线通信网络数据仓库构建方法、系统、设备及介质 | |
CN114358316A (zh) | 联邦学习系统及其大规模影像训练方法和装置 | |
CN113627085B (zh) | 横向联邦学习建模优化方法、设备、介质 | |
US20220385739A1 (en) | Method and apparatus for generating prediction information, electronic device, and computer readable medium | |
CN113327318B (zh) | 图像显示方法、装置、电子设备和计算机可读介质 | |
CN115471307A (zh) | 基于知识图谱的审计评估信息生成方法、装置和电子设备 | |
CN114861790B (zh) | 联邦学习压缩通信的优化方法、系统及装置 | |
CN115168669A (zh) | 传染病筛查方法、装置、终端设备及介质 | |
CN112988382A (zh) | 基于分布式深度学习的医学影像智能分析系统 | |
CN115563600A (zh) | 数据审核方法和装置、电子设备及存储介质 | |
CN115169852B (zh) | 信息发送方法、装置、电子设备、介质和计算机程序产品 | |
CN116545871A (zh) | 一种多模态网络流量预测方法、装置、介质 | |
CN113630476B (zh) | 应用于计算机集群的通信方法及通信装置 | |
CN114997423A (zh) | 一种面向联邦学习的半中心化对抗训练方法 | |
CN112258009B (zh) | 一种智慧政务请求处理方法 | |
CN113783862A (zh) | 一种边云协同过程中进行数据校验的方法及装置 | |
CN113037574A (zh) | 基于软件定义的机载装备实时信号处理方法及系统 | |
CN116436757A (zh) | 信息发送方法、日志上报方法、装置、设备和介质 | |
CN116471002B (zh) | 一种工业互联网数据传输方法及系统 | |
CN117793095A (zh) | 数据转发方法、装置、系统、设备及存储介质 | |
CN115314293A (zh) | 信息获取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220415 |