CN114298319A - 联合学习贡献值的确定方法、装置、电子设备及存储介质 - Google Patents

联合学习贡献值的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114298319A
CN114298319A CN202111590171.0A CN202111590171A CN114298319A CN 114298319 A CN114298319 A CN 114298319A CN 202111590171 A CN202111590171 A CN 202111590171A CN 114298319 A CN114298319 A CN 114298319A
Authority
CN
China
Prior art keywords
node
joint
child node
contribution value
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111590171.0A
Other languages
English (en)
Other versions
CN114298319B (zh
Inventor
杨程屹
李增祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinzhi I Lai Network Technology Co ltd
Original Assignee
Xinzhi I Lai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinzhi I Lai Network Technology Co ltd filed Critical Xinzhi I Lai Network Technology Co ltd
Priority to CN202111590171.0A priority Critical patent/CN114298319B/zh
Publication of CN114298319A publication Critical patent/CN114298319A/zh
Application granted granted Critical
Publication of CN114298319B publication Critical patent/CN114298319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种联合学习贡献值的确定方法、装置、电子设备及存储介质。该方法包括:对联合学习中的参与方进行聚类得到参与方组,对参与方组的数量进行判断,根据判断结果对参与方组进行聚类形成分组树;对分组树中同一参与方组内子节点的联合模型进行聚合,得到父节点的联合模型;利用联合学习贡献值算法,对子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。本公开能够降低联合学习贡献值的计算复杂度,提升联合学习贡献值的计算效率。

Description

联合学习贡献值的确定方法、装置、电子设备及存储介质
技术领域
本公开涉及联合学习技术领域,尤其涉及一种联合学习贡献值的确定方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的不断发展,人工智能的应用也越来越广泛,通过联合不同参与方进行机器学习的联合学习方法成为一种训练人工智能模型的主流趋势。联合学习作为一种新型的分布式机器学习框架,满足了多个客户端在数据安全的要求下进行模型训练的需求。
现有技术中,针对大规模联合学习场景,在计算各个参与方对联合模型的真实贡献时,通常利用各个参与方的本地数据量,来计算参与方在联合学习中对联合学习模型的贡献值。但是,由于大规模联合学习场景中的参与方数量众多,因此,传统的贡献值计算方式需要较高的计算复杂度,难以在有限时间内完成贡献值计算,从而降低了联合学习贡献值的计算效率,并且耗时耗力,导致计算结果不够准确。
鉴于上述现有技术中的问题,需要提供一种能够降低联合学习贡献值的计算复杂度,提升计算效率和计算精度的确定联合学习贡献值的方案。
发明内容
有鉴于此,本公开实施例提供了一种联合学习贡献值的确定方法、装置、电子设备及存储介质,以解决现有技术存在的计算复杂度高,计算过程耗时耗力,计算效率低,计算结果不够准确的问题。
本公开实施例的第一方面,提供了一种联合学习贡献值的确定方法,包括:确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。
本公开实施例的第二方面,提供了一种联合学习贡献值的确定装置,包括:聚类模块,被配置为确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;判断模块,被配置为对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;聚合模块,被配置为在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;计算模块,被配置为利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;生成模块,被配置为基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。
本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。本公开能够降低联合学习贡献值的计算复杂度,提升联合学习贡献值的计算效率和计算精度。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种联合学习的架构示意图;
图2是本公开实施例提供的联合学习贡献值的确定方法的流程示意图;
图3是本公开实施例提供的分组树中子节点对应联合学习贡献值的计算流程示意图;
图4是本公开实施例提供的联合学习贡献值的确定装置的结构示意图;
图5是本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
联合学习是指在确保数据安全及用户隐私的前提下,综合利用多种AI(Artificial Intelligence,人工智能)技术,联合多方合作共同挖掘数据价值,催生基于联合建模的新的智能业态和模式。联合学习至少具有以下特点:
(1)参与节点控制自有数据的弱中心化联合训练模式,确保共创智能过程中的数据隐私安全。
(2)在不同应用场景下,利用筛选和/或组合AI算法、隐私保护计算,建立多种模型聚合优化策略,以获取高层次、高质量的模型。
(3)在确保数据安全及用户隐私的前提下,基于多种模型聚合优化策略,获取提升联合学习引擎的效能方法,其中效能方法可以是通过解决包括计算架构并行、大规模跨域网络下的信息交互、智能感知、异常处理机制等,提升联合学习引擎的整体效能。
(4)获取各场景下多方用户的需求,通过互信机制,确定合理评估各联合参与方的真实贡献度,进行分配激励。
基于上述方式,可以建立基于联合学习的AI技术生态,充分发挥行业数据价值,推动垂直领域的场景落地。
在大规模联合学习场景中,随着联合学习参与方以及计算数据量的增加,如何快速、高效地计算联合学习中各参与方对联合模型的真实贡献成为亟需解决的问题。现有技术中,联合学习系统根据各参与方的本地数据量确定各参与方对联合学习模型的贡献度,但是,在面对大规模联合学习场景时(比如参与方数量n≥100的联合学习场景),由于联合学习的参与方数量非常多,各参与方的本地数据质量参差不齐,本地数据的格式与形式也不相同。导致传统的联合学习贡献值算法,需要较高的计算复杂度,且当参与方数量较多时,难以在有限时间内完成计算,使联合学习贡献值的计算过程变得耗时耗力,计算结果也不够精准。
鉴于以上现有技术中的问题,需要提供一种基于联合学习架构,对参与方进行分组,并根据分组得到的参与方组形成分组树,分组树中包含若干个父节点和子节点。通过层次化的分组树,确保每个父节点的子节点数目不超过一个固定阈值,对每个子节点单独利用基于沙普利值计算法则的贡献值计算方法进行处理,从而极大降低了联合学习贡献值的计算复杂度,可以在较短时间内完成子节点的贡献值计算,提高计算效率,并使计算结果具有更高的准确性。
下面将结合附图详细说明根据本公开实施例的一种联合学习贡献值的确定方法及装置。
图1是本公开实施例提供的一种联合学习的架构示意图。如图1所示,联合学习的架构可以包括服务器(中心节点)101以及参与方102、参与方103和参与方104。
在联合学习过程中,基本模型可以通过服务器101建立,服务器101将该模型发送至与其建立通信连接的参与方102、参与方103和参与方104。基本模型还可以是任一参与方建立后上传至服务器101,服务器101将该模型发送至与其建立通信连接的其他参与方。参与方102、参与方103和参与方104根据下载的基本结构和模型参数构建模型,利用本地数据进行模型训练,获得更新的模型参数,并将更新的模型参数加密上传至服务器101。服务器101对参与方102、参与方103和参与方104发送的模型参数进行聚合,获得全局模型参数,并将全局模型参数传回至参与方102、参与方103和参与方104。参与方102、参与方103和参与方104根据接收的全局模型参数对各自的模型进行迭代,直到模型最终收敛,从而实现对模型的训练。在联合学习过程中,参与方102、参与方103和参与方104上传的数据为模型参数,本地数据并不会上传至服务器101,且所有参与方可以共享最终的模型参数,因此可以在保证数据隐私的基础上实现共同建模。需要说明的是,参与方的数量不限于如上所述的三个,而是可以根据需要进行设置,本公开实施例对此不作限制。
图2是本公开实施例提供的联合学习贡献值的确定方法的流程示意图。图2的联合学习贡献值的确定方法可以由联合学习的服务器执行。如图2所示,该联合学习贡献值的确定方法具体可以包括:
S201,确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;
S202,对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;
S203,在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;
S204,利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;
S205,基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。
具体地,每个参与方对应联合学习框架中的一个节点,每个节点对应一个参与方,参与方既可以是传感器、旋转机械设备、物联网设备、IOT设备、PC、平板电脑、智能手机、智能可穿戴设备等,还可以是公司或者工厂等对象。每个参与方上具有联合学习参与方的客户终端,但参与方并不局限于上述这些设备或者客户端。联合学习框架中还具有为客户端提供服务的节点(即服务端),服务端可以是用于执行聚合操作的服务器,服务端可以协调多个客户端进行联合学习以得到联合学习模型。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者云计算服务器。
进一步地,参与方组是通过对联合学习中的参与方依据属性信息进行分组得到的,在实际应用中,通过对组成联合学习架构中的所有参与方进行聚类,即将参与方划分到多个不同的参与方组中。一般来说,同一参与方组中的参与方具有相似的属性信息,比如属于同一上级单位或者具有相似特征等。
进一步地,在联合学习中一个聚合周期是指对联合学习模型进行的一轮训练,各参与方客户端利用本地数据对本地模型进行训练,当本地模型训练达到收敛时,得到训练后的本地模型参数,并将其发送给服务端。所有参与方在每个聚合轮次都会上传自己的本地模型参数,服务器进行加权平均得出一个联合模型来,因此每个参与方在每一轮次都会做出自己的贡献,此处的轮表示服务端对联合学习模型进行一次完整的训练。
进一步地,需要说明的是,本公开实施例基于分组树实现联合学习贡献值的计算过程,可以是在联合模型训练完成之后,在对联合学习中的参与方进行贡献衡量时所执行的操作;换言之,本公开的实施例是在联合学习之后,在参与方的贡献衡量阶段,实现对参与方分组、构造分组树、按层次衡量贡献等操作,因此本公开实施例不对联合学习本身的实际过程产生影响。
根据本公开实施例提供的技术方案,通过确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。本公开能够降低联合学习贡献值的计算复杂度,提升联合学习贡献值的计算效率和计算精度。
在一些实施例中,确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组,包括:根据预先创建的联合学习架构,确定参与联合学习的参与方,获取参与方的属性信息,将属性信息作为聚类算法的输入,利用聚类算法对参与方进行分组,以便生成由多个具有相似属性的参与方组成的参与方组。
具体地,可以将联合学习中每个参与方的属性信息作为聚类算法的输入参数,对组成联合学习架构的所有参与方进行聚类,从而将参与方划分到多个不同的参与方组中。在实际应用中,可以选用隐私聚类算法,通过对参与方的属性信息对应的聚类中心进行聚合以获得图全局聚类中心,最后通过多轮迭代以达到聚类算法的收敛,直到所有参与方的本地聚类中心和相应的全局聚类中心之间的距离足够小。
进一步地,在大规模联合学习场景中,可以利用预设的隐私聚类算法对参与方进行聚类或分组,得到多个参与方小组。在计算参与方分组时,既可以通过联合学习的组织架构进行自然分组,还可以通过参与方的特征进行聚类,或者根据参与方的本地模型的相似性进行聚类。当然本公开实施例不限于以上分组方式,上述分组方式不构成对本公开技术方案的限定。
在一些实施例中,对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,包括:确定分组后得到的多个参与方组,并对参与方组的数量进行判断,当参与方组的数量大于阈值时,对参与方组执行二次聚类操作,基于二次聚类操作后的参与方组的数量,判断是否重复执行聚类操作,并直至参与方组的数量小于或等于阈值。
具体地,在对联合学习的参与方进行聚类得到多个参与方组之后,确定参与方组的数量,并将参与方组的数量与阈值进行比较,当数量大于阈值时,对参与方组进行二次分组,即将参与方组划分为更高层级的参与方组。下面结合具体实施例,对基于参与方组的数量,对参与方组执行二次聚类操作的过程进行详细说明,具体可以包括以下内容:
对聚类后得到的参与方组的数量进行判断,若参与方组的数量m仍然较大(大于固定阈值),可以使用隐私聚类算法对第一次聚类后的参与方组执行二次聚类操作,即重复第一次聚类操作,得到更高层次的参与方组,从而形成层次化的分组树。在分组树的结构中确保每个父节点下的子节点数目不超过一个较小的预设值K(例如K=10),即分组树中每个父节点对应的子节点的数量小于或等于预设值。例如当联合学习中参与方数量n=100时,可将参与方划分成10个参与方组,每个参与方组包含10个参与方。
在一些实施例中,在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型,包括:针对联合学习过程中的每个聚合周期,从分组树中最低层级的子节点开始,对属于同一参与方组内的子节点所对应的联合模型进行聚合,得到子节点对应父节点的联合模型,重复执行聚合操作,直至获得分组树中最高层级的父节点所对应的联合模型。
具体地,针对联合学习过程中的每一个聚合周期(t),从分组树中的最低层级的子节点开始,对属于同一参与方组的子节点所对应的联合模型进行聚合,得到与该子节点相对应的父节点的联合模型。也就是说,对分组树中的每个子节点对应的参与方的联合模型进行向上聚合,得到更高层级的节点所对应的联合模型,直至聚合到根节点,这里的根节点可以理解为分组树中层级最高的父节点。
进一步地,在实际应用中,对于分组树的树型结构中的每个叶子节点的联合模型,应用联合学习的聚合方法,依次聚合得到父节点对应的联合模型,重复执行该过程,直至聚合到根节点,最终得到根节点对应的联合模型。
在一些实施例中,在应用联合学习的聚合方法,对全部子节点的联合模型聚合完成之后,从根节点开始,利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值。下面结合附图以及具体实施例,对分组树中每个子节点对应的贡献值的计算过程进行详细说明,图3是本公开实施例提供的分组树中子节点对应联合学习贡献值的计算流程示意图。如图3所示,该分组树中子节点对应联合学习贡献值的计算过程具体可以包括:
S301,根据父节点对应的全部子节点,生成若干个子节点组合,并计算每个子节点组合对应的权重;
S302,获取聚合周期前后父节点的联合模型对应的效用变化值,根据效用变化值判断是否计算子节点的贡献值;
S303,当判断结果为是时,选取任意一个子节点组合,计算子节点组合中每一个子节点对应的边际贡献值;
S304,基于边际贡献值以及权重,对子节点组合的效用值的计算方式进行判断,以便选择利用插值函数或者模型推演的方式计算子节点组合的效用值;
S305,根据子节点组合的效用值对预定的查找表进行更新,并基于更新后的查找表,计算每个子节点对父节点的联合模型的贡献值。
具体地,首先根据联合学习中的所有子节点,按照子节点数量从少到多枚举全部可能的子节点组合Ps=[(1,),(2,),(3,)…,(1,2),(1,3),(2,3),…P,…N];对每个具有0,1,2,…n-1个参与方的子组合S,计算权重w|S|=|S|!(|N|-|S|-1)!/|N|!。
在这里,每一个子节点组合对应上述的一个子组合S,在对子组合S的权重进行计算时,依据的是每个子组合中参与方的个数,在参与方组合中一个参与方对应一个集合中的元素,即根据参与方组合中的元素个数来计算参与方组合对应的权重,每个子组合对应的权重可以认为是该子组合在整体参与方组合中出现的概率。
进一步地,计算聚合周期开始时以及结束后,联合模型对应的效用值,并建立查找表,即对于每个聚合周期来说,可以先计算本聚合周期的最终效用值与本聚合周期的初始效用值。例如,对聚合周期t,分别计算vN=V(M(t)),v0=V(M(t-1)),并建立查找表,其中,vN表示当前聚合周期结束后联合模型的最终效用值,v0表示当前聚合周期对应的上一聚合周期结束后的联合模型的效用值,当然v0也可以理解为当前聚合周期开始前,当前聚合周期的初始效用值。
进一步地,当判断需要对各个参与方在本轮的贡献值做计算时,从本轮的全部子节点组合Ps中按顺序取出一种子节点组合P。对P中的每一个子节点j,可将P分割为{j}和S=P\{j}两个子集,也即P=S∪{j};计算j加入S产生的边际贡献,在计算边际贡献时,由于实际的边际贡献应当为Δj_real=vS∪{j}-vS=V(S∪{j})-V(S)=V(P)-V(S);但是,V(P)的值暂时还无法确定,因此采用缩放原理,将V(P)放大成vN,从而将j的边际贡献估计为Δj_est=vN-vS=v_lut[N]-v_lut[S],并将vS添加至列表VS_hist(对应另外一个缓存表),由于vS已在上一个组合P’中计算过,此处只需从查找表v_lut中获取,无需计算V(MS (t))。
在一些实施例中,基于边际贡献值以及权重,对子节点组合的效用值的计算方式进行判断,以便选择利用插值函数或者模型推演的方式计算子节点组合的效用值,包括:根据子节点的边际贡献值与子节点组合的权重之间的乘积,将乘积与预设的截断阈值进行比较,当子节点组合中每个子节点对应的乘积均小于或等于截断阈值时,则选择利用插值函数的方式计算子节点组合的效用值,否则,选择利用模型推演的方式计算子节点组合的效用值。
具体地,可以根据子节点的边际贡献值与子节点对应的子节点组合的权重的乘积与截断阈值之间的关系,判断是否对子节点组合的效用值进行计算。在实际应用中,计算子节点j的边际贡献值与子节点j所在子节点组合P的权重的乘积|Δj_est*w|S||,如果子节点组合P中全部子节点j均满足|Δj_est*w|S||≤η*|vN-v0|,则判断使用子组合的效用值对子节点组合P的效用值进行估计,否则,判断利用预设的模型推演方式计算子节点组合P的效用值。
需要说明的是,上述子节点组合P中的每个子节点对应的边际贡献值都满足上述公式时仅仅是一种可选的实施例,除此之外,还可以设置成其他判断标准,比如子节点组合P中的任意一个子节点的边际贡献值不满足上述公式,或者子节点组合P中有一半的子节点不满足上述公式,或者子节点组合P中存在任意比例的子节点不满足上述公式等等。
进一步地,在利用插值函数计算子节点组合的效用值时,基于历史迭代过程中计算的子节点组合的效用值、以及子节点组合为全集子节点组合时对应的效用值,利用预设的插值函数对子节点组合的效用值进行估计,得到子节点组合的效用值所对应的估计值,并根据估计值对查找表进行更新。
进一步地,在利用模型推演的方式计算子节点组合的效用值时,根据计算出的子节点组合的效用值对查找表进行更新,对子节点组合对应的模型参数进行聚合,并对子节点组合对应的模型进行模型推演,对子节点组合中每个参与方的权重进行聚合,得到子节点组合的权重,对子节点组合在标准验证集上进行模型推演,计算得到子节点组合的真实效用值,利用真实效用值对查找表进行更新。
根据本公开实施例提供的技术方案,通过应用基于Shapley值的贡献值计算方法,评估子节点对父节点模型的真实贡献,直至计算每个叶子节点对应的贡献值。由于每个父节点下的子节点数目不超过一个较小的设定值,因此子节点的贡献值计算过程可以在较短时间内完成,并且每个父节点及相应子节点的评估过程互不影响,可以以并行方式进行,进一步提高计算效率。
在一些实施例中,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值,包括:获取路径上的全部节点对应的贡献值,将全部节点对应的贡献值相乘,得到子节点在当前聚合周期内,对最高层级的父节点的联合模型的贡献值。
具体地,通过遍历整个分组树的全部叶子节点,得到每个叶子节点相对于根节点的路径,将路径上全部节点的贡献值相乘,即可得到该叶子节点(即参与方Pi)在聚合周期(t)对最终生成的联合模型的贡献值
Figure BDA0003429600570000121
进一步地,重复以上步骤,得到每个参与方Pi在全部T个聚合周期的对联合模型做出的贡献值,通过累加得到参与方Pi对联合模型的贡献值;也就是说,通过将全部的聚合周期按照上述贡献值计算方式计算一遍,得到每一个参与方在每一个聚合周期内的贡献值,最后通过累加得到参与方Pi对联合模型的真实贡献。
下面以工业互联网中跨工厂联合学习的场景为例,对本公开实施例提供的联合学习贡献值的计算方法进行举例说明,具体可以包括以下内容:
对若干工厂P1,P2,Pi…Pn进行联合学习,在每个联合学习的聚合周期(t),每个工厂将本地模型M_Pi(t)上传到聚合服务器,并从聚合服务器下载聚合后的全局模型M(t)。对于每个工厂,在聚合周期(t)的本地模型M_Pi(t)是由设备级模型聚合得到的,即工厂Pi中具有设备Di1,Di2,Dij…Dim,每个设备使用本设备对应的本地数据训练一个子模型M_Dij(t),然后将所有设备级子模型聚合得到工厂级本地模型M_Pi(t)
通过基于Shapley值的贡献衡量系统,输入全部聚合周期的本地模型M_Pi(t)及全局模型M(t),计算并输出工厂Pi对联合模型的真实贡献,记为
Figure BDA0003429600570000131
对每个工厂Pi,通过基于Shapley值的贡献衡量系统,输入全部聚合周期的设备级子模型M_Dij(t)及工厂本地模型M_Pi(t),计算并输出设备Dij对工厂Pi的本地模型的真实贡献,记为
Figure BDA0003429600570000132
重复该操作,获得每个工厂相应设备的真实贡献。最后,对每个工厂的每个设备Dij,其对应的联合模型的贡献值
Figure BDA0003429600570000133
通过将本公开实施例的技术方案应用于工业互联网的跨工厂联合学习场景中,可评估各个工厂对联合模型的真实贡献,以及各个工厂内部参与联合学习的各个设备对联合模型的真实贡献,并且能够降低联合学习贡献值的计算复杂度,提升联合学习贡献值的计算效率。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的联合学习贡献值的确定装置的结构示意图。如图4所示,该联合学习贡献值的确定装置包括:
聚类模块401,被配置为确定联合学习中的参与方,对参与方执行聚类操作,得到多个参与方组;
判断模块402,被配置为对参与方组的数量进行判断,根据判断结果对参与方组执行聚类操作,得到由若干个参与方组形成的分组树,分组树中包含父节点和子节点;
聚合模块403,被配置为在联合学习的聚合周期内,对分组树中同一参与方组内的子节点所对应的联合模型执行聚合操作,得到参与方组对应父节点的联合模型;
计算模块404,被配置为利用预设的联合学习贡献值算法,对每个子节点在聚合周期内对父节点的联合模型的贡献值进行计算,得到每个子节点对应的贡献值;
生成模块405,被配置为基于子节点对分组树进行遍历,得到子节点与分组树中最高层级的父节点之间的路径,根据路径上的全部节点对应的贡献值,生成子节点对最高层级的父节点的联合模型的贡献值。
在一些实施例中,图4的聚类模块401根据预先创建的联合学习架构,确定参与联合学习的参与方,获取参与方的属性信息,将属性信息作为聚类算法的输入,利用聚类算法对参与方进行分组,以便生成由多个具有相似属性的参与方组成的参与方组。
在一些实施例中,图4的判断模块402确定分组后得到的多个参与方组,并对参与方组的数量进行判断,当参与方组的数量大于阈值时,对参与方组执行二次聚类操作,基于二次聚类操作后的参与方组的数量,判断是否重复执行聚类操作,并直至参与方组的数量小于或等于阈值。
在一些实施例中,图4的聚合模块403针对联合学习过程中的每个聚合周期,从分组树中最低层级的子节点开始,对属于同一参与方组内的子节点所对应的联合模型进行聚合,得到子节点对应父节点的联合模型,重复执行聚合操作,直至获得分组树中最高层级的父节点所对应的联合模型。
在一些实施例中,图4的计算模块404根据父节点对应的全部子节点,生成若干个子节点组合,并计算每个子节点组合对应的权重;获取聚合周期前后父节点的联合模型对应的效用变化值,根据效用变化值判断是否计算子节点的贡献值;当判断结果为是时,选取任意一个子节点组合,计算子节点组合中每一个子节点对应的边际贡献值;基于边际贡献值以及权重,对子节点组合的效用值的计算方式进行判断,以便选择利用插值函数或者模型推演的方式计算子节点组合的效用值;根据子节点组合的效用值对预定的查找表进行更新,并基于更新后的查找表,计算每个子节点对父节点的联合模型的贡献值。
在一些实施例中,图4的计算模块404根据子节点的边际贡献值与子节点组合的权重之间的乘积,将乘积与预设的截断阈值进行比较,当子节点组合中每个子节点对应的乘积均小于或等于截断阈值时,则选择利用插值函数的方式计算子节点组合的效用值,否则,选择利用模型推演的方式计算子节点组合的效用值。
在一些实施例中,图4的生成模块405获取路径上的全部节点对应的贡献值,将全部节点对应的贡献值相乘,得到子节点在当前聚合周期内,对最高层级的父节点的联合模型的贡献值。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图5是本公开实施例提供的电子设备5的结构示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序503可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器502中,并由处理器501执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序503在电子设备5中的执行过程。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种联合学习贡献值的确定方法,其特征在于,包括:
确定联合学习中的参与方,对所述参与方执行聚类操作,得到多个参与方组;
对所述参与方组的数量进行判断,根据判断结果对所述参与方组执行聚类操作,得到由若干个所述参与方组形成的分组树,所述分组树中包含父节点和子节点;
在联合学习的聚合周期内,对所述分组树中同一所述参与方组内的子节点所对应的联合模型执行聚合操作,得到所述参与方组对应父节点的联合模型;
利用预设的联合学习贡献值算法,对每个所述子节点在所述聚合周期内对所述父节点的联合模型的贡献值进行计算,得到每个所述子节点对应的贡献值;
基于所述子节点对所述分组树进行遍历,得到所述子节点与所述分组树中最高层级的父节点之间的路径,根据所述路径上的全部节点对应的贡献值,生成所述子节点对所述最高层级的父节点的联合模型的贡献值。
2.根据权利要求1所述的方法,其特征在于,所述确定联合学习中的参与方,对所述参与方执行聚类操作,得到多个参与方组,包括:
根据预先创建的联合学习架构,确定参与联合学习的参与方,获取所述参与方的属性信息,将所述属性信息作为聚类算法的输入,利用所述聚类算法对所述参与方进行分组,以便生成由多个具有相似属性的参与方组成的参与方组。
3.根据权利要求1所述的方法,其特征在于,所述对所述参与方组的数量进行判断,根据判断结果对所述参与方组执行聚类操作,包括:
确定分组后得到的多个参与方组,并对所述参与方组的数量进行判断,当所述参与方组的数量大于阈值时,对所述参与方组执行二次聚类操作,基于二次聚类操作后的参与方组的数量,判断是否重复执行聚类操作,并直至所述参与方组的数量小于或等于所述阈值。
4.根据权利要求1所述的方法,其特征在于,所述在联合学习的聚合周期内,对所述分组树中同一所述参与方组内的子节点所对应的联合模型执行聚合操作,得到所述参与方组对应父节点的联合模型,包括:
针对联合学习过程中的每个所述聚合周期,从所述分组树中最低层级的子节点开始,对属于同一所述参与方组内的子节点所对应的联合模型进行聚合,得到所述子节点对应父节点的联合模型,重复执行所述聚合操作,直至获得所述分组树中最高层级的父节点所对应的联合模型。
5.根据权利要求1所述的方法,其特征在于,所述利用预设的联合学习贡献值算法,对每个所述子节点在所述聚合周期内对所述父节点的联合模型的贡献值进行计算,得到每个所述子节点对应的贡献值,包括:
根据所述父节点对应的全部子节点,生成若干个子节点组合,并计算每个所述子节点组合对应的权重;
获取聚合周期前后所述父节点的联合模型对应的效用变化值,根据所述效用变化值判断是否计算所述子节点的贡献值;
当判断结果为是时,选取任意一个所述子节点组合,计算所述子节点组合中每一个子节点对应的边际贡献值;
基于所述边际贡献值以及所述权重,对所述子节点组合的效用值的计算方式进行判断,以便选择利用插值函数或者模型推演的方式计算所述子节点组合的效用值;
根据所述子节点组合的效用值对预定的查找表进行更新,并基于更新后的所述查找表,计算每个所述子节点对所述父节点的联合模型的贡献值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述边际贡献值以及所述权重,对所述子节点组合的效用值的计算方式进行判断,以便选择利用插值函数或者模型推演的方式计算所述子节点组合的效用值,包括:
根据所述子节点的边际贡献值与所述子节点组合的权重之间的乘积,将所述乘积与预设的截断阈值进行比较,当所述子节点组合中每个所述子节点对应的乘积均小于或等于所述截断阈值时,则选择利用插值函数的方式计算所述子节点组合的效用值,否则,选择利用模型推演的方式计算所述子节点组合的效用值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述路径上的全部节点对应的贡献值,生成所述子节点对所述最高层级的父节点的联合模型的贡献值,包括:
获取所述路径上的全部节点对应的贡献值,将所述全部节点对应的贡献值相乘,得到所述子节点在当前聚合周期内,对所述最高层级的父节点的联合模型的贡献值。
8.一种联合学习贡献值的确定装置,其特征在于,包括:
聚类模块,被配置为确定联合学习中的参与方,对所述参与方执行聚类操作,得到多个参与方组;
判断模块,被配置为对所述参与方组的数量进行判断,根据判断结果对所述参与方组执行聚类操作,得到由若干个所述参与方组形成的分组树,所述分组树中包含父节点和子节点;
聚合模块,被配置为在联合学习的聚合周期内,对所述分组树中同一所述参与方组内的子节点所对应的联合模型执行聚合操作,得到所述参与方组对应父节点的联合模型;
计算模块,被配置为利用预设的联合学习贡献值算法,对每个所述子节点在所述聚合周期内对所述父节点的联合模型的贡献值进行计算,得到每个所述子节点对应的贡献值;
生成模块,被配置为基于所述子节点对所述分组树进行遍历,得到所述子节点与所述分组树中最高层级的父节点之间的路径,根据所述路径上的全部节点对应的贡献值,生成所述子节点对所述最高层级的父节点的联合模型的贡献值。
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111590171.0A 2021-12-23 2021-12-23 联合学习贡献值的确定方法、装置、电子设备及存储介质 Active CN114298319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590171.0A CN114298319B (zh) 2021-12-23 2021-12-23 联合学习贡献值的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590171.0A CN114298319B (zh) 2021-12-23 2021-12-23 联合学习贡献值的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114298319A true CN114298319A (zh) 2022-04-08
CN114298319B CN114298319B (zh) 2024-08-02

Family

ID=80968908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590171.0A Active CN114298319B (zh) 2021-12-23 2021-12-23 联合学习贡献值的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114298319B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421462A (zh) * 2023-12-18 2024-01-19 中信证券股份有限公司 一种数据处理方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
US20200285980A1 (en) * 2019-03-08 2020-09-10 NEC Laboratories Europe GmbH System for secure federated learning
US20210067339A1 (en) * 2019-08-26 2021-03-04 Accenture Global Solutions Limited Decentralized federated learning system
CN112712182A (zh) * 2021-03-29 2021-04-27 腾讯科技(深圳)有限公司 一种基于联邦学习的模型训练方法、装置及存储介质
CN112926897A (zh) * 2021-04-12 2021-06-08 平安科技(深圳)有限公司 基于联邦学习的客户端贡献计算方法和装置
CN112949865A (zh) * 2021-03-18 2021-06-11 之江实验室 一种基于sigma协议的联邦学习贡献度评估方法
CN113298404A (zh) * 2021-06-03 2021-08-24 光大科技有限公司 联邦学习参与方工作量确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285980A1 (en) * 2019-03-08 2020-09-10 NEC Laboratories Europe GmbH System for secure federated learning
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
US20210067339A1 (en) * 2019-08-26 2021-03-04 Accenture Global Solutions Limited Decentralized federated learning system
CN112949865A (zh) * 2021-03-18 2021-06-11 之江实验室 一种基于sigma协议的联邦学习贡献度评估方法
CN112712182A (zh) * 2021-03-29 2021-04-27 腾讯科技(深圳)有限公司 一种基于联邦学习的模型训练方法、装置及存储介质
CN112926897A (zh) * 2021-04-12 2021-06-08 平安科技(深圳)有限公司 基于联邦学习的客户端贡献计算方法和装置
CN113298404A (zh) * 2021-06-03 2021-08-24 光大科技有限公司 联邦学习参与方工作量确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUAN WANG.ET AL: ""Measure Contribution of Participants in Federated Learning"", 《IEEE》, 24 February 2020 (2020-02-24) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421462A (zh) * 2023-12-18 2024-01-19 中信证券股份有限公司 一种数据处理方法、装置及电子设备
CN117421462B (zh) * 2023-12-18 2024-03-08 中信证券股份有限公司 一种数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN114298319B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN111030861B (zh) 一种边缘计算分布式模型训练方法、终端和网络侧设备
CN111242282B (zh) 基于端边云协同的深度学习模型训练加速方法
CN113469373B (zh) 基于联邦学习的模型训练方法、系统、设备及存储介质
US20180211166A1 (en) Distributed deep learning device and distributed deep learning system
WO2023124296A1 (zh) 基于知识蒸馏的联合学习训练方法、装置、设备及介质
Zou et al. Mobile device training strategies in federated learning: An evolutionary game approach
CN113095512A (zh) 联邦学习建模优化方法、设备、介质及计算机程序产品
CN108052387B (zh) 一种移动云计算中的资源分配预测方法及系统
CN114116705B (zh) 联合学习中确定参与方贡献值的方法及装置
CN114116707A (zh) 确定联合学习中参与方贡献度的方法及装置
CN110992432B (zh) 基于深度神经网络最小方差梯度量化压缩及图像处理方法
CN111158912A (zh) 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111625258A (zh) 默克尔树更新方法、装置、设备及可读存储介质
CN113486584A (zh) 设备故障的预测方法、装置、计算机设备及计算机可读存储介质
CN113988310A (zh) 深度学习模型选择方法、装置、计算机设备和介质
CN114970345A (zh) 短期负荷预测模型构建方法、装置、设备及可读存储介质
CN116205311A (zh) 一种基于Shapley值的联邦学习方法
CN114298319A (zh) 联合学习贡献值的确定方法、装置、电子设备及存储介质
WO2023071529A1 (zh) 设备数据清洗方法、装置、计算机设备及介质
CN114116740A (zh) 用于联合学习中确定参与方贡献度的方法及装置
CN115695429A (zh) 面向Non-IID场景的联邦学习客户端选择方法
CN114553869A (zh) 基于联合学习的确定资源贡献度的方法、装置和电子设备
CN116050557A (zh) 电力负荷预测方法、装置、计算机设备和介质
WO2023082787A1 (zh) 联合学习中确定参与方贡献度的方法、联合学习训练方法及装置
CN113988158A (zh) 一种基于ftrl和学习率的纵向联邦逻辑回归训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant