CN114139731A - 纵向联邦学习建模优化方法、设备、介质及程序产品 - Google Patents

纵向联邦学习建模优化方法、设备、介质及程序产品 Download PDF

Info

Publication number
CN114139731A
CN114139731A CN202111470422.1A CN202111470422A CN114139731A CN 114139731 A CN114139731 A CN 114139731A CN 202111470422 A CN202111470422 A CN 202111470422A CN 114139731 A CN114139731 A CN 114139731A
Authority
CN
China
Prior art keywords
intermediate parameters
training
federal
preset
training intermediate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111470422.1A
Other languages
English (en)
Inventor
蔡栋琪
范力欣
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111470422.1A priority Critical patent/CN114139731A/zh
Publication of CN114139731A publication Critical patent/CN114139731A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant

Abstract

本申请公开了纵向联邦学习建模优化方法、设备、介质及程序产品,应用于第一联邦参与方,所述纵向联邦学习建模优化方法包括:在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。本申请解决了现有技术中纵向联邦学习建模效率低的技术问题。

Description

纵向联邦学习建模优化方法、设备、介质及程序产品
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种基于特征工程的纵向联邦学习建模优化方法、设备、介质及程序产品。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能、大数据云服务应用的不断发展,为了解决“数据孤岛”问题,技术人员提出了联邦学习的概念。在纵向联邦学习场景下,纵向联邦学习中通常存在一个主动发起联邦学习的标签提供方和至少一个特征提供方,标签提供方通常等到所有特征提供方的数据到达后才开始进行下一步运算,以实现纵向联邦学习建模,但是若各特征提供方的本地网络为异构网络,不同的异构网络所需的数据运算时间通常不同,所以将导致标签提供方总是需要长时间等待最后一个特征提供方的数据到达后才能进行下一步运算,严重影响纵向联邦学习建模的效率。
发明内容
本申请的主要目的在于提供一种纵向联邦学习建模优化方法、设备、介质及程序产品,旨在解决现有技术中纵向联邦学习建模效率低的技术问题。
为实现上述目的,本申请提供一种纵向联邦学习建模优化方法,应用于第一联邦参与方,所述纵向联邦学习建模优化方法包括:
在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;
从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;
依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
本申请还提供一种纵向联邦学习建模优化装置,所述纵向联邦学习建模优化装置应用于第一联邦参与方,所述纵向联邦学习建模优化装置包括:
备份模块,用于在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;
补偿模块,用于从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;
建模模块,用于依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
本申请还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述纵向联邦学习建模优化方法的程序,所述纵向联邦学习建模优化方法的程序被处理器执行时可实现如上述的纵向联邦学习建模优化方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现纵向联邦学习建模优化方法的程序,所述纵向联邦学习建模优化方法的程序被处理器执行时实现如上述的纵向联邦学习建模优化方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的纵向联邦学习建模优化方法的步骤。
本申请提供了一种纵向联邦学习建模优化方法、设备、介质及程序产品,相比于现有技术中采用的标签提供方等到所有特征提供方的数据到达后才开始进行下一步运算,以实现纵向联邦学习建模的技术手段,本申请首先在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机,也即在纵向联邦学习的每一轮迭代先接收一部分到达较快的相连中间参数作为本轮联邦学习中间参数,将较慢到达的训练中间参数所对应的第二联邦参与方设置为备份机;从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数,也即,对于训练中间参数到达较慢的联邦学习参与方,在预设备份池中选取以往迭代发送的联邦学习中间参数作为补偿,进而依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数直接进行下一步运算,而由于模型在迭代过程中相邻迭代轮次的参数通常不会存在较大变化,所以同样可以实现第一联邦参与方与各所述第二联邦参与方之间的纵向联邦学习建模,且不会影响纵向联邦学习建模的精度。所以本申请在不影响纵向联邦学习建模精度的情况下,节约了第一联邦参与方等待训练中间参数到达的时间,实现了加速进行联邦学习建模的目的,克服了现有技术中若各特征提供方的本地网络为异构网络,不同的异构网络所需的数据运算时间通常不同,所以将导致标签提供方总是需要长时间等待最后一个特征提供方的数据到达后才能进行下一步运算,严重影响纵向联邦学习的效率的技术缺陷,提升了纵向联邦学习建模的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请纵向联邦学习建模优化方法第一实施例的流程示意图;
图2为本申请纵向联邦学习建模优化方法中基于纵向联邦学习构建泊松回归模型的流程示意图;
图3为本申请纵向联邦学习建模优化方法第二实施例的流程示意图;
图4为本申请实施例中纵向联邦学习建模优化方法涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
目前,为了解决“数据孤岛”问题,技术人员提出了联邦学习的概念。联邦学习可以为分为横向联邦学习和纵向联邦学习两种方式,在纵向联邦学习建模场景下,纵向联邦学习中通常存在一个主动发起联邦学习的标签提供方和至少一个特征提供方,而标签提供方需要接收各特征提供方发送的训练中间参数,进而标签提供方依据本地数据和所有特征提供方发送的训练中间参数计算需要反馈至各特征提供方的反馈中间参数,也即标签提供方与特征提供方之间需要交互中间参数,进而实现纵向联邦学习建模。但是,各所述特征提供方之间通常为异构网络,而异构网络处理本地样本数据得到训练中间参数所需的运算时间通常各不相同,且由于训练中间参数通常为同态加密的参数,数据的量级较高,则将进一步拉开不同异构网络之间的运算时间的差距,而标签提供方又必须集齐所有特征提供方的训练中间参数才能计算反馈中间参数,以完成标签提供方与特征提供方之间交互中间参数的过程,所以,标签提供方总需要等待最后一个特征提供方发送的训练中间参数到达,才能完成反馈中间参数的计算,这其中的等待时间极大程度上影响了纵向联邦学习建模的效率。
本申请实施例提供一种纵向联邦学习建模优化方法,应用于第一联邦参与方,在本申请纵向联邦学习建模优化方法的第一实施例中,参照图1,所述纵向联邦学习建模优化方法包括:
步骤S10,在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;
步骤S20,从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;
步骤S30,依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
本申请实施例提供了一种纵向联邦学习建模方法,相比现有的纵向联邦学习建模方法,本申请实施例首先在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机,也即在纵向联邦学习的每一轮迭代先接收一部分到达较快的相连中间参数作为本轮联邦学习中间参数,将较慢到达的训练中间参数所对应的第二联邦参与方设置为备份机;进而可从预设备份池中分别提取各所述备份机以往发送的最新的训练中间参数作为补偿联邦学习中间参数,也即,对于训练中间参数到达较慢的联邦学习参与方,在预设备份池中选取以往迭代发送的最新的联邦学习中间参数作为补偿,其中,模型训练时迭代更新的步长通常设置的较小,所以模型在迭代过程中相邻迭代轮次的参数通常不会存在较大变化,进而依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数直接进行下一步运算,同样可以计算反馈中间参数,以实现第一联邦参与方与各所述第二联邦参与方之间的纵向联邦学习建模,且不会影响纵向联邦学习建模的精度,进而实现了在不影响纵向联邦学习建模精度的情况下,节约了第一联邦参与方等待训练中间参数到达的时间的目的,加速进行了纵向联邦学习建模,所以,提升了纵向联邦学习建模的效率。
在本实施例中,需要说明的是,所述第一联邦参与方为主动发起纵向联邦学习建模任务的联邦参与方,可以为有样本标签的标签提供方,所述第二联邦参与方可以为无样本标签的特征提供方,所述训练中间参数为特征提供方发送的用于计算反馈中间参数的参数,所述反馈中间参数为用于计算联邦模型梯度的参数,作为一种示例,如图2所示为基于纵向联邦学习构建泊松回归模型的流程示意图,其中,标签提供方B为所述第一联邦参与方,特征提供方A为所述第二联邦参与方,第二联邦参与方的数量至少为1,微众C为联邦服务器,wxA和exp(wxA)均为所述训练中间参数,wxB和exp(wxB)均为标签提供方计算的中间参数,w为模型参数,x为样本特征,y为样本标签,d为所述反馈中间参数,gB为所述标签提供方计算的联邦模型梯度,gA为所述特征提供方计算的联邦模型梯度,[]为同态加密符号,表示符号内的数据被加密了。
作为一种示例,步骤S10至步骤S30包括:
在预设第一规定时间内接收各第二联邦参与方发送的训练中间参数,将按时到达的各训练中间参数作为本轮联邦学习中间参数,其中,所述本轮联邦学习中间参数为处于本轮联邦学习计算的训练中间参数,并确定未按时到达的各训练中间参数,将未按时到达的各训练中间参数对应的第二联邦参与方作为备份机;从预设备份池中分别提取各所述备份机在前面迭代轮次发送的最新训练中间参数作为补偿联邦学习中间参数,其中,所述补偿联邦学习中间参数将代替对应的未按时到达的训练中间参数作为本轮联邦学习中间参数参与下一步计算;通过依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行下一步预设纵向联邦学习计算步骤,继续执行预设纵向联邦流程,其中,预设纵向联邦流程的具体内容为现有技术,在此不再赘述。
作为一种示例,所述最新训练中间参数为预设备份池中最新到达的训练中间参数。若上一轮未按时到达的训练中间参数在上一轮迭代轮次结束之前到达第一联邦参与方,则所述最新训练中间参数为备份机在上一轮迭代轮次中发送的训练中间参数。
其中,所述依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模的步骤包括:
依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数,计算反馈中间参数,并依据所述反馈中间参数和本地样本特征,计算第一联邦模型梯度,依据第一联邦模型梯度更新第一本地模型;将所述反馈中间参数分别发送至各第二联邦参与方,以供所述第二联邦参与方依据所述反馈中间参数和自身的本地样本特征,计算第二联邦梯度,并依据第二联邦梯度更新第二本地模型;进而第一联邦参与方依据更新后的第一本地模型,联合各第二联邦参与方中更新后的第二本地模型进行下一轮联邦迭代,直至模型收敛。
其中,在步骤S10中,所述将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机的步骤包括:
步骤S11,在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第一规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
步骤S12,在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机。
示例性的,在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第一规定时间结束后,将在预设第一规定时间内已经接收的各训练中间参数作为本轮联邦学习中间参数;并确定在预设第一规定时间内未接收的各训练中间参数,将未接收的各训练中间参数所对应的第二联邦学习参与方作为备份机,例如,假设存在5个第二联邦参与方A,B,C,D以及E,A需要发送训练中间参数a至第一联邦学习参与方,B需要发送训练中间参数b至第一联邦学习参与方,C需要发送训练中间参数c至第一联邦学习参与方,D需要发送训练中间参数d至第一联邦学习参与方,E需要发送训练中间参数e至第一联邦学习参与方,若在预设第一规定时间内只有a,b以及c到达第一联邦参与方,则训练中间参数a,b以及c为本轮联邦学习中间参数,第二联邦学习参与方C和D将作为备份机。
其中,在所述在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数的步骤之前,所述纵向联邦学习建模优化方法还包括:
步骤A10,获取上一轮迭代中各所述第二联邦参与方发送的训练中间参数的到达花费时间;
步骤A20,依据各所述到达花费时间,确定所述预设第一规定时间。
在本实施例中,需要说明的是,所述到达花费时间为从迭代轮次开始时间至所述第二联邦参与方发送的训练中间参数到达第一联邦参与方所花费的时间。
示例性的,获取上一轮迭代中各所述第二联邦参与方发送的训练中间参数的到达花费时间;对各所述到达花费时间进行求平均,得到所述预设第一规定时间。
作为一种示例,步骤A20还包括:
获取预设按时到达参数数量,依据所述预设按时到达参数数量和各所述到达花费时间,设置所述预设第一规定时间,其中,在上一轮迭代中,在预设第一规定时间内到达第一联邦参与方的训练中间参数的数量为所述预设按时到达参数数量。
其中,在所述从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数的步骤之前,所述纵向联邦学习建模优化方法还包括:
步骤B10,在接收到所述第二联邦参与方发送的训练中间参数后,获取所述训练中间参数对应的迭代轮次标签;
步骤B20,将所述迭代轮次标签和所述训练中间参数共同备份至所述预设备份池。
在本实施例中,需要说明是,第一联邦参与方本地维护一预设备份池,每一第二联邦参与方发送的训练中间参数在到达第一联邦参与方后,第一联邦参与方均会将到达的训练中间参数备份至预设备份池。
示例性的,在接收到所述第二联邦参与方发送的训练中间参数后,获取所述训练中间参数对应的迭代轮次标签,其中,所述迭代轮次标签为标识所述训练中间参数对应的联邦学习迭代轮次的标识;将所述迭代轮次标签和所述训练中间参数关联备份至预设备份池。
其中,所述将所述迭代轮次标签和所述训练中间参数关联备份至预设备份池的步骤包括:
获取发送训练中间参数的第二联邦参与方的设备序号,将所述设备序号和所述迭代轮次标签组合为索引,将所述索引与所述训练中间参数以键值对的形式备份至预设备份池。
其中,所述纵向联邦学习建模优化方法还包括:
步骤C10,确定当前迭代轮次,获取所述预设备份池中各所述第二联邦参与方对应的最新训练中间参数;
步骤C20,确定各所述最新训练中间参数对应的备份迭代轮次;
步骤C30,依据各所述备份迭代轮次和所述当前迭代轮次,判别各所述第二联邦参与方是否处于挂机状态。
示例性的,确定当前迭代轮次,获取所述预设备份池中各所述第二联邦参与方对应的最新训练中间参数,其中,所述最新训练中间参数为第二联邦参与方最新发送的训练中间参数;获取各所述最新训练中间参数对应的备份迭代轮次;分别计算各所述备份迭代轮次与所述当前迭代轮次之间的轮次差距,判断各所述轮次差距是否均小于预设轮次差距阈值;若所述轮次差距均小于预设轮次差距阈值,则判定各所述第二联邦参与方未处于挂机状态;若所述轮次差距未均小于预设轮次差距阈值,将超过所述预设轮次差距阈值的轮次差距作为目标轮次差距,判定所述目标轮次差距对应的第二联邦参与方处于挂机状态。本申请实施例可通过实时监控各第二联邦参与方最新发送训练中间参数的联邦学习轮次与当前迭代轮次的差距,判别第二联邦参与方是处于挂机状态还是网络的运算速度较慢,可防止将挂机的第二联邦参与方误判为运算速度较慢的参与方,从而影响纵向联邦学习建模的精度。
在本实施例中,需要说明的是,在进行联邦学习建模过程中,例如横向联邦学习建模场景中,备份机制可选取每一轮训练中受网络异构影响而变得缓慢的参与方作为备份机,并忽略备份机的梯度更新,从而提升通信效率。但是在纵向联邦学习场景中,忽略掉的不是梯度信息而是训练中间参数,由于纵向联邦学习建模的每一参与方的特征维度均不同,缺失某一方训练中间参数会导致无法算出来完整的损失函数,联邦学习训练将会被阻塞,强行继续训练则会引入较大的训练偏差,极大影响纵向联邦建模的精度。本申请实施例中在第一联邦学习参与方本地维护一预设备份池,在设置备份机的同时,又从备份池中选取备份机对应的补偿,可补偿备份机缺失的训练中间参数,所以可实现在依据备份机制提升通信效率的同时,又不影响纵向联邦学习建模的效率的目的。
本申请实施例提供了一种纵向联邦学习建模优化方法,相比于现有技术中采用的标签提供方等到所有特征提供方的数据到达后才开始进行下一步运算,以实现纵向联邦学习建模的技术手段,本申请实施例首先在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机,也即在纵向联邦学习的每一轮迭代先接收一部分到达较快的相连中间参数作为本轮联邦学习中间参数,将较慢到达的训练中间参数所对应的第二联邦参与方设置为备份机;从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数,也即,对于训练中间参数到达较慢的联邦学习参与方,在预设备份池中选取以往迭代发送的联邦学习中间参数作为补偿,进而依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数直接进行下一步运算,而由于模型在迭代过程中相邻迭代轮次的参数通常不会存在较大变化,所以同样可以实现第一联邦参与方与各所述第二联邦参与方之间的纵向联邦学习建模,且不会影响纵向联邦学习建模的精度。所以本申请在不影响纵向联邦学习建模精度的情况下,节约了第一联邦参与方等待训练中间参数到达的时间,实现了加速进行联邦学习建模的目的,克服了现有技术中若各特征提供方的本地网络为异构网络,不同的异构网络所需的数据运算时间通常不同,所以将导致标签提供方总是需要长时间等待最后一个特征提供方的数据到达后才能进行下一步运算,严重影响纵向联邦学习的效率的技术缺陷,提升了纵向联邦学习建模的效率。
实施例二
进一步地,参照图3,基于本申请第一实施例,在本申请另一实施例中,与上述实施例一相同或相似的内容,可以参考上文介绍,后续不再赘述。在此基础上,所述将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机的步骤包括:
步骤D10,获取已经接收到的训练中间参数的参数数量;
步骤D20,若所述参数数量大于预设参数数量阈值,则开始在预设第二规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第二规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
步骤D30,在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机;
步骤D40,若所述参数数量不大于所述预设参数数量阈值,则返回执行步骤:获取已经接收到的训练中间参数的参数数量。
在本实施例中,需要说明的是,若在纵向联邦学习建模的一轮迭代,参与计算的补偿联邦学习中间参数所占的比重较高,则在本轮迭代中相当于是在以往轮次的训练中间参数上进行计算,将导致本轮迭代对模型的更新的贡献不大,本轮迭代的计算基本为无效计算,所以在本申请实施例纵向联邦建模过程中,需要保障每一轮迭代中,各本轮联邦学习中间参数参与计算的比重。
示例性的,持续等待接收各第二联邦参与方发送的训练中间参数,并实时监控已经接收到的训练中间参数的参数数量;若所述参数数量大于预设参数数量阈值,则开始计时,在预设第二规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第二规定时间结束后,将所有已经接收的各训练中间参数作为所述本轮联邦学习中间参数;确定未接收到的各训练中间参数,将未接收的各训练中间参数所对应的第二联邦学习参与方作为备份机;若所述参数数量不大于所述预设参数数量阈值,则返回执行步骤:获取已经接收到的训练中间参数的参数数量。
其中,所述在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机的步骤包括:
步骤E10,将未接收到的各训练中间参数对应的第二联邦参与方作为待评估参与方,并获取各所述待评估参与方共同对应的联邦学习贡献度;
步骤E20,若所述联邦学习贡献度大于预设联邦学习贡献度阈值,则开始在预设第三规定时间内等待接收各所述待评估参与方发送的训练中间参数,在所述预设第三规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
步骤E30,将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机;
步骤E40,若所述联邦学习贡献度不大于预设联邦学习贡献度阈值,则直接将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机。
示例性的,需要说明的是,所述联邦学习贡献度由各所述第二联邦参与方的样本数据的数据质量所决定,所述样本数据的数据质量可通过统计手段进行评估,例如卡方检验等,也可以通过特定的模型构建方式进行评估,例如基于逐步回归法的模型构建方法、基于向前法的模型构建方法或者基于向后法的模型构建方法等,此处列举的样本数据的数据质量的评估方法均为现有技术,在此不再赘述。
本申请实施例在预设第一规定时间或者预设第二规定时间的基础上,设置预设第三规定时间,可保证联邦学习贡献度较大的第二联邦参与方总能及时参与本轮迭代技术,而不会将联邦学习贡献度较大的第二联邦参与方作为备份机,由于联邦学习贡献度较大的第二联邦参与方对联邦学习模型整体影响较大,虽然每轮迭代中模型更新的步长不会很大,但是若作为备份机的第二联邦学习参与方的联邦学习贡献度非常大,仍然会对纵向联邦学习模型的训练精度产生少许的影响,本申请实施例通过设置预设第三规定时间,可防止由于将联邦学习贡献度较大的第二联邦参与方作为备份机,而对纵向联邦学习建模的精度产生影响,在依据备份补偿机制提升纵向联邦学习建模的通信效率的情况下,进一步提升了纵向联邦学习建模的精度。
本申请实施例提供了一种设置备份机的方法,也即,获取已经接收到的训练中间参数的参数数量;若所述参数数量大于预设参数数量阈值,则开始在预设第二规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第二规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机;若所述参数数量不大于所述预设参数数量阈值,则返回执行步骤:获取已经接收到的训练中间参数的参数数量。其中,在备份补偿机制的基础上,本申请实施例设置了依据到达的参数数量开始计时的预设第二规定时间,可保证本轮迭代中到达的参数数量不会过少,也即保障可保障各本轮联邦学习中间参数参与计算的比值不会过少,可防止进行本轮参与计算的中间参数大部分为补偿联邦学习中间参数,从而影响本轮迭代的模型更新效果的情况产生,使得本轮迭代中联邦学习模型可以朝着提升模型精度的方向进行更新,而使得模型在本轮迭代中相比于上一轮迭代进行无效的更新,所以进一步提升纵向联邦学习建模的精度。
实施例三
本申请实施例还提供一种纵向联邦学习建模优化装置,所述纵向联邦学习建模优化装置应用于第一联邦参与方,所述纵向联邦学习建模优化装置包括:
备份模块,用于在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;
补偿模块,用于从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;
建模模块,用于依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
可选地,所述备份模块还用于:
在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第一规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机。
可选地,所述备份模块还用于:
获取上一轮迭代中各所述第二联邦参与方发送的训练中间参数的到达花费时间;
依据各所述到达花费时间,确定所述预设第一规定时间。
可选地,所述备份模块还用于:
获取已经接收到的训练中间参数的参数数量;
若所述参数数量大于预设参数数量阈值,则开始在预设第二规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第二规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机;
若所述参数数量不大于所述预设参数数量阈值,则返回执行步骤:获取已经接收到的训练中间参数的参数数量。
可选地,所述备份模块还用于:
将未接收到的各训练中间参数对应的第二联邦参与方作为待评估参与方,并获取各所述待评估参与方共同对应的联邦学习贡献度;
若所述联邦学习贡献度大于预设联邦学习贡献度阈值,则开始在预设第三规定时间内等待接收各所述待评估参与方发送的训练中间参数,在所述预设第三规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机;
若所述联邦学习贡献度不大于预设联邦学习贡献度阈值,则直接将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机。
可选地,所述纵向联邦学习建模优化装置还用于:
在接收到所述第二联邦参与方发送的训练中间参数后,获取所述训练中间参数对应的迭代轮次标签;
将所述迭代轮次标签和所述训练中间参数共同备份至所述预设备份池。
可选地,所述纵向联邦学习建模优化装置还用于:
确定当前迭代轮次,获取所述预设备份池中各所述第二联邦参与方对应的最新训练中间参数;
确定各所述最新训练中间参数对应的备份迭代轮次;
依据各所述备份迭代轮次和所述当前迭代轮次,判别各所述第二联邦参与方是否处于挂机状态。
本发明提供的纵向联邦学习建模优化装置,采用上述实施例中的纵向联邦学习建模优化方法,解决了纵向联邦学习建模效率低的技术问题。与现有技术相比,本发明实施例提供的纵向联邦学习建模优化装置的有益效果与上述实施例提供的纵向联邦学习建模优化方法的有益效果相同,且该纵向联邦学习建模优化装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
实施例四
本发明实施例提供一种电子设备,电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例一中的纵向联邦学习建模优化方法。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此训练。输入/输出(I/O)接口也连接至总线。
通常,以下系统可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
本发明提供的电子设备,采用上述实施例中的纵向联邦学习建模优化方法,解决了纵向联邦学习建模效率低的技术问题。与现有技术相比,本发明实施例提供的电子设备的有益效果与上述实施例提供的纵向联邦学习建模优化方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
实施例五
本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例一中的纵向联邦学习建模优化的方法。
本发明实施例提供的计算机可读存储介质例如可以是U盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
本发明提供的计算机可读存储介质,存储有用于执行上述纵向联邦学习建模优化方法的计算机可读程序指令,解决了纵向联邦学习建模效率低的技术问题。与现有技术相比,本发明实施例提供的计算机可读存储介质的有益效果与上述实施例提供的纵向联邦学习建模优化方法的有益效果相同,在此不做赘述。
实施例六
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的纵向联邦学习建模优化方法的步骤。
本申请提供的计算机程序产品解决了纵向联邦学习建模效率低的技术问题。与现有技术相比,本发明实施例提供的计算机程序产品的有益效果与上述实施例提供的纵向联邦学习建模优化方法的有益效果相同,在此不做赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种纵向联邦学习建模优化方法,其特征在于,应用于第一联邦参与方,所述纵向联邦学习建模优化方法包括:
在接收各第二联邦参与方发送的训练中间参数时,将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机;
从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数;
依据各所述本轮联邦学习中间参数和各所述补偿联邦学习中间参数进行纵向联邦学习建模。
2.如权利要求1所述纵向联邦学习建模优化方法,其特征在于,所述将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机的步骤包括:
获取已经接收到的训练中间参数的参数数量;
若所述参数数量大于预设参数数量阈值,则开始在预设第二规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第二规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机;
若所述参数数量不大于所述预设参数数量阈值,则返回执行步骤:获取已经接收到的训练中间参数的参数数量。
3.如权利要求1所述纵向联邦学习建模优化方法,其特征在于,所述将按时到达的各训练中间参数作为本轮联邦学习中间参数,以及在未能按时到达的各训练中间参数对应的第二联邦参与方中选取各备份机的步骤包括:
在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数,在所述预设第一规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机。
4.如权利要求3所述纵向联邦学习建模优化方法,其特征在于,在所述在预设第一规定时间内等待接收各所述第二联邦参与方发送的训练中间参数的步骤之前,所述纵向联邦学习建模优化方法还包括:
获取上一轮迭代中各所述第二联邦参与方发送的训练中间参数的到达花费时间;
依据各所述到达花费时间,确定所述预设第一规定时间。
5.如权利要求2或者3所述纵向联邦学习建模优化方法,其特征在于,所述在未接收到的各训练中间参数对应的第二联邦参与方中选取各所述备份机的步骤包括:
将未接收到的各训练中间参数对应的第二联邦参与方作为待评估参与方,并获取各所述待评估参与方共同对应的联邦学习贡献度;
若所述联邦学习贡献度大于预设联邦学习贡献度阈值,则开始在预设第三规定时间内等待接收各所述待评估参与方发送的训练中间参数,在所述预设第三规定时间结束后,将已经接收的各训练中间参数作为所述本轮联邦学习中间参数;
将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机;
若所述联邦学习贡献度不大于预设联邦学习贡献度阈值,则直接将未接收到的各训练中间参数对应的第二联邦参与方作为所述备份机。
6.如权利要求1所述纵向联邦学习建模优化方法,其特征在于,在所述从预设备份池中分别提取各所述备份机以往发送的训练中间参数作为补偿联邦学习中间参数的步骤之前,所述纵向联邦学习建模优化方法还包括:
在接收到所述第二联邦参与方发送的训练中间参数后,获取所述训练中间参数对应的迭代轮次标签;
将所述迭代轮次标签和所述训练中间参数共同备份至所述预设备份池。
7.如权利要求1所述纵向联邦学习建模优化方法,其特征在于,所述纵向联邦学习建模优化方法还包括:
确定当前迭代轮次,获取所述预设备份池中各所述第二联邦参与方对应的最新训练中间参数;
确定各所述最新训练中间参数对应的备份迭代轮次;
依据各所述备份迭代轮次和所述当前迭代轮次,判别各所述第二联邦参与方是否处于挂机状态。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的纵向联邦学习建模优化方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现纵向联邦学习建模优化方法的程序,所述实现纵向联邦学习建模优化方法的程序被处理器执行以实现如权利要求1至7中任一项所述纵向联邦学习建模优化方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述纵向联邦学习建模优化方法的步骤。
CN202111470422.1A 2021-12-03 2021-12-03 纵向联邦学习建模优化方法、设备、介质及程序产品 Pending CN114139731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111470422.1A CN114139731A (zh) 2021-12-03 2021-12-03 纵向联邦学习建模优化方法、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111470422.1A CN114139731A (zh) 2021-12-03 2021-12-03 纵向联邦学习建模优化方法、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN114139731A true CN114139731A (zh) 2022-03-04

Family

ID=80387700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111470422.1A Pending CN114139731A (zh) 2021-12-03 2021-12-03 纵向联邦学习建模优化方法、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN114139731A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822863A (zh) * 2022-05-12 2022-07-29 浙江大学 基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822863A (zh) * 2022-05-12 2022-07-29 浙江大学 基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
CN110098998B (zh) 用于处理信息的方法和设备
CN110569057A (zh) 灰度发布方法、装置、电子设备及计算机可读介质
CN111506376A (zh) 反馈信息显示方法、装置、可读介质及电子设备
CN114139731A (zh) 纵向联邦学习建模优化方法、设备、介质及程序产品
CN110619100A (zh) 用于获取数据的方法和装置
CN111752834A (zh) 自动化测试方法和装置
CN111198853A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111813407B (zh) 游戏开发方法、游戏运行方法、装置和电子设备
CN111367592B (zh) 信息处理方法和装置
CN110347973B (zh) 用于生成信息的方法和装置
CN111294657A (zh) 信息处理方法和装置
CN110991312A (zh) 生成检测信息的方法、装置、电子设备和介质
CN110795328A (zh) 一种接口测试方法和装置
CN112328341B (zh) 模型显示方法,装置,电子设备及存储介质
CN111738415B (zh) 模型同步更新方法、装置及电子设备
CN112328340B (zh) 模型流程显示方法,装置,电子设备及存储介质
CN110968334B (zh) 应用资源更新方法、资源包制作方法、装置、介质及设备
CN109582193B (zh) 列表管理组中的项cell的控制显示方法及电子设备
CN111460270B (zh) 信息推送方法和装置
CN111552705B (zh) 基于图表的数据处理方法、装置、电子设备及介质
CN111641692B (zh) 会话数据处理方法、装置及电子设备
CN111382038B (zh) 上报业务数据的方法、装置、电子设备及存储介质
CN112235333B (zh) 一种功能包管理方法、装置、设备及存储介质
CN113722634A (zh) 数据处理方法、装置、电子设备和计算机可读介质
CN112883697A (zh) 工作流表单生成方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination