CN113988319A - 联邦学习模型的训练方法、装置、电子设备、介质及产品 - Google Patents
联邦学习模型的训练方法、装置、电子设备、介质及产品 Download PDFInfo
- Publication number
- CN113988319A CN113988319A CN202111254690.XA CN202111254690A CN113988319A CN 113988319 A CN113988319 A CN 113988319A CN 202111254690 A CN202111254690 A CN 202111254690A CN 113988319 A CN113988319 A CN 113988319A
- Authority
- CN
- China
- Prior art keywords
- sample
- identifier
- learning model
- training
- passive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000004044 response Effects 0.000 claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 57
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 25
- 238000010801 machine learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000012954 risk control Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种联邦学习模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品;应用于具有标签的主动方设备,方法包括:获取用于训练联邦学习模型的样本的样本标识,以及本地存储的样本的第一样本特征;发送携带样本标识的样本确定请求至至少一个被动方设备;其中,样本确定请求,用于被动方设备从本地样本特征库中,筛选得到对应样本标识的第二样本特征;接收被动方设备发送的对应样本确定请求的响应信息;当响应信息指示对应样本标识的第二样本特征筛选完成时,结合样本的第一样本特征及第二样本特征,训练联邦学习模型。通过本申请,能够提高筛选训练样本的准确性,有效提高联邦学习系统的建模效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种联邦学习模型的训练方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
背景技术
联邦学习技术是新兴的一种隐私保护技术,能够保证数据在不出本地的前提下,有效联合各方数据进行模型训练。
相关联邦学习模型的训练过程中,需要建模人工配置大量信息,如撞库得到的表名、命名空间等。这样,将大量与模型训练无关的系统技术细节暴露给了用户,普通的建模用户需要仔细阅读文档并接受专业人员的指导才能开展联邦建模工作,由于联邦建模的撞库和建模耗时较长,一旦人工配置出错,会浪费大量的时间,导致建模效率低。
发明内容
本申请实施例提供一种联邦学习模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高筛选训练样本的准确性,有效提高联邦学习系统的建模效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种联邦学习模型的训练方法,应用于具有标签的主动方设备,包括:
获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征;
发送携带所述样本标识的样本确定请求至至少一个被动方设备;
其中,所述样本确定请求,用于所述被动方设备从本地样本特征库中,筛选得到对应所述样本标识的第二样本特征;
接收所述被动方设备发送的对应所述样本确定请求的响应信息;
当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型。
本申请实施例提供一种联邦学习模型的训练装置,包括:
获取模块,用于获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征;
发送模块,用于发送携带所述样本标识的样本确定请求至至少一个被动方设备;其中,所述样本确定请求,用于所述被动方设备从本地样本特征库中,筛选得到对应所述样本标识的第二样本特征;
接收模块,用于接收所述被动方设备发送的对应所述样本确定请求的响应信息;
训练模块,用于当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型。
上述方案中,所述获取模块,还用于获取样本配置信息,所述样本配置信息包括样本特征范围以及样本标识,所述样本特征范围用于指示训练所述联邦学习模型的样本的样本特征所归属的范围;
根据所述样本标识,确定本地样本特征库与所述样本标识对应的本地样本特征;
根据所述样本特征范围,筛选所述本地样本特征落入所述样本特征范围的样本特征,作为第一样本特征。
上述方案中,所述获取模块,还用于获取样本配置信息,所述样本配置信息包括样本特征范围;
根据所述样本特征范围,筛选本地样本特征库中样本特征落入所述样本特征范围的样本特征,作为第一样本特征;
将所述第一样本特征的样本标识,作为用于训练所述联邦学习模型的样本的样本标识。
上述方案中,所述样本配置信息包括至少一个被动方设备标识,所述发送模块,还用于根据所述至少一个被动方设备标识,发送携带所述样本标识的样本确定请求至相应的被动方设备。
上述方案中,所述发送模块,还用于确定能够与所述主动方设备协同训练所述联邦学习模型的多个候选参与方设备;
分别确定各所述候选参与方设备的优先级;
根据所述优先级,从所述多个被动方设备中筛选得到至少一个所述候选参与方设备,作为所述被动方设备。
上述方案中,所述训练模块,还用于当所述第一样本特征及所述第二样本特征所归属的特征范围为至少两个时,分别结合各所述特征范围内的所述第一样本特征及所述第二样本特征,进行联邦学习模型训练,得到与各所述特征范围相对应的联邦学习模型;
对各所述特征范围对应的联邦学习模型的预测准确性进行评估,得到评估结果;
采用目标输出方式,输出所述评估结果。
上述方案中,所述发送模块,还用于当所述被动方设备的数量为至少两个时,获取对应至少两个所述被动方设备的发送顺序;
根据所述发送顺序,逐一向所述被动方设备发送携带所述样本标识的样本确定请求;
在向各所述被动方设备发送所述样本确定请求的过程中,依据各所述被动方设备所返回的响应信息,确定与所述样本标识对应的第二样本特征筛选成功时,停止发送所述样本确定请求。
上述方案中,所述训练模块,还用于当所述样本标识的数量为至少两个,且所述响应信息指示所述至少两个样本标识中第一样本标识对应的第二样本特征筛选失败时,
输出对应所述第一样本标识的样本确定失败信息,以提示所述第一样本标识对应的第二样本特征筛选失败。
上述方案中,所述训练模块,还用于当所述响应信息指示对应所述样本标识的第二样本特征筛选完成且部分筛选成功时,确定筛选成功的所述样本标识作为第二样本标识;
从多个与所述样本标识对应的所述第一样本特征中,筛选所述第二样本标识对应的第一样本特征;
结合所述第二样本标识对应的第一样本特征,及所述第二样本标识对应的第二样本特征,训练所述联邦学习模型。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的联邦学习模型的训练方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的联邦学习模型的训练方法。
本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的联邦学习模型的训练方法。
本申请实施例具有以下有益效果:
与相关模型训练中直接使用本地特征库中所有样本特征进行联邦学习模型的训练相比,本申请实施例中主动方设备向被动方设备发送携带有本地样本标识的样本确定请求,并接收被动方设备发送的对应样本确定请求的响应信息,确定参与联邦模型训练的样本特征数据,根据确定的样本特征数据训练联邦学习模型。如此,能够提高筛选训练样本的准确性,有效提高联邦学习系统的建模效率,增强建模用户的使用体验。
附图说明
图1是本申请实施例提供的联邦学习模型的训练系统的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的联邦学习模型的训练方法的流程示意图;
图4是本申请实施例提供的联邦学习模型信息交互示意图;
图5是本申请实施例提供的获取样本标识以及样本特征的方法示意图;
图6A是本申请实施例提供的样本配置信息设置的可视化界面示意图;
图6B是本申请实施例提供的样本配置信息设置的文本内容示意图;
图6C是本申请实施例提供的样本配置信息设置的另一可视化界面示意图;
图7是本申请实施例提供的获取样本特征的方法示意图;
图8是本申请实施例提供的确定被动方设备的方法示意图;
图9是本申请实施例提供的发送样本确定请求的方法示意图;
图10A-10C是本申请实施提供的响应信息示意图;
图11是本申请实施例提供的联邦学习模型的训练方法示意图;
图12是本申请实施例提供的获取样本特征的方法示意图;
图13是一种基于纵向联邦学习的风控模型建模示意图;
图14是本申请实施例提供的基于联邦学习的风控模型的训练方法。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)联邦机器学习(Federated machine learning/Federated Learning),又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现协作智能。
联邦学习(Federated Learning,a.k.a.Federated Machine Learning)可以分为三类:横向联邦学习(Horizontal Federated Learning),纵向联邦学习(VerticalFederated Learning),联邦迁移学习(Federated Transfer Learning)。
其中,横向联邦学习也称为特征对齐的联邦学习(Feature-Aligned FederatedLearning),即横向联邦学习的参与者的数据特征是对齐的,适用于参与者的数据特征重叠较多,而样本标识(ID,Identity document)重叠较少的情况。纵向联邦学习也称为样本对齐的联邦学习(Sample-Aligned Federated Learning),即纵向联邦学习的参与者的训练样本是对齐的,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况。
2)撞库:以大量的用户数据为基础,利用用户相同的注册习惯(相同的用户名和密码),尝试登陆其它的网站。简单一点就是:你从别人那里复制了一大串钥匙,然后跑到楼里试着去开不同的门。
在纵向联邦学习模型,可以理解为是主动方设备根据本地样本库中的样本标识,向其他被动方设备发送撞库请求(或称样本确定请求),被动方设备依据样本标识在本地数据库中,筛选与样本标识对应的样本特征。
3)风控:即风险控制,指通过对业务进行风险评估进而实现风险控制,如对银行贷款资金的风险把控,包括贷款前的风险评估(如信用评估)、贷款中的风险监控(如信用变化监控)以及放款后的贷款管理(如基于信用的变化借新还旧)。
在风控、推荐等问题的建模过程中,相关联邦学习模型的训练技术,将大量与建模无关的系统技术细节暴露给了用户,导致建模效率低且用户使用体验差。
基于此,本申请实施例提供一种联邦学习模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高筛选训练样本的准确性,有效提高联邦学习系统的建模效率。
首先对本申请实施例提供的联邦学习模型的训练系统进行说明,参见图1,图1是本申请实施例提供的联邦学习模型的训练系统的架构示意图,在联邦学习模型的训练系统100中,被动方设备400(示例性地示出了被动方设备400-1以及被动方设备400-2)通过网络300连接主动方设备200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。在一些实施例中,被动方设备400可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。主动方设备200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。被动方设备400以及主动方设备200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
主动方设备200,用于获取用于训练联邦学习模型的样本的样本标识,以及本地存储的样本的第一样本特征;发送携带样本标识的样本确定请求至至少一个被动方设备;其中,样本确定请求,用于被动方设备从本地样本特征库中,筛选得到对应样本标识的第二样本特征;接收被动方设备发送的对应样本确定请求的响应信息;当响应信息指示对应样本标识的第二样本特征筛选完成时,结合样本的第一样本特征及第二样本特征,训练联邦学习模型。
被动方设备400,用于接收由主动方设备发送的携带样本标识的样本确定请求,解析样本确定请求,得到样本标识;根据样本标识,从本地样本特征库中,筛选得到对应样本标识的第二样本特征,并向主动方设备发送对应样本确定请求的响应信息。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,在实际应用中,电子设备500可以实施为图1中的被动方设备400或主动方设备200,以电子设备为图1所示的主动方设备200为例,对实施本申请实施例的联邦学习模型的训练方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的联邦学习模型的训练装置可以采用软件方式实现,图2示出了存储在存储器550中的联邦学习模型的训练装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、发送模块5552、接收模块5553、和训练模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的联邦学习模型的训练装置可以采用硬件方式实现,作为示例,本申请实施例提供的联邦学习模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的联邦学习模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
将结合本申请实施例提供的主动方设备的示例性应用和实施,说明本申请实施例提供的联邦学习模型的训练方法。参见图3,图3是本申请实施例提供的联邦学习模型的训练方法的流程示意图,将结合图3示出的步骤进行说明。
在步骤101中,主动方设备获取用于训练联邦学习模型的样本的样本标识,以及本地存储的样本的第一样本特征。
在一些实施例中,参见图4,图4是本申请实施例提供的联邦学习模型信息交互示意图。图中所示的联邦学习模型对应的参与方设备,可以包括一个主动方设备以及n(n≥1且n为整数)个被动方设备。其中,主动方设备作为训练联邦学习模型时样本的标签持有方与特征提供方,被动方设备仅作为样本的特征提供方。主动方设备向n个被动方设备发送携带样板标识的样本确定请求,以使被动方设备基于样本确定请求,提供与样本标识对应的样本特征;被动方设备在响应样本确定请求完成后,会向主动方设备返回响应信息,告知主动设备自身的响应的情况(响应成功还是响应失败)。
示例性地,当联邦学习模型应用于风控管理或风控预测时,训练联邦学习模型时训练样本的标签可以为标识用户信用程度的分类标签,还可以为标识用户忠诚度程度的分类标签,亦或是用于评估用户优质程度的分类标签。这里,主动方可以为对用户进行信用评估的平台,例如可以为金融贷款平台(如银行),被动方可以为持有用户的特征数据的平台,例如多种类型的消费平台(例如,商场、超市、网购平台、游戏平台、手机应用商店等)、或者互联网公司等。其中,用于训练联邦学习模型的多个数据特征可以包括但不限于用户的基础信息、业务数据、行为数据及设备信息等。基础信息包括但不限于用户的姓名、性别、年龄、学历、职业、手机号、身份证号、地址、收入数据(例如,年薪、月薪)等。业务数据包括多个业务场景下的数据,例如业务场景为贷款业务,业务数据则包括贷款数据及还款数据等,贷款数据包括贷款金额、贷款时间及贷款机构(例如,xx银行)等,还款数据包括还款金额、还款时间、还款机构及逾期还款数据(例如,逾期次数及逾期天数)等。
在一些实施例中,主动方设备可以根据预设设置的样本配置信息,确定用于训练联邦学习模型的样本的样本标识,以及自身本地样本特征库所能提供的样本特征(主动方设备提供的用于训练联邦学习模型的样本特征可称为第一样本特征),即主动方设备提供的样本特征称为第一样本特征。参考图5,图5是本申请实施例提供的获取样本标识以及样本特征的方法示意图。基于图3,图3示出的步骤101以通过步骤1011a至步骤1013a实现,将结合各步骤进行说明。
步骤1011a,主动方设备获取样本配置信息,样本配置信息包括样本特征范围以及样本标识。
在实际实施时,主动方设备可以通过向用户对象提供可视化信息配置界面的方式,获取用户对象设置的样本配置信息。参见图6A,图6A是本申请实施例提供的样本配置信息设置的可视化界面示意图,图中可供用户对象设置的样本配置信息,可以包括编号1所示的主动方设备标识、编号2所示的被动方设备标识、编号3所示的协调方设备标识、编号4所示的样本标识、编号5所示的样本特征范围等。其中,主动方设备标识是指携带标签信息的参与方设备的设备标识,主动方设备是联邦学习模型训练和使用的主动方(发起者),在实际应用中,联邦学习模型的主动方通常只有一个,主动方设备标识可以直接是默认的。被动方设备标识是为联邦学习模型提供样本特征的特征提供方设备的设备标识,被动方设备通过网络与主动方设备建立通信,并与主动方设备协同训练联邦学习模型,在实际应用中,被动方设备的数量可以多个,用户对象可以在图6A中所示的被动方设备标识对应的输入框中输入多个被动方设备标识。协调方设备标识是联邦学习模型进行参数聚合,并向各参与方设备发送聚合参数的设备标识,在实际应用中,主动方可以具有协调方的功能,即主动方设备与协调方设备可以是同一台服务器设备。需要说明的是,在实际应用中图6A所示的主动方设备标识、被动方设备标识以及协调方设备标识可以是同一台服务器设备。样本标识是主动方设备确定的需要参与联邦学习模型的样本标识,样本标识的数量可以是多个,主动方设备可以根据样本标识,确定本地样本特征库与样本标识对应的本地样本特征,还可以向被动方设备发送携带有样本标识的样本确定请求,以请求被动方设备提供样本标识对应的样本特征。样本特征范围是指样本特征所属范围,主动方设备根据样本特征范围,可以确定本地样本特征落入样本特征范围的样本特征,作为实际参与联邦学习模型的主动方对应的样本特征,在实际应用中,样本特征范围可以是用时间信息描述的特征范围,如图中编号5所示的样本特征范围的取值信息为{最近一个月、最近三个月、最近六个月、最近一年、自定义范围}等,对于样本特征范围的取值信息可以根据实际情况设定,本申请实施例不对样本特征范围的取值作限制。
示例性地,以基于纵向联邦学习的风控模型为例,用户对象U向主动方(银行A)发起贷款申请,主动方需要向其他银行、保险、商超等参与方设备,获取用户对象U的信用(可以通过逾期次数确定用户对象U的信用),进而判断是否向用户对象U发放贷款以及贷款额度等。可以用户对象U发起贷款申请的时刻T为时间点,获取以时间T为起始日期回溯最近一个月用户对象U的特征信息(主要是被动方提供的逾期次数)。
在实际实施时,主动方设备可以通过样本配置信息文件,配置联邦学习模型的样本相关信息,参见图6B,图6B是本申请实施例提供的样本配置信息设置的文本内容示意图,图中包括图6A中所示的样本配置信息,同时还提供了一些联邦学习模型的相关信息,针对用户对象而言,直接使用图6A所示的样本配置信息的可视化界面,样本配置信息更高效,且用户体验度更高。
步骤1012a,根据样本标识,确定本地样本特征库与样本标识对应的本地样本特征。
在实际实施时,主动方设备根据确定的需要参与联邦学习模型训练的样本标识,从本地样本特征库筛选与样本标识对应的本地样本特征。
步骤1013a,根据样本特征范围,筛选本地样本特征落入样本特征范围的样本特征,作为第一样本特征。
在实际实施时,主动方设备通过步骤1012a筛选得到与样本标识对应的本地样本特征后,再次根据设定的样本特征范围,对步骤1012a筛选得到的本地样本特征进而二次筛选,此时,得到主动方设备对应的本地特征库中,样本标识对应的且落入样本特征范围的样本特征,将经过二次筛选的与样本标识对应的样本特征作为联邦学习模型的第一样本特征。
在一些实施例中,样本配置信息为设置样本标识,此时是默认使用主动方设备中本地样本特征库中样本特征落入样本特征范围内的所有样本标识。参考图7,图7是本申请实施例提供的获取样本特征的方法示意图。基于图3,图3示出的步骤101以通过步骤1011b至步骤1013b实现,将结合各步骤进行说明。
步骤1011b,主动方设备获取样本配置信息,样本配置信息包括样本特征范围。
在实际实施时,参见图6C,图6C是本申请实施例提供的样本配置信息设置的另一可视化界面示意图,样本配置信息可以包括编号1所示的主动方设备标识、编号2所示的被动方设备标识、编号3所示的协调方设备标识、编号4c所示的样本特征范围等,与图6A相比,样本配置信息的设置界面中可以不需要设置样本标识。
步骤1012b,根据样本特征范围,筛选本地样本特征库中样本特征落入样本特征范围的样本特征,作为第一样本特征。
在实际实施时,主动方设备根据图6C中设置的样本特征范围,筛选本地样本特征库中样本特征落入样本特征范围的样本特征。并将筛选得到的样本特征作为主动方设备提供的样本特征参与联邦学习模型的训练过程。
步骤1013b,将第一样本特征的样本标识,作为用于训练联邦学习模型的样本的样本标识。
在实际实施时,主动方设备将通过步骤1012b筛选得到的样本特征的样本标识,作为用于训练联邦学习模型的样本的样本标识。
在步骤102中,发送携带样本标识的样本确定请求至至少一个被动方设备;其中,样本确定请求,用于被动方设备从本地样本特征库中,筛选得到对应样本标识的第二样本特征。
在一些实施例中,当主动方设备向被动方设备发送样本确定请求时,可以根据样本配置信息中指定的被动方设备标识,直接确定被动方设备。具体地,当样本配置信息包括至少一个被动方设备标识时,主动方设备根据至少一个被动方设备标识,发送携带样本标识的样本确定请求至相应的被动方设备。
在一些实施例中,当存在多个可用的被动方设备时,即多个可用的被动方设备均可以与主动方设备协同训练同一个联邦学习模型。由于主动方设备的实际计算能力以及分配给执行联邦学习模型训练的资源情况,主动方设备可能无法与所有的被动方设备建立通信。因此,在实际实施时,通常可以按照被动方设备的优先级确定候选参与方设备。参见图8,图8是本申请实施例提供的确定被动方设备的方法示意图,结合图8示出的步骤进行说明。
步骤201,主动方设备确定能够与主动方设备协同训练联邦学习模型的多个候选参与方设备。
在实际实施时,与主动方设备进行网络通信的被动方设备可能有多台,但是各被动方设备与主动方设备训练的可能是适用于不同场景的模型,因此,主动方设备预先设定能够与自身协同训练联邦学习模型的多个候选参与方设备。
步骤202,分别确定各候选参与方设备的优先级。
在实际实施时,确地候选参与方设备的优先级的方式有多种,可以通过候选参与方设备本地样本库中包含的样本特征的数据量设定,包含样本特征数据量多的,设备的优先级高,样本特征数据量少的,设备的优先级低。另外,还可以根据候选参与方设备所在的实际地理位置与主动方设备所处的地理位置的距离设定,距离越近,对应的设备的优先级越高。
步骤203,根据优先级,从多个被动方设备中筛选得到至少一个候选参与方设备,作为被动方设备。
在一些实施例中,当被动方设备的数量为多个时,可以根据预先设定对应各被动方设备的发送顺序,逐一向各被动方设备发送样本确定请求。参见图9,图9是本申请实施例提供的发送样本确定请求的方法示意图,基于图3,当被动方设备的数量为多个时,图3示出的步骤102以通过步骤1021至步骤1023实现,将结合各步骤进行说明。
步骤1021,主动方设备获取对应至少两个被动方设备的发送顺序。
在实际实施时,对应被动方设备的发送顺序的设定方式有多种。示例性地,可以是随机分配的发送顺序。另外,也可以根据被动方设备的优先级设定发送顺序,优先级越高,发送顺序越靠前。
示例性地,以通过被动方设备的优先级确定发送顺利为例,假设,存在6台能够与主动方设备协同进行联邦学习模型训练的被动方设备,被动方设备编号为{h1、h2、……、h6},并根据各被动方设备包含的样本特征量确定被动方设备优先级,设按照优先级从高到低排序后对应的被动方设备编号依次为{h3、h6、h2、h4、h5、h1}。
步骤1022,根据发送顺序,逐一向被动方设备发送携带样本标识的样本确定请求。
在实际实施时,按照各被动方设备对应的发送顺序,逐一向各被动方设备发送样本确定请求。
承接上例,获取得到按照优先级从高到低排序后对应的被动方设备编号依次为{h3、h6、h2、h4、h5、h1},主动方设备按照前述顺序,逐一向这6台被动方设备发送样本确定请求。
步骤1023,在向述被动方设备发送样本确定请求的过程中,依据各被动方设备所返回的响应信息,确定与样本标识对应的第二样本特征筛选成功时,停止发送样本确定请求。
在实际实施时,主动方设备按照发送顺序向各被动方设备发送样本确定请求,并接收各被动方设备返回的响应信息。主动方设备判断响应信息中,确定样本确定请求携带的样本标识对应的第二样本特征是否都筛选成功,当筛选成功时,就停止向被动方设备发送样本确定请求。需要说明的是,响应信息中不包含第二样本特征的具体属性值。
在步骤103中,接收被动方设备发送的对应样本确定请求的响应信息。
在一些实施例中,主动方设备向被动方设备发送携带样本标识的样本确定请求,以使被动方设备针对样本确定请求返回响应信息。同时鉴于联邦学习模型的特点,为了保证各参与方本地数据的隐私性,响应信息中不包含被动方设备所提供的特征数据。
对接收到的响应信息的形式进行说明,在一些实施例中,响应信息可以以JSON格式返回,图10A-10C是本申请实施提供的响应信息示意图,图中响应信息(记作response)可以包含被动方设备标识(编号1所示的host_id)、响应结果码(编号2所示的code)以及筛选成功的样本标识(编号3所示的result)。其中,host_id表示对应的被动方设备标识;code表示响应结果码;result表示在被动方设备中存在对应的第二特征数据的样本标识。
在实际实施时,code可以为{-1,0},code=0表示响应完成,code=-1表示响应失败;为了保护数据的隐私性,result可以是加密样本标识,也可以是通过序列化处理后的字符串,需要说明的是,当host_id返回的code等于-1时,result等于null(空)。当被动方设备的数量为1时,返回包含一组{host_id、code、result}的响应信息;当被动方设备的数量为N(N>1且N为整数)时,返回包含N组{host_id、code、result}的响应信息。
示例性地,以被动方设备的数量是1为例,参见图10B时,返回的一组包含{host_id、code、result}的响应信息;以被动方设备的数量是3为例,被动方设备标识为h3、h2、h4,参见图10C时,返回的三组包含{host_id、code、result}的响应信息,其中,h3、h2响应完成且响应成功,返回与样本确定请求所携带的样本标识对应的样本标识信息;h4响应失败,返回空(null)。
在步骤104中,当响应信息指示对应样本标识的第二样本特征筛选完成时,结合样本的第一样本特征及第二样本特征,训练联邦学习模型。
在实际实施时,结合步骤103返回的响应信息,可以确定响应成功的被动方设备,以及被动方设备能够与样本确定请求携带的样本标识匹配一致的样本标识,因此,被动方设备就可以提供与样本标识对应的第二样本特征,主动方设备就可以基于本地提供的与样本标识对应的第一样本特征以及被动方设备提供的与样本标识对应的第二样本特征,训练联邦学习模型。需要说明的是,此处的联邦学习模型可以是常见的线性回归、线性分类等各种常见的适用于联邦学习场景的各类机器学习模型,本申请实施例不对联邦学习模型的具体形式进行限制。
在一些实施例中,参见图11,图11是本申请实施例提供的联邦学习模型的训练方法示意图,结合图11示出的步骤可知,当第一样本特征及第二样本特征所归属的特征范围为至少两个时,步骤104可以通过步骤104a实现:
步骤104a,主动方设备分别结合各特征范围内的第一样本特征及第二样本特征,进行联邦学习模型训练,得到与各特征范围相对应的联邦学习模型。
在实际实施时,可以参见图6A,主动方设备面向用户对象提供样本配置信息设置界面,在样本配置信息设置界面中用户对象仅需配置的简单易懂的样本参数。其中,主动方设备可以根据样本特征范围,对参与联邦学习模型的样本特征进行分段(依据样本特征范围分段),根据每份分段样本都可以得到具有相同模型结构以及相同模型定义的不同联邦学习模型。需要说明的是,结合各特征范围内的第一样本特征及第二样本特征,进行联邦学习模型训练,得到与各特征范围相对应的联邦学习模型,仅仅只是由于样本特征范围的不同,产生的样本特征数据不同的联邦学习模型。
示例性地,针对一个联邦学习模型M,主动方设备根据设定的样本特征范围,将第一样本特征对应的样本标识分成5个区段,同样被动方设备也会将第二样本特征分成5个区段,结合5组第一样本特征以及第二样本特征训练联邦学习模型M,得到联邦学习模型M对应5个样本特征范围的联邦学习模型,可记作{M1、M2、M3、M4、M5}。
在步骤104a执行完成后,主动方设备会对得到的各特征范围相对应的联邦学习模型的模型预测值的准确性进行评估,并通过预设的输出方式输出得到的评估结果。具体的实现过程可以通过图10中的步骤105至步骤106实现:
步骤105,主动方设备对各特征范围对应的联邦学习模型的预测准确性进行评估,得到评估结果。
在实际实施时,针对同一个联邦学习模型,主动方设备根据各特征范围对应的训练样本(也可称为分段样本),与被动方设备协同训练联邦学习模型,得到各特征范围对应的不同的联邦学习模型,需要说明的是,不同的联邦学习模型仅仅是因为输入的训练样本的特征数据不同得到的,这些不同的联邦学习模型的模型定义以及模型结构完全相同。不同的分段样本训练的模型稳定性以及准确性不同,可以根据训练样本输入联邦学习模型得到的预测值,与自身携带的标签信息进行比较,进而对联邦学习模型的预测准确性进行评估,预测值与标签信息越接近,表明联邦学习模型的预测准确性越高。
步骤106,采用目标输出方式,输出评估结果。
在实际实施时,输出评估结果的目标输出方式,可以有多种。在一些实施例中,可以通过预设的报告模板输出评估结果,实现方式如下:主动方设备获取评估报告模板;结合评估报告模板以及评估结果,生成评估报告。另外,也可以直接将评估结果保存成xml、json格式的文件,并向外界提供下载接口。
在一些实施例中,参考图12,图12是本申请实施例提供的获取样本特征的方法示意图。基于图3,图3示出的步骤104以通过步骤1041至步骤1042实现,将结合各步骤进行说明。
步骤1041,当响应信息指示对应样本标识的第二样本特征筛选完成且部分筛选成功时,主动方设备确定筛选成功的样本标识作为第二样本标识。
示例性地,参见图10C,对应各样本标识的第二样本特征筛选完成时,其中,只有h3、h2响应成功,返回与样本确定请求所携带的样本标识对应的样本标识信息;h4响应失败,返回空(null)。此时,主动方设备确定被动方设备h3对应的result中的样本标识以及被动方设备h2对应的result中的样本标识为第二样本标识,即第二样本标识为{uid_1,uid_2,……,uid_n,uid_a,uid_b,……,uid_x}。
步骤1042,从多个与样本标识对应的第一样本特征中,筛选第二样本标识对应的第一样本特征。
承接上例,参见图10C,得到对应的多个第二样本标识{uid_1,uid_2,……,uid_n,uid_a,uid_b,……,uid_x},主动方设备从本地特征库中筛选各第二样本标识对应的第一样本特征(即在联邦学习模型训练过程中,由主动方设备提供的样本特征)。
步骤1043,结合第二样本标识对应的第一样本特征,及第二样本标识对应的第二样本特征,训练联邦学习模型。
在实际实施时,主动方设备通过本地样本特征库中提供与各第二样本标识对应的第一样本特征,并结合各被动方设备提供的与各第二样本标识对应的第二样本特征,协同训练联邦学习模型。
在一些实施例中,通常通过以下方式向联邦学习系统中各参与方广播样本确定请求失败的消息。具体地,当样本标识的数量为至少两个,且响应信息指示至少两个样本标识中第一样本标识对应的第二样本特征筛选失败时,主动方设备输出对应第一样本标识的样本确定失败信息,以提示第一样本标识对应的第二样本特征筛选失败。
在实际实施时,当样本标识的数量为至少两个,可能存在至少一个样本标识未能从响应信息中获取得到对应的匹配样本标识的情况,即参与联邦模型训练的被动方设备不包含该样本标识对应的第二特征数据。此时,主动方设备会向联邦学习模型所属的联邦学习系统广播针对该样本标识的样本确定请求失败的消息,用于向各参与方提示该样本标识对应的第二样本特征筛选失败。
本申请实施例中主动方设备通过提供样本配置信息的设置界面,能够提高样本配置信息设置的便捷性,然后基于设备的样本配置信息,对本地样本特征进行二次筛选获取参与联邦训练模型的样本标识以及相应的第一样本特征,如此,能够保证主动方设备提供的样本特征的准确性;并向被动方设备发送携带有样本标识的样本确定请求,并根据接收被动方设备发送的对应样本确定请求的响应信息,结合主动方设备提供的与样本标识对应的第一样本特征及被动方设备提供的与样本标识对应的第二样本特征,训练联邦学习模型。如此,能够有效提高联邦学习系统的建模效率,增强建模用户的使用体验。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
接下来,以基于纵向联邦学习的风控建模场景为例,对本申请实施例提供的联邦学习模型的训练方法进行说明。在风控建模的过程中,为了保证模型的效果,往往需要得到用户多维度全方位的特征来刻画用户的画像,这往往需要获取多个来源的特征数据。而由于对用户隐私保护日益强化,直接从数据源获取用户的数据往往变得不可行。纵向联邦学习提供了一种在不泄露用户隐私数据的前提下,进行多方联合建模的方案,非常适用于风控建模的场景。参见图4,纵向联邦学习通常由不同的参与方联合训练机器学习模型,其中有标签的参与方(通常只有一个)称为主动方,没有标签的参与方称为被动方。在模型训练过程中,各参与方之间只传输加密后的模型信息和梯度信息,不传输数据信息,从而保护了用户隐私数据的安全。
相关技术中,参见图13,图13为一种基于纵向联邦学习的风控模型建模示意图。建模过程包括:步骤301,主动方设备根据样本标识按回溯月份撞库;步骤302,配置风控建模信息;步骤303,执行风控建模;步骤304,对风控模型进行打分;步骤305,撰写风控建模报告。在整个风控模型建模过程中,需要建模人员配置大量信息,如撞库得到的表名、命名空间、jobid号,普通的建模用户需要仔细阅读文档并接受专业人员的指导才能开展联邦建模工作,由于联邦建模的撞库和建模耗时较长,一旦用户配置出错,会浪费大量的时间。既影响建模效率又影响用户的使用体验。
根据以上分析可以发现,相关联邦学习系统将大量与建模无关的系统技术细节暴露给了用户,影响了用户体验。基于此,本申请实施例提供一种联邦学习模型的训练方法,解决相关基于纵向联邦学习的风控建模中的建模效率低且用户使用体验差的问题。
在实际实施时,针对风控建模而言,通常需要用户决定的变量只有:联邦站点号(站点id),训练集、验证集、测试集的划分,特征选择策略,模型参数。其他的配置过程均可由系统自动完成。参见图14,图14是本申请实施例提供的基于联邦学习的风控模型的训练方法,结合图14示出的步骤进行说明。
步骤401,主动方设备获取样本标识,并发送携带样本标识的样本确定请求至被动方设备。
在实际实施时,主动方设备向被动方设备发送携带样本标识的样本确定请求,可看作是执行撞库操作。此阶段用户需要将样本文件配置成样本标识(id),apply_month,y,x0,x1……,xn这种形式,其中,apply_month是用户行为属性发送的时间,如,在针对用户申请贷款的风控模型中,apply_month可以是用户申请贷款的月份,y表示模型标签信息,{x0,x1……,xn}表示样本id对应的特征数据,其中特征数据是由参与联邦模型训练的主动方设备以及被动方设备共同提供的。
在实际实施时,主动方设备会通过指定联邦站点标识(站点id),确定参与联邦模型训练的主动方设备以及被动方设备。系统可以自动根据回溯月份(apply_month)将样本数据按回溯月份进行拆分,将拆分后的样本分别按对应的回溯月份进行撞库,撞库完成后自动记录表名和命名空间。对于撞库失败的月份,可重试多次,若均不能成功,再交人工处理。
步骤402,主动方设备结合本地提供的与样本标识对应的第一样本特征以及被动方设备提供的第二样本特征,训练基于联邦学习的风控模型。
在实际实施时,此阶段必须由用户决定的信息为训练集、验证集、测试集的划分。用户只需提供哪些月份作为训练集、哪些月份作为验证集和测试集即可。由于各月份对应的表名和命名空间系统中均有记录,因此用户指定了训练集、验证集、测试集的划分之后,系统就完全可以自动完成所有配置信息。而特征选择参数和模型参数作为可选项,若用户没有配置,就使用默认配置即可。
步骤403,主动方设备对得到的各风控模型进行打分,评估风控模型的预测准确性。
在实际实施时,自动将撞库所得的所有样本进行打分,对于有y的样本进行效果评估,并对训练集、验证集进行效果评估,若测试集有y,也进行效果评估。
步骤404,主动方设备根据对各风控模型的打分结果,生成评估报告。
在实际实施时,用户指定报告模板,系统自动根据打分和效果评估生成建模报告。
本申请实施例对纵向联邦风控建模的流程做了梳理,整理出了建模过程中需要由用户决定的变量。能够有效避免向建模用户暴露过多的联邦学习系统的细节,大大简化配置过程,提升用户体验;并且能够有效减少用户的误操作行为,有效提高联邦学习系统的建模效率,增强主动方建模用户的使用体验。
下面继续说明本申请实施例提供的联邦学习模型的训练装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器540的联邦学习模型的训练装置555中的软件模块可以包括:
获取模块5551,用于获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征;
发送模块5552,用于发送携带所述样本标识的样本确定请求至至少一个被动方设备;其中,所述样本确定请求,用于所述被动方设备从本地样本特征库中,筛选得到对应所述样本标识的第二样本特征;
接收模块5553,用于接收所述被动方设备发送的对应所述样本确定请求的响应信息;
训练模块5554,用于当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型。
在一些实施例中,所述获取模块,还用于获取样本配置信息,所述样本配置信息包括样本特征范围以及样本标识,所述样本特征范围用于指示训练所述联邦学习模型的样本的样本特征所归属的范围;根据所述样本标识,确定本地样本特征库与所述样本标识对应的本地样本特征;根据所述样本特征范围,筛选所述本地样本特征落入所述样本特征范围的样本特征,作为第一样本特征。
在一些实施例中,所述获取模块,还用于获取样本配置信息,所述样本配置信息包括样本特征范围;根据所述样本特征范围,筛选本地样本特征库中样本特征落入所述样本特征范围的样本特征,作为第一样本特征;将所述第一样本特征的样本标识,作为用于训练所述联邦学习模型的样本的样本标识。在一些实施例中,所述样本配置信息包括至少一个被动方设备标识,所述发送模块,还用于根据所述至少一个被动方设备标识,发送携带所述样本标识的样本确定请求至相应的被动方设备。
在一些实施例中,所述发送模块,还用于确定能够与所述主动方设备协同训练所述联邦学习模型的多个候选参与方设备;分别确定各所述候选参与方设备的优先级;根据所述优先级,从所述多个被动方设备中筛选得到至少一个所述候选参与方设备,作为所述被动方设备。
在一些实施例中,所述训练模块,还用于当所述第一样本特征及所述第二样本特征所归属的特征范围为至少两个时,分别结合各所述特征范围内的所述第一样本特征及所述第二样本特征,进行联邦学习模型训练,得到与各所述特征范围相对应的联邦学习模型;对各所述特征范围对应的联邦学习模型的预测准确性进行评估,得到评估结果;采用目标输出方式,输出所述评估结果。
在一些实施例中,所述发送模块,还用于当所述被动方设备的数量为至少两个时,获取对应至少两个所述被动方设备的发送顺序;根据所述发送顺序,逐一向所述被动方设备发送携带所述样本标识的样本确定请求;在向各所述被动方设备发送所述样本确定请求的过程中,依据各所述被动方设备所返回的响应信息,确定与所述样本标识对应的第二样本特征筛选成功时,停止发送所述样本确定请求。
在一些实施例中,所述训练模块,还用于当所述样本标识的数量为至少两个,且所述响应信息指示所述至少两个样本标识中第一样本标识对应的第二样本特征筛选失败时,输出对应所述第一样本标识的样本确定失败信息,以提示所述第一样本标识对应的第二样本特征筛选失败。
在一些实施例中,所述训练模块,还用于当所述响应信息指示对应所述样本标识的第二样本特征筛选完成且部分筛选成功时,确定筛选成功的所述样本标识作为第二样本标识;从多个与所述样本标识对应的所述第一样本特征中,筛选所述第二样本标识对应的第一样本特征;结合所述第二样本标识对应的第一样本特征,及所述第二样本标识对应的第二样本特征,训练所述联邦学习模型。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。
本申请实施例提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现本申请实施例提供的联邦学习模型的训练方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的联邦学习模型的训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够有效避免向建模用户暴露过多的联邦学习系统的细节,大大简化配置过程,提升用户体验;并且能够有效减少用户的误操作行为,有效提高联邦学习系统的建模效率,增强主动方建模用户的使用体验。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (13)
1.一种联邦学习模型的训练方法,其特征在于,应用于具有标签的主动方设备,所述方法包括:
获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征;
发送携带所述样本标识的样本确定请求至至少一个被动方设备;
其中,所述样本确定请求,用于所述被动方设备从本地样本特征库中,筛选得到对应所述样本标识的第二样本特征;
接收所述至少一个被动方设备发送的对应所述样本确定请求的响应信息;
当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型。
2.根据权利要求1所述的方法,其特征在于,所述获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征,包括:
获取样本配置信息,所述样本配置信息包括样本特征范围以及样本标识;
根据所述样本标识,确定本地样本特征库与所述样本标识对应的本地样本特征;
根据所述样本特征范围,筛选所述本地样本特征落入所述样本特征范围的样本特征,作为第一样本特征。
3.根据权利要求1所述的方法,其特征在于,所述获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征,包括:
获取样本配置信息,所述样本配置信息包括样本特征范围;
根据所述样本特征范围,筛选本地样本特征库中样本特征落入所述样本特征范围的样本特征,作为第一样本特征;
将所述第一样本特征的样本标识,作为用于训练所述联邦学习模型的样本的样本标识。
4.根据权利要求2或3所述的方法,其特征在于,所述样本配置信息包括至少一个被动方设备标识,所述发送携带所述样本标识的样本确定请求至至少一个被动方设备,包括:
根据所述至少一个被动方设备标识,发送携带所述样本标识的样本确定请求至相应的被动方设备。
5.根据权利要求1所述的方法,其特征在于,所述发送携带所述样本标识的样本确定请求至至少一个被动方设备之前,所述方法还包括:
确定能够与所述主动方设备协同训练所述联邦学习模型的多个候选参与方设备;
分别确定各所述候选参与方设备的优先级;
根据所述优先级,从所述多个被动方设备中筛选得到至少一个所述候选参与方设备,作为所述被动方设备。
6.根据权利要求1所述的方法,其特征在于,当所述第一样本特征及所述第二样本特征所归属的特征范围为至少两个时,所述结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型,包括:
分别结合各所述特征范围内的所述第一样本特征及所述第二样本特征,进行联邦学习模型训练,得到与各所述特征范围相对应的联邦学习模型;
所述方法还包括:
对各所述特征范围对应的联邦学习模型的预测准确性进行评估,得到评估结果;
采用目标输出方式,输出所述评估结果。
7.根据权利要求1所述的方法,其特征在于,当所述被动方设备的数量为至少两个时,所述发送携带所述样本标识的样本确定请求至至少一个被动方设备,包括:
获取对应至少两个所述被动方设备的发送顺序;
根据所述发送顺序,逐一向所述被动方设备发送携带所述样本标识的样本确定请求;
在向各所述被动方设备发送所述样本确定请求的过程中,依据各所述被动方设备所返回的响应信息,确定与所述样本标识对应的第二样本特征筛选成功时,停止发送所述样本确定请求。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述样本标识的数量为至少两个,且所述响应信息指示所述至少两个样本标识中第一样本标识对应的第二样本特征筛选失败时,
输出对应所述第一样本标识的样本确定失败信息,以提示所述第一样本标识对应的第二样本特征筛选失败。
9.根据权利要求1所述的方法,其特征在于,当所述样本标识数量为多个时,所述当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型,包括:
当所述响应信息指示对应所述样本标识的第二样本特征筛选完成且部分筛选成功时,确定筛选成功的所述样本标识作为第二样本标识;
从多个与所述样本标识对应的所述第一样本特征中,筛选所述第二样本标识对应的第一样本特征;
结合所述第二样本标识对应的第一样本特征,及所述第二样本标识对应的第二样本特征,训练所述联邦学习模型。
10.一种联邦学习模型的训练装置,其特征在于,包括:
获取模块,用于获取用于训练所述联邦学习模型的样本的样本标识,以及本地存储的所述样本的第一样本特征;
发送模块,用于发送携带所述样本标识的样本确定请求至至少一个被动方设备;其中,所述样本确定请求,用于所述被动方设备从本地样本特征库中,筛选得到对应所述样本标识的第二样本特征;
接收模块,用于接收所述至少一个被动方设备发送的对应所述样本确定请求的响应信息;
训练模块,用于当所述响应信息指示对应所述样本标识的第二样本特征筛选完成时,结合所述样本的第一样本特征及所述第二样本特征,训练所述联邦学习模型。
11.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的联邦学习模型的训练方法。
12.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至9任一项所述的联邦学习模型的训练方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的联邦学习模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254690.XA CN113988319A (zh) | 2021-10-27 | 2021-10-27 | 联邦学习模型的训练方法、装置、电子设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254690.XA CN113988319A (zh) | 2021-10-27 | 2021-10-27 | 联邦学习模型的训练方法、装置、电子设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988319A true CN113988319A (zh) | 2022-01-28 |
Family
ID=79742425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111254690.XA Pending CN113988319A (zh) | 2021-10-27 | 2021-10-27 | 联邦学习模型的训练方法、装置、电子设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988319A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239863A (zh) * | 2022-02-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 机器学习模型的训练方法及其预测方法、装置、电子设备 |
WO2024008154A1 (zh) * | 2022-07-08 | 2024-01-11 | 维沃移动通信有限公司 | 联邦学习方法、装置、通信设备及可读存储介质 |
-
2021
- 2021-10-27 CN CN202111254690.XA patent/CN113988319A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239863A (zh) * | 2022-02-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 机器学习模型的训练方法及其预测方法、装置、电子设备 |
CN114239863B (zh) * | 2022-02-24 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 机器学习模型的训练方法及其预测方法、装置、电子设备 |
WO2024008154A1 (zh) * | 2022-07-08 | 2024-01-11 | 维沃移动通信有限公司 | 联邦学习方法、装置、通信设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868507B2 (en) | Data processing systems for cookie compliance testing with website scanning and related methods | |
US11544405B2 (en) | Data processing systems for verification of consent and notice processing and related methods | |
US20200272763A1 (en) | Data processing systems for cookie compliance testing with website scanning and related methods | |
US11520928B2 (en) | Data processing systems for generating personal data receipts and related methods | |
US11727141B2 (en) | Data processing systems and methods for synching privacy-related user consent across multiple computing devices | |
US11586700B2 (en) | Data processing systems and methods for automatically blocking the use of tracking tools | |
WO2014071189A1 (en) | An interactive organizational decision-making and compliance facilitation portal | |
US10097552B2 (en) | Network of trusted users | |
US20140129914A1 (en) | Method of pre-populating editable electronic forms using trusted relationship based id codes | |
CN113988319A (zh) | 联邦学习模型的训练方法、装置、电子设备、介质及产品 | |
CN112529100B (zh) | 多分类模型的训练方法、装置、电子设备及存储介质 | |
US20190073599A1 (en) | Systems and methods for expediting rule-based data processing | |
US11675929B2 (en) | Data processing consent sharing systems and related methods | |
KR102419326B1 (ko) | 포트폴리오의 선택적 솔팅과 매칭 시뮬레이션을 통한 에이전트 시스템 | |
CN111897890A (zh) | 金融业务处理方法及装置 | |
CN116737137A (zh) | 业务流程的生成方法、装置、计算机设备和存储介质 | |
KR102330934B1 (ko) | 설문조사 중복실시 방지 시스템 및 그에 대한 방법 | |
US11645353B2 (en) | Data processing consent capture systems and related methods | |
DE102021124261A1 (de) | Automatisierte computerisierte Identifizierung von Anlagegegenständen | |
CN114281707A (zh) | 造数方法、业务应用测试方法及其相关设备 | |
CN111401395A (zh) | 一种数据处理方法、终端设备及存储介质 | |
CN112597749A (zh) | 目标模板的生成方法、装置、计算机设备和存储介质 | |
CN113553820A (zh) | 一种信息处理方法、设备以及计算机可读存储介质 | |
Daniel et al. | The promise of computational journalism | |
CN113961766A (zh) | 基于联邦学习的数据特征查询方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |