CN112785002A - 模型构建优化方法、设备、介质及计算机程序产品 - Google Patents

模型构建优化方法、设备、介质及计算机程序产品 Download PDF

Info

Publication number
CN112785002A
CN112785002A CN202110277698.1A CN202110277698A CN112785002A CN 112785002 A CN112785002 A CN 112785002A CN 202110277698 A CN202110277698 A CN 202110277698A CN 112785002 A CN112785002 A CN 112785002A
Authority
CN
China
Prior art keywords
sample
party
model
feature extraction
overlapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110277698.1A
Other languages
English (en)
Inventor
康焱
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110277698.1A priority Critical patent/CN112785002A/zh
Publication of CN112785002A publication Critical patent/CN112785002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请公开了一种模型构建优化方法、设备、介质及计算机程序产品,所述模型构建优化方法应用于第一设备,所述模型构建优化方法包括:获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。本申请解决了特征提取生成的样本表征所包含的信息量低的技术问题。

Description

模型构建优化方法、设备、介质及计算机程序产品
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种模型构建优化方法、设备、介质及计算机程序产品。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机技术的不断发展,机器学习的应用也越来越广泛,在进行模型构建时,常常会将样本映射至潜在空间进行降维后作为模型输入,也即,通过特征提取模型对样本进行特征提取,获得样本表征,进而将样本表征作为模型输入,目前,特征提取模型通常以生成对抗网络的方式进行构建,但是,由于编码器在进行编码时,通常会产生一定的信息丢失,进而将导致基于特征提取生成样本表征所包含的信息量较低。
发明内容
本申请的主要目的在于提供一种模型构建优化方法、设备、介质及计算机程序产品,旨在解决现有技术中特征提取生成的样本表征所包含的信息量低的技术问题。
为实现上述目的,本申请提供一种模型构建优化方法,所述模型构建优化方法应用于第一设备,所述模型构建优化方法包括:
获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;
基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。
为实现上述目的,本申请还提供一种模型构建优化方法,所述模型构建优化方法应用于第二设备,所述模型构建优化方法包括:
获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征;
将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失。
为实现上述目的,本申请还提供一种样本类别预测方法,所述样本类别预测方法应用于第一设备,所述样本类别预测方法包括:
获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果。
本申请还提供一种模型构建优化装置,所述模型构建优化装置为虚拟装置,且所述模型构建优化装置应用于第一设备,所述模型构建优化装置包括:
获取模块,用于获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
对比学习模块,用于基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;
优化模块,用于基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。
为实现上述目的,本申请还提供一种模型构建优化装置,所述模型构建优化装置为虚拟装置,且所述模型构建优化装置应用于第二设备,所述模型构建优化装置包括:
特征提取模块,用于获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征;
发送模块,用于将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失。
为实现上述目的,本申请还提供一种样本类别预测装置,所述样本类别预测为虚拟装置,且所述样本类别预测装置应用于第一设备,所述样本类别预测包括:
特征提取模块,用于获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
样本类别预测模块,用于基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果。
本申请还提供一种模型构建优化设备,所述模型构建优化设备为实体设备,所述模型构建优化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述模型构建优化方法的程序,所述模型构建优化方法的程序被处理器执行时可实现如上述的模型构建优化方法的步骤。
本申请还提供一种样本类别预测设备,所述样本类别预测设备为实体设备,所述样本类别预测设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述样本类别预测方法的程序,所述样本类别预测方法的程序被处理器执行时可实现如上述的样本类别预测方法的步骤。
本申请还提供一种介质,所述介质为可读存储介质,所述可读存储介质上存储有实现模型构建优化方法的程序,所述模型构建优化方法的程序被处理器执行时实现如上述的模型构建优化方法的步骤。
本申请还提供一种介质,所述介质为可读存储介质,所述可读存储介质上存储有实现样本类别预测方法的程序,所述样本类别预测方法的程序被处理器执行时实现如上述的样本类别预测方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的模型构建优化方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的样本类别优化方法的步骤。
本申请提供了一种模型构建优化方法、设备、介质及计算机程序产品,相比于现有技术采用的以生成对抗网络的方式构建特征提取模型的技术手段,本申请首先获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本,进而基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失,所以,实现了基于第二设备的第二方重叠样本与己方的第一方重叠样本以及己方的第一方非重叠样本进行对比学习的目的,进而基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型,即可实现基于对比学习构建目标特征提取模型的目的,进而实现了利用了第二设备中第二方重叠样本,拉远特征提取模型对于第一方重叠样本的特征提取结果与对于第一方非重叠样本的特征提取结果之间的距离的目的,进而赋予了特征提取模型区分不同类型的样本的能力,使得特征提取模型对于不同类型的样本生成的特征提取结果的相似度极低,进而使得特征提取模型生成的特征提取结果中具备样本的类别信息,所以,克服了现有技术中由于编码器在进行编码时,通常会产生一定的信息丢失,进而将导致基于特征提取生成样本表征所包含的信息量较低的技术缺陷,所以提升了特征提取生成的样本表征所包含的信息量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请模型构建优化方法第一实施例的流程示意图;
图2为本申请模型构建优化方法第二实施例的流程示意图;
图3为本申请模型构建优化方法实施例中当类别预测模型为泊松回归模型时,第一设备与第二设备通过进行联邦交互,计算类别预测损失的交互流程示意图;
图4为本申请模型构建优化方法第三实施例的流程示意图;
图5为本申请模型构建优化方法第四实施例的流程示意图;
图6为本申请实施例中模型构建优化方法涉及的硬件运行环境的设备结构示意图;
图7为本申请实施例中样本类别预测方法涉及的硬件运行环境的设备结构示意图;
图8本申请实施例方案涉及的联邦学习的硬件架构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种模型构建优化方法,在本申请模型构建优化方法的第一实施例中,参照图1,所述模型构建优化方法应用于第一设备,所述模型构建优化方法包括:
步骤S10,获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
在本实施例中,需要说明的是,所述模型构建优化方法应用于纵向联邦学习,所述特征提取模型为未训练好的机器学习模型,用于对样本进行特征提取,以将样本映射为潜在空间的样本表征,其中,所述样本表征为表示样本的编码向量,所述第一设备为纵向联邦学习的标签提供方,所述第二设备为纵向联邦学习的特征提供方,其中,所述标签提供方为在纵向联邦学习中提供具备样本标签的样本的参与方,所述特征提供方为在纵向联邦学习中提供无样本标签的样本的参与方。
另外地,需要说明的是,在进行所述与第二设备的样本对齐结果中获取第一方重叠样本和第一方非重叠样本的步骤之前,所述第一设备与所述第二设备进行样本对齐,也即,第一设备与第二设备将各自的样本ID进行比对,以确定第一设备与第二设备之间的具备的公共样本ID,获得样本对齐结果,其中,所述样本对齐结果至少包括一公共样本ID。
获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本,具体地,获取特征提取模型,并基于与第二设备关联的样本对齐结果中各公共样本ID,其中,所述公共样本ID为第一设备与第二设备之间的重叠样本的身份标识,例如,所述公共样本ID可以为手机号和身份证号等,进而基于各公共样本ID,提取第一方重叠样本和预设数量的第一方非重叠样本,其中,所述第一方重叠样本为第一设备中具备所述公共样本ID的样本,所述第一方非重叠样本为第一设备中不具备所述公共样本ID的样本。
步骤S20,基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;
在本实施例中,基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失,具体地,将所述第一方重叠样本输入所述特征提取模型,对所述第一方重叠样本进行特征提取,以将所述第一方重叠样本映射为第一方重叠样本表征,并将各第一方非重叠样本输入特征提取模型,分别对各所述第一方非重叠样本进行特征提取,以分别将各所述第一方非重叠样本映射为第一方非重叠样本表征,进而接收第二设备发送的第二方重叠样本表征,其中,所述第二方重叠样本表征为第二设备基于己方的特征提取模型对第二方重叠样本进行特征提取生成的表征,所述第二方重叠样本为第二设备中与第一方重叠样本具备相同的公共样本ID的样本,进而将所述第一方重叠样本表征作为所述第二方重叠样本表征的正例,以及将所述第一方非常重叠样本表征作为所述第二方重叠样本表征的负例,计算对比学习损失,进而将所述第一方重叠样本表征发送至第二设备,以供第二设备将第二方重叠样本表征作为所述第一方重叠样本表征的正例,以及将第二方非重叠样本表征作为所述第一方重叠样本表征的负例,计算第二方对比学习损失,其中,所述第二方非重叠样本表征为第二设备基于己方的特征提取模型对第二方非重叠样本进行特征提取生成的表征,所述第二方非重叠样本为第二设备中不具备公共样本ID的样本。
其中,所述基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失的步骤包括:
步骤S21,基于所述特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
在本实施例中,需要说明的是,所述第二方非重叠样本的数量至少为1。
基于所述特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征,具体地,将所述第一方重叠样本输入特征提取模型,通过对所述第一方重叠样本进行数据处理,其中,所述数据处理方式包括但不限定于卷积、池化以及全连接等,将所述第一方重叠样本映射至预设潜在空间,获得第一方重叠样本表征,其中,所述第一方重叠样本表征在预设潜在空间中表示为一向量,相同地,将各所述第一方非重叠样本输入特征提取模型,通过分别对各所述第一方重叠样本进行数据处理,其中,所述数据处理方式包括但不限定于卷积、池化以及全连接等,分别将各所述第一方重叠样本映射至预设潜在空间,获得各所述第一非重叠样本对应的第一方非重叠样本表征,其中,所述第一方非重叠样本表征在预设潜在空间中表示为一向量。
步骤S22,将所述第一方重叠样本表征发送至所述第二设备,以供所述第二设备基于所述第一方重叠样本表征、生成的第二方重叠样本表征以及第二方非重叠样本表征,计算第二方对比学习损失;
在本实施例中,将所述第一方重叠样本表征发送至所述第二设备,以供所述第二设备基于所述第一方重叠样本表征、生成的第二方重叠样本表征以及第二方非重叠样本表征,计算第二方对比学习损失,具体地,将所述第一方重叠样本表征发送至所述第二设备,以供所述第二设备将所述第二方重叠样本表征作为所述第一方重叠样本表征的第二方正例样本表征,以及将所述第二方非重叠样本表征作为所述第一方重叠样本表征的第二方负例样本表征,进而将第一方重叠样本表征、第二方正例样本表征和第二方负例样本表征代入预设第二对比学习损失计算公式,计算第二方对比学习损失,其中,所述预设第二对比学习损失计算公式如下所示:
Figure BDA0002977303040000081
其中,
Figure BDA0002977303040000082
为所述第二方对比学习损失,uA为所述第一方重叠样本表征,uB为所述第二方正例样本表征,
Figure BDA0002977303040000083
为所述第二方负例样本表征,M为第二方负例样本表征的数量,进而当第二方正例样本表征与第一方重叠样本表征之间的距离足够小,而第二方负例样本表征与第一方重叠样本表征的距离足够大时,所述第二对比学习损失即可收敛,进而基于第二方对比学习损失更新的特征提取模型即可具备拉近所述第一方重叠样本表征与所述第二方正例样本表征的距离,以及拉远所述第一方重叠样本表征与所述第二方负例样本表征的距离的能力,进而特征提取模型可基于不同样本类型(正例还是负例)的样本,生成不同的样本表征,使得生成的样本表征具备样本类型信息,提升了特征提取生成的样本表征所包含的信息量。
步骤S23,接收所述第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失。
在本实施例中,接收所述第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失,具体地,接收所述第二方重叠样本表征,并将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,进而将所述正例样本表征、负例样本表征以及所述第二方重叠样本表征输入预设第一对比学习损失计算公式,计算对比学习损失,其中,所述预设第一对比学习损失计算公式如下所示:
Figure BDA0002977303040000091
其中,其中,
Figure BDA0002977303040000092
为所述对比学习损失,uB为所述第二方重叠样本表征,uA为所述正例样本表征,
Figure BDA0002977303040000093
为所述负例样本表征,N为负例样本表征的数量,进而当第一方正例样本表征与第二方重叠样本表征之间的距离足够大,而第一方负例样本表征与第二方重叠样本表征的距离足够小时,所述对比学习损失即可收敛,进而基于对比学习损失更新的特征提取模型即可具备拉近所述第二方重叠样本表征与所述第一方正例样本表征的距离,以及拉远与所述第二方重叠样本表征与所述第一方负例样本表征的距离的能力,进而特征提取模型可基于不同样本类型(正例还是负例)的样本,生成不同的样本表征,使得生成的样本表征具备样本类型信息,提升了特征提取生成的样本表征所包含的信息量。
步骤S30,基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。
在本实施例中,基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型,具体地,基于所述对比学习损失,计算所述特征提取模型对应的模型更新梯度,进而基于所述模型更新梯度,更新所述特征提取模型,并判断更新后的特征提取模型是否满足预设迭代训练结束条件,若满足,则将所述特征提取模型作为目标特征提取模型,若不满足,则返回基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤。
本申请实施例提供了一种模型构建优化方法,相比于现有技术采用的以生成对抗网络的方式构建特征提取模型的技术手段,本申请实施例首先获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本,进而基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失,所以,实现了基于第二设备的第二方重叠样本与己方的第一方重叠样本以及己方的第一方非重叠样本进行对比学习的目的,进而基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型,即可实现基于对比学习构建目标特征提取模型的目的,进而实现了利用了第二设备中第二方重叠样本,拉远特征提取模型对于第一方重叠样本的特征提取结果与对于第一方非重叠样本的特征提取结果之间的距离的目的,进而赋予了特征提取模型区分不同类型的样本的能力,使得特征提取模型对于不同类型的样本生成的特征提取结果的相似度极低,进而使得特征提取模型生成的特征提取结果中具备样本的类别信息,所以,克服了现有技术中由于编码器在进行编码时,通常会产生一定的信息丢失,进而将导致基于特征提取生成样本表征所包含的信息量较低的技术缺陷,所以提升了特征提取生成的样本表征所包含的信息量。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,在所述基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失之后,所述模型构建优化方法还包括:
步骤A10,基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练包括所述特征提取模型的待训练预测模型,生成类别预测损失;
在本实施例中,需要说明的是,所述预设样本标签为预先设置好的所述第一方重叠样本的标签,用于标识所述第一方重叠样本,例如标识第一方重叠样本的类别、用途以及身份信息等,所述待训练预测模型包括特征提取模型和类别预测模型,其中,所述类别预测模型为未训练好的机器学习模型,用于预测样本的类别。
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练包括所述特征提取模型的待训练预测模型,生成类别预测损失,具体地,获取利用所述特征提取模型生成的所述第一方重叠样本对应的第一方重叠样本表征,进而将所述第一方重叠样本表征输入所述类别预测模型执行模型预测,生成第一类别预测结果,并对所述第一类别预测结果进行同态加密,生成第一加密类别预测结果,进而对所述第一加密类别预测结果与所述第二设备发送的第二加密类别预测结果进行聚合,生成聚合加密类别预测结果,其中,所述第二加密类别预测结果为第二设备对生成的第二类别预测结果进行同态加密生成的,所述第二类别预测结果为第二设备利用己方的第二方特征提取模型与第二方类别预测模型对第二方重叠样本表征执行模型预测生成的,进而基于所述聚合加密类别预测结果和同态加密的预设样本标签,计算加密类别预测损失,进而基于所述加密标签损失和所述第一方重叠样本,计算加密类别预测损失,并将所述加密类别预测损失发送至联邦服务器,以供联邦服务器对所述加密类别预测损失进行解密,获得类别预测损失,进而接收所述联邦服务器发送的类别预测损失,另外地,将所述加密类别预测损失发送至第二设备,以供所述第二设备依据所述加密类别预测损失和所述第二方重叠样本,计算第二方加密类别预测损失,并将所述第二方加密类别预测损失发送至所述联邦服务器,以供所述联邦服务器对所述第二方加密类别预测损失进行解密,获得第二方类别预测损失,进而第二设备接收联邦服务器发送的第二方类别预测损失,其中,需要说明的是,同态加密的公钥存在于第一设备与第二设备处,而同态加密的私钥存在于联邦服务器,如图3所示为当类别预测模型为泊松回归模型时,第一设备与第二设备通过进行联邦交互,计算类别预测损失的交互流程示意图,其中,标签提供方A为所述第二设备,特征提供方B为所述第一设备,微众C为所述联邦服务器,wxA和exp(wxA)均为所述第二类别预测结果,其中,xA为所述第二方重叠样本表征,wxA中的w为第二方类别预测模型的模型参数,wxB和exp(wxB)均为所述第一类别预测结果,xB为所述第一方重叠样本表征,wxB中的w为类别预测模型的模型参数,y为所述预设样本标签,d为类别预测损失,由gB为所述类别预测损失,gA为所述第二方类别预测损失,[]为加密符号,表示符号内的数据被同态加密了。
步骤A20,基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型。
在本实施例中,基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型,具体地,基于所述对比学习损失,计算对比学习损失梯度,进而基于类别预测损失,计算类别预测损失梯度,并基于所述类别预测损失梯度,优化更新所述类别预测模型的模型参数,并基于所述对比学习损失梯度和所述类别预测损失梯度,共同优化更新所述特征提取模型的模型参数,进而判断优化更新后的特征提取模型与优化更新后的类别预测模型是否均满足预设迭代训练结束条件,若均满足,则将优化更新后的特征提取模型和优化更新后的类别预测模型共同作为目标预测模型,若未均满足,则返回所述基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤,其中,需要说明的是,若未对特征提取模型进行基于对比学习的优化,则特征提取模型对于不同类型的样本存在生成相似或者相同的样本表征的较大可能性,进而使得类别预测模型的模型效果不佳,也即,具备特征提取模型的类别预测模型的类别预测准确度较低,而本申请实施例通过利用第二设备中第二方重叠样本,拉远特征提取模型对于第一方重叠样本的特征提取结果与对于第一方非重叠样本的特征提取结果之间的距离,进而赋予了特征提取模型区分不同类型的样本的能力,使得特征提取模型对于不同类型的样本生成的样本表征的相似度极低,进而提升了类别预测模型的模型效果,也即,提升了具备特征提取模型的类别预测模型的类别预测准确度。
其中,所述待训练预测模型包括特征提取模型和类别预测模型,所述目标预测模型包括目标特征提取模型和目标类别预测模型,
所述基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型的步骤包括:
步骤A21,基于所述类别预测损失,优化所述类别预测模型,获得所述目标类别预测模型;
在本实施例中,需要说明的是,优化所述类别预测模型的方法包括梯度下降法以及梯度上升法等。
基于所述类别预测损失,优化所述类别预测模型,获得所述目标类别预测模型,具体地,基于所述类别预测损失,计算类别预测损失梯度,进而基于类别预测损失梯度,优化更新所述类别预测模型的模型参数,并判断优化更新后的联邦预测模型是否满足预设迭代训练结束条件,若满足,则将所述类别预测模型作为目标类别预测模型,若不满足,则返回所述基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤。
步骤A22,基于所述对比学习损失和所述类别预测损失,异步优化所述特征提取模型,获得所述目标特征提取模型。
在本实施例中,基于所述对比学习损失和所述类别预测损失,异步优化所述特征提取模型,获得所述目标特征提取模型,具体地,基于所述对比学习损失,计算对比学习损失梯度,进而依据所述对比学习损失梯度,优化更新所述特征提取模型的模型参数,并依据所述类别预测损失,计算类别预测损失梯度,进而基于所述类别预测损失梯度,对优化更新后的特征提取模型的模型参数进行二次优化更新,并判断二次优化更新后的特征提取模型是否满足预设迭代训练结束条件,若满足,则将二次优化更新后的特征提取模型作为目标特征提取模型,若不满足,则返回所述基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤。
在另一种实施方式中,步骤A22还包括:
基于所述对比学习损失,计算对比学习损失梯度,进而依据所述类别预测损失生成的类别预测损失梯度,优化更新所述特征提取模型的模型参数,并依据所述对比学习损失梯度,对优化更新后的特征提取模型的模型参数进行二次优化更新,获得所述目标特征提取模型。
其中,所述目标预测模型包括目标特征提取模型和目标类别预测模型,
在所述基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型的步骤之后,所述模型构建优化方法还包括:
步骤A30,获取待预测样本,并基于所述目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
在本实施例中,需要说明的是,所述目标特征提取模型的模型构建过程可参照步骤S10至步骤S30以及步骤A10至步骤A20中的内容,在此不再赘述,且由于所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的,进而目标特征提取模型具备良好的正例样本和负例样本的区分能力,也即,所述目标特征提取模型生成的正例样本对应的样本表征和生成的负例样本对应的样本表征之间的距离将大于预设距离阈值,使得可根据正例样本的样本表征和负例样本的样本表征,区分正例样本和负例样本,所述联邦学习为纵向联邦学习或者纵向联邦迁移学习。
获取待预测样本,并基于所述目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,具体地,获取待预测样本,并将所述待预测样本输入目标特征提取模型,对所述待预测样本进行特征提取,以将所述待预测样本映射至预设潜在空间,获得所述待预测样本对应的待预测样本表征。
步骤A40,基于所述目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进执行模型预测,获得所述待预测样本对应的目标类别预测结果。
在本实施例中,基于所述目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进执行模型预测,获得所述待预测样本对应的目标类别预测结果,具体地,将所述待预测样本表征输入所述目标类别预测模型,对所述待预测样本表征执行模型预测,获得第一类别预测结果,进而对所述第一类别预测结果进行同态加密,获得第一加密类别预测结果,进而将所述第一加密类别预测结果发送至联邦服务器,进而所述联邦服务器接收所述第一加密类别预测结果以及第二设备发送的第二加密类别预测结果,其中,所述加密类别预测结果由第二设备对生成的第二类别预测结果进行同态加密获得,所述第二类别预测结果由第二设备将第二方待预测样本输入己方的目标类别预测模型中执行模型预测生成,所述第二方待预测样本为与所述待预测样本具备相同的公共样本ID的对齐样本,进而联邦服务器基于预设聚合规则,对所述第一加密类别预测结果和所述第二加密类别预测结果进行聚合,获得加密聚合类别预测结果,其中,所述预设聚合规则包括加权求和以及加权平均等,进而第一设备接收所述加密聚合类别预测结果,并对所述加密聚合类别预测结果进行解密,获得聚合类别预测结果,并将所述聚合类别预测结果作为所述目标类别预测结果。
本申请实施例提供了一种类别预测模型构建优化方法,具体地,在生成对比学习损失之后,基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练包括所述特征提取模型的待训练预测模型,生成类别预测损失,基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型,进而在实现了基于对比学习构建目标特征提取模型的目的,达到了利用了第二设备中第二方重叠样本,拉远特征提取模型对于第一方重叠样本的特征提取结果与对于第一方非重叠样本的特征提取结果之间的距离的效果,使得特征提取模型具备区分不同类型的样本的能力,进而生成的具备特征提取模型的目标预测模型的类别区分能力更强,模型预测效果更佳,模型对于不同类型样本的识别准确度更高。
进一步地,参照图4,基于本申请中第一实施例和第二实施例,在本申请的另一实施例中,所述模型构建优化方法应用于第二设备,所述模型构建优化方法包括:
步骤B10,获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征;
在本实施例中,需要说明的是,所述第一设备为纵向联邦学习的标签提供方,所述第二设备为纵向联邦学习的特征提供方,其中,所述标签提供方为在纵向联邦学习中提供具备样本标签的样本的参与方,所述特征提供方为在纵向联邦学习中提供无样本标签的样本的参与方,所述第二方特征提取模型为第二设备中的未训练好的机器学习模型,用于对样本进行特征提取,以将样本映射为潜在空间的样本表征,其中,所述样本表征为表示样本的编码向量。
获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征,具体地,获取第二方特征提取模型,并基于与第二设备关联的样本对齐结果中各公共样本ID,提取第二方重叠样本,其中,所述公共样本ID为第一设备与第二设备之间的重叠样本的身份标识,所述第二方重叠样本与所述第一方重叠样本具备相同的公共样本ID,进而基于所述第二方特征提取模型,将所述第二方重叠样本映射至预设潜在空间,获得所述第二方重叠样本对应的第二方重叠样本表征。
其中,在所述基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征的步骤之后,所述模型构建优化方法还包括:
步骤C10,获取第二方非重叠样本,并基于所述第二方特征提取模型,将所述第二方非重叠样本映射为第二方非重叠样本表征;
在本实施例中,需要说明的是,所述第二方非重叠样本为第二设备中不具备所述公共样本ID的样本。
获取第二方非重叠样本,并基于所述第二方特征提取模型,将所述第二方非重叠样本映射为第二方非重叠样本表征,具体地,获取预设数量的第二方非重叠样本,并基于所述第二方特征提取模型,将所述第二方非重叠样本映射至预设潜在空间,获得第二方非重叠样本表征。
步骤C20,接收第一设备发送的第一方重叠样本表征,并通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的第二方正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的第二方负例样本表征,生成所述第二方特征提取模型的第二方对比学习损失;
在本实施例中,需要说明的是,所述第一方重叠样本表征为第一设备基于特征提取模型,将第一方重叠样本映射至预设潜在空间生成的样本表征。
接收第一设备发送的第一方重叠样本表征,并通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的第二方正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的第二方负例样本表征,生成所述第二方特征提取模型的第二方对比学习损失,具体地,接收第一设备发送的第一方重叠样本表征,并将所述第二方重叠样本表征作为所述第一方重叠样本表征的正例样本表征,以及将所述第二方非重叠样本表征作为所述第一方重叠样本表征的负例样本表征,进而将第一方重叠样本表征、第二方正例样本表征和第二方负例样本表征代入预设第二对比学习损失计算公式,计算第二方对比学习损失,其中,所述预设第二对比学习损失计算公式如下所示:
Figure BDA0002977303040000171
其中,
Figure BDA0002977303040000172
为所述第二方对比学习损失,uA为所述第一方重叠样本表征,uB为所述第二方正例样本表征,
Figure BDA0002977303040000173
为所述第二方负例样本表征,M为第二方负例样本表征的数量,进而当第二方正例样本表征与第一方重叠样本表征之间的距离足够大,而第二方负例样本表征与第一方重叠样本表征的距离足够小时,所述第二对比学习损失即可收敛,进而基于第二方对比学习损失更新的特征提取模型即可具备拉近所述第一方重叠样本表征与所述第二方正例样本表征的距离,以及拉远所述第一方重叠样本表征与所述第二方负例样本表征的距离的能力,进而特征提取模型可基于不同样本类型(正例还是负例)的样本,生成不同的样本表征,使得生成的样本表征具备样本类型信息,提升了特征提取生成的样本表征所包含的信息量。
步骤C30,基于所述第二方对比学习损失,优化所述第二方特征提取模型,获得第二方目标特征提取模型。
在本实施例中,基于所述第二方对比学习损失,优化所述第二方特征提取模型,获得第二方目标特征提取模型,具体地,基于所述第二方对比学习损失,计算第二方特征提取模型对应的第二方模型更新梯度,并依据所述第二方模型更新梯度,更新所述第二方特征提取模型,并判断更新后的第二方特征提取模型是否满足预设迭代训练结束条件,若满足,则将更新后的第二方特征提取模型作为第二方目标特征提取模型,若不满足,则返回所述基于与第二设备关联的样本对齐结果中各公共样本ID,提取第二方重叠样本的步骤。
步骤B20,将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失。
在本实施例中,需要说明的是,所述第一方非重叠样本表征为第一方非重叠样本在预设潜在空间对应的样本表征,所述第一方非重叠样本为第一设备中不具备公共样本ID的样本。
将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失,具体地,将所述第二方重叠样本表征发送至第一设备,以供所述第一设备将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,进而将所述正例样本表征、负例样本表征以及所述第二方重叠样本表征输入预设第一对比学习损失计算公式,计算对比学习损失,其中,所述预设第一对比学习损失计算公式如下所示:
Figure BDA0002977303040000181
其中,其中,
Figure BDA0002977303040000182
为所述对比学习损失,uB为所述第二方重叠样本表征,uA为所述正例样本表征,
Figure BDA0002977303040000183
为所述负例样本表征,N为负例样本表征的数量,进而当第一方正例样本表征与第二方重叠样本表征之间的距离足够大,而第一方负例样本表征与第二方重叠样本表征的距离足够小时,所述对比学习损失即可收敛,进而基于对比学习损失更新的特征提取模型即可具备拉近所述第二方重叠样本表征与所述第一方正例样本表征的距离,以及拉远与所述第二方重叠样本表征与所述第一方负例样本表征的距离的能力,进而特征提取模型可基于不同样本类型(正例还是负例)的样本,生成不同的样本表征,使得生成的样本表征具备样本类型信息,提升了特征提取生成的样本表征所包含的信息量。
其中,在所述通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的负例样本表征,生成所述第二方特征提取模型的第二对比学习损失的步骤之后,所述模型构建优化方法还包括:
步骤D10,基于所述第二方重叠样本,通过与第一设备进行联邦学习,联合所述第一设备中的第一方重叠样本和预设样本标签,迭代训练具备所述第二方特征提取模型的第二方待训练预测模型,生成第二方类别预测损失;
在本实施例中,在本实施例中,需要说明的是,所述第二待训练模型包括用于进行特征提取的第二方特征提取模型和用于执行模型预测的第二方类别预测模型。
基于所述第二方重叠样本,通过与第一设备进行联邦学习,联合所述第一设备中的第一方重叠样本和预设样本标签,迭代训练具备所述第二方特征提取模型的第二方待训练预测模型,生成第二方类别预测损失,具体地,获取利用所述第二方特征提取模型生成的所述第二方重叠样本对应的第二方重叠样本表征,进而通过将所述第二方重叠样本表征输入第二方类别预测模型执行模型预测,获得第二类别预测结果,进而基于所述第二输出样本标签,通过与第一设备以及联邦服务器进行联邦交互,生成第二方类别预测损失,以供所述第一设备生成类别预测损失,其中,所述类别预测损失与所述第二方类别预测损失的具体生成过程可参照步骤A10中的具体内容。
步骤D20,基于所述第二方类别预测损失和所述第二方对比学习损失,优化所述第二方待训练预测模型,获得第二方目标预测模型。
基于所述第二方类别预测损失和所述第二方对比学习损失,优化所述第二方待训练预测模型,获得第二方目标预测模型,具体地,基于所述第二方对比学习损失,计算第二方对比学习损失梯度,进而基于第二方类别预测损失生成的第二方类别预测损失梯度,优化更新所述第二方类别预测模型的模型参数,并基于所述第二方对比学习损失梯度和所述第二方类别预测损失梯度,共同优化更新所述第二方特征提取模型的模型参数,其中,所述共同优化包括同步优化和异步优化,进而判断优化更新后的第二方特征提取模型与优化更新后的第二方类别预测模型是否均满足预设迭代训练结束条件,若满足,则将优化更新后的第二方特征提取模型和优化更新后的第二方类别预测模型共同作为第二方目标预测模型,若不满足,则返回所述基于与第二设备关联的样本对齐结果中各公共样本ID,提取第二方重叠样本的步骤。
进一步地,参照图5,基于本申请中第一实施例、第二实施例以及第三实施例,在本申请的另一实施例中,所述样本类别预测方法应用于第一设备,所述样本类别预测方法包括:
步骤E10,获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
在本实施例中,需要说明的是,所述目标特征提取模型的模型构建过程可参照步骤S10至步骤S30以及步骤A10至步骤A20中的内容,在此不再赘述,且由于所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的,进而目标特征提取模型具备良好的正例样本和负例样本的区分能力,也即,所述目标特征提取模型生成的正例样本对应的样本表征和生成的负例样本对应的样本表征之间的距离将大于预设距离阈值,使得可根据正例样本的样本表征和负例样本的样本表征,区分正例样本和负例样本。
获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,具体地,获取待预测样本,并将所述待预测样本输入目标特征提取模型,对所述待预测样本进行特征提取,以将所述待预测样本映射至预设潜在空间,获得所述待预测样本对应的待预测样本表征。
其中,在所述基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的步骤之前,所述样本类别预测方法还包括:
步骤F10,基于特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
在本实施例中,基于特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征,具体地,将所述第一方重叠样本输入特征提取模型,对所述第一方重叠样本进行特征提取,以将所述第一方重叠样本映射至预设潜在空间,获得第一方重叠样本表征,并将所述第一方非重叠样本输入特征提取模型,对所述第一方非重叠样本进行特征提取,以将所述第一方非重叠样本映射至预设潜在空间,获得第一非重叠样本表征。
步骤F20,接收所述第二设备发送的第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失;
在本实施例中,接收所述第二设备发送的第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失,具体地,接收所述第二设备发送的第二方重叠样本表征,并将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,进而基于所述正例样本表征、所述负例样本表征以及所述第二方重叠样本表征,生成对比学习损失,其中,生成所述对比学习损失的具体过程可参照步骤S21至步骤S23中的内容,在此不再赘述。
步骤F30,基于所述对比学习损失,优化所述特征提取模型,获得所述目标特征提取模型。
在本实施例中,基于所述对比学习损失,优化所述特征提取模型,获得所述目标特征提取模型,具体地,基于所述对比学习损失,计算所述特征提取模型对应的模型更新梯度,进而基于所述模型更新梯度,更新所述特征提取模型,并判断更新后的特征提取模型是否满足预设迭代训练结束条件,若满足,则将所述特征提取模型作为目标特征提取模型,若不满足,则返回基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤。
步骤E20,基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果。
在本实施例中,基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果,具体地,将所述待预测样本表征输入所述目标类别预测模型,对所述待预测样本表征执行模型预测,获得第一类别预测结果,进而对所述第一类别预测结果进行同态加密,获得第一加密类别预测结果,进而将所述第一加密类别预测结果发送至联邦服务器,进而所述联邦服务器接收所述第一加密类别预测结果以及第二设备发送的第二加密类别预测结果,其中,所述加密类别预测结果由第二设备对生成的第二类别预测结果进行同态加密获得,所述第二类别预测结果由第二设备将第二方待预测样本输入己方的目标类别预测模型中执行模型预测生成,所述第二方待预测样本为与所述待预测样本具备相同的公共样本ID的对齐样本,进而联邦服务器基于预设聚合规则,对所述第一加密类别预测结果和所述第二加密类别预测结果进行聚合,获得加密聚合类别预测结果,其中,所述预设聚合规则包括加权求和以及加权平均等,进而第一设备接收所述加密聚合类别预测结果,并对所述加密聚合类别预测结果进行解密,获得聚合类别预测结果,并将所述聚合类别预测结果作为所述目标类别预测结果。
其中,在所述基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果的步骤之前,所述样本类别预测方法还包括:
步骤H10,获取待训练预测模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
在本实施例中,需要说明的是,所述待训练预测模型包括特征提取模型和类别预测模型,其中,所述特征提取模型为用于进行特征提取的机器学习模型,可将样本映射为潜在空间的样本表征,其中,所述样本表征为表示样本的编码向量,所述类别预测模型为用于预测样本的类别的机器学习模型,所述第一设备为纵向联邦学习的标签提供方,所述第二设备为纵向联邦学习的特征提供方,其中,所述标签提供方为在纵向联邦学习中提供具备样本标签的样本的参与方,所述特征提供方为在纵向联邦学习中提供无样本标签的样本的参与方。
另外地,需要说明的是,在进行所述与第二设备的样本对齐结果中获取第一方重叠样本和第一方非重叠样本的步骤之前,所述第一设备与所述第二设备进行样本对齐,也即,第一设备与第二设备将各自的样本ID进行比对,以确定第一设备与第二设备之间的具备的公共样本ID,获得样本对齐结果,其中,所述样本对齐结果至少包括一公共样本ID。
获取待训练预测模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本,具体地,获取待训练预测模型,并基于与第二设备关联的样本对齐结果中各公共样本ID,其中,所述公共样本ID为第一设备与第二设备之间的重叠样本的身份标识,例如,所述公共样本ID可以为手机号和身份证号等,进而基于各公共样本ID,提取第一方重叠样本和预设数量的第一方非重叠样本,其中,所述第一方重叠样本为第一设备中具备所述公共样本ID的样本,所述第一方非重叠样本为第一设备中不具备所述公共样本ID的样本。
步骤H20,基于所述第一方重叠样本和所述第一方非重叠样本,通过预设第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述待训练预测模型中的特征提取模型对应的对比学习损失;
在本实施例中,基于所述第一方重叠样本和所述第一方非重叠样本,通过预设第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述待训练预测模型中的特征提取模型对应的对比学习损失,具体地,将所述第一方重叠样本输入所述特征提取模型,对所述第一方重叠样本进行特征提取,以将所述第一方重叠样本映射为第一方重叠样本表征,并将各第一方非重叠样本输入特征提取模型,分别对各所述第一方非重叠样本进行特征提取,以分别将各所述第一方非重叠样本映射为第一方非重叠样本表征,进而接收第二设备发送的第二方重叠样本表征,其中,所述第二方重叠样本表征为第二设备基于己方的特征提取模型对第二方重叠样本进行特征提取生成的表征,所述第二方重叠样本为第二设备中与第一方重叠样本具备相同的公共样本ID的样本,进而将所述第一方重叠样本表征作为所述第二方重叠样本表征的正例,以及将所述第一方非常重叠样本表征作为所述第二方重叠样本表征的负例,计算对比学习损失,进而将所述第一方重叠样本表征发送至第二设备,以供第二设备将第二方重叠样本表征作为所述第一方重叠样本表征的正例,以及将第二方非重叠样本表征作为所述第一方重叠样本表征的负例,计算第二方对比学习损失,其中,所述第二方非重叠样本表征为第二设备基于己方的特征提取模型对第二方非重叠样本进行特征提取生成的表征,所述第二方非重叠样本为第二设备中不具备公共样本ID的样本,其中,生成对比学习损失的具体过程可参照步骤S21至步骤S23中的具体过程。
步骤H30,基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练所述待训练预测模型,生成类别预测损失;
在本实施例中,需要说明的是,所述预设样本标签为预先设置好的所述第一方重叠样本的标签,用于标识所述第一方重叠样本,例如标识第一方重叠样本的类别、用途以及身份信息等。
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练所述待训练预测模型,生成类别预测损失,具体地,获取利用所述特征提取模型生成的所述第一方重叠样本对应的第一方重叠样本表征,进而将所述第一方重叠样本表征输入所述类别预测模型执行模型预测,生成第一类别预测结果,并对所述第一类别预测结果进行同态加密,生成第一加密类别预测结果,进而对所述第一加密类别预测结果与所述第二设备发送的第二加密类别预测结果进行聚合,生成聚合加密类别预测结果,其中,所述第二加密类别预测结果为第二设备对生成的第二类别预测结果进行同态加密生成的,所述第二类别预测结果为第二设备利用己方的第二方特征提取模型与第二方类别预测模型对第二方重叠样本表征执行模型预测生成的,进而基于所述聚合加密类别预测结果和同态加密的预设样本标签,计算加密类别预测损失,进而基于所述加密标签损失和所述第一方重叠样本,计算加密类别预测损失,并将所述加密类别预测损失发送至联邦服务器,以供联邦服务器对所述加密类别预测损失进行解密,获得类别预测损失,进而接收所述联邦服务器发送的类别预测损失,另外地,将所述加密类别预测损失发送至第二设备,以供所述第二设备依据所述加密类别预测损失和所述第二方重叠样本,计算第二方加密类别预测损失,并将所述第二方加密类别预测损失发送至所述联邦服务器,以供所述联邦服务器对所述第二方加密类别预测损失进行解密,获得第二方类别预测损失,进而第二设备接收联邦服务器发送的第二方类别预测损失,其中,需要说明的是,同态加密的公钥存在于第一设备与第二设备处,而同态加密的私钥存在于联邦服务器,在一种具体地实施方式中,可参照图3中第一设备、第二设备以及联邦服务器进行交互的流程生成类别预测损失,图3中的具体交互过程可参照步骤A10中的内容,在此不再赘述。
步骤H40,基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型中的特征提取模型和类别预测模型,获得所述目标特征提取模型和所述目标类别预测模型。
在本实施例中,基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型中的特征提取模型和类别预测模型,获得所述目标特征提取模型和所述目标类别预测模型,具体地,基于所述对比学习损失,计算对比学习损失梯度,进而基于类别预测损失,优化更新所述类别预测模型的模型参数,并基于所述对比学习损失梯度和基于所述类别预测损失生成的类别预测损失梯度,共同优化更新所述特征提取模型的模型参数,进而判断优化更新后的特征提取模型与优化更新后的类别预测模型是否均满足预设迭代训练结束条件,若均满足,则将优化更新后的特征提取模型和优化更新后的类别预测模型共同作为目标预测模型,若未均满足,则返回所述基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本的步骤,其中,需要说明的是,若未对特征提取模型进行基于对比学习的优化,则特征提取模型对于不同类型的样本存在生成相似或者相同的样本表征的较大可能性,进而使得类别预测模型的模型效果不佳,也即,具备特征提取模型的类别预测模型的样本类别预测准确度较低,而本申请实施例通过利用第二设备中第二方重叠样本,拉远特征提取模型对于第一方重叠样本的特征提取结果与对于第一方非重叠样本的特征提取结果之间的距离,进而赋予了特征提取模型区分不同类型的样本的能力,使得特征提取模型对于不同类型的样本生成的样本表征的相似度极低,进而提升了类别预测模型的模型效果,也即,提升了具备特征提取模型的类别预测模型的类别预测准确度,其中,步骤H40的具体细化过程可参照步骤A21至步骤A22中的具体内容,在此不再赘述。
本申请实施例提供了一种样本类别预测方法,也即,获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,由于所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的,进而特征提取模型具备区分不同类型的样本的能力,使得特征提取模型对于不同类型的样本生成的样本表征的相似度极低,避免特征提取模型对于不同类型的样本存在生成相似或者相同的样本表征的较大可能性,提升样本表征表示样本的准确度,进而基于所述目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,实现了基于样本对应的表示更加准确的样本表征进行样本类别预测的目的,进而获得所述待预测样本对应的目标类别预测结果,克服了由于特征提取模型对于不同类型的样本存在生成相似或者相同的样本表征的较大可能性,而导致样本类别预测不准确的技术缺陷,提升了样本类别预测的准确度。
参照图6,图6是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图6所示,该模型构建优化设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该模型构建优化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图6中示出的模型构建优化设备结构并不构成对模型构建优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及模型构建优化程序。操作系统是管理和控制模型构建优化设备硬件和软件资源的程序,支持模型构建优化程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与模型构建优化系统中其它硬件和软件之间通信。
在图6所示的模型构建优化设备中,处理器1001用于执行存储器1005中存储的模型构建优化程序,实现上述任一项所述的模型构建优化方法的步骤。
本申请模型构建优化设备具体实施方式与上述模型构建优化方法各实施例基本相同,在此不再赘述。
参照图7,图7是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图7所示,该样本类别预测设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该样本类别预测设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图7中示出的样本类别预测设备结构并不构成对样本类别预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及样本类别预测程序。操作系统是管理和控制样本类别预测设备硬件和软件资源的程序,支持样本类别预测程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与样本类别预测系统中其它硬件和软件之间通信。
在图7所示的样本类别预测设备中,处理器1001用于执行存储器1005中存储的样本类别预测程序,实现上述任一项所述的样本类别预测方法的步骤。
本申请样本类别预测设备具体实施方式与上述样本类别预测方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种模型构建优化装置,所述模型构建优化装置应用于第一设备,所述模型构建优化装置包括:
获取模块,用于获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
对比学习模块,用于基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;
优化模块,用于基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。
可选地,所述模型构建优化装置还用于:
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练包括所述特征提取模型的待训练预测模型,生成类别预测损失;
基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型。
可选地,所述模型构建优化装置还用于:
基于所述类别预测损失,优化所述类别预测模型,获得所述目标类别预测模型;
基于所述对比学习损失和所述类别预测损失,异步优化所述特征提取模型,获得所述目标特征提取模型。
可选地,所述对比学习模块还用于:
基于所述特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
将所述第一方重叠样本表征发送至所述第二设备,以供所述第二设备基于所述第一方重叠样本表征、生成的第二方重叠样本表征以及第二方非重叠样本表征,计算第二方对比学习损失;
接收所述第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失。
可选地,所述模型构建优化装置还用于:
获取待预测样本,并基于所述目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
基于所述目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进执行模型预测,获得所述待预测样本对应的目标类别预测结果。
本申请模型构建优化装置的具体实施方式与上述模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种模型构建优化装置,所述模型构建优化装置应用于第二设备,所述模型构建优化装置包括:
特征提取模块,用于获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征;
发送模块,用于将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失。
可选地,所述模型构建优化装置还用于:
获取第二方非重叠样本,并基于所述第二方特征提取模型,将所述第二方非重叠样本映射为第二方非重叠样本表征;
接收第一设备发送的第一方重叠样本表征,并通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的第二方正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的第二方负例样本表征,生成所述第二方特征提取模型的第二方对比学习损失;
基于所述第二方对比学习损失,优化所述第二方特征提取模型,获得第二方目标特征提取模型。
可选地,所述模型构建优化装置还用于:
基于所述第二方重叠样本,通过与第一设备进行联邦学习,联合所述第一设备中的第一方重叠样本和预设样本标签,迭代训练具备所述第二方特征提取模型的第二方待训练预测模型,生成第二方类别预测损失;
基于所述第二方类别预测损失和所述第二方对比学习损失,优化所述第二方待训练预测模型,获得第二方目标预测模型。
本申请模型构建优化装置的具体实施方式与上述模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种样本类别预测装置,所述样本类别预测装置应用于第二设备,所述样本类别预测装置包括:
特征提取模块,用于获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
样本类别预测模块,用于基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果。
可选地,所述样本类别预测装置还用于:
获取待训练预测模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
基于所述第一方重叠样本和所述第一方非重叠样本,通过预设第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述待训练预测模型中的特征提取模型对应的对比学习损失;
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练所述待训练预测模型,生成类别预测损失;
基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型中的特征提取模型和类别预测模型,获得所述目标特征提取模型和所述目标类别预测模型。
可选地,所述样本类别预测装置还用于:
基于特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
接收所述第二设备发送的第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失;
基于所述对比学习损失,优化所述特征提取模型,获得所述目标特征提取模型。
本申请样本类别预测装置的具体实施方式与上述样本类别预测方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种介质,所述介质为可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的模型构建优化方法的步骤。
本申请可读存储介质具体实施方式与上述模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供了一种介质,所述介质为可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的样本类别预测方法的步骤。
本申请可读存储介质具体实施方式与上述样本类别预测方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种计算机程序产品,且所述计算机程序产品包括有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的模型构建优化方法的步骤。
本申请计算机程序产品具体实施方式与上述模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,且所述计算机程序产品包括有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的样本类别预测方法的步骤。
本申请计算机程序产品具体实施方式与上述样本类别预测方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (16)

1.一种模型构建优化方法,其特征在于,所述模型构建优化方法应用于第一设备,所述模型构建优化方法包括:
获取特征提取模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失;
基于所述对比学习损失,优化所述特征提取模型,获得目标特征提取模型。
2.如权利要求1所述模型构建优化方法,其特征在于,在所述基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失之后,所述模型构建优化方法还包括:
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练包括所述特征提取模型的待训练预测模型,生成类别预测损失;
基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型。
3.如权利要求2所述模型构建优化方法,其特征在于,所述待训练预测模型包括特征提取模型和类别预测模型,所述目标预测模型包括目标特征提取模型和目标类别预测模型,
所述基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型的步骤包括:
基于所述类别预测损失,优化所述类别预测模型,获得所述目标类别预测模型;
基于所述对比学习损失和所述类别预测损失,异步优化所述特征提取模型,获得所述目标特征提取模型。
4.如权利要求1所述模型构建优化方法,其特征在于,所述基于所述第一方重叠样本和所述第一方非重叠样本,通过与所述第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述特征提取模型对应的对比学习损失的步骤包括:
基于所述特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
将所述第一方重叠样本表征发送至所述第二设备,以供所述第二设备基于所述第一方重叠样本表征、生成的第二方重叠样本表征以及第二方非重叠样本表征,计算第二方对比学习损失;
接收所述第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失。
5.如权利要求2所述模型构建优化方法,其特征在于,所述目标预测模型包括目标特征提取模型和目标类别预测模型,
在所述基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型,获得目标预测模型的步骤之后,所述模型构建优化方法还包括:
获取待预测样本,并基于所述目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
基于所述目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进执行模型预测,获得所述待预测样本对应的目标类别预测结果。
6.一种模型构建优化方法,其特征在于,所述模型构建优化方法应用于第二设备,所述模型构建优化方法包括:
获取第二方特征提取模型与第二方重叠样本,并基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征;
将所述第二方重叠样本表征发送至第一设备,以供第一设备基于所述第二方重叠样本表征、生成的第一方重叠样本表征以及生成的第一方非重叠样本表征,计算对比学习损失。
7.如权利要求6所述模型构建优化方法,其特征在于,在所述基于所述第二方特征提取模型,将所述第二方重叠样本映射为第二方重叠样本表征的步骤之后,所述模型构建优化方法还包括:
获取第二方非重叠样本,并基于所述第二方特征提取模型,将所述第二方非重叠样本映射为第二方非重叠样本表征;
接收第一设备发送的第一方重叠样本表征,并通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的第二方正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的第二方负例样本表征,生成所述第二方特征提取模型的第二方对比学习损失;
基于所述第二方对比学习损失,优化所述第二方特征提取模型,获得第二方目标特征提取模型。
8.如权利要求7所述模型构建优化方法,其特征在于,在所述通过将所述第二方重叠样本表征作为所述第一方重叠样本表征的正例样本表征,以及通过将所述第二方非重叠样本表征作为所述第一方重叠样本表征的负例样本表征,生成所述第二方特征提取模型的第二对比学习损失的步骤之后,所述模型构建优化方法还包括:
基于所述第二方重叠样本,通过与第一设备进行联邦学习,联合所述第一设备中的第一方重叠样本和预设样本标签,迭代训练具备所述第二方特征提取模型的第二方待训练预测模型,生成第二方类别预测损失;
基于所述第二方类别预测损失和所述第二方对比学习损失,优化所述第二方待训练预测模型,获得第二方目标预测模型。
9.一种样本类别预测方法,其特征在于,所述样本类别预测方法应用于第一设备,所述样本类别预测方法包括:
获取待预测样本,并基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的;
基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果。
10.如权利要求9所述样本类别预测方法,其特征在于,在所述基于目标类别预测模型,通过与所述第二设备进行纵向联邦预测交互,对所述待预测样本表征进行样本类别预测,获得所述待预测样本对应的目标类别预测结果的步骤之前,所述样本类别预测方法还包括:
获取待训练预测模型,并基于与第二设备关联的样本对齐结果,提取第一方重叠样本和第一方非重叠样本;
基于所述第一方重叠样本和所述第一方非重叠样本,通过预设第二设备进行对比学习交互,联合所述第二设备中的第二方重叠样本,生成所述待训练预测模型中的特征提取模型对应的对比学习损失;
基于所述第一方重叠样本和预设样本标签,通过与第二设备进行联邦学习,联合所述第二方重叠样本,迭代训练所述待训练预测模型,生成类别预测损失;
基于所述对比学习损失和所述类别预测损失,优化所述待训练预测模型中的特征提取模型和类别预测模型,获得所述目标特征提取模型和所述目标类别预测模型。
11.如权利要求9所述样本类别预测方法,其特征在于,在所述基于目标特征提取模型,对所述待预测样本进行特征提取,获得所述待预测样本对应的待预测样本表征,其中,所述目标特征提取模型是基于第一设备中的第一方重叠样本和第一方非重叠样本以及第二设备中的第二方重叠样本进行对比学习和联邦学习构建的步骤之前,所述样本类别预测方法还包括:
基于特征提取模型,将所述第一方重叠样本映射为第一方重叠样本表征,以及将所述第一方非重叠样本映射为第一方非重叠样本表征;
接收所述第二设备发送的第二方重叠样本表征,并通过将所述第一方重叠样本表征作为所述第二方重叠样本表征对应的正例样本表征,以及通过将所述第一方非重叠样本表征作为所述第二方重叠样本表征对应的负例样本表征,生成所述特征提取模型对应的所述对比学习损失;
基于所述对比学习损失,优化所述特征提取模型,获得所述目标特征提取模型。
12.一种模型构建优化设备,其特征在于,所述模型构建优化设备包括:存储器、处理器以及存储在存储器上的用于实现所述模型构建优化方法的程序,
所述存储器用于存储实现模型构建优化方法的程序;
所述处理器用于执行实现所述模型构建优化方法的程序,以实现如权利要求1至5或6至8中任一项所述模型构建优化方法的步骤。
13.一种样本类别预测设备,其特征在于,所述样本类别预测设备包括:存储器、处理器以及存储在存储器上的用于实现所述样本类别预测方法的程序,
所述存储器用于存储实现样本类别预测方法的程序;
所述处理器用于执行实现所述样本类别预测方法的程序,以实现如权利要求9至11中任一项所述样本类别预测方法的步骤。
14.一种介质,所述介质为可读存储介质,其特征在于,所述可读存储介质上存储有实现模型构建优化方法的程序,所述实现模型构建优化方法的程序被处理器执行以实现如权利要求1至5或6至8中任一项所述模型构建优化方法的步骤。
15.一种介质,所述介质为可读存储介质,其特征在于,所述可读存储介质上存储有实现样本类别预测方法的程序,所述实现样本类别预测方法的程序被处理器执行以实现如权利要求9至11中任一项所述样本类别预测方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5或6至8中任一项所述模型构建优化方法的步骤,或者所述计算机程序被处理器执行时实现如权利要求9至11中任一项所述样本类别预测方法的步骤。
CN202110277698.1A 2021-03-15 2021-03-15 模型构建优化方法、设备、介质及计算机程序产品 Pending CN112785002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277698.1A CN112785002A (zh) 2021-03-15 2021-03-15 模型构建优化方法、设备、介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277698.1A CN112785002A (zh) 2021-03-15 2021-03-15 模型构建优化方法、设备、介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN112785002A true CN112785002A (zh) 2021-05-11

Family

ID=75762624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277698.1A Pending CN112785002A (zh) 2021-03-15 2021-03-15 模型构建优化方法、设备、介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN112785002A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269433A (zh) * 2021-05-20 2021-08-17 深圳易财信息技术有限公司 税收风险预测方法、设备、介质及计算机程序产品
CN113902473A (zh) * 2021-09-29 2022-01-07 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
WO2022250608A1 (zh) * 2021-05-28 2022-12-01 脸萌有限公司 数据保护方法、装置、可读介质及电子设备
WO2023024349A1 (zh) * 2021-08-25 2023-03-02 深圳前海微众银行股份有限公司 纵向联邦预测优化方法、设备、介质及计算机程序产品
WO2023160069A1 (zh) * 2022-02-24 2023-08-31 腾讯科技(深圳)有限公司 机器学习模型的训练方法及其预测方法、装置、设备、计算机可读存储介质及计算机程序产品

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269433A (zh) * 2021-05-20 2021-08-17 深圳易财信息技术有限公司 税收风险预测方法、设备、介质及计算机程序产品
CN113269433B (zh) * 2021-05-20 2023-12-12 深圳易财信息技术有限公司 税收风险预测方法、设备、介质及计算机程序产品
WO2022250608A1 (zh) * 2021-05-28 2022-12-01 脸萌有限公司 数据保护方法、装置、可读介质及电子设备
WO2023024349A1 (zh) * 2021-08-25 2023-03-02 深圳前海微众银行股份有限公司 纵向联邦预测优化方法、设备、介质及计算机程序产品
CN113902473A (zh) * 2021-09-29 2022-01-07 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
WO2023160069A1 (zh) * 2022-02-24 2023-08-31 腾讯科技(深圳)有限公司 机器学习模型的训练方法及其预测方法、装置、设备、计算机可读存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN112785002A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN110428058B (zh) 联邦学习模型训练方法、装置、终端设备及存储介质
CN113627085B (zh) 横向联邦学习建模优化方法、设备、介质
WO2021083276A1 (zh) 横向联邦和纵向联邦联合方法、装置、设备及介质
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN114091617A (zh) 联邦学习建模优化方法、电子设备、存储介质及程序产品
US11461999B2 (en) Image object detection method, device, electronic device and computer readable medium
US11748452B2 (en) Method for data processing by performing different non-linear combination processing
CN111291273A (zh) 推荐系统优化方法、装置、设备及可读存储介质
CN111898768A (zh) 数据处理方法、装置、设备及介质
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN111339412A (zh) 纵向联邦推荐召回方法、装置、设备及可读存储介质
CN113051239A (zh) 数据共享方法、应用其的模型的使用方法及相关设备
CN110633717A (zh) 一种目标检测模型的训练方法和装置
WO2022152018A1 (zh) 用于识别一人多账号的方法及装置
CN113505896A (zh) 纵向联邦学习建模优化方法、设备、介质及程序产品
CN111797996A (zh) 样本补全方法、装置、设备及可读存储介质
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN113435523B (zh) 预测内容点击率的方法、装置、电子设备以及存储介质
CN115757933A (zh) 推荐信息生成方法、装置、设备、介质和程序产品
CN112765022B (zh) 一种基于数据流的Webshell静态检测方法及电子设备
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN110532304B (zh) 数据处理方法及装置、计算机可读存储介质以及电子设备
CN111860869A (zh) 样本扩展方法、设备及可读存储介质
CN116843800B (zh) 动画信息发送方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination