CN111860868B

CN111860868B - 训练样本构建方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111860868B
Application number: CN202010731275.8A
Authority: CN
Inventors: 康焱
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2023-10-31
Anticipated expiration: 2040-07-27
Also published as: CN111860868A; WO2022022024A1

Abstract

本发明公开了一种训练样本构建方法、装置、设备及计算机可读存储介质，该方法包括以下步骤：获取第一参与方的本地训练样本，并将本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；接收第二参与方发送的非重叠样本表征；基于非重叠样本表征中的各表征数据以及本地样本表征中的各表征数据，计算本地样本表征对应的补充样本表征；将补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于补全样本表征参与纵向联邦学习。本发明补全第一参与方的本地训练样本，使训练样本中的重叠部分增加，增加了参与纵向联邦学习的训练样本，解决了由于两个参与方之间的重叠样本较少导致计算机系统的计算效率低的问题。

Description

训练样本构建方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种训练样本构建方法、装置、设备及计算机可读存储介质。

背景技术

随着人工智能的发展，人们为解决数据孤岛的问题，提出了“联邦学习”的概念，使得联邦学习中的参与方在不用给出己方数据的情况下，也可进行模型训练得到模型参数，并且可以避免数据隐私泄露的问题。联邦学习是为了在保护数据隐私的情况下利用多个参与方的数据建立健壮的机器学习模型。其中，纵向联邦学习是通过样本对齐技术找到所有参与方的重叠样本，并利用这些重叠样本对模型进行训练，以此建立机器学习模型。但是，由于训练模型的重叠样本较少，因此大量的非重叠样本不能用于训练联邦学习模型，导致所训练的纵向联邦学习模型收敛速度慢，进而需要花费的大量的计算资源，导致计算机系统的计算效率低，这在一定程度上限制了纵向联邦学习应用于更广泛的场景。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种训练样本构建方法、装置、设备及计算机可读存储介质，旨在解决在纵向联邦学习中由于两个参与方之间的重叠样本较少导致计算机系统的计算效率低的技术问题。

为实现上述目的，本发明提供一种训练样本构建方法，所述训练样本构建方法应用于第一参与方，所述训练样本构建方法包括以下步骤：

获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；

接收第二参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的；

基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；

将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。

可选地，所述第一参与方的所述本地训练样本包括样本特征，所述本地样本表征为所述样本特征对应的本地样本特征表征，

所述基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征的步骤包括：

基于所述非重叠样本特征表征与所述本地样本特征表征，确定所述非重叠样本特征表征的各表征数据与所述本地样本特征表征的各表征数据之间的相似度权重，其中，所述非重叠样本表征为非重叠样本特征对应的非重叠样本特征表征；

基于所述相似度权重对所述本地样本特征表征的各样本表征进行加权求和，得到所述本地样本表征对应的补充样本表征。

可选地，所述接收第二参与方发送的非重叠样本表征的步骤之后，还包括：

基于所述非重叠样本特征表征中的各表征数据以及所述本地训练样本中样本标签的各标签数据，计算所述样本标签对应的补充样本标签；

所述基于所述相似度权重对所述本地样本特征表征的各样本表征进行加权求和，得到所述本地样本表征对应的补充样本表征的步骤之后，还包括：

将所述补充样本特征表征加入至所述本地样本表征中，得到补全样本特征表征，以及将所述补充样本标签加入至所述样本标签中，得到所述样本标签对应的补全样本标签；

基于所述补全样本特征表征和所述补全样本标签，参与纵向联邦学习。

所述获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征的步骤包括：

获取所述本地训练样本，并根据所述本地训练样本的数据类型确定第一特征转换模型；

将所述本地训练样本中的样本特征输入至所述第一特征转换模型，以供所述第一特征转换模型将所述样本特征转换成预设的数据形式，得到本地样本特征表征。

可选地，所述基于所述补全样本表征参与纵向联邦学习的步骤包括：

将所述补全样本表征输入至第一模型，得到第一中间结果，其中，所述第一模型与所述第一参与方相对应；

将所述第一中间结果发送至所述第二参与方，以供所述第二参与方根据所述第一中间结果计算第二梯度信息，并根据所述第二梯度信息更新第二模型和第二特征转换模型，其中，所述第二模型、所述第二特征转换模型分别与所述第二参与方相对应；

根据所述第二参与方发送的第二中间结果计算第一梯度信息，并根据所述第一梯度信息更新第一模型和第一特征转换模型，其中，所述第二中间结果为所述第二参与方将第二参与方的本地样本表征输入所述第二模型得到，所述第一模型、所述第一特征转换模型分别与所述第一参与方相对应；

基于更新后的第一模型以及所述第二参与方中更新后的第二模型得到训练完成的纵向联邦学习模型。

可选地，所述根据所述第一梯度信息更新第一模型和第一特征转换模型的步骤包括：

根据所述第二参与方发送的第二中间结果计算预设目标函数对应的总损失值，其中，所述预设目标函数由预设损失函数和预设距离函数组成；

若所述总损失值大于或等于所述预设阈值，则根据所述第一梯度信息分别更新第一模型和第一特征转换模型。

可选地，所述将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习的步骤之后，还包括：

获取待预测客户的第一客户信息，并将所述第一客户信息转换成预设的数据形式，得到所述第一客户信息对应的第一客户信息表征；

将所述第一客户信息表征输入至可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型为所述第一参与方与所述第二参与方进行纵向联邦学习得到的；

根据所述第一预测结果和从所述第二参与方接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二参与方将所述待预测客户的第二客户信息对应的第二客户信息表征输入至所述可疑客户预测模型得到。

此外，为实现上述目的，本发明还提出一种训练样本构建装置，所述训练样本构建装置包括：

转换模块，用于获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；

接收模块，用于接收第二参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的；

计算模块，用于基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；

训练模块，用于将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。

此外，为实现上述目的，本发明还提出一种训练样本构建设备，所述训练样本构建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练样本构建程序，所述训练样本构建程序被所述处理器执行时实现如上述任一项所述的训练样本构建方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有训练样本构建程序，所述训练样本构建程序被处理器执行时实现如上述任一项所述的训练样本构建方法的步骤。

本发明通过获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；接收第二参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的；基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。在本实施例中，第一参与方基于第二参与方发送的非重叠样本表征以及第一参与方本地训练样本对应的本地样本表征，计算得到第一参与方本地样本表征的补充样本表征，从而补全第一参与方的训练样本；同理，对于第二参与方，第二参与方基于第一参与方发送的非重叠样本表征以及第二参与方本地训练样本对应的本地样本表征，计算得到第二参与方本地样本表征的补充样本表征，从而补全第二参与方的训练样本。因此，由于现有的纵向联邦学习模型构建过程仅能将双方样本中重叠的部分用于模型训练，因此与现有的纵向联邦学习模型构建过程相比，本发明通过补全第一参与方和第二参与方双方的训练样本，使第一参与方与第二参与方的训练样本中的重叠部分增加，从而使得第一参与方的非重叠训练样本和第二参与方的非重叠训练样本可以用于纵向联邦模型的构建，增加了参与纵向联邦学习的训练样本，使训练的纵向联邦模型可以更快收敛，减少模型建模的计算量，提高了模型建模时的计算机系统的计算效率，解决了由于两个参与方之间的重叠样本较少导致计算机系统的计算效率低的问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的训练样本构建设备结构示意图；

图2为本发明训练样本构建方法第一实施例的流程示意图；

图3为本发明训练样本构建方法第一实施例中第一参与方和第二参与方的训练样本的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的训练样本构建设备结构示意图。

本发明实施例训练样本构建设备可以是PC，也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该训练样本构建设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，训练样本构建设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图1中示出的训练样本构建设备结构并不构成对训练样本构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及训练样本构建程序。

在图1所示的训练样本构建设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的训练样本构建程序。

在本实施例中，训练样本构建设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的训练样本构建程序，其中，处理器1001调用存储器1005中存储的训练样本构建程序时，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的训练样本构建程序，还执行以下操作：

本发明还提供一种训练样本构建方法，参照图2，图2为本发明训练样本构建方法第一实施例的流程示意图。

本发明训练样本构建方法第一实施例应用于第一参与方，第一参与方为参与纵向联邦学习的客户端或者客户端集群，在第一参与方中部署有第一模型。第一参与方为第一参与方本地训练样本的数据提供方，第二参与方为第二参与方本地训练样本的数据提供方。本发明实施例涉及第一参与方和第二参与方可以是超市、银行、医院等拥有海量分析数据的数据持有方。在本实施例中，该训练样本构建方法包括以下步骤：

步骤S10，获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；

一实施例中，第一参与方获取第一参与方本地的本地训练样本，其中，第一参与方的本地训练样本可以仅包括样本特征，也可以包括样本特征和样本标签。当第一参与方为第二参与方的数据提供方时，第一参与方的本地训练样本仅提供样本特征，从而第一参与方将本地训练样本即样本特征输入至特征转换模型(Feature Extractor、FeatureTransformer、Embedding)，将第一参与方的样本特征转换成预设的数据形式，得到本地训练样本对应的本地样本表征即本地样本特征表征。当第二参与方为第一参与方的数据提供方时，第一参与方的本地训练样本包含样本特征及样本标签，从而第一参与方将本地训练样本中的样本特征输入至特征转换模型，将本地训练样本中的样本特征转换成预设的数据形式，得到样本特征对应的样本特征表征，此时，本地样本表征为样本特征对应的样本特征表征。

第一参与方得到本地样本表征后，第一参与方基于本地样本表征确定本地样本特征中的非重叠样本表征，并将非重叠样本表征发送至第二参与方；第二参与方接收第一参与方发送的非重叠样本表征，并基于该非重叠样本表征和第二参与方本地训练样本对应的本地样本表征，计算本地样本表征对应的补充样本表征；第二参与方将第二参与方的补充样本表征加入至本地样本表征后得到补全样本表征；第二参与方将补全样本表征加入至第二参与方的第二模型中，以基于补全样本表征参与纵向联邦学习。

其中，样本表征为训练样本的一种表征数据，为特征转换模型从训练样本中学习到的表征。由于用于学习这些表征的特征转换模型比较复杂，难从表征反推出原始数据，因此可直接将表征数据发送至另一参与方。

步骤S20，接收第二参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的；

一实施例中，第二参与方将第二参与方本地训练样本中的非重叠训练样本输入至特征转换模型，以将第二参与方本地训练样本中的非重叠训练样本转换成预设的数据形式，得到与第一参与方的本地训练样本特征的数据形式相同的非重叠样本表征。以第二参与方为第一参与方的数据提供方，以及第一参与方为主要参与方进行说明，第二参与方的训练样本提供样本特征，即第二参与方本地训练样本为样本特征，第二参与方将第二参与方样本特征中的非重叠样本特征输入至特征转换模型，从而在特征转换模型中将第二参与方样本特征中的非重叠样本特征转换成预设的数据形式，得到与第一参与方的本地训练样本特征的数据形式相同的非重叠样本特征表征。第二参与方计算得到非重叠样本特征表征后，将非重叠样本特征表征发送至第一参与方，第一参与方接收第二参与方发送的非重叠样本特征表征。其中，如图3所示，第二参与方的非重叠训练样本为在与第一参与方的训练样本对齐后，相对于第一参与方的训练样本，第二参与方训练样本的非重叠部分；非重叠样本表征为非重叠训练样本经特征转换后的一种表征数据。

需要说明的是，第二参与方预先将第二参与方的本地训练样本输入至特征转换模型中，将第二参与方的本地训练样本转换成预设的数据形式，得到第二参与方的本地训练样本对应的本地训练样本表征。第二参与方通过样本对齐技术确定本地训练样本表征中的非重叠样本表征。

需要说明的是，第一参与方为第二参与方的数据提供方以及第二参与方为主要参与方的情况同理，在此不做赘述。

步骤S30，基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；

一实施例中，第一参与方在进行训练样本构建时，向第二参与方发送数据请求；第二参与方接收到数据请求时向第一参与方发送非重叠样本表征。第一参与方接收非重叠样本表征，并基于非重叠样本表征和本地样本表征，计算本地样本表征对应的补充样本表征。

具体地，基于非重叠样本表征和本地样本表征，计算非重叠样本表征各个表征数据以及本地样本表征各个表征数据之间的相似度权重，然后基于相似度权重和本地样本表征，对本地样本表征之间的各表征数据进行加权求和，得到本地样本表征对应的补充样本表征。

步骤S40，将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。

一实施例中，计算得到补充样本表征后，基于补充样本表征，对本地样本表征进行补全，得到补全本地样本表征后的补全样本表征。补全本地样本表征后，将补全样本表征输入至第一参与方的第一模型，

需要说明的是，若第二参与方为第一参与方的数据提供方，以及第一参与方为主要参与方，则第一参与方的本地训练样本包括样本特征和样本标签。第一参与方将本地训练样本中的样本特征输入至特征转换模型，将本地训练样本中的样本特征转换成预设的数据形式，得到样本特征对应的本地样本特征表征；之后，基于非重叠样本表征中的各表征数据以及本地样本特征表征，计算本地样本特征表征对应的补充样本特征表征；最后，将补充样本特征表征加入至本地训练样本的样本特征中，从而得到将样本特征表征补全后的补全样本特征表征。也就是说，第一参与方只将本地训练样本中的样本特征转换成表征数据，而不将本地训练样本中的样本标签转换成表征数据。

在本实施例中，第一参与方基于第二参与方发送的非重叠样本表征以及第一参与方本地训练样本对应的本地样本表征，计算得到第一参与方本地样本表征的补充样本表征，从而补全第一参与方的训练样本；同理，对于第二参与方，第二参与方基于第一参与方发送的非重叠样本表征以及第二参与方本地训练样本对应的本地样本表征，计算得到第二参与方本地样本表征的补充样本表征，从而补全第二参与方的训练样本。因此，由于现有的纵向联邦学习模型构建过程仅能将双方样本中重叠的部分用于模型训练，因此与现有的纵向联邦学习模型构建过程相比，本发明通过补全第一参与方和第二参与方双方的训练样本，使第一参与方与第二参与方的训练样本中的重叠部分增加，从而使得第一参与方的非重叠训练样本和第二参与方的非重叠训练样本可以用于纵向联邦模型的构建，增加了参与纵向联邦学习的训练样本，使训练的纵向联邦模型可以更快收敛，减少模型建模的计算量，提高了模型建模时的计算机系统的计算效率，解决了由于两个参与方之间的重叠样本较少导致计算机系统的计算效率低的问题。同时，在重叠样本较少的情况下也能训练出表现优异的联邦学习模型性能，提升了纵向联邦学习模型的性能，并且减少了样本数据的浪费。由于在传统的纵向联邦学习方法中，当参与方重叠样本不够充足时，纵向联邦学习很难建立起性能良好的机器学习模型，这在一定程度上限制了纵向联邦学习应用于更广泛的场景，因此，对参与方的样本数据进行补全，补充参与方训练样本的缺失部分，增加训练样本中的重叠部分，使得用于构建纵向联邦模型的训练样本增多，不仅提升了纵向联邦学习模型的性能，使纵向联邦学习不受参与方样本数据的限制，而且，从而使纵向联邦学习可以应用于更广泛的场景。

基于第一实施例，提出本发明训练样本构建方法的第二实施例，在本实施例中，步骤S30包括：

步骤S31，基于所述非重叠样本特征表征与所述本地样本特征表征，确定所述非重叠样本特征表征的各表征数据与所述本地样本特征表征的各表征数据之间的相似度权重，其中，所述非重叠样本表征为非重叠样本特征对应的非重叠样本特征表征；

步骤S32，基于所述相似度权重对所述本地样本特征表征的各样本表征进行加权求和，得到所述本地样本表征对应的补充样本表征。

一实施例中，第一参与方的本地训练样本包括样本特征，本地样本表征为样本特征对应的本地样本特征表征。当第二参与方的本地训练样本包括样本特征时，即第二参与方的非重叠训练样本包括非重叠样本特征，非重叠样本表征为非重叠样本特征对应的非重叠样本特征表征。

第一参与方基于非重叠样本特征表征和本地样本特征表征，计算非重叠样本特征表征各个表征数据以及本地样本特征表征各个表征数据之间的相似度权重，然后基于相似度权重和本地样本特征表征，对本地样本特征表征之间的各表征数据进行加权求和，得到本地样本特征表征对应的补充样本特征表征。

进一步地，一实施例中，所述接收第二参与方发送的非重叠样本表征的步骤之后，还包括：

步骤S21，基于所述非重叠样本特征表征中的各表征数据以及所述本地训练样本中样本标签的各标签数据，计算所述样本标签对应的补充样本标签；

步骤S22，将所述补充样本特征表征加入至所述本地样本表征中，得到补全样本特征表征，以及将所述补充样本标签加入至所述样本标签中，得到所述样本标签对应的补全样本标签；

步骤S23，基于所述补全样本表征和所述补全样本标签，参与纵向联邦学习。

一实施例中，当第一参与方的本地训练样本包括样本特征和样本标签时，将本地训练样本中的样本特征输入至特征转换模型，将样本特征转换成本地样本特征表征，从而基于本地样本特征表征以及第二参与方的非重叠样本特征表征计算补充样本特征表征。

第一参与方基于本地训练样本中的样本标签和第二参与方发送的非重叠样本特征表征，计算样本标签的各标签数据和非重叠样本特征表征的各表征数据的相似度权重(第二相似度权重)；第一参与方基于第二相似度权重，对样本标签的各个标签数据进行加权求和，计算得到样本标签对应的补充样本标签。之后，第一参与方将补全样本特征表征以及补全样本标输入至第一模型，联合第二参与方的第二模型，进行纵向联邦学习。

进一步地，一实施例中，所述第一参与方的所述本地训练样本包括样本特征，所述本地样本表征为所述样本特征对应的本地样本特征表征，

步骤S11，获取所述本地训练样本，并根据所述本地训练样本的数据类型确定第一特征转换模型；

步骤S12，将所述本地训练样本中的样本特征输入至所述第一特征转换模型，以供所述第一特征转换模型将所述样本特征转换成预设的数据形式，得到本地样本特征表征。

一实施例中，第一参与方根据本地训练样本的数据类型确定用于转换样本特征的特征转换模型的模型类型，以基于该模型类型获取第一特征转换模型。本地训练样本的数据类型包括图像数据、文本或者表格数据等，若本地训练样本的数据类型为图像数据，则确定特征转换模型的模型类型为CNN，获取CNN作为第一特征转换模型；若本地训练样本的数据类型为文本，则确定特征转换模型的模型类型为CNN或RNN，获取CNN或RNN中的一种作为第一特征转换模型；若本地训练样本的数据类型为表格数据，则确定特征转换模型的模型类型为全连接神经网络，获取全连接神经网络作为第一特征转换模型。

进一步地，一实施例中，所述基于所述补全样本表征参与纵向联邦学习的步骤包括：

步骤S41，将所述补全样本表征输入至第一模型，得到第一中间结果，其中，所述第一模型与所述第一参与方相对应；

步骤S42，将所述第一中间结果发送至所述第二参与方，以供所述第二参与方根据所述第一中间结果计算第二梯度信息，并根据所述第二梯度信息更新第二模型和第二特征转换模型，其中，所述第二模型、所述第二特征转换模型分别与所述第二参与方相对应；

步骤S43，根据所述第二参与方发送的第二中间结果计算第一梯度信息，并根据所述第一梯度信息更新第一模型和第一特征转换模型，其中，所述第二中间结果为所述第二参与方将第二参与方的本地样本表征输入所述第二模型得到，所述第一模型、所述第一特征转换模型分别与所述第一参与方相对应；

步骤S44，基于更新后的第一模型以及所述第二参与方中更新后的第二模型得到训练完成的纵向联邦学习模型。

一实施例中，第一参与方和第二参与方进行纵向联邦建模，得到纵向联邦学习模型。具体地，纵向联邦学习模型包括两个部分：第一模型和第二模型，第一部分模型部署于第一参与方，第二模型部署于第二参与方；可以理解的是，待训练的纵向联邦学习模型是一个完整模型结构，第一模型和第二模型是纵向联邦学习模型结构的一部分；第一参与方和第二参与方通过纵向联邦建模，各自更新各自模型的模型参数。

第一参与方在得到补全样本表征后，获取补全样本表征。在一轮纵向联邦训练过程中，第一参与方将补全样本表征输入第一参与方的第一模型，得到用于计算第二模型和第二特征转换模型的梯度信息的第一中间结果。

第一参与方将第一中间结果发送给第二参与方。第二参与方获取第二参与方的本地样本表征；第二参与方将第二参与方的本地样本表征输入第二模型得到用于计算第一模型和第一特征转换模型的梯度信息的第二中间结果；第二参与方基于从第一参与方接收到的第一中间结果，计算得到第二梯度信息，并根据第二梯度信息更新第二模型和第二特征转换模型的模型参数；第二参与方将第二中间结果发送给第一参与方。

第一参与方同样地，根据第二参与方发送的第二中间结果，计算得到第一梯度信息，并根据第一梯度信息更新第一模型和第一特征转换模型。

第一参与方基于更新后的第一模型和第二模型得到训练完成的纵向联邦学习模型。具体地，可以是第一参与方检测是否满足预设的训练停止条件，若满足，则第一参与方和第二参与方可以是将更新后的第一模型和第二模型作为最终的纵向联邦学习模型；若不满足，则第一参与方可以和第二参与方基于更新后的第一模型和第二模型，再进行一轮上述的纵向联邦训练，直到检测到满足预设的训练停止条件为止。其中，预设的训练停止条件可以是训练的轮数大于一个预设的最大轮数，也可以是训练的时间大于一个预设的最长时间，还可以是纵向联邦学习模型收敛。

进一步地，一实施例中，所述根据所述第一梯度信息更新第一模型和第一特征转换模型的步骤包括：

步骤S431，根据所述第二参与方发送的第二中间结果计算预设目标函数对应的总损失值，其中，所述预设目标函数由预设损失函数和预设距离函数组成；

步骤S432，若所述总损失值大于或等于所述预设阈值，则根据所述第一梯度信息分别更新第一模型和第一特征转换模型。

一实施例中，当第一参与方的本地训练样本包含样本标签时，第一参与方根据样本标签、第一模型和第二模型的输出结果，计算预设目标函数对应的总损失值，并根据总损失值来确定纵向联邦模型是否训练完成。其中，预设目标函数由预设损失函数和预设距离函数组成，预设损失函数与第一模型相对应，预设距离函数与第一特征转换模型相对应。可以理解的是，预设损失函数对应的第一函数值小于一定值，则第一模型收敛；预设距离函数对应的第二函数值小于一定值，则第一特征转换模型收敛。预设目标函数由预设损失函数和预设距离函数组成，则预设目标函数对应的总损失值由第一函数值和第二函数值组成，当第一函数值与第二函数值的和小于预设阈值，即总损失值小于预设阈值，则纵向联邦学习模型训练完成，停止训练纵向联邦学习模型；当第一函数值与第二函数值的和大于或等于预设阈值，即总损失值大于或等于预设阈值，说明纵向联邦学习模型未训练完成，则继续联合第一参与方和第二参与方训练纵向联邦学习模型。

在本实施例中，第一参与方基于第二参与方发送的非重叠样本表征以及第一参与方本地训练样本对应的本地样本表征，计算得到第一参与方本地样本表征的补充样本表征，从而补全第一参与方的训练样本。因此，补全第一参与方的本地训练样本，使第一参与方与第二参与方的训练样本中的重叠部分增加，从而使得第一参与方的非重叠训练样本可以用于纵向联邦模型的构建，增加了参与纵向联邦学习的训练样本，解决了由于重叠样本较少时训练纵向联邦学习模型性能较差的问题，在重叠样本较少的情况下也能训练出表现优异的联邦学习模型性能，提升了纵向联邦学习模型的性能，并且减少了样本数据的浪费。

进一步地，一实施例中，所述将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习的步骤之后，还包括：

步骤S40，获取待预测客户的第一客户信息，并将所述第一客户信息转换成预设的数据形式，得到所述第一客户信息对应的第一客户信息表征；

步骤S50，将所述第一客户信息表征输入至可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型为所述第一参与方与所述第二参与方进行纵向联邦学习得到的；

步骤S60，根据所述第一预测结果和从所述第二参与方接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二参与方将所述待预测客户的第二客户信息对应的第二客户信息表征输入至所述可疑客户预测模型得到。

一实施例中，第一参与方获取待预测客户的第一客户信息，第一客户信息为待预测客户的预测信息，然后将第一客户信息输入至第一参与方的第一特征转换模型，第一特征转换模型将第一客户信息转换成预设的数据形式，得到第一客户信息表征；第一参与方将第一特征转换模型输出的第一客户信息表征输入至可疑客户预测模型的第一模型中，可疑客户预测模型的第一模型输出第一预测结果。其中，可疑客户预测模型为联合第一参与方的第一模型以及第二参与方的第二模型，训练完成第一模型和第二模型得到的训练完成的纵向联邦学习模型，即可疑客户模型由训练完成的第一模型和第二模型组成。由于输入纵向联邦学习模型的数据为转换特征的样本特征表征以及未转换特征的样本标签，因此第一模型和第二模型的输出的数据不为表征数据，而是预测结果。

第二参与方获取待预测客户的第二客户信息，并将第二客户信息输入至第二参与方的第二特征转换模型，第二特征转换模型将第二客户信息转换成预设的数据形式，得到第二客户信息表征；第二参与方将第二客户信息表征输入至可疑客户预测模型的第二模型，第二模型对第二客户信息表征进行预测，输出第二预测结果。

第二参与方计算得到第二预测结果后，将第二预测结果发送至第一参与方。第一参与方接收第二参与方发送的第二预测结果。第一参与方在获取到第一预测结果和第二预测结果后，可根据第一预测结果和第二预测结果得到待预测客户的可疑预测结果。具体地，根据可疑客户预测模型的模型结构不同，第一设备根据第一预测结果和第二预测结果得到可疑预测结果的过程可以不同。例如，当可疑客户预测模型是逻辑回归模型时，第一参与方将第一预测结果和第二预测结果进行线性相加，相加得到的结果作为可疑预测结果；当可疑客户预测模型是神经网络模型时，第一参与方将第一预测结果和第二预测结果输入神经网络模型的全连接层，基于全连接层输出的结果获得最终的可疑预测结果。需要说明的是，根据可疑客户预测模型的模型设计不同，输出的可疑预测结果的形式不同，例如，可疑预测结果可以是一个概率值，用于表示待预测客户属于可疑客户的概率。第一参与方可以将待预测客户的可疑预测结果进行输出到第一参与方的用户交互界面，使得进行可疑客户排查的工作人员能够直观地获得待预测客户的预测结果。

此外，本发明实施例还提出一种纵向联邦学习的训练样本构建方法，所述训练样本构建方法应用于第二参与方，所述训练样本构建方法包括以下步骤：

在本实施例中，本发明训练样本构建方法第一实施例应用于第二参与方，第二参与方为参与纵向联邦学习的客户端或者客户端集群，在第二参与方中部署有第二模型。第二参与方为第二参与方本地训练样本的数据提供方。本发明实施例涉及第一参与方和第二参与方可以是超市、银行、医院等拥有海量分析数据的数据持有方。

步骤S100，获取所述第二参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；

一实施例中，第二参与方获取第二参与方本地的本地训练样本，其中，第二参与方的本地训练样本可以仅包括样本特征，也可以包括样本特征和样本标签。当第二参与方为第一参与方的数据提供方时，第二参与方的本地训练样本仅提供样本特征，从而第二参与方将本地训练样本即样本特征输入至特征转换模型(Feature Extractor、FeatureTransformer、Embedding)，将第二参与方的样本特征转换成预设的数据形式，得到本地训练样本对应的本地样本表征即本地样本特征表征。当第一参与方为第二参与方的数据提供方时，第二参与方的本地训练样本包含样本特征及样本标签，从而第二参与方将本地训练样本中的样本特征输入至特征转换模型(Feature Extractor、Feature Transformer、Embedding)，将本地训练样本中的样本特征转换成预设的数据形式，得到样本特征对应的样本特征表征，此时，本地样本表征为样本特征对应的样本特征表征。

第二参与方得到本地样本表征后，第二参与方基于本地样本表征确定本地样本特征中的非重叠样本表征，并将非重叠样本表征发送至第一参与方；第一参与方接收第二参与方发送的非重叠样本表征，并基于该非重叠样本表征和第一参与方本地训练样本对应的本地样本表征，计算本地样本表征对应的补充样本表征；第一参与方将第一参与方的补充样本表征加入至本地样本表征后得到补全样本表征；第一参与方将补全样本表征加入至第一参与方的第一模型中，以基于补全样本表征参与纵向联邦学习。

步骤S200，接收第一参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第一参与方将第一参与方本地训练样本中的非重叠训练样本转换成与所述第二参与方的所述本地样本表征相同的数据形式后得到的；

一实施例中，第一参与方将第一参与方本地训练样本中的非重叠训练样本输入至特征转换模型，以将第一参与方本地训练样本中的非重叠训练样本转换成预设的数据形式，得到与第二参与方的本地训练样本特征的数据形式相同的非重叠样本表征。以第一参与方为第二参与方的数据提供方，以及第二参与方为主要参与方进行说明，第一参与方的训练样本提供样本特征，即第一参与方本地训练样本为样本特征，第一参与方将第一参与方样本特征中的非重叠样本特征输入至特征转换模型，从而在特征转换模型中将第一参与方样本特征中的非重叠样本特征转换成预设的数据形式，得到与第二参与方的本地训练样本特征的数据形式相同的非重叠样本特征表征。第一参与方计算得到非重叠样本特征表征后，将非重叠样本特征表征发送至第二参与方，第二参与方接收第一参与方发送的非重叠样本特征表征。其中，如图3所示，第一参与方的非重叠训练样本为在与第二参与方的训练样本对齐后，相对于第二参与方的训练样本，第一参与方训练样本的非重叠部分；非重叠样本表征为非重叠训练样本经特征转换后的一种表征数据。

需要说明的是，第一参与方预先将第一参与方的本地训练样本输入至特征转换模型中，将第一参与方的本地训练样本转换成预设的数据形式，得到第一参与方的本地训练样本对应的本地训练样本表征。第一参与方通过样本对齐技术确定本地训练样本表征中的非重叠样本表征。

需要说明的是，第二参与方为第一参与方的数据提供方以及第一参与方为主要参与方的情况同理，在此不做赘述。

步骤S300，基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；

一实施例中，第二参与方在进行训练样本构建时，向第一参与方发送数据请求；第一参与方接收到数据请求时向第二参与方发送非重叠样本表征。第二参与方接收非重叠样本表征，并基于非重叠样本表征和本地样本表征，计算本地样本表征对应的补充样本表征。

步骤S400，将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。

一实施例中，计算得到补充样本表征后，基于补充样本表征，对本地样本表征进行补全，得到补全本地样本表征后的补全样本表征。补全本地样本表征后，将补全样本表征输入至第二参与方的第一模型，

需要说明的是，若第一参与方为第二参与方的数据提供方，以及第二参与方为主要参与方，则第二参与方的本地训练样本包括样本特征和样本标签。第二参与方将本地训练样本中的样本特征输入至特征转换模型，将本地训练样本中的样本特征转换成预设的数据形式，得到样本特征对应的本地样本特征表征；之后，基于非重叠样本表征中的各表征数据以及本地样本特征表征，计算本地样本特征表征对应的补充样本特征表征；最后，将补充样本特征表征加入至本地训练样本的样本特征中，从而得到将样本特征表征补全后的补全样本特征表征。也就是说，第二参与方只将本地训练样本中的样本特征转换成表征数据，而不将本地训练样本中的样本标签转换成表征数据。

本实施例提出的训练样本构建方法，通过获取所述第二参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征；接收第一参与方发送的非重叠样本表征，其中，所述非重叠样本表征为所述第一参与方将第一参与方本地训练样本中的非重叠训练样本转换成与所述第二参与方的所述本地样本表征相同的数据形式后得到的；基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据，计算所述本地样本表征对应的补充样本表征；将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习。在本实施例中，第二参与方基于第一参与方发送的非重叠样本表征以及第二参与方本地训练样本对应的本地样本表征，计算得到第二参与方本地样本表征的补充样本表征，从而补全第二参与方的训练样本。因此，补全第二参与方的训练样本，使第一参与方与第二参与方的训练样本中的重叠部分增加，从而使得第二参与方的非重叠训练样本可以用于纵向联邦模型的构建，增加了参与纵向联邦学习的训练样本，解决了由于重叠样本较少时训练纵向联邦学习模型性能较差的问题，在重叠样本较少的情况下也能训练出表现优异的联邦学习模型性能，提升了纵向联邦学习模型的性能，并且减少了样本数据的浪费。同时，由于在传统的纵向联邦学习方法中，当参与方重叠样本不够充足时，纵向联邦学习很难建立起性能良好的机器学习模型，这在一定程度上限制了纵向联邦学习应用于更广泛的场景，因此，对参与方的样本数据进行补全，补充参与方训练样本的缺失部分，增加训练样本中的重叠部分，使得用于构建纵向联邦模型的训练样本增多，不仅提升了纵向联邦学习模型的性能，而且使纵向联邦学习不受参与方样本数据的限制，从而使纵向联邦学习可以应用于更广泛的场景。

此外，本发明实施例还提出一种训练样本构建装置，所述训练样本构建装置包括：

进一步地，所述计算模块，还用于：

进一步地，所述接收模块，还用于：

进一步地，所述转换模块，还用于：

进一步地，所述训练模块，还用于：

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有训练样本构建程序，所述训练样本构建程序被处理器执行时实现如上述中任一项所述的训练样本构建方法的步骤。

本发明计算机可读存储介质具体实施例与上述训练样本构建方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种训练样本构建方法，其特征在于，所述训练样本构建方法应用于第一参与方，所述第一参与方为参与纵向联邦学习的客户端或者客户端集群，所述训练样本构建方法包括以下步骤：

获取所述第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征，其中，所述本地训练样本的数据类型包括图像数据、文本或表格数据；

2.如权利要求1所述的训练样本构建方法，其特征在于，所述第一参与方的所述本地训练样本包括样本特征，所述本地样本表征为所述样本特征对应的本地样本特征表征，

基于所述非重叠样本表征与所述本地样本特征表征，确定所述非重叠样本表征的各表征数据与所述本地样本特征表征的各表征数据之间的相似度权重，其中，所述非重叠样本表征为非重叠样本特征对应的非重叠样本表征；

3.如权利要求2所述的训练样本构建方法，其特征在于，所述接收第二参与方发送的非重叠样本表征的步骤之后，还包括：

基于所述非重叠样本表征中的各表征数据以及所述本地训练样本中样本标签的各标签数据，计算所述样本标签对应的补充样本标签；

4.如权利要求1所述的训练样本构建方法，其特征在于，所述第一参与方的所述本地训练样本包括样本特征，所述本地样本表征为所述样本特征对应的本地样本特征表征，

5.如权利要求1所述的训练样本构建方法，其特征在于，所述基于所述补全样本表征参与纵向联邦学习的步骤包括：

6.如权利要求5所述的训练样本构建方法，其特征在于，所述根据所述第一梯度信息更新第一模型和第一特征转换模型的步骤包括：

若所述总损失值大于或等于预设阈值，则根据所述第一梯度信息分别更新第一模型和第一特征转换模型。

7.如权利要求1所述的训练样本构建方法，其特征在于，所述将所述补充样本表征加入至所述本地样本表征中，得到补全样本表征，并基于所述补全样本表征参与纵向联邦学习的步骤之后，还包括：

8.一种训练样本构建装置，其特征在于，所述训练样本构建装置包括：

转换模块，用于获取第一参与方的本地训练样本，并将所述本地训练样本转换成预设的数据形式，得到本地训练样本对应的本地样本表征，其中，所述本地训练样本的数据类型包括图像数据、文本或表格数据；

9.一种训练样本构建设备，其特征在于，所述训练样本构建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练样本构建程序，所述训练样本构建程序被所述处理器执行时实现如权利要求1至7中任一项所述的训练样本构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练样本构建程序，所述训练样本构建程序被处理器执行时实现如权利要求1至7中任一项所述的训练样本构建方法的步骤。