CN111275207A

CN111275207A - 基于半监督的横向联邦学习优化方法、设备及存储介质

Info

Publication number: CN111275207A
Application number: CN202010085117.XA
Authority: CN
Inventors: 魏锡光; 鞠策; 李�权; 曹祥; 刘洋; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-12
Anticipated expiration: 2040-02-10
Also published as: CN111275207B

Abstract

本发明公开了一种基于半监督的横向联邦学习优化方法、设备及存储介质，所述方法包括：接收服务端下发的本次全局模型更新的全局模型参数；基于全局模型参数更新第一模型后，基于本地的无标签样本和无标签样本的增广样本对第一模型进行自监督训练，得到本地模型参数；将本地模型参数发送给服务端，以供服务端根据有标签样本和从各客户端接收到的本地模型参数对第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各客户端；循环直到满足预设条件时停止训练得到目标模型。本发明实现只在服务器端有少量有标签样本，在客户端完全没有标签数据时，也能够进行横向联邦学习，从而适应缺乏标签数据的现实场景，节省人力成本。

Description

基于半监督的横向联邦学习优化方法、设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于半监督的横向联邦学习优化方法、设备及存储介质。

背景技术

随着人工智能的发展，人们为解决数据孤岛的问题，提出了“联邦学习”的概念，使得联邦双方在不用给出己方数据的情况下，也可进行模型训练得到模型参数，并且可以避免数据隐私泄露的问题。横向联邦学习，也称为特征对齐的联邦学习(feature-alignedfederated learning)，是在各个客户端的数据特征重叠较多(即数据特征是对齐的)，而用户重叠较少的情况下，取出客户端数据特征相同而用户不完全相同的那部分数据进行联合机器学习。

目前的横向联邦学习通常假设客户端有大量的有标签数据，才能够保证使用横向联邦学习的训练模式进行模型训练，但是实际情况通常是客户端有少量甚至是没有标签数据，事实上也很难要求客户端对数据进行标注，因而很难使用现有的横向联邦学习训练模式获得优质的模型。

发明内容

本发明的主要目的在于提供一种基于半监督的横向联邦学习优化方法、设备及存储介质，旨在解决现有客户端中无标签数据的情况下，无法使用横向联邦学习来训练模型的问题。

为实现上述目的，本发明提供一种基于半监督的横向联邦学习优化方法，应用于参与横向联邦学习的客户端，所述客户端拥有第一模型，参与横向联邦学习的服务端拥有与所述第一模型结构相同的第二模型，所述方法包括：

接收服务端下发的本次全局模型更新的全局模型参数；

基于所述全局模型参数更新所述第一模型后，基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数；

将所述本地模型参数发送给所述服务端，以供所述服务端根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端；

循环直到满足预设条件时停止训练得到目标模型。

可选地，所述基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数的步骤包括：

对本地的无标签样本进行数据增广获得增广样本；

将所述无标签样本输入所述第一模型得到第一预测标签，将所述增广样本输入所述第二模型得到第二预测标签；

基于所述第一预测标签和所述第二预测标签构建所述第一模型的自监督损失函数；

基于所述自监督损失函数计算得到本地模型参数。

可选地，当一个所述无标签样本对应多个所述增广样本时，所述基于所述第一预测标签和所述第二预测标签构建所述第一模型的自监督损失函数的步骤包括：

基于多个所述增广样本对应的多个所述第二预测标签获取一个目标预测标签；

基于所述目标预测标签和所述第二预测标签构建所述第一模型的自监督损失函数。

可选地，所述基于多个所述增广样本对应的多个所述第二预测标签获取一个目标预测标签的步骤包括：

从多个增广样本对应的多个所述第二预测标签中获取置信度最高的作为目标预测标签。

可选地，所述目标模型用于对识别患者的心脏疾病类型，

所述循环直到满足预设条件时停止训练得到目标模型的步骤之后，还包括：

将目标患者的心电图数据输入所述目标模型得到所述目标患者的心脏疾病类型检测结果。

可选地，当所述无标签样本包括图像时，所述对本地的无标签样本进行数据增广获得增广样本的步骤包括：

对本地的无标签样本的图像进行旋转操作或缩放操作获得增广样本。

为实现上述目的，本发明还提供一种基于半监督的横向联邦学习优化方法，应用于参与横向联邦学习的服务端，所述服务端拥有第二模型，参与横向联邦学习的客户端拥有与所述第二模型结构相同的第一模型，所述方法包括：

将本次全局模型更新的全局模型参数下发至各所述客户端，以供各所述客户端基于所述全局模型参数更新所述第一模型后，基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数并返回；

根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端；

循环直到满足预设条件时停止训练得到目标模型。

可选地，所述根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端的步骤包括：

接收各所述客户端发送的本地模型参数；

对各所述本地模型参数进行融合，得到融合模型参数；

基于所述融合模型参数更新所述第二模型后，采用有标签样本对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端。

为实现上述目的，本发明还提供一种基于半监督的横向联邦学习优化设备，所述基于半监督的横向联邦学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被所述处理器执行时实现如上所述的基于半监督的横向联邦学习优化方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如上所述的基于半监督的横向联邦学习优化方法的步骤。

本发明中，客户端接收服务端下发全局模型参数，基于全局模型参数更新第一模型后，基于无标签样本和增广样本对第一模型进行自监督训练，得到本地模型参数，充分发挥了客户端无标签样本的作用，使得客户端在没有标签数据时也可以参与横向联邦学习；客户端将本地模型参数发送给服务端，服务端根据有标签样本和本地模型参数对第二模型进行有监督训练，得到全局模型参数并下发给各客户端，使得服务端的有标签样本得到利用，避免了人力资源的浪费；也通过在客户端的自监督训练中穿插服务端的有监督训练，为客户端的自监督训练提供指导方向，避免客户端的自监督训练结果出现偏差；使得自监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用自监督训练学习到的大量的无标签样本的特征，从而实现只在服务器端有少量有标签样本，在客户端完全没有标签数据时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于半监督的横向联邦学习优化方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种训练样本分布示意图；

图4为本发明实施例涉及的一种有监督训练过程示意图；

图5为本发明实施例涉及的一种增广样本为多个时的自监督训练过程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例基于半监督的横向联邦学习优化设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该基于半监督的横向联邦学习优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对基于半监督的横向联邦学习优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于半监督的横向联邦学习优化程序。

当图1中所示的设备是参与横向联邦学习的客户端时，用户接口1003主要用于与用户端进行数据通信；网络接口1004主要用于与参与横向联邦学习的服务端建立通信连接；而处理器1001可以用于调用存储器1005中存储的基于半监督的横向联邦学习优化程序，并执行以下操作：

接收服务端下发的本次全局模型更新的全局模型参数；

循环直到满足预设条件时停止训练得到目标模型。

进一步地，所述基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数的步骤包括：

对本地的无标签样本进行数据增广获得增广样本；

基于所述自监督损失函数计算得到本地模型参数。

进一步地，当一个所述无标签样本对应多个所述增广样本时，所述基于所述第一预测标签和所述第二预测标签构建所述第一模型的自监督损失函数的步骤包括：

进一步地，所述基于多个所述增广样本对应的多个所述第二预测标签获取一个目标预测标签的步骤包括：

进一步地，所述目标模型用于对识别患者的心脏疾病类型，

进一步地，当所述无标签样本包括图像时，所述对本地的无标签样本进行数据增广获得增广样本的步骤包括：

当图1中所示的设备是参与横向联邦学习的服务端时，用户接口1003主要用于与用户端进行数据通信；网络接口1004主要用于与参与横向联邦学习的客户端建立通信连接；而处理器1001可以用于调用存储器1005中存储的基于半监督的横向联邦学习优化程序，并执行以下操作：

循环直到满足预设条件时停止训练得到目标模型。

进一步地，所述根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端的步骤包括：

接收各所述客户端发送的本地模型参数；

对各所述本地模型参数进行融合，得到融合模型参数；

基于上述的结构，提出基于半监督的横向联邦学习优化方法的各个实施例。

参照图2，图2为本发明基于半监督的横向联邦学习优化方法第一实施例的流程示意图。

本发明实施例提供了基于半监督的横向联邦学习优化方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明基于半监督的横向联邦学习优化方法第一实施例应用于参与横向联邦学习的客户端，客户端与参与横向联邦学习的服务端通信连接，客户端拥有第一模型，服务端拥有与第一模型结构相同的第二模型，本发明实施例涉及的服务端和客户端可以是智能手机、个人计算机和服务器等设备。在本实施例中，所述基于半监督的横向联邦学习优化方法包括：

步骤S10，接收服务端下发的本次全局模型更新的全局模型参数；

在本实施例中，服务端与各客户端可通过握手、身份认证预先建立通信连接，并确定本次联邦学习待训练的模型，如神经网络模型。可以由服务端将确定的待训练的模型下发至各个客户端，那么服务端和客户端都有待训练的模型，也即，服务端和客户端中有相同结构的待训练模型。将客户端的待训练模型称为第一模型，服务端的待训练模型称为第二模型，以示区别。如图3所示，各个客户端本地拥有用于训练该待训练模型的无标签样本，服务端则拥有有标签样本。需要说明的是，无标签样本和有标签样本统称为训练样本，一条无标签样本包括一条数据，一条有标签样本包括一条数据以及该数据对应的标签。无标签样本的数量可以远远大于有标签样本的数量，为节省人工打标签的人力物力。根据具体的训练任务不同，可以采用不同的训练样本。例如，训练任务是采用神经网络模型对图像进行人脸检测，则训练样本是图像，有标签样本还包括指示图像中是否有人脸的标签。又如，训练任务是采用决策树模型进行用户购买意向的预测，则训练样本是用户数据，有标签样本还包括用户的购买意向标签。

在横向联邦学习中，服务端与客户端通过相互配合，对待训练模型进行多次全局模型更新，最后得到符合质量要求的目标模型。模型更新是指更新待训练模型的模型参数，如待训练模型是神经网络模型时，模型参数是神经元之间的连接权重值，经过多次全局模型更新，确定最终的模型参数，从而就确定了目标模型。

在一次全局模型更新中，客户端接收服务端下发的本次全局模型更新的全局模型参数。需要说明的是，若是第一次全局模型更新，服务端可以采用随机的模型参数来初始化第二模型，也可以采用开发人员根据经验设置的模型参数来初始化第二模型；随后，服务端可以直接将初始化的第二模型的模型参数作为本次全局模型更新的全局模型参数；也可以采用有标签样本对初始化的第二模型进行有监督训练，经过一轮或多轮迭代后，更新第二模型的模型参数，将更新后的模型参数作为本次全局模型更新的全局模型参数。有监督训练可参照图4，服务端将有标签样本输入第二模型，得到预测标签，再采用真实标签和预测标签计算有监督损失函数，然后采用有监督损失函数更新第二模型的模型参数。通过在联邦学习开始时，服务端先采用有标签样本对第二模型进行有监督训练，给后续各个客户端进行自监督训练一个初始方向，缩短训练时间，即有监督训练后得到的第二模型已经学习到了有标签样本的一些特征，从而使得客户端的自监督训练过程中预测结果相对准确，进而缩短自监督训练的次数。并且，现实场景中往往在服务端拥有一些有标签样本，在现有的横向联邦学习训练模式中，服务端的有标签样本无法发挥作用，而在本实施例提供的方案中，服务端的有标签样本得以发挥作用，从而避免了人力资源的浪费。

步骤S20，基于所述全局模型参数更新所述第一模型后，基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数；

客户端在获取到全局模型参数后，先采用全局模型参数更新本地的第一模型，也即，各个客户端更新后的第一模型与服务端的第二模型的模型参数保持一致。之后，客户端基于本地的无标签样本和无标签样本的增广样本对第一模型进行自监督训练，得到本地模型参数。其中，客户端可以分别对各条无标签样本进行数据增广，得到各条无标签样本对应的增广样本，然后采用无标签样本和对应的增广样本对第一模型进行自监督训练，得到本地模型参数。自监督训练可以是进行一轮或多轮的模型参数更新，将最后一轮更新的模型参数作为本地模型参数。本地模型参数是相对于全局模型参数而言的，各个客户端采用分别采用本地的无标签样本对本地的第一模型进行参数更新，本地训练开始时各个客户端的模型参数是一致的，训练结束后各个第一模型的模型参数将会有所差异，也即，各个客户端得到的本地模型参数会有所差异，这个差异正是源于各个客户端拥有不同用户的无标签样本。

进一步地，步骤S20中基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数的步骤包括：

步骤S201，对本地的无标签样本进行数据增广获得增广样本；

步骤S202，将所述无标签样本输入所述第一模型得到第一预测标签，将所述增广样本输入所述第二模型得到第二预测标签；

步骤S203，基于所述第一预测标签和所述第二预测标签构建所述第一模型的自监督损失函数；

步骤S204，基于所述自监督损失函数计算得到本地模型参数。

客户端分别对本地的各条无标签样本进行数据增广，得到各条无标签样本对应的增广样本。需要说明的是，一条无标签样本可以增广得到多个增广样本。具体地，数据增广的目的是对样本进行一些变化，根据样本的类型不同，数据增广方式不同，如样本是图像，则可以采用平移、旋转或缩放等方式进行数据增广。

客户端将无标签样本输入第一模型得到第一预测标签，将增广样本输入第二模型得到第二预测标签。一条无标签样本，对应一个第一预测标签、至少一个增广样本、至少一个第二预测标签。

客户端根据第一预测标签和第二预测标签构建第一模型的自监督损失函数，根据自监督损失函数计算第一模型的模型参数的梯度，根据梯度更新第一模型的模型参数，经过一轮或多轮的更新，将最终更新的模型参数作为本地模型参数。其中，自监督损失函数的计算方法可以采用常规的损失函数计算方法，与有监督损失函数的区别在于自监督损失函数主要表现第一预测标签和第二预测标签的误差。需要说明的是，无标签样本与它的增广样本的真实标签应当是相同的，因此第一模型对两者的预测标签也应当是相同的，自监督损失函数表现了第一预测标签与第二预测标签之间的误差，若第一模型预测准确，那么自监督损失函数的值是零，自监督训练的目的是不断调整第一模型的模型参数，使得自监督损失函数的值不断减小，从而提高第一模型的预测准确率。

步骤S30，将所述本地模型参数发送给所述服务端，以供所述服务端根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端；

客户端将本地模型参数发送给服务端。服务端接收各个客户端发送的本地模型参数，并根据有标签样本和各个本地模型参数对第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数。具体地，服务端可以先对本地模型参数进行融合，得到融合模型参数；再采用融合模型参数更新第二模型，更新后，采用有标签样本对第二模型进行有监督训练，一轮或多轮更新模型参数后，将最终更新的模型参数作为新一次全局模型更新的全局模型参数。服务端将新一次的全局模型参数下发给各个客户端，以进入新一次的全局模型更新。通过服务端在每次客户端进行本地自监督训练之后，采用有样本标签对各个客户端自监督训练的结果进行调整，使得在整个联邦学习的过程中，穿插有标签样本对模型预测或分类效果的指导，进而避免客户端自监督训练的结果出现偏差，缩短模型训练的时间，也提高训练得到的目标模型的性能，最重要地是发挥无标签样本的作用的同时，避免模型性能出现偏差。

步骤S40，循环直到满足预设条件时停止训练得到目标模型。

循环上述步骤，直到客户端检测到满足预设条件时停止训练，得到目标模型。其中，预设条件可以是预先根据需要进行设置，如检测到第一模型收敛，或检测到循环次数达到一个预设的次数，或检测到训练时间达到一个预设的时间，或者是接收到服务端发送的停止训练指令等。服务端也可以在检测到第一模型收敛时，向客户端发送一个全局模型参数，以及发送停止训练指令，客户端在接收到停止训练指令和全局模型参数后，采用全局模型参数更新第一模型，然后停止训练，即不再进行自监督训练。客户端将最后确定了模型参数的第一模型作为目标模型，后续可以使用目标模型来完成预测或分类任务。

在本实施例中，客户端接收服务端下发全局模型参数，基于全局模型参数更新第一模型后，基于无标签样本和增广样本对第一模型进行自监督训练，得到本地模型参数，充分发挥了客户端无标签样本的作用，使得客户端在没有标签数据时也可以参与横向联邦学习，提高了无标签样本的使用率；客户端将本地模型参数发送给服务端，服务端根据有标签样本和本地模型参数对第二模型进行有监督训练，得到全局模型参数并下发给各客户端，使得服务端的有标签样本得到利用，避免了人力资源的浪费；也通过在客户端的自监督训练中穿插服务端的有监督训练，为客户端的自监督训练提供指导方向，避免客户端的自监督训练结果出现偏差；使得自监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用自监督训练学习到的大量的无标签样本的特征，从而实现只在服务器端有少量有标签样本，在客户端完全没有标签数据时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

进一步地，在医疗场景中，需要根据患者的心电图来识别患者的心脏疾病类型，因此可以训练一个识别模型来对心电图进行识别。但是医生很少有时间对数据进行做标注，而非医生又不懂如何标注，因此，导致缺乏有标签的样本，从而导致训练得到的识别模型识别效果不佳，无标签数据也无法得到利用。为解决该问题，在本实施例中，所述目标模型可以用于识别患者的心脏疾病类型，所述步骤S40之后，还包括：

步骤S50，将目标患者的心电图数据输入所述目标模型得到所述目标患者的心脏疾病类型检测结果。

目标模型可用于识别患者的心脏疾病类型，目标模型的输入可以是患者的心电图数据，输出可以是患者的心脏疾病类型识别结果，客户端可以是多家医院的设备，各自在本地拥有多个患者的心电图数据，服务端是独立于多家医院的第三方服务器。服务端与各个客户端按照上述实施例中联邦学习的过程进行待训练模型的训练，得到最终用于识别患者的心脏疾病类型。各家医院可采用训练得到的目标模型来对目标患者的心脏疾病类型进行识别。具体地，客户端将目标患者的心电图数据输入目标模型中，目标模型输出得到该目标患者的心脏疾病类型识别结果。由于服务端和客户端在联合训练的过程中，采用上述实施例中基于半监督的横向联邦学习优化方案对用于心脏疾病类型识别的模型进行训练，使得只在服务端存在少量的有标签样本，客户端没有标签数据时，也能够进行横向联邦学习，训练得到心脏疾病类型识别效果好的模型，从而降低了人工采集数据和人工打标注的人力物力，减少了心脏疾病类型识别模型的训练成本，更能适应缺乏标签数据的现实场景，提高了无标签数据的使用率。

进一步地，目标模型还可用于对图像进行人脸检测。当训练任务是训练一个用于对图像进行人脸检测的目标模型，即检测图像中是否有人脸时，各个客户端的无标签样本可以是包括图像，服务端的有标签样本可以包括图像和指示该图像中是否有人脸的标签。服务端进行有监督训练可以是将有标签样本中的图像输入第二模型，第二模型输出图像中是否有人脸的预测结果，服务端根据预测结果与有标签样本中的标签计算有监督损失函数，以及第二模型的模型参数对应的梯度，基于梯度更新第二模型的模型参数。客户端进行自监督训练可以是将无标签样本中的图像进行数据扩增，得到扩增样本，再采用扩增样本和原始无标签样本对第一模型进行自监督训练。

在通过联邦学习得到目标模型后，客户端可以使用目标模型对图像进行人脸检测。具体地，客户端将待检测图像输入目标模型，由目标模型输出待检测图像中是否有人脸的检测结果。通过采用上述实施例中基于半监督的横向联邦学习优化方案对用于人脸检测的模型进行训练，使得只在服务端存在少量的有标签样本，客户端没有标签数据时，也能够进行横向联邦学习，训练得到人脸检测准确率高的模型，从而降低了人工采集数据和人工打标注的人力物力。

需要说明的是，本发明实施例涉及的目标模型还可以应用于其他预测或分类任务，如还可以应用于绩效等级预测、论文价值评价等。

进一步地，当所述无标签样本包括图像时，所述步骤S201包括：

步骤S2011，对本地的无标签样本的图像进行旋转操作或缩放操作获得增广样本。

当无标签样本包括图像时，客户端可以对无标签样本中的图像进行旋转操作或缩放操作获得增广样本。旋转操作可以预先设置旋转的角度，缩放操作可以预先设置缩放的比例。

进一步地，基于上述第一实施，提出本发明基于半监督的横向联邦学习优化方法第二实施例，在本实施例中，当一所述无标签样本对应多个所述增广样本时，所述步骤S203包括：

步骤S2031，基于多个所述增广样本对应的多个所述第二预测标签获取一个目标预测标签；

在本实施例中，当一个无标签样本对应多个增广样本时，也即当客户端对一个无标签样本通过不同的增广方式，获得多个增广样本时，客户端将多个增广样本分别输入第一模型，得到了多个第二预测标签。客户端可以基于这多个第二预测标签获取一个目标预测标签。根据多个第二预测标签获取一个目标预测标签的方法有多种，例如，第二预测标签是概率形式时，将多个第二预测标签直接计算平均值，得到目标预测标签，或从中随机选取一个作为目标预测标签，或从中随机选取多个作为目标预测标签，等等方法。

进一步地，客户端可以是从多个增广样本对应的多个第二预测标签中获取置信度最高的作为目标预测标签。其中，置信度即上面所说的概率。或者是从多个第二预测标签中选择几个置信度较高的计算平均值，将平均值作为目标预测标签。还可以是统计多个第二预测标签的概率分布，根据概率分布结果计算一个平均值，将平均值作为目标预测标签。

步骤S2032，基于所述目标预测标签和所述第二预测标签构建所述第一模型的自监督损失函数。

客户端基于目标预测标签和第二预测标签构建第一模型的自监督损失函数。参照图5，为增广样本为多个时的自监督训练过程示意图。

在本实施例中，为避免仅采用一次数据增广获得的增广样本因为随机性大而导致自监督训练的稳定性差或精准度低，通过获取多个增广样本，再基于多个增广样本获得一个目标预测标签，提升了整体自监督训练的稳定性和精准度。

进一步地，基于上述第一和第二实施例，提出本发明基于半监督的横向联邦学习优化方法第三实施例，在本实施例中，所述基于半监督的横向联邦学习优化方法应用于应用于参与横向联邦学习的服务端，客户端拥有第一模型，服务端拥有与第一模型结构相同的第二模型，本发明实施例涉及的服务端和客户端可以是智能手机、个人计算机和服务器等设备。在本实施例中，基于半监督的横向联邦学习优化方法包括以下步骤：

步骤A10，将本次全局模型更新的全局模型参数下发至各所述客户端，以供各所述客户端基于所述全局模型参数更新所述第一模型后，基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数并返回；

在本实施例中，服务端与各客户端可通过握手、身份认证预先建立通信连接，并确定本次联邦学习待训练的模型，如神经网络模型。可以由服务端将确定的待训练的模型下发至各个客户端，那么服务端和客户端都有待训练的模型，也即，服务端和客户端中有相同结构的待训练模型。将客户端的待训练模型称为第一模型，服务端的待训练模型称为第二模型，以示区别。各个客户端本地拥有用于训练该待训练模型的无标签样本，服务端则拥有有标签样本。需要说明的是，无标签样本和有标签样本统称为训练样本，一条无标签样本包括一条数据，一条有标签样本包括一条数据以及该数据对应的标签。无标签样本的数量可以远远大于有标签样本的数量，为节省人工打标签的人力物力。根据具体的训练任务不同，可以采用不同的训练样本。例如，训练任务是采用神经网络模型对图像进行人脸检测，则训练样本是图像，有标签样本还包括指示图像中是否有人脸的标签。又如，训练任务是采用决策树模型进行用户购买意向的预测，则训练样本是用户数据，有标签样本还包括用户的购买意向标签。

在一次全局模型更新中，服务端将本次全局模型更新的全局模型参数下发给各个客户端。需要说明的是，若是第一次全局模型更新，服务端可以采用随机的模型参数来初始化第二模型，也可以采用开发人员根据经验设置的模型参数来初始化第二模型；随后，服务端可以直接将初始化的第二模型的模型参数作为本次全局模型更新的全局模型参数；也可以采用有标签样本对初始化的第二模型进行有监督训练，经过一轮或多轮迭代后，更新第二模型的模型参数，将更新后的模型参数作为本次全局模型更新的全局模型参数。通过在联邦学习开始时，服务端先采用有标签样本对第二模型进行有监督训练，给后续各个客户端进行自监督训练一个初始方向，缩短训练时间，即有监督训练后得到的第二模型已经学习到了有标签样本的一些特征，从而使得客户端的自监督训练过程中预测结果相对准确，进而缩短自监督训练的次数。并且，现实场景中往往在服务端拥有一些有标签样本，在现有的横向联邦学习训练模式中，服务端的有标签样本无法发挥作用，而在本实施例提供的方案中，服务端的有标签样本得以发挥作用，从而避免了人力资源的浪费。

客户端接收服务端下发的本次全局模型更新的全局模型参数。客户端在获取到全局模型参数后，先采用全局模型参数更新本地的第一模型，也即，各个客户端更新后的第一模型与服务端的第二模型的模型参数保持一致。之后，客户端基于本地的无标签样本和无标签样本的增广样本对第一模型进行自监督训练，得到本地模型参数。其中，客户端可以分别对各条无标签样本进行数据增广，得到各条无标签样本对应的增广样本，然后采用无标签样本和对应的增广样本对第一模型进行自监督训练，得到本地模型参数。自监督训练可以是进行一轮或多轮的模型参数更新，将最后一轮更新的模型参数作为本地模型参数。本地模型参数是相对于全局模型参数而言的，各个客户端采用分别采用本地的无标签样本对本地的第一模型进行参数更新，本地训练开始时各个客户端的模型参数是一致的，训练结束后各个第一模型的模型参数将会有所差异，也即，各个客户端得到的本地模型参数会有所差异，这个差异正是源于各个客户端拥有不同用户的无标签样本。

客户端将获得的本地模型参数返回给服务端。

步骤A20，根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端；

服务端接收各个客户端发送的本地模型参数，并根据有标签样本和各个本地模型参数对第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数。

通过服务端在每次客户端进行本地自监督训练之后，采用有样本标签对各个客户端自监督训练的结果进行调整，使得在整个联邦学习的过程中，穿插有标签样本对模型预测或分类效果的指导，进而避免客户端自监督训练的结果出现偏差，缩短模型训练的时间，也提高训练得到的目标模型的性能，最重要地是发挥无标签样本的作用的同时，避免模型性能出现偏差。

步骤A30，循环直到满足预设条件时停止训练得到目标模型。

循环上述步骤，直到服务端检测到满足预设条件时停止训练，得到目标模型。其中，预设条件可以是预先根据需要进行设置，如检测到第二模型收敛，或检测到循环次数达到一个预设的次数，或检测到训练时间达到一个预设的时间等。服务端停止训练后，最终确定了模型参数的第二模型作为目标模型。服务端也可以在检测满足预设条件时，向客户端发送一个全局模型参数，以及发送停止训练指令，客户端在接收到停止训练指令和全局模型参数后，采用全局模型参数更新第一模型，然后停止训练，即不再进行自监督训练。客户端将最后确定了模型参数的第一模型作为目标模型，后续可以使用目标模型来完成预测或分类任务。

在本实施例中，服务端将全局模型参数下发至各所述客户端，供各客户端基于全局模型参数更新第一模型后，基于本地的无标签样本和无标签样本的增广样本对第一模型进行自监督训练，得到本地模型参数并返回，充分发挥了客户端无标签样本的作用，使得客户端在没有标签数据时也可以参与横向联邦学习；服务端根据有标签样本和从各客户端接收到的本地模型参数对第二模型进行有监督训练，得到全局模型参数并下发给各客户端，使得服务端的有标签样本得到利用，避免了人力资源的浪费；也通过在客户端的自监督训练中穿插服务端的有监督训练，为客户端的自监督训练提供指导方向，避免客户端的自监督训练结果出现偏差；使得自监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用自监督训练学习到的大量的无标签样本的特征，从而实现只在服务器端有少量有标签样本，在客户端完全没有标签数据时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

进一步地，所述步骤A20包括：

步骤A201，接收各所述客户端发送的本地模型参数；

步骤A202，对各所述本地模型参数进行融合，得到融合模型参数；

步骤A203，基于所述融合模型参数更新所述第二模型后，采用有标签样本对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端。

服务端接收各个客户端发送的本地模型参数，可以先对各个本地模型参数进行融合，得到融合模型参数，融合可以是对各个本地模型参数进行加权平均；再采用融合模型参数更新第二模型，更新后，采用有标签样本对第二模型进行有监督训练，一轮或多轮更新模型参数后，将最终更新的模型参数作为新一次全局模型更新的全局模型参数。服务端将新一次的全局模型参数下发给各个客户端，以进入新一次的全局模型更新。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如下所述的基于半监督的横向联邦学习优化方法的步骤。

本发明基于半监督的横向联邦学习优化设备和计算机可读存储介质的各实施例，均可参照本发明基于半监督的横向联邦学习优化方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于半监督的横向联邦学习优化方法，其特征在于，应用于参与横向联邦学习的客户端，所述客户端拥有第一模型，参与横向联邦学习的服务端拥有与所述第一模型结构相同的第二模型，所述方法包括：

接收服务端下发的本次全局模型更新的全局模型参数；

循环直到满足预设条件时停止训练得到目标模型。

2.如权利要求1所述的基于半监督的横向联邦学习优化方法，其特征在于，所述基于本地的无标签样本和所述无标签样本的增广样本对所述第一模型进行自监督训练，得到本地模型参数的步骤包括：

对本地的无标签样本进行数据增广获得增广样本；

基于所述自监督损失函数计算得到本地模型参数。

3.如权利要求2所述的基于半监督的横向联邦学习优化方法，其特征在于，当一个所述无标签样本对应多个所述增广样本时，所述基于所述第一预测标签和所述第二预测标签构建所述第一模型的自监督损失函数的步骤包括：

4.如权利要求3所述的基于半监督的横向联邦学习优化方法，其特征在于，所述基于多个所述增广样本对应的多个所述第二预测标签获取一个目标预测标签的步骤包括：

5.如权利要求1至4中任一项所述的基于半监督的横向联邦学习优化方法，其特征在于，所述目标模型用于对识别患者的心脏疾病类型，

6.如权利要求2至3中任一项所述的基于半监督的横向联邦学习优化方法，其特征在于，当所述无标签样本包括图像时，所述对本地的无标签样本进行数据增广获得增广样本的步骤包括：

7.一种基于半监督的横向联邦学习优化方法，其特征在于，应用于参与横向联邦学习的服务端，所述服务端拥有第二模型，参与横向联邦学习的客户端拥有与所述第二模型结构相同的第一模型，所述方法包括：

循环直到满足预设条件时停止训练得到目标模型。

8.如权利要求7所述的基于半监督的横向联邦学习优化方法，其特征在于，所述根据有标签样本和从各所述客户端接收到的所述本地模型参数对所述第二模型进行有监督训练，得到新一次全局模型更新的全局模型参数并下发给各所述客户端的步骤包括：

接收各所述客户端发送的本地模型参数；

对各所述本地模型参数进行融合，得到融合模型参数；

9.一种基于半监督的横向联邦学习优化设备，其特征在于，所述基于半监督的横向联邦学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于半监督的横向联邦学习优化方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如权利要求1至8中任一项所述的基于半监督的横向联邦学习优化方法的步骤。