CN111310938A

CN111310938A - 基于半监督的横向联邦学习优化方法、设备及存储介质

Info

Publication number: CN111310938A
Application number: CN202010085131.XA
Authority: CN
Inventors: 魏锡光; 李�权; 鞠策; 曹祥; 刘洋; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-19

Abstract

本发明公开了一种基于半监督的横向联邦学习优化方法、设备及存储介质，所述方法包括：接收服务端下发的本次无标签全局模型更新的全局模型参数；根据全局模型参数和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数；将本地模型参数发送给服务端，以供服务端根据各客户端发送的本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；循环直到满足预设条件时停止训练得到目标模型。本发明实现在只有部分客户端拥有少量有标签样本时，也能够进行横向联邦学习，从而适应缺乏标签数据的现实场景，节省人力成本。

Description

基于半监督的横向联邦学习优化方法、设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于半监督的横向联邦学习优化方法、设备及存储介质。

背景技术

随着人工智能的发展，人们为解决数据孤岛的问题，提出了“联邦学习”的概念，使得联邦双方在不用给出己方数据的情况下，也可进行模型训练得到模型参数，并且可以避免数据隐私泄露的问题。横向联邦学习，也称为特征对齐的联邦学习(feature-alignedfederated learning)，是在各个客户端的数据特征重叠较多(即数据特征是对齐的)，而用户重叠较少的情况下，取出客户端数据特征相同而用户不完全相同的那部分数据进行联合机器学习。

目前的横向联邦学习通常假设客户端有大量的有标签数据，才能够保证使用横向联邦学习的训练模式进行模型训练，但是实际情况通常是客户端有少量甚至是没有标签数据，事实上也很难要求客户端对数据进行标注，因而很难使用现有的横向联邦学习训练模式获得优质的模型。

发明内容

本发明的主要目的在于提供一种基于半监督的横向联邦学习优化方法、设备及存储介质，旨在解决现有客户端中有少量标签数据甚至部分客户端没有标签数据的情况下，无法使用横向联邦学习来训练模型的问题。

为实现上述目的，本发明提供一种基于半监督的横向联邦学习优化方法，应用于参与横向联邦学习的客户端，客户端本地的训练样本包括无标签样本，客户端与参与横向联邦学习的服务端通信连接，所述方法包括：

接收服务端下发的本次无标签全局模型更新的全局模型参数；

根据所述全局模型参数和所述训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数；

将所述本地模型参数发送给服务端，以供服务端根据各客户端发送的所述本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；

循环直到满足预设条件时停止训练得到目标模型。

可选地，所述根据所述全局模型参数和所述训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数的步骤包括：

采用所述全局模型参数更新本地的待训练模型后，将所述训练样本输入所述待训练模型得到预测标签；

获取所述训练样本的伪标签；

基于所述预测标签和所述伪标签计算伪监督损失函数；

根据所述伪监督损失函数计算得到本地模型参数。

可选地，所述获取所述训练样本的伪标签的步骤包括：

根据各所述训练样本之间的相似度计算所述训练样本的伪标签。

可选地，当所述训练样本包括有标签样本时，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

采用所述待训练模型中的特征抽取层提取所述训练样本的特征；

根据所述训练样本的特征计算所述训练样本与所述有标签样本之间的相似度；

采用所述训练样本与各所述有标签样本之间的相似度做为权重，对各所述有标签样本的真实标签进行加权平均，得到所述训练样本的伪标签。

可选地，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

根据所述训练样本的特征计算各所述训练样本两两之间的相似度；

采用所述训练样本与其他训练样本之间的相似度作为权重，对所述其他训练样本的预测标签进行加权平均，得到所述训练样本的伪标签。

可选地，所述目标模型用于识别患者的心脏疾病类型，所述循环直到满足预设条件时停止训练得到目标模型的步骤之后，还包括：

将目标患者的心电图数据输入所述目标模型得到所述目标患者的心脏疾病类型识别结果。

为实现上述目的，本发明还提供一种基于半监督的横向联邦学习优化方法，应用于参与横向联邦学习的服务端，服务端与参与横向联邦学习的各客户端通信连接，各客户端本地的训练样本包括无标签样本，部分客户端本地的训练样本包括有标签样本，所述方法包括：

将本次无标签全局模型更新的第一全局模型参数下发至各客户端，以供各客户端根据所述第一全局模型参数和所述训练样本的伪标签对各自本地的待训练模型进行伪监督训练，得到第一本地模型参数并返回；

接收各客户端返回的所述第一本地模型参数，并根据所述第一本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数并下发给各客户端；

循环直到满足预设条件时停止训练得到目标模型。

可选地，所述根据所述第一本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数并下发给各客户端的步骤包括：

对各所述第一本地模型参数进行融合，得到新一次的有标签全局模型更新的第二全局模型参数；

将所述第二全局模型参数发送给拥有有标签样本的各客户端，以供各客户端采用有标签样本对各自本地的待训练模型进行有监督训练，得到第二本地模型参数并返回；

接收各客户端返回的所述第二本地模型参数，并对各所述第二本地模型参数进行融合，将融合结果作为新一次无标签全局模型更新的第一全局模型参数下发给各客户端。

为实现上述目的，本发明还提供一种基于半监督的横向联邦学习优化设备，所述基于半监督的横向联邦学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被所述处理器执行时实现如上所述的基于半监督的横向联邦学习优化方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如上所述的基于半监督的横向联邦学习优化方法的步骤。

本发明中，客户端接收服务端下发全局模型参数，基于全局模型参数更新和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数，使得客户端在没有标签数据时也可以参与横向联邦学习，充分发挥了无标签样本的作用；客户端将本地模型参数发送给服务端，供服务端根据各客户端发送的本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；实现了通过在客户端的伪监督训练中穿插拥有有标签样本的客户端的有监督训练，为客户端的伪监督训练提供指导方向，避免客户端的伪监督训练结果出现偏差；使得伪监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用伪监督训练学习到的大量的无标签样本的特征，从而实现在只有部分客户端拥有少量有标签样本时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于半监督的横向联邦学习优化方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种训练样本分布示意图；

图4为本发明实施例涉及的一种有监督训练过程示意图；

图5为本发明实施例涉及的一种伪监督训练过程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例基于半监督的横向联邦学习优化设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该基于半监督的横向联邦学习优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对基于半监督的横向联邦学习优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于半监督的横向联邦学习优化程序。

当图1中所示的设备是参与横向联邦学习的客户端时，用户接口1003主要用于与用户端进行数据通信；网络接口1004主要用于与参与横向联邦学习的服务端建立通信连接；而处理器1001可以用于调用存储器1005中存储的基于半监督的横向联邦学习优化程序，并执行以下操作：

应用于参与横向联邦学习的客户端，客户端本地的训练样本包括无标签样本，客户端与参与横向联邦学习的服务端通信连接，所述方法包括：

循环直到满足预设条件时停止训练得到目标模型。

进一步地，所述根据所述全局模型参数和所述训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数的步骤包括：

获取所述训练样本的伪标签；

基于所述预测标签和所述伪标签计算伪监督损失函数；

根据所述伪监督损失函数计算得到本地模型参数。

进一步地，所述获取所述训练样本的伪标签的步骤包括：

进一步地，，当所述训练样本包括有标签样本时，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

进一步地，，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

进一步地，所述目标模型用于识别患者的心脏疾病类型，所述循环直到满足预设条件时停止训练得到目标模型的步骤之后，还包括：

当图1中所示的设备是参与横向联邦学习的服务端时，用户接口1003主要用于与用户端进行数据通信；网络接口1004主要用于与参与横向联邦学习的客户端建立通信连接；而处理器1001可以用于调用存储器1005中存储的基于半监督的横向联邦学习优化程序，并执行以下操作：

循环直到满足预设条件时停止训练得到目标模型。

进一步地，，所述根据所述第一本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数并下发给各客户端的步骤包括：

基于上述的结构，提出基于半监督的横向联邦学习优化方法的各个实施例。

参照图2，图2为本发明基于半监督的横向联邦学习优化方法第一实施例的流程示意图。

本发明实施例提供了基于半监督的横向联邦学习优化方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明基于半监督的横向联邦学习优化方法第一实施例应用于参与横向联邦学习的客户端，客户端本地的训练样本包括无标签样本，客户端与参与横向联邦学习的服务端通信连接，本发明实施例涉及的服务端和客户端可以是智能手机、个人计算机和服务器等设备。在本实施例中，所述基于半监督的横向联邦学习优化方法包括：

步骤S10，接收服务端下发的本次无标签全局模型更新的全局模型参数；

在本实施例中，服务端与各客户端可通过握手、身份认证预先建立通信连接，并确定本次联邦学习待训练的模型，如神经网络模型。可以由服务端将确定的待训练的模型下发至各个客户端，那么各个客户端本地拥有相同结构的待训练模型。如图3所示，各个客户端本地拥有用于训练该待训练模型的训练样本，训练样本包括无标签样本，部分客户端的训练样本还包括少量的有标签样本。需要说明的是，无标签样本和有标签样本统称为训练样本，一条无标签样本包括一条数据，一条有标签样本包括一条数据以及该数据对应的标签。无标签样本的数量可以远远大于有标签样本的数量，为节省人工打标签的人力物力。根据具体的训练任务不同，可以采用不同的训练样本。例如，训练任务是采用神经网络模型对图像进行人脸检测，则训练样本是图像，有标签样本还包括指示图像中是否有人脸的标签。又如，训练任务是采用决策树模型进行用户购买意向的预测，则训练样本是用户数据，有标签样本还包括用户的购买意向标签。

在横向联邦学习中，服务端与客户端通过相互配合，对待训练模型进行多次全局模型更新，最后得到符合质量要求的目标模型。模型更新是指更新待训练模型的模型参数，如待训练模型是神经网络模型时，模型参数是神经元之间的连接权重值，经过多次全局模型更新，确定最终的模型参数，从而就确定了目标模型。需要说明的是，服务端联合客户端对待训练模型进行模型更新的过程叫做全局模型更新，将在全局模型更新中客户端采用有标签样本进行训练的情况称为有标签全局模型更新，将全局模型更新中客户端采用无标签样本进行训练的情况称为无标签全局模型更新，以示区分。

在一次无标签全局模型更新中，客户端接收服务端下发的本次无标签全局模型更新的全局模型参数。需要说明的是，若是第一次全局模型更新，服务端可以采用随机的模型参数来初始化待训练模型，也可以采用开发人员根据经验设置的模型参数来初始化待训练模型；随后，服务端可以直接将初始化的待训练模型的模型参数作为本次无标签全局模型更新的全局模型参数下发；服务端也可以联合拥有用标签样本的客户端进行横向联邦学习，即进行有标签全局模型更新后，将更新后的待训练模型的模型参数作为本次无标签全局模型更新的全局模型参数下发。通过在联邦学习开始时，服务端先联合拥有有标签样本的客户端对待训练模型进行有标签全局模型更新，给后续各个客户端进行伪监督训练一个初始方向，缩短训练时间，即有标签全局模型更新后得到的待训练模型已经学习到了有标签样本的一些特征，从而使得客户端的伪监督训练过程中预测结果相对准确，进而缩短无标签全局模型更新的次数，减少训练时间，同时也提高训练得到的目标模型的质量和性能。

步骤S20，根据所述全局模型参数和所述训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数；

客户端在获取到全局模型参数后，根据全局模型参数和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数。其中，伪监督训练的过程类似与有监督训练，但由于采用的不是训练样本的真实标签，而是采用的训练样本的伪标签，因此采用伪监督训练来区分有监督训练。训练样本中若包括有标签样本，则客户端可以将有标签样本去除标签转换为无标签样本，将所有训练样本当做无标签样本来获取其伪标签。伪标签虽然不是真实标签，但是尽量接近于真实标签。伪标签的获取方式有多种，例如，对于拥有部分有标签样本的客户端，可以通过利用各训练样本与各有标签样本之间的相似度，来为各训练样本打上一个伪标签。

本地模型参数是相对于全局模型参数而言的，各个客户端分别采用本地的训练样本对本地的待训练模型进行参数更新，本地训练开始时各个客户端的模型参数是一致的，训练结束后各个客户端的待训练模型的模型参数将会有所差异，也即，各个客户端得到的本地模型参数会有所差异，这个差异正是源于各个客户端拥有不同用户的训练样本。

进一步地，步骤S20包括：

步骤S201，采用所述全局模型参数更新本地的待训练模型后，将所述训练样本输入所述待训练模型得到预测标签；

步骤S202，获取所述训练样本的伪标签；

步骤S203，基于所述预测标签和所述伪标签计算伪监督损失函数；

步骤S204，根据所述伪监督损失函数计算得到本地模型参数。

客户端采用全局模型参数更新本地的待训练模型后，将训练样本输入待训练模型得到预测标签。客户端获取训练样本的伪标签，根据预测标签和伪标签计算伪监督损失函数。其中，伪监督损失函数的计算方法可以采用常规的损失函数计算方法，与有监督损失函数的区别在于伪监督损失函数主要表现预测标签和伪标签之间的误差。具体地，伪标签并不是训练样本的真实标签，但是此时可以将伪标签作为训练样本的真实标签使用，构建损失函数，未区别与有监督损失函数，采用伪监督损失函数来描述。客户端根据伪监督损失函数计算待训练模型的模型参数的梯度，根据梯度来更新模型参数，经过一轮或多轮的更新后，得到最终更新的模型参数作为本地模型参数。

步骤S30，将所述本地模型参数发送给服务端，以供服务端根据各客户端发送的所述本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；

客户端将本地模型参数发送给服务端。服务端接收各个客户端发送的本地模型参数，并根据各个客户端发送的本地模型参数，联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数。具体地，服务端可以先对各个本地模型参数进行融合，得到融合模型参数；再将融合模型参数作为新一次的有标签全局模型更新的全局模型参数下发给拥有有标签样本的各个客户端；各个客户端采用接收到的全局模型参数更新本地的待训练模型后，采用本地的有标签样本对待训练模型进行有监督训练，得到本地模型参数，将本地模型参数发送给服务端；服务端接收拥有有标签样本的各个客户端发送的本地模型参数，并进行融合，将融合结果作为新一次无标签全局模型更新的全局模型参数；服务端将新一次的无标签全局模型更新的全局模型参数下发给各个客户端，以进入新一次的无标签全局模型更新。有监督训练可参照图4，客户端端将有标签样本输入待训练模型，得到预测标签，再采用真实标签和预测标签计算有监督损失函数，然后采用有监督损失函数更新待训练模型的模型参数。

通过服务端在每次客户端采用本地的无标签样本进行无标签模型更新之后，联合拥有有标签样本的客户端采用有样本标签对各个客户端无标签模型更新的结果进行调整，使得在整个联邦学习的过程中，穿插有标签样本对模型预测或分类效果的指导，进而避免客户端采用无标签样本进行训练的结果出现偏差，缩短模型训练的时间，也提高训练得到的目标模型的性能，最重要地是发挥无标签样本的作用的同时，避免模型性能出现偏差。

步骤S40，循环直到满足预设条件时停止训练得到目标模型。

循环上述步骤，直到客户端检测到满足预设条件时停止训练，得到目标模型。其中，预设条件可以是预先根据需要进行设置，如检测到待训练模型收敛，或检测到循环次数达到一个预设的次数，或检测到训练时间达到一个预设的时间，或者是接收到服务端发送的停止训练指令等。服务端也可以在检测到待训练模型收敛时，向客户端发送一个全局模型参数，以及发送停止训练指令，客户端在接收到停止训练指令和全局模型参数后，采用全局模型参数更新本地的待训练模型，然后停止训练。客户端将最后确定了模型参数的待训练模型作为目标模型，后续可以使用目标模型来完成预测或分类任务。

需要说明的是，服务端可以联合拥有有标签样本的客户端进行多次有标签全局模型更新后，再联合各个客户端进行多次无标签全局模型更新，即，不一定是至少一次有标签全局模型更新后，至少一次无标签全局模型更新，这样交替进行，直到停止训练。

在本实施例中，客户端接收服务端下发全局模型参数，基于全局模型参数更新和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数，使得客户端在没有标签数据时也可以参与横向联邦学习，充分发挥了无标签样本的作用；客户端将本地模型参数发送给服务端，供服务端根据各客户端发送的本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；实现了通过在客户端的伪监督训练中穿插拥有有标签样本的客户端的有监督训练，为客户端的伪监督训练提供指导方向，避免客户端的伪监督训练结果出现偏差；使得伪监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用伪监督训练学习到的大量的无标签样本的特征，从而实现在只有部分客户端拥有少量有标签样本时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

进一步地，在医疗场景中，需要根据患者的心电图来识别患者的心脏疾病类型，因此可以训练一个识别模型来对心电图进行识别。但是医生很少有时间对数据进行做标注，而非医生又不懂如何标注，因此，导致缺乏有标签的样本，从而导致训练得到的识别模型识别效果不佳，无标签数据也无法得到利用。为解决该问题，在本实施例中，所述目标模型可以用于识别患者的心脏疾病类型，所述步骤S40之后，还包括：

步骤S50，将目标患者的心电图数据输入所述目标模型得到所述目标患者的心脏疾病类型识别结果。

目标模型可用于识别患者的心脏疾病类型，目标模型的输入可以是患者的心电图数据，输出可以是患者的心脏疾病类型识别结果，客户端可以是多家医院的设备，各自在本地拥有多个患者的心电图数据，服务端是独立于多家医院的第三方服务器。服务端与各个客户端按照上述实施例中联邦学习的过程进行待训练模型的训练，得到最终用于识别患者的心脏疾病类型。各家医院可采用训练得到的目标模型来对目标患者的心脏疾病类型进行识别。具体地，客户端将目标患者的心电图数据输入目标模型中，目标模型输出得到该目标患者的心脏疾病类型识别结果。由于服务端和客户端在联合训练的过程中，采用无标签全局模型更新和有标签全局模型更新交替的方式进行训练，使得训练过程中，只在部分客户端拥有少量的有标签样本，再加上大量的无标签样本即可训练得到识别效果好的目标模型，从而减少了心脏疾病类型识别模型的训练成本，更能适应缺乏标签数据的现实场景，提高了无标签数据的使用率。

进一步地，目标模型可以是用于预测银行的信贷风险，目标模型的输入可以是用户的特征数据，输出可以是对用户的风险评分，客户端可以是多家银行的设备，各自在本地拥有多个用户的样本数据，服务端是独立于多家银行的第三方服务器。服务端与各个客户端按照上述实施例中联邦学习的过程进行待训练模型的训练，得到最终用于信贷风险预测的目标模型。各家银行可采用训练得到的目标模型来对目标用户的信贷风险进行预测，将目标用户的特征数据输入目标模型中，得到该目标用户的风险评分。由于服务端和客户端在联合训练的过程中，采用无标签全局模型更新和有标签全局模型更新交替的方式进行训练，使得训练过程中，只在部分客户端拥有少量的有标签样本，再加上大量的无标签样本即可训练得到风险预测效果高的目标模型，从而减少了信贷风险预测的模型的训练成本，更能适应缺乏标签数据的现实场景。

需要说明的是，目标模型还可以是用于除信贷风险预估以外其他的应用场景，如还可以应用于绩效等级预测，论文价值评价等，本发明实施例在此不做限定。

进一步地，基于上述第一实施，提出本发明基于半监督的横向联邦学习优化方法第二实施例，在本实施例中，所述步骤S202包括：

步骤S2021，根据各所述训练样本之间的相似度计算所述训练样本的伪标签。

在本实施例中，参照图5，为本实施例涉及的一种伪监督训练过程示意图。

客户端获取训练样本的伪标签的方式可以是根据训练样本之间的相似度来计算各个训练样本的伪标签。具体地，当客户端的训练样本包括有标签样本时，客户端可以分别计算每个训练样本(包括无标签样本和有标签样本)和各个有标签样本两两之间的相似度；对于一个训练样本，客户端采用该训练样本与各个有标签样本之间的相似度，以及各个有标签样本的真实标签来计算该训练样本的伪标签；采用同样的方法，计算得到每个训练样本的伪标签。根据一条样本与有标签样本的相似度高，则该样本的真实标签与该有标签样本的真实标签越接近的原理，为样本打上与它相似度高的有标签样本类似或相同的标签作为该样本的伪标签，从而将该样本扩充为了一个有标签样本，使得无标签样本也能参与监督训练。

当客户端的训练样本不包括有标签样本时，客户端可以计算各个训练样本两两之间的相似度；对于一个训练样本，客户端采用该训练样本与其他训练样本之间的相似度，以及该训练样本与其他训练样本来计算该训练样本的伪标签，其他训练样本可以是该训练样本以外的所有训练样本，或从该训练样本以外的所有训练样本中随机采样的部分训练样本；采用同样的方法，计算得到每个训练样本的伪标签。对于没有标签样本的客户端，采用一条无标签样本与其他无标签样本之间相似度越高，则该无标签样本与其他无标签样本的预测标签也越接近的原理，利用其他无标签样本的预测标签为该无标签样本打上伪标签，从而将该无标签样本扩充为了一个有标签样本，使得无标签样本也能参与监督训练。

需要说明的是，具体计算样本间相似度的方式有多种，如可将两样本的数据作为向量，采用传统的向量间相似度衡量方案，也可以计算两个样本之间在特征空间的相似度。

进一步地，当所述训练样本包括有标签样本时，所述步骤S2021包括：

步骤a，采用所述待训练模型中的特征抽取层提取所述训练样本的特征；

当客户端的训练样本包括有标签样本时，客户端可待训练模型中的特征抽取层提取训练样本的特征。具体地，待训练模型可以包括特征抽取层和预测层，特征抽取层用于提取样本数据的特征，预测层用于根据特征完成预测任务，如果模型训练任务是用于分类任务，则预测层用于根据特征完成分类任务。特征抽取层对输入的数据进行特征提取，得到向量形式的特征。

步骤b，根据所述训练样本的特征计算所述训练样本与所述有标签样本之间的相似度；

客户端根据训练样本的特征计算训练样本与有标签样本之间的相似度。也即，对每一个训练样本(每一个有标签样本和每一个无标签样本)，采用该训练样本的特征，分别与每个有标签样本的特征计算相似度，即得到该训练样本分别与每个有标签样本的相似度。具体地，可采用传统的向量件相似度衡量方案来计算两个特征向量之间的相似度，如采用余弦相似性、欧几里得距离等。

步骤c，采用所述训练样本与各所述有标签样本之间的相似度做为权重，对各所述有标签样本的真实标签进行加权平均，得到所述训练样本的伪标签。

客户端在计算得到一个训练样本与各个有标签样本的相似度后，可以采用该样本与各个有标签样本的相似度作为权重，对各个有标签样本的真实标签进行加权平均，得到该训练样本对应的伪标签。采用同样的方法，计算得到每个训练样本的伪标签。例如，有三个训练样本(U1、U2、U3)，其中U1和U2是有标签样本，标签分别是Y1、Y2，U3是无标签样本，计算得到U3与U1、U2的相似度分别为P1、P2，则U3的伪标签是：(Y1*P1+Y2*P2)/(P1+P2)，采用同样的方法，计算得到U1和U2的伪标签。

进一步地，所述步骤S2021包括：

步骤d，采用所述待训练模型中的特征抽取层提取所述训练样本的特征；

当客户端的有标签样本极少，或者是没有有标签样本时，客户端可待训练模型中的特征抽取层提取训练样本的特征。具体地，待训练模型可以包括特征抽取层和预测层，特征抽取层用于提取样本数据的特征，预测层用于根据特征完成预测任务，如果模型训练任务是用于分类任务，则预测层用于根据特征完成分类任务。特征抽取层对输入的数据进行特征提取，得到向量形式的特征。

步骤e，根据所述训练样本的特征计算各所述训练样本两两之间的相似度；

客户端根据训练样本的特征计算各训练样本两两之间的相似度。也即，对每一个训练样本，采用该训练样本的特征，分别与其他其他训练样本的特征计算相似度，即得到该训练样本分别与其他训练样本的相似度。具体地，可采用传统的向量件相似度衡量方案来计算两个特征向量之间的相似度，如采用余弦相似性、欧几里得距离等。

步骤f，采用所述训练样本与其他训练样本之间的相似度作为权重，对所述其他训练样本的预测标签进行加权平均，得到所述训练样本的伪标签。

客户端在计算得到一个训练样本与其他训练样本的相似度后，可以采用该样本与其他训练样本的相似度作为权重，对各个其他训练样本的预测标签进行加权平均，得到该训练样本对应的伪标签。采用同样的方法，计算得到每个训练样本的伪标签。需要说明的是，其他训练样本可以是从除该训练样本以外的所有训练样本中随机采样的部分训练样本，例如，有三个训练样本(U1、U2、U3)，对应的预测标签分别是Y1、Y2、Y3，对于其中的U3，计算得到U3与U1、U2的相似度分别为P1、P2，则U3的伪标签是：(Y1*P1+Y2*P2)/(P1+P2)，采用同样的方法，计算得到U1和U2的伪标签。

在本实施例中，通过根据训练样本之间的相似度为训练样本打上伪标签，使得各个训练样本都获取一个伪标签，从而使得客户端能够利用包括无标签样本和有标签样本的所有训练样本来对待训练模型进行伪监督训练，从而解决了没有有标签样本或仅拥有少量有标签样本的客户端不能够参与横向联邦学习的问题，节省了人工对数据进行标注的人力物力，从而使得横向联邦学习能够应用到更广的领域。

进一步地，基于上述第一和第二实施例，提出本发明基于半监督的横向联邦学习优化方法第三实施例，在本实施例中，所述基于半监督的横向联邦学习优化方法应用于参与横向联邦学习的服务端，服务端与参与横向联邦学习的客户端通信连接，各客户端本地的训练样本包括无标签样本，本发明实施例涉及的服务端和客户端可以是智能手机、个人计算机和服务器等设备。在本实施例中，基于半监督的横向联邦学习优化方法包括以下步骤：

步骤A10，将本次无标签全局模型更新的第一全局模型参数下发至各客户端，以供各客户端根据所述第一全局模型参数和所述训练样本的伪标签对各自本地的待训练模型进行伪监督训练，得到第一本地模型参数并返回；

在本实施例中，服务端与各客户端可通过握手、身份认证预先建立通信连接，并确定本次联邦学习待训练的模型，如神经网络模型。可以由服务端将确定的待训练的模型下发至各个客户端，那么各个客户端本地拥有相同结构的待训练模型。各个客户端本地拥有用于训练该待训练模型的训练样本，训练样本包括无标签样本，部分客户端的训练样本还包括少量的有标签样本。需要说明的是，无标签样本和有标签样本统称为训练样本，一条无标签样本包括一条数据，一条有标签样本包括一条数据以及该数据对应的标签。无标签样本的数量可以远远大于有标签样本的数量，为节省人工打标签的人力物力。根据具体的训练任务不同，可以采用不同的训练样本。例如，训练任务是采用神经网络模型对图像进行人脸检测，则训练样本是图像，有标签样本还包括指示图像中是否有人脸的标签。又如，训练任务是采用决策树模型进行用户购买意向的预测，则训练样本是用户数据，有标签样本还包括用户的购买意向标签。

在横向联邦学习中，服务端与客户端通过相互配合，对待训练模型进行多次全局模型更新，最后得到符合质量要求的目标模型。模型更新是指更新待训练模型的模型参数，如待训练模型是神经网络模型时，模型参数是神经元之间的连接权重值，经过多次全局模型更新，确定最终的模型参数，从而就确定了目标模型。需要说明的是，服务端联合客户端对待训练模型进行模型更新的过程叫做全局模型更新，将在全局模型更新中客户端采用有标签样本进行训练的情况称为有标签全局模型更新，将全局模型更新中客户端采用无标签样本进行训练的情况称为无标签全局模型更新，将无标签全局模型更新中的概念称为“第一”，将有标签全局模型更新中涉及的概念称为“第二”，以示区分。

在一次无标签全局模型更新中，服务端将本次无标签全局模型更新的第一全局模型参数下发给各个客户端。需要说明的是，若是第一次全局模型更新，服务端可以采用随机的模型参数来初始化待训练模型，也可以采用开发人员根据经验设置的模型参数来初始化待训练模型；随后，服务端可以直接将初始化的待训练模型的模型参数作为本次无标签全局模型更新的第一全局模型参数下发；服务端也可以联合拥有用标签样本的客户端进行横向联邦学习，即进行有标签全局模型更新后，将更新后的待训练模型的模型参数作为本次无标签全局模型更新的第一全局模型参数下发。通过在联邦学习开始时，服务端先联合拥有有标签样本的客户端对待训练模型进行有标签全局模型更新，给后续各个客户端进行伪监督训练一个初始方向，缩短训练时间，即有标签全局模型更新后得到的待训练模型已经学习到了有标签样本的一些特征，从而使得客户端的伪监督训练过程中预测结果相对准确，进而缩短无标签全局模型更新的次数，减少训练时间，同时也提高训练得到的目标模型的质量和性能。

各个客户端在获取到第一全局模型参数后，根据第一全局模型参数和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到第一本地模型参数。其中，伪监督训练的过程类似与有监督训练，但由于采用的不是训练样本的真实标签，而是采用的训练样本的伪标签，因此采用伪监督训练来区分有监督训练。训练样本中若包括有标签样本，则客户端可以将有标签样本去除标签转换为无标签样本，将所有训练样本当做无标签样本来获取其伪标签。伪标签虽然不爽真实标签，但是尽量接近于真实标签。伪标签的获取方式有多种，例如，对于拥有部分有标签样本的客户端，可以通过利用各训练样本与各有标签样本之间的相似度，来为各训练样本打上一个伪标签。

步骤A20，接收各客户端返回的所述第一本地模型参数，并根据所述第一本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数并下发给各客户端；

服务端接收各个客户端返回的第一本地模型参数，并根据第一本地模型参数，联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数。服务端将新一次的无标签全局模型更新的第一全局模型参数下发给各个客户端，以进入新一次的无标签全局模型更新。

步骤A30，循环直到满足预设条件时停止训练得到目标模型。

循环上述步骤，直到服务端检测到满足预设条件时停止训练，得到目标模型。其中，预设条件可以是预先根据需要进行设置，如检测到待训练模型收敛，或检测到循环次数达到一个预设的次数，或检测到训练时间达到一个预设的时间，或者是接收到服务端发送的停止训练指令等。服务端也可以在检测到待训练模型收敛时，向客户端发送一个全局模型参数，以及发送停止训练指令，客户端在接收到停止训练指令和全局模型参数后，采用全局模型参数更新本地的待训练模型，然后停止训练。客户端将最后确定了模型参数的待训练模型作为目标模型，后续可以使用目标模型来完成预测或分类任务。

在本实施例中，服务端向各客户端下发全局模型参数，客户端基于全局模型参数更新和训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数，使得客户端在没有标签数据时也可以参与横向联邦学习，充分发挥了无标签样本的作用；服务端根据各客户端发送的本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的全局模型参数并下发给各客户端；实现了通过在客户端的伪监督训练中穿插拥有有标签样本的客户端的有监督训练，为客户端的伪监督训练提供指导方向，避免客户端的伪监督训练结果出现偏差；使得伪监督训练能够利用有监督训练学习到的有标签样本的特征，也使得有监督训练能够利用伪监督训练学习到的大量的无标签样本的特征，从而实现在只有部分客户端拥有少量有标签样本时，也能够进行横向联邦学习，并训练得到符合性能需求的模型，从而适应缺乏标签数据的现实场景，节省人力成本。

进一步地，所述步骤A20包括：

步骤A201，对各所述第一本地模型参数进行融合，得到新一次的有标签全局模型更新的第二全局模型参数；

步骤A202，将所述第二全局模型参数发送给拥有有标签样本的各客户端，以供各客户端采用有标签样本对各自本地的待训练模型进行有监督训练，得到第二本地模型参数并返回；

步骤A203，接收各客户端返回的所述第二本地模型参数，并对各所述第二本地模型参数进行融合，将融合结果作为新一次无标签全局模型更新的第一全局模型参数下发给各客户端。

具体地，服务端可以先对各个第一本地模型参数进行融合，得到融合模型参数；再将融合模型参数作为新一次的有标签全局模型更新的第二全局模型参数下发给拥有有标签样本的各个客户端；各个客户端采用接收到的第二全局模型参数更新本地的待训练模型后，采用本地的有标签样本对待训练模型进行有监督训练，得到第二本地模型参数，将第二本地模型参数发送给服务端；服务端接收拥有有标签样本的各个客户端发送的第二本地模型参数，并进行融合，将融合结果作为新一次无标签全局模型更新的第一全局模型参数；服务端将新一次的无标签全局模型更新的第一全局模型参数下发给各个客户端，以进入新一次的无标签全局模型更新。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如下所述的基于半监督的横向联邦学习优化方法的步骤。

本发明基于半监督的横向联邦学习优化设备和计算机可读存储介质的各实施例，均可参照本发明基于半监督的横向联邦学习优化方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于半监督的横向联邦学习优化方法，其特征在于，应用于参与横向联邦学习的客户端，客户端本地的训练样本包括无标签样本，客户端与参与横向联邦学习的服务端通信连接，所述方法包括：

循环直到满足预设条件时停止训练得到目标模型。

2.如权利要求1所述的基于半监督的横向联邦学习优化方法，其特征在于，所述根据所述全局模型参数和所述训练样本的伪标签对本地的待训练模型进行伪监督训练，得到本地模型参数的步骤包括：

获取所述训练样本的伪标签；

基于所述预测标签和所述伪标签计算伪监督损失函数；

根据所述伪监督损失函数计算得到本地模型参数。

3.如权利要求2所述的基于半监督的横向联邦学习优化方法，其特征在于，所述获取所述训练样本的伪标签的步骤包括：

4.如权利要求3所述的基于半监督的横向联邦学习优化方法，其特征在于，当所述训练样本包括有标签样本时，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

5.如权利要求3所述的基于半监督的横向联邦学习优化方法，其特征在于，所述根据各所述训练样本之间的相似度计算所述训练样本的伪标签的步骤包括：

6.如权利要求1至5任一项所述的基于半监督的横向联邦学习优化方法，其特征在于，所述目标模型用于识别患者的心脏疾病类型，所述循环直到满足预设条件时停止训练得到目标模型的步骤之后，还包括：

7.一种基于半监督的横向联邦学习优化方法，其特征在于，应用于参与横向联邦学习的服务端，服务端与参与横向联邦学习的各客户端通信连接，各客户端本地的训练样本包括无标签样本，部分客户端本地的训练样本包括有标签样本，所述方法包括：

循环直到满足预设条件时停止训练得到目标模型。

8.如权利要求7所述的基于半监督的横向联邦学习优化方法，其特征在于，所述根据所述第一本地模型参数联合拥有有标签样本的客户端进行有标签全局模型更新，得到新一次无标签全局模型更新的第一全局模型参数并下发给各客户端的步骤包括：

9.一种基于半监督的横向联邦学习优化设备，其特征在于，所述基于半监督的横向联邦学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于半监督的横向联邦学习优化方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于半监督的横向联邦学习优化程序，所述基于半监督的横向联邦学习优化程序被处理器执行时实现如权利要求1至8中任一项所述的基于半监督的横向联邦学习优化方法的步骤。