CN111325320A

CN111325320A - 弱监督机器学习优化方法、装置、设备及存储介质

Info

Publication number: CN111325320A
Application number: CN202010084922.0A
Authority: CN
Inventors: 魏锡光; 李�权; 鞠策; 曹祥; 刘洋; 陈天健; 高大山
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-23

Abstract

本发明公开了一种弱监督机器学习优化方法、装置、设备及存储介质，所述方法包括：对待训练模型进行有监督训练以更新待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器；锁定第二编码器中与有监督训练相关的部分结构，对待训练模型进行自监督训练以更新第二编码器的未锁定部分结构，得到第三编码器；锁定第三编码器，对待训练模型进行有监督训练以更新第二预测器，以得到与待训练模型对应的目标模型。本发明实现了即使训练过程中仅使用少量的有标签样本，也能够训练得到预测效果很好的目标模型，从而降低了机器学习模型的训练成本，提高了模型训练效率。

Description

弱监督机器学习优化方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种弱监督机器学习优化方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，机器学习也越来越多地被应用于各个领域。现今的机器学习通常需要大量的带标签数据训练机器学习模型才能够获得好的模型预测效果，训练数据可能很容易获得，而打标签则需要专门的人力完成，导致模型训练成本高、训练效率低。因此通常会面临有标签的数据比较少，而无标签数据比较多的情况，从而导致机器学习无法获得很好的模型预测效果，因此，弱监督机器学习是目前业界的一个研究方向。

现有的基于自编码解码器的弱监督机器学习方法虽然能够实现采用少量的有标签数据进行机器学习，但是这种方法未考虑自监督的随机性，自监督学习可能会破坏有监督学习的成果，导致训练得到的模型预测效果并不好。因此，如何采用少量的标签数据即可训练得到预测效果很好的模型，以降低模型训练成本、提高训练效率，成为了一个亟待解决的问题。

发明内容

本发明的主要目的在于提供一种弱监督机器学习优化方法、装置、设备及存储介质，旨在解决如何采用少量的标签数据即可训练得到预测效果很好的模型，以降低模型训练成本、提高训练效率的问题。

为实现上述目的，本发明提供一种弱监督机器学习优化方法，所述弱监督机器学习优化方法包括以下步骤：

对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器；

锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器；

锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器，基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型。

可选地，所述对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器的步骤包括：

调用所述第一编码器对用于训练所述待训练模型的第一有标签样本进行特征提取，得到第一预测特征；

调用所述第一预测器对所述第一预测特征进行预测处理，得到第一预测标签；

根据所述第一预测标签和所述第一有标签样本的真实标签计算第一有监督损失函数，并根据所述第一有监督损失函数更新所述第一编码器和所述第一预测器，循环更新至少一个世代后得到对应的第二编码器和第二预测器。

可选地，所述锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器的步骤包括：

锁定所述第二编码器中与所述第一预测特征相关的部分结构；

调用所述第二编码器对用于训练所述待训练模型的无标签样本进行特征提取，得到第二预测特征和第一增广特征；

调用所述待训练模型的解码器对所述第二预测特征和所述第一增广特征进行解码处理，得到解码数据；

根据所述解码数据和所述无标签样本计算自监督损失函数，并根据所述自监督损失函数更新所述第二编码器的未锁定部分结构，循环更新至少一个世代后得到第三编码器。

可选地，所述锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器的步骤包括：

锁定所述第三编码器；

调用所述第三编码器对用于训练所述待训练模型的第二有标签样本进行特征提取，得到第三预测特征和第二增广特征；

调用所述待训练模型的全参数预测器对所述第三预测特征和所述第二增广特征进行预测处理，得到第二预测标签；

根据所述第二预测标签和所述第二有标签样本的真实标签计算第二有监督损失函数，并根据所述第二有监督损失函数更新所述全参数预测器；

根据更新后的全参数预测器更新所述第二预测器，循环更新至少一个世代。

可选地，所述根据更新后的全参数预测器更新所述第二预测器的步骤包括：

对更新后的全参数预测器中与所述第二预测器结构不同的部分进行剪枝处理，将剪枝后的全参数预测器作为更新后的第二预测器。

可选地，所述第二编码器包括编码器头部和编码器特征增广器，所述调用所述第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征的步骤包括：

调用所述编码器头部对所述无标签样本进行预编码，得到预编码数据；

调用所述编码器特征增广器对所述预编码数据进行特征提取，得到第二预测特征和第一增广特征。

可选地，所述基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型的步骤包括：

检测所述待训练模型的循环训练次数是否达到预设次数；

若所述循环训练次数达到所述预设次数，则停止训练，得到包括所述第三编码器和更新后的第二预测器的目标模型；

若所述循环训练次数未达到所述预设次数，则将更新后的所述第二预测器作为第一预测器，将所述第三编码器作为第一编码器，再执行所述步骤：对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器。

可选地，所述目标模型用于对图像进行人脸位置检测，

所述基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型的步骤之后，还包括：

调用所述目标模型的编码器对待检测图像进行特征提取，得到第四预测特征；

调用所述目标模型的预测器对所述第四预测特征进行预测处理，得到所述待检测图像中人脸位置的检测结果。

为实现上述目的，本发明还提供一种弱监督机器学习优化装置，所述弱监督机器学习优化装置包括：

第一有监督训练模块，用于对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器；

自监督训练模块，用于锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器；

第二有监督训练模块，用于锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器，基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型。

为实现上述目的，本发明还提供一种弱监督机器学习优化设备，所述弱监督机器学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的弱监督机器学习优化程序，所述弱监督机器学习优化程序被所述处理器执行时实现如上所述的弱监督机器学习优化方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有弱监督机器学习优化程序，所述弱监督机器学习优化程序被处理器执行时实现如上所述的弱监督机器学习优化方法的步骤。

本发明中，通过对待训练模型先进行有监督训练，更新待训练模型的编码器和预测器，为模型收敛提供指导方向，使得整个模型能够收敛，并朝着有监督目标方向收敛；再通过锁定编码器中与有监督训练相关的部分结构后对待训练模型进行自监督训练，更新编码器的未锁定部分结构，使得编码器通过自监督训练从大量的无标签样本中学习到更多的特征，充分利用无标签样本来提升模型的性能的同时，避免了编码器在有监督训练中学习到的特征被自监督训练的随机性破坏，从而保障编码器的特征提取性能仍然是朝着有监督训练的目标方向提升；再通过锁定整个编码器，对待训练模型进行有监督训练，更新预测器，使得预测器能够充分学习根据编码器在有监督训练和自监督训练中学习到的特征进行预测，从而提高了预测器的预测准确率，整体上提高了目标模型的预测准确率。从而实现了即使训练过程中仅使用少量的有标签样本，也能够训练得到预测效果很好的目标模型，降低了机器学习模型的训练成本、提高了模型训练效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明弱监督机器学习优化方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种机器学习模型训练架构示意图；

图4本发明弱监督机器学习优化装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例弱监督机器学习优化设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该弱监督机器学习优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对弱监督机器学习优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及弱监督机器学习优化程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持弱监督机器学习优化程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的弱监督机器学习优化程序，并执行以下操作：

进一步地，所述对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器的步骤包括：

进一步地，所述锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器的步骤包括：

进一步地，所述锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器的步骤包括：

锁定所述第三编码器；

进一步地，所述根据更新后的全参数预测器更新所述第二预测器的步骤包括：

进一步地，所述第二编码器包括编码器头部和编码器特征增广器，所述调用所述第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征的步骤包括：

进一步地，所述基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型的步骤包括：

检测所述待训练模型的循环训练次数是否达到预设次数；

进一步地，所述目标模型用于对图像进行人脸位置检测，

所述基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型的步骤之后，处理器1001还可以用于调用存储器1005中存储的弱监督机器学习优化程序，执行以下操作：

基于上述的结构，提出弱监督机器学习优化方法的各个实施例。

参照图2，图2为本发明弱监督机器学习优化方法第一实施例的流程示意图。

本发明实施例提供了弱监督机器学习优化方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明弱监督机器学习优化方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，弱监督机器学习优化方法包括：

步骤S10，对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器；

在本实施例中，可以预先构建一个待训练的机器学习模型(以下称为待训练模型)，按照机器学习任务不同，可以构建不同类型的模型，例如可以构建不同类型的神经网络模型，如深度神经网络模型、卷积神经网络模型或循环神经网络模型等，也可以是构建各种类型的神经网络结构嵌杂的神经网络模型。待训练模型至少包括编码器、解码器和预测器。其中，编码器可以是由多层神经网络构成，设置在待训练模型的前面，例如，可以设置为连接输入层，编码器用于对待训练模型的输入数据进行提取特征，得到降维的特征向量；解码器也可以是由多层神经网络构成，设置为连接编码器，用于对编码器编码的结果进行重构，旨在将输入复制到输出，也即旨在输出的数据尽量还原输入数据；预测器也可以是由多层神经网络构成，设置为连接编码器，用于根据编码器编码的结果进行预测，得到预测标签，根据机器学习任务的不同，预测标签不同，如机器学习任务是图像分类，则预测标签可以是表示图像类别的置信度。也即，待训练模型的解码器和预测器均连接编码器，构成待训练模型的两个输出，其中预测器的输出是与机器学习任务相关的输出。

构建待训练模型后，可以先初始化待训练模型，也即可以先初始化待训练模型的模型参数，其中至少包括编码器参数、解码器参数和预测器参数。初始化模型参数可以是随机生成模型参数，也可以是按照经验设置模型参数。

可以对待训练模型循环进行多轮训练，一轮训练过程可以如下：

在一轮训练开始之前，将待训练模型的编码器和预测器分别称为第一编码器和第一预测器，以示区分。

可以先对待训练模型进行有监督训练，通过有监督训练的过程更新待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器。第二编码器也就是更新后的第一编码器，第二预测器同理。更新编码器和预测器具体可以是指更新编码器和预测器中的参数。

具体地，有监督训练过程可采用有标签样本进行训练，有标签样本是有真实标签的样本，例如，当机器学习任务是对图像进行人脸检测时，有标签样本可以是图像，对应的真实标签可以是人工标注的图像中的人脸位置。有标签样本的数量可以不用过多，以节省人工标注的人力物力，从而节省模型训练的成本，提高模型训练的效率。有监督训练过程可采用传统的有监督训练方式，对待训练模型的第一编码器和第一预测器进行训练，解码器则不参与训练。有监督训练的目标是使得待训练模型的输出更接近于真实标签。有监督训练过程可以进行一个或多个世代，一个世代是指采用全部的有标签样本训练一次，当将有标签样本分为多个小批，分别采用各个小批进行有监督训练时，遍历完一次各个小批为一个世代。

通过有监督训练，可以为模型收敛提供指导方向，使得整个模型能够收敛，并朝着有监督目标方向收敛，保障最终获得的模型的预测准确率；且充分利用了有标签样本。

步骤S20，锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器；

经过有监督训练后，可以对待训练模型进行自监督训练。自监督训练过程中，可以先锁定第二编码器中与有监督训练相关的部分结构。具体地，第二编码器中有一部分结构与有监督训练相关，锁定这一部分结构具体可以是锁定这一部分结构中的模型参数，即在自监督训练过程中，不对锁定的模型参数进行更新。举个例子：若编码器是全连接网络层，则可以预先设置其中的部分连接权重是与有监督训练相关的，锁定这一部分连接权重，即在自监督训练过程中，保持这一部分连接权重不变。

在锁定第二编码器中与有监督训练相关的部分结构后，对待训练模型进行自监督训练，通过自监督训练的过程更新第二编码器的未锁定部分结构，得到第三编码器。其中，第三编码器就是更新后的第二编码器。

具体地，自监督训练过程可采用无标签样本进行训练，无标签样本是没有真实标签的样本，即没有进行标注，因此，无标签样本比较容易获取。例如，当机器学习任务是对图像进行人脸检测时，无标签样本可以是图像，图像可以通过摄像头拍摄。无标签样本的数量可以大于有标签样本的数量，以节省人工标注的人力物力，从而节省模型训练的成本，提高模型训练的效率。自监督训练过程可采用传统的自监督训练方式，对待训练模型的第二编码器和解码器进行训练，第二预测器则不参与训练。训练过程中，由于锁定了第二编码器中与有监督训练相关的部分结构，所以只更新第二编码器的未锁定部分结构，而保持锁定部分不变，具体可以是只更新第二编码器未锁定部分结构的参数，保持锁定部分的参数不变；自监督训练过程也可以更新解码器的参数。自监督训练的目标是使得待训练模型的输出更接近于输入。自监督训练过程可以进行一个或多个世代，一个世代是指采用全部的无标签样本训练一次，当将无标签样本分为多个小批，分别采用各个小批进行自监督训练时，遍历完一次各个小批为一个世代。

通过自监督训练对编码器中未锁定的部分结构进行更新，使得编码器通过自监督学习从大量的无标签样本中学习到更多的特征，也即通过自监督训练不断挖掘编码器的特征提取性能，实现了充分利用了无标签样本来提升模型的性能；并且，由于自监督训练的目标与有监督训练的目标不相同，自监督训练的随机性可能会破坏编码器在有监督训练中学习到的特征，而在本实施例中，通过在自监督训练过程中，对编码器中与有监督训练相关的部分结构进行了锁定，使得编码器在有监督训练中学习到的特征不会被自监督训练的随机性破坏，从而保障编码器的特征提取性能仍然是朝着有监督训练的目标方向提升。

步骤S30，锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器，基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型；

经过自监督训练后，可以对待训练模型再进行有监督训练，此时的有监督训练可以采用与步骤S10中的有监督训练相同的训练方式，不同的是此时的有监督训练过程中，锁定第三编码器，即锁定整个编码器。在锁定第三编码器后，对待训练模型进行有监督训练，通过有监督训练更新第二预测器，解码器不参与训练。具体地，可以采用与步骤S10中相同的有标签样本，也可以采用不相同的有标签样本来进行此时的有监督训练。此时的有监督训练也可以迭代进行一个或多个世代。

通过在自监督训练之后，再锁定编码器对待训练模型进行有监督训练，更新待训练模型的预测器，使得预测器能够充分学习根据编码器在有监督训练和自监督训练中学习到的特征进行预测，从而提高了预测器的预测准确率，从而整体上提高了待训练模型的预测准确率。

进行一遍上述有监督训练、自监督训练和锁定编码器的有监督训练的过程后，自此为完成了一轮训练，可对待训练模型循环进行多轮训练，直到检测到满足一个预设停止条件时，基于第三编码器和更新后的第二预测器得到目标模型。预设停止条件可以是预先设置的条件，例如，当循环次数达到一个预设的次数时停止，或当训练时间达到一个预设的最大的时间时停止，或当检测到待训练模型收敛时停止等，其中待训练模型收敛可以是指有监督训练过程中的损失函数收敛。停止训练后，得到确定了参数的编码器、解码器和预测器，目标模型可以至少包括最终的编码器和预测器。

具体地，步骤S30中基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型的步骤包括：

步骤a，检测所述待训练模型的循环训练次数是否达到预设次数；

步骤b，若所述循环训练次数达到所述预设次数，则停止训练，得到包括所述第三编码器和更新后的第二预测器的目标模型；

步骤c，若所述循环训练次数未达到所述预设次数，则将更新后的所述第二预测器作为第一预测器，将所述第三编码器作为第一编码器，再执行所述步骤：对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器。

在进行锁定编码器的有监督训练后，可以检测对待训练模型进行循环训练的循环训练次数是否达到预设次数，其中，预设次数可根据具体需要进行设置；若检测到循环训练次数达到预设次数，则可以停止训练，并基于第三编码器和更新后的第二预测器得到目标模型，也即，目标模型至少包括第三编码器和更新后的第二预测器；若检测到循环训练次数未达到预设次数，则可以继续进行循环，具体是将更新后的第二预测器作为第一预测器，将第三编码器作为第一编码器，将循环训练次数加一，再执行对待训练模型进行有监督训练，更新第一编码器和第一预测器，以及后续的自监督训练、锁定编码器的有监督训练的过程和循环训练次数的检测过程，直到检测到循环训练次数达到预设次数为止。

在本实施例中，通过对待训练模型先进行有监督训练，更新待训练模型的编码器和预测器，为模型收敛提供指导方向，使得整个模型能够收敛，并朝着有监督目标方向收敛；再通过锁定编码器中与有监督训练相关的部分结构后对待训练模型进行自监督训练，更新编码器的未锁定部分结构，使得编码器通过自监督训练从大量的无标签样本中学习到更多的特征，充分利用无标签样本来提升模型的性能的同时，避免了编码器在有监督训练中学习到的特征被自监督训练的随机性破坏，从而保障编码器的特征提取性能仍然是朝着有监督训练的目标方向提升；再通过锁定整个编码器，对待训练模型进行有监督训练，更新预测器，使得预测器能够充分学习根据编码器在有监督训练和自监督训练中学习到的特征进行预测，从而提高了预测器的预测准确率，整体上提高了目标模型的预测准确率。从而实现了即使训练过程中仅使用少量的有标签样本，也能够训练得到预测效果很好的目标模型，降低了机器学习模型的训练成本、提高了模型训练效率。

进一步地，所述目标模型用于对图像进行人脸位置检测，所述步骤S30之后，还包括：

步骤S40，调用所述目标模型的编码器对待检测图像进行特征提取，得到第四预测特征；

当机器学习任务是对图像进行人脸位置检测时，训练样本(有标签样本和无标签样本)是包含人脸的图像，有标签样本的真实标签是图像中人脸的位置标注。由于图像很容易通过摄像头终端采集，但人脸位置标注却需要人工一个一个进行标注，会花费较多的人力物力和时间，导致模型训练的成本较高，效率较低。为克服这一问题，可以采用上述实施例中的弱监督机器学习优化方案利用包含大量无标签样本和少量有标签样本的图像训练样本对待训练模型进行训练，得到用于对图像进行人脸位置检测的目标模型。

在得到目标模型后，可采用该目标模型对待检测图像进行人脸位置检测。具体地，可获取待检测图像，将待检测图像输入目标模型，调用目标模型的编码器对待检测图像进行特征提取，得到第四预测特征。

步骤S50，调用所述目标模型的预测器对所述第四预测特征进行预测处理，得到所述待检测图像中人脸位置的检测结果。

在调用目标模型的预测器对第四预测特征进行预测处理，得到待检测图像中人脸位置的检测结果。需要说明的是，根据模型的结构设计不同，人脸位置的检测结果的形式不同，可以是输出表示人脸所在位置的坐标，或输出一张人脸区域颜色不同于其他区域的图片，在此不作具体限制。

通过采用上述实施例中的弱监督机器学习优化方案来对检测人脸位置的机器学习模型进行训练，使得在有标签样本少的情况下，也能够获得人脸位置检测准确率高的机器学习模型，从而降低了人工采集数据和人工打标注的人力物力，降低了模型训练的成本，提高了模型训练效率。

需要说明的是，本发明实施例涉及的机器学习模型还可以应用于其他预测或分类任务，如还可以应用于绩效等级预测、论文价值评价等。

进一步地，基于上述第一实施例，提出本发明弱监督机器学习优化方法第二实施例，在本实施例中，所述步骤S10包括：

步骤S101，调用所述第一编码器对用于训练所述待训练模型的第一有标签样本进行特征提取，得到第一预测特征；

在本实施例中，有监督训练的过程具体可以是：

调用第一编码器对第一有标签样本进行特征提取，得到第一预测特征。其中，第一有标签样本可以是预先采集的用于对待训练模型进行有监督训练的样本。具体地，将第一有标签样本的样本数据输入第一编码器，第一编码器用于对样本数据进行特征提取后输出降维表达的特征向量，特征向量表征样本数据各方面的特征，其中包括了与预测任务相关的特征，也包括了其他特征，可从特征向量中提取与预测任务相关的特征作为预测特征。其中，可以预先规定从特征向量中提取预测特征的方式，例如，得到的特征向量是100维的向量，规定抽取其中前50维的元素作为预测特征。以机器学习任务是对图像进行人脸检测为例，将作为有标签样本的图像数据输入第一编码器，经过第一编码器中的特征提取层(例如可以是卷积层)对图像数据进行特征提取，得到降维表达的特征向量，从特征向量中提取出第一预测特征。

步骤S102，调用所述第一预测器对所述第一预测特征进行预测处理，得到第一预测标签；

在得到第一预测特征后，调用第一预测器对第一预测特征进行预测处理，得到第一预测标签。具体地，将第一预测特征输入第一预测器，第一预测器用于对第一预测特征进行预测处理后输出第一预测标签，其中，根据机器学习任务不同，第一预测器输出的结果的形式可以不同。例如，当机器学习任务是对图像进行人脸位置检测时，第一预测标签可以是一个置信度矩阵，矩阵中各个置信度分别对应图像的各个像素点，表示对应像素点属于人脸的概率。又如，当机器学习任务是对图像进行分类时，第一预测标签可以是0或1，用于表示图像是否属于目标类型。

步骤S103，根据所述第一预测标签和所述第一有标签样本的真实标签计算第一有监督损失函数，并根据所述第一有监督损失函数更新所述第一编码器和所述第一预测器，循环更新至少一个世代后得到对应的第二编码器和第二预测器。

在得到第一预测标签后，根据第一预测标签和第一有标签样本的真实标签计算第一有监督损失函数(也可称为预测器损失函数)，具体的有监督损失函数的计算方式可参照现有的有监督损失函数的计算方式，在此不进行详细赘述。在计算得到第一有监督损失函数后，分别计算第一有监督损失函数对第一编码器中各个参数的梯度，以及对第一预测器中各个参数的梯度，根据计算得到的梯度朝着降低第一有监督损失函数的损失值的方向来更新第一编码器中各个参数，以及更新第一预测器中各个参数，以完成对第一编码器和第一预测器的一次更新。可以循环上述的步骤对第一编码器和第一预测器进行至少一个世代的更新。具体地，可以预先设置有监督训练的循环次数。

在本实施例中，通过依次调用第一编码器和第一预测器对第一有标签样本进行处理，得到第一预测标签，并根据第一预测标签和第一有标签样本的真实标签计算第一有监督损失函数，根据第一有监督损失函数对第一编码器和第一预测器进行更新，并循环更新进行至少一个世代，实现了利用有标签样本对编码器和预测器进行训练，使得编码器和预测器能够学习到有标签样本的特征，并使得待训练模型能够朝着有监督训练的目标方向收敛，为后面的自监督训练提供指导方向，避免模型收敛方向走偏，提高最终获取到的目标模型的预测效果；并且，有监督训练所采用的有标签样本的数量不需要太多，从而大大降低了人工标注的人力物力，节省了模型训练的成本，提高了模型训练的效率。

进一步地，所述步骤S20包括：

步骤S201，锁定所述第二编码器中与所述第一预测特征相关的部分结构；

在本实施例中，自监督训练的过程具体可以是：

在经过有监督训练得到第二编码器和第二预测器后，锁定第二编码器中与第一预测特征相关的部分。具体地，如前所述，第一预测特征是从第一编码器输出的特征向量中提取出的一部分特征，那么编码器中有一部分结构是与该部分特征有关的，锁定第二编码器中与第一预测特征相关的部分可以是锁定第二编码器中与该部分特征有关的结构，具体是在自监督训练过程中保持该结构中的参数不变。

步骤S202，调用所述第二编码器对用于训练所述待训练模型的无标签样本进行特征提取，得到第二预测特征和第一增广特征；

在锁定第二编码器中与第一预测特征相关的部分结构后，调用第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征。具体地，无标签样本可以是预先采集的用于对待训练模型进行自监督训练的样本；将无标签样本的样本数据输入第二编码器中，第二编码器用于对样本数据进行特征提取后输出特征向量，同样地，特征向量表征样本数据的各种特征，其中包括与预测任务相关的特征，也包括其他特征，将与预测任务相关的特征称为预测特征，将其他特征称为增广特征。

进一步地，所述第二编码器包括编码器头部和编码器特征增广器，所述步骤S202包括：

步骤S2021，调用所述编码器头部对所述无标签样本进行预编码，得到预编码数据；

步骤S1012，调用所述编码器特征增广器对所述预编码数据进行特征提取，得到第二预测特征和第一增广特征。

进一步地，待训练模型的编码器可以包括编码器头部和编码器特征增广器两个部分；编码器头部用于对样本数据进行预编码，提取样本数据的基础特征得到预编码数据；编码器特征增广器用于对预编码数据进行特征增广，拓展样本数据可能与预测标签有关的特征。

可先调用编码器头部对无标签样本进行预编码得到预编码数据。再调用编码器特征增广器对预编码数据进行特征提取，得到第二预测特征和第一增广特征。

当第二编码器包括编码器头部和编码器特征增广器时，自监督训练过程中，可锁定编码器特征增广器中与第一预测特征相关的部分，以及锁定编码器头部。

步骤S203，调用所述待训练模型的解码器对所述第二预测特征和所述第一增广特征进行解码处理，得到解码数据；

调用待训练模型的解码器对第二预测特征和第一增广特征进行解码处理，得到解码数据。具体地，将第二预测特征和第一增广特征输入解码器，也即将第二编码器输出的特征向量输入到解码器中，解码器用于对输入的特征向量进行解码处理后输出解码数据。

步骤S204，根据所述解码数据和所述无标签样本计算自监督损失函数，并根据所述自监督损失函数更新所述第二编码器的未锁定部分结构，循环更新至少一个世代后得到第三编码器。

在得到解码数据后，根据解码数据和无标签样本的样本数据计算自监督损失函数(也可称为自编码解码器损失函数)，具体的自监督损失函数的计算方式可参照现有的自监督损失函数的计算过程，在此不进行详细的赘述。在计算得到自监督损失函数后，计算自监督损失函数对第二编码器未锁定部分结构中参数的梯度，以及计算自监督损失函数对解码器中参数的梯度，根据计算得到的梯度朝着降低自监督损失函数的损失值的方向更新第二编码器未锁定部分结构中的参数和解码器中的参数，以完成对第二编码器未锁定部分结构和解码器的一次更新。对第二编码器中锁定部分结构的参数则不计算梯度。可以循环上述的步骤对第二编码器的未锁定部分结构和解码器进行至少一个世代的更新。具体地，可以预先设置自监督训练的循环次数。

在本实施例中，通过锁定第二编码器中与第一预测特征相关的部分结构后，调用第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征，调用解码器对第二预测特征和第一增广特征进行解码处理得到解码数据，根据解码数据和无标签样本计算自监督损失函数，根据自监督损失函数更新第二编码器的未锁定部分结构，并循环更新进行至少一个世代，实现了利用无标签样本对编码器和解码器进行训练，使得编码器能够在自监督训练过程中，不断地学习到无标签样本的特征，从而充分利用无标签样本来提升编码器的特征提取性能；并且，通过对第二编码器中与第一预测特征相关的部分结构进行锁定，使得在自监督训练过程中，不会破坏编码器在有监督训练过程中学习到的有标签样本的特征，从而使得自监督训练朝着有监督训练的目标方向收敛，避免自监督训练的方向走偏。

进一步地，所述步骤S30包括：

步骤S301，锁定所述第三编码器；

在本实施例中，锁定编码器进行有监督训练的过程具体可以是：

在经过前述未锁定编码器的有监督训练过程得到第二预测器，以及经过自监督训练得到第三编码器后，将第三编码器锁定，进行锁定编码器的有监督训练。具体地，在锁定编码器的有监督训练过程中，保持第三编码器的参数不变。

步骤S302，调用所述第三编码器对用于训练所述待训练模型的第二有标签样本进行特征提取，得到第三预测特征和第二增广特征；

在锁定第三编码器后，调用第三编码器对第二有标签样本进行特征提取，得到第三预测特征和第二增广特征。其中，第二有标签样本是预先采集的用于对待训练模型进行有监督训练的样本，第二有标签样本可以与第一有标签样本相同，也可以不同。具体地，将第二有标签样本的样本数据输入第三编码器中，第三编码器用于对样本数据进行特征提取后输出特征向量，同样地，特征向量表征样本数据的各种特征，其中包括与预测任务相关的特征，也包括其他特征，将与预测任务相关的特征称为预测特征，将其他特征称为增广特征。

步骤S303，调用所述待训练模型的全参数预测器对所述第三预测特征和所述第二增广特征进行预测处理，得到第二预测标签；

调用待训练模型的全参数预测器对第三预测特征和第二增广特征进行预测处理，得到第二预测标签，具体地，待训练模型还可包括全参数预测器，全参数预测器的结构可以与预测器的结构不相同，如预测器的输入数据是预测特征，全参数预测器的输入数据是预测特征和增广特征，全参数预测器用于对整个编码器从样本数据提取到的全部特征进行预测，输出预测标签，通过对全参数预测器的不断训练，能够提升全参数预测器根据全部特征进行预测的预测效果。

步骤S304，根据所述第二预测标签和所述第二有标签样本的真实标签计算第二有监督损失函数，并根据所述第二有监督损失函数更新所述全参数预测器；

在得到第二预测标签后，根据第二预测标签和第二有标签样本的真实标签计算第二有监督损失函数(也可称为预测器损失函数)。具体的有监督损失函数的计算方式可参照现有的有监督损失函数的计算方式，在此不进行详细赘述。在计算得到第二有监督损失函数后，分别计算第二有监督损失函数对全参数预测器中各个参数的梯度，根据计算得到的梯度朝着降低第二有监督损失函数的损失值的方向来更新全参数预测器中各个参数，以完成对全参数预测器的一次更新。对第三编码器的参数则不计算梯度。

步骤S304，根据更新后的全参数预测器更新所述第二预测器，循环更新至少一个世代。

根据更新后的全参数预测器更新第二预测器，具体地，可以采用全参数预测器中与第二预测器相同结构的部分来更新第二预测器，如将全参数预测器中与第二预测器相同结构部分的参数来对应更新第二预测器的参数。可以循环上述的步骤对第二预测器进行至少一个世代的更新。具体地，可以预先设置有监督训练的循环次数

进一步地，可以是对更新后的全参数预测器中与第二预测器结构不同的部分进行剪枝处理，将剪枝后的全参数预测器作为更新后的第二预测器。例如，全参数预测器比第二预测器多几个神经元和神经元之间的连接，则将这几个神经元和神经元之间的连接删除，即称为剪枝，将剩余的部分，作为新的第二预测器。

通过自监督训练挖掘编码器更多的特征提取可能性，以及通过有监督训练来挖掘全参数预测器依据全部特征进行预测的更多可能性，使得即使只有少量的有标签样本的情况下，也能够通过无标签样本的训练来得到提升待训练模型的预测准确率。并且，通过对全参数预测器进行剪枝得到更新后的第二预测器，使得每次循环时，总保留全参数预测器中与有监督目标相关的部分，删除可能性低的部分，使模型收敛具备方向性，从而提高训练得到的目标模型的预测效果。

作为一种优选实施方式，可按照图3所示的机器学习模型训练架构对待训练模型(图3中的机器学习模型)进行训练。图3中有三条训练路线，分别是(a)有监督训练路线、(b)自监督训练路线和(c)有监督全特征训练路线，机器学习模型分为编码器头部、编码器特征增广器、解码器、全参数预测器和预测器五个部分，各个部分的模型参数分别是W_e、W_hd、W_d、W_hdp和W_p。对待训练模型，依次按照(a)(b)(c)三条路线进行训练。训练步骤如下：

1、初始化模型参数W_e、W_hd、W_d、W_hdp和W_p。

2、沿着(a)有监督训练路线更新模型参数W_e、W_hd和W_p，(一个或多个世代)。

3、锁定W_e，以及锁定W_hd中与Fp相关的参数，并沿着(b)自监督训练路线更新模型参数W_hd和W_d中可更新部分(一个或多个世代)。

4、锁定W_e和W_hd，并沿着(c)有监督全特征训练路线更新模型参数W_hdp(一个或多个世代)。

5、使用模型剪枝方法将W_hdp剪枝成W_p。

6、检测是否满足预设停止条件，若满足则停止训练，若未满足则循环执行2到6。

此外，此外本发明实施例还提出一种弱监督机器学习优化装置，参照图4，所述弱监督机器学习优化装置包括：

第一有监督训练模块10，用于对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器；

自监督训练模块20，用于锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器；

第二有监督训练模块30，用于锁定所述第三编码器，对所述待训练模型进行有监督训练，基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型。

进一步地，所述第一有监督训练模块10包括：

第一特征提取单元，用于调用所述第一编码器对用于训练所述待训练模型的第一有标签样本进行特征提取，得到第一预测特征；

第一预测单元，用于调用所述第一预测器对所述第一预测特征进行预测处理，得到第一预测标签；

第一计算单元，用于根据所述第一预测标签和所述第一有标签样本的真实标签计算第一有监督损失函数，并根据所述第一有监督损失函数更新所述第一编码器和所述第一预测器，循环更新至少一个世代后得到对应的第二编码器和第二预测器。

进一步地，所述自监督训练模块20包括：

第一锁定单元，用于锁定所述第二编码器中与所述第一预测特征相关的部分结构；

第二特征提取单元，用于调用所述第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征；

解码单元，用于调用所述待训练模型的解码器对用于训练所述待训练模型的所述第二预测特征和所述第一增广特征进行解码处理，得到解码数据；

第二计算单元，用于根据所述解码数据和所述无标签样本计算自监督损失函数，并根据所述自监督损失函数更新所述第二编码器的未锁定部分结构，循环更新至少一个世代后得到第三编码器。

进一步地，所述第二有监督训练模块30包括：

第二锁定单元，用于锁定所述第三编码器；

第三特征提取单元，用于调用所述第三编码器对用于训练所述待训练模型的第二有标签样本进行特征提取，得到第三预测特征和第二增广特征；

第二预测单元，用于调用所述待训练模型的全参数预测器对所述第三预测特征和所述第二增广特征进行预测处理，得到第二预测标签；

第三计算单元，用于根据所述第二预测标签和所述第二有标签样本的真实标签计算第二有监督损失函数，并根据所述第二有监督损失函数更新所述全参数预测器；

更新单元，用于根据更新后的全参数预测器更新所述第二预测器，循环更新至少一个世代。

进一步地，所述更新单元还用于对更新后的全参数预测器中与所述第二预测器结构不同的部分进行剪枝处理，将剪枝后的全参数预测器作为更新后的第二预测器。

进一步地，所述第二编码器包括编码器头部和编码器特征增广器，所述第二特征提取单元包括：

预编码子单元，用于调用所述编码器头部对所述无标签样本进行预编码，得到预编码数据；

特征提取子单元，用于调用所述编码器特征增广器对所述预编码数据进行特征提取，得到第二预测特征和第一增广特征。

进一步地，所述第二有监督训练模块30包括：

检测单元，用于检测所述待训练模型的循环训练次数是否达到预设次数；

停止单元，用于若所述循环训练次数达到所述预设次数，则停止训练，得到包括所述第三编码器和更新后的第二预测器的目标模型；

循环单元，用于若所述循环训练次数未达到所述预设次数，则将更新后的所述第二预测器作为第一预测器，将所述第三编码器作为第一编码器，再执行所述步骤：对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器。

进一步地，所述目标模型用于对图像进行人脸位置检测，

所述弱监督机器学习优化装置还包括：

特征提取模块，用于调用所述目标模型的编码器对待检测图像进行特征提取，得到第四预测特征；

预测模块，用于调用所述目标模型的预测器对所述第四预测特征进行预测处理，得到所述待检测图像中人脸位置的检测结果。

本发明弱监督机器学习优化装置的具体实施方式的拓展内容与上述弱监督机器学习优化方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有弱监督机器学习优化程序，所述弱监督机器学习优化程序被处理器执行时实现如下所述的弱监督机器学习优化方法的步骤。

本发明弱监督机器学习优化设备和计算机可读存储介质的各实施例，均可参照本发明弱监督机器学习优化方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种弱监督机器学习优化方法，其特征在于，所述弱监督机器学习优化方法包括以下步骤：

2.如权利要求1所述的弱监督机器学习优化方法，其特征在于，所述对待训练模型进行有监督训练以更新所述待训练模型的第一编码器和第一预测器，得到对应的第二编码器和第二预测器的步骤包括：

3.如权利要求2所述的弱监督机器学习优化方法，其特征在于，所述锁定所述第二编码器中与有监督训练相关的部分结构，对所述待训练模型进行自监督训练以更新所述第二编码器的未锁定部分结构，得到第三编码器的步骤包括：

4.如权利要求3所述的弱监督机器学习优化方法，其特征在于，所述锁定所述第三编码器，对所述待训练模型进行有监督训练以更新所述第二预测器的步骤包括：

锁定所述第三编码器；

5.如权利要求4所述的弱监督机器学习优化方法，其特征在于，所述根据更新后的全参数预测器更新所述第二预测器的步骤包括：

6.如权利要求3所述的弱监督机器学习优化方法，其特征在于，所述第二编码器包括编码器头部和编码器特征增广器，所述调用所述第二编码器对无标签样本进行特征提取，得到第二预测特征和第一增广特征的步骤包括：

7.如权利要求1所述的弱监督机器学习优化方法，其特征在于，所述基于所述第三编码器和更新后的第二预测器得到与所述待训练模型对应的目标模型步骤包括：

检测所述待训练模型的循环训练次数是否达到预设次数；

8.如权利要求1至7任一项所述的弱监督机器学习优化方法，其特征在于，所述目标模型用于对图像进行人脸位置检测，

9.一种弱监督机器学习优化装置，其特征在于，所述弱监督机器学习优化装置包括：

10.一种弱监督机器学习优化设备，其特征在于，所述弱监督机器学习优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的弱监督机器学习优化程序，所述弱监督机器学习优化程序被所述处理器执行时实现如权利要求1至8中任一项所述的弱监督机器学习优化方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有弱监督机器学习优化程序，所述弱监督机器学习优化程序被处理器执行时实现如权利要求1至8中任一项所述的弱监督机器学习优化方法的步骤。