CN115082920B

CN115082920B - 深度学习模型的训练方法、图像处理方法和装置

Info

Publication number: CN115082920B
Application number: CN202210977900.6A
Authority: CN
Inventors: 郭若愚; 杜宇宁; 赖宝华; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-04
Anticipated expiration: 2042-08-16
Also published as: CN115082920A

Abstract

本公开提供了一种深度学习模型的训练方法，涉及人工智能技术领域，尤其涉及深度学习、计算机视觉和图像处理技术。具体实现方案为：根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及训练样本的第一标签，确定预训练模型和深度学习模型的蒸馏损失以及深度学习模型的第一真值损失；根据将验证样本输入深度学习模型得到的第三输出结果以及验证样本的第二标签，确定深度学习模型的第二真值损失；根据蒸馏损失、第一真值损失、第二真值损失以及关于深度学习模型的拟合状态的评估函数，确定整体损失；以及根据整体损失，调整深度学习模型的参数。本公开还提供了一种图像处理方法、装置、电子设备和存储介质。

Description

深度学习模型的训练方法、图像处理方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉和图像处理技术。更具体地，本公开提供了一种深度学习模型的训练方法、图像处理方法、装置、电子设备和存储介质。

背景技术

知识蒸馏是一种常用的模型压缩方法。知识蒸馏是指使用精度较高的大模型的训练结果去指导小模型的训练过程，从而使得小模型也能获得与大模型相似的精度指标。

发明内容

本公开提供了一种深度学习模型的训练方法、图像处理方法、装置、设备以及存储介质。

根据第一方面，提供了一种深度学习模型的训练方法，该方法包括：根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及训练样本的第一标签，确定预训练模型和深度学习模型的蒸馏损失以及深度学习模型的第一真值损失；根据将验证样本输入深度学习模型得到的第三输出结果以及验证样本的第二标签，确定深度学习模型的第二真值损失；根据蒸馏损失、第一真值损失、第二真值损失以及关于深度学习模型的拟合状态的评估函数，确定整体损失；以及根据整体损失，调整深度学习模型的参数。

根据第二方面，提供了一种图像处理方法，该方法包括：获取待处理图像；以及将待处理图像输入深度学习模型，得到待处理图像的处理结果，其中处理结果包括待处理图像的类别、待处理图像中目标对象的位置以及待处理图像中的文本信息中的之一；深度学习模型是根据上述深度学习模型的训练方法训练得到的。

根据第三方面，提供了一种深度学习模型的训练装置，该装置包括：第一确定模块，用于根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及训练样本的第一标签，确定预训练模型和深度学习模型的蒸馏损失以及深度学习模型的第一真值损失；第二确定模块，用于根据将验证样本输入深度学习模型得到的第三输出结果以及验证样本的第二标签，确定深度学习模型的第二真值损失；第三确定模块，用于根据蒸馏损失、第一真值损失、第二真值损失以及关于深度学习模型的拟合状态的评估函数，确定整体损失；以及调整模块，用于根据整体损失，调整深度学习模型的参数。

根据第四方面，提供了一种图像处理装置，该装置包括：获取模块，用于获取待处理图像；以及处理模块，用于将待处理图像输入深度学习模型，得到待处理图像的处理结果，其中处理结果包括待处理图像的类别、待处理图像中目标对象的位置以及待处理图像中的文本信息中的之一；深度学习模型是根据上述深度学习模型的训练装置训练得到的。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用深度学习模型的训练方法以及图像处理方法的示例性系统架构示意图；

图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图3是根据本公开的另一个实施例的深度学习模型的训练方法的流程图；

图4是根据本公开的一个实施例的深度学习模型的训练方法的原理图；

图5是根据本公开的一个实施例的图像处理方法的流程图；

图6是根据本公开的一个实施例的深度学习模型的训练装置的框图；

图7是根据本公开的一个实施例的图像处理装置的框图；

图8是根据本公开的一个实施例的深度学习模型的训练方法和/或图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

知识蒸馏指的是使用精度较高的大模型（也可以称为教师模型，模型规模较大，参数较多）去指导小模型（也可以称为学生模型，模型规模较小，参数较少）的训练过程，从而使得小模型也能获得与大模型相似的精度指标。可以理解，这里的模型规模可以包括模型中使用的卷积层个数，参数可以包括卷积层中的卷积核和对应权重以及全连接层中的偏移量等可调参数。

知识蒸馏模型的训练方法，按照损失函数的设计方式，可以包括以下几种。

一种知识蒸馏模型的训练方法，可以利用教师模型的输出来监督学生模型的输出。例如损失函数可以设计为教师模型的输出结果与学生模型的输出结果之间的差异（例如KL散度（Kullback-Leibler Divergence；KLD）、交叉熵等）。

一种知识蒸馏模型的训练方法，可以利用教师模型的中间结果来监督学生模型的中间结果。例如损失函数可以设计为教师模型的中间特征图与学生模型的中间特征图之间的差异（例如KL散度、交叉熵等）。

一种知识蒸馏模型的训练方法，可以利用教师模型对不同样本的相似度度量结果来监督学生模型对上述不同样本的相似度度量结果。教师模型对不同样本的相似度度量结果可以是教师模型对不同样本的预测结果之间的余弦距离等相似度指标。类似地，学生模型对上述不同样本的相似度度量结果可以是学生模型对上述不同样本的预测结果之间的余弦距离等相似度指标。该知识蒸馏模型的训练方法的损失函数例如可以设计为教师模型的相似度度量结果与学生模型的相似度度量结果之间的差异（例如KL散度、交叉熵等）。

模型在训练过程中，模型的拟合状态不断在变化。模型的拟合状态包括过拟合、欠拟合以及正常拟合。过拟合指的是模型在训练集上表现良好，但是在验证集上表现不佳，可以理解为模型只记住了训练集数据，而不是学习到了数据特征，模型的泛化能力差。欠拟合指的是模型在训练集和验证集上表现都不好，可以理解为模型描述能力太弱，不能很好学习到数据中的规律。正常拟合是模型拟合的理想状态，指的是模型在训练集、验证集上均表现良好，模型的泛化能力强且预测误差小。

上述任一种知识蒸馏模型的训练方法，在模型处于拟合状态动态变化过程中，均采用统一的调参方式，未考虑训练过程中模型的拟合状态对模型训练效果的影响，导致模型训练效果差。

一种防止模型过拟合的方法，可以给损失函数加一些限制（例如正则化约束条件），使模型增强泛化能力。例如，知识蒸馏本身是为提高学生模型的泛化能力的，本身带有正则化的效果，对于过拟合的模型使用知识蒸馏的方法进行训练，可以在一定程度上防止模型过拟合。但是对于一些非常轻量级的模型来说（训练过程倾向于欠拟合），采用知识蒸馏的方式进行训练，可能会带来进一步的欠拟合现象，从而导致模型精度变差。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用深度学习模型的训练方法以及图像处理方法的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105进行交互，以接收或发送消息等。终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等等。

本公开实施例所提供的深度学习模型的训练方法以及图像处理方法中的至少之一一般可以由服务器105执行。相应地，本公开实施例所提供的深度学习模型的训练装置以及图像处理装置一般可以设置于服务器105中。本公开实施例所提供的深度学习模型的训练方法以及图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的深度学习模型的训练装置以及图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图2所示，该深度学习模型的训练方法200可以包括操作S210~操作S240。

在操作S210，根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及训练样本的第一标签，确定预训练模型和深度学习模型的蒸馏损失以及深度学习模型的第一真值损失。

例如，预训练模型和深度学习模型可以分别是知识蒸馏中的教师模型和学生模型。教师模型可以是经训练的已具备较高精度的模型。

本实施例的教师模型和学生模型可以均是应用于计算机视觉任务中的模型，计算机视觉任务例如包括图像分类、目标检测以及OCR（Optical Character Recognition，光学字符识别）任务中的文本识别等。

例如，用于训练学生模型的训练集可以包括个M个训练样本（M为大于1的整数，例如M等于1万），训练样本可以是具有标签的样本图像。可以将该M个训练样本输入教师模型和学生模型，分别得到教师模型针对该M个训练样本的第一输出结果以及学生模型针对该1万个训练样本的第二输出结果。根据知识蒸馏应用于不同的视觉任务，第一输出结果（以及第二输出结果）具有不同的含义。对应地，训练样本的第一标签也具有不同含义。

例如，在图像分类应用中，第一输出结果和第二输出结果可以均表示训练样本的预测类别，第一标签表示训练样本的真实类别。在目标检测应用中，第一输出结果和第二输出结果可以均表示训练样本中目标对象的预测位置，第一标签表示训练样本中的目标对象的真实位置。在文本识别应用中，第一输出结果和第二输出结果可以均表示训练样本中的预测文本，第一标签表示训练样本中的真实文本。

例如，针对每个训练样本，可以计算针对该训练样本的第一输出结果（例如教师模型针对该训练样本输出的预测类别、预测位置以及预测文本中的之一）与第二输出结果（例如学生模型针对该训练样本输出的预测类别、预测位置以及预测文本中的之一）之间的差异（例如KL散度），作为教师模型和学生模型针对该训练样本的蒸馏损失。所有训练样本的蒸馏损失之和或平均值可以作为教师模型和学生模型在训练集上的蒸馏损失。

例如，针对每个训练样本，可以计算针对该训练样本的第二输出结果（例如学生模型针对该训练样本输出的预测类别、预测位置以及预测文本中的之一）与第一标签（例如训练样本的真实类别、真实位置以及真实文本中的之一）之间的差异（例如交叉熵），作为学生模型针对该训练样本的真值损失（第一真值损失）。学生模型针对所有训练样本的第一真值损失之和或平均值可以作为学生模型在训练集上的第一真值损失。

在操作S220，根据将验证样本输入深度学习模型得到的第三输出结果以及验证样本的第二标签，确定深度学习模型的第二真值损失。

例如，在使用训练集完成一轮训练之后，可以使用验证集进行一次验证。可以理解，验证过程与训练过程是一样的。

例如，验证集可以包括N（N为大于1的整数，例如N等于1千）个验证样本，验证样本可以是具有标签的验证图像。可以将该N个验证样本输入学生模型，得到学生模型对该N个验证样本的第三输出结果。与第一输出结果和第二输出结果类似，第三输出结果可以表示验证样本的预测类别、验证样本中目标对象的预测位置以及验证样本中的预测文本等。对应地，验证样本的第二标签也可以表示验证样本的真实类别、验证样本中目标对象的真实位置以及验证样本中的真实文本等。

与操作S210类似，可以针对每一个验证样本，计算该验证样本的第三输出结果（例如学生模型针对该验证样本输出的预测类别、预测位置以及预测文本中的之一）与第二标签（例如该验证样本的真实类别、真实位置以及真实文本中的之一）之间的差异（例如交叉熵），作为学生模型针对该验证样本的真值损失（第二真值损失）。学生模型针对所有验证样本的第二真值损失之和或平均值可以作为学生模型在验证集上第二真值损失。

可以理解，也可以将验证集输入教师模型，得到教师模型针对验证样本的输出结果。本实施例可以无需获取教师模型针对验证样本的输出结果，但是本公开不对此做限制，也可以根据实际应用场景获取教师模型针对验证样本的输出结果。

在操作S230，根据蒸馏损失、第一真值损失、第二真值损失以及关于深度学习模型的拟合状态的评估函数，确定整体损失。

例如，拟合误差可以表征学生模型的拟合状态，因此评估函数可以是关于拟合误差的函数。拟合误差例如可以根据学生模型在训练集上的第一真值损失以及在验证集上的第二真值损失确定。例如，拟合误差可以根据如下公式（1）表示。

（1）

其中，x表示拟合误差，Loss_train表示M个训练样本的第一真值损失的平均值，Loss_val表示N个验证样本的第二真值损失的平均值。

可以理解，拟合误差x趋近于负无穷时（例如Loss_train无限小，Loss_val无限大），表示学生模型在训练集上表现很好，而在验证集上表现差，因此学生模型处于过拟合状态。拟合误差x趋近于正无穷时（例如Loss_train无限大），表示学生模型在训练集上表现差，因此学生模型处于过拟合状态。

例如，评估函数可以是关于拟合误差的单调递增函数，可以用如下公式（2）表示。

（2）

其中，F(x)表示评估函数，x表示拟合误差，b为大于1的常数，例如b=2。

可以理解，x=0时，F(x)=1。x趋近于负无穷时，学生模型处于过拟合状态，F(x)趋近于0。x趋近于正无穷时，学生模型处于欠拟合状态，F(x)趋近于b。x初始值可以为0，F(x)的初始值可以为1。

可以理解，蒸馏损失和第一真值损失作为训练过程中产生的损失，评估函数F(x)是关于学生模型拟合状态的函数，因此，基于蒸馏损失、第一真值损失以及评估函数来确定整体损失，能够基于学生模型的拟合状态进行学生模型参数的调整。

在操作S240，根据整体损失，调整深度学习模型的参数。

例如，可以根据整体损失调整学生模型的参数。也可以根据实际场景，选择是否调整教师模型的参数。

根据本公开的实施例，模型在不同拟合状态下，可以计算得到不同的损失，因此，引入拟合状态评估函数可以对学生模型在不同拟合状态下的训练进行区分，达到学生模型的训练根据拟合状态动态调整的效果，提高模型精度，进而提高图像处理效果。

例如可以提高图像分类的准确率，提高识别图像中对象的位置的精确度，以及提高识别图像中文本内容的准确性。

图3是根据本公开的另一个实施例的深度学习模型的训练方法的流程图。

如图3所示，该深度学习模型的训练方法300可以包括操作S310~操作S390。

在操作S310，将所有样本划分为训练集和验证集，并分别对训练集和验证集进行预处理。

例如，训练集可以包括1万个训练样本，验证集可以包括1千个验证样本。可以对训练样本和验证样本均进行归一化、尺寸变换等预处理，预处理后的训练样本和验证样本例如能够直接被深度学习模型处理，以下训练样本和验证样本均指预处理后的训练样本和验证样本。

针对训练样本，可以进行如下操作S320~操作S350。针对验证样本，可以进行如下操作S360。

在操作S320，将训练样本输入教师模型和学生模型，得到第一输出结果和第二输出结果，并计算教师模型和学生模型的蒸馏损失以及学生模型的第一真值损失。

操作S320的具体实现方式可以参考操作S210，这里不再赘述。

在操作S330，根据第一输出结果，将训练样本划分为简单样本和困难样本。

例如，由于教师模型是经训练的精度较高的大模型，因此可以根据教师模型的第一输出结果的正确性来对训练样本进行划分。如果训练样本的第一输出结果与第一标签相同，说明教师模型对该训练样本预测正确，否则该训练样本预测错误。可以将预测正确的训练样本确定为简单样本，将预测错误的训练样本确定为困难样本。

在操作S340，确定针对简单样本的第一部分损失以及针对困难样本的第二部分损失。

例如，针对简单样本，蒸馏损失可以记为ldr，ldr可以表示所有简单样本的蒸馏损失之和或平均值。针对简单样本，第一真值损失可以记为lgtr，lgtr可以表示所有简单样本的第一真值损失之和或平均值。针对简单样本的第一部分损失L_soft可以用如下公式（3）表示。

（3）

针对困难样本，蒸馏损失可以记为ldw，ldw可以表示所有困难样本的蒸馏损失之和或平均值。针对困难样本，第一真值损失可以记为lgtw，lgtw可以表示所有困难样本的第一真值损失之和或平均值。针对困难样本的第二部分损失L_hard可以用如下公式（4）表示。

（4）

在操作S350，根据第一部分损失、第二部分损失以及评估函数，确定整体损失的损失函数。

例如，由于评估函数是关于拟合误差x的函数，整体损失的损失函数也可以是关于拟合误差x的函数。损失函数可以用如下公式（5）表示。

（5）

其中，Loss(x)表示整体损失的损失函数，L_soft表示第一部分损失，参见上述公式（3），L_hard表示第二部分损失，参见上述公式（4）， F(x)表示评估函数，表达式见上述公式（2），x表示拟合误差，表达式见上述公式（1）。

例如，参见公式（2），x趋近于负无穷时，学生模型处于过拟合状态， F(x)趋近于0。x趋近于正无穷时，学生模型处于欠拟合状态， F(x)趋近于b。因此，在学生模型处于不同拟合状态时， F(x)可以对简单样本的第一部分损失和困难样本的第二部分损失所占的比例进行调整。

例如， F(x)中的常数b=2，x趋于负无穷，学生模型处于过拟合状态， F(x)趋近于0，则公式（5）中简单样本的第一部分损失L_soft所在项趋于0，困难样本的第二部分损失L_hard所在项比例趋于增加至2倍。因此，在学生模型处于过拟合状态的情况下，本实施例可以增加困难样本的损失所占的比例，使学生模型学习到更多的特征，从而提高泛化能力。

例如，x趋于正无穷，学生模型处于欠拟合状态，F(x)趋于2，困难样本的第二部分损失L_hard所在项趋于0，简单样本的第一部分损失L_soft所在项趋于增加至2倍。因此，在学生模型处于欠拟合状态的情况下，本实施例可以增加简单样本的损失所占的比例，从简单样本开始学习，提高模型的表达能力。

因此，在模型处于不同拟合状态下，通过评估函数调节简单样本以及困难样本的损失的比例，能够达到模型训练根据拟合状态动态调整的效果，提高模型精度，进而提高图像处理效果。

在操作S360，将验证样本输入学生模型，得到第三输出结果，并计算学生模型的第二真值损失。

操作S360的具体实现方式可以参考操作S220，这里不再赘述。

在操作S370，根据第一真值损失以及第二真值损失确定拟合误差，将拟合误差输入损失函数得到整体损失，并根据整体损失调整学生模型的参数。

例如，可以根据上述公式（1）计算拟合误差，并将拟合误差代入到上述计算整体损失的公式（5）中，得到整体损失。

在操作S380，判断迭代次数是否达到上限，若是则执行操作S390，否则返回操作S320。

例如，可以设置最大迭代次数E，例如E=300。在第e个迭代轮数时，执行上述操作S320~操作S380。直到e>E，结束迭代。

在操作S390，保存学生模型。

例如，训练结束得到经训练的学生模型，保存该经训练的学生模型。相比于教师模型，学生模型参数较小，可使用学生模型代替教师模型应用于图像分类、目标检测和文本识别等，实现了教师模型的压缩。

图4是根据本公开的一个实施例的深度学习模型的训练方法的原理图。

如图4所示，知识蒸馏模型400包括教师模型401和学生模型402。图4中所示的两个知识蒸馏模型400为同一知识蒸馏模型。训练集411包括多个训练样本，每个训练样本具有第一标签412。训练集411输入知识蒸馏模型400，可以得到教师模型401输出的第一输出结果413以及学生模型402输出的第二输出结果414。根据第一输出结果413和第二输出结果414可以计算知识蒸馏模型400的蒸馏损失415。根据第二输出结果414和第一标签412可以计算学生模型402的第一真值损失416。

根据第一输出结果413可以将训练集411中的训练样本划分为简单样本和困难样本。简单样本可以是第一输出结果413正确的训练样本，困难样本可以是第一输出结果413错误的训练样本。对应地，可以将蒸馏损失415划分为与简单样本对应的蒸馏损失（记为ldr）以及与困难样本对应的蒸馏损失（记为ldw）。类似地，可以将第一真值损失416划分为与简单样本对应的第一真值损失（记为lgtr）以及与困难样本对应的第一真值损失（记为lgtw）。

根据简单样本的蒸馏损失（ldr）以及第一真值损失（lgtr）可以确定第一部分损失417（可以记为L_soft）。根据困难样本的蒸馏损失（ldw）以及困难样本的第一真值损失（lgtw），可以确定第二部分损失418（可以记为L_hard）。

验证集421包括多个验证样本，每个验证样本具有第二标签422。将验证集421输入知识蒸馏模型400，可以得到学生模型402输出的第三输出结果423。根据第三输出结果423以及第二标签422，可以计算学生模型402的第二真值损失424。根据第一真值损失416和第二真值损失424，可以使用上述公式（1）计算拟合误差425。

根据第一部分损失417、第二部分损失418以及评估函数419（见上述公式（2）），可以确定整体损失的损失函数431（见上述公式（5））。由于评估函数419是关于拟合误差425的函数，因此损失函数431也是关于拟合误差425的函数。将拟合误差425代入到损失函数431，可以得到整体损失432。

根据整体损失432可以调整学生模型402的参数，得到更新的模型。重复上述操作，直至重复次数达到上限，可以得到训练好的学生模型402。

图5是根据本公开的一个实施例的图像处理方法的流程图。

如图5所示，图像处理方法500包括操作S510~操作S520。

在操作S510，获取待处理图像。

在操作S520，将待处理图像输入深度学习模型，得到待处理图像的处理结果。

深度学习模型是根据上述深度学习模型的训练方法训练得到的，例如，深度学习模型是学生模型。

本实施例的应用场景可以是图像分类，将待处理图像输入深度学习模型，可以得到待处理图像的类别。本实施例的应用场景还可以是目标检测，待处理图像可以包括目标对象（例如人或动物等对象），将待处理图像输入深度学习模型，可以得到待处理图像中的目标对象的位置。本实施例的应用场景还可以是文本识别，待处理图像可以包括文本信息，将待处理图像输入深度学习模型，可以得到待处理图像中的文本内容。

图6是根据本公开的一个实施例的深度学习模型的训练装置的框图。

如图6所示，该深度学习模型的训练装置600包括第一确定模块601、第二确定模块602、第三确定模块603以及调整模块604。

第一确定模块601用于根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及训练样本的第一标签，确定预训练模型和深度学习模型的蒸馏损失以及深度学习模型的第一真值损失。

第二确定模块602用于根据将验证样本输入深度学习模型得到的第三输出结果以及验证样本的第二标签，确定深度学习模型的第二真值损失。

第三确定模块603用于根据蒸馏损失、第一真值损失、第二真值损失以及关于深度学习模型的拟合状态的评估函数，确定整体损失。

调整模块604用于根据整体损失，调整深度学习模型的参数。

评估函数是关于深度学习模型的拟合误差的函数；第三确定模块603包括第一确定单元、第二确定单元以及第三确定单元。

第一确定单元用于根据蒸馏损失、第一真值损失以及评估函数，确定关于拟合误差的整体损失的损失函数。

第二确定单元用于根据第一真值损失以及第二真值损失，确定拟合误差。

第三确定单元用于将拟合误差输入损失函数，得到整体损失。

第一确定单元包括划分子单元、第一确定子单元、第二确定子单元以及第三确定子单元。

划分子单元用于根据第一输出结果，将训练样本划分为简单样本和困难样本。

第一确定子单元用于根据与简单样本对应的蒸馏损失和第一真值损失，确定第一部分损失。

第二确定子单元用于根据与困难样本对应的蒸馏损失和第一真值损失，确定第二部分损失。

第三确定子单元用于根据第一部分损失、第二部分损失以及评估函数，确定关于拟合误差的整体损失的损失函数。

划分子单元用于将第一输出结果与第一标签相同的训练样本确定的简单样本；以及将第一输出结果与第一标签不相同的训练样本确定的困难样本。

第三确定子单元用于根据以下公式确定损失函数：

其中，Loss(x)表示损失函数，L_soft表示第一部分损失，L_hard表示第二部分损失，F(x)表示评估函数，x表示拟合误差，b为大于1的常数。

训练样本包括M个训练样本，第一真值损失包括M个训练样本的第一真值损失，验证样本包括N个验证样本，第二真值损失包括N个验证样本的第二真值损失，M和N均为大于1的整数；第二确定单元用于计算M个训练样本的平均第一真值损失与N个验证样本的平均第二真值损失之间的差值，作为拟合误差。

第一确定模块包括第四确定单元和第五确定单元。

第四确定单元用于根据第一输出结果与第二输出结果之间的差异，确定蒸馏损失。

第五确定单元用于根据第二输出结果与第一标签之间的差异，确定第一真值损失。

第二确定模块用于根据第三输出结果与第二标签之间的差异，确定第二真值损失。

图7是根据本公开的一个实施例的图像处理装置的框图。

如图7所示，该图像处理装置700可以包括获取模块701和处理模块702。

获取模块701用于获取待处理图像。

处理模块702用于将待处理图像输入深度学习模型，得到待处理图像的处理结果，其中处理结果包括待处理图像的类别、待处理图像中目标对象的位置以及待处理图像中的文本信息中的之一。

其中，深度学习模型是根据上述深度学习模型的训练装置训练得到的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如深度学习模型的训练方法和/或图像处理方法。例如，在一些实施例中，深度学习模型的训练方法和/或图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的深度学习模型的训练方法和/或图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行深度学习模型的训练方法和/或图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的训练方法，包括：

根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及所述训练样本的第一标签，确定所述预训练模型和所述深度学习模型的蒸馏损失以及所述深度学习模型的第一真值损失，其中，所述训练样本是具有所述第一标签的图像样本，所述第一真值损失表征所述第二输出结果和所述第一标签之间的差异；

根据将验证样本输入所述深度学习模型得到的第三输出结果以及所述验证样本的第二标签，确定所述深度学习模型的第二真值损失，其中，所述验证样本是具有所述第二标签的图像样本，所述第二真值损失表征所述第三输出结果和所述第二标签之间的差异；

根据所述蒸馏损失、所述第一真值损失、所述第二真值损失以及关于所述深度学习模型的拟合状态的评估函数，确定整体损失；以及

根据所述整体损失，调整所述深度学习模型的参数；

其中，所述第一输出结果、所述第二输出结果以及所述第三输出结果具有相同类型的图像处理结果；所述相同类型包括图像类别、图像中的目标对象的位置以及图像中的文本信息中的之一；

其中，所述评估函数是关于所述深度学习模型的拟合误差的函数；所述根据所述蒸馏损失、所述第一真值损失、所述第二真值损失以及关于所述深度学习模型的拟合状态的评估函数，确定整体损失包括：

根据所述蒸馏损失、所述第一真值损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数；

根据所述第一真值损失以及所述第二真值损失，确定所述拟合误差；以及

将所述拟合误差输入所述损失函数，得到所述整体损失。

2.根据权利要求1所述的方法，其中，所述根据所述蒸馏损失、所述第一真值损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数包括：

根据所述第一输出结果，将所述训练样本划分为简单样本和困难样本；

根据与所述简单样本对应的蒸馏损失和第一真值损失，确定第一部分损失；

根据与所述困难样本对应的蒸馏损失和第一真值损失，确定第二部分损失；以及

根据所述第一部分损失、所述第二部分损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数。

3.根据权利要求2所述的方法，其中，所述根据所述第一输出结果，将所述训练样本划分为简单样本和困难样本包括：

将所述第一输出结果与所述第一标签相同的训练样本确定的简单样本；以及

将所述第一输出结果与所述第一标签不相同的训练样本确定的困难样本。

4.根据权利要求2所述的方法，其中，所述根据所述第一部分损失、所述第二部分损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数包括：

根据以下公式确定所述损失函数：

其中， Loss(x)表示所述损失函数，L_soft表示所述第一部分损失，L_hard表示所述第二部分损失，F(x)表示所述评估函数，x表示所述拟合误差，b为大于1的常数。

5.根据权利要求1所述的方法，其中，所述训练样本包括M个训练样本，所述第一真值损失包括M个训练样本的第一真值损失，所述验证样本包括N个验证样本，所述第二真值损失包括N个验证样本的第二真值损失，M和N均为大于1的整数；所述根据所述第一真值损失以及所述第二真值损失，确定所述拟合误差包括：

计算所述M个训练样本的平均第一真值损失与所述N个验证样本的平均第二真值损失之间的差值，作为所述拟合误差。

6.根据权利要求1所述的方法，其中，所述根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及所述训练样本的第一标签，确定所述预训练模型和所述深度学习模型的蒸馏损失以及所述深度学习模型的第一真值损失包括：

根据所述第一输出结果与所述第二输出结果之间的差异，确定所述蒸馏损失；以及

根据所述第二输出结果与所述第一标签之间的差异，确定所述第一真值损失。

7.根据权利要求1所述的方法，其中，所述根据将验证样本输入所述深度学习模型得到的第三输出结果以及所述验证样本的第二标签，确定所述深度学习模型的第二真值损失包括：

根据所述第三输出结果与所述第二标签之间的差异，确定所述第二真值损失。

8.一种图像处理方法，包括：

获取待处理图像；以及

将所述待处理图像输入深度学习模型，得到所述待处理图像的处理结果，其中所述处理结果包括所述待处理图像的类别、所述待处理图像中目标对象的位置以及所述待处理图像中的文本信息中的之一；

其中，所述深度学习模型是根据权利要求1至7中任一项所述的方法训练的。

9.一种深度学习模型的训练装置，包括：

第一确定模块，用于根据将训练样本输入预训练模型得到的第一输出结果、输入深度学习模型得到的第二输出结果以及所述训练样本的第一标签，确定所述预训练模型和所述深度学习模型的蒸馏损失以及所述深度学习模型的第一真值损失，其中，所述训练样本是具有所述第一标签的图像样本，所述第一真值损失表征所述第二输出结果和所述第一标签之间的差异；

第二确定模块，用于根据将验证样本输入所述深度学习模型得到的第三输出结果以及所述验证样本的第二标签，确定所述深度学习模型的第二真值损失，其中，所述验证样本是具有所述第二标签的图像样本，所述第二真值损失表征所述第三输出结果和所述第二标签之间的差异；

第三确定模块，用于根据所述蒸馏损失、所述第一真值损失、所述第二真值损失以及关于所述深度学习模型的拟合状态的评估函数，确定整体损失；以及

调整模块，用于根据所述整体损失，调整所述深度学习模型的参数；

其中，所述评估函数是关于所述深度学习模型的拟合误差的函数；所述第三确定模块包括：

第一确定单元，用于根据所述蒸馏损失、所述第一真值损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数；

第二确定单元，用于根据所述第一真值损失以及所述第二真值损失，确定所述拟合误差；以及

第三确定单元，用于将所述拟合误差输入所述损失函数，得到所述整体损失。

10.根据权利要求9所述的装置，其中，所述第一确定单元包括：

划分子单元，用于根据所述第一输出结果，将所述训练样本划分为简单样本和困难样本；

第一确定子单元，用于根据与所述简单样本对应的蒸馏损失和第一真值损失，确定第一部分损失；

第二确定子单元，用于根据与所述困难样本对应的蒸馏损失和第一真值损失，确定第二部分损失；以及

第三确定子单元，用于根据所述第一部分损失、所述第二部分损失以及所述评估函数，确定关于所述拟合误差的所述整体损失的损失函数。

11.根据权利要求10所述的装置，其中，所述划分子单元用于将所述第一输出结果与所述第一标签相同的训练样本确定的简单样本；以及将所述第一输出结果与所述第一标签不相同的训练样本确定的困难样本。

12.根据权利要求10所述的装置，其中，所述第三确定子单元用于根据以下公式确定所述损失函数：

13.根据权利要求9所述的装置，其中，所述训练样本包括M个训练样本，所述第一真值损失包括M个训练样本的第一真值损失，所述验证样本包括N个验证样本，所述第二真值损失包括N个验证样本的第二真值损失，M和N均为大于1的整数；所述第二确定单元用于计算所述M个训练样本的平均第一真值损失与所述N个验证样本的平均第二真值损失之间的差值，作为所述拟合误差。

14.根据权利要求9所述的装置，其中，所述第一确定模块包括：

第四确定单元，用于根据所述第一输出结果与所述第二输出结果之间的差异，确定所述蒸馏损失；以及

第五确定单元，用于根据所述第二输出结果与所述第一标签之间的差异，确定所述第一真值损失。

15.根据权利要求9所述的装置，其中，所述第二确定模块用于根据所述第三输出结果与所述第二标签之间的差异，确定所述第二真值损失。

16.一种图像处理装置，包括：

获取模块，用于获取待处理图像；以及

处理模块，用于将所述待处理图像输入深度学习模型，得到所述待处理图像的处理结果，其中所述处理结果包括所述待处理图像的类别、所述待处理图像中目标对象的位置以及所述待处理图像中的文本信息中的之一；

其中，所述深度学习模型是根据权利要求9至15中任一项所述的装置训练的。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。