CN115456167B

CN115456167B - 轻量级模型训练方法、图像处理方法、装置及电子设备

Info

Publication number: CN115456167B
Application number: CN202211059602.5A
Authority: CN
Inventors: 郭若愚; 杜宇宁; 李晨霞; 赖宝华; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-12
Anticipated expiration: 2042-08-30
Also published as: US20240070454A1; JP2024035052A; CN115456167A

Abstract

本公开提供了一种轻量级模型训练方法、图像处理方法、装置及电子设备。涉及计算机技术领域，尤其涉及机器学习、计算机视觉、图像处理等技术领域。具体方案为：获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重；分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，基于第二数据集得到第三输出值和第四输出值；确定蒸馏损失函数；确定真值损失函数；确定目标损失函数；基于目标损失函数对学生模型进行训练，在e小于E的情况下确定第e+1轮迭代应采用的第一增广概率或目标权重。根据本公开，能提高轻量级模型的训练精度。

Description

轻量级模型训练方法、图像处理方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及机器学习、计算机视觉、图像处理等技术领域。

背景技术

知识蒸馏是一种常用的模型压缩方法，它指的是使用精度更高的教师模型去指导学生模型的训练过程，从而使得学生模型也能获得与教师模型相似的精度指标。知识蒸馏本身是带有正则化的效果，对于过拟合的模型采用知识蒸馏的方法进行训练，可以在一定程度上防止模型过拟合。但是对于一些轻量级模型来说，使用知识蒸馏策略进行训练，可能会带来进一步的欠拟合现象，从而导致模型精度变差，甚至不收敛。

发明内容

本公开提供了一种轻量级模型训练方法、图像处理方法、装置及电子设备。

根据本公开的第一方面，提供了一种轻量级模型训练方法，包括：

获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，目标权重是蒸馏项损失值的权重，e为不大于E的正整数，E为最大迭代轮数，E为大于1的正整数；

分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；

基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，学生模型是轻量级模型；

基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；

基于蒸馏损失函数和真值损失函数确定目标损失函数；

基于目标损失函数对学生模型进行训练，以及在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重。

根据本公开的第二方面，提供了一种图像处理方法，包括：

接收目标场景下的待处理图像；

将待处理图像输入学生模型，获取学生模型输出的对所述待处理图像的处理结果；

其中，学生模型采用根据第一方面提供的轻量级模型训练方法得到。

根据本公开的第三方面，提供一种轻量级模型训练装置，包括：

第一获取模块，用于获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，目标权重是蒸馏项损失值的权重，e为不大于E的正整数，E为最大迭代轮数，E为大于1的正整数；

数据增广模块，用于分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；

预测模块，用于基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，学生模型是轻量级模型；

第一确定模块，用于基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；

第二确定模块，用于基于蒸馏损失函数和真值损失函数确定目标损失函数；

训练模块，用于基于目标损失函数对学生模型进行训练；

第三确定模块，用于在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重。

根据本公开的第四方面，提供一种图像处理装置，包括：

接收模块，用于接收目标场景下的待处理图像；

处理模块，用于将待处理图像输入学生模型，获取学生模型输出的对所述待处理图像的处理结果；

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行上述第一方面和/或第二方面所提供的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行上述第一方面和/或第二方面所提供的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述第一方面和/或第二方面所提供的方法。

根据本公开的技术方案，能提高轻量级模型的训练精度。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的轻量级模型训练方法的流程示意图；

图2是根据本公开实施例的基于知识蒸馏的轻量级模型的训练流程示意图；

图3是根据本公开实施例的图像处理方法的流程示意图；

图4是根据本公开实施例的轻量级模型训练装置的组成示意图；

图5是根据本公开实施例的图像处理装置的组成示意图；

图6是根据本公开实施例的轻量级模型训练场景的示意图；

图7是根据本公开实施例的图像处理场景的示意图；

图8是用来实现本公开实施例的轻量级模型训练方法或图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，知识蒸馏方法主要有以下几种：

基于模型输出的蒸馏，即使用教师模型的输出直接监督学生模型的输出；

基于中间层特征的蒸馏，即使用教师模型的中间特征图去监督学生模型中间特征图的输出；

基于关系的蒸馏，即考虑教师模型对于不同样本的相似度等度量指标与学生模型的差异，基于此去指导学生模型的训练。

上述知识蒸馏方法，大多针对蒸馏的损失函数以及特征选择过程进行设计与选型，对学生模型的拟合状态研究较少。

知识蒸馏过程中，损失函数包括针对蒸馏任务的损失函数(可称为知识蒸馏损失函数)以及真值的损失函数(可称为真值损失函数)，其中，知识蒸馏损失函数可以增加模型的泛化性能，具有放正则化效果；真值损失函数则可以使得模型快速收敛。

深度训练任务中，一般包含大量的数据增广过程，来提升模型的泛化性能，在训练过程中，一般保证数据增广的操作、概率等不变，而这容易造成模型训练过程的不一致；在训练前期，模型训练目标为更快地收敛，在训练后期，模型训练目标为更好地泛化，而保持数据增广不变，无法同时满足两个训练阶段的目标。

目前的知识蒸馏算法没有考虑学生模型的拟合状态，使用教师模型去监督学生模型的输出，容易使得小模型的知识蒸馏过程出现欠拟合的状态，从而降低模型精度。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种轻量级模型训练方案，能有效避免采用知识蒸馏策略训练轻量级模型时出现的欠拟合现象，从而提高轻量级模型的训练精度，提升轻量级模型知识蒸馏的精度。

本公开实施例提供了一种轻量级模型训练方法，图1是根据本公开实施例的轻量级模型训练方法的流程示意图，该轻量级模型训练方法可以应用于轻量级模型训练装置。该轻量级模型训练装置可位于电子设备，该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑中的一项或是多项终端。在一些可能的实现方式中，该轻量级模型训练方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该轻量级模型训练方法包括：

S101：获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，该目标权重是蒸馏项损失值的权重，e为不大于E的正整数，E为最大迭代轮数，E为大于1的正整数；

S102：分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；

S103：基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，该学生模型是轻量级模型；

S104：基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；

S105：基于蒸馏损失函数和真值损失函数确定目标损失函数；

S106：基于目标损失函数对学生模型进行训练，以及在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重。

本公开实施例中，学生模型用于进行图像处理。本公开不对学生模型的功能可根据本身的场景和用途进行限定。比如，学生模型用于进行图像分类。又比如，学生模型用于进行图像识别。再比如，学生模型用于进行目标检测。以上仅为示例性说明，不作为对学生模型的全部可能的功能类型的限定，只是这里不做穷举。

本公开实施例中，教师模型是已经训练好的模型。需要说明的是，本公开不对教师模型的量级进行限定，教师模型可以是大模型，也可以是小模型。

本公开实施例中，可根据需求如速度需求或精度需求对E的值进行设定。

本公开实施例中，第二增广概率与第一增广概率的值不同。通常来说，第二增广概率的值大于第一增广概率的值。

本公开实施例中，总损失函数包括蒸馏项损失和真值项损失，其中，若蒸馏项损失的权重为a，则真值项损失权重为1-a。

本公开实施例中，在第e轮迭代开始前，输入至第e轮的数据集，可以是基于第e-1轮生成的第一数据集和第二数据集的合集，也可以是基于第e-1轮生成的第一数据集和第二数据集的部分集合，还可以是原始数据集。以上仅为示例性说明，不对输入第e轮的数据集包括的数据的全部可能的类型的限定，只是这里不做穷举。

本公开实施例中，数据增广用于增加数据集(也可称为训练集)的数据量。通过数据增广，能够增加数据集的多样性，减少过拟合并提高模型的泛化能力。

本公开实施例中，具体如何确定蒸馏损失函数、真值损失函数和目标损失函数，在后续实施例中详细描述，在此不再赘述。

本公开实施例中，学生模型的网络结构，可包括卷积神经网络(ConvolutionalNeural Networks,CNN)，transformer。以上仅为示例性说明，不作为对学生模型包括的全部可能的网络类型的限定，只是这里不做穷举。

本公开实施例所述的技术方案，获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重；分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，该学生模型是轻量级模型；基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；基于蒸馏损失函数和真值损失函数确定目标损失函数；基于目标损失函数对学生模型进行训练，以及在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重；如此，通过数据增广，能够增加数据集的多样性，减少过拟合并提高轻量级模型的泛化能力。同时，在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重，能够动态调整整个训练过程中的第一增广概率或目标权重，能有效避免采用知识蒸馏策略训练轻量级模型时出现的欠拟合现象，从而提高模型的训练精度。

在一些实施例中，该轻量级模型训练方法，还可以包括：

S107：获取最大增广概率；基于最大增广概率、最大迭代轮数和第一增广概率，确定第二增广概率。

本公开实施例中，若第一增广概率为p_i，最大增广概率为p_aug，最大迭代轮数为E，则第二增广概率为p_i+p_aug*2/E。

这里，最大增广概率可根据需求如速度需求或精度需求或泛化能力需求进行设定或调整。

本公开实施例中，S107在S101之前执行。

本公开不对最大增广概率的获取方式进行限定。比如，通过用户界面接口接收训练相关参数。又比如，接收终端发送的训练相关参数。该训练相关参数包括最大增广概率。以上仅为示例性说明，不作为对最大增广概率全部可能的来源的限定，只是这里不做穷举。

需要说明的是，针对不同的学生模型，最大增广概率的设置值可以是不同的。

如此，使确定出的第二增广概率既与第一增广概率和最大迭代轮数有关，又与最大增广概率有关，能够提高第二数据集的泛化性和准确性，能够使确定出的学生模型输出的第三输出值与教师模型输出的第四输出值更准确，有助于提高目标损失函数选择的准确性，从而有助于提高轻量级模型的训练精度。

在一些实施例中，确定第e+1轮迭代应采用的第一增广概率，包括：基于最大增广概率、最大迭代轮数和第e轮的第一增广概率，确定第e+1轮迭代应采用的第一增广概率。

本公开实施例中，第e+1轮迭代应采用的第一增广概率p_i＝p_i+p_aug*2/E，其中，第一增广概率为p_i，最大增广概率为p_aug，最大迭代轮数为E。

如此，使确定出的第一增广概率既与上一轮的第一增广概率和最大迭代轮数有关，又与最大增广概率有关，能够提高第一数据集的泛化性和准确性，能够使确定出的学生模型输出的第一输出值与教师模型输出的第二输出值更准确，有助于提高目标损失函数选择的准确性，从而有助于提高轻量级模型的训练精度。

在一些实施例中，该轻量级模型训练方法，还可以包括：S108：获取最大目标权重。

本公开实施例中，S108在S101之前执行。S108可在S107之前执行，S108可在S107之后执行，S108可与S107同时执行。

本公开不对最大目标权重的获取方式进行限定。比如，通过用户界面接口接收训练相关参数。又比如，接收终端发送的训练相关参数。该训练相关参数包括最大目标权重。以上仅为示例性说明，不作为对最大目标权重全部可能的获取方式的限定，只是这里不做穷举。

需要说明的是，针对不同的学生模型，最大目标权重的设置值可以是不同的。

在一些实施例中，确定第e+1轮迭代应采用的目标权重，包括：基于最大目标权重、最大迭代轮数和第e轮的目标权重，确定第e+1轮迭代应采用的目标权重。

本公开实施例中，第e+1轮迭代应采用的目标权重a＝a+a_dft*2/E，其中，第e轮的目标权重为a，最大目标权重为a_dft，最大迭代轮数为E。

如此，能使确定出的目标权重既与上一轮的目标权重与最大迭代轮数有关，又与最大目标权重有关，有助于提高目标损失函数选择的准确性，从而有助于提高轻量级模型的训练精度。

本公开实施例中，基于蒸馏损失函数和真值损失函数确定目标损失函数，包括：在目标权重不小于最大目标权重或者蒸馏损失函数不小于真值损失函数的情况下，将蒸馏损失函数确定为所述目标损失函数；否则，将真值损失函数确定为所述目标损失函数。

本公开实施例中，若a≥a_dft或l1≥l2，则使用损失函数l2进行模型的反向传播与梯度更新，并设置e+1轮迭代应采用的第一增广概率p_i＝p_i+p_aug*2/E；否则，使用损失函数l1进行模型的反向传播与梯度更新，并设置e+1轮迭代应采用的目标权重为a＝a+a_dft*2/E。

如此，在训练过程中，能根据训练情况选择合适的目标损失函数，从而有助于提高轻量级模型的训练精度。

本公开实施例中，基于第一输出值和第二输出值确定蒸馏损失函数，包括：

根据下述公式确定蒸馏损失函数：

l1＝(a+a_dft*2/E)*L_dist(o1s，o1t)+(1-a-a_dft*2/E)*L_gt(o1s，gt)；

其中，l1表示蒸馏损失函数，L_dist(o1s，o1t)表示根据第一输出值和第二输出值确定出的蒸馏项损失值，L_gt(o1s，gt)表示根据第一输出值和真值确定出的真值项损失值，a表示目标权重，a_dft表示最大目标权重，E表示最大迭代轮数，gt表示真值，o1s表示第一输出值，ov表示第二输出值。

如此，能够快速确定出蒸馏损失函数，且使蒸馏损失函数与目标权重和最大迭代轮数相关，有助于提高蒸馏损失函数的准确性，从而有助于提高轻量级模型的训练精度。

本公开实施例中，基于第三输出值和第四输出值确定真值损失函数，包括：

根据下述公式确定真值损失函数：

l2＝a*L_dist(o2s，o2t)+(1-a)*L_gt(o2s，gt)；

其中，l2表示真值损失函数，L_dist(o2s，o2t)表示根据第三输出值和第四输出值确定出的蒸馏项损失值，L_gt(o2s，gt)表示根据第三输出值和真值确定出的真值项损失值，a表示目标权重，gt表示真值，o2s表示第三输出值，o2t表示第四输出值。

如此，能够快速确定出真值损失函数，且使真值损失函数与目标权重和最大迭代轮数相关，有助于提高真值损失函数的准确性，从而有助于提高轻量级模型的训练精度。

图2示出了基于知识蒸馏的轻量级模型的训练流程示意图，如图2所示，该流程包括：

S201：定义学生模型(Fs)与教师模型(Ft)，定义最大迭代轮数E，以及初始迭代轮数e＝1。

其中，教师模型是已经训练好的模型。

S202：在第e轮迭代过程中，使用第一增广概率p_i与第二增广概率p_i＝p_i+p_aug*2/E对原始数据进行增广并预处理，得到处理后的数据b1与b2；

S203：将处理后的数据b1送入学生模型与教师模型，分别得到学生模型输出的o1s与教师模型输出的o1t；

S204：将处理后的数据b2送入学生模型与教师模型，分别得到学生模型输出的o2s与教师模型输出的o2t；

S205：计算损失函数l1与l2；

S206：判断是否满足a≥a_dft或l1≥l2，如果是，执行S207；如果否，执行S208；

S207：将l2确定为目标损失函数，在e<E的情况下，设置e+1轮迭代应采用的第一增广概率p_i＝p_i+p_aug*2/E；

S208：将l1确定为目标损失函数，在e<E的情况下，设置第e+1轮迭代应采用的目标权重a＝a+a_dft*2/E；

S209：基于目标损失函数对学生模型进行模型的反向传播与梯度更新；

S210：判断是否满足e＜E，如果是，设置e＝e+1，返回步骤S202；否则，执行S211；

S211：保存模型，退出迭代。

如此，在基于知识蒸馏的轻量级模型训练的过程中，考虑数据增广概率、蒸馏损失函数权重对于训练过程的影响，在训练过程中提出动态调整与正则化相关的模型参数，如蒸馏损失函数的权重，数据增广的概率等，最终提升轻量级模型知识蒸馏的精度。

上述处理流程与所有的知识蒸馏算法均可以融合，并应用到不同的视觉任务中。视觉任务包括图像处理，图像处理包括但不限于图像识别、图像分类、目标检测、图像分割等处理。

应理解，图2所示的流程图仅仅是示意性而非限制性的，本领域技术人员可以基于图2的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

基于上述轻量级模型训练方法训练得到的学生模型，本公开实施例公开了一种图像处理方法，该图像处理方法应用于电子设备，该电子设备包括但不限于计算机、手机或平板电脑等，本公开不对电子设备的类型进行限定。如图3所示，该图像处理方法包括：

S301，接收目标场景下的待处理图像；

S302，将待处理图像输入学生模型，获取学生模型输出的对待处理图像的处理结果；

其中，该学生模型采用图1所示的轻量级模型训练方法得到。

如此，采用训练好的学生模型进行图像处理，能提高图像处理的精确性。

在一些实施例中，接收目标场景下的待处理图像，包括下述至少之一：

获取图像分类场景下的待处理图像；

获取图像识别场景下的待处理图像；

获取目标检测场景下的待处理图像。

可以理解，目标场景包括但不限于上述列举的场景，凡是与图像处理相关的场景，均可作为目标场景，在此不在穷举。

如此，能够采用训练好的学生模型，处理不同目标场景下的图像，进而提高学生模型的图像处理能力。

本公开实施例提供了轻量级模型训练装置，如图4所示，该装置可以包括：第一获取模块401，用于获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，目标权重是蒸馏项损失值的权重，e为不大于E的正整数，E为最大迭代轮数，E为大于1的正整数；数据增广模块402，用于分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；预测模块403，用于基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，学生模型是轻量级模型；第一确定模块404，用于基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；第二确定模块405，用于基于蒸馏损失函数和真值损失函数确定目标损失函数；训练模块406，用于基于目标损失函数对学生模型进行训练；第三确定模块407，用于在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重。

在一些实施例中，该轻量级训练装置还可包括：第二获取模块(图4未示出)，用于获取最大增广概率；第四确定模块(图4未示出)，用于基于最大增广概率、最大迭代轮数和第一增广概率，确定第二增广概率。

在一些实施例中，该第三确定模块407，包括：第一确定子单元，用于基于最大增广概率、最大迭代轮数和第e轮的第一增广概率，确定第e+1轮迭代应采用的第一增广概率。

在一些实施例中，该轻量级训练装置还可包括：第三获取模块(图4未示出)，用于获取最大目标权重；其中，该第三确定模块407，包括：第二确定子单元，用于基于最大目标权重、最大迭代轮数和第e轮的目标权重，确定第e+1轮迭代应采用的目标权重。

在一些实施例中，该第二确定模块405，包括：第三确定子单元，用于在目标权重不小于最大目标权重或者蒸馏损失函数不小于真值损失函数的情况下，将蒸馏损失函数确定为目标损失函数；否则，将真值损失函数确定为目标损失函数。

在一些实施例中，该第一确定模块404，包括：第四确定子单元，用于根据下述公式确定蒸馏损失函数：

l1＝(a+a_dft*2/E)*L_dist(o1s，o1t)+(1-a-a_dft*2/E)*L_gt(o1s，gt)；

其中，l1表示蒸馏损失函数，L_dist(o1s，o1t)表示根据第一输出值和第二输出值确定出的蒸馏项损失值，L_gt(o1s，gt)表示根据第一输出值和真值确定出的真值项损失值，a表示目标权重，a_dft表示最大目标权重，E表示最大迭代轮数，gt表示真值，o1s表示第一输出值，o1t表示第二输出值。

在一些实施例中，该第一确定模块404，包括：第五确定子单元，用于根据下述公式确定真值损失函数：

l2＝a*L_dist(o2s，o2t)+(1-a)*L_gt(o2s，gt)；

本领域技术人员应当理解，本公开实施例的轻量级模型训练装置中各处理模块的功能，可参照前述的轻量级模型训练方法的相关描述而理解，本公开实施例的轻量级模型训练装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的轻量级模型训练装置，能提高轻量级模型的训练精度。

本公开实施例提供了图像处理装置，应用于电子设备，如图5所示，该装置可以包括：接收模块501，用于接收目标场景下的待处理图像；处理模块502，用于将待处理图像输入学生模型，获取学生模型输出的对所述待处理图像的处理结果；其中，该学生模型采用根据轻量级模型训练方法得到。

在一些实施例中，该接收模块501获取目标场景下的待处理图像，包括下述至少之一：

获取图像分类场景下的待处理图像；

获取图像识别场景下的待处理图像；

获取目标检测场景下的待处理图像。

本领域技术人员应当理解，本公开实施例的图像处理装置中各处理模块的功能，可参照前述的图像处理方法的相关描述而理解，本公开实施例的图像处理装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的图像处理装置，能提高图像处理的精度。

本公开实施例还提供了一种轻量级模型训练的场景示意图，如图6所示，电子设备如云服务器，根据终端发送的训练任务，为各训练任务确定教师模型和待训练的学生模型。这里，不同终端发送的训练任务，可以是针对不同使用场景的训练任务。电子设备对学生模型进行训练，包括以下步骤：获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，目标权重是蒸馏项损失值的权重，e为大于0且小于等于E的整数，E为最大迭代轮数；分别基于第一增广概率和第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；基于第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于第二数据集得到学生模型的第三输出值和教师模型的第四输出值，学生模型是轻量级模型；基于第一输出值和第二输出值确定蒸馏损失函数，以及基于第三输出值和第四输出值确定真值损失函数；基于蒸馏损失函数和真值损失函数确定目标损失函数；基于目标损失函数对学生模型进行训练，以及在e小于E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重。电子设备向各终端返回训练好的学生模型。

本公开实施例还提供了一种图像处理的场景示意图，如图7所示，电子设备如云服务器，接收各终端发送的待处理图像与指定的目标场景，将各待处理图像输入与目标场景对应的学生模型，得到对应学生模型输出的图像处理结果。

本公开不对终端和电子设备的个数进行限定，实际应用中可包括多个终端、多个电子设备。

应理解，图6和图7所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图6和图7的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RandomAccess Memory，RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如轻量级模型训练方法和/或图像处理方法。例如，在一些实施例中，轻量级模型训练方法和/或图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的轻量级模型训练方法和/或图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行轻量级模型训练方法和/或图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种轻量级模型训练方法，包括：

获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，所述目标权重是蒸馏项损失值的权重，所述e为不大于E的正整数，所述E为最大迭代轮数，所述E为大于1的正整数；

分别基于所述第一增广概率和所述第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；

基于所述第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于所述第二数据集得到所述学生模型的第三输出值和所述教师模型的第四输出值，所述学生模型是轻量级模型；

基于所述第一输出值和所述第二输出值确定蒸馏损失函数，以及基于所述第三输出值和所述第四输出值确定真值损失函数；

基于所述蒸馏损失函数和所述真值损失函数确定目标损失函数；

基于所述目标损失函数对所述学生模型进行训练，以及在所述e小于所述E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重；

基于所述蒸馏损失函数和所述真值损失函数确定目标损失函数，包括：

在所述目标权重不小于最大目标权重或者所述蒸馏损失函数不小于所述真值损失函数的情况下，将所述蒸馏损失函数确定为所述目标损失函数；否则，将所述真值损失函数确定为所述目标损失函数；

所述确定第e+1轮迭代应采用的第一增广概率或目标权重，包括：

若a≥a_dft或l1≥l2，确定所述第e+1轮迭代应采用的第一增广概率pi＝pi+p_aug*2/E；否则，确定所述第e+1轮迭代应采用的目标权重为a＝a+a_dft*2/E；

其中，l1表示所述蒸馏损失函数，l2表示所述真值损失函数，a表示所述目标权重，a_dft表示最大目标权重，E表示所述最大迭代轮数，pi表示所述第一增广概率，p_aug表示最大增广概率。

2.根据权利要求1所述的方法，还包括：

获取最大增广概率；

基于所述最大增广概率、所述最大迭代轮数和所述第一增广概率，确定所述第二增广概率。

3.根据权利要求2所述的方法，其中，确定第e+1轮迭代应采用的第一增广概率，包括：

基于所述最大增广概率、所述最大迭代轮数和所述第e轮的所述第一增广概率，确定所述第e+1轮迭代应采用的第一增广概率。

4.根据权利要求1所述的方法，还包括：

获取最大目标权重；

其中，确定第e+1轮迭代应采用的目标权重，包括：

基于所述最大目标权重、所述最大迭代轮数和所述第e轮的所述目标权重，确定所述第e+1轮迭代应采用的目标权重。

5.根据权利要求1所述的方法，其中，所述基于所述第一输出值和所述第二输出值确定蒸馏损失函数，包括：

根据下述公式确定所述蒸馏损失函数：

l1＝(a+a_dft*2/E)*L_dist(o1s，o1t)+(1-a-a_dft*2/E)*L_gt(o1s，gt)；

其中，l1表示所述蒸馏损失函数，L_dist(o1s，o1t)表示根据所述第一输出值和所述第二输出值确定出的蒸馏项损失值，L_gt(o1s，gt)表示根据所述第一输出值和真值确定出的真值项损失值，a表示所述目标权重，a_dft表示最大目标权重，E表示所述最大迭代轮数，gt表示所述真值，o1s表示所述第一输出值，o1t表示所述第二输出值。

6.根据权利要求1所述的方法，其中，所述基于所述第三输出值和所述第四输出值确定真值损失函数，包括：

根据下述公式确定所述真值损失函数：

l2＝a*L_dist(o2s，o2t)+(1-a)*L_gt(o2s，gt)；

其中，l2表示所述真值损失函数，L_dist(o2s，o2t)表示根据所述第三输出值和所述第四输出值确定出的蒸馏项损失值，L_gt(o2s，gt)表示根据所述第三输出值和真值确定出的真值项损失值，a表示所述目标权重，gt表示所述真值，o2s表示所述第三输出值，o2t表示所述第四输出值。

7.一种图像处理方法，包括：

接收目标场景下的待处理图像；

将所述待处理图像输入学生模型，获取所述学生模型输出的对所述待处理图像的处理结果；

其中，所述学生模型采用根据权利要求1至6任一项所述的轻量级模型训练方法得到。

8.根据权利要求7所述的方法，所述接收目标场景下的待处理图像，包括下述至少之一：

获取图像分类场景下的待处理图像；

获取图像识别场景下的待处理图像；

获取目标检测场景下的待处理图像。

9.一种轻量级模型训练装置，包括：

第一获取模块，用于获取第e轮迭代采用的第一增广概率、第二增广概率和目标权重，所述目标权重是蒸馏项损失值的权重，所述e为不大于E的正整数，所述E为最大迭代轮数，所述E为大于1的正整数；

数据增广模块，用于分别基于所述第一增广概率和所述第二增广概率对数据集进行数据增广，得到第一数据集和第二数据集；

预测模块，用于基于所述第一数据集得到学生模型的第一输出值和教师模型的第二输出值，以及基于所述第二数据集得到所述学生模型的第三输出值和所述教师模型的第四输出值，所述学生模型是轻量级模型；

第一确定模块，用于基于所述第一输出值和所述第二输出值确定蒸馏损失函数，以及基于所述第三输出值和所述第四输出值确定真值损失函数；

第二确定模块，用于基于所述蒸馏损失函数和所述真值损失函数确定目标损失函数；

训练模块，用于基于所述目标损失函数对所述学生模型进行训练；

第三确定模块，用于在所述e小于所述E的情况下，确定第e+1轮迭代应采用的第一增广概率或目标权重；

所述第二确定模块，用于：

所述第三确定模块，用于：

10.根据权利要求9所述的装置，还包括：

第二获取模块，用于获取最大增广概率；

第四确定模块，用于基于所述最大增广概率、所述最大迭代轮数和所述第一增广概率，确定所述第二增广概率。

11.根据权利要求10所述的装置，其中，所述第三确定模块，包括：

第一确定子单元，用于基于所述最大增广概率、所述最大迭代轮数和所述第e轮的所述第一增广概率，确定所述第e+1轮迭代应采用的第一增广概率。

12.根据权利要求9所述的装置，还包括：

第三获取模块，用于获取最大目标权重；

其中，所述第三确定模块，包括：

第二确定子单元，用于基于所述最大目标权重、所述最大迭代轮数和所述第e轮的所述目标权重，确定所述第e+1轮迭代应采用的目标权重。

13.根据权利要求9所述的装置，其中，所述第一确定模块，包括：

第三确定子单元，用于根据下述公式确定所述蒸馏损失函数：l1＝(a+a_dft*2/E)*L_dist(o1s，o1t)+(1-a-a_dft*2/E)*L_gt(o1s，gt)；

其中，l1表示所述蒸馏损失函数，L_dist(o1s，ov)表示根据所述第一输出值和所述第二输出值确定出的蒸馏项损失值，L_gt(o1s，gt)表示根据所述第一输出值和真值确定出的真值项损失值，a表示所述目标权重，a_dft表示最大目标权重，E表示所述最大迭代轮数，gt表示所述真值，o1s表示所述第一输出值，o1t表示所述第二输出值。

14.根据权利要求9所述的装置，其中，所述第一确定模块，包括：

第四确定子单元，用于根据下述公式确定所述真值损失函数：

l2＝a*L_dist(o2s，o2t)+(1-a)*L_gt(o2s，gt)；

15.一种图像处理装置，包括：

接收模块，用于接收目标场景下的待处理图像；

处理模块，用于将所述待处理图像输入学生模型，获取所述学生模型输出的对所述待处理图像的处理结果；

16.根据权利要求15所述的装置，所述接收模块获取目标场景下的待处理图像，包括下述至少之一：

获取图像分类场景下的待处理图像；

获取图像识别场景下的待处理图像；

获取目标检测场景下的待处理图像。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。