CN115797752B

CN115797752B - 一种模型训练方法、装置、设备及存储介质

Info

Publication number: CN115797752B
Application number: CN202310103271.9A
Authority: CN
Inventors: 梁潇
Original assignee: Jinan Boguan Intelligent Technology Co Ltd
Current assignee: Jinan Boguan Intelligent Technology Co Ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-23
Anticipated expiration: 2043-02-13
Also published as: CN115797752A

Abstract

本申请公开了一种模型训练方法、装置、设备及存储介质，涉及机器学习技术领域，包括：基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。本申请通过计算划分得到的每个目标组的重要性，基于重要性计算每个目标组的信息丢弃数量，对随机擦除增强进行了改进，提升了模型各通道的表达能力以及模型的鲁棒性。

Description

一种模型训练方法、装置、设备及存储介质

技术领域

本发明涉及机器学习技术领域，特别涉及一种模型训练方法、装置、设备及存储介质。

背景技术

对于人脸识别来说，数据量往往会很大，但是即使是很大的数据量也不可能涵盖所有使用的人。因为人脸识别是一个开集任务，实际使用时的测试集往往远大于训练集，这就要求模型需要更强的鲁棒性。鲁棒性不佳时，往往会导致模型的泛化能力降低，从而造成实际使用时效果不佳的问题。

现有技术一将图片随机裁剪掉一部分，是一种较有效的正则化方法。裁剪掉的部分可以是规则的矩形，也可以是不同形状的碎片堆积起来的。该方法存在的问题为在输入网络之前，先对图片信息进行一些随机的丢弃，无法直接作用于网络参数，而是通过输入信息的缺失来增强鲁棒性。现有技术二在网络的结尾阶段，分类模块之前，对feature map（特征图）的一些通道进行丢弃，从而只使用部分通道来进行分类结果的预测，让每个通道的feature更具有表达能力。该方法存在的问题为丢弃通道时是随机丢弃的，而每个通过其实表达的重要性是不一样的，有一些次要的通道丢弃了并不会对结果产生太大的影响，因此该方法对模型训练的指导意义有限。

发明内容

有鉴于此，本发明的目的在于提供一种模型训练方法、装置、设备和存储介质，能够提升模型各通道的表达能力以及模型的鲁棒性。其具体方案如下：

第一方面，本申请公开了一种模型训练方法，包括：

基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；

根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；

基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；

将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。

可选的，所述基于预设组别划分规则划分深度神经网络以得到目标组，包括：

确定所述深度神经网络的目标模块输出的原始特征图中包含的全部通道；

基于第一预设分组规则将所述全部通道划分为第一预设数量个通道组，并将所述通道组确定为所述目标组。

可选的，所述确定每个所述目标组对应的重要性，包括：

将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率；

从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组；

将所述当前待处理通道组中的通道置0，并将所述第一预设数量个通道组中的其余通道组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率；

基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值；

从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定；

基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性。

可选的，所述根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量，包括：

基于所述预设丢弃率以及所述全部通道的总数确定总的通道丢弃数量；

基于所述总的通道丢弃数量以及每个所述通道组的重要性确定每个所述通道组对应的所述通道丢弃概率及数量。

获取包含基于特征维度的划分规则以及预设组内模块数设置规则的第二预设分组规则；所述基于特征维度的划分规则将输入维度与输出维度相同的且相邻的预设数量个模块划分在一个组中；

基于所述第二预设分组规则将所述深度神经网络中的所述模块进行分组，以得到第二预设数量个模块组，将所述模块组确定为所述目标组。

可选的，所述确定每个所述目标组对应的重要性，包括：

将包含全部模块的所述深度神经网络对应的预测结果与相应的实际标签进行比较，以得到相应的第三预测准确率；

从所述第二预设数量个所述模块组中选择一个模块组作为当前待处理模块组；

将所述当前待处理模块组中的预设比例通路置0，并将所述第二预设数量个模块组中的其余所述模块组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第四预测准确率；

基于所述第三预测准确率与当前所述第四预测准确率之间的差值确定与所述当前待处理模块组对应的第二准确率下降值；

从所述第二预设数量个模块组中选择还未确定第二准确率下降值的一个模块组作为所述当前待处理模块组，并重新跳转至所述将所述当前待处理模块组中的预设比例通路置0的步骤，直到所述第二预设数量个模块组的第二准确率下降值均已确定；

基于所述第二预设数量个模块组的所述第二准确率下降值与第二预设重要性确定规则分别确定每个所述模块组对应的重要性。

可选的，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量，包括：

根据每个所述模块组对应的重要性确定每个所述模块组被选中的概率；

基于所述预设丢弃率以及每个所述模块组被选中的概率确定每个所述模块组对应的通路丢弃概率及数量。

可选的，所述基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组之后，还包括：

获取所述目标识别网络中的预设学习率，并利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络；

相应的，所述将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型，包括：

将所述丢弃后组输入至所述更新后目标识别网络进行训练，以得到所述目标模型。

可选的，所述利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络，包括：

基于预设权重更新规则更新所述目标识别网络中的原始权重，以得到第一更新后目标识别网络；

获取利用所述第一更新后目标识别网络对上一个batch批处理的图片集进行预测后得到的第一预测结果，从所述第一预测结果中获取每张图片对应的预设正确类的概率，并基于全部所述预设正确类的概率计算本次平均预测准确率；

基于所述本次平均预测准确率与上次平均预测准确率之间的差值确定相应的目标学习率调整公式；所述上次平均预测准确率为基于所述目标识别网络对所述上一个batch批处理的图片集进行预测后得到的第二预测结果，根据所述第二预测结果中的全部图片对应的所述预设正确类的概率确定出的平均预测准确率；

根据所述目标学习率调整公式将所述目标识别网络中的所述预设学习率调整至所述目标学习率，以得到第二更新后目标识别网络。

第二方面，本申请公开了一种模型训练装置，包括：

重要性确定模块，用于基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；

数量确定模块，用于根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；

信息丢弃模块，用于基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；

模型获取模块，用于将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如前述公开的模型训练方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如前述公开的模型训练方法。

可见，本申请提供了一种模型训练方法，包括：基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。由此可见，本申请通过计算划分得到的每个目标组的重要性，基于重要性计算每个目标组的信息丢弃数量，对随机擦除增强进行了改进，改为根据重要性确定目标组的丢弃数量，增大重要性较低的目标组的信息量，从而提升预测效果，提升了模型各通道的表达能力以及模型的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种模型训练方法流程图；

图2为本申请公开的通路置0示意图；

图3为本申请公开的一种将通道置0的模型训练方法流程图；

图4为本申请公开的特征图划分示意图；

图5为本申请公开的一种调整学习率的模型训练方法流程图；

图6为本申请提供的模型训练装置结构示意图；

图7为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，现有技术在输入网络之前，先对图片信息进行一些随机的丢弃，无法直接作用于网络参数，而是通过输入信息的缺失来增强鲁棒性。或丢弃通道时是随机丢弃的，而每个通过其实表达的重要性是不一样的，有一些次要的通道丢弃了并不会对结果产生太大的影响。为此，本申请提供了一种模型训练方法，能够提升模型各通道的表达能力以及模型的鲁棒性。

本发明实施例公开了一种模型训练方法，参见图1所示，该方法包括：

步骤S11：基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性。

本实施例中，基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性。在一种具体的实施方式中，确定所述深度神经网络的目标模块输出的原始特征图中包含的全部通道，并基于第一预设分组规则将所述全部通道划分为第一预设数量个通道组，并将所述通道组确定为所述目标组。在另一种具体的实施方式中，获取包含基于特征维度的划分规则以及预设组内模块数设置规则的第二预设分组规则，基于所述第二预设分组规则将所述深度神经网络中的模块进行分组，以得到第二预设数量个模块组，将所述模块组确定为所述目标组，其中，所述基于特征维度的划分规则将输入维度与输出维度相同的且相邻的预设数量个模块划分在一个组中。

可以理解的是，通过结合dropout方法，对FeatureMap的通道进行丢弃。通过对不同重要性的通道做不同概率的丢弃来实现对各通道的动态增强。通过这种动态增强，提升表达能力较弱的通道的信息量以及表达能力，从而提升人脸识别模型最终的鲁棒性。

在一种具体的实施方式中可以对droppath使用。Droppath的作用是随机选择一些模块的部分通路，并将这些通路中的信息置0（置零的实质是丢弃掉对应通路上的特征信息），对于人脸识别来说，由于数据量较大，一般会采用较大的网络，例如Resnet152、或者EfficientNET等，这些网络包含较多的模块，所以为了进一步增强模型的鲁棒性，一般会采用droppath等方法来进一步提升模型的效果。在实际使用过程中，以Resnet152为例，网络是由相似的模块不断堆叠而来的，在堆叠的过程中，有一部分相邻模块的输入输出维度是不变的，因此根据特征的维度变化，将网络分成N个组（在分组时每个组里的模块数不宜过多，3到5个模块效果较好，若一个组里的模块数较多，没办法很好的区分哪些组对预测作用更大）。分好组后，计算出每组的重要性，对于重要性更大的组，该组内模块的通路置零的概率更大。需要指出的是，与dropout不同的是，droppath的概率一般偏小，因此在丢弃时需要设定一个最大概率，例如0.2，然后根据总的droppath概率以及该组的重要性综合得出每个组的通路丢弃概率。需要指出的是获取包含基于特征维度的划分规则以及预设组内模块数设置规则的第二预设分组规则，所述基于特征维度的划分规则将输入维度与输出维度相同的预设数量个相邻模块划分在一个组中，基于所述第二预设分组规则将所述深度神经网络中的模块进行分组，以得到第二预设数量个模块组，将所述模块组确定为所述目标组之后，计算每个所述模块组的重要性。需要指出的是，例如在划分组的时候，输入输出相同的模块可能有20或者30多个，此时不能将全部的模块划分在一个组中，而是将其中预设数量个的模块（例如4个或5个模块）划分至一个组，比如20个一共分成5组。具体的，将包含全部模块的所述深度神经网络对应的预测结果与相应的实际标签进行比较，以得到相应的第三预测准确率；从所述第二预设数量个所述模块组中选择一个模块组作为当前待处理模块组；将所述当前待处理模块组中的一个固定概率（预设比例）的通路置0，其余模块组的参数不变，并将所述第二预设数量个模块组中的其余所述模块组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第四预测准确率；基于所述第三预测准确率与当前所述第四预测准确率之间的差值确定与所述当前待处理模块组对应的第二准确率下降值；从所述第二预设数量个模块组中选择还未确定第二准确率下降值的一个模块组作为所述当前待处理模块组，并重新跳转至所述将所述当前待处理模块组中的预设比例通路置0的步骤，直到所述第二预设数量个模块组的第二准确率下降值均已确定；基于所述第二预设数量个模块组的所述第二准确率下降值与第二预设重要性确定规则分别确定每个所述模块组对应的重要性。可以理解的是，所述第二预设重要性确定规则为所述第二准确率下降值的数值越大，所述第二准确率下降值对应的所述模块组的重要性越高。如图2所示，将所述当前待处理模块组中的一个固定概率（预设比例）的通路置0，即阴影较深的部分就是置0的通路，也就是把这些通路的输出置0，其余模块组的参数不变，并将所述第二预设数量个模块组中的其余所述模块组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第四预测准确率。

步骤S12：根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量。

本实施例中，基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性之后，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及信息丢弃数量。可以理解的是，对于所述人脸识别模型，每一模块（例如每一层）的feature map各个通道之间的信息量是有差异的，有的通道较为重要，有的通道对最终结果的预测并不会起到太大的作用，如果增大上述不太重要的通道特征的信息量，就可以有效地提升预测效果。而传统的dropout方法通过对通道随机的丢弃，即随机对特征某些通道的数值置0来提升模型通道的表达能力，从而增加鲁棒性并提升泛化性。但是这种丢弃是随机的，不论该通道是否重要，被丢弃的概率都一样，因此若丢弃了部分次要的通道并不会对结果产生太大的影响。因此基于总的丢弃率与每个所述目标组对应的重要性进行计算得到每个所述目标组中的信息丢弃数量。

步骤S13：基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组。

本实施例中，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量之后，基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组。即根据计算得到的每个目标组的信息丢弃数量，在每个目标组中随机丢弃相应个数的信息。

步骤S14：将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。

本实施例中，基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组之后，将所述丢弃后组放入目标识别网络进行训练，以得到下一步迭代的模型。在这一步得到的模型并不一定是最终的模型，而是下一步迭代模型，再次利用所述下一步迭代的模型进行迭代，直到满足训练终止条件时停止迭代，获得最终的目标模型。可以理解的是，基于上述方法计算并丢弃每个目标组的信息丢弃数量后，信息包含量低的模块，保留的概率就会大，即有更多的机会去进行学习，从而增强信息量，促使识别模型最后的FeatureMap中每个目标组都包含较多的信息，从而进一步增强了模型的鲁棒性。

在不引入额外使用时计算量的前提下，通过预迭代重要性判别的方法。并基于该判别方法，对随机擦除增强进行了改进，重要性判别方法不引入额外计算量，并且可以迁移到各种鲁棒性增强的方法中，例如droppath。

可见，本申请提供了一种模型训练方法，包括：基于预设组别划分规则划分深度神经网络以得到目标组，并通过预迭代的思想确定每个所述目标组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。由此可见，本申请通过计算划分得到的每个目标组的重要性，基于重要性计算每个目标组的信息丢弃数量，对随机擦除增强进行了改进，改为根据重要性确定目标组的丢弃数量，增大重要性较低的目标组的信息量，从而提升预测效果，提升了模型各通道的表达能力以及模型的鲁棒性。

参见图3所示，本发明实施例公开了一种模型训练方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。

步骤S21：基于预设组别划分规则划分深度神经网络以得到目标组。

本实施例中，确定所述深度神经网络的目标模块输出的原始特征图中包含的全部通道；基于第一预设分组规则将所述全部通道划分为第一预设数量个通道组，并将所述通道组确定为所述目标组。具体的，获取所述深度神经网络的目标模块输出的原始特征图中包含的全部通道，并基于第一预设分组规则将所述全部通道划分为第一预设数量个通道组。例如，获取所述深度神经网络的目标模块输出的原始特征图中包含的全部通道，并将所述全部通道平均分成n份，例如图4所示，网络最后的输出是一个7*7*512的特征，当n等于16时，即将feature map分成16个7*7*32的特征。

可以理解的是，基于通道重要性对不同重要性的通道进行不同概率的丢弃，类似于dropout，在网络的最后进行丢弃。但是在丢弃之前，会对网络进行如本申请实施例中的判断。

步骤S22：将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率，从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组。

本实施例中，将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率，从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组。可以理解的是，获取原始特征图中的全部通道对应的预测结果，将上述预测结果与相应的实际标签比较，从而得到原始特征图对应的第一准确率，即

。然后从第一预设数量个通道组中选择一个通道组作为当前待处理通道组，以便计算所述当前待处理通道组的重要性。

步骤S23：将所述当前待处理通道组中的通道置0，其余通道的特征不变，将处理后特征对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率。

本实施例中，从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组之后，将所述当前待处理通道组中的通道置0，其余通道特征不变，将处理后特征对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率。例如，从原始的7*7*512特征中选择一个7*7*32作为当前待处理通道组，将该当前待处理通道组置0，然后结合其余未置零的全部7*7*32的通道组得到预测结果，并与相应的所述实际标签进行比较，得到当前相应的第二准确率，即得到第二准确率

（例如若基于第一预设分组规则将所述全部通道划分为16个通道组，则k为0到15的整数），依次将上述每个目标组置0，重复上述操作16次。

步骤S24：基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值。

本实施例中，将所述第一预设数量个通道组中的其余通道组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率之后，基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值。当获取到第一预设数量个通道组中每个通道组对应的第二准确率之后，计算所述第一准确率与每个所述第二准确率之间的差值，以得到每个通道组对应的第一准确率下降值。可以理解的是，根据每个第一准确率下降值的大小可以确定对应的目标组的重要性。

步骤S25：从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定。

本实施例中，基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值之后，从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定。可以理解的是，在计算完当前待处理通道组对应的第一准确率下降值之后，需要判断是否还存在未确定第一准确率下降值的通道组，若存在，则从未确定第一准确率下降值的通道组中选择一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤；若不存在，则表明当前全部通道组都已确定各自对应的第一准确率下降值。

步骤S26：基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性。

本实施例中，基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性。具体的，基于全部所述第一准确率下降值以及预设重要性确定规则分别确定每个所述目标组对应的重要性。例如获取每个所述目标组对应的所述第一准确率下降值；按照所述第一准确率下降值的大小进行排序，以得到下降值排序表；基于所述下降值排序表以及预设重要性确定规则分别确定每个所述目标组对应的重要性。可以理解的是，计算第二准确率

比第一准确率/>

的第一准确率下降值，根据第一准确率下降值来计算模块的重要性，下降的越多，重要性越高，即所述第一准确率下降值越大，重要性越高。

步骤S27：根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量。

本实施例中，确定每个所述目标组对应的重要性之后，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量。根据各个目标组的重要性来设置每个目标组的通道丢弃数量，重要性越高，丢弃的数量越多。可以理解的是，通过上述的操作，可以使得重要的通道丢弃的多，不重要的通道丢弃的少，从而促使信息量少的通道更进一步去学习。基于所述预设丢弃率以及所述全部通道的总数确定总的通道丢弃数量；基于所述总的通道丢弃数量以及每个所述通道组的重要性确定每个所述通道组对应的所述通道丢弃概率及数量。例如在具体实施时，首先设置一个总的丢弃率，比如设置0.4，也就是会丢掉40%的通道，以最后一个feature层为例，一共512个通道，也就是总共要丢掉205个通道，使用剩下的307个通道的feature map来预测结果。使用普通的dropout时会随机丢弃掉这205个通道，在本方案中，将512个通道分成16份，第i份丢掉的个数计算公式如下：

，其中i为0到15的整数。

步骤S28：基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组。

本实施例中，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量之后，基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组。可以理解的是，通过上述计算，算出16个目标组中每个目标组丢掉的通道的具体数量，然后在每个目标组中随机丢弃相应个数的通道。可以理解的是，通过计算并设置每个目标组的丢弃概率后，信息包含量低的模块，保留的概率就会大，也就是有更多的机会进行学习，从而增强信息量，进而促使识别模型最后的FeatureMap中每个通道都尽量去包含信息，进一步增强了模型的鲁棒性。

步骤S29：将所述丢弃后组输入至目标识别网络进行训练，以得到下一步迭代的模型。

本实施例中，基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组之后，将所述丢弃后组输入至目标识别网络进行训练，以得到下一步迭代的模型。需要指出的是，在这一步得到的模型并不一定是最终的模型，而是下一步迭代模型，再次利用所述下一步迭代的模型进行迭代，直到满足训练终止条件时停止迭代，获得最终的目标模型。

可见，本申请实施例通过基于预设组别划分规则划分深度神经网络以得到目标组；将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率，从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组；将所述当前待处理通道组中的通道置0，并将所述第一预设数量个通道组中的其余通道组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率；基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值；从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定；基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型，其中的重要性判别方法不引入额外计算量，并且可以迁移到各种鲁棒性增强的方法中，增大重要性较低的目标组的信息量，从而提升预测效果，提升了模型各通道的表达能力以及模型的鲁棒性。

参见图5所示，本发明实施例公开了一种模型训练方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。

步骤S31：基于预设组别划分规则划分深度神经网络以得到目标组。

本实施例中，基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性。具体的，获取包含基于特征维度的划分规则以及预设组内模块数设置规则的第二预设分组规则；所述基于特征维度的划分规则将输入维度与输出维度相同的预设数量个模块划分在一个组中；基于所述第二预设分组规则将所述深度神经网络中的模块进行分组，以得到第二预设数量个模块组，将所述模块组确定为所述目标组。例如获取包含基于特征维度的划分规则以及预设组内层数设置规则的第二预设分组规则。

步骤S32：确定每个所述模块组对应的重要性。

本实施例中，基于预设组别划分规则划分深度神经网络以得到目标组之后，确定每个所述模块组对应的重要性。具体的，将所述模块组确定为所述目标组之后，将包含全部模块的所述深度神经网络对应的预测结果与相应的实际标签进行比较，以得到相应的第三预测准确率；从所述第二预设数量个所述模块组中选择一个模块组作为当前待处理模块组；将所述当前待处理模块组中的一定比例的通路置0，并将置0后的模块填入原始网络中所对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第四预测准确率；基于所述第三预测准确率与当前所述第四预测准确率之间的差值确定与所述当前待处理模块组对应的第二准确率下降值；从所述第二预设数量个模块组中选择还未确定第二准确率下降值的一个模块组作为所述当前待处理模块组，并重新跳转至所述将所述当前待处理模块组中的一定比例通路置0的步骤，直到所述第二预设数量个模块组的第二准确率下降值均已确定；基于所述第二预设数量个模块组的所述第二准确率下降值与第二预设重要性确定规则分别确定每个所述模块组对应的重要性。

步骤S33：根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量。

本实施例中，确定每个所述模块组对应的重要性之后，根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的通路丢弃概率及数量。具体的，根据每个所述模块组对应的重要性确定每个所述模块组被选中的概率，即重要性越高的模块组被丢弃的通路数量越大；基于所述预设丢弃率以及每个所述模块组被选中的概率确定每个所述模块组对应的通路丢弃概率及数量。

步骤S34：基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组。

步骤S35：获取所述目标识别网络中的预设学习率，并利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络。

本实施例中，获取所述目标识别网络中的预设学习率，并利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络。具体的，基于预设权重更新规则更新所述目标识别网络中的原始权重，以得到第一更新后目标识别网络；获取利用所述第一更新后目标识别网络对上一个batch批处理的图片集进行预测后得到的第一预测结果，从所述第一预测结果中获取每张图片对应的预设正确类的概率，并基于全部所述预设正确类的概率计算本次平均预测准确率；基于所述本次平均预测准确率与上次平均预测准确率之间的差值确定相应的目标学习率调整公式；所述上次平均预测准确率为基于所述目标识别网络对所述上一个batch批处理的图片集进行预测后得到的第二预测结果，根据所述第二预测结果中的全部图片对应的所述预设正确类的概率确定出的平均预测准确率；根据所述目标学习率调整公式将所述目标识别网络中的所述预设学习率调整至所述目标学习率，以得到第二更新后目标识别网络。

可以理解的是，对于模型训练来说，合适的学习率至关重要。当采用上述方法对模型通道或模块做了随机丢弃后，在更新时依然可以通过预迭代来进行学习率的微调，从而根据一次或几次预迭代来指导当前次数的迭代。具体的，按照本次丢弃后的网络对原始权重进行梯度更新，用更新后的权重再次预测上一个batch（批处理）的图片，观察本次预测后样本对正确类的概率，并计算平均正确概率（即本次平均预测准确率）

与上一个batch的平均正确概率（即上次平均预测准确率）/>

进行计算，根据两次平均正确概率的差值所处范围确定对应的学习率调整公式，从而利用该学习率调整公式对学习率进行调整。具体公式如下：

；上述公式中，base_lr为基础学习率，0.5是我们对学习率调节的系数，也就是学习率在（1-0.5）到（1+0.5）的倍率上进行调节。上述公式的意义在于，通过/>

来计算更新后的权重对上一个Batch的影响。

可以理解的是，当

小于等于0时，即表明更新后正确类的预测概率下降了，判定当前的学习率对模型造成了负影响，所以本次迭代使用当前学习率并不是一次有效地迭代。可能是因为学习率太大，跳过了一个局部最优解，从而导致指标有所下降，所以减小学习率，使学习率在0.5到1的倍率之间。

当

大于等于0.1时，需要进行对应的调整。若要模型稳定的收敛，而不是一次大幅度的变化，如果一个Batch收敛的太快，对于其他不在Batch内的图片可能会进行负影响。对一批样本进行过大的学习有可能造成过拟合现象，所以通过减小学习率，使得模型的更新在一个可控的范围内，倍率依然是0.5到1之间。

当

在0到0.1之间时，是较优的学习状态，此时根据具体的变化值来增大学习率，也就是0的时候学习率增大的较多，/>

的值越大，学习率的增率越小，

等于0.1的时候，学习率的增大量为0，即使用默认学习率（即预设学习率），使得模型在稳定可控的范围内，尽量快速收敛。通过上述计算，得到一个较优的学习率，即保证了收敛的稳定性，又能加快收敛的速度。

可以理解的是，本发明提出的基于预迭代的人脸识别模型鲁棒性增强方法，在不增加实际应用时计算量的前提下，有效的提升了模型各通道的表达能力，从而提升了模型的鲁棒性。该方法具有一定的衍生性，可以使用在各种可调整的训练技巧上。并且提出预迭代的训练方法，以便通过多次回顾更新过程，预判模型更新后的状态，从而来指导本次更新。将预迭代与dropout以及droppath等技术结合，在不增加使用时计算成本的前提下，更科学地对模型进行了通道以及模块的丢弃，从而增强了鲁棒性。通过使用预迭代方法，提出学习率更新策略，有效防止过拟合或者负拟合，保证模型稳定且快速的收敛。

步骤S36：将所述丢弃后组输入至所述更新后目标识别网络进行训练，以得到目标模型。

关于上述步骤S34、S36的具体内容可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例通过基于预设组别划分规则划分深度神经网络以得到目标组；确定每个所述模块组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；获取所述目标识别网络中的预设学习率，并利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络；将所述丢弃后组输入至所述更新后目标识别网络进行训练，以得到目标模型，根据预迭代对学习率进行调整，防止过拟合或者负更新，在保证更新稳定的前提下加速收敛，提升模型鲁棒性。

参见图6所示，本申请实施例还相应公开了一种模型训练装置，包括：

重要性确定模块11，用于基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；

数量确定模块12，用于根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；

信息丢弃模块13，用于基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；

模型获取模块14，用于将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。

可见，本申请包括：基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型。由此可见，本申请通过计算划分得到的每个目标组的重要性，基于重要性计算每个目标组的信息丢弃数量，对随机擦除增强进行了改进，改为根据重要性确定目标组的丢弃数量，增大重要性较低的目标组的信息量，从而提升预测效果，提升了模型各通道的表达能力以及模型的鲁棒性。

在一些具体实施例中，所述重要性确定模块11，具体包括：

通道确定单元，用于确定所述深度神经网络的目标模块输出的原始特征图中包含的全部通道；

通道组划分单元，用于基于第一预设分组规则将所述全部通道划分为第一预设数量个通道组，并将所述通道组确定为所述目标组；

第一准确率获取单元，用于将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率；

当前待处理通道组确定单元，用于从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组；

第二准确率获取单元，用于将所述当前待处理通道组中的通道置0，并将所述第一预设数量个通道组中的其余通道组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率；

第一准确率下降值计算单元，用于基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值；

第一判断单元，用于从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定；

第一重要性确定单元，用于基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性；

第二预设分组规则获取单元，用于获取包含基于特征维度的划分规则以及预设组内模块数设置规则的第二预设分组规则；所述基于特征维度的划分规则将输入维度与输出维度相同的且相邻的预设数量个模块划分在一个组中；

模块组确定单元，用于基于所述第二预设分组规则将所述深度神经网络中的所述模块进行分组，以得到第二预设数量个模块组，将所述模块组确定为所述目标组；

第三预测准确率获取单元，用于将包含全部模块的所述深度神经网络对应的预测结果与相应的实际标签进行比较，以得到相应的第三预测准确率；

当前待处理模块组确定单元，用于从所述第二预设数量个所述模块组中选择一个模块组作为当前待处理模块组；

第四预测准确率获取单元，用于将所述当前待处理模块组中的预设比例通路置0，并将所述第二预设数量个模块组中的其余所述模块组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第四预测准确率；

第二准确率下降值确定单元，用于基于所述第三预测准确率与当前所述第四预测准确率之间的差值确定与所述当前待处理模块组对应的第二准确率下降值；

第二判断单元，用于从所述第二预设数量个模块组中选择还未确定第二准确率下降值的一个模块组作为所述当前待处理模块组，并重新跳转至所述将所述当前待处理模块组中的预设比例通路置0的步骤，直到所述第二预设数量个模块组的第二准确率下降值均已确定；

第二重要性确定单元，用于基于所述第二预设数量个模块组的所述第二准确率下降值与第二预设重要性确定规则分别确定每个所述模块组对应的重要性。

在一些具体实施例中，所述数量确定模块12，具体包括：

总的通道丢弃数量确定单元，用于基于所述预设丢弃率以及所述全部通道的总数确定总的通道丢弃数量；

通道丢弃数量确定单元，用于基于所述总的通道丢弃数量以及每个所述通道组的重要性确定每个所述通道组对应的所述通道丢弃概率及数量；

模块组通路丢弃数量确定单元，用于根据每个所述模块组对应的重要性确定每个所述模块组被选中的概率，基于所述预设丢弃率以及每个所述模块组被选中的概率确定每个所述模块组对应的通路丢弃概率及数量；

在一些具体实施例中，所述信息丢弃模块13，具体包括：

信息丢弃单元，用于基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组；

预设学习率获取单元，用于获取所述目标识别网络中的预设学习率；

权重更新单元，用于基于预设权重更新规则更新所述目标识别网络中的原始权重，以得到第一更新后目标识别网络；

本次平均预测准确率计算单元，用于获取利用所述第一更新后目标识别网络对上一个batch批处理的图片集进行预测后得到的第一预测结果，从所述第一预测结果中获取每张图片对应的预设正确类的概率，并基于全部所述预设正确类的概率计算本次平均预测准确率；

目标学习率调整公式确定单元，用于基于所述本次平均预测准确率与上次平均预测准确率之间的差值确定相应的目标学习率调整公式；所述上次平均预测准确率为基于所述目标识别网络对所述上一个batch批处理的图片集进行预测后得到的第二预测结果，根据所述第二预测结果中的全部图片对应的所述预设正确类的概率确定出的平均预测准确率；

学习率调整单元，用于根据所述目标学习率调整公式将所述目标识别网络中的所述预设学习率调整至所述目标学习率，以得到第二更新后目标识别网络。

在一些具体实施例中，所述模型获取模块14，具体包括：

模型获取单元，用于将所述丢弃后组输入至所述更新后目标识别网络进行训练，以得到所述目标模型。

进一步的，本申请实施例还提供了一种电子设备。图7是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的模型训练方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的模型训练方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的模型训练方法步骤。

Claims

1.一种模型训练方法，其特征在于，应用于人脸识别，包括：

基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；所述深度神经网络为用于进行人脸识别的网络；

根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；所述目标组对应的重要性为所述目标组对人脸识别过程中的预测结果的重要性；所述信息丢弃概率为所述目标组中每个信息被丢弃的概率；

将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型；所述目标模型为人脸识别模型；

其中，所述确定每个所述目标组对应的重要性，包括：

基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性；

所述根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述基于预设组别划分规则划分深度神经网络以得到目标组，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述基于预设组别划分规则划分深度神经网络以得到目标组，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述确定每个所述目标组对应的重要性，包括：

5.根据权利要求4所述的模型训练方法，其特征在于，所述根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量，包括：

6.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述基于预设丢弃规则以及每个所述目标组中的所述信息丢弃数量，丢弃每个所述目标组中对应数量的信息，以得到丢弃后组之后，还包括：

将所述丢弃后组输入至所述更新后目标识别网络进行训练，以得到目标模型。

7.根据权利要求6所述的模型训练方法，其特征在于，所述利用预设调整方法调整所述目标识别网络中的所述预设学习率，以得到更新后目标识别网络，包括：

所述目标学习率调整公式为：

；

；

；

式中，base_lr为基础学习率，

为本次平均预测准确率，/>

为上次平均预测准确率；

8.一种模型训练装置，其特征在于，应用于人脸识别，包括：

重要性确定模块，用于基于预设组别划分规则划分深度神经网络以得到目标组，并确定每个所述目标组对应的重要性；所述深度神经网络为用于进行人脸识别的网络；

数量确定模块，用于根据预设丢弃率以及每个所述目标组对应的重要性进行计算，以得到每个所述目标组中的信息丢弃概率及数量；所述目标组对应的重要性为所述目标组对人脸识别过程中的预测结果的重要性；所述信息丢弃概率为所述目标组中每个信息被丢弃的概率；

模型获取模块，用于将所述丢弃后组输入至目标识别网络进行训练，以得到目标模型；所述目标模型为人脸识别模型；

其中，所述装置还用于将所述原始特征图对应的预测结果与相应的实际标签进行比较，以得到相应的第一准确率；从所述第一预设数量个通道组中选择一个通道组作为当前待处理通道组；将所述当前待处理通道组中的通道置0，并将所述第一预设数量个通道组中的其余通道组对应的预测结果与相应的所述实际标签进行比较，以得到当前相应的第二准确率；基于所述第一准确率与当前所述第二准确率之间的差值确定与所述当前待处理通道组对应的第一准确率下降值；从所述第一预设数量个通道组中选择还未确定第一准确率下降值的一个通道组作为当前待处理通道组，并重新跳转至所述将所述当前待处理通道组中的通道置0的步骤，直到所述第一预设数量个通道组的第一准确率下降值均已确定；基于所述第一预设数量个通道组的所述第一准确率下降值与第一预设重要性确定规则分别确定每个所述通道组对应的重要性；基于所述预设丢弃率以及所述全部通道的总数确定总的通道丢弃数量；基于所述总的通道丢弃数量以及每个所述通道组的重要性确定每个所述通道组对应的所述通道丢弃概率及数量。

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法。