CN114897160A

CN114897160A - 模型训练方法、系统及计算机存储介质

Info

Publication number: CN114897160A
Application number: CN202210540240.5A
Authority: CN
Inventors: 席云龙
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-12

Abstract

本申请提供一种模型训练方法、装置及计算机存储介质，包括利用教师网络和学生网络分别针对样本图像执行特征提取，获取样本图像的教师特征图和学生特征图；根据样本图像的真值框、学生特征图，确定学生特征图的蒸馏区域；基于蒸馏区域比对教师特征图和学生特征图，确定损失函数；基于损失函数训练学生网络，以获得训练好的学生网络。借此，本申请可在大幅降低系统计算量的同时，提高模型的训练效率。

Description

模型训练方法、系统及计算机存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种模型训练方法、装置及计算机存储介质。

背景技术

目标检测任务是计算机视觉的最基本任务之一，同时也是应用最广泛的任务。相比较于普通的分类任务，目标检测任务更加复杂，需要同时针对目标对象的位置的类别进行预测，因此目标检测网络通常来说也更为复杂，不仅包括分类网络的特征提取网络，还包括特有的特征融合网络以及检测框回归层，此将导致目标检测网络的参数量和计算量较大，并在实际应用场景对硬件算力要求较高。

有鉴于此，目标检测网络的轻量化即成为了业界研究的重要方向。

发明内容

鉴于上述问题，本申请提供一种模型训练方法、装置及计算机存储介质，可在降低系统计算量的同时，提高模型训练效果。

本申请第一方面提供一种模型训练方法，包括：利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图；根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域；基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定损失函数，并基于所述损失函数训练所述学生网络，以获得训练好的学生网络。

本申请第二方面提供一种模型训练装置，包括：特征图生成模块，用于利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图；蒸馏区域分析模块，用于根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域；训练模块，用于基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定损失函数，并基于所述损失函数训练所述学生网络，以获得训练好的学生网络。

本申请第三方面提供一种计算机存储介质，所述计算机存储介质中存储有用于执行第一方面所述的方法中各步骤的各指令。

综上所述，本申请提供的模型训练方案，利用教师网络和学生网络分别获取样本图像的教师特征图和学生特征图，并根据样本图像的真值框，确定学生特征图中的蒸馏区域，以基于蒸馏区域比对教师特征图和学生特征图，并根据比对结果训练学生网络，据此，本申请提供了一种结合知识蒸馏技术的模型训练方案，可在大幅降低系统计算量的同时，快速缩小学生网络和教师网络之间的精度差距，以提高模型训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请示例性实施例的模型训练方法的处理流程图。

图2为本申请另一示例性实施例的模型训练方法的处理流程图。

图3为本申请另一示例性实施例的模型训练方法的处理流程图。

图4为本申请示例性实施例的模型训练装置的结构框图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

目标的检测网络不仅包括了分类网络的特征提取网络，还包括了特有的特征融合网络以及检测框回归层，此复杂的网络结构设计导致了目标检测网络的参数量和计算量都比较大，且在实际应用场景中，对于硬件的算力要求也较高。因此，目标检测网络的轻量化设计已成为了当前相关研究业者研究的热点之一。

目前的模型轻量化的设计方案可包括模型剪枝以及INT8量化。其中，模型剪枝是通过裁剪掉模型中冗余的层，在保证精度的同时，来减少模型的计算量，然而，此实现过程需要分为三个阶段，先训练好模型，再剪枝，再微调，存在着实施过程复杂，精度与原始网络有天然的差距，且剪枝算法主要是去除冗余参数，而在轻量化模型中，冗余参数较少，因此作用并不明显。另外，INT8量化是指将高精度浮点数的模型参数按照一定的映射规则映射到低精度INT8类型，以此加速网络的计算，同时保证网络的精度，缺点在于量化表的建立比较复杂，且对最终的精度影响较大。

为实现目标检测网络的轻量化设计，目前业界推出了一些更为精简高效的目标检测网络，如SSD、YOLO等，这些网络能以较小的参数量实现较高的精度。同时，知识蒸馏技术目前也越来越多地被应用于目标检测任务中进行探索。然而，不同于分类任务输出的是一维特征向量，检测任务输出的通常是二维特征向量，因此，不能简单地将分类任务中的相关经验直接进行迁移，而如何将知识蒸馏技术应用于目标检测网络的训练任务中，以提高模型训练效率，成为了其中的难点和重点。

有鉴于此，本申请提供一种结合知识蒸馏技术的模型训练方法，可至少部分地解决现有技术存在的种种问题。

以下将结合各附图详细描述本申请的各实施例。

图1示出了本申请示例性实施例的模型训练方法的处理流程图。如图所示，本实施例的模型训练方法主要包括：

步骤S102，利用教师网络和学生网络分别针对样本图像执行特征提取，获取样本图像的教师特征图和学生特征图。

可选地，教师网络和学生网络可包括目标检测网络，例如YOLO网络等。

可选地，可将教师网络的网络尺度因子缩小预设比值，以获取学生网络，例如，可将教师网络YOLOV5s的网络尺度因子缩小1/4，获取学生网络YOLOV5xs，其中，学生网络YOLOV5xs的参数量为教师网络YOLOV5s的1/4。

可选地，可利用教师网络，基于预设维度针对样本图像执行特征提取，获取对应于预设维度的教师特征图，并利用学生网络，基于预设维度针对样本图像执行特征提取，获取对应于预设维度的学生特征图。

可选地，预设维度可包括8、16、32中的至少一个。

例如，可根据样本图像，分别提取教师网络和学生网络的stride＝8,stride＝16,stride＝32的三个教师特征图和三个学生特征图。

可选地，教师特征图的通道数量与学生特征图的通道数量不相同。

可选地，可针对学生特征图的通道数执行适配处理，以使所生成的学生特征图的通道数量与教师特征图的通道数量相适配。

可选地，可利用预设卷积核针对学生特征图的通道数执行卷积处理。

于本实施例中，在学生特征图的大小与教师特征图的大小为相同的情况下，预设卷积核尺寸可设置为1×1×C2×C1，其中，1×1为学生特征图和教师特征图的高度与宽度，C2为学生特征图的通道数量；C1为教师特征图的通道数量。

步骤S104，根据样本图像的真值框、学生特征图，确定学生特征图的蒸馏区域。

于本实施例中，可计算样本图像中的目标对象的真值框(亦可称为真值框)相较于学生特征中的每一个参考锚框之间的交并比，以确定各参考锚框中的至少一个候选锚框，并基于各候选锚框构成的并集，确定学生特征图的蒸馏区域。

可选地，可根据单位锚框设置参数，在学生特征图的每一个网格单元中生成满足单位锚框设置参数的各参考锚框。

例如，若单位锚框设置参数为3，则在学生特征图的每一个网格单元中生成3个参考锚框。

步骤S106，基于蒸馏区域比对教师特征图和学生特征图，确定损失函数，并基于损失函数训练学生网络，以获得训练好的学生网络。

可选地，损失函数可包括模仿损失子函数。

可选地，可基于蒸馏区域比对教师特征图和学生特征图，确定模仿损失子函数。

具体地，可将具有相同特征维度的学生特征图和教师特征图设置为一个特征图组，并基于蒸馏区域计算每一个特征图组中学生特征图与教师特征图之间的特征向量的均方差，再累加每一个特征图组的均方差，以确定模仿损失子函数。

可选地，损失函数还可包括训练损失子函数。

于本实施例中，可根据样本图像的样本标签和学生网络针对样本图像输出的预测结果，确定训练损失子函数。

可选地，可基于损失函数优化更新学生网络的网络参数，并返回执行步骤S102，直至损失函数满足收敛条件，以完成学生网络的训练。

于本实施例中，可在损失函数收敛至预设值时，获得损失函数满足预设收敛条件的判断结果，或者可在损失函数收敛至稳定时，获得损失函数满足预设收敛条件的判断结果。

综上所述，本申请实施例提供的模型训练方法，利用教师网络和学生网络分别预测样本图像的教师特征图和学生特征图，根据样本图像的真值框确定学生特征图的蒸馏区域，并基于所确定的蒸馏区域比对教师特征图和学生特征图，并根据比对结果训练学生网络，借由此种结合知识蒸馏技术所执行的模型训练方案，可在大幅减少模型参数量的同时，快速缩小学生网络和教师网络之间的差距，以提高模型训练效率。

图2示出了本申请另一示例性实施例的模型训练方法的处理流程图。本实施例为上述步骤S104的具体实施方案，如图所示，本实施例主要包括以下步骤：

步骤S202，根据样本图像中的目标对象的真值框、学生特征图中的各参考锚框，计算真值框相对于每一个参考锚框之间的交并比，获得每一个参考锚框的交并比值。

于本实施例中，真值框可由人工标注生成，用于标注样本图像的中的目标对象。

可选地，可依次将学生特征图中的一个参考锚框作为当前锚框，计算真值框与当前锚框的交并比(IOU)，也就是将真值框与当前锚框的交集除以真值框与当前锚框之间的并集，以获得当前锚框的交并比值，从重复执行获得当前锚框的交并比值的步骤，以获得学生特征图中每一个参考锚框的交并比值。

步骤S204,根据每一个参考锚框的交并比值、学生特征图的交并比阈值，确定各参考锚框中的至少一个候选锚框。

可选地，可根据每一个参考锚框的交并比值中的最高者、预设全局阈值，确定学生特征图的交并比阈值。

可选地，预设全局阈值可介于0.2至0.5之间，较佳为0.3。

具体地，可根据各交并比值中的最高值与预设全局阈值的乘积，确定交并比阈值。

需说明的是，上述交并比阈值除可根据各参考锚框对应的各交并比值的实际计算结果进行动态调整之外，亦可设置为一个定值，根据实际训练需求而定，本申请对此不作限制。

步骤S206，根据每一个候选锚框的并集，确定学生特征图的蒸馏区域。

可选地，根据每一个候选锚框的并集计算结果，可将学生特征图划分为蒸馏区域和非蒸馏区域，其中，蒸馏区域可对应于样本图像中包含目标对象的目标区域。

综上所述，本实施例通过确定学生特征图中的蒸馏区域，可供学生网络针对样本图像的目标对象的附近区域的特征进行模仿，而非模仿整个特征图，借以避免样本图像中的目标信息在蒸馏过程中淹没在背景信息中，可以大大提高对于正例目标的召回。此外，由于模型的损失函数中还同时考量了学生网络的普通损失函数(即训练损失子函数)，因此，对于背景部分可有常规的抑制能力，并最终实现检测精度的提升。

图3示出了本申请另一实施例的模型训练方法的处理流程图。本实施例为上述步骤S106的具体实施方案，如图所示，本实施例主要包括以下步骤：

步骤S302，基于蒸馏区域比对教师特征图和学生特征图，确定模仿损失子函数。

可选地，可根据蒸馏区域、教师特征图、学生特征图、预设模仿损失换算公式，确定模仿损失子函数。

于本实施例中，预设模仿损失换算公式表示为：

其中，L_imitation表示模仿损失子函数，teacher_i表示教师网络针对样本图像输出的第i个教师特征图；student_i表示学生网络针对样本图像输出的第i个学生特征图，Mask_i为第i个学生特征图对应的蒸馏区域的特征掩膜；h为第i个教师特征图或第i个学生特征图的高度值，w为第i个教师特征图或第i个学生特征图的宽度值；f_adap为针对第i个学生特征图的通道数执行适配处理。

步骤S304，根据样本图像的真实标签、学生网络针对样本图像输出的预测标签，确定训练损失子函数。

于本实施例中，可获取学生网络针对样本图像执行分类预测所获取的预测标签(例如目标对象的预测位置和预测类别)，并将预测标签与学生网络的真实标签进行比对，以确定训练损失子函数。

步骤S306，基于模仿损失子函数和训练损失子函数，确定损失函数。

于本实施例中，可基于模仿损失子函数、训练损失子函数、预设损失函数换算公式，确定损失函数。

于本实施例中，预设损失函数换算公式表示为：

L＝L_gt+εL_imitation

其中，L表示损失函数，L_gt表示训练损失子函数；ε为平衡参数；L_imitation表示模仿损失子函数。

综上所述，本申请实施例基于模仿损失子函数和训练损失子函数执行学生网络的训练处理，不仅可着重于样本图像中的目标特征信息，使学生网络能够较好地模仿教师网络在真值框附近的响应，同时学生网络还可受到普通训练过程的监督，能够有效学习到样本图像中的背景特征信息，借以提高模型的整体训练效果。

图4示出了本申请示例性实施例的模型训练装置的结构框图。如图所示，本实施例的模型训练装置400主要包括：特征图生成模块402、蒸馏区域分析模块404、训练模块406。

特征图生成模块402，用于利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图；

蒸馏区域分析模块404，用于根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域；

训练模块406，用于基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定损失函数，并基于所述损失函数训练所述学生网络，以获得训练好的学生网络。

可选地，特征图生成模块402还用于：利用所述教师网络，基于预设维度针对所述样本图像执行特征提取，获取对应于所述预设维度的所述教师特征图；利用所述学生网络，基于所述预设维度针对所述样本图像执行特征提取，获取对应于所述预设维度的所述学生特征图；其中，所述预设维度包括8、16、32中的至少一个。

可选地，所述教师特征图的通道数量与所述学生特征图的通道数量不相同，特征图生成模块402还用于：针对所述学生特征图的通道数执行适配处理，以使所述学生特征图的通道数量与所述教师特征图的通道数量相适配。

可选地，特征图生成模块402还用于：利用预设卷积核针对所述学生特征图的通道数执行卷积处理；所述预设卷积核尺寸为1×1×C2×C1；其中，所述C2为所述学生特征图的通道数量；所述C1为所述教师特征图的通道数量。

可选地，蒸馏区域分析模块404还用于：根据所述样本图像中的目标对象的真值框、所述学生特征图中的各参考锚框，计算所述真值框相对于每一个参考锚框之间的交并比，获得每一个参考锚框的交并比值；根据每一个参考锚框的交并比值、所述学生特征图的交并比阈值，确定各参考锚框中的至少一个候选锚框；根据每一个候选锚框的并集，确定所述学生特征图的蒸馏区域。

可选地，所述学生特征图中的各参考锚框可通过以下方式生成：根据单位锚框设置参数，在所述学生特征图的每一个网格单元中生成满足所述单位锚框设置参数的各参考锚框。

可选地，蒸馏区域分析模块404还用于：根据各参考锚框的交并比值中的最高值、预设全局阈值，确定所述学生特征图的交并比阈值；其中，所述预设全局阈值可介于0.2至0.5之间，较佳为0.3。

可选地，训练模块406还用于：基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定模仿损失子函数；根据所述样本图像的真实标签、所述学生网络针对所述样本图像输出的预测标签，确定训练损失子函数；基于所述模仿损失子函数和所述训练损失子函数，确定所述损失函数。

可选地，训练模块406还用于：根据所述蒸馏区域、所述教师特征图、所述学生特征图、预设模仿损失换算公式，确定所述模仿损失子函数；所述预设模仿损失换算公式表示为：

其中，所述L_imitation表示所述模仿损失子函数，所述teacher_i表示所述教师网络针对所述样本图像输出的第i个教师特征图；所述student_i表示所述学生网络针对所述样本图像输出的第i个学生特征图，所述Mask_i为所述第i个学生特征图对应的蒸馏区域的特征掩膜；所述h为所述第i个教师特征图或所述第i个学生特征图的高度值，所述w为所述第i个教师特征图或所述第i个学生特征图的宽度值；所述f_adap为针对所述第i个学生特征图的通道数执行适配处理。

可选地，训练模块406还用于：基于所述模仿损失子函数、所述训练损失子函数、预设损失函数换算公式，确定所述损失函数；所述预设损失函数换算公式表示为：L＝L_gt+εL_imitation；

其中，所述L表示所述损失函数；所述L_gt表示所述训练损失子函数；所述ε为平衡参数；所述L_imitation表示所述模仿损失子函数。

可选地，训练模块406还用于：基于所述损失函数优化更新所述学生网络的网络参数，并返回执行所述利用教师网络和学生网络分别针对样本图像执行特征提取的步骤，直至所述损失函数满足收敛条件，以完成所述学生网络的训练。

本申请另一实施例还提供一种计算机存储介质，所述计算机存储介质中存储有用于执行上述各方法实施例中各步骤的各指令。

综上所述，本申请各实施例针对模型剪枝和INT8量化中存在的过程复杂，模型精度损失严重的问题，设计了一种基于细粒度特征模仿的目标检测知识蒸馏方案，可着重蒸馏特征图上真值框附近的区域，使得学生网络能够较好地模仿教师网络在特征图真值框附近的响应，同时学生网络还受到普通训练过程的监督，能够学习到背景信息，以最终在大幅度减少计算量的同时，能够保持较高的精度。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，包括：

利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图；

根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域；

基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定损失函数，并基于所述损失函数训练所述学生网络，以获得训练好的学生网络。

2.根据权利要求1所述的模型训练方法，其中，所述利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图，包括：

利用所述教师网络，基于预设维度针对所述样本图像执行特征提取，获取对应于所述预设维度的所述教师特征图；

利用所述学生网络，基于所述预设维度针对所述样本图像执行特征提取，获取对应于所述预设维度的所述学生特征图；

其中，所述预设维度包括8、16、32中的至少一个。

3.根据权利要求2所述的模型训练方法，其中，所述教师特征图的通道数量与所述学生特征图的通道数量不相同，且所述方法还包括：

针对所述学生特征图的通道数执行适配处理，以使所述学生特征图的通道数量与所述教师特征图的通道数量相适配。

4.根据权利要求3所述的模型训练方法，其中，所述方法还包括：

利用预设卷积核针对所述学生特征图的通道数执行卷积处理；

所述预设卷积核尺寸为1×1×C2×C1；

其中，所述C2为所述学生特征图的通道数量；所述C1为所述教师特征图的通道数量。

5.根据权利要求1所述的模型训练方法，其中，所述根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域，包括：

根据所述样本图像中的目标对象的真值框、所述学生特征图中的各参考锚框，计算所述真值框相对于每一个参考锚框之间的交并比，获得每一个参考锚框的交并比值；

根据每一个参考锚框的交并比值、所述学生特征图的交并比阈值，确定各参考锚框中的至少一个候选锚框；

根据每一个候选锚框的并集，确定所述学生特征图的蒸馏区域。

6.根据权利要求5所述的模型训练方法，其中，所述学生特征图中的各参考锚框可通过以下方式生成：

根据单位锚框设置参数，在所述学生特征图的每一个网格单元中生成满足所述单位锚框设置参数的各参考锚框。

7.根据权利要求5所述的模型训练方法，其中，所述方法还包括：

根据各参考锚框的交并比值中的最高值、预设全局阈值，确定所述学生特征图的交并比阈值；

其中，所述预设全局阈值可介于0.2至0.5之间，较佳为0.3。

8.根据权利要求1所述的模型训练方法，其中，所述基于所述蒸馏区域比对所述教师特征图和学生特征图，确定损失函数，包括：

基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定模仿损失子函数；

根据所述样本图像的真实标签、所述学生网络针对所述样本图像输出的预测标签，确定训练损失子函数；

基于所述模仿损失子函数和所述训练损失子函数，确定所述损失函数。

9.根据权利要求8所述的模型训练方法，其中，所述基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定模仿损失子函数，包括：

根据所述蒸馏区域、所述教师特征图、所述学生特征图、预设模仿损失换算公式，确定所述模仿损失子函数；

所述预设模仿损失换算公式表示为：

10.根据权利要求9所述的模型训练方法，其中，所述基于所述模仿损失子函数和所述训练损失子函数，确定所述损失函数，包括：

基于所述模仿损失子函数、所述训练损失子函数、预设损失函数换算公式，确定所述损失函数；

所述预设损失函数换算公式表示为：

L＝L_gt+εL_imitation

11.根据权利要求1所述的模型训练方法，其中，所述基于所述损失函数训练所述学生网络，以获得训练好的学生网络，包括：

基于所述损失函数优化更新所述学生网络的网络参数，并返回执行所述利用教师网络和学生网络分别针对样本图像执行特征提取的步骤，直至所述损失函数满足收敛条件，以完成所述学生网络的训练。

12.一种模型训练装置，包括：

特征图生成模块，用于利用教师网络和学生网络分别针对样本图像执行特征提取，获取所述样本图像的教师特征图和学生特征图；

蒸馏区域分析模块，用于根据所述样本图像的真值框、所述学生特征图，确定所述学生特征图的蒸馏区域；

训练模块，用于基于所述蒸馏区域比对所述教师特征图和所述学生特征图，确定损失函数，并基于所述损失函数训练所述学生网络，以获得训练好的学生网络。

13.一种计算机存储介质，其中，所述计算机存储介质中存储有用于执行上述权利要求1至11中任一项所述的方法中各步骤的各指令。