CN113936295A

CN113936295A - 基于迁移学习的人物检测方法和系统

Info

Publication number: CN113936295A
Application number: CN202111103913.2A
Authority: CN
Inventors: 张蕊; 杜治兴; 常明; 张曦珊; 刘少礼
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-14
Anticipated expiration: 2041-09-18
Also published as: CN113936295B; CN114419667A

Abstract

本发明提出一种基于迁移学习的人物检测方法和系统，包括：构建用于图像目标检测的教师网络和其对应的学生网络，获取已标注人物类别标签的图片数据集作为训练数据集；以该训练数据集对该教师网络和该学生网络进行训练时，提取老师网络每层目标检测FPN的分类分支输出，得到包括NCHW四个通道输出结果的四维矩阵；通过在该四维矩阵的C通道方向求和，得到NHW维度的特征矩阵作为特征掩码矩阵，基于该特征掩码矩阵、老师网络和学生网络的FPN特征图，得到特征图约束损失；对教师网络的损失、学生网络的损失和该特征图约束损失进行求和，得到蒸馏损失，该蒸馏损失收敛后使用该学生网络对图片中的人物进行检测。

Description

基于迁移学习的人物检测方法和系统

技术领域

本发明涉及目标检测和迁移学习中知识蒸馏技术领域，并特别涉及一种基于迁移学习的人物检测方法、系统、存储介质和客户端。

背景技术

近年来，大规模的深度模型取得了巨大的成功，但巨大的计算复杂度和海量的存储需求使得将它们部署在资源有限的设备中是一个巨大的挑战。作为一种模型压缩和加速方法，知识蒸馏通过转移来自教师检测器的暗知识，即教师网络中隐含的对学生网络中有用的信息，进而有效地提高了小模型的性能。现有大多数基于知识蒸馏的目标检测方法主要让学生网络去模仿老师网络中与边界框重叠的特征，并认为从bounding box中选择的前景特征很重要。

现有的目标检测中知识蒸馏方法过分注重bounding box区域的信息，而忽视了其他的区域的有用信息。首先，从bounding box中选出的前景特征只包含数据集中的类别，而忽略了数据集外对象的类别，导致遗漏了一些重要的特征。例如，COCO数据集中不包含人体模特类别，但包含人物类别。由于模特在视觉上与人相似，人体模型的特征包含了许多有用的人特征，这些特征有利于提高蒸馏检测器对人的检测效果。其次，仅使用边界框的先验知识来选择特征进行蒸馏忽略了教师网络的缺陷。模仿被教师网络误认为背景的特征会对学生网络产生误导。

发明内容

本发明基于在目标检测中蒸馏方法有效利用除bounding box区域外的有用信息，提出了一种基于迁移学习的人物检测方法，其中包括：

步骤1、构建用于图像目标检测的教师网络和其对应的学生网络，获取已标注人物类别标签的图片数据集作为训练数据集；

步骤2、以该训练数据集对该教师网络和该学生网络进行训练时，提取老师网络每层目标检测FPN的分类分支输出，得到包括NCHW四个通道输出结果的四维矩阵；

步骤3、通过在该四维矩阵的C通道方向求和，得到NHW维度的特征矩阵作为特征掩码矩阵，基于该特征掩码矩阵、老师网络和学生网络的FPN特征图，得到特征图约束损失；

步骤4、对教师网络的损失、学生网络的损失和该特征图约束损失进行求和，得到蒸馏损失；

步骤5、重复迭代执行该步骤2到该步骤4，直到该蒸馏损失收敛或达到预设重复迭代次数，终止训练，将当前学生网络作为人物检测模型，并使用该人物检测模型对图片中的人物进行检测。

所述的基于迁移学习的人物检测方法，其中

该步骤2包括：分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量，得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分；

该步骤3包括：基于该老师特征丰富度得分和该学生特征丰富度得分，得到分类头约束损失；

该步骤4包括：对教师网络的损失、学生网络的损失、该特征图约束损失和该分类头约束损失进行求和，得到该蒸馏损失。

所述的基于迁移学习的人物检测方法，其中该特征图约束损失：

式中M代表FPN的总层数，W，H分别代表特征图的宽度和高度，l为对应FPN的层数，i,j代表特征图上点的坐标；

分别代表着老师网络和学生网络第L层对应的FPN特征图，φ_adapt为自适应卷积层。

所述的基于迁移学习的人物检测方法，其中该分类头约束损失：

式中M代表FPN的层数，W，H代表特征图的宽度和高度，

分别代表着老师网络和学生网络第l层对应的老师特征丰富度得分和学生特征丰富度得分，φ为二进制交叉熵函数。

本发明还提出了一种基于迁移学习的人物检测系统，其中包括：

模块1，用于构建用于图像目标检测的教师网络和其对应的学生网络，获取已标注人物类别标签的图片数据集作为训练数据集；

模块2，用于以该训练数据集对该教师网络和该学生网络进行训练时，提取老师网络每层目标检测FPN的分类分支输出，得到包括NCHW四个通道输出结果的四维矩阵；

模块3，用于通过在该四维矩阵的C通道方向求和，得到NHW维度的特征矩阵作为特征掩码矩阵，基于该特征掩码矩阵、老师网络和学生网络的FPN特征图，得到特征图约束损失；

模块4，用于对教师网络的损失、学生网络的损失和该特征图约束损失进行求和，得到蒸馏损失；

模块5、重复迭代执行该模块2到该模块4，直到该蒸馏损失收敛或达到预设重复迭代次数，终止训练，将当前学生网络作为人物检测模型，并使用该人物检测模型对图片中的人物进行检测。

所述的基于迁移学习的人物检测系统，其中

该模块2包括：分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量，得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分；

该模块3包括：基于该老师特征丰富度得分和该学生特征丰富度得分，得到分类头约束损失；

该模块4包括：对教师网络的损失、学生网络的损失、该特征图约束损失和该分类头约束损失进行求和，得到该蒸馏损失。

所述的基于迁移学习的人物检测系统，其中该特征图约束损失：

所述的基于迁移学习的人物检测系统，其中该分类头约束损失：

式中M代表FPN的层数，W，H代表特征图的宽度和高度，

本发明还提出了一种客户端，用于上述基于迁移学习的人物检测系统。

本发明还提出了一种存储介质，用于存储执行所述基于迁移学习的人物检测的程序。

由以上方案可知，本发明的优点在于，提高了目标检测的准确率，在COCO数据集上评测指标是mAP的情况下：Faster-Resnet50提升2.1％，FCOS-Resnet50提升2.4％,GFL-Resnet50提升3.4％。

附图说明

图1为本发明系统框图；

图2为本发明方法流程图。

具体实施方式

为了解决上述问题，本发明提出了一种特征丰富度评分(FRS)方法来选择有利于蒸馏的重要特征。特征丰富度是指特征中包含的对象的信息量，同时可以用这些特征是对象的概率来表示。提取特征丰富度高的特征而不是bounding box区域中的特征可以有效解决上述两个限制——忽略bounding box之外，未包含在数据集类别中的对象的特征；以及过分注重教师检测器错误分类的特征。

首先，未包含在数据集类别中的对象的特征具有很高的特征丰富度。因此，使用特征丰富度可以检索边界框外的重要特征，这可以指导学生网络学习教师网络的广义可检测性。例如，具有高特征丰富度的人体模特的特征可以促进学生检测器提高其对人的广义可检测性。

其次，边界框中的特征但被教师检测器错误分类的特征丰富度低。因此，使用特征丰富度可以去除边界框中教师检测器的误导性特征。

因此，特征的重要性与特征丰富度密切相关，即特征丰富度适合选择重要特征进行蒸馏。由于所有类别的分类分数聚合是特征为对象的概率的近似值，因此本发明使用聚合的分类分数作为特征丰富度的标准。

在实践中，本发明利用教师网络中每个FPN层对应的分类分数得分作为特征掩码，用作特征丰富度图来指导学生网络学习。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

1.特征掩码矩阵S：

基于老师网络每层目标检测FPN的分类分支得到，NCHW的四维矩阵，然后在C通道方向上面求和，得到NHW维度的特征矩阵。然后作为特征掩码矩阵S。其中学生网络是resnet50时候，老师网络可以是resnet101,resnext101等比学生网络大的网络。NCHW中N代表一批图片的大小，比如一次处理几张图片。C代表图片的通道维度，HW分别代表图片或者特征图的长宽。

y^t是老师网络分类分支的输出，c’指的通道，l为对应FPN的层数，t指的是教师网络。

2.约束Loss:

2.1.特征图约束Loss：

M代表着FPN的层数，W，H代表着特征图的宽度和高度，l为对应FPN的层数，i,j代表着特征图上具体某个点，F_lijc'指的是对于每个FPN层上HW维度上每个特征通过特征掩模给予不同的权重；老师网络相比于学生网络会更复杂，本发明主要目的是通过知识蒸馏使学生网络的检测性能得到提升，两者的FPN层数一样。

分别代表着老师网络和学生网络第L层对应的FPN特征图。φ_adapt是一个自适应卷积层。本发明采用特征图约束损失充分利用教师网络中每个FPN层对应的特征掩码，更加高效的指导学生网络的学习。

2.2.分类头约束Loss

M代表着FPN的层数，W，H代表着特征图的宽度和高度，

分别代表着老师网络和学生网络第l层对应的老师特征丰富度得分和学生特征丰富度得分，其中分类分支的得分是基于现有技术，在图像检测中都会带有，用以判断类别的准确度。φ是一个二进制交叉熵函数。本发明采用分类头约束损失充分利用特征中目标对象的信息量(丰富度)，促进学生网络提高其对目标的广义可检测性。

在具体应用时，可基于上述内容：

第一步：获取COCO数据集训练数据。

第二步，构建教师网络，并用COCO数据集对教师网络进行训练。

第三步，构建学生网络。在原有训练loss的基础上对所有FPN(feature pyramidnetworks)层加入对应的蒸馏loss(特征图约束loss和/或分类头约束loss)。并用COCO数据集进行训练。

最后一步使用训练完成的学生网络对图片中的人物进行检测。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种基于迁移学习的人物检测系统，其特征在于，包括：

所述的基于迁移学习的人物检测系统，其特征在于，

所述的基于迁移学习的人物检测系统，其特征在于，该特征图约束损失：

所述的基于迁移学习的人物检测系统，其特征在于，该分类头约束损失：

式中M代表FPN的层数，W，H代表特征图的宽度和高度，

本发明还提出了另一种基于特征丰富度知识蒸馏的人物检测系统，其和上述人物检测系统的区别在于，上述实施方式中采用特征图约束损失，以及特征图约束损失和分类头约束损失进行训练，而本实施例仅单独采用分类头约束损失，具体来说包括：

模块2，用于分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量，得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分；

模块3，用于基于该老师特征丰富度得分和该学生特征丰富度得分，得到分类头约束损失；

模块4，用于对教师网络的损失、学生网络的损失和该分类头约束损失进行求和，得到蒸馏损失；

模块5，用于重复迭代调用该模块2到该模块4，直到该蒸馏损失收敛或达到预设重复迭代次数，终止训练，将当前学生网络作为人物检测模型，并使用该人物检测模型对待识别图片中的人物进行检测，得到待识别图片中人物的人物类别作为识别结果。