CN110309842A

CN110309842A - 基于卷积神经网络的物体检测方法及装置

Info

Publication number: CN110309842A
Application number: CN201811628757.XA
Authority: CN
Inventors: 贾纪元; 周莉; 陈杰
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-10-08
Anticipated expiration: 2038-12-28
Also published as: CN110309842B

Abstract

本发明公开了一种基于卷积神经网络的物体检测方法及装置，该方法包括：获取含有物体的图片，输入卷积神经网络，得到卷积特征图；将卷积特征图聚合得到通道信息聚合图；并根据感兴趣区域位置坐标产生区域重聚焦矩阵；根据区域重聚焦矩阵结合卷积特征图对卷积神经网络进行训练，直至网络的物体检测精度收敛。本发明提供的基于卷积神经网络的物体检测方法及装置通过教师‑学生模式的训练方法训练实现，根据区域重聚焦矩阵中不同位置元素值的大小去动态地缩放惩罚学生网络和教师网络特征图之间的差异损失，促使学生网络学习更加合理的特征表达，从而训练出更加精确的单阶段物体检测神经网络。

Description

基于卷积神经网络的物体检测方法及装置

技术领域

本发明涉及计算机视觉中的物体检测领域，尤其涉及一种基于卷积神经网络的物体检测方法及装置。

背景技术

将深度卷积神经网络应用于物体检测领域，可以大幅的提高检测精度与模型的泛化性能。物体检测任务的目标为，给定一张含有物体的图片，模型自动识别出图片中所有的物体，针对图片中出现的每一个物体，模型会预测出其类别信息和类别置信度，以及其所在边界框的位置坐标。

基于深度卷积神经网络的物体检测模型，其精度相比传统方法有显著的提升。基于深度卷积神经网络的物体检测器可分为单阶段与二阶段两大类，其中单阶段物体检测神经网络(例如YOLO网络)在精度和运算速度之间具有良好的平衡，被广泛应用于车载、安防等对实时性要求较高的领域。

网络规模较大的单阶段物体检测神经网络往往具有较高的计算复杂度和存储消耗，不便于将其部署在低端的计算平台上；因此，网络规模小，运算快的小型单阶段物体检测神经网络更加适合于在实际应用中的部署。然而，小型的单阶段物体检测神经网络存在训练不易收敛、精度低等问题，因此，如何改善小型单阶段物体检测神经网络的训练收敛状况和提高其检测精度是十分重要的话题。

发明内容

本发明的目的在于提供一种基于卷积神经网络的物体检测方法及装置，以加快物体检测神经网络的训练收敛速度，并提高其检测精度。

为了实现上述目的，本发明提供了一种基于卷积神经网络的物体检测方法，包括：

获取含物体的图片，将该图片经数据扩增处理后输入至教师网络进行前向运算，得到具有不同通道特征信息的卷积特征图，该教师网络为能够独立完成物体检测的卷积神经网络；

进一步的，卷积特征图为含有不同维度的张量，该维度包括：高度、宽度和通道。

对上述卷积特征图进行聚合处理，得到通道信息聚合图；

进一步的，该步骤包括：

在教师网络的卷积特征图通道方向上，融合不同通道的语义信息，将不同通道特征信息聚合压缩为单通道矩阵，得到通道信息聚合图。

根据感兴趣区域位置坐标，结合上述通道信息聚合图，产生区域重聚焦矩阵；

进一步的，该步骤包括：

根据感兴趣区域的位置坐标，对通道信息聚合图裁剪出相应感兴趣区域的区域重聚焦矩阵，该区域重聚焦矩阵编码了感兴趣区域内不同位置的重要程度；

更进一步的，产生区域重聚焦矩阵的计算公式为：

其中，m_i，j∈S表示所生成的区域重聚焦矩阵中一个像素的值，i，j，k表示在三维的卷积特征图中一个像素的空间坐标，p_i，j，k表示三维卷积特征图中某位置处的激活值，C代表三维卷积特征图的通道数，S表示某个感兴趣区域，T表示规范化因子。

上述含物体的图片，进行相同的数据扩增处理后，同时输入学生网络进行前向运算得到卷积特征图，该学生网络为规模小于教师网络的卷积神经网络。

利用区域重聚焦矩阵结合教师网络和学生网络的卷积特征图对学生网络进行缩放惩罚训练，直至学生网络的物体检测精度收敛；

进一步的，对学生网络进行缩放惩罚训练包括：

根据感兴趣区域的位置坐标，裁剪出教师网络与学生网络的卷积特征图中相应的特征张量，计算教师网络和学生网络的区域特征张量之间的欧氏距离，并用上述区域重聚焦矩阵加权该欧氏距离，用加权后的距离构造辅助损失函数；

更进一步的，构造辅助损失函数的计算公式为：

其中L_ad代表构造的辅助损失函数，M_n代表第n个感兴趣区域对应的区域重聚焦矩阵，H_n，c和I_n，c分别代表来自教师网络和学生网络的特征张量块的某一个通道的矩阵，*符号表示矩阵之间对应元素相乘，结果仍为相同尺寸的矩阵，N代表图像中感兴趣区域的个数，C代表卷积特征图的通道数；

累加辅助损失函数和来自真值标签的检测损失函数构成联合损失函数；

根据联合损失函数，利用误差反向传播算法，计算学生网络中参数的梯度，利用梯度信息更新学生网络参数，直至学生网络的物体检测精度收敛；

进一步的，学生网络中参数为随机初始化或预训练权重初始化，其中预训练权重初始化是经过图像分类数据集预训练之后的权重参数。

最后，将待检测的含有物体的图片输入学生网络，得到物体类别及位置信息。

其中，感兴趣区域的位置坐标确定方法为：

根据数据集中所标注的边界框的位置坐标，将其位置坐标映射至通道信息聚合图，根据该通道信息聚合图的实际分辨率对坐标进行缩放和整数化，使整数化的边界框坐标和卷积特征图进行匹配和对准，获得感兴趣区域位置坐标。

基于上述方法，本发明还提供了一种基于卷积神经网络的物体检测装置，该装置预置有上述训练完成的学生网络。

本发明提供的基于卷积神经网络的物体检测方法及装置，有效的改善了小型单阶段物体检测神经网络的训练收敛状况，提高了其检测精度。

附图说明

为了更加详细的描述本发明的实施例的技术方案，下面将针对实施例所需要的附图进行介绍，显而易见地，下面的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种区域重聚焦矩阵的生成示意图；

图2为本发明实施例提供的模型训练方法总体框架的示意图。

具体实施方式

为了使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的基于教师-学生训练模式的训练方法，大多为针对图像分类任务设计的，图像分类任务相比物体检测任务较为简单，它们仅仅使用教师网络的预测值与学生网络的预测值之间的差异产生损失函数，并以此监督学生网络的训练。然而，这种训练方法仅仅适用于图像分类的任务，对于较为复杂的物体检测任务来说，这些方法并不适用；针对物体检测需要重新设计更加精细、复杂的损失函数和训练框架，才能提供有效的监督信息，进一步提高检测精度，而且，如果使用普通的训练方法，规模较小的网络精度一般很低。

本发明用于加速物体检测神经网络的训练收敛速度，同时提高其检测精度。区域重聚焦矩阵可以编码感兴趣区域内不同位置的重要性程度，具体地，用此矩阵中不同位置的元素值加权缩放相应位置处教师网络和学生网络的特征差异，以产生辅助损失函数，使关键区域处的特征偏差遭到更大程度的惩罚。同时，结合来自真值标签的检测损失函数和辅助损失函数构成联合损失函数，监督紧凑学生网络的训练，以提高学生网络的特征提取能力。

本发明一实施例提供了一种基于卷积神经网络的物体检测方法及装置，其中，其一方面提供了一种基于卷积神经网络的物体检测方法，该方法包括：

首先，获取含物体的图片，将该图片经数据扩增处理后输入至教师网络进行前向运算，得到具有不同通道特征信息的卷积特征图，该教师网络为能够独立完成物体检测的卷积神经网络；

在本发明的实施例中，充当教师角色的神经网络通常为精度相对较高的网络，例如YOLOv2网络；所使用的教师网络通常为已经训练完成的网络，其一般特点是具有较高的平均准确率和较强的图像特征提取能力；而且，教师网络的运算复杂度相对较高。

同时，上述含物体的图片，进行相同的数据扩增处理后，同时输入学生网络进行前向运算得到卷积特征图，该学生网络为规模小于教师网络的卷积神经网络，其比教师网络规模小、运算快，物体检测精度低。

在本发明提供的实施例中，充当学生角色的神经网络通常规模较小，网络层数相对较少，运算复杂度较低，例如tiny-YOLOv2网络。

一些实施例中，学生网络中参数为随机初始化或预训练权重初始化，其中预训练权重初始化是经过图像分类数据集预训练之后的权重参数。

本实施例中，学生网络的权重可以是随机初始化的，也可以是经过图像分类数据集(例如ImageNet)预训练之后的权重。随机初始化的权重较易得到，可以节省网络的整体训练时间；经过预训练的权重往往具有更高的精度，但是网络的预训练过程会耗费额外的训练时间。

本实施例中，在网络的训练阶段，将同一图片经过相同的数据扩增方法处理(随机截取，随机翻转等)后，同时输入至教师网络和学生网络中进行前向运算；梯度反向传播和权重的更新只针对学生网络，教师网络的参数值在整个过程中保持恒定。

对于一般的卷积神经网络，不同的卷积层提取不同抽象级别的特征：靠近输入层的卷积层，提取图像中的边缘，纹理，几何形状等细节特征；而靠近输出层卷积层，提取完整物体和高级语义信息的特征。因此，卷积网络主干的最后特征层可以被用来生成所述区域重聚焦矩阵。

因此，接着上述步骤，对上述卷积特征图进行聚合处理，得到通道信息聚合图。

一些实施例中，该步骤包括：

再接着，根据感兴趣区域位置坐标，结合上述通道信息聚合图，产生区域重聚焦矩阵。

一些实施例中，该步骤包括：

根据感兴趣区域的位置坐标，对通道信息聚合图裁剪出相应感兴趣区域的区域重聚焦矩阵，该区域重聚焦矩阵编码了感兴趣区域内不同位置的重要程度。

一些实施例中，卷积特征图为含有不同维度的张量，该维度包括：高度、宽度和通道。

由于训练完毕的教师物体检测神经网络往往具有优异的特征提取和表达能力，本实施例中，区域重聚焦矩阵由教师网络负责生成。具体地，如图1所示，首先，图片经过教师网络的前向运算，获得最终的卷积特征图，特征图通常为含有三个维度(高度，宽度，通道)的张量，不同通道的二维矩阵携带不同的高级语义信息。为了实现通道间信息融合，需要将三维特征图聚合为单通道二维特征图，具体的信息聚合方式为：对每一个二维位置的像素，沿通道方向求平方和，将求和的结果乘以规范化因子，获得单通道的特征图，最后根据感兴趣区域边界框的位置，裁剪出对应于某个感兴趣区域的区域重聚焦矩阵，如公式(1)所示：

其中的m_i，j∈S表示所生成的区域重聚焦矩阵中一个像素的值，i，j，k表示在三维的卷积特征图中一个像素的空间坐标，p_i，j，k表示三维卷积特征图中某位置处的激活值，C代表三维卷积特征图的通道数，S表示某个感兴趣区域，T表示规范化因子。

一些实施例中，感兴趣区域的位置坐标确定方法为：

本实施例中，根据数据集中所标注的真值边界框位置可以定义感兴趣区域S。具体地，针对数据集中每一个真值框，将其位置坐标映射至卷积特征图：根据实际卷积特征图的空间分辨率，对连续的浮点数坐标进行整数化，使整数化的边界框坐标和卷积特征图进行匹配和对准，为进一步地计算辅助损失函数做准备。

然后，利用区域重聚焦矩阵结合教师网络和学生网络的卷积特征图对学生网络进行缩放惩罚训练，直至学生网络的物体检测精度收敛。

一些实施例中，对学生网络进行缩放惩罚训练包括：

根据感兴趣区域的位置坐标，裁剪出教师网络与学生网络的卷积特征图中相应的特征张量，计算教师网络和学生网络的区域特征张量之间的欧氏距离，并用上述区域重聚焦矩阵加权该欧氏距离，用加权后的距离构造辅助损失函数。

本实施例中，获得感兴趣区域坐标之后，根据其二维整数坐标值对卷积特征图进行截取，获得感兴趣区域所对应的教师网络和学生网络的特征张量块。首先，针对这两个特征张量块，逐元素对比从而获得特征张量块之间的欧氏距离；然后，对特征张量块中每一个位置的特征差异，乘以区域重聚焦矩阵中对应的缩放因子，获得最终的辅助损失函数，过程如图2所示。对于区域重聚焦矩阵所指示出的关键区域，如果学生网络的特征张量块和教师网络的特征张量块之间存在差异，则区域重聚焦矩阵会引导产生更加严厉的惩罚，从而实现启发式地针对重点区域的特征学习，进而提高学生物体检测神经网络的精度。辅助损失函数的计算方法如公式(2)所示：

接下来，累加辅助损失函数和来自真值标签的检测损失函数构成联合损失函数。

本实施例中，将上述辅助损失函数与来自数据集的真值损失函数累加，构成最终的联合损失函数，利用常见的优化方法最小化联合损失函数，实现对学生网络的有效训练。可选地，优化方法为带有动量的随机梯度下降法，batch-size大小为64，初始学习率为0.001，学习率的衰减策略为阶段式衰减，总迭代次数为40200。

最后，根据联合损失函数，利用误差反向传播算法，计算学生网络中参数的梯度，利用梯度信息更新学生网络参数，直至学生网络的物体检测精度收敛，完成训练。

训练完成之后，即可获得精度较高的单阶段物体检测神经网络。之后便可将待检测的含有物体的图片输入该网络，得到物体类别及位置信息。

基于上述实现方法，本发明另一方面还提供了一种基于卷积神经网络的物体检测装置，该装置预置有上述训练完成的学生网络，在保证网络规模较小的条件下，还可实现高精度物体检测。

实验结果表明，无论学生网络是否有预训练，相比普通的训练方法，本发明提供的基于卷积神经网络的物体检测方法及装置训练出的学生物体检测神经网络在精度上都有显著的提高。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种基于卷积神经网络的物体检测方法，其特征在于，包括：

获取含物体的图片，将所述图片经数据扩增处理后输入至教师网络进行前向运算，得到具有不同通道特征信息的卷积特征图，所述教师网络为能够独立完成物体检测的卷积神经网络；

对所述卷积特征图进行聚合处理，得到通道信息聚合图；

根据感兴趣区域位置坐标，结合所述通道信息聚合图，产生区域重聚焦矩阵；

所述含物体的图片，进行相同的数据扩增处理后，同时输入学生网络进行前向运算得到卷积特征图，所述学生网络为规模小于所述教师网络的卷积神经网络；

利用所述区域重聚焦矩阵结合所述教师网络和学生网络的卷积特征图对学生网络进行缩放惩罚训练，直至学生网络的物体检测精度收敛；

将待检测的含有物体的图片输入学生网络，得到物体类别及位置信息。

2.根据权利要求1所述的基于卷积神经网络的物体检测方法，其特征在于，所述卷积特征图为含有不同维度的张量，所述维度包括：高度、宽度和通道。

3.根据权利要求1所述的基于卷积神经网络的物体检测方法，其特征在于，所述对卷积特征图进行聚合处理，得到通道信息聚合图包括：

在所述教师网络的卷积特征图的通道方向上，融合不同通道的语义信息，将不同通道特征信息聚合压缩为单通道矩阵，得到通道信息聚合图。

4.根据权利要求1所述的基于卷积神经网络的物体检测方法，其特征在于，所述产生区域重聚焦矩阵包括：

根据感兴趣区域的位置坐标，对所述通道信息聚合图裁剪出相应感兴趣区域的区域重聚焦矩阵，所述区域重聚焦矩阵编码了感兴趣区域内不同位置的重要程度。

5.根据权利要求1所述的基于卷积神经网络的物体检测方法，其特征在于，所述对学生网络进行缩放惩罚训练包括：

根据感兴趣区域的位置坐标，裁剪出教师网络和学生网络的卷积特征图中相应的特征张量，计算教师网络和学生网络的区域特征张量之间的欧氏距离，并用所述区域重聚焦矩阵加权所述欧氏距离，用加权后的距离构造辅助损失函数；

累加所述辅助损失函数和来自真值标签的检测损失函数构成联合损失函数；

根据所述联合损失函数，利用误差反向传播算法，计算学生网络中参数的梯度，利用梯度信息更新学生网络参数，直至学生网络的物体检测精度收敛。

6.根据权利要求5所述的基于卷积神经网络的物体检测方法，其特征在于，所述学生网络中参数为随机初始化或预训练权重初始化，所述预训练权重初始化是经过图像分类数据集预训练之后的权重参数。

7.根据权利要求1或4或5中任一所述的基于卷积神经网络的物体检测方法，其特征在于，所述感兴趣区域的位置坐标确定方法为：

根据数据集中所标注的边界框的位置坐标，将其位置坐标映射至所述通道信息聚合图，根据所述通道信息聚合图的实际分辨率对坐标进行缩放和整数化，使整数化的边界框坐标和卷积特征图进行匹配和对准，获得感兴趣区域位置坐标。

8.根据权利要求1或4所述的基于卷积神经网络的物体检测方法，其特征在于，所述区域重聚焦矩阵的计算公式为：

9.根据权利要求1或5所述的基于卷积神经网络的物体检测方法，其特征在于，所述构造辅助损失函数的计算公式为：

其中L_ad代表所述的辅助损失函数，M_n代表第n个感兴趣区域对应的区域重聚焦矩阵，H_n，c和I_n，c分别代表来自教师网络和学生网络的特征张量块的某一个通道的矩阵，*符号表示矩阵之间对应元素相乘，结果仍为相同尺寸的矩阵，N代表图像中感兴趣区域的个数，C代表卷积特征图的通道数。

10.一种基于卷积神经网络的物体检测装置，其特征在于，所述装置预置一卷积神经网络，所述该卷积神经网络为由权利要求1至9中任一所述方法训练完成的所述学生网络。