CN111461213A

CN111461213A - 一种目标检测模型的训练方法、目标快速检测方法

Info

Publication number: CN111461213A
Application number: CN202010243802.0A
Authority: CN
Inventors: 王岳环; 杜雅丽; 张津浦; 戴开恒; 耿铭良
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111461213B

Abstract

本发明公开了一种目标检测模型的训练方法、目标快速检测方法，该训练方法包括：在训练时添加目标区域特征增强层；利用特征提取单元对训练样本进行特征提取，对上一级特征提取单元输出的特征图取通道平均，得到通道数归一的第一特征值矩阵；遍历所述训练样本中的每一个像素点，生成第二特征值矩阵；将所述第一特征值矩阵与第二特征值矩阵元素值相乘得到第三特征值矩阵；将所述第三特征值矩阵与预置的调节函数相乘，然后与特征图的每一个通道特征矩阵做元素值加法，得到目标增强特征图并输入下一特征提取单元中；本发明使网络充分训练，平衡了网络深度和检测精度间的关系，增强了特征图的背景感知能力，检测精度高且计算较简单，易于硬件平台移植。

Description

一种目标检测模型的训练方法、目标快速检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种目标检测模型的训练方法、目标快速检测方法。

背景技术

陆战场中，坦克是主要的作战工具，为了防止敌方袭击、伏击及保护我方重要人员设备等，对坦克等车辆进行检测警戒是非常有必要的。动平台检测识别设备的战场警戒可以实现全方位的侦察，更加智能化。目前，现有的传统检测算法计算复杂且难以适应复杂的战场环境，而一般的深度学习检测算法计算复杂，难以在移动平台上实现实时检测。

在复杂战场背景下动平台坦克检测识别存在以下难点：(1)关于坦克车辆的数据和图像比较少，深度学习算法难以训练数据；(2)传统的检测算法复杂度高且很难准确地检测出目标；(3)检测背景复杂，目标物体与周围背景颜色相似，一般的单阶段预测网络易受干扰。(4)存在小目标或不同角度的目标，无法准确检测和分类；(5)深度学习预测网络计算过程复杂，难以在硬件平台上达到实时或近实时。

因此，需要一种更加适合复杂战场环境下的目标检测方法来实现坦克车辆的快速检出，以解决上述难题。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种目标检测模型的训练方法、目标快速检测方法，使用目标区域特征增强的方法使网络充分训练；设计半通道特征信息整合结构来增强特征值对目标和背景的区分性；并将低维特征图与高维特征图融合，进行不同尺度的检测，提高各个尺度的目标检测精度；平衡了网络深度和检测精度间的关系，将该方法应用于坦克车辆的检测，由此解决现有技术中坦克车辆检测算法应用到复杂战场背景下的动平台上存在一定局限性的问题。

为实现上述目的，按照本发明的第一个方面，提供了一种目标检测模型的训练方法，该目标检测模型包括特征提取网络和预测网络，所述特征提取网络中包括多级特征提取单元和目标区域特征增强层，且至少一组相邻的特征提取单元之间设有目标区域特征增强层，该训练方法包括：

输入标记的训练图像，经过特征提取单元得到输出特征图；

在目标区域特征增强层中，对上一级特征提取单元输出的特征图进行通道平均，得到通道数归一的第一特征值矩阵；

遍历所述训练样本中的每一个像素点，若像素点不在目标区域内，则为该像素点赋予第一特征值；若像素点在目标区域内且该目标大于预设的像素块大小，则为该像素点赋予第二特征值；若像素点在目标区域内且该目标小于等于预设的像素块大小，则为该像素点赋予第三特征值；生成训练样本对应的第二特征值矩阵；

将所述第一特征值矩阵与第二特征值矩阵元素值相乘后得到第三特征值矩阵；

将所述第三特征值矩阵与预置的调节函数相乘后与特征图的每一个通道特征矩阵的进行元素值加法，得到目标增强特征图，并将其输入下一特征提取单元中；

将特征提取单元输出的特征图进行特征融合后输入所述预测网络中预测出目标的类别和位置；将预测结果与真实数据进行对比并计算预测损失，基于所述预测损失调整目标检测模型的参数直至达到设定的训练次数或预测损失达到阈值。

优先的，上述训练方法，所述目标增强特征图计算方式为：

其中，E表示目标增强特征图；

表示目标区域特征增强层的输入特征图；α(t)表示调节函数；G表示第二特征值矩阵；C表示通道数；

目标增强特征图E中包含更多的目标信息，提高了网络对目标的定位能力。

优选的，上述训练方法，所述第二特征值矩阵具体为：

其中，(i，j)表示训练样本中的像素点的位置坐标。

优选的，上述训练方法，所述调节函数为：

其中，t表示训练迭代次数；max_epoch表示网络训练的最大迭代次数。

按照本发明的第二个方面，还提供了一种目标检测方法，包括：

获取待测图像并将其归一化为固定尺寸；

将归一化的待测图像输入训练后的目标检测模型中，由各级特征提取单元进行特征提取和半通道特征信息整合后输出不同尺度的特征图；所述半通道特征信息整合具体为：

第i-1个特征提取单元输出的特征图i-1经第i个特征提取单元处理后输出特征图i；

将所述特征图i平均分离为通道数与所述特征图i-1相等的两个子特征图；

将特征图i-1两倍下采样后与其中一个所述子特征图进行元素值相加，并将相加结果与另一个子特征图进行通道拼接后得到特征图i'，将激活后的所述特征图i'作为第i个特征提取单元输出的特征图；其中，i＝2～n，n表示目标检测模型中特征提取单元的级数；

对特征提取单元输出的特征图进行特征融合，基于融合后的特征图进行目标分类和目标位置回归，得到预测目标框及其对应的目标类别。

优选的，上述目标检测方法，所述目标检测模型的运算参数采用上述任一项所述的训练方法训练得到。

优先的，上述目标检测方法，所述半通道特征信息整合的计算方式为：

其中，F表示各种张量运算，F_out、F_cat、F_sample、F_split分别表示半通道特征信息整合计算、通道拼接运算、下采样运算和通道分离运算。

优选的，上述目标检测方法，对特征提取单元输出的特征图进行特征融合具体包括：

对最后一级特征提取单元输出的特征图进行卷积后执行至少两次上采样，分别将每次上采样后得到的特征图与其他特征提取单元中的浅层特征图进行通道拼接，且上采样后的特征图的尺寸与对应拼接的所述浅层特征图的尺寸相等。

优选的，上述目标检测方法，对特征图进行目标分类和目标位置回归具体包括：

基于预先设置的锚框对特征图进行边界回归，得到基于所述锚框位置和大小的预测目标框的位置和置信度；所述锚框为利用Kmeans算法对若干训练样本中标记的真实目标框进行聚类得到。

优选的，上述目标检测方法，得到预测目标框及其对应的目标类别之后还包括：基于目标类别的分类概率对预测的目标框进行非极大值抑制，消除多余的目标框。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的目标检测模型的训练方法、目标快速检测方法，使用目标区域特征增强的方法使网络充分训练，平衡了网络深度和检测精度间的关系，检测精度高且计算较简单，易于硬件平台移植。

(2)本发明提供的目标检测模型的训练方法、目标快速检测方法，采用半通道特征信息整合来增强特征值对目标和背景的区分性，防止网络过拟合的同时，增强了特征的背景感知能力，有利于小目标检测。

(3)本发明提供的目标检测模型的训练方法、目标快速检测方法，通过通道拼接将低维特征图与高维特征图融合，进行不同尺度的检测，提高各个尺度的目标检测精度，有利于不同尺度的目标检测。

附图说明

图1为本发明实施例公开的一种目标快速检测方法的流程示意图；

图2为本发明实施例公开的一种预测网络结构示意图，其中，线条①表示特征图的半通道特征信息整合计算，线条②表示特征图的通道拼接计算；

图3为本发明实例公开的一种目标区域特征增强层示意图；

图4为本发明实例公开的一种半通道特征信息整合结构示意图；

图5为引入锚框机制的目标边框预测示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种目标检测模型的训练方法，该目标检测模型包括特征提取网络和预测网络，特征提取网络中包括多级特征提取单元和目标区域特征增强层，且至少一组相邻的特征提取单元之间设有目标区域特征增强层，该训练方法包括：

输入标记的训练图像，经过特征提取单元得到输出特征图；

利用所述目标区域特征增强层对上一级特征提取单元输出的特征图进行通道平均，得到通道数归一的第一特征值矩阵；

将所述第三特征值矩阵与预置的调节函数相乘，然后与特征图的每一个通道特征矩阵进行元素值加法，得到目标增强特征图并将其输入下一级特征提取单元中；

将特征提取单元输出的特征图进行特征融合后输入所述预测网络中，预测出目标的类别和位置；将预测结果与训练样本中标记的真实数据进行对比并计算预测损失，基于所述预测损失调整目标检测模型的参数直至达到设定的训练次数或预测损失达到阈值。

本发明使用目标区域特征增强的方法使网络充分训练，平衡了网络深度和检测精度间的关系，检测精度高且计算较简单，易于硬件平台移植。

本发明还提供了一种目标快速检测方法，该方法可应用采用常规训练方法训练后的目标检测模型，优选应用采用本发明提供的训练方法训练后的目标检测模型；具体的，该检测方法包括以下步骤：

获取待测图像并将其归一化为固定尺寸；

将归一化的待测图像输入训练后的目标检测模型中，由各特征提取单元进行特征提取和半通道特征信息整合后输出不同尺度的特征图；所述半通道特征信息整合具体为：

将特征图i-1两倍下采样后与其中一个所述子特征图进行元素值相加，并将相加结果与另一个子特征图进行通道拼接后得到特征图i'，将激活后的所述特征图i'作为第i个特征提取单元输出的特征图；其中，i＝2～n，n表示目标检测模型中特征提取单元的个数；

本发明采用半通道特征信息整合来增强特征值对目标和背景的区分性，防止网络过拟合的同时，增强了特征的背景感知能力，有利于小目标检测。

下面结合实施例和附图对本发明提供的目标快速检测方法进行详细说明。

图1为本实施例公开的一种坦克车辆快速检测方法的流程示意图，参见图1所示，该方法中包括以下步骤：

(一)建立坦克车辆数据集，数据集图像中包含任意类别、大小和角度的坦克车辆；

本实施例中，数据集中的图像来源于Google浏览器中搜索到的各国军事演习的视频，以及无人机和高清相机拍摄；图像大小任意且包含不同类别、大小、角度的坦克车辆；然后使用label-master标记软件对每一张图像中的坦克车辆进行标记并保留相关文件，标签为真实目标框的左上角顶点的坐标、真实目标框的长度、宽度以及目标的类别，形成训练样本集。

本发明创建了坦克车辆数据集，为基于深度学习的检测算法在军事场景的应用提供了数据基础。

(二)对训练样本集中的真实目标框聚类，得到锚框尺寸；

本实施例中，根据预测网络文件中要求的数量，采用Kmeans算法在训练样本集上聚类出经常出现的几个真实目标框的尺寸，这些尺寸的框称为锚框，用于后续的检测过程。

(三)设置网络参数，使用目标区域特征增强方法对目标检测模型进行训练，得到权重参数文件；具体包括以下子步骤：

(1)首先设置目标检测模型的训练参数，并输入预训练结果作为卷积计算的初始计算参数；

其中，需要根据训练集图像数量设定每次参数更新需要的图像数量和训练的总迭代次数，设定学习率、学习率更新节点、阈值等参数，预训练一般在ImageNet2012数据集上进行。

(2)训练时在原始的网络结构中添加至少一个目标区域特征增强层，以提高网络训练参数对目标的定位能力；

图2为本实施例提供的一种目标检测模型的结构示意图，如图2所示，该目标检测模型包括特征提取网络和预测网络，其中，特征提取网络中包括五级特征提取单元，本实施例在第四、第五级特征提取单元之间设有目标区域特征增强层；本实施例中，以最大池化层为界划分不同的特征提取单元，将相邻两个池化层之间的卷积层及其后对该卷积层的输出进行下采样的池化层定义为一个特征提取单元；需要说明的是，目标区域特征增强层的个数和位置不作具体限制，可以设置在任意两个特征提取单元之间；优选的，在第i个(i>n/2)特征提取单元之后设置目标区域特征增强层，其中，n为特征提取单元的总数，i为整数；实验表明，在更高层级的特征提取单元增设目标区域特征增强层对网络检测精度的提高最为明显，更高层级的特征提取单元能从低级特征中提取到更复杂的特征，此位置区域得到的特征图包含较多语义信息，同时也保留了大部分的目标位置信息，所以在此位置添加辅助增强层，更利于目标的检测。

本实施例中，在预测网络进行第四次下采样，经过卷积核为3×3、1×1、3×3的第三个卷积层之后添加目标区域特征增强层，该目标区域特征增强层的结构如图3所示。

将上一级特征提取单元输出的H×W×C大小的特征图x进行通道平均，得到H×W×1的第一特征值矩阵，同时引入原图对应大小的bounding box特征值图，即第二特征值矩阵；该第二特征值矩阵具体为：

在第二特征值矩阵中，真实目标框小于等于30×30像素的区域内的特征值为1，真实目标框大于30×30像素区域内的特征值为0.5-1，其他区域的值为0；该第二特征值矩阵用于区分大目标和小目标，本实施例将大于30×30像素的目标作为大目标，反之作为小目标；当然，区分大小目标的像素块大小可以根据用户需求自行调整，而不局限于30×30像素，

将第一、第二特征值矩阵做元素值乘法得到第三特征值矩阵，该第三特征值矩阵乘以与训练迭代次数相关的调节函数α(t)，然后与最初输入的特征图x的每一个通道特征矩阵做元素值加法，即为目标区域特征增强层输出的特征图E。

本实施例中，调节函数

其中，t是网络训练迭代次数，max_epoch表示网络训练的最大迭代次数；

所以，目标区域特征增强层的输出特征图的计算公式为：

其中，E表示目标增强特征图；

表示目标区域特征增强层的输入特征图；α(t)表示调节函数；G表示第二特征值矩阵；C表示通道数。

随着训练迭代次数t的增加，α(t)逐渐减小，特征辅助增强层对得到的特征值影响逐渐减小，最后一轮训练时，α(t)等于0，特征辅助增强层不参与训练。

(3)图像经过网络各层计算，预测出目标的类别和位置，将预测得到的结果与训练样本中标注的真实数据进行对比，通过损失函数具体量化预测值和真实数据的差值，对损失函数求导，反向传播更新计算参数，重复执行此步骤，直到损失函数达到阈值或达到设定的训练次数；

本实施例中，损失函数包括坐标损失、置信度损失和类别损失三部分，计算公式如下：

其中，S表示输入预测网络的特征图的大小；B表示每个对应的特征图网格预置的锚框数目；

和

为指示函数；

坐标损失中，λ_coord＝2-truth^w×truth^h，x，y，w，h分别表示预测目标框中心点的坐标，以及它的宽度和高度，truth表示标记的真实数据，b表示预测数据；

置信度损失中，

是真实目标框的置信度，C_ij是预测目标框的置信度，λ_noobj表示此特征值代表的网格区域不含物体时预测目标框的置信度的损失权重；

类别损失中，

表示真实的目标类别概率，p(c)_ij表示预测的目标类别概率。

坐标损失主要优化预测值和目标框的大小；置信度损失主要优化置信度参数，同时缩减检测的目标量级；类别损失主要优化置信度和预测类别。

经过上述过程，获得网络训练的权重参数文件，目标检测模型训练完成，可以用于待测图像的检测。

(四)将任意尺寸的待检测图像归一化到416×416大小；

(五)将归一化后的待检测图像输入到训练后的目标检测模型中，利用训练得到的卷积核对待检测图像进行卷积操作、特征图下采样和半通道特征信息整合，输出经过计算的特征图，重复这些步骤，得到不同尺度的特征图；

图2中的线条①示出了在特征提取网络中执行半通道特征信息整合的位置示例，实质上是将前一个特征提取单元输出的特征图与后一个特征提取单元输出的特征图进行整合；本实施例以对第二、第三个特征提取单元输出的特征图进行整合为例进行说明，半通道特征信息整合具体包括以下步骤：

(1)待检测图像经过第二个特征提取单元进行卷积和最大池化运算得到大小为H×W×C的特征图A；其中，H、W分别表示特征图的高、宽，C表示特征图的通道数；

(2)特征图A作为半通道特征信息整合结构的输入，经过第三个特征提取单元进行卷积和一次最大池化运算得到大小为H/2×W/2×2C特征图f(A)；根据通道数目将特征图f(A)平均分离为两个大小为H/2×W/2×C的特征图B、C；

(3)将输入特征图A两倍下采样，与特征图B做元素值加法，然后与特征图C进行通道拼接，重新得到大小为H/2×W/2×2C的特征图，最后使用RELU激活函数激活得到最终特征图，作为第三个特征提取单元输出的特征图；

(4)特征提取网络重复上述相关步骤，得到包含不同尺度的特征图。

其中，所描述的半通道特征信息整合结构如图4所示，其计算公式表达如下：

(六)将特征提取网络的第五个特征提取单元输出的特征图进行上采样以增大分辨率，然后与浅层特征图通道拼接，得到的新的特征图通道数是两个特征图通道数和，包含更多空间特征信息；

图2中的线条②示出了在特征提取网络中进行特征图通道拼接的位置示例，如图2所示，本实施例对第五个特征提取单元输出的特征图进行了两次上采样，并分别将每次上采样后得到的特征图与其他特征提取单元中的浅层特征图进行通道拼接；需要注意的是，浅层特征图的尺寸必须与上采样后的特征图的尺寸相等才能进行拼接；

其中，经过第五个特征提取单元输出的特征图大小为H×W×C1，插值法上采样得到新的特征图的长、宽、通道数为2H×2W×C1，将其与第五级特征提取单元中的浅层卷积得到的特征图，长、宽、通道数分别为2H×2W×C2，进行通道数拼接，拼接得到的新特征图的大小为2H×2W×(C1+C2)，特征值为特征矩阵的原值，通过通道的拼接增加了通道数。此结果作为预测网络的第一个输入。将第一次上采样的特征图再进行卷积和上采样计算，与第四级特征提取单元中的浅层特征图进行通道拼接，方法同上，得到的特征图作为预测网络的第二个输入。

(七)预测网络对通道拼接后得到的特征图进行逻辑回归目标分类，得到预测目标框及其对应的目标类别；

其中，对特征金字塔得到的特征图，根据检测类别数将分类与回归前的最后一次卷积的通道数设定成3×(5+类别数)；假如检测类别数为3，则最后一次卷积的通道数为24；如图5所示，基于初始设置的锚框大小对特征图进行目标框回归，得到基于特征图网格坐标和预锚框大小的t_x、t_y、t_h、t_w与置信度confidence；则可以计算出预测目标框的真实大小为：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

其中，所有参数都是相对此次检测使用的特征图尺寸，σ是logistic函数，C_x、C_y分别表示特征图网格中某一网格左上角的坐标；p_w、p_h是预设的锚框映射到特征图中的宽和高；t_x表示预测框中心相对所在的特征图网格左上角水平方向的偏移量，t_y表示竖直方向的偏移量；t_w、t_h分别表示预测框相对p_w、p_h的缩放尺度；b_x、b_y表示预测目标框中心在特征图网格上的坐标；b_w、b_h分别表示预测目标框映射到特征图中的宽高。

置信度confidence的计算方式如下：

其中，Pr(Object)是当前预测目标框内存在物体的概率，

表示预测目标框中有物体时，预测目标框与标记的真实目标框的重叠度IOU；

用逻辑回归函数计算出每一个预测目标框的属于每一个类别的概率：

其中，x是输入特征值，W是运算参数，p(y＝c_i|x)表示当输入特征是x时，目标属于类别c_i的概率，i是类别序号。

再进一步计算每个预测目标框在包含一个目标的前提下，其属于某个类别的概率Pr(C_n|object)。

(六)对获得的多个预测目标框进行非极大值抑制操作，消除多余的目标框，获取最终坦克目标；具体的：

根据类别分类概率从小到大的顺序将属于某种坦克车辆的预测目标框进行排序，从概率最大的预测开始，分别判断其他预测框与其重叠度IOU是否大于设定的阈值；若超过阈值，则舍弃类别概率小的预测框，标记并保留概率最大的预测框。从剩下的未标记的预测框中，选择概率最大的，然后判断与其他框的重叠度，重叠度大于一定的阈值，就舍弃其中概率小的预测框，最后标记并保留下概率最大的预测框。一直重复这个过程，所有的被标记保留下的预测框即为最终检测结果输出。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测模型的训练方法，该目标检测模型包括特征提取网络和预测网络，所述特征提取网络中包括多级特征提取单元和目标区域特征增强层，其特征在于，该训练方法包括：

输入标记的训练图像，经过特征提取单元处理后输出特征图；

2.如权利要求1所述的方法，其特征在于，所述目标增强特征图的计算方式为：

其中，E表示目标增强特征图；

3.如权利要求1所述的训练方法，其特征在于，所述第二特征值矩阵具体为：

其中，(i，j)表示训练样本中的像素点的位置坐标。

4.如权利要求1所述的训练方法，其特征在于，所述调节函数为：

5.一种目标快速检测方法，其特征在于，包括：

获取待测图像并将其归一化为固定尺寸；

6.如权利要求5所述的目标快速检测方法，其特征在于，所述目标检测模型的运算参数采用权利要求1-4任一项所述的训练方法训练得到。

7.如权利要求5或6所述的目标快速检测方法，其特征在于，所述半通道特征信息整合的计算方式为：

8.如权利要求5或6所述的目标快速检测方法，其特征在于，所述对特征提取单元输出的特征图进行特征融合具体包括：

9.如权利要求5或6所述的目标快速检测方法，其特征在于，所述基于融合后的特征图进行目标分类和目标位置回归具体包括：

基于预先设置的锚框对特征图进行边界回归，得到基于所述锚框位置和大小的预测目标框的位置和置信度；所述锚框为利用Kmeans算法对训练样本中标记的真实目标框尺寸进行聚类得到。

10.如权利要求5或6所述的目标快速检测方法，其特征在于，得到预测目标框及其对应的目标类别之后还包括：基于目标类别的分类概率对预测目标框进行非极大值抑制，消除多余的目标框。