CN113705583B

CN113705583B - 一种基于卷积神经网络模型的目标检测识别方法

Info

Publication number: CN113705583B
Application number: CN202110935817.8A
Authority: CN
Inventors: 朱伟; 张胜男; 刘羽; 吉咸阳; 蒋立飞; 张典; 辛付豪
Original assignee: Nanjing Laisi Electronic Equipment Co ltd
Current assignee: Nanjing Laisi Electronic Equipment Co ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-03-22
Anticipated expiration: 2041-08-16
Also published as: CN113705583A

Abstract

本发明提供了一种基于卷积神经网络模型的目标检测识别方法，首先构建Dense‑Spp‑Gaussion网络模型，以密集连接DenseNet网络为骨干网络，引入空间金字塔池化结构和多尺度检测，并采用Gaussian模型对网络输出进行建模，可以得到每个预测框的可靠性，提升检测精度，然后预测值与真实值之间的误差构建损失函数，迭代更新模型参数使得损失函数收敛，最后获得训练好的模型用于目标检测识别。本发明采用4种尺度检测，提高了对小目标的检出率，并用Gaussian模型对位置信息进行建模，得到定位准确度信息，提升了总的检测准确率。

Description

一种基于卷积神经网络模型的目标检测识别方法

技术领域

本发明涉及一种基于卷积神经网络模型的目标检测识别方法。

背景技术

近年来随着计算机视觉以及人工智能技术的发展，目标检测识别的神经网络模型越来越多。在计算机视觉领域，目标检测是很基础也很重要的任务，行人检测、自动驾驶、人体姿态估计等技术都需要依赖于底层的目标检测。但是由于待检测的目标大小和姿态通常都不相同，并且目标经常伴随着遮挡和光照条件不同等因素，导致目标检测识别算法极具挑战性。

从理论上讲，加深网络结构模型会取得很好的识别效果。然而，大量实验结果表明，深层的网络结构存在退化问题，后面的卷积层并未完全获取到前面卷积层提取到的特征信息。当图像中存在不同尺度的目标时，检测效果较差。特别是小目标，由于目标本身像素数量较少，经过网络的多倍采样，会导致目标信息量大幅下降甚至丢失，造成目标漏检。而且网络输出的预测框坐标通常是确定性坐标值，预测框的置信度未知，因此预测的准确性很难评估。

综上所述，需要一种能够解决深层的网络结构存在退化问题，并且对多尺度目标检测有较好效果，而且可以得出预测框置信度信息的卷计神经网络模型。而实现该手段，则需要解决以下关键问题：(1)深层网络结构存在退化问题。(2)小尺度目标检测问题。(3)获取预测框置信度信息。

发明内容

发明目的：针对当前卷积神经网络算法对小目标的检测准确率不高，存在误检、漏检的问题，本发明提供一种基于卷积神经网络模型的目标检测识别方法，可提升对小目标的检出率，降低漏检率，并采用Gaussion建模，输出检测框的不确定性信息。

技术方案：

本发明设计了一种基于卷积神经网络模型的目标检测识别方法。可以提高目标检测识别的准确率。

本发明技术方案的实施步骤包括：

步骤1，构建Dense-Spp-Gaussion目标检测网络模型，

步骤2，损失函数中置信度和类别得分预测分支采用最小平方和误差，预测框采用负对数似然损失，利用训练数据集和目标边界框先验信息，训练步骤一所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。

步骤3，输入被测目标图像，利用训练好的Dense-Spp-Gaussion模型检测图像中的目标，输出图像中每个目标的边界框位置、尺寸以及目标类别。

步骤1中，所述Dense-Spp-Gaussion目标检测网络模型，包括密集连接DenseNet网络、空间金字塔池化结构SPP(Spatial Pyramid Pooling)、目标检测层和高斯模型(Gaussion)，空间金字塔池化结构SPP用于融合多尺度图像局部区域特征，目标检测层对顶层特征图两次上采样，并与底层特征图进行融合。

采用密集连接DenseNet网络为骨干网络，在DenseNet网络与目标检测层之间引入空间金字塔池化结构(Spatial Pyramid Pooling)，融合多尺度图像局部区域特征。

通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图，用以适应不同尺度目标的检测输出，对顶层特征图两次上采样，并与底层特征图进行融合。

增加Gaussian模型对网络输出进行建模，能够输出每个预测框的可靠性，从而提升目标框和算法识别的精度。

步骤1中，所述DenseNet网络包括两个以上密集卷积块DenseBlock，单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核，每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数。

密集卷积块DenseBlock的密集连接方式第L层的输出x_l为：

x_l＝H_l([x₀,x₁,…,x_l-1])

其中，H_l表示非线性变换，随着层数增加，就会将大量线性函数进行复合。[x₀,x₁,…,x_l-1]表示第0到L-1层输出的特征做通道合并。

步骤1中，所述DenseNet网络中共有4个密集卷积块集合，4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16，密集卷积块集合之间由转移层连接，转移层为大小为2×2、步长为2的卷积核进行均值池化；

将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图，分别为(13，13)、(26，26)、(52，52)、(104，104)，在(13，13)特征图上引入空间金字塔池化结构(SPP)，融合多尺度图像局部区域特征，池化窗口尺寸S_pool×S_pool为：

其中，S_map表示输入特征图尺寸，S_pool表示池化操作后特征图尺寸，n_i为缩小倍数，池化步长都为1，采用边界填充保证池化后特征图尺寸不变，然后将不同池化输出结果进行特征合并。

经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y₁，y₂，y₃，y₄)，其中经过空间金字塔池化结构SPP的(13，13)特征图输入y₁通道；(13，13)特征图经过2倍上采样后与(26，26)特征图特征合并输入y₂通道，同样合并后的(26，26)特征图经过2倍上采样后与(52，52)特征图特征合并输入y₃通道，合并后的(52，52)特征图经过2倍上采样后与(104，104)特征图特征合并输入y₄通道；

增加高斯模型对4个通道的输出结果进行建模，模型输出为：

S×S×(K*(9+N))

S表示特征图尺寸，分别为104、52、26和13，K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果：

表示预测框的位置信息，分别为中心点的x坐标、y坐标、宽和高，/>分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息，用来估计坐标信息的可靠性。P_obj表示是否是目标的可靠性信息，P_n表示第n个种类的可靠性信息；

进行以下变换：

通过sigmod函数将值限定在(0，1)范围内，μ_tx、μ_ty、μ_tw、μ_th分别表示预测框回归的x坐标、y坐标、宽和高，Σ_tx、Σ_ty、Σ_tw、Σ_th分别表示x坐标的可靠性、y坐标的可靠性、宽的可靠性和高的可靠性，0表示非常可靠，1表示不可靠。

步骤2包括：

Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布，以中心点x坐标为例，满足均值为μ_tx，方差为Σ_tx的高斯分布，采用负对数似然损失，中心点x坐标损失函数计算公式如下：

其中，W和H分别为特征图每列和每行的网格数，K为Anchor(锚框)数。

表示了对于真实框的每一个值在均值为μ_tx、方差为Σ_tx的高斯分布下的值，x_ijk表示中心点x坐标预测值，ε表示偏移量；其中，高斯分布的密度函数f(x)为：

其中，x为输入值，μ为平均值、σ为方差；γ_ijk为损失函数的权重惩罚系数，表示当前Anchor是否负责预测目标，若负责预测取1，否则取0，w^G和h^G分别表示真实框的宽和高，W_scale是根据长宽计算出的权重值。计算公式如下：

W_scale＝2-w^G×h^G

同样，中心点y坐标和预测框宽高的损失函数如下：

置信度损失为：

其中，为真实框的置信度信息，/>为预测框的置信度信息，λ_noobj为权重系数。

分类损失为：

其中，为真实框的种类信息，/>为预测框的种类信息，λ_class为权重系数。

Dense-Spp-Gaussion网络输出结果总的损失函数Loss为：

Loss＝L_x+L_y+L_w+L_h+L_obj+L_class

训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。

步骤3包括：

输入被检测目标图像，利用所训练的Dense-Spp-Gaussion模型检测图像中的目标，输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框的得分计算每个输出框的得分C_r：

C_r＝σ(Obj)+σ(Class)+(1-U_aver)

其中，σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分；σ(Class)为Dense-Spp-Gaussion网络输出的类别得分；U_aver为定位不确定性得分，表示Σ_tx、Σ_ty、Σ_tw、Σ_th的平均值。在检测过程对预测结果中C_r较低的bbox进行过滤，提高检测准确性。

有益效果：本发明具有如下显著优点：

1、采用密集连接作为骨干网络，改善了层与层之间的信息交流，使得浅层网络提取到的特征信息在深层网络中得到了利用，提高特征的利用率。

2、通过引入图像金字塔模块，实现局部特征和全局特征的融合，丰富最终特征图的表达能力，从而提高检测准确率。

3、采用多尺度特征输出的方式，包含(13，13)、(26，26)、(52，52)、(104，104)四种尺度，提升网络对不同尺寸目标的检测能力。

4、采用Gaussion模型对检测框位置信息建模，得出定位不确定性信息，提高了检测准确性并解决了定位错误的问题。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明Dense-Spp-Gaussion网络模型示意图。

图2是本发明识别可见光车辆效果图。

图3是本发明识别红外车辆效果图。

具体实施方式

本发明提供了一种基于卷积神经网络模型的目标检测识别方法，包括：

(1)如图1所示，构建Dense-Spp-Gaussion目标检测网络模型，采用DenseNet网络为骨干网络，在DenseNet与目标检测层之间引入空间金字塔池化结构(SPP)，融合多尺度图像局部区域特征。通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图，用以适应不同尺度目标的检测输出，同时为了减少底层目标特征的损失，通过对顶层特征图的两次上采样并与底层特征图进行融合，增强了对不同尺度目标的适应性。增加Gaussian模型对网络输出进行建模，能够输出每个预测框的可靠性，从而提升目标框和算法识别的精度。

DenseNet网络由多个DenseBlock密集卷积块集合组成，单个DenseBlock中包括1个1×1的卷积核和4个3×3卷积核，每个3×3卷积核后还加入BatchNormalization层和Relu激活函数。DenseBlock的密集连接方式第L层的输出为：

x_l＝H_l([x₀,x₁,…,x_l-1])

DenseNet网络中共有4个密集卷积块集合，其中密集卷积块的数量分别为6、12、24、16，密集卷积块集合之间由转移层连接，转移层为大小为2×2、步长为2的卷积核进行均值池化；

其中，S_map×S_map表示输入特征图尺寸，n_i为缩小倍数，池化步长都为1，采用边界填充保证池化后特征图尺寸不变，然后将不同池化输出结果进行特征合并。

经过SPP的(13，13)特征图输入y₁通道。(13，13)特征图经过2倍上采样后与(26，26)特征图特征合并输入y₂通道，同样合并后的(26，26)特征图经过2倍上采样后与(52，52)特征图特征合并输入y₃通道，合并后的(52，52)特征图经过2倍上采样后与(104，104)特征图特征合并输入y₄通道。

增加Gaussian模型对网络输出进行建模，模型输出为：

S×S×(K*(9+N))

表示预测框的位置信息，分别为中心点的x，y坐标和宽高，为标准差信息，用来估计坐标信息的可靠性。P_obj表示是否是目标的可靠性信息，P₁…P_n表示每个种类的可靠性信息。

得到以上信息后还需做以下变换：

通过sigmod函数将值限定在(0，1)范围内，μ_tx、μ_ty、μ_tw、μ_th表示预测框回归的坐标，Σ_tx、Σ_ty、Σ_tw、Σ_th表示坐标的可靠性，0表示非常可靠，1表示不可靠。

(2)损失函数中置信度和类别得分预测分支采用最小平方和误差，预测框采用负对数似然损失，利用训练数据集和目标边界框先验信息，训练步骤(1)所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。

网络输出的预测框的坐标和宽、高均满足高斯分布，以中心点x坐标为例，满足均值为μ_tx，方差为Σ_tx的高斯分布，采用负对数似然损失，中心点x坐标损失函数计算公式如下：

这个式子表示了对于真实框的每一个值在均值为μ_tx，方差为Σ_tx的高斯分布下的值其中，高斯分布的密度函数为：

γ_ijk为损失函数的权重惩罚系数，表示当前Anchor是否负责预测目标，若负责预测取1，否则取0，w^G和h^G分别表示真实框的宽和高，计算公式如下：

W_scale＝2-w^G×h^G

同样，中心点y坐标和预测框宽高的损失函数如下：

置信度损失为：

分类损失为：

所以网络输出结果总的损失函数为：

Loss＝L_x+L_y+L_w+L_h+L_obj+L_class

训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。

(3)输入被测目标图像，利用所训练的Dense-Spp-Gaussion模型检测图像中的目标，输出图像中每个目标的边界框位置、尺寸以及目标类别。

输入被检测目标图像，利用所训练的Dense-Spp-Gaussion模型检测图像中的目标，输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框C_r的得分，计算公式为：

C_r＝σ(Obj)×σ(Class)×(1-U_aver)

其中，σ(Obj)为目标置信度得分，值在[0,1]范围之间。σ(Class)为类别得分，值在[0,1]范围之间。U_aver为定位不确定性得分，表示Σ_tx、Σ_ty、Σ_tw、Σ_th的平均值，值在[0,1]范围之间。C_r的值在[0,1]范围之间，在检测过程对预测结果中C_r较低的bbox进行过滤，提高检测准确性。图1中DenseNet表示密集连接网络，Conv表示卷积计算，Max pool表示最大池化，Transistion layer表示过度层，Dense block表示密集连接块，SPP表示空间金字塔池化结构，Upsampling表示上采样，concat表示张量拼接，class表示识别种类数量，K表示先验框数量，box表示预测框，μ_tx、μ_ty、μ_tw、μ_th分别表示预测框回归的x坐标、y坐标、宽和高，Σ_tx、Σ_ty、Σ_tw、Σ_th分别表示x坐标的可靠性，P_obj表示是否是目标的可靠性信息，P_n表示第n个种类的可靠性信息，Input和Output分别表示输入和输出。

图2、图3中的car表示识别出来的车辆，图中的数字即为C_r的值，如C_r＝1.00表示当前目标判定是车辆的概率为100％，C_r＝0.93表示当前目标判定是车辆的概率为93％。

本发明提供了一种基于卷积神经网络模型的目标检测识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于卷积神经网络模型的目标检测识别方法，其特征在于，包括如下步骤：

步骤1，构建Dense-Spp-Gaussion目标检测网络模型；

步骤2，训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛；

步骤3，输入被检测目标图像，利用训练好的Dense-Spp-Gaussion目标检测网络模型检测图像中的目标，输出图像中每个目标的边界框位置、尺寸以及目标类别；

步骤1中，所述Dense-Spp-Gaussion目标检测网络模型，包括密集连接DenseNet网络、空间金字塔池化结构SPP、目标检测层和高斯模型，空间金字塔池化结构SPP用于融合多尺度图像局部区域特征，目标检测层对顶层特征图两次上采样，并与底层特征图进行融合；

步骤1中，所述DenseNet网络包括两个以上密集卷积块DenseBlock，单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核，每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数；

密集卷积块DenseBlock的密集连接方式第L层的输出x_L为：

x_L＝H_L([x₀,x₁,…,x_L-1])

其中，H_L表示非线性变换，[x₀,x₁,…,x_L-1]表示第0到L-1层输出的特征做通道合并；

对4个密集卷积块集合进行32倍、16倍、8和4倍降采样，得到4个不同尺度的特征图，分别为(13，13)、(26，26)、(52，52)、(104，104)特征图，在(13，13)特征图上引入空间金字塔池化结构SPP，融合多尺度图像局部区域特征，池化窗口尺寸S_pool×S_pool为：

其中，S_map表示输入特征图尺寸，S_pool表示池化操作后特征图尺寸，n_i为缩小倍数，池化步长都为1，采用边界填充保证池化后特征图尺寸不变，然后将不同池化输出结果进行特征合并；

增加高斯模型对4个通道的输出结果进行建模，模型输出为：

S×S×(K*(9+N))

S表示特征图尺寸，分别为104、52、26和13，K为4个不同尺寸特征图对应的先验框数量；9+N为每个网格预测的结果，具体如下所示：

表示预测框的位置信息，分别为中心点的x坐标、y坐标、宽和高，分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息，用来估计坐标信息的可靠性；P_obj表示是否是目标的可靠性信息，P_n表示第n个种类的可靠性信息；

进行以下变换：

2.根据权利要求1所述的方法，其特征在于，步骤2包括：

Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布，中心点x坐标满足均值为μ_tx、方差为Σ_tx的高斯分布，采用负对数似然损失，中心点x坐标损失函数L_x计算公式如下：

其中，W和H分别为特征图每列的网格数和每行的网格数，K为Anchor锚框数；

其中，x为输入值，μ为平均值、σ为方差；

γ_ijk为损失函数的权重惩罚系数，表示当前Anchor锚框数是否负责预测目标，如果负责取1，否则取0；w^G和h^G分别表示真实框的宽和高，W_scale是根据长宽计算出的权重值，计算公式如下：

W_scale＝2-w^G×h^G

中心点y坐标的损失函数L_y、预测框的宽的损失函数L_w、预测框的高的损失函数L_h如下：

置信度损失L_obj为：

其中，为真实框的置信度信息，/>为预测框的置信度信息，λ_noobj为权重系数；

分类损失L_class为：

其中，为真实框的种类信息，/>为预测框的种类信息，λ_class为权重系数；

Dense-Spp-Gaussion网络输出结果总的损失函数Loss为：

Loss＝L_x+L_y+L_w+L_h+L_obj+L_class

训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛。

3.根据权利要求2所述的方法，其特征在于，步骤3包括：

计算每个输出框的得分C_r：

C_r＝σ(Obj)+σ(Class)+(1-U_aver)

其中，σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分；σ(Class)为Dense-Spp-Gaussion网络输出的类别得分；U_aver为定位不确定性得分，表示Σ_tx、Σ_ty、Σ_tw、Σ_th的平均值。