CN110956119A

CN110956119A - 一种准确且快速的图像中目标检测方法

Info

Publication number: CN110956119A
Application number: CN201911176482.5A
Authority: CN
Inventors: 郭烈; 王东兴; 岳明; 姚宝珍; 李琳辉; 石振周; 齐国栋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-03
Anticipated expiration: 2039-11-26
Also published as: CN110956119B

Abstract

本发明公开了一种准确且快速的图像中目标检测方法，包括以下步骤：检测目标；获取待检测目标样本数据集；选取骨干网络；设计轻量级的融合模块；设计特征增强模块；计算完整的目标检测网络结构。本发明在不降低运行速度的前提下提高了检测精度，其中融合模块的作用是提高小目标的检测精度，F步骤中的特征图20在没有通过融合模块时，处于较浅的卷积位置，虽有很好的细节信息，但是语义信息却不够，于是通过融合模块，加强语义信息。特征增强模块的作用是使得网络更好地适应目标尺度大小的变化，在实际进行检测时，目标的大小是不断变化的，通过设计特征增强模块使得一个特征图可以聚合多个感受野大小的信息，从而更加适应目标尺度大小的变化。

Description

一种准确且快速的图像中目标检测方法

技术领域

本发明涉及一种基于计算机视觉的目标检测算法，特别是一种准确且快速的图像中目标检测方法。

背景技术

目标检测(objection detection)是指利用计算机视觉算法找出图像中所有感兴趣的目标，确定它们的位置及类别。广泛应用于视频监控、无人驾驶、人机交互等领域。

目前基于深度学习的目标检测方法可按原理的不同分为两类，一类是二阶段检测器，其特点是精度更高，但是运行速度较慢，另一类是一阶段检测器，其特点是精度往往不如二阶段检测器，但是运行速度更快。

目前的目标检测方法仍然存在小目标检测精度低和精度与速度之间不能更好的平衡的问题。

发明内容

为解决现有技术存在的上述问题，本发明要设计一种在不降低运行速度的前提下，提高目标检测精度的准确且快速的图像中目标检测方法。

为了实现上述目的，本发明的技术方案如下：一种准确且快速的图像中目标检测方法，包括以下步骤：

A、检测目标

采用训练完成的卷积神经网络对获得的待检测图像进行目标的检测，并根据检测的结果判断图像中是否有目标以及目标所在的具体位置，所述的目标包括车和人。

B、获取待检测目标样本数据集

收集包含待检测目标的N张待检测图像：图像1、图像2、……、图像N，以及每张图像的标注文件，每张图像的标注文件包括该图像中目标的类别以及位置信息。每张图像包含各种场景下待检测目标的可能的状态。对于长宽不等的图像，先将图像用0像素填充到长宽相等的图像，再放缩到320×320的三通道RGB图像。

C、选取骨干网络

骨干网络采用VGG16卷积神经网络，VGG卷积神经网络是牛津大学在2014年提出来的模型，VGG16卷积神经网络是VGG卷积神经网络的变种，其网络层数只有16层，在实际使用时去掉最后的全连接层，并用卷积层代替，具体的网络结构依次为：卷积层1、卷积层2、最大池化层1、卷积层3、卷积层4、最大池化层2、卷积层5、卷积层6、卷积层7、最大池化层3、卷积层8、卷积层9、卷积层10、最大池化层4、卷积层11、卷积层12、卷积层13、最大池化层5、卷积层14和卷积层15。

D、设计轻量级的融合模块

在以VGG16卷积神经网络为骨干网络的前提下，对C步骤中由卷积层10所得到的conv4_3特征图和C步骤中卷积层15所得到的Fc7特征图进行融合，具体融合步骤如下：

D1、Fc7特征图通过有512个大小为1×1的卷积核、卷积步长为1的卷积层1进行降维。经过VGG16卷积神经网络,Fc7特征图的大小为20×20×1024，conv4_3特征图的大小为40×40×512，为了进行融合，先对Fc7特征图通过1×1×512卷积层来降维，具体是：

输入：[N，Cin，Hin，Win]；

卷积核：卷积核大小、卷积核个数；

输出：[N，Cout，Hout，Wout]；

式中，N为样本数目，Cin为输入通道数，Hin为输入图像高度，Win为输入图像宽度，Cout为输出通道数，Hout为输出图像高度，Wout为输出图像宽度，padding为填充大小，dilation为空洞率大小，kernel为卷积核大小，stride为步长。

Fc7特征图通过有512个大小为1×1的卷积核、卷积步长为1的卷积层1，得到大小为20×20×512的特征图1。

特征图1通过有512个大小为3×3的卷积核、卷积步长为1的卷积层2，得到大小为20×20×512的特征图2。

D2、特征图2通过上采样层来扩大Fc7特征图大小，以便于与conv4_3特征图进行融合，采用的方法为双线性插值方法，具体的插值公式如下：

式中x为图像高度方向的坐标，y为图像宽度上的坐标，f(x，y)为任意一点(x，y)处的像素值，Q11＝(x1，y1)、Q12＝(x1，y2)、Q21＝(x2，y1)以及Q22＝(x2，y2)为已知的四个点的坐标及其对应的像素值f(Q11)、f(Q21)、f(Q12)和f(Q22)。

特征图2通过采用双线性插值方式的上采样层，得到大小为40×40×512的特征图3。

D3、特征图3通过全局平均池化提取全局特征信息，然后通过python广播的方式与conv4_3特征图进行融合。

全局平均池化公式为在每一个通道上对每一个像素点求和并求平均值：

f(x，y)：坐标(x，y)处的像素值，f(mean)：像素平均值。

特征图3通过全局平均池化层，得到大小为1×1×512的特征图4。

D4、特征图4通过有512个大小为3×3的卷积核、卷积步长为1的卷积层3，得到大小为1×1×512的特征图5；

conv4_3特征图、特征图3和特征图5相加得到大小为40×40×512的特征图6；

特征图6通过有512个大小为3×3的卷积核、卷积步长为1的卷积层4，得到大小为40×40×512的最终结果特征图7。

E、设计特征增强模块

E1、由于在进行目标检测时，目标的尺度大小是不断变化，所以负责检测的特征图也具有多尺度的感受野信息。在整个特征增强模块当中设计四个分支，每个分支由卷积层和空洞卷积层组合组成，相邻的分支输出结果通过相加进行融合，使得最终得到的特征图的信息更加有效。

E2、具体的网络结构和每层的参数为：

输入大小为40×40×512的特征图1，通过有128个大小为1×1的卷积核、步长为1的卷积层1，得到大小为40×40×128的特征图2，并将其复制4份，命名为z1，z2，z3，z4；

z1通过有128个大小为3×3的卷积核、卷积步长为1，空洞率为1的卷积层2，得到大小为40×40×128的特征图3；

z2与特征图3相加后，通过有128个大小为3×3的卷积核、卷积步长为1，空洞率为1的卷积层3，得到大小为40×40×128的特征图4；

z3与卷积层4的结果相加后，通过有128个大小为3×3的卷积核、卷积步长为1，空洞率为3的卷积层4，得到大小为40×40×128的特征图5；

z4与卷积层5的结果相加后，通过有128个大小为3×3的卷积核、卷积步长为1，空洞率为7的卷积层5，得到大小为40×40×128的特征图6；

特征图3、特征图4、特征图5和特征图6通过聚合层，得到大小为40×40×512的特征图7；

特征图7与原始输入特征图1相加，得到最终的大小为40×40×512的特征图8。

F、计算完整的目标检测网络结构和每层参数输入大小为320×320×3的待检测图像，3代表图像为彩色图像有三个通道，通过有64个大小为3×3的卷积核、步长为1的卷积层1，得到大小为320×320×64的特征图1；

特征图1通过有64个大小为3×3的卷积核、卷积步长为1的卷积层2，得到大小为320×320×64的特征图2；

特征图2通过核大小为2×2，步长为2的最大池化层1，得到大小为160×160×64的特征图3；

特征图3通过有128个大小为3×3的卷积核、卷积步长为1的卷积层3，得到大小为160×160×128的特征图4；

特征图4通过有128个大小为3×3的卷积核、卷积步长为1的卷积层4，得到大小为160×160×128的特征图5；

特征图5通过核大小为2×2，步长为2的最大池化层2，得到大小为80×80×128的特征图6；

特征图6通过有256个大小为3×3的卷积核、卷积步长为1的卷积层5，得到大小为80×80×256的特征图7；

特征图7通过有256个大小为3×3的卷积核、卷积步长为1的卷积层6，得到大小为80×80×256的特征图8；

特征图8通过有256个大小为3×3的卷积核、卷积步长为1的卷积层7，得到大小为80×80×256的特征图9；

特征图9通过核大小为2×2，步长为2的最大池化层3，得到大小为40×40×256的特征图10；

特征图10通过有512个大小为3×3的卷积核、卷积步长为1的卷积层8，得到大小为40×40×512的特征图11；

特征图11通过有512个大小为3×3的卷积核、卷积步长为1的卷积层9，得到大小为40×40×512的特征图12；

特征图12通过有512个大小为3×3的卷积核、卷积步长为1的卷积层10，得到大小为40×40×512的特征图13；

特征图13通过核大小为2×2，步长为2的最大池化层4，得到大小为20×20×512的特征图14；

特征图14通过有512个大小为3×3的卷积核、卷积步长为1的卷积层11，得到大小为20×20×512的特征图15；

特征图15通过有512个大小为3×3的卷积核、卷积步长为1的卷积层12，得到大小为20×20×512的特征图16；

特征图16通过有512个大小为3×3的卷积核、卷积步长为1的卷积层13，得到大小为20×20×512的特征图17；

特征图17通过核大小为3×3，步长为1的最大池化层5，得到大小为20×20×512的特征图18；

特征图18通过有1024个大小为3×3的卷积核、卷积步长为1的卷积层14，得到大小为20×20×1024的特征图19；

特征图19通过有1024个大小为1×1的卷积核、卷积步长为1的卷积层15，得到大小为20×20×1024的特征图20；

特征图20通过融合模块，得到大小为40×40×512的特征图21；

特征图21通过特征增强模块1，得到的大小为40×40×512的特征图22；

特征图22通过有512个大小为3×3的卷积核、卷积步长为2的下采样卷积层1，得到大小为20×20×512的特征图23；

特征图23通过特征增强模块2，得到大小为20×20×512的特征图24；

特征图24通过有512个大小为3×3的卷积核、卷积步长为2，填充为1的下采样卷积层2，得到大小为10×10×512的特征图25；

特征图25通过特征增强模块3，得到的大小为10×10×256的特征图26；

特征图26通过有256个大小为3×3的卷积核、卷积步长为2，填充为1的下采样卷积层3，得到大小为5×5×256的特征图27；

特征图27通过特征增强模块4，得到大小为5×5×256的特征图28；

特征图28通过有256个大小为3×3的卷积核、卷积步长为1，填充为0的下采样卷积层4，得到大小为3×3×256的特征图29；

特征图29通过特征增强模块5，得到大小为3×3×256的特征图30；

特征图30通过有512个大小为3×3的卷积核、卷积步长为1，填充为0的下采样卷积层5，得到大小为1×1×256的特征图31。

与现有技术相比，本发明具有以下有益效果：

卷积神经网络是目前图像识别领域精度最高的检测方法，本发明通过设计融合模块和特征增强模块，在不降低运行速度的前提下提高了检测精度。其中融合模块的作用是提高小目标的检测精度，F步骤中的特征图20在没有通过融合模块时，处于较浅的卷积位置，虽有很好的细节信息，但是语义信息却不够，于是通过融合模块，加强语义信息。特征增强模块的作用是使得网络更好地适应目标尺度大小的变化，在实际进行检测时，目标的大小是不断变化的，所以我们通过设计特征增强模块使得一个特征图可以聚合多个感受野大小的信息，从而更加适应目标尺度大小的变化。

附图说明

图1为本发明的主流程图；

图2为本发明步骤D的流程图；

图3为本发明步骤E的流程图；

图4为VGG16卷积神经网络的结构图。

具体实施方式

下面结合附图对本发明进行进一步地描述。本发明的主流程如图1所示，步骤D和步骤E的流程图分别如图2和3所示，图4所示为步骤C中涉及到的VGG16卷积神经网络的结构图，具体实施方式与发明内容中相同，不在此重复。

本发明不局限于本实施例，任何在本发明披露的技术范围内的等同构思或者改变，均列为本发明的保护范围。

Claims

1.一种准确且快速的图像中目标检测方法，其特征在于：包括以下步骤：

A、检测目标

采用训练完成的卷积神经网络对获得的待检测图像进行目标的检测，并根据检测的结果判断图像中是否有目标以及目标所在的具体位置，所述的目标包括车和人；

B、获取待检测目标样本数据集

收集包含待检测目标的N张待检测图像：图像1、图像2、……、图像N，以及每张图像的标注文件，每张图像的标注文件包括该图像中目标的类别以及位置信息；每张图像包含各种场景下待检测目标的可能的状态；对于长宽不等的图像，先将图像用0像素填充到长宽相等的图像，再放缩到320×320的三通道RGB图像；

C、选取骨干网络

骨干网络采用VGG16卷积神经网络，VGG卷积神经网络是牛津大学在2014年提出来的模型，VGG16卷积神经网络是VGG卷积神经网络的变种，其网络层数只有16层，在实际使用时去掉最后的全连接层，并用卷积层代替，具体的网络结构依次为：卷积层1、卷积层2、最大池化层1、卷积层3、卷积层4、最大池化层2、卷积层5、卷积层6、卷积层7、最大池化层3、卷积层8、卷积层9、卷积层10、最大池化层4、卷积层11、卷积层12、卷积层13、最大池化层5、卷积层14和卷积层15；

D、设计轻量级的融合模块

D1、Fc7特征图通过有512个大小为1×1的卷积核、卷积步长为1的卷积层1进行降维；经过VGG16卷积神经网络,Fc7特征图的大小为20×20×1024，conv4_3特征图的大小为40×40×512，为了进行融合，先对Fc7特征图通过1×1×512卷积层来降维，具体是：

输入：[N，Cin，Hin，Win]；

卷积核：卷积核大小、卷积核个数；

输出：[N，Cout，Hout，Wout]；

式中，N为样本数目，Cin为输入通道数，Hin为输入图像高度，Win为输入图像宽度，Cout为输出通道数，Hout为输出图像高度，Wout为输出图像宽度，padding为填充大小，dilation为空洞率大小，kernel为卷积核大小，stride为步长；

Fc7特征图通过有512个大小为1×1的卷积核、卷积步长为1的卷积层1，得到大小为20×20×512的特征图1；

特征图1通过有512个大小为3×3的卷积核、卷积步长为1的卷积层2，得到大小为20×20×512的特征图2；

式中x为图像高度方向的坐标，y为图像宽度上的坐标，f(x，y)为任意一点(x，y)处的像素值，Q11＝(x1，y1)、Q12＝(x1，y2)、Q21＝(x2，y1)以及Q22＝(x2，y2)为已知的四个点的坐标及其对应的像素值f(Q11)、f(Q21)、f(Q12)和f(Q22)；

特征图2通过采用双线性插值方式的上采样层，得到大小为40×40×512的特征图3；

D3、特征图3通过全局平均池化提取全局特征信息，然后通过python广播的方式与conv4_3特征图进行融合；

f(x，y)：坐标(x，y)处的像素值，f(mean)：像素平均值；

特征图3通过全局平均池化层，得到大小为1×1×512的特征图4；

特征图6通过有512个大小为3×3的卷积核、卷积步长为1的卷积层4，得到大小为40×40×512的最终结果特征图7；

E、设计特征增强模块

E1、由于在进行目标检测时，目标的尺度大小是不断变化，所以负责检测的特征图也具有多尺度的感受野信息；在整个特征增强模块当中设计四个分支，每个分支由卷积层和空洞卷积层组合组成，相邻的分支输出结果通过相加进行融合，使得最终得到的特征图的信息更加有效；

E2、具体的网络结构和每层的参数为：

特征图7与原始输入特征图1相加，得到最终的大小为40×40×512的特征图8；

特征图20通过融合模块，得到大小为40×40×512的特征图21；