CN110781962B

CN110781962B - 基于轻量级卷积神经网络的目标检测方法

Info

Publication number: CN110781962B
Application number: CN201911027640.0A
Authority: CN
Inventors: 谢雪梅; 金星; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-03-28
Anticipated expiration: 2039-10-28
Also published as: CN110781962A

Abstract

本发明公开了一种基于轻量级卷积神经网络的目标检测方法，主要解决现有目标检测方法网络复杂、速度不快和对小目标检测效果差的问题。本发明的具体步骤如下：(1)构建轻量级卷积神经网络；(2)生成目标训练集；(3)训练轻量级卷积神经网络；(4)对待检测目标进行检测。本发明构建了一个由特征提取模块、特征增强模块、识别和定位模块组成的轻量级卷积神经网络，克服了现有目标检测方法中大目标检测效果好、小目标检测效果差并且速度慢的问题，使得本发明不仅能够实时识别大目标，也能实时识别小目标。

Description

基于轻量级卷积神经网络的目标检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中的一种基于轻量级卷积神经网络的目标检测方法。本发明可用于检测自然图像中的静止目标。

背景技术

现有的大量目标检测方法在公共数据集中获得了非常高的分数，但在现实任务中目标检测仍然存在很多挑战，像对小目标的检测效果较差等。例如，在智能体育教学中，检测球将有助于教练掌握打球的学生的准确性。然而，当将相机放置在运动室中时，球仅占据几个像素，并且由于运动中的小球会因为运动员的一些特定动作产生形变或者遮挡，而且还有不同的光照、运动模糊等影响因素，所以现有的目标检测网络并不适用于类似于此小球识别的目标识别场景。

厦门大学在其申请的专利文献“基于卷积神经网络的快速目标检测方法”(专利申请号CN201510061852.6，公开号CN104573731A)中公开了一种基于卷积神经网络的快速目标检测方法。该方法首先利用训练集训练出卷积神经网络参数，然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图；把卷积神经网络的全连接权重看成线性分类器，采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差；根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数，最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。此方法虽然可以显著提高检测效率和目标检测精度，但是，该方法仍然存在的不足之处是：没有针对小目标的特征增强模块，对于图像中所含像素较少或含有遮挡的小目标检测，由于其提取特征的不明显，此方法效果并不是很好。

Shifeng Zhang在其发表的论文Single-Shot Refinement Neural Network forObject Detection(The IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018,pp.4203-4212)中公开了一种基于Single-Shot的图像目标检测方法RefineDet，该方法基于SSD算法和RPN网络、FPN算法的结合，可以在保持SSD高效的前提下大大提高检测效果。引入Two Stage类型目标检测算法中对Box由粗到细进行回归思想，即先通过RPN网络得到粗粒度的Box信息，然后再通过常规的回归支路进行进一步回归从而得到更加精确的框信息；引入类似FPN网络的特征融合操作，有效的提高了小目标的检测效果。尽管此网络的方法可以提高图像中小目标的检测精度，但是该方法仍然存在的不足之处是：网络复杂并且速度慢，所以无法在需要同时对大小目标都进行快速检测的的场景中使用。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于轻量级卷积神经网络的目标检测方法，解决现有目标检测方法网络复杂、速度不快和对小目标检测效果差的问题。

本发明的技术思路是，利用构建一个轻量级卷积神经网络提取并增强目标特征，并将网络输出的向量与类别和位置相对应，对图像数据集中的目标进行识别与定位，使得网络能够精确检测出图中的每一个目标。

本发明的实现的具体步骤如下：

步骤1，构建轻量级卷积神经网络：

第一步，搭建一个9层的特征提取模块，其结构依次为：第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层；并设置每层参数为：将第一至第七卷积层中卷积核的个数分别设置为64，64，128，128，256，256，256，卷积核的大小均设置为3×3，步长均设置为1，第一和第二池化层均采用最大池化的方式，池化区域核的大小均设置为2×2，步长均设置为2；

第二步，搭建一个3层的特征增强模块，其结构依次为：全局平均池化层→归一化层→点积层，其中点积层与全局平均池化层和归一化层并联；并将池化区域核的大小设置为2×2，步长设置为2；分别定义全局平均池化、归一化层和点积层的函数；

所述全局平均池化层的函数为：

其中，z_i表示全局平均池化层输出的第i个特征权重，i＝1,2,...,C，C表示X的总维度数，C＝256，F_global表示全局平均池化操作，X表示从特征提取模块提取并向全局平均池化层输入的的一组特征图，H和W分别表示X的高度和宽度，m和n分别表示横轴坐标和纵轴坐标，该坐标系以特征图左上角为原点，水平向右为横轴正方向，垂直向下为纵轴正方向，x_i(m,n)表示X中第i个特征图中坐标为(m,n)的点的值；

所述归一化层的函数为：

其中，s_i表示更新后的第i个特征权重；

所述点积层的函数为：

第三步，搭建一个3层的识别和定位模块，其结构依次为：第八卷积层→第九卷积层→第十卷积层；其中第九卷积层和第十卷积层并联；并将第八、九、十卷积层中卷积核的个数分别设置为256，2，8，卷积核的大小均设置为3×3，步长均设置为1；

第四步，将特征提取模块、特征增强模块、识别和定位模块依次连接组成轻量级卷积神经网络；

步骤2，生成目标训练集：

第一步，将至少1500张含有目标的待检测图片组成图片数据集，所述的每张待检测图片是从连续拍摄的含有待检测目标的视频中每隔5帧组成大小为1920×1080×3的一张图片；

第二步，对图片数据集中的每张图片中的目标进行标注，标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别，标注后会对应生成一个含有各目标各顶点坐标和其类别信息的xml格式标注文件；将所有的图片放到名为JPEGImages的文件夹中，将所有的xml格式的标注文件放到Annotations文件夹中，组成训练集；

步骤3，训练轻量级卷积神经网络：

将训练集输入到轻量级卷积神经网络中，用梯度下降法更新轻量级卷积神经网络的权值，直至Loss值降至3.0以下为止，得到训练好的轻量级卷积神经网络；

步骤4，对待检测目标进行检测：

将含有待检测目标的每张图片依次输入到训练好的轻量级卷积神经网络中，输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。

与现有技术相比，本发明具有以下优点：

第一，由于本发明构建了一个由特征提取模块、特征增强模块、识别和定位模块组成的轻量级卷积神经网络，克服了现有轻量级目标检测方法中大目标检测效果好、小目标检测效果差的问题，使得本发明不仅能够识别大目标，也能识别小目标。

第二，由于本发明构建了一个轻量级卷积神经网络，克服了现有小目标检测方法检测速度慢的问题，使得本发明能够实时对小球进行精确识别，实现实时目标检测的功能。

附图说明

图1为本发明的流程图；

图2为本发明中特征增强模块的结构图。

具体实施方式

下面结合附图对本发明的做进一步的描述。

结合附图1对本发明的实现步骤做进一步的描述。

步骤1，构建轻量级卷积神经网络。

第一步，搭建一个9层的特征提取模块，其结构依次为：第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层；并设置每层参数为：将第一至第七卷积层中卷积核的个数分别设置为64，64，128，128，256，256，256，卷积核的大小均设置为3×3，步长均设置为1，第一和第二池化层均采用最大池化的方式，池化区域核的大小均设置为2×2，步长均设置为2。

第二步，结合附图2对构建特征增强模块做进一步的描述。

搭建一个3层的特征增强模块，其结构依次为：全局平均池化层→归一化层→点积层，其中点积层与全局平均池化层和归一化层并联；并将池化区域核的大小设置为2×2，步长设置为2；分别定义全局平均池化、归一化层和点积层的函数。

所述全局平均池化层的函数为：

其中，z_i表示全局平均池化层输出的第i个特征权重，i＝1,2,...,C，C表示X的总维度数，C＝256，F_global表示全局平均池化操作，X表示从特征提取模块提取并向全局平均池化层输入的的一组特征图，H和W分别表示X的高度和宽度，m和n分别表示横轴坐标和纵轴坐标，该坐标系以特征图左上角为原点，水平向右为横轴正方向，垂直向下为纵轴正方向，x_i(m,n)表示X中第i个特征图中坐标为(m,n)的点的值。

所述归一化层的函数为：

其中，s_i表示更新后的第i个特征权重。

所述点积层的函数为：

第三步，搭建一个3层的识别和定位模块，其结构依次为：第八卷积层→第九卷积层→第十卷积层；其中第九卷积层和第十卷积层并联；并将第八、九、十卷积层中卷积核的个数分别设置为256，2，8，卷积核的大小均设置为3×3，步长均设置为1。

第四步，将特征提取模块、特征增强模块、识别和定位模块依次连接组成轻量级卷积神经网络。

步骤2，生成目标训练集。

第一步，将至少1500张含有目标的待检测图片组成图片数据集，所述的每张待检测图片是从连续拍摄的含有待检测目标的视频中每隔5帧组成大小为1920×1080×3的一张图片。

第二步，对图片数据集中的每张图片中的目标进行标注，标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别，标注后会对应生成一个含有各目标各顶点坐标和其类别信息的xml格式标注文件；将所有的图片放到名为JPEGImages的文件夹中，将所有的xml格式的标注文件放到Annotations文件夹中，组成训练集。

步骤3，训练轻量级卷积神经网络。

将训练集输入到轻量级卷积神经网络中，用梯度下降法更新轻量级卷积神经网络的权值，定义Loss函数，直至Loss值降至3.0以下为止，得到训练好的轻量级卷积神经网络。

所述Loss函数定义为：

式中，i是一个mini-batch下anchor的索引。p_i是anchor预测为目标的概率。当anchor为目标时，

为1，否则为0。t_i是预测框的位置坐标，

是训练时每一个positiveanchor对应的ground truth的坐标。N_cls是一个batch的大小，设为256。N_reg是anchor的总数，λ是为了平衡二者设置的平衡比例，设置

L_cls是目标与非目标的对数损失，即：

L_reg则采用Fast R-CNN中的平滑L1 loss，其形式为：

其中，R即为Smooth L1 Loss函数，即：

表示Loss只正样本回归时有效。

步骤4，对待检测目标进行检测。

Claims

1.一种基于轻量级卷积神经网络的目标检测方法，其特征在于，利用构建一个轻量级卷积神经网络提取并增强目标特征，并将网络输出的向量与类别和位置相对应，对图像数据集中的目标进行识别与定位，该方法的步骤包括如下：

步骤1，构建轻量级卷积神经网络：

步骤2，生成目标训练集：

步骤3，训练轻量级卷积神经网络：

步骤4，对待检测目标进行检测：

2.根据权利要求1所述的基于轻量级卷积神经网络的目标检测方法，其特征在于，步骤1第二步中所述的全局平均池化层的函数如下：

其中，z_i表示全局平均池化层输出的第i个特征权重，i＝1,2,...,C，C表示X的总维度数，C＝256，F_global表示全局平均池化操作，X表示从特征提取模块提取并向全局平均池化层输入的一组特征图，H和W分别表示X的高度和宽度，m和n分别表示横轴坐标和纵轴坐标，该坐标系以特征图左上角为原点，水平向右为横轴正方向，垂直向下为纵轴正方向，x_i(m,n)表示X中第i个特征图中坐标为(m,n)的点的值。

3.根据权利要求1所述的基于轻量级卷积神经网络的目标检测方法，其特征在于，步骤1第二步中所述的归一化层的函数如下：