CN108416394A

CN108416394A - 基于卷积神经网络的多目标检测模型构建方法

Info

Publication number: CN108416394A
Application number: CN201810240179.6A
Authority: CN
Inventors: 张庆辉; 万晨霞; 卞山峰
Original assignee: Zhengzhou Aiyi Electronic Technology Co Ltd; Henan University of Technology
Current assignee: Zhengzhou Aiyi Electronic Technology Co Ltd; Henan University of Technology
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-17
Anticipated expiration: 2038-03-22
Also published as: CN108416394B

Abstract

本发明公开了一种基于卷积神经网络的多目标检测模型构建方法，旨在解决现有检测模型不能区分多种目标，并且难以识别小目标的技术问题。本发明包括以下步骤：步骤1：搭建Caffe深度学习框架，其中检测模型的配置利用Faster R‑CNN算法完成，并引入ZF网络进行特征提取；步骤2、设计用于实时准确地生成多目标区域的ADPN网络；步骤3、设计ADPN的损失函数对其进行优化；步骤4、训练ADPN；步骤5、设计用于检测多目标类别和位置的DALN子网络；步骤6、设计DALN的损失函数对其进行优化；步骤7、训练DALN；步骤8、对ADPN和DALN进行联合训练，得到检测模型。本发明的有益技术效果在于：能够识别出多种类别的目标，提高了对小目标的识别能力，并且运算速度快，精度高。

Description

基于卷积神经网络的多目标检测模型构建方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于卷积神经网络的多目标检测模型构建方法。

背景技术

目标检测是计算机视觉领域中的一个重要课题，主要任务是从图像中定位感兴趣的目标，需要准确地判断每个目标的具体类别，并给出每个目标的边界框。近年来，目标检测在智能视频监控、车辆自动驾驶、机器人环境感知、盲人图像识别等领域都有广泛的应用。然而，由于视角、遮挡、姿态等因素引起目标发生形变，使目标检测成为一个具有挑战性的任务。传统目标检测方法的研究重点在于特征提取和特征分类。由此，研究者们提出了多种形式的特征和分类器。但是，由于传统目标检测方法使用设计的特征，即使运用最好的非线性分类器进行特征分类，目标检测的准确度也达不到实际需求。设计的特征存在三个缺点：1)设计的特征为低层特征，对目标的表达能力不足；2）设计的特征可分性较差，导致分类的错误率较高；3）设计的特征具有针对性，很难选择单一特征应用于多目标检测。

近年来，卷积神经网络(Convolutional Neural Network, CNN)在图像识别方面以惊人速度发展的同时，Girshick等人把检测问题转化为分类问题，提出R-CNN框架结构，首先使用选择搜索（Selective Search，SS）技术提取候选区域，然后利用CNN模型对候选区域提取特征，将这些区域特征使用支持向量机（Support Vector Machine, SVM）分类器做分类识别，并且对候选区域做边框回归来得到更好的检测结果。针对R-CNN中存在的冗余计算、模型训练需要多步操作的问题，Girshick进一步提出了Fast R-CNN框架结构，整合了整个检测流程，并且对每个图片进行一次特征提取，大大减少了冗余计算，从而提高了检测速度。接着Ren等人又进一步提出了Faster R-CNN框架结构，把得到候选区域的工作也借助CNN来完成，并且使得候选区域提取网络和目标检测网络共享特征提取层，取得了更好的检测性能。但是，Faster R-CNN网络模型很难将容易混淆的物体区分开，并且识别不出小目标。

发明内容

本发明要解决的技术问题是提供一种基于卷积神经网络的多目标检测模型构建方法，以解决现有检测模型应用于识别复杂图像或小目标时效果较差的问题。

为解决上述技术问题，本发明采用如下技术方案：

设计一种基于卷积神经网络的多目标检测模型构建方法，包括以下步骤：

步骤1：搭建Caffe深度学习框架，其中检测模型的配置利用Faster R-CNN算法完成，并用基础网络ZF进行特征提取， ZF网络中包含5个卷积层和2个最大池化层。

步骤2：基于ZF网络设计用于实时准确地生成多目标区域的ADPN网络，方法如下：（a）将ZF网络最后三个卷积层输出的特征图组合成一个连接的特征图，并且新增两个额外的卷积层替换原来的全连接层来计算多目标区域；（b）设计三个比率3:2，1:1，2:3和四个尺度框64²，128²，256²，512²总共12种滑动窗口，预测12种类型的区域；（c）将待测图像边界外的预测区域丢弃，剩下的区域被分配为一个二进制类标签(目标或背景)。在训练时，首先把默认框和真实框匹配，把IoU（Intersection-over-Union）大于0.5的默认框定为正样本，IoU小于0.5的作为负样本。一个真实框可以对应多个正样本，以达到增加数据多样性的效果。

步骤3：利用损失函数优化ADPN网络。ADPN中的两个输出层使用不同的损失函数，第一个输出层为每个预测区域输出一个与目标类似程度的分数，这可以通过softmax分类器来计算。第2个输出层输出每个预测区域的坐标向量loc = (x，y，w，h)，x和y表示预测区域的左上角坐标，而w和h表示预测区域的宽度和高度，并采用smooth L1来细化坐标，其函数表达式为；对于每个正标签区域f^c和真实框loc*，采用多任务损失函数L_ADPN进行训练分类，其定义为：；其中，L_cls表示前景和背景分类的softmax损失函数，L_bbr表示边界框回归损失函数，p*是真实框标签。如果真实框为正，则p*=1，否则p*=0。α是平衡参数，其值为2。

步骤4：训练ADPN网络，方法如下：（a）采用随机梯度下降法进行训练，为了防止过拟合，采用预训练的ZF模型来初始化ADPN中的前五个卷积层；（b）新增加的卷积层权重由零均值高斯分布随机初始化，标准差为0.01；（c）在每次迭代过程中，将一批被标记的训练数据输入到网络中，然后更新参数；（d）为了减少冗余，在基于多目标置信分数的区域上采用非最大值抑制法。

步骤5：设计用于检测多目标类别和位置的DALN网络，方法如下：（a）将ADPN产生的目标区域类别和位置作为输入数据，采用最大池化层和ROI池化层，将每个区域转换成一个固定大小为6×6的特征图；（b）每个ROI特征图被输入到随后的FC6和FC7全连接层中；（c）为了对目标进行准确的分类和定位，FC7层又分成两个全连接层，即FC_type层和FC_ori层。FC_type层的输出被提供给一个双向的softmax，它产生一个类别标签，而FC_ori层的输出被提供给一个8向的softmax，它产生一个位置标签。

步骤6：利用损失函数优化DALN网络，该损失函数为位置损失函数和分类损失函数的加权和，其函数表达式为；其中， p^O和p^T表示目标的位置和类别，β为平衡系数，其值为1。

步骤7：训练DALN网络。DALN通过两个softmax来训练目标类别。每一个目标区域都有两类标签，O和T分别代表位置和类别。这些标签是根据IoU重叠率和真实框的标签分配的。

步骤8：对ADPN和DALN网络进行联合训练，方法如下：（a）由预训练的ZF模型对ImageNet分类进行初始化；（b）ADPN网络预测一组目标区域，DALN网络利用得到的目标区域进行训练；（c）两个网络通过共享卷积层交替进行联合训练，以此得到最终的检测模型。

与现有技术相比，本发明的有益技术效果在于：

1.本发明通过ADPN和DALN网络的设计，能够识别出多种目标的类别和具体位置。

2.本发明设计了12种滑动窗口，能够更好的识别出小目标，提高检测精度。

3.本发明采用ZF模型进行特征提取，能够更充分的提取图像中的复杂信息，提高准确率。

4.本发明在训练网络的过程中采用非最大值抑制，减少冗余计算，并且采用ADPN和DALN交替优化、联合训练，加快算法计算速度。

附图说明

图1是本发明多目标检测框架图。

图2是本发明ADPN模型结构图。

图3是本发明DALN模型结构图。

图4是Faster R-CNN模型的检测结果图。

图5是本发明模型的检测结果图。

具体实施方式

下面结合附图和实施例来说明本发明的具体实施方式，但以下实施例只是用来详细说明本发明，并不以任何方式限制本发明的范围。

以下实施例中所涉及或依赖的程序均为本技术领域的常规程序或简单程序，本领域技术人员均能根据具体应用场景做出常规选择或者适应性调整。

实施例1：一种基于卷积神经网络的多目标检测模型，参见图1，首先将多目标图片输入到包含5个卷积层和2个最大池化层的共享层，来进行特征提取，然后将提取到的特征图输入到ADPN来实时准确地生成多目标区域，之后将生成的多目标区域输入到DALN，来推断区域中目标的类别和位置。图1中ADPN的两个输出层Conv_class和Conv_bbr，分别采用softmax分类器和边界框回归进行输出，其损失函数表达式为，；即前景和背景分类的损失函数和边界框回归损失函数的加权和，平衡参数α的值设为2；图1中DALN采用两个softmax分类器输出，其函数表达式为，即位置估计和目标分类的损失函数加权和，平衡参数β的值设为1。对模型进行训练时，首先采用随机梯度下降法训练ADPN，为了防止过拟合，采用预训练的ZF模型来初始化ADPN中的前五个卷积层；在每次迭代过程中，将前次迭代所得训练数据输入到网络中，然后更新参数；为了减少冗余，在基于多目标置信分数的区域上采用非最大值抑制法得出目标区域。接着将上述目标区域发送到DALN，以推断它们相应的类别和位置。最后对上述两个网络通过共享卷积层进行联合训练，得到最终的多目标检测模型。

如图2所示是本实施例ADPN模型结构。由图2可知，将任意大小的多目标图像输入到第一个卷积层(conv_1)，用96个大小为7×7×3的卷积核进行训练，其后加入激活层和最大池化层。第二个卷积层(conv_2)以第一个卷积层的输出作为输入，用256个大小为5×5×96的卷积核进行训练，其后加入激活层和最大池化层。第三个卷积层(conv_3)、第四个卷积层(conv_4)和第五个卷积层(conv_5)依次连接，分别有384个大小为3×3×256的卷积核，384个大小为3×3×384的卷积核和256个大小为3×3×384的卷积核。为了结合多个特征图，在第三个卷积层和第四个卷积层的前面分别添加了一个3×3的卷积核，即conv_inter3和conv_inter4，分别生成256个特征图。然后，使用归一化响应将conv_inter3、conv_inter4和conv_5输出的特征图进行归一化，并将它们融合到一个单独的特征图中，即最终的特征图。由于较浅的层更适合于定位，较深的层更适合于分类，在实验中，连接最终特征图的是小尺寸多目标检测的区域。为了产生这种区域，用一个3×3的滑动窗口映射最终特征图，滑动操作用一个3×3的卷积核实现，即conv_slid。对于256个特征图，为每个滑动窗口提取256-d的特征向量，将此特征图输入到两个大小为1×1的卷积核，这两个卷积层分别为box-classification层(conv_slid)和box-regression层(conv_bbr)，训练时这两个附加的卷积层权重由零均值高斯分布随机初始化，标准差为0.01。

如图3所示是本实施例DALN模型结构。由图3可知，将ADPN输出的目标区域输入到DALN，目的是将一个固定长度的特征向量从每个目标区域的特征图中提取出来，并用多个分类器对其进行分类。由于这些区域有不同的大小，采取最大池化层和ROI池化层，将每个区域转换成一个固定大小为6×6的特征图。每个ROI特征图被输入到随后的FC6和FC7全连接层中，每个层有4096个神经元。为了对目标进行准确的分类和定位，FC7层又分成两个全连接层，即FC_type和FC_ori。FC_type层的输出被提供给一个双向的softmax，它产生一个类别标签，而FC_ori层的输出被提供给一个8向的softmax，它产生一个位置标签。

本实施例使用的检测模型与Faster R-CNN模型的测试结果参见表1，列出了20类物体的测试结果。由表1可知，本实施例同Faster R-CNN相比较，平均识别率要高。这表明，改进的网络继承和保留了原Faster R-CNN网络的优势，同时也说明由于融入了新的结构和理念，使得本实施例设计的多目标检测模型在物体检测领域相比之前的网络在性能上有了很大提升。从表1中还可以看出，在每一个类别的识别中，所有方法的识别率大致分布在30%至80%之间。另外，对于某一些体型较小的物体类别，如猫、牛、狗等，改进后的网络比之前识别能力明显增加。

表1

本实施例不同尺寸滑动窗口的测试结果参见表2，由表2可知，用1种滑动窗口1种比例时，平均识别率较低，并且滑动窗口面积越大，识别率也就越高；用1种滑动窗口3种比例时，识别率会稍微上升，用4种滑动窗口1种比例时，平均识别率达到69.8%；用3种滑动窗口3种比例时，平均识别率达到69.9%；用4种滑动窗口，3种比例时，平均识别率最高为71.2%。由此可知，增加滑动窗口后平均识别率明显提高。

表2

如图4所示是Faster R-CNN模型下目标的检测结果图，本实施例样本选用容易混淆的带有狗和猫的图像（左），和带有小目标的图像（右）。由图4可知，在Faster R-CNN网络模型上实验将dog误识别为cat，并且实验图像车中的人没有识别出来。

如图5所示是本实施例的检测结果图，同样以图4所示为检测样本。由图5可知，本实施例的检测模型将狗准确识别为dog，并且实验车中的人也能识别出来。

上面结合附图和实施例对本发明作了详细的说明，但是，所属技术领域的技术人员能够理解，在不脱离本发明宗旨的前提下，还可以对上述实施例中的各个具体参数进行变更，形成多个具体的实施例，均为本发明的常见变化范围，在此不再一一详述。

Claims

1.一种基于卷积神经网络的多目标检测模型构建方法，其特征在于，包括以下步骤：

步骤1、搭建Caffe深度学习框架，其中检测模型的配置利用Faster R-CNN算法完成，并用基础网络ZF进行特征提取；

步骤2、设计用于实时准确地生成多目标区域的ADPN网络；

步骤3、分别利用softmax损失函数和smoothL1损失函数对所述ADPN网络进行优化；

步骤4、采用随机梯度下降法对所述ADPN网络进行训练；

步骤5、设计用于检测多目标类别和位置的DALN网络；

步骤6、利用两个softmax损失函数对所述DALN网络进行优化；

步骤7、对所述DALN网络进行训练；

步骤8、对所述ADPN网络和DALN网络进行联合训练，得到检测模型。

2.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤1包括以下处理：将多目标样本图片输入ZF网络中含有5个卷积层和3个全连接层的共享层。

3.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤2包括以下处理：（a）将所述ZF网络最后三个卷积层输出的特征图组合成一个连接的特征图，然后新增加两个用于计算多目标区域的卷积层，替换原来的全连接层；（b）设置滑动窗口的种类：分别使用三个比率3:2、1:1、2:3和四个尺度框64²、128²、256²、512²的滑动窗口，总共预测12种类型的区域；（c）将图像边界外的预测区域丢弃，剩下的区域分别被分配一个代表正负样本的二进制类标签，其中正样本表示区域为目标，负样本表示区域为背景。

4.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤3包括以下处理：所述ADPN网络含有两个输出层，使用不同的损失函数：（a）第一个输出层为每个预测区域输出一个表示与目标类似程度的分数，通过softmax损失函数计算；（b）第二个输出层输出每个预测区域的坐标向量loc = (x，y，w，h)，x和y表示预测区域的左上角坐标，而w和h表示预测区域的宽度和高度；然后利用smoothL₁函数来细化坐标，其函数表达式为；对于每个正标签区域f^c和真实框loc^*，采用损失函数L_ADPN进行分类训练，其定义为：；其中，，L_cls表示用于分类目标和背景的softmax损失函数，L_bbr表示边界框回归损失函数，p^*是真实框标签，α是平衡参数并且α的值为2。

5.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤4包括以下处理：（a）采用预训练的ZF模型初始化所述ADPN网络的前五个卷积层，用以防止过拟合；（b）新增加的卷积层权重由零均值高斯分布随机初始化，标准差为0.01；（c）在每次迭代过程中，将被标记的训练数据输入网络中更新参数；（d）在基于多目标置信分数的区域上采用非最大值抑制法。

6.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤5包括以下处理：（a）将所述ADPN网络产生的目标区域作为输入数据，采用最大池化层和ROI池化层，将每个区域转换成一个固定大小为6×6的特征图；（b）将每个ROI特征图输入到随后的FC6和FC7全连接层中，其中，FC7层又分成两个全连接层，即用于输出类别标签的FC_type层和用于输出位置标签的FC_ori层。

7.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤6包括以下处理：所述DALN网络的损失函数为所述两个softmax损失函数的加权和，其表达式为：；式中，p^O和p^T分别代表位置和类别，L_ori(p^O)和L_type(p^T)是目标位置和目标类别的softmax损失函数，β为平衡系数，其值设为1。

8.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤7包括以下处理：DALN网络通过两个softmax来训练目标类别，每一个目标区域都有两类标签：O和T，分别代表位置和类别，这些标签是根据IoU重叠率和真实框的标签分配的。

9.根据权利要求1所述的基于卷积神经网络的多目标检测模型构建方法，其特征在于，所述步骤8包括以下处理：（a）所述ADPN网络和DALN网络由预训练的ZF模型对ImageNet分类进行初始化；（b）所述ADPN网络预测一组目标区域，所述DALN网络利用得到的目标区域进行训练；（c）两个网络通过共享卷积层交替进行联合训练，得到最终的检测模型。