CN112396053A

CN112396053A - 一种基于级联神经网络的环视鱼眼图像目标检测方法

Info

Publication number: CN112396053A
Application number: CN202011346080.8A
Authority: CN
Inventors: 刘宏哲; 包俊; 徐成; 徐冰心; 潘卫国; 代松银
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-23

Abstract

本发明涉及一种基于级联神经网络的环视鱼眼图像目标检测方法，用于解决环视鱼眼图像存在严重的目标畸变导致目标检测困难的问题，包括以下步骤：构建融合可变形卷积和可变形池化的Cascade R‑CNN环视鱼眼图像目标检测网络模型；训练重构后的模型；模型实测。本发明在构建网络模型时，采用改进的Resnet50网络作为图像特征提取的子网络，将其stage3至stage5的固定卷积和固定池化层，替换为可变形卷积和可变形池化层，能够根据形变目标的状态，扩大感受野，自学习偏移量，进行有效的特征提取，从而对畸变目标有效建模。此外，采用级联神经网络，能对正负样本进行多次多级过滤，也大大提高了目标检测的准确率。

Description

一种基于级联神经网络的环视鱼眼图像目标检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于级联神经网络的环视鱼眼图像目标检测方法

背景技术

目标检测是计算机视觉领域重要的研究内容，它需要将目标进行分类和定位。目前环境感知使用的大多是窄角针孔摄像头，它们的缺点是视场范围小、有盲区，要感知周围环境，往往需要利用十多个摄像头，大大增加了处理时间，不符合目标检测处理实时性要求。环视鱼眼图像视角范围广，无盲区，还能减少目标间的遮挡，理论上只需要4个相机，就能感知360°周围环境信息。

虽然环视鱼眼图像视场大，但鱼眼图像存在严重的目标畸变，图像失真较大，给图像处理带来一定的难度，普通图像目标检测经典算法不能很好的迁移到鱼眼图像的处理上来。

目前环视鱼眼图像目标检测主要存在以下难点：

1、环视鱼眼图像存在严重的目标畸变，尤其是图像边缘处，变形是最严重的。假如对鱼眼图像进行校正后再处理，就目前的校正算法来说，还存在图像校正后信息丢失的情况。但直接对未处理的鱼眼图像进行目标检测，目前还没有有效的模型算法，能够对畸变目前进行建模。

2、深度学习模型训练需要大量数据集，并且相关的模型算法，也需要有统一的公开数据集来评价，但目前鱼眼图像还较少有公开统一的数据集用于模型训练和算法评价，这极大地阻碍了环视鱼眼图像目标检测算法的发展。

3、不同鱼眼相机参数各异，比如就是相机的内参焦距,畸变系数和外参旋转矩阵和平移向量，给算法建模带来非常大的难度，也给算法的泛化性提出考验。

4、环视鱼眼图像中的不同目标，畸变程度是不同的，给算法的建模也带来一定的难度。

目前对环视鱼眼图像目标检测的研究还是一个尚未十分成熟的领域，由于鱼眼摄像机的诸多优点，满足智能视觉环境感知的需求，所以利用环视鱼眼图像进行环境感知研究，是一个十分重要的趋势。

发明内容

本发明针对环视鱼眼图像存在严重的目标畸变导致目标检测困难的问题，提供一种基于级联神经网络的环视鱼眼图像目标检测方法，它可以有效的对鱼眼图像进行目标检测。

为实现上述目的，本发明采用的技术方案是：

一种基于级联神经网络的环视鱼眼图像目标检测方法，其包括以下步骤：

(1)构建融合可变形卷积和可变形池化的Cascade R-CNN环视鱼眼图像目标检测网络模型；

所述的融合可变形卷积和可变形池化的Cascade R-CNN环视鱼眼图像目标检测网络模型采用级联神经网络Cascade R-CNN，并对其进行了改进，其中，所述的级联神经网络Cascade R-CNN包括特征提取子网络，感兴趣区域ROI检测子网络，所述的特征提取子网络用于提取输入图片的目标检测候选区域，该子网络会产生多个目标检测候选区域；所述的感兴趣区域ROI检测子网络用于从提取的多个目标检测候选区域中识别与真实目标有较大IOU的候选区域，具体分为三个阶段，每个阶段设置一个IOU阈值，通过过滤掉不满足IOU阈值的边界框，每个阶段输出多个边界框，及其对应的分类分数，三个阶段的IOU阈值不断增加，最终输出一个分类分数C和边界框B；所述的改进之处在于将特征提取子网络替换为改进后的Resnet50网络；

其中，所述的改进后的Resnet50网络采用Resnet50网络，并对其进行改进，Resnet50网络依次包括五个阶段以及三个全连接层，第一阶段stage1依次包括两个卷积，一个池化；第二阶段stage2依次包括两个卷积，一个池化；第三阶段stage3依次包括三个卷积，一个池化；第四阶段stage4依次包括三个卷积，一个池化；第五阶段stage5依次包括三个卷积，一个池化；改进之处在于将第三、第四、第五阶段中的固定卷积和固定池化替换为可变形卷积和可变形池化；

所述的融合可变形卷积和可变形池化的Cascade R-CNN环视鱼眼图像目标检测网络模型的工作过程如下：首先输入的图像，经过特征提取子网络模块，得到图像的featuremaps，然后再将feature maps传入到感兴趣区域ROI检测子网络中进行候选区域处理，输出第一阶段的分类分数和边界框；再将第一阶段输出的边界框和feature maps利用特征金字塔网络(Feature Pyramid Networks，FPN)进行特征融合，传入到第二阶段的感兴趣区域ROI检测子网络进行候选区域处理，输出第二阶段的分类分数和边界框；再将第二阶段输出的边界框和feature maps进行融合，传入到第三阶段的感兴趣区域ROI检测子网络进行候选区域处理，输出最后的分类分数和最终的检测结果。

(2)利用VOC-360鱼眼图像公开数据集对重构后的网络模型进行训练；

(3)给定任意测试集中的环视鱼眼图像，将其输入到训练好的基于Cascade R-CNN网络模型中，模型输出检测结果，对检测目标定位和矩形框标注。

所述步骤(2)中，模型训练采用的learning-rate为0.02，epoch为12。此外为了验证模型的稳定性和泛化能力，还在自己采集的私有真实道路场景鱼眼图像数据集上进行模型训练和评估，同VOC-360公开数据集进行对比分析。

所述步骤(3)中，使用非极大值抑制过滤网络模型输出的检测结果，得到最终的检测结果，并输出。

有益效果

本发明在构建网络模型时，采用改进的Resnet50网络作为图像特征提取的子网络，将其stage3至stage5的固定卷积和固定池化层，替换为可变形卷积和可变形池化层，能够根据形变目标的状态，扩大感受野，自学习偏移量，进行有效的特征提取，从而对畸变目标有效建模。此外，采用级联神经网络，能对正负样本进行多次多级过滤，也大大提高了目标检测的准确率。

附图说明

图1为Cascade R-CNN网络模型的结构示意图

图2为本发明改进的Cascade R-CNN网络模型的结构示意图

图3为Resnet50原来的网络结构示意图

图4为融合了可变形卷积和可变形池化层的Resnet50网络结构示意图

图5为VOC-360数据集结构

图6为VOC-360数据集标签

图7(a)为VOC-360鱼眼图像数据集

图7(b)为私有真实道路场景鱼眼图像数据集

图8(a)为VOC-360鱼眼图像数据集目标检测结果

图8(b)为私有真实道路场景鱼眼图像数据集目标检测结果

具体实施方式

如图2所示，本发明揭示了一种基于级联神经网络的环视鱼眼图像目标检测方法,为详尽本发明内容，以下将列举一具体实施例进行详细说明。

本实施例是基于融合可变形卷积和可变形池化的Cascade R-CNN目标检测网络，Cascade R-CNN级联神经网络，能多次对正负样本阈值进行过滤，增加了检测的准确率；可变形卷积和可变形池化能根据物体形变，增加感受野，自学习偏移量，从而对形变目标进行更好的特征提取和建模。

下面以VOC-360数据集和私有真实道路场景鱼眼图像数据集为例，详细说明本发明提出的一种基于级联神经网络的环视鱼眼图像目标检测的操作方法。

本实施例的方法包括以下步骤：

级联神经网络(Cascade R-CNN)第一个步骤是利用特征提取子网络进行目标检测候选区域的提取，应用于整张图片；第二个步骤是利用感兴趣区域(region of interest，ROI)检测的子网络，对步骤一中的候选区域进行处理，最后会有一个分类分数(C)、边界框(B)作为输出值。其中第二个步骤又包括三个检测阶段：第一阶段H1输出的边界框值B1，作为第二阶段H2的输入；第二阶段H2输出的边界框值B2，作为第三阶段H3的输入。从第一阶段到第三阶段，每次IOU值都会提高一次，IOU阈值检测器过滤掉不符合的正负样本。从第一阶段到第三阶段，每次IOU值都会提高一次，从0.5到0.6到最后的0.7，IOU阈值检测器过滤掉不符合的正负样本，正样本是指所要检测的目标，负样本是指所要检测目标之外的其他物体。特征提取子网络选用改进后的Resnet50网络，网络的3-5层用可变形卷积和可变形池化，替换掉固定卷积和固定池化。

如图3所示，原始Resnet50包含五个stage，即第一stage、第二stage、第三stage、第四stage、第五stage，每个stage又包含多个块(Block)，每个块通常包含三个卷积层。如图4所示，Resnet50中的第三、第四、第五stage中的固定卷积和固定池化替换为可变形卷积和可变形池化。

(2)利用鱼眼图像公开数据集VOC-360对重构后的网络模型进行训练；

具体地，VOC-360数据集格式为：包含39575张用于目标检测的鱼眼图像，20个类别。图5表示VOC-360数据集的结构，Annotations存放图像标注后生成的*.xml格式文件，ImageSets存放的是训练集、验证集、测试集图像名称图，以*.txt文件存储，JPEGImages存储的是原始的鱼眼图像。图6表示VOC-360鱼眼图像数据集标签，图7(a)为VOC-360鱼眼图像数据集，(b)为私有真实道路场景鱼眼图像数据集。

一个边界框b＝(b_x,b_y,b_w,b_h)包含一个图像块x的4个坐标，边界框回归的任务是使用回归因子f(x,b)，将一个候选边界框b回归到一个目标边界框g中，这是从一个训练样本{g_i,b_i}中学习到的，以使边界框风险最小化。

其中L_loc是L₁损失函数。

分类器是一个函数h(x)，它将一个图像块x赋给M+1个类中的一个，其中0类包含对背景和剩余的类别进行检测，h(x)是类的后验分布的M+1维估计值。给定一个训练集(x_i,y_i)，通过最小化分类风险来学习。

L_cls是交叉熵损失函数。

(3)给定任意测试集中的环视鱼眼图像，将其输入到训练好的基于Cascade R-CNN网络模型中，模型输出检测结果，对检测目标定位和矩形框标注，图8(a)为VOC-360鱼眼图像数据集目标检测结果，(b)为私有真实道路场景鱼眼图像数据集目标检测结果。

本发明在构建网络模型时，采用改进的Resnet50网络作为图像特征提取的子网络，将其3-5stage的固定卷积和固定池化层，替换为可变形卷积和可变形池化层，能够根据形变目标的状态，扩大感受野，自学习偏移量，进行有效的特征提取，从而对畸变目标有效建模。此外，采用级联神经网络，能对正负样本进行多次多级过滤，也大大提高了目标检测的准确率。

以上所述，仅是本发明实施例而已，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，或者依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于级联神经网络的环视鱼眼图像目标检测方法，其特征在于：包括以下步骤：

其中，所述的改进后的Resnet50网络采用Resnet50网络，并对其进行改进，Resnet50网络依次包括五个阶段以及三个全连接层，第一阶段stage1依次包括两个卷积，一个池化；第二阶段stage2依次包括两个卷积，一个池化；第三阶段stage3依次包括三个固定卷积，一个固定池化；第四阶段stage4依次包括三个固定卷积，一个固定池化；第五阶段stage5依次包括三个固定卷积，一个固定池化；改进之处在于将第三、第四、第五阶段中的固定卷积和固定池化替换为可变形卷积和可变形池化；

所述的融合可变形卷积和可变形池化的Cascade R-CNN环视鱼眼图像目标检测网络模型的工作过程如下：首先输入的图像，经过特征提取子网络模块，得到图像的featuremaps，然后再将feature maps传入到感兴趣区域ROI检测子网络中进行候选区域处理，输出第一阶段的分类分数和边界框；再将第一阶段输出的边界框和feature maps进行融合，传入到第二阶段的感兴趣区域ROI检测子网络进行候选区域处理，输出第二阶段的分类分数和边界框；再将第二阶段输出的边界框和feature maps进行融合，传入到第三阶段的感兴趣区域ROI检测子网络进行候选区域处理，输出最后的分类分数和最终的检测结果。

(2)利用鱼眼图像公开数据集VOC-360对(1)构建的网络模型进行训练；

(3)给定任意环视鱼眼图像，将其输入到(2)中训练好的基于Cascade R-CNN网络模型中，模型输出检测结果，完成对检测目标的定位和矩形框标注。

2.根据权利要求1所述的一种基于级联神经网络的环视鱼眼图像目标检测方法，其特征在于：每一阶段的IOU(Intersection over Union)阈值界定值是逐级升高的，本方法采用的阈值是[0.5，0.6，0.7]。

3.根据权利要求1所述的一种基于级联神经网络的环视鱼眼图像目标检测方法，其特征在于：使用非极大值抑制过滤网络模型输出的检测结果，得到最终的检测结果。