CN109255375A

CN109255375A - 基于深度学习的全景图像对象检测方法

Info

Publication number: CN109255375A
Application number: CN201810991838.XA
Authority: CN
Inventors: 焦健; 连海东; 李哲; 张立华
Original assignee: Changchun Boli Electronic Technology Co ltd
Current assignee: Changchun Boli Electronic Technology Co ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2019-01-22

Abstract

本发明提供一种基于深度学习的全景图像对象检测方法，所述方法包括：S1输入测试图像；S2利用选择搜索算法在图像中提取2000个左右的候选区域；S3将每个候选区域缩放成固定的特征并传入CNN，经过运算输出CNN特征(warp)成227×227的大小并输入到CNN，将CNN的fc7层的输出作为特征；S4将每个候选区域提取到的CNN特征输入到SVM分类器进行分类。

Description

基于深度学习的全景图像对象检测方法

技术领域

本发明涉及中医诊疗辅助信息技术领域，具体涉及一种基于深度学习的全景图像对象检测方法

背景技术

目标检测对于人来说是再简单不过的任务，但是对于计算机来说，它看到的是一些值为0～255的数组，因而很难直接得到图像中有人或者猫这种高层语义概念，也不清楚目标出现在图像中哪个区域图像中的目标可能出现在任何位置，目标的形态可能存在各种各样的变化，图像的背景千差万别……，这些因素导致目标检测并不是一个容易解决的任务得益于深度学习，主要是卷积神经网络 (convolution neural network:CNN)和候选区域(region proposal)算法，从2014年开始，目标检测取得了巨大的突破

传统目标检测方法：

传统目标检测方法一般使用滑动窗口的框架，主要包括以下三个步骤：

(1)利用不同尺寸的滑动窗口，框住图像的某一部分，将其作为候选区域；

(2)提取候选区域相关的视觉特征，比如人脸检测常用的Harr特征、行人检测和普通目标检测常用的HOG特征等；

(3)利用分类器进行识别，比如常用的SVM模型

但是传统目标检测主要存在两个问题：一是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性

基于深度学习的目标检测：

深度学习的概念由Hinton等人于2006年提出，深度学习源于大脑认知原理的研究，是一种能够模拟出人脑的神经结构的机器学习方式，从而能够让计算机拥有人工智能，大家所熟知的AlphaGo就是深度学习典型的一个应用深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究人类识别气球的视觉原理如下：从原始信号摄入开始(瞳孔摄入像素Pixels)，接着做初步处理(大脑皮层某些细胞发现边缘和方向)，然后抽象(大脑判定，眼前的物体的形状是圆形的)，然后进一步抽象(大脑进一步判定该物体是只气球)

下面是人脑进行人脸识别的一个示例

在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征(如眼睛、躯干等)，到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确地区分不同的物体那么我们可以很自然地想到：可以不可以模仿人类大脑的这个特点，构建多层的人工神经网络，来达到这样一个目的呢？答案当然是肯定的，这也是许多深度学习算法(包括CNN)的灵感来源

所以，基于深度学习的目标检测便应运而生，主流的检测方式有两种，第一种就是候选区域(Region Proposal)候选区域利用图像中的纹理、边缘、颜色等信息，预先找出图中目标可能出现的位置，可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比传统目标检测采用的滑动窗口的质量更高

有了候选区域，剩下的工作实际就是对候选区域进行图像分类了(特征提取 +分类)对于图像分类，首先诞生的就是R-CNN(基于区域的卷积神经网络)，R- CNN是第一个真正可以实现工业级应用的解决方案，它的诞生，使得目标检测的准确率大幅提升，基于深度学习的目标检测就渐渐成为了科研和工业领域的主流

基于深度学习的目标检测的实现过程如下：

(1)输入测试图像；

(2)利用选择搜索算法在图像中提取2000个左右的候选区域；

(3)将每个候选区域缩放成固定的特征并传入CNN，经过运算输出CNN 特征(warp)成227×227的大小并输入到CNN，将CNN的全连接层的输出作为特征；

(4)将每个候选区域提取到的CNN特征输入到SVM分类器进行分类与传统的目标检测算法相比，基于深度学习的目标检测的优势更明显，检测准确率更高，但也不是完美的，有如下缺点：

1.对于视频检测不能达到实时；

2.对于模型的训练需要很长时间；

3.对于不同类型图片检测效果不理想；

鉴于上述，本设计人，积极加以研究创新，以期创设一种基于深度学习的全景图像对象检测方法，使其更具有产业上的利用价值

发明内容

为解决上述技术问题，本发明的目的是提供一种改进并优化深度学习算法，使其处理大分辨率的全景视频能达到实时的基于深度学习的全景图像对象检测方法。

本发明基于深度学习的全景图像对象检测方法，包括：

S1输入测试图像；

S2利用选择搜索算法在图像中提取1500至2500个的候选区域；

S3将每个候选区域缩放成固定的特征并传入卷积神经网络模型CNN，经过运算输出特征为分辨率227×227，并所述输出特征输入到卷积神经网络模型，将卷积神经网络模型的全连接层的输出作为特征；

S4将每个候选区域提取到的特征输入到支持向量机分类器进行分类。

进一步地，具体步骤包括：

添加配置文件，设置检测网络模型；

根据检测网络模型训练全景图片，大约训练10万次左右，并生成检测模型文件；

输入全景视频，将其分辨率缩小到416*416；

根据检测网络模型配置文件以及训练生成的检测模型文件，对输入的全景视频进行检测；

检测结果输出显示。

进一步地，在网络中果断去掉了全连接层，去掉了后面的一个池化层，然后通过缩减网络，让图片输入分辨率为416*416，产生一个中心预测单元；使用了卷积层降采样，使得输入卷积网络的416*416图片最终得到13*13的卷积特征图。

进一步地，最终的距离函数为如下所示：

d(box，centroid)＝1-IOU(box，centroid)

通过改进的硬聚类算法K-means对训练集中的分块boxes进行了聚类，判别标准是平均重叠度IOU得分。

进一步地，在区域建议网络中，预测以及使用的是如下公式：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

这个公式没有任何限制，把ground truth限制在了0到1之间，利用logistic 回归函数来进行这一限制；

神经网络在特征图(13*13)的每个cell上预测5个聚类得出的值bounding boxes，同时每一个聚类得出的值bounding box预测5个坐值，分别为tx，ty，tw，th，totx，ty，tw，th，to，其中前四个是坐标，toto是置信度，如果这个cell距离图像左上角的边距为(cx，cy)(cx，cy)以及该cell对应box(bounding box prior) 的长和宽分别为(pw，ph)(pw，ph)，那么预测值表示为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)

tx，ty经sigmod函数处理过，取值限定在了0～1，实际意义就是使anchor只负责周围的box，σ函数的意义没有给，但估计是把归一化值转化为图中真实值，使用e的幂函数是因为前面做了ln计算，因此，σ(tx)是bounding box的中心相对栅格左上角的横坐标，σ(ty)是纵坐标，σ(to)是bounding box的confidence score定位预测值被归一化后。

借由上述方案，本发明基于深度学习的全景图像对象检测方法，至少具有以下优点：

本发明技术方案，添补国内空白，应用领域广泛，无人驾驶、军事、交通、监控等；

节省人力资源，节省成本，操作简单

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后

附图说明

图1是本发明通过改进的K-means对训练集中的boxes进行了聚类，判别标准是平均IOU得分，聚类结果图；

图2是本发明的logistic回归函数；

图3是本发明使用Dimension Clusters和Direct location prediction这两项anchor boxes改进方法，mAP获得了5％的提升；

图4是本发明了一种不同的方法，简单添加了一个转移层(passthrough layer)，这一层要把浅层特征图(分辨率为26*26，是底层分辨率4倍)连接到深层特征图；

图5是本发明基于深度学习的全景图像对象检测方法的具体实施流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述以下实施例用于说明本发明，但不用来限制本发明的范围

本发明第一，使用了一系列的方法对原来的YOLO多目标检测框架进行了改进，在保持原有速度的优势之下，精度上得以提升VOC 2007数据集测试， 67FPS下mAP达到76.8％，40FPS下mAP达到78.6％，基本上可以与Faster R- CNN和SSD一战这一部分是本文主要关心的地方

第二，提出了一种目标分类与检测的联合训练方法，通过这种方法， YOLO9000可以同时在COCO和ImageNet数据集中进行训练，训练后的模型可以实现多达9000种物体的实时检测

实施例1

如图1至4所示，本实施例基于深度学习的全景图像对象检测方法，包括：

首先获取三个摄像头的视频流，之后解码并同步视频流，由于是广角镜头，而且视角超过120度，所以需要将广角图像(按鱼眼图像处理)转化成平面图像进行拼接，镜头畸变以及设备放置角度等问题，所以需要对图像进行矫正，之后将三张图片拼成一张全景图，使用深度学习网络检测车和行人，最后显示检测结果

本实施例，由于同时进行检测三个视频流，非常影响性能，导致fps下降明显，不能达到实时要求，所以添加了新的线程和队列将任务进行分块，来进行优化加速添加了读取视频线程、转化视频数据线程、全景视频分成三部分线程、检测线程、组合检测结果结程以及显示线程，同时优化了卷积运算优化后对4982 *1080分辨率的视频能达到40fps

CNN在训练过程中网络每层输入的分布一直在改变，会使训练过程难度加大，但可以通过normalize每层的输入解决这个问题新的YOLO网络在每一个卷积层后添加batchnormalization，通过这一方法，mAP获得了2％的提升batch normalization也有助于规范化模型，可以在舍弃dropout优化后依然不会过拟合

目前的目标检测方法中，基本上都会使用ImageNet预训练过的模型 (classifier)来提取特征，如果用的是AlexNet网络，那么输入图片会被resize 到不足256*256，导致分辨率不够高，给检测带来困难为此，新的YOLO网络把分辨率直接提升到了448*448，这也意味之原有的网络模型必须进行某种调整以适应新的分辨率输入

对于YOLOv2，首先对分类网络(自定义的darknet)进行了fine tune，分辨率改成448*448，在ImageNet数据集上训练10轮(10epochs)，训练后的网络就可以适应高分辨率的输入了然后，对检测网络部分(也就是后半部分)也进行fine tune这样通过提升输入的分辨率，mAP获得了4％的提升

之前的YOLO利用全连接层的数据完成边框的预测，导致丢失较多的空间信息，定位不准在这一版本中借鉴了Faster R-CNN中的anchor思想，为了引入anchor boxes来预测bounding boxes，在网络中果断去掉了全连接层去掉了后面的一个池化层以确保输出的卷积特征图有更高的分辨率然后，通过缩减网络，让图片输入分辨率为416*416，这一步的目的是为了让后面产生的卷积特征图宽高都为奇数，这样就可以产生一个center cell大物体通常占据了图像的中间位置，就可以只用中心的一个cell来预测这些物体的位置，否则就要用中间的4个cell 来进行预测，这个技巧可稍稍提升效率最后，YOLOv2使用了卷积层降采样 (factor为32)，使得输入卷积网络的416*416图片最终得到13*13的卷积特征图(416/32＝13)加入了anchor boxes后，可以预料到的结果是召回率上升，准确率下降我们来计算一下，假设每个cell预测9个建议框，那么总共会预测 13*13*9＝1521个boxes，而之前的网络仅仅预测7*7*2＝98个boxes具体数据为：没有anchor boxes，模型recall为81％，mAP为69.5％；加入anchor boxes，模型recall为88％，mAP为69.2％这样看来，准确率只有小幅度的下降，而召回率则提升了7％，说明可以通过进一步的工作来加强准确率，的确有改进空间

在使用anchor的时候遇到了两个问题，第一个是anchor boxes的宽高维度往往是精选的先验框(hand-picked priors)，虽说在训练过程中网络也会学习调整boxes的宽高维度，最终得到准确的bounding boxes但是，如果一开始就选择了更好的、更有代表性的先验boxes维度，那么网络就更容易学到准确的预测位置和以前的精选boxes维度不同，使用了K-means聚类方法类训练bounding boxes，可以自动找到更好的boxes宽高维度传统的K-means聚类方法使用的是欧氏距离函数，也就意味着较大的boxes会比较小的boxes产生更多的error，聚类结果可能会偏离为此，采用的评判标准是IOU得分(也就是boxes之间的交集除以并集)，这样的话，error就和box的尺度无关了，最终的距离函数为如下所示：

d(box，centroid)＝1-IOU(box，centroid)

通过改进的K-means对训练集中的boxes进行了聚类，判别标准是平均IOU 得分，聚类结果如图1所示：

可以看到，平衡复杂度和IOU之后，最终得到k值为5，意味着选择了5种大小的box维度来进行定位预测，这与手动精选的box维度不同结果中扁长的框较少，而瘦高的框更多(这符合行人的特征)，这种结论如不通过聚类实验恐怕是发现不了的

Direct location prediction(直接位置预测)

在使用anchor boxes时发现的第二个问题就是：模型不稳定，尤其是在早期迭代的时候大部分的不稳定现象出现在预测box的坐标上了在区域建议网络中，预测以及使用的是如下公式：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

这个公式没有任何限制，使得无论在什么位置进行预测，任何anchor boxes 可以在图像中任意一点结束模型随机初始化后，需要花很长一段时间才能稳定预测敏感的物体位置在此，就没有采用预测直接的offset的方法，而使用了预测相对于grid cell的坐标位置的办法，把ground truth限制在了0到1之间，利用 logistic回归函数来进行这一限制

现在，神经网络在特征图(13*13)的每个cell上预测5个bounding boxes (聚类得出的值)，同时每一个bounding box预测5个坐值，分别为tx,ty,tw,th,totx,ty,tw,th,to，其中前四个是坐标，toto是置信度如果这个cell距离图像左上角的边距为(cx,cy)(cx,cy)以及该cell对应box(bounding box prior) 的长和宽分别为(pw,ph)(pw,ph)，那么预测值可以表示为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)

tx,ty经sigmod函数处理过，取值限定在了0～1，实际意义就是使anchor只负责周围的box，有利于提升效率和网络收敛σ函数的意义没有给，但估计是把归一化值转化为图中真实值，使用e的幂函数是因为前面做了ln计算，因此，σ(tx)是bounding box的中心相对栅格左上角的横坐标，σ(ty)是纵坐标，σ(to)是 bounding box的confidence score定位预测值被归一化后，参数就更容易得到学习，模型就更稳定使用Dimension Clusters和Direct location prediction这两项 anchor boxes改进方法，mAP获得了5％的提升如图3所示

上述网络上的修改使YOLO最终在13*13的特征图上进行预测，虽然这足以胜任大尺度物体的检测，但是用上细粒度特征的话，这可能对小尺度的物体检测有帮助Faser R-CNN和SSD都在不同层次的特征图上产生区域建议，获得了多尺度的适应性这里使用了一种不同的方法，简单添加了一个转移层 (passthrough layer)，这一层要把浅层特征图(分辨率为26*26，是底层分辨率4倍)连接到深层特征图，如图4所示

这个转移层也就是把高低两种分辨率的特征图做了一次连结，连接方式是叠加特征到不同的通道而不是空间位置，类似于Resnet中的identity mappings这个方法把26*26*512的特征图连接到了13*13*2048的特征图，这个特征图与原来的特征相连接YOLO的检测器使用的就是经过扩张的特征图，它可以拥有更好的细粒度特征，使得模型的性能获得了1％的提升

原来的YOLO网络使用固定的448*448的图片作为输入，现在加入anchor boxes后，输入变成了416*416目前的网络只用到了卷积层和池化层，那么就可以进行动态调整希望YOLOv2具有不同尺寸图片的鲁棒性，因此在训练的时候也考虑了这一点同于固定输入网络的图片尺寸的方法，在几次迭代后就会微调网络每经过10次训练(10epoch)，就会随机选择新的图片尺寸YOLO网络使用的降采样参数为32，那么就使用32的倍数进行尺度池化{320,352，…，608} 最终最小的尺寸为320*320，最大的尺寸为608*608接着按照输入尺寸调整网络进行训练这种机制使得网络可以更好地预测不同尺寸的图片，意味着同一个网络可以进行不同分辨率的检测任务，在小尺寸图片上YOLOv2运行更快，在速度和精度上达到了平衡

基于YOLOv2改进：

由于全景视频的分辨率大概为4982*1080，非常大，使用YOLOv2进行训练检测效果非常不好，将视频分辨率缩小到416*416导致有效像素丢失非常严重，所以采取将全景视频分成三部分，分辨率为(4982/3)*1080，三部分同时检测，显示时再将检测结果拼接到一起，这样mAP获得了15％的提升，效果非常明显

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于深度学习的全景图像对象检测方法，其特征在于，包括：

S1输入测试图像；

S2利用选择搜索算法在图像中提取1500至2500个的候选区域；

2.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，具体步骤包括：

添加配置文件，设置检测网络模型；

输入全景视频，将其分辨率缩小到416*416；

检测结果输出显示。

3.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，在网络中果断去掉了全连接层，去掉了后面的一个池化层，然后通过缩减网络，让图片输入分辨率为416*416，产生一个中心预测单元；使用了卷积层降采样，使得输入卷积网络的416*416图片最终得到13*13的卷积特征图。

4.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，最终的距离函数为如下所示：

d(box，centroid)＝1-IOU(box，centroid)

5.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，在区域建议网络中，预测以及使用的是如下公式：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

这个公式没有任何限制，把ground truth限制在了0到1之间，利用logistic回归函数来进行这一限制；

现在，神经网络在特征图(13*13)的每个cell上预测5个聚类得出的值boundingboxes，同时每一个聚类得出的值bounding box预测5个坐值，分别为tx，ty，tw，th，totx，ty，tw，th，to，其中前四个是坐标，toto是置信度，如果这个cell距离图像左上角的边距为(cx，cy)(cx，cy)以及该cell对应box(bounding box prior)的长和宽分别为(pw，ph)(pw，ph)，那么预测值表示为：

b_x＝σ(tx)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)