CN108764244A

CN108764244A - 基于卷积神经网络和条件随机场的潜在目标区域检测方法

Info

Publication number: CN108764244A
Application number: CN201810281696.8A
Authority: CN
Inventors: 罗荣华; 周高攀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-11-06
Anticipated expiration: 2038-04-02
Also published as: CN108764244B

Abstract

本发明公开了一种基于卷积神经网络和条件随机场的潜在目标区域检测方法，步骤如下：1)对场景图片进行颜色空间和几何空间的转换，去均值处理后将多张图片一起作为神经网络的输入；2)构建一个卷积神经网络和条件随机场相融合的结构化网络，在卷积网络最后的卷积层上生成三路输出，其中第一路输出为M个候选框的坐标，第二路输出为各候选框的二值标签，第三路输出为各候选框的相似特征，二、三路的输出形成全连接条件随机场的输入节点，通过全局优化得到各候选框的后验概率；3)根据后验概率进行非极大值抑制得到Top K个最终结果。本发明通过多图像输入和条件随机场的优化，可得到定位精度更高鲁棒性更好的目标区域检测结果。

Description

基于卷积神经网络和条件随机场的潜在目标区域检测方法

技术领域

本发明涉及深度学习和计算机视觉技术领域，具体涉及一种基于卷积神经网络和条件随机场的潜在目标区域检测方法。

背景技术

随着计算机运算能力的飞速提升，计算机视觉、人工智能、机器感知等领域也在迅猛发展。而潜在目标区域检测作为图像目标检测的基本研究问题之一，潜在目标区域也得到了长足的发展。就是针对一副图像，在其中找出那些最可能含有目标的那些窗口并进行定位，进而利用这些窗口来加快图像的目标检测算法。

尽管现在存在着各种各样的潜在目标区域检测的方法，包括基于传统的机器学习和基于卷积神经网络的深度学习的方法。但是有统计实验表明，对于用于图像目标检测的潜在区域，其召回率和定位精度同样重要，而目前的这些方法大多不能在这两者之间取得兼顾。而在这两者之间变现都较好的基于卷积神经网络的方法，却大多不够鲁棒，泛化能力也不够好。比如不能很好的找到小尺寸的目标，当多个目标重叠时不能很好的区分，当目标与背景颜色近似时往往不能找出目标，当图像受到噪声干扰时也往往表现不佳。其实这些因素都是目标检测领域面临的挑战和难题。传统方法一般仅仅依靠RGB图片来进行学习，所以很容易受到光线变化、物体颜色变化以及背景嘈杂的干扰，在实际应用中不够鲁棒。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于卷积神经网络和条件随机场的潜在目标区域检测方法，以提高定位精度和对场景的鲁棒性。

本发明的目的可以通过采取如下技术方案达到：

一种基于卷积神经网络和条件随机场的潜在目标区域检测方法，所述的潜在目标检测方法包括下列步骤：

S1、对场景图片进行颜色空间和几何空间的变换，将原始图片和变形图片组合在一起作为深度卷积神经网络的输入层；

S2、构建卷积神经网络和条件随机场融合的结构化网络，卷积神经网络包含五个3x3的卷积层和四个最大池化层，在卷积神经网络最后的卷积层接入三路输出，在网络最后的卷积层接入三路输出。第一路分支预测M个候选框的坐标，第二路分支预测各候选框的前后景二值标签，第三路分支输出各候选框的低维相似特征值。其中又在二，三路的输出节点接入一个全连接的条件随机场以得到各候选框的后验概率；

S3、根据步骤S2中得到的后验概率对各候选框进行非极大值抑制以得到Top K个最好的结果。

进一步地，在所述的步骤S1中，所述的颜色空间采用HSV颜色空间，所述的几何空间采用特征线、移动最小二乘等保刚性图像变形算法得到变形图，最后将RGB图像、HSV图像以及变形图像一起作为卷积神经网络的输入。

进一步地，在所述的步骤S2中，结构网络由卷积神经网络和条件随机场融合构成。网络的卷积层由五个3x3的卷积层和四个最大池化层构成，网络的输出层则由三个分支构成。

进一步地，第一路分支预测M个候选框的坐标t＝(x,y,w,h)^T,其中x,y代表左上角的位置，w,h代表宽和高。

进一步地，第一路分支输出的候选框是在特征图上进行窗口滑动的方式采样得到的，且分别对应着原图的多种尺寸大小，以及多种长宽比。

进一步地，第二路分支输出每个候选框的前后景二值标签y＝{0,1}，其中0表示该候选框可能是背景，1表示该候选框可能包含感兴趣的目标。第三路分支则输出每个候选框的在相似空间的维维特征向量h。总体的，第二、三路分支的输出用以构建一个全连接条件随机场。

进一步地，全连接条件随机场作为结构网络的一部分，其联合分布概率公式如下：

其中Z(X)是分配函数，变量x代表候选框，变量y代表候选框被分配的标签值，变量t代表候选框的位置偏移量。是φ是一元势能函数项，计算一个候选框x在位置偏移量为t的条件下被分配标签y的概率。ψ是二元势能函数项，用于鼓励任意两个相似的候选框被分配相同的标签。

进一步地，作为卷积神经网络和条件随机场所融合的结构化网络，整个网络包含分类和线性回归两个任务，其损失函数则可以采用多任务的形式，可由分类损失函数和回归损失函数构成，分类损失函数采用交叉熵损失函数，回归损失采用平滑L1正则化损失函数。

整个网络框架最后通过随机梯度下降算法和梯度反向传播算法来进行卷积神经端到端的训练和参数学习。

进一步地，在经过步骤S2后，得到了一系列的候选框以及相对应的后验概率，则在步骤S3中先根据后验概率的大小进行排序，然后采用非极大值抑制算法剔除一部分重复的候选框，筛选出Top K个最好的候选框作为最终的输出结果。

本发明相对于现有技术具有如下的优点及效果：

本发明中，通过多副图片输入的方式，能够让网络充分学习到更多的特征，能够克服颜色和背景噪音的干扰。通过多尺度的输出可以更好的找到感兴趣的目标区域，而通过将条件随机场融入卷积神经网络一起进行学习，则可以充分利用图像中前后景的上下文关系，进一步提高潜在目标区域的定位精度和鲁棒性。而通过非极大值抑制可以更一步地筛选出更好的潜在目标区域,并且现在的减少潜在目标区域的数量。

附图说明

图1是本发明公开的基于卷积神经网络和条件随机场的潜在目标区域检测方法的流程步骤图；

图2是本发明公开的基于卷积神经网络和条件随机场的潜在目标区域检测方法的结构化网络图；

图3是本发明方法中基于特征图的多尺度采样和网络融合原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明的一个实例方式的基于卷积神经网络和条件随机场融合的结构化网络的潜在目标区域检测方法包括下述步骤：

步骤S1、对场景图片进行颜色空间和几何空间的变换，将原始图片和变形图片组合在一起作为深度卷积神经网络的输入层；

步骤S2、构建结构化网络，在网络最后的卷积层接入三个输出分支。在最后得到特征图上的每一个点上，第一路分支回归预测12个候选框的坐标向量，第二路分支输出各候选框的前后景二值标签向量，第三路分支输出各候选框的低维相似特征向量。其中又在二，三路的基础上在将网络与一个全连接的条件随机场进行融合以得到各候选框的后验概率；

步骤S3、根据步骤S2中得到后验概率对各候选框进行非极大值抑制以得到效果最好的2000个候选框作为最终的输出结果；

潜在目标区域检测是图像目标检测任务的基础性工作，它做的任务是在图片中定位出若干个可能含有感兴趣目标的候选框。一个潜在目标区域检测方法的性能的好坏直接影响着图像检测的效果。性能好坏的评价指标主要体现在召回率、定位精度、抗干扰性、处理速度、鲁棒性等方面。潜在目标区域检测方法的难点在于处理图像中目标的尺寸大小不一、目标与背景颜色相近、目标相似重叠以及物体过小等因素带来的问题。而传统的方法往往在这些方面顾此失彼，不能兼顾。

为此，本发明采用多图像输入的方式，让网络学习到更加丰富和表达能力更强的特征，避免光照以及噪声的影响。另外，在传统卷积网络的后面融合一个全连接条件随机场，形成一个端到端的结构化网络，这个网络能够充分利用图像的上下文环境来得到更加精细和鲁棒的潜在目标区域。最后通过非极大值抑制方法进一步大大地减少潜在目标区域的数量。

具体地，如图1所示，网络的输入不同于传统的卷积神经网络，不只单单采用RGB图像，还有组合了HSV图像和变形图像。这样做的目的是为了做数据增益，让网络能够学到更多关于颜色空间和几何空间的特征，可以较好减少光照、噪声等干扰因素对系统的影响。在本发明中，所有输入图片统一尺寸为368x224，进行去均值处理后一起送入网络的数据层。

如图1，2所示，在卷积神经网络的最后一个卷积层，本发明接着三个输出分支。其中第一路分支输出的是预测的候选框的坐标位置，第二路分支则针对每一个候选框输出代表其是前景或者背景的二值标签。第三路分支则针对每一个候选框输出其在相似空间中的五维特征向量。而其中二、三路分支分别对应后面融入的条件随机场的一元势能特征和二元势能特征。

如图2所示，本发明的网络是一个融合了卷积神经网络和全连接条件随机场的一个结构化的端到端网络。其中在卷积神经网络方面，包含五个3x3的卷积层和四个最大化池层。这样网络的特点是，如果在卷积的过程中对所有的卷积做一圈填充的话，那么卷积层不会改变输入和输出的矩阵大小。所以经过四个最大池化，368x224大小的图像经过网络后的特征图的大小为原图像的1/16，也即23x14。

如图3所示，针对特征图上的每一个点，在其基础上多尺度的窗口滑动输出12个候选框的信息，其中包括4维坐标向量，二维标签向量，以及五维特征向量。这12个点对应于原图的四个尺寸大小，[32x32,64x64,128x128,256x256],以及三个长宽比，[1:1,1:2,2:1]。对于23x14的特征图，最后输出的候选框的数量为3864，所以条件随机场概率图中的节点数量也是3864。

如图2和图3所示，本发明将卷积神经网络和条件随机场融合构成一个整体的结构化网络。网络的后端是一个全连接条件随机场。概率图中的每个节点都是以候选框为单位的。每个候选框的边缘后验概率公式如下：

如图2和图3所示，本发明将卷积神经网络和条件随机场融合构成一个整体的结构化网络，网络包括前后景标签预测和候选框的位置的线性回归两个任务，所以是一个多任务的网络，其损失可由分类损失和回归损失构成，分类损失采用交叉熵损失函数计算，回归损失采用平滑L1正则化损失函数计算。

如图2和图3所示，本网络融合了卷积神经网络和条件随机场，是一个端到端的网络，所以本发明的难点和重点在于如何将条件随机场的图推理过程结合到整个网络的优化求解过程中。具体的，难点在于针对网络的目标函数如何推导条件随机场中的参数，也即一元势能和二元势能参数对于目标函数的梯度。

如上所述，目标函数由分类损失函数和回归损失函数两部分组成，给定所有候选框的边缘后验概率集合p＝{p₁ ^T,…,p₃₈₆₄ ^T}^T,给定所有候选框的二值标签集合u＝＝{u₁ ^T,…,u₃₈₆₄ ^T}^T，采用递归迭代的方法来近似快速地进行条件随机场的图推理，求得网络需要学习的所有参数的梯度。

至此，将条件随机场的图推理过程和卷积神经网络求优过程有效融合，采用批量随机梯度下降算法和反向传播算法对结构化网络进行端到端的训练和优化可以得到有效地模型。

如图1所示，通过结构化网络输出了3864个候选框和相对应的后验概率，后验概率用于非极大值抑制。具体来说，首先根据后验概率大小进行排序，然后根据各候选框的IoU值来剔除冗余的候选框，其中IoU用于衡量两个候选框的交并集比值。剔除规则很简单，如果两个候选框Box1和Box2的后验概率分别p1和p2,且假设p1>p2,此时若两候选框的IoU值大于等于0.7，那么则认为Box2相对于Box1是冗余的，所以剔除Box2。对于所有的候选框以此规则反复进行剔除，最后大约留下2000个作为最后的结果。

本发明提出的基于卷积神经网络和条件随机场融合的结构化网络的潜在目标区域检测方法，可以有效地克服场景图片中光线变化，背景嘈杂，目标遮挡以及目标尺寸过小等问题，通过多图像的输入，让网络学习到更丰富的特征，通过条件随机场的优化，可以充分利用前后景以及目标之间的上下文环境，从而得到鲁棒性更好，准确率更高的潜在目标区域。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，所述的潜在目标检测方法包括下列步骤：

S2、构建卷积神经网络和条件随机场融合的结构化网络，卷积神经网络包含五个3x3的卷积层和四个最大池化层，在网络最后的卷积层接入三路输出，其中，第一路分支预测M个候选框的坐标，第二路分支预测各候选框的前后景二值标签，第三路分支输出各候选框的低维相似特征值，并且又在第二、三路的输出节点接入一个全连接的条件随机场以得到各候选框的后验概率；

2.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，所述的颜色空间采用HSV颜色空间，所述的几何空间采用保刚性图像变形算法得到变形图，最后将RGB图像、HSV图像以及变形图像一起作为卷积神经网络的输入。

3.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，所述的第一路分支基于窗口滑动的方式在特征图上的每个点上预测若干个候选框的坐标t＝(x,y,w,h)^T,其中x,y代表左上角的位置，w,h代表宽和高，特征图上每个点上输出的若干个个候选框的分别对应着原图的多种尺寸大小，以及多种长宽比。

4.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，所述的第二路分支输出每个候选框的二值标签y＝{0,1}，其中0表示背景，1表示前景，所述的第三路分支输出每个候选框的在相似空间的五维特征向量。

5.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，所述的全连接的条件随机场作为结构化网络的一部分，其联合分布概率公式如下：

6.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，

所述的结构化网络的是一个多任务学习的网络，损失由分类损失和回归损失构成，通过随机梯度下降算法和梯度反向传播算法来进行端到端的训练和学习。

7.根据权利要求1所述的基于卷积神经网络和条件随机场的潜在目标区域检测方法，其特征在于，

给定所有候选框的边缘后验概率集合p＝{p₁ ^T,…,p₃₈₆₄ ^T}^T,给定所有候选框的二值标签集合u＝＝{u₁ ^T,…,u₃₈₆₄ ^T}^T，采用递归迭代的方法进行条件随机场的图推理。