CN111179330A

CN111179330A - 一种基于卷积神经网络的双目视觉场景深度估计方法

Info

Publication number: CN111179330A
Application number: CN201911381363.3A
Authority: CN
Inventors: 何世强; 李瑞峰; 蒋清山; 张陈涛; 林雅峰; 林程
Original assignee: Fujian Quanzhou HIT Research Institute of Engineering and Technology
Current assignee: Fujian Quanzhou HIT Research Institute of Engineering and Technology
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19

Abstract

本发明涉及摄像监控中目标物体位置的估计方法领域，具体是公开一种基于卷积神经网络的双目视觉场景深度估计方法，采用摄像设备为可实现双目视觉的摄像设备，获取左、右图像，采用卷积神经网络学习方法，将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取，获得左、右图像的图像特征；将获得的左、右图像的图像特征进行融合获得融合后特征图像，将融合后特征图像通过编解码模块进行代价聚合，代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图；通过视差图与深度图的几何变换关系生成对应的深度图像。通过可实现双目视觉的摄像设备对某一区域进行监测，当出现目标物体时能够快速准确的定位出目标物体相对于相机实际位置。

Description

一种基于卷积神经网络的双目视觉场景深度估计方法

技术领域

本发明涉及摄像监控中目标物体位置的估计方法领域，具体是涉及一种基于卷积神经网络的双目视觉场景深度估计方法。

背景技术

在现有使用的摄像监控技术中，在对大场景区域进行摄像监控时，需要安装较多的监控摄像头才能完全覆盖监控场景，使用时是所有摄像头同时开机实时监控，如果是需要对目标区域物体进行实时监控时，现有的技术往往需要消耗较多的计算资源。

现有的一种基于深度学习的单目视觉场景深度估计的方法是采用VGG-13 网络模型，将单目图像输入训练好的网络模型，经过多次双线性插值之后生成多个尺度的视差图，再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图；根据多视图几何学中视差图与深度图的几何变换关系，生成对应的深度图像。现有的单目视觉场景深度估算方法的缺点是单目视觉场景深度估算的适用性差，只能在训练场景下的应用才能取得较好的结果，当应用于其它场景时效果差，并且估算结果依赖于相机的矫正参数。

发明内容

本发明的目的在于提供一种通过双目视觉对某一区域进行监测，当出现目标物体时能够快速准确的定位出目标物体相对与相机实际位置的一种基于卷积神经网络的双目视觉场景深度估计方法。

为实现上述目的，本发明的技术方案是：

通过采用上述技术方案，本发明的有益效果是：一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，场景监控摄像系统中采用的摄像设备为可实现双目视觉的摄像设备，所述可实现双目视觉的摄像设备其双目视觉分别获取的图像为左、右图像，图像识别采用卷积神经网络学习方法，其双目视觉场景深度估计方法步骤如下：首先，将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取，获得左、右图像的图像特征；然后，将获得的左、右图像的图像特征进行融合获得融合后特征图像，接着将融合后特征图像通过编解码模块进行代价聚合，代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图；最后，通过视差图与深度图的几何变换关系生成对应的深度图像。

所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中，分别进行左图像和右图像的特征提取，两路卷积神经网络结构模型之间实行参数共享，在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成，每层卷积层都进行一次批标准化，并利用ReLu激活函数进行激活。

所述编解码模块对融合后特征图像利用卷积运算进行编码，然后再利用反卷积运算对融合后特征图像进行解码达到对左、右图像的图像特征的代价聚合，从而得到视差图。

所述深度图像的生成公式如下：

D(i，j)＝(b＊f)/d(i，j)

式中：d(i，j)为像素坐标(i，j)处的视差值，D(i，j)为像素坐标(i，j)处的深度值，b为双目相机已知的双目之间的距离，f为双目相机的相机焦距。

通过采用上述技术方案，本发明的有益效果是：针对上述背景技术中存在的问题通过扩大现有技术中单个相机的监控区域作为目标监控的初定位，当某个相机所监控的区域出现可疑目标时激活距离可疑目标区域最近的相机以达到计算资源最大化利用，这里主要实现的是目标的初定位因此对精度要求较低(精度可以米为单位)，只需能够大概定位出目标的位置即可。本发明上述一种基于卷积神经网络的双目视觉场景深度估计方法通过可实现双目视觉的摄像设备(这里实现双目视觉的摄像设备可为两个相机或双目相机等)来获取不同的左、右图像通过卷积神经网络进行图像识别运算完成视差图的构建得到深度图像，该方法具有如下优点，1、定位速度快，只需通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置，2、实用性高，模型只需训练一次就能够在不同的场景中重复使用，即模型训练完后在其他场景中同样适用，还有相机的矫正参数对视差图影响也不大，从而能够实现本发明上述对某一区域进行监测，当出现目标物体时能够快速准确的定位出目标物体相对与相机实际位置的目的，本发明的方法可应用于安防监控，特别是双目摄像头固定场景下的安防监控。

附图说明

图1是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法的流程结构框图；

图2是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中特征提取的流程结构框图；

图3是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中一个卷积层的流程结构框图；

图4是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中进行融合获得融合后特征图像的结构示意图；

图5是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中解编码模块的运算结构示意图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

本发明公开的一种基于卷积神经网络的双目视觉场景深度估计方法，应用在场景监控摄像系统中，系统中采用的摄像设备应为可实现双目视觉的摄像设备，例如两个相机组合、双目相机、双目摄像头等，这种摄像设备其双目视觉分别获取的图像本实施例中称为左、右图像，本发明的双目视觉场景深度估计方法中图像识别采用卷积神经网络学习方法来进行图像的运算识别。

本发明一种基于卷积神经网络的双目视觉场景深度估计方法的步骤如下，如图1所示的流程图，

首先，将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取，获得左、右图像的图像特征；

然后，将获得的左、右图像的图像特征进行融合获得融合后特征图像，如图4所示；

接着，将融合后特征图像通过编解码模块进行代价聚合，代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图，如图5所示；

最后，通过视差图与深度图的几何变换关系生成对应的深度图像。

本发明中进一步，如图2和图3所示，为加快上述方法中特征提取的速度，所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中，分别进行左图像和右图像的特征提取，可同步进行特征提取，两路卷积神经网络结构模型之间实行参数共享，在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成，每层卷积层都进行一次批标准化，并利用ReLu激活函数(修正线性单元(Rectified linear unit，ReLU)在深度神经网络中，通常使用的一种作为神经元的激活函数)进行激活。

所述深度图像的生成公式如下：

D(i，j)＝(b＊f)/d(i，j)

式中：d(i，j)为像素坐标(i，j)处的视差值，D(i，j)为像素坐标(i，j)处的深度值，b为双目相机已知的双目之间的距离，f为双目相机的相机焦距。通过遍历视差图即可得到深度图像，通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置。

综上，本发明上述一种基于卷积神经网络的双目视觉场景深度估计方法通过可实现双目视觉的摄像设备来获取不同的左、右图像通过卷积神经网络进行图像识别运算完成视差图的构建得到深度图像，该方法具有如下优点。

1、定位速度快，只需通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置，

2、实用性高，模型只需训练一次就能够在不同的场景中重复使用，即模型训练完后在其他场景中同样适用，还有相机的矫正参数对视差图影响也不大，

本发明的方法可应用于安防监控，特别是双目摄像头固定场景下的安防监控，也可应用于其他需实现本发明方法达到的效果的摄像系统。

上述实施例和图式并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

Claims

1.一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，场景监控摄像系统中采用的摄像设备为可实现双目视觉的摄像设备，所述可实现双目视觉的摄像设备其双目视觉分别获取的图像为左、右图像，图像识别采用卷积神经网络学习方法，其双目视觉场景深度估计方法步骤如下：首先，将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取，获得左、右图像的图像特征；然后，将获得的左、右图像的图像特征进行融合获得融合后特征图像，接着将融合后特征图像通过编解码模块进行代价聚合，代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图；最后，通过视差图与深度图的几何变换关系生成对应的深度图像。

2.如权利要求1所述的一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中，分别进行左图像和右图像的特征提取，两路卷积神经网络结构模型之间实行参数共享，在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成，每层卷积层都进行一次批标准化，并利用ReLu激活函数进行激活。

3.如权利要求1或2所述的一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，所述编解码模块对融合后特征图像利用卷积运算进行编码，然后再利用反卷积运算对融合后特征图像进行解码达到对左、右图像的图像特征的代价聚合，从而得到视差图。

4.如权利要求1或2所述的一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，所述深度图像的生成公式如下：

D(i，j)＝(b＊f)/d(i，j)

5.如权利要求3所述的一种基于卷积神经网络的双目视觉场景深度估计方法，其特征在于，所述深度图像的生成公式如下：

D(i，j)＝(b＊f)/d(i，j)