CN111179330A - 一种基于卷积神经网络的双目视觉场景深度估计方法 - Google Patents
一种基于卷积神经网络的双目视觉场景深度估计方法 Download PDFInfo
- Publication number
- CN111179330A CN111179330A CN201911381363.3A CN201911381363A CN111179330A CN 111179330 A CN111179330 A CN 111179330A CN 201911381363 A CN201911381363 A CN 201911381363A CN 111179330 A CN111179330 A CN 111179330A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- convolutional neural
- camera
- binocular vision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及摄像监控中目标物体位置的估计方法领域,具体是公开一种基于卷积神经网络的双目视觉场景深度估计方法,采用摄像设备为可实现双目视觉的摄像设备,获取左、右图像,采用卷积神经网络学习方法,将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取,获得左、右图像的图像特征;将获得的左、右图像的图像特征进行融合获得融合后特征图像,将融合后特征图像通过编解码模块进行代价聚合,代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图;通过视差图与深度图的几何变换关系生成对应的深度图像。通过可实现双目视觉的摄像设备对某一区域进行监测,当出现目标物体时能够快速准确的定位出目标物体相对于相机实际位置。
Description
技术领域
本发明涉及摄像监控中目标物体位置的估计方法领域,具体是涉及一种基于卷积神经网络的双目视觉场景深度估计方法。
背景技术
在现有使用的摄像监控技术中,在对大场景区域进行摄像监控时,需要安装较多的监控摄像头才能完全覆盖监控场景,使用时是所有摄像头同时开机实时监控,如果是需要对目标区域物体进行实时监控时,现有的技术往往需要消耗较多的计算资源。
现有的一种基于深度学习的单目视觉场景深度估计的方法是采用VGG-13 网络模型,将单目图像输入训练好的网络模型,经过多次双线性插值之后生成多个尺度的视差图,再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图;根据多视图几何学中视差图与深度图的几何变换关系,生成对应的深度图像。现有的单目视觉场景深度估算方法的缺点是单目视觉场景深度估算的适用性差,只能在训练场景下的应用才能取得较好的结果,当应用于其它场景时效果差,并且估算结果依赖于相机的矫正参数。
发明内容
本发明的目的在于提供一种通过双目视觉对某一区域进行监测,当出现目标物体时能够快速准确的定位出目标物体相对与相机实际位置的一种基于卷积神经网络的双目视觉场景深度估计方法。
为实现上述目的,本发明的技术方案是:
通过采用上述技术方案,本发明的有益效果是:一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,场景监控摄像系统中采用的摄像设备为可实现双目视觉的摄像设备,所述可实现双目视觉的摄像设备其双目视觉分别获取的图像为左、右图像,图像识别采用卷积神经网络学习方法,其双目视觉场景深度估计方法步骤如下:首先,将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取,获得左、右图像的图像特征;然后,将获得的左、右图像的图像特征进行融合获得融合后特征图像,接着将融合后特征图像通过编解码模块进行代价聚合,代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图;最后,通过视差图与深度图的几何变换关系生成对应的深度图像。
所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中,分别进行左图像和右图像的特征提取,两路卷积神经网络结构模型之间实行参数共享,在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成,每层卷积层都进行一次批标准化,并利用ReLu激活函数进行激活。
所述编解码模块对融合后特征图像利用卷积运算进行编码,然后再利用反卷积运算对融合后特征图像进行解码达到对左、右图像的图像特征的代价聚合,从而得到视差图。
所述深度图像的生成公式如下:
D(i,j)=(b*f)/d(i,j)
式中:d(i,j)为像素坐标(i,j)处的视差值,D(i,j)为像素坐标(i,j)处的深度值,b为双目相机已知的双目之间的距离,f为双目相机的相机焦距。
通过采用上述技术方案,本发明的有益效果是:针对上述背景技术中存在的问题通过扩大现有技术中单个相机的监控区域作为目标监控的初定位,当某个相机所监控的区域出现可疑目标时激活距离可疑目标区域最近的相机以达到计算资源最大化利用,这里主要实现的是目标的初定位因此对精度要求较低(精度可以米为单位),只需能够大概定位出目标的位置即可。本发明上述一种基于卷积神经网络的双目视觉场景深度估计方法通过可实现双目视觉的摄像设备(这里实现双目视觉的摄像设备可为两个相机或双目相机等)来获取不同的左、右图像通过卷积神经网络进行图像识别运算完成视差图的构建得到深度图像,该方法具有如下优点,1、定位速度快,只需通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置,2、实用性高,模型只需训练一次就能够在不同的场景中重复使用,即模型训练完后在其他场景中同样适用,还有相机的矫正参数对视差图影响也不大,从而能够实现本发明上述对某一区域进行监测,当出现目标物体时能够快速准确的定位出目标物体相对与相机实际位置的目的,本发明的方法可应用于安防监控,特别是双目摄像头固定场景下的安防监控。
附图说明
图1是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法的流程结构框图;
图2是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中特征提取的流程结构框图;
图3是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中一个卷积层的流程结构框图;
图4是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中进行融合获得融合后特征图像的结构示意图;
图5是本发明涉及的一种基于卷积神经网络的双目视觉场景深度估计方法中解编码模块的运算结构示意图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
本发明公开的一种基于卷积神经网络的双目视觉场景深度估计方法,应用在场景监控摄像系统中,系统中采用的摄像设备应为可实现双目视觉的摄像设备,例如两个相机组合、双目相机、双目摄像头等,这种摄像设备其双目视觉分别获取的图像本实施例中称为左、右图像,本发明的双目视觉场景深度估计方法中图像识别采用卷积神经网络学习方法来进行图像的运算识别。
本发明一种基于卷积神经网络的双目视觉场景深度估计方法的步骤如下,如图1所示的流程图,
首先,将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取,获得左、右图像的图像特征;
然后,将获得的左、右图像的图像特征进行融合获得融合后特征图像,如图4所示;
接着,将融合后特征图像通过编解码模块进行代价聚合,代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图,如图5所示;
最后,通过视差图与深度图的几何变换关系生成对应的深度图像。
本发明中进一步,如图2和图3所示,为加快上述方法中特征提取的速度,所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中,分别进行左图像和右图像的特征提取,可同步进行特征提取,两路卷积神经网络结构模型之间实行参数共享,在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成,每层卷积层都进行一次批标准化,并利用ReLu激活函数(修正线性单元(Rectified linear unit,ReLU)在深度神经网络中,通常使用的一种作为神经元的激活函数)进行激活。
所述编解码模块对融合后特征图像利用卷积运算进行编码,然后再利用反卷积运算对融合后特征图像进行解码达到对左、右图像的图像特征的代价聚合,从而得到视差图。
所述深度图像的生成公式如下:
D(i,j)=(b*f)/d(i,j)
式中:d(i,j)为像素坐标(i,j)处的视差值,D(i,j)为像素坐标(i,j)处的深度值,b为双目相机已知的双目之间的距离,f为双目相机的相机焦距。通过遍历视差图即可得到深度图像,通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置。
综上,本发明上述一种基于卷积神经网络的双目视觉场景深度估计方法通过可实现双目视觉的摄像设备来获取不同的左、右图像通过卷积神经网络进行图像识别运算完成视差图的构建得到深度图像,该方法具有如下优点。
1、定位速度快,只需通过获取目标在位置所对应的深度图像位置像素值即可确定目标相对于相机的实际位置,
2、实用性高,模型只需训练一次就能够在不同的场景中重复使用,即模型训练完后在其他场景中同样适用,还有相机的矫正参数对视差图影响也不大,
本发明的方法可应用于安防监控,特别是双目摄像头固定场景下的安防监控,也可应用于其他需实现本发明方法达到的效果的摄像系统。
上述实施例和图式并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。
Claims (5)
1.一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,场景监控摄像系统中采用的摄像设备为可实现双目视觉的摄像设备,所述可实现双目视觉的摄像设备其双目视觉分别获取的图像为左、右图像,图像识别采用卷积神经网络学习方法,其双目视觉场景深度估计方法步骤如下:首先,将双目相机的获取的左、右图像分别输入卷积神经网络进行特征提取,获得左、右图像的图像特征;然后,将获得的左、右图像的图像特征进行融合获得融合后特征图像,接着将融合后特征图像通过编解码模块进行代价聚合,代价聚合后接着通过视差回归得到左、右图像的图像特征的视差图;最后,通过视差图与深度图的几何变换关系生成对应的深度图像。
2.如权利要求1所述的一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,所述左、右图像分别输入卷积神经网络进行特征提取是左、右图像的左图像和右图像分别输入在两路卷积神经网络结构模型中,分别进行左图像和右图像的特征提取,两路卷积神经网络结构模型之间实行参数共享,在卷积神经网络进行特征提取时分别由多个卷积层及池化层堆叠而成,每层卷积层都进行一次批标准化,并利用ReLu激活函数进行激活。
3.如权利要求1或2所述的一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,所述编解码模块对融合后特征图像利用卷积运算进行编码,然后再利用反卷积运算对融合后特征图像进行解码达到对左、右图像的图像特征的代价聚合,从而得到视差图。
4.如权利要求1或2所述的一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,所述深度图像的生成公式如下:
D(i,j)=(b*f)/d(i,j)
式中:d(i,j)为像素坐标(i,j)处的视差值,D(i,j)为像素坐标(i,j)处的深度值,b为双目相机已知的双目之间的距离,f为双目相机的相机焦距。
5.如权利要求3所述的一种基于卷积神经网络的双目视觉场景深度估计方法,其特征在于,所述深度图像的生成公式如下:
D(i,j)=(b*f)/d(i,j)
式中:d(i,j)为像素坐标(i,j)处的视差值,D(i,j)为像素坐标(i,j)处的深度值,b为双目相机已知的双目之间的距离,f为双目相机的相机焦距。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911381363.3A CN111179330A (zh) | 2019-12-27 | 2019-12-27 | 一种基于卷积神经网络的双目视觉场景深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911381363.3A CN111179330A (zh) | 2019-12-27 | 2019-12-27 | 一种基于卷积神经网络的双目视觉场景深度估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111179330A true CN111179330A (zh) | 2020-05-19 |
Family
ID=70650421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911381363.3A Pending CN111179330A (zh) | 2019-12-27 | 2019-12-27 | 一种基于卷积神经网络的双目视觉场景深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179330A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767467A (zh) * | 2021-01-25 | 2021-05-07 | 郑健青 | 一种基于自监督深度学习的双图深度估计方法 |
CN113240631A (zh) * | 2021-04-22 | 2021-08-10 | 北京中科慧眼科技有限公司 | 基于rgb-d融合信息的路面检测方法、系统和智能终端 |
CN113281779A (zh) * | 2021-05-20 | 2021-08-20 | 中山大学 | 一种3d物体快速检测方法、装置、设备及介质 |
CN113516709A (zh) * | 2021-07-09 | 2021-10-19 | 连云港远洋流体装卸设备有限公司 | 一种基于双目视觉的法兰定位方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109377530A (zh) * | 2018-11-30 | 2019-02-22 | 天津大学 | 一种基于深度神经网络的双目深度估计方法 |
US20190206075A1 (en) * | 2017-12-29 | 2019-07-04 | PlusAI Corp | Method and System for Multiple Stereo Based Depth Estimation and Collision Warning/Avoidance Utilizing the Same |
CN110009691A (zh) * | 2019-03-28 | 2019-07-12 | 北京清微智能科技有限公司 | 基于双目立体视觉匹配的视差图像生成方法及系统 |
CN110517306A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于深度学习的双目深度视觉估计的方法和系统 |
-
2019
- 2019-12-27 CN CN201911381363.3A patent/CN111179330A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190206075A1 (en) * | 2017-12-29 | 2019-07-04 | PlusAI Corp | Method and System for Multiple Stereo Based Depth Estimation and Collision Warning/Avoidance Utilizing the Same |
CN109377530A (zh) * | 2018-11-30 | 2019-02-22 | 天津大学 | 一种基于深度神经网络的双目深度估计方法 |
CN110009691A (zh) * | 2019-03-28 | 2019-07-12 | 北京清微智能科技有限公司 | 基于双目立体视觉匹配的视差图像生成方法及系统 |
CN110517306A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于深度学习的双目深度视觉估计的方法和系统 |
Non-Patent Citations (1)
Title |
---|
夏清 等: "基于深度学习的数字几何处理与分析技术研究进展", 计算机研究与发展, pages 163 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767467A (zh) * | 2021-01-25 | 2021-05-07 | 郑健青 | 一种基于自监督深度学习的双图深度估计方法 |
CN112767467B (zh) * | 2021-01-25 | 2022-11-11 | 郑健青 | 一种基于自监督深度学习的双图深度估计方法 |
CN113240631A (zh) * | 2021-04-22 | 2021-08-10 | 北京中科慧眼科技有限公司 | 基于rgb-d融合信息的路面检测方法、系统和智能终端 |
CN113240631B (zh) * | 2021-04-22 | 2023-12-12 | 北京中科慧眼科技有限公司 | 基于rgb-d融合信息的路面检测方法、系统和智能终端 |
CN113281779A (zh) * | 2021-05-20 | 2021-08-20 | 中山大学 | 一种3d物体快速检测方法、装置、设备及介质 |
CN113516709A (zh) * | 2021-07-09 | 2021-10-19 | 连云港远洋流体装卸设备有限公司 | 一种基于双目视觉的法兰定位方法 |
CN113516709B (zh) * | 2021-07-09 | 2023-12-29 | 连云港远洋流体装卸设备有限公司 | 一种基于双目视觉的法兰定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179330A (zh) | 一种基于卷积神经网络的双目视觉场景深度估计方法 | |
CN107705333B (zh) | 基于双目相机的空间定位方法及装置 | |
US20220012495A1 (en) | Visual feature tagging in multi-view interactive digital media representations | |
JP6031554B2 (ja) | 単眼カメラに基づく障害物検知方法及び装置 | |
CN110458025B (zh) | 一种基于双目摄像头的目标识别与定位方法 | |
CN106981078B (zh) | 视线校正方法、装置、智能会议终端及存储介质 | |
CN111047634B (zh) | 场景深度的确定方法、装置、设备及存储介质 | |
CN110232418B (zh) | 一种语义识别方法、终端及计算机可读存储介质 | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
CN105205459B (zh) | 一种图像特征点类型的识别方法和装置 | |
CN109584299B (zh) | 一种定位方法、定位装置、终端及存储介质 | |
CN112150518B (zh) | 一种基于注意力机制的图像立体匹配方法及双目设备 | |
CN115880555B (zh) | 目标检测方法、模型训练方法、装置、设备及介质 | |
CN111027415A (zh) | 一种基于偏振图像的车辆检测方法 | |
CN111127522A (zh) | 基于单目相机的深度光流预测方法、装置、设备及介质 | |
CN117237431A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
WO2024199155A1 (zh) | 三维语义场景补全方法、设备和介质 | |
CN113724335B (zh) | 一种基于单目相机的三维目标定位方法及系统 | |
CN115008454A (zh) | 一种基于多帧伪标签数据增强的机器人在线手眼标定方法 | |
CN104236468A (zh) | 目标空间坐标计算方法、系统及移动机器人 | |
CN117746133A (zh) | 目标检测方法、模型训练方法、装置、设备及存储介质 | |
CN112818932A (zh) | 图像处理方法、障碍物检测方法、装置、介质及车辆 | |
CN116403275B (zh) | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 | |
CN114332187B (zh) | 单目目标测距方法及装置 | |
CN116012609A (zh) | 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200519 |
|
WD01 | Invention patent application deemed withdrawn after publication |