CN109308719B - 一种基于三维卷积的双目视差估计方法 - Google Patents
一种基于三维卷积的双目视差估计方法 Download PDFInfo
- Publication number
- CN109308719B CN109308719B CN201811011545.7A CN201811011545A CN109308719B CN 109308719 B CN109308719 B CN 109308719B CN 201811011545 A CN201811011545 A CN 201811011545A CN 109308719 B CN109308719 B CN 109308719B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- feature
- binocular
- frame
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 230000017105 transposition Effects 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000003702 image correction Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 abstract description 12
- 238000012937 correction Methods 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 abstract description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- G06T5/80—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
Abstract
本发明公开了一种基于三维卷积的双目视差估计方法。包括下列步骤:利用双目标定方法标定双目摄像头,得到双目矫正映射图;对待估计的双目图像进行矫正,得到矫正后的双目图像;将矫正后的双目图像送入预设的二维卷积神经网络,得到经过特征变换后的特征图;将当前帧的特征图和之前多帧图像的特征图进行拼接,送入三维卷积神经网络,得到多帧图像的特征图。将多帧图像的特征图进行转置卷积,重新变换回像素域,得到视差估计图。本发明相较于现有的基于卷积神经网络的双目视差估计方法,通过三维卷积提取时间维度上的信息,结合当前帧与之前多帧的双目信息来估计当前帧的双目视差图。相较于原有方法,本方法在准确度、前后帧间的连贯性上有改进。
Description
技术领域
本发明属于计算机视觉技术领域,具体地说,是对输入的双目摄像头信息进行处理,生成相应的视差图的方法。
背景技术
获取准确的双目视差图是深度估计的前提,深度估计是双目立体视觉领域中一个重要的研究课题,在机器人导航,精密工业测量、物体识别、虚拟现实、场景重建,勘测等众多领域都有应用。在左右摄像头观察一个物体,获取在双目视角下的图像,根据图像之间像素的匹配关系可以获得视差图。通过三角测量原理计算出像素之间的偏移来获取物体的三维信息。得到了物体的景深信息,就可以计算出物体与相机之间的实际距离,物体三维大小,两点之间实际距离。
早期的双目视差估计是基于小窗口的区域匹配,提取的特征值大多为灰度、颜色等信息。后来开发出自适应窗口技术,针对特征值也开发出对光照鲁棒性的变换值,如Census变换等。其后,逐步发展出基于局部的立体匹配、基于全局的立体匹配和基于半全局的立体匹配。
近年来,基于卷积神经网络的双目视差估计方法取得了较多进展,包括利用卷积神经网络进行块匹配、利用全卷积神经网络直接生成整张双目视差估计图等方法。基于卷积神经网络的双目视差估计方法相较于早期的双目视差估计方法,在准确度、处理速度上都有了较大提升。但现有的卷积神经网络的双目视差估计方法在准确度、前后帧间的连贯性上还有待进一步改进。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供
现有的基于卷积神经网络的双目视差估计方法对每帧图像单独处理。当输入信息是连续视频时,由于没有利用前后帧的信息,从时间维度上看连续性存在一定的问题。本发明旨在通过三维卷积利用前后帧信息,使双目视差估计图更准确、在前后帧更平滑一致。
一种基于三维卷积的双目视差估计方法,包括下列步骤:
双目摄像头标定步骤:对双目摄像头进行标定,分别得到左、右目摄像头的内参数矩阵以及外参数矩阵;
双目图像校正步骤:通过内参数矩阵,分别对左、右目摄像头拍摄的图像进行去畸变处理;再结合内参数矩阵与外参数矩阵进行双目图像校正处理,将三维空间中的同一点投影到二维左、右目图像的同一水平扫描线上;
二维特征提取步骤:选取二维卷积神经网络,并进行神经网络训练,作为二维特征提取器;
将矫正后的双目图像送入二维特征提取器,进行前向传播,得到经过特征变换后的特征图;
三维特征提取步骤:选取三维卷积积神经网络,并进行神经网络训练,作为三维特征提取器,所述三维特征提取器用于在空间维度与时间维度上进行多级的特征提取与变换,以融合空间维度和时间维度的信息,得到多帧信息融合的特征图;
对二维特征提取所得到的特征图,将当前帧的特征图和之前多帧图像的特征图在特征维度上进行叠加后,再送入维特征提取器,进行前向传播提取特征,得到多帧图像的特征图;
视差估计步骤:对三维提取步骤得到的多帧图像的特征图进行转置卷积,重新变换回像素域,得到视差估计图。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明所提出的基于三维卷积的双目视差估计方法能有效利用通过双目摄像头拍摄的视频的帧间信息,从而提升双目视差估计的准确性和前后一致性。
附图说明
图1:本发明流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
相较于现有的基于卷积神经网络的双目视差估计方法,本发明通过三维卷积提取时间维度上的信息,结合当前帧与之前多帧的双目信息来估计当前帧的双目视差图,从而提升现有双目视差估计方法准确度、前后帧间的连贯性。
本发明首先对双目摄像头进行标定,分别得到左目、右目摄像头的内参数矩阵以及左、右目摄像头间的外参数矩阵。
通过内参数矩阵,可以分别对左目、右目摄像头拍摄的图像进行去畸变处理。
通过外参数矩阵,可以联合对左目、右目的图像进行双目矫正,以使现实三维空间中的同一点被投影到二维左、右目图像的同一水平扫描线上,以便后续处理。
在得到经过矫正的双目图像后,对每一帧图像利用传统二维卷积提取特征,得到单帧信息的特征图。可以利用VGG(Visual Geometry Group)网络、残差网络等网络结构作为特征提取器。
得到单帧信息的特征图后,将当前帧和之前N帧的特征图在特征维度进行拼接,得到多张特征图的堆叠。
将拼接后的特征图作为输入,送入三维卷积网络,通过三维卷积、三维池化等操作在空间维度与时间维度上进行多级的特征提取与变换,以融合空间维度和时间维度的信息,最终得到多帧信息融合的特征图。
得到多帧信息的特征图后,利用转置卷积,将特征图恢复到像素域,得到最终的视差估计图。
本发明可使用Python结合PyTorch等深度学习库开发出程序,可在CPU或GPU上运行。对于实时捕捉的双目视频,可以进行时差估计,并进一步转换成深度信息。本发明生成的视差估计图准确,且前后帧间连续、流畅。具体实现本发明所提出的方法时,包括五个步骤,参见图1,各步骤具体为:
步骤一、利用双目标定方法标定双目摄像头,得到双目矫正映射图。
步骤二、从双目摄像头读入双目图像,并利用步骤一中得到的双目矫正映射图进行矫正,
得到矫正后的双目图像。
步骤三、将矫正后的双目图像送入预设的二维卷积神经网络,进行前向传播,得到经过特征变换后的特征图。
步骤四、将当前帧的特征图和之前多帧图像的特征图进行拼接,送入三维卷积神经网络,进行前向传播提取特征,得到多帧图像的特征图。
步骤五、将多帧图像的特征图进行转置卷积,重新变换回像素域,得到视差估计图。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (2)
1.一种基于三维卷积的双目视差估计方法,其特征在于,包括下列步骤:
双目摄像头标定步骤:对双目摄像头进行标定,分别得到左、右目摄像头的内参数矩阵以及外参数矩阵;
双目图像校正步骤:通过内参数矩阵,分别对左、右目摄像头拍摄的图像进行去畸变处理;再结合内参数矩阵与外参数矩阵进行双目图像校正处理,将三维空间中的同一点投影到二维左、右目图像的同一水平扫描线上;
二维特征提取步骤:选取二维卷积神经网络,并进行神经网络训练,作为二维特征提取器;
将矫正后的双目图像送入二维特征提取器,进行前向传播,得到经过特征变换后的特征图;
三维特征提取步骤:选取三维卷积神经网络,并进行神经网络训练,作为三维特征提取器,所述三维特征提取器用于在空间维度与时间维度上进行多级的特征提取与变换,以融合空间维度和时间维度的信息,得到多帧信息融合的特征图;
对二维特征提取所得到的特征图,将当前帧的特征图和之前多帧图像的特征图在特征维度上进行叠加后,再送入三维特征提取器,进行前向传播提取特征,得到多帧图像的特征图;
视差估计步骤:对三维提取步骤得到的多帧图像的特征图进行转置卷积,重新变换回像素域,得到视差估计图。
2.如权利要求1所述的方法,其特征在于,所述二维特征提取器的网络结构为VGG网络或残差网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011545.7A CN109308719B (zh) | 2018-08-31 | 2018-08-31 | 一种基于三维卷积的双目视差估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011545.7A CN109308719B (zh) | 2018-08-31 | 2018-08-31 | 一种基于三维卷积的双目视差估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308719A CN109308719A (zh) | 2019-02-05 |
CN109308719B true CN109308719B (zh) | 2022-03-15 |
Family
ID=65224550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811011545.7A Active CN109308719B (zh) | 2018-08-31 | 2018-08-31 | 一种基于三维卷积的双目视差估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308719B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919057B (zh) * | 2019-02-26 | 2020-11-03 | 北京理工大学 | 一种基于高效卷积神经网络的多模态融合手势识别方法 |
CN110060290B (zh) * | 2019-03-14 | 2021-06-04 | 中山大学 | 一种基于3d卷积神经网络的双目视差计算方法 |
CN111860064B (zh) * | 2019-04-30 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 基于视频的目标检测方法、装置、设备及存储介质 |
CN111179325B (zh) * | 2019-12-14 | 2023-09-29 | 中国科学院深圳先进技术研究院 | 一种双目深度估计方法及装置 |
CN111612831A (zh) * | 2020-05-22 | 2020-09-01 | 创新奇智(北京)科技有限公司 | 一种深度估计方法、装置、电子设备及存储介质 |
CN112085801B (zh) * | 2020-09-08 | 2024-03-19 | 清华大学苏州汽车研究院(吴江) | 基于神经网络的三维点云和二维图像融合的校准方法 |
CN114485953A (zh) * | 2020-11-13 | 2022-05-13 | 杭州海康威视数字技术股份有限公司 | 温度测量方法、装置及系统 |
CN112329925B (zh) * | 2020-11-26 | 2023-12-15 | 北京奇艺世纪科技有限公司 | 模型生成方法、特征提取方法、装置及电子设备 |
CN112560678A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 表情识别方法、装置、设备及计算机存储介质 |
CN112950922B (zh) * | 2021-01-26 | 2022-06-10 | 浙江得图网络有限公司 | 一种共享电动车的定点还车方法 |
CN112991422A (zh) * | 2021-04-27 | 2021-06-18 | 杭州云智声智能科技有限公司 | 一种基于空洞空间金字塔池化的立体匹配方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073863A (zh) * | 2010-11-24 | 2011-05-25 | 中国科学院半导体研究所 | 基于深度指纹获取远距离视频监控目标特征尺寸的方法 |
CN106446785A (zh) * | 2016-08-30 | 2017-02-22 | 电子科技大学 | 基于双目视觉的可行道路检测方法 |
CN106874857A (zh) * | 2017-01-19 | 2017-06-20 | 腾讯科技(上海)有限公司 | 一种基于视频分析的活体判别方法及系统 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108230338A (zh) * | 2018-01-11 | 2018-06-29 | 温州大学 | 一种基于卷积神经网络的立体图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101345303B1 (ko) * | 2007-03-29 | 2013-12-27 | 삼성전자주식회사 | 스테레오 또는 다시점 영상의 입체감 조정 방법 및 장치 |
-
2018
- 2018-08-31 CN CN201811011545.7A patent/CN109308719B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073863A (zh) * | 2010-11-24 | 2011-05-25 | 中国科学院半导体研究所 | 基于深度指纹获取远距离视频监控目标特征尺寸的方法 |
CN106446785A (zh) * | 2016-08-30 | 2017-02-22 | 电子科技大学 | 基于双目视觉的可行道路检测方法 |
CN106874857A (zh) * | 2017-01-19 | 2017-06-20 | 腾讯科技(上海)有限公司 | 一种基于视频分析的活体判别方法及系统 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108230338A (zh) * | 2018-01-11 | 2018-06-29 | 温州大学 | 一种基于卷积神经网络的立体图像分割方法 |
Non-Patent Citations (2)
Title |
---|
End-to-End Learning of Geometry and Context for Deep Stereo Regression;Alex Kendall等;《2017 IEEE International Conference on Computer Vision》;20171225;66-75 * |
基于深度学习的双目视觉测距方法研究与实现;邓志康;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20191215(第12期);I138-649 * |
Also Published As
Publication number | Publication date |
---|---|
CN109308719A (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308719B (zh) | 一种基于三维卷积的双目视差估计方法 | |
CN108335322B (zh) | 深度估计方法和装置、电子设备、程序和介质 | |
CN110853151B (zh) | 一种基于视频的三维立体点集恢复方法 | |
CN107292921B (zh) | 一种基于kinect相机的快速三维重建方法 | |
US8593524B2 (en) | Calibrating a camera system | |
CN102065313A (zh) | 平行式相机阵列的未标定多视点图像校正方法 | |
CN111988593B (zh) | 一种基于深度残差优化的立体图像颜色校正方法及系统 | |
CN101179745A (zh) | 一种多视点图像的预处理方法 | |
CN111027415B (zh) | 一种基于偏振图像的车辆检测方法 | |
CN103945207B (zh) | 一种基于视点合成的立体图像垂直视差消除方法 | |
KR20110071854A (ko) | 입체 영상 시스템에서 영상 데이터의 색상 보정 장치 및 방법 | |
CN109741245B (zh) | 平面信息的插入方法及装置 | |
Jorissen et al. | Multi-camera epipolar plane image feature detection for robust view synthesis | |
Selmanovic et al. | Enabling stereoscopic high dynamic range video | |
Gurbuz et al. | Color calibration for multi-camera imaging systems | |
CN108307179A (zh) | 一种3d立体成像的方法 | |
Knorr et al. | From 2D-to stereo-to multi-view video | |
CN113077401B (zh) | 一种视点合成技术进行立体校正的方法 | |
KR20110133677A (ko) | 3d 영상 처리 장치 및 그 방법 | |
KR20220137558A (ko) | 프레임 카메라에 대한 이벤트 카메라의 픽셀 단위로의 등록 방법 | |
CN112422848A (zh) | 一种基于深度图和彩色图的视频拼接方法 | |
Onofrio et al. | 3D Face Reconstruction with a four camera acquisition system | |
CN111010558B (zh) | 一种基于短视频图像的立木深度图生成方法 | |
San et al. | Early experience of depth estimation on intricate objects using generative adversarial networks | |
Ho et al. | 3DTV: Technical challenges for realistic experiences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |