CN116958419A - 一种基于波前编码的双目立体视觉三维重建系统和方法 - Google Patents
一种基于波前编码的双目立体视觉三维重建系统和方法 Download PDFInfo
- Publication number
- CN116958419A CN116958419A CN202310832672.8A CN202310832672A CN116958419A CN 116958419 A CN116958419 A CN 116958419A CN 202310832672 A CN202310832672 A CN 202310832672A CN 116958419 A CN116958419 A CN 116958419A
- Authority
- CN
- China
- Prior art keywords
- image
- camera
- coding
- calibration
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 25
- 210000001747 pupil Anatomy 0.000 claims abstract description 16
- 238000012634 optical imaging Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 55
- 238000003384 imaging method Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000013178 mathematical model Methods 0.000 claims description 6
- 230000010363 phase shift Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000036544 posture Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000002059 diagnostic imaging Methods 0.000 abstract 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B5/00—Optical elements other than lenses
- G02B5/30—Polarising elements
- G02B5/3083—Birefringent or phase retarding elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B2207/00—Coding scheme for general features or characteristics of optical elements and systems of subclass G02B, but not including elements and systems which would be classified in G02B6/00 and subgroups
- G02B2207/125—Wavefront coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Optics & Photonics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉技术领域,具体为一种基于波前编码的双目立体视觉的三维重建系统和方法。本发明系统包括两个编码相机、调节架及计算机处理系统;编码相机包括自由曲面相位板和光学成像系统、图像传感器;相位板放置在光学成像系统的入瞳位置,构成编码相机;图像传感器将采集到的图像传到计算机处理系统。两个编码相机固定在调节架上,光轴相互平行,采集两幅具有视差的编码图像用于双目立体视觉的三维重建。三维重建方法包括:编码图像的生成和采集;编码相机标定;解码图像特征点提取;立体匹配;计算深度;三维空间点重建。本发明可以扩展双目相机景深,提高深度测量精度,在机器人导航、自动驾驶、医疗影像等领域具有广泛的应用前景。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于波前编码的双目立体视觉三维重建系统和方法。
背景技术
传统立体成像系统在成像体积和信噪比之间需要进行权衡,因为光圈的大小对这两个变量的影响相互冲突。光圈越小,成像体积就越小,但信噪比会降低;而光圈越大,成像体积就越大,但信噪比会提高。如果要获得清晰的图像特征,就需要确保相机的景深足够大以覆盖整个体积。同时光圈面积的缩小将降低到达传感器的通光亮。所以,在光线环境受限的情况下难以获得大体积、高质量和高分辨率的立体三维重建图像。
此外,深度学习算法和图像处理技术可以通过训练模型来学习图像的特征和模式,从而提高图像的清晰度和减少噪声的影响。但它们是对于成像系统获得图像的优化,优化结果受到中间图像质量的限制。而处于不同深度的物体在同一图像中模糊程度不同,这样的图像难以恢复到所需的清晰水平。
相比之下,波前编码技术联合光学成像阶段和数字处理阶段,具体表现为利用相位板对波前信息进行编码调制,使其在聚焦平面附近离焦不敏感,从而图像传感器能够采集到一系列具有均匀模糊和近似点扩散函数的中间图像;然后利用解码技术对中间图像进行处理,获得清晰的高分辨率图像。这种方法可以在不改变光圈尺寸的前提下扩大成像系统景深和提高成像系统的分辨率。
因此,本发明设计的基于波前编码的双目立体视觉的三维重建系统,可以在不同场景和光照条件下实现大景深、高分辨的成像。此外,它提高了双目立体视觉系统的深度感知精度,具有较好的鲁棒性,能够在机器视觉、自动驾驶、机器人导航等领域被广泛应用。
发明内容
本发明的目的是提供一种基于波前编码的双目立体视觉三维重建系统和方法,以扩大景深范围,提高深度感知精度,改善立体成像系统在弱光线等复杂环境下难以重建三维成像的问题。
本发明提供的基于波前编码的双目立体视觉的三维重建系统,包括:两个相同的编码相机、一个调节架及计算机处理系统;其中:
所述编码相机,由自由曲面相位板和光学成像系统、图像传感器三部分组成;其中,自由曲面相位板放置在光学成像系统的入瞳位置,构成编码光学镜头;编码光学镜头和图像传感器的相对位置通过螺纹调节和固定,使光学镜头成像在图像传感器上;所述自由曲面相位板对待观测物体的光场进行编码,经过编码光学镜头得到编码图像;图像传感器将采集到的编码图像传输到计算机处理系统中,供后续处理使用;
所述两个编码相机固定在调节架上,调节调节架使两个编码相机光轴相互平行,使用编码相机采集两幅具有视差的编码图像,用于双目立体视觉的三维重建;
所述的计算机处理系统,用于驱动两个编码相机进行编码图像的采集,并且通过其中的解码网络对左右两幅编码图像进行解码,获得清晰的纹理图像;再根据解码图像计算深度信息,实现三维重建。
根据上述基于波前编码的双目立体视觉的三维重建系统,本发明还提供基于波前编码的双目立体视觉的三维重建方法,具体步骤为:
步骤一、组装编码相机。主要包括自由曲面相位板的设计;
自由曲面相位板可以通过联合光学数字平台和编程软件进行参数优化,优化目标为一定景深范围内的离焦一致性。得到相位板最优参数后,进行编码相机的组装。具体为在相机入瞳处使用固定装置固定自由曲面相位板,使用蒙特卡罗模拟得到加工误差和装配公差。
步骤二、输入左右清晰图像对,训练双目编码相机的解码网络。具体步骤为:
(1)首先,建立编码相机点扩散函数的数学模型
编码相机中引入相位板,因此相移由离焦相移和相位板引入的相移两部分组成。通过建立视差相关的点扩散函数数学模型,对仿真的不同视差的点扩散函数进行旋转、缩放、加噪声等处理以增强网络的鲁棒性,并获得点扩散函数数据集,为下一步的清晰图像编码做准备。
(2)输入左右清晰图像对,利用仿真点扩散函数进行编码
给定左右清晰图像数据集作为输入。然后,从上一步中制作的点扩散函数数据集中随机挑选一些点扩散函数和清晰图像卷积,并随机添加加性高斯噪声,获得编码图像。
(3)对编码图像解码,训练网络参数
使用这些包含噪声的编码图像,训练解码网络。可选地,利用深度学习方法如生成对抗网络中的生成器生成解码图像,通过最小化重建纹理图像和真实清晰图像之间的差距优化网络参数。
步骤三、拍摄左右编码图像,进行三维重建。具体步骤为:
(1)首先,生成并采集编码图像
将双目编码相机放置于某一场景下拍摄,经过编码光学镜头和图像传感器依次生成、采集编码图像。
(2)进行编码相机标定
准备标定板,确保标定板的特征点(如角点、圆心等)清晰可见,并且标定板在不同位置和姿态下都能够被相机拍摄到。拍摄标定图像。在不同位置和姿态下,使用编码相机拍摄一定数量的标定图像,并确保标定板的各个特征点在图像中都有足够的数量和分布,以便后续标定计算。利用训练好的解码网络对标定图像解码,使用图像处理算法如Harris角点检测、SIFT、SURF等提取解码图像特征点并匹配,以获取标定板的图像坐标。使用相机标定算法,如Zhang’s方法、Tsai’s方法、Bouguet’s方法等,根据标定图像中的特征点和已知的标定板尺寸,计算出相机的内部参数,包括相机焦距、主点位置、畸变系数等。根据标定板在三维空间中的坐标和对应的图像坐标,使用三维重建算法如三角测量、直接线性变换(DLT)等,计算出相机外部参数即在三维空间中的位置和姿态。使用标定结果对标定图像进行重投影,即将三维空间中的标定板坐标投影到标定图像上,然后计算投影点与对应图像点之间的误差,以验证标定结果的精度和可靠性。
(3)提取解码图像特征点
采用诸如Harris、SIFT、SURF等特征点检测算法,对左右两幅解码图像中的每个像素进行检测,得到具有代表性的特征点集合。使用诸如基于距离的匹配、基于相似性度量的匹配、基于投影的匹配等特征匹配方法将左右两幅图像中的特征点进行匹配,以便后续的立体匹配和三维重建。对匹配后的特征点进行筛选,去除误匹配点和无用点,保留能够进行精确三维重建的点。
(4)进行立体匹配
进行立体校正后,确定图像对中的一幅图像为参考图像,另一幅作为待匹配图像。在参考图像对中选取图像特征,在待匹配的图像中找到与参考图像相对应的图像特征,确定图像对中对应特征的相对位置。
(5)获取拍摄对象的深度信息
通过获取左右两个图像对的视差图,结合已知的摄像机相对位置和内外参数,利用三角测量法恢复出所拍摄场景的深度信息。
(6)进行三维空间点重建
对所有特征点进行三角测量,得到每个特征点的三维坐标,从而重建出整个场景的三维点云。对三维点云进行后处理,包括去除误匹配点、填补空洞、平滑处理等,以提高重建结果的质量。
本发明通过波前编码技术,设计自由曲面相位板,以立体对形式插入双目相机光瞳处组装为编码相机。结合视差相关的点扩散函数数据集训练深度学习解码网络,实现基于波前编码的双目立体成像;利用得到的清晰解码图像对进行三维重建,扩展了立体成像系统景深,提高了双目立体视觉系统的深度感知精度。
本发明成功地解决了传统立体成像系统在成像体积和信噪比之间需要进行权衡的问题。通过将波前编码技术用于双目成像系统,在保持孔径大小条件下避免了弱光环境下的成像限制,有利于在不同场景和光照条件下实现大景深、高分辨的成像。本发明能够广泛应用于各种领域的立体成像系统中,例如虚拟增强现实、视觉导航和无人系统、医学图像获取和手术辅助等。
附图说明
图1为本发明的基于波前编码的双目立体视觉系统结构示意图。
图2为编码相机组装流程图。
图3为本发明的解码网络训练流程图。
图4为本发明的三维重建流程图。
图5为本发明的波前编码的双目立体视觉系统的双目匹配结果图。
图中标号:1、2为两个相同的自由曲面相位板、3、4为左右两个光学成像镜头、5、6为两个图像传感器、7为相机调节架、8为计算机处理系统。
具体实施方式
下面通过实施例结合附图,进一步介绍本发明。
图1是本发明基于波前编码的双目立体视觉系统结构示意图。图中标号依次表示为:1、2为两个相同的自由曲面相位板、3、4为左右两个光学成像镜头、5、6为两个图像传感器、7为相机调节架、8为计算机处理系统。自由曲面相位板和光学成像系统、图像传感器组成编码相机。
其中,自由曲面相位板放置在光学成像系统的入瞳位置,构成编码光学镜头;编码光学镜头和图像传感器的相对位置通过螺纹调节和固定,使镜头成像在图像传感器上;图像传感器将采集到的图像信息传到计算机处理系统;两个编码相机固定在调节架上,调节调节架使两个编码相机光轴相互平行,使用编码相机采集两幅具有视差的编码图像,用于双目立体视觉的三维重建;计算机处理系统用于驱动两个编码相机进行编码图像的采集,并进行图像的解码,根据解码图像计算深度信息,实现双目立体视觉的三维重建。
图2是编码相机组装流程图。主要包括自由曲面相位板的设计和加工组装。具体步骤为:
(1)相位板的面型选择。不同面型的相位板的相位引入效果不同,为了实现良好的离焦一致性,可选地,采用一种高阶多项式相位板类型:
z(x,y)=α(x3+y3)+β(x7+y7)+ω(x11+y11), (1)
其中,z是相位板面型矢高,x和y是相位板位置坐标;α,β,ω分别为相位板多项式面型函数参数的三次项、七次项、和十一次项系数,三个参数参与联合优化网络优化。
光线经过相位板产生光程差,引入的相位变化为:
其中,n为相位板相对折射率。
(2)设定景深扩展目标。依据需求对于景深扩展范围进行设计。选择不同的离焦位置的点扩散函数或者调制传递函数与正焦位置的结果进行比较,计算偏离程度,为相位板参数优化做准备。
(3)利用光学设计平台和编程软件进行参数的联合优化。具体过程为:使用光学设计平台获取点扩散函数或者调制传递函数的信息,以不同位置的离焦一致性作为优化目标,传递到编程软件进行参数的优化。
(4)联合优化后得到高阶相位板的参数,使用蒙特卡罗模拟得到相位板加工误差和装配公差。检测是否满足加工要求。将加工的高阶相位板立体对放置在双目相机入瞳处使用固定装置固定,组装成编码相机。
图3是解码网络训练流程图。具体步骤为:
(1)建立视差相关的编码相机点扩散函数的数学模型
当仅考虑离焦像差时,假设光瞳为圆形,波前编码成像系统在二维平面的相位函数P(x,y)可以表达为:
其中:
(x,y)为光瞳的空间坐标,D为入瞳直径,和/>分别为离焦和相位板引起的相位变化。
离焦引起的相位变化可以表示为视差相关的函数:
λ为入射光的波长,f为焦距,b为两个视图之间的基线,d0为正焦情况下对应的视差值,d为离焦情况下的视差值。
利用光学设计平台获得不同视差下的点扩散函数仿真数据,进一步进行旋转、缩放、加噪声等处理以增强网络的鲁棒性,并获得点扩散函数数据集,为下一步的清晰图像编码做准备。
(2)输入左右清晰图像对,利用仿真点扩散函数进行编码
给定左右清晰图像数据集作为输入。然后,从步骤(1)中的点扩散函数数据集中随机挑选一些点扩散函数和清晰图像进行卷积,并随机添加加性高斯噪声,获得编码图像。
Iout=Iin*PSF(x,y)+AGWN
Iout为编码图像,Iin为输入的清晰图像,*为卷积运算符,PSF(x,y)表示光瞳二维平面空间坐标下的点扩散函数,AGWN为加性高斯白噪声。
PSF(x,y)和相位函数P(x,y)满足:
PSF(x,y)∝|F{P(x,y)}|2,(6)
F表示傅里叶变换,∝表示正比例关系,|F{P(x,y)}|2为F{P(x,y)}模值的平方。
(3)对编码图像解码,训练网络参数
使用这些包含噪声的编码图像,训练解码网络。可选地,利用深度学习方法如生成对抗网络中的生成器生成解码图像,通过最小化重建纹理图像和真实清晰图像之间的差距优化网络参数。以生成对抗网络为例,具体过程为:生成对抗网络包含生成器网络和辨别器网络。生成网络包含连续的三次下采样和三次上采样阶段,以及五个连续的残差块;辨别网络为PatchGAN。生成器的任务是将输入的编码图像转换为高质量的纹理图像。同时,辨别器的任务是判断生成器生成的图像是否逼真,通过对比生成器生成的图像与真实图像之间的差异,来评估生成器的性能。
生成器损失函数为对抗损失(Ladv)与内容损失(Lcontent)之和:
L=Ladv+100Lcontent, (7)
其中:
和/>分别为生成器和判别器参数,I为输入样本数据,N为生成器每次迭代的临界次数。对抗损失比较生成的图像与辨别器评估的结果之间的差异。
φi,j为VGG19在第i个池化层前从第j个卷积中得到的特征图,Wi,j和Hi,j分别对应特征图的宽度和高度,Is和IB分别为清晰图像和编码图像,内容损失比较生成的图像与真实图像之间的差异。
辨别器使用对抗损失作为损失函数。
图4是设计好的基于波前编码的双目相机进行三维重建流程图。具体步骤为:
(1)编码图像的生成和采集
调节两个编码相机的相对位置,将双目编码相机放置于某一场景下拍摄处于不同深度的物体。通过解码网络将编码的立体图像对恢复为清晰高分辨率的图像。
(2)对编码相机进行标定
首先,准备标定板,确保标定板的特征点例如角点清晰可见,并且标定板在不同位置和姿态下都能够被相机拍摄到。拍摄标定图像。在不同位置和姿态下,使用编码相机拍摄一定数量的标定图像,并确保标定板的各个特征点在图像中都有足够的数量和分布,以便后续标定计算。
进一步地,利用训练好的解码网络对标定图像解码。使用图像处理算法,可选地,使用Harris角点检测方法提取解码图像特征点并匹配,以获取标定板的图像坐标。具体实现过程为将图像灰度化处理,图像中坐标(x,y)处的像素灰度值为I_gray(x,y);计算图像中每个像素点的梯度值,可选地,使用Sobel算子进行水平和垂直方向的梯度计算。水平方向梯度值为I_x(x,y)=I_gray(x+1,y)-I_gray(x-1,y),垂直方向梯度值为I_y(x,y)=I_gray(x,y+1)-I_gray(x,y-1);对每个像素点周围的窗口进行卷积操作,计算窗口内像素点的梯度矩阵。具体使用高斯窗口函数对梯度加权以降低噪声影响。窗口内梯度矩阵可表示为:
M=∑_w(x,y)*[I_x(x,y)2,I_x(x,y)*I_y(x,y),I_x(x,y)*I_y(x,y),I_y(x,y)2]
其中,∑_w(x,y)表示加权窗口内像素点的窗口函数。
计算窗口内像素点的Harris响应值,根据窗口内像素点的梯度矩阵,计算每个像素点的Harris响应值,判断该点是否为角点。Harris响应值R(x,y)可以表示为:
R(x,y)=det(M)-k*trace(M)2
其中,det(M)为梯度矩阵M的行列式,trace(M)为矩阵M的迹,k为Harris响应函数的参数。
通过非极大值抑制和阈值处理,筛选出角点。可以通过比较每个像素点与周围邻域内的Harris响应值中较大值对应像素点作为角点。设置阈值,保留响应值大于阈值的角点。
其中,C(x,y)表示角点的二进制图像,TH为阈值,(x′-y′)为像素点(x,y)的邻域像素点。
使用相机标定算法,具体使用Zhang’s方法根据标定图像中的特征点和已知的标定板尺寸,计算出相机的内部参数,包括相机焦距、主点位置、畸变系数等。根据标定板在三维空间中的坐标和对应的图像坐标,使用三维重建算法,可选地,使用三角测量方法计算出相机外部参数即在三维空间中的位置和姿态。使用标定结果对标定图像进行重投影,即将三维空间中的标定板坐标投影到标定图像上,然后计算投影点与对应图像点之间的误差,以验证标定结果的精度和可靠性。
(3)提取解码图像特征点
可选地,采用SIFT特征点检测算法,对左右两幅解码图像中的每个像素进行检测,得到具有代表性的特征点集合{p_i},i=1,2,……,N。p_i为第i个特征点,N为特征点的数量。可选地,使用基于距离的特征匹配方法将左右两幅图像中的特征点进行匹配,以便后续的立体匹配和三维重建。具体实现过程为对左右两幅解码图像在不同尺度下生成高斯金字塔,并计算出高斯差分金字塔。对每个尺度下的高斯差分金字塔进行极值点检测,寻找每个金字塔中的局部最大值或最小值。对检测到的极值点进行精确定位,包括计算关键点的精确位置(x_i,y_i)、尺度s_i和方向θ_i。计算每个关键点的SIFT描述符,即在关键点周围的邻域内计算梯度方向直方图,得到一个128维的向量,即D_i=[d_1,d_2,……,d_128],其中D_i表示第i个关键点的SIFT特征描述符,d_1,d_2,……,d_128表示描述符的每个维度。对左右两幅解码图像中的SIFT特征点进行匹配,采用基于最近邻距离比率的匹配方法,即对于每个特征点,在右图中找到两个最近邻的特征点,并计算它们之间的距离比率,如果比率小于一个阈值,则认为匹配成功。匹配对表示为{(p_i,q_i)},i=1,2,……,M,其中(p_i,q_i)为匹配成功的特征点对,M为匹配对数量。通过上述步骤,可以得到左右两幅解码图像中具有代表性的SIFT特征点集合,为后续的三维重建、立体匹配等任务提供了基础。对匹配后的特征点进行筛选,去除误匹配点和无用点,保留能够进行精确三维重建的点。
(4)对于左右两幅图像的特征进行匹配
进行立体校正后,确定图像对中的一幅图像为参考图像,另一幅作为待匹配图像。在参考图像对中选取图像特征,可选地,在待匹配的图像中找到与参考图像相对应的角点,确定图像对中对应特征的相对位置。
(5)计算深度
通过获取左右两个图像对的视差图,视差为特征点在左右图像之间的水平偏移量,表示为:
d=x_l-x_r
其中,d为视差,x_l和x_r分别表示左右图像中对应特征点的水平坐标。
结合已知的摄像机相对位置和内外参数,利用三角测量法恢复出所拍摄场景的深度信息。特征点的深度信息可以表示为:
其中,B为相机的基线长度,f为相机焦距。
(6)三维空间点重建
对所有特征点进行三角测量,通过对特征点的匹配结果和测得的相机参数,采用三角测量法计算得到每个特征点在相机坐标系中的三维坐标,从而重建出整个场景的三维点云。对于匹配成功的特征点对,假设左图像中的特征点的三维坐标为p_l=(x_l,y_l,z_l},右图像中的特征点的三维坐标为p_r=(x_r,y_r,z_r},特征点三维坐标可以表示为:
对三维点云进行后处理以提高重建结果的质量,包括去除误匹配点,即移除匹配不准确或的点。使用基于距离阈值的方法,对特征点P1坐标(x1,y1,z1),特征点P2坐标(x2,y2,z2),计算两特征点的欧氏距离:
设定阈值TH,若d>TH,则认为P1和P2为误匹配点,去除。
填补空洞,即填充在图像中未被正确匹配到的区域。具体使用最近邻插值法,使用已知点云中离空洞最近的点来估计空洞区域的三维坐标。
平滑处理,通过滤波等方法减少数据噪声、使得点云更加平滑连续等。具体使用高斯滤波方法进行平滑处理。平滑后的坐标P‘(x,y,z)可以表示为:
其中,k为滤波器半径,σ为高斯滤波的标准差,V(x+i,y+j,z+l)表示原始三维数据在坐标(x+i,y+j,z+l)的数值。
图5为基于本发明建立的波前编码的双目立体视觉系统的双目匹配结果图。整个系统使用边长15mm的12×9的棋盘格进行图像校正,左侧和右侧分别为原相机、编码相机的立体匹配结果。可以看到,使用波前编码的双目立体视觉系统可以获得更好的三维重建效果。
以上所述的实施例仅是对本发明的方式进行描述,并非对本发明的范围进行限定,本领域技术人员可以在不脱离本发明设计精神的前提下,对本发明做出的各种改进和变形,但这些改进和变形都应属于本发明权利要求书确定的保护范围内。
Claims (5)
1.一种基于波前编码的双目立体视觉的三维重建系统,其特征在于,包括:两个相同的编码相机、一个调节架及计算机处理系统;其中:
所述编码相机,由自由曲面相位板和光学成像系统、图像传感器三部分组成;所述自由曲面相位板放置在光学成像系统的入瞳位置,构成编码光学镜头;编码光学镜头和图像传感器的相对位置通过螺纹调节和固定,使光学镜头成像在图像传感器上;所述自由曲面相位板对待观测物体的光场进行编码,经过编码光学镜头得到编码图像;图像传感器将采集到的编码图像传输到计算机处理系统中,供后续处理使用;
所述两个编码相机固定在调节架上,调节调节架使两个编码相机光轴相互平行,使用编码相机采集两幅具有视差的编码图像,用于双目立体视觉的三维重建;
所述的计算机处理系统,用于驱动两个编码相机进行编码图像的采集,并且通过其中的解码网络对左右两幅编码图像进行解码,获得清晰的纹理图像;再根据解码图像计算深度信息,实现三维重建。
2.根据权利要求1所述的三维重建系统,其特征在于,所述编码相机中:
(1)自由曲面相位板采用高阶多项式类型:
z(x,y)=α(x3+y3)+β(x7+y7)+ω(x11+y11), (1)
其中,z是相位板面型矢高,x和y是相位板位置坐标;α,β,ω分别为相位板多项式面型函数参数的三次项、七次项、和十一次项系数,三个参数参由联合优化网络优化;
光线经过相位板产生光程差,引入的相位变化为:
其中,n为相位板相对折射率;
(2)设定景深扩展目标,依据需求对于景深扩展范围进行设计;选择不同的离焦位置的点扩散函数或者调制传递函数与正焦位置的结果进行比较,计算偏离程度,为相位板参数优化做准备;
(3)利用光学设计平台和编程软件进行参数的联合优化;具体过程为:使用光学设计平台获取点扩散函数或者调制传递函数的信息,以不同位置的离焦一致性作为优化目标,传递到编程软件进行参数的优化;
(4)联合优化后得到高阶相位板的参数,使用蒙特卡罗模拟得到相位板加工误差和装配公差;检测是否满足加工要求;将加工的高阶相位板立体对放置在双目相机入瞳处使用固定装置固定,组装成编码相机。
3.根据权利要求2所述的三维重建系统,其特征在于,所述解码网络,其编解码过程为:
(1)建立建立视差相关的编码相机点扩散函数的数学模型;
编码相机中引入相位板,相移由离焦相移和相位板引入的相移两部分组成;通过建立视差相关的点扩散函数数学模型,对仿真的不同视差的点扩散函数进行旋转、缩放、加噪声处理以增强网络的鲁棒性,并获得点扩散函数数据集,为下一步的清晰图像编码做准备;
(2)输入左右清晰图像对,利用仿真点扩散函数进行编码;
给定左右清晰图像数据集作为输入;然后,从步骤1中的点扩散函数数据集中随机挑选一些点扩散函数和清晰图像卷积,并随机添加加性高斯噪声,获得编码图像;
(3)对编码图像解码,训练网络参数
使用这些包含噪声的编码图像,训练解码网络;利用深度学习方法如生成对抗网络中的生成器生成解码图像,通过最小化重建纹理图像和真实清晰图像之间的差距优化网络参数。
4.根据权利要求3所述的三维重建系统,其特征在于,所述解码网络中:
(1)所述建立视差相关的编码相机点扩散函数的数学模型,具体为:
假设光瞳为圆形,波前编码成像系统在二维平面的相位函数P(x,y)表达为:
其中:
(x,y)为光瞳的空间坐标,D为入瞳直径,和/>分别为离焦和相位板引起的相位变化;
离焦引起的相位变化表示为视差相关的函数:
λ为入射光的波长,f为焦距,b为两个视图之间的基线,d0为正焦情况下对应的视差值,d为离焦情况下的视差值;
利用光学设计平台获得不同视差下的点扩散函数仿真数据,进一步进行旋转、缩放、加噪声处理以增强网络的鲁棒性,并获得点扩散函数数据集;
(2)所述输入左右清晰图像对,利用仿真点扩散函数进行编码,具体为:
给定左右清晰图像数据集作为输入;然后,从(1)中的点扩散函数数据集中随机挑选一些点扩散函数和清晰图像进行卷积,并随机添加加性高斯噪声,获得编码图像;
Iout=Iin*PSF(x,y)+AGWN, (6)
Iout为编码图像,Iin为输入的清晰图像,*为卷积运算符,PSF(x,y)表示光瞳二维平面空间坐标下的点扩散函数,AGWN为加性高斯白噪声
PSF(x,y)和相位函数P(x,y)满足:
PSF(x,y)∝|F{P(x,y)}|2, (7)
F表示傅里叶变换,∝表示正比例关系,|F{P(x,y)}|2为F{P(x,y)}模值的平方;
(3)所述对编码图像解码,训练网络参数,具体为:
使用这些包含噪声的编码图像,训练解码网络;利用生成对抗网络中的生成器生成解码图像,通过最小化重建纹理图像和真实清晰图像之间的差距优化网络参数;生成对抗网络包含生成器网络和辨别器网络;生成网络包含连续的三次下采样和三次上采样阶段,以及五个连续的残差块;辨别网络为PatchGAN;生成器的任务是将输入的编码图像转换为高质量的纹理图像;同时,辨别器的任务是判断生成器生成的图像是否逼真,通过对比生成器生成的图像与真实图像之间的差异,来评估生成器的性能;
生成器损失函数为对抗损失(Ladv)与内容损失(Lcontent)之和:
L=Ladv+100Lcontent, (8)
其中:
和/>分别为生成器和判别器参数,I为输入样本数据,N为生成器每次迭代的临界次数;对抗损失比较生成的图像与辨别器评估的结果之间的差异;
φi,j为VGG19在第i个池化层前从第j个卷积中得到的特征图,Wi,j和Hi,j分别对应特征图的宽度和高度,Is和IB分别为清晰图像和编码图像,内容损失比较生成的图像与真实图像之间的差异。
5.基于权利要求1-4之一所述的三维重建系统的三维重建方法,其特征在于,具体步骤为:
步骤一、组装编码相机;
步骤二、输入左右清晰图像对,训练双目编码相机的解码网络;
步骤三、拍摄左右编码图像,进行三维重建;具体步骤为:
(1)首先,生成并采集编码图像;
将双目编码相机放置于某一场景下拍摄,经过编码光学镜头和图像传感器依次生成、采集编码图像;
(2)进行编码相机标定;
准备标定板,确保标定板的特征点,包括角点、圆心,清晰可见,并且标定板在不同位置和姿态下都能够被相机拍摄到;
拍摄标定图像,在不同位置和姿态下,使用编码相机拍摄一定数量的标定图像,并确保标定板的各个特征点在图像中都有足够的数量和分布,以便后续标定计算;
利用训练好的解码网络对标定图像解码,使用图像处理算法提取解码图像特征点并匹配,以获取标定板的图像坐标;使用相机标定算法,根据标定图像中的特征点和已知的标定板尺寸,计算出相机的内部参数,包括相机焦距、主点位置、畸变系数;根据标定板在三维空间中的坐标和对应的图像坐标,使用三维重建算法,计算出相机外部参数即在三维空间中的位置和姿态;使用标定结果对标定图像进行重投影,即将三维空间中的标定板坐标投影到标定图像上,然后计算投影点与对应图像点之间的误差,以验证标定结果的精度和可靠性;
(3)提取解码图像特征点;
采用特征点检测算法,对左右两幅解码图像中的每个像素进行检测,得到具有代表性的特征点集合;使用特征匹配方法将左右两幅图像中的特征点进行匹配,以便后续立体匹配和三维重建;对匹配后的特征点进行筛选,去除误匹配点和无用点,保留能够进行精确三维重建的点;
(4)进行立体匹配;
进行立体校正后,确定图像对中的一幅图像为参考图像,另一幅作为待匹配图像;在参考图像对中选取图像特征,在待匹配的图像中找到与参考图像相对应的图像特征,确定图像对中对应特征的相对位置;
(5)获取拍摄对象的深度信息;
通过获取左右两个图像对的视差图,结合已知的摄像机相对位置和内外参数,利用三角测量法恢复出所拍摄场景的深度信息;
(6)进行三维空间点重建;
对所有特征点进行三角测量,得到每个特征点的三维坐标,从而重建整个场景的三维点云;对三维点云进行后处理,包括去除误匹配点、填补空洞、平滑处理,以提高重建结果的质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832672.8A CN116958419A (zh) | 2023-07-08 | 2023-07-08 | 一种基于波前编码的双目立体视觉三维重建系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832672.8A CN116958419A (zh) | 2023-07-08 | 2023-07-08 | 一种基于波前编码的双目立体视觉三维重建系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958419A true CN116958419A (zh) | 2023-10-27 |
Family
ID=88447090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310832672.8A Pending CN116958419A (zh) | 2023-07-08 | 2023-07-08 | 一种基于波前编码的双目立体视觉三维重建系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958419A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218301A (zh) * | 2023-11-09 | 2023-12-12 | 常熟理工学院 | 基于多通道立体视觉的电梯曳引轮轮槽重建方法及系统 |
CN117315003A (zh) * | 2023-12-01 | 2023-12-29 | 常州微亿智造科技有限公司 | 基于双目光栅投影的三维测量方法、系统、设备及其介质 |
CN117830392A (zh) * | 2024-03-05 | 2024-04-05 | 季华实验室 | 一种环境物体识别方法和成像系统 |
-
2023
- 2023-07-08 CN CN202310832672.8A patent/CN116958419A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218301A (zh) * | 2023-11-09 | 2023-12-12 | 常熟理工学院 | 基于多通道立体视觉的电梯曳引轮轮槽重建方法及系统 |
CN117218301B (zh) * | 2023-11-09 | 2024-02-09 | 常熟理工学院 | 基于多通道立体视觉的电梯曳引轮轮槽重建方法及系统 |
CN117315003A (zh) * | 2023-12-01 | 2023-12-29 | 常州微亿智造科技有限公司 | 基于双目光栅投影的三维测量方法、系统、设备及其介质 |
CN117830392A (zh) * | 2024-03-05 | 2024-04-05 | 季华实验室 | 一种环境物体识别方法和成像系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145238B (zh) | 单目内窥镜图像的三维重建方法、装置及终端设备 | |
CN107705333B (zh) | 基于双目相机的空间定位方法及装置 | |
CN107833181B (zh) | 一种基于变焦立体视觉的三维全景图像生成方法 | |
CN108876836B (zh) | 一种深度估计方法、装置、系统及计算机可读存储介质 | |
CN116958419A (zh) | 一种基于波前编码的双目立体视觉三维重建系统和方法 | |
CN111063021A (zh) | 一种空间运动目标的三维重建模型建立方法及装置 | |
WO2019164498A1 (en) | Methods, devices and computer program products for global bundle adjustment of 3d images | |
Minhas et al. | 3D shape from focus and depth map computation using steerable filters | |
CN109118544B (zh) | 基于透视变换的合成孔径成像方法 | |
CN110956661A (zh) | 基于双向单应矩阵的可见光与红外相机动态位姿计算方法 | |
CN110619660A (zh) | 一种物体定位方法、装置、计算机可读存储介质及机器人 | |
CN110969669A (zh) | 基于互信息配准的可见光与红外相机联合标定方法 | |
CN113393439A (zh) | 一种基于深度学习的锻件缺陷检测方法 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
O'Byrne et al. | A stereo‐matching technique for recovering 3D information from underwater inspection imagery | |
CN110120013A (zh) | 一种点云拼接方法及装置 | |
CN116579962A (zh) | 一种基于鱼眼相机的全景感知方法、装置、设备及介质 | |
CN114663578A (zh) | 一种基于深度学习的多目标场景偏振三维成像方法 | |
CN116295113A (zh) | 一种融合条纹投影的偏振三维成像方法 | |
CN103955928B (zh) | 一种确定曲面镜头畸变参数的方法、装置以及电子设备 | |
Zhuang et al. | A dense stereo matching method based on optimized direction-information images for the real underwater measurement environment | |
CN105488780A (zh) | 一种用于工业生产线的单目视觉测距追踪装置及其追踪方法 | |
CN117291930A (zh) | 一种基于图片序列中目标物体分割的三维重建方法和系统 | |
KR101673144B1 (ko) | 부분 선형화 기반의 3차원 영상 정합 방법 | |
CN116630423A (zh) | 一种基于orb特征的微小型机器人多目标双目定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |