CN114511605B - 光场深度估计方法、装置、电子设备及存储介质 - Google Patents
光场深度估计方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114511605B CN114511605B CN202210404127.4A CN202210404127A CN114511605B CN 114511605 B CN114511605 B CN 114511605B CN 202210404127 A CN202210404127 A CN 202210404127A CN 114511605 B CN114511605 B CN 114511605B
- Authority
- CN
- China
- Prior art keywords
- light field
- image
- depth
- simulation
- rgb image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 82
- 238000004088 simulation Methods 0.000 claims abstract description 81
- 238000012937 correction Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000003384 imaging method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012546 transfer Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000005540 biological transmission Effects 0.000 claims description 45
- 230000005428 wave function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000003287 optical effect Effects 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理技术领域,特别涉及一种光场深度估计方法、装置、电子设备及存储介质,方法包括:对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像;将光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像;利用注意力学习神经网络对仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。从正向建立光场散焦成像模型提高深度估计准确度,基于光场散焦成像模型的光学图像,从逆向构建注意力学习神经网络快速估计场景深度,同时获得全聚焦图像,提高了光场深度估计的准确度,降低了算法计算量,提高了估计效率,可以进行实时估计。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种光场深度估计方法、装置、电子设备及存储介质。
背景技术
光场深度估计是光学三维测量的代表技术之一,在智能制造、机器人视觉、自动驾驶、工业检测、虚拟现实、航空探测及元宇宙等领域具有重要的应用价值。现有光场深度估计方法主要分为两大类:基于优化的估计方法和基于数据驱动的深度学习方法。
基于优化的传统方法主要基于对场景特性的分析,通过手动设计场景特征,并以此建立匹配代价函数。深度估计被转化为优化代价函数的问题。由于手动设计特征难以充分表达场景结构特点,优化的传统方法在处理遮挡、弱纹理等场景时,难以令人满意。此外,其构建的模型往往存在结构复杂且求解困难等问题,无法满足实时性要求。
基于数据驱动的深度学习方法严重依赖训练数据的数量和质量。模型均基于监督学习进行设计和训练,数据集则是通过光线追迹等方式人工合成。一方面,光场成像的特性决定了常规的结构光扫描或深度探测器,难以获得满足光场数据集要求的深度真值。因此,光场视差估计研究尚未能建立包含真实场景准确视差值的大规模数据集。另一方面,合成数据集中的样本数量有限,即使采用数据增强等方法,也难以获得充足的训练数据。这带来的问题是完全在合成数据集上训练的模型,无法在真实场景上获得相近的泛化性能。
此外,不管是优化的估计方法还是基于数据驱动的深度学习方法,均是从光学系统成像后的图像出发,采用不同的手段估计光学图像的深度信息,即均假设理想的小孔成像模型。然而实际的光学成像系统是存在不同程度的像差的,成像模型带来的误差是影响当前深度估计算法准确度的关键元素之一。
综上,现有光场深度存在以下问题:
1、成像模型的误差以及优化算法误差使得光场深度估计准确度有待提高。
2、算法的复杂度导致计算量大,算法效率不高,无法满足实时性要求。
发明内容
本申请提供一种光场深度估计方法、装置、电子设备及存储介质,从正向建立光场散焦成像模型以提高深度估计准确度,基于光场散焦成像模型的光学图像,从逆向构建注意力学习神经网络以快速估计场景深度,同时获得全聚焦图像。
本申请第一方面实施例提供一种光场深度估计方法,包括以下步骤:对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像;将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像;利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。
可选地,在本申请的一个实施例中,在得到所述仿真光场RGB图像之前,还包括:根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数;利用微透镜阵列的相位调制函数对所述波函数进行调制;采集相机像素对特定频率的分量,根据调制后的波函数和所述特定频率的分量计算点传输函数,并对所述点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图;基于所述仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到所述光场仿真点传输函数仿真图像。
可选地,在本申请的一个实施例中,所述将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像,包括:对所述光场深度图进行离散化,得到所述光场深度图对应的二进制深度掩膜;将所述光场伽马校正RGB图像与所述二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将所述光场深度切片RGB图、所述二进制深度掩膜和所述光场仿真点传输函数仿真图像输入光场非线性成像模型,得到所述仿真光场RGB图像。
可选地,在本申请的一个实施例中,所述利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像,包括:利用所述仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经所述注意力学习神经网络得到所述光场的估计深度图;将所述光场子孔径图像与所述初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将所述光场重聚焦序列与连续深度体进行相乘,得到所述全聚焦图像。
可选地,在本申请的一个实施例中,在利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像之后,还包括:将所述估计深度图与所述全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练所述注意力学习神经网络参数。
本申请第二方面实施例提供一种光场深度估计装置,包括:处理模块,用于对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像;生成模块,用于将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像;估计模块,用于利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。
可选地,在本申请的一个实施例中,还包括:输出模块,用于在得到所述仿真光场RGB图像之前,根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数,利用微透镜阵列的相位调制函数对所述波函数进行调制,采集相机像素对特定频率的分量,根据调制后的波函数和所述特定频率的分量计算点传输函数,并对所述点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图,基于所述仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到所述光场仿真点传输函数仿真图像。
可选地,在本申请的一个实施例中,所述生成模块,进一步用于,对所述光场深度图进行离散化,得到所述光场深度图对应的二进制深度掩膜;将所述光场伽马校正RGB图像与所述二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将所述光场深度切片RGB图、所述二进制深度掩膜和所述光场仿真点传输函数仿真图像输入光场非线性成像模型,得到所述仿真光场RGB图像。
可选地,在本申请的一个实施例中,所述估计模块,进一步用于,利用所述仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经所述注意力学习神经网络得到所述光场的估计深度图;将所述光场子孔径图像与所述初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将所述光场重聚焦序列与连续深度体进行相乘,得到所述全聚焦图像。
可选地,在本申请的一个实施例中,还包括:训练模块,用于将所述估计深度图与所述全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练所述注意力学习神经网络参数。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以执行如上述实施例所述的光场深度估计方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以执行如上述实施例所述的光场深度估计方法。
本申请的实施例至少具有以下有益效果:
(1)考虑光场散焦特征的前向成像建模方法提升了深度估计准确度。采用非线性光场散焦成像模型模拟了光场成像过程中不同深度、不同视角的散焦特征,而并非理想的小孔成像模型,能够更加准确对成像过程进行建模,从而提升光场深度估计的准确性。
(2)考虑了遮挡的非线性光场成像模型提升了深度估计准确度。采用α合成的光场非线性成像,考虑了遮挡带来的影响,能够提供深度估计准确度。
(3)深度估计结果更加快速。采用注意力深度神经网络模型,采用对称的注意力图以较少的训练参数确定光场视角的权重系数,相比于传统迭代方法更加快速、高效。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种光场深度估计方法的流程图;
图2为根据本申请实施例提供的一种光场深度估计方法的结构框架图;
图3为根据本申请实施例提供的一种光场传输模型流程图;
图4为根据本申请实施例提供的一种光场前向散焦RGB生成过程示意图;
图5为根据本申请实施例提供的一种光场深度反演过程示意图;
图6为根据本申请实施例提供的一种光场深度反演网络结构图;
图7为根据本申请实施例的光场深度估计装置的示例图;
图8为申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的光场深度估计方法、装置、电子设备及存储介质。针对上述背景技术中心提到的现有光场深度成像模型的误差以及优化算法误差使得光场深度估计准确度低,算法的复杂度导致计算量大,算法效率不高,无法满足实时性要求的问题,本申请提供了一种光场深度估计方法,在该方法中,从正向建立光场散焦成像模型以提高深度估计准确度,基于光场散焦成像模型的光学图像,从逆向构建注意力学习神经网络以快速估计场景深度,同时获得全聚焦图像,由此,提高了光场深度估计的准确度,并降低了算法的计算量,提高了估计效率,可以进行实时估计。
具体而言,图1为根据本申请实施例提供的一种光场深度估计方法的流程图。
如图1所示,该光场深度估计方法包括以下步骤:
在步骤S101中,对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像。
在本申请的实施例中,基于现有开源光场数据集,对光场RGB图像进行伽马校正得到光场伽马校正RGB图像,与光场深度图一起送入前向RGB生成模型用以仿真散焦光场图像。
在步骤S102中,将光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像。
可选地,在本申请的一个实施例中,在得到仿真光场RGB图像之前,还包括:根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数;利用微透镜阵列的相位调制函数对波函数进行调制;采集相机像素对特定频率的分量,根据调制后的波函数和特定频率的分量计算点传输函数,并对点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图;基于仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到光场仿真点传输函数仿真图像。
如图2和图3所示,计算光场仿真点传输函数仿真图像。具体地,基于光场相机的参数模型,根据光学传输衍射公式计算光场点传输函数(point spread function,PSF),为仿真不同视角光场散焦图像提供散焦线索。相关技术仅考虑了单视角正向传输模型,本申请考虑了多视角的光场传输模型。
(1)首先根据光场相机参数及点源场传播过程,物方点经过主透镜的波函数U(x,y,z,λ)可以表达为:
其中,s为透镜与传感器之间距离,d为物体与透镜距离。
(2)微透镜阵列的相位调制函数为:
其中,x 0,y 0为微透镜阵列的中心坐标,f为焦距,n为折射率。
(3)经过微透镜相位调制后的光场信息为:
其中,ω x ,ω y 为对空间(x,y)的频域采样,F ω (·)为傅里叶变换操作。
(4)相机像素对特定频率分量的采集过程为:
其中,ω u 为角度u对应的空间频率位置,ω v 为角度v对应的空间频率位置,rect(·)为矩形窗函数。
(5)则经微透镜后的点传输函数PSF可以表达为:
(6)对上式PSF进行数值模拟,并采用双线性插值、拟合、对称补全和归一化操作,得到仿真PSF图。
(7)对物方深度值z进行随机采样,模拟仿真随机采样深度下的PSF,获得鲁棒的训练样本的PSF仿真图像。
可选地,在本申请的一个实施例中,将光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像,包括:对光场深度图进行离散化,得到光场深度图对应的二进制深度掩膜;将光场伽马校正RGB图像与二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将光场深度切片RGB图、二进制深度掩膜和光场仿真点传输函数仿真图像输入光场非线性成像模型,得到仿真光场RGB图像。
将得到的光场伽马校正RGB图像、光场深度图以及仿真获得的PSF送入前向RGB生成过程,以仿真光场散焦图像。该前向仿真过程不同于现有的理想小孔成像技术,通过引用光场点扩散函数对不同深度、不同角度的光学散焦进行建模,能够更接近真实获得的光场图像。前向生成过程如图4所示:
(1)首先对光场深度图进行离散化,获得对应深度图的二进制深度掩膜α k (λ),k=1,2,..,K。K为离散的深度层数。
(2)将第一步获得的光场伽马校正RGB图像与离散的二进制深度掩膜相乘,获得对应的光场深度切片RGB图。
(3)将光场深度切片RGB图、二进制深度掩膜α k (λ)以及仿真得到的光场PSF送入考虑遮挡基于α合成的光场非线性成像模型,以得到仿真的光场RGB图像b(λ,u,v),如下式所示:
其中:
其中,深度图量化为K层,u,v表示光场视角,λ为波长,*表示卷积操作,α k (k=1,2,..,K)为二进制深度掩膜,l k (λ)为第k层光场深度切片RGB图,PSF k (λ,u,v)表示u,v角下的第k层深度处的PSF,表征了不考虑遮挡时第k层深度处的成像响应,表征了遮挡对第k层深度处成像的影响,η为加性噪声。
在步骤S103中,利用注意力学习神经网络对仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。
可选地,在本申请的一个实施例中,利用注意力学习神经网络对仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像,包括:利用仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经注意力学习神经网络得到光场的估计深度图;将光场子孔径图像与初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将光场重聚焦序列与连续深度体进行相乘,得到全聚焦图像。
可选地,在本申请的一个实施例中,在利用注意力学习神经网络对仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像之后,还包括:将估计深度图与全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练注意力学习神经网络参数。
如图5所示,基于上述前向模型仿真得到的光场RGB图像进行深度估计,首先,采用RL迭代与估计算法获得初始光场聚焦序列(focalstack),采用注意力深度学习网络训练、估计光场深度图。
具体地,本申请采用的深度反演神经网络如图6所示。深度反演网络的输入为第三步仿真得到的多视角光场图像,输出为估计深度图及其对应的全聚焦(All-in-focus)图像。
深度反演网络主要由两部分组成:第一部分采用注意力视角选择神经网络,主要由2D卷积、Resblock、SPPModule、CostVolume、AttentionModule、3DCNN等模块组成,输入为光场子孔径图像,输出为H×W×K维度(K表示深度层数,H,W分别表示光场图像的长和宽)的深度体M,取最大值即可得到光场深度图。
第二部分采用3DU-Net编解码网络估计全聚焦图像,输入为光场子孔径图像,首先经过2DCNN、Resblock、SPPModule等模块,然后与预估计的光场聚焦序列进行级联,然后通过编解码网络输出估计的光场重聚焦序列,与连续深度体MAiF相乘即可得到全聚焦图像。
深度体M与MAiF关系定义为:
其中:
将估计的光场深度图与光场全聚焦图像分别与其真值相比较,计算损失函数,后向传播误差训练网络参数。其中,光场深度图的损失函数选用最小均方误差函数,光场全聚焦图像的损失函数选用SSIM(structural similarity,结构相似性)指标。
根据本申请实施例提出的光场深度估计方法,从正向建立光场散焦成像模型以提高深度估计准确度,基于光场散焦成像模型的光学图像,从逆向构建注意力学习神经网络以快速估计场景深度,同时获得全聚焦图像,由此,提高了光场深度估计的准确度,并降低了算法的计算量,提高了估计效率,可以进行实时估计。
其次参照附图描述根据本申请实施例提出的光场深度估计装置。
图7为根据本申请实施例的光场深度估计装置的示例图。
如图7所示,该光场深度估计装置10包括:处理模块100、生成模块200和估计模块300。
其中,处理模块100,用于对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像。生成模块200,用于将光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像。估计模块300,用于利用注意力学习神经网络对仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。
可选地,在本申请的一个实施例中,光场深度估计装置10还包括:输出模块,用于在得到仿真光场RGB图像之前,根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数,利用微透镜阵列的相位调制函数对波函数进行调制,采集相机像素对特定频率的分量,根据调制后的波函数和特定频率的分量计算点传输函数,并对点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图,基于仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到光场仿真点传输函数仿真图像。
可选地,在本申请的一个实施例中,生成模块200,进一步用于,对光场深度图进行离散化,得到光场深度图对应的二进制深度掩膜;将光场伽马校正RGB图像与二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将光场深度切片RGB图、二进制深度掩膜和光场仿真点传输函数仿真图像输入光场非线性成像模型,得到仿真光场RGB图像。
可选地,在本申请的一个实施例中,估计模块300,进一步用于,利用仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经注意力学习神经网络得到光场的估计深度图;将光场子孔径图像与初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将光场重聚焦序列与连续深度体进行相乘,得到全聚焦图像。
可选地,在本申请的一个实施例中,光场深度估计装置10还包括:训练模块,用于将估计深度图与全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练注意力学习神经网络参数。
需要说明的是,前述对光场深度估计方法实施例的解释说明也适用于该实施例的光场深度估计装置,此处不再赘述。
根据本申请实施例提出的光场深度估计装置,从正向建立光场散焦成像模型以提高深度估计准确度,基于光场散焦成像模型的光学图像,从逆向构建注意力学习神经网络以快速估计场景深度,同时获得全聚焦图像,由此,提高了光场深度估计的准确度,并降低了算法的计算量,提高了估计效率,可以进行实时估计。
图8为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的光场深度估计方法。
进一步地,车辆还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的光场深度估计方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
Claims (10)
1.一种光场深度估计方法,其特征在于,包括以下步骤:
对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像;
将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像;所述将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像,包括:对所述光场深度图进行离散化,得到所述光场深度图对应的二进制深度掩膜;将所述光场伽马校正RGB图像与所述二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将所述光场深度切片RGB图、所述二进制深度掩膜和所述光场仿真点传输函数仿真图像输入光场非线性成像模型,得到所述仿真光场RGB图像;以及
利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像。
2.根据权利要求1所述的方法,其特征在于,在得到所述仿真光场RGB图像之前,还包括:
根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数;
利用微透镜阵列的相位调制函数对所述波函数进行调制;
采集相机像素对特定频率的分量,根据调制后的波函数和所述特定频率的分量计算点传输函数,并对所述点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图;
基于所述仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到所述光场仿真点传输函数仿真图像。
3.根据权利要求1所述的方法,其特征在于,所述利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像,包括:
利用所述仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经所述注意力学习神经网络得到所述光场的估计深度图;
将所述光场子孔径图像与所述初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将所述光场重聚焦序列与连续深度体进行相乘,得到所述全聚焦图像。
4.根据权利要求3所述的方法,其特征在于,在利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像之后,还包括:
将所述估计深度图与所述全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练所述注意力学习神经网络参数。
5.一种光场深度估计装置,其特征在于,包括:
处理模块,用于对光场RGB图像进行伽马校正,生成光场伽马校正RGB图像;
生成模块,用于将所述光场伽马校正RGB图像、光场深度图和光场仿真点传输函数仿真图像进行前向RGB生成以仿真光场散焦图像,得到仿真光场RGB图像;以及
估计模块,用于利用注意力学习神经网络对所述仿真光场RGB图像进行光场深度估计,得到光场的估计深度图和全聚焦图像;
所述生成模块,进一步用于,对所述光场深度图进行离散化,得到所述光场深度图对应的二进制深度掩膜;将所述光场伽马校正RGB图像与所述二进制深度掩膜相乘,得到对应的光场深度切片RGB图;将所述光场深度切片RGB图、所述二进制深度掩膜和所述光场仿真点传输函数仿真图像输入光场非线性成像模型,得到所述仿真光场RGB图像。
6.根据权利要求5所述的装置,其特征在于,还包括:
输出模块,用于在得到所述仿真光场RGB图像之前,根据光场相机参数和点源场传播过程,计算物方点经过主透镜的波函数,利用微透镜阵列的相位调制函数对所述波函数进行调制,采集相机像素对特定频率的分量,根据调制后的波函数和所述特定频率的分量计算点传输函数,并对所述点传输函数进行数值模拟及并采用双线性插值、拟合、对称补全和归一化操作,得到仿真点传输函数图,基于所述仿真点传输函数图对物方深度值进行随机采样,模拟仿真随机采样深度下的仿真点传输函数,得到所述光场仿真点传输函数仿真图像。
7.根据权利要求5所述的装置,其特征在于,所述估计模块,进一步用于,利用所述仿真光场RGB图像和RL迭代与估计算法获得初始光场聚焦序列,利用光场子孔径图像经所述注意力学习神经网络得到所述光场的估计深度图;将所述光场子孔径图像与所述初始光场聚焦序列级联,通过编解码网络输出估计的光场重聚焦序列,将所述光场重聚焦序列与连续深度体进行相乘,得到所述全聚焦图像。
8.根据权利要求7所述的装置,其特征在于,还包括:
训练模块,用于将所述估计深度图与所述全聚焦图像分别与其真值比较,计算损失函数,后向传播误差训练所述注意力学习神经网络参数。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的光场深度估计方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的光场深度估计方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404127.4A CN114511605B (zh) | 2022-04-18 | 2022-04-18 | 光场深度估计方法、装置、电子设备及存储介质 |
PCT/CN2022/091182 WO2023201783A1 (zh) | 2022-04-18 | 2022-05-06 | 光场深度估计方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404127.4A CN114511605B (zh) | 2022-04-18 | 2022-04-18 | 光场深度估计方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511605A CN114511605A (zh) | 2022-05-17 |
CN114511605B true CN114511605B (zh) | 2022-09-02 |
Family
ID=81555405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404127.4A Active CN114511605B (zh) | 2022-04-18 | 2022-04-18 | 光场深度估计方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114511605B (zh) |
WO (1) | WO2023201783A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190257A (zh) * | 2022-05-30 | 2022-10-14 | 元潼(北京)技术有限公司 | 用于元成像的cis系统 |
CN115375827B (zh) * | 2022-07-21 | 2023-09-15 | 荣耀终端有限公司 | 光照估计方法及电子设备 |
CN116016952B (zh) * | 2022-12-20 | 2024-05-14 | 维悟光子(北京)科技有限公司 | 用于光学成像系统的图像编解码模型的训练方法 |
CN117541501B (zh) * | 2024-01-09 | 2024-05-31 | 清华大学 | 扫描光场自监督网络去噪方法、装置、电子设备及介质 |
CN118075590A (zh) * | 2024-03-22 | 2024-05-24 | 四川大学 | 一种基于多虚拟透镜的消色差扩景深成像系统及成像方法 |
CN117974478B (zh) * | 2024-04-02 | 2024-06-25 | 武汉工程大学 | 一种可见光至近红外高光谱图像重构方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899870B (zh) * | 2015-05-15 | 2017-08-25 | 清华大学深圳研究生院 | 基于光场数据分布的深度估计方法 |
CN106846463B (zh) * | 2017-01-13 | 2020-02-18 | 清华大学 | 基于深度学习神经网络的显微图像三维重建方法及系统 |
US10924727B2 (en) * | 2018-10-10 | 2021-02-16 | Avalon Holographics Inc. | High-performance light field display simulator |
CN110443882B (zh) * | 2019-07-05 | 2021-06-11 | 清华大学 | 基于深度学习算法的光场显微三维重建方法及装置 |
CN111127536A (zh) * | 2019-12-11 | 2020-05-08 | 清华大学 | 基于神经网络的光场多平面表示重建方法及装置 |
CN112150526A (zh) * | 2020-07-27 | 2020-12-29 | 浙江大学 | 一种基于深度学习的光场图像深度估计方法 |
CN112102165B (zh) * | 2020-08-18 | 2022-12-06 | 北京航空航天大学 | 一种基于零样本学习的光场图像角域超分辨系统及方法 |
CN112767466B (zh) * | 2021-01-20 | 2022-10-11 | 大连理工大学 | 一种基于多模态信息的光场深度估计方法 |
CN113506336B (zh) * | 2021-06-30 | 2024-04-26 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113554744A (zh) * | 2021-07-08 | 2021-10-26 | 清华大学 | 一种大体积散射样本快速扫描三维成像方法及装置 |
CN114092540A (zh) * | 2021-10-29 | 2022-02-25 | 上海师范大学 | 基于注意力机制的光场深度估计方法及计算机可读介质 |
-
2022
- 2022-04-18 CN CN202210404127.4A patent/CN114511605B/zh active Active
- 2022-05-06 WO PCT/CN2022/091182 patent/WO2023201783A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023201783A1 (zh) | 2023-10-26 |
CN114511605A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114511605B (zh) | 光场深度估计方法、装置、电子设备及存储介质 | |
Tang et al. | Learning guided convolutional network for depth completion | |
CN108986050B (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
US11763433B2 (en) | Depth image generation method and device | |
CN106846463B (zh) | 基于深度学习神经网络的显微图像三维重建方法及系统 | |
US9741100B2 (en) | Optimization of plenoptic imaging systems | |
CN112802078A (zh) | 深度图生成方法和装置 | |
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN109472819A (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
US20130216125A1 (en) | Resolution-Enhanced Plenoptic Imaging System | |
CN114004754A (zh) | 一种基于深度学习的场景深度补全系统及方法 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
Elmquist et al. | Modeling cameras for autonomous vehicle and robot simulation: An overview | |
CN114758030B (zh) | 融合物理模型和深度学习的水下偏振成像方法 | |
CN103578100A (zh) | 用于模拟显微术中的景深的方法和设备 | |
CN116958419A (zh) | 一种基于波前编码的双目立体视觉三维重建系统和方法 | |
Ceruso et al. | Relative multiscale deep depth from focus | |
Singh et al. | A systematic review of the methodologies for the processing and enhancement of the underwater images | |
CN113763300A (zh) | 一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法 | |
Zheng et al. | Diffuvolume: Diffusion model for volume based stereo matching | |
CN115861401A (zh) | 一种双目与点云融合深度恢复方法、装置和介质 | |
Wong | A new method for creating a depth map for camera auto focus using an all in focus picture and 2D scale space matching | |
CN114119704A (zh) | 一种基于空间金字塔池化的光场图像深度估计方法 | |
Zahari et al. | Stereo matching algorithm for autonomous vehicle navigation using integrated matching cost and non-local aggregation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |