CN115830240A - 一种基于图像融合视角的无监督深度学习三维重建方法 - Google Patents
一种基于图像融合视角的无监督深度学习三维重建方法 Download PDFInfo
- Publication number
- CN115830240A CN115830240A CN202211618155.2A CN202211618155A CN115830240A CN 115830240 A CN115830240 A CN 115830240A CN 202211618155 A CN202211618155 A CN 202211618155A CN 115830240 A CN115830240 A CN 115830240A
- Authority
- CN
- China
- Prior art keywords
- focus
- relu
- conv
- image
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像融合视角的无监督深度学习三维形貌重建方法。包括以下步骤:首先,采集图像的焦点堆栈与对应的焦点位置;其次,迭代通过聚焦区域检测和降采样聚焦区域检测模块得到不同尺度的聚焦体积;然后将多尺度聚焦体积通过四层hourglass网络输出注意力,进而获得场景的预测深度图与全聚焦图像;最后预测深度图与全聚焦图像经过引导滤波函数得到场景最终的三维形貌重建结果。本发明方法从无监督视角解决了场景的三维形貌重建问题,可有效缓解三维形貌重建过程中真实深度标注困难的问题。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于图像融合视角的无监督深度学习三维重建方法。
背景技术
基于视觉的三维重建具有速度快、实时性好、分析直观化等特点,广泛应用于机器人领域的自动导航、计算机视觉中的障碍物识别、建筑学中的三维建模、考古学中的文物修复等领域。因此多领域普适的需求推动三维重建技术向易实现与高精度的方向发展。
在计算机视觉中,额外的深度线索是利用二维图像恢复场景三维结构信息的关键,传统的三维重建方法从散焦、阴影、形状等深度线索出发,往往通过最大锐度的焦点位置来恢复每个像素处的深度。例如聚焦形貌重建方法利用多景深图像序列中焦点信息变化作为线索来估计场景的深度图,是一种典型的被动光学方法。相比其它方法而言,聚焦形貌重建方法不需要依赖高精度的深度探测设备,且在重建过程中可有效保留场景纹理信息。但是聚焦测量算子会受到噪声水平、对比度、场景纹理和其他因素的影响,导致聚焦体积包含错误的聚焦值,进而影响深度图的精确度。此外,基于每个像素的锐度计算深度是很耗时的,而且对于无纹理的对象效果不佳。
神经网络的一大优势是有效提取图像的语义信息,并通过卷积来关联像素信息,因此将深度学习引入深度估计领域预测焦点堆栈的深度可有效解决传统方法存在的缺陷。例如,由于场景深度和散焦模糊量之间存在强关联关系,利用散焦信息恢复深度的深度学习方法通过学习直接回归深度值,可以得到比传统方法更为精确的深度值,但此类深度学习模型需要大量具有真值的数据集,而实际中场景的真值通过难以获取,因此导致深度学习类模型在多焦点三维形貌重建领域的广泛应用。
通过上述研究现状分析,我们认为现有方法存在以下不足:深度信息获取设备通常需要专门的硬件,诸如结构光的投影仪与激光共聚焦的激光发射器等;被动式重建的传统特征评价方法由于需要先验知识介入而缺乏场景适用性与方法鲁棒性;深度学习技术有助于克服这些问题,但典型的深度学习模型需要真实场景的深度标注数据,难以进行实际应用。因此,如何实现领域自适应、有效利用散焦信息且无需真实场景深度图的三维重建是一个重要难题。
因此,本发明在图像融合过程中获取深度信息以实现无监督的三维形貌重建,进而有效解决了真实场景的三维形貌重建标注困难的问题。
发明内容
为克服现有解决方案中不足之处,本发明的目的是提供一种基于图像融合视角的无监督深度学习三维重建方法,包括以下步骤:
步骤1,给定焦点堆栈FS∈RH×W×N×C和对应的焦点位置P∈RH×W×N×C,其中H,W分别表示焦点切片的高和宽,N为焦点切片数量,C为通道数,R表示实数域;
步骤2,对步骤1中的焦点堆栈FS∈RH×W×N×C根据式(1)至式(3)的聚焦区域检测模块得到聚焦体积FV1∈RH×W×N×C,
F1=dilated(FS) (1)
F2=RELU(ResNet(F1)+FS) (2)
FV1=RELU(conv(RELU(conv(F2))))+F2 (3)
其中dilated()表示扩张卷积,F1为初始特征,ResNet()表示残差模块,RELU()表示激活函数,F2为语义特征,conv()表示3D卷积模块;
F3=RELU(stride_conv(FV1)+conv(Maxpooling(FV1))) (4)
F4=RELU(ResNet(F3)+FS) (5)
FV2=RELU(conv(RELU(conv(F4))))+F4 (6)
其中stride_conv()表示跨步卷积,Maxpooling()表示3D最大池化操作,F4为语义特征;
F5=RELU(stride_conv(FV2)+conv(Maxpooling(FV2))) (7)
F6=RELU(ResNet(F5)+FS) (8)
FV3=RELU(conv(RELU(conv(F6))))+F6 (9)
其中F6为语义特征;
步骤5,将步骤2、步骤3和步骤4分别获得的聚焦体积FV1,FV2,FV3根据式(10)输入四层hourglass网络进行不同尺寸特征的结合与细化,输出每个焦点位置最大锐度概率的中间注意力M∈RH×W×N;
M=hourglass(FV1,FV2,FV3) (10)
步骤6,将步骤5得到的中间注意力M根据式(11)进行归一化获得深度图注意力Mdepth,并根据式(12)与焦点位置P进行点乘获得预测深度图D,
其中F表示焦点堆栈的图片数量,Mi,j,t表示焦点堆栈中第t幅图像中位于像素点(i,j)处的中间注意力值,表示第t切片中位于像素点(i,j)处的深度图注意力值,像素点(i,j)的取值范围为1≤i≤H,1≤j≤W,t为堆栈下标其范围为1≤t≤N,Di,j表示深度图中像素点(i,j)的深度信息,exp()表示指数函数,ln()表示对数函数;
步骤7,将步骤5得到的中间注意力M根据式(13)进行归一化获得全聚焦图像注意力MAiF,并根据式(14)与焦点堆栈FS进行点乘获得全聚焦图像I,
步骤8,将步骤6得到的深度图D与步骤7得到的全聚焦图像I根据式(15)的引导滤波函数得到场景最终的三维重建结果Ddepth,
Ddepth=GT(I,D) (15)
其中GT()表示引导滤波函数。
与现有技术相比,本发明具有以下优点:
(1)本发明提出的三维重建方法充分利用了深度与全聚焦图像估计的关系,实现了场景无监督的深度信息估计;
(2)本发明提出的三维重建方法具有良好的场景普适性,通过全聚焦图像估计过程中提取具有不变性的聚焦信息实现深度估计,具有良好的场景泛化性。
附图说明
图1为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的流程图;
图2为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的示意图;
图3为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的聚焦区域检测模块示意图;
图4为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的降采样聚焦检测模块示意图;
图5为本发明的一种基于图像融合视角的无监督深度学习三维形貌重建方法的四层
hourglass网络示意图。
具体实施方式
如图1、图2所示,一种基于图像融合视角的无监督深度学习三维形貌重建方法,包括以下步骤:
步骤1,给定焦点堆栈FS∈RH×W×N×C和对应的焦点位置P∈RH×W×N×C,其中H,W分别表示焦点切片的高和宽,N为焦点切片数量,C为通道数,R表示实数域;
步骤2,对步骤1中的焦点堆栈FS∈RH×W×N×C根据式(1)至式(3)的聚焦区域检测模块得到聚焦体积FV1∈RH×W×N×C,如图3所示,
F1=dilated(FS) (1)
F2=RELU(ResNet(F1)+FS) (2)
FV1=RELU(conv(RELU(conv(F2))))+F2 (3)
其中dilated()表示扩张卷积,F1为初始特征,ResNet()表示残差模块,RELU()表示激活函数,F2为语义特征,conv()表示3D卷积模块;
F3=RELU(stride_conv(FV1)+conv(Maxpooling(FV1))) (4)
F4=RELU(ResNet(F3)+FS) (5)
FV2=RELU(conv(RELU(conv(F4))))+F4 (6)
其中stride_conv()表示跨步卷积,Maxpooling()表示3D最大池化操作,F4为语义特征;
F5=RELU(stride_conv(FV2)+conv(Maxpooling(FV2))) (7)
F6=RELU(ResNet(F5)+FS) (8)
FV3=RELU(conv(RELU(conv(F6))))+F6 (9)
其中F6为语义特征;
步骤5,将步骤2、步骤3和步骤4分别获得的聚焦体积FV1,FV2,FV3根据式(10)输入四层hourglass网络(如图5所示)进行不同尺寸特征的结合与细化,输出每个焦点位置最大锐度概率的中间注意力M∈RH×W×N;
M=hourglass(FV1,FV2,FV3) (10)
步骤6,将步骤5得到的中间注意力M根据式(11)进行归一化获得深度图注意力Mdepth,并根据式(12)与焦点位置P进行点乘获得预测深度图D,
其中F表示焦点堆栈的图片数量,Mi,j,t表示焦点堆栈中第t幅图像中位于像素点(i,j)处的中间注意力值,表示第t切片中位于像素点(i,j)处的深度图注意力值,像素点(i,j)的取值范围为1≤i≤H,1≤j≤W,t为堆栈下标其范围为1≤t≤N,Di,j表示深度图中像素点(i,j)的深度信息,exp()表示指数函数,ln()表示对数函数;
步骤7,将步骤5得到的中间注意力M根据式(13)进行归一化获得全聚焦图像注意力MAiF,并根据式(14)与焦点堆栈FS进行点乘获得全聚焦图像I,
步骤8,将步骤6得到的深度图D与步骤7得到的全聚焦图像I根据式(15)的引导滤波函数得到场景最终的三维重建结果Ddepth,
Ddepth=GT(I,D) (15)
其中GT()表示引导滤波函数。
Claims (1)
1.一种基于图像融合视角的无监督深度学习三维形貌重建方法,其特征在于,包括以下步骤:
步骤1,给定焦点堆栈FS∈RH×W×N×C和对应的焦点位置P∈RH×W×N×C,其中H,W分别表示焦点切片的高和宽,N为焦点切片数量,C为通道数,R表示实数域;
步骤2,对步骤1中的焦点堆栈FS∈RH×W×N×C根据式(1)至式(3)的聚焦区域检测模块得到聚焦体积FV1∈RH×W×N×C,
F1=dilated(FS) (1)
F2=RELU(ResNet(F1)+FS) (2)
FV1=RELU(conv(RELU(conv(F2))))+F2 (3)
其中dilated()表示扩张卷积,F1为初始特征,ResNet()表示残差模块,RELU()表示激活函数,F2为语义特征,conv()表示3D卷积模块;
F3=RELU(stride_conv(FV1)+conv(Maxpooling(FV1))) (4)
F4=RELU(ResNet(F3)+FS) (5)
FV2=RELU(conv(RELU(conv(F4))))+F4 (6)
其中stride_conv()表示跨步卷积,Maxpooling()表示3D最大池化操作,F4为语义特征;
F5=RELU(stride_conv(FV2)+conv(Maxpooling(FV2))) (7)
F6=RELU(ResNet(F5)+FS) (8)
FV3=RELU(conv(RELU(conv(F6))))+F6 (9)
其中F6为语义特征;
步骤5,将步骤2、步骤3和步骤4分别获得的聚焦体积FV1,FV2,FV3根据式(10)输入四层hourglass网络进行不同尺寸特征的结合与细化,输出每个焦点位置最大锐度概率的中间注意力M∈RH×W×N;
M=hourglass(FV1,FV2,FV3) (10)
步骤6,将步骤5得到的中间注意力M根据式(11)进行归一化获得深度图注意力Mdepth,并根据式(12)与焦点位置P进行点乘获得预测深度图D,
其中F表示焦点堆栈的图片数量,Mi,j,t表示焦点堆栈中第t幅图像中位于像素点(i,j)处的中间注意力值,表示第t切片中位于像素点(i,j)处的深度图注意力值,像素点(i,j)的取值范围为1≤i≤H,1≤j≤W,t为堆栈下标其范围为1≤t≤N,Di,j表示深度图中像素点(i,j)的深度信息,exp()表示指数函数,ln()表示对数函数;
步骤7,将步骤5得到的中间注意力M根据式(13)进行归一化获得全聚焦图像注意力MAiF,并根据式(14)与焦点堆栈FS进行点乘获得全聚焦图像I,
步骤8,将步骤6得到的深度图D与步骤7得到的全聚焦图像I根据式(15)的引导滤波函数得到场景最终的三维重建结果Ddepth,
Ddepth=GT(I,D) (15)
其中GT()表示引导滤波函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618155.2A CN115830240A (zh) | 2022-12-14 | 2022-12-14 | 一种基于图像融合视角的无监督深度学习三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618155.2A CN115830240A (zh) | 2022-12-14 | 2022-12-14 | 一种基于图像融合视角的无监督深度学习三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115830240A true CN115830240A (zh) | 2023-03-21 |
Family
ID=85545876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211618155.2A Pending CN115830240A (zh) | 2022-12-14 | 2022-12-14 | 一种基于图像融合视角的无监督深度学习三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115830240A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823914A (zh) * | 2023-08-30 | 2023-09-29 | 中国科学技术大学 | 基于全对焦图像合成的无监督焦点堆栈深度估计方法 |
CN117274788A (zh) * | 2023-10-07 | 2023-12-22 | 南开大学 | 一种声呐图像目标定位方法、系统、电子设备及存储介质 |
-
2022
- 2022-12-14 CN CN202211618155.2A patent/CN115830240A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823914A (zh) * | 2023-08-30 | 2023-09-29 | 中国科学技术大学 | 基于全对焦图像合成的无监督焦点堆栈深度估计方法 |
CN116823914B (zh) * | 2023-08-30 | 2024-01-09 | 中国科学技术大学 | 基于全对焦图像合成的无监督焦点堆栈深度估计方法 |
CN117274788A (zh) * | 2023-10-07 | 2023-12-22 | 南开大学 | 一种声呐图像目标定位方法、系统、电子设备及存储介质 |
CN117274788B (zh) * | 2023-10-07 | 2024-04-30 | 南开大学 | 一种声呐图像目标定位方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN115830240A (zh) | 一种基于图像融合视角的无监督深度学习三维重建方法 | |
US9297995B2 (en) | Automatic stereological analysis of biological tissue including section thickness determination | |
CN109389057B (zh) | 一种基于多尺度高级语义融合网络的物体检测方法 | |
CN109035172B (zh) | 一种基于深度学习的非局部均值超声图像去噪方法 | |
CN111462191B (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
CN110490915B (zh) | 一种基于卷积受限玻尔兹曼机的点云配准方法 | |
CN111524117A (zh) | 一种基于特征金字塔网络的隧道表面缺陷检测方法 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN114897738A (zh) | 一种基于语义不一致性检测的图像盲修复方法 | |
CN111105451B (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
CN115661459A (zh) | 一种使用差异信息的2D mean teacher模型 | |
CN116310098A (zh) | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 | |
CN111738295A (zh) | 图像的分割方法及存储介质 | |
CN115222884A (zh) | 一种基于人工智能的空间对象分析及建模优化方法 | |
CN113837947A (zh) | 一种获得光学相干层析大焦深图像的处理方法 | |
CN113808202A (zh) | 一种多目标检测和空间定位方法及其系统 | |
CN112926667A (zh) | 深度融合边缘与高层特征的显著性目标检测方法及装置 | |
CN115965641A (zh) | 一种基于deeplabv3+网络的咽部图像分割及定位方法 | |
CN110738113B (zh) | 一种基于邻近尺度特征滤除与转移的物体检测方法 | |
CN112614092A (zh) | 脊柱检测方法和装置 | |
CN112288669A (zh) | 一种基于光场成像的点云地图获取方法 | |
CN111985535A (zh) | 一种通过神经网络优化人体深度图的方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |