CN117522939B - 一种单目单张模糊图像深度计算方法 - Google Patents

一种单目单张模糊图像深度计算方法 Download PDF

Info

Publication number
CN117522939B
CN117522939B CN202410012189.XA CN202410012189A CN117522939B CN 117522939 B CN117522939 B CN 117522939B CN 202410012189 A CN202410012189 A CN 202410012189A CN 117522939 B CN117522939 B CN 117522939B
Authority
CN
China
Prior art keywords
depth
image
depth estimation
steps
deblurring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410012189.XA
Other languages
English (en)
Other versions
CN117522939A (zh
Inventor
赖文杰
张鸿波
李成世
周泓熙
刘子骥
蒋亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202410012189.XA priority Critical patent/CN117522939B/zh
Publication of CN117522939A publication Critical patent/CN117522939A/zh
Application granted granted Critical
Publication of CN117522939B publication Critical patent/CN117522939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种单目单张模糊图像深度计算方法,涉及计算机视觉领域。本发明的单目单张模糊图像深度估计方法,利用在模糊线索,建模去模糊的数学模型,结合神经网络进行深度估计,针对性的设计去模糊和基于语义信息的损失函数,并针对样本不均衡问题,利用语义标签提高了小样本的深度估计准确性,利用本发明的单目单张模糊图像深度估计方法,可以有效的提高深度估计的准确性。

Description

一种单目单张模糊图像深度计算方法
技术领域
本发明涉及计算机视觉领域;具体涉及到一种单目单张模糊图像深度计算方法。
背景技术
单目图像深度估计是深度估计的重要途径,基于神经网络的单目图片深度估计方案,要么没有使用模糊线索,要么没有直接利用模糊线索进行深度估计。现有技术中利用模糊线索进行深度估计的方案为:直接用现有的编码器解码器网络对模糊图像进行学习,模糊线索的利用率较低,同时模型的可解释性较差。直接使用模糊退化机理进行深度估计的方案,并没有结合神经网络,其深度估计的准确性和鲁棒性较差。为了直接利用模糊线索和神经网络对图像进行深度估计,将模糊退化的数学模型的逆问题,也即去模糊问题,再结合神经网络解决去模糊问题,完成对深度的估计;从而在提高神经网络可解释性,可控制性的同时,提高深度估计的准确性。
发明内容
本发明的目的在于对单目深度估计问题,设计合理的候选深度值,利用模糊退化模型,建立不同候选深度下的去模糊图像,并结合神经网络进行深度估计,提高深度估计的准确性。
本发明技术方案为:一种单目单张模糊图像深度计算方法,包括以下步骤:
S1、将有效深度测量范围等间距取/>个候选深度/>,并根据相机参数,建立不同候选深度/>对应的点扩散函数/>,所选取的候选深度/>要求满足以下条件,
(1)
(2)
在已知相机光圈大小和初始像距/>,焦距/>的条件下,对于/>处的模糊光斑的大小为:
(3)
利用高斯模型,计算点扩散函数
(4)
其中和模糊光斑半径/>相关,按照如下计算:
(5)
S2、根据点扩散函数使用维纳滤波方法对单张模糊图像/>进行去模糊,得到去模糊图像/>,具体计算公式如下:
(6)
其中、/>、/>分别表示傅里叶变换后取共轭,傅里叶变换和傅里叶逆变换,/>为正则化系数,根据实际传感器的信噪比来确认;
S3、将不同候选深度对应的点扩散函数/>进行去模糊得到的去模糊图像/>组成图像堆栈/>,/>
S4、将图像堆栈输入到编码器解码器网络/>中,对深度进行估计,得到深度估计值
S5、利用图像堆栈结合深度估计值/>生成清晰图像,计算清晰图像和实际清晰图像之间的损失,对编码器解码器网络/>进行训练;考虑到模糊线索和深度信息的直接相关性,直接利用深度预测/>结合图像堆栈/>,实现去模糊的效果;
(7)
(8)
其中为图像索引,表示利用第/>个候选深度/>对应的点扩散函数,进行维纳去模糊得到的清晰图像。/>表示像素坐标。/>表示对/>向上取整。
进行如下的可导处理
(9)
其中为核密度估计窗口的大小,取/>;利用深度估计的结果/>生成清晰图像,去模糊监督分支的结果倾向于选择更加准确的深度估计结果/>,也即去模糊监督分支和深度估计骨干网络的训练目标是一致的;选用/>函数作为去模糊的损失函数/>为:
(10)
相应的,选用交叉熵作为语义分割监督分支的损失函数为:
(11)
其中,将像素坐标简化表示为/>,/>为通道索引(对应为具体类别),/>为所有语义类别总数,/>为语义标签,/>为预测的语义标签。选用/>作为深度估计的损失函数/>为:
(12)
其中为深度估计的真值,/>为预测值,/>为定义的损失函数。则最终的损失函数/>为:
(13)
其中、/>、/>分别为控制损失/>、/>、/>的权重因子。
S6、为了克服模型训练中数据不均衡的问题,采用语义标签对深度估计准确率低于设定阈值的数据进行自适应学习。在每轮训练过程后,对当前模型进行评估,获取每一个类别的深度估计的平均均方根误差
(14)
其中为训练集中图片的总数量,/>表示图像索引,/>表示类别索引,大于设定阈值的平均均方根误差/>,希望在下一轮训练中针对性的对其进行增强,因此使用平均均方根误差/>成正比的重采样概率/>在下一轮训练中对类别/>进行复制粘贴。具体的,重采样概率通过以下的公式计算;
(15)
为了让重采样概率反馈历史训练数据,使用动态平均更新平均均方根误差/>,对于第/>次训练,更新平均均方根误差/>如下:
(16)
其中为动量系数。最终的重采样概率/>为:
(17)
按照重采样概率,从类别索引总数/>中选取/>个类别,利用其语义标签,生成复制粘贴的掩膜;
(18)
其中,/>表示复制粘贴的类别总数,/>为复制粘贴的类别集合。对于copy-paste操作,根据距离远近,调整了粘贴目标和背景的遮挡关系。即,对于/>,按照如下更新/>
(19)
其中,,/>为复制粘贴的源数据和深度标签,/>为复制粘贴后的数据;对标签/>进行相同的更新;
(20)
其中,/>为复制粘贴的源数据和深度标签,/>为复制粘贴后的数据;标签包括深度真值、语义类别标签和清晰图像。
本发明的单目单张模糊图像深度估计方法,利用在模糊线索,建模去模糊的数学模型,结合神经网络进行深度估计,针对性的设计去模糊和基于语义信息的损失函数,并针对样本不均衡问题,利用语义标签提高了小样本的深度估计准确性,利用本发明的单目单张模糊图像深度估计方法,可以有效的提高深度估计的准确性。
附图说明
图1为本发明整个方法的流程示意图。
图2为本发明所提出损失函数的构成示意图。
图3为本发明所提出的自适应学习策略的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
如图1所示,不同于直接使用现成网络进行模糊线索推理的深度估计方案,本方案通过维纳滤波模块建立去模糊图像堆栈,将深度估计问题转化为寻找最清晰图像对应的候选深度值,结合神经网络,设计了基于去模糊图像比对的损失函数和基于语义标签的辅助语义损失函数,并设计了自适应学习策略以增强模型的泛化能力,具体步骤为:
步骤1、将有效深度测量范围等间距取/>个候选深度/>,相机参数为光圈为5.4mm,焦距为15mm,像素大小为5.6um,初始像距为15.03mm,利用公式(3),公式(4),公式(5)建立不同候选深度/>对应的点扩散函数/>
步骤2、根据点扩散函数使用维纳滤波方法对单张模糊图像/>进行去模糊,得到/>,使用公式(6)进行去模糊操作,其中/>
步骤3、将不同候选深度对应的点扩散函数/>进行去模糊得到的/>组成图像堆栈,该堆栈包括32张图像,分别对应距离0.1m到10m,32个候选深度对应的清晰图像,当实际深度和候选深度相等时,图像最清晰。
步骤4、将输入到编码器解码器网络/>中,对深度进行估计,得到/>,选用MSCAN作为编码器,选用矩阵分解模块作为解码器。
步骤5、利用结合/>生成清晰图像,计算清晰图像和实际清晰图像之间的损失,对网络/>进行训练。同时计算语义分割损失,对深度估计的准确率进行进一步提高。最终损失函数通过公式(13)计算,通过超参数调试实验,确定这三个权重对应的值分别为/>,/>
步骤6、为了克服模型训练中数据不均衡的问题,本方法采用语义标签对深度估计准确率低的数据进行自适应学习。其中,/>
如图2所示本发明所提出的损失函数,将模糊图像与点扩散函数进行维纳反卷积,得到去模糊图像堆栈,然后经过编码器,编码器后分为两路,一路进入深度解码器,得到深度预测,经过1范数后得到深度真值;另一路进入语义解码器,得到分割预测,经过交叉熵后得到分割真值;将深度预测与去模糊图像堆栈融合后得到去模糊预测,经过1范数后得到去模糊真值。
利用本发明的单目单张模糊图像深度估计,直接利用相机参数和候选深度信息,推算去模糊图像堆栈,利用该图像堆栈进行深度估计,本发明针对神经网络训练,提出了结合去模糊图像损失和语义损失的复合性损失函数策略,并针对样本不均匀问题提出了基于语义标签的自适应学习策略。直接利用模糊线索,结合所提出的损失函数和自适应学习策略,可以有效的单目单图像深度估计的准确性。本发明公开了基于模糊线索的单目单张模糊图片的深度估计方法,所述单目单张模糊图像深度估计方法包括生成候选深度、计算点扩散函数、生成去模糊图像堆栈、深度估计编码解码器网络设计、去模糊图像损失函数计算、语义辅助损失函数计算、在线评估与自适应数据增强策略,通过对模糊信息的有效提取,更加高效的利用模糊和深度相关性,有效提高深度估计的准确性。图3所示的自适应策略首先模糊图像和点扩散函数经过维纳反卷积后得到去模糊图像堆栈,然后依次经过编码器、解码器得到深度预测,将深度预测和深度真值相减再取绝对值,然后连同语义标签进行均方根计算,得到模糊图像,对模糊图像进行小样本采样,再用于本发明算法的训练更新。
使用本发明所提出的深度估计方法和其他深度估计方法的表现,其中、/> />常用的误差评价指标,越低越好,/>、/>、/>为常用的准确率指标,越高越好。可以看出添加了本发明所提出的深度估计方法之后,整体模型深度估计误差得到了明显的降低,准确率提升明显。该方法使用模糊退化模型对单张图像去模糊成图像堆栈,进而进行深度估计,对提升单目单张图像深度估计的准确率具有重大意义。
表1. 不同方法深度估计的对比

Claims (5)

1.一种单目单张模糊图像深度计算方法,其特征在于,该方法包括:
S1、将有效深度测量范围等间距取/>个候选深度/>,并根据相机参数,建立不同候选深度/>对应的点扩散函数/>;所选取的候选深度/>要求满足以下条件:
(1)
(2)
在已知相机光圈大小和初始像距/>,焦距/>的条件下,对于/>处的模糊光斑的大小为:
(3)
利用高斯模型,计算点扩散函数
(4)
其中,表示图像坐标系中的坐标,/>和模糊光斑半径/>相关,按照下式计算:
(5)
S2、根据点扩散函数使用维纳滤波方法对单张模糊图像/> 进行去模糊,得到去模糊图像/>
S3、将不同候选深度对应的点扩散函数/>进行去模糊得到的去模糊图像/>组成图像堆栈/>
S4、将图像堆栈输入到编码器解码器网络/>中,对深度进行估计,得到深度估计值/>
S5、利用图像堆栈结合深度估计值/>生成清晰图像,计算清晰图像和实际清晰图像之间的损失,对编码器解码器网络/>进行训练;
S6、采用语义标签对深度估计准确率低于设定阈值的数据进行自适应学习;
所述步骤S4和步骤S5中,利用去模糊堆栈和深度估计结果结合清晰图像进行损失函数计算,进而训练网络;
所述步骤S5中的损失函数为:
考虑到模糊线索和深度信息的直接相关性,直接利用深度预测结果结合去模糊图像堆栈/>,实现去模糊的效果,
(7)
(8)
其中,为图像索引,表示利用第/>个候选深度/>对应的点扩散函数,进行维纳去模糊得到的清晰图像,/>表示像素坐标,/>表示对/>向上取整;
进行如下的可导处理;
(9)
其中,为核密度估计窗口的大小,直接利用深度预测结果/>生成清晰图像,选用如下函数作为去模糊的损失函数/>
(10)
相应的,选用交叉熵作为语义分割监督分支的损失函数为;
(11)
其中,将像素坐标简化表示为/>,/>为类别索引,/>为所有语义类别总数,/>为语义标签,/>为预测的语义标签,深度估计的损失函数/>为:
(12)
其中为深度估计的真值,/>为定义的损失函数;则最终的损失函数为:
(13)
其中、/>、/>分别为控制损失/>、/>、/>的权重因子。
2.根据权利要求1所述的一种单目单张模糊图像深度计算方法,其特征在于,所述步骤S2、S3中,利用相机参数和候选深度信息对图像进行去模糊,利用单张图像生成去模糊图像堆栈,利用图像堆栈,进行深度估计。
3.根据权利要求1所述的一种单目单张模糊图像深度计算方法,其特征在于,所述步骤S4和步骤S6中,为了提升小样本数据的深度估计准确性,使用自适应学习策略对深度估计准确率低于阈值的语义类别进行定向增强。
4.根据权利要求2所述的一种单目单张模糊图像深度计算方法,其特征在于,步骤S2和步骤S3中计算去模糊图像的具体方法为:
(6)
其中、/>、/>分别表示傅里叶变换后取共轭、傅里叶变换、傅里叶逆变换,/>为正则化系数,根据实际传感器的信噪比来确认。
5.如权利要求3所述的一种单目单张模糊图像深度计算方法,其特征在于,所述步骤S6的具体方法为:
计算每一个类别的深度估计平均均方根误差
(14)
其中,为训练集中图片的总数量,/>表示图像索引,/>表示类别索引;对大于设定阈值的平均均方根误差/>,使用和平均均方根误差/>成正比的重采样概率/>在下一轮训练中对类别/>进行复制粘贴;具体的,重采样概率/>通过以下的公式计算:
(15)
为了让重采样概率反馈历史训练数据,使用动态平均更新平均均方根误差/>,对于第次训练,更新第n轮指数移动平均均方根误差 />如下:
(16)
其中,为动量系数;最终的采样概率为;
(17)
按照重采样概率,从类别总数/>中选取/>个类别,利用其语义标签,生成复制粘贴的掩膜;
(18)
其中,/>表示复制粘贴的类别总数,/>为复制粘贴的类别集合;根据距离远近,调整了粘贴目标和背景的遮挡关系;即,对于/>,按照如下更新输入的样本数据:
(19)
其中,,/>为复制粘贴的源数据和深度标签,/>为复制粘贴后的数据;对标签/>进行相同的更新;
(20)
其中,/>为复制粘贴的源数据和深度标签,/>为复制粘贴后的数据;标签包括深度真值、语义类别标签和清晰图像。
CN202410012189.XA 2024-01-04 2024-01-04 一种单目单张模糊图像深度计算方法 Active CN117522939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410012189.XA CN117522939B (zh) 2024-01-04 2024-01-04 一种单目单张模糊图像深度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410012189.XA CN117522939B (zh) 2024-01-04 2024-01-04 一种单目单张模糊图像深度计算方法

Publications (2)

Publication Number Publication Date
CN117522939A CN117522939A (zh) 2024-02-06
CN117522939B true CN117522939B (zh) 2024-03-19

Family

ID=89751671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410012189.XA Active CN117522939B (zh) 2024-01-04 2024-01-04 一种单目单张模糊图像深度计算方法

Country Status (1)

Country Link
CN (1) CN117522939B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551050A (zh) * 2015-12-29 2016-05-04 深圳市未来媒体技术研究院 一种基于光场的图像深度估计方法
CN108459417A (zh) * 2018-02-05 2018-08-28 华侨大学 一种单目窄带多光谱立体视觉系统及其使用方法
CN110996104A (zh) * 2019-12-05 2020-04-10 华中科技大学 一种光场焦点堆栈图像序列编、解码方法、装置及系统
CN112785636A (zh) * 2021-02-18 2021-05-11 上海理工大学 一种多尺度增强式的单目深度估计方法
CN113838114A (zh) * 2021-09-22 2021-12-24 中南大学 一种基于边缘散焦追踪的高炉料面深度估计方法及系统
WO2022103400A1 (en) * 2020-11-13 2022-05-19 Google Llc Defocus blur removal and depth estimation using dual-pixel image data
WO2022241333A2 (en) * 2022-09-12 2022-11-17 Futurewei Technologies, Inc. System and methods for depth sensing with auxiliary information by a monocular camera
CN116051391A (zh) * 2022-08-27 2023-05-02 荣耀终端有限公司 一种图像处理方法及电子设备
CN116843740A (zh) * 2023-02-13 2023-10-03 电子科技大学 一种无偏振片液晶透镜深度估计方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551050A (zh) * 2015-12-29 2016-05-04 深圳市未来媒体技术研究院 一种基于光场的图像深度估计方法
CN108459417A (zh) * 2018-02-05 2018-08-28 华侨大学 一种单目窄带多光谱立体视觉系统及其使用方法
CN110996104A (zh) * 2019-12-05 2020-04-10 华中科技大学 一种光场焦点堆栈图像序列编、解码方法、装置及系统
WO2022103400A1 (en) * 2020-11-13 2022-05-19 Google Llc Defocus blur removal and depth estimation using dual-pixel image data
CN112785636A (zh) * 2021-02-18 2021-05-11 上海理工大学 一种多尺度增强式的单目深度估计方法
CN113838114A (zh) * 2021-09-22 2021-12-24 中南大学 一种基于边缘散焦追踪的高炉料面深度估计方法及系统
CN116051391A (zh) * 2022-08-27 2023-05-02 荣耀终端有限公司 一种图像处理方法及电子设备
WO2022241333A2 (en) * 2022-09-12 2022-11-17 Futurewei Technologies, Inc. System and methods for depth sensing with auxiliary information by a monocular camera
CN116843740A (zh) * 2023-02-13 2023-10-03 电子科技大学 一种无偏振片液晶透镜深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MEFNET: Multi-expert fusion network for RGB-Thermal semantic segmentation;lai wenjie;《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》;20230706;1-11 *
基于失焦模糊特性的焦点堆栈深度估计方法;周萌;《计算机应用》;20230217;1-9 *
无偏振片液晶透镜深度估计;赖文杰;《光学学报》;20230725;第43卷(第14期);169-180 *

Also Published As

Publication number Publication date
CN117522939A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN110427839B (zh) 基于多层特征融合的视频目标检测方法
CN110135500B (zh) 一种基于自适应深度特征滤波器的多场景下目标跟踪方法
CN112164094B (zh) 一种基于孪生网络的快速视频目标跟踪方法
CN109635763B (zh) 一种人群密度估计方法
CN113221903B (zh) 跨域自适应语义分割方法及系统
CN111860504A (zh) 基于深度学习的视觉多目标跟踪方法及装置
CN110276784B (zh) 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法
CN113052873A (zh) 一种在线自监督学习场景适应的单目标跟踪方法
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
CN117372463A (zh) 一种用于电力部件图像的图像分割优化方法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN113870330B (zh) 基于特定标签和损失函数的孪生视觉跟踪方法
CN117522939B (zh) 一种单目单张模糊图像深度计算方法
CN116823659A (zh) 一种基于深度特征提取的微光图像增强方法
CN113221858B (zh) 人脸识别对抗攻击的防御方法及系统
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN116343017A (zh) 基于自适应交叉注意力的水下目标跟踪方法与系统
Okamoto et al. Generating smooth interpretability map for explainable image segmentation
CN111914751B (zh) 一种图像人群密度识别检测方法及系统
CN112215868B (zh) 基于生成对抗网络的去除手势图像背景的方法
CN112907464A (zh) 一种水下热扰动图像复原方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant