CN114663578A - 一种基于深度学习的多目标场景偏振三维成像方法 - Google Patents

一种基于深度学习的多目标场景偏振三维成像方法 Download PDF

Info

Publication number
CN114663578A
CN114663578A CN202210135322.1A CN202210135322A CN114663578A CN 114663578 A CN114663578 A CN 114663578A CN 202210135322 A CN202210135322 A CN 202210135322A CN 114663578 A CN114663578 A CN 114663578A
Authority
CN
China
Prior art keywords
target
polarization
scene
network module
dimensional imaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210135322.1A
Other languages
English (en)
Inventor
李轩
宋家伟
邵晓鹏
刘飞
杨奎
蔡玉栋
张仕超
闫明宇
冯怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Xidian University
Original Assignee
Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology, Xidian University filed Critical Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Priority to CN202210135322.1A priority Critical patent/CN114663578A/zh
Publication of CN114663578A publication Critical patent/CN114663578A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习的多目标场景偏振三维成像方法,包括:利用偏振三维成像系统获取多目标场景不同偏振角度的场景图像;构建神经网络;对神经网络中的清晰化网络模块和模糊距离估计网络模块分别进行训练;利用经训练的神经网络模型获得多目标场景不同偏振角度的场景图像中不同的目标的深度估计结果和清晰目标图像;获取不同目标物体表面的偏振度,以及不同目标物体表面入射光的方位角和入射角;对多目标偏振三维成像场景中的偏振求解得到的法向量进行校正;利用不同目标的方位角和入射角信息,实现多目标场景下物体表面三维轮廓的重建。本发明将深度学习与偏振三维成像相结合,实现了多目标场景的高精度偏振三维成像。

Description

一种基于深度学习的多目标场景偏振三维成像方法
技术领域
本发明属于光学成像技术领域,具体涉及一种基于深度学习的多目标场景偏振三维成像方法。
背景技术
偏振三维成像作为对目标三维重建的方法之一,有着设备简单、无需对光源进行调制以及目标三维重建高频信息丰富等特点,已经成为三维成像技术领域中最具发展潜力的方法之一。同时,在计算机视觉领域,深度神经网络通过训练可以获得物体的深度信息,并展现出良好的性能。然而,对于多目标场景进行偏振三维重建时,由于场景中存在两个及以上的待重建目标,利用单相机的光学探测系统,以及法向量反演三维轮廓信息的方法,无法对场景中多个目标的空间关系进行准确获取,造成在不同目标边缘位置处的重建出现畸变。因此需要进一步提高三维重建的重建效果,降低结构的复杂度,使更广泛的应用成为可能。
目前提出了一种基于体素的神经网络三维重建方法,该方法通过设计一个三维递归重建神经网络(3D-R2N2),采用深度学习从2D图像到其对应的3D体素模型的映射,模型结构为Encoder(编辑器)+3D LSTM(Long short-term memory,长短期记忆)神经网络+Decoder(解码器),通过数据集的训练,使得对网络输入单张或多张RGB图像,可以输出目标在体素空间的三维表达。该方法既适用单视图,也适用多视图,如果是多视图,则将多视图看作一个序列,输入到LSTM神经网络当中,输出多个结果。该方法的优点是该网络不需要任何图像注释或分类标签来进行训练或测试,且只需要单张彩色图片就可以生成三维图像,该模型可以在图片特征点过少或图片视角数量不足的情况下进行三维重建。但是,基于体素的神经网络三维重建方法存在的缺点在于重建后的模型精度低,无法完成精细的三维重建任务。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于深度学习的多目标场景偏振三维成像方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于深度学习的多目标场景偏振三维成像方法,包括:
S1:利用偏振三维成像系统获取多目标场景不同偏振角度的场景图像;
S2:构建神经网络,所述神经网络包括清晰化网络模块和模糊距离估计网络模块,其中,所述清晰化网络模块用于对输入的阈值分割后的偏振图像中不同物距处目标进行清晰化重建,获得清晰图像,所述模糊距离估计网络模块用于将所述模糊图像与清晰图像之间的映射关系作为多目标场景中的先验信息进行目标距离估计,获得不同目标与相机之间距离的估计值;
S3:对所述神经网络中的清晰化网络模块和模糊距离估计网络模块分别进行训练,获得经训练的神经网络模型;
S4:利用所述经训练的神经网络模型获得多目标场景不同偏振角度的场景图像中不同的目标的深度估计结果和清晰目标图像,识别不同目标物体;
S5:获取所述不同目标物体表面的偏振度,以及不同目标物体表面入射光的方位角和入射角;
S6:对多目标偏振三维成像场景中偏振求解得到的法向量进行校正,获得校正后的方位角信息;
S7:利用不同目标的方位角和入射角信息,实现多目标场景下物体表面三维轮廓的重建。
在本发明的一个实施例中,所述S1包括:
S11:利用所述偏振三维成像系统获得所述多目标复杂场景中目标物体表面的反射光,分别获取0°,45°,90°和135°四个角度下物体场景的原始偏振图像I′0、I′45、I′90、I′135
S12:利用阈值分割算法对所述原始偏振图像I′0、I′45、I′90、I′135中的物体和背景进行分割,获得阈值分割后的偏振图像I0、I45、I90、I135
在本发明的一个实施例中,所述清晰化网络模块包括相互连接的编码单元和解码单元,用于通过引入模糊边缘注意力机制对输入的模糊图像进行编码-解码过程,实现对所述模糊图像中的模糊目标区域进行清晰化重建。
在本发明的一个实施例中,所述神经网络模型的损失函数包括所述清晰化网络模块的损失函数和所述模糊距离估计网络模块的损失函数,其中,所述清晰化网络模块的损失函数为:
Figure BDA0003504355820000031
其中,N表示输入的真实模糊图像的数目,α表示调整L1损失的权重值,SSIM(Mf,M)表示输入的真实模糊图像M与清晰化网络模块最终输出的清晰图像Mf的结构相似度结果;
所述模糊距离估计网络模块的损失函数为:
Figure BDA0003504355820000032
其中,
Figure BDA0003504355820000041
表示所述清晰化网络模块中提供的先验信息在第k级条件下的输出结果,β为系数,
Figure BDA0003504355820000042
表示经过所述模糊距离估计网络模块的最终融合图像,
Figure BDA0003504355820000043
Figure BDA0003504355820000044
表示图像I经过所述清晰化网络模块第k级的输出结果,Φrd(I)表示图像I经过所述模糊距离估计网络模块的输出结果,||||2表示求二范数。
在本发明的一个实施例中,所述S3包括:
S31:获取第一训练数据集,所述第一训练数据集用于对所述清晰化网络模块进行训练,所述第一训练数据集中包括具有不同模糊程度的多张目标图像;
S32:利用所述第一训练数据集对所述清晰化网络模块进行训练;
S33:获得第二训练数据集,所述第二训练数据集用于对所述模糊距离估计网络模块进行训练,其中,所述第二训练数据集包括具有不同物距的多张目标图像;
S34:利用所述第二训练数据集对所述模糊距离估计网络模块进行训练,进而获得经训练的神经网络模型。
在本发明的一个实施例中,所述S5包括:
S51:利用场景不同目标物体的四幅偏振子图像中的强度信息计算每个目标物体表面的偏振度;
S52:利用场景不同目标物体的强度变化信息和所述偏振度获得不同目标物体表面入射光的方位角和入射角。
在本发明的一个实施例中,所述S6包括:
利用目标反射光强度梯度场与轮廓之间的变化关系,将目标物体表面的法向量信息转化为梯度场信息,则将多目标偏振三维成像场景中的法向量多值性问题的校正过程表示为:
Figure BDA0003504355820000051
其中,
Figure BDA0003504355820000052
表示利用目标表面强度信息求解得到的梯度场变化参考信息,Gpolar表示利用目标反射光偏振信息求解得到的梯度场参量;
Figure BDA0003504355820000053
则利用目标反射光偏振特性直接求解得到的微面元法向量信息准确,若
Figure BDA0003504355820000054
则将方位角数值进行180°翻转。
本发明的另一方面提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序用于执行上述实施例中任一项所述基于深度学习的多目标场景偏振三维成像方法的步骤。
本发明的又一方面提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上述实施例中任一项所述基于深度学习的多目标场景偏振三维成像方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明基于深度学习的多目标场景偏振三维成像方法,在单相机偏振三维成像模型基础上,通过构建不同深度下目标边缘模糊程度与物距之间的映射关系,利用基于深度学习的方法,获得多目标的空间位置关系信息,为偏振三维成像在多目标场景下提供目标的空间位置先验信息,实现对多目标场景下的漫反射目标偏振三维成像。
2、本发明通过设计一个深度神经网络,对输入的在不同空间位置的多目标图像进行离焦清晰化,并进行空间位置估计,为多目标偏振三维成像提供先验信息,实现了多目标场景的高精度偏振三维成像。将深度学习与偏振三维成像相结合,避免了需要过多数据集来训练,且数据较为简单,运算速度快,同时具有利用深度学习的强统计特性和偏振三维成像的高精度、高频细节丰富的优势,使得其在结构简单和性能较低的硬件平台的应用成为可能。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于深度学习的多目标场景偏振三维成像方法的流程图;
图2是本发明实施例提供的一种多目标复杂场景偏振三维成像系统的结构示意图;
图3是本发明实施例提供的一种神经网络模型的结构示意图;
图4是本发明实施例提供的一种编码单元的结构示意图;
图5是本发明实施例提供的一种解码单元的结构示意图;
图6是本发明实施例提供的一种物体表面入射光的方位角和入射角的示意图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于深度学习的多目标场景偏振三维成像方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
请参见图1,图1是本发明实施例提供的一种基于深度学习的多目标场景偏振三维成像方法的流程图。该成像方法包括:
S1:利用偏振三维成像系统获取多目标场景不同偏振角度的场景图像。
具体地,首先搭建用于多目标复杂场景的偏振三维成像系统。请参见图2,图2是本发明实施例提供的一种多目标复杂场景偏振三维成像系统的结构示意图。该成像系统包括偏振探测器和位于偏振探测器前方的滑轨,不同目标设置在滑轨上,且能够沿滑轨前后滑动。随后利用所述成像系统获取多目标场景不同角度的场景图像。
具体地,所述S1包括:
S11:利用所述偏振三维成像系统获得所述多目标复杂场景中目标物体表面的反射光,分别获取0°,45°,90°和135°四个角度下物体场景的偏振图像I′0、I′45、I′90、I′135
具体地,在自然光环境中,利用所述偏振三维成像系统偏振探测器中的CMOS相机采集物体表面的反射光,从而0°,45°,90°和135°四个角度下物体场景的偏振图像I′0、I′45、I′90、I′135
S12:利用阈值分割算法对所述偏振图像I′0、I′45、I′90、I′135中的物体和背景进行分割,获得阈值分割后的偏振图像I0、I45、I90、I135
具体地,为减少计算量,需要对获取到的物体场景偏振图像和场景深度信息分别进行分割,将物体和背景分开,去除背景部分,因此本实施例采用阈值分割算法将物体场景的偏振图像物体和背景分割开。阈值分割后的偏振图像分别为I0、I45、I90、I135
S2:构建神经网络并对所述神经网络进行训练,获得经训练的神经网络模型。
请参见图3,图3是本发明实施例提供的一种神经网络模型的结构示意图。该神经网络主要由清晰化网络模块和模糊距离估计网络模块组成,其中,所述清晰化网络模块用于对输入的阈值分割后的偏振图像进行清晰化重建,获得清晰图像;所述模糊距离估计网络模块用于将所述模糊图像与清晰图像之间的映射关系作为多目标场景中的先验信息进行目标距离估计,获得不同目标与相机之间距离的估计值。
本实施例采用监督学习方法,利用图像模糊核(缘模糊半径)与图像物距之间存在的映射关系,实现不同物距条件下的多目标图像清晰化和不同空间位置处目标与相机之间距离的估计。
具体地,首先搭建模糊-清晰的端对端(End-to-End)网络架构,即清晰化网络模块。具体地,本实施例的清晰化网络模块1包括相互连接的编码单元11和解码单元12,用于通过引入模糊边缘注意力机制对输入的模糊图像进行编码-解码过程,实现对模糊目标区域进行清晰化重建。进一步地,请参见图2,编码单元11包括依次连接的多个下采样单元,输入解码单元11的原始图像经过所述多个下采样单元的一系列降维的特征学习,得到一个固定的高度抽象但是低维的特征向量,如图3所示,将输入的1024×1024的图像下采样成32×32的特征图像。进一步地,请参见图4,图4是本发明实施例提供的一种下采样单元的结构示意图。所述多个下采样单元的结构均相同,均包括自数据输入端依次设置的卷积层、归一化层、激活层、卷积层、归一化层、激活层和池化层,以对输入的图像进行降维处理,获得降维后的特征图像。
进一步地,本实施例的解码单元12包括依次连接的多个上采样单元,输入解码单元12的图像经过所述多个上采样单元的一系列升维的特征学习,得到一个与原始图像尺寸相同的输出图像,如图3所示,将编码单元11输出的32×32图像还原成1024×1024的清晰图像。请参见图5,图5是本发明实施例提供的一种上采样单元的结构示意图。所述上采样单元包括自数据输入端依次设置的转置卷积层、归一化层、激活层、卷积层、归一化层、激活层、卷积层、归一化层和激活层。
当对多目标场景内的多个模糊区域的清晰化过程重建完成后,将模糊图像与清晰图像之间的映射关系作为多目标场景中的先验信息,输入之后的模糊距离估计网络模块中进行目标距离估计,以实现在利用较为简单的网络架构条件下,仍然能够对多目标场景中的不同空间位置处的物体进行准确的距离估计,获得不同物体与CCD相机之间的距离,为多目标场景的三维重建过程提供可靠的距离信息。
进一步地,该神经网络模型的损失函数被定义为离焦-清晰化估计和多目标距离估计的预测组合。对于离焦-清晰化估计,利用结构相似性(Structural Similarity,SSIM)定义模糊图像清晰化过程的损失函数,该过程将输入的真实模糊图像M与清晰化网络模块最终输出的清晰图像Mf进行比较,该过程可以表示为:
Figure BDA0003504355820000101
其中,N表示输入的真实模糊图像的数目,α表示调整L1损失的权重值,SSIM可以被定义为:
Figure BDA0003504355820000102
其中,μ表示图像的平均亮度,即,μMf表示输出清晰图像的平均亮度,μM表示输入真实模糊图像M的平均亮度,C1=(K1L)2,C2=(K2L)2用于防止分母为零,K1和K2均为常数,L表示图像的灰度动态范围。σ表示图像明暗变化的程度,即图像像素值的标准差。
Figure BDA0003504355820000103
为清晰化网络模块最终输出的清晰图像Mf的方差,
Figure BDA0003504355820000104
为输入的真实模糊图像M的方差,
Figure BDA00035043558200001010
为真实模糊图像M与清晰图像Mf的协方差。优选地,K1=0.01,K2=0.03。
在场景多目标距离估计过程中,假设在清晰化网络模块输出的结果中得到的深度信息为Φrd,图像经过模糊距离估计网络模块后得到的距离估计结果为Φd。在清晰化网络模块中,清晰目标的边缘阶跃函数与模糊时的边缘阶跃函数之间存在关于物距的映射关系,因此把该清晰化网络模块输出的信息作为模糊距离估计网络模块中进行距离估计的先验信息,通过深度蒸馏网络级联技术,将先验信息引入模糊距离估计网络模块中,该模糊距离估计网络模块中第k级的距离估计损失函数可以表示为:
Figure BDA0003504355820000105
其中,
Figure BDA0003504355820000106
表示所述清晰化网络模块中提供的先验信息在第k级条件下的输出结果,β为系数,通常取值为1,
Figure BDA0003504355820000107
表示经过所述模糊距离估计网络模块的最终融合图像,
Figure BDA0003504355820000108
Figure BDA0003504355820000109
表示图像I经过所述清晰化网络模块第k级的输出结果,Φrd(I)表示图像I直接经过所述模糊距离估计网络模块的输出结果,||||2表示求二范数。
需要说明的是,如上所述,本实施例的清晰化网络模块1包括相互连接的编码单元11和解码单元12,编码单元11包括依次连接的多个下采样单元,解码单元12包括依次连接的多个上采样单元,每个下采样单元和每个上采样单元均为该清晰化网络模块1的一级,该清晰化网络模块1的的级数为下采样单元和上采样单元的个数总和。如图3所示,本实施例的清晰化网络模块1包括9级。
S3:对所述神经网络中的清晰化网络模块和模糊距离估计网络模块分别进行训练,获得经训练的神经网络模型。
具体地,所述S3包括:
S31:获取第一训练数据集,所述第一训练数据集用于对所述清晰化网络模块进行训练,其中,所述第一训练数据集中包括具有不同模糊程度的多张目标图像。
具体地,移动所述成像系统滑轨上的滑块,带动目标从距离所述偏振探测器610mm位置处向1010mm位置处移动。通过调整相机的焦距,使得能够对物距为610mm处的目标表面进行清晰成像,随着滑块向远离该偏振探测器的方向移动,对距离间隔为10mm的场景进行偏振图像信息获取。随着探测距离的不断增加,目标边缘处的模糊程度越来越高,这些模糊信息将被利用并输入到所述神经网络模型进行训练。此外,对于模糊图像清晰化过程,同样在间隔为10mm的位置处采集不同物距下的目标信息,并且在不同位置处随机调整相机镜头,使得其在焦距不变的情况下,获取得到不同模糊程度的目标图像,以确保在实际应用过程中对目标清晰化具有强鲁棒性,该过程中共采集得到2952张训练图像。
S32:利用所述第一训练数据集对所述清晰化网络模块进行训练。
具体地,本实施例的清晰化网络模块和模糊距离估计网络模块采用分开训练的方式,首先固定模糊距离估计网络模块,训练清晰化网络模块。将得到的第一训练数据集中的图像进行预处理,调整为1024×1024分辨率后,输入所述清晰化网络模块进行训练。训练完成后得到能够对输入的模糊图像进行清晰化的清晰化网络模块。
S33:获得第二训练数据集,所述第二训练数据集用于对所述模糊距离估计网络模块进行训练,其中,所述第二训练数据集包括具有不同物距的多张目标图像。
具体地,在模糊距离估计网络模块的训练图像获取过程中,保持偏振探测器的参数不变,对不同物距下场景中的目标进行图像获取,其相应的物距可以表示为D∈[610mm,10mm,1010mm],获取得到492张训练图像,共同组成第二训练数据集。
S34:利用所述第二训练数据集对所述模糊距离估计网络模块进行训练,进而获得经训练的神经网络模型。
具体地,固定清晰化网络模块的参数,将上述第二训练数据集中的492张训练图像先预处理为1024×1024分辨率,随后输入到经训练的清晰化网络模块中,得到清晰化后的图像输出,将输入的原始图像与清晰化网络模块输出所对应的图片作为映射关系,输出到所述模糊距离估计网络模块进行训练,输出结果为对目标物体的深度估计。训练好的模糊距离估计网络模块具有预测目标边缘深度信息的功能。
通过对清晰化网络模块和模糊距离估计网络模块分别进行训练,获得经训练的神经网络模型。
S4:利用所述经训练的神经网络模型获得多目标场景不同偏振角度的场景图像中不同的目标的深度估计结果,识别不同目标物体。
具体地,将步骤S1获得的多目标场景不同偏振角度的场景图像输入所述经训练的神经网络模型中,即可获得图像中不同目标物体的深度估计结果,为重建过程提供空间先验信息,若轮廓深度有突变,则表示此处另一个目标物体,从而可以识别出图像中的不同目标物体。
S5:获取所述不同目标物体表面的偏振度,以及不同目标物体表面入射光的方位角和入射角。
进一步地,步骤S5包括:
S51:利用场景不同目标物体的四幅偏振子图像中的强度信息计算每个目标物体表面的偏振度。
具体地,Stokes矢量表示法是一种常用的偏振特性表示方法,指一束光的偏振状态可以由四个固定参数完全描述,这组参数称为Stokes矢量。由于每个Stokes参数都是用光强来表示,因此可以通过一定的光电仪器来直接进行测量。Stokes矢量可表示为:
Figure BDA0003504355820000131
其中,Ex和Ey分别表示物体表面反射光的电场矢量在x轴和y轴上的分量。x轴和y轴表示两个正交的方向,x轴是以偏振探测器为基准。IL-IR表示左旋圆偏振光强与右旋圆偏振光强之差。Re<>表示取实部,Im<>表示取虚部。
而利用Stokes矢量表示的偏振度P的计算公式为:
Figure BDA0003504355820000141
综上,根据偏振度的计算公式即可获得场景图像中不同目标物体表面的偏振度。
S52:利用场景不同目标物体的强度变化信息和所述偏振度,获得不同目标物体表面入射光的方位角
Figure BDA0003504355820000144
和入射角θ,即物体表面法线的极坐标
Figure BDA0003504355820000145
和θ,如图6所示。
在本实施例中,步骤S52包括:
S521:利用不同角度的偏振图像I0、I45、I90、和I135,计算得到物体表面入射光的方位角
Figure BDA0003504355820000142
计算公式为:
Figure BDA0003504355820000143
需要说明的是,由于在转动偏振探测器中偏振片的过程,两个间隔180°的旋转角度得到的偏振图像的光强度是一样的,因此在计算结果中,待重建物体表面入射光的入射方位角与实际入射光的入射方位角存在180°的不确定性,从而导致由偏振信息得到的物体表面法线的方向不确定,因此需要校正表面法线n1
S522:利用不同角度的偏振图像I0、I45、I90、和I135,计算得到物体表面入射光的入射角θ。
如上所述,利用经训练的神经网络模型对不同目标轮廓进行距离估计,获得不同空间位置处目标与相机之间距离的估计值,为重建过程提供空间先验信息,若轮廓深度有突变,则表示此处另一个目标物体,从轮廓边沿开始对目标的天顶角θT和方位角
Figure BDA0003504355820000154
进行求解,对于多个目的的场景,该过程可以表示为:
Figure BDA0003504355820000151
其中,
Figure BDA0003504355820000152
表示不同偏振方位角强度图像,T表示不同空间位置处的各个不同的连续表面目标,X表示[0,45,90,135],PT表示不同目标物体的偏振度,n是不同目标物体的折射率。
Figure BDA0003504355820000153
其中,Λ表示一个取值为{0,1}的二元算子。利用上式可以对多目标场景中物体表面的方位角和天顶角信息进行求解,实现对目标每一个像素点法向量信息的获取。但是在该过程中,仍然存在法向量的多值性问题,需要确定二元算子Λ的取值,实现对目标表面法向量方向的正确求解。
S6:对多目标偏振三维成像场景中的法向量进行校正,获得校正后的方位角信息。
具体地,利用目标反射光强度梯度场与其轮廓之间的变化关系,能够为二元算子Λ的取值提供参考。将法向量信息转化为梯度场信息,则多目标偏振三维成像场景中的法向量多值性问题的校正过程可以表示为:
Figure BDA0003504355820000161
其中,
Figure BDA0003504355820000162
表示利用目标表面强度信息求解得到的梯度场变化参考信息,Gpolar表示利用目标反射光偏振信息求解得到的梯度场参量。若
Figure BDA0003504355820000163
说明估计的方位角准确,即利用目标反射光偏振特性直接求解得到的微面元法向量信息准确;相反,若
Figure BDA0003504355820000164
则需要对利用偏振特性求解得到的方位角进行校正,实现方位角数值进行180°翻转。对于目标表面的微面元的方位角信息校正可以通过下式表示:
Figure BDA0003504355820000165
其中,
Figure BDA0003504355820000166
表示经过校正后的目标微面元方位角信息,
Figure BDA0003504355820000167
表示未矫正前的方位角。最终,目标表面微面元的法向量信息可以唯一求解。
S7:利用不同目标的方位角和入射角信息,实现目标三维轮廓的重建。
具体地,针对多目标复杂场景下的目标三维轮廓重建,该积分过程可以表示为:
Z(u)={Z1(U),Z2(U),...,ZT(U)}
其中,ZT(U)表示多目标场景中的第T个目标,可以写成:
Figure BDA0003504355820000168
其中,MT和NT分别表示不同空间位置处目标所占像素数,其与探测器获取得到的整幅图像像素数的关系,有{MT,NT}∈{M,N},
Figure BDA0003504355820000171
表示网络模型获取得到的不同目标物距信息,ε表示与目标真实高度信息相关的尺度因子。μ和ν分别表示离散微算子在x方向和y方向上的傅里叶系数,至此能够实现对多目标复杂场景条件下的偏振三维成像。
本发明实施例基于深度学习的多目标场景偏振三维成像方法,在单相机偏振三维成像模型基础上,通过构建不同深度下目标边缘模糊程度与物距之间的映射关系,利用基于深度学习的方法,获得多目标的空间位置关系信息,为偏振三维成像在多目标场景下提供目标的空间位置先验信息,实现对多目标场景下的漫反射目标偏振三维成像。此外,本实施例通过设计一个深度神经网络,对输入的在不同空间位置的多目标图像进行离焦清晰化,并进行空间位置深度估计,为多目标偏振三维成像提供先验信息,实现了多目标场景的高精度偏振三维成像。将深度学习与偏振三维成像相结合,避免了需要过多数据集来训练,且数据较为简单,运算速度快,同时具有利用深度学习的强统计特性和偏振三维成像的高精度、高频细节丰富的优势,使得其在结构简单和性能较低的硬件平台的应用成为可能。
本发明的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序用于执行上述实施例中所述基于深度学习的多目标场景偏振三维成像方法的步骤。本发明的再一方面提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上述实施例所述基于深度学习的多目标场景偏振三维成像方法的步骤。具体地,上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于深度学习的多目标场景偏振三维成像方法,其特征在于,包括:
S1:利用偏振三维成像系统获取多目标场景不同偏振角度的场景图像;
S2:构建神经网络,所述神经网络包括清晰化网络模块和模糊距离估计网络模块,其中,所述清晰化网络模块用于对输入的阈值分割后的偏振图像中不同物距处目标进行清晰化重建,获得清晰图像,所述模糊距离估计网络模块用于将所述模糊图像与清晰图像之间的映射关系作为多目标场景中的先验信息进行目标距离估计,获得不同目标与相机之间距离的估计值;
S3:对所述神经网络中的清晰化网络模块和模糊距离估计网络模块分别进行训练,获得经训练的神经网络模型;
S4:利用所述经训练的神经网络模型获得多目标场景不同偏振角度的场景图像中不同的目标的深度估计结果和清晰目标图像,识别不同目标物体;
S5:获取所述不同目标物体表面的偏振度,以及不同目标物体表面入射光的方位角和入射角;
S6:对多目标偏振三维成像场景中偏振求解得到的法向量进行校正,获得校正后的方位角信息;
S7:利用不同目标的方位角和入射角信息,实现多目标场景下物体表面三维轮廓的重建。
2.根据权利要求1所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述S1包括:
S11:利用所述偏振三维成像系统获得所述多目标复杂场景中目标物体表面的反射光,分别获取0°,45°,90°和135°四个角度下物体场景的原始偏振图像I′0、I′45、I′90、I′135
S12:利用阈值分割算法对所述原始偏振图像I′0、I′45、I′90、I′135中的物体和背景进行分割,获得阈值分割后的偏振图像I0、I45、I90、I135
3.根据权利要求1所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述清晰化网络模块包括相互连接的编码单元和解码单元,用于通过引入模糊边缘注意力机制对输入的模糊图像进行编码-解码过程,实现对所述模糊图像中的模糊目标区域进行清晰化重建。
4.根据权利要求3所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述神经网络模型的损失函数包括所述清晰化网络模块的损失函数和所述模糊距离估计网络模块的损失函数,其中,所述清晰化网络模块的损失函数为:
Figure FDA0003504355810000021
其中,N表示输入的真实模糊图像的数目,α表示调整L1损失的权重值,SSIM(Mf,M)表示输入的真实模糊图像M与清晰化网络模块最终输出的清晰图像Mf的结构相似度结果;
所述模糊距离估计网络模块的损失函数为:
Figure FDA0003504355810000022
其中,
Figure FDA0003504355810000023
表示所述清晰化网络模块中提供的先验信息在第k级条件下的输出结果,β为系数,
Figure FDA0003504355810000024
表示经过所述模糊距离估计网络模块的最终融合图像,
Figure FDA0003504355810000025
Figure FDA0003504355810000026
表示图像I经过所述清晰化网络模块第k级的输出结果,Φrd(I)表示图像I经过所述模糊距离估计网络模块的输出结果,║ ║2表示求二范数。
5.根据权利要求3所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述S3包括:
S31:获取第一训练数据集,所述第一训练数据集用于对所述清晰化网络模块进行训练,所述第一训练数据集中包括具有不同模糊程度的多张目标图像;
S32:利用所述第一训练数据集对所述清晰化网络模块进行训练;
S33:获得第二训练数据集,所述第二训练数据集用于对所述模糊距离估计网络模块进行训练,其中,所述第二训练数据集包括具有不同物距的多张目标图像;
S34:利用所述第二训练数据集对所述模糊距离估计网络模块进行训练,进而获得经训练的神经网络模型。
6.根据权利要求3所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述S5包括:
S51:利用场景不同目标物体的四幅偏振子图像中的强度信息计算每个目标物体表面的偏振度;
S52:利用场景不同目标物体的强度变化信息和所述偏振度获得不同目标物体表面入射光的方位角和入射角。
7.根据权利要求3所述的基于深度学习的多目标场景偏振三维成像方法,其特征在于,所述S6包括:
利用目标反射光强度梯度场与轮廓之间的变化关系,将目标物体表面的法向量信息转化为梯度场信息,则将多目标偏振三维成像场景中的法向量多值性问题的校正过程表示为:
Figure FDA0003504355810000041
其中,
Figure FDA0003504355810000042
表示利用目标表面强度信息求解得到的梯度场变化参考信息,Gpolar表示利用目标反射光偏振信息求解得到的梯度场参量;
Figure FDA0003504355810000043
则利用目标反射光偏振特性直接求解得到的微面元法向量信息准确,若
Figure FDA0003504355810000044
则将方位角数值进行180°翻转。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1至7中任一项所述基于深度学习的多目标场景偏振三维成像方法的步骤。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述基于深度学习的多目标场景偏振三维成像方法的步骤。
CN202210135322.1A 2022-02-14 2022-02-14 一种基于深度学习的多目标场景偏振三维成像方法 Pending CN114663578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210135322.1A CN114663578A (zh) 2022-02-14 2022-02-14 一种基于深度学习的多目标场景偏振三维成像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210135322.1A CN114663578A (zh) 2022-02-14 2022-02-14 一种基于深度学习的多目标场景偏振三维成像方法

Publications (1)

Publication Number Publication Date
CN114663578A true CN114663578A (zh) 2022-06-24

Family

ID=82027118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210135322.1A Pending CN114663578A (zh) 2022-02-14 2022-02-14 一种基于深度学习的多目标场景偏振三维成像方法

Country Status (1)

Country Link
CN (1) CN114663578A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147394A (zh) * 2022-07-21 2022-10-04 重庆西山科技股份有限公司 模型训练方法、图像处理方法、内窥镜装置和存储介质
CN116953680A (zh) * 2023-09-15 2023-10-27 成都中轨轨道设备有限公司 一种基于图像的目标物实时测距方法及系统
CN117455898A (zh) * 2023-12-08 2024-01-26 合肥锐视医疗科技有限公司 一种基于深度学习的生物体内部结构生成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147394A (zh) * 2022-07-21 2022-10-04 重庆西山科技股份有限公司 模型训练方法、图像处理方法、内窥镜装置和存储介质
CN116953680A (zh) * 2023-09-15 2023-10-27 成都中轨轨道设备有限公司 一种基于图像的目标物实时测距方法及系统
CN116953680B (zh) * 2023-09-15 2023-11-24 成都中轨轨道设备有限公司 一种基于图像的目标物实时测距方法及系统
CN117455898A (zh) * 2023-12-08 2024-01-26 合肥锐视医疗科技有限公司 一种基于深度学习的生物体内部结构生成方法
CN117455898B (zh) * 2023-12-08 2024-03-22 合肥锐视医疗科技有限公司 一种基于深度学习的生物体内部结构生成方法

Similar Documents

Publication Publication Date Title
CN114663578A (zh) 一种基于深度学习的多目标场景偏振三维成像方法
Kwon et al. Data-driven depth map refinement via multi-scale sparse representation
Hsu et al. Single image dehazing using wavelet-based haze-lines and denoising
Li et al. Multifocus Image Fusion Using Wavelet‐Domain‐Based Deep CNN
CN111462012A (zh) 一种基于条件生成对抗网络的sar图像仿真方法
CN113450396A (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN116958419A (zh) 一种基于波前编码的双目立体视觉三维重建系统和方法
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
Rojas et al. A review on image inpainting techniques and datasets
Lyapustin et al. Towards true detail restoration for super-resolution: A benchmark and a quality metric
Ramesh et al. Comparative performance evaluation of various fringe thinning algorithms in photomechanics
Gao et al. Variable exponent regularization approach for blur kernel estimation of remote sensing image blind restoration
Li et al. Super‐Resolution Reconstruction of Underwater Image Based on Image Sequence Generative Adversarial Network
CN114882235A (zh) 基于图像数据特征的红外图像目标自动识别系统及方法
CN115410014A (zh) 一种鱼眼图像的自监督特征点匹配方法及其存储介质
Heizmann et al. Model-based analysis of striation patterns in forensic science
Sahay et al. Shape extraction of low‐textured objects in video microscopy
Ma et al. Computational framework for turbid water single-pixel imaging by polynomial regression and feature enhancement
Salokhiddinov et al. Deep Spatial-focal Network for Depth from Focus.
Saxena et al. An efficient single image haze removal algorithm for computer vision applications
CN115984104B (zh) 一种基于自监督学习的多聚焦图像融合方法及装置
Zhengpeng et al. A multimodal feature fusion image dehazing method with scene depth prior
Jiang et al. Deep Learning-Based Scene Text Image Super-Resolution Methods: A Survey
CN117911282B (zh) 一种图像去雾模型的构建方法及应用
Volkov et al. Keypoint-based static object removal from photographs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination