CN113470099B - 深度成像的方法、电子设备及存储介质 - Google Patents

深度成像的方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113470099B
CN113470099B CN202110780466.8A CN202110780466A CN113470099B CN 113470099 B CN113470099 B CN 113470099B CN 202110780466 A CN202110780466 A CN 202110780466A CN 113470099 B CN113470099 B CN 113470099B
Authority
CN
China
Prior art keywords
network
loss function
student
parallax
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110780466.8A
Other languages
English (en)
Other versions
CN113470099A (zh
Inventor
户磊
王亚运
薛远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Beijing Dilusense Technology Co Ltd
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dilusense Technology Co Ltd, Hefei Dilusense Technology Co Ltd filed Critical Beijing Dilusense Technology Co Ltd
Priority to CN202110780466.8A priority Critical patent/CN113470099B/zh
Publication of CN113470099A publication Critical patent/CN113470099A/zh
Application granted granted Critical
Publication of CN113470099B publication Critical patent/CN113470099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及机器视觉领域,公开了一种深度成像的方法、电子设备及存储介质。本发明中深度成像的方法,包括:接收投影至目标物体的目标散斑图像;从预先存储的参考图像中获取与目标散斑图像对应的目标参考图像;将目标散斑图像和目标参考图像输入至深度成像网络中,得到目标物体的深度信息;深度成像网络是基于图像训练集以及预先训练至收敛的教师网络,对初始的学生网络训练至收敛后得到。采用本申请实施例,可以在保持学生网络的轻量级的情况下,提高学生网络生成深度图像的准确性,降低对平台的部署要求。

Description

深度成像的方法、电子设备及存储介质
技术领域
本发明实施例涉及机器视觉领域,特别涉及一种深度成像的方法、电子设备及存储介质。
背景技术
深度成像技术是获取物体的深度图像的技术,可以通过单目深度成像系统、双目深度成像系统、主动式深度成像系统以及被动式深度成像系统实现。
然而,目前常用的基于卷积网络的深度成像方法,若为追求高精度的重量级网络,需要采用重量级的大型网络结构,大型网络结构中参数多,例如,匹配代价空间通常采用5维张量矩阵,且该网络中的视差聚合部分采用3D卷积层,参数多导致计算量大、内存占用量大以及耗时时间长,对部署平台要求高。若采用小型网络结构,由于小型网络结构中参数少,导致得到深度图像不准确。
发明内容
本发明实施方式的目的在于提供一种深度成像的方法、电子设备及存储介质,可以在保持学生网络的轻量级的情况下,提高学生网络生成深度图像的准确性,降低对部署平台的要求。
为解决上述技术问题,第一方面,本申请的实施方式提供了一种深度成像的方法,包括:接收投影至目标物体的目标散斑图像;从预先存储的参考图像中获取与目标散斑图像对应的目标参考图像;将目标散斑图像和目标参考图像输入至深度成像网络中,得到目标物体的深度信息;深度成像网络是基于图像训练集以及预先训练至收敛的教师网络,对初始的学生网络训练至收敛后得到。
第二方面,本申请的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的深度成像的方法。
第三方面,本申请的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的深度成像的方法。
本申请实施例中,该深度成像的方式可以适用于投影散斑图像的电子设备上;通常教师网络采用大型网络结构,可以确保教师网络的准确性,且该教师网络预先训练至收敛,使得可以获取到教师网络中的知识;使得可以基于教师网络对学生网络进行知识蒸馏,且教师网络具有高精度和高泛化特性,提高学生网络生成深度图像的准确性,由于对该学生网络进行了知识蒸馏,降低了学生网络的重量级,使得该学生网络易于部署在平台上,降低了用于深度成像网络对部署平台的要求,提高了部署的灵活性高,降低部署成本。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请实施例中深度成像的方法的流程图;
图2是一个实施例中对学生网络进行蒸馏的过程的流程图;
图3是对图2步骤中确定目标数据和蒸馏损失函数的流程图;
图4是对图2步骤中确定目标数据和蒸馏损失函数的另一种流程图;
图5是本申请实施例中电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
深度成像系统中的深度图像生成网络通常采用大型卷积神经网络结构,该结构中代价空间采用了5维张量矩阵,该深度图像生成网络结构中的视差聚合部分采用3D卷积层,这均导致该深度图像生成网络中的参数量多,计算量增大,内存占用量大,深度成像耗时长。且由于计算量大、内存占用大,也导致对部署的平台的要求高,不利于该深度图像生成网络的部署。
本申请实施例中深度成像的方法的流程如图1所示,该深度成像的方法可以部署于电子设备上,如:机器人、小型服务器或移动终端设备上。本实例中的该深度成像的方法可以适用于单/双目、主/被动式深度成像系统。
步骤101:接收投影至目标物体的目标散斑图像。
具体地,电子设备向目标物体投射预设光,该预设光照射在目标物体上,形成目标散斑图像;该电子设备可以接收由图像采集设备采集的目标散斑图像。也可以是该电子设备直接采集该目标散斑图像,作为接收的目标散斑图像。
步骤102:从预先存储的参考图像中获取与目标散斑图像对应的目标参考图像。
具体地,可以预先存储各个散斑图像的参考图像,故可以在获取了目标散斑图像后,从存储的参考图像中获取与目标散斑图像对应的目标参考图像。
步骤103:将目标散斑图像和目标参考图像输入至深度成像网络中,得到目标物体的深度信息;深度成像网络是基于图像训练集以及预先训练至收敛的教师网络,对初始的学生网络训练至收敛后得到。
具体地,该深度成像网络目标散斑图像和目标参考图像,输出的数据为该目标物体的深度信息。该深度成像基于图像训练集以及预先训练至收敛的教师网络,对初始的学生网络训练至收敛后得到,即该深度成像网络采用学生网络结构。
下面介绍训练该深度成像网络的过程,其流程如图2所示:
步骤103-1:将图像训练集中的图像数据输入至教师网络,获取教师网络输出的图像数据对应的教师视差相似度矩阵。
本实施例中可以预先训练教师网络,教师网络采用大型网络结构,下面具体介绍该教师网络的构建和训练。教师网络分为四个部分,分别为特征提取分部分、构建匹配代价空间部分、视差聚合部分以及视差回归部分。
特征提取部分可以采用残差网络结构,如ResNet网络,通过多个大卷积核的2D卷积层对输入网络的结构光图像对进行深层特征计算和提取,结构光图像对包括物体的散斑图像以及对应的参考图像。采用空间金字塔池化结构和空洞卷积层来扩大特征图像中元素的感受野。通过特征提取部分可将图像分辨率降至原始图像的1/4,具有权值共享特性。
构建匹配代价空间部分:匹配代价空间由特征提取部分输出的特征图通过循环裁剪和拼接操作构建而成。本示例中可以采用5维张量矩阵作为匹配代价空间,即B*C*D*H*W;其中,B表示批次,C表示通道数,D表示该分辨率下最大视差,H:图像高度,W:图像宽度,高维度的匹配代价空间可以确保后续生成的深度图像的完整、全面,提高教师网络的精度和泛化性。
视差聚合部分采用改进的堆叠沙漏结构,而未采用沙漏结构的上下采样操作,可以尽量保留大分辨率特征信息,通过一系列的3D卷积层对匹配代价空间进行聚合计算,获取4维张量矩阵作为教师视差相似度矩阵,4维张量表示为B*D*H*W,其中,B表示批次,D表示该分辨率下最大视差,H:图像高度,W:图像宽度。视差回归部分用于对教师视差相似度矩阵进行操作,生成预测的视差图,该操作可以通过Soft argmin函数实现,其Soft argmin的计算公式如公式(1)所示:
Figure BDA0003156588260000041
其中,
Figure BDA0003156588260000042
表示当前像素点输出的视差值,d表示预测的视差值,d∈[0,Dmax),Dmax表示最大视差,Sd表示当前像素点的相似度向量,σ(·)为SoftMax操作运算符。
将视差回归部分得到的三维张量的视差图作为整个教师网络的输出,即B*H*W,对该三维的视差图进行线性变换即可得到对应的深度图像,该线性变换的方式可以如公式(2)所示:
Z=f·L/d 公式(2);
其中,Z表示当前像素点的深度值,f表示相机焦距,如红外相机的焦距,L为成像系统的基线长度,d为该像素点的视差值。
根据上述的特征提取部分、构建匹配代价空间部分、视差聚合部分和视差回归部分构建该教师网络的结构。在构建了教师网络后,可以训练该教师网络,训练过程如下:
构建教师网络的训练集,教师网络的训练集中包括至少两个图像数据,每个图像数据可以包括物体图、该物体图对应的参考图、真值视差图以及无效区域的遮罩。该图像数据可以是人工采集,也可以由设备合成,例如,可以从开源数据库中挑选指定数量的三维模型,对该三维模型进行三维渲染生成大量合成的图像数据。将训练集中的图像数据输入该教师网络中,并根据该教师网络的损失函数对该教师网络进行训练,以优化该教师网络中的参数,直至该教师网络收敛。本实例中可以采用RMSProp优化器和动态学习率,并结合视差回归损失函数和视差平滑损失函数加权结合作为训练时的损失函数,教师网络的损失函数如公式(3)所示:
Lteacher=α·Ldr+β·Lds 公式(3);
其中,Lteacher教师网络的损失函数值,α表示视差回归损失函数的权重,β表示视差平滑损失函数的权重,Ldr表示视差回归损失函数的值,Lds表示视差平滑损失函数的值。
该视差回归损失函数表示如公式(4)、公式(5)所示:
Figure BDA0003156588260000051
Figure BDA0003156588260000052
其中,Ldr表示视差回归损失函数的值,Lds表示视差平滑损失函数的值,N是标记的像素数量,dij表示第i个像素和第j个像素之间的真实视差值,
Figure BDA0003156588260000053
表示第i个像素和第j个像素之间的预测视差值,x为相应计算数值。
视差平滑损失函数可以如公式(6)所示:
Figure BDA0003156588260000054
其中,Lds表示视差平滑损失函数的值,
Figure BDA0003156588260000055
表示该像素在x方向上视差梯度,
Figure BDA0003156588260000056
表示该像素在x方向上视差梯度,
Figure BDA0003156588260000057
表示该像素在x方向上图像梯度,
Figure BDA0003156588260000058
该像素在y方向上图像梯度。
该教师网络采用了高精度的重量级网络,训练的精度高,但是对训练的设备的要求高,训练速度慢。
该教师网络训练完成之后,可以构建学生网络的网络结构,该学生网络中包含未知参数,由于均是用于生成深度图像,该学生网络也包含四个部分,分别为:特征提取部分、构建匹配代价空间、视差聚合部分以及视差回归部分,该学生网络采用小型网络结构。
本示例中根据训练好的教师网络的知识对学生网络进行训练,减少训练的计算量。
本实施中的学生网络用于生成深度图像,深度图像通常是基于视差相似度矩阵确定,视差相似度矩阵越准确,基于该视差相似度矩阵生成的深度图像越准确。本实例中将学生网络的图像训练集中的图像数据输入该教师网络,可以获取该教师网络的视差聚合部分输出的与图像数据对应的教师视差相似度矩阵,由于由教师视差相似度矩阵指导学生视差相似度矩阵,为确保训练的准确性,该学生网络的图像数据可以与教师网络中的图像数据相同。
步骤103-2:将图像数据输入至初始的学生网络,获得学生视差相似度矩阵。
具体地,将该图像数据输入该初始的学生网络中,该学生网络的视差聚合部分输出该学生视差相似度矩阵,其中,初始的学生网络中的参数采用预先设置的值。
也可以是将同一图像数据同时该学生网络和训练好的教师网络中,以确保该学生视差相似度矩阵和教师网络的教师视差相似度矩阵均对应同一图像数据,进而确保教师网络的教师视差相似度矩阵可以准确指导该学生网络的训练。
具体地,学生网络可以采用较少参数的卷积网络结构,如:DenseNet-BC结构,该结构相比ResNet结构具有更少的参数量和更加优异的性能,同时通过特征重用和旁路设置,可以缓解梯度消失和模型退化等问题,该特征提取部分可以降低图像分辨率到原始的1/8,相比教师网络,进一步压缩计算量,该学生网络中的特征提取部分同样具有权值共享特性。
为了便于该学生网络部署于性能低的平台或设备上,本示例中构建4维张量矩阵作为匹配代价空间,即(BD)*C*H*W,其中B和D维度通过拼接操作合并,这种方式不仅使得视差聚合部分可以利用2D卷积层实现,同时也大幅减少了计算量和显存占用。
本实例中还可以采用视差分组的方式进一步减少网络计算量。
视差聚合部分基于经典堆叠沙漏结构,保持其上/下采样操作,同时减少堆叠个数,使用shuffleNet-V2版本卷积单元替换普通2D卷积,在保证精度的前提下大幅减少计算量,该部分对学生网络中的匹配代价空间进行聚合计算,获取4维张量矩阵作为该学生网络的学生视差相似度矩阵;该学生网络的视差回归部分对该学生视差相似度矩阵进行Softargmin操作和线性变换得到深度图像。Soft argmin操作与教师网络中的Soft argmin操作类似,此处不再进行赘述。
学生网络的网络结构设置完成后,可以将该图像训练集中的图像数据输入该学生网络中,获取该学生网络的视差聚合部分输出的学生视差相似度矩阵。根据该教师网络的教师视差相似度矩阵和学生视差相似度矩阵,对该学生网络进行训练,直至该学生网络收敛。
步骤103-3:根据预设的知识蒸馏策略以及教师视差相似度矩阵,确定学生网络的目标数据和蒸馏损失函数。
具体地,可以预先设置知识蒸馏策略,深度图像中每个像素对应的深度信息,因为可以采用逐像素点进行知识蒸馏的第一策略,该第一策略用于指示学生视差相似度矩阵中任一像素点与教师视差相似度矩阵在同一位置的视差差值最小。还可以根据教师视差相似度矩阵中任一像素点之间的相关性进行知识蒸馏的第二策略。第一策略和第二策略对应的目标数据不同,基于确定的知识蒸馏策略,可以确定学生网的目标数据和蒸馏损失函数。
步骤103-4:根据学生视差相似度矩阵、目标数据以及蒸馏损失函数,调整学生网络中的参数,直至学生网络收敛。
具体地,蒸馏损失函数确定后,可以根据学生视差相似度矩阵、目标数据以及蒸馏损失函数,调整学生网络中的参数,直至学生网络收敛。
该实施例中,将与该教师视差相似度矩阵对应的图像数据传输至学生网络,确保学生网络输出的学生视差相似度矩阵与该教师视差相似度矩阵对应,从而便于教师网络的教师视差相似度矩阵对学生视差相似度矩阵进行监督训练;且根据知识蒸馏策略确定目标数据,以便基于准确的目标数据进行知识蒸馏,提高知识蒸馏的效率。
需要说明的是,图像训练集中的图像数据可以同时输入该训练好的教师网络和该未收敛的学生网络,获取教师网络输出的教师视差相似度矩阵和学生视差相似度矩阵,通过教师网络的教师视差相似度矩阵矫正该学生网络输出的学生视差相似度矩阵,进而实现对学生网络的训练的快速收敛。通过大型的教师网络指导小型的学生网络的训练,学生网络可以采用低门槛的实时轻量级网络,通过对学生网络的知识蒸馏,可以确保该实施例中的学生网络在保证低门槛、实时轻量的情况下,可以获得与教师网络接近的高精度特性。
本申请实施例中,图像训练集中包括参考图像以及接收的散斑图像组成的图像数据,即该图像训练集包括参考图像和散斑图像,使得该深度成像的方式可以适用于投影散斑图像的电子设备上;该而通常教师网络采用大型网络结构,可以确保教师网络的准确性,且该教师网络预先训练好,使得可以获取准确的教师视差相似度矩阵;将图像数据输入初始的学生网络中,获得学生视差相似度矩阵,由于深度图像可以根据视差相似度矩阵确定,本实施例中根据教师视差相似度矩阵以及学生视差相似度矩阵,对该学生网络进行训练,由于视差相似度矩阵可以准确确定图像的深度信息,使得可以基于教师网络输出的教师视差相似度矩阵对学生网络进行知识蒸馏,且教师网络具有高精度和高泛化特性,提高学生网络生成深度图像的准确性,由于对该学生网络进行了知识蒸馏,降低了学生网络的重量级,使得该学生网络易于部署在平台上,降低了用于深度成像的学生网络对部署平台的要求,提高了部署的灵活性高,降低部署成本。
在一个实施例中,如图3所示步骤103-3具体包括子步骤103-31:
步骤101:接收投影至目标物体的目标散斑图像。
步骤102:从预先存储的参考图像中获取与目标散斑图像对应的目标参考图像。
步骤103-1:将图像训练集中的图像数据输入至教师网络,获取教师网络输出的图像数据对应的教师视差相似度矩阵。
步骤103-2:将图像数据输入至初始的学生网络中,获得学生视差相似度矩阵。
子步骤103-31:若知识蒸馏策略包括第一策略,则确定目标数据包括教师视差相似度矩阵,蒸馏损失函数包括用于指示目标数据与学生视差相似度矩阵之间差值的第一损失函数。
具体地,该第一策略可以是通过逐像素点进行视差对齐,以使教师网络的教师视差相似度矩阵与该学生网络视差相似度矩阵之间的差值最小,即目标数据中包括该教师网络的教师视差相似度矩阵,根据该目标数据和对应的第一损失函数对该学生网络进行训练。该第一策略对应的第一损失函数的表达式如公式(7):
Figure BDA0003156588260000081
其中,Lpi表示第一损失函数的值,D表示当前图像数据的最大视差,W和H分别为教师视差相似度矩阵的宽和高,
Figure BDA0003156588260000082
是学生网络中第i个像素点的第d个视差维度上的相似度向量,
Figure BDA0003156588260000083
是教师网络中第d个视差维度上的相似度向量,KL(·)表示两个相似度向量的离散度运算符,R表示在代价空间中所有的像素点。
确定该第一损失函数后,可以执行步骤103-4。
需要说明的是,每次在调整学生网络的参数后,判断调整后的学生网络是否满足收敛条件,若未满足收敛条件,则返回步骤103-1,将图像训练集中的下一个图像数据输入预先训练的教师网络,直至学生网络收敛。
步骤103-4:根据学生视差相似度矩阵、目标数据以及蒸馏损失函数,调整学生网络中的参数。
本实施例中学生网络的学生损失函数可以为第一损失函数,即Ltotal=Lpi。
当学生网络收敛后,将该收敛后的学生网络作为深度成像网络。
步骤103:将目标散斑图像和目标参考图像输入至深度成像网络中,得到目标物体的深度信息。
该实施例中,第一损失函数中用于指示两个网络中相同位置的像素点在第d个视差维度上的相似度向量尽可能相同,使得每个像素点在视差维度上的相似,提高了对该学生网训练的准确性。
在一个实施例中,为了进一步提高学生网络预测视差图的连续性,步骤103-3还包括执行如图4所示的子步骤103-32:
步骤101:接收投影至目标物体的目标散斑图像。
步骤102:从预先存储的参考图像中获取与目标散斑图像对应的目标参考图像。
步骤103-1:将图像训练集中的图像数据输入至教师网络,获取教师网络输出的图像数据对应的教师视差相似度矩阵。
步骤103-2:将图像数据输入至初始的学生网络中,获得学生视差相似度矩阵。
子步骤103-31:若知识蒸馏策略包括第一策略,则确定目标数据包括教师视差相似度矩阵,蒸馏损失函数包括用于指示目标数据与学生视差相似度矩阵之间差值的第一损失函数。
子步骤103-32:若知识蒸馏策略还包括第二策略;则目标数据还包括教师视差相似度矩阵中任意两个像素点之间的相关性;蒸馏损失函数还包括:用于指示目标数据与学生视差相似度矩阵中任意两个像素点之间相关性之间的差值的第二损失函数。
具体地,知识蒸馏策略可以包括第一策略和第二策略,若该知识蒸馏策略还包括第二策略,则确定该目标数据中还包括:教师视差相似度矩阵中任意两个像素点之间的相关性。
进一步地,第二损失函数表示如公式(8):
Figure BDA0003156588260000091
其中,Lpa表示第二损失函数的值,
Figure BDA0003156588260000092
表示学生网络中第i个像素点和第j个像素点在第d个视差维度上的相关性,
Figure BDA0003156588260000093
表示教师网络第i个像素点和第j个像素点在第d个视差维度上的相关性。
学生网络中第i个像素点和第j个像素点在第d个视差维度上的相关性
Figure BDA0003156588260000094
可以是像素点i和像素点j之间的视差的差值,或者视差差值的均方差。同理,
Figure BDA0003156588260000095
也可以采用类似的方式确定。可以理解的是,还可以采用其它方式获取任意两个像素之间的视差维度上的相关性。
该学生网络的学生损失函数可以如公式(9)所示:
Ltotal=γ·Lpi+δ·Lpa 公式(9);
其中,Ltotal表示学生损失函数的值,Lpi表示第一损失函数的值,Lpa表示第二损失函数的值,γ表示第一损失函数的权重,δ表示第二损失函数的权重,第一损失函数的权重和第二损失函数的权重之和为1。
步骤103-4:根据学生视差相似度矩阵、目标数据以及蒸馏损失函数,调整学生网络中的参数。
步骤103:将目标散斑图像和目标参考图像输入至深度成像网络中,得到目标物体的深度信息。
该实施例中,由于深度图像是基于教师视差相似度矩阵确定,通过第一损失函数可以尽可能使学生视差相似度矩阵中每个元素与教师网络中的教师视差相似度矩阵中对应位置的元素相同,同时,由于第二策略对应的第二损失函数表示了任意两个像素点之间的视差维度上的相关性,使得通过第二损失函数,可以尽可能使学生视差相似度矩阵中任意像素点之间的相关性与教师网络中教师视差相似度矩阵中对应两个像素点之间的相关性相同,进而提高了预测结果的连续性,提高收敛后学生网络预测结果的准确性。
进一步地,学生网络的学生损失函数包括:蒸馏损失函数、视差回归损失函数和视差平滑损失函数的叠加。该学生损失函数表示如公式(10):
Ltotal=α·Ldr+β·Lds+γ·Lpi+δ·Lpa 公式(10);
其中,Ltotal表示学生损失函数的值,Lpi表示第一损失函数的值,Lpa表示第二损失函数的值,Ldr表示视差回归损失函数的值,Lds表示视差平滑损失函数的值,α表示视差回归损失函数的权重,β表示视差平滑损失函数的权重,γ表示第一损失函数的权重,δ表示第二损失函数的权重。
其中,α、β、γ和δ的值可以有多种设置方式,例如,可以设置(γ+δ)的占比大于(α+β)的占比,如γ和δ均为0.3,α和β均为0.2。
若知识蒸馏策略只包括第一策略,该学生损失函数还可以如公式(11)所示;
Ltotal=α·Ldr+β·Lds+γ·Lpi 公式(11);
其中,Ltotal表示学生损失函数的值,Lpi表示第一损失函数的值,Ldr表示视差回归损失函数的值,Lds表示视差平滑损失函数的值,α表示视差回归损失函数的权重,β表示视差平滑损失函数的权重,γ表示第一损失函数的权重。
本实施例中可以采用RMSProp优化器和动态学习率,学习率在训练过程中动态调整,并随迭代次数的增加呈阶梯式下降,可以保证训练平稳,避免出现大幅震荡。
训练完成的学生网络,可以部署在低端平台上,在输入成对的物体图和参考图后实时恢复出高精度的深度图像。
该实施例中,通过增加视差回归损失函数和视差平滑损失函数,进一步提高了学生网络的预测深度图像的准确性。
以上各实施例可以相互结合相互引用,例如下面是各实施例结合后的例子,然并不以此为限;各实施例在不矛盾的前提下可以任意结合成为一个新的实施例。
本申请实施例还提供了一种电子设备,其结构如图5所示,包括:至少一个处理器201;以及,与至少一个处理器201通信连接的存储器202;其中,存储器202存储有可被至少一个处理器201执行的指令,指令被至少一个处理器201执行,以使至少一个处理器201能够执行上述的深度成像的方法。
其中,存储器202和处理器201采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器202的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器201处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器201。
处理器201负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器202可以被用于存储处理器在执行操作时所使用的数据。
本申请实施例还提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (7)

1.一种深度成像的方法,其特征在于,包括:
接收投影至目标物体的目标散斑图像;
从预先存储的参考图像中获取与所述目标散斑图像对应的目标参考图像;
将所述目标散斑图像和所述目标参考图像输入至深度成像网络中,得到所述目标物体的深度信息;
所述深度成像网络是基于图像训练集以及预先训练至收敛的教师网络,对初始的学生网络训练至收敛后得到,具体包括:
将图像训练集中的图像数据输入至所述教师网络,获取所述教师网络输出的所述图像数据对应的教师视差相似度矩阵,其中,所述图像数据包括散斑图像和与所述散斑图像对应的参考图像;
将所述图像数据输入至所述初始的学生网络,获得学生视差相似度矩阵;
根据预设的知识蒸馏策略以及所述教师视差相似度矩阵,确定所述学生网络的目标数据和蒸馏损失函数,具体为:若所述知识蒸馏策略包括第一策略,则确定所述目标数据包括所述教师视差相似度矩阵,所述蒸馏损失函数包括用于指示所述目标数据与所述学生视差相似度矩阵之间差值的第一损失函数;所述第一损失函数的表达式为:
Figure FDA0003482162420000011
其中,Lpi表示第一损失函数的值,D表示当前图像数据的最大视差,W和H分别为教师视差相似度矩阵的宽和高,
Figure FDA0003482162420000012
是学生网络中第i个像素点的第d个视差维度上的相似度向量,
Figure FDA0003482162420000013
是教师网络中第i个像素点的第d个视差维度上的相似度向量,KL(·)表示两个相似度向量的离散度运算符,R表示在代价空间中所有的像素点;
根据所述学生视差相似度矩阵、所述目标数据以及所述蒸馏损失函数,调整所述学生网络中的参数,直至所述学生网络收敛。
2.根据权利要求1所述的深度成像的方法,其特征在于,所述根据预设的知识蒸馏策略以及所述教师视差相似度矩阵,确定所述学生网络的目标数据和蒸馏损失函数,包括:
若所述知识蒸馏策略还包括第二策略;则所述目标数据还包括所述教师视差相似度矩阵中任意两个像素点之间的相关性;
所述蒸馏损失函数还包括:用于指示所述目标数据与所述学生视差相似度矩阵中任意两个像素点之间相关性之间的差值的第二损失函数。
3.根据权利要求2所述的深度成像的方法,其特征在于,所述第二损失函数表示为:
Figure FDA0003482162420000021
其中,Lpa表示第二损失函数的值,
Figure FDA0003482162420000022
表示所述学生网络中第i个像素点和第j个像素点在第d个视差维度上的相关性,
Figure FDA0003482162420000023
表示所述教师网络第i个像素点和第j个像素点在第d个视差维度上的相关性。
4.根据权利要求3所述的深度成像的方法,其特征在于,所述学生网络的学生损失函数包括:所述蒸馏损失函数、视差回归损失函数和视差平滑损失函数的叠加。
5.根据权利要求4所述的深度成像的方法,其特征在于,所述学生损失函数表示为:
Ltotal=α·Ldr+β·Lds+γ·Lpi+δ·Lpa
其中,Ltotal表示所述学生损失函数的值,Lpi表示第一损失函数的值,Lpa表示第二损失函数的值,Ldr表示视差回归损失函数的值,Lds表示视差平滑损失函数的值,α表示所述视差回归损失函数的权重,β表示所述视差平滑损失函数的权重,γ表示所述第一损失函数的权重,δ表示所述第二损失函数的权重。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5任一所述的深度成像的方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的深度成像的方法。
CN202110780466.8A 2021-07-09 2021-07-09 深度成像的方法、电子设备及存储介质 Active CN113470099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780466.8A CN113470099B (zh) 2021-07-09 2021-07-09 深度成像的方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780466.8A CN113470099B (zh) 2021-07-09 2021-07-09 深度成像的方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113470099A CN113470099A (zh) 2021-10-01
CN113470099B true CN113470099B (zh) 2022-03-25

Family

ID=77879713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780466.8A Active CN113470099B (zh) 2021-07-09 2021-07-09 深度成像的方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113470099B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485207A (zh) * 2016-09-21 2017-03-08 清华大学 一种基于双目视觉图像的指尖检测方法及系统
CN110059740A (zh) * 2019-04-12 2019-07-26 杭州电子科技大学 一种针对嵌入式移动端的深度学习语义分割模型压缩方法
CN110232203A (zh) * 2019-04-22 2019-09-13 山东大学 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110569709A (zh) * 2019-07-16 2019-12-13 浙江大学 一种基于知识重组的场景解析方法
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
CN111402311A (zh) * 2020-03-09 2020-07-10 福建帝视信息科技有限公司 一种基于知识蒸馏的轻量级立体视差估计方法
CN111462206A (zh) * 2020-03-24 2020-07-28 合肥的卢深视科技有限公司 一种基于卷积神经网络的单目结构光深度成像方法
CN112115783A (zh) * 2020-08-12 2020-12-22 中国科学院大学 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN112509021A (zh) * 2020-12-11 2021-03-16 华南理工大学 一种基于注意力机制的视差优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN107507243A (zh) * 2016-06-14 2017-12-22 华为技术有限公司 一种摄像机参数调整方法、导播摄像机及系统
GB201709672D0 (en) * 2017-06-16 2017-08-02 Ucl Business Plc A system and computer-implemented method for segmenting an image
CN111368882B (zh) * 2020-02-20 2023-04-18 南京信息工程大学 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN111563564B (zh) * 2020-07-20 2020-10-09 南京理工大学智能计算成像研究院有限公司 基于深度学习的散斑图像逐像素匹配方法
CN112489189B (zh) * 2020-11-17 2021-11-30 北京的卢深视科技有限公司 一种神经网络的训练方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485207A (zh) * 2016-09-21 2017-03-08 清华大学 一种基于双目视觉图像的指尖检测方法及系统
CN110059740A (zh) * 2019-04-12 2019-07-26 杭州电子科技大学 一种针对嵌入式移动端的深度学习语义分割模型压缩方法
CN110232203A (zh) * 2019-04-22 2019-09-13 山东大学 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110569709A (zh) * 2019-07-16 2019-12-13 浙江大学 一种基于知识重组的场景解析方法
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
CN111402311A (zh) * 2020-03-09 2020-07-10 福建帝视信息科技有限公司 一种基于知识蒸馏的轻量级立体视差估计方法
CN111462206A (zh) * 2020-03-24 2020-07-28 合肥的卢深视科技有限公司 一种基于卷积神经网络的单目结构光深度成像方法
CN112115783A (zh) * 2020-08-12 2020-12-22 中国科学院大学 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN112509021A (zh) * 2020-12-11 2021-03-16 华南理工大学 一种基于注意力机制的视差优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Structured Knowledge Distillation for Semantic Segmentation;Yifan Liu 等;《https://arxiv.org/pdf/1903.04197.pdf》;20190312;第1-9页 *
Unsupervised Monocular Depth Estimation via Recursive Stereo Distillation;Xinchen Ye 等;《IEEE Transactions on Image Processing》;20210415;第30卷;第4492-4504页 *
基于双目视觉的深度图获取技术研究;景年昭;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210315(第03期);第I138-656页 *

Also Published As

Publication number Publication date
CN113470099A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111797983A (zh) 一种神经网络构建方法以及装置
CN104778688A (zh) 点云数据的配准方法及装置
CN106780543A (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN108702439B (zh) 信息处理设备、方法、计算机可读介质和多摄像机系统
CN110276768B (zh) 图像分割方法、图像分割装置、图像分割设备及介质
CN110838122B (zh) 点云的分割方法、装置及计算机存储介质
CN113392584B (zh) 基于深度强化学习和方向估计的视觉导航方法
CN112328715A (zh) 视觉定位方法及相关模型的训练方法及相关装置、设备
CN112929626B (zh) 一种基于智能手机影像的三维信息提取方法
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN111460866B (zh) 车道线检测及驾驶控制方法、装置和电子设备
CN110310243B (zh) 一种无人机摄影测量的图像校正方法、系统和存储介质
CN111401193A (zh) 获取表情识别模型的方法及装置、表情识别方法及装置
US20200151584A1 (en) Systems and methods for determining an artificial intelligence model in a communication system
CN113470099B (zh) 深度成像的方法、电子设备及存储介质
CN113096039A (zh) 一种基于红外图和深度图的深度信息补全方法
CN113378864B (zh) 一种锚框参数的确定方法、装置、设备及可读存储介质
JP2018133064A (ja) 画像処理装置、撮像装置、画像処理方法および画像処理プログラム
CN113538538A (zh) 双目图像对齐方法、电子设备和计算机可读存储介质
CN117078984B (zh) 双目图像处理方法、装置、电子设备及存储介质
CN114463559B (zh) 图像识别模型的训练方法、装置、网络和图像识别方法
CN115439630B (zh) 标记点拼接方法、摄影测量方法、装置和电子装置
CN112836804B (zh) 图像处理方法、装置、电子设备及存储介质
CN112991524B (zh) 三维重建的方法、电子设备及存储介质
Li et al. Application of improved SFM adaptive threshold algorithm in automatic 3D reconstruction of remote sensing images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230324

Address after: 230091 room 611-217, R & D center building, China (Hefei) international intelligent voice Industrial Park, 3333 Xiyou Road, high tech Zone, Hefei, Anhui Province

Patentee after: Hefei lushenshi Technology Co.,Ltd.

Address before: 100083 room 3032, North B, bungalow, building 2, A5 Xueyuan Road, Haidian District, Beijing

Patentee before: BEIJING DILUSENSE TECHNOLOGY CO.,LTD.

Patentee before: Hefei lushenshi Technology Co.,Ltd.

TR01 Transfer of patent right