CN113763448A - 深度成像方法、电子设备和计算机可读存储介质 - Google Patents

深度成像方法、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113763448A
CN113763448A CN202110974025.1A CN202110974025A CN113763448A CN 113763448 A CN113763448 A CN 113763448A CN 202110974025 A CN202110974025 A CN 202110974025A CN 113763448 A CN113763448 A CN 113763448A
Authority
CN
China
Prior art keywords
map
image
search range
optical flow
convolution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110974025.1A
Other languages
English (en)
Other versions
CN113763448B (zh
Inventor
王亚运
薛远
曹天宇
户磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Beijing Dilusense Technology Co Ltd
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dilusense Technology Co Ltd, Hefei Dilusense Technology Co Ltd filed Critical Beijing Dilusense Technology Co Ltd
Priority to CN202110974025.1A priority Critical patent/CN113763448B/zh
Publication of CN113763448A publication Critical patent/CN113763448A/zh
Application granted granted Critical
Publication of CN113763448B publication Critical patent/CN113763448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及机器视觉技术领域,公开了一种深度成像方法、电子设备和计算机可读存储介质。上述深度成像方法包括:提取获取到的物体图的特征和预设的参考图的特征,得到所述物体图对应的特征图和所述参考图对应的特征图;根据所述物体图对应的特征图、所述参考图对应的特征图和预设的搜索范围,计算所述物体图与所述参考图之间的关联性;其中,所述搜索范围包括行方向上的搜索范围和列方向上的搜索范围;根据所述关联性,获取所述物体图与所述参考图之间的列偏差;根据所述物体图与所述参考图之间的列偏差,获取所述物体图对应的深度图,可以大幅提升深度成像方法对行偏差的鲁棒性,从而提升获得的深度图的质量。

Description

深度成像方法、电子设备和计算机可读存储介质
技术领域
本申请实施例涉及机器视觉技术领域,特别涉及一种深度成像方法、电子设备和计算机可读存储介质。
背景技术
基于机器视觉的深度感知技术具有无接触、速度快、精度高、应用范围广等特点,该技术被广泛应用于三维打印、医疗成像、体感设备、地理测绘、工业测量、三维影视和游戏制作等领域,深度感知技术的普及进一步拓展了人们对三维信息感知能力,在当前的科学研究及工程技术中具有重要的应用价值,基于深度感知成像技术获得的图像称为深度图,深度图的像素值可以反映场景中物体到相机的距离。
目前常用的基于卷积网络的单目结构光深度成像方法,大多只简单地通过卷积网络输出物体图与参考图之间的列偏差,根据列偏差计算出物体图对应的深度图。
然而,单目结构光相机在使用时难免会出现磕碰、撞击、剐蹭等情况,这些磕碰、撞击、剐蹭会导致单目结构光相机的内部结构发生变化,同时,单目结构光相机也容易受温度变化的影响,结构上的变化和温度的变化都会使物体图与参考图之间产生较大的行偏差,行偏差的存在会导致计算出的深度图的质量严重下降,不利于扩展深度成像方法的应用场景和使用范围。
发明内容
本申请实施例的目的在于提供一种深度成像方法、电子设备和计算机可读存储介质,可以大幅提升深度成像方法对行偏差的鲁棒性,从而提升获得的深度图的质量。
为解决上述技术问题,本申请的实施例提供了一种深度成像方法,包括以下步骤:提取获取到的物体图的特征和预设的参考图的特征,得到所述物体图对应的特征图和所述参考图对应的特征图;根据所述物体图对应的特征图、所述参考图对应的特征图和预设的搜索范围,计算所述物体图与所述参考图之间的关联性;其中,所述搜索范围包括行方向上的搜索范围和列方向上的搜索范围;根据所述关联性,获取所述物体图与所述参考图之间的列偏差;根据所述物体图与所述参考图之间的列偏差,获取所述物体图对应的深度图。
本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述深度成像方法。
本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述深度成像方法。
本申请的实施例提供的深度成像方法、电子设备和计算机可读存储介质,先提取获取到的物体图的特征和预设的参考图的特征,得到物体图对应的特征图和参考图对应的特征图,再根据物体图对应的特征图、预设的在行方向上的搜索范围和在列方向上的搜索范围,在参考图对应的特征图上搜索物体图的特征,从而计算出物体图与参考图之间的关联性,并根据计算出的关联性,获取物体图与参考图之间的列偏差,最后根据物体图与参考图之间的列偏差,获取物体图对应的深度图,本申请的实施例,在确定列偏差时,不仅仅是简单地基于列方向确定列偏差,还考虑到了行偏差的存在会对列偏差产生影响,因此预设的搜索范围既包括列方向上的搜索范围又包括行方向上的搜索范围,获取到的列偏差包含了行偏差对列偏差的影响,更加科学、准确,符合单目结构光相机的真实情况,大幅提升深度成像方法对行偏差的鲁棒性,从而提升获得的深度图的质量。
另外,所述物体图对应的特征图的尺寸为:N×H×W,其中,所述N为通道数,所述H为所述物体图的高度,所述W为所述物体图的宽度;在根据所述关联性,获取所述物体图与所述参考图之间的列偏差之前,还包括:遍历所述物体图对应的特征图的每一个位置,并基于所述搜索范围,确定所述物体图对应的特征图的匹配代价空间[(2r+1)×(2c+1),H,W],所述(2r+1)×(2c+1)为所述匹配代价空间对应的通道数;所述根据所述关联性,获取所述物体图与所述参考图之间的列偏差,包括:根据所述关联性,对所述匹配代价空间进行聚合计算,获取所述物体图对应的通道数为2的光流视差矩阵:2×H×W,所述光流视差矩阵的通道包括第一通道和第二通道,所述第一通道表示所述物体图与所述参考图之间的行偏差,所述第二通道表示所述物体图与所述参考图之间的列偏差,本申请的实施例,先确定匹配代价空间,再基于关联性对匹配代价空间进行聚合计算,可以将各维度的特征聚合到行方向上和列方向上,进一步提升确定出的行偏差和列偏差的准确性,同时,使用匹配代价空间可以更好地考虑行偏差对列偏差的影响,进一步提升深度成像方法对行偏差的鲁棒性。
另外,所述物体图为多帧图像,所述获取所述物体图与所述参考图之间的列偏差,包括:获取所述物体图的第i帧与所述参考图之间的列偏差;其中,所述i为大于0的整数;若所述i大于1,则所述获取所述物体图的第i帧与所述参考图之间的列偏差,包括:获取所述物体图的第i帧与所述物体图的第i-1帧之间的列偏差;根据所述第i帧与所述第i-1帧之间的列偏差,以及所述第i-1帧与所述参考图之间的列偏差,获取所述第i帧与所述参考图之间的列偏差,本申请的实施例,在获取物体图的第1帧对应的深度图时,需要直接计算第1帧与参考图之间的列偏差,在获取物体图的后续帧对应的深度图时,只需计算第i帧与第i-1帧之间的列偏差,再叠加上第i-1帧与参考图之间的列偏差,即可获得准确的第i帧与参考图之间的列偏差,可以大幅减少计算耗时,更好地满足深度成像技术对即时性的需要。
另外,若所述i等于1,则所述预设的搜索范围为第一搜索范围;若所述i大于1,则所述预设的搜索范围为第二搜索范围;其中,所述第一搜索范围大于所述第二搜索范围,考虑到后续帧与前一帧的差别并不是很大,因此在获取后续帧对应的深度图时,使用较小的第二搜索范围即可获取到准确的列偏差,进一步减少计算耗时,提升深度图的生成速度。
另外,述深度成像方法基于预训练的光流卷积神经网络实现,包括:将获取到的物体图输入至所述光流卷积网络中,获取所述光流卷积网络输出的所述物体图对应的深度图;所述光流卷积网络包括特征提取单元,匹配代价空间构建单元和聚合单元;所述特征提取单元用于提取所述物体图的特征和所述参考图的特征,得到所述物体图对应的特征图和所述参考图对应的特征图;所述匹配代价空间构建单元用于根据所述物体图对应的特征图、所述参考图对应的特征图和所述搜索范围,确定所述物体图与所述参考图之间的关联性;所述匹配代价空间构建单元还用于遍历所述物体图对应的特征图的每一个位置,并基于所述搜索范围,确定所述物体图对应的特征图的匹配代价空间;所述聚合单元用于根据所述关联性,对所述匹配代价空间进行聚合计算,获取所述物体图与所述参考图之间的列偏差,并根据所述物体图与所述参考图之间的列偏差,获取所述物体图对应的深度图,使用预训练的光流卷积网络进行深度成像,可以进一步提升深度成像的速度,更好地满足用户使用单目结构光相机进行深度成像时的需求。
另外,所述物体图为多帧图像,所述光流卷积网络包括第一光流卷积网络和第二光流卷积网络,所述第一光流卷积网络对应第一搜索范围,所述第二光流卷积网络对应第二搜索范围,所述第一搜索范围大于所述第二搜索范围;所述将获取到的物体图输入至所述光流卷积网络中,获取所述光流卷积网络输出的所述物体图对应的深度图,包括:将所述物体图的第1帧输入至所述第一光流卷积网络中,获取所述第一光流卷积网络输出的所述第1帧对应的深度图;将所述物体图的第i帧输入至所述第二光流卷积网络中,获取所述第二光流卷积网络输出的所述第i帧对应的深度图;其中,所述i为大于1的整数,本申请的实施例预先训练两个光流卷积网络,第一光流卷积网络的搜索范围较大,适用于获取物体图的第1帧对应的深度图,第二光流卷积网络的搜索范围较小,适用于获取物体图的后续帧的深度图,从而进一步压缩深度成像的耗时。
另外,所述预训练的光流卷积网络通过以下步骤训练:获取三维模型数据集;其中,所述三维模型数据集中包括若干个三维模型;根据预设的虚拟单目结构光相机对所述三维模型进行虚拟成像和三维渲染,获得第一训练样本集;其中,所述第一训练样本集中的训练样本包括物体图、参考图和光流真值数据;根据所述第一训练样本集,对初始光流卷积网络进行训练;调整所述的虚拟单目结构光相机对应的旋转矩阵和/或平移矩阵,根据调整后的所述虚拟单目结构光相机对所述三维模型进行虚拟成像和三维渲染,获得第二训练样本集;其中,所述第二训练样本集中的训练样本包括物体图、参考图和光流真值数据;根据所述第二训练样本集,对经过所述第一训练样本集训练后的光流卷积网络进行训练,得到所述预训练的光流卷积网络,光流卷积网络输出的物体图与参考图之间的行偏差和列偏差需要尽可能准确的准确,本申请的实施例对光流卷积网络进行双重训练,第一重训练是针对通用的光流法网络进行的训练,即泛化的训练,使其具有获取基础的光流偏差的能力,第二重训练是针对单目结构光相机的针对性训练,使得光流卷积网络对行偏差具备鲁棒性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本申请一个实施例的深度成像方法的流程图一;
图2是根据本申请另一个实施例的深度成像方法的流程图二;
图3是根据本申请一个实施例中提供的一种光流卷积网络的模型结构示意图;
图4是根据本申请一个实施例中,获取物体图的第i帧与参考图之间的列偏差的流程图;
图5是根据本申请一个实施例中,对光流卷积网络进行训练的流程图;
图6是根据本申请另一个实施例的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本申请的一个实施例涉及一种深度成像方法,应用于电子设备;其中,电子设备可以为单目结构光相机本身或单目结构光相机内置的服务器,本实施例以及以下个各个实施例中电子设备以单目结构光相机内置的服务器为例进行说明,为了方便说明,本实施例以及以下个各个实施例将单目结构光相机内置的服务器简称为服务器,下面对本实施例的深度成像方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施例的深度成像方法的具体流程可以如图1所示,包括:
步骤101,提取获取到的物体图的特征和预设的参考图的特征,得到物体图对应的特征图和参考图对应的特征图。
具体而言,服务器在获取到单目结构光相机拍摄的物体图后,可以提取该物体图的特征,并提取与该物体图对应的预设的参考图的特征,得到物体图对应和参考图对应的特征图,获得的特征图可以是三维的特征图,其中,预设的参考图可以由本领域的技术人员根据实际需要进行设置,本申请的实施例对此不作具体限定。
在一个例子中,提取物体图的特征、提取参考图的特征可以基于进一步压缩网络,如DenseNet-BC结构的网络等实现,DenseNet-BC结构的网络通过连续多个二维卷积层对物体图和参考图分别进行深层特征的计算和提取,得到物体图对应的特征图和参考图对应的特征图,在进行特征提取时,可以进行特征重用和旁路设置,在一定程度上缓解梯度消失和模型退化等问题,还可以通过空间金字塔池化和膨胀卷积等技术扩大感受野,将物体图和参考图的图像分辨率降为原始的四分之一,使其具有权值共享的特性。
步骤102,根据物体图对应的特征图、参考图对应的特征图和预设的搜索范围,计算物体图与参考图之间的关联性。
具体而言,服务器在获取到物体图对应的特征图和参考图对应的特征图后,可以基于物体图对应的特征图,对参考图对应的特征图在预设的搜索范围内进行搜索,根据搜索结果计算出物体图与参考图之间的关联性,其中,预设的搜索范围可以由本领域的技术人员根据实际需要进行设置,本申请的实施例对此不作具体限定。
在一个例子中,服务器将物体图对应的特征图记为f1,参考图对应的特征图记为f2,服务器对两张特征图的每个图像块都会进行关联性的计算,预设的搜索范围为:[-r,r]×[-c,c],其中,[-r,r]为行方向上的搜索范围,[-c,c]为列方向上的搜索范围,服务器可以通过以下公式计算f1中位置x1处的特征与f2
Figure BDA0003226661190000051
区域内的特征的关联性:c(x1,r,c)=∑o∈[-r,r]×[-c,c]f1(x1)·f2(x1+o),式中,c(x1,r,c)用于表示关联性,f1(x1)为物体图对应的特征图在x1位置处的特征向量,f2(x1+o)为参考图在以x1位置为中心在
Figure BDA0003226661190000061
范围内的特征向量。
步骤103,根据关联性,获取物体图与参考图之间的列偏差。
步骤104,根据物体图与参考图之间的列偏差,获取物体图对应的深度图。
在具体实现中,服务器在计算出物体图与参考图之间的关联性后,可以根据关联性,获取出物体图与参考图之间的行偏差和列偏差,服务器根据其中的物体图与参考图之间的列偏差,获取物体图对应的深度图,服务器在输出深度图的同时,也可以将物体图与参考图之间的行偏差输出,供用户检查和修正单目结构光相机的内部结构。
在一个例子中,服务器可以通过对物体图与参考图之间的列偏差进行线性变换,得到物体图对应的深度图,线性变换公式可以为:
Figure BDA0003226661190000062
式中,Z表示深度图中像素点的深度值,f为单目结构光相机的焦距,L为单目结构光相机深度成像系统的基线长度,d为物体图的像素点的列偏差值。
在一个例子中,根据物体图与参考图之间的列偏差,获取物体图对应的深度图可以通过ShuffleNet-V2版本的卷积单元结构替换普通的二维卷积层来实现,该结构可以在不降低深度成像的精度的情况下,大幅度提升深度成像的速度。
本实施例,相较于简单地确定物体图与参考图之间的列偏差,根据列偏差计算物体图对应的深度图的技术方案而言,先提取获取到的物体图的特征和预设的参考图的特征,得到物体图对应的特征图和参考图对应的特征图,再根据物体图对应的特征图、预设的在行方向上的搜索范围和在列方向上的搜索范围,在参考图对应的特征图上搜索物体图的特征,从而计算出物体图与参考图之间的关联性,并根据计算出的关联性,获取物体图与参考图之间的列偏差,最后根据物体图与参考图之间的列偏差,获取物体图对应的深度图,本申请的实施例,在确定列偏差时,不仅仅是简单地基于列方向确定列偏差,还考虑到了行偏差的存在会对列偏差产生影响,因此预设的搜索范围既包括列方向上的搜索范围又包括行方向上的搜索范围,获取到的列偏差包含了行偏差对列偏差的影响,更加科学、准确,符合单目结构光相机的真实情况,大幅提升深度成像方法对行偏差的鲁棒性,从而提升获得的深度图的质量。
本申请的另一个实施例涉及一种深度成像方法,下面对本实施例的深度成像方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的深度成像方法的具体流程可以如图2所示,包括:
步骤201,提取获取到的物体图的特征和预设的参考图的特征,得到物体图对应的特征图和参考图对应的特征图。
步骤202,根据物体图对应的特征图、参考图对应的特征图和预设的搜索范围,计算物体图与参考图之间的关联性。
其中,步骤201至步骤202与步骤101至步骤102大致相同,此处不再赘述。
步骤203,遍历物体图对应的特征图的每一个位置,并基于搜索范围,确定物体图对应的特征图的匹配代价空间。
在具体实现中,物体图对应的特征图的尺寸为:N×H×W,其中,N为通道数,H为物体图的高度,W为物体图的宽度,参考图对应的特征图的尺寸与物体图对应的特征图的尺寸相同,服务器可以遍历物体图对应的特征图的每一个位置,即每一个像素,并基于搜索范围,确定物体图对应的特征图的匹配代价空间,匹配代价空间为一个三维张量的矩阵,可以由[(2r+1)×(2c+1),H,W]表示,式中,(2r+1)×(2c+1)为匹配代价空间对应的通道数。
在一个例子中,匹配代价空间的构建可以由关联层网络实现。
步骤204,根据关联性,对匹配代价空间进行聚合计算,获取物体图对应的通道数为2的光流视差矩阵,光流视差矩阵的通道包括表示物体图与参考图之间的行偏差的第一通道,和表示物体图与参考图之间的列偏差的第二通道。
在具体实现中,服务器在确定出物体图对应的特征图的匹配代价空间后,可以根据关联性,对匹配代价空间进行聚合计算,获取物体图对应的通道数为2的光流视差矩阵:2×H×W,光流视差矩阵的通道包括第一通道和第二通道,第一通道表示物体图与参考图之间的行偏差,第二通道表示物体图与参考图之间的列偏差。
在一个例子中,对匹配代价空间进行聚合计算可以由改进的堆叠沙漏结构网络实现,改进的堆叠沙漏结构网络抛弃了常用沙漏结构的上下采样操作,尽量保留大分辨率的特征信息,通过一系列的二维卷积层对匹配代价空间进行聚合计算,最后得到通道数为2的三维张量作为光流视差矩阵。
步骤205,根据物体图与参考图之间的列偏差,获取物体图对应的深度图。
其中,步骤205与步骤104大致相同,此处不再赘述。
本实施例,所述物体图对应的特征图的尺寸为:N×H×W,其中,所述N为通道数,所述H为所述物体图的高度,所述W为所述物体图的宽度;在根据所述关联性,获取所述物体图与所述参考图之间的列偏差之前,还包括:遍历所述物体图对应的特征图的每一个位置,并基于所述搜索范围,确定所述物体图对应的特征图的匹配代价空间[(2r+1)×(2c+1),H,W],所述(2r+1)×(2c+1)为所述匹配代价空间对应的通道数;所述根据所述关联性,获取所述物体图与所述参考图之间的列偏差,包括:根据所述关联性,对所述匹配代价空间进行聚合计算,获取所述物体图对应的通道数为2的光流视差矩阵:2×H×W,所述光流视差矩阵的通道包括第一通道和第二通道,所示第一通道表示所述物体图与所述参考图之间的行偏差,所述第二通道表示所述物体图与所述参考图之间的列偏差,即先确定匹配代价空间,再基于关联性对匹配代价空间进行聚合计算,可以将各维度的特征聚合到行方向上和列方向上,进一步提升确定出的行偏差和列偏差的准确性,同时,使用匹配代价空间可以更好地考虑行偏差对列偏差的影响,进一步提升深度成像方法对行偏差的鲁棒性。
在一个实施例中,本申请的深度成像方法基于预训练的光流卷积神经网络实现,服务器将获取到的物体图输入至预训练的光流卷积网络中,获取光流卷积网络输出的物体图对应的深度图。
在具体实现中,光流卷积网络的模型结构示意图可以如图3所示,光流卷积网络包括特征提取单元,匹配代价空间构建单元和聚合单元。
特征提取单元用于提取物体图的特征和参考图的特征,得到物体图对应的特征图和参考图对应的特征图。
匹配代价空间构建单元用于根据物体图对应的特征图、参考图对应的特征图和预设的搜索范围,确定物体图与参考图之间的关联性,匹配代价空间构建单元还用于遍历物体图对应的特征图的每一个位置,并基于搜索范围,确定物体图对应的特征图的匹配代价空间。
聚合单元用于根据关联性,对匹配代价空间进行聚合计算,获取物体图与参考图之间的列偏差,并根据物体图与参考图之间的列偏差,获取物体图对应的深度图。
本实施例,服务器在进行深度成像时使用预训练的光流卷积网络进行深度成像,可以进一步提升深度成像的速度,更好地满足用户使用单目结构光相机进行深度成像时的需求。
在一个实施例中,单目结构光相机拍摄的物体图为多帧图像,服务器获取物体图与参考图之间的列偏差,具体为获取物体图的第i帧与参考图之间的列偏差,其中,i为大于0的整数。
在具体实现中,若i等于1,即需要获取深度图的为物体图的第一帧,服务器可以直接获取物体图的第1帧与参考图之间的列偏差;若i大于1,即需要获取深度图的为物体图的后续帧,则服务器获取物体图的第i帧与参考图之间的列偏差,可以由如图4所示的各步骤实现,具体包括:
步骤301,获取物体图的第i帧与物体图的第i-1帧之间的列偏差。
在具体实现中,服务器确定需要获取深度图的不是物体图的第1帧,即需要获取深度图的是物体图的第i帧,服务器可以先获取物体图的第i帧与物体图的第i-1帧之间的列偏差,无需直接获取物体图的第i帧与参考图之间的列偏差,可以缩短获取列偏差的时间。
步骤302,根据第i帧与第i-1帧之间的列偏差,以及第i-1帧与参考图之间的列偏差,获取第i帧与参考图之间的列偏差。
在具体实现中,服务器在获取物体图的第i帧与物体图的第i-1帧之间的列偏差后,可以在物体图的第i帧与物体图的第i-1帧之间的列偏差的基础上,叠加预先已经获取的物体图的第i-1帧与参考图之间的列偏差,得到物体图的第i帧与参考图之间的列偏差。
本实施例,所述获取所述物体图与所述参考图之间的列偏差,包括:获取所述物体图的第i帧与所述参考图之间的列偏差;其中,所述i为大于0的整数;若所述i大于1,则所述获取所述物体图的第i帧与所述参考图之间的列偏差,包括:获取所述物体图的第i帧与所述物体图的第i-1帧之间的列偏差;根据所述第i帧与所述第i-1帧之间的列偏差,以及所述第i-1帧与所述参考图之间的列偏差,获取所述第i帧与所述参考图之间的列偏差,本申请的实施例,在获取物体图的第1帧对应的深度图时,需要直接计算第1帧与参考图之间的列偏差,在获取物体图的后续帧对应的深度图时,只需计算第i帧与第i-1帧之间的列偏差,再叠加上第i-1帧与参考图之间的列偏差,即可获得准确的第i帧与参考图之间的列偏差,可以大幅减少计算耗时,更好地满足深度成像技术对即时性的需要。
在一个实施例中,单目结构光相机拍摄的物体图为多帧图像,服务器获取物体图与参考图之间的列偏差,具体为获取物体图的第i帧与参考图之间的列偏差,其中,i为大于0的整数,若i等于1,即需要获取深度图的是物体图的第1帧,则服务器确定预设的搜索范围为第一搜索范围,若i大于1,需要获取深度图的是物体图的后续帧,则服务器确定预设的搜索范围为第二搜索范围,其中,第一搜索范围大于所述第二搜索范围,考虑到后续帧与前一帧的差别并不是很大,因此在获取后续帧对应的深度图时,使用较小的第二搜索范围即可获取到准确的列偏差,进一步减少计算耗时,提升深度图的生成速度。
在一个实施例中,深度成像方法可以基于预训练的光流卷积神经网络实现,服务器将获取到的物体图输入至预训练的光流卷积网络中,获取光流卷积网络输出的物体图对应的深度图,单目结构光相机拍摄的物体图为多帧图像,预训练的光流卷积网络包括第一光流卷积网络和第二光流卷积网络,第一光流卷积网络对应第一搜索范围,第二光流卷积网络对应第二搜索范围,第一搜索范围大于所述第二搜索范围。
在具体实现中,服务器将获取到的物体图输入至预训练的光流卷积网络中,获取光流卷积网络输出的物体图对应的深度图,包括:将物体图的第1帧输入至第一光流卷积网络中,获取第一光流卷积网络输出的第1帧对应的深度图,将物体图的第i帧输入至第二光流卷积网络中,获取第二光流卷积网络输出的第i帧对应的深度图,其中,i为大于1的整数。
本实施例,服务器使用预先训练的两个光流卷积网络进行深度成像,第一光流卷积网络的搜索范围较大,适用于获取物体图的第1帧对应的深度图,第二光流卷积网络的搜索范围较小,适用于获取物体图的后续帧的深度图,从而进一步压缩深度成像的耗时。
在一个实施例中,预训练的光流卷积网络可以通过如图5所示的各步骤进行训练,具体包括:
步骤401,获取三维模型数据集,三维模型数据集中包括若干个三维模型。
在一个例子中,获取的三维模型数据集可以为场景流数据集(Scene FlowDatasets)中的三维悬浮物数据集(Flying Things3D),Flying Things 3D数据集由若干漂浮在空中的三维物体及虚拟背景组成。
步骤402,根据预设的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,获得第一训练样本集。
在具体实现中,服务器可以使用预设的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,获得第一训练样本集,预设的虚拟单目结构光相机的旋转矩阵为单位阵,平移矩阵为零矩阵,即认为预设的虚拟单目结构光相机不存在行偏移,第一训练样本集中的训练样本包括成对的物体图和参考图,以及光流真值数据。
在一个例子中,服务器在使用预设的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,得到第一训练样本集后,可以对第一训练样本进行预处理,预处理包括图像亮度调整,图像对比度调整和图像剪裁等,从而对第一训练样本集进行大幅度的扩充。
步骤403,根据第一训练样本集,对初始光流卷积网络进行训练。
在具体实现中,服务器获得第一训练样本集后,可以根据第一训练样本集,对初始光流卷积网络进行训练,第一训练样本集为训练提供通用性基础数据。
步骤404,调整的虚拟单目结构光相机对应的旋转矩阵和/或平移矩阵,根据调整后的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,获得第二训练样本集。
在具体实现中,服务器在根据第一训练样本集,对初始光流卷积网络进行训练后,可以调整的虚拟单目结构光相机对应的旋转矩阵和/或平移矩阵,即认为虚拟单目结构光相机的内部结构发生变化,存在行偏差,服务器根据调整后的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,获得第二训练样本集,第二训练样本集中的训练样本包括成对的物体图和参考图,以及光流真值数据。
在一个例子中,服务器根据调整后的虚拟单目结构光相机对三维模型进行虚拟成像和三维渲染,得到第二训练样本集后,可以对第二训练样本进行预处理,预处理包括增加高斯噪声和进行高斯模糊操作,可以模拟真实人体皮肤对散斑结构光反射率低、成像清晰度和信噪比差的现象,使得深度成像方法可以更好的适配人脸或人体区域。
在一个例子中,对第二训练样本进行的预处理还包括图像局部对比度归一化操作(Local Contrast Normalization,简称:LCN),在单目结构光系统中,物体图和参考图的散斑亮度和对比度会随着拍摄距离和场景中物体材质的不同而产生较大差异,使用LCN可以提升光流卷积网络对为物体图与参考图差异较大的情况的鲁棒性。
在一个例子中,LCN操作可以通过如下公式实现:
Figure BDA0003226661190000111
式中,I为原始像素亮度值,ILCN为LCN操作后的像素亮度值,μ为该像素点周围预设窗口内的亮度均值,预设窗口大小一般在9×9至15×15之间,σ为该像素点周围预设窗口内的亮度标准差,η为预设常数,用于防止分母为0。
步骤405,根据第二训练样本集,对经过第一训练样本集训练后的光流卷积网络进行训练,得到预训练的光流卷积网络。
在具体实现中,服务器在获得第二训练样本集后,可以根据第二训练样本集,对经过第一训练样本集训练后的光流卷积网络进行训练,得到预训练的光流卷积网络。
在一个例子中,服务器可以使用RMSProp优化器,对模型训练过程中的学习率进行动态调整,学习率随迭代次数的增加而阶梯式下降,服务器采用Smooth-L1-loss函数作为损失函数对光流卷积网络进行训练,损失值的计算公式如下:
Figure BDA0003226661190000112
Figure BDA0003226661190000113
式中,Loss损失值,N为标记的像素数量,dij为真实视差值,
Figure BDA0003226661190000114
为预测的视差值,
Figure BDA0003226661190000115
为Smooth-L1-loss函数。
本实施例,服务器对光流卷积网络进行双重训练,第一重训练是针对通用的光流法网络进行的训练,即泛化的训练,使其具有获取基础的光流偏差的能力,第二重训练是针对单目结构光相机的针对性训练,使得光流卷积网络对行偏差具备鲁棒性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请的另一个实施例涉及一种电子设备,如图6所示,包括:至少一个处理器501;以及,与所述至少一个处理器501通信连接的存储器502;其中,所述存储器502存储有可被所述至少一个处理器501执行的指令,所述指令被所述至少一个处理器501执行,以使所述至少一个处理器501能够执行上述各实施例中的深度成像方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请的另一个实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种深度成像方法,其特征在于,包括:
提取获取到的物体图的特征和预设的参考图的特征,得到所述物体图对应的特征图和所述参考图对应的特征图;
根据所述物体图对应的特征图、所述参考图对应的特征图和预设的搜索范围,计算所述物体图与所述参考图之间的关联性;其中,所述搜索范围包括行方向上的搜索范围和列方向上的搜索范围;
根据所述关联性,获取所述物体图与所述参考图之间的列偏差;
根据所述物体图与所述参考图之间的列偏差,获取所述物体图对应的深度图。
2.根据权利要求1所述的深度成像方法,其特征在于,所述物体图对应的特征图的尺寸为:N×H×W,其中,所述N为通道数,所述H为所述物体图的高度,所述W为所述物体图的宽度;
在根据所述关联性,获取所述物体图与所述参考图之间的列偏差之前,还包括:
遍历所述物体图对应的特征图的每一个位置,并基于所述搜索范围,确定所述物体图对应的特征图的匹配代价空间[(2r+1)×(2c+1),H,W],所述(2r+1)×(2c+1)为所述匹配代价空间对应的通道数;
所述根据所述关联性,获取所述物体图与所述参考图之间的列偏差,包括:
根据所述关联性,对所述匹配代价空间进行聚合计算,获取所述物体图对应的通道数为2的光流视差矩阵:2×H×W,所述光流视差矩阵的通道包括第一通道和第二通道,所述第一通道表示所述物体图与所述参考图之间的行偏差,所述第二通道表示所述物体图与所述参考图之间的列偏差。
3.根据权利要求1所述的深度成像方法,其特征在于,所述物体图为多帧图像,所述获取所述物体图与所述参考图之间的列偏差,包括:
获取所述物体图的第i帧与所述参考图之间的列偏差;其中,所述i为大于0的整数;
若所述i大于1,则所述获取所述物体图的第i帧与所述参考图之间的列偏差,包括:
获取所述物体图的第i帧与所述物体图的第i-1帧之间的列偏差;
根据所述第i帧与所述第i-1帧之间的列偏差,以及所述第i-1帧与所述参考图之间的列偏差,获取所述第i帧与所述参考图之间的列偏差。
4.根据权利要求3所述的深度成像方法,其特征在于,若所述i等于1,则所述预设的搜索范围为第一搜索范围;
若所述i大于1,则所述预设的搜索范围为第二搜索范围;其中,所述第一搜索范围大于所述第二搜索范围。
5.根据权利要求1-4中任一项所述的深度成像方法,其特征在于,所述预设的搜索范围为:[-r,r]×[-c,c],其中,所述[-r,r]为所述行方向上的搜索范围,所述[-c,c]为所述列方向上的搜索范围;
通过以下公式,根据所述物体图对应的特征图、所述参考图对应的特征图和预设的搜索范围,确定所述物体图与所述参考图之间的关联性:
Figure FDA0003226661180000021
其中,所述c(x1,r,c)用于表示所述物体图与所述参考图之间的关联性,所述f1(x1)为所述物体图对应的特征图在x1位置处的特征向量,所述f2(x1+o)为所述参考图在以x1位置为中心在
Figure FDA0003226661180000022
范围内的特征向量。
6.根据权利要求2所述的深度成像方法,其特征在于,所述深度成像方法基于预训练的光流卷积神经网络实现,包括:
将获取到的物体图输入至所述光流卷积网络中,获取所述光流卷积网络输出的所述物体图对应的深度图;
所述光流卷积网络包括特征提取单元,匹配代价空间构建单元和聚合单元;
所述特征提取单元用于提取所述物体图的特征和所述参考图的特征,得到所述物体图对应的特征图和所述参考图对应的特征图;
所述匹配代价空间构建单元用于根据所述物体图对应的特征图、所述参考图对应的特征图和所述搜索范围,确定所述物体图与所述参考图之间的关联性;
所述匹配代价空间构建单元还用于遍历所述物体图对应的特征图的每一个位置,并基于所述搜索范围,确定所述物体图对应的特征图的匹配代价空间;
所述聚合单元用于根据所述关联性,对所述匹配代价空间进行聚合计算,获取所述物体图与所述参考图之间的列偏差,并根据所述物体图与所述参考图之间的列偏差,获取所述物体图对应的深度图。
7.根据权利要求6所述深度成像方法,其特征在于,所述物体图为多帧图像,所述光流卷积网络包括第一光流卷积网络和第二光流卷积网络,所述第一光流卷积网络对应第一搜索范围,所述第二光流卷积网络对应第二搜索范围,所述第一搜索范围大于所述第二搜索范围;
所述将获取到的物体图输入至所述光流卷积网络中,获取所述光流卷积网络输出的所述物体图对应的深度图,包括:
将所述物体图的第1帧输入至所述第一光流卷积网络中,获取所述第一光流卷积网络输出的所述第1帧对应的深度图;
将所述物体图的第i帧输入至所述第二光流卷积网络中,获取所述第二光流卷积网络输出的所述第i帧对应的深度图;其中,所述i为大于1的整数。
8.根据权利要求5或6所述的深度成像方法,其特征在于,所述预训练的光流卷积网络通过以下步骤训练:
获取三维模型数据集;其中,所述三维模型数据集中包括若干个三维模型;
根据预设的虚拟单目结构光相机对所述三维模型进行虚拟成像和三维渲染,获得第一训练样本集;其中,所述第一训练样本集中的训练样本包括物体图、参考图和光流真值数据;
根据所述第一训练样本集,对初始光流卷积网络进行训练;
调整所述的虚拟单目结构光相机对应的旋转矩阵和/或平移矩阵,根据调整后的所述虚拟单目结构光相机对所述三维模型进行虚拟成像和三维渲染,获得第二训练样本集;其中,所述第二训练样本集中的训练样本包括物体图、参考图和光流真值数据;
根据所述第二训练样本集,对经过所述第一训练样本集训练后的光流卷积网络进行训练,得到所述预训练的光流卷积网络。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的深度成像方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的深度成像方法。
CN202110974025.1A 2021-08-24 2021-08-24 深度成像方法、电子设备和计算机可读存储介质 Active CN113763448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110974025.1A CN113763448B (zh) 2021-08-24 2021-08-24 深度成像方法、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110974025.1A CN113763448B (zh) 2021-08-24 2021-08-24 深度成像方法、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113763448A true CN113763448A (zh) 2021-12-07
CN113763448B CN113763448B (zh) 2022-05-31

Family

ID=78790990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110974025.1A Active CN113763448B (zh) 2021-08-24 2021-08-24 深度成像方法、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113763448B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754376B1 (en) * 2016-03-18 2017-09-05 Chenyang Ge Method and apparatus for generating a structured light speckle encoded pattern
US10186049B1 (en) * 2017-03-06 2019-01-22 URC Ventures, Inc. Determining changes in object structure over time using mobile device images
CN110490920A (zh) * 2019-07-12 2019-11-22 深圳奥比中光科技有限公司 融合深度计算处理器及3d图像设备
CN110517304A (zh) * 2019-07-26 2019-11-29 苏州浪潮智能科技有限公司 生成深度图的方法、装置、电子设备和存储介质
CN110542540A (zh) * 2019-07-18 2019-12-06 北京的卢深视科技有限公司 结构光模组的光轴对齐矫正方法
CN111402313A (zh) * 2020-03-13 2020-07-10 合肥的卢深视科技有限公司 图像深度恢复方法和装置
CN111462206A (zh) * 2020-03-24 2020-07-28 合肥的卢深视科技有限公司 一种基于卷积神经网络的单目结构光深度成像方法
CN111768450A (zh) * 2020-06-10 2020-10-13 北京的卢深视科技有限公司 基于散斑图的结构光相机行偏差的自动检测方法和装置
CN112184793A (zh) * 2020-10-15 2021-01-05 北京的卢深视科技有限公司 深度数据的处理方法、装置及可读存储介质
CN113034565A (zh) * 2021-03-25 2021-06-25 奥比中光科技集团股份有限公司 一种单目结构光的深度计算方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754376B1 (en) * 2016-03-18 2017-09-05 Chenyang Ge Method and apparatus for generating a structured light speckle encoded pattern
US10186049B1 (en) * 2017-03-06 2019-01-22 URC Ventures, Inc. Determining changes in object structure over time using mobile device images
CN110490920A (zh) * 2019-07-12 2019-11-22 深圳奥比中光科技有限公司 融合深度计算处理器及3d图像设备
CN110542540A (zh) * 2019-07-18 2019-12-06 北京的卢深视科技有限公司 结构光模组的光轴对齐矫正方法
CN110517304A (zh) * 2019-07-26 2019-11-29 苏州浪潮智能科技有限公司 生成深度图的方法、装置、电子设备和存储介质
CN111402313A (zh) * 2020-03-13 2020-07-10 合肥的卢深视科技有限公司 图像深度恢复方法和装置
CN111462206A (zh) * 2020-03-24 2020-07-28 合肥的卢深视科技有限公司 一种基于卷积神经网络的单目结构光深度成像方法
CN111768450A (zh) * 2020-06-10 2020-10-13 北京的卢深视科技有限公司 基于散斑图的结构光相机行偏差的自动检测方法和装置
CN112184793A (zh) * 2020-10-15 2021-01-05 北京的卢深视科技有限公司 深度数据的处理方法、装置及可读存储介质
CN113034565A (zh) * 2021-03-25 2021-06-25 奥比中光科技集团股份有限公司 一种单目结构光的深度计算方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
伏燕军 等: "基于单目结构光的大物体三维测量关键方法的研究", 《应用光学》 *
张金凯: "介观尺度零件变视场结构光显微立体视觉测量方法研究", 《中国优秀硕士学位论文全文数据库 工程科技I辑》 *

Also Published As

Publication number Publication date
CN113763448B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN110033003B (zh) 图像分割方法和图像处理装置
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN110188795B (zh) 图像分类方法、数据处理方法和装置
EP3937124A1 (en) Image processing method, device and apparatus, and storage medium
CN111242088B (zh) 一种目标检测方法、装置、电子设备及存储介质
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN110473137A (zh) 图像处理方法和装置
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
WO2020146911A2 (en) Multi-stage multi-reference bootstrapping for video super-resolution
CN110910437B (zh) 一种复杂室内场景的深度预测方法
EP4006777A1 (en) Image classification method and device
CN112101195B (zh) 人群密度预估方法、装置、计算机设备和存储介质
CN111898735A (zh) 蒸馏学习方法、装置、计算机设备和存储介质
CN112529904A (zh) 图像语义分割方法、装置、计算机可读存储介质和芯片
CN111652921A (zh) 一种单目深度预测模型的生成方法及单目深度预测方法
WO2022165722A1 (zh) 单目深度估计方法、装置及设备
CN113570658A (zh) 基于深度卷积网络的单目视频深度估计方法
CN112598708A (zh) 一种基于四特征融合和权重系数的高光谱目标跟踪方法
CN113763448B (zh) 深度成像方法、电子设备和计算机可读存储介质
CN111667495A (zh) 一种图像场景解析方法和装置
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN113838102B (zh) 一种基于各向异性稠密卷积的光流确定方法和系统
CN114757984A (zh) 光场相机的场景深度估计方法及装置
CN114119757A (zh) 图像处理方法、装置、设备、介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220424

Address after: 230091 room 611-217, R & D center building, China (Hefei) international intelligent voice Industrial Park, 3333 Xiyou Road, high tech Zone, Hefei, Anhui Province

Applicant after: Hefei lushenshi Technology Co.,Ltd.

Address before: 100083 room 3032, North B, bungalow, building 2, A5 Xueyuan Road, Haidian District, Beijing

Applicant before: BEIJING DILUSENSE TECHNOLOGY CO.,LTD.

Applicant before: Hefei lushenshi Technology Co., Ltd

GR01 Patent grant
GR01 Patent grant