CN112802078A - 深度图生成方法和装置 - Google Patents

深度图生成方法和装置 Download PDF

Info

Publication number
CN112802078A
CN112802078A CN201911115722.0A CN201911115722A CN112802078A CN 112802078 A CN112802078 A CN 112802078A CN 201911115722 A CN201911115722 A CN 201911115722A CN 112802078 A CN112802078 A CN 112802078A
Authority
CN
China
Prior art keywords
depth map
matching cost
depth
matrix
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911115722.0A
Other languages
English (en)
Inventor
毛亚敏
刘志花
高天豪
金允泰
李洪硕
全明帝
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201911115722.0A priority Critical patent/CN112802078A/zh
Priority to KR1020200146386A priority patent/KR20210058683A/ko
Priority to US17/094,932 priority patent/US11763433B2/en
Priority to EP20207613.9A priority patent/EP3822910A1/en
Publication of CN112802078A publication Critical patent/CN112802078A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种深度图生成方法和装置。所述深度图生成方法包括:基于双目图像产生第一深度图;获取深度相机采集的第二深度图;通过将第一深度图与第二深度图融合来产生最终深度图。

Description

深度图生成方法和装置
技术领域
本发明涉及图像处理领域,更具体地,涉及一种深度图生成方法和装置。
背景技术
最近,在自动驾驶、机器人导航和增强现实等众多技术中,都需要基于精准且稠密的深度估计来解决高级别的任务。深度既可以通过诸如雷达(LiDAR)、结构光传感器(structure light,SL)、飞行时间传感器(time-of-flight,TOF)等的传感器获取,也可以通过基于立体匹配算法的深度估计从双目图像中生成。
具体来说,LiDAR是一种能够准确测量远距离的传感器,但是仅可以提供稀疏的深度图且垂直方向的成像视野小,而且高精度的LiDAR设备比较昂贵且体积大,限制了其应用场景。SL和TOF传感器的测量距离有限,随着测量距离增加,其精度就逐渐下降,这一缺点限制了其测量范围,在室外环境中效果不佳,并且采集的深度图存在噪声高、分辨率低等问题。基于立体匹配算法的深度估计能够获得稠密的深度图,目前精度较高的多是基于深度学习网络的方法,但在遇到无纹理区域、反光区域和遮挡区域等病态区域时深度估计精度下降,并且存在域适应问题,即,在特定数据集(诸如,合成数据集)训练的网络模型,换到别的数据集(诸如,真实数据集)上会存在精度下降的问题,不适合应用在新的环境中。
发明内容
根据本发明的示例性实施例,提供了一种深度图生成方法,包括:基于双目图像产生第一深度图;获取深度相机采集的第二深度图;通过将第一深度图与第二深度图融合来产生最终深度图。
获取第二深度图的步骤可包括:从第二深度图提取深度特征;通过对提取的深度特征进行由相似矩阵引导的滤波,来产生深度补全的第三深度图,其中,相似矩阵是基于双目图像产生的。
产生深度补全的第三深度图的步骤可包括:基于相似矩阵获得深度图的当前像素与当前像素的相邻像素之间的相似度,并基于相邻像素的深度特征和所述相似度按照预定方向对当前像素的深度特征进行滤波。
所述预定方向可包括从上到下的方向、从下到上的方向、从左到右的方向和从右到左的方向中的至少一个方向。
产生第一深度图的步骤可包括:获得双目图像包括的每个单目图像的第一特征图;基于单目图像的第一特征图,来获得匹配代价矩阵;对匹配代价矩阵进行代价聚合;基于代价聚合的匹配代价矩阵来产生每个单目图像的深度图。
产生第一深度图的步骤还可包括:对每个单目图像的深度图进行一致性检测以获得每个单目图像的可信深度图。
获得第一特征图的步骤可包括基于注意力机制的神经网络对双目图像进行特征提取。
获得匹配代价矩阵的步骤可包括:基于单目图像的第一特征图获得初始匹配代价矩阵,并将初始匹配代价矩阵输入到预定神经网络进行卷积来获得匹配代价矩阵。
进行代价聚合的步骤可包括基于图神经网络(GNN)对匹配代价矩阵进行代价聚合。
进行代价聚合的步骤可包括:根据距离获得与作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于每个邻域节点的权重和邻域节点的匹配代价,来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。
进行代价聚合的步骤还可包括使用第二特征图引导代价聚合。
第二特征图可以是基于语义分割神经网络生成的,或者第二特征图与第一特征图相同。
进行代价聚合的步骤可包括:根据距离获得与第二特征图的每个像素的邻域像素,按照第二特征图与匹配代价之间的像素对应关系,找到作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于邻域节点的权重和匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。
所述距离可以为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和。
进行代价聚合的步骤可包括:根据多个不同尺度的匹配代价矩阵获得临时匹配代价矩阵,获得临时匹配代价矩阵的每个元素对应于预定视差的概率,根据所述概率与临时匹配代价矩阵获得第四匹配代价矩阵。
进行代价聚合的步骤可包括基于相似矩阵和匹配代价矩阵,获得第五匹配代价矩阵,其中,相似矩阵是基于双目图像产生的。
产生第一深度图的步骤可包括:将双目图像输入到预定神经网络进行特征提取以获得双目图像包括的每个单目图像的第一特征图;基于单目图像的第一特征图来获得匹配代价矩阵;计算匹配代价矩阵的每个元素对应于预定视差的概率以将匹配代价矩阵转换为匹配概率矩阵;基于匹配概率矩阵来产生每个单目图像的深度图。
获得可信深度图的步骤可包括:在各个单目图像的深度图之间比较对应位置的像素,当对应位置的像素的深度差值大于或等于预定阈值时将对应位置的像素确定为不可信像素,当对应位置的像素的深度差值小于所述预定阈值时将对应位置的像素确定为可信像素,以获得可信深度图。
获得可信深度图的步骤可包括:根据可信深度图,对第一特征图、初始匹配代价矩阵和匹配代价矩阵进行处理。
根据本发明的示例性实施例,提供了一种深度图生成装置,包括:第一获取单元,基于双目图像产生第一深度图;第二获取单元,获取深度相机采集的第二深度图;深度合成单元,通过将第一深度图与第二深度图融合来产生最终深度图。
第二获取单元可包括:深度特征提取单元,从第二深度图提取深度特征;滤波单元,通过对提取的深度特征进行由相似矩阵引导的滤波,来产生深度补全的第三深度图,其中,相似矩阵由第一获取单元基于双目图像产生。
滤波单元可基于相似矩阵获得深度图的当前像素与当前像素的相邻像素之间的相似度,并基于相邻像素的深度特征和所述相似度按照预定方向对当前像素的深度特征进行滤波。
所述预定方向可包括从上到下的方向、从下到上的方向、从左到右的方向和从右到左的方向中的至少一个方向。
第一获取单元可包括:特征提取单元,获得双目图像包括的每个单目图像的第一特征图;匹配代价获得单元,基于单目图像的第一特征图,来获得匹配代价矩阵;代价聚合单元,对匹配代价矩阵进行代价聚合;深度图产生单元,基于代价聚合的匹配代价矩阵来产生每个单目图像的深度图。
第一获取单元还可包括:可信深度获得单元,对每个单目图像的深度图进行一致性检测以获得每个单目图像的可信深度图。
特征提取单元可基于注意力机制的神经网络对双目图像进行特征提取。
匹配代价获得单元可基于单目图像的第一特征图获得初始匹配代价矩阵,并将初始匹配代价矩阵输入到预定神经网络进行卷积来获得匹配代价矩阵。
代价聚合单元可基于图神经网络(GNN)对匹配代价矩阵进行代价聚合。
代价聚合单元可根据距离获得与作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于每个邻域节点的权重和邻域节点的匹配代价,来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。
代价聚合单元还可使用第二特征图引导代价聚合。
第二特征图可以是基于语义分割神经网络生成的,或者第二特征图与第一特征图相同。
代价聚合单元可根据距离获得与第二特征图的每个像素的邻域像素,按照第二特征图与匹配代价之间的像素对应关系,找到作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于邻域节点的权重和匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。
所述距离可以为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和。
代价聚合单元可根据多个不同尺度的匹配代价矩阵获得临时匹配代价矩阵,获得临时匹配代价矩阵的每个元素对应于预定视差的概率,根据所述概率与临时匹配代价矩阵获得第四匹配代价矩阵。
代价聚合单元可基于相似矩阵和匹配代价矩阵,获得第五匹配代价矩阵,其中,相似矩阵由第一获取单元基于双目图像产生。
第一获取单元可包括:特征提取单元,将双目图像输入到预定神经网络进行特征提取以获得双目图像包括的每个单目图像的第一特征图;匹配代价获得单元,基于单目图像的第一特征图来获得匹配代价矩阵;匹配概率获得单元,计算匹配代价矩阵的每个元素对应于预定视差的概率以将匹配代价矩阵转换为匹配概率矩阵;深度图产生单元,基于匹配概率矩阵来产生每个单目图像的深度图。
可信深度获得单元可在各个单目图像的深度图之间比较对应位置的像素,当对应位置的像素的深度差值大于或等于预定阈值时将对应位置的像素确定为不可信像素,当对应位置的像素的深度差值小于所述预定阈值时将对应位置的像素确定为可信像素,以获得可信深度图。
可信深度获得单元可根据可信深度图,对第一特征图、初始匹配代价矩阵和匹配代价矩阵进行处理。
根据本发明的示例性实施例,提供了一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。
根据本发明的示例性实施例,提供了一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
图1是示出根据本发明示例性实施例的深度图生成装置的框图;
图2是示出根据本发明示例性实施例的深度图生成装置的详细框图;
图3是示出根据本发明示例性实施例的深度图生成装置的示意图;
图4是示出根据本发明示例性实施例的由获得的相似矩阵引导深度滤波的示意图。
图5是示出根据本发明示例性实施例的基于注意力机制的特征提取的示意图;
图6是示出根据本发明示例性实施例的基于注意机制的传播模块的堆叠沙漏结构的示意图;
图7是示出根据本发明示例性实施例的像素间影响的示意图;
图8是示出根据本发明示例性实施例的匹配代价从上到下在高度维度中的传播的示意图;
图9是示出根据本发明示例性实施例的代价聚合单元基于图神经网络(GNN)进行代价聚合的流程图;
图10是示出根据本发明示例性实施例的代价聚合单元基于图神经网络进行代价聚合的示意图;
图11是示出根据本发明实施例的聚合函数的操作的示意图;
图12是示出根据本发明示例性实施例的可信深度获得单元进行特征/匹配代价提高操作的示意图;
图13是示出根据本发明示例性实施例的几何一致性优化操作的示意图;
图14是示出根据本发明示例性实施例的深度图生成方法的流程图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
总体来说,本发明通过同时对传感器获得的深度图和立体匹配算法获得的深度图进行优化来获得高质量的深度图;一方面,针对从传感器获得的深度图存在噪声、稀疏、分辨率低等问题,提出了基于双目图像引导的深度学习网络对传感器获得的深度图进行补全,获得补全的深度图A;另一方面,针对基于深度学习方法进行深度估计在病态区域精度差的问题,提出了基于注意力机制和图神经网络的深度学习网络来提取鲁棒的特征并将特征传导到病态区域,来获得深度图B;最后,通过深度优化将补全的深度图A和立体匹配算法获得的深度图B联合优化,从深度图A和B中分别获取对应的法向量地图,通过法向量地图一致性约束生成高质量的深度图。
图1是示出根据本发明示例性实施例的深度图生成装置的框图。
参照图1,根据本发明示例性实施例的深度图生成装置100可包括第一获取单元110、第二获取单元120和深度合成单元130。
第一获取单元110可基于双目图像产生第一深度图。此外,第一获取单元110还可基于双目图像产生相似矩阵。这里,第一获取单元110可从双目图像中任意选择一张单目图像(仅作为示例而非限制,左图像或右图像),使用一个神经网络(仅作为示例而非限制,该神经网络可以为卷积神经网络)计算出图像像素间的相似程度,得到相似矩阵。此外,仅作为示例而非限制,双目图像可由双目相机采集。此外,应该了解,本发明中所述的左图像右图像、左视差图右视差图、左深度图右深度图等仅是双目图像的示例而非限制,本发明同样适用于其他类型的双目图像,诸如,上下类型双目图像。
第二获取单元120可获取深度相机采集的第二深度图。更具体地,第二获取单元120可通过基于相似矩阵对深度图进行深度补全来产生第二深度图。更具体地,第二获取单元120可首先获取第一获取单元110产生的相似矩阵,然后将深度图输入到由第二获取单元120构成的深度学习网络,以得到第二深度图。此外,使用现有深度学习网络也可以直接输入深度图,输出第二深度图。但是,本发明通过相似矩阵获得深度图的像素间的相似程度,从而在深度补全的时候可以引导网络赋予相似度高的相邻像素较高权重,从而获得精度更高的补全深度图。这里,仅作为示例而非限制,深度图可由诸如SL或TOF传感器的深度相机采集。
深度合成单元130可通过将第一深度图与第二深度图融合来产生最终深度图。这里,仅作为示例而非限制,深度合成单元130可诸如采用加权融合的方式进行融合以输出高质量的深度图。
下面将参照图2和图3更详细地对根据本发明示例性实施例的深度图生成装置100进行描述。图2是示出根据本发明示例性实施例的深度图生成装置的详细框图。图3是示出根据本发明示例性实施例的深度图生成装置的示意图。
参照图2,第二获取单元120可包括深度特征提取单元211和滤波单元212,第一获取单元110可包括特征提取单元221、匹配代价获得单元222、代价聚合单元223和深度图产生单元224。
深度特征提取单元211可从第二深度图提取深度特征。更具体地,深度特征提取单元211可将深度图输入到一个神经网络(仅作为示例而非限制,该神经网络可以为卷积神经网络)以提取深度特征。
随后,为了补全深度图的空洞以及提高深度图的分辨率,需要对深度图进行滤波,本发明通过相似矩阵引导滤波,既保持了边界信息,又保证物体内部的平滑。图4是示出根据本发明示例性实施例的由获得的相似矩阵引导滤波的示意图。如图4所示,由第一获取单元110可基于双目图像产生相似矩阵并用于第二获取单元120的滤波。这里,滤波单元212可通过对提取的深度特征进行由相似矩阵引导的滤波来产生深度补全的第三深度图,此时,深度合成单元130可通过将第一深度图与第三深度图融合来产生最终深度图。相似矩阵的作用可以是计算像素相似性来引导后面的特征的自适应聚合,这样更利于在少纹理区域传播。更具体地,滤波单元212可基于相似矩阵获得深度图的当前像素与当前像素的相邻像素之间的相似度,并使用基于相邻像素的深度特征和所述相似度按照预定方向对当前像素的深度特征进行滤波。仅作为示例而非限制,假设获得的深度图的当前像素的深度特征为F(维度为H*W*C,其中,H表示高度,W表示宽度,C表示通道数量),滤波单元212可将其沿着维度切片,得到C个深度特征切片(维度H*W),每个深度特征切片内传导的过程包括预定方向的更新。这里,仅作为示例而非限制,所述预定方向可包括从上到下的方向、从下到上的方向、从左到右的方向和从右到左的方向中的至少一个方向。此外,仅作为示例而非限制,针对上到下的方向和从左到右的方向,假设当前像素p的邻近像素q的深度特征值是d′(q),滤波单元212可通过相似矩阵获得当前像素p与邻近像素q之间的相似度w,并根据以下等式(1)对当前像素p的深度特征值d(p)进行滤波以获得更新后当前像素p的深度特征值d′(p);针对然后从下到上的方向和从右到左的方向,假设当前像素p的邻近像素q更新前的深度特征值是d(q),更新后的深度特征值是d′(q),滤波单元212可通过相似矩阵获得当前像素p与邻近像素q之间的相似度w,并根据以下等式(2)对当前像素p的深度特征值d(p)进行滤波以获得更新后当前像素p的深度特征值d″(p)。滤波单元212可随后通过诸如卷积神经网络的神经网络对滤波后的深度特征进行卷积,以产生深度补全的第三深度图。
d′(p)=d(p)+w*d′(q) (1)
d″(p)=w*d(q)+(1-w2)*d′(q) (2)
利用多视几何理论,可通过双目图像的两个单目图像(仅作为示例而非限制,左图像和右图像)的视差可以计算出像素的深度。这里,视差图可以是通过立体匹配算法生成的,即,找到左图像和右图像像素间的对应关系,通过最小化匹配代价来产生视差图。目前,随着深度学习网络在立体匹配算法上的应用,视差图的精度已经得到很大提升,但在病态区域,如无纹理区域、遮挡区域、反光区域等,生成的视差图误差仍然较大。为了解决上述挑战性问题,本发明改进了立体匹配算法中的三个步骤,即,匹配代价计算、代价聚合和视差计算。在匹配代价计算中,可采用注意力机制进行特征提取,获得鲁棒的深度特征(诸如,物体边界等)来减少双目图像像素间的错误匹配,使得在病态区域的代价匹配更加准确,此外还可通过学习到的左右深度图判断出来可信深度,反馈给特征提取网络来进行特征/匹配代价提高,这将在后面进行描述;在代价聚合中,可采用图神经网络进行代价聚合,捕获像素间较长范围的依赖性,可以将提取的鲁棒特征传导到病态区域;在视差计算中,为了获得更高精度的视差图,可对没有标记信息的像素使用了左右一致性约束。
特征提取单元221可获得双目图像包括的每个单目图像的第一特征图。更具体地,特征提取单元221可基于注意力机制的神经网络对双目图像进行特征提取。此外,相似矩阵可由特征提取单元221基于双目图像获得,也可在第一获取单元110中设置另外的单元来获得。
图5是示出根据本发明示例性实施例的基于注意力机制的特征提取的示意图。在添加注意力机制之前,特征之间通过卷积来进行特征聚合,感受野的大小由卷积核的尺寸决定;而添加注意力机制之后,将不同的权重赋予不同的特征因而特征聚合范围是动态的,如图5中所示,左边部分表示特征图,右边部分表示注意力机制,通过注意力机制学习特征对应的权重,如果在基于注意力机制的神经网络的卷积操作中所用特征的权重很小,则如图5右边部分向左边的箭头指示的相当于阻挡了该特征向卷积的中心特征传播的信息量,而如图5右边部分向右边的箭头指示的传播是指卷积操作中周围特征向中心特征贡献的信息量,注意力机制捕获到了物体边界信息,则属于同一个物体的特征可以聚合,不属于同一个物体的特征会被阻挡。
更具体地,特征提取单元221可首先对双目图像进行特征提取以获得双目图像包括的每个单目图像的特征图F(维度为H*W*C,其中,H代表特征图的高度,W代表特征图的宽度,C代表特征图的通道数目),取每个通道的特征图fi(维度为H*W)并对其执行最大池化操作MaxPool(fi),即计算特征图fi中最大的元素mi,总共C个通道故执行C次最大池化操作,最终得到C个最大的元素m1、m2、…、mc,然后将m1、m2、…、mc输入到一个神经网络中以获得注意力参数a1、a2、…、ac,最后将注意力参数a1、a2、…、ac分别与不同通道的特征图f1、f2、…、fc逐元素相乘以获得新的特征图F’。
作为另一示例,还可基于特征空间的注意力机制,即,特征提取单元221可取特征图F的每个像素的特征图fj(维度:C)并对其执行最大池化操作MaxPool(fj),即计算特征图fj中最大的元素mj,总共H*W个像素故执行H*W次最大池化操作,最终得到H*W个最大的元素m1、m2、…、mH*W,然后将m1、m2、…、mH*W输入到所述一个神经网络中以获得注意力参数b1、b2、…、bH*W,最后将注意力参数b1、b2、…、bH*W分别与不同像素的特征图f1、f2、…、fH*W逐元素相乘以获得新的特征图F”。因此,可将注意力机制应用于在对左右图像的特征提取中,并利用注意力学习到全局的信息来获得鲁棒的深度特征(物体边界等),从而减少双目图像像素间的错误匹配,使得在病态区域的匹配代价更加准确。
鲁棒可靠的立体匹配对于多媒体应用中的场景理解具有重要意义。强视觉线索能够很好地被检测并与当前的特征描述符匹配,但通常强视觉线索过于稀疏,无法传播匹配的代价。但将代价从强信元传播到弱信元是稠密视差图生成的关键。考虑到这一点,可设计基于注意机制传的传播模块,将可靠的匹配代价从一个单元传播到它的邻近区域,特别是病态区域。基于注意机制传的传播模块可包括两部分,即,注意力部分和传播部分。
具体来说,可通过在现有的卷积神经网络模型的堆叠沙漏(stack hourglass)模块上嵌入空间注意层来增强鲁棒的匹配信念和削弱假阳性匹配信念。在将四维匹配代价压缩为三维后,可将三维匹配代价切成片,对于每一片从一边到另一边进行视差信念传播。与堆叠沙漏(stack hourglass)模块结构不同,可在匹配代价内采用显式的视差信念传播,以获得更有效的信念传播。
图6是示出根据本发明示例性实施例的基于注意机制的传播模块的堆叠沙漏结构的示意图。如图6所示,可采用现有的卷积神经网络模型作为主干,并可通过基于注意力机制的传播模块对堆叠沙漏模块结构进行改进。由于每个单元对其邻域的信息传输与共享卷积核相似,可引入空间注意机制以扩大强鲁棒像素的影响,同时引入通道注意力机制来更加有效地进行鲁棒特征提取。图6中的传播模块是根据本发明示例性实施例的基于注意机制的传播模块,其中,基于注意力机制的传播模块的堆叠沙漏结构与嵌入注意力机制的堆叠沙漏的含义相同。
卷积神经网络模型的堆叠沙漏模块结构可通过不同尺度设计将信息从一个单元传送到其邻居,并可通过对匹配代价进行上采样和下采样扩大每个单元的范围。然而,这种信息交换有时效果不够,因为一个像素对另一个像素的影响与它们之间的距离密切相关。图7是示出根据本发明示例性实施例的像素间影响的示意图。如图7所示,其中黑色单元指的是具有强视差信念的单元,即鲁棒匹配,白色单元指的是具有弱视差信念的单元。一般来说,可将视差信念从黑色单元传递到另外两个白色单元。然而,使用一般卷积层核大小有限,需要堆叠许多卷积层或更大的卷积核来进行这种信念传递。因此,可采用基于视差信念传播的匹配代价传播模块。卷积神经网络模型的堆叠沙漏模块结构的输出包含四个维度,即通道、视差、高度和宽度,可压缩通道尺寸以获得三维匹配代价,即视差、高度和宽度。为了将视差信念从一侧传递到另一侧,可将匹配代价沿高度或宽度维度进行划分。图8是示出根据本发明示例性实施例的匹配代价从上到下在高度维度中的传播的示意图。如图8所示,描述了从上到下在高度维度中的传播。在获取形状为“视差*1*宽度”的切片时,可复制i次,并添加一个卷积核大小为1*kw的二维卷积层,其输入和输出通道都是D,即当前匹配代价中的视差维度。此外,可在非线性激活前加入批归一化(Batchnorm,BN)层,然后再加入另一个卷积和BN层(不进行激活)。通过这样,根据本发明示例性实施例的视差传播模块能够在全局范围内不传播视差信念低的单元。匹配代价获得单元222可基于单目图像的第一特征图来获得匹配代价矩阵。也就是说,匹配代价获得单元222可基于单目图像的第一特征图获得初始匹配代价矩阵,并将初始匹配代价矩阵输入到一个神经网络(仅作为示例而非限制,该神经网络可以为Hourglass卷积网络或多层3D卷积神经网络)进行卷积来获得匹配代价矩阵。匹配代价获得单元222可将特征维度均为H*W*C的左特征图Fl和右特征图Fr按照视差方向连接在一起来获得初始匹配代价矩阵。更具体地,当视差为0时,匹配代价获得单元222可直接连接左右特征图以获得维度为H*W*2C的矩阵;当视差为d时,匹配代价获得单元222可先将右特征图沿着预定方向(仅作为示例而非限制,水平方向)平移d(其中,d为正整数)列,然后再将左右特征图连接以得到维度为H*W*2C的矩阵;假设视差值d的范围为0至DD(其中,DD为正整数),匹配代价获得单元222可按照视差的大小依次平移右特征图,并连接左右特征图以获得维度为H*W*2C*D的矩阵,即初始匹配代价矩阵。随后,匹配代价获得单元222可将初始匹配代价矩阵输入到上述诸如Hourglass卷积网络或多层3D卷积神经网络的神经网络进行卷积来获得匹配代价矩阵(维度为H*W*D)。此外,匹配代价获得单元222将初始匹配代价矩阵输入到上述诸如Hourglass卷积网络或多层3D卷积神经网络的神经网络进行卷积还可获得多个不同尺度的匹配代价矩阵。
代价聚合单元223可对匹配代价矩阵进行代价聚合。这里,代价聚合单元223可基于图神经网络(GNN)对匹配代价矩阵进行代价聚合。更具体地,代价聚合单元223可根据距离获得与作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于每个邻域节点的权重和邻域节点的匹配代价,来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。下面将参照图9和图10对此进行描述。图9是示出根据本发明示例性实施例的代价聚合单元223基于图神经网络(GNN)进行代价聚合的流程图。图10是示出根据本发明示例性实施例的代价聚合单元223基于图神经网络进行代价聚合的示意图。如图9所示,在步骤S910,代价聚合单元223可根据匹配代价矩阵构建图。更具体地,将匹配代价矩阵的每个元素均作为中心节点,总共H*W个中心节点,每个中心节点由位置信息和特征信息(f,维度为D)组成,代价聚合单元223可获得与每个中心节点距离最近的特定数量k(k可由本领域技术人员根据实际情况进行设置)个其它中心节点(n1,n2,…,nk)(即,邻域节点),并将每个中心节点与对应的距离最近的k个其它中心节点连接形成边从而可构建图G,其中,所述距离可以为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和,更具体地,可通过欧式距离来计算该距离。在步骤S920,代价聚合单元223可将每个中心节点所对应的k个其它中心节点(也可称为k个邻近节点)的匹配代价沿着特征维度连接(即,每个近邻节点的特征维度为D,连接之后的总的维度为k*D)并输入到一个神经网络(仅作为示例而非限制,该神经网络可以为多层感知机网络)以获得每个中心节点与对应的距离最近的k个其它中心节点的边的权重(w1,w2,…,wk),并基于所述权重和对应的距离最近的k个其它中心节点的匹配代价来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。更具体地,代价聚合单元223可通过以下等式(3)更新匹配代价矩阵。
Figure BDA0002273979380000121
其中,wi是对应的距离最近的k个其它中心节点的边的权重,fi是对应的距离最近的k个其它中心节点的匹配代价,fbefore1是中心节点更新前的匹配代价,fcurrent1是中心节点更新后的匹配代价,σ是激活函数,a1、b1是预定常数,k为正整数。通过上述操作,可在像素间进行特征传播,多次迭代后可以捕获像素间较长范围的依赖性,从而将提取的鲁棒特征传导到病态区域。
此外,代价聚合单元223还可使用第二特征图Fseg引导代价聚合。这里,第二特征图是基于语义分割神经网络(诸如deeplabV3)生成的,或者第二特征图与第一特征图相同。更具体地,代价聚合单元223可根据距离获得与第二特征图的每个像素的邻域像素,按照第二特征图与匹配代价之间的像素对应关系,找到作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于邻域节点的权重和匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。代价聚合单元223可首先根据Fseg构建图,这里,匹配代价矩阵的每个元素被作为中心节点,总共H*W个中心节点,每个中心节点由位置信息和特征信息(f,维度为D)组成。由于匹配代价矩阵的每个中心节点与Fseg的每个像素是一一对应关系,故代价聚合单元223可通过获得与Fseg的每个像素距离最近的特定数量k(k可由本领域技术人员根据实际情况进行设置)个其它像素(即,邻域像素)来获得与每个中心节点距离最近的k个其它中心节点(即,邻域节点)。随后,代价聚合单元223可获得与每个中心节点的Fseg的像素间距离最近的k(k为正整数)个其它中心节点(n1,n2,…,nk),并将每个中心节点与对应的距离最近的k个其它中心节点连接形成边从而可构建图G,其中,所述距离可以为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和,更具体地,可通过欧式距离或汉明距离来计算该距离。随后,代价聚合单元223可将每个中心节点所对应的k个其它中心节点的匹配代价沿着特征维度连接并输入到上述诸如多层感知机网络的神经网络以获得每个中心节点与对应的距离最近的k个其它中心节点的边的权重(w1,w2,…,wk),基于所述权重和对应的距离最近的k个其它中心节点的匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。更具体地,代价聚合单元223可通过以下等式(4)更新匹配代价矩阵:
Figure BDA0002273979380000131
其中,wi是对应的距离最近的k个其它中心节点的边的权重,fi是对应的距离最近的k个其它中心节点的匹配代价,fbefore2是中心节点更新前的匹配代价,fcurrent1是中心节点更新后的匹配代价,σ是激活函数,a2、b2是预定常数,k为正整数。
这样得到的第三代价聚合的匹配代价矩阵不仅有深度估计本身引导的匹配代价聚合,还有语义分割引导的匹配代价聚合,故可以提高精度。
此外,还可采用其它实施方式,具体如下:
立体图像匹配能够在无深度传感器的情况下提供令人信服的稠密深度图,在现代应用中受到广泛关注。有效的匹配代价聚合是立体匹配任务的关键,尽管传统方法和深层神经网络已经研发了一些有效的成本聚集方法,但在病态区域中寻找正确的匹配关系仍然存在困难,而利用长期的上下文信息可以缓解这种困难。与以往采用多层三维卷积的工作相比,可采用一种新的引导图卷积模块(GGCM)来解决这一问题。GGCM根据引导图像的像素相似度构造一个图,通过多层叠加GGCM模块学习全局背景信息,该图的顶点是像素,并根据相似度距离将其构造为K-近邻图。此外,可定义一种简单有效的距离计算方法,并与现有的GCN方法进行了比较。该距离包含两部分,一部分是用于空间关系建模的空间距离,另一部分是在引导图像的特征空间中定义的,可以探索非局部像素相似度和保留边界信息。该方法是非局部的,因为经过多次卷积迭代后,每个节点都从图上的所有其他节点接收信息。
目前立体匹配方法通常在三维卷积层中采用下采样和上采样两种操作进行代价聚集,分辨率降低导致视差图边缘模糊。传统的引导图像滤波方法证明了基于图像引导的滤波可以保持深度图像的边缘。因此,可根据引导图像自动构造图形,并将其应用到图形卷积运算中,以自适应地聚合代价量特征。
具体来说,给定引导图像的特征图(维度为H*W*C),输入匹配代价矩阵C(维度为H*W*D)。可将匹配代价矩阵的每个元素当作为中心节点,总共H*W个中心节点,每个中心节点由特征信息(维度为D)组成。
首先,根据相似度距离构造图G(N个顶点,每个顶点有k个邻居和k个边)。图的顶点(维度为N=H*W)都是张量的像素单位,边(维度为k*N)在k个邻域像素之间产生。可定义一个简单有效的距离函数dij,如下等式(i)所示。
Figure BDA0002273979380000151
其中,该距离可包含两部分,一部分是用于空间关系建模的空间距离像素点的坐标表示为(xi,yi)、(xj,yj),等式中的第一项是两个像素坐标的欧式距离,等式中的第二项是在引导图像的特征空间中定义的,用于利用非局部像素相似度和保留深度边缘信息;对于特征图I,每个像素具有特征向量fi(共有C维,每个维度表示为fic)或者fj(共有C维,每个维度表示为fjc),特征空间中的距离表示两个特征向量的欧式距离,即公式第二项;l表示卷积的第l层。
其次,通过对k个邻域像素进行加权求和,自适应地对匹配代价单元进行聚合。图11是示出根据本发明实施例的聚合函数的操作的示意图。如图11所示,聚合权重由边缘过滤网络估计,使用依赖于成本单位的数据驱动方式,而不是预定义的参数化操作。聚合函数如下等式(ii)所示。
Figure BDA0002273979380000152
其中,
Figure BDA0002273979380000153
表示顶点信息,边滤波网络Fl可以以边信息Ll(i,j)为输入,输出一个权重矩阵θij,Wl表示可学习的参数,uj l表示vi l的邻域节点,El表示边注意力函数,N(i)表示邻域节点的个数,l表示卷积的第l层,γij表示边-注意力参数。
最后,可采用聚合后的顶点信息
Figure BDA0002273979380000154
和本来的顶点信息
Figure BDA0002273979380000155
更新匹配代价矩阵,如下等式(iii)所示。其中,w是固定的参数。
Figure BDA0002273979380000156
此外,代价聚合单元223还可根据多个不同尺度的匹配代价矩阵获得临时匹配代价矩阵,获得临时匹配代价矩阵的每个元素对应于预定视差的概率,根据所述概率与临时匹配代价矩阵获得第四匹配代价矩阵。更具体地,代价聚合单元223可将多个不同尺度的匹配代价矩阵(cost1,cost2,…,costk)转换(诸如,上采样)为相同大小(维度为H*W*D)并如以下等式(5)所示沿视差维度连接以获得临时匹配代价矩阵(维度为H*W*kD)。随后,代价聚合单元223可基于临时匹配代价矩阵获得临时匹配代价矩阵的每个元素对应于预定视差的概率。这里,代价聚合单元223可使用softmax函数如以下等式(6)所示获得临时匹配代价矩阵的每个元素对应于预定视差的概率P。最后,代价聚合单元223可如以下等式(7)所示将所述概率P与临时匹配代价矩阵相乘以获得第四匹配代价矩阵。经过实验验证,使用该策略可以有效地提高生成视差图的精度。
costtemp=concat(cost1,cost2,...,costk) (5)
P=Fsoftmax(costtemp) (6)
costnew=costtemp*P (7)
其中,cost1、cost2、…、costk表示k个不同尺度的匹配代价矩阵,costtemp表示临时匹配代价矩阵,P表示临时匹配代价矩阵costtemp的每个元素对应于预定视差的概率,costnew表示新得到的匹配代价矩阵(即,第六代价聚合的匹配代价矩阵),k为正整数。
此外,代价聚合单元223还可基于相似矩阵引导匹配代价聚合,即,可基于相似矩阵和匹配代价矩阵来获得第五匹配代价矩阵。更具体地,代价聚合单元223可采用相似矩阵(维度:HW*HW)对匹配代价获得单元222获得的匹配代价矩阵进行卷积操作,卷积操作过程中的参数由相似矩阵决定,具体操作为将匹配代价矩阵(H*W*D)转换为二维匹配代价矩阵(HW*D),执行相似矩阵与二维匹配代价矩阵的乘法(HW*HW)*(HW*D)以获得新的矩阵HW*D,然后转变维度以获得第五匹配代价矩阵(H*W*D)。
应该理解,代价聚合单元223可以作为单独的一部分加入到现有的立体匹配网络或者深度估计网络中来提高现有网络的性能。
在立体匹配中利用上下文信息进行代价聚合,对于提高匹配精度十分有效。然而,深度学习网络往往针对四维的匹配代价矩阵进行代价聚合,这四个维度分别是特征、视差、图像高度和图像宽度。然而,利用四维匹配代价矩阵生成视差图需要压缩特征维度和视差维度。现有技术往往利用简单的全连层进行逐像素的视差计算,这一过程中并没有参考上下文信息,引起视差生成的错误。根据本发明的实施例,在压缩特征维度后可对三维的匹配代价矩阵进行基于上下文的匹配置信度传播,以提高维度压缩过程中每个像素视差计算的精度。更具体地,第一获取单元110可包括匹配概率获得单元,用于计算匹配代价获得单元222获得的匹配代价矩阵的每个元素(x,y)对应于预定视差D的概率Pd(仅作为示例而非限制,可使用Softmax函数来进行计算)以将三维的匹配代价矩阵转换为三维的匹配概率矩阵C(H*W*D)。随后,可使用置信度传播算法来优化匹配概率矩阵,并可将置信度传播算法简化为在匹配概率矩阵内进行逐层卷积的过程,即,对匹配概率矩阵(H*W*D)进行卷积操作。也就是说,可用进行上述匹配概率计算的匹配概率获得单元替代代价聚合单元223,并且深度图产生单元224可基于匹配概率矩阵来产生每个单目图像的深度图。根据本发明的实施例,在匹配概率矩阵内实现可微分的置信度传播算法时将匹配概率矩阵内的值从概率空间转换到对数空间,以利用卷积过程来拟合置信度传播算法。在此过程中,需要使用一个描述相邻像素之间相似度的引导图来参与计算,其具体操作是卷积过程中的卷积核参数由引导图对应位置处的像素值决定。这一引导图可以由卷积过程中获得的一些特征图来转换,也可以由对图片的光流、语义分割结果来转换。
深度图产生单元224可基于代价聚合的匹配代价矩阵来产生每个单目图像的深度图。这里,深度图产生单元224可使用代价聚合单元223获得的第一代价聚合的匹配代价矩阵、第三代价聚合的匹配代价矩阵、第四匹配代价矩阵和第五匹配代价矩阵中的任意一个来产生每个单目图像的深度图。根据本发明的示例性实施例,深度图产生单元224可首先基于代价聚合的匹配代价矩阵或者匹配概率矩阵来产生每个单目图像的视差图disp(H*W),随后基于每个单目图像的视差图disp来产生每个单目图像的深度图。更具体地,深度图产生单元224可使用softmax函数计算聚合的匹配代价矩阵或者匹配概率矩阵的每个元素Cd(xi,yi)在视差维度D上对应的概率Pdi,然后将0至DD范围内的所有视差值di与对应概率Pdi相乘并求和以作为单目图像的当前像素的视差值,如下等式(8)所示。
Figure BDA0002273979380000171
其中,di表示视差值,cd表示聚合的匹配代价矩阵或者匹配概率矩阵的元素,
Figure BDA0002273979380000181
表示当前像素的视差值,DD表示视差值的最大值。
随后,深度图产生单元224可通过
Figure BDA0002273979380000182
计算每个单目图像的深度图,其中,b表示用于获取两个单目图像的两个相机的光心之间的距离,f表示用于获取两个单目图像的两个相机的焦距,d是获得的视差图的视差值。
此外,根据本发明的示例性实施例,深度图产生单元224还可包括可信深度获得单元。可信深度获得单元可在各个单目图像的深度图之间比较对应位置的像素,当对应位置的像素的深度差值大于或等于预定阈值时将对应位置的像素确定为不可信像素,当对应位置的像素的深度差值小于所述预定阈值时将对应位置的像素确定为可信像素,以获得可信深度图。更具体地,可信深度获得单元可将不可信像素的像素值设置为0,将可信像素的像素值设置为1,从而获得可信深度图。随后,可信深度获得单元可根据可信深度图,对第一特征图、初始匹配代价矩阵和匹配代价矩阵进行处理。更具体地,可信深度获得单元可通过将可信深度图与由特征提取单元221获得的第一特征图或由匹配代价获得单元222获得的初始匹配代价矩阵或匹配代价矩阵相乘以去除遮挡区域并随后传递给周围像素,从而进行特征/匹配代价提高,保留可信的特征或匹配代价,提高生成的深度图精度。这里,在可信深度获得单元将可信深度图与由特征提取单元221获得的第一特征图或由匹配代价获得单元222获得的初始匹配代价矩阵或匹配代价矩阵相乘之后,匹配代价获得单元222可基于可信深度图与第一特征图的乘积来获得初始匹配代价矩阵并可基于可信深度图与初始匹配代价矩阵的乘积来获得匹配代价矩阵,并且代价聚合单元223可对可信深度图与匹配代价矩阵的乘积进行代价聚合。图12是示出根据本发明示例性实施例的可信深度获得单元进行特征/匹配代价提高操作的示意图。如图12所示,可信深度获得单元可将获得的可信深度图与特征图或匹配代价矩阵的积在后续的处理中传递给周围像素。
此外,根据本发明的示例性实施例,在由第一获取单元110构成的神经网络的训练中,可将计算的视差值与标注视差值之间的误差作为第一损失函数反向传播以对所述神经网络进行训练。真实场景数据集多采用稀疏的LiDAR数据作为标注,在一幅图像中存在大量未标注的数据。在训练过程中,稀疏标注仅能对部分像素进行约束,对于未标注的像素缺乏有效约束。根据本发明的示例性实施例,可采用左右一致性检测的方法对未标注像素进行约束,即,针对未标注的像素,计算的单目图像的视差图被映射为相对应的另一单目图像的视差图,计算的相对应的另一单目图像的视差图与映射的相对应的另一单目图像的视差图之间的差被作为未标注像素的损失函数用于反向传播。此外,未标注像素的损失函数可与标记像素的损失函数一起作为第一损失函数用于反向传播以用于第一获取单元110构成的神经网络的训练。更具体地,可如下等式(9)所示将计算的单目图像的视差图映射为相应的另一单目图像的视差图(仅作为示例而非限制,可将右视差图映射为左视差图)以生成新的另一单目图像的视差图(仅作为示例而非限制,左视差图),然后如下等式(10)所示获得计算的单目图像的视差图与映射的相应的另一单目图像的视差图之间的差Lwarp_consistance,并如下等式(11)所示将其与标记像素的损失函数Lsmooth一起用于第一获取单元110构成的神经网络的训练。
Figure BDA0002273979380000191
Figure BDA0002273979380000192
L=Lsmooth+Lwarp_consistance (11)
其中,
Figure BDA0002273979380000193
表示将右图生成的新的左图的视差图,Dl(xl,y)表示像素(xl,y)的值,(xl-Dl(xl,y),y)表示将像素(xl,y)向向左平移Dl(xl,y)得到新的像素坐标,IR(xl-Dl(xl,y),y)表示像素(xr-Dl(xl,y),y)在右图所对应的像素值,Lwarp_consistance表示未标注像素的一致性损失函数,Lsmooth表示标记像素的损失函数,L表示第一损失函数。此外,应该注意,等式(9)至等式(11)以及本段描述中记载的左图、右图、向左等仅是示例,本领域技术人员可根据双目图像的实际情况进行相应的处理。
图13是示出根据本发明示例性实施例的几何一致性优化操作的示意图。如图13所示,在由第一获取单元110和第二获取单元120构成的神经网络的训练中,第一深度图可被输入到一个神经网络(仅作为示例而非限制,该神经网络可以为卷积神经网络)并且第二深度图可被输入到另一个神经网络(仅作为示例而非限制,该另一个神经网络可以为卷积神经网络)以分别获得第一法向量图
Figure BDA0002273979380000194
和第二法向量图
Figure BDA0002273979380000195
并通过法向量地图一致性约束生成高质量的深度图,更具体地,第一法向量图
Figure BDA0002273979380000196
和第二法向量图
Figure BDA0002273979380000197
之间的差异性可被作为第二损失函数用于反向传播以用于由第一获取单元110和第二获取单元120构成的神经网络的训练。根据本发明的示例性实施例,可通过如下等式(12)来计算第一法向量图
Figure BDA0002273979380000201
和第二法向量图
Figure BDA0002273979380000202
之间的差异性。这里,使用现有的传统方法或者深度学习网络也可以对深度图进行优化,但本发明将多个传感器获得的深度图一起优化,利用它们之间的几何约束来获得一致性更高的深度图,从而得到高质量的深度图。
Figure BDA0002273979380000203
此外,在训练模型的时候,通常需要大量的标注数据去监督网络学习特定任务,例如本发明中的深度估计步骤,然而实际中标注数据需要大量的人力物力,为了节省资源,可以用合成数据和实际数据作为训练集,在实际数据做测试。在这种情况下,可对由深度图生成装置构成的网络结构进行修改,将回归网络结构变成两个任务的网络结构,即,回归和分类。这两个任务绝大部分是参数共享的,分类问题分支要求网络能正确分类合成数据和实际数据,最小化二分类误差,回归问题分支要求网络能最小化回归误差,得到正确的深度估计。为了实现领域适应,由深度图生成装置构成的网络结构可以分成三部分,即,共享编码模块、回归模块和分类模块,为了同时训练由深度图生成装置构成的网络且不产生二义性,可使用梯度反转层,在该层之前的网络参数会朝着将两个领域的数据编码为类似分布的角度去回归得到最优的深度估计,在该层之后的网络参数会朝着降低领域分类损失的方向去优化。
图14是示出根据本发明示例性实施例的深度图生成方法的流程图。
如图14所示,在步骤S1410,可基于双目图像产生第一深度图。
在步骤S1420,可获取深度相机采集的第二深度图。
在步骤S1430,可通过将第一深度图与第二深度图融合来产生最终深度图。
获取第二深度图的步骤可包括:从第二深度图提取深度特征;通过对提取的深度特征进行由相似矩阵引导的滤波,来产生深度补全的第三深度图,其中,相似矩阵是基于双目图像产生的。
产生深度补全的第三深度图的步骤可包括:基于相似矩阵获得深度图的当前像素与当前像素的相邻像素之间的相似度,并基于相邻像素的深度特征和所述相似度按照预定方向对当前像素的深度特征进行滤波。
所述预定方向可包括从上到下的方向、从下到上的方向、从左到右的方向和从右到左的方向中的至少一个方向。
产生第一深度图的步骤可包括:获得双目图像包括的每个单目图像的第一特征图;基于单目图像的第一特征图,来获得匹配代价矩阵;对匹配代价矩阵进行代价聚合;基于代价聚合的匹配代价矩阵来产生每个单目图像的深度图。
产生第一深度图的步骤还可包括:对每个单目图像的深度图进行一致性检测以获得每个单目图像的可信深度图。
获得第一特征图的步骤可包括基于注意力机制的神经网络对双目图像进行特征提取。
获得匹配代价矩阵的步骤可包括:基于单目图像的第一特征图获得初始匹配代价矩阵,并将初始匹配代价矩阵输入到预定神经网络进行卷积来获得匹配代价矩阵。
进行代价聚合的步骤可包括基于图神经网络(GNN)对匹配代价矩阵进行代价聚合。
进行代价聚合的步骤可包括:根据距离获得与作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于每个邻域节点的权重和邻域节点的匹配代价,来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。
进行代价聚合的步骤还可包括使用第二特征图引导代价聚合。
第二特征图可以是基于语义分割神经网络生成的,或者第二特征图与第一特征图相同。
进行代价聚合的步骤可包括:根据距离获得与第二特征图的每个像素的邻域像素,按照第二特征图与匹配代价之间的像素对应关系,找到作为匹配代价矩阵的元素的每个中心节点的邻域节点,,基于邻域节点的权重和匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。
所述距离可以为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和。
进行代价聚合的步骤可包括:根据多个不同尺度的匹配代价矩阵获得临时匹配代价矩阵,获得临时匹配代价矩阵的每个元素对应于预定视差的概率,根据所述概率与临时匹配代价矩阵获得第四匹配代价矩阵。
进行代价聚合的步骤可包括基于相似矩阵和匹配代价矩阵,获得第五匹配代价矩阵,其中,相似矩阵是基于双目图像产生的。
产生第一深度图的步骤可包括:将双目图像输入到预定神经网络进行特征提取以获得双目图像包括的每个单目图像的第一特征图;基于单目图像的第一特征图来获得匹配代价矩阵;计算匹配代价矩阵的每个元素对应于预定视差的概率以将匹配代价矩阵转换为匹配概率矩阵;基于匹配概率矩阵来产生每个单目图像的深度图。
获得可信深度图的步骤可包括:在各个单目图像的深度图之间比较对应位置的像素,当对应位置的像素的深度差值大于或等于预定阈值时将对应位置的像素确定为不可信像素,当对应位置的像素的深度差值小于所述预定阈值时将对应位置的像素确定为可信像素,以获得可信深度图。
获得可信深度图的步骤可包括:根据可信深度图,对第一特征图、初始匹配代价矩阵和匹配代价矩阵进行处理。
此外,根据本发明的示例性实施例,还可提供一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。根据本发明的示例性实施例,还可提供一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
根据本发明的实施例,通过对从传感器获得的深度图存在噪声、稀疏、分辨率低等问题和基于深度学习方法进行深度估计在病态区域精度差的问题进行优化,可生成高精度的深度图;此外,通过利用双目图像对传感器获得的深度图进行滤波,可生成补全的高分辨率的深度图;此外,通过利用立体匹配深度学习网络提取鲁棒的特征并将特征传导到病态区域,可生成高精度的深度图;此外,通过利用深度优化网络,将第一深度图和深度补全的第二深度图通过一致性约束联合优化,生成高质量的深度图;此外,通过基于多传感器的高质量的深度图生成方法,利用各个深度传感器的优势,可获得高质量的深度图,在一些比较困难的场景也适用。
虽然已经参照特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。

Claims (20)

1.一种深度图生成方法,包括:
基于双目图像产生第一深度图;
获取深度相机采集的第二深度图;
通过将第一深度图与第二深度图融合来产生最终深度图。
2.如权利要求1所述的深度图生成方法,其中,获取第二深度图的步骤包括:
从第二深度图提取深度特征;
通过对提取的深度特征进行由相似矩阵引导的滤波,来产生深度补全的第三深度图,
其中,相似矩阵是基于双目图像产生的。
3.如权利要求2所述的深度图生成方法,其中,产生深度补全的第三深度图的步骤包括:基于相似矩阵获得深度图的当前像素与当前像素的相邻像素之间的相似度,并基于相邻像素的深度特征和所述相似度按照预定方向对当前像素的深度特征进行滤波。
4.如权利要求3所述的深度图生成方法,其中,所述预定方向包括从上到下的方向、从下到上的方向、从左到右的方向和从右到左的方向中的至少一个方向。
5.如权利要求1所述的深度图生成方法,其中,产生第一深度图的步骤包括:
获得双目图像包括的每个单目图像的第一特征图;
基于单目图像的第一特征图,来获得匹配代价矩阵;
对匹配代价矩阵进行代价聚合;
基于代价聚合的匹配代价矩阵来产生每个单目图像的深度图。
6.如权利要求5所述的深度图生成方法,其中,产生第一深度图的步骤还包括:
对每个单目图像的深度图进行一致性检测以获得每个单目图像的可信深度图。
7.如权利要求5所述的深度图生成方法,其中,获得第一特征图的步骤包括基于注意力机制的神经网络对双目图像进行特征提取。
8.如权利要求5所述的深度图生成方法,其中,获得匹配代价矩阵的步骤包括:基于单目图像的第一特征图获得初始匹配代价矩阵,并将初始匹配代价矩阵输入到预定神经网络进行卷积来获得匹配代价矩阵。
9.如权利要求5所述的深度图生成方法,其中,进行代价聚合的步骤包括基于图神经网络(GNN)对匹配代价矩阵进行代价聚合。
10.如权利要求9所述的深度图生成方法,其中,进行代价聚合的步骤包括:根据距离获得与作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于每个邻域节点的权重和邻域节点的匹配代价,来更新每个中心节点的匹配代价以获得第一代价聚合的匹配代价矩阵。
11.如权利要求10所述的深度图生成方法,其中,进行代价聚合的步骤还包括使用第二特征图引导代价聚合。
12.如权利要求11所述的深度图生成方法,其中,第二特征图是基于语义分割神经网络生成的,或者第二特征图与第一特征图相同。
13.如权利要求12所述的深度图生成方法,其中,进行代价聚合的步骤包括:根据距离获得与第二特征图的每个像素的邻域像素,按照第二特征图与匹配代价之间的像素对应关系,找到作为匹配代价矩阵的元素的每个中心节点的邻域节点,基于邻域节点的权重和匹配代价来更新每个中心节点的匹配代价以获得第二代价聚合的匹配代价矩阵,并将第一代价聚合的匹配代价矩阵与第二代价聚合的匹配代价矩阵聚合以获得第三代价聚合的匹配代价矩阵。
14.如权利要求10或13所述的深度图生成方法,其中,所述距离为空间距离、特征向量距离、或者空间距离与特征向量距离的加权和。
15.如权利要求5所述的深度图生成方法,其中,进行代价聚合的步骤包括:根据多个不同尺度的匹配代价矩阵获得临时匹配代价矩阵,获得临时匹配代价矩阵的每个元素对应于预定视差的概率,根据所述概率与临时匹配代价矩阵获得第四匹配代价矩阵。
16.如权利要求8所述的深度图生成方法,其中,进行代价聚合的步骤包括基于相似矩阵和匹配代价矩阵,获得第五匹配代价矩阵,
其中,相似矩阵是基于双目图像产生的。
17.如权利要求1所述的深度图生成方法,其中,产生第一深度图的步骤包括:
将双目图像输入到预定神经网络进行特征提取以获得双目图像包括的每个单目图像的第一特征图;
基于单目图像的第一特征图来获得匹配代价矩阵;
计算匹配代价矩阵的每个元素对应于预定视差的概率以将匹配代价矩阵转换为匹配概率矩阵;
基于匹配概率矩阵来产生每个单目图像的深度图。
18.一种深度图生成装置,包括:
第一获取单元,基于双目图像产生第一深度图;
第二获取单元,获取深度相机采集的第二深度图;
深度合成单元,将第一深度图与第二深度图融合来产生最终深度图。
19.一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述权利要求1~17中任一项所述的方法。
20.一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述权利要求1~17中任一项所述的方法。
CN201911115722.0A 2019-11-14 2019-11-14 深度图生成方法和装置 Pending CN112802078A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911115722.0A CN112802078A (zh) 2019-11-14 2019-11-14 深度图生成方法和装置
KR1020200146386A KR20210058683A (ko) 2019-11-14 2020-11-04 깊이 맵 생성 방법 및 장치
US17/094,932 US11763433B2 (en) 2019-11-14 2020-11-11 Depth image generation method and device
EP20207613.9A EP3822910A1 (en) 2019-11-14 2020-11-13 Depth image generation method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911115722.0A CN112802078A (zh) 2019-11-14 2019-11-14 深度图生成方法和装置

Publications (1)

Publication Number Publication Date
CN112802078A true CN112802078A (zh) 2021-05-14

Family

ID=75803923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911115722.0A Pending CN112802078A (zh) 2019-11-14 2019-11-14 深度图生成方法和装置

Country Status (2)

Country Link
KR (1) KR20210058683A (zh)
CN (1) CN112802078A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156884A1 (en) * 2019-05-06 2022-05-19 Sony Group Corporation Electronic device, method and computer program
CN115100267A (zh) * 2022-08-29 2022-09-23 北京中科慧眼科技有限公司 基于深度学习算子的立体匹配方法和系统
WO2022241732A1 (en) * 2021-05-20 2022-11-24 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method of generating an image, electronic device, apparatus, and computer readable storage medium
CN117523024A (zh) * 2024-01-02 2024-02-06 贵州大学 一种基于潜在扩散模型的双目图像生成方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102601751B1 (ko) 2021-05-06 2023-11-14 현대모비스 주식회사 인휠 구동장치 및 인휠 구동장치의 조립방법
WO2024043435A1 (ko) * 2022-08-23 2024-02-29 삼성전자 주식회사 뷰어가 인식하는 깊이가 강화된 이미지를 생성하기 위한 전자 장치 및 방법
CN116433532B (zh) * 2023-05-06 2023-09-26 合肥工业大学 一种基于注意力引导滤波的红外偏振图像融合去噪方法
CN116883479B (zh) * 2023-05-29 2023-11-28 杭州飞步科技有限公司 单目图像深度图生成方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156884A1 (en) * 2019-05-06 2022-05-19 Sony Group Corporation Electronic device, method and computer program
WO2022241732A1 (en) * 2021-05-20 2022-11-24 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method of generating an image, electronic device, apparatus, and computer readable storage medium
CN115100267A (zh) * 2022-08-29 2022-09-23 北京中科慧眼科技有限公司 基于深度学习算子的立体匹配方法和系统
CN117523024A (zh) * 2024-01-02 2024-02-06 贵州大学 一种基于潜在扩散模型的双目图像生成方法及系统
CN117523024B (zh) * 2024-01-02 2024-03-26 贵州大学 一种基于潜在扩散模型的双目图像生成方法及系统

Also Published As

Publication number Publication date
KR20210058683A (ko) 2021-05-24

Similar Documents

Publication Publication Date Title
US11763433B2 (en) Depth image generation method and device
CN112802078A (zh) 深度图生成方法和装置
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
Jeon et al. Depth from a light field image with learning-based matching costs
AU2017324923B2 (en) Predicting depth from image data using a statistical model
Wang et al. PVStereo: Pyramid voting module for end-to-end self-supervised stereo matching
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
KR20200063368A (ko) 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
CN113962858A (zh) 一种多视角深度获取方法
CN114494589A (zh) 三维重建方法、装置、电子设备和计算机可读存储介质
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN112509021A (zh) 一种基于注意力机制的视差优化方法
Dinh et al. Disparity estimation using stereo images with different focal lengths
CN116385660A (zh) 室内单视图场景语义重建方法及系统
Samavati et al. Deep learning-based 3D reconstruction: a survey
Huang et al. ES-Net: An efficient stereo matching network
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN113313740B (zh) 一种基于平面连续性的视差图和表面法向量联合学习方法
KR20210058638A (ko) 이미지 처리 장치 및 방법
Lin et al. A-SATMVSNet: An attention-aware multi-view stereo matching network based on satellite imagery
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination