CN117934308A

CN117934308A - 一种基于图卷积网络的轻量化自监督单目深度估计方法

Info

Publication number: CN117934308A
Application number: CN202410230310.6A
Authority: CN
Inventors: 刘洪波; 龙浩; 陆欧阳; 王野; 李科; 李沐南
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-26

Abstract

本发明提供一种基于图卷积网络的轻量化自监督单目深度估计方法，具体步骤包括：建立自监督单目深度估计模型，包括：获取目标图像各像素点的深度值，估计相对位姿，将合成的新视图作为自监督训练信号；在建立的自监督单目深度估计模型基础上，应用轻量化特征捕捉策略，包括：使用膨胀卷积辅助捕捉全局特征，在膨胀卷积所捕获的全局特征基础上，运用自注意力机制学习长距离的特征依赖；利用图卷积神经网络技术将目标对象进行分割；构建模糊度提升数据增强机制。本发明不仅维持了模型的高性能，而且显著减少了所需的模型参数量，减小了模型的整体大小，所需的计算资源也相应降低，使得模型在资源受限的设备上，也能够更有效地进行部署和推理。

Description

一种基于图卷积网络的轻量化自监督单目深度估计方法

技术领域

本发明涉及单目深度估计技术领域，具体而言，尤其涉及一种基于图卷积网络的轻量化自监督单目深度估计方法。

背景技术

自监督单目深度估计是计算机视觉领域的一个重要研究方向，它旨在从单个图像中推断出场景的深度信息。这一技术对于自动驾驶、增强现实、机器人导航等应用至关重要，因为它能够提供对三维世界的感知能力，而无需依赖立体相机或深度传感器。

目前的自监督单目深度估计技术存在以下问题：为了增强网络在提取深度特征方面的表现，现在的很多通常倾向于设计更深层次、结构更复杂的网络模型。这种趋势导致模型的规模不断扩大，对计算资源的需求也随之增长。然而，这种增长在一定程度上降低了模型的实用性，因为大型模型难以在计算能力有限的设备上高效运行，这限制了它们在资源受限环境下的应用，例如移动设备或嵌入式系统。此外有很多方法在处理背景和对象的分离时，面临着语义混淆和轮廓模糊的挑战，这会使得在真实场景中降低模型对场景的理解能力，可能会导致错误的决策；另外模型在小物体检测方面表现不佳，无法准确识别和定位小物体，这会使得模型会将背景噪声或纹理误判为小物体，并且可能会在真实场景下出现漏检的情况影响决策判断。

发明内容

根据上述提出的技术问题，而提供一种基于图卷积网络的轻量化自监督单目深度估计方法。本发明主要利用自监督单目深度估计模型，图卷积神经网络技术和模糊度提升数据增强机制，实现适应模糊的图像，从而提高其对小物体的检测性能。

本发明采用的技术手段如下：

一种基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，包括：

S1、建立自监督单目深度估计模型；

S2、在S1建立的自监督单目深度估计模型基础上，应用轻量化特征捕捉策略；

S3、利用图卷积神经网络技术将目标对象进行分割；

S4、构建模糊度提升数据增强机制。

进一步地，所述步骤S1具体包括：

S11、获取目标图像各像素点的深度值：

将一个场景中的前一帧图像I_t-1、目标图像I_t和后一帧图像I_t+1作为输入时，仅将目标图像I_t作为深度网络TransCNN(·)的输入，将输出目标图像每像素p_t的深度值组成的单视图深度图表示为：

其中，TransCNN(·)表示深度网络，p_t表示像素点的位置。

进一步地，所述步骤S1还包括：

S12、估计相对位姿

采用目标图像I_t和前一帧图像I_t-1、后一帧图像I_t+1作为位姿网络PoseCNN(·)的输入，并输出相对相机姿态即三维空间的六个基本自由度，所述相对位姿表示为：

其中，表示相对位姿，PoseCNN(·)表示位姿网络。

进一步地，所述步骤S1还包括：

S13、将合成的新视图作为自监督训练信号

根据预测的单视图深度图和相对位姿/>对源视图的像素进行采样，以重建目标视图，通过公式3来获得像素点p_t在源视图上的投影坐标p_s：

其中，K表示相机内参，由于投影坐标p_s是连续值，为了获取p_s点处的像素值I_s(p_s)，使用双线性插值机制，将相邻四个像素值通过线性插值计算得出近似I_s(p_s)：

其中，表示重建的新视图的扭曲坐标值，ω^ij与p_s和/>之间的空间接近度比成线性比例，ω^ij为比例参数并且∑_i,jw^ij＝1，/>表示相邻四像素的坐标，像素扭曲的坐标是通过投影集合获得的，该投影几何可以实现深度和相机姿势的分解；

使用光度重投影损失L_p来约束新视图合成任务：

其中，表示重建的新视图，pe表示的光度重建损失由L1平均绝对误差损失函数和SSIM结构相似性损失函数组成：

其中，α表示权重系数并且α＝0.85；I_a表示重建图像；I_b表示目标图像。

取光度重投影损失的最小值作为最终的光度重投影损失：

其中，L_p表示光度重投影损失。

进一步地，所述步骤S2包括：

S21、使用膨胀卷积辅助捕捉全局特征

在每一级中插入多个不用膨胀率的连续膨胀卷积，以实现多尺度上下文的特征聚集；给定一个二维信号x[i]，二维膨胀卷积的输出y[i]表示为：

其中，w[q]表示长度为q的滤波器，r表示膨胀卷积输入x[i]的膨胀率；

输入是H×W×C的输入特征X，即长度为H，宽为W，通道数为C；将膨胀卷积模块的输出表示为：

其中，Linear_G表示逐点卷积运算，GELU表示一种非线性激活函数，BN表示批量归一化层，DRB_r(·)是膨胀率为r的3×3膨胀卷积模块。

进一步地，所述步骤S2还包括：

S22、在膨胀卷积所捕获的全局特征基础上，运用自注意力机制学习长距离的特征依赖

给定具有维度H×W×C的输入特征图X，将其线性地投影到相同维度的查询矩阵键值矩阵/>值矩阵/>用于描述在特定任务中使用的特征表示；其中W_q，W_k，W_v是可学习的权重矩阵其中表示/>输入特征矩阵，自注意力机制表示为：

其中，Attention(·)表示为：

最终，经过自注意机制学习后的输出为：

其中，表示自注意力机制学习后的特征。

进一步地，所述步骤S3包括：

使用GCN网络来引入拓扑结构和节点特征，根据学习到的节点特征以及节点类别的结果，将属于背景的节点和属于对象的节点进行分离，从而得到清晰的背景和对象；将图卷积Z定义为：

其中，σ()表示非线性激活函数；A为邻接矩阵，用于度量图中节点之间的关系；W表示可训练的权重矩阵；X表示图结构的输入节点，使用两层图卷积模块来学习输入特征的联系以及差异：

其中，输出的X_gcn表示经过图卷积模块学习到的特征。

进一步地，所述步骤S4包括：

生成深度图学习模糊度掩码A_amb：

其中，g(·)为移位操作，使用移位以及max(·)函数将结果设置在[0,1]之间；

将所学习到的模糊度掩码与图卷积神经网络的输出在通道维度连接，来增强深度图的数据特征；

X_fin＝X_gcn⊙A_amb (16)

其中，⊙为矩阵点乘，X_fin为最终的输出，表示学习到的最终的特征，X_gcn表示经过图卷积模块学习到的特征，A_amb为生成深度图学习模糊度掩码。

进一步地，一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序，所述处理器通过所述计算机程序运行执行基于图卷积网络的轻量化自监督单目深度估计方法。

较现有技术相比，本发明具有以下优点：

1、本发明采用了一种结合卷积神经网络(CNN)和自注意力机制的特征提取网络，这种网络结构在保持较少的网络层数的同时，能够学习到更为精确的特征表示。这种设计不仅维持了模型的高性能，而且显著减少了所需的模型参数量，从而减小了模型的整体大小。由于模型参数的减少，所需的计算资源也相应降低，这使得模型在资源受限的设备上，如移动设备或嵌入式系统，能够更有效地进行部署和推理。简而言之，这种网络结构在保持高效能的同时，提高了模型的实用性和可扩展性。

2、本发明使用图卷积神经网络，将深度拓扑图引入到网络结构中来解决模型在处理背景和对象的分离时，面临着语义混淆和轮廓模糊的挑战。图神经网络能够学习图像中节点(例如像素点)之间的复杂关系，并通过这些关系来更好地理解场景中背景和对象的差异特征。在处理图像或视频的背景和对象分离时，图神经网络可以解决语义混淆和轮廓模糊的问题，因为它们能够从图结构中学习到节点的特征表示，并根据这些特征表示来区分不同的对象和背景。

3、本发明采用了一种特殊的数据增强技术，即通过增加图像的模糊度来提升模型对小物体的识别和定位精度。在训练过程中，首先对输出的深度图应用模糊度掩膜，这是一种处理方法，旨在模拟小物体在图像中可能出现的模糊效果。然后，将这些经过模糊处理的图像作为增强数据输入到模型中，以训练模型更好地识别和定位小物体。这种策略有助于模型学习到在模糊条件下小物体的识别特征，从而在实际应用中提高对小物体的检测性能。

基于上述理由本发明可在单目深度估计技术领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中的基于图卷积网络的轻量化自监督单目深度估计方法流程图。

图2为本发明实施例中真实交通场景下的图像。

图3为本发明实施例中经过模糊度增强处理的图像。

图4为本发明实施例中最终推理出的深度图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于图卷积网络的轻量化自监督单目深度估计方法，包括：

S1、建立自监督单目深度估计模型；

S3、利用图卷积神经网络技术将目标对象进行分割；

S4、构建模糊度提升数据增强机制。

具体实施时，作为本发明优选的实施方式，所述步骤S1具体包括：

在实施时，获取大量带有精确深度标签的数据集是非常困难的，这通常需要昂贵的设备以及大量的人工标注的支持，为解决现有技术存在的这个问题，需要建立更为精确的自监督单目深度估计模型，包括以下步骤：

S11、获取目标图像各像素点的深度值：

其中，TransCNN(·)表示深度网络，p_t表示像素点的位置。

具体实施时，作为本发明优选的实施方式，所述步骤S1还包括：

S12、估计相对位姿

采用目标图像I_t和前一帧图像I_t-1、后一帧图像I_t+1作为位姿网络PoseCNN(·)的输入，并输出相对相机姿态即三维空间的六个基本自由度，描述了物体在三维空间的位置和方向，包含前后、左右、上下的平移移动以及俯仰、偏航、偏航的三个旋转变换，所述相对位姿表示为：

其中，表示相对位姿，PoseCNN(·)表示位姿网络。

S13、将合成的新视图作为自监督训练信号

其中，K表示相机内参，由于投影坐标p_s是连续值，为了获取p_s点处的像素值I_s(p_s)，使用双线性插值机制，将相邻四个像素值(左上、右上、左下和右下)通过线性插值计算得出近似I_s(p_s)：

使用光度重投影损失L_p来约束新视图合成任务：

在实施时，α＝0.85，由于连续帧进行重建新视图往往会出现遮挡像素的情况，会导致很高的光度重建损失惩罚，使用最小重投影损失来处理该问题。

取光度重投影损失的最小值作为最终的光度重投影损失：

其中，L_p表示光度重投影损失。

具体实施时，作为本发明优选的实施方式，所述步骤S2包括：

在实施时，生成的深度图的好坏很大程度上看卷积神经网络的特征提取能力上，而特征提取很大程度上体现在神经网络结构的优化上，使用更高效的轻量化特征提取策略，在保证高性能的同时，降低模型的计算和存储需求，包括以下步骤：

S21、使用膨胀卷积辅助捕捉全局特征

在实施时，使用膨胀卷积的策略来辅助获得更大的感受野，来提取全局的特征信息，在每一级中插入多个不用膨胀率的连续膨胀卷积，以实现多尺度上下文的特征聚集；给定一个二维信号x[i]，二维膨胀卷积的输出y[i]表示为：

在实施时，通过使用膨胀卷积，可以保持输出特征图的大小固定的情况下实现更大的感受野。

具体实施时，作为本发明优选的实施方式，所述步骤S2还包括：

在实施时，对于膨胀卷积所捕获的全局特征，使用自注意力机制来学习沿着通道的长距离特征依赖。

S22、在膨胀卷积所捕获的全局特征基础上，运用自注意力机制学习长距离的特征依赖：

给定具有维度H×W×C的输入特征图X，将其线性地投影到相同维度的查询矩阵键值矩阵/>值矩阵/>用于描述在特定任务中使用的特征表示；其中，W_q，W_k，W_v是可学习的权重矩阵，/>表示输入特征矩阵，自注意力机制表示为：

其中，Attention(·)表示为：

最终，经过自注意机制学习后的输出为：

其中，表示自注意力机制学习后的特征。

在实施时，通过使用堆叠膨胀卷积捕捉更全局特征以及通过自注意力机制学习长距离的特征依赖，在保持高性能的同时，显著的减少了所需的训练参数量和计算资源，这意味着模型在训练过程中所需要的算力大大降低，推理速度得到了显著的提升。这对于资源受限的设备上进行模型部署尤为重要，在保持模型的高性能的同时，确保了模型的实用性和可扩展性。

具体实施时，作为本发明优选的实施方式，所述步骤S3包括：

在实施时，很多情况下模型在处理背景和对象的分离时，面临着语义混淆和轮廓模糊的挑战。这意味着在图像或视频序列中，背景和对象之间的界限变得模糊不清，难以准确地区分。使用GCN网络来引入拓扑结构和节点特征，可以增加隐藏层的特征表示这有助于模型学习如何从低维特征映射深度信息。

Z＝σ(AXW) (13)

其中，输出的X_gcn表示经过图卷积模块学习到的特征。

具体实施时，作为本发明优选的实施方式，所述步骤S4包括：

在实施时，为了提升模型在小物体检测时效果较差的问题，采用模糊度提升的方式来增强深度图的对小物体检测的效果，通过生成的深度图学习模糊度掩码。

生成深度图学习模糊度掩码：

其中，g(·)为移位操作，由于像素位置处的求和结果可以大于1；使用移位以及max(·)函数将结果设置在[0,1]之间；

X_fin＝X_gcn⊙A_amb (16)

在实施时，将以上生成的多尺度深度图与PoseCNN(·)的输出来重建目标视图。通过这种方式既能够很好的解决背景和对象的分离的问题，也能够处理对于小物体识别不佳的问题。这种方法的基本思想是在训练过程中，将输入图像进行模糊度掩膜处理，然后将其作为输入传递给模型进行训练。通过这种方式，模型可以更好地适应模糊的图像，从而提高其对小物体的检测性能。

具体实施时，作为本发明优选的实施方式，一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序，所述处理器通过所述计算机程序运行执行基于图卷积网络的轻量化自监督单目深度估计方法。

实施例

如图1所示，本发明提供了一种基于图卷积网络的轻量化自监督单目深度估计方法，该方法首先获取真实场景的视频，并将其分割成一系列连续的时间帧图像。如图2所示，在步骤S1中，利用这一过程来构建自监督单目深度估计模型；如图3所示，在步骤S2中，采用本发明提出的高效轻量级特征提取方法对这些时间帧图像进行处理，以提取单个目标视图的深度信息；步骤S3中，利用图卷积神经网络技术对目标对象进行精确分割；步骤S4涉及对处理结果进行模糊度数据处理。最后，如图4所示，通过步骤S12，学习连续帧之间的相对位姿，以重建目标视图，并利用这些重建的视图作为自监督学习框架的一部分来计算光度重建损失，从而指导模型的训练，并输出场景的深度图。本发明的方法允许部署轻量化模型到计算资源有限的设备上，并产生精确且高效的深度图。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，包括：

S1、建立自监督单目深度估计模型；

S3、利用图卷积神经网络技术将目标对象进行分割；

S4、构建模糊度提升数据增强机制。

2.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S1具体包括：

S11、获取目标图像各像素点的深度值：

其中，TransCNN(·)表示深度网络，p_t表示像素点的位置。

3.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S1还包括：

S12、估计相对位姿：

其中，表示相对位姿，PoseCNN(·)表示位姿网络。

4.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S1还包括：

S13、将合成的新视图作为自监督训练信号

使用光度重投影损失L_p来约束新视图合成任务：

其中，α表示权重系数并且α＝0.85；I_a表示重建图像；I_b表示目标图像；

取光度重投影损失的最小值作为最终的光度重投影损失：

其中，L_p表示光度重投影损失。

5.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S2包括：

S21、使用膨胀卷积辅助捕捉全局特征：

6.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S2还包括：

其中，Attention(·)表示为：

最终，经过自注意机制学习后的输出为：

其中，表示自注意力机制学习后的特征。

7.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S3包括：

Z＝σ(AXW) (13)

其中，输出的X_gcn表示经过图卷积模块学习到的特征。

8.根据权利要求1所述的基于图卷积网络的轻量化自监督单目深度估计方法，其特征在于，所述步骤S4包括：

生成深度图学习模糊度掩码A_amb：

X_fin＝X_gcn⊙A_amb (16)

9.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序，其特征在于，所述处理器通过所述计算机程序运行执行所述权利要求1至8中任一项权利要求所述的方法。