CN114757984A

CN114757984A - 光场相机的场景深度估计方法及装置

Info

Publication number: CN114757984A
Application number: CN202210447419.6A
Authority: CN
Inventors: 温建伟; 李营; 其他发明人请求不公开姓名
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-15

Abstract

本申请提供的一种光场相机的场景深度估计方法及装置，涉及计算机技术领域，该方法包括：获取训练图像；将所训练图像输入预先构建的深度预测模型中进行训练，所述深度预测模型包括深度预测单元、卷积‑反卷积单元、位姿识别单元和特征融合单元，得到对应的预测深度图；将所得到的预测深度图与对应的第一损失函数和第二损失函数的联合损失函数进行联合损失计算，得到对应的单目深度估计图。本申请实施例能够显著地提升单目图像深度估计的总准确率。

Description

光场相机的场景深度估计方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种光场相机的场景深度估计方法及装置。

背景技术

从二维图像中获取三维深度信息是计算机视觉领域的一个重要问题，也是理解场景几何关系的重要组成部分。单目图像深度估计与传统的基于多视点以及双目立体匹配的方法不同，仅利用单个视点的图像来进行深度估计。

然而，对于待进行深度估计的场景，由于场景中的某些目标是移动的，使得每帧图像成像时光场相机与目标的相对位姿是不确定的，会对图像深度估计的准确性造成一定影响，因此单目图像深度估计的准确性有待提升。

发明内容

本发明实施例的目的在于提供一种光场相机的场景深度估计方法及装置，本申请实施例能够显著地提升光场相机进行单目图像深度估计的准确性。具体技术方案如下：

在本发明实施例的第一方面，提供一种光场相机的场景深度估计方法，包括：获取训练图像；

将所训练图像输入预先构建的深度预测模型中进行训练，所述深度预测模型包括深度预测单元、卷积-反卷积单元、位姿识别单元和特征融合单元，得到对应的预测深度图；

将所得到的预测深度图与对应的第一损失函数和第二损失函数的联合损失函数进行联合损失计算，得到对应的真实深度估计图，所述联合损失函数为：

可选地，在将所获取的训练图像输入预先构建的深度预测模型中进行训练之前，还包括：

将所述训练图像进行扩充，将所述训练图像进行缩放、旋转和随机水平翻转处理中至少一项操作，得到第一训练图像；

将扩充后的训练图像调整至分辨率得到第二训练图像，并将所述第二训练图像进行归一化处理，得到预处理后的训练图像；

对于每个所述训练图像，获取所述训练图像的前帧图像和后帧图像，并在以上三张图像中均确认出一个同名点位，所述同名点位用于表征所述三张图像中相同目标的位置。

可选地，所述将所获取的训练图像输入预先构建的深度预测模型中进行训练，包括：

将所述训练图像输入至所述卷积-反卷积单元，生成当前反卷积特征图像；

将所述训练图像、所述前帧图像和所述后帧图像输入至位姿识别单元，得到相机在所述训练图像、所述前帧图像和所述后帧图像拍摄时刻下与所述同名点位的相对位姿；

将所述当前反卷积特征图像和所述相对位姿输入至特征融合单元，得到特征融合图像；

将所述特征融合图像输入至所述深度估计预测单元，得到所述预测深度图。

可选地，所述将所述训练图像输入至所述卷积-反卷积单元，生成当前反卷积特征图像，包括：

对所述训练图像进行下采样，生成分辨率依次下降的多个预设层特征图像，所述预设层特征图像的数量为4个。

可选地，所述真实深度图利用flownet2.0获得双目图像的光流的水平分量。

可选地，在所述联合损失函数L中，所述第一损失函数包括L_rank、L_ms-ssim、L_grad，所述第二损失函数包括

和

L_rank表示基于随机采样的排序损失，L_ms-ssim表示多尺度结构相似损失函数，L_grad表示多尺度不变梯度匹配损失函数。

在本发明实施例的又一方面，提供一种光场相机的场景深度估计装置，所述装置包括：

训练图像获取模块，用于获取训练图像；

训练模块，用于将所训练图像输入预先构建的深度预测模型中进行训练，所述深度预测模型包括深度预测单元、卷积-反卷积单元、位姿识别单元和特征融合单元，得到对应的预测深度图；

真实深度估计图获取模块，用于将所得到的预测深度图与对应的第一损失函数和第二损失函数的联合损失函数进行联合损失计算，得到对应的真实深度估计图，所述联合损失函数为：

可选地，所述装置还包括：

第一训练图像获取模块，将所述训练图像进行扩充，将所述训练图像进行缩放、旋转和随机水平翻转处理中至少一项操作，得到第一训练图像；

第一预处理模块，将扩充后的训练图像调整至分辨率得到第二训练图像，并将所述第二训练图像进行归一化处理，得到预处理后的训练图像；

第二预处理模块，对于每个所述训练图像，获取所述训练图像的前帧图像和后帧图像，并在以上三张图像中均确认出一个同名点位，所述同名点位用于表征所述三张图像中相同目标的位置。

在本发明实施例的又一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上所述方法的步骤。

在本发明实施例的又一方面，提供一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

由上可知，本申请实施例在对目标场景的图像进行深度估计时，能够多方面地考虑到单目图像深度估计的相机与目标的相对位姿、卷积处理、光度影响、采样排序等多个环节下的损失，构建对应的模型单元和损失函数，从而最大程度地保证在各个环节中的预测准确率，以提升单目图像深度估计的总准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的光场相机的场景深度估计装置的应用场景示意图；

图2是本申请实施例提供的光场相机的场景深度估计方法的流程示意图；

图3是本申请实施例提供的基于深度预测模型进行预测的示意图；

图4是本申请实施例提供的光场相机的场景深度估计装置的结构示意图；

图5是本申请实施例提供的计算机设备的内部结构图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的装置所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本申请一些实施例所示的光场相机的场景深度估计装置的应用场景示意图。如图1所示，光场相机的场景深度估计装置100可以包括服务器110、网络120、图像采集设备130、和存储器140。

服务器110可以处理从光场相机的场景深度估计装置100的至少一个组件(例如，图像采集设备130和存储器140)或外部数据源(例如，云数据中心)获取的数据和/或信息。例如，服务器110可以从图像采集设备130(例如，乘客端)获取交互指令。又例如，服务器110还可以从存储器140获取历史数据。

在一些实施例中，服务器110可以包括处理设备112。处理设备112可以处理与人机交互系统相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如，处理设备112可以基于交互指令和/或历史数据确定成像控制策略。在一些实施例中，处理设备112可包括至少一个处理单元(例如，单核处理引擎或多核处理引擎)。在一些实施例中，处理设备112可以为图像采集设备130的一部分。

网络120可以提供信息交换的渠道。在一些实施例中，网络120可以包括一个或多个网络接入点。光场相机的场景深度估计装置100的一个或多个部件可以通过接入点连接到网络120以交换数据和/或信息。在一些实施例中，光场相机的场景深度估计装置100中的至少一个组件可以经由网络120访问存储在存储器140中的数据或指令。

图像采集设备130可以由多个图像采集设备组成，图像采集设备的种类不做限制，例如可以是摄像头、光场相机或具有图像采集功能的移动终端等。

在一些实施例中，存储器140可以存储处理设备112可以执行或使用以完成本说明书描述的示例性方法的数据和/或指令。例如，存储器140可以存储历史数据。在一些实施例中，存储器140可以作为后端存储器直接连接到服务器110。在一些实施例中，存储器140可以是服务器110、图像采集设备130一部分。

图2示出了本申请实施例提供的一种光场相机的场景深度估计方法的流程示意图，如图2所示，一种光场相机的场景深度估计方法包括如下步骤：

步骤210、获取训练图像。

其中，训练图像可以是相机或摄像机等图像采集设备所拍摄一段视频中的至少一帧图像，例如交通道理场景中的包括行人、车辆和建筑物的一帧图像数据。

本申请实施例中，获取训练图像之后，还包括将上述训练图像样本数据进行预处理的步骤。具体而言，可以包括：首先运用数据扩充方法对训练图像样本数据进行扩充，包括缩放、旋转、随机水平翻转处理，得到对应的第一训练图像；其次，将扩充后得到的第一训练图像调整至预设分辨率，如384×384，得到第二训练图像，以便送入编码器为ResNet的深度预测网络中；最后，对经过上述预处理操作得到的样本图像数据集进行归一化处理。其中，所述归一化处理所采用的计算公式如下：

其中，xi[channel]表示经过预处理后得到的训练图像的三通道图像像素值，yi表示对所述训练图像进行归一化处理后的像素值，mean[channel]表示所述训练图像的像素值的均值，std[channel]表示所述训练图像的像素值的标准差。在一些实施例中，所述设置为mean＝[0.485,0.456,0.406]，设置为st d＝[0.229,0.224,0.225]。

步骤220、将所训练图像输入预先构建的深度预测模型中进行训练。

其中，所述深度预测模型包括深度预测单元、卷积-反卷积单元、位姿识别单元和特征融合单元，得到对应的预测深度图；

在步骤220之前，本申请实施例的方法还包括：

仅作为示例，训练图像是相机在t时刻获取的帧图像记为I_t，而前帧图像I_t-1和后帧图像I_t+1可以为相机分别在t-1时刻和t+1时刻下拍摄的帧图像，也即t时刻的前后相邻时刻。

仅作为示例，目标可以为图像中的某个车辆，则同名点位可以是指该车辆出现在训练图像、前帧图像和后帧图像的坐标点。

可选地，步骤220还可以包括以下步骤：

其中，步骤“所述将所述训练图像输入至所述卷积-反卷积单元，生成当前反卷积特征图像”，可以包括：对所述训练图像进行下采样，生成分辨率依次下降的多个预设层特征图像，所述预设层特征图像的数量为4个。

其中，可以将经过预处理后尺寸为384×384的训练图像数据作为深度预测网络ResNet50的输入，根据输出特征图的分辨率将作为编码器的ResNet50网络分成4个不同的构建模块，每个模块输出的特征图尺寸(以W×H×C形式)分别为96×96×256、48×48×512、24×24×1024、12×12×2048，最终特征图的大小是输入图像的1/32。

对于联合损失函数中的L_rank、L_ms-ssim和βL_grad，表示为如下：

其中，N表示随机采样点对数，φ(p_i,0,p_i,1)表示预测深度图中成对排序损失，表示深度点对在相应预测深度图像上的深度值，i表示真实深度图上对应点对的排序标签，c为阈值，设置为0.02。

在一些实施例中，可以将相机的相对位姿作为变量与经过卷积-反卷积得到的图像进行特征融合后,以其光度差作为损失监督网络的训练。其中，相对位姿可以是指相对位置和姿态。

由于训练图像、前帧图像、后帧图像的拍摄出现了时间差,因此除了要求表面是明亮的,以保证光度误差有效外,还需要当前目标场景是静态的,当前目标场景中没有移动物体,在多个图像间不存在遮蔽和解遮蔽现象。然而现实的目标场景是复杂的,有许多移动的动态物体。因此现在加入一个可解释的解释性预测,其为每个训练图片与目标图片对生成一个掩模Es,用这个掩模来过滤掉无用目标和信息。于是相当于在表征光度差的视图合成损失函数中增添了一个权值,且为了避免掩模Es最终被优化为0,在最终的损失函数中添加了形如交叉熵的正则项L_reg,以及保持梯度平滑的损失项L_smooth,采用二阶梯度的L₁范式,故最终的损失函数为：

使得最终的联合损失函数为：

步骤230、将所得到的预测深度图与对应的第一损失函数和第二损失函数的联合损失函数进行联合损失计算，得到对应的真实深度估计图。

其中，所述真实深度图利用flownet2.0获得双目图像的光流的水平分量。

其中，所述联合损失函数为：

其中，在所述联合损失函数L中，所述第一损失函数包括L_rank、L_ms-ssim、L_grad，所述第二损失函数包括

和

L_rank表示基于随机采样的排序损失，L_ms-ssim表示多尺度结构相似损失函数，L_grad表示多尺度不变梯度匹配损失函数，vs为视图合成损失；λ_s与λ_e为调节参数；

为掩模；m为不同的图像尺度。

最终，可以迭代训练深度预测模型直至将联合损失函数L将至0或持续最低值，以得到训练好的深度预测模型，用于单目图像深度估计。

为实现上述方法类实施例，本申请实施例还提供一种光场相机的场景深度估计装置，图3示出了本申请实施例提供的一种光场相机的场景深度估计装置的结构示意图，所述装置包括：

训练图像获取模块301，用于获取训练图像；

训练模块302，用于将所训练图像输入预先构建的深度预测模型中进行训练，所述深度预测模型包括深度预测单元、卷积-反卷积单元、位姿识别单元和特征融合单元，得到对应的预测深度图；

真实深度估计图获取模块303，用于将所得到的预测深度图与对应的第一损失函数和第二损失函数的联合损失函数进行联合损失计算，得到对应的真实深度估计图，所述联合损失函数为：

可选地，所述装置还包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像采集设备的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种光场相机的场景深度估计方法及装置。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现光场相机的场景深度估计方法及装置。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SR AM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

综上所述，本申请提供的一种光场相机的场景深度估计方法，包括：

获取训练图像；

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。