CN116309769A

CN116309769A - 一种图像深度估算方法、装置及相关设备

Info

Publication number: CN116309769A
Application number: CN202211686642.2A
Authority: CN
Inventors: 苏登; 齐镗泉
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-23

Abstract

本申请实施例公开一种图像深度估算方法、装置及相关设备，用于提高图像深度估算的图像分辨率和深度预测处理的效率。本申请实施例提供的图像深度估算方法可包括：将原始图像进行切块得到多个图像块，对每个图像块进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息；将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块的第二特征向量，所述第二特征向量至少包含图像块中语义特征的深度信息；将图像块的位置分布信息写入所述多个图像块的第二特征向量生成第三特征向量；将所述第三特征向量输入预设RefineNet模型进行特征融合，并在融合过程中进行图像上采样，以生成带有深度信息的深度图像。

Description

一种图像深度估算方法、装置及相关设备

技术领域

本申请涉及矢量绘图技术领域，尤其涉及一种图像深度估算方法、装置及相关设备。

背景技术

现阶段，移动摄像、拍照设备得到了广泛应用，但是传统针孔相机设备所能够获取的图像为二维图像，即在图像平面之外，不具有深度信息。现阶段能够同时获得深度信息的影像设备普遍具有体积大，价格昂贵，移动端集成率低的缺点，因此利用深度学习算法从图像中估计每个像素的深度信息是一项具有较大意义的任务。

相关技术中的深度估计模型往往使用卷积网络以获得多个尺度上的特征，需要对图片进行逐步的下采样操作，将低级特征组成抽象的高级特征，接着利用全卷积网络对图像预测像素点深度信息。

相关技术中，利用RGB图像生成深度图像需要经过下采样操作，图像的特征的分辨率和细粒度将缺失，造成图像精度损失。

发明内容

针对上述现有技术中存在的问题，本申请实施例提供了一种图像深度估算方法，用于提高深度预测的深度图像精度，将原始图像进行切块，分开并行进行深度预测，提高了深度预测的效率。

第一方面，本申请实施例提供了一种图像深度估算方法，可包括：

将原始图像进行切块得到多个图像块，对每个图像块进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息；

将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块的第二特征向量，所述第二特征向量至少包含图像块中语义特征的深度信息；

将图像块的位置分布信息写入所述多个图像块的第二特征向量生成第三特征向量；

将所述第三特征向量输入预设RefineNet模型进行特征融合，并在融合过程中进行图像上采样，以生成带有深度信息的深度图像。

进一步的，本申请实施例中，所述将原始图像进行切块得到多个图像块，可包括：

将原始图像进行切块得到多个尺寸相同的图像块。

进一步的，本申请实施例中，所述将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块的第二特征向量，可包括：

将所述多个图像块的第一特征向量分组，每组分别输入不同的预设Transformer模型，以并行映射生成所述多个图像块的第二特征向量。

进一步的，本申请实施例中，还可以包括：

从视频文件中提取多个原始图像，并设置前后帧对应的原始图像的深度信息比例参数相同。

进一步的，本申请实施例中，还可以包括：对提取到的所述多个原始图像按时间进行标记。

进一步的，将所述第三特征向量进行图像上采样并输入预设RefineNet模型之前，还可以包括：

将所述多个图像块中的第三特征向量中的图像尺寸参数调整为相同的长宽比例。

第二方面，本申请实施例还提供了一种图像深度估算装置，可包括：

第一处理模块，用于将原始图像进行切块得到多个图像块，对每个图像块进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息；

第二处理模块，用于将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块的第二特征向量，所述第二特征向量至少包含图像块中语义特征的深度信息；

第三处理模块，用于将图像块的位置分布信息写入所述多个图像块的第二特征向量生成第三特征向量；

融合模块，用于将所述第三特征向量输入预设RefineNet模型进行特征融合，并在融合过程中进行图像上采样，以生成带有深度信息的深度图像。

第三方面，本申请实施例还提供了一种电子设备，其中，包括：存储器以及处理器，所述存储器用于存储并支持处理器执行第一方面中任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

第四方面，本申请实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，所述程序代码使所述处理器执行所述第一方面的任一所述方法中的步骤。

本申请实施例带来了以下有益效果：

由以上公开内容可知，本申请实施例中，将原始图像进行切块得到多个图像块，将多个图像块的第一特征向量输入预设Transformer模型映射生成包含图像块中语义特征的深度信息的第二特征向量，并根据第二特征向量和图像块的位置分布信息进行图像上采样和特征融合生成带有深度信息的深度图像。相对于现有技术，本申请无需进行图像下采样，不会造成分辨率和细粒度将缺失，图像精度高。而且将原始图像进行切块，分开并行进行深度预测，提高了数据处理的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请实施例中的图像深度估算方法的一个实施例示意图；

图2为本申请实施例中的图像深度估算方法的另一个实施例示意图；

图3为本申请实施例中的图像深度估算方法的一个具体实施例示意图；

图4为本申请实施例中的电子设备的一个实施例示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中，术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”及其任何变形，意图在于覆盖不排他的包含。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

为了便于理解，下面对本申请实施例中的具体流程进行描述，请参阅图1，本申请实施例中一种图像深度估算方法的一个实施例可包括：

S101：将原始图像进行切块得到多个图像块，对每个图像块分别进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息。

为降低图像深度预测的任务复杂度，本申请实施例中，预先将需要进行深度预测的原始图像进行切块得到多个图像块，分别进行深度预测之后进行特征融合，再还原成一幅深度图像。其中，分块之后的图像块的尺寸可以尺寸相同，也可以不同。为了降低数据处理的复杂度，优选分块之后的图像块的尺寸相同。

在得到多个图像块之后，需要对每个图像块进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息。具体的图像特征提取算法可以参照相关技术，例如LBP(Local Binary Pattern，局部二值模式)特征提取；SIFT特征提取，HOG(Histogram ofOriented Gradient,HOG)特征提取，此处不做赘述。

S102：将多个图像块的第一特征向量输入预设Transformer模型映射生成多个图像块各自的第二特征向量。

为识别图像块中的深度信息，本申请实施例中，先对原始的Transformer模型进行训练(用了很多图片和对应的打上了语义标签的图片训练)之后得到预设Transformer模型，该模型可以识别预定义的语义特征，并将原图像的rgb数据，转化成了灰度数据用来表示深度信息。其中，Transformer模型出自于Google于2017年发表的论文《Attention isall you need》，其包含多个Encoder层和Decoder层，具体Transformer原始模型的构造为现有技术，此处不做赘述。

然后，将获取到的多个图像块的第一特征向量输入预设Transformer模型映射生成多个图像块的第二特征向量，该第二特征向量至少包含图像块中语义特征的深度信息。

优选的，为了提高处理效率，作为一种可能的实施方式，可以将多个图像块的第一特征向量分组，每组分别输入不同的预设Transformer模型，以并行映射生成多个图像块的第二特征向量。

S103：将图像块的位置分布信息写入多个图像块的第二特征向量生成第三特征向量。

为正确还原分块之后的图像，需要将图像块的各自的位置分布信息写入各自图像块的第二特征向量中，例如可以采用空间链接操作将位置信息组合与其他维度的信息居住组合在一起，以生成各个图像块对应的第三特征向量。

S104：将第三特征向量输入预设RefineNet模型进行特征融合，并在融合过程中进行图像上采样，以生成带有深度信息的深度图像。

在获取到各个图像块对应的第三特征向量之后，输入预设RefineNet模型进行特征融合，由于Transformer模型中输出的特征向量对应的图像尺寸与原图不一致，在融合的过程中需要进行图像上采样还原成原图像块的图像尺寸，最后生成与原图尺寸相同且带有深度信息的深度图像。其中，RefineNet模型总共可包括三大模块：残差卷积模块(RCU，Residual Convolution Unit)、多分辨率融合模块(Multi-Resolution Fusion)和串联残差池化模块(Chained Residual Pooling)，具体的RefineNet模型的内部模块的工作过程可以参照相关技术，此处不做赘述。

请参阅图2，本申请实施例中的一种图像深度估算方法的一个实施例可包括：

S201：从视频文件中提取多个原始图像，并设置前后帧对应的原始图像的深度信息比例参数相同。

当需要对视频中的图像进行深度估算时，可以从视频文件中提取多个原始图像，并设置前后帧对应的原始图像的深度信息比例参数相同。可选的，还可以对提取到的多个原始图像按时间进行标记，以便于重新还原成带有深度信息的视频文件。

S202：将原始图像进行切块得到多个图像块，对每个图像块进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息。

S203：将多个图像块的第一特征向量输入预设Transformer模型映射生成多个图像块的第二特征向量。

S204：将图像块的位置分布信息写入多个图像块的第二特征向量生成第三特征向量。

S205：将多个图像块中的第三特征向量中的图像尺寸参数调整为相同的长宽比例。

由于Transformer模型中输出的特征向量对应的图像长宽比例与原图不一致，需要进行图像上采样还原成原图像块相同的图像长宽比例。

S206：将第三特征向量输入预设RefineNet模型进行特征融合，并在融合过程中进行图像上采样，以生成带有深度信息的深度图像。

可以理解的是，上述步骤S202至S204以及S206中描述的内容与上述图1所示的实施例中步骤S102至S104中描述的内容类似，此处不做赘述。

S207：根据多个原始图像对应的深度图像生成视频文件。

在获取到原视频文件中的多个原始图像对应的深度图像之后，可以按照时间标记合成带有深度信息的视频文件。

由以上公开内容可知，本申请实施例可以对视频文件中提取多个原始图像，并行进行深度估算，提高了视频文件中的深度估算的效率。

为了便于理解，请参阅图3，下面将结合具体应用实施例对本申请实施例中的图像深度估算方法进行描述。

在将图像输入Transformer前，先将图像进行切块处理记录图像块的位置信息，进行特征提取生成特征向量。图像深度估算模型的整体网络架构分为三大部分，第一部分使用多个Transformer模型通过图像块的特征向量对图像的图像块进行特征提取和深度估算，因为Transformer维持特征向量的数量不变，而特征向量与图像块是一一对应的关系，即输入Transformer的图像块数量不会发生改变，所以特征图的分辨率不会发生变化，在整个流程中保持全局感受野。

随后，第二部分使用多个Reassemble模块。其首先应用了一个空间链接操作，将图像块的位置信息作为新的通道加入特征向量中，然后将处理后的特征向量传递给一个空间重采样层进行图像上采样，将多个图像块的特征向量的中的图像长宽比例参数调节为相同的长宽比例，作为第三部分的输入。

第三部分为fusion模块，其包含基于RefineNet模型的特征融合块，使用从Reassemble模块提取的特征向量进行特征融合，在每个融合阶段向上采样两次，最终得到与原始图像尺寸大小相同的深度图像。

本申请实施例可以用于图像、视频实时深度估计，利用Vision Transformer模型代替卷积网络实现dense prediction任务，通过不同阶段的Vision Transformer模型表示成不同分辨率的图像，最终组合成全分辨率预测。本申请实施例深度估计模型实现了视频流的实时深度估计，保证深度估计效果的同时在深度估计效率上获得了显著的提升。

本申请实施例还提供了一种图像深度估算装置，可包括:

可选的，作为一种可能的实施方式，本申请实施例中的第二处理模块，可包括：

处理单元，用于将所述多个图像块的第一特征向量分组，每组分别输入不同的预设Transformer模型，以并行映射生成所述多个图像块的第二特征向量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上面从模块化功能实体的角度对本申请实施例中的图像深度估算装置进行了描述，请参阅图4，下面从硬件处理的角度对本申请实施例中的电子设备进行描述：

该电子设备1可以包括存储器11、处理器12和输入输出总线13。处理器12执行计算机程序时实现上述图2所示的方法实施例中的步骤，例如图2所示的步骤201至207。或者，处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。

其中，存储器11至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如计算机程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行计算机程序等。

该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。

进一步地，电子设备还可以包括有线或无线网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的，用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-14以及计算机程序的电子设备1，本领域技术人员可以理解的是，图4示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，可以实现如图2所示的方法实施例中的步骤，例如图2所示的步骤201至207。或者，处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是在本申请的发明构思下，利用本申请说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。

Claims

1.一种图像深度估算方法，其特征在于，包括：

将原始图像进行切块得到多个图像块，对每个图像块分别进行特征提取得到第一特征向量，并记录每个图像块的位置分布信息；

将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块各自的第二特征向量，所述第二特征向量至少包含图像块中语义特征的深度信息；

2.根据权利要求1所述的方法，其特征在于，所述将原始图像进行切块得到多个图像块，包括：

将原始图像进行切块得到多个尺寸相同的图像块。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个图像块的第一特征向量输入预设Transformer模型映射生成所述多个图像块的第二特征向量，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：对提取到的所述多个原始图像按时间进行标记。

6.根据权利要求2或3所述的方法，其特征在于，将所述第三特征向量进行图像上采样并输入预设RefineNet模型之前，还包括：

7.一种图像深度估算装置，其特征在于，包括，。

8.根据权利要求7所述的装置，其特征在于，所述第二处理模块，包括：

9.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器用于存储并支持处理器执行权利要求1至6中任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至6任一所述方法。