CN113902789A

CN113902789A - 图像特征处理、深度图像生成方法及装置、介质和设备

Info

Publication number: CN113902789A
Application number: CN202111123419.2A
Authority: CN
Inventors: 宫振飞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-01-07

Abstract

本公开提供了一种图像特征处理方法、深度图像生成方法、图像特征处理装置、深度图像生成装置、计算机可读存储介质和电子设备，涉及图像处理技术领域。该图像特征处理方法包括：获取待处理的图像特征图；从待处理的图像特征图中提取位置编码信息；利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。本公开可以准确地得到与待处理的图像特征图对应的位置编码，输出精确度高的特征图，有助于提升模型预测结果的准确度。

Description

图像特征处理、深度图像生成方法及装置、介质和设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像特征处理方法、深度图像生成方法、图像特征处理装置、深度图像生成装置、计算机可读存储介质和电子设备。

背景技术

与全卷积网络(Fully Convolution Network，FCN)相比，Transformer(变换器)能够更好地建模长距离依赖关系，这就使得Transformer在一些应用场景中更具优势。

位置编码(Positional Embedding，PE)为视觉Transformer中的可学习参数，可用作坐标索引，在空间信息建模中起着重要的作用，有助于Transformer正确地学习到要素之间的关系。

然而，目前应用Transformer的方案，仍会存在预测结果准确度不高的问题。

发明内容

本公开提供一种图像特征处理方法、深度图像生成方法、图像特征处理装置、深度图像生成装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服模型处理结果准确度不高的问题。

根据本公开的第一方面，提供了一种图像特征处理方法，包括：获取待处理的图像特征图；从待处理的图像特征图中提取位置编码信息；利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。

根据本公开的第二方面，提供了一种深度图像生成方法，包括：获取彩色图以及与彩色图对应的稀疏深度图，并将彩色图与稀疏深度图进行合并，生成待处理图像；对待处理图像进行下采样，得到待处理的图像特征图，并利用上述图像特征处理方法对待处理的图像特征图进行处理，生成处理后的图像特征图；对处理后的图像特征图进行上采样，得到深度估计信息；利用深度估计信息，生成与彩色图对应的稠密深度图。

根据本公开的第三方面，提供了一种图像特征处理装置，包括：特征获取模块，用于获取待处理的图像特征图；信息提取模块，用于从待处理的图像特征图中提取位置编码信息；特征转换模块，用于利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。

根据本公开的第四方面，提供了一种深度图像生成装置，包括：图像获取模块，用于获取彩色图以及与彩色图对应的稀疏深度图，并将彩色图与稀疏深度图进行合并，生成待处理图像；特征处理模块，用于对待处理图像进行下采样，得到待处理的图像特征图，并利用上述图像特征处理方法，对待处理的图像特征图进行处理，生成处理后的图像特征图；上采样模块，用于对处理后的图像特征图进行上采样，得到深度估计信息；深度图生成模块，用于利用深度估计信息，生成与彩色图对应的稠密深度图。

根据本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的图像特征处理方法或深度图像生成方法。

根据本公开的第六方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的图像特征处理方法或深度图像生成方法。

在本公开的一些实施例所提供的技术方案中，从待处理的图像特征图中提取位置编码信息，并利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。一方面，相比于通过数据集训练得到位置编码的方案，本公开方案的位置编码从待处理的图像特征图中提取出，能够准确反映出当前输入的特征图的位置编码属性，应用于模型时，有助于模型泛化能力的提升，可以提高模型预测结果的准确度；另一方面，本公开的图像特征处理方案针对的是特征图的处理过程，该过程可以嵌入各类模型架构中，使用的灵活度高，在将图像特征处理方案应用于深度估计的场景中时，可以提高深度估计的完整度和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本公开实施方式的图像处理方案的场景示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开示例性实施方式的图像特征处理方法的流程图；

图4示出了本公开轴向注意力机制的示意图；

图5示意性示出了本公开实施方式的利用位置编码信息得到处理后图像特征图的流程图；

图6示出了本公开实施例的确定特征转换结果的过程的示意图；

图7示出了本公开实施例的得到处理后的图像特征图的示意图；

图8示出了本公开另一实施例的得到处理后的图像特征图的示意图；

图9示意性示出了根据本公开示例性实施方式的深度图像生成方法的流程图；

图10示出了本公开实施例的深度图像生成方案的处理过程的示意图；

图11示意性示出了本公开深度图像生成方案与其他方案的效果对比图；

图12示意性示出了根据本公开示例性实施方式的图像特征处理装置的方框图；

图13示意性示出了根据本公开示例性实施方式的深度图像生成装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”至“第七”等仅是为了区分的目的，不应作为本公开内容的限制。

本公开实施方式的方案可以针对Transformer模型。其中，Transformer模型是一种自然语言处理模型，其使用了自注意力(Self-Attention)机制来实现相应的处理功能。并且由于Transformer模型未采用例如RNN(Recurrent Neural Network，循环神经网络)的循环结构，因此，Transformer模型可以并行训练，且能够拥有全局信息。

可以理解的是，本公开实施方式的方案还可以应用于其他采用位置编码的机器学习模型中，本公开对此不做限制。另外，即使机器学习模型本身不依赖于位置编码，仍可以采用本公开的图像特征处理方法来提升模型处理效果。

在应用位置编码来进行模型预测的场景中，位置编码通常借助于数据集的训练而得到，其尺寸是固定的。为了使位置编码能够适配不同尺寸的图像，在训练出位置编码后，并在判断出待处理图像的尺寸不同于位置编码的尺寸的情况下，通常需要对位置编码进行缩放处理，例如，从256×256的尺寸放大至512×512的尺寸。

然而，一方面，试验表明，利用缩放处理后的位置编码，模型预测结果准确度不高，图像处理后的结果可能会出现伪影。另一方面，由于位置编码是预先通过数据集训练得到的，其可以较好地模拟空间信息在数据集中的分布，但是对于非数据集的图像，这种固定的位置编码也可能导致模型预测准确度不高的问题。

鉴于此，本公开提供了一种新的图像特征处理方案，以及应用该图像特征处理方案的深度图像生成方案。

图1示出了本公开实施方式的图像处理方案的场景示意图。

参考图1，模型处理过程的输入通常为图像或从图像中提取出的特征信息。模型处理过程可以包括但不限于图像深度估计的过程、图像语义分割的过程、图像中目标检测的过程等，本公开对模型处理过程不做限制。

模型处理过程包括本公开实施方式的图像特征处理过程，其中，待处理的图像特征图可以是模型处理过程的输入，也可以是模型处理过程的输入经模型处理过程中其他处理过程而得到的图像特征图。处理后的图像特征图可以是模型处理过程的输出，另外，处理后的图像特征图还可以经由其他处理过程生成模型处理过程的输出。

针对本公开实施方式的图像特征处理过程，首先，可以从待处理的图像特征图中提取位置编码信息，例如，可以通过经训练的1×1的卷积过程对待处理的图像特征图进行处理，得到尺寸与待处理的图像特征图的尺寸一致的位置编码信息。

接下来，可以利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。例如，在结合有与待处理的图像特征图自适应的位置编码信息的情况下，可以借助于轴向注意力(axial-attention)机制得到处理后的图像特征图。也就是说，可以分别在特征图的宽度方向和高度方向进行特征转换处理，以得到处理后的图像特征图。

以深度估计为例对图1中的模型处理过程进行说明。

首先，可以获取彩色图以及与彩色图对应的稀疏深度图，并将二者合并，得到模型处理过程的输入。接下来，可以利用编码器(Encoder)对模型处理过程的输入进行下采样处理，以得到待处理的图像特征图。利用本公开实施方式的图像特征处理过程对待处理的图像特征图进行处理，以得到处理后的图像特征图。随后，可以利用解码器(Decoder)对处理后的图像特征图进行上采样，得到深度估计信息。

在一些场景下，可以将深度估计信息作为模型处理过程的输出，进入下一处理阶段，在下一处理阶段中，可以对深度估计信息进行迭代分析处理，以生成与彩色图对应的稠密深度图。

在另一些场景下，模型处理过程还包括对深度估计信息进行迭代分析处理，生成与彩色图对应的稠密深度图，作为模型处理过程的输出。

虽然本公开的模型处理过程以深度图像生成过程为例进行说明，然而，可以理解的是，本公开实施方式的图像特征处理过程还可以应用到例如图像语义分割、图像目标检测等其他场景，本公开对此不做限制。

需要说明的是，本公开实施方式的图像特征处理方法和/或深度图像生成方法可以由终端设备执行，也就是说，终端设备可以执行本公开实施方式的图像特征处理方法的各个步骤和/或深度图像生成方法的各个步骤。在这种情况下，对应的图像特征处理装置和/或深度图像生成装置可以配置在终端设备中。

本公开对终端设备的类型不做限制，终端设备可以包括但不限于智能手机、平板电脑、智能可穿戴设备、便携式计算机和台式计算机等。

另外，本公开实施方式的图像特征处理方法和/或深度图像生成方法可以由服务器执行，也就是说，服务器可以执行本公开实施方式的图像特征处理方法的各个步骤和/或深度图像生成方法的各个步骤。在这种情况下，对应的图像特征处理装置和/或深度图像生成装置可以配置在服务器中。

应当理解的是，在又一些场景下，本公开实施方式的图像特征处理方法和/或深度图像生成方法中的某个或某些步骤可以由终端设备执行，而其余的步骤可以由服务器执行。在这种情况下，终端设备可以与服务器进行通信交互，例如，终端设备可以通过有线、无线通信链路或者光纤电缆等方式与服务器进行通信交互，以接收或发送数据。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开示例性实施方式的终端设备可以被配置为如图2的形式。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的图像特征处理方法和/或深度图像生成方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备200的具体限定。在本公开另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。例如，本公开所述待处理的图像特征图是对由摄像模组291拍摄出的图像进行特征提取或特征变换而得到的特征图。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

下面以终端设备执行本公开实施方式的图像特征处理方法为例进行说明。在这种情况下，下面描述的图像特征处理装置可以被配置在终端设备中。

图3示意性示出了本公开的示例性实施方式的图像特征处理方法的流程图。参考图3，图像特征处理方法可以包括以下步骤：

S32.获取待处理的图像特征图。

在本公开的示例性实施方式中，待处理的图像特征图可以是B×C×H×W的四维特征图，其中，B表示批(Batch)、C表示通道(Channel)、H表示高度(Height)、W表示宽度(Width)。本公开对待处理的图像特征图的具体尺寸不做限制。

待处理的图像特征图可以是图像对应的特征图。具体的，待处理的图像特征图可以是原始图像经特征提取后得到的特征图，例如，可以是原始图像输入编码器后，由编码器输出的特征图，本公开对原始图像不做限制，可以是完整的图像，也可以是完整图像包含的图像块，还可以是由不同图像组合而成的图像。另外，待处理的图像特征图还可以由原始图像直接得到。

S34.从待处理的图像特征图中提取位置编码信息。

根据本公开的一些实施例，可以将待处理的图像特征图输入位置编码提取模型，由位置编码提取模型对待处理的图像特征图进行处理，以得到位置编码信息。其中，位置编码提取模型可以预先进行训练而得到，本公开对训练时采用的数据集及训练方式不做限制。

在一个实施例中，得到的位置编码信息的尺寸与待处理的图像特征图的尺寸不同，在这种情况下，还可以对得到的位置编码信息进行尺寸变换处理，使得变换后的位置编码信息的尺寸与待处理的图像特征图的尺寸一致。将尺寸变换后的位置编码信息作为步骤S34输出的位置编码信息。

在另一个实施例中，得到的位置编码信息的尺寸与待处理的图像特征图的尺寸一致。在这种情况下，相比于需要尺寸变换的实施例，可以避免尺寸变换而导致的信息偏差的问题，进而有助于图像预测结果准确度的提升。

本公开对上述位置编码提取模型的结构和训练过程不做限制，具体的，该位置编码提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。

例如，在位置编码提取模型仅包括一个1×1卷积核的情况下，对待处理的图像特征图仅执行一次卷积处理过程，即可得到与待处理的图像特征图适配的位置编码信息。

本公开实施方式的位置编码信息从待处理的图像特征图中提取出，包含待处理的图像特征图中各特征点的位置相关信息。相比于一些方案采用固定的位置编码，本公开可以显著提升模型的泛化能力。并且针对本公开无需尺寸变换的方案，可以避免图像处理过程中产生信息偏差而导致处理结果出现伪影的问题，提高了后续模型预测的准确度。

S36.利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。

在本公开的示例性实施方式中，为了减少内存的负担，达到轻量化的目的，可以结合轴向注意力机制来得到处理后的图像特征图。

在轴向注意力机制中，不是直接计算特征图中每一个特征点与其余特征之间的关联关系，而是先计算特征点与其所在列(或行)所有特征点之间的关联关系，再计算特征点与其所在行(或列)所有特征点之间的关联关系。

参考图4，在建立长距离依赖关系的过程中，需要将特征点A的语义信息传递至特征点C。在轴向注意力方案中，在列方向(即高度方向)上，特征点A的语义信息先传递至特征点B，然后在行方向(即宽度方向)上，特征点A的语义信息由特征点B再传递至特征点C。

关于轻量化，针对H×W的特征图，基于轴向注意力机制的方案，可以将处理的过程拆分为宽度方向和高度方向，由此，得到计算复杂度O(H^2+W^2)。而对于未采用轴向注意力机制的方案，通常需要先转换为长度为H×W的一维向量，再计算H×H×W×W，计算复杂度O(H^2×W^2)。可见，本公开采用轴向注意力机制的方案，计算复杂度低，可以实现轻量化的效果。

下面参考图5对结合轴向注意力机制的确定处理后的图像特征图的过程进行说明。

在步骤S502中，可以利用位置编码信息，对待处理的图像特征体执行第一方向上的特征转换操作，得到中间特征图。

在步骤S504中，可以利用位置编码信息，对中间特征图执行第二方向上的特征转换操作，得到处理后的图像特征图。

其中，第一方向为特征图的宽度方向且第二方向为特征图的高度方向，或者第一方向为特征图的高度方向且第二方向为特征图的宽度方向。

也就是说，在本公开一些实施例中，终端设备可以先执行特征图宽度方向上的特征转换操作，再执行特征图高度方向上的特征转换操作。而在本公开另一些实施例中，终端设备可以先执行特征图高度方向上的特征转换操作，再执行特征图宽度方向上的特征转换操作。

就本公开实施方式的步骤S502中确定中间特征图的过程而言，终端设备可以从待处理图的图像特征图中提取键(Key)特征、值(Value)特征和查询(Query)特征。

根据本公开的一些实施例，针对提取键特征的过程，可以将待处理的图像特征图输入经训练的键特征提取模型，由键特征提取模型对待处理的图像特征图进行处理，以得到键特征。本公开键特征提取模型的结构和训练过程不做限制，具体的，该键特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在键特征提取模型仅包括一个1×1卷积核的情况下，对待处理的图像特征图仅执行一次卷积处理过程，即可得到待处理的图像特征图的键特征。

针对提取值特征的过程，可以将待处理的图像特征图输入经训练的值特征提取模型，由值特征提取模型对待处理的图像特征图进行处理，以得到值特征。本公开值特征提取模型的结构和训练过程不做限制，具体的，该值特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在值特征提取模型仅包括一个1×1卷积核的情况下，对待处理的图像特征图仅执行一次卷积处理过程，即可得到待处理的图像特征图的值特征。

针对提取查询特征的过程，可以将待处理的图像特征图输入经训练的查询特征提取模型，由查询特征提取模型对待处理的图像特征图进行处理，以得到查询特征。本公开查询特征提取模型的结构和训练过程不做限制，具体的，该查询特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在查询特征提取模型仅包括一个1×1卷积核的情况下，对待处理的图像特征图仅执行一次卷积处理过程，即可得到待处理的图像特征图的查询特征。

也就是说，在一些实施例中，可以采用不同的1×1卷积核对待处理的图像特征图进行处理，以得到与待处理的图像特征图对应的键特征、值特征和查询特征。

根据本公开的另一些实施例，还可以采用全连接的方式确定出键特征、值特征和查询特征，本公开对此不做限制。

在确定出键特征、值特征和查询特征之后，终端设备可以利用键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码执行第一方向上的特征转换过程，得到中间特征图。可以理解的是键特征的位置编码、值特征的位置编码、查询特征的位置编码包含于步骤S34中确定出的位置编码信息中。

首先，可以分别对键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码进行与第一方向对应的尺寸调整。

以第一方向为宽度方向为例，在键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码的尺寸均为B×C×H×W的情况下，可以将尺寸调整为(B×H)×c×g×W。其中，c×g表征针对通道C方向的分块处理结果，g表示每一个块的通道数，c为分块的数量。

接下来，终端设备可以利用尺寸调整后的特征以及对应的位置编码，执行特征转换过程，得到特征转换结果。

下面将参考图6对得到特征转换结果的一个实施例进行说明。

在图6中，将尺寸调整后的值特征的位置编码记为V_embed，将尺寸调整后的查询特征的位置编码记为Q_embed，将尺寸调整后的查询特征记为Q，将尺寸调整后的键特征记为K，将尺寸调整后的键特征的位置编码记为K_embed，将尺寸调整后的值特征记为V。

将Q_embed与Q相乘，得到第一交互特征；将Q与K相乘，得到第二交互特征；将K与K_embed相乘，得到第三交互特征。

将第一交互特征、第二交互特征和第三交互特征相加，得到第四交互特征，并对第四交互特征进行softmax处理，即进行归一化处理，得到第五交互特征。

将V_embed与第五交互特征相乘，得到第六交互特征；将V与第五交互特征相乘，得到第七交互特征。

将第六交互特征与第七交互特征相加，得到特征转换结果。

可以理解的是，上述相乘和相加均是矩阵之间的运算过程。

另外，图6仅是示出了一种确定特征转换结果的实例，本公开对此不做限制。

在确定出特征转换结果之后，终端设备可以对特征转换结果进行尺寸恢复，得到尺寸与待处理的图像特征图的尺寸一致的中间特征图。具体的，特征转换结果的尺寸为(B×H)×c×g×W，可以对其进行尺寸调整，得到尺寸为B×C×H×W的中间特征图。

就本公开实施方式的步骤S504中确定处理后的特征图的过程而言，终端设备可以从中间特征图中提取键特征、值特征和查询特征。

根据本公开的一些实施例，针对提取键特征的过程，可以将中间特征图输入经训练的键特征提取模型，该经训练的键特征提取模型可以与上述确定中间特征图时采用的键特征提取模型相同，也可以是不同的模型，本公开对此不做限制。由该键特征提取模型对中间特征图进行处理，以得到键特征。具体的，该键特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在键特征提取模型仅包括一个1×1卷积核的情况下，对中间特征图仅执行一次卷积处理过程，即可得到中间特征图的键特征。

针对提取值特征的过程，可以将中间特征图输入经训练的值特征提取模型，该经训练的值特征提取模型可以与上述确定中间特征图时采用的值特征提取模型相同，也可以是不同的模型，本公开对此不做限制。由该值特征提取模型对中间特征图进行处理，以得到值特征。具体的，该值特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在值特征提取模型仅包括一个1×1卷积核的情况下，对中间特征图仅执行一次卷积处理过程，即可得到中间特征图的键特征。

针对提取查询特征的过程，可以将中间特征图输入经训练的查询特征提取模型，该经训练的查询特征提取模型可以与上述确定中间特征图时采用的查询特征提取模型相同，也可以是不同的模型，本公开对此不做限制。由该查询特征提取模型对中间特征图进行处理，以得到查询特征。具体的，该查询特征提取模型可以包括1×1的卷积核，该卷积核的数量可以为一个或多个。例如，在查询特征提取模型仅包括一个1×1卷积核的情况下，对中间特征图仅执行一次卷积处理过程，即可得到中间特征图的查询特征。

也就是说，在一些实例中，也可以采用不同的1×1卷积核对中间特征图进行处理，以得到与中间特征图对应的键特征、值特征和查询特征。

在确定出键特征、值特征和查询特征之后，终端设备可以利用键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码执行第二方向上的特征转换过程，得到处理后的图像特征图。

应当注意的是，此处采用的键特征的位置编码、值特征的位置编码、查询特征的位置编码与步骤S502中采用的键特征的位置编码、值特征的位置编码、查询特征的位置编码相同。也就是说，在特征图的宽度方向和高度方向上采用相同的位置编码，确保了整个处理过程空间信息的一致性，进而有助于提升模型预测的准确度。

首先，可以分别对键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码进行与第二方向对应的尺寸调整。

接下来，终端设备可以利用尺寸调整后的特征以及对应的位置编码，执行特征转换过程，得到特征转换结果。具体过程仍可以采用如图6的操作方式，不再赘述。

在确定出特征转换结果之后，终端设备可以对特征转换结果进行尺寸恢复，得到尺寸与待处理的图像特征图的尺寸一致的处理后的图像特征图。

图7示出了本公开一个实施例的得到处理后的图像特征图的示意图。

参考图7，对待处理的图像特征图执行位置编码信息的提取操作，得到位置编码信息。利用位置编码信息对待处理的图像特征图进行特征图宽度方向的特征转换操作，得到中间特征图。再利用位置编码信息对中间特征图进行特征图高度方向的特征转换操作，得到处理后的图像特征图。

图8示出了本公开另一个实施例的得到处理后的图像特征图的示意图。

参考图8，对待处理的图像特征图执行位置编码信息的提取操作，得到位置编码信息。利用位置编码信息对待处理的图像特征图进行特征图高度方向的特征转换操作，得到中间特征图。再利用位置编码信息对中间特征图进行特征图宽度方向的特征转换操作，得到处理后的图像特征图。

此外，除图7和图8所示的处理方式之外，即除了上述先执行宽度方向的特征转换操作再执行高度方向的特征转换操作以及先执行高度方向的特征转换操作再执行宽度方向的特征转换操作之外，在本公开的又一些实施例中，还可以以并行的方式分别对待处理的图像特征图执行宽度方向的特征转换操作和高度方向的特征转换操作，并将并行得到的结果融合，以生成处理后的图像特征图。

本公开实施方式的图像特征处理方法可以嵌入任意结合位置编码信息的模型中，具体的，可以嵌入编码器-解码器的模型结构中。应当理解的是，即使模型本身不依赖于位置编码，仍可以采用本公开的图像特征处理方法来提升模型处理效果。

进一步的，本公开实施方式还提供了一种深度图像生成方法。下面仍以终端设备执行深度图像生成方法的各个步骤为例进行说明，在这种情况下，下述深度图像生成装置可以被配置在该终端设备中。

图9示意性示出了本公开的示例性实施方式的深度图像生成方法的流程图。参考图9，深度图像生成方法可以包括以下步骤：

S92.获取彩色图以及与彩色图对应的稀疏深度图，并将彩色图与稀疏深度图进行合并，生成待处理图像。

在本公开的示例性实施方式中，彩色图和稀疏深度图可以是由终端设备采集的图像。例如，终端设备可以通过其摄像模组采集彩色图，并通过距离传感器感测出稀疏深度图。本公开该对距离传感器的类型不做限制，例如TOF(Time Of Flight，时间飞行)、结构光、雷达均可以作为终端设备获取稀疏深度图的装置。

本公开还可以包括彩色图与稀疏深度图对齐的方案，以确保像素信息一致。

另外，终端设备可以从其他设备或服务器获取彩色图和稀疏深度图，本公开对彩色图和稀疏深度图的尺寸、来源、拍摄场景等均不做限制。

在终端设备获取到彩色图和对应的稀疏深度图之后，可以对二者进行合并，以生成待处理图像。可以理解的是，此处所说的合并通常指的是通道维度的合并。

例如，终端设备可以分别对彩色图和对应的稀疏深度图进行卷积操作，分别得到48通道的特征图和16通道的特征图。接下来，将48通道的特征图和16通道的特征图进行合并(或称为组合)，得到一个64通道的特征图，即为待处理图像。

S94.对待处理图像进行下采样，得到待处理的图像特征图，并对待处理的图像特征图进行处理，生成处理后的图像特征图。

终端设备可以对待处理图像进行下采样处理，具体的，可以利用编码器对待处理图像下采样提取特征，以得到待处理的图像特征图。其中，编码器用于逐步提取高维语义信息，本公开对编码器的结构不做限制。

接下来，终端设备可以对待处理的图像特征图执行上述图像特征处理方法，以得到处理后的特征图。具体过程不再赘述。

S96.对处理后的图像特征图进行上采样，得到深度估计信息。

终端设备可以对步骤S94得到的处理后的图像特征图进行上采样处理，具体的，可以利用解码器对处理后的图像特征图进行上采样，以得到深度估计信息。其中，解码器用于从高维语音信息中逐步恢复信息，本公开对解码器的结果不做限制。

本公开实施方式的深度估计信息可以包括预测的初始深度信息、非局部信息和相似度矩阵(用于表征像素点与其邻域的相似度关系)、预测的初始深度信息的置信度等。

S98.利用深度估计信息，生成与彩色图对应的稠密深度图。

首先，终端设备可以利用置信度对相似度矩阵进行归一化，得到归一化结果。接下来，终端设备可以利用归一化结果，并采用非局部信息迭代式空间传播的方式，实现预测的初始深度信息的多次迭代优化过程，在满足迭代完成条件时，输出与彩色图对应的稠密深度图。

其中，迭代完成条件可以为下述任意一种：累计迭代次数达到预定迭代次数、迭代后生成的深度图满足预定深度图质量要求等。本公开对迭代次数及预定深度图质量要求不做限制，可以人为通过试验配置出。

参考图10对本公开实施例的深度图像生成方案的处理过程进行说明。

首先，彩色图和稀疏深度图合并后输入编码器，生成待处理的图像特征图。

接下来，待处理的图像特征图经历图像特征处理装置的处理，生成处理后的图像特征图，并输入解码器，由解码器输出深度估计信息。

接下来，深度估计信息经由迭代优化过程，可以生成与彩色图对应的稠密深度图。

图11示意性示出了本公开深度图像生成方案与其他方案的效果对比图。

在图11所示的场景中，需要对图像110进行深度图的预测。其中，可以利用路灯1101来表征深度图预测的效果。

深度图像111为采用现有的GuideNet模型来对图像110进行深度预测而得到的深度图像。深度图像112为采用现有的NLSPN(非局部空间传播网络)模型对图像110进行深度预测而得到的深度图像。深度图像113为采用本公开实施方式的深度图像生成方法而得到的深度图像。

可见，在深度图像111中，路灯1101的深度上下不一致，而实际上对于同一距离的对象而言，深度应当是一致的，故采用GuideNet模型来进行深度预测的结果相对不理想。在深度图像112中，路灯1101上部的深度与背景树木的深度无法区分，故采用NLSPN模型来进行深度预测的结果也相对不理想。而在深度图像113中，路灯1101的深度一致性较好，且能够与其他对象的深度进行区分，故采用本公开的深度图像生成方法得到的深度图像更加完整，预测效果最好。

为了进一步说明本公开方案的效果，本公开还将图像特征处理方案分别应用于GuideNet和NLSPN两个模型中，并与未应用的情况进行了比较，比较结果如下表：

其中，RMSE、MAE、iRMSE和iMAE均为图像深度任务中常用的模型性能评估指标，RMSE和MAE分别为深度的均方根误差和平均绝对误差，iRMSE和iMAE分别为逆深度的均方根误差和平均绝对误差。这些指标越低，表明模型性能越好。

从表中可以看出，嵌入有本公开实施方式的图像特征处理方案的模型，其模型性能均得到了提升。

综上，本公开提供的图像特征处理方法可以增强模型的泛化能力，在处理速度几乎不变的情况下，可以提高模型预测的精度。以生成深度图像的场景为例，应用本公开实施方式的方案，可以得到完整且准确的深度估计结果，

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种图像特征处理装置。

图12示意性示出了本公开的示例性实施方式的图像特征处理装置的方框图。参考图12，根据本公开的示例性实施方式的图像特征处理装置12可以包括特征获取模块121、信息提取模块123和特征转换模块125。

具体的，特征获取模块121可以用于获取待处理的图像特征图；信息提取模块123可以用于从待处理的图像特征图中提取位置编码信息；特征转换模块125可以用于利用位置编码信息对待处理的图像特征图进行特征转换，得到处理后的图像特征图。

根据本公开的示例性实施例，信息提取模块123可以被配置为执行：将待处理的图像特征图输入位置编码提取模型，由位置编码提取模型对待处理的图像特征图进行处理，以得到位置编码信息。

根据本公开的示例性实施例，位置编码提取模型包括1×1的卷积核。

根据本公开的示例性实施例，位置编码信息的尺寸与待处理的图像特征图的尺寸一致。

根据本公开的示例性实施例，特征转换模块125可以被配置为执行：利用位置编码信息，对待处理的图像特征图执行第一方向上的特征转换操作，得到中间特征图；利用位置编码信息，对中间特征图执行第二方向上的特征转换操作，得到处理后的图像特征图；其中，第一方向为特征图的宽度方向且第二方向为特征图的高度方向，或者第一方向为特征图的高度方向且第二方向为特征图的宽度方向。

根据本公开的示例性实施例，特征转换模块125得到中间特征图的过程可以被配置为执行：从待处理的图像特征图中提取键特征、值特征和查询特征；利用键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码，执行第一方向上的特征转换过程，得到中间特征图；其中，键特征的位置编码、值特征的位置编码、查询特征的位置编码包含于位置编码信息中。

根据本公开的示例性实施例，特征转换模块125提取键特征的过程可以被配置为执行：将待处理的图像特征图输入键特征提取模型，由键特征提取模型对待处理的图像特征图进行处理，以得到键特征。

根据本公开的示例性实施例，键特征提取模型包括1×1的卷积核。

根据本公开的示例性实施例，特征转换模块125得到中间特征图的过程可以被配置为执行：分别对键特征、值特征、查询特征以及键特征的位置编码、值特征的位置编码、查询特征的位置编码进行与第一方向对应的尺寸调整；利用尺寸调整后的特征以及对应的位置编码，执行特征转换过程，得到特征转换结果；对特征转换结果进行尺寸恢复，得到尺寸与待处理的图像特征图的尺寸一致的中间特征图。

根据本公开的示例性实施例，特征转换模块125得到特征转换结果的过程可以被配置为执行：将尺寸调整后的查询特征的位置编码与尺寸调整后的查询特征相乘，得到第一交互特征；将尺寸调整后的查询特征与尺寸调整后的键特征相乘，得到第二交互特征；将尺寸调整后的键特征的位置编码与尺寸调整后的键特征相乘，得到第三交互特征；将第一交互特征、第二交互特征、第三交互特征相加，得到第四交互特征，并对第四交互特征进行归一化处理，得到第五交互特征；将尺寸调整后的值特征的位置编码与第五交互特征相乘，得到第六交互特征，并将尺寸调整后的值特征与第五交互特征相乘，得到第七交互特征；将第六交互特征与第七交互特征相加，得到特征转换结果。

进一步的，本示例实施方式中还提供了一种深度图像生成装置。

图13示意性示出了本公开的示例性实施方式的深度图像生成装置的方框图。参考图13，根据本公开的示例性实施方式的深度图像生成装置13可以包括图像获取模块131、特征处理模块133、上采样模块135和深度图生成模块137。

具体的，图像获取模块131可以用于获取彩色图以及与彩色图对应的稀疏深度图，并将彩色图与稀疏深度图进行合并，生成待处理图像；特征处理模块133可以用于对待处理图像进行下采样，得到待处理的图像特征图，并利用上述图像特征处理方法，对待处理的图像特征图进行处理，生成处理后的图像特征图；上采样模块135可以用于对处理后的图像特征图进行上采样，得到深度估计信息；深度图生成模块137可以用于利用深度估计信息，生成与彩色图对应的稠密深度图。

由于本公开实施方式的图像特征处理装置和深度图像生成装置的各个功能模块与上述方法实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像特征处理方法，其特征在于，包括；

获取待处理的图像特征图；

从所述待处理的图像特征图中提取位置编码信息；

利用所述位置编码信息对所述待处理的图像特征图进行特征转换，得到处理后的图像特征图。

2.根据权利要求1所述的图像特征处理方法，其特征在于，从所述待处理的图像特征图中提取位置编码信息包括：

将所述待处理的图像特征图输入位置编码提取模型，由所述位置编码提取模型对所述待处理的图像特征图进行处理，以得到所述位置编码信息。

3.根据权利要求2所述的图像特征处理方法，其特征在于，所述位置编码提取模型包括1×1的卷积核。

4.根据权利要求1所述的图像特征处理方法，其特征在于，所述位置编码信息的尺寸与所述待处理的图像特征图的尺寸一致。

5.根据权利要求1至4中任一项所述的图像特征处理方法，其特征在于，利用所述位置编码信息对所述待处理的图像特征图进行特征转换，得到处理后的图像特征图，包括：

利用所述位置编码信息，对所述待处理的图像特征图执行第一方向上的特征转换操作，得到中间特征图；

利用所述位置编码信息，对所述中间特征图执行第二方向上的特征转换操作，得到所述处理后的图像特征图；

其中，所述第一方向为特征图的宽度方向且所述第二方向为特征图的高度方向，或者所述第一方向为特征图的高度方向且所述第二方向为特征图的宽度方向。

6.根据权利要求5所述的图像特征处理方法，其特征在于，利用所述位置编码信息，对所述待处理的图像特征图执行第一方向上的特征转换操作，得到中间特征图，包括：

从所述待处理的图像特征图中提取键特征、值特征和查询特征；

利用所述键特征、所述值特征、所述查询特征以及所述键特征的位置编码、所述值特征的位置编码、所述查询特征的位置编码，执行所述第一方向上的特征转换过程，得到所述中间特征图；

其中，所述键特征的位置编码、所述值特征的位置编码、所述查询特征的位置编码包含于所述位置编码信息中。

7.根据权利要求6所述的图像特征处理方法，其特征在于，从所述待处理的图像特征图中提取键特征包括：

将所述待处理的图像特征图输入键特征提取模型，由所述键特征提取模型对所述待处理的图像特征图进行处理，以得到所述键特征。

8.根据权利要求7所述的图像特征处理方法，其特征在于，所述键特征提取模型包括1×1的卷积核。

9.根据权利要求6所述的图像特征处理方法，其特征在于，利用所述键特征、所述值特征、所述查询特征以及所述键特征的位置编码、所述值特征的位置编码、所述查询特征的位置编码，执行所述第一方向上的特征转换过程，得到所述中间特征图，包括：

分别对所述键特征、所述值特征、所述查询特征以及所述键特征的位置编码、所述值特征的位置编码、所述查询特征的位置编码进行与所述第一方向对应的尺寸调整；

利用尺寸调整后的特征以及对应的位置编码，执行特征转换过程，得到特征转换结果；

对所述特征转换结果进行尺寸恢复，得到尺寸与所述待处理的图像特征图的尺寸一致的所述中间特征图。

10.根据权利要求9所述的图像特征处理方法，其特征在于，利用尺寸调整后的特征及对应的位置编码，执行特征转换过程，得到特征转换结果，包括：

将尺寸调整后的查询特征的位置编码与尺寸调整后的查询特征相乘，得到第一交互特征；

将尺寸调整后的查询特征与尺寸调整后的键特征相乘，得到第二交互特征；

将尺寸调整后的键特征的位置编码与尺寸调整后的键特征相乘，得到第三交互特征；

将所述第一交互特征、所述第二交互特征、所述第三交互特征相加，得到第四交互特征，并对所述第四交互特征进行归一化处理，得到第五交互特征；

将尺寸调整后的值特征的位置编码与所述第五交互特征相乘，得到第六交互特征，并将尺寸调整后的值特征与所述第五交互特征相乘，得到第七交互特征；

将所述第六交互特征与所述第七交互特征相加，得到所述特征转换结果。

11.一种深度图像生成方法，其特征在于，包括：

获取彩色图以及与所述彩色图对应的稀疏深度图，并将所述彩色图与所述稀疏深度图进行合并，生成待处理图像；

对所述待处理图像进行下采样，得到待处理的图像特征图，并利用权利要求1至10中任一项所述的图像特征处理方法，对所述待处理的图像特征图进行处理，生成处理后的图像特征图；

对所述处理后的图像特征图进行上采样，得到深度估计信息；

利用所述深度估计信息，生成与所述彩色图对应的稠密深度图。

12.一种图像特征处理装置，其特征在于，包括：

特征获取模块，用于获取待处理的图像特征图；

信息提取模块，用于从所述待处理的图像特征图中提取位置编码信息；

特征转换模块，用于利用所述位置编码信息对所述待处理的图像特征图进行特征转换，得到处理后的图像特征图。

13.一种深度图像生成装置，其特征在于，包括：

图像获取模块，用于获取彩色图以及与所述彩色图对应的稀疏深度图，并将所述彩色图与所述稀疏深度图进行合并，生成待处理图像；

特征处理模块，用于对所述待处理图像进行下采样，得到待处理的图像特征图，并利用权利要求1至10中任一项所述的图像特征处理方法，对所述待处理的图像特征图进行处理，生成处理后的图像特征图；

上采样模块，用于对所述处理后的图像特征图进行上采样，得到深度估计信息；

深度图生成模块，用于利用所述深度估计信息，生成与所述彩色图对应的稠密深度图。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至10中任一项所述的图像特征处理方法或者如权利要求11所述的深度图像生成方法。

15.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至10中任一项所述的图像特征处理方法或者如权利要求11所述的深度图像生成方法。