CN111612898B

CN111612898B - 图像处理方法、装置、存储介质及电子设备

Info

Publication number: CN111612898B
Application number: CN202010561176.XA
Authority: CN
Inventors: 张润泽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2023-04-18
Anticipated expiration: 2040-06-18
Also published as: CN111612898A

Abstract

本申请公开了图像处理方法、装置、存储介质及电子设备。该方法引入了计算机视觉技术，包括：根据目标图像和多张相邻图像的图像特征、及目标图像中像素点的位置构建三维特征卷，其中，三维特征卷由多个代价匹配图沿深度假设方向堆叠而成；按照深度假设方向依次计算目标图像中像素点映射在不同深度假设上的概率，其中，像素点位于当前层深度假设上的概率基于当前层深度假设上的代价匹配图和历史代价匹配图确定；根据目标图像中像素点在不同深度假设上的概率生成深度图。本方案可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

Description

图像处理方法、装置、存储介质及电子设备

技术领域

本申请涉及深度图生成技术领域，具体涉及一种图像处理方法、装置、存储介质及电子设备。

背景技术

从应用中引入3D(Three Dimensional，三维)几何是数十年来经典的计算机视觉问题。

相关技术中采用手工制作相似性指标和工程标准化进行传播点并优化相关几何，但是仍然存在解决匹配模糊的限制，尤其是在无纹理的表面。而基于深度学习的多视图立体几何方法，从训练数据中学习知识可以推断出从立体匹配算法中难以获得的信息去解决匹配模糊性。然而大部分基于神经网络的方法都采用了非常大的降采样模块来完成特征的提取，导致内存消耗较大，且信息也在降采样的过程中丢失，导致3D重建的效果较差。

发明内容

本申请实施例提供一种图像处理方法、装置、存储介质及电子设备，可以减少内存占用、提升深度图的精准性。

本申请实施例提供了一种图像处理方法，包括：

对目标图像、及所述目标图像的多张相邻图像提取图像特征，其中，所述目标图像和所述相邻图像为一确定场景在不同视角下的图像；

根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，所述三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，所述代价匹配图包括多个像素点；

按照深度假设方向依次计算所述目标图像中像素点映射在不同深度假设上的概率，其中，所述像素点位于当前层深度假设上的概率基于所述当前层深度假设上的代价匹配图和历史代价匹配图确定，所述历史代价匹配图为位于所述当前层之前所有深度假设上的代价匹配图；

基于所述目标图像中像素点映射在不同深度假设上的概率生成所述目标图像的深度图。

相应的，本申请实施例还提供了一种图像处理装置，包括：

提取单元，用于对目标图像、及所述目标图像的多张相邻图像提取图像特征，其中，所述目标图像和所述相邻图像为一确定场景在不同视角下的图像；

构建单元，用于根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，所述三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，所述代价匹配图包括多个像素点；

计算单元，用于按照所述深度假设方向依次计算所述目标图像中像素点映射在不同深度假设上的概率，其中，所述像素点位于当前层深度假设上的概率基于所述当前层深度假设上的代价匹配图和历史代价匹配图确定，所述历史代价匹配图为位于所述当前层之前所有深度假设上的代价匹配图；

处理单元，用于基于所述目标图像中像素点映射在不同深度假设上的概率生成所述目标图像的深度图。

相应的，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执如上所述的图像处理方法。

相应的，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的图像处理方法。

本申请实施例中，通过对一确定场景在不同视角下的目标图像、及多张相邻图像提取图像特征，然后该图像特征及目标图像中像素点的位置构建三维特征卷，其中，三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上；按照深度假设方向依次计算目标图像中像素点映射在不同深度假设上的概率，其中，像素点位于当前层深度假设上的概率基于当前层深度假设上的代价匹配图和历史代价匹配图确定；根据目标图像中像素点在不同深度假设上的概率生成深度图。本方案可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理流程示意图。

图2是本申请实施例提供的图像处理方法的流程示意图。

图3是本申请实施例提供的网络架构示意图。

图4是本申请实施例提供的增强现实游戏的应用场景示意图。

图5是本申请实施例提供的图像处理装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

图7是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、行为识别、三维物体重建、3D技术、虚拟现实、增强现实等技术。

基于深度学习的多视图立体几何方法，从训练数据中学习知识可以推断出从立体匹配算法中难以获得的信息去解决匹配模糊性，但是仍然由以下问题：

首先，一些方法需要消耗大量内存，所以无法处理高分辨率的图像；虽然某些方法试图解决占内存大的问题，但是牺牲了准确性。例如，多视图的三维重建网络(Multi viewsystem Net，MVS-Net)、数字成像系统(Digital pixel system Net，DPS-Net)都采用了U-Net来处理三维立体卷，非常占内存，无法处理大分辨率图片。又例如，基于循环神经网络的多视图三维重建网络(Recurrent Multi view system Net，RMVS-Net)虽然降低了内寸消耗，但是却以点云精确度为代价。

其次，大部分的基于神经网络的方法都采用了非常大的降采样模块来完成特征的提取，除了占内存外，信息也在降采样的过程中丢失了。例如，MVS-Net、DPS-Net和RMVS-Net都采用了多层降采样结构来提取特征。这种结构一方面参数量大、占内存，另一方面在降采样过程中会损失信息；

最后，这些基于深度学习的多视角立体几何方法都需要将每一张作为参考图像计算出来的深度图进行融合，在融合的时候采用固定的启发式策略和参数，会过滤掉很多高精度的点云，严重影响点云的完整度。

有基于此，本申请实施例提供一基于密集混合式多视角立体几何循环神经网络(Dense Hybrid Recurrent Multi View System Net，DH-RMVS-Net)，包括了一个新的神经网络结构和一个动态的后处理融合深度图的方法。其中，网络结构采用了一种专门为MVS任务新设计的轻量级的特征提取模块，以及一个耦合了长短记忆网络(Long Short-TermMemory，LSTM)和U-Net的混合式的网络结构将不同尺度的信息输入到LSTM中，从而正则化三维匹配卷估计出深度图。动态后处理过程为动态地筛选来自不同深度图地点云。

如图1所示，本实施例中，可输入视频或连续的图片或者相机实时拍摄的视频进入(Structure from Motion，SfM)进行预处理得到输入图片的相机参数与图像对，输入多张图片和对应相机参数得到对应图片的深度值，最后通过融合和过滤得到重建场景的稠密点云，并可呈现在前端的图像浏览器上供用户查看。

实际应用中，本方案可以用于用户对喜欢的物体拍摄照片进行实时或云端的三维重建，从而获得该物体的三维模型。用户通过手机等移动终端拍摄时，移动终端内置的传感器会记录下拍摄时相机的姿态，然后将拍摄的照片和相机姿态输入本算法，便可获得物体的密集三维点云。重建好的三维模型可以用于AR/VR应用中。

另外，本方案还可以提供三维重建服务。例如，对于建筑领域可通过本方案重建出所需建筑的模型；对于游戏领域，可以通过本方案提供的三维重建服务进行建模，从而为3D游戏提供更多更加真实的游戏场景合素材。

为了更好的说明本申请所描述的方案，本申请实施例提供一种图像处理方法、装置、存储介质及电子设备。其中，该图像处理装置具体可以集成在平板PC(PersonalComputer)、手机等具备储存单元并安装有微处理器而具有运算能力的电子设备或服务器中。以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。在本方案中，引入了一个轻量级的用于提取密集特征的网络模块DRENet、一个混合的网络结构DHU-LSTM、一个用于过滤噪声的动态一致性检测算法，以实现在处理高分辨率的图像时获得高分辨率、高精度的深度图，同时在算法性能和时间上达到较佳效果的目的。

请参阅图2和图3，图2为本申请实施例提供的图像处理方法的流程示意图；图3为本申请实施例提供的网络架构示意图。

如图3所示的网络架构，DRE-Net可用于图像特征提取，之后采用HRU-LSTM进行正则化，最后将网络结果输入到损失函数中进行训练。例如，以给定某一确定场景在不同视角下的N张图像以及对应的相机参数，输出参考图像片的深度图为例。选取其中一张作为参考图像、剩余N-1张作为该参考图的相邻图像。首先，每张输入图像都会被当作参考图像和一些它周围的图像输入进如图3所示的网络架构中，从而回归出所有图像作为参考图像的深度图。然后，利用动态一致性检测算法过滤这些深度图，从而获得可靠准确的深度值。最后，直接将过滤后的深度图反投回三维空间，并合并在一起获得最终的密集三维点云。在获得三维点云后，可以利用泊松重建或者三角化方法，将点云连接成表面三角网格，并从输入图像上获得网格的纹理，便可自动化地从图像中获得了可用于游戏中的建模素材。

下面，将结合他2和图3对本方案中的图像处理方法进行详细描述。如图2所示，图像处理方法具体流程可以如下：

101、对目标图像、及目标图像的多张相邻图像提取图像特征，其中，目标图像和相邻图像为一确定场景在不同视角下的图像。

其中，该确定场景可以是包含任意可视化对象(如人物、动植物、建筑物等)的场景。具体实施时，可以给定同一场景在不同视角下的多个视图，首先从中选取一视图作为参考图像(即目标图像)，然后从剩余视图中选取与该参考图像重叠率较高的视图作为该参考图像的相邻图像。相邻图像的数量可以根据实际需求而确定，如3张、5张等。接下来，可对该参考图像和相邻图像进行图像特征提取，以得到不同维度上的图像特征，如颜色特征、纹理特征、形状特征等。需要说明的是，本实施例中只要相机拍摄的方位发生细微的平移、转动等，都可认为是拍摄视角发生了改变。连续拍摄过程中可同时调整相机拍摄方位以获取不同视角下的场景图像。

本实施例中，为了提升后续特征匹配的稳健性，在进行图像特征提取时可提取多个尺度的背景信息。也即，在一些实施例中，在对目标图像、及该目标图像的多张相邻图像提取图像特征时，具体可以包括以下流程：

利用第一卷积层对该目标图像和该相邻图像进行特征提取并输出；

利用多个第二卷积层对该第一卷积层的输出进行多尺度的特征提取并输出，其中，该第一卷积层与该第二卷积层的类型不相同；

利用第三卷积层对该第二卷积层的输出进行特征提取，得到图像特征，该第一卷积层与该第三卷积层的类型相同。

具体的，该第二卷积层可为扩张卷积层，该多个扩张卷积层的扩张率各不相同且大于1；第一卷积层和第三卷积层可以为常规卷积层，即扩张率为1。在利用多个第二卷积层对该第一卷积层的输出进行多尺度的特征提取时，具体可以利用多个扩张卷积层对第一卷积层的输出进行多尺寸的特征提取。

参考图像3，本方案中设计了一种新的密集感受野扩张子网络(Dense ReceptiveExpansion sub-network，DRE-Net)，在该子网络中引入了不同扩张率的扩张卷积层来产生多个尺度的背景信息，并且保持了分辨率，使得能够输出输入图像分辨率大小的深度图。需要说明的是，图3所示的网络架构中，DRE-Net中包括不同扩张率的卷积层，其中标识的数字用于表示该卷积层的扩张率，该网络架构中分别包含扩张率为1、2、3和4的卷积层；“C”则表示全连接层。

DRENet的网络细节如下表1所示，其中，Conv表示二维卷积，Deconv表示二维反卷积；GR表示组归一化(Group Normalization)和ReLU的简称；MaxPooling表示了二维最大化池化层；ConvLSTMCell表示含有二维卷积的LSTM循环神经元；N表示输入的多视角图像的个数、H表示图像的长、W表示图像的宽、D深度假设的个数。

表1

对于给定的不同视角的N个图像，首先可用两个常规的卷积层对于每一个像素周围的像素的信息进加权加和，然后利用三个扩张卷积层(扩张率为2，3，4)提取出多尺度的背景信息，从而提高在之后环节的特征匹配的稳健性。

102、根据图像特征和目标图像中像素点的位置构建三维特征卷，三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，代价匹配图包括多个像素点。

具体的，可利用提取出来的图像特征(即DRE-Net的输出，每个像素有多个维度的向量描述)构造了一个三维特征卷。构造三维特征卷可通过求取单应性，单应性变换就是一个平面到另一个平面的映射关系。本实施例中利用单应性将每个像素的特征映射到不同假设深度上，以将不同视角提取出来的特征图转化到不同的深度上。例如，深度假设的个数为D，则三维特征卷可以被视作D个二维代价匹配图，这些匹配图沿着深度假设方向链接，该三维特征卷的大小是：图像长度H*图像宽度W*深度假设个数D*特征维数C。

具体实施时，可引入参考图像(即目标图像)与相邻图像之间的差异来构建三维特征卷。也即，在一些实施例中，在根据该图像特征和该参考图像中像素点的位置构建三维特征卷时，可以包括以下流程：

获取每一该相邻图像的图像特征与该目标图像的图像特征之间的差异特征；

将获取的目标图像与每一相邻图像的差异特征进行融合，得到融合特征后的特征图；

根据该特征图和该目标图像中像素点的位置构建三维特征卷。

具体的，在根据该特征图和该参考图像(即目标图像)中像素点的位置构建三维特征卷时，可以对该参考图像中每一像素点的位置进行单应性变换，然后根据单应性变换结果，将该特征图中位于相应像素点所在位置上的特征映射到对应的深度假设位置上，以构建三维特征卷。

在一些实施例中，在对该目标图像中像素点的位置进行单应性变换时，可包括以下流程：

确定拍摄该目标图像时的相机内部参数和相机外部参数；

至少根据该相机内部参数和该相机外部参数，确定单应性变换矩阵；

根据该单应性变换矩阵求取该参考图像中每一像素点的单应性。

其中，相机内部参数可包括相机的焦距和图像大小等信息；相机外部参数可包括相机朝向、相机位移、角度偏转等信息。具体的，可将相机内部参数和相机外部参数代入到以下公式中求取单应性变换矩阵。

其中，K表示相机内参数矩阵，包含相机的焦距和图像大小信息；R表示旋转矩阵，描述相机朝向；t表示平移向量，和R一起描述相机的位置；I表示单位矩阵；n表示相机朝向方向向量；d表示深度。例如，对于特征网络DRE-Net输出的位于X＝(x,y)的特征，用第i个深度假设的单应性H_i将其转换到该深度假设的位置，转化后该特征位于三维特征卷的位置为(H_i*X的第一个元素，H_i*X的第二个元素，i)。如图3所示，“D”则表示单应性变换，用将DRE-Net网络的输出按照像素位置映射到不同深度假设上以得到D个代价匹配图C_d＝0、C_d＝1…C_d＝D-1，需要说明的是代价匹配图C_d＝0至代价匹配图C_d＝D-1对应的深度值依次递增)，并由该D个代价匹配图沿深度假设方向(即深度值依次递增的方向)堆叠进而得到三维特征卷。

103、按照深度假设方向依次计算目标图像中像素点映射在不同深度假设上的概率，其中，像素点位于当前层深度假设上的概率基于当前层深度假设上的代价匹配图和历史代价匹配图确定，历史代价匹配图为位于当前层之前所有深度假设上的代价匹配图。

参考图像3，本申请方案中提出了一种混合式的循环正则网络结构HRU-LSTM，其包含了循环卷积神经元(LSTMConvCell)。该网络结构中，横向上每层卷积将输出不同尺寸的结果，考虑了多尺度背景信息；纵向上能依次处理三维特征卷，减少了运算时的内存消耗。为了聚集不同尺度的背景信息来提升深度估计的稳健性和精度，采用了三个LSTMConvCells。其中一个LSTMConvCell采用了0.5降采样，另外两个则将多尺度背景信息聚集。其中，“M”表示最大池化(Max Pooling)，“C”表示连接(concatenation)，LSTMConvCells中卷积层内标识的数字用于表示该卷积层的步长stride。

如图3可知，LSTMConvCell利用三个门map来控制信息流，每一个代价匹配图都同时依赖于当前输入的匹配代价图和所有之前的匹配代价图，每一个LSTMConvCell的结果输出到下一个LSTMConvCell。也即，在一些实施例中，基于该当前层深度假设上的代价匹配图和历史代价匹配图，确定该参考图像中像素点位于当前层深度假设上的概率，包括：

对该当前层深度假设上的代价匹配图提取多个不同尺度的特征，其中，提取的当前尺度的特征基于前一尺度的特征、以及从该历史代价匹配图中提取的相同尺度的历史特征确定；

根据该多个不同尺寸的特征，计算该参考图像中像素点位于当前层深度假设上的概率。

参考图3，E_d＝0、E_d＝1…E_d＝D-1分别为代价匹配图C_d＝0、C_d＝1…C_d＝D-1经HRU-LSTM子网络后各自对应输出的概率图。例如，在计算像素点在映射在代价匹配图C_d＝1对应所在深度假设上概率时，可基于当前代价匹配图(即代价匹配图C_d＝1)中提取的特征和历史代价匹配图C_d＝0中的提取的特征计算得到。当计算出每一像素点在当前代价匹配图所在深度假设上的概率后，集成输出得到概率图E_d＝1。具体的，在根据多个不同尺寸的特征计算该参考图像中像素点位于当前层深度假设上的概率时，可将该多个尺度的特征进行融合，得到融合特征，并根据该融合特征计算该参考图像中像素点位于当前层深度假设上的概率。

在本实施例中，在LSTMConvCell利用三个门map来控制信息流时，可令

为输入的门map，遗忘门map和输出的门map。在接下来的公式中

表示每个元素相乘，“[]”表示链接，“*”表示卷积层上的矩阵乘法。

输入的门Map用于从当前的输入

中选择有效的信息输入到当前状态的神经元C(i):

遗忘门map

从之前状态神经元C(i-1)中过滤掉没有用的信息，并且从输入的门Map

中结合输入信息产生当前新状态的神经元C(i):

最终，输出门Map控制有多少信息从新状态C(i)输出：

其中，σ和tanh表示sigmoid和tanh非线性激活函数，

和

是LSTM卷积滤波器中要学习的参数。

104、基于目标图像中像素点映射在不同深度假设上的概率生成目标图像的深度图。

具体的，正则化后的三维特征卷会经过一个softmax激活函数层，以产生概率卷P，用于计算训练用的损失函数。在基于该参考图像(即目标图像)中像素点映射在不同深度假设上的概率生成该参考图像的深度图时，可以根据概率计算结果确定参考图像中每一像素点在不同深度假设上的概率分布，并基于该概率分布确定出该参考图像中每一像素点最大概率的深度假设，然后基于该最大概率的深度假设确定该参考图像中每一像素点的三维空间位置，并基于每一像素点的三维空间位置构建该参考图像的深度图(参考图3中的预测深度图，图示中连续的线条表示深度值的等高线)。

本实施例中，需预先训练损失函数。具体的，可把深度估计任务作为一个多分类任务，并采用估计出的概率卷P和真实深度图G之间的交叉熵损失函数L作为损失函数：

其中x_valid是真实值中可用的像素集合，x_valid表示了由真实深度图的x像素的深度值产生的one-hot向量(该向量长度位深度假设个数D，如果真实深度值为d，那么该向量的第d个元素是1，其他为0)，P(i,x)是对应的估计出来的深度概率。在测试阶段，不需要保留整个概率图。为了进一步提升效率，深度图是顺序处理的。采用赢家通吃策略从正则化代价匹配卷中产生估计出的深度图。

在本实施例中，可引入动态一致性检测算法，以在融合深度图时过滤噪声，从而获得更加精确完整的密集点云。具体的，记参考图像I_i的像素p通过的DH-RMVS-Net估计出的深度值为D_i(p)。相机参数矩阵可以表示为P_i＝[M_i|t_i]。首先反投影像素p到三维空间，产生三维点X：

然后，投影三维点X到邻近的视角Ij获得投影像素q:

其中，P_j是相邻视角Ij的相机矩阵，d是投影时计算出来的深度。反过来，重新采用估计出来的D_j(q)投影相邻视角Ij的像素q回三维空间，再投影回参考图像上，记为p’:

根据上面的结果，重投影误差可以计算为：

ξ_p＝||p-p′||₂

通过动态匹配一致性来量化两个视角见深度值的一致性，动态匹配一致性定义如下：

其中λ用于平衡不同尺度间的投影误差。通过聚合所有相邻视角的匹配一致性，获得了全局动态多视角几何一致性：

对于每一个像素计算动态几何一致性，并过滤掉动态一致性较差的像素。例如，可过滤掉c_geo(p)＜τ的像素，其中τ的取值可根据实际需求确定。

本申请实施例提供的图像处理方法，通过对一确定场景在不同视角下的参考图像、及多张相邻图像提取图像特征，然后该图像特征及参考图像中像素点的位置构建由多个代价匹配图沿深度假设方向堆叠而成的三维特征卷，再按照深度假设方向依次计算参考图像中像素点映射在不同深度假设上的概率，其中，像素点位于当前层深度假设上的概率基于当前层深度假设上的代价匹配图和历史代价匹配图确定。最后根据概率计算结果确定参考图像中像素点在不同深度值上的概率分布，并基于概率分布及对应的深度假设生成深度图。本方案中构建了一集成有DRE-Net、DHU-LSTM及动态一致性检测算法的网络架构，可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

为了进一步理解本申请的图像处理方法，请参考图4。图4为本申请实施例提供的一种增强现实游戏的应用场景示意图。下面将以该游戏当前的奖励任务为打造一处可容纳上百人的场所为例进行描述。

如图4所示，用户佩戴增强现实AR眼镜设备进入游戏。当用户处于一真实场景(该真实场景中包括建筑物A)时，通过AR眼镜中的摄像头采集建筑物A的多张平面扫描图像，并从中筛选出多个视角下的图像a1、a2及a3。然后，利用上述提供的DH-RMVS-Net网络架构，通过该网络架构中的DRE-Net子网络对图像a1、a2及a3进行多尺度的图像特征提取，并将不同视角提取出来的特征图转化到不同的深度上，以构建三维特征卷。之后采用该网络架构中的HRU-LSTM子网络对该三维特征卷进行正则化处理，计算出三维特征卷中每一像素点在当前位置的概率，以得到该三维特征卷对应的概率卷。根据概率卷确定每一像素的三维空间位置，并基于确定的位置输出对应的深度图。

进一步的，可对每一个像素点计算动态几何一致性，并过滤掉动态一致性较差的像素点，以得到可用的三维点云。在获得三维点云后，利用三角化方法将点云连接成表面三角网格，并从输入图像上获得网格的纹理以得到该建筑物A对应的3D建模素材A＇。用户可根据实际情况对该建模素材A＇进行放大、缩小、平移、旋转等操作。通过对真实场景中建筑物A的其他细节(如室内的布置细节)的扫描，可构建得到更多的建模素材，并可基于这些建模素材对上述3D建模素材A＇进行室内装潢操作，以获得更多的游戏奖励。

为便于更好的实施本申请实施例提供的图像处理方法，本申请实施例还提供一种基于上述图像处理方法的装置。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的图像处理装置的结构示意图，其中该处理装置可以包括：提取单元301、构建单元302、计算单元303及处理单元304。具体可以如下：

提取单元301，用于对目标图像、及所述目标图像的多张相邻图像提取图像特征，其中，所述目标图像和所述相邻图像为一确定场景在不同视角下的视图。

其中，该确定场景可以是包含任意可视化对象(如人物、动植物、建筑物等)的场景。具体实施时，可以给定同一场景在不同视角下的多个视图，首先从中选取一视图作为目标图像，然后从剩余视图中选取与该目标图像重叠率较高的视图作为该参考图像的相邻图像。相邻图像的数量可以根据实际需求而确定。接下来，可对该参考图像和相邻图像进行图像特征提取，以得到不同维度上的图像特征，如颜色特征、纹理特征、形状特征等。

构建单元302，用于根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，所述三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，代价匹配图包括多个像素点。

具体的，可利用提取出来的图像特征并求取单应性构造了一个三维特征卷。其中，单应性变换就是一个平面到另一个平面的映射关系。本实施例中利用单应性将每个像素的特征映射到不同假设深度上，以将不同视角提取出来的特征图转化到不同的深度上，从而构建三维特征卷。

计算单元303，用于按照深度假设方向依次计算所述目标图像中像素点映射在不同深度假设上的概率，其中，所述像素点位于当前层深度假设上的概率基于所述当前层深度假设上的代价匹配图和历史代价匹配图确定，所述历史代价匹配图为位于所述当前层之前所有深度假设上的代价匹配图。

处理单元304，用于基于所述目标图像中像素点映射在不同深度假设上的概率生成所述目标图像的深度图。

具体的，可根据概率计算结果确定目标图像中像素点在不同深度假设上的概率分布，并基于该概率分布生成目标图像的深度图。

在一些实施例中，所述构建单元302可以用于：

获取所述目标图像的图像特征与每一所述相邻图像的图像特征的差异特征；

将获取的所述目标图像与所述相邻图像的差异特征进行融合，得到融合特征后的特征图；

根据所述特征图和所述目标图像中像素点的位置构建三维特征卷。

在一实施例中，在根据所述特征图和所述目标图像中像素点的位置构建三维特征卷时，构建单元302可以用于：

对所述目标图像中每一像素点的位置进行单应性变换；

根据单应性变换结果，将所述特征图中位于相应像素点所在位置上的特征映射到对应的深度假设位置上，以构建三维特征卷。

在一实施例中，在对所述目标图像中像素点的位置进行单应性变换时，构建单元302进一步可以用于：

确定拍摄所述目标图像时的相机内部参数和相机外部参数；

至少根据所述相机内部参数和所述相机外部参数，确定单应性变换矩阵；

根据所述单应性变换矩阵求取所述目标图像中每一像素点的单应性。

在一实施例中，计算单元303可以用于：

对当前层深度假设上的代价匹配图提取多个不同尺度的特征，其中，提取的当前尺度的特征基于前一尺度的特征、以及从所述历史代价匹配图中提取的相同尺度的历史特征确定。

根据所述多个不同尺寸的特征，计算所述目标图像中像素点位于当前层深度假设上的概率。

在一实施例中，在根据所述多个不同尺寸的特征计算所述目标图像中像素点位于当前层深度假设上的概率时，计算单元303进一步可以用于：

将所述多个尺度的特征进行融合，得到融合特征；

根据所述融合特征计算所述目标图像中像素点位于当前层深度假设上的概率。

在一实施例中，处理单元304可以用于：

确定出所述目标图像中每一像素点最大概率的深度假设；

基于所述最大概率的深度假设确定所述目标图像中每一像素点的三维空间位置；

基于每一像素点的三维空间位置构建所述目标图像的深度图。

在一实施例中，提取单元301可以用于：

利用第一卷积层对所述目标图像和所述相邻图像进行特征提取并输出；

利用多个第二卷积层对所述第一卷积层的输出进行多尺度的特征提取并输出，其中，所述第一卷积层与所述第二卷积层的类型不相同；

利用第三卷积层对所述第二卷积层的输出进行特征提取，得到图像特征，所述第一卷积层与所述第三卷积层的类型相同。

在一实施例中，第二卷积层为扩张卷积层。在利用多个第二卷积层对所述第一卷积层的输出进行多尺度的特征提取并输出时，提取单元301进一步可以用于：

利用多个扩张卷积层对第一卷积层的输出进行多尺寸的特征提取并输出，其中，所述多个扩张卷积层的扩张率各不相同。

本实施例提供的图像处理装置，通过对一确定场景在不同视角下的目标图像、及多张相邻图像提取图像特征，然后该图像特征及目标图像中像素点的位置构建三维特征卷，其中，三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上；按照深度假设方向依次计算目标图像中像素点映射在不同深度假设上的概率，其中，像素点位于当前层深度假设上的概率基于当前层深度假设上的代价匹配图和历史代价匹配图确定；根据概率计算结果确定目标图像中像素点在不同深度假设上的概率分布，并基于概率分布及对应的深度假设生成深度图。本方案可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

本申请实施例还提供一种电子设备，该电子设备具体可以是智能手机、平板电脑等终端设备。如图6所示，该电子设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如图像播放功能等)等。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器、陀螺仪以及其他传感器。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态的应用。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块为用户提供了无线的宽带互联网访问。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

电子设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

对目标图像、及目标该图像的多张相邻图像提取图像特征，其中，目标图像和该相邻图像为一确定场景在不同视角下的视图；根据该图像特征和该目标图像中像素点的位置构建三维特征卷，该三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，该代价匹配图包括多个像素点；按照深度假设方向依次计算该目标图像中像素点映射在不同深度假设上的概率，其中，该像素点位于当前层深度假设上的概率基于该当前层深度假设上的代价匹配图和历史代价匹配图确定，该历史代价匹配图为位于该当前层之前所有深度假设上的代价匹配图；基于目标图像中像素点映射在不同深度假设上的概率生成目标图像的深度图。

本申请实施例提供的电子设备，集成了一个轻量级的用于密集点云重建的提取密集特征的网络模块DRENet、一个可在减少内存消耗的基础上维持高重建精度的混合网络结构DHU-LSTM、以及一个可在融合深度图时过滤噪声以获得精确完整密集点云的动态一致性检测算法。该电子设备可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

另外，本申请实施例还提供一种服务器。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云计算、云函数、云存储、云通信、和人工智能平台等基础云计算服务的云服务器。如图7所示，该服务器可以包括射频(RF，Radio Frequency)电路701、包括有一个或一个以上计算机可读存储介质的存储器702、包括有一个或者一个以上处理核心的处理器704、以及电源703等部件。本领域技术人员可以理解，图7中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体在本实施例中，服务器中的处理器704会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器704来运行存储在存储器702中的应用程序，从而实现各种功能：

本申请实施例提供的服务器，集成了一个轻量级的用于密集点云重建的提取密集特征的网络模块DRE-Net、一个可在减少内存消耗的基础上维持高重建精度的混合网络结构DHU-LSTM、以及一个可在融合深度图时过滤噪声以获得精确完整密集点云的动态一致性检测算法。该服务器可处理高分辨率的图像获得高分辨率的深度图，在降低内存占用的同时保证了构建的深度图的精准性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，所述三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，所述代价匹配图为包括多个像素点的位置上对应特征的特征图；

按照所述深度假设方向依次计算所述目标图像中像素点映射在不同深度假设上的概率，其中，所述像素点位于当前层深度假设上的概率基于所述当前层深度假设上的代价匹配图和历史代价匹配图确定，所述历史代价匹配图为位于所述当前层之前所有深度假设上的代价匹配图；

2.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，包括：

将获取的所述目标图像与每一所述相邻图像的差异特征进行融合，得到融合特征后的特征图；

3.根据权利要求2所述的图像处理方法，其特征在于，所述根据所述特征图和所述目标图像中像素点的位置构建三维特征卷，包括：

对所述目标图像中每一像素点的位置进行单应性变换；

4.根据权利要求3所述的图像处理方法，其特征在于，所述对所述目标图像中像素点的位置进行单应性变换，包括：

确定拍摄所述目标图像时的相机内部参数和相机外部参数；

5.根据权利要求1所述的图像处理方法，其特征在于，基于所述当前层深度假设上的代价匹配图和历史代价匹配图，确定所述目标图像中像素点位于当前层深度假设上的概率，包括：

对所述当前层深度假设上的代价匹配图提取多个不同尺度的特征，其中，提取的当前尺度的特征基于前一尺度的特征、以及从所述历史代价匹配图中提取的相同尺度的历史特征确定；

6.根据权利要求5所述的图像处理方法，其特征在于，所述根据所述多个不同尺寸的特征，计算所述目标图像中像素点位于当前层深度假设上的概率，包括：

将所述多个尺度的特征进行融合，得到融合特征；

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于所述目标图像中像素点映射在不同深度假设上的概率生成所述目标图像的深度图，包括：

确定出所述目标图像中每一像素点最大概率的深度假设；

8.根据权利要求1所述的图像处理方法，其特征在于，所述对目标图像、及所述目标图像的多张相邻图像提取图像特征，包括：

9.根据权利要求8所述的图像处理方法，其特征在于，所述第二卷积层为扩张卷积层；所述利用多个第二卷积层对所述第一卷积层的输出进行多尺度的特征提取并输出，包括：

10.一种图像处理装置，其特征在于，包括：

构建单元，用于根据所述图像特征和所述目标图像中像素点的位置构建三维特征卷，所述三维特征卷由多个代价匹配图沿深度假设方向堆叠而成，每一代价匹配图映射在不同的深度假设上，所述代价匹配图为包括多个像素点的位置上对应特征的特征图；

11.根据权利要求10所述的图像处理装置，其特征在于，所述构建单元用于：

12.根据权利要求10所述的图像处理装置，其特征在于，所述计算单元用于：

13.根据权利要求10所述的图像处理装置，其特征在于，所述处理单元用于：

确定出所述目标图像中每一像素点最大概率的深度假设；

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-9任一项所述的图像处理方法。

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9任一项所述图像处理方法。