CN115131243A

CN115131243A - 一种图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN115131243A
Application number: CN202210751857.1A
Authority: CN
Inventors: 徐杰杰; 刘光灿
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-30

Abstract

本申请提供了一种图像处理方法、装置、电子设备及存储介质；所述方法包括：获取待处理图像和所述待处理图像对应的稀疏深度图像；基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。如此，能够智能地对图像进行处理，以提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。

Description

一种图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术，尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的快速发展和广泛使用，人们使用计算机视觉技术对稀疏深度图进行图像处理得到稠密深度图，逐渐成为计算机视觉技术应用的主流。但是在对稀疏深度图进行图像处理得到稠密深度图的过程中，现有的图像处理方法得到的稠密深度图存在模糊的边缘，图像质量较低且稠密深度图容易存在伪影以及几何畸变，图像处理精度低，人们更希望提高经过图像处理得到的稠密深度图的图像质量，提高图像处理的精度。

因此，如何智能地对图像进行处理，以提高图像处理的精度和提高经过图像处理得到的稠密深度图的图像质量是一直追求的目标。

发明内容

本申请实施例提供了一种图像处理方法、装置、电子设备及存储介质。

根据本申请的第一方面，提供了一种图像处理方法，该方法包括：获取待处理图像和所述待处理图像对应的稀疏深度图像；基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。

根据本申请一实施方式，所述基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像，包括：确定所述稀疏深度图像中无效值像素点的位置；确定以所述无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域；响应于所述待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对所述待补充区域进行补充，确定补充后的所述稀疏深度图像为所述半稠密深度图像。

根据本申请一实施方式，所述基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像，包括：确定相机内参矩阵；基于所述相机内参矩阵，对所述半稠密深度图像进行三维位姿投影，确定所述半稠密深度图像中像素点对应的三维位姿坐标；基于所述三维位姿坐标，确定所述半稠密深度图像对应的所述三维位姿图像。

根据本申请一实施方式，所述基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像，包括：所述双分支卷积神经网络包括：语义引导分支和深度细化分支；基于所述语义引导分支，对所述半稠密深度图像和所述待处理图像进行语义引导，确定所述待处理图像对应的语义深度图像；基于所述深度细化分支，对所述语义深度图像和所述三维位姿图像进行深度细化，确定所述待处理图像对应的稠密深度图像。

根据本申请一实施方式，所述基于所述语义引导分支，对所述半稠密深度图像和所述待处理图像进行语义引导，确定所述待处理图像对应的语义深度图像，包括：所述语义引导分支包括稠密跳接结构；基于所述稠密跳接结构，对所述半稠密深度图像和所述待处理图像进行多尺度语义融合，确定所述待处理图像对应的语义深度图像。

根据本申请的第二方面，提供了一种图像处理装置，该图像处理装置包括：获取模块，用于获取待处理图像和所述待处理图像对应的稀疏深度图像；自适应稠密模块，用于基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；坐标投影模块，用于基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；确定模块，用于基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。

根据本申请一实施方式，所述自适应稠密模块用于：确定所述稀疏深度图像中无效值像素点的位置；确定以所述无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域；响应于所述待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对所述待补充区域进行补充，确定补充后的所述稀疏深度图像为所述半稠密深度图像。

根据本申请一实施方式，所述坐标投影模块用于：确定相机内参矩阵；基于所述相机内参矩阵，对所述半稠密深度图像进行三维位姿投影，确定所述半稠密深度图像中像素点对应的三维位姿坐标；基于所述三维位姿坐标，确定所述半稠密深度图像对应的所述三维位姿图像。

根据本申请一实施方式，所述双分支卷积神经网络包括：语义引导分支和深度细化分支，所述确定模块用于：基于所述语义引导分支，对所述半稠密深度图像和所述待处理图像进行语义引导，确定所述待处理图像对应的语义深度图像；基于所述深度细化分支，对所述语义深度图像和所述三维位姿图像进行深度细化，确定所述待处理图像对应的稠密深度图像。

根据本申请一实施方式，所述语义引导分支包括稠密跳接结构，所述确定模块用于：基于所述稠密跳接结构，对所述半稠密深度图像和所述待处理图像进行多尺度语义融合，确定所述待处理图像对应的语义深度图像。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请所述的方法。

本申请实施例的方法，获取待处理图像和所述待处理图像对应的稀疏深度图像；基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。如此，能够智能地对图像进行处理，以提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。

需要理解的是，本申请的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本申请的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本申请实施例提供的图像处理方法的处理流程示意图一；

图2示出了本申请实施例提供的图像处理方法的处理流程示意图二；

图3示出了本申请实施例提供的图像处理方法的处理流程示意图三；

图4示出了本申请实施例提供的图像处理方法的处理流程示意图四；

图5示出了本申请实施例提供的图像处理方法的处理流程示意图五；

图6示出了本申请实施例提供的图像处理方法的一种应用场景图；

图7示出了本申请实施例提供的图像处理方法的另一种应用场景图；

图8示出了本申请实施例提供的图像处理方法的又一种应用场景图；

图9示出了本申请实施例提供的图像处理方法的再一种应用场景图；

图10示出了本申请实施例提供的图像处理装置的一种可选示意图；

图11示出了本申请实施例提供的电子设备的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

相关技术中，目前已知的图像处理的技术方案，通过现有的图像处理方法得到的稠密深度图存在模糊的边缘且稠密深度图容易存在伪影以及几何畸变。相关技术在图像处理后得到的图像质量较低且图像处理精度低的问题。

针对相关技术提供的上述图像处理方法，在图像处理后得到的图像质量较低且图像处理精度低的问题，本申请实施例的方法，获取待处理图像和待处理图像对应的稀疏深度图像；基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像；基于半稠密深度图像，确定半稠密深度图像对应的三维位姿图像；基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像。如此，能够将传统的图像算法与卷积神经网络融合的方法，使用传统的图像算法自适应补全深度图像中的平面区域，使用卷积神经网络补全深度图像中的几何复杂区域。有效克服了现有的图像处理方法中处理几何边界不鲁棒的问题，卷积神经网络容易造成伪影以及几何不一致的问题。如此，能够智能地对图像进行处理，以提高图像处理的精度和提高经过图像处理得到的稠密深度图的图像质量。因此，与相关技术中在图像处理后得到的图像质量较低且图像处理精度低相比，本申请的图像处理方法能够提高图像处理的精度和提高经过图像处理得到的稠密深度图的图像质量。

对本申请实施例提供的图像处理方法中的处理流程进行说明。参见图1，图1是本申请实施例提供的图像处理方法的处理流程示意图一，将结合图1示出的步骤S101-S104进行说明。

步骤S101，获取待处理图像和待处理图像对应的稀疏深度图像。

在一些实施例中，待处理图像可以包括：彩色图像，本申请实施例不限定具体的待处理图像。待处理图像对应的稀疏深度图像可以包括：对待处理图像投影三维点云得到的稀疏深度图像。其中，三维点云是通过三维成像传感器在户外收集得到的。

步骤S102，基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像。

在一些实施例中，基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像可以包括：确定稀疏深度图像中无效值像素点的位置；确定以无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域；响应于待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对待补充区域进行补充，确定补充后的稀疏深度图像为半稠密深度图像。

在一些实施例中，无效值像素点可以包括：稀疏深度图像中像素值为0的像素点。有效值像素点可以包括：稀疏深度图像中像素值不为0的像素点。其中，无效值像素点中不包含深度信息，有效值像素点中包含深度信息。正方形的待补充区域可以包括：5像素*5像素的正方形区域，其中，待补充区域中可以包括25个像素点，且待补充区域中的像素点可以包括：有效值像素点和无效值像素点。预设数量阈值可以包括：预设的待补充区域中有效值像素点的数量的最小值，本申请实施例不限定具体的数量阈值。加权核函数可以包括：5像素*5像素的欧几里得距离加权核函数。半稠密深度图像可以包括：将稀疏深度图像中全部的无效值像素点补充后的深度图像。

在具体实施时，确定稀疏深度图像中像素值为0的无效值像素点的位置，再确定以无效值像素点的位置为中心，5像素*5像素的正方形的待补充区域，确定待补充区域中有效值像素点数量，判断待补充区域中有效值像素点的数量是否大于或等于预设数量阈值，响应于待补充区域中有效值像素点的数量大于或等于预设数量阈值，5像素*5像素的欧几里得距离加权核函数的权值与5像素*5像素的正方形的待补充区域对应像素点的像素值相乘，得到加权乘积，对5像素*5像素的正方形的待补充区域对应像素点的加权乘积求和，得到求和结果，再对求和结果除以5像素*5像素的欧几里得距离加权核函数的权值之和，得到补充结果，将补充结果作为待补充区域对应的无效值像素点的像素值，对待补充区域对应的无效值像素点进行补充，确定将稀疏深度图像中全部的无效值像素点补充后的稀疏深度图像为半稠密深度图像。

作为示例，预设数量阈值为3，确定无效值像素点A的位置，确定以无效值像素点的位置为中心，5像素*5像素的正方形的待补充区域，确定待补充区域中有效值像素点数量为3，待补充区域中有效值像素点包括：有效值像素点B、有效值像素点C和有效值像素点D。有效值像素点B的像素值为25，有效值像素点C的像素值为30，有效值像素点D的像素值为20。有效值像素点B对应的欧几里得距离加权核函数的权值为1，有效值像素点C对应的欧几里得距离加权核函数的权值为0.5，有效值像素点D对应的欧几里得距离加权核函数的权值为0.5。则求和结果为25*1+30*0.5+20*0.5＝40；补充结果为40/(1+0.5+0.5)＝20，将补充结果20作为待补充区域对应的无效值像素点A的像素值，对待补充区域对应的无效值像素点A进行补充，确定将稀疏深度图像中全部的无效值像素点补充后的稀疏深度图像为半稠密深度图像。

步骤S103，基于半稠密深度图像，确定半稠密深度图像对应的三维位姿图像。

在一些实施例中，基于半稠密深度图像，确定半稠密深度图像对应的三维位姿图像可以包括：确定相机内参矩阵；基于相机内参矩阵，对半稠密深度图像进行三维位姿投影，确定半稠密深度图像中像素点对应的三维位姿坐标；基于三维位姿坐标，确定半稠密深度图像对应的三维位姿图像。

在一些实施例中，相机内参矩阵可以包括：内参矩阵表示深度相机的特征参数，其中，特征参数为水平焦距、垂直焦距、水平方向相机像素的偏移量和垂直方向相机像素的偏移量。三维位姿投影可以包括：通过深度相机，将半稠密深度图像的像素点投影到相机坐标系，得到三维位姿坐标。其中，三维位姿坐标可以包括：半稠密深度图像的像素点的二维坐标点对应投影在相机坐标系中的三维坐标点。三维位姿图像可以包括：半稠密深度图像中全部的像素点投影在相机坐标系中的三维位姿坐标对应的三维位姿图像。相机坐标系可以包括：三维坐标系包括X轴(横轴)，Y轴(纵轴)，Z轴(竖轴)。

在具体实施时，确定相机内参矩阵；基于相机内参矩阵，通过深度相机，将半稠密深度图像的像素点投影到X轴、Y轴和Z轴上，确定半稠密深度图像中全部的像素点对应的三维位姿坐标；确定半稠密深度图像中全部的像素点，投影在X轴、Y轴和Z轴上的三维位姿坐标对应的三维位姿图像。

步骤S104，基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像。

在一些实施例中，基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像可以包括：基于语义引导分支，对半稠密深度图像和待处理图像进行语义引导，确定待处理图像对应的语义深度图像；基于深度细化分支，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像。

在一些实施例中，双分支卷积神经网络可以包括语义引导分支和深度细化分支。语义引导分支可以包括：语义编码器、语义解码器和稠密跳接结构。其中，语义编码器、语义解码器和稠密跳接结构均包括语义引导节点。深度细化分支可以包括：细化编码器和细化解码器。其中，细化编码器和细化解码器包括深度细化节点。语义深度图像可以包括：待处理图像对应的具有语义引导信息的稠密深度图。稠密深度图像可以包括：待处理图像对应的具有语义引导信息和深度信息的稠密深度图。

在具体实施时，将半稠密深度图像和待处理图像输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像，将语义深度图像通过语义解码器作为语义引导分支的输出。将语义深度图像和三维位姿图像输入至细化编码器，通过细化编码器和细化解码器，对语义深度图像和三维位姿图像进行深度信息融合，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像，将稠密深度图像通过细化解码器作为深度细化分支的输出。

针对基于语义引导分支，对半稠密深度图像和待处理图像进行语义引导，确定待处理图像对应的语义深度图像，在具体实施时，可以包括：基于稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像。

在一些实施例中，对所述图像处理方法的处理流程示意图二，如图2所示，包括：

步骤S201，确定稀疏深度图像中无效值像素点的位置。

步骤S202，确定以无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域。

步骤S203，响应于待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对待补充区域进行补充，确定补充后的稀疏深度图像为半稠密深度图像。

步骤S201～S203在具体实施时，确定稀疏深度图像中像素值为0的无效值像素点的位置，再确定以无效值像素点的位置为中心，5像素*5像素的正方形的待补充区域，确定待补充区域中有效值像素点数量，判断待补充区域中有效值像素点的数量是否大于或等于预设数量阈值，响应于待补充区域中有效值像素点的数量大于或等于预设数量阈值，5像素*5像素的欧几里得距离加权核函数的权值与5像素*5像素的正方形的待补充区域对应像素点的像素值相乘，得到加权乘积，对5像素*5像素的正方形的待补充区域对应像素点的加权乘积求和，得到求和结果，再对求和结果除以5像素*5像素的欧几里得距离加权核函数的权值之和，得到补充结果，将补充结果作为待补充区域对应的无效值像素点的像素值，对待补充区域对应的无效值像素点进行补充，确定将稀疏深度图像中全部的无效值像素点补充后的稀疏深度图像为半稠密深度图像。

本申请实施例的方法，基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像，在稀疏深度图像不显著增加误差的情况下，生成半稠密深度图像，半稠密深度图像具有较多的深度几何信息。如此，能够智能地对稀疏深度图像进行处理，以提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。

在一些实施例中，对所述图像处理方法的处理流程示意图三，如图3所示，包括：

步骤S301，确定相机内参矩阵。

在具体实施时，通过步骤S301，确定相机内参矩阵，可通过下述公式(1)表示：

其中，f_x表示深度相机的水平焦距，f_y表示深度相机的垂直焦距，c_x表示水平方向相机像素的偏移量，c_y表示垂直方向相机像素的偏移量。

步骤S302，基于相机内参矩阵，对半稠密深度图像进行三维位姿投影，确定半稠密深度图像中像素点对应的三维位姿坐标。

在具体实施时，通过步骤S302，基于相机内参矩阵，对半稠密深度图像进行三维位姿投影，确定半稠密深度图像中像素点对应的三维位姿坐标，可通过下述公式(2)表示：

其中，f_x表示深度相机的水平焦距，f_y表示深度相机的垂直焦距，c_x表示水平方向相机像素的偏移量，c_y表示垂直方向相机像素的偏移量，半稠密深度图像的像素点的二维坐标对应投影在相机坐标系中的三维坐标系包括X轴，Y轴，Z轴，X_c表示半稠密深度图像的像素点的二维坐标对应投影在相机坐标系中的横坐标，Y_c表示半稠密深度图像的像素点的二维坐标对应投影在相机坐标系中的纵坐标，Z_c表示半稠密深度图像的像素点的二维坐标对应投影在相机坐标系中的竖坐标，D表示半稠密深度图像的像素点的深度值，u表示半稠密深度图像的像素点的水平坐标，v表示半稠密深度图像的像素点的垂直坐标。

步骤S303，基于三维位姿坐标，确定半稠密深度图像对应的三维位姿图像。

在一些实施例中，对所述图像处理方法的处理流程示意图四，如图4所示，包括：

步骤S401，基于语义引导分支，对半稠密深度图像和待处理图像进行语义引导，确定待处理图像对应的语义深度图像。

步骤S402，基于深度细化分支，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像。

步骤S401～S402，在具体实施时，将半稠密深度图像和待处理图像输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像，将语义深度图像通过语义解码器作为语义引导分支的输出。将语义深度图像和三维位姿图像输入至细化编码器，通过细化编码器和细化解码器，对语义深度图像和三维位姿图像进行深度信息融合，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像，将稠密深度图像通过细化解码器作为深度细化分支的输出。

本申请实施例的方法，将半稠密深度图像和待处理图像输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像。如此，能够减少语义编码器和语义解码器的特征信息之间的语义鸿沟，以提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像，如此，能够使用卷积神经网络补全深度图像中的几何复杂区域，提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。

在一些实施例中，对所述图像处理方法的处理流程示意图五，如图5所示，包括：

步骤S501，基于稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像。

在具体实施时，将半稠密深度图像和待处理图像输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像，将语义深度图像通过语义解码器作为语义引导分支的输出。

步骤S502，基于深度细化分支，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像。

本申请实施例的方法，将半稠密深度图像和待处理图像输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像。基于深度细化分支，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像。如此，能够充分利用语义引导分支和深度细化分支的颜色主导信息和深度主导信息，减少语义编码器和语义解码器的特征信息之间的语义鸿沟，以提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像，如此，能够使用卷积神经网络补全深度图像中的几何复杂区域，提高图像处理的精度和经过图像处理得到的稠密深度图的图像质量。

图6示出了本申请实施例提供的图像处理方法的一种应用场景图。

参考图6，本申请实施例提供的图像处理方法的一种应用场景，应用于基于稀疏深度图像和彩色图片获取稠密深度图，首先，获取彩色图片，对彩色图片投影三维点云得到稀疏深度图。其中，三维点云是通过三维成像传感器在户外收集得到的。

通过自适应稠密化模块，确定稀疏深度图中像素值为0的无效值像素点的位置，再通过5像素*5像素的滤波器，确定以无效值像素点的位置为中心，5像素*5像素的正方形的待补充区域，确定待补充区域中有效值像素点数量，判断待补充区域中有效值像素点的数量是否大于或等于预设数量阈值，响应于待补充区域中有效值像素点的数量大于或等于预设数量阈值，5像素*5像素的欧几里得距离加权核函数的权值与5像素*5像素的正方形的待补充区域对应像素点的像素值相乘，得到加权乘积，对5像素*5像素的正方形的待补充区域对应像素点的加权乘积求和，得到求和结果，再对求和结果除以5像素*5像素的欧几里得距离加权核函数的权值之和，得到补充结果，将补充结果作为待补充区域对应的无效值像素点的像素值，对待补充区域对应的无效值像素点进行补充，确定将稀疏深度图中全部的无效值像素点补充后的稀疏深度图为半稠密深度图。

确定坐标投影模块的相机内参矩阵。基于相机内参矩阵，通过坐标投影模块，将半稠密深度图的像素点投影到X轴、Y轴和Z轴上，确定半稠密深度图中全部的像素点对应的三维位姿坐标，最终确定半稠密深度图中全部的像素点，投影在X轴、Y轴和Z轴上的三维位姿坐标对应的三维位姿图。

将半稠密深度图和彩色图片作为语义引导分支的输入，将半稠密深度图和彩色图片输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图和彩色图片进行多尺度语义融合，确定彩色图片对应的语义深度图和语义融合特征，将语义深度图通过语义解码器作为语义引导分支输出，并将语义引导分支的(1)～(4)中每个卷积层的语义融合特征传输到深度细化分支的(1)～(4)中对应的卷积层。将语义引导分支输出的语义深度图和三维位姿图作为深度细化分支的输入，将语义引导分支输出的语义深度图和三维位姿图输入至细化编码器，通过细化编码器和细化解码器，对语义深度图和三维位姿图像进行深度信息融合，对语义深度图和三维位姿图像进行深度细化，确定彩色图片对应的稠密深度图，将稠密深度图通过细化解码器作为深度细化分支的输出。

可以理解，图6的图像处理方法的应用场景只是本申请实施例中的部分示例性的实施方式，本申请实施例中图像处理方法的应用场景包括但不限于图6所示的图像处理方法的应用场景。

图7示出了本申请实施例提供的图像处理方法的另一种应用场景图。

参考图7，本申请实施例提供的图像处理方法的另一种应用场景，应用于基于双分支卷积神经网络，对三维位姿图、半稠密深度图和彩色图片进行处理，确定彩色图片对应的稠密深度图。语义引导分支可以包括：语义编码器、语义解码器和稠密跳接结构。其中，X^i,j，i大于等于0且小于等于4，j大于等于0且小于等于4。X^i,j表示语义引导分支的语义引导节点。其中语义引导节点可以包括残差块。语义编码器可以包括：X^0,0、X^1,0、X^2,0、X^3,0和X^4,0。语义解码器可以包括：X^0,4、X^1,3、X^2,0和X^4,0。稠密跳接结构可以包括：通过X^0,0和X^1,0进行跳接可以确定X^0,1的语义特征信息。X^0,4、X^1,3、X^2,0、X^4,0、X^2,1、X^1,2、X^0,3、X^1,1和X^0,2可以通过类似的方式进行跳接，分别确定各个语义引导节点的语义特征信息。

深度细化分支可以包括：细化编码器、细化解码器。其中，Eⁱ和D^j，i大于等于0且小于等于4，j大于等于0且小于等于4。Eⁱ和D^j表示深度细化分支的深度细化节点。其中深度细化节点可以包括残差块。细化编码器可以包括：E⁰、E¹、E²、E³和E⁴。细化解码器可以包括：D⁰、D¹、D²、D³和D⁴。图7中所有的实线箭头表示卷积，各个语义引导节点之间的虚线箭头表示跳接，语义引导节点与深度细化节点之间的虚线箭头表示叠加，图7中所有的点划线箭头表示反卷积。

首先将半稠密深度图和彩色图片作为语义引导分支的输入，将半稠密深度图和彩色图片通过卷积输入至语义编码器，通过一系列的稠密跳接结构，对半稠密深度图和彩色图片进行多尺度语义融合，确定彩色图片对应的语义深度图和语义融合特征，将语义深度图通过语义解码器通过卷积作为语义引导分支输出，并将X^4,0的语义融合特征叠加并传输到E⁴；将X^3,0和X^3,1的语义融合特征叠加并传输到E³；将X^2,0、X^2,1和X^2,2的语义融合特征叠加并传输到E²；将X^1,0、X^1,1、X^1,2和X^1,3的语义融合特征叠加并传输到E¹。将语义引导分支输出的语义深度图和三维位姿图作为深度细化分支的输入，将语义引导分支输出的语义深度图和三维位姿图通过卷积输入至细化编码器，通过细化编码器，对语义深度图和三维位姿图像进行卷积，将深度信息与语义信息融合，通过细化解码器，对深度信息与语义信息融合以反卷积替换卷积的形式进行深度细化，确定彩色图片对应的稠密深度图，将稠密深度图作为深度细化分支的输出，细化解码器通过卷积输出稠密深度图。

可以理解，图7的图像处理方法的应用场景只是本申请实施例中的部分示例性的实施方式，本申请实施例中图像处理方法的应用场景包括但不限于图7所示的图像处理方法的应用场景。

图8示出了本申请实施例提供的图像处理方法的又一种应用场景图。

参考图8，本申请实施例提供的图像处理方法的又一种应用场景，应用于基于加权核函数，对待补充区域进行补充，确定补充后的稀疏深度图像为半稠密深度图像。图8示出了5像素*5像素的欧几里得距离加权核函数，其中0表示5像素*5像素的欧几里得距离加权核函数的中心像素点对应的权值。欧几里得距离加权核函数的中心像素点与5像素*5像素的正方形的待补充区域的中心相对应，其中，待补充区域的中心为无效值像素点。5像素*5像素的欧几里得距离加权核函数中的其他数值同样表示该位置的像素点对应的权值，5像素*5像素的欧几里得距离加权核函数中的其他数值，分别与5像素*5像素的正方形的待补充区域中对应位置的像素点相对应。

作为示例，确定无效值像素点A的位置，确定以无效值像素点的位置为中心，5像素*5像素的正方形的待补充区域，待补充区域中有效值像素点包括：有效值像素点B、有效值像素点C和有效值像素点D。有效值像素点B的像素值为25，有效值像素点C的像素值为30，有效值像素点D的像素值为20。有效值像素点B对应的欧几里得距离加权核函数的权值为1，有效值像素点C对应的欧几里得距离加权核函数的权值为0.5，有效值像素点D对应的欧几里得距离加权核函数的权值为0.5。则求和结果为25*1+30*0.5+20*0.5＝40；补充结果为40/(1+0.5+0.5)＝20，将补充结果20作为待补充区域对应的无效值像素点A的像素值，对待补充区域对应的无效值像素点A进行补充，确定将稀疏深度图像中全部的无效值像素点补充后的稀疏深度图像为半稠密深度图像。

可以理解，图8的图像处理方法的应用场景只是本申请实施例中的部分示例性的实施方式，本申请实施例中图像处理方法的应用场景包括但不限于图8所示的图像处理方法的应用场景。

图9示出了本申请实施例提供的图像处理方法的又一种应用场景图。

参考图9，本申请实施例提供的图像处理方法的又一种应用场景，应用于从激光雷达的稀疏深度图像中估计出稠密深度图像。稀疏深度图像可以包括：对待处理图像投影三维点云得到的稀疏深度图像。待处理图像可以包括：彩色图像，本申请实施例不限定具体的待处理图像。稠密深度图像可以包括：待处理图像对应的具有语义引导信息和深度信息的稠密深度图。基于稀疏深度图像和待处理图像，通过本申请的图像处理方法，能够估计出待处理图像对应的稠密深度图像。

可以理解，图9的图像处理方法的应用场景只是本申请实施例中的部分示例性的实施方式，本申请实施例中图像处理方法的应用场景包括但不限于图9所示的图像处理方法的应用场景。

本申请实施例的方法，基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像。如此，能够充分利用语义引导分支和深度细化分支的颜色主导信息和深度主导信息，将传统的图像算法与卷积神经网络融合的方法，使用传统的图像算法自适应补全深度图像中的平面区域，使用双分支卷积神经网络补全深度图像中的几何复杂区域。有效克服了现有的图像处理方法中处理几何边界不鲁棒的问题，卷积神经网络容易造成伪影以及几何不一致的问题。如此，能够智能地对图像进行处理，以提高图像处理的精度和提高经过图像处理得到的稠密深度图的图像质量。

因此，与相关技术中在图像处理后得到的图像质量较低且图像处理精度低相比，本申请的图像处理方法能够提高图像处理的精度和提高经过图像处理得到的稠密深度图的图像质量。

下面继续说明本申请实施例提供的图像处理装置70的实施为软件模块的示例性结构，在一些实施例中，如图10所示，图像处理装置70中的软件模块可以包括：获取模块701，用于获取待处理图像和待处理图像对应的稀疏深度图像；自适应稠密模块702，用于基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像；坐标投影模块703，用于基于半稠密深度图像，确定半稠密深度图像对应的三维位姿图像；确定模块704，用于基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像。

在一些实施例中，自适应稠密模块702在基于稀疏深度图像，确定稀疏深度图像对应的半稠密深度图像的过程中，用于：确定稀疏深度图像中无效值像素点的位置；确定以无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域；响应于待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对待补充区域进行补充，确定补充后的稀疏深度图像为半稠密深度图像。

在一些实施例中，坐标投影模块703在基于半稠密深度图像，确定半稠密深度图像对应的三维位姿图像的过程中，用于：确定相机内参矩阵；基于相机内参矩阵，对半稠密深度图像进行三维位姿投影，确定半稠密深度图像中像素点对应的三维位姿坐标；基于三维位姿坐标，确定半稠密深度图像对应的三维位姿图像。

在一些实施例中，双分支卷积神经网络包括：语义引导分支和深度细化分支；确定模块704在基于双分支卷积神经网络，对三维位姿图像、半稠密深度图像和待处理图像进行处理，确定待处理图像对应的稠密深度图像的过程中，用于：基于语义引导分支，对半稠密深度图像和待处理图像进行语义引导，确定待处理图像对应的语义深度图像；基于深度细化分支，对语义深度图像和三维位姿图像进行深度细化，确定待处理图像对应的稠密深度图像。

在一些实施例中，语义引导分支包括稠密跳接结构，确定模块704在基于语义引导分支，对半稠密深度图像和待处理图像进行语义引导，确定待处理图像对应的语义深度图像的过程中，用于：基于稠密跳接结构，对半稠密深度图像和待处理图像进行多尺度语义融合，确定待处理图像对应的语义深度图像。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本申请实施例提供的图像处理装置中未尽的技术细节，可以根据图1至图10中任一附图的说明而理解。

根据本申请的实施例，本申请还提供了一种电子设备和一种非瞬时计算机可读存储介质。

图11示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像和所述待处理图像对应的稀疏深度图像；

基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；

基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；

基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像，包括：

确定所述稀疏深度图像中无效值像素点的位置；

确定以所述无效值像素点的位置为中心，以5个像素为边长的正方形的待补充区域；

响应于所述待补充区域中有效值像素点的数量满足预设数量阈值，基于加权核函数，对所述待补充区域进行补充，确定补充后的所述稀疏深度图像为所述半稠密深度图像。

3.根据权利要求1所述的方法，其特征在于，所述基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像，包括：

确定相机内参矩阵；

基于所述相机内参矩阵，对所述半稠密深度图像进行三维位姿投影，确定所述半稠密深度图像中像素点对应的三维位姿坐标；

基于所述三维位姿坐标，确定所述半稠密深度图像对应的所述三维位姿图像。

4.根据权利要求1所述的方法，其特征在于，所述基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像，包括：

所述双分支卷积神经网络包括：语义引导分支和深度细化分支；

基于所述语义引导分支，对所述半稠密深度图像和所述待处理图像进行语义引导，确定所述待处理图像对应的语义深度图像；

基于所述深度细化分支，对所述语义深度图像和所述三维位姿图像进行深度细化，确定所述待处理图像对应的稠密深度图像。

5.根据权利要求4所述的方法，其特征在于，所述基于所述语义引导分支，对所述半稠密深度图像和所述待处理图像进行语义引导，确定所述待处理图像对应的语义深度图像，包括：

所述语义引导分支包括稠密跳接结构；

基于所述稠密跳接结构，对所述半稠密深度图像和所述待处理图像进行多尺度语义融合，确定所述待处理图像对应的语义深度图像。

6.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取模块，用于获取待处理图像和所述待处理图像对应的稀疏深度图像；

自适应稠密模块，用于基于所述稀疏深度图像，确定所述稀疏深度图像对应的半稠密深度图像；

坐标投影模块，用于基于所述半稠密深度图像，确定所述半稠密深度图像对应的三维位姿图像；

确定模块，用于基于双分支卷积神经网络，对所述三维位姿图像、所述半稠密深度图像和所述待处理图像进行处理，确定所述待处理图像对应的稠密深度图像。

7.根据权利要求6所述的装置，其特征在于，所述自适应稠密模块用于：

确定所述稀疏深度图像中无效值像素点的位置；

8.根据权利要求6所述的装置，其特征在于，所述坐标投影模块用于：

确定相机内参矩阵；

9.根据权利要求6所述的装置，其特征在于，所述双分支卷积神经网络包括：语义引导分支和深度细化分支，所述确定模块用于：

10.根据权利要求9所述的装置，其特征在于，所述语义引导分支包括稠密跳接结构，所述确定模块用于：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。