CN116168049A

CN116168049A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN116168049A
Application number: CN202111402623.8A
Authority: CN
Inventors: 戴夏强
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-05-26

Abstract

本申请实施例公开一种图像处理方法、装置、电子设备及存储介质，该方法包括：通过预训练的图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；所述公共特征为人像分割和深度估计共用的图像特征、所述第一分割特征为用于人像分割的图像特征、所述第一深度特征为用于深度估计的图像特征；通过所述图像处理模型融合所述公共特征、所述第一深度特征和所述第一分割特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图。实施本申请实施例，能够利用同一个图像处理模型进行人像分割和深度估计，可以减少计算量。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及影像技术领域，具体涉及图像处理方法、装置、电子设备及存储介质。

背景技术

目前，部分智能手机等电子设备可以提供图像虚化功能，使得拍摄出的图像中人像清晰突出，背景区域虚化模糊。实现图像虚化功能的关键在于电子设备能够从拍摄到的图像中分割出人像区域和背景区域，并能够对背景区域进行准确的深度估计。

然而，在实践中发现，现有的人像分割算法和深度估计算法较为复杂，导致实现图像虚化功能所需的计算量较大。

发明内容

本申请实施例公开的图像处理方法、装置、电子设备及存储介质，能够利用同一个图像处理模型进行人像分割和深度估计，可以减少计算量。

本申请实施例公开一种图像处理方法，所述方法包括：通过图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；所述公共特征为人像分割和深度估计共用的图像特征、所述第一分割特征为用于人像分割的图像特征、所述第一深度特征为用于深度估计的图像特征；通过所述图像处理模型融合所述公共特征、所述第一分割特征和所述第一深度特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图

本申请实施例公开一种图像处理装置，包括：提取模块，用于通过图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；所述公共特征为人像分割和深度估计共用的图像特征、所述第一分割特征为用于人像分割的图像特征、所述第一深度特征为用于深度估计的图像特征；处理模块，用于通过所述图像处理模型融合所述公共特征、所述第一分割特征和所述第一深度特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图。

本申请实施例公开一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一种图像处理方法。

本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请实施例公开的任意一种图像处理方法。

与相关技术相比，本申请实施例具有以下有益效果：

经过训练的图像处理模型可以提取待处理图像的公共特征、第一分割特征和第一深度特征，并可进一步融合公共特征、第一深度特征和第一分割特征对待处理图像进行人像分割和深度估计，得到与待处理图像对应的人像分割图和深度估计图，从而可以利用同一个图像处理模型完成人像分割任务和深度估计任务，无需再通过两个不同的模型分别进行，有利于减少计算量。

并且，图像处理模型融合公共特征、第一深度特征和第一分割特征进行人像分割和深度估计，可以利用人像分割和深度估计共用的公共特征，以及深度估计特有的第一深度特征对人像分割任务进行监督，以及利用共用的公共特征和人像分割特有的第一分割特征对深度估计任务进行监督，可以在人像分割任务和深度估计任务上均取得较高的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一个实施例公开的一种图像处理方法的方法流程示意图；

图2是一个实施例公开的一种将图像处理结果的示例图；

图3是一个实施例公开的一种图像处理模型的结构示意图；

图4是一个实施例公开的一种图像处理方法的方法流程示意图；

图5是一个实施例公开的另一种图像处理模型的结构示意图；

图6是一个实施例公开的另一种图像处理方法的方法流程示意图；

图7是一个实施例公开的一种图像处理模型的训练方法的方法流程示意图；

图8是一个实施例公开的一种图像处理装置的结构示意图；

图9是一个实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在相关技术中，一般利用两个独立的人像分割模型和深度估计模型对待处理图像进行人像分割和深度估计，人像分割模型和深度估计模型在结构上完全独立，并且需要单独进行训练。例如，可通过DeepLab系列中的任意一种网络作为人像分割模型进行人像分割，可通过多尺度局部平面指导模型(From Big to Small，BTS)或者MiDaS(MixingDatasets for Zero-shot Cross-dataset Transfer)模型作为深度估计网络进行深度估计。

然而，在计算平台上初始化、运行或者反初始化两个不同的网络模型需要消耗的计算资源是巨大的，过多的计算资源消耗对于智能手机等小型电子设备而言是难以承受的。

本申请实施例公开的图像处理方法、装置、电子设备及存储介质，能够利用同一个图像处理模型进行人像分割和深度估计，可以减少计算量。以下分别进行详细说明。

请参阅图1，图1是一个实施例公开的一种图像处理方法的方法流程示意图，该方法可应用于智能手机、智能平板等一种或多种电子设备，具体不做限定。如图1所示，该方法可以包括以下步骤：

110、通过图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征。

待处理图像中可以包括人像，待处理图像可以是电子设备的摄像装置拍摄到的图像，也可以是其它终端设备或者服务设备传输至电子设备的图像，具体不做限定。待处理图像可以是任意一种格式的图像，例如可以为YUV图像或者RGB图像等，具体不做限定。待处理图像可以是任意一张静态图像，也可以是动态视频中的任意一阵图像，具体不做限定。

在一些实施例中，电子设备在获取到待处理图像之后，以及在将待处理图像输入至图像处理模型之前，还可以按需求对待处理图像进行一种或多种预处理操作。其中，预处理操作可以包括：旋转操作、缩放操作、归一化操作。

旋转操作可指将横拍图像旋转为横排图像；或者将横排图像旋转为竖排图像。

缩放操作，可指调整待处理图像的尺寸大小，使得输入至图像处理模型的待处理图像的尺寸与图像处理模型设计的输入图像尺寸一致。

归一化操作，可指将待处理图像中各个像素点的像素值归一化至预设的数值范围内，例如归一化至0-255范围内。

在本申请实施例中，图像处理模型可以是任意一种可用于机器学习或者深度学习算法的神经网络模型，具体不做限定。示例性的，图像处理模型可以是卷积神经网络(Convolutional Neural Network，CNN)、包括编码器和解码器的U型神经网络(U-Net)、全卷积网络(Fully Convolution Network,FCN)等，具体不做限定。

图像处理模型可以预先利用样本数据进行训练，使得图像处理模型能够具有图像特征提取、人像分割和深度估计的能力。

其中，样本数据可以包括样本图像，以及与样本图像对应的参考分割图和参考深度图。参考分割图可用于指示样本图像中的人像区域，参考深度图可包括人工标注的样本图像中各个像素点对应的参考深度值。

示例性的，样本图像可以是RGB图像。参考分割图可以是二值掩膜，用于指示样本图像中的人像区域和背景区域，可以先将样本图像转换为单通道灰度图，再对单通道灰度图进行人像区域的人工标注，并利用127.5为灰度阈值以及人工标注后的单通道灰度图生成参考分割图。参考深度图可以是深度值数据范围在0-255内单通道灰度图，参考深度图中的深度值可由测距装置测量得出，具体不做限定。

图像处理模型可以是在个人计算机、云端服务器等计算能力更强的电子设备中进行训练，并在智能手机、智能平板等计算能力有限的电子设备中存储；或者，也可以由同一个电子设备对图像处理模型进行训练和应用，具体不做限定。

图像处理模型可包括多个处理模块和/或网络层，部分处理模块和/或网络层可用于提取待处理图像中的一种或多种图像特征。在本申请实施例中，图像处理模型可提取待处理图像的公共特征、第一分割特征以及第一深度特征。其中：

公共特征，可为人像分割和深度估计共用的图像特征。人像分割可指从待处理图像对人像所在的人像区域和背景区域进行准确区分的图像处理任务。深度估计可指预测待处理图像中各个像素点对应的深度值的图像处理任务。公共特征，既可以用于进行人像分割，也可以用于进行深度估计。

第一分割特征，可为用于进行人像分割的图像特征。

第一深度特征，可为用于进行深度估计的图像特征。

120、通过图像处理模型融合公共特征、第一深度特征和第一分割特征，分别对待处理图像进行人像分割和深度估计，得到与待处理图像对应的人像分割图和深度估计图。

图像处理模型融合公共特征、第一深度特征以及第一分割特征，可指通过相加(Add)或者通道拼接(Contcat)等一种或多种操作对公共特征、第一深度特征以及第一分割特征进行合并，并利用合并后得到的融合图像分别进行人像分割任务和深度估计任务，以得到人像分割图和深度估计图。其中：

人像分割图可用于指示图像处理模型预测的，待处理图像中的人像区域，深度估计图可包括图像处理处理模型预测的，待处理图像中各个像素点对应的预测深度值。

在一个实施例中，电子设备可以通过图像处理模型将第一深度特征和公共特征融合至第一分割特征，并利用融合后得到的第二分割特征对待处理图像进行人像分割，得到与待处理图像对应的人像分割图像。示例性的，图像处理模型可以对第一分割特征进行卷积处理，并对卷积处理后的第一分割特征、公共特征和第一深度特征进行合并，得到第二分割特征。

以及，电子设备可以通过图像处理模型将第一分割特征和公共特征融合至第一深度特征，并利用融合后得到的第二深度特征对待处理图像进行人像分割，得到与待处理图像对应的人像分割图像。示例性的，图像处理模型可以对第一深度特征进行卷积处理，并对卷积处理后的第一深度特征、公共特征和第一分割特征进行合并，得到第二深度特征。

也就是说，图像处理模型可以融合公共特征、第一深度特征以及第一分割特征对待处理图像进行人像分割，利用深度估计特有的深度特征，以及深度估计和人像分割共用的公共特征对人像分割任务进行监督，得到与待处理图像对应的人像分割图。

以及，图像处理模型可以融合公共特征、第一深度特征以及第一分割特征对待处理图像进行深度估计，利用人像分割特有的分割特征，以及深度估计和人像分割共用的公共特征对深度估计任务进行监督，得到与待处理图像对应的深度估计图。

示例性的，请参阅图2，图2是一个实施例公开的一种将图像处理结果的示例图。如图2所示，待处理图像210输入至图像处理模型320之后，可由图像处理模型320对待处理图像210进行人像分割和深度估计，得到图像处理模型320输出的人像分割图330和深度估计图340。

如图2所示，人像分割图330可通过二值化掩膜进行表示。在人像分割图330中，像素值为1的像素点显示为白色的像素点，用于指示待处理图像210中的人像区域；像素值为0的像素点显示为黑色的像素点，用于指示待处理图像210中的背景区域。

深度估计图340可通过灰度图进行表示。在深度估计图340中，像素点对应的预测深度值越小，像素点对应的灰度值越小，像素点在深度估计图340中的颜色越接近黑色。

因此，在前述实施例中，电子设备可以通过一个训练好的图像处理模型进行待处理图像的公共特征、第一分割特征以及第一深度特征的提取，进一步通过图像处理模型利用前述的三种图像特征进行人像分割和深度估计。即，可以通过同一个图像处理模型对待处理图像进行人像分割任务和深度估计任务，无需再通过两个不同的模型分别进行。相较于通过两个不同的模型分别进行人像分割任务和深度估计任务的双模型方法，本申请实施例公开的图像处理方法可以减少处理模型在电子设备等计算平台上进行初始化、运行或者反初始化等操作时所需的计算资源，从而可以减少计算量。

同时，本申请实施例公开的图像处理方法可以利用深度估计特有的深度特征，以及深度估计和人像分割共用的公共特征对人像分割任务进行监督；以及，利用人像分割特有的分割特征，以及深度估计和人像分割共用的公共特征对深度估计任务进行监督，可以提高图像处理模型在人像分割任务和深度估计任务上的泛化能力，人像分割和深度估计的准确性均可以得到有效提高。

在一个实施例中，电子设备在得到图像处理模型输出的深度估计图和人像分割图之后，还可以进一步统计人像分割图包括的连通域的面积。人像分割图可包括一个或多个连通域，电子设备可通过两次标记(Two-Pass)、种子填充(Seed-Filling)等算法统计人像分割图中的连通域，具体不做限定。连通域的面积可指连通域包括的像素点数量，像素点数量越多，连通域的面积越大。

电子设备在统计出人像分割图包括的各个连通域的面积之后，可以将面积小于阈值的连通域标记为背景区域，以将面积小于阈值的连通域从人像区域中删除。也就是说，面积小于阈值的连通域可被认为是图像处理模型的误判，以提高人像分割的准确性。

示例性的，图像处理模型输出的人像分割图可以是二值化掩膜，像素值为1的像素点可用于指示人像区域包括的像素点，像素值为0的像素点可用于指示背景区域的像素点。电子设备可以将面积小于阈值的连通区域中，像素点的像素值从1改为0，以将面积小于阈值的连通域从人像区域修改为背景区域。

请参阅图3，图3是一个实施例公开的一种图像处理模型的结构示意图。如图3所示，图像处理模型300可以包括：人像分割网络和深度估计网络。

其中，人像分割网络和深度估计网络可以共用编码模块310和第一滤波模块320。

编码模块310可以包括一个或多个网络层，例如下采样层、卷积层、池化层等。编码模块310可以包括任意一种具有编码能力的骨干网络，例如Mobile Net、残差网络(RestNet)或者Xception系列的任意一种网络等。编码模块310采用的网络类型可以根据实际业务的精度需求、计算量需求等业务需求选用。

第一滤波模块320，可以包括一个或多个能够进行滤波处理的卷积层，具体不做限定。

如图3所示，人像分割网络还可包括：第二滤波模块330和第一解码模块340。深度估计网络还可包括：第三滤波模块350和第二解码模块360。

第二滤波模块330和第三滤波模块350，均可以包括一个或多个能够进行滤波处理的卷积层，第一滤波模块320、第二滤波模块330和第三滤波模块350的结构可以相同，也可以不同，具体不做限定。

第一解码模块340和第二解码模块360，均可由卷积层、反卷积层、上采样层、批标准化(Batch Normalization，BN)层、线性整流(Rectified Linear Unit，ReLU)层等网络层中的一种或多种构成。第一解码模块340和第二解码模块360的结构可以相同，也可以不同，具体不做限定。

请参阅图4，图4是一个实施例公开的一种图像处理方法的方法流程示意图，图4所示的图像处理方法可由电子设备基于如图3所示的图像处理模型执行。如图4所示，该方法可以包括以下步骤：

S1、通过编码模块310提取待处理图像的图像基础特征。

编码模块310可以包括多个网络层，例如下采样层、卷积层等。编码模块310的第一个网络层可以接收输入的待处理图像，并通过排列在第一个网络层之后的一个或多个网络层，通过下采样、卷积等方式依次对待处理图像进行处理，以提取出待处理图像的图像基础特征。

S2、通过第一滤波模块320对图像基础特征进行滤波处理，得到第一滤波模块输出的公共特征。

第一滤波模块320可以通过卷积的方式对图像基础特征进行滤波处理。经过前述样本数据的训练后，第一滤波模块320能够从图像基础特征中提取出既可用于人像分割任务，又可用于深度估计任务的公共特征。

S3、通过第二滤波模块330对图像基础特征进行滤波处理，得到第二滤波模块330输出的第一分割特征。

第二滤波模块330可以通过卷积的方式对图像基础特征进行滤波处理。经过前述样本数据的训练后，第二滤波模块330能够从图像基础特征中提取出可用于进行人像分割的第一分割特征。

S4、通过第三滤波模块350对图像基础特征进行滤波处理，得到第三滤波模块350输出的第一深度特征。

第三滤波模块350可通过卷积的方式对图像基础特征进行滤波处理。经过前述样本数据的训练后，第三滤波模块350能够从图像基础特征中提取出可用于进行深度估计的第一深度特征。

S5、通过第一解码模块340将第一深度特征和公共特征融合至第一分割特征，并利用融合后得到的第二分割特征对待处理图像进行人像分割，得到与待处理图像对应的人像分割图。

第三滤波模块350输出的第一深度特征、第一滤波模块310输出的公共特征以及第二滤波模块330输出的第一分割特征可以输入至第一解码模块340。

第一解码模块340可通过依次排列的网络层，先对第一分割特征进行卷积，再将卷积后的第一分割特征与第一深度特征、公共特征进行合并，得到第二分割特征。以及，对第二分割特征通过上采样、卷积等方式进行处理，得到与待处理图像对应的人像分割图。

S6、通过第二解码模块360将第一分割特征和公共特征融合至第一深度特征，并利用融合后得到的第二深度特征对待处理图像进行深度估计，得到与待处理图像对应的深度估计图。

第二解码模块360可以通过依次排列的网络层，先对第一深度特征进行卷积，再将卷积后的第一深度特征与第一分割特征、公共特征进行合并，得到第二深度特征。以及，对第二深度特征通过上采样、卷积等方式进行处理，得到与待处理图像对应的深度估计图。

在前述实施例中，图像处理模型200在利用编码模块310提取待处理图像的图像基础特征之后，可以先通过第一滤波模块320、第二滤波模块330和第三滤波模块350提取出公共特征、第一分割特征和第一深度特征，再分别利用对应的解码模块融合前述的三种特征对待处理图像进行人像分割和深度估计，而非直接通过不同的解码模块对编码模块输出的图像基础特征进行解码，可以进一步提高人像分割和深度估计的准确性。

在一个实施例中，前述的编码模块310，可以包括编码器和金字塔池化层。

编码器，可以是任意一种具有编码能力的轻量化骨干网络，例如Mobile Net。编码器可获取输入的待处理图像，并对待处理图像进行编码，以从待处理图像中提取出第一基础特征。

在一个实施例中，若待处理图像是一张独立的静态图像，例如拍摄的照片，则编码器可以对待处理图像包括的所有图像信息进行编码。若待处理图像是动态视频包括的连续多帧图像中的任意一帧图像，则编码器可以对待处理图像中运动目标对应的图像信息进行编码，编码器可以根据输入的连续多帧图像确定图像中的运动目标。

金字塔池化层，可包括空间卷积金字塔池化层(Spatial Pyramid Pooling，SPP)，或者空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling，ASPP)等具有金字塔结构的池化层。金字塔池化层可对编码器通过单个尺度提取出的第一基础特征在不同尺度上进行重采样，以得到多个不同尺度的第二基础特征，并对多个不同尺度的第二基础特征进行融合，可以得到待处理图像的图像基础特征。

示例性的，以ASPP为例，ASPP可包括多个并行的空洞卷积层(AtrousCovolutional Layers)，不同的空洞卷积层可对应不同的采样率。各个空洞卷积层可以按照各自对应的采样率对编码器输出的第一基础特征进行重采样，并输出重采样后得到的不同尺度的第二基础特征。ASPP再将不同尺度的第二基础特征进行融合，并输出融合后得到的图像基础特征。

金字塔池化层的加入，使得图像处理模型可适应不同尺寸的待处理图像，并且在待处理图像不同的图像区域，均可以取得较好的人像分割和深度估计准确性。

在一个实施例中，第一解码模块340，还可用于融合编码器310输出的基础图像特征中的图像信息、公共特征、第一深度特征和第一分割特征对待处理图像进行人像分割。

以及，第一解码模块350，还可用于融合编码器310输出的基础图像特征中的图像信息、公共特征、第一深度特征和第一分割特征对待处理图像进行深度估计。

其中，前述的第一解码模块340，可包括：第一解码器和第一特征金字塔模块；前述的第二解码模块360，可包括：第二解码器和第二特征金字塔模块。

第一特征金字塔模块和第二特征金字塔模块，可包括特征金字塔网络(FeaturePyramid Network，FPN)。第一特征金字塔模块可以分别与解码器以及第一解码器连接；第二特征金字塔模块可以分别与解码器以及第二解码器连接。

以第一特征金字塔模块为例，第一特征金字塔模块可按照不同尺度对第一基础特征进行进一步的特征提取，得到多个不同尺度的第三基础特征。类似地，第二特征金字塔模块可按照不同尺度对第一基础特征进行进一步的特征提取，得到多个不同尺度的第四基础特征。

需要说明的是，第一特征金字塔模块和第二金字塔模块的网络结构可以相同，也可以不同，具体不做限定。并且，预训练后得到的第一特征金字塔模块输出的多个不同尺度的第三基础特征可以不同于预训练后得到的第二特征金字塔模块输出的多个不同尺度的第四基础特征。

第一解码器，可用于将第一深度特征、公共特征和多个不同尺度的第三基础特征融合至第一分割特征，并通过第一解码器利用融合后得到的第二分割特征对待处理图像进行人像分割，得到与待处理图像对应人像分割图。

第二解码器，可用于将第一分割特征、公共特征和多个不同尺度的第四基础特征融合至第一深度特征，并通过第一解码器利用融合后得到的第二深度特征对待处理图像进行深度估计，得到与待处理图像对应的深度估计图。

为了更清楚地描述本申请实施例公开的图像处理模型。请参阅图5，图5是一个实施例公开的另一种图像处理模型的结构示意图。如图5所示，图像处理模型500可以包括：人像分割网络和深度估计网络。

人像分割网络和深度估计网络可以共用编码器510、与编码器510连接的空洞卷积金字塔池化层(ASPP)520、以及第一滤波模块530。

人像分割网络还可包括：第二滤波模块540、第一特征金字塔模块550和第一解码器560。

深度估计网络还可包括：第三滤波模块570、第二特征金字塔模块580和第二解码器590。

其中，第一滤波模块530、第二滤波模块540和第三滤波模块570可分别与空洞卷积金字塔池化层520连接。

第一解码器560可分别与第一滤波模块530、第二滤波模块540和第三滤波模块570连接；第二解码器590也可分别与第一滤波模块530、第二滤波模块540和第三滤波模块570连接。

第一特征金字塔模块550可分别与编码器510和第一解码器560连接；第二特征金字塔模块580可分别与编码器510和第二解码器590连接。

请参阅图6，图6是一个实施例公开的另一种图像处理方法的方法流程示意图。图6所示的图像处理方法可由电子设备基于如图5所示的图像处理模型执行。如图6所示，该方法可以包括以下步骤：

S1、通过编码器510提取待处理图像的第一基础特征。

S2、通过金字塔池化层520对第一基础特征进行处理，得到多个不同尺度的第二基础特征，并对多个不同尺度的第二基础特征融合，得到图像基础特征。

S3、通过第一滤波模块530对图像基础特征进行处理，得到公共特征。

S5、通过第二滤波模块540对图像基础特征进行处理，得到第一分割特征。

S5、通过第三滤波模块570对图像基础特征进行处理，得到第一深度特征。

S6、通过第一金字塔模块550对第一基础特征进行处理，得到多个不同尺度的第三基础特征。

S7、通过第二特征金字塔模块580对第一基础特征进行处理，得到多个不同尺度的第四基础特征。

S8、通过第一解码器560将第一深度特征、公共特征和多个不同尺度的第三基础特征融合至第一分割特征，并通过第一解码器利用融合后得到的第二分割特征对待处理图像进行人像分割，得到与待处理图像对应的人像分割图。

示例性的，第一解码器560可先对第一分割特征进行卷积，再将卷积后的第一分割特征与第一深度特征、公共特征和多个不同尺度的第三基础特征进行合并，得到第二分割特征。第二解码器560可进一步通过上采样或者卷积等一种或多种方式对第二分割特征进行特征还原，得到与待处理图像对应的人像分割图。

S9、通过第二解码器590将第一分割特征、公共特征和多个不同尺度的第四基础特征融合至第一深度特征，并通过第二解码器利用融合后得到的第二深度特征对待处理图像进行深度估计，得到与待处理图像对应的深度估计图。

示例性的，第二解码器590可先对第一深度特征进行卷积，再将卷积后的第一深度特征与第一分割特征、公共特征和多个不同尺度的第四基础特征进行合并，得到第二深度特征。第二解码器590可进一步通过上采样或者卷积等一种或多种方式对第二深度特征进行还原，得到与待处理图像对应的深度估计图。

以上内容对整合了人像分割网络和深度估计网络的图像处理模型，以及基于该图像处理模型的图像处理方法进行了介绍。以下内容对图像处理模型的训练方法进行介绍。

请参阅图7，图7是一个实施例公开的一种图像处理模型的训练方法的方法流程示意图。图7训练的图像处理模型可以是前述实施例公开的任意一种图像处理模型，例如可以是图3或图5所示的图像处理模型。如图7所示，该训练方法可以包括以下步骤：

710、利用第一样本数据对图像处理模型中的人像分割网络进行训练，得到预训练的人像分割网络。

第一样本数据可包括：第一样本图像，以及与第一样本图像对应的第一参考分割图，第一参考分割图用于指示第一样本图像中的人像区域。

第一样本数据可包括多张第一样本图像，针对每张第一样本图像，电子设备可将第一样本图像输入至待训练的图像处理模型，并经过前述实施例公开的图像处理模型所执行的步骤和操作，对第一样本图像进行处理，得到图像处理模型的人像分割网络输出的，与第一样本图像对应的第一训练分割图。

电子设备可根据与人像分割网络对应的分割损失函数、第一训练分割图和第一参考分割图计算人像分割网络对应的第一分割损失，并利用计算得到的第一分割损失对人像分割网络中的参数进行调整。

示例性的，分割损失函数可通过以下公式进行表示：

L_seg＝CE+CE_edge+IOU；公式(1)；

其中，L_seg可表示人像分割损失，CE可表示全图的交叉熵损失，CE_edge可表示人像区域中人像标远的交叉熵损失，IOU可表示全图洛瓦兹损失(Lovasz loss)；前述的全图可指与第一训练分割图和第一参考分割图的整张图像。

电子设备可通过随机梯度下降(Stochastic Gradient Descent，SGD)、动量梯度下降(Momentum)等方式，结合人像分割损失对人像分割网络中的参数进行更新，具体不做限定。

也就是说，电子设备在执行步骤610对人像分割网络进行训练时，可以先屏蔽深度估计网络特有的模块或者网络层，先对人像分割网络包括的模块和网络层进行训练。

示例性的，以图5所示的图像处理模型为例，电子设备在执行步骤710时，可以利用人像分割损失对编码器510、金字塔池化层(ASPP)520、第一滤波模块530、第二滤波模块540、第一特征金字塔模块550和第一解码器560中的参数进行调整。

720、利用第二样本数据对图像处理模型中的深度估计网络进行训练，得到预训练的深度估计网络。

第二样本数据可以包括：第二样本图像，以及与第二样本图像对应的第二参考深度图，第二参考深度图包括第二样本图像中各个像素点的参考深度值。

电子设备可将第二样本图像输入至待训练的图像处理模型，并经过前述实施例公开的图像处理模型所执行的步骤和操作，对第二样本图像进行处理，得到图像处理模型的深度估计网络输出的，与第二样本图像对应的第二训练深度图。

电子设备可根据与深度网络对应的深度损失函数、第二训练深度图、第二参考深度图计算深度估计网络对应的第二深度损失，并利用计算得到的第二深度损失对深度估计网络中的参数进行调整。

示例性的，深度损失函数可通过以下公式进行表示：

其中，L_depth可表示深度估计损失；a可为自定义参数，例如取10；T可表示第二样本图像包括的像素点数量，i可表示第i个像素点；λ可为自定义参数，例如取0.5；d_i可表示训练深度图中第i个像素点对应的预测深度值；

可表示参考深度图中第i个像素点对应的参考深度值。

电子设备可通过随机梯度下降、动量梯度下降等方式，结合深度估计损失对深度估计网络中的参数进行更新，具体不做限定。

也就是说，电子设备在执行步骤720对深度估计网络进行训练时，可以先屏蔽人像分割网络特有的模块或者网络层，先对深度估计网络包括的模块和网络层进行训练。

示例性的，以图5所示的图像处理模型为例，电子设备在执行步骤720时，可以利用深度估计损失对编码器510、金字塔池化层(ASPP)520、第一滤波模块530、第三滤波模块570、第二特征金字塔模块580和第二解码器590中的参数进行调整。

需要说明的是，前述的步骤710和步骤720在逻辑上不存在必然的先后顺序。电子设备可以先执行步骤710，再执行步骤720；或者，也可以先执行步骤720，再执行步骤710。

在前述实施例中，预训练的图像处理模型可以包括前述预训练的人像分割网络和预训练的深度估计网络。经过步骤710和步骤720训练后得到的图像处理模型可用于执行前述的任意一种图像处理方法。

在一些实施例中，图像处理方法所应用的图像处理模块包括的深度神经网络可以是经过步骤710利用第一样本数据进行预训练后得到的；图像处理模块包括的人像分割网络可以是经过步骤720利用第二样本数据进行预训练后得到的。

在另一些实施例中，为了提高图像处理模型在人像分割任务和深度估计任务上的准确性，电子设备还可以进一步执行步骤730对图像处理模型中的参数进行微调。

730、利用第三样本数据对预训练的深度估计网络和预训练的人像分割网络中的参数进行微调。

第三样本数据包括：第三样本图像，以及与第三样本图像对应的第三参考深度图和第三参考分割图；第三参考深度图包括第三样本图像中各个像素点的参考深度值，第三参考分割图用于指示第三样本图像中的人像区域。

也就是说，图像处理方法所应用的图像处理模型包括深度神经网络可以是经过步骤710利用第一样本数据进行预训练，并经过步骤730利用第三样本数据进行微调后得到的；图像处理模型包括的人像分割网络可以是经过步骤720利用第二样本数据进行预训练，并经过步骤730利用第三样本数据进行微调后得到的。

在对图像处理模型包括的深度估计网络和人像分割网络进行微调时，电子设备可将第三样本图像输入至经过前述步骤710和步骤720训练后得到的图像处理模型中，并经过前述实施例公开的图像处理模型所执行的步骤和操作，对第三样本图像进行处理，以得到图像处理模型的人像分割网络输出的第三训练分割图像和图像处理模型的深度估计网络输出的第三深度估计图像。

电子设备可根据与人像分割网络对应的分割损失函数、第三训练分割图和第三参考分割图计算人像分割网络对应的第三分割损失，以及根据与深度网络对应的深度损失函数、第三训练深度图和第三参考深度图计算深度估计网络对应的第三深度损失。

电子设备可根据第三分割损失和第三深度损失计算总损失，并根据总损失对人像分割网络和深度估计网络中的参数进行调整。

示例性的，总损失可以参考以下公式进行计算：

Loss＝α*L_seg+β*L_depth；公式(5)；

其中，Loss可表示总损失，α、β可表示权重，可根据实际的业务需求对人像分割和深度估计准确性的要求进行调整。例如，若需要图像处理模型能够更准确地进行人像分割，则可将α调整为大于β。

综上，基于本申请实施例公开的图像处理模型的训练方法，能够训练得到可以同时对待处理图像进行人像分割和深度估计的图像处理模型，从而可以减少计算量。

请参阅图8，图8是一个实施例公开的一种图像处理装置的结构示意图。图8所示的图像处理装置可以应用于前述实施例公开的任意一种电子设备。如图8所示，图像处理装置800可以包括：提取模块810和处理模块820。

提取模块810，用于通过预训练的图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；公共特征为人像分割和深度估计共用的图像特征、第一分割特征为用于人像分割的图像特征、第一深度特征为用于深度估计的图像特征；

处理模块820，用于通过图像处理模型融合公共特征、第一深度特征和第一分割特征，分别对待处理图像进行人像分割和深度估计，得到与待处理图像对应的人像分割图和深度估计图。

在一个实施例中，处理模块820，还可用于通过图像处理模型将第一深度特征和公共特征融合至第一分割特征，并利用融合后得到的第二分割特征对待处理图像进行人像分割，得到与待处理图像对应的人像分割图像；以及，

通过图像处理模型将第一分割特征和公共特征融合至第一深度特征，并利用融合后得到的第二深度特征对待处理图像进行深度估计，得到与待处理图像对应的深度估计图。

在一个实施例中，图像处理模型包括：人像分割网络和深度估计网络；人像分割网络和深度估计网络包括共用的编码模块和第一滤波模块；人像分割网络还包括：第二滤波模块第一解码模块；深度估计网络还包括：第三滤波模块和第二解码模块。

提取模块810，还可用于通过编码模块提取待处理图像的图像基础特征；以及，分别通过第一滤波模块、第二滤波模块和第三滤波模块对图像基础特征进行滤波处理，得到第一滤波模块输出的公共特征、第二滤波模块输出的第一分割特征、以及第一滤波模块输出的第一深度特征；

处理模块820，还可用于通过第一解码模块将第一深度特征和公共特征融合至第一分割特征，并利用融合后得到的第二分割特征对待处理图像进行人像分割；

处理模块820，还可用于通过第二解码模块将第一分割特征和公共特征融合至第一深度特征，并利用融合后得到的第二深度特征对待处理图像进行深度估计。

在一个实施例中，编码模块，可包括：编码器和金字塔池化层。

提取模块810，还可用于通过编码器提取待处理图像的第一基础特征，并通过金字塔池化层对第一基础特征进行处理，得到多个不同尺度的第二基础特征，并对多个不同尺度的第二基础特征融合，得到图像基础特征。

在一个实施例中，第一解码模块包括：第一解码器和第一特征金字塔模块。

提取模块810，还可用于通过第一特征金字塔模块对编码器输出的第一基础特征进行处理，得到多个不同尺度的第三基础特征；以及，通过第一解码器将第一深度特征、公共特征和多个不同尺度的第三基础特征融合至第一分割特征，并通过第一解码器利用融合后得到的第二分割特征对待处理图像进行人像分割。

在一个实施例中，第二解码模块包括：第二解码器和第二特征金字塔模块。

提取模块810，还可用于通过第二特征金字塔模块对编码器输出的第一基础特征进行处理，得到多个不同尺度的第四基础特征；以及，通过第二解码器将第一分割特征、公共特征和多个不同尺度的第四基础特征融合至第一深度特征，并通过第二解码器利用融合后得到的第二深度特征对待处理图像进行深度估计。

在一个实施例中，图像处理装置800，还可包括：后处理模块。

后处理模块，可用于在得到图像处理模型输出的深度估计图和人像分割图之后，统计人像分割图中人像区域包括的连通域的面积；以及，将面积小于阈值的连通域标记为背景区域，以将面积小于阈值的连通域从人像区域中删除。

在一个实施例中，前述实施例公开的人像分割网络是利用第一样本数据对待训练的人像分割网络进行预训练得到的；前述实施例公开的深度估计网络是利用第二样本数据对待训练的深度估计网络进行预训练得到的。

其中，第一样本数据包括：第一样本图像，以及与第一样本图像对应的第一参考分割图，第一参考分割图用于指示第一样本图像中的人像区域；

第二样本数据包括：第二样本图像，以及与第二样本图像对应的第二参考深度图，第二参考深度图包括第二样本图像中各个像素点的参考深度值。

在一个实施例中，前述实施例公开的人像分割网络还可以是利用第一样本数据对待训练的人像分割网络进行预训练，并利用第三样本数据对预训练后的人像分割网络进行微调后得到的；前述实施例公开的深度估计网络是利用第二样本数据对待训练的深度估计网络进行预训练，并利用第三样本数据对预训练后的深度估计网络进行微调后得到的。

在一个实施例中，图像处理装置800，还可包括：训练模块。

训练模块，可用于在图像处理模型的编码模块提取待处理图像的图像基础特征之前，利用第一样本数据对人像分割网络进行训练，得到预训练的人像分割网络；以及，利用第二样本数据对深度估计网络进行训练，得到预训练的深度估计网络；

训练模块，还可用于利用第三样本数据对预训练的深度估计网络和预训练的人像分割网络中的参数进行微调。

可见，在前述实施例中，图像处理装置可基于同一个图像处理模型对待处理图像进行人像分割任务和深度估计任务，无需再通过两个不同的模型分别进行处理，从而可以节省计算资源，减少计算量。并且，图像处理模型可以通过公共特征和第一深度特征对人像分割任务进行监督，通过公共特征和第一分割特征对深度估计任务进行监督，有利于提高图像处理模型在人像分割任务和深度估计任务上的泛化能力，人像分割和深度估计的准确性均可以得到有效提高。

请参阅图9，图9是一个实施例公开的一种电子设备的结构示意图。如图9所示，该电子设备900可以包括：

存储有可执行程序代码的存储器910；

与存储器910耦合的处理器920；

其中，处理器920调用存储器910中存储的可执行程序代码，执行本申请实施例公开的任意一种图像处理方法。

需要说明的是，图9所示的电子设备还可以包括电源、输入按键、摄像头、扬声器、屏幕、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本申请实施例公开的任意一种图像处理方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的任意一种图像处理方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种图像处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

通过图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；所述公共特征为人像分割和深度估计共用的图像特征、所述第一分割特征为用于人像分割的图像特征、所述第一深度特征为用于深度估计的图像特征；

通过所述图像处理模型融合所述公共特征、所述第一分割特征和所述第一深度特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图。

2.根据权利要求1所述的方法，其特征在于，所述通过所述图像处理模型融合所述公共特征、所述第一分割特征和所述第一深度特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图，包括：

通过所述图像处理模型将所述第一深度特征和所述公共特征融合至所述第一分割特征，并利用融合后得到的第二分割特征对所述待处理图像进行人像分割，得到与所述待处理图像对应的人像分割图像；

通过所述图像处理模型将所述第一分割特征和所述公共特征融合至所述第一深度特征，并利用融合后得到的第二深度特征对所述待处理图像进行深度估计，得到与所述待处理图像对应的深度估计图。

3.根据权利要求2所述的方法，其特征在于，所述图像处理模型包括：人像分割网络和深度估计网络；所述人像分割网络和所述深度估计网络包括：共用的编码模块和共用的第一滤波模块；所述人像分割网络还包括：第二滤波模块第一解码模块；所述深度估计网络还包括：第三滤波模块和第二解码模块；以及，所述通过预训练的图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征，包括：

通过所述编码模块提取待处理图像的图像基础特征；

分别通过所述第一滤波模块、所述第二滤波模块和所述第三滤波模块对所述图像基础特征进行滤波处理，得到所述第一滤波模块输出的公共特征、所述第二滤波模块输出的第一分割特征、以及所述第一滤波模块输出的第一深度特征；

以及，所述通过所述图像处理模型将所述第一深度特征和所述公共特征融合至所述第一分割特征，并利用融合后得到的第二分割特征对所述待处理图像进行人像分割，包括：

通过所述第一解码模块将所述第一深度特征和所述公共特征融合至所述第一分割特征，并利用融合后得到的第二分割特征对所述待处理图像进行人像分割；

以及，所述通过所述图像处理模型将所述第一分割特征和所述公共特征融合至所述第一深度特征，并利用融合后得到的第二深度特征对所述待处理图像进行深度估计，包括：

通过所述第二解码模块将所述第一分割特征和所述公共特征融合至所述第一深度特征，并利用融合后得到的第二深度特征对所述待处理图像进行深度估计。

4.根据权利要求3所述的方法，其特征在于，所述编码模块，包括：编码器和金字塔池化层；以及，所述通过所述编码模块提取所述待处理图像的基础图像特征，包括：

通过所述编码器提取所述待处理图像的第一基础特征，并通过所述金字塔池化层对所述第一基础特征进行处理，得到多个不同尺度的第二基础特征，并对所述多个不同尺度的第二基础特征融合，得到图像基础特征。

5.根据权利要求4所述的方法，其特征在于，所述第一解码模块包括：第一解码器和第一特征金字塔模块；所述通过所述第一解码模块将所述第一深度特征和所述公共特征融合至所述第一分割特征，并利用融合后得到的第二分割特征对所述待处理图像进行人像分割，包括：

通过所述第一特征金字塔模块对所述编码器输出的第一基础特征进行处理，得到多个不同尺度的第三基础特征；以及，通过所述第一解码器将所述第一深度特征、所述公共特征和所述多个不同尺度的第三基础特征融合至所述第一分割特征，并通过所述第一解码器利用融合后得到的第二分割特征对所述待处理图像进行人像分割；

或者，所述第二解码模块包括：第二解码器和第二特征金字塔模块；所述通过所述第二解码模块将所述第一分割特征和所述公共特征融合至所述第一深度特征，并利用融合后得到的第二深度特征对所述待处理图像进行深度估计，包括：

通过所述第二特征金字塔模块对所述编码器输出的第一基础特征进行处理，得到多个不同尺度的第四基础特征；以及，通过所述第二解码器将所述第一分割特征、所述公共特征和所述多个不同尺度的第四基础特征融合至所述第一深度特征，并通过所述第二解码器利用融合后得到的第二深度特征对所述待处理图像进行深度估计。

6.根据权利要求1-5任一项所述的方法，其特征在于，在得到分别与所述待处理图像对应的深度估计图和人像分割图之后，所述方法还包括：

统计所述人像分割图中人像区域包括的连通域的面积；

将面积小于阈值的连通域标记为背景区域，以将所述面积小于阈值的连通域从所述人像区域中删除。

7.根据权利要求3-5任一项所述的方法，其特征在于，所述人像分割网络是利用第一样本数据对待训练的人像分割网络进行预训练，并利用第三样本数据对预训练后的人像分割网络进行微调后得到的；

所述深度估计网络是利用第二样本数据对待训练的深度估计网络进行预训练，并利用所述第三样本数据对预训练后的深度估计网络进行微调后得到的；

其中，所述第一样本数据包括：第一样本图像，以及与所述第一样本图像对应的第一参考分割图；所述第二样本数据包括：第二样本图像，以及与所述第二样本图像对应的第二参考深度图；所述第三样本数据包括：第三样本图像，以及与所述第三样本图像对应的第三参考深度图和第三参考分割图。

8.一种图像处理装置，其特征在于，包括：

提取模块，用于通过预训练的图像处理模型分别提取待处理图像的公共特征、第一分割特征以及第一深度特征；所述公共特征为人像分割和深度估计共用的图像特征、所述第一分割特征为用于人像分割的图像特征、所述第一深度特征为用于深度估计的图像特征；

处理模块，用于通过所述图像处理模型融合所述公共特征、所述第一分割特征和所述第一深度特征，分别对所述待处理图像进行人像分割和深度估计，得到与所述待处理图像对应的人像分割图和深度估计图。

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。