CN112950641A

CN112950641A - 图像处理方法及装置、计算机可读存储介质和电子设备

Info

Publication number: CN112950641A
Application number: CN202110209173.4A
Authority: CN
Inventors: 樊欢欢; 李姬俊男; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-11
Anticipated expiration: 2041-02-24
Also published as: CN112950641B

Abstract

本公开提供了一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备，涉及图像处理技术领域。该图像处理方法包括：对图像进行语义分割，确定图像包含的候选对象集合中各候选对象的类别；确定各候选对象的深度信息；基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。本公开可以基于对象的类别和深度信息从图像中确定出目标对象，避免单一地采用提取前景的方式确定图像中的对象而导致图像处理过程无法满足用户需求。

Description

图像处理方法及装置、计算机可读存储介质和电子设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备。

背景技术

在图像处理技术领域，有时需要对图像中包含的对象进行分析和处理。例如，对图像中作为前景的人像或人脸进行美颜，对前景进行饱和度增强等。

然而，目前存在对象的确定方式单一的问题，例如，仅将人像作为前景进行处理，而实际上用户关注的可能不是图像中的人像，这样的处理方式不能满足用户需求。

发明内容

本公开提供一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服图像处理中对象确定方式单一的问题。

根据本公开的第一方面，提供了一种图像处理方法，包括：对图像进行语义分割，确定图像包含的候选对象集合中各候选对象的类别；确定各候选对象的深度信息；基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。

根据本公开的第二方面，提供了一种图像处理装置，包括：图像分割模块，用于对图像进行语义分割，确定图像包含的候选对象集合中各候选对象的类别；深度确定模块，用于确定各候选对象的深度信息；对象确定模块，用于基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的图像处理方法。

根据本公开的第四方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的图像处理方法。

在本公开的一些实施例所提供的技术方案中，对图像进行语义分割，确定图像包含的各候选对象的类别，另外，确定各候选对象的深度信息，再根据候选对象的类别和深度信息，从候选对象中确定目标对象。本公开方案通过图像中候选对象的类型和深度信息来从候选对象中确定目标对象，丰富了图像中对象的选择方式，基于对象类别和深度的因素，在一定程度上使得确定出的目标对象更能满足用户需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本公开实施例的图像处理方案的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的图像处理方法的流程图；

图4示出了本公开一些实施例的利用一个神经网络来进行语义分割和深度估计的示意图；

图5示出了本公开一个实施例的高斯核的示意图；

图6示出了本公开另一个实施例的高斯核的示意图；

图7示出了根据本公开实施例的图像虚化处理的整个过程的示意图；

图8示出了本公开一个实施例的对图像进行语义分割后得到前景和背景的示意图；

图9示出了图8对应图像经过深度估计确定出的深度信息的示意图；

图10示出了结合图8和图9的结果对背景进行虚化后的效果图；

图11示出了本公开一个实施例的目标对象为多个时对其余区域进行虚化的效果图；

图12示意性示出了根据本公开示例性实施方式的图像处理装置的方框图；

图13示意性示出了根据本公开另一示例性实施方式的图像处理装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

图1示出了本公开实施例的图像处理方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备1001和服务器1002。终端设备1001与服务器1002可以通过网络连接，网络的连接类型可以例如包括有线、无线通信链路或者光纤电缆等。

应当理解，终端设备1001和服务器1002的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备和服务器。比如服务器1002可以是多个服务器组成的服务器集群等。服务器1002还可以被称为云端或云端服务器。

终端设备1001可以通过网络与服务器1002交互，以接收或发送消息等。虽然图1中以智能手机为例示出，然而，终端设备1001还包括平板电脑、智能可穿戴设备、个人计算机等。其中，终端设备1001还可以被称为终端、移动终端、移动端、智能终端等。

在由终端设备1001执行本公开示例性实施方式的图像处理过程的情况下，终端设备1001可以对图像进行语义分割，确定该图像包含的候选对象集合中各候选对象的类别，并确定各候选对象的深度信息。随后，终端设备1001可以基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。其中，图像可以是终端设备1001的相机拍摄出的图像，或者是从其他设备或服务器获取到的图像，本公开对图像的类型、获取方式等均不做限制。

在确定出图像中的目标对象后，终端设备1001可以对图像中除目标对象之外的区域进行处理，处理的操作可以包括但不限于虚化、图像增强、色彩变换等。另外，终端设备1001还可以对目标对象进行图像处理，例如，在目标对象为人像的情况下，还可以目标对象进行美颜等操作。

在处理完之后，终端设备1001可以保存处理后的图像，以及/或者将处理后的图像上传至服务器1002进行保存。

此外，在终端设备1001利用相机进行拍摄的场景下，本公开实施方式所示的确定目标对象的过程可以在图像拍摄的预览阶段。另外，还可以在拍摄完原始图像后，对原始图像进行上述处理，确定出目标对象。

在由服务器1002执行本公开示例性实施方式的图像处理过程的情况下，服务器1002可以从终端设备1001或其他设备获取图像，对图像进行语义分割，确定该图像包含的候选对象集合中各候选对象的类别，并确定各候选对象的深度信息。随后，服务器1002可以基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。

在确定出图像中的目标对象后，服务器1002可以对图像中除目标对象之外的区域进行处理，处理的操作可以包括但不限于虚化、图像增强、色彩变换等。另外，服务器1002还可以对目标对象进行图像处理，例如，在目标对象为人像的情况下，还可以目标对象进行美颜等操作。

在处理完之后，服务器1002可以保存处理后的图像，以及/或者将处理后的图像反馈给终端设备1001进行展示、保存等。

应当注意的是，上述对图像进行处理的任意步骤均可以由终端设备1001或服务器1002执行，本公开对此不做限制。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开所述的终端设备可以例如被配置为如图2的形式。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的图像处理方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备200的具体限定。在本公开另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。本公开所述的图像可以是由摄像模组291拍摄出的图像。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

下面将以终端设备执行本公开示例性实施方式的图像处理方法为例对本方案的过程进行说明，在这种情况下，下述图像处理装置可以配置在终端设备中。

图3示意性示出了根据本公开的示例性实施方式的图像处理方法的流程图。参考图3，图像处理方法可以包括以下步骤：

S32.对图像进行语义分割，确定图像包含的候选对象集合中各候选对象的类别。

在本公开的示例性实施方式中，图像可以是终端设备的相机拍摄出的图像，或者是终端设备从其他设备或服务器获取到的图像，本公开对图像的类型、获取方式、包含的内容、尺寸、存储大小等均不做限制。另外，图像可以是预览状态下的图像，也可以是响应用户的操作拍摄生成的图像。

语义分割作为计算机视觉技术中一种像素级别上的分类手段，可以从图像中分割出对象，得到对象区域和对象所属的类别。本公开对语义分割的具体过程不做限制，例如可以采用机器学习的方式实现对图像的语义分割。

在对图像进行语义分割后，可以确定出图像包含的一个或多个候选对象，组成候选对象集合。应当理解的是，候选对象是语义分割算法能够识别并划分出的对象，例如，图像所包含的候选对象的类别可以包括但不限于花草、动物、人、沙滩、车辆等，本公开对候选对象的类别不做限制。

鉴于候选对象是通过语义分割算法而得到的对象，因此，由于场景的限制或算法本身的限制，可能存在仅确定出一个候选对象的情况。

S34.确定各候选对象的深度信息。

在本公开的示例性实施方式中，候选对象的深度信息可以表示候选对象对应每一像素点的深度信息，例如，候选对象对应100个像素点，则该候选对象的深度信息就是这100个像素点对应的深度信息。另外，候选对象的深度信息还可以是能够表征候选对象深度的一个深度值，例如，将候选对象中心点的深度值作为该候选对象的深度信息。

需要说明的是，深度信息通常指候选对象相对于终端设备(也就是终端设备上相机)的深度信息。

根据本公开的一些实施例，可以获取与步骤S32中图像对应的深度图，例如，在步骤S32中图像为RGB相机拍摄出的图像的情况下，还可以通过终端设备上配备的深度相机获取到与该图像对应的深度图。由此，在通过语义分割的方式确定出各候选对象的区域位置的情况下，可以基于对应的深度图，得到各候选对象的深度信息。其中，本公开所说的深度相机可以包括但不限于结构光深度相机、TOF(Time Of Flight，时间飞行)相机、双目立体视觉(Binocular Stereo Vision)相机等。

根据本公开另一些实施例，还可以采用机器学习的方式对图像的深度进行估计，以确定出各候选对象的深度信息。

此外，需要注意的是，本公开还提供了一种语义分割和深度信息联合估计的方式。

具体的，针对利用语义分割以确定各候选对象的类别的方案，首先，可以提取图像的第一语义特征。接下来，可以基于图像的第一语义特征和图像的深度特征，得到图像的第二语义特征，可以看出，第二语义特征虽然是语义特征，但融合了深度的约束。然后，利用图像的第二语义，确定图像包含的候选对象集合中各候选对象的类别。

在语义分割的过程中，鉴于对象边界深度变化往往较大的原因，融合深度后，可以精确地确定出对象边界，提高语义分割边界的分割效果。

另外，针对确定出各候选对象的深度信息的方案，首先，可以提取图像的第一深度特征。接下来，可以基于图像的第一深度特征和图像的语义特征，得到图像的第二深度特征，可以看出，第二深度特征虽然是深度特征，但融合了语义的约束。然后，利用图像的第二深度特征，确定各候选对象的深度信息。

在深度信息确定的过程中，融合语义的特征，使得同一对象的深度尺度能够保持一致，避免了同一对象深度变化过大的不正常情况，提高了深度估计的准确度。

可见，通过本公开实施例中语义分割和深度信息联合估计的方式，可以实现语义结果与深度结果的相互优化，共同提高精度。

本公开可以采用一个机器学习模型来实现语义分割与深度信息的联合估计。也就是说，本公开构建了一种联合语义分割和深度信息的网络。下面将参考图4对该网络进行示意性说明。

参考图4，机器学习模型可以例如被配置为CNN(Convolutional NeuralNetworks，卷积神经网络)。图像可以输入至CNN网络，首先，可以分别提取图像的语义特征和深度特征。接下来，语义特征经过Softmax层得到的特征可以与深度特征进行融合，深度特征经过Softmax层得到的特征可以与语义特征进行融合。然后，再将两个融合后的特征进行拼接，得到拼接后的特征。在这种情况下，还可以利用拼接后的特征再进行上述提取语义特征和深度特征的过程，交替循环多次，以分别输出语义分割结果和深度估计结果。

本公开构建的CNN网络，融合了语义分割网络和深度估计网络，它们以共享卷积层的方式构建出，仅在输出阶段分别采用一层卷积输出语义分割结果，另一层卷积输出深度估计结果，因此，算法计算效率高，可以达到实时计算的效果。

S36.基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。

在本公开的示例性实施方式中，在确定出候选对象集合中各候选对象的类别和深度信息后，可以基于候选对象的类别和深度信息，计算各候选对象的评分值，再利用评分值从候选对象集合中确定出目标对象。

针对计算候选对象的评分值的过程，可以预先为不同类别配置不同的权重，例如，人像的权重大于动物的权重，动物的权重大于花草的权重等。还可以为重点关注的人像预先配置较大的权重，以区别于其他人像。动物的不同，权重也不同，例如，狗的权重大于猫的权重。可以理解的是，本公开所说的类别可以是对象之间彼此区分的大类别，例如，人、植物、海洋、动物等，还可以是对应大类别下小的类别，以动物为例，还可以包括狗、猫、鸟等。

另外，可以对深度信息进行归一化处理，以方便计算。例如，越距相机近，归一化的深度越接近1；越距相机远，归一化的深度越接近0。

在这种情况下，可以将深度信息与候选对象类别的权重的乘积作为该候选对象的评分值。

在得到评分值后，可以利用评分值确定目标对象。

根据本公开的一些实施例，可以将候选对象集合中评分值最大的候选对象，确定为目标对象。

根据本公开的另一些实施例，可以从候选对象集合中确定出评分值大于评分阈值的一个或多个中间对象。其中，本公开对评分阈值的具体取值不做限制。

具体的，如果仅存在一个中间对象，则可以将该中间对象确定为目标对象。

如果存在多个中间对象，在一个实施例中，可以将这些中间对象均作为目标对象，也就是说，本公开确定出的目标数量的数量为多个。

在另一个实施例中，可以响应用户的选择操作，从多个中间对象中确定出目标对象。需要理解的是，选择出的目标对象的数量可以是一个或多个。例如，可以在拍摄的预览阶段，响应用户的触屏操作，从多个中间对象中确定出目标对象。又例如，对于已经拍摄出的图像，终端设备可以以虚拟框的形式提示用户进行选择，该虚拟框可以对应中间对象的边界。

应当理解的是，本公开上述不同实施例之间均可以任意组合。

就上述基于评分阈值的实施例，如果确定出各候选对象的评分值均低于该评分阈值，则确定出图像中不存在目标对象。

另外，针对步骤S32仅确定出一个候选对象的情况，如果基于候选对象的类别和深度信息，确定出该候选对象的评分值大于评分阈值，则将该候选对象确定为目标对象。如果确定出该候选对象的评分值小于等于评分阈值，则确定出图像中不存在目标对象。

在通过上述步骤S32至步骤S36确定出目标对象的情况下，终端设备可以仅针对目标对象进行处理，应当理解的是，具体处理的过程可以采用任意空域或频率的算法，本公开对此不做限制，例如，可以对目标对象进行亮度调整、色彩变换等。在目标对象为人像(或人脸)的情况下，终端设备还可以对目标对象进行美颜处理。

本公开还可以对图像除目标对象之外的区域进行虚化处理。虚化的程度可以基于该区域的深度信息而确定。

也就是说，首先，终端设备可以确定图像除目标对象之外的区域的深度信息。接下来，终端设备可以基于该区域的深度信息对该区域进行虚化处理。

根据本公开的一些实施例，深度可以与虚化程度正相关，也就是说，深度越深，虚化程度越强；深度越浅，虚化程度越弱。由此，可以根据深度来提供多种虚化效果。针对虚化的具体过程，可以采用高斯核来实现，高斯核函数可以被配置为下式：

其中，u、v为图像坐标，σ为设置的标准差。

具体的，对于距相机较近的区域可以采用较小的高斯核进行虚化，图5示意性示出了该类高斯核的形式，其中，为了简便计算，可以对高斯核进行归一化处理，如图所示，对高斯核乘以1/16。另外，对于距相机较远的区域可以采用较大的高斯核进行虚化，图6示意性示出了该类高斯核的形式，其中，为了简便计算，可以对高斯核进行归一化处理，如图所示，对高斯核乘以1/273。

另外，本公开的另一种虚化方案中，深度还可以与虚化程度负相关，也就是说，深度越深，虚化程度越弱；深度越浅，虚化程度越强。

在上面所述进行虚化的实施例中，所采用的距离针对的是区域距相机的距离。然而，在确定出目标对象的情况下，距离还可以是距目标对象的距离。

首先，基于图像除目标对象之外的区域的深度信息，确定该区域中各像素点距目标对象的距离。接下来，根据该区域中各像素点距目标对象的距离，对区域进行虚化处理。具体的，距目标对象越远，虚化程度越强；距目标对象越近，虚化程度越弱。其中，类似地，也可以采用高斯核进行虚化，不再赘述。

可以理解的是，上述虚化的过程针对的是像素点，而未考虑到区域中由各个像素点组成的对象。在本公开又一些实施例中，可以按对象进行虚化。

首先，可以确定图像除目标对象之外的区域中的对象。接下来，可以利用区域的深度信息，得到区域中这些对象距目标对象的距离，并根据这些对象距目标对象的距离，按对象对区域进行虚化处理。也就是说，同一对象的虚化程序是一致的。而在本公开上述实施例中，同一对象的虚化程度可能有差别。

下面将参考图7对本公开实施例的图像虚化处理的整个过程进行说明。

如图7所示，图像可以被输入到神经网络中，该神经网络可以配置为如图4的形式，得到两个输出结果，一个是语义分割结果，另一个是深度估计结果。一方面，可以根据语义分割结果，图像可以被划分为目标对象和除目标对象之外的区域；另一方面，可以根据深度估计结果，确定出待虚化的区域所采用的高斯核。

随后，可以利用基于深度确定出的高斯核对除目标对象之外的区域进行虚化，得到虚化后的区域。接下来，将虚化后的区域与目标对象结合，即可确定出与输入图像对应的虚化处理后的图像。

下面将以目标对象作为前景且除目标对象之外的区域作为背景为例对本公开的图像虚化过程进行说明。

参考图8，图像经过融合深度特征的语义分割过程后，可以分割出前景和背景。

参考图9，对图像进行融合语义的深度估计后，可以得到该图像的深度信息。

参考图10，基于图8和图9的处理结果，对背景区域进行虚化，并将虚化后的背景区域与前景进行融合，以得到背景虚化的图像。

图11示出了本公开一个实施例的目标对象为多个时对其余区域进行虚化的效果图。参考图11，原始图像为图像111，基于上述确定目标对象的方式，终端设备可以确定出“狗”、“人”、“植物”均为目标对象。在这种情况下，可以将除这三个目标对象之外的区域进行虚化处理，得到图像112。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种图像处理装置。

图12示意性示出了本公开的示例性实施方式的图像处理装置的方框图。参考图12，根据本公开的示例性实施方式的图像处理装置12可以包括图像分割模块121、深度确定模块123和对象确定模块125。

具体的，图像分割模块121可以用于对图像进行语义分割，确定图像包含的候选对象集合中各候选对象的类别；深度确定模块123可以用于确定各候选对象的深度信息；对象确定模块125用于基于各候选对象的类别和深度信息，从候选对象集合中确定目标对象。

根据本公开的示例性实施例，对象确定模块125可以被配置为执行：基于候选对象的类别和深度信息，计算候选对象的评分值；将候选对象集合中评分值最大的候选对象，确定为目标对象。

根据本公开的示例性实施例，对象确定模块125还可以被配置为执行：基于候选对象的类别和深度信息，计算候选对象的评分值；从候选对象集合中确定出评分值大于评分阈值的一个或多个中间对象；如果存在一个中间对象，则将中间对象确定为目标对象；如果存在多个中间对象，则基于用户的选择操作，从多个中间对象中确定出目标对象。

根据本公开的示例性实施例，图像分割模块121可以被配置为执行：提取图像的第一语义特征；基于图像的第一语义特征和图像的深度特征，得到图像的第二语义特征；利用图像的第二语义特征，确定图像包含的候选对象集合中各候选对象的类别。

根据本公开的示例性实施例，深度确定模块123可以被配置为执行：提取图像的第一深度特征；基于图像的第一深度特征和图像的语义特征，得到图像的第二深度特征；利用图像的第二深度特征，确定各候选对象的深度信息。

根据本公开的示例性实施例，参考图13，相比于图像处理装置12，图像处理装置13还可以包括区域虚化模块131。

具体的，区域虚化模块131可以用于对图像除目标对象之外的区域进行虚化处理。

根据本公开的示例性实施例，区域虚化模块131可以被配置为执行：确定图像除目标对象之外的区域的深度信息；基于区域的深度信息，对区域进行虚化处理。

根据本公开的示例性实施例，区域虚化模块131基于区域的深度信息对区域进行虚化处理的过程可以被配置为执行：基于区域的深度信息，确定区域中各像素点距目标对象的距离；根据区域中各像素点距目标对象的距离，对区域进行虚化处理。

根据本公开的示例性实施例，区域虚化模块131基于区域的深度信息对区域进行虚化处理的过程可以被配置为执行：确定区域中的对象；利用区域的深度信息，得到区域中的对象距目标对象的距离；根据区域中的对象距目标对象的距离，按对象对区域进行虚化处理。

由于本公开实施方式的图像处理装置的各个功能模块与上述方法实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像处理方法，其特征在于，包括：

对图像进行语义分割，确定所述图像包含的候选对象集合中各候选对象的类别；

确定各所述候选对象的深度信息；

基于各所述候选对象的类别和深度信息，从所述候选对象集合中确定目标对象。

2.根据权利要求1所述的图像处理方法，其特征在于，基于各所述候选对象的类别和深度信息，从所述候选对象集合中确定目标对象，包括：

基于所述候选对象的类别和深度信息，计算所述候选对象的评分值；

将所述候选对象集合中评分值最大的候选对象，确定为所述目标对象。

3.根据权利要求1所述的图像处理方法，其特征在于，基于各所述候选对象的类别和深度信息，从所述候选对象集合中确定目标对象，包括：

从所述候选对象集合中确定出评分值大于评分阈值的一个或多个中间对象；

如果存在一个中间对象，则将所述中间对象确定为所述目标对象；

如果存在多个中间对象，则基于用户的选择操作，从所述多个中间对象中确定出所述目标对象。

4.根据权利要求1所述的图像处理方法，其特征在于，对图像进行语义分割，确定所述图像包含的候选对象集合中各候选对象的类别，包括：

提取所述图像的第一语义特征；

基于所述图像的第一语义特征和所述图像的深度特征，得到所述图像的第二语义特征；

利用所述图像的第二语义特征，确定所述图像包含的候选对象集合中各候选对象的类别。

5.根据权利要求1所述的图像处理方法，其特征在于，确定各所述候选对象的深度信息包括：

提取所述图像的第一深度特征；

基于所述图像的第一深度特征和所述图像的语义特征，得到所述图像的第二深度特征；

利用所述图像的第二深度特征，确定各所述候选对象的深度信息。

6.根据权利要求1至5中任一项所述的图像处理方法，其特征在于，所述图像处理方法还包括：

对所述图像除所述目标对象之外的区域进行虚化处理。

7.根据权利要求6所述的图像处理方法，其特征在于，对所述图像除所述目标对象之外的区域进行虚化处理包括：

确定所述图像除所述目标对象之外的区域的深度信息；

基于所述区域的深度信息，对所述区域进行虚化处理。

8.根据权利要求7所述的图像处理方法，其特征在于，基于所述区域的深度信息，对所述区域进行虚化处理，包括：

基于所述区域的深度信息，确定所述区域中各像素点距所述目标对象的距离；

根据所述区域中各像素点距所述目标对象的距离，对所述区域进行虚化处理。

9.根据权利要求7所述的图像处理方法，其特征在于，基于所述区域的深度信息，对所述区域进行虚化处理，包括：

确定所述区域中的对象；

利用所述区域的深度信息，得到所述区域中的对象距所述目标对象的距离；

根据所述区域中的对象距所述目标对象的距离，按对象对所述区域进行虚化处理。

10.一种图像处理装置，其特征在于，包括：

图像分割模块，用于对图像进行语义分割，确定所述图像包含的候选对象集合中各候选对象的类别；

深度确定模块，用于确定各所述候选对象的深度信息；

对象确定模块，用于基于各所述候选对象的类别和深度信息，从所述候选对象集合中确定目标对象。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的图像处理方法。

12.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至9中任一项所述的图像处理方法。