CN110136144B

CN110136144B - 一种图像分割方法、装置及终端设备

Info

Publication number: CN110136144B
Application number: CN201910407267.5A
Authority: CN
Inventors: 向晶; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-03-16
Anticipated expiration: 2039-05-15
Also published as: CN110136144A

Abstract

本申请公开了一种图像分割方法、装置及终端设备，获得目标物体在场景中的彩色图像和深度图像；利用深度图像获得深度图像对应的距离图像；利用图像分割模型、彩色图像和距离图像获得分割后图像。本申请应用的距离图像包括缓冲区，背景区以及目标物体对应的前景区。对于图像分割模型，根据距离图像即可预确定需要识别和分割的目标物体，在此基础上对彩色图像的分割效率得到提升，从而抠图实时性得到增强。由于图像分割模型能够结合距离图像实现图像分割，相比于现有仅依据彩色图像进行分割的技术方案，模型分割难度降低，图像分割模型得以简化和压缩，更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。

Description

一种图像分割方法、装置及终端设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像分割方法、装置及终端设备。

背景技术

图像处理技术广泛应用于传媒、科研和工业设计等诸多领域。图像分割技术属于图像处理技术中的一种，图像分割的目的是将图像分成若干个特定的、具有独特性质的区域，并提取出感兴趣目标。

目前存在一些基于图像分割的传统抠图方法，例如Closed Form方法、WalkMatting方法，Nonlocal Matting方法和Shared Sampling方法等，但是这些方法真正应用到视频流中效果欠佳。Facebook公司发明了Mask RCNN这种基于深度学习的网络用于抠图，但是该网络非常大，需要处理能力很强的中央处理器(Central Processing Unit,CPU)才能够实时应用。

随着手机功能的不断发展，越来越多的用户倾向于使用手机这种小型且便携的终端设备实现抠图。例如，用户希望借助手机将视频中的人物抠取出来与某图像相结合，生成新的图像。须知，手机的CPU处理功能明显弱于个人电脑(PersonalComputer,PC)，因此在手机端应用Mask RCNN网络无法进行实时抠图。目前，手机等CPU处理功能较弱的终端设备难以实现实时抠图已经成为本领域面临的严峻技术问题。

发明内容

基于上述问题，本申请提供了一种图像分割方法、装置及终端设备，以在手机等CPU处理功能较弱的设备上实现实时抠图。

本申请实施例公开了如下技术方案：

第一方面，本申请提供一种图像分割方法，包括：

获得目标物体在场景中的彩色图像和深度图像；

利用所述深度图像获得所述深度图像对应的距离图像；所述距离图像包括：缓冲区，背景区，以及所述目标物体对应的前景区；所述背景区的各像素点的值均为第一预设值；所述前景区的各像素点的值均为第二预设值；所述缓冲区的像素点的值为所述缓冲区的像素点与所述背景区的像素点的最短距离；

利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像。

可选地，利用所述深度图像获得所述深度图像对应的距离图像，具体包括：

通过面部检测方法确定所述深度图像中所述目标物体的面部位置；

根据所述面部位置和所述深度图像的深度信息，采用区域生长方法生长出所述目标物体的深度区域块；

根据所述深度区域块的轮廓和缓冲区宽度，确定所述缓冲区，并将所述缓冲区以内作为所述目标物体对应的所述前景区，将所述缓冲区以外作为所述背景区；

将所述背景区的各像素点的值设置为所述第一预设值；将所述前景区的各像素点的值设置为所述第二预设值；以及，对于所述缓冲区的任一像素点，获得所述任一像素点与所述背景区的像素点的最短距离，将所述缓冲区的各个像素点的值设置为对应的最短距离，得到所述深度图像对应的距离图像。

可选地，在所述根据所述深度区域块的轮廓和缓冲区宽度，确定所述缓冲区之前，所述方法还包括：

根据所述深度图像的采集设备的性能，设置所述缓冲区宽度为[10像素,20像素]区间内任一整像素数。

可选地，在所述利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像之前，所述方法还包括：

获得第一物体在第一场景中的彩色训练图像、深度训练图像和分割掩模图像；

利用所述深度训练图像获得所述深度训练图像对应的距离训练图像；所述距离训练图像包括：缓冲训练区，背景训练区，以及所述第一物体对应的前景训练区；所述背景训练区的各像素点的值均为第一预设值；所述前景训练区的各像素点的值均为第二预设值；所述缓冲训练区的像素点的值为所述缓冲训练区的像素点与所述背景训练区的像素点的最短距离；

利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型。

可选地，所述待训练模型包括：编码结构、解码结构和轮廓精细化处理结构；所述利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型，具体包括：

利用所述彩色训练图像和所述分割掩模图像得到所述第一物体对应的目标图像；

利用所述目标图像和不包含所述第一物体的背景训练图像获得叠加图像；

将所述叠加图像和所述距离训练图像作为所述编码结构的输入，利用所述解码结构对所述编码结构的输出进行处理，得到第一掩模图像和特征图像；所述特征图像作为所述轮廓精细化处理结构的输入；

利用所述彩色训练图像、所述背景训练图像、所述第一掩模图像和所述叠加图像获得第一损失函数；

获得所述轮廓精细化处理结构输出的第二掩模图像，并利用所述第二掩模图像和所述分割掩模图像获得第二损失函数；

利用所述第一损失函数和所述第二损失函数对所述待训练模型进行训练，得到所述图像分割模型；

所述获得分割后图像，具体包括：

获得所述图像分割模型中轮廓精细化处理结构输出的图像作为所述分割后图像。

可选地，在所述获得分割后图像之后，所述方法还包括：

利用所述分割后图像对所述彩色图像进行处理，获得所述目标物体对应的彩色抠图结果。

第二方面，本申请提供一种图像分割装置，包括：

图像第一获取模块，用于获得目标物体在场景中的彩色图像和深度图像；

图像第二获取模块，用于利用所述深度图像获得所述深度图像对应的距离图像；所述距离图像包括：缓冲区，背景区，以及所述目标物体对应的前景区；所述背景区的各像素点的值均为第一预设值；所述前景区的各像素点的值均为第二预设值；所述缓冲区的像素点的值为所述缓冲区的像素点与所述背景区的像素点的最短距离；

图像分割模块，用于利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像。

可选地，所述图像第二获取模块，具体包括：

面部位置确定单元，用于通过面部检测方法确定所述深度图像中所述目标物体的面部位置；

深度区域块生长单元，用于根据所述面部位置和所述深度图像的深度信息，采用区域生长方法生长出所述目标物体的深度区域块；

区域确定单元，用于根据所述深度区域块的轮廓和缓冲区宽度，确定所述缓冲区，并将所述缓冲区以内作为所述目标物体对应的所述前景区，将所述缓冲区以外作为所述背景区；

区域像素值设定单元，用于将所述背景区的各像素点的值设置为所述第一预设值；将所述前景区的各像素点的值设置为所述第二预设值；以及，对于所述缓冲区的任一像素点，获得所述任一像素点与所述背景区的像素点的最短距离，将所述缓冲区的各个像素点的值设置为对应的最短距离，得到所述深度图像对应的距离图像。

可选地，装置还包括：

图像第三获取模块，用于获得第一物体在第一场景中的彩色训练图像、深度训练图像和分割掩模图像；

图像第四获取模块，用于利用所述深度训练图像获得所述深度训练图像对应的距离训练图像；所述距离训练图像包括：缓冲训练区，背景训练区，以及所述第一物体对应的前景训练区；所述背景训练区的各像素点的值均为第一预设值；所述前景训练区的各像素点的值均为第二预设值；所述缓冲训练区的像素点的值为所述缓冲训练区的像素点与所述背景训练区的像素点的最短距离；

模型训练模块，用于利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型。

可选地，装置还包括：

抠图模块，用于利用所述分割后图像对所述彩色图像进行处理，获得所述目标物体对应的彩色抠图结果。

第三方面，本申请提供一种终端设备，包括：摄像装置和处理器；

所述摄像装置，用于采集深度图像和彩色图像，并将所述深度图像和所述彩色图像发送至所述处理器；

所述处理器，用于运行计算机程序，所述程序运行时执行如前述第一方面提供的图像分割方法。

相较于现有技术，本申请具有以下有益效果：

本申请提供的图像分割方法，首先，获得目标物体在场景中的彩色图像和深度图像；其后，利用深度图像获得深度图像对应的距离图像；最后，利用图像分割模型、彩色图像和距离图像，获得分割后图像。该方法应用的距离图像包括：缓冲区，背景区，以及目标物体对应的前景区。对于图像分割模型，根据距离图像即可预先确定需要识别和分割的目标物体，在此基础上，图像分割模型对彩色图像的分割效率得到提升，从而抠图实时性得到增强。此外，在本申请中由于图像分割模型能够结合距离图像实现图像分割，因此相比于现有的仅依据彩色图像进行分割的技术方案，图像分割模型的分割难度降低，图像分割模型可以得到简化和压缩，因而更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像分割方法的流程图；

图2为本申请实施例提供的另一种图像分割方法的流程图；

图3a为本申请实施例提供的一种分割掩模图像；

图3b为本申请实施例提供的一种距离训练图像；

图4为本申请实施例提供的一种图像分割模型的结构示意图；

图5为本申请实施例提供的编码结构与解码结构的内部卷积层示意图；

图6为本申请实施例提供的一种图像分割模型的训练流程图；

图7为本申请实施例提供的一种模型训练流程的架构图；

图8a为本申请实施例提供的一种图像分割装置的结构示意图；

图8b为本申请实施例提供的另一种图像分割模型的结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图；

图10为本申请实施例提供的另一种终端设备的结构示意图。

具体实施方式

经过调研发现，目前的一些图像分割方法难以在手机等CPU处理能力较弱的终端设备上实现实时抠图，从而难以满足人们的抠图需求。

通过研究，发明人提供一种图像分割方法、装置及终端设备。通过将深度图像处理为具有目标物体对应的前景区的距离图像，使图像分割模型能够根据距离图像预先确定需要识别和分割的目标物体，在此基础上，提升图像分割效率，从而保证图像分割的实时性。同时，由于距离图像降低了图像分割模型的处理难度，因此图像分割模型的结构得到简化和压缩，更适用于在手机等CPU处理能力较弱的终端设备上实现实时抠图。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参见图1，该图为本申请实施例提供的一种图像分割方法的流程图。

如图1所示，本实施例提供的图像分割方法，包括：

步骤101：获得目标物体在场景中的彩色图像和深度图像。

本实施例中，对于目标物体的具体类型不进行限定。作为示例，目标物体可以是人或者动物等。

在实际应用中，作为一种可能的实现方式，彩色图像和深度图像可以是由同一摄像装置同一时刻采集得到，例如同一帧的彩色图像和深度图像。彩色图像中包含彩色信息；深度图像中包含深度信息。彩色图像与深度图像的横向尺寸一致，且彩色图像与深度图像的纵向尺寸一致。

彩色图像中目标物体的彩色信息可能与其他物体或背景较为接近，从而单一依据彩色图像进行图像分割的实现难度较大。而在深度图像中，由于其反映场景中各物体的深度信息，因此，如果目标物体与其他物体的深度信息不同，即可便捷地将目标物体区分识别于其他物体或背景。但是，深度图像中确定的目标物体其轮廓精细度往往较低，从深度图像中得到的目标物体的轮廓与彩色图像中目标物体的真实轮廓相差较大。因此，为实现较精细的图像分割效果，在获取彩色图像与深度图像后，本实施例继续执行步骤102-103。

步骤102：利用深度图像获得深度图像对应的距离图像。

本实施例中，距离图像是依据深度图像获得。具体地，深度图像包括三个类型的区域，分别是缓冲区，背景区，以及目标物体对应的前景区。为便于理解，下面对距离图像中的缓冲区、背景区和前景区分别进行简单的描述和说明。

前面曾提及，依据深度图像中包含的深度信息仅仅能够初步获知目标物体在深度图像中的大致区域，但是该大致区域的轮廓并不等同于目标物体的真实轮廓。为此，可以依据代表目标物体的大致区域的轮廓，并将该轮廓进行某种程度的扩展，得到一个缓冲区。

在实际应用中，缓冲区可能与图像的边界不相交，也可能与图像的边界相交。

当缓冲区与图像的边界不相交时，缓冲区构成一个闭合的区域，在缓冲区内部即为目标物体对应的前景区，在缓冲区的外部即为不存在目标物体的背景区。当缓冲区与图像的边界相交(例如与图像的下方边界相交)时，缓冲区与相交的图像边界构成一个闭合的区域，在闭合区域的内部即为目标物体对应的前景区，在闭合区域的外部即为不存在目标物体的背景区。

在实际应用中，对于距离图像中背景区的各像素点的值进行统一设置，将背景区的各像素点的值均设置为第一预设值；对于距离图像中前景区的各像素点的值进行统一设置，将前景区的各像素点的值均设置为第二预设值。作为示例，第一预设值可以为0，第二预设值可以为255，本实施例中第一预设值与第二预设值不相等，对于第一预设值和第二预设值各自具体数值不进行限定。

距离图像中缓冲区的像素点的值是按照缓冲区的该像素点与背景区的像素点的最短距离进行设置的。为便于理解，下面进行举例说明。

作为示例，为设置缓冲区的某一像素点A的值，首先从背景区的各像素点中确定与像素点A最为接近的像素点B，该像素点B与像素点A的距离为D，D即为像素点A与背景区的各像素点的最短距离。将像素点A的值设置为D。在实际应用中，距离D的单位是像素点数，例如像素点B与像素点A相距6个像素点，则D＝6，将像素点A的值设置为6。以上仅以缓冲区的像素点A为示例，对于缓冲区的每一个像素点，其值均按照上述方式进行设置。距离图像缓冲区的各像素点的值既不为第一预设值，也不为第二预设值，使得缓冲区各像素点的值均包含距离信息。

如果第一预设值是0，第二预设值是255，假设距离图像各像素点的值为[0,255]区间内的整数值，则在整个距离图像中，背景区显示为最暗而前景区显示为最亮。由于缓冲区中各像素点，越靠近背景区的像素点的值越低，显示为较低亮度；越远离背景区的像素点的值越高，显示为较高亮度。

步骤103：利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像。

通过执行步骤102获得距离图像。在深度图像中，对于目标物体对应的大致区域以外的区域仍然存在复杂且难以辨识的深度信息，这些不属于目标物体的深度信息容易增加对彩色图像进行图像分割的难度。不同于深度图像，本实施例中距离图像背景区各像素点的值统一为第一预设值，从而利用距离图像能够较好地将与目标物体无关的背景高效简捷地隔离开。此外，距离图像前景区各像素点的值统一为第二预设值，能够使图像分割模型明确需要识别和分割的目标物体。

在本实施例中，图像分割模型为预先训练获得。距离图像中体现出前景和背景的语义信息。本步骤利用图像分割模型根据彩色图像和距离图像进行图像分割，实际上即是利用距离图像中包含的前景和背景的语义信息进行图像分割，相比于仅利用彩色图像，或者仅利用彩色图像和深度图像，能够有效提高分割后图像的分割轮廓的精细度和准确度。

以上即为本申请提供的图像分割方法，该方法首先获得目标物体在场景中的彩色图像和深度图像；其后利用深度图像获得深度图像对应的距离图像；最后利用图像分割模型、彩色图像和距离图像，获得分割后图像。该方法应用的距离图像包括：缓冲区，背景区，以及目标物体对应的前景区。对于图像分割模型，根据距离图像即可预先确定需要识别和分割的目标物体，在此基础上，图像分割模型对彩色图像的分割效率得到提升，从而抠图实时性得到增强。此外，在本申请中由于图像分割模型能够结合距离图像实现图像分割，因此相比于现有的仅依据彩色图像进行分割的技术方案，图像分割模型的分割难度降低，图像分割模型可以得到简化和压缩，因而更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。

在前述实施例中，步骤102提及，利用所述深度图像获得所述深度图像对应的距离图像。下面提供步骤102的一种可选的实现方式。在本实现方式中，假设目标物体为具有面部的物体，例如人。

步骤102的具体实现步骤如下。

步骤1021：通过面部检测方法确定所述深度图像中所述目标物体的面部位置。

在实际应用中存在多种面部检测方法可实现图像中的面部识别和检测，因此，此处对步骤1021使用的具体面部检测方法不进行限定。

步骤1022：根据所述面部位置和所述深度图像的深度信息，采用区域生长方法生长出所述目标物体的深度区域块。

对于本领域技术人员来说，区域生长方法属于一种比较成熟的技术手段，因此此处对于区域生长方法不加以赘述。

步骤1023：根据所述深度区域块的轮廓和缓冲区宽度，确定所述缓冲区，并将所述缓冲区以内作为所述目标物体对应的所述前景区，将所述缓冲区以外作为所述背景区。

在本步骤实施之前，可以预先根据所述深度图像的采集设备的性能，设置所述缓冲区宽度。例如，如果采集设备的性能(例如镜头、处理器等硬件设备的性能)较差，可以将缓冲区宽度设定为20像素；如果采集设备的性能较好，可以将缓冲区宽度设定为10像素。本实施例中缓冲区宽度可以取[10像素,20像素]区间内任一整像素数。

步骤1024：将所述背景区的各像素点的值设置为所述第一预设值；将所述前景区的各像素点的值设置为所述第二预设值；以及，对于所述缓冲区的任一像素点，获得所述任一像素点与所述背景区的像素点的最短距离，将所述缓冲区的各个像素点的值设置为对应的最短距离，得到所述深度图像对应的距离图像。

在上述实现方式中，通过以面部位置确定面部区域块，再结合采集设备的性能设置缓冲区宽度，在一定程度上保证获得的距离图像中前景区与目标物体的相对位置误差较小，并且使得距离图像中缓冲区的设置与采集设备的性能更为适宜，即设置更为合理。

为便于理解图像分割模型，下面结合图2对图像分割模型的训练过程进行描述和说明。图2为本申请实施例提供的另一种图像分割方法流程图。

如图2所示，本实施例提供的图像分割方法，包括：

步骤201：获得第一物体在第一场景中的彩色训练图像、深度训练图像和分割掩模图像。

此处，第一物体可以是与前述目标物体相同类型的物体，也可以是与前述目标物体不同类型的物体。第一场景与前述实施例中步骤101提及的场景可以相同，也可以不同。与彩色图像和深度图像的获取方式相似地，本实施例中彩色训练图像和深度训练图像可以是由同一摄像装置同一时刻采集得到，例如同一帧的彩色训练图像和深度训练图像。

本实施例中，分割掩模图像是指对第一物体具有精细分割轮廓的分割图像。由于分割精细，因此可以作为训练图像分割模型的掩模使用。参见图3a，该图为本申请实施例提供的一种分割掩模图像。在实际应用中，作为可能的实现方式，分割掩模图像可以是人工地对彩色训练图像中第一物体依靠视觉辨识分割得到的，也可以是人工地对彩色训练图像中第一物体借助抠图工具软件分割得到的。此处对于分割掩模图像的具体获取方式不进行限定。

步骤202：利用所述深度训练图像获得所述深度训练图像对应的距离训练图像。

在前述实施例中，已经阐述过深度图像存在的目标物体轮廓不精细的问题，并进一步执行了步骤102获得深度图像对应的距离图像。本实施例中，类似地，深度训练图像也存在类似问题，即难以借助图像中的深度信息展示精细的第一物体的轮廓。基于此问题，本实施例中执行本步骤以获得深度训练图像对应的距离训练图像。

与距离图像类似地，距离训练图像也包括三个区域：缓冲训练区，背景训练区，以及所述第一物体对应的前景训练区。其中，背景训练区的各像素点的值均为第一预设值；前景训练区的各像素点的值均为第二预设值；缓冲训练区的像素点的值为缓冲训练区的像素点与背景训练区的像素点的最短距离。

需要说明的是，本实施例中彩色训练图像、距离训练图像以及分割掩模图像三者中两两之间均存在对应关系。彩色训练图像、距离训练图像以及分割掩模图像可以通过标识建立对应关系并进行分组存储。例如，彩色训练图像a1、距离训练图像a2以及分割掩模图像a3为图像训练模型的训练集中的一组；彩色训练图像b1、距离训练图像b2以及分割掩模图像b3为图像训练模型的训练集中的另一组。

参见图3b，该图为本申请实施例提供的一种距离训练图像，该图与图3a所示的分割掩模图像相互对应。图3b中白色的前景训练区和黑色的背景训练区之间存在一圈模糊的区域，模糊的区域即是该距离训练图像的缓冲训练区。

图像训练模型的训练集可以由若干组彩色训练图像、距离训练图像以及分割掩模图像构成。训练集中的一部分组可以用作前期训练，称为训练数据；另一部分组可以用作后期验证，作为验证数据。作为一种实现方式，训练集中训练数据的比例可以为95％，验证数据的比例可以为5％。

步骤203：利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型。

下面结合附图对步骤203的一种具体实现方式进行描述。图4为本申请实施例提供的一种图像分割模型的结构示意图，在本实施例中图像分割模型训练完成之前称为待训练模型，待训练模型的结构同图4所示。

如图4所示，本实施例中待训练模型包括编码结构、解码结构和轮廓精细化处理结构。待训练模型的训练数据或验证数据首先经过编码结构后输入至解码结构，轮廓精细化处理结构则对解码结构的输出进行精细化的轮廓处理。

图5为本申请实施例提供的编码结构与解码结构的内部卷积层示意图。

图5中，Conv表示标准卷积块，IRALB表示反向残差与线性瓶颈卷积结构，DSC表示深度可分离卷积结构，1×1 Conv表示Xception网络中卷积核尺寸为1×1且步长为2的残差结构。图5中，图形

表示concat操作。在编码方向上，图像分割模型主要采用IRALB结构和Xception网络的残差结构。在解码方向上，图像分割模型主要采用DSC结构。

在实际应用中，DSC结构将标准卷积分解成深度卷积以及一个1×1卷积。具体来说，深度卷积针对每个单输入通道应用单个滤波器进行滤波，然后逐点卷积应用1×1的卷积操作来结合所有深度卷积的输出。这种分解相比于标准卷积能够有效地大量减少计算量以及模型的大小。为便于理解，下面举例进行说明：假设输入特征图F的的尺寸为Df*Df*M，输出特征图G的尺寸为Dg*Dg*N，卷积核的长和宽分别为Dk和Dk，步长为1，那么输入特征图F计算输出特征图G，标准卷积计算量为Dk*Dk*M*N*Df*Df，而DSC的计算量为Dk*Dk*Df*Df*M+1*1*Df*Df*M*N。通常N设置为100或100以上的数值。如果Dk＝3，显然N的数量级远大于Dk，那么DSC相比于标准卷积，计算量减少将近8倍。而研究表明，DSC精度下降很少。基于DSC的特点和优势，本申请采用DSC作为基础卷积方式，DSC用于提取图像特征。图像分割模型中，在DSC之前由IRALB利用1×1卷积改变通道数进而升维，深度卷积再通过1×1卷积进行通道压缩。也就是说，先对特征进行扩增，卷积后再选取有效特征输出，进而提升了模型的分割精度。另外，IRALB保证了模型的表达能力。图像分割模型中1×1Conv结构保证了随网络加深语义信息越来越明显的同时，细节信息损失较少。

需要说明的是，图5仅为本实施中待训练模型中编码结构和解码结构的示例性各卷积层示意图，在实际应用中，编码结构和解码结构还可能有其他多种形式的变型，此处不加以限定。

下面结合图6和图7对模型训练流程进行描述。图6为本申请实施例提供的一种图像分割模型的训练流程图；图7为本申请实施例提供的一种模型训练流程的架构图。

如图6所示，本实施例中对步骤203中关于模型的训练主要通过以下步骤2031-2036实现。

步骤2031：利用所述彩色训练图像和所述分割掩模图像得到所述第一物体对应的目标图像。

具体地，可以是利用分割掩模图像对彩色训练图像进行抠图，由于分割掩模图像与彩色训练图像相互对应，因此能够从彩色训练图像中抠取出具有较精细的第一物体轮廓的图像，将该图像称为第一物体对应的目标图像。

步骤2032：利用所述目标图像和不包含所述第一物体的背景训练图像获得叠加图像。

在该实现方式中，还预先准备若干幅背景训练图像。需要说明的是，背景训练图像中不包含第一物体，也不包含与第一物体同类型的物体。背景训练图像可以是采集的第二场景的图像。第二场景可以与第一场景相同，也可以是与第一场景不同的场景。此处对于背景训练图像对应的场景不进行限定。本步骤将目标图像与背景训练图像相互叠加，是将目标图像叠加到背景训练图像之上，得到的叠加图像中目标图像完全显示，而背景训练图像的一部分区域被目标图像遮盖。

步骤2033：将所述叠加图像和所述距离训练图像作为所述编码结构的输入，利用所述解码结构对所述编码结构的输出进行处理，得到第一掩模图像和特征图像。

在图6提供的模型训练的实现方式中，编码结构和解码结构对于叠加图像和距离训练图像进行处理后，得到至少两个通道的产物，其一为第一掩模图像，其二为特征图像。需要说明的是，在本实施例中特征图像作为所述轮廓精细化处理结构的输入，而第一掩模图像并不作为轮廓精细化处理结构的输入。第一掩模图像可以视为图像分割精细度略差于轮廓精细化处理结构处理后的分割结果的图像。

需要说明的是，在本实现方式中，具体可以采用Adam动量评估优化方式回归多个任务。作为示例，可以回归两个任务，其中第一个任务与步骤2033得到的第一掩模图像相关联，第二个任务与步骤2033得到的特征图像相关联。对于本领域技术人员，Adam优化方法属于比较成熟的技术，因此此处对于Adam优化方法的实现原理不进行赘述。

步骤2034：利用所述彩色训练图像、所述背景训练图像、所述第一掩模图像和所述叠加图像获得第一损失函数。

结合图7描述本步骤的实现。采用第一掩模图像抠取彩色训练图像中第一物体对应的前景；采用第一掩模图像抠取背景训练图像中的背景；将前面得到的前景和背景进行融合得到融合后图像；利用融合后图像与叠加图像获得第一损失函数，即图7中所示的loss1。loss1即对应于前面提到的两个任务中第一个任务。

可以理解的是，当loss1的值越小时，融合后图像与叠加图像的差距越小。

步骤2035：获得所述轮廓精细化处理结构输出的第二掩模图像，并利用所述第二掩模图像和所述分割掩模图像获得第二损失函数。

轮廓精细化处理结构具体用于对解码结构输出的特征图像进行处理。可以理解的是，由于经过轮廓精细化处理结构的处理，因此获得的第二掩模图像相比于第一掩模图像，分割的第一物体的轮廓精细度更高，但是精细度依旧略差于分割掩模图像。为保证训练获得的图像分割模型能够得到精细度更高的分割后图像，本实施例中在步骤2035中，利用第二掩模图像与分割掩模图像获得第二损失函数，即图7中所示的loss2。loss2即对应于前面提到的两个任务中第二个任务。

可以理解的是，当loss2的值越小时，第二掩模图像与分割掩模图像的差距越小。

步骤2036：利用所述第一损失函数和所述第二损失函数对所述待训练模型进行训练，得到所述图像分割模型。

本申请实施例提供的方法在实际应用中，根据第一损失函数和第二损失函数获得一个加权和。例如loss1的值配以权重k1，loss2的值配以权重k2，加权和由y表示。y＝k1*loss1+k2*loss2。利用Adam动量评估回归多个任务，结合y值确定何时结束训练。可以理解的是，在模型训练过程中，各个结构的参数均处于不断调整的状态。以训练结束时模型的参数作为图像分割模型实际应用时采用的参数。

作为一示例，可以当y值稳定于预设值t以下的次数达到n次时，结束模型训练。此处对于t和n的具体数值不进行限定。

作为另一示例，可以以y值最小为目标不断训练，当y值连续w次不再减小时，结束模型训练。此处对于w的具体数值不进行限定。

本实施例中步骤204-205与前述实施例中步骤101-102的实施方式相同，此处不再赘述。

步骤206：利用图像分割模型、所述彩色图像和所述距离图像，获得所述图像分割模型中轮廓精细化处理结构输出的图像作为所述分割后图像。

可以理解的是，分割后图像是目标物体轮廓较为精细的图像，分割后图像只存在两种类型的区域，一种是代表目标物体的前景，另一种是代表与目标物体无关联的背景。分割后图像中，前景和背景以两种不同的值显示，作为示例，前景的各像素点值为255，背景的各像素点值为0。

在实际应用中，用户真实需要的可能是对彩色的目标物体进行应用，因此本实施例可以以用户需求为目标，利用分割后图像进一步得到彩色的目标物体。结合下述步骤207进行描述。

步骤207：利用所述分割后图像对所述彩色图像进行处理，获得所述目标物体对应的彩色抠图结果。

本步骤可以是利用分割后图像对彩色图像进行抠取，得到轮廓精细的目标物体的彩色抠图结果，即彩色的目标物体。此处，彩色抠图结果可以是包含轮廓精细的彩色的目标物体的图层，可提供给用户具体应用于叠加在任意图像上。

前面曾经提及，在本申请中由于图像分割模型能够结合距离图像实现图像分割，因此相比于现有的仅依据彩色图像进行分割的技术方案，图像分割模型的分割难度降低，图像分割模型可以得到简化和压缩，因而更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。对于本实施例，图像分割模型具体包括编码结构、解码结构和轮廓精细化处理结构。对于现有技术，如果采用深度神经网络卷积模型的方法，其模型的编码结构对彩色图像进行处理可能需要采用N个卷积层。但是采用本实施例提供的方法，图像分割模型的卷积层可以大大减少，并且能够保证分割的实时性和精细度。从而提升用户的在手机等CPU处理能力较弱的终端设备上进行抠图的体验。

基于前述方法实施例，相应地，本申请还提供一种图像分割装置。下面结合实施例和附图对该装置的具体实现进行描述和说明。

装置实施例

参见图8a，该图为本申请实施例提供的一种图像分割装置的结构示意图。

如图8a所示，本实施例提供的图像分割装置，包括：

图像第一获取模块801，用于获得目标物体在场景中的彩色图像和深度图像；

图像第二获取模块802，用于利用所述深度图像获得所述深度图像对应的距离图像；所述距离图像包括：缓冲区，背景区，以及所述目标物体对应的前景区；所述背景区的各像素点的值均为第一预设值；所述前景区的各像素点的值均为第二预设值；所述缓冲区的像素点的值为所述缓冲区的像素点与所述背景区的像素点的最短距离；

图像分割模块803，用于利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像。

该装置应用的距离图像包括：缓冲区，背景区，以及目标物体对应的前景区。对于图像分割模型，根据距离图像即可预先确定需要识别和分割的目标物体，在此基础上，图像分割模型对彩色图像的分割效率得到提升，从而抠图实时性得到增强。此外，在本申请提供的装置中图像分割模型能够结合距离图像实现图像分割，因此相比于现有的仅依据彩色图像进行分割的技术方案，图像分割模型的分割难度降低，图像分割模型可以得到简化和压缩，因而更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。

可选地，图像第二获取模块802具体包括：

可选地，图像第二获取模块802还包括：

缓冲区宽度设置单元，用于根据所述深度图像的采集设备的性能，设置所述缓冲区宽度。

参见图8b，该图为本申请实施例提供的另一种图像分割模型的结构示意图。如图8b所示，可选地，在图8a所示结构基础上，装置还可以包括：

图像第三获取模块804，用于获得第一物体在第一场景中的彩色训练图像、深度训练图像和分割掩模图像；

图像第四获取模块805，用于利用所述深度训练图像获得所述深度训练图像对应的距离训练图像；所述距离训练图像包括：缓冲训练区，背景训练区，以及所述第一物体对应的前景训练区；所述背景训练区的各像素点的值均为第一预设值；所述前景训练区的各像素点的值均为第二预设值；所述缓冲训练区的像素点的值为所述缓冲训练区的像素点与所述背景训练区的像素点的最短距离；

模型训练模块806，用于利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型。

可选地，所述待训练模型包括：编码结构、解码结构和轮廓精细化处理结构；所述模型训练模块，具体可以包括：

目标图像获取单元，用于利用所述彩色训练图像和所述分割掩模图像得到所述第一物体对应的目标图像；

叠加图像获取单元，用于利用所述目标图像和不包含所述第一物体的背景训练图像获得叠加图像；

第一处理单元，用于将所述叠加图像和所述距离训练图像作为所述编码结构的输入，利用所述解码结构对所述编码结构的输出进行处理，得到第一掩模图像和特征图像；所述特征图像作为所述轮廓精细化处理结构的输入；

第一损失函数获取单元，用于利用所述彩色训练图像、所述背景训练图像、所述第一掩模图像和所述叠加图像获得第一损失函数；

第二损失函数获取单元，用于获得所述轮廓精细化处理结构输出的第二掩模图像，并利用所述第二掩模图像和所述分割掩模图像获得第二损失函数；

图像分割模型训练单元，用于利用所述第一损失函数和所述第二损失函数对所述待训练模型进行训练，得到所述图像分割模型；

所述图像分割模块，具体包括：

第一分割单元，用于获得所述图像分割模型中轮廓精细化处理结构输出的图像作为所述分割后图像。

在实际应用中，用户真实需要的可能是对彩色的目标物体进行应用，因此本实施例可以以用户需求为目标，利用分割后图像进一步得到彩色的目标物体。可选地，装置还包括：

抠图模块具体利用分割后图像对彩色图像进行抠取，得到轮廓精细的目标物体的彩色抠图结果，即彩色的目标物体。此处，彩色抠图结果可以是包含轮廓精细的彩色的目标物体的图层，可提供给用户具体应用于叠加在任意图像上。

基于前述方法实施例和装置实施例，相应地，本申请还提供一种终端设备。下面结合实施例和附图对该设备的具体实现进行描述和说明。

设备实施例

参见图9，该图为本申请实施例提供的一种终端设备的结构示意图。

如图9所示，本实施例提供的终端设备，包括：

摄像装置901和处理器902；

其中，所述摄像装置901，用于采集深度图像和彩色图像，并将所述深度图像和所述彩色图像发送至所述处理器902；

所述处理器902，用于运行计算机程序，所述程序运行时执行如前述方法实施例中提供的图像分割方法。

在实际应用中，该终端设备可以是手机或平板电脑等CPU处理能力较弱的设备。本实施例中对于终端设备的具体类型不进行限定。

前面曾提及过，本申请提供的图像分割方法，首先，获得目标物体在场景中的彩色图像和深度图像；其后，利用深度图像获得深度图像对应的距离图像；最后，利用图像分割模型、彩色图像和距离图像，获得分割后图像。该方法应用的距离图像包括：缓冲区，背景区，以及目标物体对应的前景区。对于图像分割模型，根据距离图像即可预先确定需要识别和分割的目标物体，在此基础上，图像分割模型对彩色图像的分割效率得到提升，从而抠图实时性得到增强。此外，在本申请中由于图像分割模型能够结合距离图像实现图像分割，因此相比于现有的仅依据彩色图像进行分割的技术方案，图像分割模型的分割难度降低，图像分割模型可以得到简化和压缩，因而更适用于在手机等CPU处理能力较弱的终端设备上实现图像的实时分割。

由于本实施例中图像分割方法能够在CPU处理能力较弱的设备上实现实时且精细的抠图，因此，相应地本实施例提供的终端设备也能够实现相应的效果。

如图10所示，可选地，本实施例提供的终端设备还可进一步包括：显示装置903。

作为示例，显示装置903可以是显示屏。处理器902运行计算机程序获得分割后图像之后，可以将分割后图像或最终的彩色抠图结果发送至显示装置903进行显示。

可选地，本实施例提供的终端设备还可进一步包括：存储器904。存储器904用于存储前述计算机程序。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种图像分割方法，其特征在于，包括：

获得目标物体在场景中的彩色图像和深度图像；

利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像；

在所述利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像之前，获得第一物体在第一场景中的彩色训练图像、深度训练图像和分割掩模图像；

利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型；

其中，所述待训练模型包括：编码结构、解码结构和轮廓精细化处理结构；所述利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型，具体包括：利用所述彩色训练图像和所述分割掩模图像得到所述第一物体对应的目标图像；利用所述目标图像和不包含所述第一物体的背景训练图像获得叠加图像；将所述叠加图像和所述距离训练图像作为所述编码结构的输入，利用所述解码结构对所述编码结构的输出进行处理，得到第一掩模图像和特征图像；所述特征图像作为所述轮廓精细化处理结构的输入；利用所述彩色训练图像、所述背景训练图像、所述第一掩模图像和所述叠加图像获得第一损失函数；获得所述轮廓精细化处理结构输出的第二掩模图像，并利用所述第二掩模图像和所述分割掩模图像获得第二损失函数；利用所述第一损失函数和所述第二损失函数对所述待训练模型进行训练，得到所述图像分割模型；

所述获得分割后图像，具体包括：获得所述图像分割模型中轮廓精细化处理结构输出的图像作为所述分割后图像。

2.根据权利要求1所述的方法，其特征在于，所述利用所述深度图像获得所述深度图像对应的距离图像，具体包括：

3.根据权利要求2所述的方法，其特征在于，在所述根据所述深度区域块的轮廓和缓冲区宽度，确定所述缓冲区之前，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述获得分割后图像之后，所述方法还包括：

5.一种图像分割装置，其特征在于，包括：

图像分割模块，用于利用图像分割模型、所述彩色图像和所述距离图像，获得分割后图像；

模型训练模块，用于利用所述距离训练图像、所述彩色训练图像和所述分割掩模图像对待训练模型进行训练，得到所述图像分割模型；

所述待训练模型包括：编码结构、解码结构和轮廓精细化处理结构；所述模型训练模块，具体可以包括：

所述图像分割模块，具体包括：

6.根据权利要求5所述的装置，其特征在于，所述图像第二获取模块，具体包括：

7.根据权利要求5所述的装置，其特征在于，还包括：

8.一种终端设备，其特征在于，包括：摄像装置和处理器；

所述处理器，用于运行计算机程序，所述程序运行时执行如权利要求1-4任一项所述的图像分割方法。