CN111435533A

CN111435533A - 图像分割方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111435533A
Application number: CN201910033974.2A
Authority: CN
Inventors: 毛伟; 刘享军
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2020-07-21

Abstract

本发明提供一种图像分割方法、装置、设备及计算机可读存储介质，方法包括：获取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的，从而能够有效降低图像分割模型的占用内存，进而能够将该图像分割模型安装在用户终端中，从而能够实时对用户发送的待分割图像进行图像分割，提高图像分割的效率，进而提高用户体验。

Description

图像分割方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种图像分割方法、装置、设备及计算机可读存储介质。

背景技术

染发现已成为人们改变造型常用方法，相应地，为了满足用户在拍照过程中对拍照效果多样性的需求，现有的一些拍照软件会增加染发方案，即接收到用户上传的相片，根据用户选择的发色对该相片中的发色进行更换。

为了实现根据用户选择的发色对该相片中的发色进行更换，现有技术中一般采用基于深度学习技术的语义分割技术，语义分割技术的网络结构一般分为编码部分和解码两大部分，编码主要进行的是特征提取的操作，编码器使用池化层逐渐缩减输入数据的空间维度；解码主要进行的是上采样的操作，通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度。其中，在编码方面，可以采用经典的深度学习网络结构，例如Alex、VGG、Googlenet等，在解码方面，可以采用FCN全卷积网络。

但是，由于上述人脸头发区域分割方法中采用的模型占用内存较大，由于用户终端功耗与运算能力的限制，只能在云端实现，无法安装在用户终端中，进而无法实时地根据用户输入的图像进行人脸头发区域以及更换发色，导致用户体验较差。

发明内容

本发明提供一种图像分割方法、装置、设备及计算机可读存储介质，用于解决现有的人脸头发区域分割方法中采用的模型占用内存较大，因此无法安装在用户终端中实现实时地人脸头发分割的技术问题。

本发明的第一个方面是提供一种图像分割方法，包括：

获取待训练数据；

通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的。

本发明的另一个方面是提供一种图像分割装置，包括：

待训练数据获取模块，用于获取待训练数据；

训练模块，用于通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的。

本发明的又一个方面是提供一种图像分割设备，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如上述的图像分割方法。

本发明的又一个方面是提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的图像分割方法。

本发明提供的图像分割方法、装置、设备及计算机可读存储介质，通过获取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的，从而能够有效降低图像分割模型的占用内存，进而能够将该图像分割模型安装在用户终端中，从而能够实时对用户发送的待分割图像进行图像分割，提高图像分割的效率，进而提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的图像分割方法的流程示意图；

图2为本发明实施例二提供的图像分割方法的流程示意图；

图3为本发明实施例三提供的图像分割方法的流程示意图；

图4为本发明实施例四提供的图像分割装置的结构示意图；

图5为本发明实施例五提供的图像分割设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

为了实现根据用户选择的发色对该相片中的发色进行更换，现有技术中一般采用基于深度学习技术的语义分割技术，语义分割技术的网络结构一般分为编码部分和解码两大部分，编码主要进行的是特征提取的操作，编码器使用池化层逐渐缩减输入数据的空间维度；解码主要进行的是上采样的操作，通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度。其中，在编码方面，可以采用经典的深度学习网络结构，例如Alex、VGG、Googlenet等，在解码方面，可以采用FCN全卷积网络。但是，由于上述人脸头发区域分割方法中采用的模型占用内存较大，由于用户终端功耗与运算能力的限制，只能在云端实现，无法安装在用户终端中，进而无法实时地根据用户输入的图像进行人脸头发区域以及更换发色，导致用户体验较差。为了解决上述技术问题，本发明提供了一种图像分割方法、装置、设备及计算机可读存储介质。

需要说明的是，本发明提供的图像分割方法、装置、设备及计算机可读存储介质能够应用在任意一种对占用内存较大的模型进行轻量化的场景中。

图1为本发明实施例一提供的图像分割方法的流程示意图，如图1所示，所述方法包括：

步骤101、获取待训练数据；

步骤102、通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的。

在本实施例中，图像分割技术采用基于深度学习技术的语义分割技术，语义分割技术的网络结构一般分为编码部分和解码两大部分。编码主要进行的是特征提取的操作，编码器使用池化层逐渐缩减输入数据的空间维度；解码主要进行的是上采样的操作，通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度。因此，为了达到降低模型占用内存的效果，可以选择具有编码功能的轻量级模型以及具有解码功能的轻量级模型，将两个轻量级模型进行集成，获得待训练模型，从而能够在保证图像分割精度的基础上，有效降低模型的占用内存。进一步地，为了使待训练模型能够实现图像分割的功能，还需要对该待训练模型进行训练。具体地，可以获取待训练数据，其中，待训练数据中包括多张标注后的图像或视频。将待训练数据随机分为测试集与训练集，通过训练集对该待训练模型进行训练，通过测试集对待训练模型进行测试，根据训练中的数据对待训练模型不断调整，直至待训练模型收敛，获得该图像分割模型。由于该图像分割模型是通过标注后的待训练数据进行训练后获得的，因此，该图像分割模型能够实现图像分割的效果。可以理解的是，由于该图像分割模型占用内存较小，因此，可以将该该图像分割模型安装在用户终端内，从而用户可以根据该图像分割模型实时进行图像分割。

本实施例提供的图像分割方法，通过获取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的，从而能够有效降低图像分割模型的占用内存，进而能够将该图像分割模型安装在用户终端中，从而能够实时对用户发送的待分割图像进行图像分割，提高图像分割的效率，进而提高用户体验。

图2为本发明实施例二提供的图像分割方法的流程示意图，在上述任一实施例的基础上，如图2所示，所述方法包括：

步骤201、接收待处理图像集，所述待处理图像集中包括多张具有完整人脸头发区域的图像；

步骤202、通过预设的标注工具对所述待处理图像集中的图像进行特征标注，获得标注后的图像集；

步骤203、对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，获得所述待训练数据；

步骤204、通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的。

在本实施例中，为了实现对待训练模型的训练，首先需要获取待训练数据。具体地，首先可以接收待处理图像集，该待处理图像集可以为用户通过用户终端拍摄的，也可以是预存的。相应地，该待处理图像集中包括多张具有完整人脸头发区域的图像。进一步地，为了使待训练模型能够实现图像分割的功能，需要对该待处理图像集中的图像进行标注。具体地，可以根据当前模型需要实现的效果对待处理图像进行不同的标注。以实际应用举例来说，若该模型需要实现的效果为人脸头发分割，则需要分别对待处理图像中的人脸和头发进行标注；若该模型需要实现的效果为人脸识别，则需要对该待处理图像中的人脸信息进行标注。可以理解的是，模型训练过程中，待训练数据的数量越多，相应地模型分割精度越高，因此，在进行待处理图像标注之后，需要对待处理图像以及标注后的待处理图像进行数据增广，获得待训练数据，从而后续可以根据该待训练数据对待训练模型进行训练，由于该图像分割模型是通过标注后的待训练数据进行训练后获得的，因此，该图像分割模型能够实现图像分割的效果。可以理解的是，由于该图像分割模型占用内存较小，因此，可以将该图像分割模型安装在用户终端内，从而用户可以根据该图像分割模型实时进行图像分割。

本实施例提供的图像分割方法，通过接收待处理图像集，所述待处理图像集中包括多张具有完整人脸头发区域的图像，通过预设的标注工具对所述待处理图像集中的图像进行特征标注，获得标注后的图像集，对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，获得所述待训练数据，从而能够实现对待训练数据的获取，为图像分割模型的获取提供了基础。

进一步地，在上述任一实施例的基础上，所述方法包括：

接收待处理图像集，所述待处理图像集中包括多张具有完整人脸头发区域的图像；

通过预设的像素级标注工具对所述待处理图像集中的图像的人脸区域与头发区域进行标注，获得标注后的图像集；

对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，获得所述待训练数据；

在本实施例中，由于需要采用待训练数据对待训练模型进行训练，以使训练获得的图像分割模型能够对人脸区域与头发区域进行分割，因此，首先需要对待处理数据进行标注。由于头发区域为不规则区域，因此，在进行数据标注的时候，需要采用像素级标注工具，例如Lableme，此外，还可以采用其他的像素级标注工具进行标注，本发明在此不做限制。具体地，可以采用像素级标注工具对待处理图像集中的图像的人脸区域与头发区域进行标注，获得标注后的待处理图像集。

本实施例提供的图像分割方法，通过预设的像素级标注工具对所述待处理图像集中的图像的人脸区域与头发区域进行标注，获得标注后的图像集，从而能够提高数据标注的精准度，进而能够在降低图像分割模型的占用内存的基础上，提高图像分割模型的分割精度，提高用户体验。

进一步地，在上述任一实施例的基础上，所述方法包括：

通过预设的标注工具对所述待处理图像集中的图像进行特征标注，获得标注后的图像集；

分别对所述待处理图像集以及所述标注后的图像集中的图像进行随机旋转和/或随机偏移和/或颜色扰动操作，以使数据增广后的待处理图像集中的图像与所述标注后的图像集中的图像一一对应，获得所述待训练数据；

在本实施例中，由于模型训练过程中，待训练数据的数量越多，相应地模型分割精度越高，因此，在进行待处理图像标注之后，需要对待处理图像以及标注后的待处理图像进行数据增广，获得待训练数据。具体地，可以分别对待处理图像集以及标注后的图像集中的图像进行随机旋转和/或随机偏移和/或颜色扰动操作，以使数据增广后的待处理图像集中的图像与标注后的图像集中的图像一一对应，获得待训练数据。可选地，可以采用预设的深度学习模型对待处理图像集以及标注后的图像集中的图像进行随机旋转和/或随机偏移和/或颜色扰动操作，举例来说，可以采用深度学习框架Keras执行上述数据增广的步骤，或者也可以采取其他的深度学习模型进行数据增广，本发明在此不做限制。

本实施例提供的图像分割方法，通过分别对所述待处理图像集以及所述标注后的图像集中的图像进行随机旋转和/或随机偏移和/或颜色扰动操作，以使数据增广后的待处理图像集中的图像与所述标注后的图像集中的图像一一对应，获得所述待训练数据，从而能够进一步地提高图像分割模型的分割精度。

进一步地，在上述任一实施例的基础上，所述方法包括：

所述具有编码功能的轻量级模型为MobileNet_V2模型，所述具有解码功能的轻量级网络为Unet模型；

所述待训练模型是通过将所述Unet模型的编码部分替换为所述MobileNet_V2模型后生成的。

在本实施例中，具有编码功能的轻量级模型具体可以采用MobileNet_V2模型。MobileNet_V2的结构是基于MobileNet_V1的改进。MobileNet_V1模型中主要是引入了depthwise separable convolution代替传统的卷积操作，相当于实现了spatial和channel之间的解耦，达到模型加速的目的，整体网络结构还是延续了VGG网络直上直下的特点。和MobileNet_V1相比，MobileNet_V2主要的改进有两点：1、Linear Bottlenecks。也就是去掉了小维度输出层后面的非线性激活层，目的是为了保证模型的表达能力。2、Inverted Residual block。该结构和传统residual block中维度先缩减再扩增正好相反，因此shotcut也就变成了连接的是维度缩减后的feature map。通过采用Mobilenet_V2模型，一方面能够保证图像分割的准确性，另一方面能够大幅的减少multiply-adds(MAdd)的计算量，从而减少模型的参数量，降低内存占用，又提高模型的计算速度，以适应移动端应用。

此外，具有解码功能的轻量级网络具体可以采用Unet模型，Unet模型是一个全卷积神经网络，输入和输出都是图像，没有全连接层，因此它是一种端对端的网络。较浅的高分辨率层用来解决像素定位的问题，较深的层用来解决像素分类的问题。Unet具体包括两部分，第一部分，特征提取，与VGG类似。第二部分上采样部分。由于网络结构像U型，所以叫Unet模型。特征提取部分，每经过一个池化层就一个尺度，包括原图尺度一共有5个尺度；上采样部分，每上采样一次，就和特征提取部分对应的通道数相同尺度融合，但是融合之前要将其crop。这里的融合也是拼接。因此，在将两个模型进行集成的过程中，可以将Unet模型中的编码部分，即特征提取部分替换为MobileNet_V2模型，从而能够获得待训练模型。由于MobileNet_V2模型与Unet模型均为轻量级的神经网络模型，此外，MobileNet_V2模型的特征提取精度较高，因此，能够在保证图像分割精度的基础上，有效降低图像分割模型的占用内存，进而可以将该图像分割模型安装在用户终端内，从而用户可以根据该图像分割模型实时进行图像分割。

需要说明的是，本发明提供的图像分割方法除MobileNet_V2模型以及Unet模型以外，还可以采用其他任意一种具有编码功能的轻量级模型与具有解码功能的轻量级网络进行集成，本发明在此不做限制。

本实施例提供的图像分割方法，通过所述具有编码功能的轻量级模型为MobileNet_V2模型，所述具有解码功能的轻量级网络为Unet模型；所述待训练模型是通过将所述Unet模型的编码部分替换为所述MobileNet_V2模型后生成的。从而能够在保证图像分割精度的基础上，有效降低图像分割模型的占用内存，进而可以将该图像分割模型安装在用户终端内，从而用户可以根据该图像分割模型实时进行图像分割。

进一步地，在上述任一实施例的基础上，所述待训练模型包括卷积层、深度可分离卷积层、Batchnorm层、激活函数层、上采样层、深度可分离反卷积层、反卷积层以及反激活函数层。

其中，编码部分包括基本的卷积(Conv)层、深度可分离卷积(Depthwiseseparable convolution)层、Batchnorm层和Relu激活函数层。解码部分包括上采样层(Upsampling)、深度可分离反卷积层、反卷积层和反激活函数层。

图3为本发明实施例三提供的图像分割方法的流程示意图，在上述任一实施例的基础上，所述方法还包括：

步骤301、获取待训练数据；

步骤302、通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的；

步骤303、接收待分割图像；

步骤304、通过所述图像分割模型对所述图像中的人脸区域与头发区域进行分割。

在本实施例中，通过待训练数据对待训练模型进行训练，获得轻量级图像分割模型之后，可以将该模型部署至用户终端中，并使用该图像分割模型进行图像分割。具体地，可以接收待分割图像，其中，该待分割图像中可以为用户通过用户终端设置的图像采集设备实时拍摄的，也可以为用户终端预存的，通过图像分割模型对该待分割图像中的人脸部分与头发部分进行实时分割，从而用户可以根据分割后的图像进行变换发色、变换发型等操作，满足用户对拍照的多方面需求，进一步地提高用户体验。

本实施例提供的图像分割方法，通过接收待分割图像，通过所述图像分割模型对所述图像中的人脸区域与头发区域进行分割。从而能够对该待分割图像中的人脸部分与头发部分进行实时分割，从而能够满足用户对拍照的多方面需求，进一步地提高用户体验。

图4为本发明实施例四提供的图像分割装置的结构示意图，如图4所示，所述装置包括：

待训练数据获取模块41，用于获取待训练数据；

训练模块42，用于通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的。

本实施例提供的图像分割装置，通过获取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型，其中，所述待训练模型是通过具有编码功能的轻量级模型与具有解码功能的轻量级网络集成后获得的，从而能够有效降低图像分割模型的占用内存，进而能够将该图像分割模型安装在用户终端中，从而能够实时对用户发送的待分割图像进行图像分割，提高图像分割的效率，进而提高用户体验。

进一步地，在上述任一实施例的基础上，所述待训练数据获取模块包括：

接收单元，用于接收待处理图像集，所述待处理图像集中包括多张具有完整人脸头发区域的图像；

标注单元，用于通过预设的标注工具对所述待处理图像集中的图像进行特征标注，获得标注后的图像集；

数据增广单元，用于对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，获得所述待训练数据。

进一步地，在上述任一实施例的基础上，所述标注单元具体用于：

通过预设的像素级标注工具对所述待处理图像集中的图像的人脸区域与头发区域进行标注。

进一步地，在上述任一实施例的基础上，所述数据增广单元具体用于：

分别对所述待处理图像集以及所述标注后的图像集中的图像进行随机旋转和/或随机偏移和/或颜色扰动操作，以使数据增广后的待处理图像集中的图像与所述标注后的图像集中的图像一一对应。

进一步地，在上述任一实施例的基础上，所述具有编码功能的轻量级模型为MobileNet_V2模型，所述具有解码功能的轻量级网络为Unet模型；

进一步地，在上述任一实施例的基础上，所述装置还包括：

待分割图像接收模块，用于接收待分割图像；

分割模块，用于通过所述图像分割模型对所述图像中的人脸区域与头发区域进行分割。

图5为本发明实施例五提供的图像分割设备的结构示意图，如图5所示，所述图像分割设备包括：存储器51，处理器52；

存储器51；用于存储所述处理器52可执行指令的存储器51；

其中，所述处理器52被配置为由所述处理器52执行如上述任一实施例所述的图像分割方法。

本发明又一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的图像分割方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像分割方法，其特征在于，包括：

获取待训练数据；

2.根据权利要求1所述的方法，其特征在于，所述获取待训练数据，包括：

对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，获得所述待训练数据。

3.根据权利要求2所述的方法，其特征在于，所述通过预设的标注工具对所述待处理图像集中的图像进行特征标注，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述待处理图像集以及所述标注后的图像集中的图像进行数据增广，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述具有编码功能的轻量级模型为MobileNet_V2模型，所述具有解码功能的轻量级网络为Unet模型；

6.根据权利要求1-4任一项所述的方法，其特征在于，所述待训练模型包括卷积层、深度可分离卷积层、Batchnorm层、激活函数层、上采样层、深度可分离反卷积层、反卷积层以及反激活函数层。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述通过所述待训练数据对预设的待训练模型进行训练，获得训练后的图像分割模型之后，还包括：

接收待分割图像；

通过所述图像分割模型对所述图像中的人脸区域与头发区域进行分割。

8.一种图像分割装置，其特征在于，包括：

待训练数据获取模块，用于获取待训练数据；

9.根据权利要求8所述的装置，其特征在于，所述待训练数据获取模块包括：

10.根据权利要求9所述的装置，其特征在于，所述标注单元具体用于：

11.根据权利要求9所述的装置，其特征在于，所述数据增广单元具体用于：

12.根据权利要求8-11任一项所述的装置，其特征在于，所述具有编码功能的轻量级模型为MobileNet_V2模型，所述具有解码功能的轻量级网络为Unet模型；

13.根据权利要求8-11任一项所述的装置，其特征在于，所述待训练模型包括卷积层、深度可分离卷积层、Batchnorm层、激活函数层、上采样层、深度可分离反卷积层、反卷积层以及反激活函数层。

14.根据权利要求8-11任一项所述的装置，其特征在于，所述装置还包括：

待分割图像接收模块，用于接收待分割图像；

15.一种图像分割设备，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如权利要求1-7任一项所述的图像分割方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的图像分割方法。