CN111160350A

CN111160350A - 人像分割方法、模型训练方法、装置、介质及电子设备

Info

Publication number: CN111160350A
Application number: CN201911342311.5A
Authority: CN
Inventors: 吴佳涛
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-15
Anticipated expiration: 2039-12-23
Also published as: EP3843004A1; US20210192747A1; CN111160350B; WO2021129181A1

Abstract

本申请实施例公开了一种人像分割方法、模型训练方法、装置、介质及电子设备，通过接收输入的人像分割请求，并根据人像分割请求获取需要进行人像分割的待分割图像，调用预训练的人像分割模型将待分割图像分割为人像部分和背景部分。其中人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络。利用人像分支网络准确的对图像中的人像进行分类，以及利用背景分支网络准确的对图像中的背景进行分类，最后将二者的分类结果进行融合即可将图像划分为人像部分和背景部分，从而在不借助相关硬件的前提下实现对人像的分隔，能够降低电子设备实现人像分割的硬件成本。

Description

人像分割方法、模型训练方法、装置、介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种人像分割方法、模型训练方法、装置、介质及电子设备。

背景技术

人像分割是一种将图像中的人像从背景中分离出来的技术，在电子设备的人像背景虚化、人像留色以及背景替换等诸多领域都有着广泛的应用。然而，电子设备在进行人像分割时，往往依赖与特定的硬件，比如双摄像头、景深摄像头等，增加了电子设备实现人像分割的硬件成本。

发明内容

本申请实施例提供了一种人像分割方法、模型训练方法、装置、存储介质及电子设备，能够降低电子设备实现人像分割的硬件成本。

本申请实施例提供的人像分割方法，包括：

接收输入的人像分割请求，并根据所述人像分割请求获取需要进行人像分割的待分割图像；

调用预训练的人像分割模型，所述人像分割模型包括特征提取网络和双分支网络，所述双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接所述人像分支网络和所述背景分支网络的输出层；

基于所述特征提取网络提取所述待分割图像的图像特征；

基于所述人像分支网络对所述图像特征分类得到人像分类结果，以及基于所述背景分支网络对所述图像特征分类得到背景分类结果；

融合所述人像分类结果和所述背景分类结果得到融合分类结果，并基于所述输出层对所述融合分类结果分类得到所述待分割图像的人像部分和背景部分。

本申请实施例提供的模型训练方法，包括：

获取样本图像，以及获取对应所述样本图像的分类标签；

构建机器学习网络，所述机器学习网络包括特征提取网络和双分支网络，所述双分支网络包括结构相同的人像分支网络和背景分支网络以及连接所述人像分支网络和所述背景分支网络的输出层；

通过所述特征提取网络提取所述样本图像的图像特征，输入所述人像分支网络和背景分支网络进行分类，得到所述人像分支网络输出的人像分类结果以及所述背景分支网络输出的背景分类结果；

将所述人像分类结果和所述背景分类结果融合后输入所述输出层再次进行分类，得到最终分类结果；

根据所述人像分类结果以及所述分类标签获取所述人像分支网络的人像分类损失，根据所述背景分类结果以及所述分类标签获取所述背景分支网络的背景分类损失，根据所述融合分类结果以及所述分类标签获取所述输出层的融合损失；

根据所述人像分类损失、所述背景分类损失以及所述融合损失获取对应的总损失，并根据所述总损失调整所述人像分支网络和所述背景分支网络的参数，直至满足预设训练停止条件时结束训练，将结束训练的机器学习网络作为用于人像分割的人像分割网络。

本申请实施例提供的人像分割装置，包括：

图像获取模块，用于接收输入的人像分割请求，并根据所述人像分割请求获取需要进行人像分割的待分割图像；

模型调用模块，用于调用预训练的人像分割模型，所述人像分割模型包括特征提取网络和双分支网络，所述双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接所述人像分支网络和所述背景分支网络的输出层；

特征提取模块，用于基于所述特征提取网络提取所述待分割图像的图像特征；

独立分类模块，用于基于所述人像分支网络对所述图像特征分类得到人像分类结果，以及基于所述背景分支网络对所述图像特征分类得到背景分类结果；

融合分类模块，用于融合所述人像分类结果和所述背景分类结果得到融合分类结果，并基于所述输出层对所述融合分类结果分类得到所述待分割图像的人像部分和背景部分。

本申请实施例提供的模型训练装置，包括：

样本获取模块，用于获取样本图像，以及获取对应所述样本图像的分类标签；

网络构建模块，用于构建机器学习网络，所述机器学习网络包括特征提取网络和双分支网络，所述双分支网络包括结构相同的人像分支网络和背景分支网络以及连接所述人像分支网络和所述背景分支网络的输出层；

图像分类模块，用于通过所述特征提取网络提取所述样本图像的图像特征，输入所述人像分支网络和背景分支网络进行分类，得到所述人像分支网络输出的人像分类结果以及所述背景分支网络输出的背景分类结果；

结果融合模块，用于将所述人像分类结果和所述背景分类结果融合后输入所述输出层再次进行分类，得到最终分类结果；

损失获取模块，用于根据所述人像分类结果以及所述分类标签获取所述人像分支网络的人像分类损失，根据所述背景分类结果以及所述分类标签获取所述背景分支网络的背景分类损失，根据所述融合分类结果以及所述分类标签获取所述输出层的融合损失；

参数调整模块，用于根据所述人像分类损失、所述背景分类损失以及所述融合损失获取对应的总损失，并根据所述总损失调整所述人像分支网络和所述背景分支网络的参数，直至满足预设训练停止条件时结束训练，将结束训练的机器学习网络作为用于人像分割的人像分割网络。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的模型训练方法，或者执行本申请提供的人像分割方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的模型训练方法，或者执行本申请提供的人像分割方法。

本申请通过接收输入的人像分割请求，并根据人像分割请求获取需要进行人像分割的待分割图像，调用预训练的人像分割模型将待分割图像分割为人像部分和背景部分。其中人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络。利用人像分支网络准确的对图像中的人像进行分类，以及利用背景分支网络准确的对图像中的背景进行分类，最后将二者的分类结果进行融合即可将图像划分为人像部分和背景部分，从而在不借助相关硬件的前提下实现对人像的分隔，能够降低电子设备实现人像分割的硬件成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的流程示意图。

图2是本申请实施例提供的一网络结构示意图。

图3是本申请实施例提供的另一网络结构示意图。

图4是本申请实施例中人像网络分段的结构示意图。

图5是本申请实施例中特征提取网络的结构示意图。

图6是本申请实施例提供的人像分割方法的流程示意图。

图7是本申请实施例中提供的人像分割界面的示例图。

图8是本申请实施例中提供的选择子界面的示例图。

图9是本申请实施例提供的模型训练装置的结构示意图。

图10是本申请实施例提供的人像分割装置的结构示意图。

图11是本申请实施例提供的电子设备的一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种模型训练方法、人像分割方法、模型训练装置、人像分割装置、存储介质以及电子设备，其中，该模型训练方法的执行主体可以是本申请实施例中提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或软件的方式实现；该人像分割方法的执行主体可以是本申请实施例中提供的人像分割装置，或者集成了该人像分割装置的电子设备，其中该人像分割装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器(包括但不限于通用处理器、定制化处理器等)而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的模型训练方法的流程示意图，本申请实施例提供的模型训练方法的流程可以如下：

在101中，获取样本图像，以及获取对应样本图像的分类标签。

其中，样本图像可以是任意包括人像的图像，分类标签用于描述样本图像中任一像素点属于人像部分或是属于背景部分。

比如，电子设备可以从互联网爬取多张包括人像的图像作为样本图像，然后接收对获取到样本图像的标注数据，得到样本图像的分类标签，该分类标签用于描述样本图像中每一像素属于样本图像的人像部分或是背景部分。

在102中，构建机器学习网络，机器学习网络包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络以及连接人像分支网络和背景分支网络的输出层。

本申请实施例中，考虑到人像和背景无论是在高层级的抽象信息中，还是在浅层级的细节像素位置信息中均有着非常大的区别，某一特定网络也许非常适合学习某一个类别的信息，但无法做到对所有类别均适用，尤其是在杂乱背景的干扰下。因此，本申请中对人像分割任务进行了拆分，使用双分支结构来学习图像信息，其中两条分值结构系相同，但是处理的任务不同，其中一条分支倾向于学习图像中的背景信息，另一条倾向于学习图像中的人像信息。

其中，本申请实施例由电子设备构建包括特征提取网络和双分支网络的机器学习网络，作为训练的基础网络。其中，特征提取网络用于提取图像的浅层特征信息，双分支网络包括用于学习人像信息的人像分支网络、用于学习背景信息的背景分支网络，以及融合浅层特征信息、人像信息和背景信息的输出层，如图2所示。

在103中，通过特征提取网络提取样本图像的图像特征，输入人像分支网络和背景分支网络进行分类，得到人像分支网络输出的人像分类结果以及背景分支网络输出的背景分类结果。

特征提取网络可以是任意已知的特征提取网络，比如VGG、MobileNet等，其用途在于对输入的图像进行特征提取，作为后续分支网络的输入。以特征提取网络不会改变图像的尺度大小为约束(即不会对图像产生上/下采样效果)，可由本领域普通技术人员根据实际需要选取合适的特征提取网络。

在构建得到由特征提取网络和双分支网络构成的机器学习网络后，电子设备即可利用获取到的样本图像对构建的机器学习网络进行训练。

其中，电子设备首先将样本图像输入特征提取网络进行特征提取，得到样本图像的图像特征，比如，特征提取网络提取到的图像特征为样本图像的浅层像素位置信息。

然后，将提取到的图像特征输入到人像分支网络中进行分类，得到人像分支网络输出的人像分类结果，以及将提取到图像特征输入到背景分支网络中进行分类，得到背景分支网络输出的背景分类结果。

在104中，将人像分类结果和背景分类结果融合后输入输出层再次进行分类，得到最终分类结果。

本申请实施例中，输出层用于综合人像分支网络的人像分类结果以及背景分支网络的背景分类结果再次进行分类，得到结合了人像分类结果和背景分类结果的最终分类结果。其中，最终分类结果用于描述样本图像中每一像素位置属于样本图像的人像部分或是背景部分。输出层可以为单独的卷积单元，包括但不限于普通卷积单元以及空洞卷积单元等。

比如，电子设备可以采用Concat的方式将人像分类结果和背景分类结果融合后输入输出层再次进行分类，得到对应的最终分类结果。

在105中，根据人像分类结果以及分类标签获取人像分支网络的人像分类损失，根据背景分类结果以及分类标签获取背景分支网络的背景分类损失，根据最终分类结果以及分类标签获取输出层的融合损失。

其中，电子设备根据人像分支网络输出的人像分类结果以及样本图像的分类标签获取人像分支网络的人像分类损失，根据背景分支网络输出的人像分类结果以及样本图像的分类标签获取背景分支网络的背景分类损失，根据输出层输出的最终分类结果以及样本图像的分类标签获取输出层的融合损失。

在106中，根据人像分类损失、背景分类损失以及融合损失获取对应的总损失，并根据总损失调整人像分支网络和背景分支网络的参数，直至满足预设训练停止条件时结束训练，将结束训练的机器学习网络作为用于人像分割的人像分割网络。

其中，电子设备根据获取到的人像分类损失、背景分类损失以及融合损失获取到对应机器学习网络的总损失，可以表示为：

L_total＝L_融合+L_背景+L_人像；

其中，L_total表示总损失，L_融合表示融合损失，L_背景表示背景分类损失，L_人像表示人像分类损失。

应当说明的是，本申请实施例中，模型训练的目标就是最小化总损失，因此，在每次确定总损失后，即可以最小化总损失为方向，对人像分支网络和背景分支网络的参数进行调整。

如上，通过重复101至106，不断的对人像分支网络和背景分支网络的参数进行调整，直至满足预设训练停止条件时结束训练。其中，预设训练停止条件可由本领域普通技术人员根据实际需要进行设置，本申请实施例对此不做具体限制。

比如，预设训练停止条件被配置为：当总损失取最小值时停止训练；

又比如，预设训练停止条件被配置为：当参数的迭代次数达到预设次数时停止训练。

当满足预设训练停止条件时，电子设备判定机器学习网络中的人像分支网络能够准确的对图像中的人像进行分类，而背景分支网络能够准确的对图像中的背景进行分类，通过对人像分支网络和背景分支网络的分类结果进行融合，即可将图像划分为人像部分和背景部分，从而实现人像的分割。相应的，电子设备将结束训练的机器学习网络作为用于人像分割的人像分割网络。

由上可知，本申请通过获取样本图像，以及获取对应样本图像的分类标签，然后构建包括特征提取网络和双分支网络的机器学习网络，然后利用获取到的样本图像以及对应的分类标签对双分支网络进行训练，在训练过程中为每条分支分配不同的学习任务，其中一条分支作为人像分支学习样本图像中的人像信息，另一条分支作为背景分支学习样本图像中的背景信息。由此，当训练完成时，其中的人像分支网络能够准确的对图像中的人像进行分类，而背景分支网络则能够准确的对图像中的背景进行分类，将二者的分类结果进行融合即可将图像划分为人像部分和背景部分，从而在不借助相关硬件的前提下实现对人像的分隔，能够降低电子设备实现人像分割的硬件成本。

在一实施例中，人像分支网络包括N个结构相同的人像网络分段，背景分支网络包括N个结构相同的背景网络分段，将图像特征输入人像分支网络和背景分支网络进行分类，包括：

(1)基于第1个人像网络分段对图像特征分类得到第1个人像分类结果，以及基于第1个背景网络分段对图像特征分类得到第1个背景分类结果；

(2)融合第1个人像分类结果、第1个背景分类结果以及图像特征得到第1个融合特征，基于第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果，以及基于第2个背景网络分段对第1个融合特征分类得到第2个背景分类结果；

(3)融合第2个人像分类结果、第2个背景分类结果以及图像特征得到第2个融合特征，以此类推，直至得到第N个人像网络分段根据第N-1个融合特征分类得到的第N个人像分类结果，以及得到第N个背景网络分段根据第N-1个融合特征分类得到的第N个背景分类结果；

(4)将第N个人像分类结果作为人像分支网络的人像分类结果，以及将第N个背景分类结果作为背景分支网络的背景分类结果。

应当说明的是，在本申请实施例中，人像分支网络包括N(N为大于2的正整数，可由本领域普通技术人员根据实际需要取值)个结构相同的人像网络分段，背景分支网络包括N个结构相同的背景网络分段。比如，请参照图3，人像分支网络包括N个人像网络分段，分别为人像网络分段1至人像网络分段N，对应的，背景分支网络包括N个背景网络分段，分别为背景网络分段1至背景网络分段N。其中，人像网络分段1和背景网络分段1组成网络分段1，人像网络分段2和背景网络分段2组成网络分段2，以此类推，人像网络分段N和背景网络分段N组成网络分段N，换言之，本申请实施例中构建的双分支网络可以看做是由多个网络分段组成，比如图3所示的网络分段1至网络分段N，每一网络分段均包括对应的人像网络分段和背景网络分段。

以下继续以图3所示的网络结构为例进行说明。

本申请实施例中，电子设备将样本图像输入特征提取网络进行特征提取，得到样本图像的图像特征；然后，将提取得到的图像特征输入网络分段1中的人像网络分段1进行人像分类，得到人像网络分段1输出的人像分类结果，以及将提取得到的图像特征输入网络分段1中的背景网络分段1进行背景分类，得到背景网络分段1输出的背景分类结果；然后，对人像网络分段1输出的人像分类结果、背景网络分段1输出的背景分类结果以及提取得到的图像特征进行融合，得到融合特征，作为网络分段1输出的融合特征；然后，将网络分段1输出的融合特征输入网络分段2中的人像网络分段2进行人像分类，得到人像网络分段2输出的人像分类结果，以及将网络分段1输出的融合特征输入网络分段2中的背景网络分段2进行背景分类，得到背景网络分段2输出的背景分类结果；然后，对人像网络分段2输出的人像分类结果、背景网络分段2输出的背景分类结果以及提取得到的图像特征进行融合，得到新的融合特征，作为网络分段2输出的融合特征；依次类推，直至获取到网络分段N中的人像网络分段N根据网络分段N-1输出的融合特征所分类得到的人像分类结果，以及获取到网络分段N中的背景网络分段2根据网络分段N-1输出的融合特征所分类得到的背景分类结果；然后，将人像网络分段N输出的人像分类结果作为人像分支网络最终的人像分类结果，将背景网络分段N输出的背景分类结果作为背景分支网络最终的背景分类结果；最后，在得到人像分支网络输出的人像分类结果以及得到背景分支网络输出的背景分类结果之后，将人像分类结果和背景分类结果融合后输入输出层再次进行分类，得到最终分类结果。

本申请实施例中，通过特征提取网络进行初步的特征提取，既能够在整体上有效的减少运算量，又能够为双分支网络网络中的网络分段(由人像网络分段和背景网络分段构成)多次提供更加精细的像素位置信息(也即是特征提取网络初始提取到的图像特征)，使得机器学习网络能够在较低的运算量下获得更多的细节信息。

在一实施例中，人像网络分段包括编码模块，与编码模块连接的解码模块，以及与解码模块连接的分类模块，将融合特征输入人像网络分段进行分类，包括：

(1)将融合特征输入编码模块进行特征提取以及下采样，得到编码特征；

(2)将编码特征输入解码模块进行特征提取以及上采样，得到与融合特征尺度相同的解码特征；

(3)将解码特征输入分类模块进行分类，得到人像网络分段输出的人像分类结果。

应当说明的是，在本申请实施例中，背景网络分段和人像网络分段的结构相同，但二者不共享参数，以下以人像网络分段为例进行说明。

其中，每一人像网络分段均由三部分组成，分别为编码模块，与编码模块连接的解码模块，以及与解码模块连接的分类模块，如图4所示。

电子设备在将融合特征输入人像网络分段进行分类时，首先将融合特征输入编码模块进行特征提取以及下采样，得到编码特征，然后将编码特征输入解码模块做进一步的特征提取以及上采样，得到与融合特征尺度相同的解码特征，最后将该解码特征输入分类模块进行分类，将分类模块的输出结果作为人像网络分段输出的人像分类结果。

在一实施例中，编码模块包括多个结构相同且依次连接的第一卷积模块，第一卷积模块包括依次连接的卷积核大小为3*3、步长为2的卷积单元，归一化单元以及激活函数单元；

解码模块包括多个结构相同且依次连接的第二卷积模块，第二卷积模块包括依次连接的卷积核大小为3*3、步长为1的卷积单元，归一化单元，激活函数单元，以及采样倍数为2的上采样单元；

分类模块包括输出区间为[-1,1]的归一化层。

其中，本申请实施例中对于第一卷积模块中归一化单元的输出区间不做限制，可由本领域技术人员根据实际需要取经验值，同样的，本申请对第一卷积模块中激活函数单元采用的激活函数不做限制，可由本领域普通技术人员根据实际需要选取，包括但不限于ReLU和ReLU6等。

此外，本申请实施例中对于第二卷积模块中归一化单元的输出区间不做限制，可由本领域技术人员根据实际需要取经验值，同样的，本申请对第二卷积模块中激活函数单元采用的激活函数不做限制，以选择第一卷积模块中激活函数单元相同的激活函数为约束，可由本领域普通技术人员根据实际需要选取，包括但不限于ReLU和ReLU6等。

应当说明的是，第一卷积模块和第二卷积模块的个数相同，可由本领域普通技术人员根据实际需要设置第一卷积模块和第二卷积模块的个数，比如，本申请实施例中设置第一卷积模块和第二卷积模块的个数为3，由此，在每一网络分段(包括人像网络分段和背景网络分段)内部，将包含三个下采样过程，对输入的融合特征进行多尺度的特征提取，以及三个上采样过程，进行尺度的恢复以及特征的进一步提取。这样，通过多个网络分段的堆叠能够实现图像特征进一步的深层次提取，同时配合网络分段内部的下采样和上采样过程，还能进一步实现特征的多尺度提取，从而进一步提升机器学习网络的分割能力。

基于以上网络分段的内部结构，按照如下方式计算损失：

假设模型训练的批次大小设置为M(即对双分支网络的参数迭代一次需要M个样本图像)，G(i，j)为分类标签，G(i，j)＝1表示像素位置(i，j)属于样本图像的人像部分，G(i，j)＝-1表示像素位置(i，j)属于样本图像的背景部分。则人像分类损失可以表示为：

其中，s表示不同人像网络分段，(i，j)取样本图像中人像部分的像素位置，Feature(i，j)表示一人像网络分段的人像分类结果在(i，j)的值，范围为[-1,1]。

同样的，背景分类损失可以表示为：

其中，s表示不同人像网络分段，(i，j)取样本图像中背景部分的像素位置，Feature(i，j)表示一人像网络分段的背景分类结果在(i，j)的值，范围为[-1,1]。

其中，(i，j)取样本图像中的任一像素位置，mix(i，j)表示输出层的最终分类结果在(i，j)的值，范围为[-1,1]，G在(i，j)属于样本图像中的人像部分时取1，在(i，j)属于样本图像中的背景部分时取-1。

在一实施例中，特征提取网络包括多个结构相同且依次连接的第三卷积模块，第三卷积模块包括依次连接的卷积单元、归一化单元以及激活函数单元。

应当说明的是，本申请实施例中对于第三卷积模块的设置数量不做具体限制，可由本领域普通技术人员根据实际需要设置。

其中，第三卷积模块包括依次连接的卷积单元、归一化单元和激活函数单元。

比如，请参照图5，本申请实施例中特征提取网络由三个结构相同的第三卷积模块构成，每一第三卷积模块均包括依次连接的卷积单元、归一化单元以及激活函数单元。其中，本申请实施例对于第三卷积模块中卷积单元的类型不做具体限制，包括但不限于普通卷积单元和空洞卷积单元等，此外，对于第三卷积模块中归一化单元的输出区间不做具体限制，可由本领域技术人员根据实际需要取经验值，同样的，本申请对第三卷积模块中激活函数单元采用的激活函数不做限制，可由本领域普通技术人员根据实际需要选取，包括但不限于ReLU和ReLU6等。

请参照图6，图6为本申请实施例提供的人像分割方法的流程示意图，本申请实施例提供的人像分割方法的流程可以如下：

在201中，接收输入的人像分割请求，并根据人像分割请求获取需要进行人像分割的待分割图像。

应当说明的是，本申请实施例中将从电子设备的角度进行描述。其中，电子设备可以通过多种不同的方式接收人像分割请求。

比如，电子设备可以通过包括请求输入接口的人像分割界面接收输入的人像分割请求，如图7所示，该请求输入接口可以为输入框的形式，用户可以在该输入框形式的请求输入接口中键入需要进行人像分割的图像的标识信息，并输入确认信息(如直接按下键盘的回车键)以输入人像分割请求，该人像分割请求携带有需要进行人像分割的图像的标识信息。相应的，电子设备即可根据接收到的人像分割请求中的标识信息确定需要进行人像分割的待分割图像。

又比如，在图7所述的人像分割界面中，还包括“打开”控件，一方面，电子设备在侦测到该打开控件触发时，将在人像分割界面之上叠加显示选择子界面(如图8所示)，该选择子界面向用户提供可进行人像分割的图像的缩略图，如图像A、图像B、图像C、图像D、图像E、图像F等图像的缩略图，供用户查找并选中需要进行人像分割的图像的缩略图；另一方面，用户可以在选中需要进行人像分割的图像的缩略图之后，触发选择子界面提供的确认控件，以向电子设备输入人像分割请求，该人像分割请求与用户选中的图像的缩略图相关联，指示电子设备将用户选中的图像作为需要进行人像分割的图像。

此外，本领域普通用户还可以根据实际需要设置其它输入人像分割请求的具体实现方式，本发明对此不做具体限制。

其中，电子设备在接收到输入的人像分割请求时，根据人像分割请求所携带的标识信息确定需要进行人像分割的待分割图像，并获取到该待分割图像。

在202中，调用预训练的人像分割模型，人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接人像分支网络和背景分支网络的输出层。

应当说明的是，在本申请实施例中，预先采用以上实施例中提供的模型训练方法训练有人像分割模型。请参照图2，该人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接人像分支网络和背景分支网络的输出层。

其中，电子设备在根据接收到的人像分割请求而获取到需要进行人像分割的待分割图像之后，即调用预训练的人像分割模型，以对待分割图像进行人像分割。

在203中，基于特征提取网络提取待分割图像的图像特征。

其中，电子设备首先将待分割图像输入特征提取网络进行特征提取，得到待分割图像的图像特征。示例性的，本申请在对人像分割模型的训练过程中，将特征提取网络配置为提取待分割图像的浅层像素位置信息。

相应的，电子设备将基于特征提取网络提取到待分割图像的浅层像素位置信息，作为其图像特征。

在204中，基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类得到背景分类结果。

其中，本申请在对人像分割模型的训练过程中，将人像分支网络配置为适于人像的分类，将背景分支网络配置为适于背景的分类。相应的，电子设备在基于特征提取网络提取到待分割图像的图像特征之后，进一步基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类维度背景分类结果。

在205中，融合人像分类结果和背景分类结果得到融合分类结果，并基于输出层对融合分类结果分类得到待分割图像的人像部分和背景部分。

其中，电子设备在得到人像分支网络的人像分类结果以及背景分支网络输出的背景分类结果之后，将人像分类结果和背景分类结果进行融合，得到融合分类结果，最后将该融合分类结果输入输出再次进行分类，得到最终分类结果，该最终分类结果用于描述待分割图像中每一像素位置属于待分割图像的人像部分或是背景部分，由此实现对待分割图像的人像分割，得到待分割图像的人像部分和背景部分。

在一实施例中，2、根据权利要求1的人像分割方法，其特征在于，人像分支网络包括N个结构相同的人像网络分段，背景分支网络包括N个结构相同的背景网络分段，基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类得到背景分类结果，包括：

以下继续以图3所示的网络结构为例进行说明。

在一实施例中，人像网络分段包括编码模块、与编码模块连接的解码模块以及与解码模块连接的分类模块，基于第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果，包括：

(1)基于第2个人像网络分段的编码模块对第1个融合特征进行特征提取以及下采样，得到编码特征；

(2)基于第2个人像网络分段的解码模块对编码特征进行特征提取以及上采样，得到与第1个融合特征尺度相同的解码特征；

(3)基于第2个人像网络分段的分类模块对解码特征进行分类，得到第2个人像分类结果。

应当说明的是，在本申请实施例中，背景网络分段和人像网络分段的结构相同，但二者不共享参数。本申请以第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果为例进行说明，其它同理。

应当说明的是，请参照图4，本申请中每一人像网络分段均由三部分组成，分别为编码模块，与编码模块连接的解码模块，以及与解码模块连接的分类模块。其中，编码模块用于对输入的特征继续进行特征提取以及下采样，得到编码特征，解码模块用于对编码特征继续进行特征提取以及上采样，得到与输入特征尺度相同的解码特征，分类模块用于对解码特征进行分类，其分类结果作为其所在人像网络分段的人像分类结果。

相应的，电子设备在基于第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果时，首先基于第2个人像网络分段的编码模块对第1个融合特征进行特征提取以及下采样，得到对应的编码特征；然后，再基于第2个人像网络分段的解码模块对编码特征进行特征提取以及上采样，得到与第1个融合特征尺度相同的解码特征；最后，基于第2个人像网络分段的分类模块对解码特征进行分类，得到第2个人像网络分段的第2个人像分类结果。

可选的，编码模块包括多个结构相同且依次连接的第一卷积模块，第一卷积模块包括依次连接的卷积核大小为3*3、步长为2的卷积单元，归一化单元以及激活函数单元；

可选的，解码模块包括多个结构相同且依次连接的第二卷积模块，第二卷积模块包括依次连接的卷积核大小为3*3、步长为1的卷积单元，归一化单元，激活函数单元，以及采样倍数为2的上采样单元；

可选的，分类模块包括输出区间为[-1,1]的归一化层。

应当说明的是，第一卷积模块和第二卷积模块的个数相同，可由本领域普通技术人员根据实际需要设置第一卷积模块和第二卷积模块的个数，比如，本申请实施例中设置第一卷积模块和第二卷积模块的个数为3，由此，在每一网络分段(包括人像网络分段和背景网络分段)内部，将包含三个下采样过程，对输入的融合特征进行多尺度的特征提取，以及三个上采样过程，进行尺度的恢复以及特征的进一步提取。这样，通过多个网络分段的堆叠能够实现图像特征进一步的深层次提取，同时配合网络分段内部的下采样和上采样过程，还能进一步实现特征的多尺度提取，从而进一步提升人像分割模型的分割能力。

在一实施例中，“将待分割图像输入人像分割模型进行人像分割，得到待分割图像的人像部分和背景部分”之后，还包括：

对分割得到的人像部分和/或背景部分执行预设图像处理操作。

比如，对背景部分进行虚化处理，将背景部分替换为预设的背景模板，对人像部分进行人像留色等。

在一实施例中，还提供了一种模型训练装置。请参照图9，图9为本申请实施例提供的模型训练装置的结构示意图。其中该模型训练装置应用于电子设备，该模型训练装置包括样本获取模块301、网络构建模块302、图像分类模块303、结果融合模块304、损失获取模块305以及参数调整模块306，如下：

样本获取模块301，用于获取样本图像，以及获取对应样本图像的分类标签；

网络构建模块302，用于构建机器学习网络，机器学习网络包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络以及连接人像分支网络和背景分支网络的输出层；

图像分类模块303，用于通过特征提取网络提取样本图像的图像特征，输入人像分支网络和背景分支网络进行分类，得到人像分支网络输出的人像分类结果以及背景分支网络输出的背景分类结果；

结果融合模块304，用于将人像分类结果和背景分类结果融合后输入输出层再次进行分类，得到最终分类结果；

损失获取模块305，用于根据人像分类结果以及分类标签获取人像分支网络的人像分类损失，根据背景分类结果以及分类标签获取背景分支网络的背景分类损失，根据融合分类结果以及分类标签获取输出层的融合损失；

参数调整模块306，用于根据人像分类损失、背景分类损失以及融合损失获取对应的总损失，并根据总损失调整人像分支网络和背景分支网络的参数，直至满足预设训练停止条件时结束训练，将结束训练的机器学习网络作为用于人像分割的人像分割网络。

在一实施例中，人像分支网络包括N个结构相同的人像网络分段，背景分支网络包括N个结构相同的背景网络分段，在将图像特征输入人像分支网络和背景分支网络进行分类时，图像分类模块303用于：

基于第1个人像网络分段对图像特征分类得到第1个人像分类结果，以及基于第1个背景网络分段对图像特征分类得到第1个背景分类结果；

融合第1个人像分类结果、第1个背景分类结果以及图像特征得到第1个融合特征，基于第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果，以及基于第2个背景网络分段对第1个融合特征分类得到第2个背景分类结果；

融合第2个人像分类结果、第2个背景分类结果以及图像特征得到第2个融合特征，以此类推，直至得到第N个人像网络分段根据第N-1个融合特征分类得到的第N个人像分类结果，以及得到第N个背景网络分段根据第N-1个融合特征分类得到的第N个背景分类结果；

将第N个人像分类结果作为人像分支网络的人像分类结果，以及将第N个背景分类结果作为背景分支网络的背景分类结果。

在一实施例中，人像网络分段包括编码模块，与编码模块连接的解码模块，以及与解码模块连接的分类模块，在将融合特征输入人像网络分段进行分类时，图像分类模块303用于：

将融合特征输入编码模块进行特征提取以及下采样，得到编码特征；

将编码特征输入解码模块进行特征提取以及上采样，得到与融合特征尺度相同的解码特征；

将解码特征输入分类模块进行分类，得到人像网络分段输出的人像分类结果。

分类模块包括输出区间为[-1,1]的归一化单元。

应当说明的是，本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思，在模型训练装置上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供了一种人像分割装置。请参照图10，图10为本申请实施例提供的人像分割装置的结构示意图。其中该人像分割装置应用于电子设备，该人像分割装置包括图像获取模块401、模型调用模块402、特征提取模块403、独立分类模块404以及融合分类模块405，如下：

图像获取模块401，用于接收输入的人像分割请求，并根据人像分割请求获取需要进行人像分割的待分割图像；

模型调用模块402，用于调用预训练的人像分割模型，人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接人像分支网络和背景分支网络的输出层；

特征提取模块403，用于基于特征提取网络提取待分割图像的图像特征；

独立分类模块404，用于基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类得到背景分类结果；

融合分类模块405，用于融合人像分类结果和背景分类结果得到融合分类结果，并基于输出层对融合分类结果分类得到待分割图像的人像部分和背景部分。

在一实施例中，人像分支网络包括N个结构相同的人像网络分段，背景分支网络包括N个结构相同的背景网络分段，在基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类得到背景分类结果时，独立分类模块404用于：

在一实施例中，人像网络分段包括编码模块，与编码模块连接的解码模块，以及与解码模块连接的分类模块，在基于第2个人像网络分段对第1个融合特征分类得到第2个人像分类结果时，独立分类模块404用于：

基于第2个人像网络分段的编码模块对第1个融合特征进行特征提取以及下采样，得到编码特征；

基于第2个人像网络分段的解码模块对编码特征进行特征提取以及上采样，得到与第1个融合特征尺度相同的解码特征；

基于第2个人像网络分段的分类模块对解码特征进行分类，得到第2个人像分类结果。

在一实施例中，编码模块包括多个结构相同且依次连接的第一卷积模块，第一卷积模块包括依次连接的卷积核大小为3*3、步长为2的卷积单元，归一化单元以及激活函数单元。

在一实施例中，解码模块包括多个结构相同且依次连接的第二卷积模块，第二卷积模块包括依次连接的卷积核大小为3*3、步长为1的卷积单元，归一化单元，激活函数单元，以及采样倍数为2的上采样单元。

在一实施例中，分类模块包括输出区间为[-1,1]的归一化单元。

应当说明的是，本申请实施例提供的人像分割装置与上文实施例中的人像分割方法属于同一构思，在人像分割装置上可以运行人像分割方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图11，电子设备包括处理器501和存储器502。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502中计算机程序的访问，执行以上实施例提供的模型训练方法，比如：

获取样本图像，以及获取对应样本图像的分类标签；

构建机器学习网络，机器学习网络包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络以及连接人像分支网络和背景分支网络的输出层；

通过特征提取网络提取样本图像的图像特征，输入人像分支网络和背景分支网络进行分类，得到人像分支网络输出的人像分类结果以及背景分支网络输出的背景分类结果；

将人像分类结果和背景分类结果融合后输入输出层再次进行分类，得到最终分类结果；

根据人像分类结果以及分类标签获取人像分支网络的人像分类损失，根据背景分类结果以及分类标签获取背景分支网络的背景分类损失，根据融合分类结果以及分类标签获取输出层的融合损失；

根据人像分类损失、背景分类损失以及融合损失获取对应的总损失，并根据总损失调整人像分支网络和背景分支网络的参数，直至满足预设训练停止条件时结束训练，将结束训练的机器学习网络作为用于人像分割的人像分割网络。

或者，执行以上实施例提供的人像分割方法，比如：

接收输入的人像分割请求，并根据人像分割请求获取需要进行人像分割的待分割图像；

调用预训练的人像分割模型，人像分割模型包括特征提取网络和双分支网络，双分支网络包括结构相同的人像分支网络和背景分支网络，以及连接人像分支网络和背景分支网络的输出层；

基于特征提取网络提取待分割图像的图像特征；

基于人像分支网络对图像特征分类得到人像分类结果，以及基于背景分支网络对图像特征分类得到背景分类结果；

融合人像分类结果和背景分类结果得到融合分类结果，并基于输出层对融合分类结果分类得到待分割图像的人像部分和背景部分。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的模型训练方法/人像分割方法属于同一构思，在电子设备上可以运行模型训练方法/人像分割方法实施例中提供的任一方法，其具体实现过程详见模型训练方法/人像分割方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的模型训练方法/人像分割方法而言，本领域普通技术人员可以理解实现本申请实施例的模型训练方法/人像分割方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器执行，在执行过程中可包括如模型训练方法/人像分割方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种人像分割方法、模型训练方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人像分割方法，其特征在于，包括：

基于所述特征提取网络提取所述待分割图像的图像特征；

2.根据权利要求1所述的人像分割方法，其特征在于，所述人像分支网络包括N个结构相同的人像网络分段，所述背景分支网络包括N个结构相同的背景网络分段，所述基于所述人像分支网络对所述图像特征分类得到人像分类结果，以及基于所述背景分支网络对所述图像特征分类得到背景分类结果，包括：

基于第1个人像网络分段对所述图像特征分类得到第1个人像分类结果，以及基于第1个背景网络分段对所述图像特征分类得到第1个背景分类结果；

融合所述第1个人像分类结果、所述第1个背景分类结果以及所述图像特征得到第1个融合特征，基于第2个人像网络分段对所述第1个融合特征分类得到第2个人像分类结果，以及基于第2个背景网络分段对所述第1个融合特征分类得到第2个背景分类结果；

融合所述第2个人像分类结果、所述第2个背景分类结果以及所述图像特征得到第2个融合特征，以此类推，直至得到第N个人像网络分段根据第N-1个融合特征分类得到的第N个人像分类结果，以及得到第N个背景网络分段根据第N-1个融合特征分类得到的第N个背景分类结果；

将所述第N个人像分类结果作为所述人像分支网络的人像分类结果，以及将所述第N个背景分类结果作为所述背景分支网络的背景分类结果。

3.根据权利要求2所述的人像分割方法，其特征在于，所述人像网络分段包括编码模块、与所述编码模块连接的解码模块以及与所述解码模块连接的分类模块，所述基于第2个人像网络分段对所述第1个融合特征分类得到第2个人像分类结果，包括：

基于所述第2个人像网络分段的编码模块对所述第1个融合特征进行特征提取以及下采样，得到编码特征；

基于所述第2个人像网络分段的解码模块对所述编码特征进行特征提取以及上采样，得到与所述第1个融合特征尺度相同的解码特征；

基于所述第2个人像网络分段的分类模块对所述解码特征进行分类，得到所述第2个人像分类结果。

4.根据权利要求3所述的人像分割方法，其特征在于，所述编码模块包括多个结构相同且依次连接的第一卷积子模块，所述第一卷积子模块包括：

依次连接的卷积核大小为3*3、步长为2的卷积单元，归一化单元以及激活函数单元。

5.根据权利要求3所述的人像分割方法，其特征在于，所述解码模块包括多个结构相同且依次连接的第二卷积子模块，所述第二卷积子模块包括：

依次连接的卷积核大小为3*3、步长为1的卷积单元，归一化单元，激活函数单元，以及采样倍数为2的上采样单元。

6.根据权利要求3所述的人像分割方法，其特征在于，所述分类模块包括输出区间为[-1,1]的归一化单元。

7.根据权利要求1所述的人像分割方法，其特征在于，所述特征提取网络包括多个结构相同且依次连接的第三卷积子模块，所述第三卷积子模块包括:

依次连接的卷积单元，归一化单元以及激活函数单元。

8.一种模型训练方法，其特征在于，包括：

获取样本图像，以及获取对应所述样本图像的分类标签；

将所述人像分类结果和所述背景分类结果融合后输入所述输出层进行分类，得到最终分类结果；

根据所述人像分类结果以及所述分类标签获取所述人像分支网络的人像分类损失，根据所述背景分类结果以及所述分类标签获取所述背景分支网络的背景分类损失，根据所述最终分类结果以及所述分类标签获取所述输出层的融合损失；

9.一种人像分割装置，其特征在于，包括：

10.一种模型训练装置，其特征在于，包括：

结果融合模块，用于将所述人像分类结果和所述背景分类结果融合后输入所述输出层进行分类，得到最终分类结果；

损失获取模块，用于根据所述人像分类结果以及所述分类标签获取所述人像分支网络的人像分类损失，根据所述背景分类结果以及所述分类标签获取所述背景分支网络的背景分类损失，根据所述最终分类结果以及所述分类标签获取所述输出层的融合损失；

11.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1至7任一项所述的人像分割方法，或者执行如权利要求8所述的模型训练方法。

12.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至7任一项所述的人像分割方法，或者执行如权利要求8所述的模型训练方法。