CN111369430B

CN111369430B - 基于移动深度学习引擎的移动端人像智能背景替换方法

Info

Publication number: CN111369430B
Application number: CN202010158025.XA
Authority: CN
Inventors: 李阳辉; 康显桂; 胡建芳; 林小拉
Original assignee: Sun Yat Sen University
Current assignee: Xi'an Chenzhen Zhishan Information Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-04-07
Anticipated expiration: 2040-03-09
Also published as: CN111369430A

Abstract

本发明提出一种基于移动深度学习引擎的移动端人像智能背景替换方法，至少包括以下步骤：S1.选取待训练的卷积神经网络模型；S2.在服务端训练卷积神经网络模型；S3.基于移动深度学习引擎，结合自适应多级模型选择策略，将卷积神经网络模型部署在移动端；S4.利用选择得出的最优卷积神经网络模型进行人像智能背景替换。本发明在移动设备上就能实现背景替换的功能，解决了因网络因素导致人像背景替换的处理效率和成功率低的问题；另外，在进行卷积神经网络模型移动端的部署时，结合了自适应多级模型选择策略，达到根据用户设备差异有效选择最优模型的目的，提升用户使用体验。

Description

基于移动深度学习引擎的移动端人像智能背景替换方法

技术领域

本发明涉及人工智能计算机视觉的技术领域，更具体地，涉及一种基于移动深度学习引擎的移动端人像智能背景替换方法。

背景技术

数字人像分割是计算机视觉领域的一项基础且重要的研究，它要求模型识别图像中的人体和背景，即将图像进行二值分类。数字人像分割有很多方面的应用，例如图像说明(ImageCaption)，背景替换(BackgroundReplace)等。

数字人像分割主要依据两大块深度神经网络：图像语义分割网络(ImageSemanticSegmentation)和轻量化基础网络结构(LightweightBackbone)，图像语义分割网络的主要目的是区分图像中每个像素点的类别，根据给定语义，相同类别的像素点颜色标注(mask)相同，其中全卷积网络(FCN)是其他网络的基础，它通过将网络全连接层用卷积取代，使得任意图像大小的输入成为可能，该网络采用encoder-decoder结构，另外还有Google的DeepLab系列网络；轻量化基础网络结构是深度学习主干网络中的一个研究分支，目的是使网络更快，结构更轻量化。主要包括三个模型：SqueezeNet，MobileNet以及ShuffleNet。

目前，针对移动端的人像背景替换的方法，大多采用C/S架构，即在移动端制作相应软件负责选原图和背景图，然后通过网络通信的方式发送给服务端，在服务端上调用训练好的人像分割网络获取Mask，再根据二值mask在背景图上进行逐像素处理，从而生成替换背景后的人像图,最后将该图回传给客户端软件，并进行显示,但这种方法是建立在网络通信基础之上的，网络问题包括客户端和服务端的网卡速率以及网络传输的速率。除去网卡性能因素，就网络状况而言，一旦出现高并发，高负载的情况或路由损坏，很可能造成网络拥塞，从而导致图像处理时间大幅延长，而这对于实时交互性要求高的客户端应用是极其严重的。因此，几乎所有的研究都在致力于如何精简网络从而使其能应用于移动端，关注点主要集中在移动端软件、网络及服务端子部分研究上，但几乎没有研究能真正完整实现轻量网络在移动端部署落地应用的人像背景替换。另外，少数可以实现在移动端部署的人像背景替换方法，直接选取指定设备进行图像处理，而没有考虑移动端设备性能差异以及用户业务需求，导致用户体验很差。

综上所述，如何考虑移动端设备性能差异，通过移动端完整部署，从而实现人像智能背景替换，是一项亟待解决的技术问题。

发明内容

现有人像背景替换方法里采用C/S架构的技术，具有对网络通信依赖性强的缺陷，而少数可以实现在移动端部署的人像背景替换方法，没有考虑移动端设备性能差异以及用户业务需求，具有用户体验很差的弊端，为克服上述不足，本发明提出一种基于移动深度学习引擎的移动端人像智能背景替换方法，通过移动端落地部署，从而实现人像智能背景替换，且提高用户体验。

本发明旨在至少在一定程度上解决上述技术问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于移动深度学习引擎的移动端人像智能背景替换方法，至少包括：

S1.选取待训练的卷积神经网络模型；

S2.在服务端训练卷积神经网络模型；

S3.基于移动深度学习引擎，结合自适应多级模型选择策略，将卷积神经网络模型部署在移动端；

S4.利用选择得出的最优卷积神经网络模型进行人像智能背景替换。

优选地，步骤S1所述的待训练的卷积神经网络模型包括图像语义分割网络和主干网络，所述图像语义分割网络的选取标准为：图像语义分割网络的提出时间不超过两年；所述主干网络选取轻量级网络。

在此，图像语义分割网络选取的提出时间不超过两年，从新旧层面保证了卷积神经网络模型的新颖性，图像语义分割网络和主干网络从选取标准上既确保了神经网络的性能，也考虑了后续移动端部署对速率、能耗及存储的需求。

优选地，步骤S2所述的在服务端训练卷积神经网络模型的过程为：

S201.获取人像分割数据集，所述人像分割数据集包括原始图像和掩码图像；

S202.对人像分割数据集中的原始图像进行格式处理，对掩码图像进行标签转换；

S203.根据需求比例，将人像分割数据集划分为训练集和验证集；

S204.确定训练平台，并将训练集和验证集的数据转换为训练平台要求的格式；

S205.将转换格式后的训练集和验证集输入卷积神经网络模型，对卷积神经网络模型进行训练。

在此，因为人像分割数据集中的原始图像格式不一致，掩码图像的标签也不一致，所以需要对原始图像进行格式处理，对掩码图像进行标签转换，需求比例也是根据实际的需求而定，另外由于训练集和验证集的数据与训练平台要求的格式不一定匹配，为了更高效的利用训练平台，需要将训练集和验证集的转换为训练平台要求的格式。

优选地，步骤S204所述的训练平台为Tensorflow或pytorch，步骤S205所述的训练采用已有预训练模型重训练或从头训练的方式，具体选用的训练方式是视具体实际情况而定的。

优选地，步骤S3所述的卷积神经网络模型部署在移动端的过程为：

S301.构建移动深度学习引擎文件；

S302.将服务端训练后的卷积神经网络模型转换为与移动深度学习引擎匹配的格式；

S303.将卷积神经网络模型量化；

S304.将未量化的原卷积神经网络模型及量化后的卷积神经网络模型加入移动端集成开发环境的目录；

S304.将移动深度学习引擎文件加入编程配置；

S305.调用移动深度学习引擎文件，结合自适应多级模型选择策略，使用本地或相机图片进行人像分割神经网络推断获取掩码，根据掩码和背景图片进行逐像素替换。

在此，构建移动深度学习引擎文件是为了后续移动端进行人像智能背景替换提供方法调用接口，构建的移动深度学习引擎文件适配不同的操作系统平台。将服务端训练后的卷积神经网络模型转换与移动深度学习引擎可处理的格式，不同的移动深度学习引擎有各自的转换规则，在模型转换结束后，考虑到移动端的存储空间限制，进行卷积神经网络模型的量化，最通用的做法是将卷积神经网络模型权重由float32转为int8，使得在损失较少准确率的同时极大减少模型的空间占用。

优选地，步骤S302所述的卷积神经网络模型转换过程包括编写配置文件及将配置文件进行代码处理，所述的配置文件中明确了服务端训练平台、卷积神经网络模型文件的路径、输入输出尺寸及规定运行移动端。

优选地，步骤S303所述的卷积神经网络模型量化的实现方式包括训练后量化及量化感知训练。

在此，具体选用的训练方式是视具体实际情况而定的，但各大移动深度学习引擎都支持这两种量化的实现方式。

优选地，步骤S305所述的自适应多级模型选择策略是对移动端设备的性能进行评估，并按优先级选取最优的卷积神经网络模型，自适应多级模型选择策略对卷积神经网络模型进行选取的依据维度包括移动端设备算力、卷积神经网络模型是否量化及卷积神经网络模型的新旧，移动设备算力优先级为：量化版CPU->浮点型的GPU->浮点型的CPU，新卷积神经网络模型的优先级高于旧卷积神经网络模型。

在此，考虑到各个移动端的算力存在差异，所以单一卷积神经网络模型无法适用所有设备，采用自适应多级模型选择策略对卷积神经网络模型进行选取，依据移动端的算力选择不同尺寸、类型的卷积神经网络模型，以最大化效能。

优选地，所述自适应多级模型选择策略包括：

A.读取由卷积神经网络模型组成的卷积神经网络模型列表；

B.遍历卷积神经网络模型列表；

C.判断读取的当前卷积神经网络模型是否存在量化形式，若是，选取当前卷积神经网络模型的CPU量化版，并结束遍历，否则执行步骤D；

D.判断GPU的可用性，若是，选取当前卷积神经网络模型浮点型的GPU版，否则，选取当前卷积神经网络模型浮点型的CPU版。

优选地，卷积神经网络模型在卷积神经网络模型列表里按被提出的时间顺序排列，位于列表前面的卷积神经网络模型比位于列表后面的卷积神经网络模型新。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于移动深度学习引擎的移动端人像智能背景替换方法，在服务端训练卷积神经网络模型，结合自适应多级模型选择策略，将卷积神经网络模型部署在移动端，实现人像智能背景替换，克服现有人像背景替换方法里采用C/S架构的技术，具有对网络通信依赖性强的弊端，本发明提出的方法在移动设备上就能实现背景替换的功能，解决了因网络因素导致的人像背景替换的处理效率和成功率低的问题；另外，在进行卷积神经网络模型移动端的部署时，结合了自适应多级模型选择策略，可以综合移动端设备、量化及模型新旧三种要素，达到根据用户设备差异有效选择最优模型的目的，提升用户使用体验。

附图说明

图1为本发明提出的基于移动深度学习引擎的的移动端人像智能背景替换方法的流程示意图。

图2为本发明实施例中在服务端训练卷积神经网络模型的流程示意图。

图3为本发明实施例中卷积神经网络模型部署在移动端的过程流程示意图。

图4为本发明提出的方法具体实施后的效果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示本发明提出的基于移动深度学习引擎的移动端人像智能背景替换方法的流程示意图，包括：

S1.选取待训练的卷积神经网络模型；待训练的卷积神经网络模型包括图像语义分割网络和主干网络，图像语义分割网络的选取标准为：图像语义分割网络的提出时间不超过两年；主干网络选取轻量级网络。

S2.在服务端训练卷积神经网络模型；具体过程参见图2，过程为：

S204.确定训练平台，并将训练集和验证集的数据转换为训练平台要求的格式，训练平台为Tensorflow或pytorch

S205.将转换格式后的训练集和验证集输入卷积神经网络模型，对卷积神经网络模型进行训练，训练采用已有的预训练模型重训练或从头训练的方式，具体选用的训练方式是视具体实际情况而定的。

S3.基于移动深度学习引擎，结合自适应多级模型选择策略，将卷积神经网络模型部署在移动端；卷积神经网络模型部署在移动端的过程参见图3，具体为：

S301.构建移动深度学习引擎文件；

S302.将服务端训练后的卷积神经网络模型转换为与移动深度学习引擎匹配的格式；卷积神经网络模型转换过程包括编写配置文件及将配置文件进行代码处理，所述的配置文件中明确了服务端训练平台、卷积神经网络模型文件的路径、输入输出尺寸及规定运行移动端。

S303.将卷积神经网络模型量化，包括训练后量化及量化感知训练，具体选用的训练方式是视具体实际情况而定的，但各大移动深度学习引擎都支持这两种量化的实现方式。

S304.将移动深度学习引擎文件加入编程配置；

S305.调用移动深度学习引擎文件，结合自适应多级模型选择策略，使用本地或相机图片进行人像分割神经网络推断获取掩码，根据掩码和背景图片进行逐像素替换，自适应多级模型选择策略是对移动端设备的性能进行评估，并按优先级选取最优的卷积神经网络模型，自适应多级模型选择策略对卷积神经网络模型进行选取的依据维度包括移动端设备算力、卷积神经网络模型是否量化及卷积神经网络模型的新旧，卷积神经网络模型在卷积神经网络模型列表里按被提出的时间顺序排列，位于列表前面的卷积神经网络模型比位于列表后面的卷积神经网络模型新，移动设备算力优先级为：量化版CPU->浮点型的GPU->浮点型的CPU，新卷积神经网络模型的优先级高于旧卷积神经网络模型。自适应多级模型选择策略包括：

A.读取由卷积神经网络模型组成的卷积神经网络模型列表；

B.遍历卷积神经网络模型列表；

在具体实施时，待训练的卷积神经网络模型使用图像语义分割网络DeepLab-v3+和轻量级网络MobileNet-v2/MobileNet-v3的组合，训练平台为Tensorflow，在其他具体实施时，视实际情况也可以选取pytorch训练平台，移动深度学习引擎选取MACE移动AI计算引擎，移动端操作系统选取Android，以上选择是综合考虑了卷积神经网络模型提出时间以及与移动深度学习引擎框架匹配度的结果，因为MACE提供了MobileNet-v2的手机性能检测接口，便于后续结合自适应多级模型选择策略，实现卷积神经网络模型的选择与其在移动端的部署。

人像分割数据集选取目前开源精度最高的SuperviselyPeople Dataset，由于该数据集原始图像格式不一致，存在jpeg格式和png格式，掩码图像的标签也不一致，同时图像尺寸过大。因此，对人像分割数据集进行以下格式处理：原始图像的格式均转为jpg；掩码图像的像素值全转为1；缩放到更小的尺寸；根据需求将人像分割数据集按4:1划分为训练集和验证集。针对Tensorflow平台，还需要将训练集和验证集的数据转为TFRecord格式，同时考虑到数据的内存占用，构建了Tensorflow管道模式的输入pipeline来提高文件读取效率以及CPU/GPU使用效率。然后，进行卷积神经网络模型的训练，这里采用预训练模型重训练方式，模型的输入尺寸设定为(1,513,513,3)，输出尺寸为(1,513,513,2)，单GPU训练。在得到训练后的卷积神经网络模型后，再将卷积神经网络模型和参数转为.pb格式。

构建移动深度学习引擎，与此同时会生成静态库和共享库，这里选择共享库，将服务端训练平台训练后的卷积神经网络模型转换为与移动深度学习引擎匹配的格式，编写yml配置文件，考虑到测试机的ABI，设置target_abis为[arm64-v8a]，同时将规定运行移动端设为cpu+gpu，将卷积神经网络模型转为MACE支持的.pb和.data格式，为了配合后续自适应模型多级模型选择策略的实施，通过MACE run来明确运行移动端设备的CPU性能卷积神经网络模型预估运行时长，然后考虑到通用性，采用训练后量化(post-trainingquantization)方式进行卷积神经网络模型的量化，将共享库及转换格式后的卷积神经网络模型载入AndroidStudio，按MobileNet-v3优先于MobileNet-v2的顺序排列模型列表并依次进行量化以及CPU/GPU的设备可用性的遍历判断，在此，由于MACE提供了GPU可用性的测试接口，可方便设备可用性的遍历判断，最后利用选择得出的最优卷积神经网络模型进行人像智能背景替换，具体实施效果图如图4所示。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，至少包括：

S1.选取待训练的卷积神经网络模型；

S2.在服务端训练卷积神经网络模型；在服务端训练卷积神经网络模型的过程为：

S205.将转换格式后的训练集和验证集输入卷积神经网络模型，对卷积神经网络模型进行训练；

S3.基于移动深度学习引擎，结合自适应多级模型选择策略，将卷积神经网络模型部署在移动端；卷积神经网络模型部署在移动端的过程为：

S301.构建移动深度学习引擎文件；

S303.将卷积神经网络模型量化；

S304.将移动深度学习引擎文件加入编程配置；

S305.调用移动深度学习引擎文件，结合自适应多级模型选择策略，使用本地或相机图片进行人像分割神经网络推断，获取掩码，根据掩码和背景图片进行逐像素替换；

2.根据权利要求1所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，步骤S1所述的待训练的卷积神经网络模型包括图像语义分割网络和主干网络，所述主干网络选取轻量级网络。

3.根据权利要求1所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，步骤S204所述的训练平台为Tensorflow或pytorch，步骤S205所述的训练采用已有预训练模型重训练或从头训练的方式。

4.根据权利要求1所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，步骤S302所述的卷积神经网络模型转换过程包括编写配置文件及将配置文件进行代码处理，所述的配置文件中明确了服务端训练平台、卷积神经网络模型文件的路径、输入输出尺寸及规定运行移动端。

5.根据权利要求1所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，步骤S303所述的卷积神经网络模型量化的实现方式包括训练后量化及量化感知训练。

6.根据权利要求1所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，步骤S305所述的自适应多级模型选择策略是对移动端设备的性能进行评估，并按优先级选取最优的卷积神经网络模型，自适应多级模型选择策略对卷积神经网络模型进行选取的依据维度包括移动端设备算力、卷积神经网络模型是否量化及卷积神经网络模型的新旧，移动设备算力优先级为：量化版CPU->浮点型的GPU->浮点型的CPU，新卷积神经网络模型的优先级高于旧卷积神经网络模型。

7.根据权利要求6所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，所述自适应多级模型选择策略包括：

A.读取由卷积神经网络模型组成的卷积神经网络模型列表；

B.遍历卷积神经网络模型列表；

8.根据权利要求7所述的基于移动深度学习引擎的移动端人像智能背景替换方法，其特征在于，卷积神经网络模型在卷积神经网络模型列表里按被提出的时间顺序排列，位于列表前面的卷积神经网络模型比位于列表后面的卷积神经网络模型新。