CN111462133A

CN111462133A - 一种实时视频人像分割的系统、方法、存储介质和设备

Info

Publication number: CN111462133A
Application number: CN202010241753.7A
Authority: CN
Inventors: 何东超
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111462133B

Abstract

本发明公开了一种实时视频人像分割的系统、方法、存储介质和设备，属于图像处理技术领域。通过获取实时视频图像并将调整后的视频图像输入训练好的卷积神经网络模型进行特征提取，并进行视频图像推断，得到人像分割图；所述卷积神经网络模型采用编码‑解码结构，编码网络利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征；解码网络通过融合模块进行特征融合重构，完成图像特征解码；采用双线性差值模块，将图像进行恢复，并利用交叉熵损失函数对进行视频图像推断，输出分割完毕的人像分割图。该方法所采用的卷积神经网络模型的参数少，运算速度快，从而能够快速地对视频图像进行实时人像分割，克服了现有方法分割速度慢的问题。

Description

一种实时视频人像分割的系统、方法、存储介质和设备

技术领域

本发明属于图像处理技术领域，具体涉及一种实时视频人像分割的系统、方法、存储介质和设备。

背景技术

人像分割技术是指将图像中的人像和背景分离的技术，随着技术的发展，人像分割技术广泛应用于摄影摄像、影视制作、视频监控等诸多领域，因此，出现了很多人像分割方法以满足不同领域对的需求。在视频领域，对于人像分割技术的要求非常高，因为相对于静态的图像，视频是动态的，是由连续的若干帧视频图像构成的，要从连续播放的视频图像中将人像分割出来，对于技术的要求非常高，因此在视频领域进行人像背景分离是十分困难的。其中，一方面是受制于速度，因为在视频播放的过程中，要进行实时分割，至少需要达到跟视频播放同样的帧率，这样才不会有卡顿的现象；另一方面，对分割精度也有一定的要求，太粗糙的话，对后续的处理会产生很大的不良效果，如对背景虚化或者背景替换，就需要对精度有较高的要求。

随着人工智能和图像处理技术的发展，提出了很多将人工智能的方法应用到人像分割技术中，以实现快速准确地将图像中的人像和背景分离，尤其是将神经网络方法，应用到人像分割技术中，极大地提高了人像分割技术的速度和精度。例如申请号为201811333344.9的中国专利公开了一种人像分割方法，该方法对原始图像进行预处理，获得待处理图像利用训练好的人像分割模型对待处理图像进行处理，获得人像分割模型输出的人像分割掩膜，人像分割模型包括编码器以及与编码器连接的解码器，编码器用于利用普通卷积、深度可分离卷积以及带洞卷积提取待处理图像的图像特征，解码器用于根据图像特征生成人像分割掩膜；根据人像分割掩膜从原始图像中分割出人像。然而，该方法在进行人像分割的过程中，需要对原始图像进行预处理，然后通过卷积神经网络模型进行人像分割，并且所采用的卷积神经网络结构复杂，因此极大地降低了人像分割的速度，需要性能较好的设备才能达到较好的图像分割效果，尤其是针对视频图像的分割，因此该方法应用到视频图像实时视频人像分割时，很难满足速度上的要求。

发明内容

技术问题：本发明提供一种实时视频人像分割的系统、方法、存储介质和设备，利用基于深度可分离卷积和空洞卷积搭建的卷积神经网络模型，能够快速高效地对视频人像进行实时分割，解决了实时视频人像分割时，速度慢的问题。

技术方案：本发明的实时视频人像分割的系统，包括：

图像采集模块，用于采集实时视频图像；

图像处理模块，用于对视频图像进行实时视频人像分割，所述图像处理模块采用卷积神经网络模型对视频图像进行神经网络推理，进行特征提取，并进行视频图像推断，得到人像分割图；

所述卷积神经网络模型包括编码网络和与编码网络连接的解码网络，所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块，所述通用编码模块利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征；所述解码网络包括若干个依次连接的融合模块，通过融合模块将编码网络中的两个通用编码模块的输出进行融合重构，或将解码模块的输出与通用编码模块的输出进行融合重构，完成图像特征解码；采用双线性差值模块，将图像恢复到与输入图像相同大小。

进一步地，所述的卷积神经网络模型的网络结构：

编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7；

解码网络：包括依次连接的第一融合模块、第二融合模块和双线性差值模块UP2，所述第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合和重构；所述第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合和重构；双线性差值模块UP2将第二融合模块输出的图像特征放大。

进一步地，所述通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。

进一步地，所述融合模块包括两个网络分支：

第一网络分支：包括依次连接的双线性差值模块、空洞卷积层D2、批标准化层B1；

第二网络分支：包括依次连接的标准卷积层C3、批标准化层B2；

第一网络分支和第二网络分支通过add层进行融合连接，得到所述融合模块。

进一步地，所述编码网络的各个解码模块的网络层的参数为：

标准编码模块M1：包括一个标准卷积层，卷积核大小为3×3，通道数为3；

第一通用编码模块GM1：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为2；的标准卷积层C2的卷积核大小为1×1，通道数为16；

第二通用编码模块GM2：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为2；的标准卷积层C2的卷积核大小为1×1，通道数为24；

第三通用编码模块GM3：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为2；的标准卷积层C2的卷积核大小为1×1，通道数为44；

第四通用编码模块GM4：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为2；的标准卷积层C2的卷积核大小为1×1，通道数为24；

第五通用编码模块GM5：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为4；的标准卷积层C2的卷积核大小为1×1，通道数为80；

第六通用编码模块GM6：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为4；的标准卷积层C2的卷积核大小为1×1，通道数为120；

第七通用编码模块GM7：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为4；的标准卷积层C2的卷积核大小为1×1，通道数为120。

进一步地，采用交叉熵损失函数进行视频图像推断。

本发明的实时视频人像分割的方法，采用所述的实时视频人像分割的系统进行实时视频人像分割，包括：

利用视频采集模块，获取实时视频图像；

将视频图像输入图像处理模块，利用卷积神经网络进行神经网络推理，视频图像依次通过编码网络的标准编码模块和若干个通用编码模块，进行编码，完成特征提取，然后进入解码网络，通过依次连接的若干融合模块，进行特征融合重构，完成图像特征解码；采用双线性差值模块，将图像恢复到与输入图像相同大小，然后利用交叉熵损失函数进行视频推断，并输出分割完毕的人像分割图。

进一步地，所述的卷积神经网络模型的训练过程如下：

S1：对COCO数据集进行数据清洗，筛选出该COCO数据集中包括人像的图像样本，并筛选人像区域面积占整个图像1/10以上的图像样本作为训练样本，构建样本数据集；

S2：将步骤S1得到的样本数据集进行预处理，将样本数据集中的图像样本进行数据增广，包括随机水平翻转、随机旋转、随机裁剪；

S3：采用经过步骤S2处理后的样本数据集对卷积神经网络模型进行训练，在进行卷积神经网络模型训练时，将初始学习率设置为0.001，并采用Adam作为优化器，损失函数采用交叉熵损失函数，并保存训练好的模型权值文件。

本发明的存储介质，存储所述的实时视频人像分割的系统的计算机指令，以及所述的实时视频人像分割的系统方法的计算机指令。

本发明的设备，采用所述的实时视频人像分割的系统进行实时视频人像分割。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明采用卷积神经网络模型，对视频图像进行神经网络推理，完成特征图像提取，然后进行视频图像推断，最终得到人像分割图。本发明的卷积神经网络模型，采用编码-解码网络，采用深度可分离卷积和空洞卷积构建编码模块，极大地减少了卷积神经网络模型的参数量，从而提高了卷积神经网络模型的运算速度，从而快速地将视频图像中人像快速地实时分割出来，有效地克服了现有技术中，人像分割速度慢，难以满足视频人像实时分割需求的问题。

(2)本发明在训练卷积神经网络模型时，通过对COCO数据集进行数据筛选冲洗，只筛选包括人像的图像样本来构建样本训练集，并用于卷积神经网络模型训练，使得本发明的卷积神经网络模型具有更好的处理效果。

附图说明

图1为本发明的实时人像分割的系统的流程图；

图2为本发明的通用编码模块的网络结构图；

图3为本发明的融合模块的网络结构图；

图4为本发明的卷积神经网络模型的网络结构图；

图5为本发明的实施例中视频图像的原图；

图6为本发明的实施例中视频图像分割后的效果图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

在本发明的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性，此外，需要说明的是，除非另有明确的规定或限定，术语“连接”、“相连”等词应作广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明的实时视频人像分割的系统，包括图像采集模块，用于实时采集视频图像；图像处理模块，用于对视频图像进行实时视频人像分割，所述图像处理模块采用卷积神经网络模型对视频图像进行神经网络推理，进行特征提取，并进行视频图像推断，得到人像分割图。

本发明的卷积神经网络模型包括编码网络和与编码网络连接的解码网络，其中编码网络包括依次连接的一个标准编码模块和若干个通用编码模块，所述通用编码模块利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征。所述解码网络包括若干个依次连接的融合模块，通过融合模块将编码网络中的两个通用编码模块的输出进行融合，或将融合模块的输出与一个通用编码模块的输出进行融合，完成图像特征解码，并采用双线性差值模块，对图像进行放大操作，将图像恢复到输入图像的大小，经视频推断后，输出分割完毕的人像特征图。

标准编码模块和通用编码模块的目的是对视频图像进行编码，完成图像特征提取。标准编码模块包括依次连接的若干个标准卷积层，例如，在本发明的实施例中，标准编码模块只包括一个标准卷积层。

如图2所示，通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。当卷积神经网络模型包括多个通用编码模块时，各通用编码模块的深度可分离卷积层DW1的步长是可变的，并且空洞卷积层D1的空洞率也可根据需要进行调整。通用编码模块采用这样的网络结构，是为了尽可能的压缩网络的参数数量，深度可分离卷积相较于标准卷积，参数数量有效地减少，增加空洞卷积，能够使网络获得更大的感受野，通过增大感受野，可以有效地提高视频图像的分割效果。

解码网络是将编码网络输出的人像特征图进行解码，从而输出分割完毕的图像。在本发明的解码网络中，通过依次连接的若干个融合模块对图像特征进行融合，实现特征图像解码。本发明的实施例中，如图3所示，融合模块包括两个网络分支：

第一网络分支：依次连接的双线性差值模块UP1、空洞卷积层D2、批标准化层B1；在本发明的实施例中，双线性差值模块UP1采用2倍双线性差值；

第二网络分支：依次连接的标准卷积层C3、批标准化层B2；

融合模块能够将编码网络中的两个通用编码模块的输出进行融合，并进行特种重构，或将融合模块的输出与通用编码模块的输出进行融合，并进行特征重构，完成图像特征解码，并采用双线性差值模块，对特征图像进行放大，将图像恢复到输入图像大小，输出分割完毕的人像分割图。

在本发明的优选的实施例中，卷积神经网络模型的网络结构如图4所示，编码网络包括一个标准编码模块和7个通用编码模块，具体为：包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。

解码网络包括两个融合模块和一个双线性差值模块，具体为：依次连接的第一融合模块、第二融合模块和双线性差值模块UP2。所述第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合解码，在具体的网络中，第三通用编码模块GM3的输出与第一融合模块的第一网络分支连接。所述第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合解码，在具体的网络结构中，第一通用编码模块GM1的输出与第二融合模块的第一网络分支连接，第一融合模块的输出与第一融合模块的第二网络分支连接。第二融合模块与双线性差值模块UP2连接，从第二融合模块输出的特征图像经双线性差值模块UP2放大，经推断后，输出分割后图像。在本发明的实施例中双线性差值模块UP2采用4倍双线性差值。

具体的，本发明的实施例中，卷积神经网络模型的编码网络的各模块的网络层的参数为：

标准编码模块M1：包括一个标准卷积层，该标准卷积层的卷积核大小为3×3，步长为2，通道数为3。

第一通用编码模块GM1：标准卷积层C1卷积核大小为3×3，步长为1；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为2；标准卷积层C2的卷积核大小为1×1，通道数为16。

第二通用编码模块GM2：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为2；标准卷积层C2的卷积核大小为1×1，通道数为24。

第三通用编码模块GM3：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为2；标准卷积层C2的卷积核大小为1×1，通道数为44。

第四通用编码模块GM4：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为2；标准卷积层C2的卷积核大小为1×1，通道数为24。

第五通用编码模块GM5：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为2；空洞卷积层D1的卷积核大小为3×3，空洞率为4；标准卷积层C2的卷积核大小为1×1，通道数为80。

第六通用编码模块GM6：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为4；标准卷积层C2的卷积核大小为1×1，通道数为120。

第七通用编码模块GM7：标准卷积层C1卷积核大小为3×3；深度可分离卷积层DW1的卷积核大小为3×3，步长为1；空洞卷积层D1的卷积核大小为3×3，空洞率为4；标准卷积层C2的卷积核大小为1×1，通道数为120。

解码网络中，融合模块的结构是相同的，其中双线性差值模块UP1采用2倍双线性差值，空洞卷积层D2的卷积核大小为3，空洞率为1标准卷积层C3的卷积核大小为1×1，步长为1。

应该说明的是，上述参数，是本发明的实施例中优选的参数，对于未给出的参数，本领域技术人员可以根据需求进行调整。值得说明的是，在本发明的实施过程中，神经网络模型中所有的卷积层，包括标准卷积层、空洞卷积层、深度可分离卷积层后都会默认的采用一个批标准化层对卷积层的输出进行标准化，并采用Relu函数进行激活，并且对于未特殊说明的，卷积层的步长默认为1。

此外，本发明的神经网络的输出时采用交叉熵损失函数，用来对图像特征进行推断，判断图像的每个像素是否属于人像，从而最终得出人像分割图。

基于本发明的实时人像分割的系统，可以利用该系统，进行实时人像分割，具体方法为：利用视频采集模块，获取实时视频图像；将视频图像输入图像处理模块，利用卷积神经网络进行神经网络推理，视频图像依次通过编码网络的标准编码模块和若干个通用编码模块，进行编码，完成特征提取，然后进入解码网络，通过依次连接的若干融合模块，进行特征融合重构，完成图像特征解码；采用双线性差值模块，将图像恢复到与输入图像相同大小，然后利用交叉熵损失函数进行视频推断，并输出分割完毕的人像分割图。

更具体地，在本发明的实施例中，视频图像进入图像处理模块后，依次通过标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合解码，第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合解码，第二融合模块输出的特征图像经双线性差值模块UP2进行4倍放大，经推断后，然后输出分割后图像。

在利用本发明的系统进行实时人像分割时，在将视频图像输入图像处理模块前，需对卷积神经网络模型进行训练，以便得到参数最优的卷积神经网络模型，在训练卷积神经网络模型时，具体的训练过程如下：

S1：构建样本数据集

本发明中，采用COCO数据集作为原始数据集，然后对COCO数据集进行数据清洗，具体地，筛选出COCO数据集中包括人像的图像样本，然后从包括人像的图像样本中做进一步筛选，选择人像区域面积占整个图像1/10以上的图像样本作为训练样本，构建本发明用于训练卷积神经网络的样本训练集。在本发明的实施例中，共筛选了60000张样本图像构建本发明的样本数据集。

S2：数据样本预处理

将步骤S1建立的样本数据集中的图像样本进行预处理，对样本数据集中的图像样本进行数据增广，包括随机水平翻转、随机旋转、随机裁剪等操作。

S3：训练卷积神经网络模型

采用经过步骤S2处理后的图像样本对搭建的卷积神经网络模型进行训练，本发明在训练过程中，将初始学习率设置为0.001，并采用Adam作为优化器，损失函数采用交叉熵损失函数。

说明的是，在对神经网络模型进行训练时，为了能够监控网络训练，在第七通用编码模块后可引入交叉熵损失函数作为辅助函数。在本发明的实施例中，卷积神经网络模型在进过200000次迭代后，模型收敛，将训练好的模型权值文件保存，可用于部署在硬件设备上。

将本发明与现有技术进行比较，现有技术中，应用于嵌入式设备的特征分割网络主要为MobileNet V2，将本发明方法与MobileNet V2对比，在模型参数上，本发明的卷积神经网络模型的参数量约为MobileNet V2的1/10，对同一张图像进行人像分割时，本发明的方法在速度上约为MobileNet V2的7倍，因此，本发明的方法，具有更快的速度，更高的效率，更适用于实时视频人像的提取，更适用于视频图像实时人像分割。进一步地，图5和图6分别给出了采用本发明进行实时视频人像分割时，图像的原图和分割效果图，从图6中可以看出，采用本发明进行实时视频人像分割时，分割的效果图过渡比较流畅自然，分割效果较好。因此可以看出，本发明不仅能够较高质量的对视频图像进行分割，同时具有较快的速度，满足视频图像实时分割的需求。

本发明还提供了一种存储介质，该存储介质能够存储用于执行所述的实时视频人像分割的方法的计算机指令，运行所述计算机指令，能够执行相应的运算操作，完成实时视频人像分割。

此外，本发明还提供一种电子设备，该电子设备包括视频图像采集模块，用于实时采集视频图像；图像处理模块，采用卷积神经网络模型，将所述视频图像采集模块采集的图像进行处理，并输出分割后的人像特征图；显示模块，将分割后的人像特征图显示。

综上，本发明采用卷积神经网络模型对视频图像进行特征提取，并进行视频图像推断，完成视频图像实时分割，输出人像分割图，所采用的卷积神经网络型采用编码-解码结构，利用深度可分离卷积和空洞卷积，降低了卷积神经网络模型的参数量，提高了卷积神经网络模型的速度，从而极大地提高了实时视频人像的分割效率，更能适用于各领域对人像分割技术的需求。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种实时视频人像分割的系统，其特征在于，包括：

图像采集模块，用于采集实时视频图像；

2.根据权利要求1所述的一种实时视频人像分割的系统，其特征在于，所述的卷积神经网络模型的网络结构：

3.根据权利要求2所述的一种实时视频人像分割的系统，其特征在于，所述通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。

4.根据权利要求3所述的一种实时视频人像分割的系统，其特征在于，所述融合模块包括两个网络分支：

5.根据权利要求4所述的一种实时视频人像分割的方法，其特征在于，所述编码网络的各个解码模块的网络层的参数为：

6.根据权利要求1-5任一项所述的一种实时视频人像分割的系统，其特征在于，采用交叉熵损失函数进行视频图像推断。

7.一种实时视频人像分割的方法，其特征在于，采用权利要求1-6任一项所述的实时视频人像分割的系统进行实时视频人像分割，包括：

利用视频采集模块，获取实时视频图像；

8.根据权利要求7所述的一种实时视频人像分割的方法，其特征在于，所述的卷积神经网络模型的训练过程如下：

9.一种存储介质，其特征在于，存储权利要求1～6任一项所述的实时视频人像分割的系统的计算机指令，以及权利要求7～8任一项所述的实时视频人像分割的系统方法的计算机指令。

10.一种设备，其特征在于，采用权利要求要求1～6任一项所述的实时视频人像分割的系统进行实时视频人像分割。