CN111524060B

CN111524060B - 一种实时人像背景虚化的系统、方法、存储介质和设备

Info

Publication number: CN111524060B
Application number: CN202010241740.XA
Authority: CN
Inventors: 何东超
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-04-14
Anticipated expiration: 2040-03-31
Also published as: CN111524060A

Abstract

本发明公开了一种实时人像背景虚化的系统、方法、存储介质和设备，属于图像处理技术领域。本发明通过实时采集视频图像并将视频图像输入训练好的卷积神经网络模型进行神经网络推理，对视频图像进行特征提取，并输出图像的概率值图；通过卷积神经网络模型得到概率值图以后，对概率值图进行概率判断，判断图中是否存在人像区域，如果存在人像区域，则进行人像提取、腐蚀与膨胀、高斯模糊操作，得到人像背景虚化后的图像；如果不存在人像区域，则进行如下操作：采用高斯模糊算法，将原图直接进行模糊处理，得到全部虚化的图像。本发明能够快速地对视频图像进行实施人像背景虚化，并且能够利用一个摄像头即能完成，有效地降低了成本。

Description

一种实时人像背景虚化的系统、方法、存储介质和设备

技术领域

本发明属于图像处理技术领域，具体涉及一种实时人像背景虚化的系统、方法、存储介质和设备。

背景技术

背景虚化是指除人像外的所有物体都算作背景，并对它进行模糊处理，人像背景虚化就是以人为前景，其他区域为背景，将除人像外的其他区域全部虚化。随着技术等的发展，背景虚化技术广泛的应用于诸多领域，例如影视制作、视频会议等，例如在视频会议的领域，通过将人像背景虚化，能够起到有效地保护个人隐私的作用。当前的视频背景虚化方法主要有两种，一是利用双摄像头的位置信息计算成像的景深，结合后续算法来进行背景虚化，这种方式虽然得的效果较好，但是成本较高；二是利用单摄像头进行虚化，但是这种方法得到的效果往往存在缺陷，难以满足人们的需求。但由于双摄的成本较高，并且多数电子设备依然为单摄，利用单摄像头进行视频背景虚化，一个很重要问题就是图像虚化的速度，同时还要保证具有较好的虚化效果。视频是由连续的若干帧图像，但进行图像背景虚化时，对单帧图像进行处理的，因此对图像背景虚化处理是必须尽可能快速地对单帧图像进行背景虚化。

现有技术中，也提出了一些解决方案，例如发明创造名称为：基于深度图的图像虚化方法及装置(申请日：2017年9月4日；申请号：2017107884312)，该方案公开了一种基于深度图的图像虚化方法及装置，所述基于深度图的图像虚化方法包括：获得原图对应的深度图和人像轮廓图；以人像轮廓图为模板对深度图的人像轮廓进行优化处理；以进行优化处理后的深度图为虚化系数对原图进行背景虚化处理；根据人像轮廓图对原图的人像区域和进行背景虚化处理后的原图进行融合处理。该方法虽然能够对图像进行背景虚化，但是很难满足视频图像处理时需要快速完成背景虚化的需求，主要是背景虚化的速度难以达到要求。此外，现有技术中，有很多较为流行的神经网络模型，用于图像处理，并能较好的用于嵌入式设备，例如MobileNet V2、DeepLab v3等，但这些神经网络的参数量非常大，因此在应用这些方法时，图像的处理速度仍然受到很大限制。因此，综上分析，现有技术中的方法，对于人像背景虚化的速度相对较慢，难以满足要求。

发明内容

技术问题：本发明提供一种实时人像背景虚化的系统、方法、存储介质和设备，利用卷积神经网络对视频图像进行特征提取，并利用抠图算法、腐蚀膨胀、高斯模糊进行背景模糊，能够快速地对视频图像进行实时背景虚化，从而能够利用单摄像头快速地完成视频图像的实时背景虚化。

技术方案：本发明实时人像背景虚化的系统，包括：

视频图像采集模块，用于实时采集视频图像；

图像虚化处理模块，包括前处理模块、图像判断模块、后处理模块，所述前处理模块利用卷积神经网络模型对视频图像进行编码和解码，对视频图像进行特征提取，并输出视频图像的概率值图；所述图像判断模块用于对所述概率值图进行概率判断，判断概率值图中是否含有人像特征；后处理模块根据图像判断模块的判断结果，对概率值图进行不同虚化处理，并输出虚化后的视频图像；

当所述图像判断模块判断概率值图中是含有人像特征中时，后处理模块对概率值图依次进行人像提取、腐蚀膨胀、高斯模糊操作，并输出人像背景虚化后的视频图像；当所述图像判断模块判断概率值图中不含人像特征中时，后处理模块对概率值图直接进行高斯模糊，并输出全部虚化的视频图像。

进一步地，所述前处理模块采用的卷积神经网络模型包括编码网络和与编码网络连接的解码网络，所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块；所述标准编码模块包括依次连接的若干个标准卷积层；

所述解码网络包括若干个双线性差值模块和若干个标准卷积层，利用标准卷积层进行特征融合并利用双线性差值模块进行放大，从而对图像进行解码。

进一步地，所述编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7；

所述解码网络包括依次连接的第一双线性差值模块UP1、标准卷积层C1、第二双线性差值模块UP2、标准卷积层C2、第三双线性差值模块UP3；所述第七通用编码模块GM7连接第一双线性差值模块UP1，第三通用编码模块GM3与标准卷积层C1连接，标准编码模块M1与标准卷积层C2连接，第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入，第三通用编码模块GM3的输出与标准卷积层C1的输出融合作为第二双线性差值模块UP2的输入，标准编码模块M1的输出与第二双线性差值模块UP2的输出融合作为第三双线性差值模块UP3的输入；

所述解码网络后还依次连接有标准卷积层C3和softmax层，通过标准卷积层C3调整图像通道数，并利用softmax层进行概率判断，输出概率值图。

进一步地，所述通用编码模块包括并联的至少两个子编码模块，所述至少两个子编码模块的输出采concat层融合连接，concat层连接一个标准卷积层C4进行数据输出；

每个子编码模块包括依次连接的标准卷积层、深度可分离卷积层、空洞卷积层。

进一步地，所述通用编码模块包括两个子编码模块，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；

所述第二子编码模块包括依次连接的标准卷积层C12、深度可分离卷积层DW12、空洞卷积层D13。

进一步地，所述编码网络的各个模块的具体参数如下：

标准编码模块M1：包括一个标准卷积层，卷积核大小为3×3，步长为2，通道数为16；

第一通用编码模块GM1：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为24；

第二通用编码模块GM2：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为40；

第三通用编码模块GM3：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80；

第四通用编码模块GM4：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80；

第五通用编码模块GM5：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80；

第六通用编码模块GM6：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为120；

第七通用编码模块GM7：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为120；

第一双线性差值模块UP1采用2倍双线性差值；第二双线性差值模块UP2采用4倍双线性差值；第三双线性差值模块UP3采用2倍双线性差值；

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C3的卷积核大小为3×3，步长为1，通道数为2。

本发明的实时人像背景虚化的方法，采用上述所述的实时人像背景虚化的系统进行实时人像背景虚化，包括：

利用视频图像采集模块，实时采集视频图像；

将视频图像输入图像虚化处理模块中，依次进行如下操作：

首先，进入前处理模块，利用卷积神经网络模型进行神经网络推理，对视频图像进行特征提取，并输出图像的概率值图；

然后进入图像判断模块对概率值图进行概率判断，当判断概率图中是否存在人像区域，如果存在人像区域，输入后处理模块执行如下操作：采用抠图算法，将所述概率值图与输入的视频图像的每个像素点相乘，提取得到人像提取图；对人像提取图进行腐蚀与膨胀操作，得到更加精确的人像提取图；采用高斯模糊算法，将整个原图像进行模糊处理，并将人像提取图与经过模糊处理后的图像进行叠加合成，得到人像背景虚化后的图像；当判断概率值中如果不存在人像区域，则进行如下操作：采用高斯模糊算法，将原图直接进行模糊处理，得到全部虚化的图像。

进一步地，利用卷积神经网络模型进行神经网络推理前，需要对卷积神经网络模型进行训练，具体训练过程包括以下步骤：

S1：对COCO数据集进行数据清洗，筛选出COCO数据集中若干包括人像的图像样本作为训练样本，构建样本数据集；

S2：对步骤S1得到的样本数据集进行预处理，将图像样本归一化处理，将图像的每个像素除以256，使得像素值处于0～1之间；对图像样本进行增广，包括随机旋转、随机增加或减少亮度、随机水平翻转及剪裁；

S3：将经过步骤S2处理后的样本数据集输入卷积神经网路模型中对模型进行训练，采用初始学习率为0.0001，采用Adam优化器，采用softmax函数作为损失函数，并将训练好的模型权值文件保存。

本发明的存储介质，存储所述的实时人像背景虚化的系统的计算机程序指令，以及所述的实时人像背景虚化的方法的计算机程序指令。

本发明的设备，所述的实时人像背景虚化的系统进行实时人像背景虚化。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明利用卷积神经网络模型生成概率值图，对视频图像进行前处理，然后利用抠图算法、腐蚀膨胀、高斯模糊等操作进行后处理，从而将人像背景虚化。所搭建的卷积神经网络模型，采用编码-解码结构，利用深度可分离卷积、空洞卷积对视频图像中的人像特征进行提取，有效地降低了卷积神经网络模型的参数量，大大降低了计算量，提高了推理速度，减少了资源占用，从而有效地提高了人像背景虚化的速度，更加适用于视频图像的人像背景虚化。后处理过程中，采用的抠图算法、腐蚀膨胀、高斯模糊等操作，保证了所得背景虚化图像的质量，从而更加满足技术需求。

(2)本发明在训练卷积神经网络时，通过对COCO数据集进行数据筛选冲洗，只筛选包括人像的图像样本来构建样本训练集，并用于卷积神经网络模型训练，使得本发明的卷积神经网络模型具有更好的处理效果。

(3)本发明不用产生深度图，因此不需要利用摄像头产生深度图，利用一个摄像头即能实现人像的背景虚化，因此有效地降低了成本。

附图说明

图1为本发明的实时人像背景虚化的系统的流程图；

图2为本发明的卷积神经网络模型的网络结构图；

图3为本发明的通用编码模块的网络结构图；

图4为本发明的实施例中视频图像的原图；

图5为本发明的实施例中的人像提取图；

图6为本发明的实施例中的人像背景虚化后的效果图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

在本发明的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性，此外，需要说明的是，除非另有明确的规定或限定，术语“连接”、“相连”等词应作广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

结合图1所示，本发明的实时人像背景虚化的系统，包括视频图像采集模块，用于实时采集视频图像；视频图像采集模块在采集视频图像时，利用一个摄像头即能完成。图像虚化处理模块，包括前处理模块、图像判断模块、后处理模块，所述前处理模块利用卷积神经网络模型络模型对视频图像进行编码和解码，对视频图像进行特征提取，并输出视频图像的概率值图；所述图像判断模块用于对所述概率值图进行概率判断，判断概率值图中是否含有人像特征；后处理模块根据图像判断模块的判断结果，对概率值图进行不同虚化处理，并输出虚化后的视频图像；当所述图像判断模块判断概率值图中是含有人像特征中时，后处理模块对概率值图依次进行人像提取、腐蚀膨胀、高斯模糊操作，并输出人像背景虚化后的视频图像；当所述图像判断模块判断概率值图中不含人像特征中时，后处理模块对概率值图直接进行高斯模糊，并输出全部虚化的视频图像。

本发明通过卷积神经网络输出概率值图，具有较好的连续性，因而使得人像与背景之间过渡更加自然，从而会是得最终得到的图像更加自然。

本发明所采用的卷积神经网络模型采用编码-解码的网络结构进行构建，卷积神经网络模型包括编码网络和与编码网络连接的解码网络，所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块；并且所述标准编码模块包括依次连接的若干个标准卷积层。视频图像经过标准编码模块和若干个通用编码模块后，能够完成特征提取。

具体的，在本发明的实施例中，卷积神经网络模型结构如图2所示，具体结构为：编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。

解码网络包括依次连接的第一双线性差值模块UP1、标准卷积层C1、第二双线性差值模块UP2、标准卷积层C2、第三双线性差值模块UP3；所述第七通用编码模块GM7连接第一双线性差值模块UP1，第三通用编码模块GM3与标准卷积层C1连接，标准编码模块M1与标准卷积层C2连接，第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入，第三通用编码模块GM3的输出与标准卷积层C1的输出融合作为第二双线性差值模块UP2的输入，标准编码模块M1的输出与第二双线性差值模块UP2的输出融合作为第三双线性差值模块UP3的输入。

所述解码网络后还依次连接有标准卷积层C3和softmax层，通过标准卷积层C3调整图像通道数，并利用softmax层进行概率判定，输出概率值图。

在采用softmax函数进行概率判定时，概率值在0-1之间，越接近0，则说明对应的像素点是背景的可能性较大，越接近1，则说明像素点是人像的可能性较大。

本发明的通用编码模块并联的至少两个子编码模块，所述至少两个子编码模块的输出采concat层融合连接，concat层连接一个标准卷积层C4进行数据输出；每个子编码模块包括依次连接的标准卷积层、深度可分离卷积层、空洞卷积层。利用深度可分离卷积可以有效的降低网络的参数，从而提高神经网络的运算速度，利用空洞卷积，可以使神经网络获取更大的感受野，从而提高特征提取效果。

具体的，在本发明的实施例中，通用编码模块包括两个子编码模块，如图3所示，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；所述第二子编码模块包括依次连接的标准卷积层C12、深度可分离卷积层DW12、空洞卷积层D13。

进一步地，在本发明的实施例中，各模块中的网络层的参数为：

标准编码模块M1：包括一个标准卷积层，该标准卷积层的卷积核大小为3×3，步长为2，通道数为16。

第一通用编码模块GM1：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为24。

第二通用编码模块GM2：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为40。

第三通用编码模块GM3：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80。

第四通用编码模块GM4：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80。

第五通用编码模块GM5：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为80。

第六通用编码模块GM6：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为120。

第七通用编码模块GM7：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的卷积核大小为1×1，通道数为120。

第一双线性差值模块UP1采用2倍双线性差值；第二双线性差值模块UP2采用4倍双线性差值；第三双线性差值模块UP3采用2倍双线性差值。

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为40。

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40。

标准卷积层C3的卷积核大小为3×3，步长为1，通道数为2。

说明的是，以上给出了本发明的实施例中搭建的卷积神经网络模型中各网络层重要的参数，对于未给出的，并不影响神经网络模型的效果，例如调整标准卷积层C4和C3的步长等，并且上述调整可认为是本领域技术人员的常用手段。值得说明的是，在本发明的实施过程中，神经网络模型中所有的卷积层，包括标准卷积层、空洞卷积层、深度可分离卷积层后都会默认的采用一个批标准化层对卷积层的输出进行标准化，并采用Relu函数进行激活，并且对于未特殊说明的，卷积层的步长默认为1。

本发明的实时人像背景虚化的系统的后处理模块，在进行人像提取时，采用抠图算法，所述抠图算法为：

I_i＝a_iF_i+(1-a_i)B_i

式中，I_i表示当前图像或视频的当前帧，F_i表示前景，本发明中指人像，B_i表示背景，本发明中指非人像区域，a_i表示该像素点属于前景的概率值，1-a_i表示该像素点属于背景的概率值，i表示像素点的序号。采用抠图算法，将概率值图与原图的每个像素点乘，即得到人像提取图。

进行膨胀腐蚀操作时为了得到更好的人像提取图，由于人像提取阶段虽然能够较为自然的进行过度，但是有些部分是不想要的，有些部分是我们想要它却由于概率值较低而被舍弃掉，这就需要我们应用腐蚀膨胀操作进行适当的修饰，以达到更佳的效果。

通过膨胀腐蚀操作后，得到了更为精准的人像提取图，采用快速高斯模糊算法进行背景虚化，在具体操作中，先将整张图像全部模糊得到模糊的全图像，然后把人像提取图和模糊的群图像进行叠加合成，最终得到虚化后的图像。

基于本发明的实时人像背景虚化的系统，给出了采用该系统进行实时人像背景虚化的方法，同样结合图1所示，本发明的实时人像背景虚化的方法，利用视频图像采集模块，实时采集视频图像；将视频图像输入图像虚化处理模块中，依次进行如下操作：首先，进入前处理模块，利用卷积神经网络模型进行神经网络推理，对视频图像进行特征提取，并输出图像的概率值图。具体地，在本发明的实施例中，视频图像依次通过标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7、第一双线性差值模块UP1、标准卷积层C1、第二双线性差值模块UP2、标准卷积层C2、第三双线性差值模块UP3；第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入，第三通用编码模块GM3的输出与标准卷积层C1的输出融合作为第二双线性差值模块UP2的输入，标准编码模块M1的输出与第二双线性差值模块UP2的输出融合作为第三双线性差值模块UP3的输入，然后经过标准卷积层C3和softmax层，通过标准卷积层C3调整图像通道数，并利用softmax层进行概率判定，输出概率值图。

采用本发明的系统进行人像背景虚化时，为了保证虚化的效果，需对神经网络模型进行训练，视频图像采集模块采集的图像，需输入到训练好的卷积神经网络模型进行推理，才能得到最好的虚化效果，在利用卷积神经网络模型进行神经网络推理前，需要对卷积神经网络模型进行训练，训练卷积神经模型的步骤如下：

S1：构建样本数据集

采用COCO数据集，对COCO数据集进行筛选，选择COCO数据集中若干包含人像的图像样本构建样本数据集。在本发明的实施例中，共从COCO数据集中筛选出71181张包含人像的图像样本，构建了用于本发明的训练卷集神经网络模型的样本数据集。因为COCO数据集中包括了大量的图像样本，只筛选包含人像的图像样本，能够有效提高样本数据集的实用性，从而提高卷积神经网络模型的训练速度，使得训练出的卷积神经网络模型具有更高的准确性，从而使得训练出的卷积神经网络模型具有更好的效果。

S2：数据预处理

对步骤S1建立的样本数据集中的图像样本进行预处理，将图像样本归一化，并对图像样本进行增广，包括随机旋转、随机增加或减少亮度、随机水平翻转及剪裁。在本发明的实施例中，为将样本数据集中的图像样本进行归一化，将图像样本的每个像素都除以256，使所有的像素值都在0-1之间，对图像样本进行归一化操作，使得卷积神经网络能够更快的收敛，从而节省模型的训练时间。

此外，对样本数据集中的图像样本进行增广处理，在本发明的实施例中，对图像样本进行增广时，随机旋转15°、亮度随机增加或减少50％，并进行随机水平翻转和剪裁。通过对图像样本进行增广，使得卷积神经网络模型具有更好的泛化能力。

S3：训练模型

将经过步骤S2处理后的样本数据集输入卷积神经网路模型中对模型进行训练，在本发明的实施例中，在对模型训练时，网络模型的输入为像素384×384的图像，如样本大于384×384分辨率，则随机裁切至384×384分辨率，若小于则在周围用0填充，训练时，采用初始学习率为0.0001，采用Adam优化器，并采用softmax函数作为损失函数。并将训练好的模型权值文件保存，用于卷积神经网路模型的部署。在本发明的实施例中，训练卷积神经网络时，共迭代约1000000次，最终达到收敛。

采用卷积神经网络对图像进行虚化，决定速度的因素在于卷积神经网络模型的快慢，现有技术中，常用的卷积神经网络模型为Mobilenet V2，相比MobileNet V2网络模型，本发明搭建的卷积神经网络模型的参数量约为MobileNet V2的1/10，由于参数量少，所以运算速度较快。为了验证本发明的方法具有较高的运算速度，运用现有技术中运算速度较快的deeplabv3网络与本发明的方法进行对比，在同一台计算机上分别采用deeplabv3和本发明的方法对图像进行虚化，采用CPU进行程序测试，采用DeepLabv3用时188ms，采用本发明的方法用时77ms，相对于DeepLabv3，速度快了111ms，由此看出，本发明的方法，具有较快的速度，能够快速地对图像进行背景虚化。

为了进一步测试本发明的优点，在手机终端上对本发明的方法进行测试，具体采用的手机终端为：终端A和终端B，具体测试结果为：采用CPU进行测试，终端A需要的时间为100ms，终端B需要的时间为200ms；采用GPU进行测试，终端A需要的时间为80ms，终端B需要的时间为100ms。由于硬件设备的配置有所区别，所以导致的测试结果有所不同，但可以看出，本发明的方法，在手机终端上测试时，具有非常高的速度。同时，分别给出采用本发明的方法进行人像背景虚化的前后效果对比，如图4、5、6所示，其中，图4为视频图像的原图，图5为视频图像的人像提取图，图6为虚化后的效果图。从图4、5、6中的对比效果可以看出，采用本发明的方法，所得到的人像背景虚化的图边界清晰、过渡自然，效果较好。

本发明并不需要深度图，故不需要利用摄像头产生深度图，因此利用一个摄像头即能完成人像背景的虚化，从而降低了成本。

本发明还提供一种存储介质，该存储介质能够存储上述系统及方法的计算机程序指令，当硬件设备调用存在存储介质中的计算机指令后，能够完成本发明的方法的各种操作，能够对视频图像进行实时人像背景虚化。

本发明同时提供了一种设备，该设备采用本法发明的系统进行实时人像背景虚化。

综上，本发明能够用于单摄像头的背景虚化领域，该方法采用卷积神经网络对视频图像进行特征提取，然后采用人像提取、腐蚀膨胀、高斯模糊等操作进行背景模糊，从而完成人像背景虚化。同时提供一种计算机存储介质以及一种电子设备，计算机存储介质能存储所述方法的计算机指令，该电子设备能够利用该方法，进行实时人像背景虚化。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种实时人像背景虚化的系统，其特征在于，包括：

视频图像采集模块，用于实时采集视频图像；

当所述图像判断模块判断概率值图中是含有人像特征中时，后处理模块对概率值图依次进行人像提取、腐蚀膨胀、高斯模糊操作，并输出人像背景虚化后的视频图像；当所述图像判断模块判断概率值图中不含人像特征中时，后处理模块对概率值图直接进行高斯模糊，并输出全部虚化的视频图像；所述前处理模块采用的卷积神经网络模型包括编码网络和与编码网络连接的解码网络，所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块；所述标准编码模块包括依次连接的若干个标准卷积层；

所述解码网络包括若干个双线性差值模块和若干个标准卷积层，利用标准卷积层进行特征融合并利用双线性差值模块进行放大，从而对图像进行解码；所述编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7；

2.根据权利要求1所述的一种实时人像背景虚化的系统，其特征在于，所述通用编码模块包括并联的至少两个子编码模块，所述至少两个子编码模块的输出采concat层融合连接，concat层连接一个标准卷积层C4进行数据输出；

3.根据权利要求2所述的一种实时人像背景虚化的系统，其特征在于，所述通用编码模块包括两个子编码模块，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；

4.根据权利要求3所述的一种实时人像背景虚化的系统，其特征在于，所述编码网络的各个模块的具体参数如下：

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C3的卷积核大小为3×3，步长为1，通道数为2。

5.一种实时人像背景虚化的方法，其特征在于，采用权利要求1-4任一项所述的实时人像背景虚化的系统进行实时人像背景虚化，包括：

利用视频图像采集模块，实时采集视频图像；

将视频图像输入图像虚化处理模块中，依次进行如下操作：

6.根据权利要求5所述的一种实时人像背景虚化的方法，其特征在于，利用卷积神经网络模型进行神经网络推理前，需要对卷积神经网络模型进行训练，具体训练过程包括以下步骤：

7.一种存储介质，其特征在于，存储权利要求1-4任一项所述的实时人像背景虚化的系统的计算机程序指令，以及权利要求5-6任一项所述的实时人像背景虚化的方法的计算机程序指令。

8.一种设备，其特征在于，采用权利要求1-4任一项所述的实时人像背景虚化的系统进行实时人像背景虚化。