CN111145195B

CN111145195B - 一种基于轻量级深度神经网络的视频中人像轮廓探测方法

Info

Publication number: CN111145195B
Application number: CN201911216657.0A
Authority: CN
Inventors: 刘晋; 龚沛朱; 徐品真
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-02-24
Anticipated expiration: 2039-12-03
Also published as: CN111145195A

Abstract

本发明公开了一种基于轻量级深度神经网络的视频中人像轮廓探测方法，所述方法包括：在MobileNet网络模型中融入空洞卷积，使其轻量化并通过训练得到通用语义分割模型；设计细节增强模块，通过SoftMax抽出人像通道，结合双线性插值与原图拼接增强人像轮廓边缘细节；将模型中的批标准化节点与前后卷积层融合并调节降采样率，输入尺寸和深度乘数等参数优化模型，减小计算量；使用WebNN API利用网络应用分发实现跨平台性，令该方法能部署于客户端，降低对计算机硬件配置的要求并保证视频通话的高实时性。应用本发明实施例，解决了现有的视频中人像轮廓探测粗糙模糊，模型复杂计算量大导致对硬件配置要求高，无法跨平台部署以及实时性差的问题。

Description

一种基于轻量级深度神经网络的视频中人像轮廓探测方法

技术领域

本发明涉及计算机视觉语义分割技术领域，尤其涉及一种基于轻量级深度神经网络的视频中人像轮廓探测方法。

背景技术

计算机视觉中主要任务可以由粗到细分为：图像级别的图像分类(imageclassification)，物体级别的目标检测(object detection)，与像素级别的语义分割(semantic segmentation)，具体含义分别为识别图中存在何种物体，给出图中存在物体的位置和边界，和确定图中每个像素属于何种物体。

全卷积网络是深度学习应用于语义分割的开山之作，后续的无论是SegNet，U-Net，还是在目标检测算法Faster R-CNN上发展出来的实例分割算法Mask R-CNN,均离不开全卷积网络，但其也有明显的缺点，其分割结果的边缘较为平滑，未充分考虑像素之间的相关性。

语义分割网络还有其他变体，例如在图像中抠出想要的物体,探测物体边界并移除背景，一种可行的经典图像处理算法是，将分割结果通过膨胀腐蚀的方式转成Trimap，再通过传统抠图算法进行后处理，但这些抠图算法计算量很大，并且浪费了神经网络中已经提炼出的更高层的抽象特征；基于深度学习的SHM模型虽在一定程度上增强了边缘细节，但是其模型的计算量级仍然无法满足视频会议的实时性要求，且部署成本很高。

综上所述，当前的人像轮廓探测方法处理速度慢，边缘切割粗糙，用户体验不佳，并且应用于视频会议时还需要很高的实时性和部署成本，对硬件会有很高的要求。

发明内容

本发明的目的在于提供一种基于轻量级深度神经网络的视频中人像轮廓探测方法，旨在解决现有的视频中人像轮廓探测粗糙模糊，模型复杂计算量大导致对硬件配置要求高，无法跨平台部署以及实时性差的问题。

为了实现上述目的，本发明提供一种基于轻量级深度神经网络的视频中人像轮廓探测方法，所述方法包括：

在Tensorflow深度学习框架下搭建MobileNet轻量网络，融入空洞卷积，获得通用语义分割模型；

通过Adobe Photoshop扣取人像，进行数据扩充，通过MobileNet检测合成图片中是否包含人像，获得包含人像边缘灰度信息的人像探测数据集；

在MobileNet网络末端加入若干全分辨率的卷积操作和双线性插值恢复细节,获得细节增强模块；

选取设定距离作为损失函数，并将蒙版与其真值的差值和应用了蒙版后的彩图与其真值的差值，均计入损失函数；

用包含人像边缘灰度信息的人像探测数据集训练所述细节增强模块，固定通用语义分割模型的参数，获得端到端的人像轮廓探测模型；

将批标准化节点与卷积层融合使网络模型轻量化，并调节降采样率，输入尺寸，深度乘数优化模型。

进一步的，所述MobileNet轻量级网络损失函数为：

其中，K表示预测种类数，C表示标签种类数，Y表示预测值，

表示ground truth，s(Y)_c表示softmax层的回归值。

进一步的，所述在MobileNet网络末端加入若干全分辨率的卷积操作和双线性插值恢复细节,获得细节增强模块的步骤,包括:

在通用语义分割模型的基础上，通过Softmax层对预测值进行归一化后抽取出人像通道；

将得到的人像通道的蒙版进行双线性插值放大到原图大小后与原图RGB三通道拼接，经过两层卷积进行密集预测后，再次与蒙版进行跳接；

对跳接融合结果进行一次卷积并使用Sigmoid作为激活函数，使得输出结果为范围在[0,1]的灰度值。

进一步的，所述双线性插值的公式为：

其中，Q为输入图像中值，P为进行插值的点，x为其横坐标，y为其纵坐标。

进一步的，所述选取设定距离作为损失函数，并将蒙版与其真值的差值和应用了蒙版后的彩图与其真值的差值，共同计入损失函数公式为：

L＝L_c+L_a

其中，W为图像的宽，H分别为图像的高，I表示彩色图像,Y表示灰度蒙版的预测，

表示灰度蒙版的ground truth，i,j代表图像坐标，w(i,j)是误差权重矩阵。

进一步的，所述人像轮廓探测模型的精度评价公式如下：

其中，W为灰度蒙版的宽，H为灰度蒙版的高，

分别表示蒙版的预测值和groundtruth，i,j为其坐标。

应用本发明实施例提供的一种基于轻量级深度神经网络的视频中人像轮廓探测方法，在MobileNet网络模型中融入空洞卷积，使其轻量化并通过训练得到通用语义分割模型；设计细节增强模块，通过SoftMax抽出人像通道，结合双线性插值与原图拼接增强人像轮廓边缘细节；将模型中的批标准化节点与前后卷积层融合并调节降采样率，输入尺寸和深度乘数等参数优化模型，减小计算量；使用WebNN API利用网络应用分发实现跨平台性，令该方法能部署于客户端，降低对计算机硬件配置的要求并保证视频通话的高实时性。解决了现有的视频中人像轮廓探测粗糙模糊，模型复杂计算量大导致对硬件配置要求高，无法跨平台部署以及实时性差的问题。

附图说明

图1是本发明一种基于轻量级深度神经网络的视频中人像轮廓探测方法的流程图

图2是本发明中MobileNet的网络结构图。

图3是本发明中MobileNet中空洞卷积示意图。

图4是本发明中细节增强模块的结构图。

图5是本发明中双线性插值的示意图。

图6是本发明的人像探测效果图。

图7是本发明中批标准化融合示意图。

图8是本发明中WebNN API示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-8。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1本发明提供一种基于轻量级深度神经网络的视频中人像轮廓探测方法，所述方法包括：

S110，在Tensorflow深度学习框架下搭建MobileNet轻量网络，融入空洞卷积，获得通用语义分割模型；

需要说明的是，如图2所示，图2第一行所示为使用空洞卷积前的MobileNet，原图(513×513)经过多次卷积池化操作后空间大小从513×513压缩到了16×16，这不可避免导致空间信息丢失，而不易后续恢复空间细节。理想情况下引入空洞卷积应如图2(中)所示，我们可以无需对特征图进行池化，并能使3×3卷积核等效于图2第二行中对应层卷积操作。然而这种方案受限于计算资源，模型难以训练和推演。因此本发明中的模型采用了一种折中的方案，如图2第三行所示，网络前半部分使用传统的卷积，即设置rate(膨胀率)为1，这样特征图的大小会逐级减小，相当于降采样的过程，以减少参数计算量。而当空间大小从513降至65时，使用空洞卷积能够使特征图大小在后半部分始终保持在65×65。

如图3所示是MobileNet中空洞卷积的示意图，空洞卷积即将常规卷积操作所用的卷积核进行“膨胀”，其中用到了额外的超参数为卷积核的rate，可理解为相邻卷积核参数之间的步长，通过增加该参数，能够使得在其不改变卷积核参数数量的同时增加卷积核的感受野，从而捕获远距离特征。

将MobileNet轻量网络训练为通用语义分割模型的数据集为公开数据集PASCALVOC 2012，该集合中有包含21个分类的10582个训练样本。其损失函数如下：

模型选择了交叉熵作为损失函数，将输出的Softmax激活值与标签值独热编码向量(One-Hot Encoding)共同计算交叉熵损失。其中，K表示预测种类数，C表示标签种类数，Y表示预测值，

表示groundtruth，s(Y)_c表示softmax的回归值。

S120，通过Adobe Photoshop扣取人像，进行数据扩充，通过MobileNet检测合成图片中是否包含人像，获得包含人像边缘灰度信息的人像探测数据集；

可以理解的是，由于公开的语义分割数据集提供的标注信息均是单一值标注一类物体，而非针对人像一类物体包含256种灰度信息，这意味着公开数据集中只有粗糙的人像轮廓，不包含精细的边缘信息。因此，本发明通过Adobe Photoshop扣取了1015张人像，并进一步采用了数据扩充；另外又收集了近千张包含室内与室外场景，不含人像的背景图片，将抠出的人像经过随机变换后进行合成，从而获得更多的样本。其中，对于人像前景的变换操作包含随机的水平翻转，根据主体在画面中占比的随机旋转，0.9倍到1.1倍的随机缩放，以及随机裁切，最后使用已有的MobileNet检测合成图片中是否包含人像，在剔除效果不佳的样本后得到总共12182个人像探测训练样本。

S130，在MobileNet网络末端加入若干全分辨率的卷积操作和双线性插值恢复细节,获得细节增强模块；

需要说明的是，如图4所示，是本发明中细节增强模块的结构图，在得到的通用语义分割模型的基础上，通过Softmax层对预测值进行归一化后抽取出人像通道，将得到的人像通道的蒙版进行双线性插值放大到原图大小(513×513)后与原图RGB三通道拼接，经过两层卷积进行密集预测后，再次与蒙版进行跳接(skip connection)，使蒙版信息在最终输出仍能够处于主导地位，否则可能边缘增强后，中间主题区域的连通性被打破，使结果变得斑斑驳驳，得不偿失。最后，对跳接融合结果进行一次卷积并使用Sigmoid作为激活函数，使得输出结果为范围在[0,1]的灰度值，从而无需在网络外进行其它后处理。

如图5所示为双线性插值的示意图，公式如下：

其中Q为输入图像中值，P为进行插值的点，x为其横坐标，y为其纵坐标。

S140，选取设定距离作为损失函数，并将蒙版与其真值的差值和应用了蒙版后的彩图与其真值的差值，均计入损失函数；

可以理解的是，L＝L_c+L_a

其中，L_a,L_c分别计算了灰度蒙版与其真值的差值，和应用了蒙版后的彩图与其真值的差值，其中，W为图像的宽，H为图像的高，I为示彩色图像,Y为灰度蒙版的预测，

为灰度蒙版的ground truth，i,j代表图像坐标，w(i,j)是误差权重矩阵。经过统计，所示样本的灰度蒙版种非0与非1的像素只占了全图的9.11％，因此在像素灰度值非0与非255时，权重矩阵w(i,j)扩大为10倍。示例性的，选取L1距离作为损失函数。

S150，用包含人像边缘灰度信息的人像探测数据集训练所述细节增强模块，固定通用语义分割模型的参数，获得端到端的人像轮廓探测模型；

需要说明的是，人像轮廓探测模型的精度评价方法如下：

采用平均绝对差(mean absolute differences,MAD)来衡量探测质量,采用梯度误差E(gradient error)来衡量视觉感受。其中，W为灰度蒙版的宽，H为灰度蒙版的高，

分别表示蒙版的预测值和ground truth；i,j为其坐标。本发明中做了多组实验来对比不同方法在人像轮廓探测时的精度，从表1可以看出本发明中设计的模型平均绝对差表现较好，梯度误差低于现有其它适用于移动端的探测模型，并且本发明能够在手机，笔记本等客户端上进行实时人像轮廓探测，对硬件要求大大降低。需要说明的是，人像轮廓探测模型主要是在轻量级网络中增加了细节增强模块，使得整个模型计算量更小，速度更快，探测的人像轮廓也更加精致，光滑。

表1为人像轮廓探测模型的精度比较，

表1

其中，FB为Feathering Block(羽化模块)，图6为人像轮廓探测的效果图。

S160，将批标准化节点与卷积层融合使网络模型轻量化，并调节降采样率，输入尺寸，深度乘数优化模型；

可以理解的是，该步骤是是对模型的优化，减小计算量，让模型更加轻量化，使得本发明能在笔记本或是手机端运行，并且延迟会更小，达到视频通话时人像探测的实时性要求。图7为批标准化融合示意图。批标准化是训练神经网络时广泛使用的一种加速训练手段，每次对于一个小批次的训练样本计算得到均值和方差，然后将输入值减去对应通道的均值和方差，相当于在通道维度上对元素进行了标准化操作，但在其让网络加速收敛的同时，也增加了额外的计算量，从而增加推演时间，因此本发明中通过代数运算推导，将批标准化节点与卷积层在代数上进行融合，从而减少计算时间。经实验发现，融合后的模型中参数数量与推演时间能够比原先减少20％，这对于加速推演是相当有利的。具体公式如下：

卷积操作本质即为一个y＝Wx+b的矩阵运算，而批标准化通过向量化也能使其变为y＝Wx+b的形式，其中γ,β,∈为线性偏移参数，μ,σ为训练样本的移动均值和方差，Y_i,Z_i样式输入的通道i中全部点的值，C为通道数。

由于实时性的要求，模型需要针对推演进行特别的优化。本发明中用到的评判标准为模型计算量，而非参数数量(泛指卷积核中的权重值数量)，因为该模型为全卷积网络，可在参数数量不变时，接受任意大小的输入，那么可得总体计算量与输入大小正相关。因此，优化模型可以通过直接降低模型的“降采样率”与“输入分辨率”两个超参数直接降低模型计算量；也可以通过降低参数数量以降低模型计算量，这里可供调整的超参数为MobileNet中的深度乘数(depth multiplier)。计算量采用的计算单位为十亿次浮点数运算(GFLOPS)

表2模型在不同降采样率与输入分辨率组合下的计算量，

表2

其中

表示输入分辨率小，降采样过高是无输出效果，计为0。

表示参数量过大，无法在普通显卡上推演。

从表2中可看出只有模型计算量在30GFLOPS(十亿次浮点数运算)以下，模型才能在普通显卡上有效推演。经测试，计算量需要在20GFLOPs以下才能够至少达到15FPS的推演，只有参数量在5GFLOPS下才能够达到25FPS的推演。经过权衡输出的视觉效果与运算时间，本发明选取输入尺寸为513×513，降采样率选择为8或16时最优。由于此时参数数量仍然高达17.74GFLOPs和5.52GFLOPs,因此进一步对MobileNet的深度乘数进行调整。

深度乘数a即令输入输出通道数变为原先的a倍，参数数量大约变为原先的a²倍。普通卷积的a默认为1，通常a可选的值为{0.25，0.5，0.75}以降低参数数量。下表3中固定输入分辨率为513×513，降采样率取8或16，训练a＝0.5得到的模型与默认a＝1模型比较计算量与探测精度。

表3

需要说明的是，使用Web Neutral NetworkAPI，和使用网络应用分发实现跨平台性，在客户端获得与操作系统上原生应用相近的性能。

图8为WebNN API的示意图，WebNN是一个基于静态计算图的底层WebAPI,它通过程序化的方式将以上得到的模型转译成WebNN模型。具体来说，我们可以通过它提供了三个类实现：

(1)模型(Model)用于建立计算图。

(2)编译结果(Compilation)根据计算图完成底层资源分配。

(3)可执行对象(Execution)提供给定输入，得到推演结果。

转译模型根据上述三步依次进行。首先在浏览器的全局环境中创建一个空的网络模型constmodel＝nn.createModel()。接着添加一个WebNN的卷积操作可通过model.addOperation(nn.CONV_2D，inputs，outputs)；卷积中的权重值，步长，边缘填充方式则通过model.addOperand和model.setOperandValue方法进行设置。

模型在客户端从下载到推演再到渲染的整个流程代码如下：

rawModel＝await download(modelUrl)；

nnModel＝new TFliteModelImporter(rawModel)；

execution＝await nnModel.createCompiledModel()；

output＝newFloat32Array(513*513)；

while(True){

input＝getNextFrame()；

await execution.compute(input,output)；

render(output)；}

代码的0-2行用户首先异步获取到服务器上的模型文件rawModel，接着通过封装的类将其转成nnModel，又编译得到execution。第3行分配了和网络输出大小等同的数组，之所以将概述组的分配放在循环外，因为JavaScript中如果不断申请超大数组会频繁地触发垃圾回收机制(Major GC),由于这种垃圾回收时阻塞型的，则会给整个推演过程增加不必要的延迟。第5行程序从获取新的视频帧并完成预处理。预处理包括将RGBA的视频帧丢弃其中的透明通道，得到一个长为513*513*3的数组，并对输入进行正规化，即将图像像素强度从[0,255]映射至[-1,1],这一步与模型训练时所作预处理相同。第六行将输入传入compute，当函数返回时，输出数组中就会存放模型的探测结果。第七行我们则将探测结果渲染到页面。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。