CN109993089B

CN109993089B - 一种基于深度学习的视频目标去除及背景恢复方法

Info

Publication number: CN109993089B
Application number: CN201910222252.1A
Authority: CN
Inventors: 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Hangzhou Xiaoli Technology Co ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-11-24
Anticipated expiration: 2039-03-22
Also published as: CN109993089A

Abstract

本发明提供一种基于深度学习的视频目标去除及背景恢复方法，包括如下步骤：S1）人脸检测；S2）人脸识别；S3）人身检测；S4）人脸与人身匹配；S5）去除行人与背景恢复。本发明的优点为：将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合，只要给定视频中需要去除的人脸图片就可以在视频中全自动去除此行人，去除的区域用相似背景填充，不需要人工干预，可节省人工和时间成本。

Description

一种基于深度学习的视频目标去除及背景恢复方法

技术领域

本发明涉及图像处理和模式识别技术领域，具体涉及一种基于深度学习的视频目标去除及背景恢复方法。

背景技术

本发明的技术领域涉及人脸检测技术领域和人身检测技术领域。

人脸检测技术作为多种视觉任务的基础，在图像处理与模式识别领域占据十分重要的地位。近些年，伴随着基于神经网络的人工智能的快速发展，人脸检测技术越来越多地应用在诸如人证比对、会议签到、人脸闸机、人脸识别等各类视觉任务中。

而后期视频制作中所需的人脸检测和识别技术是一种非可控条件下的任务，视频中的人脸存在偏移角度大、被遮挡等非可控问题，使得视频中的人脸检测和识别难度较大。非可控条件下的人脸特征的匹配是后期视频处理中的人脸识别的关键步骤。现有的后期视频处理技术对于某些特定目标出现的场景，都是人工将特定目标出现过的视频帧直接删除，这样易丢失原有的场景信息，导致视频不连贯。

另一个技术领域，人身检测技术伴随着基于神经网络的人工智能的快速发展，越来越多地应用在诸如车辆辅助驾驶、自动驾驶、智能交通、行人识别等各类视觉任务中，这些视觉任务都需要依赖鲁棒的人身检测方法。

发明内容

本发明的目的是提供一种将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合的基于深度学习的视频目标去除及背景恢复方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种基于深度学习的视频目标去除及背景恢复方法，包括如下步骤：

S1）人脸检测

采集视频数据，提取可做人脸检测的视频帧，分别对每一帧进行处理，将视频帧中出现的每个人脸进行尺度缩小，选取最终的训练图片；

将VGG神经网络作为网络的基本结构，将网络分为6个block，在中间层添加改进的inception结构，对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层，对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数；

S2）人脸识别

以深度残差网络resnet50为基础设计分支网络，在resnet50基础模块增加网络的宽度和深度，在resnet50中间部分增加两个分支，将两个分支进行特征融合后再与主干分支进行特征融合，提取最后全连接层的512维特征向量作为最终的人脸特征，采用人脸特征的余弦相似度作为判定标准；

S3）人身检测

读取视频图像序列中的视频帧，将视频帧图像送入训练好的网络中做前向传播，取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果，分类结果指该锚点表示的目标是行人或背景的概率，回归结果指预测结果相对于锚点的偏差，锚点指人身区域的中心坐标点；

首先，筛选出行人概率超过阈值的锚点，去除锚点对应预测的偏差，用预测出的偏差修正锚点的坐标，得到初步的检测结果P1；

然后，使用非极大值抑制算法对初步的检测结果P1按照概率进行排序，过滤掉局部非最大概率的检测结果，得到P2；

最后，过滤掉超出图像范围的预测结果，预测结果为目标框的左上角坐标（x1,y1）和右下角坐标（x2,y2）；若x2大于图像宽度，x2修改为图像宽度；若y2大于图像高度，y2修改为图像高度；若x1、y1小于0，将x1、y1修正为0；得到最终检测结果P3；

S4）人脸与人身匹配

利用步骤S2）将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配，确定最终需要抹掉的人脸在图像中的位置；

利用步骤S3）将一帧图像中的所有人身的位置确定；

利用步骤S2）和步骤S3）中人脸框和人身框的位置关系，确定特定人脸和特定人身的对应关系，选取人脸框和人身框交并比最大的行人框，作为最后需要去除的行人位置和背景恢复区域；

S5)去除行人与背景恢复

根据最终确定的行人框的位置，使用OpenCV对特定区域进行背景恢复；

准备修复模板mask，需要去除行人框的位置的像素设定为255，其他位置的像素全部设定为0；修补每个点的圆形邻域，修复参考半径设置为5；输出最终的去除行人和背景恢复的结果。

进一步地，在步骤S1）中，将视频帧中出现的每个人脸进行尺度缩小，在原有尺寸上分别*0.9、*0.8、*0.7，再将1080P的图片缩放到相应大小，在缩小的图上截取700*700的包含人脸的图片，然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。

本发明与现有技术相比，具有以下优点：

本发明一种基于深度学习的视频目标去除及背景恢复方法，将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合，只要给定视频中需要去除的人脸图片就可以在视频中全自动去除此行人，去除的区域用相似背景填充，不需要人工干预，可节省人工和时间成本。

附图说明

图1是本发明一种基于深度学习的视频目标去除及背景恢复方法的流程示意图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

如图1所示，一种基于深度学习的视频目标去除及背景恢复方法，包括如下步骤：

S1）人脸检测

采集视频数据，提取可做人脸检测的视频帧，分别对每一帧进行处理，将视频帧中出现的每个人脸进行尺度缩小，选取最终的训练图片；将视频帧中出现的每个人脸进行尺度缩小，在原有尺寸上分别*0.9、*0.8、*0.7，再将1080P的图片缩放到相应大小，在缩小的图上截取700*700的包含人脸的图片，然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。

将VGG神经网络作为网络的基本结构，将网络分为6个block。在中间层添加改进的inception结构，中间层为在第1个block和第6个block之间的中间层，即第2个block和第5个block，改进的inception结构泛指现有技术已公开的inception v1的改进版结构，包括inception v2、inception v3等；对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层，对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数。特征融合是将不同block的输出特征图在通道维度上进行拼接。

S2）人脸识别

以深度残差网络resnet50为基础设计分支网络，在resnet50基础模块增加网络的宽度和深度，在resnet50中间部分增加两个分支，将两个分支进行特征融合后再与主干分支进行特征融合，提取最后全连接层的512维特征向量作为最终的人脸特征，采用人脸特征的余弦相似度作为判定标准。resnet，又称深度残差网络，用来解决深层网络梯度消失问题的核心结构——残差结构，在图片分类任务上具有很好的效果。resnet50共有5个卷积组，resnet50中间部分是指第1个卷积组和第5个卷积组之间任意两个中间层部分。

具体地，读取视频帧，将图像做均值处理，对每个通道减去对应的ImageNet均值（104, 117, 123），再除以255得到归一化输入数据；对输入数据计算网络前向传播结果，经过排序，非极大值抑制，候选框修正后得到最终人脸框；将所有的人脸框区域人脸与目标人脸进行识别对比，将人脸图像进行预处理送入人脸识别网络，计算前向传播结果，得到每张人脸的特征，得到一个512维的向量，特征向量表示为f=[f1, f2, ... , fn]，其中n=512；计算人脸间的特征距离，确定是否是同一个人，利用公式

；

其中，u和v为一个人脸的512维向量，通过经验阈值threshold判断是否是同一个人，如果

则说明是同一个人脸，否则不是同一个人脸，从而得到视频中的人脸位置。

S3）人身检测

读取视频图像序列中的视频帧，将视频帧图像送入训练好的网络中做前向传播，取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果，分类结果指该锚点表示的目标是行人或背景的概率，回归结果指预测结果相对于锚点的偏差。上述训练好的网络泛指现有技术已公开的行人检测网络模型。

首先，筛选出行人概率超过阈值的锚点，去除锚点对应预测的偏差，用预测出的偏差修正锚点的坐标，得到初步的检测结果P1。

然后，使用非极大值抑制算法对初步的检测结果P1按照概率进行排序，过滤掉局部非最大概率的检测结果，得到P2。

最后，过滤掉超出图像范围的预测结果，预测结果为目标框的左上角坐标（x1,y1）和右下角坐标（x2,y2）；若x2大于图像宽度，x2修改为图像宽度；若y2大于图像高度，y2修改为图像高度；若x1、y1小于0，将x1、y1修正为0；得到最终检测结果P3。

S4）人脸与人身匹配

利用步骤S2）将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配，确定最终需要抹掉的人脸在图像中的位置。

利用步骤S3）将一帧图像中的所有人身的位置确定。

利用步骤S2）和步骤S3）中人脸框和人身框的位置关系，确定特定人脸和特定人身的对应关系，选取人脸框和人身框交并比最大的行人框，作为最后需要去除的行人位置和背景恢复区域。

S5)去除行人与背景恢复

根据最终确定的行人框的位置，使用OpenCV对特定区域进行背景恢复。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于深度学习的视频目标去除及背景恢复方法，其特征在于包括如下步骤：

S1）人脸检测

S2）人脸识别

S3）人身检测

读取视频图像序列中的视频帧，将视频帧图像送入训练好的网络中做前向传播，取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果，分类结果指锚点表示的目标是行人或背景的概率，回归结果指预测结果相对于锚点的偏差，锚点指人身区域的中心坐标点；

S4）人脸与人身匹配

利用步骤S3）将一帧图像中的所有人身的位置确定；

S5)去除行人与背景恢复

2.根据权利要求1所述的一种基于深度学习的视频目标去除及背景恢复方法，其特征在于：

在步骤S1）中，将视频帧中出现的每个人脸进行尺度缩小，在原有尺寸上分别*0.9、*0.8、*0.7，再将1080P的图片缩放到相应大小，在缩小的图上截取700*700的包含人脸的图片，然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。