CN109993089B - 一种基于深度学习的视频目标去除及背景恢复方法 - Google Patents

一种基于深度学习的视频目标去除及背景恢复方法 Download PDF

Info

Publication number
CN109993089B
CN109993089B CN201910222252.1A CN201910222252A CN109993089B CN 109993089 B CN109993089 B CN 109993089B CN 201910222252 A CN201910222252 A CN 201910222252A CN 109993089 B CN109993089 B CN 109993089B
Authority
CN
China
Prior art keywords
face
frame
video
pedestrian
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910222252.1A
Other languages
English (en)
Other versions
CN109993089A (zh
Inventor
王慧燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoli Technology Co ltd
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201910222252.1A priority Critical patent/CN109993089B/zh
Publication of CN109993089A publication Critical patent/CN109993089A/zh
Application granted granted Critical
Publication of CN109993089B publication Critical patent/CN109993089B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Abstract

本发明提供一种基于深度学习的视频目标去除及背景恢复方法,包括如下步骤:S1)人脸检测;S2)人脸识别;S3)人身检测;S4)人脸与人身匹配;S5)去除行人与背景恢复。本发明的优点为:将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合,只要给定视频中需要去除的人脸图片就可以在视频中全自动去除此行人,去除的区域用相似背景填充,不需要人工干预,可节省人工和时间成本。

Description

一种基于深度学习的视频目标去除及背景恢复方法
技术领域
本发明涉及图像处理和模式识别技术领域,具体涉及一种基于深度学习的视频目标去除及背景恢复方法。
背景技术
本发明的技术领域涉及人脸检测技术领域和人身检测技术领域。
人脸检测技术作为多种视觉任务的基础,在图像处理与模式识别领域占据十分重要的地位。近些年,伴随着基于神经网络的人工智能的快速发展,人脸检测技术越来越多地应用在诸如人证比对、会议签到、人脸闸机、人脸识别等各类视觉任务中。
而后期视频制作中所需的人脸检测和识别技术是一种非可控条件下的任务,视频中的人脸存在偏移角度大、被遮挡等非可控问题,使得视频中的人脸检测和识别难度较大。非可控条件下的人脸特征的匹配是后期视频处理中的人脸识别的关键步骤。现有的后期视频处理技术对于某些特定目标出现的场景,都是人工将特定目标出现过的视频帧直接删除,这样易丢失原有的场景信息,导致视频不连贯。
另一个技术领域,人身检测技术伴随着基于神经网络的人工智能的快速发展,越来越多地应用在诸如车辆辅助驾驶、自动驾驶、智能交通、行人识别等各类视觉任务中,这些视觉任务都需要依赖鲁棒的人身检测方法。
发明内容
本发明的目的是提供一种将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合的基于深度学习的视频目标去除及背景恢复方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于深度学习的视频目标去除及背景恢复方法,包括如下步骤:
S1)人脸检测
采集视频数据,提取可做人脸检测的视频帧,分别对每一帧进行处理,将视频帧中出现的每个人脸进行尺度缩小,选取最终的训练图片;
将VGG神经网络作为网络的基本结构,将网络分为6个block,在中间层添加改进的inception结构,对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层,对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数;
S2)人脸识别
以深度残差网络resnet50为基础设计分支网络,在resnet50基础模块增加网络的宽度和深度,在resnet50中间部分增加两个分支,将两个分支进行特征融合后再与主干分支进行特征融合,提取最后全连接层的512维特征向量作为最终的人脸特征,采用人脸特征的余弦相似度作为判定标准;
S3)人身检测
读取视频图像序列中的视频帧,将视频帧图像送入训练好的网络中做前向传播,取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果,分类结果指该锚点表示的目标是行人或背景的概率,回归结果指预测结果相对于锚点的偏差,锚点指人身区域的中心坐标点;
首先,筛选出行人概率超过阈值的锚点,去除锚点对应预测的偏差,用预测出的偏差修正锚点的坐标,得到初步的检测结果P1;
然后,使用非极大值抑制算法对初步的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到P2;
最后,过滤掉超出图像范围的预测结果,预测结果为目标框的左上角坐标(x1,y1)和右下角坐标(x2,y2);若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1、y1小于0,将x1、y1修正为0;得到最终检测结果P3;
S4)人脸与人身匹配
利用步骤S2)将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配,确定最终需要抹掉的人脸在图像中的位置;
利用步骤S3)将一帧图像中的所有人身的位置确定;
利用步骤S2)和步骤S3)中人脸框和人身框的位置关系,确定特定人脸和特定人身的对应关系,选取人脸框和人身框交并比最大的行人框,作为最后需要去除的行人位置和背景恢复区域;
S5)去除行人与背景恢复
根据最终确定的行人框的位置,使用OpenCV对特定区域进行背景恢复;
准备修复模板mask,需要去除行人框的位置的像素设定为255,其他位置的像素全部设定为0;修补每个点的圆形邻域,修复参考半径设置为5;输出最终的去除行人和背景恢复的结果。
进一步地,在步骤S1)中,将视频帧中出现的每个人脸进行尺度缩小,在原有尺寸上分别*0.9、*0.8、*0.7,再将1080P的图片缩放到相应大小,在缩小的图上截取700*700的包含人脸的图片,然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。
本发明与现有技术相比,具有以下优点:
本发明一种基于深度学习的视频目标去除及背景恢复方法,将视频中非控制条件下准确的人脸识别与高精度、高准确率的人身检测的技术融合,只要给定视频中需要去除的人脸图片就可以在视频中全自动去除此行人,去除的区域用相似背景填充,不需要人工干预,可节省人工和时间成本。
附图说明
图1是本发明一种基于深度学习的视频目标去除及背景恢复方法的流程示意图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
如图1所示,一种基于深度学习的视频目标去除及背景恢复方法,包括如下步骤:
S1)人脸检测
采集视频数据,提取可做人脸检测的视频帧,分别对每一帧进行处理,将视频帧中出现的每个人脸进行尺度缩小,选取最终的训练图片;将视频帧中出现的每个人脸进行尺度缩小,在原有尺寸上分别*0.9、*0.8、*0.7,再将1080P的图片缩放到相应大小,在缩小的图上截取700*700的包含人脸的图片,然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。
将VGG神经网络作为网络的基本结构,将网络分为6个block。在中间层添加改进的inception结构,中间层为在第1个block和第6个block之间的中间层,即第2个block和第5个block,改进的inception结构泛指现有技术已公开的inception v1的改进版结构,包括inception v2、inception v3等;对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层,对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数。特征融合是将不同block的输出特征图在通道维度上进行拼接。
S2)人脸识别
以深度残差网络resnet50为基础设计分支网络,在resnet50基础模块增加网络的宽度和深度,在resnet50中间部分增加两个分支,将两个分支进行特征融合后再与主干分支进行特征融合,提取最后全连接层的512维特征向量作为最终的人脸特征,采用人脸特征的余弦相似度作为判定标准。resnet,又称深度残差网络,用来解决深层网络梯度消失问题的核心结构——残差结构,在图片分类任务上具有很好的效果。resnet50共有5个卷积组,resnet50中间部分是指第1个卷积组和第5个卷积组之间任意两个中间层部分。
具体地,读取视频帧,将图像做均值处理,对每个通道减去对应的ImageNet均值 (104, 117, 123),再除以255得到归一化输入数据;对输入数据计算网络前向传播结果,经 过排序,非极大值抑制,候选框修正后得到最终人脸框;将所有的人脸框区域人脸与目标人 脸进行识别对比,将人脸图像进行预处理送入人脸识别网络,计算前向传播结果,得到每张 人脸的特征,得到一个512维的向量,特征向量表示为f=[f1, f2, ... , fn],其中n=512; 计算人脸间的特征距离,确定是否是同一个人,利用公式
Figure DEST_PATH_IMAGE002
其中,u和v为一个人脸的512维向量,通过经验阈值threshold判断是否是同一个 人,如果
Figure DEST_PATH_IMAGE004
则说明是同一个人脸,否则不是同一个人脸,从而得到视 频中的人脸位置。
S3)人身检测
读取视频图像序列中的视频帧,将视频帧图像送入训练好的网络中做前向传播,取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果,分类结果指该锚点表示的目标是行人或背景的概率,回归结果指预测结果相对于锚点的偏差。上述训练好的网络泛指现有技术已公开的行人检测网络模型。
首先,筛选出行人概率超过阈值的锚点,去除锚点对应预测的偏差,用预测出的偏差修正锚点的坐标,得到初步的检测结果P1。
然后,使用非极大值抑制算法对初步的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到P2。
最后,过滤掉超出图像范围的预测结果,预测结果为目标框的左上角坐标(x1,y1)和右下角坐标(x2,y2);若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1、y1小于0,将x1、y1修正为0;得到最终检测结果P3。
S4)人脸与人身匹配
利用步骤S2)将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配,确定最终需要抹掉的人脸在图像中的位置。
利用步骤S3)将一帧图像中的所有人身的位置确定。
利用步骤S2)和步骤S3)中人脸框和人身框的位置关系,确定特定人脸和特定人身的对应关系,选取人脸框和人身框交并比最大的行人框,作为最后需要去除的行人位置和背景恢复区域。
S5)去除行人与背景恢复
根据最终确定的行人框的位置,使用OpenCV对特定区域进行背景恢复。
准备修复模板mask,需要去除行人框的位置的像素设定为255,其他位置的像素全部设定为0;修补每个点的圆形邻域,修复参考半径设置为5;输出最终的去除行人和背景恢复的结果。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (2)

1.一种基于深度学习的视频目标去除及背景恢复方法,其特征在于包括如下步骤:
S1)人脸检测
采集视频数据,提取可做人脸检测的视频帧,分别对每一帧进行处理,将视频帧中出现的每个人脸进行尺度缩小,选取最终的训练图片;
将VGG神经网络作为网络的基本结构,将网络分为6个block,在中间层添加改进的inception结构,对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层,对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数;
S2)人脸识别
以深度残差网络resnet50为基础设计分支网络,在resnet50基础模块增加网络的宽度和深度,在resnet50中间部分增加两个分支,将两个分支进行特征融合后再与主干分支进行特征融合,提取最后全连接层的512维特征向量作为最终的人脸特征,采用人脸特征的余弦相似度作为判定标准;
S3)人身检测
读取视频图像序列中的视频帧,将视频帧图像送入训练好的网络中做前向传播,取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果,分类结果指锚点表示的目标是行人或背景的概率,回归结果指预测结果相对于锚点的偏差,锚点指人身区域的中心坐标点;
首先,筛选出行人概率超过阈值的锚点,去除锚点对应预测的偏差,用预测出的偏差修正锚点的坐标,得到初步的检测结果P1;
然后,使用非极大值抑制算法对初步的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到P2;
最后,过滤掉超出图像范围的预测结果,预测结果为目标框的左上角坐标(x1,y1)和右下角坐标(x2,y2);若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1、y1小于0,将x1、y1修正为0;得到最终检测结果P3;
S4)人脸与人身匹配
利用步骤S2)将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配,确定最终需要抹掉的人脸在图像中的位置;
利用步骤S3)将一帧图像中的所有人身的位置确定;
利用步骤S2)和步骤S3)中人脸框和人身框的位置关系,确定特定人脸和特定人身的对应关系,选取人脸框和人身框交并比最大的行人框,作为最后需要去除的行人位置和背景恢复区域;
S5)去除行人与背景恢复
根据最终确定的行人框的位置,使用OpenCV对特定区域进行背景恢复;
准备修复模板mask,需要去除行人框的位置的像素设定为255,其他位置的像素全部设定为0;修补每个点的圆形邻域,修复参考半径设置为5;输出最终的去除行人和背景恢复的结果。
2.根据权利要求1所述的一种基于深度学习的视频目标去除及背景恢复方法,其特征在于:
在步骤S1)中,将视频帧中出现的每个人脸进行尺度缩小,在原有尺寸上分别*0.9、*0.8、*0.7,再将1080P的图片缩放到相应大小,在缩小的图上截取700*700的包含人脸的图片,然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。
CN201910222252.1A 2019-03-22 2019-03-22 一种基于深度学习的视频目标去除及背景恢复方法 Expired - Fee Related CN109993089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222252.1A CN109993089B (zh) 2019-03-22 2019-03-22 一种基于深度学习的视频目标去除及背景恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910222252.1A CN109993089B (zh) 2019-03-22 2019-03-22 一种基于深度学习的视频目标去除及背景恢复方法

Publications (2)

Publication Number Publication Date
CN109993089A CN109993089A (zh) 2019-07-09
CN109993089B true CN109993089B (zh) 2020-11-24

Family

ID=67130816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910222252.1A Expired - Fee Related CN109993089B (zh) 2019-03-22 2019-03-22 一种基于深度学习的视频目标去除及背景恢复方法

Country Status (1)

Country Link
CN (1) CN109993089B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329497A (zh) * 2019-07-18 2021-02-05 杭州海康威视数字技术股份有限公司 一种目标识别方法、装置及设备
CN110458097A (zh) * 2019-08-09 2019-11-15 软通动力信息技术有限公司 一种人脸图片识别方法、装置、电子设备及存储介质
CN110766645B (zh) * 2019-10-24 2023-03-10 西安电子科技大学 基于人物识别与分割的目标人物复现图生成方法
CN111476160A (zh) * 2020-04-07 2020-07-31 杭州视在科技有限公司 损失函数优化方法、模型训练方法、目标检测方法及介质
CN112581567A (zh) * 2020-12-25 2021-03-30 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881002A (zh) * 2012-07-11 2013-01-16 天津大学 基于运动信息和矩阵填充的视频背景恢复方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520219B (zh) * 2018-03-30 2020-05-12 台州智必安科技有限责任公司 一种卷积神经网络特征融合的多尺度快速人脸检测方法
CN108830196A (zh) * 2018-05-31 2018-11-16 上海贵和软件技术有限公司 基于特征金字塔网络的行人检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881002A (zh) * 2012-07-11 2013-01-16 天津大学 基于运动信息和矩阵填充的视频背景恢复方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Coupled ResNet for Low-Resolution Face Recognition;Ze Lu et al.;《IEEE SIGNAL PROCESSING LETTERS》;20180430;第25卷(第4期);第526-530页 *
DeepID3: Face Recognition with Very Deep Neural Networks;Yi Sun et al.;《arXiv:1502.00873v1》;20150203;第1-5页 *
Facing Face Recognition with ResNet:Round One;Ivan Gruber et al.;《ICR2017》;20171231;第67-74页 *
Feature Extraction and Fusion Using Deep Convolutional Neural Networks for Face Detection;Xiaojun Lu et al.;《Mathematical Problems in Engineering》;20170124;第1-10页 *

Also Published As

Publication number Publication date
CN109993089A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109993089B (zh) 一种基于深度学习的视频目标去除及背景恢复方法
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
Greenhalgh et al. Recognizing text-based traffic signs
US10198657B2 (en) All-weather thermal-image pedestrian detection method
CN111784747B (zh) 一种基于关键点检测和校正的车辆多目标跟踪系统及方法
US20080232715A1 (en) Image processing apparatus
CN114677502B (zh) 一种任意倾斜角度的车牌检测方法
CN105049911A (zh) 一种基于人脸识别的视频特效处理方法
US8744177B2 (en) Image processing method and medium to extract a building region from an image
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN101673338A (zh) 基于多角度投影的模糊车牌识别方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
US20200065981A1 (en) Moving object detection apparatus and moving object detection method
CN112580447B (zh) 一种基于边缘二阶统计与融合的电力线检测方法
CN114495068B (zh) 基于人机交互和深度学习的路面健康检测方法
CN110414385A (zh) 一种基于单应性变换和特征窗口的车道线检测方法及系统
CN110969164A (zh) 基于深度学习端对端的低照度成像车牌识别方法及装置
CN107346547A (zh) 基于单目平台的实时前景提取方法及装置
KR20220049864A (ko) 인식한 번호판의 각도에 기초하여 차량의 번호를 인식하는 방법
CN112801021B (zh) 基于多级语义信息的车道线检测方法及系统
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN112053407B (zh) 一种交通执法影像中基于ai技术的车道线自动检测方法
Moseva et al. Development of a System for Fixing Road Markings in Real Time
CN115661535B (zh) 一种目标去除背景恢复方法、装置和电子设备
CN106951831B (zh) 一种基于深度摄像机的行人检测跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220715

Address after: 1212-2, building 1, Information Port Phase V, No. 733, Jianshe Third Road, Xiaoshan Economic and Technological Development Zone, Hangzhou, Zhejiang 311200

Patentee after: Hangzhou Xiaoli Technology Co.,Ltd.

Address before: 310018, No. 18 Jiao Tong Street, Xiasha Higher Education Park, Hangzhou, Zhejiang

Patentee before: ZHEJIANG GONGSHANG University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201124