CN114359088A

CN114359088A - 一种对视频特定目标人物进行打码处理的方法

Info

Publication number: CN114359088A
Application number: CN202111640868.4A
Authority: CN
Inventors: 郑艳伟; 江文; 于东晓
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本发明属于图像处理技术领域，特别涉及一种对视频特定目标人物进行打码处理的方法。该方法包括：（1）构建目标人物人脸数据库；（2）从视频流中提取视频帧，对其进行人脸检测，位置标记及利用训练好的模型进行人脸矫正；（3）利用改进的残差网络从矫正的人脸图像中提取特征向量，将其与人脸数据库中目标人物的特征向量进行比对，若相似度大于预设阈值，则将该人脸图像标记为需要打码的目标人物；（4）对标记的目标人物进行打码处理；（5）对视频的每一帧图像重复（2）~（4）的操作后，逐帧合成视频流输出。本发明改进生成面部特征向量的残差网络，通过改变第一步卷积，更好地保存图像细节，显著提升图像中小尺寸人脸的识别准确度。

Description

一种对视频特定目标人物进行打码处理的方法

技术领域

本发明属于图像处理技术领域，特别涉及一种对视频特定目标人物进行打码处理的方法。

背景技术

人脸识别是基于人的脸部特征信息进行目标区分的一种生物识别技术。通过检测人脸位置，分析人脸关键点和生成人脸特征向量的方式对目标进行区分。

随着小视频和综艺迅猛发展，出于隐私或其他因素，有时需要对视频中的某特定对象进行连续的打码处理。目前对于该问题的处理方式集中在，使用视频剪辑软件对某目标人物进行手动打码处理，或自动对所有人脸均进行打码。该种方式存在着步骤繁琐，耗时长，无法精准打码等问题。

发明内容

为解决上述技术问题，本发明提供了一种对视频特定目标进行马赛克处理的方法，利用人脸识别技术和马赛克技术实现对用户隐私的保护，并且在一定程度上提升了对于小尺寸人脸的识别准确性。

本发明解决其技术问题采用的技术方案是：一种对视频特定目标人物进行打码处理的方法，包括：

(1)构建目标人物人脸数据库；

(2)从视频流中提取视频帧，对其进行人脸检测，位置标记及利用训练好的模型进行人脸矫正；

(3)利用改进的残差网络从矫正的人脸图像中提取特征向量，将其与人脸数据库中目标人物的特征向量进行比对，若相似度大于预设阈值，则将该人脸图像标记为需要打码的目标人物；

(4)对标记的目标人物进行打码处理；

(5)对视频的每一帧图像重复(2)～(4)的操作后，逐帧合成视频流输出。

进一步地，所述步骤(1)中目标人物人脸数据库的构建方法包括：

对目标人物进行样本图像采集；

利用训练好的模型检测样本图片的68个特征点，并利用特征点对图片进行矫正；

通过改进的残差网络从矫正的图片中提取128D特征向量；

对所有样本图片生成的特征向量计算平均值，将该向量平均值作为目标人物的特征向量存储在数据库中。

进一步地，所述步骤(2)中，对传入的视频帧进行灰度化处理，对处理后的图像采用分层检测网络进行人脸检测，确定人脸样本在图像中的位置。

进一步地，所述的分层检测网络为包含三个检测模块的YOLO网络，所述检测模块由卷积二分类器和回归器组成，三个检测模块的步长分别设置为32、16、8，用以检测不同尺寸大小的人脸。

进一步地，所述三个检测模块中，检测较大人脸尺寸的两个模块之间通过Max-Pooling增加感受野，以检测更大尺度的人脸；检测较小人脸尺寸的模块将两个卷积层得到的特征通过上采样的方式进行融合，以检测小尺寸人脸。

进一步地，所述训练好的模型为Dlib级联回归树模型。

进一步地，所述改进的残差网络为在网络前端增加特征增强层，用于增强特征的表达能力，并完成下采样；所述特征增强层由一个通道数为16的7*7卷积和一个通道数为16的BasicBlock组成，其后衔接一个步长为2，通道数为32的BasicBlock。

进一步地，所述步骤(3)中具体包括：

将视频帧中人物的人脸128D特征向量转换为列向量，记为b；

将人脸库中的人脸特征向量作为行向量，按人物标签排序，构成特征矩阵A_n×128，其中n为特征库中人物数量；

计算向量相似度：

其中：diag()表示对矩阵取对角线元素，组成列向量；sim是n×1向量；

获取最相似人物：j＝argmax{sim(i)}

i

当sim(j)大于设定的阈值时，即认为是需要打码的目标人物。

进一步地，所述打码处理包括选择给定图片遮挡于面部或对面部进行模糊处理。

本发明的方法具有的有益效果是：

(1)通过人脸检测和识别提供了一种针对特定目标人物的视频自动打码方法，满足了人们对于视频打码处理的高效性和精准度。

(2)本发明对人脸检测方法进行改进，使用带分支的YOLO网络，可对图像中各种尺寸的人脸进行更为准确的检测，同时改进生成面部特征向量的残差网络，通过改变第一步卷积，更好地保存图像细节，以上改进显著提升图像中小尺寸人脸的识别准确度。

附图说明

图1为本发明实施例所公开的一种对视频特定目标人物进行打码处理的方法的整体流程示意图；

图2为本发明实施例所公开的一种对视频特定目标人进行打码处理的方法的详细流程图；

图3为本发明实施例所公开的一种对视频特定目标人进行打码处理的改进残差网络结构图；

图4为采用本发明的方法对视频特定目标人物进行打码处理的效果图，(a)打码前；(b)打码后。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明公开内容的理解更加透彻全面。

本实施例提供了一种对视频特定目标人物进行打码处理的方法，如图1和图2所示，该方法利用人脸识别技术来实现对视频中特定对象隐私的保护，并且在一定程度上提升了对小尺寸人脸识别的准确度，具体步骤详细阐述如下：

1、构建目标人物人脸数据库

对每一个目标人物进行样本图像采集，利用训练好的模型检测样本图片的68个特征点，并利用特征点对图片进行矫正，而后通过改进的残差网络从图片中提取128D特征向量，对所有样本计算平均值，将该平均值作为特征向量，标记人物标签，存储为本地人脸库中的数据。具体为：

(1)针对某目标人物，采集数十张该人物不同角度的样本图片。

(2)将样本图片通过分层检测网络完成对不同尺寸人脸的检测。

其中，分层检测网络基于YOLO网络，在不同深度卷积层中引入不同的检测模块以检测不同尺寸大小的人脸。

分层检测网络的结构如图2中所示，共有三个检测模块，检测较大人脸尺寸的两个检测模块D2和D3之间通过Max-Pooling来增加感受野，以检测更大尺寸的人脸。检测较小人脸尺寸的检测模块D1将两个卷积层得到的特征通过上采样的方式进行融合，以检测小尺寸人脸。

每一个检测模块由卷积二分类器和回归器组成。检测模块D1、检测模块D2、检测模块D3的步长分别设置为8、16、32。能够有效改善Dlib对于小尺寸人脸识别准确度低的问题。

本实施例中，通过增大感受野的方式，确保做出决策时不忽略信息，感受野

为第k-1层感受野的大小，l_k为第k层感受野的大小，s_i为第i层卷积层的步长。通过增加网络层数增大感受野，用两个3*3卷积替换大尺寸卷积的方式，减少计算量。

(3)使用Dlib级联回归树训练模型，利用一系列标定好68个特征点的人脸图片，获得带标记的训练数据，作为训练回归树的集合，得到训练好的模型。

(4)以训练好的模型对人脸库中的目标人物图片检测面部68个特征点，通过特征点将面部进行矫正。

(5)通过resnet-34对对齐后的人脸图像生成一个128D的特征向量。对该人物所有图片生成的特征向量计算平均值，将该平均值作为该人物的特征向量与该人物标签一起存入人脸数据库。

2、从视频流中提取视频帧，对每一帧其进行人脸的检测，标记人脸位置，并使用训练好的模型进行68个特征点的分析，利用特征点对人脸进行矫正，具体为：

(1)对传入的视频数据，按帧进行处理。对视频帧进行灰度化处理，对处理后的图像利用上述的分层检测网络进行检测，确定人脸样本在图像中的位置。

(2)利用训练好的识别模型，预测出图像中所有人脸的68特征点，用于面部矫正。

3、使用改进的残差网络(new-ResNet-18)对人脸生成特征向量，其中，如图3所示，改进的残差网络是在网络最前端添加一个特征增强层，用于增强特征的表达能力，并完成下采样。该特征增强层步长为1，由一个通道数为16的7*7卷积，和一个通道数为16的BasicBlock组成，而后衔接一个步长为2，通道数为32的BasicBlock。以此达到增强特征、提升小尺寸人像的检测准确度的目的。

通过以上改进残差网络对人脸图像进行特征提取，得到128D特征向量，可达到增强特征表达能力的效果。

将得到的特征向量转换为列向量，记为b。

将人脸库中的特征向量作为行向量，按人物标签排序，构成一个特征矩阵A_n×128，其中n为特征库中人物数量。

计算特征矩阵中特征向量的余弦相似度：

其中：diag()表示对矩阵取对角线元素，组成列向量；sim是n×1向量。

根据计算的余弦相似度值，获取最相似人物：

当sim(j)大于设定的阈值时，即认为是需要打码的人物。

本实施例中，默认目标人物在同一帧画面中只会出现一次，故当检测到目标人物后即停止对当前帧剩余人脸的比对，可以提高效率，减少运算量。

4、根据上述步骤中检测所得需要打码人物，用人脸框定位人脸位置，并对其进行打码处理。打码效果如图4所示。

打码方式可选择给定图片打码和常规马赛克。

常规马赛克人脸框进行矩形面积，马赛克块大小为人脸框面积的1/100，以保证打码效果。

图片马赛克根据所得矩形框的长和宽，将给定图片拉伸到该尺寸后，覆盖在该矩形上进行遮盖。

5、对视频的每一帧图像重复步骤2～4的操作，判断是否有需要进行打码操作的目标人物，最后逐帧合成视频流输出，即完成对视频中特定目标人物的自动打码。

Claims

1.一种对视频特定目标人物进行打码处理的方法，其特征在于，包括：

(1)构建目标人物人脸数据库；

(4)对标记的目标人物进行打码处理；

2.根据权利要求1所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述步骤(1)中目标人物人脸数据库的构建方法包括：

对目标人物进行样本图像采集；

通过改进的残差网络从矫正的图片中提取128D特征向量；

3.根据权利要求1所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述步骤(2)中，对传入的视频帧进行灰度化处理，对处理后的图像采用分层检测网络进行人脸检测，确定人脸样本在图像中的位置。

4.根据权利要求3所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述的分层检测网络为包含三个检测模块的YOLO网络，所述检测模块由卷积二分类器和回归器组成，三个检测模块的步长分别设置为32、16、8，用以检测不同尺寸大小的人脸。

5.根据权利要求4所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述三个检测模块中，检测较大人脸尺寸的两个模块之间通过Max-Pooling增加感受野，以检测更大尺度的人脸；检测较小人脸尺寸的模块将两个卷积层得到的特征通过上采样的方式进行融合，以检测小尺寸人脸。

6.根据权利要求2所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述训练好的模型为Dlib级联回归树模型。

7.根据权利要求2所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述改进的残差网络为在残差网络前端增加特征增强层，用于增强特征的表达能力，并完成下采样；所述特征增强层由一个通道数为16的7*7卷积和一个通道数为16的BasicBlock组成，其后衔接一个步长为2，通道数为32的BasicBlock。

8.根据权利要求1所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述步骤(3)中具体包括：

将视频帧中人物的人脸128D特征向量转换为列向量，记为b；

计算向量相似度：

获取最相似人物：

当sim(j)大于设定的阈值时，即认为是需要打码的目标人物。

9.根据权利要求1-8任一项所述的对视频特定目标人物进行打码处理的方法，其特征在于，所述打码处理包括选择给定图片遮挡于面部或对面部进行模糊处理。