CN113160061A

CN113160061A - 一种由模糊监控视频重建高分辨率人脸图像的方法与系统

Info

Publication number: CN113160061A
Application number: CN202110539509.3A
Authority: CN
Inventors: 鲍虎军; 王小龙; 徐晓刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-07-23
Anticipated expiration: 2041-05-18
Also published as: CN113160061B

Abstract

本发明公开了一种由模糊监控视频重建高分辨率人脸图像的方法与系统，具体过程包括：1、采用人脸检测技术提取监控视频中人脸图像，并对图像进行直方图均衡、尺寸调整等预处理；2、构建级联生成式对抗网络模型，实现了端到端的模糊人脸重建功能，该模型包含1个图像增强模块、2个图像放大模块和1个图像优化模块，分别实现了模糊人脸图像的增强、图像放大功能和图像优化功能；3、基于编解码网络结构构建了级联生成式对抗网络模型中的功能模块，实现在人脸图像各层次特征中填充特征细节，并通过正反馈结构保留模糊人脸图像中原始特征。

Description

一种由模糊监控视频重建高分辨率人脸图像的方法与系统

技术领域

本发明涉及利用常规监控摄像头采集视频数据，利用图像处理及深度学习技术，实现监控视频图像中模糊人脸重建。

背景技术

当前，采用深度学习技术重建模糊人脸图像具有较高的实用价值，因此是当前研究的热点和难点。大量监控设备的敷设是维护社会稳定的有力措施，但是监控设备录制视频容易受到物体运动、天气、距离及光照等因素的影响，导致监控捕捉得到人脸图像存在模糊难辨的问题，一定程度上增加了识别的难度。目前，基于生成式深度学习模型，以高精度重建监控视频模糊人脸图像为目标的研究少，缺乏具有较高实用价值的研究成果。

为此，本发明基于生成式对抗网络在生成高清人脸方面的技术优势，采用级联式网络结构模型，在确保最大程度保留原始模糊人脸图像五官、面部轮廓等重要特征的基础上，实现人脸图像增强、细节特征填充、放大及优化功能，从而实现了高精度重建监控视频中模糊人脸图像。

发明内容

为了提高人脸识别性能，本发明提出一种由模糊监控视频重建高分辨率人脸图像的方法与系统，该方法基于监控摄像头拍摄视频，实现对监控视频中模糊人脸图像的重建。

本发明的目的是通过以下技术方案来实现的：

本发明的其中一个目的在于提供一种由模糊监控视频重建高分辨率人脸图像的方法，包括以下步骤：

1)检测视频帧图像中人面部区域，得到模糊人脸图像；

2)对模糊人脸图像进行预处理，包括尺寸调整及直方图均衡；

3)利用由图像增强模块、一级图像放大模块、二级图像放大模块和图像优化模块构建的级联模糊人脸重建模型，得到高分辨率人脸图像；具体为：

3.1)图像增强模块：首先对预处理后的模糊人脸图像进行人脸蒙板层处理，然后采用第一编解码网络和图像优化层输出增强人脸图像；

3.2)一级图像放大模块：将增强人脸图像作为输入，采用第二编解码网络、图像优化层和人脸分割层输出一级人脸放大图像和人脸分割图像；

3.3)二级图像放大模块：将一级人脸放大图像和人脸分割图像作为输入，采用第三编解码网络和图像优化层输出二级人脸放大图像；

3.4)图像优化模块：将二级人脸放大图像作为输入，引入随机噪声，采用第四编解码网络和图像优化层输出重建后的高分辨率人脸图像。

本发明的另一个目的在于提供一种基于上述方法的由模糊监控视频重建高分辨率人脸图像的系统，包括：

人脸图像提取模块，其用于检测视频帧图像中人面部区域，获得模糊人脸图像；

人脸图像预处理模块，其用于对获取得到的人脸图像模块进行预处理，包括尺寸调整及直方图均衡；

级联模糊人脸重建模型模块，其用于将预处理后的模糊人脸图像进行增强、放大和优化，得到高分辨率人脸图像；所述的级联模糊人脸重建模型模块包括：

图像增强模块：首先对预处理后的模糊人脸图像进行人脸蒙板层处理，然后采用第一编解码网络和图像优化层输出增强人脸图像；

一级图像放大模块：将增强人脸图像作为输入，采用第二编解码网络、图像优化层和人脸分割层输出一级人脸放大图像和人脸分割图像；

二级图像放大模块：将一级人脸放大图像和人脸分割图像作为输入，采用第三编解码网络和图像优化层输出二级人脸放大图像；

图像优化模块：将二级人脸放大图像作为输入，引入随机噪声，采用第四编解码网络和图像优化层输出重建后的高分辨率人脸图像。

与现有技术相比，本发明的优势在于：

(1)基于生成式网络模型，提供了一种端到端的监控视频模糊人脸图像重建方法，采用多任务和有指导的方式对级联模型进行训练，实现了高精度恢复监控视频模糊人脸的能力，具备较高的实用价值；

(2)在图像增强模块中采用蒙版的方式，在滤除高频噪声干扰的同时，实现了随机调整输入模型图像的质量，增加了模型学习的难度，防止模型过拟合的同时，增强了该模糊人脸重建模型的鲁棒性；

(3)通过引入AdaIN结构(风格转换结构)和随机噪声，对图像增强阶段和图像放大阶段人脸部细节特征进行补充，提升了重建人脸图像的真实感；

(4)基于多任务的模型训练方式，实现通过第一级人脸放大模块同时输出人脸图像分割和人脸图像放大结果，并将输出结果作为第二级人脸放大模块的输入，最大程度上保留监控视频模糊人脸的五官特征；

(5)编解码网络结构中采用正反馈结构，将编码网络图像特征连接到解码网络图像特征，减少编解码过程中的信息损失，减少监控视频模糊人脸五官特征的损失。

附图说明

图1是本发明的模糊人脸重建流程示意图；

图2是本发明实施例中的图像增强模块结构示意图；

图3是本发明实施例中的一级图像放大模块结构示意图；

图4是本发明实施例中的二级图像放大模块结构示意图；

图5是本发明实施例中的图像优化模块结构示意图；

图6是本发明实施例中的判别网络模型结构示意图。

具体实施方式

下面结合附图对本发明进行进一步的描述。

一种由模糊监控视频重建高分辨率人脸图像的方法，如图1所示，包括以下步骤：

(1)模糊人脸图像提取：采用MTCNN模型从监控视频中提取人脸图像。

face_i＝MTCNN(frame_i) (1)

式中，frame_i表示视频第i帧图像，face_i表示从视频第i帧图像提取得到的人脸图像。

(2)模糊人脸图像预处理：对监控视频帧图像进行直方图均衡以及尺寸调整，如公式2、3所示：

face_resize_i＝Scale(face_i) (2)

face_enh_i＝Hist(face_resize_i) (3)

式中，Scale()表示图像尺寸调整函数，Hist()表示直方图均衡函数，face_resize_i表示尺寸调整后的人脸图像，face_enh_i表示直方图均衡后的人脸图像，下角标i表示该人脸图像属于视频中第i帧图像。

(3)级联模糊人脸重建模型。该模型包括图像增强模块、图像放大模块及图像优化模块。其中，所有模块均采用编解码网络结构和AdaIN结构，构成端到端的模糊人脸重建模型。

(3.1)图像增强模块。其结构如图2所示，主要用于：1、消除模糊人脸图像中存在的噪声，完成图像信号的初步提纯；2、在模块中添加人脸蒙版层，用于控制模型训练的难度系数，实现根据不同要求调节模型生成人脸图像能力。

其工作过程为：首先对预处理后的模糊人脸图像进行人脸蒙板层处理，然后采用第一编解码网络和图像优化层输出增强人脸图像，用下述公式表示：

公式4、5中，Facemask()表示人脸蒙版函数，其实现形式如公式6所示，FaceEnh()表示图像增强模块，其中包含了第一编解码网络和图像优化层。

表示经过人脸蒙版层处理后的图像，

表示图像增强模块输出结果，noise表示输入随机噪声。在步骤(3.1.1)至步骤(3.1.3)中将分别对公式4、5的具体实现形式进行阐述。

(3.1.1)人脸蒙版层采用低通滤波器实现，如公式6所示：

公式6中，LPF表示低通滤波器，m₁、m₂表示滤波器尺度，pic表示目标图像。

(3.1.2)图像增强模块中采用第一编解码网络和正反馈结构，最大程度上保留原始模糊人脸图像特征，并实现人脸细节特征补充。

本实施例中，第一编解码网络结构由3个编码器和3个解码器级联构成，计算公式为：

公式7、8中，encoder()、decoder()分别表示编解码器，feat表示编解码器输入特征，feat_i，i∈[1,6]，括号内的feat_i作为输入特征，括号外的feat_i作为输出特征，noise表示在编解码过程中注入随机噪声；feat₆作为第一编解码网络的输出。

其中，编解码器采用公式9、10所示形式实现。

encoder(feat_i)＝downsample(ResNet(feat_i,noise)) (9)

decoder(feat_i)＝upsample(ResNet(feat_i,noise)) (10)

公式9、10中，downsample()、upsample()分别表示特征降采样和特征插值函数，ResNet()表示残差网络结构，feat_i表示输入特征。

(3.1.3)增强模块最后一层添加图像优化层。

其中，refinelayer()表示图像优化层，采用3层残差网络模块实现。

表示增强模块输出图像，feat₆表示图像增强模块中第一编解码网络的输出特征。

(3.2)图像放大模块。主要用于对模糊人脸图像的放大和细节特征填充。该模块包含两级级联放大子网络模块，分别实现对图像的倍次放大。

公式12、13表示两级级联放大模块基本形式，FaceAmp1()表示对图像进行第一级放大，FaceAmp2()表示对图像进行第二级放大，

表示人脸图像五官区域分割二值图像集合。在步骤(3.2.1)至步骤(3.2.2)中将分别对公式12、13的实现形式进行阐述。

(3.2.1)一级图像放大模块，其结构如图3所示。工作方式为：将增强人脸图像作为输入，采用第二编解码网络、图像优化层和人脸分割层输出一级人脸放大图像和人脸分割图像。

其采用的第二编解码网络结构具体形式如公式14至17所示。

encoder(feat_i)＝downsample(ResNet(feat_i,noise)) (16)

decoder(feat_i)＝upsample(ResNet(feat_i,noise)) (17)

其中，encoder()、decoder()分别表示编码器和解码器，feat表示编解码器输入特征，feat_i，i∈[1,7]，括号内的feat_i作为输入特征，括号外的feat_i作为输出特征；noise表示在编解码过程中注入的随机噪声，其中feat₇作为第二编解码网络的输出。

在此基础上，进一步利用图像优化层和人脸分割层对第二编解码网络输出结果进行图像优化和人脸五官区域分割，如公式18、19所示。

公式18、19中，refinelayer()、faceseglayer()分别表示图像优化层和人脸分割层，分别采用3层残差网络模块实现。

和

分别表示图像优化层和人脸分割层输出结果。feat₇表示一级图像放大模块中第二编解码网络输出特征。

(3.2.2)二级图像放大模块，其结构如图4所示。工作方式为：将一级人脸放大图像和人脸分割图像作为输入，采用第三编解码网络和图像优化层输出二级人脸放大图像。

其采用的第三编解码网络具体形式如公式14至17所示，同时将一级图像放大模块输出的一级人脸放大图像和人脸五官区域分割结果作为输入，其形式如公式13所示。

将第三编解码网络输出特征再经过优化层处理后输出结果，如公式20所示。

公式20中，

表示二级图像放大模块输出结果。feat₇表示二级图像放大模块中第三编解码网络输出特征。

(3.3)图像优化模块，其结构如图5所示，其用于提升图像质量，主要由第四编解码网络和图像优化层构成，工作方式为：将二级人脸放大图像作为输入，引入随机噪声，采用第四编解码网络和图像优化层输出重建后的高分辨率人脸图像。其构成形式如公式7至11所示。

公式21中，FaceRef()表示图像优化模块。

表示图像优化模块输出结果。

(4)判别网络模型，其结构如图6所示，在训练级联模糊人脸重建模型时使用，用于判别级联人脸重建模型输出人脸是否符合要求，与级联人脸重建模型构成了生成式对抗网络。

公式22中，res表示人脸是否准确的置信度，Dis()表示判别网络模型，主要由特征降采样网络和sigmoid()层构成，如公式23、24所示。

res＝sigmoid(feat_Dis) (24)

公式23、24中，feat_Dis表示判别网络模型中的特征采样网络的输出结果，downsample()表示特征降采样，ResNet()表示残差网络模块，sigmoid()表示激活函数，res表示人脸是否准确的置信度。

本实施例中，上述中存在可训练参数的模块或算法均需要训练，采用多任务和有指导训练方式，训练好的级联模糊人脸重建模型可以直接通过下述步骤输出高分辨率人脸图像：

1)检测视频帧图像中人面部区域，得到模糊人脸图像face＝MTCNN(frame)。

2)对模糊人脸图像进行预处理，包括尺寸调整face_resize＝Scale(face)及直方图均衡face_enh＝Hist(face_resize)。

3.1)图像增强模块：首先对预处理后的模糊人脸图像进行人脸蒙板层处理，得到经过人脸蒙版层处理后的图像

然后采用第一编解码网络和图像优化层输出增强人脸图像

3.2)一级图像放大模块：将增强人脸图像作为输入，采用第二编解码网络、图像优化层和人脸分割层输出一级人脸放大图像和人脸分割图像

3.3)二级图像放大模块：将一级人脸放大图像和人脸分割图像作为输入，采用第三编解码网络和图像优化层输出二级人脸放大图像

3.4)图像优化模块：将二级人脸放大图像作为输入，引入随机噪声，采用第四编解码网络和图像优化层输出重建后的高分辨率人脸图像

与前述的由模糊监控视频重建高分辨率人脸图像的方法的实施例相对应，本申请还提供了一种由模糊监控视频重建高分辨率人脸图像的系统的实施例，其至少包括：

为了实现端到端的训练，该系统还包括：

判别网络模型模块，由特征降采样网络和激活函数层构成，与所述的级联模糊人脸重建模型模块构成生成式对抗网络；

训练模块，其基于判别网络模型模块，对级联模糊人脸重建模型模块进行训练。

在本发明的一项具体实施中，所述的第一编码网络采用3个编码器和3个解码器组合，第二编码网络采用3个编码器和4个解码器组合，第三编码网络采用3个编码器和4个解码器组合，第四编码网络采用3个编码器和3个解码器组合。

关于上述实施例中的系统，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为级联模糊人脸重建模型模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

在本发明的一项具体实施中，按照附图1的流程，可依次获得图2-5所给出的人脸图像结果，首先将调整好尺寸和直方图均衡的模糊人脸图像作为图2的输入，可从输出图像中看出原始图像得到了明显的增强效果。进一步使用两级图像放大模块依次放大图像，在放大过程中通过更多的人脸特征细节填充避免了像素损失，最后经图5优化后得到了高分辨率的人脸图像，清晰度高，效果好。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，包括以下步骤：

1)检测视频帧图像中人面部区域，得到模糊人脸图像；

3.1)图像增强模块：首先对预处理后的模糊人脸图像进行人脸蒙板层处理，然后采用第一编解码网络和图像优化层输出人脸增强图像；

3.2)一级图像放大模块：将人脸增强图像作为输入，采用第二编解码网络、图像优化层和人脸分割层输出一级人脸放大图像和人脸分割图像；

3.4)图像优化模块：将二级人脸放大图像作为输入，引入随机噪声，采用第四编解码网络和图像优化层输出高分辨率人脸图像。

2.根据权利要求1所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，所述的级联模糊人脸重建模型在训练时，通过判别网络模型，与所述的级联模糊人脸重建模型构成生成式对抗网络，对级联模糊人脸重建模型进行训练。

3.根据权利要求2所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，将级联模糊人脸重建模型输出的结果作为判别网络模型的输入，计算人脸是否准确的置信度；所述的判别网络模型由特征降采样网络和激活函数层构成，计算公式为：

res＝sigmoid(feat_Dis) (24)

其中，

表示级联模糊人脸重建模型输出的结果，feat_Dis表示判别网络模型中的特征采样网络的输出结果，downsample()表示特征降采样，ResNet()表示残差网络结构，sigmoid()表示激活函数，res表示置信度。

4.根据权利要求1所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，所述的第一编解码网络和第四编码网络由3个编码器和3个解码器级联构成，计算公式为：

其中，encoder()、decoder()分别表示编码器和解码器，feat表示输入特征，feat_i，i∈[1,6]，括号内的feat_i作为输入特征，括号外的feat_i作为输出特征；noise表示在编解码过程中注入的随机噪声，feat₆作为第一或第四编解码网络的输出。

5.根据权利要求1所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，所述的图像增强模块中的人脸蒙板层采用低通滤波器实现，公式为：

式中，LPF表示低通滤波器，m₁、m₂表示滤波器尺度，pic表示目标图像，Facemask表示人脸蒙版结果。

6.根据权利要求1所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，所述的第二编解码网络和第三编码网络由3个编码器和4个解码器级联构成，计算公式为：

其中，encoder()、decoder()分别表示编码器和解码器，feat表示编解码器输入特征，feat_i，i∈[1,7]，括号内的feat_i作为输入特征，括号外的feat_i作为输出特征；noise表示在编解码过程中注入的随机噪声，其中feat₇作为第二或第三编解码网络的输出。

7.根据权利要求4或6所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，所述的编码器和解码器的公式表示为：

encoder(feat_i)＝downsample(ResNet(feat_i,noise)) (9)

decoder(feat_i)＝upsample(ResNet(feat_i,noise)) (10)

其中，downsample()、upsample()分别表示特征降采样和特征插值函数，ResNet()表示残差网络结构，feat_i表示输入特征。

8.根据权利要求1所述的由模糊监控视频重建高分辨率人脸图像的方法，其特征在于，在一级图像放大模块中，将第二编解码网络的输出结果分别作为图像优化层和人脸分割层的输入，得到一级人脸放大图像和人脸分割图像。

9.一种基于权利要求1所述方法的由模糊监控视频重建高分辨率人脸图像的系统，其特征在于，包括：

10.根据权利要求9所述的由模糊监控视频重建高分辨率人脸图像的系统，其特征在于，还包括：