CN110415172B

CN110415172B - 一种面向混合分辨率码流中人脸区域的超分辨率重建方法

Info

Publication number: CN110415172B
Application number: CN201910618147.XA
Authority: CN
Inventors: 肖晶; 肖尚武; 陈宇; 彭冬梅; 廖良; 朱荣
Original assignee: SUZHOU Institute OF WUHAN UNIVERSITY; Wuhan University WHU
Current assignee: SUZHOU Institute OF WUHAN UNIVERSITY; Wuhan University WHU
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2023-03-17
Anticipated expiration: 2039-07-10
Also published as: CN110415172A

Abstract

本发明公开了一种面向混合分辨率码流中人脸区域的超分辨率重建方法，包括基于视频编码的码流信息的高分辨率参考人脸生成，根据I帧中高分辨率人脸区域生成P帧低分辨率人脸区域的高清参考图像；基于人脸特征保持约束的卷积神经网络构建；基于人脸特征保持约束的卷积神经网络训练与测试，并使用训练好的网络实现低分辨率人脸图像的超分辨率重建。本发明基于视频编码的码流信息构建高分辨率参考图像，以高分辨率参考图像与超分辨率重建高清人脸图像之间人脸特征相似性为约束，指导低分辨率人脸图像的超分辨率重建过程，充分利用高分辨率图像中人脸特征信息，人脸特征保持完好，可显著提升解码后人脸区域的可识别性。

Description

一种面向混合分辨率码流中人脸区域的超分辨率重建方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种面向混合分辨率码流中人脸区域的超分辨率重建方法。

背景技术

近年来，随着“平安城市”建设的不断推进，我国的监控摄像机总数已经超过了3000万，这些摄像机每日产生海量监控视频，即使采集的监控视频通常已经过视频编码器，如x264编码过，其数据量仍然很大，为数据中心的存储能力提出了巨大挑战。

为了进一步降低监控视频的数据量，监控视频变分辨率编码方法被提出。该方法采用分层编码思想，首先对视频整体下采样编码，作为第一层低分辨率视频码流；其次对I帧进行人脸区域检测，提取人脸图像，保持原有分辨率编码，作为第二层高分辨率人脸图像码流。该方法可以在大幅降低码率的同时，保证I帧中人脸区域的质量。然而，P帧中人脸区域分辨率降低，在视频播放时存在明显的视觉跳变。因此，需要研究人脸区域超分辨率重建方法，提升P帧中低分辨率人脸的分辨率。

在现有的超分辨率重建技术中，与变分辨率编码最为契合的是基于参考的超分辨率重建方法。这一类方法使用与待超分辨率重建图像相似视角的高分辨率图像作为参考，指导低分辨率图像的超分辨率重建过程。通过卷积神经网络提取并融合参考图像与低分辨率图像特征，再经过特征解码获得最终超分辨率重建后的高清图像。

然而，本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

第一，现有的方法需要通过特征匹配将高清参考图像与待超分辨率重建图像配准，从而利用高分辨率参考图像中的信息。由于待超分辨率重建图像分辨率较低，其图像特征与对应的高分辨率图像特征存在一定差异，且特征匹配在噪声干扰的情况下鲁棒性较差，导致配准过程存在误差，超分辨率重建图像精度降低。第二，现有的方法较为普适，并未针对人脸特征保持的需求进行设计，超分辨率重建图像虽然包含细节信息，但关键的人脸特征可能丢失，导致人脸区域图像质量降低，影响人脸区域的可识别性。

发明内容

有鉴于此，本发明提供了一种面向混合分辨率码流中人脸区域的超分辨率重建方法，用以解决或者至少部分解决现有技术中的方法存在的超分辨率重建图像精度不高、可识别性不够的技术问题。

本发明提供了一种面向混合分辨率码流中人脸区域的超分辨率重建方法，包括：

步骤S1：根据I帧中高分辨率人脸区域生成P帧低分辨率人脸区域的高清参考图像；

步骤S2：构建基于人脸特征保持约束的卷积神经网络，包括：设计双流卷积神经网络，用以提取高分辨率参考图像与P帧低分辨率人脸图像特征，融合分辨率参考图像的特征和P帧低分辨率人脸图像特征，并解码得到P帧高分辨率人脸图像；

步骤S3：对卷积神经网络模型进行训练与测试，获得训练好的网络模型；

步骤S4：将待超分辨率重建的低分辨率人脸图像与步骤S1中生成的高分辨率参考图像输入训练好的网络模型，输出高分辨率人脸图像。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：对低分辨率视频码流进行解码，提取出低分辨率视频帧、人脸区域位置信息、视频帧宏块划分信息以及每个图像宏块的运动矢量信息；

步骤S1.2：根据人脸区域位置信息以及视频帧宏块划分信息提取人脸区域图像宏块；

步骤S1.3：对于P帧中每一个人脸区域图像宏块，根据对应的运动矢量信息在I帧中查找出对应的低分辨率参考图像宏块；

步骤S1.4：对高分辨率人脸图像码流进行解码，得到I帧中人脸区域的高分辨率图像；

步骤S1.5：根据I帧中人脸区域低分辨率图像宏块与高分辨率图像宏块的对应关系，查找出P帧中人脸区域图像宏块的高分辨率参考图像宏块；

步骤S1.6：将步骤S1.5中得到的所有高分辨率参考图像宏块拼接成P帧人脸区域的高分辨率参考图像。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：构建低分辨率人脸图像特征编码器分支，其中，该分支用于提取低分辨率人脸图像特征，包含6个卷积层与1个全连接层；

步骤S2.2：构建高分辨率参考图像特征编码器分支，其中，该分支用于提取高分辨率参考图像特征，包含6个卷积层与1个全连接层；

步骤S2.3：设置用以对低分辨率人脸图像的特征与高分辨率参考图像特征进行融合的全连接层；

步骤S2.4：构建融合特征解码器，用以对融合后特征进行解码，生成高分辨率人脸图像，其中，融合特征解码器包含2个全连接层与6个反卷积层。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：样本预处理，对于低分辨率人脸图像样本，统一缩放至40×40大小，对于高分辨率参考图像样本，统一缩放至160×160大小；

步骤S3.2：构建人脸特征保持约束与损失函数，设置网络初始参数，对网络模型进行训练，并使用反向传播算法更新网络参数。

在一种实施方式中，步骤S1.3中搜索低分辨率参考宏块的过程通过使用运动矢量进行位移实现，参考宏块在参考帧中的像素坐标表示为：

(x_ref，y_ref)＝(x_cur+u，y_cur+v) (1)

其中，(x_ref，y_ref)为参考宏块在参考帧中的坐标，(x_cur，y_cur)为当前宏块在当前帧中的坐标，(u，v)为当前宏块的运动矢量。

在一种实施方式中，步骤S2.1与步骤S2.2中，对于卷积层，每一层输入与输出的关系表示为：

y_out＝ρ(x_in*ω+b)↓ (2)

其中，x_in与y_out分别为该层的输入与输出信号，ω为卷积核，b为偏置，ρ(·)为激活函数，↓表示最大池化过程。

在一种实施方式中，步骤S2中涉及的所有全连接层都包含4096个神经元。

在一种实施方式中，步骤S3.2中，采用高清参考图像与网络输出的高清人脸图像的人脸特征点的相似度作为先验约束，损失函数表示为：

L＝||I_FH-I_oH||₂+μ·||F(I_FH)-F(I_OH)||₂ (3)

其中，I_FH为网络输出的高清人脸图像，I_OH为与其对应的高清人脸图像样本，F(·)为图像的人脸特征点，损失函数的第一项为重建误差项；第二项为先验约束项，用以约束网络输出高清人脸图像与高清参考图像具有相似的人脸特征信息；μ为平衡系数，用以调节第一项与第二项对于结果的影响。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种面向混合分辨率码流中人脸区域的超分辨率重建方法，首先，根据I帧中高分辨率人脸区域生成P帧低分辨率人脸区域的高清参考图像；然后，构建基于人脸特征保持约束的卷积神经网络，接着，对卷积神经网络模型进行训练与测试，获得训练好的网络模型；再将待超分辨率重建的低分辨率人脸图像与生成的高分辨率参考图像输入训练好的网络模型，输出高分辨率人脸图像。

与现有技术相比较，本发明基于视频编码码流信息构建高分辨率参考图像，以高分辨率参考图像与超分辨率重建高清人脸图像之间人脸特征相似性为约束，用以指导低分辨率人脸图像的超分辨率重建过程。相比于现有的基于参考的超分辨率重建方法，本发明可保持人脸特征，保障解码后人脸区域的可识别性，可以广泛应用于社区监控、智慧城市建设等方面。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种面向混合分辨率码流中人脸区域的超分辨率重建方法的流程示意图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在的超分辨率重建图像精度不高、可识别性不够的技术问题，提供的一种面向混合分辨率码流中人脸区域的超分辨率重建方法，用于提高混合分辨率码流解码后P帧中人脸区域的分辨率，提升人脸图像的清晰度和可识别性。

为达到上述目的，本发明的主要构思如下：

充分利用视频编码码流中包含的信息，根据I帧中高、低分辨率人脸图像间的关系以及I帧与P帧中低分辨率人脸图像监的关系，合成P帧中人脸区域的高分辨率参考图像，将其用于P帧中低分辨率人脸超分辨率过程；同时构建人脸特征保持约束，指导低分辨率人脸图像超分辨率重建过程，为P帧低分辨率人脸提供丰富的人脸特征信息，提升P帧人脸超分辨率重建后的图像质量和保真度，提高其可识别性。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种面向混合分辨率码流中人脸区域的超分辨率重建方法，请参见图1，该方法包括：

步骤S1：根据I帧中高分辨率人脸区域生成P帧低分辨率人脸区域的高清参考图像。

具体来说，步骤S1是根据获取的视频编码的码流信息，生成高分辨率参考人脸区域。I帧为帧内编码帧，P帧为帧间预测编码帧。

在一种实施方式中，步骤S1具体包括：

需要说明的是，上述步骤为与I帧相邻的P帧中低分辨率人脸区域的高分辨率参考图像生成方法，后续P帧中低分辨率人脸区域则采用经过超分辨率重建的前一个P帧生成高分辨率人脸参考图像。

其中，步骤S1.3中搜索低分辨率参考宏块的过程通过使用运动矢量进行位移实现，参考宏块在参考帧中的像素坐标表示为：

(x_ref，y_ref)＝(x_cur+u，y_cur+v) (1)

步骤S2：构建基于人脸特征保持约束的卷积神经网络，包括：设计双流卷积神经网络，用以提取高分辨率参考图像与P帧低分辨率人脸图像特征，融合分辨率参考图像的特征和P帧低分辨率人脸图像特征，并解码得到P帧高分辨率人脸图像。

具体来说，步骤S2是构建基于人脸特征保持约束的卷积神经网络，用于指导低分辨率人脸图像超分辨率重建过程，为P帧低分辨率人脸提供丰富的人脸特征信息，提升P帧人脸超分辨率重建后的图像质量和保真度，提高其可识别性。

在一种实施方式中，步骤S2具体包括：

具体来说，本发明针对混合分辨率码流，分别设置用于提取低分辨率人脸图像特征的低分辨率人脸图像特征编码器分支、用于提取高分辨率参考图像特征的高分辨率参考图像特征编码器分支，然后设置一个全连接层对二者的特征进行融合，最后设置一个融合特征解码器，从而可以生成高分辨率人脸图像。

其中，步骤S2.1与步骤S2.2中，对于卷积层，每一层输入与输出的关系表示为：

y_out＝ρ(x_in*ω+b)↓ (2)

并且，步骤S2中涉及的所有全连接层都包含4096个神经元。

步骤S3：对卷积神经网络模型进行训练与测试，获得训练好的网络模型。

在具体实施时，采用大量样本训练网络模型，并使用训练好的网络实现低分辨率人脸图像的超分辨率重建。

在一种实施方式中，步骤S3具体包括：

具体来说，首先对采集的样本进行预处理，即缩放至设置的大小。然后通过构建人脸特征保持约束与损失函数和初始参数，对网络模型进行训练，直到损失函数收敛。此外，还采用反向传播算法更新网络参数，从而使得模型的效果更佳。

其中，步骤S3.2中，采用高清参考图像与网络输出的高清人脸图像的人脸特征点的相似度作为先验约束，损失函数表示为：

L＝||I_FH-I_OH||₂+μ·||F(I_FH)-F(I_OH)||₂ (3)

其中，I_FH为网络输出的高清人脸图像，I_OH为与其对应的高清人脸图像样本，F(·)为图像的人脸特征点，损失函数的第一项为重建误差项，用以使得网络输出高清人脸图像应与真实高清人脸图像尽可能相似；第二项为先验约束项，用以约束网络输出高清人脸图像与高清参考图像具有相似的人脸特征信息；μ为平衡系数，用以调节第一项与第二项对于结果的影响。

具体来说，由于高分辨率参考图像具有较为完整的人脸特征，本发明中深度神经网络的作用是将这些人脸特征传递给网络输出的高清人脸图像，因此，本发明使用高清参考图像与网络输出的高清人脸图像的人脸特征点的相似度作为先验约束。具体实现时，本发明采用OpenCV检测并提取人脸特征点。

具体来说，通过前述步骤已经构建好网络模型，并经过训练和测试，得到了训练好的网络模型。那么，在具体应用过程中，则可以将将待超分辨率重建的低分辨率人脸图像与生成的高分辨率参考图像输入训练好的网络模型，从而得到高分辨率人脸图像，实现超分辨率重建。

本发明基于视频编码码流信息构建高分辨率参考图像，以高分辨率参考图像与超分辨率重建高清人脸图像之间人脸特征相似性为约束，指导低分辨率人脸图像的超分辨率重建过程，充分利用高分辨率图像中人脸特征信息，人脸特征保持完好，可显著提升解码后人脸区域的可识别性。

具体实施时，可采用软件方式实现以上流程的自动运行。通过采用以上流程进行实验可知，现有的基于参考的超分辨率方法依赖特征匹配，且未充分考虑人脸的特性，导致超分辨率重建图像中人脸关键信息的缺失。本发明基于视频编码的码流信息构建高分辨率参考图像，以高分辨率参考图像与超分辨率重建高清人脸图像之间人脸特征相似性为约束，指导低分辨率人脸图像的超分辨率重建过程，充分利用高分辨率图像中人脸特征信息，人脸特征保持完好，可显著提升解码后人脸区域的可识别性。

基于本发明执行步骤1～4所得的结果，如表1所示，相较于现有的基于参考的超分辨率重建方法，其PSNR提升1.32dB，人脸识别准确率提升9.85％。

表1

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向混合分辨率码流中人脸区域的超分辨率重建方法，其特征在于，包括：

步骤S1：根据I帧中高分辨率人脸区域生成P帧低分辨率人脸区域的高清参考图像，具体为：根据I帧中高、低分辨率人脸图像间的关系以及I帧与P帧中低分辨率人脸图像间的关系，生成P帧低分辨率人脸区域的高清参考图像；

步骤S2：构建基于人脸特征保持约束的卷积神经网络，包括：设计双流卷积神经网络，用以提取高分辨率参考图像与P帧低分辨率人脸图像特征，融合分辨率参考图像的特征和P帧低分辨率人脸图像特征，并解码得到P帧高分辨率人脸图像，其中，以高分辨率参考图像与超分辨率重建高清人脸图像之间人脸特征相似性为约束，用以指导低分辨率人脸图像的超分辨率重建过程；

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

3.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

4.如权利要求1所述的方法，其特征在于，步骤S3具体包括：

5.如权利要求2所述的方法，其特征在于，步骤S1.3中搜索低分辨率参考宏块的过程通过使用运动矢量进行位移实现，参考宏块在参考帧中的像素坐标表示为：

(x_ref,y_ref)＝(x_cur+u,y_cur+v) (1)

其中，(x_ref,y_ref)为参考宏块在参考帧中的坐标，(x_cur,y_cur)为当前宏块在当前帧中的坐标，(u,v)为当前宏块的运动矢量。

6.如权利要求3所述的方法，其特征在于，步骤S2.1与步骤S2.2中，对于卷积层，每一层输入与输出的关系表示为：

y_out＝ρ(x_in*ω+b)↓ (2)

7.如权利要求1所述的方法，其特征在于，步骤S2中涉及的所有全连接层都包含4096个神经元。

8.如权利要求4所述的方法，其特征在于，步骤S3.2中，采用高清参考图像与网络输出的高清人脸图像的人脸特征点的相似度作为先验约束，损失函数表示为：

L＝‖I_FH-I_OH‖₂+μ·‖F(I_FH)-F(I_OH)‖₂ (3)

其中，I_FH为网络输出的高清人脸图像，I_OH为与其对应的高清人脸图像样本，F(·)为图像的人脸特征点，损失函数的第一项为重建误差项；第二项为先验约束项，用以约束网络输出高清人脸图像；μ为平衡系数，用以调节第一项与第二项对于结果的影响。