CN112053408A

CN112053408A - 基于深度学习的人脸图像压缩方法及装置

Info

Publication number: CN112053408A
Application number: CN202010925736.5A
Authority: CN
Inventors: 段一平; 陶晓明; 胡舒展; 刘永嘉; 张栩铭; 陆建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-08
Anticipated expiration: 2040-09-04
Also published as: CN112053408B

Abstract

本发明提供了一种基于深度学习的人脸图像压缩方法及装置，涉及图像处理的技术领域，包括：先基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；然后利用量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；再利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；最后将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。本发明将平均人脸图像和主动外观模型作为先验知识，且采用训练好的卷积神经网络编码器对纹理分量进行编码压缩的方式可以得到低维度特征表示的第二压缩结果，降低了纹理分量的冗余度，提高了人脸图像的压缩效率。

Description

基于深度学习的人脸图像压缩方法及装置

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于深度学习的人脸图像压缩方法及装置。

背景技术

随着互联网技术的发展，以视频为主体的移动多媒体数据急剧增长，超过5G带宽增速，导致超高清视频业务面临研究挑战。在目前或者可见的将来，信息产生的体量和对应的传输技术在增长速度上会产生一定程度的脱节。数据规模的不断扩张，使其与无线带宽资源之间的矛盾日益突出。在全球新冠疫情期间，远程诊疗、远程探视、远程会议、远程办公等已经悄然成为常态，而人脸图像是相关业务的主要载体，目前大多采用JPEG 2000视频编码标准进行人脸图像压缩，由于采用JPEG 2000标准处理算法比较复杂，因此其处理每一帧人脸图像的时间较长，因而大幅提升人脸图像压缩效率仍然是难题。

发明内容

本发明的目的在于提供一种基于深度学习的人脸图像压缩方法及装置，以缓解现有技术中存在的压缩复杂度高、人脸图像压缩效率较低的技术问题。

第一方面，本发明提供的一种基于深度学习的人脸图像压缩方法，其中，包括：基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；利用量化熵编码器对所述形状分量进行编码压缩，得到第一压缩结果；利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果；将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

进一步的，基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量，包括：获取平均人脸图像的预设标志点坐标；将所述测试人脸图像输入至所述主动外观模型，得到测试人脸图像的面部标志点坐标；基于所述测试人脸图像的面部标志点坐标和所述平均人脸图像的预设标志点坐标，确定测试人脸图像的预设标志点坐标；基于测试人脸图像的预设标志点坐标，确定所述形状分量；基于所述形状分量与纹理分量之间的预设关系和所述形状分量，确定所述纹理分量。

进一步的，所述训练好的卷积神经网络编码器包括至少一个卷积块，每个所述卷积块包括：至少一个卷积层、至少一个池化层和第一激活层；利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果，包括：将所述纹理分量输入至所述训练好的卷积神经网络编码器，经所述卷积层、所述池化层和所述第一激活层学习特征，得到特征图像；将所述特征图像确定为所述第二压缩结果。

进一步的，在将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果之后，方法还包括：利用反量化熵解码器对所述第一压缩结果进行解码，得到重建的形状分量；利用训练好的反卷积神经网络解码器对所述第二压缩结果进行解码，得到重建的纹理分量；将所述重建的形状分量和所述重建的形状分量进行融合，得到与所述测试人脸对应的重建人脸图像。

进一步的，所述训练好的反卷积神经网络解码器包括至少一个反卷积块，每个所述反卷积块包括：至少一个反卷积层和第二激活层；利用训练好的反卷积神经网络解码器对所述第二压缩结果进行解码，得到重建的纹理分量，包括：将所述第二压缩结果输入至所述训练好的反卷积神经网络解码器，经所述反卷积层和所述第二激活层特征提取，得到反卷积图像；将所述反卷积图像确定为所述重建的纹理分量。

进一步的，在将所述重建的形状分量和所述重建的形状分量进行融合，得到与所述测试人脸对应的重建人脸图像之后，方法还包括：基于所述测试人脸图像，对所述重建人脸图像进行质量评价，得到质量评价结果。

进一步的，所述方法还包括：获取训练样本集，所述训练样本集中包括预设个数的训练样本，所述训练样本包括：原始人脸图像，原始纹理分量，重建的原始纹理分量，重建原始人脸图像；基于所述训练样本集和预设优化目标，对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，得到训练好的卷积神经网络编码器和训练好的反卷积神经网络解码器；其中，所述预设优化目标包括：所述原始纹理分量与所述重建的原始纹理分量之间的均方误差函数，和所述原始人脸图像和重建原始人脸图像之间的结构相似性函数。

第二方面，本发明提供的一种基于深度学习的人脸图像压缩装置，其中，包括：分解模块，用于基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；第一编码模块，用于利用量化熵编码器对所述形状分量进行编码压缩，得到第一压缩结果；第二编码模块，利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果；确定模块，用于将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现的所述的基于深度学习的人脸图像压缩方法的步骤。

第四方面，本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，所述程序代码使所述处理器执行所述的基于深度学习的人脸图像压缩方法。

本发明提供的一种基于深度学习的人脸图像压缩方法及装置，先基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；然后利用量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；再利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；最后将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。一方面，本发明将平均人脸图像和主动外观模型作为先验知识，可以将测试人脸图像分解为不同数据量、不同冗余度的两个分量：形状分量和纹理分量，针对不同冗余度的两个分量采用不同的压缩方式，可以确保后期人脸图像的重建质量；另一方面，本发明采用训练好的卷积神经网络编码器对纹理分量进行编码压缩的方式可以得到低维度特征表示的第二压缩结果，降低了纹理分量的冗余度，提高了人脸图像的压缩效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习的人脸图像压缩方法的流程图；

图2为图1中步骤S101的流程图；

图3为本发明实施例提供的另一种基于深度学习的人脸图像压缩方法的流程图；

图4为本发明实施例提供的一种基于深度学习的人脸图像压缩方法的框图；

图5(a)为人脸原始图像；

图5(b)是采用本发明所提供方法获得的重建人脸图像；

图5(c)是采用JPEG方法获得的重建人脸图像；

图5(d)是采用JPEG2000方法获得的重建人脸图像；

图6(a)是某张人脸图像的原始图像；

图6(b)是采用未经过人脸图像分解的深度学习方法获得的人脸图像重建结果；

图6(c)是采用本发明实施例提出的基于深度学习的人脸图像压缩方法获得的人脸图像重建结果；

图7为本发明实施例提供的再一种基于深度学习的人脸图像压缩方法的示例图；

图8(a)是基于传统机器学习方法的人脸图像压缩结果；

图8(b)是通过再一种基于深度学习的人脸图像压缩方法获得的重建结果；

图9为本发明实施例提供的一种基于深度学习的人脸图像压缩装置的结构示意图。

图标：

11-分解模块；12-第一编码模块；13-第二编码模块；14-确定模块。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网技术的发展，以视频为主体的移动多媒体数据急剧增长，超过5G带宽增速，导致超高清视频业务面临研究挑战。Cisco Visual Network Index指出，从2017到2022的五年间，全球IP流量将增长3倍；互联网流量繁忙时段将增长4.8倍，平均将增长3.7倍，视频、游戏和多媒体将占据数据流量的85％以上。这表明无线视频已经成为并将持续作为无线通信最主要的信息传输载体。着眼于更远的未来，当下最具有发展潜力的新型无线通信技术大多建立于现有无线视频通信技术基础之上。在可见的未来，无线视频通信技术仍然会是通信领域最为重要和最具潜力的研究热点。与之对应的是，2022年全球固定宽带平均速度将从2017年的39Mbps发展到75.4Mbps，增长接近1倍，同时平均Wi-Fi连接速度增长逾1倍。在目前或者可见的将来，信息产生的体量和对应的传输技术在增长速度上会产生一定程度的脱节。数据规模的不断扩张，使其与无线带宽资源之间的矛盾日益突出。在全球新冠疫情期间，远程诊疗、远程探视、远程会议、远程办公等已经悄然成为常态，人脸图像是相关业务的主要载体，如何在低码率下获得高质量的人脸图像，是必须要解决的问题。

传统的解决途径是对多媒体数据进行压缩编码或提升通信系统的网络容量。然而，视频分辨率不断提高，4K分辨率的超高清视频正在成为主流，8K视频成为未来媒体的发展趋势。据悉，此前日本准备在第32届夏季奥运会中使用8K技术进行转播；此外，2022年北京冬奥会正在加速推进AVS3+8K+5G超高清视频布局。8K视频1秒传输的数据量达到47Gb，这对JPEG，JPEG 2000，MPEG2，HEVC，H.264等视频编码标准提出了更加严峻的挑战。以264到265为例，编码性能虽然提升了50％，但是复杂度却提升了近10倍，因而大幅提升视频压缩效率仍然是难题。

人脸图像在视频会议、视频监控等场景中是非常重要的信息组成部分。目前，针对人脸图像的压缩方法有以下三种：第一种是传统的压缩方法，例如：JPEG和JPEG2000，这类方法未考虑图像的内容，不能利用人脸图像的特点进行压缩，因此不能针对人脸图像进行高效的压缩，且在低码率条件下，JPEG等方法容易出现块效应，人脸图像的重建质量受到影响。第二种是采用深度学习方法对人脸图像进行处理，现有的一种方法是将人脸图像的压缩过程分为基础层和增强层，在基础层使用深度学习方法对人脸图像进行压缩，在增强层对残差进行编码传输。使用该方法能够获得较好的重建效果，但是需要对重建图像的残差进行编码传输，因此在低码率、高压缩比的情况下其性能受到限制。另外，其编码端和解码端分别进行优化，只使用基础层时无法获得具有较高保真度和较高质量的重建图像。第三种是在人脸图像重建过程中使用了梯度特征，根据梯度特征对人脸图像的纹理图像块进行聚类，在重建时选择对应的图像块进行人脸图像重建。第三种方法能够获得较高的压缩比，但是梯度特征作为图像特征较为单一，不能很好地反映出人脸图像的特点，并且该方法不涉及更多的人脸先验知识，例如人脸模型。

基于此，本发明实施例提供了一种基于深度学习的人脸图像压缩方法及装置，提升人脸图像压缩效率，进而实现在极低码率通信的条件下，保持较高的图像重建质量。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于深度学习的人脸图像压缩方法进行详细描述。

实施例1：

根据本发明实施例，提供了一种基于深度学习的人脸图像压缩方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例提供的一种基于深度学习的人脸图像压缩方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；

在本发明实施例中，纹理分量包括测试人脸图像的边缘、轮廓和包含眼睛、鼻子、嘴巴等的面部特征，这些特征包含大量冗余信息。而形状分量是反映测试人脸形状的向量数组，且不同测试人脸图像的形状分量具有较强的特异性。

步骤S102，利用量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；

在本发明实施例中，由于形状分量是通过主动外观模型(Active AppearanceModel，AAM)提取到的向量，可以看作是一列数组，其数据量较小，冗余度较低，因此可以使用量化及熵编码的方法对形状分量进行编码压缩。而纹理分量和形状分量的数据量和冗余度不同，因此需要使用区别于量化及熵编码方法的其他编码压缩方法来对纹理分量进行压缩。

步骤S103，利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；

步骤S104，将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

结合图4可知，本发明实施例提供的一种基于深度学习的人脸图像压缩方法可以包含分解模块A、编码器E、解码器D和组合模块C四个模块，其中，图4中的分解模块也可以称为人脸图像分解模块，相当于下述图9中的分解模块，该模块以测试人脸图像作为输入对象，使用主动外观模型，利用从训练样本集中计算得到的平均人脸图像将测试人脸图像分解为纹理分量和形状分量。也就是说，该人脸图像分解模块用于执行上述步骤S101。

编码器也可以称为人脸图像编码模块，具体指：量化熵编码器或训练好的卷积神经网络编码器，用于执行步骤S102～步骤S103，其中，训练好的卷积神经网络编码器可以利用TensorFlow框架实现。而解码器和组合模块则在下文中进行具体描述。编码器该模块以测试人脸图像的纹理分量和形状分量作为输入对象，针对形状分量，使用量化及熵编码方法获得形状分量的第一压缩结果；针对纹理分量，使用基于深度卷积神经网络的编码器(即上述训练好的卷积神经网络编码器)，获得纹理分量的特征图作为第二压缩结果。

本发明实施例提供的一种基于深度学习的人脸图像压缩方法，先基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；然后利用量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；再利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；最后将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。一方面，本发明实施例将平均人脸图像和主动外观模型作为先验知识，可以将测试人脸图像分解为不同数据量、不同冗余度的两个分量：形状分量和纹理分量，针对不同冗余度的两个分量采用不同的压缩方式，可以确保后期人脸图像的重建质量；另一方面，本发明实施例采用训练好的卷积神经网络编码器对纹理分量进行编码压缩的方式可以得到低维度特征表示的第二压缩结果，降低纹理分量的冗余度，提高人脸图像的压缩效率。

在一个可选的实施例中，如图2所示，步骤S101，基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量，包括以下步骤：

步骤S201，获取平均人脸图像的预设标志点坐标；

步骤S202，将测试人脸图像输入至主动外观模型，得到测试人脸图像的面部标志点坐标；

步骤S203，基于测试人脸图像的面部标志点坐标和平均人脸图像的预设标志点坐标，确定测试人脸图像的预设标志点坐标；

步骤S204，基于测试人脸图像的预设标志点坐标，确定形状分量；

步骤S205，基于形状分量与纹理分量之间的预设关系和形状分量，确定纹理分量。

在本发明实施例中，预设标志点的数量可以是58个，也可以是其他个数，本发明实施例对此不作具体限定。在主动外观模型中，平均人脸图像的形状分量可以利用预设标志点构成的形状向量来表示，本实施例可以使用58个预设标志点来表示平均人脸图像的形状分量。对于输入的测试人脸图像，首先对测试人脸图像的三个面部标志点(例如：左眼、右眼和嘴唇)进行标注。根据这三个面部标志点坐标以及平均人脸图像的58个预设标志点坐标，通过仿射变换能够获得该测试人脸图像的58个预设标志点坐标。之后可以根据主观感觉调整58个预设标志点的位置，最终得到的58个预设标志点坐标即为该测试人脸图像的形状分量。之后，对该测试人脸图像的58个预设标志点构造Delaunay三角形，并利用Procrustes分析对每个特征三角形进行仿射变换。将测试人脸图像的形状投影到平均形状分量上，经过像素填充处理后可以得到该测试人脸图像的纹理分量。

测试人脸图像、形状分量和纹理分量之间的关系可以表示如下：

I_original＝warp^-1(C_shape,C_texture)

其中，I_original表示测试人脸图像，warp^-1表示将纹理分量C_texture的形状变形到形状分量C_shape上的过程。

在一个可选的实施例中，训练好的卷积神经网络编码器包括至少一个卷积块，每个卷积块包括：至少一个卷积层、至少一个池化层和第一激活层；

步骤S103，利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果，可以包括以下步骤：

步骤1，将纹理分量输入至训练好的卷积神经网络编码器，经卷积层、池化层和第一激活层学习特征，得到特征图像；

步骤2，将特征图像确定为第二压缩结果。

利用训练好的卷积神经网络编码器对纹理分量进行编码压缩。训练好的卷积神经网络编码器的输入是纹理分量，通过多层卷积神经网络的卷积运算，输出低维特征表示的特征图，进而可以减少测试人脸图像在传输过程中的数据量。以6个卷积块组成的训练好的卷积神经网络编码器为例，对其结构进行具体介绍：每个卷积块均由卷积层、池化层以及激活层组成。卷积层中，卷积核的尺寸均为3×3，卷积的通道数均为32，步长为1。池化层选择最大池化方法，池化层卷积核尺寸为2×2，步长为2。激活层中，卷积块的激活层均使用ReLU激活函数。纹理分量通过该训练好的卷积神经网络编码器后，得到的特征图像的尺寸为

其中，W代表输入的测试人脸图像的宽，H代表输入的测试人脸图像的高，C代表特征图像的通道数。

在一个可选的实施例中，如图3所示，在步骤S104，将第一压缩结果和第二压缩结果确定为人脸图像压缩结果之后，方法还包括：

步骤S105，利用反量化熵解码器对第一压缩结果进行解码，得到重建的形状分量；

步骤S106，利用训练好的反卷积神经网络解码器对第二压缩结果进行解码，得到重建的纹理分量；

步骤S107，将重建的形状分量和重建的形状分量进行融合，得到与测试人脸对应的重建人脸图像。

在本发明实施例中，图4中的解码器可以称为人脸图像解码模块，用于表示反量化熵解码器或训练好的反卷积神经网络解码器，可以用于执行步骤S105～步骤S106。针对第二压缩结果，通过基于反卷积神经网络的解码器(即上述训练好的反卷积神经网络解码器)对其进行解码，可以获得重建的纹理分量，而与形状分量对应的第一压缩结果可以通过熵解码及反量化方法获得重建的形状分量。图4中的组合模块可以称为人脸图像重建模块，用于执行步骤S107，该模块通过主动外观模型，将重建的纹理分量和形状分量进行融合，获得最终测试人脸图像的重建结果(即上述重建人脸图像)。组合模块可以利用主动外观模型对重建的纹理分量和重建的形状分量进行组合，进而在解码端获得重建人脸图像。其中，重建的纹理分量、重建的形状分量以及重建人脸图像的关系如下式所示。

其中，

表示重建人脸图像，warp^-1表示将重建的纹理分量

的形状变形到重建的形状分量

上的过程。

在一个可选的实施例中，训练好的反卷积神经网络解码器包括至少一个反卷积块，每个反卷积块包括：至少一个反卷积层和第二激活层；步骤S106，利用训练好的反卷积神经网络解码器对第二压缩结果进行解码，得到重建的纹理分量，包括：步骤1061，将第二压缩结果输入至训练好的反卷积神经网络解码器，经反卷积层和第二激活层特征提取，得到反卷积图像；步骤1062，将反卷积图像确定为重建的纹理分量。

在本发明实施例中，训练好的反卷积神经网络解码器利用反卷积网络对低维特征表示的第二压缩结果进行解码。由于训练好的反卷积神经网络解码器的输入是低维特征，通过多层反卷积神经网络的运算，可以输出用低维特征表示的反卷积图像。该训练好的反卷积神经网络解码器与卷积神经网络编码器在结构上具有一定的相似性，在卷积神经网络编码器由6个卷积块组成时，该训练好的反卷积神经网络解码器主要由6个反卷积块组成，其中，每个反卷积块由反卷积层和激活层组成，且反卷积核尺寸为3×3，反卷积的步长均为2。反卷积层中，最后一层反卷积层的通道数为1，其余层的通道数为32。激活层中，最后一层卷积块的激活层使用tanh激活函数，其他反卷积块的激活层均使用ReLU激活函数。

在一个可选的实施例中，如图3所示，在步骤S107，将重建的形状分量和重建的形状分量进行融合，得到与测试人脸对应的重建人脸图像之后，还包括：

步骤S108，基于测试人脸图像，对重建人脸图像进行质量评价，得到质量评价结果。

在一个可选的实施例中，如图3所示，方法还包括：

步骤S109，获取训练样本集，训练样本集中包括预设个数的训练样本，训练样本包括：原始人脸图像，原始纹理分量，重建的原始纹理分量，重建原始人脸图像。

在本发明实施例中，在利用训练好的卷积神经网络编码器进行编码之前，可以先构建训练样本集，本发明所提出的方法基于卷积神经卷积网络以及反卷积神经网络，因此可以通过大量的训练样本进行训练，训练样本集中的训练样本可以通过摄像头等图像采集设备获取，也可以采用互联网中的公开人脸图像数据集获取，对此不作具体限定。

步骤S110，基于训练样本集和预设优化目标，对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，得到训练好的卷积神经网络编码器和训练好的反卷积神经网络解码器。

在本发明实施例中，预设优化目标包括：原始纹理分量与重建的原始纹理分量之间的均方误差函数，和原始人脸图像和重建原始人脸图像之间的结构相似性函数。本发明实施例可以针对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，具体的，使用均方误差(Mean Squared Error，MSE)和结构相似性(Structural Similarity，SSIM)作为训练过程的优化目标，最终用于确保人脸图像的重建质量。原始纹理分量可以指样本原始纹理分量，重建的原始纹理分量是指重建的样本纹理分量，因此原始纹理分量与重建的原始纹理分量之间的均方误差函数，即为重建的样本纹理分量与样本原始纹理分量之间的均方误差函数，该均方误差函数可以通过下式计算：

其中，I和K均为m×n的图像，I表示样本原始纹理分量，K表示重建的样本纹理分量。重建原始人脸图像与原始人脸图像之间的SSIM可由以下公式计算。

其中，μ_x和μ_y分别表示原始人脸图像x和重建原始人脸图像y的平均值。σ_x和σ_y分别表示x和y的标准差，σ_xy表示x和y的协方差，c₁和c₂均为常数。

将MSE作为优化过程的损失函数，公式如下所示：

将SSIM作为优化过程的损失函数，公式如下所示：

因此，对卷积神经网络编码器和反卷积神经网络解码器进行训练的过程可以按照以下步骤进行：步骤1，对卷积神经网络编码器及反卷积神经网络解码器进行参数初始化；步骤2，在训练样本集中随机选取一个训练样本，将训练样本中的原始纹理分量输入卷积神经网络编码器中，计算上述两个损失函数，进行梯度下降，更新卷积神经网络编码器和反卷积神经网络解码器的网络参数；步骤3，判断上述两个损失函数是否收敛，若均收敛则符合完成条件，并将训练获得的两个模型进行保存，得到训练好的卷积神经网络编码器和训练好的反卷积神经网络解码器。该方法对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，以峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)及SSIM指标作为预设优化目标，能够获得较好的重建质量。

本发明提供的基于深度学习的人脸图像压缩方法，能够应用于视频会议、视频监控过程中，人脸图像作为特殊的对象在通信过程中是重要的信息组成部分，因此本发明提出的该方法在教育、医疗以及工业领域有着较为广泛的应用。

将本实施例提供的基于深度学习的人脸图像压缩方法应用到实例中，可以进行如下说明：

第一步：首先进行实验设置，在该实验过程中，使用公开的人脸图像数据集Brazilian FEI数据集。该数据集中有正面人脸图像200张，人脸图像的原始大小为640×480像素，有3个通道。实验中保留256×384像素的人脸图像区域，去除无效的背景区域，并以单通道灰度图像作为实验材料。在该数据集中随机选择160张图像作为训练样本集，其余图像作为测试集。同时，为了扩展人脸图像数据集，可以使用主动外观模型AAM结合主成分分析PCA的方法从Brazilian FEI数据集中生成1000张人脸图像，可以在其中随机选择800张人脸图像作为训练样本集，其余图像作为测试集。训练过程中，设置学习率为1×10^-4，BatchSize为20，使用Adam优化器，动量为0.9。对比算法采用JPEG和JPEG2000。

第二步：进行结果评价，首先，通过视觉效果评估人脸图像的重建质量。图5(a)～图5(d)中的第一行图像是来自Brazilian FEI数据集中的人脸图像的压缩结果。第二行和第三行图像显示了从Brazilian FEI数据集中生成的人脸图像的压缩结果。图5(a)为人脸原始图像；图5(b)是采用本发明所提供方法获得的重建人脸图像，能够看出本方法在较大压缩比情况下取得了较好的重建质量，具有较高的保真度，纹理细节也获得了较好的保留；图5(c)是采用JPEG方法获得的重建人脸图像，能够看出在较大压缩比情况下块效应明显，图像较为模糊；图5(d)是采用JPEG2000方法获得的重建人脸图像，能够看出在较大压缩比情况下图像较为模糊。从各个重建人脸图像可以看出，本发明提供的基于深度学习的人脸图像压缩结果比JPEG和JPEG2000的纹理重建更清晰，并且具有较低的失真度。

同时，实验中还采用计算PSNR及SSIM客观指标来评价人脸图像的重建效果。表1显示了使用AAM结合PCA方法生成的人脸图像数据集中5幅图像在不同压缩比下通过压缩网络后的SSIM和PSNR指标，并与传统的JPEG和JPEG2000算法进行了比较。

表1不同算法的PSNR和SSIM指标

续表

如表1所示，在高压缩比下，本发明所提供方法的PSNR和SSIM指标优于JPEG和JPEG2000。从图5(a)～图5(d)和表1可以看出，在低比特率和高压缩比情况下，该方法的重建质量优于JPEG和JPEG2000。

综上所述，利用本发明提供的基于深度学习的人脸图像压缩方法，进行人脸图像的通信传输，具有以下优点：

(1)利用人脸模型(即上述主动外观模型)及先验知识对测试人脸图像进行分解，能够根据不同分量的不同冗余度选择不同的压缩方法，从而确保测试人脸图像的重建质量。并且利用从训练样本集中获得的平均人脸图像和人脸模型作为先验知识，针对待压缩的测试人脸图像进行分解，可以分解为形状分量和纹理分量，进而使用不同的压缩方法处理不同分量，确保测试人脸图像的重建质量；

(2)利用基于卷积网络和反卷积网络的深度学习方法，对测试人脸图像的纹理分量进行压缩，能够获得纹理分量的低维特征表示，从而实现较大的压缩比。测试人脸图像的纹理分量具有较大的数据量和较大的冗余度，因此本发明设计的卷积网络及反卷积网络能够较大程度地降低纹理分量的冗余度，获得其低维特征表示，在低码率情况下也能获得较好的重建质量；

(3)训练时使用MSE及SSIM作为损失函数，对编码器和解码器进行联合优化，能够提高重建图像的保真度，确保重建人脸图像的质量。

实施例2：

根据上述实施例1提供的方法可知，利用平均人脸图像与主动外观模型对人脸图像进行分解，并对形状分量和纹理分量两种分量采用不同的压缩方法，使得人脸图像的形状分量能够较好地重建出来，相比于未经过人脸图像分解的深度学习压缩方法，本实施例所提供的方法能够获得更加清晰的人脸轮廓。如图6(a)～图6(c)所示，图6(a)是某张人脸图像的原始图像，图6(b)是采用未经过人脸图像分解的深度学习方法获得的人脸图像重建结果，从图中能够看出，未采用平均人脸图像和主动外观模型对人脸图像进行分解的结果，其形状轮廓不清晰，人脸的辨识度下降。图6(c)是采用本发明实施例提出的基于深度学习的人脸图像压缩方法获得的人脸图像重建结果，从以上三个图中能够看出，采用平均人脸图像和主动外观模型对人脸图像进行分解的结果，其人脸图像形状轮廓清晰。

实施例3：

根据上述实施例1提供的方法可知，本发明实施例利用平均人脸图像与主动外观模型将人脸图像的纹理分量分解出来，使用卷积神经网络方法对其进行压缩。在对测试人脸图像的纹理分量进行压缩时，纹理分量包括测试人脸图像的边缘、轮廓和包含眼睛、鼻子、嘴巴等的面部特征，针对不同特征的重要性，可以选择不同的卷积神经网络对特征进行压缩。因此，本发明实施例在实施过程中，可以包括纹理分量总体压缩过程和面部关键特征压缩过程两条路径。具体的，如图7所示，图7提供了再一种基于深度学习的人脸图像压缩方法，该方法是一种针对人脸图像纹理分量压缩再重建的方法。其中，在第一条路径中，纹理分量总体压缩过程见实施例1中由6个卷积块组成的卷积神经网络编码器的使用过程，在此不做赘述。在第二条路径中，可以将眼睛、鼻子、嘴巴等面部关键特征分解出来，通过单独的网络进行压缩。眼睛、鼻子、嘴巴等关键面部特征均拥有其各自的压缩网络进行压缩，这些面部关键特征的压缩网络结构相似。例如，每个压缩网络均由5个卷积块组成的卷积神经网络构成，每个卷积块均由卷积层、池化层以及激活层组成。卷积层中，卷积核的尺寸均为3×3，卷积的通道数均为32，步长为1。池化层选择最大池化方法，池化层卷积核尺寸为2×2，步长为2。激活层中，卷积块的激活层均使用ReLU激活函数。纹理分量通过该训练好的卷积神经网络编码器后，得到的特征图像的尺寸为

其中，W代表输入的面部关键特征的宽，H代表输入的面部关键特征的高，C代表特征图像的通道数。

根据本实施例提供的纹理分量压缩网络(即卷积神经网络编码器和上述单独的网络)，在高压缩比低码率情况下能够获得更多的纹理细节，能够提高重建图像的保真度和客观指标。如图8(a)～图8(b)所示，图8(a)中是基于传统机器学习方法的人脸图像压缩结果，从图中可以看到，重建出的图像纹理细节丢失严重，人脸图像的保真度和视觉效果均一般，图8(b)是通过再一种基于深度学习的人脸图像压缩方法获得的重建结果，从图中可以看出，通过纹理分量总体压缩过程和面部关键特征压缩过程两条路径后，更多的纹理细节能够被重建出来，人脸图像的保真度和视觉效果有所提升。

实施例4：

本发明实施例提供了一种基于深度学习的人脸图像压缩装置，该基于深度学习的人脸图像压缩装置主要用于执行实施例1上述内容所提供的基于深度学习的人脸图像压缩方法，以下对本发明实施例提供的基于深度学习的人脸图像压缩装置做具体介绍。

图9为本发明实施例提供的一种基于深度学习的人脸图像压缩装置的结构示意图。如图9所示，该基于深度学习的人脸图像压缩装置，主要包括：分解模块11、第一编码模块12，第二编码模块13和确定模块14，其中：

分解模块11，用于基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；

第一编码模块12，用于利用量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；

第二编码模块13，利用训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；

确定模块14，用于将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

本发明提供的一种基于深度学习的人脸图像压缩装置，先利用分解模块11基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；然后利用第一编码模块12中的量化熵编码器对形状分量进行编码压缩，得到第一压缩结果；再利用第二编码模块13中训练好的卷积神经网络编码器对纹理分量进行编码压缩，得到第二压缩结果；最后利用确定模块14将第一压缩结果和第二压缩结果确定为人脸图像压缩结果。一方面，本发明实施例将平均人脸图像和主动外观模型作为先验知识，可以将测试人脸图像分解为不同数据量、不同冗余度的两个分量：形状分量和纹理分量，针对不同冗余度的两个分量采用不同的压缩方式，可以确保后期人脸图像的重建质量；另一方面，本发明实施例采用训练好的卷积神经网络编码器对纹理分量进行编码压缩的方式可以得到低维度特征表示的第二压缩结果，降低纹理分量的冗余度，提高人脸图像的压缩效率。

可选地，分解模块11，包括：获取子模块、输入子模块、第一确定子模块、第二确定子模块和第三确定子模块，其中：

获取子模块，用于获取平均人脸图像的预设标志点坐标；

第一输入子模块，用于将测试人脸图像输入至主动外观模型，得到测试人脸图像的面部标志点坐标；

第一确定子模块，用于基于测试人脸图像的面部标志点坐标和平均人脸图像的预设标志点坐标，确定测试人脸图像的预设标志点坐标；

第二确定子模块，用于基于测试人脸图像的预设标志点坐标，确定形状分量；

第三确定子模块，用于基于形状分量与纹理分量之间的预设关系和形状分量，确定纹理分量。

可选地，训练好的卷积神经网络编码器包括至少一个卷积块，每个卷积块包括：至少一个卷积层、至少一个池化层和第一激活层；

第二编码模块13，包括：第二输入子模块和第四确定子模块，其中：

第二输入子模块，用于将纹理分量输入至训练好的卷积神经网络编码器，经卷积层、池化层和第一激活层学习特征，得到特征图像；

第四确定子模块，用于将特征图像确定为第二压缩结果。

可选地，所述装置还包括：第一解码模块，第二解码模块和融合模块，其中：

第一解码模块，用于利用反量化熵解码器对第一压缩结果进行解码，得到重建的形状分量；

第二解码模块，用于利用训练好的反卷积神经网络解码器对第二压缩结果进行解码，得到重建的纹理分量；

融合模块，用于将重建的形状分量和重建的形状分量进行融合，得到与测试人脸对应的重建人脸图像。

可选地，训练好的反卷积神经网络解码器包括至少一个反卷积块，每个反卷积块包括：至少一个反卷积层和第二激活层；

第二解码模块，包括提取子模块和第五确定子模块：

提取子模块，用于将第二压缩结果输入至训练好的反卷积神经网络解码器，经反卷积层和第二激活层特征提取，得到反卷积图像；

第五确定子模块，用于将反卷积图像确定为重建的纹理分量。

可选地，所述装置还包括质量评价模块，其中：

质量评价模块，用于基于测试人脸图像，对重建人脸图像进行质量评价，得到质量评价结果。

可选地，装置还包括：

获取模块，用于获取训练样本集，训练样本集中包括预设个数的训练样本，训练样本包括：原始人脸图像，原始纹理分量，重建的原始纹理分量，重建原始人脸图像；

联合优化模块，用于基于训练样本集和预设优化目标，对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，得到训练好的卷积神经网络编码器和训练好的反卷积神经网络解码器；其中，预设优化目标包括：原始纹理分量与重建的原始纹理分量之间的均方误差函数，和原始人脸图像和重建原始人脸图像之间的结构相似性函数。

在一个可选的实施例中，本实施例还提供一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法实施例方法的步骤。

在一个可选的实施例中，本实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，所述程序代码使所述处理器执行上述方法实施例方法。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本实施例所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的人脸图像压缩方法，其特征在于，包括：

基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；

利用量化熵编码器对所述形状分量进行编码压缩，得到第一压缩结果；

利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果；

将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

2.根据权利要求1所述的方法，其特征在于，基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量，包括：

获取平均人脸图像的预设标志点坐标；

将所述测试人脸图像输入至所述主动外观模型，得到测试人脸图像的面部标志点坐标；

基于所述测试人脸图像的面部标志点坐标和所述平均人脸图像的预设标志点坐标，确定测试人脸图像的预设标志点坐标；

基于测试人脸图像的预设标志点坐标，确定所述形状分量；

基于所述形状分量与纹理分量之间的预设关系和所述形状分量，确定所述纹理分量。

3.根据权利要求1所述的方法，其特征在于，所述训练好的卷积神经网络编码器包括至少一个卷积块，每个所述卷积块包括：至少一个卷积层、至少一个池化层和第一激活层；

利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果，包括：

将所述纹理分量输入至所述训练好的卷积神经网络编码器，经所述卷积层、所述池化层和所述第一激活层学习特征，得到特征图像；

将所述特征图像确定为所述第二压缩结果。

4.根据权利要求1所述的方法，其特征在于，在将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果之后，还包括：

利用反量化熵解码器对所述第一压缩结果进行解码，得到重建的形状分量；

利用训练好的反卷积神经网络解码器对所述第二压缩结果进行解码，得到重建的纹理分量；

将所述重建的形状分量和所述重建的形状分量进行融合，得到与所述测试人脸对应的重建人脸图像。

5.根据权利要求4所述的方法，其特征在于，所述训练好的反卷积神经网络解码器包括至少一个反卷积块，每个所述反卷积块包括：至少一个反卷积层和第二激活层；

利用训练好的反卷积神经网络解码器对所述第二压缩结果进行解码，得到重建的纹理分量，包括：

将所述第二压缩结果输入至所述训练好的反卷积神经网络解码器，经所述反卷积层和所述第二激活层特征提取，得到反卷积图像；

将所述反卷积图像确定为所述重建的纹理分量。

6.根据权利要求4所述的方法，其特征在于，在将所述重建的形状分量和所述重建的形状分量进行融合，得到与所述测试人脸对应的重建人脸图像之后，还包括：

基于所述测试人脸图像，对所述重建人脸图像进行质量评价，得到质量评价结果。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本集，所述训练样本集中包括预设个数的训练样本，所述训练样本包括：原始人脸图像，原始纹理分量，重建的原始纹理分量，重建原始人脸图像；

基于所述训练样本集和预设优化目标，对卷积神经网络编码器和反卷积神经网络解码器进行联合优化，得到训练好的卷积神经网络编码器和训练好的反卷积神经网络解码器；其中，所述预设优化目标包括：所述原始纹理分量与所述重建的原始纹理分量之间的均方误差函数，和所述原始人脸图像和重建原始人脸图像之间的结构相似性函数。

8.一种基于深度学习的人脸图像压缩装置，其特征在于，包括：

分解模块，用于基于平均人脸图像和主动外观模型，将测试人脸图像分解为形状分量和纹理分量；

第一编码模块，用于利用量化熵编码器对所述形状分量进行编码压缩，得到第一压缩结果；

第二编码模块，用于利用训练好的卷积神经网络编码器对所述纹理分量进行编码压缩，得到第二压缩结果；

确定模块，用于将所述第一压缩结果和第二压缩结果确定为人脸图像压缩结果。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行如权利要求1至7任一项所述的方法。