CN115880762B

CN115880762B - 面向人机混合视觉的可伸缩人脸图像编码方法、系统

Info

Publication number: CN115880762B
Application number: CN202310140101.8A
Authority: CN
Inventors: 毛琪; 王崇宇; 金立标; 王萌; 王诗淇; 马思伟
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-07-21
Anticipated expiration: 2043-02-21
Also published as: CN115880762A

Abstract

本发明提供一种面向人机混合视觉的可伸缩人脸图像编码方法，对基本层编码比特流进行解码以获取基本层解码数据，将基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在基本层编码比特流的基础上解码中间层编码比特流以获取中间层解码数据，将中间层解码数据输入到StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在基本层编码比特流、中间层编码比特流的基础上解码增强层编码比特流以获取增强层解码数据，并将增强层解码数据输入到StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像，使得解码图像可伸缩地支持机器智能与人类视觉感知，提升不同任务的性能与压缩效率。

Description

面向人机混合视觉的可伸缩人脸图像编码方法、系统

技术领域

本发明涉及图像视觉编码技术领域，更为具体地，涉及一种面向人机混合视觉的可伸缩人脸图像编码方法、系统。

背景技术

随着各种多媒体应用的快速发展，近年来，图像/视频数据量呈指数级增长，因此，图像的高效压缩几十年来一直是多媒体通信和处理的一个基本挑战。早期，图像和视频主要用于人类观看和娱乐。随着机器视觉技术的进步，智能应用分析需要越来越多的视觉数据，这给面向机器视觉的数据压缩带来了新的挑战。

人类视觉和机器分析在压缩方面的需求有着根本的不同，人类视觉的传统图像压缩范式旨在在比特率预算的约束下尽可能保持信号保真度，而在机器视觉中，通常会保留和压缩包含足够语义信息的紧凑特征以用于相关分析任务。特别是，在低比特率编码场景中，人类视觉的图像压缩范式由于无法保留足够的支持机器视觉任务的特定语义信息，因此导致机器分析效率低下；而机器视觉的图像压缩范式由于仅保留了面向特定任务的语义信息，因此丢失了大量信息，无法重建为视觉信号。

因此，亟需一种提高图像压缩质量，合理分配图像信息，很好地支持机器智能和人类视觉感知的面向人机混合视觉的可伸缩人脸图像编码方法。

发明内容

鉴于上述问题，本发明的目的是提供一种面向人机混合视觉的可伸缩人脸图像编码方法、系统，以解决的问题。

本发明提供的一种面向人机混合视觉的可伸缩人脸图像编码方法，包括：

通过预设的分层风格编码器对预获取的源人脸图像进行映射以获取逐层风格向量；对所述逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示；

通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；

通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流；

对所述基本层编码比特流进行解码以获取基本层解码数据，将所述基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将所述中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将所述增强层解码数据输入到所述StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像。

优选地，所述分层风格编码器、所述概率估计模块和所述StyleGAN生成器集成在端到端的面向人机混合视觉的可伸缩人脸图像编码系统中，其中，所述面向人机混合视觉的可伸缩人脸图像编码系统通过预采集的样本图像集反复训练而成；

在训练所述面向人机混合视觉的可伸缩人脸图像编码系统时，包括：

构建所述面向人机混合视觉的可伸缩人脸图像编码系统的可伸缩多任务率失真目标函数和待训练可伸缩人机视觉编码模型；

使所述待训练可伸缩人机视觉编码模型反复根据所述样本图像集中的图像生成基本层解码图像、中间层解码图像和增强层解码图像，并基于所述基本层解码图像、所述中间层解码图像和所述增强层解码图像优化所述可伸缩多任务率失真目标函数，直至所述可伸缩多任务率失真目标函数达到最优，则将最后一次训练生成的待训练可伸缩人机视觉编码模型作为面向人机混合视觉的可伸缩人脸图像编码系统。

优选地，所述熵编码模块的输入数据为量化后的三层层次化语义特征表示；

在通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流之前，还包括：

对所述三层层次化语义特征表示进行量化以获取量化后的三层语义特征表示。

优选地，所述概率估计模块包括基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型；其中，通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果的步骤，包括：

通过所述基于Transformer的分层超先验概率估计模型获取所述三层层次化语义表示的各层层次化语义表示的初始概率分布；通过所述基于Transformer的跨层联合概率估计模型获取基于所述第一层语义特征表示下的所述第二层语义特征表示的条件概率分布，以及基于所述第一层语义特征表示和所述第二层语义特征表示下的所述第三层语义特征表示的条件概率分布；

基于所述初始概率分布、所述第二层语义特征表示的条件概率分布和所述第三层语义特征表示的条件概率分布获取概率估计结果。

优选地，所述基于Transformer的分层超先验概率估计模型包括分层超先验编码器和分层超先验解码器；

其中，所述分层超先验编码器包括多头自我注意模块、残差连接、层归一化和全连接前馈网络组成的风格Transformer模块；

所述分层超先验解码器由基于掩模的风格Transformer模块构成；其中，所述基于掩模的风格Transformer模块为在所述风格Transformer模块的基础上按照所述三层层次化语义表示的传输顺序设计掩模获取；其中，

将所述分层超先验编码器所获取的分层超先验边信息输入到所述分层超先验解码器中可获取所述三层层次化语义表示的各层层次化语义表示的初始概率分布。

优选地，所述基于Transformer的跨层联合概率估计模型包括由多头交叉注意模块、层归一化和前馈网络组成的跨层风格Transformer模块；

其中，所述基于所述第一层语义特征表示下的所述第二层语义特征表示的条件概率分布为所述跨层风格Transformer模块所获取的概率分布；

所述基于所述第一层语义特征表示和所述第二层语义特征表示下的所述第三层语义特征表示的条件概率分布为所述跨层风格Transformer模块所获取的概率分布。

优选地，对预获取的源人脸图像进行映射以获取逐层风格向量，包括：

提取三个级别的特征图；

使用map2style块对所述三个级别的特征图分别各自映射6个风格向量形成18层的逐层风格向量；

其中，将所述逐层风格向量的第1-6层作为与所述基本层编码比特流对应的基本层编码语义特征，将所述逐层风格向量的第7-12层作为与所述中间层编码比特流对应的中间层编码语义特征，将所述逐层风格向量的第13-18层作为与所述增强层编码比特流对应的增强层编码语义特征。

优选地，在所述基本层编码语义特征中保留有所述源人脸图像的位姿和布局信息；

在所述中间层编码语义特征中保留有所述源人脸图像的身份和属性信息；

在所述增强层编码语义特征中保留有所述源人脸图像的人类视觉感知偏好信息。

本发明还提供一种面向人机混合视觉的可伸缩人脸图像编码系统，实现如前所述的面向人机混合视觉的可伸缩人脸图像编码方法，包括：

分层风格编码器，所述分层风格编码器用于对预获取的源人脸图像进行映射以获取逐层风格向量；对所述逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示；

概率估计模块，所述概率估计模块用于对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；

熵编码模块，所述熵编码模块用于基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流；

StyleGAN生成器，所述StyleGAN生成器用于根据基本层解码数据获取可进行基础机器视觉任务的基本层解码图像，根据中间层解码数据获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像，根据增强层解码数据获取具备人类视觉感知偏好的增强层解码图像；其中，所述基本层解码数据根据所述基本层编码比特流进行解码获取；所述中间层解码数据为在所述基本层编码比特流的基础上解码所述中间层编码比特流获取；所述增强层数据为在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流获取。

优选地，所述概率估计模块包括基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型；其中，

所述基于Transformer的分层超先验概率估计模型用于获取所述三层层次化语义表示的各层层次化语义表示的初始概率分布；

所述基于Transformer的跨层联合概率估计模型用于获取基于所述第一层语义特征表示下的所述第二层语义特征表示的条件概率分布，以及基于所述第一层语义特征表示和所述第二层语义特征表示下的所述第三层语义特征表示的条件概率分布。

从上面的技术方案可知，本发明提供的面向人机混合视觉的可伸缩人脸图像编码方法，通过预设的分层风格编码器对预获取的源人脸图像进行映射以获取逐层风格向量，再对逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示，而后通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果，通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流，再对基本层编码比特流进行解码以获取基本层解码数据，将基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在基本层编码比特流、中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将增强层解码数据输入到StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像，进而提高图像压缩质量，合理分配图像信息，使得解码图像既能够支持机器智能，又能够适应人类视觉感知。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的面向人机混合视觉的可伸缩人脸图像编码方法的流程图；

图2为根据本发明实施例的面向人机混合视觉的可伸缩人脸图像编码方法的源图像处理运行示意图；

图3为根据本发明实施例的面向人机混合视觉的可伸缩人脸图像编码系统的结构示意图。

具体实施方式

针对上述问题，本发明提供一种面向人机混合视觉的可伸缩人脸图像编码方法、系统，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的面向人机混合视觉的可伸缩人脸图像编码方法、系统，图1、图2对本发明实施例的面向人机混合视觉的可伸缩人脸图像编码方法进行了示例性标示；图3对本发明实施例的面向人机混合视觉的可伸缩人脸图像编码系统进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1、图2共同所示，本发明提供的本发明实施例的面向人机混合视觉的可伸缩人脸图像编码方法，包括：

S1：通过预设的分层风格编码器对预获取的源人脸图像进行映射以获取逐层风格向量；对所述逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示；

S2：通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；

S3：通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流；

S4：对所述基本层编码比特流进行解码以获取基本层解码数据，将所述基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将所述中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将所述增强层解码数据输入到所述StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像。

在步骤S1中，通过预设的分层风格编码器对预获取的源人脸图像进行映射以获取逐层风格向量，即通过分层风格编码器将源人脸图像反演到适应StyleGAN生成器（StyleGAN生成模型）的逐层风格向量中，以获取源人脸图像的三层层次化语义特征表示；再本实施例中，该三层层次化语义特征表示分为三个线程，在此将该三个线程记作可伸缩的基本层、中间层和增强层。

在本实施例中，步骤S1中对预获取的源人脸图像进行映射以获取逐层风格向量，包括：

S11：提取三个级别的特征图；

S12：使用map2style块对所述三个级别的特征图分别各自映射6个风格向量形成18层的逐层风格向量；

在本实施例中，在所述基本层编码语义特征中保留有所述源人脸图像的位姿和布局信息；在所述中间层编码语义特征中保留有所述源人脸图像的身份和属性信息；在所述增强层编码语义特征中保留有所述源人脸图像的人类视觉感知偏好信息。

基于基本层编码语义特征所形成的解码图像主要保留输入图像的基本位姿、表情和结构信息，可用于完成与物体位姿和布局相关的机器视觉任务，如关键点检测和人脸解析;基于中间层编码语义特征所形成的解码图像恢复的属性细节语义更为丰富，可用于人脸身份识别和属性分析;基于增强层编码语义特征所形成的解码图像能够恢复更多底层细节，获得人类视觉感知偏好的图像。

具体的，在一个具体实施例中，首先将输入源人脸图像x∈ 映射到512维向量的W空间，然而，使用相同的512维向量会产生不准确的重建图像。因此，使用分层样式编码器将源图像反演到StyleGAN生成模型的18层风格向量（逐层风格向量）中，

其中，-/>分别代表18层逐层风格向量。

再针对不同的分辨率提取三个级别的特征图F＝{F1，F2，F3}，再使用map2style块将三个级别的特征图分别映射为6个逐层风格向量，共18个逐层风格向量。

即，小特征地图提取了逐层风格向量L1={、⋯、/>}的第一层作为与基本层编码比特流对应的基本层编码语义特征；通过组合上采样小特征图，中等特征图提取第二层逐层风格向量L2={/>，⋯，/>}作为与中间层编码比特流对应的中间层编码语义特征；而融合上采样介质特征图的最大特征图提取第三层逐层风格向量L3={/>，⋯，/>}作为与增强层编码比特流对应的增强层编码语义特征。因此，18个逐层风格向量被相应地分组为，

同时可引入预训练StyleGAN生成器的平均逐层风格向量，以及各层向量输入到StyleGAN生成器中便能重建图像：/>。

步骤S2为通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果的过程；其中，

所述概率估计模块包括基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型；其中，通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果的步骤，包括：

所述基于Transformer的分层超先验概率估计模型包括分层超先验编码器和分层超先验解码器；其中，。

其中，所述分层超先验编码器包括多头自我注意模块、残差连接、层归一化和全连接前馈网络组成的风格Transformer模块；所述分层超先验编码器包括多头自我注意模块、残差连接、层归一化和全连接前馈网络，能够减少分层冗余；

所述分层超先验解码器由基于掩模的风格Transformer模块构成；其中，所述基于掩模的风格Transformer模块为在所述风格Transformer模块的基础上按照所述三层层次化语义表示的传输顺序设计掩模获取；该分层超先验解码器基于掩模风格按照基本层编码语义特征、中间层编码语义特征和增强层编码语义特征的三层逐层风格向量的顺序进行数据传输，以考虑三层逐层风格向量的传输顺序；

其中，将所述分层超先验编码器所获取的分层超先验边信息输入到所述分层超先验解码器中可获取所述三层层次化语义表示的各层层次化语义表示的初始概率分布。

所述跨层联合概率估计模型包括由多头交叉注意模块、层归一化和前馈网络组成的跨层风格Transformer模块；

从而通过步骤S2获取精准的概率估计结果。

步骤S3为通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流的过程；其中，

所述熵编码模块的输入数据为量化后的三层层次化语义特征表示；

从而通过步骤S3基于步骤S2所获取的概率估计结果将三层语义特征表示中的每一层语义特征表示转换为编码比特流，继而通过步骤S4基于编码比特流进行解码以获取解码图像。

步骤S4为对所述基本层编码比特流进行解码以获取基本层解码数据，将所述基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将所述中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将所述增强层解码数据输入到所述StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像的过程；其中，

解码器端使用StyleGAN生成模型对三层逐层风格向量实现可伸缩的重建图像的过程，即基于预先采集的源人脸图像对预先建立的卷积神经网络模型在比特率约束的情况下进行训练，并根据所述卷积神经网络模型所输出的输出图像与源人脸图像之间获取目标损失函数，直至所述目标损失函数达到预设的损失阈值，则将最后一次训练的卷积神经网络作为面向人机混合视觉的可伸缩人脸图像编码系统中的成熟的StyleGAN生成器；

在使用时，采用训练成熟的StyleGAN器完成对三层逐层风格向量实现可伸缩的重建图像，它能够对三层逐层风格向量进行重建处理以获取输出图像。

重建过程中，引入预训练StyleGAN生成器的平均逐层风格向量，能够提升输出图像效果。最终，将图像重建为，

对所述基本层编码比特流进行解码以获取基本层解码数据，将所述基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像，该基本层解码图像显示源人脸图像的基本轮廓，例如面部姿势、表情和形状，例如关键点检测和面部解析等任务，

在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将所述中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像，该中间层解码图像能够恢复原始图像的语义属性，从而有助于更复杂的任务，例如面部身份识别和属性预测，

在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将所述增强层解码数据输入到所述StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像，在接受所有逐层风格向量后，增强层解码图像能够生成人类感知偏好的图像，

从而基于步骤S4获取可进行机器视觉任务的基本层解码图像，具备属性细节语义的中间层解码图像和具人类视觉感知偏好的增强层解码图像。

由实验证明，获取的基本层解码图像保留了原始图像的轮廓信息，包括基本位姿、表情和结构信息。在人脸关键点检测和人脸属性解析两个视觉任务上进行评估，与传统编码标准VVC和基于端到端的深度神经网络的压缩框架进行了比较，由于本方法保留了原始图像的大部分表达和形状，因此即使不重建细节纹理也能获得良好的性能，因此，基本层包含足够的语义信息用于人脸关键点检测和解析，而传统编码标准VVC和基于端到端的深度神经网络的压缩框架在极低比特率下会不可避免地损失部分相应信息。

获取中间层解码图像可以恢复更多面部属性纹理，本方法在人脸识别和属性预测两个视觉任务上进行评估，与传统编码标准VVC和基于端到端的深度神经网络的压缩框架进行了比较。由于本方法恢复了更多面部属性纹理，因此在人脸识别任务中取得了更高的精确度，在属性预测任务中可以准确地预测图像所有的原始属性，而传统编码标准VVC和基于端到端的深度神经网络的压缩框架在极低比特率下只能预测少量主要属性。因此，该方法能够重建更多的语义属性纹理，而其他方法在超低比特率压缩过程中会丢失这些纹理。

此外，面部属性识别任务不是我们编解码框架所预定义的视觉任务，但依旧相较于传统编码标准VVC和基于端到端的深度神经网络的压缩框架具有明显的优越性。因此，除了预定义的视觉任务之外，本方法能够扩展到其他应用任务。

在实施例中，获取增强层解码图像能够捕获更详细的低层信息，使得增强层的最终解码图像以更符合人类视觉的质量重建。与传统编码标准VVC、HEVC和基于端到端的深度神经网络的压缩框架在感知质量方面对重建图像进行了比较，由于本方法在相似比特率下生成了更具感性愉悦感的面部语义，因此在感知质量评估中获得了更好的LPIPS、DISTS结果，并在用户调研中得到了更高的主观质量评分。因此，该本实施例的方法能够捕获更详细的低层信息，而其他方法在超低比特率压缩过程中会损失丰富的纹理信息。

在本实施例中，所述分层风格编码器、所述概率估计模块和所述StyleGAN生成器集成在端到端的面向人机混合视觉的可伸缩人脸图像编码系统中，其中，所述面向人机混合视觉的可伸缩人脸图像编码系统通过预采集的样本图像集反复训练而成；

在一个具体实施例中，引入了基于Transformer的分层超先验概率估计模型，以在此码率约束的条件下进行开发基本层-中间层-增强层的三级视觉任务的失真度量，然后将上述码率约束和三级视觉任务失真度量通过拉格朗日目标函数构建为端到端可扩展的多任务率失真优化策略，用这个策略训练模型，优化神经网络。

具体的，在训练该概率估计模块时，将每个逐层风格向量量化为/>之后在训练期间添加均匀噪声，每个量化逐层风格向量/>由条件高斯模型估计，其中均值/>和方差由量化超先验/>导出，

最终，三层逐层风格向量的速率约束为，

具体的，在本实施例中，将不同的量化逐层风格向量视为查询标记，表示为{}，使用多头自我注意模块，确定任何一对风格向量之间的相关性，并获得注意力得分，对所有的查询标记表示为/>，然后，在自我注意模块的每个头中，查询Q、键K和值V都通过可学习的投影头从X投影，

然后，缩放点积注意力（The scaled dot-product attention）可以计算为，

其中，，/>是关注头的数量，取4。最终，结果结合不同头部的所有注意力，

其中，是第i个注意头的查询、键和值。/>表示组合所有注意力结果的可学习矩阵。此外，通过全连接层前馈网络降低了逐层风格向量的维数，以消除跨通道冗余。在三个重复的样式变换器块之后，导出的超验维数从/>降低到/>。具体的，对于可伸缩编码框架的传输顺序，基于Transformer的超先验解码器只能基于前一层和当前层的超验前概率计算当前逐层风格向量的均值和方差。在超先验解码器中提出了一个基于掩模的多头自我注意模块和一个基于掩模的风格Transformer模块。因此，在计算注意力得分时，它不会考虑未发送层的超先验。同样，基于掩模的风格Transformer模块应用三次，并预测每个量化逐层风格向量的均值和方差。

该基于Transformer的分层超先验概率估计模型，由一个多头交叉关注模块、一个层归一化和一个前馈网络组成。具体的，在估计第二层和第三层逐层风格向量时，通过可缩放设置获得解码的前一层逐层风格向量，并将其作为先验信息加入到逐层风格向量的码率约束中，

其中，和/>分别表示量化逐层风格向量和超验概率的第i层。

更为具体的，以预测第二层逐层风格向量的均值与方差为例，将解码后的第一层送入样式Transformer块，获得查询标记/>，此外，通过前馈网络，将从基于Transformer的分层联合熵估计模型预测出的/>与解码后的第一层相结合，多头交叉注意的查询Q、键K和值V推导如下，

其中, 。

该基于Transformer的跨层联合概率估计模型包括多头交叉注意模块、层归一化和前馈网络，能够减少跨层冗余。

此外，在训练该面向人机混合视觉的可伸缩人脸图像编码系统时，构建端到端可扩展的多任务率失真优化策略，通过端到端的联合优化方案以获得生成图像最佳的机器分析性能、人类感知体验和压缩比；再在构建端到端可伸缩多任务率失真优化目标函数，使用三级视觉任务开发失真度量的过程中，率失真优化为针对香农的率失真权衡进行端到端的优化，尽可能降低所需的比特率,并提升解码图像的质量；该三级视觉任务开发失真度量，能够实现在机器视觉分析、感知质量和压缩比方面最优的多任务性能；

具体的，在整个训练过程中，在获取最优的码率约束后，进行三级视觉任务的失真度量，而后进行端到端可扩展的多任务率失真优化策略。

其中，进行三级视觉人物的失真度量的过程为对于所述基本层，添加面部关键点检测损失与面部属性分割损失，更为具体的：

面部关键点检测损失通过将解码图像和原始图像输入到预先训练的关键点检测网络以获得，

其中表示由预先训练的关键点检测网络提取的关键点特征。

面部属性分割损失通过预先训练的面部解析网络P来测量解码图像和原始图像之间的失真。最小化从预先训练的面部解析网络提取的多层特征之间的余弦距离，

其中表示预处理面部解析网络提取的第i个特征，cos表示余弦相似性。

本实施例构造每个解码分层图像的R-D目标，

对于基本层，基本层解码图像的R-D目标可以表示为，

其中，为损失的加权参数。

对于中间层，期望支持身份识别和属性分析的身份属性的附加信息，额外添加身份损失，具体为：

人脸身份损失通过引入预先训练的人脸识别网络（ArcFace），最小化多个特征的余弦距离来测量身份失真，

其中，表示预处理人脸识别网络提取的第i个特征。

对于中间层，中间层的解码分层图像的R-D目标可以表示为，

.其中，为损失的加权参数。/>表示中间层视觉性能的可扩展性，

对于增强层，期望获得人类视觉感知偏好的图像，额外添加用于人类感知的L2像素损失与LPIPS感知损失，最后添加用于丰富图像纹理细节信息的对抗损失，更为具体的：

人类感知损失采用像素级L2损失和LPIPS感知损失

/>

对抗损失通过使用StyleGAN鉴别器D执行对抗训练，

进行端到端可扩展多任务率失真优化策略的过程，包括：

通过上述三级视觉任务开发失真度量去最大限度地提高人和机器视觉任务的性能。

对于所述增强层，其解码分层图像的R-D目标可以表示为，

其中，为损失的加权参数。/>表示增强层视觉性能的可扩展性，

如此，本实施例提出的压缩框架的多任务可扩展R-D目标可以写成，

以此本实施例构建端到端可扩展的多任务率失真优化策略，通过这个策略训练模型，通过端到端的联合优化模型以获得生成图像最佳的机器分析性能、人类感知体验和压缩比。

需要说明的是，上述基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型进行三级视觉任务的失真度量，以及进行端到端可扩展的多任务率失真优化策略的过程均是在训练整个面向人机混合视觉的可伸缩人脸图像编码系统时的训练优化过程，训练完成后直接进行步骤S1-S4的步骤，不涉及训练优化的过程。

.即对于针对样本图像集的图像所产生的基本层编码语义特征，添加面部关键点检测损失与面部属性分割损失，以学习基本轮廓信息，能够保留面部姿态、表情和外形信息，提升位姿与布局类机器视觉任务的性能；对于针对样本图像集的图像所产生的中间层编码语义特征，添加面部身份失真，能够支持身份识别和属性分析的身份属性的附加信息，提升身份与属性类机器视觉任务的性能；对于针对样本图像集的图像所产生的增强层编码语义特征，添加用于人类感知的L2像素损失、LPIPS感知损失，以及用于丰富图像纹理细节信息的对抗损失，能够获得人类视觉感知偏好的图像，从而训练生成成熟的高精度的，可同时满足机器和人类视觉需求的面向人机混合视觉的可伸缩人脸图像编码系统。

.如上所述，本发明实施例提供的通过预设的分层风格编码器对预获取的源人脸图像进行映射以获取逐层风格向量，再对逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示，而后通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果，通过预设的熵编码模块基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流，再对基本层编码比特流进行解码以获取基本层解码数据，将基本层解码数据输入到预设的StyleGAN生成器中以获取可进行基础机器视觉任务的基本层解码图像；在所述基本层编码比特流的基础上解码所述中间层编码比特流以获取中间层解码数据，将中间层解码数据输入到所述StyleGAN生成器中以获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像；在基本层编码比特流、中间层编码比特流的基础上解码所述增强层编码比特流以获取增强层解码数据，并将增强层解码数据输入到StyleGAN生成器中以获取具备人类视觉感知偏好的增强层解码图像，进而提高图像压缩质量，合理分配图像信息，使得解码图像既能够支持机器智能，又能够适应人类视觉感知。

如图3所示，本发明还提供一种面向人机混合视觉的可伸缩人脸图像编码系统100，实现如前所述的面向人机混合视觉的可伸缩人脸图像编码方法，包括：

分层风格编码器101，所述分层风格编码器用于对预获取的源人脸图像进行映射以获取逐层风格向量；对所述逐层风格向量进行分类以获取所述源人脸图像的三层层次化语义特征表示；

概率估计模块102，所述概率估计模块用于对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；

熵编码模块103，所述熵编码模块用于基于所述概率估计结果对所述三层层次化语义特征表示中的第一层语义特征表示进行编码以获取基本层编码比特流，对所述三层层次化语义特征表示中的第二层语义特征表示进行编码以获取中间层编码比特流，对所述三层层次化语义特征表示中的第三层语义特征表示进行编码以获取增强层编码比特流；

StyleGAN生成器104，所述StyleGAN生成器用于根据基本层解码数据获取可进行基础机器视觉任务的基本层解码图像，根据中间层解码数据获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像，根据增强层解码数据获取具备人类视觉感知偏好的增强层解码图像；其中，所述基本层解码数据根据所述基本层编码比特流进行解码获取；所述中间层解码数据为在所述基本层编码比特流的基础上解码所述中间层编码比特流获取；所述增强层数据为在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流获取。

具体地，该概率估计模块102包括基于Transformer的分层超先验概率估计模型1021和基于Transformer的跨层联合概率估计模型1022；其中，

所述基于Transformer的分层超先验概率估计模型1021用于获取所述三层层次化语义表示的各层层次化语义表示的初始概率分布；

所述基于Transformer的跨层联合概率估计模型1022用于获取基于所述第一层语义特征表示下的所述第二层语义特征表示的条件概率分布，以及基于所述第一层语义特征表示和所述第二层语义特征表示下的所述第三层语义特征表示的条件概率分布。

所述面向人机混合视觉的可伸缩人脸图像编码系统的具体实现方法可参考图1、图2对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的面向人机混合视觉的可伸缩人脸图像编码系统100通过。

如上参照附图以示例的方式描述了根据本发明提出的面向人机混合视觉的可伸缩人脸图像编码方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的面向人机混合视觉的可伸缩人脸图像编码方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，包括：

通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；所述概率估计模块包括基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型；其中，通过预设的概率估计模块对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果的步骤，包括：

基于所述初始概率分布、所述第二层语义特征表示的条件概率分布和所述第三层语义特征表示的条件概率分布获取概率估计结果；

2.如权利要求1所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，所述分层风格编码器、所述概率估计模块和所述StyleGAN生成器集成在端到端的面向人机混合视觉的可伸缩人脸图像编码系统中，其中，所述面向人机混合视觉的可伸缩人脸图像编码系统通过预采集的样本图像集反复训练而成；

3.如权利要求1所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，

4.如权利要求3所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，

所述基于Transformer的分层超先验概率估计模型包括分层超先验编码器和分层超先验解码器；

5.如权利要求3所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，

所述基于Transformer的跨层联合概率估计模型包括由多头交叉注意模块、层归一化和前馈网络组成的跨层风格Transformer模块；

6.如权利要求1所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，对预获取的源人脸图像进行映射以获取逐层风格向量，包括：

提取三个级别的特征图；

7.如权利要求6所述的面向人机混合视觉的可伸缩人脸图像编码方法，其特征在于，

在所述基本层编码语义特征中保留有所述源人脸图像的位姿和布局信息；

8.一种面向人机混合视觉的可伸缩人脸图像编码系统，实现如权利要求1-7任一所述的面向人机混合视觉的可伸缩人脸图像编码方法，包括：

概率估计模块，所述概率估计模块用于对所述三层层次化语义表示进行概率估计以分别获取所述三层层次化语义特征表示的概率估计结果；所述概率估计模块包括基于Transformer的分层超先验概率估计模型和基于Transformer的跨层联合概率估计模型；其中，

所述基于Transformer的跨层联合概率估计模型用于获取基于所述第一层语义特征表示下的所述第二层语义特征表示的条件概率分布，以及基于所述第一层语义特征表示和所述第二层语义特征表示下的所述第三层语义特征表示的条件概率分布；

StyleGAN生成器，所述StyleGAN生成器用于根据基本层解码数据获取可进行基础机器视觉任务的基本层解码图像，根据中间层解码数据获取具备属性细节语义，且支持高阶机器视觉任务的中间层解码图像，根据增强层解码数据获取具备人类视觉感知偏好的增强层解码图像；其中，所述基本层解码数据根据所述基本层编码比特流进行解码获取；所述中间层解码数据为在所述基本层编码比特流的基础上解码所述中间层编码比特流获取；所述增强层解码数据为在所述基本层编码比特流、所述中间层编码比特流的基础上解码所述增强层编码比特流获取。