CN111492657B

CN111492657B - 基于脸部区域检测的光场视频压缩

Info

Publication number: CN111492657B
Application number: CN201880079388.5A
Authority: CN
Inventors: 石志儒; 胡强
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2017-12-08
Filing date: 2018-12-07
Publication date: 2023-06-30
Anticipated expiration: 2038-12-07
Also published as: US20200296419A1; CN111492657A; US11153606B2; WO2019109988A1

Abstract

一种基于脸部检测的感知视频编码方法，该方法包括：根据脸部的显著图，计算用于编码光场视频的比特分配方案；根据所述脸部的显著图，计算用于编码光场视频的LCU层级拉格朗日乘数；以及根据所述脸部的显著图，计算用于编码光场视频的LCU层级量化参数。

Description

基于脸部区域检测的光场视频压缩

技术领域

本发明涉及一种基于脸部区域检测的光场视频压缩。

背景技术

在代表性的光场视频系统中，光场阵列系统捕获7个高分辨率视频以及两幅深度图。海量的光场数据给数据压缩和传输造成难题。已制定的高效视频编码(HEVC)标准已经发展为用于为此类带宽密集型应用提供更高的压缩效率。在HEVC中，视频帧划分为最大编码单元(LCU)序列，而这些LCU又可递归式地均分为四个子CU。在现有视频编码机制中，LCU的拉格朗日乘数和量化参数为常数，意味着获得预测残差后，所有LCU在比特分配方面均一视同仁。然而，由于人类视觉系统(HVS)侧重于具有高感知性信息的区域，因此这一设计可能无法实现最优编码性能。也就是说，由于人的注意力并不集中于整个场景上，而是仅集中于所谓的关注区域(ROI)这类小区域上，因此存在太多感知上的冗余信息。对于光场视频序列而言，带有人脸的区域往往会获得更多的视觉关注。此外，在设计为用于面部检测和识别的光场相机系统中，带有人脸的区域应当视为ROI。

发明内容

本发明提供一种光场视频编码方法，包括：确定光场视频内的关注区域；向该关注区域分配视觉关注度值，其中，该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同；根据所述关注区域的视觉关注度值，计算比特分配方案；以及根据所述比特分配方案，编码所述光场视频的帧。

优选地，所述关注区域包含人脸。

优选地，所述关注区域包含人脸特征。

优选地，所述视觉关注度值根据所述人脸的显著图确定。

优选地，进行主观率失真优化，以向所述关注区域分配更多资源。

优选地，还包括根据下式计算所述比特分配方案：

其中，R_frame为视频帧的总比特数，N为视频帧的编码单元的数目，R_n为向第n个所述编码单元分配的比特数，A_n表示视频帧内第n个所述编码单元的所述视觉关注度值，f_i为像素的所述视觉关注度值且表示编码单元区域内的分块集，N_b为所述编码单元内的像素数。

优选地，还包括：

根据下式计算LCU层级拉格朗日乘数：

其中，A_avg为平均视觉关注度值。

优选地，β设为-0.9。

优选地，

设于0.5～2范围内。

优选地，还包括：

根据下式计算LCU层级量化参数：

本发明还提供一种光场视频系统，包括：用于通过捕获多个视频和多幅深度图而生成光场视频的光场阵列系统；处理器；以及存有至少一个用于控制所述光场视频系统的程序的存储器，其中，所述处理器通过执行所述程序，以用于：确定所述光场视频内的关注区域；向该关注区域分配视觉关注度值，其中，该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同；根据所述关注区域的视觉关注度值，计算比特分配方案；以及根据所述比特分配方案，编码所述光场视频的帧。

优选地，所述关注区域包含人脸。

优选地，所述关注区域包含人脸特征。

优选地，所述视觉关注度值根据所述人脸的显著图确定。

优选地，所述处理器还用于执行所述程序，以用于根据下式计算所述比特分配方案：

优选地，所述处理器还用于执行所述程序，以用于：

根据下式计算LCU层级拉格朗日乘数：

其中，A_avg为平均视觉关注度值。

优选地，β设为-0.9。

优选地，

设于0.5～2范围内。

优选地，所述处理器还用于执行所述程序，以用于：

根据下式计算LCU层级量化参数：

附图说明

图1为用于全向视频编码的感知RDO方案的总体架构。

图2(a)为脸部区域检测示意图。

图2(b)为根据本发明实施方式的光场视频压缩方法所产生的含有一张脸部的图像。

图2(c)为根据HEVC压缩方法产生的含有一张脸部的图像。

图2(d)为脸部区域检测示意图。

图2(e)为根据本发明实施方式的光场视频压缩方法所产生的含有两张脸部的图像。

图2(f)为根据HEVC压缩方法产生的含有两张脸部的图像。

具体实施方式

在本公开内容中，提供一种基于脸部检测的感知光场视频编码方法。感知视频编码旨在通过提高脸部区域的视觉质量并牺牲其他区域的视觉质量而减少感知到的冗余信息，从而成为光场系统中传输大量视频数据的一种有效手段。具体而言，本公开内容针对视频，提供多张脸部的感知模型。相应地，提供一种检测光场系统中多张脸部的脸部特征及五官特征的方法。随后，向带有一张或多张脸部的视频帧的不同区域分配不同权重。根据此类权重，通过实施主观率失真优化而提高带有脸部及五官特征等重要信息的区域的质量。实验结果表明，该方法的脸部识别质量优于HEVC。

1.基于脸部区域权重的LCU层级速率控制方案

原始视频中的各帧不能视为各幅独立静止图像的简单叠加，这是因为其还含有与这些图像相关的关键运动信息。此外，对各帧之间运动信息的感知为视频质量评估(VQA)的一项重要功能。在HEVC等现有视频编码机制中，在获得预测残差后，所有LCU在比特分配方面均一视同仁，从而使得LCU层级的λ和QP保持不变。由于每一帧LCU的感知信息均不同，因此该方法与HVS不相符，而且固定不变的λ和QP难以实现最佳的比特分配。因此，根据本发明实施方式，提供一种基于脸部感知模型的新比特率分配策略。

在HEVC中，通过双曲线模型表征R-D关系，表示为：

其中，α和β为参数。如上所述，LCU层级恒定的λ和QP表示在现有视频编码机制中，在获得预测残差后，所有LCU在比特分配方面均一视同仁。

这一点可表示为：

其中，R_frame为帧的总比特数，N为帧中的LCU数，R_n为第n个LCU所分配的比特数。

然而，为了开发脸部识别质量更高的视频编码器，必须将HVS检测视频序列失真的能力考虑在内：对于易于发现编码失真的LCU，应该分配更多比特；而对于难以发现编码失真的LCU，应该分配更少比特。由于脸部能够较强地吸引人的视觉关注，因此本发明比特分配方案按照以下脸部显著图计算：

其中：A_n表示帧内第n个LCU的视觉关注度值；f_i为像素的视觉关注度值，表示LCU区域中的分块集；N_b为LCU内的像素数。

2.自适应性LCU层级拉格朗日乘数和量化调节

通过将式(2)和式(3)代入式(1)，可获得如下的新拉格朗日乘数：

其中，A_avg为平均视觉关注度值。在本实施方式中，β设为-0.9。为了避免拉格朗日乘数的突然变化，

取[0.5,2]。

根据式(4)可知，LCU的视觉关注度越小，λ_new越大；而LCU的视觉关注度越大，λ_new越小。由于λ_new用于平衡失真和速率，因此λ_new越小，编码失真程度越小，编码比特越多；而λ_new越大，编码失真程度越大，编码比特越少。因此，本发明的λ_new与HVS确实相符。

此外，拉格朗日乘数一般建模为如下量化参数函数：

λ＝0.85·2^(QP-12)/3.0 (5)

其中，QP为量化参数。通过结合式(4)和式(5)，可获得如下新量化参数：

如式(6)所示，与感知上的重要区域相比，视觉关注度较小的LCU量化得更为粗略。通过这种方式，可以通过牺牲背景等感知上不太重要的区域而为脸部区域节省比特。此外，由于QP具有一定的变动范围，因此可以在感知优化方面提供更多选择。如此，能够在相同的比特率下获得更佳视觉质量。

用于全向视频编码的感知RDO方案的总体架构如图1所示。

本发明方法的实验结果示于图2。

图2(a)为脸部区域检测示意图，其中，关注区域包含一张人脸。

图2(c)为根据HEVC压缩方法产生的含有一张脸部的图像。

图2(d)为脸部区域检测示意图，其中，关注区域包含两张人脸。

图2(f)为根据HEVC压缩方法产生的含有两张脸部的图像。

如图2所示，该方法提供脸部区域伪影更少且模糊度更低的更高视觉质量。如此，脸部区域的视觉质量和峰值信噪比(PSNR)得到显著改善。

Claims

1.一种光场视频编码方法，其特征在于，包括

确定光场视频内的关注区域；

向该关注区域分配视觉关注度值，其中，该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同；

根据所述关注区域的视觉关注度值，计算比特分配方案；以及

根据所述比特分配方案，编码所述光场视频的帧；

其中，根据下式计算所述比特分配方案：

其中，R_frame为视频帧的总比特数，N为视频帧的编码单元的数目，R′_n为向第n个所述编码单元分配的比特数，A_n表示视频帧内第n个所述编码单元的所述视觉关注度值，f_i为像素的所述视觉关注度值且表示编码单元区域内的分块集，N_b为所述编码单元内的像素数。

2.如权利要求1所述的方法，其特征在于，所述关注区域包含人脸。

3.如权利要求2所述的方法，其特征在于，所述关注区域包含人脸特征。

4.如权利要求2所述的方法，其特征在于，所述视觉关注度值根据所述人脸的显著图确定。

5.如权利要求4所述的方法，其特征在于，进行主观率失真优化，以向所述关注区域分配更多资源。

6.如权利要求1所述的方法，其特征在于，还包括：

根据下式计算最大编码单元层级拉格朗日乘数：

其中，A_avg为平均视觉关注度值，β为高效视频编码中R-D双曲线模型的模型参数，λ为现有视频编码机制中编码单元层级的拉格朗日乘数。

7.如权利要求6所述的方法，其特征在于，β设为-0.9。

8.如权利要求6所述的方法，其特征在于，

设于0.5～2范围内。

9.如权利要求1所述的方法，其特征在于，还包括：

根据下式计算最大编码单元层级量化参数：

其中，QP为现有视频编码机制中编码单元层级的量化参数，β为高效视频编码中R-D双曲线模型的模型参数，A_avg为平均视觉关注度值。

10.一种光场视频系统，其特征在于，包括：

用于通过捕获多个视频和多幅深度图而生成光场视频的光场阵列系统；

处理器；以及

存有至少一个用于控制所述光场视频系统的程序的存储器，其中，所述处理器通过执行所述程序，以用于：

确定所述光场视频内的关注区域；

根据所述比特分配方案，编码所述光场视频的帧；

其中，所述处理器还用于执行所述程序，以用于根据下式计算所述比特分配方案：

11.如权利要求10所述的光场视频系统，其特征在于，所述关注区域包含人脸。

12.如权利要求11所述的光场视频系统，其特征在于，所述关注区域包含人脸特征。

13.如权利要求11所述的光场视频系统，其特征在于，所述视觉关注度值根据所述人脸的显著图确定。

14.如权利要求13所述的光场视频系统，其特征在于，进行主观率失真优化，以向所述关注区域分配更多资源。

15.如权利要求10所述的光场视频系统，其特征在于，所述处理器还用于执行所述程序，以用于：

根据下式计算最大编码单元层级拉格朗日乘数：

16.如权利要求15所述的光场视频系统，其特征在于，β设为-0.9。

17.如权利要求15所述的光场视频系统，其特征在于，

设于0.5～2范围内。

18.如权利要求10所述的光场视频系统，其特征在于，所述处理器还用于执行所述程序，以用于：

根据下式计算最大编码单元层级量化参数：