CN111492657B - 基于脸部区域检测的光场视频压缩 - Google Patents
基于脸部区域检测的光场视频压缩 Download PDFInfo
- Publication number
- CN111492657B CN111492657B CN201880079388.5A CN201880079388A CN111492657B CN 111492657 B CN111492657 B CN 111492657B CN 201880079388 A CN201880079388 A CN 201880079388A CN 111492657 B CN111492657 B CN 111492657B
- Authority
- CN
- China
- Prior art keywords
- light field
- visual attention
- video
- region
- field video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
- H04N19/126—Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/19—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于脸部检测的感知视频编码方法,该方法包括:根据脸部的显著图,计算用于编码光场视频的比特分配方案;根据所述脸部的显著图,计算用于编码光场视频的LCU层级拉格朗日乘数;以及根据所述脸部的显著图,计算用于编码光场视频的LCU层级量化参数。
Description
技术领域
本发明涉及一种基于脸部区域检测的光场视频压缩。
背景技术
在代表性的光场视频系统中,光场阵列系统捕获7个高分辨率视频以及两幅深度图。海量的光场数据给数据压缩和传输造成难题。已制定的高效视频编码(HEVC)标准已经发展为用于为此类带宽密集型应用提供更高的压缩效率。在HEVC中,视频帧划分为最大编码单元(LCU)序列,而这些LCU又可递归式地均分为四个子CU。在现有视频编码机制中,LCU的拉格朗日乘数和量化参数为常数,意味着获得预测残差后,所有LCU在比特分配方面均一视同仁。然而,由于人类视觉系统(HVS)侧重于具有高感知性信息的区域,因此这一设计可能无法实现最优编码性能。也就是说,由于人的注意力并不集中于整个场景上,而是仅集中于所谓的关注区域(ROI)这类小区域上,因此存在太多感知上的冗余信息。对于光场视频序列而言,带有人脸的区域往往会获得更多的视觉关注。此外,在设计为用于面部检测和识别的光场相机系统中,带有人脸的区域应当视为ROI。
发明内容
本发明提供一种光场视频编码方法,包括:确定光场视频内的关注区域;向该关注区域分配视觉关注度值,其中,该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同;根据所述关注区域的视觉关注度值,计算比特分配方案;以及根据所述比特分配方案,编码所述光场视频的帧。
优选地,所述关注区域包含人脸。
优选地,所述关注区域包含人脸特征。
优选地,所述视觉关注度值根据所述人脸的显著图确定。
优选地,进行主观率失真优化,以向所述关注区域分配更多资源。
优选地,还包括根据下式计算所述比特分配方案:
其中,Rframe为视频帧的总比特数,N为视频帧的编码单元的数目,Rn为向第n个所述编码单元分配的比特数,An表示视频帧内第n个所述编码单元的所述视觉关注度值,fi为像素的所述视觉关注度值且表示编码单元区域内的分块集,Nb为所述编码单元内的像素数。
优选地,还包括:
根据下式计算LCU层级拉格朗日乘数:
其中,Aavg为平均视觉关注度值。
优选地,β设为-0.9。
优选地,还包括:
根据下式计算LCU层级量化参数:
本发明还提供一种光场视频系统,包括:用于通过捕获多个视频和多幅深度图而生成光场视频的光场阵列系统;处理器;以及存有至少一个用于控制所述光场视频系统的程序的存储器,其中,所述处理器通过执行所述程序,以用于:确定所述光场视频内的关注区域;向该关注区域分配视觉关注度值,其中,该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同;根据所述关注区域的视觉关注度值,计算比特分配方案;以及根据所述比特分配方案,编码所述光场视频的帧。
优选地,所述关注区域包含人脸。
优选地,所述关注区域包含人脸特征。
优选地,所述视觉关注度值根据所述人脸的显著图确定。
优选地,进行主观率失真优化,以向所述关注区域分配更多资源。
优选地,所述处理器还用于执行所述程序,以用于根据下式计算所述比特分配方案:
其中,Rframe为视频帧的总比特数,N为视频帧的编码单元的数目,Rn为向第n个所述编码单元分配的比特数,An表示视频帧内第n个所述编码单元的所述视觉关注度值,fi为像素的所述视觉关注度值且表示编码单元区域内的分块集,Nb为所述编码单元内的像素数。
优选地,所述处理器还用于执行所述程序,以用于:
根据下式计算LCU层级拉格朗日乘数:
其中,Aavg为平均视觉关注度值。
优选地,β设为-0.9。
优选地,所述处理器还用于执行所述程序,以用于:
根据下式计算LCU层级量化参数:
附图说明
图1为用于全向视频编码的感知RDO方案的总体架构。
图2(a)为脸部区域检测示意图。
图2(b)为根据本发明实施方式的光场视频压缩方法所产生的含有一张脸部的图像。
图2(c)为根据HEVC压缩方法产生的含有一张脸部的图像。
图2(d)为脸部区域检测示意图。
图2(e)为根据本发明实施方式的光场视频压缩方法所产生的含有两张脸部的图像。
图2(f)为根据HEVC压缩方法产生的含有两张脸部的图像。
具体实施方式
在本公开内容中,提供一种基于脸部检测的感知光场视频编码方法。感知视频编码旨在通过提高脸部区域的视觉质量并牺牲其他区域的视觉质量而减少感知到的冗余信息,从而成为光场系统中传输大量视频数据的一种有效手段。具体而言,本公开内容针对视频,提供多张脸部的感知模型。相应地,提供一种检测光场系统中多张脸部的脸部特征及五官特征的方法。随后,向带有一张或多张脸部的视频帧的不同区域分配不同权重。根据此类权重,通过实施主观率失真优化而提高带有脸部及五官特征等重要信息的区域的质量。实验结果表明,该方法的脸部识别质量优于HEVC。
1.基于脸部区域权重的LCU层级速率控制方案
原始视频中的各帧不能视为各幅独立静止图像的简单叠加,这是因为其还含有与这些图像相关的关键运动信息。此外,对各帧之间运动信息的感知为视频质量评估(VQA)的一项重要功能。在HEVC等现有视频编码机制中,在获得预测残差后,所有LCU在比特分配方面均一视同仁,从而使得LCU层级的λ和QP保持不变。由于每一帧LCU的感知信息均不同,因此该方法与HVS不相符,而且固定不变的λ和QP难以实现最佳的比特分配。因此,根据本发明实施方式,提供一种基于脸部感知模型的新比特率分配策略。
在HEVC中,通过双曲线模型表征R-D关系,表示为:
其中,α和β为参数。如上所述,LCU层级恒定的λ和QP表示在现有视频编码机制中,在获得预测残差后,所有LCU在比特分配方面均一视同仁。
这一点可表示为:
其中,Rframe为帧的总比特数,N为帧中的LCU数,Rn为第n个LCU所分配的比特数。
然而,为了开发脸部识别质量更高的视频编码器,必须将HVS检测视频序列失真的能力考虑在内:对于易于发现编码失真的LCU,应该分配更多比特;而对于难以发现编码失真的LCU,应该分配更少比特。由于脸部能够较强地吸引人的视觉关注,因此本发明比特分配方案按照以下脸部显著图计算:
其中:An表示帧内第n个LCU的视觉关注度值;fi为像素的视觉关注度值,表示LCU区域中的分块集;Nb为LCU内的像素数。
2.自适应性LCU层级拉格朗日乘数和量化调节
通过将式(2)和式(3)代入式(1),可获得如下的新拉格朗日乘数:
根据式(4)可知,LCU的视觉关注度越小,λnew越大;而LCU的视觉关注度越大,λnew越小。由于λnew用于平衡失真和速率,因此λnew越小,编码失真程度越小,编码比特越多;而λnew越大,编码失真程度越大,编码比特越少。因此,本发明的λnew与HVS确实相符。
此外,拉格朗日乘数一般建模为如下量化参数函数:
λ=0.85·2(QP-12)/3.0 (5)
其中,QP为量化参数。通过结合式(4)和式(5),可获得如下新量化参数:
如式(6)所示,与感知上的重要区域相比,视觉关注度较小的LCU量化得更为粗略。通过这种方式,可以通过牺牲背景等感知上不太重要的区域而为脸部区域节省比特。此外,由于QP具有一定的变动范围,因此可以在感知优化方面提供更多选择。如此,能够在相同的比特率下获得更佳视觉质量。
用于全向视频编码的感知RDO方案的总体架构如图1所示。
本发明方法的实验结果示于图2。
图2(a)为脸部区域检测示意图,其中,关注区域包含一张人脸。
图2(b)为根据本发明实施方式的光场视频压缩方法所产生的含有一张脸部的图像。
图2(c)为根据HEVC压缩方法产生的含有一张脸部的图像。
图2(d)为脸部区域检测示意图,其中,关注区域包含两张人脸。
图2(e)为根据本发明实施方式的光场视频压缩方法所产生的含有两张脸部的图像。
图2(f)为根据HEVC压缩方法产生的含有两张脸部的图像。
如图2所示,该方法提供脸部区域伪影更少且模糊度更低的更高视觉质量。如此,脸部区域的视觉质量和峰值信噪比(PSNR)得到显著改善。
Claims (18)
2.如权利要求1所述的方法,其特征在于,所述关注区域包含人脸。
3.如权利要求2所述的方法,其特征在于,所述关注区域包含人脸特征。
4.如权利要求2所述的方法,其特征在于,所述视觉关注度值根据所述人脸的显著图确定。
5.如权利要求4所述的方法,其特征在于,进行主观率失真优化,以向所述关注区域分配更多资源。
7.如权利要求6所述的方法,其特征在于,β设为-0.9。
10.一种光场视频系统,其特征在于,包括:
用于通过捕获多个视频和多幅深度图而生成光场视频的光场阵列系统;
处理器;以及
存有至少一个用于控制所述光场视频系统的程序的存储器,其中,所述处理器通过执行所述程序,以用于:
确定所述光场视频内的关注区域;
向该关注区域分配视觉关注度值,其中,该视觉关注度值与所述光场视频的其他区域的视觉关注度值不同;
根据所述关注区域的视觉关注度值,计算比特分配方案;以及
根据所述比特分配方案,编码所述光场视频的帧;
其中,所述处理器还用于执行所述程序,以用于根据下式计算所述比特分配方案:
其中,Rframe为视频帧的总比特数,N为视频帧的编码单元的数目,R′n为向第n个所述编码单元分配的比特数,An表示视频帧内第n个所述编码单元的所述视觉关注度值,fi为像素的所述视觉关注度值且表示编码单元区域内的分块集,Nb为所述编码单元内的像素数。
11.如权利要求10所述的光场视频系统,其特征在于,所述关注区域包含人脸。
12.如权利要求11所述的光场视频系统,其特征在于,所述关注区域包含人脸特征。
13.如权利要求11所述的光场视频系统,其特征在于,所述视觉关注度值根据所述人脸的显著图确定。
14.如权利要求13所述的光场视频系统,其特征在于,进行主观率失真优化,以向所述关注区域分配更多资源。
16.如权利要求15所述的光场视频系统,其特征在于,β设为-0.9。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2017/115335 | 2017-12-08 | ||
CN2017115335 | 2017-12-08 | ||
PCT/CN2018/119643 WO2019109988A1 (en) | 2017-12-08 | 2018-12-07 | Face region detection based light field video compression |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111492657A CN111492657A (zh) | 2020-08-04 |
CN111492657B true CN111492657B (zh) | 2023-06-30 |
Family
ID=66751322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880079388.5A Active CN111492657B (zh) | 2017-12-08 | 2018-12-07 | 基于脸部区域检测的光场视频压缩 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11153606B2 (zh) |
CN (1) | CN111492657B (zh) |
WO (1) | WO2019109988A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092887A (zh) * | 2021-11-30 | 2022-02-25 | 深圳市商汤科技有限公司 | 一种目标分析方法、装置、计算机设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1830573A1 (en) * | 2006-03-02 | 2007-09-05 | Thomson Licensing | Method and apparatus for determining in picture signal encoding the bit allocation for groups of pixel blocks in a picture |
CN101572810A (zh) * | 2008-04-29 | 2009-11-04 | 合肥坤安电子科技有限公司 | 一种基于感兴趣区的视频编码方法 |
CN105049850A (zh) * | 2015-03-24 | 2015-11-11 | 上海大学 | 基于感兴趣区域的hevc码率控制方法 |
CN106604031A (zh) * | 2016-11-22 | 2017-04-26 | 金华就约我吧网络科技有限公司 | 一种基于兴趣区域的h.265视频质量提升方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7099513B2 (en) * | 2002-06-18 | 2006-08-29 | Pts Corporation | Bit allocation process for multi-stage image compression |
US20110235706A1 (en) * | 2010-03-25 | 2011-09-29 | Texas Instruments Incorporated | Region of interest (roi) video encoding |
CN101883291B (zh) * | 2010-06-29 | 2012-12-19 | 上海大学 | 感兴趣区域增强的视点绘制方法 |
KR101960844B1 (ko) * | 2011-11-01 | 2019-03-22 | 삼성전자주식회사 | 영상 처리 장치 및 방법 |
US9324161B2 (en) * | 2013-03-13 | 2016-04-26 | Disney Enterprises, Inc. | Content-aware image compression method |
US9706229B2 (en) * | 2013-06-05 | 2017-07-11 | Texas Instruments Incorporated | High definition VP8 decoder |
CN104469372B (zh) * | 2014-11-06 | 2018-09-07 | 中国科学院计算技术研究所 | 用于压缩微透镜阵列采集的光场图像的方法和系统 |
CN106937118B (zh) * | 2017-03-13 | 2019-09-13 | 西安电子科技大学 | 一种基于主观感兴趣区域和时空域相结合的码率控制方法 |
-
2018
- 2018-12-07 CN CN201880079388.5A patent/CN111492657B/zh active Active
- 2018-12-07 WO PCT/CN2018/119643 patent/WO2019109988A1/en active Application Filing
-
2020
- 2020-06-03 US US16/891,622 patent/US11153606B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1830573A1 (en) * | 2006-03-02 | 2007-09-05 | Thomson Licensing | Method and apparatus for determining in picture signal encoding the bit allocation for groups of pixel blocks in a picture |
CN101572810A (zh) * | 2008-04-29 | 2009-11-04 | 合肥坤安电子科技有限公司 | 一种基于感兴趣区的视频编码方法 |
CN105049850A (zh) * | 2015-03-24 | 2015-11-11 | 上海大学 | 基于感兴趣区域的hevc码率控制方法 |
CN106604031A (zh) * | 2016-11-22 | 2017-04-26 | 金华就约我吧网络科技有限公司 | 一种基于兴趣区域的h.265视频质量提升方法 |
Non-Patent Citations (1)
Title |
---|
朱天之等.基于SSIM的HEVC帧内编码率失真优化.《光电子·激光》.2014,(第12期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US20200296419A1 (en) | 2020-09-17 |
CN111492657A (zh) | 2020-08-04 |
US11153606B2 (en) | 2021-10-19 |
WO2019109988A1 (en) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10567764B2 (en) | Controlling a video content system by adjusting the compression parameters | |
KR101768857B1 (ko) | 다시야 비디오 코딩에서 로우 다이내믹 레인지 이미지들로부터 하이 다이내믹 레인지 이미지들의 생성 | |
JP5988577B2 (ja) | 画像符号化装置、画像符号化方法及びプログラム | |
CN106358040B (zh) | 一种基于显著性的码率控制比特分配方法 | |
US10057576B2 (en) | Moving image coding apparatus, moving image coding method, storage medium, and integrated circuit | |
US10531098B2 (en) | Video camera with rate control video compression | |
KR101662739B1 (ko) | 픽처 경계의 부호화 단위를 부호화, 복호화 하는 방법 및 장치 | |
US10602145B2 (en) | Image encoding apparatus and control method thereof | |
US20060256858A1 (en) | Method and system for rate control in a video encoder | |
CN111492657B (zh) | 基于脸部区域检测的光场视频压缩 | |
US9736485B2 (en) | Encoding apparatus, encoding method, and image capture apparatus | |
US20190082182A1 (en) | Method and device for encoding dynamic textures | |
JP6806466B2 (ja) | 画像符号化装置及びその制御方法 | |
WO2013081085A1 (en) | Moving image encoding apparatus, control method thereof and computer program | |
JP6200220B2 (ja) | 画像処理装置、符号化装置、復号装置、及びプログラム | |
US9167244B2 (en) | Image coding apparatus and method thereof | |
JP6966936B2 (ja) | 画像符号化装置及びその制御方法及びプログラム | |
KR101694293B1 (ko) | 카메라의 메타 데이터를 이용한 영상 압축 방법 | |
Li et al. | A novel weight-based URQ scheme for perceptual video coding of conversational video in HEVC | |
US20240357138A1 (en) | Human visual system adaptive video coding | |
US20240348801A1 (en) | Adaptive gop size selection | |
KR102320315B1 (ko) | 타일 기반 스트리밍을 위한 관심 영역 기반 타일 부호화 방법 및 장치 | |
JP4763413B2 (ja) | 画像改善装置 | |
EP4418651A1 (en) | Apparatus and method for improving video encoding | |
KR101545905B1 (ko) | 픽처 경계의 부호화 단위를 부호화, 복호화 하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |