CN111757125B - 基于光场多视角视频压缩方法及其装置、设备和介质 - Google Patents

基于光场多视角视频压缩方法及其装置、设备和介质 Download PDF

Info

Publication number
CN111757125B
CN111757125B CN201910248121.0A CN201910248121A CN111757125B CN 111757125 B CN111757125 B CN 111757125B CN 201910248121 A CN201910248121 A CN 201910248121A CN 111757125 B CN111757125 B CN 111757125B
Authority
CN
China
Prior art keywords
frame
light field
prediction
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910248121.0A
Other languages
English (en)
Other versions
CN111757125A (zh
Inventor
胡强
石志儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaoke Intelligent Technology Shanghai Co ltd
Original Assignee
Yaoke Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaoke Intelligent Technology Shanghai Co ltd filed Critical Yaoke Intelligent Technology Shanghai Co ltd
Priority to CN201910248121.0A priority Critical patent/CN111757125B/zh
Publication of CN111757125A publication Critical patent/CN111757125A/zh
Application granted granted Critical
Publication of CN111757125B publication Critical patent/CN111757125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供的一种基于光场多视角视频压缩方法及其装置、设备和存储介质,通过获取原始光场图像数据;将所述原始光场图像数据转换为5维光场数据结构的全光图像;依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。本申请能够使光场数据得到了大幅的压缩,提高了整体光场视频的压缩效率。

Description

基于光场多视角视频压缩方法及其装置、设备和介质
技术领域
本发明涉及视频编码技术领域,特别是涉及一种基于光场多视角视频压缩方法及其装置、设备和存储介质。
背景技术
随着网络多媒体技术的快速发展,虚拟现实技术的应用逐渐普及,消费者对视觉体验多样化的需求越来越高,使得光场技术得到了更多的关注。在场景中捕获空间和角度信息可以实现各种后处理应用,如重建三维场景模型、重新聚焦于不同的深度平面、改变景深等。光场捕获技术用于捕捉场景中光线的空间和角度信息,获得信息更为丰富的四维图像,带来了很多新的摄影特性和玩法。
如果相机能够记录下所有入射光的数据,就可以重建出被光照射物体的所有信息。一个光场可以由一个全光相机或多个传统相机捕获。前者捕获密集光场,后者捕获稀疏光场。然而,大量的光场应用必然会产生海量的视频数据,这些光场数据量也给视频的存储及传输带来了巨大的压力。因此,高效的光场视频编码方法成为了光场应用的关键。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于光场多视角视频压缩方法及其装置、设备和存储介质,以解决现有技术中视频事件提取的问题。
为实现上述目的及其他相关目的,本申请提供一种基于光场多视角视频压缩方法,所述方法包括:获取原始光场图像数据;将所述原始光场图像数据转换为5维光场数据结构的全光图像;依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
于本申请的一实施例中,N个所述伪视频序列对应N个不同视角;各所述伪视频序列包含N个帧并对应为一组图像序列。
于本申请的一实施例中,所述视频编码器为MV-HEVC编码器;通过帧间预测和视角间预测以减小对应不同视角的所述子孔径图像之间的时域之间和/或视角之间的冗余。
于本申请的一实施例中,所述采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别的方法包括:依据所述帧对应的质量划分预测级别;所述帧对应的质量降低,所述预测级别相应递减;较高所述预测级别对应的所述帧作为较低所述预测级别对应的所述帧的参考帧,以进行预测和编码。
于本申请的一实施例中,各所述伪视频序列包含N个帧并对应为一组图像序列;所述采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别的方法还包括:各所述伪视频序列对应的所述图像序列中的第一帧为各所述伪视频序列的关键帧;对应所述预测级别最高的帧依据所述关键帧进行预测和编码;对应所述预测级别非最高的帧依据所述关键帧或参考帧进行预测和编码。
于本申请的一实施例中,各所述伪视频序列对应的所述图像序列中的第一帧为各所述伪视频序列的关键帧;依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数的方法包括:依据关键帧设置一基础量化参数;位于同一所述图像序列中的其余各所述帧则依据所述预测等级在所述基础量化参数的基础上进行偏移以得到其余各所述帧对应的所述量化参数。
于本申请的一实施例中,所述其余各所述帧对应的所述量化参数的计算方法包括:QPi=QPB+QPoffset;其中,QPoffset为偏移量;QPi为量化参数;QPB为基础量化参数;POCi为当前帧的所述图像序列;POC0为所述关键帧的图像序列;Vi为当前视角的所述伪视频序列;V6为所述关键帧的视角的所述伪视频序列;w为基于预测等级的权重参数。
为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:获取模块,用于获取原始光场图像数据;处理模块,用于将所述原始光场图像数据转换为5维光场数据结构的全光图像;依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
为实现上述目的及其他相关目的,本申请提供一种电子设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机程序;所述处理器运行计算机程序实现如上所述的基于光场多视角视频压缩方法。
为实现上述目的及其他相关目的,本申请提供一种计算机存储介质,存储有计算机程序,所述计算机程序被运行时执行如上所述的基于光场多视角视频压缩方法。
综上所述,本申请的一种基于光场多视角视频压缩方法及其装置、设备和存储介质。通过获取原始光场图像数据;将所述原始光场图像数据转换为5维光场数据结构的全光图像;依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
具有以下有益效果:
能够使光场数据得到了大幅的压缩,提高了整体光场视频的压缩效率。
附图说明
图1显示为本申请于一实施例中的基于光场多视角视频压缩方法的流程示意图。
图2显示为本申请于一实施例中的自适应预测方法的模型示意图。
图3显示为本申请于一实施例中的电子装置的模块示意图。
图4显示为本申请于一实施例中的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
承前所述,由于大量的光场应用必然会产生海量的视频数据,这些光场数据量也给视频的存储及传输带来了巨大的压力。为此,本申请基于光场数据中存在大量的时空冗余,充分利用光场数据的低复杂度,如稀疏性、低秩性等,提出一种基于光场多视角视频压缩方法及其装置、设备和存储介质,以对光场信息进行有效地压缩,从而解决上述问题。
如图1所示,展示为本申请一实施例中的基于光场多视角视频压缩方法的流程示意图。
如图所示,所述方法包括:
步骤S101:获取原始光场图像数据。
于本实施例中,本申请所述方法首先需要获取原始光场图像数据,而所述原始光场图像数据可以是由一个全光相机或多个传统相机捕获图像或视频,还可以是已有的光场图像数据。并且需要说明的是,该步骤所述的原始光场图像数据是如何得到的并无限制,在步骤S101中仅需获取到所述原始光场图像数据即可。
需要说明的是,本申请所述方法能够对密集光场和稀疏光场均可进行压缩,故所述原始光场图像数据包含这两种类型的光场图像数据。
步骤S102:将所述原始光场图像数据转换为5维光场数据结构的全光图像。
于本实施例中,所述5维光场数据结构即按对应不同维度预设相应参数,以便于后续处理,其为一种图像处理的手段。
于本实施例中,获取原始光场图像数据后,通过用光场工具包可以得到5维的光场数据LF(x,y,s,t,n)。其中,x,y表示单个微透镜后面的像素行和列;s,t表示微透镜阵列的行和列;n表示通道,于本实施例中表示图像的通道数,如grgb格式。
举例来说,5维光场数据结构预设为[13×13×434×625×4],则其对应代表的含义为:将所述原始光场图像数据被转换成一组13×13子孔径图像(如13行×13列的图像矩阵),每个子孔径图像的分辨率为434×625,对应的子孔径图像为4通道数。
步骤S103:依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器。
承上所述,在处理为5维光场数据结构的全光图像后,即可进行相应转换处理。具体来说,每个子孔径图像能够分别表现为从一个稍微不同的角度所描绘的场景。
于本申请的一实施例中,N个所述伪视频序列对应N个不同视角;各所述伪视频序列包含N个帧并对应为一组图像序列。即N×N子孔径图像可对应N个视角×N个帧。这里各所述子孔径图像均不相同,但相邻两子孔径图像之间仅有细微角度差距。另外,对于边界视角因其包含有噪音,因而选择丢弃。
于本申请的一实施例中,所述视频编码器为MV-HEVC编码器;通过帧间预测和视角间预测以减小对应不同视角的所述子孔径图像之间的时域之间和/或视角之间的冗余。
HEVC是High Efficiency Video Coding的缩写,是一种新的视频压缩标准(H.265),用来以替代H.264/AVC编码标准。
于本实施例中,将N个伪视频序列(各所述伪视频序列包含N个帧)作为MV-HEVC编码器的输入。
所述MV-HEVC编码器还需每幅图像使用帧间预测和视角间预测来有效地降低时域相邻子孔径图像间和相邻视角子孔径图像之间的相关性。在全光摄像机中,单个图像传感器上从不同的角度拍摄场景,使得相邻视图之间的视角变化很小,从而使MV-HEVC的编码过程有效减少时域和视角间的冗余。
步骤S104:采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码。
预测编码是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准确,误差就会很小。在同等精度要求的条件下,就可以用比较少的比特进行编码,达到压缩数据的目的。
于本申请的一实施例中,所述步骤S104的具体方法包括:
A、依据所述帧对应的质量划分预测级别;所述帧对应的质量降低,所述预测级别相应递减;
B、较高所述预测级别对应的所述帧作为较低所述预测级别对应的所述帧的参考帧,以进行预测和编码。
于本实施例中,通过自适应预测方法对密集和稀疏采样的光场数据进行压缩。预测方案将帧划分为多个预测级别,并且量化参数调整算法在为每个帧分配量化参数时会使用这些预测级别信息。最佳可用质量被指定为最高预测级别,如第一个预测级别,并且随着预测级别的递减,每个连续预测级别的质量都会稍低一些,如随着所述帧对应的质量降低,对应的预测级别还有第二预测级别、第三预测级别等。
另外,放置在较高预测级别中的帧可以作为放置在较低预测级别中的帧的参考帧,以进行预测编码,减少时间冗余;然而,放置在最后一个预测级别中的帧没有用于任何其他帧的预测,因为其为质量最低的帧。这样,质量更好的帧被用来预测其他帧,可以提高整体压缩效率。
于本申请的一实施例中,所述步骤S104的具体方法还包括:
C、各所述伪视频序列对应的所述图像序列中的第一帧为各所述伪视频序列的关键帧;
D、对应所述预测级别最高的帧依据所述关键帧进行预测和编码;
E、对应所述预测级别非最高的帧依据所述关键帧或参考帧进行预测和编码。
综合上述步骤A-E通过图2进一步举例说明。
如图2所示,展示为于本实施例中自适应预测方法的模型示意图。首先对光场采集到的数据进行了分类,将一组13x13子孔径图像处理为13个伪视频序列,每个序列具有13个帧,以便使用MV-HEVC编码器进行压缩。13个视频分别对应13个视角(View),而每个视频中的13帧则对应一组图像序列(POC)。其中,第7个视角(V6)中的第一帧图像(POC0)为所有视频序列的关键帧,所有的预测都从它开始。其余所有帧则被划分到了三个预测等级,第3个视角(V2)和第11个视角(V10)中的第5帧(POC4)和第13帧(POC12)被定义为第1预测等级。第1预测等级的帧是在关键帧编码后进行编码的,并使用关键帧进行预测。第1个视角(V0)、第5个视角(V4)、第9个视角(V8)和第13个视角(V12)中的第3帧(POC2)、第7帧(POC6)和第11帧(POC10)被定义为第2预测等级。第2预测等级的帧是在第1预测等级帧编码后进行编码的,并使用第1预测等级帧和关键帧进行预测。其余的帧则被定义为第三预测等级的帧,可以从关键帧、第1预测等级帧及第2预测等级帧进行预测。
所提出的预测方案具有两个主要优点,首先是第3预测等级帧的编码效率最高,因为相邻帧已经被编码,可以作为参考帧进行预测。其次是量化参数设置考虑了预测等级,即为不同预测等级的帧分配不同的量化参数,以达到更高的压缩效率。
步骤S105:依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
所述量化参数(Quantizer Parameter),反映了空间细节压缩情况。值越小,量化越精细,图像质量越高,产生的码流也越长。如QP小,大部分的细节都会被保留;QP增大,一些细节丢失,码率降低,但图像失真加强和质量下降。
于本实施例中,为每个帧分配量化参数时会使用上述各帧对应的预测级别信息。
为了进一步提高压缩效率,本申请还提出了基于预测等级的量化参数设定方法,具体如下:
A、依据关键帧设置一基础量化参数(QPB);
B、位于同一所述图像序列中的其余各所述帧则依据所述预测等级在所述基础量化参数的基础上进行偏移以得到其余各所述帧对应的所述量化参数。
具体地,其余帧的量化参数(QPi)计算公式如下:
QPi=QPB+QPoffset
其中,QPoffset为偏移量;QPi为量化参数;QPB为基础量化参数;POCi为当前帧的所述图像序列;POC0为所述关键帧的图像序列;Vi为当前视角的所述伪视频序列;V6为所述关键帧的视角的所述伪视频序列;w为基于预测等级的权重参数。
需要说明的是,为方便理解,上述公式中的V6出于便于理解的考虑,采用对应图2中实际所述关键帧的视角的所述微视频序列V6,而这里应理解的是,V6实际是对应所述关键帧的视角的所述微视频序列,而并非示例图中所举例的。
其中,考虑到每帧的距离、预测水平和解码顺序,对每个帧的量化参数进行估计,并得到了如下表1所示的权重参数与预测等级的关系表。
表1权重参数与预测等级的关系表
等级 等级0(关键帧) 等级1 等级2 等级3
等级0(关键帧) QPB 3 3 3
等级1 3 3 2 2
等级2 3 2 3 3
等级3 3 2 3 1.5
从公式可知,我们计算了当前帧与关键帧之间的POC和视角ID差,并估计了量化参数的偏移量QPoffset,然后再加到基础量化参数上,以此得到每帧的量化参数。
本申请所提出的基于光场多视角视频压缩方法,及光场数据预测编码结构及量化参数调整方案,能够使光场数据得到了大幅的压缩,与参考JPEG相比,该方法的峰值信噪比提高了8dB。
如图3所示,展示为本申请于一实施例中的电子装置的模块示意图。如图所示,所述电子装置300包括:
获取模块301,用于获取包含一或多个事件的视频,利用基于光流法的去抖算法对所述视频进行预处理并做标注;
处理模块302,用于依据基于数据集预训练过的C3D网络模型对预处理后的所述视频提取所述C3D网络模型的第五层卷积层的输出,以获取对应所述视频的深度时空特征序列;对所述深度时空特征序列通过3D卷积、最大池化、非极大抑制、3D RoI池化、及线性回归处理以得到对应所述视频中各事件的起止时间区间;根据各所述起止时间区间将所述视频截取为一或多个视频段,将各所述视频段通过基于数据集预训练过的VGG网络模型得到对应各所述视频段的多个视频帧的2D特征,统计所述数据集中出现过的单词以形成词汇表;将全部所述2D特征通过双向LSTM编码网络和LSTM解码网络,以得到各所述视频段对应事件的文本描述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块302可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块302的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图4所示,展示为本申请于一实施例中的电子设备的结构示意图。如图所示,所述电子设备400包括:存储器401、及处理器402;所述存储器401用于存储计算机程序;所述处理器402运行计算机程序实现如图1所述的基于光场多视角视频压缩方法。
所述存储器401可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
所述处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的基于光场多视角视频压缩方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种基于光场多视角视频压缩方法及其装置、设备和存储介质,通过获取原始光场图像数据,将所述原始光场图像数据转换为5维光场数据结构的全光图像,依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器,采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码,依据各所述帧对应的所述预测等级相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种基于光场多视角视频压缩方法,其特征在于,所述方法包括:
获取原始光场图像数据;
将所述原始光场图像数据转换为5维光场数据结构的全光图像;
依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;所述N×N子孔径图像对应N个视角×N个帧;
采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;包括:依据所述帧对应的质量划分预测级别;所述帧对应的质量降低,所述预测级别相应递减;
依据各所述帧对应的所述预测级别相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
2.根据权利要求1所述的基于光场多视角视频压缩方法,其特征在于,N个所述伪视频序列对应N个不同视角;各所述伪视频序列包含N个帧并对应为一组图像序列。
3.根据权利要求2所述的基于光场多视角视频压缩方法,其特征在于,所述视频编码器为MV-HEVC编码器;通过帧间预测和视角间预测以减小对应不同视角的所述子孔径图像之间的时域之间和/或视角之间的冗余。
4.根据权利要求1所述的基于光场多视角视频压缩方法,其特征在于,所述采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别的方法还包括:
较高所述预测级别对应的所述帧作为较低所述预测级别对应的所述帧的参考帧,以进行预测和编码。
5.根据权利要求4所述的基于光场多视角视频压缩方法,其特征在于,各所述伪视频序列包含N个帧并对应为一组图像序列;所述采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别的方法还包括:
各所述伪视频序列对应的所述图像序列中的第一帧为各所述伪视频序列的关键帧;
对应所述预测级别最高的帧依据所述关键帧进行预测和编码;
对应所述预测级别非最高的帧依据所述关键帧或参考帧进行预测和编码。
6.根据权利要求5所述的基于光场多视角视频压缩方法,其特征在于,各所述伪视频序列对应的所述图像序列中的第一帧为各所述伪视频序列的关键帧;
依据各所述帧对应的所述预测级别相应设定各所述帧进行编码所需的量化参数的方法包括:
依据关键帧设置一基础量化参数;
位于同一所述图像序列中的其余各所述帧则依据所述预测级别在所述基础量化参数的基础上进行偏移以得到其余各所述帧对应的所述量化参数。
7.根据权利要求6所述的基于光场多视角视频压缩方法,其特征在于,所述其余各所述帧对应的所述量化参数的计算方法包括:
QPi=QPB+QPoffset
其中,QPoffset为偏移量;QPi为量化参数;QPB为基础量化参数;POCi为当前帧的所述图像序列;POC0为所述关键帧的图像序列;Vi为当前视角的所述伪视频序列;V6为所述关键帧的视角的所述伪视频序列;w为基于预测级别的权重参数。
8.一种电子装置,其特征在于,所述装置包括:
获取模块,用于获取原始光场图像数据;
处理模块,用于将所述原始光场图像数据转换为5维光场数据结构的全光图像;依据所述全光图像转换成一组N×N子孔径图像,并据以处理形成N个伪视频序列,以输入视频编码器;所述N×N子孔径图像对应N个视角×N个帧;采用自适应预测方法将伪视频序列中的每个帧对应划分为不同的预测级别,以供进行预测编码;包括:依据所述帧对应的质量划分预测级别;所述帧对应的质量降低,所述预测级别相应递减;依据各所述帧对应的所述预测级别相应设定各所述帧进行编码所需的量化参数,以供进行压缩。
9.一种电子设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机程序;所述处理器运行计算机程序实现如权利要求1至7中任意一项所述的基于光场多视角视频压缩方法。
10.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被运行时执行如权利要求1至7中任一项所述的基于光场多视角视频压缩方法。
CN201910248121.0A 2019-03-29 2019-03-29 基于光场多视角视频压缩方法及其装置、设备和介质 Active CN111757125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910248121.0A CN111757125B (zh) 2019-03-29 2019-03-29 基于光场多视角视频压缩方法及其装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910248121.0A CN111757125B (zh) 2019-03-29 2019-03-29 基于光场多视角视频压缩方法及其装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111757125A CN111757125A (zh) 2020-10-09
CN111757125B true CN111757125B (zh) 2024-02-27

Family

ID=72671295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910248121.0A Active CN111757125B (zh) 2019-03-29 2019-03-29 基于光场多视角视频压缩方法及其装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111757125B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375766A (zh) * 2016-09-08 2017-02-01 电子科技大学 一种光场图像压缩方法
CN106973293A (zh) * 2017-04-21 2017-07-21 中国科学技术大学 基于视差预测的光场图像编码方法
CN107135393A (zh) * 2017-05-03 2017-09-05 北京航空航天大学 一种光场图像的压缩方法
CN107295264A (zh) * 2017-08-01 2017-10-24 清华大学深圳研究生院 一种基于单应性变换光场数据压缩方法
CN107431797A (zh) * 2015-04-23 2017-12-01 奥斯坦多科技公司 用于全视差光场显示系统的方法和装置
CN109274955A (zh) * 2018-09-11 2019-01-25 曜科智能科技(上海)有限公司 光场视频及深度图的压缩与同步方法、系统、及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050286629A1 (en) * 2004-06-25 2005-12-29 Adriana Dumitras Coding of scene cuts in video sequences using non-reference frames
GB2525851B (en) * 2014-04-30 2017-03-29 Canon Kk Method and device for encoding a sub-aperture image of a set of sub-aperture images obtained from a plenoptic image

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107431797A (zh) * 2015-04-23 2017-12-01 奥斯坦多科技公司 用于全视差光场显示系统的方法和装置
CN106375766A (zh) * 2016-09-08 2017-02-01 电子科技大学 一种光场图像压缩方法
CN106973293A (zh) * 2017-04-21 2017-07-21 中国科学技术大学 基于视差预测的光场图像编码方法
CN107135393A (zh) * 2017-05-03 2017-09-05 北京航空航天大学 一种光场图像的压缩方法
CN107295264A (zh) * 2017-08-01 2017-10-24 清华大学深圳研究生院 一种基于单应性变换光场数据压缩方法
CN109274955A (zh) * 2018-09-11 2019-01-25 曜科智能科技(上海)有限公司 光场视频及深度图的压缩与同步方法、系统、及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于阵列图像的自适应光场三维重建算法研究;丁伟利 等;仪器仪表学报(第09期);第2156-2165页 *

Also Published As

Publication number Publication date
CN111757125A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN110622514B (zh) 用于视频译码的帧内参考滤波器
Chen et al. Light field compression with disparity-guided sparse coding based on structural key views
Hou et al. Light field image compression based on bi-level view compensation with rate-distortion optimization
Perra et al. JPEG 2000 compression of unfocused light field images based on lenslet array slicing
JP2017512440A (ja) ステレオビデオのための深度認識向上
Lin et al. A depth information based fast mode decision algorithm for color plus depth-map 3D videos
TWI834087B (zh) 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品
GB2525851A (en) Method and device for encoding a sub-aperture image of a set of sub-aperture images obtained from a plenoptic image
US20160241855A1 (en) Optimized plenoptic image encoding
Perra On the coding of plenoptic raw images
Santos et al. Lossless coding of light field images based on minimum-rate predictors
Rizkallah et al. Graph-based transforms for predictive light field compression based on super-pixels
CN116210219A (zh) 光场图像的处理方法、编码器、解码器及存储介质
Schiopu et al. Deep-learning-based macro-pixel synthesis and lossless coding of light field images
Astola et al. Coding of light fields using disparity-based sparse prediction
Van Duong et al. Focal stack based light field coding for refocusing applications
Perra et al. Raw light field image compression of sliced lenslet array
CN112470472B (zh) 盲压缩采样方法、装置及成像系统
Perra et al. Light field compression on sliced lenslet array
Ahmad et al. Towards a generic compression solution for densely and sparsely sampled light field data
Zhao et al. Light field image compression via CNN-based EPI super-resolution and decoder-side quality enhancement
CN111757125B (zh) 基于光场多视角视频压缩方法及其装置、设备和介质
CN116848843A (zh) 可切换的密集运动向量场插值
US20180278955A1 (en) Method and apparatus for reducing the coding artefact of a light field based image, and corresponding computer program product
JP5534247B2 (ja) 画素のラスターイメージのブロックごとの符号化方法、そのコンピュータプログラムおよびその画像キャプチャ装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant