CN110062243A

CN110062243A - 一种基于近邻优化的光场视频运动估计方法

Info

Publication number: CN110062243A
Application number: CN201910330519.9A
Authority: CN
Inventors: 金欣; 李羚俊; 戴琼海
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-26
Anticipated expiration: 2039-04-23
Also published as: CN110062243B

Abstract

本发明公开了一种基于近邻优化的光场视频运动估计方法，包括S1、分别计算K1个空域和K2个时域相对于宏像素的当前预测块的近邻同位块；S2、分别对K1个空域近邻同位块和K2个时域近邻同位块按照预定义的优先级进行可用性判断，并选出M个可用的近邻同位块作为参考块；S3、分别对M个参考块的运动向量进行基于近邻宏像素位置约束下的校正，得到M个候选运动向量预测量；S4、采用代价模型分别计算M个候选运动向量预测量导出的候选参考块与当前编码块的代价，将代价最小的候选运动向量预测量作为最终的运动向量预测量进行运动搜索，完成运动估计。本发明可以为整个压缩过程节省更多的码流，提高了光场视频的压缩率。

Description

一种基于近邻优化的光场视频运动估计方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，具体涉及一种基于近邻优化的光场视频运动估计方法。

背景技术

近年来，光场相机所捕获的光场视频在VR/AR内容生成、6-DoF视频、三维重建等计算机视觉领域展现出了极大的应用前景，引发了人们的广泛关注。 MPEG为此开展了光场视频压缩标准的创立工作。光场视频，其每一帧都是一副光场图像，在记录了光线角度和位置信息的同时还记录了这些信息随时间的变化，具有超高分辨率和特殊的像素分布，这使得相对于传统设备采集的视频，光场视频数据量急剧增大。数据量的激增给光场视频的存储和传输带来了巨大压力，对现有解码算法和编解码软硬件架构提出了巨大挑战，也制约了光场相机的发展和应用。因此，研究针对光场视频数据的编码技术，寻找针对光场视频数据高效的压缩方法成为由平面多媒体迈向立体影像时代急需且必须的核心技术。

目前，针对光场视频利用帧间预测技术的直接压缩方法还十分稀少，压缩效率还不够高；而用传统的视频压缩方法也能对光场视频进行压缩，但压缩率十分有限；如HEVC(High Efficiency Video Coding)自身的帧间预测方法能够处理光场视频，达到一定的压缩效果。但是由于光场视频的数据量较普通视频急剧上升，将光场视频作为传统视频进行压缩，将带来巨大计算复杂度。虽然使用HEVC的全搜索算法能提供较高的压缩效率，但其计算复杂度是难以接受的；而其中的快速搜索方法虽然能够大幅降低计算复杂度，但是压缩效率还有一定提升空间。目前利用帧间预测对光场视频进行直接压缩的方法中，统一存在的缺陷是：由于图像中宏像素结构和编码器架构不匹配导致宏像素间的相关性未能充分利用，进而影响了编码效率。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

为提升光场视频的编码压缩效率，同时降低编解码两端的计算复杂度，本发明提出了一种基于近邻优化的光场视频运动估计方法，基于光场数据中宏像素之间的运动相关性的统计和分析，选取具有较高运动相关性的块作为参考块进行运动预测，从而提高了运动预测和运动估计的准确度，节省了运动信息的码率，有效降低计算复杂度，实现编码效率的有效提升。

本发明为达上述目的所提供的技术方案如下：

一种基于近邻优化的光场视频运动估计方法，包括以下步骤S1至S4：

S1、分别计算K1个空域和K2个时域相对于宏像素的当前预测块的近邻同位块；

S2、分别对K1个空域近邻同位块和K2个时域近邻同位块按照预定义的优先级进行可用性判断，并选出M个可用的近邻同位块作为参考块；

S3、分别对M个参考块的运动向量进行基于近邻宏像素位置约束下的校正，得到M个候选运动向量预测量；

S4、采用代价模型分别计算M个候选运动向量预测量导出的候选参考块与当前编码块的代价，将代价最小的候选运动向量预测量作为最终的运动向量预测量进行运动搜索，完成运动估计。

本发明提供的上述技术方案与现有技术相比，至少具有以下有益效果：

1)基于相邻宏像素之间具有运动相关性的特征，选取相关性较高的近邻同位块作为运动预测的参考块，以使当前编码块与参考块之间的宏像素相互匹配，从而确定较为准确的运动搜索范围，提高预测的准确性；

2)对参考块的运动向量进行基于宏像素约束下的位置校正，使得每个候选运动向量预测量导出的候选参考块与当前编码块之间的宏像素相互匹配，提高候选参考块与当前编码块的相关性，有效降低了运动信息的码率开销；

3)采用代价模型从多个候选运动向量预测量选取代价最小的候选运动向量预测量最为最终运动向量预测量，最后用该运动向量预测量进行运动搜索完成整个运动估计过程。在此基础上，最终可以根据HEVC自身的框架完成整个光场视频的压缩过程。

总之，采用本发明提供的上述运动估计方法，可以为整个压缩过程节省更多的码流，提高了光场视频的压缩率。

附图说明

图1是本发明提出的基于近邻优化的光场视频运动估计方法流程图；

图2-1是一种示例性块尺寸下的空域近邻同位块位置选取示意图；

图2-2是一种示例性块尺寸下的时域近邻同位块位置选取示意图；

图3是其中一种示例性块尺寸下的基于宏像素的位置校正示意图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明的具体实施方式提供了一种基于近邻优化的光场视频运动估计方法，用于在对光场视频进行压缩编码的过程中进行运动估计。本发明的方法适用于大多数视频编码软件，在后述的说明中以应用于HM16.15软件中为例。应当理解的是，编码软件的类型和版本不对本发明的保护范围构成限制。

参考图1，本发明的光场视频运动估计方法包括步骤S1至S4：

步骤S1、分别计算K1个空域和K2个时域相对于宏像素的当前预测块的近邻同位块。块的左上角像素坐标就代表块的坐标，因此，计算出空域、时域近邻同位块的左上角像素的坐标，即得到了空域、时域近邻同位块的坐标(位置)。

具体的计算过程如下：

(x_R1,y_R1)＝(x_P+p·w+offset,y_P+q·h) (1)

(x_R2,y_R2)＝(x_P,y_P)+v (2)

其中，(x_R1,y_R1)为空域近邻同位块的左上角像素的坐标，代表了空域近邻同位块的位置；(x_R2,y_R2)为时域近邻同位块的左上角像素的坐标，代表了时域近邻同位块的位置；(x_P,y_P)是当前编码块的参考像素坐标；h是水平相邻宏像素间的水平中心点距离，w是竖直相邻宏像素间的竖直中心点距离；offset是竖直相邻的宏像素间的水平中心点距离；p、q为整数，分别表示相对于当前编码块的基于宏像素间距的近邻同位块的水平偏移量和竖直偏移量；v是当前帧与参考帧之间的近邻宏像素间中心点偏移量。

下面通过具体的例子来说明步骤S1。如图2-1所示为一种示例性块尺寸下的五个空域近邻同位块位置选取示意图，图2-2为一种示例性块尺寸下的两个时域近邻同位块选取示意；五个空域相对于宏像素的当前预测单元的近邻同位块为A₀、A₁、B₀、B₁、B₂，两个时域相对于宏像素的当前预测单元的近邻同位块为C₁、H₀。

如图2-1所示，以P₀左上角的像素坐标为参考像素坐标，可以计算得到A₀、A₁左上角像素坐标，公式如下：

为A₀左上角像素坐标，即代表了空域近邻同位块A₀的位置；为 A₁左上角像素坐标，即代表了空域近邻同位块A₁的位置。

继续参考图2-1，同理，以P₁和P₂左上角的像素为参考可计算得到B₀、 B₁、B₂左上角的像素坐标，公式如下：

为B₀左上角像素坐标，即代表了空域近邻同位块B₀的位置；为 B₁左上角像素坐标，即代表了空域近邻同位块B₁的位置；为B₂左上角像素坐标，即代表了空域近邻同位块B₂的位置。

如图2-2所示，以P₀'和P₁'左上角的像素为参考可计算得到H₀、C₁左上角的像素位置，公式如下：

为H₀左上角像素坐标，即代表了时域近邻同位块H₀的位置；为C₁左上角像素坐标，即代表了时域近邻同位块C₁的位置。

步骤S2、分别对K1个空域近邻同位块和K2个时域近邻同位块按照预定义的优先级进行可用性判断，并从可用的空域近邻同位块和时域近邻同位块中选出M个近邻同位块作为参考块，即得到M个参考块。

在一种具体的实施例中，可用性判断，是判断空域、时域近邻同位块是否同时满足下述三个条件：

条件1、该近邻同位块在图像边界以内；根据坐标即可判断是否在图像边界内；

条件2、该近邻同位块已经重建；

条件3、该近邻同位块在编码时使用了帧间预测模式。满足这三个条件的近邻同位块则为可用的近邻同位块，然后可以根据一定的优先级，从可用的近邻同位块中选出M个同位块作为参考块，记从可用的空域和时域近邻同位块中选出的参考块为M_i，i＝1,2,…,M。优先级可以自定义，本发明对此不做限制。

比如，在前述的示例性方案中，按照A₀,A₁的优先级，判断可用性并从中选出一个可用同位块M₁；按照B₀,B₁,B₂的优先级，判断可用性并从中选出一个可用同位块M₂；若M₁或M₂不存在，则按照H₀,C₁的优先级，判断可用性，从中选出一个可用同位块M₃。

步骤S3、分别对M个参考块的运动向量进行基于近邻宏像素位置约束下的校正，得到M个候选运动向量预测量。如图3所示，MVP表示参考块的运动向量，rMVP表示候选运动向量预测量。所述校正使得参考块左上角的像素与当前编码块在参考帧的近邻同位块左上角像素的位置相对于宏像素一致。校正的公式如下：

其中，(x,y)和(x',y')分别表示校正后和校正前的运动向量预测量；(x_i,y_i)表示(x',y')近邻的第i个宏像素同位块的坐标。

步骤S4、采用代价模型分别计算M个候选运动向量预测量导出的候选参考块与当前编码块的代价，将代价最小的候选运动向量预测量作为最终的运动向量预测量进行运动搜索，完成运动估计。其中，采用代价模型分别计算M个候选运动向量预测量导出的候选参考块与当前编码块的代价的具体过程属于公知技术，在此不再赘述。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定

本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于近邻优化的光场视频运动估计方法，其特征在于，包括以下步骤S1至S4：

2.如权利要求1所述的基于近邻优化的光场视频运动估计方法，其特征在于，步骤S1中通过计算近邻同位块左上角像素坐标而得到近邻同位块的坐标。

3.如权利要求2所述的基于近邻优化的光场视频运动估计方法，其特征在于，采用如下公式计算空域近邻同位块左上角像素坐标(x_R1,y_R1)：

(x_R1,y_R1)＝(x_P+p·w+offset,y_P+q·h)

其中，(x_P,y_P)是当前编码块的参考像素坐标；h是水平相邻宏像素间的水平中心点距离，w是竖直相邻宏像素间的竖直中心点距离；offset是竖直相邻的宏像素间的水平中心点距离；p、q为整数，分别表示相对于当前编码块的基于宏像素间距的近邻同位块的水平偏移量和竖直偏移量。

4.如权利要求2所述的基于近邻优化的光场视频运动估计方法，其特征在于，采用如下公式计算时域近邻同位块左上角像素坐标(x_R2,y_R2)：

(x_R2,y_R2)＝(x_P,y_P)+v

其中，v是当前帧与参考帧之间的近邻宏像素间中心点偏移量。

5.如权利要求2所述的基于近邻优化的光场视频运动估计方法，其特征在于，步骤S2中近邻同位块的可用性判断包括：判断近邻同位块是否同时满足如下三个条件，若满足则为可用；

条件1、该近邻同位块在图像边界以内；

条件2、该近邻同位块已经重建；

条件3、该近邻同位块在编码时使用了帧间预测模式。

6.如权利要求5所述的基于近邻优化的光场视频运动估计方法，其特征在于，根据步骤S1计算出的近邻同位块坐标判断近邻同位块是否在图像边界以内。

7.如权利要求5所述的基于近邻优化的光场视频运动估计方法，其特征在于，步骤S3中，对参考块的运动向量进行基于近邻宏像素位置约束下的校正采用如下公式：