CN112672150A

CN112672150A - 基于视频预测的视频编码方法

Info

Publication number: CN112672150A
Application number: CN202011526391.2A
Authority: CN
Inventors: 陈志峰; 方正; 郭恩特; 杨晶晶
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-16

Abstract

本发明涉及一种基于视频预测的视频编码方法，包括以下步骤：步骤S1：对待处理视频已编码的视频重建帧进行深度估计，预测出其对应的深度图；步骤S2：根据得到深度图来预测当前正在编码的视频帧，得到其预测图像；步骤S3：将得到的预测图像作为参考帧加入到视频编码过程中。本发明能够有效预测由相机运动引起的背景像素运动，达到更高的压缩效率。

Description

基于视频预测的视频编码方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于视频预测的视频编码方法。

背景技术

帧间预测是视频编码最重要的技术之一，它利用帧与帧之间的相关性去除视频中存在的时域冗余。具体而言，在帧间预测过程中，使用已编码的重建图像来预测待编码的当前图像，这时候只需要对少量预测信息以及残差信息进行编码，从而大幅度提高压缩效率。

传统的帧间预测方法比如运动估计和运动补偿通常适用于静止相机的应用场景，此时在编码端直接使用重建图像作为参考帧非常有效。然而，在高速运动的远程驾驶场景下，即使是静止的背景，相机的运动使得已编码的重构图像与待编码图像之间也存在由投影变换引起的像素运动。因此，现有的帧间预测方法对于远程驾驶场景的编码性能有待进一步提高。

发明内容

有鉴于此，本发明的目的在于提供一种基于视频预测的视频编码方法，能够有效预测由相机运动引起的背景像素运动，达到更高的压缩效率。

为实现上述目的，本发明采用如下技术方案：

一种基于视频预测的视频编码方法，包括以下步骤：

步骤S1：对待处理视频已编码的视频重建帧进行深度估计，预测出其对应的深度图；

步骤S2：根据得到深度图来预测当前正在编码的视频帧，得到其预测图像；

步骤S3：将得到的预测图像作为参考帧加入到视频编码过程中。

进一步的，所述步骤S1具体为：

步骤S11：采用光流神经网络对第n-1帧和第n-2帧重建图像进行点匹配；

步骤S12：采用三角化方法估计第n-1帧的深度图像。

进一步的，所述步骤S11具体为：将第n-1帧和第n-2帧输入光流神经网络中，并将网络输出的光流信息转化为对应匹配点的坐标。

进一步的，所述步骤S12具体为：

d₁p₁＝d₂R_2→1p₂+T_2→1

其中，d₁和d₂分别表示第n-1帧和第n-2帧的深度值，p₁和p₂表示匹配点的坐标，R_2→1和T_2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。

进一步的，所述步骤S2具体为：

步骤S21：根据得到深度图，利用对应的深度值将图像上的点投影到空间中；

步骤S22：通过相机的运动信息，对坐标系进行转换得到其在第n帧坐标系下的三维坐标；

步骤S23：将得到的三维坐标投影回图像平面，得到p_n-1在第n帧图像上的投影坐标

步骤S24:根据得到的投影坐标

通过插值过程得到预测的第n帧。

进一步的，所述步骤S21具体为：

C_n-1(p_n-1)＝D_n-1(p_n-1)K^-1p_n-1

其中，K表示相机的内参矩阵，p_n-1表示点在第n-1帧重建图像上的坐标，C_n-1(p_n-1)表示该点在第n-1帧坐标系下的三维坐标，D_n-1(p_n-1)表示p_n-1位置上所对应的深度值。

进一步的，所述步骤S22具体为

C_n(p_n-1)＝R_1→0C_n-1(p_n-1)+T_1→0

其中，R_1→0和T_1→0分别表示相机从第n-1帧到第n帧的旋转和位移。

进一步的，，所述步骤S23具体为：

其中，z_n表示[x_n y_n z_n]^T＝R_1→0(D_n-1(p_n-1)K^-1p_n-1)+T_1→0的第三维。

进一步的，所述步骤S3具体为：将得到的预测帧

替换原有的参考帧加入编码过程；并修改视频编码标准中的语法规则使得可以支持预测帧的使用以及编码。

本发明与现有技术相比具有以下有益效果：

本发明能够有效预测由相机运动引起的背景像素运动，达到更高的压缩效率。

附图说明

图1是本发明方法流程图；

图2是本发明一实施例中的编码框架图；

图3为本发明一实施例中的深度估计方法框架图；

图4为本发明一实施例中的深度估计模块输出的结果图；

图5为本发明一实施例中的视频预测模块输出的结果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于视频预测的视频编码方法，包括以下步骤：

在本实施例中，所述步骤S1具体为：

步骤S11：将第n-1帧和第n-2帧输入光流神经网络中，并将网络输出的光流信息转化为对应匹配点的坐标；

步骤S12：采用三角化方法估计第n-1帧的深度图像

d₁p₁＝d₂R_2→1p₂+T_2→1

在本实施例中，所述步骤S2具体为：

步骤S21：根据得到深度图，利用对应的深度值将图像上的点投影到空间中，具体公式如下

C_n-1(p_n-1)＝D_n-1(p_n-1)K^-1p_n-1

C_n(p_n-1)＝R_1→0C_n-1(p_n-1)+T_1→0

步骤S24:根据得到的投影坐标

通过插值过程得到预测的第n帧。

在本实施例中，所述步骤S3具体为：将得到的预测帧

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于视频预测的视频编码方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视频预测的视频编码方法，其特征在于，所述步骤S1具体为：

步骤S12：采用三角化方法估计第n-1帧的深度图像。

3.根据权利要求2所述的基于视频预测的视频编码方法，其特征在于，所述步骤S11具体为：将第n-1帧和第n-2帧输入光流神经网络中，并将网络输出的光流信息转化为对应匹配点的坐标。

4.根据权利要求2所述的基于视频预测的视频编码方法，其特征在于，所述步骤S12具体为：

d₁p₁＝d₂R_2→1p₂+T_2→1

5.根据权利要求1所述的基于视频预测的视频编码方法，其特征在于，所述步骤S2具体为：

步骤S24：根据得到的投影坐标

通过插值过程得到预测的第n帧。

6.根据权利要求5所述的基于视频预测的视频编码方法，其特征在于，所述步骤S21具体为：

C_n-1(p_n-1)＝D_n-1(p_n-1)K^-1p_n-1

7.根据权利要求5所述的基于视频预测的视频编码方法，其特征在于，所述步骤S22具体为

C_n(p_n-1)＝R_1→0C_n-1(p_n-1)+T_1→0

8.根据权利要求5所述的基于视频预测的视频编码方法，其特征在于，所述步骤S23具体为：

9.根据权利要求1所述的基于视频预测的视频编码方法，其特征在于，所述步骤S3具体为：将得到的预测帧