CN112672150A - 基于视频预测的视频编码方法 - Google Patents

基于视频预测的视频编码方法 Download PDF

Info

Publication number
CN112672150A
CN112672150A CN202011526391.2A CN202011526391A CN112672150A CN 112672150 A CN112672150 A CN 112672150A CN 202011526391 A CN202011526391 A CN 202011526391A CN 112672150 A CN112672150 A CN 112672150A
Authority
CN
China
Prior art keywords
frame
video
video coding
coding method
specifically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011526391.2A
Other languages
English (en)
Inventor
陈志峰
方正
郭恩特
杨晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011526391.2A priority Critical patent/CN112672150A/zh
Publication of CN112672150A publication Critical patent/CN112672150A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于视频预测的视频编码方法,包括以下步骤:步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。本发明能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。

Description

基于视频预测的视频编码方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于视频预测的视频编码方法。
背景技术
帧间预测是视频编码最重要的技术之一,它利用帧与帧之间的相关性去除视频中存在的时域冗余。具体而言,在帧间预测过程中,使用已编码的重建图像来预测待编码的当前图像,这时候只需要对少量预测信息以及残差信息进行编码,从而大幅度提高压缩效率。
传统的帧间预测方法比如运动估计和运动补偿通常适用于静止相机的应用场景,此时在编码端直接使用重建图像作为参考帧非常有效。然而,在高速运动的远程驾驶场景下,即使是静止的背景,相机的运动使得已编码的重构图像与待编码图像之间也存在由投影变换引起的像素运动。因此,现有的帧间预测方法对于远程驾驶场景的编码性能有待进一步提高。
发明内容
有鉴于此,本发明的目的在于提供一种基于视频预测的视频编码方法,能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。
为实现上述目的,本发明采用如下技术方案:
一种基于视频预测的视频编码方法,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
进一步的,所述步骤S1具体为:
步骤S11:采用光流神经网络对第n-1帧和第n-2帧重建图像进行点匹配;
步骤S12:采用三角化方法估计第n-1帧的深度图像。
进一步的,所述步骤S11具体为:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标。
进一步的,所述步骤S12具体为:
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
进一步的,所述步骤S2具体为:
步骤S21:根据得到深度图,利用对应的深度值将图像上的点投影到空间中;
步骤S22:通过相机的运动信息,对坐标系进行转换得到其在第n帧坐标系下的三维坐标;
步骤S23:将得到的三维坐标投影回图像平面,得到pn-1在第n帧图像上的投影坐标
Figure BDA0002850941180000031
步骤S24:根据得到的投影坐标
Figure BDA0002850941180000032
通过插值过程得到预测的第n帧。
进一步的,所述步骤S21具体为:
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
进一步的,所述步骤S22具体为
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
进一步的,,所述步骤S23具体为:
Figure BDA0002850941180000033
其中,zn表示[xn yn zn]T=R1→0(Dn-1(pn-1)K-1pn-1)+T1→0的第三维。
进一步的,所述步骤S3具体为:将得到的预测帧
Figure BDA0002850941180000041
替换原有的参考帧加入编码过程;并修改视频编码标准中的语法规则使得可以支持预测帧的使用以及编码。
本发明与现有技术相比具有以下有益效果:
本发明能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中的编码框架图;
图3为本发明一实施例中的深度估计方法框架图;
图4为本发明一实施例中的深度估计模块输出的结果图;
图5为本发明一实施例中的视频预测模块输出的结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于视频预测的视频编码方法,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
在本实施例中,所述步骤S1具体为:
步骤S11:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标;
步骤S12:采用三角化方法估计第n-1帧的深度图像
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
在本实施例中,所述步骤S2具体为:
步骤S21:根据得到深度图,利用对应的深度值将图像上的点投影到空间中,具体公式如下
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
步骤S22:通过相机的运动信息,对坐标系进行转换得到其在第n帧坐标系下的三维坐标;
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
步骤S23:将得到的三维坐标投影回图像平面,得到pn-1在第n帧图像上的投影坐标
Figure BDA0002850941180000061
Figure BDA0002850941180000062
其中,zn表示[xn yn zn]T=R1→0(Dn-1(pn-1)K-1pn-1)+T1→0的第三维。
步骤S24:根据得到的投影坐标
Figure BDA0002850941180000063
通过插值过程得到预测的第n帧。
在本实施例中,所述步骤S3具体为:将得到的预测帧
Figure BDA0002850941180000064
替换原有的参考帧加入编码过程;并修改视频编码标准中的语法规则使得可以支持预测帧的使用以及编码。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种基于视频预测的视频编码方法,其特征在于,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
2.根据权利要求1所述的基于视频预测的视频编码方法,其特征在于,所述步骤S1具体为:
步骤S11:采用光流神经网络对第n-1帧和第n-2帧重建图像进行点匹配;
步骤S12:采用三角化方法估计第n-1帧的深度图像。
3.根据权利要求2所述的基于视频预测的视频编码方法,其特征在于,所述步骤S11具体为:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标。
4.根据权利要求2所述的基于视频预测的视频编码方法,其特征在于,所述步骤S12具体为:
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
5.根据权利要求1所述的基于视频预测的视频编码方法,其特征在于,所述步骤S2具体为:
步骤S21:根据得到深度图,利用对应的深度值将图像上的点投影到空间中;
步骤S22:通过相机的运动信息,对坐标系进行转换得到其在第n帧坐标系下的三维坐标;
步骤S23:将得到的三维坐标投影回图像平面,得到pn-1在第n帧图像上的投影坐标
Figure FDA0002850941170000021
步骤S24:根据得到的投影坐标
Figure FDA0002850941170000022
通过插值过程得到预测的第n帧。
6.根据权利要求5所述的基于视频预测的视频编码方法,其特征在于,所述步骤S21具体为:
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
7.根据权利要求5所述的基于视频预测的视频编码方法,其特征在于,所述步骤S22具体为
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
8.根据权利要求5所述的基于视频预测的视频编码方法,其特征在于,所述步骤S23具体为:
Figure FDA0002850941170000031
其中,zn表示[xn yn zn]T=R1→0(Dn-1(pn-1)K-1pn-1)+T1→0的第三维。
9.根据权利要求1所述的基于视频预测的视频编码方法,其特征在于,所述步骤S3具体为:将得到的预测帧
Figure FDA0002850941170000032
替换原有的参考帧加入编码过程;并修改视频编码标准中的语法规则使得可以支持预测帧的使用以及编码。
CN202011526391.2A 2020-12-22 2020-12-22 基于视频预测的视频编码方法 Pending CN112672150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011526391.2A CN112672150A (zh) 2020-12-22 2020-12-22 基于视频预测的视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526391.2A CN112672150A (zh) 2020-12-22 2020-12-22 基于视频预测的视频编码方法

Publications (1)

Publication Number Publication Date
CN112672150A true CN112672150A (zh) 2021-04-16

Family

ID=75407554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526391.2A Pending CN112672150A (zh) 2020-12-22 2020-12-22 基于视频预测的视频编码方法

Country Status (1)

Country Link
CN (1) CN112672150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115734005A (zh) * 2021-08-26 2023-03-03 腾讯科技(深圳)有限公司 视频图像帧的生成方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209243A (zh) * 2011-05-27 2011-10-05 山东大学 基于线性模型的深度图帧内预测方法
CN103561267A (zh) * 2013-09-10 2014-02-05 罗天明 基于运动信息与深度信息的3d视频编码传输方法
CN103595991A (zh) * 2013-11-04 2014-02-19 天津大学 深度视频编码的像素级预测方法
WO2015083742A1 (ja) * 2013-12-03 2015-06-11 日本電信電話株式会社 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
CN107481279A (zh) * 2017-05-18 2017-12-15 华中科技大学 一种单目视频深度图计算方法
WO2019009750A1 (en) * 2017-07-05 2019-01-10 Huawei Technologies Co., Ltd APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING
CN111340867A (zh) * 2020-02-26 2020-06-26 清华大学 图像帧的深度估计方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209243A (zh) * 2011-05-27 2011-10-05 山东大学 基于线性模型的深度图帧内预测方法
CN103561267A (zh) * 2013-09-10 2014-02-05 罗天明 基于运动信息与深度信息的3d视频编码传输方法
CN103595991A (zh) * 2013-11-04 2014-02-19 天津大学 深度视频编码的像素级预测方法
WO2015083742A1 (ja) * 2013-12-03 2015-06-11 日本電信電話株式会社 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
CN107481279A (zh) * 2017-05-18 2017-12-15 华中科技大学 一种单目视频深度图计算方法
WO2019009750A1 (en) * 2017-07-05 2019-01-10 Huawei Technologies Co., Ltd APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING
CN111340867A (zh) * 2020-02-26 2020-06-26 清华大学 图像帧的深度估计方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高翔等: "视觉SLAM十四讲从理论到实践 第2版", 北京:电子工业出版社, pages: 177 - 178 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115734005A (zh) * 2021-08-26 2023-03-03 腾讯科技(深圳)有限公司 视频图像帧的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11800136B2 (en) Constrained motion field estimation for hardware efficiency
CN106973293B (zh) 基于视差预测的光场图像编码方法
Liu et al. Learned video compression via joint spatial-temporal correlation exploration
Su et al. Global motion estimation from coarsely sampled motion vector field and the applications
US20240098298A1 (en) Segmentation-based parameterized motion models
US6785333B2 (en) Motion vector coding method
EP3343923B1 (en) Motion vector field coding method and decoding method, and coding and decoding apparatuses
WO2021036795A1 (zh) 视频超分辨率处理方法及装置
CN1549459A (zh) 数字便携式终端和数字信号处理设备
US20120008686A1 (en) Motion compensation using vector quantized interpolation filters
US20200260112A1 (en) Diversified motion using multiple global motion models
Liu et al. End-to-end neural video coding using a compound spatiotemporal representation
CN110741638A (zh) 使用残差块能量分布的运动矢量代码化
CN115689917A (zh) 一种基于深度学习的高效时空超分辨率视频压缩复原方法
WO2019036080A1 (en) ESTIMATION OF CONSTRAINED MOTION FIELD FOR INTERPRETING
CN112672150A (zh) 基于视频预测的视频编码方法
CN112601095B (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
JP2011239307A (ja) 動画像符号化装置、及びその制御方法
US10225573B1 (en) Video coding using parameterized motion models
KR20010013238A (ko) 화상 부호화 및 복호화 방법 및 장치
KR101220097B1 (ko) 분산비디오 코덱 장치 및 이를 이용한 전경 영역 분할 보조정보 생성 방법
CN111556314A (zh) 一种计算机图像处理方法
CN110392264B (zh) 一种基于神经网络的对齐外插帧方法
Jubran et al. Sequence-level reference frames in video coding
JP3032213B2 (ja) 画像符号化装置及び画像復号化装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination