CN112672150A - 基于视频预测的视频编码方法 - Google Patents
基于视频预测的视频编码方法 Download PDFInfo
- Publication number
- CN112672150A CN112672150A CN202011526391.2A CN202011526391A CN112672150A CN 112672150 A CN112672150 A CN 112672150A CN 202011526391 A CN202011526391 A CN 202011526391A CN 112672150 A CN112672150 A CN 112672150A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- video coding
- coding method
- specifically
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 abstract description 4
- 238000007906 compression Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于视频预测的视频编码方法,包括以下步骤:步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。本发明能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于视频预测的视频编码方法。
背景技术
帧间预测是视频编码最重要的技术之一,它利用帧与帧之间的相关性去除视频中存在的时域冗余。具体而言,在帧间预测过程中,使用已编码的重建图像来预测待编码的当前图像,这时候只需要对少量预测信息以及残差信息进行编码,从而大幅度提高压缩效率。
传统的帧间预测方法比如运动估计和运动补偿通常适用于静止相机的应用场景,此时在编码端直接使用重建图像作为参考帧非常有效。然而,在高速运动的远程驾驶场景下,即使是静止的背景,相机的运动使得已编码的重构图像与待编码图像之间也存在由投影变换引起的像素运动。因此,现有的帧间预测方法对于远程驾驶场景的编码性能有待进一步提高。
发明内容
有鉴于此,本发明的目的在于提供一种基于视频预测的视频编码方法,能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。
为实现上述目的,本发明采用如下技术方案:
一种基于视频预测的视频编码方法,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
进一步的,所述步骤S1具体为:
步骤S11:采用光流神经网络对第n-1帧和第n-2帧重建图像进行点匹配;
步骤S12:采用三角化方法估计第n-1帧的深度图像。
进一步的,所述步骤S11具体为:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标。
进一步的,所述步骤S12具体为:
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
进一步的,所述步骤S2具体为:
步骤S21:根据得到深度图,利用对应的深度值将图像上的点投影到空间中;
步骤S22:通过相机的运动信息,对坐标系进行转换得到其在第n帧坐标系下的三维坐标;
进一步的,所述步骤S21具体为:
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
进一步的,所述步骤S22具体为
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
进一步的,,所述步骤S23具体为:
其中,zn表示[xn yn zn]T=R1→0(Dn-1(pn-1)K-1pn-1)+T1→0的第三维。
本发明与现有技术相比具有以下有益效果:
本发明能够有效预测由相机运动引起的背景像素运动,达到更高的压缩效率。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中的编码框架图;
图3为本发明一实施例中的深度估计方法框架图;
图4为本发明一实施例中的深度估计模块输出的结果图;
图5为本发明一实施例中的视频预测模块输出的结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于视频预测的视频编码方法,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
在本实施例中,所述步骤S1具体为:
步骤S11:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标;
步骤S12:采用三角化方法估计第n-1帧的深度图像
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
在本实施例中,所述步骤S2具体为:
步骤S21:根据得到深度图,利用对应的深度值将图像上的点投影到空间中,具体公式如下
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
步骤S22:通过相机的运动信息,对坐标系进行转换得到其在第n帧坐标系下的三维坐标;
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
其中,zn表示[xn yn zn]T=R1→0(Dn-1(pn-1)K-1pn-1)+T1→0的第三维。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (9)
1.一种基于视频预测的视频编码方法,其特征在于,包括以下步骤:
步骤S1:对待处理视频已编码的视频重建帧进行深度估计,预测出其对应的深度图;
步骤S2:根据得到深度图来预测当前正在编码的视频帧,得到其预测图像;
步骤S3:将得到的预测图像作为参考帧加入到视频编码过程中。
2.根据权利要求1所述的基于视频预测的视频编码方法,其特征在于,所述步骤S1具体为:
步骤S11:采用光流神经网络对第n-1帧和第n-2帧重建图像进行点匹配;
步骤S12:采用三角化方法估计第n-1帧的深度图像。
3.根据权利要求2所述的基于视频预测的视频编码方法,其特征在于,所述步骤S11具体为:将第n-1帧和第n-2帧输入光流神经网络中,并将网络输出的光流信息转化为对应匹配点的坐标。
4.根据权利要求2所述的基于视频预测的视频编码方法,其特征在于,所述步骤S12具体为:
d1p1=d2R2→1p2+T2→1
其中,d1和d2分别表示第n-1帧和第n-2帧的深度值,p1和p2表示匹配点的坐标,R2→1和T2→1表示相机从第n-2帧到第n-1帧的旋转和位移矩阵。
6.根据权利要求5所述的基于视频预测的视频编码方法,其特征在于,所述步骤S21具体为:
Cn-1(pn-1)=Dn-1(pn-1)K-1pn-1
其中,K表示相机的内参矩阵,pn-1表示点在第n-1帧重建图像上的坐标,Cn-1(pn-1)表示该点在第n-1帧坐标系下的三维坐标,Dn-1(pn-1)表示pn-1位置上所对应的深度值。
7.根据权利要求5所述的基于视频预测的视频编码方法,其特征在于,所述步骤S22具体为
Cn(pn-1)=R1→0Cn-1(pn-1)+T1→0
其中,R1→0和T1→0分别表示相机从第n-1帧到第n帧的旋转和位移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526391.2A CN112672150A (zh) | 2020-12-22 | 2020-12-22 | 基于视频预测的视频编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526391.2A CN112672150A (zh) | 2020-12-22 | 2020-12-22 | 基于视频预测的视频编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112672150A true CN112672150A (zh) | 2021-04-16 |
Family
ID=75407554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011526391.2A Pending CN112672150A (zh) | 2020-12-22 | 2020-12-22 | 基于视频预测的视频编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112672150A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115734005A (zh) * | 2021-08-26 | 2023-03-03 | 腾讯科技(深圳)有限公司 | 视频图像帧的生成方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209243A (zh) * | 2011-05-27 | 2011-10-05 | 山东大学 | 基于线性模型的深度图帧内预测方法 |
CN103561267A (zh) * | 2013-09-10 | 2014-02-05 | 罗天明 | 基于运动信息与深度信息的3d视频编码传输方法 |
CN103595991A (zh) * | 2013-11-04 | 2014-02-19 | 天津大学 | 深度视频编码的像素级预测方法 |
WO2015083742A1 (ja) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム |
CN107481279A (zh) * | 2017-05-18 | 2017-12-15 | 华中科技大学 | 一种单目视频深度图计算方法 |
WO2019009750A1 (en) * | 2017-07-05 | 2019-01-10 | Huawei Technologies Co., Ltd | APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING |
CN111340867A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 图像帧的深度估计方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-22 CN CN202011526391.2A patent/CN112672150A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209243A (zh) * | 2011-05-27 | 2011-10-05 | 山东大学 | 基于线性模型的深度图帧内预测方法 |
CN103561267A (zh) * | 2013-09-10 | 2014-02-05 | 罗天明 | 基于运动信息与深度信息的3d视频编码传输方法 |
CN103595991A (zh) * | 2013-11-04 | 2014-02-19 | 天津大学 | 深度视频编码的像素级预测方法 |
WO2015083742A1 (ja) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム |
CN107481279A (zh) * | 2017-05-18 | 2017-12-15 | 华中科技大学 | 一种单目视频深度图计算方法 |
WO2019009750A1 (en) * | 2017-07-05 | 2019-01-10 | Huawei Technologies Co., Ltd | APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING |
CN111340867A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 图像帧的深度估计方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
高翔等: "视觉SLAM十四讲从理论到实践 第2版", 北京:电子工业出版社, pages: 177 - 178 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115734005A (zh) * | 2021-08-26 | 2023-03-03 | 腾讯科技(深圳)有限公司 | 视频图像帧的生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11800136B2 (en) | Constrained motion field estimation for hardware efficiency | |
CN106973293B (zh) | 基于视差预测的光场图像编码方法 | |
Liu et al. | Learned video compression via joint spatial-temporal correlation exploration | |
Su et al. | Global motion estimation from coarsely sampled motion vector field and the applications | |
US20240098298A1 (en) | Segmentation-based parameterized motion models | |
US6785333B2 (en) | Motion vector coding method | |
EP3343923B1 (en) | Motion vector field coding method and decoding method, and coding and decoding apparatuses | |
WO2021036795A1 (zh) | 视频超分辨率处理方法及装置 | |
CN1549459A (zh) | 数字便携式终端和数字信号处理设备 | |
US20120008686A1 (en) | Motion compensation using vector quantized interpolation filters | |
US20200260112A1 (en) | Diversified motion using multiple global motion models | |
Liu et al. | End-to-end neural video coding using a compound spatiotemporal representation | |
CN110741638A (zh) | 使用残差块能量分布的运动矢量代码化 | |
CN115689917A (zh) | 一种基于深度学习的高效时空超分辨率视频压缩复原方法 | |
WO2019036080A1 (en) | ESTIMATION OF CONSTRAINED MOTION FIELD FOR INTERPRETING | |
CN112672150A (zh) | 基于视频预测的视频编码方法 | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及系统 | |
JP2011239307A (ja) | 動画像符号化装置、及びその制御方法 | |
US10225573B1 (en) | Video coding using parameterized motion models | |
KR20010013238A (ko) | 화상 부호화 및 복호화 방법 및 장치 | |
KR101220097B1 (ko) | 분산비디오 코덱 장치 및 이를 이용한 전경 영역 분할 보조정보 생성 방법 | |
CN111556314A (zh) | 一种计算机图像处理方法 | |
CN110392264B (zh) | 一种基于神经网络的对齐外插帧方法 | |
Jubran et al. | Sequence-level reference frames in video coding | |
JP3032213B2 (ja) | 画像符号化装置及び画像復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |