CN113298894A - 一种基于深度学习特征空间的视频压缩方法 - Google Patents
一种基于深度学习特征空间的视频压缩方法 Download PDFInfo
- Publication number
- CN113298894A CN113298894A CN202110547310.5A CN202110547310A CN113298894A CN 113298894 A CN113298894 A CN 113298894A CN 202110547310 A CN202110547310 A CN 202110547310A CN 113298894 A CN113298894 A CN 113298894A
- Authority
- CN
- China
- Prior art keywords
- feature
- frame
- features
- reconstruction
- compression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于深度学习特征空间的视频压缩方法,包括:将待压缩的视频拆解为连续的图像帧,利用特征提取器提取当前图像帧的当前特征;基于当前特征与上一重建帧之间的运动信息,采用可变形卷积对上一重建帧在特征层面进行运动补偿,得到当前图像帧的预测特征;利用压缩网络对预测特征的误差在特征层面进行计算和压缩,得到初始重建特征;将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合,得到最终重建特征;对最终重建特征进行帧重建,得到当前图像帧的重建帧;将压缩网络中产生的量化特征进行熵编码,得到二进制比特流。本发明将运动估计,运动补偿,残差压缩操作从像素层面转到特征层面,更具鲁棒性。
Description
技术领域
本发明涉及视频压缩技术领域,更具体的说是涉及一种基于深度学习特征空间的视频压缩方法。
背景技术
由于视频网站流量逐年增大,支持更高的分辨率以及更高的帧速率,视频内容占互联网总流量的比率逐年增加,2017年,视频内容已占互联网总流量的75%,预计到2022年将达到82%。
目前使用的视频压缩算法大多是基于传统的视频压缩算法H.264与H.265。因此,在视频压缩领域中,急需新的基于深度学习的视频压缩系统来有效减小视频序列中的冗余信息。目前采用的基于深度学习的视频压缩方法为,使用由光流网络、运动向量编码网络及运动向量解码网络进行运动估计和运动补偿计算,达到更好的运动估计和运动补偿效果;再使用的残差网络,残差网络包括两个Resblock模块,实现在层次更深的情况进行网络的训练;再使用算术熵编码操作完成编码,并存储为Pickle文件,实现视频的压缩和存储。但是该方法的所有操作包括运动估计,运动补偿,残差压缩均是在像素层面进行的,这就限制了深度学习网络的能力,具有很大的局限性。
因此,如何提供一种在特征层面进行运动估计,运动补偿以及残差压缩,以提高鲁棒性的基于深度学习特征空间的视频压缩方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于深度学习特征空间的视频压缩方法,将基于深度学习的视频压缩的所有的操作都从原始像素层面转移到特征层面,以更加鲁棒的方式进行运动估计,运动补偿,残差压缩,并提供多帧融合的策略,以达到更加良好的视频还原效果。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度学习特征空间的视频压缩方法,包括以下步骤:
将待压缩的视频拆解为连续的图像帧,利用特征提取器提取当前图像帧的当前特征;
基于当前特征与上一重建帧之间的运动信息,采用可变形卷积对上一重建帧在特征层面进行运动补偿,得到当前图像帧的预测特征;
利用压缩网络对预测特征的误差在特征层面进行计算和压缩,得到初始重建特征;
将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合,得到最终重建特征;
对最终重建特征进行帧重建,得到当前图像帧的重建帧;
将压缩网络中产生的量化特征进行熵编码,得到二进制比特流。
优选的,在上述一种基于深度学习特征空间的视频压缩方法中,所述基于当前特征与上一重建帧之间的运动信息,采用可变形卷积对上一重建帧在特征层面进行运动补偿,得到当前图像帧的预测特征,包括:
优选的,在上述一种基于深度学习特征空间的视频压缩方法中,所述利用压缩网络对预测特征的误差在特征层面进行计算和压缩,得到初始重建特征,包括:
优选的,在上述一种基于深度学习特征空间的视频压缩方法中,所述将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合,得到最终重建特征,包括:
优选的,在上述一种基于深度学习特征空间的视频压缩方法中,所述非本地注意力算法包括:
根据初始重建特征与前三帧的参考特征在每个局部位置的相似度,得到每个点的注意力图;
基于注意力图,对初始重建特征和前三帧的参考特征在每个局部位置进行加权平均,作为当前位置的特征值。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于深度学习特征空间的视频压缩方法,具有以下有益效果:
1、本发明对视频压缩过程中,将运动估计,运动补偿以及残差压缩等所有的操作都放到了特征层面进行,具有更好的鲁棒性。
2、本发明使用了可变形卷积对参考特征进行变形,最终得到了预测的视频帧,这样的操作相对于之前的逐像素进行的基于光流的运动补偿具有更好的鲁棒性与灵活性。
3、本发明使用了多帧融合的操作将当前图像帧和之前的多帧信息进行融合,结合可变形运动补偿和非本地注意力算法对重建特征进行优化,进而达到更好的重建效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的基于深度学习特征空间的视频压缩方法的流程图;
图2附图为本发明提供的特征提取与帧重建的网络结构示意图;
图3附图为本发明提供的可变形卷积网络的结构示意图;
图4附图为本发明提供的可变形运动补偿的流程图;
图5附图为本发明提供的多帧特征融合的流程图;
图6附图为本发明提供的非本地注意力算法的流程图;
图7附图为本发明提供的运动压缩和残差压缩的网络结构图;
图8(a)和图8(b)附图为本发明提供的消融实验的性能对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例公开了一种基于深度学习特征空间的视频压缩方法,包括以下步骤:
S1、将待压缩的视频拆解为连续的图像帧,利用特征提取器提取当前图像帧的当前特征。
S2、基于当前特征与上一重建帧之间的运动信息,采用可变形卷积对上一重建帧在特征层面进行运动补偿,得到当前图像帧的预测特征。
具体为:
基于重建偏移量采用可变形卷积(deformable convolution)对参考特征进行运动补偿,得到当前图像帧的预测特征其中,可变形卷积的网络示意图如图3所示,可变形卷积与普通卷积层所不同的一点在于,可变形卷积会额外输入一个偏移量来决定卷积中卷积核的采样点,通过此可变形卷积,能够将参考特征进行运动补偿,使其对齐到想要的目标特征。
该步骤可称为可变形运动补偿,其具体流程图如图4所示,参考帧与目标帧Ft会输入运动估计模块进行运动估计,得到这两帧之间的运动信息,表示为偏移量Ot,然后经过一个压缩模块对运动信息进行运动压缩,其中量化(Q)之后的特征将进行熵编码以存储,解压出来的重构偏移量会输入运动补偿模块。输入运动补偿模块之后,首先经过图3所示的可变形卷积网络对参考帧进行运动补偿,使其对齐到目标帧,然后与参考帧在通道维度上连接,经过两个卷积层,并加回运动补偿后的特征,以进一步提升质量,最终得到当前图像帧的预测特征
S3、利用压缩网络对预测特征的误差在特征层面进行计算和压缩,得到初始重建特征。具体包括:
本实施例中运动压缩和残差压缩均采用如图7所示的压缩网络。
S4、将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合,得到最终重建特征。具体为:
然后,使用图6所示的非本地注意力算法进一步提升质量,在非本地注意力算法中,计算重建特征与“参考特征”在每个局部位置的一个相似度,然后根据这个相似度对“参考特征”在每个局部位置进行加权平均作为初始重建特征和“参考特征”在当前位置的特征值和
如图6所示,在非本地注意力算法中,会计算初始重建特征与参考特征在每个局部位置的一个相似度,得到每个点的一个注意力图,然后根据这个注意力图对初始重建特征和参考特征在每个局部位置进行加权平均作为当前位置的特征值。
最后,将初始重建特征和“参考特征”在当前位置的特征值在通道这一维度连接到一起,并通过一个卷积层,再加回到重建特征作为最终重建特征。非本地注意力机制能够根据每个局部位置与目标特征的对应位置相似性进行局部的特征融合,因此能够提升每个局部位置特征表示的准确性,进而提升参考特征的质量。
S5、对最终重建特征进行帧重建,得到当前图像帧的重建帧。
本实施例中,帧重建和特征提取过程均采用如图2所示的网络结构,其中,Conv里面的三个参数依次代表输出通道数,卷积核大小与卷积步长。
S6、将压缩网络中产生的量化特征进行熵编码,得到待存储的二进制比特流。通过这些比特流就能够重建出视频帧。
以当前图像帧的重建帧为参考帧,继续对下一图像帧进行上述过程的熵编码。
下面,对本发明实施例进行实验验证。
1、表1为采用本发明视频压缩方法(FVC)在多个数据集上(包括HEVC Class B,C,D,UVG,VTL,MCL-JCV)与ffmpeg中H.265对比的BDBR结果(负值表示在相同的重建质量下,能够节省百分之多少的比特数),可知,本发明方法对比其他的基于深度学习的视频压缩方法能够达到目前最佳的性能。
表1 BDBR对比结果
DVC | EA | LU | HU | FVC | |
HEVCClassB | 2.97 | - | -15.92 | -14.91 | -23.75 |
HEVCClassC | 20.65 | - | -3.78 | 1.76 | -14.18 |
HEVCClassD | 14.08 | - | -8.29 | -1.77 | -18.39 |
UVG | 8.45 | -9.75 | -7.34 | -13.27 | -28.71 |
VTL | -10.92 | - | -16.85 | -20.17 | -28.10 |
MCL-JCV | 13.94 | -1.52 | 4.75 | -13.71 | -22.48 |
2、消融实验
由于视频压缩需要考虑在不同比特率下重建的性能,因此是需要用bpp(每个像素平均所消耗的比特数,越小越好)与PSNR(表示重建质量,越大越好)来绘制出一个性能图进行比较。
图8(a)中,FVC表示本发明提出的视频压缩方法,“FVC w/o NLA”表示本发明方法去除掉非本地注意力机制后的性能,“FVC w/o MFF”表示本发明方法完全去除多帧融合模块后的性能,结果证明了本发明多帧特征融合的有效性。
图8(b)中,“FVC-basic”表示本发明方法去除多帧特征融合步骤后的性能,该方法的运动补偿与残差均在特征层面上进行计算,以此作为参考(实际上与“FVC w/o MFF”是一样的)。“FVC-basic(FS-motion&PS-residual)”表示本发明方法将运动补偿在特征层面进行,而残差在像素层面进行的结果,“FVC-basic(FS-motion&PS-residual)”则表示了运动补偿与残差均在像素层面进行计算。结果表示运动补偿与残差在特征层面进行计算会取得更好的性能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种基于深度学习特征空间的视频压缩方法,其特征在于,包括以下步骤:
将待压缩的视频拆解为连续的图像帧,利用特征提取器提取当前图像帧的当前特征;
基于当前特征与上一重建帧之间的运动信息,采用可变形卷积对上一重建帧在特征层面进行运动补偿,得到当前图像帧的预测特征;
利用压缩网络对预测特征的误差在特征层面进行计算和压缩,得到初始重建特征;
将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合,得到最终重建特征;
对最终重建特征进行帧重建,得到当前图像帧的重建帧;
将压缩网络中产生的量化特征进行熵编码,得到二进制比特流。
5.根据权利要求4所述的一种基于深度学习特征空间的视频压缩方法,其特征在于,所述非本地注意力算法包括:
根据初始重建特征与前三帧的参考特征在每个局部位置的相似度,得到每个点的注意力图;
基于注意力图,对初始重建特征和前三帧的参考特征在每个局部位置进行加权平均,作为当前位置的特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547310.5A CN113298894B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习特征空间的视频压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547310.5A CN113298894B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习特征空间的视频压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298894A true CN113298894A (zh) | 2021-08-24 |
CN113298894B CN113298894B (zh) | 2023-03-28 |
Family
ID=77322933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110547310.5A Active CN113298894B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习特征空间的视频压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298894B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114374846A (zh) * | 2022-01-10 | 2022-04-19 | 昭通亮风台信息科技有限公司 | 视频压缩方法、装置、设备及存储介质 |
CN115002482A (zh) * | 2022-04-27 | 2022-09-02 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
CN115150628A (zh) * | 2022-05-31 | 2022-10-04 | 北京航空航天大学 | 具有超先验引导模式预测的由粗到细深度视频编码方法 |
WO2023206420A1 (zh) * | 2022-04-29 | 2023-11-02 | Oppo广东移动通信有限公司 | 视频编解码方法、装置、设备、系统及存储介质 |
EP4369710A1 (en) * | 2022-11-08 | 2024-05-15 | Samsung Electronics Co., Ltd. | Method and device with image processing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037219A (zh) * | 2012-10-22 | 2013-04-10 | 北京航空航天大学 | 一种基于分形和h.264的视频压缩与解压缩方法 |
CN111294604A (zh) * | 2020-02-13 | 2020-06-16 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习的视频压缩方法 |
-
2021
- 2021-05-19 CN CN202110547310.5A patent/CN113298894B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037219A (zh) * | 2012-10-22 | 2013-04-10 | 北京航空航天大学 | 一种基于分形和h.264的视频压缩与解压缩方法 |
CN111294604A (zh) * | 2020-02-13 | 2020-06-16 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习的视频压缩方法 |
Non-Patent Citations (4)
Title |
---|
FENG R等: "Learned video compression with feature-level residuals", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 * |
LU G等: "An end-to-end learning framework for video compression", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
LU G等: "Dvc: An end-to-end deep video compression framework", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
RIPPEL O等: "Learned video compression", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114374846A (zh) * | 2022-01-10 | 2022-04-19 | 昭通亮风台信息科技有限公司 | 视频压缩方法、装置、设备及存储介质 |
CN114374846B (zh) * | 2022-01-10 | 2024-03-26 | 昭通亮风台信息科技有限公司 | 视频压缩方法、装置、设备及存储介质 |
CN115002482A (zh) * | 2022-04-27 | 2022-09-02 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
CN115002482B (zh) * | 2022-04-27 | 2024-04-16 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
WO2023206420A1 (zh) * | 2022-04-29 | 2023-11-02 | Oppo广东移动通信有限公司 | 视频编解码方法、装置、设备、系统及存储介质 |
CN115150628A (zh) * | 2022-05-31 | 2022-10-04 | 北京航空航天大学 | 具有超先验引导模式预测的由粗到细深度视频编码方法 |
EP4369710A1 (en) * | 2022-11-08 | 2024-05-15 | Samsung Electronics Co., Ltd. | Method and device with image processing |
Also Published As
Publication number | Publication date |
---|---|
CN113298894B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298894B (zh) | 一种基于深度学习特征空间的视频压缩方法 | |
CN109451308B (zh) | 视频压缩处理方法及装置、电子设备及存储介质 | |
US8204321B2 (en) | Method and apparatus for digital image coding | |
CN108900848B (zh) | 一种基于自适应可分离卷积的视频质量增强方法 | |
CN109903351B (zh) | 基于卷积神经网络和传统编码相结合的图像压缩方法 | |
CN113766249B (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
CN113301347A (zh) | 一种hevc高清视频编码的优化方法 | |
CN112218094A (zh) | 一种基于dct系数预测的jpeg图像去压缩效应方法 | |
CN111669588B (zh) | 一种超低时延的超高清视频压缩编解码方法 | |
CN113747163A (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
CN111050170A (zh) | 基于gan的图片压缩系统构建方法、压缩系统及方法 | |
CN112702600B (zh) | 一种图像编解码神经网络分层定点化方法 | |
CN112188217A (zh) | 结合dct域和像素域学习的jpeg压缩图像去压缩效应方法 | |
Chen et al. | An entropy minimization histogram mergence scheme and its application in image compression | |
CN110730347A (zh) | 图像压缩方法、装置及电子设备 | |
CN115150628A (zh) | 具有超先验引导模式预测的由粗到细深度视频编码方法 | |
Yang et al. | Graph-convolution network for image compression | |
CN101193285A (zh) | 影像压缩编码及解码的方法和装置 | |
CN111212288B (zh) | 视频数据的编解码方法、装置、计算机设备和存储介质 | |
CN110234011B (zh) | 一种视频压缩方法及系统 | |
CN114067258B (zh) | 一种面部通话视频的分层编码方法 | |
US6418165B1 (en) | System and method for performing inverse quantization of a video stream | |
US20230336710A1 (en) | Image compression method and apparatus for machine vision | |
CN114882133B (zh) | 一种图像编解码方法、系统、设备及介质 | |
CN116934881A (zh) | 基于语义图谱的图像-语义信息联合压缩编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |