CN115278262A - 一种端到端智能视频编码方法及装置 - Google Patents
一种端到端智能视频编码方法及装置 Download PDFInfo
- Publication number
- CN115278262A CN115278262A CN202210915058.3A CN202210915058A CN115278262A CN 115278262 A CN115278262 A CN 115278262A CN 202210915058 A CN202210915058 A CN 202210915058A CN 115278262 A CN115278262 A CN 115278262A
- Authority
- CN
- China
- Prior art keywords
- time domain
- module
- feature
- video coding
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/21—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/43—Hardware specially adapted for motion estimation or compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种端到端智能视频编码方法及装置,方法包括:构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征;通过全局时域参考特征生成模块获得全局参考特征;通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;通过时域先验编码器压缩运动矢量;基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征;使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差;基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。装置包括:处理器和存储器。
Description
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种端到端智能视频编码方法及装置。
背景技术
随着超高清、高动态、高帧率等高质量视频的引入,视频的数据量变得越来越大,给视频的传输和存储系统带来了巨大的挑战。为了降低视频的数据量,国际标准组织制定了一系列视频编码标准。这些视频编码标准通常采用多种手工设计的编码工具去除视频信号冗余。具体的,使用帧内预测和帧间预测技术分别去除空域和时域冗余信息。随后,对预测残差进行变换、量化、和熵编码,以在频域空间进一步去除视觉和统计冗余信息。然而,由于这些手工设计的编码工具无法使用率失真优化函数进行联合优化,编码性能难以进一步提升。
得益于深度学习强大的特征提取和非线性表达能力,端到端图像编码方法在近几年得到了广泛的研究,并且取得了与传统图像编码方法可比的编码性能。受此启发,一些学者开始致力于研究端到端智能视频编码方法。端到端智能视频编码方法旨在利用神经网络实现完整的视频编码框架。Lu等人基于传统混合视频编码框架建立了第一个端到端智能视频编码框架,通过运动估计网络和运动补偿网络获得预测帧,并使用端到端图像编码方法对估计的运动矢量和残差进一步压缩。Lin等人设计了基于多参考帧预测的端到端智能视频编码模型,利用多参考帧有效提高了运动补偿预测的准确性,从而提升了端到端智能视频编码效率。Hu等人提出了自适应分辨率的运动矢量编码方法,为编码块的运动矢量自适应选择最优分辨率光流图,提升了运动矢量编码效率。
然而,现有方法主要通过建模视频短期时序相关性提升编码性能,由于缺乏对视频时域上下文的有效探索,编码性能有待进一步提升。
发明内容
本发明提供了一种端到端智能视频编码方法及装置,本发明通过探索视频序列的长期时序关系提升运动补偿来预测准确性,同时利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失,详见下文描述:
一种端到端智能视频编码方法,所述方法包括:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。
将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r:
其中,g(·)代表一层卷积层。
其中,所述编码器将输入的运动矢量vt压缩成紧凑的潜在表示y3,编码器由三个堆叠的编码单元组成,每个编码单元包括:两个残差单元和一个下采样卷积层,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
其中,enc(·)代表编码单元。
进一步地,所述条件熵编解码器将潜在表示y3进行取整量化,生成量化后的潜在变量使用两个堆叠的编码单元和一层卷积层从时域参考信息中提取时域先验,并使用一层卷积层融合超先验和自回归先验生成空域先验,通过3层1×1卷积融合时域先验和空域先验,获得潜在变量的高斯分布均值μ和方差σ;
将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量。
其中,所述方法还包括:在单视频和多视频上分别对端到端智能视频编码网络框架进行训练。
一种端到端智能视频编码装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明通过探索视频序列的长期时序关系,提升视频编码中运动补偿预测准确性;
2、本发明利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失,提升运动矢量和残差编码效率,从而提升视频编码性能。
3、本发明与视频编码标准HEVC参考软件HM-16.21相比,该方法能有效节省码率,提升编码性能。
附图说明
图1为一种端到端智能视频编码方法的流程图;
图2为全局时域参考特征生成模块的示意图;
图3为时域先验编码器压缩运动矢量的示意图;
图4为时域先验编码器压缩残差的示意图;
图5所提方法与视频编码标准HEVC参考软件HM-16.21的比特消耗对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一、构建端到端智能视频编码网络框架
端到端智能视频编码网络的输入为原始视频序列,输出为压缩后的视频序列。在压缩当前编码帧时,首先,使用特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征。随后,使用全局时域参考特征生成模块获得准确的全局参考特征。然后,使用运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量。之后,使用时域先验编码器压缩运动矢量。基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征。然后,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差。最后,将压缩后的残差与预测特征级联叠加生成重建特征,重建特征经过重建模块后,得到最终重建帧。
二、构建全局时域参考特征生成模块
给定一帧参考帧以及时域上下文状态信息作为输入,全局时域参考特征生成模块为运动估计模块与运动补偿模块生成准确的全局参考特征ft r,并动态更新一次时域上下文状态信息其中下标t表示当前t时刻,上标li表示第i级上下文状态信息。
其中,FE(·)表示特征提取模块。
其中,h(·)表示堆叠的Conv-LSTM单元。
最后,将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r:
其中,g(·)代表一层卷积层。
全局时域参考特征生成模块不仅利用了短期时域上下文信息还充分探索了长期时域上下文信息生成了准确的全局参考特征ft r。由于ft r中聚合了来自视频长期时域上下文的参考信息,因此所设计的端到端智能视频编码网络能够有效地提升复杂运动场景下的编码效率。
三、设计时域先验编码器压缩运动矢量
时域上下文生成器主要目的是提取时域参考信息中的多级时域上下文信息{m1,m2,m3}。首先,使用离散小波变换(DWT)将时域参考信息分解为四个子带,即一个低频子带LL1和三个高频子带{HL1,LH1,HH1}。随后,将低频子带LL1分解为四个低分辨率子带{LL2,HL2,LH2,HH2},同理将低频子带LL2进一步分解为四个更低分辨率的子带{LL3,HL3,LH3,HH3}。最终,获得的多尺度频率子带可以表示为:
随后,通过级联和卷积操作对来自同一级的频率子带进行聚合,生成多级时域上下文信息{m1,m2,m3}:
编码器的目的是将输入的运动矢量vt压缩成紧凑的潜在表示y3。编码器的主要结构由三个堆叠的编码单元组成。每个编码单元包括:两个残差单元和一个下采样卷积层。为了有效缓解潜在表示y3在下采样过程中丢失的高频细节信息,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
其中,enc(·)代表编码单元。
在条件熵编解码器中,首先将潜在表示y3进行取整量化,生成量化后的潜在变量随后,使用两个堆叠的编码单元和一层卷积层从时域参考信息中提取时域先验并使用一层卷积层融合超先验φ和自回归先验ψ生成空域先验通过3层1×1卷积融合时域先验和空域先验获得潜在变量的高斯分布均值μ和方差σ,计算公式表示为:
其中,convs(·)表示三层1×1卷积层,conv(·)表示一层卷积层。最后,使用算术编码器根据高斯分布均值μ和方差σ将潜在变量编码为二进制码流b,在熵解码器中,同样根据高斯分布均值μ和方差σ从二进制码流b中解码恢复潜在变量
其中,dec(·)代表解码单元。
四、设计时域先验编码器压缩残差
与压缩运动矢量vt类似,使用时域先验编码器对残差rt进行高效压缩。压缩残差rt时采用的时域先验编码器与压缩运动矢量vt所采用的时域先验编码器结构是一致的,因此其结构不再赘述。给定残差rt和时域参考信息作为输入,时域先验编码器输出压缩后的残差计算公式表示为:
其中,tcc(·)代表时域先验编码器。
五、训练端到端智能视频编码网络
端到端智能视频编码网络包括:特征提取模块、全局时域参考特征生成模块、运动估计模块、运动补偿模块、时域先验编码器、和重建模块。其中特征提取模块、运动估计模块、运动补偿模块、和重建模块采用优秀的端到端智能视频编码方法的神经网络结构。此外,设计了一个多阶段训练策略渐近训练端到端智能视频编码网络。
第一阶段:在单视频帧上训练。
首先,使用率失真损失函数与预测失真损失函数的和作为总体损失函数L=Lr+Lp,训练神经网络模型5个epoch,其中D(·)表示均方误差(Mean Square Error,MSE),R表示码率,xt表示预测帧,xt表示当前编码帧,表示重建帧,λ表示调节码率的超参数,其数值设定为{256,512,1024,2048}。随后使用率失真损失函数Lr再优化5个epoch。
第二阶段:在多视频帧上训练。
在多帧训练阶段时,端到端智能视频编码网络在三帧视频帧上进行连续优化。首先使用总体损失函数L训练14个epoch,随后使用率失真损失函数Lr再训练6个epoch。最后,为了缓解网络模型在编码连续多帧时出现参考帧误差累积的问题,通过累加三帧的率失真损失函数Lr计算得到累加率失真损失函数L*,并使用累加率失真损失函数L*训练神经网络模型5个epoch。
训练该视频编码网络后,得到端到端智能视频编码模型。该模型以视频序列作为输入,最终输出压缩后的视频序列。
本发明实施例将视频编码标准HEVC参考软件HM-16.21与本发明所提方法进行了对比。参见图5,在重建视频质量相同的前提下,本发明只需要消耗HM-16.21方法的95.79%比特。也就是说,相比于HM-16.21方法,本方法实现了4.21%的比特节省,说明本发明所提方案能够有效提升视频编码性能。
一种端到端智能视频编码装置,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行以下方法步骤:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于残差生成重建特征,通过重建模块进而得到最终重建帧。
其中,编码器将输入的运动矢量vt压缩成紧凑的潜在表示y3,编码器由三个堆叠的编码单元组成,每个编码单元包括:两个残差单元和一个下采样卷积层,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
其中,enc(·)代表编码单元。
进一步地,条件熵编解码器将潜在表示y3进行取整量化,生成量化后的潜在变量使用两个堆叠的编码单元和一层卷积层从时域参考信息中提取时域先验,并使用一层卷积层融合超先验和自回归先验生成空域先验,通过3层1×1卷积融合时域先验和空域先验,获得潜在变量的高斯分布均值μ和方差σ;
将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种端到端智能视频编码方法,其特征在于,所述方法包括:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。
2.根据权利要求1所述的一种端到端智能视频编码方法,其特征在于,
其中,Fusion(·),h0(·),h1(·),h2(·)均代表两层卷积层,⊕代表通道维度的级联。
将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r:
其中,g(·)代表一层卷积层。
7.根据权利要求1所述的一种端到端智能视频编码方法,其特征在于,所述方法还包括:在单视频和多视频上分别对端到端智能视频编码网络框架进行训练。
8.一种端到端智能视频编码装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915058.3A CN115278262A (zh) | 2022-08-01 | 2022-08-01 | 一种端到端智能视频编码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915058.3A CN115278262A (zh) | 2022-08-01 | 2022-08-01 | 一种端到端智能视频编码方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115278262A true CN115278262A (zh) | 2022-11-01 |
Family
ID=83746434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210915058.3A Pending CN115278262A (zh) | 2022-08-01 | 2022-08-01 | 一种端到端智能视频编码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115278262A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116437102A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 可学习通用视频编码方法、系统、设备及存储介质 |
WO2024120499A1 (en) * | 2022-12-10 | 2024-06-13 | Douyin Vision Co., Ltd. | Method, apparatus, and medium for visual data processing |
-
2022
- 2022-08-01 CN CN202210915058.3A patent/CN115278262A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024120499A1 (en) * | 2022-12-10 | 2024-06-13 | Douyin Vision Co., Ltd. | Method, apparatus, and medium for visual data processing |
CN116437102A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 可学习通用视频编码方法、系统、设备及存储介质 |
CN116437102B (zh) * | 2023-06-14 | 2023-10-20 | 中国科学技术大学 | 可学习通用视频编码方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115278262A (zh) | 一种端到端智能视频编码方法及装置 | |
CN112866694B (zh) | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 | |
CN113822147A (zh) | 一种协同机器语义任务的深度压缩方法 | |
CN112422989B (zh) | 一种视频编码方法 | |
Fu et al. | An extended hybrid image compression based on soft-to-hard quantification | |
CN112991169B (zh) | 基于图像金字塔和生成对抗网络的图像压缩方法及系统 | |
TW200524435A (en) | Moving picture encoding method and device, and moving picture decoding method and device | |
CN111080729B (zh) | 基于Attention机制的训练图片压缩网络的构建方法及系统 | |
Tan et al. | Image compression algorithms based on super-resolution reconstruction technology | |
CN106559668B (zh) | 一种基于智能量化技术的低码率图像压缩方法 | |
CN101754021B (zh) | 基于改进小波变换图像压缩方法实现手机移动门户的方法 | |
CN115150628A (zh) | 具有超先验引导模式预测的由粗到细深度视频编码方法 | |
Rehna | Hybrid approaches to image coding: A review | |
CN103402090A (zh) | 一种基于霍夫曼无损压缩算法的改进方法 | |
Sun et al. | KSVD-based multiple description image coding | |
CN1666530A (zh) | 子带视频解码方法和设备 | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 | |
Krishnanaik et al. | Implementation of wavelet transform, DPCM and neural network for image compression | |
CN114697632B (zh) | 一种基于双向条件编码的端到端立体图像压缩方法及装置 | |
CN117392248A (zh) | 基于循环神经网络和CiaoSR的图像压缩重建系统及方法 | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 | |
Zhang et al. | Wavelet transform based variable tree size fractal video coding | |
CN100450183C (zh) | 基于优化重建滤波方法的小波域运动估计方案 | |
Muzaffar et al. | Linked significant tree wavelet-based image compression | |
CN117640943A (zh) | 一种基于视频技术的智能视频压缩方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |