CN115278262A - 一种端到端智能视频编码方法及装置 - Google Patents

一种端到端智能视频编码方法及装置 Download PDF

Info

Publication number
CN115278262A
CN115278262A CN202210915058.3A CN202210915058A CN115278262A CN 115278262 A CN115278262 A CN 115278262A CN 202210915058 A CN202210915058 A CN 202210915058A CN 115278262 A CN115278262 A CN 115278262A
Authority
CN
China
Prior art keywords
time domain
module
feature
video coding
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210915058.3A
Other languages
English (en)
Inventor
雷建军
靳登朝
彭勃
潘兆庆
李戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210915058.3A priority Critical patent/CN115278262A/zh
Publication of CN115278262A publication Critical patent/CN115278262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/43Hardware specially adapted for motion estimation or compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种端到端智能视频编码方法及装置,方法包括:构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征;通过全局时域参考特征生成模块获得全局参考特征;通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;通过时域先验编码器压缩运动矢量;基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征;使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差;基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。装置包括:处理器和存储器。

Description

一种端到端智能视频编码方法及装置
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种端到端智能视频编码方法及装置。
背景技术
随着超高清、高动态、高帧率等高质量视频的引入,视频的数据量变得越来越大,给视频的传输和存储系统带来了巨大的挑战。为了降低视频的数据量,国际标准组织制定了一系列视频编码标准。这些视频编码标准通常采用多种手工设计的编码工具去除视频信号冗余。具体的,使用帧内预测和帧间预测技术分别去除空域和时域冗余信息。随后,对预测残差进行变换、量化、和熵编码,以在频域空间进一步去除视觉和统计冗余信息。然而,由于这些手工设计的编码工具无法使用率失真优化函数进行联合优化,编码性能难以进一步提升。
得益于深度学习强大的特征提取和非线性表达能力,端到端图像编码方法在近几年得到了广泛的研究,并且取得了与传统图像编码方法可比的编码性能。受此启发,一些学者开始致力于研究端到端智能视频编码方法。端到端智能视频编码方法旨在利用神经网络实现完整的视频编码框架。Lu等人基于传统混合视频编码框架建立了第一个端到端智能视频编码框架,通过运动估计网络和运动补偿网络获得预测帧,并使用端到端图像编码方法对估计的运动矢量和残差进一步压缩。Lin等人设计了基于多参考帧预测的端到端智能视频编码模型,利用多参考帧有效提高了运动补偿预测的准确性,从而提升了端到端智能视频编码效率。Hu等人提出了自适应分辨率的运动矢量编码方法,为编码块的运动矢量自适应选择最优分辨率光流图,提升了运动矢量编码效率。
然而,现有方法主要通过建模视频短期时序相关性提升编码性能,由于缺乏对视频时域上下文的有效探索,编码性能有待进一步提升。
发明内容
本发明提供了一种端到端智能视频编码方法及装置,本发明通过探索视频序列的长期时序关系提升运动补偿来预测准确性,同时利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失,详见下文描述:
一种端到端智能视频编码方法,所述方法包括:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。
其中,所述全局时域参考特征生成模块为运动估计模块与运动补偿模块生成全局参考特征ft r,并动态更新一次时域上下文状态信息
Figure BDA0003775360610000021
其中下标t表示当前t时刻,上标li表示第i级上下文状态信息;
所述特征提取模块从参考帧
Figure BDA0003775360610000022
中提取短期时序上下文
Figure BDA0003775360610000023
表示为:
Figure BDA0003775360610000024
将更新后的时域上下文状态信息通过两层卷积层和级联后,再通过两层卷积进行融合,得到长期时域上下文
Figure BDA0003775360610000025
计算如下:
Figure BDA0003775360610000026
其中,Fusion(·),h0(·),h1(·),h2(·)均代表两层卷积层,
Figure BDA0003775360610000027
代表通道维度的级联。
将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r
Figure BDA0003775360610000028
其中,g(·)代表一层卷积层。
进一步地,所述时域先验编码器将运动矢量vt和时域参考信息
Figure BDA0003775360610000029
作为输入,输出压缩后的运动矢量
Figure BDA00037753606100000210
包含:时域上下文生成器、编码器、解码器、和条件熵编解码器。
其中,所述时域上下文生成器用于提取时域参考信息
Figure BDA00037753606100000211
中的多级时域上下文信息{m1,m2,m3},通过级联和卷积操作对来自同一级的频率子带进行聚合,生成多级时域上下文信息{m1,m2,m3}:
Figure BDA00037753606100000212
其中,g(·)表示一层卷积层,
Figure BDA00037753606100000213
代表通道维度的级联。
其中,所述编码器将输入的运动矢量vt压缩成紧凑的潜在表示y3,编码器由三个堆叠的编码单元组成,每个编码单元包括:两个残差单元和一个下采样卷积层,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
Figure BDA0003775360610000031
其中,enc(·)代表编码单元。
进一步地,所述条件熵编解码器将潜在表示y3进行取整量化,生成量化后的潜在变量
Figure BDA0003775360610000032
使用两个堆叠的编码单元和一层卷积层从时域参考信息
Figure BDA0003775360610000033
中提取时域先验,并使用一层卷积层融合超先验和自回归先验生成空域先验,通过3层1×1卷积融合时域先验和空域先验,获得潜在变量
Figure BDA0003775360610000034
的高斯分布均值μ和方差σ;
通过逆变换解码量化后的潜在变量
Figure BDA0003775360610000035
得到压缩后的运动矢量
Figure BDA0003775360610000036
解码器由三个堆叠的解码单元组成,每个解码单元包括:两个残差单元和一个上采样卷积层;
将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量。
其中,所述方法还包括:在单视频和多视频上分别对端到端智能视频编码网络框架进行训练。
一种端到端智能视频编码装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明通过探索视频序列的长期时序关系,提升视频编码中运动补偿预测准确性;
2、本发明利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失,提升运动矢量和残差编码效率,从而提升视频编码性能。
3、本发明与视频编码标准HEVC参考软件HM-16.21相比,该方法能有效节省码率,提升编码性能。
附图说明
图1为一种端到端智能视频编码方法的流程图;
图2为全局时域参考特征生成模块的示意图;
图3为时域先验编码器压缩运动矢量的示意图;
图4为时域先验编码器压缩残差的示意图;
图5所提方法与视频编码标准HEVC参考软件HM-16.21的比特消耗对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一、构建端到端智能视频编码网络框架
端到端智能视频编码网络的输入为原始视频序列,输出为压缩后的视频序列。在压缩当前编码帧时,首先,使用特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征。随后,使用全局时域参考特征生成模块获得准确的全局参考特征。然后,使用运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量。之后,使用时域先验编码器压缩运动矢量。基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征。然后,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差。最后,将压缩后的残差与预测特征级联叠加生成重建特征,重建特征经过重建模块后,得到最终重建帧。
二、构建全局时域参考特征生成模块
给定一帧参考帧
Figure BDA0003775360610000041
以及时域上下文状态信息
Figure BDA0003775360610000042
作为输入,全局时域参考特征生成模块为运动估计模块与运动补偿模块生成准确的全局参考特征ft r,并动态更新一次时域上下文状态信息
Figure BDA0003775360610000043
其中下标t表示当前t时刻,上标li表示第i级上下文状态信息。
首先,使用特征提取模块从参考帧
Figure BDA0003775360610000044
中提取短期时序上下文
Figure BDA0003775360610000045
计算公式表示为:
Figure BDA0003775360610000046
其中,FE(·)表示特征提取模块。
随后,通过探索视频序列长期时序关系,生成长期时域上下文
Figure BDA0003775360610000047
具体来说,首先将短期时序上下文
Figure BDA0003775360610000048
与时域上下文状态信息
Figure BDA0003775360610000049
送入三个堆叠的Conv-LSTM单元,更新时域上下文状态信息
Figure BDA00037753606100000410
Figure BDA00037753606100000411
其中,h(·)表示堆叠的Conv-LSTM单元。
随后,将更新后的时域上下文状态信息通过两层卷积层和级联后,再通过两层卷积进行融合,得到长期时域上下文
Figure BDA00037753606100000412
计算如下:
Figure BDA0003775360610000051
其中,Fusion(·),h0(·),h1(·),h2(·)均代表两层卷积层,
Figure BDA0003775360610000052
代表通道维度的级联。
最后,将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r
Figure BDA0003775360610000053
其中,g(·)代表一层卷积层。
全局时域参考特征生成模块不仅利用了短期时域上下文信息
Figure BDA0003775360610000054
还充分探索了长期时域上下文信息
Figure BDA0003775360610000055
生成了准确的全局参考特征ft r。由于ft r中聚合了来自视频长期时域上下文的参考信息,因此所设计的端到端智能视频编码网络能够有效地提升复杂运动场景下的编码效率。
三、设计时域先验编码器压缩运动矢量
给定运动矢量vt和时域参考信息
Figure BDA0003775360610000056
作为输入,时域先验编码器输出压缩后的运动矢量
Figure BDA0003775360610000057
其结构主要包含:时域上下文生成器、编码器、解码器、和条件熵编解码器。
时域上下文生成器主要目的是提取时域参考信息
Figure BDA0003775360610000058
中的多级时域上下文信息{m1,m2,m3}。首先,使用离散小波变换(DWT)将时域参考信息
Figure BDA0003775360610000059
分解为四个子带,即一个低频子带LL1和三个高频子带{HL1,LH1,HH1}。随后,将低频子带LL1分解为四个低分辨率子带{LL2,HL2,LH2,HH2},同理将低频子带LL2进一步分解为四个更低分辨率的子带{LL3,HL3,LH3,HH3}。最终,获得的多尺度频率子带可以表示为:
Figure BDA00037753606100000510
随后,通过级联和卷积操作对来自同一级的频率子带进行聚合,生成多级时域上下文信息{m1,m2,m3}:
Figure BDA00037753606100000511
其中,g(·)表示一层卷积层,
Figure BDA00037753606100000512
代表通道维度的级联。
编码器的目的是将输入的运动矢量vt压缩成紧凑的潜在表示y3。编码器的主要结构由三个堆叠的编码单元组成。每个编码单元包括:两个残差单元和一个下采样卷积层。为了有效缓解潜在表示y3在下采样过程中丢失的高频细节信息,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
Figure BDA00037753606100000513
其中,enc(·)代表编码单元。
条件熵编解码器主要任务是将潜在表示y3编码为二进制码流b,以及从二进制码流b中解码恢复量化后的潜在变量
Figure BDA0003775360610000061
在条件熵编解码器中,首先将潜在表示y3进行取整量化,生成量化后的潜在变量
Figure BDA0003775360610000062
随后,使用两个堆叠的编码单元和一层卷积层从时域参考信息
Figure BDA0003775360610000063
中提取时域先验
Figure BDA0003775360610000064
并使用一层卷积层融合超先验φ和自回归先验ψ生成空域先验
Figure BDA0003775360610000065
通过3层1×1卷积融合时域先验
Figure BDA0003775360610000066
和空域先验
Figure BDA0003775360610000067
获得潜在变量
Figure BDA0003775360610000068
的高斯分布均值μ和方差σ,计算公式表示为:
Figure BDA0003775360610000069
其中,convs(·)表示三层1×1卷积层,conv(·)表示一层卷积层。最后,使用算术编码器根据高斯分布均值μ和方差σ将潜在变量
Figure BDA00037753606100000610
编码为二进制码流b,在熵解码器中,同样根据高斯分布均值μ和方差σ从二进制码流b中解码恢复潜在变量
Figure BDA00037753606100000611
解码器通过逆变换解码量化后的潜在变量
Figure BDA00037753606100000612
得到压缩后的运动矢量
Figure BDA00037753606100000613
解码器的主要结构由三个堆叠的解码单元组成。每个解码单元包括:两个残差单元和一个上采样卷积层。
为了有效缓解潜在表示y3在量化过程中丢失的高频细节信息,将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量
Figure BDA00037753606100000614
计算公式表示为:
Figure BDA00037753606100000615
其中,dec(·)代表解码单元。
四、设计时域先验编码器压缩残差
与压缩运动矢量vt类似,使用时域先验编码器对残差rt进行高效压缩。压缩残差rt时采用的时域先验编码器与压缩运动矢量vt所采用的时域先验编码器结构是一致的,因此其结构不再赘述。给定残差rt和时域参考信息
Figure BDA00037753606100000616
作为输入,时域先验编码器输出压缩后的残差
Figure BDA00037753606100000617
计算公式表示为:
Figure BDA00037753606100000618
其中,tcc(·)代表时域先验编码器。
五、训练端到端智能视频编码网络
端到端智能视频编码网络包括:特征提取模块、全局时域参考特征生成模块、运动估计模块、运动补偿模块、时域先验编码器、和重建模块。其中特征提取模块、运动估计模块、运动补偿模块、和重建模块采用优秀的端到端智能视频编码方法的神经网络结构。此外,设计了一个多阶段训练策略渐近训练端到端智能视频编码网络。
第一阶段:在单视频帧上训练。
首先,使用率失真损失函数
Figure BDA0003775360610000071
与预测失真损失函数
Figure BDA0003775360610000072
的和作为总体损失函数L=Lr+Lp,训练神经网络模型5个epoch,其中D(·)表示均方误差(Mean Square Error,MSE),R表示码率,xt表示预测帧,xt表示当前编码帧,
Figure BDA0003775360610000073
表示重建帧,λ表示调节码率的超参数,其数值设定为{256,512,1024,2048}。随后使用率失真损失函数Lr再优化5个epoch。
第二阶段:在多视频帧上训练。
在多帧训练阶段时,端到端智能视频编码网络在三帧视频帧上进行连续优化。首先使用总体损失函数L训练14个epoch,随后使用率失真损失函数Lr再训练6个epoch。最后,为了缓解网络模型在编码连续多帧时出现参考帧误差累积的问题,通过累加三帧的率失真损失函数Lr计算得到累加率失真损失函数L*,并使用累加率失真损失函数L*训练神经网络模型5个epoch。
训练该视频编码网络后,得到端到端智能视频编码模型。该模型以视频序列作为输入,最终输出压缩后的视频序列。
本发明实施例将视频编码标准HEVC参考软件HM-16.21与本发明所提方法进行了对比。参见图5,在重建视频质量相同的前提下,本发明只需要消耗HM-16.21方法的95.79%比特。也就是说,相比于HM-16.21方法,本方法实现了4.21%的比特节省,说明本发明所提方案能够有效提升视频编码性能。
一种端到端智能视频编码装置,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行以下方法步骤:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于残差生成重建特征,通过重建模块进而得到最终重建帧。
进一步地,时域先验编码器将运动矢量vt和时域参考信息
Figure BDA0003775360610000081
作为输入,输出压缩后的运动矢量
Figure BDA0003775360610000082
包含:时域上下文生成器、编码器、解码器、和条件熵编解码器。
其中,所述时域上下文生成器用于提取时域参考信息
Figure BDA0003775360610000083
中的多级时域上下文信息{m1,m2,m3},通过级联和卷积操作对来自同一级的频率子带进行聚合,生成多级时域上下文信息{m1,m2,m3}:
Figure BDA0003775360610000084
其中,g(·)表示一层卷积层,
Figure BDA0003775360610000085
代表通道维度的级联。
其中,编码器将输入的运动矢量vt压缩成紧凑的潜在表示y3,编码器由三个堆叠的编码单元组成,每个编码单元包括:两个残差单元和一个下采样卷积层,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
Figure BDA0003775360610000086
其中,enc(·)代表编码单元。
进一步地,条件熵编解码器将潜在表示y3进行取整量化,生成量化后的潜在变量
Figure BDA0003775360610000087
使用两个堆叠的编码单元和一层卷积层从时域参考信息
Figure BDA0003775360610000088
中提取时域先验,并使用一层卷积层融合超先验和自回归先验生成空域先验,通过3层1×1卷积融合时域先验和空域先验,获得潜在变量
Figure BDA0003775360610000089
的高斯分布均值μ和方差σ;
通过逆变换解码量化后的潜在变量
Figure BDA00037753606100000810
得到压缩后的运动矢量
Figure BDA00037753606100000811
解码器由三个堆叠的解码单元组成,每个解码单元包括:两个残差单元和一个上采样卷积层;
将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种端到端智能视频编码方法,其特征在于,所述方法包括:
构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架;
所述特征提取模块将当前编码帧映射至特征空间,得到当前编码帧特征,通过全局时域参考特征生成模块获得全局参考特征,通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量;
通过时域先验编码器压缩运动矢量,基于压缩的运动矢量和全局参考特征,使用运动补偿模块获得当前编码帧的预测特征,使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差,基于压缩的残差和预测特征生成重建特征,通过重建模块得到最终重建帧。
2.根据权利要求1所述的一种端到端智能视频编码方法,其特征在于,
所述全局时域参考特征生成模块为运动估计模块与运动补偿模块生成全局参考特征ft r,并动态更新一次时域上下文状态信息
Figure FDA0003775360600000011
其中下标t表示当前t时刻,上标li表示第i级上下文状态信息;
所述特征提取模块从参考帧
Figure FDA0003775360600000012
中提取短期时序上下文
Figure FDA0003775360600000013
表示为:
Figure FDA0003775360600000014
将更新后的时域上下文状态信息通过两层卷积层和级联后,再通过两层卷积进行融合,得到长期时域上下文
Figure FDA0003775360600000015
计算如下:
Figure FDA0003775360600000016
其中,Fusion(·),h0(·),h1(·),h2(·)均代表两层卷积层,⊕代表通道维度的级联。
将短期时域上下文和长期时域上下文进行聚合,生成最终的全局时域参考特征ft r
Figure FDA0003775360600000017
其中,g(·)代表一层卷积层。
3.根据权利要求1所述的一种端到端智能视频编码方法,其特征在于,所述时域先验编码器将运动矢量vt和时域参考信息
Figure FDA0003775360600000018
作为输入,输出压缩后的运动矢量
Figure FDA0003775360600000019
包含:时域上下文生成器、编码器、解码器、和条件熵编解码器。
4.根据权利要求3所述的一种端到端智能视频编码方法,其特征在于,所述时域上下文生成器用于提取时域参考信息
Figure FDA00037753606000000110
中的多级时域上下文信息{m1,m2,m3},通过级联和卷积操作对来自同一级的频率子带进行聚合,生成多级时域上下文信息{m1,m2,m3}:
mi=g(LLi⊕HLi⊕LHi⊕HHi),i∈[1,3]
其中,g(·)表示一层卷积层,⊕代表通道维度的级联。
5.根据权利要求3所述的一种端到端智能视频编码方法,其特征在于,所述编码器将输入的运动矢量vt压缩成紧凑的潜在表示y3,编码器由三个堆叠的编码单元组成,每个编码单元包括:两个残差单元和一个下采样卷积层,将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,计算公式表示为:
Figure FDA0003775360600000021
其中,enc(·)代表编码单元。
6.根据权利要求3所述的一种端到端智能视频编码方法,其特征在于,所述条件熵编解码器将潜在表示y3进行取整量化,生成量化后的潜在变量
Figure FDA0003775360600000022
使用两个堆叠的编码单元和一层卷积层从时域参考信息
Figure FDA0003775360600000023
中提取时域先验,并使用一层卷积层融合超先验和自回归先验生成空域先验,通过3层1×1卷积融合时域先验和空域先验,获得潜在变量
Figure FDA0003775360600000024
的高斯分布均值μ和方差σ;
通过逆变换解码量化后的潜在变量
Figure FDA0003775360600000025
得到压缩后的运动矢量
Figure FDA0003775360600000026
解码器由三个堆叠的解码单元组成,每个解码单元包括:两个残差单元和一个上采样卷积层;
将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加,最终得到压缩后的运动矢量。
7.根据权利要求1所述的一种端到端智能视频编码方法,其特征在于,所述方法还包括:在单视频和多视频上分别对端到端智能视频编码网络框架进行训练。
8.一种端到端智能视频编码装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法步骤。
CN202210915058.3A 2022-08-01 2022-08-01 一种端到端智能视频编码方法及装置 Pending CN115278262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210915058.3A CN115278262A (zh) 2022-08-01 2022-08-01 一种端到端智能视频编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210915058.3A CN115278262A (zh) 2022-08-01 2022-08-01 一种端到端智能视频编码方法及装置

Publications (1)

Publication Number Publication Date
CN115278262A true CN115278262A (zh) 2022-11-01

Family

ID=83746434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210915058.3A Pending CN115278262A (zh) 2022-08-01 2022-08-01 一种端到端智能视频编码方法及装置

Country Status (1)

Country Link
CN (1) CN115278262A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116437102A (zh) * 2023-06-14 2023-07-14 中国科学技术大学 可学习通用视频编码方法、系统、设备及存储介质
WO2024120499A1 (en) * 2022-12-10 2024-06-13 Douyin Vision Co., Ltd. Method, apparatus, and medium for visual data processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024120499A1 (en) * 2022-12-10 2024-06-13 Douyin Vision Co., Ltd. Method, apparatus, and medium for visual data processing
CN116437102A (zh) * 2023-06-14 2023-07-14 中国科学技术大学 可学习通用视频编码方法、系统、设备及存储介质
CN116437102B (zh) * 2023-06-14 2023-10-20 中国科学技术大学 可学习通用视频编码方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN115278262A (zh) 一种端到端智能视频编码方法及装置
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN113822147A (zh) 一种协同机器语义任务的深度压缩方法
CN112422989B (zh) 一种视频编码方法
Fu et al. An extended hybrid image compression based on soft-to-hard quantification
CN112991169B (zh) 基于图像金字塔和生成对抗网络的图像压缩方法及系统
TW200524435A (en) Moving picture encoding method and device, and moving picture decoding method and device
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
Tan et al. Image compression algorithms based on super-resolution reconstruction technology
CN106559668B (zh) 一种基于智能量化技术的低码率图像压缩方法
CN101754021B (zh) 基于改进小波变换图像压缩方法实现手机移动门户的方法
CN115150628A (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
Rehna Hybrid approaches to image coding: A review
CN103402090A (zh) 一种基于霍夫曼无损压缩算法的改进方法
Sun et al. KSVD-based multiple description image coding
CN1666530A (zh) 子带视频解码方法和设备
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
Krishnanaik et al. Implementation of wavelet transform, DPCM and neural network for image compression
CN114697632B (zh) 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN117392248A (zh) 基于循环神经网络和CiaoSR的图像压缩重建系统及方法
CN117615148B (zh) 一种基于多尺度框架的端到端特征图分层压缩方法
Zhang et al. Wavelet transform based variable tree size fractal video coding
CN100450183C (zh) 基于优化重建滤波方法的小波域运动估计方案
Muzaffar et al. Linked significant tree wavelet-based image compression
CN117640943A (zh) 一种基于视频技术的智能视频压缩方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination