CN115278262A

CN115278262A - 一种端到端智能视频编码方法及装置

Info

Publication number: CN115278262A
Application number: CN202210915058.3A
Authority: CN
Inventors: 雷建军; 靳登朝; 彭勃; 潘兆庆; 李戈
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-01

Abstract

本发明公开了一种端到端智能视频编码方法及装置，方法包括：构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架；所述特征提取模块将当前编码帧映射至特征空间，得到当前编码帧特征；通过全局时域参考特征生成模块获得全局参考特征；通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量；通过时域先验编码器压缩运动矢量；基于压缩的运动矢量和全局参考特征，使用运动补偿模块获得当前编码帧的预测特征；使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差；基于压缩的残差和预测特征生成重建特征，通过重建模块得到最终重建帧。装置包括：处理器和存储器。

Description

一种端到端智能视频编码方法及装置

技术领域

本发明涉及深度学习、视频编码领域，尤其涉及一种端到端智能视频编码方法及装置。

背景技术

随着超高清、高动态、高帧率等高质量视频的引入，视频的数据量变得越来越大，给视频的传输和存储系统带来了巨大的挑战。为了降低视频的数据量，国际标准组织制定了一系列视频编码标准。这些视频编码标准通常采用多种手工设计的编码工具去除视频信号冗余。具体的，使用帧内预测和帧间预测技术分别去除空域和时域冗余信息。随后，对预测残差进行变换、量化、和熵编码，以在频域空间进一步去除视觉和统计冗余信息。然而，由于这些手工设计的编码工具无法使用率失真优化函数进行联合优化，编码性能难以进一步提升。

得益于深度学习强大的特征提取和非线性表达能力，端到端图像编码方法在近几年得到了广泛的研究，并且取得了与传统图像编码方法可比的编码性能。受此启发，一些学者开始致力于研究端到端智能视频编码方法。端到端智能视频编码方法旨在利用神经网络实现完整的视频编码框架。Lu等人基于传统混合视频编码框架建立了第一个端到端智能视频编码框架，通过运动估计网络和运动补偿网络获得预测帧，并使用端到端图像编码方法对估计的运动矢量和残差进一步压缩。Lin等人设计了基于多参考帧预测的端到端智能视频编码模型，利用多参考帧有效提高了运动补偿预测的准确性，从而提升了端到端智能视频编码效率。Hu等人提出了自适应分辨率的运动矢量编码方法，为编码块的运动矢量自适应选择最优分辨率光流图，提升了运动矢量编码效率。

然而，现有方法主要通过建模视频短期时序相关性提升编码性能，由于缺乏对视频时域上下文的有效探索，编码性能有待进一步提升。

发明内容

本发明提供了一种端到端智能视频编码方法及装置，本发明通过探索视频序列的长期时序关系提升运动补偿来预测准确性，同时利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失，详见下文描述：

一种端到端智能视频编码方法，所述方法包括：

构建一由特征提取模块、全局时域参考特征生成模块、运动估计模块、时域先验编码器、运动补偿模块和重建模块组成的端到端智能视频编码网络框架；

所述特征提取模块将当前编码帧映射至特征空间，得到当前编码帧特征，通过全局时域参考特征生成模块获得全局参考特征，通过运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量；

通过时域先验编码器压缩运动矢量，基于压缩的运动矢量和全局参考特征，使用运动补偿模块获得当前编码帧的预测特征，使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差，基于压缩的残差和预测特征生成重建特征，通过重建模块得到最终重建帧。

其中，所述全局时域参考特征生成模块为运动估计模块与运动补偿模块生成全局参考特征f_t ^r，并动态更新一次时域上下文状态信息

其中下标t表示当前t时刻，上标l_i表示第i级上下文状态信息；

所述特征提取模块从参考帧

中提取短期时序上下文

表示为：

将更新后的时域上下文状态信息通过两层卷积层和级联后，再通过两层卷积进行融合，得到长期时域上下文

计算如下：

其中，Fusion(·),h₀(·),h₁(·),h₂(·)均代表两层卷积层，

代表通道维度的级联。

将短期时域上下文和长期时域上下文进行聚合，生成最终的全局时域参考特征f_t ^r：

其中，g(·)代表一层卷积层。

进一步地，所述时域先验编码器将运动矢量v_t和时域参考信息

作为输入，输出压缩后的运动矢量

包含：时域上下文生成器、编码器、解码器、和条件熵编解码器。

其中，所述时域上下文生成器用于提取时域参考信息

中的多级时域上下文信息{m₁,m₂,m₃}，通过级联和卷积操作对来自同一级的频率子带进行聚合，生成多级时域上下文信息{m₁,m₂,m₃}：

其中，g(·)表示一层卷积层，

代表通道维度的级联。

其中，所述编码器将输入的运动矢量v_t压缩成紧凑的潜在表示y₃，编码器由三个堆叠的编码单元组成，每个编码单元包括：两个残差单元和一个下采样卷积层，将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加，计算公式表示为：

其中，enc(·)代表编码单元。

进一步地，所述条件熵编解码器将潜在表示y₃进行取整量化，生成量化后的潜在变量

使用两个堆叠的编码单元和一层卷积层从时域参考信息

中提取时域先验，并使用一层卷积层融合超先验和自回归先验生成空域先验，通过3层1×1卷积融合时域先验和空域先验，获得潜在变量

的高斯分布均值μ和方差σ；

通过逆变换解码量化后的潜在变量

得到压缩后的运动矢量

解码器由三个堆叠的解码单元组成，每个解码单元包括：两个残差单元和一个上采样卷积层；

将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加，最终得到压缩后的运动矢量。

其中，所述方法还包括：在单视频和多视频上分别对端到端智能视频编码网络框架进行训练。

一种端到端智能视频编码装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明通过探索视频序列的长期时序关系，提升视频编码中运动补偿预测准确性；

2、本发明利用已编码时域上下文信息补充运动矢量和残差编码过程中的高频信息损失，提升运动矢量和残差编码效率，从而提升视频编码性能。

3、本发明与视频编码标准HEVC参考软件HM-16.21相比，该方法能有效节省码率，提升编码性能。

附图说明

图1为一种端到端智能视频编码方法的流程图；

图2为全局时域参考特征生成模块的示意图；

图3为时域先验编码器压缩运动矢量的示意图；

图4为时域先验编码器压缩残差的示意图；

图5所提方法与视频编码标准HEVC参考软件HM-16.21的比特消耗对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

一、构建端到端智能视频编码网络框架

端到端智能视频编码网络的输入为原始视频序列，输出为压缩后的视频序列。在压缩当前编码帧时，首先，使用特征提取模块将当前编码帧映射至特征空间，得到当前编码帧特征。随后，使用全局时域参考特征生成模块获得准确的全局参考特征。然后，使用运动估计模块估计全局参考特征与当前编码帧特征之间的运动矢量。之后，使用时域先验编码器压缩运动矢量。基于压缩的运动矢量和全局参考特征，使用运动补偿模块获得当前编码帧的预测特征。然后，使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差。最后，将压缩后的残差与预测特征级联叠加生成重建特征，重建特征经过重建模块后，得到最终重建帧。

二、构建全局时域参考特征生成模块

给定一帧参考帧

以及时域上下文状态信息

作为输入，全局时域参考特征生成模块为运动估计模块与运动补偿模块生成准确的全局参考特征f_t ^r，并动态更新一次时域上下文状态信息

其中下标t表示当前t时刻，上标l_i表示第i级上下文状态信息。

首先，使用特征提取模块从参考帧

中提取短期时序上下文

计算公式表示为：

其中，FE(·)表示特征提取模块。

随后，通过探索视频序列长期时序关系，生成长期时域上下文

具体来说，首先将短期时序上下文

与时域上下文状态信息

送入三个堆叠的Conv-LSTM单元，更新时域上下文状态信息

其中，h(·)表示堆叠的Conv-LSTM单元。

随后，将更新后的时域上下文状态信息通过两层卷积层和级联后，再通过两层卷积进行融合，得到长期时域上下文

计算如下：

其中，Fusion(·),h₀(·),h₁(·),h₂(·)均代表两层卷积层，

代表通道维度的级联。

最后，将短期时域上下文和长期时域上下文进行聚合，生成最终的全局时域参考特征f_t ^r：

其中，g(·)代表一层卷积层。

全局时域参考特征生成模块不仅利用了短期时域上下文信息

还充分探索了长期时域上下文信息

生成了准确的全局参考特征f_t ^r。由于f_t ^r中聚合了来自视频长期时域上下文的参考信息，因此所设计的端到端智能视频编码网络能够有效地提升复杂运动场景下的编码效率。

三、设计时域先验编码器压缩运动矢量

给定运动矢量v_t和时域参考信息

作为输入，时域先验编码器输出压缩后的运动矢量

其结构主要包含：时域上下文生成器、编码器、解码器、和条件熵编解码器。

时域上下文生成器主要目的是提取时域参考信息

中的多级时域上下文信息{m₁,m₂,m₃}。首先，使用离散小波变换(DWT)将时域参考信息

分解为四个子带，即一个低频子带LL₁和三个高频子带{HL₁,LH₁,HH₁}。随后，将低频子带LL₁分解为四个低分辨率子带{LL₂,HL₂,LH₂,HH₂}，同理将低频子带LL₂进一步分解为四个更低分辨率的子带{LL₃,HL₃,LH₃,HH₃}。最终，获得的多尺度频率子带可以表示为：

随后，通过级联和卷积操作对来自同一级的频率子带进行聚合，生成多级时域上下文信息{m₁,m₂,m₃}：

其中，g(·)表示一层卷积层，

代表通道维度的级联。

编码器的目的是将输入的运动矢量v_t压缩成紧凑的潜在表示y₃。编码器的主要结构由三个堆叠的编码单元组成。每个编码单元包括：两个残差单元和一个下采样卷积层。为了有效缓解潜在表示y₃在下采样过程中丢失的高频细节信息，将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加，计算公式表示为：

其中，enc(·)代表编码单元。

条件熵编解码器主要任务是将潜在表示y₃编码为二进制码流b，以及从二进制码流b中解码恢复量化后的潜在变量

在条件熵编解码器中，首先将潜在表示y₃进行取整量化，生成量化后的潜在变量

随后，使用两个堆叠的编码单元和一层卷积层从时域参考信息

中提取时域先验

并使用一层卷积层融合超先验φ和自回归先验ψ生成空域先验

通过3层1×1卷积融合时域先验

和空域先验

获得潜在变量

的高斯分布均值μ和方差σ，计算公式表示为：

其中，convs(·)表示三层1×1卷积层，conv(·)表示一层卷积层。最后，使用算术编码器根据高斯分布均值μ和方差σ将潜在变量

编码为二进制码流b，在熵解码器中，同样根据高斯分布均值μ和方差σ从二进制码流b中解码恢复潜在变量

解码器通过逆变换解码量化后的潜在变量

得到压缩后的运动矢量

解码器的主要结构由三个堆叠的解码单元组成。每个解码单元包括：两个残差单元和一个上采样卷积层。

为了有效缓解潜在表示y₃在量化过程中丢失的高频细节信息，将每一个解码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加，最终得到压缩后的运动矢量

计算公式表示为：

其中，dec(·)代表解码单元。

四、设计时域先验编码器压缩残差

与压缩运动矢量v_t类似，使用时域先验编码器对残差r_t进行高效压缩。压缩残差r_t时采用的时域先验编码器与压缩运动矢量v_t所采用的时域先验编码器结构是一致的，因此其结构不再赘述。给定残差r_t和时域参考信息

作为输入，时域先验编码器输出压缩后的残差

计算公式表示为：

其中，tcc(·)代表时域先验编码器。

五、训练端到端智能视频编码网络

端到端智能视频编码网络包括：特征提取模块、全局时域参考特征生成模块、运动估计模块、运动补偿模块、时域先验编码器、和重建模块。其中特征提取模块、运动估计模块、运动补偿模块、和重建模块采用优秀的端到端智能视频编码方法的神经网络结构。此外，设计了一个多阶段训练策略渐近训练端到端智能视频编码网络。

第一阶段：在单视频帧上训练。

首先，使用率失真损失函数

与预测失真损失函数

的和作为总体损失函数L＝L_r+L_p，训练神经网络模型5个epoch，其中D(·)表示均方误差(Mean Square Error，MSE)，R表示码率，x_t表示预测帧，x_t表示当前编码帧，

表示重建帧，λ表示调节码率的超参数，其数值设定为{256，512，1024，2048}。随后使用率失真损失函数L_r再优化5个epoch。

第二阶段：在多视频帧上训练。

在多帧训练阶段时，端到端智能视频编码网络在三帧视频帧上进行连续优化。首先使用总体损失函数L训练14个epoch,随后使用率失真损失函数L_r再训练6个epoch。最后，为了缓解网络模型在编码连续多帧时出现参考帧误差累积的问题，通过累加三帧的率失真损失函数L_r计算得到累加率失真损失函数L^*，并使用累加率失真损失函数L^*训练神经网络模型5个epoch。

训练该视频编码网络后，得到端到端智能视频编码模型。该模型以视频序列作为输入，最终输出压缩后的视频序列。

本发明实施例将视频编码标准HEVC参考软件HM-16.21与本发明所提方法进行了对比。参见图5，在重建视频质量相同的前提下，本发明只需要消耗HM-16.21方法的95.79％比特。也就是说，相比于HM-16.21方法，本方法实现了4.21％的比特节省，说明本发明所提方案能够有效提升视频编码性能。

一种端到端智能视频编码装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行以下方法步骤：

通过时域先验编码器压缩运动矢量，基于压缩的运动矢量和全局参考特征，使用运动补偿模块获得当前编码帧的预测特征，使用时域先验编码器压缩预测特征与当前编码帧特征之间的残差，基于残差生成重建特征，通过重建模块进而得到最终重建帧。

进一步地，时域先验编码器将运动矢量v_t和时域参考信息

作为输入，输出压缩后的运动矢量

其中，所述时域上下文生成器用于提取时域参考信息

其中，g(·)表示一层卷积层，

代表通道维度的级联。

其中，编码器将输入的运动矢量v_t压缩成紧凑的潜在表示y₃，编码器由三个堆叠的编码单元组成，每个编码单元包括：两个残差单元和一个下采样卷积层，将每一个编码单元的输出与时域上下文生成器生成的多级时域上下文信息对应相加，计算公式表示为：

其中，enc(·)代表编码单元。

进一步地，条件熵编解码器将潜在表示y₃进行取整量化，生成量化后的潜在变量

使用两个堆叠的编码单元和一层卷积层从时域参考信息

的高斯分布均值μ和方差σ；

通过逆变换解码量化后的潜在变量

得到压缩后的运动矢量

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。