CN116437089B

CN116437089B - 一种基于关键目标的深度视频压缩方法

Info

Publication number: CN116437089B
Application number: CN202310675512.7A
Authority: CN
Inventors: 白慧慧; 邹同元; 钟烨
Original assignee: Beijing Jiaotong University; Space Star Technology Co Ltd
Current assignee: Beijing Jiaotong University; Space Star Technology Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-05
Anticipated expiration: 2043-06-08
Also published as: CN116437089A

Abstract

本发明提出一种基于关键目标的深度视频压缩算法，模型主要包括两部分。第一部分是基于长短期注意力机制的语义分割网络，该模块利用长期注意力机制和短期注意力机制以聚合目标的信息并学习时间平滑性，生成高质量的特征图，最后，通过解码器输出带有语义信息的帧序列。第二部分是基于残差编码的深度视频压缩网络DVC，通过对输入帧序列做运动估计提取运动信息，并将运动编解码后的运行信息做残差，然后对残差进行压缩，最后将重建的残差与运动信息相加重建帧序列。

Description

一种基于关键目标的深度视频压缩方法

技术领域

本发明属于视频压缩技术领域，具体一种基于关键目标的深度视频压缩方法。

背景技术

在过去的几十年里，已经提出了一些传统的视频压缩方法，如H.264和H.265。这些方法大多遵循预测编码体系结构。尽管它们提供了高效的压缩性能，但它们是手工设计的，如基于块的运动估计和离散余弦变换(DCT)，不能以端到端方式共同优化。随着近些年来神经网络的发展，端到端的视频编码技术也有了迅猛的发展。现有的大多数神经视频编解码器的工作大致可以分为三类:基于残差编码的、基于条件编码的和基于3D自动编码器的解决方案。其中，许多方法属于基于残差编码的解。残差编码来自于传统的混合视频编解码器。具体来说，首先生成运动补偿预测，然后对其与当前帧的残差进行编码。对于基于条件编码的解决方案，时间帧或特征作为当前帧编码的条件。与残差编码相比，条件编码具有较低或相等的熵界。而基于3D自编码器的解决方案，是通过扩展输入维数，对神经图像编解码器的自然延伸，但是它带来了较大的编码延迟，大大增加了内存开销。综上所述，这些已有的工作大多集中在如何通过探索不同的数据流或网络结构来生成优化的潜在表示。

发明内容

本发明提出一种基于关键目标的深度视频压缩方法，模型主要包括两部分。第一部分是基于长短期注意力机制的语义分割网络，该模块利用长期注意力机制和短期注意力机制以聚合目标的信息并学习时间平滑性，生成高质量的特征图，最后，通过解码器输出带有语义信息的帧序列。第二部分是基于残差编码的深度视频压缩网络，通过对输入帧序列做运动估计提取运动信息，并将运动编解码后的运行信息做残差，然后对残差进行压缩，最后将重建的残差与运动信息相加重建帧序列。具体如下：

一种基于关键目标的深度视频压缩方法，包括下述步骤：

输入被压缩对象到语义分割网络；

语义分割网络进行前景分割；

语义分割网络输出与输入对应的前景分割图；

将所述前景分割图和参考帧输入到编码网络；

提取当前帧和参考帧的运动信息；

对所述运动信息压缩编码；

将重构的运动信息和参考帧输入到运动补偿模块；

运动补偿模块输出初步预测帧；

计算所述初步预测帧与输入帧之间的残差；

将所述残差输入到压缩网络中；

所述压缩网络对残差进行压缩与编码；

将重构的残差与所述初步预测帧相加，得到最后的重建帧。

在上述方案的基础上，所述语义分割网络为一个基于长短期注意力的语义分割网络；其具体工作步骤为：

通过编码器提取视频帧序列中的特征；

利用长短期transformer学习当前帧对应的特征并传递给下一帧对应的长短期transformer；

通过解码器输出语义分割帧序列。

在上述方案的基础上，所述编码网络为基于重要性图的运动编码网络；其具体工作步骤为：

编码器对输入的运动信息压缩、量化，得到一个初步的量化码流；

重要性映射子网络从运动信息中学习一个重要性图，生成重要性mask，利用重要性mask对初步量化码流修剪生成最终的量化码流；

解码器对量化码流解码，重建运动信息。

在上述方案的基础上，所述运动补偿网络利用重构的运动信息将参考帧扭曲为一个扭曲帧，利用卷积神经网络消除扭曲帧中的空间不连续现象，得到初步的预测帧。

本发明还提出一种基于关键目标的深度视频压缩设备，包括：语义分割模块、编码网络、运动补偿模块、第一运算模块、压缩网络、第二运算模块；

所述语义分割模块用于进行前景分割，输出与输入对应的前景分割图；

所述编码网络用于提取当前帧和参考帧的运动信息，对所述运动信息压缩编码；

所述运动补偿模块用于输出初步预测帧；

所述第一运算模块用于计算所述初步预测帧与输入帧之间的残差；

所述压缩网络用于对残差进行压缩与编码；

所述第二运算模块用于重构的残差与所述初步预测帧相加，得到最后的重建帧。

在上述方案的基础上，所述语义分割模块包括编码器、解码器；

所述编码器用于提取视频帧序列中的特征，

所述解码器用于输出语义分割帧序列。

在上述方案的基础上，所述编码网络包括编码器、解码器和重要性映射子网络；

所述编码器用于对输入的运动信息压缩、量化；

所述重要性映射子网络用于生成重要性mask，利用重要性mask对初步量化码流修剪生成最终的量化码流；

所述解码器对量化码流解码，重建运动信息。

在上述方案的基础上，所述运动补偿模块利用重构的运动信息将参考帧扭曲为一个扭曲帧，利用卷积神经网络消除扭曲帧中的空间不连续现象，得到初步的预测帧。

本发明的有益效果：

本发明的针对视频聊天和视频会议的深度视频编码方法，能够有效保证关键目标视觉效果的同时，降低整体码率。

附图说明

本发明有如下附图：

图1为本发明实施例所述的一种基于关键目标的深度视频压缩方法流程框架示意图；

图2为本发明实施例所述的运动编码网络框架；

图3为本发明实施例所述的运动补偿网络框架；

图4为本发明实施例所述的方法在关键目标的测试结果；

图5为本发明实施例所述的方法在整体的测试结果。

具体实施方式

为使本发明的目的、优点和特征更加显而易见，下面结合附图1-5和具体实施方式对本发明进行进一步的详细说明。

参考图1，一种基于关键目标的深度视频压缩方法具体实施例：

包括如下步骤：

步骤(1)：首先输入一组视频帧序列到语义分割网络提取关键目标帧序列。

步骤(2)：将关键目标帧和参考帧输入到运动估计模块，提取运动信息输入到运动编码网络中压缩编码。

步骤(3)：将重构的运动信息和参考帧输入到运动补偿网络，扭曲、细化后得到初步预测帧。

步骤(4)：将输入帧和初步预测帧之间的残差输入到残差编码网络进行压缩编码，并将重构的残差与初步预测帧求和得到最后的重建帧。

在视频编码的具体过程中，首先，将带有语义信息的帧序列输入到视频压缩网络中，针对前景和背景采用不同的压缩率进行编码，基于重要性映射的端到端视频编码网络包括光流估计、运动编码、运动补偿、残差编码、比特估计等模块，首先将当前帧和重建的参考帧输入到光流估计子网络中提取运动信息，随后将运动信息输入到运动编码子网络中提取高维特征并进行量化编码，随后将重构的输入到运动解码子网络重构为运动信息，与重建的参考帧共同输入到运动补偿子网络中生成初步预测帧，当前帧和预测帧的残差将进入残差编解码器中压缩并重构为残差，重构的残差和初步预测帧相加得到最后的重构帧。

参考图2，在步骤(1)中，提出了一个基于长短期注意力的语义分割网络，首先通过编码器提取视频帧序列中的特征，然后利用长短期transformer学习和传递特征给下一个单元，最后通过解码器输出语义分割帧序列。

参考图3，在步骤(2)中，提出了基于重要性图的运动编码网络，该网络包括编码器、解码器和重要性映射子网络。编码器首先对输入的运动信息压缩、量化，得到一个初步的量化码流。重要性映射子网络从运动信息中学习一个重要性图，生成重要性mask，利用重要性mask对初步量化码流修剪生成最终的量化码流，随后解码器对量化码流解码，重建运动信息。

在步骤(3)中，提出了运动补偿网络，利用重构的运动信息将参考帧扭曲为一个扭曲帧，接下来利用卷积神经网络消除扭曲帧中的空间不连续现象，得到初步的预测帧。

下面用对比试验的结果对本发明进行说明：

训练与测试过程：

实验采用了一块NVIDIARTX3090GPU在Pytorch框架的支持下来执行模型的训练和测试工作。本方法学习率初始为0.0001，后续稳定后除以10，本方法采用率失真损失函数作为网络框架的损失函数。在maadaa.ai数据集上训练到30万次，获得最佳的检测精度。

参考图4，展示了在maadaa.ai数据集上多个算法的在关键目标上的性能结果，为了更好的评估本发明提出的基于关键目标的深度视频压缩方法，设置了两组不同评价指标的实验，分别是PSNR-bpp性能曲线和PSNR-MS-SSIM性能曲线。在第一组PSNR-bpp性能实验中，本发明提出的方法在bpp大于0.10时比表现最好的算法PSNR高0.3dB，小于0.10时也有一定优势。在第二组PSNR-MS-SSIM的实验中，本发明提出的方案相比于其他方法中表现最好的取得了0.002的平均优势。

参考图5，展示了在maadaa.ai数据集上多个算法的在整体上的性能结果，可以看出，在整体(前景+背景)的测试结果上，本章采用的算法在低比特率的情况下PSNR和MS-SSIM两个指标的优势都非常明显，因为前景与背景采用了不同压缩率，在降低整体比特率的基础上还保证了关键目标的高压缩质量。随着比特率的增大，PSNR和MS-SSIM两个指标的优势变小，因为只有关键目标在提高压缩质量，背景依旧采用比较低的压缩质量，虽然这样能够节省码率，但低质量背景依旧影响了整体的PSNR和MS-SSIM指标。

以上实施方式仅用于说明本发明专利，而并非对本发明专利的限制，有关技术领域的普通技术人员，在不脱离本发明专利的实质和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明专利的范畴，本发明专利的专利保护范围应由权利要求限定。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于关键目标的深度视频压缩方法，其特征在于，包括下述步骤：

输入被压缩对象到语义分割网络；

语义分割网络进行前景分割；

语义分割网络输出与输入对应的前景分割图；

将所述前景分割图和参考帧输入到编码网络；

提取当前帧和参考帧的运动信息；

对所述运动信息压缩编码；

将重构的运动信息和参考帧输入到运动补偿模块；

运动补偿模块输出初步预测帧；

计算所述初步预测帧与输入帧之间的残差；

将所述残差输入到压缩网络中；

所述压缩网络对残差进行压缩与编码；

将重构的残差与所述初步预测帧相加，得到最后的重建帧；

所述编码网络为基于重要性图的运动编码网络，具体工作步骤为：

解码器对量化码流解码，重建运动信息。

2.根据权利要求1所述的一种基于关键目标的深度视频压缩方法，其特征在于，所述语义分割网络为一个基于长短期注意力的语义分割网络；

其具体工作步骤为：

通过编码器提取视频帧序列中的特征；

通过解码器输出语义分割帧序列。

3.根据权利要求1所述的一种基于关键目标的深度视频压缩方法，其特征在于，所述运动补偿模块利用重构的运动信息将参考帧扭曲为一个扭曲帧，利用卷积神经网络消除扭曲帧中的空间不连续现象，得到初步的预测帧。

4.一种基于关键目标的深度视频压缩设备，其特征在于，包括：语义分割模块、编码网络、运动补偿模块、第一运算模块、压缩网络、第二运算模块；

所述运动补偿模块用于输出初步预测帧；

所述压缩网络用于对残差进行压缩与编码；

所述第二运算模块用于重构的残差与所述初步预测帧相加，得到最后的重建帧；

所述编码网络包括编码器、解码器和重要性映射子网络；

所述编码器用于对输入的运动信息压缩、量化；

所述解码器对量化码流解码，重建运动信息。

5.根据权利要求4所述的一种基于关键目标的深度视频压缩设备，其特征在于，所述语义分割模块包括编码器、解码器；

所述编码器用于提取视频帧序列中的特征，

所述解码器用于输出语义分割帧序列。

6.根据权利要求4所述的一种基于关键目标的深度视频压缩设备，其特征在于，

所述运动补偿模块利用重构的运动信息将参考帧扭曲为一个扭曲帧，利用卷积神经网络消除扭曲帧中的空间不连续现象，得到初步的预测帧。