CN112203093A

CN112203093A - 一种基于深度神经网络的信号处理方法

Info

Publication number: CN112203093A
Application number: CN202011082797.6A
Authority: CN
Inventors: 侯兴松; 李瑞敏
Original assignee: Suzhou Tianbiyou Technology Co ltd
Current assignee: Suzhou Tianbiyou Technology Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-08
Anticipated expiration: 2040-10-12
Also published as: CN112203093B

Abstract

本发明公开了一种基于深度神经网络的信号处理方法，首先根据当前帧与前一帧均方差的阈值将视频帧分为关键帧和非关键帧，再分别对应为其训练网络模型进行压缩；对于非关键帧，采用了基于上下文与超先验的熵模型自编码器进行帧内预测；对于非关键帧，提取光流信息和深度信息结合生成运动信息，从而进行帧重构，再对重构帧与真实帧之间的残差进行提取编码，最终在解码端根据传输的运动信息和残差信息结合前一帧来生成当前帧。本发明充分利用了深度神经网络强大的非线性表达能力和联合训练的优势，是一个压缩效果超越h.264的端到端视频压缩方法。

Description

一种基于深度神经网络的信号处理方法

技术领域

本发明涉及涉及视频压缩领域，具体涉及一种结合光流信息与深度信息进行帧预测的视频压缩方法。

背景技术

图像/视频编码通常是指将图像/视频压缩成二进制代码以便于存储和传输的计算技术。压缩根据能否保证图像/视频从比特完美地重建分为无损编码和有损编码。对于自然图像/视频，无损编码的压缩效率通常低于要求，因此大部分工作都集中在有损编码上。有损图像/视频编码解决方案主要从两个方面进行评估：一是压缩效率，通常用比特数(编码速率)来衡量，越低越好；其次是产生的损失，通常用重构图像/视频的质量来衡量，与原始图像/视频相比，质量越高越好。

图像/视频编码是计算机图像处理、计算机视觉和视觉通信的基础和实现技术。在过去的三十年中，已经制定了一系列关于图像/视频编码的标准。如JPEG、JPEG 2000、H.264，H.265，等等。目前,H.265/HEVC于2013年正式出版，代表了最先进的图像/视频编码技术。

目前，视频已经占据了互联网接近80%的流量，而这数字预计仍会继续上升。另一方面，随着视频技术的进步，特别是超高清视频的普及，也迫切需要进一步提高压缩效率，在有限的存储和有限的传输带宽下适应超高清视频。因此，HEVC、MPEG和VCEG组成联合视频专家团队(Joint Video Experts Team, JVET)，探索先进的视频编码技术，并开发联合探索模型(Joint Exploration Model, JEM)进行研究。此外，自2018年以来，JVET团队一直致力于开发一种新的视频编码标准，非正式地称为通用视频编码(VVC)，作为HEVC的继承者。预计VVC在保持相同质量的同时，相比HEVC可节省约50%的比特，从而提高压缩效率，尤其是对于高清视频而言。尽管如此，值得注意的是，VVC的改进可能是以乘性编码/解码复杂度为代价实现的。

近年来，深度神经网络在图像处理领域取得了很大的进展，在视频处理如视频检测、视频超分辨、视频去噪等方面也有了一定的发展。深度神经网络因其强大的线性表达能力和联合训练的优势，在图像/视频领域表现出了强大的潜力。但深度神经网络在视频压缩方面的发展还处于起步阶段，也因此，拥有广泛的前景和可能。

目前，深度学习在视频压缩领域的应用主要分为两大类，其一是作为深度学习工具应用于传统视频编码器，至今已有很多工作证明将传统编码模块与深度学习结合是非常有效的，这些模块包括且不限于运动补偿和插帧网络，帧内预测编码模块，比特率控制模块和后处理模块；其二是以深度神经网络为视频编码核心的端到端深度视频压缩框架。由于目前深度视频压缩是一个新兴的研究题目，因此至今为止所提出的端到端深度视频压缩内容并不多。

发明内容

本发明的目的在于提供一种基于深度神经网络的信号处理方法（视频压缩方法），利用神经网络强大的非线性表达能力和联合训练的优势，构建一个端到端的视频压缩框架，包括如下步骤：

S1，收集和整理公开的高清视频数据集，构建神经网络训练集和测试集；

S2，对于待压缩视频，计算前后两帧间的均方差，并根据阈值将帧分为关键帧和非关键帧；

对于关键帧，采用帧内预测，即图像压缩的方式；

对于非关键帧，则采用帧间预测；

S3，构建和训练两个网络模型分别用于关键帧和非关键帧的压缩；

对于关键帧：构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输；构建自编码器输入端对帧进行特征提取编码传输到输出端，在输出端根据提取的信息解码恢复图像；构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率；

对于非关键帧：构建光流网络和深度网络进行帧间预测，估计前一帧与当前帧之间的运动信息，并通过将前一帧像素搬移得到当前帧，并计算其与真实的当前帧之间的残差；本步骤中的光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计；

S4，对于步骤S3中的网络，分别采用率失真优化的训练策略进行端到端的联合训练，采用率即编码特征图所需的比特率，失真即重建帧与真实的当前帧之间的均方差。

优选的，步骤S1中，训练集采用viemo90K。

优选的，步骤S1中，测试集采用HEVC标准测试序列：Class A、Class B、Class C、Class D和Class E。

优选的，步骤S3中，光流网络采用SpyNet；SpyNet将经典光流估计中的空间分层手段与深度神经网络相结合，以一种从粗糙到精细的方式实现光流估计。

优选的，步骤S3中，深度网络采用MegaDepth；采用Internet SFM+MVS数据来解决单点深度估计问题；首先，采用在深度估计上更稳定的基于COLMAP的改善的MVS算法，然后，采用语意分割的方法强化和过滤（实体感知过滤器）深度映射，并且产生额外的相对深度数据。

优选的，步骤S3中，编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建，包含自编码器网络、上下文与超先验网络、熵估计网络。

优选的，步骤S3中，对于关键帧：首先，待压缩帧，例如

的RGB图像，输入到自编码器编码端，经过卷积神经网络四层下采样，变成

的192通道特征图，量化后分别输入到上下文和超先验网络，输出记为c1、c2，c1、c2 在通道数上连接之后输入到熵估计网络；熵估计网络的输出分为两部分，分别作为自编码器输出的192个通道的特征图的μ和σ，即192个μ和192个σ，通过高斯误差函数erf进行概率估计，在训练和测试时估计编码特征图所需的码流；在输出端，解码器将来自编码端的数据进行解码，重建当前帧。

优选的，步骤S3中，对于非关键帧：将前一帧和当前帧输入到光流网络获取光流信息，将当前帧输入到深度网络中获取深度信息，将光流信息与深度信息结合，融合前一帧得到当前帧，并计算其与真实的当前帧之间的残差；残差输入到自编码器网络中进行传输；在解码端，根据传输的残差信息、光流与深度信息，将重建的前一帧与光流与深度信息融合，并与残差信息相加，得到重建的当前帧。

优选的，步骤S4中，通过

用优化器Adam对网络模型进行训练；在训练中，可以通过改变λ的值来训练出具有不同压缩比的网络模型；λ越大，则训练出的网络失真越小，但比特率会相应增加；对于帧内预测：D为帧重建前后的失真，R为编码特征图和超先验特征的比特率；对于帧间预测：D为重建帧与真实的当前帧之间的失真，R包括两部分，一部分是编码光流和深度信息所用的比特率，一部分是编码残差所需的比特率。

本发明构建一个基于深度神经网络的端到端视频压缩框架，并利用光流信息和深度信息进行帧预测，以解决运动信息较复杂时压缩性能大幅下降的问题，同时实现视频压缩各模块的联合训练，达到整体的最优效果。

与现有技术相比，本发明具有以下有益的技术效果：

本发明将视频压缩分为关键帧和非关键帧的压缩，并由计算前后两帧的均方差，与设定阈值相比较来确定时关键帧和非关键帧；对于关键帧采用帧内预测方式，执行图像压缩的方案，对于非关键帧则采用帧间预测。

进一步地，对于帧间预测，本发明提出了光流信息与深度信息结合进行运动估计和帧重建的方案；此方案将光流信息与深度信息结合，通过与前一阵进行反向warp，可以解决重建帧时遮挡区域出现空洞或前后景信息错乱的问题。

在整体网络结构上，本发明对应于传统的视频压缩方法HEVC，将其每个模块都用对应的神经网络结构来代替，最后通过整体的率失真优化来实现压缩框架联合训练的目的，从而达到整体的最优效果。

附图说明

图1是本发明的总流程图；

图2是帧内预测网络框架图；

图3是帧间预测网络框架图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1至图3所示，本发明具体实施的技术方案如下：

1.搭建开发环境python3.6+Pytorch1.4+cuda9.0+cudnn7.0。

2.下载并预处理训练数据集；训练集采用viemo90K，该数据集数据量达80G，由从vimeo.com下载的89800个视频剪辑组成，涵盖了大量的场景和动作；主要用于以下四个视频处理任务：时间帧插值、视频去噪、视频去块和视频超分辨。

3.建立视频压缩项目，分别搭建帧内预测（图像压缩）网络和帧间预测网络。

4.帧内预测网络包括：自编码器网络，包含上下文与超先验熵估计网络。

编码端的最后一层是基础自编码器的瓶颈，它的输出通道数决定了需要被压缩和存储的元素个数，通道数过少会影响压缩表现。

解码端的最后一层必须是三通道（来生成RGB图像）。

熵参数网络的最后一层必须是瓶颈的两倍，因为熵参数网络对每个潜在表征预测两个值：μ和σ。

上下文模型和超网络的输出通道数没有严格的限制，在本网络中统一设置为瓶颈层的2倍。

4.1）自编码器在输入端由四层下采样卷积层构成，每层192个卷积核，卷积核尺寸为5×5，步长为2，前三层采用GDN替代传统激活函数；相应的，输出端为四层上采样网络层，利用步长为2的反卷积实现，采用IGDN作为非线性表达。

4.2）上下文利用掩膜卷积实现；卷积核384个，尺寸5×5，步长为1。

4.3）超先验的编码器由三层卷积层构建，每层卷积核192个，尺寸为3×3，第一层步长为1，激活函数为LeakyRelu，第二层步长为2，激活函数为LeakyRelu，第三层步长为2，无激活函数；解码器由三层反卷积层构成，卷积核尺寸为3×3，第一层卷积核192个，步长为2，激活函数为LeakyRelu，第二层卷积核为288个，步长为2，激活函数为LeakyRelu，第三层卷积核384个，步长为1，无激活函数。

4.4）熵估计网络：熵估计网络由三层卷积层构成；每层卷积核大小为1X1，步长为1；通道数（卷积核数）分别为640、512、384；前两层应用LeakyRelu作为激活函数。

5.帧内预测网络的训练：

如图1所示，原始图像记为

，经在特征空间映射为Y，量化为

，

经解码器恢复成重建的图像

；另一方面，

输入到基于上下文与超先验的熵估计网络，输出为μ和σ；由μ和σ求出

，再由

计算损失；

+

+λ

优化器使用Adam，batchsize为8，初始学习率为0.0001，迭代至180K次后降为0.00001,最终迭代300K次训练结束。

6.帧间预测网络结构如图3，包括：

6.1）光流网络采用SpyNet；SpyNet将经典光流估计中的空间分层手段与深度神经网络相结合，以一种从粗糙到精细的方式实现光流估计；

6.2) 深度网络采用MegaDepth；采用Internet SFM+MVS数据来解决单点深度估计问题；首先，采用在深度估计上更稳定的基于COLMAP的改善的MVS算法；然后，采用语意分割的方法强化和过滤（实体感知过滤器）深度映射，并且产生额外的相对深度数据；

6.3）编码光流和残差的自编码器都分别应用与步骤S3中自编码器相同的网络结构来构建，即包含自编码器网络、上下文与超先验网络、熵估计网络。

7.帧间预测网络的训练：

如图3所示，将重建的前一帧

和当前帧

输入到光流网络获取光流信息，将当前帧

输入到深度网络中获取深度信息，将光流信息与深度信息输入到运动信息编码器，经编码量化解码的运动信息

与前一帧得到粗重建帧

，计算

与真实的当前帧

之间的残差

。残差输入到自编码器网络中进行传输。在解码端，根据传输的残差信息、光流与深度信息，将重建的前一帧与光流与深度信息融合，并与残差信息相加，得到重建的当前帧

。损失函数为：

其中

=

8.在测试集HEVC测试序列上对模型进行评估。

8.1）对比传统视频压缩算法h.264和HEVC。

8.2）评估指标为MS-SSIM和PSNR。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的信号处理方法，其特征在于，利用神经网络的非线性表达能力和联合训练，构建一个端到端的视频压缩框架，包括如下步骤：

对于关键帧，采用帧内预测；

对于非关键帧，则采用帧间预测；

对于非关键帧：构建光流网络和深度网络进行帧间预测，估计前一帧与当前帧之间的运动信息，并通过将前一帧像素搬移得到当前帧，并计算其与真实的当前帧之间的残差；光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计；

2.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S1中，训练集采用viemo90K。

3.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S1中，测试集采用HEVC标准测试序列：Class A、Class B、Class C、Class D和Class E。

4.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S3中，光流网络采用SpyNet。

5.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S3中，深度网络采用MegaDepth；采用Internet SFM+MVS数据来解决单点深度估计问题；首先，采用基于COLMAP的改善的MVS算法，然后，采用语意分割的方法强化和过滤深度映射，并且产生额外的相对深度数据。

6.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S3中，编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建，包含自编码器网络、上下文与超先验网络、熵估计网络。

7.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S3中，对于关键帧：首先，待压缩帧输入到自编码器编码端，经过卷积神经网络四层下采样，变成192通道特征图，量化后分别输入到上下文和超先验网络，输出记为c1、c2，c1、c2 在通道数上连接之后输入到熵估计网络；熵估计网络的输出分为两部分，分别作为自编码器输出的192个通道的特征图的μ和σ，即192个μ和192个σ，通过高斯误差函数erf进行概率估计，在训练和测试时估计编码特征图所需的码流；在输出端，解码器将来自编码端的数据进行解码，重建当前帧。

8.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S3中，对于非关键帧：将前一帧和当前帧输入到光流网络获取光流信息，将当前帧输入到深度网络中获取深度信息，将光流信息与深度信息结合，融合前一帧得到当前帧，并计算其与真实的当前帧之间的残差；残差输入到自编码器网络中进行传输；在解码端，根据传输的残差信息、光流与深度信息，将重建的前一帧与光流与深度信息融合，并与残差信息相加，得到重建的当前帧。

9.根据权利要求1所述的基于深度神经网络的信号处理方法，其特征在于，步骤S4中，通过

用优化器Adam对网络模型进行训练；在训练中，通过改变λ的值来训练出具有不同压缩比的网络模型；λ越大，则训练出的网络失真越小，但比特率会相应增加；对于帧内预测：D为帧重建前后的失真，R为编码特征图和超先验特征的比特率；对于帧间预测：D为重建帧与真实的当前帧之间的失真，R包括两部分，一部分是编码光流和深度信息所用的比特率，一部分是编码残差所需的比特率。