CN112637604B

CN112637604B - 低时延视频压缩方法及装置

Info

Publication number: CN112637604B
Application number: CN202011489876.9A
Authority: CN
Inventors: 王妙辉; 郑彬
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-08-16
Anticipated expiration: 2040-12-15
Also published as: CN112637604A

Abstract

本发明提供了一种低时延视频压缩方法及装置，所述方法包括，对第一帧图像及第二帧图像进行边缘增强，所述第一帧图像为第二帧图像的上一帧；以第一帧图像作为参考图像，计算第一帧图像与第二帧图像间的低分辨率光流；根据低分辨率光流，计算出预测帧图像；根据预测帧图像，计算出压缩残差图像，并将低分辨率光流和压缩残差进行熵编码得到码流；循环执行上述步骤直至视频压缩完成。本发明的有益效果在于：能够有效地在低延时场景下进行视频压缩，并提升视频压缩效率。

Description

低时延视频压缩方法及装置

技术领域

本发明涉及一种视频压缩方法及装置，尤其是指一种低时延视频压缩方法及装置。

背景技术

视频压缩的目的是去除视频中的冗余，节省存储和传输的成本。视频压缩技术主要是通过去除视频中的空间冗余、时间冗余以及编码冗余来实现的。通过视频压缩技术，可以在编码端花费尽可能少的比特数的情况下在解码端恢复出尽可能高质量的视频。也就是说，如何在尽可能不降低视频质量的情况下，用更少的比特数编码视频，是视频压缩技术的关键。

根据应用场景的不同，视频压缩技术可以分别通过利用先前帧图像或者前后帧图像作为参考来压缩当前帧图像。针对于低延时场景，视频压缩技术仅使用先前帧图像来压缩当前帧图像。由于常见的应用场景多为低延时场景，低延时的视频压缩技术相对来讲具有更高的应用价值和研究价值。

在现有的低延时视频压缩技术中，主要通过编码运动信息和残差信息来去除视频中的冗余，而运动信息通常用帧图像间的全分辨率光流来表示。但是，由于帧图像间的运动具有很强的相关性，编码全分辨率光流对于视频压缩来讲是不必要的，它消耗了大量的时间和更多的计算资源。另外，传统的视频压缩技术主要通过一些设计巧妙的模块如离散余弦变换等来完成。但是，它无法端到端地优化整个压缩系统，这限制了其性能的进一步提升。

发明内容

本发明所要解决的技术问题是：提供一种低时延视频压缩方法及装置，旨在提高在低延时场景的视频压缩效率。

为了解决上述技术问题，本发明采用的技术方案为：一种低时延视频压缩方法，包括以下步骤，

S10、对第一帧图像及第二帧图像进行边缘增强，所述第一帧图像为第二帧图像的上一帧；

S20、以第一帧图像作为参考图像，计算第一帧图像与第二帧图像间的低分辨率光流；

步骤S20具体包括：

S21、对第一帧图像及第二帧图像进行降采样，得到第一帧图像及第二帧图像的低分辨率图像；

S22、通过估计模块对原始分辨率的图像和低分辨率图像进一步计算，得到多尺度光流；

S23、将多尺度光流和经边缘增强的第一帧图像及第二帧图像共同输入细化模块，得到低分辨率光流；

S30、根据低分辨率光流，计算出预测帧图像；

步骤S30具体包括，

S31、将低分辨率光流输入到运动编码器网络中压缩，得到压缩光流；

S32、将压缩光流进行量化后输入到运动解码器网络中重建，得到低分辨率的重建光流；

S33、将低分辨率的重建光流进行上采样，得到全分辨率的重建光流；

S34、利用全分辨率的重建光流对参考图像进行图像扭曲；

S35、将全分辨率的重建光流及经扭曲的参考图像输入运动补偿网络，获得预测帧图像；

S40、根据预测帧图像，计算出压缩图像；

步骤S40具体包括，

S41、将第二帧图像与预测帧图像相减，得到残差图像；

S42、将残差图像输入到残差编码器网络中压缩，得到压缩残差图像；

S43、将压缩残差图像进行量化后输入到残差解码器网络中重建，得到重建残差图像；

S44、以第一帧图像作为参考图像，将重建残差图像与参考图像相加，得到重建图像；

S45、将量化后的压缩光流和压缩残差图像进行熵编码得到码流，完成对第二帧图像的压缩；

S50、重复步骤S10到S40，直至整个视频压缩完成。

进一步的，步骤S10具体包括，

S11、使用边缘检测算法提取第一帧图像及第二帧图像的图像边缘；

S12、分别对第一帧图像及第二帧图像的图像边缘的每个像素点进行计算，得到第一帧图像及第二帧图像的边缘增强系数；

S13、分别以第一帧图像及第二帧图像的每个像素点为中心，利用滑动窗口计算相应的低频成分，再分别结合边缘增强系数，得到边缘增强的第一帧图像及第二帧图像；

进一步的，步骤S11具体包括，

S101、根据输入的第二帧图像，从帧图像缓冲区中提取出第二帧图像的上一帧图像，也即第一帧图像；

S102、使用边缘检测算法分别计算第一帧图像及第二帧图像的梯度值；

S103、根据梯度值进一步用预设定的阈值判断每个像素点是否属于边缘，得到第一帧图像及第二帧图像的图像边缘。

进一步的，步骤S102-S103采用的算法公式为：

其中，E_t为提取的图像边缘，X_t为原始的帧图像，H×W为图像大小，n为卷积时滑动窗口的大小，一般取n＝3，G_x和G_y分别代表用于在水平方向和垂直方向上检测梯度的滤波器，TS为设定的阈值，一般取TS＝100。

进一步的，步骤S12采用的算法公式为：

其中，En_t为边缘增强系数，E_t为提取的图像边缘，σ为标准差，ε为微小的扰动项，mean(·)表示取平均值，norm(·)表示归一化。

进一步的，步骤S13中采用的算法公式为：

其中，

代表增强后的帧图像，En_t为提取的图像边缘，X_t代表原始的帧图像，n为滑动窗口大小，一般取n＝3，norm(·)表示归一化。

进一步的，步骤S22-S23所采用的算法公式为：

其中，EST表示估计模块，REF表示细化模块，

表示估计得到的多尺度光流，

表示低分辨率光流，X_t表示第二帧图像，

知

表示经边缘增强后得到的第二帧图像及第一帧图像，k表示降采样的倍数，Downsample(·)表示降采样，Upsample(·)表示升采样。

进一步的，步骤S34采用的算法公式为：

其中，

为利用全分辨率重建光流

扭曲参考图像

得到的值。

进一步的，步骤S35采用的算法公式为：

其中，MCNet为运动补偿网络，

为预测图像，

为全分辨率重建光流。

本发明还提供了一种低时延视频压缩装置，包括，

边缘增强模块，用于对第一帧图像及第二帧图像进行边缘增强，所述第一帧图像为第二帧图像的上一帧；

低分辨率光流计算模块，用于以第一帧图像作为参考图像，计算第一帧图像与第二帧图像间的低分辨率光流；

低分辨率光流计算模块具体用于，

对第一帧图像及第二帧图像进行降采样，得到第一帧图像及第二帧图像的低分辨率图像；

通过估计模块对原始分辨率的图像和低分辨率图像进一步计算，得到多尺度光流；

将多尺度光流和经边缘增强的第一帧图像及第二帧图像共同输入细化模块，得到低分辨率光流；

预测帧图像计算模块，用于根据低分辨率光流，计算出预测帧图像；

预测帧图像计算模块具体用于，

将低分辨率光流输入到运动编码器网络中压缩，得到压缩光流；

将压缩光流进行量化后输入到运动解码器网络中重建，得到低分辨率的重建光流；

将低分辨率的重建光流进行上采样，得到全分辨率的重建光流；

利用全分辨率的重建光流对参考图像进行图像扭曲；

将全分辨率的重建光流及经扭曲的参考图像输入运动补偿网络，获得预测帧图像；

压缩图像计算模块，用于根据预测帧图像，计算出压缩图像；

压缩图像计算模块具体用于，

将第二帧图像与预测帧图像相减，得到残差图像；

将残差图像输入到残差编码器网络中压缩，得到压缩残差图像；

将压缩残差图像进行量化后输入到残差解码器网络中重建，得到重建残差图像；

以第一帧图像作为参考图像，将重建残差图像与参考图像相加，得到重建图像；

将量化后的压缩光流和压缩残差图像进行熵编码得到码流，完成对第二帧图像的压缩；

循环执行模块，用于重复上述图像压缩过程，直至整个视频压缩完成。

本发明的有益效果在于：通过对图像的边缘信息进行增强，以促进后续的光流估计，提升压缩效率。在压缩视频的过程中，通过光流估计网络来有效地获取低分辨率光流，能够节省编码光流时消耗的比特数。其次，通过运动补偿网络，能够利用重建光流从参考图像中精确地预测当前帧，以提升重建视频的质量。因此，本发明能够有效地在低延时场景下进行视频压缩，并提升视频压缩效率。

附图说明

下面结合附图详述本发明的具体结构。

图1为本发明实施例的低时延视频压缩方法流程图；

图2为本发明实施例的低时延视频压缩装置框图；

图3为本发明实施例的计算机设备的示意性框图；

图4为本发明实施例的光流估计网络结构图；

图5为本发明实施例的运动补偿网络MCNet中结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明第一实施例为：一种低时延视频压缩方法，包括以下步骤，

步骤S20具体包括：

S22、通过EST估计模块对原始分辨率的图像和低分辨率图像进一步计算，得到多尺度光流；

S23、将多尺度光流和经边缘增强的第一帧图像及第二帧图像共同输入REF细化模块，得到低分辨率光流；

如图4为光流估计网络结构图。其中Conv表示卷积层，其参数c表示滤波器数目，k表示卷积核大小，s表示卷积步长，n代表零填充的数目。Dilated Conv表示膨胀卷积层，其参数r表示膨胀率，其余参数与上述卷积层相同。Maxpool表示最大池化层，其参数表示过滤器大小。Downsample表示下采样操作，Upsample表示上采样操作，Concat表示拼接合并操作。EST表示估计模块，REF表示细化模块。

S30、根据低分辨率光流，计算出预测帧图像；

步骤S30具体包括，

S34、利用全分辨率的重建光流对参考图像进行图像扭曲；

如图5为运动补偿网络MCNet中结构图。其中Conv表示卷积层，其参数c表示滤波器数目，k表示卷积核大小，s表示卷积步长，n代表零填充的数目。Downsample表示下采样操作，Upsample表示上采样操作，Concat表示拼接合并操作。

S40、根据预测帧图像，计算出压缩图像；

步骤S40具体包括，

S41、将第二帧图像与预测帧图像相减，得到残差图像；

S50、重复步骤S10到S40，直至整个视频压缩完成。

进一步的，步骤S10具体包括，

进一步的，步骤S11具体包括，

进一步的，步骤S102-S103采用的算法公式为：

进一步的，步骤S12采用的算法公式为：

其中，En_t为边缘增强系数，σ为标准差，ε为微小的扰动项，mean(·)表示取平均值，norm(·)表示归一化。

进一步的，步骤S13中采用的算法公式为：

其中，

进一步的，步骤S22-S23所采用的算法公式为：

其中，EST表示估计模块，REF表示细化模块，

表示估计得到的多尺度光流，

表示低分辨率光流，X_t表示第二帧图像，

知

进一步的，步骤S34采用的算法公式为：

其中，

为利用全分辨率重建光流

扭曲参考图像

得到的值。

进一步的，步骤S35采用的算法公式为：

其中，MCNet为运动补偿网络，

为预测图像，

为全分辨率重建光流。

上述实施例通过对图像的边缘信息进行增强，以促进后续的光流估计，提升压缩效率。在压缩视频的过程中，通过光流估计网络来有效地获取低分辨率光流，能够节省编码光流时消耗的比特数。其次，通过运动补偿网络，能够利用重建光流从参考图像中精确地预测当前帧，以提升重建视频的质量。因此，本发明能够有效地在低延时场景下进行视频压缩，并提升视频压缩效率。

上述实施例中，可以通过对整个网络框架进行训练形成视频压缩网络模型。通过选取合适的视频序列作为数据集，对整个网络框架进行端到端地训练。本发明利用优化算法训练网络模型，它基于训练数据迭代地更新神经网络的权重。在训练的过程中，先设置较大的学习率训练网络直至损失函数的值平稳，再调整为较小的学习率训练网络直至损失函数值收敛，最终得到视频压缩网络模型。具体的算法过程如下：

步骤51、输入数据集，对视频序列进行数据增强，初始化整个网络框架的权重。网络的输入值与标签值都是相同的视频序列。

步骤52、数据集分批次地输入到网络中，经其压缩后再重建得到相应的输出，根据输出值与标签值计算损失函数，再通过反向传播更新网络框架中的权重。

步骤53、迭代更新网络框架的权重，直至损失函数值收敛，网络训练完成。在编码端，视频输入到网络中即可压缩得到相应的码流。在解码端，将码流输入到网络中即可重建视频。

如图2所示，本发明的第二实施例为一种低时延视频压缩装置，包括，

边缘增强模块10，用于对第一帧图像及第二帧图像进行边缘增强，所述第一帧图像为第二帧图像的上一帧；

低分辨率光流计算模块20，用于以第一帧图像作为参考图像，计算第一帧图像与第二帧图像间的低分辨率光流；

低分辨率光流计算模块20具体用于，

通过EST估计模块对原始分辨率的图像和低分辨率图像进一步计算，得到多尺度光流；

将多尺度光流和经边缘增强的第一帧图像及第二帧图像共同输入REF细化模块，得到低分辨率光流；

预测帧图像计算模块30，用于根据低分辨率光流，计算出预测帧图像；

预测帧图像计算模块30具体用于，

利用全分辨率的重建光流对参考图像进行图像扭曲；

压缩图像计算模块40，用于根据预测帧图像，计算出压缩图像；

压缩图像计算模块40具体用于，

将第二帧图像与预测帧图像相减，得到残差图像；

循环执行模块50，用于重复上述图像压缩过程，直至整个视频压缩完成。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述低时延视频压缩装置的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述低时延视频压缩装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图3，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种低时延视频压缩方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种低时延视频压缩方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如上所述的低时延视频压缩方法。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上所述的低时延视频压缩方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种低时延视频压缩方法，其特征在于：包括以下步骤，

S10、对第一帧图像及第二帧图像进行边缘增强，所述第一帧图像为第二帧图像的上一帧，所述第一帧图像是压缩后的重建图像；

步骤S20具体包括：

S30、根据低分辨率光流，计算出预测帧图像；

步骤S30具体包括，

S34、利用全分辨率的重建光流对参考图像进行图像扭曲；

S40、根据预测帧图像，计算出压缩图像；

步骤S40具体包括，

S41、将第二帧图像与预测帧图像相减，得到残差图像；

S50、重复步骤S10到S40，直至整个视频压缩完成。

2.如权利要求1所述的低时延视频压缩方法，其特征在于：步骤S10具体包括，

S13、分别以第一帧图像及第二帧图像的每个像素点为中心，利用滑动窗口计算相应的低频成分，再分别结合边缘增强系数，得到边缘增强的第一帧图像及第二帧图像。

3.如权利要求2所述的低时延视频压缩方法，其特征在于：步骤S11具体包括，

4.如权利要求3所述的低时延视频压缩方法，其特征在于：步骤S102-S103采用的算法公式为：

其中，i,j分别表示图像像素在x轴方向和y轴方向上的位置索引，E_t(i,j)表示从t时刻视频帧所提取的位于位置(i,j)上的图像边缘像素值，X_t(i,j)表示t时刻视频帧中位于位置(i,j)上的图像像素值，X_t(k,l)表示t时刻视频帧中位于位置(k,l)上的图像像素值，其中(k,l)是区分于(i,j)的另一位置索引,H×W为图像大小,n为卷积时滑动窗口的大小，取n＝3,G_x和G_y分别代表用于在水平方向和垂直方向上检测梯度的滤波器，(G_x*X_t)(i,j)和(G_y*X_t)(i,j)分别表示t时刻的视频帧X_t经过滤波器G_x和G_y滤波后位于位置(i,j)上的图像像素值，TS为设定的阈值，取TS＝100。

5.如权利要求4所述的低时延视频压缩方法，其特征在于：步骤S12采用的算法公式为：

其中，En_t(i,j)表示对应于t时刻视频帧，位于位置(i,j)上的边缘增强系数，E_t(i,j)和E_t(k,l)分别表示从t时刻视频帧所提取的位于位置(i,j)和(k,l)上的图像边缘像素值，其中(k,l)是区分于(i,j)的另一位置索引，H×W为图像大小，σ为标准差，ε为微小的扰动项，mean(·)表示取平均值,E_t表示所有的图像像素点，norm(·)表示归一化。

6.如权利要求5所述的低时延视频压缩方法，其特征在于：步骤S13中采用的算法公式为：

其中，

表示t时刻视频帧经过边缘增强后，位于位置(i,j)上的图像像素值，En_t(i,j)表示对应于t时刻视频帧，位于位置(i,j)上的边缘增强系数，X_t(i,j)和X_t(k,l)分别表示t时刻视频帧中位于位置(i,j)和(k,l)上的图像像素值，其中(k,l)是区分于(i,j)的另一位置索引，n为滑动窗口大小，取n＝3，norm(·)表示归一化。

7.如权利要求6所述的低时延视频压缩方法，其特征在于：步骤S22-S23所采用的算法公式为: