CN111901595B

CN111901595B - 一种基于深度神经网络的视频编码方法及装置、介质

Info

Publication number: CN111901595B
Application number: CN202010603341.3A
Authority: CN
Inventors: 马思伟; 王苏红; 张新峰; 王苫社; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2021-07-20
Anticipated expiration: 2040-06-29
Also published as: CN111901595A

Abstract

本发明公开了一种基于深度神经网络的视频编码方法及装置、介质，该编码方法包括：对待编码帧序列中的第一设定帧图像进行编码，以得到初始编码结果；对待编码帧序列进行像素级分割，以得到分割掩膜序列；根据分割掩膜序列对第二设定帧图像进行编码，以得到图像重构结果；再利用图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；可通过图像分割方式将像素级的视频帧与初始编码结果进行像素级图像融合。该编码装置包括初始编码模块、分割网络模块、结果重构模块、生成网络模块及图像融合模块。区别于主流的基于块的混合视频编码框架，本发明基于像素级别图像的分析与合成，能够显著提高对视频中非刚性运动内容的重构质量。

Description

一种基于深度神经网络的视频编码方法及装置、介质

技术领域

本发明涉及视频编码技术领域，更为具体来说，本发明涉及一种基于深度神经网络的视频编码方法及装置、介质。

背景技术

对于主流视频编码框架来说，预测模块是非常重要的组成部分。其中帧间预测是指利用视频时间域的相关性，使用邻近已编码图像的像素预测当前图像的像素，以达到有效去除视频时域冗余的目的。目前主要的视频编码标准帧间预测部分都采用了基于块的运动补偿技术。对于一帧图像，先分成等大的编码区域(Coding Tree Unit,CTU)，例如，64x64、128x128大小。对于每个编码区域(CTU)，可以进一步划分成方形或矩形的编码单元(Coding Unit，CU)，每个编码单元(CU)在参考帧中(一般为时域附近的已重构帧)寻找最相似块作为当前编码单元(CU)的预测块。当前块与相似块之间的相对位移为运动矢量。在参考帧中寻找相似块作为当前块的预测值的过程就是运动补偿。

但常规运动补偿技术方案是以恒定亮度假设为前提的，即同一个物体点在不同时刻的视频帧中具有相同的亮度值。然而在实际应用中，视频中存在许多在时域上多变的内容，如波浪、火焰等，由于这类内容在邻近已编码图像中无法找到很好的匹配，上述的帧间预测方法对于这类视频内容无法高效地编码，常规技术对此类视频编码后的重构视频质量往往较低。虽然可以通过帧内模式对这类视频内容进行编码，可增加帧内模式编码又存在码率较高的问题。

发明内容

为解决常规运动补偿技术方案存在的无法对具有时域上多变的内容的视频进行高效编码的问题，本发明创新提供了一种基于深度神经网络的视频编码方法及装置、介质，以解决现有技术存在的至少一个问题。

为实现上述技术目的，本发明具体公开了一种基于深度神经网络的视频编码方法，该方法包括但不限于如下的过程。

对视频图像组中的待编码帧序列中第一设定帧图像进行编码，以得到初始编码结果。

对所述待编码帧序列进行像素级分割，以得到分割掩膜序列。所述待编码帧序列包括多个待编码帧图像，所述分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜。

根据所述分割掩膜序列对所述待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果。

利用所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。

通过图像分割方式将所述像素级的视频帧与所述初始编码结果进行像素级图像融合。

进一步地，生成所述像素级的视频帧的过程包括：

根据所述图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流。

利用所述中间帧的光流和所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。

进一步地，生成所述像素级的视频帧的过程还包括：

根据时间在前的中间帧的光流对时间在后的中间帧的光流进行形变处理，以得到初步生成结果。

利用所述初步生成结果、所述中间帧的光流及所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。

进一步地，预测出中间帧的光流的过程包括：

设定采样分布。

根据所述采样分布以及所述图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流。

进一步地，对所述待编码帧序列进行像素级分割的过程包括：

获取所述待编码帧序列中各个待编码帧图像的基础特征。

通过所述各个待编码帧图像的基础特征生成所述分割掩膜序列。

进一步地，对所述待编码帧序列进行像素级分割的过程还包括：

利用所述每帧图像的基础特征确定非刚性运动内容区域。

通过所述非刚性运动内容区域和所述每帧图像的基础特征生成所述分割掩膜序列。

进一步地，所述第一设定帧图像为关键帧图像。则生成所述像素级的视频帧的过程包括：

根据所述初始编码结果预测出三维体素特征。

利用所述三维体素特征和所述初始编码结果中的分割掩膜所在区域的像素生成像素级的视频帧。

为实现上述技术目的，本发明还具体公开了一种基于深度神经网络的视频编码装置，该编码装置包括但不限于初始编码模块、分割网络模块、结果重构模块、生成网络模块及图像融合模块。

初始编码模块，用于对视频图像组中的待编码帧序列中第一设定帧图像进行编码，以得到初始编码结果。

分割网络模块，用于对所述待编码帧序列进行像素级分割，以得到分割掩膜序列。所述待编码帧序列包括多个待编码帧图像，所述分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜。

结果重构模块，用于根据所述分割掩膜序列对所述待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果。

生成网络模块，用于利用所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。

图像融合模块，用于通过图像分割方式将所述像素级的视频帧与所述初始编码结果进行像素级图像融合。

进一步地，该装置还包括：

预测网络模块，用于根据所述图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流。

所述生成网络模块，用于利用所述中间帧的光流和所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。

为实现上述的技术目的，本发明还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明任一实施例所述的基于深度神经网络的视频编码方法。

本发明的有益效果为：区别于主流的基于块的混合视频编码框架，本发明基于像素级别图像的分析与合成，能够显著提高对视频中非刚性运动内容(例如波浪、火焰等在时域上多变的内容)的重构质量。

本发明能够基于纹理分割形成的分割掩膜序列对待编码帧图像进行有效地处理，以显著提升重构视频的质量，能够改善传统编码方案存在的准确性不足等问题。

另外，区别于目前帧间预测中使用的传统线性模型，本发明使用基于深度神经网络的方法，用非线性的方法直接生成重构区域，进而呈现出非刚性运动的纹理特征，达到提升编码后视频主观质量的目的。

附图说明

图1示出了本发明一些实施例基于深度神经网络的视频编码方法的流程示意图。

图2示出了本发明一些实施例基于深度神经网络的视频编码装置的工作原理图。

图3示出了原视频(左)、常规编码结果(中)、本发明编码结果(右)实验结果对比图。

具体实施方式

下面结合说明书附图对本发明提供的一种基于深度神经网络的视频编码方法及装置、介质进行详细的解释和说明。

实施例一：

如图1、2所示，本实施例可提供一种基于深度神经网络的视频编码方法，该方法中的一些子处理流程能够通过深度神经网络实现。本实施例以一个视频图像组(GroupofPictures，GOP)为例，对视频图像组中的待编码帧序列进行相应的处理，该基于深度神经网络的视频编码方法可包括但不限于如下的过程。

步骤一：对待编码帧序列进行像素级分割，以得到分割掩膜序列。本实施例将待编码帧序列输入到已训练完成的分割网络中，可通过分割网络输出待编码帧序列的分割掩模序列并编码。更为具体来说，本实施例对待编码帧序列进行像素级分割的过程包括：获取待编码帧序列中各个待编码帧图像的基础特征，获取基础特征的方式可以是将待编码帧序列输入深度残差网络中，深度残差网络例如可以是RESNET-101，从而利用深度残差网络输出待编码帧序列的基础特征；再通过各个待编码帧图像的基础特征生成分割掩膜序列，本实施例具体可以通过将基础特征输入到长短时记忆网络(LSTM，Long Short-Term Memory)中实现，以通过长短时记忆网络输出分割掩膜序列。待编码帧序列包括多个待编码帧图像，分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜，例如一个分割掩模对应一帧图像。如图2所示，本实施例可以采用纹理分割的方式，所以本发明能够用于基于深度神经网络纹理分析合成的视频编解码方法。

步骤二：对视频图像组中的待编码帧序列中第一设定帧图像可以进行编码，以得到初始编码结果。本实施例中第一设定帧图像的编码方式可以为整帧编码，根据步骤一中的分割掩膜序列对待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果，在该过程中，可设计针对关键帧的量化参数的调整。第一设定帧图像可以包括一帧或多帧图像，本实施例中第一设定帧图像可以为视频图像组内第一帧(POC 0)；待编码帧序列中除了第一设定帧图像之外的其余帧图像可以为第二设定帧图像，本实施例能够对第二设定帧图像的部分区域进行编码。

步骤三：使用步骤一中的分割掩膜序列，可以根据图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流，本实施例通过将图像重构结果中的分割掩膜所在区域的像素输入到已训练的光流预测网络中，从而实现对本实施例中间帧的光流预测，本实施例中的光流预测网络能够通过变分自编码器实现。更为具体来说，本实施例预测出中间帧的光流的过程包括：给定或设定一个采样分布，例如服从N(0,1)分布的白噪声分布；再将图像重构结果中的分割掩膜所在区域的像素和采样分布输入至变分自编码器中，变分自编码器例如可以是3D-cVAE，从而根据采样分布和图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流，本实施例可获得POC 1～POC N-1的光流预测结果。其中，图像重构结果可为关键帧重构结果。

步骤四：基于步骤一中的分割掩膜序列，本实施例能够生成像素级的视频帧。具体地，将中间帧的光流和图像重构结果中的分割掩膜所在区域的像素输入到视频帧生成网络中，视频帧生成网络由卷积神经网络实现，以输出像素级的视频帧，从而利用中间帧的光流和图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。更为具体来说，本实施例生成像素级的视频帧的过程包括：根据时间在前的中间帧的光流对时间在后的中间帧的光流进行形变处理，即本实施例第k帧的光流预测结果在第k-1帧基础上进行形变，以得到初步生成结果；将初步生成结果、光流预测结果输入到卷积神经网络(例如VGG19)中，以利用初步生成结果、中间帧的光流及图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧，即得到了第k帧的视频生成内容。

步骤五：本实施例使用图像分割法(graphcut)，通过图像分割方式将像素级的视频帧与初始编码结果进行像素级图像融合，以实现基于深度神经网络对视频的编码。

如图3所示，与传统视频编解码器(例如HEVC、VVC、AV1)相比，针对包含非刚性运动的视频内容，本发明编码后的重构视频主观质量方面具有明显的优越性，效果非常好。通过对比可看到，对于非刚性运动内容区域，图3中间示出的传统视频编解码器使用的线性运动模型不能很好地描述视频内容，这种以块为单位的编码方式对此类非刚性运动内容易产生较大的块效应，可见本发明提出的基于深度网络的像素级分析与合成编码方法，能够有效呈现非刚性运动的纹理特性，使得主观质量得到非常大的提升。

实施例二：

与实施例一基于相同的发明构思，本实施例也能够提供一种基于深度神经网络的视频编码方法，该视频编码方法可包括但不限于如下的步骤。

步骤一：本实施例也能够以一个视频图像组(Group of Pictures，GOP)为例，对视频图像组中的待编码帧序列中第一设定帧图像进行编码，第一设定帧图像可以是关键帧图像，例如视频图像组内待编码帧序列的第一帧图像(POC 0)和最后一帧图像(POC N)，编码的方式可以是整帧编码，以得到初始编码结果。

步骤二：对待编码帧序列进行像素级分割，本实施例也将待编码序列输入到已训练完成的分割网络中，以得到像素级的待编码序列的分割掩膜序列并编码。待编码帧序列包括多个待编码帧图像，且分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜。本实施例中对待编码帧序列进行像素级分割的过程可包括：获取待编码帧序列中各个待编码帧图像的基础特征，获取基础特征的方式可以是将待编码帧序列输入深度残差网络中，深度残差网络例如可以是RESNET-101，以利用深度残差网络输出待编码帧序列的基础特征，利用每帧图像的基础特征确定非刚性运动内容区域，即确定需要进行合成的区域，然后可通过非刚性运动内容区域和每帧图像的基础特征生成分割掩膜序列。本实施例具体利用非刚性运动内容区域的相关数据初始化长短时记忆网络(LSTM，Long Short-Term Memory)，再通过将基础特征输入到长短时记忆网络(LSTM，Long Short-Term Memory)中，进而通过长短时记忆网络输出分割掩膜序列。

步骤三：使用本实施例步骤二中的分割掩膜序列，本实施例具体根据分割掩膜序列对待编码帧序列中第二设定帧图像进行编码，进而能够得到图像重构结果。本实施例待编码帧序列中除了第一设定帧图像之外的其余帧图像可为第二设定帧图像，本实施例对第二设定帧图像的部分区域进行编码，在该过程中可设计针对关键帧的量化参数的调整。

步骤四：使用本实施例步骤二中的分割掩膜序列，具体利用图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。本实施例中生成像素级的视频帧的过程包括：根据初始编码结果预测出三维体素特征，可通过将初始编码结果输入到已训练完成的卷积神经网络或核预测网络(Kernel Prediction Networks)或GAN生成模型(GenerativeAdversarial Networks)中实现；利用三维体素特征和初始编码结果中的分割掩膜所在区域的像素生成像素级的视频帧。

步骤五：本实施例使用图像分割法(graph cut)，通过图像分割方式将像素级的视频帧与初始编码结果进行像素级图像融合，以实现基于深度神经网络对视频的编码。

如图3所示，与传统视频编解码器(例如HEVC、VVC、AV1)相比，针对包含非刚性运动的视频内容，本发明编码后的重构视频主观质量方面具有明显的优越性，效果非常好；通过对比可看到，对于非刚性运动内容区域，图3中间示出的传统视频编解码器使用的线性运动模型不能很好地描述视频内容，这种以块为单位的编码方式对此类非刚性运动内容易产生较大的块效应，可见本发明提出的基于深度网络的像素级分析与合成编码方法，能够有效呈现非刚性运动的纹理特性，使得主观质量得到非常大的提升。

实施例三：

与实施例一和/或实施例二基于相同的发明构思，本实施例能够提供一种基于深度神经网络的视频编码装置，该编码装置包括但不限于初始编码模块、分割网络模块、结果重构模块、生成网络模块及图像融合模块。

初始编码模块，可用于对视频图像组中的待编码帧序列中第一设定帧图像进行编码，以得到初始编码结果。

分割网络模块，可用于对待编码帧序列进行像素级分割，从而可得到分割掩膜序列。待编码帧序列包括多个待编码帧图像，分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜。具体在本实施例中，分割网络模块用于获取待编码帧序列中各个待编码帧图像的基础特征，并用于通过各个待编码帧图像的基础特征生成分割掩膜序列。在本实施例中，还可通过分割网络模块利用每帧图像的基础特征确定非刚性运动内容区域，并通过非刚性运动内容区域和每帧图像的基础特征生成分割掩膜序列。

结果重构模块，用于根据分割掩膜序列对待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果。

预测网络模块，用于根据图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流。具体地，将给定的采样分布以及图像重构结果中的分割掩膜所在区域的像素输入到预测网络中，以预测出中间帧的光流。

生成网络模块，用于利用图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。生成网络模块可用于利用中间帧的光流和图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。更为具体来说，本实施例还可根据时间在前的中间帧的光流对时间在后的中间帧的光流进行形变处理，以得到初步生成结果；生成网络模块可利用初步生成结果、中间帧的光流以及图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧。在另一些实施例中，生成网络模块用于根据初始编码结果预测出三维体素特征，生成网络模块进而利用三维体素特征和初始编码结果中的分割掩膜所在区域的像素生成像素级的视频帧。

图像融合模块，用于通过图像分割方式将像素级的视频帧与初始编码结果进行像素级图像融合。

实施例四：

与实施例一和/或实施例二基于相同的发明构思，本实施例能够提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时能够实现本发明任一实施例中的基于深度神经网络的视频编码方法或者本发明任一实施例中的基于深度神经网络的视频编码装置。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM，Random Access Memory)，只读存储器(ROM，Read-Only Memory)，可擦除可编辑只读存储器(EPROM，Erasable Programmable Read-Only Memory，或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM，Compact Disc Read-Only Memory)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA，Programmable Gate Array)，现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的视频编码方法，其特征在于，包括：

对视频图像组中的待编码帧序列中第一设定帧图像进行编码，以得到初始编码结果；第一设定帧图像为关键帧图像；

对所述待编码帧序列进行像素级分割，以得到分割掩膜序列；所述待编码帧序列包括多个待编码帧图像，所述分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜；

根据所述分割掩膜序列对所述待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果；包括对关键帧的量化参数的调整；

利用所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；生成所述像素级的视频帧的过程包括：根据所述图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流；利用所述中间帧的光流和所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；生成所述像素级的视频帧的过程还包括：根据时间在前的中间帧的光流对时间在后的中间帧的光流进行形变处理，以得到初步生成结果；利用所述初步生成结果、所述中间帧的光流及所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；

通过图像分割方式，将所述像素级的视频帧与所述初始编码结果进行像素级图像融合。

2.根据权利要求1所述的基于深度神经网络的视频编码方法，其特征在于，预测出中间帧的光流的过程包括：

设定采样分布；

3.根据权利要求1所述的基于深度神经网络的视频编码方法，其特征在于，对所述待编码帧序列进行像素级分割的过程包括：

获取所述待编码帧序列中各个待编码帧图像的基础特征；

4.根据权利要求3所述的基于深度神经网络的视频编码方法，其特征在于，对所述待编码帧序列进行像素级分割的过程还包括：

利用每帧图像的基础特征确定非刚性运动内容区域；

5.根据权利要求1所述的基于深度神经网络的视频编码方法，其特征在于，生成所述像素级的视频帧的过程包括：

根据所述初始编码结果预测出三维体素特征；

6.一种基于深度神经网络的视频编码装置，其特征在于，包括：

初始编码模块，用于对视频图像组中的待编码帧序列中第一设定帧图像进行编码，以得到初始编码结果；第一设定帧图像为关键帧图像；

分割网络模块，用于对所述待编码帧序列进行像素级分割，以得到分割掩膜序列；所述待编码帧序列包括多个待编码帧图像，所述分割掩膜序列包括分别与待编码帧图像相对应的分割掩膜；

结果重构模块，用于根据所述分割掩膜序列对所述待编码帧序列中第二设定帧图像进行编码，以得到图像重构结果；结果重构模块用于对关键帧的量化参数的调整；

生成网络模块，用于利用所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；

预测网络模块，用于根据所述图像重构结果中的分割掩膜所在区域的像素预测出中间帧的光流；

所述生成网络模块，具体用于利用所述中间帧的光流和所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；所述生成网络模块具体用于根据时间在前的中间帧的光流对时间在后的中间帧的光流进行形变处理，以得到初步生成结果；所述生成网络模块利用所述初步生成结果、所述中间帧的光流及所述图像重构结果中的分割掩膜所在区域的像素生成像素级的视频帧；

图像融合模块，用于通过图像分割方式，将所述像素级的视频帧与所述初始编码结果进行像素级图像融合。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一权利要求所述的基于深度神经网络的视频编码方法。