CN107105278B

CN107105278B - 运动矢量自动生成的视频编解码系统

Info

Publication number: CN107105278B
Application number: CN201710267434.1A
Authority: CN
Inventors: 陈志波
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2019-10-25
Anticipated expiration: 2037-04-21
Also published as: CN107105278A

Abstract

本发明公开了一种运动矢量自动生成的视频编解码框架，无需进行运动矢量预测和运动矢量编码传输，其包括：编码端与解码端；其中：所述编码端，根据当前参考帧的视频数据内容，并基于通过学习的方法构建的像素级的运动光场矢量生成网络，来预测当前帧视频像素的光流信息，再结合输入的块模式信息计算对应块的运动矢量，最终将编码的残差信息传输至解码端；所述解码端，对残差信息进行解码，获得重构参考帧数据，并采用与编码端相同的方法获得每一重构参考帧数据的运动矢量，再进行视频数据重建。由于该编码框架无需进行运动矢量搜索和运动矢量编码传输，从而降低编码复杂度和提升编码效率。

Description

运动矢量自动生成的视频编解码系统

技术领域

本发明涉及视频编码技术领域，尤其涉及一种运动矢量自动生成的视频编解码系统。

背景技术

作为现有视频编码标准的核心框架，混合视频编码(HVC-Hybrid Video Coding)框架是一种混合时间空间视频压缩方案，即先用帧间预测编码消除时间域的相关性，然后对残差进行变换编码，消除空间相关性，最后进行熵编码去除统计上的冗余度。其中帧间预测编码可以有效去除视频信号在时间域的冗余度，极大地提升视频编码效率。自80年代帧间运动预测编码方式被H.261标准采纳被延续至今。

在现有的H.264，HEVC等视频编码标准中采用了更为复杂的运动预测模式，包括更多的预测参考帧、更多的预测块模式、更多的运动矢量预测编码模式等等，无论是从运动矢量预测的复杂度还是运动矢量本身编码传输的数据量比例都是很高的。

鉴于此，有必要进行深入研究，使得编码框架中既可以避免复杂的运动矢量搜索，又可以节约运动矢量的传输数据量。

发明内容

本发明的目的是提供一种运动矢量自动生成的视频编解码系统，无需进行运动矢量预测和运动矢量编码传输，从而降低编码复杂度和提升编码效率。

本发明的目的是通过以下技术方案实现的：

一种运动矢量自动生成的视频编解码系统，无需进行运动矢量预测和运动矢量编码传输，其包括：编码端与解码端；其中：

所述编码端，根据当前参考帧的视频数据内容，并基于通过学习的方法构建的像素级的运动光场矢量生成网络，来预测当前帧视频像素的光流信息，再结合输入的块模式信息计算对应编码块的运动矢量，然后，进行运动补偿并计算残差，最终将编码的残差信息传输至解码端；

所述解码端，将已经解码的视频帧作为输入，并采用与编码端相同的方法预测相应的光流信息，进而获得对应解码块的运动矢量，再利用接收到的残差信息重建视频帧。

所述通过学习的方法构建的像素级的运动光场矢量生成网络包括：

建立包含多种视频内容类型、运动过程和不同压缩程度的视频数据的数据集；计算每一视频数据的光流信息作为训练样本的标签；

构建神经网络，并以重建生成的当前重构参考帧作为经网络输入进行前向传播预测光流信息，并根据训练样本标签计算损失值，再根据损失值反向传播更新参数，如此反复迭代多次作为神经网络训练过程，训练完成的网络作为像素级的运动光场矢量生成网络。

所构建的神经网络结构为：依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层；或者，依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。

所述编码端中运动矢量的计算公式为：

其中，为第i个块模式信息对应的光流信息，N的大小由块模式信息决定。

由上述本发明提供的技术方案可以看出，在视频编码端通过学习的方法自动生成像素级的光流矢量，进而生成不同数据块模式下的运动矢量，替代原有混合编码框架下的运动矢量搜索模块；在解码段基于同样的学习网络生成运动矢量，进行解码和视频数据重建；最终实现一个新的无需进行运动矢量预测和运动矢量编码传输的视频编码框架。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的传统视频编码的混合编解码框架；

图2为本发明实施例提供的运动矢量自动生成的视频编解码系统；

图3为本发明实施例提供的基于学习的运动矢量生成模块的示意图；

图4为本发明实施例提供的神经网络结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种运动矢量自动生成的视频编解码系统，无需进行运动矢量预测和运动矢量编码传输，其包括：编码端与解码端；其中：

本领域技术人员可以理解，在上述视频编解码框中，编码端与解码端的其他处理过程，例如，变换、量化、熵编码、熵解码、反量化、反变换等过程均可利用常规技术来实现，故不再赘述。上述方案主要是视频编码端通过学习的方法自动生成像素级的光流矢量，进而生成不同数据块模式下的运动矢量，替代原有混合编码框架下的运动矢量搜索模块；在解码段基于同样的学习网络生成运动矢量，进行解码和视频数据重建；由于视频编码框架中无需进行运动矢量预测和运动矢量编码传输的，从而降低编码复杂度和提升编码效率。

如图1～图2所示，分别为传统的混合编解码框架，以及运动矢量自动生成的视频编解码系统，两个图中虚线部分为解码器(即解码端)。可以看到，传统框架中的“运动矢量估计”模块被“基于学习的运动矢量生成”模块代替，这样对应的编码器输出也发生了变化，传统的“运动矢量”信息输出不再需要。同时，编码端“基于学习的运动矢量生成”模块不再需要原始图像的输入，其输入为重建的参考帧数据。图1所示传统混合编解码框架中的解码部分模块中运动矢量信息的获得来自于编码器输出的运动矢量信息，而在图2所示的新的编解码结构中，解码器中的运动矢量则是来自于与编码器部分对应的“基于学习的运动矢量生成”模块。

本领域技术人员可以理解，图1与图2的虚线部分既是编码器部分，也是解码器部分，即虚线内部分是重叠的，为编码端与解码端共有的。

本发明实施例中，运动矢量信息是利用块模式信息(来自编码器中的块模式决策模块或者解码器中的码流信息)与相应的光流信息计算而来，也就是说，可以将“基于学习的运动矢量生成”模块细分为如图3所示的像素级的运动光场矢量生成网络，以及基于块的运动矢量生成模块，具体的计算公式如下：

本领域技术人员可以理解，图3所示为基于学习的运动矢量生成模块，在进行编码与解码时的区别仅在于编码时输入的数据为原始视频数据，而解码时输入的是重构参考帧。

本发明实施例中，像素级的运动光场矢量生成网络通过学习的方法构建，其过程如下：

1)建立包含多种视频内容类型、运动过程和不同压缩程度的视频数据的数据集；计算每一视频数据的光流信息作为训练样本的标签。

2)构建神经网络，并以重建生成的当前重构参考帧作为神经网络输入进行前向传播预测光流信息，并根据训练样本标签计算损失值，再根据损失值反向传播更新参数，如此反复迭代多次作为神经网络训练过程，训练完成的网络作为像素级的运动光场矢量生成网络。本领域技术人员可以理解，重构参考帧可以来自任何视频数据，具体到本方案中，其来自于数据集。

所构建的神经网络结构包括：如图4(a)所示的，依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层；或者，如图4(b)所示的，依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。

图4(a)中采用空间Softmax层代替Softmax层，以生成与空间相关的运动矢量；图4(b)的网络结构由全卷积网络组成，该结构能够有效的保留图片、视频中的局部信息。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种运动矢量自动生成的视频编解码系统，其特征在于，无需进行运动矢量预测和运动矢量编码传输，其包括：编码端与解码端；其中：

所述解码端，将已经解码的视频帧作为输入，并采用与编码端相同的方法预测相应的光流信息，进而获得对应解码块的运动矢量，再利用接收到的残差信息重建视频帧；

其中，所述通过学习的方法构建的像素级的运动光场矢量生成网络包括：

2.根据权利要求1所述的一种运动矢量自动生成的视频编解码系统，其特征在于，所构建的神经网络结构为：依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层；或者，依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。

3.根据权利要求1所述的一种运动矢量自动生成的视频编解码系统，其特征在于，所述编码端中运动矢量的计算公式为：