CN108833925B

CN108833925B - 一种基于深度神经网络的帧间预测方法

Info

Publication number: CN108833925B
Application number: CN201810798399.0A
Authority: CN
Inventors: 范晓鹏; 王洋; 赵德斌
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2020-09-11
Anticipated expiration: 2038-07-19
Also published as: CN108833925A

Abstract

本发明提出了一种混合视频编解码系统中基于深度神经网络的帧间预测方法，属于帧间预测技术领域。所述方法通过借助当前块和参考块的周围相邻像素，利用深度神经网络获得一个更准确的预测块，从而使帧间预测性能得到提升。本发明的有益特点为，区别于基于传统帧间预测方法，本发明是基于深度神经网络的方法；区别于现有的仅针对于混合视频编解码系统中图像块本身作为输入的深度神经网络方法，本发明的深度神经网络输入是多个输入，包含非方形区域，这是区别于普通卷积神经网络的贡献所在。

Description

一种基于深度神经网络的帧间预测方法

技术领域

本发明涉及一种混合视频编解码系统中基于深度神经网络的帧间预测方法，属于帧间预测技术领域。

背景技术

随着便携设备以及自媒体的快速发展，视频编码相关的应用正在快速发展并逐渐走向成熟，比如短视频分享、视频通话、互联网直播、电视广播、等等。帧间预测能够有效地去除视频的相邻帧之间的冗余信息，因此提高帧间预测的准确性能够提高视频编码的压缩性能。

一般情况下，传统的帧间预测算法中，当前块的预测值是直接从参考帧直接拷贝或者插值得到的。视频的相邻帧存在许多变化，包括亮度变化、渐进渐出、模糊等。传统的一些帧间预测算法提出利用编码块周围像素来处理亮度变化以及利用当前块的相邻像素和参考块的相邻像素来补偿当前块的亮度变化。这些方法都是基于传统的线性模型来补偿当前的编码块。传统帧间预测的方法存在准确性不足的问题。

发明内容

本发明的目的是为了提高混合视频编解码系统中帧间预测的准确性，利用深度神经网络强大的学习能力，而提出的一种基于深度神经网络的帧间预测方法。本发明的有益特点为，区别于基于传统帧间预测方法，本发明是基于深度神经网络的方法；区别于现有的仅针对于混合视频编解码系统中图像块本身作为输入的深度神经网络方法，本发明的深度神经网络输入是多个输入，包含非方形区域，这是区别于普通卷积神经网络的贡献所在。所采取的技术方案如下：

一种基于深度神经网络的帧间预测方法，所述方法的过程为：

步骤一：获取当前块的左下、左边、左上、上边和右上区域的像素、参考块以及参考块的左下、左边、左上、上边和右上区域的像素，所述当前块和参考块是矩形区域或非矩形区域；当所述当前块和参考块是矩形区域时，所述当前块和参考块的尺寸为W*H，W为当前块和参考块的宽，H为当前块和参考块的高；

步骤二：将步骤一获取的当前块的左下、左边、左上、上边和右上区域的像素、参考块以及参考块的左下、左边、左上、上边和右上区域的像素输入到深度神经网络中，学习获得当前块和参考块之间的关系，或学习获得参考块和参考块的左下、左边、左上、上边和右上区域的像素之间的关系，从而获得当前块的一个预测块。

进一步地，所述步骤二获得更准确的预测块的过程为：

第一步：将步骤一获取的当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素输入到关系估计网络，获得一个关系块，关系块是指当前块和参考块之间的关系，尺寸和当前块一致，因此定义为关系块。由于当前块还未获取，因此关系块获取需要从当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素利用关系估计网络学习得到。关系估计网络是指用来获取关系块的深度神经网络；

第二步：用特征组合网络对步骤一得到的参考块和第一步得到的关系块进行特征图的提取，并将所述提取到的特征图组合到一起；

第三步：将第二步得到的组合后的特征图输入到深度提纯网络，得到当前块的一个更准确的预测块。

进一步地，所述步骤二获得更准确的预测块的过程为：

第一步：将步骤一获取的参考块和参考块的左下、左边、左上、上边和右上区域的像素输入到一个神经网络中，学习得到参考块和参考块的左下、左边、左上、上边和右上区域的像素之间的关系，所述神经网络由全连接层、卷积层或者二者的组合来实现；

第二步：将步骤一获取的当前块的参考像素和第一步获得的关系输入到一个神经网络中，学习得到当前块的更准确的预测块，所述神经网络由全连接层、卷积层或者二者的组合来实现。

进一步地，所述第一步的关系估计网络由全连接层实现；所述关系块的过去途径包括：

当前块的左下、左边、左上、上边和右上区域的像素和参考块的相邻像素组合到一起输入到K层全连接网络，其中，K>0，得到当前块和参考块之间的关系块；所述关系估计网络在K个全连接层前后添加卷积层进一步提高网络的学习能力；

或者所述关系估计网络用卷积层或全连接层提取当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素的特征后，再输入到K层全连接网络得到关系块。

进一步地，所述第一步获得当前块和参考块之间的关系块的具体过程为：

第1步：将当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素连接成为一个向量，并输入到关系估计网络中；

第2步：所述关系估计网络中每一个全连接层计算前一层的输出和当前层的权重之间的内积来获得当前层的输出，进而关系估计网络的最后一层获得当前块和参考块之间的关系向量；

第3步：将第二步获得的所述关系向量转换为关系块，所述关系块的大小与所述当前块尺寸相同。

进一步地，第二步所述的特征组合网络由卷积网络实现，由卷积层和拼接层组成。

进一步地，第二步所述提取参考块和关系块的特征图并组合到一起的过程为：

第1步：所述特征组合网络对所述参考块进行卷积处理，获得参考块的特征图；

第2步：所述特征组合网络对所述关系块进行卷积处理，获得关系块的特征图；

第3步：将第1步获得的参考块特征图与第2步获得的关系块特征图组合到一起，获得组合后的特征图。

进一步地，第三步所述深度提纯网络的输入是第二步得到的组合特征，输出是一个当前块的更准确的预测块；深度提纯网络由多个卷积层组成，或者由卷积层和全连接层组成。

进一步地，第三步所述更准确的预测块的获取过程包括：

所述组合后的特征图输入到深度提纯网络，提取特征并学习得到当前块的更准确的预测块；

所述深度提纯网络由卷积层实现，或者由卷积层和全连接层实现；

所述提取特征并学习得到当前块的预测块为，利用深度卷积提纯网络对输入的组合特征不断的进行提取，通过每一层网络的不断学习得到提纯后的更准确的预测块。

本发明有益效果：

1、本发明所述混合视频编解码系统中基于深度神经网络的帧间预测方法通过利用深度神经网络能够有效地提高混合视频编解码系统中预测的准确性，相对于传统的帧间预测方法，本发明能够带来4.4％的BD比特率节省。

2、本发明通过借助当前块的周围相邻像素、参考块和参考块的周围相邻像素，利用深度神经网络学习到一个更准确的预测块，从而使帧间预测性能得到提升。

3、本发明所述帧间预测方法可以用于merge模式、skip模式或inter模式中，有效提高了所述帧间预测方法的兼容性和实用范围。

4、在帧间预测中，运动估计和运动补偿可以有效地降低视频编码中的时域冗余，提高视频编码性能。由于现有的视频编码标准采用的是基于平移运动模型的块匹配运动估计，即使是目前最先进的HEVC编码标准，也没有考虑当前块和参考块之间的相关性。为此，本发明提出的一个基于深度神经网络的帧间预测方法利用当前块和参考块的周围相邻像素对参考块进行增强，得到一个更准确的预测块，从而使编码效率得到进一步提高。

附图说明

图1为本发明所述深度神经网络结构示意图。

图2为本发明所述深度提纯网络结构框图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

一种基于深度神经网络的帧间预测方法，所述方法的过程为，如图1所示：

步骤一：获取当前块的周围相邻像素、参考块以及参考块的周围相邻像素，所述当前块和参考块是矩形区域或非矩形区域；当所述当前块和参考块是矩形区域时，所述当前块和参考块的尺寸为W*H，W为当前块和参考块的宽，H为当前块和参考块的高；

步骤二：将步骤一获取的当前块的周围相邻像素、参考块以及参考块的周围相邻像素输入到深度神经网络中，学习获得当前块和参考块之间的关系，或学习获得参考块和参考块的左下、左边、左上、上边和右上区域的像素之间的关系，从而获得当前块的一个更准确的预测块。

所述当前块的周围相邻像素和参考块的周围相邻像素从当前块和参考块的左下、左边、左上、上边、右边和右上区域获取。

所述步骤二获得更准确的预测块的过程为：

第一步：将步骤一获取的当前块的周围相邻像素和参考块的周围相邻像素输入到关系估计网络，获得当前块和参考块之间的关系块；

所述第一步的关系估计网络由全连接层实现；所述关系块的过去途径包括：

当前块的周围相邻像素和参考块的相邻像素组合到一起输入到K层全连接网络，其中，K>0，得到当前块和参考块之间的关系块；所述关系估计网络在K个全连接层前后添加卷积层进一步提高网络的学习能力；

或者所述关系估计网络用卷积层或全连接层提取当前块的周围相邻像素和参考块的周围相邻像素的特征后，再输入到K层全连接网络得到关系块。

所述第一步获得当前块和参考块之间的关系块的具体过程为：

第1步：将当前块的周围相邻像素和参考块的周围相邻像素连接成为一个向量，并输入到关系估计网络中；

第二步所述的特征组合网络由卷积网络实现，由卷积层和拼接层组成。

第二步所述提取参考块和关系块的特征图并组合到一起的过程为：

第三步所述深度提纯网络的输入是第二步得到的组合特征，输出是一个当前块的更准确的预测块；深度提纯网络由多个卷积层组成，或者由卷积层和全连接层组成。

第三步所述更准确的预测块的获取过程包括：

第1步：所述组合后的特征图输入到深度提纯网络，提取特征并学习得到当前块的更准确的预测块；

第2步：所述深度提纯网络由卷积层实现，或者由卷积层和全连接层实现；当所述深度提纯网络由卷积层实现，包含一个卷积输入层，若干个卷积块，一个卷积输出层；

第3步：所述卷积块由四个卷积层和一个拼接层组成，其中前两个卷积层并排放置，利用不同大小的卷积核学习得到不同尺度的特征；所述多尺度特征通过拼接层组合到一起并由接下来的两个卷积层继续学习，不断的提取特征；

第4步：所述学习到的特征通过卷积输出层得到提纯后的更准确的预测块。

深度提纯网络是由卷积网络实现，如图2中所示，深度提纯网络由一个卷积输入层，若干个卷积块，以及一个卷积输出层组成。每个卷积块由三层包含提取多尺度特征的卷积层实现,如图2所示。深度提纯网络利用的是神经网络的强大学习能力，利用多层深度的卷积层来提取参考块和关系块特征图之间的作用关系，从而达到提升更准确的预测块准确性的作用，进而得到当前块的更好更准确的预测块。

实施例2

实施例2与实施例1的不同之处在于，所述步骤二获得更准确的预测块的过程为：

第一步：将步骤一获取的参考块和参考块的周围相邻像素输入到一个神经网络中，学习得到参考块和参考块的周围相邻像素之间的关系，所述神经网络由全连接层、卷积层或者二者的组合来实现；

第二步：将步骤一获取的当前块的周围相邻像素和第一步获得的关系输入到一个神经网络中，学习得到当前块的更准确的预测块，所述神经网络由全连接层、卷积层或者二者的组合来实现。

实施例3

实施例3与实施例1的不同之处在于，本实施例的混合视频编解码系统中帧间预测方法，步骤二中的第一步、第二步和第三步的深度神经网络可以通过简单的变换整合为一个深度神经网络。原则上第一步、第二步、第三步区分不同的网络是为了叙述方便，按照功能区分开来。在训练和部署的时候，整个网络是一个端到端的形式，因此概念上的区分网络模块是实施例1的特例。

实施例4

实施例4与实施例1的不同之处在于，本实施例的混合视频编解码系统中帧间预测方法，步骤二中的第一步、第二步的深度神经网络可以通过简单的变换整合为一个深度神经网络。

实施例5

实施例5与实施例1的不同之处在于，本实施例的混合视频编解码系统中帧间预测方法，步骤二中的第二步、第三步的深度神经网络可以通过简单的变换整合为一个深度神经网络。

实施例6

实施例6与实施例1的不同之处在于，本实施例的混合视频编解码系统中帧间预测方法，步骤二中第一步、第二步和第三步所述的各个神经网络模块的层数以及参数，可以为任意神经网络的参数、层数，调整神经网络的参数和层数后的深度神经网络结构的帧间预测的方法和过程与实施例1相同。

实施例7

实施例7与实施例1的不同之处在于，本实施方式提出的混合视频编解码系统中帧间预测方法，当前块和参考块的形状是方形，如HEVC视频编码标准中的编码单元。

实施例8

实施例8与实施例1的不同之处在于，本实施方式提出的混合视频编解码系统中帧间预测方法，当前块和参考块的形状是非方形，如HEVC视频编码标准中的预测单元。

实施例9

实施例9与实施例1不同的是，本实施方式的混合视频编解码系统中帧间预测方法，当前块可以划分为多个划分单元，划分单元的大小为w*h，其中：1≤w≤W，1≤h≤H。可以对多个划分单元分别得到参考块，然后统一使用该帧间预测方法；也可以分别对每个划分单元使用该帧间预测方法。

实施例10

实施例10与实施例1不同的是，本实施方式的混合视频编解码系统中帧间预测方法，可以用于亮度和色度分量的更准确的预测块准确性提升。在混合视频编解码系统中，像素一般包含亮度和色度两种分量，当仅有亮度采用本方法的时候如实施例1所述；当亮度和色度分量同时采用本方法的时候，可以通过增加控制变量，通过决策的形式选择亮度、色度是否使用深度神经网络得到更加更准确的预测块。

实施例11

实施例11与实施例1不同的是，本实施方式的混合视频编解码系统中帧间预测方法，步骤二中所述第一步关系估计网络的输入是经过预处理后的当前块的周围相邻像素和参考块的周围相邻像素，其中预处理是指利用传统方法或者神经网络对当前块的周围相邻像素和参考块的周围相邻像素进行变换操作。

实施例12

实施例12与实施例1不同的是，本实施方式的混合视频编解码系统中帧间预测方法，步骤二中所述第一步关系估计网络的实现方式在全连接层后面增加若干个卷积层进一步提升关系估计网络的能力。

实施例13

实施例13与实施例1不同的是，本实施方式的混合视频编解码系统中帧间预测方法，步骤二中第三步所述深度提纯网络由卷积网络实现，可以由卷积层实现或者由卷积层、全连接层组合实现。

本发明所述混合视频编解码系统中基于深度神经网络的帧间预测方法的实验过程如下：

在HM16.9(HEVC的测试模型)上实现，并按照HEVC通测条件测试，HEVC通测条件参考“Common test conditions and software reference configurations，”JCTVC-L1100,Jan2013。实施例一的实验结果如表1所示，由表1可知，与HM 16.9相比，在Low delay P(LDP)配置条件下平均有4.4％的BD比特率节省。

表1

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种基于深度神经网络的帧间预测方法，其特征在于，所述方法的过程为：

步骤一：获取当前块的左下、左边、左上、上边和右上区域的像素、参考块以及参考块的左下、左边、左上、上边和右上区域的像素；

2.根据权利要求1所述帧间预测方法，其特征在于，所述步骤二获得预测块的过程为：

第一步：将步骤一获取的当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素输入到关系估计网络，获得一个关系块；

第三步：将第二步得到的组合后的特征图输入到深度提纯网络，得到当前块的一个预测块。

3.根据权利要求1所述帧间预测方法，其特征在于，所述步骤二获得预测块的过程为：

第二步：将步骤一获取的当前块的参考像素和第一步获得的关系输入到一个神经网络中，学习得到当前块的预测块，所述神经网络由全连接层、卷积层或者二者的组合来实现。

4.根据权利要求2所述帧间预测方法，其特征在于，所述第一步使用当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素获取关系块的过程为：

将当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素输入到一个K层的全连接网络，得到关系块；或者将预处理后的当前块的左下、左边、左上、上边和右上区域的像素和参考块的左下、左边、左上、上边和右上区域的像素输入到一个K层的全连接网络，得到关系块，其中，K>0。

5.根据权利要求2所述帧间预测方法，其特征在于，所述第一步获得关系块的具体过程为：

第3步：将第2步获得的所述关系向量转换为关系块，所述关系块的大小与所述当前块尺寸相同。

6.根据权利要求2所述帧间预测方法，其特征在于，第二步所述的特征组合网络由卷积网络实现，由卷积层和拼接层组成。

7.根据权利要求2所述帧间预测方法，其特征在于，第二步所述提取参考块和关系块的特征图并组合到一起的过程为：

8.根据权利要求2所述帧间预测方法，其特征在于，第三步所述深度提纯网络的输入是第二步得到的组合特征，输出是一个当前块的预测块；深度提纯网络由多个卷积层组成，或者由卷积层和全连接层组成。

9.根据权利要求2所述帧间预测方法，其特征在于，第三步所述预测块的获取过程包括：

所述组合后的特征图输入到深度提纯网络，提取特征并学习得到当前块的预测块；

所述提取特征并学习得到当前块的预测块为利用深度卷积提纯网络对输入的组合特征不断的进行提取，通过每一层网络的不断学习得到提纯后的预测块。