CN113225552B

CN113225552B - 一种智能快速帧间编码方法

Info

Publication number: CN113225552B
Application number: CN202110518364.9A
Authority: CN
Inventors: 张佩涵; 潘兆庆; 彭勃; 靳登朝; 雷建军
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-04-29
Anticipated expiration: 2041-05-12
Also published as: CN113225552A

Abstract

本发明公开了一种智能快速帧间编码方法，所述方法包括：将编码单元的划分视作二分类问题，设计了一种多信息融合卷积神经网络模型作为分类器，实现编码单元划分提前终止；以编码单元的纹理信息和运动信息作为分类器的输入，分别经过非对称卷积核特征提取模块获取输入的特征；再使用基于注意力的特征融合模块得到融合的特征，最终使用分类模块根据融合特征获取分类结果；通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件，实现Merge模式早期决策。本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间，借助深度学习的特征提取与分析能力，通过充分利用空域、时域及运动场信息，有效降低帧间编码复杂度。

Description

一种智能快速帧间编码方法

技术领域

本发明涉及深度学习、视频编码领域，尤其涉及一种智能快速帧间编码方法。

背景技术

视频是信息传播的重要载体。近年来，随着互联网和多媒体技术飞速发展，硬件设备性能的不断提升，高清、超高清以及全景视频的应用场景愈发广泛。然而，这些数据量更大的视频为存储和传输带来极大的挑战。

视频压缩编码技术有助于解决庞大的视频数据量与有限的传输带宽之间的矛盾。通过高效的视频压缩编码技术，可以去除视频中存在的冗余信息，降低视频对高传输带宽的需求。然而，视频编码过程计算复杂度高，成为制约视频压缩编码技术在实时场景应用中的瓶颈。

为了尽可能降低编码视频需要的时间，新一代视频编码标准已经集成了一些低复杂度编码工具。随着人工智能的发展，深度学习技术在计算机视觉等领域取得了显著成就，这为视频低复杂度编码提供了新的研究思路。Tang等人提出了一种基于深度学习的形状自适应快速帧内编码单元划分决策方法，利用可变大小的池化层处理不同尺寸的编码单元。Tissier等人提出了一种基于深度学习的帧内编码块边界决策算法，通过神经网络预测64*64编码单元内所有4*4块的边界存在划分边缘的概率值，从而根据概率值跳过不太可能的划分模式。

现有方法主要关注于利用编码单元的纹理信息降低帧内编码复杂度，并没有考虑帧间的时域相关性，因此这些方法并不适合用于降低帧间编码复杂度。目前未见工作研究基于深度学习的低复杂度帧间编码方法。

发明内容

本发明提供了一种智能快速帧间编码方法，本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间，借助深度学习的特征提取与分析能力，通过充分利用空域、时域及运动场信息，有效降低帧间编码复杂度，详见下文描述：

一种智能快速帧间编码方法，所述方法包括：

将编码单元的划分视作二分类问题，设计了一种多信息融合卷积神经网络模型作为分类器，实现编码单元划分提前终止；

以编码单元的纹理信息和运动信息作为分类器的输入，分别经过非对称卷积核特征提取模块获取输入的特征；

再使用基于注意力的特征融合模块得到融合的特征，最终使用分类模块根据融合特征获取分类结果；

通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件，实现Merge模式早期决策。

其中，所述非对称卷积核特征提取模块对于不同尺寸的编码单元具有不同的结构。

进一步地，所述基于注意力的特征融合模块具体为：使用卷积融合三种特征，得到F_Fusion＝Conv(concat(F_{F_Luma},F_{F_Residual},F_{F_MotionField}))；

使用残差注意力单元选出更有效的特征，即F_Effect＝Φ(F_Fusion)，Φ表示残差注意力单元；

最终再通过卷积降低特征图通道数，得到F′_Effect，便于后续分类模块得到预测结果。

进一步地，所述Merge模式早期决策具体为：

在以编码单元的运动信息为条件实现Merge模式早期决策方法的基础上，以多信息融合网络模型输出的置信度作为额外条件，即，若当前编码单元在经过网络预测之后决定提前终止当前编码单元的划分，且此时网络输出的置信度超过阈值TH_Merge，才跳过Merge模式之外的其他预测模式。

本发明提供的技术方案的有益效果是：

1、本发明利用纹理和运动信息，通过卷积神经网络准确高效的预测出当前编码单元的划分过程是否可以提前终止，从而避免不必要的划分，降低编码复杂度，提升编码速度；

2、本发明利用运动信息，并且结合神经网络的预测结果准确高效的预测出当前编码单元的最优帧间预测模式是否为Merge模式，从而跳过其他帧间预测模式，降低编码复杂度，提升编码速度。

附图说明

图1为一种智能快速帧间编码方法的流程图；

图2为本发明所提方法的应用流程图；

图3为多信息融合卷积神经网络模型结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种智能快速帧间编码方法，参见图1，该方法包括以下步骤：

一、智能快速帧间编码的方法设计

为了降低编码复杂度，减少帧间编码时间，本发明实施例提出了一种智能快速帧间编码方法，包括：基于深度学习的编码单元划分提前终止方法和Merge模式早期决策方法。

每一个编码单元都具有帧间划分模式和帧间预测模式。帧间划分模式负责把大尺寸的编码单元划分成小尺寸的编码单元，例如：将一个64*64的编码单元划分成四个32*32的编码单元。帧间预测模式负责对编码单元进行预测编码。

首先，对于基于深度学习的编码单元划分提前终止方法，将编码单元的划分视作二分类问题，设计了一种多信息融合卷积神经网络模型作为分类器，参见图3。以编码单元的纹理信息和运动信息作为分类器的输入，分别经过非对称卷积核特征提取模块获取输入的特征，再使用基于注意力的特征融合模块得到融合的特征，最终使用分类模块根据融合特征获取分类结果。本方法利用分类器提前判断编码单元的划分过程是否可以提前终止，如果可以终止，那么跳过所有帧间划分模式，当前编码单元不再进一步划分，否则，跳过所有帧间预测模式，进一步划分当前编码单元。

然后，对于Merge模式早期决策方法，通过考虑编码单元的预测残差值以及多信息融合网络输出的置信度，判断是否可以跳过Merge模式之外的帧间预测模式，如果是，那么跳过那些帧间预测模式，只保留Merge模式，否则不做处理。

二、基于深度学习的编码单元划分提前终止的方法设计

四叉树加多类型树划分技术为编码单元的划分提供了较大的灵活性，显著增加了视频编码的计算复杂度。通过设计多信息融合网络模型并以其作为分类器，提前终止复杂的编码单元划分过程，从而有效降低编码的计算复杂度。多信息融合网络模式的结构示意图如图3所示。

多信息融合卷积神经网络模型的输入是编码单元的亮度分量、预测残差以及双向运动场信息(其中预测残差和运动场信息是在编码当前帧之前对这一帧进行运动估计获取的)，其中亮度分量包含纹理信息，预测残差和运动场包含运动信息。

首先使用非对称卷积核特征提取模块分别提取三个输入相应的纹理特征和运动特征，然后再通过基于注意力的特征聚合模块将提取得到的三种特征进行融合并进一步提取融合特征中的有效信息。最后使用分类模块获取当前编码单元提前终止划分的置信度，取值范围是0到1。

非对称卷积核特征提取模块用于提取输入的特征。首先，使用三个并联的卷积分别提取此模块的输入的特征，记为F₁,F₂,F₃，接着使用串联的卷积与注意力层融合这三个特征并强调特征图中有助于最终分类的信息，记融合得到的特征为F_F＝CBAM(Conv(concat(F₁,F₂,F₃)))，其中，CBAM表示注意力操作，Conv表示卷积操作，concat表示级联操作，F_F即为非对称卷积核特征提取模块的输出。

不同尺寸编码单元的性质差异较大，因此为了尽可能提升卷积神经网络作为“分类器”的准确率，以尺寸为条件把编码单元归为三类，具体而言，三个并联的卷积有不同的卷积核尺寸，分别是一个方形卷积核(N*N)和两个矩形卷积核(N-2*N+2和N+2*N-2)。为了满足准确预测不同尺寸编码单元的需求，这部分的并联卷积的配置有三类，分别是类1：{5*9,7*7,9*5},类2：{3*7,5*5,7*3}和类3：{1*5,3*3,5*1}。类1适用于尺寸为128*128(宽*高),128*64,64*128的编码单元；类2适用于尺寸为64*64,64*32,32*64,64*16,16*64的编码单元；类3适用于尺寸为32*32,32*16,16*32,16*16的编码单元(为了防止网络在小尺寸编码单元上花费过多的预测时间，网络仅用于宽和高大于等于16的编码单元)。

通过上述设计使用大尺寸的卷积核去提取大尺寸的编码单元的特征，使用小尺寸的卷积核去提取小尺寸的编码单元的特征。因此“多信息融合网络模型”一共有三种结构，这三种结构仅仅在“三个并联的卷积”这里存在差异。

编码单元的亮度分量、预测残差以及运动场信息分别经过非对称卷积核特征提取模块提取得到三种不同的特征，记为F_{F_Luma},F_{F_Residual},F_{F_MotionField}，以这三种特征作为特征聚合模块的输入。

基于注意力的特征聚合模块用于充分融合这三种不同的特征。具体的，首先使用卷积融合三种特征，得到F_Fusion＝Conv(concat(F_{F_Luma},F_{F_Residual},F_{F_MotionField}))。为了获取融合特征中的有助于最终分类的信息，使用残差注意力单元RES-CBAM选出更有效的特征(RES代表残差单元，CBAM代表空间-通道注意力单元)，即F_Effect＝Φ(F_Fusion)，Φ表示残差注意力单元RES-CBAM。最终再通过卷积降低特征图通道数，得到F′_Effect，便于后续分类模块得到预测结果。

以F′_Effect作为分类模块的输入，经过模块内的全局平均池化层与softmax层获取最终的预测置信度Confid作为结果，Confid的取值范围是[0,1]。注意，这里Confid是多信息融合卷积神经网络认为当前编码单元可以提前终止划分过程的置信度，与之相对的，1-Confid是多信息融合卷积神经网络认为当前编码单元需要进一步划分的置信度。

为了优化多信息融合网络，设计了一个损失函数L：

其中，L由两部分相加得到，第一部分是基本的交叉熵损失，第二部分是根据VVC中率失真优化的目标，对网络的错误预测和较大率失真代价施加更多的惩罚。在L中，N表示训练的批次大小，训练真值和网络预测结果由y_i和

表示，r_i表示编码单元的率失真代价，其中r₁表示非划分模式得到的最小率失真代价，r₂表示划分模式得到的最小率失真代价，r_min表示r₁和r₂中的较小值。

多信息融合网络被用于解决二分类问题，但网络不能保证获得的预测结果永远是正确的，而错误的预测结果会导致编码性能下降。因此，通过给网络输出的置信度添加阈值限制以改善此问题。具体的，当网络输出的置信度Confid超过阈值(将此阈值记作阈值TH)时，编码平台才会采用网络的预测结果，提前终止编码单元的划分过程。

三、Merge模式早期决策的方法设计

为了能够降低帧间模式预测计算复杂度，设计了Merge模式早期决策，用于提前跳过Merge模式之外的预测模式。Merge模式决策简述如下：在编码过程中，编码单元会依次经过Merge模式预测和其他模式预测。如果在编码单元经过平移Merge模式和仿射Merge模式预测之后，预测残差值始终为零，则认为Merge模式是最优帧间预测模式，跳过其他模式(即non-Merge模式)，从而节省时间。公式表达如下：

其中，φ₁为编码单元经过平移Merge模式预测之后的预测残差值；φ₂为编码单元经过仿射Merge模式预测之后的预测残差值。

为了进一步提高预测的准确率，如果当前编码单元在经过网络预测之后得到的置信度Confid超过了阈值TH，决定提前终止划分，那么此时要把网络的预测置信度作为Merge模式决策的另一条件：当预测残差为零且提前终止的置信度高于阈值TH_Merge时，才跳过Merge模式之外的帧间预测模式。

公式表达如下：

其中，Confid为网络预测的置信度。

四、集成至编码平台

所提出的帧间编码模式快速决策方法包含两部分，第一部分是使用“编码单元划分提前终止决策”判断当前的编码单元是否可以提前终止划分，第二部分是使用“Merge模式早期决策”判断是否可以跳过不必要的帧间预测模式，在实际编码过程中的应用流程参见图2。对于编码单元划分提前终止，首先使用网络预测当前帧内所有宽高大于等于16的编码单元是否提前终止划分，然后在编码的过程中，如果网络输出的终止划分置信度高于阈值TH，那么会提前终止编码单元的划分，从而节省编码时间。对于Merge模式的早期决策，如果编码单元已经被判断是提前终止划分，那么编码单元会依据预测残差值是否为零，以及网络的预测置信度是否高于阈值TH_Merge决定是否跳过Merge模式之外的预测模式。如果编码单元不会采用网络预测的结果，那么只会依据预测残差值是否始终为零决定是否跳过Merge模式之外的预测模式。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，

只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。