CN104754357A

CN104754357A - 基于卷积神经网络的帧内编码优化方法及装置

Info

Publication number: CN104754357A
Application number: CN201510130890.2A
Authority: CN
Inventors: 刘振宇; 余先宇; 汪东升
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2015-07-01
Anticipated expiration: 2035-03-24
Also published as: CN104754357B

Abstract

本发明涉及视频压缩技术领域，具体涉及一种基于卷积神经网络的帧内编码优化方法及装置。首先将当前编码单元压缩成尺寸为8×8的数据块，并计算所述8×8的数据块的边缘强度，然后根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型为平坦的编码单元、强边缘强度的编码单元或者模式不确定的编码单元，对于尺寸为32×32或者8×8的模式不确定的编码单元，进一步利用卷积神经网络确定编码单元的类型。通过对当前的编码单元不同的分类结果进行不同的编码模式处理，可以有效降低搜索编码单元CU的数量，从而减少编码的复杂度，实现实时编码。

Description

基于卷积神经网络的帧内编码优化方法及装置

技术领域

本发明涉及视频压缩技术领域，具体涉及一种基于卷积神经网络的帧内编码优化方法及装置。

背景技术

高效率视频编码(HEVC，High Efficiency Video Coding)是联合视频组在2013年发布的新一代视频编码标准。与上一代视频编码标准H.264相比较，在相同的视频质量情况下，其压缩效率提高了一倍左右，也就是比特率降低一半左右。HEVC定义了3种类型的单元：编码单元(CU，Coding Unit)、预测单元(PU，Prediction Unit)以及变换单元(TU，Transform Unit)。对于编码的一帧图像，首先被分割成多个最大编码单元(LCU，Largest Coding Unit)，LCU又分割为四个子的CU，每个子的CU可以继续分割直到最大深度为止。HEVC标准定义了四种尺寸类型的CU：64×64(LCU)，32×32，16×16，8×8，其中，对于尺寸为8×8的CU，其PU的尺寸可以为8×8或4×4的预测模型由H.264的9种扩大至35种，包括直流(DC)和planar模式。TU是针对正交变换和量化。

HEVC采用的递归的方式对LCU进行四叉树结构的划分。一个LCU会递归遍历所有深度的CU。HEVC的帧内预测模式的搜寻过程：先利用基于绝对差的和的代价函数遍历全部的35中预测模式，从中寻出n中候选模式，再提取上边块和左边块的最佳预测模式并构成最有可能的候选模式，最后把n种和最有可能的候选模式构成预测模式集合，利用率失真代价选取最佳的预测模式。TU是在CU/PU模式确定后所得到的残差进行的变换单元，找到残差矩阵最佳的分割模式，最大的减少信息冗余，使得最终的编码信息最少。

整个帧内编码模式搜索的过程，就是从HEVC标准定义的所有CU/PU/TU模式组合中寻找到最优的三者组合模式，该过程按照率失真代价最优的原则进行。然而整个帧内编码模式搜索过程所带来的计算复杂度是十分巨大的，因而需要一系列的快速编码算法，来减少编码器的编码负担。目前，减少编码器计算复杂度的算法主要可以分成三类：一是利用提前终止的算法，减少不太可能的CU模式搜索；二是滤除帧内预测时不太可能的预测模式；三是简化率失真的计算复杂度。

采用以上方法后，在平均意义上确实可以大幅度的降低编码器的计算复杂度，然而在实际的编码过程中存在着不确定性和不稳定性，很难完成实时编码的实现。

发明内容

针对现有技术在实际的编码过程中存在着不确定性和不稳定性，很难完成实时编码的实现的缺陷，本发明提供了一种基于卷积神经网络的帧内编码优化方法及装置。

本发明提供的一种基于卷积神经网络的帧内编码优化方法，包括：

将当前编码单元压缩成尺寸为8×8的数据块，并获取所述8×8的数据块的边缘强度，所述当前编码单元的尺寸为N×N，其中N∈{8,16,32,64}；

根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型，所述类型包括平坦的编码单元、强边缘强度的编码单元和模式不确定的编码单元；

若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为64×64或者16×16，则对所述当前编码单元进行最优编码模式搜索，并且进行分割；

若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为32×32或者8×8，则将所述8×8的数据块输入卷积神经网络中，确定所述当前编码单元为平坦的编码单元或者强边缘强度的编码单元；

若所述当前编码单元为平坦的编码单元，则只对所述当前编码单元进行最优编码模式的搜索，并不对所述当前编码单元进行分割；

若所述当前编码单元为强边缘强度的编码单元，则不对所述当前编码单元进行最优编码模式的搜索，直接进行分割。

进一步地，所述将当前编码单元压缩成尺寸为8×8的数据块的步骤，包括：

采用局部平均和下采样的方式将当前编码单元压缩成尺寸为8×8的数据块。

进一步地，所述采用局部平均和下采样的方式将当前编码单元压缩成尺寸为8×8的数据块的步骤，具体为：

采用以下公式将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

其中，p_i,j为压缩后尺寸为8×8的数据块中在(i,j)处的像素值，i,j∈{0,1,2,...,7}，C_l,k为当前编码单元在(l,k)处的像素值。

进一步地，所述获取所述8×8的数据块的边缘强度的步骤，具体包括：

采用以下公式计算所述8×8的数据块在(i,j)位置的边缘强度值δ_i,j，

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

其中，δx_i,j为边缘强度值得水平分量，δy_i,j为边缘强度值的竖直分量，i,j∈{0,1,2,...,6}。

进一步地，所述根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型的步骤，包括：

判断所述8×8的数据块中边缘强度的最大值δ_max以及边缘强度之和是否满足以下公式：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

其中，dQ＝u(Qp-Qs)×Qp²+u(Qs-Qp)×Qs²，Qp是量化参数，Qs是量化步长，u(x)是单位阶跃函数；

若满足，则所述当前编码单元为平坦的编码单元；

若不满足，则判断所述8×8的数据块中水平和竖直边缘强度绝对值都大于量化参数Qp的点的个数α是否大于预设阀值，若大于则所述当前编码单元为强边缘强度的编码单元，否则为模式不确定的编码单元。

另一方面，本发明还提供了一种基于卷积神经网络的帧内编码优化装置，包括：

压缩单元，用于将当前编码单元压缩成尺寸为8×8的数据块，并获取所述8×8的数据块的边缘强度，所述当前编码单元的尺寸为N×N，其中N∈{8,16,32,64}；

第一分类单元，用于根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型，所述类型包括平坦的编码单元、强边缘强度的编码单元和模式不确定的编码单元；

第一编码单元，用于若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为64×64或者16×16，则对所述当前编码单元进行最优编码模式搜索，并且进行分割；

第二分类单元，用于若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为32×32或者8×8，则将所述8×8的数据块输入卷积神经网络中，确定所述当前编码单元为平坦的编码单元或者强边缘强度的编码单元；

第二编码单元，用于若所述当前编码单元为平坦的编码单元，则只对所述当前编码单元进行最优编码模式的搜索，并不对所述当前编码单元进行分割；

第三编码单元，用于若所述当前编码单元为强边缘强度的编码单元，则不对所述当前编码单元进行最优编码模式的搜索，直接进行分割。

进一步地，所述压缩单元，具体用于：

进一步地，所述压缩单元进一步用于：

采用以下公式将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

进一步地，所述压缩单元，还用于：

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

进一步地，所述第一分类单元，具体用于：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

若满足，则所述当前编码单元为平坦的编码单元；

本发明提供的一种基于卷积神经网络的帧内编码优化方法及装置，通过对当前的编码单元分类，针对不同的分类结果进行不同的编码模式处理，可以有效降低搜索编码单元CU的数量，从而减少编码的复杂度，实现实时编码。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1是本发明一个实施例中基于卷积神经网络的帧内编码优化方法的流程示意图；

图2是本发明一个实施例中卷积神经网络的结构示意图；

图3是本发明一个实施例中基于卷积神经网络的帧内编码优化装置的结构示意图。

具体实施方式

现结合附图和实施例对本发明技术方案作进一步详细阐述。

整个帧内编码模式搜索的过程，就是从HEVC标准定义的所有CU/PU/TU模式组合中寻找到最优的三者组合模式，该过程按照率失真代价最优的原则进行。用向量表示CU/PU/TU的编码模式，HEVC的参考编码器不厌其烦的搜索所有标准定义的向量从中找到一个向量使得率失真代价最小，该过程可以用以下公式来表示：

{\overset{&RightArrow;}{P}}_{0} = \arg \min_{\overset{&RightArrow;}{P}} {D (\overset{&RightArrow;}{P}) + λR (\overset{&RightArrow;}{P})}

其中，和分别表示以模式进行编码的失真率和比特率，λ是拉格朗日因子,用于调节和在编码代价的比重。在HEVC参考代码中，每一个模式向量都要搜索，以此得到该模式对应的率失真，并且比较得到最优的编码模式实验表明随着CU/PU/TU的深度加深，模式向量的个数会大幅增加，从而导致编码器的复杂度急剧上升。

实际上，最优的编码模式才是最终编解码器所需要的，其他的编码模式是非必要的，然而这些非必要的搜索过程所带来的计算复杂度是十分巨大的，因而需要一系列的快速编码算法，来减少编码器的编码负担。

图1示出了本实施例中基于卷积神经网络的帧内编码优化方法的流程示意图，如图1所示，本实施例提供的一种基于卷积神经网络的帧内编码优化方法，包括：

S1，将当前编码单元压缩成尺寸为8×8的数据块，并获取所述8×8的数据块的边缘强度，所述当前编码单元的尺寸为N×N，其中N∈{8,16,32,64}；

S2，根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型，所述类型包括平坦的编码单元、强边缘强度的编码单元和模式不确定的编码单元；

S3，若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为64×64或者16×16，则对所述当前编码单元进行最优编码模式搜索，并且进行分割；

S4，若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为32×32或者8×8，则将所述8×8的数据块输入卷积神经网络中，确定所述当前编码单元为平坦的编码单元或者强边缘强度的编码单元；

S5，若所述当前编码单元为平坦的编码单元，则只对所述当前编码单元进行最优编码模式的搜索，并不对所述当前编码单元进行分割；

S6，若所述当前编码单元为强边缘强度的编码单元，则不对所述当前编码单元进行最优编码模式的搜索，直接进行分割。

其中，所述S1中将当前编码单元压缩成尺寸为8×8的数据块的步骤，包括：

采用局部平均和下采样的方式将当前编码单元压缩成尺寸为8×8的数据块。具体为：

采用以下公式将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

进一步地，所述S1中获取所述8×8的数据块的边缘强度的步骤，具体包括：

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

进一步地，所述S2中根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型的步骤，包括：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

若满足，则所述当前编码单元为平坦的编码单元；

其中，量化参数Qp和量化步长Qs的关系为：

\{\begin{matrix} Qs = 2^{[[Qp / 6]]} \times A [Qp % 6] \\ A [i] &Element; {0.625,0.7031,0.7969,0.8906,1,1.125} \end{matrix}

其中，[[]]表示向下取整操作，％表示模操作。

在S4中，若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为32×32或者8×8，则将压缩得到的8×8的数据块输入卷积神经网络中，确定所述当前编码单元为平坦的编码单元或者强边缘强度的编码单元，通过卷积神经网络根据输入的所述8×8的数据块的纹理特征，最终把所述当前编码单元确定为平坦的编码单元或者强边缘强度的编码单元。

其中，卷积神经网络的结构如图2所示。卷积神经网络共有6层(包括输入层)，第一层(输入层)是8×8的数据块输入；第二层是有6个特征图的卷积层，每个特征图的尺寸为6×6,卷积核的尺寸是3×3；第三层有6个下采样层，它对第二层的特征图进行子采样，采样的卷积核尺寸是2×2；第四层是有16个特征图的卷积层，每个特征图的尺寸为1×1，卷积核尺寸为3×3；从第四层到第六层(输出层)，是全连接的多层神经元网络结构，且第五层和第六层的神经元个数分别为10和2个，根据输出层的结果，最终得到当前尺寸为32×32或8×8编码单元的分类。

本实施例提供的一种基于卷积神经网络的帧内编码优化方法，通过对当前的编码单元分类，针对不同的分类结果进行不同的编码模式处理，可以有效降低搜索编码单元CU的数量，从而减少编码的复杂度，实现实时编码。

另一方面，如图3所示，本实施例还提供了一种基于卷积神经网络的帧内编码优化装置，包括：

压缩单元101，用于将当前编码单元压缩成尺寸为8×8的数据块，并计算所述8×8的数据块的边缘强度，所述当前编码单元的尺寸为N×N，其中N∈{8,16,32,64}；

第一分类单元102，用于根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型，所述类型包括平坦的编码单元、强边缘强度的编码单元和模式不确定的编码单元；

第一编码单元103，用于若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为64×64或者16×16，则对所述当前编码单元进行最优编码模式搜索，并且进行分割；

第二分类单元104，用于若所述当前编码单元为模式不确定的编码单元，并且所述当前编码单元的尺寸为32×32或者8×8，则将所述8×8的数据块输入卷积神经网络中，确定所述当前编码单元为平坦的编码单元或者强边缘强度的编码单元；

第二编码单元105，用于若所述当前编码单元为平坦的编码单元，则只对所述当前编码单元进行最优编码模式的搜索，并不对所述当前编码单元进行分割；

第三编码单元106，用于若所述当前编码单元为强边缘强度的编码单元，则不对所述当前编码单元进行最优编码模式的搜索，直接进行分割。

进一步地，所述压缩单元101，具体用于：

进一步地，所述压缩单元101进一步用于：

采用以下公式将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

进一步地，所述压缩单元101，还用于：

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

进一步地，所述第一分类单元102，具体用于：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

若满足，则所述当前编码单元为平坦的编码单元；

本实施例提供的一种基于卷积神经网络的帧内编码优化装置，通过对当前的编码单元分类，针对不同的分类结果进行不同的编码模式处理，可以有效降低搜索编码单元CU的数量，从而减少编码的复杂度，实现实时编码。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于卷积神经网络的帧内编码优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将当前编码单元压缩成尺寸为8×8的数据块的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用局部平均和下采样的方式将当前编码单元压缩成尺寸为8×8的数据块的步骤，具体为：

采用公式(1)将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

公式(1)

4.根据权利要求1所述的方法，其特征在于，所述获取所述8×8的数据块的边缘强度的步骤，具体包括：

采用公式(2)计算所述8×8的数据块在(i,j)位置的边缘强度值δ_i,j，

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

公式(2)

5.根据权利要求1所述的方法，其特征在于，所述根据所述8×8的数据块的边缘强度确定所述当前编码单元的类型的步骤，包括：

判断所述8×8的数据块中边缘强度的最大值δ_max以及边缘强度之和是否满足以下公式(3)：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

公式(3)

若满足，则所述当前编码单元为平坦的编码单元；

6.一种基于卷积神经网络的帧内编码优化装置，其特征在于，所述装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述压缩单元，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述压缩单元进一步用于：

采用公式(1)将当前编码单元压缩成尺寸为8×8的数据块，

p_{i, j} = {(\frac{8}{N})}^{2} Σ_{m = 0}^{(N / 8) - 1} Σ_{n = 0}^{(N / 8) - 1} C_{i \times (N / 8) + m, j \times (N / 8) + n}

公式(1)

9.根据权利要求6所述的装置，其特征在于，所述压缩单元，还用于：

\{\begin{matrix} {δx}_{i, j} = p_{i, j} + p_{i + 1, j} - p_{i, j + 1} - p_{i + 1, j + 1} \\ {δy}_{i, j} = p_{i + 1, j} + p_{i + 1, j + 1} - p_{i, j} - p_{i, j + 1} \\ δ_{i, j} = {δx}_{i, j}^{2} + {δy}_{i, j}^{2} \end{matrix}

公式(2)

10.根据权利要求6所述的装置，其特征在于，所述第一分类单元，具体用于：

\{\begin{matrix} Σ_{i = 0}^{6} Σ_{j = 0}^{6} δ_{i, j} < 5 \times dQ \\ δ_{\max} < {QP}^{2} \end{matrix}

公式(3)

若满足，则所述当前编码单元为平坦的编码单元；