CN116471419A

CN116471419A - 一种基于图像复杂度的多模型融合的cu划分方法

Info

Publication number: CN116471419A
Application number: CN202310138253.4A
Authority: CN
Inventors: 周智恒; 吴文劲; 曹英烈; 许皓淇; 余翔宇; 杨俊怡
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-07-21

Abstract

本发明公开的一种基于图像复杂度的多模型融合的CU划分方法，包括以下步骤：根据编码块的大小选择不同的混合模型；混合模型为预先建立并训练的模型；根据选择的模型对输入的编码单元进行处理，得到的值与编码单元的真实方差相比较，从而判断图像的复杂度，对编码单元的划分情况进行预测。本发明提供一个均值模型学习图像的均值，差值模型学习图像的方差，预测CU的划分结果,如果图像的像素值存在较大的差异，说明图像包含的信息比较多，CU倾向于划分成更小的CU，如果图像的像素值几乎相等，CU的大小基本保持不变。上述方法可以优化视频编码框架中的帧内预测模式，降低视频编码框架的编码复杂度，提升视频的编码效率。

Description

一种基于图像复杂度的多模型融合的CU划分方法

技术领域

本发明涉及深度学习编码领域，具体的涉及一种基于图像复杂度的多模型融合的CU划分方法。

背景技术

近些年来，随着技术的不断升级，视频也逐渐从高清向着超高清方向不断发展，视频逐渐成为人们生活中不可或缺的一部分，提高视频的质量，快速地对视频进行压缩传输，改善用户的体验，成为现在视频研究的一个方向。在2013年，联合专家组发布了新一代高效视频编码标准(High Efficiency Video Coding，HEVC)，旨在改善视频的压缩效率。

在传统的视频编码框架HEVC中，每一帧视频在编码之前都会被划分成若干个CTU，所有的变换，量化都是基于CTU进行的。根据CTU内容的复杂度，CTU可以按照四叉树原则不断向下划分成不同大小的CU，即每一个CTU都可以选择保留原来的大小或者划分成四个大小一样的编码块，CTU的尺寸最大为64x64，最小为8x8。CTU的划分方式决定了视频传输的码率和质量。为了获得最优的CTU划分方式，HEVC采用了一种率失真函数，衡量划分后CU的传输比特和质量，选择失真最小的为最优的划分方式。在选择最优的CTU划分方式的过程中，需要对父CU和四个子CU计算一次率失真函数，选择失真最小的作为划分的结果，庞大的计算量导致了视频编码的时间过长。(B.Division of the Picture into Coding TreeUnits，E.Tree-Structured Partitioning Into Transform Blocks and UnitsG.Intrapicture Prediction)

深度学习作为当前研究的热点，被广泛应用于各个领域，并且都取得了良好的效果。深度学习可以自动提取数据的特征，并且根据不同的要求得到不同的输出结果。将深度学习应用在视频压缩编解码领域，打破了传统的视频压缩模式，极大地提高了视频的编码效率。

由于寻找CTU最优划分方式是一种穷举算法，会给视频编解码带来很大的计算量，使得在视频编解码的时候耗费很长的时间，严重影响了视频的编码效率。应用深度学习方法取代视频编码中CTU的划分，可以减少视频编码的时间，提高视频编码的效率。

发明内容

本发明的目的是针对当前技术上存在的需求，提供一种均值模型、插值模型以及预测模型相结合的方法对CU(Coding Unit编码单元)的划分结果进行预测。对于一幅图像，CU的大小是和图像内容相关的，图像的本质就是由像素组成的一个多维数组，方差是衡量一个数据差异的特殊值，反映在图像上可以表示一幅图像的复杂度。如果图像的像素值存在较大的差异，其方差值会比较大，说明图像包含的信息比较多，CU倾向于划分成更小的CU，如果图像的像素值几乎相等，说明图像的内容是趋于平缓的，CU的大小基本保持不变。本发明提供一个均值模型学习图像的均值，差值模型学习图像的方差，最后提供一个预测模型预测CU的划分结果。

本发明至少通过如下技术方案之一实现。

一种基于图像复杂度的多模型融合的CU划分方法，包括以下步骤：

根据图像像素的方差作为图像复杂度建立混合模型；

构建不同的数据集训练所述的混合模型；

使用训练后的混合模型优化HEVC，优化过程包括：根据HEVC中编码单元的大小，选择相应的混合模型对视频编码框架进行优化。

进一步地，所述混合模型包括large-mix-split、middle-mix-split、small-mix-split。

进一步地，所述large-mix-split包括依次连接的第一均值模型、第一差值模型、第一预测模型，第一均值模型包括三个卷积层、平均池化层、三个全连接层；第一差值模型包括预处理层、三个卷积层、两个全连接层；第一预测模型包括全连接层。

进一步地，在第一个卷积层中，输入的图像与多个卷积核进行卷积，获得不同类型的矩阵；第一个卷积层后接所述的平均池化层；在第二、第三个卷积层中，将得到的不同类型的矩阵依次通过多个卷积核进行卷积，最后将得到的矩阵组合构成向量，向量依次通过三个所述的全连接层；

三个全连接层分别为两个隐藏层和一个输出层，两个隐藏层的输出分别为f_1-1和f_1-2，最后的输出为均值E₁(X)；

第一差值模型包括预处理层、三个卷积层、两个全连接层；在预处理层中，输入图像的每个像素p_i,j与均值E₁(X)相减，i,j为图像像素的坐标，i,j∈(0,64)，预处理后的数据依次通过不同的卷积核进行卷积，最终得到的矩阵合并成一个向量，合并的向量经过两个全连接层，得到输出U₁(X)；

第一预测模型包括全连接层，输入是U₁(X)，经过所述全连接层后得到预测结果。

进一步地，所述middle-mix-split包括依次连接的第二均值模型、第二差值模型、第二预测模型；所述第二均值模型包括两个卷积层、平均池化层、两个全连接层；第二差值模型包括预处理层、两个卷积层、两个全连接层；第二预测模型包括全连接层。

进一步地，所述small-mix-split包括第三均值模型、第三差值模型、第三预测模型，第三均值模型包括两个卷积层、两个全连接层；第三差值模型包括预处理层、两个卷积层、两个全连接层；第三预测模型包括全连接层。

进一步地，所述编码单元大小为64*64，则所述混合模型为large-mix-split；所述编码单元大小为32*32，则所述混合模型为middle-mix-split；所述编码单元大小为16*16，则所述混合模型为small-mix-split。

进一步地，采用HEVC标准参考程序对数据库中的图像进行编码，获得分割的标志；采用python程序计算数据库中图像的均值和方差；通过获得的标志、均值和方差训练对应的混合模型。

进一步地，对于混合模型的训练包括以下过程：

通过HEVC标准程序对不同数据集中的图像进行编码获得划分标志，通过图像的均值和方差，用对应的数据库训练相对应的模型。

进一步地，混合模型最后的输出都是对图像分割的一个标志；混合模型的目标函数都是一致的；对于每个数据库中的样本图像，其目标函数L为均值模型，差值模型以及预测模型之和：

其中，(x-E(X))²为均值模型的目标函数，是图像的真实均值，E(X)为图像预测的均值，(σ-U(X))²为差值模型的目标函数，σ是图像预测的差值，U(X)是图像预测的差值，H(y,Y(X))为预测模型的目标函数，H(·,·)为交叉熵函数，y是真实的分割标志，Y(X)是预测的分割标志，L为整个混合模型的目标函数。

与现有的技术相比，本发明的有益效果为：

(1)简化了传统编码框架中复杂的帧内预测模式，将训练好的模型嵌入到HEVC中，可以根据编码单元的大小自动选择相应的模型，从而判断当前的CU是否需要分割成更小的编码单元，节省了视频编码的时间。

(2)large-mix-split、middle-mix-split、small-mix-split模型都是建立在大量数据下训练得到的，可以有效保证视频的质量。

(3)相比于其他技术中单一的网络，本发明引入了图像像素的方差作为图像复杂度，从而建立了一个有效的混合模型，更有利于编码块的预测。

附图说明

图1为本发明实施例的large-mix-split模型结构图；

图2为本发明实施例的middle-mix-split模型结构图；

图3为本发明实施例的small-mix-split模型结构图；

图4为本发明实施例一种基于图像复杂度的多模型融合的CU划分方法预测流程图；

图5为本发明实施例的残差模块结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，以下将结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决视频编码编码时间过长的问题，可以利用深度学习自动学习的能力去对视频编码框架进行优化。现在大多数对视频编码的研究大多数停留在对原图像进行处理，而忽略了图像本身所具有的一些性质。相比之下，本发明提出的large-mix-split(大编码单元混合模型)、middle-mix-split(中等编码单元混合模型)、small-mix-split(小编码单元混合模型)混合模型，结合了矩阵方差这一特性，用方差表示图像的复杂度，方差可以表示一组数据的差异，图像本质上是一组数据的集合，因此可以用方差衡量一幅图像的复杂度，用于处理不同大小编码单元的分割结果，简化了视频编码流程，节省了视频编码时间。本发明引入图像的均值，方差，以及最后的分割结果，根据编码单元大小的不同，分别构建了一个包含多个分辨率图像的数据集，提出了一种多模型混合的方法，简化了视频的编码流程。

本实施例的一种基于图像复杂度的多模型融合的CU划分方法为一种基于深度学习的HEVC帧内编码单元的划分方法，包括以下步骤：将64x64、32x32、16x16大小的编码块分别进行预处理，预处理的过程包括去均值，降噪。预处理后的编码块输入到设计的神经网络中进行预测。判断一个编码块内容的复杂度，从而对视频编码框架中编码块的划分进行预测，基于多模型混合预测视频编码块的划分具体实施步骤如下：

首先，构建混合模型，所述混合模型包括large-mix-split(大编码单元混合模型)、middle-mix-split(中等编码单元混合模型)、small-mix-split(小编码单元混合模型)，然后对所述混合模型进行训练。其中large-mix-split对应编码块(单元)的大小为64*64，middle-mix-split对应编码块大小为32*32，small-mix-split对应编码块大小为16*16。

对于large-mix-split、middle-mix-split、small-mix-split的训练包括以下过程：

构建混合模型训练所需要的数据集：根据模型输入大小的不同，构建三种不同的数据集；每一种数据集中都包含训练集、验证集和测试集；通过HEVC(High EfficiencyVideo Coding超高清视频编码)标准程序对数据集中的图像进行编码获得划分标志；通过python程序计算图像的均值和方差；用对应的数据库训练相对应的模型。根据编码单元大小的不同，得出的large-mix-split、middle-mix-split、small-mix-split的模型如图1、图2、图3所示。

作为一种优选，构建middle-mix-split和small-mix-split所需要的数据集和构建large-mix-split的数据集的过程一致，只是数据集的大小从64*64变为32*32和16*16。

large-mix-split的输入是一个64*64的矩阵，代表图像的亮度信息，用X表示；large-mix-split包含三个部分：第一均值模型、第一差值模型、第一预测模型，各部分的具体配置和功能如下：

第一均值模型包括三个卷积层、平均池化层、三个全连接层；第一个卷积层中，输入的图像与16个3*3的核进行卷积，获得16种不同类型的矩阵，提取原矩阵中数据的相关信息；第一个卷积层后接所述的平均池化层，对数据进行降维；在第二、第三个卷积层中，将上述得到的16种不同类型的矩阵依次通过32、64个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到64个3*3的矩阵；在所有的卷积层中，卷积操作的步长都等于2；得到的64个3*3的矩阵组合在一起构成一个向量；组合成的向量依次通过三个全连接层，三个全连接层分别为两个隐藏层和一个输出层，两个隐藏层的输出分别为f_1-1和f_1-2，最后的输出为均值E₁(X)。在训练的过程中，为了防止过拟合现象，全连接层的特征均以50％的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。

第一差值模型的输入为一个64*64的矩阵，第一差值模型包括预处理层、三个卷积层、两个全连接层；在预处理层中，输入图像的每个像素p_i,j与均值E₁(X)相减，即p_i,j-E₁(X)(i,j∈(0,64))(i,j为图像像素的坐标)，预处理后的数据依次通过16、32、64个2*2的核进行卷积，最终得到64个矩阵。第一差值模型所有的卷积操作的步长都等于核的边长；得到的64个矩阵合并在一起形成一个向量；所得向量经过两个全连接层，得到输出U₁(X)。第一差值模型所有的卷积层和隐含层都是由修正线性单元激活。

第一预测模型包括全连接层，输入是一个1*1的值，第一预测模型的输入是U₁(X)，经过一个全连接层后得到预测结果。

middle-mix-split的输入是一个32*32的矩阵，代表图像的亮度信息，用X表示；middle-mix-split包含三个部分：第二均值模型、第二差值模型、第二预测模型。各部分的具体配置和功能如下：

第二均值模型包括两个卷积层、平均池化层、两个全连接层；第一个卷积层中，输入的图像与16个3*3的核进行卷积，获得16种不同类型的矩阵，提取原矩阵中数据的相关信息；第一个卷积层后接第二均值模型的平均池化层，对数据进行降维；在第二个卷积层中，将上述得到的矩阵通过32个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到32个矩阵；在第二均值模型所有的卷积层中，卷积操作的步长都等于2；得到的32个矩阵组合在一起构成一个向量；组合成的向量依次通过第二均值模型的两个全连接层：隐藏层的输出为f_2-1，最后的输出为E₂(X)。在训练的过程中，为了防止过拟合现象，全连接层的特征均以50％的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。

第二差值模型的输入为两个32*32的矩阵，第二差值模型包括预处理层、两个卷积层、两个全连接层；在预处理层中，输入图像的每个像素与均值相减，即q_y,z-E₂(X)(y,z∈(0,32))，

预处理后的数据依次通过16、32个2*2的核进行卷积，最终得到32个矩阵。所有的卷积操作的步长都等于核的边长；得到的32个矩阵合并在一起形成一个向量；所得向量经过第二均值模型的两个全连接层，得到输出U₂(X)；第二均值模型所有的卷积层和隐含层都是由修正线性单元激活。

第二预测模型的输入是一个1*1的值，包括全连接层。预测模型的输入是U₂(X)，经过一个全连接层后得到预测结果。

small-mix-split的输入是一个16*16的矩阵，代表图像的亮度信息，用X表示；small-mix-split包含三个部分：第三均值模型、第三差值模型、第三预测模型，各部分的具体配置和功能如下：

第三均值模型包括两个卷积层、两个全连接层；第一个卷积层中，输入的图像与8个3*3的核进行卷积，获得8种不同类型的矩阵；在第二个卷积中，将第一个卷积层得到的矩阵通过16个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到16个矩阵；在第三均值模型所有的卷积层中，卷积操作的步长都等于2；最后得到的16个矩阵组合在一起构成一个向量；组合成的向量依次通过两个全连接层：隐藏层的输出为f_3-1，最后的输出为E₃(X)。在训练的过程中，为了防止过拟合现象，全连接层的特征均以50％的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。

第三差值模型的输入是一个16*16的矩阵，第三差值模型包括预处理层、两个卷积层、两个全连接层；在预处理层中，输入图像的每个像素与均值相减，即a_l,m-E₃(X)(l,m∈(0,16))，预处理后的数据依次通过8、16个2*2的核进行卷积，最终得到16个矩阵。所有的卷积操作的步长都等于核的边长；得到的16个矩阵合并在一起形成一个向量；所得向量经过两个全连接层，得到输出U₃(X)；所有的卷积层和隐含层都是由修正线性单元激活。

第三预测模型的输入是一个1*1的值，第三包含一个全连接层，输入是U₃(X)，经过一个全连接层后得到预测结果。

large-mix-split、middle-mix-split、small-mix-split的模型训练的目标函数是相同的，对于每个模型，其目标函数为均值模型、差值模型和预测模型的和：

其中，其中，第一部分为均值模型的目标函数，/>是图像的真实均值，E(X)为图像预测的均值，第二部分(σ-U(X))²为差值模型的目标函数，σ是图像预测的差值，U(X)是图像预测的差值，第三部分H(y,Y(X))为预测模型的目标函数，H(·,·)为交叉熵函数，y是真实的分割标志，Y(X)是预测的分割标志。L为整个混合模型的目标函数。最后，利用动量随机梯度下降法进行训练，训练好的模型可以嵌入到HEVC中可以预测CU的划分结果，加快视频编码效率。

使用混合模型优化HEVC的主要过程。首先，设置编码单元的大小为64*64，随着编码过程的进行，编码单元会划分成32*32、16*16或者8*8大小的编码单元。HEVC中加入一个判断条件，判断输入的编码单元大小，根据大小的不同，形成3个分支。图4是优化后的编码过程。如果输入的编码单元的大小为64*64，则经过large-mix-split模型，对输入的模型进行预测，如果模型的输出为1，则划分成4个32*32的编码单元，如果输出为0，则保持原来编码单元的大小不变；如果输入的编码单元为32*32，则经过middle-mix-split模型，如果模型的输出为1，则划分成4个16*16的编码单元，如果输出为0，则保持原来编码单元的大小不变；如果输入的编码单元为16*16，则经过small-mix-split模型，如果模型的输出为1，则划分成4个8*8的编码单元，如果输出为0，则保持原来编码单元的大小不变；新添加的判断条件可以跳过原程序中复杂的判断过程，因此可以很好地简化视频的编码过程。

上述实施例使用了具体的预处理方法和神经网络对输入的编码快进行处理。作为一种优选的实施例，在具体的实施过程中，可以使用其他的预处理方法和深度学习算法。

首先可以使用归一化的方法对64x64、32x32、16x16大小的编码块进行预处理，使得图像的像素值在某一个固定的范围内。预处理的编码块经过混合模型。实例二中的混合模型主要是由简单的神经网络构成，结合编码块的特点，可以用其他的算法对编码单元进行更好的划分。

作为另一种优选的实施例，large-mix-split包含均值模型，差值模型和预测模型，均值模型的输入是一个64*64的矩阵，代表图像的亮度信息，用X表示；均值模型的输出用E₁(X)表示，差值模型的输出用U₁(X)表示，预测模型的输出用Y₁(X)表示；均值模型包含三个卷积层，一个池化层，三个全连接层；差值模型的输入一个64*64的矩阵，包含一个预处理层，三个卷积层，两个全连接层；预测模型的输入是一个1*1的值，包含一个全连接层。首先，在均值模型中，第一个卷积层中，输入的图像与16个3*3的核进行卷积，获得16种不同类型的矩阵，提取原矩阵中数据的相关信息；第一个卷积层后接一个平均池化层，对数据进行降维；在第二，第三个卷积层中，将上述得到的矩阵依次通过32，64个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到64个3*3的矩阵；在所有的卷积层中，卷积操作的步长都等于2；得到的64个3*3的矩阵组合在一起构成一个向量；组合成的向量依次通过三个全连接层：包含两个隐藏层和一个输出层，两个隐藏层的输出分别为f_1-1和f_1-2，最后的输出为E₁(X)。均值模型的输出E₁(X)与原图像一起输入到差值模型中；首先经过一个预处理层，在预处理层中，输入图像的每个像素与均值相减，即p_i,j-E₁(X)(i,j∈(0,64))，预处理后的数据依次通过16，32，64个2*2的核进行卷积，最终得到64个矩阵。所有的卷积操作的步长都等于核的边长；得到的64个矩阵合并在一起形成一个向量；所得向量经过两个全连接层，得到输出U₁(X)；预测模型的输入是U₁(X)，经过一个全连接层后得到预测结果。所述large-mix-split模型训练的目标函数如下：

其中，第一部分为均值模型的目标函数，第二部分(σ-U₁(X))²为差值模型的目标函数，第三部分H(y,Y₁(X))为预测模型的目标函数，H(·,·)为交叉熵函数，L₁为整个混合模型的目标函数。

middle-mix-split包含均值模型，差值模型和预测模型，均值模型的输入是一个32*32的矩阵，代表图像的亮度信息，用X表示；均值模型的输出用E₂(X)表示，差值模型的输出用U₂(X)表示，预测模型的输出用Y₂(X)表示；均值模型包含两个卷积层，一个池化层，两个全连接层；差值模型的输入一个32*32的矩阵，包含一个预处理层，两个卷积层，两个全连接层；预测模型的输入是一个1*1的值，包含一个全连接层。首先，在均值模型中，第一个卷积层中，输入的图像与16个3*3的核进行卷积，获得16种不同类型的矩阵，提取原矩阵中数据的相关信息；第一个卷积层后接一个平均池化层，对数据进行降维；在第二个卷积层中，将上述得到的矩阵通过32个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到32个矩阵；在所有的卷积层中，卷积操作的步长都等于2；得到的32个矩阵组合在一起构成一个向量；组合成的向量依次通过两个全连接层：隐藏层的输出为f_2-1，最后的输出为E₂(X)。均值模型的输出E₂(X)与原图像一起输入到差值模型中；首先经过一个预处理层，在预处理层中，输入图像的每个像素与均值相减，即p_i,j-E₂(X)(i,j∈(0,32))，预处理后的数据依次通过16，32个2*2的核进行卷积，最终得到32个矩阵。所有的卷积操作的步长都等于核的边长；得到的32个矩阵合并在一起形成一个向量；所得向量经过两个全连接层，得到输出U₂(X)；预测模型的输入是U₂(X)，经过一个全连接层后得到预测结果。所述middle-mix-split模型训练的目标函数如下：

其中，第一部分为均值模型的目标函数，第二部分(σ-U₂(X))²为差值模型的目标函数，第三部分H(y,Y₂(X))²为预测模型的目标函数，H(·,·)为交叉熵函数，L₂为整个混合模型的目标函数。

small-mix-split包含均值模型，差值模型和预测模型，均值模型的输入是一个16*16的矩阵，代表图像的亮度信息，用X表示；均值模型的输出用E₃(X)表示，差值模型的输出用U₃(X)表示，预测模型的输出用Y₃(X)表示；均值模型包含两个卷积层，两个全连接层；差值模型的输入一个16*16的矩阵，包含一个预处理层，两个卷积层，两个全连接层；预测模型的输入是一个1*1的值，包含一个全连接层。首先，在均值模型中，第一个卷积层中，输入的图像与8个3*3的核进行卷积，获得8种不同类型的矩阵；在第二个卷积中，将上述得到的矩阵通过16个2*2的核进行卷积，进一步学习矩阵中数据之间的关系，最后可以得到16个矩阵；在所有的卷积层中，卷积操作的步长都等于2；得到的16个矩阵组合在一起构成一个向量；组合成的向量依次通过两个全连接层：隐藏层的输出为f_3-1，最后的输出为E₃(X)。均值模型的输出E₃(X)与原图像一起输入到差值模型中；首先经过一个预处理层，在预处理层中，输入图像的每个像素与均值相减，即p_i,j-E₃(X)(i,j∈(0,16))，预处理后的数据依次通过8，16个2*2的核进行卷积，最终得到16个矩阵。所有的卷积操作的步长都等于核的边长；得到的16个矩阵合并在一起形成一个向量；所得向量经过两个全连接层，得到输出U₃(X)；预测模型的输入是U₃(X)，经过一个全连接层后得到预测结果。所述small-mix-split模型训练的目标函数如下：

其中，第一部分为均值模型的目标函数，第二部分(σ-U₃(X))²为差值模型的目标函数，第三部分H(y,Y₃(X))²为预测模型的目标函数，H(·,·)为交叉熵函数，L₃为整个混合模型的目标函数。

所述三个模型都利用随机梯度下降法进行训练；训练好的模型可以嵌入到HEVC中可以预测CU的划分结果，加快视频编码效率。具体的，训练所述的large-mix-split的步骤，包括：构建large-mix-split模型所需要的数据集；采用HEVC标准参考程序对数据集中的图像进行编码，获得数据集中图像的划分结果；通过一个python程序计算数据集中每个图像亮度分量的均值以及方差；采用所述划分结果，均值和方差训练对应的large-mix-split；数据集中包含训练集，验证集和测试集；每一个训练集，验证集和测试集都包含三个子集；三个子集的中图像的分辨率分别为2880*1920，1536*1024，768*512。

在均值模型，差值模型中，可以引入图5所示的残差模块，使得模型更容易优化，增加模型深度，提高预测的准确率，缓解增加深度带来的梯度消失的问题。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，包括以下步骤：

根据图像像素的方差作为图像复杂度建立混合模型；

构建不同的数据集训练所述的混合模型；

2.根据权利要求1所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，所述混合模型包括large-mix-split、middle-mix-split、small-mix-split。

3.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，所述large-mix-split包括依次连接的第一均值模型、第一差值模型、第一预测模型，第一均值模型包括三个卷积层、平均池化层、三个全连接层；第一差值模型包括预处理层、三个卷积层、两个全连接层；第一预测模型包括全连接层。

4.根据权利要求3所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，在第一个卷积层中，输入的图像与多个卷积核进行卷积，获得不同类型的矩阵；第一个卷积层后接所述的平均池化层；在第二、第三个卷积层中，将得到的不同类型的矩阵依次通过多个卷积核进行卷积，最后将得到的矩阵组合构成向量，向量依次通过三个所述的全连接层；

5.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，所述middle-mix-split包括依次连接的第二均值模型、第二差值模型、第二预测模型；所述第二均值模型包括两个卷积层、平均池化层、两个全连接层；第二差值模型包括预处理层、两个卷积层、两个全连接层；第二预测模型包括全连接层。

6.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，所述small-mix-split包括第三均值模型、第三差值模型、第三预测模型，第三均值模型包括两个卷积层、两个全连接层；第三差值模型包括预处理层、两个卷积层、两个全连接层；第三预测模型包括全连接层。

7.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，所述编码单元大小为64*64，则所述混合模型为large-mix-split；所述编码单元大小为32*32，则所述混合模型为middle-mix-split；所述编码单元大小为16*16，则所述混合模型为small-mix-split。

8.根据权利要求1～7任一项所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，采用HEVC标准参考程序对数据库中的图像进行编码，获得分割的标志；采用python程序计算数据库中图像的均值和方差；通过获得的标志、均值和方差训练对应的混合模型。

9.根据权利要求8所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，对于混合模型的训练包括以下过程：

10.根据权利要求8所述的一种基于图像复杂度的多模型融合的CU划分方法，其特征在于，混合模型最后的输出都是对图像分割的一个标志；混合模型的目标函数都是一致的；对于每个数据库中的样本图像，其目标函数L为均值模型，差值模型以及预测模型之和：

其中，(x-E(X))²为均值模型的目标函数，是图像的真实均值，E(X)为图像预测的均值，(σU(X))²为差值模型的目标函数，σ是图像预测的差值，U(X)是图像预测的差值，H(y,Y(X))为预测模型的目标函数，H(·,·)为交叉熵函数，y是真实的分割标志，Y(X)是预测的分割标志，L为整个混合模型的目标函数。