CN116471419A - 一种基于图像复杂度的多模型融合的cu划分方法 - Google Patents
一种基于图像复杂度的多模型融合的cu划分方法 Download PDFInfo
- Publication number
- CN116471419A CN116471419A CN202310138253.4A CN202310138253A CN116471419A CN 116471419 A CN116471419 A CN 116471419A CN 202310138253 A CN202310138253 A CN 202310138253A CN 116471419 A CN116471419 A CN 116471419A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- mean
- layer
- mix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000000638 solvent extraction Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 44
- 238000007781 pre-processing Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开的一种基于图像复杂度的多模型融合的CU划分方法,包括以下步骤:根据编码块的大小选择不同的混合模型;混合模型为预先建立并训练的模型;根据选择的模型对输入的编码单元进行处理,得到的值与编码单元的真实方差相比较,从而判断图像的复杂度,对编码单元的划分情况进行预测。本发明提供一个均值模型学习图像的均值,差值模型学习图像的方差,预测CU的划分结果,如果图像的像素值存在较大的差异,说明图像包含的信息比较多,CU倾向于划分成更小的CU,如果图像的像素值几乎相等,CU的大小基本保持不变。上述方法可以优化视频编码框架中的帧内预测模式,降低视频编码框架的编码复杂度,提升视频的编码效率。
Description
技术领域
本发明涉及深度学习编码领域,具体的涉及一种基于图像复杂度的多模型融合的CU划分方法。
背景技术
近些年来,随着技术的不断升级,视频也逐渐从高清向着超高清方向不断发展,视频逐渐成为人们生活中不可或缺的一部分,提高视频的质量,快速地对视频进行压缩传输,改善用户的体验,成为现在视频研究的一个方向。在2013年,联合专家组发布了新一代高效视频编码标准(High Efficiency Video Coding,HEVC),旨在改善视频的压缩效率。
在传统的视频编码框架HEVC中,每一帧视频在编码之前都会被划分成若干个CTU,所有的变换,量化都是基于CTU进行的。根据CTU内容的复杂度,CTU可以按照四叉树原则不断向下划分成不同大小的CU,即每一个CTU都可以选择保留原来的大小或者划分成四个大小一样的编码块,CTU的尺寸最大为64x64,最小为8x8。CTU的划分方式决定了视频传输的码率和质量。为了获得最优的CTU划分方式,HEVC采用了一种率失真函数,衡量划分后CU的传输比特和质量,选择失真最小的为最优的划分方式。在选择最优的CTU划分方式的过程中,需要对父CU和四个子CU计算一次率失真函数,选择失真最小的作为划分的结果,庞大的计算量导致了视频编码的时间过长。(B.Division of the Picture into Coding TreeUnits,E.Tree-Structured Partitioning Into Transform Blocks and UnitsG.Intrapicture Prediction)
深度学习作为当前研究的热点,被广泛应用于各个领域,并且都取得了良好的效果。深度学习可以自动提取数据的特征,并且根据不同的要求得到不同的输出结果。将深度学习应用在视频压缩编解码领域,打破了传统的视频压缩模式,极大地提高了视频的编码效率。
由于寻找CTU最优划分方式是一种穷举算法,会给视频编解码带来很大的计算量,使得在视频编解码的时候耗费很长的时间,严重影响了视频的编码效率。应用深度学习方法取代视频编码中CTU的划分,可以减少视频编码的时间,提高视频编码的效率。
发明内容
本发明的目的是针对当前技术上存在的需求,提供一种均值模型、插值模型以及预测模型相结合的方法对CU(Coding Unit编码单元)的划分结果进行预测。对于一幅图像,CU的大小是和图像内容相关的,图像的本质就是由像素组成的一个多维数组,方差是衡量一个数据差异的特殊值,反映在图像上可以表示一幅图像的复杂度。如果图像的像素值存在较大的差异,其方差值会比较大,说明图像包含的信息比较多,CU倾向于划分成更小的CU,如果图像的像素值几乎相等,说明图像的内容是趋于平缓的,CU的大小基本保持不变。本发明提供一个均值模型学习图像的均值,差值模型学习图像的方差,最后提供一个预测模型预测CU的划分结果。
本发明至少通过如下技术方案之一实现。
一种基于图像复杂度的多模型融合的CU划分方法,包括以下步骤:
根据图像像素的方差作为图像复杂度建立混合模型;
构建不同的数据集训练所述的混合模型;
使用训练后的混合模型优化HEVC,优化过程包括:根据HEVC中编码单元的大小,选择相应的混合模型对视频编码框架进行优化。
进一步地,所述混合模型包括large-mix-split、middle-mix-split、small-mix-split。
进一步地,所述large-mix-split包括依次连接的第一均值模型、第一差值模型、第一预测模型,第一均值模型包括三个卷积层、平均池化层、三个全连接层;第一差值模型包括预处理层、三个卷积层、两个全连接层;第一预测模型包括全连接层。
进一步地,在第一个卷积层中,输入的图像与多个卷积核进行卷积,获得不同类型的矩阵;第一个卷积层后接所述的平均池化层;在第二、第三个卷积层中,将得到的不同类型的矩阵依次通过多个卷积核进行卷积,最后将得到的矩阵组合构成向量,向量依次通过三个所述的全连接层;
三个全连接层分别为两个隐藏层和一个输出层,两个隐藏层的输出分别为f1-1和f1-2,最后的输出为均值E1(X);
第一差值模型包括预处理层、三个卷积层、两个全连接层;在预处理层中,输入图像的每个像素pi,j与均值E1(X)相减,i,j为图像像素的坐标,i,j∈(0,64),预处理后的数据依次通过不同的卷积核进行卷积,最终得到的矩阵合并成一个向量,合并的向量经过两个全连接层,得到输出U1(X);
第一预测模型包括全连接层,输入是U1(X),经过所述全连接层后得到预测结果。
进一步地,所述middle-mix-split包括依次连接的第二均值模型、第二差值模型、第二预测模型;所述第二均值模型包括两个卷积层、平均池化层、两个全连接层;第二差值模型包括预处理层、两个卷积层、两个全连接层;第二预测模型包括全连接层。
进一步地,所述small-mix-split包括第三均值模型、第三差值模型、第三预测模型,第三均值模型包括两个卷积层、两个全连接层;第三差值模型包括预处理层、两个卷积层、两个全连接层;第三预测模型包括全连接层。
进一步地,所述编码单元大小为64*64,则所述混合模型为large-mix-split;所述编码单元大小为32*32,则所述混合模型为middle-mix-split;所述编码单元大小为16*16,则所述混合模型为small-mix-split。
进一步地,采用HEVC标准参考程序对数据库中的图像进行编码,获得分割的标志;采用python程序计算数据库中图像的均值和方差;通过获得的标志、均值和方差训练对应的混合模型。
进一步地,对于混合模型的训练包括以下过程:
通过HEVC标准程序对不同数据集中的图像进行编码获得划分标志,通过图像的均值和方差,用对应的数据库训练相对应的模型。
进一步地,混合模型最后的输出都是对图像分割的一个标志;混合模型的目标函数都是一致的;对于每个数据库中的样本图像,其目标函数L为均值模型,差值模型以及预测模型之和:
其中,(x-E(X))2为均值模型的目标函数,是图像的真实均值,E(X)为图像预测的均值,(σ-U(X))2为差值模型的目标函数,σ是图像预测的差值,U(X)是图像预测的差值,H(y,Y(X))为预测模型的目标函数,H(·,·)为交叉熵函数,y是真实的分割标志,Y(X)是预测的分割标志,L为整个混合模型的目标函数。
与现有的技术相比,本发明的有益效果为:
(1)简化了传统编码框架中复杂的帧内预测模式,将训练好的模型嵌入到HEVC中,可以根据编码单元的大小自动选择相应的模型,从而判断当前的CU是否需要分割成更小的编码单元,节省了视频编码的时间。
(2)large-mix-split、middle-mix-split、small-mix-split模型都是建立在大量数据下训练得到的,可以有效保证视频的质量。
(3)相比于其他技术中单一的网络,本发明引入了图像像素的方差作为图像复杂度,从而建立了一个有效的混合模型,更有利于编码块的预测。
附图说明
图1为本发明实施例的large-mix-split模型结构图;
图2为本发明实施例的middle-mix-split模型结构图;
图3为本发明实施例的small-mix-split模型结构图;
图4为本发明实施例一种基于图像复杂度的多模型融合的CU划分方法预测流程图;
图5为本发明实施例的残差模块结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,以下将结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决视频编码编码时间过长的问题,可以利用深度学习自动学习的能力去对视频编码框架进行优化。现在大多数对视频编码的研究大多数停留在对原图像进行处理,而忽略了图像本身所具有的一些性质。相比之下,本发明提出的large-mix-split(大编码单元混合模型)、middle-mix-split(中等编码单元混合模型)、small-mix-split(小编码单元混合模型)混合模型,结合了矩阵方差这一特性,用方差表示图像的复杂度,方差可以表示一组数据的差异,图像本质上是一组数据的集合,因此可以用方差衡量一幅图像的复杂度,用于处理不同大小编码单元的分割结果,简化了视频编码流程,节省了视频编码时间。本发明引入图像的均值,方差,以及最后的分割结果,根据编码单元大小的不同,分别构建了一个包含多个分辨率图像的数据集,提出了一种多模型混合的方法,简化了视频的编码流程。
本实施例的一种基于图像复杂度的多模型融合的CU划分方法为一种基于深度学习的HEVC帧内编码单元的划分方法,包括以下步骤:将64x64、32x32、16x16大小的编码块分别进行预处理,预处理的过程包括去均值,降噪。预处理后的编码块输入到设计的神经网络中进行预测。判断一个编码块内容的复杂度,从而对视频编码框架中编码块的划分进行预测,基于多模型混合预测视频编码块的划分具体实施步骤如下:
首先,构建混合模型,所述混合模型包括large-mix-split(大编码单元混合模型)、middle-mix-split(中等编码单元混合模型)、small-mix-split(小编码单元混合模型),然后对所述混合模型进行训练。其中large-mix-split对应编码块(单元)的大小为64*64,middle-mix-split对应编码块大小为32*32,small-mix-split对应编码块大小为16*16。
对于large-mix-split、middle-mix-split、small-mix-split的训练包括以下过程:
构建混合模型训练所需要的数据集:根据模型输入大小的不同,构建三种不同的数据集;每一种数据集中都包含训练集、验证集和测试集;通过HEVC(High EfficiencyVideo Coding超高清视频编码)标准程序对数据集中的图像进行编码获得划分标志;通过python程序计算图像的均值和方差;用对应的数据库训练相对应的模型。根据编码单元大小的不同,得出的large-mix-split、middle-mix-split、small-mix-split的模型如图1、图2、图3所示。
作为一种优选,构建middle-mix-split和small-mix-split所需要的数据集和构建large-mix-split的数据集的过程一致,只是数据集的大小从64*64变为32*32和16*16。
large-mix-split的输入是一个64*64的矩阵,代表图像的亮度信息,用X表示;large-mix-split包含三个部分:第一均值模型、第一差值模型、第一预测模型,各部分的具体配置和功能如下:
第一均值模型包括三个卷积层、平均池化层、三个全连接层;第一个卷积层中,输入的图像与16个3*3的核进行卷积,获得16种不同类型的矩阵,提取原矩阵中数据的相关信息;第一个卷积层后接所述的平均池化层,对数据进行降维;在第二、第三个卷积层中,将上述得到的16种不同类型的矩阵依次通过32、64个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到64个3*3的矩阵;在所有的卷积层中,卷积操作的步长都等于2;得到的64个3*3的矩阵组合在一起构成一个向量;组合成的向量依次通过三个全连接层,三个全连接层分别为两个隐藏层和一个输出层,两个隐藏层的输出分别为f1-1和f1-2,最后的输出为均值E1(X)。在训练的过程中,为了防止过拟合现象,全连接层的特征均以50%的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。
第一差值模型的输入为一个64*64的矩阵,第一差值模型包括预处理层、三个卷积层、两个全连接层;在预处理层中,输入图像的每个像素pi,j与均值E1(X)相减,即pi,j-E1(X)(i,j∈(0,64))(i,j为图像像素的坐标),预处理后的数据依次通过16、32、64个2*2的核进行卷积,最终得到64个矩阵。第一差值模型所有的卷积操作的步长都等于核的边长;得到的64个矩阵合并在一起形成一个向量;所得向量经过两个全连接层,得到输出U1(X)。第一差值模型所有的卷积层和隐含层都是由修正线性单元激活。
第一预测模型包括全连接层,输入是一个1*1的值,第一预测模型的输入是U1(X),经过一个全连接层后得到预测结果。
middle-mix-split的输入是一个32*32的矩阵,代表图像的亮度信息,用X表示;middle-mix-split包含三个部分:第二均值模型、第二差值模型、第二预测模型。各部分的具体配置和功能如下:
第二均值模型包括两个卷积层、平均池化层、两个全连接层;第一个卷积层中,输入的图像与16个3*3的核进行卷积,获得16种不同类型的矩阵,提取原矩阵中数据的相关信息;第一个卷积层后接第二均值模型的平均池化层,对数据进行降维;在第二个卷积层中,将上述得到的矩阵通过32个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到32个矩阵;在第二均值模型所有的卷积层中,卷积操作的步长都等于2;得到的32个矩阵组合在一起构成一个向量;组合成的向量依次通过第二均值模型的两个全连接层:隐藏层的输出为f2-1,最后的输出为E2(X)。在训练的过程中,为了防止过拟合现象,全连接层的特征均以50%的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。
第二差值模型的输入为两个32*32的矩阵,第二差值模型包括预处理层、两个卷积层、两个全连接层;在预处理层中,输入图像的每个像素与均值相减,即qy,z-E2(X)(y,z∈(0,32)),
预处理后的数据依次通过16、32个2*2的核进行卷积,最终得到32个矩阵。所有的卷积操作的步长都等于核的边长;得到的32个矩阵合并在一起形成一个向量;所得向量经过第二均值模型的两个全连接层,得到输出U2(X);第二均值模型所有的卷积层和隐含层都是由修正线性单元激活。
第二预测模型的输入是一个1*1的值,包括全连接层。预测模型的输入是U2(X),经过一个全连接层后得到预测结果。
small-mix-split的输入是一个16*16的矩阵,代表图像的亮度信息,用X表示;small-mix-split包含三个部分:第三均值模型、第三差值模型、第三预测模型,各部分的具体配置和功能如下:
第三均值模型包括两个卷积层、两个全连接层;第一个卷积层中,输入的图像与8个3*3的核进行卷积,获得8种不同类型的矩阵;在第二个卷积中,将第一个卷积层得到的矩阵通过16个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到16个矩阵;在第三均值模型所有的卷积层中,卷积操作的步长都等于2;最后得到的16个矩阵组合在一起构成一个向量;组合成的向量依次通过两个全连接层:隐藏层的输出为f3-1,最后的输出为E3(X)。在训练的过程中,为了防止过拟合现象,全连接层的特征均以50%的概率随机丢弃。所有的卷积层和隐含层都是由修正线性单元激活。
第三差值模型的输入是一个16*16的矩阵,第三差值模型包括预处理层、两个卷积层、两个全连接层;在预处理层中,输入图像的每个像素与均值相减,即al,m-E3(X)(l,m∈(0,16)),预处理后的数据依次通过8、16个2*2的核进行卷积,最终得到16个矩阵。所有的卷积操作的步长都等于核的边长;得到的16个矩阵合并在一起形成一个向量;所得向量经过两个全连接层,得到输出U3(X);所有的卷积层和隐含层都是由修正线性单元激活。
第三预测模型的输入是一个1*1的值,第三包含一个全连接层,输入是U3(X),经过一个全连接层后得到预测结果。
large-mix-split、middle-mix-split、small-mix-split的模型训练的目标函数是相同的,对于每个模型,其目标函数为均值模型、差值模型和预测模型的和:
其中,其中,第一部分为均值模型的目标函数,/>是图像的真实均值,E(X)为图像预测的均值,第二部分(σ-U(X))2为差值模型的目标函数,σ是图像预测的差值,U(X)是图像预测的差值,第三部分H(y,Y(X))为预测模型的目标函数,H(·,·)为交叉熵函数,y是真实的分割标志,Y(X)是预测的分割标志。L为整个混合模型的目标函数。最后,利用动量随机梯度下降法进行训练,训练好的模型可以嵌入到HEVC中可以预测CU的划分结果,加快视频编码效率。
使用混合模型优化HEVC的主要过程。首先,设置编码单元的大小为64*64,随着编码过程的进行,编码单元会划分成32*32、16*16或者8*8大小的编码单元。HEVC中加入一个判断条件,判断输入的编码单元大小,根据大小的不同,形成3个分支。图4是优化后的编码过程。如果输入的编码单元的大小为64*64,则经过large-mix-split模型,对输入的模型进行预测,如果模型的输出为1,则划分成4个32*32的编码单元,如果输出为0,则保持原来编码单元的大小不变;如果输入的编码单元为32*32,则经过middle-mix-split模型,如果模型的输出为1,则划分成4个16*16的编码单元,如果输出为0,则保持原来编码单元的大小不变;如果输入的编码单元为16*16,则经过small-mix-split模型,如果模型的输出为1,则划分成4个8*8的编码单元,如果输出为0,则保持原来编码单元的大小不变;新添加的判断条件可以跳过原程序中复杂的判断过程,因此可以很好地简化视频的编码过程。
上述实施例使用了具体的预处理方法和神经网络对输入的编码快进行处理。作为一种优选的实施例,在具体的实施过程中,可以使用其他的预处理方法和深度学习算法。
首先可以使用归一化的方法对64x64、32x32、16x16大小的编码块进行预处理,使得图像的像素值在某一个固定的范围内。预处理的编码块经过混合模型。实例二中的混合模型主要是由简单的神经网络构成,结合编码块的特点,可以用其他的算法对编码单元进行更好的划分。
作为另一种优选的实施例,large-mix-split包含均值模型,差值模型和预测模型,均值模型的输入是一个64*64的矩阵,代表图像的亮度信息,用X表示;均值模型的输出用E1(X)表示,差值模型的输出用U1(X)表示,预测模型的输出用Y1(X)表示;均值模型包含三个卷积层,一个池化层,三个全连接层;差值模型的输入一个64*64的矩阵,包含一个预处理层,三个卷积层,两个全连接层;预测模型的输入是一个1*1的值,包含一个全连接层。首先,在均值模型中,第一个卷积层中,输入的图像与16个3*3的核进行卷积,获得16种不同类型的矩阵,提取原矩阵中数据的相关信息;第一个卷积层后接一个平均池化层,对数据进行降维;在第二,第三个卷积层中,将上述得到的矩阵依次通过32,64个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到64个3*3的矩阵;在所有的卷积层中,卷积操作的步长都等于2;得到的64个3*3的矩阵组合在一起构成一个向量;组合成的向量依次通过三个全连接层:包含两个隐藏层和一个输出层,两个隐藏层的输出分别为f1-1和f1-2,最后的输出为E1(X)。均值模型的输出E1(X)与原图像一起输入到差值模型中;首先经过一个预处理层,在预处理层中,输入图像的每个像素与均值相减,即pi,j-E1(X)(i,j∈(0,64)),预处理后的数据依次通过16,32,64个2*2的核进行卷积,最终得到64个矩阵。所有的卷积操作的步长都等于核的边长;得到的64个矩阵合并在一起形成一个向量;所得向量经过两个全连接层,得到输出U1(X);预测模型的输入是U1(X),经过一个全连接层后得到预测结果。所述large-mix-split模型训练的目标函数如下:
其中,第一部分为均值模型的目标函数,第二部分(σ-U1(X))2为差值模型的目标函数,第三部分H(y,Y1(X))为预测模型的目标函数,H(·,·)为交叉熵函数,L1为整个混合模型的目标函数。
middle-mix-split包含均值模型,差值模型和预测模型,均值模型的输入是一个32*32的矩阵,代表图像的亮度信息,用X表示;均值模型的输出用E2(X)表示,差值模型的输出用U2(X)表示,预测模型的输出用Y2(X)表示;均值模型包含两个卷积层,一个池化层,两个全连接层;差值模型的输入一个32*32的矩阵,包含一个预处理层,两个卷积层,两个全连接层;预测模型的输入是一个1*1的值,包含一个全连接层。首先,在均值模型中,第一个卷积层中,输入的图像与16个3*3的核进行卷积,获得16种不同类型的矩阵,提取原矩阵中数据的相关信息;第一个卷积层后接一个平均池化层,对数据进行降维;在第二个卷积层中,将上述得到的矩阵通过32个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到32个矩阵;在所有的卷积层中,卷积操作的步长都等于2;得到的32个矩阵组合在一起构成一个向量;组合成的向量依次通过两个全连接层:隐藏层的输出为f2-1,最后的输出为E2(X)。均值模型的输出E2(X)与原图像一起输入到差值模型中;首先经过一个预处理层,在预处理层中,输入图像的每个像素与均值相减,即pi,j-E2(X)(i,j∈(0,32)),预处理后的数据依次通过16,32个2*2的核进行卷积,最终得到32个矩阵。所有的卷积操作的步长都等于核的边长;得到的32个矩阵合并在一起形成一个向量;所得向量经过两个全连接层,得到输出U2(X);预测模型的输入是U2(X),经过一个全连接层后得到预测结果。所述middle-mix-split模型训练的目标函数如下:
其中,第一部分为均值模型的目标函数,第二部分(σ-U2(X))2为差值模型的目标函数,第三部分H(y,Y2(X))2为预测模型的目标函数,H(·,·)为交叉熵函数,L2为整个混合模型的目标函数。
small-mix-split包含均值模型,差值模型和预测模型,均值模型的输入是一个16*16的矩阵,代表图像的亮度信息,用X表示;均值模型的输出用E3(X)表示,差值模型的输出用U3(X)表示,预测模型的输出用Y3(X)表示;均值模型包含两个卷积层,两个全连接层;差值模型的输入一个16*16的矩阵,包含一个预处理层,两个卷积层,两个全连接层;预测模型的输入是一个1*1的值,包含一个全连接层。首先,在均值模型中,第一个卷积层中,输入的图像与8个3*3的核进行卷积,获得8种不同类型的矩阵;在第二个卷积中,将上述得到的矩阵通过16个2*2的核进行卷积,进一步学习矩阵中数据之间的关系,最后可以得到16个矩阵;在所有的卷积层中,卷积操作的步长都等于2;得到的16个矩阵组合在一起构成一个向量;组合成的向量依次通过两个全连接层:隐藏层的输出为f3-1,最后的输出为E3(X)。均值模型的输出E3(X)与原图像一起输入到差值模型中;首先经过一个预处理层,在预处理层中,输入图像的每个像素与均值相减,即pi,j-E3(X)(i,j∈(0,16)),预处理后的数据依次通过8,16个2*2的核进行卷积,最终得到16个矩阵。所有的卷积操作的步长都等于核的边长;得到的16个矩阵合并在一起形成一个向量;所得向量经过两个全连接层,得到输出U3(X);预测模型的输入是U3(X),经过一个全连接层后得到预测结果。所述small-mix-split模型训练的目标函数如下:
其中,第一部分为均值模型的目标函数,第二部分(σ-U3(X))2为差值模型的目标函数,第三部分H(y,Y3(X))2为预测模型的目标函数,H(·,·)为交叉熵函数,L3为整个混合模型的目标函数。
所述三个模型都利用随机梯度下降法进行训练;训练好的模型可以嵌入到HEVC中可以预测CU的划分结果,加快视频编码效率。具体的,训练所述的large-mix-split的步骤,包括:构建large-mix-split模型所需要的数据集;采用HEVC标准参考程序对数据集中的图像进行编码,获得数据集中图像的划分结果;通过一个python程序计算数据集中每个图像亮度分量的均值以及方差;采用所述划分结果,均值和方差训练对应的large-mix-split;数据集中包含训练集,验证集和测试集;每一个训练集,验证集和测试集都包含三个子集;三个子集的中图像的分辨率分别为2880*1920,1536*1024,768*512。
在均值模型,差值模型中,可以引入图5所示的残差模块,使得模型更容易优化,增加模型深度,提高预测的准确率,缓解增加深度带来的梯度消失的问题。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,包括以下步骤:
根据图像像素的方差作为图像复杂度建立混合模型;
构建不同的数据集训练所述的混合模型;
使用训练后的混合模型优化HEVC,优化过程包括:根据HEVC中编码单元的大小,选择相应的混合模型对视频编码框架进行优化。
2.根据权利要求1所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,所述混合模型包括large-mix-split、middle-mix-split、small-mix-split。
3.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,所述large-mix-split包括依次连接的第一均值模型、第一差值模型、第一预测模型,第一均值模型包括三个卷积层、平均池化层、三个全连接层;第一差值模型包括预处理层、三个卷积层、两个全连接层;第一预测模型包括全连接层。
4.根据权利要求3所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,在第一个卷积层中,输入的图像与多个卷积核进行卷积,获得不同类型的矩阵;第一个卷积层后接所述的平均池化层;在第二、第三个卷积层中,将得到的不同类型的矩阵依次通过多个卷积核进行卷积,最后将得到的矩阵组合构成向量,向量依次通过三个所述的全连接层;
三个全连接层分别为两个隐藏层和一个输出层,两个隐藏层的输出分别为f1-1和f1-2,最后的输出为均值E1(X);
第一差值模型包括预处理层、三个卷积层、两个全连接层;在预处理层中,输入图像的每个像素pi,j与均值E1(X)相减,i,j为图像像素的坐标,i,j∈(0,64),预处理后的数据依次通过不同的卷积核进行卷积,最终得到的矩阵合并成一个向量,合并的向量经过两个全连接层,得到输出U1(X);
第一预测模型包括全连接层,输入是U1(X),经过所述全连接层后得到预测结果。
5.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,所述middle-mix-split包括依次连接的第二均值模型、第二差值模型、第二预测模型;所述第二均值模型包括两个卷积层、平均池化层、两个全连接层;第二差值模型包括预处理层、两个卷积层、两个全连接层;第二预测模型包括全连接层。
6.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,所述small-mix-split包括第三均值模型、第三差值模型、第三预测模型,第三均值模型包括两个卷积层、两个全连接层;第三差值模型包括预处理层、两个卷积层、两个全连接层;第三预测模型包括全连接层。
7.根据权利要求2所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,所述编码单元大小为64*64,则所述混合模型为large-mix-split;所述编码单元大小为32*32,则所述混合模型为middle-mix-split;所述编码单元大小为16*16,则所述混合模型为small-mix-split。
8.根据权利要求1~7任一项所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,采用HEVC标准参考程序对数据库中的图像进行编码,获得分割的标志;采用python程序计算数据库中图像的均值和方差;通过获得的标志、均值和方差训练对应的混合模型。
9.根据权利要求8所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,对于混合模型的训练包括以下过程:
通过HEVC标准程序对不同数据集中的图像进行编码获得划分标志,通过图像的均值和方差,用对应的数据库训练相对应的模型。
10.根据权利要求8所述的一种基于图像复杂度的多模型融合的CU划分方法,其特征在于,混合模型最后的输出都是对图像分割的一个标志;混合模型的目标函数都是一致的;对于每个数据库中的样本图像,其目标函数L为均值模型,差值模型以及预测模型之和:
其中,(x-E(X))2为均值模型的目标函数,是图像的真实均值,E(X)为图像预测的均值,(σU(X))2为差值模型的目标函数,σ是图像预测的差值,U(X)是图像预测的差值,H(y,Y(X))为预测模型的目标函数,H(·,·)为交叉熵函数,y是真实的分割标志,Y(X)是预测的分割标志,L为整个混合模型的目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138253.4A CN116471419A (zh) | 2023-02-20 | 2023-02-20 | 一种基于图像复杂度的多模型融合的cu划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138253.4A CN116471419A (zh) | 2023-02-20 | 2023-02-20 | 一种基于图像复杂度的多模型融合的cu划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116471419A true CN116471419A (zh) | 2023-07-21 |
Family
ID=87177662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138253.4A Pending CN116471419A (zh) | 2023-02-20 | 2023-02-20 | 一种基于图像复杂度的多模型融合的cu划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116471419A (zh) |
-
2023
- 2023-02-20 CN CN202310138253.4A patent/CN116471419A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517329B (zh) | 一种基于语义分析的深度学习图像压缩方法 | |
CN112702599B (zh) | 一种基于深度学习的vvc帧内快速编码方法 | |
CN114286093A (zh) | 一种基于深度神经网络的快速视频编码方法 | |
CN111355956A (zh) | 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 | |
CN113132727B (zh) | 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法 | |
CN110677644A (zh) | 一种视频编码、解码方法及视频编码帧内预测器 | |
CN107657228A (zh) | 视频场景相似性分析方法及系统、视频编解码方法及系统 | |
CN108289224B (zh) | 一种视频帧预测方法、装置及自动补偿神经网络 | |
CN114827604B (zh) | 一种高效率视频编码帧内ctu划分的方法及系统 | |
CN108924558A (zh) | 一种基于神经网络的视频预测编码方法 | |
CN102075757B (zh) | 通过边界检测作为运动估计参考的视频前景对象编码方法 | |
CN117456017B (zh) | 一种基于上下文聚类变换的端到端图像压缩方法 | |
CN112468808A (zh) | 一种基于强化学习的i帧目标带宽分配方法及装置 | |
CN113784147B (zh) | 一种基于卷积神经网络的高效视频编码方法及系统 | |
CN102592130B (zh) | 一种针对水下显微视频的目标识别系统及其视频编码方法 | |
CN107690069A (zh) | 一种数据驱动的级联视频编码方法 | |
CN114463450A (zh) | 基于人工智能的计算机图像压缩方法及系统 | |
CN111741313B (zh) | 基于图像熵k均值聚类的3d-hevc快速cu分割方法 | |
CN116600107B (zh) | 基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法及装置 | |
CN116471419A (zh) | 一种基于图像复杂度的多模型融合的cu划分方法 | |
CN118200601A (zh) | 一种基于时空上下文的点云压缩方法、系统、设备及介质 | |
CN118101951A (zh) | 一种遥感影像复杂场景感兴趣区域压缩方法及系统 | |
CN108259914B (zh) | 基于物体库的云图像编码方法 | |
CN112070851B (zh) | 基于遗传算法和bp神经网络的索引图预测方法 | |
CN118101961A (zh) | 一种基于隐式神经表示的质量可伸缩视频编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |