CN116320398B - 基于神经网络优化的质量shvc编码方法 - Google Patents

基于神经网络优化的质量shvc编码方法 Download PDF

Info

Publication number
CN116320398B
CN116320398B CN202310289471.8A CN202310289471A CN116320398B CN 116320398 B CN116320398 B CN 116320398B CN 202310289471 A CN202310289471 A CN 202310289471A CN 116320398 B CN116320398 B CN 116320398B
Authority
CN
China
Prior art keywords
mode
current
neural network
possibility
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310289471.8A
Other languages
English (en)
Other versions
CN116320398A (zh
Inventor
汪大勇
邝毅
陈柳林
黄令
梁鹏
许亚庆
储浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310289471.8A priority Critical patent/CN116320398B/zh
Publication of CN116320398A publication Critical patent/CN116320398A/zh
Application granted granted Critical
Publication of CN116320398B publication Critical patent/CN116320398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及SHVC视频编码领域,具体涉及一种基于神经网络优化的质量SHVC编码方法;所述方法包括在Intra模式和ILR模式的选择过程中,采用第一神经网络模型做出提前预判;利用当前模式的模式可能性来选择不同比率的网络模型进行预测,实现视频编码过程的加速;在Intra模式的帧内模式的遍历过程中,针对帧内模式的方向特性,采用第二神经网络模型进行分类,来跳过繁杂的方向模式遍历。在深度的预测过程中,利用第三神经网络模型实现CU的深度预测。通过本发明对编码过程的优化,在几乎不损失视频质量的情况下,有效节约了编码时间。

Description

基于神经网络优化的质量SHVC编码方法
技术领域
本发明涉及SHVC视频编码领域,具体涉及一种基于神经网络优化的质量SHVC编码方法。
背景技术
随着网络技术的不断发展和移动设备的逐渐普及,信息的传递方式也发生了变化,从之前静态的文字图片变为了动态的视频。视频应用技术和人们的生活息息相关,特别是在短视频方面,依靠着日益强大的网络带宽技术和普及的移动通信设备,迎来了爆发式的增长。在近几年的疫情时代,视频会议在学校、公司、政府等机构都有着广泛的应用,这也给视频编码技术也提出了新的要求。
为了满足人们对于高分辨率视频传输要求,视频编码专家组(VCEG)和运动图像专家组(MPEG)联合成立了一个视频编码联合协作小组(JCT-VC),由JCT-VC来开发新一代视频编码标准HEVC,现在已经取代了过去的H.264标准,成为了主流的视频压缩标准。HEVC不仅提升了视频图像质量,同时在压缩效率方面也能达到H.264/AVC两倍之多。同时,关于HEVC的可伸缩视频编码技术(SHVC)也应运而生。SHVC是基于HEVC的可分级版本,可通过对码流的一次解码而产生不同的分辨率大小的视频,从而满足人们多样的需求。SHVC在视频会议、视频监控、互联网视频等领域都有着很广泛的应用。
当前对于SHVC的研究主要分为两类:一种是基于启发式的研究方法,这种方法一般利用了SHVC多层编码的特点,通过计算或数理统计得到相对应的阈值,来提前预测或终止某些编码过程,如:CU划分过程、模式选择过程、帧内方向模式遍历等;另一种是基于机器学习和深度学习的研究方法,随着AlexNet夺得ImageNet比赛的冠军,深度学习在各个领域都有着十分广泛的应用,在视频编码方面,这几年也利用了决策树和卷积神经网络等技术来对视频编码过程进行优化,并取得了良好的效果。
数理统计等方法的研究取得了不错的进展,但是这方面的时间减少和码流减少仍然有着进步空间。同样的,在深度学习方面,虽然利用深度学习技术加速编码有一个不错的提升,但是这些研究都没有很有效的利用CU之间的相关性。
发明内容
基于数理统计的研究方法性能方面有待提升,而基于深度学习的方法却没有很好的适配当前编码器的特点,即没有很好的利用CU之间的相关性。本发明提出的方案在于如何在神经网络中充分利用已编码CU的特征,对视频编码进行优化。
针对SHVC的的神经网络优化方法共包括以下三点:
1.在Intra模式和ILR模式的选择过程中,采用第一神经网络模型做出提前预判。利用第一卷积神经网络判断是否跳过帧内模式的编码,将与模式相关的系数被放入至第一卷积神经网络模型的全连接层中。并利用当前模式的模式可能性来选择不同比率的网络模型进行预测,实现视频编码过程的加速;为了降低模型运行时间,对其进行剪枝处理。
2.在Intra模式的帧内模式的遍历过程中,需要对35种模式进行遍历选择。本发明针对帧内模式的方向特性,采用了非对称的卷积核,将提取到的特征送入第二神经网络模型中进行分类,来跳过繁杂的方向模式遍历。
3.在深度的预测过程中,利用第三神经网络模型实现CU的深度预测,为了降低模型运行时间,对其进行剪枝处理。并利用已编码信息,计算CU当前深度的可能性,按照不同可能性区间选择模型。对CU划分进行提前预测。
本发明的一种基于神经网络优化的质量SHVC编码方法,所述方法包括:
S1:根据已编码信息,计算得到当前视频编码单元的深度可能性和当前模式的模式可能性;
S2:遍历ILR层间模式,得到当前ILR层间模式的残差;
S3:基于当前ILR层间模式的残差,根据当前模式的模式可能性所处的区间,采用对应区间的第一神经网络模型,预测当前ILR层间模式是否为最优模式;
S4:若当前ILR层间模式不是最优模式,则遍历Intra帧内模式;根据当前模式的模式可能性和当前预测单元的大小,采用对应区间的第二神经网络模型,预测得到候选列表;按照所述候选列表完成率失真优化遍历;转至步骤S6;
S5:若当前ILR层间模式是最优模式,则跳过Intra帧内模式;转至步骤S6;
S6:根据当前视频编码单元的深度可能性的区间,采用对应区间的第三神经网络模型预测当前深度;判断是否跳过当前预测深度继续划分,若选择划分,则返回步骤S1继续计算下一个视频编码单元的深度可能性,直至达到预设深度;若选择不划分,当前视频编码单元的深度遍历结束。
本发明的有益效果:
本发明利用第一神经网络模型完成Intra模式和ILR模式的选择,实现视频编码过程的加速;利用第二神经网络模型完成Intra模式的帧内模式的遍历,跳过了繁杂的方向模式遍历过程,加快了编码过程,提高了编码效率;利用第三神经网络模型完成CU的深度预测,降低了模型运行时间;通过本发明专利对编码过程的优化,在几乎不损失视频质量的情况下,至少节约了80%的编码时间。
附图说明
图1是本发明实施例的一种基于神经网络优化的质量SHVC编码方法流程图;
图2是本发明实施例的第一神经网络结构图;
图3是本发明实施例的35种帧内模式示意图;
图4是本发明实施例的第二神经网络结构图;
图5是本发明实施例的CTU的划分示意图;
图6是本发明实施例的第三神经网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于神经网络优化的质量SHVC编码方法流程图,如图1所示,所述方法包括:
S1:根据已编码信息,计算得到当前视频编码单元的深度可能性和当前模式的模式可能性;
在本发明实施例中,可通过公式来计算当前深度的可能性大小fd(cd):
其中,cd是当前CU的深度级别之一,fd(cd)表示当前CU最终划分为四个深度的可能性大小,fd(i),i∈[0,3]分别代表了当前CU划分为四个深度的可能性,p(cd)表示当前CU深度为cd的可能性。fd(cd)反映了当前CU最终倾向于向哪个深度的概率,充分利用了已编码CU的时间相关性和空间相关性,使得最终的预测结果更加精准。
在本发明实施例中,可通过朴素贝叶斯公式计算得到当前模式的模式可能性fm(cm):
其中,fm(cm)表示当前模式的模式可能性,cm是当前编码单元使用的模式可能性之一,fm(mILR)表示通过当前编码单元的相邻块计算得出的ILR层间模式的模式可能性,fm(mIntra)表示通过当前编码单元的相邻块计算得出的Intra帧内模式的模式可能性;p(cm)是当前编码单元使用模式cm的概率。fm(cm)充分利用了CU的编码信息,在制作数据集时将其一并保存下来。
S2:遍历ILR层间模式,得到当前ILR层间模式的残差;
在本发明实施例中,利用编码器可以自动计算出当前ILR层间模式的残差,本发明可以直接获取上述当前ILR层间模式的残差,由于现有技术中所述编码器已经具备上述功能,本发明就不再详述。
S3:基于当前ILR层间模式的残差,根据当前模式的模式可能性所处的区间,采用对应区间的第一神经网络模型,预测当前ILR层间模式是否为最优模式;
在本发明实施例中,在质量可伸缩SHVC的AI配置环境下,需要遍历ILR层间模式和Intra帧内模式。遍历这两种模式花费了大量的时间,因此,本专利提出了一种基于神经网络模型的模型选择预测方法,通过输入ILR模式的预测残差来判断是否跳过Intra模式。
本实施例设计了四种网络结构对是否跳过Intra模式进行预测,四种网络结构分别对应着64×64、32×32、16×16以及8×8的ILR模式残差输入,残差代表了预测效果的好坏,也在一定程度上代表了最终采用这种模式的可能性。以64×64大小的第一神经网络的整体结构为例,如图2所示,第一神经网络模型包含了三层卷积层和三层全连接层,最后一层卷积层和最初一层全连接层通过展平层连接。第一神经网络的三层卷积层都共享了相同的卷积核大小,分别是16、24、48。对于输入尺寸为8×8的小块,使用了更小的感受野,以便更精细的提取图像特征。原始像素经过三层卷积层之后来到了全连接层,第一层全连接层的参数来自于第二层卷积层和第三层卷积层的卷积结果,以便更好的保留图像的特征。因此,三个网络结构中,其对应的第一层全连接层输入向量个数分别是2715、131、411。在三层全连接层中,所有的网络都有着相同的神经元个数,分别为128、64和2。具体网络信息可参考如表1所示。
表1第一神经网络的网络层参数
由于残差数据有着比较大的波动范围,因此,第一神经网络模型将输入进来的残差先进行均值池化的预处理操作,均值池化可以减少特征的尺寸,提高计算深度,之后是同样的三层卷积和三层全连接层的网络结构以及相应的展平层。所有网络的卷积核大小、滤波器个数以及步长等信息都已在上表中给出。本实施例中,将第二层卷积核第三层卷积的结果一同加入至第一层全连接层中,以便保留更多的特征。而在全连接层中,加入了量化参数QP、率失真值RDCost(图2中简称RD)和当前模式的模式可能性fm(cm)(图2中简称P)。
可以理解的是,在质量可伸缩SHVC中,量化参数QP是一个很重要的值,它的大小可以影响最终的划分结果。如果QP设置的越大,视频压缩比就越高,生成的视频文件也就越小,但是解压后的图像质量会相应变差。相反,量化参数越小,视频压缩比就越低,生成的视频文件会更大,但是解压后的图像细节会更加丰富。而RDCost是用来衡量最终采用哪种模式的指标,因此这里将ILR模式的RDCost也加入其中。
S4:若当前ILR层间模式不是最优模式,则遍历Intra帧内模式;根据当前模式的模式可能性和当前预测单元的大小,采用对应区间的第二神经网络模型,预测得到候选列表;按照所述候选列表完成率失真优化遍历;转至步骤S6;
在本发明实施例中,编码器进行模式选择时,遍历到帧内模式时,需要进行RMD(rough mode decision)粗糙模式决策和RDO(Rate Distortion Optimization)率失真优化两个步骤。在RMD粗选过程中,通常需要遍历所有方向模式,这是个极其繁琐的过程。图3展示SHVC的35种方向模式,包括Planner模式、DC模式和33种方向模式。模式0是Planner模式,Planner模式使用了水平和垂直方向的两个线性滤波器,适合于纹理变化平缓的区域。模式1是DC模式,适用于大面积的平坦区域。在方向模式中,模式2~17为水平类模式,模式18~34为垂直类模式。如此细化的方向模式使得视频的预测更加准确,但是编码复杂度也随之提升。
本方法同样利用了深度学习来对Intra帧内模式的遍历实现优化提升,由于相邻的方向模式有着极强的相关性,而Planner模式和DC模式常常被平坦的区域所选择,因此将其各自设置为一类。而方向模式10和26代表了当前CU的水平和垂直方向,因此将与这两种模式相邻的两个模式一同划分为一类,最后将其余模式按照相邻位置,每三个分为一组。即依次可以分为Planner、DC、2~4、5~7、8~12、13~15和16~20帧内模式,每一组帧内模式可以对应一个预测类别,例如Planner可以对应类别0,DC可以对应类别1,以此类推。
针对大小为64×64、32×32、16×16、8×8的四种PU模式选择,本实施例设计了对应的第二神经网络对其进行预测。图4展示了预测大小为64×64的帧内模式神经网络结构,包括三层卷积层和三层全连接层,最后一层卷积层和最初一层全连接层通过展平层连接,而每层卷积层又有三个不同尺寸的卷积,卷积层和全连接层设置的滤波器个数不相等;输出的类别数量与第一神经网络也不同。其中输入数据为每个CU的原始像素值。与之前的第一神经网络不同的是,在第一层卷积层中,使用了三个不同规格的卷积核进行特征提取,包括:7×7的传统对称卷积核与8×4、4×8的两个非对称卷积核。相比较与传统卷积,非对称卷积核对水平和垂直信息有着更强的信息提取能力。输入进来的原始像素值数据经过三个卷积之后,合并为第一层的卷积结果,然后送入第二层的卷积层中。将第二层和第三层的卷积结果一并放入全连接层中,在所有全连接层中,加入了量化参数QP、层间相关系数C和当前模式的模式可能性fm(cm)(图4中简称P),以便更好的实现对帧内模式的预测。
在QS中,由于基本层和增强层的分辨率、帧率等配置都相同,因此它们之间有着极强的相关性。对于帧内模式的分类本文已经描述,下表统计了在增强层EL中,基本层BL位于相同位置采取的同一类帧内模式的比例,如表2所示:
表2 BL与EL相同位置采用同类帧内模式的比例
类别 比率
0 0.429496
1 0.271832
2 0.30048
3 0.368798
4 0.688747
5 0.42313
6 0.555726
7 0.512583
8 0.558988
9 0.403424
10 0.351983
上表中可以看出,在类别4、6、7、8中BL与EL采用同一类帧内模式的比例均大于50%,基本层与增强层之间所采用的帧内模式有着极强的关联性,因此在神经网络的全连接层中加入对应类别的帧内模式比例。
对于PU大小为32×32与16×16的网络,在第一层卷积层中与图4一致,都采用了三种卷积对其进行特征提取。由于8×8提供的信息较少,因此在第一层中只采用了两种卷积进行处理。图4给出了PU大小为64×64的网络配置,其余的3种尺寸网络配置在下表3中给出:
表3第二神经网络的网络层参数
通过训练四种网络可以实现对帧内模式的提前预测,在RMD粗选过程中可以调用对应的神经网络进行预测,将预测结果设置为RMD最终采用的模式,这样就跳过了复杂的模式遍历过程。
S5:若当前ILR层间模式是最优模式,则跳过Intra帧内模式;转至步骤S6;
在本实施例中,需要判断当前ILR层间模式是否已经是最优模式,通过这种判断能够确定是否需要跳过Intra帧内模式,从而尽可能减少编码时间。
S6:根据当前视频编码单元的深度可能性的区间,采用对应区间的第三神经网络模型预测当前深度;判断是否跳过当前预测深度继续划分,若选择划分,则返回步骤S1继续计算下一个视频编码单元的深度可能性,直至达到预设深度;若选择不划分,当前视频编码单元的深度遍历结束。
在SHVC中,会将输入进来的视频序列划分为相同大小的CTU,CTU大小为64×64,接着再将CTU四叉树划分为许多子CU,CU作为一个最基本的编码单位,其尺寸大小从64×64到32×32、16×16、8×8,对应的深度依次为0、1、2、3,图5显示了一个CTU的四叉树划分示例。在整体视频编码过程中,CU的划分过程占据了大量的运行时间,很大程度的影响了编码性能的提升。
因此,本发明专利使用了卷积神经网络来对CU划分进行预测。由于CU划分是将大尺寸的CTU划分为小尺寸的CU,也即是通过预测64×64是否需要划分成32×32;32×32是否需要划分成16×16;16×16是否需要划分成8×8三种方式;而8×8是最小的深度,不会再将8×8继续往下划分,所以本发明的第三神经网络至少有三种;第三神经网络的整体结构如图6所示,设计了三种网络结构对其预测,分别对应着64×64、32×32以及16×16的亮度分量输入。视频序列中的图像的原始像素可以反应纹理的复杂程度,因此将图像的原始像素值设置为第三神经网络模型的输入。该第三神经网络与第一神经网络类似,但是全连接层部分略有不同;以64×64大小的第三神经网络的整体结构为例,如图6所示,每个第三神经网络模型都包含了三层卷积层和三层全连接层。最后一层卷积层和最初一层全连接层通过展平层连接,每种第三神经网络的三层卷积层都共享了相同的卷积参数,其卷积核大小、输入通道数和输出通道数依次为(4、1、16)、(2、16、24)、(2、24、32)。原始像素经过三层卷积层之后来到了全连接层,第一层全连接层的参数来自于第二层卷积层和第三层卷积层的卷积结果,以便更好的保留图像的特征;在所有全连接层中加入了对划分有着重要影响的量化参数QP和当前深度的可能性fd(cd)(图6中简称Q)。因此,三个网络结构中,其对应的第一层全连接层的输入向量长度分别是2050、514、130。所有网络结构中,三层全连接层的神经元个数相同,分别是64、48、1。
可通过公式来计算当前深度的可能性大小fd(cd):
其中,cd是当前CU的深度级别之一,fd(cd)表示当前CU最终划分为四个深度的可能性大小,fd(i),i∈[0,3]分别代表了当前CU划分为四个深度的可能性,p(cd)表示当前CU深度为cd的可能性。fd(cd)反映了当前CU最终倾向于向哪个深度的概率,充分利用了已编码CU的时间相关性和空间相关性,使得最终的预测结果更加精准。
通过上述神经网络可以很好的实现对CU划分的提前预测以及帧内模式的提前预测,但是其模型复杂度太高,调用模型需要进行大量的计算,下表给出了网络运行一次所需的计算量,如表4所示。
表4神经网络运行所需的计算量
表4展示了该神经网络卷积层与全连接层的权重参数个数以及加法和乘法的运算次数。其中Ci-ji∈[1,4],j∈[1,3],i代表了针对64×64至8×8的四种神经网络,j代表了该神经网络的第j个卷积层;类似的,fi-ji∈[1,4],j∈[1,3],i代表了针对64×64至8×8的四种神经网络,j代表了该神经网络的第j层全连接层。从表中可以看出,对于所有深度各运行一次模型,共需要进行1308176次加法和1394456乘法运算,这是一个极其庞大的计算量。因此,这里需要对模型进行剪枝处理。
针对以下视频序列建立了一个CU划分的数据库。共有17个视频序列,包括均质、平坦的ParkScene序列和运动较剧烈的RaceHorses序列。这些视频序列涵盖了大部分的主流的分辨率,从1920×1080至416×240,本数据集都包括在内,如表5所示。
表5 CU提前划分预测的数据集
将其中的90%作为训练集、10%作为测试集。验证集则采用下表中SHM官方测试视频序列,如表6所示。
表6 CU提前划分预测的测试集
第一神经网络包括四种神经网络结构,而第三神经网络包括三种神经网络,而每种网络结构中又可以对应多个区间的网络结构,因此,本发明可以采用网络剪枝的方式来削减每个网络模型中的参数;网络剪枝中,每个网络的将权重参数WPs总数N为:
其中L代表所有网络中的所有训练层组成的集合,n(l)表示第l层网络,N代表了所有权重参数总个数。将网络的权重参数保留率设置为R,则剩余的WPs数量Np为:
其中,n(l)代表了第l层剪枝之后的权重参数数量,那么整体网络的权重参数保留率Rp为:
确定了整体剪枝保留率之后,接下来就是对每层进行剪枝。由于不同训练层的参数数量不一致,因此也应该对不同层设置不同的剪枝保留率。一般而言,WPs较少的训练层对于剪枝比较敏感,因此应该使用较小的剪枝率进行剪枝。而对于WPs较大的训练层,可以使用更大的剪枝率进行剪枝。
因此,引入了自变量α∈(0,1]来自适应调整每一层的要保留的WPs数量np(l)以及相对应的剪枝率rp(l):
np(l)=[n(l)]α
在上式中,α=1表示该层没有修剪,α→0表示该层保留了较少的WPs,倾向于完全修剪,np(l)随着α的增大而增大,确定了α,就可以得到每一层的剪枝率,从而确定模型整体的剪枝率。这里对三种网络模型进行剪枝,每个网络都得到了七个保留率的模型:100%WPs、20%WPs、5%WPs、1%WPs、0.5%WPs、0.2%WPs、0.1%WPs。下表7给出了三个网络中α的取值,α保留三位有效数字。
表7第三神经网络中不同保留率的α取值
这样就得到了每个网络剪枝之后的模型,共21个网络模型。不同比例的网络模型在预测CU划分时有不同的性能表现,将当前深度的可能性fd(cd)划分为十等分区间:
fd(cd)∈{[0,10%),[10%,20%),[20%,30%),[30%,40%),[40%,50%),[50%,60%),[60%,70%),[80%,90%),[90%,100%]}
每个CU按照fd(cd)所在区间分为十类,分别对这十类CU测试这21个不同剪枝保留率模型的实际性能表现,然后可以得到每个可能性区间在每个深度的最优模型。最后在编码过程中,通过CU的可能性区间来调用最优的第一神经网络模型进行CU划分预测,实现深度的提前预测。
同样的,为了加速网络运行速度,按照上述对模式预测的四个第一神经网络进行剪枝处理分别得到七个剪枝保留率的网络模型:100%WPs、20%WPs、5%WPs、1%WPs、0.5%WPs、0.2%WPs、0.1%WPs。这里给出了四个网络中α的取值,α保留三位有效数字。
表8第一神经网络中不同保留率的α取值
由此得到四种神经网络的共28个模型。并且将fm(cm)划分为十等分区间,
fm(cm)∈{[0,10%),[10%,20%),[20%,30%),[30%,40%),[40%,50%),[50%,60%),[60%,70%),[80%,90%),[90%,100%]}
通过训练过程分别对这十类模式可能性区间的模式可能性测试其最优的网络模型,例如,当前模式可能性区间为[20%,30%),则可以通过训练过程中所确定的最优第一神经网络模型来对当前模式可能性区间进行预测;最后得到了整体的模式预测方案。
在本发明实施例的视频编码过程中,首先计算CU不同模式的可能性大小,接着根据可能性大小所处的区间选择最优的模型,最后根据模型来预测是否需要跳过帧内编码模式,实现对视频编码的加速。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述方法包括:
S1:根据已编码信息,计算得到当前视频编码单元的深度可能性和当前模式的模式可能性;
S2:遍历ILR层间模式,得到当前ILR层间模式的残差;
S3:基于当前ILR层间模式的残差,根据当前模式的模式可能性所处的区间,采用对应区间的第一神经网络模型,结合量化参数、率失真值和当前模式的模式可能性预测当前ILR层间模式是否为最优模式;
S4:若当前ILR层间模式不是最优模式,则遍历Intra帧内模式;根据当前模式的模式可能性和当前预测单元的大小,采用对应区间的第二神经网络模型,结合量化参数、当前Intra帧内模式的模式可能性以及层间相关系数预测得到候选列表;按照所述候选列表完成率失真优化遍历;转至步骤S6;
S5:若当前ILR层间模式是最优模式,则跳过Intra帧内模式;转至步骤S6;
S6:根据当前视频编码单元的深度可能性的区间,采用对应区间的第三神经网络模型,结合量化参数和当前视频编码单元的深度可能性预测当前深度;判断是否跳过当前预测深度继续划分,若选择划分,则返回步骤S1继续计算下一个视频编码单元的深度可能性,直至达到预设深度;若选择不划分,当前视频编码单元的深度遍历结束;
所述步骤S6包括根据视频序列的亮度分量尺寸确定三种第三神经网络结构;每个第三神经网络模型包括三层卷积层和三层全连接层,最后一层卷积层和最初一层全连接层通过展平层连接,在所有全连接层中加入量化参数和当前视频编码单元的深度可能性;将当前视频编码单元的深度可能性所处的区间输入到当前区间最优的第三神经网络模型中,预测当前深度;
所述步骤S6还包括对所述神经网络模型进行剪枝处理;确定出每个网络结构的权重参数总数和需要剩余的权重参数总数,并确定出相应的权重参数保留率;按照自适应参数调整每一网络层需要剪除的权重参数数量;确定出每个网络结构按照不同权重参数保留率对应得到的多个网络模型。
2.根据权利要求1所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述步骤S1中,当前视频编码单元的深度可能性的计算公式表示为:
其中,fd(cd)表示当前视频编码单元的深度可能性,cd是当前编码单元的深度级别之一,fd(q),q∈[0,3]分别代表了当前编码单元划分为第q个深度的可能性;p(cd)表示当前编码单元的深度级别为cd的概率。
3.根据权利要求1所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述步骤S1中,当前模式的模式可能性的计算公式表示为:
其中,fm(cm)表示当前模式的模式可能性,cm是当前编码单元使用的模式可能性之一,fm(mILR)表示通过当前编码单元的相邻块计算得出的ILR层间模式的模式可能性,fm(mIntra)表示通过当前编码单元的相邻块计算得出的Intra帧内模式的模式可能性;p(cm)是当前编码单元使用模式cm的概率。
4.根据权利要求1所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述步骤S3包括根据视频序列的四种大小尺寸确定四种第一神经网络结构;每种第一神经网络结构均包括三层卷积层和三层全连接层,最后一层卷积层和最初一层全连接层通过展平层连接,在所有全连接层中加入量化参数、率失真值和当前模式的模式可能性;将当前ILR层间模式的模式可能性所处的区间输入到当前区间最优的第一神经网络模型中,对当前ILR层间模式的残差进行均值池化处理;预测当前ILR层间模式是否为最优模式。
5.根据权利要求1所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述步骤S4包括根据视频序列的预测单元模式选择确定四种第二神经网络结构;每种第二神经网络结构均包括三层卷积层和三层全连接层,最后一层卷积层和最初一层全连接层通过展平层连接,在所有全连接层中加入量化参数QP、当前Intra帧内模式的模式可能性以及层间相关系数;将当前预测单元的大小所处的区间输入到当前区间最优的第二神经网络模型中,预测候选列表。
6.根据权利要求5所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,所述步骤S4中,当前Intra帧内模式的模式可能性的计算公式表示为:
其中,fp(cp)代表当前Intra帧内模式的模式可能性大小,cp是当前编码单元使用的帧内模式可能性之一,fp(i)代表最终选用帧内模式i的可能性;p(cp)是当前编码单元使用帧内模式cp的可能性。
7.根据权利要求5所述的一种基于神经网络优化的质量SHVC编码方法,其特征在于,第一层卷积层中,采用三个不同规格的卷积核,包括一个对称卷积核和两个非对称卷积核。
CN202310289471.8A 2023-03-22 2023-03-22 基于神经网络优化的质量shvc编码方法 Active CN116320398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310289471.8A CN116320398B (zh) 2023-03-22 2023-03-22 基于神经网络优化的质量shvc编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310289471.8A CN116320398B (zh) 2023-03-22 2023-03-22 基于神经网络优化的质量shvc编码方法

Publications (2)

Publication Number Publication Date
CN116320398A CN116320398A (zh) 2023-06-23
CN116320398B true CN116320398B (zh) 2024-04-05

Family

ID=86788383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310289471.8A Active CN116320398B (zh) 2023-03-22 2023-03-22 基于神经网络优化的质量shvc编码方法

Country Status (1)

Country Link
CN (1) CN116320398B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017020021A1 (en) * 2015-07-29 2017-02-02 Vid Scale, Inc. Scalable high efficiency video coding to high efficiency video coding transcoding
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN113711594A (zh) * 2019-02-15 2021-11-26 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
CN113784147A (zh) * 2021-08-10 2021-12-10 浙江万里学院 一种基于卷积神经网络的高效视频编码方法及系统
CN114520914A (zh) * 2022-02-25 2022-05-20 重庆邮电大学 一种基于shvc质量可伸缩帧间视频编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114436A (ko) * 2019-03-28 2020-10-07 국방과학연구소 스케일러블 영상 부호화를 수행하는 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017020021A1 (en) * 2015-07-29 2017-02-02 Vid Scale, Inc. Scalable high efficiency video coding to high efficiency video coding transcoding
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN113711594A (zh) * 2019-02-15 2021-11-26 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
CN113784147A (zh) * 2021-08-10 2021-12-10 浙江万里学院 一种基于卷积神经网络的高效视频编码方法及系统
CN114520914A (zh) * 2022-02-25 2022-05-20 重庆邮电大学 一种基于shvc质量可伸缩帧间视频编码方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Efficient Multi-Strategy Intra Prediction for Quality Scalable High Efficiency Video Coding;Dayong Wang;《IEEE TRANSACTTONS ON TMAGR PROCPSSTNG》;全文 *
SHVC 质量可分级视频编码加速;左静;《中国优秀硕士学位论文全文数据库》;第3节 *
基于质量可伸缩高性能视频编码的帧内快速算法;刘妍君等;《计算机应用》;全文 *
采用灰度共生矩阵进行深度预判的3D-HEVC深度图帧内快速编码算法;廖洁;陈婧;曾焕强;蔡灿辉;;信号处理;20170325(03);全文 *

Also Published As

Publication number Publication date
CN116320398A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
Lei et al. Fast intra prediction based on content property analysis for low complexity HEVC-based screen content coding
CN111355956B (zh) 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法
US11956447B2 (en) Using rate distortion cost as a loss function for deep learning
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
CN113709492B (zh) 一种基于分布特征的shvc空间可伸缩视频编码方法
CN104394409B (zh) 基于空域相关性的hevc预测模式快速选择方法
CN109905712A (zh) 基于ResNet的HEVC帧内编码快速模式决策算法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN111429497B (zh) 基于深度学习和多特征融合的自适应cu拆分决策方法
Liu et al. Fast depth intra coding based on depth edge classification network in 3D-HEVC
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN115118977A (zh) 针对360度视频的帧内预测编码方法、系统及介质
CN114257819A (zh) 基于时空深度信息的vcc编码单元快速划分方法
Abdallah et al. Fast QTMT decision tree for Versatile Video Coding based on deep neural network
CN117041599B (zh) 一种基于hevc-vpcc的帧内快速编码方法及系统
CN116320398B (zh) 基于神经网络优化的质量shvc编码方法
CN110139098B (zh) 基于决策树的高效率视频编码器帧内快速算法选择方法
CN108989801B (zh) 一种基于时空特性的自适应模式选择快速方法
Wang et al. Hybrid strategies for efficient intra prediction in spatial SHVC
Jillani et al. Multi-view clustering for fast intra mode decision in HEVC
CN114143536B (zh) 一种shvc空间可伸缩帧的视频编码方法
CN114827606A (zh) 一种编码单元划分的快速决策方法
Fang et al. Fast coding unit partitioning algorithms for versatile video coding intra coding
CN110035285B (zh) 基于运动矢量敏感度的深度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant