CN111355956A - 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 - Google Patents

一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 Download PDF

Info

Publication number
CN111355956A
CN111355956A CN202010157663.XA CN202010157663A CN111355956A CN 111355956 A CN111355956 A CN 111355956A CN 202010157663 A CN202010157663 A CN 202010157663A CN 111355956 A CN111355956 A CN 111355956A
Authority
CN
China
Prior art keywords
decision
coding
network
current
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010157663.XA
Other languages
English (en)
Other versions
CN111355956B (zh
Inventor
蔡晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010157663.XA priority Critical patent/CN111355956B/zh
Publication of CN111355956A publication Critical patent/CN111355956A/zh
Application granted granted Critical
Publication of CN111355956B publication Critical patent/CN111355956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法,属于视频编码技术领域。考虑到编码参数选择时存在的内在联系,结合视频内容的时空相关性,来同时确定当前编码单元的CU/PU分区和预测模式,避免了HEVC帧内编码中率失真优化过程中的遍历过程,能够最大程度地降低计算复杂度,节省编码时间。具体包括步骤:1)准备用于训练及测试决策网络的视频数据集;2)利用训练数据集分别在不同QP下对单步决策网络进行训练,并保存训练后的网络模型参数;3)将单步决策网络嵌入到HEVC参考模型HM.15.0中,实现低复杂度HEVC编码器;4)分别使用不同QP下训练出的单步决策网络模型对测试集上的视频进行编码,测试编码复杂度和RD性能。

Description

一种HEVC帧内编码中基于深度学习的率失真优化快速决策系 统及其方法
技术领域
本发明属于视频编码技术领域,特别是涉及一种HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法。
背景技术
视频编码技术是视频业务的基础,由于从视觉传感器直接获取到的原始视频数据量巨大,为了有效地传输和存储视频,对原始视频进行高码率-失真(RD)质量且低复杂度的压缩编码是很有必要的。近年来,视频分辨率的进一步提升以及视频业务中的实时性需求,对视频编码技术提出了更高的要求。作为最新的视频编码标准,高效视频编码标准H.265/HEVC可以达到显著的高压缩比。然而,H.265/HEVC引入了更多的编码参数,在编码时需要通过遍历率失真代价来确定最优的编码参数集,因而带来了更高的编码复杂度,很难满足视频业务中的实时性需求。因此,许多学者致力于低复杂度H.265/HEVC的研究,在不损失过多RD质量的前提下,显著降低编码复杂度。
目前,低复杂度H.265/HEVC的研究主要包含传统方法和基于深度学习的方法。传统方法主要是一些启发式的快速决策算法,通过提取编码过程中的中间特征,以提前终止率失真优化过程中对编码单元(CU)和预测单元(PU)的划分方式、预测模式等编码参数的遍历搜索,从而降低复杂度。这种方法基于手动提取特征和固定的阈值,因此在广泛应用时的鲁棒性较差。近年来,基于深度学习的方法得到了广泛发展,卷积神经网络强大的学习能力使其能够自动地提取与编码参数决策相关的深度特征,从而快速做出率失真优化的决策。然而,目前基于深度学习的方法通常将CU/PU划分方式和预测模式的选择分别建模为分类问题,在此基础上分别进行决策。这些方法存在两个主要缺陷。其一,从复杂度降低的角度来看,对CU/PU划分决策和预测模式选择是一个整体的遍历过程,共同导致了HEVC编码器计算复杂度大。因此,只关注其中一个任务并不能最大限度地降低复杂度。其二,CU/PU划分决策与预测模式选择之间存在着明显的相关性,简单地将这些决策视为单独的过程并在两个阶段来进行决策也是不明智的。
发明内容
本发明为解决上述背景技术中存在的技术问题,提供了一个单步决策网络,考虑到编码参数选择时存在的内在联系,结合视频内容的时空相关性,来同时确定当前编码单元的CU/PU分区和预测模式,避免了HEVC帧内编码中率失真优化过程中的遍历过程,从而最大程度地降低计算复杂度的HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法。
本发明采用以下技术方案来实现:一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,具体包括以下步骤:
步骤1)视频数据集准备;
步骤2)搭建单步决策网络模型;
步骤3)对单步决策网络进行训练;
步骤4)应用单步决策网络实现低复杂度HEVC帧内编码;
步骤5)测试编码器RD性能及编码复杂度。
在进一步的实施例中,所述步骤1)具体包括以下步骤:为了保证网络模型的泛化性能以及公平地评价模型性能,从不同的分辨率中随机选取用于训练和测试的视频;分别用HEVC参考测试模型对选取的视频进行全帧内模式编码,并生成视频数据集。
在进一步的实施例中,所述步骤2)具体包括以下步骤:
步骤201)根据步骤1)收集到的视频收集数据,所述视频数据集包括:输入数据和标签数据;所述输入数据包括:当前CU的亮度信息和其在前一帧中同位CU的决策信息;所述标签数据包括:当前CU的CU/PU划分和预测模式的决策信息;
步骤202)将HEVC帧内编码,采用PU的划分方式建模为对CU的第4级分割,从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题;
步骤203)对于每个CU,由于亮度分量包含了大多数内容信息,其亮度信息被输入到网络中,考虑到视频内容的时间相关性,还利用了前一帧中的同位CU的决策信息,首先通过均值移除来提取与决策具有直接相关性的纹理信息;
步骤204)通过两种卷积层分别将视频数据分成两个流:三个非重叠卷积层实现的支流和两个常规卷积层实现的支流。
在进一步的实施例中,三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征,且卷积的步长等于相应卷积核的宽度,因而输出特征图中每个像素将具有互不重叠的感受野,其大小正好对应于当前CU的一个子CU。
在进一步的实施例中,两个常规卷积层实现的支流用于提取与预测模式选择相关的特征,更好地提取当前CU中相邻像素之间的关系,提供对当前CU的总体描述。
在进一步的实施例中,所述步骤3)具体包括以下步骤:
使用交叉熵作为训练时的损失函数,交叉熵描述了两个概率分布之间的差异,概率分布a和b之间的交叉熵表示为:
H(a,b)=a log b+(1-a)log(1-b)
对于CU深度为l的每个样本r,
Figure BDA0002404662950000031
Figure BDA0002404662950000032
分别表示真实值和网络的输出预测向量,则损失函数如下:
Figure BDA0002404662950000033
对于不同CU深度的网络分别使用相应的数据集进行训练。
在进一步的实施例中,所述步骤4)具体包括以下步骤:
每个CU有三种类型的输出:(1)分割,(2)模式选择,(3)不确定;
对于深度为l的给定CU,
Figure BDA0002404662950000034
表示36维的输出概率向量,而令ThrP,l和ThrM,l分别表示CU/PU划分和预测模式选择的阈值,
Figure BDA0002404662950000035
中的最大值ymax表示输入CU最有可能做出的决策;
如果ymax处于第一维且ymax>ThrP,l,则输出决策为“分割”,这意味着当前CU将被直接分割成四个子CU,无需计算其本身的率失真代价;
如果ymax处于第i维(i>1)且ymax>ThrM,l,则输出决策为“模式选择”,这意味着当前CU将直接选择相应的预测模式作为最佳模式,而不需要遍历所有35种模式,并且将跳过对更深层CU的遍历;
否则,如果ymax低于相应的阈值,则输出决策为“不确定”。
在进一步的实施例中,所述步骤5)具体包括以下步骤:
通过编码时间节省率ΔT来评价复杂度的降低程度:
Figure BDA0002404662950000036
其中THM表示使用HM 15.0的编码时间,而TLC表示使用单步决策网络实现的低复杂度编码器的编码时间;
单步决策网络从待编码视频的第二帧开始执行,因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。
在进一步的实施例中,包括以下模块:
用于视频数据集准备的第一模块;
用于搭建单步决策网络模型的第二模块;
用于对单步决策网络进行训练的第三模块;
用于应用单步决策网络实现低复杂度HEVC帧内编码的第四模块;
用于测试编码器RD性能及编码复杂度的第五模块。
在进一步的实施例中,所述第一模块进一步用于为了保证网络模型的泛化性能以及公平地评价模型性能,从不同的分辨率中随机选取用于训练和测试的视频;分别用HEVC参考测试模型对选取的视频进行全帧内模式编码,并生成视频数据集;
所述第二模块进一步用于根据收集到的视频收集数据,所述视频数据集包括:输入数据和标签数据;所述输入数据包括:当前CU的亮度信息和其在前一帧中同位CU的决策信息;所述标签数据包括:当前CU的CU/PU划分和预测模式的决策信息;将HEVC帧内编码,采用PU的划分方式建模为对CU的第4级分割,从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题;对于每个CU,由于亮度分量包含了大多数内容信息,其亮度信息被输入到网络中,考虑到视频内容的时间相关性,还利用了前一帧中的同位CU的决策信息,首先通过均值移除来提取与决策具有直接相关性的纹理信息;通过两种卷积层分别将视频数据分成两个流:三个非重叠卷积层实现的支流和两个常规卷积层实现的支流;所述三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征,且卷积的步长等于相应卷积核的宽度,因而输出特征图中每个像素将具有互不重叠的感受野,其大小正好对应于当前CU的一个子CU;两个常规卷积层实现的支流用于提取与预测模式选择相关的特征,更好地提取当前CU中相邻像素之间的关系,提供对当前CU的总体描述;
所述第三模块进一步用于使用交叉熵作为训练时的损失函数,交叉熵描述了两个概率分布之间的差异,概率分布a和b之间的交叉熵表示为:
H(a,b)=a log b+(1-a)log(1-b)
对于CU深度为l的每个样本r,
Figure BDA0002404662950000051
Figure BDA0002404662950000052
分别表示真实值和网络的输出预测向量,则损失函数如下:
Figure BDA0002404662950000053
对于不同CU深度的网络分别使用相应的数据集进行训练;
所述第四模块进一步用于每个CU有三种类型的输出:(1)分割,(2)模式选择,(3)不确定;
对于深度为l的给定CU,
Figure BDA0002404662950000054
表示36维的输出概率向量,而令ThrP,l和ThrM,l分别表示CU/PU划分和预测模式选择的阈值,
Figure BDA0002404662950000055
中的最大值ymax表示输入CU最有可能做出的决策;
如果ymax处于第一维且ymax>ThrP,l,则输出决策为“分割”,这意味着当前CU将被直接分割成四个子CU,无需计算其本身的率失真代价;
如果ymax处于第i维(i>1)且ymax>ThrM,l,则输出决策为“模式选择”,这意味着当前CU将直接选择相应的预测模式作为最佳模式,而不需要遍历所有35种模式,并且将跳过对更深层CU的遍历;
否则,如果ymax低于相应的阈值,则输出决策为“不确定”;
所述第五模块进一步用于通过编码时间节省率ΔT来评价复杂度的降低程度:
Figure BDA0002404662950000056
其中THM表示使用HM 15.0的编码时间,而TLC表示使用单步决策网络实现的低复杂度编码器的编码时间;
单步决策网络从待编码视频的第二帧开始执行,因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。
本发明的有益效果:本发明提供的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,弥补了之前低复杂度的HEVC帧内编码方法中将CU/PU划分决策和预测模式的选择视为单独的过程并分别进行决策的问题。即通过将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为36类别的多分类问题,并考虑到编码参数决策与视频内容的相关性,结合视频的时域相关性,设计实现了对编码参数的单步决策网络,在保证RD性能的前提下,达到最大化降低编码复杂度的目的。
进一步,单步决策网络中的前半部分通过一种两流卷积结构分别提取CU/PU划分决策和预测模式选择所需的不同特征,避免了不同决策任务所需特征可能存在的冲突,导致决策精度下降;在后半部分则将所提取的特征进行连接,通过全连接层来学习其相互关系,使得不同决策任务之间的相关性得以体现。
进一步,将单步决策网络在HEVC参考模型HM.15.0上实现时,给定了阈值以实现单步决策网络与HEVC中原本的遍历方法之间的切换,通过调整阈值大小,可以控制编码器的编码复杂度和RD性能,实现不同场景下的编码需求。
进一步,通过对本发明与现有的基于传统方法和基于深度学习的低复杂度HEVC帧内编码方法在相同的测试数据集上进行比较,本发明实现的低复杂度HEVC编码器的编码时间有明显缩短,且RD性能没有出现大幅损失,验证了此方法的有效性。
综上所述,本发明通过将HEVC帧内编码中CU/PU划分决策和预测模式选择建模为多分类问题,根据该分类问题的特性搭建了具有双流结构的卷积神经网络进行特征提取,并考虑到视频的时域相关性,通过全连接层得到最终决策。经过实验验证,本发明提出的方法能够更大程度地降低HEVC帧内编码的复杂度,在实时性场景下具有良好的应用价值。
附图说明
图1为本发明一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法流程图。
图2为本发明设计的单步决策网络模型框架。
图3为单步决策网络在HEVC参考模型HM 15.0中的实现流程。
图4为不同阈值下单步决策网络的RD性能,其中图(a)和(b)分别是在测试集视频Football和BasketballPass上测试得到的结果。
图5为单步决策网络的运行时间百分比。
具体实施方式
本发明整体流程图如附图1所示,下面结合附图对本发明进行详细阐述:
步骤1.数据集准备
本发明从视频编码联合工作组(JCT-VC)和Xiph.org[1]共选取了86个视频序列作为数据集,为了保证数据集多样性,这些视频具有不同的分辨率格式,包括:SIF、CIF、NTSC、4CIF、240p、480p、720p、1080p、WQXGA。将总共86个视频序列分为两个不重叠的集合,分别用于训练和测试,其中72个用于构建训练数据集,14个用于测试。为了保证网络模型的泛化性能以及公平地评价模型性能,用于训练和测试的视频都是从不同的分辨率中随机选取的。选取4个QP值{22,27,32,37},分别用HEVC参考测试模型HM15.0对所有序列进行全帧内模式编码。生成的数据集中的每个样本由输入数据和标签组成。输入数据有两个部分,包括当前CU的亮度信息和其在前一帧中同位CU的决策信息。标签数据则是当前CU的CU/PU划分和预测模式的决策信息。
步骤2.搭建单步决策网络模型
对于HEVC帧内编码,PU的N×N划分方式只适用于最小的CU。因此,当一个8×8CU选择了N×N的PU模式,我们将它视作是整个编码树单元CTU的第四次分割。在这种情况下,对于深度为0到3的CU(从64×64到8×8),CU/PU划分和预测模式的决策可以建模为具有36个类的多分类问题,其中第一个表示当前CU/PU是否进一步划分,而其他35个类对应于35个预测模式。用一个具有36维的one-hot向量来表示最终决策。因此,使用卷积神经网络对此多分类问题进行决策,由于一个CTU中存在深度为0到3的不同大小CU,于是共需4组网络模型框架。本发明提供的针对N×N大小CU的单步决策网络模型框架如图2所示,N可取值为64、32、16、8。
对于每个CU,由于亮度分量包含了大多数内容信息,其亮度信息被输入到网络中。考虑到视频内容的时间相关性,还利用了前一帧中的同位CU的决策信息。对于亮度信息,可以假定平均亮度对CU/PU划分和预测模式的决策几乎没有影响,因此首先通过均值移除来提取与决策具有直接相关性的纹理信息。之后,将图像数据分为两个流:
1)三个非重叠卷积层(Conv1-1、Conv1-2和Conv1-3)组成提取与CU/PU分区相关特征的支流。注意,在非重叠卷积层中,卷积的步长等于相应卷积核的宽度,因而输出特征图中每个像素将具有互不重叠的感受野,其大小正好对应于当前CU的一个子CU。因此,这些特征图可以看作是对当前CU的四个子CU的特征描述。需要注意的事,在针对不同深度CU的单步决策网络中,卷积核大小是不同的,以确保Conv1-3提取的特征图中的像素具有对应于子CU大小的感受野。更多细节见表1。
表1.不同深度CU的单步决策网络中卷积核k的大小
CU深度 Conv1-1 Conv1-2 Conv1-3
0 k1=4 k2=4 k3=2
1 k1=4 k2=2 k3=2
2 k1=2 k2=2 k3=2
3 k1=2 k2=2 k3=1
2)两个常规卷积层(Conv2-1和Conv2-2)组成提取与预测模式选择相关特征作的支流。这两个卷积层的核大小都是4×4,步长均为1。与不重叠卷积层相比,通过这些步长为1的卷积层,可以更好地提取当前CU中相邻像素之间的关系,提供了对当前CU的总体描述。在卷积层之后,应用最大池化层来消除模糊的局部数据并减少节点的数量。
提取到所需特征后,通过连接层将扁平化后的特征图和输入的同位CU决策信息相连,然后将级联向量送入全连接层,其中包括一个隐含层和一个输出层,输出为36维的概率向量。
步骤3.对单步决策网络进行训练
由于单步决策网络实现了对分类问题的决策,因此使用交叉熵作为训练时的损失函数。交叉熵描述了两个概率分布之间的差异,概率分布a和b之间的交叉熵表示为:
H(a,b)=a log b+(1-a)log(1-b)
对于CU深度为l的每个样本r,
Figure BDA0002404662950000081
Figure BDA0002404662950000082
分别表示真实值和网络的输出预测向量,则损失函数如下:
Figure BDA0002404662950000083
对于不同CU深度的网络分别使用相应的数据集进行训练,且每个网络需在四个QP值{22,27,32,37}上进行训练,以满足编码压缩比的多样化要求。在训练前,由正态分布对所有可训练参数进行随机初始化,均值为0,标准差为0.1。使用具有动量的随机梯度下降算法对模型进行训练,其中,动量设置为0.9,随机梯度下降算法的批处理大小R为64。此外,训练的初始学习率为0.01,每经过2000次迭代减少1%。每个模型的总迭代次数为10万次。
步骤4.应用单步决策网络实现低复杂度HEVC帧内编码
单步决策网络可以看作是在CU中做出相应编码参数决策的一种可选方式,HEVC中的原始实现是通过率失真优化进行遍历搜索,本发明使用给定的阈值来进行单步决策网络和遍历搜索之间的切换,以平衡RD性能的下降和复杂度降低的程度。
单步决策网络在HEVC参考模型HM 15.0中的实现流程如图3所示。请注意,CU/PU划分和预测模式的选择在整个CTU中的决策是通过自顶向下的顺序而做出的。具体而言,每个CU有三种类型的输出:(1)分割,(2)模式选择,(3)不确定。对于深度为l的给定CU,
Figure BDA0002404662950000091
表示36维的输出概率向量,而令ThrP,l和ThrM,l分别表示CU/PU划分和预测模式选择的阈值。于是,
Figure BDA0002404662950000092
中的最大值ymax表示输入CU最有可能做出的决策。如果ymax处于第一维且ymax>ThrP,l,则输出决策为“分割”,这意味着当前CU将被直接分割成四个子CU,无需计算其本身的率失真代价。如果ymax处于第i维(i>1)且ymax>ThrM,l,则输出决策为“模式选择”,这意味着当前CU将直接选择相应的预测模式作为最佳模式,而不需要遍历所有35种模式,并且将跳过对更深层CU的遍历。否则,如果ymax低于相应的阈值,则输出决策为“不确定”。在这种情况下,需要通过率失真优化获取最优预测模式,并将当前CU分成四个子CU进行遍历,这与HEVC中的原始实现相同。
步骤5.测试编码器RD性能及编码复杂度
为了评价编码器的RD性能,以HM 15.0作为基准线,对Bjontegaard Delta PSNR(BD-PSNR)性能进行测试。此外,通过编码时间节省率ΔT来评价复杂度的降低程度:
Figure BDA0002404662950000093
其中THM表示使用HM 15.0的编码时间,而TLC表示使用单步决策网络实现的低复杂度编码器的编码时间。另外,单步决策网络从待编码视频的第二帧开始执行,因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。阈值
Figure BDA0002404662950000101
设置为{0.06,0.06,0.06,0.06},而
Figure BDA0002404662950000102
为{0.05,0.05,0.05,0.05},注意到分区决策的阈值与预测模式选择的阈值大小不同,这是由于选取不同的类别对实际RD性能的影响具有不同的权重。实质上,总共有35个类代表当前CU不进一步分割并选择一个预测模式,而只有1个类代表当前CU被分割成子CU。
为了进一步评估该方法的性能,本发明选取了一种基于深度学习的CU划分决策算法[2]和一种快速CU大小决策和候选模式缩减算法[3]来进行比较。对于[2],使用其作者提供的源代码[4]进行测试,包括经过训练的ETH-CNN网络模型以及相应的低复杂度编码器实现。结果如下表2所示。
表2.单步决策网络的性能评价和对比结果
Figure BDA0002404662950000103
Figure BDA0002404662950000111
结果表明,对于不同测试序列分别在QP=22、27、32和37下编码时,本发明提供的方法平均降低了73.53%、72.62%、72.63%和75.97%的编码时间,优于[2]中54.00%、59.10%、63.36%和65.36%的复杂度降低,以及[3]中50.81%、50.71%、51.05%和51.23%的复杂度降低。另外,本发明提供的方法也由于基于传统的启发式算法和中的提供的性能,其中传统算法不看:HEVC内编码中CU/PU分区决策的启发式快速算法,节省编码时间的37.91%;用于预测模式选择的启发式快速算法,节省编码时间27.3%。
在本发明的方法中,CU/PU划分决策和内部编码中的预测模式选择都是由单步决策网络得到的,而上述工作中仅人工实现了其中的一部分决策,因而单步决策网络确实会带来更多的RD性能损失。尽管如此,使用单步决策网络使得编码时间进一步减少了约10%~20%,由此带来的RD性能损失是可以接受的。另外,图4表明,RD性能损失的大小可以通过调节阈值从而得到控制。
为了进一步评估单步决策网络的运行时间,以HM15.0的编码时间作为基准,对于运行单步决策网络的时间百分比进行了测试,结果如图5所示。注意到,单步决策网络只消耗了HM15.0所需编码时间的5%左右,这表明单步决策网络仅在编码过程中引入了一个很小的时间开销,并在降低复杂度方面取得了优越的性能。

Claims (10)

1.一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,具体包括以下步骤:
步骤1)视频数据集准备;
步骤2)搭建单步决策网络模型;
步骤3)对单步决策网络进行训练;
步骤4)应用单步决策网络实现低复杂度HEVC帧内编码;
步骤5)测试编码器RD性能及编码复杂度。
2.根据权利要求1所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,
所述步骤1)具体包括以下步骤:为了保证网络模型的泛化性能以及公平地评价模型性能,从不同的分辨率中随机选取用于训练和测试的视频;分别用HEVC参考测试模型对选取的视频进行全帧内模式编码,并生成视频数据集。
3.根据权利要求1所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,所述步骤2)具体包括以下步骤:
步骤201)根据步骤1)收集到的视频收集数据,所述视频数据集包括:输入数据和标签数据;所述输入数据包括:当前CU的亮度信息和其在前一帧中同位CU的决策信息;所述标签数据包括:当前CU的CU/PU划分和预测模式的决策信息;
步骤202)将HEVC帧内编码,采用PU的划分方式建模为对CU的第4级分割,从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题;
步骤203)对于每个CU,由于亮度分量包含了大多数内容信息,其亮度信息被输入到网络中,考虑到视频内容的时间相关性,还利用了前一帧中的同位CU的决策信息,首先通过均值移除来提取与决策具有直接相关性的纹理信息;
步骤204)通过两种卷积层分别将视频数据分成两个流:三个非重叠卷积层实现的支流和两个常规卷积层实现的支流。
4.根据权利要求3所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征,且卷积的步长等于相应卷积核的宽度,因而输出特征图中每个像素将具有互不重叠的感受野,其大小正好对应于当前CU的一个子CU。
5.根据权利要求3所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,两个常规卷积层实现的支流用于提取与预测模式选择相关的特征,更好地提取当前CU中相邻像素之间的关系,提供对当前CU的总体描述。
6.根据权利要求1所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,所述步骤3)具体包括以下步骤:
使用交叉熵作为训练时的损失函数,交叉熵描述了两个概率分布之间的差异,概率分布a和b之间的交叉熵表示为:
H(a,b)=alogb+(1-a)log(1-b)
对于CU深度为l的每个样本r,
Figure FDA0002404662940000021
Figure FDA0002404662940000022
分别表示真实值和网络的输出预测向量,则损失函数如下:
Figure FDA0002404662940000023
对于不同CU深度的网络分别使用相应的数据集进行训练。
7.根据权利要求1所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,所述步骤4)具体包括以下步骤:
每个CU有三种类型的输出:(1)分割,(2)模式选择,(3)不确定;
对于深度为l的给定CU,
Figure FDA0002404662940000024
表示36维的输出概率向量,而令ThrP,l和ThrM,l分别表示CU/PU划分和预测模式选择的阈值,
Figure FDA0002404662940000025
中的最大值ymax表示输入CU最有可能做出的决策;
如果ymax处于第一维且ymax>ThrP,l,则输出决策为“分割”,这意味着当前CU将被直接分割成四个子CU,无需计算其本身的率失真代价;
如果ymax处于第i维(i>1)且ymax>ThrM,l,则输出决策为“模式选择”,这意味着当前CU将直接选择相应的预测模式作为最佳模式,而不需要遍历所有35种模式,并且将跳过对更深层CU的遍历;
否则,如果ymax低于相应的阈值,则输出决策为“不确定”。
8.根据权利要求1所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,所述步骤5)具体包括以下步骤:
通过编码时间节省率ΔT来评价复杂度的降低程度:
Figure FDA0002404662940000031
其中THM表示使用HM 15.0的编码时间,而TLC表示使用单步决策网络实现的低复杂度编码器的编码时间;
单步决策网络从待编码视频的第二帧开始执行,因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。
9.一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,包括以下模块:
用于视频数据集准备的第一模块;
用于搭建单步决策网络模型的第二模块;
用于对单步决策网络进行训练的第三模块;
用于应用单步决策网络实现低复杂度HEVC帧内编码的第四模块;
用于测试编码器RD性能及编码复杂度的第五模块。
10.如权利要求9所述的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法,其特征在于,所述第一模块进一步用于为了保证网络模型的泛化性能以及公平地评价模型性能,从不同的分辨率中随机选取用于训练和测试的视频;分别用HEVC参考测试模型对选取的视频进行全帧内模式编码,并生成视频数据集;
所述第二模块进一步用于根据收集到的视频收集数据,所述视频数据集包括:输入数据和标签数据;所述输入数据包括:当前CU的亮度信息和其在前一帧中同位CU的决策信息;所述标签数据包括:当前CU的CU/PU划分和预测模式的决策信息;将HEVC帧内编码,采用PU的划分方式建模为对CU的第4级分割,从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题;对于每个CU,由于亮度分量包含了大多数内容信息,其亮度信息被输入到网络中,考虑到视频内容的时间相关性,还利用了前一帧中的同位CU的决策信息,首先通过均值移除来提取与决策具有直接相关性的纹理信息;通过两种卷积层分别将视频数据分成两个流:三个非重叠卷积层实现的支流和两个常规卷积层实现的支流;所述三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征,且卷积的步长等于相应卷积核的宽度,因而输出特征图中每个像素将具有互不重叠的感受野,其大小正好对应于当前CU的一个子CU;两个常规卷积层实现的支流用于提取与预测模式选择相关的特征,更好地提取当前CU中相邻像素之间的关系,提供对当前CU的总体描述;
所述第三模块进一步用于使用交叉熵作为训练时的损失函数,交叉熵描述了两个概率分布之间的差异,概率分布a和b之间的交叉熵表示为:
H(a,b)=alogb+(1-a)log(1-b)
对于CU深度为l的每个样本r,
Figure FDA0002404662940000041
Figure FDA0002404662940000042
分别表示真实值和网络的输出预测向量,则损失函数如下:
Figure FDA0002404662940000043
对于不同CU深度的网络分别使用相应的数据集进行训练;
所述第四模块进一步用于每个CU有三种类型的输出:(1)分割,(2)模式选择,(3)不确定;
对于深度为l的给定CU,
Figure FDA0002404662940000044
表示36维的输出概率向量,而令ThrP,l和ThrM,l分别表示CU/PU划分和预测模式选择的阈值,
Figure FDA0002404662940000045
中的最大值ymax表示输入CU最有可能做出的决策;
如果ymax处于第一维且ymax>ThrP,l,则输出决策为“分割”,这意味着当前CU将被直接分割成四个子CU,无需计算其本身的率失真代价;
如果ymax处于第i维(i>1)且ymax>ThrM,l,则输出决策为“模式选择”,这意味着当前CU将直接选择相应的预测模式作为最佳模式,而不需要遍历所有35种模式,并且将跳过对更深层CU的遍历;
否则,如果ymax低于相应的阈值,则输出决策为“不确定”;
所述第五模块进一步用于通过编码时间节省率ΔT来评价复杂度的降低程度:
Figure FDA0002404662940000046
其中THM表示使用HM 15.0的编码时间,而TLC表示使用单步决策网络实现的低复杂度编码器的编码时间;
单步决策网络从待编码视频的第二帧开始执行,因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。
CN202010157663.XA 2020-03-09 2020-03-09 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 Active CN111355956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010157663.XA CN111355956B (zh) 2020-03-09 2020-03-09 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010157663.XA CN111355956B (zh) 2020-03-09 2020-03-09 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法

Publications (2)

Publication Number Publication Date
CN111355956A true CN111355956A (zh) 2020-06-30
CN111355956B CN111355956B (zh) 2023-05-09

Family

ID=71197932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010157663.XA Active CN111355956B (zh) 2020-03-09 2020-03-09 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法

Country Status (1)

Country Link
CN (1) CN111355956B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800642A (zh) * 2020-07-02 2020-10-20 中实燃气发展(西安)有限公司 Hevc帧内角度模式选择方法、装置、设备及可读存储介质
CN112291562A (zh) * 2020-10-29 2021-01-29 郑州轻工业大学 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN112383776A (zh) * 2020-12-08 2021-02-19 重庆邮电大学 一种shvc视频编码模式快速选择的方法及装置
CN112887712A (zh) * 2021-02-03 2021-06-01 重庆邮电大学 一种基于卷积神经网络的hevc帧内ctu划分方法
WO2022111233A1 (zh) * 2020-11-30 2022-06-02 华为技术有限公司 帧内预测模式的译码方法和装置
CN114584771A (zh) * 2022-05-06 2022-06-03 宁波康达凯能医疗科技有限公司 一种基于内容自适应的帧内图像编码单元划分方法与系统
CN115334308A (zh) * 2022-10-14 2022-11-11 北京大学深圳研究生院 一种面向学习模型的编码决策处理方法、装置及设备
WO2023051583A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视频编码单元划分方法及装置、计算机设备和计算机可读存储介质
CN117150347A (zh) * 2023-10-25 2023-12-01 无锡迪富智能电子股份有限公司 用于卫浴遥控器的自决策方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106937116A (zh) * 2017-03-15 2017-07-07 杭州电子科技大学 基于随机训练集自适应学习的低复杂度视频编码方法
WO2018010492A1 (zh) * 2016-07-12 2018-01-18 北京大学深圳研究生院 视频编码中帧内预测模式的快速决策方法
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018010492A1 (zh) * 2016-07-12 2018-01-18 北京大学深圳研究生院 视频编码中帧内预测模式的快速决策方法
CN106937116A (zh) * 2017-03-15 2017-07-07 杭州电子科技大学 基于随机训练集自适应学习的低复杂度视频编码方法
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱威等: "低复杂度的HEVC帧内编码模式决策算法", 《小型微型计算机系统》 *
祝世平等: "基于机器学习的HEVC帧内模式快速决策算法", 《光电子?激光》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800642A (zh) * 2020-07-02 2020-10-20 中实燃气发展(西安)有限公司 Hevc帧内角度模式选择方法、装置、设备及可读存储介质
CN111800642B (zh) * 2020-07-02 2023-05-26 中实燃气发展(西安)有限公司 Hevc帧内角度模式选择方法、装置、设备及可读存储介质
CN112291562A (zh) * 2020-10-29 2021-01-29 郑州轻工业大学 针对h.266/vvc的快速cu分区和帧内模式决策方法
WO2022111233A1 (zh) * 2020-11-30 2022-06-02 华为技术有限公司 帧内预测模式的译码方法和装置
CN112383776A (zh) * 2020-12-08 2021-02-19 重庆邮电大学 一种shvc视频编码模式快速选择的方法及装置
CN112887712A (zh) * 2021-02-03 2021-06-01 重庆邮电大学 一种基于卷积神经网络的hevc帧内ctu划分方法
WO2023051583A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视频编码单元划分方法及装置、计算机设备和计算机可读存储介质
CN114584771A (zh) * 2022-05-06 2022-06-03 宁波康达凯能医疗科技有限公司 一种基于内容自适应的帧内图像编码单元划分方法与系统
CN114584771B (zh) * 2022-05-06 2022-09-06 宁波康达凯能医疗科技有限公司 一种基于内容自适应的帧内图像编码单元划分方法与系统
CN115334308A (zh) * 2022-10-14 2022-11-11 北京大学深圳研究生院 一种面向学习模型的编码决策处理方法、装置及设备
CN117150347A (zh) * 2023-10-25 2023-12-01 无锡迪富智能电子股份有限公司 用于卫浴遥控器的自决策方法及系统
CN117150347B (zh) * 2023-10-25 2024-01-26 无锡迪富智能电子股份有限公司 用于卫浴遥控器的自决策方法及系统

Also Published As

Publication number Publication date
CN111355956B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111355956B (zh) 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法
Lei et al. Fast intra prediction based on content property analysis for low complexity HEVC-based screen content coding
Cui et al. Convolutional neural networks based intra prediction for HEVC
CN106961606B (zh) 基于纹理划分特征的hevc帧内编码模式选择方法
CN103002289B (zh) 面向监控应用的视频恒定质量编码装置及其编码方法
CN107371022B (zh) 应用于hevc医学影像无损编码的帧间编码单元快速划分方法
CN104378643B (zh) 一种3d视频深度图像帧内预测模式选择方法及系统
CN110087087A (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
CN109040764B (zh) 一种基于决策树的hevc屏幕内容帧内快速编码算法
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
CN105120290B (zh) 一种深度视频快速编码方法
CN105933711B (zh) 基于分割的邻域最优概率视频隐写分析方法及系统
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
Zhang et al. Fast CU decision-making algorithm based on DenseNet network for VVC
CN108769696A (zh) 一种基于Fisher判别式的DVC-HEVC视频转码方法
CN108833925B (zh) 一种基于深度神经网络的帧间预测方法
CN110213584A (zh) 基于纹理复杂度的编码单元分类方法和编码单元分类设备
CN100366091C (zh) 一种视频压缩方法
CN110246093B (zh) 一种解码图像增强方法
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN109743575A (zh) 一种基于朴素贝叶斯的dvc-hevc视频转码方法
Liu et al. Fast depth intra coding based on depth edge classification network in 3D-HEVC
CN107018412A (zh) 一种基于关键帧编码单元划分模式的dvc‑hevc视频转码方法
CN101237581B (zh) 基于运动特征的h.264压缩域实时视频对象分割方法
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant