CN111510728A - 一种基于深度特征表达与学习的hevc帧内快速编码方法 - Google Patents

一种基于深度特征表达与学习的hevc帧内快速编码方法 Download PDF

Info

Publication number
CN111510728A
CN111510728A CN202010282678.9A CN202010282678A CN111510728A CN 111510728 A CN111510728 A CN 111510728A CN 202010282678 A CN202010282678 A CN 202010282678A CN 111510728 A CN111510728 A CN 111510728A
Authority
CN
China
Prior art keywords
coding
partition
learning
network
coding unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010282678.9A
Other languages
English (en)
Other versions
CN111510728B (zh
Inventor
贾克斌
崔腾鹤
刘鹏宇
孙中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ge Lei Information Technology Co ltd
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010282678.9A priority Critical patent/CN111510728B/zh
Publication of CN111510728A publication Critical patent/CN111510728A/zh
Application granted granted Critical
Publication of CN111510728B publication Critical patent/CN111510728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度特征表达与学习的HEVC帧内快速编码方法。首先,通过利用深度卷积神经网络强大的特征表达与学习能力,并将注意力机制、特征传递机制等思想与视频编码流程的先验信息相结合,构建CU划分表征矢量预测网络;其次,通过设计有效的损失函数及网络超参数完成该网络的训练过程;最后,使用网络输出结果代替四叉树划分算法的划分结果,完成视频编码流程。采用本发明的技术方案,与国际编码标准HEVC(HM16.5)相比,在保证视频编码质量基本不变的前提下,减少视频编码所需时间成本,缓解编码质量与编码速度之间的矛盾,提高HEVC的编码效率。

Description

一种基于深度特征表达与学习的HEVC帧内快速编码方法
技术领域
本发明属于视频处理技术领域,涉及一种基于深度特征表达与学习的HEVC帧内快速编码方法。
背景技术
随着互联网、多媒体技术的发展、智能终端的普及以及人民消费水平的升级“信息可视频化、视频超高清化”已经成为全球信息产业发展的大趋势。视频作为信息呈现和传播的主要载体,已成为满足人民群众美好生活需求、推动信息技术产业和经济社会创新发展的重要引擎。虽然面对视频服务种类的激增、视频质量多维度的大幅度提升,视频编码联合组在H.264/AVC的基础上,提出了高效视频编码标准H.265/HEVC(High Efficiency VideoCoding,HEVC),提高了视频编码质量。但在其编码过程中,由于新技术的引入,编码复杂度大幅度提升,这也使得HEVC很难应用于目前的多媒体应用上。因此,为了在视频编码质量和编码速度之间找到一种折中,研究视频快速编码算法具有现实而深远的意义。HEVC标准编码复杂度大幅度提高的原因在于引入了基于编码单元(Coding Unit,CU)的四叉树划分技术,其过程占据80%的编码时间。在HEVC测试模型HM16.5中,基于CU的四叉树划分技术分两步进行:①遍历所有可能的四叉树划分结构;②针对不同的四叉树划分结构进行率失真优化(Rate Distortion Optimization,RDO)的计算。其中CU有64x64,32x32,16x16,8x8四种尺寸,在前三种尺寸上都需要考虑是否需要进一步向下进行四叉树形式划分,其划分结构见附图2。HEVC中的CU确定方法虽然极大程度上提高了比特资源的利用效率,提高了视频画面质量,但忽略了这一过程在实际应用中由于引入遍历过程以及复杂RDO计算过程,导致的时间成本激增。若能学习到大量已编码视频的深度特征表达方式,并依此来预判编码单元划分,则会避免了大量不必要的计算时间开销。
发明内容
本发明的目的是提供一种基于深度特征表达与学习的HEVC帧内快速编码方法,通过深度卷积神经网络的强大特征表达与自我学习能力,加之利用帧内编码流程的先验信息,实现对于编码单元的四叉树划分结构的快速预测。在保证视频编码质量基本不变的前提下,降低了HEVC的编码复杂度,减少视频编码所需时间成本,缓解编码质量与编码速度之间的矛盾,提高HEVC的编码效率。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度特征表达与学习的HEVC快速编码方法,包括以下步骤:
第一步:构建CU划分表征矢量预测网络;
CU划分表征特征矢量预测网络结构分为三个级别,分别对应于CU尺寸为64×64,32×32,16×16是否需要的预测的特征表达学习。其中整体特征由统一的卷积层1、卷积层2、通道注意力机制模块1来实现;在卷积层3回归三个层次各自深度特征表达的学习,并依次分别经过各级别的通道注意力机制模块2,以及三个全连接层。其中每个卷积层和通道注意力机制模块后面还均包含了批归一化层和非线性激活函数层。
进一步地,卷积层起到提取特征和降采样的作用,能够充分体现是针对编码单元划分表征矢量所设计的特征提取网络,卷积层采用了偶数边长的卷积核,进行步长即步进距离的卷积操作,同时取消了填充操作。这样可避免偶数边长的卷积核难以进行对称的填充操作,也使得降采样的特征图的感受野尺寸与编码单元划分尺寸相对应,提升模型的适配性。
进一步地,通道注意力机制模块起到了加强不同特征通道对于关键信息描述的差异性的作用,对每个通道的重要性进行额外的权重分配处理,使得网络模型能够考虑空间和通道信息,而非对两种信息进行割裂的处理,从而提高了网络模型的拟合能力。
进一步地,全连接层用于最后深度特征的直接表达,在此过程中将归一化的量化参数(Quantization Parameter,QP)也引入到全连接网络中,以数值的形式,拼接在全连接层的预测矢量上,实现QP在网络中的非线性融合。同时考虑各级别信息由于具有高度的传承性,所以各层的预测过程不能割裂的看待。所以引入特征传递机制,将小尺寸CU级别的第二层全连接层的特征向大一级别的第二层全连接层进行传递,进行行有效拼接,来实现该大级别CU的划分结果预测。此外,网络设计中使用Leaky-ReLU激活函数代替传统ReLU函数,解决了当输入为负值时,神经元不能更新参数的问题。
第二步:训练CU划分表征矢量预测模型;
训练编码单元划分表征矢量预测模型的具体步骤为:通过大量图片视频序列构建数据集,并将数据集划分为训练集、验证集和测试集;设计相应损失函数;将训练集的数据用于的模型初始学习,并使用验证集来调整超参数,最后通过测试集检验模型效果。
进一步地,通过大量图片视频序列构建数据集:在HEVC标准程序中按照不同QP进行编码,记录CU亮度的归一化数据,QP信息以及不同级别的划分结果。进一步地,将数据集划分为训练集、验证集和测试集并进行标准化处理的步骤为:以17:1:2的比例将数据集划分为训练集、验证集和测试集。
进一步地,设计相应损失函数时采用下面CU划分结构预测网络的成本函数J作为损失函数:
Figure BDA0002447317410000041
其中α1,α2和α3是控制每级别对于CU划分结构贡献的权值,与CU划分过程中QP密切相关,th0和th1为判别在CU尺寸为64×64,32×32时是否划分的阈值,其中yn表示对应于
Figure BDA0002447317410000042
中第n个位置划分标识符的真实值。在此过程中,充分参考到获得CU划分矢量的实际意义,在损失函数中体现了对于大尺寸CU是否划分的思考,使得不同深度层的编码单元信息在递进的特征学习中得到参数共享。这种方式可以提高编码单元信息的利用率,并提升CU划分特征矢量的表达能力。
进一步地,在模型训练中使用Adam优化算法进行参数优化,并设置初始学习率为0.0003、0.9的一阶矩估计的指数衰减率和0.999的二阶矩估计的指数衰减率为默认超参数,同时采用学习率衰减和Dropout优化技术避免模型过拟。
第三步:获取待划分编码单元视频信息并进行标准化处理;
将需要进行判别的编码单元视频信息进行标准化处理:从YUV格式的视频序列中提取出来的亮度信息进行归一化操作,最后按照训练模型中编码单元的划分尺寸进行从左到右,从上到下的依次划分。
第四步:将处理后的数据输入到训练后的编码单元划分表征矢量预测网络,网络模型的输出的矢量依次为编码单元从大到小,位置从左到右,从上到下的划分标识量,其数值通过与阈值的比较(大于等于阈值判别为划分,小于阈值判别为不划分)得到编码单元划分表征矢量的最终结果。此外,大编码单元预测结果为不划分时,则不考虑其涵盖的子编码单元是否还需划分。其数值为编码单元划分表征矢量的最终结果;
第五步:进行编码流程后续的变化、量化、环路滤波、熵编码等编码流程,最终输出视频编码码流。
本发明的有益效果是,充分考虑了视频编码流程中由于引入四叉树划分技术造成编码复杂度高的问题,提出将深度学习的思想引入到视频编码的编码单元划分过程中,进而使得在保证视频编码质量基本不变的前提下,降低了视频编码的编码复杂度,对提升视频编码速度以及提高HEVC编码标准在目前多媒体设备上的应用有着重要意义,具体表现在:
1.本发明针对目前视频编码过程中的编码单元划分特性和流程,提出将深度学习的思想有针对性的引入到编码单元划分过程中,能够降低视频编码的编码复杂度。
2.本发明在深度卷积神经网络模型构建过程中通过融合注意力机制、特征传递机制等思想提升了深度特征的表达性能。
3.本发明在模型构建基础上选择合适的激活函数和优化算法并设计目标损失函数,提高了网络模型对于深度特征的学习能力,提高了模型与编码单元划分特性的契合度。
附图说明
图1是本发明的基于深度特征表达与学习的HEVC帧内快速编码算法的流程示意图;
图2是本发明提供的CU四叉树划分结构示意图;
图3是本发明的CU划分表征矢量预测网络结构示意图;
图4是本发明的通道注意力机制模块结构示意图;
图5是本发明的CU划分表征矢量对应位置示意图;
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
为了降低视频编码的时间代价,本发明考虑利用深度学习方式直接预测视频编码CU划分结构,公开了一种基于深度特征表达与学习的HEVC帧内快速编码方法,流程如图1所示,包括以下步骤:Step1:构建CU划分表征矢量预测网络。Step2:训练CU划分表征矢量预测模型。Step3:获取待划分编码单元视频信息并进行标准化处理。Step4:将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量。Step5:根据编码单元划分表征矢量完成后续编码流程,最终输出视频编码码流。
对于Step1:构建CU划分表征矢量预测网络。
在本发明中,CU划分表征特征矢量预测网络结构示意图如图3所示,其具体网络参数如表1所示。网络可分为三个级别,分别对应于CU尺寸为64×64,32×32,16×16是否需要的预测的特征表达学习。其中整体特征由统一的卷积层1、卷积层2、通道注意力机制模块1来实现;在卷积层3回归三个层次各自深度特征表达的学习,并依次分别经过各级别的通道注意力机制模块2,以及三个全连接层。
卷积层1:CU划分表征矢量网络的输入层采用4*4大小的卷积核,步长为4,不进行填充操作,输出为16个通道,其目的是将输入数据在下采样的过程中保持一个较高的感受野。
卷积层2:在此层网络中采用2*2大小的卷积核,步长为2,不进行填充操作,输出为16个通道,其目的是将CU划分结构的先验信息耦合进去。与此同时,多层的卷积学习将有利于深度特征的表达性能,但考虑到复杂的网络结构会加大编码负担,所以前向只有2层卷积层。
通道注意力机制模块1:通道注意力机制模块结构如图4所示。其依对输入张量的通道进行建模,使用16*16卷积代替全局平均池化,将输入的张量压缩为一个反映通道信息的权重向量,向量中的每个元素代表了通道的全局信息,再经过一个全连接网络对获取每个通道的权重进行重新分配,并将重新分配的权重返回给每个通道,最后进行批归一化处理。由此,对网络贡献大的通道将获得更高的权重,对网络贡献小的通道则获得较小的权重,如此可以加强不同特征通道对于关键信息描述的差异性的作用,对每个通道的重要性进行额外的权重分配处理,使得网络模型能够考虑空间和通道信息,而非对两种信息进行割裂的处理,从而提高了网络模型的拟合能力后面添加的批归一化处理是为了将数据尽量约束在一个独立同分布的假设下,加快网络的收敛速度。
卷积层3:针对不同CU划分深度进一步强化深度特征的表达。在该层使用的是2*2大小的卷积核,边长为2,不采取填充操作,其中大尺寸CU深度特征是由其临近小尺寸CU深度特征卷积获得,得多的特征图在感受野上与CU划分大小相对应,其原因在于经过降分辨率卷积的次数越多,所能表达的结构特征越复杂,其特征也越能够反映全局特征,也就对于大尺寸的CU具有更好地描述效果。
通道注意力机制模块2:通道注意力机制模块结构如图4所示。其结构与功能的通道注意力机制模块相同,但该模块的卷积核尺寸与输入该模块的卷积特征尺寸相同,目的是强化不同CU尺寸深度特征的表达。
全连接层:CU划分表征矢量预测网络最后是三层的全连接层。在此过程中将归一化的量化参数(Quantization Parameter,QP)也引入到全连接网络中,以数值的形式,拼接在全连接层的预测矢量上,实现QP在网络中的非线性融合。同时考虑各级别信息由于具有高度的传承性,所以各层的预测过程不能割裂的看待。所以引入特征传递机制,将小尺寸CU级别的第二层全连接层的特征向大一级别的第二层全连接层进行传递,进行行有效拼接,来实现该大级别CU的划分结果预测。此外,网络设计中使用Leaky-ReLU激活函数代替传统ReLU函数,解决了当输入为负值时,神经元不能更新参数的问题,同时它将高维向量映射到给定类别的低维向量中,每个元素的值代表CU在该尺寸对应位置上的拟合数值,其中大于0.5判定为划分,小于0.5判定为不划分。
对于Step2:训练CU划分表征矢量预测模型。
训练编码单元划分表征矢量预测模型的具体步骤为:通过大量图片视频序列构建数据集,并将数据集划分为训练集、验证集和测试集;设计相应损失函数;将训练集的数据用于的模型初始学习,并使用验证集来调整超参数,最后通过测试集检验模型效果。
通过大量图片视频序列构建数据集,并将数据集划分为训练集、验证集和测试集是指在HEVC标准程序中按照不同QP进行编码,记录CU亮度的归一化数据,QP信息以及不同级别的划分结果。这是由于亮度分量相比于色度信息包含了更多的视觉信息,所以只利用亮度信息可在不影响网络质量的同时有效减少后续特征提取难度。同时,因为量化参数QP作为影响视频编码质量的重要参数,不同的QP的设定,对于最后CU划分结构影响重大,所需要区别记录,提高网络对于不同QP的泛化性能。并将数据集划分为训练集、验证集和测试集是为了便于调整网络超参数并便于准确的评估网络性能。
设计相应损失函数是指采用下面CU划分结构预测网络的成本函数J作为损失函数来约束网络训练过程:
Figure BDA0002447317410000101
其中α1,α2和α3是控制每级别对于CU划分结构贡献的权值,与CU划分过程中QP密切相关,th0和th1为判别在CU尺寸为64×64,32×32时是否划分的阈值,其中yn表示对应于
Figure BDA0002447317410000102
中第n个位置划分标识符的真实值。在此过程中,充分参考到获得CU划分矢量的实际意义,在损失函数中体现了对于大尺寸CU是否划分的思考,使得不同深度层的编码单元信息在递进的特征学习中得到参数共享。这种方式可以提高编码单元信息的利用率,并提升CU划分特征矢量的表达能力。
将训练集的数据用于的模型初始学习,具体步骤为在模型训练中使用Adam优化算法进行参数优化,并设置初始学习率为0.0003、0.9的一阶矩估计的指数衰减率和0.999的二阶矩估计的指数衰减率为默认超参数,同时采用学习率衰减和Dropout优化技术避免模型过拟。训练期间,使用验证集调整迭代次数、数据批次等超参数,当网络的损失不再下降后,使用测试集来评估网络的性能。
在对于Step3:获取待划分编码单元视频信息并进行标准化处理;
CU划分表征矢量预测网络处理的是视频中CU尺寸大小为64*64的亮度信息,因此将需要对待划分编码单元视频信息进行标准化处理:从YUV格式的视频序列中提取出来的亮度信息进行归一化操作,最后按照训练模型中编码单元的划分尺寸进行从左到右,从上到下的依次划分。
对于Step4:将处理后的数据输入到训练好的CU划分表征矢量预测网络并输出编码单元划分表征矢量。
处理后的数据输入到训练好的编码单元划分表征矢量预测网络,网络模型的输出为一个21维向量,其21维依次为编码单元从大到小,位置从左到右,从上到下的划分标识量,其位置关系如附图5所示,其数值通过与阈值0.5的比较(大于等于阈值0.5判别为划分,小于阈值0.5判别为不划分)得到编码单元划分表征矢量的最终结果。此外,大编码单元预测结果为不划分时,则不考虑其涵盖的子编码单元是否还需划分。其数值为编码单元划分表征矢量的最终结果;
对于Step5:根据编码单元划分表征矢量完成后续编码流程,最终输出视频编码码流。
依据编码单元划分表征矢量完成CU划分过程,并进行编码流程后续的变化、量化、环路滤波、熵编码等编码流程,最终输出视频编码码流。
本发明基于深度特征表达与学习的HEVC帧内快速编码方法与HEVC(HM16.5)四叉树划分方法进行比较,编码性能统计结果见表2。
编码环境配置为:
HEVC国际标准编码算法版本HM16.5,
量化步长QP:分别选取22,27,32,37;
编码模式:帧内编码;
LCU尺寸:64×64;
编码长度:50帧;
标准测试序列:选取4种不同分辨率下(416×240、832×480、1280×720、1920×1080、2560×1600)的8种国际标准测试序列(PeopleOnStreeet,Traffic,Cactus,ParkScene,BQMall,RaceHorses,BasketballPass,BlowingBubbles);
编码性能统计方法:采用国际通用标准BDPSNR(
Figure BDA0002447317410000122
delta Peak Signalto Noise Ratio,BDBR)衡量编码率失真性能,用ΔT表示复杂度的降低程度,ΔT的计算公式如下:
Figure BDA0002447317410000121
其中,TProposed为实际编码时间,THM-16.5为HM16.5编码时间。
表1统计结果表明,实验结果表明,在不影响视频编码质量的前提下,本文所提算法有效地降低了HEVC的编码复杂度,与原始方法相比,在标准测试序列上编码复杂度平均下降了70.96%。以上实验统计数据证明了本发明提出的基于深度特征表达与学习的HEVC帧内快速编码算法的合理性和有效性。
表1 CU划分表征矢量预测网络参数表
Figure BDA0002447317410000131
注:级别1,2,3分别对应CU大小为16×16,32×32,64×64划分矢量的级别。
表2本发明方法与HEVC(HM16.5)的编码性能比较
Figure BDA0002447317410000141
注:
Figure BDA0002447317410000142
为本发明与HM16.5在QP=22,27,32,37编码下ΔT的均值。

Claims (10)

1.一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,包括以下步骤:
构建CU划分表征矢量预测网络;
训练CU划分表征矢量预测模型;
获取待划分编码单元视频信息并进行标准化处理;
将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量;
根据编码单元划分表征矢量完成后续编码流程,最终输出视频编码码流。
2.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法法,其特征在于,
所述CU划分表征矢量预测网络从3个级别出发,包括从全局角度出发的前两个卷积层和第一层通道注意力机制模块;以及在此之后,回归三个层次各自深度特征表达的学习,包含3个级别各自的通道注意力机制模块及3层全连接层。
3.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,CU划分表征矢量预测网络中,所用卷积层采用偶数边长的卷积核,步长和边长保持一致,不进行填充操作,使得降采样的特征图的感受野尺寸与编码单元划分尺寸相对应,提升模型的适配性。
4.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,CU划分表征矢量预测网络中,所用通道注意力机制模块包括一个卷积核尺寸与输入该模块的卷积特征尺寸相同使用的卷积层,一个全连接网络,一个权重整合层和批归一化处理;
其中,卷积层用于初步通道信息的压缩;
全连接网络用于对获取每个通道的权重进行重新分配,加强不同特征通道对于关键信息描述的差异性的作用;
权重整合层用于对每个通道的重要性进行额外的权重分配处理;
批归一化处理用于将数据尽量约束在一个独立同分布的假设下,加快网络的收敛速度。
5.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,CU划分表征矢量预测网络中,所述CU划分表征矢量预测网络的全连接层是将归一化的量化参数QP以归一化数值的形式拼接在全连接层的预测矢量上,并引入特征传递机制,将小尺寸CU级别的全连接层的特征向大一级别的全连接层进行传递,将各层的预测过程整体看待;非线性激活层使用了高性能的Leaky-ReLU激活。
6.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,,其特征在于,
训练所述CU划分表征矢量预测网络的具体方法为:
通过大量图片视频序列构建数据集,并将数据集划分为训练集、验证集和测试集;
设计相应损失函数;
将训练集的数据用于的模型初始学习,并使用验证集来调整超参数,最后通过测试集检验模型效果。
7.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,训练所述CU划分表征矢量预测网络的具体方法,通过大量图片视频序列构建数据集,并将数据集划分为训练集、验证集和测试集的具体方法为:
在HEVC标准程序HM16.5中按照不同QP对图片视频序列进行编码,记录CU亮度的归一化数据,QP信息以及不同级别的划分结果,构成数据集;并以17:1:2的比例将数据集划分为训练集、验证集和测试集。
8.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,训练所述CU划分表征矢量预测网络的具体方法,设计相应损失函数的具体方法为:
采用下面CU划分结构预测网络的成本函数J作为损失函数来约束网络训练过程:
Figure FDA0002447317400000031
其中α1,α2和α3是控制每级别对于CU划分结构贡献的权值,与CU划分过程中QP密切相关,th0和th1为判别在CU尺寸为64×64,32×32时是否划分的阈值,其中yn表示对应于
Figure FDA0002447317400000032
中第n个位置划分标识符的真实值;在此过程中,参考CU划分矢量的实际意义,体现了对于大尺寸CU是否划分的思考,使不同深度层的编码单元信息在递进的特征学习中得到参数共享。
9.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,训练所述CU划分表征矢量预测网络的具体方法,将训练集的数据用于的模型初始学习,并使用验证集来调整超参数,最后通过测试集检验模型效果的具体方法为:
将训练集的数据用于的模型初始学习,其过程使用Adam优化算法进行参数优化,采用学习率衰减和Dropout优化技术避免模型过拟;训练期间,使用验证集调整迭代次数、数据批次等超参数,当网络的损失不再下降后,使用测试集来评估网络的性能。
10.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法,其特征在于,,其特征在于:
所述获取待划分编码单元视频信息并进行标准化处理是从YUV格式的视频序列中提取出来的亮度信息进行归一化操作,最后按照训练模型中编码单元的划分尺寸进行从左到右,从上到下的依次划分;
将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量的具体方法为:
处理后的数据输入到训练好的编码单元划分表征矢量预测网络,网络模型的针对每个CU输出为一个包含编码单元大小及位置信息的划分标识量,其数值通过与阈值的比较得到编码单元划分表征矢量的最终结果;此外,若大尺寸编码单元预测结果为不划分时,则不考虑其涵盖的子编码单元是否还需划分;其数值为编码单元划分表征矢量的最终结果;
所述根据编码单元划分表征矢量完成后续编码流程,最终输出视频编码码流的具体方法为:
依据编码单元划分表征矢量完成CU划分过程,并进行编码流程后续的变化、量化、环路滤波、熵编码编码流程,最终输出视频编码码流。
CN202010282678.9A 2020-04-12 2020-04-12 一种基于深度特征表达与学习的hevc帧内快速编码方法 Active CN111510728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010282678.9A CN111510728B (zh) 2020-04-12 2020-04-12 一种基于深度特征表达与学习的hevc帧内快速编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010282678.9A CN111510728B (zh) 2020-04-12 2020-04-12 一种基于深度特征表达与学习的hevc帧内快速编码方法

Publications (2)

Publication Number Publication Date
CN111510728A true CN111510728A (zh) 2020-08-07
CN111510728B CN111510728B (zh) 2022-05-06

Family

ID=71870942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010282678.9A Active CN111510728B (zh) 2020-04-12 2020-04-12 一种基于深度特征表达与学习的hevc帧内快速编码方法

Country Status (1)

Country Link
CN (1) CN111510728B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781588A (zh) * 2021-07-01 2021-12-10 杭州未名信科科技有限公司 一种基于神经网络的帧内编码单元尺寸划分方法
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
WO2023051583A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视频编码单元划分方法及装置、计算机设备和计算机可读存储介质
CN115955574A (zh) * 2023-03-10 2023-04-11 宁波康达凯能医疗科技有限公司 一种基于权重网络的帧内图像编码方法、装置及存储介质
CN116634147A (zh) * 2023-07-25 2023-08-22 华侨大学 基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置
WO2024001886A1 (zh) * 2022-06-30 2024-01-04 深圳市中兴微电子技术有限公司 编码单元划分方法、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873861A (zh) * 2014-02-24 2014-06-18 西南交通大学 一种用于hevc的编码模式选择方法
CN106961606A (zh) * 2017-01-26 2017-07-18 浙江工业大学 基于纹理划分特征的hevc帧内编码模式选择方法
CN109714584A (zh) * 2019-01-11 2019-05-03 杭州电子科技大学 基于深度学习的3d-hevc深度图编码单元快速决策方法
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法
US20200026965A1 (en) * 2017-04-07 2020-01-23 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
US20210195206A1 (en) * 2017-12-13 2021-06-24 Nokia Technologies Oy An Apparatus, A Method and a Computer Program for Video Coding and Decoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873861A (zh) * 2014-02-24 2014-06-18 西南交通大学 一种用于hevc的编码模式选择方法
CN106961606A (zh) * 2017-01-26 2017-07-18 浙江工业大学 基于纹理划分特征的hevc帧内编码模式选择方法
US20200026965A1 (en) * 2017-04-07 2020-01-23 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
US20210195206A1 (en) * 2017-12-13 2021-06-24 Nokia Technologies Oy An Apparatus, A Method and a Computer Program for Video Coding and Decoding
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法
CN109714584A (zh) * 2019-01-11 2019-05-03 杭州电子科技大学 基于深度学习的3d-hevc深度图编码单元快速决策方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781588A (zh) * 2021-07-01 2021-12-10 杭州未名信科科技有限公司 一种基于神经网络的帧内编码单元尺寸划分方法
WO2023051583A1 (zh) * 2021-09-30 2023-04-06 中兴通讯股份有限公司 视频编码单元划分方法及装置、计算机设备和计算机可读存储介质
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
WO2024001886A1 (zh) * 2022-06-30 2024-01-04 深圳市中兴微电子技术有限公司 编码单元划分方法、电子设备和计算机可读存储介质
CN115955574A (zh) * 2023-03-10 2023-04-11 宁波康达凯能医疗科技有限公司 一种基于权重网络的帧内图像编码方法、装置及存储介质
CN116634147A (zh) * 2023-07-25 2023-08-22 华侨大学 基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置
CN116634147B (zh) * 2023-07-25 2023-10-31 华侨大学 基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置

Also Published As

Publication number Publication date
CN111510728B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN111510728B (zh) 一种基于深度特征表达与学习的hevc帧内快速编码方法
Cui et al. Convolutional neural networks based intra prediction for HEVC
CN105049850B (zh) 基于感兴趣区域的hevc码率控制方法
CN112738511B (zh) 一种结合视频分析的快速模式决策方法及装置
US20230082809A1 (en) Method and data processing system for lossy image or video encoding, transmissionand decoding
CN102187656A (zh) 像素预测值生成顺序自动生成方法、图像编码方法、图像解码方法、其装置、其程序和记录了这些程序的记录介质
CN108243340A (zh) 动图像编码装置以及动图像编码方法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN108769696A (zh) 一种基于Fisher判别式的DVC-HEVC视频转码方法
WO2022063265A1 (zh) 帧间预测方法及装置
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN115941943A (zh) 一种hevc视频编码方法
CN116916036A (zh) 视频压缩方法、装置及系统
Fu et al. Efficient depth intra frame coding in 3D-HEVC by corner points
Huang et al. Modeling acceleration properties for flexible intra hevc complexity control
WO2022111233A1 (zh) 帧内预测模式的译码方法和装置
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN110677624B (zh) 基于深度学习的面向监控视频的前景和背景并行压缩方法
CN110581993A (zh) 一种基于多用途编码中帧内编码的编码单元快速划分方法
WO2023020320A1 (zh) 熵编解码方法和装置
CN114386595B (zh) 一种基于超先验架构的sar图像压缩方法
Zhao et al. Efficient screen content coding based on convolutional neural network guided by a large-scale database
CN111246218B (zh) 基于jnd模型的cu分割预测和模式决策纹理编码方法
CN112243123B (zh) 一种基于无损编码的hevc码率优化方法
Lin et al. CU partition prediction scheme for X265 intra coding using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221101

Address after: 100012 817, Floor 8, No. 101, Floor 3 to 8, Building 17, Rongchuang Road, Chaoyang District, Beijing

Patentee after: Beijing Ge Lei Information Technology Co.,Ltd.

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology

TR01 Transfer of patent right